テキストを自然な音声に変換 Zonos TTSを使用する

200,000時間以上の多言語音声データで訓練された最先端のオープンウェイトテキストツーspeechモデル。

Zonos TTSについて

Zonos TTSは、話者埋め込みやオーディオプレフィックスを使用して、テキストプロンプトから非常に自然な音声を生成することを目指しています。わずか数秒のリファレンスオーディオで優れたボイスクローンを実現します。

このモデルは、話す速度、ピッチの変化、オーディオ品質、喜び、恐怖、悲しみ、怒りなどの感情的な色付けなど、音声パラメーターに対する精密な制御を提供します。Zonos TTSは44kHzのオーディオをネイティブに出力し、最高品質の音質を確保します。

使い始める

主要な特長

ゼロショットTTSと音声クローン

必要なテキストと話者の10〜30秒のサンプルを入力して、高品質なTTS出力を生成します。

オーディオのプレフィックス入力

テキスト入力にオーディオプレフィックスを追加して話者照合を強化し、ささやきなどの動作を実現します。

多言語サポート

英語、日本語、中国語、フランス語、ドイツ語を自然な発音でサポートします。

高度な制御

話す速度、ピッチ、オーディオの品質、感情表現を正確に調整します。

クイックスタートガイド

Python の実装


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Gradioインターフェース(推奨)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

よくある質問

Zonos TTSはどの言語をサポートしていますか?

Zonos TTSは現在、英語、日本語、中国語、フランス語、ドイツ語をサポートしています。

生成された音声の感情的なニュアンスをどう制御しますか?

設定で喜び、怒り、悲しみ、恐怖などのパラメーターを調整することで、感情的な色合いを微調整できます。

Zonos TTSのリアルタイム係数はどれですか?

RTX 4090 上で実行する場合、Zonos TTS のリアルタイム係数は約 2倍です。

Zonos TTSをどのようにインストールしますか?

Zonos TTS は、私たちのリポジトリで提供される Docker ファイルを使用して簡単にインストールおよびデプロイできます。

Zonos TTS を商用で使用できますか?

商用利用に関する情報は、ライセンス条項をご参照ください。