200,000時間以上の多言語音声データで訓練された最先端のオープンウェイトテキストツーspeechモデル。
Zonos TTSは、話者埋め込みやオーディオプレフィックスを使用して、テキストプロンプトから非常に自然な音声を生成することを目指しています。わずか数秒のリファレンスオーディオで優れたボイスクローンを実現します。
このモデルは、話す速度、ピッチの変化、オーディオ品質、喜び、恐怖、悲しみ、怒りなどの感情的な色付けなど、音声パラメーターに対する精密な制御を提供します。Zonos TTSは44kHzのオーディオをネイティブに出力し、最高品質の音質を確保します。
使い始める
必要なテキストと話者の10〜30秒のサンプルを入力して、高品質なTTS出力を生成します。
テキスト入力にオーディオプレフィックスを追加して話者照合を強化し、ささやきなどの動作を実現します。
英語、日本語、中国語、フランス語、ドイツ語を自然な発音でサポートします。
話す速度、ピッチ、オーディオの品質、感情表現を正確に調整します。
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTSは現在、英語、日本語、中国語、フランス語、ドイツ語をサポートしています。
設定で喜び、怒り、悲しみ、恐怖などのパラメーターを調整することで、感情的な色合いを微調整できます。
RTX 4090 上で実行する場合、Zonos TTS のリアルタイム係数は約 2倍です。
Zonos TTS は、私たちのリポジトリで提供される Docker ファイルを使用して簡単にインストールおよびデプロイできます。
商用利用に関する情報は、ライセンス条項をご参照ください。