一個前沿的開放權重文本轉語音模型,在超過200,000小時的多語言語音數據上訓練而成。
Zonos TTS 旨在通過文本提示生成高度自然的語音,利用說話人嵌入或音頻前綴。它只需要幾秒鐘的參考音頻就能實現出色的聲音克隆。
該模型提供對語音參數的精確控制,如說話速率、音高變化、音頻質量,以及快樂、恐懼、悲傷和憤怒等情感色彩。Zonos TTS 原生輸出44kHz的音頻,確保頂級音質。
開始使用
通過輸入所需文本和10-30秒的說話人樣本,生成高質量的TTS輸出。
透過添加音頻前綴到文本輸入來增強說話人匹配,實現如耳語等行為。
支援英語、日語、中文、法語和德語,具有自然的發音。
精確調節說話速率、音高、音頻質量和情感表達。
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS目前支援英語、日語、中文、法語和德語。
您可以在條件設定中調整快樂、憤怒、悲傷和恐懼等參數來微調情感色彩。
Zonos TTS 在 RTX 4090 上運行時實時因子約為 2倍。
Zonos TTS 可以使用我們倉庫中提供的 Docker 檔案輕鬆安裝和部署。
請參考我們的許可條款了解商業使用相關資訊。