將文本轉換為自然語音 使用 Zonos TTS

一個前沿的開放權重文本轉語音模型,在超過200,000小時的多語言語音數據上訓練而成。

關於 Zonos TTS

Zonos TTS 旨在通過文本提示生成高度自然的語音,利用說話人嵌入或音頻前綴。它只需要幾秒鐘的參考音頻就能實現出色的聲音克隆。

該模型提供對語音參數的精確控制,如說話速率、音高變化、音頻質量,以及快樂、恐懼、悲傷和憤怒等情感色彩。Zonos TTS 原生輸出44kHz的音頻,確保頂級音質。

開始使用

核心特徵

零樣本 TTS 與聲音克隆

通過輸入所需文本和10-30秒的說話人樣本,生成高質量的TTS輸出。

音頻前綴輸入

透過添加音頻前綴到文本輸入來增強說話人匹配,實現如耳語等行為。

多語言支援

支援英語、日語、中文、法語和德語,具有自然的發音。

高級控制

精確調節說話速率、音高、音頻質量和情感表達。

快速開始指南

Python 實現


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Gradio 界面(推薦)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

常見問題

Zonos TTS 支援哪些語言?

Zonos TTS目前支援英語、日語、中文、法語和德語。

如何控制生成語音的情感色彩?

您可以在條件設定中調整快樂、憤怒、悲傷和恐懼等參數來微調情感色彩。

Zonos TTS 的即時係數是多少?

Zonos TTS 在 RTX 4090 上運行時實時因子約為 2倍。

如何安裝 Zonos TTS?

Zonos TTS 可以使用我們倉庫中提供的 Docker 檔案輕鬆安裝和部署。

我可以用 Zonos TTS 作商業用途嗎?

請參考我們的許可條款了解商業使用相關資訊。