一个前沿的开放权重文本转语音模型,在超过200,000小时的多语言语音数据上训练而成。
Zonos TTS 旨在通过文本提示生成高度自然的语音,利用说话人嵌入或音频前缀。它只需要几秒钟的参考音频就能实现出色的声音克隆。
该模型提供对语音参数的精确控制,如说话速率、音高变化、音频质量,以及快乐、恐惧、悲伤和愤怒等情感色彩。Zonos TTS 原生输出44kHz的音频,确保顶级音质。
开始使用
通过输入所需文本和10-30秒的说话人样本,生成高质量的TTS输出。
通过添加音频前缀到文本输入来增强说话人匹配,实现如耳语等行为。
支持英语、日语、中文、法语和德语,具有自然的发音。
精确调节说话速率、音高、音频质量和情感表达。
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS目前支持英语、日语、中文、法语和德语。
您可以通过在条件设置中调整快乐、愤怒、悲伤和恐惧等参数来微调情感色彩。
Zonos TTS 在 RTX 4090 上运行时实时因子约为 2倍。
Zonos TTS 可以使用我们仓库中提供的 Docker 文件轻松安装和部署。
请参考我们的许可条款了解商业使用相关信息。