将文本转换为自然语音 使用 Zonos TTS

一个前沿的开放权重文本转语音模型,在超过200,000小时的多语言语音数据上训练而成。

关于 Zonos TTS

Zonos TTS 旨在通过文本提示生成高度自然的语音,利用说话人嵌入或音频前缀。它只需要几秒钟的参考音频就能实现出色的声音克隆。

该模型提供对语音参数的精确控制,如说话速率、音高变化、音频质量,以及快乐、恐惧、悲伤和愤怒等情感色彩。Zonos TTS 原生输出44kHz的音频,确保顶级音质。

开始使用

核心特性

零样本 TTS 与声音克隆

通过输入所需文本和10-30秒的说话人样本,生成高质量的TTS输出。

音频前缀输入

通过添加音频前缀到文本输入来增强说话人匹配,实现如耳语等行为。

多语言支持

支持英语、日语、中文、法语和德语,具有自然的发音。

高级控制

精确调节说话速率、音高、音频质量和情感表达。

快速开始指南

Python 实现


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Gradio界面(推荐)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

常见问题

Zonos TTS 支持哪些语言?

Zonos TTS目前支持英语、日语、中文、法语和德语。

如何控制生成语音的情感色彩?

您可以通过在条件设置中调整快乐、愤怒、悲伤和恐惧等参数来微调情感色彩。

Zonos TTS 的实时因子是多少?

Zonos TTS 在 RTX 4090 上运行时实时因子约为 2倍。

如何安装 Zonos TTS?

Zonos TTS 可以使用我们仓库中提供的 Docker 文件轻松安装和部署。

我可以将 Zonos TTS 用于商业目的吗?

请参考我们的许可条款了解商业使用相关信息。