Zonos TTS - 高级人工智能文本转语音与声音克隆

关于 Zonos TTS

Zonos TTS 旨在通过文本提示生成高度自然的语音，利用说话人嵌入或音频前缀。它只需要几秒钟的参考音频就能实现出色的声音克隆。

该模型提供对语音参数的精确控制，如说话速率、音高变化、音频质量，以及快乐、恐惧、悲伤和愤怒等情感色彩。Zonos TTS 原生输出44kHz的音频，确保顶级音质。

开始使用

核心特性

零样本 TTS 与声音克隆

通过输入所需文本和10-30秒的说话人样本，生成高质量的TTS输出。

音频前缀输入

通过添加音频前缀到文本输入来增强说话人匹配，实现如耳语等行为。

多语言支持

支持英语、日语、中文、法语和德语，具有自然的发音。

高级控制

精确调节说话速率、音高、音频质量和情感表达。

快速开始指南

Python 实现


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio界面（推荐）


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

常见问题

Zonos TTS 支持哪些语言？

Zonos TTS目前支持英语、日语、中文、法语和德语。

如何控制生成语音的情感色彩？

您可以通过在条件设置中调整快乐、愤怒、悲伤和恐惧等参数来微调情感色彩。

Zonos TTS 的实时因子是多少？

Zonos TTS 在 RTX 4090 上运行时实时因子约为 2倍。

如何安装 Zonos TTS？

Zonos TTS 可以使用我们仓库中提供的 Docker 文件轻松安装和部署。

我可以将 Zonos TTS 用于商业目的吗？

请参考我们的许可条款了解商业使用相关信息。

将文本转换为自然语音 使用 Zonos TTS