Преобразовать текст в естественную речь Используйте Zonos TTS

Передовая модель текст-в-речь с открытыми весами, обученная на более чем 200 000 часов многоязычных речевых данных.

О Zonos TTS

Zonos TTS предназначен для генерации высокоестественной речи по текстовым подсказкам, используя встраивания диктора или аудио-префиксы. Ему требуется всего несколько секунд эталонного аудио для отличного клонирования голоса.

Модель обеспечивает точный контроль над параметрами речи, такими как скорость речи, изменение тона, качество аудио и эмоциональные оттенки, такие как радость, страх, грусть и гнев. Zonos TTS встроенное аудио с частотой дискретизации 44 кГц обеспечивает высочайшее качество звука.

Начать работу

Основные характеристики

TTS с нуля и клонирование голоса

Создавайте качественный вывод TTS, вводя необходимый текст и образец голоса длиной от 10 до 30 секунд.

Ввод префикса аудио

Улучшите распознавание говорящего, добавив аудиопрификс к текстовому вводу, что позволяет выполнять действия, такие как шепот.

Многоязычная поддержка

Поддерживает английский, японский, китайский, французский и немецкий языки с естественным произношением.

Продвинутый контроль

Точная регулировка скорости речи, высоты тона, качества аудио и эмоционального выражения.

Руководство быстрого старта

реализация на Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Интерфейс Gradio (рекомендуется)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Часто задаваемые вопросы

Какие языки поддерживает Zonos TTS?

Zonos TTS в настоящее время поддерживает английский, японский, китайский, французский и немецкий языки.

Как контролировать эмоциональную окраску сгенерированной речи?

Вы можете отрегулировать эмоциональную окраску, настроив параметры, такие как счастье, гнев, грусть и страх, в настройках.

Каков коэффициент реального времени для Zonos TTS?

Коэффициент реального времени Zonos TTS составляет примерно 2x при запуске на RTX 4090.

Как установить Zonos TTS?

Zonos TTS можно легко установить и развернуть с помощью файлов Docker, предоставленных в нашем репозитории.

Могу ли я использовать Zonos TTS в коммерческих целях?

Пожалуйста, ознакомьтесь с нашими лицензионными условиями для получения информации о коммерческом использовании.