Converter texto em fala natural Use Zonos TTS

Um modelo de conversão de texto em fala de ponta com pesos abertos, treinado em mais de 200.000 horas de dados de fala multilíngue.

Sobre o Zonos TTS

O Zonos TTS foi projetado para gerar fala altamente natural a partir de instruções de texto, utilizando incorporações de falantes ou prefixos de áudio. Ele precisa apenas de alguns segundos de áudio de referência para alcançar um excelente clone de voz.

O modelo fornece controle preciso sobre os parâmetros de fala, como taxa de fala, variação de tom, qualidade do áudio e coloração emocional como alegria, medo, tristeza e raiva. O Zonos TTS produz nativamente áudio de 44 kHz para garantir a melhor qualidade sonora.

Começar a usar

Principais recursos

TTS zero-shot e clonagem de voz

Gere uma saída TTS de alta qualidade inserindo o texto desejado e uma amostra de 10 a 30 segundos do falante.

Entrada de prefixo de áudio

Melhore o casamento do falante adicionando um prefixo de áudio à entrada de texto, permitindo ações como sussurro.

Suporte Multilíngue

Suporta inglês, japonês, chinês, francês e alemão com pronúncia natural.

Controle Avançado

Ajustar com precisão a taxa de fala, tom, qualidade de áudio e expressão emocional.

Guia de Início Rápido

implementação do Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Interface do Gradio (recomendada)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

Perguntas frequentes

Quais idiomas o Zonos TTS suporta?

O Zonos TTS atualmente suporta inglês, japonês, chinês, francês e alemão.

Como controlar o tom emocional da fala gerada?

Você pode ajustar a tonalidade emocional ajustando parâmetros como felicidade, raiva, tristeza e medo nas configurações.

Qual é o fator em tempo real do Zonos TTS?

O fator de tempo real do Zonos TTS é de aproximadamente 2x ao ser executado em uma RTX 4090.

Como instalar o Zonos TTS?

O Zonos TTS pode ser facilmente instalado e implantado usando os arquivos Docker fornecidos em nosso repositório.

Posso usar o Zonos TTS para fins comerciais?

Consulte nossos termos de licença para obter informações sobre o uso comercial.