Um modelo de conversão de texto em fala de ponta com pesos abertos, treinado em mais de 200.000 horas de dados de fala multilíngue.
O Zonos TTS foi projetado para gerar fala altamente natural a partir de instruções de texto, utilizando incorporações de falantes ou prefixos de áudio. Ele precisa apenas de alguns segundos de áudio de referência para alcançar um excelente clone de voz.
O modelo fornece controle preciso sobre os parâmetros de fala, como taxa de fala, variação de tom, qualidade do áudio e coloração emocional como alegria, medo, tristeza e raiva. O Zonos TTS produz nativamente áudio de 44 kHz para garantir a melhor qualidade sonora.
Começar a usar
Gere uma saída TTS de alta qualidade inserindo o texto desejado e uma amostra de 10 a 30 segundos do falante.
Melhore o casamento do falante adicionando um prefixo de áudio à entrada de texto, permitindo ações como sussurro.
Suporta inglês, japonês, chinês, francês e alemão com pronúncia natural.
Ajustar com precisão a taxa de fala, tom, qualidade de áudio e expressão emocional.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
O Zonos TTS atualmente suporta inglês, japonês, chinês, francês e alemão.
Você pode ajustar a tonalidade emocional ajustando parâmetros como felicidade, raiva, tristeza e medo nas configurações.
O fator de tempo real do Zonos TTS é de aproximadamente 2x ao ser executado em uma RTX 4090.
O Zonos TTS pode ser facilmente instalado e implantado usando os arquivos Docker fornecidos em nosso repositório.
Consulte nossos termos de licença para obter informações sobre o uso comercial.