Zonos TTS - Texto para fala avançada com clonagem de voz

Sobre o Zonos TTS

O Zonos TTS foi projetado para gerar fala altamente natural a partir de instruções de texto, utilizando incorporações de falantes ou prefixos de áudio. Ele precisa apenas de alguns segundos de áudio de referência para alcançar um excelente clone de voz.

O modelo fornece controle preciso sobre os parâmetros de fala, como taxa de fala, variação de tom, qualidade do áudio e coloração emocional como alegria, medo, tristeza e raiva. O Zonos TTS produz nativamente áudio de 44 kHz para garantir a melhor qualidade sonora.

Começar a usar

Principais recursos

TTS zero-shot e clonagem de voz

Gere uma saída TTS de alta qualidade inserindo o texto desejado e uma amostra de 10 a 30 segundos do falante.

Entrada de prefixo de áudio

Melhore o casamento do falante adicionando um prefixo de áudio à entrada de texto, permitindo ações como sussurro.

Suporte Multilíngue

Suporta inglês, japonês, chinês, francês e alemão com pronúncia natural.

Controle Avançado

Ajustar com precisão a taxa de fala, tom, qualidade de áudio e expressão emocional.

Guia de Início Rápido

implementação do Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Interface do Gradio (recomendada)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Perguntas frequentes

Quais idiomas o Zonos TTS suporta?

O Zonos TTS atualmente suporta inglês, japonês, chinês, francês e alemão.

Como controlar o tom emocional da fala gerada?

Você pode ajustar a tonalidade emocional ajustando parâmetros como felicidade, raiva, tristeza e medo nas configurações.

Qual é o fator em tempo real do Zonos TTS?

O fator de tempo real do Zonos TTS é de aproximadamente 2x ao ser executado em uma RTX 4090.

Como instalar o Zonos TTS?

O Zonos TTS pode ser facilmente instalado e implantado usando os arquivos Docker fornecidos em nosso repositório.

Posso usar o Zonos TTS para fins comerciais?

Consulte nossos termos de licença para obter informações sobre o uso comercial.

Converter texto em fala natural Use Zonos TTS