Un modelo de texto a voz de peso abierto de vanguardia, entrenado con más de 200,000 horas de datos de voz multilingües.
Zonos TTS está diseñado para generar voz altamente natural a partir de indicaciones de texto, utilizando incrustaciones de hablante o prefijos de audio. Solo necesita unos pocos segundos de audio de referencia para lograr un excelente clonado de voz.
El modelo proporciona un control preciso sobre los parámetros de voz, como la velocidad de habla, las variaciones de tono, la calidad del audio y el color emocional como la felicidad, el miedo, la tristeza y la ira. Zonos TTS genera audio de 44 kHz de manera nativa para garantizar una calidad de sonido de primera clase.
Empezar a usar
Genere una salida TTS de alta calidad ingresando el texto deseado y una muestra de 10 a 30 segundos del hablante.
Mejora el emparejamiento de hablantes agregando un prefijo de audio a la entrada de texto, permitiendo acciones como susurrar.
Soporta inglés, japonés, chino, francés y alemán con una pronunciación natural.
Ajustar con precisión la velocidad de habla, el tono, la calidad de audio y la expresión emocional.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS actualmente admite inglés, japonés, chino, francés y alemán.
Puedes ajustar el matiz emocional ajustando parámetros como felicidad, ira, tristeza y miedo en los ajustes.
El factor de tiempo real de Zonos TTS es aproximadamente 2x cuando se ejecuta en la RTX 4090.
Zonos TTS se puede instalar y desplegar fácilmente usando los archivos Docker proporcionados en nuestro repositorio.
Consulte nuestros términos de licencia para obtener información sobre el uso comercial.