Zonos TTS - Texto a voz avanzado con clonación de voz

Acerca de Zonos TTS

Zonos TTS está diseñado para generar voz altamente natural a partir de indicaciones de texto, utilizando incrustaciones de hablante o prefijos de audio. Solo necesita unos pocos segundos de audio de referencia para lograr un excelente clonado de voz.

El modelo proporciona un control preciso sobre los parámetros de voz, como la velocidad de habla, las variaciones de tono, la calidad del audio y el color emocional como la felicidad, el miedo, la tristeza y la ira. Zonos TTS genera audio de 44 kHz de manera nativa para garantizar una calidad de sonido de primera clase.

Empezar a usar

Características principales

TTS de tiro cero y clonación de voz

Genere una salida TTS de alta calidad ingresando el texto deseado y una muestra de 10 a 30 segundos del hablante.

Entrada de prefijo de audio

Mejora el emparejamiento de hablantes agregando un prefijo de audio a la entrada de texto, permitiendo acciones como susurrar.

Soporte Multilingüe

Soporta inglés, japonés, chino, francés y alemán con una pronunciación natural.

Control Avanzado

Ajustar con precisión la velocidad de habla, el tono, la calidad de audio y la expresión emocional.

Guía de inicio rápido

implementación de Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Interfaz de Gradio (recomendada)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Preguntas frecuentes

¿Qué idiomas admite Zonos TTS?

Zonos TTS actualmente admite inglés, japonés, chino, francés y alemán.

¿Cómo controlar el tono emocional del discurso generado?

Puedes ajustar el matiz emocional ajustando parámetros como felicidad, ira, tristeza y miedo en los ajustes.

¿Cuál es el factor en tiempo real de Zonos TTS?

El factor de tiempo real de Zonos TTS es aproximadamente 2x cuando se ejecuta en la RTX 4090.

¿Cómo instalar Zonos TTS?

Zonos TTS se puede instalar y desplegar fácilmente usando los archivos Docker proporcionados en nuestro repositorio.

¿Puedo usar Zonos TTS con fines comerciales?

Consulte nuestros términos de licencia para obtener información sobre el uso comercial.

Convertir texto a discurso natural Usa Zonos TTS