Convertir le texte en parole naturelle Utilisez Zonos TTS

Un modèle de synthèse vocale à poids ouverts de pointe, formé sur plus de 200 000 heures de données vocales multilingues.

À propos de Zonos TTS

Zonos TTS est conçu pour générer un discours hautement naturel à partir de prompts textuels, en utilisant des plongements de locuteur ou des préfixes audio. Il n'a besoin que de quelques secondes d'audio de référence pour réaliser un clonage vocal excellent.

Le modèle offre un contrôle précis des paramètres vocaux, tels que la vitesse de parole, les variations de tonalité, la qualité audio et les colorations émotionnelles comme la joie, la peur, la tristesse et la colère. Zonos TTS produit nativement un son à 44 kHz pour garantir une qualité sonore de premier ordre.

Commencer

Caractéristiques principales

TTS à zéro exemple et clonage vocal

Générez une sortie TTS de haute qualité en entrant le texte souhaité et un échantillon de 10 à 30 secondes du locuteur.

Saisie du préfixe audio

Améliorez l'appariement des locuteurs en ajoutant un préfixe audio à l'entrée texte, permettant des actions comme le chuchotement.

Support Multilingue

Prend en charge l'anglais, le japonais, le chinois, le français et l'allemand avec une prononciation naturelle.

Contrôle Avancé

Ajuster précisément la vitesse de parole, la hauteur, la qualité audio et l'expression émotionnelle.

Guide de Démarrage Rapide

implémentation Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Interface Gradio (recommandée)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

FAQ

Quelles langues Zonos TTS prend-il en charge ?

Zonos TTS prend actuellement en charge l'anglais, le japonais, le chinois, le français et l'allemand.

Comment contrôler la teinte émotionnelle de la parole générée?

Vous pouvez affiner la teinte émotionnelle en ajustant les paramètres tels que la joie, la colère, la tristesse et la peur dans les réglages.

Quel est le facteur en temps réel de Zonos TTS ?

Le facteur temps réel de Zonos TTS est d'environ 2x lorsqu'il s'exécute sur une RTX 4090.

Comment installer Zonos TTS ?

Zonos TTS peut être facilement installé et déployé à l'aide des fichiers Docker fournis dans notre dépôt.

Puis-je utiliser Zonos TTS à des fins commerciales ?

Veuillez vous référer à nos conditions de licence pour obtenir des informations sur l'utilisation commerciale.