Un modèle de synthèse vocale à poids ouverts de pointe, formé sur plus de 200 000 heures de données vocales multilingues.
Zonos TTS est conçu pour générer un discours hautement naturel à partir de prompts textuels, en utilisant des plongements de locuteur ou des préfixes audio. Il n'a besoin que de quelques secondes d'audio de référence pour réaliser un clonage vocal excellent.
Le modèle offre un contrôle précis des paramètres vocaux, tels que la vitesse de parole, les variations de tonalité, la qualité audio et les colorations émotionnelles comme la joie, la peur, la tristesse et la colère. Zonos TTS produit nativement un son à 44 kHz pour garantir une qualité sonore de premier ordre.
Commencer
Générez une sortie TTS de haute qualité en entrant le texte souhaité et un échantillon de 10 à 30 secondes du locuteur.
Améliorez l'appariement des locuteurs en ajoutant un préfixe audio à l'entrée texte, permettant des actions comme le chuchotement.
Prend en charge l'anglais, le japonais, le chinois, le français et l'allemand avec une prononciation naturelle.
Ajuster précisément la vitesse de parole, la hauteur, la qualité audio et l'expression émotionnelle.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS prend actuellement en charge l'anglais, le japonais, le chinois, le français et l'allemand.
Vous pouvez affiner la teinte émotionnelle en ajustant les paramètres tels que la joie, la colère, la tristesse et la peur dans les réglages.
Le facteur temps réel de Zonos TTS est d'environ 2x lorsqu'il s'exécute sur une RTX 4090.
Zonos TTS peut être facilement installé et déployé à l'aide des fichiers Docker fournis dans notre dépôt.
Veuillez vous référer à nos conditions de licence pour obtenir des informations sur l'utilisation commerciale.