Un modello di testo in parola di punta a pesi aperti, addestrato su più di 200.000 ore di dati vocali multilingue.
Zonos TTS è progettato per generare un parlato altamente naturale da suggerimenti testuali, utilizzando le incorporazioni del parlante o i prefissi audio. Ha bisogno solo di pochi secondi di audio di riferimento per ottenere un eccellente clonazione vocale.
Il modello fornisce un controllo preciso sui parametri vocali, come la velocità di parlare, le variazioni di tono, la qualità audio e la colorazione emotiva come la gioia, la paura, la tristezza e l'ira. Zonos TTS produce in modo nativo audio a 44kHz per garantire una qualità sonora di prim'ordine.
Inizia a usare
Genera un output TTS di alta qualità inserendo il testo desiderato e un campione di 10-30 secondi del parlante.
Migliora il riconoscimento del parlante aggiungendo un prefisso audio all'input di testo, consentendo azioni come il bisbiglio.
Supporta inglese, giapponese, cinese, francese e tedesco con pronuncia naturale.
Regolare con precisione la velocità di parola, l'altezza del tono, la qualità audio e l'espressione emotiva.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS attualmente supporta l'inglese, il giapponese, il cinese, il francese e il tedesco.
Puoi bilanciare il tono emotivo regolando i parametri come felicità, rabbia, tristezza e paura nelle impostazioni.
Il fattore temporale reale di Zonos TTS è di circa 2x quando viene eseguito sulla RTX 4090.
Zonos TTS può essere facilmente installato e distribuito utilizzando i file Docker forniti nel nostro repository.
Si prega di fare riferimento ai nostri termini della licenza per le informazioni sull'uso commerciale.