Een snijrandige open gewicht tekst-naar-spraakmodel getraind op meer dan 200.000 uur meertalige spraakgegevens.
Zonos TTS is ontworpen om zeer natuurlijke spraak te genereren op basis van tekstprompts, gebruikmakend van sprekerembeddings of audio-voorvoegsels. Het heeft slechts enkele seconden referentieaudio nodig om uitstekende stemclonen te creëren.
Het model biedt nauwkeurige controle over spraakparameters zoals spreempoeder, toonhoogteverandering, audio-kwaliteit en emotionele kleuring zoals geluk, angst, droefheid en woede. Zonos TTS genereert standaard 44kHz audio om de topkwaliteit van het geluid te garanderen.
Aan de slag gaan
Genereer een hoge-kwaliteit TTS-uitvoer door de gewenste tekst in te voeren en een voorbeeld van 10-30 seconden van de spreker.
Verbeter sprekersherkenning door een audioprefix toe te voegen aan tekst invoer, waardoor handelingen zoals fluisteren mogelijk worden.
Ondersteunt Engels, Japans, Chinees, Frans en Duits met natuurlijke uitspraak.
Spreektempo, toonhoogte, audiokwaliteit en emotionele uitdrukking nauwkeurig aanpassen.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS ondersteunt momenteel Engels, Japans, Chinees, Frans en Duits.
Je kunt de emotionele toon fijn afstellen door parameters zoals geluk, woede, droefheid en angst in de instellingen aan te passen.
De real-time factor van Zonos TTS is ongeveer 2x bij uitvoering op de RTX 4090.
Zonos TTS kan gemakkelijk worden geïnstalleerd en geïmplementeerd met de Docker-bestanden die beschikbaar zijn in onze repository.
Raadpleeg onze licentievoorwaarden voor informatie over commercieel gebruik.