Zonos TTS - Geavanceerde tekst-naar-spraak met stemclonen

Over Zonos TTS

Zonos TTS is ontworpen om zeer natuurlijke spraak te genereren op basis van tekstprompts, gebruikmakend van sprekerembeddings of audio-voorvoegsels. Het heeft slechts enkele seconden referentieaudio nodig om uitstekende stemclonen te creëren.

Het model biedt nauwkeurige controle over spraakparameters zoals spreempoeder, toonhoogteverandering, audio-kwaliteit en emotionele kleuring zoals geluk, angst, droefheid en woede. Zonos TTS genereert standaard 44kHz audio om de topkwaliteit van het geluid te garanderen.

Aan de slag gaan

Kernfuncties

Zero-shot TTS en stemklonen

Genereer een hoge-kwaliteit TTS-uitvoer door de gewenste tekst in te voeren en een voorbeeld van 10-30 seconden van de spreker.

Audio-prefix invoer

Verbeter sprekersherkenning door een audioprefix toe te voegen aan tekst invoer, waardoor handelingen zoals fluisteren mogelijk worden.

Meertalig ondersteuning

Ondersteunt Engels, Japans, Chinees, Frans en Duits met natuurlijke uitspraak.

Geavanceerde Controle

Spreektempo, toonhoogte, audiokwaliteit en emotionele uitdrukking nauwkeurig aanpassen.

Snelstartgids

Python implementatie


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio-interface (aanbevolen)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Veelgestelde vragen

Welke talen worden ondersteund door Zonos TTS?

Zonos TTS ondersteunt momenteel Engels, Japans, Chinees, Frans en Duits.

Hoe controleer je de emotionele kleur van gegenereerde spraak?

Je kunt de emotionele toon fijn afstellen door parameters zoals geluk, woede, droefheid en angst in de instellingen aan te passen.

Wat is de real-time factor van Zonos TTS?

De real-time factor van Zonos TTS is ongeveer 2x bij uitvoering op de RTX 4090.

Hoe installeer ik Zonos TTS?

Zonos TTS kan gemakkelijk worden geïnstalleerd en geïmplementeerd met de Docker-bestanden die beschikbaar zijn in onze repository.

Kan ik Zonos TTS voor commerciële doeleinden gebruiken?

Raadpleeg onze licentievoorwaarden voor informatie over commercieel gebruik.

Tekst omzetten in natuurlijke spraak Gebruik Zonos TTS