Zonos TTS - Avancerad text till tal med rödstolkning

Om Zonos TTS

Zonos TTS är utformat för att generera höggradt naturligt tal från textinstruktioner, med hjälp av talarens inbäddningar eller ljudprefix. Det behöver bara några sekunder referensljud för att uppnå utmärkt röstkloning.

Modellen ger exakt kontroll över talparametrar som talsnabbhet, tonhöjdsvariation, ljudkvalitet och känslomässig färgläggning som glädje, fruktan, sorg och ilska. Zonos TTS producerar naturligt 44kHz-ljud för att säkerställa toppklassljudkvalitet.

Kom igång

Kärnegenskaper

Zero-shot TTS och rödstökning

Generera högkvalitativ TTS-utdata genom att ange önskad text och ett 10-30 sekunders prov av talaren.

Ljudfil förstapartsinmatning

Förbättra talarematchning genom att lägga till ett ljudprefix till textinmatningen, vilket möjliggör handlingar som viskning.

Fler språk stöd

Stöder engelska, japanska, kinesiska, franska och tyska med naturlig uttal.

Avancerad Kontroll

Justera talhastighet, tonhöjd, ljudkvalitet och känslouttryck med hög precision.

Snabbstarts guide

Python-implementering


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio-gränssnitt (rekommenderat)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Vanliga frågor

Vilka språk stöds av Zonos TTS?

Zonos TTS stöder för närvarande engelska, japanska, kinesiska, franska och tyska.

Hur kontrollerar du den emotionella färgen på den genererade talen?

Du kan finjustera den emotionella tonen genom att justera parametrar som glädje, ilska, sorg och fruktan i inställningarna.

Vad är den realtidsfaktorn för Zonos TTS?

Tidsfaktorn i realtid för Zonos TTS är ungefär 2x när den körs på RTX 4090.

Hur installerar jag Zonos TTS?

Zonos TTS kan lätt installeras och distribueras med Docker-filer som finns tillgängliga i vårt arkiv.

Kan jag använda Zonos TTS för kommersiella ändamål?

Läs våra licensvillkor för information om kommersiell användning.

Konvertera text till naturligt tal Använd Zonos TTS