Zonos TTS - Avanceret tekst til tale med stemmekloning

Om Zonos TTS

Zonos TTS er designet til at generere højt naturligt tale fra tekst-prompt, ved hjælp af taler-indlejring eller lyd-præfikser. Det har kun brug for få sekunder reference lyd for at opnå fremragende stemme kloning.

Modellen giver præcis kontrol over taleparametre som talehastighed, højdeforskel, lydkvalitet og følelsesmæssig farvelægning som glæde, frygt, sorg og vrede. Zonos TTS udstøder nativt 44kHz lyd for at sikre topklasselydkvalitet.

Kom i gang

Kerneegenskaber

Zero-shot TTS og stemmeklonering

Generer høj kvalitet TTS-output ved at indtaste den ønskede tekst og et 10-30 sekunders eksempel på taleren.

Lydfil-præfiksindlæsning

Forbedr talermatchning ved at tilføje et lydpræfiks til tekstindtastningen, hvilket gør handlinger som hviskning mulige.

Flersproget understøttelse

Understøtter engelsk, japansk, kinesisk, fransk og tysk med naturligt udtale.

Avanceret kontrol

Nøjagtigt juster talehastighed, højde, lydkvalitet og følelsesudtryk.

Hurtig start guide

Python implementation


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio-grænseflade (anbefalet)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Ofte stillede spørgsmål

Hvilke sprog understøttes af Zonos TTS?

Zonos TTS understøtter i øjeblikket engelsk, japansk, kinesisk, fransk og tysk.

Hvordan kontrollerer du det emotionelle forløb i den genererede tale?

Du kan finjustere den emotionelle tone ved at justere parametre som glæde, vrede, sorg og frygt i indstillingerne.

Hvad er den reeltidsfaktor for Zonos TTS?

Den reeltidsfaktor for Zonos TTS er cirka 2x, når det kører på RTX 4090.

Hvordan installerer jeg Zonos TTS?

Zonos TTS kan nemt installeres og udrulles ved hjælp af de Docker-filer, der er tilgængelige i vores repository.

Kan jeg bruge Zonos TTS til kommercielle formål?

Se vores licensbetingelser for information om kommerciel brug.

Konverter tekst til naturligt tal Brug Zonos TTS