Et fremragende åbent vægt tekst-til-talte ord model trænet på mere end 200.000 timer med flersprogede taledata.
Zonos TTS er designet til at generere højt naturligt tale fra tekst-prompt, ved hjælp af taler-indlejring eller lyd-præfikser. Det har kun brug for få sekunder reference lyd for at opnå fremragende stemme kloning.
Modellen giver præcis kontrol over taleparametre som talehastighed, højdeforskel, lydkvalitet og følelsesmæssig farvelægning som glæde, frygt, sorg og vrede. Zonos TTS udstøder nativt 44kHz lyd for at sikre topklasselydkvalitet.
Kom i gang
Generer høj kvalitet TTS-output ved at indtaste den ønskede tekst og et 10-30 sekunders eksempel på taleren.
Forbedr talermatchning ved at tilføje et lydpræfiks til tekstindtastningen, hvilket gør handlinger som hviskning mulige.
Understøtter engelsk, japansk, kinesisk, fransk og tysk med naturligt udtale.
Nøjagtigt juster talehastighed, højde, lydkvalitet og følelsesudtryk.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS understøtter i øjeblikket engelsk, japansk, kinesisk, fransk og tysk.
Du kan finjustere den emotionelle tone ved at justere parametre som glæde, vrede, sorg og frygt i indstillingerne.
Den reeltidsfaktor for Zonos TTS er cirka 2x, når det kører på RTX 4090.
Zonos TTS kan nemt installeres og udrulles ved hjælp af de Docker-filer, der er tilgængelige i vores repository.
Se vores licensbetingelser for information om kommerciel brug.