Ett framhämtande öppen vikt text-till-tal modell tränad på mer än 200,000 timmar av flerspråkiga röstdata.
Zonos TTS är utformat för att generera höggradt naturligt tal från textinstruktioner, med hjälp av talarens inbäddningar eller ljudprefix. Det behöver bara några sekunder referensljud för att uppnå utmärkt röstkloning.
Modellen ger exakt kontroll över talparametrar som talsnabbhet, tonhöjdsvariation, ljudkvalitet och känslomässig färgläggning som glädje, fruktan, sorg och ilska. Zonos TTS producerar naturligt 44kHz-ljud för att säkerställa toppklassljudkvalitet.
Kom igång
Generera högkvalitativ TTS-utdata genom att ange önskad text och ett 10-30 sekunders prov av talaren.
Förbättra talarematchning genom att lägga till ett ljudprefix till textinmatningen, vilket möjliggör handlingar som viskning.
Stöder engelska, japanska, kinesiska, franska och tyska med naturlig uttal.
Justera talhastighet, tonhöjd, ljudkvalitet och känslouttryck med hög precision.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS stöder för närvarande engelska, japanska, kinesiska, franska och tyska.
Du kan finjustera den emotionella tonen genom att justera parametrar som glädje, ilska, sorg och fruktan i inställningarna.
Tidsfaktorn i realtid för Zonos TTS är ungefär 2x när den körs på RTX 4090.
Zonos TTS kan lätt installeras och distribueras med Docker-filer som finns tillgängliga i vårt arkiv.
Läs våra licensvillkor för information om kommersiell användning.