Převést text na přirozený hovor Použijte Zonos TTS

Inovativní model převodu textu na řeč s otevřenými váhami, který byl vyškolen na více než 200 000 hodinách dat hlasu více jazyků.

Začít používat

O Zonos TTS

Zonos TTS je navržen tak, aby generoval velmi přirozený hlas z textových vodítek, využívaje vložení mluvčího nebo zvukové předpony. Potřebuje pouze několik sekund referenčního zvuku, aby dosáhl vynikajícího kopírování hlasu.

Tento model poskytuje přesnou kontrolu nad parametry řeči, jako je rychlost mluvení, změny výšky hlasu, kvalita zvuku a emocionální odstín jako štěstí, strach, smutek a hněv. Zonos TTS generuje nativně zvuk 44kHz, aby zajistil vrcholovou kvalitu zvuku.

Začít používat

Základní vlastnosti

Zero-shot TTS a klonování hlasu

Vygenerujte vysokokvalitní výstup TTS zadáním požadovaného textu a vzorky mluvčího trvající 10-30 sekund.

Vstup předpony zvuku

Zlepšete shodu mluvčího přidáním zvukového předpony k textovému vstupu, což umožňuje činnosti jako šeptání.

Vícejazyčná podpora

Podporuje angličtinu, japonštinu, čínštinu, francouzštinu a němčinu s přirozeným výslovností.

Pokročilé ovládání

Přesně upravujte mluvenou rychlost, výšku tónu, kvalitu zvuku a výraz emocí.

Rychlý startovací průvodce

provádění Pythonu


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio rozhraní (doporučeno)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Často kladené otázky

Jaké jazyky podporuje Zonos TTS?

Zonos TTS aktuálně podporuje angličtinu, japonštinu, čínštinu, francouzštinu a němčinu.

Jak ovládat emocionální odstín generované řeči?

Můžete jemně upravit emoční odstín tím, že budete přizpůsobovat parametry jako štěstí, vztek, smutek a strach v nastavení.

Jaký je reálný časový faktor pro Zonos TTS?

Časový faktor Zonos TTS je přibližně 2x při běhu na RTX 4090.

Jak nainstalovat Zonos TTS?

Zonos TTS může být snadno nainstalován a nasazen pomocí souborů Docker poskytnutých v našem úložišti.

Můžu použít Zonos TTS pro obchodní účely?

Pro informace o obchodním použití se podívejte na naše licenční podmínky.