Model teks ke ucapan terdepan dengan bobot terbuka, dilatih pada lebih dari 200.000 jam data ucapan multibahasa.
Zonos TTS dirancang untuk menghasilkan suara yang sangat alami dari petunjuk teks, dengan memanfaatkan penyisipan pembicara atau awalan audio. Ini hanya membutuhkan beberapa detik audio referensi untuk mencapai kloning suara yang luar biasa.
Model ini memberikan kontrol presisi atas parameter suara, seperti kecepatan berbicara, variasi nada, kualitas audio, dan pewarnaan emosional seperti kebahagiaan, ketakutan, kesedihan, dan kemarahan. Zonos TTS menghasilkan audio 44kHz secara native untuk memastikan kualitas suara terbaik.
Mulai menggunakan
Hasilkan output TTS berkualitas tinggi dengan memasukkan teks yang diinginkan dan sampel pembicara selama 10-30 detik.
Tingkatkan pencocokan pembicara dengan menambahkan awalan audio ke masukan teks, memungkinkan tindakan seperti berbisik.
Mendukung Bahasa Inggris, Jepang, Tiongkok, Prancis, dan Jerman dengan pengucapan alami.
Atur kecepatan berbicara, nada, kualitas audio, dan ekspresi emosional dengan tepat.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS saat ini mendukung Bahasa Inggris, Jepang, Cina, Prancis, dan Jerman.
Anda dapat menyesuaikan nuansa emosional dengan menyesuaikan parameter seperti kebahagiaan, kemarahan, kesedihan, dan ketakutan di pengaturan.
Faktor waktu nyata untuk Zonos TTS adalah sekitar 2x saat dijalankan pada RTX 4090.
Zonos TTS dapat dengan mudah diinstal dan diterapkan menggunakan file Docker yang disediakan di repositori kami.
Silakan merujuk ke ketentuan lisensi kami untuk informasi tentang penggunaan komersial.