Zonos TTS - Teks ke ucapan lanjutan dengan kloning suara

Tentang Zonos TTS

Zonos TTS dirancang untuk menghasilkan suara yang sangat alami dari petunjuk teks, dengan memanfaatkan penyisipan pembicara atau awalan audio. Ini hanya membutuhkan beberapa detik audio referensi untuk mencapai kloning suara yang luar biasa.

Model ini memberikan kontrol presisi atas parameter suara, seperti kecepatan berbicara, variasi nada, kualitas audio, dan pewarnaan emosional seperti kebahagiaan, ketakutan, kesedihan, dan kemarahan. Zonos TTS menghasilkan audio 44kHz secara native untuk memastikan kualitas suara terbaik.

Mulai menggunakan

Fitur utama

TTS nol sampel dan kloning suara

Hasilkan output TTS berkualitas tinggi dengan memasukkan teks yang diinginkan dan sampel pembicara selama 10-30 detik.

Masukan awalan audio

Tingkatkan pencocokan pembicara dengan menambahkan awalan audio ke masukan teks, memungkinkan tindakan seperti berbisik.

Dukungan Multibahasa

Mendukung Bahasa Inggris, Jepang, Tiongkok, Prancis, dan Jerman dengan pengucapan alami.

Kontrol Lanjutan

Atur kecepatan berbicara, nada, kualitas audio, dan ekspresi emosional dengan tepat.

Panduan Memulai Cepat

implementasi Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Antarmuka Gradio (disarankan)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Pertanyaan yang sering diajukan

Bahasa apa yang didukung oleh Zonos TTS?

Zonos TTS saat ini mendukung Bahasa Inggris, Jepang, Cina, Prancis, dan Jerman.

Bagaimana mengontrol nuansa emosional dari suara yang dihasilkan?

Anda dapat menyesuaikan nuansa emosional dengan menyesuaikan parameter seperti kebahagiaan, kemarahan, kesedihan, dan ketakutan di pengaturan.

Apa faktor waktu nyata dari Zonos TTS?

Faktor waktu nyata untuk Zonos TTS adalah sekitar 2x saat dijalankan pada RTX 4090.

Bagaimana cara menginstal Zonos TTS?

Zonos TTS dapat dengan mudah diinstal dan diterapkan menggunakan file Docker yang disediakan di repositori kami.

Bisakah saya menggunakan Zonos TTS untuk tujuan komersial?

Silakan merujuk ke ketentuan lisensi kami untuk informasi tentang penggunaan komersial.

Konversi teks menjadi ucapan alami Gunakan Zonos TTS