โมเดลการแปลงข้อความเป็นเสียงพูดแบบน้ำหนักเปิดที่อยู่ในระดับแนวหน้า ซึ่งได้รับการฝึกฝนบนข้อมูลเสียงหลายภาษาเกินกว่า 200,000 ชั่วโมง
Zonos TTS ได้รับการออกแบบมาเพื่อสร้างเสียงที่เป็นธรรมชาติอย่างยิ่งจากคำแนะนำข้อความ โดยใช้การฝังผู้พูดหรือข้อความนำหน้าเสียง เพียงแค่ไม่กี่วินาทีของไฟล์เสียงอ้างอิงก็สามารถทำให้เกิดการเลียนแบบเสียงที่ยอดเยี่ยมได้
โมเดลนี้ให้การควบคุมที่แม่นยำสำหรับพารามิเตอร์ของเสียง เช่น อัตราการพูด การเปลี่ยนแปลงของโทน คุณภาพของเสียง และสีสันทางอารมณ์เช่น ความสุข ความกลัว ความเศร้า และความโกรธ Zonos TTS ผลิตเสียงแบบ 44kHz เป็นมาตรฐาน เพื่อให้แน่ใจว่ามีคุณภาพเสียงชั้นยอด
เริ่มใช้งาน
สร้างผลลัพธ์ TTS คุณภาพสูงโดยการป้อนข้อความที่ต้องการและตัวอย่างผู้พูด 10-30 วินาที
ปรับปรุงการจับคู่ผู้พูดโดยการเพิ่มคำนำหน้าเสียงไปยังข้อความที่ป้อน ทำให้สามารถทำพฤติกรรมเช่นการกระซิบได้
รองรับภาษาอังกฤษ ภาษาญี่ปุ่น ภาษาจีน ภาษาฝรั่งเศส และภาษาเยอรมันด้วยการออกเสียงที่เป็นธรรมชาติ
ปรับความเร็วในการพูด ระดับเสียง คุณภาพของเสียง และการแสดงออกทางอารมณ์อย่างแม่นยำ
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS ปัจจุบันรองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศสและเยอรมัน
คุณสามารถปรับโทนอารมณ์โดยการปรับพารามิเตอร์เช่น ความสุข ความโกรธ ความเศร้า และความกลัวในตัวเลือกตั้งค่า
เมื่อทำงานบน RTX 4090 อัตราส่วนเวลาจริงของ Zonos TTS ประมาณ 2 เท่า
สามารถติดตั้งและใช้งาน Zonos TTS ได้อย่างง่ายดายโดยใช้ไฟล์ Docker ที่ให้มาในคลังของเรานี้
โปรดอ้างอิงถึงข้อกำหนดการอนุญาตของเราสำหรับข้อมูลเกี่ยวกับการใช้งานเชิงพาณิชย์