แปลงข้อความเป็นเสียงพูดที่เป็นธรรมชาติ ใช้ Zonos TTS

โมเดลการแปลงข้อความเป็นเสียงพูดแบบน้ำหนักเปิดที่อยู่ในระดับแนวหน้า ซึ่งได้รับการฝึกฝนบนข้อมูลเสียงหลายภาษาเกินกว่า 200,000 ชั่วโมง

เริ่มใช้งาน

เกี่ยวกับ Zonos TTS

Zonos TTS ได้รับการออกแบบมาเพื่อสร้างเสียงที่เป็นธรรมชาติอย่างยิ่งจากคำแนะนำข้อความ โดยใช้การฝังผู้พูดหรือข้อความนำหน้าเสียง เพียงแค่ไม่กี่วินาทีของไฟล์เสียงอ้างอิงก็สามารถทำให้เกิดการเลียนแบบเสียงที่ยอดเยี่ยมได้

โมเดลนี้ให้การควบคุมที่แม่นยำสำหรับพารามิเตอร์ของเสียง เช่น อัตราการพูด การเปลี่ยนแปลงของโทน คุณภาพของเสียง และสีสันทางอารมณ์เช่น ความสุข ความกลัว ความเศร้า และความโกรธ Zonos TTS ผลิตเสียงแบบ 44kHz เป็นมาตรฐาน เพื่อให้แน่ใจว่ามีคุณภาพเสียงชั้นยอด

เริ่มใช้งาน

คุณสมบัติหลัก

TTS แบบไม่มีตัวอย่างและการทำสำเนาเสียง

สร้างผลลัพธ์ TTS คุณภาพสูงโดยการป้อนข้อความที่ต้องการและตัวอย่างผู้พูด 10-30 วินาที

การป้อนข้อมูลตัวนำหน้าเสียง

ปรับปรุงการจับคู่ผู้พูดโดยการเพิ่มคำนำหน้าเสียงไปยังข้อความที่ป้อน ทำให้สามารถทำพฤติกรรมเช่นการกระซิบได้

การสนับสนุนหลายภาษา

รองรับภาษาอังกฤษ ภาษาญี่ปุ่น ภาษาจีน ภาษาฝรั่งเศส และภาษาเยอรมันด้วยการออกเสียงที่เป็นธรรมชาติ

การควบคุมขั้นสูง

ปรับความเร็วในการพูด ระดับเสียง คุณภาพของเสียง และการแสดงออกทางอารมณ์อย่างแม่นยำ

คู่มือเริ่มต้นอย่างรวดเร็ว

การใช้งาน Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

อินเทอร์เฟซ Gradio (แนะนำ)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

คำถามที่พบบ่อย

Zonos TTS รองรับภาษาอะไรบ้าง?

Zonos TTS ปัจจุบันรองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศสและเยอรมัน

ควบคุมโทนอารมณ์ของเสียงที่สร้างขึ้นได้อย่างไร?

คุณสามารถปรับโทนอารมณ์โดยการปรับพารามิเตอร์เช่น ความสุข ความโกรธ ความเศร้า และความกลัวในตัวเลือกตั้งค่า

ตัวประกอบแบบเรียลไทม์ของ Zonos TTS คืออะไร?

เมื่อทำงานบน RTX 4090 อัตราส่วนเวลาจริงของ Zonos TTS ประมาณ 2 เท่า

ติดตั้ง Zonos TTS อย่างไร?

สามารถติดตั้งและใช้งาน Zonos TTS ได้อย่างง่ายดายโดยใช้ไฟล์ Docker ที่ให้มาในคลังของเรานี้

ฉันสามารถใช้ Zonos TTS เพื่อวัตถุประสงค์ทางการค้าได้หรือไม่

โปรดอ้างอิงถึงข้อกำหนดการอนุญาตของเราสำหรับข้อมูลเกี่ยวกับการใช้งานเชิงพาณิชย์