Chuyển đổi văn bản thành giọng nói tự nhiên Sử dụng Zonos TTS

Một mô hình chuyển đổi văn bản thành giọng nói tiên tiến với trọng số mở, được đào tạo trên hơn 200.000 giờ dữ liệu âm thanh đa ngôn ngữ.

Bắt đầu sử dụng

Về Zonos TTS

Zonos TTS được thiết kế để tạo ra giọng nói tự nhiên cao từ các gợi ý văn bản, sử dụng các yếu tố chèn người nói hoặc tiền tố âm thanh. Nó chỉ cần vài giây âm thanh tham chiếu để đạt được việc sao chép giọng nói xuất sắc.

Mô hình này cung cấp sự kiểm soát chính xác đối với các thông số giọng nói như tốc độ nói, sự thay đổi âm điệu, chất lượng âm thanh và màu sắc cảm xúc như hạnh phúc, sợ hãi, buồn bã và tức giận. Zonos TTS tạo ra âm thanh 44kHz một cách tự nhiên để đảm bảo chất lượng âm thanh hàng đầu.

Bắt đầu sử dụng

Đặc điểm cốt lõi

TTS không mẫu và sao chép giọng nói

Tạo ra đầu ra TTS chất lượng cao bằng cách nhập văn bản mong muốn và một mẫu từ người nói trong khoảng 10-30 giây.

Nhập tiền tố âm thanh

Cải thiện việc khớp người nói bằng cách thêm tiền tố âm thanh vào đầu vào văn bản, cho phép thực hiện các hành động như thì thầm.

Hỗ trợ đa ngôn ngữ

Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp và tiếng Đức với cách phát âm tự nhiên.

Kiểm soát nâng cao

Điều chỉnh chính xác tốc độ nói, cao độ, chất lượng âm thanh và biểu đạt cảm xúc.

Hướng dẫn bắt đầu nhanh

thực hiện Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Giao diện Gradio (được khuyến nghị)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Câu hỏi thường gặp

Zonos TTS hỗ trợ những ngôn ngữ nào?

Zonos TTS hiện tại hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp và tiếng Đức.

Làm thế nào để kiểm soát sắc thái cảm xúc của giọng nói được tạo ra?

Bạn có thể điều chỉnh sắc thái cảm xúc bằng cách điều chỉnh các thông số như hạnh phúc, giận dữ, buồn bã và sợ hãi trong cài đặt.

Yếu tố thời gian thực của Zonos TTS là gì?

Khi chạy trên RTX 4090, hệ số thời gian thực của Zonos TTS khoảng 2 lần.

Làm thế nào để cài đặt Zonos TTS?

Zonos TTS có thể được cài đặt và triển khai dễ dàng bằng cách sử dụng các tệp Docker được cung cấp trong kho của chúng tôi.

Tôi có thể sử dụng Zonos TTS vào mục đích thương mại không?

Hãy tham khảo các điều khoản giấy phép của chúng tôi để biết thông tin về việc sử dụng thương mại.