Một mô hình chuyển đổi văn bản thành giọng nói tiên tiến với trọng số mở, được đào tạo trên hơn 200.000 giờ dữ liệu âm thanh đa ngôn ngữ.
Zonos TTS được thiết kế để tạo ra giọng nói tự nhiên cao từ các gợi ý văn bản, sử dụng các yếu tố chèn người nói hoặc tiền tố âm thanh. Nó chỉ cần vài giây âm thanh tham chiếu để đạt được việc sao chép giọng nói xuất sắc.
Mô hình này cung cấp sự kiểm soát chính xác đối với các thông số giọng nói như tốc độ nói, sự thay đổi âm điệu, chất lượng âm thanh và màu sắc cảm xúc như hạnh phúc, sợ hãi, buồn bã và tức giận. Zonos TTS tạo ra âm thanh 44kHz một cách tự nhiên để đảm bảo chất lượng âm thanh hàng đầu.
Bắt đầu sử dụng
Tạo ra đầu ra TTS chất lượng cao bằng cách nhập văn bản mong muốn và một mẫu từ người nói trong khoảng 10-30 giây.
Cải thiện việc khớp người nói bằng cách thêm tiền tố âm thanh vào đầu vào văn bản, cho phép thực hiện các hành động như thì thầm.
Hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp và tiếng Đức với cách phát âm tự nhiên.
Điều chỉnh chính xác tốc độ nói, cao độ, chất lượng âm thanh và biểu đạt cảm xúc.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS hiện tại hỗ trợ tiếng Anh, tiếng Nhật, tiếng Trung, tiếng Pháp và tiếng Đức.
Bạn có thể điều chỉnh sắc thái cảm xúc bằng cách điều chỉnh các thông số như hạnh phúc, giận dữ, buồn bã và sợ hãi trong cài đặt.
Khi chạy trên RTX 4090, hệ số thời gian thực của Zonos TTS khoảng 2 lần.
Zonos TTS có thể được cài đặt và triển khai dễ dàng bằng cách sử dụng các tệp Docker được cung cấp trong kho của chúng tôi.
Hãy tham khảo các điều khoản giấy phép của chúng tôi để biết thông tin về việc sử dụng thương mại.