نموذج تحويل النص إلى كلام مفتوح الوزن على حداثة، مدرب على أكثر من 200,000 ساعة من بيانات الكلام متعددة اللغات.
تم تصميم Zonos TTS لإنتاج الكلام ذو الطبيعة العالية من تعليمات النص، باستخدام تضمينات المتحدث أو مقدمات الصوت. يحتاج فقط إلى بضع ثوانٍ من الصوت المرجعي لتحقيق نسخ صوتي ممتاز.
يوفر النموذج تحكمًا دقيقًا في معلمات الصوت مثل سرعة الكلام، وتغير نبرة الصوت، وجودة الصوت، واللون العاطفي مثل السعادة، والخوف، والحزن، والغضب. ينتج Zonos TTS صوتًا بتردد 44 كيلوهرتز بشكل أساسي لضمان جودة صوتية عالية المستوى.
ابدأ الاستخدام
أنتج مخرجات TTS عالية الجودة من خلال إدخال النص المطلوب وعينة مدتها 10-30 ثانية من المتحدث.
حسّن مطابقة المتحدث بإضافة بادئة صوتية إلى مدخلات النص، مما يمكّن من سلوكيات مثل الهمس.
يدعم الإنجليزية واليابانية والصينية والفرنسية والألمانية مع نطق طبيعي.
ضبط معدل الكلام والصوت ونوعية الصوت والعبرة العاطفية بدقة.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
يدعم Zonos TTS حاليًا الإنجليزية واليابانية والصينية والفرنسية والألمانية.
يمكنك تحسين النبرة العاطفية بضبط معلمات مثل السعادة والغضب والحزن والخوف في الإعدادات.
عند تشغيله على بطاقة RTX 4090، يكون عامل الوقت الفعلي لـ Zonos TTS حوالي 2x.
يمكن تثبيت ونشر Zonos TTS بسهولة باستخدام ملفات Docker المتوفرة في مستودعنا.
راجع شروط الترخيص الخاصة بنا للحصول على معلومات حول الاستخدام التجاري.