تحويل النص إلى كلام طبيعي استخدم Zonos TTS

نموذج تحويل النص إلى كلام مفتوح الوزن على حداثة، مدرب على أكثر من 200,000 ساعة من بيانات الكلام متعددة اللغات.

حول Zonos TTS

تم تصميم Zonos TTS لإنتاج الكلام ذو الطبيعة العالية من تعليمات النص، باستخدام تضمينات المتحدث أو مقدمات الصوت. يحتاج فقط إلى بضع ثوانٍ من الصوت المرجعي لتحقيق نسخ صوتي ممتاز.

يوفر النموذج تحكمًا دقيقًا في معلمات الصوت مثل سرعة الكلام، وتغير نبرة الصوت، وجودة الصوت، واللون العاطفي مثل السعادة، والخوف، والحزن، والغضب. ينتج Zonos TTS صوتًا بتردد 44 كيلوهرتز بشكل أساسي لضمان جودة صوتية عالية المستوى.

ابدأ الاستخدام

الميزات الأساسية

TTS الصفرية ونسخ الصوت

أنتج مخرجات TTS عالية الجودة من خلال إدخال النص المطلوب وعينة مدتها 10-30 ثانية من المتحدث.

إدخال بادئة الصوت

حسّن مطابقة المتحدث بإضافة بادئة صوتية إلى مدخلات النص، مما يمكّن من سلوكيات مثل الهمس.

دعم متعدد اللغات

يدعم الإنجليزية واليابانية والصينية والفرنسية والألمانية مع نطق طبيعي.

التحكم المتقدم

ضبط معدل الكلام والصوت ونوعية الصوت والعبرة العاطفية بدقة.

دليل بدء سريع

تنفيذ Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

واجهة Gradio (مستحسن)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

الأسئلة الشائعة

ما هي اللغات التي يدعمها Zonos TTS؟

يدعم Zonos TTS حاليًا الإنجليزية واليابانية والصينية والفرنسية والألمانية.

كيف يمكن التحكم في النبرة العاطفية للكلام المُولَّد؟

يمكنك تحسين النبرة العاطفية بضبط معلمات مثل السعادة والغضب والحزن والخوف في الإعدادات.

ما هو عامل الوقت الفعلي لـ Zonos TTS؟

عند تشغيله على بطاقة RTX 4090، يكون عامل الوقت الفعلي لـ Zonos TTS حوالي 2x.

كيفية تثبيت Zonos TTS؟

يمكن تثبيت ونشر Zonos TTS بسهولة باستخدام ملفات Docker المتوفرة في مستودعنا.

هل يمكنني استخدام Zonos TTS للأغراض التجارية؟

راجع شروط الترخيص الخاصة بنا للحصول على معلومات حول الاستخدام التجاري.