Zonos TTS - उन्नत कृत्रिम बुद्धिमत्ता पाठ से बोलना और आवाज की क्लोनिंग

Zonos TTS के बारे में

Zonos TTS टेक्स्ट प्रमाणों से उत्पन्न होने वाली अत्यधिक प्राकृतिक बोलन के लिए डिज़ाइन किया गया है, इसमें बोलने वाले के इंडों या ऑडियो उपसर्गों का उपयोग किया जाता है। इसको केवल कुछ सेकंडों का संदर्भ ऑडियो श्रेष्ठ व्यक्तित्व अनुकरण के लिए चाहिए है।

इस मॉडल में बोलने की दर, स्वर का परिवर्तन, ऑडिओ गुणवत्ता और खुशी, डर, दुख और गुस्सा जैसी भावनात्मक रंगभेद जैसे वाक्य प्राचलों पर सटीक नियंत्रण प्रदान किया जाता है। Zonos TTS स्वयं 44kHz की ऑडिओ उत्पादन करता है जिससे शीर्ष गुणवत्ता का ध्वनि सुनाई देता है।

प्रारंभ करें

मुख्य विशेषताएँ

शून्य सैंपल TTS और आवाज कローンिंग

अपनाको चाहिए टेक्स्ट और बोलने वाले का 10-30 सेकंड का नमूना देकर, उच्च गुणवत्ता वाला TTS आउटपुट उत्पन्न करें।

ऑडिओ प्रीफिक्स इनपुट

टेक्स्ट इनपुट में ऑडिओ प्रीफिक्स जोड़कर बोलने वाले की मैचिंग में सुधार करें, जैसे फुसफुसाहट जैसी गतियाँ संभव बनाएं।

बहुभाषी समर्थन

इंग्लिश, जापानी, चीनी, फ्रेंच और जर्मन का समर्थन करता है, प्राकृतिक उच्चारण के साथ।

उन्नत नियंत्रण

बोलने की गति, स्वर, ऑडियो की गुणवत्ता और भावनात्मक व्यंजन को सटीक रूप से समायोजित करें।

जल्दी शुरुआत का गाइड

पायथन का अंतरिक्ष


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

ग्रेडियो इंटरफ़ेस (सुझाव दिया गया)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

आम सवाल

Zonos TTS किन भाषाओं का समर्थन करता है?

Zonos TTS वर्तमान में अंग्रेजी, जापानी, चीनी, फ्रेंच और जर्मन सपोर्ट करता है।

उत्पादित बोलचाल के भावनात्मक रंग को कैसे नियंत्रित करें?

आप खुशी, गुस्सा, दुःख और डर जैसे पैरामीटर को सेटिंग में समायोजित करके भावनात्मक रंग को सुधार सकते हैं।

Zonos TTS का वास्तविक समय कारक क्या है?

जब RTX 4090 पर चलाया जाता है, तो Zonos TTS का वास्तविक समय कारक लगभग 2x होता है।

Zonos TTS कैसे इनस्टॉल करें?

Zonos TTS को हमारे रिपोज़िटरी में उपलब्ध Docker फाइलों का उपयोग करके आसानी से इनस्टॉल और डिप्लॉय किया जा सकता है।

क्या मैं Zonos TTS को व्यापारिक उद्देश्यों के लिए इस्तेमाल कर सकता हूँ?

व्यावसायिक उपयोग से सम्बंधित जानकारी के लिए हमारे लाइसेंस शर्तों पर ध्यान दें।

पाठ को स्वाभाविक बोलचाल में बदलें Zonos TTS का उपयोग करें