Μετατροπή κειμένου σε φυσική ομιλία Χρησιμοποιήστε το Zonos TTS

Ένα κορυφαίο μοντέλο με ανοιχτά βάρη για τη μετατροπή κειμένου σε ομιλία, εκπαιδευμένο σε πάνω από 200.000 ώρες πολυγλωσσικών δεδομένων λάλησης.

Για το Zonos TTS

Το Zonos TTS σχεδιάστηκε για να παράγει αυτόνομη ομιλία υψηλής φύσης μέσω κειμενικών διαταγών, χρησιμοποιώντας ενσωματώσεις ομιλητή ή ήχου πρόθεμα. Χρειάζεται μόλις λίγα δευτερόλεπτα αναφορικού ήχου για να επιτευχθεί έξυπνη φωνητική αντιγραφή.

Το μοντέλο παρέχει ακριβή έλεγχο των παραμέτρων ομιλίας όπως το ρυθμός μιλήματος, η αλλαγή τόνου, η ποιότητα ήχου και η συναισθηματική χρωμάτιση όπως ευφορία, φόβος, λύπη και θυμός. Το Zonos TTS παράγει φυσικά ήχο 44kHz για να διασφαλίσει κορυφαία ποιότητα ήχου.

Ξεκινήστε

Βασικές πλευρές

Zero-shot TTS και αντιγραφή φωνής

Δημιουργήστε έξοδο TTS υψηλής ποιότητας εισάγοντας το κείμενο που θέλετε και δείγμα 10-30 δευτερολέπτων του ομιλητή.

Εισαγωγή πρόθεμα ήχου

Βελτιώστε την ομοιότητα του ομιλητή προσθέτοντας ένα ακουστικό πρόθεμα στην είσοδο κειμένου, επιτρέποντας ενέργειες όπως η ψιθυριστή.

Πολυγλωσσική υποστήριξη

Υποστηρίζει αγγλικά, ιαπωνικά, κινέζικα, γαλλικά και γερμανικά με φυσική πronunciation.

Προ⚗γεγραμμένος έλεγχος

Ακριβής ρύθμιση του ρυθμού μιλήματος, τόνου, ποιότητας ήχου και εκφάνισης συναισθημάτων.

Οδηγός γρήγορης ξεκίνησης

ρεαλισμός Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
                

Διεπαφή Gradio (συνιστάται)


uv run gradio_interface.py
# python gradio_interface.py
                

Zonos TTS Github >>

Συχνές ερωτήσεις

Ποιες γλώσσες υποστηρίζει το Zonos TTS;

Το Zonos TTS υποστηρίζει προς το πresent αγγλικά, ιαπωνικά, κινέζικα, γαλλικά και γερμανικά.

Πώς να ελέγξετε την συναισθηματική χροιά της παραγόμενης ομιλίας;

Μπορείτε να πανωφθεί η συναισθηματική χρωματικότητα με τη διαμόρφωση παραμέτρων όπως ευτυχία, θυμός, λύπη και φόβος στις ρυθμίσεις.

Ποιός είναι ο παράγοντας πραγματικού χρόνου του Zonos TTS;

Ο παράγοντας πραγματικού χρόνου του Zonos TTS είναι περίπου 2x όταν τρέξει στην RTX 4090.

Πώς να εγκαταστήσω το Zonos TTS;

Το Zonos TTS μπορεί να εγκατασταθεί και να εφαρμοστεί εύκολα χρησιμοποιώντας τα αρχεία Docker που παρέχονται στο αποθετήριό μας.

Μπορώ να χρησιμοποιήσω το Zonos TTS για εμπορικούς σκοπούς;

Ανατρέξτε στους όρους άδειας χρήσης μας για πληροφορίες σχετικά με την εμπορική χρήση.