Ένα κορυφαίο μοντέλο με ανοιχτά βάρη για τη μετατροπή κειμένου σε ομιλία, εκπαιδευμένο σε πάνω από 200.000 ώρες πολυγλωσσικών δεδομένων λάλησης.
Το Zonos TTS σχεδιάστηκε για να παράγει αυτόνομη ομιλία υψηλής φύσης μέσω κειμενικών διαταγών, χρησιμοποιώντας ενσωματώσεις ομιλητή ή ήχου πρόθεμα. Χρειάζεται μόλις λίγα δευτερόλεπτα αναφορικού ήχου για να επιτευχθεί έξυπνη φωνητική αντιγραφή.
Το μοντέλο παρέχει ακριβή έλεγχο των παραμέτρων ομιλίας όπως το ρυθμός μιλήματος, η αλλαγή τόνου, η ποιότητα ήχου και η συναισθηματική χρωμάτιση όπως ευφορία, φόβος, λύπη και θυμός. Το Zonos TTS παράγει φυσικά ήχο 44kHz για να διασφαλίσει κορυφαία ποιότητα ήχου.
Ξεκινήστε
Δημιουργήστε έξοδο TTS υψηλής ποιότητας εισάγοντας το κείμενο που θέλετε και δείγμα 10-30 δευτερολέπτων του ομιλητή.
Βελτιώστε την ομοιότητα του ομιλητή προσθέτοντας ένα ακουστικό πρόθεμα στην είσοδο κειμένου, επιτρέποντας ενέργειες όπως η ψιθυριστή.
Υποστηρίζει αγγλικά, ιαπωνικά, κινέζικα, γαλλικά και γερμανικά με φυσική πronunciation.
Ακριβής ρύθμιση του ρυθμού μιλήματος, τόνου, ποιότητας ήχου και εκφάνισης συναισθημάτων.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Το Zonos TTS υποστηρίζει προς το πresent αγγλικά, ιαπωνικά, κινέζικα, γαλλικά και γερμανικά.
Μπορείτε να πανωφθεί η συναισθηματική χρωματικότητα με τη διαμόρφωση παραμέτρων όπως ευτυχία, θυμός, λύπη και φόβος στις ρυθμίσεις.
Ο παράγοντας πραγματικού χρόνου του Zonos TTS είναι περίπου 2x όταν τρέξει στην RTX 4090.
Το Zonos TTS μπορεί να εγκατασταθεί και να εφαρμοστεί εύκολα χρησιμοποιώντας τα αρχεία Docker που παρέχονται στο αποθετήριό μας.
Ανατρέξτε στους όρους άδειας χρήσης μας για πληροφορίες σχετικά με την εμπορική χρήση.