Ein innovatives offenes Gewicht Text-to-Speech-Modell, das auf mehr als 200.000 Stunden multilingualen Sprachdaten trainiert wurde.
Zonos TTS ist darauf ausgelegt, über Textanweisungen hoch natürliche Sprache zu generieren und Sprechereinbettungen oder Audiovorspanne zu nutzen. Es benötigt nur wenige Sekunden Referenzaudio für eine ausgezeichnete Stimmenimitation.
Das Modell bietet präzise Kontrolle über Sprachparameter wie Sprechgeschwindigkeit, Tonhöhenvariation, Audiodateiqualität und emotionale Färbung wie Freude, Angst, Trauer und Wut. Zonos TTS gibt standardmäßig 44 kHz Audio aus, um eine Spitzen-Qualität zu gewährleisten.
Loslegen
Erzeugen Sie eine hochwertige TTS-Ausgabe, indem Sie den gewünschten Text und ein 10-30 Sekunden langes Beispiel des Sprechers eingeben.
Verbessern Sie die Sprecherauswahl durch Hinzufügen eines Audiovorspanns zu der Texteingabe, um Verhaltensweisen wie Flüstern zu ermöglichen.
Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch mit natürlicher Aussprache.
Die Sprechgeschwindigkeit, Tonhöhe, Audiolqualität und emotionale Ausdrucksweise präzise anpassen.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS unterstützt derzeit Englisch, Japanisch, Chinesisch, Französisch und Deutsch.
Sie können die emotionale Färbung durch Anpassen von Parametern wie Glück, Wut, Traurigkeit und Angst in den Einstellungen fein justieren.
Der Echtzeitfaktor von Zonos TTS beträgt etwa 2x, wenn es auf der RTX 4090 ausgeführt wird.
Zonos TTS kann leicht installiert und bereitgestellt werden, indem die im Repository bereitgestellten Docker-Dateien verwendet werden.
Bitte beziehen Sie sich auf unsere Lizenzbedingungen für Informationen zur kommerziellen Nutzung.