Zonos TTS - Erweiterte KI-Text-zu-Sprache mit Stimmenklonen

Über Zonos TTS

Zonos TTS ist darauf ausgelegt, über Textanweisungen hoch natürliche Sprache zu generieren und Sprechereinbettungen oder Audiovorspanne zu nutzen. Es benötigt nur wenige Sekunden Referenzaudio für eine ausgezeichnete Stimmenimitation.

Das Modell bietet präzise Kontrolle über Sprachparameter wie Sprechgeschwindigkeit, Tonhöhenvariation, Audiodateiqualität und emotionale Färbung wie Freude, Angst, Trauer und Wut. Zonos TTS gibt standardmäßig 44 kHz Audio aus, um eine Spitzen-Qualität zu gewährleisten.

Loslegen

Kernmerkmale

Zero-Shot-TTS und Sprachcloning

Erzeugen Sie eine hochwertige TTS-Ausgabe, indem Sie den gewünschten Text und ein 10-30 Sekunden langes Beispiel des Sprechers eingeben.

Audiodatei-Präfixeingabe

Verbessern Sie die Sprecherauswahl durch Hinzufügen eines Audiovorspanns zu der Texteingabe, um Verhaltensweisen wie Flüstern zu ermöglichen.

Mehrsprachige Unterstützung

Unterstützt Englisch, Japanisch, Chinesisch, Französisch und Deutsch mit natürlicher Aussprache.

Fortgeschrittene Steuerung

Die Sprechgeschwindigkeit, Tonhöhe, Audiolqualität und emotionale Ausdrucksweise präzise anpassen.

Schnellstartanleitung

Python-Implementierung


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Gradio-Schnittstelle (empfohlen)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Häufig gestellte Fragen

Welche Sprachen unterstützt Zonos TTS?

Zonos TTS unterstützt derzeit Englisch, Japanisch, Chinesisch, Französisch und Deutsch.

Wie steuert man die emotionale Färbung der generierten Sprache?

Sie können die emotionale Färbung durch Anpassen von Parametern wie Glück, Wut, Traurigkeit und Angst in den Einstellungen fein justieren.

Was ist der Echtzeitfaktor von Zonos TTS?

Der Echtzeitfaktor von Zonos TTS beträgt etwa 2x, wenn es auf der RTX 4090 ausgeführt wird.

Wie installiere ich Zonos TTS?

Zonos TTS kann leicht installiert und bereitgestellt werden, indem die im Repository bereitgestellten Docker-Dateien verwendet werden.

Kann ich Zonos TTS zu kommerziellen Zwecken verwenden?

Bitte beziehen Sie sich auf unsere Lizenzbedingungen für Informationen zur kommerziellen Nutzung.

Text in natürliche Sprache umwandeln Verwenden Sie Zonos TTS