Zonos TTS - Zaawansowane przekształcanie tekstu w mowę z klonowaniem głosu

O Zonos TTS

Zonos TTS jest zaprojektowany do generowania bardzo naturalnej mowy na podstawie wskazówek tekstowych, wykorzystując osadzenia mówcy lub prefiksy audio. Wystarczy mu kilka sekund odniesienia audio, aby osiągnąć doskonałe klonowanie głosu.

Model ten zapewnia dokładną kontrolę nad parametrami głosu, takimi jak prędkość mówienia, zmiany wysokości dźwięku, jakość audio oraz barwy emocjonalne takie jak radość, strach, smutek i gniew. Zonos TTS generuje natywnie dźwięk o częstotliwości 44 kHz, aby zagwarantować najwyższą jakość dźwięku.

Rozpocznij korzystanie

Podstawowe funkcje

TTS bez przykładowych próbek i klonowanie głosu

Wygeneruj wysokiej jakości wyjście TTS, wprowadzając wymagany tekst i próbkę głośnikową trwającą 10-30 sekund.

Wprowadzanie prefiksu audio

Popraw dopasowanie mówcy poprzez dodanie prefiksu audio do wprowadzania tekstu, umożliwiając działania takie jak szeptanie.

Wsparcie wielojęzyczne

Obsługuje angielski, japoński, chiński, francuski i niemiecki z naturalnym wymowieniem.

Zaawansowane Sterowanie

Dokładnie dostosować tempo mowy, wysokość dźwięku, jakość dźwięku i wyrażanie emocji.

Szybki przewodnik startowy

implementacja Pythona


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Interfejs Gradio (zalecany)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Często zadawane pytania

Jakie języki obsługuje Zonos TTS?

Zonos TTS obecnie obsługuje język angielski, japoński, chiński, francuski i niemiecki.

Jak kontrolować kolor emocjonalny wygenerowanego mowy?

Możesz precyzyjnie dostosować kolor emocjonalny, dostosowując parametry takie jak radość, gniew, smutek i strach w ustawieniach.

Jaki jest współczynnik rzeczywisty Zonos TTS?

Czynnik czasu rzeczywistego Zonos TTS wynosi około 2x podczas uruchamiania na RTX 4090.

Jak zainstalować Zonos TTS?

Zonos TTS można łatwo zainstalować i wdrożyć za pomocą plików Docker dostępnych w naszym repozytorium.

Czy mogę używać Zonos TTS w celach komercyjnych?

Przeczytaj nasze warunki licencyjne, aby uzyskać informacje na temat użytkowania komercyjnego.

Konwertuj tekst na naturalną mowę Użyj Zonos TTS