Nowoczesny model konwersji tekstu na mowę o otwartej wadze, wyuczony na ponad 200 000 godzin danych głosowych wielojęzycznych.
Zonos TTS jest zaprojektowany do generowania bardzo naturalnej mowy na podstawie wskazówek tekstowych, wykorzystując osadzenia mówcy lub prefiksy audio. Wystarczy mu kilka sekund odniesienia audio, aby osiągnąć doskonałe klonowanie głosu.
Model ten zapewnia dokładną kontrolę nad parametrami głosu, takimi jak prędkość mówienia, zmiany wysokości dźwięku, jakość audio oraz barwy emocjonalne takie jak radość, strach, smutek i gniew. Zonos TTS generuje natywnie dźwięk o częstotliwości 44 kHz, aby zagwarantować najwyższą jakość dźwięku.
Rozpocznij korzystanie
Wygeneruj wysokiej jakości wyjście TTS, wprowadzając wymagany tekst i próbkę głośnikową trwającą 10-30 sekund.
Popraw dopasowanie mówcy poprzez dodanie prefiksu audio do wprowadzania tekstu, umożliwiając działania takie jak szeptanie.
Obsługuje angielski, japoński, chiński, francuski i niemiecki z naturalnym wymowieniem.
Dokładnie dostosować tempo mowy, wysokość dźwięku, jakość dźwięku i wyrażanie emocji.
import torch import torchaudio from zonos.model import Zonos from zonos.conditioning import make_cond_dict # Initialize model model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda") # Load audio sample wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3") speaker = model.make_speaker_embedding(wav, sampling_rate) # Generate speech cond_dict = make_cond_dict( text="Hello, world!", speaker=speaker, language="en-us" ) conditioning = model.prepare_conditioning(cond_dict) codes = model.generate(conditioning) # Save output wavs = model.autoencoder.decode(codes).cpu() torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)
uv run gradio_interface.py # python gradio_interface.py
Zonos TTS Github >>
Zonos TTS obecnie obsługuje język angielski, japoński, chiński, francuski i niemiecki.
Możesz precyzyjnie dostosować kolor emocjonalny, dostosowując parametry takie jak radość, gniew, smutek i strach w ustawieniach.
Czynnik czasu rzeczywistego Zonos TTS wynosi około 2x podczas uruchamiania na RTX 4090.
Zonos TTS można łatwo zainstalować i wdrożyć za pomocą plików Docker dostępnych w naszym repozytorium.
Przeczytaj nasze warunki licencyjne, aby uzyskać informacje na temat użytkowania komercyjnego.