Zonos TTS - Testo in parola avanzato con clonazione della voce

Informazioni su Zonos TTS

Zonos TTS è progettato per generare un parlato altamente naturale da suggerimenti testuali, utilizzando le incorporazioni del parlante o i prefissi audio. Ha bisogno solo di pochi secondi di audio di riferimento per ottenere un eccellente clonazione vocale.

Il modello fornisce un controllo preciso sui parametri vocali, come la velocità di parlare, le variazioni di tono, la qualità audio e la colorazione emotiva come la gioia, la paura, la tristezza e l'ira. Zonos TTS produce in modo nativo audio a 44kHz per garantire una qualità sonora di prim'ordine.

Inizia a usare

Caratteristiche principali

TTS a zero-shot e clonazione vocale

Genera un output TTS di alta qualità inserendo il testo desiderato e un campione di 10-30 secondi del parlante.

Inserimento prefisso audio

Migliora il riconoscimento del parlante aggiungendo un prefisso audio all'input di testo, consentendo azioni come il bisbiglio.

Supporto Multilingue

Supporta inglese, giapponese, cinese, francese e tedesco con pronuncia naturale.

Controllo Avanzato

Regolare con precisione la velocità di parola, l'altezza del tono, la qualità audio e l'espressione emotiva.

Guida di Avvio Rapido

implementazione Python


import torch
import torchaudio
from zonos.model import Zonos
from zonos.conditioning import make_cond_dict

# Initialize model
model = Zonos.from_pretrained("Zyphra/Zonos-v0.1-transformer", device="cuda")

# Load audio sample
wav, sampling_rate = torchaudio.load("assets/exampleaudio.mp3")
speaker = model.make_speaker_embedding(wav, sampling_rate)

# Generate speech
cond_dict = make_cond_dict(
    text="Hello, world!",
    speaker=speaker,
    language="en-us"
)
conditioning = model.prepare_conditioning(cond_dict)
codes = model.generate(conditioning)

# Save output
wavs = model.autoencoder.decode(codes).cpu()
torchaudio.save("sample.wav", wavs[0], model.autoencoder.sampling_rate)

Interfaccia Gradio (consigliata)


uv run gradio_interface.py
# python gradio_interface.py

Zonos TTS Github >>

Domande frequenti

Quali lingue sono supportate da Zonos TTS?

Zonos TTS attualmente supporta l'inglese, il giapponese, il cinese, il francese e il tedesco.

Come controllare il tono emotivo della voce generata?

Puoi bilanciare il tono emotivo regolando i parametri come felicità, rabbia, tristezza e paura nelle impostazioni.

Qual è il fattore di tempo reale di Zonos TTS?

Il fattore temporale reale di Zonos TTS è di circa 2x quando viene eseguito sulla RTX 4090.

Come installare Zonos TTS?

Zonos TTS può essere facilmente installato e distribuito utilizzando i file Docker forniti nel nostro repository.

Posso utilizzare Zonos TTS a scopo commerciale?

Si prega di fare riferimento ai nostri termini della licenza per le informazioni sull'uso commerciale.

Converti il testo in parlato naturale Usa Zonos TTS