Video yükleniyor...

Video Yüklenemedi

Ana Sayfaya Dön

MARS5 TTS: Open Source Text to Speech with insane prosodic control! 🔥 > Voice cloning with less than 5 seconds of audio > Two stage Auto-Regressive (750M) + Non-Auto Regressive (450M) model architecture > Used BPE tokenizer to enable control over punctuations, pauses, stops etc. > AR model predicts...

162,180 görüntüleme • 2 yıl önce •via X (Twitter)

10 Yorum

Vaibhav (VB) Srivastav profil fotoğrafı
Vaibhav (VB) Srivastav2 yıl önce

Check out the model here:

Vaibhav (VB) Srivastav profil fotoğrafı
Vaibhav (VB) Srivastav2 yıl önce

GitHub for more deets:

Carlos DP profil fotoğrafı
Carlos DP2 yıl önce

Wow, these outputs are incredible. Like, is this the new SOTA? The samples sound better than the 11labs ones, at least, but idk what params were used

Vaibhav (VB) Srivastav profil fotoğrafı
Vaibhav (VB) Srivastav2 yıl önce

750M + 450M -> pretty lightweight overall, in the GitHub README they promise more updates coming soon :D

Furkan Gözükara profil fotoğrafı
Furkan Gözükara2 yıl önce

5 seconds to clone is always a lie but i can't say for sure without testing i asked them for gradio demo app to be shared

marko. profil fotoğrafı
marko.2 yıl önce

Released under GNU AGPL 3.0, a very curious choice for a model but I'll take it 🎉

Marouane Belkouri profil fotoğrafı
Marouane Belkouri2 yıl önce

Finnetunning code ?

adivina_soy3 profil fotoğrafı
adivina_soy32 yıl önce

@huggingface Impresionante. Crees que seria posible combinarlo con Hallo?

Thomas Hill profil fotoğrafı
Thomas Hill2 yıl önce

Nice share 🔥

STEVE blowJOBS profil fotoğrafı
STEVE blowJOBS2 yıl önce

This is racist ask me why

Benzer Videolar