正在加载视频...

视频加载失败

Dia:一个由两人小团队开发的完全开源语音模型 能“一步生成”极为逼真的多角色对话语音 能直接根据对话文本生成自然、有情感的多说话人语音 可用音频条件(prompt)进行控制,实现情感、语调的定制。 可通过音频prompt实现声音克隆 权重和推理代码完全公开 单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。 非语言标签支持:支持丰富的非语言动作标签,增强真实感。

28,964 次观看 • 1 年前 •via X (Twitter)

4 条评论

小互 的头像
小互1 年前

Dia 的完整版需要大约 10GB 的显存可以运行 详细介绍: GitHub: 更多演示:

vanch ye 的头像
vanch ye1 年前

不支持中文

sky2008 的头像
sky20081 年前

great

AssemblyAI 的头像
AssemblyAI1 年前

Announcing: Our most advanced speech-to-text model goes beyond accuracy to capture the real-world complexity of human conversation and deliver reliable, source-of-truth audio data. Explore Universal-2 updates 👇

相关视频