正在加载视频...
视频加载失败
Dia:一个由两人小团队开发的完全开源语音模型 能“一步生成”极为逼真的多角色对话语音 能直接根据对话文本生成自然、有情感的多说话人语音 可用音频条件(prompt)进行控制,实现情感、语调的定制。 可通过音频prompt实现声音克隆 权重和推理代码完全公开 单步对话生成:一次性生成完整对话(支持多说话人,如[S1]、[S2]标签)。 非语言标签支持:支持丰富的非语言动作标签,增强真实感。
4 条评论

小互1 年前
Dia 的完整版需要大约 10GB 的显存可以运行 详细介绍: GitHub: 更多演示:

vanch ye1 年前
不支持中文

sky20081 年前
great

AssemblyAI1 年前
Announcing: Our most advanced speech-to-text model goes beyond accuracy to capture the real-world complexity of human conversation and deliver reliable, source-of-truth audio data. Explore Universal-2 updates 👇
