正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

Dia：一个由两人小团队开发的完全开源语音模型能“一步生成”极为逼真的多角色对话语音能直接根据对话文本生成自然、有情感的多说话人语音可用音频条件（prompt）进行控制，实现情感、语调的定制。可通过音频prompt实现声音克隆权重和推理代码完全公开单步对话生成：一次性生成完整对话（支持多说话人，如[S1]、[S2]标签）。非语言标签支持：支持丰富的非语言动作标签，增强真实感。

小互

75,376 subscribers

28,964 次观看 • 1 年前 •via X (Twitter)

艺术科学技术教育

Anya Rossi• Live Now

Private livecam show

4 条评论

小互的头像

小互1 年前

Dia 的完整版需要大约 10GB 的显存可以运行详细介绍： GitHub：更多演示：

vanch ye 的头像

vanch ye1 年前

不支持中文

sky2008 的头像

sky20081 年前

great

AssemblyAI 的头像

AssemblyAI1 年前

Announcing: Our most advanced speech-to-text model goes beyond accuracy to capture the real-world complexity of human conversation and deliver reliable, source-of-truth audio data. Explore Universal-2 updates 👇

相关视频

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

阶跃开源了一个统治级 130B 的超大语音模型！！！业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统 - 支持多语言对话（中文，英文，日语） - 语音情感（开心，悲伤） - 方言（粤语，四川话） - 可控制语速及韵律风格 - 支持RAP和哼唱等 - 语音克隆太强了，这下真的一步到位了

歸藏(guizang.ai)

148,406 次观看 • 1 年前

卧槽兄弟们 Soul发布的这个语音模型很强 SoulX-Podcast实现了：高真实度、长时段、多说话人、多语种（中英双语 + 多方言）播客式语音生成具备方言与副语言（如笑声、叹气等）控制能力可连续生成 90 分钟以上的对话内容而不失稳定性支持普通话、英语及多种中文方言多人多轮对话还支持在零样本（zero-shot）条件下完成声音与语气的克隆与迁移

卧槽兄弟们 Soul发布的这个语音模型很强 SoulX-Podcast实现了：高真实度、长时段、多说话人、多语种（中英双语 + 多方言）播客式语音生成具备方言与副语言（如笑声、叹气等）控制能力可连续生成 90 分钟以上的对话内容而不失稳定性支持普通话、英语及多种中文方言多人多轮对话还支持在零样本（zero-shot）条件下完成声音与语气的克隆与迁移

小互

92,671 次观看 • 8 个月前

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

小互

35,755 次观看 • 1 年前

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

MaskGCT：一个新的零样本文本到语音（TTS）模型支持跨语言翻译配音、语音克隆、语言转换、情感控制等与现有的TTS系统相比，MaskGCT 在语音的自然度、相似度和可理解性方面表现更佳。支持对语音生成的多样性和情感控制以及对通过文本对音频内容进行实时可控编辑。同时模型大幅降低了推理时间，适合实时应用。

小互

49,351 次观看 • 1 年前

在制作播客或长篇有声小说，传统免费的文本转语音工具往往只能合成几分钟语音，而且多人对话听起来很僵硬不自然，缺乏真实感。最近微软开源了一个文本转语音模型：VibeVoice，可直接生成长达 90 分钟的自然多人对话音频。不仅能处理超长文本，还支持最多 4 个不同说话人的自然对话，甚至能根据内容自动添加背景音乐和音效。 GitHub：主要特性： - 可生成长达 90 分钟的连续语音内容，远超传统工具 - 支持最多 4 个说话人的自然多人对话 - 智能添加背景音乐和音效，增强沉浸感 - 跨语言合成，支持中英文混合语音生成 - 支持歌唱能力，能根据歌词自动生成旋律 - 提供 1.5B 和 7B 两个版本，满足不同性能需求，可通过 Docker 快速部署，并提供了 Gradio 可视化操作界面，轻松上手使用。

在制作播客或长篇有声小说，传统免费的文本转语音工具往往只能合成几分钟语音，而且多人对话听起来很僵硬不自然，缺乏真实感。最近微软开源了一个文本转语音模型：VibeVoice，可直接生成长达 90 分钟的自然多人对话音频。不仅能处理超长文本，还支持最多 4 个不同说话人的自然对话，甚至能根据内容自动添加背景音乐和音效。 GitHub：主要特性： - 可生成长达 90 分钟的连续语音内容，远超传统工具 - 支持最多 4 个说话人的自然多人对话 - 智能添加背景音乐和音效，增强沉浸感 - 跨语言合成，支持中英文混合语音生成 - 支持歌唱能力，能根据歌词自动生成旋律 - 提供 1.5B 和 7B 两个版本，满足不同性能需求，可通过 Docker 快速部署，并提供了 Gradio 可视化操作界面，轻松上手使用。

GitHubDaily

44,053 次观看 • 10 个月前

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

小互

35,292 次观看 • 1 年前

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

兄弟们，牛P了 11Labs 推出 Eleven v3（Alpha 版）应该是目前地表最强的文本转语音模型了它不仅会说话，还能演戏支持 70 多种语言多个角色间的自然对话以及通过 [sad]、[whispers]、[laughs] 等音频标签精准控制语音情绪与非语言表达与旧版本相比，v3 拥有更强的文本理解能力，可以模拟真实对话中的中断、情感变化与语气调整。

小互

124,132 次观看 • 1 年前

.Qwen 出了一个语音生成，叫 Qwen-TTS，主打方言，视频里面的北京话，您还别说，地道！ Qwen-TTS - 免费 - 支持多种中文方言和中英双语 - API 简单易用亮点 • 训练于超大规模语音数据集，语音自然、富有表现力 • 自动调整语调、语速和情感，支持普通话、北京话、上海话、四川话等方言 • 7 个中英双语声音，适合多场景应用 • 支持通过 API 一键合成语音，代码示例丰富 • 生成结果带有实时性和高可用性 • 持续迭代，未来会支持更多语言和风格博客展示

.Qwen 出了一个语音生成，叫 Qwen-TTS，主打方言，视频里面的北京话，您还别说，地道！ Qwen-TTS - 免费 - 支持多种中文方言和中英双语 - API 简单易用亮点 • 训练于超大规模语音数据集，语音自然、富有表现力 • 自动调整语调、语速和情感，支持普通话、北京话、上海话、四川话等方言 • 7 个中英双语声音，适合多场景应用 • 支持通过 API 一键合成语音，代码示例丰富 • 生成结果带有实时性和高可用性 • 持续迭代，未来会支持更多语言和风格博客展示

艾略特

29,983 次观看 • 1 年前

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

AIGCLINK

18,706 次观看 • 1 年前

之前要挑战 GPT 4o 语音的 Kyutai 开源了他们的实时语音模型 Moshi，并公布了完整的技术报告和代码，详细介绍了其模型的工作原理和技术方法 Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达传统的对话系统是基于轮次的对话模式（即一个人说完后，另一个人才开始说）。Moshi 摆脱了这种限制，支持全双工通信。这意味着 Moshi 可以在用户讲话的同时生成语音回应，不受轮次约束，能够处理重叠的语音、打断和快速反馈等复杂的对话动态。与传统的语音对话系统相比，Moshi有几个显著优势： 1、实时响应：Moshi 的响应速度非常快，延迟仅为160-200毫秒，接近自然对话中的反应速度，因此可以提供更加流畅的对话体验。 2、语音到语音的处理：传统系统通常依赖语音转文字再生成语音的流程，而Moshi 可以直接处理语音输入并生成语音输出，保留了诸如语气、情绪等非语言信息。 3、全双工对话：Moshi 不依赖严格的对话轮次，而是可以同时处理用户和系统的语音，这意味着它可以应对重叠的语音和打断，更加接近人类对话的自然形式。

之前要挑战 GPT 4o 语音的 Kyutai 开源了他们的实时语音模型 Moshi，并公布了完整的技术报告和代码，详细介绍了其模型的工作原理和技术方法 Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达传统的对话系统是基于轮次的对话模式（即一个人说完后，另一个人才开始说）。Moshi 摆脱了这种限制，支持全双工通信。这意味着 Moshi 可以在用户讲话的同时生成语音回应，不受轮次约束，能够处理重叠的语音、打断和快速反馈等复杂的对话动态。与传统的语音对话系统相比，Moshi有几个显著优势： 1、实时响应：Moshi 的响应速度非常快，延迟仅为160-200毫秒，接近自然对话中的反应速度，因此可以提供更加流畅的对话体验。 2、语音到语音的处理：传统系统通常依赖语音转文字再生成语音的流程，而Moshi 可以直接处理语音输入并生成语音输出，保留了诸如语气、情绪等非语言信息。 3、全双工对话：Moshi 不依赖严格的对话轮次，而是可以同时处理用户和系统的语音，这意味着它可以应对重叠的语音和打断，更加接近人类对话的自然形式。

小互

52,568 次观看 • 1 年前

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情感控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景 #TTS #Chatterbox #文本转语音 #AI语音

盲测击败了ElevenLabs的一款TTS：Chatterbox，有极强的情感控制能力，可以调整其语音表现力支持语音克隆、风格定制除了正常对话，可以用于一些戏剧化的语音场景 #TTS #Chatterbox #文本转语音 #AI语音

AIGCLINK

26,481 次观看 • 1 年前

HeyGen 发布 Avatar IV 数字人模型只需一张照片、一段脚本和自己的语音，即可生成一个非常逼真数字人 - 新模型基于“扩散式音频驱动表情引擎”，能根据语音的节奏、语调、情绪合成真实的面部表情和动作。 - 支持侧脸图像与角度变化，带来更具电影感的画面。 - 支持唱歌同步（节奏匹配） - 不仅同步声音，还能“理解”语义与情感，表现出暂停、点头、语调起伏等微动作。 - 支持 30 秒音频/脚本：最多上传 30 秒的语音或文本脚本生成动画。

小互

140,969 次观看 • 1 年前

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

效果非常不错的一款TTS，一个完全非自回归的TTS模型：MaskGCT 它不需要文本和语音之间的显式对齐信息，也不需要音素级别的持续时间预测，采用了掩码和预测的学习方式，在声音克隆、跨语种合成、语音控制等方面表现优秀 1、支持控制生成语音的总长度，可调节语速、停顿等韵律特征、支持情感控制和语气调整，比如开心的、悲伤的、生气的、平静的等情绪 2、支持零样本语音合成，可以修改已生成的语音，支持声音转换和克隆 github：项目： #TTS #MaskGCT

AIGCLINK

103,720 次观看 • 1 年前

OpenVoice V2版本发布原生支持英语、西班牙语、法语、中文、日语和韩语音频质量大幅提升能轻松克隆任何声音，用多种语言说话，并可控制情感口音 OpenVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参考发言者的音色。详细：

OpenVoice V2版本发布原生支持英语、西班牙语、法语、中文、日语和韩语音频质量大幅提升能轻松克隆任何声音，用多种语言说话，并可控制情感口音 OpenVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参考发言者的音色。详细：

小互

33,307 次观看 • 2 年前

ElevenLabs 发布新一代语音设计工具 Voice Design v3 你只需输入一段描述性文字，就能生成相应的语音支持 70+语言可设计和控制语音各种个性它可以解析Prompt 中涉及的情绪、语气、年龄、背景、口音等信息，从而生成拟人化语音。支持对语音角色的个性和韵律（如语气、语速、语调变化、年龄和性别）拥有更细致控制支持 Eleven v3 和新音频标签提升口音识别处理更高保真音频输出

ElevenLabs 发布新一代语音设计工具 Voice Design v3 你只需输入一段描述性文字，就能生成相应的语音支持 70+语言可设计和控制语音各种个性它可以解析Prompt 中涉及的情绪、语气、年龄、背景、口音等信息，从而生成拟人化语音。支持对语音角色的个性和韵律（如语气、语速、语调变化、年龄和性别）拥有更细致控制支持 Eleven v3 和新音频标签提升口音识别处理更高保真音频输出

小互

13,380 次观看 • 1 年前

香港科技大学开源了一个很牛的音乐生成模型 - 最多可以生成 5 分钟的带人声音乐 - 支持中文普通话和粤语 - 在RTX 4090 上，生成30s音频大约需要360秒 - 标签组成为：类型，仪器，情绪，性别和音色

香港科技大学开源了一个很牛的音乐生成模型 - 最多可以生成 5 分钟的带人声音乐 - 支持中文普通话和粤语 - 在RTX 4090 上，生成30s音频大约需要360秒 - 标签组成为：类型，仪器，情绪，性别和音色

歸藏(guizang.ai)

93,766 次观看 • 1 年前

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

AIGCLINK

52,126 次观看 • 1 年前

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

Gorden Sun

55,078 次观看 • 4 个月前

发一下这两天小红书放出来的一款多人对话TTS：FireRedTTS-2，效果听起来相对自然稳定，没有串声跳音支持一次生成3分钟4人播客，通过扩展训练数据能支持更长对话、更多说话人在L20 GPU上，首包延迟140毫秒，可以用来做语音客服、直播配音了支持7国语言，零样本克隆，可以做比如中英混合语音合成 #TTS #FireRedTTS2

发一下这两天小红书放出来的一款多人对话TTS：FireRedTTS-2，效果听起来相对自然稳定，没有串声跳音支持一次生成3分钟4人播客，通过扩展训练数据能支持更长对话、更多说话人在L20 GPU上，首包延迟140毫秒，可以用来做语音客服、直播配音了支持7国语言，零样本克隆，可以做比如中英混合语音合成 #TTS #FireRedTTS2

AIGCLINK

15,242 次观看 • 9 个月前