Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

AIGCLINK

36,133 subscribers

52,126 просмотров • 1 год назад •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

兄弟们，中文视觉语音开源模型来了类似GPT 4o的高级语音和实时视觉能力，可分析图片和视频内容，提供描述、回答问题等能力。端到端 TTS（文本到语音转换）模块语音交互延迟约 1.5 秒，接近实时的用户体验。该开源项目的目标是达到接近 GPT-4o 级别的多模态性能，能够进行实时的视频、图像语音问答能力。

兄弟们，中文视觉语音开源模型来了类似GPT 4o的高级语音和实时视觉能力，可分析图片和视频内容，提供描述、回答问题等能力。端到端 TTS（文本到语音转换）模块语音交互延迟约 1.5 秒，接近实时的用户体验。该开源项目的目标是达到接近 GPT-4o 级别的多模态性能，能够进行实时的视频、图像语音问答能力。

小互

32,036 просмотров • 1 год назад

GPT-Realtime-2 语音模型发布语音首次接入 GPT-5 推理能力 OpenAI一口气发布了三个实时语音模型： GPT-Realtime-2 GPT-Realtime-Translate GPT-Realtime-Whisper 其中GPT-Realtime-2 是其中的主角，这是 OpenAI 第一次把“GPT-5 级推理”塞进语音模型，同时把上下文从 32K 扩到 128K... GPT-Realtime-2：首个具备 GPT-5 级推理能力的语音模型，能在对话中推理复杂请求、并行调工具、处理打断和纠错，上下文窗口从 32K 升到 128K GPT-Realtime-Translate：实时语音翻译模型，支持 70+ 种输入语言、13 种输出语言，跟着说话人的节奏边听边译，能处理口音和专业词 GPT-Realtime-Whisper：流式语音转文字模型，边说边出字，专门给实时字幕、会议纪要、客服转写这类不能等的

GPT-Realtime-2 语音模型发布语音首次接入 GPT-5 推理能力 OpenAI一口气发布了三个实时语音模型： GPT-Realtime-2 GPT-Realtime-Translate GPT-Realtime-Whisper 其中GPT-Realtime-2 是其中的主角，这是 OpenAI 第一次把“GPT-5 级推理”塞进语音模型，同时把上下文从 32K 扩到 128K... GPT-Realtime-2：首个具备 GPT-5 级推理能力的语音模型，能在对话中推理复杂请求、并行调工具、处理打断和纠错，上下文窗口从 32K 升到 128K GPT-Realtime-Translate：实时语音翻译模型，支持 70+ 种输入语言、13 种输出语言，跟着说话人的节奏边听边译，能处理口音和专业词 GPT-Realtime-Whisper：流式语音转文字模型，边说边出字，专门给实时字幕、会议纪要、客服转写这类不能等的

小互

31,189 просмотров • 1 месяц назад

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

智谱刚刚开源了情感语音模型 GLM-4.Voice，一款端到端语音模型，能情感共鸣、支持打断、多语言多方言支持能力： 1、情感表达和情感共鸣：可以模拟不同的情感和语调，高兴、悲伤、生气、害怕等情绪，会用合适的情绪语气回复 2、调节语速：可以要求TA快点说or慢点说 3、随时打断：可以根据实时的指令，调整语音输出的内容、风格和情感，支持更灵活的对话互动 4、多语言、多方言支持：目前支持中英文语音以及中国各地方言，擅长粤语、重庆话、北京话 github：目前该模型的能力已同步上线清言app

AIGCLINK

18,706 просмотров • 1 год назад

酷，新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实时自主对话，持续聆听、推理以及主动回应，通过文本指令可以定义说话者的身份以及语气等特征 #语音模型 #Voila #TTS #ASR

酷，新出的一款端到端AI语音模型：Voila，全双工能同时听和说，低延迟，预置了一百万种语音还支持ASR、TTS以及多语言语音翻译端到端架构，支持全双工的低延迟对话，延迟195毫秒，超人类平均响应时间能实时自主对话，持续聆听、推理以及主动回应，通过文本指令可以定义说话者的身份以及语气等特征 #语音模型 #Voila #TTS #ASR

AIGCLINK

37,647 просмотров • 1 год назад

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

Kyutai 又推出了一个新的语音模型： Unmute 这是一个高度模块化的语音 AI 系统，可以为任何文本大语言模型快速添加语音功能。也就是它可以插入到任意的模型当中，让该模型具有语音能力。 -它能够很智能判断你是否说完一句话，然后再接茬 -你也可以随时打断它 -基于 10 秒语音样本即可定制声音 -能实现“文本流式”合成，支持在文本尚未完全生成时开始说话，进一步降低响应延迟。

小互

37,051 просмотров • 1 год назад

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

MiniCPM-o4.5：首个开源全模态、全双工模型全模态：支持视频、音频、图片、文本输入，支持音频、文本输出。能实时生成音频，支持语音克隆，支持生成无限长度音频。全双工：不是一问一答，而是能边听边说。支持打断，不仅你可以打断MiniCPM-o4.5说话，MiniCPM-o4.5也会自主决策打断你说话，像是两个真实的人在沟通。这是首个能打断人类说话的模型，Gemini 3 Flash能实现你打断AI说话，但是AI不能主动打断你说话。完全开源，9B参数，本地即可运行。OpenBMB 模型：

Gorden Sun

55,078 просмотров • 4 месяцев назад

上海交大和微软开源的一款【端到端的语音到语音翻译系统：TransVIP】，它可以保持原声特征、保持源语音和目标语音时长同步它的声音特点和说话的节奏感保持的非常不错，比较自然流畅，时长控制的也比较精确，很适合做视频配音、跨语言直播或实时语音翻译直接从源语音到目标语音，无需中间步骤，处理延迟低源语音和目标语音时长保持一致，可以避免口型不同步问题项目： github： #AI实时翻译 #TransVIP

上海交大和微软开源的一款【端到端的语音到语音翻译系统：TransVIP】，它可以保持原声特征、保持源语音和目标语音时长同步它的声音特点和说话的节奏感保持的非常不错，比较自然流畅，时长控制的也比较精确，很适合做视频配音、跨语言直播或实时语音翻译直接从源语音到目标语音，无需中间步骤，处理延迟低源语音和目标语音时长保持一致，可以避免口型不同步问题项目： github： #AI实时翻译 #TransVIP

AIGCLINK

55,985 просмотров • 1 год назад

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

阶跃星辰开源了一个130B 语音-文本的多模态模型：Step-Audio 这是一个集成语音识别、语义理解、对话生成、语音克隆、音频编辑和语音合成等功能的全能语音模型。该模型通过多模态训练，使得语音理解与生成可以无缝对接。主要能力：语音克隆支持多种语言对话（中文英日）情绪控制与语调控制支持方言可控制语速及韵律风格支持RAP和哼唱等集成了工具调用和角色扮演能力，能够高效管理复杂的任务和对话。 Step-Audio 在多个基准测试中表现出色，尤其是在开放域问答、复杂指令任务和语音合成（TTS）方面取得了显著的进展。

小互

35,755 просмотров • 1 год назад

兄弟们炸裂了这个语音专文本TTS模型应该是目前对中文支持最好的了 ChatTTS：专门为对话场景设计的文本到语音TTS模型该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。专为对话任务优化，能够支持多种说话人语音，中英文混合等。模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。 GitHub：详细介绍：

兄弟们炸裂了这个语音专文本TTS模型应该是目前对中文支持最好的了 ChatTTS：专门为对话场景设计的文本到语音TTS模型该模型经过超过10万小时的训练，公开版本在 HuggingFace 上提供了一个4万小时预训练的模型。专为对话任务优化，能够支持多种说话人语音，中英文混合等。模型还能够预测和控制细粒度的韵律特征，如笑声、停顿和插话等，还能进行更细粒度的调整，如语速、音调和情感等。 GitHub：详细介绍：

小互

296,503 просмотров • 2 лет назад

小智语音机器人的客户端：py-xiaozhi，在电脑上就能用，可以在没有硬件的条件下体验AI小智的语音功能支持mqtt和wss协议，实时打断，实时对话支持图像识别处理，有多模态交互能力，能理解图像内容支持IoT设备集成，来控制智能灯、调节温度等等可以联网播放音乐 #AI语音助手 #语音机器人 #小智语音机器人

小智语音机器人的客户端：py-xiaozhi，在电脑上就能用，可以在没有硬件的条件下体验AI小智的语音功能支持mqtt和wss协议，实时打断，实时对话支持图像识别处理，有多模态交互能力，能理解图像内容支持IoT设备集成，来控制智能灯、调节温度等等可以联网播放音乐 #AI语音助手 #语音机器人 #小智语音机器人

AIGCLINK

13,386 просмотров • 1 год назад

首个开源的会话音频生成基础模型：Hertz-dev，实时语音交互，8.5亿参数全双工，可以同时听和说超低延迟，可在120毫秒内回应，像和真人对话一样流畅，没有明显卡顿感是目前公开的同类系统中最快的 github： #Hertzdev #AI实时语音系统

首个开源的会话音频生成基础模型：Hertz-dev，实时语音交互，8.5亿参数全双工，可以同时听和说超低延迟，可在120毫秒内回应，像和真人对话一样流畅，没有明显卡顿感是目前公开的同类系统中最快的 github： #Hertzdev #AI实时语音系统

AIGCLINK

34,506 просмотров • 1 год назад

基于 Gemini 2.0 AI 模型的 Python 应用程序，实现语音对话与文本转语音功能。

基于 Gemini 2.0 AI 模型的 Python 应用程序，实现语音对话与文本转语音功能。

Geek

30,063 просмотров • 1 год назад

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

刚开源的一款不错的TTS模型：Zonos-v0.1，表达能力和音质很不错，支持语音克隆，可对语速、音调变化、音质以及情感精细控制 10-30s声音样本即可高质量语音克隆支持英语、日语、中文、法语和德语可精细调控语速、音调、最高频率、音质以及各种情感响应速度快，在RTX 4090上，实时率约为2倍 #TTS #语音模型 #Zonos

AIGCLINK

18,116 просмотров • 1 год назад

之前要挑战 GPT 4o 语音的 Kyutai 开源了他们的实时语音模型 Moshi，并公布了完整的技术报告和代码，详细介绍了其模型的工作原理和技术方法 Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达传统的对话系统是基于轮次的对话模式（即一个人说完后，另一个人才开始说）。Moshi 摆脱了这种限制，支持全双工通信。这意味着 Moshi 可以在用户讲话的同时生成语音回应，不受轮次约束，能够处理重叠的语音、打断和快速反馈等复杂的对话动态。与传统的语音对话系统相比，Moshi有几个显著优势： 1、实时响应：Moshi 的响应速度非常快，延迟仅为160-200毫秒，接近自然对话中的反应速度，因此可以提供更加流畅的对话体验。 2、语音到语音的处理：传统系统通常依赖语音转文字再生成语音的流程，而Moshi 可以直接处理语音输入并生成语音输出，保留了诸如语气、情绪等非语言信息。 3、全双工对话：Moshi 不依赖严格的对话轮次，而是可以同时处理用户和系统的语音，这意味着它可以应对重叠的语音和打断，更加接近人类对话的自然形式。

之前要挑战 GPT 4o 语音的 Kyutai 开源了他们的实时语音模型 Moshi，并公布了完整的技术报告和代码，详细介绍了其模型的工作原理和技术方法 Moshi：实时语音到语音生成 Transformer 开源模型 160毫秒低延迟支持随时打断和情感表达传统的对话系统是基于轮次的对话模式（即一个人说完后，另一个人才开始说）。Moshi 摆脱了这种限制，支持全双工通信。这意味着 Moshi 可以在用户讲话的同时生成语音回应，不受轮次约束，能够处理重叠的语音、打断和快速反馈等复杂的对话动态。与传统的语音对话系统相比，Moshi有几个显著优势： 1、实时响应：Moshi 的响应速度非常快，延迟仅为160-200毫秒，接近自然对话中的反应速度，因此可以提供更加流畅的对话体验。 2、语音到语音的处理：传统系统通常依赖语音转文字再生成语音的流程，而Moshi 可以直接处理语音输入并生成语音输出，保留了诸如语气、情绪等非语言信息。 3、全双工对话：Moshi 不依赖严格的对话轮次，而是可以同时处理用户和系统的语音，这意味着它可以应对重叠的语音和打断，更加接近人类对话的自然形式。

小互

52,568 просмотров • 1 год назад

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

兄弟们，这个强啊，效果真的挺棒复旦大学OpenMOSS人工智能开放实验室推出首个端到端实时语音交互模型中文语音能力感觉和GPT 4o 的高级语音很接近 - 低于 200 毫秒，支持语音打断和自然互动 - 可根据指令生成多情感、多风格的语音，包括模仿特定角色的情绪。 - 丰富的情感控制：支持生成多种情感语音，如欢快、严肃、悲伤等。语音风格多样化：可以模拟不同的角色语调、情绪和语气。支持生成说唱、戏剧化台词、机器人声效、低语耳语、方言等风格

小互

35,292 просмотров • 1 год назад

字节发布了一款端到端同声传译模型：Seed LiveInterpret 2.0，中英双向端到端同传，延迟为2-3秒从演示效果看，准确性、复杂场景的处理、声音情绪的表达、语音克隆音色转换的效果相对都还可以性能上，语音到语音翻译，中英互译平均翻译质量到了66.3分，接近专业真人同传水平延迟上，语音到文本输出首字平均延迟2.21秒，语音到语音输出延时2.53 秒功能上支持实时声音复刻，复刻不同说话人的音色擅长多人对话、非流利语音以及长音频场景对绕口令、诗词、美食文化等可相对自然互译 #AI同传 #SeedLiveInterpret #字节同传

字节发布了一款端到端同声传译模型：Seed LiveInterpret 2.0，中英双向端到端同传，延迟为2-3秒从演示效果看，准确性、复杂场景的处理、声音情绪的表达、语音克隆音色转换的效果相对都还可以性能上，语音到语音翻译，中英互译平均翻译质量到了66.3分，接近专业真人同传水平延迟上，语音到文本输出首字平均延迟2.21秒，语音到语音输出延时2.53 秒功能上支持实时声音复刻，复刻不同说话人的音色擅长多人对话、非流利语音以及长音频场景对绕口令、诗词、美食文化等可相对自然互译 #AI同传 #SeedLiveInterpret #字节同传

AIGCLINK

78,231 просмотров • 11 месяцев назад

📢：好消息 Qwen3-TTS 正式开源全能语音生成、语音克隆与音色设计模型评测中，达到全球开源 TTS 模型的新的 SOTA 支持10种语言，而且只有97毫秒延迟 🧬克隆声音：3秒音频，就能复刻出你的音色 🎙️ 自定义音色：你说“来个温柔女声”或“做成热血旁白”，它立刻生成； 🗣️ 自然情绪控制：能听懂文字里的语气，比如“愤怒”、“悲伤”、“调皮”； 🌍 多语言支持：能说中、英、日、韩、法、德、西、俄、葡、意共10种语言； ⚡ 实时响应：输入一个字，它就开始说，延迟低至 97毫秒，几乎实时

📢：好消息 Qwen3-TTS 正式开源全能语音生成、语音克隆与音色设计模型评测中，达到全球开源 TTS 模型的新的 SOTA 支持10种语言，而且只有97毫秒延迟 🧬克隆声音：3秒音频，就能复刻出你的音色 🎙️ 自定义音色：你说“来个温柔女声”或“做成热血旁白”，它立刻生成； 🗣️ 自然情绪控制：能听懂文字里的语气，比如“愤怒”、“悲伤”、“调皮”； 🌍 多语言支持：能说中、英、日、韩、法、德、西、俄、葡、意共10种语言； ⚡ 实时响应：输入一个字，它就开始说，延迟低至 97毫秒，几乎实时

小互

46,717 просмотров • 5 месяцев назад