Barret李靖's banner

Barret李靖

@Barret_China • 82,261 subscribers

AI Engineer | Lifelong Learner | Dad of 2 | Cloud Native | Sharing insights and experiences | 小胡子哥，一个有趣的灵魂

Shorts

Distil-Whisper：让语音识别的速度提高 5.8 倍，参数减少 51%，准确度保持在 99%。 Whisper 在语音识别方面表现卓著，但是它有一个明显的缺点：训练出来的小模型支持的语言比较少，而大模型推理速度又很慢。如果你有海量的数据需要处理，或者对实时性要求略高，那使用 Whisper 可能会让你比较头疼。你可以使用工程手段来加速推理，例如将语音分片后并发处理然后合并结果，但这里涉及到本地计算资源瓶颈的问题，以及合并分片时容错处理的问题，工程复杂度比较高。《Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling 》， Whisper 的 Large-v2 model 生成了一系列的 soft targets（也就是概率分布），然后复制 Whisper 网络的第一层和最后一层解码器，最后生成了一个更小、更快效果更好的蒸馏模型 Distil-Whisper。论文数据写的是：速度提高了 5.8 倍，参数减少了 51%，准确度保持在 99%。这个模型的效果之所以不错，主要还是得益于训练数据的完备，它结合了九个公开可用的语音识别数据集，合并后包含 21170 小时的语音数据，涵盖超过 18260 名说话者和 10 个不同的领域；自从 Whisper 大力出奇迹（它从互联网爬取了 68w 小时的数据，未公开）以后，相信后续语音领域的论文都会配置更庞大的数据集。 Distil-Whisper 目前开源在 Hugging Face 上，模型地址： Demo： Demo 会把模型下载到本地，然后通过 WebGPU 直接在网页上跑起来，测试了下效果，还是挺不错的。目前仅支持英文，如果想让它支持中文，需要使用同样海量的中文语料数据，重新做一次知识蒸馏，但我觉得即便是这样做，效果也不一定好，因为 Whisper 本身对中文、韩语等支持就不太优秀，这个信息可以从 Whisper 的论文中找到数据支撑。下面这个视频是 Whisper 和 Distil-Whisper 的对比效果：

Distil-Whisper：让语音识别的速度提高 5.8 倍，参数减少 51%，准确度保持在 99%。 Whisper 在语音识别方面表现卓著，但是它有一个明显的缺点：训练出来的小模型支持的语言比较少，而大模型推理速度又很慢。如果你有海量的数据需要处理，或者对实时性要求略高，那使用 Whisper 可能会让你比较头疼。你可以使用工程手段来加速推理，例如将语音分片后并发处理然后合并结果，但这里涉及到本地计算资源瓶颈的问题，以及合并分片时容错处理的问题，工程复杂度比较高。《Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling 》， Whisper 的 Large-v2 model 生成了一系列的 soft targets（也就是概率分布），然后复制 Whisper 网络的第一层和最后一层解码器，最后生成了一个更小、更快效果更好的蒸馏模型 Distil-Whisper。论文数据写的是：速度提高了 5.8 倍，参数减少了 51%，准确度保持在 99%。这个模型的效果之所以不错，主要还是得益于训练数据的完备，它结合了九个公开可用的语音识别数据集，合并后包含 21170 小时的语音数据，涵盖超过 18260 名说话者和 10 个不同的领域；自从 Whisper 大力出奇迹（它从互联网爬取了 68w 小时的数据，未公开）以后，相信后续语音领域的论文都会配置更庞大的数据集。 Distil-Whisper 目前开源在 Hugging Face 上，模型地址： Demo： Demo 会把模型下载到本地，然后通过 WebGPU 直接在网页上跑起来，测试了下效果，还是挺不错的。目前仅支持英文，如果想让它支持中文，需要使用同样海量的中文语料数据，重新做一次知识蒸馏，但我觉得即便是这样做，效果也不一定好，因为 Whisper 本身对中文、韩语等支持就不太优秀，这个信息可以从 Whisper 的论文中找到数据支撑。下面这个视频是 Whisper 和 Distil-Whisper 的对比效果：

124,227 views

如果你的浏览器经常开大几十个 Tab，然后找不到目标页，给你推荐一个 Chrome 插件：AI Group Tabs，它会利用 Chrome 的 Tab Group API 帮你一键搞定所有 Tab 的分类和命名，超级实用。目前项目还在持续迭代中，你可以过去给作者提更多需求，或者直接贡献你的代码。

如果你的浏览器经常开大几十个 Tab，然后找不到目标页，给你推荐一个 Chrome 插件：AI Group Tabs，它会利用 Chrome 的 Tab Group API 帮你一键搞定所有 Tab 的分类和命名，超级实用。目前项目还在持续迭代中，你可以过去给作者提更多需求，或者直接贡献你的代码。

88,217 views

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

把女儿也带上了 vibe coding 之路，已经开始沉迷了😅，今天在调第二款游戏，city walker。

把女儿也带上了 vibe coding 之路，已经开始沉迷了😅，今天在调第二款游戏，city walker。

209,207 views • 3 months ago

女儿学校给布置了一道 AI 作业，用剪映和讯飞给一段无声视频配音，并给出了详细操作步骤文档。经过半个月 vibe coding 的她，题都没看，直接把视频和 pdf 文档拖进了 codex😅，然后按下 fn 键开始微信语音输入，“帮我做这个作业”，👇

女儿学校给布置了一道 AI 作业，用剪映和讯飞给一段无声视频配音，并给出了详细操作步骤文档。经过半个月 vibe coding 的她，题都没看，直接把视频和 pdf 文档拖进了 codex😅，然后按下 fn 键开始微信语音输入，“帮我做这个作业”，👇

87,128 views • 2 months ago

微软研发的 AutoGen 框架太强大了，它是一个多代理框架，利用它可以轻松定制一系列工作任务。举一个常见的例子：我们要实现一个爬虫程序，抓取并保存网页图片。如果把这个任务丢给 ChatGPT，它会直接返回一串可执行代码，但是代码通常会存在问题，例如执行报错、缺少依赖等，你需要反复跟 ChatGPT 对话来完善程序。当然，我们也可以设定一个复杂 Prompt，要求它调用 ChatGPT 的代码执行插件，如果存在报错，则继续修正程序。这个任务如果交给 AutoGen 来实现，将会变得无比简单，几行代码就可以搞定： 1）定义一个 Assistant Agent，它的任务是解决问题 2）定义一个 UserProxy Agent，它的任务是替代人询问问题，同时在本地执行程序这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后，它会理解任务，然后询问 Assistant 应该如何做，Assistant 会把操作过程告诉 UserProxy，接着 UserProxy 会根据指示在本地安装依赖，然后创建文件执行代码，如果执行出现错误，它会把详细报错提交给 Assistant，依次循环，直到可以获取到最终的结果。任务结束的时候，你会看到目标图片已经保存到本地磁盘了。利用这个框架可以做的事情非常多，它提供的能力也十分完善，可以在项目的 notebook 中找到很多最佳实践： P.S. 为了确保安全，还是建议你在 Docker 环境中执行程序，UserProxy 有一个 code_execution_config 配置，将 use_docker 配置为 True 即可；另外，它还有一个 human_input_mode 参数，设置为 NEVER，表示整个过程都不需要人参与，也可以设置为其他值，它会等待人的输入后再进行下一步操作，这个设计可以让人参与到任务执行过程，避免跑偏。

微软研发的 AutoGen 框架太强大了，它是一个多代理框架，利用它可以轻松定制一系列工作任务。举一个常见的例子：我们要实现一个爬虫程序，抓取并保存网页图片。如果把这个任务丢给 ChatGPT，它会直接返回一串可执行代码，但是代码通常会存在问题，例如执行报错、缺少依赖等，你需要反复跟 ChatGPT 对话来完善程序。当然，我们也可以设定一个复杂 Prompt，要求它调用 ChatGPT 的代码执行插件，如果存在报错，则继续修正程序。这个任务如果交给 AutoGen 来实现，将会变得无比简单，几行代码就可以搞定： 1）定义一个 Assistant Agent，它的任务是解决问题 2）定义一个 UserProxy Agent，它的任务是替代人询问问题，同时在本地执行程序这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后，它会理解任务，然后询问 Assistant 应该如何做，Assistant 会把操作过程告诉 UserProxy，接着 UserProxy 会根据指示在本地安装依赖，然后创建文件执行代码，如果执行出现错误，它会把详细报错提交给 Assistant，依次循环，直到可以获取到最终的结果。任务结束的时候，你会看到目标图片已经保存到本地磁盘了。利用这个框架可以做的事情非常多，它提供的能力也十分完善，可以在项目的 notebook 中找到很多最佳实践： P.S. 为了确保安全，还是建议你在 Docker 环境中执行程序，UserProxy 有一个 code_execution_config 配置，将 use_docker 配置为 True 即可；另外，它还有一个 human_input_mode 参数，设置为 NEVER，表示整个过程都不需要人参与，也可以设置为其他值，它会等待人的输入后再进行下一步操作，这个设计可以让人参与到任务执行过程，避免跑偏。

517,707 views • 2 years ago

通过 Xcode simulator 启动一个模拟器，再加上苹果自家的 UI 测试框架 XTest，走 Accessibility API 读取 App 界面的元素树（按钮/文本框/文本内容），并模拟点击、输入、滚动，这样就可以安全地拿到很多被限制的内容了，例如微信/小红书等内容读取。之前爬取 Linkedin 内容的时候，被平台检测到，还发出了警告，想到了这个安全的操作，让 AI Agent 尝试了下，确实可行。 iOS Simulator 里跑的是真 Safari / App，发出去的每个请求都带着合法 User-Agent、TLS 指纹，服务端看到的就一普通 iPhone 用户在刷 feed。因此技术上几乎无痕😄

通过 Xcode simulator 启动一个模拟器，再加上苹果自家的 UI 测试框架 XTest，走 Accessibility API 读取 App 界面的元素树（按钮/文本框/文本内容），并模拟点击、输入、滚动，这样就可以安全地拿到很多被限制的内容了，例如微信/小红书等内容读取。之前爬取 Linkedin 内容的时候，被平台检测到，还发出了警告，想到了这个安全的操作，让 AI Agent 尝试了下，确实可行。 iOS Simulator 里跑的是真 Safari / App，发出去的每个请求都带着合法 User-Agent、TLS 指纹，服务端看到的就一普通 iPhone 用户在刷 feed。因此技术上几乎无痕😄

43,954 views • 2 months ago

看到一个超炫酷的量子纠缠实现效果，其原理是通过 window.getScreenDetails() 获取窗口详细位置，然后通过 LocalStorage 共享窗口信息来实现的，这个创意太赞了，作者 𝕭𝖏ø𝖗𝖓 𝕾𝖙𝖆𝖆𝖑

看到一个超炫酷的量子纠缠实现效果，其原理是通过 window.getScreenDetails() 获取窗口详细位置，然后通过 LocalStorage 共享窗口信息来实现的，这个创意太赞了，作者 𝕭𝖏ø𝖗𝖓 𝕾𝖙𝖆𝖆𝖑

388,750 views • 2 years ago

找到三个开源的 AI 工具，搭配使用，可以流水线搞定“短剧出海”问题😂 1）视频换脸工具 roop， 2）翻译+配音工具 pyvideotrans， 3）唇形同步工具 wa2lip， GFPGAN 进行面部修复，这几款工具都能够离线使用，因此也可以通过简单的工程流搭建，实现程序化批量产出。调研完，有点手痒了……

Sensitive content

This media may contain sensitive content.

找到三个开源的 AI 工具，搭配使用，可以流水线搞定“短剧出海”问题😂 1）视频换脸工具 roop， 2）翻译+配音工具 pyvideotrans， 3）唇形同步工具 wa2lip， GFPGAN 进行面部修复，这几款工具都能够离线使用，因此也可以通过简单的工程流搭建，实现程序化批量产出。调研完，有点手痒了……

261,318 views • 1 year ago

它主要用于两个场景，一个是音轨剥离，一个是声音移除，例如它可以提取人声、鼓、贝斯、吉他和弦乐等声音，也可以去除背景音乐、麦克风隆隆声以及其他不需要的噪音。下面的视频演示了剥离伴奏和人声的效果，还是比较直观的。也去搜罗了下实现原理，找到一篇介绍 MSS（Musical Source Separation）的论文：

它主要用于两个场景，一个是音轨剥离，一个是声音移除，例如它可以提取人声、鼓、贝斯、吉他和弦乐等声音，也可以去除背景音乐、麦克风隆隆声以及其他不需要的噪音。下面的视频演示了剥离伴奏和人声的效果，还是比较直观的。也去搜罗了下实现原理，找到一篇介绍 MSS（Musical Source Separation）的论文：

320,006 views • 2 years ago

把耳机改成摩斯密码发送器，这个 Github 项目看起来十分极客：原理比较简单：浏览器有一个 API 叫做 MediaSession，它允许对标准媒体行为进行自定义，例如点击 pause 键时执行什么动作可通过 JavaScript 进行重新定义，利用这个特性，根据不同的按键操作，就可以发送不同的消息指令了，手机和电脑锁屏状态都可以控制。结合 Picture-in-Picture API 还可以做出更多有趣的事情，画中画允许浏览器打开一个系统级置顶的 Video，很多视频网站也支持了这个特性，为了增加灵活性，又新出了一个 Document Picture-in-Picture API，它支持将任意 HTML 内容放置到这个画中画窗口中，并使用 MediaSession API 来控制窗体内容的交互和呈现方式。参考摩斯密码发送器项目的实现，能够做的有趣事情就比较多了，例如，可以将耳机改造成幻灯片控制器、游戏控制器，也可以用来控制一个全局置顶的番茄时钟、音乐播放器、视频会议等窗口的交互行为，这里有几个有趣的示例：

把耳机改成摩斯密码发送器，这个 Github 项目看起来十分极客：原理比较简单：浏览器有一个 API 叫做 MediaSession，它允许对标准媒体行为进行自定义，例如点击 pause 键时执行什么动作可通过 JavaScript 进行重新定义，利用这个特性，根据不同的按键操作，就可以发送不同的消息指令了，手机和电脑锁屏状态都可以控制。结合 Picture-in-Picture API 还可以做出更多有趣的事情，画中画允许浏览器打开一个系统级置顶的 Video，很多视频网站也支持了这个特性，为了增加灵活性，又新出了一个 Document Picture-in-Picture API，它支持将任意 HTML 内容放置到这个画中画窗口中，并使用 MediaSession API 来控制窗体内容的交互和呈现方式。参考摩斯密码发送器项目的实现，能够做的有趣事情就比较多了，例如，可以将耳机改造成幻灯片控制器、游戏控制器，也可以用来控制一个全局置顶的番茄时钟、音乐播放器、视频会议等窗口的交互行为，这里有几个有趣的示例：

172,273 views • 1 year ago

这个网页（ Token，什么是词群，如何通过概率推理出下一个 Token；什么是自注意力，如何通过自注意力理解上下文了；什么是词搜索和束搜索，如何生成高质量的文本等等。

这个网页（ Token，什么是词群，如何通过概率推理出下一个 Token；什么是自注意力，如何通过自注意力理解上下文了；什么是词搜索和束搜索，如何生成高质量的文本等等。

240,018 views • 2 years ago

看到一个可以将文章直接转换成 PPT 演讲的工具，Paper2Video，一篇文章+一个头像+一段语音样本，它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景，这个工具几乎能承担起人工完成的工作，做学术汇报和做课程的朋友有福了😄 仔细阅读了源码和论文，它的实现方式颇为精妙，整个 PPT 的渲染，主要基于 Beamer 这个声明式布局框架： 1）首先让大模型对内容做一次通篇的解说，并做好摘要分段，确保能够把核心知识表达清晰； 2）对于每页 PPT 的布局，通过视觉模型判断是否存在溢出、错位、拥挤等情况，如果存在类似的问题，就会让布局模块生成多套拼接方案，对图片和文字进行缩放后进行不同组合，再由视觉模型从中挑选出最优的一张； 3）过程中还添加了一个虚拟鼠标，方便捕获观众的注意力，也让整个呈现更具动态感与交互感； 4）口型采用的是 Hallo2，这是一种支持长时长、高分辨率、音频驱动的人像动画模型，能够让头像与语音同步地做口型/表情动画。这个工具主要解决的还是论文汇报场景，不过有几个思路值得借鉴，包括如何将文章内容做拆解、如何做好 PPT 排版，如何做好口型等。稍微改改，应该也能适配到更大众化的领域，例如做自动培训视频、技术方案的交互式解说，甚至产品手册的可视化呈现，把 Paper2Video 升级成 Doc2Video。

看到一个可以将文章直接转换成 PPT 演讲的工具，Paper2Video，一篇文章+一个头像+一段语音样本，它就能帮你生成一个生动的演讲解说视频。对于偏专业和学术性的场景，这个工具几乎能承担起人工完成的工作，做学术汇报和做课程的朋友有福了😄 仔细阅读了源码和论文，它的实现方式颇为精妙，整个 PPT 的渲染，主要基于 Beamer 这个声明式布局框架： 1）首先让大模型对内容做一次通篇的解说，并做好摘要分段，确保能够把核心知识表达清晰； 2）对于每页 PPT 的布局，通过视觉模型判断是否存在溢出、错位、拥挤等情况，如果存在类似的问题，就会让布局模块生成多套拼接方案，对图片和文字进行缩放后进行不同组合，再由视觉模型从中挑选出最优的一张； 3）过程中还添加了一个虚拟鼠标，方便捕获观众的注意力，也让整个呈现更具动态感与交互感； 4）口型采用的是 Hallo2，这是一种支持长时长、高分辨率、音频驱动的人像动画模型，能够让头像与语音同步地做口型/表情动画。这个工具主要解决的还是论文汇报场景，不过有几个思路值得借鉴，包括如何将文章内容做拆解、如何做好 PPT 排版，如何做好口型等。稍微改改，应该也能适配到更大众化的领域，例如做自动培训视频、技术方案的交互式解说，甚至产品手册的可视化呈现，把 Paper2Video 升级成 Doc2Video。

58,278 views • 9 months ago

Github 推出了 blocks， block 的能力。 Blocks 的目标是让代码仓库变得生动起来，除了代码和 README，还可以展示 3D 文件、脑图、流程图、图标、字体预览、CSS 样式预览等等，甚至还有可交互的模块，例如所见即所得的编辑器、可以排序和统计的表格、能够运行代码的沙箱等等。只要按照对应的规范开发 block 并发布到市场（给仓库增加一个名为 github-blocks 的 tag 就行了），就可以被检索和使用，不过当前还是技术预览版本，需要本地起一个 devServer，然后借助在线网页才能渲染出来。这个尝试感觉正在重新定义 github，以后或许不能再叫它代码仓库了，应该叫内容仓库。

Github 推出了 blocks， block 的能力。 Blocks 的目标是让代码仓库变得生动起来，除了代码和 README，还可以展示 3D 文件、脑图、流程图、图标、字体预览、CSS 样式预览等等，甚至还有可交互的模块，例如所见即所得的编辑器、可以排序和统计的表格、能够运行代码的沙箱等等。只要按照对应的规范开发 block 并发布到市场（给仓库增加一个名为 github-blocks 的 tag 就行了），就可以被检索和使用，不过当前还是技术预览版本，需要本地起一个 devServer，然后借助在线网页才能渲染出来。这个尝试感觉正在重新定义 github，以后或许不能再叫它代码仓库了，应该叫内容仓库。

129,874 views • 2 years ago

推荐一个可以远程调试任意 Web 网页的工具包，page-spy-web， Chrome Devtools 一样，查看一个远程网页的控制台输出、网络请求、缓存信息以及页面内容，也可以直接下发 JS 指令，对网页进行控制。它的使用场景还是比较丰富的，例如用户页面白屏，更换无数姿势都无法复现的时候，例如线下门店安装前端应用，需要跑到人家店里去的时候，都可以考虑使用这个工具，它能够实时查看用户侧的网页异常，了解端侧详细信息，也可以远程控制或调试前端应用。当然，这些操作都需要考虑到隐私问题，获得用户授权。这个项目的部署十分简单，一句命令就可以搞定，部署之后，所有放置了 SDK 的网页都会使用 Websocket 与 Server 维持长链接，调试过程涉及到的通讯协议在这个仓库：

推荐一个可以远程调试任意 Web 网页的工具包，page-spy-web， Chrome Devtools 一样，查看一个远程网页的控制台输出、网络请求、缓存信息以及页面内容，也可以直接下发 JS 指令，对网页进行控制。它的使用场景还是比较丰富的，例如用户页面白屏，更换无数姿势都无法复现的时候，例如线下门店安装前端应用，需要跑到人家店里去的时候，都可以考虑使用这个工具，它能够实时查看用户侧的网页异常，了解端侧详细信息，也可以远程控制或调试前端应用。当然，这些操作都需要考虑到隐私问题，获得用户授权。这个项目的部署十分简单，一句命令就可以搞定，部署之后，所有放置了 SDK 的网页都会使用 Websocket 与 Server 维持长链接，调试过程涉及到的通讯协议在这个仓库：

104,631 views • 2 years ago

推荐一款开源免费的剪藏神器， chat with docs。尝试了一段时间，页面元素多选的体验做的很棒，据说后期可以将微信读书的笔记也导入进来，比较期待；另外，这个工具还自带了划词翻译功能，感觉又可以少装一个翻译插件了😄 插件的完成度比较高，正在学习如何制作 Chrome 插件的同学，可以扒一扒源码，参考下，这个项目是开源的。你也可以直接向仓库提交 PR，帮助它完善和改进。

推荐一款开源免费的剪藏神器， chat with docs。尝试了一段时间，页面元素多选的体验做的很棒，据说后期可以将微信读书的笔记也导入进来，比较期待；另外，这个工具还自带了划词翻译功能，感觉又可以少装一个翻译插件了😄 插件的完成度比较高，正在学习如何制作 Chrome 插件的同学，可以扒一扒源码，参考下，这个项目是开源的。你也可以直接向仓库提交 PR，帮助它完善和改进。

106,765 views • 2 years ago

Copilot Voice，以后可以用嘴写代码了。在 VS Code 插件市场搜索 GitHub Copilot Voice，安装后，即可跟下面视频一样，用嘴编程😂，它支持打开文件、运行命令、定位到编辑器的具体位置等等，开通使用要求你付费订阅了 Github Copilot，不过它对认证的学生和开源有贡献的开发者是免费的。

Copilot Voice，以后可以用嘴写代码了。在 VS Code 插件市场搜索 GitHub Copilot Voice，安装后，即可跟下面视频一样，用嘴编程😂，它支持打开文件、运行命令、定位到编辑器的具体位置等等，开通使用要求你付费订阅了 Github Copilot，不过它对认证的学生和开源有贡献的开发者是免费的。

60,428 views • 2 years ago

No more content to load