小互's banner
小互's profile picture

小互

@xiaohu108,085 subscribers

带你了解全球最前沿科技、AI动态... 学AI找小互,找小互,上 https://t.co/4PVaHEr5r3 ... 小互AI日报 社群:https://t.co/LIEXfWUHv1

Shorts

Seedance 2.0 限制真人出镜的原因找到了 🤣

Seedance 2.0 限制真人出镜的原因找到了 🤣

709,809 views

早啊 篮球我还是爱看这种的🤣

早啊 篮球我还是爱看这种的🤣

297,438 views

Claude 开发者大会给KOL发的这个Cardputer感觉很不错 售价 $29.9(约 ¥215) 可以: 在 Cardputer 上敲问题 → 通过 WiFi 发到你电脑 → 电脑上的 Claude Code 处理 → 结果回传到小屏幕显示 当语音对讲口:按住按键说话 → 录音传到你电脑 → STT 转文字 → 喂给 Claude → TTS 播回小喇叭 当 Claude 的"实体宠物":屏幕上跑个像素小动物,Claude 思考时它在动,回答时它说话 也可以把把 Cardputer 接到 OpenClaw上,支持语音输入、TTS 语音回答

Claude 开发者大会给KOL发的这个Cardputer感觉很不错 售价 $29.9(约 ¥215) 可以: 在 Cardputer 上敲问题 → 通过 WiFi 发到你电脑 → 电脑上的 Claude Code 处理 → 结果回传到小屏幕显示 当语音对讲口:按住按键说话 → 录音传到你电脑 → STT 转文字 → 喂给 Claude → TTS 播回小喇叭 当 Claude 的"实体宠物":屏幕上跑个像素小动物,Claude 思考时它在动,回答时它说话 也可以把把 Cardputer 接到 OpenClaw上,支持语音输入、TTS 语音回答

58,238 views

LibTV 全新视频 Agent 评测 可以接入Claude Code,一句话出片... LiblibAI 发布了一个全新的工作流 AI视频 Agent 平台LibTV,它可以在一张无限大的画布上,通过拖放节点来组合各种模型进行视频生成创作。 最牛P的是他们发布了一个skill技能,接入Claude Code、小龙虾,让AI能自动帮你编排节点... Claude Code等通过 Skill 接口全自动调用它的各种节点,自动帮你搭建节点,从剧本构思到最终成品剪辑自动跑完,一句话进去,成片出来。 我测试的过程中一直感叹,非常的牛P...

LibTV 全新视频 Agent 评测 可以接入Claude Code,一句话出片... LiblibAI 发布了一个全新的工作流 AI视频 Agent 平台LibTV,它可以在一张无限大的画布上,通过拖放节点来组合各种模型进行视频生成创作。 最牛P的是他们发布了一个skill技能,接入Claude Code、小龙虾,让AI能自动帮你编排节点... Claude Code等通过 Skill 接口全自动调用它的各种节点,自动帮你搭建节点,从剧本构思到最终成品剪辑自动跑完,一句话进去,成片出来。 我测试的过程中一直感叹,非常的牛P...

139,763 views

阿里刚发布了Qwen3.6-Plus 直接冲着"国产最强编程模型"来的 跑分上,SWE-bench 和 Claw-Eval 都超过了 GLM-5 和 Kimi-K2.5,是目前国产模型里最接近 Claude 的 实测了一下前端,确实有点东西 阿里云百炼已上架,价格不到 Claude 的十分之一 阿里这几天连发三个模型,平均一天一个: 3月30号,Qwen3.5-Omni 全模态 4月1号,Wan2.7-Image 图像生成 4月2号,Qwen3.6-Plus 编程模型 感觉熟悉的千问节奏又回来了..

阿里刚发布了Qwen3.6-Plus 直接冲着"国产最强编程模型"来的 跑分上,SWE-bench 和 Claw-Eval 都超过了 GLM-5 和 Kimi-K2.5,是目前国产模型里最接近 Claude 的 实测了一下前端,确实有点东西 阿里云百炼已上架,价格不到 Claude 的十分之一 阿里这几天连发三个模型,平均一天一个: 3月30号,Qwen3.5-Omni 全模态 4月1号,Wan2.7-Image 图像生成 4月2号,Qwen3.6-Plus 编程模型 感觉熟悉的千问节奏又回来了..

101,051 views

卧槽,兄弟们,这个牛P啊 真是个伟大发明啊! 你让 Claude 帮你写了一个网页,但是想精准定位修改某一个地方,很难向AI描述出来 这个工具非常牛逼 安装后,你只需要: 1、点击任何网页元素 2、添加备注说明(如“这个按钮太小了”、“这个文字拼错了”) 工具自动捕获以下信息: 元素名称(class) CSS 选择器 元素坐标(位置) 元 素上下文(所在组件、文件路径等) 然后生成结构化的 Markdown 给你,你复制粘贴给AI就行,它就能精准知道你想修改什么👇

卧槽,兄弟们,这个牛P啊 真是个伟大发明啊! 你让 Claude 帮你写了一个网页,但是想精准定位修改某一个地方,很难向AI描述出来 这个工具非常牛逼 安装后,你只需要: 1、点击任何网页元素 2、添加备注说明(如“这个按钮太小了”、“这个文字拼错了”) 工具自动捕获以下信息: 元素名称(class) CSS 选择器 元素坐标(位置) 元 素上下文(所在组件、文件路径等) 然后生成结构化的 Markdown 给你,你复制粘贴给AI就行,它就能精准知道你想修改什么👇

197,907 views

捕捉到了精髓… 脾气非常大 智商非常低 非常没有耐心 又非常非常小气…

捕捉到了精髓… 脾气非常大 智商非常低 非常没有耐心 又非常非常小气…

283,739 views

Seedance 2.0 今天正式开放了 API 各大平台陆续接入了 Seedance 2.0,告别了生成视频排队状态 而且有的平台还给开放了支持上传真人照片的能力 Tekan AI是首批支持真人人脸的,估计是他们主要是广告场景 Seedance 2.0用来生成广告真是真不错 上传一张脸,Seedance 2.0 直接用这张脸生成视频,全程面部一致。

Seedance 2.0 今天正式开放了 API 各大平台陆续接入了 Seedance 2.0,告别了生成视频排队状态 而且有的平台还给开放了支持上传真人照片的能力 Tekan AI是首批支持真人人脸的,估计是他们主要是广告场景 Seedance 2.0用来生成广告真是真不错 上传一张脸,Seedance 2.0 直接用这张脸生成视频,全程面部一致。

86,123 views

2024年8月 - 2025年2月 AI出现了两次跃迁 一次是Deepseek R1的降本增效,效率大跃迁 一次是Grok 3的大力出奇迹,20万张GPU,有钱就是牛 目前来看,算力依然是紧俏资源,R1虽然训练用的资源少,但是在使用推理上耗费的算力依旧缺口非常大,但是终究都要走到降本增效的道路上》 视频来自:Arena 数据是2024年8月 - 2025年2月,Lmarena AI竞技场排名的变化。

2024年8月 - 2025年2月 AI出现了两次跃迁 一次是Deepseek R1的降本增效,效率大跃迁 一次是Grok 3的大力出奇迹,20万张GPU,有钱就是牛 目前来看,算力依然是紧俏资源,R1虽然训练用的资源少,但是在使用推理上耗费的算力依旧缺口非常大,但是终究都要走到降本增效的道路上》 视频来自:Arena 数据是2024年8月 - 2025年2月,Lmarena AI竞技场排名的变化。

551,941 views

卧槽 牛P了 特斯拉接入 Grok 后 现在Grok能调用车辆的各个摄像头来观察周围都是什么 这代表着特斯拉机器人其实已经在路上疯狂奔跑了

卧槽 牛P了 特斯拉接入 Grok 后 现在Grok能调用车辆的各个摄像头来观察周围都是什么 这代表着特斯拉机器人其实已经在路上疯狂奔跑了

189,568 views

这个视频有意思 不过不是AI生成的 是用Blender+After Effects 制作的 有没有大神能用 AI 复刻一下...

这个视频有意思 不过不是AI生成的 是用Blender+After Effects 制作的 有没有大神能用 AI 复刻一下...

214,532 views

人家老马搞出来的这个UI就是看着高级 Grok 3的思考模式UI效果 高级而不失优雅🙂

人家老马搞出来的这个UI就是看着高级 Grok 3的思考模式UI效果 高级而不失优雅🙂

248,394 views

Seedance 2.0 最佳使用方法是在小云雀里面 随便丢抖音视频链接,作为参考视频,然后上传你的视频,它就能参考视频来帮你生成视频… 很牛P,就是时间特别久😊

Seedance 2.0 最佳使用方法是在小云雀里面 随便丢抖音视频链接,作为参考视频,然后上传你的视频,它就能参考视频来帮你生成视频… 很牛P,就是时间特别久😊

63,390 views

Claude Code 新增了一个 /powerup 交互式教学模式 可以在终端里可直接进行交互式学习 在终端里输入这个命令,会启动一套交互式课程,带动画演示,手把手教你怎么用 Claude Code。 比如你刚装完 Claude Code,不知道从哪开始,输入 /powerup 它会用动画演示展示基础操作流程,斜杠命令怎么用、文件怎么引用、怎么跑 bash 命令,边看边练。 不用切到浏览器查文档,不用看 YouTube 视频,直接在你工作的环境里学。

Claude Code 新增了一个 /powerup 交互式教学模式 可以在终端里可直接进行交互式学习 在终端里输入这个命令,会启动一套交互式课程,带动画演示,手把手教你怎么用 Claude Code。 比如你刚装完 Claude Code,不知道从哪开始,输入 /powerup 它会用动画演示展示基础操作流程,斜杠命令怎么用、文件怎么引用、怎么跑 bash 命令,边看边练。 不用切到浏览器查文档,不用看 YouTube 视频,直接在你工作的环境里学。

35,040 views

Anthropic 发布了 Skill Creator 的重大更新 核心变化:内置测试用例生成 写完一个 Claude 技能,怎么知道它到底能不能被正确触发?以前靠手动试,现在 Skill Creator 内置了测试功能,帮你自动跑评估。 你现在可以给技能定义一组测试提示词,描述"什么样的回答算合格",然后让系统自动跑测试、出报告。 不需要写代码,不需要搭测试框架。 具体新增了四个能力: 自动化评估(Evals): 定义测试提示词和预期结果,系统自动运行并追踪通过率、耗时、token 用量。当模型更新或基础设施变化时,你能立刻发现技能是否"退步"了。 多 Agent 并行测试: 测试用例不是排队跑的,而是在独立的 Agent 中并行执行,每条测试互不干扰,各自有独立的 token 和耗时统计。 A/B 对比: 系统用"比较器 Agent"对两个版本的技能做盲测对比,去掉主观偏见。你改了技能描述,想知道新版比旧版好还是差,直接跑一轮对比就有答案。 触发率优化: 这可能是最实用的功能。系统会分析你的技能描述和测试提示词,建议怎么改描述才能减少误触发和漏触发。官方测试中,6 个公开的文档类技能有 5 个的触发准确率得到了提升。

Anthropic 发布了 Skill Creator 的重大更新 核心变化:内置测试用例生成 写完一个 Claude 技能,怎么知道它到底能不能被正确触发?以前靠手动试,现在 Skill Creator 内置了测试功能,帮你自动跑评估。 你现在可以给技能定义一组测试提示词,描述"什么样的回答算合格",然后让系统自动跑测试、出报告。 不需要写代码,不需要搭测试框架。 具体新增了四个能力: 自动化评估(Evals): 定义测试提示词和预期结果,系统自动运行并追踪通过率、耗时、token 用量。当模型更新或基础设施变化时,你能立刻发现技能是否"退步"了。 多 Agent 并行测试: 测试用例不是排队跑的,而是在独立的 Agent 中并行执行,每条测试互不干扰,各自有独立的 token 和耗时统计。 A/B 对比: 系统用"比较器 Agent"对两个版本的技能做盲测对比,去掉主观偏见。你改了技能描述,想知道新版比旧版好还是差,直接跑一轮对比就有答案。 触发率优化: 这可能是最实用的功能。系统会分析你的技能描述和测试提示词,建议怎么改描述才能减少误触发和漏触发。官方测试中,6 个公开的文档类技能有 5 个的触发准确率得到了提升。

45,641 views

Remotion 推出这个面向 Claude Code 的 视频制作 Agent Skills 不错 只需输入你的需求Claude Code 便可以制作一个完整的宣传小视频给你 我要求Claude code 根据它对我的了解,调用 Remotion 技能帮我生成一个小视频... 这个比较简单,但是官方的演示的很炫酷,需要再研究下怎么弄。 有谁懂这个?带带我?

Remotion 推出这个面向 Claude Code 的 视频制作 Agent Skills 不错 只需输入你的需求Claude Code 便可以制作一个完整的宣传小视频给你 我要求Claude code 根据它对我的了解,调用 Remotion 技能帮我生成一个小视频... 这个比较简单,但是官方的演示的很炫酷,需要再研究下怎么弄。 有谁懂这个?带带我?

58,412 views

兄弟们这个功能好 Claude Code 新加了 /recap 命令 当你把终端切到后台,过一会儿再切回来,Claude Code 会自动在顶部显示一段这个会话刚才干了什么、下一步打算做什么的回顾。 怎么用 什么都不用改,升级到最新版 Claude Code 就自动开了。 触发条件:会话至少 3 个 turn + 距离上次完成 turn 过了至少 3 分钟 + 终端当前失焦 后台生成:失焦期间就在后台算好,切回来立刻看到,不再等 不会刷屏:同一个窗口连续切走切回不会重复生成 recap 能手动触发:/recap 任何时候打一下都能给一段当前状态摘要 可关可配:/config 里开关,或用环境变量 CLAUDE_CODE_ENABLE_AWAY_SUMMARY=0 关掉

兄弟们这个功能好 Claude Code 新加了 /recap 命令 当你把终端切到后台,过一会儿再切回来,Claude Code 会自动在顶部显示一段这个会话刚才干了什么、下一步打算做什么的回顾。 怎么用 什么都不用改,升级到最新版 Claude Code 就自动开了。 触发条件:会话至少 3 个 turn + 距离上次完成 turn 过了至少 3 分钟 + 终端当前失焦 后台生成:失焦期间就在后台算好,切回来立刻看到,不再等 不会刷屏:同一个窗口连续切走切回不会重复生成 recap 能手动触发:/recap 任何时候打一下都能给一段当前状态摘要 可关可配:/config 里开关,或用环境变量 CLAUDE_CODE_ENABLE_AWAY_SUMMARY=0 关掉

19,842 views

Claude Code 桌面板发布本地定时任务功能 设定好任务执行的频率,Claude 会在你电脑开着的时候自动执行,无需你每次手动触发。 比如:每周五下午,汇总本周进度,生成一份 Markdown 报告存到本地 有几个细节值得注意: 任务第一次跑完之后,Claude 会自动重写你的 Prompt,记住具体该去哪里找文件、用哪些工具,下次会更准 可以开 Git Worktree 模式,每次运行在独立分支里,不会动你的主干代码 如果电脑在任务时间点刚好休眠了,App 重新打开后会自动补跑,并发通知 目前需要 Claude Pro 以上的付费订阅,桌面端专属,网页和手机暂不支持。 怎么用 在侧边栏点击 "Schedule",再点 "+ New task" 就能创建一个定时任务。 也可以在任意会话里直接描述需求,比如"帮我设置一个每天早上9点执行的代码 review 任务",Claude 会自动完成配置。

Claude Code 桌面板发布本地定时任务功能 设定好任务执行的频率,Claude 会在你电脑开着的时候自动执行,无需你每次手动触发。 比如:每周五下午,汇总本周进度,生成一份 Markdown 报告存到本地 有几个细节值得注意: 任务第一次跑完之后,Claude 会自动重写你的 Prompt,记住具体该去哪里找文件、用哪些工具,下次会更准 可以开 Git Worktree 模式,每次运行在独立分支里,不会动你的主干代码 如果电脑在任务时间点刚好休眠了,App 重新打开后会自动补跑,并发通知 目前需要 Claude Pro 以上的付费订阅,桌面端专属,网页和手机暂不支持。 怎么用 在侧边栏点击 "Schedule",再点 "+ New task" 就能创建一个定时任务。 也可以在任意会话里直接描述需求,比如"帮我设置一个每天早上9点执行的代码 review 任务",Claude 会自动完成配置。

23,651 views

还记得阿里巴巴那个让照片说话的EMO项目吗 ? 微软的VASA-1项目也实现了这个功能 单人像照片+语音音频=超逼真的人脸视频 效果炸裂,比EMO那个效果还好

还记得阿里巴巴那个让照片说话的EMO项目吗 ? 微软的VASA-1项目也实现了这个功能 单人像照片+语音音频=超逼真的人脸视频 效果炸裂,比EMO那个效果还好

131,226 views

字节跳动终于开源了一个好东西 LatentSync:精准的唇形同步工具 可以根据音频输入,自动调整视频中角色的嘴型,实现精准的口型同步。 直接用声音驱动嘴巴的动作,不需要复杂的中间步骤。 提出了一种“时间对齐”的技术,专门解决画面可能会跳动或不一致的问题。 左:原视频,右:口型同步后 提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。

字节跳动终于开源了一个好东西 LatentSync:精准的唇形同步工具 可以根据音频输入,自动调整视频中角色的嘴型,实现精准的口型同步。 直接用声音驱动嘴巴的动作,不需要复杂的中间步骤。 提出了一种“时间对齐”的技术,专门解决画面可能会跳动或不一致的问题。 左:原视频,右:口型同步后 提供了全套工具,可以轻松处理视频和音频,比如调整帧数、检测人脸、去除质量差的视频,保证最终生成的视频效果很好。

80,963 views

Videos

xiaohu's profile picture

这才是真正的AI输入法 😂

小互

1,411,954 views • 5 months ago

xiaohu's profile picture

Koji:一个拒绝给答案的 AI 家教... 由来自麻省理工学院和哈佛大学的顶尖学习专家训练而成 号称全球第一个「图形化私教」 你给孩子一个答案,他就少思考一次;少思考一次,这个能力就少长一点。 Koji 反着来,不给答案,而是逼你自己想 它能看到你看到的,甚至能高亮、批注屏幕内容,实时指导你... 几个特点: 1、它不像 ChatGPT 那样只甩给我一串步骤清单,剥夺了学习机会还养出对AI依赖。Koji 反过来,问你、引导你,逼你自己把这步想出来。 2、它能看见你的屏幕你不用把题目描述给它。Koji 本来就趴在你旁边,看着你做题,知道你哪一步拖错了、在哪儿停了三秒。 它清楚你为什么卡住,因为它看得见。 3、「图形化」是关键普通 AI 只能跟你打字聊。Koji 能直接伸手改你的题:高亮一块区域、给图加批注、临时塞一道小题给你。 学导数时,它就在你那条切线上跟你一起画,而不是在另一个窗口回你一段文字。 4、它先开口,老师在你求助之前先开口,会大大降低你张嘴提问的门槛。所以每进一页 Koji 都先说一句:这题和上一道有什么不一样,动手前该注意什么。 视频里两个场景: 几何题:孩子在画布上挪圆挪错了。Koji 没说"该往哪边挪",而是画了几个测试点反问"哪些符合圆的方程?" 逼孩子自己推出 y=0 时 x=6。 Python 课:Koji 直接不教 Hello World 那套,因为"代码现在都是 AI 写的",孩子要学的是看懂代码 + 抓 AI 的错。卡死循环?它不告诉答案,只提醒"你在死循环里",剩下你自己找。

小互

23,569 views • 4 days ago

xiaohu's profile picture

兄弟们,Hyper3D 又放大招了 这次是真的猛... Rodin Gen-2.5发布: 最强 3D 生成模型 4 秒生成百万面模型 全球首个千万面级3D生成 在模型细节上,连毛孔、皮肤微结构这种级别的细节都能还原... 原生贴图纹理,严格对齐几何,涉及到衣物质感和缝线等微小纹理正确,细节和对齐做到正确平衡。 思考模式从低到高,最快 4 秒出稿 - 极低模式 - 4 秒出稿 - 快速制作简易资产、批量测试实验 - 低模式 - 9 秒出稿 - 简约风模型,小型硬表面道具制作 - 中模式 - 20 秒出稿 - 结构与细节表现均衡 - 高模式 - 40 秒出稿 - 高品质资产,结构层次丰富,表面平滑 - 极高模式 - 80 秒出稿 - 微观细节专业资产 一张参考图就能出贴图模型 原生 3D 贴图算法,直接在三维空间里生成纹理,360° 无死角覆盖,转到背面底部都不会糊,支持 PBR 材质,光影一键预处理。用过之前那些贴图拼接糊成一坨的工具的兄弟,应该知道这个差距有多大。 Faithful 模式严格贴合参考素材,Creative 模式自动优化结构,比如轮胎给你修成完美圆形。最高精度档下还能切 Micro 和 Clean: Micro 给你毛孔级细节,Clean 给你干净平滑的几何,做风格化或者后续上动画都好用。而且支持同时并行跑 10 个模型,批量探索创意方向直接起飞。 背后团队是影眸科技,国人团队,2016 年就开始做 3D 生成。 整个行业走"2D 升维 3D"捷径的时候,他们死磕原生 3D 模型,更难,但破面、拓扑混乱这些致命问题,只有这条路能治。 今年论文拿了 SIGGRAPH 2025 最佳论文奖,同期获奖的商业公司只有 Google 和 Meta。

小互

41,853 views • 9 days ago

xiaohu's profile picture

艹 这个有点逼真啊🫣

小互

746,864 views • 1 year ago