宝玉

@dotey • 231,661 subscribers

AI Engineer, dedicated to learning and disseminating knowledge about AI, software engineering, and engineering management.

Shorts

OpenAI 发布了 Sora，一种文字生成视频的技术，从演示看，效果还是相当不错的。 Sora 的强大之处在于其能够根据文本描述，生成长达 60 秒的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。目前，Sora已对网络安全的红队成员开放，以评估其可能存在的风险或潜在伤害。同时，OpenAI 也邀请了视觉艺术家、设计师和电影制作人使用Sora，收集他们的反馈，以使模型更好地服务于创意行业。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令，还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解，能够精准地捕捉到用户的需求，并创造出充满生命力、情感丰富的角色。此外，Sora还能在同一视频中创造出多个画面，同时保持角色和视觉风格的一致性。当然，Sora还不是完美的。比如在模拟复杂场景的物理效应，以及理解某些特定因果关系时，它可能会遇到难题。举个例子，视频中的人物可能会咬一口饼干，但饼干上可能看不到明显的咬痕。在处理空间细节，比如分辨左右时，Sora也可能会出现混淆；在精确描述一段时间内发生的事件，如特定的摄影机移动轨迹时，也可能显得力不从心。产品地址：

Sensitive content

OpenAI 发布了 Sora，一种文字生成视频的技术，从演示看，效果还是相当不错的。 Sora 的强大之处在于其能够根据文本描述，生成长达 60 秒的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。目前，Sora已对网络安全的红队成员开放，以评估其可能存在的风险或潜在伤害。同时，OpenAI 也邀请了视觉艺术家、设计师和电影制作人使用Sora，收集他们的反馈，以使模型更好地服务于创意行业。 Sora能够创造出包含多个角色、特定动作类型以及与主题和背景相符的详细场景。这款模型不仅能理解用户的指令，还能洞察这些元素在现实世界中的表现。 Sora对语言有着深刻的理解，能够精准地捕捉到用户的需求，并创造出充满生命力、情感丰富的角色。此外，Sora还能在同一视频中创造出多个画面，同时保持角色和视觉风格的一致性。当然，Sora还不是完美的。比如在模拟复杂场景的物理效应，以及理解某些特定因果关系时，它可能会遇到难题。举个例子，视频中的人物可能会咬一口饼干，但饼干上可能看不到明显的咬痕。在处理空间细节，比如分辨左右时，Sora也可能会出现混淆；在精确描述一段时间内发生的事件，如特定的摄影机移动轨迹时，也可能显得力不从心。产品地址：

1,413,951 views

字节新出了个 Cursor 的竞品 Trae ，可以用 claude3.5，限时免费测试了一下不错，它的 Builder 相当于 Cursor 的 Composer 和 Agent 合体，建议默认使用 Builder。

字节新出了个 Cursor 的竞品 Trae ，可以用 claude3.5，限时免费测试了一下不错，它的 Builder 相当于 Cursor 的 Composer 和 Agent 合体，建议默认使用 Builder。

100,683 views

感觉 Google 现在开窍了，先进的 Gemini 模型也不藏着掖着只给收费用户或者门槛很高的 AI Studio 里面用，现在免费用户也可以在 Gemini 官网上使用 Gemini 2.5 Pro 并使用 Canvas 工具，直接可以预览生成的代码，当然有一定次数限制。另外网上对 Gemini 2.5 Pro 的编程能力好评很多，很多评价觉得超过 Claude 3.7 Sonnet 的，在 Cursor 中可以直接使用 Gemini 2.5 Pro。给了几个用 Gemini 2.5 Pro 制作的可以直接 Canvas 预览的示例，看起来效果不错： 1️⃣ 用p5js设计一款万花筒，它能根据你的鼠标移动生成迷人的对称图案。 2️⃣ 你侄女随手写下的歌词，拍张照片就能变成一首简单、有趣的歌曲，陪她一起用钢琴弹奏出来吧。 3️⃣ 制作一个经典的街机小游戏：你操控屏幕底部的挡板，弹射小球去击碎上方一排排的砖块。 4️⃣ 开发一款考验反应速度的颜色配对游戏，限定时间内准确匹配颜色并获得分数。以上示例仅供参考，实际效果可能不同。

感觉 Google 现在开窍了，先进的 Gemini 模型也不藏着掖着只给收费用户或者门槛很高的 AI Studio 里面用，现在免费用户也可以在 Gemini 官网上使用 Gemini 2.5 Pro 并使用 Canvas 工具，直接可以预览生成的代码，当然有一定次数限制。另外网上对 Gemini 2.5 Pro 的编程能力好评很多，很多评价觉得超过 Claude 3.7 Sonnet 的，在 Cursor 中可以直接使用 Gemini 2.5 Pro。给了几个用 Gemini 2.5 Pro 制作的可以直接 Canvas 预览的示例，看起来效果不错： 1️⃣ 用p5js设计一款万花筒，它能根据你的鼠标移动生成迷人的对称图案。 2️⃣ 你侄女随手写下的歌词，拍张照片就能变成一首简单、有趣的歌曲，陪她一起用钢琴弹奏出来吧。 3️⃣ 制作一个经典的街机小游戏：你操控屏幕底部的挡板，弹射小球去击碎上方一排排的砖块。 4️⃣ 开发一款考验反应速度的颜色配对游戏，限定时间内准确匹配颜色并获得分数。以上示例仅供参考，实际效果可能不同。

85,267 views

豆包上可以体验 Seedance 2.0 了，我已经试了一下。最近 Seedance 2.0 在海外火得一塌糊涂，邀请码一码难求。 Seedance 2.0 已经不需要我多介绍了，是字节自研的视频生成模型，支持文生视频、图生视频、分身视频，还自带音效生成。豆包视频生成模型Seedance 2.0今天正式接入豆包App、电脑端和网页版。打开豆包App对话框，选择新增的“Seedance 2.0”入口，输入相关提示词，即可生成5秒或10秒视频。也可以选择“分身视频”，经过真人验证，创建自己的视频分身，体验更多创意玩法。我重点说两个最值得玩的功能。【1】文生视频一句话描述你想要的画面，直接出视频。动作自然、镜头连贯，已经不是那种一眼假的 AI 视频了。复杂场景也能处理，比如多人互动、多镜头转场，生成质量在目前的视频模型里属于第一梯队。你可以试试这种提示词： > 拍一段多场景转场的城市记录片，先是弄堂里挂红灯笼，然后在淮海路排队买年货，最后在厨房炸春卷。加上旁白和上海方言对话，带点复古滤镜。这种复杂度的文生视频，Seedance 2.0 能搞定。也可以整点好玩的，比如我记得马斯克和扎克伯格以前说要打架来着，后来取消了，现在可以在豆包里面用 Seedance 2.0 还原一下。 > Elon Musk （哪吒造型，但是脸型发色形似马斯克）和 Mark Zuckerberg（敖丙造型，但是脸型发色形似扎克伯格）的激烈对打，哪吒动画片风格，类似于哪吒和敖丙经典对战场景，只是人物形象换掉 > 马斯克：我 XAI 天下第一 > 扎克伯格：不对，我羊驼 LLAMA 才天下第一

豆包上可以体验 Seedance 2.0 了，我已经试了一下。最近 Seedance 2.0 在海外火得一塌糊涂，邀请码一码难求。 Seedance 2.0 已经不需要我多介绍了，是字节自研的视频生成模型，支持文生视频、图生视频、分身视频，还自带音效生成。豆包视频生成模型Seedance 2.0今天正式接入豆包App、电脑端和网页版。打开豆包App对话框，选择新增的“Seedance 2.0”入口，输入相关提示词，即可生成5秒或10秒视频。也可以选择“分身视频”，经过真人验证，创建自己的视频分身，体验更多创意玩法。我重点说两个最值得玩的功能。【1】文生视频一句话描述你想要的画面，直接出视频。动作自然、镜头连贯，已经不是那种一眼假的 AI 视频了。复杂场景也能处理，比如多人互动、多镜头转场，生成质量在目前的视频模型里属于第一梯队。你可以试试这种提示词： > 拍一段多场景转场的城市记录片，先是弄堂里挂红灯笼，然后在淮海路排队买年货，最后在厨房炸春卷。加上旁白和上海方言对话，带点复古滤镜。这种复杂度的文生视频，Seedance 2.0 能搞定。也可以整点好玩的，比如我记得马斯克和扎克伯格以前说要打架来着，后来取消了，现在可以在豆包里面用 Seedance 2.0 还原一下。 > Elon Musk （哪吒造型，但是脸型发色形似马斯克）和 Mark Zuckerberg（敖丙造型，但是脸型发色形似扎克伯格）的激烈对打，哪吒动画片风格，类似于哪吒和敖丙经典对战场景，只是人物形象换掉 > 马斯克：我 XAI 天下第一 > 扎克伯格：不对，我羊驼 LLAMA 才天下第一

35,538 views

豆包 Seedance 1.5 Pro 要是早点发，能省我几个小时时间，前几天我在折腾 AI 视频的时候，首帧图和剧本没花多少时间，但是基于首帧图和剧本去做音画同步的视频折腾了很久： Google Veo 3.1 中文支持不好，Sora 2 经常说话的人和要说的话张冠李戴，孙悟空说唐僧的台词，需要抽卡多次，然后没几次就到限额了。今天用同样的图片和提示词测试了豆包 Seedance 1.5 Pro ，大部分镜头都是一次性就成了，效果也相当不错，人物和台词对应的很好，口型能对的上。比如图1 这个会说方言的熊猫我们家孩子很喜欢，提示词也很简单，把熊猫宝宝图片和下面的提示词一起发过去就生成了： > 小熊猫一边吃竹笋，一边奶声奶气的用四川话说：“哎呀～太阳晒得暖烘烘的，我啃个竹笋儿，慢慢长胖胖～”。

豆包 Seedance 1.5 Pro 要是早点发，能省我几个小时时间，前几天我在折腾 AI 视频的时候，首帧图和剧本没花多少时间，但是基于首帧图和剧本去做音画同步的视频折腾了很久： Google Veo 3.1 中文支持不好，Sora 2 经常说话的人和要说的话张冠李戴，孙悟空说唐僧的台词，需要抽卡多次，然后没几次就到限额了。今天用同样的图片和提示词测试了豆包 Seedance 1.5 Pro ，大部分镜头都是一次性就成了，效果也相当不错，人物和台词对应的很好，口型能对的上。比如图1 这个会说方言的熊猫我们家孩子很喜欢，提示词也很简单，把熊猫宝宝图片和下面的提示词一起发过去就生成了： > 小熊猫一边吃竹笋，一边奶声奶气的用四川话说：“哎呀～太阳晒得暖烘烘的，我啃个竹笋儿，慢慢长胖胖～”。

42,109 views

这稿子让 AI 写说不定效果还好一点

这稿子让 AI 写说不定效果还好一点

32,875 views

以后可能只要一张照片就能视频造假了。三星实验室的MegaPortraits使用新的神经架构，从中等分辨率的视频和高分辨率的图像中产生高质量的动态头像。眼见未必为实 🔗

以后可能只要一张照片就能视频造假了。三星实验室的MegaPortraits使用新的神经架构，从中等分辨率的视频和高分辨率的图像中产生高质量的动态头像。眼见未必为实 🔗

87,564 views

这种分身视频代入感比较强，刚开始还是挺让人上瘾的，比如我又尝试着让自己穿越回大学时光去给年轻时的自己说几句话，还是挺好玩的。提示词（分身+参考图）： > 帮我生成分身视频：工作后的我（图2）回到过去对大学时候的我（图3）说：学好英语和软件工程，将来会有大用；大学的我说一脸不敢置信的看着我：你是谁？工作的我笑着回答，你的AI分身。对了，记得买英伟达股票。原比例，时长 10s，模型 2.0。

这种分身视频代入感比较强，刚开始还是挺让人上瘾的，比如我又尝试着让自己穿越回大学时光去给年轻时的自己说几句话，还是挺好玩的。提示词（分身+参考图）： > 帮我生成分身视频：工作后的我（图2）回到过去对大学时候的我（图3）说：学好英语和软件工程，将来会有大用；大学的我说一脸不敢置信的看着我：你是谁？工作的我笑着回答，你的AI分身。对了，记得买英伟达股票。原比例，时长 10s，模型 2.0。

17,503 views

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

杨植麟在 GTC 2026 的一次演讲"How We Scaled Kimi K2.5"：月之暗面想把 AI 训练中三个沿用了近十年的基础组件，重新做一遍。优化器 Adam（2014 年）、注意力机制（2017 年）、残差连接（2015 年），三个 Transformer 时代的地基组件，月之暗面各给了一个替代方案，而且全部开源。但这场演讲讲的不只是 K2.5，而是月之暗面过去一年多的技术路线：开源模型还能从哪里继续变强，又该怎样逼近闭源模型的前沿水平。杨植麟把答案拆成了三个方向：让每个 Token 更值钱、让更长的上下文真正发挥作用，以及让多个 Agent 同时协作。此外，他还分享了两个重要进展：视觉训练如何反过来增强文本能力，以及月之暗面刚刚公布的下一代架构 Attention Residue。【一、数据不够，就让每个 Token 更值钱】大模型训练正在遇到一个越来越现实的问题：高质量数据快不够用了。互联网上真正有价值的文本数量有限，模型越做越大，需要的数据越来越多，大家迟早都会撞上“数据墙”。既然高质量数据很难翻倍，月之暗面的思路是：能不能让模型从同样的数据里学到更多？他们给出的答案是 MuonClip，用它替代已经用了十多年的 Adam 优化器。 MuonClip 基于 Muon 优化器。简单理解，它会在更新模型参数时，尽量让不同方向上的信息保持独立，减少重复和浪费，从而提高训练数据的利用效率。月之暗面的实验结果是：使用同样数量的数据，MuonClip 的训练效果接近把数据量增加一倍，这不仅意味着训练成本下降，也意味着模型能力的上限可能被推高。假设手里只有 50 万亿个高质量 Token，如果 Token 利用效率提高一倍，就相当于又多出了 50 万亿 Token。在优质数据越来越稀缺的情况下，这种效率提升比单纯增加算力更重要。但 Muon 也有一个明显问题：模型扩展到万亿参数后，注意力层里的数值容易失控。月之暗面在训练中发现，注意力层的最大 logit 会突然飙升到 1000 以上，而正常范围通常只有 50 到 100。一旦数值继续膨胀，训练曲线就会发散，整个训练过程可能直接崩掉。为了解决这个问题，他们设计了 QK-Clip。它会在模型前向计算时，实时检查每个注意力头的最大 logit。一旦数值超过安全范围，就同步缩放 Q 和 K 的投影，把数值压回来。这个操作不会改变训练的收敛效果，只负责维持数值稳定。靠着 QK-Clip，月之暗面成功把 Muon 扩展到了万亿参数规模，并训练了超过 15 万亿 Token，整个过程中没有出现一次 loss spike。【二、上下文不只是要长，还要真正有用】第二个方向，是提高模型利用长上下文的能力。杨植麟展示了 Scaling Law 论文作者 Jared Kaplan 等人曾经做过的一组实验：比较 Transformer 和 LSTM 在不同上下文长度下的预测效果。 LSTM 读到一定长度之后，效果很快就不再提升。继续增加上下文，模型也很难从中获得更多信息。Transformer 则不同。上下文越长，模型对后续内容的预测通常越准确，而且很难看到明显的饱和点。这个特点在 Agent 时代尤其重要。复杂 Agent 任务可能持续几天甚至几周。模型需要记住之前做过什么、得到过哪些结果、哪些方向已经失败，以及接下来该做什么。如果长上下文不能持续提供有效信息，Agent 的任务链条就很容易断掉。问题是，标准的全注意力机制成本太高。它的计算量会随着上下文长度平方增长。上下文扩大十倍，注意力计算量可能增加一百倍。到了百万 Token 级别，训练和推理成本都会变得非常高。月之暗面的解决方案是 Kimi Linear，核心是一种名为 KDA，也就是 Kimi Delta Attention 的线性注意力机制。KDA 的关键，是让模型学会“哪些信息要长期保留，哪些信息可以快速忘掉”。传统线性注意力通常只有一个全局衰减系数，控制整个模型的记忆速度。这有点像所有内容共用同一个遗忘按钮：要么一起记住，要么一起忘掉。KDA 把一个衰减系数拆成了多个。不同信息通道可以使用不同的遗忘速度： - 有些通道衰减得很慢，负责保留长距离信息 - 有些通道衰减得很快，及时腾出空间吸收新内容实际使用时，Kimi Linear 并没有完全抛弃全注意力，而是把线性注意力层和全注意力层按照 3∶1 的比例混合。杨植麟称，这是第一个在短上下文、长输入和长输出任务上，都能全面超过全注意力的架构。上下文扩展到百万 Token，甚至更长时，它的效率优势会更加明显。【三、从一个 Agent，变成一支 Agent 团队】前两个方向都在提升单个模型的能力。第三个方向，则是让多个 Agent 一起工作。月之暗面把这种方式叫作 Agent Swarm，也就是“智能体集群”。它的组织方式很像一家公司。一个主 Agent 充当 CEO，负责理解目标、拆解任务，并把不同子任务分配给多个子 Agent。子 Agent 可以分别扮演研究员、程序员、数据分析师和事实核查员等角色。任务完成后，主 Agent 再汇总结果。这样做最大的价值是把串行任务改成并行任务。过去，一个 Agent 可能需要依次搜索资料、阅读文档、分析数据、编写代码、检查事实。现在，这些工作可以交给几十个甚至几百个 Agent 同时完成，从而大幅缩短复杂任务的执行时间。不过，要让模型真正学会并行协作并不容易。训练 Agent Swarm 时，月之暗面设计了三种奖励：第一种是“实例化奖励”，鼓励主 Agent 创建更多可以并行执行的子任务，避免它退化回单 Agent 串行工作。第二种是“完成奖励”，要求子任务必须真正完成，防止模型为了获得实例化奖励，批量创建没有意义的空任务。第三种是最终结果奖励，用来判断整个任务是否真正解决。这三种奖励的权重会随着训练过程动态变化。训练前期更重视任务拆解、并行化和子任务完成率，后期则逐渐把重点转向最终结果。从演示结果看，Agent Swarm 在复杂任务上能明显缩短执行时间。比如： - 同时下载、阅读几百个信息源并完成研究 - 并行撰写一份上百页文献综述的不同章节 - 同时分析十个不同的数据集 Kimi K2.5 发布时，Agent Swarm 已经支持最多 100 个 Agent 并行工作，整个任务最多可以执行 1500 个步骤。4 月发布的 K2.6 又把并行 Agent 的上限提高到了 300 个。【四、一个意外收获：练“视觉”，也能让“大脑”变聪明】 K2.5 和前代 K2 之间，一个重要变化是采用了“早期融合”训练。过去很多开源多模态模型采用的是“后期融合”：先用大量文本训练出一个语言模型，再用相对少量的视觉数据补上看图能力。例如，先训练 20 万亿个文本 Token，再用大约 2 万亿个多模态 Token 把视觉能力“贴”上去。 K2.5 的做法不同。它从训练一开始，就把视觉和文本数据混在一起。在 K2 文本基座的基础上，K2.5 又训练了约 15 万亿个混合 Token。这种方式带来了两个让杨植麟感到兴奋的结果。第一个发现是：只训练视觉任务，也能提升模型的文本推理能力。研究团队只让模型完成数数、识别图片和视觉问答等任务，没有加入数学或编程训练。结果模型的文本推理能力也变强了。换句话说，模型在练习“看”的同时，“想”的能力也得到了提升。第二个发现则来自相反的方向：如果文本基座足够强，模型甚至不一定需要专门的视觉 SFT 数据。 K2.5 采用了“零视觉 SFT”方案。所有监督微调数据都是纯文本，然后再通过文本与视觉联合的强化学习，让模型获得视觉能力。最终，它在视觉任务上的表现依然接近最先进水平。杨植麟认为，这种双向迁移来自早期融合。当文本和视觉被放进同一个表征空间后，一种模态学到的能力，就有机会迁移到另一种模态。这也是 K2.5 能够“看图写代码”的基础。如果视觉和文本仍然像两个彼此分开的“大脑”，这样的跨模态能力就很难自然出现。【五、下一步：用注意力机制替代残差连接】演讲快结束时，杨植麟介绍了月之暗面刚刚发布的一项新研究：Attention Residue，也就是“注意力残差”。这篇论文发布于 3 月 15 日，距离演讲只有两天。残差连接是现代深度神经网络最重要的基础技术之一。2015 年，何恺明等人提出残差网络，此后残差连接逐渐成为 Transformer 的标准组件。它的基本做法是：每一层不仅处理上一层的结果，还保留一条直接传递信息的通道。这样即使模型很深，信息和梯度也能顺利通过，模型才有可能稳定训练。杨植麟引用了 Ilya Sutskever 的一个说法：残差连接可以被理解为“旋转了 90 度的 LSTM”——LSTM 在时间维度上传递信息，残差连接则在网络深度上传递信息。月之暗面顺着这个类比继续往前走了一步。既然 Transformer 已经用注意力机制替代了 LSTM 在时间维度上的循环结构，那么在深度维度上，是否也能做同样的替换？ Attention Residue 就是这个思路的产物。标准残差连接主要使用上一层的输出。Attention Residue 则允许当前层查看所有前序层的输出，再通过注意力机制决定：哪些历史信息值得保留，哪些信息可以忽略。也就是说，模型不再只能被动接收上一层的结果，而是可以主动从整个计算历史中挑选信息。为了控制计算成本，月之暗面实际采用的是分块版本 Block Attention Residual。它会把模型层分成多个块，比如每 16 层组成一个块。块内继续使用标准残差连接，块与块之间才使用注意力残差。实验显示，大约 8 个块就能获得大部分收益。 Attention Residue 带来了约 24% 的 Token 效率提升。按照杨植麟的算法，如果有 50 万亿个高质量 Token，效率提高 24%，就相当于额外增加了 12 万亿个 Token。它在 GPQA、MATH 和 HumanEval 等推理、数学与编程测试上的提升尤其明显。【三个用了近十年的组件，都还有改进空间】演讲最后，杨植麟把月之暗面的三个替代方案放在了一起： - Adam → MuonClip - Full Attention → Kimi Linear - Residual Connection → Attention Residue 它们分别对应大模型训练中的三个基础问题： - 怎样从有限的数据中学到更多 - 怎样更高效地利用超长上下文 - 怎样让深层网络更灵活地传递信息三个方案都可以相对独立地替换现有组件，也都已经开源。这些技术能否直接叠加，增益能否简单相乘，目前还没有经过完整验证。但它们至少说明了一件事：很多被认为“已经足够好”的基础组件，可能远没有到达终点。在优质数据越来越少、训练成本越来越高的情况下，继续堆参数和算力并不是唯一的路。重新设计优化器、注意力机制和残差连接，同样可能带来可观的提升。这也是杨植麟整场演讲真正想表达的观点。正如他最后所说： > “Open models cannot be just open; they have also to be great.” 开源模型不能只是开放，还必须足够强。注：本视频由翻译

杨植麟在 GTC 2026 的一次演讲"How We Scaled Kimi K2.5"：月之暗面想把 AI 训练中三个沿用了近十年的基础组件，重新做一遍。优化器 Adam（2014 年）、注意力机制（2017 年）、残差连接（2015 年），三个 Transformer 时代的地基组件，月之暗面各给了一个替代方案，而且全部开源。但这场演讲讲的不只是 K2.5，而是月之暗面过去一年多的技术路线：开源模型还能从哪里继续变强，又该怎样逼近闭源模型的前沿水平。杨植麟把答案拆成了三个方向：让每个 Token 更值钱、让更长的上下文真正发挥作用，以及让多个 Agent 同时协作。此外，他还分享了两个重要进展：视觉训练如何反过来增强文本能力，以及月之暗面刚刚公布的下一代架构 Attention Residue。【一、数据不够，就让每个 Token 更值钱】大模型训练正在遇到一个越来越现实的问题：高质量数据快不够用了。互联网上真正有价值的文本数量有限，模型越做越大，需要的数据越来越多，大家迟早都会撞上“数据墙”。既然高质量数据很难翻倍，月之暗面的思路是：能不能让模型从同样的数据里学到更多？他们给出的答案是 MuonClip，用它替代已经用了十多年的 Adam 优化器。 MuonClip 基于 Muon 优化器。简单理解，它会在更新模型参数时，尽量让不同方向上的信息保持独立，减少重复和浪费，从而提高训练数据的利用效率。月之暗面的实验结果是：使用同样数量的数据，MuonClip 的训练效果接近把数据量增加一倍，这不仅意味着训练成本下降，也意味着模型能力的上限可能被推高。假设手里只有 50 万亿个高质量 Token，如果 Token 利用效率提高一倍，就相当于又多出了 50 万亿 Token。在优质数据越来越稀缺的情况下，这种效率提升比单纯增加算力更重要。但 Muon 也有一个明显问题：模型扩展到万亿参数后，注意力层里的数值容易失控。月之暗面在训练中发现，注意力层的最大 logit 会突然飙升到 1000 以上，而正常范围通常只有 50 到 100。一旦数值继续膨胀，训练曲线就会发散，整个训练过程可能直接崩掉。为了解决这个问题，他们设计了 QK-Clip。它会在模型前向计算时，实时检查每个注意力头的最大 logit。一旦数值超过安全范围，就同步缩放 Q 和 K 的投影，把数值压回来。这个操作不会改变训练的收敛效果，只负责维持数值稳定。靠着 QK-Clip，月之暗面成功把 Muon 扩展到了万亿参数规模，并训练了超过 15 万亿 Token，整个过程中没有出现一次 loss spike。【二、上下文不只是要长，还要真正有用】第二个方向，是提高模型利用长上下文的能力。杨植麟展示了 Scaling Law 论文作者 Jared Kaplan 等人曾经做过的一组实验：比较 Transformer 和 LSTM 在不同上下文长度下的预测效果。 LSTM 读到一定长度之后，效果很快就不再提升。继续增加上下文，模型也很难从中获得更多信息。Transformer 则不同。上下文越长，模型对后续内容的预测通常越准确，而且很难看到明显的饱和点。这个特点在 Agent 时代尤其重要。复杂 Agent 任务可能持续几天甚至几周。模型需要记住之前做过什么、得到过哪些结果、哪些方向已经失败，以及接下来该做什么。如果长上下文不能持续提供有效信息，Agent 的任务链条就很容易断掉。问题是，标准的全注意力机制成本太高。它的计算量会随着上下文长度平方增长。上下文扩大十倍，注意力计算量可能增加一百倍。到了百万 Token 级别，训练和推理成本都会变得非常高。月之暗面的解决方案是 Kimi Linear，核心是一种名为 KDA，也就是 Kimi Delta Attention 的线性注意力机制。KDA 的关键，是让模型学会“哪些信息要长期保留，哪些信息可以快速忘掉”。传统线性注意力通常只有一个全局衰减系数，控制整个模型的记忆速度。这有点像所有内容共用同一个遗忘按钮：要么一起记住，要么一起忘掉。KDA 把一个衰减系数拆成了多个。不同信息通道可以使用不同的遗忘速度： - 有些通道衰减得很慢，负责保留长距离信息 - 有些通道衰减得很快，及时腾出空间吸收新内容实际使用时，Kimi Linear 并没有完全抛弃全注意力，而是把线性注意力层和全注意力层按照 3∶1 的比例混合。杨植麟称，这是第一个在短上下文、长输入和长输出任务上，都能全面超过全注意力的架构。上下文扩展到百万 Token，甚至更长时，它的效率优势会更加明显。【三、从一个 Agent，变成一支 Agent 团队】前两个方向都在提升单个模型的能力。第三个方向，则是让多个 Agent 一起工作。月之暗面把这种方式叫作 Agent Swarm，也就是“智能体集群”。它的组织方式很像一家公司。一个主 Agent 充当 CEO，负责理解目标、拆解任务，并把不同子任务分配给多个子 Agent。子 Agent 可以分别扮演研究员、程序员、数据分析师和事实核查员等角色。任务完成后，主 Agent 再汇总结果。这样做最大的价值是把串行任务改成并行任务。过去，一个 Agent 可能需要依次搜索资料、阅读文档、分析数据、编写代码、检查事实。现在，这些工作可以交给几十个甚至几百个 Agent 同时完成，从而大幅缩短复杂任务的执行时间。不过，要让模型真正学会并行协作并不容易。训练 Agent Swarm 时，月之暗面设计了三种奖励：第一种是“实例化奖励”，鼓励主 Agent 创建更多可以并行执行的子任务，避免它退化回单 Agent 串行工作。第二种是“完成奖励”，要求子任务必须真正完成，防止模型为了获得实例化奖励，批量创建没有意义的空任务。第三种是最终结果奖励，用来判断整个任务是否真正解决。这三种奖励的权重会随着训练过程动态变化。训练前期更重视任务拆解、并行化和子任务完成率，后期则逐渐把重点转向最终结果。从演示结果看，Agent Swarm 在复杂任务上能明显缩短执行时间。比如： - 同时下载、阅读几百个信息源并完成研究 - 并行撰写一份上百页文献综述的不同章节 - 同时分析十个不同的数据集 Kimi K2.5 发布时，Agent Swarm 已经支持最多 100 个 Agent 并行工作，整个任务最多可以执行 1500 个步骤。4 月发布的 K2.6 又把并行 Agent 的上限提高到了 300 个。【四、一个意外收获：练“视觉”，也能让“大脑”变聪明】 K2.5 和前代 K2 之间，一个重要变化是采用了“早期融合”训练。过去很多开源多模态模型采用的是“后期融合”：先用大量文本训练出一个语言模型，再用相对少量的视觉数据补上看图能力。例如，先训练 20 万亿个文本 Token，再用大约 2 万亿个多模态 Token 把视觉能力“贴”上去。 K2.5 的做法不同。它从训练一开始，就把视觉和文本数据混在一起。在 K2 文本基座的基础上，K2.5 又训练了约 15 万亿个混合 Token。这种方式带来了两个让杨植麟感到兴奋的结果。第一个发现是：只训练视觉任务，也能提升模型的文本推理能力。研究团队只让模型完成数数、识别图片和视觉问答等任务，没有加入数学或编程训练。结果模型的文本推理能力也变强了。换句话说，模型在练习“看”的同时，“想”的能力也得到了提升。第二个发现则来自相反的方向：如果文本基座足够强，模型甚至不一定需要专门的视觉 SFT 数据。 K2.5 采用了“零视觉 SFT”方案。所有监督微调数据都是纯文本，然后再通过文本与视觉联合的强化学习，让模型获得视觉能力。最终，它在视觉任务上的表现依然接近最先进水平。杨植麟认为，这种双向迁移来自早期融合。当文本和视觉被放进同一个表征空间后，一种模态学到的能力，就有机会迁移到另一种模态。这也是 K2.5 能够“看图写代码”的基础。如果视觉和文本仍然像两个彼此分开的“大脑”，这样的跨模态能力就很难自然出现。【五、下一步：用注意力机制替代残差连接】演讲快结束时，杨植麟介绍了月之暗面刚刚发布的一项新研究：Attention Residue，也就是“注意力残差”。这篇论文发布于 3 月 15 日，距离演讲只有两天。残差连接是现代深度神经网络最重要的基础技术之一。2015 年，何恺明等人提出残差网络，此后残差连接逐渐成为 Transformer 的标准组件。它的基本做法是：每一层不仅处理上一层的结果，还保留一条直接传递信息的通道。这样即使模型很深，信息和梯度也能顺利通过，模型才有可能稳定训练。杨植麟引用了 Ilya Sutskever 的一个说法：残差连接可以被理解为“旋转了 90 度的 LSTM”——LSTM 在时间维度上传递信息，残差连接则在网络深度上传递信息。月之暗面顺着这个类比继续往前走了一步。既然 Transformer 已经用注意力机制替代了 LSTM 在时间维度上的循环结构，那么在深度维度上，是否也能做同样的替换？ Attention Residue 就是这个思路的产物。标准残差连接主要使用上一层的输出。Attention Residue 则允许当前层查看所有前序层的输出，再通过注意力机制决定：哪些历史信息值得保留，哪些信息可以忽略。也就是说，模型不再只能被动接收上一层的结果，而是可以主动从整个计算历史中挑选信息。为了控制计算成本，月之暗面实际采用的是分块版本 Block Attention Residual。它会把模型层分成多个块，比如每 16 层组成一个块。块内继续使用标准残差连接，块与块之间才使用注意力残差。实验显示，大约 8 个块就能获得大部分收益。 Attention Residue 带来了约 24% 的 Token 效率提升。按照杨植麟的算法，如果有 50 万亿个高质量 Token，效率提高 24%，就相当于额外增加了 12 万亿个 Token。它在 GPQA、MATH 和 HumanEval 等推理、数学与编程测试上的提升尤其明显。【三个用了近十年的组件，都还有改进空间】演讲最后，杨植麟把月之暗面的三个替代方案放在了一起： - Adam → MuonClip - Full Attention → Kimi Linear - Residual Connection → Attention Residue 它们分别对应大模型训练中的三个基础问题： - 怎样从有限的数据中学到更多 - 怎样更高效地利用超长上下文 - 怎样让深层网络更灵活地传递信息三个方案都可以相对独立地替换现有组件，也都已经开源。这些技术能否直接叠加，增益能否简单相乘，目前还没有经过完整验证。但它们至少说明了一件事：很多被认为“已经足够好”的基础组件，可能远没有到达终点。在优质数据越来越少、训练成本越来越高的情况下，继续堆参数和算力并不是唯一的路。重新设计优化器、注意力机制和残差连接，同样可能带来可观的提升。这也是杨植麟整场演讲真正想表达的观点。正如他最后所说： > “Open models cannot be just open; they have also to be great.” 开源模型不能只是开放，还必须足够强。注：本视频由翻译

235,899 views • 1 day ago

Codex 键盘看着还挺酷的，要是支持 Claude Code 我就买一个了😂 另外官方做的很炫酷：

Codex 键盘看着还挺酷的，要是支持 Claude Code 我就买一个了😂 另外官方做的很炫酷：

108,571 views • 3 days ago

来自 Claude Code 团队成员 Thariq 分享的用好 Fable 5模型的秘诀。以下内容整理自 Thariq 的视频：过去，我们需要时刻检查 Claude 是否在正确地做事。比如，把任务拆分成小块交给它、反复检查它的输出，并在它过早停下时发现问题。但有了 Claude Fable 5，我反而发现自己越来越多地是在检查 Claude 是否在做正确的工作。 Fable 可以一次运行几个小时，它会测试自己的工作，老实说，我经常发现它写出的代码比我的还要好。我的工作变得越来越侧重于指引方向和前期设置，而不是监督。因此，以下是我在使用 Fable 时，工作方式发生的三个改变。首先，我把 Claude 当作一个思维伙伴。我给它提供所需的上下文。其次，我给 Claude 设定目标并提供验证这些目标的方法。最后，我试着变得更有野心，让 Claude 去做我以前从未尝试过的事情。第一点，你要越来越多地把 Claude 视为一个思维伙伴。我在使用 Fable 时发现的一个失败模式是，我可能实际上并不知道自己想要什么，或者我可能不知道什么是可行的。但是，在我的思考过程中尽早让 Claude 参与进来，我就可以在实施之前发现这些问题。举个例子，我会先从一个小的需求规范（spec）开始，在编写最终的规范文件之前，我会要求 Claude 就实施方案对我进行“面试提问”。这有助于我建立信心，确信自己知道想要什么。或者，我也可能抛出一个想法，让它想出几个可以发展的方向，并制作一些 HTML 页面原型供我审查。当我准备好进行实施时，我会尽量给它提供上下文，而不仅仅是约束条件，这样 Claude 就能真正帮助我达成目标。例如，我不会说“保持简单，不要过度设计”，而是会说：“嘿，这个功能是个实验。我们很有可能在一个月后删掉它。所以不要构建任何丢弃起来会很心疼的东西。”给它这样的上下文，能让它发现你可能都没想到的事情。一旦你知道自己想要什么了，特别是面对一个雄心勃勃的难题时，考虑给 Claude 设定目标以及验证目标的方法。为此，我们推出了两个很好用的新功能，我也鼓励大家试一试：/goal（目标指令）和 workflows（工作流）。目标功能帮助 Claude 持续工作直至完成，而工作流则帮助 Claude 验证其工作。因此，在我写完规范文档后，我可能会告诉 Claude：“设定一个目标，以完整实现该规范。然后使用工作流来验证计划的每个部分，并准备一份报告，说明已实现了哪些内容以及是否有任何差异。”这让 Claude 能够尽可能以富有创意和周到的方式发挥其能力，同时又能确保它正在构建你想要的东西。最后，试着更有野心一些。 Fable 真的是一个令人难以置信的模型，它促使我在工作中打破常规去思考。例如，我正在用 Fable 剪辑这个视频。如果有什么事情是你以为大语言模型做不到的，给它个机会试试。我们由衷地认为，Fable 提高了“一切皆有可能”的上限。

来自 Claude Code 团队成员 Thariq 分享的用好 Fable 5模型的秘诀。以下内容整理自 Thariq 的视频：过去，我们需要时刻检查 Claude 是否在正确地做事。比如，把任务拆分成小块交给它、反复检查它的输出，并在它过早停下时发现问题。但有了 Claude Fable 5，我反而发现自己越来越多地是在检查 Claude 是否在做正确的工作。 Fable 可以一次运行几个小时，它会测试自己的工作，老实说，我经常发现它写出的代码比我的还要好。我的工作变得越来越侧重于指引方向和前期设置，而不是监督。因此，以下是我在使用 Fable 时，工作方式发生的三个改变。首先，我把 Claude 当作一个思维伙伴。我给它提供所需的上下文。其次，我给 Claude 设定目标并提供验证这些目标的方法。最后，我试着变得更有野心，让 Claude 去做我以前从未尝试过的事情。第一点，你要越来越多地把 Claude 视为一个思维伙伴。我在使用 Fable 时发现的一个失败模式是，我可能实际上并不知道自己想要什么，或者我可能不知道什么是可行的。但是，在我的思考过程中尽早让 Claude 参与进来，我就可以在实施之前发现这些问题。举个例子，我会先从一个小的需求规范（spec）开始，在编写最终的规范文件之前，我会要求 Claude 就实施方案对我进行“面试提问”。这有助于我建立信心，确信自己知道想要什么。或者，我也可能抛出一个想法，让它想出几个可以发展的方向，并制作一些 HTML 页面原型供我审查。当我准备好进行实施时，我会尽量给它提供上下文，而不仅仅是约束条件，这样 Claude 就能真正帮助我达成目标。例如，我不会说“保持简单，不要过度设计”，而是会说：“嘿，这个功能是个实验。我们很有可能在一个月后删掉它。所以不要构建任何丢弃起来会很心疼的东西。”给它这样的上下文，能让它发现你可能都没想到的事情。一旦你知道自己想要什么了，特别是面对一个雄心勃勃的难题时，考虑给 Claude 设定目标以及验证目标的方法。为此，我们推出了两个很好用的新功能，我也鼓励大家试一试：/goal（目标指令）和 workflows（工作流）。目标功能帮助 Claude 持续工作直至完成，而工作流则帮助 Claude 验证其工作。因此，在我写完规范文档后，我可能会告诉 Claude：“设定一个目标，以完整实现该规范。然后使用工作流来验证计划的每个部分，并准备一份报告，说明已实现了哪些内容以及是否有任何差异。”这让 Claude 能够尽可能以富有创意和周到的方式发挥其能力，同时又能确保它正在构建你想要的东西。最后，试着更有野心一些。 Fable 真的是一个令人难以置信的模型，它促使我在工作中打破常规去思考。例如，我正在用 Fable 剪辑这个视频。如果有什么事情是你以为大语言模型做不到的，给它个机会试试。我们由衷地认为，Fable 提高了“一切皆有可能”的上限。

141,635 views • 13 days ago

Anthropic 7 月 10 日发布了一场关于 Agent 基础设施的对谈。Claude 平台工程负责人 Katelyn Lesse、产品负责人 Angela Jiang 和产品经理 Jess Yann，分享了几个来自一线的观察。【Agent 的“脚手架”正在变薄】几个月前，搭建 Agent 往往需要写大量流程控制代码：先执行 A，满足条件再进入 B，遇到不同情况还要切换不同分支。流程越复杂，系统越容易出错。随着模型的推理和工具调用能力增强，这些编排层（harness）正在变薄。开发者不用再规定每一步，只需给出目标和基本边界，让模型自己决定怎么完成。与此同时，一种更高层的编排方式开始出现：让多个 Agent 同时解决一个问题，从中选出最佳方案；让一个 Agent 提方案，另一个负责挑错；或者在 Agent 卡住时，请另一个能力更强的 Agent 提供建议。重点正在从“控制每一步”，转向“设计 Agent 之间如何协作”。【衡量 Agent “投入产出比”（ROI，Return on Investment），先看一个人快了多少】 Angela 建议，企业不要一开始就规划上百个自动化流程，而应该先看一个具体的人：用了 Agent 之后，他的工作速度和产出提高了多少？验证有效后，再从个人推广到团队，最后才处理跨部门流程。前期重点看速度和生产力，等应用逐步成熟，再衡量收入、成本和用户指标。很多企业做 AI 转型时，喜欢先画一张宏大的自动化蓝图。问题是，流程涉及的部门越多、规则越复杂，落地阻力就越大。从个人开始，更容易看到效果，也更容易持续推进。【工程团队没消失，但每个人的角色都变了】 Katelyn 观察到，Anthropic 的工程团队和半年前相比，人员构成没有太大变化，但协作方式已经不同。过去通常由技术负责人决定架构，其他工程师领取任务、编写代码。现在，更多工程师会参与产品和架构决策，再分别指挥 Claude 完成具体工作。 Agent 的作用也不再只是“帮忙写代码”。她提到 Shopify 的 River 系统，已经把需求文档、开发环境、代码实现和 QA 测试串成了一套端到端的 Agent 工作流。【个体变强，不等于团队自然变好】 Agent 降低了开发和试错成本，也可能带来新的问题。过去，一个团队会先讨论十个方案中哪个最值得做。现在，每个人都可以快速做出十个原型，甚至全部上线，让市场决定谁胜出。这样做速度很快，但如果缺少统一方向，产品很容易无序扩张。Agent 能显著放大个人能力，却不会自动解决团队的协调、取舍和决策问题。来源：

Anthropic 7 月 10 日发布了一场关于 Agent 基础设施的对谈。Claude 平台工程负责人 Katelyn Lesse、产品负责人 Angela Jiang 和产品经理 Jess Yann，分享了几个来自一线的观察。【Agent 的“脚手架”正在变薄】几个月前，搭建 Agent 往往需要写大量流程控制代码：先执行 A，满足条件再进入 B，遇到不同情况还要切换不同分支。流程越复杂，系统越容易出错。随着模型的推理和工具调用能力增强，这些编排层（harness）正在变薄。开发者不用再规定每一步，只需给出目标和基本边界，让模型自己决定怎么完成。与此同时，一种更高层的编排方式开始出现：让多个 Agent 同时解决一个问题，从中选出最佳方案；让一个 Agent 提方案，另一个负责挑错；或者在 Agent 卡住时，请另一个能力更强的 Agent 提供建议。重点正在从“控制每一步”，转向“设计 Agent 之间如何协作”。【衡量 Agent “投入产出比”（ROI，Return on Investment），先看一个人快了多少】 Angela 建议，企业不要一开始就规划上百个自动化流程，而应该先看一个具体的人：用了 Agent 之后，他的工作速度和产出提高了多少？验证有效后，再从个人推广到团队，最后才处理跨部门流程。前期重点看速度和生产力，等应用逐步成熟，再衡量收入、成本和用户指标。很多企业做 AI 转型时，喜欢先画一张宏大的自动化蓝图。问题是，流程涉及的部门越多、规则越复杂，落地阻力就越大。从个人开始，更容易看到效果，也更容易持续推进。【工程团队没消失，但每个人的角色都变了】 Katelyn 观察到，Anthropic 的工程团队和半年前相比，人员构成没有太大变化，但协作方式已经不同。过去通常由技术负责人决定架构，其他工程师领取任务、编写代码。现在，更多工程师会参与产品和架构决策，再分别指挥 Claude 完成具体工作。 Agent 的作用也不再只是“帮忙写代码”。她提到 Shopify 的 River 系统，已经把需求文档、开发环境、代码实现和 QA 测试串成了一套端到端的 Agent 工作流。【个体变强，不等于团队自然变好】 Agent 降低了开发和试错成本，也可能带来新的问题。过去，一个团队会先讨论十个方案中哪个最值得做。现在，每个人都可以快速做出十个原型，甚至全部上线，让市场决定谁胜出。这样做速度很快，但如果缺少统一方向，产品很容易无序扩张。Agent 能显著放大个人能力，却不会自动解决团队的协调、取舍和决策问题。来源：

65,290 views • 7 days ago

Codex 最新动态：从 GPT‑5.6 与 Ultra 模式，到多智能体并行协作、计算机与浏览器操作、应用截图理解、行内代码和文档修改，再到一键发布 Sites、跨项目管理以及完整的 PR 工作流。 Codex 已不只是一个“帮你写代码”的工具，而是能够拆解复杂任务、操作和测试应用、协调多个项目、处理 Bug 与代码审查，并协助完成发布的开发伙伴。无论你想提高日常开发效率，还是探索更自动化的 AI 编程方式，这支视频都能帮你快速掌握 Codex 的新能力和实际应用场景。本视频由 baocut 翻译

Codex 最新动态：从 GPT‑5.6 与 Ultra 模式，到多智能体并行协作、计算机与浏览器操作、应用截图理解、行内代码和文档修改，再到一键发布 Sites、跨项目管理以及完整的 PR 工作流。 Codex 已不只是一个“帮你写代码”的工具，而是能够拆解复杂任务、操作和测试应用、协调多个项目、处理 Bug 与代码审查，并协助完成发布的开发伙伴。无论你想提高日常开发效率，还是探索更自动化的 AI 编程方式，这支视频都能帮你快速掌握 Codex 的新能力和实际应用场景。本视频由 baocut 翻译

37,498 views • 4 days ago

OpenAI 今天发布 GPT-Live，用全双工架构（full-duplex）取代 ChatGPT 原有的语音模式。同声传译的演示效果很惊艳。两个型号 GPT-Live-1 和 GPT-Live-1 mini，分别面向付费和免费用户，今天起在 iOS、Android 和网页端全球推出。这是 ChatGPT 语音的第三代技术。之前的语音模式本质上是"对讲机"模式，你说完它才说，中间稍微停顿一下就可能被打断。GPT-Live 改成了全双工，可以一边听你说一边自己说，每秒做多次交互决策，判断该说话、该闭嘴、该打断还是该调用工具。对话中它会像真人一样插入"mhmm""got it"之类的回应，表示在听。架构上有一个比较有意思的变化：GPT-Live 把语音交互层和推理层拆开了。日常对话它自己处理，遇到需要联网搜索、深度推理的问题，就后台交给 GPT-5.5 去干活，自己继续跟你聊着。等结果出来了再无缝带回对话。OpenAI 说以后出了更新的模型会持续替换后端，前端语音模型不用重新训练。这个设计对做语音智能体的开发者可能比较有吸引力，也给了 OpenAI 一个把语音产品和模型迭代解耦的机制。用户端还加了三档推理强度可选：Instant（快速回答）、Medium 和 High（需要想一会儿的复杂问题），九个语音角色也重新录制过。语音对话中还能显示天气、股票、体育比分等可视化卡片。不过上线第一天用户反馈就出现了一个有点讽刺的问题：那些设计来让对话更自然的回应词，实际用起来让不少人觉得烦。社交媒体上已经有用户吐槽 GPT-Live 的"mhmm"太频繁，声音直接闯入注意力的感受和文字不同，AI 的热情过了头反而成了干扰。TechCrunch 在报道中也提到，演示中展示印地语实时翻译时，模型带着明显的美式口音，措辞偏书面，效果并不理想。OpenAI 说"针对最常用语言做了优化"，但没有公布具体支持哪些语言。另外，GPT-Live 上线时不支持视频通话和屏幕共享，需要这些功能的用户得切回旧版。API 也还没开放，开发者只能先登记排队。每周有超过 1.5 亿人使用 ChatGPT 的语音和听写功能。OpenAI 显然把语音视为下一个主力交互界面，ChatGPT Voice 产品负责人 Atty Eleti 说自己散步时经常跟它聊三四十分钟。至于全双工到底是一次真正的体验升级，还是又一个演示很惊艳、日常用起来还得调的产品，可能还得看接下来几周用户怎么说。官方介绍：

OpenAI 今天发布 GPT-Live，用全双工架构（full-duplex）取代 ChatGPT 原有的语音模式。同声传译的演示效果很惊艳。两个型号 GPT-Live-1 和 GPT-Live-1 mini，分别面向付费和免费用户，今天起在 iOS、Android 和网页端全球推出。这是 ChatGPT 语音的第三代技术。之前的语音模式本质上是"对讲机"模式，你说完它才说，中间稍微停顿一下就可能被打断。GPT-Live 改成了全双工，可以一边听你说一边自己说，每秒做多次交互决策，判断该说话、该闭嘴、该打断还是该调用工具。对话中它会像真人一样插入"mhmm""got it"之类的回应，表示在听。架构上有一个比较有意思的变化：GPT-Live 把语音交互层和推理层拆开了。日常对话它自己处理，遇到需要联网搜索、深度推理的问题，就后台交给 GPT-5.5 去干活，自己继续跟你聊着。等结果出来了再无缝带回对话。OpenAI 说以后出了更新的模型会持续替换后端，前端语音模型不用重新训练。这个设计对做语音智能体的开发者可能比较有吸引力，也给了 OpenAI 一个把语音产品和模型迭代解耦的机制。用户端还加了三档推理强度可选：Instant（快速回答）、Medium 和 High（需要想一会儿的复杂问题），九个语音角色也重新录制过。语音对话中还能显示天气、股票、体育比分等可视化卡片。不过上线第一天用户反馈就出现了一个有点讽刺的问题：那些设计来让对话更自然的回应词，实际用起来让不少人觉得烦。社交媒体上已经有用户吐槽 GPT-Live 的"mhmm"太频繁，声音直接闯入注意力的感受和文字不同，AI 的热情过了头反而成了干扰。TechCrunch 在报道中也提到，演示中展示印地语实时翻译时，模型带着明显的美式口音，措辞偏书面，效果并不理想。OpenAI 说"针对最常用语言做了优化"，但没有公布具体支持哪些语言。另外，GPT-Live 上线时不支持视频通话和屏幕共享，需要这些功能的用户得切回旧版。API 也还没开放，开发者只能先登记排队。每周有超过 1.5 亿人使用 ChatGPT 的语音和听写功能。OpenAI 显然把语音视为下一个主力交互界面，ChatGPT Voice 产品负责人 Atty Eleti 说自己散步时经常跟它聊三四十分钟。至于全双工到底是一次真正的体验升级，还是又一个演示很惊艳、日常用起来还得调的产品，可能还得看接下来几周用户怎么说。官方介绍：

78,183 views • 10 days ago

Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8. npx skills add JimLiu/baoyu-design

Cursor's new browser + element annotation turns it into a design studio. Meet Cursor Design 🎨 — Claude Design, running locally. Describe a screen → get polished HTML → click any element in the preview & say what to change. Best w/ Opus 4.8. npx skills add JimLiu/baoyu-design

248,360 views • 1 month ago

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南，把三者的区别和适用场景理清楚了，这里做个精简版。【1】Computer Use：最广，也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘，操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器，甚至 iPhone Mirroring 都能控制。代价是慢。结构化插件可以直接调 API，Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用，这是其他方式做不到的。 Mac 和 Windows 的体验差距很大：Mac 上 Codex 可以在后台静悄悄地操作，你继续用自己的电脑不受影响；Windows 上它必须占据前台，操作期间你没法用那台机器。 Jason 举了个例子：有次他的快递被偷了，Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口，客服出现后改为每分钟一次，自动完成退款流程。他去洗了个澡，回来退款已经办好了。【2】Chrome 扩展：带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话，包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台，这些需要登录才能用的工具，Chrome 扩展是对的选择。它还能同时控制多个标签页，在一个标签里读信息，到另一个标签里对比，再到第三个标签完成操作。Computer Use 也能操作浏览器，但它只认屏幕坐标，Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务：每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈，把有价值的内容存到本地文件，但不发任何消息。要注意的是，网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化，但发送、发布、付款这类操作最好留给自己确认。【3】内置浏览器：给开发者的沙盒内置浏览器住在 Codex 的对话线程里，你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies，是个完全隔离的环境。这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍，形成紧密的反馈循环。 Jason 最喜欢的功能是标注：你可以直接在页面上点击某个元素留评论，比如"这个层级反了""这个按钮间距不够"，Codex 会拿着截图和元素上下文去改代码，改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。【选哪个？】简单记：任务需要登录状态用 Chrome，需要操作桌面应用用 Computer Use，在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务，优先用结构化工具，视觉控制是最后手段。

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南，把三者的区别和适用场景理清楚了，这里做个精简版。【1】Computer Use：最广，也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘，操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器，甚至 iPhone Mirroring 都能控制。代价是慢。结构化插件可以直接调 API，Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用，这是其他方式做不到的。 Mac 和 Windows 的体验差距很大：Mac 上 Codex 可以在后台静悄悄地操作，你继续用自己的电脑不受影响；Windows 上它必须占据前台，操作期间你没法用那台机器。 Jason 举了个例子：有次他的快递被偷了，Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口，客服出现后改为每分钟一次，自动完成退款流程。他去洗了个澡，回来退款已经办好了。【2】Chrome 扩展：带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话，包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台，这些需要登录才能用的工具，Chrome 扩展是对的选择。它还能同时控制多个标签页，在一个标签里读信息，到另一个标签里对比，再到第三个标签完成操作。Computer Use 也能操作浏览器，但它只认屏幕坐标，Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务：每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈，把有价值的内容存到本地文件，但不发任何消息。要注意的是，网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化，但发送、发布、付款这类操作最好留给自己确认。【3】内置浏览器：给开发者的沙盒内置浏览器住在 Codex 的对话线程里，你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies，是个完全隔离的环境。这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍，形成紧密的反馈循环。 Jason 最喜欢的功能是标注：你可以直接在页面上点击某个元素留评论，比如"这个层级反了""这个按钮间距不够"，Codex 会拿着截图和元素上下文去改代码，改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。【选哪个？】简单记：任务需要登录状态用 Chrome，需要操作桌面应用用 Computer Use，在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务，优先用结构化工具，视觉控制是最后手段。

178,358 views • 1 month ago

baoyu-design skill 可以在本地生成动画视频，导出 mp4 格式，就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频，但你需要在网页上才能看到视频，无法下载。也有人基于第三方插件录屏软件实现过，不过很麻烦，效果也不是很好。在这套 Skill 基础上，我已经实现了直接把动画导出成 mp4 视频的能力。生成动画和导出视频，其实原理差不多，就是每一帧画面，都是根据所在时间坐标算出来的，就像一个函数 f(t)，你传入给动画引擎任意一个时间点 t，它能直接算出那一瞬间屏幕上每个元素的位置、透明度、大小，所有视觉状态完全由 t 决定。不需要从头播放到那个时刻，也不需要记住之前发生了什么。传统写动画的方式是命令式的：到了某个时刻，去改某个元素的位置，把透明度调一下。状态散落在各处，时间一乱画面就乱。这套引擎反过来，用的是声明式思路：你不去驱动元素运动，只描述在第 t 秒，每个元素应该长什么样。打个比方，传统动画像看电影，你必须从头看才知道第 30 分钟画面是什么。这套引擎更像一本特殊的书，翻到任意一页，画面都是完整的、确定的。这个设计带来了三个能力： 1. 拖动播放条跳到任意位置可以，因为 f(t) 随时能算； 2. 反复调试同一个画面可以，因为同一个 t 永远产出同一帧； 3. 把动画导出成视频也可以，而且方式很巧妙。那么导出视频是怎么实现的呢？直觉上，把浏览器里的动画变成 MP4，录个屏不就行了？录屏是实时的。机器稍微一卡就掉帧，拍出来的视频不可复现。而且播放条、黑色背景、圆角阴影这些"播放器外壳"会一起被录进去。 baoyu-design 用的方法更像定格动画的拍摄：启动一个无头浏览器（没有界面的 Chromium），加载动画页面，通过引擎预留的一个控制接口精确操控时间轴。每设定一个时间点，等浏览器把画面渲染完成，截一张图，通过管道直接喂给 ffmpeg 编码。一段 95 秒、30fps 的动画就是 2850 次"摆好时间，拍照"的循环。慢，但每一帧都是精确的，绝不掉帧。这里有个容易忽略的细节：设定时间后，工具会等两帧 requestAnimationFrame 再截图。因为修改时间只是改了 React 状态，浏览器还需要一到两帧才能把新画面真正画到屏幕上。等少了，截到的可能是上一帧的残影。为了让画面更锐利，截图时用 2 倍设备像素比渲染，实际按 3840×2160 出图，最后由 ffmpeg 缩回 1080p。原理和高分辨率印刷一样：先在更大的画布上精细绘制，再高质量缩小，文字边缘和细线会明显更清晰。 baoyu-design 在 GitHub 开源（MIT 协议），目前 1.2K star。感兴趣的可以去看看它的 skills/baoyu-design 目录，动画引擎的完整实现都在里面。

baoyu-design skill 可以在本地生成动画视频，导出 mp4 格式，就像附件视频这个。 Claude Design 网页版可以用提示词创建动画视频，但你需要在网页上才能看到视频，无法下载。也有人基于第三方插件录屏软件实现过，不过很麻烦，效果也不是很好。在这套 Skill 基础上，我已经实现了直接把动画导出成 mp4 视频的能力。生成动画和导出视频，其实原理差不多，就是每一帧画面，都是根据所在时间坐标算出来的，就像一个函数 f(t)，你传入给动画引擎任意一个时间点 t，它能直接算出那一瞬间屏幕上每个元素的位置、透明度、大小，所有视觉状态完全由 t 决定。不需要从头播放到那个时刻，也不需要记住之前发生了什么。传统写动画的方式是命令式的：到了某个时刻，去改某个元素的位置，把透明度调一下。状态散落在各处，时间一乱画面就乱。这套引擎反过来，用的是声明式思路：你不去驱动元素运动，只描述在第 t 秒，每个元素应该长什么样。打个比方，传统动画像看电影，你必须从头看才知道第 30 分钟画面是什么。这套引擎更像一本特殊的书，翻到任意一页，画面都是完整的、确定的。这个设计带来了三个能力： 1. 拖动播放条跳到任意位置可以，因为 f(t) 随时能算； 2. 反复调试同一个画面可以，因为同一个 t 永远产出同一帧； 3. 把动画导出成视频也可以，而且方式很巧妙。那么导出视频是怎么实现的呢？直觉上，把浏览器里的动画变成 MP4，录个屏不就行了？录屏是实时的。机器稍微一卡就掉帧，拍出来的视频不可复现。而且播放条、黑色背景、圆角阴影这些"播放器外壳"会一起被录进去。 baoyu-design 用的方法更像定格动画的拍摄：启动一个无头浏览器（没有界面的 Chromium），加载动画页面，通过引擎预留的一个控制接口精确操控时间轴。每设定一个时间点，等浏览器把画面渲染完成，截一张图，通过管道直接喂给 ffmpeg 编码。一段 95 秒、30fps 的动画就是 2850 次"摆好时间，拍照"的循环。慢，但每一帧都是精确的，绝不掉帧。这里有个容易忽略的细节：设定时间后，工具会等两帧 requestAnimationFrame 再截图。因为修改时间只是改了 React 状态，浏览器还需要一到两帧才能把新画面真正画到屏幕上。等少了，截到的可能是上一帧的残影。为了让画面更锐利，截图时用 2 倍设备像素比渲染，实际按 3840×2160 出图，最后由 ffmpeg 缩回 1080p。原理和高分辨率印刷一样：先在更大的画布上精细绘制，再高质量缩小，文字边缘和细线会明显更清晰。 baoyu-design 在 GitHub 开源（MIT 协议），目前 1.2K star。感兴趣的可以去看看它的 skills/baoyu-design 目录，动画引擎的完整实现都在里面。

175,676 views • 1 month ago

baoyu-design skill 更新：支持 PPT 动画了现在有很多朋友用这个 Skill 做 PPT 了，我自己也用，真的挺好用的。有朋友问能不能支持 PPT 动画，但当前这个skill生成的是 HTML 格式的 PPT，然后借助 PptxGenJS 导出为 PPTX，这个库有个局限就是不支持 PPT 的动画。之前借助 Opus 4.8 确实没搞定，但现在有 Fable 5 了，这时候就体现出 Fable 5 的价值了，它对于 PPTX 的 XML 格式了如指掌，迭代了几轮就搞定了。视频前半部分是 HTML 页面的动画效果，后半部分是在 KeyNote 中预览播放的效果。动画细节上还是有点小出入，但常用的几个动画应该没什么问题。推荐去试试看： baoyu-design Skill：

baoyu-design skill 更新：支持 PPT 动画了现在有很多朋友用这个 Skill 做 PPT 了，我自己也用，真的挺好用的。有朋友问能不能支持 PPT 动画，但当前这个skill生成的是 HTML 格式的 PPT，然后借助 PptxGenJS 导出为 PPTX，这个库有个局限就是不支持 PPT 的动画。之前借助 Opus 4.8 确实没搞定，但现在有 Fable 5 了，这时候就体现出 Fable 5 的价值了，它对于 PPTX 的 XML 格式了如指掌，迭代了几轮就搞定了。视频前半部分是 HTML 页面的动画效果，后半部分是在 KeyNote 中预览播放的效果。动画细节上还是有点小出入，但常用的几个动画应该没什么问题。推荐去试试看： baoyu-design Skill：

77,057 views • 15 days ago

上周末好几场美国大学毕业典礼上，只要演讲嘉宾一夸 AI，台下就开始嘘。被嘘得最惨的是前 Google CEO Eric Schmidt。他在亚利桑那大学的演讲里把 AI 比作一张火箭船的船票，说毕业生可以“组建一支 AI agent 团队”去完成一个人做不到的事，结果嘘声越来越大，一度逼得他停下来。他改口安抚："我知道你们在担心什么，这种恐惧是合理的。"但核心意思没变，AI 会塑造世界，你们要去引导它。台下不买账。被轰的不止他一个。中佛罗里达大学，一位地产公司高管把 AI 称为“下一次工业革命”，当场被嘘；中田纳西州立大学，唱片公司 Big Machine Records 的 CEO Scott Borchetta 说 AI 正在改写整个行业，面对嘘声直接甩了句“接受现实吧，这就是个工具”。学生的反感完全能理解，毕竟现在就业形势不算好，而站在台上劝他们拥抱 AI、说机会无限的，恰恰是推动这场变革、也在用 AI 砍岗位的那批人。Gallup 上月的调查显示，美国人对 AI 的兴奋和期待正在降温，愤怒在上升。视频来源：

上周末好几场美国大学毕业典礼上，只要演讲嘉宾一夸 AI，台下就开始嘘。被嘘得最惨的是前 Google CEO Eric Schmidt。他在亚利桑那大学的演讲里把 AI 比作一张火箭船的船票，说毕业生可以“组建一支 AI agent 团队”去完成一个人做不到的事，结果嘘声越来越大，一度逼得他停下来。他改口安抚："我知道你们在担心什么，这种恐惧是合理的。"但核心意思没变，AI 会塑造世界，你们要去引导它。台下不买账。被轰的不止他一个。中佛罗里达大学，一位地产公司高管把 AI 称为“下一次工业革命”，当场被嘘；中田纳西州立大学，唱片公司 Big Machine Records 的 CEO Scott Borchetta 说 AI 正在改写整个行业，面对嘘声直接甩了句“接受现实吧，这就是个工具”。学生的反感完全能理解，毕竟现在就业形势不算好，而站在台上劝他们拥抱 AI、说机会无限的，恰恰是推动这场变革、也在用 AI 砍岗位的那批人。Gallup 上月的调查显示，美国人对 AI 的兴奋和期待正在降温，愤怒在上升。视频来源：

225,720 views • 1 month ago

Boris Cherny（Anthropic 工程负责人）在最近的红杉 AI Ascent 大会上说，他现在大部分工作从手机完成。Claude App 里常驻 5 到 10 个 session、几百个 Agent，夜里有几千个在跑深度任务。他管这种做法叫 Loop，让 Claude 用 cron 起一个定时任务，可以每分钟、每五分钟、或者每天跑一次。我本来还不太习惯用手机操作 Agent。这几天受邀测试最新版的 TRAE SOLO Mobile，刻意多在手机上试用，越用越能理解 Boris 说的那种变化。 This content is only supported in a Feishu Docs 这次 TRAE SOLO 首次实现了移动端、Web 端、桌面端（含 Windows 版）的全量开放，并真正做到三端同步联动，让 Agent 使用的场景大幅扩展。我在手机端体验了几天，结合官方新推出的功能，一些感受：【1】Agent 已经不是程序员专属打开 TRAE SOLO，首页让我先选模式：Code 还是 MTC（More Than Coding，意思是“不只是写代码”）。Code 模式好理解，写代码、跑 Git、看 Diff，而 MTC 模式则全面覆盖了写文档、数据分析、报表生成等日常办公场景。从 Claude Cowork 发布开始就已经有了这个趋势，上周 Codex 的升级也是宣称：“用 Codex 做几乎一切工作（use Codex for (almost) everything）”。 TRAE SOLO 最新的升级同样顺应了这个趋势，从一个编程 Agent 泛化到了通用 Agent。最新版本特别强化了飞书 CLI 接入功能。现在只要简单授权，就能在 TRAE SOLO 里直接操作飞书文档：例如，输入一句指令，“帮我整理一份本月 AI 编程工具市场动态”，Agent 会自动去网上检索，最后直接生成飞书文档或者动态网页，完全不需要人工再去排版或复制粘贴。与过去“AI 给文字、用户再粘到飞书”的繁琐流程相比，这种一步到位的体验已经完全不是一回事了。【2】三端连起来是什么体验这次 TRAE SOLO 的一个大动作是三端（手机、Web、桌面端）全量开放，不再需要邀请码，所有用户都能用。单独看 Mobile 端，它主要解决随时下发任务和确认任务的问题。但只有当 Mobile、Web 和 Desktop（包括最新上线的 Windows 版）真正打通之后，你才能真正做到随时随地让 Agent 持续执行任务。过去云端执行环境总有局限，不能访问本地工具。而 TRAE SOLO Mobile 解决了这个痛点——只要完成简单的设备配对，你的手机就可以直接控制云端环境与本地多台设备。任务信息在所有设备之间实时同步，手机端下发的任务可以立即在 Web 和 Desktop 端查看执行进度，反过来也一样，真正实现跨设备的无缝接力。比如上周末我在外面看孩子踢比赛，间歇刷手机，看到一篇不错的英文技术文章，顺手在 TRAE SOLO Mobile 上给 Agent 发了条指令：“把这篇文章翻译成中文，写一份推荐稿”，家里的 TRAE SOLO Desktop 就会启动我一套配置好工作流开始工作。等比赛结束回到家，打开电脑，稿子已经在那了。这种感觉有点像你出门前跟一个助手说了句话，回来活儿已经干完了。【3】手机是用来指挥 Agent 的意图路由器，不是用来操作电脑的这个区分挺关键。我之前不太爱用手机端办公，潜意识觉得是在用手机操作电脑。但是转换一下：“人操作 Agent，Agent 操作电脑”，那么用手机就很自然了。你不需要在小屏幕上精确点击什么按钮，你只需要说清楚你要什么。用手机还有个障碍是输入速度，打字慢。TRAE SOLO 手机端有语音交互讨论功能，可以跟 AI 语音对话讨论一个问题，讨论结束后自动生成会议纪要，然后直接从手机把工作任务派发出去，电脑端同步接上后续操作。一部手机可以连接管理云端环境加多台 PC，在环境选择面板里挑一下设备和工作目录，剩下的全部交给 Agent。这个功能在外面的时候特别好用。走路的时候、坐地铁的时候，想到一个点子，按住说话就行了，比打字快很多。过去这些碎片时间里冒出来的想法，要么记在备忘录里回头再处理，要么干脆就忘了。现在一句话就能让 Agent 开始干活。【4】不着急的事，让定时任务自己跑回到 Boris Cherny 跑几百个 Agent 的场景。做法很简单，让 Claude 用 CRON 给自己设一个重复执行的任务，一分钟跑一次、五分钟跑一次、每天跑一次，都行。 Boris 开着几十个定时任务，举三个例子。一个 Loop 在照看他的 PR：CI 挂了就去修，需要 rebase 就自动 rebase。一个 Loop 在维护整个项目的 CI 健康，发现 flaky test（不稳定的测试）就去定位修复。还有一个 Loop 每 30 分钟从 Twitter 上抓他的反馈，自动聚类成几个主题汇报给他。我自己也在用类似的方式。我有一个定时任务监控我 GitHub 上开源项目的 Issues，有人提了 Issue 就自动总结并给出处理意见，我看一眼觉得没问题，再指示 Agent 去操作。还有一个定时任务盯着我 X 的收藏夹，我平时刷到好文章随手收藏，它帮我自动抓取到本地，英文的还会翻译成中文，到时候集中看就行。很多需求其实没那么紧急，但需要持续做。每天看一眼竞品动态、每周整理一次行业新闻、每月生成一次数据报表，这些活适合扔给定时任务。现在 TRAE 的桌面端和网页端都已支持定时任务，无论是在云端还是本地环境，都能稳定地自动执行。比如你告诉 Agent：“每天早上 10 点发一份最新的 AI 新闻动态整理”，第二天早上工作台就会自动收到文档。你只需要专注于真正有创造性的判断，把那些重复且不着急的任务统统交给 Agent。总结与体会整体来说，这次对 TRAE SOLO Mobile 试用的感受就是： - Agent 使用门槛大大降低，不再只是程序员专属，很多日常办公、写作场景已经可以由 Agent 来做了。 - 三端真正打通后，无论何时何地，都能轻松管理并延续任务。 - 手机不再是远程桌面，而是随时随地的“意图路由器”。 - 通过 Loop 定时机制，真正把重复且耗时的任务自动化，让用户只做关键决策。 Boris 说他夜里有几千个 Agent 在跑，很多人大概觉得这是大厂工程师的特权。但我这几天的体感是，这件事的门槛已经比想象中低很多了。一部手机、一台电脑、一个 Agent 工具，你就可以开始把重复的事交出去。未来办公的趋势，或许就是这种“人随时随地指挥 Agent、Agent 做具体工作、人只负责验收成果”的模式吧。推荐可以去用下 TRAE SOLO Mobile，体验随时随地指挥 Agent 干活的感受。想试用的 Mac 可以去官网下载了——国内：

Boris Cherny（Anthropic 工程负责人）在最近的红杉 AI Ascent 大会上说，他现在大部分工作从手机完成。Claude App 里常驻 5 到 10 个 session、几百个 Agent，夜里有几千个在跑深度任务。他管这种做法叫 Loop，让 Claude 用 cron 起一个定时任务，可以每分钟、每五分钟、或者每天跑一次。我本来还不太习惯用手机操作 Agent。这几天受邀测试最新版的 TRAE SOLO Mobile，刻意多在手机上试用，越用越能理解 Boris 说的那种变化。 This content is only supported in a Feishu Docs 这次 TRAE SOLO 首次实现了移动端、Web 端、桌面端（含 Windows 版）的全量开放，并真正做到三端同步联动，让 Agent 使用的场景大幅扩展。我在手机端体验了几天，结合官方新推出的功能，一些感受：【1】Agent 已经不是程序员专属打开 TRAE SOLO，首页让我先选模式：Code 还是 MTC（More Than Coding，意思是“不只是写代码”）。Code 模式好理解，写代码、跑 Git、看 Diff，而 MTC 模式则全面覆盖了写文档、数据分析、报表生成等日常办公场景。从 Claude Cowork 发布开始就已经有了这个趋势，上周 Codex 的升级也是宣称：“用 Codex 做几乎一切工作（use Codex for (almost) everything）”。 TRAE SOLO 最新的升级同样顺应了这个趋势，从一个编程 Agent 泛化到了通用 Agent。最新版本特别强化了飞书 CLI 接入功能。现在只要简单授权，就能在 TRAE SOLO 里直接操作飞书文档：例如，输入一句指令，“帮我整理一份本月 AI 编程工具市场动态”，Agent 会自动去网上检索，最后直接生成飞书文档或者动态网页，完全不需要人工再去排版或复制粘贴。与过去“AI 给文字、用户再粘到飞书”的繁琐流程相比，这种一步到位的体验已经完全不是一回事了。【2】三端连起来是什么体验这次 TRAE SOLO 的一个大动作是三端（手机、Web、桌面端）全量开放，不再需要邀请码，所有用户都能用。单独看 Mobile 端，它主要解决随时下发任务和确认任务的问题。但只有当 Mobile、Web 和 Desktop（包括最新上线的 Windows 版）真正打通之后，你才能真正做到随时随地让 Agent 持续执行任务。过去云端执行环境总有局限，不能访问本地工具。而 TRAE SOLO Mobile 解决了这个痛点——只要完成简单的设备配对，你的手机就可以直接控制云端环境与本地多台设备。任务信息在所有设备之间实时同步，手机端下发的任务可以立即在 Web 和 Desktop 端查看执行进度，反过来也一样，真正实现跨设备的无缝接力。比如上周末我在外面看孩子踢比赛，间歇刷手机，看到一篇不错的英文技术文章，顺手在 TRAE SOLO Mobile 上给 Agent 发了条指令：“把这篇文章翻译成中文，写一份推荐稿”，家里的 TRAE SOLO Desktop 就会启动我一套配置好工作流开始工作。等比赛结束回到家，打开电脑，稿子已经在那了。这种感觉有点像你出门前跟一个助手说了句话，回来活儿已经干完了。【3】手机是用来指挥 Agent 的意图路由器，不是用来操作电脑的这个区分挺关键。我之前不太爱用手机端办公，潜意识觉得是在用手机操作电脑。但是转换一下：“人操作 Agent，Agent 操作电脑”，那么用手机就很自然了。你不需要在小屏幕上精确点击什么按钮，你只需要说清楚你要什么。用手机还有个障碍是输入速度，打字慢。TRAE SOLO 手机端有语音交互讨论功能，可以跟 AI 语音对话讨论一个问题，讨论结束后自动生成会议纪要，然后直接从手机把工作任务派发出去，电脑端同步接上后续操作。一部手机可以连接管理云端环境加多台 PC，在环境选择面板里挑一下设备和工作目录，剩下的全部交给 Agent。这个功能在外面的时候特别好用。走路的时候、坐地铁的时候，想到一个点子，按住说话就行了，比打字快很多。过去这些碎片时间里冒出来的想法，要么记在备忘录里回头再处理，要么干脆就忘了。现在一句话就能让 Agent 开始干活。【4】不着急的事，让定时任务自己跑回到 Boris Cherny 跑几百个 Agent 的场景。做法很简单，让 Claude 用 CRON 给自己设一个重复执行的任务，一分钟跑一次、五分钟跑一次、每天跑一次，都行。 Boris 开着几十个定时任务，举三个例子。一个 Loop 在照看他的 PR：CI 挂了就去修，需要 rebase 就自动 rebase。一个 Loop 在维护整个项目的 CI 健康，发现 flaky test（不稳定的测试）就去定位修复。还有一个 Loop 每 30 分钟从 Twitter 上抓他的反馈，自动聚类成几个主题汇报给他。我自己也在用类似的方式。我有一个定时任务监控我 GitHub 上开源项目的 Issues，有人提了 Issue 就自动总结并给出处理意见，我看一眼觉得没问题，再指示 Agent 去操作。还有一个定时任务盯着我 X 的收藏夹，我平时刷到好文章随手收藏，它帮我自动抓取到本地，英文的还会翻译成中文，到时候集中看就行。很多需求其实没那么紧急，但需要持续做。每天看一眼竞品动态、每周整理一次行业新闻、每月生成一次数据报表，这些活适合扔给定时任务。现在 TRAE 的桌面端和网页端都已支持定时任务，无论是在云端还是本地环境，都能稳定地自动执行。比如你告诉 Agent：“每天早上 10 点发一份最新的 AI 新闻动态整理”，第二天早上工作台就会自动收到文档。你只需要专注于真正有创造性的判断，把那些重复且不着急的任务统统交给 Agent。总结与体会整体来说，这次对 TRAE SOLO Mobile 试用的感受就是： - Agent 使用门槛大大降低，不再只是程序员专属，很多日常办公、写作场景已经可以由 Agent 来做了。 - 三端真正打通后，无论何时何地，都能轻松管理并延续任务。 - 手机不再是远程桌面，而是随时随地的“意图路由器”。 - 通过 Loop 定时机制，真正把重复且耗时的任务自动化，让用户只做关键决策。 Boris 说他夜里有几千个 Agent 在跑，很多人大概觉得这是大厂工程师的特权。但我这几天的体感是，这件事的门槛已经比想象中低很多了。一部手机、一台电脑、一个 Agent 工具，你就可以开始把重复的事交出去。未来办公的趋势，或许就是这种“人随时随地指挥 Agent、Agent 做具体工作、人只负责验收成果”的模式吧。推荐可以去用下 TRAE SOLO Mobile，体验随时随地指挥 Agent 干活的感受。想试用的 Mac 可以去官网下载了——国内：

216,367 views • 2 months ago

Anthropic 今天正式上线了一个叫做「Claude for Legal」的仓库，一口气放出了 12 个针对具体法律岗位的插件，以及超过 20 个连接行业常用软件的 MCP 连接器。无论你是公司法务、打并购战的律所、专注隐私和 AI 治理的法律顾问，还是每天苦熬到半夜的诉讼律师，甚至是法学院里摸爬滚打的学生，这个仓库都给你准备好了对应的 AI 工具，直接在 GitHub 上开源了：这些插件用之前不是即插即用，你得花 10 到 20 分钟，带着 Claude 做个简单的“冷启动访谈”，把你团队的 playbook、模板和风格习惯都塞进一个叫 CLAUDE.md 的本地文件。这样，以后每个插件干活儿的时候，都自动按照你自家的风格和标准来。 Anthropic 这么搞，是为了彻底解决 AI 法律工具最常见的槽点：输出内容太通用，看起来不像哪家律所自己的东西。 Anthropic 还是挺懂律所的痛点的。比如 Vendor Agreement Reviewer 插件，它能自动对照你家合同模板改供应商协议，还贴心地输出一份 redline 备忘录；又比如 NDA Triager，帮你自动把涌进来的 NDA 文件按绿黄红分级，绿灯放行、红灯直接推律师处理； Claim Chart Builder 插件可以一键生成专利侵权对比表； Privilege Log Reviewer 自动帮你跑第一轮特权日志审查；而 Docket Watcher 插件则不知疲倦地盯着法院动静，帮你把最新动态实时扫进来。简单讲，就是把律所里最烦、最机械、最浪费人力的活，变成了一个个简单的 slash command。如果说插件解决的是律所内部效率问题，那么对行业系统的深度接入才真正体现 Anthropic 的野心。现在，Thomson Reuters 的 CoCounsel、Harvey，还有 iManage、NetDocuments、Ironclad、DocuSign、Everlaw、Relativity、Box、Datasite 等几乎所有你能叫得上名字的平台，全都接入了官方 MCP 连接器。日常办公的 Word、Excel、Outlook、PPT 也全线打通。合同改完后，Claude 甚至会直接输出成 Word 修订模式，律师一条条接受或拒绝就行。 Anthropic 不只是把目光停留在高端律所。他们还特意做了些更「接地气」的事儿，联合 Free Law Project 和 Justice Technology Association，给法律援助机构、公设辩护人、非营利法律组织推出特别折扣，连给普通当事人设计的 Courtroom5 工具也接进来了。这点挺让人感触的，因为美国大约八成民事诉讼里的原被告，根本请不起律师。 Claude for Legal 背后的大脑是刚升级的 Claude Opus 4.7 模型。Anthropic 很谨慎地强调：所有插件输出都是“仅供律师审阅的草稿”，绝对不能替代律师的专业判断。 README 文件里反复提醒：引用必须追踪来源，涉及特权和主观法律判断时，要默认保守处理。毕竟法律这件事，AI 还是不能完全代替专业律师。官方博客：

Anthropic 今天正式上线了一个叫做「Claude for Legal」的仓库，一口气放出了 12 个针对具体法律岗位的插件，以及超过 20 个连接行业常用软件的 MCP 连接器。无论你是公司法务、打并购战的律所、专注隐私和 AI 治理的法律顾问，还是每天苦熬到半夜的诉讼律师，甚至是法学院里摸爬滚打的学生，这个仓库都给你准备好了对应的 AI 工具，直接在 GitHub 上开源了：这些插件用之前不是即插即用，你得花 10 到 20 分钟，带着 Claude 做个简单的“冷启动访谈”，把你团队的 playbook、模板和风格习惯都塞进一个叫 CLAUDE.md 的本地文件。这样，以后每个插件干活儿的时候，都自动按照你自家的风格和标准来。 Anthropic 这么搞，是为了彻底解决 AI 法律工具最常见的槽点：输出内容太通用，看起来不像哪家律所自己的东西。 Anthropic 还是挺懂律所的痛点的。比如 Vendor Agreement Reviewer 插件，它能自动对照你家合同模板改供应商协议，还贴心地输出一份 redline 备忘录；又比如 NDA Triager，帮你自动把涌进来的 NDA 文件按绿黄红分级，绿灯放行、红灯直接推律师处理； Claim Chart Builder 插件可以一键生成专利侵权对比表； Privilege Log Reviewer 自动帮你跑第一轮特权日志审查；而 Docket Watcher 插件则不知疲倦地盯着法院动静，帮你把最新动态实时扫进来。简单讲，就是把律所里最烦、最机械、最浪费人力的活，变成了一个个简单的 slash command。如果说插件解决的是律所内部效率问题，那么对行业系统的深度接入才真正体现 Anthropic 的野心。现在，Thomson Reuters 的 CoCounsel、Harvey，还有 iManage、NetDocuments、Ironclad、DocuSign、Everlaw、Relativity、Box、Datasite 等几乎所有你能叫得上名字的平台，全都接入了官方 MCP 连接器。日常办公的 Word、Excel、Outlook、PPT 也全线打通。合同改完后，Claude 甚至会直接输出成 Word 修订模式，律师一条条接受或拒绝就行。 Anthropic 不只是把目光停留在高端律所。他们还特意做了些更「接地气」的事儿，联合 Free Law Project 和 Justice Technology Association，给法律援助机构、公设辩护人、非营利法律组织推出特别折扣，连给普通当事人设计的 Courtroom5 工具也接进来了。这点挺让人感触的，因为美国大约八成民事诉讼里的原被告，根本请不起律师。 Claude for Legal 背后的大脑是刚升级的 Claude Opus 4.7 模型。Anthropic 很谨慎地强调：所有插件输出都是“仅供律师审阅的草稿”，绝对不能替代律师的专业判断。 README 文件里反复提醒：引用必须追踪来源，涉及特权和主观法律判断时，要默认保守处理。毕竟法律这件事，AI 还是不能完全代替专业律师。官方博客：

149,338 views • 2 months ago

AI 制作的《楚门的世界》续集作者：Yubinnnn （视频号） seedance 2.0

AI 制作的《楚门的世界》续集作者：Yubinnnn （视频号） seedance 2.0

223,572 views • 5 months ago

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

1,122,578 views • 2 years ago

Agent Skills 设计哲学和实战进化前半段是真实场景演示，看我日常怎么用 Agent + Skills 完成实际工作；后半段是设计哲学和迭代方法论，把踩过的坑和悟出来的经验都讲透。四个核心观点： 1）从提示词到 Skills：起步没有门槛。把你已有的好用提示词、好的实践、甚至模糊的想法，直接用 /skill-creator 变成 Skill。关键是动手。 2）别做万能 Skill：Skill 要原子化，每个只做一件事。然后用 Skill 或者 AGENTS.md 编排成工作流，让 Agent 灵活执行。我的素材收集和写作流程就是这么串起来的。 3）Skills 像随身小刀，越用越顺手：自己常用、遇到问题当场改、给 Agent 高质量对比样例让它自己优化、用 git 做版本管理留后悔药。 4）站在 Agent 角度设计：多存中间文件、先分析再执行、写清验证标准、用子 Agent 并行、脚本优先于 MCP。这些小细节决定 Skill 能不能真正跑通。 baoyu-skills 已全部开源：

Agent Skills 设计哲学和实战进化前半段是真实场景演示，看我日常怎么用 Agent + Skills 完成实际工作；后半段是设计哲学和迭代方法论，把踩过的坑和悟出来的经验都讲透。四个核心观点： 1）从提示词到 Skills：起步没有门槛。把你已有的好用提示词、好的实践、甚至模糊的想法，直接用 /skill-creator 变成 Skill。关键是动手。 2）别做万能 Skill：Skill 要原子化，每个只做一件事。然后用 Skill 或者 AGENTS.md 编排成工作流，让 Agent 灵活执行。我的素材收集和写作流程就是这么串起来的。 3）Skills 像随身小刀，越用越顺手：自己常用、遇到问题当场改、给 Agent 高质量对比样例让它自己优化、用 git 做版本管理留后悔药。 4）站在 Agent 角度设计：多存中间文件、先分析再执行、写清验证标准、用子 Agent 并行、脚本优先于 MCP。这些小细节决定 Skill 能不能真正跑通。 baoyu-skills 已全部开源：

152,124 views • 3 months ago

张朝阳谈如何对抗焦虑症，很像写 Prompt：多告诉 AI 该干什么，少说不要干什么，说多了反而可能强化了 AI 负面行为以下内容是 AI 帮总结的内容 ---- 别再试图“战胜”焦虑了：重塑心智的真正法则我们与深渊的距离，或许比想象中更近。在一个看似寻常的夜晚，围坐篝火旁的张朝阳说：“每个人离抑郁症和焦虑症，只有一步之遥。” 这句话如同一颗投入平静湖面的石子，瞬间激起我们内心深处的涟漪。现代生活的快节奏、无休止的竞争与不确定性，让焦虑如影随形，仿佛成了我们这个时代的集体背景音。我们拼命寻找出口，阅读无数文章，尝试各种方法，试图“战胜”或“消除”这种令人不适的情绪，却往往发现自己陷入了更深的泥潭。这究竟是为什么？难道我们对抗焦虑的方式从一开始就错了吗？如果说，摆脱焦虑的关键并非与之搏斗，而在于一种截然不同的心智模式与行动哲学，我们是否愿意放下手中早已无效的武器，重新学习一种与内心风暴共处，乃至将其转化为生命动力的智慧？这不仅是一场关于情绪管理的探讨，更是一次深入大脑运作原理、重塑自我认知的心智之旅。为何越想摆脱，越被牢牢抓住？——焦虑的“强化”陷阱要理解这一切，我们首先需要洞察一个深刻的心理学悖论：放大焦虑的最好方法，就是去解决焦虑。这个观点听起来或许有悖常理，但它却精准地揭示了我们为何常常在与负面情绪的斗争中败下阵来。我们的本能反应是，当一个问题（比如焦虑）出现时，就必须立刻找到方法去消除它。然而，正是这种“解决”的意图，为焦虑本身提供了源源不断的养料。想象一下，你因为担心明天的一次重要会议而焦虑不安。为了缓解这种情绪，你可能会开始反复检查演讲稿，上网搜索所有可能的突发状况，甚至试图通过幻想会议的完美情景来“说服”自己不要紧张。这些行为的初衷都是为了“解决”焦虑，但其潜台词却是：“焦虑是一个巨大的、必须被清除的威胁。” 你越是投入精力去对抗它，就越是在向你的大脑确认——这个威胁是真实且致命的。于是，你的大脑进入高度戒备状态，分泌更多压力荷尔蒙，让你变得更加焦虑。你所有的“努力”，都事与愿违地变成了一个自我强化的负面循环。这种现象在心理学上被称为“经验性回避”（Experiential Avoidance）。我们试图回避、压抑或消除不想要的内在体验（思想、情绪、记忆），但这种回避行为本身，却极大地限制了我们的生活，并最终让那些我们试图摆脱的东西变得更加强大。就如同陷入流沙，越是挣扎，下陷得越快。无论是通过拖延来回避对失败的恐惧，还是通过强迫性检查来消除不安全感，这些看似“合乎逻辑”的应对方式，都在无形中将我们与焦虑捆绑得更紧。大脑的可塑性：你不是情绪的囚徒，而是心智的工程师要打破这个恶性循环，我们必须首先建立一个颠覆性的信念：我们并非自身情绪的囚徒，而是自我心智的工程师。这个信念的科学基础，便是大脑的神经可塑性（Neuroplasticity）。长久以来，我们习惯于将自己的性格、情绪模式归咎于原生家庭、成长经历或是某种天生的特质，仿佛它们是刻在石头上无法更改的宿命。然而，现代神经科学告诉我们，大脑更像是一块可以被反复雕琢的黏土。我们的每一次思考、每一个行为，都在物理层面上塑造着大脑的神经回路。当两条神经元被同时激活时，它们之间的连接就会被加强。这个过程可以用一句简单的话来概括：“神经元同步放电，连接就会增强”（Neurons that fire together, wire together）。这意味着，你反复进行的思维和行为模式，会像在森林中反复踩踏走出一条小路一样，在大脑中刻下深刻的、自动化的通路。焦虑的循环之所以难以打破，正是因为它已经形成了一条被反复强化的“高速公路”。但这个原理同样也为我们指明了出路。既然旧的通路可以被强化，那么新的、更健康的通路同样可以被建立。这赋予了我们一种惊人的力量——通过有意识地选择和实践新的行为模式，我们可以主动地、物理性地重塑自己的大脑结构。我们不必再抱怨过去的经历如何塑造了今天的自己，因为从此刻起，我们所做的每一个选择，都在决定着未来大脑的形态。这不再是哲学层面的鼓舞，而是神经科学层面的事实。你，拥有重新布线自己大脑的权力。 “价值锚定”行动法：在情绪风暴中，找到你的指南针认识到大脑的可塑性只是第一步，真正的关键在于如何“施工”。这就引出了应对焦虑的核心策略——我称之为“价值锚定”行动法。其精髓在于，将你的行动准则从“感觉”切换到“价值”。换言之，做你认为重要的事，而不是做感觉舒服的事。当焦虑来临时，我们本能地想去做那些能让我们“感觉好一点”的事，也就是前文提到的“经验性回避”。而“价值锚定”法则要求我们反其道而行之。首先，你需要清晰地定义什么对你而言是真正重要的——你的核心价值是什么？你想成为一个怎样的人？是成为一个有责任感的父母，一个勤奋上进的职员，还是一个健康自律的人？这些价值，就是你在情绪风暴中赖以导航的“指南针”。接下来，无论你的内心感受如何翻江倒海，你的行动都只听从这个指南针的指引。你感到社交恐惧，但你的价值是“建立真诚的人际关系”，那么你就去参加那个聚会，哪怕只是待上十分钟。你感到拖延和自我怀疑，但你的价值是“完成对手头工作的承诺”，那么你就打开电脑，写下第一行字。你因为担心健康而焦虑，但你的价值是“过一种积极平衡的生活”，那么你就放下手机，出门散步，而不是无休止地搜索症状。这个过程的核心在于“接纳”与“行动”的并行。你不必等到焦虑消失了再去行动。恰恰相反，你带着焦虑去行动。你允许焦虑作为一种背景噪音存在，就像允许窗外的雨声存在一样，不去理会它，也不去驱赶它，只是将你的全部注意力聚焦在手头那件符合你价值的事情上。每一次这样的行动，都是在为大脑中那条代表着“健康”、“积极”与“勇敢”的新神经通路添砖加瓦。久而久之，这条新路会变得越来越宽阔，而那条通往焦虑的旧路，则因为无人问津而渐渐荒芜。生命的修行：从“感受”到“行动”的伟大转向归根结底，摆脱焦虑困扰的旅程，是一场从“被感受驱动”到“以行动引领”的伟大转向。我们总以为，必须先拥有良好的感觉，才能去过理想的生活。但真相恰恰相反，是先去过理想的生活（即践行你的价值），良好的感觉才会随之而来。我们的想法和情绪，如同天空中飘过的云朵，变幻莫测，我们无法控制它们何时出现，也无法决定它们是什么形状。试图与每一片“乌云”搏斗，只会让我们精疲力竭。而“价值锚定”的智慧在于，承认云的存在，但让我们的双脚始终稳稳地踩在自己选择的道路上。语言，在这个过程中扮演着至关重要的角色。它不仅仅是交流的工具，更是塑造思维的模具。每天主动地朗读、交谈，甚至自言自语，都是在用积极的、有结构的声音来占据你的心智带宽，让那些随机产生的负面念头无处扎根。这是一种主动的“心智园艺”，用你想种植的花草去填满土地，野草自然就失去了生长的空间。所以，请停止与焦虑的战争吧。那是一场注定无法获胜的战斗。真正的自由，在于培养一种能力：无论内心有多少噪音，你都能清晰地听到自己价值观的声音，并让那个声音，而不是恐惧的声音，来决定你下一步的方向。这并非一日之功，而是一生的修行。但每一步，都算数。

张朝阳谈如何对抗焦虑症，很像写 Prompt：多告诉 AI 该干什么，少说不要干什么，说多了反而可能强化了 AI 负面行为以下内容是 AI 帮总结的内容 ---- 别再试图“战胜”焦虑了：重塑心智的真正法则我们与深渊的距离，或许比想象中更近。在一个看似寻常的夜晚，围坐篝火旁的张朝阳说：“每个人离抑郁症和焦虑症，只有一步之遥。” 这句话如同一颗投入平静湖面的石子，瞬间激起我们内心深处的涟漪。现代生活的快节奏、无休止的竞争与不确定性，让焦虑如影随形，仿佛成了我们这个时代的集体背景音。我们拼命寻找出口，阅读无数文章，尝试各种方法，试图“战胜”或“消除”这种令人不适的情绪，却往往发现自己陷入了更深的泥潭。这究竟是为什么？难道我们对抗焦虑的方式从一开始就错了吗？如果说，摆脱焦虑的关键并非与之搏斗，而在于一种截然不同的心智模式与行动哲学，我们是否愿意放下手中早已无效的武器，重新学习一种与内心风暴共处，乃至将其转化为生命动力的智慧？这不仅是一场关于情绪管理的探讨，更是一次深入大脑运作原理、重塑自我认知的心智之旅。为何越想摆脱，越被牢牢抓住？——焦虑的“强化”陷阱要理解这一切，我们首先需要洞察一个深刻的心理学悖论：放大焦虑的最好方法，就是去解决焦虑。这个观点听起来或许有悖常理，但它却精准地揭示了我们为何常常在与负面情绪的斗争中败下阵来。我们的本能反应是，当一个问题（比如焦虑）出现时，就必须立刻找到方法去消除它。然而，正是这种“解决”的意图，为焦虑本身提供了源源不断的养料。想象一下，你因为担心明天的一次重要会议而焦虑不安。为了缓解这种情绪，你可能会开始反复检查演讲稿，上网搜索所有可能的突发状况，甚至试图通过幻想会议的完美情景来“说服”自己不要紧张。这些行为的初衷都是为了“解决”焦虑，但其潜台词却是：“焦虑是一个巨大的、必须被清除的威胁。” 你越是投入精力去对抗它，就越是在向你的大脑确认——这个威胁是真实且致命的。于是，你的大脑进入高度戒备状态，分泌更多压力荷尔蒙，让你变得更加焦虑。你所有的“努力”，都事与愿违地变成了一个自我强化的负面循环。这种现象在心理学上被称为“经验性回避”（Experiential Avoidance）。我们试图回避、压抑或消除不想要的内在体验（思想、情绪、记忆），但这种回避行为本身，却极大地限制了我们的生活，并最终让那些我们试图摆脱的东西变得更加强大。就如同陷入流沙，越是挣扎，下陷得越快。无论是通过拖延来回避对失败的恐惧，还是通过强迫性检查来消除不安全感，这些看似“合乎逻辑”的应对方式，都在无形中将我们与焦虑捆绑得更紧。大脑的可塑性：你不是情绪的囚徒，而是心智的工程师要打破这个恶性循环，我们必须首先建立一个颠覆性的信念：我们并非自身情绪的囚徒，而是自我心智的工程师。这个信念的科学基础，便是大脑的神经可塑性（Neuroplasticity）。长久以来，我们习惯于将自己的性格、情绪模式归咎于原生家庭、成长经历或是某种天生的特质，仿佛它们是刻在石头上无法更改的宿命。然而，现代神经科学告诉我们，大脑更像是一块可以被反复雕琢的黏土。我们的每一次思考、每一个行为，都在物理层面上塑造着大脑的神经回路。当两条神经元被同时激活时，它们之间的连接就会被加强。这个过程可以用一句简单的话来概括：“神经元同步放电，连接就会增强”（Neurons that fire together, wire together）。这意味着，你反复进行的思维和行为模式，会像在森林中反复踩踏走出一条小路一样，在大脑中刻下深刻的、自动化的通路。焦虑的循环之所以难以打破，正是因为它已经形成了一条被反复强化的“高速公路”。但这个原理同样也为我们指明了出路。既然旧的通路可以被强化，那么新的、更健康的通路同样可以被建立。这赋予了我们一种惊人的力量——通过有意识地选择和实践新的行为模式，我们可以主动地、物理性地重塑自己的大脑结构。我们不必再抱怨过去的经历如何塑造了今天的自己，因为从此刻起，我们所做的每一个选择，都在决定着未来大脑的形态。这不再是哲学层面的鼓舞，而是神经科学层面的事实。你，拥有重新布线自己大脑的权力。 “价值锚定”行动法：在情绪风暴中，找到你的指南针认识到大脑的可塑性只是第一步，真正的关键在于如何“施工”。这就引出了应对焦虑的核心策略——我称之为“价值锚定”行动法。其精髓在于，将你的行动准则从“感觉”切换到“价值”。换言之，做你认为重要的事，而不是做感觉舒服的事。当焦虑来临时，我们本能地想去做那些能让我们“感觉好一点”的事，也就是前文提到的“经验性回避”。而“价值锚定”法则要求我们反其道而行之。首先，你需要清晰地定义什么对你而言是真正重要的——你的核心价值是什么？你想成为一个怎样的人？是成为一个有责任感的父母，一个勤奋上进的职员，还是一个健康自律的人？这些价值，就是你在情绪风暴中赖以导航的“指南针”。接下来，无论你的内心感受如何翻江倒海，你的行动都只听从这个指南针的指引。你感到社交恐惧，但你的价值是“建立真诚的人际关系”，那么你就去参加那个聚会，哪怕只是待上十分钟。你感到拖延和自我怀疑，但你的价值是“完成对手头工作的承诺”，那么你就打开电脑，写下第一行字。你因为担心健康而焦虑，但你的价值是“过一种积极平衡的生活”，那么你就放下手机，出门散步，而不是无休止地搜索症状。这个过程的核心在于“接纳”与“行动”的并行。你不必等到焦虑消失了再去行动。恰恰相反，你带着焦虑去行动。你允许焦虑作为一种背景噪音存在，就像允许窗外的雨声存在一样，不去理会它，也不去驱赶它，只是将你的全部注意力聚焦在手头那件符合你价值的事情上。每一次这样的行动，都是在为大脑中那条代表着“健康”、“积极”与“勇敢”的新神经通路添砖加瓦。久而久之，这条新路会变得越来越宽阔，而那条通往焦虑的旧路，则因为无人问津而渐渐荒芜。生命的修行：从“感受”到“行动”的伟大转向归根结底，摆脱焦虑困扰的旅程，是一场从“被感受驱动”到“以行动引领”的伟大转向。我们总以为，必须先拥有良好的感觉，才能去过理想的生活。但真相恰恰相反，是先去过理想的生活（即践行你的价值），良好的感觉才会随之而来。我们的想法和情绪，如同天空中飘过的云朵，变幻莫测，我们无法控制它们何时出现，也无法决定它们是什么形状。试图与每一片“乌云”搏斗，只会让我们精疲力竭。而“价值锚定”的智慧在于，承认云的存在，但让我们的双脚始终稳稳地踩在自己选择的道路上。语言，在这个过程中扮演着至关重要的角色。它不仅仅是交流的工具，更是塑造思维的模具。每天主动地朗读、交谈，甚至自言自语，都是在用积极的、有结构的声音来占据你的心智带宽，让那些随机产生的负面念头无处扎根。这是一种主动的“心智园艺”，用你想种植的花草去填满土地，野草自然就失去了生长的空间。所以，请停止与焦虑的战争吧。那是一场注定无法获胜的战斗。真正的自由，在于培养一种能力：无论内心有多少噪音，你都能清晰地听到自己价值观的声音，并让那个声音，而不是恐惧的声音，来决定你下一步的方向。这并非一日之功，而是一生的修行。但每一步，都算数。

331,429 views • 9 months ago

这个可视化看claude code原理、功能的网站不错，尤其是 Agent Loop 动画，很直观

这个可视化看claude code原理、功能的网站不错，尤其是 Agent Loop 动画，很直观

132,164 views • 3 months ago

第一次看到这视频片段：李彦宏谈谷歌为啥失败

第一次看到这视频片段：李彦宏谈谷歌为啥失败

845,385 views • 2 years ago

转：“哪怕每天就看她怎么开会，听她每天讲什么、做什么，我都觉得是一件很幸福的事情”🤪

转：“哪怕每天就看她怎么开会，听她每天讲什么、做什么，我都觉得是一件很幸福的事情”🤪

940,501 views • 2 years ago