Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

微软研发的 AutoGen 框架太强大了，它是一个多代理框架，利用它可以轻松定制一系列工作任务。举一个常见的例子：我们要实现一个爬虫程序，抓取并保存网页图片。如果把这个任务丢给 ChatGPT，它会直接返回一串可执行代码，但是代码通常会存在问题，例如执行报错、缺少依赖等，你需要反复跟 ChatGPT 对话来完善程序。当然，我们也可以设定一个复杂 Prompt，要求它调用 ChatGPT 的代码执行插件，如果存在报错，则继续修正程序。这个任务如果交给 AutoGen 来实现，将会变得无比简单，几行代码就可以搞定： 1）定义一个 Assistant Agent，它的任务是解决问题 2）定义一个 UserProxy Agent，它的任务是替代人询问问题，同时在本地执行程序这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后，它会理解任务，然后询问 Assistant 应该如何做，Assistant 会把操作过程告诉 UserProxy，接着 UserProxy 会根据指示在本地安装依赖，然后创建文件执行代码，如果执行出现错误，它会把详细报错提交给 Assistant，依次循环，直到可以获取到最终的结果。任务结束的时候，你会看到目标图片已经保存到本地磁盘了。利用这个框架可以做的事情非常多，它提供的能力也十分完善，可以在项目的 notebook 中找到很多最佳实践： P.S. 为了确保安全，还是建议你在 Docker 环境中执行程序，UserProxy 有一个 code_execution_config 配置，将 use_docker 配置为 True 即可；另外，它还有一个 human_input_mode 参数，设置为 NEVER，表示整个过程都不需要人参与，也可以设置为其他值，它会等待人的输入后再进行下一步操作，这个设计可以让人参与到任务执行过程，避免跑偏。

Barret李靖

82,412 subscribers

517,707 просмотров • 2 лет назад •via X (Twitter)

Образование Наука и технологии Новости и политика

Anya Rossi• Live Now

Private livecam show

Комментарии: 10

Фото профиля cyberws

cyberws2 лет назад

@readwise save thread

Фото профиля bigbowl

bigbowl2 лет назад

@readwise save

Фото профиля yazuishou5738

yazuishou57382 лет назад

能爬那种需要逆向破解加密数据的网站嘛

Фото профиля yao jason

yao jason2 лет назад

save @Barret_China

Фото профиля Owen Ye

Owen Ye2 лет назад

@SaveToNotion #tweet

Фото профиля ErvinZhang

ErvinZhang2 лет назад

支持azure open ai吗

Фото профиля meat

meat2 лет назад

@SaveToNotion #tweet #thread #autogen

Фото профиля 魔都老猿

魔都老猿2 лет назад

Mark.Thanks for Sharing!

Фото профиля 智言AI

智言AI2 лет назад

@SaveTo

Фото профиля 智言AI

智言AI2 лет назад

@SaveToNotion

Похожие видео

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务，其实没必要，有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具，最特殊的一个工具叫 Task，它本质就是一个 Claude Code 的克隆工具，只不过是作为 Claude Code 的一个工具。如果你懂递归的话就很好理解。如果你不懂递归，可以这么理解：Claude Code 是个 AI 程序员，它可以用一堆工具，其中最神奇的一个工具叫 Task，就是克隆一个自己的分身去干活！这样做有什么好处呢？就是可以并行多任务，还可以控制上下文，让子任务更专注。举例来说，你粘贴一段错误代码让 Claude Code 去 Debug，并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步： - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖这一步完了后它会起一个 Task，这个 Task 就是专门根据错误信息去找到相关代码的位置，那么这个子任务只需要接受错误信息找上下文，它不管怎么解决 Bug，也不管怎么写测试覆盖。主任务就会等这个子任务完成，子任务完成后，主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖然后调用 TodoRead 工具看下一步要干嘛，现在有充足上下文了，它可以再起一个子任务去根据错误信息和代码修复 Bug，等修复 Bug 的子任务完成了，再回到主任务，继续更新 TODO List，继续读取下一个 Item 最后再启动一个子任务去写测试，测试子任务也完成了，返回结果到主任务，这时候调用 TodoRead 一看任务都处理完了，最后根据前面的任务情况给你一个总结摘要，表示任务都完成了。 Claude Code 真的没有做什么工程上的优化，什么上下文压缩、临时存储，都没有的！就是简单粗暴： 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude，问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具，本质上也是一个 AI 请求，最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude，Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task，把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude，问下一步该干嘛 - 在新的 Task 里面，就是不停的问 Claude 该用啥工具，然后发送工具结果和前面所有历史消息 - 任务完成后，返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉，因为它会启动子任务，这样上下文就分摊到子任务中了，主任务中只是保留子任务完成后的内容。

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务，其实没必要，有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具，最特殊的一个工具叫 Task，它本质就是一个 Claude Code 的克隆工具，只不过是作为 Claude Code 的一个工具。如果你懂递归的话就很好理解。如果你不懂递归，可以这么理解：Claude Code 是个 AI 程序员，它可以用一堆工具，其中最神奇的一个工具叫 Task，就是克隆一个自己的分身去干活！这样做有什么好处呢？就是可以并行多任务，还可以控制上下文，让子任务更专注。举例来说，你粘贴一段错误代码让 Claude Code 去 Debug，并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步： - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖这一步完了后它会起一个 Task，这个 Task 就是专门根据错误信息去找到相关代码的位置，那么这个子任务只需要接受错误信息找上下文，它不管怎么解决 Bug，也不管怎么写测试覆盖。主任务就会等这个子任务完成，子任务完成后，主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖然后调用 TodoRead 工具看下一步要干嘛，现在有充足上下文了，它可以再起一个子任务去根据错误信息和代码修复 Bug，等修复 Bug 的子任务完成了，再回到主任务，继续更新 TODO List，继续读取下一个 Item 最后再启动一个子任务去写测试，测试子任务也完成了，返回结果到主任务，这时候调用 TodoRead 一看任务都处理完了，最后根据前面的任务情况给你一个总结摘要，表示任务都完成了。 Claude Code 真的没有做什么工程上的优化，什么上下文压缩、临时存储，都没有的！就是简单粗暴： 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude，问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具，本质上也是一个 AI 请求，最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude，Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task，把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude，问下一步该干嘛 - 在新的 Task 里面，就是不停的问 Claude 该用啥工具，然后发送工具结果和前面所有历史消息 - 任务完成后，返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉，因为它会启动子任务，这样上下文就分摊到子任务中了，主任务中只是保留子任务完成后的内容。

宝玉

76,401 просмотров • 1 год назад

有没有想过：Claude Code 或 Codex 跑完一个任务，它到底「看」了哪些文件、忽略了哪些？ Mindwalk 把这个问题可视化了，它把 Claude Code 和 Codex 的会话日志，投射到代码库的 3D 地图上回放。仓库是一张夜间俯瞰图，agent 搜索、读取、编辑过的文件会发光，没碰到的区域保持黑暗，让你一眼看清 agent 对任务的理解范围。单个 Go 二进制文件，所有数据完全本地处理，不会离开机器。文件触达状态分四级：未访问、已查看、已读取、已编辑，还有上下文压缩事件、子 agent 启动、错误节点的时间轴标记。这个工具提供了一个直觉：agent 的工作范围和你以为的往往不一样。当它跑了 30 分钟，你以为它读遍了整个仓库，但地图可能告诉你它根本没碰到关键目录。如果你在用 Claude Code 跑复杂任务，这是个值得装一下的调试工具。可以用它检查 agent 是否真的理解了任务范围，而不是靠最后的输出结果猜测。

有没有想过：Claude Code 或 Codex 跑完一个任务，它到底「看」了哪些文件、忽略了哪些？ Mindwalk 把这个问题可视化了，它把 Claude Code 和 Codex 的会话日志，投射到代码库的 3D 地图上回放。仓库是一张夜间俯瞰图，agent 搜索、读取、编辑过的文件会发光，没碰到的区域保持黑暗，让你一眼看清 agent 对任务的理解范围。单个 Go 二进制文件，所有数据完全本地处理，不会离开机器。文件触达状态分四级：未访问、已查看、已读取、已编辑，还有上下文压缩事件、子 agent 启动、错误节点的时间轴标记。这个工具提供了一个直觉：agent 的工作范围和你以为的往往不一样。当它跑了 30 分钟，你以为它读遍了整个仓库，但地图可能告诉你它根本没碰到关键目录。如果你在用 Claude Code 跑复杂任务，这是个值得装一下的调试工具。可以用它检查 agent 是否真的理解了任务范围，而不是靠最后的输出结果猜测。

Xudong Han

27,230 просмотров • 14 дней назад

字节开源了一个 AI 团队大脑：DeerFlow 2.0 刚发就冲上 GitHub Trending 第一，43k ⭐。它是一个开源的超级代理框架，它让 AI 不再是工具，而是一个能干活的团队。你只需要一句话： “帮我研究 AI 行业趋势，并做一份 PPT” 它会自动完成：拆任务 → 分配 Agent → 并行执行 → 汇总交付不是建议，是直接把结果做出来。更关键的是：它通过 Agent 协同 + 内存 + 沙箱执行 + 可扩展技能可以完成几乎任何事情核心能力就三点： - 多 Agent 协作：一个 AI = 一个团队 - 技能驱动（可扩展）：报告、PPT、网站、视频都能做 - 完整工作流执行：从任务到交付，一步到位 DeerFlow 2.0 不是提升效率，是把几乎所有工作流程交给 AI。

字节开源了一个 AI 团队大脑：DeerFlow 2.0 刚发就冲上 GitHub Trending 第一，43k ⭐。它是一个开源的超级代理框架，它让 AI 不再是工具，而是一个能干活的团队。你只需要一句话： “帮我研究 AI 行业趋势，并做一份 PPT” 它会自动完成：拆任务 → 分配 Agent → 并行执行 → 汇总交付不是建议，是直接把结果做出来。更关键的是：它通过 Agent 协同 + 内存 + 沙箱执行 + 可扩展技能可以完成几乎任何事情核心能力就三点： - 多 Agent 协作：一个 AI = 一个团队 - 技能驱动（可扩展）：报告、PPT、网站、视频都能做 - 完整工作流执行：从任务到交付，一步到位 DeerFlow 2.0 不是提升效率，是把几乎所有工作流程交给 AI。

开发者Hailey

62,129 просмотров • 4 месяцев назад

Pokee AI 不需要写代码、不需要配置复杂的“节点流程” 只要输入一句话，Pokee 就能创建一个能实际执行任务的智能代理（Agent）。颠覆了 OpenAI Agent Builder 与 n8n 的复杂逻辑可运行跨平台工作流，兼容数千种 AI 工具（如 Google Workspace、Outlook、Slack、GitHub、Notion 等） Pokee 支持以自然语言下达指令用户无需编写脚本或配置触发条件，只需描述目标。系统会自动：理解任务意图拆解执行步骤调用相应工具执行操作汇总结果并返回用户可在执行前反复调整逻辑 Pokee 在确认后才会启动执行流程...

Pokee AI 不需要写代码、不需要配置复杂的“节点流程” 只要输入一句话，Pokee 就能创建一个能实际执行任务的智能代理（Agent）。颠覆了 OpenAI Agent Builder 与 n8n 的复杂逻辑可运行跨平台工作流，兼容数千种 AI 工具（如 Google Workspace、Outlook、Slack、GitHub、Notion 等） Pokee 支持以自然语言下达指令用户无需编写脚本或配置触发条件，只需描述目标。系统会自动：理解任务意图拆解执行步骤调用相应工具执行操作汇总结果并返回用户可在执行前反复调整逻辑 Pokee 在确认后才会启动执行流程...

小互

19,104 просмотров • 8 месяцев назад

试了一下 OpenAI 新出的 Codex App，有些亮点跟 Skills 的适配还是有点问题，模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍： Skills 可视化管理有一个专门的 Skills 列表界面，预置了一些官方 skills，也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的，本地创建的（比如在 Claude Code 里创建的）扫不出来。还支持 Skills Creator 创建的 skills，可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能，这个挺实用的。可以让 AI 定期执行某些任务，比如每周给你一个解决问题的报告，定期去解决某个项目的 PR 问题，或者定期 review 代码。对于需要持续维护的项目来说，这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。因为它跟 Codex CLI 共享后端，所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤，让你确认后再执行。 ------ 用量显示的样式做得挺好的。进度条、余量、使用情况都很清楚，一眼就能看到你还有多少额度。还有 code review 的快捷方式，可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测：用 video-wrapper skill 跑了一遍我测试主要是让它跑了一个我最近做的 skill，可以一键给视频添加视频包装，比如卡片、花字、人物条、章节标题这些。这个 skill 挺复杂的，所以很适合用来测试。 ------ 第一次运行的问题可以工作，但第一次它选了 PIL 这个方案，比较差。核心问题是什么？它跟你没有交互。我的 skill 里边写清楚了：要先问用户要哪套方案，再给出包装方案让用户确认，用户确认了再开始包装。但在 Codex 这里，明显没有交互。它就直接跑，把所有决定都自己做了，跑完就完了。出错了也不管，直接用降级方案。 ------ 修复后的效果我让它修复以后，它倒是能修复。重新跑了一遍，效果也不错。最终生成的视频包装效果还行： ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了因为我们用前端代码约束了样式，所以它在样式上不会出什么错误。 ------ 体验总结整个过程很不可控： ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了，也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行，不会停下来问你可能是它不太适应 skills 规范，只是简单做了一下适配，没有 Claude Code 跟 skills 的适配那么好。

试了一下 OpenAI 新出的 Codex App，有些亮点跟 Skills 的适配还是有点问题，模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍： Skills 可视化管理有一个专门的 Skills 列表界面，预置了一些官方 skills，也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的，本地创建的（比如在 Claude Code 里创建的）扫不出来。还支持 Skills Creator 创建的 skills，可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能，这个挺实用的。可以让 AI 定期执行某些任务，比如每周给你一个解决问题的报告，定期去解决某个项目的 PR 问题，或者定期 review 代码。对于需要持续维护的项目来说，这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。因为它跟 Codex CLI 共享后端，所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤，让你确认后再执行。 ------ 用量显示的样式做得挺好的。进度条、余量、使用情况都很清楚，一眼就能看到你还有多少额度。还有 code review 的快捷方式，可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测：用 video-wrapper skill 跑了一遍我测试主要是让它跑了一个我最近做的 skill，可以一键给视频添加视频包装，比如卡片、花字、人物条、章节标题这些。这个 skill 挺复杂的，所以很适合用来测试。 ------ 第一次运行的问题可以工作，但第一次它选了 PIL 这个方案，比较差。核心问题是什么？它跟你没有交互。我的 skill 里边写清楚了：要先问用户要哪套方案，再给出包装方案让用户确认，用户确认了再开始包装。但在 Codex 这里，明显没有交互。它就直接跑，把所有决定都自己做了，跑完就完了。出错了也不管，直接用降级方案。 ------ 修复后的效果我让它修复以后，它倒是能修复。重新跑了一遍，效果也不错。最终生成的视频包装效果还行： ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了因为我们用前端代码约束了样式，所以它在样式上不会出什么错误。 ------ 体验总结整个过程很不可控： ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了，也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行，不会停下来问你可能是它不太适应 skills 规范，只是简单做了一下适配，没有 Claude Code 跟 skills 的适配那么好。

歸藏(guizang.ai)

30,521 просмотров • 5 месяцев назад

90%的程序员都在裸奔用Codex，难怪效率起不来。很多人装了Codex，打开终端就开始用。结果发现，它动不动就问你：“要不要执行这个命令？”跑个任务卡半天，还不如自己写还来得快。不是Codex不行，是你根本没配置过它。今天给你讲5个配置，配完之后效率直接翻倍。

90%的程序员都在裸奔用Codex，难怪效率起不来。很多人装了Codex，打开终端就开始用。结果发现，它动不动就问你：“要不要执行这个命令？”跑个任务卡半天，还不如自己写还来得快。不是Codex不行，是你根本没配置过它。今天给你讲5个配置，配完之后效率直接翻倍。

另一面

108,525 просмотров • 28 дней назад

其实监控x上的信息的话，实用grok的定时任务非常好用。完全免费，不需要创建api的，直接原生支持的。 Grok 的定时任务是很多人忽略的一个功能，它可以结合 X 原生功能，Grok 能完美读 X List、Advanced Search、话题等，比第三方工具准多了。但是免费用户有限制（只能设置两个），Premium+ 基本够用（每天多个任务都没问题）。这里可以根据你自己账户的情况，可以先设定每天自动跑一个 prompt 任务，结果发送到指定邮箱。

其实监控x上的信息的话，实用grok的定时任务非常好用。完全免费，不需要创建api的，直接原生支持的。 Grok 的定时任务是很多人忽略的一个功能，它可以结合 X 原生功能，Grok 能完美读 X List、Advanced Search、话题等，比第三方工具准多了。但是免费用户有限制（只能设置两个），Premium+ 基本够用（每天多个任务都没问题）。这里可以根据你自己账户的情况，可以先设定每天自动跑一个 prompt 任务，结果发送到指定邮箱。

我真的没有拼多多

57,650 просмотров • 3 месяцев назад

啊？AI可以自己找活干了？给大家介绍一个炸裂的开源项目 Hephaestus - 这玩意儿让AI Agent自己规划工作，自己发现问题，自己创建任务！抽象到什么程度？它内嵌了个kanban....让AI自己拆解card自己做.... 传统的Agent框架都是你提前写死所有流程，遇到没预料到的情况就傻眼。Hephaestus 直接换了个思路：只定义三个阶段（分析-实现-验证），然后Agent自己看着办。举例：测试Agent在跑测试时，发现了一个性能优化机会，它不是记个log就完事，而是自己创建了一个新的调查任务，然后放到kanban里，然后另一个Agent接手去研究，确认可行后又自己创建实现任务。整个工作流就这么自己长出了一个分支。你给它一个PRD，它分析出5个组件，创建5个并行任务。其中一个Agent干完了发现bug，自己创建修复任务。另一个Agent发现可以优化，自己创建优化分支。工作流是实时生成的，而不是一开始就预测好的。我有空也会测一下试试，看看它能不能真的从0到1自己把活干完。总之先增加到待测试列表。项目地址：

啊？AI可以自己找活干了？给大家介绍一个炸裂的开源项目 Hephaestus - 这玩意儿让AI Agent自己规划工作，自己发现问题，自己创建任务！抽象到什么程度？它内嵌了个kanban....让AI自己拆解card自己做.... 传统的Agent框架都是你提前写死所有流程，遇到没预料到的情况就傻眼。Hephaestus 直接换了个思路：只定义三个阶段（分析-实现-验证），然后Agent自己看着办。举例：测试Agent在跑测试时，发现了一个性能优化机会，它不是记个log就完事，而是自己创建了一个新的调查任务，然后放到kanban里，然后另一个Agent接手去研究，确认可行后又自己创建实现任务。整个工作流就这么自己长出了一个分支。你给它一个PRD，它分析出5个组件，创建5个并行任务。其中一个Agent干完了发现bug，自己创建修复任务。另一个Agent发现可以优化，自己创建优化分支。工作流是实时生成的，而不是一开始就预测好的。我有空也会测一下试试，看看它能不能真的从0到1自己把活干完。总之先增加到待测试列表。项目地址：

karminski-牙医

41,543 просмотров • 9 месяцев назад

这两天看到的收获很大的一篇论文《AlphaCodium：引领代码生成新境界，从提示工程到流程工程》，它提出了一种新的生成代码的方法，比传统的直接基于Prompt生成代码的方式准确率更高。它用的测试集是CodeContests ，这是由 Deepmind 推出的一项挑战性编程数据集。相对来说还是很权威的。以 GPT-4 为例的话，准确率从19%提升到了44%。它的原理有些复杂，但是如果你有过LeetCode刷题经验，相对比较好理解一些。普通人刷 LeetCode，上来就做，这样有可能得到答案，也有可能做不出来，这就类似于你把题目直接丢给GPT-4，让它直接给出答案，准确率相对要低一些。高手刷LeetCode，会有个做题的流程，同样的水平，做出来的概率会大一些。高手做题时会大概分成几个步骤： 1. 先把题目中的要点一条条列出来，确保不会遗漏任何重要信息 2. 通常LeetCode会提供 1 个或多个测试用例，仔细看测试用例，分析为什么给定的输入能得到给定的输出 3. 在写代码前，列出几种可能的解决方案，例如暴力算法、递归、动态规划，每一种方案写下思路和伪代码 4. 对于列出来的几种方案进行评估，选出最佳方案 5. 可能还会补充一些测试用例帮助事后验证 --- 以下部分是迭代过程： 6. 根据选中的解决方案写代码，如果代码不能运行则修改代码直至能运行 7. 将代码提交到LeetCode的测试集去验证，如果无法通过所有测试，则修改错误，如果通过到第8步 8. 用第 5 步生成的测试用例验证代码，如果运行不通过则继续优化代码这里留个思考题：如果第8步出错，怎么判断是代码有问题还是自己生成的测试用例有问题？而 AlphaCodium 就是完美遵循了以上的步骤来解题，只不过每一步都是由大语言模型帮助完成！这给了我一些启示： 1. 不必寄希望于将复杂的任务在一个 Prompt 中完成，拆分成若干子任务成功概率会高一些 2. AI 可以借鉴人类的优秀实践，例如高手是如何解决编程难题的，让 AI 按照高手的步骤去一步步做 3. AI 的潜力还有很大挖掘空间完整的文章参考：中文译文：

这两天看到的收获很大的一篇论文《AlphaCodium：引领代码生成新境界，从提示工程到流程工程》，它提出了一种新的生成代码的方法，比传统的直接基于Prompt生成代码的方式准确率更高。它用的测试集是CodeContests ，这是由 Deepmind 推出的一项挑战性编程数据集。相对来说还是很权威的。以 GPT-4 为例的话，准确率从19%提升到了44%。它的原理有些复杂，但是如果你有过LeetCode刷题经验，相对比较好理解一些。普通人刷 LeetCode，上来就做，这样有可能得到答案，也有可能做不出来，这就类似于你把题目直接丢给GPT-4，让它直接给出答案，准确率相对要低一些。高手刷LeetCode，会有个做题的流程，同样的水平，做出来的概率会大一些。高手做题时会大概分成几个步骤： 1. 先把题目中的要点一条条列出来，确保不会遗漏任何重要信息 2. 通常LeetCode会提供 1 个或多个测试用例，仔细看测试用例，分析为什么给定的输入能得到给定的输出 3. 在写代码前，列出几种可能的解决方案，例如暴力算法、递归、动态规划，每一种方案写下思路和伪代码 4. 对于列出来的几种方案进行评估，选出最佳方案 5. 可能还会补充一些测试用例帮助事后验证 --- 以下部分是迭代过程： 6. 根据选中的解决方案写代码，如果代码不能运行则修改代码直至能运行 7. 将代码提交到LeetCode的测试集去验证，如果无法通过所有测试，则修改错误，如果通过到第8步 8. 用第 5 步生成的测试用例验证代码，如果运行不通过则继续优化代码这里留个思考题：如果第8步出错，怎么判断是代码有问题还是自己生成的测试用例有问题？而 AlphaCodium 就是完美遵循了以上的步骤来解题，只不过每一步都是由大语言模型帮助完成！这给了我一些启示： 1. 不必寄希望于将复杂的任务在一个 Prompt 中完成，拆分成若干子任务成功概率会高一些 2. AI 可以借鉴人类的优秀实践，例如高手是如何解决编程难题的，让 AI 按照高手的步骤去一步步做 3. AI 的潜力还有很大挖掘空间完整的文章参考：中文译文：

宝玉

265,105 просмотров • 2 лет назад

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

小互

27,158 просмотров • 1 год назад

GitHub Copilot 现在也支持 Agent 模式了，也就是你交代给它一项任务，包括改 Bug 或者开发新模块，不需要去特别说明相关的代码，它会自动去代码去找到合适的代码，并解决问题，就像你雇了一个工程师。需要先下载 VS Code Insiders，然后在 GitHub Copilot Chat 的设置中启用 Agent 模式（参考图4）。

GitHub Copilot 现在也支持 Agent 模式了，也就是你交代给它一项任务，包括改 Bug 或者开发新模块，不需要去特别说明相关的代码，它会自动去代码去找到合适的代码，并解决问题，就像你雇了一个工程师。需要先下载 VS Code Insiders，然后在 GitHub Copilot Chat 的设置中启用 Agent 模式（参考图4）。

宝玉

197,815 просмотров • 1 год назад

肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚有人说它的伟大程度,不亚于 MCP 和 Skill。第一眼我是不信的,直到拆开看它内部怎么跑：这不是"问一句答一句"的对话,而是一个能自己跑起来的任务系统:后台持续执行、可监控、可保存进度, 还能一口气派出几十上百个 agent 分头干活/合并汇总。核心就三个角色: Claude 拆任务、定计划; Runtime 管调度和状态; 每个 agent 只啃一个子任务,配上并发池和队列,有节奏地推进。它代表的是一种新的工程编排方式:智能负责规划,Runtime 负责执行,状态独立保存,模型按需调度。最反直觉的一点:它能扩展到上百个 agent,靠的不是模型变强,而是"状态外置"—中间结果全交给执行系统保存,主上下文只看摘要和关键判断。这才是复杂任务能跑稳的真正原因。这条视频直接给了你把它搬进自己系统的方法: 先用 Claude Code 做高质量规划、拆任务定阶段; 再把 workflow 转成自己的执行格式,按任务难度路由到不同模型池，简单的走便宜模型，复杂的才上高阶模型。这条视频,值得反复看几遍👇

肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚有人说它的伟大程度,不亚于 MCP 和 Skill。第一眼我是不信的,直到拆开看它内部怎么跑：这不是"问一句答一句"的对话,而是一个能自己跑起来的任务系统:后台持续执行、可监控、可保存进度, 还能一口气派出几十上百个 agent 分头干活/合并汇总。核心就三个角色: Claude 拆任务、定计划; Runtime 管调度和状态; 每个 agent 只啃一个子任务,配上并发池和队列,有节奏地推进。它代表的是一种新的工程编排方式:智能负责规划,Runtime 负责执行,状态独立保存,模型按需调度。最反直觉的一点:它能扩展到上百个 agent,靠的不是模型变强,而是"状态外置"—中间结果全交给执行系统保存,主上下文只看摘要和关键判断。这才是复杂任务能跑稳的真正原因。这条视频直接给了你把它搬进自己系统的方法: 先用 Claude Code 做高质量规划、拆任务定阶段; 再把 workflow 转成自己的执行格式,按任务难度路由到不同模型池，简单的走便宜模型，复杂的才上高阶模型。这条视频,值得反复看几遍👇

huangserva

143,171 просмотров • 1 месяц назад

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

AYi

63,210 просмотров • 3 месяцев назад

什么是 AI 智能体？（双语字幕）为了解释这一点，我们必须看一看在生成式 AI 领域看到的各种转变。 *** 从单一模型向复合 AI 系统的转变单一模型受限于其训练数据，这影响了它们对世界的认知以及它们可以解决的任务类型。而且，这些模型也难以适应变化。尽管可以对模型进行微调，但这需要大量的数据和资源投资。 **** 示例：查询假期天数例如，我想要为今年夏天计划一次假期，想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而，答案会不正确，因为模型并不知道我的身份，也无法访问我的个人信息。因此，模型本身可能对一些任务有所帮助，例如总结文档、撰写电子邮件初稿和各种报告初稿。但当我们围绕模型构建系统，并将模型集成到现有流程中时，魔力便显现出来。设计一个系统来解决前面提到的问题，需要让模型能访问存储我假期数据的数据库。这样，虽然输入到语言模型中的查询相同，但模型会被提示创建一个搜索查询，这个查询可以访问我的数据库。程序会获取信息并得到答案，再将答案输入语言模型中，生成回答句子，如：“Maya，你的假期数据库里还剩下十天。”这样，我能得到正确的答案。 *** 复合 AI 系统的模块化设计 “系统”意味着有多个组件，因此系统本质上是模块化的。我可以有一个模型，选择微调模型、大语言模型、图像生成模型，但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。当我们谈论系统方法时，我可以分解希望程序完成的任务，选择合适的组件来解决问题。这比微调一个模型要容易得多，使过程更快、更方便。 **** 检索增强生成（RAG）一个流行的复合 AI 系统例子是检索增强生成（RAG）。如果我提出一个完全不同的查询，如问天气情况，这会失败，因为程序的运行路径总是搜索假期数据库，而这与天气无关。因此，复合 AI 系统的大部分都有程序控制逻辑，这些逻辑由人类定义。 *** AI 智能体的作用另一种控制复合 AI 系统的逻辑方式是让大语言模型负责，这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题，能根据提示词要求将问题分解并制定解决计划。在一个极端，我要求系统快速思考，按照设定的规则行动。在另一个极端，可以让系统慢慢思考，制定计划，逐步解决每一部分，理解困难点并调整计划。当让大语言模型负责逻辑时，就是在采取一种以智能体为中心的方法。 *** 大语言模型智能体的组成部分 **** 推理能力推理能力将模型置于解决问题的核心位置，在设定计划的过程中对每一步进行推理。 **** 行动能力行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块，模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如，网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。 **** 访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考，类似于自言自语的内部日志，可以存储并随时取用。这也可以是与智能体互动的对话历史，使体验更加个性化。 *** ReACT 方法配置智能体的受欢迎方法之一是 ReACT 方法，将推理和行动组件结合在一起。 **** 示例：度假计划例如，我计划下个月去佛罗里达，想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题，有多步计划： 1. 我打算休多少天假？ 2. 我计划在阳光下待多少小时？查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算，确定防晒霜数量。这个系统非常模块化，可以解决更复杂的问题。 *** 复合 AI 系统的未来复合 AI 系统将一直存在，2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题，程序化方法更有效。而对于需要独立解决复杂任务的系统，智能体方法更有帮助。大多数情况下，人工仍会参与以提高准确性。原始视频来源：

什么是 AI 智能体？（双语字幕）为了解释这一点，我们必须看一看在生成式 AI 领域看到的各种转变。 * 从单一模型向复合 AI 系统的转变单一模型受限于其训练数据，这影响了它们对世界的认知以及它们可以解决的任务类型。而且，这些模型也难以适应变化。尽管可以对模型进行微调，但这需要大量的数据和资源投资。示例：查询假期天数例如，我想要为今年夏天计划一次假期，想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而，答案会不正确，因为模型并不知道我的身份，也无法访问我的个人信息。因此，模型本身可能对一些任务有所帮助，例如总结文档、撰写电子邮件初稿和各种报告初稿。但当我们围绕模型构建系统，并将模型集成到现有流程中时，魔力便显现出来。设计一个系统来解决前面提到的问题，需要让模型能访问存储我假期数据的数据库。这样，虽然输入到语言模型中的查询相同，但模型会被提示创建一个搜索查询，这个查询可以访问我的数据库。程序会获取信息并得到答案，再将答案输入语言模型中，生成回答句子，如：“Maya，你的假期数据库里还剩下十天。”这样，我能得到正确的答案。 * 复合 AI 系统的模块化设计 “系统”意味着有多个组件，因此系统本质上是模块化的。我可以有一个模型，选择微调模型、大语言模型、图像生成模型，但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。当我们谈论系统方法时，我可以分解希望程序完成的任务，选择合适的组件来解决问题。这比微调一个模型要容易得多，使过程更快、更方便。 ** 检索增强生成（RAG）一个流行的复合 AI 系统例子是检索增强生成（RAG）。如果我提出一个完全不同的查询，如问天气情况，这会失败，因为程序的运行路径总是搜索假期数据库，而这与天气无关。因此，复合 AI 系统的大部分都有程序控制逻辑，这些逻辑由人类定义。 * AI 智能体的作用另一种控制复合 AI 系统的逻辑方式是让大语言模型负责，这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题，能根据提示词要求将问题分解并制定解决计划。在一个极端，我要求系统快速思考，按照设定的规则行动。在另一个极端，可以让系统慢慢思考，制定计划，逐步解决每一部分，理解困难点并调整计划。当让大语言模型负责逻辑时，就是在采取一种以智能体为中心的方法。 * 大语言模型智能体的组成部分推理能力推理能力将模型置于解决问题的核心位置，在设定计划的过程中对每一步进行推理。行动能力行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块，模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如，网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考，类似于自言自语的内部日志，可以存储并随时取用。这也可以是与智能体互动的对话历史，使体验更加个性化。 * ReACT 方法配置智能体的受欢迎方法之一是 ReACT 方法，将推理和行动组件结合在一起。 ** 示例：度假计划例如，我计划下个月去佛罗里达，想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题，有多步计划： 1. 我打算休多少天假？ 2. 我计划在阳光下待多少小时？查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算，确定防晒霜数量。这个系统非常模块化，可以解决更复杂的问题。 * 复合 AI 系统的未来复合 AI 系统将一直存在，2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题，程序化方法更有效。而对于需要独立解决复杂任务的系统，智能体方法更有帮助。大多数情况下，人工仍会参与以提高准确性。原始视频来源：

宝玉

44,356 просмотров • 2 лет назад

来自 Claude Code 团队成员 Thariq 分享的用好 Fable 5模型的秘诀。以下内容整理自 Thariq 的视频：过去，我们需要时刻检查 Claude 是否在正确地做事。比如，把任务拆分成小块交给它、反复检查它的输出，并在它过早停下时发现问题。但有了 Claude Fable 5，我反而发现自己越来越多地是在检查 Claude 是否在做正确的工作。 Fable 可以一次运行几个小时，它会测试自己的工作，老实说，我经常发现它写出的代码比我的还要好。我的工作变得越来越侧重于指引方向和前期设置，而不是监督。因此，以下是我在使用 Fable 时，工作方式发生的三个改变。首先，我把 Claude 当作一个思维伙伴。我给它提供所需的上下文。其次，我给 Claude 设定目标并提供验证这些目标的方法。最后，我试着变得更有野心，让 Claude 去做我以前从未尝试过的事情。第一点，你要越来越多地把 Claude 视为一个思维伙伴。我在使用 Fable 时发现的一个失败模式是，我可能实际上并不知道自己想要什么，或者我可能不知道什么是可行的。但是，在我的思考过程中尽早让 Claude 参与进来，我就可以在实施之前发现这些问题。举个例子，我会先从一个小的需求规范（spec）开始，在编写最终的规范文件之前，我会要求 Claude 就实施方案对我进行“面试提问”。这有助于我建立信心，确信自己知道想要什么。或者，我也可能抛出一个想法，让它想出几个可以发展的方向，并制作一些 HTML 页面原型供我审查。当我准备好进行实施时，我会尽量给它提供上下文，而不仅仅是约束条件，这样 Claude 就能真正帮助我达成目标。例如，我不会说“保持简单，不要过度设计”，而是会说：“嘿，这个功能是个实验。我们很有可能在一个月后删掉它。所以不要构建任何丢弃起来会很心疼的东西。”给它这样的上下文，能让它发现你可能都没想到的事情。一旦你知道自己想要什么了，特别是面对一个雄心勃勃的难题时，考虑给 Claude 设定目标以及验证目标的方法。为此，我们推出了两个很好用的新功能，我也鼓励大家试一试：/goal（目标指令）和 workflows（工作流）。目标功能帮助 Claude 持续工作直至完成，而工作流则帮助 Claude 验证其工作。因此，在我写完规范文档后，我可能会告诉 Claude：“设定一个目标，以完整实现该规范。然后使用工作流来验证计划的每个部分，并准备一份报告，说明已实现了哪些内容以及是否有任何差异。”这让 Claude 能够尽可能以富有创意和周到的方式发挥其能力，同时又能确保它正在构建你想要的东西。最后，试着更有野心一些。 Fable 真的是一个令人难以置信的模型，它促使我在工作中打破常规去思考。例如，我正在用 Fable 剪辑这个视频。如果有什么事情是你以为大语言模型做不到的，给它个机会试试。我们由衷地认为，Fable 提高了“一切皆有可能”的上限。

来自 Claude Code 团队成员 Thariq 分享的用好 Fable 5模型的秘诀。以下内容整理自 Thariq 的视频：过去，我们需要时刻检查 Claude 是否在正确地做事。比如，把任务拆分成小块交给它、反复检查它的输出，并在它过早停下时发现问题。但有了 Claude Fable 5，我反而发现自己越来越多地是在检查 Claude 是否在做正确的工作。 Fable 可以一次运行几个小时，它会测试自己的工作，老实说，我经常发现它写出的代码比我的还要好。我的工作变得越来越侧重于指引方向和前期设置，而不是监督。因此，以下是我在使用 Fable 时，工作方式发生的三个改变。首先，我把 Claude 当作一个思维伙伴。我给它提供所需的上下文。其次，我给 Claude 设定目标并提供验证这些目标的方法。最后，我试着变得更有野心，让 Claude 去做我以前从未尝试过的事情。第一点，你要越来越多地把 Claude 视为一个思维伙伴。我在使用 Fable 时发现的一个失败模式是，我可能实际上并不知道自己想要什么，或者我可能不知道什么是可行的。但是，在我的思考过程中尽早让 Claude 参与进来，我就可以在实施之前发现这些问题。举个例子，我会先从一个小的需求规范（spec）开始，在编写最终的规范文件之前，我会要求 Claude 就实施方案对我进行“面试提问”。这有助于我建立信心，确信自己知道想要什么。或者，我也可能抛出一个想法，让它想出几个可以发展的方向，并制作一些 HTML 页面原型供我审查。当我准备好进行实施时，我会尽量给它提供上下文，而不仅仅是约束条件，这样 Claude 就能真正帮助我达成目标。例如，我不会说“保持简单，不要过度设计”，而是会说：“嘿，这个功能是个实验。我们很有可能在一个月后删掉它。所以不要构建任何丢弃起来会很心疼的东西。”给它这样的上下文，能让它发现你可能都没想到的事情。一旦你知道自己想要什么了，特别是面对一个雄心勃勃的难题时，考虑给 Claude 设定目标以及验证目标的方法。为此，我们推出了两个很好用的新功能，我也鼓励大家试一试：/goal（目标指令）和 workflows（工作流）。目标功能帮助 Claude 持续工作直至完成，而工作流则帮助 Claude 验证其工作。因此，在我写完规范文档后，我可能会告诉 Claude：“设定一个目标，以完整实现该规范。然后使用工作流来验证计划的每个部分，并准备一份报告，说明已实现了哪些内容以及是否有任何差异。”这让 Claude 能够尽可能以富有创意和周到的方式发挥其能力，同时又能确保它正在构建你想要的东西。最后，试着更有野心一些。 Fable 真的是一个令人难以置信的模型，它促使我在工作中打破常规去思考。例如，我正在用 Fable 剪辑这个视频。如果有什么事情是你以为大语言模型做不到的，给它个机会试试。我们由衷地认为，Fable 提高了“一切皆有可能”的上限。

宝玉

142,456 просмотров • 22 дней назад

OWL团队刚刚又开源了一款多智能体Manus类工具：Eigent，通过多智能体协作，来更高效的处理更复杂任务从效果看具备整合多种工具和数据的能力，生成的报告内容相对专业全面其处理任务时有清晰的任务拆解和执行过程，它把任务拆解成多个子任务，并会清晰展示出每个子任务的执行状态 Eigent支持根据任务创建或灵活调用workforce，多智能体并行处理执行速度更快支持worker间任务的并行，worker下子任务的并行，子任务执行过程中工具调用的并行可以根据需求定制AI团队，组建一个特定的项目组有Human-in-the-Loop机制，可以在关键节点进行人工干预决策内置200+MCP工具，也支持上传常用的MCP工具 #AI员工 #多智能体团队 #Eigent

OWL团队刚刚又开源了一款多智能体Manus类工具：Eigent，通过多智能体协作，来更高效的处理更复杂任务从效果看具备整合多种工具和数据的能力，生成的报告内容相对专业全面其处理任务时有清晰的任务拆解和执行过程，它把任务拆解成多个子任务，并会清晰展示出每个子任务的执行状态 Eigent支持根据任务创建或灵活调用workforce，多智能体并行处理执行速度更快支持worker间任务的并行，worker下子任务的并行，子任务执行过程中工具调用的并行可以根据需求定制AI团队，组建一个特定的项目组有Human-in-the-Loop机制，可以在关键节点进行人工干预决策内置200+MCP工具，也支持上传常用的MCP工具 #AI员工 #多智能体团队 #Eigent

AIGCLINK

16,164 просмотров • 1 год назад

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,821 просмотров • 1 месяц назад

SIRI AI 是可以点击输入框切换询问 ChatGPT 的，但是还是会根据问题情况给我转到 Siri，然后地理围栏又报错，如果能全局直接设置这个入口都一直是 ChatGPT 就好了

SIRI AI 是可以点击输入框切换询问 ChatGPT 的，但是还是会根据问题情况给我转到 Siri，然后地理围栏又报错，如果能全局直接设置这个入口都一直是 ChatGPT 就好了

Steve

15,857 просмотров • 1 месяц назад

我的龙虾帮我把日本七天旅行全安排了，行程 + 机票都查好了，最后还把结果发到了我邮箱。用的是扣子 2.5，拆解一下它是怎么做的。这次主打的概念是"满配 Agent"，说白了就是 AI 不再只是一个聊天框，你可以给它配一台云手机、一台云电脑、一个独立邮箱，让它自己去干活。先建了个 Agent，给它起了名换了头像。然后去虾评装了个旅行规划 Skill，让它用云手机帮我排行程。规划完之后它用自己的邮箱把行程发到了我个人邮箱。第一印象：确实不只是聊天了👇

我的龙虾帮我把日本七天旅行全安排了，行程 + 机票都查好了，最后还把结果发到了我邮箱。用的是扣子 2.5，拆解一下它是怎么做的。这次主打的概念是"满配 Agent"，说白了就是 AI 不再只是一个聊天框，你可以给它配一台云手机、一台云电脑、一个独立邮箱，让它自己去干活。先建了个 Agent，给它起了名换了头像。然后去虾评装了个旅行规划 Skill，让它用云手机帮我排行程。规划完之后它用自己的邮箱把行程发到了我个人邮箱。第一印象：确实不只是聊天了👇

Yanhua

51,793 просмотров • 3 месяцев назад