Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

微软研发的 AutoGen 框架太强大了,它是一个多代理框架,利用它可以轻松定制一系列工作任务。 举一个常见的例子:我们要实现一个爬虫程序,抓取并保存网页图片。如果把这个任务丢给 ChatGPT,它会直接返回一串可执行代码,但是代码通常会存在问题,例如执行报错、缺少依赖等,你需要反复跟 ChatGPT 对话来完善程序。当然,我们也可以设定一个复杂 Prompt,要求它调用 ChatGPT 的代码执行插件,如果存在报错,则继续修正程序。 这个任务如果交给 AutoGen 来实现,将会变得无比简单,几行代码就可以搞定: 1)定义一个 Assistant Agent,它的任务是解决问题 2)定义一个 UserProxy Agent,它的任务是替代人询问问题,同时在本地执行程序 这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后,它会理解任务,然后询问 Assistant 应该如何做,Assistant 会把操作过程告诉 UserProxy,接着 UserProxy 会根据指示在本地安装依赖,然后创建文件执行代码,如果执行出现错误,它会把详细报错提交给 Assistant,依次循环,直到可以获取到最终的结果。任务结束的时候,你会看到目标图片已经保存到本地磁盘了。 利用这个框架可以做的事情非常多,它提供的能力也十分完善,可以在项目的 notebook 中找到很多最佳实践: P.S. 为了确保安全,还是建议你在 Docker 环境中执行程序,UserProxy 有一个 code_execution_config 配置,将 use_docker 配置为 True 即可;另外,它还有一个 human_input_mode 参数,设置为 NEVER,表示整个过程都不需要人参与,也可以设置为其他值,它会等待人的输入后再进行下一步操作,这个设计可以让人参与到任务执行过程,避免跑偏。

517,222 Aufrufe • vor 2 Jahren •via X (Twitter)

10 Kommentare

Profilbild von cyberws
cyberwsvor 2 Jahren

@readwise save thread

Profilbild von bigbowl
bigbowlvor 2 Jahren

@readwise save

Profilbild von yazuishou5738
yazuishou5738vor 2 Jahren

能爬那种需要逆向破解加密数据的网站嘛

Profilbild von yao jason
yao jasonvor 2 Jahren

save @Barret_China

Profilbild von Owen Ye
Owen Yevor 2 Jahren

@SaveToNotion #tweet

Profilbild von ErvinZhang
ErvinZhangvor 2 Jahren

支持azure open ai吗

Profilbild von meat
meatvor 2 Jahren

@SaveToNotion #tweet #thread #autogen

Profilbild von 魔都老猿
魔都老猿vor 2 Jahren

Mark.Thanks for Sharing!

Profilbild von 智言AI
智言AIvor 2 Jahren

@SaveTo

Profilbild von 智言AI
智言AIvor 2 Jahren

@SaveToNotion

Ähnliche Videos

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务,其实没必要,有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具,最特殊的一个工具叫 Task,它本质就是一个 Claude Code 的克隆工具,只不过是作为 Claude Code 的一个工具。 如果你懂递归的话就很好理解。如果你不懂递归,可以这么理解:Claude Code 是个 AI 程序员,它可以用一堆工具,其中最神奇的一个工具叫 Task,就是克隆一个自己的分身去干活! 这样做有什么好处呢?就是可以并行多任务,还可以控制上下文,让子任务更专注。 举例来说,你粘贴一段错误代码让 Claude Code 去 Debug,并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步: - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖 这一步完了后它会起一个 Task,这个 Task 就是专门根据错误信息去找到相关代码的位置,那么这个子任务只需要接受错误信息找上下文,它不管怎么解决 Bug,也不管怎么写测试覆盖。 主任务就会等这个子任务完成,子任务完成后,主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖 然后调用 TodoRead 工具看下一步要干嘛,现在有充足上下文了,它可以再起一个子任务去根据错误信息和代码修复 Bug,等修复 Bug 的子任务完成了,再回到主任务,继续更新 TODO List,继续读取下一个 Item 最后再启动一个子任务去写测试,测试子任务也完成了,返回结果到主任务,这时候调用 TodoRead 一看任务都处理完了,最后根据前面的任务情况给你一个总结摘要,表示任务都完成了。 Claude Code 真的没有做什么工程上的优化,什么上下文压缩、临时存储,都没有的!就是简单粗暴: 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude,问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具,本质上也是一个 AI 请求,最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude,Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task,把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude,问下一步该干嘛 - 在新的 Task 里面,就是不停的问 Claude 该用啥工具,然后发送工具结果和前面所有历史消息 - 任务完成后,返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了 所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉,因为它会启动子任务,这样上下文就分摊到子任务中了,主任务中只是保留子任务完成后的内容。

宝玉

76,401 Aufrufe • vor 11 Monaten

试了一下 OpenAI 新出的 Codex App,有些亮点 跟 Skills 的适配还是有点问题,模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍: Skills 可视化管理 有一个专门的 Skills 列表界面,预置了一些官方 skills,也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的,本地创建的(比如在 Claude Code 里创建的)扫不出来。 还支持 Skills Creator 创建的 skills,可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能,这个挺实用的。 可以让 AI 定期执行某些任务,比如每周给你一个解决问题的报告,定期去解决某个项目的 PR 问题,或者定期 review 代码。 对于需要持续维护的项目来说,这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。 因为它跟 Codex CLI 共享后端,所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤,让你确认后再执行。 ------ 用量显示的样式做得挺好的。 进度条、余量、使用情况都很清楚,一眼就能看到你还有多少额度。 还有 code review 的快捷方式,可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测:用 video-wrapper skill 跑了一遍 我测试主要是让它跑了一个我最近做的 skill,可以一键给视频添加视频包装,比如卡片、花字、人物条、章节标题这些。 这个 skill 挺复杂的,所以很适合用来测试。 ------ 第一次运行的问题 可以工作,但第一次它选了 PIL 这个方案,比较差。 核心问题是什么?它跟你没有交互。 我的 skill 里边写清楚了:要先问用户要哪套方案,再给出包装方案让用户确认,用户确认了再开始包装。 但在 Codex 这里,明显没有交互。它就直接跑,把所有决定都自己做了,跑完就完了。出错了也不管,直接用降级方案。 ------ 修复后的效果 我让它修复以后,它倒是能修复。重新跑了一遍,效果也不错。 最终生成的视频包装效果还行: ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了 因为我们用前端代码约束了样式,所以它在样式上不会出什么错误。 ------ 体验总结 整个过程很不可控: ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了,也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行,不会停下来问你 可能是它不太适应 skills 规范,只是简单做了一下适配,没有 Claude Code 跟 skills 的适配那么好。

歸藏(guizang.ai)

30,521 Aufrufe • vor 4 Monaten

这两天看到的收获很大的一篇论文《AlphaCodium:引领代码生成新境界,从提示工程到流程工程》,它提出了一种新的生成代码的方法,比传统的直接基于Prompt生成代码的方式准确率更高。 它用的测试集是CodeContests ,这是由 Deepmind 推出的一项挑战性编程数据集。相对来说还是很权威的。以 GPT-4 为例的话,准确率从19%提升到了44%。 它的原理有些复杂,但是如果你有过LeetCode刷题经验,相对比较好理解一些。 普通人刷 LeetCode,上来就做,这样有可能得到答案,也有可能做不出来,这就类似于你把题目直接丢给GPT-4,让它直接给出答案,准确率相对要低一些。 高手刷LeetCode,会有个做题的流程,同样的水平,做出来的概率会大一些。 高手做题时会大概分成几个步骤: 1. 先把题目中的要点一条条列出来,确保不会遗漏任何重要信息 2. 通常LeetCode会提供 1 个或多个测试用例,仔细看测试用例,分析为什么给定的输入能得到给定的输出 3. 在写代码前,列出几种可能的解决方案,例如暴力算法、递归、动态规划,每一种方案写下思路和伪代码 4. 对于列出来的几种方案进行评估,选出最佳方案 5. 可能还会补充一些测试用例帮助事后验证 --- 以下部分是迭代过程: 6. 根据选中的解决方案写代码,如果代码不能运行则修改代码直至能运行 7. 将代码提交到LeetCode的测试集去验证,如果无法通过所有测试,则修改错误,如果通过到第8步 8. 用第 5 步生成的测试用例验证代码,如果运行不通过则继续优化代码 这里留个思考题:如果第8步出错,怎么判断是代码有问题还是自己生成的测试用例有问题? 而 AlphaCodium 就是完美遵循了以上的步骤来解题,只不过每一步都是由大语言模型帮助完成! 这给了我一些启示: 1. 不必寄希望于将复杂的任务在一个 Prompt 中完成,拆分成若干子任务成功概率会高一些 2. AI 可以借鉴人类的优秀实践,例如高手是如何解决编程难题的,让 AI 按照高手的步骤去一步步做 3. AI 的潜力还有很大挖掘空间 完整的文章参考: 中文译文:

宝玉

265,105 Aufrufe • vor 2 Jahren

OpenAI刚刚开源的这个东西,感觉要把程序员的工作方式给整个改写了。 现在大家都在卷模型写代码有多强,但其实真正的瓶颈早就不是生成了。 一个人每天最多同时有效监督3-5个编码Agent,再多就会注意力崩溃,生产力直接归零。 有了Symphony,直接把这个上限干到了几十个。 它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。 你开一个任务,它自动启动一个独立隔离的Codex Agent。 自己写代码,自己跑测试,自己做交叉Review,damn! 全部搞定之后,会给你提交一个完整的证据包。 CI全绿,安全和性能专项审查通过,改了UI就自动录好操作视频。 所有验证全过了,才会出现在你的Human Review队列里。 以后人类的角色可能会被彻底颠覆了。 以前你是监工,盯着Agent一步一步写代码,上下文切到吐。 现在你是老板,只需要看最终的结果。 满意就点合并,不满意就去仓库里补规则补文档补Guardrails。 记住兄弟们,永远不要手把手指挥Agent,永远不要替它干活。 这可不是啥实验室概念,OpenAI自己已经这么干了。 三个工程师,五个月,写了一百万行代码,0行人工写的。 产品已经有几百个内部用户,每天都在迭代。 我觉得他们最厉害的不是模型,是他们把整个仓库变成了Agent能看懂能自主工作的乐园。 现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明,而是看谁能设计出让Agent可靠自主工作的环境。 我觉得未来最好的工程师,再也不是写代码最快的人,而是那些最会写规则,最会设计反馈回路,最会给Agent搭舞台的人。 现在Symphony已经开源了,它甚至不是一个成品。 是一个17k token的完整SPEC。 你把这个SPEC喂给任何一个编码Agent,十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

阿绎 AYi

61,332 Aufrufe • vor 1 Monat

什么是 AI 智能体?(双语字幕) 为了解释这一点,我们必须看一看在生成式 AI 领域看到的各种转变。 *** 从单一模型向复合 AI 系统的转变 单一模型受限于其训练数据,这影响了它们对世界的认知以及它们可以解决的任务类型。而且,这些模型也难以适应变化。尽管可以对模型进行微调,但这需要大量的数据和资源投资。 **** 示例:查询假期天数 例如,我想要为今年夏天计划一次假期,想知道我有多少假期天数可以用。我可以将我的查询输入到一个可以生成回应的模型中。然而,答案会不正确,因为模型并不知道我的身份,也无法访问我的个人信息。因此,模型本身可能对一些任务有所帮助,例如总结文档、撰写电子邮件初稿和各种报告初稿。 但当我们围绕模型构建系统,并将模型集成到现有流程中时,魔力便显现出来。设计一个系统来解决前面提到的问题,需要让模型能访问存储我假期数据的数据库。这样,虽然输入到语言模型中的查询相同,但模型会被提示创建一个搜索查询,这个查询可以访问我的数据库。程序会获取信息并得到答案,再将答案输入语言模型中,生成回答句子,如:“Maya,你的假期数据库里还剩下十天。”这样,我能得到正确的答案。 *** 复合 AI 系统的模块化设计 “系统”意味着有多个组件,因此系统本质上是模块化的。我可以有一个模型,选择微调模型、大语言模型、图像生成模型,但也可以有围绕它的程序化组件。可以有输出验证器、解析查询的程序、与数据库搜索结合的工具、与不同工具结合的程序等。 当我们谈论系统方法时,我可以分解希望程序完成的任务,选择合适的组件来解决问题。这比微调一个模型要容易得多,使过程更快、更方便。 **** 检索增强生成(RAG) 一个流行的复合 AI 系统例子是检索增强生成(RAG)。如果我提出一个完全不同的查询,如问天气情况,这会失败,因为程序的运行路径总是搜索假期数据库,而这与天气无关。因此,复合 AI 系统的大部分都有程序控制逻辑,这些逻辑由人类定义。 *** AI 智能体的作用 另一种控制复合 AI 系统的逻辑方式是让大语言模型负责,这在大语言模型的推理能力显著提高时才可能实现。大语言模型可以处理复杂问题,能根据提示词要求将问题分解并制定解决计划。 在一个极端,我要求系统快速思考,按照设定的规则行动。在另一个极端,可以让系统慢慢思考,制定计划,逐步解决每一部分,理解困难点并调整计划。 当让大语言模型负责逻辑时,就是在采取一种以智能体为中心的方法。 *** 大语言模型智能体的组成部分 **** 推理能力 推理能力将模型置于解决问题的核心位置,在设定计划的过程中对每一步进行推理。 **** 行动能力 行动能力通过称为“工具”的外部程序实现。这些工具是程序的外部模块,模型可以确定何时及如何调用它们以便最有效地解决提出的问题。例如,网络搜索工具、数据库搜索工具、计算器工具、操纵数据库的程序代码、翻译任务的模型等。 **** 访问记忆的能力 “记忆”可以表示几种含义。模型可以通过程序进行思考,类似于自言自语的内部日志,可以存储并随时取用。这也可以是与智能体互动的对话历史,使体验更加个性化。 *** ReACT 方法 配置智能体的受欢迎方法之一是 ReACT 方法,将推理和行动组件结合在一起。 **** 示例:度假计划 例如,我计划下个月去佛罗里达,想知道需要带多少瓶两盎司的防晒霜。这是个复杂的问题,有多步计划: 1. 我打算休多少天假? 2. 我计划在阳光下待多少小时?查看佛罗里达的天气预报。 3. 尝试了解每小时在阳光下的推荐防晒剂剂量。 4. 进行数学运算,确定防晒霜数量。 这个系统非常模块化,可以解决更复杂的问题。 *** 复合 AI 系统的未来 复合 AI 系统将一直存在,2024 年将看到它们变得更加智能。你可以根据问题的复杂程度在 AI 自治程度上做出权衡。对于狭窄、定义明确的问题,程序化方法更有效。而对于需要独立解决复杂任务的系统,智能体方法更有帮助。 大多数情况下,人工仍会参与以提高准确性。 原始视频来源:

宝玉

44,356 Aufrufe • vor 1 Jahr

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,462 Aufrufe • vor 9 Tagen

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,591 Aufrufe • vor 1 Jahr

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 6 Monaten

早上好呀,朋友们,听首歌起床还是很舒服的,起床开工。 我最近在反复看 OpenMind , 一个很明显的感受是,它并不是在和大家抢智能这条赛道。 现在市场里关于具身智能的讨论,大多都围绕一个点展开 模型够不够强,泛化能力行不行,能不能从屏幕走进现实世界。 但 OpenMind 的切入点有点反着来。 它并没有假设机器一开始就会表现得很好,而是默认它们会犯错、会失控、会留下后果。 这个前提一旦成立,整个系统的设计逻辑就会完全变掉。 在现实世界里,真正难的从来不是能不能做,而是做错了怎么办。 一段代码跑错了,最多是回滚。 一个机器人跑错了,可能是事故、损失,甚至责任纠纷。 OpenMind 明显是从这个现实约束出发的。 你会发现它花了大量精力去做一件在早期阶段非常不讨好的事情 让机器拥有不可转移的身份、完整的执行记录,以及可累积的声誉轨迹。 这些东西不会让机器人更聪明,也不会让 demo 看起来更炫。 但它们在悄悄解决一个更底层的问题 当机器开始长期运行,系统要如何记住它曾经做过什么。 在 OpenMind 的结构里,机器人不是一次性工具。 它更像一个长期存在的执行体,有历史、有信用,也有负反馈。 你不能靠重启来抹掉过去的行为。 执行得越稳定,系统给你的权限越高。 出错次数越多,你能参与的任务就会被逐步收紧。 这种设计其实非常反爽点。 因为它直接压缩了操作空间,也牺牲了短期效率。 但换来的,是一个可以持续运行的秩序。 很多项目在讲未来的机器社会时,会默认一个隐含前提: 只要模型足够好,规则自然会变得不重要。 OpenMind 的判断恰好相反。 它更像是在说,如果没有规则兜底,智能越强,系统越危险。 所以我越来越觉得,OpenMind 真正在做的,并不是机器人的 Android 是一套让机器可以被纳入社会结构的基础设施。 不是让它们更像人,是让它们先学会被约束。 这条路在当下阶段,很难成为流量中心。 它不制造情绪,也不迎合想象空间。 但一旦机器人真的开始进入公共空间、商业系统、基础设施,这套东西就会变得不可绕开。 OpenMind 押的不是短期爆发,而是一个更慢的事实 未来的机器世界,首先是一个责任世界,其次才是一个智能世界。 理解这一点之后,你会发现它很多看起来保守的设计,其实非常现实。 它不是在赌技术奇迹,而是在给一个必然到来的复杂系统,提前搭好护栏。 #OpenMind #KAITO

草帽 boy

34,967 Aufrufe • vor 4 Monaten