正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

测试了下阿里千问APP点外卖的功能整体上还可以，我们可以看到它后台工作的流程，应该也是在一个云端虚拟主机里面完成。自动规划任务，然后去云端电脑中完成这是我昨晚测试点宵夜的过程↓

小互

102,876 subscribers

25,487 次观看 • 5 个月前 •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

Manus 体验报告能自动完成任务并交付结果的AI代理全部是在一个云端电脑上完成，AI自动思考分析、自动通过浏览器访问网站收集数据、完成内容撰写最后在云端电脑运行各种程序并编写代码给你交付出相应的文档、音频、视觉、网站交互结果。真实体验是一个任务运行的时间会很长，但是你可以干别的事情等待它完成。总体来看交付的结果还是不错的。

Manus 体验报告能自动完成任务并交付结果的AI代理全部是在一个云端电脑上完成，AI自动思考分析、自动通过浏览器访问网站收集数据、完成内容撰写最后在云端电脑运行各种程序并编写代码给你交付出相应的文档、音频、视觉、网站交互结果。真实体验是一个任务运行的时间会很长，但是你可以干别的事情等待它完成。总体来看交付的结果还是不错的。

小互

304,062 次观看 • 1 年前

我的龙虾帮我把日本七天旅行全安排了，行程 + 机票都查好了，最后还把结果发到了我邮箱。用的是扣子 2.5，拆解一下它是怎么做的。这次主打的概念是"满配 Agent"，说白了就是 AI 不再只是一个聊天框，你可以给它配一台云手机、一台云电脑、一个独立邮箱，让它自己去干活。先建了个 Agent，给它起了名换了头像。然后去虾评装了个旅行规划 Skill，让它用云手机帮我排行程。规划完之后它用自己的邮箱把行程发到了我个人邮箱。第一印象：确实不只是聊天了👇

我的龙虾帮我把日本七天旅行全安排了，行程 + 机票都查好了，最后还把结果发到了我邮箱。用的是扣子 2.5，拆解一下它是怎么做的。这次主打的概念是"满配 Agent"，说白了就是 AI 不再只是一个聊天框，你可以给它配一台云手机、一台云电脑、一个独立邮箱，让它自己去干活。先建了个 Agent，给它起了名换了头像。然后去虾评装了个旅行规划 Skill，让它用云手机帮我排行程。规划完之后它用自己的邮箱把行程发到了我个人邮箱。第一印象：确实不只是聊天了👇

Yanhua

51,696 次观看 • 2 个月前

又一个新的AI应用开发工具非常适合小白用户，开发好玩的简单应用只需要描述奶底需求即可，所有生成的应用都可以直接通过网页访问，无需部署。而且牛p的是支持下载生成好应用的源代码，包括前端+后端代码包😎 我测试生成了一个性格测试搞笑应用，还不错的，你们看看↓ 平台介绍是多个 AI 智能体协作完成任务有专门负责理解你的想法的；有的专门写代码；有的专门设计界面还有测试和优化功能的AI 一起工作

又一个新的AI应用开发工具非常适合小白用户，开发好玩的简单应用只需要描述奶底需求即可，所有生成的应用都可以直接通过网页访问，无需部署。而且牛p的是支持下载生成好应用的源代码，包括前端+后端代码包😎 我测试生成了一个性格测试搞笑应用，还不错的，你们看看↓ 平台介绍是多个 AI 智能体协作完成任务有专门负责理解你的想法的；有的专门写代码；有的专门设计界面还有测试和优化功能的AI 一起工作

小互

20,076 次观看 • 1 年前

有好多同学问我想搞 AI Agent，但是不知道怎样选模型。这次给大家来一个自动评测大模型的框架 YourBench 这个框架允许你上传你需要的材料（比如病例），然后生成测试集，来测试你需要选取的大模型，看哪个大模型最适合你的场景。全程自动化完成。我给大家录制的这是网页demo，可以上传PDF或者其他格式的文本文件，然后生成评测题目，这些评测题目都是问答题，比如我直接塞了一本哈利波特与魔法石。它生成的测试题有一个是，守护魔法石的魔法中，有哪个施法者与哈利有个人关系。答案是海格。因为三头犬是海格布置的。可以看到它生成完毕测试集后，然后框架还可以进行自动测试。最后测试完毕，得到结果是前五个模型都回答得不错。感兴趣的同学可以关注下地址：

有好多同学问我想搞 AI Agent，但是不知道怎样选模型。这次给大家来一个自动评测大模型的框架 YourBench 这个框架允许你上传你需要的材料（比如病例），然后生成测试集，来测试你需要选取的大模型，看哪个大模型最适合你的场景。全程自动化完成。我给大家录制的这是网页demo，可以上传PDF或者其他格式的文本文件，然后生成评测题目，这些评测题目都是问答题，比如我直接塞了一本哈利波特与魔法石。它生成的测试题有一个是，守护魔法石的魔法中，有哪个施法者与哈利有个人关系。答案是海格。因为三头犬是海格布置的。可以看到它生成完毕测试集后，然后框架还可以进行自动测试。最后测试完毕，得到结果是前五个模型都回答得不错。感兴趣的同学可以关注下地址：

karminski-牙医

23,579 次观看 • 1 年前

试了一下昨天这个海外产品 MuleRun，发现很牛啊。从理念和效果上看都很厉害，感觉 Agent 产品要有新品类了。我眼睁睁看这个 AI 帮我打完了星穹铁道的每日任务。这个最强的核心能力是，每个用户都会有一个完整的虚拟机可以运行 Agent 帮你操作里面的软件，不只是浏览器。 Agent 创建者可以把完成任务的环境建好，用户就能直接用这些自动化的 Agent。不是 Manus 那种你只能看到有限文件和界面的，你甚至可以自己操作里面的 Windows 电脑，这样想象力就丰富超级多了，Agent 终于拜托了 Office 三件套和网页生成。他可以帮你自动做游戏的日常，能帮你用 Blender 建模。里面甚至还有帮你自动打崩坏星穹铁道的每日任务的 Agent 。我亲眼看着他找到游戏的图标启动引导我登录之后开始自己操作角色和界面打对应的日常任务，太省心了，而且这个不死板，你可以指定任务完成的顺序和轮数以及完成哪些任务。我还用里面的 Blender Agent 让他创建了一个灯塔模型。里面还有帮你做视频的以及刷评论作图的 Agent，要是有邀请可以试试，很好玩。

试了一下昨天这个海外产品 MuleRun，发现很牛啊。从理念和效果上看都很厉害，感觉 Agent 产品要有新品类了。我眼睁睁看这个 AI 帮我打完了星穹铁道的每日任务。这个最强的核心能力是，每个用户都会有一个完整的虚拟机可以运行 Agent 帮你操作里面的软件，不只是浏览器。 Agent 创建者可以把完成任务的环境建好，用户就能直接用这些自动化的 Agent。不是 Manus 那种你只能看到有限文件和界面的，你甚至可以自己操作里面的 Windows 电脑，这样想象力就丰富超级多了，Agent 终于拜托了 Office 三件套和网页生成。他可以帮你自动做游戏的日常，能帮你用 Blender 建模。里面甚至还有帮你自动打崩坏星穹铁道的每日任务的 Agent 。我亲眼看着他找到游戏的图标启动引导我登录之后开始自己操作角色和界面打对应的日常任务，太省心了，而且这个不死板，你可以指定任务完成的顺序和轮数以及完成哪些任务。我还用里面的 Blender Agent 让他创建了一个灯塔模型。里面还有帮你做视频的以及刷评论作图的 Agent，要是有邀请可以试试，很好玩。

歸藏(guizang.ai)

62,449 次观看 • 10 个月前

啊？AI可以自己找活干了？给大家介绍一个炸裂的开源项目 Hephaestus - 这玩意儿让AI Agent自己规划工作，自己发现问题，自己创建任务！抽象到什么程度？它内嵌了个kanban....让AI自己拆解card自己做.... 传统的Agent框架都是你提前写死所有流程，遇到没预料到的情况就傻眼。Hephaestus 直接换了个思路：只定义三个阶段（分析-实现-验证），然后Agent自己看着办。举例：测试Agent在跑测试时，发现了一个性能优化机会，它不是记个log就完事，而是自己创建了一个新的调查任务，然后放到kanban里，然后另一个Agent接手去研究，确认可行后又自己创建实现任务。整个工作流就这么自己长出了一个分支。你给它一个PRD，它分析出5个组件，创建5个并行任务。其中一个Agent干完了发现bug，自己创建修复任务。另一个Agent发现可以优化，自己创建优化分支。工作流是实时生成的，而不是一开始就预测好的。我有空也会测一下试试，看看它能不能真的从0到1自己把活干完。总之先增加到待测试列表。项目地址：

啊？AI可以自己找活干了？给大家介绍一个炸裂的开源项目 Hephaestus - 这玩意儿让AI Agent自己规划工作，自己发现问题，自己创建任务！抽象到什么程度？它内嵌了个kanban....让AI自己拆解card自己做.... 传统的Agent框架都是你提前写死所有流程，遇到没预料到的情况就傻眼。Hephaestus 直接换了个思路：只定义三个阶段（分析-实现-验证），然后Agent自己看着办。举例：测试Agent在跑测试时，发现了一个性能优化机会，它不是记个log就完事，而是自己创建了一个新的调查任务，然后放到kanban里，然后另一个Agent接手去研究，确认可行后又自己创建实现任务。整个工作流就这么自己长出了一个分支。你给它一个PRD，它分析出5个组件，创建5个并行任务。其中一个Agent干完了发现bug，自己创建修复任务。另一个Agent发现可以优化，自己创建优化分支。工作流是实时生成的，而不是一开始就预测好的。我有空也会测一下试试，看看它能不能真的从0到1自己把活干完。总之先增加到待测试列表。项目地址：

karminski-牙医

41,458 次观看 • 7 个月前

通用Agent，测了，设计Agent，测了，视频Agent，测了，能无丝分裂出Agent的母体Agent，今天刚测完🙀 MasterAgent, 它的核心玩法就是通过我的任务提示语反推，能解决这个任务都需要有什么样的能力，然后生成多个Agent，以及对应的工作流。生成后的AI团队还可以手动加人（Agent），手动给人换okr（提示语）。 Agent for Agents （1/6）

通用Agent，测了，设计Agent，测了，视频Agent，测了，能无丝分裂出Agent的母体Agent，今天刚测完🙀 MasterAgent, 它的核心玩法就是通过我的任务提示语反推，能解决这个任务都需要有什么样的能力，然后生成多个Agent，以及对应的工作流。生成后的AI团队还可以手动加人（Agent），手动给人换okr（提示语）。 Agent for Agents （1/6）

卡尔的AI沃茨

34,527 次观看 • 10 个月前

卧槽，我的MacBook第十款软件终于搞定了！有了这软件我再也不用天天守电脑了，也是评论区推荐的，它就是完全免费的远程软件—UU远程，说实话，一开始我真没把远程控制当回事，总觉得这东西就是临时救急，看一眼电脑。结果这两天我在 Mac 上跑 Codex，突然发现不对劲。 AI 写代码不是一下就完事，它要读项目、改文件、跑测试、等报错、再改。中间随便一卡，就是十几分钟。我总不能一直坐电脑前盯着它吧？那我到底是在用 AI，还是在给 AI 当保安？所以我干脆把 Mac 放桌上跑任务，自己拿手机用 UU远程连回去看。现在桌面上基本是 4 个窗口一起开： Codex 在改代码，测试在实时跑， Demo 输出在刷新，状态窗口随时验收。人走开也没事。手机上一连回 Mac，直接问 Codex：现在任务完成到哪了？测试挂了，就让它继续修；测试绿了，就看最终输出；结果对了，当场验收。这就是UU的终端功能，可以绕过图形，直接用命令行的形式操作，改好了直接打开UU远程桌面看结果，想改的话直接用终端接着改，效率拉满最关键的是，它现在免费。不用开会员，也没广告弹窗打断。这点对我这种刚换 Mac、到处装软件的人太友好了。早知道 UU远程这么顺手，我前面那些远程工具真不用折腾那么久。而且它不是只能手机连电脑，手机、平板、Mac、Windows 都能互连。远程切窗口、看日志、敲终端，延迟比我想象中低很多。还有个细节我挺喜欢：可以开被控端黑屏/静音，断连后自动锁屏。人在外面连自己电脑，安全感会强很多。现在我的新 Mac 基本就是： Mac 在桌上跑， Codex 在里面干活，我在手机上看进度、补命令、验收结果。以前远程控制是应急工具，现在 AI 时代，它反而变成了刚需。

卧槽，我的MacBook第十款软件终于搞定了！有了这软件我再也不用天天守电脑了，也是评论区推荐的，它就是完全免费的远程软件—UU远程，说实话，一开始我真没把远程控制当回事，总觉得这东西就是临时救急，看一眼电脑。结果这两天我在 Mac 上跑 Codex，突然发现不对劲。 AI 写代码不是一下就完事，它要读项目、改文件、跑测试、等报错、再改。中间随便一卡，就是十几分钟。我总不能一直坐电脑前盯着它吧？那我到底是在用 AI，还是在给 AI 当保安？所以我干脆把 Mac 放桌上跑任务，自己拿手机用 UU远程连回去看。现在桌面上基本是 4 个窗口一起开： Codex 在改代码，测试在实时跑， Demo 输出在刷新，状态窗口随时验收。人走开也没事。手机上一连回 Mac，直接问 Codex：现在任务完成到哪了？测试挂了，就让它继续修；测试绿了，就看最终输出；结果对了，当场验收。这就是UU的终端功能，可以绕过图形，直接用命令行的形式操作，改好了直接打开UU远程桌面看结果，想改的话直接用终端接着改，效率拉满最关键的是，它现在免费。不用开会员，也没广告弹窗打断。这点对我这种刚换 Mac、到处装软件的人太友好了。早知道 UU远程这么顺手，我前面那些远程工具真不用折腾那么久。而且它不是只能手机连电脑，手机、平板、Mac、Windows 都能互连。远程切窗口、看日志、敲终端，延迟比我想象中低很多。还有个细节我挺喜欢：可以开被控端黑屏/静音，断连后自动锁屏。人在外面连自己电脑，安全感会强很多。现在我的新 Mac 基本就是： Mac 在桌上跑， Codex 在里面干活，我在手机上看进度、补命令、验收结果。以前远程控制是应急工具，现在 AI 时代，它反而变成了刚需。

雨哥向前冲

218,740 次观看 • 25 天前

兄弟们手机上现在能跑世界模型了蚂蚁灵光 App 今天上线"体验世界模型"的功能上传一张图，等个几秒到几十秒，就能生成一个可以拿摇杆走进去的 3D 世界。手机的算力怎么可能支撑这件事？应该是云端生成，但是速度这么快，也是牛P，不过效果没有那么惊艳，但是可以玩... 我连测了四张图都进去了...

兄弟们手机上现在能跑世界模型了蚂蚁灵光 App 今天上线"体验世界模型"的功能上传一张图，等个几秒到几十秒，就能生成一个可以拿摇杆走进去的 3D 世界。手机的算力怎么可能支撑这件事？应该是云端生成，但是速度这么快，也是牛P，不过效果没有那么惊艳，但是可以玩... 我连测了四张图都进去了...

小互

56,756 次观看 • 1 个月前

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,275 次观看 • 3 个月前

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

和AI Agent一起工作是一种什么样的体验？扣子空间详细体验评测（下面有邀请码）🧵↓ 字节跳动发布新一代 AI Agent 平台：扣子空间，Slogan为：在扣子空间，和 Agent 一起开始你的工作。也就是你可以像和真人协作一样，和AI一起完成特定任务。通过自然语言交流直接交付结果🫡 例如这个↓ 这个测试是模拟你通过AI来简化你的工作或者提高你的工作效率或者成果，例如假如你是一个幼儿园老师就可以通过AI生成一个交互式的英语学习应用。提高孩子们学习英语的乐趣。它支持调用MCP，这个测试调用了两个MCP，一个是图像生成一个是语音生成。扣子空间，它可以是： ✅「通用实习生」：可以处理各种基础任务，比如整理资料、写文案、查数据等。 ✅「领域专家」：针对具体行业或专业的问题（如法律、医学、设计等）有深入理解，能给出专业建议或完成复杂任务。你可以根据自己的需要选择不同AI来协助你完成任务。它不只是回答问题，AI还能主动帮你做事：比如生成报告、整理数据、写代码、规划日程等。支持两种工作方式：自动模式：AI自动帮你完成任务。协作模式：你可以一步步与AI互动，逐步推进任务，更适合复杂工作。

小互

27,158 次观看 • 1 年前

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,594 次观看 • 2 个月前

2分钟搭建Linux独立代理SOCKS5 IP 现在行情不好的情况下，不妨好好提升自己，大多撸毛的兄弟应该都是买的代理IP，和买的VPN，有时候还会在群里看到很多兄弟问哪里的飞机场好用便宜，自己搭建就好了 github上有一堆一键搭建的脚本，学会自己搭建一方面能节省代理成本，另一方面可以多一台24小时不关机的远程电脑跑跑脚本，最终要的一点是，自己搭建的独立IP干净可靠，有效降低女巫风险 ❚ 一键搭建SOCKS5 安装之前先准备一台linux，一定是linux，windows不行，然后输入以下开源的脚本到linux系统，回车，等待安装，完成后会随机生成账号密码端口，把这些信息记录下来（代码都是免费开源的，放心食用，命令放在第二篇帖子） ❚ 云服务器开启防火墙搭建成功后会发现还是连接不上代理，那是因为云服务器代理商一般都会自己做一定的限制，所以你需要登陆上云服务器的控制台，找到对应的防火墙，然后把上面的随机端口添加上完成以上两个步骤，代理IP就算是搭建成功了，最后随便找个指纹浏览器测试下

2分钟搭建Linux独立代理SOCKS5 IP 现在行情不好的情况下，不妨好好提升自己，大多撸毛的兄弟应该都是买的代理IP，和买的VPN，有时候还会在群里看到很多兄弟问哪里的飞机场好用便宜，自己搭建就好了 github上有一堆一键搭建的脚本，学会自己搭建一方面能节省代理成本，另一方面可以多一台24小时不关机的远程电脑跑跑脚本，最终要的一点是，自己搭建的独立IP干净可靠，有效降低女巫风险 ❚ 一键搭建SOCKS5 安装之前先准备一台linux，一定是linux，windows不行，然后输入以下开源的脚本到linux系统，回车，等待安装，完成后会随机生成账号密码端口，把这些信息记录下来（代码都是免费开源的，放心食用，命令放在第二篇帖子） ❚ 云服务器开启防火墙搭建成功后会发现还是连接不上代理，那是因为云服务器代理商一般都会自己做一定的限制，所以你需要登陆上云服务器的控制台，找到对应的防火墙，然后把上面的随机端口添加上完成以上两个步骤，代理IP就算是搭建成功了，最后随便找个指纹浏览器测试下

Dazmon

37,626 次观看 • 5 个月前

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,496 次观看 • 12 天前

来辣，晚上拿到的月之暗面 Kimi Chat 200 万上下文的资格，做了几个测试看了看效果。先说结论200万上下文确实没问题，找内容也很精准，这下真的国内独一份了，长上下文太方便了。我顺便录了一个视频，具体效果也可以看视频里的内容，下面是具体的测试过程：首先我尝试了一下日常经常做的任务就是长文本翻译，不管是GPT-4还是Claude我们都没办法直接发给他一个超长文章让他一次性全翻译完，都需要点击多次继续，而且还可能出现幻觉。我拿今天英伟达发布会的公告加上宝玉的二次翻译提示词让kimi翻译，它一步就完成了全部内容的翻译，不过二次的有些小问题最后一段丢了，第一次翻译的非常完整。然后是一个人工的大海捞针测试，我给了他一本比较出名的收费小说《道诡异仙》这本小说全文是220万字超了一些我删到了150万字，然后问他里面不同位置的内容。我首先问了四个主要情节和人物的内容，比如主角的师傅叫什么，某个生物的信息之类的答得都非常准确，最后是一个开放题问他小说中的所有势力，他给出了五六个没有全部给出，不过已经很不错了。现在可以去Kimichat首页申请200万字上下文的测试资格，感兴趣可以试试。

来辣，晚上拿到的月之暗面 Kimi Chat 200 万上下文的资格，做了几个测试看了看效果。先说结论200万上下文确实没问题，找内容也很精准，这下真的国内独一份了，长上下文太方便了。我顺便录了一个视频，具体效果也可以看视频里的内容，下面是具体的测试过程：首先我尝试了一下日常经常做的任务就是长文本翻译，不管是GPT-4还是Claude我们都没办法直接发给他一个超长文章让他一次性全翻译完，都需要点击多次继续，而且还可能出现幻觉。我拿今天英伟达发布会的公告加上宝玉的二次翻译提示词让kimi翻译，它一步就完成了全部内容的翻译，不过二次的有些小问题最后一段丢了，第一次翻译的非常完整。然后是一个人工的大海捞针测试，我给了他一本比较出名的收费小说《道诡异仙》这本小说全文是220万字超了一些我删到了150万字，然后问他里面不同位置的内容。我首先问了四个主要情节和人物的内容，比如主角的师傅叫什么，某个生物的信息之类的答得都非常准确，最后是一个开放题问他小说中的所有势力，他给出了五六个没有全部给出，不过已经很不错了。现在可以去Kimichat首页申请200万字上下文的测试资格，感兴趣可以试试。

歸藏(guizang.ai)

83,102 次观看 • 2 年前

Cognition发布首位AI软件工程师Devin，这个演示相当惊艳。 Devin 是一个自主Agents，它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。 Devin成功通过了知名人工智能公司的实际工程面试，甚至还在 Upwork 上完成了实际工作。 Devin 在无辅助情况下正确解决了 13.86% 的问题，远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。它可以学习如何使用不熟悉的技术，可以为成熟的生产资源库做出贡献，可以训练和微调自己的人工智能模型，甚至试着在 Upwork 上给 Devin 提供真实的工作，它也能完成。

Cognition发布首位AI软件工程师Devin，这个演示相当惊艳。 Devin 是一个自主Agents，它通过使用自己的 shell、代码编辑器和网络浏览器来解决工程任务。 Devin成功通过了知名人工智能公司的实际工程面试，甚至还在 Upwork 上完成了实际工作。 Devin 在无辅助情况下正确解决了 13.86% 的问题，远远超过了之前最先进模型 1.96% 的无辅助和 4.80% 的辅助性能。它可以学习如何使用不熟悉的技术，可以为成熟的生产资源库做出贡献，可以训练和微调自己的人工智能模型，甚至试着在 Upwork 上给 Devin 提供真实的工作，它也能完成。

歸藏(guizang.ai)

64,837 次观看 • 2 年前

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务，其实没必要，有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具，最特殊的一个工具叫 Task，它本质就是一个 Claude Code 的克隆工具，只不过是作为 Claude Code 的一个工具。如果你懂递归的话就很好理解。如果你不懂递归，可以这么理解：Claude Code 是个 AI 程序员，它可以用一堆工具，其中最神奇的一个工具叫 Task，就是克隆一个自己的分身去干活！这样做有什么好处呢？就是可以并行多任务，还可以控制上下文，让子任务更专注。举例来说，你粘贴一段错误代码让 Claude Code 去 Debug，并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步： - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖这一步完了后它会起一个 Task，这个 Task 就是专门根据错误信息去找到相关代码的位置，那么这个子任务只需要接受错误信息找上下文，它不管怎么解决 Bug，也不管怎么写测试覆盖。主任务就会等这个子任务完成，子任务完成后，主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖然后调用 TodoRead 工具看下一步要干嘛，现在有充足上下文了，它可以再起一个子任务去根据错误信息和代码修复 Bug，等修复 Bug 的子任务完成了，再回到主任务，继续更新 TODO List，继续读取下一个 Item 最后再启动一个子任务去写测试，测试子任务也完成了，返回结果到主任务，这时候调用 TodoRead 一看任务都处理完了，最后根据前面的任务情况给你一个总结摘要，表示任务都完成了。 Claude Code 真的没有做什么工程上的优化，什么上下文压缩、临时存储，都没有的！就是简单粗暴： 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude，问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具，本质上也是一个 AI 请求，最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude，Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task，把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude，问下一步该干嘛 - 在新的 Task 里面，就是不停的问 Claude 该用啥工具，然后发送工具结果和前面所有历史消息 - 任务完成后，返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉，因为它会启动子任务，这样上下文就分摊到子任务中了，主任务中只是保留子任务完成后的内容。

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务，其实没必要，有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具，最特殊的一个工具叫 Task，它本质就是一个 Claude Code 的克隆工具，只不过是作为 Claude Code 的一个工具。如果你懂递归的话就很好理解。如果你不懂递归，可以这么理解：Claude Code 是个 AI 程序员，它可以用一堆工具，其中最神奇的一个工具叫 Task，就是克隆一个自己的分身去干活！这样做有什么好处呢？就是可以并行多任务，还可以控制上下文，让子任务更专注。举例来说，你粘贴一段错误代码让 Claude Code 去 Debug，并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步： - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖这一步完了后它会起一个 Task，这个 Task 就是专门根据错误信息去找到相关代码的位置，那么这个子任务只需要接受错误信息找上下文，它不管怎么解决 Bug，也不管怎么写测试覆盖。主任务就会等这个子任务完成，子任务完成后，主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖然后调用 TodoRead 工具看下一步要干嘛，现在有充足上下文了，它可以再起一个子任务去根据错误信息和代码修复 Bug，等修复 Bug 的子任务完成了，再回到主任务，继续更新 TODO List，继续读取下一个 Item 最后再启动一个子任务去写测试，测试子任务也完成了，返回结果到主任务，这时候调用 TodoRead 一看任务都处理完了，最后根据前面的任务情况给你一个总结摘要，表示任务都完成了。 Claude Code 真的没有做什么工程上的优化，什么上下文压缩、临时存储，都没有的！就是简单粗暴： 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude，问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具，本质上也是一个 AI 请求，最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude，Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task，把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude，问下一步该干嘛 - 在新的 Task 里面，就是不停的问 Claude 该用啥工具，然后发送工具结果和前面所有历史消息 - 任务完成后，返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉，因为它会启动子任务，这样上下文就分摊到子任务中了，主任务中只是保留子任务完成后的内容。

宝玉

76,401 次观看 • 1 年前

藏师傅第一时间测试了一下 Sora 2，这玩意太吊了不能用常规的 AI 视频模型评判标准去看待它只需要两秒的音频就可以完美克隆你的音色，而且不止可以生成英文语音，中文也行！而且模型具有世界知识，可以自主规划每个分镜，跟一个成熟的导演一样！下面是详细的测试👇：

藏师傅第一时间测试了一下 Sora 2，这玩意太吊了不能用常规的 AI 视频模型评判标准去看待它只需要两秒的音频就可以完美克隆你的音色，而且不止可以生成英文语音，中文也行！而且模型具有世界知识，可以自主规划每个分镜，跟一个成熟的导演一样！下面是详细的测试👇：

歸藏(guizang.ai)

181,401 次观看 • 8 个月前

发现了！Claude Code 目前最牛逼的用法就是把最新的动态工作流和 /goal 一起用，动态工作流是新出的功能，Claude 可自动规划、调动数十至数百个并行子代理，完成超大规模工程任务，/goal 会督促claude一直工作直到完成先进入 Claude Code，输入 /effort 选 ultracode，再输入 /goal ，后面写上你想做的具体目标完成了！你甚至可以先去健身，Claude code会自己一直工作、自己验证、自己迭代，直到目标达成你只需要考虑Token账单问题就可以了😂

发现了！Claude Code 目前最牛逼的用法就是把最新的动态工作流和 /goal 一起用，动态工作流是新出的功能，Claude 可自动规划、调动数十至数百个并行子代理，完成超大规模工程任务，/goal 会督促claude一直工作直到完成先进入 Claude Code，输入 /effort 选 ultracode，再输入 /goal ，后面写上你想做的具体目标完成了！你甚至可以先去健身，Claude code会自己一直工作、自己验证、自己迭代，直到目标达成你只需要考虑Token账单问题就可以了😂

梭哈.AI

17,315 次观看 • 16 天前