正在加载视频...

视频加载失败

测试了下 阿里千问APP点外卖的功能 整体上还可以,我们可以看到它后台工作的流程,应该也是在一个云端虚拟主机里面完成。 自动规划任务,然后去云端电脑中完成 这是我昨晚测试点宵夜的过程↓

25,487 次观看 • 5 个月前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

卧槽,我的MacBook第十款软件终于搞定了! 有了这软件我再也不用天天守电脑了,也是评论区推荐的, 它就是完全免费的远程软件—UU远程, 说实话,一开始我真没把远程控制当回事, 总觉得这东西就是临时救急,看一眼电脑。 结果这两天我在 Mac 上跑 Codex,突然发现不对劲。 AI 写代码不是一下就完事, 它要读项目、改文件、跑测试、等报错、再改。 中间随便一卡,就是十几分钟。 我总不能一直坐电脑前盯着它吧? 那我到底是在用 AI,还是在给 AI 当保安? 所以我干脆把 Mac 放桌上跑任务, 自己拿手机用 UU远程连回去看。 现在桌面上基本是 4 个窗口一起开: Codex 在改代码, 测试在实时跑, Demo 输出在刷新, 状态窗口随时验收。 人走开也没事。 手机上一连回 Mac, 直接问 Codex:现在任务完成到哪了? 测试挂了,就让它继续修; 测试绿了,就看最终输出; 结果对了,当场验收。 这就是UU的终端功能, 可以绕过图形,直接用命令行的形式操作, 改好了直接打开UU远程桌面看结果, 想改的话直接用终端接着改,效率拉满 最关键的是,它现在免费。 不用开会员,也没广告弹窗打断。 这点对我这种刚换 Mac、到处装软件的人太友好了。 早知道 UU远程这么顺手,我前面那些远程工具真不用折腾那么久。 而且它不是只能手机连电脑, 手机、平板、Mac、Windows 都能互连。 远程切窗口、看日志、敲终端,延迟比我想象中低很多。 还有个细节我挺喜欢: 可以开被控端黑屏/静音, 断连后自动锁屏。 人在外面连自己电脑,安全感会强很多。 现在我的新 Mac 基本就是: Mac 在桌上跑, Codex 在里面干活, 我在手机上看进度、补命令、验收结果。 以前远程控制是应急工具, 现在 AI 时代,它反而变成了刚需。

雨哥向前冲

218,740 次观看 • 25 天前

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,594 次观看 • 2 个月前

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,496 次观看 • 12 天前

我看到有人在让“Claude Code”自己开新进程 `claude -p `实现多任务,其实没必要,有更简单的办法。这个简单办法就是让它自己开子 Agent。Claude Code 现在有 18 个工具,最特殊的一个工具叫 Task,它本质就是一个 Claude Code 的克隆工具,只不过是作为 Claude Code 的一个工具。 如果你懂递归的话就很好理解。如果你不懂递归,可以这么理解:Claude Code 是个 AI 程序员,它可以用一堆工具,其中最神奇的一个工具叫 Task,就是克隆一个自己的分身去干活! 这样做有什么好处呢?就是可以并行多任务,还可以控制上下文,让子任务更专注。 举例来说,你粘贴一段错误代码让 Claude Code 去 Debug,并且还让它写测试代码覆盖这个错误。Claude Code 会先调用 TodoWrite 这个工具写一个 TODO List。把任务分成 3 步: - [ ] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖 这一步完了后它会起一个 Task,这个 Task 就是专门根据错误信息去找到相关代码的位置,那么这个子任务只需要接受错误信息找上下文,它不管怎么解决 Bug,也不管怎么写测试覆盖。 主任务就会等这个子任务完成,子任务完成后,主任务就调用 TODO Write 更新 TODO List。 - [x] 根据错误信息收集相关代码 - [ ] 根据错误信息和相关代码解决 Bug - [ ] 写新的测试覆盖 然后调用 TodoRead 工具看下一步要干嘛,现在有充足上下文了,它可以再起一个子任务去根据错误信息和代码修复 Bug,等修复 Bug 的子任务完成了,再回到主任务,继续更新 TODO List,继续读取下一个 Item 最后再启动一个子任务去写测试,测试子任务也完成了,返回结果到主任务,这时候调用 TodoRead 一看任务都处理完了,最后根据前面的任务情况给你一个总结摘要,表示任务都完成了。 Claude Code 真的没有做什么工程上的优化,什么上下文压缩、临时存储,都没有的!就是简单粗暴: 1. 把用户问题、系统提示词、能用到的工具一股脑发给 Claude,问下一步该干嘛 2. Claude 就返回说现在你要到 TodoWriter 工具 3. Claude Code 就去调用 TodoWriter 工具,本质上也是一个 AI 请求,最后返回生成的 Todo List 4. 然后 Claude Code 把工具返回结果和前面的所有消息继续发给 Claude,Claude 返回说你现在要去起一个新的 Task 去收集代码了 5. 然后 Claude Code 就起一个新的 Task,把错误信息和要求收集相关代码的任务说明、系统提示词、环境说明、能用到的工具一股脑发给 Claude,问下一步该干嘛 - 在新的 Task 里面,就是不停的问 Claude 该用啥工具,然后发送工具结果和前面所有历史消息 - 任务完成后,返回任务结果 6. 然后 Claude Code 把子 Task 的结果和前面历史信息一起发给 Claude 问下一步干嘛 7. 就这样循环直到 Claude 认为任务完成了 所以你经常看到 Claude Code 在那几十分钟上下文也没爆掉,因为它会启动子任务,这样上下文就分摊到子任务中了,主任务中只是保留子任务完成后的内容。

宝玉

76,401 次观看 • 1 年前