正在加载视频...

视频加载失败

阿里刚刚放出了其GUI Agent第三代框架:Mobile-Agent-v3,在10+GUI基准测试中取得了SOTA性能 在AndroidWorld上达到73.3,在OSWorld上达到37.7 Mobile-Agent-v3是一款基于GUI-Owl的跨平台多智能体框架,GUI-Owl也同时被开源,这是一款多模态跨平台GUI虚拟层模型 GUI-Owl作为GUI自动化基础模型,具备GUI感知、落地、端到端操作能力 可以理解GUI界面布局、元素,把指令转化为具体的屏幕坐标和操作,完成完整的GUI操作流程 Mobile-Agent-v3利用GUI-Owl能力与GUI交互,具备任务分解、规划以及进度管理、异常处理和反射能力、关键信息记录能力 比如,完成特定目标制定行动计划,跟踪任务执行进度,反馈调整行动。具备关键信息记录能力,支持跨应用任务 #MobileAgentv3 #GUIAgent #AIagent

16,734 次观看 • 9 个月前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

17,239 次观看 • 6 天前