Загрузка видео...

Не удалось загрузить видео

На главную

👀 如果你的编码 Agent 能看到你的屏幕、操作你的应用呢? 有了 Midscene Skills,Coding Agent 不只是写代码——它会启动应用、操作 UI、截图验证一切是否正常。 桌面应用、移动设备、浏览器,一句 Prompt 搞定。

19,104 просмотров • 3 месяцев назад •via X (Twitter)

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

OpenAI刚刚开源的这个东西,感觉要把程序员的工作方式给整个改写了。 现在大家都在卷模型写代码有多强,但其实真正的瓶颈早就不是生成了。 一个人每天最多同时有效监督3-5个编码Agent,再多就会注意力崩溃,生产力直接归零。 有了Symphony,直接把这个上限干到了几十个。 它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。 你开一个任务,它自动启动一个独立隔离的Codex Agent。 自己写代码,自己跑测试,自己做交叉Review,damn! 全部搞定之后,会给你提交一个完整的证据包。 CI全绿,安全和性能专项审查通过,改了UI就自动录好操作视频。 所有验证全过了,才会出现在你的Human Review队列里。 以后人类的角色可能会被彻底颠覆了。 以前你是监工,盯着Agent一步一步写代码,上下文切到吐。 现在你是老板,只需要看最终的结果。 满意就点合并,不满意就去仓库里补规则补文档补Guardrails。 记住兄弟们,永远不要手把手指挥Agent,永远不要替它干活。 这可不是啥实验室概念,OpenAI自己已经这么干了。 三个工程师,五个月,写了一百万行代码,0行人工写的。 产品已经有几百个内部用户,每天都在迭代。 我觉得他们最厉害的不是模型,是他们把整个仓库变成了Agent能看懂能自主工作的乐园。 现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明,而是看谁能设计出让Agent可靠自主工作的环境。 我觉得未来最好的工程师,再也不是写代码最快的人,而是那些最会写规则,最会设计反馈回路,最会给Agent搭舞台的人。 现在Symphony已经开源了,它甚至不是一个成品。 是一个17k token的完整SPEC。 你把这个SPEC喂给任何一个编码Agent,十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

阿绎 AYi

61,332 просмотров • 2 месяцев назад

Codex 操控电脑的三种方式。Codex 团队成员 Jason 今天写了一篇详细指南,把三者的区别和适用场景理清楚了,这里做个精简版。 【1】Computer Use:最广,也最慢 Computer Use 让 Codex 像人一样看屏幕、点鼠标、敲键盘,操作你电脑上的任何图形界面应用。Spotify、Xcode、系统设置、iOS 模拟器,甚至 iPhone Mirroring 都能控制。 代价是慢。结构化插件可以直接调 API,Computer Use 得一步步看界面、找按钮、等响应、再检查结果。但它能搞定没有 API 的应用,这是其他方式做不到的。 Mac 和 Windows 的体验差距很大:Mac 上 Codex 可以在后台静悄悄地操作,你继续用自己的电脑不受影响;Windows 上它必须占据前台,操作期间你没法用那台机器。 Jason 举了个例子:有次他的快递被偷了,Amazon 说要等 25 分钟才能接通客服。他让 Codex 每五分钟检查一次聊天窗口,客服出现后改为每分钟一次,自动完成退款流程。他去洗了个澡,回来退款已经办好了。 【2】Chrome 扩展:带着你的登录状态 Chrome 扩展让 Codex 使用你已登录的浏览器会话,包括 cookies、账号状态和已有标签页。Gmail、LinkedIn、Salesforce、公司内部后台,这些需要登录才能用的工具,Chrome 扩展是对的选择。 它还能同时控制多个标签页,在一个标签里读信息,到另一个标签里对比,再到第三个标签完成操作。Computer Use 也能操作浏览器,但它只认屏幕坐标,Chrome 扩展理解的是浏览器层面的上下文。 Jason 用它跑了一个长期任务:每天让 Codex 通过 Chrome 检查他的 Twitter 私信、浏览相关新闻、收集反馈,把有价值的内容存到本地文件,但不发任何消息。 要注意的是,网站会把 Codex 的点击和表单提交当作你本人的操作。研究、浏览、起草可以自动化,但发送、发布、付款这类操作最好留给自己确认。 【3】内置浏览器:给开发者的沙盒 内置浏览器住在 Codex 的对话线程里,你和 Codex 共享同一个渲染页面。它不带任何登录状态和 cookies,是个完全隔离的环境。 这反而成了开发场景的优势。它的主场是本地开发服务器、文件预览、公共网页、响应式布局检查和视觉 bug 复现。Codex 可以改代码、操作页面、截图、再跑一遍,形成紧密的反馈循环。 Jason 最喜欢的功能是标注:你可以直接在页面上点击某个元素留评论,比如"这个层级反了""这个按钮间距不够",Codex 会拿着截图和元素上下文去改代码,改完重新打开同一个页面等你下一轮标注。比来回传截图和文字描述高效得多。 【选哪个?】 简单记:任务需要登录状态用 Chrome,需要操作桌面应用用 Computer Use,在做前端开发用内置浏览器。如果有现成的插件或 MCP 能完成任务,优先用结构化工具,视觉控制是最后手段。

宝玉

174,906 просмотров • 16 дней назад