Loading video...

Video Failed to Load

Go Home

这是一个 OpenAI 的 o1 模型编写网页游戏的案例,这个例子是编写一个找松鼠的游戏,屏幕上每秒钟增加一个🍓并且在跳动,你要控制一只🐨去躲草莓,等到3秒后,🐿️会出来,你要绕过🍓找到🐿️。 这个游戏首先逻辑有一点复杂,另外是一个以前没出现过的游戏(如果我没记错的话),以前的模型可能是无法一次性生成可以运行的游戏代码。所以以前的模型在演示生成代码时,大多都是用一些贪吃蛇这种经典游戏来演示,毕竟代码都训练过,很容易就生成了。 这里 o1 一次生成可以执行的结果,确实是不错的。 生成游戏时的提示词: 使用 pygame 制作一个名为“找松鼠”的游戏: 每秒钟随机生成一个草莓,并在屏幕上弹跳。草莓的图标是 strawberry.png。 如果草莓碰到你,你会死亡。 三秒钟后,松鼠图标会生成并在屏幕上弹跳。松鼠的图标是 squirrel.png。如果你碰到它,你就赢了。 * 确保所有图标的大小为 10 像素乘 48 像素。 * 使用 resco colors 作为基础,在屏幕角落添加一个定时器。 * 在游戏开始前显示游戏说明。 * 当你赢或输时,游戏会自动重新开始。 * 在单人模式下完成游戏。

18,120 views • 1 year ago •via X (Twitter)

15 Comments

宝玉's profile picture
宝玉1 year ago

小时候有么有做过一些逻辑智力题,类似于: "当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?" 看看 GPT o1 能不能做出来!

宝玉's profile picture
宝玉1 year ago

量子物理学家马里奥•克莱恩(Mario Krenn)向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,之前的模型,比如 GPT-4 很可能无法很好地完成这个任务。 但是,与 GPT-4 的回答相比,o1 模型的回答提供了非常详细的数学推导,并且结果是正确的。

宝玉's profile picture
宝玉1 year ago

记得以前吴恩达老师讲大语言模型时,专门举了个例子说大语言模型不会数单词“strawberry”中字母“R”的个数,因为模型的处理单位是 Token 而不是单词或者字符,所以它无法正确数对有多少个“R”,大语言模型的设计目标是处理文本,而不是字符或单词。 而新的 o1 模型是一个推理模型,内置推理能力的模型能在给出答案之前会先思考避免错误。

宝玉's profile picture
宝玉1 year ago

OpenAI 最新的 o1 模型写代码能力的演示,演示的是编写一个可视化 Transformer 中自注意力机制的交互效果网页,但最近看多了炫酷的代码演示,这个真的算不上效果多好。

宝玉's profile picture
宝玉1 year ago

一些简单的物理问题,对于人类来说,很简单,因为我们已经熟知了这个世界的运行规律,但是对于 AI 来说,要理解物理世界还很困难,而 o1 已经开始能通过推理,解决一些简单的物理问题,比如: “假设在地球上的物理定律下,一颗小草莓被放在一个普通的杯子里,然后杯子倒扣在桌子上。接着有人拿起杯子,那么草莓会在哪里?请解释推理过程。”

宝玉's profile picture
宝玉1 year ago

OpenAI o1 帮助医生收集整理患者信息,为疑难杂症的诊断提供帮助

宝玉's profile picture
宝玉1 year ago

让 OpenAI o1 写一个贪吃蛇的网页游戏,这不算什么,但是后面让它在网格中添加障碍物,并且障碍物的形状连在一起时 A I 两个字母,这确实有了一点智能的感觉。

宝玉's profile picture
宝玉1 year ago

OpenAI 这个 o1 的演示例子很不错,挑战了以前 LLM 的弱项:写符合特定要求的诗,比如:写一首关于松鼠和树袋熊踢足球的六行诗,且符合以下限制条件:第二行的最后一个单词应以字母“i”结尾。第三行的第二个单词应以“u”开头。第五行倒数第二个单词是“eucalyptus”(桉树),而最后一行的每个单词都有两个音节。 这以前在 GPT-4o 是很难很难成功的,但是现在能做到了。

宝玉's profile picture
宝玉1 year ago

让 OpenAI o1 模型玩逻辑游戏数织,数织是一种逻辑游戏,以猜谜的方式绘画黑白位图。在一个网格中,每一行和列都有一组数,玩家需根据它们来填满或留空格子,最后就可以由此得出一幅图画。例如,“4 8 3”的意思就是指该行或列上有三条独立的线,分别占了4、8和3格,而每条线最少要由一个空格分开。传统上,玩家是以黑色填满格子,和以“×”号标记一定不需要填充的格子。 数织是一个NP完全的问题,有较强的逻辑推理在里面,o1 可以解出并可视化的方式描述结果。

宝玉's profile picture
宝玉1 year ago

当年 Devin 号称是第一个 AI 软件工程,风头一时无两,不过自从出了几个演示视频后再没什么声音,最近倒是随着 o1 模型的发布跟着露了下脸,演示了如何让 Devin 写一个程序分析某条推文表达的情绪是什么,在调试过程中,AI 发现浏览器无法获取推文信息,就改成了 API 获取推文信息,能自己根据当时的场景做出决策,就像一个真正的工程师那样。 Devin 到现在还只是演示,也不知道实际如何,但是 Scott Wu 说的这句话倒是挺对的:“编程的核心一直都是将你的想法变为现实, 现在你能够以比以往任何时候都更快、 更清晰的方式去实现这个目标。”

宝玉's profile picture
宝玉1 year ago

据说通过在韩语字符中添加一些多余的不必要的辅音,就可以扭曲原意,让大语言模型无法识别,但是母语是韩语的人可以通过脑补轻松看懂,以前的模型例如 GPT-4o 无法解读这种“加密”扭曲过的韩文,但是现在 OpenAI 新的 o1 模型通过推理可以解密出来加密扭曲前的韩文。

宝玉's profile picture
宝玉1 year ago

这是 OpenAI o1 背后的团队一起制作的一个短小的视频,其中一个人提出了一个问题:“什么是推理呢?”,这真是个好问题,感觉似乎知道答案,又似乎不知道如何表达。 但是他紧接着自己回复了这个问题:“一种理解推理的方式是, 有时候我们会提出一些问题需要立即得到答案因为这些是简单的问题。例如,如果你问“意大利的首都是哪里?”, 答案是罗马,几乎不需要多想。但如果你在思考一个复杂的难题, 或者想写一份好的商业计划书, 或者撰写一本小说, 你可能需要花些时间去深入思考。而你花在思考上的时间越多,结果往往越好。因此,推理是一种将思考时间转化为更好结果的能力, 不论你正在处理什么任务。” 简单来说就是推理意味着慢思考,区别于快思考马上给出答案,在得出结果之前要先自我反思质疑。这可能就是 o1 和以往模型的核心区别,以前 GPT-4,除非你额外要求,默认是马上给出答案,并不会去自我反思自我质疑的。 另外他们还分享了做研究中的“啊哈”时刻,就是那种灵光一现顿悟的时刻,突然发生了意想不到的突破, 让一切突然变得明了。不知道 AI 是不是将来也会自己产生 “啊哈” 时刻,突然觉醒统治人类😄

linear uncle's profile picture
linear uncle1 year ago

说实话这个例子很一般,目前的coding agent都能搞定,我用claude dev agent在本地用claude 3.5 sonnect模型本地实测了一下,也一次性正确生成结果(考拉图片我懒得替换了)。

JieJieCat's profile picture
JieJieCat1 year ago

啥时候表演个30年前的俄罗斯方块

OSDev's profile picture
OSDev1 year ago

rst @readwise save thread

Related Videos

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli

karminski-牙医

39,920 views • 1 month ago

OpenAI 在 Codex App 的官方介绍里,提供了一个游戏案例,只花了 700 万 Token,效果相当惊艳。我上周也曾经试图用 AI 做过一个赛车游戏,结果当然是一塌糊涂。可能是我提示词写的不对吧,这是 OpenAI 提供的开发过程和使用的提示词: 我们要求 Codex 制作一款赛车游戏,配备不同的赛车手、八张地图,甚至还有玩家可以通过空格键使用的道具。使用由 GPT 图像驱动的图像生成技能⁠(在新窗口中打开)和网页游戏开发技能⁠(在新窗口中打开),Codex 仅凭一个初始用户提示,便独立使用超过 700 万个 Token 构建了这款游戏。它承担了设计师、游戏开发者和 QA 测试员的角色,通过实际玩游戏来验证其工作。 这款游戏由 Codex 使用 imagen 和 develop-web-game 技能创建,基于以下初始提示(为清晰起见,已加以整理): 使用 Three.js 将 Voxel Velocity 实现为一款 3D 体素风卡丁车竞速游戏,且仅包含一个模式:单场比赛(始终为 3 圈、1 名玩家对战 7 名 CPU,8 条赛道全部立即解锁,无进度系统)。构建最简赛前流程,仅包含:赛道(8 条)、角色(8 个)、难度(轻松/标准/困难)、可选镜像模式、可选允许角色重复,以及开始比赛 (Start Race)。同时提供一个选项菜单和比赛中的暂停菜单(继续/重新开始/退出)。创建一个街机驾驶模型,具备灵敏的操控、对擦碰墙面的宽容判定、以有意义的漂移作为主要技能,并提供一个漂移蓄力系统,可生成精确的加速等级(一级 0.7 秒、二级 1.1 秒、三级 1.5 秒)。基础速度需保持“快速但易读”,并在宽阔道路上维持稳定的车群超车节奏。精确实现 8 种道具,单格道具栏,带轻微的名次加权分配,效果温和(最大失控 ≤1.2 秒、最大转向禁用 ≤0.6 秒),营造轻松混乱但无硬性眩晕。同时加入越野减速,并在加速状态下将越野减速幅度降低 50%。定义 8 名角色的既定属性与 AI 行为倾向,实现 CPU 难度预设、赛道作者定义的竞速/变化样条、漂移区与危险规避逻辑,使 AI 能利用多车道宽度进行干净的超车。并提供 HUD/音频基础功能:名次、圈数/最终圈提示、迷你地图、道具槽、计时/分段、清晰可读的音效 (SFX),以及每条赛道一段循环音乐。 然后,从包含十条通用提示的随机列表中不断向 Codex 重新提示,以便其继续解决问题。以下是其中一条提示的示例: 你的任务是添加新功能,使游戏更接近原版。首先,玩一下游戏,找出与原版相比缺少了什么。然后选择几个缺失的功能并实现它们。在每个功能完成后,务必通过玩游戏来彻底测试并确认其工作正常。如果你在游玩时发现任何漏洞,请优先修复它们。 文章地址:

周尔复

58,601 views • 4 months ago