Loading video...
Video Failed to Load
这是一个 OpenAI 的 o1 模型编写网页游戏的案例,这个例子是编写一个找松鼠的游戏,屏幕上每秒钟增加一个🍓并且在跳动,你要控制一只🐨去躲草莓,等到3秒后,🐿️会出来,你要绕过🍓找到🐿️。 这个游戏首先逻辑有一点复杂,另外是一个以前没出现过的游戏(如果我没记错的话),以前的模型可能是无法一次性生成可以运行的游戏代码。所以以前的模型在演示生成代码时,大多都是用一些贪吃蛇这种经典游戏来演示,毕竟代码都训练过,很容易就生成了。 这里 o1 一次生成可以执行的结果,确实是不错的。 生成游戏时的提示词: 使用 pygame 制作一个名为“找松鼠”的游戏: 每秒钟随机生成一个草莓,并在屏幕上弹跳。草莓的图标是 strawberry.png。 如果草莓碰到你,你会死亡。 三秒钟后,松鼠图标会生成并在屏幕上弹跳。松鼠的图标是 squirrel.png。如果你碰到它,你就赢了。 * 确保所有图标的大小为 10 像素乘 48 像素。 * 使用 resco colors 作为基础,在屏幕角落添加一个定时器。 * 在游戏开始前显示游戏说明。 * 当你赢或输时,游戏会自动重新开始。 * 在单人模式下完成游戏。
18,120 views • 1 year ago •via X (Twitter)
15 Comments

小时候有么有做过一些逻辑智力题,类似于: "当公主的年龄是王子过去年龄的两倍时,公主的年龄等于她当前年龄与王子当前年龄之和的一半。公主和王子的年龄分别是多少?" 看看 GPT o1 能不能做出来!

量子物理学家马里奥•克莱恩(Mario Krenn)向 OpenAI 的 o1 模型提出一个关于特定的量子算符应用的问题,之前的模型,比如 GPT-4 很可能无法很好地完成这个任务。 但是,与 GPT-4 的回答相比,o1 模型的回答提供了非常详细的数学推导,并且结果是正确的。

记得以前吴恩达老师讲大语言模型时,专门举了个例子说大语言模型不会数单词“strawberry”中字母“R”的个数,因为模型的处理单位是 Token 而不是单词或者字符,所以它无法正确数对有多少个“R”,大语言模型的设计目标是处理文本,而不是字符或单词。 而新的 o1 模型是一个推理模型,内置推理能力的模型能在给出答案之前会先思考避免错误。

OpenAI 最新的 o1 模型写代码能力的演示,演示的是编写一个可视化 Transformer 中自注意力机制的交互效果网页,但最近看多了炫酷的代码演示,这个真的算不上效果多好。

一些简单的物理问题,对于人类来说,很简单,因为我们已经熟知了这个世界的运行规律,但是对于 AI 来说,要理解物理世界还很困难,而 o1 已经开始能通过推理,解决一些简单的物理问题,比如: “假设在地球上的物理定律下,一颗小草莓被放在一个普通的杯子里,然后杯子倒扣在桌子上。接着有人拿起杯子,那么草莓会在哪里?请解释推理过程。”

OpenAI o1 帮助医生收集整理患者信息,为疑难杂症的诊断提供帮助

让 OpenAI o1 写一个贪吃蛇的网页游戏,这不算什么,但是后面让它在网格中添加障碍物,并且障碍物的形状连在一起时 A I 两个字母,这确实有了一点智能的感觉。

OpenAI 这个 o1 的演示例子很不错,挑战了以前 LLM 的弱项:写符合特定要求的诗,比如:写一首关于松鼠和树袋熊踢足球的六行诗,且符合以下限制条件:第二行的最后一个单词应以字母“i”结尾。第三行的第二个单词应以“u”开头。第五行倒数第二个单词是“eucalyptus”(桉树),而最后一行的每个单词都有两个音节。 这以前在 GPT-4o 是很难很难成功的,但是现在能做到了。

让 OpenAI o1 模型玩逻辑游戏数织,数织是一种逻辑游戏,以猜谜的方式绘画黑白位图。在一个网格中,每一行和列都有一组数,玩家需根据它们来填满或留空格子,最后就可以由此得出一幅图画。例如,“4 8 3”的意思就是指该行或列上有三条独立的线,分别占了4、8和3格,而每条线最少要由一个空格分开。传统上,玩家是以黑色填满格子,和以“×”号标记一定不需要填充的格子。 数织是一个NP完全的问题,有较强的逻辑推理在里面,o1 可以解出并可视化的方式描述结果。

当年 Devin 号称是第一个 AI 软件工程,风头一时无两,不过自从出了几个演示视频后再没什么声音,最近倒是随着 o1 模型的发布跟着露了下脸,演示了如何让 Devin 写一个程序分析某条推文表达的情绪是什么,在调试过程中,AI 发现浏览器无法获取推文信息,就改成了 API 获取推文信息,能自己根据当时的场景做出决策,就像一个真正的工程师那样。 Devin 到现在还只是演示,也不知道实际如何,但是 Scott Wu 说的这句话倒是挺对的:“编程的核心一直都是将你的想法变为现实, 现在你能够以比以往任何时候都更快、 更清晰的方式去实现这个目标。”

据说通过在韩语字符中添加一些多余的不必要的辅音,就可以扭曲原意,让大语言模型无法识别,但是母语是韩语的人可以通过脑补轻松看懂,以前的模型例如 GPT-4o 无法解读这种“加密”扭曲过的韩文,但是现在 OpenAI 新的 o1 模型通过推理可以解密出来加密扭曲前的韩文。

这是 OpenAI o1 背后的团队一起制作的一个短小的视频,其中一个人提出了一个问题:“什么是推理呢?”,这真是个好问题,感觉似乎知道答案,又似乎不知道如何表达。 但是他紧接着自己回复了这个问题:“一种理解推理的方式是, 有时候我们会提出一些问题需要立即得到答案因为这些是简单的问题。例如,如果你问“意大利的首都是哪里?”, 答案是罗马,几乎不需要多想。但如果你在思考一个复杂的难题, 或者想写一份好的商业计划书, 或者撰写一本小说, 你可能需要花些时间去深入思考。而你花在思考上的时间越多,结果往往越好。因此,推理是一种将思考时间转化为更好结果的能力, 不论你正在处理什么任务。” 简单来说就是推理意味着慢思考,区别于快思考马上给出答案,在得出结果之前要先自我反思质疑。这可能就是 o1 和以往模型的核心区别,以前 GPT-4,除非你额外要求,默认是马上给出答案,并不会去自我反思自我质疑的。 另外他们还分享了做研究中的“啊哈”时刻,就是那种灵光一现顿悟的时刻,突然发生了意想不到的突破, 让一切突然变得明了。不知道 AI 是不是将来也会自己产生 “啊哈” 时刻,突然觉醒统治人类😄

说实话这个例子很一般,目前的coding agent都能搞定,我用claude dev agent在本地用claude 3.5 sonnect模型本地实测了一下,也一次性正确生成结果(考拉图片我懒得替换了)。

啥时候表演个30年前的俄罗斯方块

rst @readwise save thread

