Video yükleniyor...

Video Yüklenemedi

Ana Sayfaya Dön

预测真实世界下一秒 北京智源研究院推出全新的多模态世界模型:Emu3.5 很多传统图像生成模型的主要问题是: 它们“不懂世界”运行的规律,无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上,进一步让AI具备: 理解真实世界的空间关系 推理物体随时间变化的规律 预测“世界下一秒”会是什么样 不同于以往为图像、文字、视频分开设计模型,Emu3.5 将它们全部“统一”在一个系统中: 首先把多模态信息包括图文视频都统一成了token; 模型通过“预测下一个 token”来学习不同模态间的关系; 任务统一为 NSP:预测下一个世界状态(包括视觉和语言)。 Emu3.5 不再只关注“文本之间的逻辑”, 而是让模型学习“世界是如何变化的”。 意思就是它不再区分: 这是一张图 这是一句话 这是视频的一帧 在它眼里,它们都是同一套“世界积木”。 然后模型只做一件事: 预测下一块积木是什么 如果下一块积木是一行字 → 它补全文字 如果是下一帧画面 → 它补全动作 如果是下一步结果 → 它推演世界变化 所以: 预测下一 Token = 预测“世界下一秒”会是什么样

14,772 görüntüleme • 6 ay önce •via X (Twitter)

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

图灵奖获得者、 AI 三大教父之一的 LeCun在达沃斯的发言,算是把整个硅谷的遮羞布扯了。 他说现在整个行业都被LLM彻底洗脑了,所有人都在同一条赛道上互相挖人,谁敢偏离主流谁就被骂落后。 这也是他离开Meta的真正原因,连Meta都已经LLM-pilled,他不想再跟风了。 最扎心的一句话是:纯生成式架构,不管是LLM、VLM还是VLA,永远造不出哪怕猫级的智能体。 因为它们本质上只是下一个token预测机,只能在文字和像素的空间里做统计关联,从来没有真正理解过这个世界的因果。 它们不会预测行动的后果,不会真正的规划,更没有常识。 当然,我不是说LLM没用,短期来看,scaling LLM+微调+工具调用,已经能吃掉80%的白领工作,硅谷所有人往这里冲,也算是完全理性,毕竟钱和机会就在这里。 但长期来看,这是一条有天花板的路。因为你永远不可能在文字地图上,开出一辆真正的车。 机器人、具身智能、长期自主代理、真正的科学发现,这些坎,纯LLM永远跨不过去。 LeCun说,真正的智能必须有世界模型。就是说给定当前的状态和你要做的动作,你要能准确预测下一秒世界会变成什么样。不是简单的像素级的生成,还需要对物理规律和因果关系的抽象建模。 最近Figure、特斯拉、谷歌的机器人项目,其实都在偷偷补这一课,只是没人愿意公开说,LLM不是万能地基。 我理解未来真正的智能,一定是混合栈,LLM负责语言交互和符号推理,世界模型负责因果预测和长期规划,执行层负责把计划变成动作。 LeCun从来没说过要抛弃LLM,他只是反对把LLM当成一切的答案。 硅谷现在最可怕的问题不是卷,是所有人都在同一条赛道上卷得太狠,以至于忘了终点其实根本不在这条赛道上。 世界模型这道坎,迟早要跨。 而谁先跨过去,谁就是下一个时代的赢家。 #YannLeCun #世界模型 #AGI #大模型 #具身智能

AYi

336,088 görüntüleme • 1 ay önce