Video yükleniyor...
Video Yüklenemedi
预测真实世界下一秒 北京智源研究院推出全新的多模态世界模型:Emu3.5 很多传统图像生成模型的主要问题是: 它们“不懂世界”运行的规律,无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上,进一步让AI具备: 理解真实世界的空间关系 推理物体随时间变化的规律 预测“世界下一秒”会是什么样 不同于以往为图像、文字、视频分开设计模型,Emu3.5 将它们全部“统一”在一个系统中: 首先把多模态信息包括图文视频都统一成了token; 模型通过“预测下一个 token”来学习不同模态间的关系; 任务统一为 NSP:预测下一个世界状态(包括视觉和语言)。 Emu3.5 不再只关注“文本之间的逻辑”, 而是让模型学习“世界是如何变化的”。 意思就是它不再区分: 这是一张图 这是一句话 这是视频的一帧 在它眼里,它们都是同一套“世界积木”。 然后模型只做一件事: 预测下一块积木是什么 如果下一块积木是一行字 → 它补全文字 如果是下一帧画面 → 它补全动作 如果是下一步结果 → 它推演世界变化 所以: 预测下一 Token = 预测“世界下一秒”会是什么样
14,772 görüntüleme • 6 ay önce •via X (Twitter)
0 Yorum
Yorum bulunmuyor
Orijinal gönderinin yorumları burada görünecek
