Video yükleniyor...

Video Yüklenemedi

Bu video yüklenirken bir sorun oluştu. Bu geçici bir ağ sorunundan kaynaklanıyor olabilir veya video kullanılamıyor olabilir.

Ana Sayfaya Dön

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

小互

109,258 subscribers

14,775 görüntüleme • 7 ay önce •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,222 görüntüleme • 2 ay önce

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

Berryxia.AI

21,075 görüntüleme • 1 ay önce

AI 视频生成，到各种 AI Agent，我一直在思考一个问题：AI 最终会如何改变人类创造和体验数字世界的方式？最开始，AI 帮助我们生成文字和图片；后来，它开始生成越来越逼真的视频。但无论画面质量提升到什么程度，这些内容依然存在一个限制——我们仍然只是观看者。我们可以欣赏 AI 创造出来的场景，却无法真正进入其中，也无法与这个世界产生互动。最近体验 Alaya World Alaya Lab 后，我第一次感觉，AI 视频生成正在探索一个新的方向：它不只是生成一段视频，而是在尝试生成一个可以被探索的世界。 Alaya World 是 Alaya Lab 推出的交互式视频世界模型。用户可以通过文字、图片或者视频作为初始条件，让模型生成一个动态世界。不同于传统视频生成模型“输入 Prompt，输出一段固定视频”的方式，Alaya World 更像是在探索过程中持续构建环境，用户可以在生成的世界中移动视角，并通过交互指令触发新的事件。这也是我认为世界模型和普通视频生成模型最大的区别。过去的视频生成模型解决的是“如何生成一段更加真实的视频”，而世界模型尝试解决的问题是“如何让一个世界持续存在”。如果你进入一个虚拟城市，向前探索，然后回头，你期待看到的是同一个城市，而不是一个重新随机生成的场景。这背后涉及世界模型最核心的挑战：长时间生成的一致性。模型不仅需要知道下一帧画面应该是什么，还需要理解空间关系、历史状态以及用户行为对世界造成的影响。 Alaya World 在技术层面通过空间记忆机制、历史信息保留以及抗漂移训练等方式，提高长时间生成过程中的稳定性。目前模型支持 720p / 24 FPS 实时流式生成，并展示了超过一分钟的连续探索能力。让我觉得这个方向有意思的地方，是它可能会重新定义未来数字内容的生产方式。以游戏行业为例，过去一个虚拟世界需要大量人工制作：美术设计地图、程序编写规则、策划设计剧情。开发者需要提前创造一个固定世界，而玩家进入后按照既定规则体验。但如果世界模型进一步发展，未来的游戏可能不再只是“开发者搭建世界，玩家进入世界”，而是“开发者定义规则，AI 实时生成世界”。玩家体验的不再是一个完全预设好的内容，而是一个随着交互不断变化的环境。当然，Alaya World 目前仍然处于早期阶段。实时生成所需的算力成本、复杂环境理解能力，以及更长期、更稳定的世界一致性，都还有很多问题需要解决。但它让我看到一个值得关注的趋势：AI 的竞争可能不会只停留在生成更漂亮的图片和视频，而是进一步走向创造更真实、更连续、更可交互的世界。过去，人类通过电影记录想象，通过游戏创造虚拟空间。而未来，也许我们只需要描述一个想法，AI 就可以帮助我们生成一个能够进入其中、探索其中的世界。从生成内容，到生成世界，这可能是 AI 下一阶段最值得期待的变化之一。

AI 视频生成，到各种 AI Agent，我一直在思考一个问题：AI 最终会如何改变人类创造和体验数字世界的方式？最开始，AI 帮助我们生成文字和图片；后来，它开始生成越来越逼真的视频。但无论画面质量提升到什么程度，这些内容依然存在一个限制——我们仍然只是观看者。我们可以欣赏 AI 创造出来的场景，却无法真正进入其中，也无法与这个世界产生互动。最近体验 Alaya World Alaya Lab 后，我第一次感觉，AI 视频生成正在探索一个新的方向：它不只是生成一段视频，而是在尝试生成一个可以被探索的世界。 Alaya World 是 Alaya Lab 推出的交互式视频世界模型。用户可以通过文字、图片或者视频作为初始条件，让模型生成一个动态世界。不同于传统视频生成模型“输入 Prompt，输出一段固定视频”的方式，Alaya World 更像是在探索过程中持续构建环境，用户可以在生成的世界中移动视角，并通过交互指令触发新的事件。这也是我认为世界模型和普通视频生成模型最大的区别。过去的视频生成模型解决的是“如何生成一段更加真实的视频”，而世界模型尝试解决的问题是“如何让一个世界持续存在”。如果你进入一个虚拟城市，向前探索，然后回头，你期待看到的是同一个城市，而不是一个重新随机生成的场景。这背后涉及世界模型最核心的挑战：长时间生成的一致性。模型不仅需要知道下一帧画面应该是什么，还需要理解空间关系、历史状态以及用户行为对世界造成的影响。 Alaya World 在技术层面通过空间记忆机制、历史信息保留以及抗漂移训练等方式，提高长时间生成过程中的稳定性。目前模型支持 720p / 24 FPS 实时流式生成，并展示了超过一分钟的连续探索能力。让我觉得这个方向有意思的地方，是它可能会重新定义未来数字内容的生产方式。以游戏行业为例，过去一个虚拟世界需要大量人工制作：美术设计地图、程序编写规则、策划设计剧情。开发者需要提前创造一个固定世界，而玩家进入后按照既定规则体验。但如果世界模型进一步发展，未来的游戏可能不再只是“开发者搭建世界，玩家进入世界”，而是“开发者定义规则，AI 实时生成世界”。玩家体验的不再是一个完全预设好的内容，而是一个随着交互不断变化的环境。当然，Alaya World 目前仍然处于早期阶段。实时生成所需的算力成本、复杂环境理解能力，以及更长期、更稳定的世界一致性，都还有很多问题需要解决。但它让我看到一个值得关注的趋势：AI 的竞争可能不会只停留在生成更漂亮的图片和视频，而是进一步走向创造更真实、更连续、更可交互的世界。过去，人类通过电影记录想象，通过游戏创造虚拟空间。而未来，也许我们只需要描述一个想法，AI 就可以帮助我们生成一个能够进入其中、探索其中的世界。从生成内容，到生成世界，这可能是 AI 下一阶段最值得期待的变化之一。

Ashlyn He

11,311 görüntüleme • 7 gün önce

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

墓碑科技

73,589 görüntüleme • 6 ay önce

大语言模型（LLM）到瓶颈了，但是AI的发展还会继续，我估计，下一个大厂会去卷的东西是世界模型。什么是世界模型？世界模型有什么用？为什么世界模型会比LLM有更大的价值？详情请见视频。

大语言模型（LLM）到瓶颈了，但是AI的发展还会继续，我估计，下一个大厂会去卷的东西是世界模型。什么是世界模型？世界模型有什么用？为什么世界模型会比LLM有更大的价值？详情请见视频。

Ben X

18,065 görüntüleme • 1 yıl önce

测试了一下 Google 的实时生成世界模型 Genie 3 让橘猫进入无限城的世界！可以根据一段文本 or 一张图，生成一个 3D 世界和角色，然后操控角色【实时】在生成的世界中自由探索！单次生成时间在60秒，怎么会这么厉害，今年真的是实时 AI 的元年了。 ▶ 测试地址： ▶ 注：目前仅限 Ultra 用户使用

测试了一下 Google 的实时生成世界模型 Genie 3 让橘猫进入无限城的世界！可以根据一段文本 or 一张图，生成一个 3D 世界和角色，然后操控角色【实时】在生成的世界中自由探索！单次生成时间在60秒，怎么会这么厉害，今年真的是实时 AI 的元年了。 ▶ 测试地址： ▶ 注：目前仅限 Ultra 用户使用

Ring Hyacinth

43,382 görüntüleme • 5 ay önce

把海地搬到美国，它也不会变成美国。斯蒂芬·米勒说：一个国家之所以是它，是因为住在那的人。海地、索马里，在本国就运作不良。你把它们搬到美国，它们也不会“运作良好”。这不是关于你怎么看待某个移民，而是系统性政策问题。如果持续把“第三世界”移民搬进“第一世界”，那么第一世界也终将变成第三世界。这对现在住的人不好，对未来想住的人也不好。这是一场关于西方文明的生存战。米勒的警告背后是一个问题：我们到底想把国家变成什么？

把海地搬到美国，它也不会变成美国。斯蒂芬·米勒说：一个国家之所以是它，是因为住在那的人。海地、索马里，在本国就运作不良。你把它们搬到美国，它们也不会“运作良好”。这不是关于你怎么看待某个移民，而是系统性政策问题。如果持续把“第三世界”移民搬进“第一世界”，那么第一世界也终将变成第三世界。这对现在住的人不好，对未来想住的人也不好。这是一场关于西方文明的生存战。米勒的警告背后是一个问题：我们到底想把国家变成什么？

墓碑科技

25,631 görüntüleme • 8 ay önce

图灵奖获得者、 AI 三大教父之一的 LeCun在达沃斯的发言，算是把整个硅谷的遮羞布扯了。他说现在整个行业都被LLM彻底洗脑了，所有人都在同一条赛道上互相挖人，谁敢偏离主流谁就被骂落后。这也是他离开Meta的真正原因，连Meta都已经LLM-pilled，他不想再跟风了。最扎心的一句话是：纯生成式架构，不管是LLM、VLM还是VLA，永远造不出哪怕猫级的智能体。因为它们本质上只是下一个token预测机，只能在文字和像素的空间里做统计关联，从来没有真正理解过这个世界的因果。它们不会预测行动的后果，不会真正的规划，更没有常识。当然，我不是说LLM没用，短期来看，scaling LLM+微调+工具调用，已经能吃掉80%的白领工作，硅谷所有人往这里冲，也算是完全理性，毕竟钱和机会就在这里。但长期来看，这是一条有天花板的路。因为你永远不可能在文字地图上，开出一辆真正的车。机器人、具身智能、长期自主代理、真正的科学发现，这些坎，纯LLM永远跨不过去。 LeCun说，真正的智能必须有世界模型。就是说给定当前的状态和你要做的动作，你要能准确预测下一秒世界会变成什么样。不是简单的像素级的生成，还需要对物理规律和因果关系的抽象建模。最近Figure、特斯拉、谷歌的机器人项目，其实都在偷偷补这一课，只是没人愿意公开说，LLM不是万能地基。我理解未来真正的智能，一定是混合栈，LLM负责语言交互和符号推理，世界模型负责因果预测和长期规划，执行层负责把计划变成动作。 LeCun从来没说过要抛弃LLM，他只是反对把LLM当成一切的答案。硅谷现在最可怕的问题不是卷，是所有人都在同一条赛道上卷得太狠，以至于忘了终点其实根本不在这条赛道上。世界模型这道坎，迟早要跨。而谁先跨过去，谁就是下一个时代的赢家。 #YannLeCun #世界模型 #AGI #大模型 #具身智能

图灵奖获得者、 AI 三大教父之一的 LeCun在达沃斯的发言，算是把整个硅谷的遮羞布扯了。他说现在整个行业都被LLM彻底洗脑了，所有人都在同一条赛道上互相挖人，谁敢偏离主流谁就被骂落后。这也是他离开Meta的真正原因，连Meta都已经LLM-pilled，他不想再跟风了。最扎心的一句话是：纯生成式架构，不管是LLM、VLM还是VLA，永远造不出哪怕猫级的智能体。因为它们本质上只是下一个token预测机，只能在文字和像素的空间里做统计关联，从来没有真正理解过这个世界的因果。它们不会预测行动的后果，不会真正的规划，更没有常识。当然，我不是说LLM没用，短期来看，scaling LLM+微调+工具调用，已经能吃掉80%的白领工作，硅谷所有人往这里冲，也算是完全理性，毕竟钱和机会就在这里。但长期来看，这是一条有天花板的路。因为你永远不可能在文字地图上，开出一辆真正的车。机器人、具身智能、长期自主代理、真正的科学发现，这些坎，纯LLM永远跨不过去。 LeCun说，真正的智能必须有世界模型。就是说给定当前的状态和你要做的动作，你要能准确预测下一秒世界会变成什么样。不是简单的像素级的生成，还需要对物理规律和因果关系的抽象建模。最近Figure、特斯拉、谷歌的机器人项目，其实都在偷偷补这一课，只是没人愿意公开说，LLM不是万能地基。我理解未来真正的智能，一定是混合栈，LLM负责语言交互和符号推理，世界模型负责因果预测和长期规划，执行层负责把计划变成动作。 LeCun从来没说过要抛弃LLM，他只是反对把LLM当成一切的答案。硅谷现在最可怕的问题不是卷，是所有人都在同一条赛道上卷得太狠，以至于忘了终点其实根本不在这条赛道上。世界模型这道坎，迟早要跨。而谁先跨过去，谁就是下一个时代的赢家。 #YannLeCun #世界模型 #AGI #大模型 #具身智能

AYi

337,373 görüntüleme • 3 ay önce

AI教父Yann LeCun说了一个事实。一个四岁的小孩，看过的数据量，等于有史以来所有文本的总和。最大的AI模型，训练数据是30万亿个单词。听着很多？一个四岁小孩，醒着的时间大约16000小时。光是用眼睛看，接收的数据量就跟AI一样多。但数据的质量，完全是两回事。小孩看到的是真实世界。是重力，是东西掉下来，是手去抓握。是因果，是物理规律。他通过这些，在脑子里建立了一个世界模型。 AI看到的是什么？是孤立的文字，是符号。它唯一的任务，是猜下一个词是什么。这就解释了现在的怪现象。 AI能通过律师考试，能解微积分方程。比大学生还快。但它学不会装洗碗机。也变不成一个能做家务的机器人。更不可能像任何一个青少年一样，花20小时就学会开车。那些吹嘘AI马上取代一切的人，在回避什么？他们在回避现实世界。 AI被喂养的是人类思想的“数字幽灵”，不是物理世界的实体。把一个在图书馆里读了所有书的书呆子，和一个在街头长大的孩子扔进丛林。谁能活下来？道理是一样的。

AI教父Yann LeCun说了一个事实。一个四岁的小孩，看过的数据量，等于有史以来所有文本的总和。最大的AI模型，训练数据是30万亿个单词。听着很多？一个四岁小孩，醒着的时间大约16000小时。光是用眼睛看，接收的数据量就跟AI一样多。但数据的质量，完全是两回事。小孩看到的是真实世界。是重力，是东西掉下来，是手去抓握。是因果，是物理规律。他通过这些，在脑子里建立了一个世界模型。 AI看到的是什么？是孤立的文字，是符号。它唯一的任务，是猜下一个词是什么。这就解释了现在的怪现象。 AI能通过律师考试，能解微积分方程。比大学生还快。但它学不会装洗碗机。也变不成一个能做家务的机器人。更不可能像任何一个青少年一样，花20小时就学会开车。那些吹嘘AI马上取代一切的人，在回避什么？他们在回避现实世界。 AI被喂养的是人类思想的“数字幽灵”，不是物理世界的实体。把一个在图书馆里读了所有书的书呆子，和一个在街头长大的孩子扔进丛林。谁能活下来？道理是一样的。

墓碑科技

72,742 görüntüleme • 4 ay önce

过去两年，AI 视频一直在卷画质、时长和真实感。但对世界模型来说，生成得越长，反而越容易暴露一个致命问题：它根本记不住自己刚刚生成过什么。 AlayaWorld 想解决的，就是这个比画质更难的问题。一段视频，只要前后几帧看起来连贯，观众通常不会深究背后的空间是否真的存在。但世界不一样。你往前走了一段路，转身回来，刚才的房子还得在那里。你中途召唤了一只怪物，模型不但要马上给出反馈，还得让这件事自然地发生在同一个世界里。这也是为什么世界模型最难的地方，不是生成，而是状态管理。 AlayaWorld 为这件事加了三层机制： 1. 3D Cache 负责记住东西在哪里。模型离开一个区域再回来时，可以重新找到之前的空间信息。 2. 压缩后的画面历史负责记住刚才发生了什么。它不需要把所有旧画面一直塞进上下文，但又不能把过去全部忘掉。 3.漂移训练和 Error Bank，负责处理模型自己制造的错误。因为生成时间越长，前面一个小错误就越可能污染后面的所有画面。看到这里，我突然发现，世界模型和 Agent 其实在解决同一个问题。 Agent 运行久了会 context rot，忘记原始任务，被错误的历史信息带偏。世界模型运行久了也会，只不过它忘记的不是文字，而是街道、建筑、人物和刚刚发生过的事。所以 AI 的下一场竞争，可能不只是生成质量。视频模型比的是单次输出。世界模型比的是持续运行。谁能让 AI 在运行过程中记得住、改得动、错了还能拉回来，谁才有机会把一次生成变成一个真正可以进入的世界。 AlayaWorld 目前还更像研究级原型。公开的推理流程需要首帧图片、相机轨迹和 Prompt，离普通人打开网页就能玩还有距离。但它已经把推理代码和模型权重公开了。这个方向终于不只是看一段官方 Demo，而是可以被下载、检查和验证 Alaya Lab

过去两年，AI 视频一直在卷画质、时长和真实感。但对世界模型来说，生成得越长，反而越容易暴露一个致命问题：它根本记不住自己刚刚生成过什么。 AlayaWorld 想解决的，就是这个比画质更难的问题。一段视频，只要前后几帧看起来连贯，观众通常不会深究背后的空间是否真的存在。但世界不一样。你往前走了一段路，转身回来，刚才的房子还得在那里。你中途召唤了一只怪物，模型不但要马上给出反馈，还得让这件事自然地发生在同一个世界里。这也是为什么世界模型最难的地方，不是生成，而是状态管理。 AlayaWorld 为这件事加了三层机制： 1. 3D Cache 负责记住东西在哪里。模型离开一个区域再回来时，可以重新找到之前的空间信息。 2. 压缩后的画面历史负责记住刚才发生了什么。它不需要把所有旧画面一直塞进上下文，但又不能把过去全部忘掉。 3.漂移训练和 Error Bank，负责处理模型自己制造的错误。因为生成时间越长，前面一个小错误就越可能污染后面的所有画面。看到这里，我突然发现，世界模型和 Agent 其实在解决同一个问题。 Agent 运行久了会 context rot，忘记原始任务，被错误的历史信息带偏。世界模型运行久了也会，只不过它忘记的不是文字，而是街道、建筑、人物和刚刚发生过的事。所以 AI 的下一场竞争，可能不只是生成质量。视频模型比的是单次输出。世界模型比的是持续运行。谁能让 AI 在运行过程中记得住、改得动、错了还能拉回来，谁才有机会把一次生成变成一个真正可以进入的世界。 AlayaWorld 目前还更像研究级原型。公开的推理流程需要首帧图片、相机轨迹和 Prompt，离普通人打开网页就能玩还有距离。但它已经把推理代码和模型权重公开了。这个方向终于不只是看一段官方 Demo，而是可以被下载、检查和验证 Alaya Lab

泊舟

478,231 görüntüleme • 8 gün önce

藏师傅第一时间测试了一下 Sora 2，这玩意太吊了不能用常规的 AI 视频模型评判标准去看待它只需要两秒的音频就可以完美克隆你的音色，而且不止可以生成英文语音，中文也行！而且模型具有世界知识，可以自主规划每个分镜，跟一个成熟的导演一样！下面是详细的测试👇：

藏师傅第一时间测试了一下 Sora 2，这玩意太吊了不能用常规的 AI 视频模型评判标准去看待它只需要两秒的音频就可以完美克隆你的音色，而且不止可以生成英文语音，中文也行！而且模型具有世界知识，可以自主规划每个分镜，跟一个成熟的导演一样！下面是详细的测试👇：

歸藏(guizang.ai)

181,401 görüntüleme • 9 ay önce

跟GPT5相比，谷歌Deepmind新发布的世界模型Genie3更值得关注。什么是世界模型？世界模型生成的不是视频，而是“世界”。所谓的“世界”，就是要足够逼真，用户可以探索这个世界，可以跟这个世界互动，并且在探索和互动的过程中，这个世界的各个细节都遵从物理常识，符合逻辑，从而保持逼真。世界模型会让游戏和影视的制作成本大幅下降，也会大幅提升机器人的训练效率。这都是巨大的商业机会。详细+更加生动的讲解，请见视频。

跟GPT5相比，谷歌Deepmind新发布的世界模型Genie3更值得关注。什么是世界模型？世界模型生成的不是视频，而是“世界”。所谓的“世界”，就是要足够逼真，用户可以探索这个世界，可以跟这个世界互动，并且在探索和互动的过程中，这个世界的各个细节都遵从物理常识，符合逻辑，从而保持逼真。世界模型会让游戏和影视的制作成本大幅下降，也会大幅提升机器人的训练效率。这都是巨大的商业机会。详细+更加生动的讲解，请见视频。

Ben X

19,107 görüntüleme • 11 ay önce

【黄仁勋：物理AI的ChatGPT时刻已经到来】两个关键词：世界模型&合成数据。收集真实世界的训练数据既慢又贵，而且永远不够用。于是老黄这次带来的是一个符合真实世界物理规律的世界模型——Cosmos，它能完成物理AI相关的技能，比如生成、推理和运动轨迹预测。让包括自动驾驶汽车、AI驱动的机器人等物理AI应用在虚拟世界中完成低成本却又高效的训练。我现在正好在听苏姿丰的演讲，他们完全选了两个方向，一个在强调物理AI，另一个再着重聊AIGC、游戏等应用。

【黄仁勋：物理AI的ChatGPT时刻已经到来】两个关键词：世界模型&合成数据。收集真实世界的训练数据既慢又贵，而且永远不够用。于是老黄这次带来的是一个符合真实世界物理规律的世界模型——Cosmos，它能完成物理AI相关的技能，比如生成、推理和运动轨迹预测。让包括自动驾驶汽车、AI驱动的机器人等物理AI应用在虚拟世界中完成低成本却又高效的训练。我现在正好在听苏姿丰的演讲，他们完全选了两个方向，一个在强调物理AI，另一个再着重聊AIGC、游戏等应用。

傅盛

37,583 görüntüleme • 6 ay önce

马斯克说，我们活在真实世界里的概率，是几十亿分之一。也就是说，我们极大可能活在一个虚拟世界里。因为，电子游戏正在越来越接近真实世界，按这个趋势发展下去，未来文明迟早能创造出和现实无法区分的模拟世界。如果真实世界只有一个，模拟世界可能有无数个，那么从概率上看，我们在真实世界里的概率就趋近于零。不过，活在模拟世界里也不一定是坏事。因为这至少说明，文明没有在中途毁灭，而是已经发展到足够高级的阶段，能够创造出和现实无法区分的世界。

马斯克说，我们活在真实世界里的概率，是几十亿分之一。也就是说，我们极大可能活在一个虚拟世界里。因为，电子游戏正在越来越接近真实世界，按这个趋势发展下去，未来文明迟早能创造出和现实无法区分的模拟世界。如果真实世界只有一个，模拟世界可能有无数个，那么从概率上看，我们在真实世界里的概率就趋近于零。不过，活在模拟世界里也不一定是坏事。因为这至少说明，文明没有在中途毁灭，而是已经发展到足够高级的阶段，能够创造出和现实无法区分的世界。

投机实验室

48,346 görüntüleme • 1 ay önce

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

AIGCLINK

10,987 görüntüleme • 4 ay önce

GPT-8如果真的解开了量子引力的密码，还要什么图灵测试？物理学家David Deutsch说，语言模型就算会模仿莎士比亚，也不是AGI。但如果GPT-8能像爱因斯坦一样，给出一套完整的理论，解释量子引力，还能讲出它为什么研究，怎么推导，以及它的思路演进，那就不是模仿，而是真正的创造。他会承认，那就是AGI。不是因为它答对了题，而是因为它写出了题。 AGI不是通过测试被承认，而是通过创造新的测试被定义。

GPT-8如果真的解开了量子引力的密码，还要什么图灵测试？物理学家David Deutsch说，语言模型就算会模仿莎士比亚，也不是AGI。但如果GPT-8能像爱因斯坦一样，给出一套完整的理论，解释量子引力，还能讲出它为什么研究，怎么推导，以及它的思路演进，那就不是模仿，而是真正的创造。他会承认，那就是AGI。不是因为它答对了题，而是因为它写出了题。 AGI不是通过测试被承认，而是通过创造新的测试被定义。

墓碑科技

46,596 görüntüleme • 10 ay önce

大模型终于能一口气生成5分钟视频了? 来自复旦, 南京大学等几所大学的研究员发布了新的多模态可控超长视频世界模型 LongVie 2, 这个模型最大的特点是可以生成长达5分钟的视频. 该模型基于 Wan 2.1 魔改, 实现了一个个三阶段流水线, 包括多模态引导,针对输入帧的退化感知训练和历史上下文引导从而达到了输出3至5分钟的连贯视频.其核心是优先保证因果一致性，而非简单的帧预测.

大模型终于能一口气生成5分钟视频了? 来自复旦, 南京大学等几所大学的研究员发布了新的多模态可控超长视频世界模型 LongVie 2, 这个模型最大的特点是可以生成长达5分钟的视频. 该模型基于 Wan 2.1 魔改, 实现了一个个三阶段流水线, 包括多模态引导,针对输入帧的退化感知训练和历史上下文引导从而达到了输出3至5分钟的连贯视频.其核心是优先保证因果一致性，而非简单的帧预测.

karminski-牙医

24,831 görüntüleme • 7 ay önce

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

47,021 görüntüleme • 2 ay önce

前 Google 首席科学家李飞飞表示：整个行业正危险地痴迷于语言模型。实体经济的绝大部分是物理的、感知的和空间的。一旦 AI 完全理解了视觉世界，它就不再是一个聊天机器人，而是开始成为基础设施。

前 Google 首席科学家李飞飞表示：整个行业正危险地痴迷于语言模型。实体经济的绝大部分是物理的、感知的和空间的。一旦 AI 完全理解了视觉世界，它就不再是一个聊天机器人，而是开始成为基础设施。

柴郡🔔｜Crypto+AI Plus

195,568 görüntüleme • 2 ay önce

兄弟们这个配的上炸裂啊 PixVerse 推出了世界收一个“实时生成世界模型” 可以连续、无限、实时的生成视频画面，包括声音... 下面是我测试的一个实时效果我选择了个战争场面我让GPT帮我写好的文案和剧情我来复制粘贴进行操作它根据我的文案实时机械能画面和剧情生成，有点牛P啊随时这只是个技术预览展示，但是对我的震撼还是蛮大的你输入一句话 → 它开始生成视频；你再继续说出你的需求 → 场景立刻改变、角色动作和画面等跟着变。它可以做到： 🧠 语义理解：你说一句话，AI 能理解你这句话的意图和画面背景信息 🧩 实时生成：场景几乎零延迟渲染，像玩游戏一样流畅 🔁 持续生成：世界不会“结束”，而是会一直延伸和变化 🎮 可交互性：每一次输入都会即时影响画面、声音、结构

兄弟们这个配的上炸裂啊 PixVerse 推出了世界收一个“实时生成世界模型” 可以连续、无限、实时的生成视频画面，包括声音... 下面是我测试的一个实时效果我选择了个战争场面我让GPT帮我写好的文案和剧情我来复制粘贴进行操作它根据我的文案实时机械能画面和剧情生成，有点牛P啊随时这只是个技术预览展示，但是对我的震撼还是蛮大的你输入一句话 → 它开始生成视频；你再继续说出你的需求 → 场景立刻改变、角色动作和画面等跟着变。它可以做到： 🧠 语义理解：你说一句话，AI 能理解你这句话的意图和画面背景信息 🧩 实时生成：场景几乎零延迟渲染，像玩游戏一样流畅 🔁 持续生成：世界不会“结束”，而是会一直延伸和变化 🎮 可交互性：每一次输入都会即时影响画面、声音、结构

小互

12,587 görüntüleme • 6 ay önce