Loading video...

Video Failed to Load

There was a problem loading this video. This could be due to a temporary network issue or the video might be unavailable.

今天玩 seedance2 越玩越心里害怕，下午即梦已经做人物生成限制了。非常可怕在于，基于大量视频数据集（可能是抖音？），我试着把上周年会活动随便找张照片发上去生成视频，画面是包厢里的一角，结果视频能把画面外大差不差给还原回来，包括另外两面墙和天花板。这只是一家不出名也开没几年的普通饭店。影视飓风 Tim 也紧急发了一条影片，讲了只要用他的照片，就能自动生成他的声音，以及也能生成他办公室前后的对应画面。可以说 seedance2.0 是一个掌握大量现实世界的空间和声音的模型，这可能是未来世界模型的极高起点。人类可能已经打开了潘多拉的魔盒？

kAI

4,801 subscribers

36,418 views • 5 months ago •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 Comments

No comments available

Comments from the original post will appear here

Related Videos

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,222 views • 2 months ago

基于藏师傅 PPT Skill 的讲解视频生成 Skill，差不多搞定了！ Codex 配合远程控制不在家也可以一键产出视频内容可以用非常低的成本保证视频内容的可用性和表现力这里的视频是我随便找了一个徒步文案一次生成的。主要的内容用前端生成，只有配音和部分分镜使用音频和Seedance 2.0 模型

基于藏师傅 PPT Skill 的讲解视频生成 Skill，差不多搞定了！ Codex 配合远程控制不在家也可以一键产出视频内容可以用非常低的成本保证视频内容的可用性和表现力这里的视频是我随便找了一个徒步文案一次生成的。主要的内容用前端生成，只有配音和部分分镜使用音频和Seedance 2.0 模型

歸藏(guizang.ai)

21,925 views • 2 months ago

视频生成模型的下一站，可能不是更长、更清晰的片子。而是一个你能走进去，并亲手改变的世界。过去两年，AI 视频已经能生成足够惊艳的画面。但无论视频多逼真，观众依然只能按下播放键：镜头往哪里走，早已决定；街角后面有什么，你无法靠近；画面里出现什么，你也不能临时改变。生成结束的那一刻，所有可能性也结束了。 Alaya Lab 刚刚开源的 AlayaWorld，试图把这件事反过来。它不是先生成一段完整视频，再让你观看。你可以用一张图片开启世界，推动摇杆改变镜头和移动方向；画面会随着操作继续生成。探索途中还能切换提示词，召唤火焰、凤凰、巨兽，或者让新的事件直接发生在当前场景里。这意味着，AI 生成的内容第一次不只是“成片”，而开始接近一个可以进入、探索和影响的环境。目前公开的几个核心指标： • 15B 参数 • 720p 分辨率 • 24 FPS 实时生成 • 支持 60 秒以上的连续探索 • 支持实时镜头控制与提示词切换但真正困难的还不只是生成速度。视频模型一旦连续运行，误差会逐帧累积：向前走了一段，再回头看，刚才的建筑可能已经变形；人物、道路和空间关系也会慢慢漂移。这也是“生成视频”和“生成世界”的分水岭。视频只要下一帧看起来合理。世界却必须记得：东西在哪里、刚才发生过什么，以及你离开后再回来时，它是否还是原来的样子。 AlayaWorld 为此加入了两种互补的记忆：一个显式 3D cache，用来保存空间位置；一个压缩的帧历史，用来维持时间连续性。再配合针对漂移历史的训练和 Error Bank，尽量阻止误差在长时间生成中不断放大。所以这项工作的重点，不是“又一个画质更好的视频模型”。而是把交互、空间记忆、长时稳定和实时生成，塞进同一个可以运行的系统里。它现在当然还不是一款普通玩家打开电脑就能玩的游戏，也不能直接替代成熟的游戏引擎。但它展示了一种很值得关注的方向：未来的虚拟世界，未必需要把每栋建筑、每条道路和每个事件提前制作完成。一部分世界，可能会在玩家移动和行动的同时，被模型实时生成出来。这会影响的不只是游戏。 AI 原生玩法原型、影视预演、虚拟勘景、动态故事板，甚至机器人与智能体的训练环境，都可能从这种“可交互的生成世界”中长出来。更难得的是，AlayaWorld 不只发布了 Demo。模型权重与推理代码已经开放。你可以直接查看它如何处理实时交互、空间记忆和长时间生成，也可以下载权重进行研究与复现。如果你正在关注世界模型、AI 游戏或交互式生成，这个项目值得拆一遍： Alaya Lab

视频生成模型的下一站，可能不是更长、更清晰的片子。而是一个你能走进去，并亲手改变的世界。过去两年，AI 视频已经能生成足够惊艳的画面。但无论视频多逼真，观众依然只能按下播放键：镜头往哪里走，早已决定；街角后面有什么，你无法靠近；画面里出现什么，你也不能临时改变。生成结束的那一刻，所有可能性也结束了。 Alaya Lab 刚刚开源的 AlayaWorld，试图把这件事反过来。它不是先生成一段完整视频，再让你观看。你可以用一张图片开启世界，推动摇杆改变镜头和移动方向；画面会随着操作继续生成。探索途中还能切换提示词，召唤火焰、凤凰、巨兽，或者让新的事件直接发生在当前场景里。这意味着，AI 生成的内容第一次不只是“成片”，而开始接近一个可以进入、探索和影响的环境。目前公开的几个核心指标： • 15B 参数 • 720p 分辨率 • 24 FPS 实时生成 • 支持 60 秒以上的连续探索 • 支持实时镜头控制与提示词切换但真正困难的还不只是生成速度。视频模型一旦连续运行，误差会逐帧累积：向前走了一段，再回头看，刚才的建筑可能已经变形；人物、道路和空间关系也会慢慢漂移。这也是“生成视频”和“生成世界”的分水岭。视频只要下一帧看起来合理。世界却必须记得：东西在哪里、刚才发生过什么，以及你离开后再回来时，它是否还是原来的样子。 AlayaWorld 为此加入了两种互补的记忆：一个显式 3D cache，用来保存空间位置；一个压缩的帧历史，用来维持时间连续性。再配合针对漂移历史的训练和 Error Bank，尽量阻止误差在长时间生成中不断放大。所以这项工作的重点，不是“又一个画质更好的视频模型”。而是把交互、空间记忆、长时稳定和实时生成，塞进同一个可以运行的系统里。它现在当然还不是一款普通玩家打开电脑就能玩的游戏，也不能直接替代成熟的游戏引擎。但它展示了一种很值得关注的方向：未来的虚拟世界，未必需要把每栋建筑、每条道路和每个事件提前制作完成。一部分世界，可能会在玩家移动和行动的同时，被模型实时生成出来。这会影响的不只是游戏。 AI 原生玩法原型、影视预演、虚拟勘景、动态故事板，甚至机器人与智能体的训练环境，都可能从这种“可交互的生成世界”中长出来。更难得的是，AlayaWorld 不只发布了 Demo。模型权重与推理代码已经开放。你可以直接查看它如何处理实时交互、空间记忆和长时间生成，也可以下载权重进行研究与复现。如果你正在关注世界模型、AI 游戏或交互式生成，这个项目值得拆一遍： Alaya Lab

知识猫图解

67,302 views • 10 days ago

Seedance2.0 刚上线一天由于太过强大立马被要求整改，目前真人脸已不能使用。只因圆通速递总裁的儿子-影视飓风tim发布测评指出，没给任何提示只上传一张他的照片，就能自动生成他的声音。这一举动引起风波导致团队紧急下架人脸功能暂时调整。我昨天刚生成前两个人脸视频准备参加币安光明顶的，这会角色衔接不上了，只能换卡通风格重来了。。

Seedance2.0 刚上线一天由于太过强大立马被要求整改，目前真人脸已不能使用。只因圆通速递总裁的儿子-影视飓风tim发布测评指出，没给任何提示只上传一张他的照片，就能自动生成他的声音。这一举动引起风波导致团队紧急下架人脸功能暂时调整。我昨天刚生成前两个人脸视频准备参加币安光明顶的，这会角色衔接不上了，只能换卡通风格重来了。。

0x鸣人

57,129 views • 5 months ago

最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本，不需要在 Discord 里面使用了。我尝试了一下将每句话都生成图片做视频小说，效果很不错。这次升级非常强大，Midreal已经不只是小说生成工具，正在朝着互动式内容消费平台进化。网页版本的Midreal每一句话都可以生成对应的图片，现在还是免费的，做互动小说生成视频搞流量也不错，还没有原创性问题。每句都能生成图片之后，比之前到分支的时候才生成会强非常多，图片从原来的DALL-E3 变成了他们自己训练的 SD 模型，图像质量和提示词遵循都比之前强很多。除了支持生成图片之外，现在网页版的Midreal分享功能也非常好用，分享出去就是一个带插图的完整小说页面，阅读体验很不错，还有评论和转发能力。他们自己训练的图像模型现在也有一个专门的页面可以使用，只用来生成图片也是可以的。感觉模型能力也有了比较大的提升，之前中文的小说都会有逻辑问题，这次尝试之后好了很多。这里尝试网页版Midreal：

最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本，不需要在 Discord 里面使用了。我尝试了一下将每句话都生成图片做视频小说，效果很不错。这次升级非常强大，Midreal已经不只是小说生成工具，正在朝着互动式内容消费平台进化。网页版本的Midreal每一句话都可以生成对应的图片，现在还是免费的，做互动小说生成视频搞流量也不错，还没有原创性问题。每句都能生成图片之后，比之前到分支的时候才生成会强非常多，图片从原来的DALL-E3 变成了他们自己训练的 SD 模型，图像质量和提示词遵循都比之前强很多。除了支持生成图片之外，现在网页版的Midreal分享功能也非常好用，分享出去就是一个带插图的完整小说页面，阅读体验很不错，还有评论和转发能力。他们自己训练的图像模型现在也有一个专门的页面可以使用，只用来生成图片也是可以的。感觉模型能力也有了比较大的提升，之前中文的小说都会有逻辑问题，这次尝试之后好了很多。这里尝试网页版Midreal：

歸藏(guizang.ai)

48,993 views • 2 years ago

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

网飞开源了一个很强的视频编辑模型。它可以直接删除视频中的某个物体。但真正夸张的点是：它连这个物体对周围画面的影响，也能一并消掉。不只是“把东西抹掉”，而是在重新生成一段合理的视频。

梦想夏乡

15,495 views • 3 months ago

兄弟们这个配的上炸裂啊 PixVerse 推出了世界收一个“实时生成世界模型” 可以连续、无限、实时的生成视频画面，包括声音... 下面是我测试的一个实时效果我选择了个战争场面我让GPT帮我写好的文案和剧情我来复制粘贴进行操作它根据我的文案实时机械能画面和剧情生成，有点牛P啊随时这只是个技术预览展示，但是对我的震撼还是蛮大的你输入一句话 → 它开始生成视频；你再继续说出你的需求 → 场景立刻改变、角色动作和画面等跟着变。它可以做到： 🧠 语义理解：你说一句话，AI 能理解你这句话的意图和画面背景信息 🧩 实时生成：场景几乎零延迟渲染，像玩游戏一样流畅 🔁 持续生成：世界不会“结束”，而是会一直延伸和变化 🎮 可交互性：每一次输入都会即时影响画面、声音、结构

兄弟们这个配的上炸裂啊 PixVerse 推出了世界收一个“实时生成世界模型” 可以连续、无限、实时的生成视频画面，包括声音... 下面是我测试的一个实时效果我选择了个战争场面我让GPT帮我写好的文案和剧情我来复制粘贴进行操作它根据我的文案实时机械能画面和剧情生成，有点牛P啊随时这只是个技术预览展示，但是对我的震撼还是蛮大的你输入一句话 → 它开始生成视频；你再继续说出你的需求 → 场景立刻改变、角色动作和画面等跟着变。它可以做到： 🧠 语义理解：你说一句话，AI 能理解你这句话的意图和画面背景信息 🧩 实时生成：场景几乎零延迟渲染，像玩游戏一样流畅 🔁 持续生成：世界不会“结束”，而是会一直延伸和变化 🎮 可交互性：每一次输入都会即时影响画面、声音、结构

小互

12,587 views • 6 months ago

这才是真正的 AI 剪辑神器。开源项目 Pixelle-Video — 一个把短视频做成流水线的工具。以前做一个视频：写脚本、找素材、配音、剪辑一套下来，半天没了。 Pixelle-Video 直接把流程砍到只剩一步：输入一个主题剩下的全自动：写文案、出画面、配音、加 BGM，最后直接给你成片。但真正厉害的，不是自动。而是你可以完全掌控它：模型自己选声音自己换画面 workflow 自己搭这已经不仅仅是工具了，是一条能批量出片的流水线你甚至可以直接批量跑内容，做账号矩阵。你不再做视频，你已经可以生产视频了。

这才是真正的 AI 剪辑神器。开源项目 Pixelle-Video — 一个把短视频做成流水线的工具。以前做一个视频：写脚本、找素材、配音、剪辑一套下来，半天没了。 Pixelle-Video 直接把流程砍到只剩一步：输入一个主题剩下的全自动：写文案、出画面、配音、加 BGM，最后直接给你成片。但真正厉害的，不是自动。而是你可以完全掌控它：模型自己选声音自己换画面 workflow 自己搭这已经不仅仅是工具了，是一条能批量出片的流水线你甚至可以直接批量跑内容，做账号矩阵。你不再做视频，你已经可以生产视频了。

开发者Hailey

54,979 views • 3 months ago

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

karminski-牙医

19,832 views • 6 months ago

过去两年，AI 视频一直在卷画质、时长和真实感。但对世界模型来说，生成得越长，反而越容易暴露一个致命问题：它根本记不住自己刚刚生成过什么。 AlayaWorld 想解决的，就是这个比画质更难的问题。一段视频，只要前后几帧看起来连贯，观众通常不会深究背后的空间是否真的存在。但世界不一样。你往前走了一段路，转身回来，刚才的房子还得在那里。你中途召唤了一只怪物，模型不但要马上给出反馈，还得让这件事自然地发生在同一个世界里。这也是为什么世界模型最难的地方，不是生成，而是状态管理。 AlayaWorld 为这件事加了三层机制： 1. 3D Cache 负责记住东西在哪里。模型离开一个区域再回来时，可以重新找到之前的空间信息。 2. 压缩后的画面历史负责记住刚才发生了什么。它不需要把所有旧画面一直塞进上下文，但又不能把过去全部忘掉。 3.漂移训练和 Error Bank，负责处理模型自己制造的错误。因为生成时间越长，前面一个小错误就越可能污染后面的所有画面。看到这里，我突然发现，世界模型和 Agent 其实在解决同一个问题。 Agent 运行久了会 context rot，忘记原始任务，被错误的历史信息带偏。世界模型运行久了也会，只不过它忘记的不是文字，而是街道、建筑、人物和刚刚发生过的事。所以 AI 的下一场竞争，可能不只是生成质量。视频模型比的是单次输出。世界模型比的是持续运行。谁能让 AI 在运行过程中记得住、改得动、错了还能拉回来，谁才有机会把一次生成变成一个真正可以进入的世界。 AlayaWorld 目前还更像研究级原型。公开的推理流程需要首帧图片、相机轨迹和 Prompt，离普通人打开网页就能玩还有距离。但它已经把推理代码和模型权重公开了。这个方向终于不只是看一段官方 Demo，而是可以被下载、检查和验证 Alaya Lab

过去两年，AI 视频一直在卷画质、时长和真实感。但对世界模型来说，生成得越长，反而越容易暴露一个致命问题：它根本记不住自己刚刚生成过什么。 AlayaWorld 想解决的，就是这个比画质更难的问题。一段视频，只要前后几帧看起来连贯，观众通常不会深究背后的空间是否真的存在。但世界不一样。你往前走了一段路，转身回来，刚才的房子还得在那里。你中途召唤了一只怪物，模型不但要马上给出反馈，还得让这件事自然地发生在同一个世界里。这也是为什么世界模型最难的地方，不是生成，而是状态管理。 AlayaWorld 为这件事加了三层机制： 1. 3D Cache 负责记住东西在哪里。模型离开一个区域再回来时，可以重新找到之前的空间信息。 2. 压缩后的画面历史负责记住刚才发生了什么。它不需要把所有旧画面一直塞进上下文，但又不能把过去全部忘掉。 3.漂移训练和 Error Bank，负责处理模型自己制造的错误。因为生成时间越长，前面一个小错误就越可能污染后面的所有画面。看到这里，我突然发现，世界模型和 Agent 其实在解决同一个问题。 Agent 运行久了会 context rot，忘记原始任务，被错误的历史信息带偏。世界模型运行久了也会，只不过它忘记的不是文字，而是街道、建筑、人物和刚刚发生过的事。所以 AI 的下一场竞争，可能不只是生成质量。视频模型比的是单次输出。世界模型比的是持续运行。谁能让 AI 在运行过程中记得住、改得动、错了还能拉回来，谁才有机会把一次生成变成一个真正可以进入的世界。 AlayaWorld 目前还更像研究级原型。公开的推理流程需要首帧图片、相机轨迹和 Prompt，离普通人打开网页就能玩还有距离。但它已经把推理代码和模型权重公开了。这个方向终于不只是看一段官方 Demo，而是可以被下载、检查和验证 Alaya Lab

泊舟

478,341 views • 10 days ago

老高和小茉的传言估计是坐实了老高26年第一次更新油管视频，独自语音回应了，声音变得低沉许多；没有了双人出镜，照片合成的视频看着也有点山寨。看样子很可能以后都不露面，只有语音了；更可能下次露面出现的搭档是另一位“小茉”。油管链接：

老高和小茉的传言估计是坐实了老高26年第一次更新油管视频，独自语音回应了，声音变得低沉许多；没有了双人出镜，照片合成的视频看着也有点山寨。看样子很可能以后都不露面，只有语音了；更可能下次露面出现的搭档是另一位“小茉”。油管链接：

KK.aWSB

293,132 views • 5 months ago

Flux3真的很强！终于看到有模型可以有机会挑战Seedance2.0了 FLUX 3 = 更强的多模态生成模型，核心是把图像、视频、音频放进同一个世界模型里主打图像、视频、音频和动作预测的统一架构。它的早期能力重点放在视频生成上，支持最长 20 秒、带原生音频的生成，并且还在推进图像生成与编辑能力开源模型，假以时日优化优化，可以无限接近和挑战Seedance2.0这种商业模型了

Flux3真的很强！终于看到有模型可以有机会挑战Seedance2.0了 FLUX 3 = 更强的多模态生成模型，核心是把图像、视频、音频放进同一个世界模型里主打图像、视频、音频和动作预测的统一架构。它的早期能力重点放在视频生成上，支持最长 20 秒、带原生音频的生成，并且还在推进图像生成与编辑能力开源模型，假以时日优化优化，可以无限接近和挑战Seedance2.0这种商业模型了

huangserva

25,876 views • 2 days ago

AI 视频生成，到各种 AI Agent，我一直在思考一个问题：AI 最终会如何改变人类创造和体验数字世界的方式？最开始，AI 帮助我们生成文字和图片；后来，它开始生成越来越逼真的视频。但无论画面质量提升到什么程度，这些内容依然存在一个限制——我们仍然只是观看者。我们可以欣赏 AI 创造出来的场景，却无法真正进入其中，也无法与这个世界产生互动。最近体验 Alaya World Alaya Lab 后，我第一次感觉，AI 视频生成正在探索一个新的方向：它不只是生成一段视频，而是在尝试生成一个可以被探索的世界。 Alaya World 是 Alaya Lab 推出的交互式视频世界模型。用户可以通过文字、图片或者视频作为初始条件，让模型生成一个动态世界。不同于传统视频生成模型“输入 Prompt，输出一段固定视频”的方式，Alaya World 更像是在探索过程中持续构建环境，用户可以在生成的世界中移动视角，并通过交互指令触发新的事件。这也是我认为世界模型和普通视频生成模型最大的区别。过去的视频生成模型解决的是“如何生成一段更加真实的视频”，而世界模型尝试解决的问题是“如何让一个世界持续存在”。如果你进入一个虚拟城市，向前探索，然后回头，你期待看到的是同一个城市，而不是一个重新随机生成的场景。这背后涉及世界模型最核心的挑战：长时间生成的一致性。模型不仅需要知道下一帧画面应该是什么，还需要理解空间关系、历史状态以及用户行为对世界造成的影响。 Alaya World 在技术层面通过空间记忆机制、历史信息保留以及抗漂移训练等方式，提高长时间生成过程中的稳定性。目前模型支持 720p / 24 FPS 实时流式生成，并展示了超过一分钟的连续探索能力。让我觉得这个方向有意思的地方，是它可能会重新定义未来数字内容的生产方式。以游戏行业为例，过去一个虚拟世界需要大量人工制作：美术设计地图、程序编写规则、策划设计剧情。开发者需要提前创造一个固定世界，而玩家进入后按照既定规则体验。但如果世界模型进一步发展，未来的游戏可能不再只是“开发者搭建世界，玩家进入世界”，而是“开发者定义规则，AI 实时生成世界”。玩家体验的不再是一个完全预设好的内容，而是一个随着交互不断变化的环境。当然，Alaya World 目前仍然处于早期阶段。实时生成所需的算力成本、复杂环境理解能力，以及更长期、更稳定的世界一致性，都还有很多问题需要解决。但它让我看到一个值得关注的趋势：AI 的竞争可能不会只停留在生成更漂亮的图片和视频，而是进一步走向创造更真实、更连续、更可交互的世界。过去，人类通过电影记录想象，通过游戏创造虚拟空间。而未来，也许我们只需要描述一个想法，AI 就可以帮助我们生成一个能够进入其中、探索其中的世界。从生成内容，到生成世界，这可能是 AI 下一阶段最值得期待的变化之一。

AI 视频生成，到各种 AI Agent，我一直在思考一个问题：AI 最终会如何改变人类创造和体验数字世界的方式？最开始，AI 帮助我们生成文字和图片；后来，它开始生成越来越逼真的视频。但无论画面质量提升到什么程度，这些内容依然存在一个限制——我们仍然只是观看者。我们可以欣赏 AI 创造出来的场景，却无法真正进入其中，也无法与这个世界产生互动。最近体验 Alaya World Alaya Lab 后，我第一次感觉，AI 视频生成正在探索一个新的方向：它不只是生成一段视频，而是在尝试生成一个可以被探索的世界。 Alaya World 是 Alaya Lab 推出的交互式视频世界模型。用户可以通过文字、图片或者视频作为初始条件，让模型生成一个动态世界。不同于传统视频生成模型“输入 Prompt，输出一段固定视频”的方式，Alaya World 更像是在探索过程中持续构建环境，用户可以在生成的世界中移动视角，并通过交互指令触发新的事件。这也是我认为世界模型和普通视频生成模型最大的区别。过去的视频生成模型解决的是“如何生成一段更加真实的视频”，而世界模型尝试解决的问题是“如何让一个世界持续存在”。如果你进入一个虚拟城市，向前探索，然后回头，你期待看到的是同一个城市，而不是一个重新随机生成的场景。这背后涉及世界模型最核心的挑战：长时间生成的一致性。模型不仅需要知道下一帧画面应该是什么，还需要理解空间关系、历史状态以及用户行为对世界造成的影响。 Alaya World 在技术层面通过空间记忆机制、历史信息保留以及抗漂移训练等方式，提高长时间生成过程中的稳定性。目前模型支持 720p / 24 FPS 实时流式生成，并展示了超过一分钟的连续探索能力。让我觉得这个方向有意思的地方，是它可能会重新定义未来数字内容的生产方式。以游戏行业为例，过去一个虚拟世界需要大量人工制作：美术设计地图、程序编写规则、策划设计剧情。开发者需要提前创造一个固定世界，而玩家进入后按照既定规则体验。但如果世界模型进一步发展，未来的游戏可能不再只是“开发者搭建世界，玩家进入世界”，而是“开发者定义规则，AI 实时生成世界”。玩家体验的不再是一个完全预设好的内容，而是一个随着交互不断变化的环境。当然，Alaya World 目前仍然处于早期阶段。实时生成所需的算力成本、复杂环境理解能力，以及更长期、更稳定的世界一致性，都还有很多问题需要解决。但它让我看到一个值得关注的趋势：AI 的竞争可能不会只停留在生成更漂亮的图片和视频，而是进一步走向创造更真实、更连续、更可交互的世界。过去，人类通过电影记录想象，通过游戏创造虚拟空间。而未来，也许我们只需要描述一个想法，AI 就可以帮助我们生成一个能够进入其中、探索其中的世界。从生成内容，到生成世界，这可能是 AI 下一阶段最值得期待的变化之一。

Ashlyn He

11,573 views • 9 days ago

这次我用 Qwen3.8-Max 完成了三个代码项目，其中最直观的是一个类似《我的世界》的网页游戏。游戏已经具备完整的可玩性：角色可以移动、跳跃和探索地图，也可以挖掘、放置方块、切换物品，并使用背包与合成系统。地形能够自动生成，基础的生存机制也已经实现。另外两个项目分别是可交互的 3D AI 芯片展示，以及读取19个真实来源的多模态供应商评审系统。 Qwen3.8-Max 还是个开源模型，国产模型真是越来越强了。

这次我用 Qwen3.8-Max 完成了三个代码项目，其中最直观的是一个类似《我的世界》的网页游戏。游戏已经具备完整的可玩性：角色可以移动、跳跃和探索地图，也可以挖掘、放置方块、切换物品，并使用背包与合成系统。地形能够自动生成，基础的生存机制也已经实现。另外两个项目分别是可交互的 3D AI 芯片展示，以及读取19个真实来源的多模态供应商评审系统。 Qwen3.8-Max 还是个开源模型，国产模型真是越来越强了。

雪踏乌云

68,246 views • 7 days ago

最近AI短剧很火，很多新起的抖音号个把星期就弄了几十万粉丝我前面也手痒，开了即梦的会员想试试 Seedance 2.0（看了下今天要出2.5）确实牛逼但是我被劝退了排队太难了做的人太多了，生成一条视频等半天，出来的效果全看运气。不满意？重新排队再碰一次运气。一晚上下来我大部分时间在等后来我就开始找平替。试了好几个，很多都挂着 Seedance 2.0 的接口，但实际出来的东西不太理想，质感总觉得差点意思然后我试了 Creao AI 他也是seedance2.0的端口说实话，比即梦体验好最大的区别是它可以直接生成一段完整的视频，不需要你自己去把很多几秒钟的短片拼起来剪辑它会自动帮你整合、拉长时长。我试了一个一分钟的短片，细节质量和即梦差不多，但流程省了很多事细节：先生成你视频里需要的人物图片和场景图，然后再生成质量好的提示词。说实话视频最后好不好，提示词非常关键，图片决定画面，提示词决定动作和节奏下面给大家看看我一次成型的作品我有信心只要积分足够我也能做一个大片哈哈 ——

最近AI短剧很火，很多新起的抖音号个把星期就弄了几十万粉丝我前面也手痒，开了即梦的会员想试试 Seedance 2.0（看了下今天要出2.5）确实牛逼但是我被劝退了排队太难了做的人太多了，生成一条视频等半天，出来的效果全看运气。不满意？重新排队再碰一次运气。一晚上下来我大部分时间在等后来我就开始找平替。试了好几个，很多都挂着 Seedance 2.0 的接口，但实际出来的东西不太理想，质感总觉得差点意思然后我试了 Creao AI 他也是seedance2.0的端口说实话，比即梦体验好最大的区别是它可以直接生成一段完整的视频，不需要你自己去把很多几秒钟的短片拼起来剪辑它会自动帮你整合、拉长时长。我试了一个一分钟的短片，细节质量和即梦差不多，但流程省了很多事细节：先生成你视频里需要的人物图片和场景图，然后再生成质量好的提示词。说实话视频最后好不好，提示词非常关键，图片决定画面，提示词决定动作和节奏下面给大家看看我一次成型的作品我有信心只要积分足够我也能做一个大片哈哈 ——

Powerpei🦅🏆买美股上币安

42,492 views • 24 days ago

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 views • 8 months ago

Warp-as-History：仅用一条视频就能实现交互式视频生成用单条带标注的视频做轻量LoRA微调后，即可让通用视频模型实现跟随视角生成视频。项目里用的这条视频是来自DAVIS数据集里的car-roundabout.mp4。原理是：把相机轨迹产生的变形(warp)伪装成视频模型原生的"历史帧"输入，无需额外的相机编码器或控制分支，就能让预训练视频生成模型跟随指定视角运动。 Github：

Warp-as-History：仅用一条视频就能实现交互式视频生成用单条带标注的视频做轻量LoRA微调后，即可让通用视频模型实现跟随视角生成视频。项目里用的这条视频是来自DAVIS数据集里的car-roundabout.mp4。原理是：把相机轨迹产生的变形(warp)伪装成视频模型原生的"历史帧"输入，无需额外的相机编码器或控制分支，就能让预训练视频生成模型跟随指定视角运动。 Github：

Gorden Sun

11,398 views • 2 months ago

Midjourney 这个新工具太好玩了！ Patchwork 可以帮你用 LLM 和 MJ 构建一个生动的世界一旦 MJ 的视频模型完成，这个就会变成一个视频生成工具而且你还可以通过传送门和别人的世界连接起来，生成新的故事使用方法在下面：

Midjourney 这个新工具太好玩了！ Patchwork 可以帮你用 LLM 和 MJ 构建一个生动的世界一旦 MJ 的视频模型完成，这个就会变成一个视频生成工具而且你还可以通过传送门和别人的世界连接起来，生成新的故事使用方法在下面：

歸藏(guizang.ai)

27,903 views • 1 year ago