正在加载视频...

视频加载失败

李飞飞的World Labs发新货了,给定单张图像或文本提示生成一个3D世界,无限时长、无变形,比之前版本风格多样、几何干净 一次生成能在浏览器里自由行走,没有时限、视角跳变或背面空洞 从给出的生成效果看还是比较惊艳的,细节清晰,没有明显的抖动或变形,光照氛围感也很好 模型可以直接输出高斯溅射格式,可用Spark渲染库无缝集成到Three.js里 支持卡通、动漫、科幻、写实、低多边形等多个风格,可以拼接多个场景组成超大世界 目前只能生成3D环境,不支持人物或动物特写 #AI世界模型 #空间智能

72,448 次观看 • 8 个月前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

Pixverse 发布 R1 实时视频世界模型 藏师傅也试了一下 前几天测试的 Pixverse R1 终于发布了,这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。 极限情况下可以实时生成 1080P 的高清视频,感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验,目前他们在一个单独的平台测试需要邀请码。 你可以选择预制的的三个主题进行体验,三个主题分别是巨龙巢穴、二战主题、海底世界,正式版本会增加到 6 个。 也可以创建自己的主题,选择画面比例、风格输入主题相关提示词就可以了。 生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。 而且这里生成的视频居然还是带音乐、音效混合旁白的,比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有: 这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流,接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构,用来实现无限连续的生成,还使用了增加注意力机制,确保长时间生成的内容一致性。 为了适配实时视频生成的性能,他们将原来的迭代降噪逻辑进行了多项优化,他们叫瞬时响应引擎 (IRE),主要包括三个优化: Temporal Trajectory Folding:传统模型从噪点到清晰图像需要迭代几十步,他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification:直接将传统的 CFG 逻辑蒸馏到了模型参数内部,节省了时间。 Adaptive Sparse Attention:生成高分辨率的视频的时候让模型学会学会“抓大放小”,自动识别重要区域进行精细计算,大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试,生成的分辨率是 480P,过几天会提高到 720P。

歸藏(guizang.ai)

16,295 次观看 • 4 个月前