Video yükleniyor...

Video Yüklenemedi

Bu video yüklenirken bir sorun oluştu. Bu geçici bir ağ sorunundan kaynaklanıyor olabilir veya video kullanılamıyor olabilir.

Ana Sayfaya Dön

李飞飞的World Labs发新货了，给定单张图像或文本提示生成一个3D世界，无限时长、无变形，比之前版本风格多样、几何干净一次生成能在浏览器里自由行走，没有时限、视角跳变或背面空洞从给出的生成效果看还是比较惊艳的，细节清晰，没有明显的抖动或变形，光照氛围感也很好模型可以直接输出高斯溅射格式，可用Spark渲染库无缝集成到Three.js里支持卡通、动漫、科幻、写实、低多边形等多个风格，可以拼接多个场景组成超大世界目前只能生成3D环境，不支持人物或动物特写 #AI世界模型 #空间智能

AIGCLINK

36,122 subscribers

72,508 görüntüleme • 10 ay önce •via X (Twitter)

Bilim & Teknoloji Sanat

Anya Rossi• Live Now

Private livecam show

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

AIGCLINK

10,987 görüntüleme • 4 ay önce

港大和字节的这个广告视频生成模型很赞，Goku+，可以生成20秒以上的广告宣传片、生成口播/走播视频，目前没代码效果看上去画面稳定，没有明显的闪烁或抖动，人物及面部自然、动作流畅支持室内/户外、产品特写、人物互动场景等，适合电商、品牌营销等商业广告 Goku+是Goku的优化版，主打广告生成 Goku是一个基于流的视频生成基础模型，支持风景、人物、动物、动作多种场景，支持写实风、动画风 #AI视频 #AI广告制作 #Goku #视频生成 #广告视频生成

港大和字节的这个广告视频生成模型很赞，Goku+，可以生成20秒以上的广告宣传片、生成口播/走播视频，目前没代码效果看上去画面稳定，没有明显的闪烁或抖动，人物及面部自然、动作流畅支持室内/户外、产品特写、人物互动场景等，适合电商、品牌营销等商业广告 Goku+是Goku的优化版，主打广告生成 Goku是一个基于流的视频生成基础模型，支持风景、人物、动物、动作多种场景，支持写实风、动画风 #AI视频 #AI广告制作 #Goku #视频生成 #广告视频生成

AIGCLINK

16,374 görüntüleme • 1 yıl önce

Odyssey 走了另一条 AI视频路径，真给他们走出来了！发布 Explorer 世界生成模型，这么说吧，这东西完爆李飞飞新公司那个发布。 - 可将任何图像转换为详细的3D世界 - 支持世界动态生成，实现3D运动效果 - 采用高斯斑点作为世界表示方式 - 支持在主流创意工具中编辑生成的世界

Odyssey 走了另一条 AI视频路径，真给他们走出来了！发布 Explorer 世界生成模型，这么说吧，这东西完爆李飞飞新公司那个发布。 - 可将任何图像转换为详细的3D世界 - 支持世界动态生成，实现3D运动效果 - 采用高斯斑点作为世界表示方式 - 支持在主流创意工具中编辑生成的世界

歸藏(guizang.ai)

31,207 görüntüleme • 1 yıl önce

李飞飞 World Labs 的 3D 世界模型终于公测了！支持从文本、单图、多图、视频、粗3D布局直接生成完整3D世界。生成后可交互式编辑、扩展与组合。而且可以导出Gaussian splats、三角网格和视频。可以慢慢看看这个 3D 路径和纯视频路径哪个会赢了但我感觉可以用这个造视频数据哈哈

李飞飞 World Labs 的 3D 世界模型终于公测了！支持从文本、单图、多图、视频、粗3D布局直接生成完整3D世界。生成后可交互式编辑、扩展与组合。而且可以导出Gaussian splats、三角网格和视频。可以慢慢看看这个 3D 路径和纯视频路径哪个会赢了但我感觉可以用这个造视频数据哈哈

歸藏(guizang.ai)

126,762 görüntüleme • 8 ay önce

🔥马斯克表示xAI将大规模投入电子游戏开发，生成照片级逼真游戏！ FT报道，马斯克的XAI正在开发一种叫世界模型的AI技术，自动生成交互式的3D环境。 🚨用户可以像玩电子游戏一样，直接操控AI生成的视频内容。模型能根据玩家的操作实时生成场景。每个玩家的选择可能导致不同的故事发展或环境变化！

🔥马斯克表示xAI将大规模投入电子游戏开发，生成照片级逼真游戏！ FT报道，马斯克的XAI正在开发一种叫世界模型的AI技术，自动生成交互式的3D环境。 🚨用户可以像玩电子游戏一样，直接操控AI生成的视频内容。模型能根据玩家的操作实时生成场景。每个玩家的选择可能导致不同的故事发展或环境变化！

谢嘉琪

93,362 görüntüleme • 9 ay önce

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,222 görüntüleme • 2 ay önce

测试了一下 Google 的实时生成世界模型 Genie 3 让橘猫进入无限城的世界！可以根据一段文本 or 一张图，生成一个 3D 世界和角色，然后操控角色【实时】在生成的世界中自由探索！单次生成时间在60秒，怎么会这么厉害，今年真的是实时 AI 的元年了。 ▶ 测试地址： ▶ 注：目前仅限 Ultra 用户使用

测试了一下 Google 的实时生成世界模型 Genie 3 让橘猫进入无限城的世界！可以根据一段文本 or 一张图，生成一个 3D 世界和角色，然后操控角色【实时】在生成的世界中自由探索！单次生成时间在60秒，怎么会这么厉害，今年真的是实时 AI 的元年了。 ▶ 测试地址： ▶ 注：目前仅限 Ultra 用户使用

Ring Hyacinth

43,382 görüntüleme • 5 ay önce

推荐一下张咋啦的 PPT Skill：frontend-slides。对于我这种不爱做 PPT，但又有演示需求的人来说，实在是太友好了。这个 Skill 的思路是把 PPT 变成网页。并且动画效果比 PowerPoint 好、生成的是单个 HTML 文件、浏览器直接打开。 AI 会生成多个不同风格的预览，每个风格都是定制的，字体、配色、动画都不一样。同时还能直接在浏览器里编辑文字，改完自动保存。如果你有现成的 .pptx 文件，也能直接转成网页版。经常做 PPT 的话，可以试试，链接放评论区。

推荐一下张咋啦的 PPT Skill：frontend-slides。对于我这种不爱做 PPT，但又有演示需求的人来说，实在是太友好了。这个 Skill 的思路是把 PPT 变成网页。并且动画效果比 PowerPoint 好、生成的是单个 HTML 文件、浏览器直接打开。 AI 会生成多个不同风格的预览，每个风格都是定制的，字体、配色、动画都不一样。同时还能直接在浏览器里编辑文字，改完自动保存。如果你有现成的 .pptx 文件，也能直接转成网页版。经常做 PPT 的话，可以试试，链接放评论区。

余温

115,550 görüntüleme • 4 ay önce

阿里的新项目，从文本实时生成同步的说话人视频项目：OmniTalker，音视频同步和风格一致上效果比较好端到端的统一框架，可以同时生成语音和视频内容，实现音视频同步输出，避免了不同步问题可以从单个参考视频中捕获语音和面部风格，支持零样本场景下的风格复制 25帧/秒的推理速度，0.8B参数支持中英文互转，支持情感表达，比如平静、快乐、悲伤、愤怒等等情绪。支持长时间视频生成 #说话人视频生成 #OmniTalker

阿里的新项目，从文本实时生成同步的说话人视频项目：OmniTalker，音视频同步和风格一致上效果比较好端到端的统一框架，可以同时生成语音和视频内容，实现音视频同步输出，避免了不同步问题可以从单个参考视频中捕获语音和面部风格，支持零样本场景下的风格复制 25帧/秒的推理速度，0.8B参数支持中英文互转，支持情感表达，比如平静、快乐、悲伤、愤怒等等情绪。支持长时间视频生成 #说话人视频生成 #OmniTalker

AIGCLINK

50,300 görüntüleme • 1 yıl önce

今天看到一个不错的 AI 产品 Napkin，能帮你生成各种不同样式风格的漂亮图表，交互很丝滑，图表也很漂亮。大概看了下实现原理，应该是后台用了一个小模型（GPT-4 mini 或者 Gemini Flash这种），把选中的文本变成mermaid这样的图表格式，并且每个节点选了一个配套的图标（可能用了RAG），然后前端渲染成 SVG 格式，编辑器是基于 TipTap。它有很多图表的模板，会一次性生成多套图表，你可以选择一套喜欢的应用。每一套风格都很讨喜，团队的设计能力很强。目前还是免费的

今天看到一个不错的 AI 产品 Napkin，能帮你生成各种不同样式风格的漂亮图表，交互很丝滑，图表也很漂亮。大概看了下实现原理，应该是后台用了一个小模型（GPT-4 mini 或者 Gemini Flash这种），把选中的文本变成mermaid这样的图表格式，并且每个节点选了一个配套的图标（可能用了RAG），然后前端渲染成 SVG 格式，编辑器是基于 TipTap。它有很多图表的模板，会一次性生成多套图表，你可以选择一套喜欢的应用。每一套风格都很讨喜，团队的设计能力很强。目前还是免费的

宝玉

67,320 görüntüleme • 1 yıl önce

一款快速生成超大规模的3D城市模型：GaussianCity，比现有CityDreamer方案快60倍在生成无人机视角和街道视角的3D城市方面达到了最先进的水平，速度10.72 FPS，比CityDreamer快60倍支持无边界的城市生成，突破了传统方法在规模上的限制两个关键：使用BEV-Point作为紧凑的中间表示，像鸟瞰图描述城市布局一样高效，有效控制了内存使用增长，实现无边界城市生成使用具备空间感知的解码器，通过点序列化器整合BEV点的空间结构和上下文特征，生成3D高斯属性，实现高质量的城市渲染 #AI城市生成 #3D城市 #GaussianCity

一款快速生成超大规模的3D城市模型：GaussianCity，比现有CityDreamer方案快60倍在生成无人机视角和街道视角的3D城市方面达到了最先进的水平，速度10.72 FPS，比CityDreamer快60倍支持无边界的城市生成，突破了传统方法在规模上的限制两个关键：使用BEV-Point作为紧凑的中间表示，像鸟瞰图描述城市布局一样高效，有效控制了内存使用增长，实现无边界城市生成使用具备空间感知的解码器，通过点序列化器整合BEV点的空间结构和上下文特征，生成3D高斯属性，实现高质量的城市渲染 #AI城市生成 #3D城市 #GaussianCity

AIGCLINK

12,588 görüntüleme • 1 yıl önce

兄弟们，这个有点牛P 字节跳动发布全新的视频生成基础模型Goku 可直接生成数字人视频 - 支持文本到视频（T2V）：可生成 20 秒以上流畅、连贯的视频。 - 支持多种风格：写实、3D 动画、剪纸、赛博朋克等。 -广告优化版（Goku+）：可直接生成真人广告、产品展示、人物交互的数字人视频。 - 真实人物 & 手部优化：面部表情自然，手势精准。 - 电影级动态镜头：支持慢动作、特写、追踪拍摄等。 - 高分辨率 & 智能光影：画质清晰，色彩自然，光影真实。

兄弟们，这个有点牛P 字节跳动发布全新的视频生成基础模型Goku 可直接生成数字人视频 - 支持文本到视频（T2V）：可生成 20 秒以上流畅、连贯的视频。 - 支持多种风格：写实、3D 动画、剪纸、赛博朋克等。 -广告优化版（Goku+）：可直接生成真人广告、产品展示、人物交互的数字人视频。 - 真实人物 & 手部优化：面部表情自然，手势精准。 - 电影级动态镜头：支持慢动作、特写、追踪拍摄等。 - 高分辨率 & 智能光影：画质清晰，色彩自然，光影真实。

小互

155,815 görüntüleme • 1 yıl önce

Pixverse 发布 R1 实时视频世界模型藏师傅也试了一下前几天测试的 Pixverse R1 终于发布了，这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。极限情况下可以实时生成 1080P 的高清视频，感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验，目前他们在一个单独的平台测试需要邀请码。你可以选择预制的的三个主题进行体验，三个主题分别是巨龙巢穴、二战主题、海底世界，正式版本会增加到 6 个。也可以创建自己的主题，选择画面比例、风格输入主题相关提示词就可以了。生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。而且这里生成的视频居然还是带音乐、音效混合旁白的，比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有：这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流，接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构，用来实现无限连续的生成，还使用了增加注意力机制，确保长时间生成的内容一致性。为了适配实时视频生成的性能，他们将原来的迭代降噪逻辑进行了多项优化，他们叫瞬时响应引擎 (IRE)，主要包括三个优化： Temporal Trajectory Folding：传统模型从噪点到清晰图像需要迭代几十步，他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification：直接将传统的 CFG 逻辑蒸馏到了模型参数内部，节省了时间。 Adaptive Sparse Attention：生成高分辨率的视频的时候让模型学会学会“抓大放小”，自动识别重要区域进行精细计算，大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试，生成的分辨率是 480P，过几天会提高到 720P。

Pixverse 发布 R1 实时视频世界模型藏师傅也试了一下前几天测试的 Pixverse R1 终于发布了，这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。极限情况下可以实时生成 1080P 的高清视频，感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验，目前他们在一个单独的平台测试需要邀请码。你可以选择预制的的三个主题进行体验，三个主题分别是巨龙巢穴、二战主题、海底世界，正式版本会增加到 6 个。也可以创建自己的主题，选择画面比例、风格输入主题相关提示词就可以了。生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。而且这里生成的视频居然还是带音乐、音效混合旁白的，比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有：这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流，接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构，用来实现无限连续的生成，还使用了增加注意力机制，确保长时间生成的内容一致性。为了适配实时视频生成的性能，他们将原来的迭代降噪逻辑进行了多项优化，他们叫瞬时响应引擎 (IRE)，主要包括三个优化： Temporal Trajectory Folding：传统模型从噪点到清晰图像需要迭代几十步，他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification：直接将传统的 CFG 逻辑蒸馏到了模型参数内部，节省了时间。 Adaptive Sparse Attention：生成高分辨率的视频的时候让模型学会学会“抓大放小”，自动识别重要区域进行精细计算，大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试，生成的分辨率是 480P，过几天会提高到 720P。

歸藏(guizang.ai)

16,373 görüntüleme • 6 ay önce

兄弟们！这套Skills 你们需要吗？核心功能就是：你直接丢一个文章、视频、音频链接等直接解析后帮你生成PPT！并且PPT可以有16种主题风格生成，可以自定义配图模型和指定的风格！也可以直接使用精美的网页设计的样式生成！支持多种播放动画自动切换和播放！看到这还没完！ 🤔 我还增加了一个可以直接生成一键讲解PPT的讲解视频功能，音画同步，支持详细模式和简单讲解等！最后导出支持html 或者mp4 视频、音频等。点赞过100 ❤️/评论哟哟我就开源！等等我吧（视频是1.0版本）

兄弟们！这套Skills 你们需要吗？核心功能就是：你直接丢一个文章、视频、音频链接等直接解析后帮你生成PPT！并且PPT可以有16种主题风格生成，可以自定义配图模型和指定的风格！也可以直接使用精美的网页设计的样式生成！支持多种播放动画自动切换和播放！看到这还没完！ 🤔 我还增加了一个可以直接生成一键讲解PPT的讲解视频功能，音画同步，支持详细模式和简单讲解等！最后导出支持html 或者mp4 视频、音频等。点赞过100 ❤️/评论哟哟我就开源！等等我吧（视频是1.0版本）

Berryxia.AI

46,393 görüntüleme • 5 ay önce

Pixel2Motion，一个能把静态 logo 直接变成矢量动画的开源工具丢一张 PNG 或 JPG 进去，它先用 AI 把像素图转成矢量路径，然后自动生成动画效果，输出无损的 SVG 有几个细节挺讲究的： -转矢量的时候会跟原图做叠拼误差校验，反复迭代直到还原度够高 -动画生成遵循迪士尼动画12法则，所以动起来的节奏感不像是随便加的 -输出格式支持 SVG、HTML代码、GIF、视频它本身是一个开源的 Codex 和 Claude 技能，也兼容其他多模态 Agent 以前给 logo 加动画要在 After Effects 里一帧帧调，现在一个命令就出来了 GitHub 地址放在评论区了做设计或者前端的可以看看，尤其是经常被甲方要求"logo能不能动一下"的

Vincent

21,643 görüntüleme • 1 ay önce

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

Berryxia.AI

21,075 görüntüleme • 1 ay önce