正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

这个 AI 很强。 LingBot-Map 可以把实时视频流转换成实时的 3D 重建。 20 FPS 代码 + 模型 👇

AI Will

188,686 subscribers

66,382 次观看 • 2 个月前 •via X (Twitter)

教育新闻政治科学技术

Anya Rossi• Live Now

Private livecam show

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

“基于AI大模型的实时视频脱敏技术”

“基于AI大模型的实时视频脱敏技术”

Ken W

124,868 次观看 • 1 个月前

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

karminski-牙医

42,175 次观看 • 6 个月前

这果然是个看脸的时代，建模长得好真的很重要😂

这果然是个看脸的时代，建模长得好真的很重要😂

千百度

19,845 次观看 • 1 个月前

2026年，AI 视频进入下半场，不再是比谁生成的画面更精美，而是比谁更"实时"。最近我深度测试了 PixVerse R1 实时世界模型，它彻底打破了我作为产品设计师对"视频文件"的固有认知。视频不再是 .mp4，而是一个活生生的、可交互的世界。以往我们用 AI 视频：输入提示词，等待 1 分钟，得到结果。在 R1 里：输入即所得。没有等待，没有重生成，画面随着你的意图流转。这种"实时性"意味着 AI 视频从一种“结果变成了”过程“。它构建的是一个"持久的视觉宇宙"。你可以通过语言、情绪甚至肢体，实时重写你眼前的视觉现实。这就是所谓的"Playable Reality（可玩的现实）"。我做了一个小试验：在R1里建立一个以印象派画作为基底的连贯世界，并通过我的意图，让这个世界的视觉风格和所处环境实时流转，最后融入音乐的律动。非常初级，但已经充满了想象的空间。目前 R1 还处于早期测试阶段（非最终 UI），但这种"实时世界模型"的雏形已经足够震撼。比如光是一个教育领域，就可以看到教育的未来：学习不再是看录像带，而是走进场景。想学在咖啡馆点餐？AI 实时生成一个咖啡馆。你想改变天气或氛围？说句话，世界立刻响应。这种沉浸感是传统视频无法比拟的。如果你对 AI 落地感兴趣，建议关注一下这个产品。 PixVerse目前赠送了几个邀请码，感兴趣的朋友请在这个贴点赞+评论，我会在24小时后抽取3位朋友赠送邀请码，让大家也体验一下这个创新式的AI产品。

2026年，AI 视频进入下半场，不再是比谁生成的画面更精美，而是比谁更"实时"。最近我深度测试了 PixVerse R1 实时世界模型，它彻底打破了我作为产品设计师对"视频文件"的固有认知。视频不再是 .mp4，而是一个活生生的、可交互的世界。以往我们用 AI 视频：输入提示词，等待 1 分钟，得到结果。在 R1 里：输入即所得。没有等待，没有重生成，画面随着你的意图流转。这种"实时性"意味着 AI 视频从一种“结果变成了”过程“。它构建的是一个"持久的视觉宇宙"。你可以通过语言、情绪甚至肢体，实时重写你眼前的视觉现实。这就是所谓的"Playable Reality（可玩的现实）"。我做了一个小试验：在R1里建立一个以印象派画作为基底的连贯世界，并通过我的意图，让这个世界的视觉风格和所处环境实时流转，最后融入音乐的律动。非常初级，但已经充满了想象的空间。目前 R1 还处于早期测试阶段（非最终 UI），但这种"实时世界模型"的雏形已经足够震撼。比如光是一个教育领域，就可以看到教育的未来：学习不再是看录像带，而是走进场景。想学在咖啡馆点餐？AI 实时生成一个咖啡馆。你想改变天气或氛围？说句话，世界立刻响应。这种沉浸感是传统视频无法比拟的。如果你对 AI 落地感兴趣，建议关注一下这个产品。 PixVerse目前赠送了几个邀请码，感兴趣的朋友请在这个贴点赞+评论，我会在24小时后抽取3位朋友赠送邀请码，让大家也体验一下这个创新式的AI产品。

Bear Liu

15,189 次观看 • 5 个月前

StoryMem：生成多镜头长视频将单镜头的AI视频模型（Wan2.2），增强为多镜头的视频模型，能生成镜头切换的长视频，类似Sora2。 Github：模型：

StoryMem：生成多镜头长视频将单镜头的AI视频模型（Wan2.2），增强为多镜头的视频模型，能生成镜头切换的长视频，类似Sora2。 Github：模型：

Gorden Sun

38,131 次观看 • 6 个月前

Pixverse 发布 R1 实时视频世界模型藏师傅也试了一下前几天测试的 Pixverse R1 终于发布了，这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。极限情况下可以实时生成 1080P 的高清视频，感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验，目前他们在一个单独的平台测试需要邀请码。你可以选择预制的的三个主题进行体验，三个主题分别是巨龙巢穴、二战主题、海底世界，正式版本会增加到 6 个。也可以创建自己的主题，选择画面比例、风格输入主题相关提示词就可以了。生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。而且这里生成的视频居然还是带音乐、音效混合旁白的，比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有：这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流，接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构，用来实现无限连续的生成，还使用了增加注意力机制，确保长时间生成的内容一致性。为了适配实时视频生成的性能，他们将原来的迭代降噪逻辑进行了多项优化，他们叫瞬时响应引擎 (IRE)，主要包括三个优化： Temporal Trajectory Folding：传统模型从噪点到清晰图像需要迭代几十步，他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification：直接将传统的 CFG 逻辑蒸馏到了模型参数内部，节省了时间。 Adaptive Sparse Attention：生成高分辨率的视频的时候让模型学会学会“抓大放小”，自动识别重要区域进行精细计算，大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试，生成的分辨率是 480P，过几天会提高到 720P。

Pixverse 发布 R1 实时视频世界模型藏师傅也试了一下前几天测试的 Pixverse R1 终于发布了，这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。极限情况下可以实时生成 1080P 的高清视频，感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。 ------ 简单介绍一下使用体验，目前他们在一个单独的平台测试需要邀请码。你可以选择预制的的三个主题进行体验，三个主题分别是巨龙巢穴、二战主题、海底世界，正式版本会增加到 6 个。也可以创建自己的主题，选择画面比例、风格输入主题相关提示词就可以了。生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。而且这里生成的视频居然还是带音乐、音效混合旁白的，比以前所谓的实时生成的模型强了不少。 ------ 算法和架构上主要的优化有：这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流，接受任何模态的输入。 PixVerse-R1 改成了非扩散的自回归架构，用来实现无限连续的生成，还使用了增加注意力机制，确保长时间生成的内容一致性。为了适配实时视频生成的性能，他们将原来的迭代降噪逻辑进行了多项优化，他们叫瞬时响应引擎 (IRE)，主要包括三个优化： Temporal Trajectory Folding：传统模型从噪点到清晰图像需要迭代几十步，他们直接暴力压缩到仅需 1–4 步。 Guidance Rectification：直接将传统的 CFG 逻辑蒸馏到了模型参数内部，节省了时间。 Adaptive Sparse Attention：生成高分辨率的视频的时候让模型学会学会“抓大放小”，自动识别重要区域进行精细计算，大幅降低计算负载。 ------- 目前由于成本问题需要邀请码才能测试，生成的分辨率是 480P，过几天会提高到 720P。

歸藏(guizang.ai)

16,373 次观看 • 5 个月前

其实去年的时候就已经可以批量化文生视频了但这个流程受限于模板。不过洗文还是容易的用到的工具是 KeJun 三花AI的小视频宝我今天教大家如何制作这类视频👇

其实去年的时候就已经可以批量化文生视频了但这个流程受限于模板。不过洗文还是容易的用到的工具是 KeJun 三花AI的小视频宝我今天教大家如何制作这类视频👇

Yangyi

108,333 次观看 • 1 年前

很难看出这是AI生成的，但是貌似这个就是AI生成的。 AI生成视频真的很可以

很难看出这是AI生成的，但是貌似这个就是AI生成的。 AI生成视频真的很可以

Rainier

15,014 次观看 • 2 个月前

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

-Zho-

60,734 次观看 • 2 年前

腾讯发布混元3D 2.1 模型支持真实材质渲染这是首个完全开源的AI 3D建模工具提供了模型权重、训练代码和数据处理流程以及核心架构等全部数据👍🏻 混元3D 2.1 通过引入PBR（基于物理的渲染）技术，显著提升了材质细节的真实性，模型在不同光照下更自然、更一致。可在个人电脑上运行！可直接用于生产：腾讯自研游戏编辑器「轻游梦工坊」使用混元3D后，道具制作时间从 2天/个压缩到0.2天/个，提效显著。

腾讯发布混元3D 2.1 模型支持真实材质渲染这是首个完全开源的AI 3D建模工具提供了模型权重、训练代码和数据处理流程以及核心架构等全部数据👍🏻 混元3D 2.1 通过引入PBR（基于物理的渲染）技术，显著提升了材质细节的真实性，模型在不同光照下更自然、更一致。可在个人电脑上运行！可直接用于生产：腾讯自研游戏编辑器「轻游梦工坊」使用混元3D后，道具制作时间从 2天/个压缩到0.2天/个，提效显著。

小互

24,527 次观看 • 1 年前

2. ClipZap AI 简介-这是一个能将文本和图像转换成视频的人工智能视频生成器，只需点击一次。 →使用市场上最强大的人工智能视频生成模型。

2. ClipZap AI 简介-这是一个能将文本和图像转换成视频的人工智能视频生成器，只需点击一次。 →使用市场上最强大的人工智能视频生成模型。

美酱AI

36,703 次观看 • 1 年前

怎样做出令人惊艳的代码交互视频，这位国外推友在回复中分享了他的技术栈，效果真的很帅，我觉得非常不错，以后也可以常用，尤其是在教学视频/博客中等等很好用。 CodeHike：一个代码高亮以及代码 walkthrough 模拟库，做的非常棒，以后我可以常用这个库了，它有一系列实验的特性，可以实现多种交互，大家可以看看各种 demo： Remotion：使用 React 代码来创建剪辑视频，非常方便还有各种比较高级的交互，还有一个基于 Web 的 studio，没想到还有这样的思路和工具，很有趣。

怎样做出令人惊艳的代码交互视频，这位国外推友在回复中分享了他的技术栈，效果真的很帅，我觉得非常不错，以后也可以常用，尤其是在教学视频/博客中等等很好用。 CodeHike：一个代码高亮以及代码 walkthrough 模拟库，做的非常棒，以后我可以常用这个库了，它有一系列实验的特性，可以实现多种交互，大家可以看看各种 demo： Remotion：使用 React 代码来创建剪辑视频，非常方便还有各种比较高级的交互，还有一个基于 Web 的 studio，没想到还有这样的思路和工具，很有趣。

Viking

49,005 次观看 • 2 年前

太酷了，阿里通义实验室给出了一套完整的可实时交互的数字人系统！先是一款单图秒级3D数字人生成模型：LAM，支持实时动画和交互功能支持跨平台、低延迟、实时渲染另外还开源了两个配套工具，形成了一个完整的可实时交互的数字人系统 1、Audio2Expression，一个音频驱动的表情动画模型，用于驱动LAM生成的数字人头像，根据音频做出相应的嘴型和表情 2、OpenAvatarChat，数字人实时对话系统，核心是多模态低延迟，平均回答延迟在2.2秒左右 #AI数字人 #虚拟主播

太酷了，阿里通义实验室给出了一套完整的可实时交互的数字人系统！先是一款单图秒级3D数字人生成模型：LAM，支持实时动画和交互功能支持跨平台、低延迟、实时渲染另外还开源了两个配套工具，形成了一个完整的可实时交互的数字人系统 1、Audio2Expression，一个音频驱动的表情动画模型，用于驱动LAM生成的数字人头像，根据音频做出相应的嘴型和表情 2、OpenAvatarChat，数字人实时对话系统，核心是多模态低延迟，平均回答延迟在2.2秒左右 #AI数字人 #虚拟主播

AIGCLINK

47,683 次观看 • 1 年前

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

第一个开源的具有实时对话能力的多模态模型：Mini-Omni ，支持端到端的语音输入、输出 Mini-Omni是清华大学启元实验室开源的项目，能听、能说也能实时思考，在实时语音交互上媲美GPT-4o 特点： 1、实时语音到语音的对话能力: 无需额外的ASR或TTS模型 2、边思考边说话: 能够同时生成文本和音频 3、流式音频输出: 支持流式音频输出 4、"Any Model Can Talk" 方法: Mini-Omni 可以将语音交互能力添加到其他模型中，为其他模型赋能 github：论文： #LLM #实时语音对话LLM

AIGCLINK

52,126 次观看 • 1 年前

100块的AI，如何帮我接单月赚12万？这次做这个项目给我的感受是国产模型真的能用了！其实我一直都是用最好的模型，Claude 4.5 + Claude Code也一直是我的AI编程主力，但真的被封麻了。每天重新搞Claude的时间都有一两个小时，这次用GLM4.6来平替效果还真可以。虽然它下午高峰期时不时会卡，而且偶尔指令遵循确实比GPT-5差不少，可90%的开发任务都还不错，返工率也可以接受。我现在的最好的实践就是，保留20美金的Cursor用顶级模型，再来个GLM4.6干活，很香！

100块的AI，如何帮我接单月赚12万？这次做这个项目给我的感受是国产模型真的能用了！其实我一直都是用最好的模型，Claude 4.5 + Claude Code也一直是我的AI编程主力，但真的被封麻了。每天重新搞Claude的时间都有一两个小时，这次用GLM4.6来平替效果还真可以。虽然它下午高峰期时不时会卡，而且偶尔指令遵循确实比GPT-5差不少，可90%的开发任务都还不错，返工率也可以接受。我现在的最好的实践就是，保留20美金的Cursor用顶级模型，再来个GLM4.6干活，很香！

Yihui

74,834 次观看 • 7 个月前

圣诞礼物🎄 木有乱七八糟的条件，转发本推文即可抽 3 个 Domo AI 会员 Domo AI可以将任意视频转换成其他各种风格以下是今年 DomoAI official 最火的一些视频风格模型展示另外从今天到1月1日使用代码：CHRISTMAS20 开通 DomoAI 会员课享受 20%优惠

圣诞礼物🎄 木有乱七八糟的条件，转发本推文即可抽 3 个 Domo AI 会员 Domo AI可以将任意视频转换成其他各种风格以下是今年 DomoAI official 最火的一些视频风格模型展示另外从今天到1月1日使用代码：CHRISTMAS20 开通 DomoAI 会员课享受 20%优惠

小互

19,280 次观看 • 1 年前

我刚看到一个很疯狂的实验。有人让 Claude 搭建了一个 “上帝视角” 终端：里面有 56 个实时运行的 AI agents，用来模拟真实世界的市场参与者。每个 agent 都有记忆、人格和行为模式，会形成群体、产生意见领袖，并且实时改变观点。

我刚看到一个很疯狂的实验。有人让 Claude 搭建了一个 “上帝视角” 终端：里面有 56 个实时运行的 AI agents，用来模拟真实世界的市场参与者。每个 agent 都有记忆、人格和行为模式，会形成群体、产生意见领袖，并且实时改变观点。

AI Will

111,433 次观看 • 3 个月前