正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

一秒生成高斯点云? Apple新模型SHARP实测! Apple 刚刚推出了新的模型和配套框架 SHARP, 这个模型可以实现单张图像生成逼真的3D场景, 尤其是模型大小只有2.8GB, 大概是1.4B? 速度足够快, 可以一秒生成高斯点云, 然后这个点云可以为图片向邻近的视角提供多角度地观察, 比如我拍了一张椅子, 那么点云化后就能渲染椅子左右20度的视角, 更多就不行了. 视频是我的实测, 目前测下来日常场景使用完全没问题, 只有在复杂的场景才会露出破绽, 比如镜面反射, 或者超长焦, 感觉这个模型如果应用到 Apple Vision Pro 上会有很不错的场景, 照片仅需要1秒, 弄3D相册不是问题. #Apple #SHARP

karminski-牙医

31,549 subscribers

23,813 次观看 • 6 个月前 •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

如果你在做游戏, 那一定要看看这个大模型! 给大家带来腾讯刚刚发布的可以生成人物动作的大模型hunyuan-motion-1.0 实测这个模型最大的特性是可以通过文字描述生成动作, 并且它是端到端的模型, 生成的动作可以直接用于Blender、Unity、UE等主流3D工具我简单测试了几个极限场景, 这个模型对于日常场景的动作还原很不错, 甚至一些复杂一点的, 比如黑客帝国中的子弹时间的下腰动作还原得也不错. 那么极限在哪里呢? 简单来讲, 职业运动员的动作不太行, 比如跳台滑雪, 跳水, 小轮车这类. 总结, 这个模型用于快速生成游戏场景中NPC的日常生活动作是完全够用的, 不过主要角色的动作设计还是需要大量修改才能使用.

如果你在做游戏, 那一定要看看这个大模型! 给大家带来腾讯刚刚发布的可以生成人物动作的大模型hunyuan-motion-1.0 实测这个模型最大的特性是可以通过文字描述生成动作, 并且它是端到端的模型, 生成的动作可以直接用于Blender、Unity、UE等主流3D工具我简单测试了几个极限场景, 这个模型对于日常场景的动作还原很不错, 甚至一些复杂一点的, 比如黑客帝国中的子弹时间的下腰动作还原得也不错. 那么极限在哪里呢? 简单来讲, 职业运动员的动作不太行, 比如跳台滑雪, 跳水, 小轮车这类. 总结, 这个模型用于快速生成游戏场景中NPC的日常生活动作是完全够用的, 不过主要角色的动作设计还是需要大量修改才能使用.

karminski-牙医

35,801 次观看 • 5 个月前

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 次观看 • 6 个月前

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,706 次观看 • 9 个月前

有好多同学问我想搞 AI Agent，但是不知道怎样选模型。这次给大家来一个自动评测大模型的框架 YourBench 这个框架允许你上传你需要的材料（比如病例），然后生成测试集，来测试你需要选取的大模型，看哪个大模型最适合你的场景。全程自动化完成。我给大家录制的这是网页demo，可以上传PDF或者其他格式的文本文件，然后生成评测题目，这些评测题目都是问答题，比如我直接塞了一本哈利波特与魔法石。它生成的测试题有一个是，守护魔法石的魔法中，有哪个施法者与哈利有个人关系。答案是海格。因为三头犬是海格布置的。可以看到它生成完毕测试集后，然后框架还可以进行自动测试。最后测试完毕，得到结果是前五个模型都回答得不错。感兴趣的同学可以关注下地址：

有好多同学问我想搞 AI Agent，但是不知道怎样选模型。这次给大家来一个自动评测大模型的框架 YourBench 这个框架允许你上传你需要的材料（比如病例），然后生成测试集，来测试你需要选取的大模型，看哪个大模型最适合你的场景。全程自动化完成。我给大家录制的这是网页demo，可以上传PDF或者其他格式的文本文件，然后生成评测题目，这些评测题目都是问答题，比如我直接塞了一本哈利波特与魔法石。它生成的测试题有一个是，守护魔法石的魔法中，有哪个施法者与哈利有个人关系。答案是海格。因为三头犬是海格布置的。可以看到它生成完毕测试集后，然后框架还可以进行自动测试。最后测试完毕，得到结果是前五个模型都回答得不错。感兴趣的同学可以关注下地址：

karminski-牙医

23,579 次观看 • 1 年前

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

来看苹果刚发布的视频模型——星流 starflow！苹果刚刚发布了一个新模型 starflow, 这个模型最大的特点是可以文生视频, 图生视频, 视频生成视频, 甚至还支持生成长视频. 模型大小7B, 视频部分使用 WAN-2.2-VAE 魔改, 图片部分使用 SD-VAE 魔改, 最高只支持生成 480p 的视频, 另外模型文件格式是pth, 通常是使用 PyTorch 炼丹的时候保存的原始检查点文件时 pth. 所以这个模型更可能是个技术探索? 并不是很实用.

karminski-牙医

42,175 次观看 • 6 个月前

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

一个模型搞定视频+音频+口型! 你看到的这个就是 LTX 刚刚发布的 LTX-2 开放权重大模型, 这个模型可以文生视频或者图生视频, 这个模型最大的特点是在保证了画质和一致性的同时, 可以生成音频! 而且音频和口型完全适配! 并且说话人神态也非常棒! 模型大小是 19B, 相当可用! 演示视频是我用 HuggingFace Zero GPU 生成的 demo, 10秒视频大概需要5分钟左右生成时间. 我测试目前来看最大的优点就是口型和声音生成得非常好, 并且一致性很高. 指定人物使用什么样的银色就能稳定生成. 当然模型也有不足之处, 主要是还是偶尔能看到模型生成人物皮肤的那种油腻感. 当然官方的 pro 版本在这点上处理的更好, 并且 pro 版本支持4K分辨率输出, 当然 pro 版本是没有开源的.

karminski-牙医

19,803 次观看 • 5 个月前

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

Sensitive content

现在图生视频都在5秒或10秒，10秒的看上去像5秒的慢放，这个无论是在开源模型还是闭源模型上都有类似效果。尤其对于商业闭源视频来说，如果花费一倍以上的成本生成的10秒视频却只是5秒的慢放版，那就显得太不划算了。这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供这里尝试一个方案：从商业闭源模型生成5秒视频，然后用插帧模型生成10秒视频，以下是使用Topaz插帧和原生的对比，供大家参考。 #女s #les #女仆 #AI视频

獨自懵逼

18,922 次观看 • 1 年前

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,141 次观看 • 1 个月前

Pixverse V3.5 模型发布真的起飞了玩了好几天看一下测试结果现在 Pixverse V3.5 应该是第一档模型中速度最快的，Runway 唯一的优势也没了 V3.5 的 Turbo 模型一条视频只需要 10 秒以内，快的话 5、6 秒就可以生成！重要的是这个快速模型生成质量除了分辨率之外吊打 Runway 下面有详细的介绍：

Pixverse V3.5 模型发布真的起飞了玩了好几天看一下测试结果现在 Pixverse V3.5 应该是第一档模型中速度最快的，Runway 唯一的优势也没了 V3.5 的 Turbo 模型一条视频只需要 10 秒以内，快的话 5、6 秒就可以生成！重要的是这个快速模型生成质量除了分辨率之外吊打 Runway 下面有详细的介绍：

歸藏(guizang.ai)

39,214 次观看 • 1 年前

牛P了 Vidu 的 Reference-to-Video 功能支持一次性上传最多 7 张参考图片并结合一段文字提示，生成具有高度一致性、风格统一、视觉保真度高的视频内容参考图可以是人物、场景、道具等任意内容下面是我的测试介绍... 利用 Vidu Q1 模型的多模态对齐机制能实现结构保持、纹理迁移、风格还原同步完成模型还会根据参考图和 Prompt 自动进行智能镜头推演，构建“视觉叙事”结构，如推镜头、平移、场景切换等这是目前行业内首个支持多图引用、并具有角色/场景一致性的开放式视频生成工具。下面是教程

牛P了 Vidu 的 Reference-to-Video 功能支持一次性上传最多 7 张参考图片并结合一段文字提示，生成具有高度一致性、风格统一、视觉保真度高的视频内容参考图可以是人物、场景、道具等任意内容下面是我的测试介绍... 利用 Vidu Q1 模型的多模态对齐机制能实现结构保持、纹理迁移、风格还原同步完成模型还会根据参考图和 Prompt 自动进行智能镜头推演，构建“视觉叙事”结构，如推镜头、平移、场景切换等这是目前行业内首个支持多图引用、并具有角色/场景一致性的开放式视频生成工具。下面是教程

小互

44,247 次观看 • 11 个月前

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

🤣Sketch to 3D！！！做了一个简单好玩的工作流，可以直接把手绘快速变成 3D 模型图像模型用了 Playground v2.5 保证图像语义和主体的高质量生成（可以生成主体+纯色背景），3D 生成用了可以秒出的 TripoSR 模型如果更加追求速度，可以换成 XL-Lightning、TCD 等工作流：

-Zho-

60,734 次观看 • 2 年前

兄弟们手机上现在能跑世界模型了蚂蚁灵光 App 今天上线"体验世界模型"的功能上传一张图，等个几秒到几十秒，就能生成一个可以拿摇杆走进去的 3D 世界。手机的算力怎么可能支撑这件事？应该是云端生成，但是速度这么快，也是牛P，不过效果没有那么惊艳，但是可以玩... 我连测了四张图都进去了...

兄弟们手机上现在能跑世界模型了蚂蚁灵光 App 今天上线"体验世界模型"的功能上传一张图，等个几秒到几十秒，就能生成一个可以拿摇杆走进去的 3D 世界。手机的算力怎么可能支撑这件事？应该是云端生成，但是速度这么快，也是牛P，不过效果没有那么惊艳，但是可以玩... 我连测了四张图都进去了...

小互

56,763 次观看 • 1 个月前

昨天发了一个视频，看到评论里有人问：你都在用 Claude Code 了，为什么还要用国内的 Coding Plan？对我来说，这不是一个二选一的问题，而是一个补充题。大家都知道御三家的硬实力更强，这点没什么好争议的。但很多日常场景里，国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。比如文本处理、资料整理、基础 coding、简单 agent 任务，这类占日常 80% 的工作，很多时候并不一定非要上最贵的模型。对大多数中国用户来说，国产模型更顺手，速度也够，价格还低不少。还有一个经常被忽略的点，其实是处理速度。我自己实测下来，国内这些模型在一些简单任务上，接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务，用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。另外我觉得，现在国内头部几家 AI 厂商，已经不是“能不能做”的问题了。无论是阿里还是字节，一方面有足够的算力和基础设施，另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里，把国产模型纳入自己的工具链，本来就是很自然的事。所以我现在的看法一直都不是“国产替代”或者“二选一”，而是按场景分工：复杂、高价值任务交给最强模型；大量日常、重复、成本敏感的任务，用国产模型做补充，我觉得这反而是更现实、也更科学的用法。

昨天发了一个视频，看到评论里有人问：你都在用 Claude Code 了，为什么还要用国内的 Coding Plan？对我来说，这不是一个二选一的问题，而是一个补充题。大家都知道御三家的硬实力更强，这点没什么好争议的。但很多日常场景里，国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。比如文本处理、资料整理、基础 coding、简单 agent 任务，这类占日常 80% 的工作，很多时候并不一定非要上最贵的模型。对大多数中国用户来说，国产模型更顺手，速度也够，价格还低不少。还有一个经常被忽略的点，其实是处理速度。我自己实测下来，国内这些模型在一些简单任务上，接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务，用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。另外我觉得，现在国内头部几家 AI 厂商，已经不是“能不能做”的问题了。无论是阿里还是字节，一方面有足够的算力和基础设施，另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里，把国产模型纳入自己的工具链，本来就是很自然的事。所以我现在的看法一直都不是“国产替代”或者“二选一”，而是按场景分工：复杂、高价值任务交给最强模型；大量日常、重复、成本敏感的任务，用国产模型做补充，我觉得这反而是更现实、也更科学的用法。

luolei

32,330 次观看 • 2 个月前

测试了一下 Google Genie3 ，挺震撼的... 提示词是一只有白色翅膀的边牧飞在上海的天空。可以看到场景的生成有不少瑕疵，黄浦江上的桥也渲染的不对，靠近了之后甚至变成了水坝... 盲猜这是一个能够每秒生成至少24张连续图片的大模型，未来如果算力再指数提升，游戏行业也没得玩了...

测试了一下 Google Genie3 ，挺震撼的... 提示词是一只有白色翅膀的边牧飞在上海的天空。可以看到场景的生成有不少瑕疵，黄浦江上的桥也渲染的不对，靠近了之后甚至变成了水坝... 盲猜这是一个能够每秒生成至少24张连续图片的大模型，未来如果算力再指数提升，游戏行业也没得玩了...

Crypto_Painter

26,104 次观看 • 3 个月前

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 次观看 • 11 个月前

牛P了 Runway 推出Gen-4 References（第四代参考图）新功能这个功能的核心作用是：让你能创建风格一致的人物、场景等内容（比如连续性的人物造型、背景风格）你可以使用已有的素材，如： •照片 •生成的图像 •3D 模型 •自拍然后将这些素材 “嵌入”到你想象中的任何场景里。简单说，就是：你可以上传某个角色的照片，然后 AI 会根据这个角色生成不同场景中的一致形象，比如同一个人穿不同衣服、在不同地方，但都保持形象一致。这个功能非常适合： •做动画、漫画角色统一性 •为短片、电影设定角色风格 •把自己放进虚拟世界、幻想场景中

牛P了 Runway 推出Gen-4 References（第四代参考图）新功能这个功能的核心作用是：让你能创建风格一致的人物、场景等内容（比如连续性的人物造型、背景风格）你可以使用已有的素材，如： •照片 •生成的图像 •3D 模型 •自拍然后将这些素材 “嵌入”到你想象中的任何场景里。简单说，就是：你可以上传某个角色的照片，然后 AI 会根据这个角色生成不同场景中的一致形象，比如同一个人穿不同衣服、在不同地方，但都保持形象一致。这个功能非常适合： •做动画、漫画角色统一性 •为短片、电影设定角色风格 •把自己放进虚拟世界、幻想场景中

小互

37,821 次观看 • 1 年前

👉 GPT-4o 图片生成分明是的春天啊，技术拐点，牵一发而动全身！过去在 Tripo 玩的时候，几个图生 3D 的难点： 1️⃣ 图片的 3D 感不够，导致模型生成的效果不够好； 2️⃣ 或者手、腿和身体粘黏，导致自动绑骨骼后仍然需要手动做大量修复。那么解决方法是想一个 SD 的中间串联步骤，提高图片的 3D 质感再拿去生成模型（这也是 X 上探索的主流方法），另一个办法自然是优化 base model。现在有了 gpt-4o 很快在大部分场景就已经没有任何技术阻碍，可以大肆进攻 3D 市场了。

👉 GPT-4o 图片生成分明是的春天啊，技术拐点，牵一发而动全身！过去在 Tripo 玩的时候，几个图生 3D 的难点： 1️⃣ 图片的 3D 感不够，导致模型生成的效果不够好； 2️⃣ 或者手、腿和身体粘黏，导致自动绑骨骼后仍然需要手动做大量修复。那么解决方法是想一个 SD 的中间串联步骤，提高图片的 3D 质感再拿去生成模型（这也是 X 上探索的主流方法），另一个办法自然是优化 base model。现在有了 gpt-4o 很快在大部分场景就已经没有任何技术阻碍，可以大肆进攻 3D 市场了。

Lyson Ober

100,055 次观看 • 1 年前

看到大家玩的蛮开心，之前的功能我决定全部免费开放，不用再问我要License了。同时，DrawingPics发布正式版了，License购买作为了可选项，这次更新带来的两个新模型，作为License激活用户的特权。这次更新的效果是，不需要什么机器代价的情况下，你们可以画的更准，和图像质量更高。直观展示请看视频。关于这两个模型具体细节： 1 精准画图模型：类似controlnet，这个模型下你画的线条它都会去感知到。另外它只需要额外多下载300M。运行时内存也有优化。 2更高质量的模型：这个是SDXL的社区改良版，比SDXL体积更小速度更快，适合我们这种场景跑。SDXL主要特色是具有照片真实感，景深比较强。它也同样拥有这个优点。但低分辨率下跑不出来效果。缺点是它要多下载4-6GB，而且占用内存比较高。 3一开始的画图模型，没有动它：我发现了它的优点，就是图生图的理解能力蛮强的，只要写简单的prompt就能懂，虽然没有SDXL那么“高质量”真实感，但是似乎更“聪明”“灵活”，而且快。这就是目前三个主要的画图模式，都在最新的 DrawingPics1.0.1 版本中发了，只需要下载安装，就可以在你自己的电脑上无限出图了！

看到大家玩的蛮开心，之前的功能我决定全部免费开放，不用再问我要License了。同时，DrawingPics发布正式版了，License购买作为了可选项，这次更新带来的两个新模型，作为License激活用户的特权。这次更新的效果是，不需要什么机器代价的情况下，你们可以画的更准，和图像质量更高。直观展示请看视频。关于这两个模型具体细节： 1 精准画图模型：类似controlnet，这个模型下你画的线条它都会去感知到。另外它只需要额外多下载300M。运行时内存也有优化。 2更高质量的模型：这个是SDXL的社区改良版，比SDXL体积更小速度更快，适合我们这种场景跑。SDXL主要特色是具有照片真实感，景深比较强。它也同样拥有这个优点。但低分辨率下跑不出来效果。缺点是它要多下载4-6GB，而且占用内存比较高。 3一开始的画图模型，没有动它：我发现了它的优点，就是图生图的理解能力蛮强的，只要写简单的prompt就能懂，虽然没有SDXL那么“高质量”真实感，但是似乎更“聪明”“灵活”，而且快。这就是目前三个主要的画图模式，都在最新的 DrawingPics1.0.1 版本中发了，只需要下载安装，就可以在你自己的电脑上无限出图了！

Xiao Tan

116,792 次观看 • 2 年前