正在加载视频...

视频加载失败

一秒生成高斯点云? Apple新模型SHARP实测! Apple 刚刚推出了新的模型和配套框架 SHARP, 这个模型可以实现单张图像生成逼真的3D场景, 尤其是模型大小只有2.8GB, 大概是1.4B? 速度足够快, 可以一秒生成高斯点云, 然后这个点云可以为图片向邻近的视角提供多角度地观察, 比如我拍了一张椅子, 那么点云化后就能渲染椅子左右20度的视角, 更多就不行了. 视频是我的实测, 目前测下来日常场景使用完全没问题, 只有在复杂的场景才会露出破绽, 比如镜面反射, 或者超长焦, 感觉这个模型如果应用到 Apple Vision Pro 上会有很不错的场景, 照片仅需要1秒, 弄3D相册不是问题. #Apple #SHARP

23,813 次观看 • 6 个月前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,706 次观看 • 9 个月前

昨天发了一个视频,看到评论里有人问:你都在用 Claude Code 了,为什么还要用国内的 Coding Plan? 对我来说,这不是一个二选一的问题,而是一个补充题。 大家都知道御三家的硬实力更强,这点没什么好争议的。但很多日常场景里,国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。 比如文本处理、资料整理、基础 coding、简单 agent 任务,这类占日常 80% 的工作,很多时候并不一定非要上最贵的模型。对大多数中国用户来说,国产模型更顺手,速度也够,价格还低不少。 还有一个经常被忽略的点,其实是处理速度。 我自己实测下来,国内这些模型在一些简单任务上,接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务,用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。 另外我觉得,现在国内头部几家 AI 厂商,已经不是“能不能做”的问题了。无论是阿里还是字节,一方面有足够的算力和基础设施,另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里,把国产模型纳入自己的工具链,本来就是很自然的事。 所以我现在的看法一直都不是“国产替代”或者“二选一”,而是按场景分工:复杂、高价值任务交给最强模型;大量日常、重复、成本敏感的任务,用国产模型做补充,我觉得这反而是更现实、也更科学的用法。

luolei

32,330 次观看 • 2 个月前

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶,然后开始化学反应,溶液变成泡沫从瓶口喷发而出最后落下来。 这道题的相当难,基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制 三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少 如何模拟泡沫从瓶口喷出 泡沫受重力影响掉落在桌面上 泡沫逐渐变扁并消失 泡沫破的光照与阴影 直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 次观看 • 11 个月前