Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶,然后开始化学反应,溶液变成泡沫从瓶口喷发而出最后落下来。 这道题的相当难,基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制 三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少 如何模拟泡沫从瓶口喷出 泡沫受重力影响掉落在桌面上 泡沫逐渐变扁并消失 泡沫破的光照与阴影 直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果....

63,222 Aufrufe • vor 10 Monaten •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,705 Aufrufe • vor 9 Monaten

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 6 Monaten

GPT-5.2 实测! 美是真的美, 卡是真的卡 给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别 总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

karminski-牙医

31,406 Aufrufe • vor 6 Monaten

再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,654 Aufrufe • vor 11 Monaten

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,584 Aufrufe • vor 2 Monaten

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

karminski-牙医

19,592 Aufrufe • vor 5 Monaten

OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSS

karminski-牙医

55,324 Aufrufe • vor 10 Monaten