Загрузка видео...

Не удалось загрузить видео

На главную

OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡...

55,324 просмотров • 10 месяцев назад •via X (Twitter)

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

GPT-5.2 实测! 美是真的美, 卡是真的卡 给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别 总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

karminski-牙医

31,406 просмотров • 6 месяцев назад

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,705 просмотров • 9 месяцев назад

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

17,239 просмотров • 6 дней назад

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,584 просмотров • 2 месяцев назад

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶,然后开始化学反应,溶液变成泡沫从瓶口喷发而出最后落下来。 这道题的相当难,基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制 三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少 如何模拟泡沫从瓶口喷出 泡沫受重力影响掉落在桌面上 泡沫逐渐变扁并消失 泡沫破的光照与阴影 直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 просмотров • 10 месяцев назад

再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,654 просмотров • 11 месяцев назад

兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我今年Claude被封过一次号,那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷,付费用户说封就封,申诉通道石沉大海,深夜破防一次就够了。 从那之后我转战聚合平台,试了一圈最后留在ZenMux,半年用下来没再折腾过。 所以这次V4 Pro在ZenMux上免费开放,对我来说不是又一个新模型上线,是我一直在用的平台又多了一张能打的牌,顺手就想推给兄弟们。 先说V4 Pro到底值不值得冲, 这几天X上吹V4 Pro的推刷屏了,参数跑分价格屠杀,都是同一个模板。 但对我这种每个月真金白银付API账单的人来说,跑分都是虚的,能不能替掉我手头项目里的Claude调用才是真问题。 免费窗口就是用来验证这件事的, 我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏,拿自己项目里最头疼的prompt开跑,三栏并排输出,谁快谁慢谁token烧得少一眼看完。 四个场景跑完结论很清晰——日常80%的活V4 Pro能接,便宜到让我下不去手再用Opus,剩下20%极限稳定性的关键链路我还是留给Claude兜底。 这就是模型分层,上周讲Ling的时候也提过这个逻辑,2026年不存在一个模型打天下,只存在你工具箱里的模型组合。 顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏,三家模型同屏对比这种功能市面上很少有平台做,每次选模型省我一整个下午,比自己写脚本调三家API再人肉对比快十倍。 真正让我踏实的是保险赔付机制,模型输出异常或者延时拉胯,平台自动检测并补偿。 被Claude封过号之后再看到这个设计,感觉完全不一样,出问题有人兜底,不用再深夜破防。 再加上日志、成本、用量、性能四个维度的可观测性做得细,每一笔钱烧在哪、每一次请求卡在哪点开就能看,调prompt和选型的时候非常好使。 回到这次的白嫖窗口, DeepSeek V4 Pro和Flash都有免费版,每天有用量限制但够你跑测试。 这几天想验证要不要换模型的兄弟,别再刷跑分推了,自己扔几个真实prompt进去跑一遍,十分钟你就知道该不该换,比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

AYi

130,731 просмотров • 1 месяц назад

星爷讽刺了世间一切,唯独没有讽刺爱情,: 原来是如此的隐喻,到现在才明白,感谢星爷,只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。 懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

35,879 просмотров • 5 месяцев назад