Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

Claude Fable 5 vs opus4.8 模型对比 给两个模型发了一模一样的三个提示,要求它们做完全不依赖外部库的HTML5模拟,还得有真实物理效果。 三个任务分别是: 1. 混沌双摆 2. 高尔顿板 3. 旋转滚筒里的水 #claude #fable5

60,810 Aufrufe • vor 9 Tagen •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

国产最新的多模态模型来了!! 前两周我刚体验过国产的阶跃星辰大模型,没想到这么快他们的新模型 Step 3.7 Flash 就出了。 现在大模型一发布必卷 benchmark 分数,但真正做 Agent 的人都清楚:跑分高 ≠ 能把活干完。 所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快,而是主打“生产任务端到端执行效率”。 一个真实的 Agent 任务从来不是一次问答,而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环,Step 3.7 Flash 这次升级的重点是整条链路的效率,而不是某个孤立指标。 提几个我觉得挺务实的点: 1. 原生多模态模型:它可以直接处理 UI 截图、图表、仪表盘、文档,原生读懂并转成结构化输出和可执行步骤,不需要像一些模型那样外挂视觉理解 MCP,而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索:网页搜索、图像搜索、视觉验证、多源信息比对,让 Agent 在开放任务里边查边验证边行动,而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数,最高 400 TPS:稀疏激活 + 这个速度,意味着高频交互、多步工作流、反复工具调用的场景下,单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署:生产环境要的不只是 API,还有透明度、可控性和部署灵活性。 如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统,值得用 StepFun 试试这款新模型的能力。 想看更进阶的平台能力,可以了解 Step Plan。 海外平台: 国内平台:

耳朵

12,015 Aufrufe • vor 13 Tagen

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶,然后开始化学反应,溶液变成泡沫从瓶口喷发而出最后落下来。 这道题的相当难,基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制 三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少 如何模拟泡沫从瓶口喷出 泡沫受重力影响掉落在桌面上 泡沫逐渐变扁并消失 泡沫破的光照与阴影 直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 Aufrufe • vor 11 Monaten