Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中，三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的！另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了,... show more

karminski-牙医

29,392 subscribers

24,454 просмотров • 8 месяцев назад •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

karminski-牙医

31,406 просмотров • 6 месяцев назад

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 просмотров • 11 месяцев назад

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,708 просмотров • 9 месяцев назад

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

karminski-牙医

11,750 просмотров • 7 месяцев назад

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

karminski-牙医

47,153 просмотров • 2 месяцев назад

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,630 просмотров • 3 месяцев назад

DeepSeek V3.2 正式版实测! 提升真的有限? 给大家带来 DeepSeek V3.2 正式版的测试结果: 所有测试项目来看, 与之前的 DeepSeek-V3.2-Exp 相比是有进步的, 之前无法实现的测试这次都可以实现了. 不过相较于 SOTA 水平的模型相比, 差距仍然存在, 甚至与国产SOTA模型相比都有一定的差距. 有同学可能会说, 这次支持了 thinking with tools, 但这个也不是新鲜事了, DeepSeek 反而处于追赶的状态了. 另外, 测试过程中发现 DeepSeek V3.2 正式版还有错别字的问题, 把 axle 拼写成了 axxle. 导致变量出错 (与正确变量名称就差一行, 匪夷所思...). 总之, 目前的版本还是不适合用来写代码, 建议大家谨慎. DeepSeek 加油啊! 看着编程性能上不来我是真着急, 赶紧春节前放出 DeepSeek-V4 吧. #deepseek #KCORES大模型竞技场

DeepSeek V3.2 正式版实测! 提升真的有限? 给大家带来 DeepSeek V3.2 正式版的测试结果: 所有测试项目来看, 与之前的 DeepSeek-V3.2-Exp 相比是有进步的, 之前无法实现的测试这次都可以实现了. 不过相较于 SOTA 水平的模型相比, 差距仍然存在, 甚至与国产SOTA模型相比都有一定的差距. 有同学可能会说, 这次支持了 thinking with tools, 但这个也不是新鲜事了, DeepSeek 反而处于追赶的状态了. 另外, 测试过程中发现 DeepSeek V3.2 正式版还有错别字的问题, 把 axle 拼写成了 axxle. 导致变量出错 (与正确变量名称就差一行, 匪夷所思...). 总之, 目前的版本还是不适合用来写代码, 建议大家谨慎. DeepSeek 加油啊! 看着编程性能上不来我是真着急, 赶紧春节前放出 DeepSeek-V4 吧. #deepseek #KCORES大模型竞技场

karminski-牙医

43,889 просмотров • 6 месяцев назад

Kimi-K2-Thinking 实测! 差距继续缩小! 给大家带来 kimi k2 thinking 的测试结果: 大象牙膏测试没问题, 感觉物理效果又进步了! 这个粘稠的质感已经越来越象大象牙膏了, 不过烧瓶内液面还是差点意思. 鞭炮连锁爆炸也没问题, 老强项了, 可以看跟过去的 kimi k2 0905 的对比, 鞭炮皮优化了. 这次的新测试效果也很好, 对比之下跟 Claude-Sonnet-4.5 生成的结果几乎看不出来差别. python 杯子倒水测试同样跟 0905 版本对比也好了很多, 另外, 本次还追加了前端页面测试, 写一个瀑布流页面, 也没问题, 缩放效果良好. 最后, 我还给大家整了个活, 2个小时内极限 Vibe 编程, 用 claude code + kimi k2 thinking 写了个 claude code 的克隆 Rock Code, 实现了写代码, 编辑文件, 本地运行脚本. 全程很顺畅. 总结, 国产大模型虽然还没有超过 claude, 但是已经距离 claude 越来越近了! Anthropic 就问你怕不怕? #kimi #月之暗面 #kimik2thinking #VibeCoding

Kimi-K2-Thinking 实测! 差距继续缩小! 给大家带来 kimi k2 thinking 的测试结果: 大象牙膏测试没问题, 感觉物理效果又进步了! 这个粘稠的质感已经越来越象大象牙膏了, 不过烧瓶内液面还是差点意思. 鞭炮连锁爆炸也没问题, 老强项了, 可以看跟过去的 kimi k2 0905 的对比, 鞭炮皮优化了. 这次的新测试效果也很好, 对比之下跟 Claude-Sonnet-4.5 生成的结果几乎看不出来差别. python 杯子倒水测试同样跟 0905 版本对比也好了很多, 另外, 本次还追加了前端页面测试, 写一个瀑布流页面, 也没问题, 缩放效果良好. 最后, 我还给大家整了个活, 2个小时内极限 Vibe 编程, 用 claude code + kimi k2 thinking 写了个 claude code 的克隆 Rock Code, 实现了写代码, 编辑文件, 本地运行脚本. 全程很顺畅. 总结, 国产大模型虽然还没有超过 claude, 但是已经距离 claude 越来越近了! Anthropic 就问你怕不怕? #kimi #月之暗面 #kimik2thinking #VibeCoding

karminski-牙医

40,904 просмотров • 7 месяцев назад

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,654 просмотров • 11 месяцев назад

Qwen3-Max-Preview 实测! 给大家放个鞭炮直接说结论, 没想到距离7月份仅仅过去2个月, 国产大模型又来了一波更新这次 Qwen3-Max-Preview 的前端能力也是肉眼可见的提升, 两个前端项目测试中表现优于 DeepSeek-V3.1 不过 Python 水平同样也没感觉到明显的变化, 建议厂商别都光盯着前端性能训练, 其它语言性能也要努努力. 另外, 本次测试是 Qwen3-Max-Preview 直接输出的, 没有借助 claude code, 所以长内容的召回能力肯定也是有提升的. 这点要点赞. #Qwen3Max #Qwen #大模型竞技场

Qwen3-Max-Preview 实测! 给大家放个鞭炮直接说结论, 没想到距离7月份仅仅过去2个月, 国产大模型又来了一波更新这次 Qwen3-Max-Preview 的前端能力也是肉眼可见的提升, 两个前端项目测试中表现优于 DeepSeek-V3.1 不过 Python 水平同样也没感觉到明显的变化, 建议厂商别都光盯着前端性能训练, 其它语言性能也要努努力. 另外, 本次测试是 Qwen3-Max-Preview 直接输出的, 没有借助 claude code, 所以长内容的召回能力肯定也是有提升的. 这点要点赞. #Qwen3Max #Qwen #大模型竞技场

karminski-牙医

18,761 просмотров • 9 месяцев назад

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 просмотров • 7 месяцев назад

GLM-4.6 实测! 最近都很流行更新一大截然后版本就增加0.1嘛? 直接说结论, 前端能力非常好, 效果甚至达到了炫技的程度, 不过随之而来的是复杂场景可能面临性能问题, 所以需要注意防止模型过度发挥或者偶尔留意下代码设计和架构. 不过 python 能力没看到太多变化, 考虑到 python 就一个测试, 所以建议大家如果用来写后端代码还是要多测试一下, 以及希望国产大模型也提升一下其他语言性能. #glm46 #KCORES大模型竞技场

GLM-4.6 实测! 最近都很流行更新一大截然后版本就增加0.1嘛? 直接说结论, 前端能力非常好, 效果甚至达到了炫技的程度, 不过随之而来的是复杂场景可能面临性能问题, 所以需要注意防止模型过度发挥或者偶尔留意下代码设计和架构. 不过 python 能力没看到太多变化, 考虑到 python 就一个测试, 所以建议大家如果用来写后端代码还是要多测试一下, 以及希望国产大模型也提升一下其他语言性能. #glm46 #KCORES大模型竞技场

karminski-牙医

20,127 просмотров • 9 месяцев назад

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 просмотров • 6 месяцев назад

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,275 просмотров • 3 месяцев назад

效果大概是这样的建议开高灵敏度我总不可能实际上手测试吧（@jingjiangbie79 不让）所以简单摇了一下

效果大概是这样的建议开高灵敏度我总不可能实际上手测试吧（@jingjiangbie79 不让）所以简单摇了一下

你是想气死铨酱么🍥

29,001 просмотров • 2 лет назад

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

karminski-牙医

86,008 просмотров • 10 месяцев назад

提升明显! Qwen3-Max 正式版 vs Preview版实测! 距离 Qwen3-Max-ThinkingPreview 版发布已经过去3个月了, 正式版终于来了! 这次提升有多大? 给大家直接上测试结果! 编程能力测试: 鞭炮连锁爆炸测试史诗级提升, 之前Preview版完全无法连锁, 现在不仅能连锁, 效果还相当不错; 大象牙膏测试锥形瓶建模改善明显, 甚至有液体下降动画了, 不过粒子动画还是有些问题; 陀飞轮机芯从无法完成到顺利建模; Python杯子倒水的粒子弹性和碰撞检测都修好了. 这次追加了美学测试: 用文字描述让它还原p5.js现代艺术作品, 效果还可以, 但空间理解能力还是拖后腿, 小窗口的横线错位了. Agent能力测试: 60K上下文以内表现优秀, 预估能刷到500分SOTA水平, 但超过60K后性能急剧下降, 会出现任务循环或遗忘工具的问题. 召回能力接近70%, 但出现了奇怪现象——上下文越短召回反而越差, 目前还不清楚是什么问题, 我已经反馈给官方了. 总结: 正式版比Preview版提升肉眼可见, 编程和美学都有进步, 但空间理解、Agent能力和长上下文召回还需打磨. 另外, 本次测试的是正常的thinking版本, 而那个分数超高的TTS模式目前还没上线呢! 期待一波！ #Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问

提升明显! Qwen3-Max 正式版 vs Preview版实测! 距离 Qwen3-Max-ThinkingPreview 版发布已经过去3个月了, 正式版终于来了! 这次提升有多大? 给大家直接上测试结果! 编程能力测试: 鞭炮连锁爆炸测试史诗级提升, 之前Preview版完全无法连锁, 现在不仅能连锁, 效果还相当不错; 大象牙膏测试锥形瓶建模改善明显, 甚至有液体下降动画了, 不过粒子动画还是有些问题; 陀飞轮机芯从无法完成到顺利建模; Python杯子倒水的粒子弹性和碰撞检测都修好了. 这次追加了美学测试: 用文字描述让它还原p5.js现代艺术作品, 效果还可以, 但空间理解能力还是拖后腿, 小窗口的横线错位了. Agent能力测试: 60K上下文以内表现优秀, 预估能刷到500分SOTA水平, 但超过60K后性能急剧下降, 会出现任务循环或遗忘工具的问题. 召回能力接近70%, 但出现了奇怪现象——上下文越短召回反而越差, 目前还不清楚是什么问题, 我已经反馈给官方了. 总结: 正式版比Preview版提升肉眼可见, 编程和美学都有进步, 但空间理解、Agent能力和长上下文召回还需打磨. 另外, 本次测试的是正常的thinking版本, 而那个分数超高的TTS模式目前还没上线呢! 期待一波！ #Qwen3Max #Qwen3MaxThinking #KCORES大模型竞技场 #AI编程 #大模型测评 #阿里千问

karminski-牙医

15,566 просмотров • 5 месяцев назад

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

karminski-牙医

12,255 просмотров • 17 дней назад

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

karminski-牙医

19,592 просмотров • 6 месяцев назад

Anthropic 刚刚悄悄解决了 AI Agent 最大的一个问题之一。过去开发 Agent 的 skill 基本是这样的：写 prompt → 试一下 → 不行再改 → 靠感觉上线。但 Claude 现在给 Skill Creator 加了 3 个关键能力： 1️⃣ Skill Evals（技能测试）可以定义测试问题和成功标准，自动验证一个 skill 是否真的有效。 2️⃣ 多 Agent 基准测试可以并行运行多个 agent，甚至对两个 skill 版本做 A/B 测试。 3️⃣ 触发优化 Claude 会分析你的 skill 描述，自动修复：错误触发没触发描述不清这意味着一件很重要的事： AI Agent 开发正在从 “Prompt Engineering” 变成 “AI Software Engineering” 你可以像开发软件一样：测试评估基准测试持续优化更有意思的一点是：如果某一天，基础模型在没有 skill 的情况下也能通过这些测试，说明这个能力已经被模型“学会”了。也就是说：今天的 Skill，很可能会变成明天的模型能力。 Prompt、Skill、模型训练之间的边界，正在消失。

Anthropic 刚刚悄悄解决了 AI Agent 最大的一个问题之一。过去开发 Agent 的 skill 基本是这样的：写 prompt → 试一下 → 不行再改 → 靠感觉上线。但 Claude 现在给 Skill Creator 加了 3 个关键能力： 1️⃣ Skill Evals（技能测试）可以定义测试问题和成功标准，自动验证一个 skill 是否真的有效。 2️⃣ 多 Agent 基准测试可以并行运行多个 agent，甚至对两个 skill 版本做 A/B 测试。 3️⃣ 触发优化 Claude 会分析你的 skill 描述，自动修复：错误触发没触发描述不清这意味着一件很重要的事： AI Agent 开发正在从 “Prompt Engineering” 变成 “AI Software Engineering” 你可以像开发软件一样：测试评估基准测试持续优化更有意思的一点是：如果某一天，基础模型在没有 skill 的情况下也能通过这些测试，说明这个能力已经被模型“学会”了。也就是说：今天的 Skill，很可能会变成明天的模型能力。 Prompt、Skill、模型训练之间的边界，正在消失。

axiaisacat

68,008 просмотров • 3 месяцев назад