Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果.... 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试show more

karminski-牙医

24,405 subscribers

63,222 просмотров • 1 год назад •via X (Twitter)

Наука и технологии Образование Искусство

Anya Rossi• Live Now

Private livecam show

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中，三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的！另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了, 因为现在头部大模型都能很轻松完成这个测试了. 建议换一些更复杂的体现模型性能. #katcoder #KCORES大模型竞技场

KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中，三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的！另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了, 因为现在头部大模型都能很轻松完成这个测试了. 建议换一些更复杂的体现模型性能. #katcoder #KCORES大模型竞技场

karminski-牙医

25,271 просмотров • 9 месяцев назад

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

karminski-牙医

47,153 просмотров • 3 месяцев назад

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,709 просмотров • 10 месяцев назад

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

karminski-牙医

11,750 просмотров • 8 месяцев назад

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 просмотров • 8 месяцев назад

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

karminski-牙医

31,418 просмотров • 7 месяцев назад

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,275 просмотров • 4 месяцев назад

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

karminski-牙医

86,008 просмотров • 11 месяцев назад

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

karminski-牙医

12,374 просмотров • 1 месяц назад

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 просмотров • 7 месяцев назад

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,748 просмотров • 1 год назад

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,657 просмотров • 3 месяцев назад

Kimi-K2-Thinking 实测! 差距继续缩小! 给大家带来 kimi k2 thinking 的测试结果: 大象牙膏测试没问题, 感觉物理效果又进步了! 这个粘稠的质感已经越来越象大象牙膏了, 不过烧瓶内液面还是差点意思. 鞭炮连锁爆炸也没问题, 老强项了, 可以看跟过去的 kimi k2 0905 的对比, 鞭炮皮优化了. 这次的新测试效果也很好, 对比之下跟 Claude-Sonnet-4.5 生成的结果几乎看不出来差别. python 杯子倒水测试同样跟 0905 版本对比也好了很多, 另外, 本次还追加了前端页面测试, 写一个瀑布流页面, 也没问题, 缩放效果良好. 最后, 我还给大家整了个活, 2个小时内极限 Vibe 编程, 用 claude code + kimi k2 thinking 写了个 claude code 的克隆 Rock Code, 实现了写代码, 编辑文件, 本地运行脚本. 全程很顺畅. 总结, 国产大模型虽然还没有超过 claude, 但是已经距离 claude 越来越近了! Anthropic 就问你怕不怕? #kimi #月之暗面 #kimik2thinking #VibeCoding

Kimi-K2-Thinking 实测! 差距继续缩小! 给大家带来 kimi k2 thinking 的测试结果: 大象牙膏测试没问题, 感觉物理效果又进步了! 这个粘稠的质感已经越来越象大象牙膏了, 不过烧瓶内液面还是差点意思. 鞭炮连锁爆炸也没问题, 老强项了, 可以看跟过去的 kimi k2 0905 的对比, 鞭炮皮优化了. 这次的新测试效果也很好, 对比之下跟 Claude-Sonnet-4.5 生成的结果几乎看不出来差别. python 杯子倒水测试同样跟 0905 版本对比也好了很多, 另外, 本次还追加了前端页面测试, 写一个瀑布流页面, 也没问题, 缩放效果良好. 最后, 我还给大家整了个活, 2个小时内极限 Vibe 编程, 用 claude code + kimi k2 thinking 写了个 claude code 的克隆 Rock Code, 实现了写代码, 编辑文件, 本地运行脚本. 全程很顺畅. 总结, 国产大模型虽然还没有超过 claude, 但是已经距离 claude 越来越近了! Anthropic 就问你怕不怕? #kimi #月之暗面 #kimik2thinking #VibeCoding

karminski-牙医

40,904 просмотров • 8 месяцев назад

一秒生成高斯点云? Apple新模型SHARP实测! Apple 刚刚推出了新的模型和配套框架 SHARP, 这个模型可以实现单张图像生成逼真的3D场景, 尤其是模型大小只有2.8GB, 大概是1.4B? 速度足够快, 可以一秒生成高斯点云, 然后这个点云可以为图片向邻近的视角提供多角度地观察, 比如我拍了一张椅子, 那么点云化后就能渲染椅子左右20度的视角, 更多就不行了. 视频是我的实测, 目前测下来日常场景使用完全没问题, 只有在复杂的场景才会露出破绽, 比如镜面反射, 或者超长焦, 感觉这个模型如果应用到 Apple Vision Pro 上会有很不错的场景, 照片仅需要1秒, 弄3D相册不是问题. #Apple #SHARP

一秒生成高斯点云? Apple新模型SHARP实测! Apple 刚刚推出了新的模型和配套框架 SHARP, 这个模型可以实现单张图像生成逼真的3D场景, 尤其是模型大小只有2.8GB, 大概是1.4B? 速度足够快, 可以一秒生成高斯点云, 然后这个点云可以为图片向邻近的视角提供多角度地观察, 比如我拍了一张椅子, 那么点云化后就能渲染椅子左右20度的视角, 更多就不行了. 视频是我的实测, 目前测下来日常场景使用完全没问题, 只有在复杂的场景才会露出破绽, 比如镜面反射, 或者超长焦, 感觉这个模型如果应用到 Apple Vision Pro 上会有很不错的场景, 照片仅需要1秒, 弄3D相册不是问题. #Apple #SHARP

karminski-牙医

23,813 просмотров • 7 месяцев назад

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

karminski-牙医

21,725 просмотров • 9 месяцев назад

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

karminski-牙医

19,592 просмотров • 7 месяцев назад

可以让你的 OpenClaw 在 mac mini m4 上装一下这个，qwen3-tts 本地小模型 Mac 量化版，如果是其他机器，应该也有对应的可以跑。然后，你让它用 Serena 的温柔正常语速讲一段小故事。你就可以得到这个视频里的语音效果。我之前没咋研究过本地语音模型，我感觉挺不错的。

可以让你的 OpenClaw 在 mac mini m4 上装一下这个，qwen3-tts 本地小模型 Mac 量化版，如果是其他机器，应该也有对应的可以跑。然后，你让它用 Serena 的温柔正常语速讲一段小故事。你就可以得到这个视频里的语音效果。我之前没咋研究过本地语音模型，我感觉挺不错的。

马天翼

28,452 просмотров • 5 месяцев назад

如果你在做游戏, 那一定要看看这个大模型! 给大家带来腾讯刚刚发布的可以生成人物动作的大模型hunyuan-motion-1.0 实测这个模型最大的特性是可以通过文字描述生成动作, 并且它是端到端的模型, 生成的动作可以直接用于Blender、Unity、UE等主流3D工具我简单测试了几个极限场景, 这个模型对于日常场景的动作还原很不错, 甚至一些复杂一点的, 比如黑客帝国中的子弹时间的下腰动作还原得也不错. 那么极限在哪里呢? 简单来讲, 职业运动员的动作不太行, 比如跳台滑雪, 跳水, 小轮车这类. 总结, 这个模型用于快速生成游戏场景中NPC的日常生活动作是完全够用的, 不过主要角色的动作设计还是需要大量修改才能使用.

如果你在做游戏, 那一定要看看这个大模型! 给大家带来腾讯刚刚发布的可以生成人物动作的大模型hunyuan-motion-1.0 实测这个模型最大的特性是可以通过文字描述生成动作, 并且它是端到端的模型, 生成的动作可以直接用于Blender、Unity、UE等主流3D工具我简单测试了几个极限场景, 这个模型对于日常场景的动作还原很不错, 甚至一些复杂一点的, 比如黑客帝国中的子弹时间的下腰动作还原得也不错. 那么极限在哪里呢? 简单来讲, 职业运动员的动作不太行, 比如跳台滑雪, 跳水, 小轮车这类. 总结, 这个模型用于快速生成游戏场景中NPC的日常生活动作是完全够用的, 不过主要角色的动作设计还是需要大量修改才能使用.

karminski-牙医

35,854 просмотров • 6 месяцев назад