Загрузка видео...

Не удалось загрузить видео

Возникла проблема при загрузке этого видео. Это может быть связано с временными проблемами сети или видео может быть недоступно.

На главную

OpenAI 和 Anthropic 新出的模型写代码实测来啦! 本次测试包括: OpenAI-OSS-120B OpenAI-OSS-20B Claude-Opus-4.1 Gemini-2.5-pro (凑数的) Opus 放这里去比的确不讲武德. 所以主要拿 Gemini-2.5-pro 跟它对打. 我主要的意思是告诉大家, 不要用不太行的模型写代码. 只会浪费你的时间去调试并且积累屎山 (x). 每个模型各运行至少6次, 取最好结果给大家录屏. 从测试结果看 Claude-Opus-4.1 出乎意料的稳. 他对空间理解远超任何模型, 说A放在B上面就能做到A放在B上面. 其他模型得不断抽卡才能偶尔抽到. 不知道 Anthropic 是怎么做到的. 牛逼. 要不是实在是太贵了, 真的建议用它来写代码. 我测试了6次就干进去了2刀. OSS-120B 和 20B 我觉得有点摸不到头脑, 甚至 20B 生成起来我感觉代码更稳定? OSS-120B 随机性非常大, 在这个测试里面 OSS-120B 甚至反复抽卡8次, 都没有 OSS-20B 抽卡... 2 次的效果好. 这里我的猜测是 120B 每次激活专家量很少, 而总专家数量又多, 导致每 token 随机到相同专家的概率会特别小, 进而表现不是那么稳定. 而 20B 则好一些, 4/128 VS 4/32 专家. 我一会也会再测下, 看我的猜测对不对. 总之这次快速测试结论如下: Claude-Opus-4.1 > Gemini-2.5-pro > OpenAI-OSS-20B >? (存疑) OpenAI-OSS-120B OpenAI-OSS-120B 用起来要谨慎, 写代码特别不稳定. OpenAI-OSS-20B 在这个参数量大小下反而挺好. #opus41 #oss120b #OpenAIOSSshow more

karminski-牙医

23,267 subscribers

55,324 просмотров • 10 месяцев назад •via X (Twitter)

Наука и технологии Образование

Anya Rossi• Live Now

Private livecam show

Комментарии: 0

Нет доступных комментариев

Здесь появятся комментарии из оригинального поста

Похожие видео

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

GPT-5.2 实测! 美是真的美, 卡是真的卡给大家带来 GPT 5.2 thinking 和 pro 的测试结果: 说实话, 这两个模型差距并不大, 但是价格却差了11倍. 大象牙膏测试, 这个感觉退步了, 甚至不如 GPT 5, 而且粒子效果还不如国产开放权重模型. 鞭炮连锁爆炸测试, 建模和光照, 粒子效果都非常好, 但追求画质的结果就是牺牲性能, 两个模型在测试中都非常的卡, 甚至 GPT 5.2 pro 尝试使用52个纹理, 而 WebGL 2.0 规范只支持16个. 所以不但会卡而且还报错. 陀飞轮机芯测试, 这个应该是目前的 SOTA, 齿轮效果, 光照, 建模准确性都不错. python 杯子倒水测试毫无进步, 跟 GPT5 没区别总结, 新的模型还是更注重在美学上发力, web界面的风格很统一, 光影效果也是SOTA, 但是具体编程上没有看到特别大的进步, 尤其是 python. 另外, 这两个模型大概率都有 three.js 的包导入错误, 所以大型工程场景表现需要谨慎. 以及本次测试 gpt 5.2 thinking 每个测试运行6次取最好结果, 花了我3.88刀(就写了18个网页和6个python脚本), 而 gpt 5.2 pro 由于太贵了, 每个测试我只运行了一次, 就这样还花费了我7.12 刀(3个网页1个python脚本...). 所以推荐大家如果需要极致美学的场景, 可以考虑使用 gpt 5.2 thinking, 其他编程场景如果没有订阅, 还是谨慎, 毕竟太贵了. #GPT52 #GPT #OpenAI

karminski-牙医

31,406 просмотров • 6 месяцев назад

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,705 просмотров • 9 месяцев назад

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

karminski-牙医

47,153 просмотров • 1 месяц назад

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 просмотров • 5 месяцев назад

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

karminski-牙医

612,550 просмотров • 11 месяцев назад

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

17,239 просмотров • 6 дней назад

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,584 просмотров • 2 месяцев назад

这次用一个“订单对账”小测试试了下 Claude Opus 4.8，最大的感受是：它更愿意把活做完整。这次测试不靠联网、不靠写代码，就是用最贴合业务场景的，给了它三组数据：订单、付款、退款，然后要求按规则逐条核对。里面埋了几个容易漏的坑：重复付款 id 只能算第一次、字符串金额要忽略、EUR 不能混进 USD、0.1+0.2 要按两位小数处理，还有一个客户只有付款没有订单，也必须出现在结果里。 Opus 4.8 的表现挺稳。它算出了正确余额，把每条被忽略的记录单独列出来，还在最后做了自检。尤其是第二条重复的 p3=999.00 没被误算进去，c6 这种“只有付款”的客户也没漏，说明它对边界条件扫得比较认真。我的感觉：这个模型在细节任务里的耐心和完整性更好了。至少在这个纯文本核对任务里，它体现出了比较强的边界意识，也没出现“扫一半就开始总结”的情况。当然，这不等于它永远不会偷懒。代码 Agent 场景还得看它会不会真的写文件、跑测试、失败后继续修。但单看这个测试，Opus 4.8 的“少偷懒”是能感受到的。现在在 ZenMux 可以体验 Opus 4.8，还有 PK 功能，建议可以去试一下和 Opus 4.6 的对比🤣，链接我放在评论区～

这次用一个“订单对账”小测试试了下 Claude Opus 4.8，最大的感受是：它更愿意把活做完整。这次测试不靠联网、不靠写代码，就是用最贴合业务场景的，给了它三组数据：订单、付款、退款，然后要求按规则逐条核对。里面埋了几个容易漏的坑：重复付款 id 只能算第一次、字符串金额要忽略、EUR 不能混进 USD、0.1+0.2 要按两位小数处理，还有一个客户只有付款没有订单，也必须出现在结果里。 Opus 4.8 的表现挺稳。它算出了正确余额，把每条被忽略的记录单独列出来，还在最后做了自检。尤其是第二条重复的 p3=999.00 没被误算进去，c6 这种“只有付款”的客户也没漏，说明它对边界条件扫得比较认真。我的感觉：这个模型在细节任务里的耐心和完整性更好了。至少在这个纯文本核对任务里，它体现出了比较强的边界意识，也没出现“扫一半就开始总结”的情况。当然，这不等于它永远不会偷懒。代码 Agent 场景还得看它会不会真的写文件、跑测试、失败后继续修。但单看这个测试，Opus 4.8 的“少偷懒”是能感受到的。现在在 ZenMux 可以体验 Opus 4.8，还有 PK 功能，建议可以去试一下和 Opus 4.6 的对比🤣，链接我放在评论区～

阿川 | AI thinking

13,930 просмотров • 12 дней назад

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 просмотров • 10 месяцев назад

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

Qwen3-Max-Thinking 实测! 呃...... 给大家带来 Qwen3-Max-Thinking-Preview 的测试结果: 大象牙膏测试这个大家看上去黑乎乎的, 实际上是光照有问题, 我给大家拉近了看效果. 建模和粒子效果也一般. prompt 完成度很差. 过山车测试可以, 衔接处虽然不够平滑但没有裂缝, 以及支撑柱会有穿模. 鞭炮连锁爆炸这个就不太行了, 不能完成连锁爆炸演示, 物理效果也不太对. 而且成功率很低, 6 次抽卡只有一次没有代码错误. python 杯子倒水是可以的, 在这些头部模型中是及格分数. 另外, 生成过程中的 web 界面太花哨了, prompt 没有要求这么复杂但是设计得很夸张. 那么写前端页面会好吗? 答案是否定的, 我让它写一个瀑布流图片网站, 这个很考验前端布局能力, 大家可以看效果. 它写得布局有问题, 所有卡片都叠在一起了. 而相对的 glm-4.6 写得非常好, 在不同缩放比例下 CSS 布局很完美. 总结, 考虑到还是 preview 版本, 还是抓紧后训练提升下, 短期不建议使用这个模型做编程类型的任务. #Qwen3 #KCORES大模型竞技场

karminski-牙医

11,750 просмотров • 7 месяцев назад

另外，大家喜闻乐见得弹跳小球7边形测试也更新啦，这次不但增加了 GPT-4.1, 而且海拔Gemini-2.5-Pro, DeepSeek-V3-0324, 等更新了，目前只取 KCORES 大模型竞技场前16名。这个榜单找不到的模型是这项测试运行的不好，没有排进来总榜单地址：

另外，大家喜闻乐见得弹跳小球7边形测试也更新啦，这次不但增加了 GPT-4.1, 而且海拔Gemini-2.5-Pro, DeepSeek-V3-0324, 等更新了，目前只取 KCORES 大模型竞技场前16名。这个榜单找不到的模型是这项测试运行的不好，没有排进来总榜单地址：

karminski-牙医

33,481 просмотров • 1 год назад

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,654 просмотров • 11 месяцев назад

KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中，三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的！另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了, 因为现在头部大模型都能很轻松完成这个测试了. 建议换一些更复杂的体现模型性能. #katcoder #KCORES大模型竞技场

KAT-Coder-Pro-V1 实测! 早放3个月就好了? 给大家带来 kat coder pro v1 的测试结果: 首先, 所有的 three js 测试, 全都有包引用错误, 你所看到的所有演示都是我修了一次才能运行的画面. 大象牙膏测试中，三角烧瓶, 液面, 粒子建模的效果比较简陋, 泡沫没有实现逐渐变形并消失的效果, 光照效果也一般, 总体来说实现效果很简陋. 过山车测试, 同样是实现效果很简陋, 另外支撑柱的算法没有设计对, 还是穿模了. 鞭炮连锁爆炸测试, 亮点的地方是还是可以实现连锁爆炸的, 不过性能有很严重的问题, 特别卡 python 杯子倒水测试反而实现的很不错, prompt 中要求的效果基本都实现了. 总结: 前端性能目前看来一般, 大概是7月份那一波大模型的腰部水平, python 性能反而可圈可点. 建议继续打磨, 很高兴看到国产编码大模型又添一员. 早点放出来就好了呀! 这个性能在7月份是可以一战的！另外, 官网演示还用了我7月份写的炸烟囱的 prompt, 但是这个 prompt 已经被我淘汰了, 因为现在头部大模型都能很轻松完成这个测试了. 建议换一些更复杂的体现模型性能. #katcoder #KCORES大模型竞技场

karminski-牙医

24,454 просмотров • 7 месяцев назад

DeepSeek V3.2 正式版实测! 提升真的有限? 给大家带来 DeepSeek V3.2 正式版的测试结果: 所有测试项目来看, 与之前的 DeepSeek-V3.2-Exp 相比是有进步的, 之前无法实现的测试这次都可以实现了. 不过相较于 SOTA 水平的模型相比, 差距仍然存在, 甚至与国产SOTA模型相比都有一定的差距. 有同学可能会说, 这次支持了 thinking with tools, 但这个也不是新鲜事了, DeepSeek 反而处于追赶的状态了. 另外, 测试过程中发现 DeepSeek V3.2 正式版还有错别字的问题, 把 axle 拼写成了 axxle. 导致变量出错 (与正确变量名称就差一行, 匪夷所思...). 总之, 目前的版本还是不适合用来写代码, 建议大家谨慎. DeepSeek 加油啊! 看着编程性能上不来我是真着急, 赶紧春节前放出 DeepSeek-V4 吧. #deepseek #KCORES大模型竞技场

DeepSeek V3.2 正式版实测! 提升真的有限? 给大家带来 DeepSeek V3.2 正式版的测试结果: 所有测试项目来看, 与之前的 DeepSeek-V3.2-Exp 相比是有进步的, 之前无法实现的测试这次都可以实现了. 不过相较于 SOTA 水平的模型相比, 差距仍然存在, 甚至与国产SOTA模型相比都有一定的差距. 有同学可能会说, 这次支持了 thinking with tools, 但这个也不是新鲜事了, DeepSeek 反而处于追赶的状态了. 另外, 测试过程中发现 DeepSeek V3.2 正式版还有错别字的问题, 把 axle 拼写成了 axxle. 导致变量出错 (与正确变量名称就差一行, 匪夷所思...). 总之, 目前的版本还是不适合用来写代码, 建议大家谨慎. DeepSeek 加油啊! 看着编程性能上不来我是真着急, 赶紧春节前放出 DeepSeek-V4 吧. #deepseek #KCORES大模型竞技场

karminski-牙医

43,888 просмотров • 6 месяцев назад

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,096 просмотров • 2 месяцев назад

兄弟们，DeepSeek V4 Pro在ZenMux上免费放开了，登录就能跑，实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务，效果真的炸裂！说个前情，老朋友都知道我今年Claude被封过一次号，那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷，付费用户说封就封，申诉通道石沉大海，深夜破防一次就够了。从那之后我转战聚合平台，试了一圈最后留在ZenMux，半年用下来没再折腾过。所以这次V4 Pro在ZenMux上免费开放，对我来说不是又一个新模型上线，是我一直在用的平台又多了一张能打的牌，顺手就想推给兄弟们。先说V4 Pro到底值不值得冲，这几天X上吹V4 Pro的推刷屏了，参数跑分价格屠杀，都是同一个模板。但对我这种每个月真金白银付API账单的人来说，跑分都是虚的，能不能替掉我手头项目里的Claude调用才是真问题。免费窗口就是用来验证这件事的，我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏，拿自己项目里最头疼的prompt开跑，三栏并排输出，谁快谁慢谁token烧得少一眼看完。四个场景跑完结论很清晰——日常80%的活V4 Pro能接，便宜到让我下不去手再用Opus，剩下20%极限稳定性的关键链路我还是留给Claude兜底。这就是模型分层，上周讲Ling的时候也提过这个逻辑，2026年不存在一个模型打天下，只存在你工具箱里的模型组合。顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏，三家模型同屏对比这种功能市面上很少有平台做，每次选模型省我一整个下午，比自己写脚本调三家API再人肉对比快十倍。真正让我踏实的是保险赔付机制，模型输出异常或者延时拉胯，平台自动检测并补偿。被Claude封过号之后再看到这个设计，感觉完全不一样，出问题有人兜底，不用再深夜破防。再加上日志、成本、用量、性能四个维度的可观测性做得细，每一笔钱烧在哪、每一次请求卡在哪点开就能看，调prompt和选型的时候非常好使。回到这次的白嫖窗口， DeepSeek V4 Pro和Flash都有免费版，每天有用量限制但够你跑测试。这几天想验证要不要换模型的兄弟，别再刷跑分推了，自己扔几个真实prompt进去跑一遍，十分钟你就知道该不该换，比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

兄弟们，DeepSeek V4 Pro在ZenMux上免费放开了，登录就能跑，实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务，效果真的炸裂！说个前情，老朋友都知道我今年Claude被封过一次号，那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷，付费用户说封就封，申诉通道石沉大海，深夜破防一次就够了。从那之后我转战聚合平台，试了一圈最后留在ZenMux，半年用下来没再折腾过。所以这次V4 Pro在ZenMux上免费开放，对我来说不是又一个新模型上线，是我一直在用的平台又多了一张能打的牌，顺手就想推给兄弟们。先说V4 Pro到底值不值得冲，这几天X上吹V4 Pro的推刷屏了，参数跑分价格屠杀，都是同一个模板。但对我这种每个月真金白银付API账单的人来说，跑分都是虚的，能不能替掉我手头项目里的Claude调用才是真问题。免费窗口就是用来验证这件事的，我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏，拿自己项目里最头疼的prompt开跑，三栏并排输出，谁快谁慢谁token烧得少一眼看完。四个场景跑完结论很清晰——日常80%的活V4 Pro能接，便宜到让我下不去手再用Opus，剩下20%极限稳定性的关键链路我还是留给Claude兜底。这就是模型分层，上周讲Ling的时候也提过这个逻辑，2026年不存在一个模型打天下，只存在你工具箱里的模型组合。顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏，三家模型同屏对比这种功能市面上很少有平台做，每次选模型省我一整个下午，比自己写脚本调三家API再人肉对比快十倍。真正让我踏实的是保险赔付机制，模型输出异常或者延时拉胯，平台自动检测并补偿。被Claude封过号之后再看到这个设计，感觉完全不一样，出问题有人兜底，不用再深夜破防。再加上日志、成本、用量、性能四个维度的可观测性做得细，每一笔钱烧在哪、每一次请求卡在哪点开就能看，调prompt和选型的时候非常好使。回到这次的白嫖窗口， DeepSeek V4 Pro和Flash都有免费版，每天有用量限制但够你跑测试。这几天想验证要不要换模型的兄弟，别再刷跑分推了，自己扔几个真实prompt进去跑一遍，十分钟你就知道该不该换，比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

AYi

130,731 просмотров • 1 месяц назад

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

墓碑科技

73,491 просмотров • 5 месяцев назад

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

karminski-牙医

86,008 просмотров • 9 месяцев назад

星爷讽刺了世间一切，唯独没有讽刺爱情，: 原来是如此的隐喻，到现在才明白，感谢星爷，只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

星爷讽刺了世间一切，唯独没有讽刺爱情，: 原来是如此的隐喻，到现在才明白，感谢星爷，只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

35,879 просмотров • 5 месяцев назад

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

0x_Miko

15,628 просмотров • 8 дней назад