正在加载视频...

视频加载失败

千问新模型Qwen 3.6 Plus这周末免费,直接冲上Openrouter榜首,官方说是中国最强编程大模型。我刚玩了一下,第一感觉是不花钱可真爽。推荐大家用Starchild试试,不花一分钱体会AI agent带来的快乐

69,042 次观看 • 2 个月前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,708 次观看 • 9 个月前

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

karminski-牙医

19,592 次观看 • 6 个月前

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,594 次观看 • 2 个月前

国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力,确实可以叫做国产第一了。 之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候,一次执行的完成度均不如 Qwen3.7-Max,体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro,这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6,体感是一致的。 推理能力我是用奥数题和几道 HMMT 的题压了一下,准确率不是第一,但明显感觉比上个月测的 3.6 又高了一档。有个细节:遇到不会的题它会老实说自己不确定,而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。 还有一点,现在 Qwen 的迭代速度也太猛了,在推上虽然声量没有 Kimi 和 DeepSeek 大,但是 Qwen 在 3 月发 3.5,4 月发 3.6,5 月直接上 3.7,已经变成月更节奏了,而且每次迭代都有不小进步,现在已经是名副其实的第一梯队。 在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录,日调用 1.4 万亿 Token,开发者们是在拿真金白银在投票。 千问这一代明显是往 Agent 方向走的,极限压测下长程任务能跑 35 小时不崩,跨 Agent 框架兼容性也比上一代好很多。 具体测试视频见 ⬇

耳朵

32,905 次观看 • 1 个月前