正在加载视频...

视频加载失败

加载此视频时出现问题。这可能是由于临时网络问题，或视频可能不可用。

千问新模型Qwen 3.6 Plus这周末免费，直接冲上Openrouter榜首，官方说是中国最强编程大模型。我刚玩了一下，第一感觉是不花钱可真爽。推荐大家用Starchild试试，不花一分钱体会AI agent带来的快乐

Jingyuan缘缘

21,395 subscribers

69,042 次观看 • 2 个月前 •via X (Twitter)

喜剧教育科学技术

Anya Rossi• Live Now

Private livecam show

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 次观看 • 6 个月前

日常Token消耗量比较大的推友，不妨试用一下蚂蚁百灵大模型Ring-2.6-1T 。百灵大模型Ring-2.6-1T是蚂蚁集团推出的开源万亿参数量级思考模型，采用 MoE（混合专家）架构，单次推理激活约 63B 参数。它面向真实的 Agent 工作流，主打一个真能干活和性价比高！ Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是我自己正在试用，感觉无论是AI Coding还是日常办公，都很不错；关键是免费使用一周和超高的性价比直接缓解了我的token慌！与其被Claude和Codex封号、限额而被搞得焦头烂额，何必不试用一下同样很能干活、而且且性价比更高的模型呢？主要是最近还是免费使用，何乐而不为？

日常Token消耗量比较大的推友，不妨试用一下蚂蚁百灵大模型Ring-2.6-1T 。百灵大模型Ring-2.6-1T是蚂蚁集团推出的开源万亿参数量级思考模型，采用 MoE（混合专家）架构，单次推理激活约 63B 参数。它面向真实的 Agent 工作流，主打一个真能干活和性价比高！ Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是我自己正在试用，感觉无论是AI Coding还是日常办公，都很不错；关键是免费使用一周和超高的性价比直接缓解了我的token慌！与其被Claude和Codex封号、限额而被搞得焦头烂额，何必不试用一下同样很能干活、而且且性价比更高的模型呢？主要是最近还是免费使用，何乐而不为？

马识途

13,821 次观看 • 1 个月前

发现 Minimax 更新了 Speech-02 音频模型试了一下现在咋这么强！训的我自己的语音模型我已经分不出来了你现在拿一段我的音频问我是不是我说的，我都迷糊 👇下面是详细的测试内容：

发现 Minimax 更新了 Speech-02 音频模型试了一下现在咋这么强！训的我自己的语音模型我已经分不出来了你现在拿一段我的音频问我是不是我说的，我都迷糊 👇下面是详细的测试内容：

歸藏(guizang.ai)

106,336 次观看 • 1 年前

很多人说养龙虾费Token烧钱，我从一天200美金降到了10美金，靠的就是这3招，大家可以试试： 1.善用命令行：/new /restart /stop /compress，斜杠命令不过大模型。 2.能用脚本的别用大模型：重复任务先让它写成代码，代码跑起来只烧CPU，不用Token。 3.不同任务用不同模型：顶级模型干顶级活，简单任务让国产模型上，混用下来省一大截。

很多人说养龙虾费Token烧钱，我从一天200美金降到了10美金，靠的就是这3招，大家可以试试： 1.善用命令行：/new /restart /stop /compress，斜杠命令不过大模型。 2.能用脚本的别用大模型：重复任务先让它写成代码，代码跑起来只烧CPU，不用Token。 3.不同任务用不同模型：顶级模型干顶级活，简单任务让国产模型上，混用下来省一大截。

傅盛

94,499 次观看 • 3 个月前

Manus 推出AI聊天模式完全免费不限量只要你不是用Agent模型，那么就可以白嫖通过聊天获得答案后，可以直接切换到Agent模式继续任务，避免浪费积分。似乎背后模型是Gemini，我问它，它回答是：“我是一个大语言模型，由 Google 训练” 具体是哪个型号不清楚

Manus 推出AI聊天模式完全免费不限量只要你不是用Agent模型，那么就可以白嫖通过聊天获得答案后，可以直接切换到Agent模式继续任务，避免浪费积分。似乎背后模型是Gemini，我问它，它回答是：“我是一个大语言模型，由 Google 训练” 具体是哪个型号不清楚

小互

33,369 次观看 • 1 年前

我们制作了一个大模型横评网站，基于真实用户反馈给大模型排名。大家可以在上面免费使用各种大模型，一起找出各个门类下的最强大模型！林哥的大模型野榜传送门：欢迎大家狠狠白嫖，咱们一起找出那个最强大模型！大家也可以进群交流！添加公众号【林亦LYi】，发送“入群”上车！ AI#DEA大赛传送门：大赛不追求参赛作品有啥用，主打一个乐！有任何好玩的项目，都欢迎来官网报名！后面我们会在深圳举办决赛，咱们一起选出最好玩的 AI 项目！线下见！

我们制作了一个大模型横评网站，基于真实用户反馈给大模型排名。大家可以在上面免费使用各种大模型，一起找出各个门类下的最强大模型！林哥的大模型野榜传送门：欢迎大家狠狠白嫖，咱们一起找出那个最强大模型！大家也可以进群交流！添加公众号【林亦LYi】，发送“入群”上车！ AI#DEA大赛传送门：大赛不追求参赛作品有啥用，主打一个乐！有任何好玩的项目，都欢迎来官网报名！后面我们会在深圳举办决赛，咱们一起选出最好玩的 AI 项目！线下见！

林亦LYi

71,282 次观看 • 1 年前

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,708 次观看 • 9 个月前

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

karminski-牙医

12,255 次观看 • 14 天前

OpenRouter：大语言模型“路由器” Openrouter提供了一个统一的接口，通过这个接口，你可以直接访问和使用几十种AI模型你可以使用这个接口对各种模型进行测试和比价，选择最适合自己的，避免了东奔西跑 🙂 目前已经支持包括GPT、LLama 、Claude、Command-R等80 多个模型，未来将扩展到数百种！访问：

OpenRouter：大语言模型“路由器” Openrouter提供了一个统一的接口，通过这个接口，你可以直接访问和使用几十种AI模型你可以使用这个接口对各种模型进行测试和比价，选择最适合自己的，避免了东奔西跑 🙂 目前已经支持包括GPT、LLama 、Claude、Command-R等80 多个模型，未来将扩展到数百种！访问：

小互

45,800 次观看 • 2 年前

Claude Opu4.7，GPT 5.5，Deepseek V4 最强 SOTA 模型接连发布，国产模型终于牛逼起来了，🐂🍺 我刚刚测试了一把，太强了，可以排国内最强大模型了，Deepseek V4国产模型之王回归了。之前推荐的ZenMux 福利来了，限时免费的Deepseek V4 Flash和Pro都是免费玩，快去重构自己的项目啊。有了编程能力，ZenMux的 API稳定，Hermes爱马仕等应用不在话下。 👇案例 1，测试案例名称：New API 开源系统全面优化（Repo-level Engineering Refactoring）这个案例能完美测试 V4 三大核心优势？长上下文：1M tokens 可一次性处理整个中型开源仓库，考察跨文件理解和记忆能力。编程能力：真实 SWE-bench 风格的仓库级重构、API 优化。工程务实能力：要求输出分阶段、安全、可落地的方案，而不是纸上谈兵（这正是 V4 比很多模型更“像资深工程师”的地方）。评论区附测试Prompt提示词点赞关注本帖，来看搜集的Deepseek V4测试案例

Claude Opu4.7，GPT 5.5，Deepseek V4 最强 SOTA 模型接连发布，国产模型终于牛逼起来了，🐂🍺 我刚刚测试了一把，太强了，可以排国内最强大模型了，Deepseek V4国产模型之王回归了。之前推荐的ZenMux 福利来了，限时免费的Deepseek V4 Flash和Pro都是免费玩，快去重构自己的项目啊。有了编程能力，ZenMux的 API稳定，Hermes爱马仕等应用不在话下。 👇案例 1，测试案例名称：New API 开源系统全面优化（Repo-level Engineering Refactoring）这个案例能完美测试 V4 三大核心优势？长上下文：1M tokens 可一次性处理整个中型开源仓库，考察跨文件理解和记忆能力。编程能力：真实 SWE-bench 风格的仓库级重构、API 优化。工程务实能力：要求输出分阶段、安全、可落地的方案，而不是纸上谈兵（这正是 V4 比很多模型更“像资深工程师”的地方）。评论区附测试Prompt提示词点赞关注本帖，来看搜集的Deepseek V4测试案例

Tony出海

27,532 次观看 • 2 个月前

好像很多人不知道 OpenCode，简单介绍一下。 OpenCode 是基于 MIT 协议完全开源 100% 免费的 AI 编程智能体。无任何 LLM 厂商绑定，可以连接国内、外、和本地模型，还提供了免费模型可试用。任何费用只来自模型订阅。它是全托管的 Vibe Coding 编程范式，对标工具是 Claude Code。支持 CLI版本、桌面版本、插件版本。非常适合国内玩家体验 Vibe Coding。

好像很多人不知道 OpenCode，简单介绍一下。 OpenCode 是基于 MIT 协议完全开源 100% 免费的 AI 编程智能体。无任何 LLM 厂商绑定，可以连接国内、外、和本地模型，还提供了免费模型可试用。任何费用只来自模型订阅。它是全托管的 Vibe Coding 编程范式，对标工具是 Claude Code。支持 CLI版本、桌面版本、插件版本。非常适合国内玩家体验 Vibe Coding。

程序员老熊

53,065 次观看 • 3 个月前

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,194 次观看 • 1 个月前

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

karminski-牙医

11,665 次观看 • 1 个月前

持有meme免费使用AI大模型，HodlAI 之前有人问这个怎么用，教程来了，免费使用200➕大模型AI，还上了视频的sora2的，但是没用明白，dev抓紧整，急需使用。

持有meme免费使用AI大模型，HodlAI 之前有人问这个怎么用，教程来了，免费使用200➕大模型AI，还上了视频的sora2的，但是没用明白，dev抓紧整，急需使用。

Web3热宝学AI

19,897 次观看 • 4 个月前

Anthropic的创始人Dario Amodei，把话挑明了。他说，多数中共国的开源AI模型，都是幻觉。是专为跑分优化的“考试型选手”。公开测试，个个是学霸。榜单分数，高得吓人。可一旦遇到没见过的题，私下一考。马上露馅，表现差一大截。为什么？因为它们本来就不是为了解决真实世界的问题。而是为了刷榜。技术根源上，很多模型还是从美国大实验室的模型里“蒸馏”出来的。听着是不是很耳熟？只为高分，不为真才实学。应试教育那套，原封不动搬到了AI领域。 Amodei还打了个比方。 AI就像雇员。你是要世界第一的程序员，还是要排名第一万的？能力的天壤之别，任何一个老板都懂。真正顶级的AI，认知能力最强的那个，才是唯一的赢家。价格和形式，在绝对的聪明面前，都不重要。靠刷分和模仿，能做出最聪明的AI吗？这条路，到底能走多远？

Anthropic的创始人Dario Amodei，把话挑明了。他说，多数中共国的开源AI模型，都是幻觉。是专为跑分优化的“考试型选手”。公开测试，个个是学霸。榜单分数，高得吓人。可一旦遇到没见过的题，私下一考。马上露馅，表现差一大截。为什么？因为它们本来就不是为了解决真实世界的问题。而是为了刷榜。技术根源上，很多模型还是从美国大实验室的模型里“蒸馏”出来的。听着是不是很耳熟？只为高分，不为真才实学。应试教育那套，原封不动搬到了AI领域。 Amodei还打了个比方。 AI就像雇员。你是要世界第一的程序员，还是要排名第一万的？能力的天壤之别，任何一个老板都懂。真正顶级的AI，认知能力最强的那个，才是唯一的赢家。价格和形式，在绝对的聪明面前，都不重要。靠刷分和模仿，能做出最聪明的AI吗？这条路，到底能走多远？

墓碑科技

248,912 次观看 • 3 个月前

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

抱歉我们只有超大杯! GLM-4.7实测! 本次测试覆盖了GLM-4.7的编程能力, Agent/ToolCall能力, 长上下文召回能力, 给大家带来刚发布的 GLM 4.7 的测试结果: 考验Agent能力的硅基骑手测试, 简单讲是让大模型使用工具模拟骑手取外卖送餐. GLM 4.7 在24小时总计300回合的极限送餐中收益达到了 571.91 元, 执行了总计 354 次 tool call, 测试使用了大约 50% 的上下文空间, 直到超过100K后才停止工作. Agent 测试这次是创了新高, 执行效率特别高, 得益于模型可以在一次会话中发起多个 tool call, 节省了时间并能选择收益最大的方案. 然后是考验长上下文召回能力的霍格沃茨测试, 简单来讲就是在长上下文中, 能否记住上下文并准确的回答问题. GLM 4.7 在192K以内召回水平在91%到100%区间, 而200K也有95%, 召回效果同样也很不错. 最后再来看编程能力测试上最大的感受是粒子, 建模, 光影效果都有提升, 尤其是空间能力有了巨大的提升. 当然性能问题仍然存在, 希望下个版本着重优化下生成代码的性能问题. 总结, 这次GLM 4.7 在各个方面都有明显的提升, 作为主力编程模型不是问题, LMArena 和 SWE-bench 等编程测试中都取得了开源大模型 SOTA 的水平. 不过还是要说一句, 测试中我发现API速度时快时慢, 是不是因为大家都在用新版本导致的? 希望官方赶紧加机器. #GLM47 #智谱AI #智谱GLM #AIAgent #ai编程 #大模型 #开源 #KCORES大模型竞技场

karminski-牙医

19,592 次观看 • 6 个月前

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

从国产SOTA走向世界SOTA? GLM-5.1 实测! 给大家带来 GLM-5.1 编程能力实测! 本次测试涵盖了前端, 后端, Agent 能力, 前端主要面向空间建模, 场景, 材质, 粒子效果等, 后端能力主要面向数据结构与算法, 体系结构, 性能优化, 内存和并发管理, 性能热点分析与调优, 面向编辑器方向的Agent能力(因为AI要自己改代码). 直接说结论, 本次测试前端方面粒子效果和光影鲜果略有提升, 剩下空间理解(甚至感觉下降了)和前端美学上没看到有什么提升, 只能说是提升了一点点. 但是后端性能上有巨大的提升, GLM-5.1 在我的 vector-db-bench 中直接秀了一手量化, 把原本32bit精度的数据量化到了8bit, 然后使用SIMD实现了一个指令周期内计算32个向量, 在我测试的其他模型中(包括Claude-opus-4.6, GPT-5.4-Pro(xhigh)) 都没有实现, 直接来到了榜首. 另外Agent能力上也有不小的提升, 同样是我写的让大模型模拟送外卖的硅基骑手测试, 其他大模型的优化还停留在看一个店能不能取两单上, GLM-5.1 已经优化到了我送餐的顺路还能再接一单, 并且仅用了大概GLM-5 1/4的 token 用量就超越了 GLM-5 的测试总分. 当然本次测试过程也很坎坷, 首先是我周末抢了2天都没抢到 coding plan (目前只有coding plan 能用这个模型), 我最后找智谱的同学给我开了个权限. 以及测试中发现白天API不是很稳定, 偶尔输出速度会掉到10tps, 以及会出现乱码文字(我的规避方法是让它输出英文, 然后再找个便宜模型翻译过来). 总结, 各位前端同学估计会失望, 因为无论是从工程还是页面效果上都看不到提升, 甚至可能会有点倒退, 但果写后端代码或者复杂Agent应用可以试试这个新模型, 会有很大的提升. #GLM51 #智谱 #GLM #AIAgent #大模型编程

karminski-牙医

19,594 次观看 • 2 个月前

前端设计这一块谷歌是真没问题！我用Gemini 3.5 Flash做了个3D飞机模型展览，太帅了呀！制作方法： 1.GPT2-image生生成正视图、背视图、左视图和右视图 2.3D模型生成，注意需要用纹理 3.UI预览图生成，调用Codex内置GPT2-image即可 4.用Gemini 3.5 Flash生成网站生成网站这一步在Google AI Studio上传不了3D模型的glb文件，所以就必须要调API在本地做个网站了。我是在Zenmux调用的，大家应该对Zenmux也不陌生，就是那个一有新模型就免费给大家玩的网站。它提供一个KEY调用所有顶级大模型的功能，不仅可以用Gemini 3.5 Flash绘制前端，如果有小BUG，还可以再切换到GPT5.5或Oplu4.7进行修复，使用非常丝滑！想先免费试一试下 Gemini 3.5 Flash的能力？壕气冲天的Zenmux现在直接免费送一周TOKEN（有限额）！传送门直达：

前端设计这一块谷歌是真没问题！我用Gemini 3.5 Flash做了个3D飞机模型展览，太帅了呀！制作方法： 1.GPT2-image生生成正视图、背视图、左视图和右视图 2.3D模型生成，注意需要用纹理 3.UI预览图生成，调用Codex内置GPT2-image即可 4.用Gemini 3.5 Flash生成网站生成网站这一步在Google AI Studio上传不了3D模型的glb文件，所以就必须要调API在本地做个网站了。我是在Zenmux调用的，大家应该对Zenmux也不陌生，就是那个一有新模型就免费给大家玩的网站。它提供一个KEY调用所有顶级大模型的功能，不仅可以用Gemini 3.5 Flash绘制前端，如果有小BUG，还可以再切换到GPT5.5或Oplu4.7进行修复，使用非常丝滑！想先免费试一试下 Gemini 3.5 Flash的能力？壕气冲天的Zenmux现在直接免费送一周TOKEN（有限额）！传送门直达：

逸尘

41,937 次观看 • 1 个月前

国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力，确实可以叫做国产第一了。之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候，一次执行的完成度均不如 Qwen3.7-Max，体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro，这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6，体感是一致的。推理能力我是用奥数题和几道 HMMT 的题压了一下，准确率不是第一，但明显感觉比上个月测的 3.6 又高了一档。有个细节：遇到不会的题它会老实说自己不确定，而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。还有一点，现在 Qwen 的迭代速度也太猛了，在推上虽然声量没有 Kimi 和 DeepSeek 大，但是 Qwen 在 3 月发 3.5，4 月发 3.6，5 月直接上 3.7，已经变成月更节奏了，而且每次迭代都有不小进步，现在已经是名副其实的第一梯队。在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录，日调用 1.4 万亿 Token，开发者们是在拿真金白银在投票。千问这一代明显是往 Agent 方向走的，极限压测下长程任务能跑 35 小时不崩，跨 Agent 框架兼容性也比上一代好很多。具体测试视频见 ⬇

国产模型再次突破，比肩 Claude 4.6，Gemini 3.1 Pro 等顶尖模型。刚测完 Qwen3.7-Max，说几点真实感受。昨晚 API 上线第一时间就充了值，选了三个题目（见视频）来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力，确实可以叫做国产第一了。之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候，一次执行的完成度均不如 Qwen3.7-Max，体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro，这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6，体感是一致的。推理能力我是用奥数题和几道 HMMT 的题压了一下，准确率不是第一，但明显感觉比上个月测的 3.6 又高了一档。有个细节：遇到不会的题它会老实说自己不确定，而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。还有一点，现在 Qwen 的迭代速度也太猛了，在推上虽然声量没有 Kimi 和 DeepSeek 大，但是 Qwen 在 3 月发 3.5，4 月发 3.6，5 月直接上 3.7，已经变成月更节奏了，而且每次迭代都有不小进步，现在已经是名副其实的第一梯队。在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录，日调用 1.4 万亿 Token，开发者们是在拿真金白银在投票。千问这一代明显是往 Agent 方向走的，极限压测下长程任务能跑 35 小时不崩，跨 Agent 框架兼容性也比上一代好很多。具体测试视频见 ⬇

耳朵

32,905 次观看 • 1 个月前

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,275 次观看 • 3 个月前