Video yükleniyor...

Video Yüklenemedi

Ana Sayfaya Dön

昨天发了一个视频,看到评论里有人问:你都在用 Claude Code 了,为什么还要用国内的 Coding Plan? 对我来说,这不是一个二选一的问题,而是一个补充题。 大家都知道御三家的硬实力更强,这点没什么好争议的。但很多日常场景里,国产模型其实已经能在速度、质量、成本之间取得一个不错的平衡。 比如文本处理、资料整理、基础 coding、简单 agent 任务,这类占日常 80% 的工作,很多时候并不一定非要上最贵的模型。对大多数中国用户来说,国产模型更顺手,速度也够,价格还低不少。 还有一个经常被忽略的点,其实是处理速度。 我自己实测下来,国内这些模型在一些简单任务上,接口响应和首字速度都很快。像翻译、语音输入后的文本修正、基础润色、简单改写这类高频小任务,用起来其实很舒服。你并不需要每一次都把最贵、最强的模型拉出来跑一遍。 另外我觉得,现在国内头部几家 AI 厂商,已经不是“能不能做”的问题了。无论是阿里还是字节,一方面有足够的算力和基础设施,另一方面本身也有持续做模型研发和产品迭代的能力。所以在很多高频、日常、成本敏感的场景里,把国产模型纳入自己的工具链,本来就是很自然的事。 所以我现在的看法一直都不是“国产替代”或者“二选一”,而是按场景分工:复杂、高价值任务交给最强模型;大量日常、重复、成本敏感的任务,用国产模型做补充,我觉得这反而是更现实、也更科学的用法。

32,330 görüntüleme • 2 ay önce •via X (Twitter)

0 Yorum

Yorum bulunmuyor

Orijinal gönderinin yorumları burada görünecek

Benzer Videolar

国产最新的多模态模型来了!! 前两周我刚体验过国产的阶跃星辰大模型,没想到这么快他们的新模型 Step 3.7 Flash 就出了。 现在大模型一发布必卷 benchmark 分数,但真正做 Agent 的人都清楚:跑分高 ≠ 能把活干完。 所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快,而是主打“生产任务端到端执行效率”。 一个真实的 Agent 任务从来不是一次问答,而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环,Step 3.7 Flash 这次升级的重点是整条链路的效率,而不是某个孤立指标。 提几个我觉得挺务实的点: 1. 原生多模态模型:它可以直接处理 UI 截图、图表、仪表盘、文档,原生读懂并转成结构化输出和可执行步骤,不需要像一些模型那样外挂视觉理解 MCP,而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索:网页搜索、图像搜索、视觉验证、多源信息比对,让 Agent 在开放任务里边查边验证边行动,而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数,最高 400 TPS:稀疏激活 + 这个速度,意味着高频交互、多步工作流、反复工具调用的场景下,单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署:生产环境要的不只是 API,还有透明度、可控性和部署灵活性。 如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统,值得用 StepFun 试试这款新模型的能力。 想看更进阶的平台能力,可以了解 Step Plan。 海外平台: 国内平台:

耳朵

12,058 görüntüleme • 21 gün önce

自从马云重新现身后, 蚂蚁集团一直猛冲AI,大动作不断! 像是卯足劲在追赶阿里QWEN! 最近更是连发两款实用拉满的模型!!! 先是百B级的 Ling 2.6 Flash, 盲测阶段就冲上 OpenRouter 趋势榜第一, 直接火到了海外!! 还不算完,Ant Ling 今天又甩出一张底牌: Ling 2.6 1T ! 名字就能看得出来,这个模型能力会更强!! 但有一个误区:能力强的不一定是思考模型! Ling 2.6 1T 不靠拉长推理链条来显得"很聪明", 而是把 token 更多花在理解、规划和输出上。 换句话来说: 它的核心定位,是面向复杂任务,是精准指令下的执行模型!! 1M 超长上下文,能把会议纪要、群聊记录、项目文档、零散资料一次性扔进去统一处理。 强工具调用能力,可以接进 OpenClaw、Hermes、LangGraph、Dify 等跑工作流。 真实问题处理,不只生成漂亮 demo,而是能够读懂已有代码,按照你的要求去干活。 Token 效率更高,不默认展开超长思考,成本控制到最低。 最近一段时间都是免费用,不用白不用, 我拿了几个真实任务跑了一遍,感受超级明显—— 如果是模糊的指令,它可能不太适合。 但如果是比较详细的指令,给它一个工作流, 就完全起飞了!! 没有了推理过程,感觉非常丝滑, 这一点,就挺重要的!! 减少了很多“AI自作聪明”的麻烦!! 说回蚂蚁这两款模型, 完全是冲着落地应用来的,几乎把简单和复杂的应用场景全部包圆。 1T 负责理解复杂目标、拆解任务、整理材料、制定计划。 Flash 负责快速执行、快速改写、快速补全。 这精准切入了现在大多数人用AI的“痒点”: 总想着用一个“最强模型”解决所有的事情。 但我认为真正重要并且正确的是: 让对的模型干对的事。 这样无论是速度、成本、还是结果一致性,都更能符合预期。

沐阳

116,421 görüntüleme • 2 ay önce

Qwen3-Next-80B-A3B 实测! 能跟头部模型对打吗? 直接说结论, 能完成我这个大象牙膏测试的一部分, 已经很厉害了, Python 杯子倒水那个测试表现也可圈可点. 来看测试中暴露出来的问题: 首先这个模型生成的样式特别多变, 可以看测试中生成的前端页面的样式和布局, 几乎每次都不一样. 所以实际使用中, 可能会存在稳定性的问题, 建议 prompt 中多做约束, 避免模型过度发挥. 不过这并不全是坏处, 如果拿这个大模型写文, 反而可能会超常发挥, 每次写出来的东西都不一样, 不会呆板. 另外目前发现最大的问题是, 给到模型一大堆数据, 让模型整理一个网页, 结果模型偷懒了, 直接把代码和数据省略掉了, 这个应该还是 GPT-4 时代的问题 (24年上半年) 出现了. 这里猜测可能是高稀疏性专家混合模型或者多词元预测造成的问题, 这两个都会在生成中选择最经济的生成模式, 因此可能会倾向于生成"此处代码省略"这样的代码来替代原本要生成一大堆代码的场景. 召回倒是没太大问题, 鞭炮连锁爆炸那个测试, 虽然模型没有成功写出来, 但是最长的一次还是生成了1100行代码, 我仔细看了下, 基本都考虑到了我 prompt 中要求的逻辑, 只不过实现的代码有 bug 跑不起来而已. 综合来讲, 我觉得这应该是 100B 以内的模型无敌手了, 考虑到定位可能是个新的技术试验模型, 所以期待千问推出更大规模 (例如400B-A15B) 的模型, 带来更好的性能. 测试 prompt: #Qwen3Next #大模型竞技场 #Qwen3

karminski-牙医

30,708 görüntüleme • 9 ay önce

星爷讽刺了世间一切,唯独没有讽刺爱情,: 原来是如此的隐喻,到现在才明白,感谢星爷,只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。 懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

35,879 görüntüleme • 6 ay önce

很多人一聊到选哪条链?第一反应都是: 热度高不高?补贴多不多?生态有没有流量? 但今天听了 Talus 🐸 CEO Mike Hanono 和 The Rollup 的视频会议,我反而有种感觉:这不是在给 Sui 站台,更像是一场技术自白。 首先Talus 选 Sui,真的不是因为它现在火。而是因为 Talus 想做的这件事,在别的链上,很难跑得像样。先说清楚一点:Talus 要做的不是一个 AI 应用,也不是几个 bot、几个策略脚本。它想做的是——一个大规模、自主运行的代理网络:成千上万个代理同时运行、同时决策、同时交互。光是这个前提,就把底层链的门槛直接拉满。 为什么是 Sui?我听下来,核心其实就三点。 第一,并行执行。代理世界不是排队点菜,不是你先我后那种单线程逻辑。代理一多,如果底层还是串行执行,结果只有一个:越跑越卡,最后只能做 demo。Sui 的并行执行,本质上就是为“多主体同时操作” 这种系统准备的,这点和 Talus 的形态非常贴合。 第二,高吞吐量。代理不是偶尔动一下,而是持续、高频地产生状态变化。TPS 要是撑不住,所有“自主”“实时”都会变成慢动作回放。对 Talus 来说,吞吐量不是加分项,是能不能活下来的前提条件。 第三,移动端和安全模型。这一点很多人会忽略。未来代理不只在服务器、交易后台跑,它一定会越来越靠近用户。Sui 在账户模型和安全设计上,本身就更像现代应用,而不是早期 DeFi 那套「钱包就是一切」的逻辑。 所以当 gmike 说“我们一直都是 SUI Maxis”,我反而觉得这句话挺克制的。这不是情绪站队,而是工程师视角下的现实选择。至于多链?我自己的理解是:Talus 不是不懂多链,而是很清楚——在基础设施阶段,过早多链只会把复杂度放大。尤其是代理这种高度耦合、强调协同的系统,先把一个底层跑通、跑稳,比到处铺点重要得多。很多项目喜欢先讲“未来多链叙事”, 但真正做底层的人,往往会先问一句:现在这个系统在哪条链上能真正跑到规模?从这个角度看,Talus 的选择是理性的,也是偏长期的。不追热点,不抢流量,先把代理世界里最难的那一块解决掉。这种项目短期不一定最热,但一旦真跑起来,后面的持续热度,反而会非常高。 Kaito AI 🌊 #Yapping #MadewithMoss MOSS #Starboard Galxe River River4FUN 🐝

百里 🌊RIVER | MemeMax⚡️|🧠SENT

13,710 görüntüleme • 6 ay önce

年前多关注ai板块吧 中国人参与多的就会有买单!就会有市场🤟 中国开源模型下载量首超美国,一场新的科技竞速正式打响! 还在觉得全球 AI 只看硅谷? MIT × Hugging Face 最新联合报告告诉你: 过去一年,全球开源 AI 模型下载量中,中国占比 17% —— 首次超过美国的 15.8%。 这不是一个小数点的变化,这是 AI 格局的一声惊雷。 意味着一个事实正在出现: 中国 AI,不再只是“追赶者”,而是实实在在的“生态领跑者”。 一、为什么这个数据爆炸性这么强? 开源模型下载量,是 AI 世界最真实的“民意投票”。 谁被用、谁被复用、谁被拿去做产品,下载量不会说谎。 它比论文数量更接地气,比发布会更诚实,比概念 PPT 更真实。 下载量高 = 模型真的“好使”“好用”“好落地”。 而这一回,中国冲到第一名,意味着什么? 全球开发者正在越来越多地选择中国模型。 中国模型正在成为国际生态的一部分,而不是“区域性产品”。 中国的 AI 创新正在进入全球循环,而非单向输入。 一句话: 中国不只在做模型,而是在影响世界开发者。 二、为什么中国能“后来居上”?三大原因让人无法忽视 ① 模型数量爆发式增长:百花齐放,开发者用不过来 过去一年,中国的开源模型生态堪称“井喷式”增长: 中小模型、大模型、多模态、语音、图像…… 能开的都开了,能放的都放了。 数量足够大,就能吸引足够多的开发者。 ② 性价比 + 轻量化:世界都在找中国模型“省钱神器” 不是每个团队都训练得起千亿级大模型。 但每个团队都想部署一个能跑的模型。 而中国模型的特质就是四个字: 轻、快、省、能打。 全球开发者当然爱。 ③ 中文生态的辐射效应:从东亚扩散到整个亚洲 中文模型强,意味着东亚、东南亚用户都能直接受益。 更大的人群、更高的需求,带来了更快的下载增长 三、美国依然很强,但“唯一主导”时代正在改变 必须说,美国仍然拥有: 世界最顶级的基础研究 算力、芯片、科研体系的深度优势 OpenAI / Google / Meta 等头部力量 但这一次的反超给了全球一个清晰的信号: AI 生态不再是“一家独大”。 多极化时代正在加速到来。 全球开发者的选择,正在慢慢从“硅谷中心论”转向“多中心协作”。 四、全球 AI 正进入“群雄争霸”时代 这次排名变化背后,是全球 AI 赛道进入全新阶段的标志: ① 从“技术竞赛”升级为“生态竞赛” 谁的模型被更多人用,谁就占据未来话语权。 ② 开源力量影响全球,而中国是关键节点 中国模型从“区域下载”变成“全球下载”,这是过去没有出现过的格局。 ③ 创新不再只来自单一地区 AI 正在走向: 中国能打、美国能打、欧洲能打、世界都能打。 这种竞争更健康,也更刺激。 五、结语:这不是终点,而是 AI 全球化的真正开始 中国开源模型首次登顶,并不是“谁碾压谁”的故事。 它真正意味着: 全球 AI,正在进入一个更开放、更多样、更具创造力的新纪元。 当中国模型被全球开发者下载、复用、再创造 这才是 AI 生态最值得期待的未来。

加密大师兄

22,361 görüntüleme • 7 ay önce

Claude Opus 4.8 出了之后,我的第一反应是:想试。 第二反应是:算了,token 这东西真的不经烧。 结果看到 ZenMux 现在可以体验 Opus 4.8,就拿它试了一个我最近一直想做的小东西。 我自己有个很真实的问题: 脑子里经常冒出各种产品想法。 但每次真要开始做,就会卡住。 用户是谁? 第一版到底做什么? 哪些功能应该先砍掉? 怎么定价? 第一周从哪一步开始? 上线后怎么找第一批用户? 想法很多,执行很散。 所以我让 Claude Opus 4.8 做了一个「一人公司作战室」。 需求我写得也挺直接: 输入一句产品 idea。 自动拆出产品定位、MVP、开发任务、定价方案。 再生成落地页文案、冷启动实验、风险清单和本周计划。 最好不是一个静态页面,而是真的能点、能改、能导出。 然后我就把这段话丢给 Claude Opus 4.8。 出来的效果比我预期好不少。 它真的把“一人公司怎么从想法走到执行”这件事拆开了。 左边输入产品想法。 中间生成产品蓝图、MVP 范围、定价和官网文案。 右边是任务看板和本周计划。 底部还有冷启动实验、风险雷达和 Markdown 导出。 最让我觉得有意思的是,它不是一味堆功能。 比如我输入“给小红书博主做 AI 选题助手”,它会主动判断: 第一版必须做什么。 哪些功能看起来高级,但现在应该先别碰。 怎么找第一批真实用户。 哪些风险可能让这个项目做不下去。 这点就很能体现 Opus 4.8 的能力。 普通模型经常是:你要什么,我全给你加上。 最后页面很热闹,但产品判断是空的。 Opus 4.8 更像是在帮你收敛:先想清楚用户、场景和第一步,再把它变成可以执行的工作台。 我是在 ZenMux 上试的。 它比较方便的一点是,一个 Key 就能切不同模型,新模型上线也很快。 Opus 4.8 拿来做这种带产品判断、交互状态和复杂信息结构的网页,确实挺顺。 想试 Claude Opus 4.8 的,可以从这里进:

Joruno

15,532 görüntüleme • 27 gün önce