正在加载视频...

视频加载失败

使用了一天的Claude Fable 5: 1️⃣确实很强,两个月前的陈年老bug,在只开了high档的情况下一发入魂解决了。 2️⃣速度快,消耗也快。 3️⃣对前端的理解和执行能力断档式的领先。 其它的能力不好量化展示,放一个 Fable 5生成的网页。 推荐用法:碰到Opus和GPT-5.5都搞不定的问题再上Fable。 目前最大的问题就是6月22日以后官方订阅套餐不能用Fable,只能走API。Fable能力很强,但是调用官方API的费用不低,不过想省点钱的办法还是有的,我推荐的方案是用Zenmux,支付方便,Visa卡和支付宝都支持。目前有个充20美元送10美元、充50美元送30美元的活动,总体算下来比直接用官网API划算,可以趁着有活动先充值囤着。 我的建议是一定要备一个API,真碰到难题了,上Fable,能省不少时间。

37,506 次观看 • 4 天前 •via X (Twitter)

0 条评论

暂无评论

原始帖子的评论将显示在这里

相关视频

用了两天的Fable-5,得到了一个与大部分人截然相反的结论,实测体验如下: 速度:非常慢,尤其是开始分析和规划的时候能感受到像乌龟慢爬 价格:我是Max5订阅用户,虽然输入输出定价为Opus的两倍,但是实际消耗量并没有像流水一样,消耗速度确实变快了,但命中缓存后消耗没有特别高,没有人传人的消耗那么离谱的快 所以铺天盖地说消耗非常快的只有三种可能: 第一种是Pro订阅账号容量本来就小, 第二种是没自己账号纯造谣, 第三种是本来对Opus的消耗没有感知,看到别人说fable消耗快自己也一用发现消耗快于是觉得是真的消耗快了。本身Opus的消耗就非常快嘛,现在只不过是变为了原来的大概1.5x 对于我来说,我通常只用Opus,所以这个1.x倍Opus的消耗量能够接受。实际使用中建议把缓存重建修改为1小时。 能力:能力强体现在思维边界更广,架构能力更强。 对于前端能力测试确实是有很大提高,尤其是创意能力。真正落地到工程项目中,我的体感是能够真正发现GPT-5.5的问题了,不会再像之前基本一直认为GPT的分析是对的。 实际能力类似于Claude Opus4.6++与GPT-5.5++的结合版,目前没有到非常惊艳的程度 结合价格和6月22之后就没了,我也没有升级Max20的打算,Max5+GPT-5.5乃至即将出现的5.6我觉得完全够用。也建议大家理性消费。如果想走按量体验可以看下评论区。 最后给大家看一下昨晚用Fable简单构建的前端的效果,关于为什么我吐槽过还要做前端,是因为我也需要在抖音小红书炸裂搞流量,人作为视觉动物,前端是最开始抓住注意力的开头的。 视频如下,网站部署在verel地址放在评论区了,大家可以自行查看

雪踏乌云

22,498 次观看 • 3 天前

🔥 重磅消息:昨晚刚上线的Claude Opus 4.6 可以免费用了! ZenMux把这个模型给免费开放了,目前是限时 2 周免费体验。 这可能是今年最良心的 AI 福利了——要知道官方 Claude Pro 订阅一个月就要 $20,而且还有额度限制。 说实话,我自己最近已经被额度问题困扰很久了。 这已经是这个月第三次了——上周用 Claude Code 重构了一个项目,刚生成了大概 2000 行代码,额度直接没了就~~ 然后就是熟悉的循环:要么等下个月重置,要么就是再充钱。这种“写到一半突然卡住”的感觉,真的太难受了,大家应该懂得。 而我又是一个完全不懂代码的 Vibe Coding 选手,所有的东西都得靠 AI,手工是绝对不可能的,所以消耗 Token 的速度比谁都快。 所以今早看到 yamilet 第一时间支持了 Claude Opus 4.6,还包含了 GPT-5.2、Gemini 3 Pro 这些最新模型。 加上他们最新上线了一个 Builder Plan 订阅制,限量 999 份,我就赶紧抢了一个。 我的实际体验: 1、注册后直接选 Pro 套餐($20/月),直接支付宝付款 2、拿到 API Key 之后,复制到 VS Code的设置里(替换我原来的 Anthropic Key) 3、打开项目,直接用Claude Code插件,然后选 Claude Opus 4.6,开始继续写代码,不用担心 Token 然后我做了个测试: 让 Claude Opus 4.6 帮我写一个完整的用户认证模块,包括: -- JWT token 生成和验证 -- 密码加密和校验 -- 刷新 token 机制 -- 错误处理和日志记录 生成了大概 500 行代码,前前后后改了 3 次,一点心理负担都没有。 以前用官方订阅的时候,每次让 AI 重新生成代码,我都会犹豫一下:“这次改动值不值得再消耗一次额度?” 现在完全不用想这个问题了。这种固定月费的模式,我爱怎么折腾怎么折腾。 更爽的是: 因为 ZenMux 聚合了所有主流模型,我可以直接在 VS Code里切换: -- 写复杂逻辑用 Claude Opus 4.6(推理能力较强) -- 写单元测试用 GPT-5.2(格式比较规范) -- 优化性能用 Gemini 3 Pro 一个 API Key,三个顶级模型随便切换,这种体验真的回不去了。 算了一下成本 以前: ChatGPT Plus $20 + Claude Pro $20 = $40/月,还经常不够用 现在: ZenMux Builder Plan Pro $20/月,等价 $100 的 API 用量,目前完全够用 如果你是商业项目或者生产环境,ZenMux 也有按量付费模式,企业级 SLA 保障。我个人项目用订阅制,公司项目用按量付费。 👉 体验地址:

鱼总聊AI

35,596 次观看 • 4 个月前

试了一下 OpenAI 新出的 Codex App,有些亮点 跟 Skills 的适配还是有点问题,模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍: Skills 可视化管理 有一个专门的 Skills 列表界面,预置了一些官方 skills,也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的,本地创建的(比如在 Claude Code 里创建的)扫不出来。 还支持 Skills Creator 创建的 skills,可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能,这个挺实用的。 可以让 AI 定期执行某些任务,比如每周给你一个解决问题的报告,定期去解决某个项目的 PR 问题,或者定期 review 代码。 对于需要持续维护的项目来说,这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。 因为它跟 Codex CLI 共享后端,所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤,让你确认后再执行。 ------ 用量显示的样式做得挺好的。 进度条、余量、使用情况都很清楚,一眼就能看到你还有多少额度。 还有 code review 的快捷方式,可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测:用 video-wrapper skill 跑了一遍 我测试主要是让它跑了一个我最近做的 skill,可以一键给视频添加视频包装,比如卡片、花字、人物条、章节标题这些。 这个 skill 挺复杂的,所以很适合用来测试。 ------ 第一次运行的问题 可以工作,但第一次它选了 PIL 这个方案,比较差。 核心问题是什么?它跟你没有交互。 我的 skill 里边写清楚了:要先问用户要哪套方案,再给出包装方案让用户确认,用户确认了再开始包装。 但在 Codex 这里,明显没有交互。它就直接跑,把所有决定都自己做了,跑完就完了。出错了也不管,直接用降级方案。 ------ 修复后的效果 我让它修复以后,它倒是能修复。重新跑了一遍,效果也不错。 最终生成的视频包装效果还行: ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了 因为我们用前端代码约束了样式,所以它在样式上不会出什么错误。 ------ 体验总结 整个过程很不可控: ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了,也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行,不会停下来问你 可能是它不太适应 skills 规范,只是简单做了一下适配,没有 Claude Code 跟 skills 的适配那么好。

歸藏(guizang.ai)

30,521 次观看 • 4 个月前

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,591 次观看 • 1 年前

国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力,确实可以叫做国产第一了。 之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候,一次执行的完成度均不如 Qwen3.7-Max,体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro,这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6,体感是一致的。 推理能力我是用奥数题和几道 HMMT 的题压了一下,准确率不是第一,但明显感觉比上个月测的 3.6 又高了一档。有个细节:遇到不会的题它会老实说自己不确定,而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。 还有一点,现在 Qwen 的迭代速度也太猛了,在推上虽然声量没有 Kimi 和 DeepSeek 大,但是 Qwen 在 3 月发 3.5,4 月发 3.6,5 月直接上 3.7,已经变成月更节奏了,而且每次迭代都有不小进步,现在已经是名副其实的第一梯队。 在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录,日调用 1.4 万亿 Token,开发者们是在拿真金白银在投票。 千问这一代明显是往 Agent 方向走的,极限压测下长程任务能跑 35 小时不崩,跨 Agent 框架兼容性也比上一代好很多。 具体测试视频见 ⬇

耳朵

32,905 次观看 • 20 天前