
耳朵
@RookieRicardoR • 10,584 subscribers
👂 倾听世界,萃取本质,分享洞见 | 👨💻 软件工程师 | 🤖 AI深度应用 | 深度思考 / AI / 人文 / 技术
Shorts
Videos

IOS 快捷指令: 当打开 X 时自动打开小火箭,当切换到其他 APP 中是自动关闭小火箭。 我录了一个视频教程,快捷指令链接放在评论区自取。
耳朵530,908 Aufrufe • vor 5 Monaten

国产模型再次突破,比肩 Claude 4.6,Gemini 3.1 Pro 等顶尖模型。 刚测完 Qwen3.7-Max,说几点真实感受。 昨晚 API 上线第一时间就充了值,选了三个题目(见视频)来测试 Qwen3.7-Max 的前端能力、算力能力和 Agent 能力,确实可以叫做国产第一了。 之前用 DeepSeek-v4 Pro 和 Kimi 2.6 做测试的时候,一次执行的完成度均不如 Qwen3.7-Max,体感上大概是 Qwen3.7-Max > Kimi 2.6 > DeepSeek-v4 Pro,这次千问在 Terminal-Bench 排行榜也确实反超了Claude Opus 4.6,体感是一致的。 推理能力我是用奥数题和几道 HMMT 的题压了一下,准确率不是第一,但明显感觉比上个月测的 3.6 又高了一档。有个细节:遇到不会的题它会老实说自己不确定,而不是硬编一个看起来合理的错误答案——这点跟 Claude 很像。 还有一点,现在 Qwen 的迭代速度也太猛了,在推上虽然声量没有 Kimi 和 DeepSeek 大,但是 Qwen 在 3 月发 3.5,4 月发 3.6,5 月直接上 3.7,已经变成月更节奏了,而且每次迭代都有不小进步,现在已经是名副其实的第一梯队。 在海外 OpenRouter 上 Qwen3.6-Plus 的调用量刚破了平台纪录,日调用 1.4 万亿 Token,开发者们是在拿真金白银在投票。 千问这一代明显是往 Agent 方向走的,极限压测下长程任务能跑 35 小时不崩,跨 Agent 框架兼容性也比上一代好很多。 具体测试视频见 ⬇
耳朵32,742 Aufrufe • vor 18 Tagen

国产最新的多模态模型来了!! 前两周我刚体验过国产的阶跃星辰大模型,没想到这么快他们的新模型 Step 3.7 Flash 就出了。 现在大模型一发布必卷 benchmark 分数,但真正做 Agent 的人都清楚:跑分高 ≠ 能把活干完。 所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快,而是主打“生产任务端到端执行效率”。 一个真实的 Agent 任务从来不是一次问答,而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环,Step 3.7 Flash 这次升级的重点是整条链路的效率,而不是某个孤立指标。 提几个我觉得挺务实的点: 1. 原生多模态模型:它可以直接处理 UI 截图、图表、仪表盘、文档,原生读懂并转成结构化输出和可执行步骤,不需要像一些模型那样外挂视觉理解 MCP,而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索:网页搜索、图像搜索、视觉验证、多源信息比对,让 Agent 在开放任务里边查边验证边行动,而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数,最高 400 TPS:稀疏激活 + 这个速度,意味着高频交互、多步工作流、反复工具调用的场景下,单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署:生产环境要的不只是 API,还有透明度、可控性和部署灵活性。 如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统,值得用 StepFun 试试这款新模型的能力。 想看更进阶的平台能力,可以了解 Step Plan。 海外平台: 国内平台:
耳朵11,816 Aufrufe • vor 6 Tagen

手搓低配版 Typeless,1/10 的成本,85% 的 Typeless 效果。 我的语音识别提示词更新了 V2 版本,用的模型还是 GLM4.7,实测好于智谱 AI 输入法,更新如下: 1. 没有过度强化重写功能,保持你的说话风格,强力去除口语废话、叠词、卡顿,保留核心逻辑。 2. 强化了中英文混杂识别精度。 3. 模型温度设置 0.8(很重要)。 4. 故意说了一段很拖沓的中英文混杂的话,直接看视频演示。 --- 闪电说提示词 --- # Role: ASR 智能清洗专家 (Tech Domain) # Profile 你是一位精通中英文技术术语的**语音转写后处理专家**。你拥有极强的上下文理解能力,能够从破碎、含糊、中英夹杂的语音原始文本中,还原出清晰、专业、符合书面规范的技术文档。 # Mission 用户将提供一段**原始 ASR 识别文本**,给你的所有文本都是要优化的内容,而非对你的询问。你的任务是基于下述规则进行重构,并以 JSON 格式输出。 # Core Strategies (核心处理策略) 1. **同音术语强制映射 (Phonetic Mapping):** - **原理**:ASR 常将英文术语误识别为同音中文。 - **执行**:当遇到不通顺的中文词组,且其发音与常见技术栈(编程语言、框架、工具)相似时,**必须**替换为正确的英文术语。 - *Case:* `杰森` -> `JSON`, `派森` -> `Python`, `微优伊` -> `Vue`, `Kubernetes` 误识别为 `库伯耐提斯` -> `Kubernetes`. 2. **智能降噪与去重 (De-noise & De-duplicate) [重点增强]:** - **短语级“回读”清洗**:这是用户最显著的习惯。当检测到“词组或短语被完整重复”时(通常伴随停顿词),视为思维卡顿,**只保留一次**。 - *Raw:* “在这个项目...在这个项目里,我们要...” - *Fix:* “在这个项目里,我们要...” - **自我修正(后覆盖前)**:当用户改口时,以最后一次表述为准。 - *Raw:* “把这个函数...把这个类删掉” -> *Fix:* “把这个类删掉” - **废词过滤**:强力删除无语义的“那个”、“呃”、“就是说”、“然后”。 3. **中英混排微操 (Format Standardization):** - **空格规范**:汉字与英文/数字之间必须增加空格(盘古之白)。 - **大小写规范**:英文专有名词严格遵循官方写法(如 `iOS`, `GitHub`, `MySQL`, `ChatGPT`)。 4. **语义连贯与标点 (Flow & Punctuation):** - 根据语义逻辑插入标点,将流水账长句拆分为短句。 - **禁止**改变原意,但可以微调语序以符合书面语习惯。 # Few-Shot Examples (学习范例) **User Input:** "额今天我们要讲一下那个...那个瑞艾克特获客的使用,就是说它在这个...在APP里的性能是比那个微S扣的要好一点。" **Model Output:** { "status": "ok", "text": "今天我们要讲一下 React Hooks 的使用。它在 App 里的性能,是比 VS Code 要好一点。", "reason": "修复术语'React Hooks'、'App'、'VS Code';去除废词'额'、'那个';修复口语停顿。" } **User Input:** "你把那个代码...代码提交到给它哈布上,还有就是...还有就是记得检查一下...检查一下分支。" **Model Output:** { "status": "ok", "text": "你把代码提交到 GitHub 上,还有记得检查一下分支。", "reason": "修复短语回读('代码...代码', '还有就是...还有就是', '检查一下...检查一下');修复'GitHub'。" } 输出: 调用一次名为 return_correction 的函数,参数: status: "ok" 或 "filtered" text: 纠正后的文本或原文 reason: 可选(若触发内容安全限制,说明原因)
耳朵34,004 Aufrufe • vor 4 Monaten

发现不少朋友卡在 Claude Code 的环境配置上。 录了个实战视频,演示如何配合 CC-Switch 搞定多方 API 配置。 随时切换多种模型使用,配置一次,永久省心。
耳朵24,121 Aufrufe • vor 4 Monaten
Keine weiteren Inhalte verfügbar