Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

Hermes Agent这样设置那么恭喜你为了省钱又进一步😂 deepseek为主大模型,kimi2.6为视觉模型,并且无需来回切换,只要丢图片进去就会自动使用kimi2.6去识别。(理论是你可以设置更多的大模型去完成不同的工作,并且全程自动无需切换大模型) 写很多以X文章的形式去编辑这类干货教程已经很多了,我想试试普通的发帖方式编辑会不会被更多的人去看到。 那么话不多说下面直接是干货! - 主模型:deepseek-v4-pro 视觉模型:kimi-k2.6 运作逻辑:deepseek 负责所有的工具调用、代码、排查、对话,一旦你丢过来图片或者视频帧,系统自动切到 kimi 去识图,识完把结果扔回给 deepseek 继续处理。整个过程不需要手动切换模型,你体感上就是同一个助手在干活,但实际上后面是两个大脑在协作。 - 为什么这样搭 deepseek-v4-pro 的工具调用和长上下文处理能力确实强,跑代码任务、排查问题、多步骤复杂操作的稳定性比 kimi 好一截。 但它有一个硬伤暂时不支持多模态,直接给它丢图片会报 unknown variant image_url 的错。 而 kimi-k2.6 的多模态能力不用说,中文 OCR 也准,但纯文本推理和工具调用不如 deepseek 稳。 所以最优解就是各取所长,deepseek 当大脑,kimi 当眼睛。 (其实说白了就是为了省Token!!!) - 配置步骤 第一步,确保 API Key 就位。在 `~/.hermes/.env` 里确认两行: ``` DEEPSEEK_API_KEY=你的deepseek密钥 KIMI_API_KEY=你的kimi密钥 ``` 第二步,切主模型,终端敲:...

24,467 Aufrufe • vor 21 Tagen •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

OpenAI刚刚开源的这个东西,感觉要把程序员的工作方式给整个改写了。 现在大家都在卷模型写代码有多强,但其实真正的瓶颈早就不是生成了。 一个人每天最多同时有效监督3-5个编码Agent,再多就会注意力崩溃,生产力直接归零。 有了Symphony,直接把这个上限干到了几十个。 它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。 你开一个任务,它自动启动一个独立隔离的Codex Agent。 自己写代码,自己跑测试,自己做交叉Review,damn! 全部搞定之后,会给你提交一个完整的证据包。 CI全绿,安全和性能专项审查通过,改了UI就自动录好操作视频。 所有验证全过了,才会出现在你的Human Review队列里。 以后人类的角色可能会被彻底颠覆了。 以前你是监工,盯着Agent一步一步写代码,上下文切到吐。 现在你是老板,只需要看最终的结果。 满意就点合并,不满意就去仓库里补规则补文档补Guardrails。 记住兄弟们,永远不要手把手指挥Agent,永远不要替它干活。 这可不是啥实验室概念,OpenAI自己已经这么干了。 三个工程师,五个月,写了一百万行代码,0行人工写的。 产品已经有几百个内部用户,每天都在迭代。 我觉得他们最厉害的不是模型,是他们把整个仓库变成了Agent能看懂能自主工作的乐园。 现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明,而是看谁能设计出让Agent可靠自主工作的环境。 我觉得未来最好的工程师,再也不是写代码最快的人,而是那些最会写规则,最会设计反馈回路,最会给Agent搭舞台的人。 现在Symphony已经开源了,它甚至不是一个成品。 是一个17k token的完整SPEC。 你把这个SPEC喂给任何一个编码Agent,十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

阿绎 AYi

61,332 Aufrufe • vor 2 Monaten

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课,系统的介绍了大语言模型,内容深入浅出,非常赞,抽空将它翻译成了双语,由于内容较长,我将分批上传,以下是第一部分精校后的双语视频,字幕文稿如下: Intro: Large Language Model (LLM) talk 大家好。最近,我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是,这次讲座没有被录制下来,但许多人在讲座后找到我,他们告诉我非常喜欢那次讲座。因此,我决定重新录制并上传到 YouTube,那么,让我们开始吧,为大家带来“忙碌人士的大语言模型入门”系列,主讲人 Scott。好的,那我们开始吧。 LLM Inference 首先,什么是大语言模型 (Large Language Model) 呢?其实,一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。 以 Llama 2 70B 模型为例,这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代,也是该系列中参数最多的模型,达到了 700 亿。LAMA2 系列包括了多个不同规模的模型,70 亿,130 亿,340 亿,700 亿是最大的一个。 现在很多人喜欢这个模型,因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文,所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同,例如,如果你正在使用 ChatGPT 或类似的东西,其架构并未公开,是 OpenAI 的产权,你只能通过网页界面使用,但你实际上没有访问那个模型的权限。 在这种情况下,Llama 2 70B 模型实际上就是你电脑上的两个文件:一个是存储参数的文件,另一个是运行这些参数的代码。这些参数是神经网络(即语言模型)的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型,每个参数占用两个字节,因此参数文件的大小为 140 GB,之所以是两个字节,是因为这是 float 16 类型的数据。 除了这些参数,还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码,这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python,或任何其他编程语言编写的。它可以用任何语言编写,但 C 语言是一种非常简单的语言,只是举个例子。只需大约 500 行 C 语言代码,无需任何其他依赖,就能构建起神经网络架构,并且主要依靠一些参数来运行模型。所以只需要这两个文件。 你只需带上这两个文件和你的 MacBook,就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件,编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。 比如,你可以让它写一首关于 Scale AI 公司的诗,语言模型就会开始生成文本。在这种情况下,它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子,你会在整个演讲中看到,是因为我最初在 Scale AI 举办的活动上介绍过这个话题,所以演讲中会多次提到它,以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。 我在这里稍微有点作弊,因为这并不是在运行一个有 700 亿参数的模型,而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程,让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包,但是当我们需要获取那些参数时,计算的复杂性就真正显现出来了。 那么,这些参数从何而来,我们如何获得它们?因为无论 run.c 文件中的内容是什么,神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,122,128 Aufrufe • vor 2 Jahren

自从马云重新现身后, 蚂蚁集团一直猛冲AI,大动作不断! 像是卯足劲在追赶阿里QWEN! 最近更是连发两款实用拉满的模型!!! 先是百B级的 Ling 2.6 Flash, 盲测阶段就冲上 OpenRouter 趋势榜第一, 直接火到了海外!! 还不算完,Ant Ling 今天又甩出一张底牌: Ling 2.6 1T ! 名字就能看得出来,这个模型能力会更强!! 但有一个误区:能力强的不一定是思考模型! Ling 2.6 1T 不靠拉长推理链条来显得"很聪明", 而是把 token 更多花在理解、规划和输出上。 换句话来说: 它的核心定位,是面向复杂任务,是精准指令下的执行模型!! 1M 超长上下文,能把会议纪要、群聊记录、项目文档、零散资料一次性扔进去统一处理。 强工具调用能力,可以接进 OpenClaw、Hermes、LangGraph、Dify 等跑工作流。 真实问题处理,不只生成漂亮 demo,而是能够读懂已有代码,按照你的要求去干活。 Token 效率更高,不默认展开超长思考,成本控制到最低。 最近一段时间都是免费用,不用白不用, 我拿了几个真实任务跑了一遍,感受超级明显—— 如果是模糊的指令,它可能不太适合。 但如果是比较详细的指令,给它一个工作流, 就完全起飞了!! 没有了推理过程,感觉非常丝滑, 这一点,就挺重要的!! 减少了很多“AI自作聪明”的麻烦!! 说回蚂蚁这两款模型, 完全是冲着落地应用来的,几乎把简单和复杂的应用场景全部包圆。 1T 负责理解复杂目标、拆解任务、整理材料、制定计划。 Flash 负责快速执行、快速改写、快速补全。 这精准切入了现在大多数人用AI的“痒点”: 总想着用一个“最强模型”解决所有的事情。 但我认为真正重要并且正确的是: 让对的模型干对的事。 这样无论是速度、成本、还是结果一致性,都更能符合预期。

沐阳

116,421 Aufrufe • vor 2 Monaten

兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我今年Claude被封过一次号,那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷,付费用户说封就封,申诉通道石沉大海,深夜破防一次就够了。 从那之后我转战聚合平台,试了一圈最后留在ZenMux,半年用下来没再折腾过。 所以这次V4 Pro在ZenMux上免费开放,对我来说不是又一个新模型上线,是我一直在用的平台又多了一张能打的牌,顺手就想推给兄弟们。 先说V4 Pro到底值不值得冲, 这几天X上吹V4 Pro的推刷屏了,参数跑分价格屠杀,都是同一个模板。 但对我这种每个月真金白银付API账单的人来说,跑分都是虚的,能不能替掉我手头项目里的Claude调用才是真问题。 免费窗口就是用来验证这件事的, 我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏,拿自己项目里最头疼的prompt开跑,三栏并排输出,谁快谁慢谁token烧得少一眼看完。 四个场景跑完结论很清晰——日常80%的活V4 Pro能接,便宜到让我下不去手再用Opus,剩下20%极限稳定性的关键链路我还是留给Claude兜底。 这就是模型分层,上周讲Ling的时候也提过这个逻辑,2026年不存在一个模型打天下,只存在你工具箱里的模型组合。 顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏,三家模型同屏对比这种功能市面上很少有平台做,每次选模型省我一整个下午,比自己写脚本调三家API再人肉对比快十倍。 真正让我踏实的是保险赔付机制,模型输出异常或者延时拉胯,平台自动检测并补偿。 被Claude封过号之后再看到这个设计,感觉完全不一样,出问题有人兜底,不用再深夜破防。 再加上日志、成本、用量、性能四个维度的可观测性做得细,每一笔钱烧在哪、每一次请求卡在哪点开就能看,调prompt和选型的时候非常好使。 回到这次的白嫖窗口, DeepSeek V4 Pro和Flash都有免费版,每天有用量限制但够你跑测试。 这几天想验证要不要换模型的兄弟,别再刷跑分推了,自己扔几个真实prompt进去跑一遍,十分钟你就知道该不该换,比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

AYi

132,063 Aufrufe • vor 2 Monaten

星爷讽刺了世间一切,唯独没有讽刺爱情,: 原来是如此的隐喻,到现在才明白,感谢星爷,只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。 懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。懂你意思了,这版我会刻意留下不完美、主观判断和情绪停顿,像是你自己琢磨出来的,而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。 逻辑上它很美:模型是对的,而且你还能证明它是对的。 但每次真去看实现,基本都会卡在同一个地方——跑不起来。 不是“慢一点”,而是那种一看资源占用就知道不可能进生产的跑不起来。 模型稍微大点,电路直接失控,内存、时间全都爆表, 最后只能留在论文和 demo 里自嗨。 所以我第一次认真看 Inference Labs 的时候,关注点反而不在“zk”, 而在他们是不是愿意承认:这玩意本质是工程问题。 DSperse 给我的感觉,就是终于有人不再执念“一次性证明整个模型”。 模型切开、并行跑、只验证关键路径, 听起来很朴素,但恰恰是工程师会选的路。 不是最优雅,但能活。 JSTprove 则更现实。 你不需要懂零知识、也不用研究电路怎么写, 把 ONNX 模型丢进去,能转、能跑、能验, 这点其实比很多“性能提升 10%”更重要。 这两块拼在一起之后,zkML 才第一次让我觉得: 它不是在证明“我可以”, 而是在回答“你要不要真用”。 对我来说,zkML 的拐点从来不是密码学突破, 而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来,至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

35,879 Aufrufe • vor 6 Monaten