Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

Hermes Agent这样设置那么恭喜你为了省钱又进一步😂 deepseek为主大模型，kimi2.6为视觉模型，并且无需来回切换，只要丢图片进去就会自动使用kimi2.6去识别。（理论是你可以设置更多的大模型去完成不同的工作，并且全程自动无需切换大模型）写很多以X文章的形式去编辑这类干货教程已经很多了，我想试试普通的发帖方式编辑会不会被更多的人去看到。那么话不多说下面直接是干货！ - 主模型：deepseek-v4-pro 视觉模型：kimi-k2.6 运作逻辑：deepseek 负责所有的工具调用、代码、排查、对话，一旦你丢过来图片或者视频帧，系统自动切到 kimi 去识图，识完把结果扔回给 deepseek 继续处理。整个过程不需要手动切换模型，你体感上就是同一个助手在干活，但实际上后面是两个大脑在协作。 - 为什么这样搭 deepseek-v4-pro 的工具调用和长上下文处理能力确实强，跑代码任务、排查问题、多步骤复杂操作的稳定性比 kimi 好一截。但它有一个硬伤暂时不支持多模态，直接给它丢图片会报 unknown variant image_url 的错。而 kimi-k2.6 的多模态能力不用说，中文 OCR 也准，但纯文本推理和工具调用不如 deepseek 稳。所以最优解就是各取所长，deepseek 当大脑，kimi 当眼睛。（其实说白了就是为了省Token！！！） - 配置步骤第一步，确保 API Key 就位。在 `~/.hermes/.env` 里确认两行： ``` DEEPSEEK_API_KEY=你的deepseek密钥 KIMI_API_KEY=你的kimi密钥 ``` 第二步，切主模型，终端敲：... ``` hermes config set model.default deepseek-v4-pro hermes config set model.provider deepseek ``` 第三步，设视觉模型： ``` hermes config set kimi-k2.6 hermes config set kimi-coding hermes config set ``` 第四步，如果你的 kimi key 是老 key（sk- 开头不是 sk-kimi- 开头），需要在 `.env` 最后加一行： ``` KIMI_BASE_URL= ``` 新 key 走 key 走默认写的是错的，不改会 401。第五步，`/reset` 重开会话，生效。 - 踩过的坑一个是上面说的 api 地址问题，和差一个字母，排查了好一阵。另一个更隐蔽：Hermes 内置的 vision 工具往 kimi API 发请求时，content 数组里 image_url 排在了 text 前面，kimi 的接口不认这个顺序，偶尔 400。目前的变通方案是发图时绕过内置工具，直接 Python 调 moonshot API，text 放 image_url 前面就没事。不影响使用，但不算完美，等后续优化。 - 配完之后你正常跟他聊天就行，deepseek 处理一切。发图过来的时候，你不需要说"用 kimi 看"，系统自动检测到图片就走 kimi 视觉，识读完无缝回到 deepseek 继续对话。你体感上就是同一个助手能看能想能干，但后台其实是两个模型在做各自最擅长的事。这个方案的最大好处是不用你在聊天里手动切模型，流程全自动。而且以后如果想换视觉模型，改 ` 一行就行，不影响主模型。 - 兄弟们有哪个不懂的直接甩在评论区，狙击手会挨个解答！show more

DeFi狙击手 | Ai🕊️

51,360 subscribers

24,467 Aufrufe • vor 21 Tagen •via X (Twitter)

Bildung Wissenschaft & Technologie

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

46,883 Aufrufe • vor 1 Monat

Kimi新出的K2.5模型（应该）是目前最强国产模型，极其全能。伴随新模型一起发布的，还有Agent集群功能。在K2.5的驱动下，Agent集群能根据你的需求即时生成多个Agent，并且并行运作。注意，是即时生成，不是那种预先设定好的。如果你是Kimi会员的话，请马上就去试试！

Kimi新出的K2.5模型（应该）是目前最强国产模型，极其全能。伴随新模型一起发布的，还有Agent集群功能。在K2.5的驱动下，Agent集群能根据你的需求即时生成多个Agent，并且并行运作。注意，是即时生成，不是那种预先设定好的。如果你是Kimi会员的话，请马上就去试试！

huangyihe

15,629 Aufrufe • vor 5 Monaten

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,194 Aufrufe • vor 1 Monat

对不起，我不是在用 AI，我是在开公司！看到 Kimi 2.5 的集群模式，我直接看呆了…… 以前是“一个模型干所有活”，现在是“模型现场帮我招员工” 只要跟它说你的需求，它会自动分身：有的负责调研，有的负责写代码，有的负责整合最高100个 Agent 并发处理！这种串行+平行的调度能力，以前想都不敢想 “一人公司”的时代真的来了吗唯一的缺点？贵现在的我只想大喊：友商们快跟进！早日实现“数字员工自由”！

对不起，我不是在用 AI，我是在开公司！看到 Kimi 2.5 的集群模式，我直接看呆了…… 以前是“一个模型干所有活”，现在是“模型现场帮我招员工” 只要跟它说你的需求，它会自动分身：有的负责调研，有的负责写代码，有的负责整合最高100个 Agent 并发处理！这种串行+平行的调度能力，以前想都不敢想 “一人公司”的时代真的来了吗唯一的缺点？贵现在的我只想大喊：友商们快跟进！早日实现“数字员工自由”！

XDmnnn不淡

50,270 Aufrufe • vor 3 Monaten

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

阿绎 AYi

61,332 Aufrufe • vor 2 Monaten

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 Aufrufe • vor 6 Monaten

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

小互

14,775 Aufrufe • vor 6 Monaten

如何用DeepSeek-R1蒸馏出属于你自己的大模型！发现了一个新的fune-tune框架，可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型，整个过程是全自动的，不需要编写代码或者手动调节，仅需定义你的数据集即可。 [1/2]

如何用DeepSeek-R1蒸馏出属于你自己的大模型！发现了一个新的fune-tune框架，可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型，整个过程是全自动的，不需要编写代码或者手动调节，仅需定义你的数据集即可。 [1/2]

karminski-牙医

180,894 Aufrufe • vor 1 Jahr

这是我来到 X 以后，学会的几个新的操作。很多X新手应该都不知道，我也一直踩坑： 1、第一个操作，就是在通知里看到某一条消息之后，打开之后看不到原帖是哪个。这个时候你把页面向上滑动一下，你才能看到他回复的是哪个帖子。 2、第二个操作，怎么发长线程的推文？点击发帖，发帖之后，把第一个帖子编辑好之后，就可以点击右下角的一个添加加号，然后就可以添加新的内容，也就是发一个长线程的推文。 3、第三个操作，转发视频。其实有时候你转发其他人的推文的时候，可以不用直接转发推文，而是直接把视频引用过来，看起来像是自己发的视频一样。怎么操作呢？就是你进入到这个视频的页面，然后长按视频，然后点发布视频。然后就会带入一个链接，然后你在链接的前面输入你的文字，你发布出去之后就会只引用对方的视频，有时候看起来跟你自己发的是一样的。你学会了吗？没学会的可以👀看视频

这是我来到 X 以后，学会的几个新的操作。很多X新手应该都不知道，我也一直踩坑： 1、第一个操作，就是在通知里看到某一条消息之后，打开之后看不到原帖是哪个。这个时候你把页面向上滑动一下，你才能看到他回复的是哪个帖子。 2、第二个操作，怎么发长线程的推文？点击发帖，发帖之后，把第一个帖子编辑好之后，就可以点击右下角的一个添加加号，然后就可以添加新的内容，也就是发一个长线程的推文。 3、第三个操作，转发视频。其实有时候你转发其他人的推文的时候，可以不用直接转发推文，而是直接把视频引用过来，看起来像是自己发的视频一样。怎么操作呢？就是你进入到这个视频的页面，然后长按视频，然后点发布视频。然后就会带入一个链接，然后你在链接的前面输入你的文字，你发布出去之后就会只引用对方的视频，有时候看起来跟你自己发的是一样的。你学会了吗？没学会的可以👀看视频

鱼总聊AI

13,431 Aufrufe • vor 5 Monaten

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,122,128 Aufrufe • vor 2 Jahren

利用Hermes去使用ComfyUI实现免费生成图片和视频。上次我介绍了ComfyUI可在本地部署并且自有本地大模型，不用调用其他付费大模型。并且30/40/50显卡都可以去用，当然配置越高生成的质量就越好。大家按需去用即可。 ComfyUI我认为对于新手来说应该是不怎么难，但是还是有很多兄弟们给狙击手私信问各种操作类型的问题。那么这次我专门做了次实验就是利用Hermes去调用本地的ComfyUI去实现生图以及做视频，目前来看是可行的，至于整体的质量还要去慢慢的调试。我其实是建议大家还是把ComfyUI去系统性的学一下的，网上有各种免费的教程的。我认为既然享受这些免费开源的好软件了，就稍微用用心。哈哈，毕竟它是不要钱的。下面的视频看一下我第一次调用ComfyUI，生成的第一张图片的结果吧。你们看看怎么样？对了我引用的推文里面有ComfyUI的安装包，免费自取！

利用Hermes去使用ComfyUI实现免费生成图片和视频。上次我介绍了ComfyUI可在本地部署并且自有本地大模型，不用调用其他付费大模型。并且30/40/50显卡都可以去用，当然配置越高生成的质量就越好。大家按需去用即可。 ComfyUI我认为对于新手来说应该是不怎么难，但是还是有很多兄弟们给狙击手私信问各种操作类型的问题。那么这次我专门做了次实验就是利用Hermes去调用本地的ComfyUI去实现生图以及做视频，目前来看是可行的，至于整体的质量还要去慢慢的调试。我其实是建议大家还是把ComfyUI去系统性的学一下的，网上有各种免费的教程的。我认为既然享受这些免费开源的好软件了，就稍微用用心。哈哈，毕竟它是不要钱的。下面的视频看一下我第一次调用ComfyUI，生成的第一张图片的结果吧。你们看看怎么样？对了我引用的推文里面有ComfyUI的安装包，免费自取！

DeFi狙击手 | Ai🕊️

34,196 Aufrufe • vor 16 Tagen

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

karminski-牙医

21,719 Aufrufe • vor 8 Monaten

这个太牛X了！！天天人工智能，大模型，Transformer挂在嘴边，但是大模型到底是怎么运行的在我们的认知里就是一个黑盒。这个太牛X了！ The LLM Visualization 将大语言模型的内部运作，变成了一个你可以亲手“玩”的交互式可视化界面。清晰地看到每一个词的“注意力”是如何分配给其他词的，直观地理解模型是如何“思考”和“关联”上下文的。非常详细，不是大概模拟，是精确模拟，细节拉满，可自由放大缩小，360度变换视角，每一步都有解释，复杂步数还有运行步骤。 AI爱好者一定要亲自体验一下，太震撼了！！

这个太牛X了！！天天人工智能，大模型，Transformer挂在嘴边，但是大模型到底是怎么运行的在我们的认知里就是一个黑盒。这个太牛X了！ The LLM Visualization 将大语言模型的内部运作，变成了一个你可以亲手“玩”的交互式可视化界面。清晰地看到每一个词的“注意力”是如何分配给其他词的，直观地理解模型是如何“思考”和“关联”上下文的。非常详细，不是大概模拟，是精确模拟，细节拉满，可自由放大缩小，360度变换视角，每一步都有解释，复杂步数还有运行步骤。 AI爱好者一定要亲自体验一下，太震撼了！！

沉浸式翻译

209,614 Aufrufe • vor 8 Monaten

手把手教你，如何在 codex 中接入 DeepSeek 模型。最近使用 cc-switch，在 codex 中接入 DeepSeek 的时候，遇到了一个问题，就是配置好之后，模型显示成了自定义。这个问题，github 中有人提了，作者也亲自回复了，在通用设置里，codex 增强那里，「切换第三方时保留官方登录」这个选项一定要勾选✅

手把手教你，如何在 codex 中接入 DeepSeek 模型。最近使用 cc-switch，在 codex 中接入 DeepSeek 的时候，遇到了一个问题，就是配置好之后，模型显示成了自定义。这个问题，github 中有人提了，作者也亲自回复了，在通用设置里，codex 增强那里，「切换第三方时保留官方登录」这个选项一定要勾选✅

前端哥Liam

30,231 Aufrufe • vor 1 Tag

自从马云重新现身后，蚂蚁集团一直猛冲AI，大动作不断！像是卯足劲在追赶阿里QWEN！最近更是连发两款实用拉满的模型！！！先是百B级的 Ling 2.6 Flash，盲测阶段就冲上 OpenRouter 趋势榜第一，直接火到了海外！！还不算完，Ant Ling 今天又甩出一张底牌： Ling 2.6 1T ！名字就能看得出来，这个模型能力会更强！！但有一个误区：能力强的不一定是思考模型！ Ling 2.6 1T 不靠拉长推理链条来显得"很聪明"，而是把 token 更多花在理解、规划和输出上。换句话来说：它的核心定位，是面向复杂任务，是精准指令下的执行模型！！ 1M 超长上下文，能把会议纪要、群聊记录、项目文档、零散资料一次性扔进去统一处理。强工具调用能力，可以接进 OpenClaw、Hermes、LangGraph、Dify 等跑工作流。真实问题处理，不只生成漂亮 demo，而是能够读懂已有代码，按照你的要求去干活。 Token 效率更高，不默认展开超长思考，成本控制到最低。最近一段时间都是免费用，不用白不用，我拿了几个真实任务跑了一遍，感受超级明显—— 如果是模糊的指令，它可能不太适合。但如果是比较详细的指令，给它一个工作流，就完全起飞了！！没有了推理过程，感觉非常丝滑，这一点，就挺重要的！！减少了很多“AI自作聪明”的麻烦！！说回蚂蚁这两款模型，完全是冲着落地应用来的，几乎把简单和复杂的应用场景全部包圆。 1T 负责理解复杂目标、拆解任务、整理材料、制定计划。 Flash 负责快速执行、快速改写、快速补全。这精准切入了现在大多数人用AI的“痒点”：总想着用一个“最强模型”解决所有的事情。但我认为真正重要并且正确的是：让对的模型干对的事。这样无论是速度、成本、还是结果一致性，都更能符合预期。

自从马云重新现身后，蚂蚁集团一直猛冲AI，大动作不断！像是卯足劲在追赶阿里QWEN！最近更是连发两款实用拉满的模型！！！先是百B级的 Ling 2.6 Flash，盲测阶段就冲上 OpenRouter 趋势榜第一，直接火到了海外！！还不算完，Ant Ling 今天又甩出一张底牌： Ling 2.6 1T ！名字就能看得出来，这个模型能力会更强！！但有一个误区：能力强的不一定是思考模型！ Ling 2.6 1T 不靠拉长推理链条来显得"很聪明"，而是把 token 更多花在理解、规划和输出上。换句话来说：它的核心定位，是面向复杂任务，是精准指令下的执行模型！！ 1M 超长上下文，能把会议纪要、群聊记录、项目文档、零散资料一次性扔进去统一处理。强工具调用能力，可以接进 OpenClaw、Hermes、LangGraph、Dify 等跑工作流。真实问题处理，不只生成漂亮 demo，而是能够读懂已有代码，按照你的要求去干活。 Token 效率更高，不默认展开超长思考，成本控制到最低。最近一段时间都是免费用，不用白不用，我拿了几个真实任务跑了一遍，感受超级明显—— 如果是模糊的指令，它可能不太适合。但如果是比较详细的指令，给它一个工作流，就完全起飞了！！没有了推理过程，感觉非常丝滑，这一点，就挺重要的！！减少了很多“AI自作聪明”的麻烦！！说回蚂蚁这两款模型，完全是冲着落地应用来的，几乎把简单和复杂的应用场景全部包圆。 1T 负责理解复杂目标、拆解任务、整理材料、制定计划。 Flash 负责快速执行、快速改写、快速补全。这精准切入了现在大多数人用AI的“痒点”：总想着用一个“最强模型”解决所有的事情。但我认为真正重要并且正确的是：让对的模型干对的事。这样无论是速度、成本、还是结果一致性，都更能符合预期。

沐阳

116,421 Aufrufe • vor 2 Monaten

给大家介绍我压箱底的技巧, 而这个技巧建立在 DeepSeek-R1-0528 之上. 简单来讲, 做视频的时候总需要文本介绍内容, 直接打字太枯燥, 比如这次 DeepSeek-R1-0528 发布, 口播的时候总得给大家看点什么. 这在过去要用 AfterEffects 慢慢做特效, 做个一周都做不完不是什么新鲜事. 而你看到的这个视频片段, 完全是 DeepSeek 生成的, 现在你只需要我这个魔法 prompt: "我想要动态展示 deepseek 新发布的这个模型，请帮我制作一个html页面，所有的代码都放在这个html页面里面，要求有炫酷的动画效果，来展示这次发布内容的重点。你可以参考他们的模型数据划重点: 1. 告诉 DeepSeek 你要炫酷的动画效果, 一定要炫酷! 信我的, 你不用告诉他炫酷是什么, 他比你懂炫酷. 这次的 DeepSeek-R1-0528 感觉针对前端特别训练了, 出来的页面都足够炫酷. 2. 数据可以粘贴到 prompt, 也可以直接放链接. 我这个就是直接用 PPIO 云的 DeepSeek-R1-0528 + 网页搜索功能, 直接粘贴链接就行, 它会自己读取链接. DeepSeek 官网的网页搜索功能炸了后我就一直用这个. 然后, 录屏就行啦! 录屏的视频放到你的剪辑里面. 再也不用 AE 吭哧半天做特效了. 这个真的是屡试不爽. PPIO 云现在注册就能白嫖 token 哈, 可以用我这个链接进, 直接就有: #DeepSeek

给大家介绍我压箱底的技巧, 而这个技巧建立在 DeepSeek-R1-0528 之上. 简单来讲, 做视频的时候总需要文本介绍内容, 直接打字太枯燥, 比如这次 DeepSeek-R1-0528 发布, 口播的时候总得给大家看点什么. 这在过去要用 AfterEffects 慢慢做特效, 做个一周都做不完不是什么新鲜事. 而你看到的这个视频片段, 完全是 DeepSeek 生成的, 现在你只需要我这个魔法 prompt: "我想要动态展示 deepseek 新发布的这个模型，请帮我制作一个html页面，所有的代码都放在这个html页面里面，要求有炫酷的动画效果，来展示这次发布内容的重点。你可以参考他们的模型数据划重点: 1. 告诉 DeepSeek 你要炫酷的动画效果, 一定要炫酷! 信我的, 你不用告诉他炫酷是什么, 他比你懂炫酷. 这次的 DeepSeek-R1-0528 感觉针对前端特别训练了, 出来的页面都足够炫酷. 2. 数据可以粘贴到 prompt, 也可以直接放链接. 我这个就是直接用 PPIO 云的 DeepSeek-R1-0528 + 网页搜索功能, 直接粘贴链接就行, 它会自己读取链接. DeepSeek 官网的网页搜索功能炸了后我就一直用这个. 然后, 录屏就行啦! 录屏的视频放到你的剪辑里面. 再也不用 AE 吭哧半天做特效了. 这个真的是屡试不爽. PPIO 云现在注册就能白嫖 token 哈, 可以用我这个链接进, 直接就有: #DeepSeek

karminski-牙医

18,838 Aufrufe • vor 1 Jahr

兄弟们，DeepSeek V4 Pro在ZenMux上免费放开了，登录就能跑，实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务，效果真的炸裂！说个前情，老朋友都知道我今年Claude被封过一次号，那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷，付费用户说封就封，申诉通道石沉大海，深夜破防一次就够了。从那之后我转战聚合平台，试了一圈最后留在ZenMux，半年用下来没再折腾过。所以这次V4 Pro在ZenMux上免费开放，对我来说不是又一个新模型上线，是我一直在用的平台又多了一张能打的牌，顺手就想推给兄弟们。先说V4 Pro到底值不值得冲，这几天X上吹V4 Pro的推刷屏了，参数跑分价格屠杀，都是同一个模板。但对我这种每个月真金白银付API账单的人来说，跑分都是虚的，能不能替掉我手头项目里的Claude调用才是真问题。免费窗口就是用来验证这件事的，我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏，拿自己项目里最头疼的prompt开跑，三栏并排输出，谁快谁慢谁token烧得少一眼看完。四个场景跑完结论很清晰——日常80%的活V4 Pro能接，便宜到让我下不去手再用Opus，剩下20%极限稳定性的关键链路我还是留给Claude兜底。这就是模型分层，上周讲Ling的时候也提过这个逻辑，2026年不存在一个模型打天下，只存在你工具箱里的模型组合。顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏，三家模型同屏对比这种功能市面上很少有平台做，每次选模型省我一整个下午，比自己写脚本调三家API再人肉对比快十倍。真正让我踏实的是保险赔付机制，模型输出异常或者延时拉胯，平台自动检测并补偿。被Claude封过号之后再看到这个设计，感觉完全不一样，出问题有人兜底，不用再深夜破防。再加上日志、成本、用量、性能四个维度的可观测性做得细，每一笔钱烧在哪、每一次请求卡在哪点开就能看，调prompt和选型的时候非常好使。回到这次的白嫖窗口， DeepSeek V4 Pro和Flash都有免费版，每天有用量限制但够你跑测试。这几天想验证要不要换模型的兄弟，别再刷跑分推了，自己扔几个真实prompt进去跑一遍，十分钟你就知道该不该换，比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

兄弟们，DeepSeek V4 Pro在ZenMux上免费放开了，登录就能跑，实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务，效果真的炸裂！说个前情，老朋友都知道我今年Claude被封过一次号，那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷，付费用户说封就封，申诉通道石沉大海，深夜破防一次就够了。从那之后我转战聚合平台，试了一圈最后留在ZenMux，半年用下来没再折腾过。所以这次V4 Pro在ZenMux上免费开放，对我来说不是又一个新模型上线，是我一直在用的平台又多了一张能打的牌，顺手就想推给兄弟们。先说V4 Pro到底值不值得冲，这几天X上吹V4 Pro的推刷屏了，参数跑分价格屠杀，都是同一个模板。但对我这种每个月真金白银付API账单的人来说，跑分都是虚的，能不能替掉我手头项目里的Claude调用才是真问题。免费窗口就是用来验证这件事的，我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏，拿自己项目里最头疼的prompt开跑，三栏并排输出，谁快谁慢谁token烧得少一眼看完。四个场景跑完结论很清晰——日常80%的活V4 Pro能接，便宜到让我下不去手再用Opus，剩下20%极限稳定性的关键链路我还是留给Claude兜底。这就是模型分层，上周讲Ling的时候也提过这个逻辑，2026年不存在一个模型打天下，只存在你工具箱里的模型组合。顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏，三家模型同屏对比这种功能市面上很少有平台做，每次选模型省我一整个下午，比自己写脚本调三家API再人肉对比快十倍。真正让我踏实的是保险赔付机制，模型输出异常或者延时拉胯，平台自动检测并补偿。被Claude封过号之后再看到这个设计，感觉完全不一样，出问题有人兜底，不用再深夜破防。再加上日志、成本、用量、性能四个维度的可观测性做得细，每一笔钱烧在哪、每一次请求卡在哪点开就能看，调prompt和选型的时候非常好使。回到这次的白嫖窗口， DeepSeek V4 Pro和Flash都有免费版，每天有用量限制但够你跑测试。这几天想验证要不要换模型的兄弟，别再刷跑分推了，自己扔几个真实prompt进去跑一遍，十分钟你就知道该不该换，比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

AYi

132,063 Aufrufe • vor 2 Monaten

太硬核了！英伟达黄仁勋撕穿了传统计算机科学的底层逻辑：云计算的“按需触发”时代已经彻底终结，未来的AI智能体是永远在线的“永动机”！别再把大模型当成简单的文字接龙了。老黄一针见血：大模型生成内部 token 进行逻辑推演，叫思考；生成外部 token 去调用各种接口，就叫使用工具。这就是为什么像 Claude Code 或 DeepSeek V4 这种新生代智能体，能切入硬核的开发工作流，甚至能全自动帮你排查 Python 异步网关里 aiohttp 的并发报错！最恐怖的颠覆在于运行模式。以前我们写代码，不管是跑在 MacBook Pro 上的本地脚本，还是云端微服务，全都是按需调用——你不戳它，它就不动。但现在的 Agent 系统是连续不断运行的。它们在后台全天候感知、推演、自我迭代和执行任务。这根本不是工具的升级，而是整个计算范式的跨代重构！搞懂这种从被动按需到全自动连续运行的跃迁，你才会真正明白，为什么未来所有的云服务和软件架构都面临着被彻底推倒重来的命运。

太硬核了！英伟达黄仁勋撕穿了传统计算机科学的底层逻辑：云计算的“按需触发”时代已经彻底终结，未来的AI智能体是永远在线的“永动机”！别再把大模型当成简单的文字接龙了。老黄一针见血：大模型生成内部 token 进行逻辑推演，叫思考；生成外部 token 去调用各种接口，就叫使用工具。这就是为什么像 Claude Code 或 DeepSeek V4 这种新生代智能体，能切入硬核的开发工作流，甚至能全自动帮你排查 Python 异步网关里 aiohttp 的并发报错！最恐怖的颠覆在于运行模式。以前我们写代码，不管是跑在 MacBook Pro 上的本地脚本，还是云端微服务，全都是按需调用——你不戳它，它就不动。但现在的 Agent 系统是连续不断运行的。它们在后台全天候感知、推演、自我迭代和执行任务。这根本不是工具的升级，而是整个计算范式的跨代重构！搞懂这种从被动按需到全自动连续运行的跃迁，你才会真正明白，为什么未来所有的云服务和软件架构都面临着被彻底推倒重来的命运。

比特币橙子Trader

69,195 Aufrufe • vor 1 Monat

星爷讽刺了世间一切，唯独没有讽刺爱情，: 原来是如此的隐喻，到现在才明白，感谢星爷，只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

星爷讽刺了世间一切，唯独没有讽刺爱情，: 原来是如此的隐喻，到现在才明白，感谢星爷，只是我们弄脏了爱情。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。懂你意思了，这版我会刻意留下不完美、主观判断和情绪停顿，像是你自己琢磨出来的，而不是“写给别人看的技术解读”。 —— 我之前一直对 zkML 有点矛盾。逻辑上它很美：模型是对的，而且你还能证明它是对的。但每次真去看实现，基本都会卡在同一个地方——跑不起来。不是“慢一点”，而是那种一看资源占用就知道不可能进生产的跑不起来。模型稍微大点，电路直接失控，内存、时间全都爆表，最后只能留在论文和 demo 里自嗨。所以我第一次认真看 Inference Labs 的时候，关注点反而不在“zk”，而在他们是不是愿意承认：这玩意本质是工程问题。 DSperse 给我的感觉，就是终于有人不再执念“一次性证明整个模型”。模型切开、并行跑、只验证关键路径，听起来很朴素，但恰恰是工程师会选的路。不是最优雅，但能活。 JSTprove 则更现实。你不需要懂零知识、也不用研究电路怎么写，把 ONNX 模型丢进去，能转、能跑、能验，这点其实比很多“性能提升 10%”更重要。这两块拼在一起之后，zkML 才第一次让我觉得：它不是在证明“我可以”，而是在回答“你要不要真用”。对我来说，zkML 的拐点从来不是密码学突破，而是有没有人愿意为“跑得起来”妥协设计。 Inference Labs 看起来，至少选了这一边。#KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

35,879 Aufrufe • vor 6 Monaten