Loading video...

Video Failed to Load

There was a problem loading this video. This could be due to a temporary network issue or the video might be unavailable.

OpenAI没选NVIDIA。 Sam Altman亲手选了AMD，用来做AI推理。他和苏姿丰一起，从头参与了MI450芯片的设计。这不是合作，这是共建。 MI450最大优势是啥？推理效率，特别是大模型低功耗推理。你以为GPU只卷训练？2024之后，比的是谁能推得更省、更快、更稳。 OpenAI已经开始在MI300X运行模型了，MI450只是更激进的延续。接下来的大模型，不一定长在N卡上。

墓碑科技

23,817 subscribers

107,298 views • 9 months ago •via X (Twitter)

Science & Technology News & Politics

Anya Rossi• Live Now

Private livecam show

0 Comments

No comments available

Comments from the original post will appear here

Related Videos

未来 AI 工作流的编排会不会交给 AI 做会更好？我觉得在大量 C 端场景下会是这样的。随着模型推理能力的提升，人在搭建工作流上的优势会越来越小。录了一个 Oracle 实机 Demo，演示下它是怎样自主设计、搭建和执行 AI 工作流的。

未来 AI 工作流的编排会不会交给 AI 做会更好？我觉得在大量 C 端场景下会是这样的。随着模型推理能力的提升，人在搭建工作流上的优势会越来越小。录了一个 Oracle 实机 Demo，演示下它是怎样自主设计、搭建和执行 AI 工作流的。

Derek Nee

11,934 views • 1 year ago

Anthropic CEO Dario谈开源模型： - 大模型开放权重不同于软件开源，不存在开发者社区的反向贡献。 - 开源只是吸引注意力的幌子，用户只关心这个模型是否好用。Deepseek开源与否都无所谓，作为一个超大模型，推理起来很困难。 - 开源并不等于免费，推理服务器运行，是有成本的。

Anthropic CEO Dario谈开源模型： - 大模型开放权重不同于软件开源，不存在开发者社区的反向贡献。 - 开源只是吸引注意力的幌子，用户只关心这个模型是否好用。Deepseek开源与否都无所谓，作为一个超大模型，推理起来很困难。 - 开源并不等于免费，推理服务器运行，是有成本的。

高级分析师

1,483,571 views • 9 months ago

李彦宏：开源模型是智商税，闭源模型更强大，推理成本更低 7月5日，2024世界人工智能大会（WAIC 2024）期间，百度创始人、董事长兼首席执行官李彦宏接受采访时表示，开源其实是一种智商税。“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”

李彦宏：开源模型是智商税，闭源模型更强大，推理成本更低 7月5日，2024世界人工智能大会（WAIC 2024）期间，百度创始人、董事长兼首席执行官李彦宏接受采访时表示，开源其实是一种智商税。“当你理性地去想，大模型能够带来什么价值，以什么样的成本带来价值的时候，就会发现，你永远应该选择闭源模型。今天无论是ChatGPT、还是文心一言等闭源模型，一定比开源模型更强大，推理成本更低。”

宝玉

77,114 views • 2 years ago

白宫加密政策主管David Sacks：四年内AI 大模型能力将增长一百万倍！ “我认为目前至少在三个关键维度上，进步的速度都是指数级的。” “首先是算法本身。模型每年提升的速度大概是 3-4 倍。” “它们不仅仅是在速度和性能上更快更好，而且将从量变到质变。” “接着是推理模型。” “我们甚至还没有真正进入智能代理时代，但这将是继推理模型之后的下一个重大飞跃。” “在这个领域，我们才刚刚开始（推理算力增加带来的能力增加也将是倍数增长）。” “接下来是芯片。” “根据多种衡量标准，每一代芯片的性能可能比上一代提高 3-4 倍。” “不只是单个芯片在不断进步，他们还在研究如何将这些芯片联网在一起。” “就像 NVL72 系统，它类似于一个机架系统，可以在数据中心级别大幅提升性能。” “计算能力是第三个你会看到基本上呈指数级进步的领域。” “只需要看看数据中心中部署的 GPU 数量。” “当马斯克最初开始训练 Grok 时，我认为他们大概有 10 万块 GPU。现在已经有 30 万块 GPU，而且正朝着百万块 GPU的目标迈进。OpenAI 的数据中心 Stargate 也是同样的情况。” “在接下来的几年中，他们可能会发展到 500 万、1000 万块 GPU。” 1,000,000 倍的增长是怎么得出的： “算法、芯片和数据中心的扩展和改进速度都是每年 3-4 倍。” “也就是说，每两年进步 10 倍。” “很多人没有理解指数级进步的含义：如果每两年提升 10 倍，并不意味着四年后你只是提升 20 倍。” “这实际上意味着提升 100 倍。” “把这些因素相乘：算法、芯片，以及可用于 AI 的原始计算能力。” 100 倍模型 🧠 × 100 倍芯片 💾 × 100 倍计算能力 ⚡️ = 1,000,000 倍的 AI 大模型🤖 “你所谈论的就是 1,000,000 倍的能力增长。” “但这种变革的影响将是绝对巨大的。” “我觉得人们还没有充分认识到这一点，因为他们不了解指数级进步的意义。”

白宫加密政策主管David Sacks：四年内AI 大模型能力将增长一百万倍！ “我认为目前至少在三个关键维度上，进步的速度都是指数级的。” “首先是算法本身。模型每年提升的速度大概是 3-4 倍。” “它们不仅仅是在速度和性能上更快更好，而且将从量变到质变。” “接着是推理模型。” “我们甚至还没有真正进入智能代理时代，但这将是继推理模型之后的下一个重大飞跃。” “在这个领域，我们才刚刚开始（推理算力增加带来的能力增加也将是倍数增长）。” “接下来是芯片。” “根据多种衡量标准，每一代芯片的性能可能比上一代提高 3-4 倍。” “不只是单个芯片在不断进步，他们还在研究如何将这些芯片联网在一起。” “就像 NVL72 系统，它类似于一个机架系统，可以在数据中心级别大幅提升性能。” “计算能力是第三个你会看到基本上呈指数级进步的领域。” “只需要看看数据中心中部署的 GPU 数量。” “当马斯克最初开始训练 Grok 时，我认为他们大概有 10 万块 GPU。现在已经有 30 万块 GPU，而且正朝着百万块 GPU的目标迈进。OpenAI 的数据中心 Stargate 也是同样的情况。” “在接下来的几年中，他们可能会发展到 500 万、1000 万块 GPU。” 1,000,000 倍的增长是怎么得出的： “算法、芯片和数据中心的扩展和改进速度都是每年 3-4 倍。” “也就是说，每两年进步 10 倍。” “很多人没有理解指数级进步的含义：如果每两年提升 10 倍，并不意味着四年后你只是提升 20 倍。” “这实际上意味着提升 100 倍。” “把这些因素相乘：算法、芯片，以及可用于 AI 的原始计算能力。” 100 倍模型 🧠 × 100 倍芯片 💾 × 100 倍计算能力 ⚡️ = 1,000,000 倍的 AI 大模型🤖 “你所谈论的就是 1,000,000 倍的能力增长。” “但这种变革的影响将是绝对巨大的。” “我觉得人们还没有充分认识到这一点，因为他们不了解指数级进步的意义。”

夜谈

25,895 views • 1 year ago

拔掉网线，全程断网单机运行 2000 亿参数的 AI 模型。跑这套系统的设备有多大？一只手就能稳稳托住。 AMD 拿出了目前全球最小的 AI 开发系统。苏姿丰直接把这台主机端了出来。里面塞进了他们最高端的 Ryzen AI Max 处理器。搭配的是 128GB 高速统一内存。算力能装进巴掌大小的空间，靠的是底层架构设计。这 128GB 内存由 CPU、GPU 和 NPU 三方直接共享。省去了数据在不同模块间来回搬运的损耗。系统整体性能被大幅拉升。硬生生把跑大型 AI 模型的算力，压缩进了一台微型桌面台式机里。大模型的硬件门槛正在被物理击穿。跑千亿参数模型曾经必须依赖庞大的云端机房。现在直接变成了摆在桌面上的一台离线私有设备。

拔掉网线，全程断网单机运行 2000 亿参数的 AI 模型。跑这套系统的设备有多大？一只手就能稳稳托住。 AMD 拿出了目前全球最小的 AI 开发系统。苏姿丰直接把这台主机端了出来。里面塞进了他们最高端的 Ryzen AI Max 处理器。搭配的是 128GB 高速统一内存。算力能装进巴掌大小的空间，靠的是底层架构设计。这 128GB 内存由 CPU、GPU 和 NPU 三方直接共享。省去了数据在不同模块间来回搬运的损耗。系统整体性能被大幅拉升。硬生生把跑大型 AI 模型的算力，压缩进了一台微型桌面台式机里。大模型的硬件门槛正在被物理击穿。跑千亿参数模型曾经必须依赖庞大的云端机房。现在直接变成了摆在桌面上的一台离线私有设备。

墓碑科技

32,167 views • 1 month ago

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

indigo

183,903 views • 2 years ago

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

单卡 700TPS! Diffusion Gemma 来了! Google 刚刚发布了 Gemma 小模型的 Diffusion 版本! 大小26B, 激活参数量4B, 最重要的是, 这次还跟 NVIDIA 合作针对4090和5090优化了一波, 5090每秒能生成700+token! 给不知道什么是 Diffusion 大模型的同学科普一下, 传统大模型都是一个字一个字吐出来的, 而 Diffusion 大模型则是如同刮奖一样, 是一片一片出来的, 速度高是 Diffusion 大模型的优点. 有得必有失, 缺点当然就是输出质量没有传统大模型好了. 不过这次的 Diffusion Gemma 还是比之前的 Diffusion 文本大模型好不少, AIME 2026(数学能力测试) 能达到 Gemma4-26B-A4B 的94%的水平, 最差的是tau2 bench(考验Agent能力的测试), 也能达到82%. 这个模型大小 4bit 量化版本 16G 显存就能运行了, 另外, 我突发奇想, 这个模型能不能作为 gemma4 dense 模型的草稿模型用来投机解码? 感兴趣的同学可以试试! #diffusiongemma #gemma #gemma4 #google

karminski-牙医

12,374 views • 23 days ago

OpenWebUI 绝对是这几个本地大模型推理界面可视化做得最好的。他们刚刚又发布了一个推理 token 路径可视化 Narrative Beam Search，会生成n个可选路径，并演示从中选择一个。可以基于系统提示词选择不同的路径。看上去十分炫酷。给没用过 OpenWwebUI 的同学，OpenWebUI 类似 Ollama，都是一个包含了推理引擎和界面以及 MCPServer 的大模型前端框架，算是一个 All-in-one 的大模型平台，下载后点击即可自动下载你需要的大模型并使用。 OpenWebUI 地址：

OpenWebUI 绝对是这几个本地大模型推理界面可视化做得最好的。他们刚刚又发布了一个推理 token 路径可视化 Narrative Beam Search，会生成n个可选路径，并演示从中选择一个。可以基于系统提示词选择不同的路径。看上去十分炫酷。给没用过 OpenWwebUI 的同学，OpenWebUI 类似 Ollama，都是一个包含了推理引擎和界面以及 MCPServer 的大模型前端框架，算是一个 All-in-one 的大模型平台，下载后点击即可自动下载你需要的大模型并使用。 OpenWebUI 地址：

karminski-牙医

19,082 views • 1 year ago

Dario Amodei 这段谈 AI 竞争，信息量挺大。很多人以为中国开源模型追上来以后，前沿模型公司的护城河就没了。但 Dario 的判断刚好相反：在 AI 里，真正的护城河不是开不开源，也不是谁模型更多。而是 intelligence 本身。他说得很直白：大家不会为了便宜一点、开放一点，就长期接受“没那么聪明”的模型。只要前沿模型每年还在 10 倍级别增长，领先者和追赶者之间就不是差一点，而是可能差一个时代。

Dario Amodei 这段谈 AI 竞争，信息量挺大。很多人以为中国开源模型追上来以后，前沿模型公司的护城河就没了。但 Dario 的判断刚好相反：在 AI 里，真正的护城河不是开不开源，也不是谁模型更多。而是 intelligence 本身。他说得很直白：大家不会为了便宜一点、开放一点，就长期接受“没那么聪明”的模型。只要前沿模型每年还在 10 倍级别增长，领先者和追赶者之间就不是差一点，而是可能差一个时代。

Vincent

72,990 views • 15 days ago

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 views • 6 months ago

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

karminski-牙医

21,719 views • 8 months ago

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

每个人都能买得起英伟达发布个人AI超级计算机，能运行2000亿参数的大模型。 NVIDIA 今天在CES 2025大会上发布了 NVIDIA Project DIGITS，这是一款能放在你桌面上的个人AI超级计算机。将传统上需要大型数据中心才能完成的 AI 计算，带到每个人的桌面。‘ Project DIGITS 采用全新的 NVIDIA GB10 Grace Blackwell Superchip，能够提供 1 PFLOP（每秒一千万亿次浮点运算）的AI计算性能。设计目的用于原型开发、微调以及运行大型AI模型，使用户能够在本地桌面系统上开发和运行推理模型，然后无缝部署到云或数据中心也就是它能在你的本地就能运行超大的AI模型，能够运行高达 2000亿参数的大语言模型。通过 NVIDIA ConnectX 网络，两台 Project DIGITS 超级计算机连接起来，可以运行 4050亿参数模型。而且支持在本地电脑上开发和测试AI模型，然后快速部署到云端或数据中心。简单来说，它就像是给每个开发者配了一台袖珍的AI超级计算机！

小互

85,697 views • 1 year ago

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

AI界大佬李飞飞眼光和远见是真的超前啊！直言：“空间智能是人工智能的下一个前沿” 在11个月年YC 的访谈中李飞飞 Fei-Fei Li ： “世界模型要超越平面像素、超越语言，真正捕捉3D结构和空间智能。” 这句话和因果世界模型简直是天作之合。杨立昆、李飞飞这些人在推的世界模型，本质上都在往“真正理解物理世界”这个方向走。但光有3D结构和空间智能还不够，如果模型只学会了相关性，桌子高了2cm还是会直接翻车。 Aether AI的因果世界模型正好补上了这一块：不只是看到“手伸过去物体掉下来”，而是理解“为什么掉、怎样才能不掉”。因果结构让世界模型从“看起来像”进化到“真正懂”。现在两条路线在同时推进：一条是让世界模型拥有更强的3D和空间表征，另一条是给它装上因果推理引擎。两者结合之后，物理AI才有可能从“会模仿”变成“会思考”。这波理念上的对齐，感觉具身智能的下一个范式已经在慢慢成形了。原访谈完整版地址见评论区👇🏻

Berryxia.AI

20,393 views • 17 days ago

今天好郁闷，发生了一点不愉快的事情！人生第一次为了自己的愚蠢进了叔所！期待明天的好结果！！！ ⸻ AI 的下一关，不在能力，而在可被证明在模型规模不断被刷新纪录的阶段，有一个问题始终被刻意回避： AI 的结论，是否真的来自它声称的计算过程？ Inference Labs 选择从这个问题切入。他们关注的不是模型性能，而是推理行为本身是否可信、是否可复现、是否可审计。 Proof of Inference 的意义，在于把“我相信模型没问题”变成“模型必须给出证明”。通过零知识证明，系统可以在不暴露模型结构和参数的前提下，确认一次推理： •确实由指定模型完成 •计算过程未被替换或篡改 •输出结果与真实推理一致这不是提高透明度，而是引入约束。在工程层面，DSperse 做的事情同样关键。它把原本高度定制化、专家依赖的 zkML 开发流程，拆解为可复用组件，使“可验证 AI”从研究范畴，进入实际应用范畴。否则，再正确的理念也只能停留在白皮书。目前，可验证推理在性能上的代价仍然明显，但这更像早期加密系统的计算成本问题，而不是路线错误。融资的用途，也正是针对这一层进行系统级优化。如果说过去的 AI 竞争是“谁能算得更快”，接下来的竞争，很可能是：谁的推理能被证明、被追溯、被承担责任。 Inference Labs 所搭建的，不是价值观，而是一层让 AI 输出进入现实系统所必需的验证基础设施。 #KaitoYap Kaito AI 🌊 #Yap Inference Labs

今天好郁闷，发生了一点不愉快的事情！人生第一次为了自己的愚蠢进了叔所！期待明天的好结果！！！ ⸻ AI 的下一关，不在能力，而在可被证明在模型规模不断被刷新纪录的阶段，有一个问题始终被刻意回避： AI 的结论，是否真的来自它声称的计算过程？ Inference Labs 选择从这个问题切入。他们关注的不是模型性能，而是推理行为本身是否可信、是否可复现、是否可审计。 Proof of Inference 的意义，在于把“我相信模型没问题”变成“模型必须给出证明”。通过零知识证明，系统可以在不暴露模型结构和参数的前提下，确认一次推理： •确实由指定模型完成 •计算过程未被替换或篡改 •输出结果与真实推理一致这不是提高透明度，而是引入约束。在工程层面，DSperse 做的事情同样关键。它把原本高度定制化、专家依赖的 zkML 开发流程，拆解为可复用组件，使“可验证 AI”从研究范畴，进入实际应用范畴。否则，再正确的理念也只能停留在白皮书。目前，可验证推理在性能上的代价仍然明显，但这更像早期加密系统的计算成本问题，而不是路线错误。融资的用途，也正是针对这一层进行系统级优化。如果说过去的 AI 竞争是“谁能算得更快”，接下来的竞争，很可能是：谁的推理能被证明、被追溯、被承担责任。 Inference Labs 所搭建的，不是价值观，而是一层让 AI 输出进入现实系统所必需的验证基础设施。 #KaitoYap Kaito AI 🌊 #Yap Inference Labs

董小姐

303,504 views • 5 months ago

日常Token消耗量比较大的推友，不妨试用一下蚂蚁百灵大模型Ring-2.6-1T 。百灵大模型Ring-2.6-1T是蚂蚁集团推出的开源万亿参数量级思考模型，采用 MoE（混合专家）架构，单次推理激活约 63B 参数。它面向真实的 Agent 工作流，主打一个真能干活和性价比高！ Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是我自己正在试用，感觉无论是AI Coding还是日常办公，都很不错；关键是免费使用一周和超高的性价比直接缓解了我的token慌！与其被Claude和Codex封号、限额而被搞得焦头烂额，何必不试用一下同样很能干活、而且且性价比更高的模型呢？主要是最近还是免费使用，何乐而不为？

日常Token消耗量比较大的推友，不妨试用一下蚂蚁百灵大模型Ring-2.6-1T 。百灵大模型Ring-2.6-1T是蚂蚁集团推出的开源万亿参数量级思考模型，采用 MoE（混合专家）架构，单次推理激活约 63B 参数。它面向真实的 Agent 工作流，主打一个真能干活和性价比高！ Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是我自己正在试用，感觉无论是AI Coding还是日常办公，都很不错；关键是免费使用一周和超高的性价比直接缓解了我的token慌！与其被Claude和Codex封号、限额而被搞得焦头烂额，何必不试用一下同样很能干活、而且且性价比更高的模型呢？主要是最近还是免费使用，何乐而不为？

马识途

13,821 views • 1 month ago

吴恩达开发出一种: 智能体物体检测模型 Agentic Object Detection 无需任何数据标注和模型训练，模型仅通过推理就能在图像中检测到目标物体并进行标记。你只需提供一个提示（如“找出未成熟的草莓”），AI代理会进行推理后给出准确的检测结果。类似于OpenAI的O1和DeepSeek R1的推理能力，不过花费时间会长一点，但是准确率更高。

吴恩达开发出一种: 智能体物体检测模型 Agentic Object Detection 无需任何数据标注和模型训练，模型仅通过推理就能在图像中检测到目标物体并进行标记。你只需提供一个提示（如“找出未成熟的草莓”），AI代理会进行推理后给出准确的检测结果。类似于OpenAI的O1和DeepSeek R1的推理能力，不过花费时间会长一点，但是准确率更高。

小互

52,203 views • 1 year ago

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

Mininglamp-AI Mininglamp（2718.HK）开源了两个很有意思的项目： Cider 和 Mano-P 一个解决“Mac 本地跑 AI 怎么更快” 一个解决“AI 怎么真正操作电脑” 可以让你的 Mac 不只是运行 AI，而是成为本地 AI 工作站很多人用 Mac 跑本地模型，会遇到一个问题：芯片很强，但模型跑起来没有想象中那么快 Cider 做的事情，就是把 M5 芯片里的 INT8 TensorOps 更充分用起来，让 LLM / VLM 推理更快、更省内存 Mano-P 则是一个 GUI-VLA Agent，面向端侧设备，可以在 Mac mini / MacBook 上本地推理它不是只能操作浏览器，还能操作桌面软件、网页界面、专业工具和复杂图形化工作流支持复杂 GUI 自动化、跨系统数据整合、长任务规划执行、智能报告生成、自主应用构建技术路径是纯视觉 GUI 操作，截图和任务数据可以不出设备 Cider 解决的是： Mac 本地模型怎么跑得更快、更省内存 Mano-P 解决的是： AI 怎么像人一样看屏幕、操作电脑、完成任务一个是端侧推理加速框架一个是端侧 GUI Agent 模型合起来，就是一套私有 AI 的本地基础设施下面是 Mano-P系统在麻将游戏中的应用：通过纯视觉理解游戏界面，自主完成识牌、分析和决策。

小互

12,114 views • 2 months ago

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

46,883 views • 1 month ago