Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

卧槽，答案终于揭晓了！那个在open router上持续霸榜的神秘模型，是阿里推出的全新大模型“蚂蚁百灵”！今天我们来深度聊一聊这个模型。用过AI来完成前端开发的朋友肯定懂：要让AI做出想要的UI总是要找参考，再不然就是要依赖设计 skill 的帮助。但这种界面一旦看多了，就会陷入审美疲劳。原因在于不管你是对标UI还是使用skill，结果都是被限定在固有的生成范围内。最近小灰测了新模型 Ling-2.6-1T （由蚂蚁集团 Ant Ling 开发），发现它刚好就能打破这个限制。它生成的页面不仅审美极度在线，而且自带高质量的交互效果，做出来的东西终于不再是干巴巴的呆板网页了。但用它有个必须要避开的坑：Ling 2.6 1T 默认是没有深度思考模式的。它在计算资源分配上极其克制，如果你偷懒丢一句"给我写个好看的界面"，那么它大概率会给你一个准确但极其敷衍的结果。(视频1) 那么怎么取巧使用它？小灰分享一个能逼出它真实设计水平的实操工作流：把它当成主规划师，先拆解风格，再写代码。跟它对话时，你可以直接下这种指令： 1. 强制思考：先别急着写代码！帮我分析这个产品的定位，明确它的视觉情绪、色彩规范和排版布局，把思路列出来。（比如明确告诉它你要包豪斯风格或者北欧风）。 2. 落地执行：等它把设计语言梳理清楚，你确认没问题了，再让它基于这套标准去生成具体的 TailwindCSS 样式和前端页面。用这种先 Plan 后做的方式，出来的页面不仅美观，而且风格极其统一。（视频2）目前在Openrouter中可以免费体验该模型。选对工具打破模板限制，用高审美的模型直接拔高视觉质感，能帮我们省下大把死磕 CSS 的时间。期待大家都能快速做出让人眼前一亮的作品！

程序员小灰

16,224 subscribers

15,021 Aufrufe • vor 2 Monaten •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

今天在Producthunt发现一个AI模型Kombai，可以理解Figma的界面设计并生成对应的前端代码，下面是他们官网的演示视频。从演示来看生成的代码还是不错的，它的优势在于他不要求设计稿的格式、层级和是否使用组件，无论你怎么嵌套和画出的界面它都能理解。这比之前通过传统工程化思路从设计稿生成代码要强多了。之前的一些工具要不是处理不了复杂样式，要不就是对设计师的设计稿格式有非常严格的要求。同时这个模型也支持通过自然语言生成前端界面的代码。官网链接：

今天在Producthunt发现一个AI模型Kombai，可以理解Figma的界面设计并生成对应的前端代码，下面是他们官网的演示视频。从演示来看生成的代码还是不错的，它的优势在于他不要求设计稿的格式、层级和是否使用组件，无论你怎么嵌套和画出的界面它都能理解。这比之前通过传统工程化思路从设计稿生成代码要强多了。之前的一些工具要不是处理不了复杂样式，要不就是对设计师的设计稿格式有非常严格的要求。同时这个模型也支持通过自然语言生成前端界面的代码。官网链接：

歸藏(guizang.ai)

78,671 Aufrufe • vor 2 Jahren

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

墓碑科技

73,491 Aufrufe • vor 6 Monaten

【Manus季逸超：六个月后，基本每一家头部的应用公司都有做模型的能力】最近看了Manus联合创始人季逸超的访谈，很多人诟病 Manus 早期没有自己的模型、只是个套壳，但看完视频就会发现，Manus的逻辑是有道理的。一般的思维模式是先练模型（鸡），再顺便出个产品（蛋），这叫“沿途下蛋”。但这种方式是以模型为中心的，它的风险在于，蛋的形状取决于鸡能生出什么。模型能做到哪，产品才能做到哪，产品只能迁就技术。 Manus的路子是以产品为中心“借鸡生蛋”：早期直接用现成的模型。别管鸡是谁的，先让产品跑起来，看用户愿不愿意买单，找到PMF。等产品逻辑通了、用户量大了，发现现有的模型太贵、太慢、或者不够适配，再反过来去倒逼技术，优化出一种特定的模型。以Cursor为例，它一开始就是个代码编辑器，接入的是别人的接口。但等到它成为程序员的刚需后，为了追求极致的速度和更准的代码逻辑，它才跳出来做了自研模型。说到底是应用先于模型，需求定义底座。

【Manus季逸超：六个月后，基本每一家头部的应用公司都有做模型的能力】最近看了Manus联合创始人季逸超的访谈，很多人诟病 Manus 早期没有自己的模型、只是个套壳，但看完视频就会发现，Manus的逻辑是有道理的。一般的思维模式是先练模型（鸡），再顺便出个产品（蛋），这叫“沿途下蛋”。但这种方式是以模型为中心的，它的风险在于，蛋的形状取决于鸡能生出什么。模型能做到哪，产品才能做到哪，产品只能迁就技术。 Manus的路子是以产品为中心“借鸡生蛋”：早期直接用现成的模型。别管鸡是谁的，先让产品跑起来，看用户愿不愿意买单，找到PMF。等产品逻辑通了、用户量大了，发现现有的模型太贵、太慢、或者不够适配，再反过来去倒逼技术，优化出一种特定的模型。以Cursor为例，它一开始就是个代码编辑器，接入的是别人的接口。但等到它成为程序员的刚需后，为了追求极致的速度和更准的代码逻辑，它才跳出来做了自研模型。说到底是应用先于模型，需求定义底座。

傅盛

89,082 Aufrufe • vor 5 Monaten

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 7 Monaten

Ring-2.6-1T 开源了。我最近试下来，这个模型各方面的能力都很不错，但最喜欢的一点，是它在前端 Web 页面上的审美和交互能力真的很强。我随手让它做了一个宠物零食独立站前端，提示词其实没写多细，也没给什么复杂设计规范。结果出来之后有点惊喜：页面不是那种常见的 AI 模板感，而是真的像一个可以上线预览的品牌站。它会自己理解“宠物零食”应该是什么气质：干净、温暖、有食欲，但又不是一味可爱。产品展示、视觉层级、按钮状态、动效节奏、页面留白，都处理得很完整。尤其是交互，不是静态摆拍，而是有浏览、有筛选、有点击反馈，像一个真正给用户逛的站。这也是我觉得 Ring-2.6-1T 很不一样的地方。很多模型能写页面，但写出来像“代码完成了”。Ring-2.6-1T 更像是知道一个网页应该如何被观看、被点击、被感知。它懂风格，懂交互，也懂怎么把第一版里不顺的地方继续修到更自然。所以如果你要做高质感展示页、品牌概念站、数据可视化页面，或者 creative coding 演示，我觉得它很值得试。不是因为它能写 HTML。而是它真的能把一个很粗的想法，推成一个有审美、有质感、有交互的前端作品，还很快。我把 Ring-2.6-1T制作过程放评论区了，全程没加速。

Ring-2.6-1T 开源了。我最近试下来，这个模型各方面的能力都很不错，但最喜欢的一点，是它在前端 Web 页面上的审美和交互能力真的很强。我随手让它做了一个宠物零食独立站前端，提示词其实没写多细，也没给什么复杂设计规范。结果出来之后有点惊喜：页面不是那种常见的 AI 模板感，而是真的像一个可以上线预览的品牌站。它会自己理解“宠物零食”应该是什么气质：干净、温暖、有食欲，但又不是一味可爱。产品展示、视觉层级、按钮状态、动效节奏、页面留白，都处理得很完整。尤其是交互，不是静态摆拍，而是有浏览、有筛选、有点击反馈，像一个真正给用户逛的站。这也是我觉得 Ring-2.6-1T 很不一样的地方。很多模型能写页面，但写出来像“代码完成了”。Ring-2.6-1T 更像是知道一个网页应该如何被观看、被点击、被感知。它懂风格，懂交互，也懂怎么把第一版里不顺的地方继续修到更自然。所以如果你要做高质感展示页、品牌概念站、数据可视化页面，或者 creative coding 演示，我觉得它很值得试。不是因为它能写 HTML。而是它真的能把一个很粗的想法，推成一个有审美、有质感、有交互的前端作品，还很快。我把 Ring-2.6-1T制作过程放评论区了，全程没加速。

阿川 | AI thinking

15,174 Aufrufe • vor 1 Monat

看到大家玩的蛮开心，之前的功能我决定全部免费开放，不用再问我要License了。同时，DrawingPics发布正式版了，License购买作为了可选项，这次更新带来的两个新模型，作为License激活用户的特权。这次更新的效果是，不需要什么机器代价的情况下，你们可以画的更准，和图像质量更高。直观展示请看视频。关于这两个模型具体细节： 1 精准画图模型：类似controlnet，这个模型下你画的线条它都会去感知到。另外它只需要额外多下载300M。运行时内存也有优化。 2更高质量的模型：这个是SDXL的社区改良版，比SDXL体积更小速度更快，适合我们这种场景跑。SDXL主要特色是具有照片真实感，景深比较强。它也同样拥有这个优点。但低分辨率下跑不出来效果。缺点是它要多下载4-6GB，而且占用内存比较高。 3一开始的画图模型，没有动它：我发现了它的优点，就是图生图的理解能力蛮强的，只要写简单的prompt就能懂，虽然没有SDXL那么“高质量”真实感，但是似乎更“聪明”“灵活”，而且快。这就是目前三个主要的画图模式，都在最新的 DrawingPics1.0.1 版本中发了，只需要下载安装，就可以在你自己的电脑上无限出图了！

看到大家玩的蛮开心，之前的功能我决定全部免费开放，不用再问我要License了。同时，DrawingPics发布正式版了，License购买作为了可选项，这次更新带来的两个新模型，作为License激活用户的特权。这次更新的效果是，不需要什么机器代价的情况下，你们可以画的更准，和图像质量更高。直观展示请看视频。关于这两个模型具体细节： 1 精准画图模型：类似controlnet，这个模型下你画的线条它都会去感知到。另外它只需要额外多下载300M。运行时内存也有优化。 2更高质量的模型：这个是SDXL的社区改良版，比SDXL体积更小速度更快，适合我们这种场景跑。SDXL主要特色是具有照片真实感，景深比较强。它也同样拥有这个优点。但低分辨率下跑不出来效果。缺点是它要多下载4-6GB，而且占用内存比较高。 3一开始的画图模型，没有动它：我发现了它的优点，就是图生图的理解能力蛮强的，只要写简单的prompt就能懂，虽然没有SDXL那么“高质量”真实感，但是似乎更“聪明”“灵活”，而且快。这就是目前三个主要的画图模式，都在最新的 DrawingPics1.0.1 版本中发了，只需要下载安装，就可以在你自己的电脑上无限出图了！

Xiao Tan

116,792 Aufrufe • vor 2 Jahren

熟悉Prompt的同学们应该都知道，通常在写Prompt的时候要先设定角色：“你是XX方面的专家”，这并非玄学，而是有科学根据的。 GPT在训练的时候，有各种训练数据，有的质量高有的质量低，而默认情况下，生成高质量数据和低质量数据的概率差不多，但是当你给它设定XX专家的角色时，它会尽可能把概率分布在高质量的解决方案上。详细内容建议看下面这段Andrej Karpathy在State of GPT中的一段演讲。以下是这段视频的文字文字内容： ---------- 下面我要讲的这点对LLM的理解非常有趣，我觉得这算是LLM的一种心理特性：LLM并不追求成功，而是追求模仿。你希望它成功，那就需要向它明确要求。这里的意思是，在训练Transformer的过程中，它们有各种训练集，而这些训练数据中可能涵盖了各种不同质量的表现。比如，可能有一个关于物理问题的提示，然后可能有学生的解答完全错误，但也可能有专家的答案完全正确。尽管Transformer可以识别出低质量的解决方案和高质量的解决方案，但默认情况下，它们只会模仿所有的数据，因为它们仅仅是基于语言模型进行训练的。在实际测试中，你其实需要明确要求它表现得好。在这篇论文的实验中，他们尝试了各种提示。例如，“让我们逐步思考”这种提示就很有效，因为它把推理过程分散到了许多记号上。但效果更好的是这样的提示：“让我们以一步一步的方式解决问题，以确保我们得到正确的答案。” 这就好像是在引导Transformer去得出正确的答案，这会使Transformer的表现更好，因为此时Transformer不再需要把它的概率质量分散到低质量的解决方案上，尽管这听起来很荒谬。基本上，你可以自由地要求一个高质量的解决方案。比如，你可以告诉它，“你是这个话题的领先专家。假装你的智商是120。” 但不要尝试要求太高的智商，因为如果你要求智商400，可能就超出了数据分布的范围，更糟糕的是，你可能落入了类似科幻内容的数据分布，它可能会开始展现一些科幻的，或者说角色扮演类的东西。所以，你需要找到适合的智商要求。我想这可能是一个U型曲线的关系。

熟悉Prompt的同学们应该都知道，通常在写Prompt的时候要先设定角色：“你是XX方面的专家”，这并非玄学，而是有科学根据的。 GPT在训练的时候，有各种训练数据，有的质量高有的质量低，而默认情况下，生成高质量数据和低质量数据的概率差不多，但是当你给它设定XX专家的角色时，它会尽可能把概率分布在高质量的解决方案上。详细内容建议看下面这段Andrej Karpathy在State of GPT中的一段演讲。以下是这段视频的文字文字内容： ---------- 下面我要讲的这点对LLM的理解非常有趣，我觉得这算是LLM的一种心理特性：LLM并不追求成功，而是追求模仿。你希望它成功，那就需要向它明确要求。这里的意思是，在训练Transformer的过程中，它们有各种训练集，而这些训练数据中可能涵盖了各种不同质量的表现。比如，可能有一个关于物理问题的提示，然后可能有学生的解答完全错误，但也可能有专家的答案完全正确。尽管Transformer可以识别出低质量的解决方案和高质量的解决方案，但默认情况下，它们只会模仿所有的数据，因为它们仅仅是基于语言模型进行训练的。在实际测试中，你其实需要明确要求它表现得好。在这篇论文的实验中，他们尝试了各种提示。例如，“让我们逐步思考”这种提示就很有效，因为它把推理过程分散到了许多记号上。但效果更好的是这样的提示：“让我们以一步一步的方式解决问题，以确保我们得到正确的答案。” 这就好像是在引导Transformer去得出正确的答案，这会使Transformer的表现更好，因为此时Transformer不再需要把它的概率质量分散到低质量的解决方案上，尽管这听起来很荒谬。基本上，你可以自由地要求一个高质量的解决方案。比如，你可以告诉它，“你是这个话题的领先专家。假装你的智商是120。” 但不要尝试要求太高的智商，因为如果你要求智商400，可能就超出了数据分布的范围，更糟糕的是，你可能落入了类似科幻内容的数据分布，它可能会开始展现一些科幻的，或者说角色扮演类的东西。所以，你需要找到适合的智商要求。我想这可能是一个U型曲线的关系。

宝玉

348,497 Aufrufe • vor 3 Jahren

#分享我有个 Vibe Coding 的秘密要告诉大家，大概一年前，我就用 Cursor 尝试写一个 macOS 应用，我现在终于想让它跟大家见面了这是一个免费的、用来转换图片/视频的 macOS 软件。起因是有时候需要把 heic 或 mov 视频转成 jepg 和 mp4 用于分享。它是免费的，有需要的同学可以下载来试试看我完全不会 Swift, 所以这也算是我 Vibe Coding 的一个阶段性的小成果，过程中确实踩过很多坑，但是做出来的时候，还是让我有点挺惊讶的。

#分享我有个 Vibe Coding 的秘密要告诉大家，大概一年前，我就用 Cursor 尝试写一个 macOS 应用，我现在终于想让它跟大家见面了这是一个免费的、用来转换图片/视频的 macOS 软件。起因是有时候需要把 heic 或 mov 视频转成 jepg 和 mp4 用于分享。它是免费的，有需要的同学可以下载来试试看我完全不会 Swift, 所以这也算是我 Vibe Coding 的一个阶段性的小成果，过程中确实踩过很多坑，但是做出来的时候，还是让我有点挺惊讶的。

nazha

12,805 Aufrufe • vor 1 Jahr

Open AI 这周要起飞了呀！昨天有人说 GPT Pro 新模型正在灰度，前端能力突飞猛进。我试了一下，只把 CodePilot 的 GitHub 页面发给它，再传了几张现在的截图，说了两三行提示词，它就给了一个完整的桌面端产品设计。我觉得这比 Claude Design 牛逼多了： 1. 完全不需要操心，什么都不用管，直接就出了结果。 2. 细节想得非常周全，而且所有功能都在线。 3. 我没说多余的东西，但出来的东西全是可以交互的，一看就是经过思考的。

Open AI 这周要起飞了呀！昨天有人说 GPT Pro 新模型正在灰度，前端能力突飞猛进。我试了一下，只把 CodePilot 的 GitHub 页面发给它，再传了几张现在的截图，说了两三行提示词，它就给了一个完整的桌面端产品设计。我觉得这比 Claude Design 牛逼多了： 1. 完全不需要操心，什么都不用管，直接就出了结果。 2. 细节想得非常周全，而且所有功能都在线。 3. 我没说多余的东西，但出来的东西全是可以交互的，一看就是经过思考的。

歸藏(guizang.ai)

155,818 Aufrufe • vor 2 Monaten

昨天母亲节，我回来家里陪妈妈吃饭，当小学教师的表妹让我给她演示下AI都有什么作用😂 刚好看到ring-2.6-1t 免费，我就试了下做个小红书很火的班级灵宠系统，本来以为应该要花点时间，但没想到速度惊人的同时质量也过硬！这个 demo 让我最强烈的感受是：ring-2.6-1t 不像是在“回答我”，更像是在把我的想法直接推到现实里。我只是生成了一个小学班级灵宠积分系统：学生打卡、做作业、考高分，就能给宠物攒积分、升级、冲排行榜的prompt。换成以前，这可能会停在一份 PRD、一张功能表，或者一段“你可以这样做”的建议里。但ring-2.6-1t 直接把它变成了一个能打开的网页小工具。你能看到全班宠物墙，能给学生加分扣分，能看等级进度，排行榜也会跟着变化。那一刻很微妙：它不再只是“懂你要什么”，而是把你脑子里的模糊需求，变成了一个可以被点击、被验证、被修改的东西。这也是我觉得它最有价值的地方。很多真实工作，其实不需要一套宏大的系统。我们只是需要一个临时的操作台：拆费用、排任务、调动画、做报名页、整理素材。用完就可以丢掉，但在那个时刻，它真的帮你把事情往前推了一步。 ring-2.6-1t的厉害，不是替你完成工作，而是先给你造出一个工作现场。然后，你在里面完成工作。不得不说，我的表妹已经决定好好学习AI了，或许这就是好模型的意义。 Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是

昨天母亲节，我回来家里陪妈妈吃饭，当小学教师的表妹让我给她演示下AI都有什么作用😂 刚好看到ring-2.6-1t 免费，我就试了下做个小红书很火的班级灵宠系统，本来以为应该要花点时间，但没想到速度惊人的同时质量也过硬！这个 demo 让我最强烈的感受是：ring-2.6-1t 不像是在“回答我”，更像是在把我的想法直接推到现实里。我只是生成了一个小学班级灵宠积分系统：学生打卡、做作业、考高分，就能给宠物攒积分、升级、冲排行榜的prompt。换成以前，这可能会停在一份 PRD、一张功能表，或者一段“你可以这样做”的建议里。但ring-2.6-1t 直接把它变成了一个能打开的网页小工具。你能看到全班宠物墙，能给学生加分扣分，能看等级进度，排行榜也会跟着变化。那一刻很微妙：它不再只是“懂你要什么”，而是把你脑子里的模糊需求，变成了一个可以被点击、被验证、被修改的东西。这也是我觉得它最有价值的地方。很多真实工作，其实不需要一套宏大的系统。我们只是需要一个临时的操作台：拆费用、排任务、调动画、做报名页、整理素材。用完就可以丢掉，但在那个时刻，它真的帮你把事情往前推了一步。 ring-2.6-1t的厉害，不是替你完成工作，而是先给你造出一个工作现场。然后，你在里面完成工作。不得不说，我的表妹已经决定好好学习AI了，或许这就是好模型的意义。 Ring-2.6-1T 模型已经在openrouter发布了，限时免费一周，地址是

阿川 | AI thinking

13,298 Aufrufe • vor 1 Monat

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,694 Aufrufe • vor 28 Tagen

试了一下 OpenAI 新出的 Codex App，有些亮点跟 Skills 的适配还是有点问题，模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍： Skills 可视化管理有一个专门的 Skills 列表界面，预置了一些官方 skills，也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的，本地创建的（比如在 Claude Code 里创建的）扫不出来。还支持 Skills Creator 创建的 skills，可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能，这个挺实用的。可以让 AI 定期执行某些任务，比如每周给你一个解决问题的报告，定期去解决某个项目的 PR 问题，或者定期 review 代码。对于需要持续维护的项目来说，这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。因为它跟 Codex CLI 共享后端，所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤，让你确认后再执行。 ------ 用量显示的样式做得挺好的。进度条、余量、使用情况都很清楚，一眼就能看到你还有多少额度。还有 code review 的快捷方式，可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测：用 video-wrapper skill 跑了一遍我测试主要是让它跑了一个我最近做的 skill，可以一键给视频添加视频包装，比如卡片、花字、人物条、章节标题这些。这个 skill 挺复杂的，所以很适合用来测试。 ------ 第一次运行的问题可以工作，但第一次它选了 PIL 这个方案，比较差。核心问题是什么？它跟你没有交互。我的 skill 里边写清楚了：要先问用户要哪套方案，再给出包装方案让用户确认，用户确认了再开始包装。但在 Codex 这里，明显没有交互。它就直接跑，把所有决定都自己做了，跑完就完了。出错了也不管，直接用降级方案。 ------ 修复后的效果我让它修复以后，它倒是能修复。重新跑了一遍，效果也不错。最终生成的视频包装效果还行： ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了因为我们用前端代码约束了样式，所以它在样式上不会出什么错误。 ------ 体验总结整个过程很不可控： ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了，也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行，不会停下来问你可能是它不太适应 skills 规范，只是简单做了一下适配，没有 Claude Code 跟 skills 的适配那么好。

试了一下 OpenAI 新出的 Codex App，有些亮点跟 Skills 的适配还是有点问题，模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍： Skills 可视化管理有一个专门的 Skills 列表界面，预置了一些官方 skills，也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的，本地创建的（比如在 Claude Code 里创建的）扫不出来。还支持 Skills Creator 创建的 skills，可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能，这个挺实用的。可以让 AI 定期执行某些任务，比如每周给你一个解决问题的报告，定期去解决某个项目的 PR 问题，或者定期 review 代码。对于需要持续维护的项目来说，这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。因为它跟 Codex CLI 共享后端，所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤，让你确认后再执行。 ------ 用量显示的样式做得挺好的。进度条、余量、使用情况都很清楚，一眼就能看到你还有多少额度。还有 code review 的快捷方式，可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测：用 video-wrapper skill 跑了一遍我测试主要是让它跑了一个我最近做的 skill，可以一键给视频添加视频包装，比如卡片、花字、人物条、章节标题这些。这个 skill 挺复杂的，所以很适合用来测试。 ------ 第一次运行的问题可以工作，但第一次它选了 PIL 这个方案，比较差。核心问题是什么？它跟你没有交互。我的 skill 里边写清楚了：要先问用户要哪套方案，再给出包装方案让用户确认，用户确认了再开始包装。但在 Codex 这里，明显没有交互。它就直接跑，把所有决定都自己做了，跑完就完了。出错了也不管，直接用降级方案。 ------ 修复后的效果我让它修复以后，它倒是能修复。重新跑了一遍，效果也不错。最终生成的视频包装效果还行： ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了因为我们用前端代码约束了样式，所以它在样式上不会出什么错误。 ------ 体验总结整个过程很不可控： ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了，也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行，不会停下来问你可能是它不太适应 skills 规范，只是简单做了一下适配，没有 Claude Code 跟 skills 的适配那么好。

歸藏(guizang.ai)

30,521 Aufrufe • vor 4 Monaten

我现在尝试的方案是： 1. 先用出一个大概的风格，可以扩展不同的设计风格和布局，它可以把当前设计打包成一整套提示词，导出给其他 agents 使用。 2. 在其他 agents 比如我用 Replit ⠕ 还原，基本粘贴它的提示词都能完美还原，然后让 Replit 再基于这个设计完成其他页面和功能。(Replit agent 4.0 支持 canvas 也可以生成不同风格和布局的设计) 3. Replit 绑定 Github 后代码是实时同步到你的 repo 的，基本满意后 fork 到本地，让 Claude Code 重构。

我现在尝试的方案是： 1. 先用出一个大概的风格，可以扩展不同的设计风格和布局，它可以把当前设计打包成一整套提示词，导出给其他 agents 使用。 2. 在其他 agents 比如我用 Replit ⠕ 还原，基本粘贴它的提示词都能完美还原，然后让 Replit 再基于这个设计完成其他页面和功能。(Replit agent 4.0 支持 canvas 也可以生成不同风格和布局的设计) 3. Replit 绑定 Github 后代码是实时同步到你的 repo 的，基本满意后 fork 到本地，让 Claude Code 重构。

Ding

56,179 Aufrufe • vor 3 Monaten

🚨还是让肖师傅来盘一盘，Skill做视频这件事本质上，Skill做视频有两条路： 1、忽略质量，只需要制作一个类似会动的PPT，用来辅助自媒体完成内容讲解，但注意，因为视频效果一般，所以必须要本体的内容有干货，Skill只是辅助。如果选择这样，还是比较合算的，因为节约的是不会制作视频的博主的一个痛点。 2、不要妄想一键一个Skill生成视频，本质上它就是一个有操作权限的GEM，所以必须使用GEM思维，一个Skill是无法完成复杂的视频的，只能利用它可以生成文件的特质，生成素材之后，再由另一个Skill进行拼接，当然，这个部分我觉得只能给他一些模板，做些简单的固定搭配的工作。而且这个部分通过我的计算，容错率加上之后，成本和手搓差不多，但风格上就需要固化。即使不能一键成片，至少还有素材打底。另外，别妄想一句话生成一个效果很棒的视频，还是那句话，本质上它还是一个按照固定路径执行的GEM，所以引导和命令依然是重要的，区别是，现在你需要把各种可能得变量都要写进去。 👻来看看肖师傅用Skill制作的视频，但作为商业片我不会选择使用claude code来跑这种商业广告，太费钱了。

🚨还是让肖师傅来盘一盘，Skill做视频这件事本质上，Skill做视频有两条路： 1、忽略质量，只需要制作一个类似会动的PPT，用来辅助自媒体完成内容讲解，但注意，因为视频效果一般，所以必须要本体的内容有干货，Skill只是辅助。如果选择这样，还是比较合算的，因为节约的是不会制作视频的博主的一个痛点。 2、不要妄想一键一个Skill生成视频，本质上它就是一个有操作权限的GEM，所以必须使用GEM思维，一个Skill是无法完成复杂的视频的，只能利用它可以生成文件的特质，生成素材之后，再由另一个Skill进行拼接，当然，这个部分我觉得只能给他一些模板，做些简单的固定搭配的工作。而且这个部分通过我的计算，容错率加上之后，成本和手搓差不多，但风格上就需要固化。即使不能一键成片，至少还有素材打底。另外，别妄想一句话生成一个效果很棒的视频，还是那句话，本质上它还是一个按照固定路径执行的GEM，所以引导和命令依然是重要的，区别是，现在你需要把各种可能得变量都要写进去。 👻来看看肖师傅用Skill制作的视频，但作为商业片我不会选择使用claude code来跑这种商业广告，太费钱了。

肖师傅

16,310 Aufrufe • vor 5 Monaten

小扎吐槽苹果和 Google，以及谈为什么开源 AI **Mark Zuckerberg**: 我认为移动生态系统中普遍存在的一个问题是有两个把持入口的公司，Apple 和 Google，它们可以告诉你可以构建什么。在我们的历史中有很多次，比如有经济层面的情况，就是我们构建了些东西，然后它们就会拿走我们大部分的收入，但还有一种是质量层面，这实际上让我更加不满，也就是有很多次我们推出或希望推出某些功能，然后Apple就会说，不，你不能推出这功能。这真的很糟糕。问题是，这样的世界是否会在AI领域复现，就像你会有一小部分拥有封闭模型的公司，它们控制API，因此将能够告诉你可以构建什么。我可以说，对我们来说，自己构建一个模型以避免处于那种位置是值得的。我不希望那些其他公司告诉我们可以构建什么，而且我认为从开源的角度来看，很多开发人员也不希望那些公司告诉他们可以构建什么。这就是我坚定支持开源的原因之一，我认为未来AI的集中化可能像其广泛传播一样具有潜在危险。我发现很多人都在思考，如果我们能实现这种技术，那么让它广泛传播是否不利。我认为另一种可能也很糟糕的情况是，如果一个机构掌握了一种强大的AI远超其他所有人的，这同样是非常糟糕的。在我看来，一个理想的世界应该是这样的：AI技术被广泛而均衡地应用，随着时间推移逐步增强其健康性。在这样的世界里，各种系统能够相互制衡，这种平衡的状态比一个高度集中化的世界要健康得多。虽然风险无处不在，但我觉得有一个风险我想人们我并没有听到太多人提及。 **Dwarkesh Patel**:举例来说，一个价值100亿美元的模型，如果经过评估是完全安全的，你们会选择开源吗？ **Mark Zuckerberg**:我的答案是，只要这个模型对我们有所帮助，那我们就会开源。 **Dwarkesh Patel**: 那如果这个模型是用100亿美元的研发经费研发出来的，然后现在要开源呢？ **Mark Zuckerberg**: 我们一直以来都有开源软件的传统，但是我们并不会开源我们的产品。比如说，我们并不会将Instagram的代码开源，但我们会开源许多底层的基础设施。我们历史上最大的一个项目可能就是开放计算项目。在这个项目中，我们将我们所有的服务器的设计网络交换机和数据中心的设计开源了，这对我们来说非常有帮助。因为很多人可以设计服务器，但现在，大家普遍都采用了我们的设计，这就意味着整个供应链都围绕我们的设计展开，规模变大，对所有人来说都变得更便宜，为我们节省了数十亿美元。这真是太棒了，对吧？因此，我认为开源有多种方式可以对我们有所帮助。一种就是，如果有人能够找出更便宜的运行模型的方法，我们将花费数十亿甚至上千亿美元，在所有这些模型上，所以如果我们能做的更有效率，那我们就可以节省数十亿甚至上百亿美元，这可能本身就非常有价值。 **Dwarkesh Patel**: 关于开源，我很想知道你是否认为像PyTorch、React、Open Compute这样的开源项目，对世界的影响是否已经超过了Meta在社交媒体方面的作用。 **Mark Zuckerberg**: 因为我曾经和使用这些服务的人交谈过，他们觉得这是有可能的，因为互联网的很大一部分都在运行这些项目。这是一个有趣的问题，我认为几乎有一半的世界人口都在使用我们的产品，这是一个真实的点，所以我觉得这很难超越。但不管怎样，我还是认为开源是一种新的、非常強大的建设方式。来源：

小扎吐槽苹果和 Google，以及谈为什么开源 AI Mark Zuckerberg: 我认为移动生态系统中普遍存在的一个问题是有两个把持入口的公司，Apple 和 Google，它们可以告诉你可以构建什么。在我们的历史中有很多次，比如有经济层面的情况，就是我们构建了些东西，然后它们就会拿走我们大部分的收入，但还有一种是质量层面，这实际上让我更加不满，也就是有很多次我们推出或希望推出某些功能，然后Apple就会说，不，你不能推出这功能。这真的很糟糕。问题是，这样的世界是否会在AI领域复现，就像你会有一小部分拥有封闭模型的公司，它们控制API，因此将能够告诉你可以构建什么。我可以说，对我们来说，自己构建一个模型以避免处于那种位置是值得的。我不希望那些其他公司告诉我们可以构建什么，而且我认为从开源的角度来看，很多开发人员也不希望那些公司告诉他们可以构建什么。这就是我坚定支持开源的原因之一，我认为未来AI的集中化可能像其广泛传播一样具有潜在危险。我发现很多人都在思考，如果我们能实现这种技术，那么让它广泛传播是否不利。我认为另一种可能也很糟糕的情况是，如果一个机构掌握了一种强大的AI远超其他所有人的，这同样是非常糟糕的。在我看来，一个理想的世界应该是这样的：AI技术被广泛而均衡地应用，随着时间推移逐步增强其健康性。在这样的世界里，各种系统能够相互制衡，这种平衡的状态比一个高度集中化的世界要健康得多。虽然风险无处不在，但我觉得有一个风险我想人们我并没有听到太多人提及。 Dwarkesh Patel:举例来说，一个价值100亿美元的模型，如果经过评估是完全安全的，你们会选择开源吗？ Mark Zuckerberg:我的答案是，只要这个模型对我们有所帮助，那我们就会开源。 Dwarkesh Patel: 那如果这个模型是用100亿美元的研发经费研发出来的，然后现在要开源呢？ Mark Zuckerberg: 我们一直以来都有开源软件的传统，但是我们并不会开源我们的产品。比如说，我们并不会将Instagram的代码开源，但我们会开源许多底层的基础设施。我们历史上最大的一个项目可能就是开放计算项目。在这个项目中，我们将我们所有的服务器的设计网络交换机和数据中心的设计开源了，这对我们来说非常有帮助。因为很多人可以设计服务器，但现在，大家普遍都采用了我们的设计，这就意味着整个供应链都围绕我们的设计展开，规模变大，对所有人来说都变得更便宜，为我们节省了数十亿美元。这真是太棒了，对吧？因此，我认为开源有多种方式可以对我们有所帮助。一种就是，如果有人能够找出更便宜的运行模型的方法，我们将花费数十亿甚至上千亿美元，在所有这些模型上，所以如果我们能做的更有效率，那我们就可以节省数十亿甚至上百亿美元，这可能本身就非常有价值。 Dwarkesh Patel: 关于开源，我很想知道你是否认为像PyTorch、React、Open Compute这样的开源项目，对世界的影响是否已经超过了Meta在社交媒体方面的作用。 Mark Zuckerberg: 因为我曾经和使用这些服务的人交谈过，他们觉得这是有可能的，因为互联网的很大一部分都在运行这些项目。这是一个有趣的问题，我认为几乎有一半的世界人口都在使用我们的产品，这是一个真实的点，所以我觉得这很难超越。但不管怎样，我还是认为开源是一种新的、非常強大的建设方式。来源：

宝玉

74,721 Aufrufe • vor 2 Jahren

Claude Opus 4.8 出了之后，我的第一反应是：想试。第二反应是：算了，token 这东西真的不经烧。结果看到 ZenMux 现在可以体验 Opus 4.8，就拿它试了一个我最近一直想做的小东西。我自己有个很真实的问题：脑子里经常冒出各种产品想法。但每次真要开始做，就会卡住。用户是谁？第一版到底做什么？哪些功能应该先砍掉？怎么定价？第一周从哪一步开始？上线后怎么找第一批用户？想法很多，执行很散。所以我让 Claude Opus 4.8 做了一个「一人公司作战室」。需求我写得也挺直接：输入一句产品 idea。自动拆出产品定位、MVP、开发任务、定价方案。再生成落地页文案、冷启动实验、风险清单和本周计划。最好不是一个静态页面，而是真的能点、能改、能导出。然后我就把这段话丢给 Claude Opus 4.8。出来的效果比我预期好不少。它真的把“一人公司怎么从想法走到执行”这件事拆开了。左边输入产品想法。中间生成产品蓝图、MVP 范围、定价和官网文案。右边是任务看板和本周计划。底部还有冷启动实验、风险雷达和 Markdown 导出。最让我觉得有意思的是，它不是一味堆功能。比如我输入“给小红书博主做 AI 选题助手”，它会主动判断：第一版必须做什么。哪些功能看起来高级，但现在应该先别碰。怎么找第一批真实用户。哪些风险可能让这个项目做不下去。这点就很能体现 Opus 4.8 的能力。普通模型经常是：你要什么，我全给你加上。最后页面很热闹，但产品判断是空的。 Opus 4.8 更像是在帮你收敛：先想清楚用户、场景和第一步，再把它变成可以执行的工作台。我是在 ZenMux 上试的。它比较方便的一点是，一个 Key 就能切不同模型，新模型上线也很快。 Opus 4.8 拿来做这种带产品判断、交互状态和复杂信息结构的网页，确实挺顺。想试 Claude Opus 4.8 的，可以从这里进：

Claude Opus 4.8 出了之后，我的第一反应是：想试。第二反应是：算了，token 这东西真的不经烧。结果看到 ZenMux 现在可以体验 Opus 4.8，就拿它试了一个我最近一直想做的小东西。我自己有个很真实的问题：脑子里经常冒出各种产品想法。但每次真要开始做，就会卡住。用户是谁？第一版到底做什么？哪些功能应该先砍掉？怎么定价？第一周从哪一步开始？上线后怎么找第一批用户？想法很多，执行很散。所以我让 Claude Opus 4.8 做了一个「一人公司作战室」。需求我写得也挺直接：输入一句产品 idea。自动拆出产品定位、MVP、开发任务、定价方案。再生成落地页文案、冷启动实验、风险清单和本周计划。最好不是一个静态页面，而是真的能点、能改、能导出。然后我就把这段话丢给 Claude Opus 4.8。出来的效果比我预期好不少。它真的把“一人公司怎么从想法走到执行”这件事拆开了。左边输入产品想法。中间生成产品蓝图、MVP 范围、定价和官网文案。右边是任务看板和本周计划。底部还有冷启动实验、风险雷达和 Markdown 导出。最让我觉得有意思的是，它不是一味堆功能。比如我输入“给小红书博主做 AI 选题助手”，它会主动判断：第一版必须做什么。哪些功能看起来高级，但现在应该先别碰。怎么找第一批真实用户。哪些风险可能让这个项目做不下去。这点就很能体现 Opus 4.8 的能力。普通模型经常是：你要什么，我全给你加上。最后页面很热闹，但产品判断是空的。 Opus 4.8 更像是在帮你收敛：先想清楚用户、场景和第一步，再把它变成可以执行的工作台。我是在 ZenMux 上试的。它比较方便的一点是，一个 Key 就能切不同模型，新模型上线也很快。 Opus 4.8 拿来做这种带产品判断、交互状态和复杂信息结构的网页，确实挺顺。想试 Claude Opus 4.8 的，可以从这里进：

Joruno

15,672 Aufrufe • vor 1 Monat

说实话，这才是我想要的AI该有的样子。前_buildspace创始人Farza刚刚发布了Clicky，一个住在你Mac光标旁边的AI伙伴，你不用打开任何App，不用打字，只要对着屏幕说一句话，它就会分裂出一个小代理，直接帮你把活干了。你说，帮我把桌面这些乱七八糟的截图清理一下，它就自动给你分类归档。你说，帮我明天晚上九点设个提醒和Sharif去吃饭，它就直接打开提醒事项帮你建好。你说，帮我找25个粉丝不到五万的同领域微网红，列成CSV再写几条DM模板，它就自己上网搜，自己整理，几分钟给你一个现成的表格。最离谱的是这个，你说，帮我建一个Mac App，控制本地的Spotify，做成复古唱片机风格，有播放暂停显示歌名，五分钟之后，它真的给你编译出了一个完整的原生App，还自动打开给你运行。以前所有的AI，都是你去找它，你打开聊天框，你打字，你复制粘贴，而Clicky是它一直在你身边，它看得到你屏幕上的一切，你需要的时候喊一声，它就出来帮你搞定。 Siri会告诉你，我帮你打开提醒事项，然后让你自己填，而Clicky会直接帮你填好保存，这才是真正的AI助手，不是聊天机器人，是你的数字员工。现在已经可以免费下载了，Mac用户直接冲，这绝对是2026年到目前为止，最让我兴奋的AI产品。

说实话，这才是我想要的AI该有的样子。前_buildspace创始人Farza刚刚发布了Clicky，一个住在你Mac光标旁边的AI伙伴，你不用打开任何App，不用打字，只要对着屏幕说一句话，它就会分裂出一个小代理，直接帮你把活干了。你说，帮我把桌面这些乱七八糟的截图清理一下，它就自动给你分类归档。你说，帮我明天晚上九点设个提醒和Sharif去吃饭，它就直接打开提醒事项帮你建好。你说，帮我找25个粉丝不到五万的同领域微网红，列成CSV再写几条DM模板，它就自己上网搜，自己整理，几分钟给你一个现成的表格。最离谱的是这个，你说，帮我建一个Mac App，控制本地的Spotify，做成复古唱片机风格，有播放暂停显示歌名，五分钟之后，它真的给你编译出了一个完整的原生App，还自动打开给你运行。以前所有的AI，都是你去找它，你打开聊天框，你打字，你复制粘贴，而Clicky是它一直在你身边，它看得到你屏幕上的一切，你需要的时候喊一声，它就出来帮你搞定。 Siri会告诉你，我帮你打开提醒事项，然后让你自己填，而Clicky会直接帮你填好保存，这才是真正的AI助手，不是聊天机器人，是你的数字员工。现在已经可以免费下载了，Mac用户直接冲，这绝对是2026年到目前为止，最让我兴奋的AI产品。

AYi

14,195 Aufrufe • vor 2 Monaten

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

Cursor 推出炼蛊模式！一口气能开8个代理！给大家带来 Cursor 2.0 更新内容！这个分量的确够得上一个大版本更新。首先，推出了炼蛊模式，你最多可以开8个 Agent 并行运行同一个任务，然后矬子里面拔大个，选你觉得AI生成的最好的结果。其次，cursor 早就传出内部在炼大模型，终于推出了！目前宣传点是生成速度，这个我一会儿会单独放出这个模型的评测视频！然后！可以在Cursor里面直接打开浏览器了！这叫一个真套娃了，本身就是 Electron，又套个 chromium。跑题了，这个最大的作用其实是为大模型进行视觉设计或debug铺平道路。是个非常不错的功能。就是不知道大家内存抗不扛得住。还有！现在支持语音输入了，终于可以真的当老板了用嘴命令它干活了。剩下就是一些小改进了，包括可以在一个chat里面看多个文件的修改啦，其实跟github的合并pr的模式差不多。命令可以运行在安全沙箱，再也不用担心输入了个波浪线，大模型灭门事件了。团队配置集中管理啦，可以在后代运行多个 plan mode，玩田忌赛马等等等等。总之，请确保你的订阅套餐够烧

karminski-牙医

21,719 Aufrufe • vor 8 Monaten

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

46,883 Aufrufe • vor 1 Monat

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

小互

14,775 Aufrufe • vor 7 Monaten