Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

卧槽,答案终于揭晓了! 那个在open router上持续霸榜的神秘模型,是阿里推出的全新大模型“蚂蚁百灵”!今天我们来深度聊一聊这个模型。 用过AI来完成前端开发的朋友肯定懂: 要让AI做出想要的UI总是要找参考,再不然就是要依赖设计 skill 的帮助。 但这种界面一旦看多了,就会陷入审美疲劳。 原因在于不管你是对标UI还是使用skill,结果都是被限定在固有的生成范围内。 最近小灰测了新模型 Ling-2.6-1T (由蚂蚁集团 Ant Ling 开发),发现它刚好就能打破这个限制。 它生成的页面不仅审美极度在线,而且自带高质量的交互效果,做出来的东西终于不再是干巴巴的呆板网页了。 但用它有个必须要避开的坑:Ling 2.6 1T 默认是没有深度思考模式的。 它在计算资源分配上极其克制,如果你偷懒丢一句"给我写个好看的界面",那么它大概率会给你一个准确但极其敷衍的结果。(视频1) 那么怎么取巧使用它? 小灰分享一个能逼出它真实设计水平的实操工作流:把它当成主规划师,先拆解风格,再写代码。 跟它对话时,你可以直接下这种指令: 1. 强制思考:先别急着写代码!帮我分析这个产品的定位,明确它的视觉情绪、色彩规范和排版布局,把思路列出来。(比如明确告诉它你要包豪斯风格或者北欧风)。 2. 落地执行:等它把设计语言梳理清楚,你确认没问题了,再让它基于这套标准去生成具体的 TailwindCSS 样式和前端页面。 用这种先 Plan 后做的方式,出来的页面不仅美观,而且风格极其统一。(视频2) 目前在Openrouter中可以免费体验该模型。 选对工具打破模板限制,用高审美的模型直接拔高视觉质感,能帮我们省下大把死磕 CSS 的时间。 期待大家都能快速做出让人眼前一亮的作品!

15,021 Aufrufe • vor 2 Monaten •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 Aufrufe • vor 7 Monaten

熟悉Prompt的同学们应该都知道,通常在写Prompt的时候要先设定角色:“你是XX方面的专家”,这并非玄学,而是有科学根据的。 GPT在训练的时候,有各种训练数据,有的质量高有的质量低,而默认情况下,生成高质量数据和低质量数据的概率差不多,但是当你给它设定XX专家的角色时,它会尽可能把概率分布在高质量的解决方案上。 详细内容建议看下面这段Andrej Karpathy在State of GPT中的一段演讲。 以下是这段视频的文字文字内容: ---------- 下面我要讲的这点对LLM的理解非常有趣,我觉得这算是LLM的一种心理特性:LLM并不追求成功,而是追求模仿。你希望它成功,那就需要向它明确要求。这里的意思是,在训练Transformer的过程中,它们有各种训练集,而这些训练数据中可能涵盖了各种不同质量的表现。比如,可能有一个关于物理问题的提示,然后可能有学生的解答完全错误,但也可能有专家的答案完全正确。尽管Transformer可以识别出低质量的解决方案和高质量的解决方案,但默认情况下,它们只会模仿所有的数据,因为它们仅仅是基于语言模型进行训练的。 在实际测试中,你其实需要明确要求它表现得好。在这篇论文的实验中,他们尝试了各种提示。例如,“让我们逐步思考”这种提示就很有效,因为它把推理过程分散到了许多记号上。但效果更好的是这样的提示:“让我们以一步一步的方式解决问题,以确保我们得到正确的答案。” 这就好像是在引导Transformer去得出正确的答案,这会使Transformer的表现更好,因为此时Transformer不再需要把它的概率质量分散到低质量的解决方案上,尽管这听起来很荒谬。 基本上,你可以自由地要求一个高质量的解决方案。比如,你可以告诉它,“你是这个话题的领先专家。假装你的智商是120。” 但不要尝试要求太高的智商,因为如果你要求智商400,可能就超出了数据分布的范围,更糟糕的是,你可能落入了类似科幻内容的数据分布,它可能会开始展现一些科幻的,或者说角色扮演类的东西。所以,你需要找到适合的智商要求。我想这可能是一个U型曲线的关系。

宝玉

348,497 Aufrufe • vor 3 Jahren

昨天母亲节,我回来家里陪妈妈吃饭,当小学教师的表妹让我给她演示下AI都有什么作用😂 刚好看到ring-2.6-1t 免费,我就试了下做个小红书很火的班级灵宠系统,本来以为应该要花点时间,但没想到速度惊人的同时质量也过硬! 这个 demo 让我最强烈的感受是:ring-2.6-1t 不像是在“回答我”,更像是在把我的想法直接推到现实里。 我只是生成了一个小学班级灵宠积分系统:学生打卡、做作业、考高分,就能给宠物攒积分、升级、冲排行榜的prompt。换成以前,这可能会停在一份 PRD、一张功能表,或者一段“你可以这样做”的建议里。 但ring-2.6-1t 直接把它变成了一个能打开的网页小工具。 你能看到全班宠物墙,能给学生加分扣分,能看等级进度,排行榜也会跟着变化。那一刻很微妙:它不再只是“懂你要什么”,而是把你脑子里的模糊需求,变成了一个可以被点击、被验证、被修改的东西。 这也是我觉得它最有价值的地方。 很多真实工作,其实不需要一套宏大的系统。我们只是需要一个临时的操作台:拆费用、排任务、调动画、做报名页、整理素材。用完就可以丢掉,但在那个时刻,它真的帮你把事情往前推了一步。 ring-2.6-1t的厉害,不是替你完成工作,而是先给你造出一个工作现场。然后,你在里面完成工作。 不得不说,我的表妹已经决定好好学习AI了,或许这就是好模型的意义。 Ring-2.6-1T 模型已经在openrouter发布了,限时免费一周,地址是

阿川 | AI thinking

13,298 Aufrufe • vor 1 Monat

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。 下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,694 Aufrufe • vor 28 Tagen

试了一下 OpenAI 新出的 Codex App,有些亮点 跟 Skills 的适配还是有点问题,模型的主要问题就是慢 OpenAI 给 Pro 和 Plus 用户的 Codex 额度在未来两个月内全部翻倍了 👇看一下详细的能力介绍: Skills 可视化管理 有一个专门的 Skills 列表界面,预置了一些官方 skills,也可以扫描你已经安装的 skills。注意这里只能扫描 NPX 安装的,本地创建的(比如在 Claude Code 里创建的)扫不出来。 还支持 Skills Creator 创建的 skills,可以直接在 APP 里用它去创建新 skills。 ------ 定时任务功能,这个挺实用的。 可以让 AI 定期执行某些任务,比如每周给你一个解决问题的报告,定期去解决某个项目的 PR 问题,或者定期 review 代码。 对于需要持续维护的项目来说,这个功能还是挺有价值的。 ------ Codex APP 现在支持计划模式了。 因为它跟 Codex CLI 共享后端,所以现在 Codex CLI 也同步支持计划模式了。这意味着 AI 会先规划任务步骤,让你确认后再执行。 ------ 用量显示的样式做得挺好的。 进度条、余量、使用情况都很清楚,一眼就能看到你还有多少额度。 还有 code review 的快捷方式,可以快速调用你的 skills。MCP 的添加也支持。 ====== 实测:用 video-wrapper skill 跑了一遍 我测试主要是让它跑了一个我最近做的 skill,可以一键给视频添加视频包装,比如卡片、花字、人物条、章节标题这些。 这个 skill 挺复杂的,所以很适合用来测试。 ------ 第一次运行的问题 可以工作,但第一次它选了 PIL 这个方案,比较差。 核心问题是什么?它跟你没有交互。 我的 skill 里边写清楚了:要先问用户要哪套方案,再给出包装方案让用户确认,用户确认了再开始包装。 但在 Codex 这里,明显没有交互。它就直接跑,把所有决定都自己做了,跑完就完了。出错了也不管,直接用降级方案。 ------ 修复后的效果 我让它修复以后,它倒是能修复。重新跑了一遍,效果也不错。 最终生成的视频包装效果还行: ▸ 左下角有人物卡片 ▸ 有花字 ▸ 有各种卡片和章节标题 ▸ 结论卡片也加上了 因为我们用前端代码约束了样式,所以它在样式上不会出什么错误。 ------ 体验总结 整个过程很不可控: ▸ 速度很慢 - Codex 本身速度就慢 ▸ 交互明显不够 - 你根本不知道进到哪个阶段了,也不知道它的方案是什么 ▸ 只管执行 - AI 一直在执行,不会停下来问你 可能是它不太适应 skills 规范,只是简单做了一下适配,没有 Claude Code 跟 skills 的适配那么好。

歸藏(guizang.ai)

30,521 Aufrufe • vor 4 Monaten

小扎吐槽苹果和 Google,以及谈为什么开源 AI **Mark Zuckerberg**: 我认为移动生态系统中普遍存在的一个问题是有两个把持入口的公司,Apple 和 Google,它们可以告诉你可以构建什么。 在我们的历史中有很多次,比如有经济层面的情况,就是我们构建了些东西,然后它们就会拿走我们大部分的收入,但还有一种是质量层面,这实际上让我更加不满,也就是有很多次我们推出或希望推出某些功能,然后Apple就会说,不,你不能推出这功能。 这真的很糟糕。 问题是,这样的世界是否会在AI领域复现,就像你会有一小部分拥有封闭模型的公司,它们控制API,因此将能够告诉你可以构建什么。 我可以说,对我们来说,自己构建一个模型以避免处于那种位置是值得的。 我不希望那些其他公司告诉我们可以构建什么,而且我认为从开源的角度来看,很多开发人员也不希望那些公司告诉他们可以构建什么。这就是我坚定支持开源的原因之一,我认为未来AI的集中化可能像其广泛传播一样具有潜在危险。 我发现很多人都在思考,如果我们能实现这种技术,那么让它广泛传播是否不利。 我认为另一种可能也很糟糕的情况是,如果一个机构掌握了一种强大的AI远超其他所有人的,这同样是非常糟糕的。在我看来,一个理想的世界应该是这样的:AI技术被广泛而均衡地应用,随着时间推移逐步增强其健康性。在这样的世界里,各种系统能够相互制衡,这种平衡的状态比一个高度集中化的世界要健康得多。 虽然风险无处不在,但我觉得有一个风险我想人们我并没有听到太多人提及。 **Dwarkesh Patel**:举例来说,一个价值100亿美元的模型,如果经过评估是完全安全的,你们会选择开源吗? **Mark Zuckerberg**:我的答案是,只要这个模型对我们有所帮助,那我们就会开源。 **Dwarkesh Patel**: 那如果这个模型是用100亿美元的研发经费研发出来的,然后现在要开源呢? **Mark Zuckerberg**: 我们一直以来都有开源软件的传统,但是我们并不会开源我们的产品。 比如说,我们并不会将Instagram的代码开源,但我们会开源许多底层的基础设施。我们历史上最大的一个项目可能就是开放计算项目。在这个项目中,我们将我们所有的服务器的设计网络交换机和数据中心的设计开源了,这对我们来说非常有帮助。 因为很多人可以设计服务器,但现在,大家普遍都采用了我们的设计,这就意味着整个供应链都围绕我们的设计展开,规 模变大,对所有人来说都变得更便宜,为我们节省了数十亿美元。 这真是太棒了,对吧? 因此,我认为开源有多种方式可以对我们有所帮助。 一种就是,如果有人能够找出更便宜的运行模型的方法,我们将花费数十亿甚至上千亿美元,在所有这些模型上,所以如果我们能做的更有效率,那我们就可以节省数十亿甚至上百亿美元,这可能本身就非常有价值。 **Dwarkesh Patel**: 关于开源,我很想知道你是否认为像PyTorch、React、Open Compute这样的开源项目,对世界的影响是否已经超过了Meta在社交媒体方面的作用。 **Mark Zuckerberg**: 因为我曾经和使用这些服务的人交谈过,他们觉得这是有可能的,因为互联网的很大一部分都在运行这些项目。这是一个有趣的问题,我认为几乎有一半的世界人口都在使用我们的产品,这是一个真实的点,所以我觉得这很难超越。 但不管怎样,我还是认为开源是一种新的、非常強大的建设方式。 来源:

宝玉

74,721 Aufrufe • vor 2 Jahren

Claude Opus 4.8 出了之后,我的第一反应是:想试。 第二反应是:算了,token 这东西真的不经烧。 结果看到 ZenMux 现在可以体验 Opus 4.8,就拿它试了一个我最近一直想做的小东西。 我自己有个很真实的问题: 脑子里经常冒出各种产品想法。 但每次真要开始做,就会卡住。 用户是谁? 第一版到底做什么? 哪些功能应该先砍掉? 怎么定价? 第一周从哪一步开始? 上线后怎么找第一批用户? 想法很多,执行很散。 所以我让 Claude Opus 4.8 做了一个「一人公司作战室」。 需求我写得也挺直接: 输入一句产品 idea。 自动拆出产品定位、MVP、开发任务、定价方案。 再生成落地页文案、冷启动实验、风险清单和本周计划。 最好不是一个静态页面,而是真的能点、能改、能导出。 然后我就把这段话丢给 Claude Opus 4.8。 出来的效果比我预期好不少。 它真的把“一人公司怎么从想法走到执行”这件事拆开了。 左边输入产品想法。 中间生成产品蓝图、MVP 范围、定价和官网文案。 右边是任务看板和本周计划。 底部还有冷启动实验、风险雷达和 Markdown 导出。 最让我觉得有意思的是,它不是一味堆功能。 比如我输入“给小红书博主做 AI 选题助手”,它会主动判断: 第一版必须做什么。 哪些功能看起来高级,但现在应该先别碰。 怎么找第一批真实用户。 哪些风险可能让这个项目做不下去。 这点就很能体现 Opus 4.8 的能力。 普通模型经常是:你要什么,我全给你加上。 最后页面很热闹,但产品判断是空的。 Opus 4.8 更像是在帮你收敛:先想清楚用户、场景和第一步,再把它变成可以执行的工作台。 我是在 ZenMux 上试的。 它比较方便的一点是,一个 Key 就能切不同模型,新模型上线也很快。 Opus 4.8 拿来做这种带产品判断、交互状态和复杂信息结构的网页,确实挺顺。 想试 Claude Opus 4.8 的,可以从这里进:

Joruno

15,672 Aufrufe • vor 1 Monat

说实话,这才是我想要的AI该有的样子。 前_buildspace创始人Farza刚刚发布了Clicky,一个住在你Mac光标旁边的AI伙伴, 你不用打开任何App,不用打字,只要对着屏幕说一句话, 它就会分裂出一个小代理, 直接帮你把活干了。 你说,帮我把桌面这些乱七八糟的截图清理一下, 它就自动给你分类归档。 你说,帮我明天晚上九点设个提醒和Sharif去吃饭,它就直接打开提醒事项帮你建好。 你说,帮我找25个粉丝不到五万的同领域微网红,列成CSV再写几条DM模板, 它就自己上网搜,自己整理,几分钟给你一个现成的表格。 最离谱的是这个, 你说,帮我建一个Mac App,控制本地的Spotify,做成复古唱片机风格,有播放暂停显示歌名,五分钟之后,它真的给你编译出了一个完整的原生App,还自动打开给你运行。 以前所有的AI,都是你去找它,你打开聊天框,你打字,你复制粘贴,而Clicky是它一直在你身边,它看得到你屏幕上的一切,你需要的时候喊一声,它就出来帮你搞定。 Siri会告诉你,我帮你打开提醒事项,然后让你自己填,而Clicky会直接帮你填好保存,这才是真正的AI助手,不是聊天机器人,是你的数字员工。 现在已经可以免费下载了,Mac用户直接冲,这绝对是2026年到目前为止,最让我兴奋的AI产品。

AYi

14,195 Aufrufe • vor 2 Monaten