Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

Claude Fable 5 vs opus4.8 模型对比给两个模型发了一模一样的三个提示，要求它们做完全不依赖外部库的HTML5模拟，还得有真实物理效果。三个任务分别是： 1. 混沌双摆 2. 高尔顿板 3. 旋转滚筒里的水 #claude #fable5

qiyan | Crypto

12,558 subscribers

60,810 Aufrufe • vor 9 Tagen •via X (Twitter)

Bildung Wissenschaft & Technologie #claude #fable5

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

100块的AI，如何帮我接单月赚12万？这次做这个项目给我的感受是国产模型真的能用了！其实我一直都是用最好的模型，Claude 4.5 + Claude Code也一直是我的AI编程主力，但真的被封麻了。每天重新搞Claude的时间都有一两个小时，这次用GLM4.6来平替效果还真可以。虽然它下午高峰期时不时会卡，而且偶尔指令遵循确实比GPT-5差不少，可90%的开发任务都还不错，返工率也可以接受。我现在的最好的实践就是，保留20美金的Cursor用顶级模型，再来个GLM4.6干活，很香！

100块的AI，如何帮我接单月赚12万？这次做这个项目给我的感受是国产模型真的能用了！其实我一直都是用最好的模型，Claude 4.5 + Claude Code也一直是我的AI编程主力，但真的被封麻了。每天重新搞Claude的时间都有一两个小时，这次用GLM4.6来平替效果还真可以。虽然它下午高峰期时不时会卡，而且偶尔指令遵循确实比GPT-5差不少，可90%的开发任务都还不错，返工率也可以接受。我现在的最好的实践就是，保留20美金的Cursor用顶级模型，再来个GLM4.6干活，很香！

Yihui

74,447 Aufrufe • vor 7 Monaten

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

前 OpenAI CTO Mira 的公司 Thinking Machines 发了一个非常创新的模型，他们叫交互模型。这个模型能够持续接收音频、视频、文本等原生的多模态内容，并且实时进行思考、响应和行动。它不像之前那种 Agent 脚手架，把多个模型、多个模态的模型通过 Agent 串起来，而是所有模态都在一整个模型里。这样就可以让用户和 AI 在任意模态下实时进行交互：你可以随时打断它，随时进行补充，AI 会实时关注你的状态，输出结果，不会像之前一样，必须等一句话结束了才能跟模型交互。核心思路就是把交互部分训练到了模型里。他们从零训练的这个交互模型主要包括两部分：前台交互模型： (a) 一直在线，一直在听、看和读用户提供的内容 (b) 每 200 毫秒作为一个节点，同时处理输入并产出一小段输出 (c) 负责照顾用户的在场感，支持用户打断、插话，并能对屏幕和视频内容做出反应后台推理模型： (a) 用来处理需要持续推理、工具调用以及长上下文、长规划的任务 (b) 交互模型会在合适的时候，将推理模型的结果放回到对话里，不会插入突兀的内容用户最终看到的结果，就是一个既能实时交互，又能够处理重度任务的界面。

歸藏(guizang.ai)

46,778 Aufrufe • vor 1 Monat

实测 Runway 高级镜头控制 Advanced Camera Control 快速模拟了一个基努里维斯的3D模型效果，感受： 1 需要经过训练掌握面板中的参数配合，否则成功率可能不高 2 匹配合理的参数后，成功率很高，尤其对真人的推演，总的来说比预期的效果要好 #AIart #aigc

实测 Runway 高级镜头控制 Advanced Camera Control 快速模拟了一个基努里维斯的3D模型效果，感受： 1 需要经过训练掌握面板中的参数配合，否则成功率可能不高 2 匹配合理的参数后，成功率很高，尤其对真人的推演，总的来说比预期的效果要好 #AIart #aigc

汗青 HQ

59,791 Aufrufe • vor 1 Jahr

如果你想你的 Claude Code 能使用 Claude 之外的 AI 模型，比如 o3、Gemini 2.5 pro，你可以试试 claude-bridge，它可以使用 Claude Code 拦截并转换 API 请求，让你可以轻松集成 OpenAI、Google 等多个大语言模型服务。当然还是搭配 Claude 4 Opus、Sonnet 效果最佳，建议还是考虑 Claude Max 订阅。

如果你想你的 Claude Code 能使用 Claude 之外的 AI 模型，比如 o3、Gemini 2.5 pro，你可以试试 claude-bridge，它可以使用 Claude Code 拦截并转换 API 请求，让你可以轻松集成 OpenAI、Google 等多个大语言模型服务。当然还是搭配 Claude 4 Opus、Sonnet 效果最佳，建议还是考虑 Claude Max 订阅。

宝玉

35,817 Aufrufe • vor 1 Jahr

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

卧槽，这个模型真的有点东西啊! 看完后就想问什么时候可以上手啊！ Odyssey AI实验室刚刚扔出一个真正让人眼前一亮的家伙：Starchild-1。这是全球第一个实时多模态世界模型。它不只是生成画面，还能同时生成真实世界的声音。视频里你能看到一个完整的场景：画面在动，声音同步响起，视觉和听觉完全融为一体，像真正活过来的世界模拟。以前的世界模型大多只能“看”世界，现在Starchild-1直接学会了“听”。这不仅仅是又一个视频生成工具，更大的意义是朝着通用世界模型又迈出的关键一步，真正理解并模拟物理世界的下一步。 Odyssey团队说，他们正在用这种新形式的多模态智能，重新定义AI对现实的认知。

Berryxia.AI

37,141 Aufrufe • vor 1 Monat

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

indigo

183,903 Aufrufe • vor 2 Jahren

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

空间智能赛道刚刚又出了新模型：Moonlake，能生成3D世界，还能同时处理物理、声音、逻辑规则等多种模态与李飞飞的World Labs不同的是，World Labs偏场景生成，Moonlake更重交互，更像是在构建一个可交互、物理正确、逻辑完整、视听一体的“活世界” 给定一句“在街机室里做一个赛博朋克风格的保龄球游戏”需求它能自动拆解成生成3D模型、加物理、摆位置、写规则等10个阶段，自主完成从零到一的开发过程输出一个实时可玩的虚拟保龄球馆，能交互，拿球、投掷、有声音、有分数变化，所有东西都按物理规律运作的核心机制是所有模态绑定在同一个实体上，一次事件，比如球击中瓶子时，位置、物理状态、分数、音效等全模态同步更新对于做游戏的，原来要用一个团队干的活，现在可能一个人就能完成对于老师，几句话生成学生能实时交互的物理实验场景 #世界模型生成 #Moonlake #WorldLabs #空间智能

AIGCLINK

10,970 Aufrufe • vor 3 Monaten

肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚有人说它的伟大程度,不亚于 MCP 和 Skill。第一眼我是不信的,直到拆开看它内部怎么跑：这不是"问一句答一句"的对话,而是一个能自己跑起来的任务系统:后台持续执行、可监控、可保存进度, 还能一口气派出几十上百个 agent 分头干活/合并汇总。核心就三个角色: Claude 拆任务、定计划; Runtime 管调度和状态; 每个 agent 只啃一个子任务,配上并发池和队列,有节奏地推进。它代表的是一种新的工程编排方式:智能负责规划,Runtime 负责执行,状态独立保存,模型按需调度。最反直觉的一点:它能扩展到上百个 agent,靠的不是模型变强,而是"状态外置"—中间结果全交给执行系统保存,主上下文只看摘要和关键判断。这才是复杂任务能跑稳的真正原因。这条视频直接给了你把它搬进自己系统的方法: 先用 Claude Code 做高质量规划、拆任务定阶段; 再把 workflow 转成自己的执行格式,按任务难度路由到不同模型池，简单的走便宜模型，复杂的才上高阶模型。这条视频,值得反复看几遍👇

肝了几天,来回打磨了快 30 遍, 一次性把最新的 Claude Code 的 Workflow 给你完全拆解清楚有人说它的伟大程度,不亚于 MCP 和 Skill。第一眼我是不信的,直到拆开看它内部怎么跑：这不是"问一句答一句"的对话,而是一个能自己跑起来的任务系统:后台持续执行、可监控、可保存进度, 还能一口气派出几十上百个 agent 分头干活/合并汇总。核心就三个角色: Claude 拆任务、定计划; Runtime 管调度和状态; 每个 agent 只啃一个子任务,配上并发池和队列,有节奏地推进。它代表的是一种新的工程编排方式:智能负责规划,Runtime 负责执行,状态独立保存,模型按需调度。最反直觉的一点:它能扩展到上百个 agent,靠的不是模型变强,而是"状态外置"—中间结果全交给执行系统保存,主上下文只看摘要和关键判断。这才是复杂任务能跑稳的真正原因。这条视频直接给了你把它搬进自己系统的方法: 先用 Claude Code 做高质量规划、拆任务定阶段; 再把 workflow 转成自己的执行格式,按任务难度路由到不同模型池，简单的走便宜模型，复杂的才上高阶模型。这条视频,值得反复看几遍👇

huangserva

141,583 Aufrufe • vor 17 Tagen

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

国产最新的多模态模型来了！！前两周我刚体验过国产的阶跃星辰大模型，没想到这么快他们的新模型 Step 3.7 Flash 就出了。现在大模型一发布必卷 benchmark 分数，但真正做 Agent 的人都清楚：跑分高 ≠ 能把活干完。所以这次阶跃星辰的新模型 Step 3.7 Flash 它再不追求单点最聪明、也不只是单次最快，而是主打“生产任务端到端执行效率”。一个真实的 Agent 任务从来不是一次问答，而是规划 → 搜索 → 工具调用 → 代码生成 → 多模态理解 → 反复校验的完整闭环，Step 3.7 Flash 这次升级的重点是整条链路的效率，而不是某个孤立指标。提几个我觉得挺务实的点： 1. 原生多模态模型：它可以直接处理 UI 截图、图表、仪表盘、文档，原生读懂并转成结构化输出和可执行步骤，不需要像一些模型那样外挂视觉理解 MCP，而且现在多模态是顶级模型的标配。 2. 推理加入搜索和视觉检索：网页搜索、图像搜索、视觉验证、多源信息比对，让 Agent 在开放任务里边查边验证边行动，而不是事后再接个外部工具。 3. 198B MoE、约 11B 激活参数，最高 400 TPS：稀疏激活 + 这个速度，意味着高频交互、多步工作流、反复工具调用的场景下，单位任务的成本和延迟都压得很低——快和省是一起来的。 4. 开源、可部署：生产环境要的不只是 API，还有透明度、可控性和部署灵活性。如果你在做 AI Agent、coding 工作流、搜索类应用或多模态系统，值得用 StepFun 试试这款新模型的能力。想看更进阶的平台能力，可以了解 Step Plan。海外平台：国内平台：

耳朵

12,015 Aufrufe • vor 13 Tagen

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

Qwen3-Coder 实测来啦! 挑战 Gemini-2.5-Pro! 这次为大家带来我4月就准备好的难度更高的测试——大象牙膏模拟! 这个测试要求大模型绘制一个内部有粉色溶液的三角烧瓶，然后开始化学反应，溶液变成泡沫从瓶口喷发而出最后落下来。这道题的相当难，基础的 three.js 使用就不说了, 首先如何建模一个好看的三角烧瓶就能难倒一大堆大模型, 以至于这道题的 prompt 写出来后, 当时只有 gemini-2.5-pro 可以完成. 这道题的难点如下: 三角烧瓶的绘制三角烧瓶内粉色溶液随着化学反应溶液液面逐渐减少如何模拟泡沫从瓶口喷出泡沫受重力影响掉落在桌面上泡沫逐渐变扁并消失泡沫破的光照与阴影直接看 Qwen3-Coder 的测试结果, 这次我们先用几天前刚发布的 Qwen3-235B-A22B-2507 更新版作为对比. 可以看到 Qwen3-Coder 几乎是摧枯拉朽般的能力提升, 大家都会问画面左边的是什么东西, 实际上这个还是修了一遍bug的结果, 模型默认引用 three.js 库有问题, 连运行都没办法运行, 所以大家看到的是我修了引用bug后的结果. 而右侧的 Qwen3-Coder 不但三角烧瓶绘制得很不错, 并且泡沫喷出, 逐渐变扁并消失做得也非常好, 美中不足是烧瓶中的液面模拟不对, 还是个锥台, 其实应该模拟液面逐渐下降的效果. 另外泡沫喷发也没有模拟在瓶内的运动, 包括收到瓶内壁挤压的拉瓦尔喷管效果. 对比 Gemini-2.5-Pro, 做的比较好的点是三角烧瓶建模精美, 以及泡沫在瓶壁上的效果很棒, 但液面下降也没有模拟好. 另外这次我还放出了其它几次 Qwen3-Coder 生成的效果. 可以看到三角烧瓶的建模都说得过去. 问题均出现在液面的模拟上. 当然也有生成得差的 case, 这三个的效果大概是抽卡15次左右的结果. 总结时间, 我的评价是: Qwen3-Coder 这次更新彻底让开源MoE大模型进入了三国时代. 目前 Qwen3-Coder 足以在一些场景挑战头部的闭源大模型. 我之前的拆烟囱测试发布后受到了大家的欢迎, 这次收藏了3个月的压箱底 prompt 大家感兴趣也可以试试与其他模型对比一下看看效果. 一定可以对大模型能力有一个特别直观的体验. #qwen3 #qwen3coder #大象牙膏测试

karminski-牙医

63,222 Aufrufe • vor 11 Monaten

向阳乔木歸藏(guizang.ai) 两位老师的提示词实在太棒了，用 Claude 3.5/3.7 分别对几套提示词做了实验，效果拔群（详见视频👇） 3.7 + 优秀提示词的潜力巨大，大家可以从🧵里获取完整的画布以及 3 个目前我最满意的“作品”。 p.s. 其它模型（含 GPT 家族和国产优秀模型）在代码生成方面感觉还有很大提升空间😭

向阳乔木歸藏(guizang.ai) 两位老师的提示词实在太棒了，用 Claude 3.5/3.7 分别对几套提示词做了实验，效果拔群（详见视频👇） 3.7 + 优秀提示词的潜力巨大，大家可以从🧵里获取完整的画布以及 3 个目前我最满意的“作品”。 p.s. 其它模型（含 GPT 家族和国产优秀模型）在代码生成方面感觉还有很大提升空间😭

Harry Zhang

39,359 Aufrufe • vor 1 Jahr

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

大模型写代码比说话还快是什么体验? 智谱刚出了一个 GLM-5.1-highspeed 版本, 赶紧要了个内测给大家做点有趣的 APP. 我测了一下这个模型反应速度用来写代码的话, 人类打字甚至都跟不上它, 于是我干脆接了个语音转文本的服务直接让我言出法随操作它写代码. 大家能看到基本是我说完3s左右它就修改完毕了, 这之间发生了语音转文本(第三方服务), 模型判断是否任务可以并发, 模型 prefill, 模型使用 tool call 修改代码段. iframe 重新渲染. 这些全都发生在 3s 这么短的时间内. 直接体验拉满. 这个模型直接量变引起了质变, 一些之前不敢想象的交互体验现在都可以做了. 所以如果你想使用这个模型构建一些极具竞争力的项目, 不妨去申请试试, 目前这个模型正在向部分企业用户提供中. #GLM #GLM51highspeed #智谱AI

karminski-牙医

11,665 Aufrufe • vor 24 Tagen

这个3D模型是我见过目前最屌的模型了，一盘竟然全部把整个结构打出来，带这个轴体它都是全部一次打出来的，太牛逼了

这个3D模型是我见过目前最屌的模型了，一盘竟然全部把整个结构打出来，带这个轴体它都是全部一次打出来的，太牛逼了

Andy Stewart

14,513 Aufrufe • vor 1 Monat

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

预测真实世界下一秒北京智源研究院推出全新的多模态世界模型：Emu3.5 很多传统图像生成模型的主要问题是：它们“不懂世界”运行的规律，无法理解真实世界的物理规则和因果关系。 Emu3.5在传统图像生成的基础上，进一步让AI具备：理解真实世界的空间关系推理物体随时间变化的规律预测“世界下一秒”会是什么样不同于以往为图像、文字、视频分开设计模型，Emu3.5 将它们全部“统一”在一个系统中：首先把多模态信息包括图文视频都统一成了token；模型通过“预测下一个 token”来学习不同模态间的关系；任务统一为 NSP：预测下一个世界状态（包括视觉和语言）。 Emu3.5 不再只关注“文本之间的逻辑”，而是让模型学习“世界是如何变化的”。意思就是它不再区分：这是一张图这是一句话这是视频的一帧在它眼里，它们都是同一套“世界积木”。然后模型只做一件事：预测下一块积木是什么如果下一块积木是一行字 → 它补全文字如果是下一帧画面 → 它补全动作如果是下一步结果 → 它推演世界变化所以：预测下一 Token = 预测“世界下一秒”会是什么样

小互

14,775 Aufrufe • vor 6 Monaten

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

karminski-牙医

47,153 Aufrufe • vor 1 Monat

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

大多数人以为 prompting 只是把句子写得更好 Anthropic 这个 32 分钟 workshop 讲的是另一件事：为什么这完全不够它拆的不是 prompt hacks 不是“act as” 也不是又一个 $300 的课程而是 production 里的 prompt 到底怎么搭 Evals Edge cases Model migration Agent loops 一个好的 prompt，不是一句话而是一套模型可以理解、执行、测试、再改进的 workflow 这点很重要因为不管后面是新的 Claude Opus，还是新的 Sonnet，真正有效的规则大概率还是这些： - 让模型知道目标 - 让模型知道边界 - 让模型知道怎么检查自己 - 让模型知道遇到 edge case 时该怎么处理所以很多时候，AI 给出的坏答案，不一定是模型差也可能只是 setup 太差这个 prompting playbook，建议在下次怪 AI 之前先看完

0x_Miko

15,628 Aufrufe • vor 17 Tagen

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

开源分解图层大模型这么快就来了? 给大家带来阿里刚刚发布的 Qwen-Image-Layered 模型实测, 这是一个可以把图片分成不同图层的大模型, 模型是基于 Qwen-Image 微调的. 本次我的测试覆盖这个模型的擅长场景(海报), 指令遵循测试(指定抽取目标), 边缘处理(头发), 极限测试(全是贴纸, 一个贴纸一个图层的话可以抽取50多个图层). 直接说结论, 首先还是模型太大了, 因为这个模型基于 Qwen-Image 所以是个20B的模型, 我是用HuggingFace Zero GPU 测试, 每次运行大概2分钟左右, 模型的确可以做到分离图层, 而且边缘处理很不错, 不过稳定性有待优化, 在我测试中4个图层可以输出, 但是8个或者10个图层就炸了, 怀疑可能是超过了Zero GPU超时或者bug (GPU是H200, 不太可能爆显存), 输出尺寸只有 544*736, 官方也推荐640分辨力, 这点也需要提升, 以及模型还是太大了, 20B, 希望能优化下尺寸.

karminski-牙医

14,175 Aufrufe • vor 6 Monaten

OpenWebUI 绝对是这几个本地大模型推理界面可视化做得最好的。他们刚刚又发布了一个推理 token 路径可视化 Narrative Beam Search，会生成n个可选路径，并演示从中选择一个。可以基于系统提示词选择不同的路径。看上去十分炫酷。给没用过 OpenWwebUI 的同学，OpenWebUI 类似 Ollama，都是一个包含了推理引擎和界面以及 MCPServer 的大模型前端框架，算是一个 All-in-one 的大模型平台，下载后点击即可自动下载你需要的大模型并使用。 OpenWebUI 地址：

OpenWebUI 绝对是这几个本地大模型推理界面可视化做得最好的。他们刚刚又发布了一个推理 token 路径可视化 Narrative Beam Search，会生成n个可选路径，并演示从中选择一个。可以基于系统提示词选择不同的路径。看上去十分炫酷。给没用过 OpenWwebUI 的同学，OpenWebUI 类似 Ollama，都是一个包含了推理引擎和界面以及 MCPServer 的大模型前端框架，算是一个 All-in-one 的大模型平台，下载后点击即可自动下载你需要的大模型并使用。 OpenWebUI 地址：

karminski-牙医

19,082 Aufrufe • vor 11 Monaten

我不觉得龙虾适合所有人。但如果你是创业者、是老板——不用就真的错过这个时代了。现在OPC已经出现，一个人带着AI军团，效率比你整个团队还高。顶级模型一个月两三万，换回来的是什么？是降维打击。

我不觉得龙虾适合所有人。但如果你是创业者、是老板——不用就真的错过这个时代了。现在OPC已经出现，一个人带着AI军团，效率比你整个团队还高。顶级模型一个月两三万，换回来的是什么？是降维打击。

傅盛

14,613 Aufrufe • vor 3 Monaten