karminski-牙医's banner

karminski-牙医

@karminski3 • 37,647 subscribers

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

Shorts

来，10x 龙虾（openclaw）🦞烤串给大家安排上，其实春节前就在搞了，结果一波铺天盖地的新模型发布让我忙于评测就搁置了。从周末开始陆续给大家带来从0开始的入门级openclaw教程（不会写代码也能看懂那种）到超进阶究极玩法（比如我这个10龙虾🦞集群）欢迎关注～ 📷 #OpenClaw #龙虾 #AI教程

来，10x 龙虾（openclaw）🦞烤串给大家安排上，其实春节前就在搞了，结果一波铺天盖地的新模型发布让我忙于评测就搁置了。从周末开始陆续给大家带来从0开始的入门级openclaw教程（不会写代码也能看懂那种）到超进阶究极玩法（比如我这个10龙虾🦞集群）欢迎关注～ 📷 #OpenClaw #龙虾 #AI教程

27,444 просмотров

WAN 2.2 的社区 LoRA + 工作流开始爆发了。这次的超真实切入点是真的不错 👍

WAN 2.2 的社区 LoRA + 工作流开始爆发了。这次的超真实切入点是真的不错 👍

33,103 просмотров

做RAG的朋友一定要看看 Google 这个新论文——MUVERA：让多向量检索与单向量搜索一样快大家在RAG的检索内容过程都会遇到这种情况，如果用传统搜索（例如ElasticSearch），文档 = 1 个向量 → 快速但不准确。如果用向量数据库，现代多向量搜索：文档 = 数百个向量 → 准确但极其缓慢。于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量，同时保留相似性关系。其神奇之处在于，两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集，使其既能够抵抗数据分布的变化，又适合流式应用。此外，与模型产生的单向量不同，FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此，在重排序阶段之后，MUVERA 保证能够找到最相似的多向量表示。所以这个新方法能有效地提升RAG检索阶段的效率，现阶段连Python库都有了，需要的同学可以试试。论文地址： Chamfer 相似度： python库：

做RAG的朋友一定要看看 Google 这个新论文——MUVERA：让多向量检索与单向量搜索一样快大家在RAG的检索内容过程都会遇到这种情况，如果用传统搜索（例如ElasticSearch），文档 = 1 个向量 → 快速但不准确。如果用向量数据库，现代多向量搜索：文档 = 数百个向量 → 准确但极其缓慢。于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量，同时保留相似性关系。其神奇之处在于，两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集，使其既能够抵抗数据分布的变化，又适合流式应用。此外，与模型产生的单向量不同，FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此，在重排序阶段之后，MUVERA 保证能够找到最相似的多向量表示。所以这个新方法能有效地提升RAG检索阶段的效率，现阶段连Python库都有了，需要的同学可以试试。论文地址： Chamfer 相似度： python库：

30,055 просмотров

funwithcomputervision 发布了一个开源实时 3D 操纵器，你可以基于手势来操作投在界面上的任何物体，无论是缩放，移动，调节等等都能实现。感觉这个对AI眼镜的操作还是很有帮助的，现在全是闭源实现（比如 Apple VisionPro ），终于看到了个开源实现。在线体验地址，注意需要有摄像头：

funwithcomputervision 发布了一个开源实时 3D 操纵器，你可以基于手势来操作投在界面上的任何物体，无论是缩放，移动，调节等等都能实现。感觉这个对AI眼镜的操作还是很有帮助的，现在全是闭源实现（比如 Apple VisionPro ），终于看到了个开源实现。在线体验地址，注意需要有摄像头：

26,949 просмотров

现在头部大模型厂商在 Chat 界面都能所见即所得的生成网页了，那么有没有开源替代呢？我找到了一个—— davia 这个项目使用 FastAPI 构建，直接 pip install davia 就能安装，UI 组件使用 shadcn/ui，支持 Tailwind 颜色自定义，响应式布局，以及黑暗模式。项目地址：

现在头部大模型厂商在 Chat 界面都能所见即所得的生成网页了，那么有没有开源替代呢？我找到了一个—— davia 这个项目使用 FastAPI 构建，直接 pip install davia 就能安装，UI 组件使用 shadcn/ui，支持 Tailwind 颜色自定义，响应式布局，以及黑暗模式。项目地址：

21,887 просмотров

来个本地 RAG 框架 Lobe Chat，这个框架在 Github 上已经有59K Star了。 Lobe Chat 上常用的本地AI功能都有，包括各个服务商的接口，文件上传、知识管理、 RAG、多模态、生成动态 SVG 图形、构建并渲染交互式 HTML 页面、生成多种格式的文档等等地址：

来个本地 RAG 框架 Lobe Chat，这个框架在 Github 上已经有59K Star了。 Lobe Chat 上常用的本地AI功能都有，包括各个服务商的接口，文件上传、知识管理、 RAG、多模态、生成动态 SVG 图形、构建并渲染交互式 HTML 页面、生成多种格式的文档等等地址：

23,518 просмотров

大家在使用YOLO的时候，有没有遇到过大分辨率检测精度下降或者性能不够的情况？来看——SAHI（切片辅助超推理）这个库很简单，就是把视频的局部切片单独塞给YOLO，最后再拼回来。这样可以优化内存使用和实现高精度检测。原因也很简单，像 YOLO 这样的模型在训练时和推理时都需要将输入图片统一调整到固定的尺寸（例如 640x640 像素）。所以4K压缩到小尺寸那么图片中的细节和特征肯定就丢失了另外遇到超大分辨率的输入也可以实现解析，比如卫星图像或者医学诊断库在这里：

大家在使用YOLO的时候，有没有遇到过大分辨率检测精度下降或者性能不够的情况？来看——SAHI（切片辅助超推理）这个库很简单，就是把视频的局部切片单独塞给YOLO，最后再拼回来。这样可以优化内存使用和实现高精度检测。原因也很简单，像 YOLO 这样的模型在训练时和推理时都需要将输入图片统一调整到固定的尺寸（例如 640x640 像素）。所以4K压缩到小尺寸那么图片中的细节和特征肯定就丢失了另外遇到超大分辨率的输入也可以实现解析，比如卫星图像或者医学诊断库在这里：

15,181 просмотров

Github 刚刚发布了 Copilot Cli! 相较于其它 Terminal Coding Agent ，最大的优势是与 Github 深度结合, 比如你可以使用它直接查看 Assign 到自己的issue, 统计自己提交的 PR, 看看哪些合并了, 哪些还没有合并, 甚至做一些复杂的聚合, 比如项目中谁修的bug最多, 谁写得新代码最多等等. #Github #Copilot

Github 刚刚发布了 Copilot Cli! 相较于其它 Terminal Coding Agent ，最大的优势是与 Github 深度结合, 比如你可以使用它直接查看 Assign 到自己的issue, 统计自己提交的 PR, 看看哪些合并了, 哪些还没有合并, 甚至做一些复杂的聚合, 比如项目中谁修的bug最多, 谁写得新代码最多等等. #Github #Copilot

15,189 просмотров

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

完了! 我的整活被官方相中了! 搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次 Doubao-Seed-2.0-Lite 的宣发 Demo 视频那个AI电竞教练的就是这个 Demo 哈. 以及, 具体的整活视频还在制作中~ 大家稍安勿躁, 稍后给大家带来全部整活细节~ #seed20lite #doubao #doubaoseed #字节跳动

完了! 我的整活被官方相中了! 搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次 Doubao-Seed-2.0-Lite 的宣发 Demo 视频那个AI电竞教练的就是这个 Demo 哈. 以及, 具体的整活视频还在制作中~ 大家稍安勿躁, 稍后给大家带来全部整活细节~ #seed20lite #doubao #doubaoseed #字节跳动

karminski-牙医

158,041 просмотров • 2 месяцев назад

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦，这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4

karminski-牙医

612,657 просмотров • 1 год назад

波士顿动力的机器狗怎么还在翻跟头，这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片，不过侧面翻跟头这个的确很丝滑)

波士顿动力的机器狗怎么还在翻跟头，这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片，不过侧面翻跟头这个的确很丝滑)

karminski-牙医

281,730 просмотров • 10 месяцев назад

可口可乐今年的广告爆了(-10086) 可口可乐今年的圣诞广告刚放出，100% AI制作，结果我刚刷了一下油管，底下全是骂的. 到底好不好, 我视频后半段给大家拼上了2006年获得艾美奖的可口可乐广告，大家评判一下权当一乐。 2006年那个广告主题是 "每台可口可乐自动售货机都藏着一个充满奇异物种的世界，这些物种历经磨难以确保顾客获得幸福" (由 Psyop 公司的 Todd & Kylie 导演，Hungry Man 公司的 Peter Lydon 拍摄实拍部)

可口可乐今年的广告爆了(-10086) 可口可乐今年的圣诞广告刚放出，100% AI制作，结果我刚刷了一下油管，底下全是骂的. 到底好不好, 我视频后半段给大家拼上了2006年获得艾美奖的可口可乐广告，大家评判一下权当一乐。 2006年那个广告主题是 "每台可口可乐自动售货机都藏着一个充满奇异物种的世界，这些物种历经磨难以确保顾客获得幸福" (由 Psyop 公司的 Todd & Kylie 导演，Hungry Man 公司的 Peter Lydon 拍摄实拍部)

karminski-牙医

141,319 просмотров • 8 месяцев назад

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos

Fable 5 超越人类还为时尚早! 给大家带来 Anthropic Fable 5 的测试速报! 直接用了 xhigh, 让它从0写一个光追渲染, 整体效果是好的, 尤其是 PBR 与 BRDF 写得都非常棒. 但是遇到了个奇怪的问题, 它声明变量竟然位置搞错了, 有一个变量的声明比引用晚了. 导致直接报错. 所以感觉模型能力是有的, 但是内部机制可能会有问题, 比如可能是光追的核心逻辑, 在神经网络中激活度特别高, 导致模型生成时过分的注意算法实现, 忽略了变量声明这种小细节. 另外, 这玩意我是用不起了... 就视频中这个网页, 2刀进去了... 我承认AI超越人类还为时尚早, 因为我的的工资没这么高哈哈哈哈哈🥲. #fable5 #anthropic #mythos

karminski-牙医

25,475 просмотров • 1 месяц назад

游戏代打也要失业了? 来看 NVIDIA NitroGen NVIDIA 刚刚又发了个新模型 NitroGen，这是个只有 1B 大小却可以玩游戏的大模型，它接受视频帧输入，然后输出手柄操作。所以非常适合用来玩手柄可以操作的动作类游戏。这个模型最大的特点是，它是基于游戏视频本身学习的，以往互联网上虽然有很多游戏视频，但是游戏操作并没有记录下来，而 NitroGen 它利用了合成动作标签技术。研究团队通过大规模的逆动力学模型，从公开的互联网游戏视频中“反推”出当时玩家可能按下的键，从而人工合成了海量的训练数据，通过上万小时的纯视频数据进行预训练，打破了数据瓶颈。而且最重要的是，这个模型支持后训练。这意味着面对一款它从未见过的全新游戏不需要从头训练，只需少量的微调或适配即可上手游玩。

游戏代打也要失业了? 来看 NVIDIA NitroGen NVIDIA 刚刚又发了个新模型 NitroGen，这是个只有 1B 大小却可以玩游戏的大模型，它接受视频帧输入，然后输出手柄操作。所以非常适合用来玩手柄可以操作的动作类游戏。这个模型最大的特点是，它是基于游戏视频本身学习的，以往互联网上虽然有很多游戏视频，但是游戏操作并没有记录下来，而 NitroGen 它利用了合成动作标签技术。研究团队通过大规模的逆动力学模型，从公开的互联网游戏视频中“反推”出当时玩家可能按下的键，从而人工合成了海量的训练数据，通过上万小时的纯视频数据进行预训练，打破了数据瓶颈。而且最重要的是，这个模型支持后训练。这意味着面对一款它从未见过的全新游戏不需要从头训练，只需少量的微调或适配即可上手游玩。

karminski-牙医

103,392 просмотров • 7 месяцев назад

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash

karminski-牙医

47,153 просмотров • 2 месяцев назад

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

再给 Grok 4 一次机会哈上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜！撸可英买埃斯！这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错不好的：默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了，这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象爆炸的粒子模拟很怪，勉强能理解那个白色的是一团烟雾光影效果特别差，对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的！我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".)，并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论：别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,748 просмотров • 1 год назад

国产视频生成框架！能让老黄唱野狼 Disco！大模型竞技场速报！17小时前发布的国产人类视频生成框架—— OmniHuman-1！（一定要开声音看这个视频才震撼！）这个模型的突破有： 1. 首次实现单模型支持音频/视频/文本/姿态任意组合生成视频，突破现有方法只能单一模式的限制。

国产视频生成框架！能让老黄唱野狼 Disco！大模型竞技场速报！17小时前发布的国产人类视频生成框架—— OmniHuman-1！（一定要开声音看这个视频才震撼！）这个模型的突破有： 1. 首次实现单模型支持音频/视频/文本/姿态任意组合生成视频，突破现有方法只能单一模式的限制。

karminski-牙医

185,701 просмотров • 1 год назад

如何用DeepSeek-R1蒸馏出属于你自己的大模型！发现了一个新的fune-tune框架，可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型，整个过程是全自动的，不需要编写代码或者手动调节，仅需定义你的数据集即可。 [1/2]

如何用DeepSeek-R1蒸馏出属于你自己的大模型！发现了一个新的fune-tune框架，可以在1小时内让DeepSeek-R1蒸馏出属于你自己的小模型，整个过程是全自动的，不需要编写代码或者手动调节，仅需定义你的数据集即可。 [1/2]

karminski-牙医

181,072 просмотров • 1 год назад

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli

karminski-牙医

40,013 просмотров • 2 месяцев назад

Github Universe 太壕了！参会牌是个带屏幕的树莓派！我之前参加 Vibe Friends 的 hackathon 参会牌是 Bonjour 的NFC 刷了之后还能跟参会的朋友加好友。Github 这个是真的把大会卷到了一个新的高度哈哈哈

Github Universe 太壕了！参会牌是个带屏幕的树莓派！我之前参加 Vibe Friends 的 hackathon 参会牌是 Bonjour 的NFC 刷了之后还能跟参会的朋友加好友。Github 这个是真的把大会卷到了一个新的高度哈哈哈

karminski-牙医

94,971 просмотров • 8 месяцев назад

ADOBE 真的在努力不被AI淘汰，我哭死 Illustrator 现在支持旋转画面了，不是传统的那个"旋转", 看视频就知道了.

ADOBE 真的在努力不被AI淘汰，我哭死 Illustrator 现在支持旋转画面了，不是传统的那个"旋转", 看视频就知道了.

karminski-牙医

110,640 просмотров • 11 месяцев назад

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

给大家带来 MiniMax-M3 实测! 本次测试包含了复杂前端, 后端 Agentic Coding, Agent 能力测试, 以及我的使用经验总结. 来看结论: 前端能力上, 可以完全适配 KCORES2026p2 的前端测试题目, 无论是空间理解, 建模精确度, 场景美学都十分在线, 其中我最满意的是美学部分, 它的颜色运用非常好. 不足的地方主要体现在复杂需求不能一次性写对(比如光追引擎), 需要迭代一下就可以了. 后端能力测试这次也是突飞猛进, 得分超过了 deepseek-v4-pro 和其他一众国产大模型, 略逊于 GPT-5.4-Pro(xhigh). Agent 能力上表现同样亮眼, 达成了榜单第二的接单量, 证明它的规划能力特别强。下面是我在测试和实际使用中, 总结出来的 M3 使用经验, 供大家参考: 我的体感是 M3 特别喜欢推理, 它可以单次执行超长的推理. 在咱们的这些前端测试中, 它最长的输出甚至达到了我规定的 64k token上限, 所以, 不要上来就写一个超级复杂的 prompt 让它执行, 而是需要先把需求形成 plan, 然后让 agent 蜂群去执行, 这样才能得到理想的效果, 所以 M3 先天适合放在带 plan 模式的 Coding Agent 中使用. 如果把它嵌入到 Agent 框架中使用, 那么 prompt 编排就一定要做好, 不要一股脑把大量的 tool call 或者超大的 system prompt 丢给它. 还是需要下功夫好好编排一下的. 本次 M3 相比之前的 2.7 版本有了大幅度的提升, 模型偏好上来看, M3 是一个规划能力极强的模型, 所以特别适合用在一些规划性质的 Agent 框架中, 比如任务拆分, 日程管理, 流程设计等. 而本次暴露出来的不足则是执行过程中约束不够强, 比如 prompt 中设置的复杂规则, 一定要增加代码级别的 harness 闭环流程来进行约束, 而不能只靠模型本身来管理自己的行为. #minimaxm3 #minimax #agenticcoding #aiagent #harness

karminski-牙医

18,821 просмотров • 1 месяц назад

给大家来个短小精悍的 nano-banana 教程！如何将你看到的建筑转换为城市天际线风格的3D建筑模型！大家还想看什么教程可以留言给我~ 安排！ #nanobanana

给大家来个短小精悍的 nano-banana 教程！如何将你看到的建筑转换为城市天际线风格的3D建筑模型！大家还想看什么教程可以留言给我~ 安排！ #nanobanana

karminski-牙医

91,037 просмотров • 10 месяцев назад

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾

karminski-牙医

41,275 просмотров • 4 месяцев назад

Anime.js 刚发了个大版本，官网demo是真的炫酷，没错，你在这个视频看到的全都是用anime.js 这个库实现的动画地址：

Anime.js 刚发了个大版本，官网demo是真的炫酷，没错，你在这个视频看到的全都是用anime.js 这个库实现的动画地址：

karminski-牙医

121,258 просмотров • 1 год назад

Gemini-3.5-flash发布! 价格直接翻三倍? Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5-flash 直接全量上线了. 价格直接从 gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9, 那么性能有提示吗? 我简单测了几个例子, 目前来看体感处于 Genini-3.0-pro 和 Gemini-3.1-Pro 之间 (测试用的是 Thinking level: high) 不过稳定性就差很多了, 3D 渲染的 shader 它怎么都写不对, 我只能手动修了一下才能运行视频中这个火山喷发演示. 从目前 Gemini 系列模型迭代来看, Google 可能更想学 Anthropic, 搞三个档次. flash-lite 会取代之前 flash 的位置. 而 flash 更可能是主打一百万上下文内不设置阶梯定价, 承接 pro 这部分溢出的用户. 而本身编程性能上距离 pro 还有点差距. Pro 自然就是旗舰级别模型了. 不过现在这个定价来看, 可能这次 flash 更多是为了跟这次一起发布的 Antigravity CLI 一起搭配用的. 做 claude code 中 sonnet 模型的生态位置. #geminiflash35 #geminiflash #googleio

Gemini-3.5-flash发布! 价格直接翻三倍? Google I/O 开始啦! 今天上来就是模型发布, Gemini-3.5-flash 直接全量上线了. 价格直接从 gemini-3-flash 的每百万 Token 输入/输出 $0.50 / $3 涨到了 $1.5 / $9, 那么性能有提示吗? 我简单测了几个例子, 目前来看体感处于 Genini-3.0-pro 和 Gemini-3.1-Pro 之间 (测试用的是 Thinking level: high) 不过稳定性就差很多了, 3D 渲染的 shader 它怎么都写不对, 我只能手动修了一下才能运行视频中这个火山喷发演示. 从目前 Gemini 系列模型迭代来看, Google 可能更想学 Anthropic, 搞三个档次. flash-lite 会取代之前 flash 的位置. 而 flash 更可能是主打一百万上下文内不设置阶梯定价, 承接 pro 这部分溢出的用户. 而本身编程性能上距离 pro 还有点差距. Pro 自然就是旗舰级别模型了. 不过现在这个定价来看, 可能这次 flash 更多是为了跟这次一起发布的 Antigravity CLI 一起搭配用的. 做 claude code 中 sonnet 模型的生态位置. #geminiflash35 #geminiflash #googleio

karminski-牙医

22,999 просмотров • 2 месяцев назад

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31

karminski-牙医

86,008 просмотров • 11 месяцев назад

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站, 那么都要搜一下附近有哪些换电站(这就会浪费一次tool_call), 而GLM-5.2直接就知道换电站的位置! 从来没用过搜索函数. 这种一开始就把需要的数据内化到上下文中, 并且能够贯穿整个1M上下文进行推理的能力真的是叹为观止. 除此之外, 本次测试后端代码的 Agentic Coding 能力也有提升, 来到了总榜的第二名. 而本次测试暴露出最大的短板则是空间理解. 其实成也萧何败也萧何, 它虽然把换电站的位置都背下来了, 但是去的换电站却不是最近的, 所以虽然记住了, 但是记住了之后在用之前再根据自己当前所在位置推理一下, 他还是没有做到的, 这也是最大的短板了, 强烈建议官方优化一波. #GLM52 #智谱 #智谱AI #AgenticCoding #长上下文能力

GLM-5.2 刚刚正式发布! 给大家带来实测! 直接说结论本次测试中, 提升最大的是Agent能力, 而且是有质的变化! 测试中GLM-5.2 完全不用搜索附近的位置, 就能直接去想要到达的地方. 这一切竟然是它在一开始把地图背下来了! 这在我测试的20多个模型中之前是没有一个模型能做到的, 比如之前的模型想去换电站, 那么都要搜一下附近有哪些换电站(这就会浪费一次tool_call), 而GLM-5.2直接就知道换电站的位置! 从来没用过搜索函数. 这种一开始就把需要的数据内化到上下文中, 并且能够贯穿整个1M上下文进行推理的能力真的是叹为观止. 除此之外, 本次测试后端代码的 Agentic Coding 能力也有提升, 来到了总榜的第二名. 而本次测试暴露出最大的短板则是空间理解. 其实成也萧何败也萧何, 它虽然把换电站的位置都背下来了, 但是去的换电站却不是最近的, 所以虽然记住了, 但是记住了之后在用之前再根据自己当前所在位置推理一下, 他还是没有做到的, 这也是最大的短板了, 强烈建议官方优化一波. #GLM52 #智谱 #智谱AI #AgenticCoding #长上下文能力

karminski-牙医

13,155 просмотров • 1 месяц назад