karminski-牙医's banner
karminski-牙医's profile picture

karminski-牙医

@karminski337,463 subscribers

A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.

Shorts

来,10x 龙虾(openclaw)🦞烤串给大家安排上,其实春节前就在搞了,结果一波铺天盖地的新模型发布让我忙于评测就搁置了。 从周末开始陆续给大家带来从0开始的入门级openclaw教程(不会写代码也能看懂那种)到超进阶究极玩法(比如我这个10龙虾🦞集群)欢迎关注~ 📷 #OpenClaw #龙虾 #AI教程

来,10x 龙虾(openclaw)🦞烤串给大家安排上,其实春节前就在搞了,结果一波铺天盖地的新模型发布让我忙于评测就搁置了。 从周末开始陆续给大家带来从0开始的入门级openclaw教程(不会写代码也能看懂那种)到超进阶究极玩法(比如我这个10龙虾🦞集群)欢迎关注~ 📷 #OpenClaw #龙虾 #AI教程

27,380 Aufrufe

WAN 2.2 的社区 LoRA + 工作流开始爆发了。这次的超真实切入点是真的不错 👍

WAN 2.2 的社区 LoRA + 工作流开始爆发了。这次的超真实切入点是真的不错 👍

33,103 Aufrufe

做RAG的朋友一定要看看 Google 这个新论文——MUVERA:让多向量检索与单向量搜索一样快 大家在RAG的检索内容过程都会遇到这种情况,如果用传统搜索(例如ElasticSearch),文档 = 1 个向量 → 快速但不准确。如果用向量数据库,现代多向量搜索:文档 = 数百个向量 → 准确但极其缓慢。 于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量,同时保留相似性关系。其神奇之处在于,两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集,使其既能够抵抗数据分布的变化,又适合流式应用。此外,与模型产生的单向量不同,FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此,在重排序阶段之后,MUVERA 保证能够找到最相似的多向量表示。 所以这个新方法能有效地提升RAG检索阶段的效率,现阶段连Python库都有了,需要的同学可以试试。 论文地址: Chamfer 相似度: python库:

做RAG的朋友一定要看看 Google 这个新论文——MUVERA:让多向量检索与单向量搜索一样快 大家在RAG的检索内容过程都会遇到这种情况,如果用传统搜索(例如ElasticSearch),文档 = 1 个向量 → 快速但不准确。如果用向量数据库,现代多向量搜索:文档 = 数百个向量 → 准确但极其缓慢。 于是谷歌提出了 DFEs (固定维度编码) 将多个向量转换为单个固定长度的向量,同时保留相似性关系。其神奇之处在于,两个 FDE 向量之间的点积近似于多向量集合之间的原始 Chamfer 相似度。(Chamfer 相似度是啥详见文尾的文章) MUVERA 的一个关键优势是 FDE 变换是无数据的。这意味着它不依赖于特定的数据集,使其既能够抵抗数据分布的变化,又适合流式应用。此外,与模型产生的单向量不同,FDE 保证在指定的误差范围内近似真实的 Chamfer 相似度。因此,在重排序阶段之后,MUVERA 保证能够找到最相似的多向量表示。 所以这个新方法能有效地提升RAG检索阶段的效率,现阶段连Python库都有了,需要的同学可以试试。 论文地址: Chamfer 相似度: python库:

30,003 Aufrufe

funwithcomputervision 发布了一个开源实时 3D 操纵器,你可以基于手势来操作投在界面上的任何物体,无论是缩放,移动,调节等等都能实现。 感觉这个对AI眼镜的操作还是很有帮助的,现在全是闭源实现(比如 Apple VisionPro ),终于看到了个开源实现。 在线体验地址,注意需要有摄像头:

funwithcomputervision 发布了一个开源实时 3D 操纵器,你可以基于手势来操作投在界面上的任何物体,无论是缩放,移动,调节等等都能实现。 感觉这个对AI眼镜的操作还是很有帮助的,现在全是闭源实现(比如 Apple VisionPro ),终于看到了个开源实现。 在线体验地址,注意需要有摄像头:

26,949 Aufrufe

现在头部大模型厂商在 Chat 界面都能所见即所得的生成网页了,那么有没有开源替代呢?我找到了一个—— davia 这个项目使用 FastAPI 构建,直接 pip install davia 就能安装,UI 组件使用 shadcn/ui,支持 Tailwind 颜色自定义,响应式布局,以及黑暗模式。 项目地址:

现在头部大模型厂商在 Chat 界面都能所见即所得的生成网页了,那么有没有开源替代呢?我找到了一个—— davia 这个项目使用 FastAPI 构建,直接 pip install davia 就能安装,UI 组件使用 shadcn/ui,支持 Tailwind 颜色自定义,响应式布局,以及黑暗模式。 项目地址:

21,468 Aufrufe

来个本地 RAG 框架 Lobe Chat,这个框架在 Github 上已经有59K Star了。 Lobe Chat 上常用的本地AI功能都有,包括各个服务商的接口,文件上传、知识管理、 RAG、多模态、生成动态 SVG 图形、构建并渲染交互式 HTML 页面、生成多种格式的文档等等 地址:

来个本地 RAG 框架 Lobe Chat,这个框架在 Github 上已经有59K Star了。 Lobe Chat 上常用的本地AI功能都有,包括各个服务商的接口,文件上传、知识管理、 RAG、多模态、生成动态 SVG 图形、构建并渲染交互式 HTML 页面、生成多种格式的文档等等 地址:

23,518 Aufrufe

大家在使用YOLO的时候,有没有遇到过大分辨率检测精度下降或者性能不够的情况?来看——SAHI(切片辅助超推理) 这个库很简单,就是把视频的局部切片单独塞给YOLO,最后再拼回来。这样可以优化内存使用和实现高精度检测。 原因也很简单,像 YOLO 这样的模型在训练时和推理时都需要将输入图片统一调整到固定的尺寸(例如 640x640 像素)。所以4K压缩到小尺寸那么图片中的细节和特征肯定就丢失了 另外遇到超大分辨率的输入也可以实现解析,比如卫星图像或者医学诊断 库在这里:

大家在使用YOLO的时候,有没有遇到过大分辨率检测精度下降或者性能不够的情况?来看——SAHI(切片辅助超推理) 这个库很简单,就是把视频的局部切片单独塞给YOLO,最后再拼回来。这样可以优化内存使用和实现高精度检测。 原因也很简单,像 YOLO 这样的模型在训练时和推理时都需要将输入图片统一调整到固定的尺寸(例如 640x640 像素)。所以4K压缩到小尺寸那么图片中的细节和特征肯定就丢失了 另外遇到超大分辨率的输入也可以实现解析,比如卫星图像或者医学诊断 库在这里:

15,181 Aufrufe

Github 刚刚发布了 Copilot Cli! 相较于其它 Terminal Coding Agent ,最大的优势是与 Github 深度结合, 比如你可以使用它直接查看 Assign 到自己的issue, 统计自己提交的 PR, 看看哪些合并了, 哪些还没有合并, 甚至做一些复杂的聚合, 比如项目中谁修的bug最多, 谁写得新代码最多等等. #Github #Copilot

Github 刚刚发布了 Copilot Cli! 相较于其它 Terminal Coding Agent ,最大的优势是与 Github 深度结合, 比如你可以使用它直接查看 Assign 到自己的issue, 统计自己提交的 PR, 看看哪些合并了, 哪些还没有合并, 甚至做一些复杂的聚合, 比如项目中谁修的bug最多, 谁写得新代码最多等等. #Github #Copilot

15,189 Aufrufe

自回归模型 vs Diffusion 模型 vs Block Diffusion 模型 的工作模式对比 目前已经有基于 Diffusion 和 Block Diffusion 的文本模型了,但是效果都还有限。但由于 Diffusion 模型生成速度非常快,因此很有潜力。

自回归模型 vs Diffusion 模型 vs Block Diffusion 模型 的工作模式对比 目前已经有基于 Diffusion 和 Block Diffusion 的文本模型了,但是效果都还有限。但由于 Diffusion 模型生成速度非常快,因此很有潜力。

10,090 Aufrufe

Videos

karminski3's profile picture

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli

karminski-牙医

39,829 Aufrufe • vor 1 Monat

karminski3's profile picture

再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4

karminski-牙医

162,654 Aufrufe • vor 10 Monaten