
karminski-牙医
@karminski3 • 37,463 subscribers
A coder, road bike rider, server fortune teller, electronic waste collector, co-founder of KCORES, ex-director at IllaSoft, KingsoftOffice, Juejin.
Shorts
Videos

完了! 我的整活被官方相中了! 搞了个AI电竞教练的 Harness Agent 框架, 拖进去 CS2 录屏视频后就能分析走位, 身法, 对枪, 预瞄, 投掷物, 经济, 等各种数据, 然后还能给出建议和训练方向. 结果被字节跳动相中了, 于是结合 Doubao-Seed-2.0-Lite 整了个大活, 连续运行25小时不间断分析对局视频总结玩家的帝王干拉是否到位(x 这次 Doubao-Seed-2.0-Lite 的宣发 Demo 视频那个AI电竞教练的就是这个 Demo 哈. 以及, 具体的整活视频还在制作中~ 大家稍安勿躁, 稍后给大家带来全部整活细节~ #seed20lite #doubao #doubaoseed #字节跳动
karminski-牙医157,219 просмотров • 28 дней назад

就这??? 马斯克你认真的吗? 来看 Grok4 实测! 我原本打算用新试题, 突然转念一想, 万一Grok4 延续了 Grok3 的辉煌传统怎么办? 于是直接用了经典到都出包浆的我的那个20小球在七边形里面弹跳的实体快速来了一遍. 结果, 3次生成代码中, 2次 Grok4生成的代码甚至有语法错误. 唯一一次成功的是这个样子. 为了给不了解这个测试的朋友做对比, 我放了 DeepSeek-R1 作为参考, 注意哦,这个甚至不是 DeepSeek-R1-0528, 而是今年年初的那个老版本 R1.... 从目测来看, 大概是今年第一季度所有大模型中, 写代码能力的中间水平, 接近GPT-4o 或 kimi-1.5-long-thinking 之间. 根本不是第一梯队的水平, 更别提跟现在的 Claude-4 或者 Gemini-2.5-pro 比了..... 建议 AIME25 那个数学能力也谨慎看待, 说不定又是一个过拟合的结果. 更多测试我随后放出, 希望 Grok4 能打我的脸. 但这编程水平....呵呵. #Grok4
karminski-牙医612,550 просмотров • 10 месяцев назад

Qwen3.7-max 这次编程能力相当不错, Code Arena (LMArena 测试项目) 中得分仅次于 Anthropic 几个模型, 于是我赶紧测了一波. 让 Qwen3.7-max 使用 Rust 写了个磁盘恢复软件. 实测效果很不错, 从头到尾没遇到过去那种卡编译的问题. 能很熟练的使用 Rust 的各种语法和特性. 这个磁盘恢复软件我设计了3层, 第一层是直接扫描已删除文件, 这个能达到100%的恢复率. 然后第二层是快速格式化 carve 模式, 即如果只是执行了快速格式化, 那么还是有概率迅速找回文件的. 第三层则是全盘扫描, 重建索引, 而且会在文件名称丢失的情况用 Qwen3.7-max 根据内容重建文件名称, 甚至尝试AI重建文件内容(会标记AI重建). 目前运行起来很流畅, 视频演示中用的就是 Qwen3.7-max 写的这个磁盘恢复软件做的. 稍后为大家带来 Qwen3.7-max 完整的性能测试, 敬请期待! #qwen #阿里千问 #qwen37max #AIAgent
karminski-牙医15,538 просмотров • 8 дней назад

波士顿动力的机器狗怎么还在翻跟头,这边的狗可都驼250kg杠铃片准备去给对面开席了(宇树的宣传片驼了250kg杠铃片下楼梯)..... (视频为波士顿动力的最新宣传片,不过侧面翻跟头这个的确很丝滑)
karminski-牙医281,695 просмотров • 9 месяцев назад

给大家带来 DeepSeek-V4-Pro & Flash 的测试速报, 由于case 还在跑, 所以说一下大家最熟悉的大象牙膏测试. 这个测试要求大模型建模一个锥形瓶, 然后发生化学反应, 造成泡沫喷发而出的效果. 主要考验大模型的建模, 粒子, 物理模拟, 光照等广义上的前端能力. DeepSeek-V4 从这个 Case 来看比之前的 V3 整个系列都好了很多, 效果很不错, 不过大家注意一下细节, 这个锥形瓶的表面看上去不是很透明, 我仔细分析了6次生成的代码 (测试是 pass@6, 每个大模型都有6次生成机会, 取最好的一次). 结果发现它指令遵循有点问题, 提示词要求玻璃的材质是roughness: 0.95, metalness: 0.35, 结果它没有一次写对. 而且很值执拗的写成了roughness: 0.12, metalness: 0.05 (50%概率). 目前还不确定是不是普遍问题, 等我全部测完给大家带来全面的编程能力评测视频~ 敬请期待. #deepseek #deepseekv4 #deepseekv4pro #deepseekv4flash
karminski-牙医47,087 просмотров • 1 месяц назад

Kimi-K2.6 前端/后端/Agent编程能力实测! 甚至还帮我做了个游戏! 给大家带来刚刚正式发布的 kimi-k2.6 的正式版本的实测! 本次为了考验它的长程Agentic Coding能力, 我用 kimi-k2.6-code-preview 写了个 harness 游戏自动生成框架, 它可以根据给到的人设/场景/数值设计等规则, 自动生成关卡, 背景图片, 甚至配音! 其中框架驱动和草稿模型使用 kimi-k2.6, 文生图和生成语音由 kimi-k2.6 生成 prompt 后调用其它大模型生成. 最好玩的是, 我做了个"无头"版本的游戏cli接口, kimi-k2.6 能像玩互联网早期Mud游戏一样, 使用纯文本玩这个游戏, 每当它生成关卡之后, 他就可以直接进入游戏游玩一下, 来验证关卡设计得是否正确. 而内部设计又分为了对话生成skill, 脚本生成skill, 关卡生成skill, 游戏测试大师skill, 游戏资深玩家skill(由于检讨游戏性) 等等, 从而实现了让大模型自己写游戏自己玩! 每个关卡大概需要一个小时生成和验证, 如果并行验证应该还能更快一些(做多线程BFS/DFS). 另外本次依旧使用大家都熟悉的测试项目进行了前端/后端/Agent能力测试, 从测试来看, 复杂项目前端能力(建模, 空间理解, 物理模拟等)略有下降, 但后端和 Agent 能力有明显提升. 不过如果你是纯做网站的话, 可以用 kimi 网站上的的 k2.6 Agent 模式, 由于 Agent 能力足够强所以可以在这个模式下多步来提升生成的网站质量和交互体验. #kimi #kimik26 #moonshot #月之暗面 #kimicli
karminski-牙医39,829 просмотров • 1 месяц назад

游戏代打也要失业了? 来看 NVIDIA NitroGen NVIDIA 刚刚又发了个新模型 NitroGen,这是个只有 1B 大小却可以玩游戏的大模型,它接受视频帧输入,然后输出手柄操作。所以非常适合用来玩手柄可以操作的动作类游戏。 这个模型最大的特点是,它是基于游戏视频本身学习的,以往互联网上虽然有很多游戏视频,但是游戏操作并没有记录下来,而 NitroGen 它利用了合成动作标签技术。研究团队通过大规模的逆动力学模型,从公开的互联网游戏视频中“反推”出当时玩家可能按下的键,从而人工合成了海量的训练数据,通过上万小时的纯视频数据进行预训练,打破了数据瓶颈。 而且最重要的是,这个模型支持后训练。这意味着面对一款它从未见过的全新游戏不需要从头训练,只需少量的微调或适配即可上手游玩。
karminski-牙医103,285 просмотров • 5 месяцев назад

再给 Grok 4 一次机会哈 上个20小球测试有朋友说一个case不能代表什么, 我就问一句, 如果你写代码, 上来的第一个 case 就拉跨, 你还会再用这个模型吗? 两个 case 也拉跨呢? 汰欧蜜!撸可英买埃斯! 这个是上个月我做出来的拆烟囱测试, 主要是使用 Three.js 来模拟一个三维场景, 尤其是这个烟囱完全需要大模型生成代码自己搭起来. 然后在烟囱底部设置爆炸点, 炸掉一部分砖块后, 影响烟囱的平衡导致烟囱倒塌。 这个测试相对于20小球七边形测试来说, 考察物理效果其实没有 20 小球复杂, 它只有碰撞和重力, 并且都能依靠 Three.js 库的插件来实现. 所以考察项目更多聚焦于 prompt 的指令遵循和前端代码的能力以及创造性. 直接来看 Grok4 表现好的和不好的地方。 好的: 倒塌的模拟不错, 模型的放置, 重力方向起码没有搞错 不好的: 默认的烟囱就是个已经爆炸到一半的烟囱是绷不住了,这个连上个月测试的 kimi 和 minimax 的开源模型都不至于这么抽象 爆炸的粒子模拟很怪,勉强能理解那个白色的是一团烟雾 光影效果特别差,对比左边的 DeepSeek 一眼就能看出来了 web 交互写得也很差, 看 DeepSeek 的按钮, 这个的按钮就是个灰色的按钮 (在画面外) 以及最重要的, 它生成其实是失败的!我反复测试3次都有代码错误。它引用库的方法有问题 (Uncaught TypeError: Failed to resolve module specifier "three". Relative references must start with either "/", "./", or "../".),并且它自己修不好这个报错。我只能用 Claude-4-Sonnet 修了一下才能正确运行........ 结论:别用这玩意写代码, 爱咋咋地吧, 累了 #Grok4
karminski-牙医162,654 просмотров • 10 месяцев назад

龙虾专用大模型? GLM-5-Turbo 实测! 给大家带来刚发布的 GLM-5-Turbo 大模型实测, 官方说这是一个加强了 tool call/Agent 能力的大模型, 于是我使用它搭建了一个可以帮我比对大菠萝里面物品的SKILL, 可以帮我辅助判断我是应该把垃圾直接甩商店还是应该留着传三代哈哈哈. 另外本次也是老生常谈的测试了这个模型的基础能力, 包括前后端编程, 以及 Agent 能力, 测试结论是, 前端没有太大的提升, 不过后端提升明显, vector-db-bench 直接跃升到了国产模型SOTA, 另外 Agent 测试中, 虽然没有超过 GLM-5, 但是它的 token 效率特别高, 几乎是 GLM-5 的三倍, 所以只要约束好上下文轮次和长度, 就能在龙虾里面达到非常理想的效果. (P.S. 本次测试使用的是内测版本 pony-alpha-2) #GLM5Turbo #智谱 #GLM5 #AutoClaw #OpenClaw #龙虾
karminski-牙医41,096 просмотров • 2 месяцев назад

ADOBE 真的在努力不被AI淘汰,我哭死 Illustrator 现在支持旋转画面了,不是传统的那个"旋转", 看视频就知道了.
karminski-牙医110,640 просмотров • 9 месяцев назад

给大家来个短小精悍的 nano-banana 教程!如何将你看到的建筑转换为城市天际线风格的3D建筑模型! 大家还想看什么教程可以留言给我~ 安排! #nanobanana
karminski-牙医90,487 просмотров • 9 месяцев назад

Anime.js 刚发了个大版本,官网demo是真的炫酷,没错,你在这个视频看到的全都是用anime.js 这个库实现的动画 地址:
karminski-牙医121,258 просмотров • 1 год назад

刚发布的 DeepSeek-V3.1-Base 写代码实测来啦! 直接说结论, 比 GPT-5 好! 我的体感是马上就能追平 Claude-Sonnet-4. 这次三组测试中, DeepSeek 除了大象牙膏的那个 OrbitControls 前面没有加 THREE 的包名称以外, 其余测试均能一次性通过, 相比较 GPT-5 在上期测试中出现了各种错误. DeepSeek-V3.1-Base 可以用流畅来形容. 不过测试出来 DeepSeek-V3.1-Base 最大的问题是美学还是差点意思, 生成的三角烧瓶只能用抽象来形容, 并且6次生成中没有一次能看的. 网页制作的样式和审美也略单一. 以上就是本期评测, 关注我带你看全网嗯快嗯专业的大模型评测. #DeepSeek #DeepSeekV31
karminski-牙医86,006 просмотров • 9 месяцев назад

Gemini-3.1-pro 实测! 更新了个寂寞? 光速给大家带来实测! 指令遵循: 洛希极限测试中部分指令遵循率 93.5% (3.0-pro 为 90.6%), 加权总分从 6.8 提升到 8.6, 数据上确实有进步. 但实测中 6 次测试有 4 次输出的 JS 代码直接报错无法运行, 2/3 的失败率属实离谱. 后端编程: vector DB Bench 向量数据库测试中, 3.1-pro QPS 成绩 658, 而 3.0-pro 刷到了 1970, 是 3.1 的整整 3 倍! 两者都用了 IVF 倒排索引, 但 3.0-pro 聚类参数更优 (K=2048 vs 1000), 并且用最大堆替代 Vec 排序, 内存开销仅为后者的 0.7%, 新版反而被老版碾压. 前端编程: 表现极不稳定. 大象牙膏喷发效果提升但碰撞效果有些诡异, 鞭炮连锁爆炸光影效果消失了, 鞭炮炸鱼缸水面波纹不错但丢掉了粒子和烟雾. 唯一亮眼的是陀飞轮机芯测试, 空间理解明显增强, 这也解释了为什么最近 X 上各种 SVG 测试都是 SOTA. 总结: Gemini-3.1-pro 给我最大的感受就是——不稳定. 前端有进有退, 后端没打过 3.0-pro, 性能优化过程中甚至出现越优化越差的情况. 更像是一个没训练稳定就仓促发布的技术预览版. 如果你用着感觉不对劲, 不妨先换回 3.0-pro. 让我们等一波正式版到时候再给大家测一下看看. #Gemini #Google #Gemini31Pro #AI大模型 #Benchmark #向量数据库 #前端编程
karminski-牙医36,053 просмотров • 3 месяцев назад
0:24
Sensitive content
This media may contain sensitive content.

把一亿篇论文进行聚类会是什么样? InferenceNet 与 LAION、Wynd Labs 联合发布了 Project OSSAS 项目,他们用开源模型处理了1亿篇科学论文,做了个可视化工具,将相关的论文聚类到一起,让全世界的科学知识变得可访问、可搜索、可对比。成本只要10万美元。 他们使用了自己定制的模型: 1. Aella-Qwen3-14B:基于阿里的 Qwen3 14B 微调,推理能力强 2. Aella-Nemotron-12B:基于 NVIDIA 的 Nemotron 12B,混合 Mamba-Transformer 架构,吞吐量炸裂 最终这个可视化工具可以点击任何论文查看结构化摘要和发现论文之间的关系和模式,方便在大家查找论文的时候快速检索。 这里有必要介绍下 InferenceNet, 这个网站可以网络调用全球闲置 GPU, 类似现代版的 SETI@Home,但专门跑 LLM 任务, 可以让科研人员能用上原本根本负担不起的算力. 项目地址:
karminski-牙医54,298 просмотров • 6 месяцев назад