kAI

@_kaichen • 4,843 subscribers

👨‍💻 资深全栈工程师 | 🧠 AGI 信仰者 | 🚀 e/acc 驱动的持续学习与对 AI/LLM 的长期关注非大模型从业人员 | 业余 AI 研究员/评论员每天一睡醒就查看 AGI/ASI 到来没有

Videos

Anya Rossi

sweetdream.ai

SweetDream.ai•Sponsored•Livecam

Watch Anya Live

Anya is streaming live right now! Join her private show and enjoy exclusive content.

Exclusive private shows

1.2k viewers online

Private Show

Join now for exclusive access

Free preview available • Premium content

OpenClaw/Clawdbot作者 Peter Steinberger 讲了一个让他顿悟的瞬间。他给自己的clawdbot发了条语音消息，然后才反应过来：我根本没做语音功能啊。但"正在输入"的指示器亮了。十秒后，agent若无其事地回复了。 Peter问它：你怎么做到的？ Agent的回答让他震住了：你发的消息只有一个文件链接，没有扩展名。我查了文件头，发现是Opus格式。用你Mac上的FFmpeg转成Wave。想用Whisper但没装，还报错了。不过我翻了翻发现你环境变量里有OpenAI的key，就用curl调了API拿到转写，然后回复你了。这个故事的意义在于，这不是预设好的workflow，不是写好的代码，是agent在遇到一个从未见过的问题时，自己想办法把链路串起来。文件头分析、格式转换、找可用工具、翻环境变量、调第三方API，一气呵成。 Peter说了一句话我很认同：这些东西是该死的聪明、足智多谋的野兽，只要你真的赋予它们力量。 "if you actually give them the power"才是关键。大多数人还在用AI写个总结、改个文案，把它当高级搜索引擎用。但当你给它shell权限，给它访问你本地工具链的能力，它展现出的自主探索完成任务能力完全是另一个量级。与此同时，行业里有一大批人在反方向努力。有人在绞尽脑汁省token，精心设计让AI 更少思考，生怕多花几分钱。还觉得模型做事太慢，自己来设计一些流程替代 AI 的思考探索，美其名曰加速。这种思路本质上是把一个足智多谋的野兽关进笼子里，然后抱怨它不够聪明。更神奇的是，市面上95%的软件压根就不是为面向智能设计的。还是传统思路：产品经理写PRD，开发者把逻辑一条条写死在代码里，用户只能在预设的按钮和流程里点来点去。这些软件在AI时代就像是用打孔纸带写程序，技术上能用，但完全错过了这个时代真正的可能性。 --- 注，这段切片是我丢下一句话给 claude code 完成的下载切片添加字幕，只是提出要求，没有任何 Skills，没有告诉他怎么做。

OpenClaw/Clawdbot作者 Peter Steinberger 讲了一个让他顿悟的瞬间。他给自己的clawdbot发了条语音消息，然后才反应过来：我根本没做语音功能啊。但"正在输入"的指示器亮了。十秒后，agent若无其事地回复了。 Peter问它：你怎么做到的？ Agent的回答让他震住了：你发的消息只有一个文件链接，没有扩展名。我查了文件头，发现是Opus格式。用你Mac上的FFmpeg转成Wave。想用Whisper但没装，还报错了。不过我翻了翻发现你环境变量里有OpenAI的key，就用curl调了API拿到转写，然后回复你了。这个故事的意义在于，这不是预设好的workflow，不是写好的代码，是agent在遇到一个从未见过的问题时，自己想办法把链路串起来。文件头分析、格式转换、找可用工具、翻环境变量、调第三方API，一气呵成。 Peter说了一句话我很认同：这些东西是该死的聪明、足智多谋的野兽，只要你真的赋予它们力量。 "if you actually give them the power"才是关键。大多数人还在用AI写个总结、改个文案，把它当高级搜索引擎用。但当你给它shell权限，给它访问你本地工具链的能力，它展现出的自主探索完成任务能力完全是另一个量级。与此同时，行业里有一大批人在反方向努力。有人在绞尽脑汁省token，精心设计让AI 更少思考，生怕多花几分钱。还觉得模型做事太慢，自己来设计一些流程替代 AI 的思考探索，美其名曰加速。这种思路本质上是把一个足智多谋的野兽关进笼子里，然后抱怨它不够聪明。更神奇的是，市面上95%的软件压根就不是为面向智能设计的。还是传统思路：产品经理写PRD，开发者把逻辑一条条写死在代码里，用户只能在预设的按钮和流程里点来点去。这些软件在AI时代就像是用打孔纸带写程序，技术上能用，但完全错过了这个时代真正的可能性。 --- 注，这段切片是我丢下一句话给 claude code 完成的下载切片添加字幕，只是提出要求，没有任何 Skills，没有告诉他怎么做。

171,062 görüntüleme • 5 ay önce

今天玩 seedance2 越玩越心里害怕，下午即梦已经做人物生成限制了。非常可怕在于，基于大量视频数据集（可能是抖音？），我试着把上周年会活动随便找张照片发上去生成视频，画面是包厢里的一角，结果视频能把画面外大差不差给还原回来，包括另外两面墙和天花板。这只是一家不出名也开没几年的普通饭店。影视飓风 Tim 也紧急发了一条影片，讲了只要用他的照片，就能自动生成他的声音，以及也能生成他办公室前后的对应画面。可以说 seedance2.0 是一个掌握大量现实世界的空间和声音的模型，这可能是未来世界模型的极高起点。人类可能已经打开了潘多拉的魔盒？

今天玩 seedance2 越玩越心里害怕，下午即梦已经做人物生成限制了。非常可怕在于，基于大量视频数据集（可能是抖音？），我试着把上周年会活动随便找张照片发上去生成视频，画面是包厢里的一角，结果视频能把画面外大差不差给还原回来，包括另外两面墙和天花板。这只是一家不出名也开没几年的普通饭店。影视飓风 Tim 也紧急发了一条影片，讲了只要用他的照片，就能自动生成他的声音，以及也能生成他办公室前后的对应画面。可以说 seedance2.0 是一个掌握大量现实世界的空间和声音的模型，这可能是未来世界模型的极高起点。人类可能已经打开了潘多拉的魔盒？

36,418 görüntüleme • 5 ay önce

用 v2ex 群友发的数学题确实会让 kimi 鬼畜一般一直循环用错误的方法解题并且 kimi 生成很多车轱辘话，“让我换个思路”，“确实有点棘手”，之类，很像之前让 claude 假装思考 prompt 输出同样的题目的在 chatgpt 4o/o1 都解不了，但用 claude 3.5 sonnet 和 gemini 2.0 flash 瞬间能解决题目是👇

用 v2ex 群友发的数学题确实会让 kimi 鬼畜一般一直循环用错误的方法解题并且 kimi 生成很多车轱辘话，“让我换个思路”，“确实有点棘手”，之类，很像之前让 claude 假装思考 prompt 输出同样的题目的在 chatgpt 4o/o1 都解不了，但用 claude 3.5 sonnet 和 gemini 2.0 flash 瞬间能解决题目是👇

22,397 görüntüleme • 1 yıl önce

Daha fazla içerik yok.