
kAI
@_kaichen • 4,843 subscribers
👨💻 资深全栈工程师 | 🧠 AGI 信仰者 | 🚀 e/acc 驱动的持续学习与对 AI/LLM 的长期关注 非大模型从业人员 | 业余 AI 研究员/评论员 每天一睡醒就查看 AGI/ASI 到来没有
Videos

OpenClaw/Clawdbot作者 Peter Steinberger 讲了一个让他顿悟的瞬间。 他给自己的clawdbot发了条语音消息,然后才反应过来:我根本没做语音功能啊。但"正在输入"的指示器亮了。十秒后,agent若无其事地回复了。 Peter问它:你怎么做到的? Agent的回答让他震住了:你发的消息只有一个文件链接,没有扩展名。我查了文件头,发现是Opus格式。用你Mac上的FFmpeg转成Wave。想用Whisper但没装,还报错了。不过我翻了翻发现你环境变量里有OpenAI的key,就用curl调了API拿到转写,然后回复你了。 这个故事的意义在于,这不是预设好的workflow,不是写好的代码,是agent在遇到一个从未见过的问题时,自己想办法把链路串起来。文件头分析、格式转换、找可用工具、翻环境变量、调第三方API,一气呵成。 Peter说了一句话我很认同:这些东西是该死的聪明、足智多谋的野兽,只要你真的赋予它们力量。 "if you actually give them the power"才是关键。大多数人还在用AI写个总结、改个文案,把它当高级搜索引擎用。但当你给它shell权限,给它访问你本地工具链的能力,它展现出的自主探索完成任务能力完全是另一个量级。 与此同时,行业里有一大批人在反方向努力。有人在绞尽脑汁省token,精心设计让AI 更少思考,生怕多花几分钱。还觉得模型做事太慢,自己来设计一些流程替代 AI 的思考探索,美其名曰加速。这种思路本质上是把一个足智多谋的野兽关进笼子里,然后抱怨它不够聪明。 更神奇的是,市面上95%的软件压根就不是为面向智能设计的。还是传统思路:产品经理写PRD,开发者把逻辑一条条写死在代码里,用户只能在预设的按钮和流程里点来点去。这些软件在AI时代就像是用打孔纸带写程序,技术上能用,但完全错过了这个时代真正的可能性。 --- 注,这段切片是我丢下一句话给 claude code 完成的下载切片添加字幕,只是提出要求,没有任何 Skills,没有告诉他怎么做。
kAI171,062 Aufrufe • vor 4 Monaten

今天玩 seedance2 越玩越心里害怕,下午即梦已经做人物生成限制了。 非常可怕在于,基于大量视频数据集(可能是抖音?),我试着把上周年会活动随便找张照片发上去生成视频,画面是包厢里的一角,结果视频能把画面外大差不差给还原回来,包括另外两面墙和天花板。这只是一家不出名也开没几年的普通饭店。 影视飓风 Tim 也紧急发了一条影片,讲了只要用他的照片,就能自动生成他的声音,以及也能生成他办公室前后的对应画面。 可以说 seedance2.0 是一个掌握大量现实世界的空间和声音的模型,这可能是未来世界模型的极高起点。 人类可能已经打开了潘多拉的魔盒?
kAI36,418 Aufrufe • vor 4 Monaten
Keine weiteren Inhalte verfügbar