Video wird geladen...

Video konnte nicht geladen werden

Zur Startseite

Anthropic的创始人Dario Amodei,把话挑明了。 他说,多数中共国的开源AI模型,都是幻觉。 是专为跑分优化的“考试型选手”。 公开测试,个个是学霸。 榜单分数,高得吓人。 可一旦遇到没见过的题,私下一考。 马上露馅,表现差一大截。 为什么? 因为它们本来就不是为了解决真实世界的问题。 而是为了刷榜。 技术根源上,很多模型还是从美国大实验室的模型里“蒸馏”出来的。 听着是不是很耳熟? 只为高分,不为真才实学。 应试教育那套,原封不动搬到了AI领域。 Amodei还打了个比方。 AI就像雇员。 你是要世界第一的程序员,还是要排名第一万的? 能力的天壤之别,任何一个老板都懂。 真正顶级的AI,认知能力最强的那个,才是唯一的赢家。 价格和形式,在绝对的聪明面前,都不重要。 靠刷分和模仿,能做出最聪明的AI吗? 这条路,到底能走多远?

248,912 Aufrufe • vor 3 Monaten •via X (Twitter)

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

天才数学家陶哲轩对数学AI的思考 像真的,但其实不对。 AI写出的证明,乍看完美无瑕,细看漏洞百出。 为什么? 因为它没有“嗅觉”。 今天的AI,已经完全能通过“目测测试” 生成的内容看起来专业、太对味了。 但一旦你靠近它、认真嗅一下,就会发现它撒了香水 掩盖的,是逻辑上的腐臭。 不像传统的初学者那种“明显错”, AI的问题常常隐藏在最高级别的伪装底下: 写得太好,看不出哪里坏。 就像Terry Tao说的:“数学,是有味道的。” 一个真正靠谱的证明,不只是形式正确,而是通体带着那种“对的直觉” 结构自然、推理顺畅、细节干净利落。就像人闻食物的味道,不需要吃一口,就知道有没有毒。 AI没有这个。 它可以模仿口感,复制包装,但闻不到底层的真实。因为它是在学“怎么看起来像对的”,而不是“为什么它是真的”。 你可以把它理解为一个训练过非常精良的演员,知道什么时候该皱眉、什么时候叹气,用上最漂亮的定理、最熟练的转折,但它不明白它的角色到底在干什么。 而这,正是问题所在。 人类在判断一个复杂证明时,靠的不止是推理,更靠一种经验直觉:这个步骤自然吗?这个拆解方式靠谱不靠谱?这个结构合理不合理?我们甚至很难说清楚“为什么不行”,但就是知道,“不对劲”。 这就是“数学的嗅觉” 你说不明白,但你能闻得出来。 AlphaGo和AlphaZero之所以能搞定围棋和国际象棋,不是因为它们穷举了所有下法,而是因为它们学会了在哪些局面里,有“胜利的味道”。 即便讲不出理由,它们凭那股味道,也能找到通向胜利的路。 数学AI要想达到人类水平,它得也有这种“方向感”。 不是生成个像样的证明,而是能问自己:“我是不是在一个貌似正确,实际上死路的方向上走太远了?” 也许未来某一天,它能真正感觉到:“这一步味道不对,我得退回来。” 那一天,它就不只是一个生成文本的工具,而是真正的数学伙伴了。 🙋‍♂️人有灵气

墓碑科技

120,892 Aufrufe • vor 1 Jahr

小扎吐槽苹果和 Google,以及谈为什么开源 AI **Mark Zuckerberg**: 我认为移动生态系统中普遍存在的一个问题是有两个把持入口的公司,Apple 和 Google,它们可以告诉你可以构建什么。 在我们的历史中有很多次,比如有经济层面的情况,就是我们构建了些东西,然后它们就会拿走我们大部分的收入,但还有一种是质量层面,这实际上让我更加不满,也就是有很多次我们推出或希望推出某些功能,然后Apple就会说,不,你不能推出这功能。 这真的很糟糕。 问题是,这样的世界是否会在AI领域复现,就像你会有一小部分拥有封闭模型的公司,它们控制API,因此将能够告诉你可以构建什么。 我可以说,对我们来说,自己构建一个模型以避免处于那种位置是值得的。 我不希望那些其他公司告诉我们可以构建什么,而且我认为从开源的角度来看,很多开发人员也不希望那些公司告诉他们可以构建什么。这就是我坚定支持开源的原因之一,我认为未来AI的集中化可能像其广泛传播一样具有潜在危险。 我发现很多人都在思考,如果我们能实现这种技术,那么让它广泛传播是否不利。 我认为另一种可能也很糟糕的情况是,如果一个机构掌握了一种强大的AI远超其他所有人的,这同样是非常糟糕的。在我看来,一个理想的世界应该是这样的:AI技术被广泛而均衡地应用,随着时间推移逐步增强其健康性。在这样的世界里,各种系统能够相互制衡,这种平衡的状态比一个高度集中化的世界要健康得多。 虽然风险无处不在,但我觉得有一个风险我想人们我并没有听到太多人提及。 **Dwarkesh Patel**:举例来说,一个价值100亿美元的模型,如果经过评估是完全安全的,你们会选择开源吗? **Mark Zuckerberg**:我的答案是,只要这个模型对我们有所帮助,那我们就会开源。 **Dwarkesh Patel**: 那如果这个模型是用100亿美元的研发经费研发出来的,然后现在要开源呢? **Mark Zuckerberg**: 我们一直以来都有开源软件的传统,但是我们并不会开源我们的产品。 比如说,我们并不会将Instagram的代码开源,但我们会开源许多底层的基础设施。我们历史上最大的一个项目可能就是开放计算项目。在这个项目中,我们将我们所有的服务器的设计网络交换机和数据中心的设计开源了,这对我们来说非常有帮助。 因为很多人可以设计服务器,但现在,大家普遍都采用了我们的设计,这就意味着整个供应链都围绕我们的设计展开,规 模变大,对所有人来说都变得更便宜,为我们节省了数十亿美元。 这真是太棒了,对吧? 因此,我认为开源有多种方式可以对我们有所帮助。 一种就是,如果有人能够找出更便宜的运行模型的方法,我们将花费数十亿甚至上千亿美元,在所有这些模型上,所以如果我们能做的更有效率,那我们就可以节省数十亿甚至上百亿美元,这可能本身就非常有价值。 **Dwarkesh Patel**: 关于开源,我很想知道你是否认为像PyTorch、React、Open Compute这样的开源项目,对世界的影响是否已经超过了Meta在社交媒体方面的作用。 **Mark Zuckerberg**: 因为我曾经和使用这些服务的人交谈过,他们觉得这是有可能的,因为互联网的很大一部分都在运行这些项目。这是一个有趣的问题,我认为几乎有一半的世界人口都在使用我们的产品,这是一个真实的点,所以我觉得这很难超越。 但不管怎样,我还是认为开源是一种新的、非常強大的建设方式。 来源:

宝玉

74,721 Aufrufe • vor 2 Jahren

现在满世界都在聊 AI。模型参数多大,算力芯片多贵,这种话题早就听腻了。 但大家似乎都刻意回避了一个最尴尬,也是最底层的事实。 如果一个 AI 代言你做了决定,或者直接替你操作了资金,最后出了差错,到底谁来负责。 在现在的现实世界里,这个问题其实已经开始有点失控了。 自动交易系统偶尔会莫名其妙地抽风。推荐算法在不停地误导用户的判断。 生成的内容里真假难辨。甚至在更严肃的医疗或者法律判断里,AI 的偏差也时有发生。现在的痛点从来不是 AI 会不会犯错。只要是程序,就一定会犯错。 真正的麻烦在于,当错误发生之后,现有的系统里根本没有任何结构可以去追责。 那些中心化的系统,给出的答案其实非常简单。 无非就是推卸责任,美其名欲说是系统升级,或者干脆直接删掉日志,当作什么都没发生。 但在一个由自主代理组成的未来世界里,这种做法是绝对行不通的。因为未来的 AI 不再只是一个问答对话框,它是要真正参与经济活动的个体。 Inference Labs 切入的角度非常有意思,也表现得很冷静。他们没有去跟风拼算力,也没有去卷模型性能。他们切入的是 AI 的责任结构。 他们有一个非常核心的假设。在未来,真正有价值的 AI,未必是那个智商最高的。而是那个可以向外界证明,自己到底做过什么的 AI。 这就是为什么他们搞的这套 Proof of Inference,本质上根本不是什么性能优化。它其实是一套在链上跑的问责机制。 当一个推理过程被证明确实执行过。当模型的运行路径可以被真实验证。当所有的结果都可以被第三方随时复查。这时候,AI 才算第一次具备了承担责任的能力。 这件事的意义,其实被现在的市场严重低估了。 因为只有当 AI 变得可以被追责,它才具备了进入高价值场景的入场券。如果没有这种透明的责任结构,你敢把成千上万的资金交给一个全自动的代理吗。 你敢让一个没有审计记录的 AI 去参与链上治理吗。你敢让企业级的风控系统完全交给一个黑盒吗。 没有问责能力的 AI,充其量只是一个好玩的电子玩具。只有具备了问责能力的 AI,才能真正踏入真实世界的金融和法律门槛。 Inference Labs 真正想构建的,其实是 AI 的责任层。他们不是要让 AI 跑得有多快。 他们是要让 AI 的每一步动作都留下无法抹除、无法抵赖的痕迹。 这也是为什么他们会选择先进入 Bittensor 生态。这不是为了蹭那点算力名气。 而是因为那里是第一个真正允许 AI 之间进行自主博弈、自主竞争的经济环境。 在那种 AI 开始真正参与经济活动的试验田里,一套清晰的责任结构,其实比模型提高那么一点点精度要重要得多。 这可能是一个很多人还没回过神来的拐点。大家还在沉迷于 AI 表现出来的聪明。 但 Inference Labs 已经开始在为 AI 的非理性行为修筑堤坝。这种踩点非常早,也显得非常老练。他们赌的是那个 AI 必须为自己行为负责的必然未来。 #inference_labs #KAITO

紫川 | ∞KIN |

12,124 Aufrufe • vor 5 Monaten

“我们究竟是创造了一个工具还是一个生物?” Sam 在 "机器人之心 "小组讨论会上的发言。 Sam: 但我认为,这无疑是迄今为止人类经历的最重大的更新年份。可能这也是我们将会遭遇的最大变革,因为从现在开始,人们已经接受强大的人工智能将成为现实,并且还会有逐步的更新。就像是第一代 iPhone 面世的那年,以及随后每一代 iPhone 的更新,我们现在能够明显感受到这一代与去年那代的差异。所以,这确实是一个重要的时刻。 我感到欣慰的是,现在人们开始正确地把这些系统当作工具来看待。艺术家尤其如此,但其他人也是一样。 曾经,人们真正恐惧的是,我们究竟是创造了一个工具还是一个生物,这将意味着什么?现在,人们视这些系统为人类工具箱中的新工具,并且正在用它创造一些非常了不起的东西。 模型显然不知道你在说什么,因为这不在它的训练数据里,它也无法从训练数据中学习到这些信息。 这是完全可以预期的。你再问一遍。比如说,你提到“意识”这个概念,模型回答:“是的,我完全明白你的意思,但我之前从未听说过这个词。” 问: “这对我来说就像是一次更新。你认为人工智能会趋向于探索创造性智能和自主性吗?” Sam: 这个问题有多个答案。这取决于激励模型。这是人类的选择。 问: “这将是判断意识的一个很好的测试。因为如果它有自我表达的愿望,并且仅仅为了创作的乐趣而去创作,那不会是偶然的。这绝对有点像生物。” Sam: 这是生物化的。我认为在此之前还有很多步骤。 我们现在要回答问题吗?这真的很棒。

Lei.sea

14,132 Aufrufe • vor 2 Jahren

年前多关注ai板块吧 中国人参与多的就会有买单!就会有市场🤟 中国开源模型下载量首超美国,一场新的科技竞速正式打响! 还在觉得全球 AI 只看硅谷? MIT × Hugging Face 最新联合报告告诉你: 过去一年,全球开源 AI 模型下载量中,中国占比 17% —— 首次超过美国的 15.8%。 这不是一个小数点的变化,这是 AI 格局的一声惊雷。 意味着一个事实正在出现: 中国 AI,不再只是“追赶者”,而是实实在在的“生态领跑者”。 一、为什么这个数据爆炸性这么强? 开源模型下载量,是 AI 世界最真实的“民意投票”。 谁被用、谁被复用、谁被拿去做产品,下载量不会说谎。 它比论文数量更接地气,比发布会更诚实,比概念 PPT 更真实。 下载量高 = 模型真的“好使”“好用”“好落地”。 而这一回,中国冲到第一名,意味着什么? 全球开发者正在越来越多地选择中国模型。 中国模型正在成为国际生态的一部分,而不是“区域性产品”。 中国的 AI 创新正在进入全球循环,而非单向输入。 一句话: 中国不只在做模型,而是在影响世界开发者。 二、为什么中国能“后来居上”?三大原因让人无法忽视 ① 模型数量爆发式增长:百花齐放,开发者用不过来 过去一年,中国的开源模型生态堪称“井喷式”增长: 中小模型、大模型、多模态、语音、图像…… 能开的都开了,能放的都放了。 数量足够大,就能吸引足够多的开发者。 ② 性价比 + 轻量化:世界都在找中国模型“省钱神器” 不是每个团队都训练得起千亿级大模型。 但每个团队都想部署一个能跑的模型。 而中国模型的特质就是四个字: 轻、快、省、能打。 全球开发者当然爱。 ③ 中文生态的辐射效应:从东亚扩散到整个亚洲 中文模型强,意味着东亚、东南亚用户都能直接受益。 更大的人群、更高的需求,带来了更快的下载增长 三、美国依然很强,但“唯一主导”时代正在改变 必须说,美国仍然拥有: 世界最顶级的基础研究 算力、芯片、科研体系的深度优势 OpenAI / Google / Meta 等头部力量 但这一次的反超给了全球一个清晰的信号: AI 生态不再是“一家独大”。 多极化时代正在加速到来。 全球开发者的选择,正在慢慢从“硅谷中心论”转向“多中心协作”。 四、全球 AI 正进入“群雄争霸”时代 这次排名变化背后,是全球 AI 赛道进入全新阶段的标志: ① 从“技术竞赛”升级为“生态竞赛” 谁的模型被更多人用,谁就占据未来话语权。 ② 开源力量影响全球,而中国是关键节点 中国模型从“区域下载”变成“全球下载”,这是过去没有出现过的格局。 ③ 创新不再只来自单一地区 AI 正在走向: 中国能打、美国能打、欧洲能打、世界都能打。 这种竞争更健康,也更刺激。 五、结语:这不是终点,而是 AI 全球化的真正开始 中国开源模型首次登顶,并不是“谁碾压谁”的故事。 它真正意味着: 全球 AI,正在进入一个更开放、更多样、更具创造力的新纪元。 当中国模型被全球开发者下载、复用、再创造 这才是 AI 生态最值得期待的未来。

加密大师兄

22,361 Aufrufe • vor 6 Monaten

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,657 Aufrufe • vor 1 Jahr