Loading video...

Video Failed to Load

Go Home

听AI大神Andrej Karpathy讲神经网络。 其实就三件事。 第一,猜。 神经网络就是个数学公式。 你喂给它数据,它猜一个答案。 第二,认错。 用一个叫“损失函数”的东西,算算它猜得有多离谱。 这个离谱的程度,就是“损失值”。 一个数字。 第三,改。 怎么改才能让下次猜得准一点? 用“反向传播”算法,算出每个参数该调整的方向。 这个过程叫“梯度下降”。 然后呢? 重复这个循环。 一次又一次,一遍又一遍。 猜,认错,改。 直到那个“损失值”小到可以忽略不计。 这就是AI学习的本质。 没有什么魔法。 就是巨量的、枯燥的、数学驱动的试错。 它没有顿悟,只有迭代。 算力堆出来的智能,底色是笨拙的坚持。

16,165 views • 3 months ago •via X (Twitter)

0 Comments

No comments available

Comments from the original post will appear here

Related Videos

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,657 views • 1 year ago

AI能拿奥数金牌,却解不开小学数学题。 这是怎么回事? 谷歌DeepMind的创始人Demis Hassabis自己揭了AI的老底。 今天的AI,本质上是个“速冻产品”。 训练完成,能力就定格了。 像个一次性相机,拍完就不能再改。 它无法像人一样,从现实世界里持续学习、自我进化。 你希望它能在线学习,根据你的任务进行个性化调整。 但它做不到。 AI的智能是“锯齿状”的。 在某些高精尖问题上,表现惊人。 但在另外一些简单问题上,却错得离谱。 就像一个围棋高手,却不会玩跳棋。 这正常吗? Hassabis认为,真正通用的智能系统,不该有这种“锯齿感”。 一个数学专家,绝不会在简单问题上犯错。 那么,为什么现在的AI会这样? 是因为算法设计的根本缺陷,还是训练数据本身就充满了偏见和矛盾? 科技巨头们热衷于宣传AI的巨大突破。 达沃斯论坛上的精英们也在描绘AI驱动的未来世界。 他们很少谈论这些根本性的局限。 这些“锯齿”会不会成为被利用的漏洞? 当一个系统强大到可以影响经济决策、甚至军事判断时,它的“弱智”时刻会带来什么后果? Hassabis还提到了真正的创造力。 他说,提出一个正确的问题,比解决一个猜想更难。 现在的AI,只是个高效的解题工具。 它没有品味,没有洞察力,更提不出像爱因斯坦那样的革命性思想。 如果把AI的知识库截止到1911年,它能自己搞出广义相对论吗? 答案显然是否定的。 那么,我们在期待的到底是“智能”,还是一个越来越强大的“计算器”?

墓碑科技

25,536 views • 3 months ago

天才数学家陶哲轩对数学AI的思考 像真的,但其实不对。 AI写出的证明,乍看完美无瑕,细看漏洞百出。 为什么? 因为它没有“嗅觉”。 今天的AI,已经完全能通过“目测测试” 生成的内容看起来专业、太对味了。 但一旦你靠近它、认真嗅一下,就会发现它撒了香水 掩盖的,是逻辑上的腐臭。 不像传统的初学者那种“明显错”, AI的问题常常隐藏在最高级别的伪装底下: 写得太好,看不出哪里坏。 就像Terry Tao说的:“数学,是有味道的。” 一个真正靠谱的证明,不只是形式正确,而是通体带着那种“对的直觉” 结构自然、推理顺畅、细节干净利落。就像人闻食物的味道,不需要吃一口,就知道有没有毒。 AI没有这个。 它可以模仿口感,复制包装,但闻不到底层的真实。因为它是在学“怎么看起来像对的”,而不是“为什么它是真的”。 你可以把它理解为一个训练过非常精良的演员,知道什么时候该皱眉、什么时候叹气,用上最漂亮的定理、最熟练的转折,但它不明白它的角色到底在干什么。 而这,正是问题所在。 人类在判断一个复杂证明时,靠的不止是推理,更靠一种经验直觉:这个步骤自然吗?这个拆解方式靠谱不靠谱?这个结构合理不合理?我们甚至很难说清楚“为什么不行”,但就是知道,“不对劲”。 这就是“数学的嗅觉” 你说不明白,但你能闻得出来。 AlphaGo和AlphaZero之所以能搞定围棋和国际象棋,不是因为它们穷举了所有下法,而是因为它们学会了在哪些局面里,有“胜利的味道”。 即便讲不出理由,它们凭那股味道,也能找到通向胜利的路。 数学AI要想达到人类水平,它得也有这种“方向感”。 不是生成个像样的证明,而是能问自己:“我是不是在一个貌似正确,实际上死路的方向上走太远了?” 也许未来某一天,它能真正感觉到:“这一步味道不对,我得退回来。” 那一天,它就不只是一个生成文本的工具,而是真正的数学伙伴了。 🙋‍♂️人有灵气

墓碑科技

120,892 views • 1 year ago

千万别拿我和张雪峰这个大傻逼作对比。 网友:我想学AI相关的专业,我对AI很感兴趣,请问我应该选计算机还是数学? 我:你一定要选计算机,先把python和数据结构基础打好, 然后从deep learning这门课开始学,可以在家配置一个nvidia GPU的笔记本或者台式机,或者用google colab,先从最简单的 CNN 开始训练,找一个dataset,自己安装好pytorch和cuda、cudnn,抄一个经典CNN model,训练你的第一个神经网络, 然后可以学习transformer,学习encoder only的BERT,学习decoder only的GPT模型,从minGPT开始,训练你的最小版本的GPT模型, 如果你对训练模型感兴趣,可以读个PhD,如果你的inference感兴趣,可以多花点时间看cuda,简单学习一下nvidia tensor core architecture,可以了解GPT后续的模型的架构, 如果你对inference感兴趣,你也可以直接看vllm的架构,读里面的代码,理解vllm是如何load一个用pytorch训练好的LLM模型, 如果你对AI Agent感兴趣,可以从ReAct Agent开始看,然后看SWE Agent,知道一个Agent是如何抽象出来的,如何调用function call,如何自己做reasoning,如何把一个软件开发的任务用agentical的方式拆分和执行的, 然后你可以看codex的架构,看看codex是如何设计memory、auto compact、multi agent、background task这些现代coding Agent功能的。 张雪峰(下面视频中可以找到原话): 孩子,你一定要学数学,数学学好了可以转互联网、AI、科技、半导体、金融所有专业,数学是一切专业之母,所有专业的老祖宗! 孩子,deepseek就是一群纯数学博士造出来的,这些人天天研究数学,就把deepseek造出来了! 孩子,AI本质就是数学建模,就是一个个自变量,你只有研究数学,一直读到数学博士,才能把这些数学建模研究明白,计算机毕业生是永远研究不明白AI的! 我的结论是,鼓吹“数学万能论”、“数学是一切专业的老祖宗”、“只有数学博士才能研究AI”的张雪峰和他们的粉丝,都是彻彻底底的大傻逼。

lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)

266,136 views • 2 months ago

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课,系统的介绍了大语言模型,内容深入浅出,非常赞,抽空将它翻译成了双语,由于内容较长,我将分批上传,以下是第一部分精校后的双语视频,字幕文稿如下: Intro: Large Language Model (LLM) talk 大家好。最近,我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是,这次讲座没有被录制下来,但许多人在讲座后找到我,他们告诉我非常喜欢那次讲座。因此,我决定重新录制并上传到 YouTube,那么,让我们开始吧,为大家带来“忙碌人士的大语言模型入门”系列,主讲人 Scott。好的,那我们开始吧。 LLM Inference 首先,什么是大语言模型 (Large Language Model) 呢?其实,一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。 以 Llama 2 70B 模型为例,这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代,也是该系列中参数最多的模型,达到了 700 亿。LAMA2 系列包括了多个不同规模的模型,70 亿,130 亿,340 亿,700 亿是最大的一个。 现在很多人喜欢这个模型,因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文,所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同,例如,如果你正在使用 ChatGPT 或类似的东西,其架构并未公开,是 OpenAI 的产权,你只能通过网页界面使用,但你实际上没有访问那个模型的权限。 在这种情况下,Llama 2 70B 模型实际上就是你电脑上的两个文件:一个是存储参数的文件,另一个是运行这些参数的代码。这些参数是神经网络(即语言模型)的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型,每个参数占用两个字节,因此参数文件的大小为 140 GB,之所以是两个字节,是因为这是 float 16 类型的数据。 除了这些参数,还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码,这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python,或任何其他编程语言编写的。它可以用任何语言编写,但 C 语言是一种非常简单的语言,只是举个例子。只需大约 500 行 C 语言代码,无需任何其他依赖,就能构建起神经网络架构,并且主要依靠一些参数来运行模型。所以只需要这两个文件。 你只需带上这两个文件和你的 MacBook,就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件,编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。 比如,你可以让它写一首关于 Scale AI 公司的诗,语言模型就会开始生成文本。在这种情况下,它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子,你会在整个演讲中看到,是因为我最初在 Scale AI 举办的活动上介绍过这个话题,所以演讲中会多次提到它,以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。 我在这里稍微有点作弊,因为这并不是在运行一个有 700 亿参数的模型,而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程,让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包,但是当我们需要获取那些参数时,计算的复杂性就真正显现出来了。 那么,这些参数从何而来,我们如何获得它们?因为无论 run.c 文件中的内容是什么,神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,121,942 views • 2 years ago

Elon Musk有一个学习方法, 解释了一个困扰我很多年的问题, 为什么有些东西学完一周就忘光, 有些东西一通百通,区别就在于你有没有先建树干。 Elon Musk 说过,要把知识看成一棵语义树,先确保自己理解基本原理,也就是树干和大树枝,再去接触树叶一样的细节,否则那些细节根本无处依附。 这句话我琢磨了很久,越想越觉得它解释了一个困扰我很多年的问题,为什么有些东西学完就忘,有些东西一通百通。 区别就在于你有没有树干。 没有树干的时候,你学到的每一个技巧都是悬在空中的,挂不住,风一吹就掉了,读完一本书一周忘光,学完一门课一个月用不上,本质上都是同一个问题,你在往一棵不存在的树上挂叶子。 这个比喻不只是修辞,它完全符合我们大脑的工作机制,神经可塑性的运作方式就是这样的,能带来成功的神经连接会被不断强化,无用的连接像枯枝一样断掉,当你有了坚实的主干结构,新信息才有地方附着,没有这个框架,所有知识都会快速滑落。 马斯克自己就是这么干的,他没有先去学怎么造火箭发动机,而是先弄懂火箭为什么要那样工作,物理学、材料科学、热力学的基本原理,一旦掌握了这些,具体的工程决策就变成了可以评估、质疑和改进的东西。 芒格也是一样,不死记投资方法,而是从心理学、历史、数学、物理、哲学、生物学里搭建多元思维框架,然后用这个框架在所有领域做决策。 一个方法只能解决一个问题,一次有效,一个原理能反复用上百次,应对你还没遇到的场景。 哈灵顿·埃默森说过,方法可能有百万种,但原理很少,掌握原理的人能成功选择自己的方法,只试方法而忽视原理的人注定遇到麻烦。 所以咱们不管学什么新东西,先别急着找技巧,先问一个问题, 这个领域的树干是什么,哪些是一旦理解就能让其他一切都变得更容易的第一性原理。 先长树干,再挂树叶。

AYi

43,819 views • 2 months ago