正在加载视频...

视频加载失败

如何向 8 岁小学生解释ChatGPT 的运行原理?【3B1B:LLM的本质是单词预测器】 LLM的本质是一个复杂的数学函数,它只做一件事:针对给出的任何文本,预测下一个单词。 要构建一个聊天机器人,你需要先给出一些文本,描述用户与假想的AI助手之间互动。用户的输入是这次互动的开始,然后,你让模型反复预测AI助手会“说出”的下一个单词,这就是用户得到的输出结果。 但是,LLM 并非以确定方式预测下一个单词,而是为所有可能的下一个单词分别分配一个概率。这样的话,如果你允许LLM以更随机方式,选择可能性更低的下一个单词,输出结果会看起来更自然。 因此,这意味着,对于一个固定的提示词,LLM 每次给出的答案通常是不同的。

121,792 次观看 • 1 年前 •via X (Twitter)

9 条评论

howie.serious 的头像
howie.serious1 年前

3B1B 的深度学习系列视频,已经出到第 7 个了。3B1B 是人类中的精品,他的每一个知识视频也是视频中的精品,值得存在 readwise reader 中,边看边划线边写笔记,看 5678 遍。

✧ 𝕀𝔸𝕄𝔸𝕀 ✧ 的头像
✧ 𝕀𝔸𝕄𝔸𝕀 ✧1 年前

"LLM的本质是一个复杂的数学函数",生物神经网络的本质呢?

nobody 的头像
nobody1 年前

首先得自己搞懂😂

Syner 的头像
Syner1 年前

概率是怎么计算出来的?

币安交易所返佣注册申请(Parody) 的头像
币安交易所返佣注册申请(Parody)1 年前

有趣极了

C_Test 的头像
C_Test1 年前

放過那8歲孩子吧,還他快樂的童年。

king 的头像
king1 年前

@readwise save thread

AKJ$$ 的头像
AKJ$$1 年前

uu

𝑷𝒓𝒐𝒙𝒚𝑿𝑨𝑰 的头像
𝑷𝒓𝒐𝒙𝒚𝑿𝑨𝑰1 年前

m

相关视频

非常好的一个演示视频,通过可视化清晰的介绍了 LLM 的核心 Transformer 架构的原理。 包括词嵌入、自注意力机制等关键技术。对了解GPT-3等大型语言模型的内部结构很有帮助。 👇下面是文字版本: GPT的全称及其含义 GPT是Generative Pre-trained Transformer的缩写。其中,"Generative"表示这个模型是用来生成新文本的;"Pre-trained"意味着模型是在大量数据上预先训练好的;"Transformer"则指代一种特定类型的神经网络结构。因此,GPT本质上是一个基于Transformer架构、经过预训练、能够生成文本的语言模型。 Transformer的定义及其在AI领域的应用 Transformer是一种专门处理序列数据的神经网络架构。它最初是为机器翻译任务设计的,但后来被发现在其他许多NLP任务上也有出色表现,如语言建模、命名实体识别等。除了NLP,Transformer也被应用于语音识别、图像字幕生成等领域。Transformer的成功很大程度上归因于其独特的自注意力机制,使其能够高效地处理长程依赖关系。 Transformer的工作原理简介 Transformer的工作流程可以概括为三个主要步骤:首先,将输入的文本序列转化为一组向量表示;然后,通过自注意力机制和前馈神经网络对这些向量进行变换和更新;最后,根据更新后的向量生成输出分布,用于预测下一个词。整个过程中,自注意力机制起到了关键作用,使得模型能够动态地确定输入序列中每个位置与其他位置之间的相关性,从而更好地捕捉上下文信息。 Transformer处理文本信息的过程 当Transformer处理一段文本时,首先需要将其分割成一个个基本单元,如单词或子词,这些基本单元被称为"token"。接着,每个token都会被映射为一个高维向量,即"词嵌入"。这一步旨在将离散的文本符号转化为连续的向量表示,以便神经网络进行处理。然后,这些词向量会通过多个编码器层进行变换和更新,每一层都会综合考虑当前token与其他token之间的关系,从而使每个向量都融入了上下文信息。最后,解码器根据编码器的输出和之前生成的token,预测出下一个最可能的token。通过不断重复这一过程,Transformer就可以生成连贯的文本片段。 词嵌入(Word Embedding)的概念和作用 词嵌入是一种将词映射到高维向量空间的技术。通过词嵌入,每个词都被表示为一个实数向量,这个向量捕捉了该词的语义信息。词嵌入的一个重要特性是,语义相似的词往往在向量空间中距离较近。例如,"king"和"queen"这两个词的向量之间的距离会比"king"和"apple"的距离更近。此外,词嵌入还能够反映词之间的类比关系,如"king"-"man"+"woman"的结果会接近"queen"。词嵌入为神经网络提供了一种处理文本数据的有效方式,使其能够利用词语之间的语义关系进行推理和预测。 深度学习模型的基本结构和特点 深度学习模型通常由多个层组成,每一层对输入数据进行一定的变换,并将结果传递给下一层。层与层之间的连接通常是通过矩阵乘法实现的,其中矩阵的元素就是模型的参数。这些参数在训练过程中会不断更新,以使模型的输出与期望输出尽可能接近。深度学习模型的训练通常采用反向传播算法,即根据输出的误差,逐层调整参数的值。通过多次迭代,模型可以逐渐学习到数据中的规律和模式。深度学习模型的一个显著特点是,它们可以自动学习数据的表示方式,而无需人工设计特征。这使得深度学习在处理图像、语音等复杂数据时表现出色。 Softmax函数的作用和计算过程 Softmax函数常用于深度学习模型的输出层,特别是在多分类问题中。它的作用是将一组实数转化为一个概率分布,使得每个类别都有一个0到1之间的概率值,并且所有类别的概率之和为1。Softmax函数的计算过程分为两步:首先,对每个输入值取指数;然后,将每个指数值除以所有指数值的和。这样得到的结果就是一个合法的概率分布。Softmax函数有一个很好的性质,即输入值较大的类别会获得较高的概率,而输入值较小的类别的概率会趋近于0。这使得模型的输出更容易解释,并且有利于进行决策和预测。 生成模型预测下一个词的过程 当生成模型(如GPT)预测下一个词时,通常采用以下步骤:首先,根据前面已经生成的词,模型会计算出每个可能的下一个词的概率。这个概率分布反映了模型对不同词的偏好程度。然后,从这个分布中采样出一个词作为新生成的内容。接下来,模型将这个新词加入到已生成的序列中,并重复上述过程,直到达到预设的长度或遇到终止条件(如句号)为止。通过这种不断预测和采样的方式,生成模型可以创作出连贯而富有创意的文本。值得注意的是,为了提高生成文本的多样性和自然度,可以引入"temperature"等超参数来调节输出分布的形状。 GPT-3的参数量和嵌入矩阵 GPT-3是目前最大的语言模型之一,其参数量高达1750亿。这意味着,模型需要学习和存储大量的权重值,以刻画自然语言中的规律和模式。GPT-3的一个重要组成部分是嵌入矩阵(embedding matrix),它负责将每个词映射为一个高维向量。在GPT-3中,嵌入矩阵的大小为50257×12288,即词表中共有50257个不同的词(或子词),每个词被映射为一个12288维的向量。嵌入矩阵中的每个元素都是一个可学习的参数,在训练过程中会不断更新,以使得语义相似的词具有相近的向量表示。GPT-3庞大的参数量使其能够学习到比以往模型更加细致入微的语言知识,这也是其在各种NLP任务上表现出众的原因之一。 模型训练中的"Temperature"超参数 在生成模型的训练过程中,"Temperature"是一个重要的超参数,它控制着输出分布的形状。具体来说,temperature值越高,输出分布就越平缓,生成的结果也就越多样化;反之,temperature值越低,输出分布就越尖锐,生成的结果也就越保守。合适的temperature值可以在确保生成内容连贯性的同时,提高其丰富性和创造性。例如,当temperature值接近于0时,模型会倾向于选择概率最高的那个词,导致生成的文本可能流于老套;而当temperature值较高时,模型会给予概率较低的词更多机会,从而产生更加新颖和意想不到的结果。在实践中,temperature值通常需要根据具体任务和需求进行调整,以达到理想的平衡。

歸藏(guizang.ai)

51,767 次观看 • 2 年前

千万别拿我和张雪峰这个大傻逼作对比。 网友:我想学AI相关的专业,我对AI很感兴趣,请问我应该选计算机还是数学? 我:你一定要选计算机,先把python和数据结构基础打好, 然后从deep learning这门课开始学,可以在家配置一个nvidia GPU的笔记本或者台式机,或者用google colab,先从最简单的 CNN 开始训练,找一个dataset,自己安装好pytorch和cuda、cudnn,抄一个经典CNN model,训练你的第一个神经网络, 然后可以学习transformer,学习encoder only的BERT,学习decoder only的GPT模型,从minGPT开始,训练你的最小版本的GPT模型, 如果你对训练模型感兴趣,可以读个PhD,如果你的inference感兴趣,可以多花点时间看cuda,简单学习一下nvidia tensor core architecture,可以了解GPT后续的模型的架构, 如果你对inference感兴趣,你也可以直接看vllm的架构,读里面的代码,理解vllm是如何load一个用pytorch训练好的LLM模型, 如果你对AI Agent感兴趣,可以从ReAct Agent开始看,然后看SWE Agent,知道一个Agent是如何抽象出来的,如何调用function call,如何自己做reasoning,如何把一个软件开发的任务用agentical的方式拆分和执行的, 然后你可以看codex的架构,看看codex是如何设计memory、auto compact、multi agent、background task这些现代coding Agent功能的。 张雪峰(下面视频中可以找到原话): 孩子,你一定要学数学,数学学好了可以转互联网、AI、科技、半导体、金融所有专业,数学是一切专业之母,所有专业的老祖宗! 孩子,deepseek就是一群纯数学博士造出来的,这些人天天研究数学,就把deepseek造出来了! 孩子,AI本质就是数学建模,就是一个个自变量,你只有研究数学,一直读到数学博士,才能把这些数学建模研究明白,计算机毕业生是永远研究不明白AI的! 我的结论是,鼓吹“数学万能论”、“数学是一切专业的老祖宗”、“只有数学博士才能研究AI”的张雪峰和他们的粉丝,都是彻彻底底的大傻逼。

lidang 立党 (劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人)

266,843 次观看 • 3 个月前

先讲一个你可能从来没听说过的人。 1930年,英国语言学家 C.K. Ogden 做了一件很偏执的事——他把整个英语词汇表研究了一遍,然后问了一个问题:如果只能留下最核心的那些词,英语还能不能用? 他的答案是:850个词,够了。 这850个词,不是随便选的,是他穷尽分析之后筛选出来的"语言骨架"。他把它们分成5类: 100个操作词(Operations):这、那、是、有、做……就是那些让句子转起来的胶水词 400个普通事物(General Things):名词里最高频、最基础的那层 200个可描绘事物(Picturable Things):能画出来的具体东西,比如 door、fire、river 100个性质词(Qualities):描述世界的形容词,比如 clear、simple、important 50个反义词(Opposites):成对出现,学一个等于学两个 —————— 然后他把这套体系命名为 Basic English,发表出来。 接下来发生的事情更有意思。丘吉尔在二战期间公开赞扬这套体系,认为它是盟国推广英语教育的最佳基础。H.G. 威尔斯把它写进了《世界大战》的续集设定里,作为未来世界通用语言的蓝图。乔治·奥威尔……没有赞扬它,但《1984》里那套压缩语言"新话"(Newspeak)的灵感,正是来自对 Basic English 的深深警惕——他担心语言被缩减之后,人的思想也会跟着被缩减。 这就是这850个词的能量:支持者觉得它是桥梁,批评者觉得它是枷锁,争论了将近一百年。 但我想说的不是那场争论。我想说的是——这850个词,对今天的英语学习者来说意味着什么。 大多数人学英语,是被一本本厚厚的词汇书和无尽的考纲压着学的。CET-4、CET-6、托福、雅思……每一个证书背后都是几千个词的暴力记忆,背了忘,忘了背,从来没有真正"用"过。 Ogden 给出的逻辑完全相反:不是多,而是深。 这850个词,每一个都是高频中的高频,每一个在日常英语表达里都有不可替代的位置。当你真正把这850个词学透——不只知道它的意思,还知道它的用法、它的近义词在什么场景该用哪一个——你对英语的掌握会比背了5000个词却每个只认识中文意思要扎实得多。 这是一种截然不同的语言观:根扎得够深,枝才能生得够远。 —————— 于是我做了这个网站: (准确的说我让 Codex 做的) 原版 Ogden 的资料是一本PDF,黑白的,排版像上个世纪(它确实是上个世纪的)。我想让它变成真正可以用来学习的东西。 花了不少时间(花了不少 Token )最终做成了这样: 每一个词,都有一张完整的卡片。 卡片上有:这个词的中文释义、英文定义(用简单的英语解释英语,就像 Ogden 本人的风格)、一句真实语境下的例句,以及2到3个同义词。五个类别各有自己的颜色,一眼就知道你在学哪个区域的词汇。 每一个词,都可以听发音。 接的是有道词典的语音接口,默认英式发音,可以切换美式。点单词听一次,点例句听一次,语速比正常稍慢一点,适合跟读。不是那种机械的合成音,真的可以听。 最让我花心思的,是同义词那里。 很多人背单词的时候,同义词只是"差不多的意思"。但真正用英语的时候,difference 和 distinction 不一样,speak 和 talk 不一样,simple 和 easy 不一样。差在哪里?什么场景该用哪个? ——————— 网站是免费的,不需要注册,不会收集任何信息。 直接访问就行: 如果你身边有正在学英语的人,或者觉得自己英语"学了很多年但还是用不好"的,可以发给他们看看。 也许这850个词,是一个值得重新开始的起点。 👆 以上的文案也是它写的,我越来越没有用了

虎小象

943,771 次观看 • 1 个月前

微软2023年Build大会演讲:如何训练和应用GPT(中英文字幕) 这是本次微软2023年Build大会来自OpenAI的AI 研究员和创始成员Andrej Karpathy的一个主题为State of GPT的演讲。 演讲主要有两部分内容: 1. OpenAI是如何训练GPT的 2. 我们如何有效应用GPT 都是非常有价值的分享。 首先对于如何训练GPT,通常来说是四个阶段预训练(Pretraining),有监督的微调(Supervised Finetuning),奖励建模(Reward Modeling)和强化学习(Reinforcement Learning),这几个阶段通常是依次进行,每个阶段都有不同的数据集。 预训练(Pretraining): 这个阶段的目标是让模型学习一种语言模型,用于预测文本序列中的下一个单词。训练数据通常是互联网上的大量文本。模型从这些文本中学习词汇、语法、事实以及某种程度的推理能力。这个阶段结束后,模型可以生成一些有意义且语法正确的文本,但可能无法理解具体任务的需求。 有监督的微调(Supervised Finetuning): 在预训练后,模型会进入微调阶段。在这个阶段,人类评估员将参与并给出指导,他们会给模型提供对话样本,样本中包含了输入和期望的输出。这使得模型能更好地适应特定任务或应用,例如回答问题或编写文章。 奖励建模(Reward Modeling): 评估员将对模型生成的不同输出进行排名,以表示它们的质量。这个排名将被用作奖励函数,指导模型优化其生成的输出。 强化学习(Reinforcement Learning): 强化学习阶段是一个迭代的过程,模型会试图优化其行为以获得最大的奖励。在这个阶段,模型会产生新的输出,评估员会对这些输出进行排名,然后模型根据这个反馈调整其行为。 然后是如何有效应用GPT 在演讲中Andrej举了一个非常好的例子:人类和大语言模型(LLM)都是如何写作的?从这个例子中你能明显感觉到人类和GPT之间的差异。 假设你要写一篇文章去比较加利福尼亚州和阿拉斯加州的人口,你的写作的过程中可能是像这样的: - 我需要写一篇文章去比较加利福尼亚州和阿拉斯加州的人口 - 我需要去获取两个州的人口数据 - 我不知道这两个周的人口数据 - 去维基百科找到加利福尼亚州的人口是39.2M - 去维基百科找到阿拉斯加州的人口是0.74M - 现在我需要计算一下两个州人口数相差多少倍,但是可能需要计算机帮忙 - 用计算器算出来39.2除以0.74约等于53 - 快速的检查一下53倍这个数字是不是符合常识,嗯,这是一个相当大的比值,但加利福尼亚州毕竟是人口最多的州,所以这个结果或许是合理的,可以继续 - 好了,我现在有了我需要的所有信息 - 写下:“加利福尼亚州的人口比53倍的……” - 觉得好像不太好,删除重写成:“加利福尼亚州的人口是阿拉斯加州的53倍。” - 嗯,觉得还不错 也就是说,当人类写作时,哪怕是这样一个简单的句子,可能内心实际上进行了大量的运算的。 但当我们用GPT进行写作这样的句子看起来会是什么样呢? 从GPT的角度看,这只是一系列的标记(Tokens)。当GPT在接收到一个输入,比如你给出的主题。它会生成一段与输入相关的文本,GPT的目标是预测下一个词,所以它会连续生成一串词,形成一段连贯的文本。 从本质上看,Transformer只是标记模拟器,它不知道自己知道什么不知道什么,它不知道自己擅长什么或不擅长什么,它只是尽力生成下一个标记,它也不会进行反思,也不会不进行任何合理性检查。它不会纠正自己的错误,它只是产生抽样的标记序列,它没有像人类那样的内心独白流。 但是,GPT有一些优势,如它们拥有大量的基于事实的知识,并且拥有相对大的并且完美的工作记忆。GPT通过自我注意力机制,能立即获取到上下文窗口中的信息,从而进行无损记忆。然而,GPT在推理和判断方面的能力相对较弱,如果提出的问题需要更复杂的推理,单凭一个标记的信息,GPT往往无法给出正确的答案。 一些技巧可以提升GPT的表现,比如Cot(Chain of Though)设定步骤来引导GPT展示其工作过程,或者通过多次抽样然后选择最佳结果等,或者可以让GPT检查自己的输出,比如询问它是否完成了任务,最好是在Prompt中明确的要求它检查自己的输出。 后面还介绍了目前比较流行的GPT应用,比如Agent、Plugin、CoT、Embedding等 最后他用GPT-4写了一个结尾: “女士们,先生们,2023年Microsoft Build的创新者和先驱者们,欢迎来到这个独一无二的卓越人才的集结地。你们是未来的架构师,是塑造数字领域的视野家,在那里人类繁荣发展。拥抱科技的无限可能,让你的想法飞得和你的想象力一样高。让我们一起创造一个更连通,更出色,更包容的世界,为未来的世代留下。准备好释放你的创造力,探索未知,把梦想变成现实。你的旅程今天开始。” 原始视频地址: YouTube地址:

宝玉

298,761 次观看 • 3 年前

OpenAI工程师翁家翌在下边的访谈里讲了两句非常有意思的话: 1. 每个人的命运是可以被预测的; 2. 上帝在宏观不掷骰子,而微观上掷骰子。 某种程度上,个人是很认同的。 "宿命论/命运可预测": 翁家翌认为每个人的命运是可以被预测的,这个世界是一个确定的世界,人类在宏观上是没有自由意志的,世界在宇宙大爆炸的时候就已经确定了。 这个立场本质上是物理学中的经典决定论,也就是拉普拉斯妖的思路:如果你知道宇宙某一时刻所有粒子的状态和运动信息,就能推演出整个过去和未来。从这个角度看,人的命运只是初始条件在时间维度上的展开,不可预测只是因为我们信息不够,而不是因为它不确定。 翁家翌作为做强化学习的人,会有这种直觉其实不奇怪。RL 本质上就是在一个由规则确定的环境里,通过行动和反馈的闭环来逼近最优策略。如果你把整个宇宙看成一个极其复杂的环境,而人只是其中的 agent,那“命运可预测”就变成了一个工程问题,而非哲学问题,只是算力和信息量的限制。 “上帝在宏观不掷骰子,而微观上掷骰子”: 这个观点上,他把爱因斯坦和哥本哈根学派的争论做了一个调和,而不是简单地站某一边。 微观掷骰子,这基本上是承认量子力学的实验事实。单个粒子的行为确实是概率性的,你没法预测一个电子具体会出现在哪,只能给出概率分布。这一点在实验上已经反复验证过,没什么好争的。 宏观不掷骰子,这才是他真正想表达的核心。意思是:当微观的随机性被大量粒子叠加、平均之后,在宏观层面上涌现出来的规律是确定的。 映射到人的命运上,他的意思大概是:你人生中每一个微小的决策瞬间,每一次神经元的放电,可能确实带有量子层面的随机性。但当这些微小的随机性汇聚成一个人几十年的生命轨迹时,大数定律把噪声给消除了,剩下的是一条由初始条件(你的基因、家庭、时代、性格结构)基本锁定的路径。 这个观点还有一层更深的含义:它解释了为什么“算命”这件事在统计意义上可能有效,但在具体事件上经常失败。 宏观层面的命运轨迹(大致会从事什么类型的工作、大致的人生节奏)或许是可预测的,因为它是由足够多的微观变量平均出来的。但某一天你会遇到谁、某一次会议会说什么话,这些微观事件里骰子还在转。 这不是那种粗糙的"一切命中注定"式宿命论,而是一个更接近统计物理的框架:自由意志存在于微观的每一步,但命运浮现于宏观的整条路径。 你可以选择今天吃什么,但你这辈子大概会成为什么样的人,可能在出生的时候就差不多定了。

Macro_Lin | 市场观察员

368,666 次观看 • 3 个月前

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上,陶哲轩做了一次 AI 和数学的演讲,非常精彩,从数学使用计算计算机的历史开始讲起,一直讲到大语言模型,干货相当多,尤其适合对数学有兴趣的同学。 (对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看) 先摘录几个冷知识: 1. 我们使用机器做数学计算已经有数千年,最早的机器辅助计算可能是罗马人,然后是中国的算盘 2. 二战时就有人肉“计算机”,计算弹道和其他任务,多位女孩子,因为男士们在打仗,所以那时候的计算基本单位不是GPU,而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在,数学家们使用一种现代化的证明辅助编程语言,叫做 Lean。在 Lean 中有一个核心的数学库,通过众包的方式开发的,本科数学课程中看到的内容,比如微积分基础、群论基础或者拓扑学等等,这些都已经被形式化了,所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程,那就是先编写一个称为“蓝图”的详细证明计划,将整个证明分解为数百个小步骤。每个步骤可以单独形式化,然后再将它们整合在一起,这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图,然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。 去年,陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了,使用了蓝图工具,参与的人中有概率论专家,甚至还有一些并非数学家的人,他们是程序员,但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务,并完成了它。 在数学领域,通常很难这么多人一起合作,一般最多可能五个人合作。因为在大项目上合作时,你必须相信每个人的数学都是正确的。但是,一旦超过一定规模,这就无法实现了。但现在借助 Lean 编译器,它能自动检查。团队成员无法上传任何编译不通过的内容,会被拒绝。因此,你可以与一些从未见过的人合作。 最后是讲大语言模型,首先陶哲轩就打脸了 GPT-4 的论文(我猜是微软那篇《GPT-4,通用人工智能的火花》),论文中号称 GPT-4 能解决国际数学奥林匹克问题,但实际上,这个问题不是 2022 年国际奥数竞赛的原始问题,而是一个简化版本,并且他们测试了几百道国际奥数竞赛问题,成功率只有1%,论文里的这个是精心挑选的恰巧能做对的。 并且陶哲轩提到了基于大语言模型的一些改进的方案: 比如 CoT(Chain of Thought),也就是 LLM 做简单的算术运算都做不对,但是如果让它一步步解释,可能就对了。还可以教 AI 一些解题技巧,比如尝试简单的例子,反证法,尝试逐步证明等。 比如让模型和编程语言或者工具连接,将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证,并且迭代的进行修正和验证,直到得到正确的结果,这可以提升大语言模型生成的效果。 即使借助这些手段,大语言模型还远远不能解决大多数数学问题,更不用说数学研究问题了! 当然陶哲轩也没太过打击大家对于 AI 的信心,表示我们在 AI 上还是在不断的取得进展,还提到了他日常是怎么用 AI 的,比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题,我尝试了几种方法,但都无法解决。于是,我尝试询问 GPT,你建议我使用什么其他方法来解决这个问题?GPT 给我提供了 10 种可能的方法,其中有 5 种我已经尝试过,或者明显没有帮助。的确,有几种方法并不实用。但其中有一种我还没尝试过的方法,那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时,我意识到这就是我漏掉的正确方法。所以,将 GPT 视为一个交流伙伴,它确实具有一定的用处。 还有使用 GitHub Copilot 帮他写代码,让它自动生成下一步的证明结果,Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具,你只需要写下一半的证明,它就会尝试猜测接下来的内容。大概有 20% 的情况下,它能猜到接近正确的答案。然后你就可以说,我接受这个答案。好的,那么在这种情况下,我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行,尽管你可能看不清楚,却真的解决了这个问题。所以,你不能盲目接受它的输入,因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解,这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行,它们就能自动完成。现在已经有了这样的实验,即通过迭代地让 AI 提供证明,然后让编译器进行反馈,如果编译出错,就把错误信息反馈给 AI。通过这种方法,我们开始能够验证四五步长的证明。当然,一个大型的证明可能需要数万行。所以,我们还没有达到能够立即得到一个正式证明的程度。但是,这已经是一个相当有用的工具。 对于大家关心的问题: AI 在数学领域现在到了哪一个阶段?是否未来几年利用 AI 能直接解决数学问题? 陶哲轩也给出了他的看法: > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题,你可以定制专门的 AI 来处理一小部分问题。即便如此,它们也不是完全可靠的,但还是有用的。不过至少在接下来的几年里,它们基本上将是非常有用的辅助工具,超越了我们已经熟悉的暴力计算辅助。 他还提到了一些可能的 AI 能在数学领域提供帮助的方向: - AI 能够非常好地生成有价值的猜想 > 比如,我们已经看到了关于结理论的例子,它们已经可以推测出两个不同的统计量之间的关系。因此,我们希望能够创建大量的数据集,输入到 AI 中,它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点,部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在,因为证明定理是如此繁琐和艰难的过程,我们一次只能证明一个定理,如果你效率很高,可能一次能证明两三个。但是有了 AI,你可以设想一下未来的情况,我们不是试图解决一个问题,而是处理一类类似的1000个问题,然后告诉AI,尝试用这个方法解决这 1000 个问题,然后报告结果,哦,我能用这种技术解决 35% 的问题。那么另一种技术呢?我能解决这个百分比的问题。或者如果结合这些方法,又能解决多少问题?你可以开始探索问题的空间,而不是一个接一个地解决问题。这是你现在根本无法做到的事情,或者是你需要几十年时间,通过数十篇论文慢慢搞清楚各种技术能做什么,不能做什么。但是有了这些工具,你真的可以开始做规模前所未有的数学研究。所以,未来将会非常令人兴奋。 演讲环节结束前的最后一句话说的特别好: > 我们仍然会以传统方式证明定理。事实上,我们必须这样做,因为如果我们自己都不知道如何做这些事情,就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。 这恰恰也是我们现在使用 AI 辅助编程的问题:如果我们自己都不知道如何构建软件,就很难引导好 AI 帮助我们生成高质量的代码。 尽管 AI 在数学和编程领域变得越来越有用,但人类的洞察力和创造力仍然是创作价值的关键。 原始 YT 视频:

宝玉

300,832 次观看 • 1 年前

把网站录下来给AI看, AI能照着做出来吗? 刚刚看到了个炫酷的灯具网站, 它有个功能是点击按钮直接能看到灯点亮的效果, 甚至网站的配色也会暗淡下来, 特别有氛围. 我突然想到, 这样的网站, 如果要让AI来做, 该怎么办? 把源代码拷给它? 用一个巨复杂的 prompt 来完成? 有没有可能, 我录个视频, 展示一下这个"关灯"的效果, 然后让AI来按照视频来写网站? 于是, 这个重任就交给了今天测试的模型, 百度刚出的文心-5.0-preview, 全模态大模型, 这个模型同时支持文本, 图片, 音频, 视频作为输入, 然后可以生成文本和图片, 所以我们这个测试可以最大化的利用它的能力. 我先录制了网站的效果, 然后写了prompt作为补充, 告诉它这个效果是怎样的, 以及准备的图片材料在哪里. 值得一提的是, 网站所展示的图片也是我用文心-5.0-preview生成的. 大家可以看视频中我生成的效果. 直接说测试结论: 目前每个模态都是可用的, 而且模态之间关联性非常好, 我测试了视频+文本, 图片+文本, 图片+语音, 都可以完成任务. 当然测试也发现了一些问题, 比如 token 输出速度不是特别快, 以及偶尔会有超时问题(已反馈给百度的同学). 我的使用建议是, 多利用它的多模态能力, 来完成之前不敢想象的任务, 它真的提升了使用场景的天花板. #文心大模型 #文心5 #百度 #文心一言 #ai教程

karminski-牙医

29,929 次观看 • 7 个月前

Claude Fable 5 重新开放了 最近刚好有一个demo,就是看能不能用顶级模型做一个meme工厂 “ 就是我输入一个 Meme Coin 创意 然后这个工具自动生成品牌 / 叙事 / 经济模型 / 营销方案 支持中文全流程输出,可以反复优化迭代 “ 也是想尝试一下,做一个可以验证 Fable 5 长任务能力 最终做出了一个能够简单跑的框架(我没有投入任何信息源,没有喂数据 所以跑起来效果没有那么屌,不过我觉得后期再投喂一些案例,我觉得确实是可以落地的) 说说我为什么用Fable 5 来测? 因为这个任务本质不是写代码 更像是说去测试AI的长链路规划能力测试 它需要: 1/ 语义理解 2/ 叙事能力 3/ 结构能力 4/ 一致性 5/ 自我检查 这刚好是 Claude Fable 5 主打的能力 整体跑下来我觉得还算是可以的,毕竟我这种不会写代码不会设计的小屌丝,确实在Fable 5 上面使用得其乐融融的 哈哈 再说说我的TOKEN使用量吧:112.31K(按照官方的收费标准大概是在:$4.2) 要是加上文本案例 再接入一个AI对话的API框架 我觉得应该费用还要再多出个大几十吧(个人猜测,毕竟投喂数据可能会比较烧tokens) 总的来说的话我个人还是觉得这笔消费还算挺值得的,因为这本身在传统行业的话 可能会是比较高的费用,AI真的弄挺好的 说完Claude Fable 5的体验, 那我不得不说我是在哪里体验的Claude Fable 5了 我这次没有走官方通道,而是走的是我之前给大家分享的中转站 Zenmux ZenMux 因为他这几天又搞活动了,只要你账号的余额>$0 你就可以免费体验Claude Fable 5 并且 Zenmux支持(不限于): 200+ 模型统一入口 无 RPM 限制 PK 模式 可以直接做横评 如果大家也想低成本体验一下 Claude Fable 5 我觉得当前使用Zenmux是最好的选择

车九

46,667 次观看 • 2 天前

这两天看到的收获很大的一篇论文《AlphaCodium:引领代码生成新境界,从提示工程到流程工程》,它提出了一种新的生成代码的方法,比传统的直接基于Prompt生成代码的方式准确率更高。 它用的测试集是CodeContests ,这是由 Deepmind 推出的一项挑战性编程数据集。相对来说还是很权威的。以 GPT-4 为例的话,准确率从19%提升到了44%。 它的原理有些复杂,但是如果你有过LeetCode刷题经验,相对比较好理解一些。 普通人刷 LeetCode,上来就做,这样有可能得到答案,也有可能做不出来,这就类似于你把题目直接丢给GPT-4,让它直接给出答案,准确率相对要低一些。 高手刷LeetCode,会有个做题的流程,同样的水平,做出来的概率会大一些。 高手做题时会大概分成几个步骤: 1. 先把题目中的要点一条条列出来,确保不会遗漏任何重要信息 2. 通常LeetCode会提供 1 个或多个测试用例,仔细看测试用例,分析为什么给定的输入能得到给定的输出 3. 在写代码前,列出几种可能的解决方案,例如暴力算法、递归、动态规划,每一种方案写下思路和伪代码 4. 对于列出来的几种方案进行评估,选出最佳方案 5. 可能还会补充一些测试用例帮助事后验证 --- 以下部分是迭代过程: 6. 根据选中的解决方案写代码,如果代码不能运行则修改代码直至能运行 7. 将代码提交到LeetCode的测试集去验证,如果无法通过所有测试,则修改错误,如果通过到第8步 8. 用第 5 步生成的测试用例验证代码,如果运行不通过则继续优化代码 这里留个思考题:如果第8步出错,怎么判断是代码有问题还是自己生成的测试用例有问题? 而 AlphaCodium 就是完美遵循了以上的步骤来解题,只不过每一步都是由大语言模型帮助完成! 这给了我一些启示: 1. 不必寄希望于将复杂的任务在一个 Prompt 中完成,拆分成若干子任务成功概率会高一些 2. AI 可以借鉴人类的优秀实践,例如高手是如何解决编程难题的,让 AI 按照高手的步骤去一步步做 3. AI 的潜力还有很大挖掘空间 完整的文章参考: 中文译文:

宝玉

265,105 次观看 • 2 年前

熟悉Prompt的同学们应该都知道,通常在写Prompt的时候要先设定角色:“你是XX方面的专家”,这并非玄学,而是有科学根据的。 GPT在训练的时候,有各种训练数据,有的质量高有的质量低,而默认情况下,生成高质量数据和低质量数据的概率差不多,但是当你给它设定XX专家的角色时,它会尽可能把概率分布在高质量的解决方案上。 详细内容建议看下面这段Andrej Karpathy在State of GPT中的一段演讲。 以下是这段视频的文字文字内容: ---------- 下面我要讲的这点对LLM的理解非常有趣,我觉得这算是LLM的一种心理特性:LLM并不追求成功,而是追求模仿。你希望它成功,那就需要向它明确要求。这里的意思是,在训练Transformer的过程中,它们有各种训练集,而这些训练数据中可能涵盖了各种不同质量的表现。比如,可能有一个关于物理问题的提示,然后可能有学生的解答完全错误,但也可能有专家的答案完全正确。尽管Transformer可以识别出低质量的解决方案和高质量的解决方案,但默认情况下,它们只会模仿所有的数据,因为它们仅仅是基于语言模型进行训练的。 在实际测试中,你其实需要明确要求它表现得好。在这篇论文的实验中,他们尝试了各种提示。例如,“让我们逐步思考”这种提示就很有效,因为它把推理过程分散到了许多记号上。但效果更好的是这样的提示:“让我们以一步一步的方式解决问题,以确保我们得到正确的答案。” 这就好像是在引导Transformer去得出正确的答案,这会使Transformer的表现更好,因为此时Transformer不再需要把它的概率质量分散到低质量的解决方案上,尽管这听起来很荒谬。 基本上,你可以自由地要求一个高质量的解决方案。比如,你可以告诉它,“你是这个话题的领先专家。假装你的智商是120。” 但不要尝试要求太高的智商,因为如果你要求智商400,可能就超出了数据分布的范围,更糟糕的是,你可能落入了类似科幻内容的数据分布,它可能会开始展现一些科幻的,或者说角色扮演类的东西。所以,你需要找到适合的智商要求。我想这可能是一个U型曲线的关系。

宝玉

348,497 次观看 • 3 年前