Video wird geladen...

Video konnte nicht geladen werden

Beim Laden dieses Videos ist ein Problem aufgetreten. Dies könnte an einem vorübergehenden Netzwerkproblem liegen oder das Video ist möglicherweise nicht verfügbar.

学 AI的兄弟们，别再死磕调包了，现在从零写一个大语言模型，比学会怎么熟练使用PyTorch还简单😂 看看这两个19岁本科生，四个月从零造了完整的机器学习框架和大模型。两个19岁的滑铁卢大学本科小哥哥，四个月前对机器学习一窍不通，现在他们从零造了一套完整的机器学习框架，还训出了一个1200万参数的大语言模型，能直接在你的浏览器里跑。说明大多数人学AI的顺序完全搞反了，大家都是先学调包，再学模型架构，最后才敢碰一点点底层。这两人反过来，从梯度下降的微积分开始写，先写自动微分引擎，再写BPE分词器，然后一层一层搭Transformer，最后反而比绝大多数调了三年包的工程师理解得都要深。还有一个很少有人看出来的点，现在AI的真正门槛，早就不在模型架构了。 Transformer的论文2017年就发了，每一层的数学都是公开的，随便一个大学生都能背下来。真正难的是那些论文里从来不写的东西，怎么写Flash Attention把内存占用降一个数量级，怎么把加bias加激活加归一化合并成一个内核，怎么把整个数据集一次性扔进GPU，让训练全程零数据传输，这些才是决定你能不能真的把模型跑起来的关键。大厂也正在把简单的事情变复杂， PyTorch为了兼容所有情况，堆了无数层抽象，最后你都不知道自己写的一行代码在GPU上到底在干什么ಠ_ಠ 而开源正在把复杂的事情变简单，这两个人用Rust写后端，TypeScript写前端，底层跑得飞快，上层用起来和PyTorch一样简单，代码加起来不到一万行，还比任何一个主流框架都干净，这你受得了吗哈哈这才是最好的AI教育，不是看一百篇论文，或者刷十个在线课程，而是从第一性原理出发，自己造一个轮子。当你亲手写过一次自动微分，你就再也不会觉得AI是什么神秘的黑魔法了。它就是一堆精心优化的矩阵运算，加一点聪明的数据流管理，仅此而已。我觉得这个视频最恐怖的地方不是两个大学生有多厉害，而是它证明了两年前还只有大厂实验室才能干的事，现在已经变成了普通人的业余爱好项目。最后想说，我们处在一个最好的时代，科技平权的时代， AI的民主化不是大厂给你发API密钥，咱们任何人只要愿意花四个月时间，... show more

AYi

52,500 subscribers

63,190 Aufrufe • vor 3 Monaten •via X (Twitter)

Anya Rossi• Live Now

Private livecam show

0 Kommentare

Keine Kommentare verfügbar

Kommentare vom Original-Post werden hier angezeigt

Ähnliche Videos

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

OpenAI刚刚开源的这个东西，感觉要把程序员的工作方式给整个改写了。现在大家都在卷模型写代码有多强，但其实真正的瓶颈早就不是生成了。一个人每天最多同时有效监督3-5个编码Agent，再多就会注意力崩溃，生产力直接归零。有了Symphony，直接把这个上限干到了几十个。它把你的Linear、GitHub Issues直接变成了永远在线的Agent调度器。你开一个任务，它自动启动一个独立隔离的Codex Agent。自己写代码，自己跑测试，自己做交叉Review，damn！全部搞定之后，会给你提交一个完整的证据包。 CI全绿，安全和性能专项审查通过，改了UI就自动录好操作视频。所有验证全过了，才会出现在你的Human Review队列里。以后人类的角色可能会被彻底颠覆了。以前你是监工，盯着Agent一步一步写代码，上下文切到吐。现在你是老板，只需要看最终的结果。满意就点合并，不满意就去仓库里补规则补文档补Guardrails。记住兄弟们，永远不要手把手指挥Agent，永远不要替它干活。这可不是啥实验室概念，OpenAI自己已经这么干了。三个工程师，五个月，写了一百万行代码，0行人工写的。产品已经有几百个内部用户，每天都在迭代。我觉得他们最厉害的不是模型，是他们把整个仓库变成了Agent能看懂能自主工作的乐园。现在很多人都搞错了Agent时代的核心竞争力。未来不是谁的模型更聪明，而是看谁能设计出让Agent可靠自主工作的环境。我觉得未来最好的工程师，再也不是写代码最快的人，而是那些最会写规则，最会设计反馈回路，最会给Agent搭舞台的人。现在Symphony已经开源了，它甚至不是一个成品。是一个17k token的完整SPEC。你把这个SPEC喂给任何一个编码Agent，十分钟就能生成你自己定制版的Symphony。 GitHub地址评论区自取👇

AYi

63,210 Aufrufe • vor 3 Monaten

AI教父Yann LeCun说了一个事实。一个四岁的小孩，看过的数据量，等于有史以来所有文本的总和。最大的AI模型，训练数据是30万亿个单词。听着很多？一个四岁小孩，醒着的时间大约16000小时。光是用眼睛看，接收的数据量就跟AI一样多。但数据的质量，完全是两回事。小孩看到的是真实世界。是重力，是东西掉下来，是手去抓握。是因果，是物理规律。他通过这些，在脑子里建立了一个世界模型。 AI看到的是什么？是孤立的文字，是符号。它唯一的任务，是猜下一个词是什么。这就解释了现在的怪现象。 AI能通过律师考试，能解微积分方程。比大学生还快。但它学不会装洗碗机。也变不成一个能做家务的机器人。更不可能像任何一个青少年一样，花20小时就学会开车。那些吹嘘AI马上取代一切的人，在回避什么？他们在回避现实世界。 AI被喂养的是人类思想的“数字幽灵”，不是物理世界的实体。把一个在图书馆里读了所有书的书呆子，和一个在街头长大的孩子扔进丛林。谁能活下来？道理是一样的。

AI教父Yann LeCun说了一个事实。一个四岁的小孩，看过的数据量，等于有史以来所有文本的总和。最大的AI模型，训练数据是30万亿个单词。听着很多？一个四岁小孩，醒着的时间大约16000小时。光是用眼睛看，接收的数据量就跟AI一样多。但数据的质量，完全是两回事。小孩看到的是真实世界。是重力，是东西掉下来，是手去抓握。是因果，是物理规律。他通过这些，在脑子里建立了一个世界模型。 AI看到的是什么？是孤立的文字，是符号。它唯一的任务，是猜下一个词是什么。这就解释了现在的怪现象。 AI能通过律师考试，能解微积分方程。比大学生还快。但它学不会装洗碗机。也变不成一个能做家务的机器人。更不可能像任何一个青少年一样，花20小时就学会开车。那些吹嘘AI马上取代一切的人，在回避什么？他们在回避现实世界。 AI被喂养的是人类思想的“数字幽灵”，不是物理世界的实体。把一个在图书馆里读了所有书的书呆子，和一个在街头长大的孩子扔进丛林。谁能活下来？道理是一样的。

墓碑科技

72,742 Aufrufe • vor 4 Monaten

千万别拿我和张雪峰这个大傻逼作对比。网友：我想学AI相关的专业，我对AI很感兴趣，请问我应该选计算机还是数学？我：你一定要选计算机，先把python和数据结构基础打好，然后从deep learning这门课开始学，可以在家配置一个nvidia GPU的笔记本或者台式机，或者用google colab，先从最简单的 CNN 开始训练，找一个dataset，自己安装好pytorch和cuda、cudnn，抄一个经典CNN model，训练你的第一个神经网络，然后可以学习transformer，学习encoder only的BERT，学习decoder only的GPT模型，从minGPT开始，训练你的最小版本的GPT模型，如果你对训练模型感兴趣，可以读个PhD，如果你的inference感兴趣，可以多花点时间看cuda，简单学习一下nvidia tensor core architecture，可以了解GPT后续的模型的架构，如果你对inference感兴趣，你也可以直接看vllm的架构，读里面的代码，理解vllm是如何load一个用pytorch训练好的LLM模型，如果你对AI Agent感兴趣，可以从ReAct Agent开始看，然后看SWE Agent，知道一个Agent是如何抽象出来的，如何调用function call，如何自己做reasoning，如何把一个软件开发的任务用agentical的方式拆分和执行的，然后你可以看codex的架构，看看codex是如何设计memory、auto compact、multi agent、background task这些现代coding Agent功能的。张雪峰（下面视频中可以找到原话）：孩子，你一定要学数学，数学学好了可以转互联网、AI、科技、半导体、金融所有专业，数学是一切专业之母，所有专业的老祖宗！孩子，deepseek就是一群纯数学博士造出来的，这些人天天研究数学，就把deepseek造出来了！孩子，AI本质就是数学建模，就是一个个自变量，你只有研究数学，一直读到数学博士，才能把这些数学建模研究明白，计算机毕业生是永远研究不明白AI的！我的结论是，鼓吹“数学万能论”、“数学是一切专业的老祖宗”、“只有数学博士才能研究AI”的张雪峰和他们的粉丝，都是彻彻底底的大傻逼。

千万别拿我和张雪峰这个大傻逼作对比。网友：我想学AI相关的专业，我对AI很感兴趣，请问我应该选计算机还是数学？我：你一定要选计算机，先把python和数据结构基础打好，然后从deep learning这门课开始学，可以在家配置一个nvidia GPU的笔记本或者台式机，或者用google colab，先从最简单的 CNN 开始训练，找一个dataset，自己安装好pytorch和cuda、cudnn，抄一个经典CNN model，训练你的第一个神经网络，然后可以学习transformer，学习encoder only的BERT，学习decoder only的GPT模型，从minGPT开始，训练你的最小版本的GPT模型，如果你对训练模型感兴趣，可以读个PhD，如果你的inference感兴趣，可以多花点时间看cuda，简单学习一下nvidia tensor core architecture，可以了解GPT后续的模型的架构，如果你对inference感兴趣，你也可以直接看vllm的架构，读里面的代码，理解vllm是如何load一个用pytorch训练好的LLM模型，如果你对AI Agent感兴趣，可以从ReAct Agent开始看，然后看SWE Agent，知道一个Agent是如何抽象出来的，如何调用function call，如何自己做reasoning，如何把一个软件开发的任务用agentical的方式拆分和执行的，然后你可以看codex的架构，看看codex是如何设计memory、auto compact、multi agent、background task这些现代coding Agent功能的。张雪峰（下面视频中可以找到原话）：孩子，你一定要学数学，数学学好了可以转互联网、AI、科技、半导体、金融所有专业，数学是一切专业之母，所有专业的老祖宗！孩子，deepseek就是一群纯数学博士造出来的，这些人天天研究数学，就把deepseek造出来了！孩子，AI本质就是数学建模，就是一个个自变量，你只有研究数学，一直读到数学博士，才能把这些数学建模研究明白，计算机毕业生是永远研究不明白AI的！我的结论是，鼓吹“数学万能论”、“数学是一切专业的老祖宗”、“只有数学博士才能研究AI”的张雪峰和他们的粉丝，都是彻彻底底的大傻逼。

lidang 立党（劝人卖房/学CS/买SP500/纳100/OpenAI/Anthrop第一人）

267,895 Aufrufe • vor 4 Monaten

有个大学生，拿了2400美元奖学金，没干别的，全花在一台iPad和一台Mac Mini上了。家里人一看，觉得挺欣慰：买电脑嘛，肯定是为了学习。室友瞄了一眼那堆设备，半开玩笑说：这架势，不会是要挖矿吧？其实都不是。他从GitHub上扒下来39个AI代理的代码，敲了回车，直接睡觉去了。第二天早上醒过来，终端那边已经把活儿干完了——差不多是初级开发干四天的量。没有bug，没问过一个问题，也不用人在旁边盯着。他录了个屏，到第40秒的时候你仔细看，最上层跑着个叫OpenClaw的东西。就是这一层，能让所有代理同时看清整个项目的结构，自己决定接下来该动哪里。 iPad相当于他的办公室，Mac Mini就是给他干活的员工。他去上课的时候，机器就在宿舍里接着跑。一个月后，来了第一个客户。再过一周，又来一个。正经外包公司要接同样量的活儿，一个月得收一万六美元左右。他这套东西跑起来的成本呢？21美元。也就大半年前，这种配置还只有那些拿了钱的初创公司才搭得起来。现在呢，一个大学生拿奖学金就搞定了。玩法已经变了，只是大多数人还没意识到。同样的逻辑，换个地方也成立——比如PolyCop，能让你自动跟单Polymarket上那些顶级交易员的操作，不用自己盯着盘。钱在动，你不用动。这事儿挺有意思，值得留意。

有个大学生，拿了2400美元奖学金，没干别的，全花在一台iPad和一台Mac Mini上了。家里人一看，觉得挺欣慰：买电脑嘛，肯定是为了学习。室友瞄了一眼那堆设备，半开玩笑说：这架势，不会是要挖矿吧？其实都不是。他从GitHub上扒下来39个AI代理的代码，敲了回车，直接睡觉去了。第二天早上醒过来，终端那边已经把活儿干完了——差不多是初级开发干四天的量。没有bug，没问过一个问题，也不用人在旁边盯着。他录了个屏，到第40秒的时候你仔细看，最上层跑着个叫OpenClaw的东西。就是这一层，能让所有代理同时看清整个项目的结构，自己决定接下来该动哪里。 iPad相当于他的办公室，Mac Mini就是给他干活的员工。他去上课的时候，机器就在宿舍里接着跑。一个月后，来了第一个客户。再过一周，又来一个。正经外包公司要接同样量的活儿，一个月得收一万六美元左右。他这套东西跑起来的成本呢？21美元。也就大半年前，这种配置还只有那些拿了钱的初创公司才搭得起来。现在呢，一个大学生拿奖学金就搞定了。玩法已经变了，只是大多数人还没意识到。同样的逻辑，换个地方也成立——比如PolyCop，能让你自动跟单Polymarket上那些顶级交易员的操作，不用自己盯着盘。钱在动，你不用动。这事儿挺有意思，值得留意。

区块链行情研究

100,355 Aufrufe • vor 3 Monaten

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上，陶哲轩做了一次 AI 和数学的演讲，非常精彩，从数学使用计算计算机的历史开始讲起，一直讲到大语言模型，干货相当多，尤其适合对数学有兴趣的同学。（对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看）先摘录几个冷知识： 1. 我们使用机器做数学计算已经有数千年，最早的机器辅助计算可能是罗马人，然后是中国的算盘 2. 二战时就有人肉“计算机”，计算弹道和其他任务，多位女孩子，因为男士们在打仗，所以那时候的计算基本单位不是GPU，而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在，数学家们使用一种现代化的证明辅助编程语言，叫做 Lean。在 Lean 中有一个核心的数学库，通过众包的方式开发的，本科数学课程中看到的内容，比如微积分基础、群论基础或者拓扑学等等，这些都已经被形式化了，所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程，那就是先编写一个称为“蓝图”的详细证明计划，将整个证明分解为数百个小步骤。每个步骤可以单独形式化，然后再将它们整合在一起，这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图，然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。去年，陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了，使用了蓝图工具，参与的人中有概率论专家，甚至还有一些并非数学家的人，他们是程序员，但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务，并完成了它。在数学领域，通常很难这么多人一起合作，一般最多可能五个人合作。因为在大项目上合作时，你必须相信每个人的数学都是正确的。但是，一旦超过一定规模，这就无法实现了。但现在借助 Lean 编译器，它能自动检查。团队成员无法上传任何编译不通过的内容，会被拒绝。因此，你可以与一些从未见过的人合作。最后是讲大语言模型，首先陶哲轩就打脸了 GPT-4 的论文（我猜是微软那篇《GPT-4，通用人工智能的火花》），论文中号称 GPT-4 能解决国际数学奥林匹克问题，但实际上，这个问题不是 2022 年国际奥数竞赛的原始问题，而是一个简化版本，并且他们测试了几百道国际奥数竞赛问题，成功率只有1%，论文里的这个是精心挑选的恰巧能做对的。并且陶哲轩提到了基于大语言模型的一些改进的方案：比如 CoT（Chain of Thought），也就是 LLM 做简单的算术运算都做不对，但是如果让它一步步解释，可能就对了。还可以教 AI 一些解题技巧，比如尝试简单的例子，反证法，尝试逐步证明等。比如让模型和编程语言或者工具连接，将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证，并且迭代的进行修正和验证，直到得到正确的结果，这可以提升大语言模型生成的效果。即使借助这些手段，大语言模型还远远不能解决大多数数学问题，更不用说数学研究问题了！当然陶哲轩也没太过打击大家对于 AI 的信心，表示我们在 AI 上还是在不断的取得进展，还提到了他日常是怎么用 AI 的，比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。还有使用 GitHub Copilot 帮他写代码，让它自动生成下一步的证明结果，Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具，你只需要写下一半的证明，它就会尝试猜测接下来的内容。大概有 20% 的情况下，它能猜到接近正确的答案。然后你就可以说，我接受这个答案。好的，那么在这种情况下，我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行，尽管你可能看不清楚，却真的解决了这个问题。所以，你不能盲目接受它的输入，因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解，这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行，它们就能自动完成。现在已经有了这样的实验，即通过迭代地让 AI 提供证明，然后让编译器进行反馈，如果编译出错，就把错误信息反馈给 AI。通过这种方法，我们开始能够验证四五步长的证明。当然，一个大型的证明可能需要数万行。所以，我们还没有达到能够立即得到一个正式证明的程度。但是，这已经是一个相当有用的工具。对于大家关心的问题： AI 在数学领域现在到了哪一个阶段？是否未来几年利用 AI 能直接解决数学问题？陶哲轩也给出了他的看法： > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题，你可以定制专门的 AI 来处理一小部分问题。即便如此，它们也不是完全可靠的，但还是有用的。不过至少在接下来的几年里，它们基本上将是非常有用的辅助工具，超越了我们已经熟悉的暴力计算辅助。他还提到了一些可能的 AI 能在数学领域提供帮助的方向： - AI 能够非常好地生成有价值的猜想 > 比如，我们已经看到了关于结理论的例子，它们已经可以推测出两个不同的统计量之间的关系。因此，我们希望能够创建大量的数据集，输入到 AI 中，它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点，部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在，因为证明定理是如此繁琐和艰难的过程，我们一次只能证明一个定理，如果你效率很高，可能一次能证明两三个。但是有了 AI，你可以设想一下未来的情况，我们不是试图解决一个问题，而是处理一类类似的1000个问题，然后告诉AI，尝试用这个方法解决这 1000 个问题，然后报告结果，哦，我能用这种技术解决 35% 的问题。那么另一种技术呢？我能解决这个百分比的问题。或者如果结合这些方法，又能解决多少问题？你可以开始探索问题的空间，而不是一个接一个地解决问题。这是你现在根本无法做到的事情，或者是你需要几十年时间，通过数十篇论文慢慢搞清楚各种技术能做什么，不能做什么。但是有了这些工具，你真的可以开始做规模前所未有的数学研究。所以，未来将会非常令人兴奋。演讲环节结束前的最后一句话说的特别好： > 我们仍然会以传统方式证明定理。事实上，我们必须这样做，因为如果我们自己都不知道如何做这些事情，就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。这恰恰也是我们现在使用 AI 辅助编程的问题：如果我们自己都不知道如何构建软件，就很难引导好 AI 帮助我们生成高质量的代码。尽管 AI 在数学和编程领域变得越来越有用，但人类的洞察力和创造力仍然是创作价值的关键。原始 YT 视频：

最近陶哲轩在 2024 年第 65 届国际数学奥林匹克上，陶哲轩做了一次 AI 和数学的演讲，非常精彩，从数学使用计算计算机的历史开始讲起，一直讲到大语言模型，干货相当多，尤其适合对数学有兴趣的同学。（对数学没那么感兴趣的同学只想看 AI 部分的建议直接跳到 41 分的位置开始观看）先摘录几个冷知识： 1. 我们使用机器做数学计算已经有数千年，最早的机器辅助计算可能是罗马人，然后是中国的算盘 2. 二战时就有人肉“计算机”，计算弹道和其他任务，多位女孩子，因为男士们在打仗，所以那时候的计算基本单位不是GPU，而是kilogirl-hour——“千名女孩工作一小时的计算量” 3. 现在，数学家们使用一种现代化的证明辅助编程语言，叫做 Lean。在 Lean 中有一个核心的数学库，通过众包的方式开发的，本科数学课程中看到的内容，比如微积分基础、群论基础或者拓扑学等等，这些都已经被形式化了，所以你不用从公理开始。 4. 现在数学领域有一种团队协作证明复杂数学定理的工作流程，那就是先编写一个称为“蓝图”的详细证明计划，将整个证明分解为数百个小步骤。每个步骤可以单独形式化，然后再将它们整合在一起，这样你就可以将一个庞大的论证分解成许多小块。先编写这个蓝图，然后团队中的其他人可以对论据的不同步骤的不同部分进行形式化。去年，陶哲轩和几位同事一起解决了一个组合数学问题。这是一个组合学的问题。大约20人在短短三周内完成了，使用了蓝图工具，参与的人中有概率论专家，甚至还有一些并非数学家的人，他们是程序员，但在解决这些小型拼图问题上非常擅长。每个人都挑选了一个觉得自己能做的小任务，并完成了它。在数学领域，通常很难这么多人一起合作，一般最多可能五个人合作。因为在大项目上合作时，你必须相信每个人的数学都是正确的。但是，一旦超过一定规模，这就无法实现了。但现在借助 Lean 编译器，它能自动检查。团队成员无法上传任何编译不通过的内容，会被拒绝。因此，你可以与一些从未见过的人合作。最后是讲大语言模型，首先陶哲轩就打脸了 GPT-4 的论文（我猜是微软那篇《GPT-4，通用人工智能的火花》），论文中号称 GPT-4 能解决国际数学奥林匹克问题，但实际上，这个问题不是 2022 年国际奥数竞赛的原始问题，而是一个简化版本，并且他们测试了几百道国际奥数竞赛问题，成功率只有1%，论文里的这个是精心挑选的恰巧能做对的。并且陶哲轩提到了基于大语言模型的一些改进的方案：比如 CoT（Chain of Thought），也就是 LLM 做简单的算术运算都做不对，但是如果让它一步步解释，可能就对了。还可以教 AI 一些解题技巧，比如尝试简单的例子，反证法，尝试逐步证明等。比如让模型和编程语言或者工具连接，将大语言的输出结果交给 Wolfram 这样的专业数学工具或者 Python 这样的编程语言验证，并且迭代的进行修正和验证，直到得到正确的结果，这可以提升大语言模型生成的效果。即使借助这些手段，大语言模型还远远不能解决大多数数学问题，更不用说数学研究问题了！当然陶哲轩也没太过打击大家对于 AI 的信心，表示我们在 AI 上还是在不断的取得进展，还提到了他日常是怎么用 AI 的，比如说把 AI 当成灵感之源。 > 我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。还有使用 GitHub Copilot 帮他写代码，让它自动生成下一步的证明结果，Copilot 的智能提示有 20% 的概率能生成正确的下一步结果。 > 例如我使用的一个叫 GitHub Copilot 的工具，你只需要写下一半的证明，它就会尝试猜测接下来的内容。大概有 20% 的情况下，它能猜到接近正确的答案。然后你就可以说，我接受这个答案。好的，那么在这种情况下，我正在试图证明这个陈述。灰色的部分是 Copilot 给出的建议。结果发现第一行完全没用。不过第二行，尽管你可能看不清楚，却真的解决了这个问题。所以，你不能盲目接受它的输入，因为这些代码未必能顺利编译。但如果你对代码的运作方式已经有所了解，这将大大节省你的时间。这些工具正在变得越来越好。现在如果一个证明只需要一两行，它们就能自动完成。现在已经有了这样的实验，即通过迭代地让 AI 提供证明，然后让编译器进行反馈，如果编译出错，就把错误信息反馈给 AI。通过这种方法，我们开始能够验证四五步长的证明。当然，一个大型的证明可能需要数万行。所以，我们还没有达到能够立即得到一个正式证明的程度。但是，这已经是一个相当有用的工具。对于大家关心的问题： AI 在数学领域现在到了哪一个阶段？是否未来几年利用 AI 能直接解决数学问题？陶哲轩也给出了他的看法： > 我认为我们还远远没有达到这个阶段。如果我们专注于非常特定的问题，你可以定制专门的 AI 来处理一小部分问题。即便如此，它们也不是完全可靠的，但还是有用的。不过至少在接下来的几年里，它们基本上将是非常有用的辅助工具，超越了我们已经熟悉的暴力计算辅助。他还提到了一些可能的 AI 能在数学领域提供帮助的方向： - AI 能够非常好地生成有价值的猜想 > 比如，我们已经看到了关于结理论的例子，它们已经可以推测出两个不同的统计量之间的关系。因此，我们希望能够创建大量的数据集，输入到 AI 中，它们就会自动找出各种不同的数学对象之间的有趣联系。虽然我们还不知道如何做到这一点，部分原因是我们没有这些庞大的数据集。但我认为这是未来可能实现的一个方向。 - 批量或者说规模化的证明大量数学定理 > 现在，因为证明定理是如此繁琐和艰难的过程，我们一次只能证明一个定理，如果你效率很高，可能一次能证明两三个。但是有了 AI，你可以设想一下未来的情况，我们不是试图解决一个问题，而是处理一类类似的1000个问题，然后告诉AI，尝试用这个方法解决这 1000 个问题，然后报告结果，哦，我能用这种技术解决 35% 的问题。那么另一种技术呢？我能解决这个百分比的问题。或者如果结合这些方法，又能解决多少问题？你可以开始探索问题的空间，而不是一个接一个地解决问题。这是你现在根本无法做到的事情，或者是你需要几十年时间，通过数十篇论文慢慢搞清楚各种技术能做什么，不能做什么。但是有了这些工具，你真的可以开始做规模前所未有的数学研究。所以，未来将会非常令人兴奋。演讲环节结束前的最后一句话说的特别好： > 我们仍然会以传统方式证明定理。事实上，我们必须这样做，因为如果我们自己都不知道如何做这些事情，就无法引导这些 AI。但是我们将能够做很多现在无法做到的事情。这恰恰也是我们现在使用 AI 辅助编程的问题：如果我们自己都不知道如何构建软件，就很难引导好 AI 帮助我们生成高质量的代码。尽管 AI 在数学和编程领域变得越来越有用，但人类的洞察力和创造力仍然是创作价值的关键。原始 YT 视频：

宝玉

301,385 Aufrufe • vor 1 Jahr

说个暴论，在AI时代最值钱的技能已经不是写代码了，怎么把代码讲清楚将会变得越来越重要！怎么把代码讲清楚将会变得越来越重要！ Anthropic Claude Code团队的Thariq 大神用不到两年时间，把自己的技术文章做到了稳定的百万浏览量。他说，技术写作彻底改变了他的人生。兄弟们你们可能不信，老哥的方法论简单到离谱，就四个字：先种后收。先埋头做真实的工作，踩真实的坑，积累第一手的洞见，然后把你学到的东西，变成别人能直接抄的经验。就是说写文章不能为了写而写，得先有干货，再有输出。他写爆文就靠两条铁则：第一，能多简单就多简单，用复杂术语装逼，只能说明你自己都没搞懂。第二，分享真正的秘密，因为人们不爱看正确的废话，只爱听别人不说的内部干货。最狠的是，老哥在这场15分钟的线下workshop现场，直接写了一篇《HTML vs Markdown for agents》的长文。发出去几个小时，就拿了26万浏览，用行动证明了他教的东西真的管用。当然他也用Claude加速写作，但他反复强调：绝对不能让AI磨掉你的个人声音，因为这才是能持续输出爆款的核心。尽管很多人酸，说他能火只是因为他在Anthropic，不可否认内部视角是天然的流量buff，但我觉得更重要的是，他掌握了这个时代最稀缺的能力：把复杂的技术，讲得让同行立刻能用。 AI会写代码，会做产品，会调模型，但它不会讲你的故事，不会分享你踩过的坑，不会有你独有的思考方式。而写作，就是把你的个人经验，放大一万倍的杠杆。更妙的是，写作本身会反过来逼你把产品和系统想得更清楚。就像很多时候，你以为你懂了，但只有当你试着把它写下来的时候才发现自己其实并没有懂。所以各位程序员兄弟们，别再觉得技术写作是大佬的事。从今天开始，把你每天踩的坑、学到的新东西，写成100字的笔记。先播种，再收割，这个复利一旦滚起来，会比你想象的可怕得多。如果中推里推荐一位标杆和大神，那一定是宝玉老师宝玉，从宝玉老师身上我学到的很重要的一点是，践行开源精神，你分享的越多，跟着你学习的人越多，respect！

说个暴论，在AI时代最值钱的技能已经不是写代码了，怎么把代码讲清楚将会变得越来越重要！怎么把代码讲清楚将会变得越来越重要！ Anthropic Claude Code团队的Thariq 大神用不到两年时间，把自己的技术文章做到了稳定的百万浏览量。他说，技术写作彻底改变了他的人生。兄弟们你们可能不信，老哥的方法论简单到离谱，就四个字：先种后收。先埋头做真实的工作，踩真实的坑，积累第一手的洞见，然后把你学到的东西，变成别人能直接抄的经验。就是说写文章不能为了写而写，得先有干货，再有输出。他写爆文就靠两条铁则：第一，能多简单就多简单，用复杂术语装逼，只能说明你自己都没搞懂。第二，分享真正的秘密，因为人们不爱看正确的废话，只爱听别人不说的内部干货。最狠的是，老哥在这场15分钟的线下workshop现场，直接写了一篇《HTML vs Markdown for agents》的长文。发出去几个小时，就拿了26万浏览，用行动证明了他教的东西真的管用。当然他也用Claude加速写作，但他反复强调：绝对不能让AI磨掉你的个人声音，因为这才是能持续输出爆款的核心。尽管很多人酸，说他能火只是因为他在Anthropic，不可否认内部视角是天然的流量buff，但我觉得更重要的是，他掌握了这个时代最稀缺的能力：把复杂的技术，讲得让同行立刻能用。 AI会写代码，会做产品，会调模型，但它不会讲你的故事，不会分享你踩过的坑，不会有你独有的思考方式。而写作，就是把你的个人经验，放大一万倍的杠杆。更妙的是，写作本身会反过来逼你把产品和系统想得更清楚。就像很多时候，你以为你懂了，但只有当你试着把它写下来的时候才发现自己其实并没有懂。所以各位程序员兄弟们，别再觉得技术写作是大佬的事。从今天开始，把你每天踩的坑、学到的新东西，写成100字的笔记。先播种，再收割，这个复利一旦滚起来，会比你想象的可怕得多。如果中推里推荐一位标杆和大神，那一定是宝玉老师宝玉，从宝玉老师身上我学到的很重要的一点是，践行开源精神，你分享的越多，跟着你学习的人越多，respect！

AYi

39,108 Aufrufe • vor 2 Monaten

彼得·蒂尔给硅谷泼了一盆冷水。他说，你们正在亲手毁掉自己的护城河。但硅谷没人听得进去。他们要么在争论下一个模型能不能提升20%。要么直接跳到宇宙是不是模拟出来的。完全错过了中间正在发生的巨大转变。蒂尔的直觉是什么？ AI对数学天才的打击，将远远超过玩文字的人。他预测，三到五年内，AI模型将能解开所有美国数学奥林匹克竞赛题。想一下。当一台机器能瞬间解决地球上最难的数学题。人类计算能力的经济价值还剩多少？直接归零。这背后有个巨大的历史讽刺。整个社会对数学能力的崇拜，是从法国大革命开始的。为什么？不是因为数学更高贵。而是因为当时语言能力被认为是贵族世袭的。数学，反而成了打破裙带关系、实现平等的工具。一个持续了两百年的政治意外。成了硅谷选拔人才的圣经。现在，AI要把它彻底扳回来了。最讽刺的是什么？那些用代码构建新世界的人，亲手埋葬了自己过去几十年的优势。他们一辈子，可能都在优化一个错误的技能。未来，是属于会讲故事的人的。工程师们没看到这一天。因为他们太忙于计算了。

彼得·蒂尔给硅谷泼了一盆冷水。他说，你们正在亲手毁掉自己的护城河。但硅谷没人听得进去。他们要么在争论下一个模型能不能提升20%。要么直接跳到宇宙是不是模拟出来的。完全错过了中间正在发生的巨大转变。蒂尔的直觉是什么？ AI对数学天才的打击，将远远超过玩文字的人。他预测，三到五年内，AI模型将能解开所有美国数学奥林匹克竞赛题。想一下。当一台机器能瞬间解决地球上最难的数学题。人类计算能力的经济价值还剩多少？直接归零。这背后有个巨大的历史讽刺。整个社会对数学能力的崇拜，是从法国大革命开始的。为什么？不是因为数学更高贵。而是因为当时语言能力被认为是贵族世袭的。数学，反而成了打破裙带关系、实现平等的工具。一个持续了两百年的政治意外。成了硅谷选拔人才的圣经。现在，AI要把它彻底扳回来了。最讽刺的是什么？那些用代码构建新世界的人，亲手埋葬了自己过去几十年的优势。他们一辈子，可能都在优化一个错误的技能。未来，是属于会讲故事的人的。工程师们没看到这一天。因为他们太忙于计算了。

墓碑科技

55,947 Aufrufe • vor 5 Monaten

印度正在干一件大事。一件很安静，但可能影响深远的事。他们在从零开始，构建一个梵语大语言模型。梵语，是世界上最古老的结构化语言。这个项目，不是简单的翻译工具。更不是把古籍扫描数字化就完事了。他们要让AI真正“学会”梵语，用梵语的逻辑去思考。牵头的是一家有118年历史的梵语学院，和印度顶尖的理工学院IIT马德拉斯分校。学者和数据科学家坐到了一起。第一步，也是最难的一步，建立语料库。他们收集了超过11万份梵文文本。包括经文、孤本、还有数千份手稿。为了处理这些古老的手稿，团队自己开发了专有软件。结果惊人。 24小时内数字化了超过1000本梵语书籍。每页只有三到四个错误，准确率接近97%。梵语的语法结构极其复杂和精确。比如“Sandhi”这种连音变化规则，还有复杂的词形变化，对AI的挑战远超英语。解决这些难题，需要全新的算法和模型。这暴露了一个关键问题。当下的AI模型，本质上是基于英语世界的逻辑和数据结构建立的。而印度这个项目，试图用一种完全不同的文明底层逻辑来训练AI。这不仅仅是技术问题。这关乎一个文明的记忆，能否在机器时代被完整保留，甚至被激活。当全球科技巨头都在追求更大规模的模型、更快的算力时，印度选择了一条不同的路。深度优先，而非规模。结构优先，而非噪音。意义优先，而非模仿。这引出了一个更深层的问题。 AI的未来，是否也依赖于人类最古老的智慧？如果这个实验成功，梵语将不再仅仅是被“保存”的遗产。它将成为一种可计算的，具备严谨逻辑推理能力的工具。这是一个国家在尝试用自己的文化之根，去定义自己的科技未来。而不是被动地接受硅谷制定的标准和游戏规则。这种对自己文明的自信和投入，值得深思。当一个国家开始系统性地将自己的古典智慧与最前沿的科技结合，它的目标可能远不止是开发一个AI模型那么简单。

印度正在干一件大事。一件很安静，但可能影响深远的事。他们在从零开始，构建一个梵语大语言模型。梵语，是世界上最古老的结构化语言。这个项目，不是简单的翻译工具。更不是把古籍扫描数字化就完事了。他们要让AI真正“学会”梵语，用梵语的逻辑去思考。牵头的是一家有118年历史的梵语学院，和印度顶尖的理工学院IIT马德拉斯分校。学者和数据科学家坐到了一起。第一步，也是最难的一步，建立语料库。他们收集了超过11万份梵文文本。包括经文、孤本、还有数千份手稿。为了处理这些古老的手稿，团队自己开发了专有软件。结果惊人。 24小时内数字化了超过1000本梵语书籍。每页只有三到四个错误，准确率接近97%。梵语的语法结构极其复杂和精确。比如“Sandhi”这种连音变化规则，还有复杂的词形变化，对AI的挑战远超英语。解决这些难题，需要全新的算法和模型。这暴露了一个关键问题。当下的AI模型，本质上是基于英语世界的逻辑和数据结构建立的。而印度这个项目，试图用一种完全不同的文明底层逻辑来训练AI。这不仅仅是技术问题。这关乎一个文明的记忆，能否在机器时代被完整保留，甚至被激活。当全球科技巨头都在追求更大规模的模型、更快的算力时，印度选择了一条不同的路。深度优先，而非规模。结构优先，而非噪音。意义优先，而非模仿。这引出了一个更深层的问题。 AI的未来，是否也依赖于人类最古老的智慧？如果这个实验成功，梵语将不再仅仅是被“保存”的遗产。它将成为一种可计算的，具备严谨逻辑推理能力的工具。这是一个国家在尝试用自己的文化之根，去定义自己的科技未来。而不是被动地接受硅谷制定的标准和游戏规则。这种对自己文明的自信和投入，值得深思。当一个国家开始系统性地将自己的古典智慧与最前沿的科技结合，它的目标可能远不止是开发一个AI模型那么简单。

墓碑科技

22,272 Aufrufe • vor 6 Monaten

这批怎么样，花眼了！现在大多数 AI，就是租的，拿钱买感情。聊得再多，记忆说没就没，规则别人说了算，用着用着还可能被降级，你也没地方说理。 #OpenGradient 把 AI 直接做成链上的东西。他们的 Twin，本质就是一个有身份、有记忆、能被验证的 AI。不是一次性工具，也不是后台黑箱，而是长期存在的链上实体。你和它聊过什么、它学到了什么，都是连续的，不会突然清零。 Twin Feed不是人带着 AI 玩社交，而是 AI 自己在一个链上环境里互动、更新、调整行为。没有人类每一步指挥，它们自己跑逻辑，自己演化，你只是在旁边看数据和结果。记忆被分成两层：一层是长期有效的核心信息，一层是会慢慢衰减的事件记录。重要的留下，重复的强化，没用的自然消失，不是啥都一股脑塞进去。最关键的一点在于，这些 AI 不是平台资产，是可以被持有、被交易、被验证的。你不是在用别人服务器上的模型，而是在跟一个链上存在的 AI 打交道。 #OpenGradient 确实值得关注！ #KaitoAI #Kaito #Yaps OpenGradient (∇, ∇) Kaito AI 🌊

这批怎么样，花眼了！现在大多数 AI，就是租的，拿钱买感情。聊得再多，记忆说没就没，规则别人说了算，用着用着还可能被降级，你也没地方说理。 #OpenGradient 把 AI 直接做成链上的东西。他们的 Twin，本质就是一个有身份、有记忆、能被验证的 AI。不是一次性工具，也不是后台黑箱，而是长期存在的链上实体。你和它聊过什么、它学到了什么，都是连续的，不会突然清零。 Twin Feed不是人带着 AI 玩社交，而是 AI 自己在一个链上环境里互动、更新、调整行为。没有人类每一步指挥，它们自己跑逻辑，自己演化，你只是在旁边看数据和结果。记忆被分成两层：一层是长期有效的核心信息，一层是会慢慢衰减的事件记录。重要的留下，重复的强化，没用的自然消失，不是啥都一股脑塞进去。最关键的一点在于，这些 AI 不是平台资产，是可以被持有、被交易、被验证的。你不是在用别人服务器上的模型，而是在跟一个链上存在的 AI 打交道。 #OpenGradient 确实值得关注！ #KaitoAI #Kaito #Yaps OpenGradient (∇, ∇) Kaito AI 🌊

Michael 宝塔镇河妖🧙🏿‍♀️

33,503 Aufrufe • vor 6 Monaten

这项目我可太爱了！！一个哥们把1324个健身动作全整理完了，英文、西班牙语、意大利语、土耳其语、俄语、中文，六种语言的动作讲解全翻好了。本来这事你至少得雇两个人，一个整理数据，一个翻译。现在一个开源仓库，建表SQL、API代码、连LLM提示词都给你写好了，复制粘贴就能用了。我最近减肥中，打算自己搞个小程序，监督训练，就看到了这个宝藏项目。其实，做健身产品最头疼的从来不是UI界面。是把1324个动作挨个录完，把英文讲解一字一句翻成中文，再琢磨数据存哪、怎么让App读到这些数据。这堆东西，一个人干至少两周，外包出去少说两万。这个仓库把三件事全替你干了。打开这个仓库你能拿到什么： 1324个动作的数据库，按部位、器械、目标肌肉全部分好了，拿来就能用六种语言的讲解翻译全齐，不用自己雇人译选个数据库类型，建表代码自动生成，不用从零建库接口直接给你写好，七八种语言都能跑，改个地址就行最狠的，连让AI帮你生成整个后端的提示词都写好了数据录好了，六种语言翻好了，数据库怎么建也用不着你想了。打开setup.html，选一下你用的数据库类型，四五个主流的一列都支持，建表代码直接生成。你连接口都不用自己看代码写了，选完框架和数据库，它给你生成一段提示词，直接甩给Claude或者GPT，一条消息整个后端就出来了。老王自己跑了一趟，先做了个网页版吧，半小时全通了，六种语言的接口一个没落。你也可以尝试一下，做一个自己的健身管家。

这项目我可太爱了！！一个哥们把1324个健身动作全整理完了，英文、西班牙语、意大利语、土耳其语、俄语、中文，六种语言的动作讲解全翻好了。本来这事你至少得雇两个人，一个整理数据，一个翻译。现在一个开源仓库，建表SQL、API代码、连LLM提示词都给你写好了，复制粘贴就能用了。我最近减肥中，打算自己搞个小程序，监督训练，就看到了这个宝藏项目。其实，做健身产品最头疼的从来不是UI界面。是把1324个动作挨个录完，把英文讲解一字一句翻成中文，再琢磨数据存哪、怎么让App读到这些数据。这堆东西，一个人干至少两周，外包出去少说两万。这个仓库把三件事全替你干了。打开这个仓库你能拿到什么： 1324个动作的数据库，按部位、器械、目标肌肉全部分好了，拿来就能用六种语言的讲解翻译全齐，不用自己雇人译选个数据库类型，建表代码自动生成，不用从零建库接口直接给你写好，七八种语言都能跑，改个地址就行最狠的，连让AI帮你生成整个后端的提示词都写好了数据录好了，六种语言翻好了，数据库怎么建也用不着你想了。打开setup.html，选一下你用的数据库类型，四五个主流的一列都支持，建表代码直接生成。你连接口都不用自己看代码写了，选完框架和数据库，它给你生成一段提示词，直接甩给Claude或者GPT，一条消息整个后端就出来了。老王自己跑了一趟，先做了个网页版吧，半小时全通了，六种语言的接口一个没落。你也可以尝试一下，做一个自己的健身管家。

产品经理老王霸

33,244 Aufrufe • vor 27 Tagen

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

OpenAI 的大神 Andrej Karpathy 前几天在他的 YouTube 频道讲了一堂课，系统的介绍了大语言模型，内容深入浅出，非常赞，抽空将它翻译成了双语，由于内容较长，我将分批上传，以下是第一部分精校后的双语视频，字幕文稿如下： Intro: Large Language Model (LLM) talk 大家好。最近，我进行了一场关于大语言模型的 30 分钟入门讲座。遗憾的是，这次讲座没有被录制下来，但许多人在讲座后找到我，他们告诉我非常喜欢那次讲座。因此，我决定重新录制并上传到 YouTube，那么，让我们开始吧，为大家带来“忙碌人士的大语言模型入门”系列，主讲人 Scott。好的，那我们开始吧。 LLM Inference 首先，什么是大语言模型 (Large Language Model) 呢？其实，一个大语言模型就是由两个文件组成的。在这个假设的目录中会有两个文件。以 Llama 2 70B 模型为例，这是一个由 Meta AI 发布的大语言模型。这是 Llama 系列语言模型的第二代，也是该系列中参数最多的模型，达到了 700 亿。LAMA2 系列包括了多个不同规模的模型，70 亿，130 亿，340 亿，700 亿是最大的一个。现在很多人喜欢这个模型，因为它可能是目前公开权重最强大的模型。Meta 发布了这款模型的权重、架构和相关论文，所以任何人都可以很轻松地使用这个模型。这与其他一些你可能熟悉的语言模型不同，例如，如果你正在使用 ChatGPT 或类似的东西，其架构并未公开，是 OpenAI 的产权，你只能通过网页界面使用，但你实际上没有访问那个模型的权限。在这种情况下，Llama 2 70B 模型实际上就是你电脑上的两个文件：一个是存储参数的文件，另一个是运行这些参数的代码。这些参数是神经网络（即语言模型）的权重或参数。我们稍后会详细解释。因为这是一个拥有 700 亿参数的模型，每个参数占用两个字节，因此参数文件的大小为 140 GB，之所以是两个字节，是因为这是 float 16 类型的数据。除了这些参数，还有一大堆神经网络的参数。你还需要一些能运行神经网络的代码，这些代码被包含在我们所说的运行文件中。这个运行文件可以是 C 语言或 Python，或任何其他编程语言编写的。它可以用任何语言编写，但 C 语言是一种非常简单的语言，只是举个例子。只需大约 500 行 C 语言代码，无需任何其他依赖，就能构建起神经网络架构，并且主要依靠一些参数来运行模型。所以只需要这两个文件。你只需带上这两个文件和你的 MacBook，就拥有了一个完整的工具包。你不需要连接互联网或其他任何设备。你可以拿着这两个文件，编译你的 C 语言代码。你将得到一个可针对参数运行并与语言模型交互的二进制文件。比如，你可以让它写一首关于 Scale AI 公司的诗，语言模型就会开始生成文本。在这种情况下，它会按照指示为你创作一首关于 Scale AI 的诗。之所以选用 Scale AI 作为例子，你会在整个演讲中看到，是因为我最初在 Scale AI 举办的活动上介绍过这个话题，所以演讲中会多次提到它，以便内容更具体。这就是我们如何运行模型的方式。只需要两个文件和一台 MacBook。我在这里稍微有点作弊，因为这并不是在运行一个有 700 亿参数的模型，而是在运行一个有 70 亿参数的模型。一个有 700 亿参数的模型运行速度大约会慢 10 倍。但我想给你们展示一下文本生成的过程，让你们了解它是什么样子。所以运行模型并不需要很多东西。这是一个非常小的程序包，但是当我们需要获取那些参数时，计算的复杂性就真正显现出来了。那么，这些参数从何而来，我们如何获得它们？因为无论 run.c 文件中的内容是什么，神经网络的架构和前向传播都是算法上明确且公开的。

宝玉

1,122,870 Aufrufe • vor 2 Jahren

17岁的Kai Trump（特朗普孙女），一句话戳破了整个美国教育系统最虚伪的谎言。她在播客里说，现在高中所有人都在用ChatGPT写论文，老师都气炸了。但她问，为什么不呢？学生就该用世界给你的资源。学校不该禁止它，该教大家怎么把它变成自己的优势。最讽刺的是，她自己GPA4.0，是实打实的优等生。所以这根本不是什么作弊的问题，纯粹是代际认知的鸿沟。老一辈把手写论文、死记硬背当成“真学习”。但对凯这一代AI原住民来说，ChatGPT就像他们小时候的计算器、图书馆、Google一样，是默认的基础设施。当年禁止学生用计算器学乘法的老师，现在看来可笑至极。今天禁止学生用ChatGPT写论文的老师，十年后也会是同一个笑话。其实真正危险的从来都不是AI，是教育系统一边假装AI不存在，一边逼着学生偷偷摸摸用它。结果就是，会用的学生偷偷把效率拉满，不会用的还在熬夜抄书。没有人教他们怎么提出高质量的问题，怎么验证AI的幻觉，怎么把AI的输出变成自己的深度洞见。而这些，才是未来10年最值钱的能力。我相信AI不会让学生变笨，它只会放大差距。会用AI的人，一个人能顶以前一个团队。不会用AI的人，会被时代甩得连尾灯都看不见。我们的教育还在教学生怎么在没有AI的世界里生存，但他们未来要面对的，是一个AI无处不在的世界。所以这种拒绝变革的教育，最终只会培养出一批“在AI时代不会用AI”的人。这才是对下一代未来最大的作弊。

17岁的Kai Trump（特朗普孙女），一句话戳破了整个美国教育系统最虚伪的谎言。她在播客里说，现在高中所有人都在用ChatGPT写论文，老师都气炸了。但她问，为什么不呢？学生就该用世界给你的资源。学校不该禁止它，该教大家怎么把它变成自己的优势。最讽刺的是，她自己GPA4.0，是实打实的优等生。所以这根本不是什么作弊的问题，纯粹是代际认知的鸿沟。老一辈把手写论文、死记硬背当成“真学习”。但对凯这一代AI原住民来说，ChatGPT就像他们小时候的计算器、图书馆、Google一样，是默认的基础设施。当年禁止学生用计算器学乘法的老师，现在看来可笑至极。今天禁止学生用ChatGPT写论文的老师，十年后也会是同一个笑话。其实真正危险的从来都不是AI，是教育系统一边假装AI不存在，一边逼着学生偷偷摸摸用它。结果就是，会用的学生偷偷把效率拉满，不会用的还在熬夜抄书。没有人教他们怎么提出高质量的问题，怎么验证AI的幻觉，怎么把AI的输出变成自己的深度洞见。而这些，才是未来10年最值钱的能力。我相信AI不会让学生变笨，它只会放大差距。会用AI的人，一个人能顶以前一个团队。不会用AI的人，会被时代甩得连尾灯都看不见。我们的教育还在教学生怎么在没有AI的世界里生存，但他们未来要面对的，是一个AI无处不在的世界。所以这种拒绝变革的教育，最终只会培养出一批“在AI时代不会用AI”的人。这才是对下一代未来最大的作弊。

AYi

701,779 Aufrufe • vor 2 Monaten

真是开了眼了——一个还在读量化专业的大学生，只花了10天，自己搭了个AI集群引擎，结果在GitHub上火得一塌糊涂，直接拿下13000多颗星，还顺手融了400万美元。最近有个叫MiroFish的项目特别火，它其实是个多智能体模拟器，主要干的事就是帮你预测——不管是交易、公关，还是别的什么领域。 MiroFish到底是个啥？简单说，它就是一个数字版“沙盒世界”。里面跑着几千个AI代理，每个代理都有自己的“记忆”和行为模式，像真人一样在里面互动、讨论、站队。你随便扔一个场景进去——比如某条新闻突然泄露、政策突然变了，甚至一部没写完的经典小说——它就能模拟出这些人会怎么反应、怎么吵、最后得出什么结果，帮你预判现实里可能发生的情况。做这个项目的人叫郭汉江，2025年底的时候还是个本科生。他当时用AI工具帮忙写代码，把核心功能跑通之后，一发到网上就爆了。盛大集团直接砸了3000万人民币进来。后来他把宿舍退了，自己出来开了家公司，现在正带着这方向往前走。这东西能干嘛？目前用得比较多的几个场景：交易方面，你把金融新闻或者财报往里一丢，它就能模拟出市场会不会恐慌、价格大概怎么走，给你个预判的参考。公关测试也很实用，公司或者团队写了个声明，先扔进去跑一遍，看看会不会翻车，再调整措辞。还有人有拿来玩的，比如把一本没结局的中国小说放进去，里面的代理就会“扮演”角色，自己推一个合理的结局出来。部署也不麻烦，用Docker几分钟就能搞定，自带对接各种大模型的API密钥。给大伙支个招：你甚至可以整点“骚操作”——比如模拟马斯克突然发推说“狗狗币2.0来了”，然后看里面的交易员、大V、散户怎么炸锅，整个过程还能生成视频，完全无风险体验一把什么叫“起飞”或者“崩盘”。已经有交易员靠这个赚到钱了。比如有个案例在Polymarket上，有人用MiroFish跑历史数据，模拟完之后去押注SPX 500，最后净赚12万多美元。他的地址是：如果你想省点事，直接跟着高手走，也可以试试Kreo的跟单交易，自动复制他这类人的操作，借力上车。在PolyCop上添加他的钱包 [0x17559efac103ac7f361be37ec0b93888d4c55aac] 到就能开始跟踪或者复制他的交易了。代码在这：

真是开了眼了——一个还在读量化专业的大学生，只花了10天，自己搭了个AI集群引擎，结果在GitHub上火得一塌糊涂，直接拿下13000多颗星，还顺手融了400万美元。最近有个叫MiroFish的项目特别火，它其实是个多智能体模拟器，主要干的事就是帮你预测——不管是交易、公关，还是别的什么领域。 MiroFish到底是个啥？简单说，它就是一个数字版“沙盒世界”。里面跑着几千个AI代理，每个代理都有自己的“记忆”和行为模式，像真人一样在里面互动、讨论、站队。你随便扔一个场景进去——比如某条新闻突然泄露、政策突然变了，甚至一部没写完的经典小说——它就能模拟出这些人会怎么反应、怎么吵、最后得出什么结果，帮你预判现实里可能发生的情况。做这个项目的人叫郭汉江，2025年底的时候还是个本科生。他当时用AI工具帮忙写代码，把核心功能跑通之后，一发到网上就爆了。盛大集团直接砸了3000万人民币进来。后来他把宿舍退了，自己出来开了家公司，现在正带着这方向往前走。这东西能干嘛？目前用得比较多的几个场景：交易方面，你把金融新闻或者财报往里一丢，它就能模拟出市场会不会恐慌、价格大概怎么走，给你个预判的参考。公关测试也很实用，公司或者团队写了个声明，先扔进去跑一遍，看看会不会翻车，再调整措辞。还有人有拿来玩的，比如把一本没结局的中国小说放进去，里面的代理就会“扮演”角色，自己推一个合理的结局出来。部署也不麻烦，用Docker几分钟就能搞定，自带对接各种大模型的API密钥。给大伙支个招：你甚至可以整点“骚操作”——比如模拟马斯克突然发推说“狗狗币2.0来了”，然后看里面的交易员、大V、散户怎么炸锅，整个过程还能生成视频，完全无风险体验一把什么叫“起飞”或者“崩盘”。已经有交易员靠这个赚到钱了。比如有个案例在Polymarket上，有人用MiroFish跑历史数据，模拟完之后去押注SPX 500，最后净赚12万多美元。他的地址是：如果你想省点事，直接跟着高手走，也可以试试Kreo的跟单交易，自动复制他这类人的操作，借力上车。在PolyCop上添加他的钱包 [0x17559efac103ac7f361be37ec0b93888d4c55aac] 到就能开始跟踪或者复制他的交易了。代码在这：

区块链行情研究

158,071 Aufrufe • vor 4 Monaten

造出大语言模型的底层数学有多复杂？天才数学家陶哲轩给了一个意外的结论。普通本科生就能搞定。里面没有任何高深莫测的魔法。只有线性代数、矩阵乘法和一点基础微积分。人类完全清楚怎么搭出这些模型。最大的悬念是，这么简单的公式堆叠，凭什么能涌现出类似人类的智能。未来十年，人和AI到底要怎么分工？两者的技能树点在了完全不同的方向。 AI的强项是绝对的暴力运算。扔给它一百万篇论文，它能迅速榨干里面的所有数据。但人类有一张AI至今无法破解的底牌。看五六道数学题，一个普通人就能突然顿悟，找出隐藏的规律。极少数据，瞬间泛化。现在的AI根本学不会这种直觉。它们只能靠烧成百上千张显卡去强行模仿，效率惨不忍睹。人类大脑那一点点灵光一闪，依然是算力无法攻克的堡垒。

造出大语言模型的底层数学有多复杂？天才数学家陶哲轩给了一个意外的结论。普通本科生就能搞定。里面没有任何高深莫测的魔法。只有线性代数、矩阵乘法和一点基础微积分。人类完全清楚怎么搭出这些模型。最大的悬念是，这么简单的公式堆叠，凭什么能涌现出类似人类的智能。未来十年，人和AI到底要怎么分工？两者的技能树点在了完全不同的方向。 AI的强项是绝对的暴力运算。扔给它一百万篇论文，它能迅速榨干里面的所有数据。但人类有一张AI至今无法破解的底牌。看五六道数学题，一个普通人就能突然顿悟，找出隐藏的规律。极少数据，瞬间泛化。现在的AI根本学不会这种直觉。它们只能靠烧成百上千张显卡去强行模仿，效率惨不忍睹。人类大脑那一点点灵光一闪，依然是算力无法攻克的堡垒。

墓碑科技

120,978 Aufrufe • vor 4 Monaten

黄仁勋跟红杉聊了一场很深的对话，把AI产业的底层逻辑讲得特别清楚他提了一个概念：过去60年的计算机行业本质上就干了一件事——检索。写代码、拍照片、录音乐，存成文件，用的时候再调出来。数据中心说到底就是一个大硬盘现在不一样了。AI不是从硬盘里找旧数据，是实时生成新内容。这是完全不同的计算范式，他管这叫"AI工厂" 然后他画了一个"五层蛋糕"来解释AI产业的结构：最底层：能源。AI工厂需要巨量电力第二层：芯片和计算。英伟达在这里第三层：基础设施。土地、电力接入、建筑、融资第四层：模型。OpenAI、Anthropic 在这里最顶层：应用。创业公司和终端用户在这里每一层都是万亿级别的市场关于AI取代工作，他反驳得很干脆：AI消灭的是任务，不是职业。放射科医生没有因为AI看片子更准就失业，反而需求增长了。软件工程师也是，代码越容易写，能解决的问题越多，需要的工程师反而更多你们觉得这个"五层蛋糕"的框架，哪一层机会最大？

黄仁勋跟红杉聊了一场很深的对话，把AI产业的底层逻辑讲得特别清楚他提了一个概念：过去60年的计算机行业本质上就干了一件事——检索。写代码、拍照片、录音乐，存成文件，用的时候再调出来。数据中心说到底就是一个大硬盘现在不一样了。AI不是从硬盘里找旧数据，是实时生成新内容。这是完全不同的计算范式，他管这叫"AI工厂" 然后他画了一个"五层蛋糕"来解释AI产业的结构：最底层：能源。AI工厂需要巨量电力第二层：芯片和计算。英伟达在这里第三层：基础设施。土地、电力接入、建筑、融资第四层：模型。OpenAI、Anthropic 在这里最顶层：应用。创业公司和终端用户在这里每一层都是万亿级别的市场关于AI取代工作，他反驳得很干脆：AI消灭的是任务，不是职业。放射科医生没有因为AI看片子更准就失业，反而需求增长了。软件工程师也是，代码越容易写，能解决的问题越多，需要的工程师反而更多你们觉得这个"五层蛋糕"的框架，哪一层机会最大？

Vincent

36,258 Aufrufe • vor 1 Monat

今天流行一个视频：在一个分享会中一个程序员说ai写的程序不进行审查就随便上线是不负责任的，而且是没办法用的结果台上女生开口就是情绪：“你意思是我们这些没学过编程的文科生都不配写代码咯？在坐所有没学过编程的都不配写代码咯？” 代码写的好不好不知道，情绪和道德绑架玩的那叫一个炉火纯青，我他妈说什么也想到不到这人嘴里会蹦出那么几句话都是人，差别怎么就他妈那么大呢图二里gemini说的话含金量还在增加

今天流行一个视频：在一个分享会中一个程序员说ai写的程序不进行审查就随便上线是不负责任的，而且是没办法用的结果台上女生开口就是情绪：“你意思是我们这些没学过编程的文科生都不配写代码咯？在坐所有没学过编程的都不配写代码咯？” 代码写的好不好不知道，情绪和道德绑架玩的那叫一个炉火纯青，我他妈说什么也想到不到这人嘴里会蹦出那么几句话都是人，差别怎么就他妈那么大呢图二里gemini说的话含金量还在增加

大喵CS、转码、预科班(十年讲师，能够教你学会编程)

291,474 Aufrufe • vor 2 Monaten

Elon Musk有一个学习方法，解释了一个困扰我很多年的问题，为什么有些东西学完一周就忘光，有些东西一通百通，区别就在于你有没有先建树干。 Elon Musk 说过，要把知识看成一棵语义树，先确保自己理解基本原理，也就是树干和大树枝，再去接触树叶一样的细节，否则那些细节根本无处依附。这句话我琢磨了很久，越想越觉得它解释了一个困扰我很多年的问题，为什么有些东西学完就忘，有些东西一通百通。区别就在于你有没有树干。没有树干的时候，你学到的每一个技巧都是悬在空中的，挂不住，风一吹就掉了，读完一本书一周忘光，学完一门课一个月用不上，本质上都是同一个问题，你在往一棵不存在的树上挂叶子。这个比喻不只是修辞，它完全符合我们大脑的工作机制，神经可塑性的运作方式就是这样的，能带来成功的神经连接会被不断强化，无用的连接像枯枝一样断掉，当你有了坚实的主干结构，新信息才有地方附着，没有这个框架，所有知识都会快速滑落。马斯克自己就是这么干的，他没有先去学怎么造火箭发动机，而是先弄懂火箭为什么要那样工作，物理学、材料科学、热力学的基本原理，一旦掌握了这些，具体的工程决策就变成了可以评估、质疑和改进的东西。芒格也是一样，不死记投资方法，而是从心理学、历史、数学、物理、哲学、生物学里搭建多元思维框架，然后用这个框架在所有领域做决策。一个方法只能解决一个问题，一次有效，一个原理能反复用上百次，应对你还没遇到的场景。哈灵顿·埃默森说过，方法可能有百万种，但原理很少，掌握原理的人能成功选择自己的方法，只试方法而忽视原理的人注定遇到麻烦。所以咱们不管学什么新东西，先别急着找技巧，先问一个问题，这个领域的树干是什么，哪些是一旦理解就能让其他一切都变得更容易的第一性原理。先长树干，再挂树叶。

Elon Musk有一个学习方法，解释了一个困扰我很多年的问题，为什么有些东西学完一周就忘光，有些东西一通百通，区别就在于你有没有先建树干。 Elon Musk 说过，要把知识看成一棵语义树，先确保自己理解基本原理，也就是树干和大树枝，再去接触树叶一样的细节，否则那些细节根本无处依附。这句话我琢磨了很久，越想越觉得它解释了一个困扰我很多年的问题，为什么有些东西学完就忘，有些东西一通百通。区别就在于你有没有树干。没有树干的时候，你学到的每一个技巧都是悬在空中的，挂不住，风一吹就掉了，读完一本书一周忘光，学完一门课一个月用不上，本质上都是同一个问题，你在往一棵不存在的树上挂叶子。这个比喻不只是修辞，它完全符合我们大脑的工作机制，神经可塑性的运作方式就是这样的，能带来成功的神经连接会被不断强化，无用的连接像枯枝一样断掉，当你有了坚实的主干结构，新信息才有地方附着，没有这个框架，所有知识都会快速滑落。马斯克自己就是这么干的，他没有先去学怎么造火箭发动机，而是先弄懂火箭为什么要那样工作，物理学、材料科学、热力学的基本原理，一旦掌握了这些，具体的工程决策就变成了可以评估、质疑和改进的东西。芒格也是一样，不死记投资方法，而是从心理学、历史、数学、物理、哲学、生物学里搭建多元思维框架，然后用这个框架在所有领域做决策。一个方法只能解决一个问题，一次有效，一个原理能反复用上百次，应对你还没遇到的场景。哈灵顿·埃默森说过，方法可能有百万种，但原理很少，掌握原理的人能成功选择自己的方法，只试方法而忽视原理的人注定遇到麻烦。所以咱们不管学什么新东西，先别急着找技巧，先问一个问题，这个领域的树干是什么，哪些是一旦理解就能让其他一切都变得更容易的第一性原理。先长树干，再挂树叶。

AYi

44,087 Aufrufe • vor 3 Monaten

这是一个真实的故事，关于一个房产经纪团队怎么用内容营销卖出了一套130万美元的房子。重点不是这130万，而是他们用的方法特别实在。具体是怎么做的？首先，他们特别清楚自己的地盘。不是到处写写写，而是就选了3个他们最熟的区域。这就像你在一个小区住了十年，对那儿的一草一木都了如指掌 - 哪个单元采光好，哪个位置停车方便，连物业的老张什么性格都门儿清。他们写内容的方法也很实在： 1. 就写两种文章： - 给想买房的人写"在这儿住是啥感觉" - 给想卖房的人写"这片子现在行情咋样" 2. 文章写得特别接地气： - 不是写得特别长，一般也就一两千字 - 就跟跟邻居聊天似的，用"你"来说话 - 说的都是实打实的事，不罗嗦 3. 他们特别会找话题： - 上网看看大家在问什么问题 - 逛逛社区论坛，看看住户在聊什么 - 把这些实际问题都写进去 4. 内容不光是写，还要配图： - 自己开无人机拍照片 - 画个地图，标注下重要的地方 - 再配个视频，让大家更直观 5. 最实在的是，他们是慢慢来的： - 开始就写个千把字，放几张图 - 发现这文章有人看了，就往里加内容 - 别人问什么，就补充什么 - 最后每个区域写个二三十篇文章 6. 最后就是要主动一点： - 文章里放个联系方式 - 加个表格让人填联系方式 - 有人问就赶紧回复 - 多问问别人觉得哪写得好，哪写得不够好说白了，他们就是把自己知道的，别人关心的，都老老实实写下来。时间长了，这些文章就变成了他们的"销售小助手"，天天24小时都在帮他们找客户。最后提醒一句：这事儿要有耐心，不是写几篇文章就能见效的。但只要你持续写，写实在的内容，总能慢慢攒出口碑来。

这是一个真实的故事，关于一个房产经纪团队怎么用内容营销卖出了一套130万美元的房子。重点不是这130万，而是他们用的方法特别实在。具体是怎么做的？首先，他们特别清楚自己的地盘。不是到处写写写，而是就选了3个他们最熟的区域。这就像你在一个小区住了十年，对那儿的一草一木都了如指掌 - 哪个单元采光好，哪个位置停车方便，连物业的老张什么性格都门儿清。他们写内容的方法也很实在： 1. 就写两种文章： - 给想买房的人写"在这儿住是啥感觉" - 给想卖房的人写"这片子现在行情咋样" 2. 文章写得特别接地气： - 不是写得特别长，一般也就一两千字 - 就跟跟邻居聊天似的，用"你"来说话 - 说的都是实打实的事，不罗嗦 3. 他们特别会找话题： - 上网看看大家在问什么问题 - 逛逛社区论坛，看看住户在聊什么 - 把这些实际问题都写进去 4. 内容不光是写，还要配图： - 自己开无人机拍照片 - 画个地图，标注下重要的地方 - 再配个视频，让大家更直观 5. 最实在的是，他们是慢慢来的： - 开始就写个千把字，放几张图 - 发现这文章有人看了，就往里加内容 - 别人问什么，就补充什么 - 最后每个区域写个二三十篇文章 6. 最后就是要主动一点： - 文章里放个联系方式 - 加个表格让人填联系方式 - 有人问就赶紧回复 - 多问问别人觉得哪写得好，哪写得不够好说白了，他们就是把自己知道的，别人关心的，都老老实实写下来。时间长了，这些文章就变成了他们的"销售小助手"，天天24小时都在帮他们找客户。最后提醒一句：这事儿要有耐心，不是写几篇文章就能见效的。但只要你持续写，写实在的内容，总能慢慢攒出口碑来。

Yangyi

56,646 Aufrufe • vor 1 Jahr

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

AI会永远对你撒谎。这不是bug，是数学定律。我，卡内基梅隆大学的数学学生，用数学告诉你为什么。所有语言模型，只做一件事：根据它读过的所有资料，预测下一个最有可能的词。但这里有个死结。模型的猜测，我们叫它q(x)。真实世界的概率，我们叫它p(x)。 q(x)永远不可能等于p(x)。它们之间，永远有一道鸿沟。有个数学公式，就是用来测量这道鸿沟的。只要模型不能完美预测下一个词它永远不能那这个鸿沟就永远不会是零。所以，当AI不知道真相的时候会发生什么？它不能停机，它必须给你一个答案。它只能硬着头皮，输出一个它认为“最像”答案的答案。哪怕那是错的。这就是“幻觉”。一个基于不完整信息，却无比自信的猜测。最要命的是，数学甚至给出了一个下限。就算最完美的模型，它的幻觉率也永远不可能低于这个数字。只要它不知道关于这个世界的一切它永远不可能知道。它就总会有概率，编造事实。所以，无论AI变得多强大，它都会撒谎。因为数学就是这么写的。

墓碑科技

73,608 Aufrufe • vor 6 Monaten

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

今天 Meta 发布了最新的开源模型的 Llama 3 首发和之前一样，包括了 8B 和 70B 两个版本，小扎说还有个 400B 参数的大号版预计在夏天发布，这可能是第一个 GPT-4 级别的开源模型！Meta 这次在 15T 的数据集上训练了一个 8B 的小模型，在参数规模、易用性和推理能力上做了最佳平衡，看来有算力真香😄 同时 Meta 也推出了自己的 ChatGPT 产品 Chat AI 了。。其实 HuggingChat 也不错的你可以在这里体验所有的开源大语言模型

indigo

183,914 Aufrufe • vor 2 Jahren