Video wird geladen...
Video konnte nicht geladen werden
学 AI的兄弟们,别再死磕调包了, 现在从零写一个大语言模型,比学会怎么熟练使用PyTorch还简单😂 看看这两个19岁本科生,四个月从零造了完整的机器学习框架和大模型。 两个19岁的滑铁卢大学本科小哥哥, 四个月前对机器学习一窍不通, 现在他们从零造了一套完整的机器学习框架, 还训出了一个1200万参数的大语言模型,能直接在你的浏览器里跑。 说明大多数人学AI的顺序完全搞反了,大家都是先学调包,再学模型架构,最后才敢碰一点点底层。 这两人反过来, 从梯度下降的微积分开始写, 先写自动微分引擎, 再写BPE分词器, 然后一层一层搭Transformer, 最后反而比绝大多数调了三年包的工程师理解得都要深。 还有一个很少有人看出来的点, 现在AI的真正门槛,早就不在模型架构了。 Transformer的论文2017年就发了, 每一层的数学都是公开的, 随便一个大学生都能背下来。 真正难的是那些论文里从来不写的东西, 怎么写Flash Attention把内存占用降一个数量级, 怎么把加bias加激活加归一化合并成一个内核, 怎么把整个数据集一次性扔进GPU,让训练全程零数据传输, 这些才是决定你能不能真的把模型跑起来的关键。 大厂也正在把简单的事情变复杂, PyTorch为了兼容所有情况,堆了无数层抽象, 最后你都不知道自己写的一行代码在GPU上到底在干什么ಠ_ಠ 而开源正在把复杂的事情变简单, 这两个人用Rust写后端,TypeScript写前端, 底层跑得飞快,上层用起来和PyTorch一样简单,代码加起来不到一万行, 还比任何一个主流框架都干净,这你受得了吗哈哈 这才是最好的AI教育, 不是看一百篇论文, 或者刷十个在线课程, 而是从第一性原理出发, 自己造一个轮子。 当你亲手写过一次自动微分, 你就再也不会觉得AI是什么神秘的黑魔法了。 它就是一堆精心优化的矩阵运算, 加一点聪明的数据流管理, 仅此而已。 我觉得这个视频最恐怖的地方不是两个大学生有多厉害, 而是它证明了两年前还只有大厂实验室才能干的事, 现在已经变成了普通人的业余爱好项目。 最后想说,我们处在一个最好的时代,科技平权的时代, AI的民主化不是大厂给你发API密钥, 咱们任何人只要愿意花四个月时间,... show more
62,879 Aufrufe • vor 1 Monat •via X (Twitter)
0 Kommentare
Keine Kommentare verfügbar
Kommentare vom Original-Post werden hier angezeigt
