大胆预测:今后大学CS/AI专业的分水岭是预训练
预训练成为CS/AI专业核心能力筛选标准,资源门槛与工程价值引发争议。
1. 关键信息
- 预训练被视为CS/AI专业分水岭能力,类似EE的流片(#1, #4)。
- 小模型(如qwen 2B)预训练有意义,并非毫无用处(#1, #4, #16)。
- 旧GPU(A100/H100)资源因新架构(rubin)缓解,不再紧张(#1, #24)。
- 预训练工程难度高,涉及数据清洗、tokenizer、分布式训练(#1)。
- RL post training被认为更易上手且体现ML水平(#11, #12, #16)。
- 规模化深度学习训练(infra搭建与优化)被视为核心稀缺能力(#20)。
2. 羊毛/优惠信息
无
3. 最新动态
无
4. 争议或不同意见
- 多数人认为预训练对就业无用,仅少数人能完成(#3, #7, #10)。
- 有人质疑预训练与资源强相关,非能力本质(#10)。
- 比较类比争议:预训练 vs 手搓CPU/FPGA(#22, #24)。
- 观点对立:预训练简单 vs 极难(#16, #33)。
5. 行动建议
- 学生应优先掌握预训练系统工程,以区别于通用AI agent能力(#1, #8)。
现在CS专业教的一大堆课早已和AI时代脱节,总有一个疑问,AI时代,未来CS转向AI专业,那什么才是有意义的工作?而未来我能想象得到的一个CS专业学生分水岭级别的能力,就是独自跑通2B左右LLM的预训练,类似EE专业学生的分水岭是流片。
首先,即使是今天,不少进组的美国本科生其实都能接触到 2*A100/H100*80G的资源(甚至很多非旗舰州立大学),既然一些学校有资源开课让EE顶尖的一部分学生流片,那么未来也有资源开课让CS顶尖的一部分学生完成小模型的预训练。
拿1-2学期的时间做这个工作,远比上几门水课要强。
其次,rubin架构作为自LLM出现后正式脱胎换骨的新架构,新一代GPU肯定会被all in,而替换下来的旧A100 H100也就不会资源紧张,不会像现在这样如此的缺算力。在相对不缺A100/H100的情况下,资源多的好学校的CS\AI科班学生完全可以以个人或者小组为单位完成这项工作。
再者,CS学生预训练LLM从工程难度、学到的东西上,与流片之于EE有过之而无不及。从了解数据清洗与配比、tokenizer、分布式训练、吞吐优化开始,学习预训练过程来系统了解LLM的原理,才是在这个人人都会用openclaw搭agent、人人都会用claudecode写代码的时候,真正的CS科班稀缺的东西。
现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处。与其刷早已被时代淘汰且没用的leetcode,未来CS\AI的学生们直接跑自己预训练模型的各种benchmark然后不断优化,这种成就感,想想其实会更有意义。
不需要那么多人做预训练
LLM基础模型最后能活下来的估计就两三家,剩下的都得死,未来没有那么多的人才需求的。
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处
就是没啥用,模型做不到第一第二,基本上就是陪跑,没有任何盈利空间,未来做不出SOTA的大厂一定会把这些部门全砍了
【引用自 Kitsch】:
未来没有那么多的人才需求的。
能对一个系统加深理解都是好的
就像EE专业最硬核的项目是流片,但实际上他们流的片放在工业界大多也一文不值,完全没用,但代表知识学进去了,流片成功代表这个候选人足够厉害,这才是这段经历最大的含金量。
对CS的学生来说,未来也只有极少一小撮人完成预训练。预训练其实非常困难。
确实
现在面试都不是学校教的东西
【引用自 i589pending】:
但代表知识学进去了,流片成功代表这个候选人足够厉害,这才是这段经历最大的含金量。
你仔细想想资本家会这么看么?我要的是会做ai agent的,你懂pre train我也没资源啊。。
【引用自 i589pending】:
对CS的学生来说,未来也只有极少一小撮人完成预训练。预训练其实非常困难。
你这话说的,学起来很难但是屁用没有的多了去了,四大天坑专业哪个不难?
现在市场就是需要会ai agent且能熟练运用agent迅速能造轮子解决市场痛点的eng
【引用自 Startrek】:
我要的是会做ai agent的
如何定义“会做ai agent”
现在纯用codex说两句话,prompt到位,半个小时就能搭起来一个在某特定领域相当可用的agent框架。未来如何定义学生做agent的能力是一个很难的事情。
相比之下,会预训练是个更优的能力筛选方案。
ai agent这玩意如果上班没用过的话 到底如何速度精通
【引用自 i589pending】:
会预训练是个更优的能力筛选方案
pretrain这个和资源有关和能力无关。你只是不熟悉pretrain以为这个高大上罢了。
现在RL很火
同意!RL post training才是最容易上手且看得出ml技术水平的。
每次看到这种言论都不得不想说 ai就是cs专业的全部就业方向了吗 刷benchmark跟刷lc做题有啥区别 刷lc照样可以优化算法时间空间复杂度 未免有点太鼠目寸光了..
你找到工作了吗
@林磕碜 又是你?
【引用自 i589pending】:
预训练其实非常困难
预训练非常简单
尤其是你只需要跑通
难的是上规模的预训练优化
真正难跑通难爬的是RL
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处
预训练跑出来的2B小模型几乎一定是垃圾
【引用自 Kitsch】:
模型做不到第一第二,基本上就是陪跑,没有任何盈利空间,未来做不出SOTA的大厂一定会把这些部门全砍了
做不出SOTA的foundation model部门也许会砍
但是RL会越来越繁荣的
AGI梦碎以后模型训练会越来越根据应用领域特制化
靠prompt特制化一个Generalist模型终归是邪教
表现是一定不如特制化模型的
从加深对系统理解方面来说没毛病,但实际上现在这个不就相当于以前的操作系统吗?
深入理解操作系统当然很好,但同时也有一堆不理解操作系统的面向应用的码农。
看着不像,不是我鄙视小林,感觉他写不出来这种帖子。。。
不确定ai专业会怎么样,但是cs专业这种事已经发生过一次了。。。我读phd的时候最火的是network,和ai经历了差不多的事。21世纪初sigcomm还能有纯理论的paper,等到我入坑的时候,公司里动不动就是超大规模的实验,学校的小规模仿真很难干的过。
真正难的不是跑通预训练,跑通现在你说的预训练没什么用。这个框架不会是最后“AGI”的框架,一定会被迭代。但是尝到了scale up的甜头后大家都知道,参数量才是硬道理。稀有的能力是任意给定一个框架你都知道怎么搭infra,怎么在多级多卡里上规模的榨干这些机器的能力。总结一下:规模化的做深度学习训练是核心能力。
你说的这些跟杀小白鼠有什么区别吗?
和用FPGA搭一个cpu相比哪个更难
【引用自 B1tWiz】:
用FPGA搭一个cpu
二十年前网上就有开源代码了
显卡好像比流片门槛低多了
(如果非要说门槛就是区分度的话)
这个我三年没碰systemverilog现在都还能手写一个出来
【引用自 i589pending】:
就像EE专业最硬核的项目是流片
你看你这假设就有问题…EE专业搞芯片的只是一个小领域…对于这个小领域里面只有数字电路部分最花钱的项目是流片…
(没搞过模拟说错了求别喷…)
【引用自 i589pending】:
现在CS专业教的一大堆课早已和AI时代脱节
一直都这样吧,git我工作之后才开始学/用。
毕竟大学里教课的老师可能一年也写不了500行代码
【引用自 狂魔哥】:
现在面试都不是学校教的东西
不管是现在和过去都不是,中国和美国也都不是 十年前中国考八股和深入浅出开源项目代码,美国考leetcode,这俩都不是学校里教的
【引用自 打豆豆】:
git我工作之后才开始学/用
牛逼如MIT当年都要专门开一个助教课教大家怎么用命令行工具和git,刚出的时候在互联网上都被转疯了
这个方向挺有意思的,看看几年后会不会真的成为分水岭。
【引用自 mgnt.adv】:
但是尝到了scale up的甜头后大家都知道,参数量才是硬道理。
感觉现在有点保持performance尽可能降参数量的趋势?
本老大学时候大家都以能手搓操作系统为荣。
【引用自 AlexanderZ】:
保持performance尽可能降参数量
如果你说的参数量真的指的是参数量,这个趋势只是私有部署的一块边角料。前沿都在不遗余力的推scaling law。没有问题。
如果你的参数量泛指计算,特别是inference的时候的计算,这种正确的。训练上大家不care成本,有的是卡,inference上尽量抠搜些,为了节约成本。
【引用自 i589pending】:
EE专业学生的分水岭是流片。
EE只有IC那条路会去流片。
现在玩泥潭吵架,大家都是自动化起小号,ai自动水内容。你怎还在手动写东西?你的ai水平让人感到捉急啊,还是去学一学prompt engineering,让chatGPT来写吧。
快学好ai,咱们吵架版不见不散!
【引用自 无能狂怒】:
大家都是自动化起小号,ai自动水内容。你怎还在手动写东西?
用AI水贴哪能享受到斗鸡的乐趣
放在LLM诞生之前,题主的这个意思就像分水岭是手搓云计算平台/编译器/RDBMS/etc
招生多的永远是具体业务的
搜广推做起做起
想知道楼主是在学校里还是在agent做得特别好的厂里?
【引用自 i589pending】:
在某特定领域相当可用的agent框架
我听到最常见agent的complain就是handle long tail情况,demo很好,客户用起来问题非常大。get it to run并不是最难的。
是的吧只有数字流片面积大是主要成本
真正的差距是数学及工程实践能力