泥潭日报 uscardforum · 每日精选

大胆预测:今后大学CS/AI专业的分水岭是预训练

内容摘要

预训练成为CS/AI专业核心能力筛选标准,资源门槛与工程价值引发争议。

1. 关键信息

  • 预训练被视为CS/AI专业分水岭能力,类似EE的流片(#1, #4)。
  • 小模型(如qwen 2B)预训练有意义,并非毫无用处(#1, #4, #16)。
  • 旧GPU(A100/H100)资源因新架构(rubin)缓解,不再紧张(#1, #24)。
  • 预训练工程难度高,涉及数据清洗、tokenizer、分布式训练(#1)。
  • RL post training被认为更易上手且体现ML水平(#11, #12, #16)。
  • 规模化深度学习训练(infra搭建与优化)被视为核心稀缺能力(#20)。

2. 羊毛/优惠信息

3. 最新动态

4. 争议或不同意见

  • 多数人认为预训练对就业无用,仅少数人能完成(#3, #7, #10)。
  • 有人质疑预训练与资源强相关,非能力本质(#10)。
  • 比较类比争议:预训练 vs 手搓CPU/FPGA(#22, #24)。
  • 观点对立:预训练简单 vs 极难(#16, #33)。

5. 行动建议

  • 学生应优先掌握预训练系统工程,以区别于通用AI agent能力(#1, #8)。
原始内容
--- 第 1 楼来自 i589pending 的回复 (2026-03-25 01:08:57 PDT) ---

现在CS专业教的一大堆课早已和AI时代脱节,总有一个疑问,AI时代,未来CS转向AI专业,那什么才是有意义的工作?而未来我能想象得到的一个CS专业学生分水岭级别的能力,就是独自跑通2B左右LLM的预训练,类似EE专业学生的分水岭是流片。

首先,即使是今天,不少进组的美国本科生其实都能接触到 2*A100/H100*80G的资源(甚至很多非旗舰州立大学),既然一些学校有资源开课让EE顶尖的一部分学生流片,那么未来也有资源开课让CS顶尖的一部分学生完成小模型的预训练。

拿1-2学期的时间做这个工作,远比上几门水课要强。

其次,rubin架构作为自LLM出现后正式脱胎换骨的新架构,新一代GPU肯定会被all in,而替换下来的旧A100 H100也就不会资源紧张,不会像现在这样如此的缺算力。在相对不缺A100/H100的情况下,资源多的好学校的CS\AI科班学生完全可以以个人或者小组为单位完成这项工作。

再者,CS学生预训练LLM从工程难度、学到的东西上,与流片之于EE有过之而无不及。从了解数据清洗与配比、tokenizer、分布式训练、吞吐优化开始,学习预训练过程来系统了解LLM的原理,才是在这个人人都会用openclaw搭agent、人人都会用claudecode写代码的时候,真正的CS科班稀缺的东西。

现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处。与其刷早已被时代淘汰且没用的leetcode,未来CS\AI的学生们直接跑自己预训练模型的各种benchmark然后不断优化,这种成就感,想想其实会更有意义。

--- 第 2 楼来自 xxxyyy 的回复 (2026-03-25 01:13:05 PDT) ---

不需要那么多人做预训练

--- 第 3 楼来自 Kitsch 的回复 (2026-03-25 01:13:30 PDT) ---

LLM基础模型最后能活下来的估计就两三家,剩下的都得死,未来没有那么多的人才需求的。
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处
就是没啥用,模型做不到第一第二,基本上就是陪跑,没有任何盈利空间,未来做不出SOTA的大厂一定会把这些部门全砍了

--- 第 4 楼来自 i589pending 的回复 (2026-03-25 01:16:34 PDT) ---

【引用自 Kitsch】:
未来没有那么多的人才需求的。
能对一个系统加深理解都是好的

就像EE专业最硬核的项目是流片,但实际上他们流的片放在工业界大多也一文不值,完全没用,但代表知识学进去了,流片成功代表这个候选人足够厉害,这才是这段经历最大的含金量。

对CS的学生来说,未来也只有极少一小撮人完成预训练。预训练其实非常困难。

--- 第 5 楼来自 狂魔哥 的回复 (2026-03-25 01:18:33 PDT) ---

确实

现在面试都不是学校教的东西

--- 第 6 楼来自 Startrek 的回复 (2026-03-25 01:20:10 PDT) ---

【引用自 i589pending】:
但代表知识学进去了,流片成功代表这个候选人足够厉害,这才是这段经历最大的含金量。
你仔细想想资本家会这么看么?我要的是会做ai agent的,你懂pre train我也没资源啊。。

--- 第 7 楼来自 Kitsch 的回复 (2026-03-25 01:21:12 PDT) ---

【引用自 i589pending】:
对CS的学生来说,未来也只有极少一小撮人完成预训练。预训练其实非常困难。
你这话说的,学起来很难但是屁用没有的多了去了,四大天坑专业哪个不难?

现在市场就是需要会ai agent且能熟练运用agent迅速能造轮子解决市场痛点的eng

--- 第 8 楼来自 i589pending 的回复 (2026-03-25 01:22:20 PDT) ---

【引用自 Startrek】:
我要的是会做ai agent的
如何定义“会做ai agent”

现在纯用codex说两句话,prompt到位,半个小时就能搭起来一个在某特定领域相当可用的agent框架。未来如何定义学生做agent的能力是一个很难的事情。

相比之下,会预训练是个更优的能力筛选方案。

--- 第 9 楼来自 狂魔哥 的回复 (2026-03-25 01:25:37 PDT) ---

ai agent这玩意如果上班没用过的话 到底如何速度精通

--- 第 10 楼来自 Startrek 的回复 (2026-03-25 02:14:13 PDT) ---

【引用自 i589pending】:
会预训练是个更优的能力筛选方案
pretrain这个和资源有关和能力无关。你只是不熟悉pretrain以为这个高大上罢了。

--- 第 11 楼来自 吉伊卡哇 的回复 (2026-03-25 02:20:10 PDT) ---

现在RL很火

--- 第 12 楼来自 Startrek 的回复 (2026-03-25 02:28:06 PDT) ---

同意!RL post training才是最容易上手且看得出ml技术水平的。

--- 第 13 楼来自 exaxon 的回复 (2026-03-25 05:36:42 PDT) ---

每次看到这种言论都不得不想说 ai就是cs专业的全部就业方向了吗 刷benchmark跟刷lc做题有啥区别 刷lc照样可以优化算法时间空间复杂度 未免有点太鼠目寸光了..

--- 第 14 楼来自 RoyWright 的回复 (2026-03-25 05:52:35 PDT) ---

你找到工作了吗

--- 第 15 楼来自 otonoco 的回复 (2026-03-25 06:05:44 PDT) ---

@林磕碜 又是你?

--- 第 16 楼来自 收束观测者 的回复 (2026-03-25 07:34:09 PDT) ---

【引用自 i589pending】:
预训练其实非常困难
预训练非常简单

尤其是你只需要跑通

难的是上规模的预训练优化

真正难跑通难爬的是RL
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了,预训练这种小模型并不是毫无用处
预训练跑出来的2B小模型几乎一定是垃圾
【引用自 Kitsch】:
模型做不到第一第二,基本上就是陪跑,没有任何盈利空间,未来做不出SOTA的大厂一定会把这些部门全砍了
做不出SOTA的foundation model部门也许会砍

但是RL会越来越繁荣的

AGI梦碎以后模型训练会越来越根据应用领域特制化

靠prompt特制化一个Generalist模型终归是邪教

表现是一定不如特制化模型的

--- 第 17 楼来自 两只饺子 的回复 (2026-03-25 07:35:34 PDT) ---

从加深对系统理解方面来说没毛病,但实际上现在这个不就相当于以前的操作系统吗?

深入理解操作系统当然很好,但同时也有一堆不理解操作系统的面向应用的码农。

--- 第 18 楼来自 老瓢虫 的回复 (2026-03-25 07:35:41 PDT) ---

看着不像,不是我鄙视小林,感觉他写不出来这种帖子。。。

--- 第 19 楼来自 老瓢虫 的回复 (2026-03-25 07:45:13 PDT) ---

不确定ai专业会怎么样,但是cs专业这种事已经发生过一次了。。。我读phd的时候最火的是network,和ai经历了差不多的事。21世纪初sigcomm还能有纯理论的paper,等到我入坑的时候,公司里动不动就是超大规模的实验,学校的小规模仿真很难干的过。

--- 第 20 楼来自 mgnt.adv 的回复 (2026-03-25 07:46:37 PDT) ---

真正难的不是跑通预训练,跑通现在你说的预训练没什么用。这个框架不会是最后“AGI”的框架,一定会被迭代。但是尝到了scale up的甜头后大家都知道,参数量才是硬道理。稀有的能力是任意给定一个框架你都知道怎么搭infra,怎么在多级多卡里上规模的榨干这些机器的能力。总结一下:规模化的做深度学习训练是核心能力。

--- 第 21 楼来自 cynthialin 的回复 (2026-03-25 07:47:22 PDT) ---

你说的这些跟杀小白鼠有什么区别吗?

--- 第 22 楼来自 B1tWiz 的回复 (2026-03-25 07:55:20 PDT) ---

和用FPGA搭一个cpu相比哪个更难

--- 第 23 楼来自 收束观测者 的回复 (2026-03-25 07:59:24 PDT) ---

【引用自 B1tWiz】:
用FPGA搭一个cpu
二十年前网上就有开源代码了

--- 第 24 楼来自 SuKi2cn 的回复 (2026-03-25 08:37:27 PDT) ---

显卡好像比流片门槛低多了

(如果非要说门槛就是区分度的话)

--- 第 25 楼来自 otonoco 的回复 (2026-03-25 09:14:59 PDT) ---

这个我三年没碰systemverilog现在都还能手写一个出来

--- 第 26 楼来自 匿名用户 的回复 (2026-03-25 12:57:58 PDT) ---

【引用自 i589pending】:
就像EE专业最硬核的项目是流片
你看你这假设就有问题…EE专业搞芯片的只是一个小领域…对于这个小领域里面只有数字电路部分最花钱的项目是流片…

(没搞过模拟说错了求别喷…)

--- 第 27 楼来自 打豆豆 的回复 (2026-03-25 13:13:11 PDT) ---

【引用自 i589pending】:
现在CS专业教的一大堆课早已和AI时代脱节
一直都这样吧,git我工作之后才开始学/用。

毕竟大学里教课的老师可能一年也写不了500行代码

--- 第 28 楼来自 uplus5f7b 的回复 (2026-03-25 13:19:11 PDT) ---

【引用自 狂魔哥】:
现在面试都不是学校教的东西
不管是现在和过去都不是,中国和美国也都不是 十年前中国考八股和深入浅出开源项目代码,美国考leetcode,这俩都不是学校里教的
【引用自 打豆豆】:
git我工作之后才开始学/用
牛逼如MIT当年都要专门开一个助教课教大家怎么用命令行工具和git,刚出的时候在互联网上都被转疯了

--- 第 29 楼来自 CornHub 的回复 (2026-03-25 13:33:42 PDT) ---

这个方向挺有意思的,看看几年后会不会真的成为分水岭。

--- 第 30 楼来自 AlexanderZ 的回复 (2026-03-25 22:23:05 PDT) ---

【引用自 mgnt.adv】:
但是尝到了scale up的甜头后大家都知道,参数量才是硬道理。
感觉现在有点保持performance尽可能降参数量的趋势?

--- 第 31 楼来自 争取多活两年 的回复 (2026-03-25 22:28:54 PDT) ---

本老大学时候大家都以能手搓操作系统为荣。

--- 第 32 楼来自 mgnt.adv 的回复 (2026-03-26 02:08:35 PDT) ---

【引用自 AlexanderZ】:
保持performance尽可能降参数量
如果你说的参数量真的指的是参数量,这个趋势只是私有部署的一块边角料。前沿都在不遗余力的推scaling law。没有问题。

如果你的参数量泛指计算,特别是inference的时候的计算,这种正确的。训练上大家不care成本,有的是卡,inference上尽量抠搜些,为了节约成本。

--- 第 33 楼来自 无能狂怒 的回复 (2026-03-26 03:47:28 PDT) ---

【引用自 i589pending】:
EE专业学生的分水岭是流片。
EE只有IC那条路会去流片。

现在玩泥潭吵架,大家都是自动化起小号,ai自动水内容。你怎还在手动写东西?你的ai水平让人感到捉急啊,还是去学一学prompt engineering,让chatGPT来写吧。

快学好ai,咱们吵架版不见不散!

--- 第 34 楼来自 i589pending 的回复 (2026-03-26 03:48:58 PDT) ---

【引用自 无能狂怒】:
大家都是自动化起小号,ai自动水内容。你怎还在手动写东西?
用AI水贴哪能享受到斗鸡的乐趣

--- 第 35 楼来自 vczh 的回复 (2026-03-26 03:51:58 PDT) ---

放在LLM诞生之前,题主的这个意思就像分水岭是手搓云计算平台/编译器/RDBMS/etc

招生多的永远是具体业务的

--- 第 36 楼来自 SuKi2cn 的回复 (2026-03-26 04:15:27 PDT) ---

搜广推做起做起

--- 第 37 楼来自 pix0 的回复 (2026-03-26 11:50:28 PDT) ---

想知道楼主是在学校里还是在agent做得特别好的厂里?
【引用自 i589pending】:
在某特定领域相当可用的agent框架
我听到最常见agent的complain就是handle long tail情况,demo很好,客户用起来问题非常大。get it to run并不是最难的。

--- 第 38 楼来自 colo7r 的回复 (2026-03-26 12:25:48 PDT) ---

是的吧只有数字流片面积大是主要成本

--- 第 39 楼来自 Edward40 的回复 (2026-03-26 13:06:18 PDT) ---

真正的差距是数学及工程实践能力