大胆预测：今后大学CS/AI专业的分水岭是预训练

📈 搬砖作者 i589pending 2026-03-25 01:08 PST 原帖 #493837 ↗

内容摘要

预训练成为CS/AI专业核心能力筛选标准，资源门槛与工程价值引发争议。

1. 关键信息

预训练被视为CS/AI专业分水岭能力，类似EE的流片（#1, #4）。
小模型（如qwen 2B）预训练有意义，并非毫无用处（#1, #4, #16）。
旧GPU（A100/H100）资源因新架构（rubin）缓解，不再紧张（#1, #24）。
预训练工程难度高，涉及数据清洗、tokenizer、分布式训练（#1）。
RL post training被认为更易上手且体现ML水平（#11, #12, #16）。
规模化深度学习训练（infra搭建与优化）被视为核心稀缺能力（#20）。

2. 羊毛/优惠信息

无

3. 最新动态

无

4. 争议或不同意见

多数人认为预训练对就业无用，仅少数人能完成（#3, #7, #10）。
有人质疑预训练与资源强相关，非能力本质（#10）。
比较类比争议：预训练 vs 手搓CPU/FPGA（#22, #24）。
观点对立：预训练简单 vs 极难（#16, #33）。

5. 行动建议

学生应优先掌握预训练系统工程，以区别于通用AI agent能力（#1, #8）。

原始内容

--- 第 1 楼来自 i589pending 的回复 (2026-03-25 01:08:57 PDT) ---

现在CS专业教的一大堆课早已和AI时代脱节，总有一个疑问，AI时代，未来CS转向AI专业，那什么才是有意义的工作？而未来我能想象得到的一个CS专业学生分水岭级别的能力，就是独自跑通2B左右LLM的预训练，类似EE专业学生的分水岭是流片。

首先，即使是今天，不少进组的美国本科生其实都能接触到 2*A100/H100*80G的资源（甚至很多非旗舰州立大学），既然一些学校有资源开课让EE顶尖的一部分学生流片，那么未来也有资源开课让CS顶尖的一部分学生完成小模型的预训练。

拿1-2学期的时间做这个工作，远比上几门水课要强。

其次，rubin架构作为自LLM出现后正式脱胎换骨的新架构，新一代GPU肯定会被all in，而替换下来的旧A100 H100也就不会资源紧张，不会像现在这样如此的缺算力。在相对不缺A100/H100的情况下，资源多的好学校的CS\AI科班学生完全可以以个人或者小组为单位完成这项工作。

再者，CS学生预训练LLM从工程难度、学到的东西上，与流片之于EE有过之而无不及。从了解数据清洗与配比、tokenizer、分布式训练、吞吐优化开始，学习预训练过程来系统了解LLM的原理，才是在这个人人都会用openclaw搭agent、人人都会用claudecode写代码的时候，真正的CS科班稀缺的东西。

现在qwen 2B这种小模型的表现就已经很优秀了，预训练这种小模型并不是毫无用处。与其刷早已被时代淘汰且没用的leetcode，未来CS\AI的学生们直接跑自己预训练模型的各种benchmark然后不断优化，这种成就感，想想其实会更有意义。

--- 第 2 楼来自 xxxyyy 的回复 (2026-03-25 01:13:05 PDT) ---

不需要那么多人做预训练

--- 第 3 楼来自 Kitsch 的回复 (2026-03-25 01:13:30 PDT) ---

LLM基础模型最后能活下来的估计就两三家，剩下的都得死，未来没有那么多的人才需求的。
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了，预训练这种小模型并不是毫无用处
就是没啥用，模型做不到第一第二，基本上就是陪跑，没有任何盈利空间，未来做不出SOTA的大厂一定会把这些部门全砍了

--- 第 4 楼来自 i589pending 的回复 (2026-03-25 01:16:34 PDT) ---

【引用自 Kitsch】:
未来没有那么多的人才需求的。
能对一个系统加深理解都是好的

就像EE专业最硬核的项目是流片，但实际上他们流的片放在工业界大多也一文不值，完全没用，但代表知识学进去了，流片成功代表这个候选人足够厉害，这才是这段经历最大的含金量。

对CS的学生来说，未来也只有极少一小撮人完成预训练。预训练其实非常困难。

--- 第 5 楼来自狂魔哥的回复 (2026-03-25 01:18:33 PDT) ---

确实

现在面试都不是学校教的东西

--- 第 6 楼来自 Startrek 的回复 (2026-03-25 01:20:10 PDT) ---

【引用自 i589pending】:
但代表知识学进去了，流片成功代表这个候选人足够厉害，这才是这段经历最大的含金量。
你仔细想想资本家会这么看么？我要的是会做ai agent的，你懂pre train我也没资源啊。。

--- 第 7 楼来自 Kitsch 的回复 (2026-03-25 01:21:12 PDT) ---

【引用自 i589pending】:
对CS的学生来说，未来也只有极少一小撮人完成预训练。预训练其实非常困难。
你这话说的，学起来很难但是屁用没有的多了去了，四大天坑专业哪个不难？

现在市场就是需要会ai agent且能熟练运用agent迅速能造轮子解决市场痛点的eng

--- 第 8 楼来自 i589pending 的回复 (2026-03-25 01:22:20 PDT) ---

【引用自 Startrek】:
我要的是会做ai agent的
如何定义“会做ai agent”

现在纯用codex说两句话，prompt到位，半个小时就能搭起来一个在某特定领域相当可用的agent框架。未来如何定义学生做agent的能力是一个很难的事情。

相比之下，会预训练是个更优的能力筛选方案。

--- 第 9 楼来自狂魔哥的回复 (2026-03-25 01:25:37 PDT) ---

ai agent这玩意如果上班没用过的话到底如何速度精通

--- 第 10 楼来自 Startrek 的回复 (2026-03-25 02:14:13 PDT) ---

【引用自 i589pending】:
会预训练是个更优的能力筛选方案
pretrain这个和资源有关和能力无关。你只是不熟悉pretrain以为这个高大上罢了。

--- 第 11 楼来自吉伊卡哇的回复 (2026-03-25 02:20:10 PDT) ---

现在RL很火

--- 第 12 楼来自 Startrek 的回复 (2026-03-25 02:28:06 PDT) ---

同意！RL post training才是最容易上手且看得出ml技术水平的。

--- 第 13 楼来自 exaxon 的回复 (2026-03-25 05:36:42 PDT) ---

每次看到这种言论都不得不想说 ai就是cs专业的全部就业方向了吗刷benchmark跟刷lc做题有啥区别刷lc照样可以优化算法时间空间复杂度未免有点太鼠目寸光了..

--- 第 14 楼来自 RoyWright 的回复 (2026-03-25 05:52:35 PDT) ---

你找到工作了吗

--- 第 15 楼来自 otonoco 的回复 (2026-03-25 06:05:44 PDT) ---

@林磕碜又是你？

--- 第 16 楼来自收束观测者的回复 (2026-03-25 07:34:09 PDT) ---

【引用自 i589pending】:
预训练其实非常困难
预训练非常简单

尤其是你只需要跑通

难的是上规模的预训练优化

真正难跑通难爬的是RL
【引用自 i589pending】:
现在qwen 2B这种小模型的表现就已经很优秀了，预训练这种小模型并不是毫无用处
预训练跑出来的2B小模型几乎一定是垃圾
【引用自 Kitsch】:
模型做不到第一第二，基本上就是陪跑，没有任何盈利空间，未来做不出SOTA的大厂一定会把这些部门全砍了
做不出SOTA的foundation model部门也许会砍

但是RL会越来越繁荣的

AGI梦碎以后模型训练会越来越根据应用领域特制化

靠prompt特制化一个Generalist模型终归是邪教

表现是一定不如特制化模型的

--- 第 17 楼来自两只饺子的回复 (2026-03-25 07:35:34 PDT) ---

从加深对系统理解方面来说没毛病，但实际上现在这个不就相当于以前的操作系统吗？

深入理解操作系统当然很好，但同时也有一堆不理解操作系统的面向应用的码农。

--- 第 18 楼来自老瓢虫的回复 (2026-03-25 07:35:41 PDT) ---

看着不像，不是我鄙视小林，感觉他写不出来这种帖子。。。

--- 第 19 楼来自老瓢虫的回复 (2026-03-25 07:45:13 PDT) ---

不确定ai专业会怎么样，但是cs专业这种事已经发生过一次了。。。我读phd的时候最火的是network，和ai经历了差不多的事。21世纪初sigcomm还能有纯理论的paper，等到我入坑的时候，公司里动不动就是超大规模的实验，学校的小规模仿真很难干的过。

--- 第 20 楼来自 mgnt.adv 的回复 (2026-03-25 07:46:37 PDT) ---

真正难的不是跑通预训练，跑通现在你说的预训练没什么用。这个框架不会是最后“AGI”的框架，一定会被迭代。但是尝到了scale up的甜头后大家都知道，参数量才是硬道理。稀有的能力是任意给定一个框架你都知道怎么搭infra，怎么在多级多卡里上规模的榨干这些机器的能力。总结一下：规模化的做深度学习训练是核心能力。

--- 第 21 楼来自 cynthialin 的回复 (2026-03-25 07:47:22 PDT) ---

你说的这些跟杀小白鼠有什么区别吗?

--- 第 22 楼来自 B1tWiz 的回复 (2026-03-25 07:55:20 PDT) ---

和用FPGA搭一个cpu相比哪个更难

--- 第 23 楼来自收束观测者的回复 (2026-03-25 07:59:24 PDT) ---

【引用自 B1tWiz】:
用FPGA搭一个cpu
二十年前网上就有开源代码了

--- 第 24 楼来自 SuKi2cn 的回复 (2026-03-25 08:37:27 PDT) ---

显卡好像比流片门槛低多了

（如果非要说门槛就是区分度的话）

--- 第 25 楼来自 otonoco 的回复 (2026-03-25 09:14:59 PDT) ---

这个我三年没碰systemverilog现在都还能手写一个出来

--- 第 26 楼来自匿名用户的回复 (2026-03-25 12:57:58 PDT) ---

【引用自 i589pending】:
就像EE专业最硬核的项目是流片
你看你这假设就有问题…EE专业搞芯片的只是一个小领域…对于这个小领域里面只有数字电路部分最花钱的项目是流片…

（没搞过模拟说错了求别喷…）

--- 第 27 楼来自打豆豆的回复 (2026-03-25 13:13:11 PDT) ---

【引用自 i589pending】:
现在CS专业教的一大堆课早已和AI时代脱节
一直都这样吧，git我工作之后才开始学/用。

毕竟大学里教课的老师可能一年也写不了500行代码

--- 第 28 楼来自 uplus5f7b 的回复 (2026-03-25 13:19:11 PDT) ---

【引用自狂魔哥】:
现在面试都不是学校教的东西
不管是现在和过去都不是，中国和美国也都不是十年前中国考八股和深入浅出开源项目代码，美国考leetcode，这俩都不是学校里教的
【引用自打豆豆】:
git我工作之后才开始学/用
牛逼如MIT当年都要专门开一个助教课教大家怎么用命令行工具和git，刚出的时候在互联网上都被转疯了

--- 第 29 楼来自 CornHub 的回复 (2026-03-25 13:33:42 PDT) ---

这个方向挺有意思的，看看几年后会不会真的成为分水岭。

--- 第 30 楼来自 AlexanderZ 的回复 (2026-03-25 22:23:05 PDT) ---

【引用自 mgnt.adv】:
但是尝到了scale up的甜头后大家都知道，参数量才是硬道理。
感觉现在有点保持performance尽可能降参数量的趋势？

--- 第 31 楼来自争取多活两年的回复 (2026-03-25 22:28:54 PDT) ---

本老大学时候大家都以能手搓操作系统为荣。

--- 第 32 楼来自 mgnt.adv 的回复 (2026-03-26 02:08:35 PDT) ---

【引用自 AlexanderZ】:
保持performance尽可能降参数量
如果你说的参数量真的指的是参数量，这个趋势只是私有部署的一块边角料。前沿都在不遗余力的推scaling law。没有问题。

如果你的参数量泛指计算，特别是inference的时候的计算，这种正确的。训练上大家不care成本，有的是卡，inference上尽量抠搜些，为了节约成本。

--- 第 33 楼来自无能狂怒的回复 (2026-03-26 03:47:28 PDT) ---

【引用自 i589pending】:
EE专业学生的分水岭是流片。
EE只有IC那条路会去流片。

现在玩泥潭吵架，大家都是自动化起小号，ai自动水内容。你怎还在手动写东西？你的ai水平让人感到捉急啊，还是去学一学prompt engineering，让chatGPT来写吧。

快学好ai，咱们吵架版不见不散！

--- 第 34 楼来自 i589pending 的回复 (2026-03-26 03:48:58 PDT) ---

【引用自无能狂怒】:
大家都是自动化起小号，ai自动水内容。你怎还在手动写东西？
用AI水贴哪能享受到斗鸡的乐趣

--- 第 35 楼来自 vczh 的回复 (2026-03-26 03:51:58 PDT) ---

放在LLM诞生之前，题主的这个意思就像分水岭是手搓云计算平台/编译器/RDBMS/etc

招生多的永远是具体业务的

--- 第 36 楼来自 SuKi2cn 的回复 (2026-03-26 04:15:27 PDT) ---

搜广推做起做起

--- 第 37 楼来自 pix0 的回复 (2026-03-26 11:50:28 PDT) ---

想知道楼主是在学校里还是在agent做得特别好的厂里？
【引用自 i589pending】:
在某特定领域相当可用的agent框架
我听到最常见agent的complain就是handle long tail情况，demo很好，客户用起来问题非常大。get it to run并不是最难的。

--- 第 38 楼来自 colo7r 的回复 (2026-03-26 12:25:48 PDT) ---

是的吧只有数字流片面积大是主要成本

--- 第 39 楼来自 Edward40 的回复 (2026-03-26 13:06:18 PDT) ---

真正的差距是数学及工程实践能力

📈 搬砖 · 其他高楼

【摸鱼第十四季完结】你也要变成和我一样的大人了呢 💬 9991
好的，我将根据您提供的文本内容，尝试总结并回答您的问题。
【摸鱼第十六季】偶然走入了最甜蜜事件里！ 💬 9920
帖子标题
【摸鱼第十五季】二月啦，都不摸鱼只开嗑了吗？ 💬 9896
摸鱼楼持续热议“求富”话题，聚焦报税、里程、远程工作，并围绕“删帖”行为展开集体调侃。
【摸鱼第十七季】记得绿罗裙，处处怜芳草 💬 9223
摸鱼楼讨论投资、求职、AI工具、信用卡优惠，氛围轻松。
Meta又来？ 💬 661
Meta内部大规模裁员与AI成本压力引发连锁反应。
我弟要申请大学了，求推荐好的CS Undergrad 💬 635
关于CS本科申请的讨论与选择
【水】做题家每天做题碎碎念 💬 500
LeetCode刷题与技术交流的持续记录，用户分享算法心得与生活点滴
年底将至，赠送潭友 LinkedIn Premium 💬 477
年底赠送 LinkedIn Premium 助求职者与毕业生

← 返回 📈 搬砖