个人AI工作站最佳选择是3090阵列?
个人AI工作站方案争议:3090多卡阵列性价比与Mac Studio新品预期之争
关键信息与硬件方案对比
楼主 #1 探讨个人AI工作站选择,排除MacBook Pro M5 Max(太重、内存速度匹配存疑)、RTX Pro 6000(太贵,$12,000起步)、RTX 5090(显存不足)及GB10(性能不如Mac)。核心疑问是RTX 3090组4卡NVLink阵列是否比Mac方案更强且更便宜(FB估价$1,000/张),并担忧配件成本。 - RTX 3090方案:单卡24GB,支持NVLink,但仅支持双卡互联 #16。需考虑散热(暴力扇或水冷)及主板/CPU高成本 #2、#26。 - Mac方案:M5 Max/Mac Studio预期中,统一内存优势明显,但Prefill性能可能不足 #30、#52。M3 Ultra带宽约800GB/s,优于AMD AI Max 395/GB10的256-bit SOC #33、#47。 - 其他选项:RTX Spark(年底发布,$4,800?,128GB显存)#25;A100/H100等高端卡个人购买不划算或无PCIe版本 #54、#68。
经验与数据点
- 3090性价比:被部分用户视为目前美国市场性价比最高的单卡/双卡解,拥有CUDA环境、NVLink及384-bit位宽 #47。但需注意其为5年老卡,可能经历矿潮,无保修且显存风险高 #47。
- 性能对比:3090 NVLink双卡方案在推理(Prefill/Decode)上被认为比Mac统一内存方案更靠谱,能运行Qwen3.6-27B等模型 #52。但多卡存在VRAM和计算开销,单卡Pro 6000算力远超4卡3090 #59。
- 成本估算:
- 技术细节:Mac M系列芯片Prefill性能较差,上下文窗口大时缓存命中率低导致速度极慢 #30、#52。GB10内存带宽小,非正版CUDA兼容性差,不适合专业模型优化 #46。
争议或不同意见
- NVLink必要性:楼主原以为3090可组4卡阵列,但被指出仅支持双卡互联 #16、#21。
- Mac vs NVIDIA:
- 硬件选择分歧:有人推荐3080 20G作为甜点卡(性价比高于3090)#54;有人建议直接上Pro 6000一步到位 #59;还有人等待M5 Ultra发布或RTX Spark上市 #20、#25。
风险/限制/注意事项
- 硬件风险:3090为二手矿卡风险高,散热问题严重(需暴力扇或水冷) #26、#47。
- 兼容性:Mac ARM CPU在某些编译场景有兼容性问题 #51。Pro 6000老平台兼容性差,需仔细选择主板 #61。
- 成本陷阱:多卡阵列不仅显卡贵,主板、电源、散热配件成本高;云存储/初始化也有隐性成本 #2、#11。
- 政策风险:使用公司GPU涉及产权问题,个人建议避免“白嫖”公司资源以防合规风险 #6、#19。
值得跟进
如题,最近在研究搭一个工作站,最初的option是 macbook pro m5 max 128GB,但是这货背出门太沉了,实在不想带,而且能有多少匹配得上内存的速度很难说。 研究了一下,感觉有这么几个选择: RTX Pro 6000 96GB,但实在是太贵了, 12000USD起步 RTX 5090, 没有 NVLink, 那点内存不够看,虽然能顺便玩游戏 GB10或同类产品,似乎还不如macbook方案,价格还差不多。 最后猛然察觉 RTX 3090有NVLink, 24GB内存如果组一个4卡阵列是不是远比macbook 强,而且价格可能还更低?粗略扫了一下FB价格大约1000USD一张?只不过不知道这种大型阵列对于配件的要求是不是很高,是不是配件反而很贵。 我不太熟悉捡垃圾推理,想请教一下懂行的各位~
看你预算了,买卡最大的问题是你的主板内存CPU成本很高,至少不能比显存小 目前我还是觉得mac studio或者mac mini比较好,gb10可以戴尔商白各种叠叠乐
但是mac studio等等没有m5, 买起来总觉得亏了…
所以等等吧,看看今年会不会出新U的mac studio产品线 其实关键看你做什么,如果只是27B 32B这个级别还是挺轻松的,但是405B的你想跑起来就很费劲
真的很好奇,个人AI需求能用的到NVLINK但是还没有公司/实验室服务器可以白嫖的都是做什么的?
没想好,有些idea,公司的GPU当然有,但是用了也就会有产权问题呀…
我也有过类似的困扰 但是白嫖各大云/白嫖VC送钱感觉更好
27b这种等级的我拿公司mac跑过,速度不快不说,可能是因为heretic,效果也极差…
为啥不用各种中转站/openrouter的免费模型/国内的coding plan呢
我还要搞模型,估计需要专门微调agent的模型,不只是调接口
确实,但是初期验证阶段工作频率不高,云的持有成本感觉会有点大,像AWS,infra摆在那里不开机就好多钱一直在往外跑,每次开机初始化也很麻烦
都上这个论坛了 100个学生邮箱一个个用呗 开机初始化以前还是个事,现在开机直接装claude然后结束了
发现了一些盲点,有道理,我研究一下。
你有没有看那个 NV link多少钱
64G的MacBook速度够快了吧
skywing: RTX 3090有NVLink, 24GB内存如果组一个4卡阵列 3090 nvlink只能双卡互联 还是看你自己需求,如果3090都能接受不如去搞a100了 具体是要本地部署微调还是做别的,可以看看这个up,有很多配置,这是其中一个配置: https://www.bilibili.com/video/BV13cdSBwEfF/?spm_id_from=333.1387.upload.video_card.click&vd_source=03d2b2239b21313ac28b48b909467022 https://www.bilibili.com/video/BV13cdSBwEfF/?spm_id_from=333.1387.upload.video_card.click&vd_source=03d2b2239b21313ac28b48b909467022 个人AI本地部署硬件版本新答案, 视频播放量 37104、弹幕量 20、点赞数 380、投硬币枚数 45、收藏人数 637、转发人数 67, 视频作者 单车酒吧搞机社, 作者简介 感谢大家的反馈,极星选2.0正在开发中,敬请期待 想搞机可以去极星选找我 商务:IGNGEO(注明来意) 省钱不踩坑,科技更有趣,相关视频:2026年至今AI大模型本地部署全科普,Qwen3.6-35B-A3B: 第一个真正能干活的本地开源模型!从 2500 到 3 万,3...
这个层面上不如4090 48gb
买来做啥? 可以等一波Mac Studio wwdc应该会更新了,没两天了 3090如果和m5 max比不好说 不过我今天跑了点要用的东西,3090比我顶配的m2 max快四倍 cuda又一次给了我亿点点震撼
白嫖的任何东西都属于公司了 一般都不太敢冒这个风险
期待下周能发布m5 ultra 要是能叠3个m5 max就好了 带宽有个1.8T 没理由买pro 6000了
我靠,原来如此,我说为什么3090这么便宜,确实,要是能八卡互联的话价格早上天了
xs,你提醒了我,忘了要开发布会了,今天差点下单,不过M2 还是有点太老了吧
WWDC就下周一了,等等看有没有吧
我靠,NVLink也要钱,又想买NVDA了,这简直抢劫
老黄年底要出那个RTX spark 128GB,应该就几千刀(说是4800?),估计这个才最适合。一堆轻薄本都说要上这个芯片,比如surface XPS 华硕的年底都会上
3090 巨热,叠叠乐看你能不能接受满速暴力扇了。或者水冷,又是一笔开销
所以一致内存很香。看好RTX Spark
GB10散热好像有大问题 之前三千多价格本地跑跑小模型还是蛮香的
spark的话不如mac了吧,我记得也是带宽很低?虽然估计是有cuda加速的
finetune的话本来也没法用mac,老老实实买卡才是正道 虽然我觉得finetune越来越没前途了,都是在api上跑通想法跑明白场景,然后finetune就更像是蒸馏省cost了
finetune可以1+1大于二的,而且训练我不太可能本地跑,只是要host customized模型
cuda比mac好用,价格估计也比mac低
128gb的那几个,amd ai max 395主机和gb10内存带宽不够,decode速度捉鸡。mac studio m3 ultra带宽够了(800样子),但prefill性能不行。128gb显存的便宜方案(5000刀以下)没有完美的。
等个M5 Ultra 1TB的版本 看看厨子到时什么刀法
4090 48G改
6144 CUDA核心 和移动5070坐一桌
会有新的更好的硬件 建议真有idea再去租硬件也不迟
你下边这几个方案全都比MacBook pro重啊
那要不了什么自行车的,主要还是便宜呗。你要5090水平,还要128GB大内存,那价格还受的了吗。也不便携了
最近在炼小模型M1 Max完全不行还是要租4090。
看了一下攒机感觉好烦,比较喜欢spark这种直接给你现成的,但spark好像训练很拉垮
但感觉一直租gpu验证想法的话,是不是最后还是买比较划算。runpod上4090都要五毛一个小时了。。
skywing: 最初的option是 macbook pro m5 max 128GB skywing: RTX Pro 6000 96GB 这两个没太看懂,第一个怎么着也是笔记本电脑,而第二个,肯定是一个巨大的台式机了吧。如果要训练模型的话,一定不能买MacBook Pro吧,Mac只是统一内存让运行大模型有优势。
除非用48gb,不然为什么补用5090
我是本来就缺一台笔记本,所以肯定要买,区别在于要不要考虑到AI模型买个贵的。 至于训练,基本不会在机器上训,只是serve而已
那个真的是小垃圾来的 觉得好也不用等年底,GB10现在就能买到还带网卡 xxxyyy: cuda 甚至都不是正版的,做不到和别的NV的cuda兼容 哪个模型厂会专门给一个家用小垃圾优化算子呢 游戏的兼容性也不行 内存带宽的问题是大模型跑不快小模型用不着,比较尴尬
这卡确实是本地机器学习目前的唯一神 CUDA环境 + nvlink + 384 bit 位宽 + 不需要魔改风扇,3090就是目前美国市场性价比最高的单卡/双卡解。 唯一缺点就是这卡有点老,现在卖到800 USD这价位对于一张5年老很可能经历过一次ETH矿潮的卡来说是有风险的,毕竟这卡肯定没保显存又热到爆。此外3080 20G魔改也是可以考虑的卡,这卡最近在美国也有点热度。 我的观点是你先看你要多少显存,重推理还是重训练,再决定。另外一点是如果你是显卡 + 大内存混合推理的方案那最近的抽象内存价格也是需要考虑进去的一点,要么做等等党要么吃$10+ / G的高价内存。 GB10确实不如m5 max方案,256 bit的soc跟512 bit的碰瓷推理能力是不可能碰的过的,GB10的CPU方案也是纯抽象。
Yangff: GB10现在就能买到还带网卡 并不是笔记本,不符合楼主要求的轻便。 skywing: 但是这货背出门太沉了
内存带宽太小了,这个产品不平衡
dgx现在都没啥人买,如果要买的话直接买华硕技嘉第三方的还便宜,这东西只能当玩具,基本上跟amd 395 128g坐一桌
为啥不能比显存小? Mac 的ARM CPU应对某些编译时还是会有兼容性问题的。。。
m5 max的prefill不行 虽然已经大大的改善了 context window上去以后基本用不了 如果缓存没命中的话 那简直就是 读需要几分钟 你受得了吗? 说实话我觉得最靠谱的就是双卡3090 真没别的选择 这些同意内存可以读大模型 但是基本就是玩具 根本用不了 小模型又不需要他们 双卡3090 不管pp tg都块 48G也能吃下来 qwen3.6-27b这种
自己微调吗……感觉不如需要的时候租服务器微调,然后拉下来本地 inference. 为了微调要考虑的事情比纯推理多很多吧。
我研究过,要高性价比有这么几个选择 A100,比2080还老一代,缺bf16,然后接口是sxm需要转接板啥的,一套下来没有便宜很多,而且驱动很折腾 2080ti 22g,同样没有bf16,新模型不好跑 3080 20g,这个比较甜点,有涡轮卡也有三风扇的,三风扇的我觉得不错,我主机放不下所以没买 3090 <-我最后选了这个,但是性价比不如3080,3080 20g用一半的价格实现了90%的性能 下面这些比较贵 4090 48G,太贵 但感觉也还不错 pro6000,个人一步到位,买了再卖也亏不了多少其实 H100或者H200,也有PCIe版本可以自己用,但是这个过于高端了,不是专业的估计用不上 再高级的B200就没有PCIe了,都是八卡一起卖的,个人买不起,买得起也没地方放
大内存的M* Max, 14寸即可,便携小钢炮,没人会用它来训练,但是拿它来虚拟别的系统,真的太香了
最后组成是什么样的?CPU 显卡 内存
我放在mac pro 2019里了,配置我都没动,96g内存然后cpu打不过现在的m2。其实cpu内存一般不构成瓶颈,没什么太大所谓
为什么会麻烦?写个脚本,集群太大还可以自动化配置。
3090 + NVLINK成本也不低吧,多卡不管 vram 还是 computation overhead肯定比单卡大。还是直接上PRO 6000吧,算力比4卡3090多太多太多了。而且blackwell有fp8,等同于能直接多一倍的显存容量
同意 3090 nvlink甚至打不过4090
不过新的 Pro 6000 要考虑兼容性,老平台兼容有点差,买主板的时候注意一下。
96GB显存其实刚刚好,能跑qwen3 27b fp16
商白戴尔5000-1000这不用上了
我当时前几批 $2000 买了 framework desktop 128G 现在已经涨价到 $3000 了。慢就慢点了。
就是这样打算的
话说显卡是不是可以雷电外接mac,不需要专门组台式机,这样是不是大内存mac也不浪费,不需要给显卡专门配内存了
4月底放出来的128gb 内存,借个military discount还有10% /uploads/short-url/5n0fuxLmWiNT8jqypnaxHiM7gsq.jpeg?dl=1
这得至少 $10K 了吧 我也想买,但这种价格真不如按小时租 H100
之前512G的U3都不止10k