泥潭日报 uscardforum · 每日精选

Anthropic 跟 SpaceXAI(前 xAI)达成协议,使用 Colossus 1 数据中心为自家服务提供算力

内容摘要

Anthropic租用Colossus 1全部算力,xAI保留同构集群训练,混合架构租赁为IPO铺路。

1. 关键信息

  • Anthropic与SpaceXAI(前xAI)达成协议,租用田纳西州孟菲斯Colossus 1数据中心全部算力容量,涉及超过300兆瓦(MW)计算能力(#1)。
  • 双方未来有意在太空开发数吉瓦(GW)级别算力(#1)。
  • Anthropic宣布提高Claude使用限制:Pro、Max、Team、Enterprise计划的Claude Code五小时rate limit翻倍,并取消高峰时段限制(#3)。
  • 有用户反映limit重置异常,部分人提前清空但未重置(#2, #4, #5)。
  • 评论认为Grok研发人员流失,算力需求下降(#14)。
  • xAI被曝GPU利用率仅约11%,训练已转移至“巨硬2号”数据中心(#27);多名创始人级别员工放弃股权离职,被解读为放弃模型自研的标志(#25, #27)。
  • 有观点认为xAI可能转型为数据中心出租业务(#26)。
  • 用户普遍认为xAI不算AI“御三家”,地位远不及OpenAI和Anthropic,甚至不如Gemini(#29, #32, #35, #36, #37)。
  • 有用户指出xAI核心研发大量流失,算力空闲严重,合作是算力出租的必然结果(#30)。
  • 有用户认为xAI闭源且跑不过DeepSeek,没有商业价值(#32)。
  • 用户抱怨xAI产品(如Grok)功能落后,不支持放歌,唤醒词rollout慢,不如Siri(#34)。
  • 有用户引用offer帖子,称xAI流动性最好、收入最高,但Anthropic和OpenAI流动性差(#38, #41)。
  • 用户讨论Claude 4.6/4.7/5.5模型:4.7比4.6笨,5.5 reasoning烧token快、context window小、instruction following和toolcalling仍有问题(#42, #43, #44, #46, #47, #49)。
  • 部分用户从CLI转向VSCode,认为CLI不方便看reasoning和tool call细节,容易变成低端用户(#51, #53, #54)。
  • 新讨论:用户推荐使用Claude/Codex Desktop等GUI工具,理由是可以同时开10多个session,而CLI同时3个就看不过来;CLI只适合script和headless job(#55)。
  • 新讨论:部分用户坚持用nvim+tmux古法编程,认为IDE只是看diff机器,不需要花里胡哨功能(#57)。
  • 新讨论:Mac的Codex app内置了类似OpenClaw的cron job和memory.md,用户现在用Zed作为IDE,只看diff(#58)。
  • 新增#59:用户指出Grok大部分流量来自X的fact check,高级会员后流量降90%;Grok路子不对,除了黄文黄土外几乎没人用;Musk执行力强但算力利用率不到5%;Anthropic算力不够只能降智;双方曾因封Grok用Claude code交恶,Musk想买落伍产品但未完成;现在合作后若无Illya等人物加入,Grok可能死亡,Musk转向提供算力(含太空算力)。
  • 新增#60:用户感叹认真的人越来越少。
  • 新增#62:未来资本调研详细分析Colossus 1租赁的财务逻辑:xAI拥有约55万片H100等效算力,Colossus 1(22万片)仅占40%,Colossus 2(全Blackwell)已运营并持续扩展;Musk保留同构Blackwell集群用于自研,将混合架构(H100/H200/GB200)的Colossus 1租给Anthropic做推理;混合架构在训练时MFU仅11%,但推理任务对异构性容忍度高,单租户消除网络抖动,租赁价格约$2.60/GPU-hour,年收入可达50-60亿美元,几乎对冲xAI年亏损60亿美元,为SpaceXAI IPO(估值1.75万亿美元,最早6月)铺路;详细对比H100(Hopper)与GB200(Blackwell)硬件差异:H100独立GPU、80GB HBM3、依赖InfiniBand;GB200为Superchip(2 GPU+1 Grace CPU,900GB/s C2C)、液冷NVL72机柜、HBM3e、FP4精度推理快30倍;软件差异:混合集群因显存不匹配、算力木桶效应、通信库代差(NVLink 4 vs 5)导致并行策略断层,需重写算子优化代码,极难实现。
  • 新增#63:用户@收束观测者引述业内媒体汇总,指出xAI实际GPU组成为H100约150,000、H200约50,000、GB200约30,000(部分报道)。H100同构集群已足够顶级模型预训练,混合架构不成立的假设是外行想象,不同型号卡可分别用于不同任务。
  • 新增#65:用户引述工程师说法,详细解释混合集群分布式训练灾难:straggler effect(慢卡拖累全集群)、NCCL ring topology在100K规模下延迟严重、Blackwell GB200“power smoothing”导致芯片熔化,xAI软件栈为Hopper优化无法适应,需重写。
  • 新增#66:用户反驳#65,指出H100完全可以scale到100K以上(历史上已在10K+训练),ring topology问题有各种优化(如树形allreduce),且拼命追赶时效率低也得用。
  • 新增#67:用户指出xAI有Hopper GPU,Anthropic当前模型主要用Hopper训练,适合用于推理;xAI大概率会用GB200/300做训练,释放闲置Hopper算力。
  • 新增#68:用户感叹还是当地主赚钱。
  • 新增#69:用户用AI总结xAI问题,结论稍好但仍不乐观,若xAI软件栈真能解决异构训练,一堆牛人不会放弃期权。
  • 新增#70:用户指出100K训练不需要频繁global collective,有多种优化避免瓶颈。
  • 新增#71:用户@otonoco: 后北条和德川家康冲了。

2. 羊毛/优惠信息

3. 最新动态

  • Anthropic即日起生效:Claude Code五小时rate limit翻倍,Pro/Max账户取消高峰时段限制(#3)。
  • 用户反馈实际使用中limit重置出现bug,部分人未重置但能继续使用(#2, #5)。
  • Bloomberg报道Musk曾考虑向Altman提供Tesla董事会席位(#24),暗示OpenAI与xAI的恩怨。
  • xAI被指仅利用11%的NVIDIA GPU,而Meta等公司利用率可达40%+(#27, #28),但部分评论认为该指标可能指MFU而非空闲率(#28)。
  • 用户普遍认为xAI不算AI御三家,地位远不及OpenAI和Anthropic,甚至不如Gemini(#29, #32, #35, #36, #37)。
  • 用户讨论Claude模型版本差异,4.7比4.6笨,5.5 reasoning烧token快、context window小、instruction following和toolcalling仍有问题(#42, #43, #44, #46, #47, #49)。
  • 新增#71:用户@otonoco: 后北条和德川家康冲了。

4. 争议或不同意见

  • 混合集群训练可行性:部分用户认为混合架构(H100/H200/GB200)在训练时MFU仅11%,straggler effect和通信库代差导致灾难性效率损失(#62, #65);另一部分用户认为不同型号卡可分别用于不同任务,H100同构集群已足够预训练,混合架构不成立的假设是外行想象(#63, #67)。
  • xAI GPU利用率:有用户引用数据称xAI GPU利用率仅11%(#27),但部分评论认为该指标可能指MFU而非空闲率(#28)。
  • xAI地位:多数用户认为xAI不算AI御三家,远不及OpenAI和Anthropic,甚至不如Gemini(#29, #32, #35, #36, #37);但也有用户指出xAI流动性最好、收入最高(#38, #41)。
  • Claude模型表现:用户对4.6/4.7/5.5版本评价不一,4.7被认为比4.6笨,5.5 reasoning烧token快、context window小、instruction following和toolcalling仍有问题(#42, #43, #44, #46, #47, #49)。

5. 行动建议

  • 关注Colossus 1租赁对Anthropic推理能力提升的影响,可能改善Claude降智问题(#59)。
  • 注意Claude Code rate limit翻倍后的实际使用体验,如有bug可向官方反馈(#2, #5)。
  • 关注SpaceXAI IPO进展(最早6月,估值1.75万亿美元),可能带来算力租赁市场格局变化(#
原始内容
--- 第 1 楼来自 privater 的回复 (2026-05-06 14:02:35 PDT) ---

https://x.ai/news/anthropic-compute-partnership https://x.ai/news/anthropic-compute-partnership xAI builds Grok, an AI chatbot with voice chat, image and video generation, real-time search, and advanced reasoning. Try Grok at grok.com. 独占算力资源 :Anthropic 将租用位于田纳西州孟菲斯的 Colossus 1 数据中心 的全部算力容量。 算力规模 :该协议涉及超过 300 兆瓦 (MW) 的计算能力,旨在提升 Claude Pro 和 Claude Max 订阅用户的服务性能和稳定性。 太空愿景 :双方还表达了未来在 太空开发数吉瓦 (GW) 级别算力 的合作兴趣。 /uploads/short-url/2j4PZba9FU2SYYB7Q7cUi6nRAm0.jpeg?dl=1

--- 第 2 楼来自 Hali 的回复 (2026-05-06 14:03:35 PDT) ---

能解释下今天为什么100%limit了我还能继续跑几个小时吗 他也不给我reset 但我就继续好好的用着

--- 第 3 楼来自 privater 的回复 (2026-05-06 14:05:28 PDT) ---

https://www.anthropic.com/news/higher-limits-spacex https://www.anthropic.com/news/higher-limits-spacex We’ve raised Claude's usage limits and agreed a new compute partnership with SpaceX that will substantially increase our capacity in the near term. 正在调整,目前的消息是 Anthropic 会 double plan limit Higher usage limits The following three changes—all effective today—are aimed at improving the experience of using Claude for our most dedicated customers. First, we’re doubling Claude Code’s five-hour rate limits for Pro, Max, Team, and seat-based Enterprise plans. Second, we’re removing the peak hours limit reduction on Claude Code for Pro and Max accounts. 其实从年初开始他就在搞各种小动作暗中缩流量,也借着每次新模型刷版本号的时候涨价/增加 token 消耗,现在有新的服务器,也怕被 class action,正好借坡下驴恢复到去年底的水平罢了。

--- 第 4 楼来自 Kanee 的回复 (2026-05-06 14:05:49 PDT) ---

应该出bug了?我的week limit提前清空了,但还是显示明天reset

--- 第 5 楼来自 Hali 的回复 (2026-05-06 14:07:05 PDT) ---

我看x有人给reset了 但不是所有人 奇了怪了 先用着吧 两天够用了 每次reset前一两天用完了 给我全部人reset 搞得我得猛猛用一两天 累死我了

--- 第 6 楼来自 skyblu 的回复 (2026-05-06 14:18:00 PDT) ---

只double 5h weekly还是一样的

--- 第 7 楼来自 jzcracker 的回复 (2026-05-06 14:21:43 PDT) ---

阿龙要做hyperscaler

--- 第 8 楼来自 sukasky 的回复 (2026-05-06 14:37:31 PDT) ---

敌人的敌人就是朋友?

--- 第 9 楼来自 Hein 的回复 (2026-05-06 14:47:20 PDT) ---

5h 翻倍感觉可以换回20刀的了

--- 第 10 楼来自 nkc 的回复 (2026-05-06 14:50:45 PDT) ---

privater: 全部算力 那grok用什么跑

--- 第 11 楼来自 dddd120 的回复 (2026-05-06 14:54:19 PDT) ---

有何机会?

--- 第 12 楼来自 otonoco 的回复 (2026-05-06 14:54:36 PDT) ---

这玩意除了用来写黄雯之外毫无用处

--- 第 13 楼来自 Ss004 的回复 (2026-05-06 15:03:18 PDT) ---

谁也不能和钱过不去啊 /uploads/short-url/rVkO2dYsxJGXXnoaIvbfRyOveSP.jpeg?dl=1

--- 第 14 楼来自 privater 的回复 (2026-05-06 15:04:44 PDT) ---

Grok 最卷的研发都跑光了,还需要跑个锤子

--- 第 15 楼来自 mengyu202 的回复 (2026-05-06 15:14:35 PDT) ---

既然在泥潭发:有无发财/羊毛机会?

--- 第 16 楼来自 l1nv3ga 的回复 (2026-05-06 15:23:36 PDT) ---

privater: 300 兆瓦 (MW) 的计算能力 不记得是谁开的头,但用耗电量而非Flops来衡量算力多少有点本末倒置了。

--- 第 17 楼来自 dddd120 的回复 (2026-05-06 15:26:41 PDT) ---

我看到用瓦数来衡量的时候还以为CPU/GPU发展到头了

--- 第 18 楼来自 privater 的回复 (2026-05-06 15:28:02 PDT) ---

SpaceX + A\ 同时 A\ 标示出对太空数据中心的浓厚兴趣 SpaceX 已经和 Tesla 卿卿我我 所以买 tsla 就是买 A\ /uploads/short-url/lbXOOWqJSIxDVD5crVPQ0ZLZDS7.jpeg?dl=1

--- 第 19 楼来自 dddd120 的回复 (2026-05-06 15:33:41 PDT) ---

tear-fab 血汗工厂吗?

--- 第 20 楼来自 收束观测者 的回复 (2026-05-06 15:37:27 PDT) ---

感慨 第二梯队开始出局了

--- 第 21 楼来自 dddd120 的回复 (2026-05-06 15:41:55 PDT) ---

没出局呀,不是马上捆绑上市收割起来

--- 第 22 楼来自 Ss004 的回复 (2026-05-06 15:51:04 PDT) ---

/uploads/short-url/asAT7S8eudR1XLDZbamxdQAtUAN.jpeg?dl=1

--- 第 23 楼来自 privater 的回复 (2026-05-06 15:55:38 PDT) ---

屮,突然觉得 Hux 跟马一龙很像 /uploads/short-url/bbrucM5WHcQIA40JicDzVboVWFO.jpeg?dl=1

--- 第 24 楼来自 Ss004 的回复 (2026-05-06 16:02:06 PDT) ---

这故事越看越狗血,兄弟反目 https://www.bloomberg.com/news/articles/2026-05-06/musk-weighed-offering-altman-tesla-board-seat-openai-jury-told

--- 第 25 楼来自 收束观测者 的回复 (2026-05-06 16:03:24 PDT) ---

出局了,这是xAI放弃模型自研的标志 还在Race里不可能把算力租给A

--- 第 26 楼来自 dddd120 的回复 (2026-05-06 16:05:23 PDT) ---

也算是另辟蹊径,以后做数据中心出租业务 类似于那个卖鞋的公司

--- 第 27 楼来自 Ss004 的回复 (2026-05-06 16:14:50 PDT) ---

今天传他们巨硬1号只有11%利用率,xAi不承认他们放弃,他们把训练都推到巨硬2号了。但xAI那么多founder级别的大神股权都不要了,也应该能说明点什么吧。 https://wccftech.com/xai-using-just-11-percent-gpus-while-meta-google-squeeze-out-much-more/ https://wccftech.com/xai-using-just-11-percent-gpus-while-meta-google-squeeze-out-much-more/ xAI is reportedly able to utilize just over 10% of its entire NVIDIA GPU fleet, as report suggests lackluster AI software stack optimizations. Est. reading time: 3 minutes

--- 第 28 楼来自 收束观测者 的回复 (2026-05-06 16:17:55 PDT) ---

这个utitlization可能谈的是比较底层的东西 类似于MFU,因为文章号称和meta也只有40%+ 不是说服务器空闲没在跑

--- 第 29 楼来自 otonoco 的回复 (2026-05-06 19:18:31 PDT) ---

说句实话 xai算个锤子御三家 如果oai 是 奉承秀吉 anthro 是 德川家康 xai 没有毛利辉元或者前田利家的level 最多算个预喜多秀家吧

--- 第 30 楼来自 katrix 的回复 (2026-05-06 19:24:27 PDT) ---

核心研发跑了很多,前几天新闻说grok大量算力空闲,好像才10%左右的利用率,考虑算力出租,结果立刻就出了这个合作

--- 第 31 楼来自 katrix 的回复 (2026-05-06 19:27:28 PDT) ---

我还以为御三家是Gemini,没想到你们说的都是grok

--- 第 32 楼来自 AWS 的回复 (2026-05-06 19:35:04 PDT) ---

闭源还跑不过deepseek没有商业价值

--- 第 33 楼来自 AWS 的回复 (2026-05-06 19:35:25 PDT) ---

我也以为是

--- 第 34 楼来自 venusgun 的回复 (2026-05-06 19:36:39 PDT) ---

这不还有Tesla捆绑 啥时候能上个好用点的,人家都agentic了现在才开始rollout wakeword hey grok。而且居然不支持放歌还得用垃圾voice command,还不如Siri好用

--- 第 35 楼来自 收束观测者 的回复 (2026-05-06 19:47:31 PDT) ---

我从没听过御三家有grok的版本

--- 第 36 楼来自 up9080 的回复 (2026-05-06 19:55:55 PDT) ---

御三家一直以来的版本都是 oai/人类学/xai 啊,G 家是去年 Gemini+nanoBanana 出圈后才慢慢赶上来的。

--- 第 37 楼来自 otonoco 的回复 (2026-05-06 19:58:47 PDT) ---

katrix: Gemini 伊达政宗 早生五十年还有点一统天下的机会 可惜生不得

--- 第 38 楼来自 up9080 的回复 (2026-05-06 20:00:20 PDT) ---

随便找了个帖子: https://www.1point3acres.com/bbs/thread-1150700-1-1.html 分享一下AI御三家offer的equity liquidity package大小:xAI > Ant >> OAI 流动性最好的应该是xAI,最差的应该是人类学,OAI居中。在不考虑未来增长和上市的情况下,综合判断收入应该是xAI > OAI > Ant。.

--- 第 39 楼来自 Ava.太太太后 的回复 (2026-05-06 20:01:24 PDT) ---

我之前看 Colossus 那些报道也有点懵,感觉现在都不太讲模型多聪明了,先拼谁手里电和卡够多,最后还是算力军备赛,挺现实的。

--- 第 40 楼来自 LeoQ8 的回复 (2026-05-06 20:02:29 PDT) ---

早就不是拼模型的时候了,想搞拼迭代速度了

--- 第 41 楼来自 sukasky 的回复 (2026-05-06 20:07:09 PDT) ---

startup流动性太好也真是把双刃剑.. 现在a和o都不怎么有流动性了

--- 第 42 楼来自 Jasz 的回复 (2026-05-06 20:10:56 PDT) ---

4.6 的时候都用不完 现在4.7 一下子就用完了 打算倒戈codex了 而且claude 也变蠢了好多

--- 第 43 楼来自 skyblu 的回复 (2026-05-06 20:12:03 PDT) ---

用回去就行了 4.7比4.6笨 当然5.5xhigh 全秒了

--- 第 44 楼来自 Jasz 的回复 (2026-05-06 20:14:04 PDT) ---

4.6 和 4.7 都一样 5个小时 max 的 2 个小时就用完 之前还是怎么都用不完 太气人

--- 第 45 楼来自 国泰Pacific 的回复 (2026-05-06 20:21:59 PDT) ---

依旧左脚踩右脚

--- 第 46 楼来自 收束观测者 的回复 (2026-05-06 20:34:08 PDT) ---

xhigh的reasoning烧token量简直发指 出结果慢也就算了,context window一两轮就没了导致频繁compact变成智障

--- 第 47 楼来自 skyblu 的回复 (2026-05-06 20:42:19 PDT) ---

是的 急需放开1m context 说是working on it也不知道要多久

--- 第 48 楼来自 sukasky 的回复 (2026-05-06 20:43:09 PDT) ---

我codex烧得也很快啊…

--- 第 49 楼来自 收束观测者 的回复 (2026-05-06 20:44:47 PDT) ---

5.5我现在都是用high 但是instruction following和toolcalling还是有问题 当然不排除是vscode的适配问题 但是总体来说vscode还是只能主力opus,gpt只能放进subagent

--- 第 50 楼来自 skyblu 的回复 (2026-05-06 20:46:10 PDT) ---

为啥不直接codex/cc或者opencode

--- 第 51 楼来自 收束观测者 的回复 (2026-05-06 20:48:11 PDT) ---

公司的订阅是copilot 我不喜欢CLI两个原因 不能很方便地看reasoning和tool call细节 看生成的代码不方便,会鼓励人懒惰完全不去看 前者影响更大 对模型执行细节了解越少就越是单纯地变成AI的低端用户

--- 第 52 楼来自 skyblu 的回复 (2026-05-06 20:52:15 PDT) ---

opencode可以看到全部 而且如果opus gpt混着用非常好使

--- 第 53 楼来自 收束观测者 的回复 (2026-05-06 20:53:48 PDT) ---

CLI可以看但是和GUI比很不方便 古法编程时代好歹我也是VIM党,但是真的有差距 另外用第三方CLI接copilot的sub可能有T&C问题 自用另说工作肯定不能乱来 vscode也是混着用的

--- 第 54 楼来自 LeoQ8 的回复 (2026-05-06 21:54:20 PDT) ---

以前我也是neovim各种自定义搞的花里胡哨。一开始AI出来的时候还是用neovim的copilot lua plugin。后面彻底被淘汰了,直接vscode

--- 第 55 楼来自 niming2 的回复 (2026-05-06 22:53:09 PDT) ---

为什么不用claude/codex desktop?同意gui更方便,我用gui可以同时10多个session,用cli同时3个就看不过来了。。。cli只用在script和headless job里。

--- 第 56 楼来自 lijunle 的回复 (2026-05-07 01:49:35 PDT) ---

因为他是 copilot,没有GUI 收束观测者: 不能很方便地看reasoning和tool call细节 看生成的代码不方便,会鼓励人懒惰完全不去看 让他单独生成MD,不看中间 reasoning code的话,公司代码还是要看的,side project 就 who care

--- 第 57 楼来自 skyblu 的回复 (2026-05-07 06:29:00 PDT) ---

只用nvim的古法编程党哭了 主要是我从来不把他当IDE看待 外加vim+tmux切session也很丝滑

--- 第 58 楼来自 Onvon 的回复 (2026-05-07 06:44:24 PDT) ---

Mac的codex app挺好用的 甚至内置了类似openclaw的cron job和memory.md 我现在ide用的是zed 反正ide现在就是个看diff机器 不需要太多花里胡哨的功能 性能好就行了

--- 第 59 楼来自 哪是哪呀 的回复 (2026-05-07 07:10:14 PDT) ---

本来Grok一大半流量在X的fact check,这个需要高级会员后流量降了90%, grok明显走的路子不对,除了黄雯和黄土外,几乎没什么人用,Musk倒是执行力超强,算力足够,现在连5%都用不上。刚好人类学没想到涨那么快,算力不够了,只能降智。前段时间双方交恶主要是封了grok用Claude code,这下Grok的人不知道怎么编程了,逼得Musk想买那个早落伍的什么…,但是否能finish就不知道了。现在双方一拍即合,在没有明显能扭转战局的人物加入,例如illya之类的,Grok就算死了。Musk转向提供算力,特别是想象中的太空算力。

--- 第 60 楼来自 Ss004 的回复 (2026-05-07 09:45:07 PDT) ---

收束观测者: 自用另说工作肯定不能乱来 感觉认真的人越来越少

--- 第 62 楼来自 Ss004 的回复 (2026-05-09 05:29:14 PDT) ---

看了未来资本一篇调研,这个动作可能更多是财务的考虑 Homogeneous cluster. Colossus 1, on the other hand — whose mixed architecture is far less crippling for inference, which parallelizes more forgivingly — was leased in its entirety to an Anthropic that desperately needed inference capacity. Many observers point to what looks like a contradiction: Elon Musk poured enormous capital into building Colossus, only to hand the core asset over to a direct competitor in Anthropic. Others read it as xAI capitulating because it is a “middling frontier lab.” But these are surface-level reads. Look at the numbers and a different picture emerges. xAI today holds roughly 550,000+ GPUs in total (on an H100-equivalent performance basis), and Colossus 1 (220,000 units) accounts for only about 40% of the total available capacity. Colossus 2 — built entirely on Blackwell — is already operational and continuing to expand. Elon kept the all-Blackwell homogeneous cluster (Colossus 2) for himself and leased out the older, mixed-generation Colossus 1. In other words, he handed the pain of rewriting the stack — the MFU-11% debacle — to Anthropic, while keeping his own focus on training the next generation of models. The real point, then, is this. Elon’s objective appears to be positioning ahead of the SpaceXAI IPO at a $1.75 trillion valuation, currently floated for as early as June. The narrative SpaceXAI now needs is that xAI — long the “sore finger” — is not merely a research lab burning cash, but a business with a “neo-cloud” model in the mold of AWS, capable of leasing surplus assets at high yields. From a cost-of-capital perspective, an “AGI cash incinerator” is far less attractive to investors than a “data-center landlord generating cash.” As noted above, the most important detail of the Colossus 1 lease is that it is for inference, not training. Unlike training, inference requires far less tightly synchronized inter-GPU communication. Even when the chips are heterogeneous, the workload parcels out cleanly across them in parallel. The straggler effect — the chief weakness of a mixed cluster — is essentially neutralized for inference workloads. Furthermore, with Anthropic occupying all 220,000 GPUs as a single tenant, the network-switch jitter (unanticipated latency) that arises under multi-tenancy disappears. The two sides’ technical weaknesses end up complementing each other almost exactly. One insight follows. As a training cluster mixing H100/H200/GB200, Colossus 1 was an asset that could only deliver an MFU of 11%. The moment it was handed over to a single inference customer, however, that asset transformed into a cash-flow asset rented out at roughly $2.60 per GPU-hour (a weighted average of the lease rates across GPU types). For xAI, what was a “cluster from hell” for training has become a “golden goose” minting $5–6 billion in annual revenue when redeployed for inference. Elon’s genius, I would argue, lies not in the model but in this asset-rotation structure. The weight of that $6 billion becomes clearer when set against xAI’s income statement. Annualizing xAI’s 1Q26 net loss yields roughly $6 billion in losses per year. The $5–6 billion in annual revenue generated by leasing Colossus 1 to Anthropic, in other words, almost perfectly hedges xAI’s loss figure. This single deal effectively pulls xAI to break-even. Heading into the SpaceXAI IPO, this functions as a core line of financial defense. From a cost-of-capital standpoint, if the image shifts from “research lab burning cash” to 这篇文章分析了 Elon Musk 将 Colossus 1 集群租赁给竞争对手 Anthropic 这一举动背后的深层商业逻辑。其核心观点是:这并非“投降”,而是一次极高明的资产周转与财务对冲。 以下是内容的要点总结: 资产置换:变废为宝 Colossus 1 的软肋:由于采用了 H100/H200/GB200 的混合架构(Mixed Architecture),在进行大模型训练时,GPU 间的同步效率极低,模型计算利用率(MFU)仅为 11%。对于 xAI 而言,它是训练效率极低的“地狱集群”。 推理性租赁:推理(Inference)对集群同构性的要求远低于训练。通过将其整体租给急需推理算力的 Anthropic,原本在训练中致命的“掉队者效应”和网络延迟问题在推理任务中被抵消。 核心战略:保住“最强算力” xAI 的底牌:Elon Musk 并未交出全部家当。xAI 目前拥有约 55 万片 H100 等效算力,Colossus 1 仅占 40%。 详细一点,说明h100 gb200的区别,和软件上面的差异 要理解 Colossus 1 的“地狱模式”与 Colossus 2 的高效,核心在于 H100(Hopper) 与 GB200(Blackwell) 在底层架构、通信协议以及软件适配上的巨大代差。 硬件架构:从“计算卡”到“超级芯片” H100 (Hopper) H100 是标准的独立 GPU。它通过 PCIe 插槽或 SXM 板卡连接。 核心构成:单颗 GPU 芯片,显存(HBM3)上限通常为 80GB。 通信限制:虽然 NVLink 提供卡间互联,但在跨机柜通信时,严重依赖传统的 InfiniBand 网络。当规模达到数万张卡时,网络延迟和拥塞成为瓶颈。 GB200 (Blackwell) GB200 不再只是一个“显卡”,它被称为 Superchip。 核心构成:它将 2 颗 Blackwell GPU 与 1 颗 Grace CPU 通过 900GB/s 的超高带宽(C2C)直接封装在一起。 液冷设计:GB200 专门为液冷机柜设计,单机柜(如 NVL72)可以提供 72 颗 GPU,它们在逻辑上表现为一颗巨大的虚拟 GPU。 显存飞跃:Blackwell 架构支持 HBM3e,带宽大幅提升,且原生支持 FP4 精度,这使得它在处理同等规模的模型时,推理速度比 H100 快 30 倍。 软件层面的差异:为什么混合架构是“灾难”? 软件层面的差异是导致 Colossus 1 训练利用率(MFU)仅有 11% 的根本原因。 并行策略的断层 (Parallelism) 大模型训练依赖于几种并行技术:张量并行 (TP)、流水线并行 (PP) 和 数据并行 (DP)。 同构集群 (Colossus 2):所有 GPU 的显存大小、算力、通信延迟完全一致。软件可以像“切蛋糕”一样,把模型均匀切分。 混合集群 (Colossus 1): 显存不匹配:H100 是 80GB,GB200 显存更大。软件必须以“最小显存”为准,否则会导致显存溢出,造成资源浪费。 算力木桶效应:训练是同步的,GB200 计算速度快,但在等待 H100 完成它的那部分计算之前,GB200 只能“空转”。这就是所谓的Straggler Effect(掉队者效应)。 软件栈的重写压力 算子优化:Nvidia 为 Blackwell 推出了全新的 Transformer Engine 2.0,支持 FP4 精度。如果要让混合集群协同工作,程序员必须编写极其复杂的代码,让系统能够动态识别任务分发给 H100(使用 FP8)还是 GB200(使用 FP4),这在目前的主流框架(如 PyTorch)中极难实现。 通信库差异:GB200 使用的是第五代 NVLink 和全新的 NVLink Switch,其协议与 H100 的第四代存在代差。混合使用就像是让 5G 网络和 3G 网络强行合并,整体速度会被拖慢到 3G 的水平。

--- 第 63 楼来自 收束观测者 的回复 (2026-05-09 08:28:33 PDT) ---

Ss004: 由于采用了 H100/H200/GB200 的混合架构 不成立的 比较可信的当前结构(业内媒体汇总)是: GPU型号 大致数量 H100 ~150,000 H200 ~50,000 GB200 ~30,000(部分报道) 150K的H100已经是非常可怕的数量了,就这一部分同构的拿来做顶级模型的pretraining绰绰有余 剩下的可以单独拿来做各种不同的用法 一个DC里有什么卡就得全部一起同时用在同一件事上是非常外行的想象

--- 第 64 楼来自 bujidao 的回复 (2026-05-09 08:36:05 PDT) ---

伊达不太行 太偏远了 换北条吧

--- 第 65 楼来自 Ss004 的回复 (2026-05-09 08:37:59 PDT) ---

多谢大佬解惑,这三条是不成立的么,请问是为什么? For distributed training, however, this configuration is close to a disaster, according to engineers familiar with the setup. In distributed training, 100,000 GPUs must finish a single step simultaneously before the cluster can advance to the next one. Even if the GB200s finish their computation first, the remaining 99,999 chips have to wait for the slower H100s — or for any GPU that has hit a stack-related snag — to catch up. This is known as the straggler effect. The problem runs deeper still. As discussed earlier, NVIDIA’s NCCL has traditionally been optimized for a ring topology. It works beautifully at the 1,000–10,000 GPU scale, but once you push into the 100,000-unit range, the latency of data traversing the ring once around becomes punishingly long. Layer Blackwell’s (GB200) “power smoothing” issue on top, and the picture comes into focus. According to Zeeshan Patel, formerly in charge of multimodal pre-training at xAI, Blackwell GPUs draw power so aggressively that the chip itself includes a hardware feature for smoothing power delivery. xAI’s existing software stack, however, was optimized for Hopper and does not understand the characteristics of the new hardware; when it imposes irregular loads on the chip, the silicon physically destructs — literally melts. That means the modeling stack must be rewritten from scratch, which in turn means scaling is far harder than most of us imagine.

--- 第 66 楼来自 收束观测者 的回复 (2026-05-09 08:40:34 PDT) ---

Ss004: The problem runs deeper still. As discussed earlier, NVIDIA’s NCCL has traditionally been optimized for a ring topology. It works beautifully at the 1,000–10,000 GPU scale, but once you push into the 100,000-unit range, the latency of data traversing the ring once around becomes punishingly long. 这句话等于说H100不能scale到10K以上 显然是BS,没GB200的时代大家就不训练超大模型了? 说到底,拼命stay in the race的时候有什么用什么,效率再低也得用 考虑成本这件事本身就是在权衡要不要放弃

--- 第 67 楼来自 Nvidia 的回复 (2026-05-09 08:48:22 PDT) ---

xAI has hopper gpus. Anthropic’s current model was trained mostly on hopper architecture, it’s good for Anthropic use those for inference. I guess xAI will use GB200/300 for training while release those spare capacity.

--- 第 68 楼来自 jorgenson 的回复 (2026-05-09 08:49:12 PDT) ---

还是当地主赚钱啊

--- 第 69 楼来自 Ss004 的回复 (2026-05-09 08:51:17 PDT) ---

我找AI问了一下,大概是这么说的: /uploads/short-url/eg7KU3S0hvZ28MD4JPGicEAy7FT.png?dl=1 /uploads/short-url/cGWb5fPVsC1F3QNffyXTLCx1gvm.png?dl=1 结论可能稍好点,但xai如果行的话,一堆牛人估计也不会放手期权了

--- 第 70 楼来自 收束观测者 的回复 (2026-05-09 08:53:42 PDT) ---

100K的训练也不需要频繁global collective的 都是有各种优化的

--- 第 71 楼来自 otonoco 的回复 (2026-05-09 16:59:18 PDT) ---

后北条和德川家康冲了