泥潭日报 uscardforum · 内容汇总

Anthropic 跟 SpaceXAI(前 xAI)达成协议,使用 Colossus 1 数据中心为自家服务提供算力

内容摘要

Meta AI转型受挫引争议,社区热议其模型竞争力与开源前景

1. 关键信息

  • Anthropic与xAI算力协议:Anthropic与SpaceX旗下xAI达成协议,使用Colossus 1数据中心提供算力。Anthropic占据大头(42%),Google占14%,其余部分流向其他客户或预留(#98, #99)。
  • Meta AI转型策略调整:Meta CEO Zuckerberg承认AI转型失误,计划限制团队扩张、最小化组织变动,并为重新分配至AI模型训练的员工寻找新角色,同时增加团队建设预算(#101)。

2. 争议与不同意见

  • Meta内部管理混乱质疑:用户强烈批评Meta在转型过程中采取“全公司抓壮丁”的方式,制造内部混乱。有用户讽刺所谓的“new roles”不过是变相裁员或鱿鱼游戏配额(#106, #108)。
  • Meta模型竞争力讨论:社区对Meta能否做出大模型存在分歧。部分用户认为Meta具备数据、算力和开源算法优势,有望超越中国一众LLM;但也有用户质疑其为何做不出确切能成功的大模型,并指出其闭源聊天类开源Dense大模型(如Llama系列)虽曾领先,但因版本迭代失误(“4拉了坨大的”)已掉队,且未赶上Agentic风潮(#109, #110, #111)。
  • xAI估值与资本运作争议:社区普遍认为此次协议是SpaceX在IPO前的“做账”行为,旨在美化财报。Google作为SpaceX早期投资者,通过高价承接算力被视为利益输送或为马斯克企业背书(#84, #89, #96, #99)。

3. 最新动态

  • Grok用户流失加剧:因竞争力不足,Grok模型用户大量迁移至DeepSeek V4等更具性价比且限制较少的API服务,特别是在NSFW内容生成领域(#90, #92, #93)。
  • Claude Code体验波动:Anthropic在获得算力后优化了Rate Limit,但近期版本出现推理耗token快、上下文窗口小及指令遵循缺陷等问题。

4. 经验与数据点

  • 模型选型建议
    • DeepSeek V4:因低价、易突破限制且API无内容审核,成为敏感内容生成和“破甲”场景的首选(#92)。
    • GLM/Claude:分别在中文和英文特定场景中保持用户粘性。
    • Meta模型前景:有用户看好Meta在数据收集方向的优势,认为结合中国开源算法与Meta算力,仍有可能搞出超越国内一众LLM的产品(#110)。

5. 闲聊脉络

  • 对Musk资本运作的调侃:用户继续将SpaceX的算力租赁模式比喻为“收租”,认为马斯克通过出租基础设施而非单纯销售模型来获利,是精明的资本运作手段。历史典故被用于映射xAI与科技巨头间的复杂关系(#84, #95)。
  • 行业人才流动关注:用户提及一位拥有10年以上机器学习研究经验的资深人士,暗示对AI领域高端人才动向的关注(#104)。
原始内容
--- 第 1 楼来自 privater 的回复 (2026-05-06 14:02:35 PDT) ---

https://x.ai/news/anthropic-compute-partnership https://x.ai/news/anthropic-compute-partnership xAI builds Grok, an AI chatbot with voice chat, image and video generation, real-time search, and advanced reasoning. Try Grok at grok.com. 独占算力资源 :Anthropic 将租用位于田纳西州孟菲斯的 Colossus 1 数据中心 的全部算力容量。 算力规模 :该协议涉及超过 300 兆瓦 (MW) 的计算能力,旨在提升 Claude Pro 和 Claude Max 订阅用户的服务性能和稳定性。 太空愿景 :双方还表达了未来在 太空开发数吉瓦 (GW) 级别算力 的合作兴趣。 /uploads/short-url/2j4PZba9FU2SYYB7Q7cUi6nRAm0.jpeg?dl=1

--- 第 2 楼来自 Hali 的回复 (2026-05-06 14:03:35 PDT) ---

能解释下今天为什么100%limit了我还能继续跑几个小时吗 他也不给我reset 但我就继续好好的用着

--- 第 3 楼来自 privater 的回复 (2026-05-06 14:05:28 PDT) ---

https://www.anthropic.com/news/higher-limits-spacex https://www.anthropic.com/news/higher-limits-spacex We’ve raised Claude's usage limits and agreed a new compute partnership with SpaceX that will substantially increase our capacity in the near term. 正在调整,目前的消息是 Anthropic 会 double plan limit Higher usage limits The following three changes—all effective today—are aimed at improving the experience of using Claude for our most dedicated customers. First, we’re doubling Claude Code’s five-hour rate limits for Pro, Max, Team, and seat-based Enterprise plans. Second, we’re removing the peak hours limit reduction on Claude Code for Pro and Max accounts. 其实从年初开始他就在搞各种小动作暗中缩流量,也借着每次新模型刷版本号的时候涨价/增加 token 消耗,现在有新的服务器,也怕被 class action,正好借坡下驴恢复到去年底的水平罢了。

--- 第 4 楼来自 Kanee 的回复 (2026-05-06 14:05:49 PDT) ---

应该出bug了?我的week limit提前清空了,但还是显示明天reset

--- 第 5 楼来自 Hali 的回复 (2026-05-06 14:07:05 PDT) ---

我看x有人给reset了 但不是所有人 奇了怪了 先用着吧 两天够用了 每次reset前一两天用完了 给我全部人reset 搞得我得猛猛用一两天 累死我了

--- 第 6 楼来自 skyblu 的回复 (2026-05-06 14:18:00 PDT) ---

只double 5h weekly还是一样的

--- 第 7 楼来自 jzcracker 的回复 (2026-05-06 14:21:43 PDT) ---

阿龙要做hyperscaler

--- 第 8 楼来自 sukasky 的回复 (2026-05-06 14:37:31 PDT) ---

敌人的敌人就是朋友?

--- 第 9 楼来自 Hein 的回复 (2026-05-06 14:47:20 PDT) ---

5h 翻倍感觉可以换回20刀的了

--- 第 10 楼来自 nkc 的回复 (2026-05-06 14:50:45 PDT) ---

privater: 全部算力 那grok用什么跑

--- 第 11 楼来自 dddd120 的回复 (2026-05-06 14:54:19 PDT) ---

有何机会?

--- 第 12 楼来自 otonoco 的回复 (2026-05-06 14:54:36 PDT) ---

这玩意除了用来写黄雯之外毫无用处

--- 第 13 楼来自 Ss004 的回复 (2026-05-06 15:03:18 PDT) ---

谁也不能和钱过不去啊 /uploads/short-url/rVkO2dYsxJGXXnoaIvbfRyOveSP.jpeg?dl=1

--- 第 14 楼来自 privater 的回复 (2026-05-06 15:04:44 PDT) ---

Grok 最卷的研发都跑光了,还需要跑个锤子

--- 第 15 楼来自 mengyu202 的回复 (2026-05-06 15:14:35 PDT) ---

既然在泥潭发:有无发财/羊毛机会?

--- 第 16 楼来自 l1nv3ga 的回复 (2026-05-06 15:23:36 PDT) ---

privater: 300 兆瓦 (MW) 的计算能力 不记得是谁开的头,但用耗电量而非Flops来衡量算力多少有点本末倒置了。

--- 第 17 楼来自 dddd120 的回复 (2026-05-06 15:26:41 PDT) ---

我看到用瓦数来衡量的时候还以为CPU/GPU发展到头了

--- 第 18 楼来自 privater 的回复 (2026-05-06 15:28:02 PDT) ---

SpaceX + A\ 同时 A\ 标示出对太空数据中心的浓厚兴趣 SpaceX 已经和 Tesla 卿卿我我 所以买 tsla 就是买 A\ /uploads/short-url/lbXOOWqJSIxDVD5crVPQ0ZLZDS7.jpeg?dl=1

--- 第 19 楼来自 dddd120 的回复 (2026-05-06 15:33:41 PDT) ---

tear-fab 血汗工厂吗?

--- 第 20 楼来自 收束观测者 的回复 (2026-05-06 15:37:27 PDT) ---

感慨 第二梯队开始出局了

--- 第 21 楼来自 dddd120 的回复 (2026-05-06 15:41:55 PDT) ---

没出局呀,不是马上捆绑上市收割起来

--- 第 22 楼来自 Ss004 的回复 (2026-05-06 15:51:04 PDT) ---

/uploads/short-url/asAT7S8eudR1XLDZbamxdQAtUAN.jpeg?dl=1

--- 第 23 楼来自 privater 的回复 (2026-05-06 15:55:38 PDT) ---

屮,突然觉得 Hux 跟马一龙很像 /uploads/short-url/bbrucM5WHcQIA40JicDzVboVWFO.jpeg?dl=1

--- 第 24 楼来自 Ss004 的回复 (2026-05-06 16:02:06 PDT) ---

这故事越看越狗血,兄弟反目 https://www.bloomberg.com/news/articles/2026-05-06/musk-weighed-offering-altman-tesla-board-seat-openai-jury-told

--- 第 25 楼来自 收束观测者 的回复 (2026-05-06 16:03:24 PDT) ---

出局了,这是xAI放弃模型自研的标志 还在Race里不可能把算力租给A

--- 第 26 楼来自 dddd120 的回复 (2026-05-06 16:05:23 PDT) ---

也算是另辟蹊径,以后做数据中心出租业务 类似于那个卖鞋的公司

--- 第 27 楼来自 Ss004 的回复 (2026-05-06 16:14:50 PDT) ---

今天传他们巨硬1号只有11%利用率,xAi不承认他们放弃,他们把训练都推到巨硬2号了。但xAI那么多founder级别的大神股权都不要了,也应该能说明点什么吧。 https://wccftech.com/xai-using-just-11-percent-gpus-while-meta-google-squeeze-out-much-more/ https://wccftech.com/xai-using-just-11-percent-gpus-while-meta-google-squeeze-out-much-more/ xAI is reportedly able to utilize just over 10% of its entire NVIDIA GPU fleet, as report suggests lackluster AI software stack optimizations. Est. reading time: 3 minutes

--- 第 28 楼来自 收束观测者 的回复 (2026-05-06 16:17:55 PDT) ---

这个utitlization可能谈的是比较底层的东西 类似于MFU,因为文章号称和meta也只有40%+ 不是说服务器空闲没在跑

--- 第 29 楼来自 otonoco 的回复 (2026-05-06 19:18:31 PDT) ---

说句实话 xai算个锤子御三家 如果oai 是 奉承秀吉 anthro 是 德川家康 xai 没有毛利辉元或者前田利家的level 最多算个预喜多秀家吧

--- 第 30 楼来自 katrix 的回复 (2026-05-06 19:24:27 PDT) ---

核心研发跑了很多,前几天新闻说grok大量算力空闲,好像才10%左右的利用率,考虑算力出租,结果立刻就出了这个合作

--- 第 31 楼来自 katrix 的回复 (2026-05-06 19:27:28 PDT) ---

我还以为御三家是Gemini,没想到你们说的都是grok

--- 第 32 楼来自 AWS 的回复 (2026-05-06 19:35:04 PDT) ---

闭源还跑不过deepseek没有商业价值

--- 第 33 楼来自 AWS 的回复 (2026-05-06 19:35:25 PDT) ---

我也以为是

--- 第 34 楼来自 venusgun 的回复 (2026-05-06 19:36:39 PDT) ---

这不还有Tesla捆绑 啥时候能上个好用点的,人家都agentic了现在才开始rollout wakeword hey grok。而且居然不支持放歌还得用垃圾voice command,还不如Siri好用

--- 第 35 楼来自 收束观测者 的回复 (2026-05-06 19:47:31 PDT) ---

我从没听过御三家有grok的版本

--- 第 36 楼来自 up9080 的回复 (2026-05-06 19:55:55 PDT) ---

御三家一直以来的版本都是 oai/人类学/xai 啊,G 家是去年 Gemini+nanoBanana 出圈后才慢慢赶上来的。

--- 第 37 楼来自 otonoco 的回复 (2026-05-06 19:58:47 PDT) ---

katrix: Gemini 伊达政宗 早生五十年还有点一统天下的机会 可惜生不得

--- 第 38 楼来自 up9080 的回复 (2026-05-06 20:00:20 PDT) ---

随便找了个帖子: https://www.1point3acres.com/bbs/thread-1150700-1-1.html 分享一下AI御三家offer的equity liquidity package大小:xAI > Ant >> OAI 流动性最好的应该是xAI,最差的应该是人类学,OAI居中。在不考虑未来增长和上市的情况下,综合判断收入应该是xAI > OAI > Ant。.

--- 第 39 楼来自 Ava.太太太后 的回复 (2026-05-06 20:01:24 PDT) ---

我之前看 Colossus 那些报道也有点懵,感觉现在都不太讲模型多聪明了,先拼谁手里电和卡够多,最后还是算力军备赛,挺现实的。

--- 第 40 楼来自 LeoQ8 的回复 (2026-05-06 20:02:29 PDT) ---

早就不是拼模型的时候了,想搞拼迭代速度了

--- 第 41 楼来自 sukasky 的回复 (2026-05-06 20:07:09 PDT) ---

startup流动性太好也真是把双刃剑.. 现在a和o都不怎么有流动性了

--- 第 42 楼来自 Jasz 的回复 (2026-05-06 20:10:56 PDT) ---

4.6 的时候都用不完 现在4.7 一下子就用完了 打算倒戈codex了 而且claude 也变蠢了好多

--- 第 43 楼来自 skyblu 的回复 (2026-05-06 20:12:03 PDT) ---

用回去就行了 4.7比4.6笨 当然5.5xhigh 全秒了

--- 第 44 楼来自 Jasz 的回复 (2026-05-06 20:14:04 PDT) ---

4.6 和 4.7 都一样 5个小时 max 的 2 个小时就用完 之前还是怎么都用不完 太气人

--- 第 45 楼来自 国泰Pacific 的回复 (2026-05-06 20:21:59 PDT) ---

依旧左脚踩右脚

--- 第 46 楼来自 收束观测者 的回复 (2026-05-06 20:34:08 PDT) ---

xhigh的reasoning烧token量简直发指 出结果慢也就算了,context window一两轮就没了导致频繁compact变成智障

--- 第 47 楼来自 skyblu 的回复 (2026-05-06 20:42:19 PDT) ---

是的 急需放开1m context 说是working on it也不知道要多久

--- 第 48 楼来自 sukasky 的回复 (2026-05-06 20:43:09 PDT) ---

我codex烧得也很快啊…

--- 第 49 楼来自 收束观测者 的回复 (2026-05-06 20:44:47 PDT) ---

5.5我现在都是用high 但是instruction following和toolcalling还是有问题 当然不排除是vscode的适配问题 但是总体来说vscode还是只能主力opus,gpt只能放进subagent

--- 第 50 楼来自 skyblu 的回复 (2026-05-06 20:46:10 PDT) ---

为啥不直接codex/cc或者opencode

--- 第 51 楼来自 收束观测者 的回复 (2026-05-06 20:48:11 PDT) ---

公司的订阅是copilot 我不喜欢CLI两个原因 不能很方便地看reasoning和tool call细节 看生成的代码不方便,会鼓励人懒惰完全不去看 前者影响更大 对模型执行细节了解越少就越是单纯地变成AI的低端用户

--- 第 52 楼来自 skyblu 的回复 (2026-05-06 20:52:15 PDT) ---

opencode可以看到全部 而且如果opus gpt混着用非常好使

--- 第 53 楼来自 收束观测者 的回复 (2026-05-06 20:53:48 PDT) ---

CLI可以看但是和GUI比很不方便 古法编程时代好歹我也是VIM党,但是真的有差距 另外用第三方CLI接copilot的sub可能有T&C问题 自用另说工作肯定不能乱来 vscode也是混着用的

--- 第 54 楼来自 LeoQ8 的回复 (2026-05-06 21:54:20 PDT) ---

以前我也是neovim各种自定义搞的花里胡哨。一开始AI出来的时候还是用neovim的copilot lua plugin。后面彻底被淘汰了,直接vscode

--- 第 55 楼来自 niming2 的回复 (2026-05-06 22:53:09 PDT) ---

为什么不用claude/codex desktop?同意gui更方便,我用gui可以同时10多个session,用cli同时3个就看不过来了。。。cli只用在script和headless job里。

--- 第 56 楼来自 lijunle 的回复 (2026-05-07 01:49:35 PDT) ---

因为他是 copilot,没有GUI 收束观测者: 不能很方便地看reasoning和tool call细节 看生成的代码不方便,会鼓励人懒惰完全不去看 让他单独生成MD,不看中间 reasoning code的话,公司代码还是要看的,side project 就 who care

--- 第 57 楼来自 skyblu 的回复 (2026-05-07 06:29:00 PDT) ---

只用nvim的古法编程党哭了 主要是我从来不把他当IDE看待 外加vim+tmux切session也很丝滑

--- 第 58 楼来自 Onvon 的回复 (2026-05-07 06:44:24 PDT) ---

Mac的codex app挺好用的 甚至内置了类似openclaw的cron job和memory.md 我现在ide用的是zed 反正ide现在就是个看diff机器 不需要太多花里胡哨的功能 性能好就行了

--- 第 59 楼来自 哪是哪呀 的回复 (2026-05-07 07:10:14 PDT) ---

本来Grok一大半流量在X的fact check,这个需要高级会员后流量降了90%, grok明显走的路子不对,除了黄雯和黄土外,几乎没什么人用,Musk倒是执行力超强,算力足够,现在连5%都用不上。刚好人类学没想到涨那么快,算力不够了,只能降智。前段时间双方交恶主要是封了grok用Claude code,这下Grok的人不知道怎么编程了,逼得Musk想买那个早落伍的什么…,但是否能finish就不知道了。现在双方一拍即合,在没有明显能扭转战局的人物加入,例如illya之类的,Grok就算死了。Musk转向提供算力,特别是想象中的太空算力。

--- 第 60 楼来自 Ss004 的回复 (2026-05-07 09:45:07 PDT) ---

收束观测者: 自用另说工作肯定不能乱来 感觉认真的人越来越少

--- 第 62 楼来自 Ss004 的回复 (2026-05-09 05:29:14 PDT) ---

看了未来资本一篇调研,这个动作可能更多是财务的考虑 Homogeneous cluster. Colossus 1, on the other hand — whose mixed architecture is far less crippling for inference, which parallelizes more forgivingly — was leased in its entirety to an Anthropic that desperately needed inference capacity. Many observers point to what looks like a contradiction: Elon Musk poured enormous capital into building Colossus, only to hand the core asset over to a direct competitor in Anthropic. Others read it as xAI capitulating because it is a “middling frontier lab.” But these are surface-level reads. Look at the numbers and a different picture emerges. xAI today holds roughly 550,000+ GPUs in total (on an H100-equivalent performance basis), and Colossus 1 (220,000 units) accounts for only about 40% of the total available capacity. Colossus 2 — built entirely on Blackwell — is already operational and continuing to expand. Elon kept the all-Blackwell homogeneous cluster (Colossus 2) for himself and leased out the older, mixed-generation Colossus 1. In other words, he handed the pain of rewriting the stack — the MFU-11% debacle — to Anthropic, while keeping his own focus on training the next generation of models. The real point, then, is this. Elon’s objective appears to be positioning ahead of the SpaceXAI IPO at a $1.75 trillion valuation, currently floated for as early as June. The narrative SpaceXAI now needs is that xAI — long the “sore finger” — is not merely a research lab burning cash, but a business with a “neo-cloud” model in the mold of AWS, capable of leasing surplus assets at high yields. From a cost-of-capital perspective, an “AGI cash incinerator” is far less attractive to investors than a “data-center landlord generating cash.” As noted above, the most important detail of the Colossus 1 lease is that it is for inference, not training. Unlike training, inference requires far less tightly synchronized inter-GPU communication. Even when the chips are heterogeneous, the workload parcels out cleanly across them in parallel. The straggler effect — the chief weakness of a mixed cluster — is essentially neutralized for inference workloads. Furthermore, with Anthropic occupying all 220,000 GPUs as a single tenant, the network-switch jitter (unanticipated latency) that arises under multi-tenancy disappears. The two sides’ technical weaknesses end up complementing each other almost exactly. One insight follows. As a training cluster mixing H100/H200/GB200, Colossus 1 was an asset that could only deliver an MFU of 11%. The moment it was handed over to a single inference customer, however, that asset transformed into a cash-flow asset rented out at roughly $2.60 per GPU-hour (a weighted average of the lease rates across GPU types). For xAI, what was a “cluster from hell” for training has become a “golden goose” minting $5–6 billion in annual revenue when redeployed for inference. Elon’s genius, I would argue, lies not in the model but in this asset-rotation structure. The weight of that $6 billion becomes clearer when set against xAI’s income statement. Annualizing xAI’s 1Q26 net loss yields roughly $6 billion in losses per year. The $5–6 billion in annual revenue generated by leasing Colossus 1 to Anthropic, in other words, almost perfectly hedges xAI’s loss figure. This single deal effectively pulls xAI to break-even. Heading into the SpaceXAI IPO, this functions as a core line of financial defense. From a cost-of-capital standpoint, if the image shifts from “research lab burning cash” to 这篇文章分析了 Elon Musk 将 Colossus 1 集群租赁给竞争对手 Anthropic 这一举动背后的深层商业逻辑。其核心观点是:这并非“投降”,而是一次极高明的资产周转与财务对冲。 以下是内容的要点总结: 资产置换:变废为宝 Colossus 1 的软肋:由于采用了 H100/H200/GB200 的混合架构(Mixed Architecture),在进行大模型训练时,GPU 间的同步效率极低,模型计算利用率(MFU)仅为 11%。对于 xAI 而言,它是训练效率极低的“地狱集群”。 推理性租赁:推理(Inference)对集群同构性的要求远低于训练。通过将其整体租给急需推理算力的 Anthropic,原本在训练中致命的“掉队者效应”和网络延迟问题在推理任务中被抵消。 核心战略:保住“最强算力” xAI 的底牌:Elon Musk 并未交出全部家当。xAI 目前拥有约 55 万片 H100 等效算力,Colossus 1 仅占 40%。 详细一点,说明h100 gb200的区别,和软件上面的差异 要理解 Colossus 1 的“地狱模式”与 Colossus 2 的高效,核心在于 H100(Hopper) 与 GB200(Blackwell) 在底层架构、通信协议以及软件适配上的巨大代差。 硬件架构:从“计算卡”到“超级芯片” H100 (Hopper) H100 是标准的独立 GPU。它通过 PCIe 插槽或 SXM 板卡连接。 核心构成:单颗 GPU 芯片,显存(HBM3)上限通常为 80GB。 通信限制:虽然 NVLink 提供卡间互联,但在跨机柜通信时,严重依赖传统的 InfiniBand 网络。当规模达到数万张卡时,网络延迟和拥塞成为瓶颈。 GB200 (Blackwell) GB200 不再只是一个“显卡”,它被称为 Superchip。 核心构成:它将 2 颗 Blackwell GPU 与 1 颗 Grace CPU 通过 900GB/s 的超高带宽(C2C)直接封装在一起。 液冷设计:GB200 专门为液冷机柜设计,单机柜(如 NVL72)可以提供 72 颗 GPU,它们在逻辑上表现为一颗巨大的虚拟 GPU。 显存飞跃:Blackwell 架构支持 HBM3e,带宽大幅提升,且原生支持 FP4 精度,这使得它在处理同等规模的模型时,推理速度比 H100 快 30 倍。 软件层面的差异:为什么混合架构是“灾难”? 软件层面的差异是导致 Colossus 1 训练利用率(MFU)仅有 11% 的根本原因。 并行策略的断层 (Parallelism) 大模型训练依赖于几种并行技术:张量并行 (TP)、流水线并行 (PP) 和 数据并行 (DP)。 同构集群 (Colossus 2):所有 GPU 的显存大小、算力、通信延迟完全一致。软件可以像“切蛋糕”一样,把模型均匀切分。 混合集群 (Colossus 1): 显存不匹配:H100 是 80GB,GB200 显存更大。软件必须以“最小显存”为准,否则会导致显存溢出,造成资源浪费。 算力木桶效应:训练是同步的,GB200 计算速度快,但在等待 H100 完成它的那部分计算之前,GB200 只能“空转”。这就是所谓的Straggler Effect(掉队者效应)。 软件栈的重写压力 算子优化:Nvidia 为 Blackwell 推出了全新的 Transformer Engine 2.0,支持 FP4 精度。如果要让混合集群协同工作,程序员必须编写极其复杂的代码,让系统能够动态识别任务分发给 H100(使用 FP8)还是 GB200(使用 FP4),这在目前的主流框架(如 PyTorch)中极难实现。 通信库差异:GB200 使用的是第五代 NVLink 和全新的 NVLink Switch,其协议与 H100 的第四代存在代差。混合使用就像是让 5G 网络和 3G 网络强行合并,整体速度会被拖慢到 3G 的水平。

--- 第 63 楼来自 收束观测者 的回复 (2026-05-09 08:28:33 PDT) ---

Ss004: 由于采用了 H100/H200/GB200 的混合架构 不成立的 比较可信的当前结构(业内媒体汇总)是: GPU型号 大致数量 H100 ~150,000 H200 ~50,000 GB200 ~30,000(部分报道) 150K的H100已经是非常可怕的数量了,就这一部分同构的拿来做顶级模型的pretraining绰绰有余 剩下的可以单独拿来做各种不同的用法 一个DC里有什么卡就得全部一起同时用在同一件事上是非常外行的想象

--- 第 64 楼来自 bujidao 的回复 (2026-05-09 08:36:05 PDT) ---

伊达不太行 太偏远了 换北条吧

--- 第 65 楼来自 Ss004 的回复 (2026-05-09 08:37:59 PDT) ---

多谢大佬解惑,这三条是不成立的么,请问是为什么? For distributed training, however, this configuration is close to a disaster, according to engineers familiar with the setup. In distributed training, 100,000 GPUs must finish a single step simultaneously before the cluster can advance to the next one. Even if the GB200s finish their computation first, the remaining 99,999 chips have to wait for the slower H100s — or for any GPU that has hit a stack-related snag — to catch up. This is known as the straggler effect. The problem runs deeper still. As discussed earlier, NVIDIA’s NCCL has traditionally been optimized for a ring topology. It works beautifully at the 1,000–10,000 GPU scale, but once you push into the 100,000-unit range, the latency of data traversing the ring once around becomes punishingly long. Layer Blackwell’s (GB200) “power smoothing” issue on top, and the picture comes into focus. According to Zeeshan Patel, formerly in charge of multimodal pre-training at xAI, Blackwell GPUs draw power so aggressively that the chip itself includes a hardware feature for smoothing power delivery. xAI’s existing software stack, however, was optimized for Hopper and does not understand the characteristics of the new hardware; when it imposes irregular loads on the chip, the silicon physically destructs — literally melts. That means the modeling stack must be rewritten from scratch, which in turn means scaling is far harder than most of us imagine.

--- 第 66 楼来自 收束观测者 的回复 (2026-05-09 08:40:34 PDT) ---

Ss004: The problem runs deeper still. As discussed earlier, NVIDIA’s NCCL has traditionally been optimized for a ring topology. It works beautifully at the 1,000–10,000 GPU scale, but once you push into the 100,000-unit range, the latency of data traversing the ring once around becomes punishingly long. 这句话等于说H100不能scale到10K以上 显然是BS,没GB200的时代大家就不训练超大模型了? 说到底,拼命stay in the race的时候有什么用什么,效率再低也得用 考虑成本这件事本身就是在权衡要不要放弃

--- 第 67 楼来自 Nvidia 的回复 (2026-05-09 08:48:22 PDT) ---

xAI has hopper gpus. Anthropic’s current model was trained mostly on hopper architecture, it’s good for Anthropic use those for inference. I guess xAI will use GB200/300 for training while release those spare capacity.

--- 第 68 楼来自 jorgenson 的回复 (2026-05-09 08:49:12 PDT) ---

还是当地主赚钱啊

--- 第 69 楼来自 Ss004 的回复 (2026-05-09 08:51:17 PDT) ---

我找AI问了一下,大概是这么说的: /uploads/short-url/eg7KU3S0hvZ28MD4JPGicEAy7FT.png?dl=1 /uploads/short-url/cGWb5fPVsC1F3QNffyXTLCx1gvm.png?dl=1 结论可能稍好点,但xai如果行的话,一堆牛人估计也不会放手期权了

--- 第 70 楼来自 收束观测者 的回复 (2026-05-09 08:53:42 PDT) ---

100K的训练也不需要频繁global collective的 都是有各种优化的

--- 第 71 楼来自 otonoco 的回复 (2026-05-09 16:59:18 PDT) ---

后北条和德川家康冲了

--- 第 72 楼来自 Ss004 的回复 (2026-05-20 15:51:58 PDT) ---

今天spacexai S1正面证明 Colossus II 里的GB200也出租了 https://x.com/i/status/2057194829986300375 https://x.com/i/status/2057228707606196434

--- 第 73 楼来自 大胖紫儿 的回复 (2026-05-20 16:24:42 PDT) ---

进了太阁立志传的窝了

--- 第 74 楼来自 thallos 的回复 (2026-05-20 18:30:06 PDT) ---

收租确实爽,spacex一年营收也就18b,收租一年也有15b

--- 第 75 楼来自 Ss004 的回复 (2026-06-05 11:53:24 PDT) ---

SpaceXAi开始第二批出租了 SpaceX enters a cloud service agreement with Google, the deal includes 110,000 NVIDIA GPUs, CPUs, and memory. https://www.sec.gov/Archives/edgar/data/1181412/000162828026041150/spacexagreementfwp.htm

--- 第 76 楼来自 bumblebee 的回复 (2026-06-05 12:16:44 PDT) ---

刚看到,不知道是不是准备把IPO以后第一个财报妆点得好看点

--- 第 77 楼来自 Ss004 的回复 (2026-06-05 12:58:22 PDT) ---

Counterparty GPUs Contracted Total SpaceX GPUs % SpaceX Compute Capacity $bn Per Month $bn Per Year Implied Price/GW/Year ($bn) Anthropic 325,000 770,000 42% $1.25 $15.00 $35.54 Google 110,000 770,000 14% $0.92 $11.04 $77.28 The SpaceX IPO demand is about twice the size of the $75 billion offering early in the roadshow - Sources.

--- 第 78 楼来自 css 的回复 (2026-06-05 13:14:48 PDT) ---

Google是冤大头吗?为什么比A家贵那么多

--- 第 79 楼来自 璇瑢子 的回复 (2026-06-05 13:47:04 PDT) ---

谷歌是SpaceX早期投资者

--- 第 80 楼来自 收束观测者 的回复 (2026-06-05 14:30:37 PDT) ---

A租的有可能是旧型号?我记得H系为主

--- 第 81 楼来自 css 的回复 (2026-06-05 14:43:38 PDT) ---

璇瑢子: 谷歌是SpaceX早期投资者 那不是应该便宜一点嘛。

--- 第 82 楼来自 css 的回复 (2026-06-05 14:44:00 PDT) ---

这倒是有可能 不过还是好贵

--- 第 83 楼来自 otonoco 的回复 (2026-06-05 14:58:00 PDT) ---

肯定的 而且都是利益关联方 但是这么租datacenter不就等于告诉大家自己grok是路边一条了

--- 第 84 楼来自 IrishCoffee 的回复 (2026-06-05 14:56:54 PDT) ---

https://www.cnbc.com/2026/06/05/google-to-pay-spacex-920-million-a-month-for-xai-compute-capacity.html https://news.ycombinator.com/item?id=48417490 就在SpaceX计划上市前夕,Google突然砸下重金,签署了一份每月9.2亿美元的巨额合约,租用SpaceX旗下xAI数据中心的AI算力。这份为期32个月的协议将动用约11万块Nvidia GPU,旨在满足Google日益增长的AI需求。此前SpaceX刚与Anthropic达成类似合作,如今又拿下Google大单,显然是在为下周估值超1.75万亿美元的IPO造势。尽管SpaceX的AI业务目前仍处于亏损状态,但通过向Google等巨头出租基础设施,马斯克正试图证明其庞大的数据中心投资能带来可观回报,同时也让Google在激烈的AI军备战中找到了新的算力补给线。 “SpaceX在招股书中表示,其计算基础设施及相关战略为我们在如何分配和变现算力方面提供了巨大的灵活性。” 伟大公司拿着巴菲特给的钱托盘了

--- 第 89 楼来自 privater 的回复 (2026-06-05 16:25:53 PDT) ---

没想到浓眉大眼的 Elon 在 Google 眼里也是

--- 第 90 楼来自 Keiour 的回复 (2026-06-05 16:28:46 PDT) ---

有一说一我觉得大家从几个月前以来就没正眼看过grok 这玩意现在写黄文的都不用

--- 第 91 楼来自 otonoco 的回复 (2026-06-05 16:30:26 PDT) ---

Keiour: 现在写黄文的 用啥? 请指教

--- 第 92 楼来自 Keiour 的回复 (2026-06-05 16:34:08 PDT) ---

deepseek v4目前唯一真神 汉语环境也有用GLM的,英语环境也有用Claude的,但综合成本,破限难度和封号风险,DS的API目前是最优,断档的便宜 + 容易破限 + API无外审可以直接用简单的prompt破甲。唯一的缺点是DS便宜的官方API自己会train on input但是写文的估计也不在意会不会被train

--- 第 93 楼来自 peridot 的回复 (2026-06-05 16:35:19 PDT) ---

Keiour: train on input 写文的怕不是还狂喜

--- 第 94 楼来自 IrishCoffee 的回复 (2026-06-05 16:42:19 PDT) ---

不是。这不是完全两个新闻吗。。就算要合并,title 顶楼 也应该更新一下?

--- 第 95 楼来自 kevincs 的回复 (2026-06-06 09:22:48 PDT) ---

小扎学学这个,把gpu租出去股价包涨

--- 第 96 楼来自 何思远 的回复 (2026-06-06 11:40:05 PDT) ---

今天看到国内一篇很火的被404 的文章: https://chinadigitaltimes.net/chinese/727795.html 里面有句话让我有点恍惚: 一家年销售150亿的公司,喊出万亿目标,如果不是数学不好,那就是在玩跨次元的估值游戏。 你这在说谁呢.

--- 第 97 楼来自 Ss004 的回复 (2026-06-07 18:59:14 PDT) ---

谷歌租的有GB300,而且条款里面有提前终止选项,但最影响价格的是time to market components ,也就是现在大家都缺算力,而spacex ai目前是最早泄力的frontier lab。

--- 第 98 楼来自 otonoco 的回复 (2026-06-07 21:11:47 PDT) ---

Ss004: 最早泄 看来还是深蹲练少了

--- 第 99 楼来自 VFIAX 的回复 (2026-06-07 21:25:28 PDT) ---

这个就是ipo前做账啊,goog有spcx不少股份,获利了1,2000亿了吧

--- 第 100 楼来自 Ss004 的回复 (2026-06-08 19:51:29 PDT) ---

我不记得是不是这家了,我之前看到有人用 https://www.propelleraero.com/platform/data-centers-construction/ https://www.propelleraero.com/platform/data-centers-construction/ Accelerate hyperscale projects with Propeller’s drone mapping and analytics. Verify civil earthworks daily, prevent utility strikes, and maintain defensible as-built records for data center construction Est. reading time: 4 minutes

--- 第 101 楼来自 Ss004 的回复 (2026-06-12 14:27:18 PDT) ---

第二家也可能要掉队了 $META CEO Zuckerberg says in internal memo the company has made mistakes on its AI transformation, per a Reuters exclusive. Zuckerberg says Meta will try to find new roles for employees reassigned to train AI models, plans to limit expansion of team sizes, minimize org changes, and increase budget for team-building.

--- 第 102 楼来自 bumblebee 的回复 (2026-06-12 14:28:20 PDT) ---

我擦,那Meta那么多data center干嘛用?

--- 第 103 楼来自 Ss004 的回复 (2026-06-12 14:31:43 PDT) ---

论坛这么多鱿鱼厂的员工,能不能把原memo给我们看看

--- 第 104 楼来自 Ss004 的回复 (2026-06-12 14:35:50 PDT) ---

我还不明白c1 还搞pretraining 他们要撸我们吗? https://www.linkedin.com/in/sx-zhang https://www.linkedin.com/in/sx-zhang 10+ years research experience on machine learning, multi-modal human and machine… · 工作经历: Capital One · 教育经历: University of Cambridge · 地点: 西雅图地区 · 500 多位领英好友。在领英 (一个拥有 10 亿会员的职业社区) 查看Shi-Xiong ZHANG的职业档案。 不知道大哥在不在论坛

--- 第 105 楼来自 收束观测者 的回复 (2026-06-12 15:34:27 PDT) ---

这个明显是说AAI不是说TBD

--- 第 106 楼来自 css 的回复 (2026-06-13 10:53:40 PDT) ---

全公司抓壮丁、制造混乱,这个简直闻所未闻。

--- 第 107 楼来自 tomandjerry 的回复 (2026-06-13 19:17:11 PDT) ---

太可惜了,meta坚持下去肯定是能搞出些名堂的。

--- 第 108 楼来自 flywire 的回复 (2026-06-13 19:20:36 PDT) ---

Ss004: new roles 今年鱿鱼游戏的quota有了

--- 第 109 楼来自 anno82023825 的回复 (2026-06-13 19:23:30 PDT) ---

所以为啥Meta做不出大模型… 这种确切知道一定能做出来的东西不是他最擅长的吗?

--- 第 110 楼来自 tomandjerry 的回复 (2026-06-13 19:33:31 PDT) ---

muse spark 挺强的啊,比很多模型评分高,算是前10 吧,比所谓三家之一的 gemini 3 pro 排名高。 我是挺看好 meta 在数据收集这方向的。而现在 中国的开源算法就很厉害,加上 meta 的数据 + meta 的算力 ,搞出一个超越中国一众 llm 还是可能的。

--- 第 111 楼来自 katrix 的回复 (2026-06-13 19:52:40 PDT) ---

闭源前,聊天类的开源dense大模型主要还是看它吧?只不过4拉了坨大的,掉队了,更没赶上agentic 这个风潮