泥潭日报 uscardforum · 内容汇总

mythos 大概有多少参数? 什么架构?

内容摘要

Mythos模型架构确认为MoE,参数量200B,数据量争议在1T至10T之间。

关键信息与数据点

  • 模型架构#6 @Rosmontis 确认 Mythos 为 MoE(混合专家)架构。
  • 参数规模:延续 #2 @karn 此前爆料,激活参数量为 200B。
  • 训练数据量争议
    • #2 之前提及约 3T。
    • #6 认为不可能小于 2T,基于 release gap 推测为 5-10T。
    • #9 @tomandjerry 认为 MoE 不会太大,预估 1-2T。
    • #12 @收束观测者 引用 GPT-5.5 的 long context eval 倒推数据,指出 Mythos 肯定不止 2T,可能达到 10T。

讨论脉络与观点

  • 架构确认:楼主发起的 MoE vs Dense 投票得到明确回应,#6 以“百分之百 MOE”定调。
  • 数据量辩论:围绕训练数据规模展开激烈争论。#5#9 倾向于较小数据量(1-3T),认为增益有限且开销大;而 #6#12 则依据行业经验和逆向工程推测数据量极大(5-10T)。
  • 外部情报#14 @sheepyyyy 分享链接称 Anthropic 的 "Fable" 模型泄露至种子站,#16 楼主证实已下载且可用。这引发了 #15 @braket 对 Anthropic 估值(是否还值 1T)的调侃式讨论。
  • 闲聊互动#10#11 展示了楼主与网友关于“得知参数后生活状态”的轻松互动,楼主表示除了吃饭睡觉拉屎外无其他想法,并感谢 #10 的关心。
原始内容
--- 第 1 楼来自 tomandjerry 的回复 (2026-06-13 15:57:50 PDT) ---

泥潭人才多,肯定有不少人在a/ oai,或者在相关的云服务商工作,肯定有人知道这模型有多大,是不是moe,能不能来大概透露一下? 给个数量级? 实在是太好奇了,这模型勾引的我神魂颠倒,吃饭睡觉拉屎都想着它。 参数范围 不说 < 500B < 1T < 2T < 5T 10T \infty 不知 0 投票人 moe dense 不说 0 投票人

--- 第 2 楼来自 karn 的回复 (2026-06-13 16:00:22 PDT) ---

120层,200B,3T 左右。

--- 第 3 楼来自 tomandjerry 的回复 (2026-06-13 16:02:18 PDT) ---

谢谢,比我幻想中的还大一些

--- 第 4 楼来自 greenwhite 的回复 (2026-06-13 16:05:00 PDT) ---

karn: 200B,3T 左右。 这俩单位是啥?

--- 第 5 楼来自 收束观测者 的回复 (2026-06-13 16:17:13 PDT) ---

3T感觉比预期的小很多

--- 第 6 楼来自 Rosmontis 的回复 (2026-06-13 16:18:51 PDT) ---

百分之百MOE,不可能小于2T,按照release的gap来看大概5-10T。

--- 第 7 楼来自 LPL 的回复 (2026-06-13 16:19:13 PDT) ---

karn: 200B,3T 左右 moe?3T parameters, 200B activate

--- 第 8 楼来自 收束观测者 的回复 (2026-06-13 16:21:25 PDT) ---

Rosmontis: release的gap来看 这个没法看的……你不知道他家内部各个项目GPU allocation怎么分配的 而且训前沿模型到哪儿了卡住爬不动了没有改进是很常见的

--- 第 9 楼来自 tomandjerry 的回复 (2026-06-13 16:23:21 PDT) ---

哪怕是moe也不会搞太大吧,增益小,开销大。性价比太低。 我感觉也就1,2T

--- 第 10 楼来自 rollingcat 的回复 (2026-06-13 16:27:06 PDT) ---

我外行,好奇一下楼主现在知道参数数量之后 tomandjerry: 吃饭睡觉拉屎 又能想什么别的了吗

--- 第 11 楼来自 tomandjerry 的回复 (2026-06-13 16:29:14 PDT) ---

这么多人,就你关心我

--- 第 12 楼来自 收束观测者 的回复 (2026-06-13 16:36:12 PDT) ---

GPT-5.5有人用long context eval倒推出来说是10T 10T不一定有但是肯定不止2T

--- 第 13 楼来自 az8 的回复 (2026-06-13 16:38:34 PDT) ---

是不是可以说?全人类的迄今为止的所有知识5个T就够了?50个T够不?

--- 第 14 楼来自 sheepyyyy 的回复 (2026-06-13 18:31:56 PDT) ---

Fable被放到种子站了,虽然感觉像是假的( https://x.com/PtrPomorski/status/2065743732792512621

--- 第 15 楼来自 braket 的回复 (2026-06-13 18:55:38 PDT) ---

要是真的那anthropic还值1T吗

--- 第 16 楼来自 tomandjerry 的回复 (2026-06-13 19:01:34 PDT) ---

是真的,我下载了,很好用