mythos 大概有多少参数? 什么架构?

Question

泥潭日报 · Accepted Answer

Mythos模型架构确认为MoE，参数量200B，数据量争议在1T至10T之间。 关键信息与数据点 模型架构 ： #6 @Rosmontis 确认 Mythos 为 MoE（混合专家）架构。 参数规模 ：延续 #2 @karn 此前爆料，激活参数量为 200B。 训练数据量争议 ： #2 之前提及约 3T。 #6 认为不可能小于 2T，基于 release gap 推测为 5-10T。 #9 @tomandjerry 认为 MoE 不会太大，预估 1-2T。 #12 @收束观测者 引用 GPT-5.5 的 long context eval 倒推数据，指出 Mythos 肯定不止 2T，可能达到 10T。 讨论脉络与观点 架构确认 ：楼主发起的 MoE vs Dense 投票得到明确回应， #6 以“百分之百 MOE”定调。 数据量辩论 ：围绕训练数据规模展开激烈争论。 #5 和 #9 倾向于较小数据量（1-3T），认为增益有限且开销大；而 #6 和 #12 则依据行业经验和逆向工程推测数据量极大（5-10T）。 外部情报 ： #14 @sheepyyyy 分享链接称 Anthropic 的 "Fable" 模型泄露至种子站， #16 楼主证实已下载且可用。这引发了 #15 @braket 对 Anthropic 估值（是否还值 1T）的调侃式讨论。 闲聊互动 ： #10 和 #11 展示了楼主与网友关于“得知参数后生活状态”的轻松互动，楼主表示除了吃饭睡觉拉屎外无其他想法，并感谢 #10 的关心。

关键信息与数据点

讨论脉络与观点

📈 搬砖 · 其他高楼