mythos 大概有多少参数? 什么架构?
Mythos模型架构确认为MoE,参数量200B,数据量争议在1T至10T之间。
关键信息与数据点
讨论脉络与观点
- 架构确认:楼主发起的 MoE vs Dense 投票得到明确回应,#6 以“百分之百 MOE”定调。
- 数据量辩论:围绕训练数据规模展开激烈争论。#5 和 #9 倾向于较小数据量(1-3T),认为增益有限且开销大;而 #6 和 #12 则依据行业经验和逆向工程推测数据量极大(5-10T)。
- 外部情报:#14 @sheepyyyy 分享链接称 Anthropic 的 "Fable" 模型泄露至种子站,#16 楼主证实已下载且可用。这引发了 #15 @braket 对 Anthropic 估值(是否还值 1T)的调侃式讨论。
- 闲聊互动:#10 和 #11 展示了楼主与网友关于“得知参数后生活状态”的轻松互动,楼主表示除了吃饭睡觉拉屎外无其他想法,并感谢 #10 的关心。
泥潭人才多,肯定有不少人在a/ oai,或者在相关的云服务商工作,肯定有人知道这模型有多大,是不是moe,能不能来大概透露一下? 给个数量级? 实在是太好奇了,这模型勾引的我神魂颠倒,吃饭睡觉拉屎都想着它。 参数范围 不说 < 500B < 1T < 2T < 5T 10T \infty 不知 0 投票人 moe dense 不说 0 投票人
120层,200B,3T 左右。
谢谢,比我幻想中的还大一些
karn: 200B,3T 左右。 这俩单位是啥?
3T感觉比预期的小很多
百分之百MOE,不可能小于2T,按照release的gap来看大概5-10T。
karn: 200B,3T 左右 moe?3T parameters, 200B activate
Rosmontis: release的gap来看 这个没法看的……你不知道他家内部各个项目GPU allocation怎么分配的 而且训前沿模型到哪儿了卡住爬不动了没有改进是很常见的
哪怕是moe也不会搞太大吧,增益小,开销大。性价比太低。 我感觉也就1,2T
我外行,好奇一下楼主现在知道参数数量之后 tomandjerry: 吃饭睡觉拉屎 又能想什么别的了吗
这么多人,就你关心我
GPT-5.5有人用long context eval倒推出来说是10T 10T不一定有但是肯定不止2T
是不是可以说?全人类的迄今为止的所有知识5个T就够了?50个T够不?
Fable被放到种子站了,虽然感觉像是假的( https://x.com/PtrPomorski/status/2065743732792512621
要是真的那anthropic还值1T吗
是真的,我下载了,很好用