Google欣然发布Gemma4,本地模型媲美云端大模型不是梦?
Gemma 4 31B密集模型性能逼近400B MoE,挑战本地模型实用性。
1. 关键信息
- 31B dense模型elo分数逼近400B MoE QWEN3.5 (#1)。
- 31B量化可用24-32G显存运行 (#4)。
- M chip TPS低,内存非瓶颈;M5 Max需128G内存 (#10、#13、#34)。
- Qwen3.5 27B为小模型顶尖 (#17)。
- Gemma 4思考短,上下文长意义有限 (#40)。
2. 羊毛/优惠信息
无。
3. 最新动态
无。
4. 争议或不同意见
- 算力需求不会消失,峰值用量仍需集中运算 (#3、#9)。
- 小模型capabilities可用但与Claude/GPT差距大 (#44)。
- 谷歌benchmark有选择性 (#15、#23)。
5. 行动建议
- 短prompt长任务可本地inference,利用cache降成本 (#43)。
- 优先测试Qwen3.6-35B-A3B等密集模型 (#46)。
这里是post,可以看到31B的dense模型elo分数已经逼近400B MoE的QWEN3.5模型了,虽然还够不到T0的模型但是已经很有威慑了 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ Gemma 4: our most intelligent open models to date, purpose-built for advanced reasoning and agentic workflows. 这里是其他核心benchmark结果,是不是意味着以后简单的工作可以交给本地模型了,但是是不是高分低能还得验证 https://ai.google.dev/gemma/docs/core/model_card_4?hl=zh-cn https://ai.google.dev/gemma/docs/core/model_card_4?hl=zh-cn
还利好英伟达和数据中心吗 最伟司是储存股最严厉的父亲
感觉算力的需求不会消失,不然不会搞出峰值用量这种东西了
31B量化下是不是24-32g就能跑了
最大的问题不还是本地显卡用什么吗
/uploads/short-url/iFhkiKrutOWGcG15rzrA7Yls2DE.png?dl=1
基本只有4090/5090这种选择吧,这么看来魔改4090的性价比实在极高。但是趋势是目前小模型的capabilities已经到一个比较可用的水平了
DGX Spark 跑起来给自己用 问题不大 /uploads/short-url/hdt23IbWi6ZfyfLCWIkRGiaJmBZ.png?dl=1
https://www.uscardforum.com/t/topic/488959/1 现在的数据中心狂潮都是基于未来推理需求必须通过集中运算才能实现。 小模型哪天也搞了个scaling law 然后参数量对数下降 也不是没可能? 数学估算能很快达到一个5-8B的可用模型
利好M5 Max? 苹果这统一内存还真走对了吗
很适合做 agent 里的 eval
m5 pro 48g 不行吗,带宽不够?
M chip的问题在于TPS太低,内存是没问题
让Claude做了个对比,大多数benchmark上都打不过Qwen 3.5 27B /uploads/short-url/7Qkpz4z1GFPO1vFoc2z42dT0Ryd.png?dl=1
那确实是PPT大师了 只选了好的benchmark
qwen 27b含金量这么高吗
qwen3.5 27b算是小模型里面顶尖的了
谷歌最近搞抽象水平高涨,先是用别人Cpu跑的Bench跟自己Gpu跑的对比,现在又搞这一套
啥Gemma 4 不行的意思吗?
感情狗哥拉了坨大的
现在利好内存了,还有苹果 不过果子那玩意卖8000不知道什么需求要自己买
上面不是发了吗?也就是跟QWEN27B水平差不多罢了,可能某些方面更强一点,只不过搞一些春秋笔法只提好的不提坏的
是CPU的计算速度太慢吗
我自己没有mac但是我看m4 pro实际可用的也就是10b以下的模型。大的模型不是不能跑,是达不到可用的速度,当然有人的觉得10tps属于可用,这个就不好评价
列.伊.勃列日涅夫: M5 Max 配环境就能配死你
LM Studio或者羊驼都很简单吧? /uploads/short-url/2b44zr57LyvwOqSzimeBn9W9iJY.png?dl=1
等等党
啥东西8000
蹲一个1B
这时候都还打不过qwen也太拉了
M5 max加128g内存的macbook
Mac Studio便宜得多吧,现在才3149,键盘屏幕溢价严重
m5 max + 128g,瓶颈是m5 max了吧,空有内存,跑70b有什么速度?
https://www.youtube.com/watch?v=A5w_k3GAwrQ jnnksn: Mac Studio便宜得多吧 主要是买M5,以后也许会便宜
买8个mac mini组集群
万兆网口够用吗
不够,得十万兆的
十万兆?贫穷限制了我的想象力
自己刚量化了w,Q6_K本体略小于24G, + 64k上下文刚好31G,Q4_K_M本体17.5G,带64k上下文能塞进24G的卡。3090的含金量还在上升。 感觉Gemma 4思考挺短的,上下文再长意义不是很大。
只跑inference当然可以,我还以为说的是用来做research,因为我想不到不依赖CUDA怎么进行finetune 只跑inference的话为什么不直接烧api或者冲subscription呢,买一个M5 Max的MacBook pro 16的钱够你冲几十年了
以后能不能手机跑的模型都干爆Claude4.6?
Inference 的话也要看具体应用场景啊 如果prompt长,cache hit 高,本地inference的cache hit 成本是0,而且cache可以落盘,所以有几种情况合算 多个长input的prompt,超过在线api TTL 定期运行 长inout的prompt,没超过在线api ttl,但是频率很高而且没有特别多生成的token(龟速),主要为prefill
问题是<30B的小模型相比于Claude, GPT这种上T的大模型效果差距太大了,完全无法比较 现在感觉小模型唯一用处就是VLA
用on-prem的小模型解决一些涉及PII的应用场景还是不错的
https://huggingface.co/Qwen/Qwen3.6-35B-A3B来了 简单测了几个自己的test case感觉只用半个月时间又把gemma 4 26b踢死了 就差一个dense模型了
用上了,感觉确实不错