泥潭日报 uscardforum · 每日精选

Google欣然发布Gemma4,本地模型媲美云端大模型不是梦?

内容摘要

Gemma 4 31B密集模型性能逼近400B MoE,挑战本地模型实用性。

1. 关键信息

  • 31B dense模型elo分数逼近400B MoE QWEN3.5 (#1)。
  • 31B量化可用24-32G显存运行 (#4)。
  • M chip TPS低,内存非瓶颈;M5 Max需128G内存 (#10、#13、#34)。
  • Qwen3.5 27B为小模型顶尖 (#17)。
  • Gemma 4思考短,上下文长意义有限 (#40)。

2. 羊毛/优惠信息

无。

3. 最新动态

无。

4. 争议或不同意见

  • 算力需求不会消失,峰值用量仍需集中运算 (#3、#9)。
  • 小模型capabilities可用但与Claude/GPT差距大 (#44)。
  • 谷歌benchmark有选择性 (#15、#23)。

5. 行动建议

  • 短prompt长任务可本地inference,利用cache降成本 (#43)。
  • 优先测试Qwen3.6-35B-A3B等密集模型 (#46)。
原始内容
--- 第 1 楼来自 zpahai 的回复 (2026-04-02 10:36:43 PDT) ---

这里是post,可以看到31B的dense模型elo分数已经逼近400B MoE的QWEN3.5模型了,虽然还够不到T0的模型但是已经很有威慑了 https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/ Gemma 4: our most intelligent open models to date, purpose-built for advanced reasoning and agentic workflows. 这里是其他核心benchmark结果,是不是意味着以后简单的工作可以交给本地模型了,但是是不是高分低能还得验证 https://ai.google.dev/gemma/docs/core/model_card_4?hl=zh-cn https://ai.google.dev/gemma/docs/core/model_card_4?hl=zh-cn

--- 第 2 楼来自 258 的回复 (2026-04-02 10:38:27 PDT) ---

还利好英伟达和数据中心吗 最伟司是储存股最严厉的父亲

--- 第 3 楼来自 zpahai 的回复 (2026-04-02 10:50:36 PDT) ---

感觉算力的需求不会消失,不然不会搞出峰值用量这种东西了

--- 第 4 楼来自 illusionwing 的回复 (2026-04-02 10:53:08 PDT) ---

31B量化下是不是24-32g就能跑了

--- 第 5 楼来自 maruha 的回复 (2026-04-02 10:58:28 PDT) ---

最大的问题不还是本地显卡用什么吗

--- 第 6 楼来自 zpahai 的回复 (2026-04-02 11:01:13 PDT) ---

/uploads/short-url/iFhkiKrutOWGcG15rzrA7Yls2DE.png?dl=1

--- 第 7 楼来自 zpahai 的回复 (2026-04-02 11:05:49 PDT) ---

基本只有4090/5090这种选择吧,这么看来魔改4090的性价比实在极高。但是趋势是目前小模型的capabilities已经到一个比较可用的水平了

--- 第 8 楼来自 kaiyoyo 的回复 (2026-04-02 11:07:37 PDT) ---

DGX Spark 跑起来给自己用 问题不大 /uploads/short-url/hdt23IbWi6ZfyfLCWIkRGiaJmBZ.png?dl=1

--- 第 9 楼来自 258 的回复 (2026-04-02 11:15:36 PDT) ---

https://www.uscardforum.com/t/topic/488959/1 现在的数据中心狂潮都是基于未来推理需求必须通过集中运算才能实现。 小模型哪天也搞了个scaling law 然后参数量对数下降 也不是没可能? 数学估算能很快达到一个5-8B的可用模型

--- 第 10 楼来自 列.伊.勃列日涅夫 的回复 (2026-04-02 11:16:55 PDT) ---

利好M5 Max? 苹果这统一内存还真走对了吗

--- 第 11 楼来自 DeusX 的回复 (2026-04-02 11:18:02 PDT) ---

很适合做 agent 里的 eval

--- 第 12 楼来自 tomandjerry 的回复 (2026-04-02 11:31:49 PDT) ---

m5 pro 48g 不行吗,带宽不够?

--- 第 13 楼来自 zpahai 的回复 (2026-04-02 11:32:18 PDT) ---

M chip的问题在于TPS太低,内存是没问题

--- 第 14 楼来自 Cookies 的回复 (2026-04-02 11:36:41 PDT) ---

让Claude做了个对比,大多数benchmark上都打不过Qwen 3.5 27B /uploads/short-url/7Qkpz4z1GFPO1vFoc2z42dT0Ryd.png?dl=1

--- 第 15 楼来自 zpahai 的回复 (2026-04-02 11:38:21 PDT) ---

那确实是PPT大师了 只选了好的benchmark

--- 第 16 楼来自 258 的回复 (2026-04-02 11:39:16 PDT) ---

qwen 27b含金量这么高吗

--- 第 17 楼来自 zpahai 的回复 (2026-04-02 11:41:44 PDT) ---

qwen3.5 27b算是小模型里面顶尖的了

--- 第 18 楼来自 xjx 的回复 (2026-04-02 11:48:12 PDT) ---

谷歌最近搞抽象水平高涨,先是用别人Cpu跑的Bench跟自己Gpu跑的对比,现在又搞这一套

--- 第 20 楼来自 gggideon 的回复 (2026-04-02 13:48:05 PDT) ---

啥Gemma 4 不行的意思吗?

--- 第 21 楼来自 EndangeredZeegull 的回复 (2026-04-02 13:58:17 PDT) ---

感情狗哥拉了坨大的

--- 第 22 楼来自 折木奉太郎 的回复 (2026-04-02 14:00:06 PDT) ---

现在利好内存了,还有苹果 不过果子那玩意卖8000不知道什么需求要自己买

--- 第 23 楼来自 xjx 的回复 (2026-04-02 14:19:55 PDT) ---

上面不是发了吗?也就是跟QWEN27B水平差不多罢了,可能某些方面更强一点,只不过搞一些春秋笔法只提好的不提坏的

--- 第 24 楼来自 天天被反薅 的回复 (2026-04-02 14:21:12 PDT) ---

是CPU的计算速度太慢吗

--- 第 25 楼来自 zpahai 的回复 (2026-04-02 15:58:16 PDT) ---

我自己没有mac但是我看m4 pro实际可用的也就是10b以下的模型。大的模型不是不能跑,是达不到可用的速度,当然有人的觉得10tps属于可用,这个就不好评价

--- 第 26 楼来自 Alila 的回复 (2026-04-02 16:30:11 PDT) ---

列.伊.勃列日涅夫: M5 Max 配环境就能配死你

--- 第 27 楼来自 Koiost 的回复 (2026-04-02 16:55:50 PDT) ---

LM Studio或者羊驼都很简单吧? /uploads/short-url/2b44zr57LyvwOqSzimeBn9W9iJY.png?dl=1

--- 第 28 楼来自 258 的回复 (2026-04-02 18:05:00 PDT) ---

等等党

--- 第 29 楼来自 jnnksn 的回复 (2026-04-02 19:12:09 PDT) ---

啥东西8000

--- 第 30 楼来自 jnnksn 的回复 (2026-04-02 19:13:14 PDT) ---

蹲一个1B

--- 第 31 楼来自 不知道是谁 的回复 (2026-04-02 19:17:03 PDT) ---

这时候都还打不过qwen也太拉了

--- 第 32 楼来自 折木奉太郎 的回复 (2026-04-02 19:18:16 PDT) ---

M5 max加128g内存的macbook

--- 第 33 楼来自 jnnksn 的回复 (2026-04-02 19:19:15 PDT) ---

Mac Studio便宜得多吧,现在才3149,键盘屏幕溢价严重

--- 第 34 楼来自 tomandjerry 的回复 (2026-04-02 19:39:27 PDT) ---

m5 max + 128g,瓶颈是m5 max了吧,空有内存,跑70b有什么速度?

--- 第 35 楼来自 折木奉太郎 的回复 (2026-04-02 19:45:14 PDT) ---

https://www.youtube.com/watch?v=A5w_k3GAwrQ jnnksn: Mac Studio便宜得多吧 主要是买M5,以后也许会便宜

--- 第 36 楼来自 tomandjerry 的回复 (2026-04-02 19:47:42 PDT) ---

买8个mac mini组集群

--- 第 37 楼来自 jnnksn 的回复 (2026-04-03 00:25:26 PDT) ---

万兆网口够用吗

--- 第 38 楼来自 tomandjerry 的回复 (2026-04-03 00:26:13 PDT) ---

不够,得十万兆的

--- 第 39 楼来自 harvey8 的回复 (2026-04-03 00:33:39 PDT) ---

十万兆?贫穷限制了我的想象力

--- 第 40 楼来自 Keiour 的回复 (2026-04-03 01:04:23 PDT) ---

自己刚量化了w,Q6_K本体略小于24G, + 64k上下文刚好31G,Q4_K_M本体17.5G,带64k上下文能塞进24G的卡。3090的含金量还在上升。 感觉Gemma 4思考挺短的,上下文再长意义不是很大。

--- 第 41 楼来自 Alila 的回复 (2026-04-03 02:11:32 PDT) ---

只跑inference当然可以,我还以为说的是用来做research,因为我想不到不依赖CUDA怎么进行finetune 只跑inference的话为什么不直接烧api或者冲subscription呢,买一个M5 Max的MacBook pro 16的钱够你冲几十年了

--- 第 42 楼来自 zuiaiwufan 的回复 (2026-04-03 02:43:07 PDT) ---

以后能不能手机跑的模型都干爆Claude4.6?

--- 第 43 楼来自 EndangeredZeegull 的回复 (2026-04-03 02:54:01 PDT) ---

Inference 的话也要看具体应用场景啊 如果prompt长,cache hit 高,本地inference的cache hit 成本是0,而且cache可以落盘,所以有几种情况合算 多个长input的prompt,超过在线api TTL 定期运行 长inout的prompt,没超过在线api ttl,但是频率很高而且没有特别多生成的token(龟速),主要为prefill

--- 第 44 楼来自 Alila 的回复 (2026-04-03 08:06:12 PDT) ---

问题是<30B的小模型相比于Claude, GPT这种上T的大模型效果差距太大了,完全无法比较 现在感觉小模型唯一用处就是VLA

--- 第 45 楼来自 Onvon 的回复 (2026-04-03 08:59:15 PDT) ---

用on-prem的小模型解决一些涉及PII的应用场景还是不错的

--- 第 46 楼来自 Keiour 的回复 (2026-04-16 14:21:40 PDT) ---

https://huggingface.co/Qwen/Qwen3.6-35B-A3B来了 简单测了几个自己的test case感觉只用半个月时间又把gemma 4 26b踢死了 就差一个dense模型了

--- 第 47 楼来自 BigCongming 的回复 (2026-04-16 16:27:34 PDT) ---

用上了,感觉确实不错