泥潭日报 uscardforum · 内容汇总

AI Coding Agent楼

内容摘要

多家AI模型同时降智,用户反馈ChatGPT 5.4变差、5.5表现优秀。

1. 关键信息

  • Claude 4.7 MRCR v2 @ 1M tokens 32.2%,较4.6(78.3%)大幅下降 #4。
  • 缓存从1小时降至5分钟,增加Token usage #14。
  • KV cache compression 或为降本增效手段 #10。
  • Claude Code Opus 4.7 速度明显变慢 #17。
  • 4.6同样出现降智,疑似推广4.7 fast #19。
  • ChatGPT 5.4在5.5发布后表现变差,用户质疑之前是否用过真5.4 #24。
  • 多家AI厂商(Claude、ChatGPT等)同时出现降智现象 #22。

2. 羊毛/优惠信息

3. 最新动态

  • 4.6已降智,4.7表现不佳且速度极慢 #4、#13、#17。
  • 政府专供模型未受影响 #1。
  • 有用户尝试替代方案:自部署DeepSeek V4 flash #18。
  • Gemini 3.5 已发布但Pro版仍停留在3.1,表格输出仅HTML格式而非渲染,疑似降智 #21。
  • llama.cpp尚未支持新版模型 #20。
  • ChatGPT 5.5获得用户高度评价("yyds")#23,但5.4版本在5.5发布后出现降智迹象 #24。
  • 多家AI厂商同时出现模型降智现象 #22。

4. 争议或不同意见

  • 降智是否为故意策略以凸显4.7优势 #6、#12。
  • 模型发布节奏受上市压力影响 #13。
  • 4.6降智被质疑是为了推广4.7 fast版本 #19。
  • Gemini 3.5 Pro版功能受限引发降智猜测 #21。
  • ChatGPT 5.4的降智引发用户在5.5发布后对其真实性的怀疑 #24。

5. 行动建议

  • 使用4.6满血版本并监控长期稳定性 #8、#16。
  • 考虑自部署DeepSeek V4 flash等替代方案以应对速度问题 #18。
  • 关注llama.cpp对新模型的支持进展 #20。
  • 可尝试ChatGPT 5.5作为备选方案,但注意其发布后旧版可能降智 #23、#24。
原始内容
--- 第 1 楼来自 Jackie099 的回复 (2026-04-15 08:04:24 PDT) ---

变傻也就算了 https://aistupidlevel.info/ https://aistupidlevel.info/ Ultimate AI benchmarking tool for 2025. Test AI performance, compare AI models, and find the best AI for coding. Real-time AI benchmark results and LLM performance tests. /uploads/short-url/pCDijgQhQXo78MWcux3Su0u89nK.png?dl=1 又炸了 /uploads/short-url/jkyeiGTa9y03mIbWBZpjAQTXlSs.png?dl=1 但政府专供没有

--- 第 2 楼来自 skyblu 的回复 (2026-04-15 08:10:02 PDT) ---

AI Coding Agent Claude Status楼

--- 第 3 楼来自 zpahai 的回复 (2026-04-15 08:22:51 PDT) ---

早上炸太正常了,降智才是严重的问题

--- 第 4 楼来自 Jackie099 的回复 (2026-04-16 08:26:08 PDT) ---

https://www.anthropic.com/news/claude-opus-4-7 https://www.anthropic.com/news/claude-opus-4-7 Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems. 4.7来咯 能用上几天不降智的模型了 而且看起来4.7的long context retrieval更差? MRCR v2 @ 1M tokens 4.6: 78.3% 4.7: 32.2%

--- 第 5 楼来自 sjlahdklasj 的回复 (2026-04-16 08:45:40 PDT) ---

这是很关键的指标啊,很难相信竟然大规模倒退?

--- 第 6 楼来自 bujidao 的回复 (2026-04-16 08:49:56 PDT) ---

anthropic:反正你们也没得选 反正你们古法技能已经退化了 反正c level会track你们的ai usage 我都要上市了啦啦啦

--- 第 7 楼来自 handsomejack 的回复 (2026-04-16 08:51:40 PDT) ---

就靠在次新的模型降本增效 来省钱呢。 有了4.7, 4.6马上也要降智了

--- 第 8 楼来自 Jackie099 的回复 (2026-04-16 08:55:03 PDT) ---

4.6已经降麻了, 给你们个满血4.6用用又要感恩戴德 真是畜生公司

--- 第 9 楼来自 illusionwing 的回复 (2026-04-16 09:05:42 PDT) ---

本来就是指望政府的钱,一个月才付几百刀的算什么客户

--- 第 10 楼来自 收束观测者 的回复 (2026-04-16 09:14:08 PDT) ---

可能为了降本增效用了某些KV cache compression 比如热炒那个

--- 第 11 楼来自 skyblu 的回复 (2026-04-16 09:17:16 PDT) ---

还要告诉你我们有一个全世界最牛逼的模型但就是不让你用

--- 第 12 楼来自 gin_m 的回复 (2026-04-16 09:18:37 PDT) ---

降智后才能 4.7 比 4.6 完胜啊 we improve quality by 200%

--- 第 13 楼来自 折木奉太郎 的回复 (2026-04-16 09:24:53 PDT) ---

可能是这么个故事:下面的人把4.7做出来了,一测试比4.6还拉跨。但是三天不发新模型赶不上山姆奥特曼,一直不发新模型容易被华尔街BB不好上市。大料一拍脑袋,给4.6来个暖心升级

--- 第 14 楼来自 handsomejack 的回复 (2026-04-16 09:34:11 PDT) ---

还把缓存从一小时降到5分钟了,增加token usage

--- 第 15 楼来自 Jackie099 的回复 (2026-04-16 10:12:09 PDT) ---

Meta:你再骂

--- 第 16 楼来自 Jackie099 的回复 (2026-04-16 10:12:18 PDT) ---

/uploads/short-url/zLqrckzMeWAYfJwMWmKyDbfoOUN.png?dl=1 收到了,开始干活

--- 第 17 楼来自 Jackie099 的回复 (2026-05-19 15:00:19 PDT) ---

已经好几天claude code opus 4.7慢的妈都不认识了……

--- 第 18 楼来自 Wi-Fi 的回复 (2026-05-19 15:05:52 PDT) ---

要不试试自己部署个deepseek V4 flash,保证快

--- 第 19 楼来自 skyblu 的回复 (2026-05-19 15:09:40 PDT) ---

4.6也是 是不是在推广4.7 fast

--- 第 20 楼来自 Jackie099 的回复 (2026-05-19 15:20:32 PDT) ---

有意思 llama.cpp还没有支持

--- 第 21 楼来自 See 的回复 (2026-05-19 15:35:58 PDT) ---

Gemini 3.5 出了但pro 版还停留在3.1。做表格只会直接出html格式而不是render成真的表格。降智了?

--- 第 22 楼来自 Jackie099 的回复 (2026-05-19 16:19:56 PDT) ---

几家都在降

--- 第 23 楼来自 China.No.1 的回复 (2026-05-19 16:23:20 PDT) ---

5.5 yyds

--- 第 24 楼来自 AppleVisionPro 的回复 (2026-05-19 16:26:38 PDT) ---

Claude就不说了 ChatGPT5.4自从5.5发布之后,我有时候都在怀疑我以前用的是5.4吗?