AI Coding Agent楼
多家AI模型同时降智,用户反馈ChatGPT 5.4变差、5.5表现优秀。
1. 关键信息
- Claude 4.7 MRCR v2 @ 1M tokens 32.2%,较4.6(78.3%)大幅下降 #4。
- 缓存从1小时降至5分钟,增加Token usage #14。
- KV cache compression 或为降本增效手段 #10。
- Claude Code Opus 4.7 速度明显变慢 #17。
- 4.6同样出现降智,疑似推广4.7 fast #19。
- ChatGPT 5.4在5.5发布后表现变差,用户质疑之前是否用过真5.4 #24。
- 多家AI厂商(Claude、ChatGPT等)同时出现降智现象 #22。
2. 羊毛/优惠信息
无
3. 最新动态
- 4.6已降智,4.7表现不佳且速度极慢 #4、#13、#17。
- 政府专供模型未受影响 #1。
- 有用户尝试替代方案:自部署DeepSeek V4 flash #18。
- Gemini 3.5 已发布但Pro版仍停留在3.1,表格输出仅HTML格式而非渲染,疑似降智 #21。
- llama.cpp尚未支持新版模型 #20。
- ChatGPT 5.5获得用户高度评价("yyds")#23,但5.4版本在5.5发布后出现降智迹象 #24。
- 多家AI厂商同时出现模型降智现象 #22。
4. 争议或不同意见
- 降智是否为故意策略以凸显4.7优势 #6、#12。
- 模型发布节奏受上市压力影响 #13。
- 4.6降智被质疑是为了推广4.7 fast版本 #19。
- Gemini 3.5 Pro版功能受限引发降智猜测 #21。
- ChatGPT 5.4的降智引发用户在5.5发布后对其真实性的怀疑 #24。
5. 行动建议
- 使用4.6满血版本并监控长期稳定性 #8、#16。
- 考虑自部署DeepSeek V4 flash等替代方案以应对速度问题 #18。
- 关注llama.cpp对新模型的支持进展 #20。
- 可尝试ChatGPT 5.5作为备选方案,但注意其发布后旧版可能降智 #23、#24。
变傻也就算了 https://aistupidlevel.info/ https://aistupidlevel.info/ Ultimate AI benchmarking tool for 2025. Test AI performance, compare AI models, and find the best AI for coding. Real-time AI benchmark results and LLM performance tests. /uploads/short-url/pCDijgQhQXo78MWcux3Su0u89nK.png?dl=1 又炸了 /uploads/short-url/jkyeiGTa9y03mIbWBZpjAQTXlSs.png?dl=1 但政府专供没有
AI Coding Agent Claude Status楼
早上炸太正常了,降智才是严重的问题
https://www.anthropic.com/news/claude-opus-4-7 https://www.anthropic.com/news/claude-opus-4-7 Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems. 4.7来咯 能用上几天不降智的模型了 而且看起来4.7的long context retrieval更差? MRCR v2 @ 1M tokens 4.6: 78.3% 4.7: 32.2%
这是很关键的指标啊,很难相信竟然大规模倒退?
anthropic:反正你们也没得选 反正你们古法技能已经退化了 反正c level会track你们的ai usage 我都要上市了啦啦啦
就靠在次新的模型降本增效 来省钱呢。 有了4.7, 4.6马上也要降智了
4.6已经降麻了, 给你们个满血4.6用用又要感恩戴德 真是畜生公司
本来就是指望政府的钱,一个月才付几百刀的算什么客户
可能为了降本增效用了某些KV cache compression 比如热炒那个
还要告诉你我们有一个全世界最牛逼的模型但就是不让你用
降智后才能 4.7 比 4.6 完胜啊 we improve quality by 200%
可能是这么个故事:下面的人把4.7做出来了,一测试比4.6还拉跨。但是三天不发新模型赶不上山姆奥特曼,一直不发新模型容易被华尔街BB不好上市。大料一拍脑袋,给4.6来个暖心升级
还把缓存从一小时降到5分钟了,增加token usage
Meta:你再骂
/uploads/short-url/zLqrckzMeWAYfJwMWmKyDbfoOUN.png?dl=1 收到了,开始干活
已经好几天claude code opus 4.7慢的妈都不认识了……
要不试试自己部署个deepseek V4 flash,保证快
4.6也是 是不是在推广4.7 fast
有意思 llama.cpp还没有支持
Gemini 3.5 出了但pro 版还停留在3.1。做表格只会直接出html格式而不是render成真的表格。降智了?
几家都在降
5.5 yyds
Claude就不说了 ChatGPT5.4自从5.5发布之后,我有时候都在怀疑我以前用的是5.4吗?