GPT-5.5 代码能力飙升?然后 token 比 5.4 还少
GPT-5.5代码能力被质疑,但速度提升。
1. 关键信息
- GPT-5.5 在 Terminal-Bench 2.0 准确率 82.7%,SWE-Bench Pro 58.6%,Expert-SWE 73.1%(#2)。
- 用户反馈 5.5 比 5.4 速度快、质量可接受(#14)。
- Plus 用户可用 5.5(#6)。
- 有用户认为 Codex 比 Claude 好用(#9),也有用户指出 GPT 终端能力远不如 Claude(#8, #10, #12)。
2. 羊毛/优惠信息
无
3. 最新动态
- GPT-5.5 已对 Plus 用户开放,token 消耗比 5.4 少(标题及 #6)。
- 部分用户怀疑 OpenAI 故意让 5.4 降智以增加 token 使用(#3, #5)。
4. 争议或不同意见
- #8 #10 #12 强烈质疑基准测试结果,认为 GPT Terminal 能力远不如 Claude,测试可能泄漏训练集。
- #13 指出 GPT-5.4 表现不稳定(薛定谔),而 Claude 和 Kimi 更稳定。
- #7 调侃 Anthropic(人类学)才是增加 token 使用最不要脸的。
5. 行动建议
- 如果你是 Plus 用户,可以尝试 5.5 体验速度提升,但若依赖终端/命令行任务,建议继续使用 Claude。
/uploads/short-url/5Rcf6c3eDoWa4v0CWlczGUntIv1.png?dl=1
根據OpenAI提供的基準測試結果,該模型在測試命令行工作流程的Terminal-Bench 2.0上達到82.7%的準確率,在評估GitHub問題解決能力的SWE-Bench Pro上達到58.6%的準確率。GPT-5.5在Expert-SWE(該公司針對預計需要20小時完成時間的編程任務的內部評估)上獲得73.1%的分數。
用了codex 怎么感觉5。4降智一样,故意增加token使用率
比起claude 4p6 如何
什么plan可以用5.5啊,怪不得我感觉今天5.4 thinking蠢得要死
plus 就可以了
论增加token使用量 我一直觉得人类学才是最不要脸的那个
美卡小白用户: Terminal-Bench 2.0上達到82.7%的準確率 不信,我这gpt 5.4用terminal都明显远远不如Claude,不是差一点点的那种,他这数据合理怀疑泄漏训练集了
我最近从claude换到codex了,感觉codex更好用一些
我大量用这俩玩意做cherrypick,gpt这玩意整天生成一堆莫名其妙的命令在那扫硬盘 git也在那整棵树整棵树的扫 扫的完吗你
我就简单写写代码和debug,感觉claude废话太多了,然后一碰到需要网上搜索的时候就停不下来,token消耗巨快
我说的Terminal-Bench,gpt明显没法正确地把我的指令翻译成合适的命令,但是得分高出这么多显然是作弊了……
感觉gpt5.4开始就有一种薛定谔的感觉 有时很神 有时又很笨 不像claude和kimi那么稳定
感觉5.5比5.4舒服,速度快不少 质量也还可以