泥潭日报 uscardforum · 每日精选

GPT-5.5 代码能力飙升?然后 token 比 5.4 还少

内容摘要

GPT-5.5代码能力被质疑,但速度提升。

1. 关键信息

  • GPT-5.5 在 Terminal-Bench 2.0 准确率 82.7%,SWE-Bench Pro 58.6%,Expert-SWE 73.1%(#2)。
  • 用户反馈 5.5 比 5.4 速度快、质量可接受(#14)。
  • Plus 用户可用 5.5(#6)。
  • 有用户认为 Codex 比 Claude 好用(#9),也有用户指出 GPT 终端能力远不如 Claude(#8, #10, #12)。

2. 羊毛/优惠信息

3. 最新动态

  • GPT-5.5 已对 Plus 用户开放,token 消耗比 5.4 少(标题及 #6)。
  • 部分用户怀疑 OpenAI 故意让 5.4 降智以增加 token 使用(#3, #5)。

4. 争议或不同意见

  • #8 #10 #12 强烈质疑基准测试结果,认为 GPT Terminal 能力远不如 Claude,测试可能泄漏训练集。
  • #13 指出 GPT-5.4 表现不稳定(薛定谔),而 Claude 和 Kimi 更稳定。
  • #7 调侃 Anthropic(人类学)才是增加 token 使用最不要脸的。

5. 行动建议

  • 如果你是 Plus 用户,可以尝试 5.5 体验速度提升,但若依赖终端/命令行任务,建议继续使用 Claude。
原始内容
--- 第 1 楼来自 美卡小白用户 的回复 (2026-04-23 11:52:44 PDT) ---

/uploads/short-url/5Rcf6c3eDoWa4v0CWlczGUntIv1.png?dl=1

--- 第 2 楼来自 美卡小白用户 的回复 (2026-04-23 11:53:23 PDT) ---

根據OpenAI提供的基準測試結果,該模型在測試命令行工作流程的Terminal-Bench 2.0上達到82.7%的準確率,在評估GitHub問題解決能力的SWE-Bench Pro上達到58.6%的準確率。GPT-5.5在Expert-SWE(該公司針對預計需要20小時完成時間的編程任務的內部評估)上獲得73.1%的分數。

--- 第 3 楼来自 Aspartame 的回复 (2026-04-23 11:55:04 PDT) ---

用了codex 怎么感觉5。4降智一样,故意增加token使用率

--- 第 4 楼来自 tomandjerry 的回复 (2026-04-23 12:08:30 PDT) ---

比起claude 4p6 如何

--- 第 5 楼来自 pikachu12138 的回复 (2026-04-23 12:09:28 PDT) ---

什么plan可以用5.5啊,怪不得我感觉今天5.4 thinking蠢得要死

--- 第 6 楼来自 gedeepege 的回复 (2026-04-23 22:01:48 PDT) ---

plus 就可以了

--- 第 7 楼来自 bujidao 的回复 (2026-04-23 22:58:03 PDT) ---

论增加token使用量 我一直觉得人类学才是最不要脸的那个

--- 第 8 楼来自 Yangff 的回复 (2026-04-24 01:11:23 PDT) ---

美卡小白用户: Terminal-Bench 2.0上達到82.7%的準確率 不信,我这gpt 5.4用terminal都明显远远不如Claude,不是差一点点的那种,他这数据合理怀疑泄漏训练集了

--- 第 9 楼来自 richardfatman 的回复 (2026-04-24 01:24:18 PDT) ---

我最近从claude换到codex了,感觉codex更好用一些

--- 第 10 楼来自 Yangff 的回复 (2026-04-24 01:28:29 PDT) ---

我大量用这俩玩意做cherrypick,gpt这玩意整天生成一堆莫名其妙的命令在那扫硬盘 git也在那整棵树整棵树的扫 扫的完吗你

--- 第 11 楼来自 richardfatman 的回复 (2026-04-24 01:50:41 PDT) ---

我就简单写写代码和debug,感觉claude废话太多了,然后一碰到需要网上搜索的时候就停不下来,token消耗巨快

--- 第 12 楼来自 Yangff 的回复 (2026-04-24 10:33:55 PDT) ---

我说的Terminal-Bench,gpt明显没法正确地把我的指令翻译成合适的命令,但是得分高出这么多显然是作弊了……

--- 第 13 楼来自 Onvon 的回复 (2026-04-24 12:22:15 PDT) ---

感觉gpt5.4开始就有一种薛定谔的感觉 有时很神 有时又很笨 不像claude和kimi那么稳定

--- 第 14 楼来自 derek3 的回复 (2026-04-24 12:24:47 PDT) ---

感觉5.5比5.4舒服,速度快不少 质量也还可以