GPT-5.5 代码能力飙升？然后 token 比 5.4 还少

💬 闲聊作者美卡小白用户 2026-04-23 11:52 PST 原帖 #501227 ↗

内容摘要

GPT-5.5代码能力被质疑，但速度提升。

1. 关键信息

GPT-5.5 在 Terminal-Bench 2.0 准确率 82.7%，SWE-Bench Pro 58.6%，Expert-SWE 73.1%（#2）。
用户反馈 5.5 比 5.4 速度快、质量可接受（#14）。
Plus 用户可用 5.5（#6）。
有用户认为 Codex 比 Claude 好用（#9），也有用户指出 GPT 终端能力远不如 Claude（#8, #10, #12）。

2. 羊毛/优惠信息

无

3. 最新动态

GPT-5.5 已对 Plus 用户开放，token 消耗比 5.4 少（标题及 #6）。
部分用户怀疑 OpenAI 故意让 5.4 降智以增加 token 使用（#3, #5）。

4. 争议或不同意见

#8 #10 #12 强烈质疑基准测试结果，认为 GPT Terminal 能力远不如 Claude，测试可能泄漏训练集。
#13 指出 GPT-5.4 表现不稳定（薛定谔），而 Claude 和 Kimi 更稳定。
#7 调侃 Anthropic（人类学）才是增加 token 使用最不要脸的。

5. 行动建议

如果你是 Plus 用户，可以尝试 5.5 体验速度提升，但若依赖终端/命令行任务，建议继续使用 Claude。

原始内容

--- 第 1 楼来自美卡小白用户的回复 (2026-04-23 11:52:44 PDT) ---

/uploads/short-url/5Rcf6c3eDoWa4v0CWlczGUntIv1.png?dl=1

--- 第 2 楼来自美卡小白用户的回复 (2026-04-23 11:53:23 PDT) ---

根據OpenAI提供的基準測試結果,該模型在測試命令行工作流程的Terminal-Bench 2.0上達到82.7%的準確率,在評估GitHub問題解決能力的SWE-Bench Pro上達到58.6%的準確率。GPT-5.5在Expert-SWE(該公司針對預計需要20小時完成時間的編程任務的內部評估)上獲得73.1%的分數。

--- 第 3 楼来自 Aspartame 的回复 (2026-04-23 11:55:04 PDT) ---

用了codex 怎么感觉5。4降智一样，故意增加token使用率

--- 第 4 楼来自 tomandjerry 的回复 (2026-04-23 12:08:30 PDT) ---

比起claude 4p6 如何

--- 第 5 楼来自 pikachu12138 的回复 (2026-04-23 12:09:28 PDT) ---

什么plan可以用5.5啊，怪不得我感觉今天5.4 thinking蠢得要死

--- 第 6 楼来自 gedeepege 的回复 (2026-04-23 22:01:48 PDT) ---

plus 就可以了

--- 第 7 楼来自 bujidao 的回复 (2026-04-23 22:58:03 PDT) ---

论增加token使用量我一直觉得人类学才是最不要脸的那个

--- 第 8 楼来自 Yangff 的回复 (2026-04-24 01:11:23 PDT) ---

美卡小白用户: Terminal-Bench 2.0上達到82.7%的準確率不信，我这gpt 5.4用terminal都明显远远不如Claude，不是差一点点的那种，他这数据合理怀疑泄漏训练集了

--- 第 9 楼来自 richardfatman 的回复 (2026-04-24 01:24:18 PDT) ---

我最近从claude换到codex了，感觉codex更好用一些

--- 第 10 楼来自 Yangff 的回复 (2026-04-24 01:28:29 PDT) ---

我大量用这俩玩意做cherrypick，gpt这玩意整天生成一堆莫名其妙的命令在那扫硬盘 git也在那整棵树整棵树的扫扫的完吗你

--- 第 11 楼来自 richardfatman 的回复 (2026-04-24 01:50:41 PDT) ---

我就简单写写代码和debug，感觉claude废话太多了，然后一碰到需要网上搜索的时候就停不下来，token消耗巨快

--- 第 12 楼来自 Yangff 的回复 (2026-04-24 10:33:55 PDT) ---

我说的Terminal-Bench，gpt明显没法正确地把我的指令翻译成合适的命令，但是得分高出这么多显然是作弊了……

--- 第 13 楼来自 Onvon 的回复 (2026-04-24 12:22:15 PDT) ---

感觉gpt5.4开始就有一种薛定谔的感觉有时很神有时又很笨不像claude和kimi那么稳定

--- 第 14 楼来自 derek3 的回复 (2026-04-24 12:24:47 PDT) ---

感觉5.5比5.4舒服，速度快不少质量也还可以

💬 闲聊 · 其他高楼

关于本论坛的会员等级体系 💬 4422
帖子标题
如何成为白金会员 💬 2276
如何成为白金会员需满足阅读、回帖与点赞等条件。
白金会员还挺难保持的 💬 855
白金会员保持难度高，因违规Referral被降级，用户需谨慎互动并注意论坛规则。
全年不落最大障碍 💬 828
“全年不落”挑战：时区、旅行成主要障碍，用户探索自动化与系统Bug，部分用户因断签而放弃，新增用户因回国掉白金而放弃。
Amex大聪明石膏果然来了200k public 💬 763
总结当前大聪明NLL开卡及策略现状与争议。
【Nitan MCP】你的专属泥潭AI助手 (全新2.0震撼发布，Skill支持OpenClaw） 💬 729
帖子标题
错字侠出警 👊 💬 677
错字侠继续出警，聚焦“问券”与“问卷”、“视频”与“视屏”等错别字，并延伸至报税相关信息。
魔改了个论坛脚本，能看 TL(TrustLevel) 升级进度 !!仅供参考实际还有一些暗坑详见描述!! 💬 588
论坛脚本可视化TL升级进度，用户普遍反映升级困难，“被赞”数量成瓶颈，TL等级稳定性变化及账号安全风险引关注。

← 返回 💬 闲聊