泥潭日报 uscardforum · 内容汇总

GPT 5.6 previewing

内容摘要

GPT-5.6预览版发布,Sol/Terra/Luna三档定价及缓存计费变更引发讨论。

关键信息与定价策略

@AlveROsT #1 详细拆解了 OpenAI 发布的 GPT-5.6 Preview 技术细节: * 模型架构与命名:采用“数字=代际(5.6)+ 名字=性能档”体系,分为 Sol、Terra、Luna 三档。Sol 内置 Subagent Orchestration(自动拆分任务并行处理),配合新的 “max” reasoning effort;Terra 性能约等于 GPT-5.5;Luna 无 Activation Classifier(出于成本考虑)。 * 性能表现:Coding 方面在 Terminal-Bench 2.1 达到 SOTA;Bio 领域 GeneBench v1 强于 5.5 且 Token 更少;Cyber 领域 ExploitGym 上三个型号均优于前代。Prompt injection 防御在 search & function-calling 场景从 0.697 提升至 0.91+。 * 定价调整: * Sol: $5/$30 per 1M tokens * Terra: $2.50/$15 per 1M tokens * Luna: $1/$6 per 1M tokens * 缓存机制变更:写入费用调整为 1.25x(此前免费),读取仍享 90% 折扣;支持 explicit cache breakpoints,最低缓存存活期为 30 分钟。

安全架构与潜在风险

@AlveROsT #1 指出安全系统发生显著变化,引入多层防御:模型拒绝 → Activation Classifier(读取 hidden states 监控推理意图)→ 实时 text classifier → reasoning model 二审 → 账户级跨对话监控。该机制不可 opt-out,开发者仅能控制 confirmation policy。此外,5.6 比 5.5 更容易 over-act(主动执行未要求操作),虽绝对率低但存在不确定性,可能影响 API 调用的 latency。

社区观点与争议

  • 职业焦虑:@flywire #2 认为码农职业将如电话接线员般终结;@Maxwell #3 则觉得更新幅度不大,属于渐进式改进。
  • 命名质疑:@skyblu #4 指出下一代模型未命名为 GPT6 而是 5.6,暗示版本迭代逻辑变化。
  • 功能对比:@xenomorph #13 认为 Ultra 模式类似 Claude Code ultracode,效果强劲;@Wechat #6 询问 RL 训练代码两年半是否超越 Fable(注:此处可能指代特定模型或内部代号,语境不明)。
  • 其他闲聊:涉及政治隐喻(#8, #9, #10)及关于版本升级与封禁关系的猜测(#11),以及何时可用的询问(#12, #5)。
原始内容
--- 第 1 楼来自 AlveROsT 的回复 (2026-06-26 13:57:46 PDT) ---

https://openai.com/index/previewing-gpt-5-6-sol/ 让 AI 简单总结了一下: 性能提升: Coding: Terminal-Bench 2.1 SOTA(命令行规划+工具协调),但没给具体数字对比 5.5 Bio: GeneBench v1 比 5.5 更强且 token 用量更少 Cyber: ExploitBench 上跟 Mythos Preview 持平但只用 1/3 output tokens;ExploitGym 上三个型号都比前代强 Prompt injection 防御: search & function-calling 场景从 0.697 → 0.91+ 综合:Terra ≈ GPT-5.5 性能,半价 Ultra 模式(Sol 独有): 内置 subagent orchestration,模型自动拆分任务给多个 agent 并行 配合新的 “max” reasoning effort 等级 对 API 调用者来说 token 计费和控制粒度不明 Activation Classifier(Sol + Terra): 读 hidden states 而非输出文本,监控推理意图 学术上不算新(probing classifiers / representation engineering 已有大量工作),但工业规模部署在 inference pipeline 里是第一次公开做 Luna 没有(成本原因) Safety 架构变化: 多层:模型 refusal → activation classifier → 实时 text classifier → reasoning model 二审 → 账户级跨对话监控 不可 opt-out,开发者只能控制 confirmation policy,不能关闭平台层 5.6 比 5.5 更容易 over-act(主动做你没要求的事),absolute rate 低但存在 命名体系: 数字 = 代际(5.6),名字 = 性能档(Sol/Terra/Luna) 档次独立迭代,以后可能出 5.6 Sol v2 之类的 Cache 机制改动: 写入 1.25x 收费(以前免费写入),读取 90% 折扣不变 支持 explicit cache breakpoints(开发者可控缓存边界) 最低缓存存活 30 分钟 定价: Sol: $5/$30 · Terra: $2.50/$15 · Luna: $1/$6(per 1M tokens) 实话说: 除了 activation classifier 的工程落地和 ultra subagent 模式,大部分是渐进式改进 + 安全叙事包装。对普通开发者影响最大的可能是 cache 计费模型变化和 safety 系统带来的 latency 不确定性,而不是模型能力本身。

--- 第 2 楼来自 flywire 的回复 (2026-06-26 13:58:59 PDT) ---

结束了 码农这个职业和电话接线员一样结束了

--- 第 3 楼来自 Maxwell 的回复 (2026-06-26 14:05:59 PDT) ---

一次更新感觉改变不大,几年下来就了不得了。

--- 第 4 楼来自 skyblu 的回复 (2026-06-26 14:10:02 PDT) ---

next generation model 然后叫5.6不叫gpt6

--- 第 5 楼来自 DeutscheGrammophon 的回复 (2026-06-26 14:20:48 PDT) ---

以后长对话反而会便宜了

--- 第 6 楼来自 Wechat 的回复 (2026-06-26 14:23:15 PDT) ---

所以RL练习写代码两年半,超越fable?

--- 第 7 楼来自 Wechat 的回复 (2026-06-26 14:24:01 PDT) ---

AlveROsT: 读 hidden states 而非输出文本 latent reasoning端上桌了?

--- 第 8 楼来自 折木奉太郎 的回复 (2026-06-26 14:35:27 PDT) ---

就是川普不让用那个么

--- 第 9 楼来自 Wechat 的回复 (2026-06-26 14:36:34 PDT) ---

良民让用

--- 第 10 楼来自 折木奉太郎 的回复 (2026-06-26 14:40:21 PDT) ---

我是外星人 看我给你表演一个生气 我还能变色

--- 第 11 楼来自 dancingbro 的回复 (2026-06-26 15:09:27 PDT) ---

是不是不升到6就不会被禁?以后会不会出现5.6b反向挤牙膏?

--- 第 12 楼来自 Edward40 的回复 (2026-06-26 15:18:49 PDT) ---

什么时候让使用

--- 第 13 楼来自 xenomorph 的回复 (2026-06-26 15:27:26 PDT) ---

AlveROsT: Ultra 模式 看来和Claude Code ultracode差不多,还没没试过的可以去试试,真的很强