GPT 5.6 previewing
GPT-5.6预览版发布,Sol/Terra/Luna三档定价及缓存计费变更引发讨论。
关键信息与定价策略
@AlveROsT #1 详细拆解了 OpenAI 发布的 GPT-5.6 Preview 技术细节: * 模型架构与命名:采用“数字=代际(5.6)+ 名字=性能档”体系,分为 Sol、Terra、Luna 三档。Sol 内置 Subagent Orchestration(自动拆分任务并行处理),配合新的 “max” reasoning effort;Terra 性能约等于 GPT-5.5;Luna 无 Activation Classifier(出于成本考虑)。 * 性能表现:Coding 方面在 Terminal-Bench 2.1 达到 SOTA;Bio 领域 GeneBench v1 强于 5.5 且 Token 更少;Cyber 领域 ExploitGym 上三个型号均优于前代。Prompt injection 防御在 search & function-calling 场景从 0.697 提升至 0.91+。 * 定价调整: * Sol: $5/$30 per 1M tokens * Terra: $2.50/$15 per 1M tokens * Luna: $1/$6 per 1M tokens * 缓存机制变更:写入费用调整为 1.25x(此前免费),读取仍享 90% 折扣;支持 explicit cache breakpoints,最低缓存存活期为 30 分钟。
安全架构与潜在风险
@AlveROsT #1 指出安全系统发生显著变化,引入多层防御:模型拒绝 → Activation Classifier(读取 hidden states 监控推理意图)→ 实时 text classifier → reasoning model 二审 → 账户级跨对话监控。该机制不可 opt-out,开发者仅能控制 confirmation policy。此外,5.6 比 5.5 更容易 over-act(主动执行未要求操作),虽绝对率低但存在不确定性,可能影响 API 调用的 latency。
社区观点与争议
- 职业焦虑:@flywire #2 认为码农职业将如电话接线员般终结;@Maxwell #3 则觉得更新幅度不大,属于渐进式改进。
- 命名质疑:@skyblu #4 指出下一代模型未命名为 GPT6 而是 5.6,暗示版本迭代逻辑变化。
- 功能对比:@xenomorph #13 认为 Ultra 模式类似 Claude Code ultracode,效果强劲;@Wechat #6 询问 RL 训练代码两年半是否超越 Fable(注:此处可能指代特定模型或内部代号,语境不明)。
- 其他闲聊:涉及政治隐喻(#8, #9, #10)及关于版本升级与封禁关系的猜测(#11),以及何时可用的询问(#12, #5)。
https://openai.com/index/previewing-gpt-5-6-sol/ 让 AI 简单总结了一下: 性能提升: Coding: Terminal-Bench 2.1 SOTA(命令行规划+工具协调),但没给具体数字对比 5.5 Bio: GeneBench v1 比 5.5 更强且 token 用量更少 Cyber: ExploitBench 上跟 Mythos Preview 持平但只用 1/3 output tokens;ExploitGym 上三个型号都比前代强 Prompt injection 防御: search & function-calling 场景从 0.697 → 0.91+ 综合:Terra ≈ GPT-5.5 性能,半价 Ultra 模式(Sol 独有): 内置 subagent orchestration,模型自动拆分任务给多个 agent 并行 配合新的 “max” reasoning effort 等级 对 API 调用者来说 token 计费和控制粒度不明 Activation Classifier(Sol + Terra): 读 hidden states 而非输出文本,监控推理意图 学术上不算新(probing classifiers / representation engineering 已有大量工作),但工业规模部署在 inference pipeline 里是第一次公开做 Luna 没有(成本原因) Safety 架构变化: 多层:模型 refusal → activation classifier → 实时 text classifier → reasoning model 二审 → 账户级跨对话监控 不可 opt-out,开发者只能控制 confirmation policy,不能关闭平台层 5.6 比 5.5 更容易 over-act(主动做你没要求的事),absolute rate 低但存在 命名体系: 数字 = 代际(5.6),名字 = 性能档(Sol/Terra/Luna) 档次独立迭代,以后可能出 5.6 Sol v2 之类的 Cache 机制改动: 写入 1.25x 收费(以前免费写入),读取 90% 折扣不变 支持 explicit cache breakpoints(开发者可控缓存边界) 最低缓存存活 30 分钟 定价: Sol: $5/$30 · Terra: $2.50/$15 · Luna: $1/$6(per 1M tokens) 实话说: 除了 activation classifier 的工程落地和 ultra subagent 模式,大部分是渐进式改进 + 安全叙事包装。对普通开发者影响最大的可能是 cache 计费模型变化和 safety 系统带来的 latency 不确定性,而不是模型能力本身。
结束了 码农这个职业和电话接线员一样结束了
一次更新感觉改变不大,几年下来就了不得了。
next generation model 然后叫5.6不叫gpt6
以后长对话反而会便宜了
所以RL练习写代码两年半,超越fable?
AlveROsT: 读 hidden states 而非输出文本 latent reasoning端上桌了?
就是川普不让用那个么
良民让用
我是外星人 看我给你表演一个生气 我还能变色
是不是不升到6就不会被禁?以后会不会出现5.6b反向挤牙膏?
什么时候让使用
AlveROsT: Ultra 模式 看来和Claude Code ultracode差不多,还没没试过的可以去试试,真的很强