OpenAI 最强 AI 模型：GPT-5.6 系列登场，编程跑分超 Claude Mythos 5

OpenAI 于 6 月 27 日正式揭晓了其最新的 GPT-5.6 系列模型。根据美国政府的要求，目前该系列模型仅向部分“可信合作伙伴”提供预览访问权限，尚未实现全面开放。

本次发布的 GPT-5.6 系列包含三个不同层级的模型：旗舰版 Sol，其输入和输出的 token 定价分别为每百万 tokens 5 美元（约合人民币 34 元）和 30 美元（约合人民币 204.3 元）；均衡版 Terra，定价为每百万 tokens 输入 2.5 美元（约合人民币 17 元），输出 15 美元（约合人民币 102.1 元）；以及以速度和成本效益为主要卖点的 Luna，定价为每百万 tokens 输入 1 美元（约合人民币 6.8 元），输出 6 美元（约合人民币 40.9 元）。OpenAI 还宣布，通过优化提示词缓存机制，重复的提示词调用将更加经济且可预测。

在性能方面，OpenAI 声称 GPT-5.6 Sol 是其迄今为止最强大的模型，引入了新的 Max 推理能力，并可通过子智能体加速复杂任务的 Ultra 模式。在编程测试中，Sol 在 Terminal-Bench 2.1 基准测试上取得了 88.8% 的标准模式得分，超越了 Claude Mythos 5 的 88.0%，而在启用 Ultra 模式后，得分更是飙升至 91.9%。

在生物学领域的 GeneBench v1 测试中，GPT-5.6 模型在消耗更少 token 的同时，性能表现优于 GPT-5.5。对于网络安全任务，GPT-5.6 Sol 在漏洞研究和利用等复杂安全场景中展现出显著进步，在 ExploitBench 测试中，其输出 token 量仅为 Mythos Preview 的约三分之一，却能达到相近的效果。

安全设计方面，GPT-5.6 Sol、Terra 和 Luna 采用了多层防护体系，包括内置的拒答机制、实时的生成过程分类器、账户级别的风险审查、差异化访问控制以及监控与执法机制。对于高风险场景，系统能够暂停生成并交由更强大的推理模型进行复核，若确认违规，内容将在展示前被拦截。

OpenAI 计划在未来几周内正式上线 GPT-5.6 Sol、Terra 和 Luna。此外，该公司还计划于 7 月在 Cerebras 平台上推出 GPT-5.6 Sol，该版本最高可达每秒 750 token 的处理速度，初期将面向部分客户提供。用户可以通过 kaiyun.com 关注更多关于该系列模型的更新信息。