GPT-5.5 已登陆 ChatGPT 与 Codex

4/24/2026

OpenAI 于 2026 年 4 月 23 日发布 GPT-5.5，并将其描述为面向真实工作的全新智能模型。按照官方说法，GPT-5.5 能更快理解用户意图，更有效地使用工具，检查自己的工作，并在复杂任务完成前持续推进。OpenAI 将其应用场景集中在写代码与调试、在线研究、数据分析、生成文档和电子表格、操作软件，以及在多个工具之间移动完成任务。相比要求用户逐步管理流程，GPT-5.5 被定位为更适合处理混乱、多阶段、需要规划和执行的工作。

Introducing GPT-5.5

A new class of intelligence for real work and powering agents, built to understand complex goals, use tools, check its work, and carry more tasks through to completion. It marks a new way of getting computer work done.

Now available in ChatGPT and Codex. pic.twitter.com/rPLTk99ZH5
— OpenAI (@OpenAI) April 23, 2026

发布内容首先强调了代理式编码能力。OpenAI 表示，GPT-5.5 是其目前最强的 agentic coding 模型。在 Terminal-Bench 2.0 中，模型取得 82.7% 的准确率；该评测关注需要规划、迭代和工具协调的复杂命令行工作流。在 SWE-Bench Pro 中，GPT-5.5 达到 58.6%；这一评测用于衡量真实 GitHub issue 的端到端解决能力。OpenAI 还表示，在内部 Expert-SWE 评测中，GPT-5.5 也超过 GPT-5.4；该评测面向长周期编码任务，其中位估计人工完成时间为 20 小时。Codex 中的 GPT-5.5 被用于实现、重构、调试、测试和验证等工程任务。 https://pbs.twimg.com/media/HGm8jVWbsAAwL60?format=png&name=900x900 OpenAI 将这些提升与真实软件工程所需的行为联系在一起。官方称，GPT-5.5 更擅长在大型系统中保持上下文，分析模糊故障，借助工具检查假设，并把变更延伸到周边代码结构。公司还表示，在三项编码评测中，GPT-5.5 都优于 GPT-5.4，同时完成相同 Codex 任务时使用更少 token。效率也是这次发布的重要信息之一：OpenAI 称，在真实服务环境中，GPT-5.5 的每 token 延迟与 GPT-5.4 持平，但智能水平更高。除编码外，GPT-5.5 也被设计为面向电脑上日常知识工作的模型。OpenAI 表示，它能更自然地完成从查找信息、理解重点、使用工具、检查输出到把原始材料转化为可用成果的完整流程。官方评测表显示，GPT-5.5 在 GDPval 中取得 84.9%，在 OSWorld-Verified 中为 78.7%，在无需 prompt tuning 的 Tau2-bench Telecom 中为 98.0%。此外，它在 FinanceAgent 中为 60.0%，在内部投资银行建模任务中为 88.5%，在 OfficeQA Pro 中为 54.1%。OpenAI 还表示，在 Codex 中，GPT-5.5 比 GPT-5.4 更擅长生成文档、电子表格和演示文稿。 GPT-5.5 Pro 则被定位为 ChatGPT 中处理更难问题和更高准确性工作的版本。OpenAI 称，早期测试者认为，与 GPT-5.4 Pro 相比，GPT-5.5 Pro 的回答更全面、结构更清晰、更准确、更相关，也更有用，在商业、法律、教育和数据科学任务中反馈尤其明显。目前，GPT-5.5 Thinking 正在面向 ChatGPT 的 Plus、Pro、Business 和 Enterprise 用户推出；GPT-5.5 Pro 面向 Pro、Business 和 Enterprise 用户推出。在 Codex 中，GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放，并提供 400K 上下文窗口。Fast mode 也同步提供，可用 2.5 倍成本换取 1.5 倍 token 生成速度。科学与技术研究是发布中的另一项重点。OpenAI 表示，GPT-5.5 不只是回答难题，而是更擅长持续推进研究流程，包括探索想法、收集证据、测试假设、解释结果并决定下一步。在 GeneBench 上，GPT-5.5 相比 GPT-5.4 有明显提升；该评测关注遗传学和定量生物学中的多阶段科学数据分析。在 BixBench 上，OpenAI 称 GPT-5.5 在已发布成绩的模型中表现突出。公告还提到，一个带有自定义 harness 的内部 GPT-5.5 版本帮助发现了关于 Ramsey 数的新证明，随后该结果通过 Lean 验证。安全与分阶段部署也是这次发布的重要部分。OpenAI 表示，GPT-5.5 在发布前经过完整的安全和治理流程，包括准备度评估、领域专项测试、针对高级生物学和网络安全能力的新评测，以及外部专家参与的测试。公司将 GPT-5.5 的生物、化学和网络安全能力在 Preparedness Framework 下归为 High，但同时说明其网络安全能力没有达到 Critical 级别。API 方面，GPT-5.5 和 GPT-5.5 Pro 尚未正式上线，但 OpenAI 表示会很快推出。计划中的 API 价格为：gpt-5.5 每 100 万输入 token 5 美元、每 100 万输出 token 30 美元；gpt-5.5-pro 每 100 万输入 token 30 美元、每 100 万输出 token 180 美元。