Codex 新增电脑操作功能

4/17/2026
Codex发布了一次重要更新,整体定位也随之进一步扩展。按照官方说法,这次更新面向每周使用Codex加速开发工作的300多万开发者,希望让它覆盖软件开发生命周期中的更多环节,而不再只是一个单纯的代码生成工具。新版Codex现在可以在用户身边直接操作电脑,与更多日常应用和工具协同工作,生成图像,记住用户偏好,从过去的操作中学习,并接手持续性或可重复的工作。Codex应用本身也加入了更多面向开发者工作流的功能,包括审阅PR、同时查看多个文件与终端、通过SSH连接远程开发环境,以及内置浏览器,以便更快地迭代前端设计、应用和游戏。 这次更新中最受关注的变化之一,是后台电脑使用能力。官方表示,Codex现在可以通过自己的光标看到屏幕内容、点击界面并输入文字,从而直接操作电脑上的应用程序。多个代理还能在同一台Mac上并行工作,而不会干扰用户在其他应用中的正常操作。对于开发者来说,这意味着Codex不仅可以用于前端修改迭代和应用测试,也能进入那些本身没有提供API的软件环境中协助完成工作。与此同时,Codex也开始原生支持网页工作。新版应用加入了内置浏览器,用户可以直接在页面上添加评论,用更精确的方式向代理发出指令。官方表示,这项能力目前尤其适用于前端和游戏开发,未来还计划进一步扩展,让Codex可以在localhost之外更完整地控制浏览器工作。 图像生成也是这次扩展的重要组成部分。Codex现在可以调用gpt-image-1.5生成图像,并在同一流程中持续迭代。官方介绍称,这项能力与截图和代码结合后,可用于产品概念图、前端设计稿、原型图以及游戏视觉内容的生成。与此同时,平台还新增了90多个插件。这些插件把技能、应用集成以及MCP服务器结合在一起,让Codex能够从更多工具中获取上下文并执行操作。公告中特别点名的一批开发者常用插件包括Atlassian Rovo、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Neon by Databricks、Remotion、Render和Superpowers。 在开发流程层面,Codex应用本身也增加了更完整的支持。它现在能够处理GitHub审阅评论,支持多终端标签页运行,并在Alpha阶段提供通过SSH连接远程开发环境的能力。文件也可以直接在侧边栏中打开,并支持PDF、电子表格、演示文稿和文档的富预览。除此之外,应用新增了摘要面板,用于追踪代理的计划、来源以及生成出的工件。官方表示,这些能力结合在一起,可以帮助开发者更快地在写代码、检查输出、审阅修改以及与代理协作之间切换,而不必频繁跳出当前工作空间。 这次更新还明显强化了长期任务与重复任务的承接能力。Codex的自动化功能已经扩展到支持复用既有对话线程,从而保留之前积累下来的上下文。Codex现在不仅可以为自己安排未来工作,还能在之后自动唤醒,继续推进可能跨越数天甚至数周的长期任务。公告提到,团队已经在用这些自动化能力处理各种场景,例如推动未合并的pull request落地、跟进任务进展,以及在Slack、Gmail和Notion这类工具中跟踪快速变化的沟通内容。与此同时,Codex还推出了记忆功能预览,用于保留过往经验中的有用上下文,包括个人偏好、修正记录以及那些花费时间才收集到的信息。官方认为,这会让后续任务完成得更快,也更接近过去只有通过大量自定义指令才能达到的质量水平。 Codex现在还会主动提出值得继续推进的工作。借助项目上下文、已连接的插件以及记忆能力,它可以建议用户如何开始一天的工作,或从哪个位置重新接上此前的项目。公告中的示例显示,Codex可以识别Google Docs中仍待处理的评论,再从Slack、Notion和代码库中提取相关上下文,最后整理出一份按优先级排序的行动清单。此次更新从今天起开始向已使用ChatGPT账号登录的Codex桌面应用用户逐步推送。包括上下文感知建议和记忆在内的个性化能力,将很快面向Enterprise、Edu以及欧盟和英国用户推出。电脑操作能力则首先在macOS上线,之后也会扩展到欧盟和英国地区。