剛剛,OpenAI發布GPT-5-Codex:獨立工作超7小時,還能審查大型項目

機器之心報道

編輯:Panda

淩晨 1 點,OpenAI 發布了GPT-5-Codex

從名字也能看出來,這是針對智能體編程任務進行了專門優化的 GPT-5。OpenAI 博客介紹說,GPT-5-Codex 的訓練重點放在真實的軟件工程任務上。它既能在短時間的交互式會話中快速響應,也能獨立完成冗長複雜的任務。它的代碼審查(code review)能力可以在代碼上線前發現關鍵漏洞。

GPT-5-Codex 已經在 Codex 的所有使用場景中上線,包括 Codex CLI、IDE 擴展、網頁端、移動設備以及 GitHub 中的代碼審查。它是雲端任務和代碼審查的默認模型,開發者也可以通過 Codex CLI 或 IDE 插件,在本地任務中選擇使用它。順帶一提:Codex 已包含在 ChatGPT 的 Plus、Pro、Business、Edu 和 Enterprise 訂閱中。

發布兩個半小時後,OpenAI CEO 山姆・奧特曼激動地表示GPT-5-Codex 的流量已經占到了 Codex 流量的 40% 左右,並且他預計該模型在今天之內就將成為 Codex 的流量主體。

OpenAI 表示:「自從 4 月推出 Codex CLI、5 月推出 Codex Web 以來,Codex 已逐步演變成更高效的編程助手。兩周前,国产AV蜜桃网站把 Codex 整合成一個統一的產品體驗,並與 ChatGPT 賬號打通。這樣,你可以無縫切換本地環境和雲端任務,不會丟失上下文。」

該模型一發布就收獲了諸多好評,甚至有人表示這是「自切片麵包發明以來最好的東西」。

OpenAI 已經以附錄形式將 GPT-5-Codex 加入了 GPT-5 係統卡。

地址:http://openai.com/index/gpt-5-system-card-addendum-gpt-5-codex/

下麵国产AV蜜桃网站就來更詳細地了解一下 GPT‑5-Codex。

GPT‑5-Codex

GPT-5-Codex 重點優化了在真實工程場景中的自主式(agentic)軟件工程能力

它接受過完整項目構建、功能開發、測試編寫、調試、大規模重構和代碼審查等複雜任務的訓練。相比 GPT-5,它更易於控製,遵循 AGENTS.md 的指令更好,代碼質量更高。OpenAI 表示:「你隻需要告訴它想要什麽,而不用寫冗長的風格說明。」

其在 SWE-bench Verified(軟件工程)和 Code refactoring tasks(代碼重構)兩個基準上的準確度表現都優於 GPT-5 (high)。

值得一提的是,OpenAI 在 SWE-bench Verified 上的成績這一次終於使用了該數據集中所有的共 500 個任務,而不是像之前那樣隻使用了 477 個任務(曾因此備受批評),OpenAI 聲稱之前隻使用 477 個任務的原因是「有部分任務無法在基礎設施上運行,而現在這一問題已解決。」

至於另一個代碼重構基準 Code refactoring tasks 則包含許多來自大型成熟軟件庫的重構任務,覆蓋 Python、Go、OCaml 等語言。比如 Gitea 的一個 PR,就修改了 232 個文件、3541 行代碼,為應用邏輯引入 ctx 變量。

GPT-5-Codex 不僅性能更優,也能根據任務複雜度動態調整思考時間

它結合了兩種關鍵能力:一是與開發者配合的交互式會話,二是對長任務的持久自主執行。

在處理小型請求或對話時,GPT-5-Codex 反應更快;而在處理複雜任務(如大型重構)時,它能持續工作更久。OpenAI 表示:「在測試中,国产AV蜜桃网站看到GPT-5-Codex 能獨立運行超過 7 小時,不斷迭代實現、修複測試,最終交付可用代碼。」

OpenAI 還分享了他們的 內部使用數據:

用戶請求中,用戶交互中 token 數量(包括隱藏的推理和最終的輸出)最少的 10% 情況下,GPT-5-Codex 的 token 消耗比 GPT-5 少 93.7%。用戶交互中 token 數量最多的 10% 情況下,它會投入更多時間,進行更深入的推理、編輯、測試和迭代。

GPT-5-Codex 也專門訓練了代碼審查能力,可以主動發現關鍵漏洞。它會遍曆代碼庫,分析依賴,並運行代碼和測試來驗證正確性。OpenAI 用熱門開源項目的最新提交(commit)做了評估,並讓經驗豐富的工程師進行了驗證,結果發現:GPT-5-Codex 的審查意見更少出現錯誤或無關內容,更能把注意力集中在關鍵問題上。

在前端任務上,GPT-5-Codex 表現可靠。它能生成美觀的桌麵應用,也在移動網站的偏好測試中顯著提升。雲端環境下,它還能讀取你上傳的圖片或截圖,檢查自己的進度,並把結果截圖返回。

GPT-5-Codex 針對 Codex CLI、IDE 插件、雲環境和 GitHub 進行了深度優化,同時也支持多種工具調用。不過 OpenAI 也指出:「與通用的 GPT-5 不同,国产AV蜜桃网站建議隻在 Codex 或類似場景下使用 GPT-5-Codex。」

Codex 更新

除了發布 GPT-5-Codex,OpenAI 今天還宣布了 Codex 的一些升級,包含全新設計的 Codex CLI 以及新的 Codex IDE 插件。

Codex CLI

Codex CLI 是開源的。過去幾個月裏,OpenAI 基於社區反饋重新設計了 CLI,讓它更適合「自主編程」的工作流,使模型能成為更強大、更可靠的搭檔。

現在用戶可以在 CLI 中直接添加圖片,例如截圖、線框圖和設計圖。這樣可以建立共享上下文,讓設計決策更清晰,並更容易得到符合預期的結果。

在處理複雜任務時,Codex 會用待辦清單(to-do list)跟蹤進度,還支持 web 搜索 和 MCP 等外部係統連接工具,整體的工具調用更準確。

終端界麵也升級了:工具調用和代碼差異現在格式更清晰,更容易閱讀。

批準模式(approval mode)簡化為三種:

隻讀:需要明確批準才能修改;自動:擁有完整工作區權限,但在工作區外仍需批準;完全訪問:可以讀取任意文件,並在有網絡訪問的情況下運行命令。

CLI 還支持壓縮對話狀態,方便管理更長的會話。

Codex IDE 插件

Codex 也能在 IDE 中直接使用。這個插件支持 VS Code、Cursor 以及其他 VS Code 分支。它能把 Codex 帶進編輯器,讓用戶能無縫預覽本地改動,並直接用 Codex 修改代碼。

OpenAI 介紹了在 IDE 中使用 Codex 的幾個優勢:

你可以寫更簡短的提示詞,得到更快的結果,因為 Codex 會自動利用上下文,例如你打開的文件或選中的代碼。你可以在雲端和本地環境之間流暢切換。比如,在編輯器裏直接創建雲端任務、跟蹤進行中的工作或審查已完成的任務。如需要調整,你可以在 IDE 中直接打開雲端任務,Codex 會保留上下文。

雲端的 Codex

除了 CLI 和 IDE 插件,新的 GitHub 集成也讓 Codex 的雲端智能體更貼近開發者的日常工作流。用戶無需離開編輯器或 GitHub,就能把任務交給 Codex。

OpenAI 表示,他們也一直在幕後不斷提升雲端性能,包括:

通過緩存容器(caching containers),新任務和跟進任務的完成時間縮短了 90%。Codex 會自動檢測常見的初始化腳本並執行,幫你完成環境配置。在配置了網絡權限後,它還能在運行時執行 pip install 等命令,安裝所需依賴。

和 CLI、IDE 一樣,雲端 Codex 也支持使用圖片。你可以上傳前端設計規範或 UI bug 截圖。Codex 會在瀏覽器裏運行自己生成的內容,檢查效果,並把截圖附在任務或 GitHub PR 中。

代碼審查

Codex 現在也支持代碼審查功能,可以發現關鍵缺陷。和靜態分析工具不同,Codex 會:

對比 PR 的目標和實際改動,分析整個代碼庫和依賴關係,運行代碼和測試來驗證行為。

這種審查力度,通常隻有最仔細的人類工程師才能做到。Codex 正好補上這一缺口,幫助團隊更早發現問題,減輕審查負擔,讓上線更放心。

在 GitHub 上啟用後:

當 PR 從草稿變為可審查狀態時,Codex 會自動給出分析。如果它建議修改,你可以直接在同一討論線程裏讓它實現。你也可以手動請求審查,比如在 PR 裏輸入 「@codex review」,甚至給額外指令,如 「@codex review for security vulnerabilities」(檢查安全漏洞)或 「@codex review for outdated dependencies」(檢查過時依賴)。

OpenAI 表示:「在 OpenAI 內部,Codex 已經審查了国产AV蜜桃网站絕大多數 PR,每天能發現數百個問題,很多在人工審查開始之前就已經被攔下。這讓團隊能更快推進,同時保持信心。」

OpenAI 如何讓 Codex 更安全?

OpenAI 還介紹了在開發 Codex 時對代碼與數據安全的保護措施,他們也部署了一些防範潛在濫用的手段。

默認沙箱環境:無論本地還是雲端,Codex 默認運行在沙箱環境中,且關閉網絡訪問。這可以避免它在你的電腦上執行有害操作,也能減少來自不可信來源的提示詞注入風險。權限機製:在執行可能危險的操作前,Codex 會請求許可。它也經過訓練,會運行命令來驗證自己的輸出。可配置的安全設置:開發者可以根據風險承受度調整設置。在雲端,可以限製網絡訪問隻允許可信域名;在 CLI 和 IDE 插件中,開發者可以決定是否批準 Codex 運行命令,或允許它使用網頁搜索、連接 MCP 服務器。這樣能擴展能力,但也會增加風險。

OpenAI 也給出了建議:「国产AV蜜桃网站始終建議開發者在上線前先檢查 Codex 的工作結果。Codex 會在每個任務中提供引用、終端日誌和測試結果,方便人工驗證。」但 OpenAI 也強調:Codex 應作為附加審查者,而不是完全取代人工審查。

和 GPT-5 一樣,OpenAI 依然將 GPT-5-Codex 在生物與化學領域的任務歸類為 High 能力,並采取了相應的安全措施,以盡量減少潛在風險。

價格與可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 訂閱中。

Plus、Edu、Business 用戶:每周可覆蓋幾次集中的編程會話。Pro 用戶:支持一整周、多個項目的完整工作量。Business 計劃:可以額外購買積分,突破默認上限。Enterprise 計劃:提供共享積分池,按實際使用付費。

目前用戶還無法通過 API Key 使用 Codex CLI,但 OpenAI 也表示很快(soon)將通過 API 開放 GPT-5-Codex。

德陽
上一篇:{loop type="arclist" row=1 }{$vo.title}