智東西編譯 程茜編輯 雲鵬
智東西9月5日消息,9月4日,字節Seed發布了原生GUI智能體UI-TARS-2,其可以自主操作電腦、手機完成搜索、創建網頁、搜集新聞、創建查詢工具、玩小遊戲等諸多任務,相關論文在9月2日發表於arXiv預印本平台。
在GUI基準測試中,UI-TARS-2多項測試中超過了OpenAI和Claude Agent,同時其玩15款小遊戲的水平已經達到人類水平的60%。
字節跳動放出的Demo中,UI-TARS-2一口子完成了搜索字節跳動Seed 1.6新聞並部署網頁的任務。這一提示詞是“搜索關於字節跳動Seed1.6模型的新聞,然後以現代風格編寫一個網頁並部署”。
UI-TARS-2會先分解這一需求,包括搜索模型相關新聞、便攜現代風格網頁、部署網頁三個任務。首先其通過LinkReader搜索了新聞,了解模型的核心特征,然後為網頁創建項目目錄、選擇合適的設計方法、規劃網頁結構,創建成功後還會自主檢查各項功能是否可以運行。
在技術報告中,研究人員提到針對GUI智能體在數據可擴展性、多輪強化學習(RL)、僅GUI操作的局限性以及環境穩定性方麵的挑戰,其提出了係統化訓練方法:包含用於可擴展數據生成的數據飛輪、穩定的多輪RL框架、集成文件係統和終端的混合GUI環境、用於大規模部署的統一沙盒平台。
論文地址:http://arxiv.org/abs/2509.02544
Demo地址:http://seed-tars.com/showcase/ui-tars-2/
一、拆解需求、使用搜索、創建網頁,都能一氣嗬成
字節放出的幾個Demo中,包含了UI-TARS-2創建重量單位轉換查詢工具、創建字符計數工具、為音樂老師創建演示網頁、比較數字大小等任務。
首先是實現重量單位轉換查詢。
提示詞:編寫一個能夠將重量從一種單位轉換為另一種單位的函數。若原始單位是千克、目標單位是克,且待轉換的數值為瑪蒂爾德·塞尼耶(Mathilde Seigner)獲得凱撒獎(César Award)提名的次數加1,那麽最終結果會是多少?
同樣,UI-TARS-2會先分解需求,找到瑪蒂爾德·塞尼耶獲得凱撒獎提名的次數,其通過多渠道驗證確認有3次,然後開始創建包含用於轉換重量單位函數的Python文件。
其次是Hugging Face數據集字符字數。
提示詞:請在Hugging Face上搜索熱門數據集,下載排名第一的數據集,並計算整個數據集中的字符總數。
拆解完任務後,UI-TARS-2會打開穀歌瀏覽器,然後搜索查找熱門數據集。
第三個提示詞是“我是一名高中音樂理論教師,正在準備一門關於基礎音樂理論的課程,用於解釋音樂名稱、音階名稱、大調音階、八度分布和物理頻率等知識。請幫助我收集足夠的信息,設計出充實且權威的課程內容,並配上演示動畫,最後將它們輸出為網頁”。
UI-TARS-2會使用搜索工具查找這些需要解釋的知識,然後為網頁規劃目錄、創建。
第四個是使用Jupyter比較數字。
提示詞:使用Jupyter計算9.11和9.9哪個更大?
拆解任務後,UI-TARS-2會創建用於比較兩個數字的Python腳本,然後使用Jupyter來運行它,最後給出了9.9比9.11大的正確答案。
二、玩遊戲水平達到人類60%,多項測試超OpenAI、Claude
實證評估表明,UI-TARS-2相較於其上一代智能體UI-TARS-1.5,在基於GUI的交互和遊戲環境中均表現出色。
在GUI基準測試中,該模型在真實網站上進行通用Web智能體的在線推理與評估測試集Online-Mind2Web上達到88.2分,在真實計算機環境中對多模態智能體進行開放式任務評測的可擴展基準平台OSWorld上達到47.5分,在麵向Windows的可複現、可擴展的多模態計算機智能體基準平台WindowsAgentArena上達到50.6分,在麵向移動設備的可擴展、可複現的自主智能體評測基準androidsWorld上達到73.3分,並在多項測試中超越了Claude和OpenAI Agent等。
在遊戲環境中,UI-TARS-2在15款遊戲套件中的平均歸一化得分為59.8分,約相當於人類水平的60%,分別比OpenAI CUA和Claude Computer Use等智能體高出2.4倍和2.8倍。
在開源遊戲基準LMGame-Bench上,UI-TARS-2展現了其在長時程遊戲推理方麵的魯棒性。
此外,研究人員通過GUI-SDK擴展了智能體功能,使其能夠與終端和外部工具等係統級資源集成。
通過這一擴展,UI-TARS-2在長時程信息搜索基準測試中表現出色,並在軟件工程任務Terminal Bench上達到45.3分。
這些結果表明,研究人員為GUI Agent開發的訓練方法,包括多輪強化學習優化和可擴展的rollout基礎設施,能夠有效地遷移到其他交互領域,從而擴展Agent的適用性。
三、針對GUI智能體痛點,提出四大支柱係統方法論
GUI智能體的傳統方法通常采用模塊化管道,分別設計感知、規劃、記憶和行動等組件,但其嚴重依賴專家啟發式方法和任務特定規則,導致係統脆弱且難以擴展。
在此基礎上,字節Seed團隊提出了一種基於四大支柱的係統方法論:
首先,為緩解數據稀缺問題,研究人員設計了一個可擴展的數據飛輪,通過持續預訓練、監督微調、拒絕采樣和多輪強化學習協同進化模型及其訓練語料庫。該框架提供持續流入的多樣化、高質量軌跡,並確保模型和數據在自我強化的循環中迭代改進。
其次,為克服可擴展多輪強化學習的困難,研究人員設計了一個訓練框架,在長時程環境下穩定優化,這包括具有狀態環境的狀態異步展開以保留上下文、流式更新以避免長尾軌跡造成的瓶頸,以及增強型近端策略優化,結合獎勵塑形、自適應優勢估計和值預訓練。
第三,為了超越純GUI交互的限製,研究人員構建了一個以GUI為中心的混合環境,通過增加屏幕操作與文件係統、終端和其他外部工具等互補資源的訪問,使智能體能夠解決更廣泛的實際工作流程。
第四,為了支持大規模訓練和評估,研究人員建立了一個統一的沙盒平台,從用於GUI交互的雲虛擬機到基於瀏覽器的遊戲沙盒能夠協調異構環境,使其在一致的API下運行。該平台經過設計以確保可重複性、穩定性和高吞吐量,使其能夠可靠地運行數百萬次交互式部署。
結語:UI-TARS-2實現多場景均衡性能
UI-TARS-2通過結合多輪強化學習、監督微調、拒絕采樣和持續預訓練的迭代流程進行訓練,從而實現在異構領域持續改進。研究人員在論文中提到,他們的實驗表明,雖然領域特定的變體可以在單個基準測試中取得峰值分數,但UI-TARS-2在單一統一係統中實現了跨GUI、瀏覽器、移動和遊戲任務的平衡且具有競爭力的性能。
除了基準測試結果外,他們還針對訓練動態和交互擴展進行了分析,為多輪智能體強化學習提供思路,證明模型在多樣化環境中進行訓練能夠促進參數共享和能力遷移,從而產生融合圖形交互與更複雜推理和決策能力的混合技能。他們認為,UI-TARS-2代表了對更強大、可靠和多功能計算機使用Agent的邁進。