機器之心報道
編輯:冷貓
大模型在科研領域越來越高效了。
昨天,穀歌發表了一篇重磅文章,提出了一個能夠幫助科研人員編寫「專家級」科研軟件的 AI 係統。
該係統融合了大語言模型和傳統樹搜索,能夠自動編寫和優化科研任務中所需的軟件程序,能夠獲取多種渠道的現有知識,整合並且重組這些知識來構建一個新的研究思路。
穀歌生成,該係統不僅穩定達到專家水平,還常常超越人類。在基因組學、公共健康、數值分析等多個領域,這套係統的表現甚至超過了頂尖研究團隊和國家級集成係統。
論文標題:An AI system to help scientists write expert-level empirical software論文鏈接:http://www.alphaxiv.org/abs/2509.06503v1
如此這般,科研人員在各個領域的研究中都能夠使用這一 AI 係統來構建全新的研究思路和實證程序,能夠更高效地進行科學研究。
AI 在科研領域的應用一直以自動化的特性為主,能夠輔助科研人員進行可行性驗證,完成一些重複的高強度工作,減少科研人員在重複驗證、調試程序等工作上浪費的時間,更能夠激發科研人員的創新思維。
穀歌的這個係統能夠實現研究思路的整合與重組,在科研任務中能夠創建一些新的策略,構建更高效的模型,讓 AI 係統介入科研領域的創新過程,從一次性代碼生成的工具,轉變為由量化目標指導的迭代、搜索驅動的軟件演進。
不過也有網友表達了 AI 深入科研領域的擔憂:
穀歌這一次的 AI 係統仍然具有很大的局限性,係統的構建目標是「可評分的科學任務」—— 即那些可以通過準確率、誤差率或基準測試排名等指標來量化軟件性能的計算問題,雖覆蓋了廣泛的科研領域,但未提及那些不可量化評估的任務表現。
值得一提的是,前穀歌搜索成員Deedy Das分享了這個工作,而他最感興趣的是論文附錄中的 Prompt。
論文中使用的指令:「請創建一種算法,結合兩種策略的優點,形成一種真正出色的混合策略,並且其得分要高於任一單獨策略。」說明優秀的結果並不總需要非常複雜的 Prompt 指令。
論文詳細內容如下:
本研究引入了一個 AI 係統,該係統能自動為科學計算任務創建專家級的實證軟件。該係統結合了大型語言模型和樹搜索算法,以迭代地生成、評估和完善科學軟件解決方案。其核心創新在於,LLM 不僅用於一次性代碼生成,而是作為係統搜索過程中一個智能的「變異」引擎,能夠整合並重組科學文獻中的研究思路。
圖 1: (a) 係統架構:展示了可評分問題與研究思路如何輸入到大語言模型(LLM),由其生成代碼,並在沙盒環境中進行評估,結果以樹搜索結構進行組織。(b) 性能對比:不同方法的成功率比較,結果顯示結合專家指導的樹搜索(TS)取得了最高成功率。(c) 研究思路來源:包括專家知識、學術論文,以及 AI 生成的重組方案。
問題與方法
本係統的目標是「可評分的科學任務」—— 即那些可以通過準確率、誤差率或基準測試排名等指標來量化軟件性能的計算問題。這類任務涵蓋了從基因組學到流行病學再到圖像分析等廣泛的科學計算應用。
該方法論圍繞三個核心組件協同工作:
1. 基於 LLM 的代碼變異
不同於從零生成代碼,LLM 會持續重寫並優化已有的候選代碼。係統利用 LLM 對編程邏輯和領域上下文的理解,結合研究思路和性能反饋,進行智能化修改和改進。
2. 樹搜索導航
代碼生成過程被嵌入到樹搜索算法中,以係統化方式探索龐大的軟件解空間。搜索過程在「利用」(集中改進已有的優質解)和「探索」(尋找全新方法)之間取得平衡,使用了一種受 AlphaZero 啟發的 PUCT 算法變體。
3. 研究思路的融合
該係統的一大特色是能夠通過多種渠道引入外部知識:
直接注入來自科學論文和教材的研究思路利用如 Gemini Deep Research 等工具生成 LLM 研究見解程序化地重組已有成功方案,形成混合策略
該係統在 Kaggle playground 競賽中開發與迭代,因其具有快速迭代周期和清晰的人類表現基準,成為理想的測試平台。
跨科學領域的主要成果
基因組學:單細胞 RNA 測序
在從單細胞 RNA 測序數據中去除技術批次效應同時保留生物學信號的挑戰性任務中,該係統發現了 40 種新方法,其性能優於 OpenProblems 排行榜上所有已發表的方法。性能最佳的方法 BBKNN (TS) 通過將ComBat校正的 PCA 嵌入與批次平衡 K 近鄰相結合,比現有最佳方法(ComBat)提高了 14%。
圖 2:樹搜索進展圖,顯示了迭代過程中性能的提高,並在突破點處標注了關鍵算法創新。該係統發現了優化批次感知圖構建和實現 ComBat 基因表達校正的方法。
地理空間分析:衛星圖像分割
在使用DLRSD 數據集進行衛星圖像的密集像素級語義分割時,該係統的前三名解決方案顯著優於最近的學術論文,平均交並比分數大於 0.80。這些解決方案基於現有架構(UNet++、SegFormer),但優化了它們與強大的預訓練編碼器和廣泛數據增強策略的集成。
圖 3:衛星圖像分割結果示例,顯示原始圖像(頂行)、真實掩模(中行)和係統預測(底行)。係統成功分割了包括機場、跑道、飛機和基礎設施在內的各種特征。
神經科學:全腦神經活動預測
在斑馬魚大腦中建模超過 70,000 個神經元的活動(ZAPBench)時,係統生成的最佳模型在多步預測方麵優於所有基線,並且訓練速度比競爭視頻模型快幾個數量級。該係統成功地將生物物理神經元模擬器(Jaxley)整合到高性能解決方案中。
時間序列預測
在涵蓋 28 個不同時間序列數據集的 GIFT-evals 基準測試中,該係統在多個數據集上的性能優於排行榜。值得注意的是,它從頭開始創建了一個統一的預測庫,該庫能自適應地配置到不同的數據集,並將時間序列分解為各個組成部分。
圖 4:係統發現的成功預測方法的分布。梯度提升方法(GBM)和集成方法在各種預測任務中是最常成功的策略。
數值分析:複雜積分
對於評估具有無限限度的振蕩積分(其中 scipy.integrate.quad () 等標準算法完全失效)時,演化出的代碼正確評估了 19 個留出積分中的 17 個,誤差在 3% 分數誤差之內。該解決方案實現了複雜的數學啟發式方法,包括域劃分和歐拉變換以加速級數。
技術創新:研究思路與重組
一個關鍵的創新是研究思路的係統集成及其智能重組。該係統可以分析不同方法的核心原理,並合成創建混合方法的指令。
圖 5:方法重組結果分析,顯示原始方法與其組合版本之間的性能比較。綠色條表示成功的改進,紅色條表示性能下降,而藍色表示原始方法的性能。
總結
這項研究表明,AI 不僅能夠實現自動化,還能在多個科學領域係統性地超越人類在科研軟件開發中的表現。係統在生物信息學、流行病學、地理空間分析、神經科學和數值分析等領域中,持續取得專家級,甚至超越人類水準的成果,顯示出其廣泛的適用性。
該方法標誌著科研軟件開發範式的轉變:從「一次性代碼生成」走向「以可量化科學目標為導向」的迭代式、搜索驅動的軟件進化。通過將開發周期從「數周甚至數月」縮短至「數小時或數天」,這一係統有效解決了科研中的關鍵瓶頸問題,有潛力加速所有以可量化指標衡量的計算研究。
係統在大規模解空間中進行係統化探索,融合多元研究思路,並能大海撈針般的找出高質量解決方案。這種能力預示著它可能從根本上改變科研軟件的開發方式:
既能讓更多研究者平等獲取先進的分析工具,也能不斷拓展科學探索在計算能力上的邊界。