本文第一作者戴語琴,清華大學博士生。該工作為戴語琴在螞蟻大安全實習期間完成,該工作屬於螞蟻集團大安全 Venus 係列工作,致力於打造搜索智能體 / UI 智能體。本文通訊作者為該校副教授呂帥,研究方向包括大語言模型、多模態生成、AI4Design。共同通訊作者沈永亮,浙江大學百人計劃研究員,博士生導師,研究方向包括大模型推理、RAG 檢索增強生成、多模態生成模型等。
在檢索增強生成(RAG)飛速發展的當下,研究者們麵臨的最大困境並非「生成」,而是「穩定」。
低信噪比讓關鍵信息淹沒在冗餘文檔裏,錯誤累計則讓推理鏈像骨牌一樣層層坍塌。這兩大頑疾,使得現有 RAG 係統在複雜任務中難以真正可靠。
近期,一項由螞蟻集團、清華大學、浙江大學、MIT、UC Berkeley、香港大學和新加坡國立大學等機構聯合完成的研究提出了全新方案——EviNote-RAG。它不僅在多個權威基準上實現了顯著性能提升,更在訓練穩定性與推理可靠性上帶來了質的飛躍。
核心秘訣在於兩個創新:
支持性證據筆記(Supportive-Evidence Notes, SEN):像人類一樣「先做筆記」,用結構化方式過濾噪聲、標記不確定信息。
證據質量獎勵(Evidence Quality Reward, EQR):通過邏輯蘊含監督,確保筆記真正支撐答案,避免淺層匹配和錯誤累積。
這一組合帶來的改變是革命性的:訓練曲線不再震蕩,答案推理更加穩健。消融與補充實驗進一步驗證了這一點——SEN 是性能提升的基石,而 EQR 則是質量提升的關鍵。兩者相輔相成,使 EviNote-RAG 成為當前最穩定、最可信賴的 RAG 框架之一。
換句話說,EviNote-RAG 不僅解決了性能問題,更為複雜推理場景下的檢索增強開辟了一條全新的發展路徑。
在多個開放域問答基準上,EviNote-RAG 取得了顯著突破:
在HotpotQA上相對提升 20%(+0.093 F1 score),在Bamboogle上相對提升 40%(+0.151 F1 score),在2Wiki上相對提升 91%(+0.256 F1 score),不僅刷新了當前最優表現,還表現出更強的泛化能力與訓練穩定性。
論文標題:EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes論文地址:http://arxiv.org/abs/2509.00877v1Github 地址:http://github.com/Dalyuqin/EviNoteRAG
研究背景與動機
在如今這個信息爆炸的時代,檢索增強生成(RAG)技術已經成為大型語言模型(LLM)在開放問答(QA)任務中的得力助手。通過引入外部知識,RAG 能夠有效提升回答的準確性和時效性。
但一個現實問題是:LLM 的知識固定在訓練時刻,容易輸出過時甚至錯誤的信息。於是,檢索增強生成(RAG)被提出:在問答時,從外部知識庫中檢索最新信息,輔助模型生成更準確的答案。然而,現有 RAG 係統依然存在兩個核心痛點:
低信噪比。在開放域檢索場景中,真正與答案相關的證據信息往往稀缺且難以識別,大量無關或冗餘內容充斥在檢索結果中,導致模型在有限的上下文窗口裏難以高效聚焦關鍵信息。
錯誤累。當推理跨越不完整或噪聲證據時,錯誤會在多跳鏈路中層層放大,最終嚴重削弱答案的準確性和穩定性。這一問題在多跳問答場景中尤為突出。
過去的研究嚐試通過改進檢索質量、引入重排序或摘要壓縮、以及對特定語料進行監督微調來緩解上述問題。雖然這些方法在一定程度上降低了噪聲、減輕了推理負擔,但它們普遍依賴標注的信息提取數據或外部啟發式規則,缺乏一種端到端、穩健且可泛化的解決路徑。如何從根本上突破低信噪比與錯誤累計這兩大瓶頸,成為推動 RAG 演進的核心動因。
因此,研究者提出了新的框架——EviNote-RAG。
EviNote-RAG 與傳統方法的對比:EviNote-RAG 通過證據注釋提取關鍵信息,並在蘊意法官的指導下,確保保留的內容直接支持答案,從而減少噪音並提高性能。
傳統的「檢索-回答」範式不同,EviNote-RAG 將流程重構為「檢索-筆記-回答」的三階段結構。
在這一框架中,模型首先生成Supportive-Evidence Notes(SENs)——類似人類筆記的精簡摘要,僅保留與答案相關的關鍵信息,並對不確定或缺失的部分進行明確標注。這一過程有效過濾了無關內容,從源頭上緩解了低信噪比問題。
進一步地,EviNote-RAG 通過引入Evidence Quality Reward(EQR)——基於邏輯蘊含的獎勵信號,對 SEN 是否真正支撐最終答案進行評估和反饋。這一機製促使模型避免依賴淺層匹配或片段化證據,從而大幅減輕了錯誤累計的風險。
得益於 SEN 與 EQR 的協同作用,EviNote-RAG 不僅在多個開放域問答基準上實現了顯著性能提升,還在訓練穩定性、泛化能力與推理可靠性方麵表現突出,真正為解決 RAG 的兩大頑疾提供了一條端到端的可行路徑。
技術亮點
檢索-筆記-回答新範式:不再直接依賴原始檢索結果,而是通過結構化的筆記生成,主動過濾幹擾信息,增強證據利用率。
類人筆記機製:SEN 模塊模仿人類做筆記的習慣,用「*」標記關鍵信息,用「–」標記不確定信息,避免模型被誤導。
邏輯蘊含驅動的獎勵信號:引入輕量級自然語言推理模型作為「蘊含判別器」,確保筆記能夠邏輯上支撐最終答案,從而在訓練中提供更密集、更高質量的獎勵信號。
EviNote-RAG 概述:為了提高信息利用率,該方法引入了一個記錄階段,在這個階段,模型生成支持性證據筆記(SENs),這些筆記隻捕獲回答所需的信息。基於蘊涵的證據質量獎勵(EQR)進一步確保每個注釋忠實地支持最終答案,引導模型走向更準確和基於證據的推理。
實驗表現
在7 個主流 QA 基準數據集上測試了 EviNote-RAG,涵蓋了in-domain(同分布任務)和 out-of-domain(跨域任務)兩大類。評價指標包括F1和EM(Exact Match)。
結果非常亮眼:在HotpotQA(多跳推理任務)上相比基礎模型,F1 提升 +0.093(20%);在 Bamboogle(跨域複雜 QA)上 F1 提升 +0.151(40%);在 2Wiki(多跳跨域 QA)上 F1 提升 +0.256(91%)。
Training Dynamics:
從不穩定到穩健,RAG 訓練的新範式
在傳統 RAG 框架中,訓練往往充滿不確定性:獎勵稀疏,KL 發散,甚至在訓練中後期出現「坍塌」現象,模型陷入無效循環或生成退化答案。
EviNote-RAG 的引入,徹底改變了這一局麵。通過在訓練過程中加入Supportive-Evidence Notes(SEN)與Evidence Quality Reward(EQR),模型不僅學會了過濾無關信息,更獲得了密集、穩定的獎勵信號。這一結構化的「檢索-筆記-回答」範式,使得訓練曲線從動蕩轉向平滑,逐步提升性能的同時,極大增強了魯棒性。
国产AV蜜桃网站的分析揭示了三個關鍵發現:
Finding 1.穩定性來自結構化指令,而非獎勵本身。僅靠獎勵設計無法避免模型漂移,唯有通過「先做筆記、再回答」的流程,把推理顯式約束在證據之上,才能保證訓練穩定增長。
Finding 2.檢索噪聲過濾顯著提升計算效率。SEN 在訓練早期即丟棄無關證據,使輸出更簡潔聚焦,減少冗餘推理,從而顯著降低推理時延。
Finding 3.行為監督不僅提升穩定性,更改善輸出質量。EQR 的引入有效防止了「過短回答」與「循環生成」等退化模式,使模型在保持高效的同時,輸出更忠實、更有邏輯支撐。
結果表明,EviNote-RAG 不隻是性能提升,更是一種訓練範式的革新:在噪聲橫行的檢索環境中,訓練終於能像一條清晰的軌道般穩定前行。
案例分析
一個直觀的案例是回答「誰創作了《Knockin’ on Heaven’s Door》?」。
在傳統 RAG 係統中,模型容易被檢索文檔中的噪聲或誤導性信息幹擾。例如,某些文檔強調 Guns N’ Roses 的翻唱版本,甚至用語暗示其「作者身份」。結果,模型很容易被這種表述帶偏,最終輸出錯誤答案「Guns N’ Roses」。
而在同樣的場景下,EviNote-RAG 展現出了截然不同的表現。通過生成Supportive-Evidence Notes(SEN),模型能夠主動篩除無關或誤導性的片段,僅保留和問題直接相關的核心證據。多份文檔反複提及「Bob Dylan 為 1973 年電影《Pat Garrett and Billy the Kid》創作了這首歌」,這些被標注為關鍵信息,最終幫助模型穩定輸出正確答案「Bob Dylan」。
這一案例生動展示了EviNote-RAG 在低信噪比環境下的優勢:即便存在大量混淆性信息,模型依然能夠通過「先做筆記、再給答案」的流程,構建出基於真實證據的推理鏈,從而避免被誤導。換句話說,EviNote-RAG 不僅是在「回答問題」,更是在「學會像人類一樣做判斷」。
消融實驗與補充實驗:
拆解模塊貢獻,驗證方法穩健性
為了進一步理解 EviNote-RAG 的機製貢獻,国产AV蜜桃网站係統地進行了消融實驗與補充實驗。結果表明,国产AV蜜桃网站的方法並非黑箱優化的「偶然勝利」,而是每一個設計環節都發揮了關鍵作用。
消融實驗:SEN 與 EQR 締造穩健推理在逐步剝離組件的實驗中,基線模型(SEARCH-R1)在跨域和多跳任務中表現不穩定。引入Supportive-Evidence Notes(SEN)後,模型性能顯著提升:無關檢索內容被過濾,答案相關性更強。在此基礎上進一步加入Evidence Quality Reward(EQR),模型在複雜推理鏈路中表現更加穩定,F1 和 EM 得到進一步提升。這一組合清晰地驗證了国产AV蜜桃网站的方法論邏輯:SEN 提供結構化約束,EQR 提供邏輯一致性監督,二者相輔相成,最終顯著增強推理準確性。
補充實驗:不同總結策略與獎勵設計的比較国产AV蜜桃网站進一步探索了不同的總結與監督方式:Naive Summary (NS)、Naive Evidence (NE)、Force Summary (FS) 等。結果顯示,強行要求輸出總結(FS)非但沒有帶來增益,反而由於獎勵稀疏導致性能下降。
相比之下,SEN 在明確標注關鍵信息與不確定信息的同時,提供了更細粒度的監督信號,顯著優於 NS/NE。實驗還表明,單純的獎勵擾動(Stochastic Reward)難以帶來穩定提升,而結合 EQR 的 SEN+EQR 則在穩定性與準確性上均達到最佳。這一係列對照實驗凸顯出一個核心結論:有效的監督不在於「要求總結」,而在於「如何組織與標記支持性證據」。
核心發現:
SEN 是性能提升的基礎:通過強製模型「做筆記」,顯著降低噪聲幹擾。
EQR 是質量提升的關鍵:通過邏輯蘊含約束,防止淺層匹配,強化因果一致性。
結構化監督勝於簡單約束:相比強製總結或隨機獎勵,SEN+EQR 提供了穩定、密集且高質量的學習信號。
綜上,消融與補充實驗不僅驗證了 EviNote-RAG 的有效性,更揭示了在 noisy RAG 環境中,結構化證據組織與邏輯監督是突破性能瓶頸的關鍵。