大模型破譯甲骨文創下新SOTA!複旦團隊推出新框架
作者:起啥都有人 來源:德陽 瀏覽: 【大中小】 發布時間:2025-09-14評論數:
複旦大學團隊 投稿量子位 | 公眾號 QbitAI
讓大模型破譯從未見過的甲骨文,準確率拿下新SOTA!
來自複旦大學的研究人員提出了一種基於部首和象形分析的可解釋甲骨文破譯框架——
不僅在公開基準數據集HUST-OBC和EV-OBC上,達到最先進的Top-10識別準確率以及優異的零樣本破譯能力。
而且麵對未破譯甲骨文,所提方法也能夠輸出可解釋性的分析文本,從而為考古破譯工作提供潛在幫助。
事實上,作為最古老的成熟文字係統,甲骨文長期以來因其稀有性、抽象性和象形多樣性,給考古破譯工作帶來了重大挑戰。
當前基於深度學習的方法在甲骨文破譯任務上取得了令人鼓舞的進展,但現有方法往往忽視了甲骨文字形與語義之間的複雜關聯。
這導致了有限的泛化能力和可解釋性,尤其是在處理零樣本場景和未破譯的甲骨文時。
為此,本文提出了一種基於大型視覺語言模型的可解釋甲骨文破譯方法,該方法通過聯合部首分析與象形語義理解,彌合了甲骨文字形與語意之間的鴻溝。
下麵具體來看——
首個象形解析甲骨文破譯數據集
概括而言,團隊提出了一種漸進式訓練策略,引導模型從部首識別和部首分析,過渡到象形分析,最後進行部首-象形交互分析,從而實現從字形到字意的推理。
論文還設計了基於分析結果的“部首-象形雙重匹配機製”,顯著提升了模型的零樣本破譯性能。
為便於模型訓練,論文提出了包含47,157個漢字的象形破譯甲骨文數據集,其中部分漢字具有相應甲骨文圖像和古代字體圖像,所有漢字都具備現代楷書圖像、部首分析和象形分析標注。
先說數據集。
盡管現有視覺語言大模型在多種任務上表現優異,但仍難以直接應用於甲骨文破譯任務。
為解決這一挑戰,論文提出了象形破譯甲骨文(PD-OBS)數據集,用於訓練具備甲骨文象形分析能力的視覺語言大模型,這對甲骨文破譯任務具有重要意義。
PD-OBS數據集共包含47,157個漢字。其中,3173個漢字與從公開的HUST-OBC和EVOBC數據集收集的甲骨文圖像相關聯;10,968個漢字提供了來自字形庫的古代隸書圖像;所有漢字均配有來自《漢典》的現代楷書圖像。
除圖像數據外,每個漢字均通過文本形式標注了部首分析和象形分析,這兩者均與漢字的語義含義密切相關。
標注過程分為三個階段,如圖1所示。
首先,通過漢典從《說文解字》(一部古代漢語詞典)中檢索每個漢字的部首標簽、定義及解釋。
其次,將獲取的部首標簽及其解釋與每個漢字的現代、古代字體和甲骨文圖像關聯。接著,利用GPT-4.1基於參考的字形圖像豐富部首標簽,並總結分析內容。
最後,通過GPT-4.1進行自我檢查和人工修正來確保數據集的整體質量。
基於部首和象形分析的可解釋甲骨文破譯視覺語言大模型
1、模型整體結構
整體框架基於Qwen2.5-VL-7B構建,共享相同的視覺編碼器和大型語言模型(LLM)。
如圖2所示,研究人員引入了一個空間patch合並模塊作為視覺適配器,以及一個分類器來預測部首標簽,並且還提出了部首LoRA和象形LoRA模塊來分析相應的信息。
此外,研究人員設計了一種漸進式訓練方法,從部首識別開始,接著進行部首和象形分析,最終實現聯合分析,以逐步引導模型完成甲骨文破譯任務。
還提出了一個新穎的部首-象形雙重匹配機製,以從數據庫中選擇最合適的字符。
2、部首識別
在本階段,研究人員的目標是將視覺編碼器適配於甲骨文的獨特視覺風格,並預測用於下遊推理的關鍵信息——部首標簽。
為此,團隊設計了一個空間patch合並模塊作為視覺適配器,該適配器將高維視覺特征壓縮並聚合為預設維度的特征向量,作為甲骨文的抽象表示。
此外,研究人員基於歐式距離設計了一個三元組損失函數,以明確提升不同部首特征向量之間的區分度。
具體而言,團隊實施了一種采樣策略,確保每個批次中每個部首類別至少包含兩個樣本。
在訓練過程中,對於批次中的每個樣本,將它的特征向量Vn 指定為錨點,然後選擇一個正樣本(即具有相同根部標簽的樣本)和一個負樣本(即具有不同根部標簽的樣本)。
三元組損失如下:
關於分類器,研究人員使用交叉熵損失來優化它。因此,本階段的整個損失函數可以表示如下:
3、部首-象形聯合分析
為了在甲骨文中實現字形與意義的關聯,研究人員設計了一個漸進式的字形分析過程,以促進破譯任務的完成。
在甲骨文和古代漢字中,部首通常決定了字的基本語義,如圖3中的Q1&A1所示。
因此,團隊利用PD-OBS數據集構建的大量部首分析問答對對模型進行部首分析能力的訓練。
接下來引導模型對整個字符進行象形分析,以分析字形蘊含的語意,如圖3中的Q2&A2所示。
最後,研究人員設計了一個聯合分析步驟,以解決僅憑象形分析可能無法直接預測正確對應現代漢字的情況。此步驟通過部首分析的結果指導象形分析,從而獲得更準確的漢字含義,如圖3中的Q3&A3所示。此階段通過交叉熵損失來優化模型。
以下為部首-象形聯合分析示意圖:
4、部首-象形雙重匹配機製
經過前兩個階段後,團隊為每個測試字符生成了四個中間結果:預測的部首標簽、部首分析、象形分析以及聯合分析結果。
研究人員提出了一種基於詞典的雙重匹配機製用於破譯。給定來自PD-OBS數據集的候選詞典D,該機製的工作流程如下:
首先,根據預測的部首標過濾候選項,然後根據象形分析之間的語義相似性選擇前k個條目。
其次,將預測的部首分析與部首信息增強的象形分析結果進行拚接,並通過相似性進行排序。
最後,將這些候選集合並並重新排序,以獲得前k個現代漢字作為破譯結果。
所有步驟和符號在圖4中詳細說明。
值得注意的是,團隊采用匹配機製而非直接輸出破譯結果,這有助於緩解模型在零樣本設置下因訓練數據中缺乏此類甲骨文而導致的泛化能力不足問題,以及未破譯甲骨文帶來的影響。
以下為部首象形雙重匹配算法:
實驗結果
1、驗證集和零樣本設定下的破譯
研究人員在HUST-OBC和EV-OBC數據集上對所提方法和現有方法進行了評估,從每個數據集中選取200個字符類別作為零樣本測試集。
剩餘數據以9:1的比例隨機劃分為訓練集和驗證集,以評估新框架及現有方法的甲骨文識別能力。
與先前研究一致,團隊采用Top-1和Top-10準確率作為評估指標,該指標通常用於各類分類任務。
為了係統地評估新方法在甲骨文破譯中的有效性,團隊在兩個基準數據集HUST-OBC和EV-OBC進行了全麵比較,分別在驗證集和零樣本設置下進行,如表1所示。
注意,每個單元格分別顯示Top-1(左)和Top-10(右)的準確率(%)。最佳結果和次佳結果分別以粗體和下劃線標注。
團隊采用InceptionV3、ViT和PyGT作為基於分類模型的代表方法,以及OBSD和BBDM作為基於擴散模型的代表方法。由於缺乏開源實現和數據集設置的不一致,現有基於組成式的方法目前未被納入比較方法。
作為替代,研究人員納入了強大的商用LVLM,GPT-4.1 和 Qwen-VL-Max用於比較。
相比之下,商用LVLM 在兩種設置下表現不佳,Top-1 準確率始終低於6%,這說明了其理解古代文字視覺結構的能力受限。
在驗證集上,盡管新方法的Top-1 準確率略低於最佳分類模型基線(如PyGT),但它實現了最高的Top-10準確率,展示了生成高質量候選項的優越能力,並提供了更大的實際用途。
在更具挑戰性的零樣本場景中,新方法表現出顯著的優異性能:
在Top-1準確率方麵仍具競爭力,並在Top-10準確率方麵顯著超越所有方法,在HUST-OBC數據集上比第二好的方法高出26.2%,在EV-OBC數據集上則高出13.6%。
這些結果證實了新方法在未見過的甲骨文上的強泛化能力和可遷移性,突顯了其在考古研究中輔助識別未破譯甲骨文方麵的潛在價值。
2、破譯的可解釋性評估
為了定量評估新方法生成的部首分析和象形分析的準確率,研究人員采用BERT-Score來衡量Top-1輸出與字典D中真實分析標注之間的相似性。
團隊還評估了其他大型視覺語言模型,包括GPT-4.1、Qwen-VL-Max和Qwen2.5-VL-7B,並比較了它們在HUST-OBC和EVOBC數據集的驗證集和零樣本測試集的平均BERT-Score。
如表2所示,新方法在驗證集和零樣本設置下,分別平均比最先進的LVLM模型GPT-4.1高出21.60%和12.95%,在兩個數據集上。
這一結果表明,新框架生成的分析結果更加可靠。
下表為,不同方法在驗證集上獲得的Bert-Score(%)。Valid.和S分別表示驗證集和零樣本測試集。
3、消融實驗
為了評估設計的部首識別階段的有效性,研究人員以Qwen2.5-VL-7B的原始視覺編碼器作為基線,並分別集成部首識別模塊以及基於LoRA的識別方法。
其識別準確率在HUST-OBS數據集上進行了驗證,並包含驗證集和零樣本設置。
新方法在基線視覺編碼器上引入了空間補丁合並和損失函數Ltrip,分別在驗證集和零樣本設置下實現了0.9%和1.2%的準確率提升。
基於LoRA的識別方法將識別階段與部首分析過程合並,並采用基於LoRA的微調進行訓練。
實驗結果表明,該方法導致部首識別準確率顯著下降,從而在部首分析中引入大量錯誤,因此研究人員在框架中將部首識別保留為獨立階段。
下表為,關於部首識別的消融實驗結果:
為了驗證團隊提出的模塊和策略的有效性,他們以Qwen2.5-VL-7B作為基線,並逐步添加每個組件以形成最終模型。
在驗證集和零樣本設置下的Top-1和Top-10性能如表4所示。
結果表明,LoRA微調(+LoRA)在驗證集上實現了基本的破譯能力,但在零樣本場景下仍缺乏泛化能力。
引入部首-象形互分析與部首識別後,模型在驗證集上的準確率持續提升,但零樣本能力的提升仍非常有限。
主要原因在於通過LoRA基於監督式微調訓練的模型缺乏足夠的泛化能力,常無法生成罕見字符——這是零樣本場景中的常見挑戰。
為解決此問題,團隊引入了部首-象形雙匹配機製,以替代直接預測。
該策略不僅顯著提升了模型的零樣本性能,還增強了甲骨文中與語義無關的部首的魯棒性,確保了解碼結果的可靠性和可驗證性。
4、定性實驗
圖5展示了新方法以及OBSD方法在三種設置下的定性結果:驗證集、零樣本和未破譯的甲骨文。
如圖所示,團隊的模型在驗證集上展現出強大的識別能力,並在零樣本設置下對未見過的甲骨文也具有良好的泛化能力。
更值得注意的是,對於人類專家尚未破譯的字符,模型能夠生成語義上合理的預測,並附帶可解釋的分析。
其設計的部首-象形相互分析在其中發揮了關鍵作用:部首分析追溯部首的結構起源,並解釋其在當前字符形式中的象征功能。
同時,象形形式分析基於字符的整體形狀和隱含意義,提供了一個整體的視覺-語義映射。
這些互補的分析共同形成了一條雙重推理路徑,提升了模型生成語義基礎且可解釋輸出的能力,即使對於尚未破譯的字符也是如此。
下表為, 破譯結果和可解釋性過程展示:
小結一下,在本研究中,團隊提出了一種基於部首和象形分析的可解釋甲骨文破譯框架。
該框架通過三個階段將字形與意義相連:部首識別與分析、象形分析以及相互分析。
借助提出的部首-象形雙重匹配機製,其模型可根據分析結果從字典中篩選出合適的破譯候選集,取代直接輸出破譯結果,從而實現更優的零樣本性能。
此外,生成的文本分析可作為可解釋內容,為未破譯的甲骨文字符提供參考,因此在考古應用中具有巨大潛力。
為支持訓練,他們構建了PD-OBS數據集,包含47,157個注釋有甲骨文圖像和象形文字分析文本的漢字,為未來研究提供了寶貴資源。
實驗結果表明,其方法在破譯準確性、泛化能力和可解釋性方麵均表現出強勁性能。
論文地址:http://arxiv.org/abs/2508.10113項目地址:http://github.com/PKXX1943/PD-OBS
- {loop type="catelog" row=10}{$vo.title}