Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/26/2d84f/1a9db.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
東北大學突破文本人物搜索技術:讓機器像人一樣"看懂"人物描述

放牛歸馬網放牛歸馬網

東北大學突破文本人物搜索技術:讓機器像人一樣"看懂"人物描述

在人工智能快速發展的今天,讓計算機通過文字描述找到特定人物這件事,聽起來簡單,做起來卻極其困難。這項由東北大學鄭天陸、張逸凡等研究員與華南理工大學、深瞳科技聯合完成的研究,發表於2025年9月的arXiv預印本平台,為這一挑戰性問題提供了全新解決方案。有興趣深入了解的讀者可以通過論文鏈接http://github.com/Multimodal-Representation-Learning-MRL/GA-DMS和數據集鏈接http://huggingface.co/datasets/Kaichengalex/WebPerson-5M訪問完整資源。

當国产AV蜜桃网站在茫茫人海中尋找某個人時,通常會依靠一些描述性特征:穿著藍色外套的女性、戴眼鏡的男士、背著紅色書包的學生。對人類來說,這種基於文字描述的人物識別是一件相當自然的事情,但對計算機而言,理解"穿著條紋襯衫的高個子男性"這樣的描述並在成千上萬張圖片中找到對應人物,卻是一個極其複雜的技術難題。這種技術被稱為"文本描述人物檢索",在安防監控、失蹤人員搜尋、智能零售等領域有著廣泛應用前景。

現有的人工智能模型在處理這類任務時麵臨著兩大核心困擾。第一個困擾可以比作"營養不良"——缺乏高質量的訓練數據。目前可用的人物描述數據集規模相對較小,就像一個廚師隻有幾種有限的食材,很難烹飪出豐富多樣的菜品。研究團隊發現,現有數據集通常隻包含幾萬到幾十萬張圖片,而且描述文字往往存在不準確或描述不夠詳細的問題。第二個困擾則像是"消化不良"——現有模型在學習過程中容易被噪聲信息幹擾,無法有效區分描述中哪些詞匯真正重要,哪些可能是幹擾項。這就像一個人在嘈雜的環境中試圖專心聽對話,很容易被背景噪音分散注意力。

為了解決這兩大難題,研究團隊開發了一套名為GA-DMS的創新框架,這個名字代表"梯度注意力引導的雙重掩蔽協同框架"。同時,他們還構建了一個名為WebPerson的大規模數據集,包含500萬張高質量的人物圖像和相應的文字描述。

一、數據集構建:從網絡海洋中"釣"出優質人物圖片

構建高質量的數據集就像在浩瀚的網絡海洋中進行精準捕撈。研究團隊首先從包含7.47億張圖片的COYO700M數據集開始,這相當於在一個巨大的數字圖書館中尋找合適的人物照片。他們設計了一套嚴格的篩選流程,就像設置了多重過濾網,確保隻有最優質的"魚"能夠通過。

篩選過程可以想象成一個經驗豐富的攝影師在挑選作品。首先,係統會使用YOLOv11人體檢測模型,就像一雙經過訓練的眼睛,能夠準確識別圖片中是否有人物出現,並且確保人物在畫麵中占據足夠重要的位置。具體來說,圖片的短邊必須超過90像素,寬高比要在1:2到1:4之間,人體檢測的置信度要達到85%以上。這樣的標準確保了圖片具有足夠的清晰度和合理的構圖比例。

接下來,係統還會進行更精細的姿態檢測,就像一個專業的人體素描師,需要確認人物的關鍵身體部位都清晰可見。通過YOLOv11-Pose模型,係統會檢查是否能夠識別出至少8個關鍵身體節點,包括至少一個髖部關鍵點和兩個頭部關鍵點。隻有通過這些嚴格檢測的圖片才能進入最終的數據集。經過這樣層層篩選,研究團隊從海量網絡圖片中精選出了500萬張高質量的人物圖像。

有了圖片還不夠,每張圖片都需要配上準確詳細的文字描述。傳統的做法是雇傭大量人工標注員,但這種方法不僅成本高昂,而且效率低下。研究團隊采用了一種更加智能的方法,利用大型多模態語言模型來自動生成描述文字。這就像雇傭了一批"AI寫手",它們不知疲倦地為每張圖片撰寫詳細而準確的說明文字。

為了確保描述的多樣性和準確性,研究團隊首先從現有的人物描述數據集中提取了各種描述模板,然後使用先進的AI模型對這些模板進行優化和擴展。這個過程就像創作一本寫作指南,為AI寫手提供各種不同風格和角度的寫作樣本。他們利用k-means聚類算法將相似的描述模板歸類整理,最終構建了包含一千個高質量模板的資源庫。

在生成具體描述時,係統會為每張圖片隨機選擇一個合適的模板,然後使用千問2.5視覺語言模型根據圖片內容填寫具體細節。這個過程就像按照食譜烹飪,但每次都會根據具體食材調整做法,確保最終的"菜品"既符合基本要求,又具有獨特特色。通過這種方法,每張圖片都能獲得平均兩個不同角度的詳細描述,總共產生了超過1000萬條高質量的圖文配對數據。

二、核心算法:教會機器識別描述中的關鍵信息

擁有了豐富的數據集後,如何讓機器真正理解和運用這些信息成為了關鍵挑戰。研究團隊開發的GA-DMS框架就像為機器裝上了一副"智能眼鏡",能夠幫助它更好地理解文字描述中的重要信息,同時過濾掉幹擾性的噪聲。

這套係統的核心創新在於引入了梯度注意力相似性評分機製。為了理解這個概念,国产AV蜜桃网站可以把機器學習過程想象成一個學生在做閱讀理解題。當學生讀到"穿著藍色條紋襯衫的高個子男性"這樣的描述時,他需要判斷哪些詞匯最重要,哪些可能是幹擾信息。傳統的方法就像讓學生盲目地記住所有詞匯,而GA-DMS框架則像給學生提供了一套科學的分析方法。

具體來說,係統會計算每個文字token對整體圖像-文本匹配的貢獻程度。這就像給每個詞匯打分,"藍色"、"條紋"、"襯衫"、"高個子"這些具體的描述性詞匯會得到較高的分數,而一些連接詞或者可能存在錯誤的詞匯則會得到較低的分數。這個打分過程綜合考慮了梯度信息和注意力機製,就像同時從多個角度評估每個詞匯的重要性。

係統還引入了多尺度池化層,這就像給機器配備了不同倍率的放大鏡,能夠同時關注圖片的整體特征和局部細節。當描述中提到"戴眼鏡"時,係統不僅要理解整體的人物形象,還要能夠聚焦到麵部的眼鏡這個細節特征。通過平均池化鄰近token的方式,係統能夠獲得更豐富的多尺度語義信息。

基於這些評分結果,GA-DMS框架實施了一種巧妙的雙重掩蔽策略。第一種掩蔽針對噪聲詞匯,就像用橡皮擦除錯誤答案一樣,係統會根據評分結果適當"遮擋"那些得分較低、可能包含錯誤信息的詞匯,減少它們對最終結果的幹擾影響。掩蔽概率的計算采用了一個精心設計的公式,能夠確保真正的噪聲詞匯被有效過濾,而重要信息得到保留。

第二種掩蔽則針對重要的描述性詞匯,這看起來可能有些反直覺,就像故意遮住試卷中的關鍵信息。但這種做法的目的是訓練模型更好地理解上下文語義。當係統在訓練過程中遇到被遮擋的重要詞匯時,它必須學會通過其他可見的詞匯來推斷和預測這些關鍵信息,從而加深對整體語義的理解。這就像讓學生通過上下文推斷被遮住的關鍵詞,能夠顯著提高理解能力和泛化性能。

整個訓練過程采用了相似性分布匹配損失函數,這就像為機器設定了一個明確的學習目標。係統不僅要能夠正確匹配圖片和描述,還要學會區分相似但不同的人物特征。例如,當麵對"穿藍色襯衫的男性"和"穿紅色襯衫的男性"兩個描述時,係統必須能夠準確識別顏色差異並找到對應的圖片。

三、實驗驗證:全麵超越現有技術水平

為了驗證GA-DMS框架的有效性,研究團隊在三個標準的人物檢索數據集上進行了詳盡的實驗驗證。這些數據集包括CUHK-PEDES、ICFG-PEDES和RSTPReid,它們就像這個領域的"標準化考試",被廣泛用於評估不同技術方案的性能表現。

實驗結果令人鼓舞。在CUHK-PEDES數據集上,GA-DMS框架在Rank-1準確率指標上達到了77.6%,相比之前的最佳方法提升了0.78個百分點。雖然這個提升幅度看起來不大,但在這個競爭激烈的領域中,每一個百分點的提升都代表著技術的顯著進步。更重要的是,在另外兩個數據集上的表現更加突出:在ICFG-PEDES上達到69.51%的準確率,在RSTPReid上更是達到了71.25%,相比基線方法分別提升了2.46%和3.05%。

這些數字背後反映的是係統在實際應用中的表現。以RSTPReid數據集為例,3.05%的提升意味著在1000次搜索中,GA-DMS框架能夠比之前的最佳方法多找對30個目標人物,這在實際的安防監控或人員搜尋應用中具有重要意義。

研究團隊還進行了詳細的消融實驗,就像醫生進行各項單獨檢查來確定每種治療方法的具體效果。實驗結果顯示,梯度注意力相似性評分機製貢獻了大部分性能提升,而雙重掩蔽策略和相似性分布匹配損失函數也都起到了重要作用。特別值得注意的是,當研究團隊將傳統的餘弦相似性評分替換為他們提出的梯度注意力相似性評分時,在所有數據集上都觀察到了明顯的性能提升,證明了這一創新方法的有效性。

數據規模的影響也得到了充分驗證。當WebPerson數據集從10萬張圖片擴展到500萬張時,係統性能出現了顯著的階梯式提升。在CUHK-PEDES數據集上,Rank-1準確率從58.95%逐步提升到68.34%,這清楚地表明了大規模高質量訓練數據對提升模型性能的重要作用。這種規模效應就像學生通過大量練習題提高考試成績一樣,更多的優質訓練樣本能夠幫助模型學習到更豐富和準確的特征表示。

研究團隊還測試了不同掩蔽概率參數的影響。他們發現,對於噪聲詞匯的掩蔽概率設置為0.2,對於重要詞匯的掩蔽概率設置為0.3時,係統能夠達到最佳性能平衡。這個發現為未來的研究提供了重要的參數設置參考。

四、技術創新:多項關鍵突破的協同效應

GA-DMS框架的成功並非依賴單一技術創新,而是多項關鍵突破協同作用的結果。首先,梯度注意力相似性評分機製的引入徹底改變了傳統的詞匯重要性評估方法。傳統方法通常隻能從注意力權重的角度評估詞匯重要性,而這種新方法結合了梯度信息,能夠更準確地反映每個詞匯對最終任務目標的實際貢獻。

這種評分機製的工作原理可以比作一個經驗豐富的偵探在分析案件線索。偵探不僅要關注每條線索本身的重要性(注意力權重),還要考慮這條線索對破案的實際幫助程度(梯度信息)。有些線索看起來很重要,但實際上對解決問題幫助不大;而有些看似普通的線索,卻可能是破案的關鍵。GA-DMS框架正是通過這種綜合評估方法,更準確地識別出文本描述中的關鍵信息。

多尺度特征融合是另一項重要創新。人物識別任務既需要理解整體特征(如身材高矮、整體著裝風格),也需要捕捉局部細節(如眼鏡、手表、發型等)。傳統方法往往側重於某一個尺度的特征,而GA-DMS框架通過多尺度池化層,能夠同時捕獲不同粒度的語義信息。這就像一個優秀的肖像畫家,既要把握人物的整體氣質,也要精確描繪每一個細節特征。

雙重掩蔽策略的設計體現了深刻的機器學習洞察。通過適當掩蔽噪聲詞匯,係統能夠減少錯誤信息的幹擾;通過掩蔽重要詞匯並要求係統預測這些詞匯,又能夠增強模型的語義理解能力和泛化性能。這種看似矛盾的做法,實際上體現了"欲擒故縱"的訓練策略,讓模型在挑戰中成長。

在數據構建方麵,研究團隊也實現了重要突破。他們設計的自動化標注流程不僅大大降低了數據構建成本,還確保了描述的一致性和質量。通過使用結構化模板引導AI模型生成描述,避免了完全自由生成可能出現的不一致或不準確問題。這就像為AI寫手提供了詳細的寫作指南和質量控製標準,確保產出的內容既豐富多樣又符合要求。

WebPerson數據集的構建也體現了對數據質量的嚴格把控。從網絡圖片的篩選到姿態完整性檢查,每一個環節都有嚴格的質量標準。這種多層次的質量控製體係確保了最終數據集的高質量,為模型訓練提供了堅實基礎。

五、實際應用:廣闊的應用前景

GA-DMS框架的技術突破為多個實際應用領域帶來了新的可能性。在安防監控領域,這項技術能夠大大提高基於文字描述的人員搜尋效率。當安保人員接到"尋找穿紅色外套、戴黑色帽子的女性"這樣的指令時,係統能夠在海量監控錄像中快速定位目標人物,大大縮短搜尋時間。這對於維護公共安全、尋找失蹤人員等場景具有重要價值。

在智能零售領域,這項技術能夠幫助商家更好地理解和服務顧客。例如,當顧客描述"昨天幫我挑選衣服的那位穿藍色工作服的銷售員"時,係統能夠快速識別對應員工,為建立更個性化的服務體驗提供技術支撐。

在社交媒體和內容管理領域,這項技術也有廣泛應用前景。用戶可以通過簡單的文字描述快速找到特定的人物照片,大大提高內容檢索的效率和準確性。這對於照片管理、社交平台的人物標注等應用都有重要意義。

更有趣的是,這項技術還可能在影視製作、遊戲開發等創意產業中發揮作用。導演或遊戲策劃可以通過文字描述快速篩選合適的演員形象或角色設計,大大提高創作效率。

值得注意的是,研究團隊在開發過程中也充分考慮了倫理和隱私問題。他們在數據收集過程中嚴格遵循相關法律法規,並在論文中明確提出了負責任使用技術的建議,體現了科研工作者的社會責任感。

六、未來展望:持續改進的空間

盡管GA-DMS框架已經取得了顯著的性能提升,但研究團隊也坦誠地指出了當前工作的局限性和未來的改進方向。首先,受限於計算資源,目前構建的WebPerson數據集規模為500萬張圖片,雖然已經是同類數據集中的佼佼者,但仍有進一步擴大規模的空間。更大規模的數據集可能會帶來更顯著的性能提升。

在技術方法方麵,梯度注意力相似性評分機製仍有優化潛力。研究團隊發現,不同層次的梯度信息對評分結果有不同影響,如何更好地平衡和融合這些信息是未來研究的重要方向。他們的實驗表明,使用文本編碼器的最後8層梯度信息能夠獲得最佳性能,但這個結論是否在更大規模數據和不同模型架構下仍然成立,還需要進一步驗證。

跨域泛化能力是另一個值得關注的研究方向。雖然GA-DMS在標準數據集上表現優異,但在麵對完全不同場景或人群時的泛化能力還需要更深入的研究。例如,在不同文化背景、不同年齡群體或不同服裝風格的數據上,係統的表現可能會有所差異。

多語言支持也是未來發展的重要方向。目前的研究主要基於英文描述,但在實際應用中,支持中文、法文、西班牙文等多種語言的描述將大大擴展技術的應用範圍。這需要在數據收集、模型訓練和評估方法等多個環節進行相應調整。

實時性能優化是另一個實際應用中的關鍵考慮因素。雖然GA-DMS在準確性方麵表現出色,但在大規模圖片庫中進行實時搜索時的響應速度還有優化空間。如何在保持高準確率的同時提高搜索效率,是技術落地的重要挑戰。

說到底,這項由東北大學團隊主導的研究為文本描述人物檢索領域帶來了實質性突破。通過創新的梯度注意力機製和精心構建的大規模數據集,GA-DMS框架在準確性方麵達到了新的高度。更重要的是,這項研究提供的技術框架和數據資源為整個科研社區提供了寶貴的基礎設施,有助於推動相關領域的持續發展。

歸根結底,這項技術的價值不僅在於其優異的性能表現,更在於它為人工智能在理解和處理人類語言描述方麵提供了新的思路和方法。隨著技術的不斷完善和應用場景的不斷拓展,国产AV蜜桃网站有理由相信,基於文字描述的智能人物檢索將在未來的數字化生活中發揮越來越重要的作用。對於普通用戶而言,這意味著国产AV蜜桃网站與人工智能係統的交互將變得更加自然和高效,僅憑簡單的文字描述就能讓機器準確理解国产AV蜜桃网站的意圖並提供精準的服務。有興趣進一步了解這項研究的讀者,可以通過研究團隊提供的開源代碼和數據集資源進行深入探索,為這一重要技術領域貢獻自己的力量。

Q&A

Q1:什麽是GA-DMS框架?它的主要功能是什麽?

A:GA-DMS是"梯度注意力引導的雙重掩蔽協同框架"的簡稱,由東北大學等機構聯合開發。它的主要功能是讓計算機能夠根據文字描述(比如"穿藍色襯衫的高個男性")在大量圖片中準確找到對應的人物。這項技術在安防監控、失蹤人員搜尋、智能零售等領域有廣泛應用價值。

Q2:WebPerson數據集有什麽特別之處?規模有多大?

A:WebPerson是目前最大的自動生成文本描述人物數據集,包含500萬張高質量人物圖像和超過1000萬條詳細文字描述。與傳統需要大量人工標注的數據集不同,WebPerson采用AI自動篩選和標注技術,不僅規模更大,質量也更穩定一致,為人工智能訓練提供了豐富的學習素材。

Q3:這項技術的準確率有多高?比現有技術強在哪裏?

A:GA-DMS框架在標準測試中表現優異,在CUHK-PEDES數據集上達到77.6%的準確率,在RSTPReid上更是達到71.25%。它的優勢主要體現在能夠智能識別文字描述中的關鍵信息,過濾掉幹擾詞匯,同時通過大規模訓練數據學習到更準確的人物特征表示,整體性能相比之前最佳方法提升了2-3個百分點。

讚(8308)
未經允許不得轉載:>放牛歸馬網»東北大學突破文本人物搜索技術:讓機器像人一樣"看懂"人物描述