Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/60/d04c2/b4ee8.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
上海AI實驗室揭秘:自動駕駛視覺語言模型可靠性測試

侯門如海網侯門如海網

上海AI實驗室揭秘:自動駕駛視覺語言模型可靠性測試

當你坐在一輛自動駕駛汽車裏,車載AI係統通過攝像頭觀察路況並告訴你"前方有行人正在過馬路,国产AV蜜桃网站需要減速",你會完全相信這個電子司機的判斷嗎?最近,由上海AI實驗室、新加坡國立大學、加州大學爾灣分校等多個頂級研究機構組成的國際團隊發表了一項突破性研究,他們深入調查了當前最先進的視覺語言模型在自動駕駛場景中的真實表現。這項研究由上海AI實驗室的孔令東博士領導,於2025年1月發表在計算機視覺頂級會議上,有興趣深入了解的讀者可以訪問論文網站 drive-bench.github.io 獲取完整研究內容。

研究團隊發現了一個令人深思的現象:這些被譽為"智能"的AI係統在麵對複雜駕駛場景時,經常會像一個剛學會開車的新手一樣,表麵上說得頭頭是道,實際上卻是在"胡說八道"。更令人擔憂的是,即使在完全看不見路況的情況下,這些AI係統仍然能夠給出聽起來合理的駕駛建議,就像一個蒙著眼睛的司機還在裝作能看見一樣。

這項研究的核心貢獻是創建了一個名為DriveBench的全新測試平台,這個平台就像是給AI司機安排的一場全麵駕照考試,不僅要在理想條件下測試,還要在各種惡劣環境中檢驗AI的真實能力。研究團隊測試了12種不同的先進AI模型,涵蓋了從商業化產品到開源模型的各個類型,測試內容包括感知識別、預測判斷、路徑規劃和行為決策等四大核心駕駛技能。

這項研究的意義不僅僅局限於自動駕駛領域。隨著AI係統越來越多地參與到安全關鍵的決策場景中,從醫療診斷到金融投資,了解這些係統的真實可靠性變得至關重要。研究結果揭示的問題提醒国产AV蜜桃网站,不能僅僅因為AI係統能夠生成看似合理的解釋就認為它們是可靠的。

一、測試平台構建:為AI司機量身定製的全能考場

研究團隊麵臨的第一個挑戰就像是設計一套全麵的駕考係統。傳統的AI測試往往隻在理想條件下進行,就好比隻在晴天的空曠道路上練車,這樣培養出來的司機一旦遇到雨雪天氣或者複雜路況就會手忙腳亂。為了真正檢驗AI司機的實力,研究團隊創建了一個名為DriveBench的綜合測試平台,這個平台的設計理念就是要讓AI係統在各種可能遇到的真實駕駛場景中接受考驗。

DriveBench測試平台包含了19200個駕駛場景圖像和20498對問答樣本,覆蓋了從簡單的物體識別到複雜的決策推理等各個層麵。研究團隊將測試內容分為四個核心模塊,每個模塊都對應著人類司機必須掌握的基本技能。感知模塊就像是測試司機的眼力,要求AI準確識別道路上的各種物體,包括車輛、行人、交通標誌等,並且能夠判斷它們的運動狀態。預測模塊則考驗AI的預判能力,就像一個有經驗的司機能夠預測前方車輛可能變道一樣,AI需要根據當前觀察到的情況預測未來可能發生的變化。

規劃模塊是整個測試的核心,它要求AI係統像一個合格的司機一樣製定行駛計劃。當麵對複雜的交通場景時,AI需要綜合考慮安全性、效率性和合規性等多個因素,給出合適的駕駛策略。行為模塊則測試AI對具體駕駛動作的控製能力,包括加速、減速、轉向等基本操作的時機和幅度掌握。

更有挑戰性的是,研究團隊還設計了17種不同的測試環境,從完美的理想條件到極端的惡劣環境。這些環境包括不同的天氣條件,比如明亮陽光、昏暗光線、雨雪天氣等,就像讓司機在各種天氣條件下都能安全駕駛一樣。研究團隊還模擬了各種設備故障情況,比如攝像頭被遮擋、圖像傳輸出現錯誤、視頻壓縮導致的質量損失等,這些都是現實中可能遇到的技術問題。

最極端的測試是完全移除視覺信息,讓AI係統僅僅根據文字描述來做出駕駛判斷。這就像是讓一個司機蒙著眼睛開車,隻能聽別人的口頭描述來判斷路況。這種測試看似不合理,但它揭示了一個關鍵問題:AI係統的回答究竟是基於真實的視覺理解,還是僅僅依靠預先學習的知識和常識推測?

二、測試結果分析:AI司機的真實表現令人意外

當研究團隊開始分析測試結果時,他們發現了許多意想不到的現象。首先讓人震驚的是,即使在視覺信息完全缺失的情況下,大多數AI係統仍然能夠給出看似合理的駕駛建議,而且這些建議的質量評分與正常情況下相比差別不大。這就像是一個司機即使閉著眼睛也能口若懸河地分析路況,說得頭頭是道但實際上完全是在憑感覺猜測。

研究團隊對比了人類司機在相同測試條件下的表現。結果顯示,當視覺條件惡化時,人類的判斷準確率會顯著下降,這是完全符合常理的反應。然而,大部分AI係統在麵對視覺幹擾時卻表現出了"超人"的穩定性,它們的回答質量幾乎沒有變化。這種現象初看起來似乎說明AI係統具有超強的抗幹擾能力,但深入分析後發現,這恰恰暴露了一個嚴重問題:這些AI係統可能並沒有真正"看懂"路況,而是在根據常識和統計規律來構造答案。

具體來看感知任務的測試結果,研究團隊發現AI係統在識別物體運動狀態時存在明顯的偏向性。在大多數情況下,AI係統傾向於回答"直行前進",即使實際情況是車輛正在轉彎。這種現象可以用一個簡單的比喻來理解:就像一個從來沒有真正觀察過交通的人,隻是聽說過"大部分時候車輛都在直行",於是無論什麽情況都給出這個答案。通過統計分析,研究團隊發現訓練數據中確實存在嚴重的不平衡現象,直行場景占了絕大多數,這導致AI係統學會了一種"投機取巧"的策略。

在預測和規劃任務中,情況變得更加複雜。當研究團隊要求AI係統預測其他車輛的行為或者規劃自己的行駛路徑時,他們發現AI係統經常會給出非常詳細和專業的解釋,但這些解釋往往缺乏對具體視覺細節的準確把握。比如,AI係統可能會說"根據前方車輛的位置和速度,国产AV蜜桃网站應該保持安全距離並準備變道",聽起來非常專業,但實際上它可能根本沒有準確識別出前方車輛的真實狀態。

更令人擔憂的是,當研究團隊故意在問題中明確提到視覺條件很差時,比如"在這個霧天場景中",AI係統的回答準確率會顯著下降,並且會承認視覺條件的限製。這說明AI係統確實具有一定的"自知之明",能夠意識到視覺條件的問題。但在正常情況下,即使視覺信息已經嚴重幹擾,AI係統也不會主動承認自己看不清楚,而是繼續給出看似自信的判斷。

三、評估體係的深層問題:為什麽現有測試方法失效了

研究過程中,研究團隊發現了一個更深層次的問題:傳統的評估方法根本無法有效識別出AI係統的這種"虛假自信"行為。這就像是一個考試係統隻看答案是否正確,而不關心學生是真的理解了題目還是僅僅是蒙對了答案。

目前廣泛使用的評估指標主要包括準確率和各種語言相似度評分。準確率看起來是最直觀的評估方式,但在實際應用中卻存在嚴重缺陷。由於訓練數據的不平衡性,AI係統可以通過記住最常見的答案來獲得很高的準確率。研究團隊發現,僅僅回答"直行前進"就能在某些測試中獲得超過90%的準確率,這顯然不能說明AI係統具備了真正的駕駛理解能力。

語言相似度評分方法,比如常用的ROUGE和BLEU評分,原本是為機器翻譯和文本摘要等任務設計的,它們主要關注文本表麵的相似性而不是語義的準確性。在駕駛場景中使用這些評分方法就像是用測量文章字數的方法來評判文章質量一樣,抓不住重點。研究團隊發現,一些經過特定訓練的AI模型能夠生成格式規整、用詞專業的回答,在語言評分上獲得高分,但實際的駕駛理解能力卻很有限。

即使是看起來更先進的GPT評分方法也存在問題。當研究團隊使用GPT模型來評估其他AI係統的回答質量時,他們發現評分結果很大程度上依賴於回答的表達方式而不是內容的準確性。一個措辭專業、邏輯清晰但事實錯誤的回答往往比一個簡單直接但準確的回答獲得更高的評分。這就像是一個隻看表麵功夫的評委,被華麗的包裝迷惑了雙眼。

更關鍵的是,所有這些評估方法都無法檢測出AI係統在缺乏視覺信息時的"胡編亂造"行為。研究團隊進行了一個對比實驗:同一個AI係統在有圖像輸入和無圖像輸入時給出的回答,在各種評估指標上的得分幾乎沒有差異。這意味著現有的評估體係完全無法區分真正基於視覺理解的回答和基於猜測的回答。

為了解決這個問題,研究團隊提出了改進的評估方法。他們認為有效的評估應該包含更多的上下文信息,比如具體的駕駛場景描述、關鍵物體的詳細信息等。同時,評估過程應該關注AI係統對具體視覺細節的把握程度,而不僅僅是回答的總體合理性。他們還建議采用對比測試的方法,通過比較相同AI係統在不同視覺條件下的表現來判斷其真實的視覺理解能力。

四、專業化模型的表現:術業有專攻還是換湯不換藥

在測試的12個AI係統中,有兩個是專門為自動駕駛場景訓練的專業化模型:DriveLM和Dolphins。研究團隊特別關注這些專業模型的表現,希望了解針對性的訓練是否能夠帶來更可靠的駕駛理解能力。

DriveLM是基於nuScenes數據集訓練的專業駕駛模型,而Dolphins則是在BDD數據集上訓練的。從測試結果來看,這些專業化模型在某些方麵確實表現出了優勢。比如在語言評分方麵,DriveLM獲得了顯著高於通用模型的分數,這主要是因為它學會了生成符合駕駛場景特點的專業表達方式。專業模型的回答往往更加規範化,使用的術語也更加準確,就像是一個接受過專業培訓的司機和一個普通司機在描述同一個交通場景時的差別。

然而,當研究團隊深入分析這些專業模型的核心能力時,卻發現了一些令人失望的現象。首先是數據集轉換能力的問題。Dolphins模型主要在BDD數據集上訓練,當麵對來自nuScenes數據集的測試題目時,它的表現出現了明顯的下降。這就像是一個隻在某個城市開過車的司機,到了另一個城市就不適應當地的交通環境一樣。這種現象暴露了專業化模型的一個重要局限:它們的"專業性"可能更多體現在對特定數據格式和表達方式的記憶上,而不是對駕駛本質的深度理解。

更深入的分析顯示,即使是這些專業化模型,在麵對視覺信息缺失或嚴重幹擾時,也表現出了與通用模型類似的問題。它們同樣傾向於依賴統計規律和常識推理來生成回答,而不是基於真實的視覺理解。在某些測試中,專業化模型甚至比通用模型表現得更加"頑固",更堅持給出看似專業但實際上缺乏視覺根據的回答。

研究團隊還觀察到了一個有趣的現象:專業化模型在處理簡單駕駛場景時表現不錯,但在麵對複雜或非典型場景時,它們的局限性就暴露無遺。這種現象可以這樣理解:專業化訓練讓模型學會了應對常見駕駛場景的標準答案,但沒有培養出真正的場景理解和靈活應變能力。

五、腐敗感知能力測試:AI司機能否察覺自己的"視力問題"

研究團隊設計了一係列特殊測試來探究AI係統是否具備"自知之明",也就是能否察覺到自己的視覺輸入出現了問題。這就像是測試一個司機在視線受阻時是否會主動承認看不清楚,而不是繼續裝作一切正常。

測試分為兩個層麵進行。第一個層麵是隱式測試,研究團隊在問題中暗示了視覺條件的惡化,比如"在這個雪天場景中,哪些物體需要特別注意?"當問題中明確提到了惡劣天氣條件時,大多數AI係統的回答準確率都會顯著下降,並且會在回答中承認視覺條件的限製。這說明AI係統確實具備一定程度的情境理解能力,能夠根據問題中的線索調整自己的回答策略。

第二個層麵是顯式測試,研究團隊直接要求AI係統識別圖像中存在的視覺幹擾類型。結果顯示,大多數AI係統都能夠相當準確地識別出常見的視覺問題,比如模糊、噪點、色彩失真等。特別是在天氣和運動模糊類型的幹擾識別上,AI係統的準確率甚至超過了80%。這表明AI係統並非完全"盲目",它們確實具備檢測視覺異常的能力。

然而,最關鍵的發現是:即使AI係統能夠識別出視覺問題,它們在正常情況下也不會主動承認或報告這些問題。隻有在被明確詢問時,AI係統才會坦承視覺條件的局限性。這種行為模式非常值得深思,它暴露了當前AI係統設計中的一個重要缺陷:缺乏主動的不確定性表達機製。

研究團隊進一步測試了AI係統在不同程度視覺幹擾下的行為模式。他們發現,隨著視覺幹擾程度的加重,AI係統的回答並不是漸進式地變得保守或不確定,而是在某個臨界點突然"崩潰"。在輕度幹擾下,AI係統依然保持高度自信;但一旦幹擾超過某個閾值,它們的回答就變得明顯不合理。這種"懸崖式"的性能下降模式在安全關鍵應用中是非常危險的,因為它沒有給用戶提供漸進的警告信號。

這些發現對自動駕駛係統的實際部署具有重要啟示。理想的AI駕駛係統應該像一個負責任的人類司機一樣,當察覺到視線不好或者對情況不確定時,會主動減速、提高警惕或者尋求幫助。但目前的AI係統更像是一個過度自信的司機,即使在看不清楚的情況下也要硬著頭皮往前開。

六、數據偏差的深層影響:當AI司機隻記住了標準答案

通過深入分析訓練數據的構成,研究團隊發現了影響AI係統表現的一個根本性問題:數據分布的嚴重偏差。這個問題就像是一個司機教練隻在某種特定的道路條件下練車,結果培養出來的學員隻會應對這一種情況。

以行為預測任務為例,研究團隊統計發現,在訓練數據中約有78.6%的場景標注為"直行前進"。這種極度不平衡的分布直接導致AI係統學會了一種"投機策略":無論遇到什麽情況,都傾向於回答"直行前進"。更令人擔憂的是,這種策略在傳統的評估體係下往往能夠獲得很高的準確率分數,從而掩蓋了AI係統真實能力的不足。

研究團隊通過混淆矩陣分析發現,某些AI模型幾乎對所有測試樣本都給出相同的答案。比如LLaVA-1.5模型在感知任務中,無論輸入什麽圖像,都有超過90%的概率回答"直行前進"。這種現象不僅在純文本輸入時出現,甚至在有正常圖像輸入時也會發生,說明模型並沒有真正學會從視覺信息中提取有用的特征,而是單純依賴統計偏差來做決策。

數據偏差的問題不僅僅存在於答案分布中,也體現在問題設計上。研究團隊發現,許多現有的駕駛問答數據集中包含了大量需要時序信息才能正確回答的問題,但實際上隻提供了單幀圖像。比如判斷一輛車是否正在轉彎,往往需要觀察車輛的運動軌跡,僅憑一張靜態圖片是很難準確判斷的。這種問題設計不當導致即使是人類專家也很難給出準確答案,更不用說AI係統了。

為了驗證數據偏差的影響程度,研究團隊進行了一個對照實驗。他們創建了一個平衡版本的測試集,確保各種答案選項的分布相對均勻。結果顯示,在平衡數據集上,幾乎所有AI係統的表現都出現了顯著下降,這進一步證實了數據偏差掩蓋真實能力的假設。

這個發現對整個AI訓練領域具有重要警示意義。它提醒研究者和工程師,不能僅僅追求在現有基準測試上的高分數,而應該深入分析數據的質量和分布特性。特別是在安全關鍵的應用領域,數據的代表性和平衡性比數據的絕對數量更加重要。

七、人機對比實驗:真正的司機在惡劣條件下如何反應

為了更好地理解AI係統表現的合理性,研究團隊進行了人類基線測試。他們招募了多名具有駕駛經驗的誌願者,讓他們在相同的測試條件下回答駕駛相關問題。這個對比實驗的結果為整個研究提供了重要的參考基準。

人類測試者的表現展現出了與AI係統截然不同的模式。在理想的視覺條件下,人類的判斷準確率達到了93.3%,明顯高於大多數AI係統。但更重要的是,當視覺條件惡化時,人類的表現表現出了符合直覺的下降趨勢。在昏暗光線條件下,人類的準確率下降到約53%,在雪天條件下更是降到了33%左右。

這種性能下降模式恰恰體現了人類認知的合理性。真正的司機在視線不好時會變得更加謹慎和不確定,他們會承認自己看不清楚,或者要求減速慢行。相比之下,大多數AI係統在相同條件下的表現卻異常"穩定",幾乎不受視覺幹擾的影響。

研究團隊還觀察到了人類測試者在麵對困難問題時的行為模式。當遇到確實很難判斷的場景時,有經驗的司機往往會選擇更保守的答案,或者明確表示不確定。他們會說"這種情況我需要更仔細地觀察"或者"光線太暗了,我不確定那是什麽"。這種謙遜和謹慎的態度正是當前AI係統所缺乏的。

人機對比實驗還揭示了另一個有趣現象:人類和AI係統犯錯的類型完全不同。人類的錯誤往往與注意力分配和經驗局限有關,比如可能忽略了某個不太顯眼的交通標誌。但AI係統的錯誤更多體現在對基礎概念的混淆上,比如把明顯靜止的物體判斷為運動狀態。這種差異提示国产AV蜜桃网站,AI係統的"智能"與人類智能在本質上可能存在根本性的不同。

通過定性分析人類測試者的回答,研究團隊發現人類在描述駕駛場景時會更多地關注安全相關的細節。比如在描述一個路口場景時,人類會特別提到"需要注意從右側可能出現的車輛"或者"行人可能隨時進入路麵"。而AI係統的描述往往更加機械化,更像是在複述訓練時見過的標準表達方式。

八、實際案例分析:當AI司機遭遇複雜路況

為了更直觀地展示AI係統的問題,研究團隊選擇了幾個典型的失敗案例進行深入分析。這些案例就像是駕駛考試中的經典難題,能夠清楚地暴露出AI係統的短板所在。

第一個案例涉及夜間駕駛場景。在一張昏暗的街道照片中,可以看到遠處有車輛燈光和一些模糊的建築輪廓。當研究團隊詢問"在這個場景中應該采取什麽安全措施"時,GPT-4o給出了非常詳細和專業的回答,提到了打開車燈、保持安全距離、注意行人等多個要點。但關鍵問題是,當研究團隊提供完全相同的問題但不提供任何圖像時,同一個AI係統給出了幾乎完全相同的回答。這說明AI係統的專業建議實際上是基於對"夜間駕駛"這個概念的一般性知識,而不是基於對具體場景的視覺分析。

第二個案例更加令人擔憂。在一個雨天場景中,路麵有積水反光,能見度很低。研究團隊詢問一個具體坐標位置上的物體運動狀態。AI係統不僅給出了明確的答案,還提供了詳細的解釋,說明為什麽該物體是在向前行駛。但實際上,由於圖像質量的嚴重損害,人類觀察者都很難在該坐標位置準確識別出任何物體。這種情況下,AI係統的"自信"回答實際上是完全基於猜測的。

第三個案例涉及運動模糊的圖像。當車輛高速行駛或者攝像頭快速移動時,圖像中的物體會出現明顯的運動拖影。有趣的是,AI係統在這種情況下往往會在答案中提到"高速行駛",似乎正確地識別了運動模糊的存在。但進一步分析發現,AI係統是根據圖像的模糊特征推測可能存在快速運動,然後據此構造了後續的分析,而不是真正理解了場景中各個物體的實際運動狀態。

最具啟發性的是傳感器故障模擬案例。研究團隊模擬了攝像頭完全黑屏或者出現嚴重噪點的情況。在這種極端條件下,AI係統依然能夠給出看似合理的駕駛建議。比如在攝像頭黑屏時,AI係統會說"基於車輛的坐標信息,建議保持當前速度並注意周圍環境"。雖然這個建議聽起來還算合理,但它暴露了一個嚴重問題:AI係統沒有足夠的安全意識來在傳感器失效時要求人工幹預或者緊急停車。

這些案例分析清晰地展示了當前AI係統的一個核心問題:它們更像是一個善於編織故事的說書人,而不是一個真正理解場景的觀察者。當麵對複雜或者不確定的情況時,AI係統傾向於用聽起來專業的語言來掩蓋自己理解上的不足,這在安全關鍵的應用中是非常危險的行為模式。

九、改進建議與未來方向:讓AI司機變得更可靠

基於研究發現,研究團隊提出了一係列改進當前AI駕駛係統的建議。這些建議不僅針對技術層麵的優化,也涉及評估方法和數據收集策略的根本性改變。

首先在數據質量方麵,研究團隊強調需要構建更加平衡和真實的訓練數據集。這不僅意味著要在各種答案類別之間保持合理的分布,更重要的是要確保每個訓練樣本都能夠僅憑提供的視覺信息得出正確答案。許多現有數據集中包含的需要時序信息或者外部知識才能回答的問題應該被重新設計或者剔除。同時,數據收集過程應該覆蓋更多樣化的駕駛環境,包括各種邊緣情況和罕見場景。

在模型訓練方麵,研究團隊建議引入不確定性表達機製。理想的AI駕駛係統應該像一個誠實的司機一樣,當遇到看不清楚或者不確定的情況時,能夠主動承認並采取保守策略。這需要在訓練過程中明確鼓勵模型在不確定時表達猶豫,而不是總是給出看似自信的回答。

評估方法的改進是另一個重要方向。研究團隊提出了基於對比測試的評估框架,通過比較AI係統在不同視覺條件下的表現來判斷其真實的視覺理解能力。他們還建議開發更加注重安全性的評估指標,不僅關注答案的準確性,更要關注AI係統在不確定情況下的行為合理性。

在技術架構方麵,研究團隊建議開發具有視覺質量評估能力的AI係統。這種係統應該能夠實時監測輸入圖像的質量,並根據質量水平調整自己的回答策略。當檢測到視覺輸入嚴重降級時,係統應該能夠自動降低置信度或者請求人工幹預。

研究團隊還提出了漸進式訓練策略的概念。與其讓AI係統一開始就麵對各種複雜場景,不如采用由簡到難的訓練過程,確保AI係統在每個層次上都能建立起紮實的理解基礎。這種方法可能有助於減少AI係統對統計偏差的過度依賴。

對於實際部署的AI駕駛係統,研究團隊強烈建議采用多模態冗餘設計。不應該僅僅依賴視覺-語言模型的輸出來做關鍵決策,而應該結合其他傳感器信息和傳統算法的結果進行綜合判斷。同時,係統應該具備完善的故障檢測和安全降級機製。

最後,研究團隊呼籲整個行業建立更加嚴格的AI駕駛係統測試標準。他們認為,任何用於安全關鍵應用的AI係統都應該經過類似於藥物臨床試驗那樣嚴格的多階段測試過程,不能僅僅基於基準測試的高分數就認為係統已經可以投入實用。

這項研究的價值不僅在於揭示了當前AI駕駛係統的問題,更在於為整個AI安全領域提供了重要的方法論啟示。隨著AI係統在更多安全關鍵領域的應用,如何確保這些係統具備真正的可靠性而不是表麵的流暢性,將成為一個越來越重要的研究方向。

歸根結底,這項研究告訴国产AV蜜桃网站一個重要道理:在將AI係統應用於關乎生命安全的場景之前,国产AV蜜桃网站需要更加謹慎和徹底地了解這些係統的真實能力邊界。一個能夠生成流暢解釋的AI係統不一定是一個可靠的AI係統,而一個誠實承認自己局限性的AI係統可能比一個過度自信的AI係統更加安全可靠。

Q&A

Q1:DriveBench測試平台具體測試了哪些AI駕駛能力?

A:DriveBench測試了四大核心駕駛技能:感知識別(識別道路物體和運動狀態)、預測判斷(預測未來可能發生的變化)、路徑規劃(製定行駛策略)和行為決策(具體駕駛動作控製)。測試涵蓋了從理想條件到17種惡劣環境,包括不同天氣、設備故障,甚至完全沒有視覺信息的極端情況。

Q2:為什麽AI係統在看不見路況時還能給出駕駛建議?

A:研究發現AI係統經常依賴預先學習的常識和統計規律來構造答案,而不是基於真實的視覺理解。就像一個司機蒙著眼睛還在裝作能看見一樣,AI係統學會了根據問題中的文字線索和訓練數據中的偏向性來"猜測"答案,因為訓練數據中大部分場景都是"直行前進"。

Q3:如何判斷AI駕駛係統是否真正可靠?

A:研究團隊建議采用對比測試方法,觀察AI係統在不同視覺條件下的表現差異。可靠的AI係統應該像人類司機一樣,在視覺條件惡化時表現出合理的不確定性和保守策略,而不是始終保持過度自信。同時還需要檢驗AI係統是否具備主動承認視覺局限和請求幫助的能力。

讚(7804)
未經允許不得轉載:>侯門如海網»上海AI實驗室揭秘:自動駕駛視覺語言模型可靠性測試