機器之心報道
機器之心編輯部
香港科技大學譚平教授團隊與地平線(Horizon Robotics)團隊最新發布了一項3D 場景表征與大規模重建新方法 SAIL-Recon,通過錨點圖建立構建場景全局隱式表征,突破現有 VGGT 基礎模型對於大規模視覺定位與 3D 重建的處理能力瓶頸,實現萬幀級的場景表征抽取與定位重建,將空間智能「3D 表征與建模」前沿推向一個新的高度。該技術作為 3D 場景表征與重建的一個基礎模型,不僅可以用於任意場景中的大規模 3D 重建和空間漫遊,也可以為機器人的 3D 空間感知、自主空間定位與導航提供基礎技術支撐。
譚平教授目前為香港科技大學電子與計算機工程係正教授,馮諾依曼人工智能研究院副院長,也是「香港科技大學–比亞迪具身智能聯合實驗室」主任,長期致力於 3D 空間智能與具身智能相關的技術前沿研究。
譚平教授創立的人工智能初創公司「光影煥像」致力於 3D 和空間智能的核心技術和產品研發,打造 3D 空間智能大腦,推進相關技術在遊戲、影視和具身智能等行業場景的商業化應用。
作者簡介:
鄧俊源分別於2021年和2024年獲上海交通大學學士及碩士學位,現為香港科技大學電子與計算機工程係博士研究生,主要研究方向為多模態三維定位與場景重建、世界模型,代表論文有NeRF-LOAM、DrivingWorld、SAIL-Recon等。
李恒現為香港科技大學電子與計算機工程係高年級博士研究生,主要研究方向為三維重建與定位、生成與重建一體化等,代表論文有DIM-SLAM、SAIL-Recon等。
本文中SAIL-Recon的共同一作鄧俊源和李恒均為譚平教授在香港科技大學博士研究生。
項目主頁:http://hkust-sail.github.io/sail-recon/論文鏈接:http://arxiv.org/abs/2508.17972代碼鏈接:http://github.com/HKUST-SAIL/sail-recon
在 3D 視覺領域,3D 場景回歸模型(如 VGGT)雖能通過輸入圖像直接預測相機位姿與三維結構,但在極端視角變化場景中表現出色的同時,卻受限於大規模圖像輸入的處理能力,僅能處理幾百張圖像進行位姿估計和 3D 重建。為此,論文推出全新解決方案SAIL-Recon,一種增強型場景回歸網絡,通過融合視覺定位能力,構建專為大規模運動恢複結構(SfM)設計的前饋 Transformer 架構
技術革新亮點
1.全局隱式場景表征:使用圖像子集構建全局表征,支持萬幀級場景重建;
2.統一 Transformer 架構:同時處理場景表征抽取與定位重建任務;
3.權威基準領先性能:在 TUM-RGBD、CO3Dv2、Tanks & Temples 數據集上,相機位姿估計與新視角合成精度均顯著超越現有方法。
方法概述
傳統運動恢複結構(SfM)技術依賴特征匹配與增量優化,麵對低紋理場景或重複圖案時極易失效。近年興起的場景回歸方法(如 DUST3R、VGGT)雖能通過 Transformer 直接預測相機位姿與 3D 結構,卻因 GPU 內存限製無法處理大規模圖像集合,限製了其應用範圍。受傳統視覺重定位啟發,論文提出增強型場景回歸網絡 SAIL-Recon,通過結合視覺定位與場景回歸,突破大規模 3D 重建瓶頸。
場景回歸網絡:從圖像到場景回歸
場景回歸網絡(VGGT,DUST3R)旨在從輸入圖像集合中直接預測相機位姿與三維結構。論文方法中采用了與 VGGT 類似的 Transformer 架構,利用其強大的全局信息建模能力,來處理圖像間的複雜關係。具體來說,該方法將輸入圖像通過 DINOv2 提取特征,然後將這些特征輸入到 Transformer 中進行全局建模。Transformer 的自注意力機製使得網絡能夠捕捉圖像間的長距離依賴關係,從而更好地理解場景的幾何結構。經過 Transformer 處理後,該方法使用 DPT 頭來分別預測每張圖像的深度圖與場景坐標圖,從而實現對場景的三維重建。同時,該方法通過一個單獨的 MLP 分支來預測每張圖像的相機位姿。整個網絡通過聯合訓練,使得深度圖、場景坐標圖與相機位姿的預測相互促進,提高了整體的重建精度。
錨點圖像集構建:子集表征全局場景
然而,由於 Transformer 的結構特性,當一次性處理所有的輸入圖片時,GPU 的顯存會隨著圖片數目的增加而成倍的增長。當場景中的圖像擴展到數千的規模時,直接處理全部圖像(如 1000 + 張)會導致 GPU 顯存爆炸。為此,論文提出使用圖像子集來構建全局隱式場景表征的新方法。具體來說,該方法從輸入圖像集合中選擇一小部分圖像作為錨點圖像集(Anchor Image Set),且選出的圖像集也能夠代表整個場景的多樣性和結構信息。通過這種方式,該方法可以在不犧牲場景信息的前提下,大幅減少需要處理的圖像數量,從而降低計算複雜度和內存需求。更具體的來說,該方法從全量圖像中篩選出 50-100 張代表性錨點圖像作為 Transformer 的輸入,並采用均勻采樣方式進行篩選以有效避免對相機以及對場景幾何做出假設。這種方法能夠使用圖像子集構建用於全局場景隱式表達,為後續的定位與重建任務提供堅實基礎。
全局隱式場景表征:漸進式 2D-3D 編碼
通過錨點圖像集,該方法能夠構建一個全局隱式場景表征。一種最直接的思路是直接使用 Transformer 的最終層的輸出特征作為場景表示。因為該層的 feature 經過多層的注意力交互,已經全局的場景幾何結構。之前的一些工作,如 CUT3R,SLAM3R 和 SPANN3R,均使用類似的思路。但論文實驗發現,由於 Transformer 的最終層特征通常隻能用於表示 3D 的幾何信息,與需要恢複相機位姿的 query image 的 2D 特征存在很大的差別,因此此類方法的效果通常較差。論文作者注意到場景回歸會逐步將 2D 圖像特征轉換為 3D 場景表示,因此在論文中提出了可以通過提取 Transformer 所有注意力層的中間特征,用於表達特定圖像從 2D 圖像特征到 3D 結構的轉換的新方法。具體來說,該方法在 Transformer 的中間層提取特征,並通過一個下采樣的機製,將這些特征用於整個場景的表達。這樣做的好處是這種場景表達保留了每一個圖像塊從 2D 到 3D 的變化,能夠自然的適應於圖像重定位的任務。當輸入了查詢圖像的 2D 信息,該方法能夠將利用 2D-3D 的特征,將查詢圖像注冊到對應的全局表達上。
視覺定位與重建:基於視覺定位的場景回歸
在獲得全局隱式場景表征後,論文采用與場景回歸相同的網絡,進行視覺定位與重建。具體來說,該方法將查詢圖像通過 DINOv2 提取特征,並將其與全局隱式場景表征在 Transformer 中的每一層進行注意力交互。在通過這種方式,該方法能夠在 Transformer 的輸入層附近使用 2D 圖像特征進行注意力交互,實現類似特征匹配的效果。在 Transformer 的後續層中,方法使用 3D 的特征層進行注意力交互,從而將恢複出查詢圖像相對於全局隱式場景表達的相機位置與幾何結構。為了避免查詢圖像對場景表達進行修改,該方法修改了 Transformer 中全局注意力層的行為,在定位的過程中,查詢圖像的特征隻會與隱式表達的特征進行交互,而場景表達的特征隻會與其本身發生交互。在得到了查詢圖像的最終特征後,該方法使用一個單獨的 MLP 分支來預測查詢圖像的相機位姿,同時使用 DPT 頭來預測查詢圖像的深度圖與場景坐標圖。
實驗結果
論文在多個權威基準數據集上對 SAIL-Recon 方法進行了評估,包括 TUM-RGBD、CO3Dv2 和 Tanks & Temples。實驗結果顯示,SAIL-Recon 在相機位姿估計與新視角合成精度方麵均顯著優於現有方法
相機位姿
論文在 TUM-RGBD 和 Tanks and Temples 數據集上評估了 SAIL-Recon 的相機位姿估計性能。結果表明,SAIL-Recon 在這兩個數據集上均取得了優異的表現,顯著優於傳統 SfM 方法和其他神經網絡驅動的 SfM 方法。
在 Tanks and Temples 數據集上,SAIL-Recon 在所有場景中均表現出色,在所有非優化的方法中,取得了最強的性能。而 VGGT 因為無法處理大規模圖像集合,在該數據集上無法運行。其他的 3R 方法精度均不如 SAIL-Recon。在優化的方法中,SAIL-Recon 的表現也非常接近最優的方法 GLOMAP。
在 TUM-RGBD 數據集上,SAIL-Recon 同樣表現出色,在給定的數千幀圖像中,效果與現有的 SLAM 方案接近。需要注意的是 SAIL-Recon 是一個離線重建方法,並沒有利用時序上的連續性信息。
新視角合成
由於傳統相機位姿的數據集提供的相機位姿通常是由傳統的 SfM 或 SLAM 方法計算得到的,因此這些相機位姿本身可能存在一定的誤差。為了更客觀地評估 SAIL-Recon 的性能,論文使用了與 ACE0 一致的新視角合成指標 PSNR 來評估相機位姿的準確度。在訓練 NeRF 用於新視角合成的過程中,如果訓練圖像的相機位姿存在誤差,那麽 NeRF 的合成效果會受到影響,PSNR 值也會降低。如果測試圖像的相機位姿準確,則合成的圖像 PSNR 值會更高。因此,PSNR 值可以作為評估相機位姿準確度的一個指標。
在 Tanks and Temples 數據集上,SAIL-Recon 在新視角合成的 PSNR 指標上也表現出色,顯著優於其他方法。特別是在大規模場景中,SAIL-Recon 能夠有效地處理數千幀圖像,取得了遠超現有方法的 PSNR 值。其中 VGGT 與其他 3R 方法均無法處理大規模圖像集合,因此無法在該數據集上運行。更重要的是,SAIL-Recon 隻需要幾分鍾的時間就能得到 SOTA 的效果,在速度上遠超之前的方法。
在新視角的可視化上也能顯著發現 SAIL-Recon 的優勢。下圖展示了 Tanks and Temples 數據集中新視角合成結果。可以看到,SAIL-Recon 的圖像質量明顯高於 ACE0,展示了 SAIL-Recon 在處理大規模場景時相機的準確度。
總結
本文提出了 SAIL-Recon,一種結合視覺定位與場景回歸的增強型場景回歸網絡,成功突破了大規模 3D 重建的瓶頸。通過使用圖像子集構建全局隱式場景表征,並利用 Transformer 同時進行隱式場景表達抽取與視覺定位,SAIL-Recon 能夠高效地處理包含上萬幀圖像的場景。在多個權威基準數據集上的實驗結果表明,SAIL-Recon 在相機位姿估計與新視角合成精度方麵均顯著優於現有方法,展示了其在大規模 3D 重建領域的巨大潛力。未來,論文計劃進一步優化 SAIL-Recon 的架構與訓練策略,以提升其在更複雜場景中的表現,並挖掘其在具身智能導航和感知中的應用潛力。
視頻鏈接:http://mp.weixin.qq.com/s/5CZFIhy-mAia8gIw0SsDug
SAIL-Recon 與現有方法的 3D 重建結果對比
關於国产AV蜜桃网站|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網絡敲詐和有償刪帖舉報電話:010-84151598
Copyright © 2008-2024 by {當前域名}. all rights reserved