Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/08/b3545/196d0.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
港大團隊推出新AI範式,打造自適應感知框架。






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

 

港大團隊推出新AI範式,打造自適應感知框架。

作者:herry1986 來源:漯河 瀏覽: 【】 發布時間:2025-09-15評論數:

本文的共同第一作者為香港大學 InfoBodied AI 實驗室的博士生孫力和吳傑楓,合作者為劉瑞哲,陳楓。通訊作者為香港大學數據科學研究院及電機電子工程係助理教授楊言超。InfoBodied AI 實驗室近年來在 CVPR,ICML,Neurips,ICLR 等頂會上有多項代表性成果發表,與國內外知名高校,科研機構廣泛開展合作。

http://mp.weixin.qq.com/s/0wE3K6bMR--LiubKs5ucIA

標題:HyperTASR: Hypernetwork-Driven Task-Aware Scene Representations for Robust Manipulation作者:Li Sun, Jiefeng Wu, Feng Chen, Ruizhe Liu, Yanchao Yang機構:The University of Hong Kong原文鏈接: http://arxiv.org/abs/2508.18802

出發點與研究背景

在具身智能中,策略學習通常需要依賴場景表征(scene representation)。然而,大多數現有多任務操作方法中的表征提取過程都是任務無關的(task-agnostic):

無論具身智能體要 “關抽屜” 還是 “堆積木”,係統提取的特征的方式始終相同(利用同樣的神經網絡參數)。

想象一下,一個機器人在廚房裏,既要能精準抓取易碎的雞蛋,又要能搬運重型鍋具。傳統方法讓機器人用同一套"眼光" 觀察不同的任務場景,這會使得場景表征中包含大量與任務無關的信息,給策略網絡的學習帶來極大的負擔。這正是當前具身智能麵臨的核心挑戰之一。

這樣的表征提取方式與人類的視覺感知差異很大 —— 認知科學的研究表明,人類會根據任務目標和執行階段動態調整注意力,把有限的感知資源集中在最相關的物體或區域上。例如:找水杯時先關注桌麵大範圍區域;拿杯柄時又轉向局部幾何細節。

那麽,具身智能體是否也可以學會 “具備任務感知能力的場景表征” 呢?

創新點與貢獻

1. 提出任務感知場景表示框架

国产AV蜜桃网站提出了 HyperTASR,這是一個用於提取任務感知場景表征的全新框架,它使具身智能體能夠通過在整個執行過程中關注與任務最相關的環境特征來模擬類似人類的自適應感知。

2. 創新的超網絡表示變換機製

国产AV蜜桃网站引入了一種基於超網絡的表示轉換,它可以根據任務規範和進展狀態動態生成適應參數,同時保持與現有策略學習框架的架構兼容性。

3. 兼容多種策略學習架構

無需大幅修改現有框架,即可嵌入到 從零訓練的 GNFactor 和 基於預訓練的 3D Diffuser Actor,顯著提升性能。

4. 仿真與真機環境驗證

在 RLBench 和真機實驗中均取得了顯著提升,驗證了 HyperTASR 在不同表征下的有效性(2D/3D 表征,從零訓練 / 預訓練表征),並建立了單視角 manipulation 的新 SOTA。

HyperTASR 概述

在這項工作中,国产AV蜜桃网站提出了 HyperTASR —— 一個基於超網絡的任務感知場景表征框架。它的核心思想是:具身智能體在執行不同任務、處於不同階段時,應該動態調整感知重點,而不是一直用一套固定的特征去看世界。

動態調節:根據任務目標和執行階段,實時生成表示變換參數,讓特征隨任務進展而不斷適配。架構兼容:作為一個獨立的模塊,可以無縫嵌入現有的策略學習框架(如 GNFactor、3D Diffuser Actor)。計算分離:通過超網絡建立 “任務上下文梯度流(task-contextual gradient)” 與 “狀態相關梯度流(state- dependent gradient)” 的分離,大幅提升學習效率與表征質量。

換句話說,HyperTASR 讓具身智能體在執行任務時,像人類一樣 “看得更專注、更聰明”。

任務感知的場景表示 (Task-Aware Scene Representation)

傳統的具身智能體操作任務(Manipulation)學習框架通常是這樣的:

這種做法的局限在於:表征提取器始終是任務無關的。不管是 “關抽屜” 還是 “堆積木”,它提取的特征都一樣。結果就是:大量無關信息被帶入策略學習,既降低了策略學習的效率,也增加了不同任務上泛化的難度。

受到人類視覺的啟發,国产AV蜜桃网站提出在表征階段就引入任務信息:

這樣,場景表示能夠隨任務目標與執行階段動態變化,帶來三個好處:

更專注:隻保留與當前任務相關的特征更高效:過濾掉無關信息更自然:和人類逐步完成任務時的視覺注意模式一致

超網絡驅動的任務條件化表示 (Hypernetwork-Driven Task-Conditional Representation)

HyperTASR 的詳細結構如 Figure 2 所示。為了實現任務感知,国产AV蜜桃网站在表征提取器後加入了一個 輕量級的自編碼器:

其中:

引入自編碼器的一大優勢在於,自編碼器適用於不同的場景表征形式(2D/3D 表征都有對應的自編碼器),另外自編碼器可以維持原來場景表征的形式,無須調整後續策略網絡的結構。

這樣,場景表征不僅會隨任務不同而變化,也會在任務的執行過程中不斷動態遷移。

這種設計的優勢:

1. 梯度分離:任務上下文與狀態相關信息在梯度傳播中分離,增強可解釋性和學習效率

2. 動態變換:不是簡單加權,而是真正改變表征函數,使得表征更加靈活

實驗驗證

HyperTASR 的另一個優勢是模塊化、易集成。這種 “即插即用” 的設計讓 HyperTASR 可以同時增強 從零訓練和預訓練 backbone 兩類方法。国产AV蜜桃网站分別把它嵌入到兩類主流框架中進行驗證:

1.GNFactor(從零訓練):使用 3D volume 表征

2.3D Diffuser Actor(基於預訓練):使用 2D backbone 提取特征再投影到 3D 點雲

国产AV蜜桃网站隻使用了行為克隆損失(Behavior Cloning Loss)作為国产AV蜜桃网站網絡的訓練損失。

仿真實驗

在仿真環境 RLBench 中的 10 個任務上進行訓練,實驗結果如 Table 1 所示:

集成到 GNFactor 後,在無需特征蒸餾模塊的情況下(訓練無需額外的監督信息),成功率超過基線方法 27%;集成到 3D Diffuser Actor 後,首次讓單視角操作成功率突破 80%,刷新紀錄。

在此基礎上,国产AV蜜桃网站進一步通過網絡的梯度進行了注意力可視化:

從 Figure 3 中国产AV蜜桃网站可以觀察到:

傳統方法的注意力往往分散在背景和無關物體;HyperTASR 的注意力始終集中在任務相關的物體上,並隨著任務進度動態變化。

另外,国产AV蜜桃网站進行了消融實驗,證明了 HyperTASR 設計中,引入任務進展的合理性,以及證明了使用超網絡相比於直接利用 Transformer 將任務信息融合到場景表征裏,能夠獲得更大的性能提升。

真機實驗

国产AV蜜桃网站采用 Aloha 進行了真機 manipulation 實驗。如 Table 2 所示,在 6 個實際任務中,HyperTASR 在僅每個任務 15 條示教樣本的有限條件下達到了 51.1%,展示了在真實環境操作中的強泛化能力。

一些真機實驗對比結果如下:

參考

[1] Ze, Yanjie, et al."Gnfactor: Multi-task real robot learning with generalizable neural feature fields." Conference on robot learning. PMLR, 2023.

[2] Ke, Tsung-Wei, Nikolaos Gkanatsioses, and Katerina Fragkiadaki."3D Diffuser Actor: Policy Diffusion with 3D Scene Representations." Conference on Robot Learning. PMLR, 2025.