清華首次提出數據驅動控製新形式,算法效率直翻三倍

iDLab團隊 投稿量子位 | 公眾號 QbitAI

當大數據席卷各行各業,控製理論也迎來新的拐點:從依賴模型到依賴數據。

但是,在數據驅動控製領域,卻缺乏一種標準化的數據表示形式。

針對這一問題,清華大學李升波教授課題組(iDLab)首次將現代控製理論中的標準型概念引入數據驅動控製(datatic control)範式,提出了一種基於數據的係統描述新形式。

每個標準形式的樣本由必要的轉移和可插拔的屬性組成,分別用於描述係統變化規律和人為定義特征。

不僅如此,該數據標準型還可根據算法需求定製屬性,顯著加速控製器設計,為提高數據驅動算法效率提供了新的思路。

目前,該成果已發表於ACC2025。

從模型標準型到數據標準型

人工智能的蓬勃發展,離不開數據這一核心支柱。

近年來,隨著人工智能技術的廣泛應用,以數據為核心的係統表征方法迅速滲透到控製領域。

控製係統的設計方法正迎來一場從模型驅動向數據驅動的範式變革,即從傳統的模型驅動控製(modelic control,即model-driven control)到數據驅動控製(datatic control,即data-driven control)。

圖1:兩種控製範式對比

模型驅動控製(上方路徑)首先利用係統辨識來擬合一個模型,然後用這個模型來合成控製器。

數據驅動控製(下方路徑)則直接利用數據來求解控製器。

在模型驅動控製(modelic control)的範式下,模型的標準型是一個有力工具。

例如,現代控製理論的奠基人魯道夫·卡爾曼(Rudolf E. Kálmán)指出:將狀態空間模型表示為可控標準型或可觀標準型,無需額外的判斷步驟即可直接確保係統的可控性或可觀性。

此外,現代群論的奠基人之一卡米耶·若爾當(Camille Jordan)指出:任何狀態空間模型都可以轉換為約旦標準型,係統矩陣會變為對角方陣,其對角線元素代表係統的特征值。

因此,隻需檢查所有特征值是否為負,即可輕鬆驗證係統的穩定性。更進一步,不同的特征值對應著係統不同的模態,這使得控製器設計更具針對性。

數據驅動控製(datatic control)範式下的標準型是一個新問題。

近年來,隨著機器人、自動駕駛等具身智能係統的蓬勃發展,海量、複雜的交互數據正以前所未有的速度被生成。這不僅為傳統控製算法帶來了巨大挑戰,也引出了一個全新的議題:

在數據驅動控製範式下,如何構建一個有效利用大規模數據的標準描述方式?即是否存在數據驅動版本的標準型?

數據的描述形式直接決定了後續控製器設計算法的運行效率和可擴展性。

以強化學習為例,訓練算法通常涉及大量的迭代計算和高維數據處理。

在這一過程中,算法很容易陷入重複計算的泥潭,例如在每一步訓練迭代中,都重新計算樣本間的範數距離、特征相似度等信息。

這種重複性的計算不僅耗時,而且對計算資源造成了顯著的浪費,嚴重製約了算法在現實世界中的部署和應用。

因此,如何高效、標準地組織和描述數據,以減少冗餘計算、加速算法運行,是數據驅動控製範式麵臨的一項核心挑戰。

類比於模型標準型,該研究首次提出,適用於數據驅動控製係統的標準描述形式:每條樣本數據包含兩個部分(如圖2所示):

圖2:數據標準型示意圖

(1)必要的轉移部分

,即<當前狀態

,當前動作

,下一狀態

(2)可插拔的屬性部分,例如獎勵信號或其他人工設計特征。

前者蘊含了控製器設計必要的係統的動力學信息,後者可以根據控製器設計算法的需求來靈活定製與取用,降低存儲壓力,加速算法運行,即提高控製器設計效率。

仿真實例

該研究給出了一個典型的數據標準型應用實例。對於給定數據集,為了使得設計出的控製器效果可靠,許多強化學習算法存在近鄰搜索的需求。

例如給定回放的樣本狀態

,算法需要在線計算當前策略

的行為與數據集行為之間的距離:

由於需要遍曆數據集中每個樣本來尋找最近鄰,計算負擔非常沉重。

在數據標準型的視角下,對於每個樣本,可以通過提前定製一種特殊的空間屬性,顯著加速近鄰搜索這一過程。

具體地,如圖3所示,提前在樣本空間中約定n個錨點

,對於每個樣本,計算其與各錨點的距離保存為空間屬性。

圖3:標準型的空間屬性示意圖 圖3:標準型的空間屬性示意圖

當每個樣本都具備空間屬性後,該研究給出如下空間篩選條件定理來加速近鄰搜索。

定理1(空間篩選條件)

考慮一個包含

個錨點的數據集。記C為一個選定的樣本,而S為任意其他樣本。若S位於C的R-鄰域範圍內,則一個需要滿足的

必要條件為:

其中

表示表示邏輯與運算符。

圖4:空間標準型的空間篩選機製示意圖

應用這一空間篩選條件,隻需要一行判斷指令,就可以快速縮小候選範圍(如圖4所示),顯著加速最近鄰搜索的過程,從而提高算法的整體運行效率。

該研究在D4RL數據集的Hopper環境下進行了實驗,對引入空間標準型前後的訓練時間進行了比較。

圖5清晰地展示了這一改進:基礎版本(藍色曲線)的訓練耗時約20小時,而應用了空間標準型篩選機製(橙色曲線)後,訓練時間縮短至僅7小時,實現了三倍的效率提升。

圖5:應用空間標準型前後的訓練時間對比

總的來說,數據標準型可以極小的存儲空間開銷,換取顯著的時間效率優勢。

除此之外,它還可以根據算法需求靈活插拔屬性部分來降低存儲需求,具備擴展性,為提高數據驅動控製算法效率提供了新的方向。

論文鏈接:http://ieeexplore.ieee.org/document/11107988

漯河
上一篇:{loop type="arclist" row=1 }{$vo.title}