機器之心報道
編輯:張倩、陳陳
見過省電的模型,但這麽省電的,還是第一次見。
在 《自然》 雜誌發表的一篇論文中,加州大學洛杉磯分校 Shiqi Chen 等人描述了一種幾乎不消耗電量的 AI 圖像生成器的開發。
該生成器是一種受擴散模型啟發的光學生成模型。其工作原理如下:首先通過數字編碼器(使用公開數據集訓練)生成最終構成圖像的靜態噪聲,這一過程僅需消耗極少能量。隨後,一種被稱為空間光調製器(SLM)的液晶屏幕會將這種噪聲模式刻印到激光束上。該激光束再通過第二台解碼 SLM 裝置,將光束中的噪聲模式轉化為最終圖像。
與傳統 AI 依賴數百萬次計算機運算不同,該係統利用光完成所有核心工作,因此幾乎不消耗電能。論文第一作者 Shiqi Chen 表示:「国产AV蜜桃网站的光學生成模型幾乎無需算力就能合成海量圖像,為數字 AI 模型提供了可擴展且高能效的替代方案。」
研究人員采用多種 AI 訓練圖像對係統進行測試,包括名人肖像、蝴蝶圖像以及梵高風格的全彩畫作。結果顯示,光學係統生成的圖像效果與傳統圖像生成器相當,但能耗顯著降低。
該技術還具有廣泛的應用前景。憑借其超高速和超低能耗特性,該係統可用於生成 VR、AR 顯示的圖像視頻,也適用於智能手機、AI 眼鏡等可穿戴電子設備的小型化終端。
論文標題:Optical generative models論文地址:http://www.nature.com/articles/s41586-025-09446-5#MOESM1
不過,該模型目前仍處於物理實驗階段,離實用還有一段距離。
方法概覽
本文提出的光學生成模型,能夠根據目標數據分布合成單色或彩色圖像 —— 即通過光學方法生成特定數據分布中前所未見的新圖像。受擴散模型啟發,該方案采用淺層數字編碼器將隨機二維高斯噪聲模式快速轉換為代表光學生成種子的二維相位結構。這種光學種子的產生是一次性的,它涉及一個作用於隨機二維噪聲模式的淺而快速的相位空間編碼器。
根據目標分布即時生成圖像或輸出數據的過程,可通過隨機調用這些預先計算好的光學生成種子按需實現。這一廣義概念可通過不同光學硬件實現,集成光子學或基於自由空間的實現。
即時圖像生成
圖 1 展示了作者研發的單色圖像即時生成模型的原理示意圖。如圖 1a 所示,遵循正態分布的隨機二維輸入首先通過數字編碼器轉換為二維相位模式,該編碼器可快速提取潛在特征並將其編碼至相位通道以供後續模擬處理。這些由隨機噪聲生成的相位編碼輸入作為光學生成種子,被加載到 SLM 中,為衍射光學生成模型提供信息輸入。在相幹光照下,攜帶編碼相位模式的光場繼續傳播並通過為特定目標數據分布優化的衍射解碼器進行處理。最終,生成的圖像由圖像傳感器捕獲,這些圖像符合目標數據分布特征。
圖 1b 展示了訓練流程:作者首先基於去噪擴散概率模型(DDPM)訓練教師數字生成模型以學習目標數據分布。完成訓練後,凍結該 DDPM 模型並持續生成用於訓練即時光學生成模型的噪聲 - 圖像數據對。淺層數字相位編碼器與光學生成模型通過聯合訓練,使模型能夠以簡潔可重構的架構高效學習目標分布。
圖 1c 呈現了盲推理過程:由數字編碼器從隨機噪聲模式產生的編碼相位模式(即光學種子)是預先計算的,光學生成模型則使用固定的靜態解碼器在自由空間中對這些生成相位種子進行解碼。為實現從隨機高斯噪聲快速合成光學生成相位種子,數字編碼器包含三個全連接層,其中前兩層采用非線性激活函數(詳見方法部分)。可重構衍射解碼器通過 400 × 400 個可調相位特征(每個特征覆蓋 0-2π 範圍)進行優化,完成優化後針對每個目標數據分布保持靜態。
圖 1
迭代式光學生成模型
作者還設計了一種迭代式光學通用模型,可從高斯噪聲中遞歸重建目標數據分布。如圖 2a 所示,該迭代光學生成模型同樣工作在三個照明波長下,通過淺層數字相位編碼器編碼的多通道相位圖案被順序加載到同一 SLM 上。
為展示這種迭代光學模型的生成能力,作者采用 Lₒ=5 個聯合優化並固定的解碼層來處理目標數據分布。與前述即時光學生成模型的不同之處在於:當圖像傳感器平麵記錄初始強度圖像後,測量結果會按設計方差添加高斯噪聲,該噪聲擾動結果將作為下一時間步的迭代光學輸入。
圖 2b 展示了這種迭代光學生成模型的訓練過程:采樣一批時間步並相應地向原始數據添加噪聲,獲得噪聲樣本。這些噪聲樣本經過淺層數字編碼器和迭代光學生成模型處理,得到連續輸出。與標準 DDPM 實現不同,該迭代光學生成模型直接預測去噪樣本,其損失函數根據原始數據計算。
圖 2c 概述了迭代式光學生成模型的盲推理過程:已訓練的光學模型對從最終時間步到初始時間步的擾動樣本遞歸執行去噪操作,最終生成的圖像在傳感器平麵捕獲(詳見方法部分)。
圖 2
實驗及結果
在初步實驗中,研究者分別基於 MNIST 和 Fashion-MNIST 數據集訓練了兩個不同的模型,用於生成手寫數字和時尚商品圖像。
圖 3c 為兩個模型的結果,生成的圖片在 MNIST 和 Fashion-MNIST 數據集上分別達到了 131.08 和 180.57 的 FID 實驗評分。這表明生成的圖片符合這兩個數據集的目標分布,充分體現了所設計係統的多樣性,進一步驗證了快照式光學生成模型的可行性。
生成手寫數字
生成時尚商品
研究者進一步將實驗結果拓展至更高分辨率的梵高風格藝術作品生成。
圖 4 與圖 5 分別展示了使用 5.8 億參數數字編碼器實現的高分辨率單色及彩色(RGB)圖像生成實驗結果。其中梵高風格單色圖像采用 520 納米波長照明生成,而彩色圖像則依次使用 {450, 520, 638} 納米波長分別對應藍、綠、紅三通道。
在多色梵高風格藝術圖像生成實驗中,研究者為每個波長通道生成了相應的相位編碼生成種子圖案,並依次加載到空間光調製器(SLM)上。在對應波長的照明下,利用固定或靜態的衍射解碼器生成多彩圖像,並通過數字方式進行融合。換言之,在所有波長照明下的圖像生成過程中,係統共享同一個解碼器狀態。
圖 5 展示了多色梵高風格藝術作品的生成結果,其中既包含與教師數字擴散模型輸出高度吻合的案例,也包含具有差異性輸出的示例(該教師模型需使用 10.7 億可訓練參數並通過 1000 次迭代步驟生成單幅圖像)。盡管觀察到輕微的色差現象,生成的高分辨率彩色圖像仍保持了優異的質量。
作者介紹
Shiqi Chen,加州大學洛杉磯分校(UCLA)博士後研究員,導師為 Aydogan Ozcan 教授。此前,他在浙江大學獲得博士學位,師從馮華君教授和徐之海教授。
Shiqi Chen 在博士期間主要研究重點是應用光學和計算機視覺,以實現更清晰的計算成像,其中部分研究成果已應用於最新的移動終端設備。
個人主頁:http://tangeego.github.io/
關於国产AV蜜桃网站|版權聲明| 違法和不良信息舉報電話:010-84151598 | 網絡敲詐和有償刪帖舉報電話:010-84151598
Copyright © 2008-2024 by {當前域名}. all rights reserved