來源:環球時報
【環球時報報道 記者 陳子帥】近日,中國科學院自動化研究所科研團隊與相關單位合作,成功研發出首款類腦脈衝大模型“瞬悉1.0”(SpikingBrain-1.0)。該款大模型實現了全流程國產化,標誌著我國在類腦計算與大模型融合創新方麵取得重要突破。該科研團隊核心成員、中國科學院自動化研究所研究員李國齊在接受《環球時報》記者采訪時表示,大模型還將持續“進化”,後續還會發布瞬悉2.0、瞬悉3.0,有望為突破現有普通大模型的技術瓶頸帶來新思路,為中國引領下一代人工智能的發展方向提供基礎積累。
與主流架構不同,記憶方式與人腦更貼近
什麽是類腦脈衝大模型?李國齊告訴《環球時報》記者,類腦脈衝大模型是指借鑒大腦結構和啟發而設計的一類大模型構造範式,它與當前主流大模型架構(Transformer架構)不同,主要有三點區別。一是類腦大模型提供一條新的啟發式技術路線,期望借鑒大腦的結構和功能啟發模型的架構設計。二是類腦大模型期望體現人腦的超低功耗特性,希望借鑒0/1的脈衝信號來傳遞信息,結合類腦芯片等硬件的事件驅動特性可以具有顯著的低功耗、低時延等優勢。三是類腦大模型的記憶方式與人腦記憶方式更貼近。“普通大模型往往把所有對話曆史都‘逐字逐句’地保留下來,每次回答都要重新處理一遍完整曆史,這樣做導致處理信息增多時出現存儲和計算瓶頸。而類腦脈衝模型會像人類記憶一樣,把曆史信息進行壓縮和提煉,保留關鍵信息,不需要反複翻遍全部記錄。這些差異帶來的直接好處是,在超長對話或超長文本輸入場景下,類腦脈衝模型依然能保持快速響應。”
研究團隊將這款大模型命名為“瞬悉”,有何含義?“字麵上是瞬間知悉,這體現了類腦脈衝大模型的核心特性。整體諧音‘瞬息’,寓意在瞬息萬變的時代中把握智能本質。”李國齊說,命名並非僅僅強調計算速度快,而是蘊含著更深層的技術理念。
一方麵,“瞬”字體現了效率革命和技術路線。瞬悉1.0在推理階段實現了數量級的效率提升,在400萬Token(Token是大模型處理文本的基本單位)長度下加速超過百倍。“這種‘瞬時’的處理能力源於受大腦啟發的脈衝神經元機製。在大腦中,單個神經脈衝的產生和傳遞都在瞬間內完成。”
另一方麵,“悉”字體現了理解深度和技術特點。李國齊介紹說,“悉”為全麵理解、洞察,體現了模型對信息的深度感知能力。與傳統大模型不同,“瞬悉”采用“基於內生複雜性”的架構,參考學習大腦神經元內部複雜工作機製,通過脈衝神經元的內生動力學實現更智能的信息處理。“盡管技術高深莫測,卻具有善解人意的人性化特質。”
一次推理中,能夠完整閱讀上千萬字文檔
《環球時報》記者了解到,現有的普通大模型存儲和計算複雜度高,同時在功能和可解釋性上存在著一些難以逾越的瓶頸。類腦脈衝大模型能夠彌補這一短板。
李國齊告訴記者,類腦脈衝大模型一方麵能以低成本實現對現有普通大模型在各種常規任務上的替代,在超長序列處理等場景中具有顯著優勢;另一方麵,類腦脈衝大模型提供了一條借鑒神經元內生複雜動態發展大模型的新技術路線,“這有望為突破現有普通大模型的技術瓶頸帶來新思路,為中國引領下一代人工智能的發展方向提供基礎積累。”
李國齊解釋說,類腦脈衝大模型的高效超長序列處理能力,適合一些科學研究場景和日常應用場景。例如,在高能粒子物理實驗中,需要從極長時間的事件流中發現極其罕見的粒子信號,需要在超長數據流(每秒鍾產生約108個數據,單數據大小約2.5MB)中持續追蹤,避免因上下文切割錯過異常事件。在法律或醫學文檔分析中,常常需處理極其冗長且結構複雜的法律條文、合同文本、判例庫/病例庫(百萬至千萬字)等,“具備超長序列能力的模型能夠在一次推理中完整地‘閱讀’整個法律/醫學文檔體係,避免關鍵條款的適用條件、跨條文的約束關係的語義丟失。”
“全球都在發力,國內取得階段性進展”
為何要研究類腦脈衝大模型?李國齊告訴記者,人工智能進入大模型時代已將近3年,普通的大模型在Scaling law(尺度定律)驅動下,通過增加網絡規模、算力資源和數據量提升模型智能水平的方式目前遇到了難以突破的瓶頸,而“人腦是目前唯一已知的通用智能係統,很多人工智能、神經科學領域的科學家們都堅信,人類需要借鑒大腦的結構和功能來實現新的突破”。
然而,如何找到一個合適的切入點,從概念、算法、模型、硬件等方麵帶來係統性範式變革,為現有的人工智能係統帶來新思想、新啟發,是一個巨大的挑戰。李國齊說,“目前國際上主要還在解決低功耗脈衝通信限製下的中小規模模型的性能問題,国产AV蜜桃网站本次發布的類腦脈衝大模型,不僅在規模上遠超現有的類腦脈衝模型,同時提出了新的技術路線。”
據《環球時報》記者了解,李國齊團隊在類腦計算領域已經深耕超過十年,解決了領域內的一些重大基礎性問題,包括解決深度類腦脈衝神經網絡的可訓練問題、端側任務中脈衝神經網絡與傳統人工神經網絡之間的性能差距問題等。本次發布的類腦脈衝大模型正是長期積累的係統化成果,基於已有的內生複雜大模型構建思想來啟發大模型設計,結合在類腦脈衝模型、算法與係統協同優化方麵的全棧能力,完成了從機製原理、工程實現,到大規模化驗證的閉環。
在國際上,許多研究團隊也在探索相關領域。據專家介紹,歐美在“類腦計算”“神經形態芯片”和“脈衝神經網絡”等方向都有持續研究。歐美的企業、知名大學和研究機構,近兩年在Nature和Science等期刊上都有不少相關論著。與此同時,國內頂尖高校如清華大學、北京大學、浙江大學等都在做類腦智能方向的研究。
“目前大規模類腦大模型的訓練和應用仍處於前沿探索階段,各方也都在思考類腦研究和大模型如何結合。可以說,全球都在發力,而国产AV蜜桃网站這次能夠在國產算力集群上實現類腦脈衝大模型的規模化落地,說明國內在算法和算力結合方麵取得了階段性進展。”李國齊說。
向全球共享資源和成果
值得關注的是,該科研團隊正式開源了70億參數版本大模型,同時開放了760億參數版本大模型的測試網址。開源70億參數模型,意味著學術界、產業界的研究人員都可以直接下載使用或基於它做二次開發,這有助於加速生態建設和技術創新。開放760億參數模型的測試接口,則展示了中國在大規模模型訓練和部署上的技術能力,也為國際同行提供了一個對標和交流的平台。李國齊說,“這不僅代表国产AV蜜桃网站的技術水平達到了國際前沿,也體現出国产AV蜜桃网站願意與全球共享資源和成果,推動類腦智能和大模型技術的共同發展。”
據研究團隊透露,類腦大模型還將有後續的2.0、3.0版本。李國齊告訴《環球時報》記者,人腦是一個超低功耗的通用智能係統,它包含數量巨大的神經元和突觸連接,但功耗隻有20瓦左右。“因此国产AV蜜桃网站堅信借鑒人腦的信息處理機製、借鑒人腦神經元和神經環路的功能和結構、借鑒人腦的記憶機製去構建新一代大模型的基礎模型和架構是非常有潛力的研究方向。”
當前,瞬悉1.0隻是初步確立了大模型線性注意力機製和樹突計算之間具有某種聯係,“那麽沿著這個方向,国产AV蜜桃网站相信可以找到一條融合神經元豐富動力學特性,構建具有生物合理性和計算高效性的神經網絡新路徑,即基於內生複雜性構建通用智能模型,探索腦科學與AI基礎模型架構之間的橋梁。”
李國齊說,接下來他們將繼續推動腦科學導向的類腦脈衝大模型的研究,同時推進類腦大模型在超長序列上的應用,如DNA序列分析、高能粒子物理實驗、複雜多智能體模擬、分子動力學軌跡等超長序列科學任務場景建模。