遊客發表
智東西作者 陳駿達編輯 心緣
智東西9月10日報道,9月5日,中國科學院自動化研究所發布了類腦脈衝大模型“瞬悉1.0”(SpikingBrain-1.0)的技術報告。SpikingBrain-7B開源模型僅用主流大模型2%的預訓練數據,就實現了Qwen2.5-7B 90%的性能,並與Llama-3.1-8B等眾多開源Transformer模型相媲美的性能。
中科院自動化研究所稱,這是我國首次提出大規模類腦線性基礎模型架構,也是我國首次在國產GPU算力集群上構建類腦脈衝大模型的訓練和推理框架。
SpikingBrain訓練和推理的全過程均在國產算力上完成,使用的是由沐曦股份曦雲C550 GPU組成的集群。在訓練過程中,集群連續運行2周未中斷,這也證明了構建國產自主可控的新型非Transformer大模型架構生態的可行性。
除了極高的數據效率之外,SpikingBrain還在推理效率上實現數量級提升。在100萬個token上下文場景下,SpikingBrain-7B生成首個token的耗時,比Qwen2.5-7B降低了96.2%。
這一特性也使得SpikingBrain尤其適合超長序列處理任務,如在法律和醫學文檔分析、複雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學軌跡等。
在能耗方麵,該模型的平均乘加運算能耗相比傳統FP16和INT8運算,分別降低了97.7%和85.2%。
▲SpikingBrain-1.0技術報告
SpikingBrain-1.0共有7B參數量和76B參數量兩個版本。9月3日,7B版本的模型已在GitHub、魔搭等平台開源。76B版本的模型暫未開源,但提供了體驗鏈接。
▲SpikingBrain-1.0體驗界麵
開源地址:
http://github.com/BICLab/SpikingBrain-7B
技術報告:
http://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
體驗鏈接:
http://controller-fold-injuries-thick.trycloudflare.com/
一、Transformer遇上效率瓶頸,從人類大腦找靈感
為什麽需要新型非Transformer架構的大模型?打造SpikingBrain的聯合團隊認為,Transformer架構麵臨一個固有缺點:訓練計算開銷隨序列長度呈平方級增長,推理時的顯存占用也隨序列長度線性增加,帶來海量資源消耗。這限製了模型處理超長序列(100萬個token以上的序列)的能力。
Transformer架構本質上依賴“外生複雜性”,即通過堆疊更多神經元和更大規模計算來提升智能水平。與此對比,人腦以極低的能耗(約為20W)實現了高度複雜的智能,其神經元具有豐富的內部動力學與多樣性。
這意味著大模型或許存在另一條“內生複雜性”的發展路徑,通過充分利用生物神經網絡在神經元和神經環路上的結構和功能特性,打造下一代模型架構。
低功耗脈衝神經網絡(SNN)方案,被學界認為是通往更通用AI係統的新一代低功耗類腦神經網絡方案之一。其工作方式與大腦類似,隻在需要的時候發送信號,因此功耗較低。
研究發現,複雜的脈衝神經元可以用幾個小神經元組合來實現同樣的效果,這讓構建高效的類腦網絡成為可能。
基於上述理論研究,SpikingBrain團隊在模型架構中集成了混合高效注意力、MoE模塊和脈衝編碼三大核心組件。
1、混合高效注意力
注意力機製是大語言模型的核心計算單元。SpikingBrain整合了不同注意力機製的優勢,7B版本模型采用層間混合的線性注意力與SWA,兼顧全局信息檢索和局部依賴。
而更大規模的SpikingBrain-76B則使用層內並行混合,將線性、SWA與全量softmax注意力結合,同一層中並行運行多種注意力機製,可高效處理全局信息、局部依賴和長程依賴。
▲SpikingBrain整體模型架構
2、混合專家模塊
SpikingBrain從Qwen2.5-7B-Base(稠密模型)擴展而來。為了在現有稠密模型的基礎上高效擴展,得到稀疏的混合專家模型,SpikingBrain團隊使用了上采樣(Upcycling)技術。
這一方法的核心是通過參數複製和輸出縮放,使擴展後的模型在初始狀態下與原模型保持一致,從而避免性能損失。
3、脈衝神經元
脈衝神經元是脈衝神經網絡的基本單元。工程應用中常見的LIF(Leaky Integrate-and-Fire)模型,能在一定程度上模擬生物神經元的核心特性。但LIF存在神經元過度沉默或過度激活問題,從而影響模型精度與能效的平衡。
為解決這些問題,SpikingBrain團隊提出了自適應閾值脈衝神經元(Adaptive-threshold Spiking Neurons),可保持神經元適度激活,避免過度興奮或靜息。
二、3個環節完成模型轉換,全麵適配國產GPU集群
在訓練過程中,SpikingBrain團隊將Qwen2.5-7B-Base轉換為類腦脈衝大模型,主要包含3個環節。
持續預訓練和長序列擴展中,模型使用了約150B tokens的數據,將序列長度從8K逐步擴展至128K。其訓練數據量僅占從頭訓練所需的2%,實現了高效模型轉換。
監督微調環節中,通過使用不同領域的數據集以及由DeepSeek-R1蒸餾得到的高質量推理數據集,模型在通用知識、對話和推理等方麵的能力逐步提升。
之後,模型還需要經過脈衝化編碼。受生物神經係統啟發,SpikingBrain團隊提出將大模型的連續激活值轉換為整數脈衝序列的策略。
在推理階段,整數脈衝計數會被展開成稀疏脈衝序列,以適配事件驅動計算。
SpikingBrain提供三種編碼方式:二值脈衝簡單低能耗;三值脈衝支持類似生物神經係統的興奮-抑製調控,減少時間步和脈衝總數;二進製脈衝可在高計數場景下顯著降低計算量和能耗。
▲三種脈衝方案示意圖
上述脈衝化方案可在GPU上兼容運行,但GPU無法完全利用脈衝信號“事件驅動、稀疏異步”的核心優勢。要完全釋放本方案的低能耗潛力,需要結合專用異步硬件(如類腦芯片、脈衝處理器)。
SpikingBrain仍然選擇了在國產沐曦GPU集群上進行訓練,沐曦軟件平台通過MoE優化、計算通信並行、顯存優化、算子融合和自動調優等手段實現適配。
這一適配過程包括Triton適配、CUDA向MACA(沐曦兼容CUDA的軟件棧)框架遷移兩部分。這兩條路徑針對模型內部不同算子進行優化,結合形成適用於沐曦GPU的硬件適配方案。
▲沐曦平台上的CUDA和Triton算子適配
在適配過程中,下遊用戶可以在保持原有編程習慣和接口調用方式的前提下使用,無需對模型代碼進行大量修改。同時,平台提供調試和性能分析工具,便於開發者觀察模型在硬件上的執行情況,並進行必要的微調和優化。
訓練大型語言模型通常超出單個GPU的顯存容量,因此,SpikingBrain團隊結合數據並行、流水線並行、專家並行和序列並行等分布式訓練技術,將計算和存儲負載分散到多個GPU上。
三、恢複基座模型9成性能,集群連續運行2周未中斷
在下遊任務評測中,SpikingBrain-7B在多個基準測試上恢複了基座模型Qwen2.5-7B約90%的性能,整體水平與Mistral-7B、Llama-3-8B等先進Transformer模型相當,表明高效線性注意力在降低推理複雜度的同時仍能保持較強的建模能力。
SpikingBrain-76B混合線性MoE模型幾乎完全恢複了基座模型性能。
經過三階段SFT對齊訓練後,SpikingBrain-76B在通用知識、長序列建模及指令跟隨能力上,與同量級開源對話模型相當,同時保持預訓練獲得的通用能力,未出現過擬合現象,顯示了架構在對齊訓練中的穩定性和可擴展性。
在長序列推理場景中,SpikingBrain-7B模型在100萬個token長度下TTFT(生成第一個Token所需時間)相比Transformer架構加速達到26.5倍,400萬Token長度下加速超過100倍。
訓練性能方麵,7B模型在128K序列長度下的訓練吞吐量為Qwen2.5-7B的5.36倍,這與推理性能提升基本一致。
同時在手機CPU端64K、128K、256K長度下,SpikingBrain較Llama3.2的同規模模型推理速度分別提升4.04倍、7.52倍、15.39倍。
SpikingBrain-7B在訓練過程中的每秒每GPU處理token量達到1558個,模型FLOPs利用率達23.4%,顯示了較高計算效率和資源利用率。集群在連續兩周運行期間未發生中斷,體現了國產硬件和軟件生態係統的可靠性和魯棒性。
脈衝統計顯示,7B版本模型實現了超過69.15%的稀疏度,長序脈衝占比約1.85%,這為低功耗的類腦大模型運行提供有力支撐。
結合異步事件驅動硬件計算,平均乘加運算能耗相比FP16和INT8,分別實現97.7%和85.2%的能耗降低。這表明,將脈衝驅動計算與量化相結合,能夠有效大幅降低能耗開銷,同時做到精度損失可控。
四、一手體驗76B版本生成效果,在小球彈跳上翻車了
在官方試用網頁中,智東西對SpikingBrain-76B模型的能力進行了一手體驗。在這一網頁中,模型的最大生成長度被限製為大約8000個token及以下,超過後會直接中止回答。
▲SpikingBrain-76B模型的高級參數設置頁麵
国产AV蜜桃网站首先讓SpikingBrain-76B介紹一下“何為類腦脈衝大模型”,這主要是為了考察SpikingBrain-76B的理解與表達能力和世界知識儲備。
由於使用了DeepSeek-R1蒸餾得到的高質量推理數據集,SpikingBrain-76B的思維鏈風格與DeepSeek-R1頗為接近,同樣擁有許多口語化表達。
SpikingBrain-76B給出的回答結構清晰,內容也基本正確。不過,它稱Transformer能效比要優於類腦脈衝大模型,這與學界的主流觀點是相悖的。
在小球彈跳這一考驗模型編程與物理規律理解力的題目上,SpikingBrain-76B有點“翻車了”。它打造的網頁十分原始,小球也未能在六邊形內自然彈跳,而是卡在了畫麵正中央。
国产AV蜜桃网站還讓SpikingBrain-76B回答了9.8-9.11這樣的算術題。在2048個token的最大生成長度設定下,模型直接提示思考長度超過生成限製。
當最大生成長度被設置為約8000個token時,SpikingBrain-76B通過列豎式給出了正確回答。
中國科學院自動化研究所在網頁上提示道,模型在訪問高峰時反應較慢。在国产AV蜜桃网站的實際體驗過程中,一輪對話往往要20秒左右才能完成。
結語:大模型全棧國產自主可控再添進展
目前,國內已有多家企業和高校探索了非Transformer的模型架構,除了中國科學院自動化研究所本次發布的SpikingBrain之外,上海交通大學也曾打造一款腦啟發大語言模型,采用“信號全連接流動”機製模擬人腦的語義編碼和信號傳播方式。
這類受大腦計算方式啟發的模型架構,在計算效率上與Transformer架構相比有明顯優勢,在與國產算力硬件結合後,有望走出一條大模型國產自主可控的新路徑。
{loop type="link" row=1 }{$vo.title}