訓練成本大降超九成！阿裏開源下一代基礎模型架構，引入混合注意力機製

來源：{getone name="zzc/xinwenwang"/}2025-09-15 22:17:55

阿裏開源全新架構Qwen3-Next，80B參數新模型隻需激活3B即可實現旗艦性能。

9月12日，阿裏通義發布下一代基礎模型架構Qwen3-Next和基於新架構的模型Qwen3-Next-80B-A3B，包含兩個版本：更擅長理解和執行指令的指令（Insctruct）模型，以及更擅長多步推理和深度思考的推理（Thinking）模型。

據介紹，相比Qwen3的MoE（混合專家）模型結構，Qwen3-Next進行了以下核心改進：混合注意力機製、高稀疏度MoE結構、一係列訓練穩定友好的優化，以及提升推理效率的多token預測機製（簡稱MTP，Multiple-Token Prediction）。

在核心技術方麵，新模型采用全球首創混合架構，75%用Gated DeltaNet（線性注意力），25%用原創Gated Attention（門控注意力），總參數80B隻需激活3B，就可以在性能上媲美Qwen3旗艦版235B模型，算力利用率約為3.7%，幫助用戶“極致省錢”。

在訓練成本方麵，Qwen3-Next模型較今年4月發布的密集模型Qwen3-32B大降超90%，長文本推理吞吐量提升10倍以上。新模型在Qwen3預訓練數據的子集15T tokens上進行預訓練，僅需Qwen3-32B所用GPU計算資源的9.3%，便能訓練出性能更好的Qwen3-Next-Base基座模型，大幅提升了訓練效率。

阿裏通義團隊指出，高稀疏MoE架構是Qwen3-Next麵向下一代模型的最新探索。當前，MoE是主流大模型都采用的架構，通過激活大參數中的小部分專家完成推理任務。此前，Qwen3係列的MoE專家激活比約為1比16，而Qwen3-Next通過更精密的高稀疏MoE架構設計，實現了1比50的極致激活比，創下業界新高。

在性能表現方麵，Qwen3-Next指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507持平，思維模型表現優於穀歌閉源模型Gemini-2.5-Flash-Thinking。

Qwen3-Next-80B-A3B-Instruct指令模型性能評測圖。來源：阿裏通義

目前，新模型已在魔搭社區和HuggingFace開源，開發者也可通過Qwen Chat免費體驗，或直接調用阿裏雲百煉平台提供的API服務。

關於Qwen3-Next模型值得注意的創新點，Pine AI聯合創始人、首席科學家李博傑對澎湃新聞記者表示，Qwen3-Next采用了混合注意力機製和高稀疏MoE架構，從而大幅提升效率；除了這兩大創新點以外，Qwen3-Next還在預訓練時采用了多Token預測技術MTP（Mutiple-Token Prediction），模型推理速度大幅提升。

李博傑表示，雖然以上三種技術創新在學界已有研究，但阿裏證明了其在工業界的實用性，同時還保持了開源：“Qwen3-Next第一次證明了這些技術能夠放在一起共同運作，並且能夠在實際的業務場景中展現出很好的能力表現。從評測結果和模型架構來看，Qwen3-Next已經達到了穀歌Geimini 2.5 flash的水平。”

近期，阿裏通義動作頻頻，包括推出超萬億參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。全球AI開源社區HuggingFace的最新數據顯示，通義千問Qwen衍生模型數已超17萬，穩坐全球第一開源模型。

9月1日，國際權威市場調研機構沙利文（Frost&Sullivan）發布了最新的《中國GenAI市場洞察：企業級大模型調用全景研究，2025》，報告顯示，中國企業級大模型調用呈爆發式增長，2025年上半年日均調用量較2024年底實現363%的增長，目前超10萬億Tokens。其中，阿裏通義占比17.7%位列第一，是中國企業選擇最多的大模型。

[責編：{getone name="zzc/mingzi"/}]

閱讀剩餘全文（）

全部導航

訓練成本大降超九成！阿裏開源下一代基礎模型架構，引入混合注意力機製