Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/49/ffa46/09fa6.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
阿裏巴巴(09988)開源新架構Qwen3-Next 訓練成本大幅下降 引入混合注意力機製






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

 

阿裏巴巴(09988)開源新架構Qwen3-Next 訓練成本大幅下降 引入混合注意力機製

作者:精神病科醫生 來源:漯河 瀏覽: 【】 發布時間:2025-09-15評論數:

智通財經APP獲悉,9月12日,阿裏巴巴(09988)通義發布下一代基礎模型架構Qwen3-Next,並開源了基於該架構的 Qwen3-Next-80B-A3B 係列模型。該模型包含兩個版本:更擅長理解和執行指令的指令(Insctruct)模型,以及更擅長多步推理和深度思考的推理(Thinking)模型。

據介紹,相比Qwen3的MoE(混合專家)模型結構,Qwen3-Next進行了以下核心改進:混合注意力機製、高稀疏度MoE結構、一係列訓練穩定友好的優化,以及提升推理效率的多token預測機製(簡稱MTP,Multiple-Token Prediction)。

具體表現方麵,新模型總參數80B僅激活3B,性能可媲美千問3旗艦版235B模型,模型計算效率大幅提升。Qwen3-Next訓練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,並可支持百萬Tokens(文本處理的最小單位‌)超長上下文。

阿裏巴巴通義團隊指出,高稀疏MoE架構是Qwen3-Next麵向下一代模型的最新探索。當前,MoE是主流大模型都采用的架構,通過激活大參數中的小部分專家完成推理任務。此前,Qwen3係列的MoE專家激活比約為1比16,而Qwen3-Next通過更精密的高稀疏MoE架構設計,實現了1比50的極致激活比。