遊客發表
時令 發自 凹非寺量子位 | 公眾號 QbitAI
Qwen下一代模型架構,搶先來襲!
Qwen3-Next發布,Qwen團隊負責人林俊暘說,這就是Qwen3.5的搶先預覽版。
基於Qwen3-Next,團隊先開源了Qwen3-Next-80B-A3B-Base。
模型參數80B,但訓練成本連Qwen3-32B的十分之一都不到,並且在32 k以上的上下文推理吞吐能達到後者的十倍以上。
基於這一模型,團隊接連出手,同步開發並發布了兩大新模型:
Qwen3-Next-80B-A3B-Instruct:在256K超長上下文處理任務中展現出顯著優勢。Qwen3-Next-80B-A3B-Thinking:在多項基準測試中超越閉源模型Gemini-2.5-Flash-Thinking。
網友表示,這更新頻率令人震驚。
話不多說,趕緊來看看新模型有哪些改進吧。
4大重要改進
Qwen3-Next的核心改進有4方麵:
混合注意力機製高稀疏度MoE結構穩定性優化多token預測機製
混合注意力機製
線性注意力在長上下文處理中效率很高,但召回能力有限,而標準注意力計算開銷大、推理效率低,單獨使用均存在局限。
為此,Qwen團隊引入Gated DeltaNet,其在上下文學習能力上優於常用的滑動窗口注意力和Mamba2,並在采用3:1的混合策略(75%層使用 Gated DeltaNet,25%層保留標準注意力)時,兼顧性能與效率。
同時,在保留的標準注意力層中,他們進一步引入了多項優化設計:
1、延續先前工作的輸出門控機製,以緩解注意力中的低秩問題;
2、將單個注意力頭的維度從128擴展至256;
3、僅對注意力頭前25%的維度加入旋轉位置編碼,以增強長序列外推能力。
高稀疏度MoE結構
Qwen3-Next采用高稀疏度的MoE架構,總參數量達800億,但每次推理僅激活約30億參數。
相比Qwen3-MoE的128個總專家和8個路由專家,Qwen3-Next 擴展到512個總專家,並采用10路由專家加1共享專家的組合設計,在保證性能的前提下最大化資源利用率。
訓練穩定性優化
在Qwen3-Next中,團隊為進一步提高模型穩定性,采用了Zero-Centered RMSNorm,並在此基礎上,對norm weight施加weight decay,以避免權重無界增長。
不僅如此,他們還在初始化時歸一化了MoE router的參數,確保每個expert在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。
多token預測機製
Qwen3-Next引入了原生Multi-Token Prediction(MTP) 機製,不僅獲得了Speculative Decoding接受率較高的MTP模塊,還提升了模型主幹的整體性能。
此外,它還對MTP的多步推理進行了專項優化,即通過訓練推理一致的多步策略,進一步提高了在實際應用場景下Speculative Decoding的接受率。
快10倍,但便宜10倍
接下來,讓国产AV蜜桃网站一起看看新模型表現如何。
首先,Qwen3-Next使用了Qwen3 36T預訓練語料的均勻采樣子集,僅包含15T tokens。
其訓練所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,僅需9.3%的GPU計算資源就能取得更優性能。
不僅如此,得益於創新的混合模型架構,Qwen3-Next在推理效率上也表現突出。
與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段就展現出卓越的吞吐能力:
在4k tokens的上下文長度下,吞吐量接近前者的7倍;當上下文長度超過32k時,吞吐提升更是達到10倍以上。
在解碼(decode)階段,該模型同樣高效。4k上下文吞吐量提升約4倍,長上下文(32k+)場景中仍可保持超過10倍的吞吐優勢。
基於Qwen3-Next,Qwen團隊首先訓練了Qwen3-Next-80B-A3B-Base模型。
該模型僅使用十分之一的Non-Embedding激活參數,就已在大多數基準測試中超越Qwen3-32B-Base,並顯著優於Qwen3-30B-A3B,展現出出色的效率與性能優勢。
基於Qwen3-Next-80B-A3B-Base的優異表現,團隊進一步開發並發布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。
Qwen3-Next-80B-A3B-Instruct
首先,Qwen3-Next-80B-A3B-Instruct的表現顯著優於 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並在多數指標上接近Qwen3-235B-A22B-Instruct-2507。
除此之外,在RULER測試中,無論上下文長度如何,Qwen3-Next-80B-A3B-Instruct 的表現均超過了層數相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。
甚至在256 k範圍內也優於層數更多的Qwen3-235B-A22B-Instruct-2507,充分體現了Gated DeltaNet與Gated Attention混合模型在長文本處理場景下的優勢。
Qwen3-Next-80B-A3B-Thinking
再來看Qwen3-Next-80B-A3B-Thinking,其表現也相當不錯。
在多項基準測試中都超過了閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近Qwen最新的旗艦模型 Qwen3-235B-A22B-Thinking-2507。
推理能力相當可以
接下來讓国产AV蜜桃网站實測一下Qwen3-Next-80B-A3B的推理能力。
使用Qwen Chat網頁,一上來就給它扔一道AIME數學競賽題試試:
由於Qwen3-Next-80B-A3B支持多模態,這裏国产AV蜜桃网站可以直接上傳圖片。
幾乎瞬間,模型就開始飛快地列出了詳細解題思路和計算過程,最終得到的答案“588”與AIME標準答案完全吻合。
小試牛刀之後,接下來進入編程環節。
用p5js創建一個可直接玩的掃雷遊戲。
代碼成功運行後,国产AV蜜桃网站也簡單試玩了一下,流暢度還可以(doge)。
就是誰能解釋一下為什麽這個遊戲背景是大紅色,還沒有網格線???
還有網友奇思妙想,用它生成了天氣卡片。
不過,看到這個更新時,網友開心之餘還是忍不住吐槽:
名字實在太複雜了。
目前,新模型已在魔搭社區和抱抱臉開源,大家可通過Qwen Chat免費體驗,也可直接調用阿裏雲百煉平台提供的API服務。
魔搭社區直通車:http://t.co/mld9lp8QjK抱抱臉直通車:http://t.co/zHHNBB2l5XQwen Chat直通車:http://t.co/V7RmqMaVNZ阿裏雲API直通車:http://t.co/RdmUF5m6JA
參考鏈接:[1]https://x.com/Alibaba_Qwen/status/1966197643904000262[2]http://x.com/JustinLin610/status/1966199996728156167[3]http://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1
{loop type="link" row=1 }{$vo.title}