實測！Qwen下一代基礎架構突襲！秒解AIME數學競賽題

當前位置：首頁>茂名>實測！Qwen下一代基礎架構突襲！秒解AIME數學競賽題

遊客發表

實測！Qwen下一代基礎架構突襲！秒解AIME數學競賽題

發帖時間：2025-09-14 22:01:58

[{$vo.typename}]來源：擔雪填井網

時令發自凹非寺量子位 | 公眾號 QbitAI

Qwen下一代模型架構，搶先來襲！

Qwen3-Next發布，Qwen團隊負責人林俊暘說，這就是Qwen3.5的搶先預覽版。

基於Qwen3-Next，團隊先開源了Qwen3-Next-80B-A3B-Base。

模型參數80B，但訓練成本連Qwen3-32B的十分之一都不到，並且在32 k以上的上下文推理吞吐能達到後者的十倍以上。

基於這一模型，團隊接連出手，同步開發並發布了兩大新模型：

Qwen3-Next-80B-A3B-Instruct：在256K超長上下文處理任務中展現出顯著優勢。Qwen3-Next-80B-A3B-Thinking：在多項基準測試中超越閉源模型Gemini-2.5-Flash-Thinking。

網友表示，這更新頻率令人震驚。

話不多說，趕緊來看看新模型有哪些改進吧。

4大重要改進

Qwen3-Next的核心改進有4方麵：

混合注意力機製高稀疏度MoE結構穩定性優化多token預測機製

混合注意力機製

線性注意力在長上下文處理中效率很高，但召回能力有限，而標準注意力計算開銷大、推理效率低，單獨使用均存在局限。

為此，Qwen團隊引入Gated DeltaNet，其在上下文學習能力上優於常用的滑動窗口注意力和Mamba2，並在采用3:1的混合策略（75%層使用 Gated DeltaNet，25%層保留標準注意力）時，兼顧性能與效率。

同時，在保留的標準注意力層中，他們進一步引入了多項優化設計：

1、延續先前工作的輸出門控機製，以緩解注意力中的低秩問題；

2、將單個注意力頭的維度從128擴展至256；

3、僅對注意力頭前25%的維度加入旋轉位置編碼，以增強長序列外推能力。

高稀疏度MoE結構

Qwen3-Next采用高稀疏度的MoE架構，總參數量達800億，但每次推理僅激活約30億參數。

相比Qwen3-MoE的128個總專家和8個路由專家，Qwen3-Next 擴展到512個總專家，並采用10路由專家加1共享專家的組合設計，在保證性能的前提下最大化資源利用率。

訓練穩定性優化

在Qwen3-Next中，團隊為進一步提高模型穩定性，采用了Zero-Centered RMSNorm，並在此基礎上，對norm weight施加weight decay，以避免權重無界增長。

不僅如此，他們還在初始化時歸一化了MoE router的參數，確保每個expert在訓練早期都能被無偏地選中，減小初始化對實驗結果的擾動。

多token預測機製

Qwen3-Next引入了原生Multi-Token Prediction（MTP）機製，不僅獲得了Speculative Decoding接受率較高的MTP模塊，還提升了模型主幹的整體性能。

此外，它還對MTP的多步推理進行了專項優化，即通過訓練推理一致的多步策略，進一步提高了在實際應用場景下Speculative Decoding的接受率。

快10倍，但便宜10倍

接下來，讓国产AV蜜桃网站一起看看新模型表現如何。

首先，Qwen3-Next使用了Qwen3 36T預訓練語料的均勻采樣子集，僅包含15T tokens。

其訓練所需的GPU Hours不到 Qwen3-30A-3B的80%，相比 Qwen3-32B，僅需9.3%的GPU計算資源就能取得更優性能。

不僅如此，得益於創新的混合模型架構，Qwen3-Next在推理效率上也表現突出。

與Qwen3-32B相比，Qwen3-Next-80B-A3B在預填充（prefill）階段就展現出卓越的吞吐能力：

在4k tokens的上下文長度下，吞吐量接近前者的7倍；當上下文長度超過32k時，吞吐提升更是達到10倍以上。

在解碼（decode）階段，該模型同樣高效。4k上下文吞吐量提升約4倍，長上下文（32k+）場景中仍可保持超過10倍的吞吐優勢。

基於Qwen3-Next，Qwen團隊首先訓練了Qwen3-Next-80B-A3B-Base模型。

該模型僅使用十分之一的Non-Embedding激活參數，就已在大多數基準測試中超越Qwen3-32B-Base，並顯著優於Qwen3-30B-A3B，展現出出色的效率與性能優勢。

基於Qwen3-Next-80B-A3B-Base的優異表現，團隊進一步開發並發布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先，Qwen3-Next-80B-A3B-Instruct的表現顯著優於 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，並在多數指標上接近Qwen3-235B-A22B-Instruct-2507。

除此之外，在RULER測試中，無論上下文長度如何，Qwen3-Next-80B-A3B-Instruct 的表現均超過了層數相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。

甚至在256 k範圍內也優於層數更多的Qwen3-235B-A22B-Instruct-2507，充分體現了Gated DeltaNet與Gated Attention混合模型在長文本處理場景下的優勢。

Qwen3-Next-80B-A3B-Thinking

再來看Qwen3-Next-80B-A3B-Thinking，其表現也相當不錯。

在多項基準測試中都超過了閉源模型Gemini-2.5-Flash-Thinking，並在部分指標上接近Qwen最新的旗艦模型 Qwen3-235B-A22B-Thinking-2507。

推理能力相當可以

接下來讓国产AV蜜桃网站實測一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat網頁，一上來就給它扔一道AIME數學競賽題試試：

由於Qwen3-Next-80B-A3B支持多模態，這裏国产AV蜜桃网站可以直接上傳圖片。

幾乎瞬間，模型就開始飛快地列出了詳細解題思路和計算過程，最終得到的答案“588”與AIME標準答案完全吻合。

小試牛刀之後，接下來進入編程環節。

用p5js創建一個可直接玩的掃雷遊戲。

代碼成功運行後，国产AV蜜桃网站也簡單試玩了一下，流暢度還可以（doge）。

就是誰能解釋一下為什麽這個遊戲背景是大紅色，還沒有網格線？？？

還有網友奇思妙想，用它生成了天氣卡片。

不過，看到這個更新時，網友開心之餘還是忍不住吐槽：

名字實在太複雜了。

目前，新模型已在魔搭社區和抱抱臉開源，大家可通過Qwen Chat免費體驗，也可直接調用阿裏雲百煉平台提供的API服務。

魔搭社區直通車：http://t.co/mld9lp8QjK抱抱臉直通車：http://t.co/zHHNBB2l5XQwen Chat直通車：http://t.co/V7RmqMaVNZ阿裏雲API直通車：http://t.co/RdmUF5m6JA

參考鏈接：[1]https://x.com/Alibaba_Qwen/status/1966197643904000262[2]http://x.com/JustinLin610/status/1966199996728156167[3]http://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

{loop type="link" row=1 }{$vo.title}

国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

實測！Qwen下一代基礎架構突襲！秒解AIME數學競賽題