Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/29/54269/0296d.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
實測!Qwen下一代基礎架構突襲!秒解AIME數學競賽題






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

遊客發表

實測!Qwen下一代基礎架構突襲!秒解AIME數學競賽題

發帖時間:2025-09-14 22:01:58

時令 發自 凹非寺量子位 | 公眾號 QbitAI

Qwen下一代模型架構,搶先來襲!

Qwen3-Next發布,Qwen團隊負責人林俊暘說,這就是Qwen3.5的搶先預覽版。

基於Qwen3-Next,團隊先開源了Qwen3-Next-80B-A3B-Base。

模型參數80B,但訓練成本連Qwen3-32B的十分之一都不到,並且在32 k以上的上下文推理吞吐能達到後者的十倍以上。

基於這一模型,團隊接連出手,同步開發並發布了兩大新模型:

Qwen3-Next-80B-A3B-Instruct:在256K超長上下文處理任務中展現出顯著優勢。Qwen3-Next-80B-A3B-Thinking:在多項基準測試中超越閉源模型Gemini-2.5-Flash-Thinking。

網友表示,這更新頻率令人震驚。

話不多說,趕緊來看看新模型有哪些改進吧。

4大重要改進

Qwen3-Next的核心改進有4方麵:

混合注意力機製高稀疏度MoE結構穩定性優化多token預測機製

混合注意力機製

線性注意力在長上下文處理中效率很高,但召回能力有限,而標準注意力計算開銷大、推理效率低,單獨使用均存在局限。

為此,Qwen團隊引入Gated DeltaNet,其在上下文學習能力上優於常用的滑動窗口注意力和Mamba2,並在采用3:1的混合策略(75%層使用 Gated DeltaNet,25%層保留標準注意力)時,兼顧性能與效率。

同時,在保留的標準注意力層中,他們進一步引入了多項優化設計:

1、延續先前工作的輸出門控機製,以緩解注意力中的低秩問題;

2、將單個注意力頭的維度從128擴展至256;

3、僅對注意力頭前25%的維度加入旋轉位置編碼,以增強長序列外推能力。

高稀疏度MoE結構

Qwen3-Next采用高稀疏度的MoE架構,總參數量達800億,但每次推理僅激活約30億參數。

相比Qwen3-MoE的128個總專家和8個路由專家,Qwen3-Next 擴展到512個總專家,並采用10路由專家加1共享專家的組合設計,在保證性能的前提下最大化資源利用率。

訓練穩定性優化

在Qwen3-Next中,團隊為進一步提高模型穩定性,采用了Zero-Centered RMSNorm,並在此基礎上,對norm weight施加weight decay,以避免權重無界增長。

不僅如此,他們還在初始化時歸一化了MoE router的參數,確保每個expert在訓練早期都能被無偏地選中,減小初始化對實驗結果的擾動。

多token預測機製

Qwen3-Next引入了原生Multi-Token Prediction(MTP) 機製,不僅獲得了Speculative Decoding接受率較高的MTP模塊,還提升了模型主幹的整體性能。

此外,它還對MTP的多步推理進行了專項優化,即通過訓練推理一致的多步策略,進一步提高了在實際應用場景下Speculative Decoding的接受率。

快10倍,但便宜10倍

接下來,讓国产AV蜜桃网站一起看看新模型表現如何。

首先,Qwen3-Next使用了Qwen3 36T預訓練語料的均勻采樣子集,僅包含15T tokens。

其訓練所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,僅需9.3%的GPU計算資源就能取得更優性能。

不僅如此,得益於創新的混合模型架構,Qwen3-Next在推理效率上也表現突出。

與Qwen3-32B相比,Qwen3-Next-80B-A3B在預填充(prefill)階段就展現出卓越的吞吐能力:

在4k tokens的上下文長度下,吞吐量接近前者的7倍;當上下文長度超過32k時,吞吐提升更是達到10倍以上。

在解碼(decode)階段,該模型同樣高效。4k上下文吞吐量提升約4倍,長上下文(32k+)場景中仍可保持超過10倍的吞吐優勢。

基於Qwen3-Next,Qwen團隊首先訓練了Qwen3-Next-80B-A3B-Base模型。

該模型僅使用十分之一的Non-Embedding激活參數,就已在大多數基準測試中超越Qwen3-32B-Base,並顯著優於Qwen3-30B-A3B,展現出出色的效率與性能優勢。

基於Qwen3-Next-80B-A3B-Base的優異表現,團隊進一步開發並發布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct的表現顯著優於 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,並在多數指標上接近Qwen3-235B-A22B-Instruct-2507。

除此之外,在RULER測試中,無論上下文長度如何,Qwen3-Next-80B-A3B-Instruct 的表現均超過了層數相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。

甚至在256 k範圍內也優於層數更多的Qwen3-235B-A22B-Instruct-2507,充分體現了Gated DeltaNet與Gated Attention混合模型在長文本處理場景下的優勢。

Qwen3-Next-80B-A3B-Thinking

再來看Qwen3-Next-80B-A3B-Thinking,其表現也相當不錯。

在多項基準測試中都超過了閉源模型Gemini-2.5-Flash-Thinking,並在部分指標上接近Qwen最新的旗艦模型 Qwen3-235B-A22B-Thinking-2507。

推理能力相當可以

接下來讓国产AV蜜桃网站實測一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat網頁,一上來就給它扔一道AIME數學競賽題試試:

由於Qwen3-Next-80B-A3B支持多模態,這裏国产AV蜜桃网站可以直接上傳圖片。

幾乎瞬間,模型就開始飛快地列出了詳細解題思路和計算過程,最終得到的答案“588”與AIME標準答案完全吻合。

小試牛刀之後,接下來進入編程環節。

用p5js創建一個可直接玩的掃雷遊戲。

代碼成功運行後,国产AV蜜桃网站也簡單試玩了一下,流暢度還可以(doge)。

就是誰能解釋一下為什麽這個遊戲背景是大紅色,還沒有網格線???

還有網友奇思妙想,用它生成了天氣卡片。

不過,看到這個更新時,網友開心之餘還是忍不住吐槽:

名字實在太複雜了。

目前,新模型已在魔搭社區和抱抱臉開源,大家可通過Qwen Chat免費體驗,也可直接調用阿裏雲百煉平台提供的API服務。

魔搭社區直通車:http://t.co/mld9lp8QjK抱抱臉直通車:http://t.co/zHHNBB2l5XQwen Chat直通車:http://t.co/V7RmqMaVNZ阿裏雲API直通車:http://t.co/RdmUF5m6JA

參考鏈接:[1]https://x.com/Alibaba_Qwen/status/1966197643904000262[2]http://x.com/JustinLin610/status/1966199996728156167[3]http://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

    {loop type="link" row=1 }{$vo.title}