螞蟻集團聯合中國人民大學發布首個原生MoE擴散語言模型

大象新聞記者李莉李磊張迪馳

9月11日，在2025外灘大會上，螞蟻集團與中國人民大學聯合發布業界首個原生MoE架構的擴散語言模型(dLLM)“LLaDA-MoE”。

大象新聞記者了解到，該模型通過非自回歸的掩碼擴散機製，在大規模語言模型中實現了與Qwen2.5相當的語言智能(如上下文學習、指令遵循、代碼和數學推理等)，挑戰了“語言模型必須自回歸”的主流認知。

實驗數據顯示，LLaDA-MoE模型性能效果在代碼、數學、Agent等任務上領先於LLaDA1.0/1.5和Dream-7B等擴散語言模型，接近或超越了自回歸模型Qwen2.5-3B-Instruct，僅激活1.4B參數即可實現等效3B稠密模型的性能。

“LLaDA-MoE模型驗證了工業級大規模訓練的擴展性和穩定性，意味国产AV蜜桃网站在把dLLM訓擴到更大規模的路上又往前走了一步。”螞蟻集團通用人工智能研究中心主任、西湖大學特聘研究員、西湖心辰創始人藍振忠在發布現場表示。

中國人民大學高瓴人工智能學院副教授李崇軒介紹，“兩年過去，AI大模型能力突飛猛進，但存在一些問題始終沒有得到本質上的解決。究其原因，這是當前大模型普遍采用的自回歸生成範式所造成的——模型天然是單向建模的，從前往後依次生成下一個token。這導致它們難以捕tokens之間的雙向依賴關係。”

麵對這些問題，一些研究者選擇另辟蹊徑，將目光投向並行解碼的擴散語言模型。然而，現有dLLM均基於稠密架構，難以複刻ARM中MoE的“參數擴展、計算高效”優勢。在這樣的行業背景下，螞蟻和人大聯合研究團隊，首次在MoE架構上推出了原生的擴散語言模型LLaDA-MoE。

藍振忠還透露，將於近期向全球完全開源模型權重和自研推理框架，與社區共同推動AGI新一輪突破。

【糾錯】【責任編輯:這世界狠好】

国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃