大象新聞記者 李莉 李磊 張迪馳
9月11日,在2025外灘大會上,螞蟻集團與中國人民大學聯合發布業界首個原生MoE架構的擴散語言模型(dLLM)“LLaDA-MoE”。
大象新聞記者了解到,該模型通過非自回歸的掩碼擴散機製,在大規模語言模型中實現了與Qwen2.5相當的語言智能(如上下文學習、指令遵循、代碼和數學推理等),挑戰了“語言模型必須自回歸”的主流認知。
實驗數據顯示,LLaDA-MoE模型性能效果在代碼、數學、Agent等任務上領先於LLaDA1.0/1.5和Dream-7B等擴散語言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B參數即可實現等效3B稠密模型的性能。
“LLaDA-MoE模型驗證了工業級大規模訓練的擴展性和穩定性,意味国产AV蜜桃网站在把dLLM訓擴到更大規模的路上又往前走了一步。”螞蟻集團通用人工智能研究中心主任、西湖大學特聘研究員、西湖心辰創始人藍振忠在發布現場表示。
中國人民大學高瓴人工智能學院副教授李崇軒介紹,“兩年過去,AI大模型能力突飛猛進,但存在一些問題始終沒有得到本質上的解決。究其原因,這是當前大模型普遍采用的自回歸生成範式所造成的——模型天然是單向建模的,從前往後依次生成下一個token。這導致它們難以捕tokens之間的雙向依賴關係。”
麵對這些問題,一些研究者選擇另辟蹊徑,將目光投向並行解碼的擴散語言模型。然而,現有dLLM均基於稠密架構,難以複刻ARM中MoE的“參數擴展、計算高效”優勢。在這樣的行業背景下,螞蟻和人大聯合研究團隊,首次在MoE架構上推出了原生的擴散語言模型LLaDA-MoE。
藍振忠還透露,將於近期向全球完全開源模型權重和自研推理框架,與社區共同推動AGI新一輪突破。