Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/d2/85b0e/db738.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
螞蟻集團聯合中國人民大學發布首個原生MoE擴散語言模型
螞蟻集團聯合中國人民大學發布首個原生MoE擴散語言模型






国产AV蜜桃网站,蜜桃成人无码区免费视频网站,水蜜桃黄片亚洲,国产精品福利免费无码蜜桃

2025-09-14 16:59:41
來源:陳古刺今網

螞蟻集團聯合中國人民大學發布首個原生MoE擴散語言模型

字體:

大象新聞記者 李莉 李磊 張迪馳

9月11日,在2025外灘大會上,螞蟻集團與中國人民大學聯合發布業界首個原生MoE架構的擴散語言模型(dLLM)“LLaDA-MoE”。

大象新聞記者了解到,該模型通過非自回歸的掩碼擴散機製,在大規模語言模型中實現了與Qwen2.5相當的語言智能(如上下文學習、指令遵循、代碼和數學推理等),挑戰了“語言模型必須自回歸”的主流認知。

實驗數據顯示,LLaDA-MoE模型性能效果在代碼、數學、Agent等任務上領先於LLaDA1.0/1.5和Dream-7B等擴散語言模型,接近或超越了自回歸模型Qwen2.5-3B-Instruct,僅激活1.4B參數即可實現等效3B稠密模型的性能。

“LLaDA-MoE模型驗證了工業級大規模訓練的擴展性和穩定性,意味国产AV蜜桃网站在把dLLM訓擴到更大規模的路上又往前走了一步。”螞蟻集團通用人工智能研究中心主任、西湖大學特聘研究員、西湖心辰創始人藍振忠在發布現場表示。

中國人民大學高瓴人工智能學院副教授李崇軒介紹,“兩年過去,AI大模型能力突飛猛進,但存在一些問題始終沒有得到本質上的解決。究其原因,這是當前大模型普遍采用的自回歸生成範式所造成的——模型天然是單向建模的,從前往後依次生成下一個token。這導致它們難以捕tokens之間的雙向依賴關係。”

麵對這些問題,一些研究者選擇另辟蹊徑,將目光投向並行解碼的擴散語言模型。然而,現有dLLM均基於稠密架構,難以複刻ARM中MoE的“參數擴展、計算高效”優勢。在這樣的行業背景下,螞蟻和人大聯合研究團隊,首次在MoE架構上推出了原生的擴散語言模型LLaDA-MoE。

藍振忠還透露,將於近期向全球完全開源模型權重和自研推理框架,與社區共同推動AGI新一輪突破。

【糾錯】【責任編輯:這世界狠好】