點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
新智元報道
編輯:KingHZ
【新智元導讀】上周,福布斯、Wired等爭相報道「全球最快開源推理模型」K2-Think,,甚至圖靈獎得主Yann LeCun轉發推文。但僅三天後,ETH五位研究員的博客如晴天霹靂:87數學評估題竟藏在訓練集中!這不僅僅是技術突破,更是行業誠信的警鍾。
全球最快開源AI推理模型!
這個標簽為K2‑Think帶來轟動效果:福布斯、VentureBeat、Wired、CNBC等媒體爭先報道,甚至圖靈獎得主轉發相關推文介紹!
然而,蘇黎世聯邦理工學院計算機科學係SRI實驗室的研究者,卻潑了一盆冷水:
雖然K2-Think不錯,但報告的性能被誇大了。
32B參數比肩o3 high?
上周,MBZUAI與G42等開源了一款號稱是「全球最快的開源AI推理模型」——K2-Think。
當地媒體報道:K2-Think證明提升效率,不必犧牲模型性能
在數學能力上,隻有32B參數的K2-Think,甚至能比肩OpenAI此前的旗艦——o3 high。
堪稱是對Scaling Law的顛覆。
論文中,作者把六個沒人費心整合過的技術訣竅組合到了一起:
長思維鏈微調、具有可驗證獎勵的強化學習(RLVR)、推理前的Agentic規劃、測試時擴展、投機解碼和優化推理的硬件。
其中的「先計劃再思考」的架構不僅讓模型變得更聰明,還實實在在地把token消耗降低了12%。
數據方麵,據稱僅使用開源數據集,無專有訓練數據、無封閉API。
速度方麵,它能在Cerebras上跑到每秒2000個token。而大部分推理模型,每秒隻有200個token。複雜的證明,過去要等3分鍾,現在隻要18秒,這就是差距。
基準跑分更是逆天。
在AIME 2024測試中,它得分率高達90.83%,要知道,大多數前沿模型連85%的門檻都過不了。
在複雜的數學競賽中,它拿下了了67.99%的分數——一舉擊敗了那些參數量超過1000億的模型,如GPT-OSS 120B 和DeepSeek V3.1。
過去,大家都認為「模型越大越好」;這一下就徹底終結了這種論調。此前被OpenAI獨占的推理能力,現在小型實驗室也能部署了。
現在所有人都在驚歎它的速度記錄。但真正的核心是:在推理層麵,他們把參數效率這個難題給攻克了。
效果如此出色,不僅在網上引發了廣泛關注,還有多家新聞媒體對此進行了報道,包括福布斯、VentureBeat、Wired、CNBC等。
甚至,連Yann LeCun都親自下場,轉發了一條介紹這篇論文的推文。
然而,3天後,9月12日,故事迎來了逆轉!
逆轉:ETH發文遭「打假」
然而,就在論文發布後的第3天,5位來自ETH蘇黎世的研究員就出來「打假」了。
博客地址:http://www.sri.inf.ethz.ch/blog/k2think
根據分析,他們列出了4個關鍵問題:
數據汙染
以三打一
隻比舊模型
平均分替代最高分
具體問題,請往下看;ETH的獨立測評和結論在文末。
數據汙染,評估無效
在數學能力評估方麵,K2-Think所使用的監督式微調(SFT)和強化學習(RL)數據集中,均包含DeepScaleR數據集,而後者又包含了Omni-Math的題目。
由於K2-Think又使用Omni-Math來評估其性能,評測與訓練集可能存在重疊——這表明存在數據汙染。
通過近似字符串匹配,研究人員確認了這一點:
K2-Think用於評估的173個Omni-Math題目,至少有87個也出現在其訓練數據裏。
另據稱,RL數據集Guru的創建者與論文作者重合度高,而K2-Think又使用了Guru進行強化學習訓練。
在代碼基準LiveCodeBench評估中,也發現了類似問題。
評估中K2-Think所用樣本的約22%,出現在其SFT數據集中。
雖然SFT數據集的原作者(AM-Team)執行了去汙染步驟,移除了2024年10月之後的問題。
但K2-Think的LiveCodeBench評估,卻使用了自2024年7月以來的所有問題,導致其中22%的問題是模型在訓練階段就已經見過的。
這直接導致其在數學和代碼方麵的評估結果大打折扣。
不公平比較:采用「Best-of-N」和外部模型
該論文的主要結果表報告的是,K2-Think在「3選1」(Best-of-3)策略下的性能。這是一種眾所周知的提升模型表現的技巧。
而所有其他模型均采用「單次生成」(best-of-1)進行評估,這讓它們處於極為不利的位置。
更甚的是,「3選1」的判斷是由一個未指明的「外部模型」完成的,該模型的規模可能是任意的。
同樣是這個外部模型,還為K2-Think提供了詳細的解題計劃。
作者將這整套流程定義為「K2-Think」,而32B模型本身隻是其中一個組件。但原論文卻聲明「K2-Think僅依賴一個32B小模型」。
如論文所示,將這套流程與沒有采用該流程的其他模型進行比較,是無效的。
這套流程本就可以輕鬆應用於其他模型,並同樣能提升其得分。
在沒有外部輔助的情況下,K2-Think的性能不如Nemotron 32B——
後者是一個同等規模的模型,於今年7月發布,基於Qwen2.5 32B並采用類似方法訓練。
表1:K2-Think(無外部輔助)、Nemotron 32B(兩者均為Qwen2.5 32B的微調版本)以及Qwen3 30B的性能對比。Qwen3(*)的結果取自其模型頁麵。所有其他結果均取自K2-Think的論文
歪曲其他模型的結果
該報告未能公正地評估其他模型。最明顯的是,它在運行GPT-OSS時僅使用了「中等」推理強度,而非為推理基準推薦的「高」推理強度設置。
此外,K2-Think對許多競品模型使用了過時的版本。
例如,盡管他們評估了8月份發布的GPT-OSS,但論文中評估的Qwen3模型似乎並非7月份發布的最新版本。具體來說,在Qwen3和K2-Think論文都涵蓋的三個基準測試(AIME 2025、HMMT 2025、GPQA-Diamond)上,K2-Think給出的Qwen3分數似乎與舊版本相符,比7月新版本報告的結果低了15-20%之多。
下表比較Qwen3官方報告的分數與K2-Think論文中給出的分數。
可以看到,K2-Think歸於Qwen3-30B的分數遠低於預期,即便是對比7月發布前的舊版本也同樣如此。
表2:在AIME 2025、HMMT 2025和GPQA-Diamond 3準上,Qwen3技術報告/模型頁麵、MathArena基準與K2-Think論文報告的分數對比
為得分高的數學基準賦予更高權重
最後,K2-Think使用「微觀平均值」(micro average)來計算其總體數學評分。
這意味著它根據四個基準(AIME24、AIME25、HMMT、OmniMath-Hard)各自包含的任務數量來加權,而非對各基準分數進行等權重平均。
總體「微觀平均值」:基本上是將所有測試集中的正確答案總數除以問題總數
雖然聲稱此舉是為了量化模型的整體數學能力,但這種計算方式導致最終分數被OmniMath-Hard嚴重主導(占總分約66%)。
OmniMath-Hard不僅是K2-Think表現最好的基準,也恰恰是上文討論的、存在數據汙染問題的基準。
獨立評估結果
為ETH為了驗證分析,在自有的MathArena基準上,對K2-Think與其他模型進行了公平比較。
他們遵循了K2-Think的推薦超參數(temperature=1, p=0.95,輸出64,000個token)。
結果顯示,盡管K2-Think性能不錯,但其表現遠未達到論文和媒體文章所聲稱的水平。
特別是,它未能與DeepSeek V3.1或GPT-OSS 120B相提並論——盡管其作者聲稱可以。
事實上,評估表明K2-Think的數學能力甚至不及規模更小的GPT-OSS 20B模型。
結論
總而言之,ETH的研究小組發現K2-Think模型在多個方麵存在誇大陳述:
它在已經用於訓練的數據上進行評估,依賴外部模型和額外采樣來誇大性能,並人為壓低競品模型的分數,同時又通過重新加權來凸顯自己的分數,以製造性能持平乃至超越的假象。
這也反映了AI圈獨特的文化:針對不同的基準測試,好像隻要能拿到最高分就是好模型。
這催生出一種極端的信念:好模型就是benchmaxer。
甚至為了刷新「SOTA」,出現了類似「田忌賽馬」的測評策略。
開源模型要拿好成績,本是好事。然而,存在缺陷的評估和誇大其詞的宣傳對行業毫無益處。
參考資料:
http://x.com/ihteshamit/status/1966211223030202781
http://www.sri.inf.ethz.ch/blog/k2think
http://arxiv.org/pdf/2509.07604