點擊右上角微信好友
朋友圈
請使用瀏覽器分享功能進行分享
允中 發自 凹非寺量子位 | 公眾號 QbitAI
強化學習的訓練效率,實在是太低了!
隨著DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背後,強化學習(RL)無疑是那把最關鍵的密鑰。
然而,這場競賽的背後,一個巨大的瓶頸正悄然限製著所有玩家的速度——相較於預訓練和推理,RL訓練更像一個效率低下的“手工作坊”,投入巨大但產出緩慢。
其中,占據超過80%時間的Rollout(響應生成)階段,由於其內存帶寬限製和自回歸特性,成為了整個AI基礎設施中公認的阿喀琉斯之踵。
如何攻克這塊AI基建的最後高地?現在,上海交通大學與字節跳動研究團隊給出了一個全新的答案。
該團隊聯手推出的RhymeRL,從一個被忽視的現象入手,巧妙地將曆史數據變廢為寶,在不犧牲精度的前提下,將RL訓練吞吐量提升了2.6倍。
模型生成的答案存在兩大“曆史相似性”
該研究團隊深入分析了大量RL訓練過程,發現在相鄰的兩個訓練周期中,盡管模型權重已經更新,但對於同一個問題(Prompt),模型生成的答案(Rollout)存在兩大“曆史相似性”:
第一,序列相似性。
新答案“繼承”了舊答案的思路,高達95%的曆史Token都可以直接複用。
第二,長度分布相似性。
上一輪裏,哪些問題讓模型“思來想去”,這一輪大概率依舊如此。響應長度的排序驚人地穩定。
該研究團隊認為,這種相似性,主要源於PPO/GRPO等主流RL算法為了保證訓練穩定而采用的梯度裁剪(Clipping)機製,它讓模型的進化變得平滑而有跡可循。
這就好比一個學生,雖然每天都在進步,但他解決同一類型問題的思考路徑和草稿篇幅,在短期內是高度相似的。
既然如此,曆史的舊草稿能否成為新一輪學習的模版?
針對Rollout階段的低效現狀,提出新框架RhymeRL
基於這一洞察,RhymeRL框架應運而生。
針對Rollout階段的低效現狀,它包含兩大核心利器:
HistoSpec和HistoPipe。
RhymeRL的核心設計示意圖
HistoSpec
傳統的Rollout,是一個Token一個Token往外蹦的自回歸過程,速度慢且GPU利用率較低。
而HistoSpec獨創性地將投機解碼(Speculative Decoding)技術引入RL,它不再需要一個額外的小模型來“猜”草稿,而是直接把上一輪的曆史響應作為“最佳劇本”。
這就像開卷考試,你提前拿到了去年的標準答案作為參考。
起草(Draft):直接從曆史響應中巧妙地總結出樹狀草稿。驗證(Verify):將整段草稿一次性扔給大模型,通過單次前向傳播,並行驗證所有Token的正確性,然後“接收”所有匹配的部分。
由於曆史序列的超高相似性,草稿的接受率極高。
這使得計算過程從逐字生成變成了“批量驗證”,計算密度飆升,打破了內存帶寬的枷鎖,讓單個響應的生成速度實現了質的飛躍。
HistoSpec采用的基於樹的曆史響應管理,實現了草稿的高速、準確生成
HistoPipe
僅僅讓單個響應變快還不夠。
在批處理中,不同任務的響應長度不一,短任務總要等待長任務,導致大量GPU資源被閑置,產生了巨大的“空泡”(Bubble)。
HistoPipe是一位具有前瞻性的調度大師,它的目標是:
榨幹每一滴GPU算力,實現無空泡的完美流水線。
基於“長度分布相似性”的洞察,HistoPipe不再強求單一步內實現負載均衡,而是玩起了“跨步互補”——在奇數步,讓所有GPU由短到長處理任務;在偶數步,則反過來,由長到短處理。
這樣一來,上一步因為處理長任務而拖慢的GPU,在下一步會優先處理短任務,完美填補了時間差。
通過這種巧妙的削峰填穀,HistoPipe將整個集群的資源浪費降至最低。
HistoPipe的流水線設計,通過跨步互補調度實現了無空泡調度
2.6倍加速,精度無損
當模板HistoSpec遇上調度大師HistoPipe,產生反應是驚人的——實驗結果表明,在數學、代碼等任務上,RhymeRL相比於基礎係統取得了大幅性能提升,端到端訓練吞吐量提升高達2.61倍。
這意味著,研究者和企業可以用更少的資源、在更短的時間內,完成更強大的模型訓練,極大地加速了AI技術迭代的步伐。
RhymeRL的重要意義在於,它提出了一種新的強化學習範式——基於曆史信息來端到端地加速強化學習效率。
強化學習不是簡單的推理與訓練的拚接,通過深入剖析其任務特性,RhymeRL能夠充分發揮係統統籌調度能力與底層硬件的算力資源,同時無損地適配各種已有的訓練算法。
arXiv鏈接:https://www.arxiv.org/abs/2508.18588