Warning: mkdir(): No space left on device in /www/wwwroot/New.4.com/func.php on line 127

Warning: file_put_contents(./cachefile_yuan/tsxingyuan.com/cache/1d/28598/69e34.html): failed to open stream: No such file or directory in /www/wwwroot/New.4.com/func.php on line 115
攻克強化學習「最慢一環」!交大字節聯手,RL訓練速度飆升2.6倍

點擊右上角微信好友

朋友圈

請使用瀏覽器分享功能進行分享

正在閱讀:攻克強化學習「最慢一環」!交大字節聯手,RL訓練速度飆升2.6倍
首頁>時政頻道>要聞>正文

攻克強化學習「最慢一環」!交大字節聯手,RL訓練速度飆升2.6倍

來源:{getone name="zzc/xinwenwang"/}2025-09-14 21:46:52

允中 發自 凹非寺量子位 | 公眾號 QbitAI

強化學習的訓練效率,實在是太低了!

隨著DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背後,強化學習(RL)無疑是那把最關鍵的密鑰。

然而,這場競賽的背後,一個巨大的瓶頸正悄然限製著所有玩家的速度——相較於預訓練和推理,RL訓練更像一個效率低下的“手工作坊”,投入巨大但產出緩慢。

其中,占據超過80%時間的Rollout(響應生成)階段,由於其內存帶寬限製和自回歸特性,成為了整個AI基礎設施中公認的阿喀琉斯之踵。

如何攻克這塊AI基建的最後高地?現在,上海交通大學與字節跳動研究團隊給出了一個全新的答案。

該團隊聯手推出的RhymeRL,從一個被忽視的現象入手,巧妙地將曆史數據變廢為寶,在不犧牲精度的前提下,將RL訓練吞吐量提升了2.6倍。

模型生成的答案存在兩大“曆史相似性”

該研究團隊深入分析了大量RL訓練過程,發現在相鄰的兩個訓練周期中,盡管模型權重已經更新,但對於同一個問題(Prompt),模型生成的答案(Rollout)存在兩大“曆史相似性”:

第一,序列相似性。

新答案“繼承”了舊答案的思路,高達95%的曆史Token都可以直接複用。

第二,長度分布相似性。

上一輪裏,哪些問題讓模型“思來想去”,這一輪大概率依舊如此。響應長度的排序驚人地穩定。

該研究團隊認為,這種相似性,主要源於PPO/GRPO等主流RL算法為了保證訓練穩定而采用的梯度裁剪(Clipping)機製,它讓模型的進化變得平滑而有跡可循。

這就好比一個學生,雖然每天都在進步,但他解決同一類型問題的思考路徑和草稿篇幅,在短期內是高度相似的。

既然如此,曆史的舊草稿能否成為新一輪學習的模版?

針對Rollout階段的低效現狀,提出新框架RhymeRL

基於這一洞察,RhymeRL框架應運而生。

針對Rollout階段的低效現狀,它包含兩大核心利器:

HistoSpec和HistoPipe。

RhymeRL的核心設計示意圖

HistoSpec

傳統的Rollout,是一個Token一個Token往外蹦的自回歸過程,速度慢且GPU利用率較低。

而HistoSpec獨創性地將投機解碼(Speculative Decoding)技術引入RL,它不再需要一個額外的小模型來“猜”草稿,而是直接把上一輪的曆史響應作為“最佳劇本”。

這就像開卷考試,你提前拿到了去年的標準答案作為參考。

起草(Draft):直接從曆史響應中巧妙地總結出樹狀草稿。驗證(Verify):將整段草稿一次性扔給大模型,通過單次前向傳播,並行驗證所有Token的正確性,然後“接收”所有匹配的部分。

由於曆史序列的超高相似性,草稿的接受率極高。

這使得計算過程從逐字生成變成了“批量驗證”,計算密度飆升,打破了內存帶寬的枷鎖,讓單個響應的生成速度實現了質的飛躍。

HistoSpec采用的基於樹的曆史響應管理,實現了草稿的高速、準確生成

HistoPipe

僅僅讓單個響應變快還不夠。

在批處理中,不同任務的響應長度不一,短任務總要等待長任務,導致大量GPU資源被閑置,產生了巨大的“空泡”(Bubble)。

HistoPipe是一位具有前瞻性的調度大師,它的目標是:

榨幹每一滴GPU算力,實現無空泡的完美流水線。

基於“長度分布相似性”的洞察,HistoPipe不再強求單一步內實現負載均衡,而是玩起了“跨步互補”——在奇數步,讓所有GPU由短到長處理任務;在偶數步,則反過來,由長到短處理。

這樣一來,上一步因為處理長任務而拖慢的GPU,在下一步會優先處理短任務,完美填補了時間差。

通過這種巧妙的削峰填穀,HistoPipe將整個集群的資源浪費降至最低。

HistoPipe的流水線設計,通過跨步互補調度實現了無空泡調度

2.6倍加速,精度無損

當模板HistoSpec遇上調度大師HistoPipe,產生反應是驚人的——實驗結果表明,在數學、代碼等任務上,RhymeRL相比於基礎係統取得了大幅性能提升,端到端訓練吞吐量提升高達2.61倍。

這意味著,研究者和企業可以用更少的資源、在更短的時間內,完成更強大的模型訓練,極大地加速了AI技術迭代的步伐。

RhymeRL的重要意義在於,它提出了一種新的強化學習範式——基於曆史信息來端到端地加速強化學習效率。

強化學習不是簡單的推理與訓練的拚接,通過深入剖析其任務特性,RhymeRL能夠充分發揮係統統籌調度能力與底層硬件的算力資源,同時無損地適配各種已有的訓練算法。

arXiv鏈接:https://www.arxiv.org/abs/2508.18588

[責編:{getone name="zzc/mingzi"/}]
閱讀剩餘全文(
網站地圖