速途網(wǎng)6月5日消息(報道:李楠)近日,清華螞蟻聯(lián)合研發(fā)的全異步強化學習訓練系統(tǒng)AReaL-boba2(AReaL v0.3 )正式宣布開源。據(jù)了解,這一系統(tǒng)全面實現(xiàn)了異步強化學習訓練,完全解耦模型生成與訓練,性能效果不變的前提下,訓練速度對比上一版本最高提升2.77倍,GPU資源利用率大幅優(yōu)化。研究人員使用這一系統(tǒng)在Qwen3 系列模型上做強化學習訓練,實現(xiàn)8B、14B 模型在 LiveCodeBench, Codeforce, Codecontest 等benchmark上達到SOTA水準。 此外, AReaL-boba2還原生支持多輪智能體強化學習訓練,開發(fā)者可以根據(jù)自己的需求自由定制智能體和智能體環(huán)境,進行多智能體Agentic RL訓練。
尋找兼顧高效能、高效率的強化學習訓練方式,一直是從業(yè)人員持續(xù)面臨的課題。在傳統(tǒng)的強化學習訓練流程中,同步強化學習訓練每一個批次(batch)的數(shù)據(jù)都是由同一個模型版本產(chǎn)生,因此模型參數(shù)更新需要等待批次中數(shù)據(jù)全部生成完成才能啟動。由于推理模型的輸出長短差異極大,在同樣的批大小(batch size)下,強化學習訓練必須等待批次中最長的輸出生成完才能繼續(xù)進行訓練,以及進行下一個批次的數(shù)據(jù)收集,造成極大GPU資源浪費。而異步強化學習(Asynchronous RL)將數(shù)據(jù)生成與模型訓練完全解耦,以不間斷的流式生成和并行訓練的計算方式,極大提高了資源使用率,天然適用于多輪次交互的Agent場景。業(yè)界認為,異步強化學習是一種重要的算法范式,將成為未來強化學習的重要方向之一。
在AReaL-boba2的工作中,研究人員通過算法系統(tǒng)co-design的方式實現(xiàn)了完全異步強化學習訓練(fully asynchronous RL),從根本上解決了同步強化學習的各種問題。AReaL–boba2生成任務持續(xù)流式進行以保證GPU資源始終滿載運行,杜絕了GPU空閑。AReaL–boba2的系統(tǒng)設計可以在保證穩(wěn)定RL訓練的同時,參數(shù)同步的通信和計算花銷僅占總訓練時間的1%以內(nèi)。此外,由于全異步RL中同批次數(shù)據(jù)可能由不同版本的模型產(chǎn)生,AReaL–boba2也對RL算法進行了升級,在提速的同時確保模型效果。
AReaL由螞蟻技術研究院和清華大學交叉信息研究院共同發(fā)起,是國內(nèi)首個完整開源數(shù)據(jù)、代碼、模型、腳本的強化學習開源項目。目前AReaL已經(jīng)開源了AReaL v0.1版、AReaL v0.2版(AReaL-boba)。其中,AReaL v0.2(AReaL-boba) 版本是其里程碑版本,可用128張H800 GPU 在1天訓練完成SOTA 1.5B推理模型訓練,256張H800 GPU 2天內(nèi)完成SOTA 7B 推理模型訓練的效果。此前AReaL-boba項目也得到了來自海外開發(fā)者的高度認可,評價“AReal-boba通過開放SOTA推理模型的資源和透明的訓練方式,讓先進的AI推理技術平權化,降低了研究的門檻。 ”
AReaL團隊在技術報告中表示,該項目融合了螞蟻強化學習實驗室與清華交叉信息院吳翼團隊多年的技術積累,也獲得了大量來自螞蟻集團超算技術團隊和數(shù)據(jù)智能實驗室的幫助。AReaL 的誕生離不開 DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPO 等優(yōu)秀開源框架和模型的啟發(fā)。