beat365亚洲体育在线官网_best365官方网站登录
    主页 / 资讯 / 观点 / 大模子强化学习新发觉:删减84%数据反晋升后果

大模子强化学习新发觉:删减84%数据反晋升后果

2025-02-20 08:36


在人工智能范畴, 更年夜即更强 的理念始终主导着年夜模子强化进修的开展偏向。特殊是在晋升年夜言语模子的推理才能方面,业界广泛以为须要海量的强化进修练习数据才干取得冲破。但是,最新研讨却给出了一个令人惊喜的发明:在强化进修练习中,数据的进修影响力远比数目主要。经由过程剖析模子的进修轨迹,研讨发明经心抉择的 1,389 个高影响力样本,就能超出完全的 8,523 个样本数据集的后果。这一发明不只挑衅了传统认知,更提醒了一个要害现实:晋升强化进修后果的要害,在于找到与模子进修过程高度婚配的练习数据。论文题目:LIMR: Less is More for RL Scaling论文地点:https://arxiv.org/pdf/2502.11886代码地点:https://github.com/GAIR-NLP/LIMR数据集地点:https://huggingface.co/datasets/GAIR/LIMR模子地点:https://huggingface.co/GAIR/LIMR一、挑衅传统:从新思考强化进修的数据战略近期,强化进修在晋升年夜言语模子的推理才能方面获得了明显功效。从 OpenAI 的 o1 到 Deepseek R1,再到 Kimi1.5,这些模子都展现了强化进修在培育模子的自我验证、反思跟扩大头脑链等庞杂推理行动方面的宏大潜力。这些胜利案例仿佛在表示:要取得更强的推理才能,就须要更多的强化进修练习数据。但是,这些首创性任务留下了一个要害成绩:究竟须要几多练习数据才干无效晋升模子的推理才能?现在的研讨从 8000 到 150000 数据量不等,却不一个明白的谜底。更主要的是,这种数据范围的不通明性带来了两个基本性挑衅:研讨团队只能依附重复试错来断定数据量,这招致了大批盘算资本的挥霍范畴内缺少对样本数目怎样影响模子机能的体系性剖析,使得难以做出公道的资本调配决议这种情形促使研讨团队提出一个更实质的成绩:能否存在一种方式,可能辨认出真正对模子进修有辅助的练习数据?研讨从一个基本场景开端摸索:直接从基座模子动身,不借助任何数据蒸馏(相似 Deepseek R1-zero 的设置)。经由过程深刻研讨模子在强化进修进程中的进修轨迹,研讨发明:并非全部练习数据都对模子的提高奉献雷同。有些数据可能明显推进模子的进修,而有些则多少乎不影响。这一发明促使研讨团队开辟了进修影响力器量(Learning Impact Measurement, LIM)方式。经由过程剖析模子的进修曲线,LIM 能够主动辨认那些与模子进修过程高度婚配的 黄金样本 。试验成果证实了这一方式的无效性:精选的 1,389 个样本就能到达乃至超出应用 8,523 个样本的后果。这些发明更新了学术界对强化进修扩大的认知:晋升模子机能的要害不在于简略地增添数据量,而在于怎样找到那些真正能增进模子进修的高品质样本。更主要的是,这项研讨供给了一种主动化的方式来辨认这些样本,使得高效的强化进修练习成为可能。二、寻觅 黄金 样本:数据的进修影响力丈量(LIM)要找到真正有代价的练习样本,研讨团队深刻剖析了模子在强化进修进程中的进修静态。经由过程对 MATH-FULL 数据集(包括 8,523 个差别难度级其余数学识题)的剖析,研讨者发明了一个风趣的景象:差别的练习样本对模子进修的奉献存在明显差别。进修轨迹的差别性在细心察看模子练习进程中的表示时,研讨者发明了三种典范的进修形式:局部样本的嘉奖值一直濒临零,标明模子对这些成绩一直难以控制某些样天性敏捷到达高嘉奖值,表现模子很快就控制懂得决方式最风趣的是那些展示出静态进修停顿的样本,它们的嘉奖值浮现差别的晋升速度这一发明激发了一个要害思考:假如可能找到那些最婚配模子团体进修轨迹的样本,能否就能实现更高效的练习?(a) 差别练习样本在练习进程中展示出的多样化进修形式。(b) 样本进修轨迹与均匀嘉奖曲线(白色)的比拟。LIM:一种主动化的样本评价方式基于上述察看,研讨团队开辟了进修影响力丈量(Learning Impact Measurement, LIM)方式。LIM 的中心思维是:好的练习样本应当与模子的团体进修过程坚持同步。详细来说:1. 盘算参考曲线起首,盘算模子在全部样本上的均匀嘉奖曲线作为参考:这条曲线反应了模子的团体进修轨迹。2. 评价样本对齐度接着,为每个样本盘算一个归一化的对齐分数:这个分数权衡了样本的进修形式与团体进修轨迹的婚配水平。分数越高,表现该样本越 有代价 。3. 挑选低价值样本最后,设定一个品质阈值 θ,拔取那些对齐分数超越阈值的样本。在试验中,设置 θ = 0.6 挑选出了 1,389 个低价值样本,形成了优化后的 LIMR 数据集。对照与验证为了验证 LIM 方式的无效性,研讨团队计划了两个基线方式:1. 随机采样(RAND):从原始数据会合随机抉择 1,389 个样本2. 线性进度剖析(LINEAR):专一于那些表现稳固改良的样本这些对比试验辅助咱们懂得了 LIM 的上风:它不只能捕捉稳固提高的样本,还能辨认那些在晚期疾速晋升后趋于稳固的有代价样本。嘉奖计划对嘉奖机制的计划,研讨团队鉴戒了 Deepseek R1 的教训,采取了简略而无效的规矩型嘉奖函数:当谜底完整准确时,赐与 + 1 的正向嘉奖当谜底过错但格局准确时,赐与 - 0.5 的负向嘉奖当谜底存在格局过错时,赐与 - 1 的负向嘉奖这种三级明显的嘉奖机制不只能正确反应模子的解题才能,还能领导模子留神谜底的标准性。三、试验验证:少等于多的力气试验设置与基准研讨团队采取 PPO 算法在 Qwen2.5-Math-7B 基座模子长进行了强化进修练习,并在多个存在挑衅性的数学基准长进行了评价,包含 MATH500、AIME2024 跟 AMC2023 等比赛级数据集。重要发明试验成果令人奋发。应用 LIMR 精选的 1,389 个样本,模子不只到达了应用全量 8,523 个样本练习的机能,在某些指标上乃至获得了更好的表示:在 AIME2024 上到达了 32.5% 的正确率在 MATH500 上到达了 78.0% 的正确率在 AMC2023 上到达了 63.8% 的正确率比拟之下,随机抉择雷同数目样本的基线模子(RAND)表示明显较差,这证明了 LIM 抉择战略的无效性。练习静态剖析更风趣的是模子在练习进程中表示出的静态特点。LIMR 不只在正确率上表示杰出,其练习进程也展示出了更稳固的特点:正确率曲线与应用全量数据练习的模子多少乎重合模子天生的序列长度变更愈加公道,展示出了更好的进修形式练习嘉奖增加更快,终极也到达了更高的程度这些成果不只验证了 LIM 方式的无效性,也标明经由过程经心抉择的练习样本,确切能够实现 少等于多 的后果。四、数据稀缺场景下的新发明:RL 优于 SFT在摸索高效练习战略的进程中,研讨者们发明了一个令人沉思的景象:在数据稀缺且模子范围较小的场景下,强化进修的后果明显优于监视微调。为了验证这一发明,研讨者们计划了一个经心的对照试验:应用雷同范围的数据(来自 s1 的 1000 条数据跟来自 LIMO 的 817 条数据),分辨经由过程监视微协调强化进修来练习 Qwen-2.5-Math-7B 模子。成果令人印象深入:在 AIME 测试中,LIMR 的表示较传统监视微调晋升超越 100%在 AMC23 跟 MATH500 上,正确率晋升均超越 10%这些晋升是在应用邻近数目练习样本的情形下实现的这一发明存在主要意思。固然 LIMO 跟 s1 等方式曾经证实了在 32B 范围模子上经由过程监视微调能够实现高效的推理才能,但研讨标明,对 7B 如许的小型模子,强化进修可能是更优的抉择。这个成果提醒了一个要害洞见:在资本受限的场景下,抉择适合的练习战略比自觉寻求更具挑衅性的数据更为主要。经由过程将强化进修与智能的数据抉择战略相联合,研讨者们找到了一条晋升小型模子机能的无效道路。参考材料:https://github.com/GAIR-NLP/LIMR

服务支持

我们珍惜您每一次在线询盘,有问必答,用专业的态度,贴心的服务。

让您真正感受到我们的与众不同!