石东石编着。陈茜主编.李水清先生。智东西10月15日报道,一篇小米与北大联合署名的论文于10月14日在arXiv上发表,曾经被小米集团创始人兼CEO雷军发掘、年薪千万美元的DeepSeek“天才少女”罗芙丽作为该文的通讯作者出现。但值得注意的是,文章作者并没有表明罗福利属于小米大机型团队。通讯作者罗福利,1995级,就读于北京师范大学计算机专业,毕业于北京大学计算语言学研究所,获计算语言学硕士学位。随后,罗福利在阿里巴巴达摩院主导开发了VECO多语言预训练模型,并推动了AliceMind的开源工作。 2022年加入DeepSeek,参与研究大规模 MoE 模型 DeepSeek-V2 的搜索和开发。去年底,小米以数千万年薪挖走DeepSeek-V2主要开发者之一罗福利的消息被爆出,引发热议。不过,双方均未正式表态是否正式加盟小米。 ▲ DeepSeek 的“天才少女”罗芙丽(来源:罗芙丽个人公众号) 在本文中,我们提出了 Rollout Routing Replay(R3),这是一种改进 MoE 模型强化学习训练的新方法。实验结果表明,R3的整体性能优于GRPO和TIS等强化学习领域提高模型性能的优化算法,并且R3中引入的所有组合技术在整个过程中都没有失败。在训练过程中,训练和推理之间的KL散度始终很低,这使得极端标记的比例减少了一个数量级er 的数量级而不影响训练速度。强化学习(RL)现已成为提高大规模语言模型能力的重要方法。然而,在MoE模型中,路径建模机制往往会引入不稳定性,这可能会导致强化学习训练崩溃。然而,现有的重要性采样机制无法提高训练稳定性。本文的研究人员希望通过解决R3(即路由分布)来从根本上解决这个问题,而不是像之前丢弃差异较大的数据这样的变通办法。文章地址:https://arxiv.org/pdf/2510.11370 1.克服强化学习崩溃重要的一顿饭。小米团队提出R3强化学习成为后续大规模语言模型训练的基础。通过大规模强化学习,大规模模型可以进行更深入、更广泛的推理,获得解决问题所需的高级能力复杂的问题。然而,我们面临的一个关键挑战是如何平衡效率和稳定性。现代强化学习框架通常使用不同的引擎进行推理和训练以实现,但这种架构的分离可能会导致符号概率发散,甚至导致灾难性的强化学习失败。然而,现有的改进方法并不能完全解决MoE模型上进行强化学习训练时出现的强化学习离线策略问题。研究人员提出的 R3 的工作原理是在序列生成期间从推理引擎捕获路径点。创建一个交叉并直接在您的训练引擎中播放它。这个过程有助于弥合训练和推理之间的差距。其显着特点是KL散度(量化两个概率分布之间的差异程度,其中值越小表明两个分布越接近)不同引擎生成的逻辑向量显着减少,两个阶段之间概率差异显着的令牌数量减少了大约一个数量级。此外,该方法适用于在线(策略内)和离线小批量(策略外)策略强化学习场景。本文提到了研究团队的三个主要贡献。 1. 该系统是 MWe 识别和分析 oE 模型中训练和推理之间路由分布的差异,并强调它们在训练不稳定中的作用。 2. 建议重复部署路由。重用训练引擎内的推理时间路由分布来微调训练和推理之间的路由行为。 3. 我们将 R3 应用于 MoE 强化学习的多个 RL 配置,并表明 R3 在稳定性和整体性能方面优于 GSPO 和 TIS。 2. 训练和推理的区别可以显着减少,这对于代理的任务来说是有很大好处的。 R3的主要思想是在训练前向传播过程中重用推理路由掩码I.ento,同时在训练逻辑中应用softmax来维持梯度流。这个设计有两个主要目的。一是协调训练和推理,确保再训练时使用的专家与推理时选择的专家相匹配,从而消除专家选择的不一致。另一个是保持数据流的梯度。通过简单地重新生成掩码,我们可以在不干扰计算图的情况下将梯度转换回 logit,从而使我们能够有效地优化路由器。 ▲如何计算游戏门权重和游戏输出之和。具体来说,从效率优化的角度来看,R3通过缓存路由器掩码来适应多轮交互场景,以减少计算开销。文档中指出,mask推理引擎路由掩码可以与 KVCache 前缀一起缓存,因为缓存的路由掩码具有相似的属性,并且 MoE 路由器应该为相同的前缀令牌生成相同的结果。对于每个层和令牌前缀,相应的路由掩码存储在 KVCache 中。当相同的前缀出现并命中缓存时,这些掩码可以重复使用,从而无需重新计算,并允许 R3 与前缀缓存机制无缝集成。研究人员发现root maskCaching在agent场景中具有巨大的应用潜力。软件工程和网页浏览等代理任务需要在自回归生成和工具调用之间进行多轮交互。为了提高效率,这些进程直接重新进入前几轮的KVCache,因此不需要重新生成计算数据。根掩码缓存允许 R3 保持强化学习代理任务的效率,而无需重新完成它们来生成路线面具。为了证明 R3 在弥合训练和推理之间差距方面的有效性,研究人员使用了 Qwen3-30B。 – A3B 模型已经过验证。它将推理过程中获得的路由分布缓存在 SGLang 中,并在 Megatron 框架中重现。 ▲ 用 Megatron 进行两次前向传播得到的概率结果显示,应用 R3 后,训练和推理之间的 KL 散度从 1.5 × 10-3 减小到 7.5 × 10-4,接近密集模型的 6.4 × 10-4 水平,表明训练和推理之间的差异正在减小。研究人员还使用 R3 绘制了训练和推理差异比例的累积分布。对于MoE模型,R3的应用将训练和推理差异较大的token的频率降低了一个数量级。 ▲a.解释 MoE 模型中训练和推理之间的区别,b。解释一下之间的区别n MoE+R3 模型中的训练和推理,c.解释密集模型中训练和推理之间的差异,d。极致代币分发能力 3. 现实测量中的三大性能改进:优化生成行为以评估整体性能、训练稳定性和 R3 改进。为了提高学习成绩,研究人员从 BigMath 和 ORZ 等开源数据集中挑选了大约 10 万个可测试的数学问题作为评估的参考数据集。我们使用 AIME24、AIME25、AMC23 和 MATH500 来衡量全球每个预备役部队的模型性能。单个培训过程中的一个步骤。所选型号为Qwen3-30B-A3B-Base及其改进型号Qwen3-30B-A3B-SFT。该评估方法每五个全局步骤记录模型的性能,并最终报告最佳性能和相应的训练步骤。 “如果模型性能下降,训练崩溃步骤也会被跟踪实验结果表明,整体性能方面,多步更新场景下,R3 平均得分为 68.05 分,比 GSPO 高出 1.29 分;GSPO+R3 进一步提升至 69.00 分,比单独 GSPO 高出 2.24 分。单步更新场景下,GRPO+R3 对 SFT 模型的平均得分为 71.83 分,提高9.6分 比 GRPO(62.23)高出 5.59 个点,比 GRPO+TIS(66.24)高出 5.59 个点。在Base模型中,GRPO+R3的平均得分为70.73,高于GRPO的平均得分(61.69)。 ) 提高了 9.04 点。 ▲主要评价结果还发现R3和TIS的组合不会产生任何效果。除了显着提高性能之外,还有可能 性能下降。例如,在SFT模型的单小步配置中,TIS+R3的得分比单独使用R3低1.69分。由于 R3 已经显着减少了训练和推断之间的策略差异因此,TIS 的额外校正效果很小。从训练稳定性的角度来看:所有没有R3的方法,例如GRPO和GRPO+TIS,在单步更新场景下都会失败。 GRPO 将崩溃为:引入 R3 后,所有组合方法都没有错误,并且预训练期间训练和推理之间的 KL 散度始终很低。 ▲多阶段更新训练在推撞分析、优化和生成行为方面,R3还可以提高训练过程中的优化稳定性、探索行为和生成动态。下图展示了研究人员绘制的单步+基础模型组学习过程中的序列长度、梯度范数、生成熵和评估分数。 ▲Wen3-30B-A3B-Base训练的动态结果表明,R3的梯度范数更小,序列增长模式更平滑,熵更稳定。当在实验中使用R3时,基因的长度训练开始时,训练序列迅速增加。这说明R3能够快速发现正确的优化方向。相反,他的另外两个训练过程只是在第80步之后缓慢增加,而且波动更加明显。 R3始终保持较低的梯度范数,表明优化过程更加稳定。在我们的实验中使用 R3,我们可以看到熵在第 25 步左右开始稳定增加,表明模型开始更早地寻找更好的策略。如果不使用R3,熵会增加得更慢并且波动更大。结论:针对MoE模型训练的问题,小米提出了新的思路。 MoE 架构目前是扩展现代语言模型的基础。通过使用门网络稀疏地仅激活每个令牌的一部分专家参数,我们将模型中的参数总数与推理成本解耦,并且显着y 增加模型的容量。然而,由于激活网络的高灵敏度,MoE 模型容易受到训练不稳定的影响,使得路由鲁棒性成为有效模型收敛的核心挑战。在本文中,研究人员在训练期间重用推理时间路由分布来调整专家的选择,同时保持梯度流。这一想法可以为业界提供新的研究思路。
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(图片、视频,如有))由仅提供信息存储服务的社交媒体平台网易号用户上传发布。