网站建设流程教程wordpress酷播-Seo优化-嘉义县网站建设公司

网站建设流程教程,wordpress酷播,零基础怎么做网站,网站建设哪家好北京简介该研究揭示了大语言模型强化训练中因训练-推理不匹配导致的崩溃问题。分布外上下文使模型频繁生成低概率token#xff0c;这些token在训练和推理引擎间存在显著概率差异#xff0c;引发异常梯度导致训练失败。硬件差异加剧这一问题。研究提出sequence级别校正方法…简介该研究揭示了大语言模型强化训练中因训练-推理不匹配导致的崩溃问题。分布外上下文使模型频繁生成低概率token这些token在训练和推理引擎间存在显著概率差异引发异常梯度导致训练失败。硬件差异加剧这一问题。研究提出sequence级别校正方法如Seq-TIS和Seq-MIS通过考虑完整状态轨迹校正有偏梯度在不同硬件和复杂任务中恢复训练稳定性。原文https://richardli.xyz/rl-collapse图1. 我们在Qwen3-14B-Base上进行的四次失败的GRPO TIR实验的奖励左和gradient norm右。所有实验在每个训练步骤采样1024条轨迹64个提示词 ×16个回复学习率为1e-6。在on-policy和off-policy实验中ppo_mini_batch_size分别设置为1024和256。要点摘要TL;DR对更快推理的追求已造成显著的训练-推理不匹配这可能导致大语言模型的RL训练失败。我们的研究揭示了一个正反馈循环问题在现代reasoning和agent RL中尤为突出1、分布外上下文导致低概率采样Agent工作流使模型暴露于外部输入和动态环境导致模型频繁生成低概率token这些token对于新颖的推理、工具调用和自适应响应至关重要。3.4 分布外工具响应放大不匹配2、低概率token加剧训练崩溃这些token是训练-推理不匹配最严重的位置导致异常大的梯度引发隐性退化和训练失败。3.3 关键发现低概率Token陷阱3、硬件差异使问题复杂化不同的GPU架构以不同方式加剧不匹配这意味着相同的agent训练配置可能在一台机器上成功而在另一台机器上失败。3.5 环境因素硬件的关键作用4、sequence级别校正是有原理依据的解决方案****sequence级别校正是理论上成立的解决方案。它通过考虑完整的状态轨迹来校正有偏梯度在不同硬件和复杂任务中恢复训练稳定性。4.2.1 原理性解决方案分布校正深入分析为了对这个问题进行严谨的理论分析我们发布了一个新的三部分博客系列以提供深入分析Part 1: 为什么Off-Policy会使得RL优化不稳定 — SGA分析框架[1]https://richardli.xyz/rl-collapse-1/已知TRPO理论Surrogate目标是RL目标的一阶Taylor近似TRPO下界表明近似误差随增长要求trust region收缩为。洞察Token级别ISPPO/GRPO计算的是而非 ——它校正了token分布但未校正状态分布不匹配导致偏差。我们通过SGA引理形式化了两种失效模式偏差由度量和方差由 -divergence度量——这两个度量不可互换。Part 2: SGA分析框架的应用——Token与Sequence级别校正[2]https://richardli.xyz/rl-collapse-2/分析Token级别ISPPO/GRPO具有源于surrogate一阶近似误差的偏差Sequence级别IS无偏但方差呈指数级。Seq-TIS通过截断实现可控的偏差-方差权衡。核心结论此偏差是sequence级别问题当其不可忽略时需要sequence级别的解决方案。Part 3: 基于Sequence Masking的Trust Region Optimization[3]https://richardli.xyz/rl-collapse-3/已知TRPO理论Trust region约束确保surrogate objective为有效近似。解决方案1Seq-MIS通过进行样本过滤实现Hard Trust Region。2Geo-RS使用几何平均进行样本过滤来实现长度不变的Per-Token Trust Region。1. 突然崩溃之谜在大语言模型RLLLM-RL快速发展的领域中突然训练崩溃的现象日益凸显。无论是复杂的reasoning RL还是多轮agent RL许多人都观察到训练过程在经历一段稳定学习后突然崩溃。我们最近在对Qwen3模型进行多轮tool-integrated reasoningTIR的agent RL实验时遇到了这一问题。这发生在我们L20 GPU集群上GRPO算法的on-policy和off-policy变体中。图1展示了我们在Qwen3-14B-Base上四次崩溃实验的奖励和梯度范数动态。随着训练的进行梯度范数突然急剧增大导致模型崩溃。我们最初的调查集中在常见的原因上• 我们检查了代码确认我们的agent循环遵循token-in-token-outTITO的过程。• 我们调整了Adam优化器中的超参数beta1和beta2。• 我们还对优势进行了批量归一化以平衡更新。…然而这些标准修复方法都无效。由于即使是更简单的on-policy实验也失败了我们怀疑问题不在于RL算法本身而在于训练栈的更基础层面。这促使我们调查现代LLM-RL中一个关键且日益普遍的挑战高度优化的推理引擎与高保真训练框架之间不可避免的差异。2. 根本性冲突推理与训练之间日益扩大的差距Rollout速度是LLM-RL的核心瓶颈。为了实现所需的大规模吞吐量现代推理引擎如vLLM、SGLang、TensorRT-LLM采用激进的优化策略如投机解码、低精度计算INT8/FP8和专用的批次变体CUDA kernel。在保持采样保真度的同时现代推理引擎的首要目标是最大化吞吐量通常以每秒token数来衡量。相反训练框架如FSDP、DeepSpeed、Megatron-LM必须达到不同的平衡优先考虑梯度计算的数值稳定性和精度通常对主权重和优化器状态使用更高精度的格式如FP32。优化优先级和约束上的这种差异造成了不可避免的训练-推理不匹配。对更快rollout的追求正在使这一差异扩大。虽然有人可能提议强制执行相同的计算例如使用batch-invariant kernel[4]但这些解决方案会带来严重的性能损失与使用高速推理引擎的初衷相悖。这种速度与一致性的权衡是问题的核心使其成为一个持久的挑战而非简单的工程修复所能解决。在我们的技术栈中这种不匹配具体表现在vLLM推理采样器和FSDP训练器之间。实际的参数更新是而理论上的参数更新应该是其中是从分布中采样的提示词是回复是奖励函数是LLM的参数和分别是vLLM引擎和FSDP引擎中实现的策略。为了调查这个问题我们首先需要一种方法来度量它。3. 训练崩溃剖析3.0实验设置除非另有说明第3节和第4节中呈现的实验都是在TIR设置下的 VeRL[5] 框架上进行的使用vLLM v1采样器AsyncvLLMServer、Qwen3-14B-Base模型和GRPO算法全部在L20 GPU集群上运行。3.1 度量不匹配train_infer_kl指标度量训练-推理不匹配的一个直接指标是train_infer_kl其中是策略的状态占用度量state occupancy 是上下文前缀状态是token动作。注意我们的实验涉及工具调用这意味着回复可能包含工具响应。因此我们的train_infer_kl指标仅考虑模型自身生成的token。由于我们的实验使用vLLM作为推理引擎在后续的实验图表中我们将此指标记为vllm-kl。以下代码提供了在 VeRL[6] 中使用K3估计器[7]计算该指标的实现假设推理引擎的token概率已经可以获取vllm-kl的K3估计器代码块rollout_log_probs batch.batch[rollout_log_probs] # pi_inferactor_old_log_probs batch.batch[old_log_probs] # pi_trainresponse_mask batch.batch[response_mask]log_ratio actor_old_log_probs - rollout_log_probsvllm_k3_kl_matrix torch.exp(log_ratio) - log_ratio - 1vllm_k3_kl masked_mean(vllm_k3_kl_matrix,response_mask)3.2警告信号相关的不稳定性我们的第一个线索是高vllm-kl值并非孤立事件而是与其他不稳定性指标高度相关。3.2.1FSDP熵和奖励的波动在我们的许多实验中我们观察到vllm-kl的异常尖峰通常会同时触发FSDP策略的熵和奖励的异常波动。图2中的实验结果是一个直观的例子。从图中可以看出熵尖峰发生的位置几乎与vllm-kl尖峰的位置完全对应。虽然在奖励中没有观察到同样显著的相关性但可以看到在步骤250左右有一个很大的vllm-kl尖峰它触发了低质量批次的生成并导致了该处明显的下降。这意味着当不匹配较大时vLLM策略和FSDP策略都进入了不稳定区域。图2. 一个on-policy实验结果的对比展示显示熵左和奖励右与vllm-kl值的对比说明它们在训练阶段的相关性。3.2.2 FSDP PPL和gradient norm上升导致策略崩溃更关键的是我们观察到vllm-kl的尖峰同时触发了fsdp-ppl[8]指标和梯度范数gradient norm的急剧增大。在我们的实验中回复的fsdp-ppl指标计算如下其中是回复中模型自身生成的token的索引集。最终的fsdp-ppl指标是批次中所有回复的fsdp-ppl指标的平均值。图3展示了GRPO on-policy版本和off-policy版本的实验结果。在两个实验中vllm-kl的尖峰几乎精确地触发了fsdp-ppl和梯度范数的相应急剧增大。此外可以观察到在训练奖励崩溃之前vllm-kl指标有显著上升。图3. 步骤200-280的on-policy实验结果上和clip-higher为0.28的off-policy实验结果下显示gradient norm左、fsdp-ppl中和奖励右与vllm-kl值的对比说明它们在训练期间的相关性。在我们的实验中模型自身生成的序列至少包含几百个token。因此在训练后期阶段ppl指标保持在1左右更为合理。然而在训练-推理不匹配显著的批次中——即vllm-kl显著较高的地方——观察到fsdp-ppl指标急剧增大。这表明训练引擎为推理引擎策略采样的token分配了极低的概率从而导致梯度爆炸。这一观察帮助我们进一步定位了不匹配更可能发生的位置。事实上正如我们稍后将看到的当这些在训练引擎中概率极低的token被采样时它们在推理引擎中的概率并没有那么低。可能大家都想学习AI大模型技术也_想通过这项技能真正达到升职加薪就业或是副业的目的但是不知道该如何开始学习因为网上的资料太多太杂乱了如果不能系统的学习就相当于是白学。为了让大家少走弯路少碰壁这里我直接把都打包整理好希望能够真正帮助到大家_。3.3 关键发现低概率Token陷阱不匹配并非均匀分布。通过分析具有不同vllm-kl水平的批次我们发现了一个明显的规律对于在vLLM推理引擎中概率较低的token差异最为严重。当token的推理概率接近零时训练概率可能变得小几个数量级导致PPL和梯度趋于无穷大。为确保结论具有足够的普遍性我们从不同实验的不同训练步骤中选取了训练崩溃前采样的批次。所有这些批次都表现出相对较高的vllm-kl值使我们能够在显著条件下研究不匹配模式。在以下三个vllm-kl范围内收集了Rollout批次每组五个批次约500万token•组1低每个rollout批次的vllm-kl不超过1e-3批次使用H20 GPU采样。•组2中每个rollout批次的vllm-kl属于[1e-3, 2e-2]批次使用L20 GPU采样。•组3高每个rollout批次的vllm-kl属于[2e-2, 1e-1]批次使用L20 GPU采样。下图4(a)(b)©展示了vLLM引擎的输出概率即与不匹配程度——由度量——在不同vllm-kl量级下的关系图4(a). 组1批次中token的与关系图。图4(b). 组2批次中token的与关系图。图4©. 组3批次中token的与关系图。从上述三张图中我们可以清楚地观察到1、当vLLM概率接近零时不匹配程度更加显著的极端值更可能在这些条件下出现。2、在L20 GPU上收集的批次即组2和组3中的批次其训练-推理不匹配主要表现为FSDP概率显著小于vLLM概率。3.4 分布外工具响应放大不匹配3.4.1 非首轮输出中不匹配更严重第3节的发现解释了为什么这个问题在我们的多轮TIR实验中尤为严重特别是在非首轮模型输出中。其过程如下1、Agent接收工具响应这通常是结构化文本例如被python_output和/python_output标签包裹的上下文相比其预训练和SFT数据属于分布外数据。2、面对这种不熟悉的分布外上下文agent的策略变得更加不确定使其在后续轮次中更容易采样低概率token这一现象在SimpleTIR[9]中也有观察到。3、正如我们刚刚确认的这些低概率token正是严重不匹配发生的主要位置为fsdp-ppl和梯度的急剧增大创造了条件。接下来我们绘制三组批次每组约5k条轨迹中的不匹配突出首轮模型输出和非首轮模型输出之间的差异。我们考虑以下两种方法来可视化不匹配1、Log-ppl散点图x轴表示由vLLM策略计算的ppl指标的对数记为vllm-log-pply轴表示由FSDP策略计算的ppl指标的对数记为fsdp-log-ppl。2、概率散点图x轴表示vLLM策略的token概率y轴表示FSDP策略的token概率。我们在下面展示三组的不匹配可视化结果。•组1vllm-kl≤ 1e-3的批次•组2vllm-kl∈ [1e-3, 2e-2]的批次•组3vllm-kl∈ [2e-2, 1e-1]的批次从可视化结果中我们可以观察到1、与首轮输出相比非首轮输出的vllm-log-ppl通常更大这意味着面对不熟悉的分布外上下文时模型采样了更多低概率token。2、不匹配主要发生在非首轮模型输出中表现为FSDP策略和vLLM策略之间log-ppl和token概率的平均绝对差异更大Pearson相关系数更低。3、随着vllm-kl值的增加训练-推理不匹配主要在非首轮输出中恶化。4、不匹配一致显示fsdp-log-ppl大于vllm-log-ppl表明FSDP引擎产生了更极端的低概率token。3.4.2 工具调用越多训练越不稳定以下实验进一步证明了分布外工具响应会加剧训练-推理不匹配和训练不稳定性。我们在H20 GPU上使用Qwen3-14B-Base作为基础模型进行了off-policy GRPO实验clip higher0.284个mini-batch。我们将单条轨迹中工具调用的最大次数超参数max_tool_turn设置为20和100。实验结果如图5和图6所示。可以观察到随着工具调用次数的增加训练崩溃发生的时间更早。崩溃时所有情况下都观察到梯度爆炸和vllm-kl急剧增大。图5. 不同max_tool_turn超参数值的off-policy GRPO实验的gradient norm左、奖励中和vllm-kl指标右。所有实验都在H20 GPU上进行使用Qwen3-14B-Base作为基础模型clip higher0.284个mini-batch。图6. 不同max_tool_turn超参数值的off-policy GRPO实验的工具调用最大次数左和平均次数右。所有实验都在H20 GPU上进行使用Qwen3-14B-Base作为基础模型clip higher0.284个mini-batch。3.5 环境因素硬件的关键作用最后我们发现物理硬件是一个关键变量。完全相同的代码和模型在不同GPU硬件上产生了显著不同的不匹配程度。为评估不同硬件上的不匹配程度我们使用相同的代码环境和超参数运行on-policy算法仅在不同GPU之间切换进行推理和训练。图7展示了在L20、H20和A100上的训练动态。图7. 不同GPU上GRPO on-policy实验的vllm-kl指标左和奖励右。所有实验都在相同的代码和环境上进行。从图中可以观察到在我们的实验中vllm-kl的量级基本遵循H20 L20 A100。具体来说H20的vllm-kl通常在5e-4到1e-3的数量级L20约为1e-3到1e-2而A100主要在1e-2到1之间。由于A100上严重的训练-推理不匹配正常训练变得不可行导致高度不稳定的奖励曲线。我们发现在vLLM引擎中禁用级联注意力对于减少在A100 GPU上运行的实验中的不匹配特别有帮助。根本原因是FlashAttention-2 kernel中一个不易察觉的bug在A100以及L20上特定的batch/sequence长度组合会触发kernel的split_kv路径该路径错误地转置了LSElog-sum-exp布局导致Cascade Attention出现完全的精度崩溃这正是我们观测到的巨大vllm-kl的来源。我们在4.2.4 在vLLM中禁用级联注意力中展示这些结果。最直接的验证来自于当我们将一个失败的L20实验从检查点在H20 GPU上恢复时见图8。训练立即稳定并恢复表明硬件对该问题具有关键影响。图8:L20和H20之间on-policy GRPO实验的对比结果显示gradient norm左和奖励右。我们从失败的L20实验红线第200个训练步骤的检查点开始在H20 GPU上开始实验绿线3.6 不匹配不是静态的优化驱动的反馈循环有人可能认为训练-推理不匹配是硬件和软件栈的静态属性。然而我们下面的批次过滤实验表明不匹配与训练动态和模型状态是相互关联的。我们在批次过滤实验中设置了以下策略更新策略对于每个训练步骤如果收集的批次产生的vllm-kl指标大于阈值我们跳过在该批次上更新模型参数因为这样的更新容易导致训练崩溃。相反我们直接进入下一步继续数据收集直到获得vllm-kl值低于阈值的批次此时模型才被更新。这个实验背后的逻辑是如果不匹配程度完全独立于模型的输出分布和训练动态那么vllm-kl的量级在不同训练步骤之间应该表现出相同的分布。然而图9中的实验结果表明一旦模型进入某种状态它就会开始持续生成高不匹配批次从而导致训练停滞。这一现象以及在其他运行中观察到的vllm-kl和fsdp-ppl持续上升的模式图10指向一个反馈循环。图9. 我们on-policy批次过滤实验的结果显示vllm-kl左和奖励右被过滤掉批次的训练步骤用粉色标出。过滤阈值设置为0.1。图10. 一个on-policy实验的结果描绘了训练步骤上的vllm-kl和fsdp-ppl。两条线表现出相关的持续上升模式。我们假设这是由于以下两阶段级联失效1、阶段1数值敏感性增加。RL优化器将模型的权重推入bfloat16数据类型相对精度较低的数值范围例如非常小或非常大的值。2、阶段2Kernel驱动的误差放大。这些初始的、微小的bfloat16量化误差随后被输入到vLLM和FSDP的不同kernel中。不同的计算顺序会产生非线性放大效应导致小的初始偏差在最终logits中累积放大为大的差异。这形成了一个反馈循环不匹配导致有偏差且噪声较大的梯度可能将参数进一步推入数值敏感区域进而使下一次迭代的不匹配进一步恶化直到系统崩溃。可能大家都想学习AI大模型技术也_想通过这项技能真正达到升职加薪就业或是副业的目的但是不知道该如何开始学习因为网上的资料太多太杂乱了如果不能系统的学习就相当于是白学。为了让大家少走弯路少碰壁这里我直接把都打包整理好希望能够真正帮助到大家_。4. 缓解训练-推理不匹配的尝试接下来我们将列出尝试过的缓解训练-推理不匹配的方法。其中一些方法有所帮助而另一些则无效。4.1 无效尝试4.1.1 使用FP32 LM Head受到Minimax-M1技术报告[10]和博客文章《你的高效RL框架悄悄地给你带来off-policy RL训练[11]》的启发我们修改vLLM将lm_head转换为fp32精度。然而在我们的实验中修改后不匹配问题仍然存在模型崩溃不可避免。图11展示了在L20 GPU上使用vLLM引擎中bf16 lm_head的失败的on-policy实验以及从崩溃实验的第200个训练步骤开始在vLLM引擎上使用fp32 lm_head的实验。可以观察到两个实验最终都崩溃了使用fp32 lm_head的实验仍然表现出vllm-kl急剧增大。图11:****vLLM引擎中lm_head精度的消融研究结果。左vllm-kl指标的动态。右训练奖励的动态。我们从使用bf16 lm_head的失败实验的第200个训练步骤开始用fp32 lm_head恢复RL训练。4.1.2 禁用分块预填充我们还尝试从4.1.1节中使用bf16 lm_head的失败实验的第200个训练步骤恢复RL训练禁用分块预填充[12]以查看是否可以解决崩溃。然而我们的实验结果如图12所示表明这种方法没有解决崩溃问题。图12:使用分块预填充的消融研究结果。我们从之前启用分块预填充进行的失败实验的第200个训练步骤开始禁用分块预填充重新运行RL训练。左vllm-kl指标的动态。右训练奖励的动态。4.1.3 启用enforce_eager和free_cache_engineVeRL的DAPO官方配方[13]提到启用CUDA图enforce_eagerFalse可能导致模型性能下降。为了调查它是否影响训练-推理不匹配我们进行了消融研究以检查vLLM引擎超参数enforce_eager与另一个超参数free_cache_engine的影响。我们在reasoning RL上进行了实验。我们在H100 GPU上使用Qwen3-4B-Base作为基础模型进行on-policy GRPO实验共运行四种实验设置超参数enforce_eager和free_cache_engine的穷举组合每个设置为True或False。性能在AIME24基准上评估。实验结果如图13所示。从图中可以看出调整enforce_eager和free_cache_engine的值对训练-推理不匹配和测试性能没有显著影响。图13: reasoning RL中vLLM加速和缓存相关超参数的消融研究。我们在H100 GPU上用超参数enforce_eagerE和free_cache_engineF的四种可能组合进行on-policy GRPO实验。左vllm-kl指标的动态。右AIME24准确率的动态。4.2 有效尝试4.2.1 原理性解决方案分布校正训练-推理不匹配将我们原本的on-policy RL问题变成了off-policy问题其中用于生成rollout的策略behavior policy与正在训练的策略target policy不同。校正这种分布偏移的一个理论上可行的方法是重要性采样importance samplingIS。然而重要性采样的具体形式对于保持无偏梯度和实现稳定训练至关重要。受(Yao et al., 2025)[14]的发现启发——该工作首次强调了由于训练-推理不匹配而导致的这种隐式off-policy问题——我们分析了两种主要的重要性采样形式sequence级别IS 和token 级别IS。有原理依据的估计器sequence级别IS正确的、无偏的策略梯度估计器对整个生成的序列轨迹应用单一的重要性比率。这正确地将期望从behavior policy重新加权到target policy产生目标函数的真实梯度。让我们逐步推导sequence级别IS估计器。1、目标是最大化目标FSDP策略下的期望奖励2、因此真实的策略梯度是3、由于我们只能从vLLM策略进行采样我们使用重要性采样来转换期望的分布这本质上是off-policyREINFORCE算法Williams, 1992[15]。这个估计器在数学上等价于策略梯度的标准优势形式。关键在于证明重要性采样比率能精确校正期望揭示出隐藏在下面的真实on-policy梯度然后可以进一步细化。最终的优势形式为其中是状态前缀是动作token。项****是目标FSDP策略下的状态占用度量state occupancy。它被正式定义为遵循策略时访问状态的期望次数这个估计器是无偏的意味着。为了数值稳定性使用截断重要性采样Truncated Importance SamplingTIS它将sequence级别比率裁剪在常数。一个常见的有偏估计器Token级别IS一种常见的启发式方法通常受PPO等算法启发并在(Yao et al., 2025)[16]中使用采用逐token的重要性比率。虽然这通常比sequence级别比率具有更低的方差但它是一个有偏估计器。让我们推导Token级别IS梯度估计器。1、该公式首先在时间步求和内部错误地应用重要性采样比率即定义为2、我们可以将这个轨迹上的期望重写为vLLM策略下访问的状态上的期望3、注意这里是由采样的完整轨迹的经验回报它作为状态-动作价值的Monte Carlo估计。引入基线并改变动作上的期望给出最终形式这个最终表达式清楚地揭示了token级别IS的梯度偏差。可以清楚地观察到能够被优化当且仅当保持在的置信域trust region内此时且。Token级别IS中的偏差来源将与真实梯度进行比较揭示了两个独立且重要的错误使token级别估计器有偏。来源1状态占用不匹配合理的off-policy校正必须考虑两个分布偏移动作概率和状态访问概率。Token级别方法只校正了第一个。•真实梯度****期望是关于正确的目标FSDP分布下访问的状态的。•有偏梯度****期望是关于不正确的behavior vLLM分布下访问的状态的。这隐式地假设状态占用比率是1即。这个假设在自回归模型中严重不成立由于确定性转移单个不同的token选择会导致状态轨迹完全发散。通过忽略这一点引入了一个大的、不可控的偏差。来源2奖励信号不匹配第二个关键错误是token级别梯度用来自错误策略的奖励信号来加权更新。•真实梯度****更新按目标FSDP策略的优势函数缩放表示该策略下的期望未来奖励。•有偏梯度****更新按behavior vLLM策略的优势函数缩放。Target policy的梯度被属于behavior policy的奖励信号缩放。由于状态分布和奖励信号都存在根本性的不匹配token级别梯度是一个有偏且理论上不成立的估计器。这些理论表明尽管token级别方法可能具有较低的方差但梯度偏差仍然存在可能导致训练不稳定——我们接下来的实验证实了这一预测。我们还在(Part 1[17] Part 2[18])中给出了token级别和sequence级别方法的详细偏差和方差分析。实验验证我们的理论分析预测有偏的token级别IS将是不稳定的并最终失败而无偏的sequence级别IS将是稳健的。我们的实验证实了这一点。IS防止梯度爆炸但Token级别仍然失败我们从L20 GPU上崩溃实验的第200个训练步骤恢复分别使用token级别TIS和sequence级别TIS。如图14所示虽然两者最初都防止了朴素实验中看到的梯度爆炸但使用token级别TIS的运行后来仍然崩溃。使用sequence级别TIS的运行保持稳定验证了我们的理论即token级别方法的有偏梯度最终导致失败。图14:不同TIS策略使用的消融研究。不使用IS的朴素on-policy实验在200步后崩溃并经历梯度爆炸。我们分别从第200个训练步骤开始添加token级别TIS和sequence级别TIS策略恢复RL训练。左RL训练期间gradient norm的动态。右RL训练期间训练奖励的动态。reasoning RL中的Token级别TIS虽然token级别TIS在我们复杂的TIR实验中失败但在更简单的reasoning RL中它可以帮助防止崩溃因为那里的不匹配程度较小。在on-policy GRPO和RLOO实验中图15token级别TIS防止了梯度爆炸但训练仍然不稳定没有达到更好的最终性能这可能是由于底层的梯度偏差。图15(a):H100 GPU上on-policy GRPO实验的gradient norm左和AIME 24准确率右分别为无IS和有token级别ISC2的reasoning RL。Token级别TIS防止训练崩溃但没有达到更好的测试性能。图15(b):H100 GPU上on-policy RLOO实验的gradient norm左和AIME 24/AIME25平均准确率右分别为无IS和有token级别ISC2的reasoning RL。Token级别TIS缓解训练崩溃但没有达到更好的测试性能。在后期阶段TIS有性能下降的趋势。TIS延长训练但可能遭受不稳定性我们在L20 GPU上从头开始进行on-policy TIR实验使用sequence级别TIS。如图16所示虽然该方法防止了完全崩溃但奖励曲线在达到平台后表现出持续波动其测试性能没有超过朴素实验崩溃前达到的峰值。图16:不同TIS策略使用的消融研究续。不使用IS的朴素on-policy实验在200步后崩溃。我们从头开始使用相同配置重新运行失败的实验添加的sequence级别TIS。左RL训练期间训练奖励的动态。右RL训练期间测试准确率的动态。掩码重要性采样MIS为改进TIS我们提出掩码重要性采样Masked Importance SamplingMIS它对IS比率超过阈值的序列掩盖策略损失即。如图17所示MIS不仅稳定了训练还超过了朴素和TIS实验的峰值训练奖励和测试准确率。图17:on-policy GRPO与sequence级别MIS、TIS和不使用IS的朴素版本的比较。所有三个实验都在L20 GPU上进行。与朴素on-policy实验相比MIS和TIS的引入都延长了训练持续时间但两者在后期阶段也遭受了训练不稳定性。与TIS相比MIS在训练奖励和测试集准确率上都有所改进也超过了不使用IS的朴素实验的峰值性能。左RL训练期间训练奖励的动态。右RL训练期间测试准确率的动态。Token级别MIS vs. sequence级别MIS最后我们比较了token级别MIS和sequence级别MIS。如预期图18显示虽然两者都防止了初始的梯度爆炸但token级别MIS实验仍然崩溃。这强化了我们的结论对于复杂的、长时间范围的自回归任务只有理论上成立的sequence级别校正才是可靠的。图18:on-policy GRPO与token级别MIS和sequence级别MIS的比较。两个实验都在L20 GPU和相同配置上进行。左RL训练期间gradient norm的动态。右RL训练期间训练奖励的动态。4.2.2 Top-p采样如上所述我们观察到vLLM策略的低概率token更容易出现严重的训练-推理不匹配问题导致FSDP策略的概率极低。为进一步证实这一点我们进行了以下top-p消融研究。我们在L20 GPU上运行on-policy GRPO实验将vLLM采样策略的top-p超参数分别设置为0.98、0.99和0.999注意我们没有应用重要性采样进行梯度校正。通过设置较小的top-p值我们旨在减少推理阶段极低vllm概率token的频率从而缓解训练-推理不匹配。我们的消融结果如图19所示。如预期vllm-kl指标表明较小的top-p减少了vllm-kl尖峰的发生。然而需要注意的是较小的top-p也增加了vLLM策略和FSDP策略之间的分布差异。因此在不应用TIS的情况下梯度偏差变得更大导致随着top-p减小奖励改进更慢。图19:RL训练期间vLLM采样策略中不同top-p值使用的消融研究。我们运行了top-p分别等于0.98、0.99和0.999的on-policy GRPO实验。可以观察到设置较小的top-p值通常产生较小的vllm-kl指标和较慢的奖励改进。左RL训练期间vllm-kl指标的动态。右RL训练期间训练奖励的动态。4.2.3 使用其他GPU系列在发现H20 GPU上运行的实验中训练-推理不匹配显著小于L20 GPU后我们将所有TIR实验切换到H20 GPU这大大减少了训练崩溃的发生。图20展示了在相同配置下分别在L20和H20 GPU上从头训练的两个on-policy GRPO实验的结果。可以观察到在H20 GPU上运行的on-policy实验显著延长了稳定训练持续时间并取得了更好的性能。图20: 分别在L20和H20 GPU上进行的两个on-policy GRPO实验的训练奖励左和测试准确率右。4.2.4 在vLLM中禁用级联注意力根据这个GitHub issue[19]我们在初始化vLLM引擎时设置disable_cascade_attnTrue发现它显著帮助减少在A100 GPU上进行的实验中的训练-推理不匹配。我们使用Qwen3-14B-Base作为基础模型在A100 GPU上进行了两个on-policy GRPO实验disable_cascade_attn分别设置为True和False。结果如图21所示。可以观察到禁用级联注意力后vllm-kl指标从5e-2到1e-1的范围下降到1e-3左右表明训练-推理不匹配大幅减少。此外训练集上的奖励也相应增加。图21: 使用级联注意力的消融研究结果。我们在A100 GPU上进行了两个on-policy实验一个启用级联注意力另一个使用相同配置但禁用级联注意力。左vllm-kl指标的动态。右训练奖励的动态。5. 结论与实践者要点训练-推理不匹配不是一个小众bug而是现代reasoning和agent RL中一个根本性的、日益严峻的挑战源于对性能的必然追求。我们的研究为诊断和缓解这一问题提供了清晰的路线图。1、不匹配是不可避免的权衡高速推理将始终与训练计算存在差异。这是核心权衡而非临时缺陷。2、监控系统健康状态train-infer-kl/vllm-kl指标是一个重要的早期预警系统。将它与困惑度PPL和梯度范数一起跟踪以在崩溃发生之前预测和诊断不稳定性。3、识别问题根源问题并非随机发生。它被低概率token系统性地触发而当模型处理分布外OOD输入时这些token会更频繁地生成——这是tool-use和多轮应用中的常见场景。4、硬件是一阶变量相同的代码可能在一个GPU架构上崩溃而在另一个上完美训练。务必在目标硬件上验证你的设置因为结果可能无法完全移植。5、使用理论上可靠的校正方法虽然更换硬件或调整采样器可以有所帮助但最稳健且有原理依据的解决方案是算法性的。我们的工作证明了理论上有偏的token级别校正是不够的在我们的实验中仍然可能失败。相比之下sequence级别方法如截断重要性采样Seq-TIS和掩码重要性采样Seq-MIS通过校正完整的状态轨迹直接解决梯度偏差。这些方法对于保持稳定性至关重要应该被视为任何严肃的LLM-RL训练栈的默认配置。我们假设推理引擎如vLLM和训练框架如Megatron-LM之间的这种不匹配对于混合专家模型MoERL也将是一个重要问题这代表了一个有趣且关键的未来研究方向。6.在大模型时代我们如何有效的去学习大模型现如今大模型岗位需求越来越大但是相关岗位人才难求薪资持续走高AI运营薪资平均值约18457元AI工程师薪资平均值约37336元大模型算法薪资平均值约39607元。掌握大模型技术你还能拥有更多可能性• 成为一名全栈大模型工程师包括PromptLangChainLoRA等技术开发、运营、产品等方向全栈工程• 能够拥有模型二次训练和微调能力带领大家完成智能对话、文生图等热门应用• 薪资上浮10%-20%覆盖更多高薪岗位这是一个高需求、高待遇的热门方向和领域• 更优质的项目可以为未来创新创业提供基石。可能大家都想学习AI大模型技术也_想通过这项技能真正达到升职加薪就业或是副业的目的但是不知道该如何开始学习因为网上的资料太多太杂乱了如果不能系统的学习就相当于是白学。为了让大家少走弯路少碰壁这里我直接把都打包整理好希望能够真正帮助到大家_。一、AGI大模型系统学习路线很多人学习大模型的时候没有方向东学一点西学一点像只无头苍蝇乱撞下面是我整理好的一套完整的学习路线希望能够帮助到你们学习AI大模型。第一阶段从大模型系统设计入手讲解大模型的主要方法第二阶段在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用第三阶段大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统第四阶段大模型知识库应用开发以LangChain框架为例构建物流行业咨询智能问答系统第五阶段大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型第六阶段以SD多模态大模型为主搭建了文生图小程序案例第七阶段以大模型平台应用与开发为主通过星火大模型文心大模型等成熟大模型构建大模型行业应用。二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示。三、AI大模型经典PDF书籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。四、AI大模型各大场景实战案例结语【一一AGI大模型学习所有资源获取处无偿领取一一】所有资料 ⚡️ 朋友们如果有需要全套《LLM大模型入门进阶学习资源包》扫码获取~

网站建设流程教程wordpress酷播

wordpress mysql用户名密码seo成创网络

给公司申请网站用自己的账号苏ICP备网站建设中企动力无锡

zencart 网站安装做网站的工具论坛

阿里云网站建设好用吗搭建一个企业网站

地板网站代码视觉传达设计考研

网站建设全部流程图网站设计与建设代码

网站建设流程教程wordpress酷播

wordpress mysql用户名密码seo成创网络

给公司申请网站用自己的账号苏ICP备网站建设中企动力无锡

zencart 网站安装做网站的工具 论坛

阿里云网站建设好用吗搭建一个企业网站

地板网站代码视觉传达设计考研

网站建设全部流程图网站设计与建设代码

zencart 网站安装做网站的工具论坛