从 TRPO 到 SAPO:大模型 RL 算法演进

  • 发布于 2026-01-04
  • 149 次阅读

直播平台

哔哩哔哩

PC端

视频号

YouTube

相关资源

演示文稿 (PPT)

直播配套幻灯片

下载

unnamed-INLr.png

引言

在大模型后训练阶段,强化学习(Reinforcement Learning, RL)已成为提升模型性能的关键技术。从早期的PPO到最新的SAPO,算法演进始终围绕训练稳定性样本效率计算开销三大核心挑战展开。

1 理论基石:TRPO与策略优化基础

1.1 TRPO的核心思想

信任域策略优化(Trust Region Policy Optimization, TRPO)为现代大模型RL算法奠定了理论基础。其核心思想是通过KL散度约束控制策略更新步长,确保新策略与旧策略的差异不超过信任域范围,从而避免策略突变导致的训练崩溃。TRPO的数学形式化表示为:

\max_{\theta} \mathbb{E}_{s,a \sim \pi_{\theta_{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} A_{\theta_{old}}(s,a) \right]
\text{subject to } \mathbb{E}_{s \sim \pi_{\theta_{old}}} [D_{KL}(\pi_{\theta_{old}}(\cdot|s) \parallel \pi_{\theta}(\cdot|s))] \leq \delta

其中 ​D_{KL} 表示KL散度,​\delta 是信任域半径。该约束保证了策略更新的单调改进性,但计算复杂度较高(需处理二阶导数),难以直接应用于大规模模型。

1.2 重要性采样机制

TRPO和后续算法均依赖重要性采样(Importance Sampling)技术,允许使用旧策略采集的样本估计新策略的梯度。其核心公式为:

\mathbb{E}_{a \sim \pi_{\theta}}[f(a)] = \mathbb{E}_{a \sim \pi_{\theta_{old}}}\left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} f(a) \right]

这一机制使得策略更新可复用历史数据,但需保持新旧策略分布接近,否则梯度估计将出现显著偏差。

2 实用近似算法:PPO、GRPO与GSPO

2.1 PPO:平衡效率与稳定性的开创性工作

近端策略优化(Proximal Policy Optimization, PPO)通过裁剪机制(Clipping)简化TRPO的约束优化问题,成为首个大模型RL广泛应用的算法。其目标函数设计如下:

L^{CLIP}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) A_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) A_t \right) \right]

其中 ​r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} 为重要性比率,​A_t 为优势函数,​\epsilon 是裁剪阈值(通常设为0.2)。PPO的训练流程包含六个关键步骤:

  1. 轨迹采样:使用当前策略生成响应;
  2. 奖励计算:通过奖励模型计算序列级奖励;
  3. 价值估计:价值模型预测每个token的期望收益;
  4. 优势计算:GAE算法分配token级优势;
  5. 价值模型更新
  6. 策略模型更新

PPO的主要局限性在于需同时训练价值模型,带来额外计算与内存开销,且价值模型的不稳定性会直接影响策略训练。

2.2 GRPO:去除价值模型的简化范式

组相对策略优化(Group Relative Policy Optimization, GRPO)由DeepSeek团队提出,核心创新是舍弃价值模型,直接通过样本组统计估计优势函数。对于同一提示(prompt)采样G条响应,其优势计算为:

\hat{A}_i = \frac{r_i - \mu_r}{\sigma_r}

其中 ​\mu_r​\sigma_r 分别是组内奖励的均值和标准差。该设计充分利用奖励模型的相对性本质,显著降低资源消耗。GRPO的目标函数保留PPO的裁剪机制,但增加KL散度项防止奖励黑客行为(reward hacking):

L^{GRPO}(\theta) = \mathbb{E}_t \left[ \min\left( r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t \right) \right] + \beta D_{KL}(\pi_{\theta} \parallel \pi_{\text{ref}})

GRPO在中小规模模型中表现优异,但在长序列或MoE模型中易出现重要性权重方差累积问题,导致训练不稳定。

2.3 GSPO:序列级优化的稳定性突破

组序列策略优化(Group Sequence Policy Optimization, GSPO)由Qwen团队提出,核心贡献是将优化粒度从token级提升至序列级,解决GRPO的方差问题。其重要性比率定义为序列似然比:

s_i(\theta) = \exp\left( \frac{1}{T} \sum_{t=1}^{T} \log \frac{\pi_{\theta}(y_i^t \mid x, y_i^{<t})}{\pi_{\theta_{\text{old}}}(y_i^t \mid x, y_i^{<t})} \right)

目标函数相应调整为:

L^{GSPO}(\theta) = \mathbb{E}_t \left[ \min\left( s_i(\theta) \hat{A}_i, \text{clip}(s_i(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_i \right) \right]

GSPO的优势包括:

  • 梯度方向稳定性:序列级比率仅影响梯度强度,不扭曲方向;
  • 长度归一化:避免长序列权重偏差;
  • MoE适配性:对token级路由变化不敏感。

实验表明,GSPO在Qwen3-30B等MoE模型上训练稳定性显著优于GRPO。

2.4 算法对比概览

算法 核心创新 优势 局限性
PPO 裁剪机制约束更新幅度 基础稳定,适配通用场景 需价值模型,资源开销大
GRPO 组内经验优势估计 无需价值模型,训练速度快 Token级方差累积,MoE不稳定
GSPO 序列级重要性比率 梯度稳定,适配MoE模型 硬裁剪浪费有效样本

3 融合与创新:SAPO解析

3.1 SAPO的设计哲学

软自适应策略优化(Soft Adaptive Policy Optimization, SAPO)是阿里云在GSPO基础上的进一步创新,旨在通过软门控机制平衡稳定性与样本效率。其核心洞察是:GSPO的硬裁剪机制对异策略样本采取“非黑即白”处理,导致部分有效学习信号丢失。

3.2 软门控与自适应温度控制

SAPO用连续的Sigmoid门控函数替代硬裁剪,实现梯度平滑衰减。其目标函数定义为:

L^{SAPO}(\theta) = \mathbb{E}_t \left[ f_{i,t}^{SAPO} \cdot \hat{A}_t \right]

其中软门控函数为:

f_{i,t}^{SAPO} = 4\tau_i \cdot \sigma\left( \tau_i \cdot (r_{i,t}(\theta) - 1) \right)

​\sigma 为Sigmoid函数,​\tau_i 为温度参数。关键创新在于正负优势非对称温度控制

\tau_i = \begin{cases} \tau_{pos} & \text{if } \hat{A}_i \geq 0 \\ \tau_{neg} & \text{if } \hat{A}_i < 0 \end{cases}

通常设置 ​\tau_{neg} > \tau_{pos},使负优势样本的梯度衰减更快,抑制其对训练的干扰。

3.3 双特性兼顾机制

SAPO兼具序列一致性token自适应性

在满足小步更新(​r_{i,t}(\theta) \approx 1)和序列内低离散性条件下,SAPO退化为平滑版GSPO;

当条件不满足时,自动切换至token级优化模式,保留GRPO的灵活性。
这种设计使其在复杂任务(如数学推理)中表现优异,在Qwen3-VL等多模态模型训练中实现稳定提升。

3.4 与其他改进算法的对比

BAPO:通过动态调整裁剪边界平衡正负样本贡献,但仍依赖硬裁剪;

DeepSeek-V3.2:采用序列掩码过滤低概率负样本,避免过度惩罚;

SAPO优势:软门控提供连续控制,无需手动阈值调优。


1月10日(周六)上午10点,青稞社区和减论平台将联合组织青稞Talk 第102期,SAPO 作者、通义千问算法工程师高畅,将直播分享《从 TRPO 到 SAPO:大模型 RL 算法演进》。

分享嘉宾

高畅,通义千问算法工程师,博士毕业于香港中文大学。Qwen3、Qwen3-VL系列模型核心贡献者。研究方向为LLM RL,在NeurIPS、ACL、EMNLP等会议上发表多篇论文。

主题提纲

从 TRPO 到 SAPO:大模型 RL 算法演进

1、理论基石 TRPO
2、实用近似算法:PPO、GRPO和GSPO
3、融合与创新:SAPO 解析
4、AMA (Ask Me Anything)环节

直播时间

1月10日(周六)10:00 - 11:00