我们从 TRPO 中关于 KL 散度约束的近似求解部分 开始。

一、背景回顾（轻量）

TRPO（Trust Region Policy Optimization）目标是：

最大化期望优势函数的同时，限制新旧策略之间的KL散度不能太大。

形式化目标是：

θ max E_{s, a \sim π_{θ_{o l d}}} [\frac{π _{θ} ( a ∣ s )}{π _{θ_{o l d}} ( a ∣ s )} A^{π_{θ_{o l d}}} (s, a)]

受限于：

E_{s \sim π_{θ_{o l d}}} [D_{K L} (π_{θ_{o l d}} (\cdot ∣ s))] \leq δ

二、为什么需要近似？

这个优化问题因为有 KL 散度的非线性约束，直接求解很难，于是 TRPO 采用了二阶泰勒展开来近似KL散度约束，从而把问题简化为一个带二次约束的优化问题（Quadratic Constrained Quadratic Programming，QCQP）。

三、KL 散度的二阶近似：Hessian 的出现

KL 散度对参数 $θ$ 做二阶泰勒展开，展开中心在旧策略参数 θold\theta_{\text{old}}，记为 $θ_{0}$ ：

由于在 $θ_{0}$ 处，KL散度最小，所以一阶导数为0，即 $\nabla_{θ} D_{K L} (θ_{0}) = 0$
所以最终近似为： $D_{K L} (θ) \approx \frac{1}{2} (θ - θ_{0})^{T} H (θ - θ_{0})$

其中 H 是 KL 散度对策略参数 $θ$ 的黑赛矩阵（Hessian）：

$[DK L (π θ 0 (\cdot ∣ s) ∥ π θ (\cdot ∣ s))] H = \nabla_{θ}^{2} E_{s \sim π_{θ_{0}}} [D_{K L} (π_{θ_{0}} (\cdot ∣ s) ∥ π_{θ} (\cdot ∣ s))]$

这个 $D_{K L}$ 散度是看旧的分布和当前的分布的散度，以旧的分布作为基准，当前的分布是变量，所以在 $θ_{0}$ 处，对应的分布就是旧的分布，两个分布一样，所以散度是 0，并且这个函数在 $θ_{0}$ 处最小为 0，一阶导数也是 0，这样 $D_{K L}$ 可以近似成剩下的余项

四、为什么这样做？

这一步关键是：
👉 把 难解的 KL 散度约束 变成了一个 关于参数差值 $(θ - θ_{0})$ 的 二次形式约束，就可以用 共轭梯度法 来近似解。

黑塞矩阵表明了周围的弯曲程度，我们希望通过它能让智能体指导，当学习的方向|当前更新方向的曲率很大的时候需要谨慎|减少更新步长，当周围很平的时候，可以增大学习的更新步长

但是起始只需要当前梯度更新的方向上的曲率就可以，我们可以从这个角度简化计算

首先原本的黑赛矩阵需要进行二阶求导，这个复杂度是 $O (n^{2})$ 当网络的参数比较多的时候，计算量非常大，我们需要减少计算量这里我们从两个角度来看待这个问题，一个看最优的方向，一个只看当前方向 最优方向

H x = g

可以求解上式的 x 得到最大或者最小曲率的方向，其中 x 代表的是一个方向向量，当我们有一个确定的方向的时候， $H x$ 就是这个方向上的曲率 (这里是反应当前方向陡峭程度，可能不是真实的曲率数值)

当前方向 当我们有了方向，方向记作 $v$ ，在共轭梯度计算中初始的 $v$ 是目标函数的梯度

v^{(0)} = r^{(0)} = b - H x^{(0)}

$b = g$ 是目标函数的梯度
$x^{(0)}$ 初始是 0，所以初始 $v$ 是 $b$ ， $b$ 是当前更新方向的梯度
后续迭代是在上一次基础上迭代

我们要做的是设定初始方向作为当前方向，通过迭代来调整方向，找到周围更平稳的方向，让模型的参数向着更平稳的方向优化。迭代次数通常少于数据的维度

为了保证学习的高效性，避免不同的学习相互影响，使用共轭梯度法保证学习不会倒退。共轭梯度法是说梯度更新的方向需要和其他向量空间维度垂直，即内积为 0。这样更新这个方向上的梯度不会影响到其他维度的梯度，如何保证呢？

共轭梯度算法通过迭代更新搜索方向 $p_{k}$ 来保证：

$p_{k + 1} = r_{k + 1} + β_{k} p_{k}$ 其中：

$r_{k} = g - H x_{k}$ 是第 k 次迭代的残差（相当于梯度）
$β_{k}$ 的选取保证了新方向和之前方向共轭

具体 $β_{k}$ 通常选为：

$β_{k} = \frac{r _{k + 1}^{T} r _{k + 1}}{r _{k}^{T} r _{k}}$

五、为什么这个更新保证共轭？

残差 $r_{k}$ 是梯度的负方向（误差）
新方向 $p_{k + 1}$ 是当前残差加上之前方向的线性组合
这种线性组合调整了方向，使得 $p_{k + 1}$ 对之前的方向 $p_{k}$ 满足 H-共轭条件

具体步骤：

初始化

$x_{0} = 0$ （或其他初值）
残差 $r_{0} = g - H x_{0} = g$
搜索方向 $p_{0} = r_{0}$

迭代更新

对于第 k 次迭代：

计算步长： $α_{k} = \frac{r _{k}^{T} r _{k}}{p _{k}^{T} H p _{k}}$
更新估计： $x_{k + 1} = x_{k} + α_{k} p_{k}$
更新残差： $r_{k + 1} = r_{k} - α_{k} H p_{k}$
计算 $β$ ： $β_{k} = \frac{r _{k + 1}^{T} r _{k + 1}}{r _{k}^{T} r _{k}}$
更新搜索方向： $p_{k + 1} = r_{k + 1} + β_{k}$

停止条件

残差足够小，或者达到最大迭代次数。

五、策略目标

TRPO 优化目标

六、线性搜索

搜索的是步长，共轭梯度得到的优化方向的步长

搜索有一个步长上限

人杰地灵东箭南金

探索

010-1补充-TROP近似求解

一、背景回顾（轻量）

二、为什么需要近似？

三、KL 散度的二阶近似：Hessian 的出现

四、为什么这样做？

五、为什么这个更新保证共轭？

五、策略目标

六、线性搜索

关系图谱

目录

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions

GSD+Superpowers

openpcdet-LION环境配置

人杰地灵东箭南金

探索

010-1补充-TROP近似求解

一、背景回顾（轻量）

二、为什么需要近似？

三、KL 散度的二阶近似：Hessian 的出现

四、为什么这样做？

五、 为什么这个更新保证共轭？

五、策略目标

六、线性搜索

关系图谱

目录

最近更新

3D Lidar-Based Object Conditions in Adverse Weather Conditions

GSD+Superpowers

openpcdet-LION环境配置

五、为什么这个更新保证共轭？