深度学习Optimizer优化器小结_盛煌-盛煌娱乐-盛煌全球注册认证站

欢迎浏览我公司网站！！

公司动态

深度学习Optimizer优化器小结

时间: 2024-06-10浏览次数：

深度学习Optimizer优化器总结简介代码优化器算法介绍1.SGD2.Adagrad3.RMSprop3.Adadelta5.Adam6.Adamax7.NAdam8.RAdam9.AdamW*其它小结禁止任何形式的转载!!!目前各类采用梯度下降进行更新权重的优化算法无非就是对下面公式三个红框部分进行不断改进。现在深度学习所用的优化器大多可以划分为两大类：torch.optim包

深度学习Optimizer优化器总结

禁止任何形式的转载!!!

目前各类采用梯度下降进行更新权重的优化算法无非就是对下面公式三个红框部分进行不断改进。
在这里插入图片描述

现在深度学习所用的优化器大多可以划分为两大类：
在这里插入图片描述

torch.optim包里实现了实现各种常用的优化算法，使用时先建立优化器对象
optimizer = torch.optim.SGD(model.parameters(), lr=0.01, momentum=0.9)，当想要指定每层学习速率时：

使用示例：

带动量的随机梯度下降SGDM是最常用的方法

参数含义：假设g为梯度，p为参数
momentum动量：即μ （默认0 常用0.9）
weight_decay权重衰减：L2正则化
在这里插入图片描述
dampening抑制因子：是乘到g上的一个数，(1-dampening)*g_t+1
nesterov:牛顿动量法是Momentum的进一步变形，Momentum动量是在原位置计算梯度之后更新，Nesterov牛顿动量是先将动量加上在新位置计算梯度后进行修正更新。(即NAG)
在这里插入图片描述
momentum首先计算一个梯度(短的蓝色向量)，然后在加速更新梯度的方向进行一个大的跳跃(长的蓝色向量)，nesterov项首先在之前加速的梯度方向进行一个大的跳跃(棕色向量)，计算梯度然后进行校正(绿色梯向量)

SGD的特点：由于积累之前的动量来替代真正的梯度，下降初期时，使用上一次参数更新，下降方向一致，乘上较大的μ能够进行很好的加速。在梯度方向发生改变时，μ能减少更新，抑制振荡，从而加快收敛。

自适应梯度算法是为了自适应调整学习率，给学习率加上了一项分母。

在这里插入图片描述

特点：学习率随着梯度值的累加而变小，起到了学习率减少的作用；中后期由于分母的累积会使得学习率很小，可能使得训练提前结束。（较少使用）

由于Adagrad一直累加之前的所有梯度，使得学习率之后很小，且受全局的梯度影响。RMSprop这里进行了改进，分母虽然是累加但是经过了指数加权移动平均，可以看作只受最近的梯度影响。
在这里插入图片描述

特点：训练初中期，加速效果不错，很快训练，后期，梯度小学习率变大，可能会反复在局部最小值附近抖动，也可能跳出局部最小值找到更好的解。

AdaDelta算法也像RMSProp算法一样

在这里插入图片描述

与RMSProp算法不同的是，AdaDelta算法还维护一个额外的状态变量Δx
在这里插入图片描述

AdaDelta算法没有学习率超参数，它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

Adam是RMSProp的动量版，原来的梯度变成带动量的梯度，此外还为了消除刚开始没有梯度累计时的偏差，除了一项随时间变大的式子。
在这里插入图片描述

由表达式可以看出，对更新的步长计算，能够从梯度均值及梯度平方两个角度进行自适应地调节，而不是直接由当前梯度决定。β₂=0.999意味着分母会综合1000步的梯度平方。缺点：当训练到后期的时候，梯度通常都是很小的，少量有用的大梯度会被大量无用的梯度淹没
在这里插入图片描述

所以有人提出了amsgrad：但是这样又会使得分母越来越大，出现早停
在这里插入图片描述

在这里插入图片描述

此外，有人在使用Adam的时候将lr打印出来发现后期学习率会比较极端，量级相差较大。
在这里插入图片描述
有人就进行了Clip，但是感觉完全是凭经验设计的，一点也不adaptive

Adamax是Adam的一种变体，此方法对分母部分进行了改进，Adam单个权重的更新规则是将其梯度与当前和过去梯度的L2范数成反比例缩放，这里泛化到基于Lp范数的更新规则，虽然p的值较大会使得数值上变得不稳定，但令p趋于无穷会得出一个稳定和简单的算法。经过推导，分母的更新变成了max（），增加了一个学习率上限的概念，与原来的g_t²不同。与AMSgrad有一定相似之处。
在这里插入图片描述