比较Adam 和Adamw_盛煌-盛煌娱乐-盛煌全球注册认证站

行业资讯

比较Adam 和Adamw

时间: 2024-05-20浏览次数：

引用自：AdamW是在Adam+L2正则化的基础上进行改进的算法。使用Adam优化带L2正则的损失并不有效。如果引入L2正则项，在计算梯度的时候会加上对正则项求梯度的结果。那么如果本身比较大的一些权重对应的梯度也会比较大，由于Adam计算步骤中减去项会有除以梯度平方的累积，使得减去项偏小。按常理说，越大的权重应该惩罚越大，但是在Adam并不是这样。而权重衰减

引用自： https://www.lizenghai.com/archives/64931.html

AdamW是在Adam+L2正则化的基础上进行改进的算法。
使用Adam优化带L2正则的损失并不有效。如果引入L2正则项，在计算梯度的时候会加上对正则项求梯度的结果。

那么如果本身比较大的一些权重对应的梯度也会比较大，由于Adam计算步骤中减去项会有除以梯度平方的累积，使得减去项偏小。按常理说，越大的权重应该惩罚越大，但是在Adam并不是这样。

而权重衰减对所有的权重都是采用相同的系数进行更新，越大的权重显然惩罚越大。

在常见的深度学习库中只提供了L2正则，并没有提供权重衰减的实现。

Adam+L2 VS AdamW

图片中红色是传统的Adam+L2 regularization的方式，绿色是Adam+weightdecay的方式。可以看出两个方法的区别仅在于“系数乘以上一步参数值“这一项的位置。

再结合代码来看一下AdamW的具体实现。

以下代码来自https://github.com/macanv/BERT-BiLSTM-CRF-NER/blob/master/bert_base/bert/optimization.py中的AdamWeightDecayOptimizer中的apply_gradients函数中，BERT中的优化器就是使用这个方法。

在代码中也做了一些注释用于对应之前给出的Adam简化版公式，方便理解。可以看出update +=self.weight_decay_rate * param这一句是Adam中没有的，也就是Adam中绿色的部分对应的代码，weightdecay这一步是是发生在Adam中需要被更新的参数update计算之后，并且在乘以学习率learning_rate之前，这和图片中的伪代码的计算顺序是完全一致的。总之一句话，如果使用了weightdecay就不必再使用L2正则化了。

原有的英文注释中也解释了Adam和传统Adam+L2正则化的差异，好了到这里应该能理解Adam了，并且也能理解AdamW在Adam上的改进了。

上一篇：网上说的引流推广是违法的吗(直播平台引流推广犯法吗)

下一篇：优化消费政策精准服务新市民