推广 热搜: page  音视频  使用  选择  搜索引擎  百度  企业  可以  个数  父亲 

2. 学习率及学习率下降策略

   日期:2024-12-27     作者:lh7hd    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/13279.html
核心提示:  本文简单整理了一些图像分类训练tricks,后续可能会陆续加以补充。   带momentum(=0.9)的SGD优化器的使用最多,收敛精度


  本文简单整理了一些图像分类训练tricks,后续可能会陆续加以补充。

  带momentum(=0.9)的SGD优化器的使用最多,收敛精度常常更好,但收敛速度慢,初始学习率设置要靠经验设置(参考值0.1)。

  自适应优化器Adam、RMSProp、Adamw等收敛精度稍差,但收敛速度更快更稳定,Adam学习率参考值1e-4.

  AdaBound在某些任务上数据集上,收敛速度可媲美Adam,收敛精度可媲美SGD,调节参数更少。

  SGD一般配合分段衰减策略piecewise_decay,例如初始学习率设为0.1,每30个epoch下降为原来的1/10

  Adam等优化器可搭配余弦衰减策略cosine_decay,因学习率小的epoch较少,故最终模型精度欠佳,所以建议增加训练epoch

2. 学习率及学习率下降策略

  Batchsize增大时,线性增大学习率,可使收敛精度几乎不受影响

warmup 训练初期不宜使用较大的学习率,可采用warmup策略,在batch_size较大时,效果明显。结合cosine_decay,可采用带有warmup的cosine_decay策略。

2. 1 选择合适的学习率

本文地址:http://ww.kub2b.com/news/13279.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号