推广 热搜: 百度  搜索引擎  企业  可以  使用  选择  page 

Delving Deep into Rectifiers:Surpassing Human-Level Performance on ImageNet Classification

   日期:2024-12-31     作者:zqt6f    caijiyuan  
核心提示:建议移步: https://blog.csdn.net/happynear/article/details/45440811 摘要 整流激活单元(整流器)是最先进的神经网络必

建议移步: https://blog.csdn.net/happynear/article/details/45440811

摘要

整流激活单元(整流器)是最先进的神经网络必不可少的。本文从两个方面研究了用于图像分类的整流神经网络。首先,我们提出了一个参数修正线性单元(PReLU),它概括了传统的整流单元。PReLU改进了模型拟合,几乎没有额外的计算成本和很少的过拟合风险。其次,我们推导了一个鲁棒初始化方法,特别考虑了整流器的非线性。这种方法使我们能够直接从零开始训练非常深入的修正模型,并研究更深或更广的网络体系结构。基于我们的PReLU网络(PReLU-nets),我们实现了4.94% ImageNet 2012分类数据集前5名测试错误。这是26%的改善相对ILSVRC 2014年获奖者(GoogLeNet, 6.66%[29])。据我们所知,我们的结果是第一个超过人类水平的表现(5.1%,[22])在这一视觉识别的挑战。

introduction

卷积神经网络(Convolutional neural network, CNNs)[17,16]在识别交通标志[3]、人脸[30,28]、手写数字[3,31]等多个视觉识别任务中,均表现出优于或可与人类媲美的识别精度。在这项工作中,我们提出了一个超越人类水平的结果在1000 类ImageNet数据集
本文从整流器驱动的两个方面研究了神经网络。首先,我们提出了一个新的泛化ReLU,我们称之为参数校正线性单元(PReLU)。该激活函数自适应地学习整流器的参数,提高了精度,而额外的计算成本可以忽略不计。其次,深入研究了修正模型的训练难点。通过对整流器(ReLU/PReLU)的非线性进行显式建模,我们得到了一种理论上合理的初始化方法,该方法有助于直接从无开始训练的非常深的模型(例如,30个权重层)的收敛。这使我们能够更灵活地探索更强大的网络体系结构。

Approach

整流器滤波器权值的初始化

与传统的类sigmoid激活网络相比,整流器网络更容易训练[8,16,34]。但是一个糟糕的初始化仍然会阻碍高度非线性系统的学习。在本节中,我们提出了一种鲁棒初始化方法,消除了训练极深整流网络的障碍。
近年来,深度神经网络的初始化大多采用高斯分布[16]的随机权值。用固定的标准偏差(如[16]中的0.01),非常深入的模型(如>8 conv层)收敛困难,VGG team[25]报道,我们在实验中也观察到。为了解决这个问题,在[25]中,他们预先训练了一个有8个conv层的模型来初始化更深层次的模型。但这种策略需要更多的训练时间,也可能导致较差的局部最优。在[29,18]中,辅助分类器被添加到中间层以帮助收敛。
Glorot和Bengio[7]提出采用适当比例的均匀分布进行初始化。这就是所谓的“Xavier”初始化在[14]。它的推导是基于激活是线性的假设。这个假设对于ReLU和PReLU是无效的。
在下面的文章中,我们通过考虑ReLU/PReLU,从理论上推导了一个更合理的初始化。在我们的实验中,我们的初始化方法允许非常深的模型(如30个conv/fc层)收敛,而“Xavier”方法[7]不能。

模型

本文地址:http://ww.kub2b.com/tnews/3800.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类生活信息

文章列表
相关文章
最新动态
推荐图文
生活信息
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号