残差网络ResNet网络原理及实现

简介深度学习之16——残差网络(ResNet)  https://zhuanlan.zhihu.com/p/72679537 残差网络ResNet网络原理及实现 https://www.jianshu.com/p/ebc3e242147e 恒等映射、残差学习单元 网络的深度为什么重要? 我们知道,在CNN网络中,我们输入的是图片的矩阵,也是最基本的特征,整个CNN网络就是一个信息提取的过程,从底层的特征逐渐抽取到高度抽象的特征,网

深度学习之16——残差网络(ResNet)  https://zhuanlan.zhihu.com/p/72679537

残差网络ResNet网络原理及实现 https://www.jianshu.com/p/ebc3e242147e


恒等映射、残差学习单元


网络的深度为什么重要?

我们知道,在CNN网络中,我们输入的是图片的矩阵,也是最基本的特征,整个CNN网络就是一个信息提取的过程,从底层的特征逐渐抽取到高度抽象的特征,网络的层数越多也就意味这能够提取到的不同级别的抽象特征更加丰富,并且越深的网络提取的特征越抽象,就越具有语义信息。

为什么不能简单的增加网络层数?
对于传统的CNN网络,简单的增加网络的深度,容易导致梯度消失和爆炸。针对梯度消失和爆炸的解决方法一般是正则初始化(normalized initialization)和中间的正则化层(intermediate normalization layers),但是这会导致另一个问题,退化问题,随着网络层数的增加,在训练集上的准确率却饱和甚至下降了。这个和过拟合不一样,因为过拟合在训练集上的表现会更加出色。

在我参考的博客中,作者针对“退化问题”做了实验并得出如下结论:

按照常理更深层的网络结构的解空间是包括浅层的网络结构的解空间的,也就是说深层的网络结构能够得到更优的解,性能会比浅层网络更佳。但是实际上并非如此,深层网络无论从训练误差或是测试误差来看,都有可能比浅层误差更差,这也证明了并非是由于过拟合的原因。导致这个原因可能是因为随机梯度下降的策略,往往解到的并不是全局最优解,而是局部最优解,由于深层网络的结构更加复杂,所以梯度下降算法得到局部最优解的可能性就会更大。


新加评论 评论标题: