卷积网络优化

CNN中卷积的空间平移不变性限制了将其应用到分割问题上的准确率。

一个通用的办法是引入条件随机场(Conditional Random Fielf, CRF)作为其后处理模块。CRF促成了底层图像信息(如像素间的位置关系)与像素邻域的标签信息相结合。这种结合对于捕捉长期依赖性尤其重要,这也是关注局部细节的CNN所未能考虑到的。DeepLab, CRFasRNN模型等使用CRF模型作为独立的后处理步骤,以此对分割结果进行调优。

扩张卷积又称Atrous卷积,它可以指数级地扩大感受野而不丢失分辨率。扩张卷积可以在任意分辨率图片上高效地提取密集特征。DeepLab-V3等模型将越来越大的各种扩张率结合,使模型具有更大的感受野,不增加额外的消耗,同时也不会过度地对特征映射进行下采样。

不同的架构会对同一个输入图像产生较大差异的输出,这意味着滤波器会潜在地检测特定尺度的特征。另外,网络的参数(例如卷积核的大小)一般与要解决的问题息息相关,也使模型向不同尺度扩展变得困难。一种可行的解决方案就是使用多尺度网络,将多个不同尺度的图像整合产生单一的输出,例如RefineNet。

深度卷积神经网络的三个核心要素包括架构、正则化技术和优化算法。正则化技术主要是为了减轻深度网络的过拟合,提高泛化能力。

信息瓶颈理论认为深度学习任务可以分为两个阶段,第一阶段是“拟合”学习,第二阶段是“压缩”泛化。实验证明,深度卷积神经网络在压缩阶段确实能够在测试集上取得更好的效果,这为压缩阶段的泛化作用提供了依据。这种从整体结构上解释深度卷积神经网络原理的观点很新颖,但是只能提供一个整体参考标准,无法给出设计网络结构的细节。

自适应优化方法

  • 随机梯度下降SGD
  • 基于动量的Momentum
  • AdaGrad
  • RMSProp
  • Adam

收敛效果:Adam>Momentum>Adagrad>RMSProp

卷积网络基本原理

全连接将像素格点看成神经元,而卷积将每张特征图看成神经元

BN正则化

  • 减少了内部神经元分布的改变,使不同样本间值域的差异性降低,让大部分的数据都处在非线性函数的非饱和区域,从而保证了梯度能够很好的回传,避免了梯度消失和梯度爆炸;
  • 通过减少梯度对参数或其初始值尺度的依赖性,使得我们可以使用较大的学习速率对网络进行训练,从而加速网络的收敛.
  • 可以看作是一种正则化手段,迫使后面的神经元不过分依赖前面的神经元,提高了网络的泛化能力,使得我们可以减少甚至取消Dropout,优化网络结构。实验证明使用BN后再加入Dropout 似乎无法改善准确率。

基于数据筛查的优化方法

基于梯度量级的优化方法:有些数据集会有重复,例如有些批次训练后梯度更新小,有些大,训练时按照梯度大的在前,依次训练,准确率会高,也说明数据集存在冗余。

基于主动增量式的优化方法

大概就是动态新数据,第一,类似迁移学习,固定前面网络参数,后几层精调,第二,对现有模型主动筛选,但过程比较复杂。

基于网络结构的优化方法

一,根据不同数据,设计不同网络(本文方式)

二,选定网络,添加正则化或删除模块增加鲁棒性

多路径优化方案

主要是Resnet

多尺度优化方案

最终损失函数只出现在最后一层,这会导致不同层的学习速率不一样。设计多个损失函数在不同层进行评估或许可以给深度网络带来不一样的训练效果,这样就自然就引入了多尺度损失函数的概念,而且通过组合系数可以很好控制单尺度和多尺度之间的关联。

多损失函数网络修改

Dean0731

海纳百川,有容乃大,壁立千仞,无欲则刚

相关推荐

发表评论