正则化的理解正则化的几种常用方法

63 阅读 0 评论 42 点赞

我是靠谱客的博主开放仙人掌，最近开发中收集的这篇文章主要介绍正则化的理解正则化的几种常用方法，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

正则化的概念及原因

简单来说，正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。我们在构造机器学习模型时，最终目的是让模型在面对新数据的时候，可以有很好的表现。当你用比较复杂的模型比如神经网络，去拟合数据时，很容易出现过拟合现象(训练集表现很好，测试集表现较差)，这会导致模型的泛化能力下降，这时候，我们就需要使用正则化，降低模型的复杂度。

正则化的几种常用方法

数据增强

更大数量的训练集是提升机器学习模型泛化能力最好的方法。做一个不可能的假设，如果你的训练集包含了所有的你需要测试的数据，那么该模型的泛化能力将是100%。在实际项目中，获取训练数据的成本会很高，这时候就需要我们自己来“创造”数据。希望在以后，GAN可以成功的应用到训练集增强领域。
对于一些特定的场景，“创造”数据其实是很简单的，例如图像识别。下面有一张6，我们可以对他采用小幅旋转，平移，放大，缩小甚至给图片加上波动等方法，他的标签实际还是6，但是我们已经多了很多的训练数据。需要注意的是不应做翻转操作，因为6会翻转成9，这会变成一个错误的样本。

6本来的样子

旋转20度

6翻了变成9

dropout

dropout 是一种计算方便但功能强大的正则化方法，适用于最近很火的神经网络。他的基本步骤是在每一次的迭代中，随机删除一部分节点，只训练剩下的节点。每次迭代都会随机删除，每次迭代删除的节点也都不一样，相当于每次迭代训练的都是不一样的网络，通过这样的方式降低节点之间的关联性以及模型的复杂度，从而达到正则化的效果。这点上有点类似 bagging，但是远比 bagging 来的简单。

直观理解：

dropout之前(左)与dropout之后(右)

说dropout简单是因为你只需要设置一个超参数 keep_prob，这个参数的意义是每层节点随机保留的比例，比如将 keep_prob 设置为 0.7，那么就会随机30%的节点消失，消失这个动作其实很简单，只是将这一层的参数矩阵与根据 keep_prob 生成的 {0, 1} 矩阵做 逐点乘积，当然前向传播与反向传播都需要做以上的操作。

dropout的缺点在于，需要将训练集分为不同子集输入每一次的迭代，这就需要较大的训练集，所以在训练集较小的情况下，dropout的效果可能并不好。我们上面也说过，增大数据集是最好的正则化方式，所以在增大数据集的情况下，使用 dropout 需要使用的计算代价可能会比他带来正则化效果更高，这需要我们在实际使用场景中做取舍。