『DL笔记』预训练(pre-training/trained)与微调(fine tuning)

162 阅读 0 评论 107 点赞

我是靠谱客的博主超级眼睛，这篇文章主要介绍『DL笔记』预训练(pre-training/trained)与微调(fine tuning)，现在分享给大家，希望可以做个参考。

预训练（ $p r e - t r a i n i n g / t r a i n e d$ ）和微调（ $f i n e - t u n i n g$ ）这两个词经常在论文中见到，
你需要搭建一个网络模型来完成一个特定的图像分类的任务。首先，你需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当你觉得结果很满意的时候，你就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。这个过程就是 $p r e - t r a i n i n g$ 。
之后，你又接收到一个类似的图像分类的任务。这时候，你可以直接使用之前保存下来的模型的参数来作为这一任务的初始化参数，然后在训练的过程中，依据结果不断进行一些修改。这时候，你使用的就是一个 $p r e - t r a i n e d$ 模型，而过程就是 $f i n e t u n i n g$ 。
所以，预训练就是指预先训练的一个模型或者指预先训练模型的过程；微调就是指将预训练过的模型作用于自己的数据集，并使参数适应自己数据集的过程。

在 $C N N$ 领域中，实际上，很少人自己从头训练一个 $C N N$ 网络。主要原因是自己很小的概率会拥有足够大的数据集，基本是几百或者几千张，不像 $I m a g e N e t$ 有 1200 万张图片这样的规模。拥有的数据集不够大，而又想使用很好的模型的话，很容易会造成过拟合。
所以，一般的操作都是在一个大型的数据集上（ $I m a g e N e t$ ）训练一个模型，然后使用该模型作为类似任务的初始化或者特征提取器。比如 $V G G$ ， $I n c e p t i o n$ 等模型都提供了自己的训练参数，以便人们可以拿来微调。这样既节省了时间和计算资源，又能很快的达到较好的效果。
参考文献： https://www.jianshu.com/p/330ee6e7ceda