【翻译】Sklearn 与 TensorFlow 机器学习实用指南 —— 第11章训练深层神经网络（下）

340 阅读 0 评论 225 点赞

我是靠谱客的博主活泼萝莉，这篇文章主要介绍【翻译】Sklearn 与 TensorFlow 机器学习实用指南 —— 第11章训练深层神经网络（下），现在分享给大家，希望可以做个参考。

训练稀疏模型

所有刚刚提出的优化算法都会产生密集的模型，这意味着大多数参数都是非零的。如果你在运行时需要一个非常快速的模型，或者如果你需要它占用较少的内存，你可能更喜欢用一个稀疏模型来代替。

实现这一点的一个微不足道的方法是像平常一样训练模型，然后摆脱微小的权重（将它们设置为 0）。

另一个选择是在训练过程中应用强 l1 正则化，因为它会推动优化器尽可能多地消除权重（如第 4 章关于 Lasso 回归的讨论）。

但是，在某些情况下，这些技术可能仍然不足。最后一个选择是应用双重平均，通常称为遵循正则化领导者（FTRL），一种由尤里·涅斯捷罗夫（Yurii Nesterov）提出的技术。当与 l1 正则化一起使用时，这种技术通常导致非常稀疏的模型。 TensorFlow 在FTRLOptimizer类中实现称为 FTRL-Proximal 的 FTRL 变体。

学习率调整

找到一个好的学习速度可能会非常棘手。如果设置太高，训练实际上可能偏离（如我们在第 4 章）。如果设置得太低，训练最终会收敛到最佳状态，但这需要很长时间。如果将其设置得太高，开始的进度会非常快，但最终会在最优解周围跳动，永远不会安顿下来（除非您使用自适应学习率优化算法，如 AdaGrad，RMSProp 或 Adam，但是即使这样可能需要时间来解决）。如果您的计算预算有限，那么您可能必须在正确收敛之前中断训练，产生次优解决方案（参见图 11-8）。

>>>阅读全文