【Andrew Ng Deep Learning 作业笔记】第四章卷积神经网络第一周课程作业模型收敛缓慢的解决办法

100 阅读 0 评论 66 点赞

我是靠谱客的博主舒适白昼，这篇文章主要介绍【Andrew Ng Deep Learning 作业笔记】第四章卷积神经网络第一周课程作业模型收敛缓慢的解决办法，现在分享给大家，希望可以做个参考。

以Ng给出的代码，模型收敛的速度相当缓慢。初始代价1.90左右，迭代100次后代价在1左右，而Ng给出的结果为0.17，具体原因尚不清楚，但是这里提供了一种加快收敛的方法：
卷积层使用的Activation Function为ReLU函数，Ng之前的作业中提到了一种名为He Initialize的方法，可以适用于ReLU函数的参数初始化（泽维尔初始化适用于Sigmoid函数），在这里使用He Initialize:

复制代码

1
2
3
4

W1 = parameters["W1"] * np.sqrt(2)
W2 = parameters["W2"] * np.sqrt(2 / 196)

由于第1层没有接受ReLU的输出，因此n0（上一层的维度）设置为1。
在这里插入图片描述
参考文献：
[1] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classificatio., Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun