赴秦皇岛第三第四天集合

84 阅读 0 评论 56 点赞

我是靠谱客的博主疯狂诺言，最近开发中收集的这篇文章主要介绍赴秦皇岛第三第四天集合，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

Sigmoid函数常被用作神经网络的阈值函数，将变量映射到0,1之间。
Sigmoid函数由下列公式定义

在这里插入图片描述

其对x的导数可以用自身表示:
在这里插入图片描述
摘要

几个主要的损失函数：MSE均方误差损失函数、SVM合页损失函数、Cross Entropy交叉熵损失函数、目标检测中常用的Smooth L1损失函数。其中还会涉及到梯度消失、梯度爆炸等问题：ESM均方误差+Sigmoid激活函数会导致学习缓慢；Smooth L1损失是为了解决梯度爆炸问题。仅供参考。

均方差损失函数
常用在最小二乘法中。它的思想是使得各个训练点到最优拟合线的距离最小（平方和最小）。以神经网络中激活函数的形式表达一下，定义如下：

在这里插入图片描述
α=a=f(z)=f(w·x+b)：x是输出、w和b是网络的参数。f(·) 是激活函数。

2.2 ESM均方误差+Sigmoid激活函数：输出层神经元学习率缓慢

2.2.1 Sigmoid激活函数：

在这里插入图片描述

2.2.2 ESM均方误差+Sigmoid激活函数：输出层神经元学习率缓慢
我们以一个神经元，ESM均方误差损失 J=frac{1}{2}(y-a)^{2} ，Sigmoid激活函数 a=sigma (z) (其中 z=wx+b )为例，计算一下最后一层的反向传播过程，可得：
在这里插入图片描述
当神经元输出接近1时候，Sigmoid的导数 [公式] 变很小，这样很小，这就导致了MSE均方误差+Sigmoid激活函数使得神经网络反向传播的起始位置也就是说输出层神经元学习率缓慢。
想要解决这个问题，需要引入接下来介绍的交叉熵损失函数。交叉熵损失+Sigmoid激活函数可以解决输出层神经元学习率缓慢的问题，但是不能解决隐藏层神经元学习率缓慢的问题。
具体推导如下
交叉熵损失(Cross Entropy，CE)

多用于分类的损失函数。

***1、***交叉熵损失定义：

交叉熵损失的计算分为两个部分。

**（1）**softmax多分类器：

交叉熵损失是基于softmax计算来的，softmax将网络最后输出z通过指数转变成概率形式。首先看一下softmax计算公式：

在这里插入图片描述
其中，分子[公式] 是要计算的类别 [公式] 的网络输出的指数；分母是所有类别网络输出的指数和，共k个类别。这样就得到了类别i的输出概率 [公式] 。

→这里说点题外话，实际上，softmax是由逻辑斯的回归模型（用于二分类）推广得到的多项逻辑斯蒂回归模型（用于多分类）。具体可以参考李航大神的《统计学方法》第六章，这里给一个大致的过程。
在这里插入图片描述
（2）交叉熵损失：

公式定义如下： [公式]

在这里插入图片描述
其中， [公式] 是类别 [公式] 的真实标签；[公式]是上面softmax计算出的类别 [公式] 的概率值；k是类别数，N是样本总数。

→这里看一个计算交叉熵损失的小例子：

假设共有三个类别cat、dog、bird，那么一张cat的图片标签应该为 [公式] 。并且训练过程中，这张cat的图片经过网络后得到三个类别网络的输出分别为3、1、-3。那么经过softmax可以得到对应的概率值，
3、交叉熵损失+Sigmoid激活函数：

（1）推导：

接着上一部分留下的问题，我们仍然以Sigmoid激活函数 [公式] (其中 [公式] )为例。这次我们引入交叉熵损失，并以二分类为例，那么s损失函数公式为：
在这里插入图片描述

在这里插入图片描述
那么可以计算一下最后一层的反向传播过程，可得

根据之前的推导已知
[公式] ，那么上式可以化简为：

可以看到sigmoid的导数被约掉，这样最后一层的梯度中就没有[公式]。然而这只是输出层的推导，如果变成隐藏层的梯度sigmoid的导数不会被约掉，仍然存在[公式]。所以交叉熵损失+Sigmoid激活函数可以解决输出层神经元学习率缓慢的问题，但是不能解决隐藏层神经元学习率缓慢的问题。