概述
参考
DNN
参考1
有很多隐藏层的神经网络
向前传播 WX+b
向后传播
交叉熵:概率分布之间的差异
二分类:−[????????????????+(1−????)????????(1−????)]
- 交叉熵损失函数和Sigmoid激活函数
- 对数似然损失函数和softmax激活函数(归一化指数函数)分类问题
在反向传播的算法过程中,由于矩阵求导的链式法则,有一大串连乘,如果连乘的数字在每层都是小于1的,则梯度越往前乘越小,导致梯度消失,而如果连乘的数字在每层都是大于1的,则梯度越往前乘越大,导致梯度爆炸。 - 梯度消失:Relu激活函数
- 梯度爆炸:权重正则化(weithts regularization),常见的是 [公式] 正则,和 [公式] 正则
- Batch Norm,每层激活函数之前,均值和方差归一化,对于每一批次数据并且还做放大缩小,平移,为了梯度下降的收敛速度更快,相当于把数据都拉到中间的位置了,有这个就不需要Dropout,Relu等等。BN使得每层输出信号满足均值为0,方差为1的分布,而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入,从而保证整个网络的稳定性。简而言之,BN包括两点:归一化+缩放平移
- ResNet 解决网络退化degradation problem,因为训练难度过多的数据集,优化变得更难,所以神经网络越深,可能loss变大(过拟合loss还是会下降),解决梯度消失。
泛化问题
L1&L2正则化
bagging集成算法N个DNN模型的????,????参数组合,最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。N取5-10个
Dropout是在用前向传播算法和反向传播算法训练DNN模型时,一批数据迭代时,随机的从全连接DNN网络中去掉一部分隐藏层的神经元。由于dropout会将原始数据分批迭代,因此原始数据集最好较大,否则模型可能会欠拟合。
增强数据集正则化
Noise Robustness, Adversarial Training,Early Stopping
CNN
输入层 卷积层(convolutional layer)卷积层的激活函数使用的是ReLU,和池化层(pooling layer没有激活函数。卷积层+池化层的组合可以在隐藏层出现很多次,最常见的CNN都是若干卷积层+池化层的组合。然后就是是全连接层(Fully Connected Layer, 简称FC),全连接层其实就是我们前面讲的DNN结构,只是输出层使用了Softmax激活函数来做图像识别的分类。
卷积层:演示
池化层:最大值
输入:1个图片样本,CNN模型的层数L和所有隐藏层的类型,对于卷积层,要定义卷积核的大小K,卷积核子矩阵的维度F,填充大小P,步幅S。对于池化层,要定义池化区域大小k和池化标准(MAX或Average),对于全连接层,要定义全连接层的激活函数(输出层除外)和各层的神经元个数。
反向传播算法
输入:m个图片样本,CNN模型的层数L和所有隐藏层的类型,对于卷积层,要定义卷积核的大小K,卷积核子矩阵的维度F,填充大小P,步幅S。对于池化层,要定义池化区域大小k和池化标准(MAX或Average),对于全连接层,要定义全连接层的激活函数(输出层除外)和各层的神经元个数。梯度迭代参数迭代步长α,最大迭代次数MAX与停止迭代阈值????
RNN
输出和模型间有反馈的循环神经网络,它广泛的用于自然语言处理中的语音识别,手写书别以及机器翻译等领域。
LSTM
时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
RNN的特例LSTM(Long Short-Term Memory),它可以避免常规RNN的梯度消失,LSTM区别于RNN的地方,主要就在于它在算法中加入了一个判断信息有用与否的“处理器”,这个处理器作用的结构被称为cell。
门看:链接
最后
以上就是迅速服饰为你收集整理的2021.04.09三个神经网络的全部内容,希望文章能够帮你解决2021.04.09三个神经网络所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
发表评论 取消回复