2021.04.09三个神经网络

66 阅读 0 评论 44 点赞

我是靠谱客的博主迅速服饰，这篇文章主要介绍2021.04.09三个神经网络，现在分享给大家，希望可以做个参考。

参考

DNN

参考1
有很多隐藏层的神经网络
向前传播 WX+b
向后传播
交叉熵：概率分布之间的差异
二分类：−[????????????????+(1−????)????????(1−????)]

交叉熵损失函数和Sigmoid激活函数
对数似然损失函数和softmax激活函数（归一化指数函数）分类问题
在反向传播的算法过程中，由于矩阵求导的链式法则，有一大串连乘，如果连乘的数字在每层都是小于1的，则梯度越往前乘越小，导致梯度消失，而如果连乘的数字在每层都是大于1的，则梯度越往前乘越大，导致梯度爆炸。
梯度消失：Relu激活函数
梯度爆炸：权重正则化（weithts regularization），常见的是 [公式] 正则，和 [公式] 正则
Batch Norm，每层激活函数之前，均值和方差归一化，对于每一批次数据并且还做放大缩小，平移，为了梯度下降的收敛速度更快，相当于把数据都拉到中间的位置了，有这个就不需要Dropout，Relu等等。BN使得每层输出信号满足均值为0，方差为1的分布，而最后的“scale and shift”操作则是为了让因训练所需而“刻意”加入的BN能够有可能还原最初的输入，从而保证整个网络的稳定性。简而言之，BN包括两点：归一化+缩放平移
ResNet 解决网络退化degradation problem，因为训练难度过多的数据集，优化变得更难，所以神经网络越深，可能loss变大（过拟合loss还是会下降），解决梯度消失。

泛化问题

L1&L2正则化
bagging集成算法N个DNN模型的????,????参数组合，最后对N个DNN模型的输出用加权平均法或者投票法决定最终输出。N取5-10个
Dropout是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。
增强数据集正则化
Noise Robustness， Adversarial Training，Early Stopping

CNN

输入层卷积层(convolutional layer)卷积层的激活函数使用的是ReLU，和池化层(pooling layer没有激活函数。卷积层+池化层的组合可以在隐藏层出现很多次，最常见的CNN都是若干卷积层+池化层的组合。然后就是是全连接层（Fully Connected Layer, 简称FC），全连接层其实就是我们前面讲的DNN结构，只是输出层使用了Softmax激活函数来做图像识别的分类。
卷积层：演示
池化层：最大值
输入：1个图片样本，CNN模型的层数L和所有隐藏层的类型，对于卷积层，要定义卷积核的大小K，卷积核子矩阵的维度F，填充大小P，步幅S。对于池化层，要定义池化区域大小k和池化标准（MAX或Average），对于全连接层，要定义全连接层的激活函数（输出层除外）和各层的神经元个数。
反向传播算法
输入：m个图片样本，CNN模型的层数L和所有隐藏层的类型，对于卷积层，要定义卷积核的大小K，卷积核子矩阵的维度F，填充大小P，步幅S。对于池化层，要定义池化区域大小k和池化标准（MAX或Average），对于全连接层，要定义全连接层的激活函数（输出层除外）和各层的神经元个数。梯度迭代参数迭代步长α,最大迭代次数MAX与停止迭代阈值????

RNN

输出和模型间有反馈的循环神经网络，它广泛的用于自然语言处理中的语音识别，手写书别以及机器翻译等领域。

LSTM

时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
RNN的特例LSTM（Long Short-Term Memory），它可以避免常规RNN的梯度消失，LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。
门看：链接