【自学】深度学习入门基于python的理论与实现 LESSON11 ＜与学习相关的技巧2 权重的初始值与Batch Normalization＞前言一、激活层的激活值分布二、ReLU的权重初始值三、Batch Normalization四、正则化总结

174 阅读 0 评论 115 点赞

我是靠谱客的博主重要大山，这篇文章主要介绍【自学】深度学习入门基于python的理论与实现 LESSON11 ＜与学习相关的技巧2 权重的初始值与Batch Normalization＞前言一、激活层的激活值分布二、ReLU的权重初始值三、Batch Normalization四、正则化总结，现在分享给大家，希望可以做个参考。

前言

一、激活层的激活值分布

二、ReLU的权重初始值

三、Batch Normalization

四、正则化

1. 权值衰减

2. Dropout

总结

前言

设置什么样的初始值关系到神经网络学习能否成功。上一节说到权重初始值不能设为0

【自学】深度学习入门基于python的理论与实现 LESSON10 ＜与学习相关的技巧1——权重参数优化方法＞_Rachel MuZy的博客-CSDN博客深度学习入门基于python的理论与实现 LESSON10 ＜与学习相关的技巧1——权重参数优化方法＞https://blog.csdn.net/mzy20010420/article/details/126729210

一、激活层的激活值分布

激活层的激活值指的是激活函数的输出数据。权重初始值会影响激活值。

示例：

import numpy as np
import matplotlib.pyplot as plt


def sigmoid(x):
    return 1 / (1 + np.exp(-x))


def ReLU(x):
    return np.maximum(0, x)


def tanh(x):
    return np.tanh(x)
    
input_data = np.random.randn(1000, 100)  # 1000个数据
node_num = 100  # 各隐藏层的节点（神经元）数
hidden_layer_size = 5  # 隐藏层有5层
activations = {}  # 激活值的结果保存在这里

x = input_data

for i in range(hidden_layer_size):
    if i != 0:
        x = activations[i-1]  
        #当i=0时，activations是空的，所以不执行该语句
        #当i=1时，activations有上一轮输出的z，此时让x=上一轮的z

    # 改变初始值进行实验！
    w = np.random.randn(node_num, node_num) * 1
    # w = np.random.randn(node_num, node_num) * 0.01
    # w = np.random.randn(node_num, node_num) * np.sqrt(1.0 / node_num)
    # w = np.random.randn(node_num, node_num) * np.sqrt(2.0 / node_num)


    a = np.dot(x, w)


    # 将激活函数的种类也改变，来进行实验！
    z = sigmoid(a)
    # z = ReLU(a)
    # z = tanh(a)

    activations[i] = z

# 绘制直方图
for i, a in activations.items():
    plt.subplot(1, len(activations), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    # plt.xlim(0.1, 1)
    # plt.ylim(0, 7000)
    plt.hist(a.flatten(), 30, range=(0,1))
plt.show()

结果：

分析：

（1）神经网络有5层，每层有100个神经元。用高斯分布生成1000个数据作为输入数据，并将他们传给5层神经网络。

具体高斯分布如何生成数据见往期文章：

【知识点】np.random.randn()_Rachel MuZy的博客-CSDN博客【知识点】np.random.randn()的应用https://blog.csdn.net/mzy20010420/article/details/126820187（2）为了使各层的激活值呈现出具有相同广度的分布，一般使用如下初始值：