Softmax函数及其导数

78 阅读 0 评论 52 点赞

我是靠谱客的博主勤劳小霸王，这篇文章主要介绍Softmax函数及其导数，现在分享给大家，希望可以做个参考。

Softmax函数及其导数

本文翻译自The Softmax function and its derivative

基础概念

Softmax函数的输入是N维的随机真值向量，输出是另一个N维的真值向量，
且值的范围是 (0,1) ，和为1.0。即映射： S(a)=RN→RN ：

S (a) : ⎡ ⎣ ⎢ ⎢ ⎢ a 1 a 2 . . . a N ⎤ ⎦ ⎥ ⎥ ⎥ \to ⎡ ⎣ ⎢ ⎢ ⎢ S 1 S 2 . . . S N ⎤ ⎦ ⎥ ⎥ ⎥

其中每一个元素的公式为：

S j = e a j \sum N k = 1 e a k \forall j \in 1... N

显然 Sj 总是正的~(因为指数)；因为所有的 Sj 的和为1，所以有 Sj<1 ，因此它的范围是 (0,1) 。例如，一个含有三个元素的向量 [1.0,2.0,3.0] 被转化为 [0.09,0.24,0.67] 。
转化后的元素与原始的对应的元素位置上保持一致，且和为1。我们将原始的向量拉伸为 [1.0,2.0,5.0] ，得到变换后的 [0.02,0.05,0.93] ，同样具有前面的性质。注意此时因为最后一个元素(5.0)距离前面两个元素(1.0和2.0)较远，因此它的输出的softmax值占据了和1.0的大部分(0.93)。softmax并不是只选择一个最大元素，而是将向量分解为整个(1.0)的几部分，最大的输入元素得到一个比例较大的部分，但其他元素各自也获得对应的部分。

概率解释

softmax的性质(所有输出的值范围是 (0,1) 且和为1.0)使其在机器学习的概率解释中广泛使用。尤其是在多类别分类任务中，我们总是给输出结果对应的类别附上一个概率，即如果我们的输出类别有N种，我们就输出一个N维的概率向量且和为1.0。每一维的值对应一种类别的概率。我们可以将softmax解释如下：

S j = P (y = j | a)

其中，

y 是输出的N个类别中的某个(取值为

1...N)。

a 是任意一个N维向量。最常见的例子是多类别的逻辑斯谛回归，输入的向量

x乘以一个权重矩阵W，且该结果输入softmax函数以产生概率。我们在后面会探讨这个结构。事实证明，从概率的角度来看，softmax对于模型参数的最大似然估计是最优的。不过，这超出了本文的范围。有关更多详细信息，请参阅“深度学习”一书的第5章(链接：www.deeplearningbook.org)。

向量计算的准备

在深入理解计算softmax的导数之前，我们先了解向量计算的一些基础知识。
Softmax从根本上来说是一种向量函数。它将向量作为输入并输出另一个向量。换言之，它有多个输入和输出，因此我们不能直接就尝试求”softmax的导数”，我们首先要明确：

我们想要计算softmax的哪个组成成分(输出的某元素)的导数。
由于softmax具有多个输入，所以要计算关于哪个输入元素的偏导数。

听起来好像很复杂，但这正是为什么定义向量计算的原因。我们正在寻找的偏导数是：

\partial S i \partial a j

这是第

i 个输出关于第

j个输入的偏导数。我们使用一个更简洁的式子来表示：

DjSi 。

因为softmax函数是一个 RN→RN 的函数，所以我们计算得到的导数是一个雅可比矩阵：

D S = ⎡ ⎣ ⎢ ⎢ D 1 S 1 ⋮ D 1 S N \dots ⋱ \dots D N S 1 ⋮ D N S N ⎤ ⎦ ⎥ ⎥

在机器学习的文献中，常常用术语梯度来表示通常所说的导数。严格来说，梯度只是为标量函数来定义的，例如机器学习中的损失函数；对于像softmax这样的向量函数，说是“梯度”是不准确的；雅可比是一个向量函数的全部的导数，大多数情况下我们会说“导数”。

softmax的导数

对任意的 i 和j，让我们来计算 DjSi ：

D j S i = \partial S i \partial a j = \partial e a i \sum N k = 1 e a k \partial a j

我们将使用链式法则来计算导数，即对于 f(x)=g(x)h(x) ：

f' (x) = g ' ( x ) h ( x ) - h ' ( x ) g ( x ) [ h ( x ) ] 2

在我们的情况下，有：

g i = e a i h i = \sum k = 1 N e a k

注意对于 hi ，无论求其关于哪个 aj 的导数，结果都是 eaj ，但是对于 gi 就不同了。
gi 关于 aj 的导数是 eaj 当且仅当 i=j ；否则结果为0。

让我们回到 DjSi ；我们先考虑 i=j 的情况。根据链式法则我们有：

\partial e a i \sum N k = 1 e a k \partial a j = e a i \sum - e a j e a i \sum 2

简单起见，我们使用

∑ 表示

∑Nk=1eak 。继续化简下：

\partial e a i \sum N k = 1 e a k \partial a j = e a i \sum - e a j e a i \sum 2 = e a i \sum \sum - e a j \sum = S i (1 - S j)

最后的公式使用其自身来表示

(Si 和

Sj) ，这在包含指数函数时是一个常用的技巧。

类似的，考虑 i≠j 的情况：

\partial e a i \sum N k = 1 e a k \partial a j = 0 - e a j e a i \sum 2 = - e a j \sum e a i \sum = - S j S i

总结如下：

D j S i = {S i (1 - S j) - S j S i i = j i \neq j

在文献中我们常常会见到各种各样的”浓缩的”公式，一个常见的例子是使用克罗内克函数：

δ i j = {10 i = j i \neq j

于是我们有：

D j S i = S i (δ i j - S j)

在文献中也有一些其它的表述：

在雅可比矩阵中使用单位矩阵 I 来替换δ， I 使用元素的矩阵形式表示了δ。
使用”1”作为函数名而不是克罗内克 δ ，如下所示： DjSi=Si(1(i=j)−Sj) 。这里1(i=j)意味着当 i=j 时值为1，否则为0。

当我们想要计算依赖于softmax导数的更复杂的导数时，“浓缩”符号会很有用; 否则我们必须在任何地方完整的写出公式。

计算softmax和数值稳定性

对于一个给定的向量，使用Python来计算softmax的简单方法是：

复制代码

1
2
3
4
def softmax(x):
"""Compute the softmax of vector x."""
exps = np.exp(x)
return exps / np.sum(exps)

使用前面定义的softmax函数计算一个三维的向量：

复制代码

1
2
3
4
In [146]: softmax([1, 2, 3])
Out[146]: array([ 0.09003057, 0.24472847,
0.66524096])

然而当我们使用该函数计算较大的值时(或者大的负数时)，会出现一个问题：

复制代码

1
2
3
4
In [148]: softmax([1000, 2000, 3000])
Out[148]: array([ nan,
nan,
nan])

Numpy使用的浮点数的数值范围是有限的。对于float64，最大可表示数字的大小为 10308 。
softmax函数中的求幂运算可以轻松超过这个数字，即使是相当适中的输入。避免这个问题的一个好方法是通过规范输入使其不要太大或者太小，通过观察我们可以使用任意的常量C，如下所示：

S j = e a j \sum N k = 1 e a k = C e a j \sum N k = 1 C e a k

然后将这个变量转换到指数上：

S j = e a j + l o g ( C ) \sum N k = 1 e a k + l o g ( C )

因为C是一个随机的常量，所以我们可以写为：

S j = e a j + D \sum N k = 1 e a k + D

D也是一个任意常量。对任意D，这个公式等价于前面的式子，这让我们能够更好的进行计算。对于D，一个比较好的选择是所有输入的最大值的负数：

D = - m a x (a 1, a 2, . . ., a n)

假定输入本身彼此相差不大，这会使输入转换到接近于0的范围。最重要的是，它将所有的输入转换为负数(除最大值外，最大值变为0)。很大的负指数结果会趋于0而不是无穷，这就让我们很好的避免了出现NaN的结果。

复制代码

1
2
3
4
5
6
def stablesoftmax(x):
"""Compute the softmax of vector x in a numerically
stable way."""
shiftx = x - np.max(x)
exps = np.exp(shiftx)
return exps / np.sum(exps)

现在我们有：

复制代码

1
2
3
4
In [150]: stablesoftmax([1000, 2000, 3000])
Out[150]: array([ 0.,
0.,
1.])

请注意，这仍然是不完美的，因为数学上softmax永远不会真的产生零，但这比NaN好得多，且由于输入之间的距离非常大，所以无论如何都会得到非常接近于零的结果。

softmax层及其导数

softmax常用于机器学习中，特别是逻辑斯特回归：softmax层，其中我们将softmax应用于全连接层(矩阵乘法)的输出，如图所示。
这里写图片描述

在这个图中，我们有一个具有N个特征的输入x和T个可能的输出类别。权重矩阵W用于将x转换成具有T元素的向量(在机器学习的文献中称为“logits”)，并且softmax函数用于将logits转换成表示属于某一类别的概率。

我们如何计算这个“softmax层”的导数(先进行全连接矩阵乘法，然后是softmax)？当然是使用链式规则！

在我们开始之前的一个重要的观点：你可能会认为x是计算其导数的自然变量(natural variable)。但事实并非如此。实际上，在机器学习中，我们通常希望找到最佳的权重矩阵W，因此我们希望用梯度下降的每一步来更新权重。因此，我们将计算该层的关于W的导数。

我们首先将这个图改写为向量函数的组合。首先我们定义矩阵乘法 g(W) ，即映射： RNT→RT 。因为输入(矩阵W) N×T 个元素，输出有T个元素。

接下来我们来考虑softmax，如果我们定义logits的向量是 λ ，我们有： RT→RT 。总体来说，我们有：

P (W) = S (g (W)) = (S \circ g) (W)

使用多变量的链式法则，得到

P(W) 的雅可比矩阵：

D P (W) = D (S \circ g) (W) = D S (g (W)) \cdot D g (W)

我们之前已经计算过雅可比矩阵；只不过此时是对g(W)求解。因此g是一个非常简单的函数，因此计算雅可比矩阵很简单。唯一要注意的是
正确计算相应的索引。因为 g(W) ： RNT→RT ，所以它的雅可比矩阵是 T 行，NT列。

D g = ⎡ ⎣ ⎢ ⎢ D 1 g 1 ⋮ D 1 g T \dots ⋱ \dots D N T g 1 ⋮ D N T g T ⎤ ⎦ ⎥ ⎥

在某种意义上，权重矩阵W被“线性化”为长度为NT的向量。如果您熟悉多维数组的内存布局，应该很容易理解它是如何完成的。
在我们的例子中，我们可以做的一件事就是按照行主次序对其进行线性化处理，第一行是连续的，接着是第二行，等等。

Wij
在雅可比矩阵中的列号是

(i−1)N+j 。为了计算

Dg ，让我们回顾

g1 ：

g 1 = W 11 x 1 + W 12 x 2 + \dots + W 1 N x N

因此：

D 1 g 1 = x 1 D 2 g 1 = x 2 \dots D N g 1 = x N D N + 1 g 1 = 0 \dots D N T g 1 = 0

我们使用同样的策略来计算

g2⋯gT ，我们可以得到雅可比矩阵：

D g = ⎡ ⎣ ⎢ ⎢ x 1 ⋮ 0 x 1 ⋱ 0 \dots ⋱ \dots x N ⋱ 0 \dots ⋱ \dots 0 ⋱ x 1 0 ⋱ x 2 0 ⋱ \dots 0 ⋮ x N ⎤ ⎦ ⎥ ⎥

最后从另一个角度来这个问题，如果我们将W的索引分解为i和j，可以得到：

D i j g t = \partial ( W t 1 x 1 + W t 2 x 2 + \dots + W t N x N ) \partial W i j = {x j 0 i = t i \neq t

在雅可比矩阵中表示第

t 行，

(i−1)N+j列。
最后，为了计算softmax层的完整的雅可比矩阵，我们只需要计算

DS 和

Dg 间的乘积。注意

P(W) ：

RNT→RT ，因此雅可比矩阵的维度可以确定。因此

DS 是

T×T ，

Dg 是

T×NT 的，它们的乘积

DP 是

T×NT 的。
在文献中，你会看到softmax层的导数大大减少了。因为涉及的两个函数很简单而且很常用。如果我们仔细计算

DS 的行和

Dg 的列之间的乘积：

D i j P t = \sum k = 1 T D k S t \cdot D i j g k

Dg 大多数为0，所以最终的结果很简单，仅当

i=k 时

Dijgk 不为0；然后它等于

xj 。因此：

D i j P t = D i S t x j = S t (δ t i - S i) x j

因此完全可以在没有实际雅可比矩阵乘法的情况下计算softmax层的导数; 这很好，因为矩阵乘法很耗时！由于全连接层的雅可比矩阵是稀疏的，我们可以避免大多数计算。

Softmax和交叉熵损失

我们刚刚看到softmax函数如何用作机器学习网络的一部分，以及如何使用多元链式规则计算它的导数。当我们处理这个问题的时候，经常看到损失函数和softmax一起使用来训练网络：交叉熵。

交叉熵有一个有趣的概率和信息理论解释，但在这里我只关注其使用机制。对于两个离散概率分布 p 和q，交叉熵函数定义为：

x e n t (p, q) = - \sum k p (k) l o g (q (k))

其中

k 遍历分布定义的随机变量的所有的可能的值。具体而言，在我们的例子中有

T个输出类别，所以

k 取值从1到

T。

如果我们从softmax的输出 P (一个概率分布)来考量。其它的概率分布是”正确的”类别输出，通常定义为Y，是一个大小为 T 的one-hot编码的向量，其中一个元素为1.0(该元素表示正确的类别)，其它为0。让我们重新定义该情况下的交叉熵公式：

x e n t (Y, P) = - \sum k = 1 T Y (k) l o g (P (k))

其中

k 遍历所有的输出类别，

P(k)是模型预测的类别的概率。

Y(k) 是数据集提供的真正的类别概率。我们定义唯一的

Y(k)=1.0 的索引为

y ，因此对所有的

k≠y，都有

Y(k)=0 ，于是交叉熵公式可以简化为：

x e n t (Y, P) = - l o g (P (y))

实际上，我们把

y 当作一个常量，仅使用

P来表示这个函数。进一步地，因为在我们的例子中

P 是一个向量，我们可以将

P(y)表示为

P 的
第

y个元素，即

Py ：

x e n t (P) = - l o g (P y)

xent 的雅可比矩阵是

1×T 的矩阵(一个行向量)。因为输出是一个标量且我们有

T 个输出(向量

P有

T 个元素)：

D x e n t (Y, P) = [D 1 x e n t D 2 x e n t \dots D T x e n t]

现在回顾下

P 可以表示为输入为权值的函数：

P(W)=S(g(W))。所以我们有另一个函数表示：

x e n t (W) = (x e n t \circ P) (W) = x e n t (P (W))

我们可以再次使用多元链式法则来计算

xent 关于

W 的梯度：

D x e n t (W) = D (x e n t \circ P) (W) = D x e n t (P (W)) \cdot D P (W)

我们来检查一下雅可比行矩阵的维数。我们已经计算过了

DP(W) ，它是

T×NT 的。

Dxent(P(W)) 是

1×T 的，所以得到的
雅可比矩阵

Dxent(W) 是

1×NT 的。这是有意义的，因为整个网络有一个输出(交叉熵损失，是一个标量)和

NT 个输入(权重)。
同样的，有一个简单的方式来找到

Dxent(W) 的简单公式，因为矩阵乘法中的许多元素最终会被消除。注意到

xent(P) 只依赖于

P 的
第

y个元素。因此，在雅可比矩阵中，只有

Dyxent 是非0的：

D x e n t = [00 D y x e n t \dots 0]

其中，

Dyxent=−1Py 。回到整个的雅可比矩阵

Dxent(W) ，使

Dxent(P) 乘以

D(P(W)) 的每一列，得到结果的行向量的每一个
元素。回顾用行向量表示的按行优先的“线性化”的整个权重矩阵W。清晰起见，我们将使用

i 和

j来索引它(

Dij )表示行向量的中的第

iN+j 个元素)：

D i j x e n t (W) = \sum k = 1 T D k x e n t (P) \cdot D i j P k (W)

因为在

Dkxent(P) 中只有第

y 个元素是非0的，所以我们可以得到下式：

D i j x e n t (W) = D y x e n t (P) \cdot D i j P y (W) = - 1 P y \cdot S y (δ y i - S i) x j

根据我们的定义，

Py=Sy ，所以可得：

D i j x e n t (W) = - 1 S y \cdot S y (δ y i - S i) x j = - (δ y i - S i) x j = (S i - δ y i) x j

即使最终的结果很简洁清楚，但是我们不一定非要这样做。公式

Dijxent(W) 可能最终成为一个和的形式(或者某些和的和)。关于雅可比矩阵的这些技巧可能并没有太大意义，因为计算机可以完成所有的工作。我们需要做的就是计算出单个的雅矩阵，这通常毕竟容易，因为它们是更简单的非复合函数。这技术体现了多元链式法则的美妙和实用性。

最后

以上就是勤劳小霸王最近收集整理的关于Softmax函数及其导数的全部内容，更多相关Softmax函数及其导数内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：最爱数学
浏览次数：78 次浏览
发布日期：2024-01-25 02:21:18
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_okf2_14__23__2_1.html

Softmax函数及其导数