Softmax计算技巧初始做法问题1： exp ⁡ ( o k ) \exp(o_k)

65 阅读 0 评论 43 点赞

我是靠谱客的博主可靠山水，这篇文章主要介绍Softmax计算技巧初始做法问题1： exp ⁡ ( o k ) \exp(o_k) ，现在分享给大家，希望可以做个参考。

初始做法

在softmax回归中，定义
$hat{y}_j = frac{exp(o_j)}{sum_k exp(o_k)} textquad (1)\ (i=1...n,k=1...q)$
对于任何标签 $y$ 和模型预测 $y ^ hat{y}$ ，损失函数为:
$sum_{j=1}^q y_j log hat{y}_j textquad (2)$
将 $(1)$ 代入 $(2)$ 中：
$sum_{j=1}^q y_j log frac{exp(o_j)}{sum_{k=1}^q exp(o_k)} \ &= sum_{j=1}^q y_j log sum_{k=1}^q exp(o_k) - sum_{j=1}^q y_j o_j\ &= log sum_{k=1}^q exp(o_k) - sum_{j=1}^q y_j o_j. end{aligned}end{split} textquad (3)$
考虑相对于任何未规范化的预测 $o_j$ 的导数，我们得到：
$partial_{o_j} l(mathbf{y}, hat{mathbf{y}}) = frac{exp(o_j)}{sum_{k=1}^q exp(o_k)} - y_j = mathrm{softmax}(mathbf{o})_j - y_j textquad (4)$

问题1： $exp(o_k)$ 可能特别大或特别小

softmax函数 $y_j = frac{exp(o_j)}{sum_k exp(o_k)}$ ，其中 $o_j$ 是预测 $o$ 的概率分布。 $o_j$ 是未规范化的预测的第 $j$ 个元素。
如果 $o_j$ 中的一些数值非常大，那么 $exp(o_k)$ 可能大于数据类型容许的最大数字，即上溢（overflow）。这将使分母或分子变为 $in f$ （无穷大）， $+ ∞ + ∞ frac{+infty}{+infty}$ 最后得到的是 $0$ 、 $in f$ 或 nan（不是数字）的 $hat{y_j}$ 。
另一方面 $exp(o_k)$ 都特别小， $sum_k exp(o_k)$ 在实际计算中为 $0$ ，这样就出现了 $0/0$ 的错误。
在这些情况下，我们无法得到一个明确定义的交叉熵值。

解决这个问题的一个技巧是：在继续softmax计算之前，先从所有 $o_k$ 中减去 $max (o)$ 。这里可以看到每个 $o_k$ 按常数进行的移动不会改变softmax的返回值：
$y_j & = frac{exp(o_j - max(mathbf{o}))exp(max(mathbf{o}))}{sum_k exp(o_k - max(mathbf{o}))exp(max(mathbf{o}))} \ & = frac{exp(o_j - max(mathbf{o}))}{sum_k exp(o_k - max(mathbf{o}))}. end{aligned}end{split} textquad (5)$
这样分子 $max(exp(o_j - max(mathbf{o})))=1$ ，分母 $sum_k exp(o_k - max(mathbf{o})) ge 1$

问题2： $log{(hat{y}_j)}=-infty$

在正向、反向传播中都要计算公式 $(2)$ 中的 $log{(hat{y}_j)}$ ，按照上面做归一化后，由于精度受限， $exp(o_j - max(o_k))$ 将有接近零的值，即下溢（underflow），此时 $log{(hat{y}_j)}=-infty$ 。
但是实际上，这个问题在实际数据运算时可以避免掉，在数学上，有下面的运算（永远可行！）
$y_j)} & = logleft( frac{exp(o_j - max(mathbf{o}))}{sum_k exp(o_k - max(mathbf{o}))}right) \ & = log{(exp(o_j - max(mathbf{o})))}-log{left( sum_k exp(o_k - max(mathbf{o})) right)} \ & = o_j - max(mathbf{o}) -log{left( sum_k exp(o_k - max(mathbf{o})) right)}. end{aligned}end{split} textquad (6)$
这样在计算 $log{(hat{y}_j)}$ 时不用先计算 $hat{y}_j$ 然后计算 $log(hat{y}_j)$ ，而是计算公式 $(6)$ 的最后部分：
$o_j - max(mathbf{o}) -log{left( sum_k exp(o_k - max(mathbf{o})) right)}$
这一部分已经在机器运算时不会出现问题。