为什么使用 CE + Softmax 作为损失函数

171 阅读 0 评论 113 点赞

我是靠谱客的博主殷勤书包，这篇文章主要介绍为什么使用 CE + Softmax 作为损失函数，现在分享给大家，希望可以做个参考。

假设

假设有三个分类，模型输出值为 output = model(input)，得到如下输出向量
$o_1,o_2,o_3]$
表示每个类别的概率值，然后将该向量进行 softmax 操作，得到 $S_1,S_2,S_3]$ ， $S_i$ 的计算公式为：
$S_i = frac{e^{o_i}}{sum e^{o_k}} = frac{e^{o_i}}{e^{o_0}+e^{o_1}+e^{o_2}}$

导数的除法规则

$left(frac{u}{v}right)'=frac{u'v-uv'}{v^2}$

求导

使用链式法则反向传播误差，例如
$∂ L ∂ ω = ∂ L ∂ S ∂ S ∂ o ∂ o ∂ ω frac{partial L}{partial omega} = frac{partial L}{partial S} frac{partial S}{partial o} frac{partial o}{partial omega}$

需要求得 $S_i$ （ $S_i$ 是经过 argmax 或者其他方式选出来的 $S_1,S_2,S_3]$ 中的某个值）与每个输出值 $o_i$ 的偏微分，即
$S_i}{partial o_j}$

这里分两种情况，当 $i = j$ 时，根据导数的除法规则
$S_i}{partial o_i}&=frac{partial}{partial o_j}left( frac{e^{o_i}}{sum e^{o_k}}right)\&=frac{e^{o_i}sum e^{o_k} - e^{o_i}e^{o_i}}{(sum e^{o_k})^2} \ &=S_i-S_i^2 \&=S_i(1-S_i) end{aligned}$

当 $i \neq = j$ 时，
$S_i}{partial o_j}&=frac{partial}{partial o_j}left( frac{e^{o_i}}{sum e^{o_k}}right)\&=frac{0- e^{o_i}e^{o_j}}{(sum e^{o_k})^2} \ &=-S_iS_j end{aligned}$

CE + Softmax

CE 公式：
$-sum{y_i log{S_i}}$

所以
$S_i} = -sum y_i frac{1}{S_i}$

所以
$o_j} = frac{partial L}{partial S_i}frac{partial S_i}{partial o_j} &= -sum_{i=j} y_i frac{1}{S_i}(S_i(1-S_i))+sum_{i neq j}y_i frac{1}{S_i}(S_iS_j) \ &= -sum_{i=j} y_i (1-S_i) + sum_{i neq j} y_iS_j \ &=-y_j+y_jS_j + sum_{ineq j}y_iS_j \ &=-y_j+S_j sum y_i end{aligned}$

因为 $y_i$ 是 one hot 编码，或者 label smooth 后的值，所以其求和 $y_i =1$

所以
$o_j} = S_j-y_j$

其中 $S_j$ 表示预测为第 $j$ 类的概率值。

总结

使用 CE + Softmax ，在反向传播时，可以直接用 $S_j - y_j$ 作为反向传播的值进行学习

最后

以上就是殷勤书包最近收集整理的关于为什么使用 CE + Softmax 作为损失函数的全部内容，更多相关为什么使用内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

本文分类：深度学习
浏览次数：171 次浏览
发布日期：2024-01-17 00:45:24
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ogf5_14__23_k0.html

为什么使用 CE + Softmax 作为损失函数

假设

导数的除法规则

求导

CE + Softmax

总结

最后

评论列表共有 0 条评论

发表评论取消回复

为什么使用 CE + Softmax 作为损失函数

假设

导数的除法规则

求导

CE + Softmax

总结

最后

相关文章

评论列表共有 0 条评论

发表评论 取消回复

发表评论取消回复