为什么使用 CE + Softmax 作为损失函数
假设假设有三个分类,模型输出值为 output = model(input),得到如下输出向量[o1,o2,o3][o_1,o_2,o_3][o1,o2,o3]表示每个类别的概率值,然后将该向量进行 softmax 操作,得到 [S1,S2,S3][S_1,S_2,S_3][S1,S2,S3],SiS_iSi 的计算公式为:Si=eoi∑eok=eoieo0+eo1+eo2S_i = \frac{e^{o_i}}{\sum e^{o_k}} = \frac{e^{o_i}}{e^