为什么交叉熵损失函数值越小分类效果越好？

195 阅读 0 评论 129 点赞

我是靠谱客的博主小巧秀发，这篇文章主要介绍为什么交叉熵损失函数值越小分类效果越好？，现在分享给大家，希望可以做个参考。

在学习机器学习过程中，我们经常会用到损失函数来判断模型是否在学习，经常使用的损失函数大多是平方损失函数，与交叉熵损失函数。平方损失函数，我们很容易理解为什么值越小分类效果越好。

L o s s (w) = 1 m \sum i m (y i - y h a t i) 2 L o s s ( w ) = 1 m \sum i m ( y i - y i h a t ) 2

很显然，如果预测的越接近，则loss值越小，这个损失函数基本上没有什么疑问。但是由于这个函数不是凸函数，所以被应用的不多，大多数都是使用交叉熵损失函数。

L o s s (w) = - 1 m \sum i m y i l o g y h a t i + (1 - y i) l o g (1 - y h a t i) L o s s ( w ) = - 1 m \sum i m y i l o g y i h a t + ( 1 - y i ) l o g ( 1 - y i h a t )

如果我们同样借助上面的思想，如果预测的越接近，则损失函数越小，很显然这个损失函数满足。但是我相信你绝对不仅仅满足于此，这个损失函数的由来是什么？平方损失很容易想到是两个空间向量的距离，越接近越好。交叉熵损失函数呢？今天就带你进入另一个世界。
此处划重点，交叉熵损失函数来源于参数估计，极大似然估计。
分类属于监督学习，是利用有限的样本，来得到整体的样本分布。以二分类为例，