训练分类器为什么要用cross entropy loss而不能用mean square error loss?
对于多分类的标签(即教师信号),从本质上看,通过One-hot操作,就是把具体的标签(Label)空间,变换到一个概率测度空间(设为 p),如[1,0,0](表示它是第一个品类)。可以这样理解这个概率,如果标签分类的标量输出为1(即概率为100%),其它值为0(即概率为0%)。而对于多分类问题,在Softmax函数的“加工”下,它的实际输出值就是一个概率向量,如[0.96, 0.04, 0],...