机器学习：PR曲线及F1 scorePecision 和 RecallPR曲线F1 score

387 阅读 0 评论 256 点赞

我是靠谱客的博主细腻皮带，这篇文章主要介绍机器学习：PR曲线及F1 scorePecision 和 RecallPR曲线F1 score，现在分享给大家，希望可以做个参考。

PR曲线及F1 score

Pecision 和 Recall
PR曲线
- PR曲线的绘制
- PR曲线的性能比较
F1 score
- F1 的一般形式
- macro-F1
- micro-F1

Pecision 和 Recall

首先，我们把数据和对应的标签称为一个example。
在二分类问题中，example可分为真正例（true positive），假正例（fake positive），真反例（true negative），假反例（fake negative）
下面这个矩阵称为混淆矩阵。
在这里插入图片描述
precision 和 recall的计算公式如下：

PR曲线

PR曲线的绘制

预测结果按照最有可能是正例的样本到最不可能是正例的样本的顺序排序。
把每个样本作为正例进行预测，计算出P和R。
以R作为横轴，P为纵轴

对上述进行解释：
a) 设置一个从高到低的阈值，大于等于阈值的认为正例，小于阈值的认为负例。
b) 有n个样本, score是分类器对于样本属于正例的可能性的打分。
c) n个阈值，就得到n种标注结果，n对（P，R）。
d) 将n对（P，R）在图上表示出来，就是PR曲线。

PR曲线如下图所示，但实际上PR曲线是非单调的，不平滑的，在局部有很多波动。
在这里插入图片描述

PR曲线的性能比较

不同的方法得到的PR曲线不同。
由上图可以看到A的性能好于C，A和B发生交叉，只通过曲线不好判断，要在具体的P或R下进行比较。

为了综合评价性能，提出两种度量方法：

平衡点（P=R），可见A的平衡点高于B，因此A>B
F1 score
这个公式称为F1是标准形式。

F1 score

F1 的一般形式

在这里插入图片描述
不同的应用对P，R的重视程度不同，F1的表现形式也会的发生变化。
其中 β 度量R对P的相对重要性。

β=1 F1的标准形式
β>1 R的影响大
β<1 P的影响大

macro-F1

进行多次训练测试时，每次得到一个混淆矩阵，或者执行多分类任务时，估计算法的全局性能。
总之，在n个二分类混淆矩阵上综合考察PR。
计算每个混淆矩阵的P，R，这样就得到(P1, R1 ),(P2,R2 ),…,(Pn, Rn )
计算平均值，就得到了macro-P, macro-R,macro-F1
在这里插入图片描述