分类器评价指标

68 阅读 0 评论 45 点赞

我是靠谱客的博主糊涂信封，最近开发中收集的这篇文章主要介绍分类器评价指标，觉得挺不错的，现在分享给大家，希望可以做个参考。

概述

在分类器设计过程中，如何评价分类器至关重要，一个好的评价指标更有利于我们对分类模型进行优化；同时，好的分类器评价指标要求其充分反应出分类器对问题的解决能力，也更容易向使用者、客户展示交互。

在分类问题中，一个实例可能被判定为一下四种类型之一：

TP(True Positive)：被模型预测为正的正样本；

FP(False Positive)：被模型预测为正的负样本；

FN(False Negative)：被模型预测为负的正样本；

TN(True Negative)：被模型预测为负的负样本；

由这四种类型可以得到一个混淆矩阵(Confusion Matrix)：

Confusion Matrix		Predicted
Confusion Matrix		Negative	Positive
Actual	Negative	TN	FP
Actual	Positive	FN	TP

基于以上混淆矩阵，可以引申出一下指标进一步评价分类器性能：

准确率(Aaccuracy)：对整个样本集的判定能力，即将正的判定为正、负的判定为负，A=(TP+TN)/(TP+FN+FP+TN)；

灵敏度(Sensitivity)：将正样本预测为正样本的能力，Sensitivity=TP/(TP+FN)；

特异度(Specificity)：将负样本预测为负样本的能力，Specificity=TN/(TN+FP)；

ROC(Receiver Operating Charateristic)：ROC的主要分析工具为画在ROC空间的曲线（如下图），横轴为1- Specificity，纵轴为Sensitivity。在分类问题中，一个阀值对应于一个特异性及灵敏度，并在ROC空间描出一个点P，当阀值连续移动时，P点也随即移动最终绘成ROC曲线。ROC良好的刻画了不同阀值对样本的分辨能力，也同时反应出对正例和对反例的分辨能力，方便使用者根据实际需求选用合适的阀值。一个好的分类模型要求ROC曲线尽可能靠近图形的左上角；