我是靠谱客的博主 仁爱吐司,这篇文章主要介绍4问数据挖掘:什么是准确率和召回率Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.,现在分享给大家,希望可以做个参考。

Q4. Explain what precision and recall are. How do they relate to the ROC curve.

Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.

答案:

准确度P 召回率R

准确率:你的预测有多少是对的

召回率:正例里你的预测覆盖了多少

看懂这个表走天下:

这里写图片描述

ROC曲线(Receiver Operating Characteristic)

ROC 曲线是表示正例和负例间关系,常常用于对二值化的分类模型啦。但是通常面对于大量的数据,用 准确度P-召回率R (PR) 曲线能更具有代表性。

ROC横坐标: True Positive Rate (TPR) = TP / [ TP + FN]
ROC纵坐标: False Positive Rate (FPR) = FP / [ FP + TN]

反正我做模型后面用来校验,看的是PR图,不看ROC图,PR曲线图看上去舒服很多,理解直观。


例子解释

有100封邮件,真正垃圾邮件的有30封,我的贝叶斯模型找到40封垃圾文件,其中5封垃圾邮件识别为有用文件。那么要分清楚这5,30,40之间的关系,就搞清楚准确率和召回率的关系。

其中模型识别到的真正垃圾邮件为25封,识别到的非垃圾邮件15封;没有识别到的垃圾邮件5封,没有识别到的非垃圾邮件55封。那么对应下表:

相关不相关
找到25(TP)
没找到5(FN)

我的老板突然鸡冻地走过来问:

Q:模型找到多少正确的数据? A:召回率R是 25 / 30 = 83% (真正垃圾邮件作分母)

Q: 那模型预测到正确的数据有多少? A: 准确率P是 25 / 40 = 62% (预测的垃圾邮件作分母)

要注意一条准则:做搜索、文件检索,要保证召回率的情况下提升准确率;如果做分类、疾病监测、反垃圾,则是保准确率的条件下提升召回率。

学术解析

对于一个模型有四种方法判断你是对还是错的:

  • TP(True Positive): 例子是正确的,并且预测正确
  • FP(False Positive): 例子是错误的,但预测正确
  • FN(False Negative): 例子是正确的,但预测错误
  • TN(True Negative): 例子是错误的,并且预测错误
例子正确例子错误
预测正确TP
预测错误FN

准确率P:

<script type="math/tex; mode=display" id="MathJax-Element-1"></script>
召回率R:
<script type="math/tex; mode=display" id="MathJax-Element-2"></script>

最后

以上就是仁爱吐司最近收集整理的关于4问数据挖掘:什么是准确率和召回率Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.的全部内容,更多相关4问数据挖掘:什么是准确率和召回率Q4.内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(79)

评论列表共有 0 条评论

立即
投稿
返回
顶部