我是靠谱客的博主 仁爱吐司,最近开发中收集的这篇文章主要介绍4问数据挖掘:什么是准确率和召回率Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

Q4. Explain what precision and recall are. How do they relate to the ROC curve.

Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.

答案:

准确度P 召回率R

准确率:你的预测有多少是对的

召回率:正例里你的预测覆盖了多少

看懂这个表走天下:

这里写图片描述

ROC曲线(Receiver Operating Characteristic)

ROC 曲线是表示正例和负例间关系,常常用于对二值化的分类模型啦。但是通常面对于大量的数据,用 准确度P-召回率R (PR) 曲线能更具有代表性。

ROC横坐标: True Positive Rate (TPR) = TP / [ TP + FN]
ROC纵坐标: False Positive Rate (FPR) = FP / [ FP + TN]

反正我做模型后面用来校验,看的是PR图,不看ROC图,PR曲线图看上去舒服很多,理解直观。


例子解释

有100封邮件,真正垃圾邮件的有30封,我的贝叶斯模型找到40封垃圾文件,其中5封垃圾邮件识别为有用文件。那么要分清楚这5,30,40之间的关系,就搞清楚准确率和召回率的关系。

其中模型识别到的真正垃圾邮件为25封,识别到的非垃圾邮件15封;没有识别到的垃圾邮件5封,没有识别到的非垃圾邮件55封。那么对应下表:

相关不相关
找到25(TP)
没找到5(FN)

我的老板突然鸡冻地走过来问:

Q:模型找到多少正确的数据? A:召回率R是 25 / 30 = 83% (真正垃圾邮件作分母)

Q: 那模型预测到正确的数据有多少? A: 准确率P是 25 / 40 = 62% (预测的垃圾邮件作分母)

要注意一条准则:做搜索、文件检索,要保证召回率的情况下提升准确率;如果做分类、疾病监测、反垃圾,则是保准确率的条件下提升召回率。

学术解析

对于一个模型有四种方法判断你是对还是错的:

  • TP(True Positive): 例子是正确的,并且预测正确
  • FP(False Positive): 例子是错误的,但预测正确
  • FN(False Negative): 例子是正确的,但预测错误
  • TN(True Negative): 例子是错误的,并且预测错误
例子正确例子错误
预测正确TP
预测错误FN

准确率P:

<script type="math/tex; mode=display" id="MathJax-Element-1"></script>
召回率R:
<script type="math/tex; mode=display" id="MathJax-Element-2"></script>

最后

以上就是仁爱吐司为你收集整理的4问数据挖掘:什么是准确率和召回率Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.的全部内容,希望文章能够帮你解决4问数据挖掘:什么是准确率和召回率Q4. Explain what precision and recall are. How do they relate to the ROC curve.Q4. 解释一下什么是准确率和召回率,他们与ROC曲线有什么关系.所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(61)

评论列表共有 0 条评论

立即
投稿
返回
顶部