我是靠谱客的博主 凶狠彩虹,最近开发中收集的这篇文章主要介绍 数据挖掘中几个指标的含义及示例,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

指标含义

支持度(SUPPORT)

支持度表示项集{X,Y}在总项集里出现的概率。

计算公式为:support

其中I表示总事务集。num()表示求事务集里特定项集出现的次数。

置信度(CONFIDENCE)

置信度表示在先决条件X发生的情况下,由关联规则”X→Y“推出Y的概率。即在含有X的项集中,含有Y的可能性。

计算公式为:confidence

提升度(LIFT):

提升度表示含有X的条件下,同时含有Y的概率,与不含X的条件下却含Y的概率之比。

其公式为lift

例题

eg:已知有1000名顾客买年货,分为甲乙两组,每组各500人,其中甲组有500人买了茶叶,同时又有450人买了咖啡;乙组有450人买了咖啡,如表所示:

买茶叶人数买咖啡人数
甲组(500人)500450
乙组(500人)0450

试求解

  1. "茶叶→咖啡"的支持度

  2. "茶叶→咖啡"的置信度

  3. "茶叶→咖啡"的提升度


由于提升度Lift=1,表示X与Y相互独立,即是否有X,对于Y的出现无影响。也就是说,是否购买咖啡,与有没有购买茶叶无关联。即规则”茶叶→咖啡“不成立,或者说关联性很小,几乎没有,虽然它的置信度都高达90%,但它不是一条有效的关联规则。
满足最小支持度和最小置信度的规则,叫做“强关联规则”。然而,强关联规则里,也分有效的强关联规则和无效的强关联规则。

  • 如果Lift>=1,则规则是有效的强关联规则。

  • 如果Lift<=1,则规则是无效的强关联规则。

  • 特别地,如果Lift=1,则表示X与Y相互独立。

最后

以上就是凶狠彩虹为你收集整理的 数据挖掘中几个指标的含义及示例的全部内容,希望文章能够帮你解决 数据挖掘中几个指标的含义及示例所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(91)

评论列表共有 0 条评论

立即
投稿
返回
顶部