我是靠谱客的博主 鲤鱼自行车,最近开发中收集的这篇文章主要介绍天气预测频繁2项集_Apriori算法中频繁项集求法的改进,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

龙源期刊网

http://www.qikan.com.cn

Apriori

算法中频繁项集求法的改进

作者:吴湘华

张祖平

来源:《科技创新与应用》

2013

年第

15

要:分析传统

Apriori

效率较低的原因,采用

0-1

矩阵改进数据库事务集的描述,提高

Apriori

中统计匹配的时间效率;分析各频繁项集的计数,改进传统

Apriori

算法完全从低维频

繁项集产生高维频繁项集的方式,通过先求出

1

项频繁集和最大频繁项集,减少中间的频繁项

集剪枝数量,从而达到提高算法效率的目的。

关键词:

0-1

矩阵;统计匹配;剪枝

1

关联规则

[1]

挖掘及

Apriori

算法概述

一提到关联规则挖掘就会令人联想到

尿布与啤酒

的故事,这是借助数据挖掘技术对大量

原始交易数据进行分析揭示的一条规律。

Apriori[2]

算法是由美国学者

R. Agrawal

等在

1993

提出的一种从大规模商业数据中挖掘关联规则的有效方法。现在已经被广泛用于商业决策、社

会科学、科学数据处理等各种各样的数据挖掘领域之中。使用基于支持度的剪枝技术,系统地

控制候选项集指数增长。其核心是使用候选项集找频繁项集。算法具体的执行步骤如下:

(

1

)根据用户的要求确定最小支持度和最小置信度;(

2

)找出所有的频繁项集:先由数

据库读入所有的数据项,得出候选

1

项集

C1

,然后根据最小支持度要求确定频繁

1

项集

L1

使用

L1

L1

自连接产生候选

2

项集

C2

,继续对数据库扫描,得出候选

2

项集

C2

的支持度,

确定频繁

2

项集

L2

;继续执行上述的步骤,不断进行连接与剪枝,重复对数据库的扫描,并

和最小支持度进行比较,产生更高层次的频繁项集,直到不再产生新的候选频繁项集为止;

(

3

)

根据频繁项集产生强关联规则。

2 Apriori

算法的缺点及改进方法

Apriori

算法能够有效地进行数据关联规则挖掘,但该算法存在效率不高的问题。该算法

使用迭代方法,通过低维频繁项集产生高维频繁项集,该算法存在两个比较明显的缺点:一个

是可能产生大量的候选集,时间开销和空间开销都很大;另一个是需要多次扫描数据库,需要

很大的

I/O

开销。

2.1

采用

0-1

矩阵描述数据库事务集

I={i1

i2

in}

是项的集合,

D

是数据库事务集,其中每个事务

T

是项的集合,使

T

?哿

I

。按如下规则用

0-1

矩阵描述数据库事务集:如果

I

中某一项

ik

在事务

T

中存在,

“1”

表示,否则就用

“0”

表示。数据库事务集

D

就转化为

m*n

矩阵的

0-1

矩阵,其中

m

为数

据库事务集

D

的大小,即包含多少个事务,

n

为集合

I

的计数。

最后

以上就是鲤鱼自行车为你收集整理的天气预测频繁2项集_Apriori算法中频繁项集求法的改进的全部内容,希望文章能够帮你解决天气预测频繁2项集_Apriori算法中频繁项集求法的改进所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(48)

评论列表共有 0 条评论

立即
投稿
返回
顶部