alxbj 发表于 2019-5-7 22:27

关联规则的相关算法研究--基于Apriori和FP-growth算法

数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘是数据挖掘的一个主要研究内容,而如何快速发现频繁项集是关联规则数据挖掘算法的核心问题。
   本文讨论了数据挖掘和关联规则的一般理论,包括数据挖掘的概念、任务、模式以及数据挖掘的应用和发展趋势。深入研究了关联规则挖掘算法,分析了关联规则挖掘中经典的Apriori和FP-growth算法,并总结了Apriori和FP-growth算法中存在的问题。针对Apriori算法的效率问题,从两个角度进行改进:(1)降低候选项目集中候选项产生的数量;(2)减少扫描数据库的次数。给出了一种较为高效的关联规则挖掘算法。算法的主要思想是在扫描数据库的同时把支持每个项目的事务都标记出来,采用一种新的方法生成所有的频繁集。该算法只需对源数据库进行一次扫描就可以找出所有的频繁集,并通过裁剪候选集的方法达到减少候选项数目集的目的。这样做不但降低了算法的I/O负荷,而且减少了时间开销,具有很高的效率。最后,将基于关联规则的数据挖掘改进算法方法应用到学生考试成绩管理中,对挖掘结果进行了分析,并提出了指导意见。
   本文的工作虽然取得了一定的成果,但尚有大量问题有待于进一步研究,比如,关联规则挖掘应用系统的设计:关联规则有趣度的研究以及如何将挖掘结果友好地呈现给用户。
页: [1]
查看完整版本: 关联规则的相关算法研究--基于Apriori和FP-growth算法