发明内容
本发明的目的在于针对现有技术存在的不足,提供一种用于发现文本词间关联规则的完全加权模式挖掘方法,丰富基于项目权值挖掘的关联规则挖掘技术成果,解决项完全加权正负关联规则挖掘中的技术难题。该方法在文本挖掘、文本信息检索等领域有重要的理论价值和广阔的应用前景。
本发明实现上述目的所采取的技术方案是:一种用于发现文本词间关联规则的完全加权模式挖掘方法,包括如下步骤:
(1)完全加权数据预处理阶段:
现实世界中,存在海量的完全加权数据,如文本信息数据等。完全加权数据预处理方法要视具体的数据对象而定,例如,对于中文文本数据信息,则要进行分词、去除停用词、提取特征词及其权值计算等预处理方法;对于英文文本数据信息,预处理方法是词干提取、排除停用词、词汇分析、提取特征词及其权值计算等。完全加权数据预处理的结果是构建基于完全加权数据库和项目库;
对于文本数据的特征词权值计算公式是:wij=(0.5+0.5×tfij/maxj(tfij))×idfi,
其中,wij为第i个特征词在第j篇文档的权值,tfij为第i个特征词在第j篇文档的词频,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量。
(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:
2.1、从项目库中提取完全加权候选1_项集awC1,并挖掘完全加权频繁1_项集awL1;具体步骤按照2.1.1~2.1.3进行:
2.1.1、从项目库中提取完全加权候选1_项集awC1;
2.1.2、累加完全加权候选1_项集awC1在完全加权数据库(All-WeightedDatabase,简称AWD)中的权值总和,计算其支持度;
awC1支持度计算公式如下:
其中,表示项目ij在事务记录Ti中的权值总和,n为完全加权数据库AWD的事务记录总数,k为项集awC1的长度(即awC1的项目个数)。
2.1.3、将完全加权候选1_项集C1中支持度大于或等于最小支持度阈值minsup的完全加权频繁1_项集awL1加入到频繁项集集合awPIS;
2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:
2.2.1、将完全加权频繁(i-1)_项集awLi-1进行Apriori连接,生成完全加权候选i_项集awCi;所述的i≥2;
2.2.2、累加完全加权候选i_项集awCi-1在完全加权数据库AWD中的权值总和,计算其支持度awsup(awCi-1),其计算公式如下:
其中,表示项目ij在事务记录Ti中的权值总和,n为完全加权数据库AWD的事务记录总数,k为项集awCi-1的长度。
2.2.3、从完全加权候选i_项集awCi中将其支持度不小于支持度阈值minsup的频繁i_项集awLi取出,存入完全加权频繁项集集合awPIS,同时,将其支持度小于支持度阈值的完全加权负i_项集awNi存入完全加权负项集集合awNIS。
2.2.4、将i的值加1,如果频繁(i-1)_项集awLi-1为空(即其长度为0)就转入(3)步,否则,继续2.2.1~2.2.3步骤;
(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集
3.1、对于频繁项集集合awPIS中的每一个频繁i-项集awLi,计算IAWFI(awLi)值,剪除其IAWFI(awLi)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合awPIS;IAWFI(awLi)计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)),awItemsetInt(﹁I1,﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)),minInt为最小兴趣度阈值,minsup最小支持度阈值。
3.2、对于负项集集合awNIS中的每一个负i-项集awNi,计算IAWNI(awNi)值,剪除其IAWNI(awNi)值为假的负项集,剪枝后得到有趣的完全加权负项集集合awNIS;IAWNI(awNi)的计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2))
awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2))
awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2))
awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2))
(4)从有趣的完全加权频繁项集集合awPIS中挖掘有效的完全加权正负关联规则,包括以下步骤:
4.1、从有趣的完全加权频繁项集集合awPIS取出频繁项集awLi,求出awLi的所有真子集,构建awLi的真子集集合,然后进行下列操作:
4.2.1、从awLi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集(I1∩I2=φ),I1和I2的项目个数之和等于其原频繁项集的项目个数(I1∪I2=awLi),以及I1和I2的支持度都不小于支持度阈值(awsup(I1)≥minsup,awsup(I2)≥minsup),则计算频繁项集(I1∪I2)的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);awIWR(I1,I2)和awIDR(I1,I2)的计算公式如下:
w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数,n为数据库中事务记录总数。
4.2.2、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:
4.2.2.1若I1→I2的awCPIR值(awCPIR(I1→I2))不小于置信度阈值minconf,则挖掘出完全加权关联规则I1→I2;若I2→I1的awCPIR值不小于置信度阈值(awCPIR(I2→I1)≥minconf),则挖掘出完全加权关联规则I2→I1;awCPIR(I1→I2)和awCPIR(I2→I1)的计算公式如下:
4.2.2.2若(﹁I1∪﹁I2)的支持度不小于支持度阈值(awsup(﹁I1∪﹁I2)≥minsup),那么,①如果﹁I1→﹁I2的awCPIR值不小于置信度阈值(awCPIR(﹁I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值不小于置信度阈值(awCPIR(﹁I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式如下:
awsup(﹁I1∪﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2)
4.2.3、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)),进行如下操作:
4.2.3.1若(I1∪﹁I2)的支持度不小于支持度阈值(awsup(I1∪﹁I2)≥minsup),那么,①如果I1→﹁I2的awCPIR值不小于置信度阈值(awCPIR(I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值不小于置信度阈值(awCPIR(﹁I2→I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式如下:
awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2)
4.2.3.2若(﹁I1∪I2)的支持度不小于支持度阈值(awsup(﹁I1∪I2)≥minsup),那么,①如果﹁I1→I2的awCPIR值不小于置信度阈值(awCPIR(﹁I1→I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值不小于置信度阈值(awCPIR(I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式如下:
awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2)
4.2.4、继续4.2.1~4.2.3步骤,如果awLi的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;
4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合awPIS中每个频繁项集awLi都当且仅当被取出一次,则转入(5)步;
(5)从有趣的完全加权负项集集合awNIS中挖掘有效的完全加权负关联规则,包括以下步骤:
5.1、从有趣的完全加权负项集集合awNIS取出负项集awNi,求出awNi的所有真子集,构建awNi的真子集集合,然后进行下列操作:
5.2.1、从awNi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集(I1∩I2=φ),I1和I2的项目个数之和等于其原频繁项集的项目个数(I1∪I2=awNi),以及I1和I2的支持度都大于或者等于支持度阈值(awsup(I1)≥minsup,awsup(I2)≥minsup),则计算负项集(I1∪I2)的项内权值比(awIWR(I1,I2))及其维数比(awIDR(I1,I2));awIWR(I1,I2)和awIDR(I1,I2)的计算公式同4.2.1的公式。
5.2.2、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:
5.2.2.1若(﹁I1∪﹁I2)的支持度大于或者等于支持度阈值(awsup(﹁I1∪﹁I2)≥minsup),那么,①如果﹁I1→﹁I2的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式同4.2.2.2的公式。
5.2.3、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)):
5.2.3.1若(I1∪﹁I2)的支持度大于或者等于支持度阈值(awsup(I1∪﹁I2)≥minsup),那么,①如果I1→﹁I2的awCPIR值大于或者等于置信度阈值(awCPIR(I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I2→I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式同4.2.3.1的公式;
5.2.3.2若(﹁I1∪I2)的支持度大于或者等于支持度阈值(awsup(﹁I1∪I2≥minsup),那么,①如果﹁I1→I2的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I1→I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值大于或者等于置信度阈值(awCPIR(I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式同4.2.3.2的公式;
5.2.4、继续5.2.1~5.2.3步骤,如果awNi的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;
5.2.5,继续5.1步骤,如果有趣的完全加权负项集集合awNIS中每个负项集awNi都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;
至此,完全加权正负关联规则挖掘结束。
本发明与现有技术相比,具有以下有益效果:
(1)针对现有加权正负关联规则挖掘的缺陷,本发明构建了完全加权正负关联模式评价框架:支持度-CPIR模型(Conditional Probability Increment Ratio)-相关性-兴趣度,以及频繁项集和负项集的剪枝策略,提出了一种新的基于SCPIRCI评价框架的完全加权正负关联规则挖掘方法,有效地解决完全加权正负关联规则挖掘技术问题。本发明不仅考虑项目随数据库记录变化而变化的完全加权数据特点,采用新的项集剪枝策略,挖掘时间得到大幅度减少,极大地提高挖掘效率。
(2)提出了完全加项集项内权值比和维数比概念,丰富了完全加权数据挖掘的理论。
(3)通过大量严格而细致的实验,将本发明与传统的项无加权正负关联规则挖掘方法进行实验比较。以中文Web测试集CWT200g为实验文档测试集,从支持度变化、置信度变化、项目数量以及文档集规模变化等方面对本发明技术的挖掘性能进行实验分析。实验结果表明:与对比方法比较,本发明技术的挖掘性能达到了很好的效果,挖掘效率得到极大地提高;无论是在支持度阈值变化情况或者置信度阈值变化情况,本发明技术挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比现有对比方法挖掘的少很多;在项目数量和事务文档规模变化情况下,本发明也表现出良好的可扩展性。主要原因分析如下:对比方法是基于项目频度挖掘的无加权正负关联规则挖掘方法,没有考虑项集权值,没有能全面反映完全加权数据固有的特点,因而,会产生很多无效的和虚假的项集和正负关联规则模式,使得项集和规则的数量多得多,其挖掘效率大大减低。本发明属于基于权值挖掘的完全加权正负关联规则挖掘方法,有效地克服了对比方法的固有缺陷,将完全加权数据模型具有的特点(即项目权值客观分布于事务记录中随着记录变化而变化)融入整个挖掘过程中,使得所挖掘的关联规则更合理和更接近实际,同时,采用了新的剪枝策略,使得无效和无趣的频繁项集和负项集数量大幅度减少,有效地减少了无趣的规则出现,大大地提高了挖掘效率。
具体实施例方式
为了更好地说明本发明的技术方案,下面将本发明涉及的完全加权数据模型和相关的概念介绍如下:
1.加权关联规则挖掘和完全加权关联规则挖掘的区别
加权关联规则挖掘和完全加权关联规则挖掘,它们的主要区别是其项目权值来源和所挖掘的数据模型不同,前者的项目权值由用户主观设定,并独立于事务数据库,一旦设定,在整个挖掘过程中恒定不变,例如,商店里的复印纸和传真机,由于复印纸售价不如传真机的高,其单件利润比传真机的低,为了体现商品对利润贡献的重要性不同,用户将单件利润较高的传真机商品赋予较高的权值,而复印纸商品的权值相对较低,其权值设定后,就固定不变,而且独立于其交易数据库;后者的项目权值并不是由用户设定,而是来源于事务数据库各个事务记录中,并随事务记录不同而变化,例如,海量的文本数据库中各个特征词项目权值是来源于其数据库中各个文档,随着文档不同而变化,即对于不同的文档,其特征词项目权值是不同。
项加权数据模型和项完全加权数据模型分别是加权关联规则挖掘和完全加权关联规则挖掘的数据模型,是完全不同的两类数据模型,如表1和表2所示,其中是{i1,i2,...,im}是其项目集合,{T1,T2,...,Tn}是其事务集合。在加权数据模型中,{w1,w2,...,wm}是其项目权值,“1/0”的“1”表示项目在事务记录中出现,“0”表示不出现的情况。在完全加权数据模型中,“w[Ti][ij]/0(1≤i≤n,1≤j≤m)”表示项目的权值,若项目在事务记录中出现,其权值为“w[Ti][ij]”,否则为“0”。
表1项加权数据模型 表2项完全加权数据模型
实例:表3有5个项目和5个事务记录,其中项目集合是{i1,i2,i3,i4,i5}={Apple,Orange,Banana,Milk,Coca-cola},从表3可知,i1没有出现在T3事务记录中。表4是一个项完全加权数据实例,项目和事务记录数量和同表3的,其中,项目i1在事务记录T1,T2,T3,T5中的权值分别是0.85,0.93,0.65,0.75,没有出现在事务记录T4,故其权值为0。
表3项加权数据实例 表4项完全加权数据实例
2.完全加权数据挖掘基本概念
设完全加权数据库AWD={T1,T2,...,Tn},事务数为n,Ti(1≤i≤n)表示AWD中的第i个事务,项集I={i1,i2,...,im}表示AWD中全部项目集合,项目数为m,ij(1≤j≤m)表示AWD中第j个项目,w[Ti][ij](1≤i≤n,1≤j≤m)表示项目ij在事务记录Ti中的权值,详见表2的项完全加权数据模型。设I1,I2是项集I的子项集,且,给出如下基本定义:
定义1(完全加权支持度:All-weighted support,简称awsup):完全加权支持度awsup(I)的计算公式如式(1)所示。
其中,,n为完全加权数据库AWD的事务记录总数,k为项集I的长度(即I的项目个数)。
完全加权负项集和负关联规则支持度如式(2)至式(5)所示。
awsup(﹁I)=1–awsup(I) (2)
awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2) (3)
awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2) (4)
awsup(﹁I1→﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2) (5)
定义2(完全加权频繁项集和负项集):设最小支持度阈值为minsup,对于完全加权项集I,若awsup(I)≥minsup,则称项集I为完全加权频繁项集。对于完全加权项集(I1∪I2),当I1和I2都是频繁项集时,若awsup(I1∪I2)<minsup,则项集(I1∪I2)称为完全加权负项集。
实例:设minsup=0.1,表4数据中,awsup(i2)=(0.21+0.35+0.05)/(5×1)=0.122>minsup,awsup(i4)=0.192>minsup,awsup(i2∪i4)=0.06<minsup,故项集(i2∪i4)是完全加权负项集。
定义3(完全加权项集兴趣度:All-weighted Itemset Interest,即awItemsetInt):兴趣度是用户对所挖掘的关联模式关注程度的度量,其值越高,说明该关联模式越新奇,用户对其关注程度就越高。基于无加权数据挖掘环境下的兴趣度模型定义(程继华,郭建生,施鹏飞.挖掘所关注规则的多策略方法研究[J].计算机学报,2000,23(1):47-51.),给出完全加权项集兴趣度(awItemsetInt)计算公式如式(6)至式(9)所示:
awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)) (6)
awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2)) (7)
awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2)) (8)
awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)) (9)
定义4(完全加权CPIR值:All-weighted Conditional_Probability IncrementRatio,简称awCPIR):CPIR模型是用条件概率和先验概率的比值来表达p(I2/I1)相对p(I2)的递增程度,文献中给出了其计算公式:CPIR(I2/I1)=(p(I2/I1)–p(I2))/(1–p(I2))。基于CPIR模型的计算公式以及完全加权数据挖掘的需要,给出完全加权正负关联规则的awCPIR计算公式如式(10)至式(13)所示:
将awCPIR值作为完全加权关联规则的置信度,其值越大,说明该关联规则的可信度愈高,越受用户关注。
实例:表4完数据中,awsup(i1)=0.636,awsup(﹁i1)=1-0.636=0.364,awsup(i2)=0.122,awsup(i1∪i2)=0.294,awCPIR(i1→i2)=(|0.294-0.636×0.122|)/(0.636×(1-0.122))=0.39,awCPIR(i1→﹁i2)=2.79,awCPIR(﹁i1→i2)=0.68,awCPIR(﹁i1→﹁i2)=4.86。
定义5(完全加权项内权值比:All-weighted Weight Ratio from Itemset,简称awIWR):设w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,将w12和(w1×w2)的比值称为完全加权项集内权值比率,简称项内权值比(awIWR(I1,I2)),即式(14)所示。
定义6(完全加权项内维数比:All-weighted Dimension Ratio from Itemset,简称awIDR):设k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数,将k12和(k1×k2)的比值称为完全加权项集内维数比率,简称项内维数比(awIDR(I1,I2)),即式(15)所示。
定义7(完全加权项集相关性:All-weighted itemset correlation,简称awISCorr):基于传统的项集相关性定义(Chengqi Zhang,Shichao Zhang.Associationrule mining:models and algorithms[M].Springer-Verlag Berlin,Heidelberg,2002:47-84,ISBN:3-540-43533-6.),给出完全加权项集(I1,I2)相关性(awISCorr(I1,I2),)的计算公式如式(16)所示。
根据相关性的性质,在完全加权数据挖掘环境下,项集(I1,I2)相关性具有如下性质:
性质1:
性质2:
性质3:
性质4:②awISCorr(﹁I1,I2)<1;③awISCorr(﹁I1,﹁I2)>1。
性质5:②awISCorr(﹁I1,I2)>1;③awISCorr(﹁I1,﹁I2)<1。
推论在完全加权数据挖掘环境中,已知项集(I1,I2),且①若n×awIWR(I1,I2)>awIDR(I1,I2),则完全加权子项集I1和I2成正相关,并且能挖掘出完全加权正关联规则I1→I2和负关联规则﹁I1→﹁I2模式;②若n×awIWR(I1,I2)<awIDR(I1,I2),则完全加权项集I1和I2成负相关,并且能挖掘出完全加权负关联规则I1→﹁I2和﹁I1→I2模式;
根据上述推论,在挖掘完全加权关联规则时,只需计算完全加权项内权值比awIWR(I1,I2)和维数比awIDR(I1,I2),不需计算项集相关性,就可以直接从频繁项集和负项集中挖掘完全加权正负关联规则。
实例:对于(i1,i2,i3),设I1=(i1,i2),I2=(i3),则awIWR(I1,I2)=3.34/(2.94×2.85)=0.399,awIDR(I1,I2)=3/(2×1)=1.5,n×awIWR(I1,I2)=5×0.5517=1.995>1.5=awIDR(I1,I2),根据上述推论,I1和I2成正相关,能挖掘出关联规则I1→I2和负关联规则﹁I1→﹁I2模式。采用式(16)验证:awsup(i1∪i2)=0.294,awsup(i3)=0.57,awsup(i1∪i2∪i3)=0.223,awISCorr(I1,I2)=0.223/(0.294×0.57)=1.33>1,由性质1和性质4,I1和I2成正相关,可挖掘出关联规则I1→I2和负关联规则﹁I1→﹁I2模式,结论一致。
同理,对于完全加权项集(i2,i4),其awIWR(i2,i4)=0.102,awIDR(i2,i4)=2,n×awIWR(i2,i4)=0.51<2=awIDR(i2,i4),根据推论可知,i2和i4成负相关,可挖掘出i2→﹁i4和﹁i2→i4模式。
定义8(有效的完全加权正负关联规则):设minconf为最小置信度阈值,当完全加权项集I1和I2满足如下3个条件,则称关联规则I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2为有效的完全加权正负关联规则:①I1和I2是完全加权频繁项集,I1∩I2=φ;②I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2的支持度大于等于minsup;③I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2的awCPIR值不小于minconf。
实例:假设minsup=0.1,minconf=0.3,从上例中知道,完全加权项集(i1,i2)、(i3)和(i1,i2,i3)的支持度都大于minsup,(i1,i2)和(i3)成正相关,又因为,awCPIR((i1,i2)→(i3))=|0.223–0.94×0.57|/(0.294×(1–0.57))=0.438>minconf,awCPIR(﹁(i1,i2)→﹁(i3))=0.138<minconf,根据性质4和定义8,(i1,i2)→(i3)是个有效的完全加权正关联规则,而负规则﹁(i1,i2)→﹁(i3)不是有效的。同理,对于完全加权项集(i2,i4),由于awsup(i2)=0.122>minsup,awsup(i4)=0.192>minsup,awsup(i2∪﹁i4)=0.062<minsup,awsup(﹁i2∪i4)=0.132>minsup,awCPIR(﹁i2→i4)=0.052<minconf,根据定义8,负关联规则i2→﹁i4和﹁i2→i4都不是有效的完全加权负关联规则。
下面通过具体实施例对本发明的技术方案做进一步的说明。
本发明对表4完全加权数据实例挖掘完全加权关联规则的过程如下(其中,minsup=0.1,minInt=0.1,minconf=0.4,w表示项集权值,s代表项集支持度):
Step1:awPIS={φ};awNIS={φ};
Step2:
Step3:① ② ③
Step4:剪枝:对于频繁项集集合awPIS中的项集剪枝。被剪除的频繁项集是:(i2,i3),(i3,i4),(i1,i2,i5),(i1,i3,i5),剪枝后的awPIS={(i1,i2),(i1,i3),(i1,i5),(i1,i2,i3)}
Step5:同理,在负项集集合awNIS中,被剪除的负项集是:(i3,i5),剪枝后的awNIS={(i1,i4),(i2,i4),(i2,i5),(i4,i5)}。
Step6:从频繁项集集合awPIS中和负项集集合awNIS中挖掘完全加权正负关联规则,以频繁项集(i1,i2,i3)和负项集(i4,i5)为例,给出其挖掘过程如下:
对于频繁项集(i1,i2,i3),以其子集I1=(i1)和I2=(i2,i3)为例,从上例中可知,awsup(i1)、awsup(i2,i3)均大于minsup,awIDR(I1,I2)=1.5,n×awIWR(I1,I2)=2.98>awIDR(I1,I2),awsup(I1∪I2)=0.223>minsup,awCPIR(I1→I2)=0.212<minconf,awCPIR(I2→I1)=1.73>minconf;awsup(﹁I1∪﹁I2)=0.411>minsup,awCPIR(﹁I1→﹁I2)=1.73>minconf,awCPIR(﹁I2→﹁I1)=0.212<minconf,因此,I2→I1和﹁I1→﹁I2(即(i2,i3)→(i1)和﹁(i1)→﹁(i2,i3))是个有效的完全加权正负关联规则。
对于负项集(i4,i5),其子集I1=(i4)和I2=(i5),从上例中可知,awsup(i4)、awsup(i5)均大于minsup,awIDR(I1,I2)=2,n×awIWR(I1,I2)=1.03<awIDR(I1,I2),awsup(I1∪﹁I2)=0.101>minsup,awsup(﹁I1∪I2)=0.093<minsup,awCPIR(I1→﹁I2)=1.577>minconf,awCPIR(﹁I2→I1)=0.084<minconf,因此,I1→﹁I2(即(i4)→﹁(i5))是个有效的完全加权负关联规则。
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有效性、正确性和扩展性,我们选择由北京大学网络实验室提供的中文Web测试集CWT200g(Chinese Web Test Collection with200GB web pages)的部分语料作为本文实验数据测试集。实验的运行环境为Intel(R)Core(TM)
[email protected],内存4.0G,操作***为windows7,编程语言实现采用delphi2006,数据库***为SQL Server2008。选择典型的无加权正负关联规则挖掘方法(Xindong Wu,ChengqiZhang,and Shichao Zhang,Efficient Mining of Both Positive and NegativeAssociation Rules,ACM Transactions on Information Systems,22(2004),3:381-405.)(记为PNAR-Mining方法)为实验对比方法。
中文Web测试集CWT200g的容量为197GB,包含37,482,913个网页,每个页面按照天网存储格式进行压缩整理。从CWT200g测试集中提取了12024篇纯文本文档作为实验文档测试集。采用汉语词法分析***ICTCLAS(中国科学院计算技术研究所研制编写)对测试文本文档分词。特征词权值(wij)的计算公式为wij=(0.5+0.5×tfij/maxj(tfij))×idfi。实验测试文档的预处理过程是:分词、去停用词、提取特征词和计算其权值,构建基于向量空间模型的文本数据库和特征词库。实验文档测试集预处理后,得到8751个特征词,其文档频度(即含有该特征词的文档数量)df是51至11258。根据挖掘需要,实验中去掉df值比较低和比较高的特征词,提取df值在1500到5838的特征词(此时共得到400个特征词)构建特征词项目库。特征词在12024篇实验测试文档中出现的总频次是1019494次,平均在每篇文档中出现85次。实验参数如表5所示。
表5实验参数表
实验1:支持度阈值变化情况下挖掘性能比较
在不同支持度阈值下,本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘项集(即候选项集(Candidate Itemset,CI)、频繁项集(FrequentItemset,FI)、负项集(Negative Itemset,NI))和正负关联规则(Positive and NegativeAssociation Rule,PNAR)数量比较如图3至图8所示(ItemNum=50,minconf=0.0002,minInt=0.0002,TRecordNum=12024)。
实验2:置信度阈值变化情况下挖掘性能比较
置信度阈值变化情况下本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘正负关联规则(A→B、A→﹁B、﹁A→B和﹁A→﹁B)数量比较如表6所示(minsup=0.03,minInt=0.0002,ItemNum=50,TRecordNum=12024)。
表6不同置信度阈值下挖掘的正负关联规则数量比较
实验3:挖掘时间效率性能比较
为了比较2种方法挖掘时间效率性能,我们分别在支持度阈值变化情况下和置信度阈值变化情况下统计本文发明AWPNAR-Mining和对比方法PNAR-Mining的挖掘时间,其结果如表7和表8所示(minInt=0.0002,ItemNum=50,TRecordNum=12024)。表7表示支持度阈值变化情况下2种挖掘方法在实验文档测试集中挖掘项集和关联规则的时间比较(minconf=0.0002),表8表示置信度阈值变化情况下的挖掘正负关联规则时间比较(minsup=0.03)。
表7不同支持度阈值下挖掘项集和关联规则时间(单位:秒)比较
表8不同置信度阈值下挖掘正负关联规则的时间(单位:秒)比较
实验4:可扩展性能分析
我们从项目数量变化和数据测试集规模变化两种情况对本发明方法的可扩展性能实验与分析。
为了测试本发明的可扩展性,设置实验参数:ItemNum=50,TRecordNum=12024,minsup=0.05,minconf=0.07,minInt=0.001,在项目数量变化和数据测试集规模分别变化情况下,本发明AWPNAR-Mining方法在数据测试集1中挖掘频繁项集(FI)、负项集(NI)和正负关联规则(PNAR)等模式数量变化结果如图9至图14所示。
总之,上述实验结果表明,与对比方法PNAR-Mining比较,本发明AWPNAR-Mining方法的挖掘性能达到了很好的效果,挖掘效率得到极大地提高;无论是在支持度阈值变化情况或者置信度阈值变化情况,本发明挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比对比方法的少很多。