CN103838854B

CN103838854B - 用于发现文本词间关联规则的完全加权模式挖掘方法

Info

Publication number: CN103838854B
Application number: CN201410096985.2A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2014-03-14
Filing date: 2014-03-14
Publication date: 2017-03-22
Anticipated expiration: 2034-03-14
Also published as: CN103838854A

Abstract

一种用于发现文本词间关联规则的完全加权正负模式挖掘方法，通过将待处理的完全加权数据进行预处理，构建完全加权数据库和项目库；挖掘完全加权频繁项集和负项集，剪枝获得有趣的完全加权频繁项集和负项集；采用支持度‑CPIR模型‑相关性‑兴趣度评价框架，挖掘有效的完全加权正负关联规则。本发明能够克服现有加权挖掘技术的缺陷，将项目权值客观分布于数据库中并随事务记录变化的完全加权数据特点融入该发明技术中，获得更加实际合理的完全加权正负关联模式，避免无效的和无趣的关联模式产生，所挖掘的候选项集、频繁项集和负项集以及正负关联规则模式数量均比现有技术挖掘的少，挖掘效率得到极大地提高，并且具有良好的可扩展性。

Description

用于发现文本词间关联规则的完全加权模式挖掘方法

技术领域

本发明属于数据挖掘领域，具体是一种用于发现文本词间关联规则的完全加权正负模式挖掘方法，适用于文本挖掘中特征词关联模式发现以及文本信息检索查询扩展等领域。

背景技术

近20年来，关联规则挖掘得到众多学者的极大兴趣和研究，已经成为数据挖掘研究的一个热点之一，其研究主要集中在基于项目频度挖掘和基于项目权值挖掘等两个方面。

基于项目频度的正负关联模式挖掘的主要特点是平等一致地处理数据库中的项目，以项集在数据库中出现的概率作为支持度挖掘关联模式。基于项目频度的关联规则挖掘存在的缺陷是：只重视项目频度，忽略项目权值，常常导致冗余的、无趣的和无效的关联规则增多。

为了克服上述关联规则挖掘方法的缺陷，基于项目权值的正负关联规则挖掘得到了重视和研究，其引入了项权重，以体现项目之间具有不同的重要性和项目在数据库中具有不同的权值。基于项目权值的正负关联规则挖掘分为加权正负关联规则挖掘和完全加权正负关联规则挖掘。加权正负关联规则挖掘的主要特点是其项目权值体现了项集之间具有不同的重要性，随着研究的深入，加权负关联规则的作用日显突出，在挖掘有利因素的同时也期望发现一些不利因素，通过负关联规则的分析可以达到此目的。加权关联规则挖掘的缺陷是忽略了项目权值在数据库各个事务记录中具有不同权值的情况。将项目权值客观分布于事务记录并随记录变化而变化的数据称为完全加权数据。现有加权关联规则挖掘方法不能适用完全加权数据挖掘，为此，2003年以来，完全加权关联规则挖掘研究得到了关注和研究，当前，完全加权正负关联规则挖掘技术在文本挖掘、信息检索等领域有重要的理论和应用价值。完全加权关联规则挖掘方法能够有效地克服加权关联规则挖掘的缺陷，但还不能解决完全加权负关联规则挖掘技术问题。针对这些问题，本发明对完全加权正负关联规则挖掘进行深入研究，提出一种新的基于项内权值比和维数比的完全加权正负关联规则挖掘方法，应用于文本信息检索查询扩展，可以提高检索性能，应用于文本挖掘，可以发现更加实际合理的正负特征词关联模式。

发明内容

本发明的目的在于针对现有技术存在的不足，提供一种用于发现文本词间关联规则的完全加权模式挖掘方法，丰富基于项目权值挖掘的关联规则挖掘技术成果，解决项完全加权正负关联规则挖掘中的技术难题。该方法在文本挖掘、文本信息检索等领域有重要的理论价值和广阔的应用前景。

本发明实现上述目的所采取的技术方案是：一种用于发现文本词间关联规则的完全加权模式挖掘方法，包括如下步骤：

（1）完全加权数据预处理阶段：

现实世界中，存在海量的完全加权数据，如文本信息数据等。完全加权数据预处理方法要视具体的数据对象而定，例如，对于中文文本数据信息，则要进行分词、去除停用词、提取特征词及其权值计算等预处理方法；对于英文文本数据信息，预处理方法是词干提取、排除停用词、词汇分析、提取特征词及其权值计算等。完全加权数据预处理的结果是构建基于完全加权数据库和项目库；

对于文本数据的特征词权值计算公式是：w_ij=(0.5+0.5×tf_ij/max_j(tf_ij))×idf_i，

其中，w_ij为第i个特征词在第j篇文档的权值，tf_ij为第i个特征词在第j篇文档的词频，idf_i为第i个特征词的逆向文档频度，其值idf_i=log(N/df_i)，N为文档集中文档总数，df_i为含有第i个特征词的文档数量。

（2）完全加权频繁项集和负项集挖掘阶段，包括以下步骤2.1和步骤2.2：

2.1、从项目库中提取完全加权候选1_项集awC₁，并挖掘完全加权频繁1_项集awL₁；具体步骤按照2.1.1～2.1.3进行：

2.1.1、从项目库中提取完全加权候选1_项集awC₁；

2.1.2、累加完全加权候选1_项集awC₁在完全加权数据库(All-WeightedDatabase，简称AWD)中的权值总和，计算其支持度；

awC₁支持度计算公式如下：

其中，表示项目i_j在事务记录T_i中的权值总和，n为完全加权数据库AWD的事务记录总数，k为项集awC₁的长度（即awC₁的项目个数）。

2.1.3、将完全加权候选1_项集C₁中支持度大于或等于最小支持度阈值minsup的完全加权频繁1_项集awL₁加入到频繁项集集合awPIS；

2.2、从完全加权候选2_项集开始，按照步骤2.2.1～2.2.4进行操作：

2.2.1、将完全加权频繁(i-1)_项集awL_i-1进行Apriori连接，生成完全加权候选i_项集awC_i；所述的i≥2；

2.2.2、累加完全加权候选i_项集awC_i-1在完全加权数据库AWD中的权值总和，计算其支持度awsup(awC_i-1)，其计算公式如下：

其中，表示项目i_j在事务记录T_i中的权值总和，n为完全加权数据库AWD的事务记录总数，k为项集awC_i-1的长度。

2.2.3、从完全加权候选i_项集awC_i中将其支持度不小于支持度阈值minsup的频繁i_项集awL_i取出，存入完全加权频繁项集集合awPIS，同时，将其支持度小于支持度阈值的完全加权负i_项集awN_i存入完全加权负项集集合awNIS。

2.2.4、将i的值加1，如果频繁(i-1)_项集awL_i-1为空（即其长度为0）就转入（3）步，否则，继续2.2.1～2.2.3步骤；

（3）剪枝阶段：通过剪枝阶段获得有趣的完全加权频繁项集和负项集

3.1、对于频繁项集集合awPIS中的每一个频繁i-项集awL_i，计算IAWFI(awL_i)值，剪除其IAWFI(awL_i)值为假的频繁项集，剪枝后得到有趣的完全加权频繁项集集合awPIS;IAWFI(awL_i)计算公式如下：

其中，awItemsetInt(I₁∪I₂)=awsup(I₁)×awsup(I₁∪I₂)×(1–awsup(I₂))，awItemsetInt(﹁I₁,﹁I₂)=awsup(I₂)×(1–awsup(I₁))×(1–awsup(I₁)–awsup(I₂)＋awsup(I₁∪I₂))，minInt为最小兴趣度阈值，minsup最小支持度阈值。

3.2、对于负项集集合awNIS中的每一个负i-项集awN_i，计算IAWNI(awN_i)值，剪除其IAWNI(awN_i)值为假的负项集，剪枝后得到有趣的完全加权负项集集合awNIS;IAWNI(awN_i)的计算公式如下：

其中，awItemsetInt(I₁∪I₂)=awsup(I₁)×awsup(I₁∪I₂)×(1–awsup(I₂))

awItemsetInt(I₁∪﹁I₂)=awsup(I₁)×awsup(I₂)×(awsup(I₁)–awsup(I₁∪I₂))

awItemsetInt(﹁I₁∪I₂)=(1–awsup(I₁))×(1–awsup(I₂)×(awsup(I₂)–awsup(I₁∪I₂))

awItemsetInt(﹁I₁∪﹁I₂)=awsup(I₂)×(1–awsup(I₁))×(1–awsup(I₁)–awsup(I₂)＋awsup(I₁∪I₂))

（4）从有趣的完全加权频繁项集集合awPIS中挖掘有效的完全加权正负关联规则，包括以下步骤：

4.1、从有趣的完全加权频繁项集集合awPIS取出频繁项集awL_i，求出awL_i的所有真子集，构建awL_i的真子集集合，然后进行下列操作：

4.2.1、从awL_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的交集为空集(I₁∩I₂=φ)，I₁和I₂的项目个数之和等于其原频繁项集的项目个数(I₁∪I₂=awL_i)，以及I₁和I₂的支持度都不小于支持度阈值(awsup(I₁)≥minsup,awsup(I₂)≥minsup)，则计算频繁项集(I₁∪I₂)的项内权值比awIWR(I₁,I₂)及其维数比awIDR(I₁,I₂)；awIWR(I₁,I₂)和awIDR(I₁,I₂)的计算公式如下：

w₁₂和w₁、w₂分别为完全加权项集(I₁,I₂)及其子项集I₁和I₂在完全加权数据库AWD中的权值总和，k₁₂，k₁和k₂分别为项集(I₁,I₂)及其子项集I₁和I₂的项目个数，n为数据库中事务记录总数。

4.2.2、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I₁,I₂))的乘积大于其维数比(awIDR(I₁,I₂))时（即n×awIWR(I₁,I₂)>awIDR(I₁,I₂)），进行如下操作：

4.2.2.1若I₁→I₂的awCPIR值(awCPIR(I₁→I₂))不小于置信度阈值minconf，则挖掘出完全加权关联规则I₁→I₂；若I₂→I₁的awCPIR值不小于置信度阈值(awCPIR(I₂→I₁)≥minconf)，则挖掘出完全加权关联规则I₂→I₁；awCPIR(I₁→I₂)和awCPIR(I₂→I₁)的计算公式如下：

4.2.2.2若(﹁I₁∪﹁I₂)的支持度不小于支持度阈值(awsup(﹁I₁∪﹁I₂)≥minsup)，那么，①如果﹁I₁→﹁I₂的awCPIR值不小于置信度阈值(awCPIR(﹁I₁→﹁I₂)≥minconf)，则挖掘出完全加权负关联规则﹁I₁→﹁I₂；②如果﹁I₂→﹁I₁的awCPIR值不小于置信度阈值(awCPIR(﹁I₂→﹁I₁)≥minconf)，则挖掘出完全加权负关联规则﹁I₂→﹁I₁；awsup(﹁I₁∪﹁I₂)、awCPIR(﹁I₁→﹁I₂)和awCPIR(﹁I₂→﹁I₁)的计算公式如下：

awsup(﹁I₁∪﹁I₂)=awsup(﹁I₁∪﹁I₂)=1–awsup(I₁)–awsup(I₂)＋awsup(I₁∪I₂)

4.2.3、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I₁,I₂))的乘积小于其维数比(awIDR(I₁,I₂))时（即n×awIWR(I₁,I₂)<awIDR(I₁,I₂)），进行如下操作：

4.2.3.1若(I₁∪﹁I₂)的支持度不小于支持度阈值(awsup(I₁∪﹁I₂)≥minsup)，那么，①如果I₁→﹁I₂的awCPIR值不小于置信度阈值(awCPIR(I₁→﹁I₂)≥minconf)，则挖掘出完全加权负关联规则I₁→﹁I₂；②如果﹁I₂→I₁的awCPIR值不小于置信度阈值(awCPIR(﹁I₂→I₁)≥minconf)，则挖掘出完全加权负关联规则﹁I₂→I₁；awsup(I₁∪﹁I₂)、awCPIR(I₁→﹁I₂)和awCPIR(﹁I₂→I₁)的计算公式如下：

awsup(I₁→﹁I₂)=awsup(I₁∪﹁I₂)=awsup(I₁)–awsup(I₁∪I₂)

4.2.3.2若(﹁I₁∪I₂)的支持度不小于支持度阈值(awsup(﹁I₁∪I₂)≥minsup)，那么，①如果﹁I₁→I₂的awCPIR值不小于置信度阈值(awCPIR(﹁I₁→I₂)≥minconf)，则挖掘出完全加权负关联规则﹁I₁→I₂；②如果I₂→﹁I₁的awCPIR值不小于置信度阈值(awCPIR(I₂→﹁I₁)≥minconf)，则挖掘出完全加权负关联规则I₂→﹁I₁；awsup(﹁I₁∪I₂)、awCPIR(﹁I₁→I₂)和awCPIR(I₂→﹁I₁)的计算公式如下：

awsup(﹁I₁→I₂)=awsup(﹁I₁∪I₂)=awsup(I₂)–awsup(I₁∪I₂)

4.2.4、继续4.2.1～4.2.3步骤，如果awL_i的真子集集合中每个真子集都当且仅当被取出一次，则转入4.2.5步；

4.2.5，继续4.1步骤，如果有趣的完全加权频繁项集集合awPIS中每个频繁项集awL_i都当且仅当被取出一次，则转入（5）步；

（5）从有趣的完全加权负项集集合awNIS中挖掘有效的完全加权负关联规则，包括以下步骤：

5.1、从有趣的完全加权负项集集合awNIS取出负项集awN_i，求出awN_i的所有真子集，构建awN_i的真子集集合，然后进行下列操作：

5.2.1、从awN_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的交集为空集(I₁∩I₂=φ)，I₁和I₂的项目个数之和等于其原频繁项集的项目个数(I₁∪I₂=awN_i)，以及I₁和I₂的支持度都大于或者等于支持度阈值(awsup(I₁)≥minsup,awsup(I₂)≥minsup)，则计算负项集(I₁∪I₂)的项内权值比(awIWR(I₁,I₂))及其维数比(awIDR(I₁,I₂))；awIWR(I₁,I₂)和awIDR(I₁,I₂)的计算公式同4.2.1的公式。

5.2.2、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I₁,I₂))的乘积大于其维数比(awIDR(I₁,I₂))时（即n×awIWR(I₁,I₂)>awIDR(I₁,I₂)），进行如下操作：

5.2.2.1若(﹁I₁∪﹁I₂)的支持度大于或者等于支持度阈值(awsup(﹁I₁∪﹁I₂)≥minsup)，那么，①如果﹁I₁→﹁I₂的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I₁→﹁I₂)≥minconf)，则挖掘出完全加权负关联规则﹁I₁→﹁I₂；②如果﹁I₂→﹁I₁的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I₂→﹁I₁)≥minconf)，则挖掘出完全加权负关联规则﹁I₂→﹁I₁；awsup(﹁I₁∪﹁I₂)、awCPIR(﹁I₁→﹁I₂)和awCPIR(﹁I₂→﹁I₁)的计算公式同4.2.2.2的公式。

5.2.3、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I₁,I₂))的乘积小于其维数比(awIDR(I₁,I₂))时（即n×awIWR(I₁,I₂)<awIDR(I₁,I₂)）：

5.2.3.1若(I₁∪﹁I₂)的支持度大于或者等于支持度阈值(awsup(I₁∪﹁I₂)≥minsup)，那么，①如果I₁→﹁I₂的awCPIR值大于或者等于置信度阈值(awCPIR(I₁→﹁I₂)≥minconf)，则挖掘出完全加权负关联规则I₁→﹁I₂；②如果﹁I₂→I₁的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I₂→I₁)≥minconf)，则挖掘出完全加权负关联规则﹁I₂→I₁；awsup(I₁∪﹁I₂)、awCPIR(I₁→﹁I₂)和awCPIR(﹁I₂→I₁)的计算公式同4.2.3.1的公式；

5.2.3.2若(﹁I₁∪I₂)的支持度大于或者等于支持度阈值(awsup(﹁I₁∪I₂≥minsup)，那么，①如果﹁I₁→I₂的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I₁→I₂)≥minconf)，则挖掘出完全加权负关联规则﹁I₁→I₂；②如果I₂→﹁I₁的awCPIR值大于或者等于置信度阈值(awCPIR(I₂→﹁I₁)≥minconf)，则挖掘出完全加权负关联规则I₂→﹁I₁；awsup(﹁I₁∪I₂)、awCPIR(﹁I₁→I₂)和awCPIR(I₂→﹁I₁)的计算公式同4.2.3.2的公式；

5.2.4、继续5.2.1～5.2.3步骤，如果awN_i的真子集集合中每个真子集都当且仅当被取出一次，则转入5.2.5步；

5.2.5，继续5.1步骤，如果有趣的完全加权负项集集合awNIS中每个负项集awN_i都当且仅当被取出一次，则完全加权正负关联规则挖掘结束；

至此，完全加权正负关联规则挖掘结束。

本发明与现有技术相比，具有以下有益效果：

（1）针对现有加权正负关联规则挖掘的缺陷，本发明构建了完全加权正负关联模式评价框架：支持度-CPIR模型(Conditional Probability Increment Ratio)-相关性-兴趣度，以及频繁项集和负项集的剪枝策略，提出了一种新的基于SCPIRCI评价框架的完全加权正负关联规则挖掘方法，有效地解决完全加权正负关联规则挖掘技术问题。本发明不仅考虑项目随数据库记录变化而变化的完全加权数据特点，采用新的项集剪枝策略，挖掘时间得到大幅度减少，极大地提高挖掘效率。

（2）提出了完全加项集项内权值比和维数比概念，丰富了完全加权数据挖掘的理论。

（3）通过大量严格而细致的实验，将本发明与传统的项无加权正负关联规则挖掘方法进行实验比较。以中文Web测试集CWT200g为实验文档测试集，从支持度变化、置信度变化、项目数量以及文档集规模变化等方面对本发明技术的挖掘性能进行实验分析。实验结果表明：与对比方法比较，本发明技术的挖掘性能达到了很好的效果，挖掘效率得到极大地提高；无论是在支持度阈值变化情况或者置信度阈值变化情况，本发明技术挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比现有对比方法挖掘的少很多；在项目数量和事务文档规模变化情况下，本发明也表现出良好的可扩展性。主要原因分析如下：对比方法是基于项目频度挖掘的无加权正负关联规则挖掘方法，没有考虑项集权值，没有能全面反映完全加权数据固有的特点，因而，会产生很多无效的和虚假的项集和正负关联规则模式，使得项集和规则的数量多得多，其挖掘效率大大减低。本发明属于基于权值挖掘的完全加权正负关联规则挖掘方法，有效地克服了对比方法的固有缺陷，将完全加权数据模型具有的特点（即项目权值客观分布于事务记录中随着记录变化而变化）融入整个挖掘过程中，使得所挖掘的关联规则更合理和更接近实际，同时，采用了新的剪枝策略，使得无效和无趣的频繁项集和负项集数量大幅度减少，有效地减少了无趣的规则出现，大大地提高了挖掘效率。

附图说明

图1为本发明所述的用于发现文本词间关联规则的完全加权模式挖掘方法的框图。

图2为本发明所述的用于发现文本词间关联规则的完全加权模式挖掘方法的总体流程示意图。

图3是本发明实验1中不同支持度阈值下挖掘的候选项集数量比较图。

图4是本发明实验1中不同支持度阈值下挖掘的频繁项集数量比较图。

图5是本发明实验1中不同支持度阈值下挖掘的规则(A→B)数量比较图。

图6是本发明实验1中不同支持度阈值下挖掘的负规则(A→﹁B)数量比较图。

图7是本发明实验1中不同支持度阈值下挖掘的负规则(﹁A→B)数量比较图。

图8是本发明实验1中不同支持度阈值下挖掘的负规则(﹁A→﹁B)数量比较图。

图9是本发明实验2中不同项目数的候选、频繁和负项集数量变化图。

图10是本发明实验2中不同项目数的正负关联规则数量变化图。

图11是本发明实验2中不同项目数的负关联规则数量变化图。

图12是本发明实验2中不同文档规模的候选、频繁和负项集数量变化图。

图13是本发明实验2中不同文档规模的负关联规则数量变化图。

图14是本发明实验2中不同文档规模的正负关联规则数量变化图。

具体实施例方式

为了更好地说明本发明的技术方案，下面将本发明涉及的完全加权数据模型和相关的概念介绍如下：

1.加权关联规则挖掘和完全加权关联规则挖掘的区别

加权关联规则挖掘和完全加权关联规则挖掘，它们的主要区别是其项目权值来源和所挖掘的数据模型不同，前者的项目权值由用户主观设定，并独立于事务数据库，一旦设定，在整个挖掘过程中恒定不变，例如，商店里的复印纸和传真机，由于复印纸售价不如传真机的高，其单件利润比传真机的低，为了体现商品对利润贡献的重要性不同，用户将单件利润较高的传真机商品赋予较高的权值，而复印纸商品的权值相对较低，其权值设定后，就固定不变，而且独立于其交易数据库；后者的项目权值并不是由用户设定，而是来源于事务数据库各个事务记录中，并随事务记录不同而变化，例如，海量的文本数据库中各个特征词项目权值是来源于其数据库中各个文档，随着文档不同而变化，即对于不同的文档，其特征词项目权值是不同。

项加权数据模型和项完全加权数据模型分别是加权关联规则挖掘和完全加权关联规则挖掘的数据模型，是完全不同的两类数据模型，如表1和表2所示，其中是{i₁,i₂,...,i_m}是其项目集合，{T₁,T₂,...,T_n}是其事务集合。在加权数据模型中，{w₁,w₂,...,w_m}是其项目权值，“1/0”的“1”表示项目在事务记录中出现，“0”表示不出现的情况。在完全加权数据模型中，“w[T_i][i_j]/0(1≤i≤n,1≤j≤m)”表示项目的权值，若项目在事务记录中出现，其权值为“w[T_i][i_j]”，否则为“0”。

表1项加权数据模型表2项完全加权数据模型

实例：表3有5个项目和5个事务记录，其中项目集合是{i₁,i₂,i₃,i₄,i₅}={Apple,Orange,Banana,Milk,Coca-cola}，从表3可知，i₁没有出现在T₃事务记录中。表4是一个项完全加权数据实例，项目和事务记录数量和同表3的，其中，项目i₁在事务记录T₁,T₂,T₃,T₅中的权值分别是0.85,0.93,0.65,0.75，没有出现在事务记录T₄，故其权值为0。

表3项加权数据实例表4项完全加权数据实例

2.完全加权数据挖掘基本概念

设完全加权数据库AWD={T₁,T₂,...,T_n}，事务数为n，T_i(1≤i≤n)表示AWD中的第i个事务，项集I={i₁,i₂,...,i_m}表示AWD中全部项目集合，项目数为m，i_j(1≤j≤m)表示AWD中第j个项目，w[T_i][i_j](1≤i≤n,1≤j≤m)表示项目i_j在事务记录T_i中的权值，详见表2的项完全加权数据模型。设I₁,I₂是项集I的子项集，且，给出如下基本定义：

定义1(完全加权支持度:All-weighted support,简称awsup)：完全加权支持度awsup(I)的计算公式如式(1)所示。

其中，，n为完全加权数据库AWD的事务记录总数，k为项集I的长度（即I的项目个数）。

完全加权负项集和负关联规则支持度如式(2)至式(5)所示。

awsup(﹁I)=1–awsup(I) (2)

awsup(I₁→﹁I₂)=awsup(I₁∪﹁I₂)=awsup(I₁)–awsup(I₁∪I₂) (3)

awsup(﹁I₁→I₂)=awsup(﹁I₁∪I₂)=awsup(I₂)–awsup(I₁∪I₂) (4)

awsup(﹁I₁→﹁I₂)=awsup(﹁I₁∪﹁I₂)=1–awsup(I₁)–awsup(I₂)＋awsup(I₁∪I₂) (5)

定义2(完全加权频繁项集和负项集)：设最小支持度阈值为minsup，对于完全加权项集I，若awsup(I)≥minsup，则称项集I为完全加权频繁项集。对于完全加权项集(I₁∪I₂)，当I₁和I₂都是频繁项集时，若awsup(I₁∪I₂)<minsup，则项集(I₁∪I₂)称为完全加权负项集。

实例：设minsup=0.1，表4数据中，awsup(i₂)=(0.21+0.35+0.05)/(5×1)=0.122>minsup，awsup(i₄)=0.192>minsup，awsup(i₂∪i₄)=0.06<minsup，故项集(i₂∪i₄)是完全加权负项集。

定义3(完全加权项集兴趣度：All-weighted Itemset Interest,即awItemsetInt)：兴趣度是用户对所挖掘的关联模式关注程度的度量，其值越高，说明该关联模式越新奇，用户对其关注程度就越高。基于无加权数据挖掘环境下的兴趣度模型定义(程继华,郭建生,施鹏飞.挖掘所关注规则的多策略方法研究[J].计算机学报,2000,23(1):47-51.),给出完全加权项集兴趣度(awItemsetInt)计算公式如式(6)至式(9)所示：

awItemsetInt(I₁∪I₂)=awsup(I₁)×awsup(I₁∪I₂)×(1–awsup(I₂)) (6)

awItemsetInt(I₁∪﹁I₂)=awsup(I₁)×awsup(I₂)×(awsup(I₁)–awsup(I₁∪I₂)) (7)

awItemsetInt(﹁I₁∪I₂)=(1–awsup(I₁))×(1–awsup(I₂)×(awsup(I₂)–awsup(I₁∪I₂)) (8)

awItemsetInt(﹁I₁∪﹁I₂)=awsup(I₂)×(1–awsup(I₁))×(1–awsup(I₁)–awsup(I₂)＋awsup(I₁∪I₂)) (9)

定义4(完全加权CPIR值：All-weighted Conditional_Probability IncrementRatio,简称awCPIR)：CPIR模型是用条件概率和先验概率的比值来表达p(I₂/I₁)相对p(I₂)的递增程度，文献中给出了其计算公式：CPIR(I₂/I₁)=(p(I₂/I₁)–p(I₂))/(1–p(I₂))。基于CPIR模型的计算公式以及完全加权数据挖掘的需要，给出完全加权正负关联规则的awCPIR计算公式如式(10)至式(13)所示：

将awCPIR值作为完全加权关联规则的置信度，其值越大，说明该关联规则的可信度愈高，越受用户关注。

实例：表4完数据中，awsup(i₁)=0.636，awsup(﹁i₁)=1－0.636=0.364，awsup(i₂)=0.122，awsup(i₁∪i₂)=0.294，awCPIR(i₁→i₂)=(|0.294－0.636×0.122|)/(0.636×(1－0.122))=0.39，awCPIR(i₁→﹁i₂)=2.79，awCPIR(﹁i₁→i₂)=0.68，awCPIR(﹁i₁→﹁i₂)=4.86。

定义5(完全加权项内权值比：All-weighted Weight Ratio from Itemset,简称awIWR):设w₁₂和w₁、w₂分别为完全加权项集(I₁,I₂)及其子项集I₁和I₂在完全加权数据库AWD中的权值总和，将w₁₂和(w₁×w₂)的比值称为完全加权项集内权值比率，简称项内权值比(awIWR(I₁,I₂))，即式(14)所示。

定义6(完全加权项内维数比：All-weighted Dimension Ratio from Itemset,简称awIDR)：设k₁₂，k₁和k₂分别为项集(I₁,I₂)及其子项集I₁和I₂的项目个数，将k₁₂和(k₁×k₂)的比值称为完全加权项集内维数比率，简称项内维数比(awIDR(I₁,I₂))，即式(15)所示。

定义7(完全加权项集相关性:All-weighted itemset correlation，简称awISCorr)：基于传统的项集相关性定义(Chengqi Zhang,Shichao Zhang.Associationrule mining:models and algorithms[M].Springer-Verlag Berlin,Heidelberg,2002:47-84,ISBN:3-540-43533-6.)，给出完全加权项集(I₁,I₂)相关性(awISCorr(I₁,I₂)，)的计算公式如式(16)所示。

根据相关性的性质，在完全加权数据挖掘环境下，项集(I₁,I₂)相关性具有如下性质：

性质1：

性质2：

性质3：

性质4：②awISCorr(﹁I₁,I₂)<1;③awISCorr(﹁I₁,﹁I₂)>1。

性质5：②awISCorr(﹁I₁,I₂)>1;③awISCorr(﹁I₁,﹁I₂)<1。

推论在完全加权数据挖掘环境中，已知项集(I₁,I₂)，且①若n×awIWR(I₁,I₂)>awIDR(I₁,I₂)，则完全加权子项集I₁和I₂成正相关，并且能挖掘出完全加权正关联规则I₁→I₂和负关联规则﹁I₁→﹁I₂模式；②若n×awIWR(I₁,I₂)<awIDR(I₁,I₂)，则完全加权项集I₁和I₂成负相关，并且能挖掘出完全加权负关联规则I₁→﹁I₂和﹁I₁→I₂模式；

根据上述推论，在挖掘完全加权关联规则时，只需计算完全加权项内权值比awIWR(I₁,I₂)和维数比awIDR(I₁,I₂)，不需计算项集相关性，就可以直接从频繁项集和负项集中挖掘完全加权正负关联规则。

实例：对于(i₁,i₂,i₃)，设I₁=(i₁,i₂)，I₂=(i₃)，则awIWR(I₁,I₂)=3.34/(2.94×2.85)=0.399，awIDR(I₁,I₂)=3/(2×1)=1.5，n×awIWR(I₁,I₂)=5×0.5517=1.995>1.5=awIDR(I₁,I₂)，根据上述推论，I₁和I₂成正相关，能挖掘出关联规则I₁→I₂和负关联规则﹁I₁→﹁I₂模式。采用式(16)验证：awsup(i₁∪i₂)=0.294，awsup(i₃)=0.57，awsup(i₁∪i₂∪i₃)=0.223，awISCorr(I₁,I₂)=0.223/(0.294×0.57)=1.33>1，由性质1和性质4，I₁和I₂成正相关，可挖掘出关联规则I₁→I₂和负关联规则﹁I₁→﹁I₂模式，结论一致。

同理，对于完全加权项集(i₂,i₄)，其awIWR(i₂,i₄)=0.102，awIDR(i₂,i₄)=2，n×awIWR(i₂,i₄)=0.51<2=awIDR(i₂,i₄)，根据推论可知，i₂和i₄成负相关，可挖掘出i₂→﹁i₄和﹁i₂→i₄模式。

定义8(有效的完全加权正负关联规则)：设minconf为最小置信度阈值，当完全加权项集I₁和I₂满足如下3个条件，则称关联规则I₁→I₂、﹁I₁→﹁I₂、I₁→﹁I₂和﹁I₁→I₂为有效的完全加权正负关联规则：①I₁和I₂是完全加权频繁项集，I₁∩I₂=φ；②I₁→I₂、﹁I₁→﹁I₂、I₁→﹁I₂和﹁I₁→I₂的支持度大于等于minsup；③I₁→I₂、﹁I₁→﹁I₂、I₁→﹁I₂和﹁I₁→I₂的awCPIR值不小于minconf。

实例：假设minsup=0.1，minconf=0.3，从上例中知道，完全加权项集(i₁,i₂)、(i₃)和(i₁,i₂,i₃)的支持度都大于minsup，(i₁,i₂)和(i₃)成正相关，又因为，awCPIR((i₁,i₂)→(i₃))=|0.223–0.94×0.57|/(0.294×(1–0.57))=0.438>minconf，awCPIR(﹁(i₁,i₂)→﹁(i₃))=0.138<minconf，根据性质4和定义8，(i₁,i₂)→(i₃)是个有效的完全加权正关联规则，而负规则﹁(i₁,i₂)→﹁(i₃)不是有效的。同理，对于完全加权项集(i₂,i₄)，由于awsup(i₂)=0.122>minsup，awsup(i₄)=0.192>minsup，awsup(i₂∪﹁i₄)=0.062<minsup，awsup(﹁i₂∪i₄)=0.132>minsup，awCPIR(﹁i₂→i₄)=0.052<minconf，根据定义8，负关联规则i₂→﹁i₄和﹁i₂→i₄都不是有效的完全加权负关联规则。

下面通过具体实施例对本发明的技术方案做进一步的说明。

本发明对表4完全加权数据实例挖掘完全加权关联规则的过程如下(其中，minsup=0.1，minInt=0.1，minconf=0.4，w表示项集权值，s代表项集支持度)：

Step1:awPIS={φ}；awNIS={φ}；

Step2:

Step3：① ② ③

Step4：剪枝：对于频繁项集集合awPIS中的项集剪枝。被剪除的频繁项集是：(i₂,i₃),(i₃,i₄),(i₁,i₂,i₅),(i₁,i₃,i₅)，剪枝后的awPIS={(i₁,i₂),(i₁,i₃),(i₁,i₅),(i₁,i₂,i₃)}

Step5:同理，在负项集集合awNIS中，被剪除的负项集是：(i₃,i₅)，剪枝后的awNIS={(i₁,i₄),(i₂,i₄),(i₂,i₅),(i₄,i₅)}。

Step6:从频繁项集集合awPIS中和负项集集合awNIS中挖掘完全加权正负关联规则，以频繁项集(i₁,i₂,i₃)和负项集(i₄,i₅)为例，给出其挖掘过程如下：

对于频繁项集(i₁,i₂,i₃)，以其子集I₁=(i₁)和I₂=(i₂,i₃)为例，从上例中可知，awsup(i₁)、awsup(i₂,i₃)均大于minsup，awIDR(I₁,I₂)=1.5，n×awIWR(I₁,I₂)=2.98>awIDR(I₁,I₂)，awsup(I₁∪I₂)=0.223>minsup，awCPIR(I₁→I₂)=0.212<minconf，awCPIR(I₂→I₁)=1.73>minconf；awsup(﹁I₁∪﹁I₂)=0.411>minsup，awCPIR(﹁I₁→﹁I₂)=1.73>minconf，awCPIR(﹁I₂→﹁I₁)=0.212<minconf，因此，I₂→I₁和﹁I₁→﹁I₂(即(i₂,i₃)→(i₁)和﹁(i₁)→﹁(i₂,i₃))是个有效的完全加权正负关联规则。

对于负项集(i₄,i₅)，其子集I₁=(i₄)和I₂=(i₅)，从上例中可知，awsup(i₄)、awsup(i₅)均大于minsup，awIDR(I₁,I₂)=2，n×awIWR(I₁,I₂)=1.03<awIDR(I₁,I₂)，awsup(I₁∪﹁I₂)=0.101>minsup，awsup(﹁I₁∪I₂)=0.093<minsup，awCPIR(I₁→﹁I₂)=1.577>minconf，awCPIR(﹁I₂→I₁)=0.084<minconf，因此，I₁→﹁I₂(即(i₄)→﹁(i₅))是个有效的完全加权负关联规则。

下面通过实验对本发明的有益效果做进一步说明。

为了验证本发明的有效性、正确性和扩展性，我们选择由北京大学网络实验室提供的中文Web测试集CWT200g(Chinese Web Test Collection with200GB web pages)的部分语料作为本文实验数据测试集。实验的运行环境为Intel(R)Core(TM)[email protected],内存4.0G，操作***为windows7，编程语言实现采用delphi2006，数据库***为SQL Server2008。选择典型的无加权正负关联规则挖掘方法（Xindong Wu,ChengqiZhang,and Shichao Zhang,Efficient Mining of Both Positive and NegativeAssociation Rules,ACM Transactions on Information Systems,22(2004),3:381-405.）(记为PNAR-Mining方法)为实验对比方法。

中文Web测试集CWT200g的容量为197GB，包含37,482,913个网页，每个页面按照天网存储格式进行压缩整理。从CWT200g测试集中提取了12024篇纯文本文档作为实验文档测试集。采用汉语词法分析***ICTCLAS(中国科学院计算技术研究所研制编写)对测试文本文档分词。特征词权值(w_ij)的计算公式为w_ij=(0.5+0.5×tf_ij/max_j(tf_ij))×idf_i。实验测试文档的预处理过程是：分词、去停用词、提取特征词和计算其权值，构建基于向量空间模型的文本数据库和特征词库。实验文档测试集预处理后，得到8751个特征词，其文档频度(即含有该特征词的文档数量)df是51至11258。根据挖掘需要，实验中去掉df值比较低和比较高的特征词，提取df值在1500到5838的特征词（此时共得到400个特征词）构建特征词项目库。特征词在12024篇实验测试文档中出现的总频次是1019494次，平均在每篇文档中出现85次。实验参数如表5所示。

表5实验参数表

实验1：支持度阈值变化情况下挖掘性能比较

在不同支持度阈值下，本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘项集(即候选项集(Candidate Itemset,CI)、频繁项集(FrequentItemset,FI)、负项集(Negative Itemset,NI))和正负关联规则(Positive and NegativeAssociation Rule,PNAR)数量比较如图3至图8所示(ItemNum=50,minconf=0.0002,minInt=0.0002,TRecordNum=12024)。

实验2：置信度阈值变化情况下挖掘性能比较

置信度阈值变化情况下本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘正负关联规则(A→B、A→﹁B、﹁A→B和﹁A→﹁B)数量比较如表6所示(minsup=0.03,minInt=0.0002，ItemNum=50，TRecordNum=12024)。

表6不同置信度阈值下挖掘的正负关联规则数量比较

实验3：挖掘时间效率性能比较

为了比较2种方法挖掘时间效率性能，我们分别在支持度阈值变化情况下和置信度阈值变化情况下统计本文发明AWPNAR-Mining和对比方法PNAR-Mining的挖掘时间，其结果如表7和表8所示(minInt=0.0002，ItemNum=50，TRecordNum=12024)。表7表示支持度阈值变化情况下2种挖掘方法在实验文档测试集中挖掘项集和关联规则的时间比较(minconf=0.0002)，表8表示置信度阈值变化情况下的挖掘正负关联规则时间比较(minsup=0.03)。

表7不同支持度阈值下挖掘项集和关联规则时间(单位：秒)比较

表8不同置信度阈值下挖掘正负关联规则的时间(单位：秒)比较

实验4：可扩展性能分析

我们从项目数量变化和数据测试集规模变化两种情况对本发明方法的可扩展性能实验与分析。

为了测试本发明的可扩展性，设置实验参数：ItemNum=50，TRecordNum=12024,minsup=0.05，minconf=0.07，minInt=0.001，在项目数量变化和数据测试集规模分别变化情况下，本发明AWPNAR-Mining方法在数据测试集1中挖掘频繁项集(FI)、负项集(NI)和正负关联规则(PNAR)等模式数量变化结果如图9至图14所示。

总之，上述实验结果表明，与对比方法PNAR-Mining比较，本发明AWPNAR-Mining方法的挖掘性能达到了很好的效果，挖掘效率得到极大地提高；无论是在支持度阈值变化情况或者置信度阈值变化情况，本发明挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比对比方法的少很多。

Claims

1.一种用于发现文本词间关联规则的完全加权模式挖掘方法，其特征在于，包括如下步骤：

(1)完全加权数据预处理阶段：将待处理的完全加权数据进行预处理，构建完全加权数据库和项目库；

(2)完全加权频繁项集和负项集挖掘阶段，包括以下步骤2.1和步骤2.2：

2.1、从项目库中提取完全加权候选1_项集，并挖掘完全加权频繁1_项集；具体步骤按照2.1.1～2.1.3进行：

2.1.1、从项目库中提取完全加权候选1_项集；

2.1.2、累加完全加权候选1_项集在完全加权数据库中的权值总和，计算其支持度；

2.1.3、将完全加权候选1_项集中支持度大于或等于最小支持度阈值的完全加权频繁1_项集加入到完全加权频繁项集集合；

2.2.1、将完全加权频繁(i-1)_项集进行Apriori连接，生成完全加权候选i_项集；所述的i≥2；

2.2.2、累加完全加权候选i_项集在完全加权数据库中的权值总和，计算其支持度；

2.2.3、从完全加权候选i_项集中将其支持度不小于支持度阈值的频繁i_项集取出，存入完全加权频繁项集集合，同时，将其支持度小于支持度阈值的完全加权负i_项集存入完全加权负项集集合；

2.2.4、将i的值加1，如果频繁(i-1)_项集为空就转入(3)步，否则，继续2.2.1～2.2.3步骤；

(3)剪枝阶段：通过剪枝阶段获得有趣的完全加权频繁项集和负项集：

3.1、对于频繁项集集合中的每一个频繁i-项集awL_i，计算IAWFI(awL_i)值，剪除其IAWFI(awL_i)值为假的频繁项集，剪枝后得到有趣的完全加权频繁项集集合；IAWFI(awL_i)计算公式如下：

其中，awItemsetInt(I₁∪I₂)＝awsup(I₁)×awsup(I₁∪I₂)×(1–awsup(I₂))，awItemsetInt(﹁I₁,﹁I₂)＝awsup(I₂)×(1–awsup(I₁))×(1–awsup(I₁)–awsup(I₂)+awsup(I₁∪I₂))，minInt为最小兴趣度阈值，minsup最小支持度阈值；

3.2、对于完全加权负项集集合中的每一个负i-项集awN_i，计算IAWNI(awN_i)值，剪除其IAWNI(awN_i)值为假的负项集，剪枝后得到有趣的完全加权负项集集合；IAWNI(awN_i)的计算公式如下：

其中，awItemsetInt(I₁∪I₂)＝awsup(I₁)×awsup(I₁∪I₂)×(1–awsup(I₂))；

awItemsetInt(I₁∪﹁I₂)＝awsup(I₁)×awsup(I₂)×(awsup(I₁)–awsup(I₁∪I₂))；

awItemsetInt(﹁I₁∪I₂)＝(1–awsup(I₁))×(1–awsup(I₂)×(awsup(I₂)–awsup(I₁∪I₂))；

awItemsetInt(﹁I₁∪﹁I₂)＝awsup(I₂)×(1–awsup(I₁))×(1–awsup(I₁)–awsup(I₂)+awsup(I₁∪I₂))；

(4)从有趣的完全加权频繁项集集合中挖掘有效的完全加权正负关联规则，包括以下步骤：

4.1、从有趣的完全加权频繁项集集合取出频繁项集awL_i，求出awL_i的所有真子集，构建awL_i的真子集集合，然后进行下列操作：

4.2.1、从awL_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的交集为空集，I₁和I₂的项目个数之和等于其原频繁项集的项目个数，以及I₁和I₂的支持度都不小于支持度阈值，则计算频繁项集(I₁∪I ₂)的项内权值比awIWR(I₁,I₂)及其维数比awIDR(I₁,I₂)；awIWR(I₁,I₂)及awIDR(I₁,I₂)的计算公式如下：

a w I W R (I_{1}, I_{2}) = \frac{w_{12}}{w_{1} \times w_{2}};

a w I D R (I_{1}, I_{2}) = \frac{k_{12}}{k_{1} \times k_{2}};

w₁₂和w₁、w₂分别为完全加权项集(I₁,I₂)及其子项集I₁和I₂在完全加权数据库AWD中的权值总和，k₁₂，k₁和k₂分别为项集(I₁,I₂)及其子项集I₁和I₂的项目个数；

4.2.2、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I₁,I₂)的乘积大于其维数比awIDR(I₁,I₂)时，即n×awIWR(I₁,I₂)>awIDR(I₁,I₂)时，进行如下操作：

4.2.2.1若I₁→I₂的awCPIR值awCPIR(I₁→I₂)不小于置信度阈值minconf，则挖掘出完全加权关联规则I₁→I₂；若I₂→I₁的awCPIR值awCPIR(I₂→I₁)不小于置信度阈值minconf，则挖掘出完全加权关联规则I₂→I₁；awCPIR(I₁→I₂)和awCPIR(I₂→I₁)的计算公式如下：

awCPIR (I_{1} &RightArrow; I_{2}) = \frac{awsup (I_{2} \cup I_{1}) - awsup (I_{1}) awsup (I_{2})}{awsup (I_{1}) (1 - awsup (I_{2}))};

awCPIR (I_{2} &RightArrow; I_{1}) = \frac{awsup (I_{2} \cup I_{1}) - awsup (I_{1}) awsup (I_{2})}{awsup (I_{1}) (1 - awsup (I_{1}))};

4.2.2.2若﹁I₁∪﹁I₂的支持度awsup(﹁I₁∪﹁I₂)不小于支持度阈值minsup，那么，①如果﹁I₁→﹁I₂的awCPIR值awCPIR(﹁I₁→﹁I₂)不小于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₁→﹁I₂；②如果﹁I₂→﹁I₁的awCPIR值awCPIR(﹁I₂→﹁I₁)不小于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₂→﹁I₁；awsup(﹁I₁∪﹁I₂)、awCPIR(﹁I₁→﹁I₂)和awCPIR(﹁I₂→﹁I₁)的计算公式如下：

awsup(﹁I₁∪﹁I₂)＝awsup(﹁I₁∪﹁I₂)＝1–awsup(I₁)–awsup(I₂)+awsup(I₁∪I₂)；

4.2.3、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I₁,I₂)的乘积小于其维数比awIDR(I₁,I₂)时，即n×awIWR(I₁,I₂)<awIDR(I₁,I₂)时，进行如下操作：

4.2.3.1若I₁∪﹁I₂的支持度awsup(I₁∪﹁I₂)不小于支持度阈值minsup，那么，①如果I₁→﹁I₂的awCPIR值awCPIR(I₁→﹁I₂)不小于置信度阈值minconf，则挖掘出完全加权负关联规则I₁→﹁I₂；②如果﹁I₂→I₁的awCPIR值awCPIR(﹁I₂→I₁)不小于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₂→I₁；awsup(I₁∪﹁I₂)、awCPIR(I₁→﹁I₂)和awCPIR(﹁I₂→I₁)的计算公式如下：

awsup(I₁→﹁I₂)＝awsup(I₁∪﹁I₂)＝awsup(I₁)–awsup(I₁∪I₂)；

4.2.3.2若﹁I₁∪I₂的支持度awsup(﹁I1∪I2)不小于支持度阈值minsup，那么，①如果﹁I₁→I₂的awCPIR值awCPIR(﹁I₁→I₂)不小于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₁→I₂；②如果I₂→﹁I₁的awCPIR值awCPIR(I₂→﹁I₁)不小于置信度阈值minconf，则挖掘出完全加权负关联规则I₂→﹁I₁；awsup(﹁I₁∪I₂)、awCPIR(﹁I₁→I₂)和awCPIR(I₂→﹁I₁)的计算公式如下：

awsup(﹁I₁→I₂)＝awsup(﹁I₁∪I₂)＝awsup(I₂)–awsup(I₁∪I₂)；

4.2.5，继续4.1步骤，如果有趣的完全加权频繁项集集合中每个频繁项集awL_i都当且仅当被取出一次，则转入第(5)步；

(5)从有趣的完全加权负项集集合中挖掘有效的完全加权负关联规则，包括以下步骤：

5.1、从有趣的完全加权负项集集合取出负项集awN_i，求出awN_i的所有真子集，构建awN_i的真子集集合，然后进行下列操作：

5.2.1、从awN_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的交集为空集，I₁和I₂的项目个数之和等于其原频繁项集的项目个数，以及I₁和I₂的支持度都大于或者等于支持度阈值，则计算负项集I₁∪I₂的项内权值比awIWR(I₁,I₂)及其维数比awIDR(I₁,I₂)；

5.2.2、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I₁,I₂)的乘积大于其维数比awIDR(I₁,I₂)时，即n×awIWR(I₁,I₂)>awIDR(I₁,I₂)时，进行如下操作：

5.2.2.1若﹁I₁∪﹁I₂的支持度大于或者等于支持度阈值minsup，那么，①如果﹁I₁→﹁I₂的awCPIR值awCPIR(﹁I₁→﹁I₂)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₁→﹁I₂；②如果﹁I₂→﹁I₁的awCPIR值awCPIR(﹁I₂→﹁I₁)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₂→﹁I₁；

5.2.3、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I₁,I₂)的乘积小于其维数比awIDR(I₁,I₂)时，即n×awIWR(I₁,I₂)<awIDR(I₁,I₂)时，进行如下操作：

5.2.3.1若I₁∪﹁I₂的支持度大于或者等于支持度阈值minsup，那么，①如果I₁→﹁I₂的awCPIR值awCPIR(I₁→﹁I₂)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则I₁→﹁I₂；②如果﹁I₂→I₁的awCPIR值awCPIR(﹁I₂→I₁)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₂→I₁；

5.2.3.2若﹁I₁∪I₂的支持度大于或者等于支持度阈值minsup，那么，①如果﹁I₁→I₂的awCPIR值awCPIR(﹁I₁→I₂)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则﹁I₁→I₂；②如果I₂→﹁I₁的awCPIR值awCPIR(I₂→﹁I₁)大于或者等于置信度阈值minconf，则挖掘出完全加权负关联规则I₂→﹁I₁；

5.2.5、继续5.1步骤，如果有趣的完全加权负项集集合中每个负项集awN_i都当且仅当被取出一次，则完全加权正负关联规则挖掘结束；

“﹁”为负相关符号，﹁I₁表示在事务处理中不出现I₁的事件，称为负项集I₁；I ₁∪﹁I₂表示一个项集，该项集有子项集I₁和负子项集I₂；关联规则I₁→﹁I₂其含义是：如果子集I₁的事件出现或者发生，那么子集I₂的事件不会出现或者不发生。

2.根据权利要求1所述的用于发现文本词间关联规则的完全加权模式挖掘方法，其特征在于，所述的待处理的完全加权数据预处理的具体步骤为，当待处理的完全加权数据为中文文本数据时，进行分词、去除停用词、提取特征词并计算其权值；当待处理的完全加权数据为英文文本数据时，进行词干提取、排除停用词、词汇分析、提取特征词并计算其权值。