CN103838854B - 用于发现文本词间关联规则的完全加权模式挖掘方法 - Google Patents

用于发现文本词间关联规则的完全加权模式挖掘方法 Download PDF

Info

Publication number
CN103838854B
CN103838854B CN201410096985.2A CN201410096985A CN103838854B CN 103838854 B CN103838854 B CN 103838854B CN 201410096985 A CN201410096985 A CN 201410096985A CN 103838854 B CN103838854 B CN 103838854B
Authority
CN
China
Prior art keywords
awsup
weighted
awcpir
negative
fully weighted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410096985.2A
Other languages
English (en)
Other versions
CN103838854A (zh
Inventor
黄名选
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University of Finance and Economics
Original Assignee
Guangxi University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University of Finance and Economics filed Critical Guangxi University of Finance and Economics
Priority to CN201410096985.2A priority Critical patent/CN103838854B/zh
Publication of CN103838854A publication Critical patent/CN103838854A/zh
Application granted granted Critical
Publication of CN103838854B publication Critical patent/CN103838854B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种用于发现文本词间关联规则的完全加权正负模式挖掘方法,通过将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;挖掘完全加权频繁项集和负项集,剪枝获得有趣的完全加权频繁项集和负项集;采用支持度‑CPIR模型‑相关性‑兴趣度评价框架,挖掘有效的完全加权正负关联规则。本发明能够克服现有加权挖掘技术的缺陷,将项目权值客观分布于数据库中并随事务记录变化的完全加权数据特点融入该发明技术中,获得更加实际合理的完全加权正负关联模式,避免无效的和无趣的关联模式产生,所挖掘的候选项集、频繁项集和负项集以及正负关联规则模式数量均比现有技术挖掘的少,挖掘效率得到极大地提高,并且具有良好的可扩展性。

Description

用于发现文本词间关联规则的完全加权模式挖掘方法
技术领域
本发明属于数据挖掘领域,具体是一种用于发现文本词间关联规则的完全加权正负模式挖掘方法,适用于文本挖掘中特征词关联模式发现以及文本信息检索查询扩展等领域。
背景技术
近20年来,关联规则挖掘得到众多学者的极大兴趣和研究,已经成为数据挖掘研究的一个热点之一,其研究主要集中在基于项目频度挖掘和基于项目权值挖掘等两个方面。
基于项目频度的正负关联模式挖掘的主要特点是平等一致地处理数据库中的项目,以项集在数据库中出现的概率作为支持度挖掘关联模式。基于项目频度的关联规则挖掘存在的缺陷是:只重视项目频度,忽略项目权值,常常导致冗余的、无趣的和无效的关联规则增多。
为了克服上述关联规则挖掘方法的缺陷,基于项目权值的正负关联规则挖掘得到了重视和研究,其引入了项权重,以体现项目之间具有不同的重要性和项目在数据库中具有不同的权值。基于项目权值的正负关联规则挖掘分为加权正负关联规则挖掘和完全加权正负关联规则挖掘。加权正负关联规则挖掘的主要特点是其项目权值体现了项集之间具有不同的重要性,随着研究的深入,加权负关联规则的作用日显突出,在挖掘有利因素的同时也期望发现一些不利因素,通过负关联规则的分析可以达到此目的。加权关联规则挖掘的缺陷是忽略了项目权值在数据库各个事务记录中具有不同权值的情况。将项目权值客观分布于事务记录并随记录变化而变化的数据称为完全加权数据。现有加权关联规则挖掘方法不能适用完全加权数据挖掘,为此,2003年以来,完全加权关联规则挖掘研究得到了关注和研究,当前,完全加权正负关联规则挖掘技术在文本挖掘、信息检索等领域有重要的理论和应用价值。完全加权关联规则挖掘方法能够有效地克服加权关联规则挖掘的缺陷,但还不能解决完全加权负关联规则挖掘技术问题。针对这些问题,本发明对完全加权正负关联规则挖掘进行深入研究,提出一种新的基于项内权值比和维数比的完全加权正负关联规则挖掘方法,应用于文本信息检索查询扩展,可以提高检索性能,应用于文本挖掘,可以发现更加实际合理的正负特征词关联模式。
发明内容
本发明的目的在于针对现有技术存在的不足,提供一种用于发现文本词间关联规则的完全加权模式挖掘方法,丰富基于项目权值挖掘的关联规则挖掘技术成果,解决项完全加权正负关联规则挖掘中的技术难题。该方法在文本挖掘、文本信息检索等领域有重要的理论价值和广阔的应用前景。
本发明实现上述目的所采取的技术方案是:一种用于发现文本词间关联规则的完全加权模式挖掘方法,包括如下步骤:
(1)完全加权数据预处理阶段:
现实世界中,存在海量的完全加权数据,如文本信息数据等。完全加权数据预处理方法要视具体的数据对象而定,例如,对于中文文本数据信息,则要进行分词、去除停用词、提取特征词及其权值计算等预处理方法;对于英文文本数据信息,预处理方法是词干提取、排除停用词、词汇分析、提取特征词及其权值计算等。完全加权数据预处理的结果是构建基于完全加权数据库和项目库;
对于文本数据的特征词权值计算公式是:wij=(0.5+0.5×tfij/maxj(tfij))×idfi
其中,wij为第i个特征词在第j篇文档的权值,tfij为第i个特征词在第j篇文档的词频,idfi为第i个特征词的逆向文档频度,其值idfi=log(N/dfi),N为文档集中文档总数,dfi为含有第i个特征词的文档数量。
(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:
2.1、从项目库中提取完全加权候选1_项集awC1,并挖掘完全加权频繁1_项集awL1;具体步骤按照2.1.1~2.1.3进行:
2.1.1、从项目库中提取完全加权候选1_项集awC1
2.1.2、累加完全加权候选1_项集awC1在完全加权数据库(All-WeightedDatabase,简称AWD)中的权值总和,计算其支持度;
awC1支持度计算公式如下:
其中,表示项目ij在事务记录Ti中的权值总和,n为完全加权数据库AWD的事务记录总数,k为项集awC1的长度(即awC1的项目个数)。
2.1.3、将完全加权候选1_项集C1中支持度大于或等于最小支持度阈值minsup的完全加权频繁1_项集awL1加入到频繁项集集合awPIS;
2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:
2.2.1、将完全加权频繁(i-1)_项集awLi-1进行Apriori连接,生成完全加权候选i_项集awCi;所述的i≥2;
2.2.2、累加完全加权候选i_项集awCi-1在完全加权数据库AWD中的权值总和,计算其支持度awsup(awCi-1),其计算公式如下:
其中,表示项目ij在事务记录Ti中的权值总和,n为完全加权数据库AWD的事务记录总数,k为项集awCi-1的长度。
2.2.3、从完全加权候选i_项集awCi中将其支持度不小于支持度阈值minsup的频繁i_项集awLi取出,存入完全加权频繁项集集合awPIS,同时,将其支持度小于支持度阈值的完全加权负i_项集awNi存入完全加权负项集集合awNIS。
2.2.4、将i的值加1,如果频繁(i-1)_项集awLi-1为空(即其长度为0)就转入(3)步,否则,继续2.2.1~2.2.3步骤;
(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集
3.1、对于频繁项集集合awPIS中的每一个频繁i-项集awLi,计算IAWFI(awLi)值,剪除其IAWFI(awLi)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合awPIS;IAWFI(awLi)计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)),awItemsetInt(﹁I1,﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)),minInt为最小兴趣度阈值,minsup最小支持度阈值。
3.2、对于负项集集合awNIS中的每一个负i-项集awNi,计算IAWNI(awNi)值,剪除其IAWNI(awNi)值为假的负项集,剪枝后得到有趣的完全加权负项集集合awNIS;IAWNI(awNi)的计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2))
awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2))
awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2))
awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2))
(4)从有趣的完全加权频繁项集集合awPIS中挖掘有效的完全加权正负关联规则,包括以下步骤:
4.1、从有趣的完全加权频繁项集集合awPIS取出频繁项集awLi,求出awLi的所有真子集,构建awLi的真子集集合,然后进行下列操作:
4.2.1、从awLi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集(I1∩I2=φ),I1和I2的项目个数之和等于其原频繁项集的项目个数(I1∪I2=awLi),以及I1和I2的支持度都不小于支持度阈值(awsup(I1)≥minsup,awsup(I2)≥minsup),则计算频繁项集(I1∪I2)的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);awIWR(I1,I2)和awIDR(I1,I2)的计算公式如下:
w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数,n为数据库中事务记录总数。
4.2.2、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:
4.2.2.1若I1→I2的awCPIR值(awCPIR(I1→I2))不小于置信度阈值minconf,则挖掘出完全加权关联规则I1→I2;若I2→I1的awCPIR值不小于置信度阈值(awCPIR(I2→I1)≥minconf),则挖掘出完全加权关联规则I2→I1;awCPIR(I1→I2)和awCPIR(I2→I1)的计算公式如下:
4.2.2.2若(﹁I1∪﹁I2)的支持度不小于支持度阈值(awsup(﹁I1∪﹁I2)≥minsup),那么,①如果﹁I1→﹁I2的awCPIR值不小于置信度阈值(awCPIR(﹁I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值不小于置信度阈值(awCPIR(﹁I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式如下:
awsup(﹁I1∪﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2)
4.2.3、当数据库中事务记录总数(n)和上述4.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)),进行如下操作:
4.2.3.1若(I1∪﹁I2)的支持度不小于支持度阈值(awsup(I1∪﹁I2)≥minsup),那么,①如果I1→﹁I2的awCPIR值不小于置信度阈值(awCPIR(I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值不小于置信度阈值(awCPIR(﹁I2→I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式如下:
awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2)
4.2.3.2若(﹁I1∪I2)的支持度不小于支持度阈值(awsup(﹁I1∪I2)≥minsup),那么,①如果﹁I1→I2的awCPIR值不小于置信度阈值(awCPIR(﹁I1→I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值不小于置信度阈值(awCPIR(I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式如下:
awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2)
4.2.4、继续4.2.1~4.2.3步骤,如果awLi的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;
4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合awPIS中每个频繁项集awLi都当且仅当被取出一次,则转入(5)步;
(5)从有趣的完全加权负项集集合awNIS中挖掘有效的完全加权负关联规则,包括以下步骤:
5.1、从有趣的完全加权负项集集合awNIS取出负项集awNi,求出awNi的所有真子集,构建awNi的真子集集合,然后进行下列操作:
5.2.1、从awNi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集(I1∩I2=φ),I1和I2的项目个数之和等于其原频繁项集的项目个数(I1∪I2=awNi),以及I1和I2的支持度都大于或者等于支持度阈值(awsup(I1)≥minsup,awsup(I2)≥minsup),则计算负项集(I1∪I2)的项内权值比(awIWR(I1,I2))及其维数比(awIDR(I1,I2));awIWR(I1,I2)和awIDR(I1,I2)的计算公式同4.2.1的公式。
5.2.2、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积大于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)>awIDR(I1,I2)),进行如下操作:
5.2.2.1若(﹁I1∪﹁I2)的支持度大于或者等于支持度阈值(awsup(﹁I1∪﹁I2)≥minsup),那么,①如果﹁I1→﹁I2的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式同4.2.2.2的公式。
5.2.3、当数据库中事务记录总数(n)和上述5.2.1步的项内权值比(awIWR(I1,I2))的乘积小于其维数比(awIDR(I1,I2))时(即n×awIWR(I1,I2)<awIDR(I1,I2)):
5.2.3.1若(I1∪﹁I2)的支持度大于或者等于支持度阈值(awsup(I1∪﹁I2)≥minsup),那么,①如果I1→﹁I2的awCPIR值大于或者等于置信度阈值(awCPIR(I1→﹁I2)≥minconf),则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I2→I1)≥minconf),则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式同4.2.3.1的公式;
5.2.3.2若(﹁I1∪I2)的支持度大于或者等于支持度阈值(awsup(﹁I1∪I2≥minsup),那么,①如果﹁I1→I2的awCPIR值大于或者等于置信度阈值(awCPIR(﹁I1→I2)≥minconf),则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值大于或者等于置信度阈值(awCPIR(I2→﹁I1)≥minconf),则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式同4.2.3.2的公式;
5.2.4、继续5.2.1~5.2.3步骤,如果awNi的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;
5.2.5,继续5.1步骤,如果有趣的完全加权负项集集合awNIS中每个负项集awNi都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;
至此,完全加权正负关联规则挖掘结束。
本发明与现有技术相比,具有以下有益效果:
(1)针对现有加权正负关联规则挖掘的缺陷,本发明构建了完全加权正负关联模式评价框架:支持度-CPIR模型(Conditional Probability Increment Ratio)-相关性-兴趣度,以及频繁项集和负项集的剪枝策略,提出了一种新的基于SCPIRCI评价框架的完全加权正负关联规则挖掘方法,有效地解决完全加权正负关联规则挖掘技术问题。本发明不仅考虑项目随数据库记录变化而变化的完全加权数据特点,采用新的项集剪枝策略,挖掘时间得到大幅度减少,极大地提高挖掘效率。
(2)提出了完全加项集项内权值比和维数比概念,丰富了完全加权数据挖掘的理论。
(3)通过大量严格而细致的实验,将本发明与传统的项无加权正负关联规则挖掘方法进行实验比较。以中文Web测试集CWT200g为实验文档测试集,从支持度变化、置信度变化、项目数量以及文档集规模变化等方面对本发明技术的挖掘性能进行实验分析。实验结果表明:与对比方法比较,本发明技术的挖掘性能达到了很好的效果,挖掘效率得到极大地提高;无论是在支持度阈值变化情况或者置信度阈值变化情况,本发明技术挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比现有对比方法挖掘的少很多;在项目数量和事务文档规模变化情况下,本发明也表现出良好的可扩展性。主要原因分析如下:对比方法是基于项目频度挖掘的无加权正负关联规则挖掘方法,没有考虑项集权值,没有能全面反映完全加权数据固有的特点,因而,会产生很多无效的和虚假的项集和正负关联规则模式,使得项集和规则的数量多得多,其挖掘效率大大减低。本发明属于基于权值挖掘的完全加权正负关联规则挖掘方法,有效地克服了对比方法的固有缺陷,将完全加权数据模型具有的特点(即项目权值客观分布于事务记录中随着记录变化而变化)融入整个挖掘过程中,使得所挖掘的关联规则更合理和更接近实际,同时,采用了新的剪枝策略,使得无效和无趣的频繁项集和负项集数量大幅度减少,有效地减少了无趣的规则出现,大大地提高了挖掘效率。
附图说明
图1为本发明所述的用于发现文本词间关联规则的完全加权模式挖掘方法的框图。
图2为本发明所述的用于发现文本词间关联规则的完全加权模式挖掘方法的总体流程示意图。
图3是本发明实验1中不同支持度阈值下挖掘的候选项集数量比较图。
图4是本发明实验1中不同支持度阈值下挖掘的频繁项集数量比较图。
图5是本发明实验1中不同支持度阈值下挖掘的规则(A→B)数量比较图。
图6是本发明实验1中不同支持度阈值下挖掘的负规则(A→﹁B)数量比较图。
图7是本发明实验1中不同支持度阈值下挖掘的负规则(﹁A→B)数量比较图。
图8是本发明实验1中不同支持度阈值下挖掘的负规则(﹁A→﹁B)数量比较图。
图9是本发明实验2中不同项目数的候选、频繁和负项集数量变化图。
图10是本发明实验2中不同项目数的正负关联规则数量变化图。
图11是本发明实验2中不同项目数的负关联规则数量变化图。
图12是本发明实验2中不同文档规模的候选、频繁和负项集数量变化图。
图13是本发明实验2中不同文档规模的负关联规则数量变化图。
图14是本发明实验2中不同文档规模的正负关联规则数量变化图。
具体实施例方式
为了更好地说明本发明的技术方案,下面将本发明涉及的完全加权数据模型和相关的概念介绍如下:
1.加权关联规则挖掘和完全加权关联规则挖掘的区别
加权关联规则挖掘和完全加权关联规则挖掘,它们的主要区别是其项目权值来源和所挖掘的数据模型不同,前者的项目权值由用户主观设定,并独立于事务数据库,一旦设定,在整个挖掘过程中恒定不变,例如,商店里的复印纸和传真机,由于复印纸售价不如传真机的高,其单件利润比传真机的低,为了体现商品对利润贡献的重要性不同,用户将单件利润较高的传真机商品赋予较高的权值,而复印纸商品的权值相对较低,其权值设定后,就固定不变,而且独立于其交易数据库;后者的项目权值并不是由用户设定,而是来源于事务数据库各个事务记录中,并随事务记录不同而变化,例如,海量的文本数据库中各个特征词项目权值是来源于其数据库中各个文档,随着文档不同而变化,即对于不同的文档,其特征词项目权值是不同。
项加权数据模型和项完全加权数据模型分别是加权关联规则挖掘和完全加权关联规则挖掘的数据模型,是完全不同的两类数据模型,如表1和表2所示,其中是{i1,i2,...,im}是其项目集合,{T1,T2,...,Tn}是其事务集合。在加权数据模型中,{w1,w2,...,wm}是其项目权值,“1/0”的“1”表示项目在事务记录中出现,“0”表示不出现的情况。在完全加权数据模型中,“w[Ti][ij]/0(1≤i≤n,1≤j≤m)”表示项目的权值,若项目在事务记录中出现,其权值为“w[Ti][ij]”,否则为“0”。
表1项加权数据模型 表2项完全加权数据模型
实例:表3有5个项目和5个事务记录,其中项目集合是{i1,i2,i3,i4,i5}={Apple,Orange,Banana,Milk,Coca-cola},从表3可知,i1没有出现在T3事务记录中。表4是一个项完全加权数据实例,项目和事务记录数量和同表3的,其中,项目i1在事务记录T1,T2,T3,T5中的权值分别是0.85,0.93,0.65,0.75,没有出现在事务记录T4,故其权值为0。
表3项加权数据实例 表4项完全加权数据实例
2.完全加权数据挖掘基本概念
设完全加权数据库AWD={T1,T2,...,Tn},事务数为n,Ti(1≤i≤n)表示AWD中的第i个事务,项集I={i1,i2,...,im}表示AWD中全部项目集合,项目数为m,ij(1≤j≤m)表示AWD中第j个项目,w[Ti][ij](1≤i≤n,1≤j≤m)表示项目ij在事务记录Ti中的权值,详见表2的项完全加权数据模型。设I1,I2是项集I的子项集,且,给出如下基本定义:
定义1(完全加权支持度:All-weighted support,简称awsup):完全加权支持度awsup(I)的计算公式如式(1)所示。
其中,,n为完全加权数据库AWD的事务记录总数,k为项集I的长度(即I的项目个数)。
完全加权负项集和负关联规则支持度如式(2)至式(5)所示。
awsup(﹁I)=1–awsup(I) (2)
awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2) (3)
awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2) (4)
awsup(﹁I1→﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2) (5)
定义2(完全加权频繁项集和负项集):设最小支持度阈值为minsup,对于完全加权项集I,若awsup(I)≥minsup,则称项集I为完全加权频繁项集。对于完全加权项集(I1∪I2),当I1和I2都是频繁项集时,若awsup(I1∪I2)<minsup,则项集(I1∪I2)称为完全加权负项集。
实例:设minsup=0.1,表4数据中,awsup(i2)=(0.21+0.35+0.05)/(5×1)=0.122>minsup,awsup(i4)=0.192>minsup,awsup(i2∪i4)=0.06<minsup,故项集(i2∪i4)是完全加权负项集。
定义3(完全加权项集兴趣度:All-weighted Itemset Interest,即awItemsetInt):兴趣度是用户对所挖掘的关联模式关注程度的度量,其值越高,说明该关联模式越新奇,用户对其关注程度就越高。基于无加权数据挖掘环境下的兴趣度模型定义(程继华,郭建生,施鹏飞.挖掘所关注规则的多策略方法研究[J].计算机学报,2000,23(1):47-51.),给出完全加权项集兴趣度(awItemsetInt)计算公式如式(6)至式(9)所示:
awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)) (6)
awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2)) (7)
awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2)) (8)
awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)) (9)
定义4(完全加权CPIR值:All-weighted Conditional_Probability IncrementRatio,简称awCPIR):CPIR模型是用条件概率和先验概率的比值来表达p(I2/I1)相对p(I2)的递增程度,文献中给出了其计算公式:CPIR(I2/I1)=(p(I2/I1)–p(I2))/(1–p(I2))。基于CPIR模型的计算公式以及完全加权数据挖掘的需要,给出完全加权正负关联规则的awCPIR计算公式如式(10)至式(13)所示:
将awCPIR值作为完全加权关联规则的置信度,其值越大,说明该关联规则的可信度愈高,越受用户关注。
实例:表4完数据中,awsup(i1)=0.636,awsup(﹁i1)=1-0.636=0.364,awsup(i2)=0.122,awsup(i1∪i2)=0.294,awCPIR(i1→i2)=(|0.294-0.636×0.122|)/(0.636×(1-0.122))=0.39,awCPIR(i1→﹁i2)=2.79,awCPIR(﹁i1→i2)=0.68,awCPIR(﹁i1→﹁i2)=4.86。
定义5(完全加权项内权值比:All-weighted Weight Ratio from Itemset,简称awIWR):设w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,将w12和(w1×w2)的比值称为完全加权项集内权值比率,简称项内权值比(awIWR(I1,I2)),即式(14)所示。
定义6(完全加权项内维数比:All-weighted Dimension Ratio from Itemset,简称awIDR):设k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数,将k12和(k1×k2)的比值称为完全加权项集内维数比率,简称项内维数比(awIDR(I1,I2)),即式(15)所示。
定义7(完全加权项集相关性:All-weighted itemset correlation,简称awISCorr):基于传统的项集相关性定义(Chengqi Zhang,Shichao Zhang.Associationrule mining:models and algorithms[M].Springer-Verlag Berlin,Heidelberg,2002:47-84,ISBN:3-540-43533-6.),给出完全加权项集(I1,I2)相关性(awISCorr(I1,I2),)的计算公式如式(16)所示。
根据相关性的性质,在完全加权数据挖掘环境下,项集(I1,I2)相关性具有如下性质:
性质1:
性质2:
性质3:
性质4:②awISCorr(﹁I1,I2)<1;③awISCorr(﹁I1,﹁I2)>1。
性质5:②awISCorr(﹁I1,I2)>1;③awISCorr(﹁I1,﹁I2)<1。
推论在完全加权数据挖掘环境中,已知项集(I1,I2),且①若n×awIWR(I1,I2)>awIDR(I1,I2),则完全加权子项集I1和I2成正相关,并且能挖掘出完全加权正关联规则I1→I2和负关联规则﹁I1→﹁I2模式;②若n×awIWR(I1,I2)<awIDR(I1,I2),则完全加权项集I1和I2成负相关,并且能挖掘出完全加权负关联规则I1→﹁I2和﹁I1→I2模式;
根据上述推论,在挖掘完全加权关联规则时,只需计算完全加权项内权值比awIWR(I1,I2)和维数比awIDR(I1,I2),不需计算项集相关性,就可以直接从频繁项集和负项集中挖掘完全加权正负关联规则。
实例:对于(i1,i2,i3),设I1=(i1,i2),I2=(i3),则awIWR(I1,I2)=3.34/(2.94×2.85)=0.399,awIDR(I1,I2)=3/(2×1)=1.5,n×awIWR(I1,I2)=5×0.5517=1.995>1.5=awIDR(I1,I2),根据上述推论,I1和I2成正相关,能挖掘出关联规则I1→I2和负关联规则﹁I1→﹁I2模式。采用式(16)验证:awsup(i1∪i2)=0.294,awsup(i3)=0.57,awsup(i1∪i2∪i3)=0.223,awISCorr(I1,I2)=0.223/(0.294×0.57)=1.33>1,由性质1和性质4,I1和I2成正相关,可挖掘出关联规则I1→I2和负关联规则﹁I1→﹁I2模式,结论一致。
同理,对于完全加权项集(i2,i4),其awIWR(i2,i4)=0.102,awIDR(i2,i4)=2,n×awIWR(i2,i4)=0.51<2=awIDR(i2,i4),根据推论可知,i2和i4成负相关,可挖掘出i2→﹁i4和﹁i2→i4模式。
定义8(有效的完全加权正负关联规则):设minconf为最小置信度阈值,当完全加权项集I1和I2满足如下3个条件,则称关联规则I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2为有效的完全加权正负关联规则:①I1和I2是完全加权频繁项集,I1∩I2=φ;②I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2的支持度大于等于minsup;③I1→I2、﹁I1→﹁I2、I1→﹁I2和﹁I1→I2的awCPIR值不小于minconf。
实例:假设minsup=0.1,minconf=0.3,从上例中知道,完全加权项集(i1,i2)、(i3)和(i1,i2,i3)的支持度都大于minsup,(i1,i2)和(i3)成正相关,又因为,awCPIR((i1,i2)→(i3))=|0.223–0.94×0.57|/(0.294×(1–0.57))=0.438>minconf,awCPIR(﹁(i1,i2)→﹁(i3))=0.138<minconf,根据性质4和定义8,(i1,i2)→(i3)是个有效的完全加权正关联规则,而负规则﹁(i1,i2)→﹁(i3)不是有效的。同理,对于完全加权项集(i2,i4),由于awsup(i2)=0.122>minsup,awsup(i4)=0.192>minsup,awsup(i2∪﹁i4)=0.062<minsup,awsup(﹁i2∪i4)=0.132>minsup,awCPIR(﹁i2→i4)=0.052<minconf,根据定义8,负关联规则i2→﹁i4和﹁i2→i4都不是有效的完全加权负关联规则。
下面通过具体实施例对本发明的技术方案做进一步的说明。
本发明对表4完全加权数据实例挖掘完全加权关联规则的过程如下(其中,minsup=0.1,minInt=0.1,minconf=0.4,w表示项集权值,s代表项集支持度):
Step1:awPIS={φ};awNIS={φ};
Step2:
Step3:①
Step4:剪枝:对于频繁项集集合awPIS中的项集剪枝。被剪除的频繁项集是:(i2,i3),(i3,i4),(i1,i2,i5),(i1,i3,i5),剪枝后的awPIS={(i1,i2),(i1,i3),(i1,i5),(i1,i2,i3)}
Step5:同理,在负项集集合awNIS中,被剪除的负项集是:(i3,i5),剪枝后的awNIS={(i1,i4),(i2,i4),(i2,i5),(i4,i5)}。
Step6:从频繁项集集合awPIS中和负项集集合awNIS中挖掘完全加权正负关联规则,以频繁项集(i1,i2,i3)和负项集(i4,i5)为例,给出其挖掘过程如下:
对于频繁项集(i1,i2,i3),以其子集I1=(i1)和I2=(i2,i3)为例,从上例中可知,awsup(i1)、awsup(i2,i3)均大于minsup,awIDR(I1,I2)=1.5,n×awIWR(I1,I2)=2.98>awIDR(I1,I2),awsup(I1∪I2)=0.223>minsup,awCPIR(I1→I2)=0.212<minconf,awCPIR(I2→I1)=1.73>minconf;awsup(﹁I1∪﹁I2)=0.411>minsup,awCPIR(﹁I1→﹁I2)=1.73>minconf,awCPIR(﹁I2→﹁I1)=0.212<minconf,因此,I2→I1和﹁I1→﹁I2(即(i2,i3)→(i1)和﹁(i1)→﹁(i2,i3))是个有效的完全加权正负关联规则。
对于负项集(i4,i5),其子集I1=(i4)和I2=(i5),从上例中可知,awsup(i4)、awsup(i5)均大于minsup,awIDR(I1,I2)=2,n×awIWR(I1,I2)=1.03<awIDR(I1,I2),awsup(I1∪﹁I2)=0.101>minsup,awsup(﹁I1∪I2)=0.093<minsup,awCPIR(I1→﹁I2)=1.577>minconf,awCPIR(﹁I2→I1)=0.084<minconf,因此,I1→﹁I2(即(i4)→﹁(i5))是个有效的完全加权负关联规则。
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明的有效性、正确性和扩展性,我们选择由北京大学网络实验室提供的中文Web测试集CWT200g(Chinese Web Test Collection with200GB web pages)的部分语料作为本文实验数据测试集。实验的运行环境为Intel(R)Core(TM)[email protected],内存4.0G,操作***为windows7,编程语言实现采用delphi2006,数据库***为SQL Server2008。选择典型的无加权正负关联规则挖掘方法(Xindong Wu,ChengqiZhang,and Shichao Zhang,Efficient Mining of Both Positive and NegativeAssociation Rules,ACM Transactions on Information Systems,22(2004),3:381-405.)(记为PNAR-Mining方法)为实验对比方法。
中文Web测试集CWT200g的容量为197GB,包含37,482,913个网页,每个页面按照天网存储格式进行压缩整理。从CWT200g测试集中提取了12024篇纯文本文档作为实验文档测试集。采用汉语词法分析***ICTCLAS(中国科学院计算技术研究所研制编写)对测试文本文档分词。特征词权值(wij)的计算公式为wij=(0.5+0.5×tfij/maxj(tfij))×idfi。实验测试文档的预处理过程是:分词、去停用词、提取特征词和计算其权值,构建基于向量空间模型的文本数据库和特征词库。实验文档测试集预处理后,得到8751个特征词,其文档频度(即含有该特征词的文档数量)df是51至11258。根据挖掘需要,实验中去掉df值比较低和比较高的特征词,提取df值在1500到5838的特征词(此时共得到400个特征词)构建特征词项目库。特征词在12024篇实验测试文档中出现的总频次是1019494次,平均在每篇文档中出现85次。实验参数如表5所示。
表5实验参数表
实验1:支持度阈值变化情况下挖掘性能比较
在不同支持度阈值下,本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘项集(即候选项集(Candidate Itemset,CI)、频繁项集(FrequentItemset,FI)、负项集(Negative Itemset,NI))和正负关联规则(Positive and NegativeAssociation Rule,PNAR)数量比较如图3至图8所示(ItemNum=50,minconf=0.0002,minInt=0.0002,TRecordNum=12024)。
实验2:置信度阈值变化情况下挖掘性能比较
置信度阈值变化情况下本文发明AWPNAR-Mining和对比方法PNAR-Mining在实验文档测试集中挖掘正负关联规则(A→B、A→﹁B、﹁A→B和﹁A→﹁B)数量比较如表6所示(minsup=0.03,minInt=0.0002,ItemNum=50,TRecordNum=12024)。
表6不同置信度阈值下挖掘的正负关联规则数量比较
实验3:挖掘时间效率性能比较
为了比较2种方法挖掘时间效率性能,我们分别在支持度阈值变化情况下和置信度阈值变化情况下统计本文发明AWPNAR-Mining和对比方法PNAR-Mining的挖掘时间,其结果如表7和表8所示(minInt=0.0002,ItemNum=50,TRecordNum=12024)。表7表示支持度阈值变化情况下2种挖掘方法在实验文档测试集中挖掘项集和关联规则的时间比较(minconf=0.0002),表8表示置信度阈值变化情况下的挖掘正负关联规则时间比较(minsup=0.03)。
表7不同支持度阈值下挖掘项集和关联规则时间(单位:秒)比较
表8不同置信度阈值下挖掘正负关联规则的时间(单位:秒)比较
实验4:可扩展性能分析
我们从项目数量变化和数据测试集规模变化两种情况对本发明方法的可扩展性能实验与分析。
为了测试本发明的可扩展性,设置实验参数:ItemNum=50,TRecordNum=12024,minsup=0.05,minconf=0.07,minInt=0.001,在项目数量变化和数据测试集规模分别变化情况下,本发明AWPNAR-Mining方法在数据测试集1中挖掘频繁项集(FI)、负项集(NI)和正负关联规则(PNAR)等模式数量变化结果如图9至图14所示。
总之,上述实验结果表明,与对比方法PNAR-Mining比较,本发明AWPNAR-Mining方法的挖掘性能达到了很好的效果,挖掘效率得到极大地提高;无论是在支持度阈值变化情况或者置信度阈值变化情况,本发明挖掘的候选项集、频繁项集和负项集以及正负关联规则数量均比对比方法的少很多。

Claims (2)

1.一种用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,包括如下步骤:
(1)完全加权数据预处理阶段:将待处理的完全加权数据进行预处理,构建完全加权数据库和项目库;
(2)完全加权频繁项集和负项集挖掘阶段,包括以下步骤2.1和步骤2.2:
2.1、从项目库中提取完全加权候选1_项集,并挖掘完全加权频繁1_项集;具体步骤按照2.1.1~2.1.3进行:
2.1.1、从项目库中提取完全加权候选1_项集;
2.1.2、累加完全加权候选1_项集在完全加权数据库中的权值总和,计算其支持度;
2.1.3、将完全加权候选1_项集中支持度大于或等于最小支持度阈值的完全加权频繁1_项集加入到完全加权频繁项集集合;
2.2、从完全加权候选2_项集开始,按照步骤2.2.1~2.2.4进行操作:
2.2.1、将完全加权频繁(i-1)_项集进行Apriori连接,生成完全加权候选i_项集;所述的i≥2;
2.2.2、累加完全加权候选i_项集在完全加权数据库中的权值总和,计算其支持度;
2.2.3、从完全加权候选i_项集中将其支持度不小于支持度阈值的频繁i_项集取出,存入完全加权频繁项集集合,同时,将其支持度小于支持度阈值的完全加权负i_项集存入完全加权负项集集合;
2.2.4、将i的值加1,如果频繁(i-1)_项集为空就转入(3)步,否则,继续2.2.1~2.2.3步骤;
(3)剪枝阶段:通过剪枝阶段获得有趣的完全加权频繁项集和负项集:
3.1、对于频繁项集集合中的每一个频繁i-项集awLi,计算IAWFI(awLi)值,剪除其IAWFI(awLi)值为假的频繁项集,剪枝后得到有趣的完全加权频繁项集集合;IAWFI(awLi)计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2)),awItemsetInt(﹁I1,﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2)),minInt为最小兴趣度阈值,minsup最小支持度阈值;
3.2、对于完全加权负项集集合中的每一个负i-项集awNi,计算IAWNI(awNi)值,剪除其IAWNI(awNi)值为假的负项集,剪枝后得到有趣的完全加权负项集集合;IAWNI(awNi)的计算公式如下:
其中,awItemsetInt(I1∪I2)=awsup(I1)×awsup(I1∪I2)×(1–awsup(I2));
awItemsetInt(I1∪﹁I2)=awsup(I1)×awsup(I2)×(awsup(I1)–awsup(I1∪I2));
awItemsetInt(﹁I1∪I2)=(1–awsup(I1))×(1–awsup(I2)×(awsup(I2)–awsup(I1∪I2));
awItemsetInt(﹁I1∪﹁I2)=awsup(I2)×(1–awsup(I1))×(1–awsup(I1)–awsup(I2)+awsup(I1∪I2));
(4)从有趣的完全加权频繁项集集合中挖掘有效的完全加权正负关联规则,包括以下步骤:
4.1、从有趣的完全加权频繁项集集合取出频繁项集awLi,求出awLi的所有真子集,构建awLi的真子集集合,然后进行下列操作:
4.2.1、从awLi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都不小于支持度阈值,则计算频繁项集(I1∪I 2)的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);awIWR(I1,I2)及awIDR(I1,I2)的计算公式如下:
a w I W R ( I 1 , I 2 ) = w 12 w 1 &times; w 2 ;
a w I D R ( I 1 , I 2 ) = k 12 k 1 &times; k 2 ;
w12和w1、w2分别为完全加权项集(I1,I2)及其子项集I1和I2在完全加权数据库AWD中的权值总和,k12,k1和k2分别为项集(I1,I2)及其子项集I1和I2的项目个数;
4.2.2、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I1,I2)的乘积大于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)>awIDR(I1,I2)时,进行如下操作:
4.2.2.1若I1→I2的awCPIR值awCPIR(I1→I2)不小于置信度阈值minconf,则挖掘出完全加权关联规则I1→I2;若I2→I1的awCPIR值awCPIR(I2→I1)不小于置信度阈值minconf,则挖掘出完全加权关联规则I2→I1;awCPIR(I1→I2)和awCPIR(I2→I1)的计算公式如下:
awCPIR ( I 1 &RightArrow; I 2 ) = awsup ( I 2 &cup; I 1 ) - awsup ( I 1 ) awsup ( I 2 ) awsup ( I 1 ) ( 1 - awsup ( I 2 ) ) ;
awCPIR ( I 2 &RightArrow; I 1 ) = awsup ( I 2 &cup; I 1 ) - awsup ( I 1 ) awsup ( I 2 ) awsup ( I 1 ) ( 1 - awsup ( I 1 ) ) ;
4.2.2.2若﹁I1∪﹁I2的支持度awsup(﹁I1∪﹁I2)不小于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值awCPIR(﹁I1→﹁I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值awCPIR(﹁I2→﹁I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1;awsup(﹁I1∪﹁I2)、awCPIR(﹁I1→﹁I2)和awCPIR(﹁I2→﹁I1)的计算公式如下:
awsup(﹁I1∪﹁I2)=awsup(﹁I1∪﹁I2)=1–awsup(I1)–awsup(I2)+awsup(I1∪I2);
4.2.3、当数据库中事务记录总数n和上述4.2.1步的项内权值比awIWR(I1,I2)的乘积小于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)<awIDR(I1,I2)时,进行如下操作:
4.2.3.1若I1∪﹁I2的支持度awsup(I1∪﹁I2)不小于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值awCPIR(I1→﹁I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值awCPIR(﹁I2→I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1;awsup(I1∪﹁I2)、awCPIR(I1→﹁I2)和awCPIR(﹁I2→I1)的计算公式如下:
awsup(I1→﹁I2)=awsup(I1∪﹁I2)=awsup(I1)–awsup(I1∪I2);
4.2.3.2若﹁I1∪I2的支持度awsup(﹁I1∪I2)不小于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值awCPIR(﹁I1→I2)不小于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值awCPIR(I2→﹁I1)不小于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1;awsup(﹁I1∪I2)、awCPIR(﹁I1→I2)和awCPIR(I2→﹁I1)的计算公式如下:
awsup(﹁I1→I2)=awsup(﹁I1∪I2)=awsup(I2)–awsup(I1∪I2);
4.2.4、继续4.2.1~4.2.3步骤,如果awLi的真子集集合中每个真子集都当且仅当被取出一次,则转入4.2.5步;
4.2.5,继续4.1步骤,如果有趣的完全加权频繁项集集合中每个频繁项集awLi都当且仅当被取出一次,则转入第(5)步;
(5)从有趣的完全加权负项集集合中挖掘有效的完全加权负关联规则,包括以下步骤:
5.1、从有趣的完全加权负项集集合取出负项集awNi,求出awNi的所有真子集,构建awNi的真子集集合,然后进行下列操作:
5.2.1、从awNi的真子集集合中任意取出两个真子集I1和I2,当I1和I2的交集为空集,I1和I2的项目个数之和等于其原频繁项集的项目个数,以及I1和I2的支持度都大于或者等于支持度阈值,则计算负项集I1∪I2的项内权值比awIWR(I1,I2)及其维数比awIDR(I1,I2);
5.2.2、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I1,I2)的乘积大于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)>awIDR(I1,I2)时,进行如下操作:
5.2.2.1若﹁I1∪﹁I2的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→﹁I2的awCPIR值awCPIR(﹁I1→﹁I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→﹁I2;②如果﹁I2→﹁I1的awCPIR值awCPIR(﹁I2→﹁I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→﹁I1
5.2.3、当数据库中事务记录总数n和上述5.2.1步的项内权值比awIWR(I1,I2)的乘积小于其维数比awIDR(I1,I2)时,即n×awIWR(I1,I2)<awIDR(I1,I2)时,进行如下操作:
5.2.3.1若I1∪﹁I2的支持度大于或者等于支持度阈值minsup,那么,①如果I1→﹁I2的awCPIR值awCPIR(I1→﹁I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I1→﹁I2;②如果﹁I2→I1的awCPIR值awCPIR(﹁I2→I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I2→I1
5.2.3.2若﹁I1∪I2的支持度大于或者等于支持度阈值minsup,那么,①如果﹁I1→I2的awCPIR值awCPIR(﹁I1→I2)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则﹁I1→I2;②如果I2→﹁I1的awCPIR值awCPIR(I2→﹁I1)大于或者等于置信度阈值minconf,则挖掘出完全加权负关联规则I2→﹁I1
5.2.4、继续5.2.1~5.2.3步骤,如果awNi的真子集集合中每个真子集都当且仅当被取出一次,则转入5.2.5步;
5.2.5、继续5.1步骤,如果有趣的完全加权负项集集合中每个负项集awNi都当且仅当被取出一次,则完全加权正负关联规则挖掘结束;
“﹁”为负相关符号,﹁I1表示在事务处理中不出现I1的事件,称为负项集I1;I 1∪﹁I2表示一个项集,该项集有子项集I1和负子项集I2;关联规则I1→﹁I2其含义是:如果子集I1的事件出现或者发生,那么子集I2的事件不会出现或者不发生。
2.根据权利要求1所述的用于发现文本词间关联规则的完全加权模式挖掘方法,其特征在于,所述的待处理的完全加权数据预处理的具体步骤为,当待处理的完全加权数据为中文文本数据时,进行分词、去除停用词、提取特征词并计算其权值;当待处理的完全加权数据为英文文本数据时,进行词干提取、排除停用词、词汇分析、提取特征词并计算其权值。
CN201410096985.2A 2014-03-14 2014-03-14 用于发现文本词间关联规则的完全加权模式挖掘方法 Expired - Fee Related CN103838854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410096985.2A CN103838854B (zh) 2014-03-14 2014-03-14 用于发现文本词间关联规则的完全加权模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410096985.2A CN103838854B (zh) 2014-03-14 2014-03-14 用于发现文本词间关联规则的完全加权模式挖掘方法

Publications (2)

Publication Number Publication Date
CN103838854A CN103838854A (zh) 2014-06-04
CN103838854B true CN103838854B (zh) 2017-03-22

Family

ID=50802351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410096985.2A Expired - Fee Related CN103838854B (zh) 2014-03-14 2014-03-14 用于发现文本词间关联规则的完全加权模式挖掘方法

Country Status (1)

Country Link
CN (1) CN103838854B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104239430B (zh) * 2014-08-27 2017-04-12 广西教育学院 基于项权值变化的教育数据关联规则挖掘方法及其***
CN104182527B (zh) * 2014-08-27 2017-07-18 广西财经学院 基于偏序项集的中英文本词间关联规则挖掘方法及其***
CN104239536A (zh) * 2014-09-22 2014-12-24 广西教育学院 基于互信息的完全加权课程正负关联模式挖掘方法及***
CN104217013B (zh) * 2014-09-22 2017-06-13 广西教育学院 基于项加权和项集关联度的课程正负模式挖掘方法及***
CN109471885B (zh) * 2018-09-30 2022-05-31 齐鲁工业大学 基于加权正负序列模式的数据分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
CN101650730A (zh) * 2009-09-08 2010-02-17 中国科学院计算技术研究所 数据流中带权值频繁项挖掘方法和***
CN102306183A (zh) * 2011-08-30 2012-01-04 王洁 一种对事务数据流进行闭合加权频繁模式挖掘的方法
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5809499A (en) * 1995-10-20 1998-09-15 Pattern Discovery Software Systems, Ltd. Computational method for discovering patterns in data sets
CN101650730A (zh) * 2009-09-08 2010-02-17 中国科学院计算技术研究所 数据流中带权值频繁项挖掘方法和***
CN102306183A (zh) * 2011-08-30 2012-01-04 王洁 一种对事务数据流进行闭合加权频繁模式挖掘的方法
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法

Also Published As

Publication number Publication date
CN103838854A (zh) 2014-06-04

Similar Documents

Publication Publication Date Title
CN103279570B (zh) 一种面向文本数据库的矩阵加权负模式挖掘方法
CN102799647B (zh) 网页去重方法和设备
CN102629261B (zh) 由钓鱼网页查找目标网页的方法
CN103955542B (zh) 文本词间完全加权正负关联模式挖掘方法及其挖掘***
CN104216874B (zh) 基于相关系数的中文词间加权正负模式挖掘方法及***
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN103838854B (zh) 用于发现文本词间关联规则的完全加权模式挖掘方法
CN104182527B (zh) 基于偏序项集的中英文本词间关联规则挖掘方法及其***
CN103020213B (zh) 具有明显类别划分的非结构化电子文档的检索方法和***
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
US10528662B2 (en) Automated discovery using textual analysis
CN103235812B (zh) 查询多意图识别方法和***
CN103425691A (zh) 一种搜索方法和***
CN105975596A (zh) 一种搜索引擎查询扩展的方法及***
CN108090077A (zh) 一种基于自然语言检索的综合相似度计算方法
CN104317794B (zh) 基于动态项权值的中文特征词关联模式挖掘方法及其***
CN112199926B (zh) 基于文本挖掘和自然语言处理的地质报告文本可视化方法
CN111753067A (zh) 一种技术交底文本创新性评估方法、装置和设备
CN102929977B (zh) 一种面向新闻网站的事件跟踪方法
Zhou et al. Web search personalization using social data
Ramya et al. DRDLC: discovering relevant documents using latent dirichlet allocation and cosine similarity
Mathai et al. An efficient approach for item set mining using both utility and frequency based methods
CN105426490A (zh) 一种基于树形结构的索引方法
Canhasi Fast Document Summarization using Locality Sensitive Hashing and Memory Access Efficient Node Ranking.
Jingli et al. Web clustering based on tag set similarity

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Huang Mingxuan

Inventor before: Huang Mingxuan

Inventor before: Yuan Changan

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20160317

Address after: Nanning City, 530003 West Road Mingxiu the Guangxi Zhuang Autonomous Region No. 100

Applicant after: Guangxi Finance and Economics Institute

Address before: Nanning City, the Guangxi Zhuang Autonomous Region Qingxiu District JianZheng Road No. 37 530023

Applicant before: Guangxi College of Education

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170322

Termination date: 20180314