CN109684464A - 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 - Google Patents
通过权值比较实现规则后件挖掘的跨语言查询扩展方法 Download PDFInfo
- Publication number
- CN109684464A CN109684464A CN201811646511.5A CN201811646511A CN109684464A CN 109684464 A CN109684464 A CN 109684464A CN 201811646511 A CN201811646511 A CN 201811646511A CN 109684464 A CN109684464 A CN 109684464A
- Authority
- CN
- China
- Prior art keywords
- item
- language
- item collection
- weight
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了通过权值比较实现规则后件挖掘的跨语言查询扩展方法,首先跨语言首次检索构建初检相关反馈文档集,再在该文档集挖掘含有原查询词项的频繁项集,用项集关联度值及项集的项目权值最大者或者最大项目权值对候选项集剪枝,采用卡方分析‑置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式,将前件是原查询词项集合的关联规则后件项集作为查询扩展词,实现跨语言查询扩展。本发明能克服现有加权关联规则挖掘方法的缺陷,提高挖掘效率,能挖掘出与原查询相关的扩展词,提高和改善跨语言信息检索性能,减少检索中查询主题漂移和词不匹配问题,在跨语言搜索引擎和web跨语言检索***中具有较好的应用价值和推广前景。
Description
技术领域
本发明属于信息检索领域,具体是通过权值比较实现规则后件挖掘的跨语言查询扩展方法。
背景技术
当前,具有多语言性特点的网络信息资源迅猛增长,成为了隐含巨大经济价值和研究价值的网络大数据。网络用户以自己熟悉的语言的查询表达式在网络大数据资源中检索其他语言信息资源过程中遇到的问题是查询主题严重漂移和词不匹配等问题,跨语言查询扩展是解决这些问题的关键技术之一。
跨语言查询扩展是提高和改善跨语言信息检索性能的核心技术之一,能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题,指的是在跨语言信息检索过程中,采用某种策略发现与原查询相关的扩展词,扩展词和原查询组合得到新查询并再次检索的过程。近十几年来,学者们对跨语言查询扩展方法开展了卓有成效的研究,取得了一些研究成果,例如,闭剑婷等提出的一种基于潜在语义分析的跨语言查询扩展方法(闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.),吴丹等提出一种基于伪相关反馈的跨语言查询扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.),等等,但还没有最终完全解决跨语言信息检索中查询主题漂移和词不匹配问题。
发明内容
本发明提出了通过权值比较实现规则后件挖掘的跨语言查询扩展方法,应用于实际的跨语言搜索引擎和web跨语言信息检索***,能解决跨语言信息检索中查询主题漂移和词不匹配问题,提高跨语言检索性能。
本发明的技术方案如下:
通过权值比较实现规则后件挖掘的跨语言查询扩展方法,包括下列步骤:
步骤1:源语言查询跨语言首次检索目标语言文档,构建和预处理初检相关反馈文档集。具体步骤:
(1-1)源语言用户查询通过机器翻译***译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。
机器翻译***是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。
(1-2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。
(1-3)预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库;
所述预处理方法是:去除停用词,提取特征词并按式(1)计算特征词权值;
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,本发明将tfj,i进行标准化处理,所述标准化处理是指将文档di中每个特征词所述的tfj,i除以文档di的最大词频,idfj是逆文档频度。
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2-1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2-1-1)从特征词库中提取文本特征词作为1_候选项集C1;
(2-1-2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2-1-3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数。
(2-1-4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS。
(2-2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2-2-1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2-2-2)剪枝不含原查询词项的2_候选项集C2;
(2-2-3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2-2-4)如果w[C2]≥MWS×2,则该2_候选项集C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2-3)挖掘文本特征词k_频繁项集Lk,所述k≥2,具体步骤如下:
(2-3-1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2-3-2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2-3-3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝对应的Ck;
(2-3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(2)所示;
式(2)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2-3-5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2-3-1)继续顺序循环;
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2。具体步骤如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。
(3-1)构建Lk的所有真子集项集集合;
(3-2)从真子集项集集合中任意取出两个真子集项集qt和Et,且qt∪Et=Lk,QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集,计算项集(qt,Et)的卡方值,所述卡方值Chis(qt,Et)计算公式如式(4)所示。
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中的项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数。
(3-3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et)。若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR。所述WConf(qt→Et)的计算公式如式(5)所示。
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定义同式(4)。
(3-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3-1)依序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3-2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4。
步骤4:从加权关联规则模式集合WAR中提取加权关联规则后件Et作为查询扩展词,计算扩展词权值。
从加权关联规则模式集合WAR中提取每个加权关联规则qt→Et的后件Et作为查询扩展词,所述扩展词的权值we计算公式如式(6)所示。
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值,即当扩展词重复出现在多个加权关联规则模式时,分别取上述3个度量值的最大值。
步骤5:扩展词与原查询词组合为新查询再次检索目标语言文档,完成跨语言查询扩展。
本发明与现有技术相比,具有以下有益效果:
(1)本发明提出通过权值比较实现规则后件挖掘的跨语言查询扩展方法。该发明方法通过项集权值比较在初检相关反馈目标语言文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,采用卡方分析-置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式,将前件是原查询词项集合的关联规则后件项集作为查询扩展词,实现跨语言查询扩展,扩展词与原查询词组合为新查询再次检索目标语言文档。实验结果表明,本发明能提高和改善跨语言文本信息检索性能。
(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR作为本发明方法实验语料。选择现有挖掘方法作为本发明的对比方法,实验结果表明,本发明方法的跨语言文本检索结果P@15和平均R-查准率值都比对比方法的高,效果显著,说明本发明方法的检索性能均优于对比方法,能提高跨语言信息检索性能,减少跨语言信息检索中查询漂移和词不匹配问题,具有很高的应用价值和广阔的推广前景。
附图说明
图1为本发明通过权值比较实现规则后件挖掘的跨语言查询扩展方法的流程示意图。
具体实施方式
以下结合附图说明本发明方法的具体实施方式,但不构成对本发明权利要求保护范围的限制。
以下介绍本发明相关的概念:
1.文本特征词关联规则的前件和后件
设T1、T2是任意的文本特征词项集,将形如T1→T2的蕴含式称为文本特征词关联规则,其中,T1称为规则前件,T2称为规则后件。
2.假设DS={d1,d2,…,dn}是文本文档集(Document Set,DS),其中,di(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,T={t1,t2,…,tn}表示DS中全体特征项集合,T的各个子集均称为特征项项集,简称项集。
假设在文本文档索引库中统计k_候选项集Ck=(i1,i2,…,ik)的项集权值w[Ck],得到Ck各个项目i1,i2,…,ik对应的权值分别为w1,w2,…,wk,那么,所述w1,w2,…,wk称为项目权值,而Ck的项集权值w[Ck]=w1+w2+…+wk。
实施例1
如图1所示,通过权值比较实现规则后件挖掘的跨语言查询扩展方法,包括下列步骤:
步骤1:源语言查询跨语言首次检索目标语言文档,构建和预处理初检相关反馈文档集。具体步骤:
(1-1)源语言用户查询通过机器翻译***译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。
机器翻译***是:微软必应机器翻译接口Microsoft Translator API,或者,谷歌机器翻译接口,等等。
(1-2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。
(1-3)预处理初检相关反馈文档集,构建目标语言文本文档索引库和特征词库。
初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法,例如,如果目标语言是英语,则预处理方法是:去除英文停用词,采用Porter程序(详细见网址:http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干,计算英文特征词权值,如果目标语言是汉语,预处理方法是:去除中文停用词,对中文文档进行分词后提取中文特征词,计算中文特征词权值。
本发明给出初检相关反馈文档特征词权值计算公式,如式(1)所示的计算公式。
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,普遍将tfj,i进行标准化处理,所述标准化处理是指将所述的文档di中每个特征词tfj,i除以文档di的最大词频,idfj是逆文档频度(Inverse Document Frequency)。
跨语言查询扩展词的来源是跨语言初检相关反馈文档,因此,在跨语言初检相关反馈文档集中,含有某个文本特征词的初检相关反馈文档数量越多,则所述特征词与原查询越相关,越重要,所述特征词的权值就越高。
步骤2:通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2-1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2-1-1)从特征词库中提取文本特征词作为1_候选项集C1;
(2-1-2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2-1-3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数。
(2-1-4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS(Frequent ItemSet)。
(2-2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2-2-1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2。
所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)
(2-2-2)剪枝不含原查询词项的2_候选项集C2;
(2-2-3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2-2-4)如果w[C2]≥MWS×2,则该2_候选项集C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2-3)挖掘文本特征词k_频繁项集Lk,所述k≥2,具体步骤如下:
(2-3-1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2-3-2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2-3-3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝对应的Ck;
(2-3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;否则剪枝所述Ck;
所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2-3-5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2-3-1)继续顺序循环;
本发明所述的剪枝采用如下方法:
(1)对于k_候选项集Ck=(i1,i2,…,ik),如果所述Ck的项集权值w[Ck]<MWS×k,则所述是非频繁的,剪除所述Ck;如果所述Ck的项集关联度IRe(Ck)<minIRe,则所述Ck是无效项集,剪除所述Ck;综上所述,本发明只挖掘w[Ck]≥MWS×k并且IRe(Ck)≥minIRe的有效频繁项集,所述minIRe为最小项集关联度阈值。
(2)如果k_候选项集Ck=(i1,i2,…,ik)中最大的项目权值小于最小权值支持阈值MWS,那么Ck是非频繁的,则剪除所述Ck;
(3)假设k_候选项集Ck=(i1,i2,…,ik)中最大项目权值对应的项目单独作为1_项集为(im),如果所述1_项集(im)是非频繁的,则剪除所述Ck。
(4)当挖掘到候选2_项集时,将不含原查询词项的候选2_项集删除,留下含有原查询词项的候选2_项集。
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2。具体步骤如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式。
(3-1)构建Lk的所有真子集项集集合;
(3-2)从真子集项集集合中任意取出两个真子集项集qt和Et,且qt∪Et=Lk,QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集,计算项集(qt,Et)的卡方值,所述卡方值Chis(qt,Et)计算公式如式(4)所示。
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数。
卡方分析(Chi-square Analysis)的核心思想是度量数据项间的相关性,如果Chis(qt,Et)=0,说明两个真子集项集qt和Et相互独立,不存在任何相关性,由此,可以避免一些虚假相关的关联规则出现。
(3-3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et)。若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR。所述WConf(qt→Et)的计算公式如式(5)所示。
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定义同式(4)。
(3-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3-1)进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3-2)再顺序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4。
步骤4:从加权关联规则模式集合WAR中提取加权关联规则后件Et作为查询扩展词,计算扩展词权值。
从加权关联规则模式集合WAR中提取每个加权关联规则qt→Et的后件Et作为查询扩展词,由于关联度是衡量项集中各个项目关联程度的重要指标,而置信度值和卡方值是衡量关联规则模式前件和后件相关性的重要指标,鉴于此,本发明将关联度、卡方值和置信度值作为扩展词权值的计算依据,根据所述3个度量值对扩展词的重要程度,提出扩展词权值we的计算公式,如式(6)所示:
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值,即当扩展词重复出现在多个加权关联规则模式时,取上述3个度量值的最大值。
步骤5:扩展词与原查询词组合为新查询再次检索目标语言文档,完成跨语言查询扩展。
实验设计与结果:
为了说明本发明方法的有效性,特以印尼语和英语为语言对象,进行了基于本发明方法和对比方法的印尼-英跨语言信息检索实验,比较本发明方法和对比方法的跨语言检索性能。
实验语料:
本发明实验语料是标准数据集NTCIR-5CLIR语料(见网址:http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html),即选择NTCIR-5CLIR语料中的英文文档集Mainichi Daily News 2000、2001年和Korea Times 2001年的新闻文本,共有26224篇英文文档作为本发明实验数据,具体是Mainichi Daily News 2000的新闻文本6608篇(简称m00),Mainichi Daily News 2001的5547篇(m01)和Korea Times2001年的14069篇(k01)。
NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集,其中,每个查询主题类型有Title、Desc、Narr和Conc等4种类型,结果集有2种评价标准,即高度相关,相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型,Title查询属于短查询,以名词和名词性短语简要描述查询主题,Desc查询属于长查询,以句子形式简要描述查询主题。
本发明实验结果的评价指标是P@15和平均R-查准率。所述P@15是指对于测试查询返回的前15个结果的准确率,所述平均R-查准率是指对所有查询所对应的R-查准率的算术平均值,所述R-查准率是指当R个文档被检索后所计算的查准率。
对比方法:
(1)对比方法1:印尼-英跨语言基准检索方法。所述对比方法1指将印尼语查询通过机器翻译为英文后检索英文文档得到的检索结果,检索过程中没有实行各种查询扩展。
(2)对比方法2:基于加权关联模式挖掘的印尼-英跨语言查询译后扩展方法。所述对比方法2是基于文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验参数是:最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。
(3)对比方法3:基于伪相关反馈的印尼-英跨语言查询译后扩展方法,所述对比方法2是基于文献(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验方法:提取印尼-英跨语言初检前列英文文档20篇构建初检相关文档集,提取特征词项并计算其权值,按权值降序排列将前列20个特征词项作为英文扩展词实现越-英跨语言查询译后扩展。
实验方法和结果如下:
运行本发明方法和对比方法的源程序,首先将50个印尼语查询主题的Title和Desc查询通过机器翻译***翻译为英文,并检索英文文档,以实现印尼-英跨语言信息检索。实验时,对跨语言初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档),实现本发明挖掘方法后得到关联规则模式,提取关联规则后件作为扩展词实现跨语言查询扩展。通过实验,我们得到本发明方法和对比方法的印尼-英跨语言检索结果P@15和平均R-查准率分别如表1至表2所示,实验过程中挖掘到3_项集,其中,本发明方法的实验参数是:最小置信度阈值mc分别为0.5,0.6,0.7,0.8,0.9,最小支持度阈值ms=0.5,最小项集关联度阈值minIRe=0.4。
表1本发明方法与对比方法的检索性能比较(Title查询主题)
表2本发明方法与对比方法的检索性能比较(Desc查询主题)
表1和表2表明,本发明方法的跨语言检索结果P@15和平均R-查准率值都比3个对比方法的检索结果高,效果显著。实验结果表明,本发明方法是有效的,确实能提高跨语言信息检索性能,具有很高的应用价值和广阔的推广前景。
Claims (2)
1.通过权值比较实现规则后件挖掘的跨语言查询扩展方法,其特征在于,包括以下步骤:
步骤1:源语言用户查询通过机器翻译***译为目标语言,采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档,通过对初检前列目标语言文档进行相关性判断构建初检用户相关文档集,预处理初检用户相关文档集,构建目标语言文本文档索引库和特征词库;
步骤2:通过项集权值比较在所述初检用户相关反馈文档集挖掘含有原查询词项的频繁项集,运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝,具体步骤如下:
(2-1)挖掘文本特征词1_频繁项集L1,具体步骤如下:
(2-1-1)从特征词库中提取文本特征词作为1_候选项集C1;
(2-1-2)扫描目标语言文本文档索引库,统计文本文档总数n和统计C1的项集权值w[C1];
(2-1-3)计算最小权值支持阈值MWS,所述MWS计算公式如式(2)所示:
MWS=n×ms (2)
式(2)中,所述ms为最小支持度阈值,n为目标语言文本文档索引库的文本文档总数;
(2-1-4)如果w[C1]≥MWS,则C1就是文本特征词1_频繁项集L1,添加到频繁项集集合FIS;
(2-2)挖掘文本特征词2_频繁项集L2,具体步骤如下:
(2-2-1)采用Aproiri连接方法将文本特征词1_频繁项集L1自连接得到多个2_候选项集C2;
(2-2-2)剪枝不含原查询词项的2_候选项集C2;
(2-2-3)对余下的2_候选项集C2,扫描目标语言文本文档索引库分别统计各余下的2_候选项集C2的项集权值w[C2];
(2-2-4)如果w[C2]≥MWS×2,则该2_候选项集C2就是文本特征词2_频繁项集L2,添加到频繁项集集合FIS;
(2-3)挖掘文本特征词k_频繁项集Lk,所述k≥2,具体步骤如下:
(2-3-1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集Lk-1自连接得到多个k_候选项集Ck=(i1,i2,…,ik),所述k≥2;
(2-3-2)扫描目标语言文本文档索引库,分别统计各Ck的项集权值w[Ck]和各Ck中最大的项目权值wm,分别得到各Ck中最大的项目权值wm对应的项目im,所述m∈(1,2,…,k);
(2-3-3)如果所述项目im对应的1_项集(im)是非频繁的,或者wm<MWS,则剪枝对应的Ck;
(2-3-4)对于余下的各Ck,分别计算各Ck的项集关联度IRe(Ck),如果w[Ck]≥MWS×k并且IRe(Ck)≥minIRe,那么,该Ck就是文本特征词k_频繁项集Lk,添加到频繁项集集合FIS;所述minIRe为最小项集关联度阈值;所述IRe(Ck)的计算公式如式(3)所示;
式(3)中,wmin[(iq)]和wmax[(ip)]的含义如下:对于Ck=(i1,i2,…ik),k_候选项集Ck的各个项目i1,i2,…,ik分别单独作为1_项集时对应为(i1),(i2),…,(ik);wmin[(iq)]和wmax[(ip)]分别表示1_项集(i1),(i2),…,(ik)中最小的1_项集权值和最大的1_项集权值;所述q∈(1,2,…,k),p∈(1,2,…,k);
(2-3-5)如果文本特征词k_频繁项集Lk为空集,则文本特征词频繁项集挖掘结束,转入如下步骤3,否则,k加1后转入步骤(2-3-1)继续顺序循环;
步骤3:采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集Lk挖掘含有原查询词项的文本特征词加权关联规则模式,所述k≥2;具体方法如下:
从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集Lk,按照下面步骤挖掘每个Lk的所有含有原查询词项的关联规则模式:
(3-1)构建Lk的所有真子集项集集合;
(3-2)从真子集项集集合中任意取出两个真子集项集qt和Et,且qt∪Et=Lk,QTL为目标语言原查询词项集合,Et为不含原查询词项的特征词项集合,计算项集(qt,Et)的卡方值Chis(qt,Et),计算公式如式(4)所示:
式(4)中,w[(qt)]为项集qt在目标语言文本文档索引库中项集权值,k1为项集qt的长度,w[(Et)]为项集Et在目标语言文本文档索引库中项集权值,k2为项集Et的长度,w[(qt,Et)]为项集(qt,Et)在目标语言文本文档索引库中的项集权值,kL为项集(qt,Et)的项目个数,n为目标语言文本文档索引库的文本文档总数;
(3-3)如果Chis(qt,Et)>0,则计算文本特征词加权关联规则置信度WConf(qt→Et),若WConf(qt→Et)≥最小置信度阈值mc,则关联规则qt→Et是强加权关联规则模式,添加到加权关联规则模式集合WAR;所述WConf(qt→Et)的计算公式如式(5)所示:
式(5)中,w[(qt)],k1,w[(qt,Et)],kL定义同式(4);
(3-4)如果Lk的每个真子集项集当且仅当都被取出一次,那么本次Lk中的文本特征词加权关联规则模式挖掘结束,这时从繁项集集合FIS中重新取出另一个Lk,并转入步骤(3-1)依序执行进行另一个Lk的加权关联规则模式挖掘,否则,转入步骤(3-2)依序执行各个步骤;如果频繁项集集合FIS中的每个Lk都已经被取出挖掘加权关联规则模式,则结束整个加权关联规则模式挖掘,转入如下步骤4;
步骤4:从加权关联规则模式集合WAR中提取每个加权关联规则qt→Et的后件Et作为查询扩展词,按式(6)计算扩展词权值we:
we=0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)
式(6)中,max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度的最大值、卡方值的最大值和关联度的最大值;
步骤5:步骤4所述查询扩展词与原查询词组合为新查询再次检索目标语言文档,完成跨语言查询扩展。
2.如权利要求1所述的通过权值比较实现规则后件挖掘的跨语言查询扩展方法,其特征在于,所述步骤1预处理初检用户相关文档集,具体方法为:去除停用词,提取特征词并按式(1)计算特征词权值;
式(1)中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的词频,idfj是逆文档频度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811646511.5A CN109684464B (zh) | 2018-12-30 | 2018-12-30 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811646511.5A CN109684464B (zh) | 2018-12-30 | 2018-12-30 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684464A true CN109684464A (zh) | 2019-04-26 |
CN109684464B CN109684464B (zh) | 2021-06-04 |
Family
ID=66191526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811646511.5A Expired - Fee Related CN109684464B (zh) | 2018-12-30 | 2018-12-30 | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109684464B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1632793A (zh) * | 2004-12-29 | 2005-06-29 | 复旦大学 | 一种利用缓存将关系数据发布为xml文档的优化方法 |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN101943952A (zh) * | 2010-01-27 | 2011-01-12 | 北京搜狗科技发展有限公司 | 一种至少两种语言混合输入的方法和输入法*** |
CN102033954A (zh) * | 2010-12-24 | 2011-04-27 | 东北大学 | 关系数据库中可扩展标记语言文档全文检索查询索引方法 |
CN104182527A (zh) * | 2014-08-27 | 2014-12-03 | 广西教育学院 | 基于偏序项集的中英文本词间关联规则挖掘方法及其*** |
CN104298676A (zh) * | 2013-07-18 | 2015-01-21 | 佳能株式会社 | 主题挖掘方法和设备、以及查询扩展方法和设备 |
WO2015153511A1 (en) * | 2014-03-29 | 2015-10-08 | Thomson Reuters Global Resources | Improved method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN107526839A (zh) * | 2017-09-08 | 2017-12-29 | 广西财经学院 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
CN107609095A (zh) * | 2017-09-08 | 2018-01-19 | 广西财经学院 | 基于加权正负规则前件与相关反馈的跨语言查询扩展方法 |
WO2018018912A1 (zh) * | 2016-07-29 | 2018-02-01 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及电子设备 |
CN108170778A (zh) * | 2017-12-26 | 2018-06-15 | 广西财经学院 | 基于完全加权规则后件的中英跨语言查询译后扩展方法 |
CN108334526A (zh) * | 2017-01-20 | 2018-07-27 | 北京搜狗科技发展有限公司 | 搜索结果项的展示方法和装置 |
-
2018
- 2018-12-30 CN CN201811646511.5A patent/CN109684464B/zh not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1632793A (zh) * | 2004-12-29 | 2005-06-29 | 复旦大学 | 一种利用缓存将关系数据发布为xml文档的优化方法 |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN101943952A (zh) * | 2010-01-27 | 2011-01-12 | 北京搜狗科技发展有限公司 | 一种至少两种语言混合输入的方法和输入法*** |
CN102033954A (zh) * | 2010-12-24 | 2011-04-27 | 东北大学 | 关系数据库中可扩展标记语言文档全文检索查询索引方法 |
CN104298676A (zh) * | 2013-07-18 | 2015-01-21 | 佳能株式会社 | 主题挖掘方法和设备、以及查询扩展方法和设备 |
WO2015153511A1 (en) * | 2014-03-29 | 2015-10-08 | Thomson Reuters Global Resources | Improved method, system and software for searching, identifying, retrieving and presenting electronic documents |
CN104182527A (zh) * | 2014-08-27 | 2014-12-03 | 广西教育学院 | 基于偏序项集的中英文本词间关联规则挖掘方法及其*** |
WO2018018912A1 (zh) * | 2016-07-29 | 2018-02-01 | 北京搜狗科技发展有限公司 | 一种搜索方法、装置及电子设备 |
CN108334526A (zh) * | 2017-01-20 | 2018-07-27 | 北京搜狗科技发展有限公司 | 搜索结果项的展示方法和装置 |
CN107526839A (zh) * | 2017-09-08 | 2017-12-29 | 广西财经学院 | 基于完全加权正负模式的跨语言查询译后后件扩展方法 |
CN107609095A (zh) * | 2017-09-08 | 2018-01-19 | 广西财经学院 | 基于加权正负规则前件与相关反馈的跨语言查询扩展方法 |
CN108170778A (zh) * | 2017-12-26 | 2018-06-15 | 广西财经学院 | 基于完全加权规则后件的中英跨语言查询译后扩展方法 |
Non-Patent Citations (4)
Title |
---|
XIAOBO WANG等: "Cross Language Query Expansion Approach for CIMS Based on Weighted D-S Evidence Theory", 《KEY ENGINEERING MATERIALS》 * |
ZHOU,DONG等: "A study of user profile representation for personalized cross-language information retrieval", 《ASLIB JOURNAL OF INFORMATION MANAGEMENT》 * |
周秀梅等: "基于项权值变化的矩阵加权关联规则挖掘", 《计算机应用研究》 * |
黄名选: "基于加权关联模式挖掘的越英跨语言查询扩展", 《情报学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109684464B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763196A (zh) | 一种基于pmi的关键字提取方法 | |
CN106372241B (zh) | 基于词间加权关联模式的越英跨语言文本检索方法及*** | |
CN109299278B (zh) | 基于置信度-相关系数框架挖掘规则前件的文本检索方法 | |
CN104182527A (zh) | 基于偏序项集的中英文本词间关联规则挖掘方法及其*** | |
CN109582769A (zh) | 基于权值排序的关联模式挖掘和后件扩展的文本检索方法 | |
CN106484781B (zh) | 融合关联模式和用户反馈的印尼汉跨语言检索方法及*** | |
CN109684463A (zh) | 基于权值比较与挖掘的跨语言译后前件扩展方法 | |
CN109726263A (zh) | 基于特征词加权关联模式挖掘的跨语言译后混合扩展方法 | |
CN109739953B (zh) | 基于卡方分析-置信度框架和后件扩展的文本检索方法 | |
CN109684464A (zh) | 通过权值比较实现规则后件挖掘的跨语言查询扩展方法 | |
CN107609095B (zh) | 基于加权正负规则前件与相关反馈的跨语言查询扩展方法 | |
CN109739952A (zh) | 融合关联度和卡方值的模式挖掘与扩展的跨语言检索方法 | |
CN111897922A (zh) | 基于模式挖掘与词向量相似度计算的中文查询扩展方法 | |
CN107526839B (zh) | 基于完全加权正负模式的跨语言查询译后后件扩展方法 | |
CN109684465B (zh) | 基于项集权值比较的模式挖掘和混合扩展的文本检索方法 | |
CN109299292A (zh) | 基于矩阵加权关联规则前后件混合扩展的文本检索方法 | |
CN109753559A (zh) | 基于rcsac框架挖掘和规则后件扩展的跨语言文本检索方法 | |
CN111897919A (zh) | 基于Copulas函数和伪相关反馈规则扩展的文本检索方法 | |
CN107562904B (zh) | 融合项权值与频度的英文词间加权正负关联模式挖掘方法 | |
CN108416442A (zh) | 基于项频度和权值的中文词间矩阵加权关联规则挖掘方法 | |
CN106383883B (zh) | 基于矩阵加权关联模式的印尼汉跨语言检索方法及*** | |
CN109710777A (zh) | 基于项集权值比剪枝和关联规则前件扩展的文本检索方法 | |
CN109739967A (zh) | 基于卡方分析-置信度框架与混合扩展的跨语言检索方法 | |
CN111897924A (zh) | 基于关联规则与词向量融合扩展的文本检索方法 | |
CN111897921A (zh) | 基于词向量学习和模式挖掘融合扩展的文本检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210604 Termination date: 20211230 |
|
CF01 | Termination of patent right due to non-payment of annual fee |