CN109684464B

CN109684464B - 通过权值比较实现规则后件挖掘的跨语言查询扩展方法

Info

Publication number: CN109684464B
Application number: CN201811646511.5A
Authority: CN
Inventors: 黄名选
Original assignee: Guangxi University of Finance and Economics
Current assignee: Guangxi University of Finance and Economics
Priority date: 2018-12-30
Filing date: 2018-12-30
Publication date: 2021-06-04
Anticipated expiration: 2038-12-30
Also published as: CN109684464A

Abstract

本发明公开了通过权值比较实现规则后件挖掘的跨语言查询扩展方法，首先跨语言首次检索构建初检相关反馈文档集，再在该文档集挖掘含有原查询词项的频繁项集，用项集关联度值及项集的项目权值最大者或者最大项目权值对候选项集剪枝，采用卡方分析‑置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式，将前件是原查询词项集合的关联规则后件项集作为查询扩展词，实现跨语言查询扩展。本发明能克服现有加权关联规则挖掘方法的缺陷，提高挖掘效率，能挖掘出与原查询相关的扩展词，提高和改善跨语言信息检索性能，减少检索中查询主题漂移和词不匹配问题，在跨语言搜索引擎和web跨语言检索***中具有较好的应用价值和推广前景。

Description

通过权值比较实现规则后件挖掘的跨语言查询扩展方法

技术领域

本发明属于信息检索领域，具体是通过权值比较实现规则后件挖掘的跨语言查询扩展方法。

背景技术

当前，具有多语言性特点的网络信息资源迅猛增长，成为了隐含巨大经济价值和研究价值的网络大数据。网络用户以自己熟悉的语言的查询表达式在网络大数据资源中检索其他语言信息资源过程中遇到的问题是查询主题严重漂移和词不匹配等问题，跨语言查询扩展是解决这些问题的关键技术之一。

跨语言查询扩展是提高和改善跨语言信息检索性能的核心技术之一，能解决跨语言信息检索中长期困扰的查询主题严重漂移和词不匹配等问题，指的是在跨语言信息检索过程中，采用某种策略发现与原查询相关的扩展词，扩展词和原查询组合得到新查询并再次检索的过程。近十几年来，学者们对跨语言查询扩展方法开展了卓有成效的研究，取得了一些研究成果，例如，闭剑婷等提出的一种基于潜在语义分析的跨语言查询扩展方法(闭剑婷,苏一丹.基于潜在语义分析的跨语言查询扩展方法[J].计算机工程,2009,35(10):49-53.)，吴丹等提出一种基于伪相关反馈的跨语言查询扩展方法(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)，等等，但还没有最终完全解决跨语言信息检索中查询主题漂移和词不匹配问题。

发明内容

本发明提出了通过权值比较实现规则后件挖掘的跨语言查询扩展方法，应用于实际的跨语言搜索引擎和web跨语言信息检索***，能解决跨语言信息检索中查询主题漂移和词不匹配问题，提高跨语言检索性能。

本发明的技术方案如下：

通过权值比较实现规则后件挖掘的跨语言查询扩展方法，包括下列步骤：

步骤1：源语言查询跨语言首次检索目标语言文档，构建和预处理初检相关反馈文档集。具体步骤：

(1-1)源语言用户查询通过机器翻译***译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档。

机器翻译***是：微软必应机器翻译接口Microsoft Translator API，或者，谷歌机器翻译接口，等等。

(1-2)通过对初检前列目标语言文档进行相关性判断构建初检相关反馈文档集。

(1-3)预处理初检相关反馈文档集，构建目标语言文本文档索引库和特征词库；

所述预处理方法是：去除停用词，提取特征词并按式(1)计算特征词权值；

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的词频，本发明将tf_j,i进行标准化处理，所述标准化处理是指将文档d_i中每个特征词所述的tf_j,i除以文档d_i的最大词频，idf_j是逆文档频度。

步骤2：通过项集权值比较在初检相关反馈文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：

(2-1)挖掘文本特征词1_频繁项集L₁，具体步骤如下：

(2-1-1)从特征词库中提取文本特征词作为1_候选项集C₁；

(2-1-2)扫描目标语言文本文档索引库，统计文本文档总数n和统计C₁的项集权值w[C₁]；

(2-1-3)计算最小权值支持阈值MWS。所述MWS计算公式如式(2)所示。

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数。

(2-1-4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS。

(2-2)挖掘文本特征词2_频繁项集L₂，具体步骤如下：

(2-2-1)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂；

所述Aproiri连接方法详见文献(Agrawal R,Imielinski T,Swami A.Miningassociation rules between sets of items in large database[C]//Proceedings ofthe 1993ACM SIGMOD International Conference on Management of Data,WashingtonD C,USA,1993:207-216.)

(2-2-2)剪枝不含原查询词项的2_候选项集C₂；

(2-2-3)对余下的2_候选项集C₂，扫描目标语言文本文档索引库分别统计各余下的2_候选项集C₂的项集权值w[C₂]；

(2-2-4)如果w[C₂]≥MWS×2，则该2_候选项集C₂就是文本特征词2_频繁项集L₂，添加到频繁项集集合FIS；

(2-3)挖掘文本特征词k_频繁项集L_k，所述k≥2，具体步骤如下：

(2-3-1)采用Aproiri连接方法将文本特征词(k-1)_频繁项集L_k-1自连接得到多个k_候选项集C_k＝(i₁,i₂,…,i_k)，所述k≥2；

(2-3-2)扫描目标语言文本文档索引库，分别统计各C_k的项集权值w[C_k]和各C_k中最大的项目权值w_m，分别得到各C_k中最大的项目权值w_m对应的项目i_m，所述m∈(1,2,…,k)；

(2-3-3)如果所述项目i_m对应的1_项集(i_m)是非频繁的，或者w_m<MWS，则剪枝对应的C_k；

(2-3-4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(2)所示；

式(2)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

(2-3-5)如果文本特征词k_频繁项集L_k为空集，则文本特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2-3-1)继续顺序循环；

步骤3：采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集L_k挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2。具体步骤如下：

从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有含有原查询词项的关联规则模式。

(3-1)构建L_k的所有真子集项集集合；

(3-2)从真子集项集集合中任意取出两个真子集项集q_t和E_t，且

q_t∪E_t＝L_k，

Q_TL为目标语言原查询词项集合，E_t为不含原查询词项的特征词项集，计算项集(q_t,E_t)的卡方值，所述卡方值Chis(q_t,E_t)计算公式如式(4)所示。

式(4)中，w[(q_t)]为项集q_t在目标语言文本文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在目标语言文本文档索引库中的项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在目标语言文本文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为目标语言文本文档索引库的文本文档总数。

(3-3)如果Chis(q_t,E_t)>0，则计算文本特征词加权关联规则置信度WConf(q_t→E_t)。若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强加权关联规则模式，添加到加权关联规则模式集合WAR。所述WConf(q_t→E_t)的计算公式如式(5)所示。

式(5)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L定义同式(4)。

(3-4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3-1)依序执行进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(3-2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤4。

步骤4：从加权关联规则模式集合WAR中提取加权关联规则后件E_t作为查询扩展词，计算扩展词权值。

从加权关联规则模式集合WAR中提取每个加权关联规则q_t→E_t的后件Et作为查询扩展词，所述扩展词的权值w_e计算公式如式(6)所示。

w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)

式(6)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值，即当扩展词重复出现在多个加权关联规则模式时，分别取上述3个度量值的最大值。

步骤5：扩展词与原查询词组合为新查询再次检索目标语言文档，完成跨语言查询扩展。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出通过权值比较实现规则后件挖掘的跨语言查询扩展方法。该发明方法通过项集权值比较在初检相关反馈目标语言文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，采用卡方分析-置信度评价框架从频繁项集中挖掘含有原查询词项的文本特征词关联规则模式，将前件是原查询词项集合的关联规则后件项集作为查询扩展词，实现跨语言查询扩展，扩展词与原查询词组合为新查询再次检索目标语言文档。实验结果表明，本发明能提高和改善跨语言文本信息检索性能。

(2)选择国际上普遍使用的标准数据集NTCIR-5CLIR作为本发明方法实验语料。选择现有挖掘方法作为本发明的对比方法，实验结果表明，本发明方法的跨语言文本检索结果P@15和平均R-查准率值都比对比方法的高，效果显著，说明本发明方法的检索性能均优于对比方法，能提高跨语言信息检索性能，减少跨语言信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明通过权值比较实现规则后件挖掘的跨语言查询扩展方法的流程示意图。

具体实施方式

以下结合附图说明本发明方法的具体实施方式，但不构成对本发明权利要求保护范围的限制。

以下介绍本发明相关的概念：

1.文本特征词关联规则的前件和后件

设T₁、T₂是任意的文本特征词项集，将形如T₁→T₂的蕴含式称为文本特征词关联规则，其中，T₁称为规则前件，T₂称为规则后件。

2.假设DS＝{d₁,d₂,…,d_n}是文本文档集(Document Set，DS)，其中，d_i(1≤i≤n)是文档集DS中的第i篇文档，d_i＝{t₁,t₂,…,t_m,…,t_p}，t_m(m＝1,2,…,p)为文档特征词项目，简称特征项，一般是由字、词或词组构成，d_i中对应的特征项权值集合W_i＝{w_i1,w_i2,…,w_im,…,w_ip}，w_im为第i篇文档d_i中第m个特征项t_m对应的权值，T＝{t₁,t₂,…,t_n}表示DS中全体特征项集合，T的各个子集均称为特征项项集，简称项集。

假设在文本文档索引库中统计k_候选项集C_k＝(i₁,i₂,…,i_k)的项集权值w[C_k]，得到C_k各个项目i₁,i₂,…,i_k对应的权值分别为w₁,w₂,…,w_k，那么，所述w₁,w₂,…,w_k称为项目权值，而C_k的项集权值w[C_k]＝w₁+w₂+…+w_k。

实施例1

如图1所示，通过权值比较实现规则后件挖掘的跨语言查询扩展方法，包括下列步骤：

(1-3)预处理初检相关反馈文档集，构建目标语言文本文档索引库和特征词库。

初检相关反馈文档集预处理方法要根据不同语种采用相应的预处理方法，例如，如果目标语言是英语，则预处理方法是：去除英文停用词，采用Porter程序(详细见网址：http://tartarus.org/martin/PorterStemmer)提取得到英文特征词词干，计算英文特征词权值，如果目标语言是汉语，预处理方法是：去除中文停用词，对中文文档进行分词后提取中文特征词，计算中文特征词权值。

本发明给出初检相关反馈文档特征词权值计算公式，如式(1)所示的计算公式。

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的词频，普遍将tf_j,i进行标准化处理，所述标准化处理是指将所述的文档d_i中每个特征词tf_j,i除以文档d_i的最大词频，idf_j是逆文档频度(Inverse Document Frequency)。

跨语言查询扩展词的来源是跨语言初检相关反馈文档，因此，在跨语言初检相关反馈文档集中，含有某个文本特征词的初检相关反馈文档数量越多，则所述特征词与原查询越相关，越重要，所述特征词的权值就越高。

(2-1)挖掘文本特征词1_频繁项集L₁，具体步骤如下：

(2-1-1)从特征词库中提取文本特征词作为1_候选项集C₁；

MWS＝n×ms (2)

(2-1-4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS(Frequent ItemSet)。

(2-2)挖掘文本特征词2_频繁项集L₂，具体步骤如下：

(2-2-1)采用Aproiri连接方法将文本特征词1_频繁项集L₁自连接得到多个2_候选项集C₂。

(2-2-2)剪枝不含原查询词项的2_候选项集C₂；

(2-3-4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；否则剪枝所述C_k；

所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；

式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

本发明所述的剪枝采用如下方法：

(1)对于k_候选项集C_k＝(i₁,i₂,…,i_k)，如果所述C_k的项集权值w[C_k]<MWS×k，则所述是非频繁的，剪除所述C_k；如果所述C_k的项集关联度IRe(C_k)<minIRe，则所述C_k是无效项集，剪除所述C_k；综上所述，本发明只挖掘w[C_k]≥MWS×k并且IRe(C_k)≥minIRe的有效频繁项集，所述minIRe为最小项集关联度阈值。

(2)如果k_候选项集C_k＝(i₁,i₂,…,i_k)中最大的项目权值小于最小权值支持阈值MWS，那么C_k是非频繁的，则剪除所述C_k；

(3)假设k_候选项集C_k＝(i₁,i₂,…,i_k)中最大项目权值对应的项目单独作为1_项集为(i_m)，如果所述1_项集(i_m)是非频繁的，则剪除所述C_k。

(4)当挖掘到候选2_项集时，将不含原查询词项的候选2_项集删除，留下含有原查询词项的候选2_项集。

步骤3：采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个k_频繁项集L_k挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2。具体步骤如下：

(3-1)构建L_k的所有真子集项集集合；

q_t∪E_t＝L_k，

式(4)中，w[(q_t)]为项集q_t在目标语言文本文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在目标语言文本文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在目标语言文本文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为目标语言文本文档索引库的文本文档总数。

卡方分析(Chi-square Analysis)的核心思想是度量数据项间的相关性，如果Chis(q_t,E_t)＝0，说明两个真子集项集q_t和E_t相互独立，不存在任何相关性，由此，可以避免一些虚假相关的关联规则出现。

式(5)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L定义同式(4)。

(3-4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3-1)进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(3-2)再顺序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤4。

从加权关联规则模式集合WAR中提取每个加权关联规则q_t→E_t的后件Et作为查询扩展词，由于关联度是衡量项集中各个项目关联程度的重要指标，而置信度值和卡方值是衡量关联规则模式前件和后件相关性的重要指标，鉴于此，本发明将关联度、卡方值和置信度值作为扩展词权值的计算依据，根据所述3个度量值对扩展词的重要程度，提出扩展词权值w_e的计算公式，如式(6)所示：

w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)

式(6)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度、卡方值和关联度的最大值，即当扩展词重复出现在多个加权关联规则模式时，取上述3个度量值的最大值。

实验设计与结果：

为了说明本发明方法的有效性，特以印尼语和英语为语言对象，进行了基于本发明方法和对比方法的印尼-英跨语言信息检索实验，比较本发明方法和对比方法的跨语言检索性能。

实验语料：

本发明实验语料是标准数据集NTCIR-5CLIR语料(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-CLIR.html)，即选择NTCIR-5CLIR语料中的英文文档集Mainichi Daily News 2000、2001年和Korea Times 2001年的新闻文本，共有26224篇英文文档作为本发明实验数据，具体是Mainichi Daily News 2000的新闻文本6608篇(简称m00)，Mainichi Daily News 2001的5547篇(m01)和Korea Times2001年的14069篇(k01)。

NTCIR-5CLIR语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有Title、Desc、Narr和Conc等4种类型，结果集有2种评价标准，即高度相关，相关的Rigid标准和高度相关、相关和部分相关的Relax标准。本发明实验用的查询主题类型选择Title和Desc类型，Title查询属于短查询，以名词和名词性短语简要描述查询主题，Desc查询属于长查询，以句子形式简要描述查询主题。

本发明实验结果的评价指标是P@15和平均R-查准率。所述P@15是指对于测试查询返回的前15个结果的准确率，所述平均R-查准率是指对所有查询所对应的R-查准率的算术平均值，所述R-查准率是指当R个文档被检索后所计算的查准率。

对比方法：

(1)对比方法1：印尼-英跨语言基准检索方法。所述对比方法1指将印尼语查询通过机器翻译为英文后检索英文文档得到的检索结果，检索过程中没有实行各种查询扩展。

(2)对比方法2：基于加权关联模式挖掘的印尼-英跨语言查询译后扩展方法。所述对比方法2是基于文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[J].情报学报,2017,36(3):307-318.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验参数是：最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。

(3)对比方法3：基于伪相关反馈的印尼-英跨语言查询译后扩展方法，所述对比方法2是基于文献(吴丹,何大庆,王惠临.基于伪相关反馈的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现印尼-英跨语言查询译后扩展的检索结果。实验方法：提取印尼-英跨语言初检前列英文文档20篇构建初检相关文档集，提取特征词项并计算其权值，按权值降序排列将前列20个特征词项作为英文扩展词实现越-英跨语言查询译后扩展。

实验方法和结果如下：

运行本发明方法和对比方法的源程序，首先将50个印尼语查询主题的Title和Desc查询通过机器翻译***翻译为英文，并检索英文文档，以实现印尼-英跨语言信息检索。实验时，对跨语言初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)，实现本发明挖掘方法后得到关联规则模式，提取关联规则后件作为扩展词实现跨语言查询扩展。通过实验，我们得到本发明方法和对比方法的印尼-英跨语言检索结果P@15和平均R-查准率分别如表1至表2所示，实验过程中挖掘到3_项集，其中，本发明方法的实验参数是：最小置信度阈值mc分别为0.5,0.6,0.7,0.8,0.9，最小支持度阈值ms＝0.5，最小项集关联度阈值minIRe＝0.4。

表1本发明方法与对比方法的检索性能比较(Title查询主题)

表2本发明方法与对比方法的检索性能比较(Desc查询主题)

表1和表2表明，本发明方法的跨语言检索结果P@15和平均R-查准率值都比3个对比方法的检索结果高，效果显著。实验结果表明，本发明方法是有效的，确实能提高跨语言信息检索性能，具有很高的应用价值和广阔的推广前景。

Claims

1.通过权值比较实现规则后件挖掘的跨语言查询扩展方法，其特征在于,包括以下步骤：

步骤1：源语言用户查询通过机器翻译***译为目标语言，采用向量空间检索模型检索目标语言文本文档集得到初检前列目标语言文档，通过对初检前列目标语言文档进行相关性判断构建初检用户相关文档集，预处理初检用户相关文档集，构建目标语言文本文档索引库和特征词库；

步骤2：通过项集权值比较在所述初检用户相关反馈文档集挖掘含有原查询词项的频繁项集，运用项集关联度值以及项集的项目权值最大者或者最大项目权值对项集进行剪枝，具体步骤如下：

(2-1)挖掘文本特征词1_频繁项集L₁，具体步骤如下：

(2-1-1)从特征词库中提取文本特征词作为1_候选项集C₁；

(2-1-3)计算最小权值支持阈值MWS，所述MWS计算公式如式(2)所示：

MWS＝n×ms (2)

式(2)中，所述ms为最小支持度阈值，n为目标语言文本文档索引库的文本文档总数；

(2-1-4)如果w[C₁]≥MWS，则C₁就是文本特征词1_频繁项集L₁，添加到频繁项集集合FIS；

(2-2)挖掘文本特征词2_频繁项集L₂，具体步骤如下：

(2-2-2)剪枝不含原查询词项的2_候选项集C₂；

(2-3-4)对于余下的各C_k，分别计算各C_k的项集关联度IRe(C_k)，如果w[C_k]≥MWS×k并且IRe(C_k)≥minIRe，那么，该C_k就是文本特征词k_频繁项集L_k，添加到频繁项集集合FIS；所述minIRe为最小项集关联度阈值；所述IRe(C_k)的计算公式如式(3)所示；

式(3)中，w_min[(i_q)]和w_max[(i_p)]的含义如下：对于C_k＝(i₁,i₂,…i_k)，k_候选项集C_k的各个项目i₁,i₂,…,i_k分别单独作为1_项集时对应为(i₁),(i₂),…,(i_k)；w_min[(i_q)]和w_max[(i_p)]分别表示1_项集(i₁),(i₂),…,(i_k)中最小的1_项集权值和最大的1_项集权值；所述q∈(1,2,…,k)，p∈(1,2,…,k)；

步骤3：采用卡方分析-置信度评价框架从频繁项集集合FIS中每一个文本特征词k_频繁项集L_k挖掘含有原查询词项的文本特征词加权关联规则模式，所述k≥2；具体方法如下：

从频繁项集集合FIS中取出任意一个文本特征词k_频繁项集L_k，按照下面步骤挖掘每个L_k的所有含有原查询词项的关联规则模式：

(3-1)构建L_k的所有真子集项集集合；

q_t∪E_t＝L_k，

Q_TL为目标语言原查询词项集合，E_t为不含原查询词项的特征词项集合，计算项集(q_t,E_t)的卡方值Chis(q_t,E_t)，计算公式如式(4)所示：

式(4)中，w[(q_t)]为项集q_t在目标语言文本文档索引库中项集权值，k₁为项集q_t的长度，w[(E_t)]为项集E_t在目标语言文本文档索引库中项集权值，k₂为项集E_t的长度，w[(q_t,E_t)]为项集(q_t,E_t)在目标语言文本文档索引库中的项集权值，k_L为项集(q_t,E_t)的项目个数，n为目标语言文本文档索引库的文本文档总数；

(3-3)如果Chis(q_t,E_t)>0，则计算文本特征词加权关联规则置信度WConf(q_t→E_t)，若WConf(q_t→E_t)≥最小置信度阈值mc，则关联规则q_t→E_t是强加权关联规则模式，添加到加权关联规则模式集合WAR；所述WConf(q_t→E_t)的计算公式如式(5)所示：

式(5)中，w[(q_t)]，k₁，w[(q_t,E_t)]，k_L定义同式(4)；

(3-4)如果L_k的每个真子集项集当且仅当都被取出一次，那么本次L_k中的文本特征词加权关联规则模式挖掘结束，这时从繁项集集合FIS中重新取出另一个L_k，并转入步骤(3-1)依序执行进行另一个L_k的加权关联规则模式挖掘，否则，转入步骤(3-2)依序执行各个步骤；如果频繁项集集合FIS中的每个L_k都已经被取出挖掘加权关联规则模式，则结束整个加权关联规则模式挖掘，转入如下步骤4；

步骤4：从加权关联规则模式集合WAR中提取每个加权关联规则q_t→E_t的后件E_t作为查询扩展词，按式(6)计算扩展词权值w_e：

w_e＝0.5×max(WConf())+0.3×max(Chis())+0.2×max(IRe()) (6)

式(6)中，max(WConf())、max(Chis())和max(IRe())分别表示加权关联规则置信度的最大值、卡方值的最大值和关联度的最大值；

步骤5：步骤4所述查询扩展词与原查询词组合为新查询再次检索目标语言文档，完成跨语言查询扩展。

2.如权利要求1所述的通过权值比较实现规则后件挖掘的跨语言查询扩展方法，其特征在于，所述步骤1预处理初检用户相关文档集，具体方法为：去除停用词，提取特征词并按式(1)计算特征词权值；

式(1)中，w_ij表示文档d_i中特征词t_j的权值，tf_j,i表示特征词t_j在文档d_i中的词频，idf_j是逆文档频度。