CN102902806B

CN102902806B - 一种利用搜索引擎进行查询扩展的方法及***

Info

Publication number: CN102902806B
Application number: CN201210395213.XA
Authority: CN
Inventors: 石志伟; 雷大伟; 车天文; 周步恋; 杨振东; 王更生; 王喜民; 何宏靖; 徐忆苏
Original assignee: Shenzhen Yisou Science & Technology Development Co Ltd
Current assignee: Shenzhen easou world Polytron Technologies Inc
Priority date: 2012-10-17
Filing date: 2012-10-17
Publication date: 2016-02-10
Anticipated expiration: 2032-10-17
Also published as: CN102902806A

Abstract

本发明涉及互联网搜索领域，提供了一种利用搜索引擎进行查询扩展的方法，具体包括，获得搜索引擎集群中的每个搜索引擎的检索结果，通过对检索结果进行评价获得每个搜索引擎的权重；确定用户查询的核心词和修饰词，并以此为基础确定扩展词，从而形成扩展查询进行搜索。本发明还提供了一种利用搜索引擎进行查询扩展的***。采用上述技术方案，依据搜索引擎集群的检索结果对用户的核心需求进行扩展，一方面使得用户的需求更加明确，避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险，另一方面可以给用户提供多角度、多侧面的查询结果，极大范围地满足用户需求，甚至可以引导用户需求，使得搜索引擎的用户体验得到大幅的提升。

Description

一种利用搜索引擎进行查询扩展的方法及***

技术领域

本发明涉及互联网搜索技术领域，特别地涉及一种利用搜索引擎进行查询扩展的方法及***。

背景技术

随着计算机技术及互联网技术的飞速发展，互联网上的数据和信息急剧增长。面对海量的数字化信息，人们通常需要通过搜索引擎来获取他们想要的信息。而对于搜索引擎而言，如何能够更好的理解用户的需求，如何能够从海量的数据中提取用户感兴趣的信息返回给用户，已经成为首要的课题。

对于通用搜索引擎而言，通常只有一个输入框接受用户的查询。这就使得理解用户的查询核心需求以及具体需求细节变得有挑战性。如果用户的查询语句太短，则很难弄清用户需求的全部细节，检索结果往往与用户的需求部分相关；如果用户的查询语句过长，则很难把握用户的核心需求，很可能查询结果偏离用户的核心需求，或者只满足部分需求，顾此失彼。

为了更好的理解用户的查询意图，进而提高搜索引擎检索的准确率和召回率，查询扩展技术应运而生。目前的查询扩展技术主要包括：基于全局分析的查询扩展、基于局部分析的查询扩展、基于查询日志的查询扩展和基于语义资源的查询扩展。

基于全局分析的查询扩展通过挖掘大数据集上词语之间的相关度进行查询扩展。对通用搜索引擎而言，其数据集全体及其庞大，基于全局的数据分析对时间、设备的需求是极其巨大的；同时由于可能的歧义影响，全局分析扩展出的查询语义需求可能更加模糊，使得检索结果变差。因此，这种方法在实际的搜索引擎中鲜有采用。

基于局部分析的查询扩展包括相关反馈和伪相关反馈。

相关反馈方法是搜索引擎算法中的经典方法。该方法先用用户的初始查询，得到搜索结果，通过用户点击，得到相关文档集合，和不相关文档集合，对与查询相关性高的词进行加权，相关性差的进行降权，一些词甚至可以删除。最早Rocchio提出相关反馈模型是搜索引擎的经典模型，可以参考ChristopherD.Manning,PrabhakarRaghavan,HinrichSchütze:AnIntroductiontoInformationRetrieval.CambridgeUniversityPress,2009。其缺点是：一方面，它需要用户点击，需要大量的查询日志的积累，另一方面，它的参数选取需大量实验来确定最优，而全局最优参数通常在局部查询中效果并不理想。因此，直接使用相关反馈进行查询扩展的实例并不多。

伪相关反馈方法近年来被广为使用。该方法假定初始查询结果中高排名的文档是与用户感兴趣的主题相关的，于是从高排名的文档中提取词来扩展查询语句。例如：CN200910132193.5提供了查询扩展方法及查询扩展设备，针对给定的查询语句进行搜索，得到查询结果；在所得到的查询结果集合中，在排名在前一定数目的查询结果子集中进行聚类，生成簇；对簇进行排序；从排名在前一定数目的簇中提取词，把所提取的词添加到查询语句，生成新的查询语句。不过伪相关反馈方法对初始结果很敏感，若初始结果比较相关，则呈现正反馈；若初始结果比较不相关，则呈现负反馈。

基于查询日志的查询扩展方法是另一种比较常用的方法，该方法通过对日志进行分析给出扩展的查询建议。例如：CN200710097501.6提供了查询扩展方法和装置以及相关检索词库，将用户的查询行为记录按照该用户的身份标识和访问时间划分为至少一个查询事件和查询单元；周期性地计算所述各个查询单元或者查询事件中的检索词之间的相关度，根据计算出的检索词之间的相关度对相关检索词库进行更新；在相关检索词库中检索与用户查询时所输入的检索词的相关度接近的相关检索词，形成查询扩展结果。与相关反馈方法类似，基于查询日志分析的方法同样需要大量的查询日志的积累。

基于语义概念的查询扩展方法利用领域本体，语义网，语义词典等语义资源，对查询进行扩展。例如：CN200810116729.X提供了一种基于领域知识的语义查询扩展方法，根据对领域知识和用户查询语句特征的分析，构建领域知识库；然后利用领域知识库内容，对用户输入的查询语句进行语义处理，获得一个语义项列表；利用语义项列表，结合领域知识库内容，通过语义计算得到可扩展项；将所获得的可扩展项提交搜索***进行查询。基于语义概念的方法的缺点在于：一方面语义资源的建立需要大量人力物力，另一方面，基于语义的扩展只针对用户查询进行分析，没有考虑搜索引擎的数据分布，可能造成扩展的查询与数据不匹配，从而不能返回较好的结果。

发明内容

本发明解决的技术问题在于提供了一种利用搜索引擎进行查询扩展的方法，以解决目前查询扩展依赖性强以及需要庞大资源的问题，本发明还提供了一种利用搜索引擎进行查询扩展的***。

为解决上述问题，本发明实施例提供了一种利用搜索引擎进行查询扩展的方法，具体包括，用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，所述检索结果被收集到一个文档池中，N为自然数；根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户。

本发明实施例还提供了一种利用搜索引擎进行查询扩展的***，具体包括，搜索引擎查询模块，用于将用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，这些检索结果被收集到一个文档池中；搜索引擎评价模块，用于根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；核心词确定模块，用于根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；修饰词确定模块，用于根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；扩展词生成模块，用于根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；查询结果获取模块，用于利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户。

采用上述技术方案，依据搜索引擎集群的检索结果对用户的核心需求进行扩展，一方面使得用户的需求更加明确，避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险，另一方面可以给用户提供多角度、多侧面的查询结果，极大范围地满足用户需求，甚至可以引导用户需求，使得搜索引擎的用户体验得到大幅的提升。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明第一实施例流程图；

图2是本发明第二实施例结构图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明第一实施例流程图，提供了一种利用搜索引擎进行查询扩展的方法，具体包括，

步骤S101，用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，这些检索结果被收集到一个文档池pool中；

具体地，所述搜索引擎集群中的每个搜索引擎可以采用不同的搜索算法，包括但不限于：向量空间方法；基于概率统计的方法，例如BM25或者BM25的各种变种算法；基于链接分析的方法，例如PageRank或者类似方法；以及上述方法的组合。这些搜索引擎可以是不同类型的搜索引擎，包括但不限于：综合搜索引擎，各类垂直搜索引擎等。这些搜索引擎可以使用不同的数据集，包括但不限于：互联网数据，专业数据库数据，内部网数据等。

对于给定查询Q，假定搜索引擎集群中包含K个不同的搜索引擎，分别为S₁,S₂,…,S_K；将得到K个搜索结果序列R₁,R₂,…,R_K收集到文档池中，其中R_i＝(D_i1,D_i2,…,D_iN)，N为截取搜索引擎返回的结果条数，D_ij为第i个搜索引擎返回的第j个结果文档。

步骤S102，根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；

通过评价各个搜索引擎，为集群中每个搜索引擎赋予一定的权重，这个权重标识了由该搜索引擎返回的搜索结果的重要度，为后续的分析做准备。这里，对每个搜索引擎的评价(权值)可以是固定的，也可以是定期调整的，也可以是根据不同的用户查询动态变化的。

搜索引擎的评价方法可以采用pooling技术，利用全部标注、或者部分标注或者无标注的方法对各个搜索引擎进行评价。其中，标注的方法可以采用0-1二元标注，0代表不相关，1代表相关；也可以采用等级标注，比如打分范围为0-3，0代表不相关，1代表相关度差，2代表较相关，3代表非常相关。如果每个搜索引擎的评价是固定的，可以采用全部标注的方法；如果每个搜索引擎的评价是定期更新的，全部标注或者部分标注的方法均可使用；如果每个搜索引擎的评价是根据用户查询动态变化的，则需要使用无标注的检索评价方法。搜索引擎的评价指标可以使用现存的各种评价指标，比如平均准确率(MeanAveragePrecision)，PrecisionN，NDCG，Bpref等等。

下面是一个具体评价方法的实例。假定搜索引擎集群中包含K个不同的搜索引擎，分别为S₁,S₂,…,S_K；通过M个用户查询Q₁,Q₂,…,Q_M来给出每个搜索引擎的权重W₁,W₂,…,W_K。这里集群中各个搜索引擎的评价是固定的，利用pooling技术全部标注的方法标注各个搜索引擎的检索结果的相关性，标注为0-1二元标注，然后利用平均准确率(MAP)的方法给出每个搜索引擎的评分。

第一步：对于查询Q_i，通过搜索引擎S_j得到前N条搜索结果：

R_ij＝(D_ij1,D_ij2,…,D_ijN)

第二步：通过全部标注，得到这N篇文档的相关情况：

R_ij’＝(D_ij1’,D_ij2’,…,D_ijN’)

其中D_ijk’＝1表示文档D_ijk与用户查询相关，D_ijk’＝0表示文档D_ijk与用户查询无关

第三步：根据MAP的计算公式，得到搜索引擎S_j对于查询Q_i的得分

{score}_{i j} = \frac{Σ_{l = 1}^{r_{Q_{i}}} \frac{l}{# {Doc}_{Q} (l)}}{R_{Q_{i}}}

其中r_Qi为N篇文档中相关文档的个数，#Doc_Q(l)为第l篇相关文档在结果序列中所处的位置，R_Qi为对于查询Q，全部K个搜索引擎的前N篇文档所组成的pool中包含的相关文档的总数。

例如：对于搜索引擎S_j，截取某个查询Q的前30条结果，其中共有5篇相关文档，其位置分别是第1，第2，第5，第10，第20位，而全部搜索引擎集群对于该查询的前30条结果集合中共包含6个相关结果，则S_j对于Q的得分为(1/1+2/2+3/5+4/10+5/20)/6

在上述评价过程中每一篇相关文档是同等对待的，也可以为不同的相关文档赋予不同的权重，比如，一篇相关文档，被越多的搜索引擎检索出来，它的权重就越大。

第四步：累加搜索引擎S_j在所有查询上的得分，得到该搜索引擎的最终得分，这个得分为该搜索引擎的权重。

W_{j} = \underset{i}{Σ} {score}_{i j}

步骤S103，根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；

具体地，包括，

S1031，过滤用户查询中的停用词；

使用一个停用词表，将用户查询中的停用词过滤出去。

S1032，提取用户查询中的实体词；

实体词通常会反映用户查询中的核心需求，或者是需求的主要细节，在此环节对是否实体词的判断将影响后续词语的打分。

1)从分类实体词库中提取实体词；

定期从指定数据源中挖掘出指定类型的实体名，并存入实体词库。例如，根据给定小说网站列表，从网站数据中挖掘小说名，作者名。任何模式发现及模式匹配的方法可以在此使用，例如Nagao串频算法发现高频模式再利用BM模式匹配方法发现实体名。

存储挖掘出来的全部实体名。这些实体名可以采用任意数据组织结构进行存储，比如数据库、trie树、哈希表等等，或者多种存储结构的结合。

2)识别查询中的命名实体(也是实体词)；

利用机器学习的方法，识别用户查询中特定类型的实体名，比如人名，机构名等等。这里任何机器学习方法均可以用来识别实体名，比如支持向量机方法、条件随机场方法、隐马尔科夫模型等等，也可以采用多种方法的结合。

3)进行实体名的消歧工作，对于有冲突(比如相互覆盖)的实体名进行处理，确定最后的实体名输出列表。

各种消歧算法在这里均可以使用，比如长实体词优先策略，或者冲突数少优先策略等等，或者多种消歧策略的结合。

S1033，给用户查询中除停用词外的每个词语打分；词语打分最高的1～3个词被标识为核心词，表明用户的核心需求。

每个词语的打分受该词语自身属性影响，同时也受其在搜索引擎集群返回的相关文档中的重要程度影响。

point＝f(point₁,point₂)

其中point是词语的最终打分，point₁是词语自身属性的打分，point₂是词语在相关文档中的打分，f表示两种打分的耦合方式，例如：

f(point₁,point₂)＝α*point₁+β*point₂；

其中α和β是两个参数，他们满足条件：α,β>0并且α+β＝1

point₁受词语自身属性影响，这些属性包括词语的词性、位置、是否已知类型的实体词等等。例如：实体词为3分；名词为2分；一系列地名中最后的地名2分，前面的地名1分；动词、形容词、副词为1分；其他0分。

point₂为词语在搜索引擎集群返回的相关文档中的打分，受到下面因素影响：搜索引擎的评价(权重)，文档在搜索结果中的评价，词语在文档中的位置，词语在文档中出现的频次等。例如：

{Point}_{2} = \underset{E}{Σ} \underset{D}{Σ} {score}_{E} * {score}_{D} * (T f r e * T w e i g h t + C f r e * C w e i g h t + A f r e * A w e i g h t + M f r e * M w e i g h t)

其中score_E是搜索引擎E的评价或者权重，score_D是该文档在搜索引擎集群的搜索结果中的评价，例如该文档在搜索引擎集群的返回结果中的位置的倒数之和，或者该文档被多少个搜索引擎检索到等等。该得分也可能会受到文档的其他因素影响，比如文档本身的质量，文档的时间属性，易变属性，以及网站的可信度、权威度等等，这些因素的影响权重一般需要与主搜索引擎的设定保持一致，如果主搜索引擎返回用户点击信息，也将在此处影响文档的打分；Tfre是词语在文档标题中的频次；Tweight是词语在标题中出现的权重；Cfre是词语在文档正文中的频次；Cweight是词语在正文中出现的权重；Afre是词语在文档锚文中的频次；Aweight是词语在锚文中出现的权重；Mfre是词语在文档meta中的频次；Mweight是词语在meta中出现的权重。

步骤S104，根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；

具体地，包括，

1)对核心词进行分类；

这里是对核心词集合分类，而非对核心词个体分类。分类方法可以是基于模型的分类，例如支持向量机、决策树、贝叶斯方法等；也可以是基于词表或规则的方法。可以直接对核心词集合分类，也可以先确定每个核心词的类别分布，再将全部核心词的类别分布(可以加权)累加，得到核心词集合的类别分布。

2)在核心词有确定分类时，根据核心词类别确定修饰词的特征模板，并利用该模板在用户查询中查找匹配的修饰词。例如：用户的查询为“北京天气怎么样”，核心需求为天气类需求，与之对应的模板为.*($addr).*，其中$addr为地名，利用该模板可以从用户查询中得到地点修饰词“北京”。

当核心词无确定分类时，进行句法分析，比如依存句法分析，寻找核心词的修饰成分。例如用户查询为“孕妇的衣服”，核心词是“衣服”，根据句法分析，修饰词为“孕妇”。

在进行确定修饰词之后，用户查询中除核心词和修饰词之外的其他词汇将被丢弃。

步骤S105，根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；

潜在扩展词的得分受其自身的显著性得分的影响，同时也受到它与核心词以及修饰词的关联程度的影响。一般说来，与核心词及修饰词关联越密切，且自身显著性得分越高的词语，就越有机会成为扩展词。例如：

score＝score₁*score₂

或者

score＝α*score₁+β*score₂；

其中score是潜在扩展词的综合得分，score₁是该扩展词与核心词和修饰词的关联得分，score₂是扩展词自身的显著性得分，α和β是两个参数，它们满足：α,β>0并且α+β＝1。

Score₁可以通过各种词语相关性度量方法来确定。例如：使用该扩展词与各个核心词及修饰词的互信息的加权平均值，或者最大值；也可以是扩展词与核心词的位置相关性，比如在检索结果集上的加权平均距离或者最大距离。

关联得分的计算可以与搜索引擎的评价和相关文档的排序无关；也可以和搜索引擎的评价及相关文档的排序相关，对于评价越高的搜索引擎，排序越靠前的相关文档，其关联计算的结果对最终该相关词的关联得分越大。例如：

score₁＝score_E*score_D*meanDis

其中score_E是搜索引擎的评价分(权重)，score_D是相关文档的排序分，meanDis是在此相关文档上扩展词与核心词及修饰词的加权平均距离。例如

meanDis＝average_k(weight_k*meanDis_k)

其中weight_k是查询的核心词与修饰词集合中第k个词的权重，meanDis_k是扩展词与第k个词的平均距离。

此外，文档中的不同部分(例如标题、正文、锚文、meta等)也可以分别计分。例如：

meanDis＝titleDis*α+meanContentDis*β；

其中titleDis是扩展词与核心词在标题中的距离，meanContentDis是扩展词与核心词在正文中的平均距离，α和β是两个参数，它们满足：α,β>0并且α+β＝1。

Score₂是扩展词自身的显著性得分。该得分可以通过步骤S104进行打分计算，也可以采用不同的打分方式。

在得到潜在扩展词的打分后，排名前X个扩展词将被选中和原始查询的核心词及修饰词一起组成扩展后的查询。X的设定将取决于主搜索引擎的承载能力和原始查询的需求类别。例如，主搜索引擎只支持最多32个查询词，则扩展后的查询中不能超过32个词；又如：原始查询是天气类查询，则扩展后的查询只需包括需求的时间、地点即可，无需更多的扩展词。

步骤S106，利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户。

如果用户有点击行为，点击数据将被记录并送至进行词语打分，用于调整相关文档的得分。

此外，主搜索引擎也可以进行评价检索结果，并进行参数设置的调优。

如图2所示，是本发明第二实施例结构图，提供了一种利用搜索引擎进行查询的***，具体包括，

搜索引擎查询模块201，用于将用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，这些检索结果被收集到一个文档池pool中；

搜索引擎评价模块202，用于根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；

核心词确定模块203，用于根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；

修饰词确定模块204，用于根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；

扩展词生成模块205，用于根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；

查询结果获取模块206，用于利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户。

在上述***中，所述核心词确定模块具体包括，

停用词过滤单元，用于过滤用户查询中的停用词；

实体词提取单元，用于提取用户查询中的实体词；

词语打分单元，用于根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分；词语打分最高的至少一个词语被标识为核心词。

其中，实体词提取单元用于提取用户查询中的实体词具体为，

所述实体词提取单元用于从分类实体词库中提取实体词；识别查询中的命名实体；进行实体名的消歧工作，对于有冲突的实体名进行处理，确定最后的实体名输出列表。

其中，词语打分单元用于根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分具体包括，

所述词语打分单元用于确定所述词语的最终打分point＝f(point₁,point₂)，point₁是词语自身属性的打分，point₂是词语在文档池中的相关文档中的打分，f表示两种打分的耦合方式。

在上述***中，所述修饰词确定模块具体包括，

核心词分析单元，用于对核心词进行分类；

分类模版单元，用于在核心词有确定分类时，根据核心词类别确定修饰词的特征模板，并利用该模板在用户查询中查找匹配的修饰词；

句法分析单元，用于当核心词无确定分类时，进行句法分析，比如依存句法分析，寻找核心词的修饰成分。

在上述***中，所述扩展词生成模块具体包括，

潜在扩展词打分单元，用于获得潜在扩展词的综合得分score＝score₁*score₂，其中score₁是根据文档池中文档的信息和各个搜索引擎的权重信息得到的该扩展词与核心词和修饰词的关联得分，score₂是扩展词自身的显著性得分；

扩展查询生成单元，用于在得到潜在扩展词的打分后，排名前X个扩展词将被选中和原始查询的核心词及修饰词一起组成扩展后的查询，其中X的设定将取决于主搜索引擎的承载能力和原始查询的需求类别。

查询扩展是提高搜索引擎检索准确率和召回率的一个有效手段。现有查询扩展技术，或面对大数据集计算资源需求庞大，并且可能模糊用户需求；或有赖于用户的点击数据的积累；或可能造成负反馈；或需要大量的语义资源。本发明利用搜索引擎集群进行查询扩展，不需要庞大的计算资源，不需要长期的用户点击数据积累，不需要大量的语义资源。通过对搜索引擎集群返回的相关信息进行分析，结合实体名挖掘、命名实体识别、句法分析、分类等手段，准确地把握用户查询中的核心需求；依据搜索引擎集群的检索结果对用户的核心需求进行扩展，一方面使得用户的需求更加明确，避免了基于局部数据查询扩展的负反馈效果或主题漂移的风险，另一方面可以给用户提供多角度、多侧面的查询结果，极大范围地满足用户需求，甚至可以引导用户需求。使得搜索引擎的用户体验得到大幅的提升。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种利用搜索引擎集群进行查询扩展的方法，其特征在于，包括，

用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，所述检索结果被收集到一个文档池中，N为自然数；

根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；

根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；

根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；

根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；

利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户；

所述根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词具体包括，

获得潜在扩展词的综合得分score＝score₁*score₂，其中score₁是根据文档池中文档的信息和各个搜索引擎的权重信息得到的该扩展词与核心词和修饰词的关联得分，score₂是扩展词自身的显著性得分；

在得到潜在扩展词的打分后，排名前X个扩展词将被选中和原始查询的核心词及修饰词一起组成扩展后的查询，其中X的设定将取决于主搜索引擎的承载能力和原始查询的需求类别，所述X为自然数。

2.根据权利要求1所述的方法，其特征在于，所述根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词具体包括，

过滤用户查询中的停用词；

提取用户查询中的实体词；

根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分，词语打分最高的至少一个词语被标识为核心词。

3.根据权利要求2所述的方法，其特征在于，所述提取用户查询中的实体词具体包括，

从分类实体词库中提取实体词；

识别查询中的命名实体；

进行实体名的消歧工作，对于有冲突的实体名进行处理，确定最后的实体名输出列表。

4.根据权利要求2所述的方法，其特征在于，所述根据文档池中文档的信息和各个搜索引擎的权重给用户查询中除停用词外的每个词语打分具体包括，

所述词语的最终打分point＝f(point₁,point₂)，point₁是词语自身属性的打分，point₂是根据文档池中文档的信息和各个搜索引擎的权重信息得到的词语在相关文档中的打分，f表示两种打分的耦合方式。

5.根据权利要求1所述的方法，其特征在于，所述根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词具体包括，

对核心词进行分类；

在核心词有确定分类时，根据核心词类别确定修饰词的特征模板，并利用该模板在用户查询中查找匹配的修饰词；

当核心词无确定分类时，进行句法分析，寻找核心词的修饰成分。

6.一种利用搜索引擎进行查询扩展的***，其特征在于，包括，

搜索引擎查询模块，用于将用户查询被分发到搜索引擎集群中的每个搜索引擎，并获取每个搜索引擎返回的前N条检索结果，这些检索结果被收集到一个文档池中；

搜索引擎评价模块，用于根据文档池中的文档对每个搜索引擎进行评价，从而获得每个搜索引擎的权重；

核心词确定模块，用于根据文档池中文档的信息和搜索引擎的权重确定用户查询中的核心词；

修饰词确定模块，用于根据用户查询的核心词分类信息及句法分析确定用户查询中的修饰词；

扩展词生成模块，用于根据用户查询中的核心词、修饰词，文档池中的文档信息和各个搜索引擎的权重确定用户查询的扩展词，生成扩展查询；

查询结果获取模块，用于利用主搜索引擎搜索扩展查询，得到查询结果并返回给用户；

所述扩展词生成模块具体包括，

7.根据权利要求6所述的***，其特征在于，所述核心词确定模块具体包括，

停用词过滤单元，用于过滤用户查询中的停用词；

实体词提取单元，用于提取用户查询中的实体词；

词语打分单元，用于根据文档池中文档的信息和各个搜索引擎的权重信息给用户查询中除停用词外的每个词语打分；词语打分最高的至少一个词语被标识为核心词。

8.根据权利要求7所述的***，其特征在于，实体词提取单元用于提取用户查询中的实体词具体为，

9.根据权利要求7所述的***，其特征在于，词语打分单元用于根据文档池中文档的信息和各个搜索引擎的权重信息给用户查询中除停用词外的每个词语打分具体包括，

所述词语打分单元用于确定所述词语的最终打分point＝f(point₁,point₂)，point₁是词语自身属性的打分，point₂是词语根据文档池中文档的信息和各个搜索引擎的权重信息得到的在相关文档中的打分，f表示两种打分的耦合方式。

10.根据权利要求6所述的***，其特征在于，所述修饰词确定模块具体包括，

核心词分析单元，用于对核心词进行分类；

句法分析单元，用于当核心词无确定分类时，进行句法分析，寻找核心词的修饰成分。