CN102819601A

CN102819601A - 信息检索方法和信息检索设备

Info

Publication number: CN102819601A
Application number: CN2012102913087A
Authority: CN
Inventors: 陈立民; 徐效宁; 冯立华
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2012-08-15
Filing date: 2012-08-15
Publication date: 2012-12-12
Anticipated expiration: 2032-08-15
Also published as: CN102819601B

Abstract

本发明提供一种信息检索方法和信息检索设备。方法包括：获取用户输入的第一关键词；根据第一关键词的语义对第一关键词进行扩展，得到至少一个第二关键词，第二关键词与第一关键词具有语义重叠度；对第一关键词进行检索得到第一检索结果集合，对第二关键词进行检索得到第二检索结果集合，按照与第一关键词和/或第二关键词的语义相关度从高至低的顺序，对第一检索结果集合和第二检索结果集合中的检索结果进行重排序本发明，减缓了根据用户输入的关键词进行查询对信息检索结果的决定性影响，在用户表达检索需求的关键词比较生僻或用户输入的关键词不准确等多种情况下，提高了检索结果的稳定性，使结果与用户需求更加匹配。

Description

信息检索方法和信息检索设备

技术领域

本发明涉及信息技术领域，特别涉及一种信息检索方法和信息检索设备。

背景技术

随着计算机与互联网技术的发展，信息检索技术也发展到规模巨大的互联网信息检索和数字图书馆等领域。

现有的信息检索方法，主要基于统计的方法，该方法能够计算一篇文档都包含哪些词，某个词在文档中出现的次数和位置以及计算出文档的关键词。根据用户输入的关键词匹配搜索引擎中的索引表，用户输入的关键词不准确时，将导致检索结果与用户需求不匹配。

发明内容

本发明提供了一种信息检索方法和信息检索设备，使检索结果与用户需求更加匹配。

一方面，本发明提供一种信息检索方法，包括：

获取用户输入的第一关键词；

根据所述第一关键词的语义对所述第一关键词进行扩展，得到至少一个第二关键词，所述第二关键词与所述第一关键词具有语义重叠度；

对所述第一关键词进行检索得到第一检索结果集合，对所述第二关键词进行检索得到第二检索结果集合，按照与所述第一关键词和/或所述第二关键词的语义相关度从高至低的顺序，对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序

另一方面，本发明还提供一种信息检索设备，包括：

获取模块，用于获取用户输入的第一关键词；

语义扩展模块，用于根据所述第一关键词的语义对所述第一关键词进行扩展，得到至少一个第二关键词，所述第二关键词与所述第一关键词具有语义重叠度；

检索模块，用于对所述第一关键词进行检索得到第一检索结果集合，对所述第二关键词进行检索得到第二检索结果集合；

重排序模块，用于按照与所述第一关键词和/或所述第二关键词的语义相关度从高至低的顺序，对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序。

本发明提供的信息检索方法和信息检索设备，对用户输入的第一关键词进行语义扩展，得到与该第一关键词具有语义重叠度的第二关键词，对第一关键词和第二关键词进行搜索分别得到检索结果，再对第一关键词和第二关键词的检索结果重排序，得到最终检索结果。本发明，减缓了根据用户输入的关键词进行查询对信息检索结果的决定性影响，在用户表达检索需求的关键词比较生僻或用户输入的关键词不准确等多种情况下，提高了检索结果的稳定性，使结果与用户需求更加匹配。

附图说明

图1为本发明提供的信息检索方法一个实施例的流程图；

图2为本发明提供的信息检索设备一个实施例的结构示意图；

图3为本发明提供的信息检索设备又一个实施例的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的信息检索方法一个实施例的流程图，如图1所示，该方法包括：

S101、获取用户输入的第一关键词。

S102、根据第一关键词的语义对第一关键词进行扩展，得到至少一个第二关键词，第二关键词与第一关键词具有语义重叠度。

S103、对第一关键词进行检索得到第一检索结果集合，对第二关键词进行检索得到第二检索结果集合。

S104、按照与第一关键词和/或第二关键词的语义相关度从高至低的顺序，对第一检索结果集合和第二检索结果集合中的检索结果进行重排序。

以上步骤的执行主体可以是信息检索设备，例如：信息检索引擎等。该信息检索设备可以设置在网络侧，用于对用户输入的关键词，在各种网页资源中进行匹配，向用户提供检索结果。

本发明提供的信息检索方法，当信息检索设备获取到用户输入的第一关键词（该第一关键词可以是任何字、词汇或短语）后，可以采用现有的各种方法对第一关键词进行语义扩展，得到与第一关键词具有语义重叠度的至少一个第二关键词。其中，具有语义重叠度可以是指：语义相近或相关，从而可能会致使搜索结果相近或相关。例如：用户输入的第一关键词为“西装”，则可以根据“西装”这一关键词的语义进行扩展，得到第二关键词“正装”。

需要说明的是，本发明中涉及的第二关键词是指与第一关键词具有最高的语义重叠度，或者较高语义重叠度的一个或多个第二关键词。

作为一种可行的实施方式，信息检索设备可以根据至少一个搜索引擎的检索结果，预先建立语义重叠度数据库。该语义重叠数据库中可以包括任一关键词与其他关键词之间的语义重叠度概率。其中，语义重叠度概率可以以任一关键词的某一检索结果属于其他关键词的检索结果集合的概率来表示。

在上述实施场景下，相应的，信息检索设备可以在预先建立的语义重叠度数据库中，确定与第一关键词具有最高语义重叠度概率的至少一个第二关键词。

得到第二关键词后，信息检索设备可以进一步对第一关键词和至少一个第二关键词进行检索，分别得到第一关键词对应的第一检索结果集合，以及第二关键词对应的第二检索结果集合。

进一步的，得到第一关键词对应的第一检索结果集合和第二关键词对应的第二检索结果集合之后，还可以按照与第一关键词和/或第二关键词的语义相关度，对第一检索结果集合和第二检索结果集合中的各检索结果进行分析，按照与第一关键词和/或第二关键词的语义相关度从高至低的顺序，对第一检索结果集合和第二检索结果集合中的检索结果进行重排序。经过重排序后，排在靠前的检索结果与第一关键词和/或第二关键词的语义相关度较高，使用户能够方便获取与检索需求更为匹配的检索结果。

本发明提供的信息检索方法，对用户输入的第一关键词进行语义扩展，得到与该第一关键词具有语义重叠度的第二关键词，对第一关键词和第二关键词进行搜索分别得到检索结果，再对第一关键词和第二关键词的检索结果重排序，得到最终检索结果。本发明，减缓了根据用户输入的关键词进行查询对信息检索结果的决定性影响，在用户表达检索需求的关键词比较生僻或用户输入的关键词不准确等多种情况下，提高了检索结果的稳定性，使结果与用户需求更加匹配。

在图1所示实施例的基础上，本发明提供了一种根据至少一个搜索引擎的检索结果，建立语义重叠度数据库的方法。具体的：

可以根据(C|D)[l,u]=[mid(C|D)-ξ,mid(C|D)+ξ]确定任一关键词D与任一关键词C之间的语义重叠度概率；

其中，mid(C|D)=|C∩D|/|D|，为C∩D相对于D的条件概率，表示关键词D的检索结果集合中的任一检索结果，同时属于关键词C的检索结果集合的概率；ξ为非负数，表示通过任一次检索结果确定的关键词D与关键词C之间的语义重叠度概率与关键词D与关键词C之间的实际语义重叠度概率之间的误差，l和u均大于等于0，小于等于1，且l<u，l等于mid(C|D)-ξ，u等于mid(C|D)+ξ。

需要说明的是，语义重叠度概率是一种条件约束，具有如下形式的表达式：(C|D)[l,u]，l,u∈[0,1]。其中，C即为第一关键词，D即为第二关键词。在信息检索领域，表达用户检索需求的关键词，它所表示的集合可以由满足用户查询需求的网页/文档构成。利用条件约束（conditional constraints）可以用来表示C和D所表示的集合之间重叠关系。

以下以关键词C和关键词D为例，对根据至少一个搜索引擎的检索结果，建立语义重叠度数据库的过程进行说明，具体的：

首先可以采用现有的各种搜索引擎，例如：***搜索引擎，分别对关键词C和关键词D进行检索，获取关键词C的检索结果集合以及关键词D的检索结果集合，然后计算mid(C|D)=|C∩D|/|D|，mid(C|D)=|C∩D|/|D|表示此次检索结果中，同时属于关键词C的检索结果集合和关键词D的检索结果集合的搜索结果，与属于关键词D的检索结果集合的比率。

其中，可以选择某非负数ξ作为可能存在的误差，通过(C|D)[l,u]=[mid(C|D)-ξ,mid(C|D)+ξ]来估计关键词C和关键词D之间的语义重叠程度。

以下以计算关键词“逻辑程序设计”和关键词“演绎数据库”之间的语义重叠度概率为例，对语义重叠数据库中维护的关键词“逻辑程序设计”与关键词“演绎数据库”之间的语义重叠度概率进行说明。

首先，可以在至少一个搜索引擎上对关键词“逻辑程序设计”进行检索，假设检索结果为10000条记录；然后可以在至少一个搜索引擎上对关键词“演绎数据库”进行检索，假设检索结果为11000条记录，其中有9000条记录被包含在“逻辑程序设计”的10000条检索结果中。则mid(演绎数据库|逻辑程序设计)=9000/10000=0.9。假设计算误差是0.05，则可以得到关键词“逻辑程序设计”与关键词“演绎数据库”之间的语义重叠度概率为：(演绎数据库|逻辑程序设计)[0.85,0.95]。

需要说明的是：还可以通过其他现有方式获得两个关键词之间的条件约束，在此不一一列举。

另外，上述语义重叠数据库中维护的关键词之间的语义重叠度概率是一个范围，这个概率也可以理解为一个条件约束，语义重叠数据库实际上可以是由大量关键词之间的语义重叠度概率（即条件约束）构成的知识库。因此，在获取用户输入的任一第一关键词之后，可以在预先设置的语义重叠数据库中查找到与第一关键词C具有最高语义重叠度的第二关键词D，即，查找与第一关键词具有语义重叠度的在“(C|D)[l,u]”中具有最大下限l的第二关键词。

以用户输入的第一关键词“西装”为例，假设语义重叠数据库中与“西装”相关的其中几条语义重叠度概率为：

1）“(演绎数据库|逻辑程序设计)[0,1]”；

2）“(逻辑程序设计|西装)[0,1]”；

3）(正装|西装)[0.95,1]”。

可以看出，在涉及到的上述3个关键词“(演绎数据库”、“逻辑程序设计”和“正装”中，与“西装”具有最大重叠下限的关键词是“正装”，下限是0.95。因此，扩展查询得到的与第一关键词“西装”具有最高语义重叠度的为“正装”。

按照这种方式，还可以找到与用户输入的第一关键词C具有次高语义重叠度的关键词E等，即，可以找到一个或多个第二关键词，从而提高检索结果与用户输入的关键词的匹配程度。

以上提供了根据至少一个搜索引擎的检索结果，建立语义重叠度数据库的一种可行的实施方式。进一步的，本发明还提供了按照与所述第一关键词和/或所述第二关键词的语义相关度从高至低的顺序，对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序的具体实施方式：

可以根据对第一检索结果集合和第二检索结果集合中的检索结果进行重排序；其中，R1为第一检索结果集合，R2为第二检索结果集合，rank_i(r)表示任一检索结果r在R_i(i＝1,2）中的位置。

假设用户的输入第一关键词是“逻辑程序设计”，通过查询语义重叠数据库，确定与该第一关键字具有最高语义重叠度，即，具有最大重叠下限的第二关键词是“演绎数据库”，“(演绎数据库|逻辑程序设计)[0.85,0.95]”。即：对于知识库中的其它关键字C，“(C |逻辑程序设计)[l,u]”中，l<0.85。

以下仅以“逻辑程序设计”的第一检索结果集合和“演绎数据库”的第二检索结果集合中的前3个检索结果为例说明重排序过程。在这个例子中，假设第一检索结果集合R1=a、b、c；第二检索结果集合R2=A、a、B；其中出现在“逻辑程序设计”的第一检索结果集合首位的a处于“演绎数据库”的第二检索结果集合的第2位。即：rank₁(a)=1、rank₁(b)=2、rank₁(c)=3，rank₂(A)=1、rank₂(a)=2、rank₂(B)=3。

根据re-rank()函数，

re-rank(a)=log(1+2/(0.85+0.95)*3)=log 1.37;

re-rank(b)=log3;

re-rank(c)=log4;

re-rank(A)＝2/(0.85+0.95)log(1+1)=log2.14

re-rank(B)＝2/(0.85+0.95)log 4=log4.59

根据re-rank函数，可以得到R1与R2中检索结果的最终排序是：

a、A、b、c、B

需要说明的是，对于R1与R2中rank相同检索结果，最终重排序时，相同次序的检索结果，R1的结果可以优于R2中结果；对于同时出现在第一检索结果集合和第二检索结果集合中的检索结果r，出现在第二检索结果集合R2中可以升高它的最终次序，r在R2中的次序越高、第二关键词与用户输入第一关键词的语义重叠度越高，该检索结果对最终排序的提高贡献越大。

其中，rank1(r)和rank2(r)分别返回r在R1和R2中的rank。对于R1与R2中rank相同的检索结果，最终重排序时，R1的结果要优于R2中结果，因此，对于第二关键词的检索结果R2，re-rank(*)通过一个大于1的系数

来降低在最终排序中的次序。

本实施例提供的信息检索方法，通过建立维护语义重叠度数据库的方法，维护了“一词多义”和“多词近义”现象所带来的关键词的重叠程度，减缓了根据用户输入的关键词进行查询对信息检索结果的决定性影响，在用户表达检索需求的关键词比较生僻或用户输入的关键词不准确等多种情况下，提高了检索结果的稳定性，使结果与用户需求更加匹配。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

图2为本发明提供的信息检索设备一个实施例的结构示意图，如图2所示，该设备包括：获取模块11、语义扩展模块12、检索模块13和重排序模块14；其中：

获取模块11，用于获取用户输入的第一关键词；

语义扩展模块12，用于根据第一关键词的语义对第一关键词进行扩展，得到至少一个第二关键词，第二关键词与第一关键词具有语义重叠度；

检索模块13，用于对第一关键词进行检索得到第一检索结果集合，对第二关键词进行检索得到第二检索结果集合；

重排序模块14，用于按照与第一关键词和/或第二关键词的语义相关度从高至低的顺序，对第一检索结果集合和第二检索结果集合中的检索结果进行重排序。

本发明提供的信息检索设备，与本发明提供的信息检索方法相对应，为信息检索方法的执行装置，该信息检索设备执行信息检索方法的具体过程可参见本发明提供的信息检索方法实施例，在此不再赘述。

本发明提供的信息检索设备，对用户输入的第一关键词进行语义扩展，得到与该第一关键词具有语义重叠度的第二关键词，对第一关键词和第二关键词进行搜索分别得到检索结果，再对第一关键词和第二关键词的检索结果重排序，得到最终检索结果。本发明，减缓了根据用户输入的关键词进行查询对信息检索结果的决定性影响，在用户表达检索需求的关键词比较生僻或用户输入的关键词不准确等多种情况下，提高了检索结果的稳定性，使结果与用户需求更加匹配。

图3为本发明提供的信息检索设备又一个实施例的结构示意图，如图3所示，该设备包括：获取模块11、语义扩展模块12、检索模块13和重排序模块14；

可选的，该信息检索设备还可以进一步包括：

建立模块15，用于根据至少一个搜索引擎的检索结果，建立语义重叠度数据库，语义重叠数据库中包括任一关键词与其他关键词之间的语义重叠度概率；

语义扩展模块12可以具体用于：在建立模块建立的语义重叠度数据库中，确定与第一关键词具有最高语义重叠度概率的至少一个第二关键词。第一检索结果集合第二检索结果集合第一检索结果集合第二检索结果集合

可选的，建立模块15可以具体用于：根据(C|D)[l,u]=[mid(C|D)-ξ,mid(C|D)+ξ]确定任一关键词D与任一关键词C之间的语义重叠度概率；其中，mid(C|D)=|C∩D|/|D|，为C∩D相对于D的条件概率，表示关键词D的检索结果集合中的任一检索结果，同时属于关键词C的检索结果集合的概率；ξ为非负数，表示通过任一次检索结果确定的关键词D与关键词C之间的语义重叠度概率与关键词D与关键词C之间的实际语义重叠度概率之间的误差，l和u均大于等于0，小于等于1，且l<u，l等于mid(C|D)-ξ，u等于mid(C|D)+ξ。

可选的，重排序模块14，可以具体用于：

根据

对第一检索结果集合和第二检索结果集合中的检索结果进行重排序；其中，R1为第一检索结果集合，R2为第二检索结果集合，rank_i(r)表示任一检索结果r在R_i（i＝1，2）中的位置。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信息检索方法，其特征在于，包括：

获取用户输入的第一关键词；

对所述第一关键词进行检索得到第一检索结果集合，对所述第二关键词进行检索得到第二检索结果集合；

按照与所述第一关键词和/或所述第二关键词的语义相关度从高至低的顺序，对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一关键词的语义对所述第一关键词进行扩展，得到至少一个第二关键词之前，还包括：

根据至少一个搜索引擎的检索结果，建立语义重叠度数据库，所述语义重叠数据库中包括任一关键词与其他关键词之间的语义重叠度概率；

所述根据所述第一关键词的语义对所述第一关键词进行扩展，得到至少一个第二关键词，包括：

在所述语义重叠度数据库中，确定与所述第一关键词具有最高语义重叠度概率的至少一个所述第二关键词。

3.根据权利要求2所述的方法，其特征在于，根据(C|D)[l,u]=[mid(C|D)-ξ,mid(C|D)+ξ]确定任一关键词D与任一关键词C之间的语义重叠度概率；其中，mid(C|D)=|C∩D|/|D|，为C∩D相对于D的条件概率，表示关键词D的检索结果集合中的任一检索结果，同时属于关键词C的检索结果集合的概率；ξ为非负数，表示通过任一次检索结果确定的所述关键词D与所述关键词C之间的语义重叠度概率与所述关键词D与所述关键词C之间的实际语义重叠度概率之间的误差，l和u均大于等于0，小于等于1，且l<u，l等于mid(C|D)-ξ，u等于mid(C|D)+ξ。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序，包括：

根据

对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序；其中，R1为所述第一检索结果集合，R2为所述第二检索结果集合，rank_i(r)表示任一检索结果r在R_i（i＝1，2）中的位置。

5.一种信息检索设备，其特征在于，包括：

获取模块，用于获取用户输入的第一关键词；

6.根据权利要求5所述的设备，其特征在于，还包括：

建立模块，用于根据至少一个搜索引擎的检索结果，建立语义重叠度数据库，所述语义重叠数据库中包括任一关键词与其他关键词之间的语义重叠度概率；

所述语义扩展模块具体用于：在所述建立模块建立的所述语义重叠度数据库中，确定与所述第一关键词具有最高语义重叠度概率的至少一个所述第二关键词。

7.根据权利要求6所述的设备，其特征在于，

所述建立模块具体用于：根据(C|D)[l,u]=[mid(C|D)-ξ,mid(C|D)+ξ]确定任一关键词D与任一关键词C之间的语义重叠度概率；其中，mid(C|D)=|C∩D|/|D|，为C∩D相对于D的条件概率，表示关键词D的检索结果集合中的任一检索结果，同时属于关键词C的检索结果集合的概率；ξ为非负数，表示通过任一次检索结果确定的所述关键词D与所述关键词C之间的语义重叠度概率与所述关键词D与所述关键词C之间的实际语义重叠度概率之间的误差，l和u均大于等于0，小于等于1，且l<u，l等于mid(C|D)-ξ，u等于mid(C|D)+ξ。

8.根据权利要求5-7任一项所述的设备，其特征在于，所述重排序模块具体用于：根据对所述第一检索结果集合和所述第二检索结果集合中的检索结果进行重排序；其中，R1为所述第一检索结果集合，R2为所述第二检索结果集合，rank_i(r)表示任一检索结果r在R_i（i＝1，2）中的位置。