CN102081668A

CN102081668A - 基于领域本体的信息检索优化方法

Info

Publication number: CN102081668A
Application number: CN 201110025219
Authority: CN
Inventors: 熊晶; 王爱民; 徐建良; 王继鹏; 张长青; 郭涛; 梁燕军; 孙华
Original assignee: Individual
Current assignee: Individual
Priority date: 2011-01-24
Filing date: 2011-01-24
Publication date: 2011-06-01
Anticipated expiration: 2031-01-24
Also published as: CN102081668B

Abstract

本发明提供一种基于领域本体的信息检索优化方法，通过检索***的检索界面，获取用户提交的查询关键字；在用户期望的领域，根据已经建立的领域本体，对用户提交的查询关键字通过领域本体推理进行语义扩展，得到一组或多组新的查询字符串；将扩展后的查询字符串提交给一个或多个搜索引擎进行检索；对各搜索引擎的返回结果进行去重和重排序整合；将最终结果通过检索界面显示给用户。本发明是利用领域本体的语义优势，提高领域相关的信息检索的效率。

Description

基于领域本体的信息检索优化方法

技术领域

本发明涉及一种网络技术，具体来说是基于搜索引擎的信息检索方法。

背景技术

人们从网络上获取信息的主要手段是使用搜索工具，如Google、百度、雅虎等。搜索引擎的工作原理基本包括三个过程：(1)从互联网上搜集信息，通过用网络蜘蛛定期对互联网上所有网站网页的信息进行抓取。(2)整理信息并建立索引数据库由分析索引***程序对收集回来的网页进行分析，提取相关网页所在网址链接、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息，根据一定的相关度算法进行计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性)，然后用这些相关信息建立网页索引数据库。(3)在索引数据库中搜索排序、接受查询当用户在搜索引擎的界面输入关键词搜索后，由搜索***程序从网页索引数据库中找到符合该关键词的所有相关网页，按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成***将搜索结果的链接地址、页面内容摘要等内容，组织起来返回给用户。

目前的搜索引擎大多是基于关键字匹配的搜索引擎。然而，这些搜索引擎很少具有语义推理能力。Google虽然采用了一些自然语言处理技术，例如，同义词扩展，但是它并不能解析概念之间的语义关系，这样在一定程度上导致了查准率的降低，使得查询返回结果并不是用户所满意的信息。另一方面，用户的查询很大程度上依赖于某个专业领域，如海洋领域。例如，假定用户想搜索海洋领域有关“DIP(Dissolved inorganic phosphorus溶解无机磷)”的信息，其查询结果如图4所示，通常会获得大量其它领域的“DIP”信息，如微电子领域的“Dual Inline Package”，即双列直插式封装技术。由于这些是与用户的目的不相关的无用信息，用户对这样的结果显然是不满意的。

“本体(Ontology)”作为“共享概念模型的明确的形式化规范说明”，是通过抽象出客观世界中一些现象的相关概念而得到的模型，概念模型表现的含义独立于具体的环境状态。本体体现的是共同认可的知识，反映的是相关领域内公认的概念集，因此本体提供了对领域知识的共同理解与描述，可以更好地用于共享、交流和重用。构成本体的概念及其之间的关系是经过精确定义的，运用本体可以消除一词多义、多词一义和词义含糊等现象，从而完成对领域知识清晰、确切、完整的定义与描述。本体研究的目标是获取一个知识表达方法，使得机器可以像人类一样共享和处理信息。目前，本体技术被大量应用于知识表示、信息检索等领域。

发明内容

为了克服现有搜索引擎在语义检索上的不足，本发明提供了一种基于领域本体的信息检索优化方法。

本发明的技术方案为：一种基于领域本体的信息检索优化方法，其步骤如下：

(1)通过检索***的检索界面，获取用户提交的查询关键字；

(2)在用户期望的领域，根据已经建立的领域本体，对用户提交的查询关键字通过本体推理进行语义扩展，得到一组或多组新的查询字符串；

(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索；

(4)对各搜索引擎的返回结果进行去重、排序整合；

(5)将最终结果通过检索界面显示给用户。

上述步骤(2)中基于领域本体的语义扩展方式包括如下方式中的一种、两种或全部：

①基于is-a关系的优化方法

Is-a关系(继承关系)显示了概念的分类，即父概念的实例等于子概念实例的总和。在子概念上添加了一些约束，因此子概念也称为父概念的特殊化。一个概念与其直接父概念或子概念在同一个文档中出现的几率是较高的。因此，当搜索关于某个概念A的文档时，可以利用A的父概念P或子概念C作为约束来提高搜索的查准率。于是，可以将一个概念优化成概念本身和它的父概念或子概念的查询对。

②基于part-of关系的优化方法

Part-of表示整体-部分关系，用来描述一个概念与其部分概念之间的相互关系。一个概念的组成部分也与此概念所属的领域紧密相关。因此，与部分概念相匹配的文档通常也同其整体概念相关联。于是，可以将一个概念优化成概念本身及其部分概念的查询对。

③基于equivalent-class关系的优化方法

Equivalent-class(等价类)关系用于处理领域知识中的同义词现象。利用equivalent-class关系，用户查询中的概念可以映射成与其等价的同义词。这样，可以提高信息检索的查准率。而且，equivalent-class关系通常作为前两种优化方法的辅助方法。

所述查询对内的概念之间为“与”或者“或”的逻辑关系，“与”可以提高查询准确率，“或”能够提高查全率。

上述步骤(4)中，对各搜索引擎的返回结果进行去重、排序整合，可以采用的算法如下：

(1)对搜索结果的URL进行处理，截取“#”之前的URL字符串作为最终的链接地址；若存在MD5(URL_A)＝MD5(URL_B)，则认为URL_A及URL_B对应的页面为重复页面，去重；

(2)排序算法考虑两个方面：

①查询字符串中各概念的语义距离Dist(C_i，C_j)，其中C_i与C_j为查询字符串中的两个概念，

Dist (C_{i}, C_{j}) = Σ_{k = 1}^{n} {ω_{e}}_{k} + \frac{{N_{C}}_{i} + {N_{C}}_{j}}{{N_{C}}_{i} + {N_{C}}_{j} + 2 \times N_{LCA}} \times ϵ

式1

式1中，

表示本体树中连接结点C_i、C_j的最短路径中各边的加权距离之和；

和分别表示结点C_i和C_j到最低共同祖先结点的加权距离；N_LCA表示最低共同祖先到根结点的加权距离；ε为一常数，根据加权系数确定。

概念之间不同关系的语义权重参照表1。

表1语义距离权重表

表1中，

表示空操作，其与列的组合表示单次操作；e表示equivalent-class关系；g表示is-a关系，方向由子概念指向父概念；s表示is-a关系，方向由父概念指向子概念；p表示part-of关系。

由于概念语义相似度与概念的语义距离互为反函数，当语义距离为0时，语义相似度为1。因此可以将C_i，C_j两者之间的相似度简化为：

Sim (C_{i}, C_{j}) = \frac{1}{Dist (C_{i}, C_{j}) + 1}

式2

②查询字符串与搜索结果记录的相关度Rank(Query，Abstract)。

Rank (Query, Abstract) = Σ_{i = 1}^{n} Rank (C_{i}, Abstract)

式3

式3中，Rank(C_i，Abstract)为查询字符串Query中各概念与搜索结果摘要Abstract之间的相关度，n为Query中概念的个数。

Rank (C_{i}, Abstract) = m \times Σ_{j = 1}^{m} \ln \frac{len (Abstract)}{Index (C_{i}, j, Abstract)}

式4

式4中，m＝Time(C_i，Abstract)为概念C_i在摘要Abstract中出现的次数；len(Abstract)表示摘要Abstract的长度；Index(C_i，j，Abstract)为概念C_i在摘要Abstract中第j次出现的位置。

③对原始查询关键字K_i及扩展的查询字符串Query，分别求出K_i与Query中各概念的语义相似度

则可计算检索结果的匹配度R。

R＝α·Sim(K_i，C_j)+β·Rank(Query，Abstract) 式5

式5中，α与β为常数，分别表示扩展关键字的语义相关度及其摘要相关度的权重。其中α∈(0，1)，β∈(0，1)，且α+β＝1。

④按照R数值递减的顺序完成检索结果的排序。

本发明是利用本体的语义优势提高领域相关的信息检索的查全率和查准率。在此方法的基础上，可以将用户的查询关键字利用领域本体进行语义扩展，得到一组或多组新的查询串，然后将其提交给Web搜索引擎，并将搜索结果进行排序和整理，最终显示给用户。由于这些新的查询串考虑了领域概念之间的关系，如上位词、下位词、同义词等，可以提高检索的查全率；同时，由于本体是领域相关的，使得检索结果限定在所属领域的范围之内，可以筛除大量的与领域无关的信息，从而提高检索的查准率。

附图说明

图1为海洋生态领域本体片段；

图2为本发明基于领域本体的优化信息检索***OASIS工作流程图；

图3为本发明OASIS的检索界面；

图4为在Google中检索“DIP”获得的搜索结果首页截图；

图5为以“InorganicNutrient+DIP”为例计算的摘要相关度；

图6为在本发明OASIS中检索“DIP”获得的搜索结果截图。

具体实施方式

下面通过一个海洋生态领域具体实施例对本发明作进一步详细描述。

本发明提出一种基于领域本体的信息检索优化方法，以海洋生态领域为例，结合附图，具体描述如下。

本发明关键步骤的工作流程图如图2所示，以海洋生态领域为例，当用户提交查询“DIP”时，具体实施步骤为：

1.服务器建立一个海洋生态本体(Ontology)，以ocean.ont格式存储，其本体片段如图1所示；

2.在用户端通过图3所示的检索界面，提交查询关键字“DIP”进行查询(Portal)；

3.服务器获取用户提交的查询关键字，对ocean.ont本体利用HozoAPI进行语义推理实现优化(Query Optimizer)，针对概念“DIP”，能够获取到与其相关的概念有：基于is-a关系的概念InorganicNutrient、基于part-of关系的概念Phytoplankton、Seawater。由这些概念及概念之间的关系得到三组新的查询字符串“InorganicNutrient+DIP”、“DIP+Phytoplankton”和“DIP+Seawater”；

4.将这三组字符串分别发送给Web搜索引擎(Web SearchEngine)，从万维网(World Wide Web)得到三组检索结果集，取各检索结果的前30条记录，分别得到结果集Result_1，Result_2和Result_3；

5.服务器将Result_1，Result_2和Result_3进行合并，完成去重操作后重新排序，得到最终结果集Result。主要算法如下：

(1)对搜索结果的URL进行处理，截取“#”之前的URL字符串作为最终的链接地址。若存在MD5(URL_A)＝MD5(URL_B)，则认为URL_A及URL_B对应的页面为重复页面。

(2)排序算法考虑两个方面：

①查询字符串中各概念的语义距离Dist(C_i，C_j)，其中C_i与C_j为查询字符串中的两个概念。

利用式1：

计算C_i与C_j的语义距离，并由式2：计算C_i与C_j的语义相似度。

②利用式3：

计算查询字符串与搜索结果记录的相关度。

并利用式5：R＝α·Sim(K_i，C_j)+β·Rank(Query，Abstract)计算匹配度，按其结果的递减顺序完成检索结果的排序。

现以查询字符串“InorganicNutrient+DIP”为例说明进行说明。两个概念分别以C_IN和C_DIP表示。

由图1结合表1可知

N_LCA＝2，取ε＝1。则由式1计算得

由式2计算得

Sim (C_{IN}, C_{DIP}) = \frac{1}{Dist (C_{IN}, C_{DIP}) + 1} = 0.27

计算Rank(Query，Abstract)的相关参数如图5所示。

利用式5，取α＝0.6，β＝0.4得：

{R_{URL}}_{1} = 0.6 \times 0.27 + 0.4 \times 4.192 = 1.839

{R_{URL}}_{2} = 0.6 \times 0.27 + 0.4 \times 1.253 = 0.663

因此

排在前列。

6.将Result通过检索界面显示给用户。如图6所示。

上述过程是以一个默认为海洋生态领域专用检索***OASIS和界面3的专业检索优化方法。对于其他领域也可采用这种专业检索***，但要采用相关领域本体。当然对于综合性搜索引擎，则可以在检索界面上增加由用户输入的领域关键词栏，以根据用户输入的领域关键词确定用户期望检索的领域，对于用户对领域划分陌生的情况，搜索引擎的搜索界面上可以预选相关领域由用户检索时进行选择，以确定领域本体和进行相关领域的词义扩展。对于不选择或不输入领域关键词的，确定领域本体时则采用所有领域本体。

Claims

1.一种基于领域本体的信息检索优化方法，其步骤如下：

(1)通过检索***的检索界面，获取用户提交的查询关键字；

(2)在用户期望的领域，根据已经建立的领域本体，对用户提交的查询关键字通过领域本体推理进行语义扩展，得到一组或多组新的查询字符串；

(4)对各搜索引擎的返回结果进行去重和排序整合；

(5)将最终结果通过检索界面显示给用户。

2.如权利要求1所述的方法，其特征在于所述的通过本体推理进行语义扩展，是采用下述方法中的一种或两种或全部：

①基于is-a关系优化方法

基于所述查询关键字获得的概念A的父概念P或子概念C，优化成概念A本身和它的父概念P的查询对，或概念A本身和它的子概念C的查询对；

②基于part-of关系的优化方法

将基于查询关键字获得的概念优化成该概念本身和其部分概念构成的查询对；

③基于equivalent-class关系的优化

将基于查询关键字获得的概念优化成该概念和与其等价的同义词构成的查询对。

3.如权利要求2所述的方法，其特征在于所述查询对内的概念之间为“与”或者“或”的逻辑关系。

4.如权利要求1至3中之一所述的方法，其特征在于：所述去重是指对于搜索结果URL进行处理，截取“#”之前的URL字符串作为最终的链接地址，对于URL_A和URL_B若存在MD5(URL_A)＝MD5(URL_B)，则认为URL_A及URL_B对应的页面为重复页面，去掉其中一个链接地址。

5.如权利要求4所述的方法，其特征在于：所述排序是利用概念的语义相似度结合摘要排序算法，对去重后的结果进行排序。

6.如权利要求5所述的方法，其特征在于所述排序方法包括：

①按式1计算查询字符串中各概念的语义距离Dist(C_i，C_j)，

Dist (C_{i}, C_{j}) = Σ_{k = 1}^{n} {ω_{e}}_{k} + \frac{{N_{C}}_{i} + {N_{C}}_{j}}{{N_{C}}_{i} + {N_{C}}_{j} + 2 \times N_{LCA}} \times ϵ

式1

其中C_i与C_j为查询字符串中的两个概念，表示本体树中连接结点C_i、C_j的最短路径中各边的加权距离之和；和

分别表示结点C_i和C_j到最低共同祖先结点的加权距离；N_LCA表示最低共同祖先到根结点的加权距离；ε为一常数，根据加权系数确定，

当语义距离为0时，语义相似度为1，将C_i，C_j两者之间的相似度简化为式2：

Sim (C_{i}, C_{j}) = \frac{1}{Dist (C_{i}, C_{j}) + 1}

式2

②按式3确定查询字符串与搜索结果记录的相关度Rank(Query，Abstract)

Rank (Query, Abstract) = Σ_{i = 1}^{n} Rank (C_{i}, Abstract)

式3

式3中，Rank(C_i，Abstract)为查询字符串Query中各概念与搜索结果摘要Abstract之间的相关度，n为Query中概念的个数

Rank (C_{i}, Abstract) = m \times Σ_{j = 1}^{m} \ln \frac{len (Abstract)}{Index (C_{i}, j, Abstract)}

式4

式4中，m＝Time(C_i，Abstract)为概念C_i在摘要Abstract中出现的次数；len(Abstract)表示摘要Abstract的长度；Index(C_i，j，Abstract)为概念C_i在摘要Abstract中第j次出现的位置，

③对原始查询关键字K_i及扩展的查询字符串Query，分别求出K_i与Query中各概念的语义相似度按式5计算检索结果的匹配度R。

R＝α·Sim(K_i，C_j)+β·Rank(Query，Abstract) 式5

式5中，α与β为常数，分别表示扩展关键字的语义相关度及其摘要相关度的权重，其中α∈(0，1)，β∈(0，1)，且α+β＝1，

④按照R数值递减的顺序完成检索结果的排序。

7.如权利要求1至3中之一所述的方法，其特征在于：所述检索界面为针对某一领域的专用界面。

8.如权利要求1至3中之一所述的方法，其特征在于：所述检索界面有领域选项或领域关键字填写区域，在所述步骤(2)中根据用户选定的领域选项或领域关键字，加载相应的领域本体进行语义扩展。