CN110659350B

CN110659350B - 基于领域本体的语义搜索***及搜索方法

Info

Publication number: CN110659350B
Application number: CN201910904762.7A
Authority: CN
Inventors: 叶育鑫; 周黎; 罗昌凯; 常志威; 欧阳丹彤
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2023-03-21
Anticipated expiration: 2039-09-24
Also published as: CN110659350A

Abstract

基于领域本体的语义搜索***及搜索方法，涉及信息检索技术领域，解决现有搜索技术并没有考虑具体实例资源与查询概念之间的关系以及实例资源之间的关系等问题，包括领域本体库，语义标注后的资源库，推理规则库，推理节点以及相似度计算节点；领域本体库用于存储对应领域的知识或概念，所述领域本体用OWL文件实现；语义标注后的资源库用于存储所要查询的资源，对查询的资源进行语义标注，描述查询的资源与领域本体中概念的关系，语义标注用RDF实现；推理规则库用于存储推理节点所使用的自定义的推理规则；推理节点用于推理实现语义搜索服务，并将推理结果通过相似度计算节点计算；相似度计算节点用于计算两个概念间的语义相似度。

Description

基于领域本体的语义搜索***及搜索方法

技术领域

本发明涉及信息检索技术领域，涉及一种基于领域本体的语义搜索***及方法。

背景技术

面对互联网信息的***式增长，信息搜索是人们获得期望信息的最有效手段之一，搜索引擎是人们生活中不可或缺的工具，然而传统的搜索引擎通过关键字检索用户所需要的信息，这种搜索模式无法自发地将关键字与实体相关联，而只能匹配文档中的信息和关键词的次数，使得搜索效果不尽人意，在查全率以及查准率上有许多问题。

在领域知识的搜索中，应用本体技术，实现一定的语义搜索。这种搜索模式不再拘泥于关键词本身，而是理解关键词所代表的语义，进而进行搜索。其核心在于本体层知识的表达与表示，同时又涉及相关的规则与推理技术，在查询过程中，将查找内容映射到本体里相关主题概念上，进而应用推理技术，使得推理结果更接近用户的需求。本体的使用提供了以下的几个优点：1.通过查找与特定概念相关的信息而不是用模糊关键字匹配以提高查询的语义理解和查询结果的查全率和查准率；2.允许在不同领域上重用其领域知识本体。

发明内容

本发明为解决现有搜索技术并没有考虑具体实例资源与查询概念之间的关系以及实例资源之间的关系等问题，提供一种基于领域本体的语义搜索***及搜索方法，提高搜索的查准率和查全率。

基于领域本体的语义搜索***，包括领域本体库，语义标注后的资源库，推理规则库，推理节点以及相似度计算节点；

所述领域本体库，用于存储对应领域的知识或概念，所述领域本体用OWL文件实现；

所述语义标注后的资源库，用于存储所要查询的资源，对所述查询的资源进行语义标注，描述了查询的资源与领域本体中概念的关系，语义标注用RDF实现；

所述推理规则库，用于存储推理节点所使用的自定义的推理规则；

所述推理节点，用于推理实现语义搜索服务，并将推理结果通过相似度计算节点计算；

所述相似度计算节点，用于计算两个概念间的语义相似度。

基于领域本体的语义搜索方法，该方法由以下步骤实现：

步骤一、建立持续可更新的领域本体库；

具体过程为：包括明确目标和范围、知识获取、形式化和编码；

所述明确目标和范围是指确定好所要建立的本体对象及其概念边界；知识获取是指获取领域里的每一个概念的定义、性质、重要术语和概念之间的关系及其层次结构；形式化是指将每一个概念或知识以三元组的形式组织起来，建立统一的表达形式；

步骤二、对查询资源进行语义标注；

包括确定属性和关系、形式化及语义标注；确定属性和关系是要确定资源所具有的相关属性及与其相关概念或其他实例的关系；形式化是指将上述得到的关于资源的属性和关系等信息形式化表达，最后得到基于资源语义描述框架的语义描述信息；

步骤三、根据本体结构和资源之间的关系自定义推理规则；

步骤四、接收用户的查询请求，获取查询概念，并判断是否是本体概念若不是则重新获取；

步骤五、推理引擎对用户提出的查询请求进行分析，对查询资源进行推理分析，获得推理结果；

步骤六、计算推理结果和查询内容之间的语义相似度，对推理结果排序；

步骤七、对排序后的推理结果结合实例资源的其他相关信息其他内容组成完整页面返回给用户。

本发明的有益效果：本发明对用户输入的查询概念，利用领域本体推理计算符合查询内容的资源，并通过计算资源与查询概念间的语义相似度对推理结果排序。本发明不仅考虑了领域本体概念间的语义关系，同时考虑了实例资源与概念间关系，资源之间的关系。

本方法在领域本体概念间的语义相似度计算上采用了一种新型高效的算法，在深入研究语义相似度计算方法和本体结构之后，考虑了概念的深度，概念节点的密度和概念共享路径以及概念节点间路径对语义相似度的影响。并且在本体结构中，我们考虑到不同的边所蕴含不同的语义信息，因此对不同的边赋予了不同的权重。本方法的语义相似度计算算法考虑了决定概念语义相似度的各种相关因素，且补充了给予不同边赋予不同的权重，使得语义距离的计算符合理论，得到的语义相似度比较贴合数据，有效改善了语义相似度计算算法的准确性，能有效的提高本***的查准率。

附图说明

图1为本发明所述的一种基于领域本体的语义搜索***的结构图；

图2为本发明所述的一种基于领域本体的语义搜索方法的流程图；

图3为本发明所述的一种基于领域本体的语义搜索方法中语义相似度计算流程图；

图4为本发明所述的一种基于领域本体的语义搜索方法中举例的本体片段图；

图5为本发明所述的一种基于领域本体的语义搜索方法中部分资源语义标注文件示意图。

具体实施方式

具体实施方式一、结合图1至图5说明本实施，一种基于领域本体的语义搜索***，包括领域本体库，语义标注后的资源库，推理规则库，推理节点以及相似度计算节点；

所述相似度计算节点，用于计算两个概念间的语义相似度。

具体实施方式二、本实施方式为具体实施方式一所述的基于领域本体的语义搜索***的语义搜索方法，包含以下步骤：

步骤1：建立持续可更新的领域本体。具体为：包括明确目标和范围、知识获取、形式化和编码。明确目标和范围是指确定好所要建立的本体对象及其概念边界；知识获取是指获取领域里的每一个概念的定义、性质、重要术语和概念之间的关系及其层次结构；形式化是指将每一个概念或知识以三元组的形式组织起来，建立统一的表达形式；编码是用软件protage，用OWL语言实现，为了高效使用OWL本体，本发明采用TDB存储，TDB由JenaAPI提供，用于RDF存储和查询的组件，这样节省了每次读取OWL文件并分析出RDF图结构信息的时间，可直接读取本体结构并且以事务的形式访问数据，防止数据被损坏。

步骤2：对查询资源进行语义标注；包括确定属性和关系、形式化及语义标注。确定属性和关系是要确定资源所具有的相关属性及与其相关概念或其他实例的关系；形式化是指将上述得到的关于资源的属性和关系等信息形式化表达，最后得到基于资源语义描述框架的语义描述信息。

步骤3：自定义其推理规则库。

语义推理除了可以按照本体的层次结构推理还可以自定义推理规则，实现更智能的推理。根据领域本体的层次结构以及所查询资源之间的关系的特点，自定义该领域本体的规则库，从而提高其推理智能程度。

步骤4：接收用户的查询请求。

步骤5：推理引擎对用户提出的查询请求进行分析，对查询资源进行推理分析，得到推理结果。

推理服务通过调用Jena提供的推理机，定义数据集的实例dataset，本体模型实例ontology，推理机实例reasoner，推理规则rule；然后利用dataset从TDB中读取出本体模型，然后利用本体模型实例ontology从数据集的实例dataset中载入本体，最后将得到的本体以及推理规则传到推理机实例reasoner中，配置好推理机以供调用。

步骤6：计算推理结果和查询内容之间的语义相似度，对推理结果排序。具体过程为：

语义相似度计算，用于计算最后得到的推理结果和所查询内容之间的语义相似度，根据其相似度由大到小对结果排序。

以下为利用本发明提出的新型高效的语义相似度算法对上一步骤获得的与用户查询相关的实例资源进行排序的步骤：

1)通过OWL资源标记文档将上述的每一项实例资源所包含的概念都找出来

2)将上述的每一项实例资源的概念与用户查询的概念进行相似度计算以下为语义相似度考虑的每个重要因素及公式和说明。

计算概念深度：

概念节点的深度是指概念在所处的本体中的层次深度。此处定义根节点的深度为1，概念节点M的深度为Depth(M)，Depth(M)＝Depth(parent(M))+1，其中parent(M)为节点M的父节点。对于本实例本体中的两个概念节点x、y，可以得到它们在的深度方面的语义相似度，具体算法如下：

式中Depth(x)、Depth(y)、Depth(LCA)分别代表了概念节点x、y最近共同祖先节点LCA的深度信息；概念节点处于本体的层次越深，则其表示的内容就越具体，概念间的相似度越大，反之概念间的相似度越小；LCA节点的深度越深，代表概念的分类越具体，则概念之间的相似度越大，反之，概念之间的相似度越小。该公式不仅考虑了概念x、y在本体中的位置，也考虑了其LCA在本体中的位置，因此可以充分的体现深度对于语义相似度的影响。

计算概念密度：

概念密度指以概念节点为根节点所组成的子树在整个本体中所占的比重。计算语义相似度时，要考虑子树深度的影响。子树深度越大，其含有的节点数越多，在整个本体中所占比重就越大，各节点所承担的语义信息越少，因此，语义相似度会随着比重的增大而减小。以概念节点C为根节点的子树节点数记为count(TreeC)，本体中总节点数记为count(Tree)，对于本实例本体中的两个概念x、y，可以得到它们之间在密度方面的语义相似度，具体算法如下：

式中，相对于非叶节点，处在叶节点位置的概念具有划分更具体、表达内容更详细的特点，语义相似度也更大，概念的密度与语义相似度呈反比关系,两个概念节点密度越大,其语义相似度越小。因为概念在本体中的位置不同，其密度也会不同，所以该公式将概念的位置，即将深度Depth考虑进去，从而可以充分体现密度对语义相似度的贡献。

计算共享路径的重合度：

两个概念的共享路径的重合度为其LCA节点的信息量除以这两个概念所对应的节点的信息量的均值。考虑到本体并不是均匀分布的和概念间的语义关系，可根据具体本体结构为不同类型有向边分别赋予权重，本发明实例按照概念间的语义关系，定义了一下三类边，概念间存在继承关系则定义为is_a，概念间存在部分含于则为part_of，概念间存在蕴含关系则为contain,这三类因为语义关系程度不一样因此分配了不同的权重，将is_a类的有向边权重设为0.7,part_of类的有向边权重设为0.2,contain类的有向边权重设为0.1。对于本实例本体中的两个概念x、y,可以通过祖先节点包含的信息量来衡量两个概念节点的共享路径重合度，具体算法如下：

本实例中有这三种边R_{is_a}、R_{part_of}、R_contain；

分别表示V_x子图和V_y子图相交的边中含有is_a、part_of、contain类型边的数量；

分别表示V_x子图和V_y子图所有边中含有is_a、part_of、contain类型边的数量。在该式中，两个概念之间共享的信息越多,则二者之间的共享路径重合度越大,相似度就越高；反之,则二者的共享路径重合度越小,相似度就越低；加入|V_com|因子是为了当两个概念具有相同的子节点时,二者之间的相似度更大。该公式充分考虑了各种边的权重，使得其可以适用于任何本体结构，从而使得共享路径重合度的计算更加符合实际情况。

其中V_x、V_y分别代表从x,y到本体根节点所经过的所有祖先节点的集合；|V_x∩y|、|V_x∪y|分别表示x和y具有相同祖先节点的个数、x和y所有祖先节点的个数；E_x∩y表示V_x子图和V_y子图相交的边的数量；E_x∪y表示V_x子图和V_y子图中所有的边的数量；|V_com|表示x,y的直接共同子节点数。

计算语义距离：

语义距离是衡量相似度的一个重要指标。语义距离越大,概念的语义差异越大,语义相似度越小。两个概念C₁,C₂的语义距离为：在本体层次图两概念的任意最近共同祖先节点P分别到C₁和C₂的最短路径长度之和。在本实例的本体中，存在三种不同类型的边，为了充分将三种边的效益都考虑进去，在寻找最近共同祖先节点时，本算法制定了两个衡量标准：①优先考虑边数最少的路径。②边数一样的，按is_a路径寻找；在本体中，如果存在不同类型的边，可以为不同类型的边赋予不同的权重，例如本体中存在is_a、part_of两种类型的边，则可将is_a类的有向边权重设为0.7,part_of类的有向边权重设为0.3，具体分配情况可视本体的分布情况。此时对于本体中任意两个概念x,y的语义距离，具体算法如下：

式中，0.7×2Depth(Tree)中的0.7是is_a类型边的权重，对于本发明的本体实例图中，任意两个概念之间的最大距离为0.7×2Depth(Tree)。该公式中将is_a、part_of两种边权重取倒数，权重大的边，距离反而小，这样就更加符合is_a、part_of两种边在语义上的关系。该公式充分考虑了各种边的权重，使得其可以适用于任何本体结构，从而使得语义距离重合度的计算更加符合实际情况。

进行综合语义相似度计算，得出结果：

综上所述，综合考虑了概念在本体中的深度、密度、共享路径和语义距离对语义相似度的影响，提出了新型高效的基于各种本体结构的语义相似度算法，具体算法如下：

sim(x,y)＝αsim_depth(x,y)+βsim_density(x,y)+γsim_share(x,y)+δsim_distance(x,y)

其中α、β、γ、δ为取值区间[0,1]的权重，且α+β+γ+δ＝1

考虑到共享路径是最能体现两概念节点之间的语义相似度，语义距离次之，深度和密度影响较小；在进行大量的数据分析之后，本算法的参数设置为：α＝0.1、β＝0.1、γ＝0.5、δ＝0.3。

3)将上述的每项实例资源的概念与用户查询的概念的相似度的最大值作为每项资源与查询概念的相似度，然后按照实例资源的相似度由大到小进行排序返回给用户。

具体实施方式三、本实施方式为具体实施方式二所述的基于领域本体的语义搜索方法的实施例：

步骤一、建立领域本体文件；

结合图4，集合论领域本体片段，类间是is_a的关系即从属关系，建立了父类RelationShip；

其子类有EquivalValueRelation，EquivalenceRelation,UniverseRelation，EmptyRelation和PartiallyOrderedRelation。其中本实例主要涉及概念EquivalValueRelation。

步骤二：语义标注；

建立完上述领域本体文件，则要对搜索资源文件进行语义标注，参考图5是部分资源语义标注文件图示，图中proof10和proof11的具体的实例资源，和他们分别和概念Transitivity和EquivalValueRelation相关，图中连接它们的边为accassied_with，用来表示实例资源与概念间的关系而Transitivity与EquivalValueRelation之间有contain关系，用来表示概念与概念之间的关系即概念EquivalValueRelation蕴含概念Transitivity。

步骤三：建立规则；

根据以上所建立的本体中概念间关系如subclass_of，is_a和实例资源和概念间的关系如accassied_with等，建立一条推理规则如下，若实例资源R与概念A有accassied_with关系，而概念A与概念B之间有subclass_of关系则实例资源R则与概念B有accassied_with关系。即实例资源R与概念A有关系则会与概念A的子类有关系。

步骤四：部署推理机。

推理服务通过调用Jena提供的推理机，定义数据集的实例dataset，本体模型实例ontology，推理机实例reasoner，推理规则rule；然后利用dataset从TDB中读取出本体模型，然后利用本体模型实例ontology从数据集的实例dataset中载入本体，最后将得到的本体以及推理规则传到推理机实例reasoner中，配置好推理机。

步骤五：语义搜索；完成上述对搜索资源的语义标注和自定义规则以及部署推理机之后，则可以进行语义搜索，用户最终得到的结果是由检索和推理共同组成的。当用户进行搜索EquivalValueRelation时，首先检索出符合条件的资源，其次通过推理机根据规则库的规则推理出实例资源与此概念有语义相关性的。

由规则库文件可知，推理时可以推理出该概念的子集，以及该概念所蕴含的概念。

步骤六：语义相似度计算；

最后得到推理结果和检索结果之后，传给语义相似度计算节点，对最后的结果进行排序，并输出用户。

在用户搜索EquivalValueRelation后，得到的结果中包含有proof10和proof11，

利用本实施方式提出的语义相似度算法计算这两项资源与用户搜索的EquivalValueRelation的相似度，相关步骤如下：

一、将上述每个资源的概念与用户查询的概念节点进行相似度计算；

首先，找出proof11所蕴含的概念，由上面的语义标注文件片段可知，这是一项与Transitivity相关的资源，利用公式计算EquivalValueRelation和Transitivity的相似度，得到结果为0.34316。由于该资源只有一个相关点，所以0.34312为该资源与EquivalValueRelation的相似度。

然后，找出proof10所蕴含的概念，由上面的语义标注文件片段可知，这是与EquivalValueRelation、EquivalValueSet相关的资源，利用公式分别计算EquivalValueRelation和EquivalValueRelation、EquivalValueSet的相似度，得到结果为1.0和0.3794，将最大的相似度作为该资源的相似度，所以proof10的相似度为1.0。

二、将上述资源按照其相似度由大到小排序，然后返回给用户。返回的序列为proof11、proof10。

本实施方式所述的基于领域本体的语义搜索方法，将语义Web技术，本体技术与搜索技术结合在一起，能准确，全面地获取用户所需要的信息。本实施方式以领域本体和规则推理为切入点，通过领域本体实现概念间的语义互通性，又利用规则推理实现搜索时的查询扩展。

Claims

1.基于领域本体的语义搜索***，包括领域本体库，语义标注后的资源库，推理规则库，推理节点以及相似度计算节点；

所述相似度计算节点，用于计算两个概念间的语义相似度；

具体搜索方法为：

步骤一、建立持续可更新的领域本体库；

步骤二、对查询资源进行语义标注；

步骤三、根据本体结构和资源之间的关系自定义推理规则；

步骤四、接收用户的查询请求；

步骤六、计算推理结果和查询内容之间的语义相似度，根据相似度对推理结果由大到小排序；

步骤六中，所述语义相似度的计算过程包括：依次计算概念深度、计算概念密度、计算共享路径的重合度、计算语义距离以及进行综合语义相似度计算；

计算概念深度的具体过程为：

概念节点的深度是指概念在所处的本体中的层次深度，定义根节点的深度为1，概念节点M的深度为Depth(M)，Depth(M)＝Depth(parent(M))+1，其中parent(M)为节点M的父节点；对于本体中的两个概念节点x、y，通过下式获得在的深度方面的语义相似度，公式如下：

式中Depth(x)、Depth(y)、Depth(LCA)分别为概念x、y最近共同祖先节点LCA的深度信息；概念节点处于本体的层次越深，表示内容就越具体，则概念间的相似度越大，反之概念间的相似度越小；LCA节点的深度越深，表示概念的分类越具体，则概念之间的相似度越大，反之，概念之间的相似度越小；

2.根据权利要求1所述的搜索***，其特征在于：计算概念密度，具体为：

以概念节点C为根节点的子树节点数，记为count(TreeC)，本体中总节点数记为count(Tree)，对于两个概念节点x、y，获得在密度方面的语义相似度，公式如下：

3.根据权利要求1所述的搜索***，其特征在于：计算共享路径的重合度：

两个概念节点的共享路径的重合度为LCA节点的信息量除以这两个概念节点所对应的节点的信息量的均值；

概念间的语义关系，定义三类边，概念间存在继承关系则定义为is_a，概念间存在部分从属关系则为part_of，概念间存在蕴含关系则为contain，对于本体中的两个概念节点x、y，通过祖先节点包含的信息量来衡量两个概念节点的共享路径重合度，具体如下式：

式中，V_x、V_y分别为从概念节点x,y到本体根节点所经过的所有祖先节点的集合；|V_x∩y|、|V_x∪y|分别为x和y具有相同祖先节点的个数，x和y所有祖先节点的个数；E_x∩y为V_x子图和V_y子图相交的边的数量；E_x∪y为V_x子图和V_y子图中所有的边的数量；|V_com|为x,y的直接共同子节点数；

三种边的权重分别为R_{is_a}、R_{part_of}、R_contain；

分别为V_x子图和V_y子图相交的边中含有is_a、part_of、contain类型边的数量；

分别为V_x子图和V_y子图所有边中含有is_a、part_of、contain类型边的数量；两个概念节点之间共享的信息越多，则二者之间的共享路径重合度越大，相似度就越高；反之，则二者的共享路径重合度越小,相似度就越低。

4.根据权利要求1所述的搜索***，其特征在于：计算语义距离：

对于本体中两个概念节点x、y的语义距离，公式如下：

式中，0.7×2Depth(Tree)中的0.7是is_a类型边的权重，两个概念节点之间的最大距离为0.7×2Depth(Tree)。

5.根据权利要求1所述的搜索***，其特征在于：进行综合语义相似度计算，公式如下：

式中，α、β、γ、δ为取值区间[0,1]的权重，且α+β+γ+δ＝1。