CN101388026A

CN101388026A - 一种基于领域本体的语义索引方法

Info

Publication number: CN101388026A
Application number: CNA2008101213669A
Authority: CN
Inventors: 吴朝晖; 付志宏; 姜晓红
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2008-10-09
Filing date: 2008-10-09
Publication date: 2009-03-18

Abstract

本发明涉及一种基于领域本体的语义索引方法，包括步骤如下：(1)利用奇异值分解对单词－文档矩阵进行分解处理得到概念词－文档矩阵；(2)首先建立该领域的基本本体知识库，利用该本体知识库构建一个基于领域本体的动态语义模板库；(3)语义索引是基于本体及其相关陈述进行的二级索引，利用了步骤(2)添加到动态语义模板库的概念词，对文档建立倒排索引，同时在每一个本体之下对其出现的相关陈述建立二级索引。本发明的有益效果：能很好的解决关键字索引的难于解决识别同义词的缺点，能够获得语义相同或关联的信息；本体的相关陈述的二级索引，能够精化搜索粒度，为搜索结果提供更高的准确度和效率，向用户提供更高级的搜索功能。

Description

一种基于领域本体的语义索引方法

技术领域

本发明涉及语义搜索，语义网络领域，特别是涉及一种基于领域本体的语义索引方法。

背景技术

随着网络信息的膨胀和网络用户的增长，人们对信息的利用方式和迫切需求，正逐渐在发生改变，从以前的人工搜索，到现在的Google，Baidu等搜索引擎的使用。但是由于关键字搜索仍然存在着很多缺点，对搜索的准确度和性能难于满足高级用户的需求，基于此我们提出了基于语义的索引技术。可以看出，传统的基于关键词匹配的搜索引擎普遍存在以下几个问题。

(1)高查全率与低准确性并存。尽管内容高度相关的网页已包含在检索结果中，但有价值的信息被掺杂在数以万计的其他相关度低，甚至不相关的文档中，无法起到其应有的作用；

(2)查询结果对关键词的高度敏感。通常用户最先选择的关键词并不能产生期望的查询结果。这是由于某些网页中使用了与我们所选用的关键词不相同的术语，如同义词，近义词等。但用户所希望的是：语义相同的查询能够返回相同的结果；

(3)查询的结果之间缺乏语义关联。如果用户需要的信息分散在许多不同的网络文档中，用户必须构造多个查询来获取所需要的文档，然后手工提取和融合文档里的部分信息，增加了用户相应操作和处理的负担。

产生这些问题的主要原因是目前互联网上的大部分内容还只适合人来进行阅读和处理，现代计算机在语句理解和信息自动抽取方面的能力还十分有限，本发明就是利用语义索引的语义相关性的特点，对文档建立语义索引，消除关键词搜索所存在的这些问题。

发明内容

本发明的目的在于克服上述技术的缺陷，而提供一种基于领域本体的语义索引方法。

本发明的目的是通过以下技术方案来实现的。这种基于领域本体的语义索引方法，包括以下步骤：

(1)利用奇异值分解对单词-文档矩阵进行分解处理。将分词后得到的单词-文档矩阵进行奇异值分解，在单词和文档之间建立一个概念层，得到概念词-文档矩阵，这样一方面能得到最能描述该文档的概念词信息，若以这些概念词建立索引，能够更准确地表述文档信息，提高查询的准确程度；另一方面也能得到文档之间的语义关联信息，从而能够克服单纯的关键字搜索带来的漏查包含同义词的语义相关的文档；

(2)基于本体的动态语义模版。首先由领域专家建立该领域的基本本体知识库(该知识库基本包含了所有的本体概念，本体之间的等价，子类，超类的关系，如在中医药领域，包含了药物和疾病本体，及药物和疾病的不同表述及层次关系，但缺少药物和疾病的关系)，利用该本体知识库构建一个基于领域本体的动态语义模板库。其中的动态语义模板库的含义在于基本本体知识库的基础之上，我们通过不断地处理该领域的文档，能够识别新的本体及陈述，不断丰富本体知识库，得到更完整的语义模板，提高对文档概念词匹配的命中率，提高建立索引的质量和性能。

(3)基于本体及其相关陈述的二级索引。与传统的搜索引擎中的基于关键字的索引不同，语义索引是基于本体及其相关陈述进行的二级索引。该二级索引的特点在于利用了步骤(2)添加到动态语义模板库的概念词，即本体，对文档建立倒排索引，同时在每一个本体之下对其出现的相关陈述建立二级索引，该二级索引结构采用Tri树结构，这样对陈述的检索只需要常数的时间，对搜索响应时间影响很小，但是却提供了更高级的查询功能，提供了更准确的搜索方法。

本发明中步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理，得到新的概念词-文档矩阵，添加了文档之间的语义关联，同时也去除了与文档语义相关小的概念词，减少文档的概念词空间，提高了建立索引的性能。

奇异值分解的计算公式如下：

M_t×d＝K_t×r*S_r×r*D_r×d ^T

其中：M_t×d矩阵为步骤(1)中分词之后得到单词-文档矩阵。

K_t×r矩阵通过求M_t×d·M_t×d ^T的特征向量得到。

S_r×r矩阵为一个r×r的以降序存储奇异值的对角矩阵。

D_r×d ^T矩阵通过求M_t×d ^T·M_t×d的特征向量得到。

利用奇异值分解，可以将单词-文档矩阵M_t×d分解为较小的三个矩阵，K_t×r，S_r×r，D_r×d ^T，这三个矩阵都有比较清晰的物理意义，K_t×r矩阵的每一行表示意思相关的的一类词，即其中的每个非零元素表示这类词中每个词的重要性(或者说相关性)；D_r×d ^T矩阵的每一个列表示相关的一类文档，其中的每个非零元素表示该文档的重要性(或者说相关性)；S_r×r矩阵表示概念词和文档之间的相关性。这样我们可以利用S_r×r矩阵可以得到我们需要的概念词文档矩阵，同时通过选择适当的r可以大大减少文档的概念词空间，从而剔除了大量的与文档相关性较小的概念词，提高概念词与文档语义上的内聚性，提高建立索引的性能。

本发明中步骤(2)中的基于本体的动态语义模板对文档抽取本体及其陈述：在利用奇异值分解得到了概念词-文档矩阵后，对每一个文档中的概念词，在语义模板库中查找匹配该概念词，如果找到，则在该概念词出现的上下文中(一般指同一句话中)，根据本体的三元组的模式，查找概念词-谓词-概念词的陈述，如果该陈述在语义模板库中不存在，则添加进入语义模板库，同时将概念词(本体)及其陈述添加到索引中，并记录本体及其陈述的信息，如出现的文档，频率，属于哪个本体等。同时如果该概念词不在语义模板库中，则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中，并将其出现次数加1，若在一定数量的文档中，其出现频率超过上限阀值，则将其从临时语义模板库中添加到动态语义模板库中，否则若其出现频率低于下限阀值，将其从临时语义模板库中删除，表示该概念词不属于该领域的本体。否则，统计信息清零，重新计数。具体算法如下：

for doc in概念词-文档矩阵中的文档

for ontology in概念词-文档矩阵中的doc文档的概念词

if(ontology is in语义模板库)

{

添加该ontology到索引中

While(在该ontology的上下文中)

{

查找概念词-谓词-概念词的陈述；

添加该陈述到ontology的二级索引中

If(该陈述is not in语义模板库)

添加该陈述到语义模板库

}；

}

else{

添加到临时语义模板库中；

if(该ontology频率超过上限阀值)

{

添加到动态语义模板库；

添加到索引节点中；

}

else if(该ontolgoy频率低于下限阀值)

从临时语义模板库中删除；

Else

统计信息清零；

}

本发明中步骤(3)中的基于本体及相关陈述的二级索引方法：利用了步骤(2)添加到动态语义模板库的概念词，即本体，对文档建立倒排索引，同时在每一个本体之下对其出现的陈述建立二级索引，由于陈述的模式固定为三元组形式(S，P，O)，故第二级索引结构采用Tri树结构，这样对陈述的检索只需要常数的时间，对搜索响应时间影响很小，但是却提供了更高级的查询功能，提供了更准确的搜索方法。该基于本体及其相关陈述的二级索引同一般的基于关键字的索引的不同点在于，第一，索引结构，一般关键字为一级索引，无法提供语义相关的本体陈述的二级索引；第二，索引节点包含的内容，一般的关键字索引仅仅包含出现的文档信息，如出现的文档，位置，频率等，但与其他的索引节点没有语义关系；但是在本体索引中，其不仅包括本体出现的文档信息，更重要的是利用本体知识库的本体知识，添加相关的本体信息，例如等价本体，子类本体，超类本体，相近类本体，不相交类本体等。本发明的有益效果：该索引结构有助于改善搜索的效率和搜索结果的质量，第一，关键字的索引不能够体现关键字之间的语义关系，而基于本体及其相关陈述的二级索引能够利用本体语言，如RDFS，OWL提供的equivalentClass，subClassOf，sameAs，superClassOf等描述提供本体之间的语义关系，能很好的解决关键字索引的难于解决识别同义词的缺点，能够获得语义相同或关联的信息；也能够利用本体语言的推理机制，为进一步开发出知识***提供方便。第二，本体的相关陈述的二级索引，能够精化搜索粒度，为搜索结果提供更高的准确度和效率，向用户提供更高级的搜索功能。

附图说明

图1为本发明中基于动态语义模板抽取本体和建立语义索引的流程图；

图2为本发明中基于本体及相关陈述的二级索引结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述：

本发明实施的关键有四点：领域基本本体知识库的建立，对单词-文档矩阵的奇异值分解，本体及相关陈述的抽取，建立本体及相关陈述的二级索引。其中领域基本本体知识库，本体及相关陈述抽取，本体及相关陈述的二级索引建立是本发明实施的关键。

本发明所述的这种基于领域本体的语义索引方法，具体包括以下步骤：

1.利用奇异值分解对语义分词得到的单词-文档矩阵进行处理，得到新的概念词-文档矩阵，添加了文档之间的语义关联，同时也去除了与文档语义相关性较小的概念词，减少文档的概念词空间，提高了建立索引的性能。

奇异值分解的计算公式如下：

M_t×d＝K_t×r ^*S_r×r ^*D_r×d ^T

其中：M_t×d矩阵为步骤(1)中分词之后得到单词-文档矩阵。

K_t×r矩阵通过求M_t×d·M_t×d ^T的特征向量得到。

S_r×r矩阵为一个r×r的以降序存储奇异值的对角矩阵。

D_r×d ^T矩阵通过求M_t×d ^T·M_r×d的特征向量得到。

S_r×r矩阵表示概念词和文档之间的相关性。选取其中对角的前s个最大值，我们可以得到奇异值对角矩阵S_s×s，其中S_s×s矩阵即是我们需要的概念词-文档矩阵。

利用奇异值分解，我们可以将单词-文档矩阵M_t×d分解为较小的三个矩阵，K_t×r，S_r×r，D_r×d ^T，这三个矩阵都有比较清晰的物理意义，K_t×r矩阵的每一行表示意思相关的的一类词，即其中的每个非零元素表示这类词中每个词的重要性(或者说相关性)；D_r×d ^T矩阵的每一个列表示相关的一类文档，其中的每个非零元素表示该文档的重要性(或者说相关性)；S_r×r矩阵表示概念词和文档之间的相关性。这样我们可以利用S_r×r矩阵可以得到我们需要的概念词-文档矩阵，同时通过选择适当的r可以大大减少文档的概念词空间，从而剔除了大量的与文档相关性较小的概念词，提高概念词与文档语义上的内聚性，提高建立索引的性能。

2.步骤(2)中的动态语义模板库的建立是本发明的关键技术之一，它必须由该领域的本体专家利用领域的专业知识来建立基本本体知识库，由该基本本体知识库构成最初的动态语义模板库。其中基本的本体知识库的建立关系到以后动态语义模板库的成长以及对领域本体的识别的正确性以及准确性，所以这一步骤必须由领域的多位专家以及本体专家共同完成。其内容主要包括该领域内的基本上所有的本体以及本体之间的关系，这里的关系指等价，超类，子类关系，其中也可以包含一定的陈述关系(属性关系)。如在中医药领域，包含了药物和疾病本体，及药物和疾病的不同表述，但缺少大部分药物和疾病之间的关系。

3.步骤(3)中的利用动态语义模板对文档中的本体及其相关陈述进行抽取是本发明的关键技术之一，在(1)利用奇异值分解得到了概念词-文档矩阵后，对每一个文档中的概念词，在语义模板库中查找匹配该概念词，如果找到，则在该概念词出现的上下文中(一般指同一句话中)，根据本体的三元组的模式，查找概念词-谓词-概念词的陈述，如果该陈述在语义模板库中不存在，则添加进入语义模板库，同时将概念词(本体)及其陈述添加到索引中，并记录本体及其陈述的信息，如出现的文档，频率，属于哪个本体等。同时如果该概念词不在语义模板库中，则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中，并将其出现次数加1，若在一定数量的文档中，其出现频率超过上限阀值，则将其从临时语义模板库中添加到动态语义模板库中，否则若其出现频率低于下限阀值，将其从临时语义模板库中删除，表示该概念词不属于该领域的本体。否则，统计信息清零，重新计数。

具体算法如下：

for doc in概念词-文档矩阵中的文档

for ontology in概念词-文档矩阵中的doc文档的概念词

if(ontology is in语义模板库)

{

添加该ontology到索引中

While(在该ontology的上下文中)

{

查找概念词-谓词-概念词的陈述；

添加该陈述到ontology的二级索引中

If(该陈述is not in语义模板库)

添加该陈述到语义模板库

}；

}

else{

添加到临时语义模板库中；

if(该ontology频率超过上限阀值)

{

添加到动态语义模板库；

添加到索引节点中；

}

else if(该ontolgoy频率低于下限阀值)

从临时语义模板库中删除；

Else

统计信息清零；

}

例如，对于有如下一段原始文本资料：

本药品成方于公元八世纪，原系藏医经典方剂二十五味珍珠母丸，始载于藏医古典巨著《四部医典》中……药物组成为：珍珠、九眼石、西红花、檀香、降香、丁香、余甘子、草莓、高山党参、相额尔、牛黄、麝香等70味。功能主治包括：安神、镇静、通经活络、调和气血、醒脑开窍。用于“黑白脉病”，“龙血”不调；中风，瘫痪、半身不遂、癫痫、脑溢血、脑震荡、心脏病、高血压及神经性障碍。用法用量……

假设我们的语义模板中中有(二十五味珍珠母丸，组成包括，珍珠)，(二十五味珍珠母丸，组成包括，西红花)......；(二十五味珍珠母丸，主治，醒脑开窍)，(二十五味珍珠母丸，主治，黑白脉病)......。对该文档得到的概念词有二十五味珍珠母丸，珍珠、九眼石、西红花、檀香、降香、丁香、余甘子、草莓、高山党参、相额尔、牛黄、麝香，安神、镇静、通经活络、调和气血、醒脑开窍，黑白脉病，龙血不调；中风，瘫痪、半身不遂、癫痫、脑溢血、脑震荡、心脏病、高血压，神经性障碍。那么我们可以对文档的概念词进行一一匹配，如二十五味珍珠母丸，我们可以在语义模板中匹配到，那么我们可以在其上下文中得到(二十五味珍珠母丸，组成包括，九眼石)，(二十五味珍珠母丸，组成包括，檀香)......(二十五味珍珠母丸，主治，癫痫)等陈述。对未匹配的概念词，如九眼石，西红花等，我们将其添加到临时的语义模板中，并更新其统计信息。这样我们不仅发现了本体“二十五味珍珠母丸”的新的陈述，也能够通过临时的语义模板库的动态计数及其上下限阀值得到新的本体以及去除与领域不相关的概念词。

4.步骤(4)中的基于本体及相关陈述的二级索引方法是本发明的关键技术之一，其特点在于利用了步骤(3)添加到动态语义模板库的概念词，即本体对文档建立B+树结构的倒排索引，并利用本体知识库的知识，在本体索引中记录与该概念词相关的本体信息，其不仅包括本体出现的文档信息，更重要的是利用本体知识库的本体知识，添加相关的本体信息，例如等价本体，子类本体，超类本体，相近类本体，不相交类本体等；同时在每一个本体之下对其出现的陈述建立二级索引，其记录的信息主要为出现的文档信息。由于陈述的模式固定为三元组形式(S，P，O)，故第二级索引结构采用Tri树结构，该Tri树结构最多只有两层，P层和O层。这样对陈述的检索只需要常数的时间，对搜索响应时间影响很小，但是却提供了更高级的查询功能，提供了更准确的搜索方法。

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于领域本体的语义索引方法，其特征在于：包括以下步骤：

(1)、利用奇异值分解对单词-文档矩阵进行分解处理：将分词后得到的单词-文档矩阵进行奇异值分解，在单词和文档之间建立一个概念层，得到概念词-文档矩阵，得到最能描述该文档的概念词信息和文档之间的语义关联信息；

(2)、基于本体的动态语义模版：首先建立该领域的基本本体知识库，该知识库基本包含了所有的本体概念，本体之间的等价，子类，超类的关系，利用该本体知识库构建一个基于领域本体的动态语义模板库；其中的动态语义模板库的含义在于基本本体知识库的基础之上，通过处理该领域的文档，识别新的本体及陈述，丰富本体知识库，得到更完整的语义模板；

(3)、基于本体及其相关陈述的二级索引：语义索引是基于本体及其相关陈述进行的二级索引，利用了步骤(2)添加到动态语义模板库的概念词，即本体，对文档建立倒排索引，同时在每一个本体之下对其出现的相关陈述建立二级索引，该二级索引结构采用Tri树结构。

2.根据权利要求1所述的基于领域本体的语义索引方法，其特征在于：步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理，得到新的概念词-文档矩阵；

奇异值分解的计算公式如下：

M_t×d＝K_t×r*S_r×r*D_r×d ^T

其中：M_t×d矩阵为步骤(1)中分词之后得到单词-文档矩阵

K_t×r矩阵通过求M_t×d·M_t×d ^T的特征向量得到

S_r×r矩阵为一个r×r的以降序存储奇异值的对角矩阵

D_r×d ^T矩阵通过求M_t×d ^T·M_t×d的特征向量得到

利用奇异值分解，将单词-文档矩阵M_t×d分解为较小的三个矩阵，K_t×r，S_r×r，D_r×d ^T，K_t×r矩阵的每一行表示意思相关的的一类词，即其中的每个非零元素表示这类词中每个词的重要性或者说相关性；D_r×d ^T矩阵的每一个列表示相关的一类文档，其中的每个非零元素表示该文档的重要性或者说相关性；S_r×r矩阵表示概念词和文档之间的相关性；利用S_r×r矩阵得到需要的概念词文档矩阵，同时通过选择适当的r减少文档的概念词空间。

3.根据权利要求1中所述的基于领域本体的语义索引方法，其特征在于：步骤(2)中的基于本体的动态语义模板对文档抽取本体及其陈述：在利用奇异值分解得到了概念词-文档矩阵后，对每一个文档中的概念词，在语义模板库中查找匹配该概念词，如果找到，则在该概念词出现的上下文中，根据本体的三元组的模式，查找概念词-谓词-概念词的陈述，如果该陈述在语义模板库中不存在，则添加进入语义模板库，同时将概念词及其陈述添加到索引中，并记录本体及其陈述的信息，如果该概念词不在语义模板库中，则将该概念词及其上下文中的三元组陈述添加到一个临时的语义模板库中，并将其出现次数加1，若在一定数量的文档中，其出现频率超过上限阀值，则将其从临时语义模板库中添加到动态语义模板库中，否则若其出现频率低于下限阀值，将其从临时语义模板库中删除，表示该概念词不属于该领域的本体。否则，统计信息清零，重新计数。