CN110390022A

CN110390022A - 一种自动化的专业知识图谱构建方法

Info

Publication number: CN110390022A
Application number: CN201910542202.1A
Authority: CN
Inventors: 刘家祥
Original assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Current assignee: Central Mdt Infotech Ltd Of United States Of Xiamen
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-10-29

Abstract

一种自动化的专业知识图谱构建方法，包括以下步骤：获取专业知识文本；对专业知识文本进行分词并去除分词文本中的停用词；将每条文本转换成若干词语集合；通过词性标注得到词性标签，通过依存分析得到依存标签和依存树；基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测；对候选关系中的词语进行语义标注，得到候选语义关系模式；对得到的候选语义关系模式进行聚类，得到一组最终的语义关系模式；利用语义词典和语义关系模式得到专业知识数据；将数据写成owl文件并导入到protege中。本发明进行了优化和扩展，构建专业知识图谱的效率高，成本较低，省时省力，并且所构建的专业知识图谱准确性高。

Description

一种自动化的专业知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，尤其涉及一种自动化的专业知识图谱构建方法。

背景技术

知识服务是专业数字出版领域最近一段时间追捧的热点，国家在这方面大量的资金投入也加快了知识服务在出版单位落地的时间，但是目前国内建设的知识服务***一般来说仍然是传统的文献级别的知识服务，提供传统的全文检索方式，资源关联方面也只是文献与参考文献之间的关联方式，为了实现真正的知识检索，构建作为知识检索基础支撑的各种类型的知识体系就成了关键，目前部分在知识体系构建方面领先的专业出版社在领域主题词表方面已经有了一定的积累，但是对于知识检索来说，构建领域本体以及知识图谱才是最理想的目标；

然而，对于专业知识领域来说，需要对本专业十分了解的专家手动构建知识图谱，投入了大量的人力和时间，构建知识图谱的效率太低，成本太高，准确率还不好保证。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种自动化的专业知识图谱构建方法，进行了优化和扩展，构建专业知识图谱的效率高，成本较低，省时省力，并且所构建的专业知识图谱准确性高。

(二)技术方案

为解决上述问题，本发明提出了一种自动化的专业知识图谱构建方法，包括以下步骤：

S1、利用网络爬虫技术获取专业知识文本；

S2、利用jieba工具对获取的专业知识文本进行分词；

S3、利用stopwords工具去除分词文本中的停用词；

S4、进行n-gram处理，将每条文本转换成若干词语集合；

S5、通过词性标注得到词性标签，通过依存分析得到依存标签和依存树；

S6、基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测；

S7、结合语义词典，对候选关系中的词语进行语义标注，得到候选语义关系模式；

S8、对得到的候选语义关系模式进行聚类，得到一组最终的语义关系模式；

S9、利用语义词典和语义关系模式得到专业知识数据；

S10、利用jena工具将数据写成owl文件，将owl文件导入到protege中；

S11、生成最终的专业知识图谱。

优选的，S2的具体步骤如下：将每条目标文本分割成多个句子；对每个句子分词并得到词的序列。

优选的，在S4中，还包括如下步骤：利用Shingling算法计算任意两条文本之间的相似度，并将相似度大于阈值的所有文本放入同一个文本簇；对每个文本簇进行分类，并得到个文本簇所属类别。

优选的，S5的具体步骤如下：对每个词语集合进行词性标注得到其词性标签；对每个词语集合进行依存分析，对存在语法依赖关系的两个词得到依存标签；所有词语的依存标签构成了依存树。

优选的，在S6中，名词短语为包含名词的多个连续的词组成的短语；动词短语为依存树上有动宾关系的短语。

优选的，在S6中，候选关系检测主要用于得到名词短语后，计算每两个名词短语之间是否存在关系。

优选的，在S7中，语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断；将词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式。

优选的，在S7中，对于有多个语义类型的词语，在整个文本集合上对所有抽取到的语义关系模式进行统计，从中寻找匹配的模式；若匹配不到语义关系模式，把多元的语义关系模式转化成多个二元模式，再进行匹配。

本发明的上述技术方案具有如下有益的技术效果：

本发明进行了优化和扩展，构建专业知识图谱的效率高，成本较低，省时省力，构建的专业知识图谱的准确性高。

附图说明

图1为本发明提出的一种自动化的专业知识图谱构建方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1所示，本发明提出的一种自动化的专业知识图谱构建方法，包括以下步骤：

S1、利用网络爬虫技术获取专业知识文本；

S2、利用jieba工具对获取的专业知识文本进行分词；

S3、利用stopwords工具去除分词文本中的停用词；

S4、进行n-gram处理，将每条文本转换成若干词语集合；

S9、利用语义词典和语义关系模式得到专业知识数据；

S11、生成最终的专业知识图谱。

在一个可选的实施例中，S2的具体步骤如下：将每条目标文本分割成多个句子；对每个句子分词并得到词的序列。

在一个可选的实施例中，在S4中，还包括如下步骤：利用Shingling算法计算任意两条文本之间的相似度，并将相似度大于阈值的所有文本放入同一个文本簇；对每个文本簇进行分类，并得到个文本簇所属类别。

在一个可选的实施例中，S5的具体步骤如下：对每个词语集合进行词性标注得到其词性标签；对每个词语集合进行依存分析，对存在语法依赖关系的两个词得到依存标签；所有词语的依存标签构成了依存树。

在一个可选的实施例中，在S6中，名词短语为包含名词的多个连续的词组成的短语；动词短语为依存树上有动宾关系的短语。

在一个可选的实施例中，在S6中，候选关系检测主要用于得到名词短语后，计算每两个名词短语之间是否存在关系。

在一个可选的实施例中，在S7中，语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断；将词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式。

在一个可选的实施例中，在S7中，对于有多个语义类型的词语，在整个文本集合上对所有抽取到的语义关系模式进行统计，从中寻找匹配的模式；若匹配不到语义关系模式，把多元的语义关系模式转化成多个二元模式，再进行匹配。

本发明中，首先利用网络爬虫技术获取专业知识文本；然后利用jieba工具对获取的专业知识文本进行分词，并利用stopwords工具去除分词文本中的停用词；然后进行n-gram处理，将每条文本转换成若干词语集合；之后通过词性标注得到词性标签，通过依存分析得到依存标签和依存树，基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测，并结合语义词典，对候选关系中的词语进行语义标注，得到候选语义关系模式；然后对得到的候选语义关系模式进行聚类，得到一组最终的语义关系模式，并利用语义词典和语义关系模式得到专业知识数据；最后利用jena工具将数据写成owl文件，将 owl文件导入到protege中，生成最终的专业知识图谱；

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种自动化的专业知识图谱构建方法，其特征在于，包括以下步骤：

S1、利用网络爬虫技术获取专业知识文本；

S2、利用jieba工具对获取的专业知识文本进行分词；

S3、利用stopwords工具去除分词文本中的停用词；

S4、进行n-gram处理，将每条文本转换成若干词语集合；

S9、利用语义词典和语义关系模式得到专业知识数据；

S11、生成最终的专业知识图谱。

2.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，S2的具体步骤如下：

将每条目标文本分割成多个句子；

对每个句子分词并得到词的序列。

3.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，在S4中，还包括如下步骤：

利用Shingling算法计算任意两条文本之间的相似度，并将相似度大于阈值的所有文本放入同一个文本簇；

对每个文本簇进行分类，并得到个文本簇所属类别。

4.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，S5的具体步骤如下：

对每个词语集合进行词性标注得到其词性标签；

对每个词语集合进行依存分析，对存在语法依赖关系的两个词得到依存标签；

所有词语的依存标签构成了依存树。

5.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，在S6中，名词短语为包含名词的多个连续的词组成的短语；动词短语为依存树上有动宾关系的短语。

6.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，在S6中，候选关系检测主要用于得到名词短语后，计算每两个名词短语之间是否存在关系。

7.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，在S7中，语义标注是通过在语义词典中查找词语，得到对应的语义类型，并结合词语的词性进行判断；

将词法关系模式中每个词进行语义标注之后，得到对应的语义关系模式。

8.根据权利要求1所述的一种自动化的专业知识图谱构建方法，其特征在于，在S7中，对于有多个语义类型的词语，在整个文本集合上对所有抽取到的语义关系模式进行统计，从中寻找匹配的模式；

若匹配不到语义关系模式，把多元的语义关系模式转化成多个二元模式，再进行匹配。