CN106844658B

CN106844658B - 一种中文文本知识图谱自动构建方法及***

Info

Publication number: CN106844658B
Application number: CN201710050095.1A
Authority: CN
Inventors: 苏晓恒; 万海
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2019-12-13
Anticipated expiration: 2037-01-23
Also published as: CN106844658A

Abstract

本发明提供的方法能够实现中文文本知识图谱的构建，并且该方法在使用时随着使用次数的增长，其各个领域的文本库、关系库、实体库也逐步得到扩充，构建知识图谱的效果越好。

Description

一种中文文本知识图谱自动构建方法及***

技术领域

本发明涉及知识图谱构建领域，更具体地，涉及一种中文文本知识图谱自动构建方法及***。

背景技术

知识图谱是一种知识的组织结构，形式像图谱，故得名。一个典型的知识图谱通常包含一系列概念、实例和关系。相对于纯文本来说，知识图谱是结构化的，图谱中的节点表示为概念或实例，而节点与节点之间的边则表示二者之间的关系，因此文本通常被看作非结构化。知识图谱的应用非常广泛，可以应用到语义搜索，智能问答，知识工程，数据挖掘和数字图书馆等众多领域。一般情况下，知识图谱的构建分为手工构建、自动构建和半自动构建。手工构建知识图谱会耗费极大的人力和物力，而且难以随着知识的变化而进行调整；自动构建知识图谱要依赖知识获取技术、机器学习技术和统计技术从非结构化的数据资源中获取知识图谱；半自动构建技术介于手工构建和自动化构建之间，因为完全的自动化难以实现。

现阶段构建知识图谱的主要方法包括基于词法模式的方法、基于聚类的方法和基于分布相似度的方法。基于词法模式的方法通过预定义一些模式，然后从中抽取相应的概念和关系，比如Fruit such as apple，那么这样的模式表示的是苹果是一种水果；基于聚类的方法根据概念或实例的特征进行聚类，一般得到层次关系的知识图谱；基于分布相似度的方法主要根据相似的上下文词具备相似的含义的假设，比如北京是中国的首都，东京是日本的首都，那么北京和中国与东京和日本具有相似的上下文。国外的构建知识图谱的技术起步早发展快，但国内目前没有一个完整的***可以做到自动提取中文文本的知识图谱。主要原因在于中文不像英文一样格式固定，表达简单且不需要分词，中文的结构复杂，表达形式多样且需要分词。

发明内容

本发明为解决以上现有技术的难题，提供了一种中文文本知识图谱自动构建方法，应用该方法能够构建其中文文本的知识图谱。

为实现以上发明目的，采用的技术方案是：

一种中文文本知识图谱自动构建方法，包括以下步骤：

S1.从网上百科爬取各个领域的文档，然后按照百科页面的知识组织结构抽取出实体和关系存入相应领域的实体库和关系库中，所述爬取的各个领域的文档也存入相应领域的文本库中；

S2.若一个文档j需要进行构建知识图谱的操作，则对其执行以下处理；

S3.对文档j进行分词处理；

S4.对文档j进行核心词的提取；

S5.使用TF-IDF的技术对文档j的重要词进行提取；

S6.确定文档j所属的领域：

S61.找出文档j的所有词语，然后分别计算它们的TF-IDF值，按照词语的顺序得到文档j的词汇向量表达式；

S62.使用步骤S61的方法得到各个领域的文档的词汇向量表达式，然后计算文档j的词汇向量表达式与各个领域的文档的词汇向量表达式的余弦值，余弦值最大的文档对应的领域为文档j所属的领域；然后将文档j存入所述领域的文本库内；

S7.提取文档j中的实体、关系和实体的三元组：

S71.从文档j中挑选出领域词汇出现的句子作为事务，事务指的是挑选出来的句子中的所有词条的集合；其中所述领域词汇为文档j所属领域的实体库和关系库汇总的词条；

S72.计算事务中每个词条的支持度，然后将支持度高于阈值的词条看做频繁项；

S73.计算任意两个频繁项之间的置信度，若两个频繁项之间的置信度高于阈值，则提取两个频繁项作为词对；

S74.将词对的词、核心词、重要词组成一个词条集合，定位文档j中所有含有该词条集合中词条的句子，然后对这些句子进行指代消解及删除句子中的次要成分，得到提取实体、关系和实体的三元组需要的名词和动词；

S75.首先找到句子中的动词，然后将句子中动词前面和后面的名词组成一个候选的(名词，动词，名词)三元组，然后利用相似性分析来计算文档j所属领域的关系库中的关系与候选三元组中的动词的相似性，若相似性大于阈值，则将动词放入文档j所属领域的关系库中，同时将候选三元组中的名词放入文档j所属领域的实体库中；此时，候选的(名词，动词，名词)三元组为文档j提取的正式的实体、关系和实体的三元组；

S76.若步骤S75提取不到实体、关系和实体的三元组，则找到句子中的核心词及另一个名词，然后使用相似性分析来计算文档j所属领域的实体库中的实体与该名词的相似性，若相似性大于阈值，则寻找核心词、名词之间的词语，然后利用相似性分析来计算它与文档j所属领域的关系库中的关系的相似性，若相似性大于阈值，则将该词语放入文档j所属领域的关系库中，而将步骤S76提取的名词放入文档j所属领域的实体库中；此时，获得文档j提取的实体、关系和实体的三元组；

S8.利用提取的实体、关系和实体的三元组生成文档j的知识图谱。

优选地，所述步骤S3使用jieba工具对文档j进行分词处理。

优选地，所述相似性分析应用Word2vec或同义词词林。

同时，本发明还提供了一种应用以上方法的***，其具体的方案如下：

包括各个领域的知识数据库模块、文档处理模块、实体与关系提取模块和知识图谱生成模块；其中所述各个领域的知识数据库模块包括各个领域的实体库、关系库和文本库，其中所述文档处理模块用于执行步骤S3～S62，所述实体与关系提取模块用于执行步骤S7～S76，所述知识图谱生成模块用于执行步骤S8。

与现有技术相比，本发明的有益效果是：

附图说明

图1知识数据库模块的示意图。

图2为文档处理模块的示意图。

图3为实体与关系提取模块、知识图谱生成模块的示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明提供的***主要包括四个模块：文档处理模块、实体与关系提取模块，知识图谱生成模块和各个领域的知识数据库模块。具体工作流是先通过文档处理模块对输入文档进行预处理，然后通过实体与关系提取模块来提取文档中的实体和关系，最后把提取出的实体和关系送到知识图谱生成模块构建完整的知识图谱返回给用户，并更新知识图谱生成模块中的数据。下面是对每一模块的详细介绍。

各个领域的知识数据库模块从网上百科中发掘各个领域的知识数据，然后保存起来用以构建文档的知识图谱。本发明根据百科的分类将知识数据库大体上分成了艺术、科学、自然、文化、地理、生活、社会、人物、经济、体育、历史11个大类并且对每一个大类中又分成了较为详细的小类，比如在科学这个大类中本发明又划分了健康医疗，电子信息，航空航天，汽车工程，生物医学等16个小类。这样做的目的就是从百科中整理出各个方向的知识数据库，那么对于任意给出的一篇文档，本发明就可以采用分类的算法映射到具体领域的知识数据库模块，从而使用该领域的知识数据库模块启发式构建文档的知识图谱。如图1所示，知识数据库模块又分为***知识数据库和用户知识数据库，***知识数据库是***初始化时自带的知识数据库，用于启发式从用户文档中发现新的知识数据，用户无权限进行操作；用户知识数据库是指用户在提取文档的过程得到的知识数据，用户有权限对此操作，可以按照用户的工作要求来自定义或自主添加词库从而提高整体的构建效果。网络处理层负责从网上百科(百度百科，互动百科，维基中文百科)爬取各个类别所有的文档，并按照百科页面的知识组织结构抽取出实体和关系，并放入到知识数据库模块中的实体库和关系库中，同时也保留处理后的百科文本数据，放入文本库中。然后训练word2vec等模型，并放入到知识数据库模块当中。所以知识数据库模块是由实体库、关系库、文本库和模型4部分组成的。

文档处理模块是将文档预处理为更小的处理单元。主要包括预处理、核心词提取和重要词提取以及文档分类四部分。如图2所示，在预处理部分本发明将文档中的每一个句子处理为一行，并使用jieba工具对文档进行中文分词，jieba具有良好的性能，分词效率高且准确，并且允许导入词条，在分词过程jieba会优先考虑词条中的词汇，本发明将知识数据库模块中的实体库和关系库合并为jieba的词条库,除了分词外还需要过滤停用词；核心词提取部分主要提取文档的核心(主旨)词，本发明提出了该核心词提取算法，该算法基于一个假设每篇文档都是围绕着核心(主旨)词进行阐述，且核心词在文档中是按块分布的，比如第1～5段是描述内存的，第6～12段是讲解硬盘的。另外对于每一个核心词块，这里都会有相应的知识对该词条进行补充描述，比如内存这个核心词块中可能出现内存条这个概念，或者内存和内存条之间的关系。这也是本发明构建知识图谱的基础。核心词提取的算法包括两个方面，首先计算每个分词后的词语的词条密度(即该词条在这篇文档中出现的总次数除以该词条所跨越的行数)，定义一个阈值，挑选候选核心词，然后计算候选词的均匀性，即每个候选词在它们的词块中是均匀的，本发明将候选词块划分为多个词条，比如每三行为一个词条，那么候选词的均匀性等于候选词所在词条的比例；文档分类部分是为文档找到某一类别的知识数据库模块，因为***库中有初始信息，可以启发式帮助发现更多的该类别下的新实体和关系，这里本发明使用余弦定理来进行文本分类，具体做法如下，首先找到该文档下的所有词语(实词)，计算它们的TF-IDF值，然后按照所有词汇表的顺序得到该文档的词汇向量表达式，其中每一元素的值表示该词语对该文档的贡献，因为每一类的文档都会由固定专业的组合搭配，实质上就是该类下的专业词汇对该类文档的贡献情况，最后本发明利用知识数据库模块中的文本库，来计算文档与文本库中类别向量计算余弦值，将该文档划分到最大值的领域当中。前面提到过在核心词块中通常会有次重要的词来辅助描述核心词的概念，比如内存条来辅助描述内存的概念，所以重要词提取部分主要功能就是提取次重要词，这里本发明使用TF-IDF的技术来进行提取，前面文档分类也用到了该技术，TF(Term-Frequency)词条频率，表示该词条在这篇文档中出现的频率，IDF(Inverse Document Fequency)逆文档频率，表示该词条在所属类别知识数据库中的文档中出现的频率，TF-IDF是两个值的乘积，综合表示了该词条在文档的重要性。本发明设定一个较高的阈值，然后选择出重要词汇。然后本发明把核心词和重要词放入到知识数据库模块当中。

实体与关系提取模块负责提取该文档中的实体，关系和实体的三元组。如图3所示，关联分析部分用来挖掘文档中可能有关系的词对，有利用本发明提取文档中的关系。本发明改进了Apriori关联分析技术，首先从文档中挑选出该领域词汇(这里指的是***知识数据库和用户知识数据库中的实体库和关系库汇总的词条)出现的句子作为事务，事务指的是本发明把挑选出来的句子中的所有词条的集合，不难发现，每个事务中都至少有一个领域词汇。然后计算出文档中每个词条的支持度，即每个词条所在的事务占所有事务的比例，本发明把支持度高于一定阈值的词条看作频繁项，然后计算出两个频繁项的置信度，即其中一个频繁项所在的事务占两个频繁项词条所在的事务的比例，高于一定阈值，本发明提取出来作为词对。这样的词对大多包含核心词，同样也包含没有核心词的词对。句子削减部分就是删减重要句子中的次要成分，从而发掘词对中的关系。本发明把频繁词对的词和该文档的核心词以及重要词组成一个词条集合，定位文档中所有含有该词条集合中词条的句子，因为关联分析不会考虑句子的结构和成分，但本发明可以判断哪些词可能存在关系。首先进行指代消解，即将一个句子中的子句中的代词用它指代的名词代替，比如“北京是中国的首都，中国人都热爱它”，指代消解后，“北京是中国的首都，中国人都热爱北京”，因为一个句子是一个处理单元，但是一个长句子一般是由多个子句构成，子句也会蕴含信息，使用指代分解后可以丰富子句的意思，然后作为本发明处理的单元。本发明直接调用斯坦福自然语言处理包中的指代消解包，接着本发明根据预定义的模式削减句子中的名词或动词，即删除句子中的次要成分从而提出本发明真正需要的名词和动词，比如“介词+名词”的形式，“老师看见小明在公园里。”这句话的核心就是“老师看见小明”而“在公园里”就属于次要部分，其中的公园这个名词需要删除，否则会影响实体的提取。本发明总结出了几种需要削减的模式：“介词+形容词+名词”，“介词+动词”等。提取实体和关系部分是从削减后的句子中提取名词或动词当作实体或关系，首先找到句子中的动词部分，然后把紧挨着动词前面的名词和后面的名词然后组成一个候选的(名词，动词，名词)三元组。然后利用相似性分析来计算***知识数据库和关系知识数据库中的关系库中的关系与候选三元组中的动词的相似性，如果相似性大于一定的阈值，本发明就将该动词放入到用户知识数据库的关系库中，同时把另一个名词放入到用户知识数据库的实体库中；本***充分考虑了名词充当关系库的情况，当第一种提取方法失败后，本发明接着找到句子中出核心词外的另一个名词，然后用相似性分析来计算***知识数据库和关系知识数据库中的实体库中的实体与该名词的相似,如果高于一定的阈值(该阈值一般设定较高)，紧接着找两个名词之间的词语(动词或名词)，计算它们与关系库的相似性，如果大于一定的阈值就将相应的名词或动词放入到关系库，之前提取的名词放入实体库中。相似性分析部分主要涉及到相似性的计算，即给定两个词语计算它们之间的语义相似性。主要使用了两种技术：Word2vec和同义词词林，word2vec是Google在2013年开源的一款将词表征为实数值向量的工具,其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算，而向量空间上的相似度可以用来表征文本语义上的相似度。本发明充分利用了***知识数据库中的文本库，来训练该模型，从而得到***知识数据库中的模型，在进行相似性分析的过程，本发明直接调用知识数据库中的模型即可。另外一个相似性工具是哈工大社会计算与信息检索研究中心的编写的扩展版同义词词林，该同义词词林分为5个层次，本发明利用层次关系，可以求解出两个词的相似性。本发明将word2vec和同义词词林两种技术通过加权的方法来计算两个词的相似性。

在提取该文档中的实体，关系和实体的三元组后，知识图谱生成模块利用提取的实体、关系和实体的三元组生成文档的知识图谱。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种中文文本知识图谱自动构建方法，其特征在于：包括以下步骤：

S3.对文档j进行分词处理；

S4.对文档j进行核心词的提取；

S5.使用TF-IDF的技术对文档j的重要词进行提取；

S6.确定文档j所属的领域：

S7.提取文档j中的实体、关系和实体的三元组：

2.根据权利要求1所述的中文文本知识图谱自动构建方法，其特征在于：所述步骤S3使用jieba工具对文档j进行分词处理。

3.根据权利要求1所述的中文文本知识图谱自动构建方法，其特征在于：所述相似性分析应用Word2vec或同义词词林。

4.一种应用权利要求1～3任一项方法的***，其特征在于：包括各个领域的知识数据库模块、文档处理模块、实体与关系提取模块和知识图谱生成模块；其中所述各个领域的知识数据库模块包括各个领域的实体库、关系库和文本库，其中所述文档处理模块用于执行步骤S3～S62，所述实体与关系提取模块用于执行步骤S7～S76，所述知识图谱生成模块用于执行步骤S8。