CN111581376A

CN111581376A - 一种知识图谱自动构建***及方法

Info

Publication number: CN111581376A
Application number: CN202010314286.6A
Authority: CN
Inventors: 任惠超; 胡颖; 黄庆龙; 于文东; 董艳波; 薛龙; 许光; 刘锋
Original assignee: 714th Research Institute of CSIC
Current assignee: 714th Research Institute of CSIC
Priority date: 2020-04-17
Filing date: 2020-04-17
Publication date: 2020-08-25
Anticipated expiration: 2040-04-17
Also published as: CN111581376B

Abstract

本发明提供一种知识图谱自动构建***及方法，为了弥补目前只基于结构化数据和非结构化数据构建知识图谱的缺陷，技术方案包括采用Bert学习模型进行关系分类和实体抽取，有效地从非结构文本中提取知识三元组；通过改进Bert的输入形式，采用分步抽取方式，实体识别过程中通过给句子填充关系信息，从而提高了实体的识别效果，可以从文本中识别多个三元组关系，避免了信息交错而导致实体关系对应错误；实现7×24小时的实时知识图谱构建，能够实时抓取互联网数据，实时提取文本中的三元组，并存储到数据库中，这样能够快速获取最新文本中的最新知识，提高知识时效性，让科研人员第一时间获得文本中蕴涵的知识，从而提高工作效率。

Description

一种知识图谱自动构建***及方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种知识图谱自动构建***及方法。

背景技术

目前国内外很多互联网公司都构建自己的知识图谱，在基于知识图谱的基础上推出搜索、问答、推荐等来改善服务质量。知识图谱的构建需要知识数据，目前知识的获取主要从结构化、半结构化数据、非结构化数据中获取。结构化、半结构数据数据格式清晰，数据比较规范，经过简单的处理即可得到相应的知识。而非结构数据比较杂乱、知识通常隐藏在语义中，知识获取比较难。然而，数据量庞大的非结构化数据中往往蕴含丰富的知识，因此，从非结构化数据中获取知识能够极大的丰富整个知识体系，从而更好的服务于下游的各种应用。对于非结构文本的关系和实体抽取，通常的做法为输入文本，一次性的输出文本中的关系和实体，若是句子中只存在一个实体关系三元组，该方法尚且可以，但是如果文本中存在多组关系实体对，则容易产生关系和实体对应错误，这样大大影响了识别效果。现在的互联网数据更新频繁，信息量不断的增加，然而现有技术并没有高效地实时提取互联网上非结构化文本中的知识，提升用户使用体验。

发明内容

为了解决上述技术问题，本发明提供了一种知识图谱自动构建***及方法，采用如下技术方案：

作为本发明的一个方面，本发明提供了一种知识图谱自动构建***，包括数据采集层、模型层以及数据存储层；

所述数据采集层，实时从互联网网站爬取非结构的文本数据，并将爬取到的文本数据逐条传递到消息队列中，分为模型训练队列和线上预测队列；

所述模型层包括预处理部分、模型训练部分和线上预测部分；

预处理部分，对所述消息队列中的文本数据进行预处理；

模型训练部分，根据模型训练队列提供的已标注数据，采用分步抽取方式，先抽取文本中的关系，后抽取文本中的实体，利用深度学习算法，分别进行关系分类模型训练和实体抽取模型训练；

线上预测部分，当读取到线上预测队列中的文本数据后，利用训练好的模型，实时抽取文本中的关系和实体，完成三元组提取；

所述存储层包括概念图谱和实例图谱；

概念图谱，经过业务专家整理并标注好数据，其中包含图谱中涉及的概念和关系；

实例图谱，存储模型层经线上预测部分，将提取出的三元组存储到数据库中。

作为优选，所述深度学习算法采用Bert学习模型。

作为优选，所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。

作为优选，所述实体抽取模型通过tensorflow框架建立Bert实体识别模型。

作为优选，实体抽取时，将包含多个关系的句子复制出与关系数目相同的句子数。

作为本发明的另一个方面，本发明提供了一种知识图谱自动构建方法，采用前述的***，包括如下步骤：

步骤一、概念图谱构建

S11、概念数据导入数据库

将概念数据格式导入到数据库中，构建相关的概念节点；

S12、关系数据导入数据库

将多个概念所对应的关系数据格式，导入到数据库中，构建概念之间的关系；

步骤二、数据采集

S21、利用数据采集***获取最新上传的期刊文献或专利；

S22、将数据采集***抓取到的文本数据逐条传递到消息队列中；

步骤三、数据预处理

将文本数据进行分句、分字、特殊字符处理；

步骤四、模型训练

采用分步抽取，先抽取句子中的关系，再抽取句子中的实体；

S41、关系分类模型训练

根据关系分类训练语料，通过tensorflow框架建立Bert文本多分类模型；

S42：实体抽取模型训练

根据实体抽取训练语料，通过tensorflow框架建立Bert实体识别模型；将包含多个关系的句子复制出与关系数目相同的句子数，在实体抽取时获得与该关系相关的实体；

步骤五、线上预测

采用关系分类模型和实体抽取模型分别进行关系分类和实体识别：

S51、关系分类阶段是将处理后的句子进行关系预测，识别出该句子中所蕴涵的实体之间关系；

S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体，从而完成最终的三元组提取；

步骤六、三元组存储与展示

通过线上模型预测，识别出的关系和实体，然后将三元组数据保存到实例图谱数据库中。

有益效果：本发明提供的知识图谱自动构建***及方法，对于非结构文本的关系和实体抽取，采用分步抽取的方式，先抽取出文本中所存在的所有关系，然后利用预测出的关系信息，分别把识别出的关系作为下一步实体识别的输入，从而加强了关系、实体的对应信息，大大提高了识别准确率；本发明通过搭建数据采集层、模型层、存储层，实现了数据的实时采集、实时处理、实时存储，以至于能够从新出现的非结构文本及时有效获取三元组信息，大大提高信息的利用率，及时掌握关键信息。

附图说明

图1为一种知识图谱自动构建***示意图；

图2为一种知识图谱自动构建方法流程图；

图3为Bert关系分类模型示意图；

图4为关系预测示意图；

图5为实体预测示意图。

具体实施方式

参见图1，本发明实施例提供的知识图谱自动构建***，包括数据采集层、模型层以及数据存储层。

预处理部分，对所述消息队列中的文本数据进行预处理；

所述存储层包括概念图谱和实例图谱；

参见图2，本发明实施例提供了一种知识图谱自动构建方法，包括如下步骤：

步骤一、概念图谱构建

S11、概念数据导入数据库

将概念数据格式导入到数据库中，构建相关的概念节点。

表1“专家”概念所对应概念数据格式

属性名称	数据类型	显示属性	唯一属性	#EOF#
					姓名	文本	是	是
出生日期	日期	否	否
					年龄	数值	否	否
性别	文本	否	否
					所著文献	文本	否	否
所属国家	文本	否	否
					#EOF#

表1以“专家”这一概念的数据格式为例，第1列为专家这个概念下所拥有的属性和关系；第2、3、4列为属性的约束设置。

S12、关系数据导入数据库

参见表2，将多个概念所对应的关系数据格式，导入到数据库中，构建概念之间的关系。

表2概念图谱中关系数据格式

表2中第1列为提取的关系，第3、5列为关系所对应的概念。

步骤二、数据采集

S21、利用数据采集***获取最新上传的期刊文献或专利；

S22、将数据采集***抓取到的文本数据逐条传递到消息队列中，从而保证后续能够实时处理抓取到数据。

步骤三、数据预处理

将文本数据进行分句、分字、特殊字符处理。

步骤四、模型训练

对于关系和实体的抽取，可以有两种方案：End-to-End和分步抽取。End-to-End方法是训练一个模型，该模型同时抽取出句子中的关系和实体，这种方法的缺点是输出的维度比较高，比较难训练。本发明实施例中采用分步抽取，先抽取句子中的关系，再抽取句子中的实体对，这样可以使用不同的模型专一去做不同的事情，降低了训练复杂度。

S41、关系分类模型训练

根据关系分类训练语料，参见表3，通过tensorflow框架建立Bert文本多分类模型。

表3关系分类训练语料

表3中第1列为文本，第2列为文本对应的类别。

由于一句话中可能包含多个类别关系，比如“王强，出生于1982年，发表了《同频干扰分析》”。这句话中可以看出有两个关系：“出生年月”和“作者”，所以这是一个多分类模型。

参见图3，对于图中模型，Tok₁、Tok₂、…、Tok_N为关系预测模型的输入，每一个代表句子中的一个字，经过随机Embedding，获得E₁、E₂、…、E_N向量，此步骤是将句子进行向量化，最终T₁、T₂、…、T_N为模型的输出，根据概率最大的输出，获得关系分类。

S42：实体抽取模型训练

根据实体抽取训练语料，参见表4，通过tensorflow框架建立Bert实体识别模型。

表4实体抽取训练语料

表4中第1列为文本，第2列是对文本中实体进行的标注。

参见图4-图5，针对图中模型，[CLS]、Tok₁、Tok₂、…、Tok_N、[SEP]、Tok₁、Tok₂、…、Tok_M为模型的输入，[CLS]和[SEP]之间的输入相当于text_a，即文本的原始输入，而[SEP]之后的输入为text_b，为图3中关系预测模型预测出的关系，这样就可以在实体预测的观察中加入关系信息，从而获取实体和关系的对应关系。

具体来说，一句话中包含多个关系，与此对应的就是一个句子中包含多个三元组，怎样从一个句子中提取出多个三元组并保证三元组之间关系没有对应错是至关重要的。本发明实施例采取的方法是将包含多个关系的句子复制出和关系数目相同的句子数，比如，一个句子有两个关系，那么相应就得到两个原始的句子。为了保证提取的关系和实体相对应，Bert输入时每个句子增加一个关系输入。比如：“王强，出生于1982年，发表了《同频干扰分析》”，分解成两个句子分别是“王强，出生于1982年，发表了《同频干扰分析》+出生日期”和“王强，出生于1982年，发表了《同频干扰分析》+作者”。这样增加了句子中的关系语义信息，在实体抽取时可以获得与该关系相关的实体。

步骤五、线上预测

S52、实体识别阶段是预测句子中识别出关系所对应的主体和客体两个实体，从而完成最终的三元组提取。

步骤六、三元组存储与展示

以下提供本发明实地部署实施例。

部署客户端，客户端主要是为了对采集的数据进行预处理，并将处理后的数据发送到服务器端。

部署服务器端，服务器端主要是保证能够实时处理客户端传递过来的数据，保证7×24小时处于监听状态，这里使用bert-as-service工程进行服务器端模型的部署。服务器端包含的模型有Bert分类模型和Bert实体识别模型，分别用于进行关系分类和实体识别。

对于科研工作着下载的新论文或专利，通过数据采集***抓取到数据后，首先通过客户端进行预处理，而后由服务器端实时分析出新论文或专利中的知识三元组，将格式化的、简洁的数据呈现给研究工作者，大大提高科研人员研究效率。

本发明提供的知识图谱自动构建***及方法，采用Bert学习模型进行关系分类和实体抽取，有效地从非结构文本中提取知识三元组，从而弥补了目前只基于结构化数据和非结构化数据构建知识图谱的缺陷；通过改进Bert的输入形式，采用分步抽取方式，实体识别过程中通过给句子填充关系信息，从而提高了实体的识别效果，可以从文本中识别多个三元组关系，避免了信息交错而导致实体关系对应错误；实现7×24小时的实时知识图谱构建，能够实时抓取互联网数据，实时提取文本中的三元组，并存储到数据库中，这样能够快速获取最新文本中的最新知识，提高知识时效性，让科研人员第一时间获得文本中蕴涵的知识，从而提高工作效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员在本发明揭露的范围内，可轻易想到的变化或者替换，都应该涵盖在本发明的保护范围内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种知识图谱自动构建***，其特征在于，包括数据采集层、模型层以及数据存储层；

预处理部分，对所述消息队列中的文本数据进行预处理；

所述存储层包括概念图谱和实例图谱；

2.根据权利要求1所述的一种知识图谱自动构建***，其特征在于，所述深度学习算法采用Bert学习模型。

3.根据权利要求2所述的一种知识图谱自动构建***，其特征在于，所述关系分类模型通过tensorflow框架建立Bert文本多分类模型。

4.根据权利要求2所述的一种知识图谱自动构建***，其特征在于，所述实体抽取模型通过tensorflow框架建立Bert实体识别模型。

5.根据权利要求4所述的一种知识图谱自动构建***，其特征在于，实体抽取时，将包含多个关系的句子复制出与关系数目相同的句子数。

6.一种知识图谱自动构建方法，采用如权利要求1-5之一所述的***，其特征在于，包括如下步骤：

步骤一、概念图谱构建

S11、概念数据导入数据库

将概念数据格式导入到数据库中，构建相关的概念节点；

S12、关系数据导入数据库

步骤二、数据采集

S21、利用数据采集***获取最新上传的期刊文献或专利；

步骤三、数据预处理

将文本数据进行分句、分字、特殊字符处理；

步骤四、模型训练

S41、关系分类模型训练

S42：实体抽取模型训练

步骤五、线上预测

步骤六、三元组存储与展示