CN110334220A

CN110334220A - 一种基于多数据源的知识图谱构建方法

Info

Publication number: CN110334220A
Application number: CN201910633517.7A
Authority: CN
Inventors: 曾德贤; 罗武斌
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-15

Abstract

本发明提供一种基于多数据源的知识图谱构建方法，使用爬虫爬取目标在互联网中的文本信息；在文献数据库中下载与目标相关的文献信息，使用自然语言处理文本信息，提取文本信息中包含的实体和关系，提取目标的文献信息中包含的实体和关系，综合文本信息以及文献信息中包含的实体和关系，绘制目标知识图谱；针对现有技术存在的未充分利用多种数据源导致知识图谱构建不完善的问题，将两种具有不同特点的数据进行不同方式的收集和处理，可以使知识图谱的构建更加完善、科学；使用爬虫技术、自然语言处理技术，提高了信息收集、处理的效率；还针对互联网中的文本信息进行预处理，避免的数据的重复爬取，提高了参与构建知识图谱的互联网数据的可靠性。

Description

一种基于多数据源的知识图谱构建方法

技术领域

本发明涉及知识图谱领域，具体而言，涉及一种基于多数据源的知识图谱构建方法。

背景技术

知识图谱这一概念是2012年由GOOGLE提出的，旨在描述真实世界中存在的各种实体或概念及其关系，构成一张巨大的语义网络图。知识图谱中的节点表示实体或概念，边则由属性或关系构成。知识图谱将海量的信息进行的整合、梳理、展示，以清晰地呈现给用户需要的信息关系网络。

现有技术中，构建知识图谱大多采用结构化的期刊数据，其数据格式统一，构建方便。而互联网的无规则的文本数据，应用在知识图谱构建时，需要克服更多的困难。目前已经有一些高校及科研机构在进行知识图谱构建时使用自然语言处理技术处理非结构化数据，例如斯坦福大学开发的Standford NLP工具，NLTK(Natural Language Toolkit)工具等。

仅依靠期刊文献数据或互联网数据进行知识图谱构建已经不能满足知识图谱构建的需求，必须结合多种数据源。各个领域也越来越需要多种数据源的结合，例如常见的生活小妙招，在互联网数据中能够查询到更多的信息，而一些有关军工或涉密的行业，则在期刊文献数据中有更多的记载。无论是何种领域，将多种数据源进行结合，以进一步生成相关领域的知识图谱，都是一种迫切的需要。

然而，现有的研究未充分考虑多数据源的结合，这也是各数据源的特点决定的：期刊文献数据经过相关领域的专家审核，可靠性较高；期刊文献数据属于结构化数据，数据格式非常一致，比较适合作为知识图谱的基础数据，但实时性相较互联网数据而言较低。互联网数据实时性高，但由于很多信息未经过人工审核，甚至有很多信息是恶意造谣的虚假信息，如何甄别其中的有价值信息，应用于知识图谱的构建，还未有相关研究；互联网信息量巨大，人工收集的方式容易漏掉一些有用信息；使用机器收集时，由于大量信息都是从各大论坛、门户网站的相互转载，重复性较高，虽然能够全面收集信息，但却造成了信息冗余，资源的浪费。

综合来看，针对特定目标的知识图谱构建，现有技术存在未充分利用多种数据源，导致构建的知识图谱不够全面，深入，甚至无法构建的问题。

发明内容

为解决上述技术问题，本发明提出一种基于多数据源的知识图谱构建方法。为实现本发明之目的，采用以下技术方案予以实现：

一种基于多数据源的知识图谱构建方法，其特征在于，该方法包括以下步骤：

步骤1，使用爬虫爬取目标在互联网中的文本信息；

步骤3，在文献数据库中下载与所述目标相关的文献信息；

步骤5，使用自然语言处理技术处理所述文本信息，提取所述文本信息中包含的实体和关系；

步骤7，提取目标的所述文献信息中包含的实体和关系；

步骤9，综合所述文本信息以及所述文献信息中包含的实体和关系，绘制目标知识图谱。

优选的，所述使用自然语言处理技术处理所述文本信息具体为：

步骤51，将所述文本信息进行文本拆分；

步骤52，构建词典、语法规则；

步骤53，实体识别，获取目标实体；

步骤54，对实体间的关系进行信息抽取；

步骤55，去重：将步骤53、步骤54得到结果进行筛选，去除重复部分。

优选的，互联网中的文本信息包括新闻信息以及微博信息等。

优选的，所述步骤5具体分为：

步骤511，判断所述文本信息的类型；

步骤521，若是新闻信息，则进一步判断新闻标题是否重复：若重复，则继续爬取目标在互联网中的文本信息，若不重复，则保留该条新闻信息至数据库；

步骤531，使用自然语言处理技术，提取所述数据库中新闻信息的内容包含的实体，以及实体之间的关系。

优选的，所述步骤5具体分为：

步骤512，判断所述文本信息的类型；

步骤522，若是微博信息，则判断发表所述微博信息的用户是否为认证用户，若不是，则继续爬取目标在互联网中的文本信息，若是，则保留该条微博信息至数据库；

步骤532，使用自然语言处理技术，提取所述数据库中微博信息的博文包含的实体，以及实体之间的关系。

优选的，以JSON数据格式存储所述步骤5与步骤7中提取出的所述目标相关的实体和关系。

优选的，在所述步骤7之前，还进行利用CiteSpace科学文献分析软件对所述文献数据进行转码和去重。

本发明的有益效果为：

1、针对两种具有不同特点的数据进行不同方式的收集和处理，并将处理的结果导入绘图工具得到图谱，可以使得知识图谱的构建更加完善、科学；同时解决了互联网信息分散度高难以整合的问题；

2、使用爬虫爬取与目标相关的互联网文本信息，提高了信息收集的效率；针对互联网信息量大的特点，使用自然语言处理技术对互联网文本信息进行处理，大大提高了分析处理的效率；

3、在互联网数据进行实体与关系的提取之前，还针对不同的信息进行预处理：对于标题相同的新闻数据，则不再重复爬取，避免的数据的重复爬取，造成的数据冗余；对于没有经过认证的微博博文数据，不予爬取，提高了参与知识图谱构建的互联网数据的可靠性。

附图说明

图1为本发明实施例所述的一种基于多数据源的知识图谱构建方法的流程图；

图2为本发明针对互联网文本信息处理的流程图；

图3为本发明使用自然语言处理技术处理文本数据的流程图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和显示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。

基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连同。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

以下结合实施例对发明做详细的说明：

如图1-3所示，一种基于多数据源的知识图谱构建方法，其特征在于，该方法包括以下步骤：

步骤1，使用爬虫爬取目标在互联网中的文本信息；

步骤3，在文献数据库中下载与目标相关研究的文献信息；

步骤7，提取目标的所述文献信息中包含的实体和关系；

步骤51，将所述文本信息进行文本拆分；

步骤52，构建词典、语法规则；

步骤53，实体识别，获取目标实体；

步骤54，对实体间的关系进行信息抽取；

优选的，互联网中的文本信息包括新闻信息以及微博信息等；需要说明的是，文本信息不限于新闻信息，微博信息，还可以是其他形式存在的互联网信息，处理方式也依据不同的数据有所差异。

优选的，所述步骤5具体分为：

步骤511，判断所述文本信息的类型；

优选的，所述步骤5具体分为：

步骤512，判断所述文本信息的类型；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多数据源的知识图谱构建方法，其特征在于，该方法包括以下步骤：

步骤1，使用爬虫爬取目标在互联网中的文本信息；

步骤3，在文献数据库中下载与所述目标相关的文献信息；

步骤7，提取所述文献信息中包含的实体和关系；

2.根据权利要求1所述的基于多数据源的知识图谱构建方法，其特征在于，所述使用自然语言处理技术处理所述文本信息具体为：

步骤51，将所述文本信息进行文本拆分；

步骤52，构建词典、语法规则；

步骤53，实体识别，获取目标实体；

步骤54，对实体间的关系进行信息抽取；

3.根据权利要求1所述的基于多数据源的知识图谱构建方法，其特征在于，互联网中的文本信息包括新闻信息以及微博信息。

4.根据权利要求3所述的基于多数据源的知识图谱构建方法，其特征在于，所述步骤5具体分为：

步骤511，判断所述文本信息的类型；

5.根据权利要求3所述的基于多数据源的知识图谱构建方法，其特征在于，所述步骤5具体分为：

步骤512，判断所述文本信息的类型；

6.根据权利要求1所述的基于多数据源的知识图谱构建方法，其特征在于，以JSON数据格式存储所述步骤5与步骤7中提取出的所述目标相关的实体和关系。

7.根据权利要求1所述的基于多数据源的知识图谱构建方法，其特征在于，在所述步骤7之前，还进行利用CiteSpace科学文献分析软件对所述文献数据进行转码和去重。