CN110334220A - 一种基于多数据源的知识图谱构建方法 - Google Patents

一种基于多数据源的知识图谱构建方法 Download PDF

Info

Publication number
CN110334220A
CN110334220A CN201910633517.7A CN201910633517A CN110334220A CN 110334220 A CN110334220 A CN 110334220A CN 201910633517 A CN201910633517 A CN 201910633517A CN 110334220 A CN110334220 A CN 110334220A
Authority
CN
China
Prior art keywords
information
entity
text information
knowledge mapping
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910633517.7A
Other languages
English (en)
Inventor
曾德贤
罗武斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Original Assignee
Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peoples Liberation Army Strategic Support Force Aerospace Engineering University filed Critical Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority to CN201910633517.7A priority Critical patent/CN110334220A/zh
Publication of CN110334220A publication Critical patent/CN110334220A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于多数据源的知识图谱构建方法,使用爬虫爬取目标在互联网中的文本信息;在文献数据库中下载与目标相关的文献信息,使用自然语言处理文本信息,提取文本信息中包含的实体和关系,提取目标的文献信息中包含的实体和关系,综合文本信息以及文献信息中包含的实体和关系,绘制目标知识图谱;针对现有技术存在的未充分利用多种数据源导致知识图谱构建不完善的问题,将两种具有不同特点的数据进行不同方式的收集和处理,可以使知识图谱的构建更加完善、科学;使用爬虫技术、自然语言处理技术,提高了信息收集、处理的效率;还针对互联网中的文本信息进行预处理,避免的数据的重复爬取,提高了参与构建知识图谱的互联网数据的可靠性。

Description

一种基于多数据源的知识图谱构建方法
技术领域
本发明涉及知识图谱领域,具体而言,涉及一种基于多数据源的知识图谱构建方法。
背景技术
知识图谱这一概念是2012年由GOOGLE提出的,旨在描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图。知识图谱中的节点表示实体或概念,边则由属性或关系构成。知识图谱将海量的信息进行的整合、梳理、展示,以清晰地呈现给用户需要的信息关系网络。
现有技术中,构建知识图谱大多采用结构化的期刊数据,其数据格式统一,构建方便。而互联网的无规则的文本数据,应用在知识图谱构建时,需要克服更多的困难。目前已经有一些高校及科研机构在进行知识图谱构建时使用自然语言处理技术处理非结构化数据,例如斯坦福大学开发的Standford NLP工具,NLTK(Natural Language Toolkit)工具等。
仅依靠期刊文献数据或互联网数据进行知识图谱构建已经不能满足知识图谱构建的需求,必须结合多种数据源。各个领域也越来越需要多种数据源的结合,例如常见的生活小妙招,在互联网数据中能够查询到更多的信息,而一些有关军工或涉密的行业,则在期刊文献数据中有更多的记载。无论是何种领域,将多种数据源进行结合,以进一步生成相关领域的知识图谱,都是一种迫切的需要。
然而,现有的研究未充分考虑多数据源的结合,这也是各数据源的特点决定的:期刊文献数据经过相关领域的专家审核,可靠性较高;期刊文献数据属于结构化数据,数据格式非常一致,比较适合作为知识图谱的基础数据,但实时性相较互联网数据而言较低。互联网数据实时性高,但由于很多信息未经过人工审核,甚至有很多信息是恶意造谣的虚假信息,如何甄别其中的有价值信息,应用于知识图谱的构建,还未有相关研究;互联网信息量巨大,人工收集的方式容易漏掉一些有用信息;使用机器收集时,由于大量信息都是从各大论坛、门户网站的相互转载,重复性较高,虽然能够全面收集信息,但却造成了信息冗余,资源的浪费。
综合来看,针对特定目标的知识图谱构建,现有技术存在未充分利用多种数据源,导致构建的知识图谱不够全面,深入,甚至无法构建的问题。
发明内容
为解决上述技术问题,本发明提出一种基于多数据源的知识图谱构建方法。为实现本发明之目的,采用以下技术方案予以实现:
一种基于多数据源的知识图谱构建方法,其特征在于,该方法包括以下步骤:
步骤1,使用爬虫爬取目标在互联网中的文本信息;
步骤3,在文献数据库中下载与所述目标相关的文献信息;
步骤5,使用自然语言处理技术处理所述文本信息,提取所述文本信息中包含的实体和关系;
步骤7,提取目标的所述文献信息中包含的实体和关系;
步骤9,综合所述文本信息以及所述文献信息中包含的实体和关系,绘制目标知识图谱。
优选的,所述使用自然语言处理技术处理所述文本信息具体为:
步骤51,将所述文本信息进行文本拆分;
步骤52,构建词典、语法规则;
步骤53,实体识别,获取目标实体;
步骤54,对实体间的关系进行信息抽取;
步骤55,去重:将步骤53、步骤54得到结果进行筛选,去除重复部分。
优选的,互联网中的文本信息包括新闻信息以及微博信息等。
优选的,所述步骤5具体分为:
步骤511,判断所述文本信息的类型;
步骤521,若是新闻信息,则进一步判断新闻标题是否重复:若重复,则继续爬取目标在互联网中的文本信息,若不重复,则保留该条新闻信息至数据库;
步骤531,使用自然语言处理技术,提取所述数据库中新闻信息的内容包含的实体,以及实体之间的关系。
优选的,所述步骤5具体分为:
步骤512,判断所述文本信息的类型;
步骤522,若是微博信息,则判断发表所述微博信息的用户是否为认证用户,若不是,则继续爬取目标在互联网中的文本信息,若是,则保留该条微博信息至数据库;
步骤532,使用自然语言处理技术,提取所述数据库中微博信息的博文包含的实体,以及实体之间的关系。
优选的,以JSON数据格式存储所述步骤5与步骤7中提取出的所述目标相关的实体和关系。
优选的,在所述步骤7之前,还进行利用CiteSpace科学文献分析软件对所述文献数据进行转码和去重。
本发明的有益效果为:
1、针对两种具有不同特点的数据进行不同方式的收集和处理,并将处理的结果导入绘图工具得到图谱,可以使得知识图谱的构建更加完善、科学;同时解决了互联网信息分散度高难以整合的问题;
2、使用爬虫爬取与目标相关的互联网文本信息,提高了信息收集的效率;针对互联网信息量大的特点,使用自然语言处理技术对互联网文本信息进行处理,大大提高了分析处理的效率;
3、在互联网数据进行实体与关系的提取之前,还针对不同的信息进行预处理:对于标题相同的新闻数据,则不再重复爬取,避免的数据的重复爬取,造成的数据冗余;对于没有经过认证的微博博文数据,不予爬取,提高了参与知识图谱构建的互联网数据的可靠性。
附图说明
图1为本发明实施例所述的一种基于多数据源的知识图谱构建方法的流程图;
图2为本发明针对互联网文本信息处理的流程图;
图3为本发明使用自然语言处理技术处理文本数据的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和显示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。
基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连同。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以下结合实施例对发明做详细的说明:
如图1-3所示,一种基于多数据源的知识图谱构建方法,其特征在于,该方法包括以下步骤:
步骤1,使用爬虫爬取目标在互联网中的文本信息;
步骤3,在文献数据库中下载与目标相关研究的文献信息;
步骤5,使用自然语言处理技术处理所述文本信息,提取所述文本信息中包含的实体和关系;
步骤7,提取目标的所述文献信息中包含的实体和关系;
步骤9,综合所述文本信息以及所述文献信息中包含的实体和关系,绘制目标知识图谱。
优选的,所述使用自然语言处理技术处理所述文本信息具体为:
步骤51,将所述文本信息进行文本拆分;
步骤52,构建词典、语法规则;
步骤53,实体识别,获取目标实体;
步骤54,对实体间的关系进行信息抽取;
步骤55,去重:将步骤53、步骤54得到结果进行筛选,去除重复部分。
优选的,互联网中的文本信息包括新闻信息以及微博信息等;需要说明的是,文本信息不限于新闻信息,微博信息,还可以是其他形式存在的互联网信息,处理方式也依据不同的数据有所差异。
优选的,所述步骤5具体分为:
步骤511,判断所述文本信息的类型;
步骤521,若是新闻信息,则进一步判断新闻标题是否重复:若重复,则继续爬取目标在互联网中的文本信息,若不重复,则保留该条新闻信息至数据库;
步骤531,使用自然语言处理技术,提取所述数据库中新闻信息的内容包含的实体,以及实体之间的关系。
优选的,所述步骤5具体分为:
步骤512,判断所述文本信息的类型;
步骤522,若是微博信息,则判断发表所述微博信息的用户是否为认证用户,若不是,则继续爬取目标在互联网中的文本信息,若是,则保留该条微博信息至数据库;
步骤532,使用自然语言处理技术,提取所述数据库中微博信息的博文包含的实体,以及实体之间的关系。
优选的,以JSON数据格式存储所述步骤5与步骤7中提取出的所述目标相关的实体和关系。
优选的,在所述步骤7之前,还进行利用CiteSpace科学文献分析软件对所述文献数据进行转码和去重。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于多数据源的知识图谱构建方法,其特征在于,该方法包括以下步骤:
步骤1,使用爬虫爬取目标在互联网中的文本信息;
步骤3,在文献数据库中下载与所述目标相关的文献信息;
步骤5,使用自然语言处理技术处理所述文本信息,提取所述文本信息中包含的实体和关系;
步骤7,提取所述文献信息中包含的实体和关系;
步骤9,综合所述文本信息以及所述文献信息中包含的实体和关系,绘制目标知识图谱。
2.根据权利要求1所述的基于多数据源的知识图谱构建方法,其特征在于,所述使用自然语言处理技术处理所述文本信息具体为:
步骤51,将所述文本信息进行文本拆分;
步骤52,构建词典、语法规则;
步骤53,实体识别,获取目标实体;
步骤54,对实体间的关系进行信息抽取;
步骤55,去重:将步骤53、步骤54得到结果进行筛选,去除重复部分。
3.根据权利要求1所述的基于多数据源的知识图谱构建方法,其特征在于,互联网中的文本信息包括新闻信息以及微博信息。
4.根据权利要求3所述的基于多数据源的知识图谱构建方法,其特征在于,所述步骤5具体分为:
步骤511,判断所述文本信息的类型;
步骤521,若是新闻信息,则进一步判断新闻标题是否重复:若重复,则继续爬取目标在互联网中的文本信息,若不重复,则保留该条新闻信息至数据库;
步骤531,使用自然语言处理技术,提取所述数据库中新闻信息的内容包含的实体,以及实体之间的关系。
5.根据权利要求3所述的基于多数据源的知识图谱构建方法,其特征在于,所述步骤5具体分为:
步骤512,判断所述文本信息的类型;
步骤522,若是微博信息,则判断发表所述微博信息的用户是否为认证用户,若不是,则继续爬取目标在互联网中的文本信息,若是,则保留该条微博信息至数据库;
步骤532,使用自然语言处理技术,提取所述数据库中微博信息的博文包含的实体,以及实体之间的关系。
6.根据权利要求1所述的基于多数据源的知识图谱构建方法,其特征在于,以JSON数据格式存储所述步骤5与步骤7中提取出的所述目标相关的实体和关系。
7.根据权利要求1所述的基于多数据源的知识图谱构建方法,其特征在于,在所述步骤7之前,还进行利用CiteSpace科学文献分析软件对所述文献数据进行转码和去重。
CN201910633517.7A 2019-07-15 2019-07-15 一种基于多数据源的知识图谱构建方法 Pending CN110334220A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910633517.7A CN110334220A (zh) 2019-07-15 2019-07-15 一种基于多数据源的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910633517.7A CN110334220A (zh) 2019-07-15 2019-07-15 一种基于多数据源的知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN110334220A true CN110334220A (zh) 2019-10-15

Family

ID=68145032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910633517.7A Pending CN110334220A (zh) 2019-07-15 2019-07-15 一种基于多数据源的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN110334220A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN112182244A (zh) * 2020-09-28 2021-01-05 时趣互动(北京)科技有限公司 品牌知识图谱构建方法、装置及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783973A (zh) * 2016-08-24 2018-03-09 慧科讯业有限公司 基于行业知识图谱数据库对互联网媒体事件进行监测的方法、装置和***
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
CN106777331A (zh) * 2017-01-11 2017-05-31 北京航空航天大学 知识图谱生成方法及装置
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112015792A (zh) * 2019-12-11 2020-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN112015792B (zh) * 2019-12-11 2023-12-01 天津泰凡科技有限公司 一种物料重码分析方法、装置及计算机存储介质
CN111797296A (zh) * 2020-07-08 2020-10-20 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN111797296B (zh) * 2020-07-08 2024-04-09 中国人民解放军军事科学院军事医学研究院 基于网络爬取的毒物-靶标文献知识挖掘方法及***
CN112182244A (zh) * 2020-09-28 2021-01-05 时趣互动(北京)科技有限公司 品牌知识图谱构建方法、装置及终端

Similar Documents

Publication Publication Date Title
CN110334220A (zh) 一种基于多数据源的知识图谱构建方法
CN104462501A (zh) 基于结构化数据的知识图谱构建方法和装置
Wang et al. Knowledge representation in the internet of things: semantic modelling and its applications
CN103631882B (zh) 基于图挖掘技术的语义化业务生成***和方法
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
EP3671526A1 (en) Dependency graph based natural language processing
CN110347844A (zh) 一种太空目标知识图谱构建***
Semenov et al. A generic architecture for a social network monitoring and analysis system
CN106776744A (zh) 一种基于互联网信息的软件开发方法及***
US10838999B2 (en) Method and platform for the elevation of source data into interconnected semantic data
US10216787B2 (en) Method, apparatus, and computer-readable medium for contextual data mining using a relational data set
JP2008152739A (ja) 文献情報からの研究分野間知識管理装置、方法、プログラム及び記録媒体
JP2013045182A (ja) 情報検索装置及び方法及びプログラム
CN108614821B (zh) 地质资料互联互查***
CN109542953A (zh) 基于presto的数据处理方法及装置
Goldfarb et al. Enhancing the Discoverability and Interoperability of Multi-Disciplinary Semantic Repositories.
Albers et al. The world is complex therefore our research is needed-using data mining for literature reviews
Elsayed et al. Applying data mining for ontology building
CN112732845A (zh) 一种基于端到端的大型知识图谱构建和存储方法和***
CN109522466B (zh) 一种分布式爬虫***
Sidana et al. Review of web usage of data mining in web mining.
Ramos et al. Bibliometric analysis of the evolutionary process of the internet of things
JP2009032180A (ja) テキストマイニング装置及びテキストマイニング方法
KR20040086913A (ko) 특허 정보의 텍스트 마이닝(Text Mining)에의한 기술 공백의 발견 방법과 그 시스템
Ma Geoinformatics in the semantic web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication