CN113157930A - 基于多源异构数据的知识图谱构建方法、***以及终端 - Google Patents
基于多源异构数据的知识图谱构建方法、***以及终端 Download PDFInfo
- Publication number
- CN113157930A CN113157930A CN202011612303.0A CN202011612303A CN113157930A CN 113157930 A CN113157930 A CN 113157930A CN 202011612303 A CN202011612303 A CN 202011612303A CN 113157930 A CN113157930 A CN 113157930A
- Authority
- CN
- China
- Prior art keywords
- knowledge graph
- target entities
- relationship
- heterogeneous data
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种基于多源异构数据的知识图谱构建方法、***以及终端,包括:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;基于内外部语义资源,对所述初始知识图谱进行优化处理;在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。本发明不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。
Description
技术领域
本申请涉及一种数据处理技术领域,特别是涉及一种基于多源异构数据的知识图谱构建方法、***以及终端。
背景技术
知识图谱是人工智能领域重要的组成之一,能够支持语义搜索、知识展现、自动问答等自然语言处理相关的多种任务;科技文献,作为科学研究、研发的成果产物,以专利、论文等相对规整的形式记录和保存下来。利用海量科技文献构建的知识图谱,包含有学术、技术领域的大量知识结构,可用于提升语义搜索结果的精准度,制作科技类自动问答机器人,以及为科技型企业技术评价模型提供知识依据。
但是,由于现有技术中构建的知识图谱并不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量。
申请内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种基于多源异构数据的知识图谱构建方法、***以及终端,用于解决现有技术中所构建的知识图谱不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量等问题。
为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建方法,包括:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;基于内外部语义资源,对所述初始知识图谱进行优化处理;在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
于本申请的一实施例中,所述获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群;其中,所述多源异构数据源的类型包括:论文和专利;和/或,所述获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
于本申请的一实施例中,所述根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:根据多源异构数据源的不同类型,分别根据所述多源异构数据源中的目标实体特殊标识信息和/或借助自然语言处理工具来对所述多源异构数据源进行解析的方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。
于本申请的一实施例中,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。
于本申请的一实施例中,所述基于内外部语义资源,对所述初始知识图谱进行优化处理的方式包括:基于内外部语义资源,对所述初始知识图谱进行补充、格式统一以及消岐处理中的一种或多种。
于本申请的一实施例中,所述在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱的方式包括:在获得的各构建单位组群中筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,对经过优化处理的知识图谱中的数据进行筛选,以获得最终的知识图谱。
于本申请的一实施例中,所述目标实体的类型包括:机构、人才、技术关键词、学科、技术领域、以及地址中的一种或多种。
于本申请的一实施例中,各目标实体之间所构成的关系的类型包括:隶属关系、上位关系、下位关系、竞争关系、合作关系、关联关系、研究关系以及位置对应关系中的一种或多种。
为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建***,包括:定义模块,用于定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;抽取模块,连接所述定义模块,用于在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;优化模块,连接所述抽取模块,用于基于内外部语义资源,对所述初始知识图谱进行优化处理;筛选模块,连接所述优化模块,用于在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
为实现上述目的及其他相关目的,本申请提供一种基于多源异构数据的知识图谱构建终端,包括:存储器,用于存储计算机程序;处理器,运行所述计算机程序,以执行所述基于多源异构数据的知识图谱构建方法。
如上所述,本申请的基于多源异构数据的知识图谱构建方法、***以及终端,具有以下有益效果:通过定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系自动化地进行抽取来构建知识图谱,不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。
附图说明
图1显示为本申请一实施例中的基于多源异构数据的知识图谱构建方法的流程示意图。
图2显示为本申请一实施例中的基于多源异构数据的知识图谱构建***的结构示意图。
图3显示为本申请一实施例中的基于多源异构数据的知识图谱构建终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本申请的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本申请的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本申请的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本申请。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本申请提供一种基于多源异构数据的知识图谱构建方法,解决了现有技术中所构建的知识图谱不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量等问题。本发明通过定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系自动化地进行抽取来构建知识图谱,不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。
下面以附图1为参考,针对本申请得实施例进行详细说明,以便本申请所述技术领域的技术人员能够容易地实施。本申请可以以多种不同形态体现,并不限于此处说明的实施例。
如图1所示,展示一实施例中基于多源异构数据的知识图谱构建方法的流程示意图,即经过以下步骤;
步骤S11:定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系。
可选的,通过对多源异构数据源数据的前期研究定义待构建的知识图谱的目标实体以及各目标实体之间的关系,所述目标实体的类型包括:机构、人才、技术关键词、学科、技术领域、以及地址中的一种或多种。需要注意的是,这里提到的目标实体的类型不仅限于以上提到的类型,还包括其他任意类型,在本申请中不作限定。
可选的,各目标实体之间所构成的关系的类型包括但不仅限于:隶属关系、上位关系、下位关系、竞争关系、合作关系、关联关系、研究关系以及位置对应关系中的一种或多种。
举例来说,机构与人才之间的隶属关系,机构与机构之间的合作关系或竞争关系,学科与技术领域之间的上位关系、人才与学科之间的研究关系、关键词与关联词之间的关联关系、机构与地址之间的位置关系等,需根据目标实体的具体情况来设定不同种类的关系类型。
步骤S12:基于定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系,在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱。
在本实施例中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
可选的,所述关系单位组群以<目标实体1,关系,目标实体2>三元组形式展示,将三元组中的“关系”和“目标实体2”视为特殊的属性和属性值,以方便知识图谱的统一存储和统一管理。举例来说,对于多源异构数据源为论文和专利数据时,所述关系单位组群包括但不限于:可以直接或经过简单变化从论文、专利数据种抽取的三元组,例如<人才,隶属于,机构>、<关键词,上位词,学科>、<关键词,上位词,技术领域>、<技术领域1,上位词,技术领域2>、<机构,位于,地址>等;以及需要通过复杂的人工智能技术获取的三元组,例如<关键词1,关联关系,关键词2>、<机构1,竞争合作关系,机构2>、<机构1,竞争合作关系,机构2>等。
可选的,所述目标实体单位组群以<目标实体,统计量,统计结果>三元组形式展示;例如, <机构,统计量,统计结果>三元组和<人才,统计量,统计结果>三元组。
可选的,所述获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。其中,所述多源异构数据源的类型包括:论文或论文。
可选的,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型,分别根据目标实体特殊标识信息和/或借助自然语言处理工具来进行解析两种方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。
在一实施例中,若需要抽取的构建关系单位组群为<人才,隶属于,机构>三元组,则构建方式可以根据目标实体特殊标识信息进行直接抽取:对于专利来说,利用如“公司”、“大学”、“CORP”、“株式会社”等预先制定的机构特征关键词对申请人的类型判别;如果类型为机构的申请人,则抽取发明人和申请人组成<人才,隶属于,机构>三元组。对于论文,则抽取论文中的作者和作者单位分别作为人才和机构,组成<人才,隶属于,机构>三元组。
相似的,利用相同的方式也可以构建关系单位组群为<机构,研究,关键词>三元组和<人才,研究,关键词>三元组。
在一实施例中,若需要抽取的构建关系单位组群为<关键词,上位词,学科>三元组,则构建方式可以根据目标实体特殊标识信息进行直接抽取:对于论文以及专利来说,利用论文以及专利特有的关键词和学科分类信息,抽取<关键词,上位词,学科>三元组;需要注意的是,学科分类信息根据不同的本地化数据源,部分学科分类并非直接包含在数据源中,可通过论文所属期刊的学科分类进行<关键词,上位词,学科>三元组的抽取。
在一实施例中,若需要抽取的构建关系单位组群为<关键词,上位词,技术领域>三元组,则构建方式包括:利用专利特有的关键词和技术领域信息或论文的关键词以及领域信息,抽取<关键词,上位词,技术领域>三元组;和/或借助自然语言处理工具来对专利进和论文进行解析的方式分别抽取关键词以及领域信息的关系,抽取<关键词,上位词,技术领域>三元组。
举例来说,对于在专利数据提取方式主要有两种:
第一种:直接根据专利的关键词及IPC分类来提取。需要注意的是,专利不同的本地化数据源的结构和内容不同,当数据源中不包含关键词时可通过TextRank或Rake等算法提取标题和摘要中的关键词;而专利的IPC分类可以是作为专利的技术领域,从而抽取<关键词,上位词,学科>三元组;
第二种:借助自然语言处理工具(如Stanford Parser)对专利说明书中的“技术领域”进行句法解析结果,结合特征表达找出该专利的技术领域。一般地,“技术领域”为如“本发明涉及信息技术领域,尤其是知识图谱的构建方法和装置”等具有固定模式的一句描述。通过逗号和特征词(如“特别是”)将前后短句隔开,前一短句进行句法分析后取最外层NP(名词短语)作为技术领域关键词,后一短句借助句法分析和特征词(如“涉及”)找出NP。后一短句中抽取的NP与关键词或标题摘要中抽取的关键词计算通过预训练的词向量计算语义相似度,选取语义最相近的一个作为候选关键词。由此获得<候选关键词,上位词,技术领域故拿剑刺>三元组,即<关键词,上位词,技术领域>三元组。
可选的,所述获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
具体的,借助其他专利或论文的信息,扩充知识图谱中机构和人才的统计信息,获得< 机构,统计量,统计结果>三元组和<人才,统计量,统计结果>三元组。其中,所述统计信息包括不限于:专利授权量、PCT国家、人才h指数等。
可选的,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。
可选的,若需挖掘组群为<关键词1,关联关系,关键词2>三元组,当构建关系单位组群为<关键词1,关联关系,关键词2>时,该关系单位组群的构建方式包括:利用Word2vec等词嵌入技术,在所述多源异构数据源中找出与给定技术关键词语义相似度高的候选词;通过句法解析或依存分析获得句子结构,从而通过句子各词(组)节点之间的依存关系抽取出语义上下位关系、语义部件-整体关系等关系;基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。
在一实施例中,当构建关系单位组群为<关键词1,关联关系,关键词2>时,该关系单位组群的构建方式包括:
预训练基于论文和专利标题和摘要文本信息的词组判别模型以及词向量模型,并利用所述词组判别模型提取论文和专利标题和摘要中的词组(如“neural network”应视为一个语义的词组),并利用所述词向量模型判断每个词(组)与论文和专利关键词之间的语义相似度;选取每个词(组)与论文和专利关键词中相似度最大的一对作为候选目标实体。
通过句法解析或依存分析获得句子结构,从而通过句子各词(组)节点之间的依存关系获得所述候补目标实体间的包括语义上下位关系、语义部件-整体关系等关系的初选关系,即获得<关键词1,初选关系,关键词2>。
利用命名目标实体识别(NER)和语义角色标注(SRL)找出论文和专利文本中的目标实体并对中抽取的<关键词1,初选关系,关键词2>进行进一步判定;具体的,结合句法解析结果、特征词、词向量模型和分类器等预测模型(如Support Vector Machine或TextCNN等深度学习分类器)对两个关键词中的关联关系进行进一步地判定。
举例来说,对于“本发明制备所得的传感器对现有机磷农药的检测线性范围为4.0× 10-13~5.0×10-9mol/L,传感器对现有机磷农药的检测限为1.0×10-13mol/L”抽出的<有机磷农药,关联关系,4.0×10-13~5.0×10-9mol/L(属性值)>,可以通过模型判定“关联关系”为“检测线性范围”,即可形成<有机磷农药(目标实体),检测线性范围(属性名称),4.0× 10-13~5.0×10-9mol/L(属性值)>三元组。
步骤S13:基于内外部语义资源,对所述初始知识图谱进行优化处理。
可选的,所述基于内外部语义资源,对所述初始知识图谱进行优化处理的方式包括:基于内外部语义资源,对所述初始知识图谱中进行补充、格式统一以及消岐处理中的一种或多种。
可选的,对所述初始知识图谱进行补充处理的方式包括:借助***或百度百科“Infobox”补充知识图谱的目标实体和关系。具体的,由于Infobox信息框包含对目标实体信息的概括,可以视为<目标实体(即词条),词条属性,词条属性值>三元组的集合。借助***的dump文件和Template以及Infobox模板中的一种或多种获取***的Infobox信息,借助百度百科页面获取百度百科的Infobox信息。最后通过正则表达处理,将<目标实体 (即词条),词条属性,词条属性值>三元组抽出,作为知识图谱的补充内容。
可选的,对所述初始知识图谱进行补充处理的方式还包括:借助专利中的同族专利,以及中文论文的双语版本构建科技文献的中英文双语平行语料库,并将语料库用于生成知识图谱的中英文双语版;具体的对于论文,通常中文论文的标题和摘要部分都存在相应的英文版本,讲其视为中英文平行语料库;对于专利,利用同族专利的特性,将优先权、PCT的专利中的中文专利和英文专利的标题和摘要视为中英文平行语料库。
可选的,对所述初始知识图谱进行格式统一处理的方式包括:利用***“Cross-Lingual Link”补充和完善中英文双语版知识图谱部分目标实体的自动对齐;具体的,先对上述平行语料库进行句对齐(Sentence Alignment),然后再在分词的基础上利用相互信息熵(Mutual Information)获得中英文对译词典,并将该词典用于生成中英文双语知识图谱。
可选的,对所述初始知识图谱进行消岐处理的方式包括:利用***“消歧义页”和正则表达,对知识图谱中能够匹配到的目标实体进行语义消岐。
步骤S14:在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
可选的,所述在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱的方式包括:在获得的各构建单位组群中筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,对经过优化处理的知识图谱中的数据进行筛选,以获得最终的知识图谱。
具体的,对获得的各构建单位组群的进行统计,筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,去掉频率小的数据,以获得最终的知识图谱。优选的,采用的筛选方式包括:利用卡方检验方式进行筛选。
与上述实施例原理相似的是,本申请提供一种基于多源异构数据的知识图谱构建***。
以下结合附图提供具体实施例:
如图2所示展示本申请实施例中的一种基于多源异构数据的知识图谱构建***的结构示意图。
所述***包括:
定义模块21,用于定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;
抽取模块22,连接所述定义模块21,用于在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;
优化模块23,连接所述抽取模块22,用于基于内外部语义资源,对所述初始知识图谱进行优化处理;
筛选模块24,连接所述优化模块23,用于在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
可选的,所述定义模块21用于通过对多源异构数据源数据的前期研究定义待构建的知识图谱的目标实体以及各目标实体之间的关系,所述目标实体的类型包括:机构、人才、技术关键词、学科、技术领域、以及地址中的一种或多种。需要注意的是,这里提到的目标实体的类型不仅限于以上提到的类型,还包括其他任意类型,在本申请中不作限定。
可选的,各目标实体之间所构成的关系的类型包括但不仅限于:隶属关系、上位关系、下位关系、竞争关系、合作关系、关联关系、研究关系以及位置对应关系中的一种或多种。
可选的,所述抽取模块22用于基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型,分别根据目标实体特殊标识信息和/或借助自然语言处理工具来进行解析两种方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。
可选的,可选的,所述抽取模块22用于基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
可选的,当构建关系单位组群为需挖掘组群时,所述抽取模块22基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。
可选的,所述优化模块23用于基于内外部语义资源,对所述初始知识图谱中进行补充、格式统一以及消岐处理中的一种或多种。
可选的,所述筛选模块24用于在获得的各构建单位组群中筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,对经过优化处理的知识图谱中的数据进行筛选,以获得最终的知识图谱。
需说明的是,应理解图2***实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现;此外这些模块全部或部分可以集成在一起,也可以独立实现。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上*** (system-on-a-chip,简称SOC)的形式实现。
因此,由于该基于多源异构数据的知识图谱构建***的实现原理已在前述实施例中进行了叙述,因此此处不作重复赘述。
在一或多个实施例中,所述基于多源异构数据的知识图谱构建***可以应用在不同场景中的不同终端中实现。
如图3所示,展示本申请实施例中的基于多源异构数据的知识图谱构建终端30的结构示意图。
所述终端30包括:存储器31及处理器32所述存储器31用于存储计算机程序;所述处理器32运行计算机程序实现如图1所述的基于多源异构数据的知识图谱构建方法。
可选的,所述存储器31的数量均可以是一或多个,所述处理器32的数量均可以是一或多个,所而图3中均以一个为例。
可选的,所述电子装置30中的处理器32会按照如图1述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器31中,并由处理器32来运行存储在存储器31中的应用程序,从而实现如图1所述基于多源异构数据的知识图谱构建方法中的各种功能。
可选的,所述存储器31,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器31,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路 (Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,所述处理器32可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的基于多源异构数据的知识图谱构建方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
综上所述,本申请基于多源异构数据的知识图谱构建方法、***以及终端,解决了现有技术中所构建的知识图谱不能够满足科技创新领域的知识探索、语义检索增加以及科技型企业技术评价模型的需要,因此大幅度增加后期人工处理知识图谱的工作量等问题。本发明通过定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系自动化地进行抽取来构建知识图谱,不仅大幅度减轻后期人工处理知识图谱的工作量,并抽取可信度较高的目标实体和关系作为知识图谱的基地,还实现了知识图谱的统一存储和统一管理。所以,本申请有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。
Claims (10)
1.一种基于多源异构数据的知识图谱构建方法,其特征在于,所述方法包括:
定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;
在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系的单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;
基于内外部语义资源,对所述初始知识图谱进行优化处理;
在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
2.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,获得所述构建关系单位组群的方式包括:基于定义的目标实体以及各目标实体之间的关系,根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群;其中,所述多源异构数据源的类型包括:论文和专利;
和/或,
获得所述构建目标实体单位组群的方式包括:基于定义的目标实体,扩充各所述目标实体的统计相关数据,获得一或多种包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群。
3.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述根据多源异构数据源的不同类型分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群的方式包括:
根据多源异构数据源的不同类型,分别根据所述多源异构数据源中的目标实体特殊标识信息和/或借助自然语言处理工具来对所述多源异构数据源进行解析的方式分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种由两个目标实体以及两者之间的关系构成的关系单位组群。
4.根据权利要求2所述的基于多源异构数据的知识图谱构建方法,其特征在于,当构建关系单位组群为需挖掘组群时,该关系单位组群的构建方式包括:
基于词嵌入技术,在所述多源异构数据源中找出至少两个候补目标实体;
通过对所述多源异构数据源的各节点之间依存关系进行解析,获得所述候补目标实体间的初选关系;其中,所述节点包括:句子、词以及词组中的一种或多种;
基于预测模型,对获得所述候补目标实体间的初选关系进行判定,以获得所述候补目标实体间的关系。
5.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述基于内外部语义资源,对所述初始知识图谱进行优化处理的方式包括:
基于内外部语义资源,对所述初始知识图谱进行补充、格式统一以及消岐处理中的一种或多种。
6.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱的方式包括:
在获得的各构建单位组群中筛选一或多个在频率阈值范围内出现的构建单位组群作为最优目标实体组群,对经过优化处理的知识图谱中的数据进行筛选,以获得最终的知识图谱。
7.根据权利要求1所述的基于多源异构数据的知识图谱构建方法,其特征在于,所述目标实体的类型包括:机构、人才、技术关键词、学科、技术领域以及地址中的一种或多种。
8.根据权利要求1或7所述的基于多源异构数据的知识图谱构建方法,其特征在于,各目标实体之间所构成的关系的类型包括:隶属关系、上位关系、下位关系、竞争关系、合作关系、关联关系、研究关系以及位置对应关系中的一种或多种。
9.一种基于多源异构数据的知识图谱构建***,其特征在于,包括:
定义模块,用于定义待构建的知识图谱所需的一或多个目标实体以及各目标实体之间的关系;
抽取模块,连接所述定义模块,用于在多源异构数据源中分别抽取各目标实体以及各目标实体之间的关系,并获得一或多种构建单位组群,以构建初始知识图谱;其中,所述构建单位组群包括:包含两个目标实体以及两者之间的关系单位组群和/或包含一目标实体以及其对应的一或多个统计相关数据的目标实体单位组群;
优化模块,连接所述抽取模块,用于基于内外部语义资源,对所述初始知识图谱进行优化处理;
筛选模块,连接所述优化模块,用于在获得的各构建单位组群中筛选一或多个最优目标实体组群,对经过优化处理的知识图谱进行更新,以获得最终的知识图谱。
10.一种基于多源异构数据的知识图谱构建终端,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于运行所述计算机程序,以执行如权利要求1至8中任一项所述的基于多源异构数据的知识图谱构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612303.0A CN113157930A (zh) | 2020-12-30 | 2020-12-30 | 基于多源异构数据的知识图谱构建方法、***以及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011612303.0A CN113157930A (zh) | 2020-12-30 | 2020-12-30 | 基于多源异构数据的知识图谱构建方法、***以及终端 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157930A true CN113157930A (zh) | 2021-07-23 |
Family
ID=76878226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011612303.0A Pending CN113157930A (zh) | 2020-12-30 | 2020-12-30 | 基于多源异构数据的知识图谱构建方法、***以及终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157930A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113382090A (zh) * | 2021-08-15 | 2021-09-10 | 湖南标普信息科技有限公司 | 一种基于异构数据的数据共享方法及*** |
CN114842982A (zh) * | 2022-07-06 | 2022-08-02 | 广东省科技基础条件平台中心 | 一种面向医疗信息***的知识表达方法、装置及*** |
CN115329612A (zh) * | 2022-10-17 | 2022-11-11 | 中国电子科技集团公司信息科学研究院 | 信号处理异构集成微***知识图谱构建方法及仿真方法 |
CN115952770A (zh) * | 2023-03-15 | 2023-04-11 | 广州汇通国信科技有限公司 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
WO2023078104A1 (zh) * | 2021-11-05 | 2023-05-11 | 中兴通讯股份有限公司 | 知识图谱构建方法、平台及计算机存储介质 |
CN116934556A (zh) * | 2023-09-08 | 2023-10-24 | 四川三思德科技有限公司 | 一种基于大数据融合的目标人员精准化管控方法 |
-
2020
- 2020-12-30 CN CN202011612303.0A patent/CN113157930A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113382090A (zh) * | 2021-08-15 | 2021-09-10 | 湖南标普信息科技有限公司 | 一种基于异构数据的数据共享方法及*** |
CN113382090B (zh) * | 2021-08-15 | 2021-10-29 | 湖南标普信息科技有限公司 | 一种基于异构数据的数据共享方法及*** |
WO2023078104A1 (zh) * | 2021-11-05 | 2023-05-11 | 中兴通讯股份有限公司 | 知识图谱构建方法、平台及计算机存储介质 |
CN114842982A (zh) * | 2022-07-06 | 2022-08-02 | 广东省科技基础条件平台中心 | 一种面向医疗信息***的知识表达方法、装置及*** |
CN115329612A (zh) * | 2022-10-17 | 2022-11-11 | 中国电子科技集团公司信息科学研究院 | 信号处理异构集成微***知识图谱构建方法及仿真方法 |
CN115952770A (zh) * | 2023-03-15 | 2023-04-11 | 广州汇通国信科技有限公司 | 一种数据标准化的处理方法、装置、电子设备及存储介质 |
CN116934556A (zh) * | 2023-09-08 | 2023-10-24 | 四川三思德科技有限公司 | 一种基于大数据融合的目标人员精准化管控方法 |
CN116934556B (zh) * | 2023-09-08 | 2023-12-26 | 四川三思德科技有限公司 | 一种基于大数据融合的目标人员精准化管控方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113157930A (zh) | 基于多源异构数据的知识图谱构建方法、***以及终端 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
Colmenares et al. | Heads: Headline generation as sequence prediction using an abstract feature-rich space | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN111552788B (zh) | 基于实体属性关系的数据库检索方法、***与设备 | |
US20230030086A1 (en) | System and method for generating ontologies and retrieving information using the same | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
US20220366135A1 (en) | Extended open information extraction system | |
CN112507089A (zh) | 一种基于知识图谱的智能问答引擎及其实现方法 | |
Kalo et al. | Knowlybert-hybrid query answering over language models and knowledge graphs | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
Adrian et al. | iDocument: using ontologies for extracting and annotating information from unstructured text | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
Lamparter et al. | Knowledge extraction from classification schemas | |
Bhattacharjee et al. | Named entity recognition: A survey for indian languages | |
Maynard et al. | Change management for metadata evolution | |
CN115470358A (zh) | 一种跨语言实体链接方法、***、设备及终端 | |
Rao et al. | An experimental study with fuzzy-wuzzy (partial ratio) for identifying the similarity between English and French languages for plagiarism detection | |
Gamallo et al. | Distributional semantics for diachronic search | |
JP4033089B2 (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
Skvortsov et al. | An Approach to Ontological Modeling and Establishing Intercontext Correlation in the Semistructured Environment | |
Tony et al. | NL2SQL: Rule-Based Model for Natural Language to SQL | |
Hu et al. | Research on Template-Based Factual Automatic Question Answering Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |