CN114691880A - 知识图谱构建方法、装置及电子设备 - Google Patents

知识图谱构建方法、装置及电子设备 Download PDF

Info

Publication number
CN114691880A
CN114691880A CN202210181543.2A CN202210181543A CN114691880A CN 114691880 A CN114691880 A CN 114691880A CN 202210181543 A CN202210181543 A CN 202210181543A CN 114691880 A CN114691880 A CN 114691880A
Authority
CN
China
Prior art keywords
entity
maintenance
labeling
label
power operation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210181543.2A
Other languages
English (en)
Inventor
刘芳
孙林檀
吕静贤
陈勇达
李子乾
崔晟豪
朱青
张烁
刘一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Co ltd Customer Service Center
Advanced Institute of Information Technology AIIT of Peking University
Original Assignee
State Grid Co ltd Customer Service Center
Advanced Institute of Information Technology AIIT of Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Co ltd Customer Service Center, Advanced Institute of Information Technology AIIT of Peking University filed Critical State Grid Co ltd Customer Service Center
Priority to CN202210181543.2A priority Critical patent/CN114691880A/zh
Publication of CN114691880A publication Critical patent/CN114691880A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种知识图谱构建方法、装置及电子设备。其中,该方法包括:获取电力运维的多源异构数据集,所述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对所述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个所述三元组中包括两个实体和所述两个实体之间的关系;采用所述序列标注模型对所述三元组中标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;基于所述实体表和实体关系表构建电力运维的知识图谱。本申请解决了相关技术中电力运维知识领域的知识图谱构建准确率较低的技术问题。

Description

知识图谱构建方法、装置及电子设备
技术领域
本申请涉及电力运维技术领域,具体而言,涉及一种知识图谱构建方法、装置及电子设备。
背景技术
知识图谱是指以图的形式描述客观世界中的概念、实体、事件及其之间关系的知识库。随着人工智能技术的不断发展,知识图谱逐渐成为语义搜索、问答***、推荐***等领域的研究热点。
在电力运维技术领域,相关技术中通过共享参数的方法将两个任务整合到同一个模型当中,但是实体抽取与关系识别任务仍然是两个分离的过程,这将造成产生大量的冗余信息。另外,基于深度学习的知识抽取方法大多都依赖海量的数据标注,构建完备的知识图谱的过程往往需要更多的训练时间和更大规模的训练集。但在实际应用中,数据通常是长尾的,数据的标注成本制约着模型的效果,传统的基于深度学习的自动化知识抽取方法无法解决领域知识标注数据不足的情况,且准确率较低,无法利用少样本数据来解决低资源场景中的电力运维领域知识要素提取问题。
发明内容
本申请实施例提供了一种知识图谱构建方法、装置及电子设备,以至少解决相关技术中电力运维知识领域的知识图谱构建准确率较低的技术问题。
根据本申请实施例的一个方面,提供了一种知识图谱构建方法,包括:获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;采用上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;基于上述实体表和实体关系表构建电力运维的知识图谱。
根据本申请实施例的另一方面,还提供了一种知识图谱构建装置,包括:获取单元,获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;第一确定单元,用于基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;第一标注单元,用于采上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;构建单元,用于基于上述实体表和实体关系表构建电力运维的知识图谱。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述的知识图谱构建方法。
根据本申请实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的知识图谱构建方法。
在本申请实施例中,通过获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;采用上述序列标注模型对上述三元组中进行标注,得到电力运维的实体表和实体关系表;基于上述实体表和实体关系表构建电力运维的知识图谱。由于采用基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,能从多源异构知识数据中抽取实体、属性、关系等知识信息,不仅可以实现少样本电力运维领域知识图谱的自动构建,而且可以利用少样本数据来解决低资源场景中的知识要素提取,提高电力运维知识领域的知识图谱构建的效率,解决了相关技术中电力运维知识领域的知识图谱构建准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本发明实施例的一种可选的知识图谱构建方法的应用环境的示意图;
图2是根据本发明实施例的另一种可选的知识图谱构建方法的应用环境的示意图;
图3是根据本发明实施例的一种可选的知识图谱构建方法的流程示意图;
图4是根据本发明实施例的另一种可选的知识图谱构建方法的流程示意图;
图5是根据本发明实施例的又一种可选的知识图谱构建方法的流程示意图;
图6是根据本发明实施例的一种FLAT模型的输入及位置编码示意图;
图7是根据本发明实施例的一种Transformer模型通过自注意力关注到上下文所有字符的示意图;
图8是根据本发明实施例的一种可选的知识图谱构建装置的结构示意图;
图9是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种知识图谱构建上述方法,可选地,作为一种可选的实施方式,上述知识图谱构建上述方法可以但不限于应用于如图1所示的硬件环境中。该硬件环境中包括:与用户进行人机交互的终端设备102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互,终端设备102中运行有知识图谱构建应用客户端。上述终端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于呈现实体表和实体关系表的界面;处理器1024用于获取电力运维的多源异构数据集。存储器1026用于存储获取电力运维的多源异构数据集,以及实体表和实体关系表。
此外,服务器106中包括数据库1062及处理引擎1064,数据库1062中用于存储实体三元组,及用于存储实体表和实体关系表。处理引擎1064用于:获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;采用上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;基于上述实体表和实体关系表构建电力运维的知识图谱。
作为另一种可选的实施方式,本申请上述知识图谱构建上述方法可以应用于图2中。如图2所示,用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作,基于上述实体表和实体关系表构建电力运维的知识图谱。
可选地,上述终端设备102和用户设备204可以但不限于为手机、平板电脑、笔记本电脑、PC机等终端,上述网络104可以包括但不限于无线网络或有线网络。其中,该无线网络包括:WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在一个或多个实施例中,如图3所示,上述知识图谱构建方法包括:
S302,获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据。
在本发明实施例中,多源异构数据集包含多种数据类型的电力运维数据,包括但不限于结构化数据、半结构化数据以及非结构化数据;结构化数据为从已有的数据库中获取到的数据;半结构化数据为文本图片或图表类型的数据;非结构化数据为如纯文本,网页或图谱等数据。
S304,基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组。
这里,每个上述三元组中包括两个实体和上述两个实体之间的关系,实体的属性值也属于实体范畴,因此上述三元组也包括实体-属性-属性值实体的组合;例如,{张三是公司的经理},张三和公司均为实体,经理为上述两个实体之间的关系,又如{张三的年龄是25岁},张三为实体,年龄为张三的属性,属性值为25岁。
在本发明实施例中,训练好的文本序列的标签标注模型为FLAT(Flat-Lattice-Transformer)模型,该模型基于Transformer结构进行了改进,对于每一个字符和词汇都构建两个head position encoding和tail position encoding,这种方式可以重构原有的Lattice结构。例如,多源异构数据集中包含文本序列“A公司的创始人为张三”;这里可以构建(A公司,创始人,张三)的三元组;“A公司”和“张三”为实体,“创始人”为上述两个实体的关系。
S306,采用上述序列标注模型对上述三元组标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值。
这里,基于序列标注模型对三元组所属的文本序列进行标注标签,可以采用BIEOS的方式进行标注,B代表起始字符,I代表中间字符,E代表结束字符,S代表具有独立含义的字符,O代表没有实际意义的字符,例如文本序列,“A公司的创始人为张三,已证实”;该文本序列对应的标注标签为{BIIIE,OS}。
此外,对应采用序列标准模型得到标注标签,包括但不限于通过判断其置信度的方法将置信度低于阈值的标注标签进行调整,将标注调整为大于或等于阈值,也就是说将标注标签与实际差别较大的标签进行调整,使其接近或等于实际值。
S308,基于上述实体表和实体关系表构建电力运维的知识图谱。
在本申请实施例中,通过获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系或实体-属性-属性值的三元组;采用上述序列标注模型对上述三元组中进行标注,得到电力运维的实体表和实体关系表;基于上述实体表和实体关系表构建电力运维的知识图谱。由于采用基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,能从多源异构知识数据中抽取实体、属性、关系等知识信息,不仅可以实现少样本电力运维领域知识图谱的自动构建,而且可以利用少样本数据来解决低资源场景中的知识要素提取,提高电力运维知识领域的知识图谱构建的效率,解决了相关技术中无法利用少样本数据来解决低资源场景中的知识要素提取的技术问题。能不断更新扩充知识图谱结构,有效实现知识图谱的自动构建扩充。
在一个或多个实施例中,根据预设规则进行调整,得到电力运维的实体表和实体关系表包括:
对置信度低于预设阈值的所有参考标签进行逐步调整,直至调整后的每个参考标签的置信度大于或等于所述预设阈值;
基于置信度大于或等于预设阈值的标签,确定电力运维的实体表和实体关系表。
在一个或多个实施例中,上述采用上述序列标注模型对上述三元组中进行标注,包括:
通过上述标签标注模型依次遍历每个三元组中的每个词组,分别执行以下操作:
当确定出上述词组指示为实体的情况下,为上述词组标注位置标签,其中,上述位置标签的类型包括:起始标签、中部标签和结尾标签;
当确定出上述词组只有一个字符的情况下,为上述词组标注第一分类标签;在BIOES标注方式中,第一分类标签包括S-Label。
当确定出上述词组没有标注标签或者不属于实体的情况下,为上述词组标注第二分类标签,上述第二分类标签用于指示上述词组为无关文本信息。在BIOES标注方式中,第二分类标签包括O-Label。
在本发明实施例中,可以对多源异构数据集以BIOES标注方式对文本进行标注,根据分词结果将其分为多种电力标签,采用BIOES的标注方式对文本中这些实体类别进行标记:设某个词对应的标签为Label,则位于该词语最开始的字符标记为B-Label,位于该词语中间的字符标记为I-Label,位于该词语末尾的字符标记为E-Label,若该词语只有一个字符则标记为S-Label,若该词语没有带标签或者不属于实体标签则标记为O-Label,最后将文本语料库分为测试集和训练集。
在一个或多个实施例中,上述采用上述序列标注模型对上述三元组中进行标注,还包括以下至少之一:
采用上述序列标注模型对上述三元组中的两个实体标注关系类型标签;采用上述序列标注模型对上述三元组中两个实体分别标注关系角色标签。
这里,例如,关系角色标签可以用1和2来表示,(A公司,创始人,张三)的三元组;添加关系类型标签和关系角色标签为(1,创建,2)
在一个或多个实施例中,上述知识图谱构建方法还包括:
基于主动学习的方式模型从未标注样本集中获取电力运维的扩充目标训练样本;
在所述目标扩充训练样本未标注标签的情况下,对所述扩充目标训练样本进行实体标签的标注和关系标签的标注;
将标注有实体标签和关系标签的所述目标扩充训练样本加入更新所述标签标注模型。
在本发明实施例中的主动学习模型为通过预设算法从电力运维数据集中查询具有价值的未标记样本,并交由专家进行标记,扩充至标签标注模型的样本集中,以来提高模型的精确度。具体地,可以通过查询函数从未标注样本池获取未标注标签的测试数据,通过初始化的主动学习模型对这些测试数据进行预测,预测结果中置信度低的样本说明模型标注标签具有不确定性,这部分样本可以看作是有用的样本,通过专家库进行标注,进一步扩充到标记样本集中,来提高模型的精确度,能够利用少样本数据来解决低资源场景中的电力运维领域知识要素提取。在一个或多个实施例中,上述序列标注模型包括:基于FLAT模型的实体识别和关系抽取的联合模型,该模型为FLAT(Flat-Lattice-Transformer)模型,该模型基于Transformer结构进行了改进,对于每一个字符和词汇都构建两个head positionencoding和tail position encoding,这种方式可以重构原有的Lattice结构。
在一个或多个实施例中,上述多源异构数据集包括以下至少之一:结构化数据、半结构化数据以及非结构化数据。
基于上述实施例,如图4和图5所示,上述知识图谱的构建方法还包括如下步骤:
1.获取多源异构数据:从结构化数据、表格等半结构化以及文本、网页、图谱等非结构化领域知识数据等多源异构数据中获取有效知识数据,由领域专家根据电力运维领域知识数据的特点构建电力运维本体表和本体关系表,并对少样本数据集进行标注并训练。
2.基于知识抽取模型添加标签:本发明实施例可以采用基于FLAT的实体关系联合抽取模型,将实体识别和关系抽取任务统一看作序列标注任务。需要抽取的三元组表示为:1)(Entity1,RelationType,Entity2),其中,Entity1和Entity2需要抽取的文中的实体,RelationType为预定义的Entity1和Entity2之间的关系;2)(Entity,Attribute,Vaule)其中,Entity为需要抽取的文中的实体,Attribute为该实体对应的属性,Vaule为该实体对应属性的属性值。非抽取对象用标签″O″标注,表示″Other″;实体对象的标签由三部分组成:单词位置、关系类型、关系角色;单词位置使用″BIES″的方式来标注,表示单词在实体中的位置信息。关系类型直接从预定义的关系集合中获得。关系角色直接用″1″和″2″表示,用于表示实体在三元组中的位置。
FLAT(Flat-Lattice-Transformer)基于Transformer结构进行了改进,对于每一个字符和词汇都构建两个head position encoding和tail position encoding,这种方式可以重构原有的Lattice结构。
如图6和图7所示,在lattice中的spans Xi和spans Xj(包括字符和潜在的词)的相对关系有三种:相交intersection、包含inclusion、互斥separation。使用稠密向量来表达,使用head[i]和tail[i]表示span Xi的开始位置和结束位置,因此对于任意两个span的位置关系就可以表示为如下公式:
d(hh)=head[i]-head[j]
d(ht)=head[i]-tail[j]
d(th)=tail[i]-head[j]
d(tt)=tail[i]-tail[j]
span的最终相对位置编码是四个距离的简单非线性变换,公式如下:
Figure BDA0003521287270000111
Wr是可训练参数,
Figure BDA0003521287270000112
是连接运算符(concatenation),其中Pd如下定义:
Figure BDA0003521287270000113
Figure BDA0003521287270000114
其中,d是
Figure BDA0003521287270000115
是k表示位置编码的维度索引。
最后,FLAT模型通过一种自注意力的变体来利用相对跨度位置编码:
Figure BDA0003521287270000116
其中,
Figure BDA0003521287270000117
是可训练参数。
3.主动学习策略:
由于领域知识数据样本较少,而深度学习技术需要大量的样本数据提升性能,因此采用主动学习策略解决因样本不足影响模型性能的问题。
主动学习(Active Learning,AL)是指通过学习策略主动找到最有价值的训练样本加入训练集,如果该样本是未标记的,则会自动要求专家进行标注,然后再用于模型训练。本方案采用最低置信度的主动采样策略对未标注数据进行采样。
4质检标注:
通过上一步骤中的主动学习策略对置信度较低的数据进行采样,由领域专家进行标注,并将标注后的数据和置信度高的数据加入到训练数据中,对信息抽取模型进行迭代更新。不断重复以上步骤2-步骤4。
5.领域知识表构建:采用自顶向下和自底向上两种图谱构建方式相结合的方法进行电力运维领域知识图谱的构建。先由领域专家进行本体表和本体关系的构建,通过构建本体表确定本体的类别及各个本体的相关属性,通过构建本体关系确定本体与本体之间的关联关系,从而搭建出知识图谱的基本框架。针对本体表和关系表中没有的本体、属性、关系根据标注结果进行扩充,更新迭代本体表和关系表结构,自底向上和自顶向下相结合扩充构建知识图谱。
6.知识动态更新:
采用基于FLAT的联合抽取模型从多源异构知识数据中抽取实体、属性、关系等知识信息,通过基于主动采样策略不断更新迭代抽取模型的效果和领域知识数据,并由领域专家不断总结和更新本体表和本体关系,实现知识和图谱结构的动态更新和自动构建。
7.领域知识图谱自动生成:
通过知识抽取和模型的迭代更新不断丰富和扩充知识数据,并对知识进行提取、关联、整合,从而对多源异构数据的知识抽取和领域知识图谱的自动构建。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
根据本申请实施例的另一个方面,还提供了一种用于实施上述知识图谱构建方法的知识图谱构建装置。如图8所示,该装置包括:
获取单元802,获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;
第一确定单元804,用于基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;
第一标注单元806,用于采用上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;
构建单元808,用于基于上述实体表和实体关系表构建电力运维的知识图谱。
在本申请实施例中,通过获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;采用上述序列标注模型对上述三元组中标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;基于上述实体表和实体关系表构建电力运维的知识图谱。由于采用基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,能从多源异构知识数据中抽取实体、属性、关系等知识信息,不仅可以实现少样本电力运维领域知识图谱的自动构建,而且可以利用少样本数据来解决低资源场景中的知识要素提取,提高电力运维知识领域的知识图谱构建的效率,解决了相关技术中无法利用少样本数据来解决低资源场景中的知识要素提取的技术问题。
在一个或多个实施例中,上述第一标注单元,具体包括:
调整模块,用于对置信度低于预设阈值的所有参考标签进行逐步调整,直至调整后的每个参考标签的置信度大于或等于所述预设阈值;
确定模块,用于基于置信度大于或等于预设阈值的标签,确定电力运维的实体表和实体关系表。
在一个或多个实施例中,上述第一标注单元,具体包括:
通过上述标签标注模型依次遍历每个三元组中的每个词组,分别执行以下操作:
第一标注模块,用于当确定出上述词组指示为实体的情况下,为上述词组标注位置标签,其中,上述位置标签的类型包括:起始标签、中部标签和结尾标签;
第二标注模块,用于当确定出上述词组只有一个字符的情况下,为上述词组标注第一分类标签;
第三标注模块,用于当确定出上述词组没有标注标签或者不属于实体的情况下,为上述词组标注第二分类标签,上述第二分类标签用于指示上述词组为无关文本信息。
在一个或多个实施例中,上述第一标注单元,还包括以下至少之一:
第三标注模块,用于采用上述序列标注模型对上述三元组中的两个实体标注关系类型标签;
第五标注模块,用于采用上述序列标注模型对上述三元组中两个实体分别标注关系角色标签。
在一个或多个实施例中,上述知识图谱构建装置还包括:
主动获取单元,用于基于主动学习模型从未标注样本集中获取电力运维的扩充训练样本;
第二标注单元,用于在上述扩充训练样本未标注标签的情况下,对所述扩充训练样本进行实体标签的标注和关系标签的标注;
第二更新单元,用于将标注有实体标签和关系标签的上述扩充训练样本加入述标签标注模型。
在一个或多个实施例中,上述序列标注模型包括:基于FLAT模型的实体识别和关系抽取的联合模型。
在一个或多个实施例中,上述多源异构数据集包括以下至少之一:结构化数据、半结构化数据以及非结构化数据。
根据本申请实施例的又一个方面,还提供了一种用于实施上述知识图谱构建方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图9所示,该电子设备包括存储器902和处理器904,该存储器902中存储有计算机程序,该处理器904被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;
S2,基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;
S3,采用上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;
S4,基于上述实体表和实体关系表构建电力运维的知识图谱。
可选地,本领域普通技术人员可以理解,图9所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图9中所示更多或者更少的组件(如网络接口等),或者具有与图9所示不同的配置。
其中,存储器902可用于存储软件程序以及模块,如本申请实施例中的知识图谱构建方法和装置对应的程序指令/模块,处理器904通过运行存储在存储器902内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的知识图谱构建方法。存储器902可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器902可进一步包括相对于处理器904远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器902具体可以但不限于用于存储实体表和实体关系表等信息。作为一种示例,如图9所示,上述存储器902中可以但不限于包括上述知识图谱构建装置中的获取单元802、第一确定单元804、第一标注单元806及构建单元808。此外,还可以包括但不限于上述知识图谱构建装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置906包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置906为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器908,用于显示上述实体表和实体关系表;和连接总线910,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式***中的一个节点,其中,该分布式***可以为区块链***,该区块链***可以是由该多个节点通过网络通信的形式连接形成的分布式***。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链***中的一个节点。
在一个或多个实施例中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述知识图谱构建方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取电力运维的多源异构数据集,上述多源异构数据集包含多种数据类型的电力运维数据;
S2,基于训练好的文本序列的标签标注模型对上述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个上述三元组中包括两个实体和上述两个实体之间的关系;
S3,采用上述序列标注模型对上述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,上述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;
S4,基于上述实体表和实体关系表构建电力运维的知识图谱。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上上述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种知识图谱构建方法,其特征在于,包括:
获取电力运维的多源异构数据集,所述多源异构数据集包含多种数据类型的电力运维数据;
基于训练好的文本序列的标签标注模型对所述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个所述三元组中包括两个实体和所述两个实体之间的关系;
采用所述序列标注模型对所述三元组标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,所述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;
基于所述实体表和实体关系表构建电力运维的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述并根据预设规则进行调整,得到电力运维的实体表和实体关系表,包括:
对置信度低于预设阈值的所有参考标签进行逐步调整,直至调整后的每个参考标签的置信度大于或等于所述预设阈值;
基于置信度大于或等于预设阈值的标签,确定电力运维的实体表和实体关系表。
3.根据权利要求1所述的方法,其特征在于,所述采用所述序列标注模型对所述三元组中进行标注,包括:
通过所述标签标注模型依次遍历每个三元组中的每个词组,分别执行以下操作:
当确定出所述词组指示为实体的情况下,为所述词组标注位置标签,其中,所述位置标签的类型包括:起始标签、中部标签和结尾标签;
当确定出所述词组只有一个字符的情况下,为所述词组标注第一分类标签;
当确定出所述词组没有标注标签或者不属于实体的情况下,为所述词组标注第二分类标签,所述第二分类标签用于指示所述词组为无关文本信息。
4.根据权利要求3所述的方法,其特征在于,所述采用所述序列标注模型对所述三元组中进行标注,还包括以下至少之一:
采用所述序列标注模型对所述三元组中的两个实体标注关系类型标签;
采用所述序列标注模型对所述三元组中两个实体分别标注关系角色标签。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于主动学习模型从未标注样本集中获取电力运维的扩充训练样本;
在所述扩充训练样本未标注标签的情况下,对所述扩充训练样本进行实体标签的标注和关系标签的标注;
将标注有实体标签和关系标签的所述扩充训练样本加入所述标签标注模型。
6.根据权利要求1所述的方法,其特征在于,所述序列标注模型包括:基于FLAT模型的实体识别和关系抽取的联合模型。
7.根据权利要求1所述的方法,其特征在于,所述多源异构数据集包括以下至少之一:结构化数据、半结构化数据以及非结构化数据。
8.一种知识图谱构建装置,其特征在于,包括:
获取单元,获取电力运维的多源异构数据集,所述多源异构数据集包含多种数据类型的电力运维数据;
第一确定单元,用于基于训练好的文本序列的标签标注模型对所述多源异构数据集进行实体识别和关系抽取,得到由实体与实体关系组成的多个三元组;其中,每个所述三元组中包括两个实体和所述两个实体之间的关系;
第一标注单元,用于采用所述序列标注模型对所述三元组进行标注标签,并根据预设规则进行调整,得到电力运维的实体表和实体关系表;其中,所述实体表和实体关系表中的标签的置信度均大于或等于预设阈值;
构建单元,用于基于所述实体表和实体关系表构建电力运维的知识图谱。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7中任一项所述的方法。
CN202210181543.2A 2022-02-25 2022-02-25 知识图谱构建方法、装置及电子设备 Pending CN114691880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210181543.2A CN114691880A (zh) 2022-02-25 2022-02-25 知识图谱构建方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210181543.2A CN114691880A (zh) 2022-02-25 2022-02-25 知识图谱构建方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114691880A true CN114691880A (zh) 2022-07-01

Family

ID=82137600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210181543.2A Pending CN114691880A (zh) 2022-02-25 2022-02-25 知识图谱构建方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114691880A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093599A (zh) * 2024-04-23 2024-05-28 浙江大华技术股份有限公司 一种知识图谱构建方法、装置和计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118093599A (zh) * 2024-04-23 2024-05-28 浙江大华技术股份有限公司 一种知识图谱构建方法、装置和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN110147437B (zh) 一种基于知识图谱的搜索方法及装置
US10740678B2 (en) Concept hierarchies
CN112015949A (zh) 视频生成方法和装置、存储介质及电子设备
CN107077487A (zh) 利用深度网络对个人照片加标签
CN111914156A (zh) 自适应标签感知的图卷积网络跨模态检索方法、***
CN111310074B (zh) 兴趣点的标签优化方法、装置、电子设备和计算机可读介质
CN111611801B (zh) 一种识别文本地域属性的方法、装置、服务器及存储介质
CN112215837A (zh) 多属性图像语义分析方法和装置
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN113641797A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品
CN112749556B (zh) 多语言模型的训练方法和装置、存储介质和电子设备
CN110851609A (zh) 表示学习方法及装置
CN113704420A (zh) 文本中的角色识别方法、装置、电子设备及存储介质
Zeng et al. Mobile visual search model for Dunhuang murals in the smart library
CN111159427B (zh) 一种基于众包的知识图谱构建方法及***
CN110399564B (zh) 帐号分类方法和装置、存储介质及电子装置
CN115129883A (zh) 实体链接方法和装置、存储介质及电子设备
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及***
CN114691880A (zh) 知识图谱构建方法、装置及电子设备
CN113761151A (zh) 同义词挖掘、问答方法、装置、计算机设备和存储介质
CN116523041A (zh) 装备领域知识图谱构建方法、检索方法、***及电子设备
CN111241142A (zh) 一种科技成果转化推送***及方法
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination