CN113569056A - 知识图谱补全方法、装置、电子设备与存储介质 - Google Patents

知识图谱补全方法、装置、电子设备与存储介质 Download PDF

Info

Publication number
CN113569056A
CN113569056A CN202110851417.9A CN202110851417A CN113569056A CN 113569056 A CN113569056 A CN 113569056A CN 202110851417 A CN202110851417 A CN 202110851417A CN 113569056 A CN113569056 A CN 113569056A
Authority
CN
China
Prior art keywords
knowledge
graph
text
knowledge graph
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110851417.9A
Other languages
English (en)
Inventor
李直旭
支洪平
郑新
曹思远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Iflytek Suzhou Technology Co Ltd
Original Assignee
Iflytek Suzhou Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Iflytek Suzhou Technology Co Ltd filed Critical Iflytek Suzhou Technology Co Ltd
Priority to CN202110851417.9A priority Critical patent/CN113569056A/zh
Publication of CN113569056A publication Critical patent/CN113569056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种知识图谱补全方法、装置、电子设备与存储介质,所述方法包括:确定目标知识文本;基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到所述知识图谱的编码特征;基于所述编码特征,对所述知识图谱进行补全。本发明提供的方法、装置、电子设备与存储介质,通过融入知识图谱外部文本信息,引导知识图谱进行消息传递,能够捕获文本中与知识图谱结构相关的隐式信息,在此基础上,基于编码特征引导知识图谱进行补全,能够提升知识图谱补全的效果,提高知识图谱的完整性。

Description

知识图谱补全方法、装置、电子设备与存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种知识图谱补全方法、装置、电子设备与存储介质。
背景技术
随看计算机科学的发展,人工智能领域的兴起,知识图谱的应用也越来越广泛。知识图谱被用来收集和组织分散的知识,形成结构化的知识体系。知识被用以三元组(头实体,谓词,尾实体)的形式存在于知识图谱中。但知识图谱一般由手工构建,或者直接从网络平台爬取人工编辑好的知识图谱,难免存在知识图谱不完善的问题,因而有必要对知识图谱进行补全。
目前,有少量的工作使用知识图谱以外的实体描述信息生成实体的表示来辅助知识图谱补全,然而这些工作大多只利用文本层面的信息,知识图谱的补全效果较差。
发明内容
本发明提供一种知识图谱补全方法、装置、电子设备与存储介质,用以解决现有技术中补全效果较差的缺陷,实现提升知识图谱补全的效果。
本发明提供一种知识图谱补全方法,包括:
确定目标知识文本;
基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到所述知识图谱的编码特征;
基于所述编码特征,对所述知识图谱进行补全。
根据本发明提供的一种知识图谱补全方法,所述基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,包括:
获取所述知识图谱的图引导向量;
基于所述图引导向量和语义引导向量,引导待补全的知识图谱进行消息传递,所述语义引导向量是基于所述目标知识文本的语义信息确定的。
根据本发明提供的一种知识图谱补全方法,所述语义引导向量是基于如下步骤确定的:
对所述目标知识文本进行编码,得到文本表示序列;
基于所述文本表示序列中各分词的语义信息之间的相关性,确定所述目标知识文本的语义引导向量。
根据本发明提供的一种知识图谱补全方法,所述获取所述知识图谱的图引导向量,包括:
基于所述知识图谱中各节点间的边的相关性,确定所述知识图谱的图引导向量。
根据本发明提供的一种知识图谱补全方法,所述基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,之前还包括:
在所述知识图谱中各节点之间增加快捷路径。
根据本发明提供的一种知识图谱补全方法,所述在所述知识图谱中各节点之间增加快捷路径,之后还包括:
对所述各节点之间的快捷路径增加标签,所述标签为显式标签或非显式标签;
所述标签是基于所述目标知识文本中包含的实体,以及所述实体之间的关系确定的。
根据本发明提供的一种知识图谱补全方法,所述基于所述编码特征,对所述知识图谱进行补全,包括:
对所述编码特征进行解码,得到解码后的图谱信息,所述图谱信息包括所述知识图谱中基于每两个节点构建的三元组的存在概率;
基于所述图谱信息,对所述知识图谱进行补全。
本发明还提供一种知识图谱补全装置,包括:
确定模块,用于确定目标知识文本;
引导模块,用于基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到所述知识图谱的编码特征;
补全模块,用于基于所述编码特征,对所述知识图谱进行补全。本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱补全方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识图谱补全方法的步骤。
本发明提供的知识图谱补全方法、装置、电子设备与存储介质,通过融入知识图谱外部文本信息,引导知识图谱进行消息传递,能够捕获文本中与知识图谱结构相关的隐式信息,在此基础上,基于编码特征引导知识图谱进行补全,能够提升知识图谱补全的效果,提高知识图谱的完整性。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识图谱补全方法的流程示意图之一;
图2是本发明提供的知识图谱编码方法的流程示意图;
图3是本发明提供的语义引导向量确定方法的流程示意图;
图4是本发明提供的知识图谱补全方法的流程示意图之二;
图5是本发明提供的知识图谱补全模型的结构示意图;
图6是本发明提供的知识图谱补全装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据现有研究可将知识图谱分为静态知识图谱和动态知识图谱。动态知识图谱使用包含有效时间信息的四元组代替三元组来表达动态知识,即(头实体,谓词,尾实体,时间信息)。然而动态知识图谱的质量维护也更具挑战。现有动态知识图谱仍然是不完整的,需要对缺失的动态事实知识进行补全来保证知识的完整性。
知识图谱表示作为知识图谱补全的前提与支撑,旨在将实体和关系映射到低维的向量空间,从而实现对实体和关系的语义信息的表示。近年来国内外研究者们开始将时间信息编码到知识图谱表示当中以提高知识图谱推理补全的性能。这种包含时间信息的知识图谱表示可以称之为动态知识图谱表示,用于动态知识图谱的推理与补全。然而现有方法只简单的将时间信息嵌入到知识表示中,对图谱外部其他信息的使用较少。
目前,有少量的工作使用知识图谱以外的实体描述信息生成实体的表示来辅助知识图谱补全,然而这些工作大多仅针对于静态知识图谱补全任务,并且,只利用文本层面的信息,没有考虑能从文本中推断出来的隐式信息,导致知识图谱的补全效果较差。实际上文本背后的隐式信息与知识图谱的结构有关。例如,新闻文本报道了2018年球星A被交易到球队B,可以推断出,球星A的队友应该也随之改变,而在文本中根本没有提及,这就是此场景中所谓的隐式信息。
对此,本发明实施例提供了一种知识图谱补全方法,该方法融入知识图谱外部文本信息来引导知识图谱补全,除了考虑从外部文本中直接提取的信息外,文本中与知识图谱结构相关的隐式信息也考虑在内,并且,该方法既适用于静态知识图谱补全任务,又适用于动态知识图谱补全任务。图1是本发明提供的知识图谱补全方法的流程示意图之一,如图1所示,该方法包括:
步骤110,确定目标知识文本。
具体地,目标知识文本即用于引导知识图谱补全的外部文本信息。目标知识文本可以是通过爬虫技术爬取得到的,也可以是人机交互过程中根据用户输入的文本或语音得到的。
步骤120,基于目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到知识图谱的编码特征。
具体地,待补全的知识图谱即需要进行补全的知识图谱,知识图谱由节点和连接节点的边构成,其中节点用于表示各种类型的实体,边用于表示节点之间的关系。
为了有效利用目标知识文本中涵盖的信息进行知识图谱补全,本发明实施例将目标知识文本的语义信息融入基于图的消息传递算法,应用语义信息引导消息在待补全的知识图谱内沿着知识图谱的结构进行传递,使得知识图谱中每个节点能够在目标知识文本的语义信息引导下有选择地收集邻居信息,学习潜在的知识图谱表示,从而得到知识图谱的编码特征。
此处,目标知识文本的语义信息可以通过对目标知识文本中每个分词进行语义编码得到,也可以在得到目标知识文本中每个分词的语义编码之后,基于每个分词的语义编码进行上下文编码得到,具体可以通过长短期记忆网络(Long Short-Term Memory,LSTM)、循环神经网络(Recurrent Neural Network,RNN)等神经网络结构实现,本发明实施例对此不作具体限定。
对待补全的知识图谱进行消息传递是为了对知识图谱进行编码时,其中每个节点的编码表示都不仅能够反映该节点对应实体的信息,还能够反映该节点在知识图谱中的连接关系,以及顺延连接关系得到的与该节点相关的其他节点对应实体的信息。为了使得知识图谱的消息传递能够更加有针对性,更能够有助于目标知识文本所反映的外部知识的融入,可以应用目标知识文本的语义信息来引导知识图谱内的消息传递,从而能够将语义信息与知识图谱的结构结合起来,进而提高知识图谱的编码特征的可靠性和全面性。
引导待补全的知识图谱进行消息传递,可以通过调节知识图谱中单个节点接收各个邻居节点传输信息的权重实现,例如可以基于语义信息调整每个节点的邻接矩阵实现。此处,在基于语义信息引导消息传递时,可以仅依靠语义信息进行消息传递,也可以结合语义信息和知识图谱本身的节点的关联信息进行消息传递,本发明实施例对此不作具体限定。
步骤130,基于编码特征,对知识图谱进行补全。
在目标知识文本的语义信息的引导下,可以学习到与知识图谱结构相关的包含了潜在信息的知识图谱的编码特征,且编码特征同样包含待补全的知识图谱中缺失的来源于目标知识文本的信息。因此,在得到该编码特征之后,即可对编码特征进行解码,从而得到融合了目标知识文本所指示的外部知识的知识图谱,即得到补全后的知识图谱。此处,解码得到的可以是各个三元组的存在概率,也可以是每两个节点之间的关联性。
需要说明的是,本发明实施例对于知识图谱的类型不作具体限定,可以是静态知识图谱,也可以是动态知识图谱。当待补全的知识图谱为动态知识图谱时,可以根据时间信息的不同划分为多个静态知识图谱进行处理,并利用时间顺序进行推理补全。
本发明实施例提供的方法,通过融入知识图谱外部文本信息,引导知识图谱进行消息传递,能够捕获文本中与知识图谱结构相关的隐式信息,在此基础上,基于编码特征引导知识图谱进行补全,能够提升知识图谱补全的效果,提高知识图谱的完整性。
基于上述任一实施例,图2是本发明提供的知识图谱编码方法的流程示意图,如图2所示,步骤120包括:
步骤121,获取知识图谱的图引导向量;
步骤122,基于图引导向量和语义引导向量,引导待补全的知识图谱进行消息传递,语义引导向量是基于目标知识文本的语义信息确定的。
具体地,在引导知识图谱的消息传递时,可以不仅考虑目标知识文本的语义信息,还考虑知识图谱本身各个节点之间的关联,即知识图谱的结构信息。此处,可以根据知识图谱中与各节点连接的各边的权重和对应邻接节点的信息,衡量各边的重要程度,从而编码知识图谱的图引导向量。
另外,可以对目标知识文本的语义信息进行特征编码,从而得到可以和图引导向量进行融合的语义引导向量。此处,图引导向量和语义引导向量可以通过相加、或者加权相加等简单的线性计算方式实现语义引导向量和图引导向量的融合,进而基于融合后的引导向量,引导消息传递。或者,也可以分别应用语义引导向量和图引导向量,引导消息传递,本发明实施例对此不作具体限定。
本发明实施例提供的方法,结合图引导向量和语义引导向量引导知识图谱的消息传递,有助于进一步提高编码特征的可靠性,进而优化知识图谱补全效果。
基于上述任一实施例,在确定目标知识文本之后,可以通过如下方式得到知识图谱的编码特征:
首先,利用知识图谱获取针对于知识图谱中各条边的图引导向量,并将其作为每条边初始的注意力权值,注意力权值用于表征对应边的重要程度,注意力权值越高,在学习过程中就会越注意该条边;利用目标知识文本的语义信息获取能够表征上下文关联信息的语义引导向量,此处,语义引导向量可以直接根据目标知识文本中各分词的语义信息之间的相关性得到,也可以先将目标知识文本进行编码得到文本表示序列,再根据文本表示序列中各分词的语义信息之间的相关性得到;
随即,将图引导向量和语义引导向量二者进行结合形成最终的注意力权值,并替换初始的注意力权值来控制待补全的知识图谱有选择地进行消息传递,从而使得编码过程同时学习文本语义信息以及知识图谱结构信息,并且有选择地进行学习,由此得到更完善的知识图谱的编码特征,进而可以进一步提升知识图谱补全的效果。
基于上述任一实施例,图3是本发明提供的语义引导向量确定方法的流程示意图,如图3所示,语义引导向量是基于如下步骤确定的:
步骤210,对目标知识文本进行编码,得到文本表示序列;
步骤220,基于文本表示序列中各分词的语义信息之间的相关性,确定目标知识文本的语义引导向量。
具体地,语义引导向量可以通过如下方式得到:首先对目标知识文本进行编码,得到编码后的文本表示序列,文本表示序列以目标知识文本中的分词为单位,顺序包含了每个分词的语义信息,此处的编码方式可以是采用Bi-GRU(Bidirectional-Gate RecurrentUnit,双向门控循环单元)对目标知识文本进行编码,也可以是采用BERT(BidirectionalEncoder Representations from Transformer,Transformer的双向编码器表示)对目标知识文本进行编码;随即根据文本表示序列中各分词的语义信息与各分词的上下文分词的语义信息之间的相关性,得到对应于目标知识文本的语义提取的注意力表示,即语义引导向量,以便有选择地控制消息的传递。
本发明实施例提供的方法,基于文本表示序列中各分词的语义信息之间的相关性,确定目标知识文本的语义引导向量,丰富完善了语义引导向量所表征的语义信息,有助于优化知识图谱补全的效果。
基于上述任一实施例,语义引导向量可以基于如下步骤得到:
首先使用Bi-GRU将给定的目标知识文本编码为一个表示序列{u1,u2,…,u|S|},其中S表示目标知识文本的长度,u1,u2,…,u|S|为目标知识文本中每个分词的语义信息。
然后可以利用序列注意力机制来计算目标知识文本的语义引导向量clr
Figure BDA0003182638810000091
其中,
Figure BDA0003182638810000092
表示文本注意力权重,计算方法如下:
Figure BDA0003182638810000093
其中,
Figure BDA0003182638810000094
是一个可训练的引导向量,用于指导提取依赖关系的上下文。
基于上述任一实施例,步骤121包括:
基于知识图谱中各节点间的边的相关性,确定知识图谱的图引导向量。
具体地,知识图谱中,各节点间的边均具备本身的属性,例如可以表示两个实体之间的关系的类型,又例如可以标识两个实体之间的关系的紧密程度。可以在对知识图谱中每条边进行编码表示之后,计算边与边之间的相关性,并由此生成图引导向量,以引导在消息传递过程中关注或者更多接收相关性更高的边传输的消息,弱化或者更少接收相关性更低的边传输的消息,由此使得知识图谱中在编码过程中能够更有选择性和针对性地学习结构信息。
此处,图引导向量可以是利用注意力机制计算得到的,各节点间的边的相关性可以通过各节点间的边的编码表示进行注意力交互得到。
基于上述任一实施例,步骤122中基于语义引导向量和图引导向量引导消息传递,可以通过R-GCN(Relational Graph Convolutional Networks,关系图卷积网络)和GAT(Graph Attention Networks,图注意力网络)结合的关系图注意力编码器(RelationalGraph Attention layer,R-GAT)实现。
通常,R-GCN的分层传播规则定义如下:
Figure BDA0003182638810000101
其中,
Figure BDA0003182638810000102
是关系r的标准化邻接矩阵,
Figure BDA0003182638810000103
为关系r的分层可训练权重矩阵,σ(·)表示激活函数,例如可以使用ReLU(Rectified Linear Units,线性整流函数)。Hl是第l层的潜在实体表示,Hl+1是第l+1层的潜在实体表示。在R-GCN上可以通过使用GAT的注意力函数
Figure BDA0003182638810000104
引入注意力机制,得到R-GAT,
Figure BDA0003182638810000105
定义如下:
Figure BDA0003182638810000106
其中,
Figure BDA0003182638810000107
表示
Figure BDA0003182638810000108
第i行第j列的元素,
Figure BDA0003182638810000109
表示关系r下节点i的邻居索引集。attlr(·)表示注意力函数。
Figure BDA00031826388100001010
Figure BDA00031826388100001011
分别表示第l层的第i和第j个实体表示。
Figure BDA0003182638810000111
中,
Figure BDA0003182638810000112
的部分可以引导R-GCN的分层传播。因此,可以将语义引导向量和图引导向量结合后,替换
Figure BDA0003182638810000113
以实现基于语义引导向量和图引导向量引导下的消息传递,
进一步地,可以通过GAT获取图引导向量
Figure BDA0003182638810000114
具体获取方式可见如下公式:
Figure BDA0003182638810000115
其中,
Figure BDA0003182638810000116
是GAT计算所得的注意力表示,||表示拼接操作,
Figure BDA0003182638810000117
是一个特定于关系的可训练向量,作为一个图引导向量以决定哪条边值得注意。
在此基础上,即可通过如下公式融合语义引导向量和图引导向量,得到
Figure BDA0003182638810000118
以替换R-GAT中的
Figure BDA0003182638810000119
Figure BDA00031826388100001110
其中,Ulr是一个可训练的变换矩阵,αlr∈[0,1]可以是固定值也可以通过训练得到。如果设置αlr=1,那么注意力函数则退化为GAT的注意力函数,编码器则退化为R-GAT。当没有提供文本片段时可以很容易地对R-GAT进行预训练以获得更好的实体和关系嵌入。
基于上述任一实施例,步骤120之前还包括:
在知识图谱中各节点之间增加快捷路径。
具体地,考虑到实际上目标知识文本中提到的实体在知识图谱中可能相距较远甚至无法到达,而单层或双层的编码器只能保证知识图谱中的节点可以从附近的节点处收集信息。为了能够通过图谱结构进行更直接的交互,在进行编码之前,本发明实施例在知识图谱中各个节点之间增加快捷路径,将知识图谱中所有节点链接在一起,从而实现即便节点在知识图谱中拓扑结构上相距很远,也能通过快捷路径让消息彼此传递,进而大大提升知识图谱的补全效果。
基于上述任一实施例,在知识图谱中各节点之间增加快捷路径,之后还包括:
对各节点之间的快捷路径增加标签,标签为显式标签或非显式标签;标签是基于目标知识文本中包含的实体,以及实体之间的关系确定的。
具体地,考虑到各节点对应的实体之间的关系可能是不同的,即使有目标知识文本的语义进行引导消息传递,如果各节点之间快捷路径的标签是统一的,也有可能存在错误传递消息的情况。在知识图谱中各节点之间增加快捷路径之后,还需要给各个快捷路径添加关系标签来标注这些链接,以便于在消息传递过程中,可以区分哪些快捷路径仅仅是为了便于消息的传递设置的,而哪些快捷路径不仅仅是为了消息传递,也链接了需要补全的知识对应的两个节点,需要着重关注。
因此,本发明实施例设置快捷路径的标签分为两种类型:显式标签ADD、非显式标签OTHER。其中,显示标签ADD反映的是快捷路径两端的节点对应实体均在目标知识文本中被提及,且此两个实体在目标知识文本中存在关系。非显式标签OTHER反映的是快捷路径两端的节点对应实体中至少一个未被目标知识文本提及,或者虽然两个实体均被目标知识文本提及,但是两个实体在目标知识文本中并不存在关系。例如,目标知识文本为“球星A宣布他将加入球队B”,由于目标知识文本中提及了球星A和球队B,并且明确球星A和球队B之间存在关系,球星A和球队B对应的两个实体间快捷路径的标签标记为ADD,其余快捷路径的标签则标记为OTHER。
标记有显式标签ADD的快捷路径,能够反映目标知识文本需要补充的外部知识,在消息传递中需要着重关注,而标记有非显式标签OTHER的快捷路径,则仅用于消息的快捷传输,无需着重关注。通过显式标签ADD、非显式标签OTHER的增加,各节点间的快捷路径在进行消息传递时的是否需要着重关注得以明确,对于进一步提高语义引导下的消息传递的可靠性提供了助力。
进一步地,目标知识文本中包含的实体,可以通过对目标知识文本进行实体抽取或者实体链接实现,实体之间的关系可以在抽取实体之后,将抽取所得的实体两两输入到实体关系判断模型中得到,实体抽取和关系判断均可以通过常用实体处理技术实现,本发明实施例对此不作具体限定。
基于上述任一实施例,快捷路径标签的添加可以通过预先训练好的模型实现。例如,对于每个实体对(ei,ej),其中ei,ej均为目标知识文本中提及的实体,可以使用多层感知机分类器得到每个标签的概率P(z):
P(z)=softmax(MLP([hi||hj]))
其中,快捷标签z∈{ADD,OTHER},hi和hj分别是实体ei和ej实体的表示。实体ei和ej实体的表示hi和hj可以是单独编码得到的,也可以是应用步骤120对知识图谱进行消息传递的编码器得到的,本发明实施例对此不作具体限定。
基于上述任一实施例,图4是本发明提供的知识图谱补全方法的流程示意图之二,如图4所示,步骤130包括:
步骤131,对编码特征进行解码,得到解码后的图谱信息,图谱信息包括知识图谱中基于每两个节点构建的三元组的存在概率;
步骤132,基于图谱信息,对知识图谱进行补全。
具体地,在得到知识图谱的编码特征之后,可以利用解码器对编码特征进行解码,从而得到解码后的图谱信息。此处,图谱信息可以包括解码器预测得到的每个候选三元组的存在概率,候选三元组可以是知识图谱中基于每两个节点构建的,存在概率即表征对应候选三元组存在于补全后的知识图谱中的概率。
在此基础上,即可基于图谱信息对知识图谱进行补全,此处的补全方式可以是设置存在概率阈值,将存在概率大于阈值的三元组补充到知识图谱中,也可以是根据存在概率的大小进行排序,选取存在概率较高的三元组补充到知识图谱中,本发明实施例对此不作具体限定。
基于上述任一实施例,考虑到DistMult在知识图谱补全任务上有很好的性能,本发明实施例采用DistMult作为解码器以执行步骤131,对于每一个可能的三元组(ei,rk,ej),其中ei,ej为知识图谱中的节点,rk为节点间的关系,DistMult可以使用sigmoid函数计算其存在于补全后的知识图谱中的概率P(y),具体公式如下:
Figure BDA0003182638810000141
其中,
Figure BDA0003182638810000142
表示按元素乘积,hi和hj分别是编码特征中实体ei和ej实体的表示。
考虑到解码所得为三元组的存在概率,本发明实施例可以将知识图谱补全作为一个二分类任务,使用交叉熵损失训练结合步骤120中的编码过程和步骤131中解码过程中的编解码模型。
基于上述任一实施例,本发明实施例提出了一种新的知识图谱补全模型,该模型遵循编码器-解码器(Encoder-Decoder)框架,它包括一个基于图的编码器,在外部文本的指导下学习潜在的知识图谱表示,以及一个解码器,对候选三元组进行评分。
图5是本发明提供的知识图谱补全模型的结构示意图,编码器即图中的Encoder,解码器即图中的Decoder,目标知识文本即图中的External text information,快捷路径即图中的Shortcut,基于目标知识文本的注意力机制即图中的Text-based attention,执行编码前的知识图谱即图中的before,编码过程的知识图谱即图中的Intermediatestate,解码后的知识图谱即图中的After。如图5所示,通过添加Shortcut能够使实体S在图谱中直接接收到其他文本提及实体的信息。然后在Text-based attention和R-GAT的引导下,S有选择的收集邻居信息并更加靠近候选实体,其中,虚线箭头表示移动方向,宽度表示权重大小。最后由解码器DistMult进行知识图谱的补全。
下面对本发明提供的知识图谱补全装置进行描述,下文描述的知识图谱补全装置与上文描述的知识图谱补全方法可相互对应参照。
基于上述任一实施例,图6是本发明提供的知识图谱补全装置的结构示意图,如图6所示,该装置包括:
确定模块610,用于确定目标知识文本;
引导模块620,用于基于目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到知识图谱的编码特征;
补全模块630,用于基于编码特征,对知识图谱进行补全。
本发明实施例提供的装置,通过融入知识图谱外部文本信息,引导知识图谱进行消息传递,能够捕获文本中与知识图谱结构相关的隐式信息,在此基础上,基于编码特征引导知识图谱进行补全,能够提升知识图谱补全的效果,提高知识图谱的完整性。
基于上述任一实施例,引导模块620包括:
获取单元,用于获取知识图谱的图引导向量;
引导单元,用于基于图引导向量和语义引导向量,引导待补全的知识图谱进行消息传递,语义引导向量是基于目标知识文本的语义信息确定的。
基于上述任一实施例,语义引导向量是基于如下步骤确定的:
对目标知识文本进行编码,得到文本表示序列;
基于文本表示序列中各分词的语义信息之间的相关性,确定目标知识文本的语义引导向量。
基于上述任一实施例,获取单元用于:
基于知识图谱中各节点间的边的相关性,确定知识图谱的图引导向量。
基于上述任一实施例,该装置还包括快捷路径模块,用于:
在知识图谱中各节点之间增加快捷路径。
基于上述任一实施例,该装置还包括标签模块,用于:
对各节点之间的快捷路径增加标签,标签为显式标签或非显式标签;
标签是基于目标知识文本中包含的实体,以及实体之间的关系确定的。
基于上述任一实施例,补全模块630包括:
解码单元,用于对编码特征进行解码,得到解码后的图谱信息,图谱信息包括知识图谱中基于每两个节点构建的三元组的存在概率;
补全单元,用于基于图谱信息,对知识图谱进行补全。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行知识图谱补全方法,该方法包括:确定目标知识文本;基于目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到知识图谱的编码特征;基于编码特征,对知识图谱进行补全。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的知识图谱补全方法,该方法包括:确定目标知识文本;基于目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到知识图谱的编码特征;基于编码特征,对知识图谱进行补全。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的知识图谱补全方法,该方法包括:确定目标知识文本;基于目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到知识图谱的编码特征;基于编码特征,对知识图谱进行补全。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种知识图谱补全方法,其特征在于,包括:
确定目标知识文本;
基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到所述知识图谱的编码特征;
基于所述编码特征,对所述知识图谱进行补全。
2.根据权利要求1所述的知识图谱补全方法,其特征在于,所述基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,包括:
获取所述知识图谱的图引导向量;
基于所述图引导向量和语义引导向量,引导待补全的知识图谱进行消息传递,所述语义引导向量是基于所述目标知识文本的语义信息确定的。
3.根据权利要求2所述的知识图谱补全方法,其特征在于,所述语义引导向量是基于如下步骤确定的:
对所述目标知识文本进行编码,得到文本表示序列;
基于所述文本表示序列中各分词的语义信息之间的相关性,确定所述目标知识文本的语义引导向量。
4.根据权利要求2所述的知识图谱补全方法,其特征在于,所述获取所述知识图谱的图引导向量,包括:
基于所述知识图谱中各节点间的边的相关性,确定所述知识图谱的图引导向量。
5.根据权利要求1所述的知识图谱补全方法,其特征在于,所述基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,之前还包括:
在所述知识图谱中各节点之间增加快捷路径。
6.根据权利要求5所述的知识图谱补全方法,其特征在于,所述在所述知识图谱中各节点之间增加快捷路径,之后还包括:
对所述各节点之间的快捷路径增加标签,所述标签为显式标签或非显式标签;
所述标签是基于所述目标知识文本中包含的实体,以及所述实体之间的关系确定的。
7.根据权利要求1至6中任一项所述的知识图谱补全方法,其特征在于,所述基于所述编码特征,对所述知识图谱进行补全,包括:
对所述编码特征进行解码,得到解码后的图谱信息,所述图谱信息包括所述知识图谱中基于每两个节点构建的三元组的存在概率;
基于所述图谱信息,对所述知识图谱进行补全。
8.一种知识图谱补全装置,其特征在于,包括:
确定模块,用于确定目标知识文本;
引导模块,用于基于所述目标知识文本的语义信息,引导待补全的知识图谱进行消息传递,得到所述知识图谱的编码特征;
补全模块,用于基于所述编码特征,对所述知识图谱进行补全。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述知识图谱补全方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述知识图谱补全方法的步骤。
CN202110851417.9A 2021-07-27 2021-07-27 知识图谱补全方法、装置、电子设备与存储介质 Pending CN113569056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110851417.9A CN113569056A (zh) 2021-07-27 2021-07-27 知识图谱补全方法、装置、电子设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110851417.9A CN113569056A (zh) 2021-07-27 2021-07-27 知识图谱补全方法、装置、电子设备与存储介质

Publications (1)

Publication Number Publication Date
CN113569056A true CN113569056A (zh) 2021-10-29

Family

ID=78167977

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110851417.9A Pending CN113569056A (zh) 2021-07-27 2021-07-27 知识图谱补全方法、装置、电子设备与存储介质

Country Status (1)

Country Link
CN (1) CN113569056A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114138985A (zh) * 2022-02-08 2022-03-04 深圳希施玛数据科技有限公司 文本数据处理的方法、装置、计算机设备以及存储介质
CN114357969A (zh) * 2021-12-21 2022-04-15 有米科技股份有限公司 一种基于图注意网络的数据处理方法及装置
CN114490920A (zh) * 2022-01-21 2022-05-13 华中科技大学 语义知识库自动构建与更新方法、语义编码器和通信架构

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN112000815A (zh) * 2020-10-28 2020-11-27 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备及存储介质
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质
CN112148891A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于图感知张量分解的知识图谱补全方法
CN113157886A (zh) * 2021-04-19 2021-07-23 西安交通大学深圳研究院 一种自动问答生成方法、***、终端及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625655A (zh) * 2020-05-12 2020-09-04 埃睿迪信息技术(北京)有限公司 基于知识图谱的归并以及分类方法、装置以及存储介质
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质
CN112148891A (zh) * 2020-09-25 2020-12-29 天津大学 一种基于图感知张量分解的知识图谱补全方法
CN112000815A (zh) * 2020-10-28 2020-11-27 科大讯飞(苏州)科技有限公司 知识图谱补全方法、装置、电子设备及存储介质
CN113157886A (zh) * 2021-04-19 2021-07-23 西安交通大学深圳研究院 一种自动问答生成方法、***、终端及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357969A (zh) * 2021-12-21 2022-04-15 有米科技股份有限公司 一种基于图注意网络的数据处理方法及装置
CN114490920A (zh) * 2022-01-21 2022-05-13 华中科技大学 语义知识库自动构建与更新方法、语义编码器和通信架构
CN114490920B (zh) * 2022-01-21 2022-10-14 华中科技大学 语义知识库自动构建与更新方法、语义编码器和通信架构
CN114138985A (zh) * 2022-02-08 2022-03-04 深圳希施玛数据科技有限公司 文本数据处理的方法、装置、计算机设备以及存储介质

Similar Documents

Publication Publication Date Title
CN110413746B (zh) 对用户问题进行意图识别的方法及装置
CN113569056A (zh) 知识图谱补全方法、装置、电子设备与存储介质
KR102234850B1 (ko) 릴레이션 네트워크에 기반한 지식 보완 방법 및 장치
US11893345B2 (en) Inducing rich interaction structures between words for document-level event argument extraction
US20220138185A1 (en) Scene graph modification based on natural language commands
US11886825B2 (en) Aspect-based sentiment analysis
Kumar et al. A review on chatbot design and implementation techniques
US20230153943A1 (en) Multi-scale distillation for low-resolution detection
EP4394781A1 (en) Reactant molecule prediction method and apparatus, training method and apparatus, and electronic device
CN111241850B (zh) 提供业务模型的方法及装置
CN115964459B (zh) 基于食品安全认知图谱的多跳推理问答方法及***
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN113705196A (zh) 基于图神经网络的中文开放信息抽取方法和装置
CN117972434B (zh) 文本处理模型的训练方法、装置、设备、介质和程序产品
CN115186147B (zh) 对话内容的生成方法及装置、存储介质、终端
CN114820871A (zh) 字体生成方法、模型的训练方法、装置、设备和介质
CN117033602A (zh) 一种多模态的用户心智感知问答模型的构建方法
CN113704495B (zh) 实体对齐方法、装置、电子设备和存储介质
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN110909174B (zh) 一种基于知识图谱的简单问答中实体链接的改进方法
CN116308551A (zh) 基于数字金融ai平台的内容推荐方法及***
CN111222533B (zh) 一种基于依赖树的深度学习视觉问答方法及***
CN115438164A (zh) 问答方法、***、设备及存储介质
CN114626529A (zh) 一种自然语言推理微调方法、***、装置及存储介质
CN113869518A (zh) 视觉常识推理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination