CN114443858A

CN114443858A - 一种基于图神经网络的多模态知识图谱表示学习方法

Info

Publication number: CN114443858A
Application number: CN202210065665.5A
Authority: CN
Inventors: 邵杰; 梁爽; 杨晨旭
Original assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen
Current assignee: Higher Research Institute Of University Of Electronic Science And Technology Shenzhen
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2022-05-06

Abstract

本发明公开了一种基于图神经网络的多模态知识图谱表示学习方法，其包括获取多模态文本特征、视觉特征和数值特征并转换成超点；从超点中确认目标节点超点，及其邻居节点超点；计算得到邻居节点超点相对于目标节点超点的关系注意力；将目标节点和邻居节点之间的边作为邻边，通过互相关方式融合邻居节点和邻边，得到实体关系融合信息；通过关系注意力和实体关系融合信息构建关系聚合函数；基于关系聚合函数更新超点和关系注意力，直到得到收敛的关系图神经网络模型，完成多模态知识图谱表示学习；本发明有效建模具有多模态信息的不同实体同一模态内和不同模态间的信息交互；以灵活的形式处理不同实体不同数量的模态；实现了更优的图表示学习能力。

Description

一种基于图神经网络的多模态知识图谱表示学习方法

技术领域

本发明涉及多模态数据处理领域，具体涉及一种基于图神经网络的多模态知识图谱表示学习方法。

背景技术

知识图谱是以图的形式表现客观世界中的实体及其之间关系的知识库，实体可以是真实世界中的物体或抽象的概念，关系则表示了实体间的联系。知识图谱能够以结构化的形式表示人类知识，通过知识表示和推理技术，可以给人工智能***提供可处理的先验知识，让其具有与人类一样的解决复杂任务的能力。因此，描述常识和事实的知识图谱成为了学术界和工业界广泛使用的知识表示方式，同时图神经网络在信息传播、关系归纳偏置上也展现了优秀的性能。考虑到知识图谱本身恰好就是一种图结构数据，采用图构建知识和数据之间的关联，同时应用图神经网络技术，有望结合知识和数据实现更好的可解释和可信人工智能技术。一方面，利用图神经网络在学习节点表示与关系表示上的优势，可以更好地学习知识图谱的实体、关系的嵌入表示，改善关系抽取等任务，帮助构建知识图谱，以及提高链接预测等任务，帮助补全知识图谱；另一方面，利用图神经网络在信息传播和推理上的优势，可以更有效地在应用任务中引入知识图谱中的信息，从而改善如文本挖掘、推荐***等领域中的应用效果，提供可解释的模型。

目前的基于图神经网络的知识图谱表示学习大部分是针对单模态知识图谱，而忽略了实际生活场景中，知识图谱中的实体不仅仅是文字描述，还可能存在图片，语音等多种模态形式。现有的基于图神经网络的知识图谱表示学习方法通常仅针对文本描述的静态知识图谱，并不能建模多模态知识图谱。随着多模态数据的日益增长，多模态知识图谱的表示学习也成为了知识图谱表示学习及应用中的研究热点。为了处理多模态信息，研究者们提出了许多多模态知识图嵌入方法。例如，KBLRN(Alberto Garcia-Duran,Mathias Niepert:KBlrn:End-to-End Learning of Knowledge Base Representations with Latent,Relational,and Numerical Features.UAI 2018:372-381)方法是第一种通过集成潜在、关系和数字特征来学习知识图表示的方法。MKBE(Pouya Pezeshkpour,Liyan Chen,SameerSingh:Embedding Multimodal Relational Data for Knowledge BaseCompletion.EMNLP 2018:3208-3218)方法对不同的模态信息使用不同的神经编码器，并将其与现有的关系模型相结合，学习多模态数据实体的嵌入。MKHAN(Yingying Zhang,Shengsheng Qian,Quan Fang,Changsheng Xu:Multi-modal Knowledge-awareHierarchical Attention Network for Explainable Medical Question Answering.ACMMultimedia 2019:1089-1097)方法提出了一个分层注意网络，将多模态信息编码到医学知识图中，用于可解释的医学问题回答。MMRFAN(Yingying Zhang,Quan Fang,ShengshengQian,Changsheng Xu:Multi-modal Multi-relational Feature Aggregation Networkfor Medical Knowledge Representation Learning.ACM Multimedia 2020:3956-3965)方法提出了基于图神经网络的多模态医学知识表示学习模型。

但是，上述多模态知识图嵌入方法仍不能应对以下挑战：(1)具有多模态信息的不同实体具有同一模态内和不同模态间的信息交互，但传统的简单连接或注意方法不能处理这个属性。尽管MMRFAN使用了对抗性特征学***衡的，比如部分商品类实体缺少声音模态。MMRFAN采用固定大小的采样机制来解决这一问题，但这一操作不能充分利用图结构信息。(3)多模态知识图谱是一种异构图，具有多种关系，传统的图神经网络方法不能有效地对这类图进行表示学习。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于图神经网络的多模态知识图谱表示学***衡以及学习效果不佳的问题。

为了达到上述发明目的，本发明采用的技术方案为：

提供一种基于图神经网络的多模态知识图谱表示学习方法，其包括以下步骤：

S1、获取多模态知识图谱的模态信息，并通过预训练编码器学习模态信息，得到文本特征、视觉特征和数值特征；

S2、将文本特征、视觉特征和数值特征转换成超点；

S3、从超点中确认目标节点超点，并确认目标节点超点的邻居节点超点；

S4、构建初始关系图神经网络，计算得到邻居节点超点相对于目标节点超点的关系注意力；

S5、将目标节点和邻居节点之间的边作为邻边，通过互相关方式融合邻居节点和邻边，得到实体关系融合信息；

S6、通过关系注意力和实体关系融合信息构建关系聚合函数；

S7、基于关系聚合函数更新超点和关系注意力，直到得到收敛的关系图神经网络模型，完成多模态知识图谱表示学习。

进一步地，步骤S1中：

模态信息包括文本信息、视觉信息和数值信息；

预训练编码器包括用于获取文本特征和数值特征的BERT模型和两个全连接层，BERT模型包括12个Transformer层，每个Transformer层包括768个隐藏神经元和12个多头自注意单元；通过BERT模型将文本信息换成初始文本特征，通过第一全连接层将数值信息转换成数字信息，并通过第二全连接层将初始文本特征和数字信息进行映射处理，得到包含数值特征的768维文本特征；

预训练编码器包括用于获取视觉特征的VGG-16卷积神经网络模型，VGG-16卷积神经网络模型包括一个特征模块和一个分类模块，特征模块包括13层的3*3卷积核神经网络，分类模块包括2个全连接层；输入为224*224的RGB图像，得到4096维视觉特征。

进一步地，步骤S2中超点的表达式为：

其中e_m为第m个超点，x_t,m为第m个文本特征，x_v,m为第m个视觉特征，x_n,m为第m个数值特征，

为第m个文本特征的第i个低秩因子，

为第m个视觉特征的第i个低秩因子，

为第m个数值特征的第i个低秩因子，

为哈达玛乘积，r为低秩因子总数，m∈M，M为超点数。

进一步地，步骤S4中关系注意力的表达式为：

b_kjr ^(l)＝W_a[e_k ^(l)||r_kj ^(l)||e_j ^(l)]

其中α_ijr ^(l)为第l层关系图神经网络第k个目标节点超点e_k ^(l)和第j个邻居节点超点e_j ^(l)关系注意力，exp(·)为以自然常数e为底的指数函数，b_kjr ^(l)为第l层关系图神经网络中，节点j通过关系r链接节点k的注意力分数，b_knr ^(l)为第l层关系图神经网络，节点j通过关系r链接节点n的注意力分数，r_kj ^(l)为第l层关系图神经网络第k个目标节点与第j个邻居节点的关系邻边，W_a[·]为注意力权重矩阵，

为目标节点的邻居节点集合，

为邻边集合，||为拼接操作，k∈M，j∈M，M为超点数。

进一步地，步骤S5中得到实体关系融合信息的具体过程为：

根据公式：

得到实体关系融合信息

其中

为r_kj ^(l)的复共轭，*为卷积。

进一步地，步骤S6中构建关系聚合函数的具体过程为：

根据公式：

得到第l+1层关系图神经网络的第k个目标节点超点

其中R为关系集合；N为第k个目标节点超点通过关系邻边r_kj ^(l)连接的邻居节点集合；

为正则化项；

为第l层关系图神经网络第k个目标节点超点与第j个邻居节点超点之间的权重矩阵；关系邻边r_kj ^(l)通过公式：

r_kj ^(l+1)＝W_r ^(l)r_kj ^(l)

进行更新；其中W_r ^(l)为关系权重矩阵。

本发明的有益效果为：

1、本发明提出的信息融合模块能够捕捉多模态知识图谱中实体的多模态信息，并能有效建模具有多模态信息的不同实体同一模态内和不同模态间的信息交互过程；此外，该融合模块中的运算都是可微的，以确保本发明的方法能够通过神经网络端到端训练。

2、本发明在低秩多模态融合中采用分解因子处理实体的模态不平衡特性，以灵活的形式处理不同实体不同数量的模态。

3、本发明为了捕获图的结构信息，本专利提出了一个特殊的关系图神经网络；与传统的图神经网络相比，本专利采用关系特定注意力机制和实体关系融合操作来改进多模态知识图的表示学习，实现了更优的图表示学习能力。

4、本发明将知识图的视觉模态、数字特征和文本描述与低秩张量融合，可以捕获实体的模态内和模态间的交互信息；能够捕获多模态信息和多模态知识的自然图结构。

附图说明

图1为本发明的流程图；

图2为实施例中的节点更新过程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，该基于图神经网络的多模态知识图谱表示学习方法，包括以下步骤：

S2、将文本特征、视觉特征和数值特征转换成超点；

步骤S1中：

模态信息包括文本信息、视觉信息和数值信息；

步骤S2中超点的表达式为：

为第m个文本特征的第i个低秩因子，

为第m个视觉特征的第i个低秩因子，

为第m个数值特征的第i个低秩因子，

为哈达玛乘积，r为低秩因子总数，m∈M，M为超点数。

步骤S4中关系注意力的表达式为：

b_kjr ^(l)＝W_a[e_k ^(l)||r_kj ^(l)||e_j ^(l)]

为目标节点的邻居节点集合，

为邻边集合，||为拼接操作，k∈M，j∈M，M为超点数。

步骤S5中得到实体关系融合信息的具体过程为：

根据公式：

得到实体关系融合信息

其中

为r_kj ^(l)的复共轭，*为卷积。

步骤S6中构建关系聚合函数的具体过程为：

根据公式：

得到第l+1层关系图神经网络的第k个目标节点超点

为正则化项；

r_kj ^(l+1)＝W_r ^(l)r_kj ^(l)

进行更新；其中W_r ^(l)为关系权重矩阵。

在本发明的一个实施例中，假设共有7个节点，目标节点4的更新示意图(对应步骤S6)，如图2所示：本方法为每个节点添加了自边，以避免通过共享邻居节点的信息导致的过度平滑。关系图神经网络模块将邻居节点1、2、6、7及其对应边的关系信息聚合到目标节点4。同时，在图神经网络的反向传播中，目标节点的关系聚合函数会通过关系权重矩阵(对应步骤S6)和实体关系融合操作(对应步骤S5)自适应更新。

知识图谱补全任务上的效果验证：

知识图谱补全是基于已有知识图谱，通过知识图谱表示学习来推理未知知识进行知识图谱补全。一般结果是返回一个实体排序(rank)(在实体集合中寻找正确答案)，通过比较正确实体的排序位置(如果返回的实体排序第一个就是正确答案，效果最好)来衡量表示学习效果。

本发明在两个数据集上进行了实验，FB15k-237和WN18RR。FB15k-237来自Freebase(一个类似于***的内容共享网站，其条目都采用结构化数据的形式呈现)，包含14541个实体和237种关系，主要涉及到体育，影视等知识信息。对于多模态信息，FB15k-237中每个实体都有一个句子级别的文本信息，13444个实体具有图片信息，以及29395个数值信息(部分实体包含多个数值信息，如身高，体重等)。WN18RR来自WordNet(由Princeton大学的心理学家，语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典；它不是光把单词以字母顺序排列，而且按照单词的意义组成一个“单词的网络”)，包含40943个实体和11种关系。由于WordNet是基于英文字典的语义网，其实体只包含文本信息。该专利所使用的评价指标如下：Hits@s，Mean Rank(MR)以及Mean ReciprocalRank(MRR)。Hits@s描述了正确实体答案出现在前s个的概率，分数越高，效果越好。MR描述了正确实体答案出现的平均排名，分数越小，效果越好。MRR描述了正确实体的排名的倒数的平均数，分数越高，效果越好。实验结果如表1所示：

表1超点关系图注意力网络在知识图谱补全任务结果

本发明(hyper-node relational graph attention，HRGAT)在两个数据集中绝大部分指标中都取得了最好的效果。

TransE：将知识图谱中的实体与关系嵌入到低维线性空间中，并通过得分函数判断两个实体存在某一关系的概率。

RotatE：通过不同的映射方式和转换方式对TransE进行处理产生的衍生方法。

TorusE：是根据TransE的局限性改进得到的，将映射空间由普通向量空间换成李群(Lie Group)。

DistMult：一个语义匹配模型，通过线性神经网络获得实体嵌入表示，并通过一个对角阵来刻画实体之江关系，对角阵每一个元素代表一种不同关系。

ConvE：使用二维卷积将头实体和关系重塑为二维矩阵来模拟实体和关系之间的交互，再与尾实体做相似度计算三元组的得分。

KMAE：是ConvE的改进版本，他分别在实体属性和关系属性上采用了不同卷积核提取特征。

R-GCN：第一个将图神经网络应用到知识图谱表示任务上的，其将传统无向图上的图卷积操作扩展到了在有向有权图上。

WGCN：带有权重的有权图神经网络，建模了相同关系类型下两个邻接节点的连接强度。

KBLRN：通过集成潜在、关系和数字特征来学习知识图表示的方法。

MMRFAN：基于图神经网络的多模态医学知识表示学习模型。

同时本发明在FB15k-237数据集上测试了不同模块的作用效果，如表2所示：

表2不同模块对模型效果的影响实验结果

HRGAT-IF：移除本专利中的信息融合模块，从没有多模态信息的原始知识图谱出发，验证了多模态信息对原始知识图谱的影响。

HRGAT-LMF：用向量拼接操作代替信息融合块的低秩多模态融合操作，验证了低秩多模态融合操作的有效性。

HRGAT-RA：移除了关系图神经网络中关系特定的注意力机制，这是为了验证关系注意机制对关系图神经网络的效果。

HRGAT-ERF：移除了关系图神经网络中的实体-关系融合操作，这是为了验证实体和关系之间强相关性的影响以及实体-关系融合操作的有效性。

不同模块的移除都会对实验效果产生削弱影响，证明了不同模块对于多模态知识图谱表示学习的有效性。HRGAT代表了完整模型的实验结果，HRGAT-IF验证了多模态知识图谱相比于原始知识图谱的信息优势；HRGAT-LMF验证了低秩多模态模块换成拼接操作后，效果减弱了，说明了低秩多模态融合操作的有效性；HRGAT-RA验证了注意力机制的有效性；特别的，HRGAT-ERF反映了在移除关系图神经网络中的实体-关系融合操作之后，实验结果下降最多，验证了本专利所采用的实体关系融合操作对多模态知识图谱表示学习的影响是最大的。

本发明针对知识图谱的多模态特性，本发明提出了信息融合模块。在这个模块中，本发明设计的超点关系图注意网络(整个发明步骤)首先得到实体每个模态的预训练嵌入向量，然后使用低秩多模态融合得到每个实体的多模态表示，以建模具有多模态信息的不同实体同一模态内和不同模态间的信息交互过程，并将得到多模态信息的节点称为超点；此外，低秩多模态融合中的运算都是可微的，以确保本专利的方法能够通过神经网络端到端训练。

本发明在低秩多模态融合中采用分解因子处理实体的模态不平衡特性，以灵活的形式处理不同实体不同数量的模态。

本发明为了捕获图的结构信息，本专利提出了一个特殊的关系图神经网络；与传统的图神经网络相比，本专利采用关系特定注意力机制和实体-关系融合操作来改进多模态知识图的表示学习，实现了更优的图表示学习能力。

本发明将知识图的视觉模态、数字特征和文本描述与低秩张量融合，可以捕获实体的模态内和模态间的交互信息；能够捕获多模态信息和多模态知识的自然图结构。