CN114564593A

CN114564593A - 多模态知识图谱的补全方法、装置和电子设备

Info

Publication number: CN114564593A
Application number: CN202210158488.5A
Authority: CN
Inventors: 周景博; 许德容; 夏源; 刘吉; 窦德景
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-02-21
Filing date: 2022-02-21
Publication date: 2022-05-31

Abstract

本公开提供了多模态知识图谱的补全方法、装置和电子设备，涉及涉及数据处理技术领域，尤其涉及深度学习等技术领域。具体实现方案为：对多模态知识图谱进行特征提取，获取各模态的第一特征向量；对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量；对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量；基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱。本公开实施例中，可以挖掘多模态之间的共同特征，进而通过信息交换减少冗余，跨模态共同学习重要的语义信息，充分利用了多模态信息，提升了知识图谱补全的性能。

Description

多模态知识图谱的补全方法、装置和电子设备

技术领域

本公开涉及数据处理技术领域，尤其涉及深度学习等技术领域。

背景技术

相关技术中，一般利用知识图谱中的结构信息对知识图谱进行补全，或基于文本/图片信息加强实体的表征，从而对知识图谱进行补全，这种补全方法对多模态信息挖掘不足，可能导致关系缺失性的问题，使得补全知识图谱的准确性不高，因此，如何充分利用多模态信息，提升知识图谱补全的准确性，已经成为重要的研究方向之一。

发明内容

本公开提供了一种多模态知识图谱的补全方法、装置和电子设备。

根据本公开的一方面，提供了一种多模态知识图谱的补全方法，包括：

对多模态知识图谱进行特征提取，获取各模态的第一特征向量；

对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量；

对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量；

基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱。

本公开实施例中，对任一组内两个模态的第一特征向量进行语义信息提取和替换，可以挖掘出分子结构信息与文本描述信息之间的共同特征，进而通过信息交换减少冗余，跨模态共同学习重要的语义信息。对每个分组对应的第二特征向量进行融合，减少了模态之间的差异性，基于多模态联合特征向量，对多模态知识图谱进行补全，充分利用了多模态信息，提升了知识图谱补全的准确性。

根据本公开的另一方面，提供了一种多模态知识图谱补全模型的训练方法，包括：

获取样本多模态知识图谱及其对应的样本三元组；

基于样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱，以及补全多模态知识图谱的预测三元组；

根据样本三元组和预测三元组对多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型；其中，任一三元组包括头实体、尾实体以及头实体和尾实体之间的关系。

本公开实施例中，基于多模态联合特征向量，对多模态知识图谱进行补全，充分利用了多模态信息，基于正样本和负样本训练多模态知识图谱补全模型，提升了知识图谱补全的准确性，解决了无法适应分子结构信息，无法显性地利用到模态之间共有的特征的问题，能够极大地提升多模态知识图谱补全的性能。

根据本公开的另一方面，提供了一种多模态知识图谱的补全方法，包括：

将待补全的多模态知识图谱输入训练后的多模态知识图谱补全模型中，以获取补全后的目标多模态知识图谱；

其中，多模态知识图谱补全模型采用如上述的多模态知识图谱补全模型的训练方法进行训练。

根据本公开的另一方面，提供了一种多模态知识图谱的补全装置，包括：

第一获取模块，用于对多模态知识图谱进行特征提取，获取各模态的第一特征向量；

第二获取模块，用于对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量；

第三获取模块，用于对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量；

补全获取模块，用于基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱。

根据本公开的另一方面，提供了一种多模态知识图谱补全模型的训练装置，包括：

第一获取模块，用于获取样本多模态知识图谱及其对应的样本三元组；

第二获取模块，用于基于样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱，以及补全多模态知识图谱的预测三元组；

第三获取模块，用于根据样本三元组和预测三元组对多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型；其中，任一三元组包括头实体、尾实体以及头实体和尾实体之间的关系。

补全模块，用于将待补全的多模态知识图谱输入训练后的多模态知识图谱补全模型中，以获取补全后的目标多模态知识图谱；其中，多模态知识图谱补全模型采用上述的多模态知识图谱补全模型的训练装置进行训练。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开的多模态知识图谱的补全方法方法或多模态知识图谱补全模型的训练方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据本公开的多模态知识图谱的补全方法方法或多模态知识图谱补全模型的训练方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据本公开的多模态知识图谱的补全方法方法的步骤或多模态知识图谱补全模型的训练方法的步骤。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开一个实施例的多模态知识图谱的补全方法的流程图；

图2是本公开一个实施例的多模态知识图谱的补全方法的流程图；

图3是本公开一个实施例的多模态知识图谱的补全方法的示意图；

图4是本公开一个实施例的多模态知识图谱的补全方法的示意图；

图5是本公开一个实施例的多模态知识图谱的补全方法的示意图；

图6是本公开一个实施例的多模态知识图谱的补全方法的流程图；

图7是本公开一个实施例的多模态知识图谱的补全方法的示意图；

图8是本公开一个实施例的多模态知识图谱补全模型的训练方法的流程图；

图9是本公开一个实施例的多模态知识图谱补全模型的结构示意图；

图10是本公开一个实施例的多模态知识图谱的补全装置的结构图；

图11是本公开一个实施例的多模态知识图谱补全模型的训练装置的结构图；

图12本公开一个实施例的多模态知识图谱的补全装置的结构图；

图13本公开一个实施例的电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

以下对本公开的方案涉及的技术领域进行简要说明：

数据处理：数据是对事实、概念或指令的一种表达形式，可由人工或自动化装置进行处理。数据经过解释并赋予一定的意义之后，便成为信息。数据处理是对数据的采集、存储、检索、加工、变换和传输。数据处理的基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。数据处理是***工程和自动控制的基本环节。数据处理贯穿于社会生产和社会生活的各个领域。数据处理技术的发展及其应用的广度和深度，极大地影响了人类社会发展的进程。

深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法，在语音和图像识别方面取得的效果，远远超过先前相关技术。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

图1是本公开一个实施例的多模态知识图谱的补全方法的流程图，如图1所示，该方法包括以下步骤：

S101，对多模态知识图谱进行特征提取，获取各模态的第一特征向量。

多模态即多模态生物识别，是指整合或融合两种及两种以上生物识别技术，利用其多重生物识别技术的独特优势，并结合数据融合技术，使得认证和识别过程更加精准、安全。可选地，本申请实施例中，模态可以包括文本信息、分子信息、结构信息等。

知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，利用可视化的图谱可以形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论，为学科研究提供切实的、有价值的参考。

本公开实施例中，多模态知识图谱可以是多模态生物知识图谱(BiologicalKnowledge Graph，BKG)，多模态生物知识图谱具备以结构化的方式对复杂的生物***进行建模的能力，以支持各种与药物，疾病和基因相关的任务。

本公开实施例中，为了挖掘多模态知识图谱的多模态信息，可以对多模态知识图谱进行特征提取，可选地，可以利用双向编码表示模型(Bidirectional EncoderRepresentations from Transformers，BERT)对多模态知识图谱的文本信息进行提取，获取文本嵌入向量作为一个模态的第一特征向量，可以通过预训练的图神经网络(trategiesfor Pre-training Graph Neural Net-works)对多模态知识图谱的分子信息进行提取，获取分子嵌入向量作为一个模态的第一特征向量，可以对多模态知识图谱的结构信息随机初始化，并在后续的梯度反向传播过程中进行更新，获取结构嵌入向量作为一个模态的第一特征向量。

S102，对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量。

本公开实施例中，对各模态进行两两分组，在一些实现中，可以将文本嵌入向量和分子嵌入向量作为一组内两个模态的第一特征向量，将文本嵌入向量和分子嵌入向量进行语义信息提取和替换，获取两个模态各自的第二特征向量；

可选地，还可以将分子嵌入向量和结构嵌入向量作为一组内两个模态的第一特征向量，将分子嵌入向量和结构嵌入向量进行语义信息提取和替换，获取两个模态各自的第二特征向量；

可选地还可以将结构嵌入向量和文本嵌入向量作为一组内两个模态的第一特征向量，将结构嵌入向量和文本嵌入向量进行语义信息提取和替换，获取两个模态各自的第二特征向量。

本公开实施例中，可以基于协同注意力机制提取语义信息，以便于提取多模态之间的公共特征，跨模态共同学习重要的语义信息。对任一组内两个模态的第一特征向量进行语义信息提取后，为了进一步减小模态之间的差异性，可以将提取的语义信息进行替换，例如，冗余的语义信息对多模态知识图谱的补全影响较小，可以将冗余的语义信息进行替换，以便于下一步中对两个模态各自的第二特征向量进行融合。

S103，对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量。

在一些实现中，可以使用双线性函数对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量。为了减小计算量，提高多模态知识图谱补全的效率，可以使用低秩双线性函数对对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量。

S104，基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱。

本公开实施例中，基于多模态联合特征向量，对头实体对应的尾实体进行连接预测，通过判断三元组的得分进而判断头实体与预测尾实体之间是否存在关系，进而对多模态知识图谱进行补全，获取目标多模态知识图谱。

图2是本公开一个实施例的多模态知识图谱的补全方法的流程图，如图2所示，对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量，包括以下步骤：

S201，对任一组内两个模态的第一特征向量进行协同注意力的语义信息提取，获取两个模态各自的候选特征向量。

如图3所示，为了便于提取多模态之间的公共特征，本公开实施例构建了一种协同注意力(co-attention operator，CA)算子，以第一特征向量为输入，应用尺度变换和多头注意力机制，将第一特征向量投影到一个新的空间，获取候选特征向量。其具有简洁的结构，可以跨模态共同学习重要的语义信息。具体过程如下：

将任一组内两个模态的第一特征向量分别与各自的权重参数相乘，得到两个模态各自的加权特征向量，并对两个模态的加权特征向量进行向量外积相乘，获取亲和矩阵。可选地，可以采用如下公式获取亲和矩阵：

A＝σ(Q W_Q)·σ(D^T W_D)

其中，A表示亲和矩阵，且

d₁、d₂表示任一组内两个模态的第一特征向量所表征的维度，表示一种统一的符号，用以表示数据的维度，σ表示激活函数(sigmoidfunction)，用于将变量映射到0,1之间，Q、D分别表示任一组内两个模态的第一特征向量，

和

分别表示Q、D的权重参数，该权重参数为可训练的权重参数，T表示矩阵的转置。

对亲和矩阵按行和列分别进行伸缩变换，以获取第一矩阵和第二矩阵。可选地，可以采用如下公式获取第一矩阵和第二矩阵：

其中，A_Q、A_D分别表示第一矩阵和第二矩阵，softmax(...)为归一化指数函数，用于将变量映射成为(0,1)的值，且映射后的值的累和为1，dim表示归一化指数函数作用的维度。需要说明的是，第一矩阵、第二矩阵与亲和矩阵的形状一致，第一矩阵每行的和值为1，第二矩阵每列的和值为1。

根据两个模态的第一特征向量、第一矩阵和第二矩阵，获取两个模态各自的候选特征向量。可选地，可以采用如下公式获取两个模态各自的候选特征向量：

Q_ca＝Q^T·A_Q

D_ca＝A_D·D

其中，Q_ca、D_ca分别表示两个模态各自的候选特征向量。

需要说明的是，在多模态生物知识图谱中，含有相同语义的信息可能存在于不同的模态内，这是一种常见的现象。例如，酚类化合物的名称通常有一个后缀“-phine”，哌嗪衍生化合物的名称有一个后缀“-azine”(名称是该化合物的一种文本描述)，本公开实施例中，利用CA算子可以提取多模态之间公共的语义信息。

举例说明，本公开实施例中，将文本嵌入向量h_t和分子嵌入向量h_m输入CA算子中，获取一组候选特征向量为

将分子嵌入向量h_m和结构嵌入向量h_s输入CA算子中，获取一组候选特征向量为

将结构嵌入向量h_s和文本嵌入向量h_t输入CA算子中，获取一组候选特征向量为

其中，

表示可训练的权重。d_f表示融合嵌入表征的维度，d_m表示分子嵌入向量表征的维度，d_t表示文本嵌入向量表征的维度，d_s表示结构嵌入向量的维度，CA(...)表示上述实施例介绍的CA算子。

本公开实施例中中，通过CA算子，可以从显式和隐式共同语义信息中获得两种模态之间相互加强的信息。

S202，从两个模态的候选特征向量中，筛选出需要进行语义信息替换的目标特征元素。

如图4所示，候选特征向量中的不同特征元素具有不同的注意力权重，注意力权重越小的特征元素，提供的信息越少，较小的注意力权重所提供的信息是冗余的，对最终结果的影响很小。因此，本公开实施例中，获取候选特征向量后，对候选特征向量进行语义信息替换。

本公开实施例中，获取候选特征向量中每个特征元素的语义信息，选取语义信息小于预设的替换因子的特征元素，作为目标特征元素。

S203，确定目标特征元素在候选特征向量中的位置，基于位置进行同位置语义信息替换，获取第二特征向量。

针对任一组，基于组内其中一个候选特征向量中目标特征元素的位置，获取组内另一候选特征向量中位置上待替换特征元素，将目标特征元素的语义信息替换为待替换特征元素的语义信息。如图4所示，可选地，可以采用如下公式获取第二特征向量：

index＝where(ln(Q_ca)<θ)，Q_ca[index]＝D_ca[index]

index＝where(ln(D_ca)<θ)，D_ca[index]＝Q_ca[index]

其中，index函数表示返回表或区域中的值或值的引用，θ表示预设的替换因子，特征元素的语义信息特征的大小可以反应出该特征元素的注意力权重大小，ln(...)表示层标准化(layer normalization)函数，便于提取候选特征向量的特征元素的注意力权重，where(...)函数表示根据指定的条件返回所有满足条件的特征元素的索引值，本公开实施例中，where(...)函数用于返回语义信息小于预设的替换因子的特征元素的索引值，θ可以取-1，-0.5，0等。

举例说明，本公开实施例中，将

进行语义信息替换后，获取一组第二特征向量为h_x1,h_y1，将

进行语义信息替换后，获取一组第二特征向量为h_x2,h_y2，将

进行语义信息替换后，获取第二特征向量为h_x3,h_y3，也就是说，

其中，EX()表示上述实施例中的语义信息替换操作，i表示第i组分组，本公开实施例中，i可取1，2，3。

本公开实施例中，对任一组内两个模态的第一特征向量进行语义信息提取和替换，可以挖掘出分子结构信息与文本描述信息之间的共同特征，进而通过信息交换减少冗余，跨模态共同学习重要的语义信息。减少了模态之间的差异性，便于后续对每个分组对应的第二特征向量进行融合，提升了知识图谱补全的准确性。

如图5所示，在一些实现中，为了增强提取到的语义特征的多样性，可以对任一组内两个模态的第一特征向量并行地进行多次语义信息提取和替换，获取两个模态的多个候选第二特征向量，然后将多个候选第二特征向量进行拼接，获取两个模态各自的第二特征向量。可选地，可以采用如下公式获取第二特征向量：

其中，

表示第1次进行语义信息提取和替换获取的一组候选第二特征向量，

表示第2次进行语义信息提取和替换获取的一组候选第二特征向量，

表示第m次进行语义信息提取和替换获取的一组候选第二特征向量，W^xi、W^yi表示可训练的权重参数，&表示在给定的维度下拼接向量。

本公开实施例中，以低秩双线性函数对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量为例进行说明，将第二特征向量与预设线性映射的矩阵相乘和归一化处理，获取第三特征向量；对两个模态的第三特征向量之间进行逐元素相乘，获取任一组对应的第四特征向量；对每个分组的第四特征向量进行逐元素相乘，得到多模态联合特征向量。可选地，可以采用如下公式获取多模态联合特征向量：

其中，h_f表示多模态联合特征向量，

表示两个向量之间逐元素相乘，ψ表示对一个序列的向量进行逐元素相乘。U_xi、T_yi表示预设线性映射的矩阵，b表示误差，U_xi、T_yi、b都是可训练的参数。

本公开实施例中，对任一组内两个模态的第一特征向量进行语义信息提取和替换，可以挖掘出分子结构信息与文本描述信息之间的共同特征，进而通过信息交换减少冗余，跨模态共同学习重要的语义信息。对每个分组对应的第二特征向量进行融合，减少了模态之间的差异性，充分利用了多模态信息，提升了知识图谱补全的准确性。

图6是本公开一个实施例的多模态知识图谱的补全方法的流程图，如图6所示，基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱，包括以下步骤：

S601，获取多模态知识图谱的头实体嵌入向量和关系嵌入向量。

S602，根据多模态联合特征向量、头实体嵌入向量和关系嵌入向量，预测出多模态知识图谱头实体对应的尾实体。

可选地，可以对多模态联合特征向量、头实体嵌入向量和关系嵌入向量进行叠加，生成多模态联合特征图，多模态联合特征图为多通道的特征图，将多模态联合特征图入卷积层，获取目标特征图，将目标特征图进行展平操作后输入全连接层，获取尾实体嵌入向量，并获取多模态知识图谱的候选实体的实体嵌入向量。将尾实体嵌入向量与实体嵌入向量做向量内积求相似度，根据相似度进行排序，从候选实体中确定头实体对应的尾实体。

可选地，候选实体可以是多模态知识图谱中的所有实体。

S603，基于头实体对应的尾实体，对多模态知识图谱进行补全，获取目标多模态知识图谱。

步骤S603的内容可以参见上述实施例的相关介绍，此处不再赘述。

本公开实施例中，充分利用了多模态信息，提升了知识图谱补全的效率和准确性，解决了无法适应分子结构信息，无法显性地利用到模态之间共有的特征的问题，能够极大地提升多模态知识图谱补全的性能。

图7是本公开一个实施例的多模态知识图谱的补全方法的示意图，如图7所示，本公开实施例中，对多模态知识图谱进行特征提取，获取分子嵌入向量h_m、结构嵌入向量h_s和文本嵌入向量h_t，将h_m、h_s和h_t进行两两分组，输入多个CA算子进行语义信息提取，并将CA算子的输出进行语义信息替换，拼接为两个模态各自的第二特征向量，通过低秩双线性函数对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量h_f，并结合头实体嵌入向量e_h和关系嵌入向量r生成多模态联合特征图，将多模态联合特征图输入卷积层和全连接层，预测头实体对应的尾实体e_t。

本公开实施例中，可以挖掘出分子结构信息与文本描述信息之间的共同特征，进而通过信息交换减少冗余，跨模态共同学习重要的语义信息，减少了模态之间的差异性，基于多模态联合特征向量，对多模态知识图谱进行补全，充分利用了多模态信息，提升了知识图谱补全的准确性。

图8是本公开一个实施例的多模态知识图谱补全模型的训练方法的流程图，如图8所示，该方法包括以下步骤：

S801，获取样本多模态知识图谱及其对应的样本三元组。

本公开实施例中，任一三元组包括头实体、尾实体以及头实体和尾实体之间的关系。也就是说，样本多模态知识图谱对应的样本三元组包括样本头实体、样本尾实体以及样本头实体和样本尾实体之间的关系。

S802，基于样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱，以及补全多模态知识图谱的预测三元组。

本公开实施例中的多模态知识图谱补全模型可以参见上述实施例中多模态知识图谱补全方法的相关内容，此处不再赘述。

需要说明的是，本公开实施例中的多模态知识图谱补全模型，可以按照上述实施例中的多模态知识图谱补全方法，对样本多模态知识图谱进行补全，输出样本多模态知识图谱的补全多模态知识图谱，进而根据补全多模态知识图谱获取预测三元组。

在一些实现中，将样本多模态知识图谱和样本三元组，构成正样本，基于正样本对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱。

在一些实现中，基于样本多模态知识图谱的样本三元组，获取样本多模态知识图谱的逆三元组，作为样本多模态知识图谱另一样本三元组，将样本多模态知识图谱和样本三元组，构成正样本，将样本多模态知识图谱和逆三元组，构成负样本，基于正样本和负样本，对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱。

S803，根据样本三元组和预测三元组对多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型。

在一些实现中，将样本三元组和预测三元组进行匹配，根据匹配结果对多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型。

在一些实现中，从样本三元组中获取样本尾实体，以及从预测三元组中获取预测尾实体，获取样本尾实体和预测尾实体之间的损失，根据损失调整多模态知识图谱补全模型，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型。可选地，可以采用负对数似然损失函数获取样本尾实体和预测尾实体之间的损失，进而通过最小化伯努利负对数似然损失函数对多模态知识图谱补全模型中的参数进行训练，损失函数如下：

其中，n是负样本的数量，q∈ⁿ是真标签，p∈ⁿ是将sigmoid函数应用于Ψ生成的预测概率。

基于同一公开构思，本公开提出了另一种多模态知识图谱的补全方法，该方法包括：将待补全的多模态知识图谱输入训练后的多模态知识图谱补全模型中，以获取补全后的目标多模态知识图谱。也就是说，训练后的多模态知识图谱补全模型可以参见图9，由模型中特征提取层对待补全的多模态知识图谱进行特征提取，得到各模态的第一特征向量，对各模态进行两两分组，并将任一组内两个模态的第一特征向量输入到CA算子层，输出任一组候选特征向量，进一步地，将任一组候选特征向量输入语义替换层，获取任一组两个模态各自的第二特征向量，进而将所有第二特征向量输入特征融合层，获取多模态联合特征向量，最后将多模态联合特征向量输入图谱补全层，输出补全后的多模态知识图谱。

图10是本公开一个实施例的多模态知识图谱的补全装置的结构图，如图10所示，多模态知识图谱的补全装置1000包括：

第一获取模块1010，用于对多模态知识图谱进行特征提取，获取各模态的第一特征向量；

第二获取模块1020，用于对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量；

第三获取模块1030，用于对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量；

补全获取模块1040，用于基于多模态联合特征向量，对多模态知识图谱进行补全，获取目标多模态知识图谱。

在一些实现中，第二获取模块1020，还用于：对任一组内两个模态的第一特征向量进行协同注意力的语义信息提取，获取两个模态各自的候选特征向量；从两个模态的候选特征向量中，筛选出需要进行语义信息替换的目标特征元素；确定目标特征元素在候选特征向量中的位置，基于位置进行同位置语义信息替换，获取第二特征向量。

在一些实现中，对第二获取模块1020，还用于：将任一组内两个模态的第一特征向量分别与各自的权重参数相乘，得到两个模态各自的加权特征向量，并对两个模态的加权特征向量进行向量外积相乘，获取亲和矩阵；对亲和矩阵按行和列分别进行伸缩变换，以获取第一矩阵和第二矩阵；根据两个模态的第一特征向量、第一矩阵和第二矩阵，获取两个模态各自的候选特征向量。

在一些实现中，第二获取模块1020，还用于：获取候选特征向量中每个特征元素的语义信息；选取语义信息小于预设的替换因子的特征元素，作为目标特征元素。

在一些实现中，第二获取模块1020，还用于：针对任一组，基于组内其中一个候选特征向量中目标特征元素的位置，获取组内另一候选特征向量中位置上待替换特征元素；将目标特征元素的语义信息替换为待替换特征元素的语义信息。

在一些实现中，第二获取模块1020，还用于：对任一组内两个模态的第一特征向量并行地进行多次语义信息提取和替换，获取两个模态的多个候选第二特征向量；将多个候选第二特征向量进行拼接，获取两个模态各自的第二特征向量。

在一些实现中，第三获取模块1030，还用于：将第二特征向量与预设线性映射的矩阵相乘和归一化处理，获取第三特征向量；对两个模态的第三特征向量之间进行逐元素相乘，获取任一组对应的第四特征向量；对每个分组的第四特征向量进行逐元素相乘，得到多模态联合特征向量。

在一些实现中，补全模块1040，还用于：获取多模态知识图谱的头实体嵌入向量和关系嵌入向量；根据多模态联合特征向量、头实体嵌入向量和关系嵌入向量，预测出多模态知识图谱头实体对应的尾实体；基于头实体对应的尾实体，对多模态知识图谱进行补全，获取目标多模态知识图谱。

在一些实现中，补全模块1040，还用于：根据多模态联合特征向量、头实体嵌入向量和关系嵌入向量，生成多模态联合特征图；根据多模态联合特征图，对多模态知识图谱头实体的进行尾实体预测，获取头实体对应的尾实体。

在一些实现中，补全模块1040，还用于：将多模态联合特征图入卷积层，获取目标特征图；将目标特征图进行展平操作后输入全连接层，获取尾实体嵌入向量；根据尾实体嵌入向量，获取头实体对应的尾实体。

在一些实现中，补全模块1040，还用于：获取多模态知识图谱的候选实体的实体嵌入向量；获取实体嵌入向量和尾实体嵌入向量的相似度；根据相似度，从候选实体中确定头实体对应的尾实体。

图11是本公开一个实施例的多模态知识图谱补全模型的训练装置的结构图，如图11所示，多模态知识图谱补全模型的训练装置1100包括：

第一获取模块1110，用于获取样本多模态知识图谱及其对应的样本三元组；

第二获取模块1120，用于基于样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取样本多模态知识图谱的补全多模态知识图谱，以及补全多模态知识图谱的预测三元组；

第三获取模块1130，用于根据样本三元组和预测三元组对多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型；其中，任一三元组包括头实体、尾实体以及头实体和尾实体之间的关系。

在一些实现中，第三获取模块1130，还用于：从样本三元组中获取样本尾实体，以及从预测三元组中获取预测尾实体；获取样本尾实体和预测尾实体之间的损失；根据损失调整多模态知识图谱补全模型。

在一些实现中，第二获取模块1020，还用于：基于样本多模态知识图谱的样本三元组，获取样本多模态知识图谱的逆三元组，作为样本多模态知识图谱另一样本三元组；将样本多模态知识图谱和样本三元组，构成正样本；将样本多模态知识图谱和逆三元组，构成负样本；基于正样本和负样本，对多模态知识图谱补全模型进行训练。

在一些实现中，第二获取模块1020，还用于：将样本多模态知识图谱，输入多模态知识图谱补全模型中；由多模态知识图谱补全模型对样本多模态知识图谱进行特征提取，获取各模态的第一特征向量；对各模态进行两两分组，并对任一组内两个模态的第一特征向量进行语义信息提取和替换，获取任一组两个模态各自的第二特征向量；对每个分组对应的第二特征向量进行融合，获取多模态联合特征向量；基于多模态联合特征向量，输出样本多模态知识图谱的补全多模态知识图谱。

图12是本公开一个实施例的多模态知识图谱的补全装置的结构图，如图12所示，多模态知识图谱的补全装置1200包括：

补全模块1210，用于将待补全的多模态知识图谱输入训练后的多模态知识图谱补全模型中，以获取补全后的目标多模态知识图谱；

其中，多模态知识图谱补全模型采用如上述多模态知识图谱补全模型的训练装置进行训练。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图13示出了可以用来实施本公开的实施例的示例电子设备1300的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图13所示，设备1300包括计算单元1301，其可以根据存储在只读存储器(ROM)1302中的计算机程序或者从存储单元1308加载到随机访问存储器(RAM)1303中的计算机程序，来执行各种适当的动作和处理。在RAM 1303中，还可存储设备1300操作所需的各种程序和数据。计算单元1301、ROM 1302以及RAM 1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接至总线1304。

设备1300中的多个部件连接至I/O接口1305，包括：输入单元1306，例如键盘、鼠标等；输出单元1307，例如各种类型的显示器、扬声器等；存储单元1308，例如磁盘、光盘等；以及通信单元1309，例如网卡、调制解调器、无线通信收发机等。通信单元1309允许设备1300通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1301可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1301执行上文所描述的各个方法和处理，例如多模态知识图谱的补全方法方法的步骤或多模态知识图谱补全模型的训练方法。例如，在一些实施例中，多模态知识图谱的补全方法方法的步骤或多模态知识图谱补全模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1308。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1302和/或通信单元1309而被载入和/或安装到设备1300上。当计算机程序加载到RAM 1303并由计算单元1301执行时，可以执行上文描述的多模态知识图谱的补全方法方法的步骤或多模态知识图谱补全模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1301可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行多模态知识图谱的补全方法方法的步骤或多模态知识图谱补全模型的训练方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种多模态知识图谱的补全方法，包括：

对各模态进行两两分组，并对任一组内两个模态的所述第一特征向量进行语义信息提取和替换，获取所述任一组两个模态各自的第二特征向量；

对每个分组对应的所述第二特征向量进行融合，获取多模态联合特征向量；

基于所述多模态联合特征向量，对所述多模态知识图谱进行补全，获取目标多模态知识图谱。

2.根据权利要求1所述的方法，其中，所述对任一组内两个模态的所述第一特征向量进行语义信息提取和替换，获取所述任一组两个模态各自的第二特征向量，包括：

对所述任一组内两个模态的所述第一特征向量进行协同注意力的语义信息提取，获取所述两个模态各自的候选特征向量；

从所述两个模态的所述候选特征向量中，筛选出需要进行语义信息替换的目标特征元素；

确定所述目标特征元素在所述候选特征向量中的位置，基于所述位置进行同位置语义信息替换，获取所述第二特征向量。

3.根据权利要求2所述的方法，其中，所述对所述任一组内两个模态的所述第一特征向量进行协同注意力的语义信息提取，获取所述两个模态各自的候选特征向量，包括：

将所述任一组内两个模态的所述第一特征向量分别与各自的权重参数相乘，得到所述两个模态各自的加权特征向量，并对所述两个模态的加权特征向量进行向量外积相乘，获取亲和矩阵；

对所述亲和矩阵按行和列分别进行伸缩变换，以获取第一矩阵和第二矩阵；

根据所述两个模态的所述第一特征向量、所述第一矩阵和所述第二矩阵，获取所述两个模态各自的候选特征向量。

4.根据权利要求2所述的方法，其中，所述从所述两个模态的所述候选特征向量中，筛选出需要进行语义信息替换目标特征元素，包括：

获取所述候选特征向量中每个特征元素的语义信息；

选取所述语义信息小于预设的替换因子的特征元素，作为所述目标特征元素。

5.根据权利要求2或4所述的方法，其中，所述基于所述位置进行同位置语义信息替换，包括：

针对所述任一组，基于组内其中一个候选特征向量中所述目标特征元素的位置，获取组内另一候选特征向量中所述位置上待替换特征元素；

将所述目标特征元素的语义信息替换为所述待替换特征元素的语义信息。

6.根据权利要求1所述的方法，其中，所述对任一组内两个模态的所述第一特征向量进行语义信息提取和替换，获取所述任一组两个模态各自的第二特征向量，包括：

对所述任一组内两个模态的所述第一特征向量并行地进行多次语义信息提取和替换，获取所述两个模态的多个候选第二特征向量；

将所述多个候选第二特征向量进行拼接，获取所述两个模态各自的第二特征向量。

7.根据权利要求1所述的方法，其中，所述对每个分组对应的所述第二特征向量进行融合，获取多模态联合特征向量，包括：

将所述第二特征向量与预设线性映射的矩阵相乘和归一化处理，获取第三特征向量；

对所述两个模态的所述第三特征向量之间进行逐元素相乘，获取所述任一组对应的第四特征向量；

对每个分组的所述第四特征向量进行逐元素相乘，得到所述多模态联合特征向量。

8.根据权利要求1-7任一项所述的方法，其中，所述基于所述多模态联合特征向量，对所述多模态知识图谱进行补全，获取目标多模态知识图谱，包括：

获取所述多模态知识图谱的头实体嵌入向量和关系嵌入向量；

根据所述多模态联合特征向量、所述头实体嵌入向量和所述关系嵌入向量，预测出所述多模态知识图谱头实体对应的尾实体；

基于所述头实体对应的所述尾实体，对所述多模态知识图谱进行补全，获取所述目标多模态知识图谱。

9.根据权利要求8所述的方法，其中，所述根据所述多模态联合特征向量、所述头实体嵌入向量和所述关系嵌入向量，预测出所述多模态知识图谱头实体对应的尾实体，包括：

根据所述多模态联合特征向量、所述头实体嵌入向量和所述关系嵌入向量，生成多模态联合特征图；

根据所述多模态联合特征图，对所述多模态知识图谱头实体的进行尾实体预测，获取所述头实体对应的所述尾实体。

10.根据权利要求9所述的方法，其中，所述根据所述多模态联合特征图，对所述多模态知识图谱头实体的进行尾实体预测，获取所述头实体对应的尾实体，包括：

将所述多模态联合特征图入卷积层，获取目标特征图；

将所述目标特征图进行展平操作后输入全连接层，获取尾实体嵌入向量；

根据所述尾实体嵌入向量，获取所述头实体对应的所述尾实体。

11.根据权利要求10所述的方法，其中，所述根据所述尾实体嵌入向量，获取所述头实体对应的所述尾实体，包括：

获取所述多模态知识图谱的候选实体的实体嵌入向量；

获取所述实体嵌入向量和所述尾实体嵌入向量的相似度；

根据所述相似度，从所述候选实体中确定所述头实体对应的所述尾实体。

12.一种多模态知识图谱补全模型的训练方法，包括：

获取样本多模态知识图谱及其对应的样本三元组；

基于所述样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取所述样本多模态知识图谱的补全多模态知识图谱，以及所述补全多模态知识图谱的预测三元组；

根据所述样本三元组和所述预测三元组对所述多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型；

其中，任一三元组包括头实体、尾实体以及所述头实体和所述尾实体之间的关系。

13.根据权利要求12所述的方法，其中，所述根据所述样本三元组和所述预测三元组对所述多模态知识图谱补全模型进行调整，包括：

从所述样本三元组中获取样本尾实体，以及从所述预测三元组中获取预测尾实体；

获取所述样本尾实体和所述预测尾实体之间的损失；

根据所述损失调整所述多模态知识图谱补全模型。

14.根据权利要求12所述的方法，其中，所述基于所述样本多模态知识图谱对多模态知识图谱补全模型进行训练，还包括：

基于所述样本多模态知识图谱的样本三元组，获取所述样本多模态知识图谱的逆三元组，作为所述样本多模态知识图谱另一样本三元组；

将所述样本多模态知识图谱和所述样本三元组，构成正样本；

将所述样本多模态知识图谱和所述逆三元组，构成负样本；

基于所述正样本和所述负样本，对所述多模态知识图谱补全模型进行训练。

15.根据权利要求12-14任一项所述的方法，其中，所述基于所述样本多模态知识图谱对多模态知识图谱补全模型进行训练，包括：

将所述样本多模态知识图谱，输入所述多模态知识图谱补全模型中；

由所述多模态知识图谱补全模型对所述样本多模态知识图谱进行特征提取，获取各模态的第一特征向量；

基于所述多模态联合特征向量，输出所述样本多模态知识图谱的补全多模态知识图谱。

16.一种多模态知识图谱的补全方法，包括：

其中，所述多模态知识图谱补全模型采用如权利要求12-15任一项所述的训练方法进行训练。

17.一种多模态知识图谱的补全装置，包括：

第二获取模块，用于对各模态进行两两分组，并对任一组内两个模态的所述第一特征向量进行语义信息提取和替换，获取所述任一组两个模态各自的第二特征向量；

第三获取模块，用于对每个分组对应的所述第二特征向量进行融合，获取多模态联合特征向量；

补全获取模块，用于基于所述多模态联合特征向量，对所述多模态知识图谱进行补全，获取目标多模态知识图谱。

18.根据权利要求17所述的装置，其中，所述第二获取模块，还用于：

19.根据权利要求18所述的装置，其中，所述对第二获取模块，还用于：

20.根据权利要求18所述的装置，其中，所述第二获取模块，还用于：

获取所述候选特征向量中每个特征元素的语义信息；

21.根据权利要求18或20所述的装置，其中，所述第二获取模块，还用于：

22.根据权利要求17所述的装置，其中，所述第二获取模块，还用于：

23.根据权利要求17所述的装置，其中，所述第三获取模块，还用于：

24.根据权利要求17-23任一项所述的装置，其中，所述补全模块，还用于：

25.根据权利要求24所述的装置，其中，所述补全模块，还用于：

26.根据权利要求25所述的装置，其中，所述补全模块，还用于：

将所述多模态联合特征图入卷积层，获取目标特征图；

27.根据权利要求26所述的装置，其中，所述补全模块，还用于：

获取所述多模态知识图谱的候选实体的实体嵌入向量；

获取所述实体嵌入向量和所述尾实体嵌入向量的相似度；

28.一种多模态知识图谱补全模型的训练装置，包括：

第二获取模块，用于基于所述样本多模态知识图谱对多模态知识图谱补全模型进行训练，以获取所述样本多模态知识图谱的补全多模态知识图谱，以及所述补全多模态知识图谱的预测三元组；

第三获取模块，用于根据所述样本三元组和所述预测三元组对所述多模态知识图谱补全模型进行调整，并返回使用下一样本多模态知识图谱继续训练，直至训练结束获取目标多模态知识图谱补全模型；其中，任一三元组包括头实体、尾实体以及所述头实体和所述尾实体之间的关系。

29.根据权利要求28所述的装置，其中，所述第三获取模块，还用于：

获取所述样本尾实体和所述预测尾实体之间的损失；

根据所述损失调整所述多模态知识图谱补全模型。

30.根据权利要求28所述的装置，其中，所述第二获取模块，还用于：

将所述样本多模态知识图谱和所述逆三元组，构成负样本；

31.根据权利要求28-30任一项所述的装置，其中，所述第二获取模块，还用于：

32.一种多模态知识图谱的补全装置，包括：

补全模块，用于将待补全的多模态知识图谱输入训练后的多模态知识图谱补全模型中，以获取补全后的目标多模态知识图谱；

其中，所述多模态知识图谱补全模型采用如权利要求28-31任一项所述的训练装置进行训练。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11或权利要求12-15或权利要求16中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-11或权利要求12-15或权利要求16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-11或权利要求12-15或权利要求16中任一项所述方法的步骤。