CN111598214B

CN111598214B - 一种基于图卷积神经网络的跨模态检索方法

Info

Publication number: CN111598214B
Application number: CN202010254505.6A
Authority: CN
Inventors: 白琮; 周鹏飞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2023-04-18
Anticipated expiration: 2040-04-02
Also published as: CN111598214A

Abstract

一种基于图卷积神经网络的跨模态检索方法，包括网络构建、数据集预处理、网络训练和检索与精度测试四个过程。利用图卷积神经网络分别学习图像模态和文本模态中的语义表征，可以帮助处理各模态特征之间的潜在联系，其将第三模态的关联数据引入跨模态检索方法中，以缩小模态间的语义鸿沟，可以显著提高跨模态检索的精确度与稳定性，从而实现准确的跨模态检索。

Description

一种基于图卷积神经网络的跨模态检索方法

技术领域

本发明涉及多模态检索领域，特别涉及一种端到端的跨模态检索方法。

背景技术

跨模态检索是一种使用一种模态的数据进行查询并返回其他不同模态下检索结果的方法，广泛应用于图像和文本数据的匹配。例如，在传统的图像到文本的跨模态检索任务中，通过检索将最相似的文本作为输出。近年来，随着深度学习的快速发展，目前的跨模态检索方法大多通过神经网络使用多模态数据直接检索，而不依赖于标签，但其方法简单地将跨模态检索算法与深度神经网络相结合，如选择图像中的几个特征进行降维操作等，大多没有充分利用多模态数据中潜在的深度信息，其对每个模态下的数据学习到的表征粒度较粗，不能保证其检索的准确性。因此跨模态检索在具体应用中还存在许多问题。同时，以往的跨模态检索模型大多只使用两种模态的数据，这些数据没法很好的刻画现实世界中的信息关联，如何尽可能有效地利用各种相关的多模态数据也是一个有待解决的技术问题。

发明内容

为了克服现有跨模态检索方法对多模态数据利用不充分、对不同模态间的数据表征能力差、检索精度低等不足，本发明提供一种精度高、能充分利用多种模态的数据、表征能力强的基于图卷积神经网络的跨模态检索方法，采用了最新的先进的基于图学习的神经网络技术，不仅可以更有效地提取深度语义特征，还可以挖掘特征在模态中的潜在相关性。因此本方法在端到端的跨模态检索任务中，能够有效地跨越模态之间的语义鸿沟检索出想要的数据。

本发明解决其技术问题所采用的技术方案是：

一种基于图卷积神经网络的跨模态检索方法，所述方法包括以下步骤：

步骤一、网络构建，过程如下：

步骤1.1：该深度学习网络主要框架由一个图像图卷积模型、一个文本图卷积模型及一个典型关联分析模型组成；

步骤1.2：其中图像图卷积模型有图像特征提取模型与图卷积神经网络结合组成，文本图卷积模型由文本特征提取模型与图卷积神经网络结合组成，图像特征提取模型选用预训练的ResNet-101卷积神经网络，文本特征提取模型选用预训练的BERT模型；

步骤1.3：典型关联分析模型的两路输入部分各接一个空间金字塔池化层与一个全连接层，全连接层后面接ReLU激活函数；

步骤1.4：最后连接到典型关联分析范式层，包括典型关联分析函数与损失函数，选用的损失函数为Pairwise排序损失；

步骤二、数据集预处理，过程如下：

步骤2.1：将用于正式训练的多模态数据集包含成对的图像、文本、图像关联数据和文本关联数据三种模态的数据，将该数据集按照对分为训练集Q和测试集Q’两部分；

步骤2.2：对用于提取特征的两个图卷积模型使用多标签分类数据集进行预训练微调参数；

步骤2.3：将预训练好的图卷积模型参数读入跨模态检索模型的对应图卷积模型处；

步骤三、网络训练，过程如下：

步骤3.1：将Q中每个训练样本中的图像与文本作为两路输入送入跨模态检索模型；

步骤3.2：对图像使用卷积神经网络提取图像特征，对文本使用BERT提取文本特征；

步骤3.3：将提取的特征分别采用全局最大池化表征为特征向量，分别送入预训练好的图卷积神经网络进行上采样：

步骤3.4：将上一步骤输出的特征图以特征矩阵的形式表示，并分别送入空间金字塔池化层进行下采样；

步骤3.5：将得到的图像特征向量与训练样本中的图像关联数据进行特征融合，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合；

步骤3.6：将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析模块，进行最终跨模态匹配部分的训练；

步骤四、检索与精度测试，过程如下：

步骤4.1：将预处理好的测试数据集Q’送入训练得到的最优模型，采用文本到图像的检索进行跨模态检索测试；

步骤4.2：使用跨模态检索模型对输入的文本及其关联数据进行跨模态匹配，匹配到最优的top5段不同的图像及其关联数据，并使用支持向量机判断匹配的文本图像对所属类别，记录检索结果；

步骤4.3：比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致，根据数据检索中的评价指标计算所有问询文本的准确率；

经过上述步骤的操作，即可实现跨模态检索。

进一步，所述步骤1.2中，将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器，其预训练过程在多标签图像数据集MSCOCO上进行；将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器，其预训练过程在多标签的文本数据集Google News上进行，将预训练好的多标签分类器中的图卷积神经网络放入跨模态检索模型中进行下一步的训练。

所述步骤1.3中，典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层，空间金字塔池化层将输入矩阵共分为21个空间，对每一个空间采用全局最大池化方法。

所述步骤3.5中，将得到的图像特征向量与训练样本中的图像关联数据进行特征融合，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合，两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。

本发明的有益效果主要体现在：本发明提出了一种新的跨模态检索方法，它利用图卷积神经网络分别学习图像模态和文本模态中的语义表征，可以帮助处理各模态特征之间的潜在联系，其将第三模态的关联数据引入跨模态检索方法中，以缩小模态间的语义鸿沟，可以显著提高跨模态检索的精确度与稳定性，从而实现准确的跨模态检索。

附图说明

图1为基于图卷积神经网络的跨模态检索模型的框架示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合具体实施例，并参照附图对本发明作更进一步的说明。

参照图1，一种基于图卷积神经网络的跨模态检索方法，包括网络构建、数据集预处理、网络训练和检索与精度测试四个过程。

本实施案例使用的多模态数据集共含有4500对多模态数据对，每一对多模态数据对包含一张图像、一组图像关联数据、一段文字以及一组文字关联数据。其中每一对都标有一个类别标签，该标签共有三类。

所述基于图卷积神经网络的跨模态检索方法，包括以下步骤：

步骤一、网络构建，过程如下：

步骤1.1：将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器，其预训练过程在多标签图像数据集MSCOCO上进行；

步骤1.2：将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器，其预训练过程在多标签的文本数据集Google News上进行；

步骤1.3：图像特征提取器Res-GCN和文本特征提取器BERT-GCN后各自连接一个空间金字塔池化层，空间金字塔池化层包括特征图池化部分和特征向量融合部分，特征图池化选用基于最大池化的空间金字塔池化方法；

步骤1.4：空间金字塔池化层后接一个全连接层，使用ReLU激活函数；

步骤1.5：最后连接到典型关联分析范式层，包括典型关联分析函数与损失函数，选用的损失函数为Pairwise类的排序损失，使用的典型关联分析函数为

其中s_x是x模态下的输入数据集合，s_y是y模态下的输入数据集合，w_x与w_y分别是每一模态下的权重因子，公式(1)代表了将两种不同模态数据映射到同一空间下的典型关联分析函数。

步骤二、数据集预处理，过程如下：

步骤2.1：将用于正式训练的多模态数据集共包含4500对的图像、文本、图像关联数据和文本关联数据三种模态的数据，将该数据集分为训练集Q(含3000对)和测试集Q’(含1500对)两部分；

步骤三、网络训练，过程如下：

步骤3.1:设定学习率为0.00001，批大小设置为32，分别用随机权值初始化参数，100次迭代为一次完整训练，模型共进行10次完整训练，选取最终训练完成的模型作为最优模型；

步骤3.2:将每个训练样本中的图像与文本作为两路输入送入跨模态检索模型；

步骤3.3：对上支线的图像使用ResNet-101卷积神经网络提取图像特征，将提取的特征采用全局最大池化表征为特征向量，然后送入预训练好的图卷积神经网络进行上采样，输出一个基于语义项链的特征图：

步骤3.4：对下支线的文本使用BERT提取文本特征，将提取的特征采用全局最大池化表征为特征向量，然后送入预训练好的图卷积神经网络进行上采样，输出一个基于语义向量的特征图：

步骤3.5：将上一步骤输出的特征图以特征矩阵的形式表示，其维度为输出的图节点数量，为了解决维度不确定的问题，将两路特征矩阵各自送入空间金字塔池化层进行下采样，输出为21维的特征向量；

步骤3.6：对于两路空间金字塔池化得到的21维特征向量将得到的图像特征向量与训练样本中的图像关联数据进行特征融合得到28维的特征向量，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合得到24维的特征向量；

步骤3.7：将两路各自融合得到的特征向量经过一层全连接层送入典型关联分析范式层，进行最终跨模态匹配部分的训练，其中包括典型关联分析函数与损失函数，训练的损失函数为Pairwise排序损失，表示为

其中，S(x，y)＝cos(x，y)，cos(·)是余弦函数，x代表x模态数据映射到子空间的样本，y代表与x相匹配的y模态样本，y_k代表不匹配的y模态样本，k代表y模态中不匹配的样本个数，α为定义损失函数边缘的超参数，公式(2)代表了Pairwise排序损失损失函数。

步骤四、检索与精度测试，过程如下：

步骤4.1：将预处理好的测试数据集送入训练得到的最优模型进行检索测试，采用文本到图像的检索进行跨模态检索测试；

步骤4.2：使用跨模态检索模型，结合输入的测试数据集中的文本关联数据对文本进行跨模态匹配，匹配到最优的top5段图像及其关联数据，并使用支持向量机判断匹配的文本图像对所属类别，记录检索结果；

步骤4.3：比较问询图像的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致，根据数据检索中的评价指标计算所有问询文本的准确率；

经过上述步骤的操作，即可实现多模态数据间的跨模态检索。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例，用于解释本发明，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图卷积神经网络的跨模态检索方法，其特征在于，所述方法包括以下步骤：

步骤一、网络构建，过程如下：

步骤二、数据集预处理，过程如下：

步骤三、网络训练，过程如下：

步骤四、检索与精度测试，过程如下：

步骤4.3：比较问询文本的类别标签和跨模态检索模型返回的文本图像对类别标签是否一致，根据数据检索中的评价指标计算所有问询文本的准确率。

2.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法，其特征在于，所述步骤1.2中，将ResNet-101与图卷积神经网络(GCN)结合组成的Res-GCN作为图像的特征提取器，其预训练过程在多标签图像数据集MSCOCO上进行。

3.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法，其特征在于，所述步骤1.2中，将BERT与图卷积神经网络(GCN)结合组成的BERT-GCN作为文本的特征提取器，其预训练过程在多标签的文本数据集Google News上进行。

4.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法，其特征在于，所述步骤1.3中，典型关联分析模型的两路输入部分各接一个空间金字塔池化层和全连接层，空间金字塔池化层将输入矩阵共分为21个空间，对每一个空间采用全局最大池化方法。

5.如权利要求1所述的一种基于图卷积神经网络的跨模态检索方法，其特征在于，所述步骤3.5中，将得到的图像特征向量与训练样本中的图像关联数据进行特征融合，将得到的文本特征向量与训练样本中的文本关联数据进行特征融合，两路特征融合方法均为直接将空间金字塔输出的特征向量与关联数据向量进行连接。