CN113887585A

CN113887585A - 基于编解码网络的图像-文本多模态融合方法

Info

Publication number: CN113887585A
Application number: CN202111087906.8A
Authority: CN
Inventors: 陈咪咪; 陈思华; 刘平英; 高昂昂
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-01-04

Abstract

本发明涉及一种基于编解码网络的图像‑文本多模态融合方法，属于计算机视觉、自然语言处理、模式识别技术领域。该方法包括如下步骤：S1：在现有目标检测数据集的基础上对其进行手动标记生成文本信息，构建新的图像‑文本数据集，并将数据集划分为训练集、验证集和测试集；S2：选择适合的优化学习方法，设置相关超参数，将训练集和验证集通过编解码网络模型进行训练；S3：训练结束后，在测试集中任选一张图片，输入编解码网络模型，加载训练好的模型权重，最终检测出所对应的目标结果。本发明采用图像‑文本融合处理的方法，利用同一个事物的两种不同类型的数据进行融合处理，能够使网络训练时精确度更高，进而识别出相关所需让目标。

Description

基于编解码网络的图像-文本多模态融合方法

技术领域

本发明涉及一种基于编解码网络的图像-文本多模态融合方法，属于计算机视觉、自然语言处理、模式识别技术领域。

背景技术

近年来，随着人工智能技术的快速发展，涌现出了一大批基于深度学习的目标检测算法。目标检测即找出图像中所有感兴趣的物体，包含物体定位和物体分类两个子任务，同时确定物体的类别和位置。目前基于深度学习的目标检测模型主要有YOLO、ResNet、SSD及基于卷积神经网络(CNN)系列模型等等。对于经典的基于深度学习的目标检测算法往往仅通过图像一个维度进行，因此相关领域的学者为了使其获得更高的精度，便对网络进行不断的改进，对于网络的改进往往更多采用改进深度网络的方法来实现，而对于深度网络不断的增加层数可能会导致梯度消失，梯度***等问题。为了解决这些问题，有学者提出了许多改进的网络结构，但此结构会使得网络变得更为复杂。

发明内容

对于上述问题，结合多任务联合处理的思想，本发明提出了一种基于编解码网络的图像-文本多模态融合方法。通过对图像的处理以及图像相对应的文本的处理所获得的特征矩阵进行融合处理，从而能够使得文本信息与图像信息相互融合，获得处理后更准确的结果。

本发明为解决其技术问题采用如下技术方案：

一种基于编解码网络的图像-文本多模态融合方法，包括如下步骤：

S1：在现有目标检测数据集的基础上对其进行手动标记生成文本信息，构建新的图像-文本数据集，并将数据集按照6：2：2的比例划分为训练集、验证集和测试集；

S2：选择适合的优化学习方法，设置相关超参数，将S1中所述的训练集和验证集通过编解码网络模型进行训练；

S3：训练结束后，在测试集中任选一张图片，输入编解码网络模型，加载训练好的模型权重，最终检测出所对应的目标结果。

步骤S2中所述编解码网路模型包括：

编码器，对给定的输入图像特征矩阵的尺度进行剪裁；

注意层，将编码后所获得的图像矩阵进行提取相关主要信息，减弱次要干扰信息；

解码器，将注意层的特征矩阵尺寸扩大至与输入矩阵相同尺寸。

所述编码器和解码器均为四个，每个编码器块包含两个卷积核为3x3的卷积层以及一个卷积核为2x2的最大池化层，每个解码器块包含两个卷积核为3x3的反卷积层和一个卷积核为2x2的最大池化层。

所述注意层由空洞金字塔池化(ASPP)和全局平均池化层(global averagepooling)并行处理。

所述空洞金字塔池化采用的是卷积核为3x3的空洞卷积。

步骤S2所述适合的优化学习方法为随机梯度优化器，所述相关的超参数为学习率、批尺寸、动量和权重衰减系数。

本发明的有益效果如下：

本发明采用图像-文本融合处理的方法，利用同一个事物的两种不同类型的数据进行融合处理，能够使网络训练时精确度更高，进而识别出相关所需让目标。

附图说明

图1为网络结构图。

图2为注意力模块结构图。

图3为训练集示意图，其中(a1)、(a2)、(a3)为图像通道原图；(b1)、(b2)、(b3)为图像标签；(c1)、(c2)、(c3)为图像对应文本信息。

图4为分割预测结果图，其中(a)为飞机分割预测结果图；(b)为摩托车分割预测结果图；(c)为人和马分割预测结果图。

具体实施方式

下面结合附图对本发明创造做进一步详细说明。

本发明提出了一种基于编解码网络的图像-本文多模态融合方法。本发明能够通过对于图像信息以及文本信息的融合处理，获取其特征矩阵。对于文本信息与图像信息的特征矩阵再次通过编解码网络的处理能够使其信息融合，同时为了能够更好的关注到有用的特征信息，在编解码网络的中间加入了注意力机制，通过采用空间金字塔池化以及全局平均池化并行处理。如图1所示为网络的结构图，图2所示为注意力模块示意图。

多模态信息的处理首选需要对与每个模态进行处理获得其特征矩阵，对于图像通道而言，本发明采用的是3D-Resnet网络进行处理，此网络的最终不需要图像进行分类，直接学习获得图像的特征矩阵以及权重比。文本模块采用长短时记忆网络(LSTM)，本网络能够较好的学习文本的上下文信息，从而能够准确的理解文本内容。此通道与图像通道相似，最后仅生成特征矩阵以及权重比，并不需要进行分类处理。

获得了图像以及文本的特征信息之后，便需要对其进行跨模态的融合。本发明采用的直接是编解码网络对其进行特征融合，通过文本与图像信息的特征矩阵对其进行卷积编码，从而能够获得较为精确的feature map(特征矩阵)，再对其进行反卷积，最终通过分类器的分类能够获得最终的结果。

对于编解码网络中，编码器均采用一个3x3的卷积，每次卷积后都带有Relu的激活函数，两次卷积后进行一次2x2的最大池化。解码器采用3x3的卷积带Relu激活函数，两次卷积后进行一次2x2的上采样反卷积。

本发明的使用方法如下：首先，输入图像与文本，图像通过3D-Resnet网络进行处理，学习获得图像的特征矩阵以及权重比。文本通过长短时记忆网络进行处理，获得文本的特征矩阵以及权重比。

然后图像特征和文本特征通过预训练的编解码网络进行特征融合。融合过程中，通过文本与图像信息的特征矩阵对其进行卷积编码，从而能够获得较为单一精确的feature map(特征矩阵)，再对其进行反卷积，最终通过分类器的分类能够获得最终的结果。

其中，为了能够更好的学***均池化的并行处理。空间金字塔池化中采用的是空洞卷积，加大卷积过程的感受野，使得每个卷积输都包含较大范围的信息。最终在通过一个1x1的卷积将通道数降低到预期的数值。在金字塔池化操作的时候，将设计全局平均池化一同并行处理，即在所有的特征图中，累加所有的像素值，再对其取平均。通过空间金字塔池化与全局平均池化后，再使用1x1的卷积对其特征进行处理后所获得特征图中基本滤去不重要的噪声干扰。最后通过加入Sigmod激活函数，获得一个新的特征矩阵，用于扩大感受野以获取高阶信息。

另外，本发明引入了两个损失函数对模型进行约束，分别是binary crossentropy(二元交叉熵)和Dice coefficient函数。

模型的总损失公式为

L＝L_B+L_D

其中：L_B为binary cross entrop(二元交叉熵)损失函数，L_D为Dice coefficient损失函数，公式分别如下：

其中：x_i为第i个图像-文本中的图像，y_i为第i个图像-文本中的文本，

为预测第i个图像-文本中的文本，n为图像-文本样本数量，output_siz表示输出数据大小。

本发明在现有目标检测数据集上加入文本信息构成了新的数据集，一共选取了1000个不同的目标检测图片，一共包含了20类：person(人),bird(鸟),cat(猫),cow(奶牛),dog(狗),horse(马),sheep(羊),aeroplane(飞机),bicycle(自行车),boat(船),bus(公共汽车),car(小轿车),motorbike(摩托车),train(火车),bottle(瓶子),chair(椅子),dining table(餐桌),potted plant(盆栽植物),sofa(沙发),tv/monitor(电视)。并且对其进行手动标记且手动生成文本信息。文本信息为一小段短语，主要包含了图片中的相关信息。将数据集按照6：2：2的比例分成训练集、测试集和验证集。

网络模型训练通过随机梯度下降(SGD)，对数据集中的训练集进行训练，设置超参数，得到权重矩阵。然后对测试集中的数据进行测试，获得模型的准确度。

图3为训练集示意图。图中为训练集选取的三组数据，(a1)、(a2)、(a3)为图像通道原图；(b1)、(b2)、(b3)为图像标签；(c1)、(c2)、(c3)为图像对应文本信息。

图4为预测分割结果图，图中可以清晰的观察到通过本发明的网络预测后，能够较为准确的识别出图中物体，且框选出来，并且标注物体名称。图(a)是通过网络预测后的结果图，框出了飞机，并标注plane(飞机)。图(b)通过网络预测，框出了摩托车，并标注motorbike(摩托车)。图(c)通过网络预测，检测出人和马，分别框出人和马并标注person(人)和horse(马)，可见本发明对多目标的检测分类同样适用。

Claims

1.一种基于编解码网络的图像-文本多模态融合方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于编解码网络的图像-文本多模态融合方法，其特征在于，步骤S2中所述编解码网路模型包括：

编码器，对给定的输入图像特征矩阵的尺度进行剪裁；

3.根据权利要求2所述的基于编解码网络的图像-文本多模态融合方法，其特征在于，所述编码器和解码器均为四个，每个编码器块包含两个卷积核为3x3的卷积层以及一个卷积核为2x2的最大池化层，每个解码器块包含两个卷积核为3x3的反卷积层和一个卷积核为2x2的最大池化层。

4.根据权利要求2所述的基于编解码网络的图像-文本多模态融合方法，其特征在于，所述注意层由空洞金字塔池化和全局平均池化层并行处理。

5.根据权利要求4所述的基于编解码网络的图像-文本多模态融合方法，其特征在于，所述空洞金字塔池化采用的是卷积核为3x3的空洞卷积。

6.根据权利要求1所述的基于编解码网络的图像-文本多模态融合方法，其特征在于，步骤S2所述适合的优化学习方法为随机梯度优化器，所述相关的超参数为学习率、批尺寸、动量和权重衰减系数。