CN108875807A

CN108875807A - 一种基于多注意力多尺度的图像描述方法

Info

Publication number: CN108875807A
Application number: CN201810551875.9A
Authority: CN
Inventors: 吴晓军; 张钰; 陈龙杰; 张玉梅
Original assignee: Shaanxi Normal University
Current assignee: Shaanxi Normal University
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-23
Anticipated expiration: 2038-05-31
Also published as: CN108875807B

Abstract

一种基于多注意力多尺度的图像描述方法，由选取用以提取图像特征的图像检测模型、划分网络训练集和验证集以及测试集、提取图像特征、构建注意力循环神经网络模型、训练注意力循环神经网络模型、图像描述步骤组成。由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型，提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下，采用该神经网络模型生成高质量的图像进行描述。

Description

一种基于多注意力多尺度的图像描述方法

技术领域

本发明图像处理技术领域，具体涉及多注意力多尺度的图像描述的方法。

技术背景

在诸如机器人问答、行人导盲、儿童辅助教育等领域，常常遇到要求对图像含义理解并通过文字语言传达给人的问题。图像描述是结合自然语言处理与计算机视觉两个领域，通过输入自然图像来生成与图像内容相对的语言文字。

因图像不仅仅含有指示物体类型、位置的基础信息，还拥有一些关系和情感等高层次的信息，如果只对图像物体进行检测识别，则会损失了大量的包含相互关系、情感等的上下文信息，因此如何通过对图像的特征有效利用，并生成相对应的文字描述一直是研究的难点。

近年来基于深度学习的技术在图像处理及语音分析领域取得了较大的进展，其中，卷积神经网络因其权值共享和稀疏连接的特点，使得网络模型复杂度大大降低。同时残差网络的出现，让构建一个更深的网络模型变得可能。长短期记忆网络的出现允许循环神经网络模型处理较长的序列，在文字序列解码上效果显著。

目前图像描述生成中主流的基于深度学习的算法主要是以卷积神经网络提取图像特征作为语言解码模型的输入，然后输入长短期记忆网络中并通过调整语言模型结构输出相对应的描述文字。常用的描述生成模型通过输入图像经由卷积神经网络提取的特征，并结合语言序列的向量特征作为长短期记忆网络的输入。以上方法虽然利用了输入图像中的上下文信息，但语言解码模型只使用单个注意力模型使用提取的图像特征，并且输入的图像只使用了高层语义特征，浅层卷积层提取的特征在网络模型中未被利用，浅层的特征对于图像描述的贡献被忽略。

注意力机制借鉴了人类视觉的选择性注意力机制。人类视觉通过快速浏览图像，重点关注图像中目标区域，即注意力焦点，并获取更多的目标细节，抑制其他无用信息，人类视觉注意力机制极大地提高了视觉信息处理的效率与准确性。从本质上讲，注意力机制和人类视觉的选择性注意力类似，核心目标也是从众多信息中选择出对当前任务目标更关键的信息，即突出对应于某个生成单词的图像空间特征。通过引入多个注意力模型，使模型可以使用图像不同层次的特征。

发明内容

本发明所要解决的技术问题在于克服上述现有技术的缺点，提供一种描述效果更好的基于多注意力多尺度的图像描述方法。

解决上述技术问题所采用的技术方案是由以下步骤组成：

(1)选取用以提取图像特征的图像检测模型

选取卷积神经网络区域目标检测方法构建成目标检测模型，使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练，选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。

(2)划分网络训练集、验证集、测试集

将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集，数据集划分方法为：在数据集中随机抽取总样本的90％作为网络训练集,总样本的5％作为验证集，总样本的剩余5％作为测试集。

(3)提取图像特征

将经过预训练的目标检测模型，使用101层残差结构的区域目标检测模型提取图像卷积数值特征，采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图。

(4)构建注意力循环神经网络模型

注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块，注意力特征映射模块与循环神经网络语言解码模块相连，构建成注意力循环神经网络模型。

本发明的循环神经网络语言解码模块为：该模块包括六层长短期记忆网络和一层Softmax网络，其中第一层长短期记忆网络的输入包括x_t，三部分，表示上一时刻第n层，即最终层，长短期记忆网络的输出状态，其中t表示当前时刻，t-1表示前一时刻，x_t表示经过热独编码后的词向量，是图像高层平均池化特征,为：

其中v_i为第i个区域的特征。将x_t，三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块。

(5)训练注意力循环神经网络模型

将网络训练集输入步骤(1)的目标检测模型，经过步骤(3)提取图像在不同深度卷积层上的数值特征图，输入步骤(4)构建的注意力循环神经网络模型中，提取数据集中所有描述构成单词表以及单词向量，通过使用自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型，使用交叉熵损失函数L_XE(θ)作为损失函数：

其中θ分别为目标语言的真实序列和图像描述生成模型解码器的参数，是长短期记忆网络解码器输出单词的概率。

训练注意力循环神经网络模型时，采用集束搜索方法训练注意力循环神经网络模型，再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型。

训练完成后，使用图像验证集测试训练好的注意力循环神经网络模型效果，并调整模型参数，得到注意力循环神经网络模型。

(6)图像描述

将步骤(2)得到的测试集输入步骤(5)训练好的注意力循环神经网络模型中，在该模型中，依次选取每个时间步概率最大的单词作为当前时间步的结果，将以上单词按照产生顺序连接并作为网络最后的输出，完成图像描述。

在本发明的构建多注意力神经网络步骤(3)中，本发明的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为：在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征，并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。

卷积数值特征的提取方法为：

V′＝{v₁,…,v_k},

式中V′表示以上k个区域的k个特征的集合，其中每一个特征代表了图像的一个显著区域，v_k表示图像卷积层中分割出的第k个区域平均池化卷积特征，k为有限的正整数。

在本发明的构建注意力神经网络步骤(4)中，本发明的注意力特征映射模块为：

注意力特征映射模块分为两个部分，包括网络状态和提取的卷积层中各个数值特征V_i，注意力特征映射模块如下式所示：

α_t＝softmax(a_t)

式中参数W_va、W_ha均为待学习的参数,α_t为注意力权重，输入注意力特征映射模块,输出带有参数的如下所示的图像特征:

式中v_i表示图像卷积层中分割出的第i个区域平均池化卷积特征，c_t为最后的输出结果，i、t为有限的正整数。

不同层次的数值特征输入不同的注意力模型的方法为：低层卷积数值特征连入位于循环神经网络模型低层的注意力模型中，高层卷积数值特征连入位于循环神经网络模型高层的注意力模型中。

在本发明构建多注意力多尺度循环神经网络步骤(4)中，本发明的注意力特征映射模块与循环神经网络语言解码模块相连方式为：依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络，第一层循环神经网络的输出与第一层注意力网络的输入相连，第一层注意力网络的输出与第二层循环神经网络的输入相连，第二层循环神经网络的输出与第二层注意力网络的输入相连，第二层注意力网络的输出与第三层循环神经网络的输入相连，第三层循环神经网络的输出与第三层注意力网络的输入相连，第三层注意力网络的输出与第四层循环神经网络的输入相连，第四层循环神经网络的输出与第四层注意力网络的输入相连，第四层注意力网络的输出与第五层循环神经网络的输入相连，第五层循环神经网络的输出与第五层注意力网络的输入相连，第五层注意力网络的输出与第六层循环神经网络的输入相连。

本发明的残差连接每一层循环神经网络的方法为：第一层循环神经网络的输出与第三层循环神经网络的输入相连，第二层循环神经网络的输出与第四层循环神经网络的输入相连，第三层循环神经网络的输出与第五层循环神经网络的输入相连，第四层循环神经网络的输出与第六层循环神经网络的输入相连。

本发明与现有的技术相比具有以下优点：

由于本发明构建了一个由提取原始图像特征、多注意力多尺度特征映射、循环神经网络残差连接、循环神经网络语言解码组成的图像描述生成网络模型，提高了图像描述的质量并丰富了图像描述的细节。本发明可以在仅拥有图像的情况下，采用该神经网络模型生成高质量的图像描述结果。

附图说明

图1是本发明实施例1的流程图。

图2是图1中构建多注意力多尺度神经网络中语言生成模块的流程图。

图3是采用自上而下网络模型处理方法与实施例1方法对图像描述的结果对比图。

具体实施方式

下面结合附图和实施例对本发明进一步详细说明，但本发明不限于下述的实施例。

实施例1

以在微软上下文常见对象2014数据集选取100000张图像为例，基于多注意力多尺度的图像描述生成方法由以下步骤组成：

(1)选取用以提取图像特征的图像检测模型

选取卷积神经网络区域目标检测方法构建成目标检测模型，卷积神经网络区域目标检测方法为已知的方法，已在《In Advances in neural information process ingsystems.2015》公开。使用帕斯卡视觉目标分类比赛的2007数据集对目标检测模型预训练，选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。

(2)划分网络训练集、验证集、测试集

将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集，数据集划分方法为：在100000张图象数据集中随机抽取90000张图像即90％作为网络训练集,5000张图象即5％作为验证集，5000张图象即5％作为测试集。

(3)提取图像特征

将经过预训练的目标检测模型，使用101层残差结构的区域目标检测模型提取图像卷积数值特征，101层残差结构为已知的结构，已在《Deep Residual Learning forImage Recognition》,采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图,平均池化方法为已知的唯一的一种方法。

上述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为：在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征，并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征。

卷积数值特征的提取方法为：

V′＝{v₁,…,v_k}

式中V′表示以上k个区域的k个特征的集合，其中每一个特征代表了图像的一个区域，v_k表示图像卷积层中分割出的第k个区域平均池化卷积特征，k为14。

(4)构建注意力循环神经网络模型

注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块，注意力特征映射模块为：

α_t＝softmax(a_t)

c_t＝∑_iα_tv_i

式中v_i表示图像卷积层中分割出的第i个区域平均池化卷积特征，c_t为最后的输出结果。

循环神经网络语言解码模块为：该模块包括六层长短期记忆网络和一层Softmax网络，其中第一层长短期记忆网络的输入包括x_t，三部分，表示上一时刻第n层(即最终层)长短期记忆网络的输出状态，其中t表示当前时刻，t-1表示前一时刻，x_t表示经过热独编码后的词向量，是图像高层平均池化特征，为：

注意力特征映射模块与循环神经网络语言解码模块相连，构建成注意力循环神经网络模型。

该步骤中的注意力特征映射模块与循环神经网络语言解码模块相连方式为：依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络，第一层循环神经网络的输出与第一层注意力网络的输入相连，第一层注意力网络的输出与第二层循环神经网络的输入相连，第二层循环神经网络的输出与第二层注意力网络的输入相连，第二层注意力网络的输出与第三层循环神经网络的输入相连，第三层循环神经网络的输出与第三层注意力网络的输入相连，第三层注意力网络的输出与第四层循环神经网络的输入相连，第四层循环神经网络的输出与第四层注意力网络的输入相连，第四层注意力网络的输出与第五层循环神经网络的输入相连，第五层循环神经网络的输出与第五层注意力网络的输入相连，第五层注意力网络的输出与第六层循环神经网络的输入相连。

该步骤中的残差连接每一层循环神经网络的方法为：第一层循环神经网络的输出与第三层循环神经网络的输入相连，第二层循环神经网络的输出与第四层循环神经网络的输入相连，第三层循环神经网络的输出与第五层循环神经网络的输入相连，第四层循环神经网络的输出与第六层循环神经网络的输入相连。

(5)训练注意力循环神经网络模型

将90000张图像作为网络训练集输入步骤(1)的目标检测模型，经过步骤(3)提取图像在不同深度卷积层上的数值特征图，输入步骤(4)构建的注意力循环神经网络模型中。

提取数据集中所有描述构成单词表以及单词向量，提取方法为：对微软上下文常见对象2014数据集中的所有描述，取句子中出现五次及其以上的单词组合为单词表，对单词表中每个单词采用独热编码方式进行编码，将数据集中的描述句子中每个单词的独热编码映射为一个嵌入式向量。通过使用《Adam:A Method for Stochastic Optimization》中自适应矩估计优化方法动态调整学习率来训练注意力循环神经网络模型，使用交叉熵损失函数L_XE(θ)作为损失函数：

训练注意力循环神经网络模型时，采用《Speech Understanding Systems:ASummary of Results of the Five-Year Research Effort.》中的集束搜索方法，设定长短期记忆网络层的隐藏节点以及注意力层隐藏节点数目为1000，使用学习率为1×10^-4训练注意力循环神经网络模型，再使用《Self-critical Sequence Training for ImageCaptioning》中自鉴别序列训练强化学习方法，并使用学习率为1×10^-5、1×10^-6依次训练注意力循环神经网络模型。训练完成后，用5000张图像验证集测试训练好的注意力循环神经网络模型效果，并调整模型参数，得到注意力循环神经网络模型。

(6)图像描述

将步骤(2)得到的测试集5000张图像输入步骤(5)训练好的注意力循环神经网络模型中，在该模型中，依次选取每个时间步概率最大的单词作为当前时间步的结果，将以上单词按照产生顺序连接并作为网络最后的输出，完成图像描述。

注意力循环神经网络模型训练完成后，采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价，得分为1.167。

实施例2

在选取用以提取图像特征的图像检测模型步骤(1)，选取卷积神经网络区域目标检测方法构建成目标检测模型，卷积神经网络区域目标检测方法为已知的方法，已在《InAdvances in neural information processing systems.2015》公开。使用帕斯卡视觉目标分类2012数据集对目标检测模型预训练，选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型。

其它步骤与实施例1相同。完成图像描述。

为了验证本发明的有益效果，发明人采用本发明实施例1的方法进行了仿真实验，实验情况如下：

1、仿真条件

硬件条件为：1块Nvidia TITAN Xp显卡，128G内存。

软件平台为：Pytorch框架。

2、仿真内容与结果

用本发明方法在上述仿真条件下进行实验，结果见图3，在图3中，第一行文字为采用自上而下网络模型的描述，第二行为本方法的描述，与现有技术相比，本发明具有以下优点：

本发明提出了一种构建多个层次注意力的方法，在同一时刻能够分别提取图像不同等级的特征，提高生成语句的表达能力。在多层长短期记忆网络中引入了残差学习机制，通过加法原理，将不同层次长短期记忆网络的输入、输出连接到一起，保证模型低层参数不会因为梯度弥散产生难以有效更新的问题。将多个注意力结构分层次融入网络中，并通过引入强化学习的方法训练模型，其输出的单词语句更加准确，进一步提升了***性能。注意力循环神经网络模型训练完成后，采用基于一致性的图像描述评价标准(CIDEr:Consensus-based Image Description Evaluation)对图像描述进行评价，得分为1.167，取得了较好的效果。

Claims

1.一种基于多注意力和多尺度的图像描述方法，其特征在于由以下步骤组成：

(1)选取用以提取图像特征的图像检测模型

选取卷积神经网络区域目标检测方法构建成目标检测模型，使用帕斯卡视觉目标分类2007数据集或帕斯卡视觉目标分类2012数据集对目标检测模型预训练，选取训练中目标检测效果最好的模型作为提取图像特征的目标检测模型；

(2)划分网络训练集、验证集、测试集

将微软上下文常见对象2014数据集划分为网络训练集、验证集、测试集，数据集划分方法为：在数据集中随机抽取总样本的90％作为网络训练集,总样本的5％作为验证集，总样本的剩余5％作为测试集；

(3)提取图像特征

将经过预训练的目标检测模型，使用101层残差结构的区域目标检测模型提取图像卷积数值特征，采用平均池化方法将图像卷积数值特征分别转化成14×14大小的数值特征图；

(4)构建注意力循环神经网络模型

注意力循环神经网络包含注意力特征映射模块、循环神经网络语言解码模块，注意力特征映射模块与循环神经网络语言解码模块相连，构建成注意力循环神经网络模型；

所述的循环神经网络语言解码模块为：该模块包括六层长短期记忆网络和一层Softmax网络，其中第一层长短期记忆网络的输入包括x_t，三部分，表示上一时刻第n层，即最终层，长短期记忆网络的输出状态，其中t表示当前时刻，t-1表示前一时刻，x_t表示经过热独编码后的词向量，是图像高层平均池化特征,为：

其中v_i为第i个区域的特征。将x_t，三部分输入语言模型的第一层长短期记忆网络结构中,得到循环神经网络语言解码模块；

(5)训练注意力循环神经网络模型

其中θ分别为目标语言的真实序列和图像描述生成模型解码器的参数，是长短期记忆网络解码器输出单词的概率；

训练注意力循环神经网络模型时，采用集束搜索方法训练注意力循环神经网络模型，再使用自鉴别序列训练强化学习方法训练注意力循环神经网络模型；

训练完成后，使用图像验证集测试训练好的注意力循环神经网络模型效果，并调整模型参数，得到注意力循环神经网络模型；

(6)图像描述

2.根据权利要求1所述的基于多注意力多尺度的图像描述生成方法，其特征在于在构建多注意力神经网络步骤(3)中，所述的使用101层残差结构的区域目标检测模型提取图像卷积数值特征为：在101层残差结构的区域目标检测模型的残差网络第一个最大池化层中提取卷积数值特征，并分别在该最大池化层后的每一组残差结构内最后的卷积层中提取卷积数值特征；

卷积数值特征的提取方法为：

V′＝{v₁,…,v_k},

3.根据权利要求1所述的基于多注意力多尺度的图像描述方法，其特征在于在构建注意力神经网络步骤(4)中，所述的注意力特征映射模块为：

α_t＝softmax(a_t)

式中v_i表示图像卷积层中分割出的第i个区域平均池化卷积特征，c_t为最后的输出结果，i、t为有限的正整数；

4.根据权利要求1所述的基于多注意力多尺度的图像描述方法，其特征在于：在构建多注意力多尺度循环神经网络步骤(4)中，所述的注意力特征映射模块与循环神经网络语言解码模块相连方式为：依次连接循环神经网络解码模块中每一层循环神经网络和残差连接每一层循环神经网络，第一层循环神经网络的输出与第一层注意力网络的输入相连，第一层注意力网络的输出与第二层循环神经网络的输入相连，第二层循环神经网络的输出与第二层注意力网络的输入相连，第二层注意力网络的输出与第三层循环神经网络的输入相连，第三层循环神经网络的输出与第三层注意力网络的输入相连，第三层注意力网络的输出与第四层循环神经网络的输入相连，第四层循环神经网络的输出与第四层注意力网络的输入相连，第四层注意力网络的输出与第五层循环神经网络的输入相连，第五层循环神经网络的输出与第五层注意力网络的输入相连，第五层注意力网络的输出与第六层循环神经网络的输入相连；

所述的残差连接每一层循环神经网络的方法为：第一层循环神经网络的输出与第三层循环神经网络的输入相连，第二层循环神经网络的输出与第四层循环神经网络的输入相连，第三层循环神经网络的输出与第五层循环神经网络的输入相连，第四层循环神经网络的输出与第六层循环神经网络的输入相连。