CN110674850A

CN110674850A - 一种基于注意力机制的图像描述生成方法

Info

Publication number: CN110674850A
Application number: CN201910828522.3A
Authority: CN
Inventors: 肖春霞; 赵坤
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-01-10

Abstract

本发明提供一种基于注意力机制的图像描述生成方法，首先利用图像中的显著对象信息以及对象间关系的信息使用注意力机制生成更准确的图像描述，然后使用双层语言生成模型生成更细粒度的图像描述，最后使用强化学习优化整个模型。本发明有如下优点：关系特征与对象特征的融合能够丰富图像信息；双层语言模型能够生成更细粒度的图像描述；使用强化学习进一步优化训练模型能够缓解曝光偏差问题。

Description

一种基于注意力机制的图像描述生成方法

技术领域

本发明属于计算机视觉和自然语言处理领域，涉及一种图像语言描述生成方法，尤其是一种基于注意力机制的图像描述生成方法。

背景技术

在生活中有很多情况下需要把图像内容转化为文字描述，例如社交软件中在网络状态不良的情况下自动生成图像的文字摘要、帮助视觉障碍人士理解图像内容。现有的图像描述方法主要是基于深度学习的方法，使用卷积神经网络作为图像处理模型提取图像特征，将图像特征输入循环神经网络作为语言生成模型生成图像描述语言。但是模型通常使用全局或者对象级的图像特征，使用这样的特征难以关注到图像中显著的目标对象并且会丢失很多图像中重要的信息，很难充分的将图像中的重要的视觉语义关系信息应用到模型中。并且现有的模型多是一个单步前向的进程，在模型生成下一个单词的时候，它只能利用之前已经生成的单词，这样如果在生成过程中生成一个错误的单词后面就会造成错误的累计。另一方面，现有模型在训练时使模型生成的序列联合概率最大化，这样使交叉熵损失最小来训练模型，通过反向传播最大限度地提高生成的参考单词的联合概率，这样模型能学到的是句子中单词的概率分布，和通常在评判图像描述模型生成句子的质量的时候使用的自动评价指标不同，这些评价指标是不可微的所以不能直接用作损失函数，这种损失函数与评价指标的不一致性使模型无法得到充分的优化。

发明内容

本发明的目的是克服上述现有方法存在的缺陷，提供了一种基于注意力机制的图像描述生成方法，利用图像中的显著对象信息以及对象间关系的信息使用注意力机制生成更准确的图像描述，然后使用双层语言生成模型生成更细粒度的图像描述，最后使用强化学习优化整个模型。

本发明的上述技术问题主要是通过以下技术方案得以解决的，一种基于注意力机制的图像描述生成方法，包括以下步骤：

步骤1，从数据集的标注语句中提取词语构建词汇表；

步骤2，采用ResNet101模型作为CNN初始模型，并进行ResNet101的参数预训练，使用预训练的ResNet101单独提取图像的全局特征，然后使用预训练的ResNet101替换FasterR-CNN算法中的CNN提取每张图片的若干个对象区域特征，然后将对象区域两两组成关系区域提取关系特征；

步骤3，将关系特征和对象区域特征进行特征融合，得到包含对象间关系的对象区域特征；

步骤4，将上一步得到的包含对象间关系的对象区域特征输入双层LSTM语言模型中得到输出结果，即对图像生成的自然语言描述；

步骤5，训练一个映射空间模型衡量的图像与描述句子之间的相似度，使用CIDEr分数和相似度作为奖励项，使用强化学习进一步优化双层LSTM语言模型。

进一步的，步骤1中构建词汇表的方式为，统计MS COCO数据集文字描述中每个单词出现的次数，只选取出现次数大于五次的单词列入词汇表中，其中MS COCO数据集词汇表包含9487个单词。

进一步的，步骤2中使用Faster R-CNN算法提取图像的对象区域特征，训练时对于一个图像的损失函数定义如下：

其中，参数λ用来平衡N_cls和N_reg这两个标准化参数；将N_cls的大小设置为mini-batch的大小，将N_reg设置为anchor的总量；i表示训练时一个mini-batch中anchor的索引号，p_i是索引号为i的anchor为对象区域的预测概率；如果anchor为正样本，则p_i ^*等于1，若anchor为负样本，则p_i ^*等于0；t_i是表示生成的包围框的4个坐标参数的向量，t_i ^*是与正样本的anchor相应的ground truth的包围框的坐标向量；

L_cls是对象的分类损失函数：

L_cls(p_i,p_i ^*)＝-log[p_i ^*p_i+(1-p_i ^*)(1-p_i)]

L_reg表示边界框回归损失函数：

L_reg(t_i,t_i ^*)＝R(t_i-t_i ^*)

其中R为smooth L1损失函数:

进一步的，步骤3中将关系特征和对象区域特征进行特征融合的具体方法为：

对于输入图像I在上一步得到一系列对象区域{v₁,...,v_i,...,v_k}以及关系区域{S₁,...,S_i...,S_k}，每一个对象包含在数个不同的关系区域中，每个关系对对象的重要性也不同，通过下式计算p_i(S_k)表示关系s_k对对象v_i的注意力权重：

按照注意力权重将数个和对象v_i相连的关系区域特征聚合为一个整体的聚合关系区域特征，然后将它作为信息传递到目标对象特征中，如下式：

其中，大写的S_k表示关系区域的集合，小写的sk表示单独的一个关系区域，

表示最终的聚合后的聚合关系特征向量，

是微调后的v_i。

进一步的，步骤4的具体实现方式如下，

步骤4.1，输入图像的全局特征v₀到双层LSTM语言模型中的第一层；

步骤4.2，在每一时刻t都分别给每个经过特征融合后的对象区域计算出一个注意力权重：

其中

W_v1、W_h1是语言模型中需要学习的参数，

为t时刻i区域分配的注意力权重，

指的是第一层LSTM每一时刻t输出的结果，tanh为tanh激活函数：

步骤4.3，每个区域分配的注意力权重代表该区域对于当前生成单词的贡献度大小：

其中，

指的是对每一个v_i进行注意力加权后的结果；

步骤4.4，语言模型的第二层中LSTM的输入由第一阶段语言模型的输出和经过注意力加权的图像特征组合而成；

步骤4.5，第二层LSTM的基础上增加一个哨兵门g_t来计算生成文本单词时需要的参考的语言信息向量s_t：

其中σ是sigmoid激活函数，W_x和W_h是需要训练的参数，c_t表示t时刻LSTM的单元状态(cell state)，⊙表示对应元素相乘，x_t指的是第二层LSTM的输入，h_t-1指的是第二层LSTM上一时刻t-1隐藏层的输出；

步骤4.6，第二层LSTM同样使用注意力机制：

其中

W_v2、W_h2是模型中需要学习的参数，不同的是在本层区分视觉单词和文本单词，在生成每个单词的时候让网络自动选择是更依赖于视觉信息v_i还是更依赖于语言信息s_t；

步骤4.7，在生成每个单词的时候计算视觉信息和语言信息分布权重：

其中，为步骤4.6得到的注意力向量，

W_s、Wh₃是模型中需要学习的参数，包括图像区域特征和语言信息向量的权重；

表示对每一个v_i乘上对应的β然后求和的结果，由于增加了一个语言信息向量，所以长度变为K+1；

步骤4.8，把第二层语言模型的输出输入softmax层计算生成t时刻生成单词的分布概率：

步骤4.9，最后使用交叉熵损失函数训练模型。

进一步的，步骤5的具体实现方式如下，

步骤5.1，首先计算模型的CIDEr分数CIDEr(c_i,S_i)，c_i为候选句子和S_i为参考句子；

步骤5.2，对于一个匹配的图像-句子对(I_n,S_n)，对于输入图像I训练一个卷积神经网络提取的全局特征向量φ(I)，对于句子S训练一个循环神经网络来提取其特征

然后通过两个线性映射层将这两个不同模态的特征映射到同一空间；

然后计算余弦相似度来表示图像和句子之间的余弦相似度如下式：

为了训练这样一个映射空间模型，定义一个关于参数θ_s的损失函数使其最小化，训练集表示为

e(θ_s)代表示损失函数L_e(I,S)的平均误差，这里使用双向排序损失来定义L_e(I,S)：

其中，β代表一个边界距离，I，S代表一组基准图像-句子对，I′,S′代表训练集里随机挑选的一组句子图像对，s表示余弦相似度；

步骤5.3，用

来定义奖励，其中表示模型预测的结果，

表示预测结果

的CIDEr得分，

表示输入图像I与

余弦相似度；

步骤5.4，使用强化学习中策略梯度来更新网络参数，根据REINFORCE算法，损失函数L_RL(θ)关于参数θ的梯度计算式如下，

其中

是分值函数，是价值函数；

为了减少梯度估计的方差，引入一个基线函数b，

步骤5.5，使b＝R(S^*,I)，则梯度计算公式为：

S*是图像I对应的描述语句，相当于是S的真实值。

与现有技术相比，本发明有如下优点：

1.本发明的中关系特征与对象特征的融合能够丰富图像信息；

2.本发明的双层语言模型能够生成更细粒度的图像描述；

3.本发明使用强化学习进一步优化训练模型能够缓解曝光偏差问题。

附图说明

图1是本发明的总流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步说明。

如图1所示，一种基于注意力机制的图像描述生成方法，包括如下步骤：

步骤1，从数据集的标注语句中提取词语构建词汇表；

步骤1中获得词汇表的方式为，统计MS COCO数据集文字描述中每个单词出现的次数，只选取出现次数大于五次的单词列入词汇表中，MS COCO数据集词汇表包含9,487个单词。

步骤2，采用ResNet101模型作为CNN初始模型，采用ImageNet数据集进行ResNet101的参数预训练，使用预训练的ResNet101单独提取图像的全局特征，然后使用预训练的ResNet101替换Faster R-CNN算法中的CNN提取每张图片的36个对象区域特征，然后将对象区域两两组成关系区域提取关系特征；

所述步骤2中使用预训练的ResNet101提取图像的全局特征，使用Faster R-CNN算法提取图像的对象区域特征，训练时对于一个图像的损失函数定义如下：

其中，参数λ用来平衡N_cls和N_reg这两个标准化参数。将N_cls的大小设置为mini-batch的大小，将N_reg设置为anchor的总量，λ设为10。i表示训练时一个mini-batch中anchor的索引号，p_i是索引号为i的anchor为对象区域的预测概率。如果anchor为正样本，则p_i ^*等于1，若anchor为负样本，则p_i ^*等于0。t_i是表示生成的包围框的4个坐标(分别包括左上角、右上角、左下角、右下角)参数的向量，t_i ^*是与正样本的anchor相应的ground truth的包围框的坐标向量。L_cls是对象的分类损失函数：

L_cls(p_i,p_i ^*)＝-log[p_i ^*p_i+(1-p_i ^*)(1-p_i)]

L_reg表示边界框回归损失函数：

L_reg(t_i,t_i ^*)＝R(t_i-t_i ^*)

其中R为smooth L1损失函数:

步骤3，将关系特征和对象区域特征进行特征融合，得到包含对象间关系的对象区域特征，具体方法为：

对于输入图像I，在上一步得到一系列对象区域{v₁,...,v_i,...,v_k}以及关系区域{S₁,...,S_i...,S_k}，每一个对象包含在数个不同的关系区域中，每个关系对对象的重要性也不同，通过下式计算p_i(S_k)表示关系s_k对对象v_i的注意力权重：

按照注意力权重将数个和对象区域v_i相连的关系区域特征聚合为一个整体的聚合关系区域特征，然后将它作为信息传递到目标对象特征中，如下式：

其中，大写的S_k表示关系区域的集合，小写的s_k表示单独的一个关系区域，

表示最终的聚合后的聚合关系特征向量，

是微调后的v_i。

步骤4，将上一步得到的包含对象间关系的对象区域特征输入双层LSTM语言模型中得到输出结果，即对图像生成的自然语言描述，具体包括如下子步骤：

步骤4.1，第一层LSTM输入图像的全局特征v₀、第二层LSTM在t-1时刻的输出和t时刻生成的单词的编码这三者的连接向量生成初始描述。联合当前时刻生成的单词序列的特征和第一层LSTM在当前时刻的输出相连接作为下一层语言模型的输入。

其中

W_v1、W_h1是语言模型中需要学习的参数，

为t时刻i区域分配的注意力权重，

指的是第一层LSTM每一时刻t输出的结果，tanh为tanh激活函数：

其中，

指的是对每一个v_i进行注意力加权后的结果。

其中σ是sigmoid激活函数，W_x和W_h是需要训练的参数，c_t表示t时刻LSTM的单元状态(cell state)，⊙表示对应元素相乘，x_t指的是第二层LSTM的输入，h_t-1指的是第二层LSTM上一时刻t-1隐藏层的输出。

步骤4.6，第二层LSTM同样使用注意力机制：

其中

W_v2、W_h2是模型中需要学习的参数，不同的是在本层区分视觉单词和文本单词，在生成每个单词的时候让网络自动选择是更依赖于视觉信息v_i还是更依赖于语言信息s_t。

其中，

为步骤4.6得到的注意力向量，

W_s、W_h3是模型中需要学习的参数，包括图像区域特征和语言信息向量的权重。

其中，

表示对每一个v_i乘上对应的β然后求和的结果，由于增加了一个语言信息向量，所以长度变为K+1。

步骤4.9，使用交叉熵损失函数训练模型：

其中，

代表前t-1时刻的值，

代表t时刻的真实值，L(θ)表示在已知1到t-1时刻的值的情况下关于t时刻值的条件概率。

步骤5，训练一个映射空间模型衡量的图像与描述句子之间的相似度，使用CIDEr分数和相似度作为奖励项，使用强化学习进一步优化双层LSTM语言模型，具体包括如下子步骤：

步骤5.1，首先计算模型的CIDEr分数，一个n-gram元组w_k出现在参考句子s_ij中的次数记为h_k(s_ij)，出现在候选句子c_i中的次数记为h_k(c_i)，由下式计算每个n-gram元组w_k的TF-IDF权重：

其中Ω是所有n-grams的集合，I是数据集中所有的图像。对于长度为n的n-grams元组使用候选句子c_i和参考句子S_i之间的平均余弦相似度来计算其CIDEr_n分数：

最后计算总的CIDEr分数，w_n表示n-grams元组，如下式：

上述步骤可参见文献Vedantam R,LawrenceZitnick C,Parikh D.Cider:Consensus-based image description evaluation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:4566-4575。

步骤5.2，对于一个匹配的图像-句子对(I_n,S_n)，对于输入图像I训练一个卷积神经网络提取的全局特征向量φ(I)，对于句子S训练一个循环神经网络(RNN)来提取其特征

然后通过两个线性映射层将这两个不同模态的特征映射到同一空间。

e(θ_s)代表示损失函数L_e(I,S)的平均误差。

这里使用双向排序损失来定义L_e(I,S)：

其中，β代表一个边界距离，I，S代表一组基准图像-句子对，I′,S′代表训练集里随机挑选的一组图像-句子对。

步骤5.3，用

来定义奖励，其中

表示模型预测的结果，

表示预测结果

的CIDEr得分，

表示输入图像I与

余弦相似度；

步骤5.4，使用强化学习中策略梯度(policy gradient)来更新网络参数，根据REINFORCE算法，损失函数L_RL(θ)关于参数θ的梯度计算式如下，

其中

是分值函数，

是价值函数。

上述步骤可参见文献R.S.Sutton,D.McAllester,S.Singh,andY.Mansour.Policy gradient methods for reinforcement learning with functionapproximation.In Advances in Neural Information Processing Systems 12,pages1057–1063,2000.

为了减少梯度估计的方差，引入一个基线函数b，

步骤5.5，使b＝R(S^*,I)，则梯度计算公式为

S*是图像I对应的描述语句，相当于是S的真实值，真实值为已知量。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于注意力机制的图像描述生成方法，其特征在于，包括以下步骤：

步骤1，从数据集的标注语句中提取词语构建词汇表；

步骤2，采用ResNet101模型作为CNN初始模型，并进行ResNet101的参数预训练，使用预训练的ResNet101单独提取图像的全局特征，然后使用预训练的ResNet101替换Faster R-CNN算法中的CNN提取每张图片的若干个对象区域特征，然后将对象区域两两组成关系区域提取关系特征；

2.根据权利要求1所述的一种基于注意力机制的图像描述生成方法，其特征在于：步骤1中构建词汇表的方式为，统计MS COCO数据集文字描述中每个单词出现的次数，只选取出现次数大于五次的单词列入词汇表中，其中MS COCO数据集词汇表包含9487个单词。

3.根据权利要求1所述的一种基于注意力机制的图像描述生成方法，其特征在于：步骤2中使用Faster R-CNN算法提取图像的对象区域特征，训练时对于一个图像的损失函数定义如下：