CN110276396B

CN110276396B - 基于物体显著性和跨模态融合特征的图片描述生成方法

Info

Publication number: CN110276396B
Application number: CN201910544985.7A
Authority: CN
Inventors: 何立火; 张怡; 高新波; 路文; 屈琳子; 钟炎喆; 邢志伟; 李琪琦
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-12-06
Anticipated expiration: 2039-06-21
Also published as: CN110276396A

Abstract

本发明公开了一种基于物体显著性和跨模态融合特征的图片描述生成方法，主要解决现有方法生成图片描述时物体类别表述不够准确以及图片和文字特征跨模态的问题，其实现步骤为：1.采用Faster R‑CNN+ResNet‑101网络，检测图片显著性区域的视觉特征和物体类别信息；2.采用特征融合算法生成文字特征和图片视觉特征的融合特征；3.注意力长短时记忆网络利用融合特征对图片的视觉特征及其物体类别信息进行加权；4.译码器长短时记忆网络利用加权后的视觉特征和物体类别信息时序地生成图片的自然语言描述。本发明具有生成图片描述物体类别表述准确，语句流畅的优点，可用于社交多媒体检索、盲人读图和辅助视频监控。

Description

基于物体显著性和跨模态融合特征的图片描述生成方法

技术领域

本发明属于图像处理技术领域，更进一步是一种图片描述生成方法，可用于社交多媒体检索、盲人读图和辅助视频监控。

背景技术

随着社交多媒体的发展，以图片为载体的信息传递方式占越来越重要的比重。图片描述生成利用图像中丰富的视觉信息，生成语义明确、语法准确的文字描述，在很大程度上可以完善社交多媒体网络。

相较于传统的计算机视觉问题，图片描述生成问题涉及图片与自然语言多模态信息的融合。这是人工智能时代发展的必然产物，它教会机器‘交流’。

目前，图片自然语言生成主要包括两类：一类是基于模板或者检索的传统图片描述生成方法，第二类方法是基于深度学习的图片描述生成方式。其中：

基于模板的方法，是一类利用图片信息填充有固定格式的语句模板生成图片描述的方法。2011年，Siming Li等人基于此思路进行研究，提出一种利用图片中物体信息，生成位置短语填补模板生成图片描述的方法。

基于检索的图片描述生成方法，检索数据库中的图片，并根据图片相似性使用已有的语句生成图片的描述。传统的图片描述生成方式生成的语句虽然方法简单，但其生成语句结构单一，描述刻板，并且准确率不高。

近几年，基于深度学习的图片描述生成方法逐渐被广泛应用。编码器-译码器网络结构是基于深度学习的图片描述生成方法的一种通用结构。编码器网络通常指的是卷积神经网络，卷积神经网络的作用是提取图片中丰富的视觉语义信息。译码器网络通常使用循环神经网络，循环神经网络利用编码器所提供的信息时序地生成准确的自然语言描述。谷歌研究院首先提出使用这种结构的方法，利用卷积神经网络得到的图片的特征向量编码图片视觉信息，利用长短时记忆网络生成相应的文字描述。在此之后，为使网络更加接近人类视觉***，Kelvin Xu等在编码器-译码器网络中加入注意力模块模拟人眼视觉注意力机制。注意力机制的引入使得网络在生成图片描述时选择性关注图片的不同区域，使得描述更准确。另外考虑到生成描述时存在非视觉词语例如冠词、介词等，在生成这类词语时并不需要图片信息的辅助。基于此思路，Jiasen Lu等提出了一种基于哨兵的图片描述生成方式，主要思想是利用哨兵决定是否需要图片信息辅助描述生成。目前基于深度学习的方法虽然是图片描述生成领域的主流方法，但它仍然存在需要改进的地方。缺点之一，在提取图片特征的时候，物体类别信息不够明确，导致描述类别时不够准确。另外在生成描述的过程中，网络需要涉及图片和文字处于不同模态的两类信息，其跨模态融合问题有待进一步研究。

综上所述，现有技术存在两方面问题：一是在生成描述时不能准确识别图片中的物体，二是在生成描述时不能充分利用网络中的文字特征和图片视觉特征信息，造成生成的图片描述存在语义不明确，语句不流畅的不足。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于物体显著性和跨模态特征融合的图片描述生成方法，以通过利用物体类别信息，并改进图片特征信息与文字特征的跨模态融合，提高生成语句物体描述的准确性和语言的流畅性。

为实现上述目的，本发明目的技术方案如下：

(1)对MSCOCO数据库的训练集和验证集依据‘Karpathy’splits进行重新划分，得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E；

(2)统计MSCOCO数据库中所有单词出现次数，用出现次数大于5次的单词构建词典并将其表示成独热编码形式，词典中单词总数记为L；

(3)对数据库中的图片，生成其对应的内容描述A：

(3a)针对一张图片，采用时序的方式生成当前图片对应的文字描述A＝{y₁,…,y_t-1,...,y_T}，其中y_t表示t时刻生成的单词，T表示该幅图片对应的描述的总单词数；

(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域，提取这些域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；

(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为

译码器网络生成单词为w_t-1；

(3d)采用跨模态特征融合算法，利用该图片的视觉特征S和t-1时刻生成单词w_t-1计算当前时刻的融合特征z_t；

(3e)将t-1时刻译码器长短时记忆网络LSTM隐藏层状态向量

和t时刻融合特征z_t与视觉特征S及其对应的物体类别B的词嵌入向量C级联，计算t时刻记忆力长短时记忆网络LSTM隐藏层状态向量

和t时刻视觉特征S与词嵌入向量C的共享权重α_t；

(3f)利用图片的视觉特征S及其对应词嵌入向量C和t时刻的共享权重α_t计算t时刻的加权平均视觉特征

和加权平均物体类别的词嵌入向量

(3g)将t时刻加权平均视觉特征

加权平均物体类别的词嵌入向量

和注意力长短时记忆网络LSTM的隐藏层状态向量

级联作为译码器的输入，计算t时刻译码器长短时记忆网络LSTM的隐藏层状态向量

和t时刻译码器生成的单词y_t；

(4)将训练集中图片每10张划分为一组，以组为单位按照(3)生成训练集Q图片描述，并与数据库中该组图片对应的人工标注的描述进行对比，使用交叉熵函数计算损失，优化网络参数；

(5)按照(3)生成验证集V所有图片对应的描述，并与数据库中对应人工标注的描述对比，利用验证指标，测试当前网络的性能；

(6)重复(4)-(5)，直到前后两次网络性能的指标值变化在±0.2％的范围内时，得到训练好的网络；

(7)将测试集E所有图片输入到训练好的网络中，时序地生成对图片的自然语言描述。

本发明与现有技术相比具有以下优点：

第一、本发明结合Faster R-CNN+ResNet-101网络，检测图片中显著性区域的视觉特征及其对应的物体类别信息，并对图片的视觉特征及物体类别进行加权，提高网络对图片物体的表征能力，生成图片描述更加准确。

第二、本发明考虑到文字特征与图片视觉特征的融合问题，使用跨模态特征融合算法生成文字/图片融合特征，使得网络能够更好地利用文字特征与图片视觉特征，提高了网络的图片描述能力，生成的图片描述更加流畅。

综上，本发明在图片描述生成网络中加入物体类别信息，并设计跨模态特征融合算法，通过这两个手段有效地提高了生成语句物体描述的准确性和语言的流畅性。实验仿真结果表明：本发明与谷歌基于卷积神经网络和长短时记忆网络的图片描述算法和基于Hard-Attention的算法相比，在各指标上均有很大的提升。具体结果对比如表1所示。

表1不同方法结果对比

评价指标	Bleu_1	Bleu_4	CIDEr	METEOR	SPICE
						Google NIC	-	32.1	99.8	25.7	6.3
Hard-Attention	71.8	25	-	23.9	6.1
						本发明	76.9	36.5	114.0	27.3	20.3

附图说明

图1是本发明的实现流程图；

图2是本发明中图片描述生成的流程示意图。

具体实施方式：

下面结合附图对本发明实施例作进一步的描述。

参照图1，本实例的实现步骤如下：

步骤1，统计MSCOCO单词，建立词典。

统计MSCOCO数据库中所有单词出现次数，统计出现次数大于5次的单词，使用这些单词构成词典；并将词典中的单词表示成独热编码形式，记词典中单词总数为L。

步骤2，将MSCOCO数据集划分为训练集、验证集和测试集。

MSCOCO数据库原始训练集包含82,783张图片，验证集包含40,504张图片，依据‘Karpathy’Splits规则，对MSCOCO数据库验证集图片重新划分,即随机不重复地取验证集5,000张图片作为测试集E，将30,504张图片加入现有训练集Q，保留剩余5,000张图片作为验证集V，划分后，得到包含113,287张图片的训练集Q和5,000张图片的验证集V和5,000张图片的测试集E；

步骤3，生成训练集图片的自然语言描述，训练网络。

参照图2，本步骤具体实现如下：

(3.1)取训练集10张图片为一组训练网络，使用Faster R-CNN+ResNet-101网络检测第m张图片的显著性区域，提取这些区域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数s，m的取值范围是1到10；

(3.2)设第m张图片生成文字描述为A_m＝{y₁,...,y_t-1,...,y_T}，则t-1时刻生成单词为y_t-1，将单词y_t-1转化成其对应的独热编码，并将该独热编码输入到一个有512个神经元的全连接层，得到该单词的词嵌入向量Π_t-1，其中，T表示该幅图片生成描述的总单词数；

(3.3)将(3.1)提取的图片显著区域的视觉特征S＝{v₁,v₂,...,v_i,...,v_n}平均池化，得到图片全局特征

(3.4)使用图片全局特征

和单词的词嵌入向量Π_t-1的外积，作为t时刻融合特征z_t：

其中，

表示对图片全局特征

和单词的词嵌入向量Π_t-1外积，

表示对图片全局特征

进行傅里叶变换，FFT(Π_t-1)表示对单词的词嵌入向量Π_t-1进行傅里叶变换，

表示对

和FFT(Π_t-1)相乘的结果进行逆傅里叶变换；

(3.5)将图片物体类别B的第i个区域的类别b_i使用它对应的独热编码表示，并输入到一个有512个神经元的全连接层生成第i个区域的词嵌入向量o_i，用所有词嵌入向量构成词嵌入集合：C＝{o₁,o₂,...,o_i,…,o_n}；

(3.6)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为

将t时刻的融合特征z_t和t-1时刻译码器状态向量

级联作为注意力长短时记忆网络的输入，计算当前时刻注意力长短时记忆网络的隐藏层状态向量

其中，

为t-1时刻注意力长短时记忆网络的隐藏层状态向量，该注意力长短时记忆网络，是一个两层的长短时记忆网络，每层神经元个数均为512；

(3.7)使用t时刻注意力长短时记忆网络的隐藏层状态向量

与图片的视觉特征S的第i个区域的特征v_i及其对应的词嵌入词向量o_i，共同计算t时刻第i个区域的权重a_i,t：

其中，W_v、W_o、W_ha、W_a分别表示四个神经元个数均为512的全连接层，tanh(·)表示正切函数；

(3.8)用softmax分类器将权重a_i,t归一化，得到t时刻第i个区域归一化权重β_i,t：

β_i,t＝softmax(a_i,t)；

(3.9)利用图片第i个区域的视觉特征v_i及其对应词嵌入向量o_i和t时刻的共享权重β_i,t,计算t时刻的加权平均视觉特征

和加权平均物体类别的词嵌入向量

(3.10)将t时刻加权平均视觉特征

加权平均物体类别的词嵌入向量

和注意力长短时记忆网络的隐藏层状态向量

级联进行，作为译码器的输入，计算t时刻译码器长短时记忆网络的隐藏层状态向量

该译码器长短时记忆网络是一个隐藏层神经元个数是512，层数为2的长短时记忆网络；

(3.11)计算t时刻生成各单词y_q,t的条件概率：

其中，y_1:t-1表示1到t-1时刻生成的t-1个单词，W_p表示一个神经元个数为词典长度L的全连接层，q的取值范围是1到L；

(3.13)将(3.13)中条件概率最大位置对应的单词作为t时刻生成的单词y_t；

(3.14)计算第m张图片的交叉熵损失L_m(θ)：

其中，

表示第m张图片t时刻期望生成的单词，

表示第m张图片从1到t-1时刻期生成的t-1个单词，θ表示网络中所有可训练的参数，T表示第m张图片对应的描述的长度；

(3.15)计算该组图片的平均交叉熵损失

(3.16)利用梯度下降算法，反向传播更新网络参数θ；

(3.17)重复(3.1)-(3.16)，使用训练集全部图片更新网络参数θ，得到更新后的网络。

步骤4，生成验证集图片的自然语言描述

(4.1)使用Faster R-CNN+ResNet-101网络检测，验证集图片的显著性区域，提取这些区域的视觉特征信息S＝{v₁,v₂,…,v_i,…,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；

(4.2)将提取的图片视觉特征信息S及其对应的物体类别信息B，输入到参数更新后的网络中，时序地生成对测试集图片的自然语言描述。

步骤5，根据性能指标，判断网络是否终止训练。

(5.1)根据当前网络生成的验证集V所有图片的自然语言描述，根据论文《Bleu:amethod for automatic evaluation of machine translation》、《Cider:Consensus-based image description evaluation》、《Meteor universal:Language specifictranslation evaluation for any target language》、《Spice:Semantic propositionalimage caption evaluation》所述方法，分别计算当前网络的性能指标Bleu_1/Bleu_4、CIDEr、METEOR、SPICE；

(5.2)比较前后两次指标值变化情况，当所有指标值变化在±0.2％的范围内时，停止训练，得到训练好的网络；否则，重复步骤3继续训练网络。

步骤6，使用训练好的网络，生成测试集E图片的自然语言描述。

(6.1)使用Faster R-CNN+ResNet-101网络，检测测试集E图片的显著性区域提取这些区域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；

(6.2)将提取的图片视觉特征信息S及其对应的物体类别信息B，输入到训练好的网络中，时序地生成对测试集图片的自然语言描述。

以上所述仅为本发明的较佳实施案例而已，并不用以限制本发明，凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于物体显著性和跨模态融合特征的图片描述生成方法，其特征在于，包括如下：

(2)统计MSCOCO数据库中所有单词出现次数，用出现次数大于5次的单词建词典并将其表示成独热编码形式，词典中单词总数记为L；

(3)对数据库中的图片，生成其对应的内容描述A：

(3a)针对一张图片，采用时序的方式生成当前图片对应的文字描述A＝{y₁,...,y_t-1,...,y_T}，其中y_t表示t时刻生成的单词，T表示该幅图片对应的描述的总单词数；

(3b)使用Faster R-CNN+ResNet-101网络检测该图片的显著性区域，提取这些区域的视觉特征信息S＝{v₁,v₂,...,v_i,...,v_n}及其对应的物体类别信息B＝{b₁,b₂,...,b_i,...,b_n}，其中v_i表示第i个显著性区域的视觉特征，b_i表示第i个显著性区域的对应的物体类别，i的取值范围是1到n,n表示该幅图片对应的显著性区域的数量；

(3c)设t-1时刻译码器LSTM网络隐藏层单元的状态向量为