CN109711465B

CN109711465B - 基于mll和asca-fr的图像字幕生成方法

Info

Publication number: CN109711465B
Application number: CN201811603384.0A
Authority: CN
Inventors: 何立火; 李琪琦; 高新波; 蔡虹霞; 路文; 张怡; 屈琳子; 钟炎喆; 武天妍
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2022-12-06
Anticipated expiration: 2038-12-26
Also published as: CN109711465A

Abstract

本发明公开一种基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA‑FR的图像字幕生成方法，主要解决现有技术中注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的单词向量，只使用交叉熵损失函数训练网络所带来的生成字幕描述不准确、表述不流畅的问题。本发明的具体步骤如下：(1)生成自然图像测试集和训练集；(2)提取特征向量；(3)构建ASCA‑FR网络；(4)训练ASCA‑FR网络；(5)获得自然图像字幕；本发明利用MLL损失函数对构建的ASCA‑FR网络进行训练，使得生成的字幕描述准确且表述流畅。

Description

基于MLL和ASCA-FR的图像字幕生成方法

技术领域

本发明属于图像处理技术领域，更进一步涉及自然语言处理技术领域中的一种基于多尺度学习MLL(Multi-level Learning)和相邻时间节点联合注意力机制特征重建ASCA-FR(Adjacent Step Co-Attention and Feature Reconstruction)的图像字幕生成方法。本发明能够提取并处理任意一张自然图像中的语义信息，生成一句对应于该自然图像的图像字幕。

背景技术

针对一张自然图像，人类只需快速浏览一眼便可在大脑中组织生动而形象的语言来描述图像中的视觉场景信息。在人工智能和深度学习技术蓬勃发展的今日，图像字幕生成作为自然语言处理领域中的一项重要研究课题，越来越受到人们的关注。图像字幕生成的任务是为任意自然图像自动生成与其语义信息密切相关的字幕。但是，由于图像中出现的场景复杂多样，能够准确识别出图像中的各个物体本就是一件不易之事，再加上图像字幕生成不仅需要识别图像中的各个目标物体，更需要深度探究目标物体的状态、动作以及目标与目标之间的相互关系，然后用流畅而生动的语言准确描述出来，这些无疑为图像字幕生成带来了巨大的挑战。

中国石油大学(华东)在其申请的专利文献“融合视觉注意力和语义注意力的图像字幕生成方法及***”(专利申请号：201710806115.3，申请公布号：CN107608943A)中提出了一种融合视觉注意力和语义注意力的图像字幕生成方法。该方法的实现步骤为：通过卷积神经网络CNN(Convolutional Neural Network)从每个待生成字幕的图像中提取图像特征，得到图像特征集合；建立长短期记忆网络LSTM(Long Short-Term Memory)，将每个待生成字幕图像对应的预先标注文本描述传入长短期记忆网络LSTM中得到时序信息；建立视觉注意力模型和生成语义注意力模型并构成自动平衡策略模型；利用得到的图像特征集合和输入图像的对应文本建立改进的长短期记忆网络LSTM模型，并基于多层感知机MLP(Multilayer Perceptron)生成若干基于时间流的单词，将这些单词串联成字幕。该方法存在的不足之处是，该方法所使用的视觉注意力模型在输出时，仅考虑了图像的特征集合和前一时刻的生成单词信息，且只利用由图像到字幕的正向生成过程，使得字幕描述准确度低，不能良好的反映图像中的内容。

西安电子科技大学在其申请的专利文献“基于视觉显著性与语义属性跨模态图像自然语言描述方法”(专利申请号：201710560024.6，申请公布号：CN107688821A)中提出了一种基于视觉显著性与语义属性的跨模态图像自然语言描述方法。该方法的实现步骤为：对图像进行子区域划分并用卷积神经网络CNN对图像进行多尺度深度视觉特征提取；将提取的多尺度特征向量输入到预训练好的显著性模型中，回归出图像各子区域的显著性分数，并用全局显著性图对原图像进行加权；建立预定义字典作为语义属性类别，并对视觉显著性图像的各子区域进行语义属性检测；采用基于视觉显著性的语义特征初始化网络并利用多示例学习计算语义属性；使用语义属性对图像特征进行加权并采用长短期记忆网络LSTM对基于视觉显著性与语义特征进行解码，生成图像描述。该方法存在的不足之处是，用于训练网络的损失函数只是基于标签字幕的交叉熵损失函数，使得训练过程过于单薄，生成字幕表述不流畅且具有诸多语法错误。

发明内容

本发明的目的在于针对上述现有技术的不足，提出基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法。

实现本发明目的的思路是，考虑到在生成自然图像的字幕时，字幕中相邻单词不仅具有语法关联，相邻单词所对应的图像注意力区域之间也具有时间和空间关联，而且如果在生成自然图像的字幕时既考虑由图像到字幕的正向生成过程又考虑由字幕到图像的反向生成过程，那么自然图像与对应字幕之间就更加匹配，因此，结合长短期记忆网络LSTM在处理时间序列数据以及存储长短期记忆信息方面的优越性，构建一个由长短期记忆网络LSTM、Softmax层和联合注意力模型共同组成的ASCA-FR网络，并使用多尺度学习MLL损失函数对网络进行训练，以生成描述更加准确、语言更加流畅、语法更加规范的图像字幕。

本发明的具体步骤包括如下：

(1)生成自然图像测试集和训练集：

(1a)从互联网或公开的图像数据集中随机选取至少10000张自然图像组成自然图像集合；

(1b)从自然图像集合中随机选取不多于5000张自然图像，组成自然图像测试集；

(1c)为自然图像集合中剩余的每一张自然图像配置英文标签字幕，删去英文标签字幕中大于L的部分，其中L表示设置的字幕中英文单词的最多个数，将删除后的标签字幕与其对应的自然图像组成自然图像训练集；

(1d)设置英文结束字符为<EOS>；

(1e)将自然图像训练集中每个英文标签字幕中的英文单词与设置的结束字符，组成一个单词集合；

(2)提取特征向量：

将自然图像集合中的每张自然图像，依次输入到残差网络中，得到残差网络输出的每张自然图像的M个特征向量，其中，M表示残差网络设置的输出特征映射图的总数；

(3)构建ASCA-FR网络：

(3a)搭建一个5层的相邻时间节点联合注意力机制特征重建ASCA-FR网络，其结构依次为：第一个长短期记忆网络LSTM→联合注意力模型→第二个长短期记忆网络LSTM→Softmax层→第三个长短期记忆网络LSTM；

(3b)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量，作为该时刻Softmax层的输入向量，其中t表示长短期记忆网络LSTM的循环时间节点，t的取值范围是1≤t≤T，其中T表示长短期记忆网络LSTM的循环总次数，T的取值范围是1≤T≤L；

(3c)将Softmax层t-1时刻长度为W的输出概率分布向量中的最大取值元素的元素值设置为1，其余元素值设置为0，得到t-1时刻的单词向量，其中W表示Softmax层的输出结点总数；

(3d)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量、t-1时刻的生成单词嵌入向量以及平均特征向量三者串联在一起作为t时刻第一个长短期记忆网络LSTM的输入向量；

(3e)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和联合注意力模型在时刻t的注意力向量串联起来，作为在t时刻第二个长短期记忆网络LSTM的输入向量；

(3f)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量串联起来作为在t时刻第三个长短期记忆网络LSTM的输入向量；

(4)训练ASCA-FR网络：

(4a)设置Softmax层的输出结点总数与单词集合的长度相等；

(4b)将自然图像训练集中每张自然图像的M个特征向量，依次输入到ASCA-FR网络中；

(4c)利用下述的多尺度学习MLL损失函数，计算ASCA-FR网络的损失值：

其中，L₁表示ASCA-FR网络的损失值，∑表示向量相加操作，ln表示以自然常数e为底的对数操作，p_t表示t时刻Softmax层的输出概率分布向量，h_t ³表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量，|| ||₂表示2-范数操作；

(4d)使用随机梯度下降法，训练ASCA-FR网络，得到训练好的ASCA-FR网络；

(5)获得自然图像字幕：

(5a)将单词集合中的所有单词从小到大进行编号；

(5b)将自然图像测试集中每张自然图像的M个特征向量，依次输入到训练好的ASCA-FR网络中，取出单词集合中编号与t时刻单词向量中元素值为1的索引相同的英文单词，将该英文单词作为t时刻的输出单词，其中，t的取值范围是1≤t≤T；

(5c)按照t从小到大的顺序将输出单词连接成自然图像字幕。

本发明与现有的技术相比具有以下优点：

第一，由于本发明构建了一个ASCA-FR网络，该网络既包含由图像到字幕的正向生成过程，又通过第三个长短期记忆网络LSTM构建由字幕到图像的反向过程，且网络中的联合注意力模型在生成某时刻的注意力向量时，利用了前一个时刻的注意力向量的信息，克服了现有技术中视觉注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的生成单词信息，且只利用由图像到字幕的正向生成过程，使得字幕描述准确度低，不能良好的反映图像中的内容的问题，使得本发明具有字幕描述准确度高、能够良好的反映图像中的内容的优点。

第二，由于本发明利用多尺度学习MLL损失函数，计算相邻时间节点联合注意力机制特征重建ASCA-FR网络在训练阶段的损失值，克服了现有技术中用于训练网络的损失函数只是基于标签字幕的交叉熵损失函数，使得训练过程过于单薄，生成字幕表述不流畅且具有诸多语法错误的问题，使得本发明具有训练过程充实，生成字幕表述流畅且语法表述准确的优点。

附图说明

图1是本发明的流程图；

图2是本发明的ASCA-FR网络示意图；

图3是本发明用于仿真实验的4张测试图像。

具体实施方式

下面结合附图1，对本发明做进一步的详细描述。

参照附图1，对本发明的实现步骤做进一步的详细描述。

步骤1，生成自然图像测试集和训练集。

从互联网或公开的图像数据集中随机选取至少10000张自然图像组成自然图像集合。

从自然图像集合中随机选取不多于5000张自然图像，组成自然图像测试集。

为自然图像集合中剩余的每一张自然图像配置英文标签字幕，删去英文标签字幕中大于L的部分，其中L表示设置的字幕中英文单词的最多个数，将删除后的标签字幕与其对应的自然图像组成自然图像训练集。

设置英文结束字符为<EOS>。

将自然图像训练集中每个英文标签字幕中的英文单词与设置的结束字符，组成一个单词集合。

例如，对于英文标签字幕“a man is swinging a baseball bat at a ball onthe court under the blue sky”，该字幕中包含的英文单词依次为a、man、is、swinging、a、baseball、bat、at、a、ball、on、the、court、under、the、blue、sky，共17个英文单词，当L取值为10时，该字幕经过所述删去操作后得到长度为10的英文字幕“a man is swinging abaseball bat at a ball”。

步骤2，提取特征向量。

将自然图像集合中的每张自然图像，依次输入到残差网络中，得到残差网络输出的每张自然图像的M个特征向量，其中，M表示残差网络设置的输出特征映射图的总数。

所述M通常取14×14个像素或7×7个像素。

所述残差网络可直接使用在数据集ImageNet上通过分类任务预训练完毕的50层残差网络ResNet-50(Residual Nets-50)、101层残差网络ResNet-101(Residual Nets-101)或152层残差网络ResNet-152(Residual Nets-152)。

步骤3，构建ASCA-FR网络。

搭建一个5层的相邻时间节点联合注意力机制特征重建ASCA-FR网络，其结构依次为：第一个长短期记忆网络LSTM→联合注意力模型→第二个长短期记忆网络LSTM→Softmax层→第三个长短期记忆网络LSTM。

将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量，作为该时刻Softmax层的输入向量，其中t表示长短期记忆网络LSTM的循环时间节点，t的取值范围是1≤t≤T，其中T表示长短期记忆网络LSTM的循环总次数，T的取值范围是1≤T≤L。

将Softmax层t-1时刻长度为W的输出概率分布向量中的最大取值元素的元素值设置为1，其余元素值设置为0，得到t-1时刻的单词向量，其中W表示Softmax层的输出结点总数。

将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量、t-1时刻的生成单词嵌入向量以及平均特征向量三者串联在一起作为t时刻第一个长短期记忆网络LSTM的输入向量。

所述t-1时刻的生成单词嵌入向量是由下式计算得到的：

y_t-1＝E·w_t-1

其中，y_t-1表示t-1时刻的生成单词嵌入向量，E表示维度为D×W的参数矩阵，D表示长短期记忆网络的隐藏层结点总数，·表示矩阵相乘操作，w_t-1表示t-1时刻自然图像的单词向量。

所述平均特征向量是由下式计算得到的：

其中，

表示自然图像的平均特征向量，∑表示向量相加操作，v_i表示自然图像的第i个特征向量，其中i的取值范围是1≤i≤M。

将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和联合注意力模型在时刻t的注意力向量串联起来，作为在t时刻第二个长短期记忆网络LSTM的输入向量。

所述联合注意力模型在时刻t的注意力向量是由下式计算得到的：

其中，a_t表示t时刻自然图像的注意力向量，exp表示以自然常数e为底的指数操作，tanh表示双曲正切操作，U₁、U₂、U₃和U₄分别表示ASCA-FR网络中的权重参数矩阵，

表示第一个长短期记忆网络LSTMt时刻输出的隐藏状态向量，

表示第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量，a_t-1表示联合注意力模型在时刻t-1的输出注意力向量，v_j表示输入自然图像的M个特征向量中的第j个特征向量,j的取值范围是1≤j≤M。

将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量串联起来作为在t时刻第三个长短期记忆网络LSTM的输入向量。

参见附图2，对本发明的ASCA-FR网络的结构做进一步的详细描述。

图2中的5个矩形框从左到右依次表示第一个长短期记忆网络LSTM、联合注意力模型、第二个长短期记忆网络LSTM、Softmax层和第三个长短期记忆网络LSTM，v表示自然图像的平均特征向量，y_t-1表示t-1时刻的生成单词嵌入向量，

表示第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量，

表示第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量，v_i表示自然图像的第i个特征向量，a_t-1表示联合注意力模型在时刻t-1的输出注意力向量，a_t表示t时刻自然图像的注意力向量，

表示第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量，p_t表示t时刻Softmax层的输出概率分布向量，

表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量。

所述ASCA-FR网络中的三个长短期记忆网络LSTM具有相同的结构和隐藏层结点总数，遵循同一个时间序列且初始隐藏状态向量均设置为0，其各自在t时刻的隐藏状态向量由它们各自在t-1时刻的隐藏状态向量和t时刻的输入向量共同决定，长短期记忆网络LSTM的循环终止条件是循环次数达到字幕最大长度或单词向量中元素值为1的元素是单词向量的最后一个元素。

步骤4，训练ASCA-FR网络。

设置Softmax层的输出结点总数与单词集合的长度相等。

将自然图像训练集中每张自然图像的M个特征向量，依次输入到ASCA-FR网络中。

利用下述的多尺度学习MLL损失函数，计算ASCA-FR网络的损失值：

其中，L₁表示ASCA-FR网络的损失值，∑表示向量相加操作，ln表示以自然常数e为底的对数操作，p_t表示t时刻Softmax层的输出概率分布向量，

表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量，|| ||₂表示2-范数操作。

使用随机梯度下降法，训练ASCA-FR网络，得到训练好的ASCA-FR网络。

步骤5，获得自然图像字幕。

将单词集合中的所有单词从小到大进行编号。

将自然图像测试集中每张自然图像的M个特征向量，依次输入到训练好的ASCA-FR网络中，取出单词集合中编号与t时刻单词向量中元素值为1的索引相同的英文单词，将该英文单词作为t时刻的输出单词，其中，t的取值范围是1≤t≤T。

按照t从小到大的顺序将输出单词连接成自然图像字幕。

下面结合仿真实验对本发明的效果做进一步的描述。

1.仿真条件：

本发明仿真实验的硬件测试平台是：CPU为Intel(R)Core(TM)i7-7800X，主频为3.5GHz，内存32GB，GPU为NVIDIA TITAN XP；软件平台是：Ubuntu 16.04LTS。

2.仿真内容与结果分析：

本发明的仿真实验是采用本发明的方法，选取微软图像数据集MSCOCO 2014(Microsoft Common Objects in Context 2014)，对ASCA-FR网络进行训练和测试，其中自然图像训练集中包含微软图像数据集MSCOCO 2014的113287张训练图像，将微软图像数据集MSCOCO 2014的5000张测试图像作为自然图像测试集，从微软图像数据集MSCOCO 2014对应于自然图像训练集中每张自然图像的5个人工标注语句中随机选取1句，作为该训练图像的标签字幕，使用101层残差网络Resnet-101提取自然图像集合中所有自然图像的特征向量，并将残差网络的输出特征映射图的总数M设置为14×14个像素，字幕最大长度L设置为16，长短期记忆网络LSTM的隐藏层结点总数D设置为512个。

从自然图像测试集中随机选取4张测试图像用于本发明仿真实验，如图3(a)至(d)所示，经过训练好的ASCA-FR网络测试，得到图(a)的英文字幕“a man swinging abaseball bat at a ball”，得到图(b)的英文字幕“a baby sitting in a high chaireating a carrot”，得到图(c)的英文字幕“a street sign on the side of a street”，得到图(d)的英文字幕“a cat sitting on top of a computer keyboard”。

为了评价本发明方法得到的ASCA-FR网络的有效性和优越性，使用n元组双语评估指标BLEU-n(Bilingual Evaluation Understudy-n gram)、评估指标METEOR(Meteor)和基于共识的图像描述评估指标CIDEr(Consensus-based Image Description Evaluation)对每张测试图像通过ASCA-FR网络得到的字幕进行评估。其中，n表示n元组双语评估指标BLEU-n中包含的单词个数，各评估指标数值越大则表明生成的字幕越优，得到的评估结果如表1所示。表1中的VAE表示现有技术中的一种基于变分自动编码器的图像字幕方法，该方法是作者Yunchen Pu，Zhe Gan，Ricardo Henao，Xin Yuan，Chunyuan Li，Andrew Stevens，Lawrence Carin在其发表的论文“Variational autoencoder for deep learning ofimages，labels and caprions”(Conference and Workshop on Neural InformationProcessing Systems会议论文，2016)中所公开的方法。表1中的ASCA-FR+MLL表示本发明方法，n元组双语评估指标BLEU-n中的n分别取集合{1,2,3,4}中的元素。

表1自然图像测试集字幕评估结果表

方法	BLEU-1	BLEU-2	BLEU-3	BLEU-4	METEOR	CIDEr
							VAE	72.0	52.0	37.0	28.0	24.0	90.0
ASCA-FR+MLL	75.1	58.1	43.5	32.3	26.3	105.0

将得到的测试图像的字幕输入到微软图像字幕评估器Microsoft Captiondataset and evaluation server(Microsoft Caption dataset and evaluationserver)中，得到表1中n元组双语评估指标BLEU-n、评估指标METEOR和基于共识的图像描述评估指标CIDEr的评估结果，如表1所示。

从表1中可见，本发明的自然图像测试集字幕评估结果均优于方法VAE得到的结果，且本发明的各项评估指标结果都很优秀，说明本发明构建的ASCA-FR网络以及利用多尺度学习MLL损失函数对网络进行训练的方法有效性强且性能优越，使得生成的字幕表述流畅、语法正确且描述准确度高，能够良好的反映自然图像中的内容。