CN109711465B - 基于mll和asca-fr的图像字幕生成方法 - Google Patents
基于mll和asca-fr的图像字幕生成方法 Download PDFInfo
- Publication number
- CN109711465B CN109711465B CN201811603384.0A CN201811603384A CN109711465B CN 109711465 B CN109711465 B CN 109711465B CN 201811603384 A CN201811603384 A CN 201811603384A CN 109711465 B CN109711465 B CN 109711465B
- Authority
- CN
- China
- Prior art keywords
- vector
- time
- asca
- network
- natural image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 116
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 13
- 230000007246 mechanism Effects 0.000 claims abstract description 12
- 230000015654 memory Effects 0.000 claims description 65
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000011156 evaluation Methods 0.000 description 18
- 230000000007 visual effect Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000004088 simulation Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 235000019987 cider Nutrition 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 102000029797 Prion Human genes 0.000 description 1
- 108091000054 Prion Proteins 0.000 description 1
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- VKYKSIONXSXAKP-UHFFFAOYSA-N hexamethylenetetramine Chemical compound C1N(C2)CN3CN1CN2C3 VKYKSIONXSXAKP-UHFFFAOYSA-N 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004513 sizing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开一种基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA‑FR的图像字幕生成方法,主要解决现有技术中注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的单词向量,只使用交叉熵损失函数训练网络所带来的生成字幕描述不准确、表述不流畅的问题。本发明的具体步骤如下:(1)生成自然图像测试集和训练集;(2)提取特征向量;(3)构建ASCA‑FR网络;(4)训练ASCA‑FR网络;(5)获得自然图像字幕;本发明利用MLL损失函数对构建的ASCA‑FR网络进行训练,使得生成的字幕描述准确且表述流畅。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及自然语言处理技术领域中的一种基于多尺度学习MLL(Multi-level Learning)和相邻时间节点联合注意力机制特征重建ASCA-FR(Adjacent Step Co-Attention and Feature Reconstruction)的图像字幕生成方法。本发明能够提取并处理任意一张自然图像中的语义信息,生成一句对应于该自然图像的图像字幕。
背景技术
针对一张自然图像,人类只需快速浏览一眼便可在大脑中组织生动而形象的语言来描述图像中的视觉场景信息。在人工智能和深度学习技术蓬勃发展的今日,图像字幕生成作为自然语言处理领域中的一项重要研究课题,越来越受到人们的关注。图像字幕生成的任务是为任意自然图像自动生成与其语义信息密切相关的字幕。但是,由于图像中出现的场景复杂多样,能够准确识别出图像中的各个物体本就是一件不易之事,再加上图像字幕生成不仅需要识别图像中的各个目标物体,更需要深度探究目标物体的状态、动作以及目标与目标之间的相互关系,然后用流畅而生动的语言准确描述出来,这些无疑为图像字幕生成带来了巨大的挑战。
中国石油大学(华东)在其申请的专利文献“融合视觉注意力和语义注意力的图像字幕生成方法及***”(专利申请号:201710806115.3,申请公布号:CN107608943A)中提出了一种融合视觉注意力和语义注意力的图像字幕生成方法。该方法的实现步骤为:通过卷积神经网络CNN(Convolutional Neural Network)从每个待生成字幕的图像中提取图像特征,得到图像特征集合;建立长短期记忆网络LSTM(Long Short-Term Memory),将每个待生成字幕图像对应的预先标注文本描述传入长短期记忆网络LSTM中得到时序信息;建立视觉注意力模型和生成语义注意力模型并构成自动平衡策略模型;利用得到的图像特征集合和输入图像的对应文本建立改进的长短期记忆网络LSTM模型,并基于多层感知机MLP(Multilayer Perceptron)生成若干基于时间流的单词,将这些单词串联成字幕。该方法存在的不足之处是,该方法所使用的视觉注意力模型在输出时,仅考虑了图像的特征集合和前一时刻的生成单词信息,且只利用由图像到字幕的正向生成过程,使得字幕描述准确度低,不能良好的反映图像中的内容。
西安电子科技大学在其申请的专利文献“基于视觉显著性与语义属性跨模态图像自然语言描述方法”(专利申请号:201710560024.6,申请公布号:CN107688821A)中提出了一种基于视觉显著性与语义属性的跨模态图像自然语言描述方法。该方法的实现步骤为:对图像进行子区域划分并用卷积神经网络CNN对图像进行多尺度深度视觉特征提取;将提取的多尺度特征向量输入到预训练好的显著性模型中,回归出图像各子区域的显著性分数,并用全局显著性图对原图像进行加权;建立预定义字典作为语义属性类别,并对视觉显著性图像的各子区域进行语义属性检测;采用基于视觉显著性的语义特征初始化网络并利用多示例学习计算语义属性;使用语义属性对图像特征进行加权并采用长短期记忆网络LSTM对基于视觉显著性与语义特征进行解码,生成图像描述。该方法存在的不足之处是,用于训练网络的损失函数只是基于标签字幕的交叉熵损失函数,使得训练过程过于单薄,生成字幕表述不流畅且具有诸多语法错误。
发明内容
本发明的目的在于针对上述现有技术的不足,提出基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法。
实现本发明目的的思路是,考虑到在生成自然图像的字幕时,字幕中相邻单词不仅具有语法关联,相邻单词所对应的图像注意力区域之间也具有时间和空间关联,而且如果在生成自然图像的字幕时既考虑由图像到字幕的正向生成过程又考虑由字幕到图像的反向生成过程,那么自然图像与对应字幕之间就更加匹配,因此,结合长短期记忆网络LSTM在处理时间序列数据以及存储长短期记忆信息方面的优越性,构建一个由长短期记忆网络LSTM、Softmax层和联合注意力模型共同组成的ASCA-FR网络,并使用多尺度学习MLL损失函数对网络进行训练,以生成描述更加准确、语言更加流畅、语法更加规范的图像字幕。
本发明的具体步骤包括如下:
(1)生成自然图像测试集和训练集:
(1a)从互联网或公开的图像数据集中随机选取至少10000张自然图像组成自然图像集合;
(1b)从自然图像集合中随机选取不多于5000张自然图像,组成自然图像测试集;
(1c)为自然图像集合中剩余的每一张自然图像配置英文标签字幕,删去英文标签字幕中大于L的部分,其中L表示设置的字幕中英文单词的最多个数,将删除后的标签字幕与其对应的自然图像组成自然图像训练集;
(1d)设置英文结束字符为<EOS>;
(1e)将自然图像训练集中每个英文标签字幕中的英文单词与设置的结束字符,组成一个单词集合;
(2)提取特征向量:
将自然图像集合中的每张自然图像,依次输入到残差网络中,得到残差网络输出的每张自然图像的M个特征向量,其中,M表示残差网络设置的输出特征映射图的总数;
(3)构建ASCA-FR网络:
(3a)搭建一个5层的相邻时间节点联合注意力机制特征重建ASCA-FR网络,其结构依次为:第一个长短期记忆网络LSTM→联合注意力模型→第二个长短期记忆网络LSTM→Softmax层→第三个长短期记忆网络LSTM;
(3b)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量,作为该时刻Softmax层的输入向量,其中t表示长短期记忆网络LSTM的循环时间节点,t的取值范围是1≤t≤T,其中T表示长短期记忆网络LSTM的循环总次数,T的取值范围是1≤T≤L;
(3c)将Softmax层t-1时刻长度为W的输出概率分布向量中的最大取值元素的元素值设置为1,其余元素值设置为0,得到t-1时刻的单词向量,其中W表示Softmax层的输出结点总数;
(3d)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量、t-1时刻的生成单词嵌入向量以及平均特征向量三者串联在一起作为t时刻第一个长短期记忆网络LSTM的输入向量;
(3e)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和联合注意力模型在时刻t的注意力向量串联起来,作为在t时刻第二个长短期记忆网络LSTM的输入向量;
(3f)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量串联起来作为在t时刻第三个长短期记忆网络LSTM的输入向量;
(4)训练ASCA-FR网络:
(4a)设置Softmax层的输出结点总数与单词集合的长度相等;
(4b)将自然图像训练集中每张自然图像的M个特征向量,依次输入到ASCA-FR网络中;
(4c)利用下述的多尺度学习MLL损失函数,计算ASCA-FR网络的损失值:
其中,L1表示ASCA-FR网络的损失值,∑表示向量相加操作,ln表示以自然常数e为底的对数操作,pt表示t时刻Softmax层的输出概率分布向量,ht 3表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量,|| ||2表示2-范数操作;
(4d)使用随机梯度下降法,训练ASCA-FR网络,得到训练好的ASCA-FR网络;
(5)获得自然图像字幕:
(5a)将单词集合中的所有单词从小到大进行编号;
(5b)将自然图像测试集中每张自然图像的M个特征向量,依次输入到训练好的ASCA-FR网络中,取出单词集合中编号与t时刻单词向量中元素值为1的索引相同的英文单词,将该英文单词作为t时刻的输出单词,其中,t的取值范围是1≤t≤T;
(5c)按照t从小到大的顺序将输出单词连接成自然图像字幕。
本发明与现有的技术相比具有以下优点:
第一,由于本发明构建了一个ASCA-FR网络,该网络既包含由图像到字幕的正向生成过程,又通过第三个长短期记忆网络LSTM构建由字幕到图像的反向过程,且网络中的联合注意力模型在生成某时刻的注意力向量时,利用了前一个时刻的注意力向量的信息,克服了现有技术中视觉注意力模型在某时刻的输出仅考虑图像的特征集合和前一时刻的生成单词信息,且只利用由图像到字幕的正向生成过程,使得字幕描述准确度低,不能良好的反映图像中的内容的问题,使得本发明具有字幕描述准确度高、能够良好的反映图像中的内容的优点。
第二,由于本发明利用多尺度学习MLL损失函数,计算相邻时间节点联合注意力机制特征重建ASCA-FR网络在训练阶段的损失值,克服了现有技术中用于训练网络的损失函数只是基于标签字幕的交叉熵损失函数,使得训练过程过于单薄,生成字幕表述不流畅且具有诸多语法错误的问题,使得本发明具有训练过程充实,生成字幕表述流畅且语法表述准确的优点。
附图说明
图1是本发明的流程图;
图2是本发明的ASCA-FR网络示意图;
图3是本发明用于仿真实验的4张测试图像。
具体实施方式
下面结合附图1,对本发明做进一步的详细描述。
参照附图1,对本发明的实现步骤做进一步的详细描述。
步骤1,生成自然图像测试集和训练集。
从互联网或公开的图像数据集中随机选取至少10000张自然图像组成自然图像集合。
从自然图像集合中随机选取不多于5000张自然图像,组成自然图像测试集。
为自然图像集合中剩余的每一张自然图像配置英文标签字幕,删去英文标签字幕中大于L的部分,其中L表示设置的字幕中英文单词的最多个数,将删除后的标签字幕与其对应的自然图像组成自然图像训练集。
设置英文结束字符为<EOS>。
将自然图像训练集中每个英文标签字幕中的英文单词与设置的结束字符,组成一个单词集合。
例如,对于英文标签字幕“a man is swinging a baseball bat at a ball onthe court under the blue sky”,该字幕中包含的英文单词依次为a、man、is、swinging、a、baseball、bat、at、a、ball、on、the、court、under、the、blue、sky,共17个英文单词,当L取值为10时,该字幕经过所述删去操作后得到长度为10的英文字幕“a man is swinging abaseball bat at a ball”。
步骤2,提取特征向量。
将自然图像集合中的每张自然图像,依次输入到残差网络中,得到残差网络输出的每张自然图像的M个特征向量,其中,M表示残差网络设置的输出特征映射图的总数。
所述M通常取14×14个像素或7×7个像素。
所述残差网络可直接使用在数据集ImageNet上通过分类任务预训练完毕的50层残差网络ResNet-50(Residual Nets-50)、101层残差网络ResNet-101(Residual Nets-101)或152层残差网络ResNet-152(Residual Nets-152)。
步骤3,构建ASCA-FR网络。
搭建一个5层的相邻时间节点联合注意力机制特征重建ASCA-FR网络,其结构依次为:第一个长短期记忆网络LSTM→联合注意力模型→第二个长短期记忆网络LSTM→Softmax层→第三个长短期记忆网络LSTM。
将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量,作为该时刻Softmax层的输入向量,其中t表示长短期记忆网络LSTM的循环时间节点,t的取值范围是1≤t≤T,其中T表示长短期记忆网络LSTM的循环总次数,T的取值范围是1≤T≤L。
将Softmax层t-1时刻长度为W的输出概率分布向量中的最大取值元素的元素值设置为1,其余元素值设置为0,得到t-1时刻的单词向量,其中W表示Softmax层的输出结点总数。
将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量、t-1时刻的生成单词嵌入向量以及平均特征向量三者串联在一起作为t时刻第一个长短期记忆网络LSTM的输入向量。
所述t-1时刻的生成单词嵌入向量是由下式计算得到的:
yt-1=E·wt-1
其中,yt-1表示t-1时刻的生成单词嵌入向量,E表示维度为D×W的参数矩阵,D表示长短期记忆网络的隐藏层结点总数,·表示矩阵相乘操作,wt-1表示t-1时刻自然图像的单词向量。
所述平均特征向量是由下式计算得到的:
将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和联合注意力模型在时刻t的注意力向量串联起来,作为在t时刻第二个长短期记忆网络LSTM的输入向量。
所述联合注意力模型在时刻t的注意力向量是由下式计算得到的:
其中,at表示t时刻自然图像的注意力向量,exp表示以自然常数e为底的指数操作,tanh表示双曲正切操作,U1、U2、U3和U4分别表示ASCA-FR网络中的权重参数矩阵,表示第一个长短期记忆网络LSTMt时刻输出的隐藏状态向量,表示第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量,at-1表示联合注意力模型在时刻t-1的输出注意力向量,vj表示输入自然图像的M个特征向量中的第j个特征向量,j的取值范围是1≤j≤M。
将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量串联起来作为在t时刻第三个长短期记忆网络LSTM的输入向量。
参见附图2,对本发明的ASCA-FR网络的结构做进一步的详细描述。
图2中的5个矩形框从左到右依次表示第一个长短期记忆网络LSTM、联合注意力模型、第二个长短期记忆网络LSTM、Softmax层和第三个长短期记忆网络LSTM,v表示自然图像的平均特征向量,yt-1表示t-1时刻的生成单词嵌入向量,表示第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量,表示第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量,vi表示自然图像的第i个特征向量,at-1表示联合注意力模型在时刻t-1的输出注意力向量,at表示t时刻自然图像的注意力向量,表示第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量,pt表示t时刻Softmax层的输出概率分布向量,表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量。
所述ASCA-FR网络中的三个长短期记忆网络LSTM具有相同的结构和隐藏层结点总数,遵循同一个时间序列且初始隐藏状态向量均设置为0,其各自在t时刻的隐藏状态向量由它们各自在t-1时刻的隐藏状态向量和t时刻的输入向量共同决定,长短期记忆网络LSTM的循环终止条件是循环次数达到字幕最大长度或单词向量中元素值为1的元素是单词向量的最后一个元素。
步骤4,训练ASCA-FR网络。
设置Softmax层的输出结点总数与单词集合的长度相等。
将自然图像训练集中每张自然图像的M个特征向量,依次输入到ASCA-FR网络中。
利用下述的多尺度学习MLL损失函数,计算ASCA-FR网络的损失值:
其中,L1表示ASCA-FR网络的损失值,∑表示向量相加操作,ln表示以自然常数e为底的对数操作,pt表示t时刻Softmax层的输出概率分布向量,表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量,|| ||2表示2-范数操作。
使用随机梯度下降法,训练ASCA-FR网络,得到训练好的ASCA-FR网络。
步骤5,获得自然图像字幕。
将单词集合中的所有单词从小到大进行编号。
将自然图像测试集中每张自然图像的M个特征向量,依次输入到训练好的ASCA-FR网络中,取出单词集合中编号与t时刻单词向量中元素值为1的索引相同的英文单词,将该英文单词作为t时刻的输出单词,其中,t的取值范围是1≤t≤T。
按照t从小到大的顺序将输出单词连接成自然图像字幕。
下面结合仿真实验对本发明的效果做进一步的描述。
1.仿真条件:
本发明仿真实验的硬件测试平台是:CPU为Intel(R)Core(TM)i7-7800X,主频为3.5GHz,内存32GB,GPU为NVIDIA TITAN XP;软件平台是:Ubuntu 16.04LTS。
2.仿真内容与结果分析:
本发明的仿真实验是采用本发明的方法,选取微软图像数据集MSCOCO 2014(Microsoft Common Objects in Context 2014),对ASCA-FR网络进行训练和测试,其中自然图像训练集中包含微软图像数据集MSCOCO 2014的113287张训练图像,将微软图像数据集MSCOCO 2014的5000张测试图像作为自然图像测试集,从微软图像数据集MSCOCO 2014对应于自然图像训练集中每张自然图像的5个人工标注语句中随机选取1句,作为该训练图像的标签字幕,使用101层残差网络Resnet-101提取自然图像集合中所有自然图像的特征向量,并将残差网络的输出特征映射图的总数M设置为14×14个像素,字幕最大长度L设置为16,长短期记忆网络LSTM的隐藏层结点总数D设置为512个。
从自然图像测试集中随机选取4张测试图像用于本发明仿真实验,如图3(a)至(d)所示,经过训练好的ASCA-FR网络测试,得到图(a)的英文字幕“a man swinging abaseball bat at a ball”,得到图(b)的英文字幕“a baby sitting in a high chaireating a carrot”,得到图(c)的英文字幕“a street sign on the side of a street”,得到图(d)的英文字幕“a cat sitting on top of a computer keyboard”。
为了评价本发明方法得到的ASCA-FR网络的有效性和优越性,使用n元组双语评估指标BLEU-n(Bilingual Evaluation Understudy-n gram)、评估指标METEOR(Meteor)和基于共识的图像描述评估指标CIDEr(Consensus-based Image Description Evaluation)对每张测试图像通过ASCA-FR网络得到的字幕进行评估。其中,n表示n元组双语评估指标BLEU-n中包含的单词个数,各评估指标数值越大则表明生成的字幕越优,得到的评估结果如表1所示。表1中的VAE表示现有技术中的一种基于变分自动编码器的图像字幕方法,该方法是作者Yunchen Pu,Zhe Gan,Ricardo Henao,Xin Yuan,Chunyuan Li,Andrew Stevens,Lawrence Carin在其发表的论文“Variational autoencoder for deep learning ofimages,labels and caprions”(Conference and Workshop on Neural InformationProcessing Systems会议论文,2016)中所公开的方法。表1中的ASCA-FR+MLL表示本发明方法,n元组双语评估指标BLEU-n中的n分别取集合{1,2,3,4}中的元素。
表1自然图像测试集字幕评估结果表
方法 | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | CIDEr |
VAE | 72.0 | 52.0 | 37.0 | 28.0 | 24.0 | 90.0 |
ASCA-FR+MLL | 75.1 | 58.1 | 43.5 | 32.3 | 26.3 | 105.0 |
将得到的测试图像的字幕输入到微软图像字幕评估器Microsoft Captiondataset and evaluation server(Microsoft Caption dataset and evaluationserver)中,得到表1中n元组双语评估指标BLEU-n、评估指标METEOR和基于共识的图像描述评估指标CIDEr的评估结果,如表1所示。
从表1中可见,本发明的自然图像测试集字幕评估结果均优于方法VAE得到的结果,且本发明的各项评估指标结果都很优秀,说明本发明构建的ASCA-FR网络以及利用多尺度学习MLL损失函数对网络进行训练的方法有效性强且性能优越,使得生成的字幕表述流畅、语法正确且描述准确度高,能够良好的反映自然图像中的内容。
Claims (4)
1.一种基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法,其特征在于,利用所构建的相邻时间节点联合注意力机制特征重建ASCA-FR网络生成输入自然图像的字幕,利用所构建的多尺度学习MLL损失函数计算公式对ASCA-FR网络进行训练;该方法的具体步骤包括如下:
(1)生成自然图像测试集和训练集:
(1a)从互联网或公开的图像数据集中随机选取至少10000张自然图像组成自然图像集合;
(1b)从自然图像集合中随机选取不多于5000张自然图像,组成自然图像测试集;
(1c)为自然图像集合中剩余的每一张自然图像配置英文标签字幕,删去英文标签字幕中大于L的部分,其中L表示设置的字幕中英文单词的最多个数,将删除后的标签字幕与其对应的自然图像组成自然图像训练集;
(1d)设置英文结束字符为<EOS>;
(1e)将自然图像训练集中每个英文标签字幕中的英文单词与设置的结束字符,组成一个单词集合;
(2)提取特征向量:
将自然图像集合中的每张自然图像,依次输入到残差网络中,得到残差网络输出的每张自然图像的M个特征向量,其中,M表示残差网络设置的输出特征映射图的总数;
(3)构建ASCA-FR网络:
(3a)搭建一个5层的相邻时间节点联合注意力机制特征重建ASCA-FR网络,其结构依次为:第一个长短期记忆网络LSTM→联合注意力模型→第二个长短期记忆网络LSTM→Softmax层→第三个长短期记忆网络LSTM;
(3b)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量,作为该时刻Softmax层的输入向量,其中t表示长短期记忆网络LSTM的循环时间节点,t的取值范围是1≤t≤T,其中T表示长短期记忆网络LSTM的循环总次数,T的取值范围是1≤T≤L;
(3c)将Softmax层t-1时刻长度为W的输出概率分布向量中的最大取值元素的元素值设置为1,其余元素值设置为0,得到t-1时刻的单词向量,其中W表示Softmax层的输出结点总数;
(3d)将第二个长短期记忆网络LSTM在t-1时刻的输出隐藏状态向量、t-1时刻的生成单词嵌入向量以及平均特征向量三者串联在一起作为t时刻第一个长短期记忆网络LSTM的输入向量;
(3e)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和联合注意力模型在时刻t的注意力向量串联起来,作为在t时刻第二个长短期记忆网络LSTM的输入向量;
(3f)将第一个长短期记忆网络LSTM在t时刻的输出隐藏状态向量和第二个长短期记忆网络LSTM在t时刻的输出隐藏状态向量串联起来作为在t时刻第三个长短期记忆网络LSTM的输入向量;
(4)训练ASCA-FR网络:
(4a)设置Softmax层的输出结点总数与单词集合的长度相等;
(4b)将自然图像训练集中每张自然图像的M个特征向量,依次输入到ASCA-FR网络中;
(4c)利用下述的多尺度学习MLL损失函数,计算ASCA-FR网络的损失值:
其中,L1表示ASCA-FR网络的损失值,∑表示向量相加操作,ln表示以自然常数e为底的对数操作,pt表示t时刻Softmax层的输出概率分布向量,表示第三个长短期记忆网络LSTM在t时刻的输出隐藏状态向量,|| ||2表示2-范数操作;
(4d)使用随机梯度下降法,训练ASCA-FR网络,得到训练好的ASCA-FR网络;
(5)获得自然图像字幕:
(5a)将单词集合中的所有单词从小到大进行编号;
(5b)将自然图像测试集中每张自然图像的M个特征向量,依次输入到训练好的ASCA-FR网络中,取出单词集合中编号与t时刻单词向量中元素值为1的索引相同的英文单词,将该英文单词作为t时刻的输出单词,其中,t的取值范围是1≤t≤T;
(5c)按照t从小到大的顺序将输出单词连接成自然图像字幕。
2.根据权利要求1所述的基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法,其特征在于,步骤(3d)中所述t-1时刻的生成单词嵌入向量是由下式计算得到的:
yt-1=E·wt-1
其中,yt-1表示t-1时刻的生成单词嵌入向量,E表示维度为D×W的参数矩阵,D表示长短期记忆网络的隐藏层结点总数,·表示矩阵相乘操作,wt-1表示t-1时刻自然图像的单词向量。
4.根据权利要求1所述的基于多尺度学习MLL和相邻时间节点联合注意力机制特征重建ASCA-FR的图像字幕生成方法,其特征在于,步骤(3e)中所述联合注意力模型在时刻t的注意力向量是由下式计算得到的:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603384.0A CN109711465B (zh) | 2018-12-26 | 2018-12-26 | 基于mll和asca-fr的图像字幕生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811603384.0A CN109711465B (zh) | 2018-12-26 | 2018-12-26 | 基于mll和asca-fr的图像字幕生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109711465A CN109711465A (zh) | 2019-05-03 |
CN109711465B true CN109711465B (zh) | 2022-12-06 |
Family
ID=66258533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811603384.0A Active CN109711465B (zh) | 2018-12-26 | 2018-12-26 | 基于mll和asca-fr的图像字幕生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109711465B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135567A (zh) * | 2019-05-27 | 2019-08-16 | 中国石油大学(华东) | 基于多注意力生成对抗网络的图像字幕生成方法 |
CN110288029B (zh) * | 2019-06-27 | 2022-12-06 | 西安电子科技大学 | 基于Tri-LSTMs模型的图像描述方法 |
CN110934599A (zh) * | 2019-12-20 | 2020-03-31 | 东南大学 | 一种自然场景下婴幼儿共同注意评估方法及*** |
CN111563367A (zh) * | 2020-05-06 | 2020-08-21 | 首都师范大学 | 基于FocalGAN的短文本自动生成方法、装置、设备及存储介质 |
CN111833583B (zh) * | 2020-07-14 | 2021-09-03 | 南方电网科学研究院有限责任公司 | 电力数据异常检测模型的训练方法、装置、设备和介质 |
CN113657425B (zh) * | 2021-06-28 | 2023-07-04 | 华南师范大学 | 基于多尺度与跨模态注意力机制的多标签图像分类方法 |
CN116226702B (zh) * | 2022-09-09 | 2024-04-26 | 武汉中数医疗科技有限公司 | 一种基于生物电阻抗的甲状腺采样数据识别方法 |
CN115781136B (zh) * | 2023-02-03 | 2023-04-25 | 苏芯物联技术(南京)有限公司 | 一种焊接热输入异常智能识别及优化反馈方法 |
CN117131182A (zh) * | 2023-10-26 | 2023-11-28 | 江西拓世智能科技股份有限公司 | 一种基于ai的对话回复生成方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9792534B2 (en) * | 2016-01-13 | 2017-10-17 | Adobe Systems Incorporated | Semantic natural language vector space |
-
2018
- 2018-12-26 CN CN201811603384.0A patent/CN109711465B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3040165A1 (en) * | 2016-11-18 | 2018-05-24 | Salesforce.Com, Inc. | Spatial attention model for image captioning |
CN108052512A (zh) * | 2017-11-03 | 2018-05-18 | 同济大学 | 一种基于深度注意力机制的图像描述生成方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109711465A (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109711465B (zh) | 基于mll和asca-fr的图像字幕生成方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN106980683B (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN110162636B (zh) | 基于d-lstm的情绪原因识别方法 | |
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN107918782B (zh) | 一种生成描述图像内容的自然语言的方法与*** | |
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN108733837B (zh) | 一种病历文本的自然语言结构化方法及装置 | |
CN106383816B (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN111881262B (zh) | 基于多通道神经网络的文本情感分析方法 | |
CN109344404B (zh) | 情境感知的双重注意力自然语言推理方法 | |
CN111079444A (zh) | 一种基于多模态关系的网络谣言检测方法 | |
CN110033008B (zh) | 一种基于模态变换与文本归纳的图像描述生成方法 | |
CN111444367B (zh) | 一种基于全局与局部注意力机制的图像标题生成方法 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN109783666A (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN110991290B (zh) | 基于语义指导与记忆机制的视频描述方法 | |
CN110096711A (zh) | 序列全局关注和局部动态关注的自然语言语义匹配方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN114722833B (zh) | 一种语义分类方法及装置 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及*** | |
CN116303929A (zh) | 机器阅读理解方法及其装置、电子设备及存储介质 | |
CN112801217B (zh) | 文本相似度判断方法、装置、电子设备以及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |