CN110288029A - 基于Tri-LSTMs模型的图像描述方法 - Google Patents

基于Tri-LSTMs模型的图像描述方法 Download PDF

Info

Publication number
CN110288029A
CN110288029A CN201910565977.0A CN201910565977A CN110288029A CN 110288029 A CN110288029 A CN 110288029A CN 201910565977 A CN201910565977 A CN 201910565977A CN 110288029 A CN110288029 A CN 110288029A
Authority
CN
China
Prior art keywords
lstm
indicate
image
neural networks
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910565977.0A
Other languages
English (en)
Other versions
CN110288029B (zh
Inventor
王爽
侯彪
张磊
孟芸
叶秀眺
田敬贤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910565977.0A priority Critical patent/CN110288029B/zh
Publication of CN110288029A publication Critical patent/CN110288029A/zh
Application granted granted Critical
Publication of CN110288029B publication Critical patent/CN110288029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于Tri‑LSTMs模型的图像描述方法,其步骤为:生成训练集并映射词向量,搭建并训练RPN卷积神经网络与Faster‑RCNN卷积神经网络,提取图像全连接层特征,构建并训练Tri‑LSTMs模型,生成图像描述。本发明组合了多个长短时记忆网路LSTM,同时利用了图像的全连接层特征和单词的300维GLOVE词向量,有效提高了生成字幕的多样性,生成了更准确的图像描述。

Description

基于Tri-LSTMs模型的图像描述方法
技术领域
本发明属于图像处理技术领域,更进一步涉及图像描述技术领域中的一种基于Tri-LSTMs模型的图像描述方法。本发明可用于对给定图像生成准确且具有多样性的语句来描述图像的内容。其中,Tri-LSTMs表示由语义LSTM模块、视觉LSTM模块和语言LSTM模块三个模块组成的Tri-LSTMs模型。
背景技术
图像描述是给定一张图像,生成语句来描述图像的内容。生成的语句不仅要流畅,还要能够准确地描述图像中的物体以及物体的属性、位置以及物体之间的关系。生成的图像描述可以用于寻找符合描述内容的图像,便于图像检索。此外,将生成的图像描述转为盲文后,可以帮助盲人理解图像内容。
深圳大学在其拥有的专利技术“一种基于词袋模型的图像描述方法及***”(专利申请号:201410491596X,授权公告号:CN104299010B)中提出了一种基于词袋模型的图像描述方法。该专利技术主要解决传统方法信息丢失与准确度过低的问题。该专利技术实现步骤为:(1)从待描述图像中提取特征点;(2)计算所述特征点与码书中视觉单词之间的距离集合,并通过高斯隶属度函数、利用所述距离集合获得所述特征点与所述视觉单词之间的隶属度集合;(3)利用所述隶属度集合,统计用于描述每一特征点的所述视觉单词的隶属度,形成直方图矢量,所述直方图矢量用以描述所述待描述图像。该专利技术虽然改进了传统的图像描述技术,描述的准确度更高,但是,该方法仍然存在的不足之处在于,需要人工提取特征点,采用不同的提取方法对结果有很大影响,提取的过程繁杂,且最终生成的图像描述多样性不足。
天津大学在其拥有的专利技术“一种从结构化文本到图像描述的生成方法”(专利申请号:2016108541692,授权公告号:CN106503055B)中提出了一种基从结构化文本到图像描述的生成方法。该专利技术主要解决现有技术生成的图像描述准确度低且多样性不足的问题。该专利技术实现步骤为:(1)从互联网下载图片,构成图片训练集;(2)对训练集中图像对应的描述进行词法分析,构造结构化文本;(3)利用现有的神经网络模型,提取训练集图像的卷积神经网络特征,并以<图像特征,结构化文本>作为输入,构造多任务识别模型;(4)以训练集中提取的结构化文本和相应描述作为递归神经网络的输入,训练得到递归神经网络模型的参数;(5)输入待描述图像的卷积神经网络特征,通过多任务识别模型得到预测结构化文本;(6)输入预测结构化文本,通过递归神经网络模型得到图像描述。该专利技术虽然改进了改善了生成的图像描述多样性不足的问题,但是,该方法仍然存在的不足之处在于,仅仅使用了图像特征,没有利用其他有效信息对解码过程进行指导,影响最终生成的图像描述的准确度。
Oriol Vinyals等人在其发表的论文“Show and Tell:A Neural Image CaptionGenerator”(cvpr 2015会议论文)中提出基于编码器-解码器模型的图像描述方法。该方法是先利用卷积神经网络(ConvolutionalNeural Network,CNN)提取图像特征,然后送到长短时记忆网络(Long Short-TermMemory,LSTM)中生成图像对应的描述。该方法首次使用编码器-解码器的结构解决图像描述问题,但是,该方法仍然存在的不足之处在于,模型结构过于简单,生成的图像描述不准确。
Kelvin Xu等人在其发表的论文“Show,Attend and Tell:Neural Image CaptionGeneration with Visual Attention”(cvpr 2015会议论文)中提出将长短时记忆网络(Long Short-TermMemory,LSTM)与注意力机制结合的图像描述方法。该方法在解码过程中对图像的不同位置分配不同的权重,从而对不同位置的物体给予不同的关注度。该方法生成了更准确的图像描述,证明了长短时记忆网络(Long Short-TermMemory,LSTM)与注意力机制结合的有效性。但是该方法仍然存在的不足之处是,单层长短时记忆网络(LongShort-TermMemory,LSTM)同时承担语句生成、图像权重分配等多种职责,职责混淆导致生成的图像描述不够准确。
Quanzeng You等人在其发表的论文“Image Captioning with SemanticAttention”(cvpr 2016会议论文)中提出将语义属性、图像特征同时与注意力机制结合的图像描述方法。该方法首先选取词汇库中出现频率最高的1000个单词作为语义属性,然后在解码器的输入层与输出层引入加权后的语义属性。该方法证明了同时将语义属性、图像特征与注意力机制结合的有效性。但是,该方法仍然存在的不足之处是,不同图像对应的描述之间差异性过小,生成的描述僵硬、模板化。
发明内容
本发明的目的在于克服上述现有技术的不足,提出了一种基于Tri-LSTMs模型的图像描述方法。本发明能有效地提高图像描述的准确性和多样性。
实现本发明的技术思路是:首先,搭建并训练RPN卷积神经网络模型与faster-RCNN网络模型;然后,搭建并训练Tri-LSTMs模型;最后,使用预训练好的faster-RCNN网络模型提取图像区域,将图像区域输入到Tri-LSTMs模型中,对图像生成图像描述。
实现本发明目的的具体步骤如下:
(1)生成训练集并映射词向量:
(1a)从带有图像描述的图像数据集中选取至少80000个样本组成训练集,所选取的每个样本是一个图像-描述对,每个图像-描述对中包含了一幅图像以及五条对应的图像描述;
(1b)训练集中每个样本的图像描述由若多个英文单词组成,统计所有样本的所有图像描述中英文单词出现的频率并降幂排序,选取前1000个单词,将所选的每个单词映射为对应的300维GLOVE词向量,并将其存储到计算机中;
(2)搭建RPN卷积神经网络模型与faster-RCNN网络模型:
(2a)搭建一个由八个卷积层和一个Softmax层构成的RPN卷积神经网络模型并设置各层参数;
(2b)搭建一个由五个卷积层、一个ROIpooling层、四个全连接层和一个Softmax层构成的faster-RCNN网络模型并设置各层参数;
(3)训练RPN卷积神经网络和fast-RCNN卷积神经网络:
采用交替训练方法,对RPN卷积神经网络和fast-RCNN卷积神经网络进行交替训练,得到训练好的RPN卷积神经网络和fast-RCNN卷积神经网络;
(4)提取训练集中每个样本图像的全连接层特征:
(4a)将训练集中的每个样本图像依次输入到训练好的RPN卷积神经网络中,输出每个样本图像中所有目标粗选框的位置和框中目标的种类;
(4b)将每个目标粗选框中的图像区域分别输入到在ImageNet数据库上训练好的resnet101网络中,将该网络最后一层全连接层输出的全部全连接层特征存储到计算机中;
(5)构建Tri-LSTMs模型:
(5a)将一个长短期记忆网络LSTM和一个注意力网络依次组成语义LSTM模块,长短期记忆网络LSTM包含了1024个神经元;
(5b)将一个长短期记忆网络LSTM和一个注意力网络依次组成视觉LSTM模块,长短期记忆网络LSTM包含了1024个神经元;
(5c)将一个长短期记忆网络LSTM、一个全连接层依次组成语言LSTM模块,长短期记忆网络LSTM包含了1024个神经元,全连接层的神经元数目设定为训练集中所有图像描述包含的单词总数;
(5d)将语义LSTM模块、视觉LSTM模块、语言LSTM模块依次组成Tri-LSTMs模型;
(6)训练Tri-LSTMs模型:
(6a)在不同的时刻,将训练样本图像描述中不同位置的单词作为输入,从零时刻开始,训练Tri-LSTMs模型;
(6b)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,将全部全连接层特征的平均值作为特征向量;
(6c)将特征向量与图像描述中当前时刻的单词映射的词向量相加,输入到语义LSTM模块中的长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;
(6d)读取步骤(1)计算机中存储的1000个300维GLOVE词向量,输入到语义LSTM模块的注意力网络中,注意力网络前向传导后输出加权后的GLOVE词向量;
(6e)将语义LSTM模块当前时刻的隐藏态与语义LSTM模块中注意力网络的输出相加,将得到的和向量作为语义LSTM模块的输出;
(6f)将语义LSTM模块输出的和向量,输入到视觉LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;
(6g)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,输入到视觉LSTM模块的注意力网络中,注意力网络前向传导,输出加权后的全连接层特征向量;
(6h)将视觉LSTM模块当前时刻的隐藏态与视觉LSTM模块中注意力网络的输出,将得到的和向量作为视觉LSTM模块的输出;
(6i)将语义LSTM模块的输出的和向量,输入到语言LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态,将隐藏态输入到全连接层中,输出下一个时刻单词的概率向量;
(6j)判断下一个时刻图像描述中是否存在单词,若是,计算单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失后执行步骤(6b),否则,执行步骤(6k);
(6k)将所有时刻的交叉熵损失相加得到总损失,使用BP算法优化模型中的所有参数,使总损失最小,当总损失收敛时停止训练,得到训练好的Tri-LSTMs模型;
(7)生成图像描述:
(7a)将一张自然图像输入到预训练好的faster-RCNN中,输出目标粗选框;
(7b)将目标粗选框中的图像区域输入到训练好的resnet101网络中,输出全连接层图像特征;
(7c)将全连接层图像特征输入到Tri-LSTMs模型中,生成图像描述。
本发明与现有技术相比较,具有以下优点:
第一,由于本发明构建的Tri-LSTMs模型利用三个长短期记忆网络LSTM组合,克服了现有技术仅仅利用单个长短期记忆网络LSTM来生成图像描述,导致模型结构过于简单,不能生成足够准确的图像描述的缺点,使得本发明可以将多个长短期记忆网络LSTM组合起来,能够有效提升图像描述的准确性,具有泛化能力较强的优点。
第二,本发明同时利用了图像的全连接层特征、单词的300维GLOVE词向量作为Tri-LSTMs模型的输入,克服了现有技术仅使用图像的全连接层特征作为模型的输入,能利用的有效信息过于单一,因此导致图像描述方法生成的图像描述多样性不足的问题,使得本发明具有生成的图像描述更加多样化的的优点
附图说明
图1是本发明的流程图;
图2是本发明中构建的Tri-LSTMs模型的结构图。
图3是本发明的仿真图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照图1,对本发明实现的步骤做进一步的描述。
步骤1,生成训练集并映射词向量。
从带有图像描述的图像数据集中选取至少80000个样本组成训练集,所选取的每个样本是一个图像-描述对,每个图像-描述对中包含了一幅图像以及五条对应的图像描述。图像描述是指,图像中物体的属性、位置以及相互之间的关系。
训练集中每个样本的图像描述由若多个英文单词组成,统计所有样本的所有图像描述中英文单词出现的频率并降幂排序,选取前1000个单词,将所选的每个单词映射为对应的300维GLOVE词向量,并将其存储到计算机中。
步骤2,搭建RPN卷积神经网络模型与faster-RCNN网络模型。
搭建一个由八个卷积层和一个Softmax层构成的RPN卷积神经网络模型并设置各层参数,各层卷积核大小均为3*3。
搭建一个由五个卷积层、一个ROIpooling层、四个全连接层和一个Softmax层构成的faster-RCNN网络模型并设置各层参数,各层卷积核大小均为3*3。
步骤3,训练RPN卷积神经网络和fast-RCNN卷积神经网络。
采用交替训练方法,对RPN卷积神经网络和fast-RCNN卷积神经网络进行交替训练,得到训练好的RPN卷积神经网络和fast-RCNN卷积神经网络。
交替训练方法的步骤如下:
第1步,对RPN卷积神经网络的每个参数选取一个随机值,进行随机初始化。
第2步,将训练样本图像输入到初始化后的RPN卷积神经网络中,使用反向传播BP算法训练该网络,调整RPN卷积神经网络参数,直到所有参数收敛为止,得到初次训练好的RPN卷积神经网络。
第3步,将训练样本图像输入到训练好的RPN卷积神经网络中,输出训练样本图像上的目标粗选框。
第4步,对fast-RCNN卷积神经网络的每个参数选取一个随机值,进行随机初始化。
第5步,将训练样本图像和本步骤3步中获得的目标粗选框输入到初始化后的fast-RCNN卷积神经网络中,使用反向传播BP算法训练该网络,调整fast-RCNN卷积神经网络参数,直到所有参数收敛为止,得到初次训练好的fast-RCNN卷积神经网络。
第6步,固定本步骤第2步中训练好的RPN卷积神经网络前五层卷积层的参数与本步骤第5步中训练好的fast-RCNN卷积神经网络的参数,将训练样本图像输入到训练好的RPN卷积神经网络中,使用反向传播BP算法微调RPN卷积神经网络未固定的参数,直到其收敛为止,得到最终训练好的RPN卷积神经网络模型。
第7步,将训练样本图像输入到本步骤第6步最终训练好的RPN卷积神经网络中,重新得到样本图像上的目标粗选框。
第8步,固定第五步中训练好的fast-RCNN卷积神经网络前五层卷积层参数和本步骤第6步最终训练好的RPN卷积神经网络参数,将训练样本图像和本步骤第7步中重新得到的目标粗选框输入fast-RCNN卷积神经网络中,使用反向传播BP算法微调fast-RCNN卷积神经网络未固定的参数,直到其收敛为止,得到最终训练好的fast-RCNN卷积神经网络。
步骤4,提取图像全连接层特征。
将训练集中的样本图像依次输入到训练好的RPN卷积神经网络中,输出每个样本图像中所有目标粗选框的位置和框中目标的种类。
将每个目标粗选框中的图像区域分别输入到在ImageNet数据库上训练好的resnet101网络中,将该网络最后一层全连接层输出的全部全连接层特征存储到计算机中。
步骤5,构建Tri-LSTMs模型。
将一个长短期记忆网络LSTM和一个注意力网络依次组成语义LSTM模块,长短期记忆网络LSTM包含了1024个神经元。
将一个长短期记忆网络LSTM和一个注意力网络依次组成视觉LSTM模块,长短期记忆网络LSTM包含了1024个神经元。
将一个长短期记忆网络LSTM、一个全连接层依次组成语言LSTM模块,长短期记忆网络LSTM包含了1024个神经元,全连接层的神经元数目设定为训练集中所有图像描述包含的单词总数。
将语义LSTM模块、视觉LSTM模块、语言LSTM模块依次组成Tri-LSTMs模型如图2所示。
步骤6,训练Tri-LSTMs模型。
第1步,在不同的时刻,将训练样本图像描述中不同位置的单词作为输入,从零时刻开始,训练Tri-LSTMs模型。
第2步,读取步骤4中计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,将全部全连接层特征的平均值作为特征向量。
第3步,将特征向量与图像描述中当前时刻的单词映射的词向量相加,输入到语义LSTM模块中的长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态。
所述长短期记忆网络LSTM前向传导是按照下式实现的:
it=sigmoid(Wixxt+Wihht-1)
ft=sigmoid(Wfxxt+Wfhht-1)
ot=sigmoid(Woxxt+Wohht-1)
ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1)
ht=ot⊙tanh(ct)
其中,it表示t时刻长短期记忆网络LSTM的输入门,sigmoid表示激活函数e表示以自然常数e为底的指数操作,Wix表示输入门的权重转移矩阵,xt表示t时刻长短期记忆网络LSTM的输入,Wih表示输入门所对应的隐藏态的权重转移矩阵,ht-1表示t-1时刻长短期记忆网络LSTM的隐藏态,ft表示t时刻长短期记忆网络LSTM的遗忘门,Wfx表示遗忘门的权重转移矩阵,Wfh表示遗忘门所对应的隐藏态的权重转移矩阵,ot表示t时刻长短期记忆网络LSTM的输出门,Wox表示输出门的权重转移矩阵,Woh表示输出门所对应的隐藏态的权重转移矩阵,ct表示t时刻长短期记忆网络LSTM的状态单元,⊙表示计算内积操作,ct-1表示t-1时刻长短期记忆网络LSTM的状态单元,tanh表示激活函数Wcx表示状态单元的权重转移矩阵,Wch表示状态单元所对应的隐藏态的权重转移矩阵,ht表示t时刻长短期记忆网络LSTM的隐藏态。
第4步,读取步骤1中计算机中存储的1000个300维GLOVE词向量,输入到语义LSTM模块的注意力网络中,注意力网络前向传导后输出加权后的GLOVE词向量。
所述注意力网络前向传导是按照下式实现的:
ai,t=tanh(Wssi+Whht)
其中,ai,t表示t时刻1000个300维GLOVE词向量中第i个向量的权重值,tanh表示激活函数e表示以自然常数e为底的指数操作,Ws表示300维GLOVE词向量的权重转移矩阵,si表示输入的1000个300维GLOVE词向量中的第i个词向量,Wh表示语义LSTM模块中的长短期记忆网络LSTM输出的隐藏态的权重转移矩阵,ht表示t时刻语义LSTM模块中的长短期记忆网络LSTM输出的隐藏态,表示t时刻语义LSTM模块中注意力网络输出的特征向量,K表示300维GLOVE词向量的总数,∑表示求和操作,i表示词向量中每个向量的索引。
第5步,将语义LSTM模块当前时刻的隐藏态与语义LSTM模块中注意力网络的输出相加,得到的和向量作为语义LSTM模块的输出。
第6步,将语义LSTM模块的输出的和向量,输入到视觉LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态。
所述长短期记忆网络LSTM前向传导是按照下式实现的:
it=sigmoid(Wixxt+Wihht-1)
ft=sigmoid(Wfxxt+Wfhht-1)
ot=sigmoid(Woxxt+Wohht-1)
ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1)
ht=ot⊙tanh(ct)
其中,it表示t时刻长短期记忆网络LSTM的输入门,sigmoid表示激活函数e表示以自然常数e为底的指数操作,Wix表示输入门的权重转移矩阵,xt表示t时刻长短期记忆网络LSTM的输入,Wih表示输入门所对应的隐藏态的权重转移矩阵,ht-1表示t-1时刻长短期记忆网络LSTM的隐藏态,ft表示t时刻长短期记忆网络LSTM的遗忘门,Wfx表示遗忘门的权重转移矩阵,Wfh表示遗忘门所对应的隐藏态的权重转移矩阵,ot表示t时刻长短期记忆网络LSTM的输出门,Wox表示输出门的权重转移矩阵,Woh表示输出门所对应的隐藏态的权重转移矩阵,ct表示t时刻长短期记忆网络LSTM的状态单元,⊙表示计算内积操作,ct-1表示t-1时刻长短期记忆网络LSTM的状态单元,tanh表示激活函数Wcx表示状态单元的权重转移矩阵,Wch表示状态单元所对应的隐藏态的权重转移矩阵,ht表示t时刻长短期记忆网络LSTM的隐藏态。
第7步,读取步骤4计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,输入到视觉LSTM模块的注意力网络中,注意力网络前向传导,输出加权后的全连接层特征向量。
所述注意力网络前向传导是按照下式实现的:
ai,t=tanh(Wvvi+Whht)
其中,ai,t表示t时刻全部全连接层特征中第i个特征的权重,tanh表示激活函数e表示以自然常数e为底的指数操作,Wv表示全连接层特征的权重转移矩阵,vi表示全部全连接层特征中第i个特征,Wh表示视觉LSTM模块中的长短期记忆网络LSTM的隐藏态的权重矩阵,ht表示t时刻视觉LSTM模块中的长短期记忆网络LSTM输出的隐藏态,表示t时刻视觉LSTM模块中注意力网络的输出,K表示全连接层特征向量的总数,∑表示求和操作,i表示特征向量中每个向量的索引。
第8步,将视觉LSTM模块当前时刻的隐藏态与视觉LSTM模块中注意力网络的输出,得到的和向量作为视觉LSTM模块的输出。
第9步,将语义LSTM模块的输出的和向量,输入到语言LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态,将隐藏态输入到全连接层中,输出下一个时刻单词的概率向量。
所述长短期记忆网络LSTM前向传导是按照下式实现的:
it=sigmoid(Wixxt+Wihht-1)
ft=sigmoid(Wfxxt+Wfhht-1)
ot=sigmoid(Woxxt+Wohht-1)
ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1)
ht=ot⊙tanh(ct)
其中,it表示t时刻长短期记忆网络LSTM的输入门,sigmoid表示激活函数e表示以自然常数e为底的指数操作,Wix表示输入门的权重转移矩阵,xt表示t时刻长短期记忆网络LSTM的输入,Wih表示输入门所对应的隐藏态的权重转移矩阵,ht-1表示t-1时刻长短期记忆网络LSTM的隐藏态,ft表示t时刻长短期记忆网络LSTM的遗忘门,Wfx表示遗忘门的权重转移矩阵,Wfh表示遗忘门所对应的隐藏态的权重转移矩阵,ot表示t时刻长短期记忆网络LSTM的输出门,Wox表示输出门的权重转移矩阵,Woh表示输出门所对应的隐藏态的权重转移矩阵,ct表示t时刻长短期记忆网络LSTM的状态单元,⊙表示计算内积操作,ct-1表示t-1时刻长短期记忆网络LSTM的状态单元,tanh表示激活函数Wcx表示状态单元的权重转移矩阵,Wch表示状态单元所对应的隐藏态的权重转移矩阵,ht表示t时刻长短期记忆网络LSTM的隐藏态。
第10步,判断下一个时刻图像描述是否有单词,若是,计算单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失后,则执行本步骤的第2步,否则,执行本步骤的第11步。
所述单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失是按照下述公式计算得到的:
其中,loss表示单词概率向量与训练集图像描述下一个时刻的单词向量之间的交叉熵损失,N表示训练集图像描述中单词的总数,∑表示求和操作,t表示训练集图像描述中单词的索引,log表示以自然常数e为底的对数操作,P(st|I;θ)表示将训练集图像的全部全连接层特征的平均值输入到Tri-LSTMs模型中,输出的t时刻单词概率向量,I表示训练集图像全部全连接层特征的平均值,θ表示Tri-LSTMs模型的所有参数。
第11步,将所有时刻的交叉熵损失相加,得到总损失,使用BP算法优化模型中的所有参数,使总损失最小,当总损失收敛时停止训练,得到训练好的Tri-LSTMs模型。
步骤7,生成图像描述。
将一张自然图像输入到预训练好的faster-RCNN中,输出目标粗选框。
将目标粗选框中的图像区域输入到训练好的resnet101网络中,输出全连接层图像特征。
将全连接层图像特征输入到Tri-LSTMs模型中,生成图像描述。
下面结合仿真对本发明效果做进一步的说明。
1、仿真实验条件:
本发明的仿真实验的硬件平台为:戴尔计算机Intel(R)Core5处理器,主频3.20GHz,内存64GB;
本发明的仿真实验的软件平台为:Python3.5,Tensorflow1.2平台。
本发明仿真实验所使用的数据集为COCO数据集,该数据集是由微软团队获取的一个可以用来做图像描述生成的数据集,数据集的构建时间为2014年,数据集的训练集和测试集各自包含123287和40,775张图像。
2、仿真内容及结果分析:
本发明仿真实验是采用本发明和两个现有技术(自适应注意力机制方法、scst方法),将COCO数据集的123287个训练集样本分别输入到各自构建的模型中进行训练,将测试集的40,775张图像分别输入到训练好的模型中,生成三种方法对每张测试集图像的图像描述。
在仿真实验中,采用的两个现有技术是指:
现有技术自适应注意力机制方法是指,Jiasen Lu等人在论文“Knowing When toLook:Adaptive Attention via A Visual Sentinel for Image Captioning”(cvpr 2017会议论文)中提出的图像描述生成方法,简称自适应注意力机制方法。
现有技术scst方法是指,Jiasen Lu等人在论文“Self-critical SequenceTraining for Image Captioning”(cvpr 2017会议论文)中提出的图像描述生成方法,简称scst方法。
为了比较三种方法生成的图像描述的优劣,利用四个评价指标(BLEU-4、METEOR、ROUGE-L、CIDER)分别对COCO测试集图像上三种方法生成的图像描述进行评价。将指标结果绘制成表1,其中Net-1表示本发明基于Tri-LSTMs模型的图像描述方法,Net-2表示自适应注意力机制方法,Net-3表示scst方法。
表1.仿真实验中本发明和两个现有技术分类结果的定量分析表
从表1中可以看出,本发明中的网络相比于基于自适应注意力机制方法、scst方法,在各种评价指标上获得了更高的分数,因而表现更好,能够生成更精确的图像描述。
为了更直观描述本发明的效果,随机从本发明在COCO测试集上的仿真结果中选取两个图,如图3所示,其中,图3(a),图3(b)均为COCO测试集中的一张自然图像以及该图像对应的图像描述。
由图3的仿真图可以看出,本发明生成的图像描述较为准确、具体地描述了图像中的内容。

Claims (7)

1.一种基于Tri-LSTMs模型的图像描述方法,其特征在于,搭建由语义LSTM模块、视觉LSTM模块和语言LSTM模块组成的Tri-LSTMs模型,对任意一张自然图像生成语句描述图像内容,该方法的步骤如下:
(1)生成训练集并映射词向量:
(1a)从带有图像描述的图像数据集中选取至少80000个样本组成训练集,所选取的每个样本是一个图像-描述对,每个图像-描述对中包含了一幅图像以及五条对应的图像描述;
(1b)训练集中每个样本的图像描述由若多个英文单词组成,统计所有样本的所有图像描述中英文单词出现的频率并降幂排序,选取前1000个单词,将所选的每个单词映射为对应的300维GLOVE词向量,并将其存储到计算机中;
(2)搭建RPN卷积神经网络模型与faster-RCNN网络模型:
(2a)搭建一个由八个卷积层和一个Softmax层构成的RPN卷积神经网络模型并设置各层参数;
(2b)搭建一个由五个卷积层、一个ROIpooling层、四个全连接层和一个Softmax层构成的faster-RCNN网络模型并设置各层参数;
(3)训练RPN卷积神经网络和fast-RCNN卷积神经网络:
采用交替训练方法,对RPN卷积神经网络和fast-RCNN卷积神经网络进行交替训练,得到训练好的RPN卷积神经网络和fast-RCNN卷积神经网络;
(4)提取训练集中每个样本图像的全连接层特征:
(4a)将训练集中的每个样本图像依次输入到训练好的RPN卷积神经网络中,输出每个样本图像中所有目标粗选框的位置和框中目标的种类;
(4b)将每个目标粗选框中的图像区域分别输入到在ImageNet数据库上训练好的resnet101网络中,将该网络最后一层全连接层输出的全部全连接层特征存储到计算机中;
(5)构建Tri-LSTMs模型:
(5a)将一个长短期记忆网络LSTM和一个注意力网络依次组成语义LSTM模块,长短期记忆网络LSTM包含了1024个神经元;
(5b)将一个长短期记忆网络LSTM和一个注意力网络依次组成视觉LSTM模块,长短期记忆网络LSTM包含了1024个神经元;
(5c)将一个长短期记忆网络LSTM、一个全连接层依次组成语言LSTM模块,长短期记忆网络LSTM包含了1024个神经元,全连接层的神经元数目设定为训练集中所有图像描述包含的单词总数;
(5d)将语义LSTM模块、视觉LSTM模块、语言LSTM模块依次组成Tri-LSTMs模型;
(6)训练Tri-LSTMs模型:
(6a)在不同的时刻,将训练样本图像描述中不同位置的单词作为输入,从零时刻开始,训练Tri-LSTMs模型;
(6b)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,将全部全连接层特征的平均值作为特征向量;
(6c)将特征向量与图像描述中当前时刻的单词映射的词向量相加,输入到语义LSTM模块中的长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;
(6d)读取步骤(1)计算机中存储的1000个300维GLOVE词向量,输入到语义LSTM模块的注意力网络中,注意力网络前向传导后输出加权后的GLOVE词向量;
(6e)将语义LSTM模块当前时刻的隐藏态与语义LSTM模块中注意力网络的输出相加,将得到的和向量作为语义LSTM模块的输出;
(6f)将语义LSTM模块输出的和向量,输入到视觉LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态;
(6g)读取步骤(4b)计算机中存储的resnet101网络最后一层全连接层输出的全部全连接层特征,输入到视觉LSTM模块的注意力网络中,注意力网络前向传导,输出加权后的全连接层特征向量;
(6h)将视觉LSTM模块当前时刻的隐藏态与视觉LSTM模块中注意力网络的输出,将得到的和向量作为视觉LSTM模块的输出;
(6i)将语义LSTM模块的输出的和向量,输入到语言LSTM模块中长短期记忆网络LSTM中,长短期记忆网络LSTM前向传导输出隐藏态,将隐藏态输入到全连接层中,输出下一个时刻单词的概率向量;
(6j)判断下一个时刻图像描述中是否存在单词,若是,计算单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失后执行步骤(6b),否则,执行步骤(6k);
(6k)将所有时刻的交叉熵损失相加得到总损失,使用BP算法优化模型中的所有参数,使总损失最小,当总损失收敛时停止训练,得到训练好的Tri-LSTMs模型;
(7)生成图像描述:
(7a)将一张自然图像输入到预训练好的faster-RCNN中,输出目标粗选框;
(7b)将目标粗选框中的图像区域输入到训练好的resnet101网络中,输出全连接层图像特征;
(7c)将全连接层图像特征输入到Tri-LSTMs模型中,生成图像描述。
2.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(1a)中所述的图像描述是指,图像中物体的属性、位置以及相互之间的关系。
3.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(3)中所述交替训练方法的步骤如下:
第一步,对RPN卷积神经网络的每个参数选取一个随机值,进行随机初始化;
第二步,将训练样本图像输入到初始化后的RPN卷积神经网络中,使用反向传播BP算法训练该网络,调整RPN卷积神经网络参数,直到所有参数收敛为止,得到初次训练好的RPN卷积神经网络;
第三步,将训练样本图像输入到训练好的RPN卷积神经网络中,输出训练样本图像上的目标粗选框;
第四步,对fast-RCNN卷积神经网络的每个参数选取一个随机值,进行随机初始化;
第五步,将训练样本图像和第三步中获得的目标粗选框输入到初始化后的fast-RCNN卷积神经网络中,使用反向传播BP算法训练该网络,调整fast-RCNN卷积神经网络参数,直到所有参数收敛为止,得到初次训练好的fast-RCNN卷积神经网络;
第六步,固定第二步中训练好的RPN卷积神经网络前五层卷积层的参数与第五步中训练好的fast-RCNN卷积神经网络的参数,将训练样本图像输入到训练好的RPN卷积神经网络中,使用反向传播BP算法微调RPN卷积神经网络未固定的参数,直到其收敛为止,得到最终训练好的RPN卷积神经网络模型;
第七步,将训练样本图像输入到第六步最终训练好的RPN卷积神经网络中,重新得到样本图像上的目标粗选框;
第八步,固定第五步中训练好的fast-RCNN卷积神经网络前五层卷积层参数和第六步最终训练好的RPN卷积神经网络参数,将训练样本图像和第七步中重新得到的目标粗选框输入fast-RCNN卷积神经网络中,使用反向传播BP算法微调fast-RCNN卷积神经网络未固定的参数,直到其收敛为止,得到最终训练好的fast-RCNN卷积神经网络。
4.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(6c)、步骤(6f)、步骤(6i)中所述的长短期记忆网络LSTM前向传导是按照下式实现的:
it=sigmoid(Wixxt+Wihht-1)
ft=sigmoid(Wfxxt+Wfhht-1)
ot=sigmoid(Woxxt+Wohht-1)
ct=ft⊙ct-1+it⊙tanh(Wcxxt+Wchht-1)
ht=ot⊙tanh(ct)
其中,it表示t时刻长短期记忆网络LSTM的输入门,sigmoid表示激活函数e表示以自然常数e为底的指数操作,Wix表示输入门的权重转移矩阵,xt表示t时刻长短期记忆网络LSTM的输入,Wih表示输入门所对应的隐藏态的权重转移矩阵,ht-1表示t-1时刻长短期记忆网络LSTM的隐藏态,ft表示t时刻长短期记忆网络LSTM的遗忘门,Wfx表示遗忘门的权重转移矩阵,Wfh表示遗忘门所对应的隐藏态的权重转移矩阵,ot表示t时刻长短期记忆网络LSTM的输出门,Wox表示输出门的权重转移矩阵,Woh表示输出门所对应的隐藏态的权重转移矩阵,ct表示t时刻长短期记忆网络LSTM的状态单元,⊙表示计算内积操作,ct-1表示t-1时刻长短期记忆网络LSTM的状态单元,tanh表示激活函数Wcx表示状态单元的权重转移矩阵,Wch表示状态单元所对应的隐藏态的权重转移矩阵,ht表示t时刻长短期记忆网络LSTM的隐藏态。
5.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(6d)中所述的注意力网络前向传导是按照下式实现的:
ai,t=tanh(Wssi+Whht)
其中,ai,t表示t时刻1000个300维GLOVE词向量中第i个向量的权重值,tanh表示激活函数e表示以自然常数e为底的指数操作,Ws表示300维GLOVE词向量的权重转移矩阵,si表示输入的1000个300维GLOVE词向量中的第i个词向量,Wh表示语义LSTM模块中的长短期记忆网络LSTM输出的隐藏态的权重转移矩阵,ht表示t时刻语义LSTM模块中的长短期记忆网络LSTM输出的隐藏态,表示t时刻语义LSTM模块中注意力网络输出的特征向量,K表示300维GLOVE词向量的总数,∑表示求和操作,i表示词向量中每个向量的索引。
6.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(6g)中所述的注意力网络前向传导是按照下式实现的:
ai,t=tanh(Wvvi+Whht)
其中,ai,t表示t时刻全部全连接层特征中第i个特征的权重,tanh表示激活函数e表示以自然常数e为底的指数操作,Wv表示全连接层特征的权重转移矩阵,vi表示全部全连接层特征中第i个特征,Wh表示视觉LSTM模块中的长短期记忆网络LSTM的隐藏态的权重矩阵,ht表示t时刻视觉LSTM模块中的长短期记忆网络LSTM输出的隐藏态,表示t时刻视觉LSTM模块中注意力网络的输出,K表示全连接层特征向量的总数,∑表示求和操作,i表示特征向量中每个向量的索引。
7.根据权利要求1所述的基于Tri-LSTMs模型的图像描述方法,其特征在于,步骤(6j)中所述的单词概率向量与图像描述下一个时刻的单词向量之间的交叉熵损失是按照下述公式计算得到的:
其中,loss表示单词概率向量与训练集图像描述下一个时刻的单词向量之间的交叉熵损失,N表示训练集图像描述中单词的总数,∑表示求和操作,t表示训练集图像描述中单词的索引,log表示以自然常数e为底的对数操作,P(st|I;θ)表示将训练集图像的全部全连接层特征的平均值输入到Tri-LSTMs模型中,输出的t时刻单词概率向量,I表示训练集图像全部全连接层特征的平均值,θ表示Tri-LSTMs模型的所有参数。
CN201910565977.0A 2019-06-27 2019-06-27 基于Tri-LSTMs模型的图像描述方法 Active CN110288029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910565977.0A CN110288029B (zh) 2019-06-27 2019-06-27 基于Tri-LSTMs模型的图像描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910565977.0A CN110288029B (zh) 2019-06-27 2019-06-27 基于Tri-LSTMs模型的图像描述方法

Publications (2)

Publication Number Publication Date
CN110288029A true CN110288029A (zh) 2019-09-27
CN110288029B CN110288029B (zh) 2022-12-06

Family

ID=68007639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910565977.0A Active CN110288029B (zh) 2019-06-27 2019-06-27 基于Tri-LSTMs模型的图像描述方法

Country Status (1)

Country Link
CN (1) CN110288029B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968725A (zh) * 2019-12-03 2020-04-07 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及***
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN112580658A (zh) * 2019-09-29 2021-03-30 ***通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN113836985A (zh) * 2020-06-24 2021-12-24 富士通株式会社 图像处理装置、图像处理方法和计算机可读存储介质
CN116543289A (zh) * 2023-05-10 2023-08-04 南通大学 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3040165A1 (en) * 2016-11-18 2018-05-24 Salesforce.Com, Inc. Spatial attention model for image captioning
CN108875807A (zh) * 2018-05-31 2018-11-23 陕西师范大学 一种基于多注意力多尺度的图像描述方法
CN109711465A (zh) * 2018-12-26 2019-05-03 西安电子科技大学 基于mll和asca-fr的图像字幕生成方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580658A (zh) * 2019-09-29 2021-03-30 ***通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN112580658B (zh) * 2019-09-29 2024-03-12 ***通信集团辽宁有限公司 图像语义描述方法、装置、计算设备及计算机存储介质
CN110968725A (zh) * 2019-12-03 2020-04-07 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
CN110968725B (zh) * 2019-12-03 2023-04-28 咪咕动漫有限公司 图像内容描述信息生成方法、电子设备及存储介质
CN111144553A (zh) * 2019-12-28 2020-05-12 北京工业大学 一种基于时空记忆注意力的图像描述方法
CN111159454A (zh) * 2019-12-30 2020-05-15 浙江大学 基于Actor-Critic生成式对抗网络的图片描述生成方法及***
CN111275780A (zh) * 2020-01-09 2020-06-12 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111275780B (zh) * 2020-01-09 2023-10-17 北京搜狐新媒体信息技术有限公司 人物图像的生成方法及装置
CN111242059A (zh) * 2020-01-16 2020-06-05 合肥工业大学 基于递归记忆网络的无监督图像描述模型的生成方法
CN113836985A (zh) * 2020-06-24 2021-12-24 富士通株式会社 图像处理装置、图像处理方法和计算机可读存储介质
CN116543289A (zh) * 2023-05-10 2023-08-04 南通大学 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法
CN116543289B (zh) * 2023-05-10 2023-11-21 南通大学 一种基于编码器-解码器及Bi-LSTM注意力模型的图像描述方法

Also Published As

Publication number Publication date
CN110288029B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN110288029A (zh) 基于Tri-LSTMs模型的图像描述方法
Aneja et al. Convolutional image captioning
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
Jiang et al. Fingerspelling Identification for Chinese Sign Language via AlexNet‐Based Transfer Learning and Adam Optimizer
Zhang et al. More is better: Precise and detailed image captioning using online positive recall and missing concepts mining
Yao et al. Describing videos by exploiting temporal structure
CN107918782A (zh) 一种生成描述图像内容的自然语言的方法与***
CN110516085A (zh) 基于双向注意力的图像文本互检索方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
US20220222918A1 (en) Image retrieval method and apparatus, storage medium, and device
CN108829719A (zh) 一种非事实类问答答案选择方法及***
CN110288665A (zh) 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
CN111126488A (zh) 一种基于双重注意力的图像识别方法
CN109817276A (zh) 一种基于深度神经网络的蛋白质二级结构预测方法
CN111950455A (zh) 一种基于lffcnn-gru算法模型的运动想象脑电信号特征识别方法
CN110276274A (zh) 一种多任务的深度特征空间姿态人脸识别方法
CN115222998B (zh) 一种图像分类方法
CN108985370A (zh) 图像标注语句自动生成方法
Hu et al. Sketch-a-classifier: Sketch-based photo classifier generation
CN117521672A (zh) 一种基于扩散模型的长文本生成连续图片的方法
CN110096991A (zh) 一种基于卷积神经网络的手语识别方法
CN116129141A (zh) 医学数据处理方法、装置、设备、介质和计算机程序产品
CN116229179A (zh) 基于宽度学习***的双松弛图像分类方法
CN111695455A (zh) 一种基于耦合判别流形对齐的低分辨人脸识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant