CN107608943B - 融合视觉注意力和语义注意力的图像字幕生成方法及*** - Google Patents

融合视觉注意力和语义注意力的图像字幕生成方法及*** Download PDF

Info

Publication number
CN107608943B
CN107608943B CN201710806115.3A CN201710806115A CN107608943B CN 107608943 B CN107608943 B CN 107608943B CN 201710806115 A CN201710806115 A CN 201710806115A CN 107608943 B CN107608943 B CN 107608943B
Authority
CN
China
Prior art keywords
model
attention
image
stm
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710806115.3A
Other languages
English (en)
Other versions
CN107608943A (zh
Inventor
吴春雷
魏燚伟
储晓亮
王雷全
崔学荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Petroleum East China
Original Assignee
China University of Petroleum East China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Petroleum East China filed Critical China University of Petroleum East China
Priority to CN201710806115.3A priority Critical patent/CN107608943B/zh
Publication of CN107608943A publication Critical patent/CN107608943A/zh
Application granted granted Critical
Publication of CN107608943B publication Critical patent/CN107608943B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了融合视觉注意力和语义注意力的图像字幕生成方法及***,通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;结合图像特征集合和时序信息,生成视觉注意力模型;结合图像特征集合、时序信息和前一时序的单词,生成语义注意力模型;根据视觉注意力模型和语义注意力模型,生成自动平衡策略模型;根据图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;根据gLSTM模型和自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;将得到的所有单词进行串联组合,产生字幕。

Description

融合视觉注意力和语义注意力的图像字幕生成方法及***
技术领域
本发明涉及图像生成字幕技术领域,特别是涉及融合视觉注意力和语义注意力的图像字幕生成方法及***。
背景技术
在计算机视觉领域,图像字幕生成已经成为了一个极具挑战性的任务。最近的尝试主要集中利用机器翻译中的注意力模型。基于注意力模型的方法生成图像字幕主要是由编码-解码框架发展而来。这个框架将CNN编码器编码的视觉特征转换为RNN解码的字幕。基于注意力模型的要点是把对应于某个生成单词的空间特征突出的显示出来。
在图像字幕生成领域,注意力模型被证明是非常有效的。但它仍然面临以下两个问题:
一方面,它失去了典型的视觉信息的踪迹。生成的句子容易偏离原始图像内容。
另一方面,上下文向量被证明与当前的隐藏状态有关。然而,传统的注意力模型使用上一个隐藏状态作为指导。
最近,C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attention via a visual sentinel for image captioning.,arXiv preprintarXiv:1612.01887,2016.成功的利用当前隐藏状态进行了图像字幕的生成。然而,它的方法存在一个明显的缺点:原始的视觉信息没有被充分考虑到每一个时间步骤上,这样导致了生成的字幕缺乏个性化。
一个高质量的图像字幕生成器不仅要反映图像中呈现的内容,还要考虑是否符合语法规则。基于注意力模型永远只考虑视觉特征的内容,无论下一个生成的单词是什么。这样的模型也许对名词有很好的效果(例如“dog”,“filed”),但它对功能性词汇几乎没有作用(例如“the”,“through”)。
图1(a)显示了软注意模型在视觉特征上的权重分布情况。当产生不同的单词时,注意力量向量的方差存在很大差异。大的方差表示下一个单词与视觉区域有明确的对应关系。相反,小的方差意味着机器对于识别下一个注意力区域存在很大困难。这种现象说明生成的标题中的所有单词并不全部依赖于视觉信息,例如“the”和“through”。事实上,语义语境在产生上述两个词时起着重要的作用。在图像字幕中应考虑视觉注意力和语义注意力。C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attentionvia a visual sentinel for image captioning.,arXiv preprint arXiv:1612.01887,2016.使用存储单元中保存的信息作为语义信息。利用最后生成的单词进行语义分析对于图像字幕来就灵活一些。
发明内容
为了解决现有技术的不足,本发明提供了一种融合视觉注意力和语义注意力的图像字幕生成方法,其具有给出的图像字幕更加贴合实际的效果;利用改进的LSTM(即gLSTM)对于生成字幕是很有帮助的。
一种融合视觉注意力和语义注意力的图像字幕生成方法,包括:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
所述步骤(2)中LSTM模型为:
Figure GDA0001422900300000021
其中,
Figure GDA0001422900300000022
代表长短期记忆网络LSTM在t时刻的隐藏状态,xt表示t时刻输入的文字矩阵,其维度为[2048,512],
Figure GDA0001422900300000023
代表长短期记忆网络LSTM在t-1时刻的隐藏状态,而
Figure GDA0001422900300000024
代表t-1时刻的细胞状态。
所述步骤(3)的视觉注意力模型是:
Figure GDA0001422900300000025
Figure GDA0001422900300000031
其中,softmax表示逻辑回归分类函数,V代表通过卷积神经网络VGG模型提取的特征,其维度为[2048,49],tanh代表双曲正切非线性函数,
Figure GDA0001422900300000032
代表视觉注意力向量,维度为[49],视觉注意力向量中的数字代表看向对应图像特征V区域的概率,数字总和为1,
Figure GDA0001422900300000033
代表视觉注意力模型上下文矩阵,维度为[512,49]。
VGG的英文全称是VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGERECOGNITION。
所述步骤(4)的语义注意力模型是:
Figure GDA0001422900300000034
Figure GDA0001422900300000035
Figure GDA0001422900300000036
其中,Wt-1代表t-1时刻生成单词所转化的矩阵,其维度为[2048,512],Vt'为加权语义信息后的特征向量矩阵,softmax表示逻辑回归分类函数,tanh代表神经网络结构中的双曲正切非线性函数,
Figure GDA0001422900300000037
代表语义注意力向量,其维度为[49],向量中的数字代表看向对应图像特征Vt'区域的概率,数字总和为1,
Figure GDA00014229003000000312
代表语义注意力模型上下文矩阵,其维度为[512,49]。
所述步骤(5)的公式为:
Figure GDA0001422900300000038
Figure GDA0001422900300000039
Figure GDA00014229003000000310
Figure GDA00014229003000000311
其中,σν代表视觉注意力向量的变异系数,σs代表语义注意力向量的变异系数,所述变异系数用来衡量向量的离散程度,视觉注意力向量和语义注意力向量的长度均为N,β代表自我平衡模型的权重系数,用来给视觉注意力模型上下文矩阵和语义注意力模型上下文矩阵分配权重;ct代表自动平衡策略模型的上下文矩阵。
gLSTM模型,具有指导信息的长短时记忆模型,Guiding long-short term memorymodel。
所述步骤(6)的gLSTM模型为:
Figure GDA0001422900300000041
其中,
Figure GDA0001422900300000042
代表gLSTM模型在t时刻的隐藏状态,
Figure GDA0001422900300000043
表示当前时刻传入gLSTM的文字矩阵,其维度为[2048,512],
Figure GDA0001422900300000044
代表gLSTM在t-1时刻的隐藏状态,而
Figure GDA0001422900300000045
代表gLSTM在t-1时刻的细胞状态。
所述步骤(7)中:
Figure GDA0001422900300000046
其中,MLP为多层感知机模型,wordt表示单词。
所述多层感知机模型包括:
步骤(71):第一全连接层将学到的
Figure GDA0001422900300000047
和ct映射到样本标记空间,所述样本标记空间是单词空间;
步骤(72):RELU激活函数为多层感知机模型加入非线性因素,防止线性模型的表达能力不够;
步骤(73):droupout层遗弃设定的神经元防止多层感知机模型过拟合;
步骤(74):第二全连接层将学到的
Figure GDA0001422900300000048
和ct映射到样本标记空间。
融合视觉注意力和语义注意力的图像字幕生成***,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时,完成以下步骤:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
一种计算机存储介质,其上存储有计算机指令,所述计算机指令通过处理器运行时,执行以下步骤:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的文本,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
与现有技术相比,本发明的有益效果是:
1.对于图像生成字幕的研究,绝大多数的方案都是集中在基于注意力模型的基础上。当生成的词语与图像的某一部分存在显著关系时,总能得到良好的效果。然而,一些功能性词语并没有被考虑进来,例如(of,on,等等)。本发明首先提出了一种双时序模型,用来使视觉信息充分地作用于到每一个时间步长上。基于双时序模型,本发明又提出了一个词状态下的语义注意力模型,此模型解决了功能性词汇的生成问题。根据变异系数的性质,本发明采用一种自我平衡策略来使***能够在视觉注意力和单词条件下的语义之间进行权衡。在Flickr30k和COCO数据集上进行了大量的实验以验证方法的有效性。
2.本发明提出了一种新的双时序模型,它包含两个并行的LSTM。这两种不同的LSTM保证了图像信息的利用,从而增强了注意力模型的准确性,减少了下一个词预测的不确定性。
3.本发明提出了用文字条件的指导重新分配视觉特征来解决功能词生成问题。
4.本发明引入变异系数来度量视觉环境向量和语义上下文向量的离散性。并提出了一种自我平衡的注意模型,以平衡视觉注意力和语义注意的影响。
5.本发明对所提出的方法进行了综合实验。对COCO和Flickr30k数据集的实验结果验证了本发明的方法的有效性。
6.语义注意力模型是在视觉注意力模型上进行的改进,目的是为了解决功能性词汇的生成问题。不同于视觉注意力,语义注意力模型对输入的图片做了处理,我们不再单一的将图像特征传入模型中,而是把上一时刻的词和图像特征转化到同样的维度,然后对两者做矩阵点乘。这样的做法可以利用上一个词去改变图像特征的分布,使图像特征的分布更符合语义规则。然后我们再对重新分布后的图像特征进行视觉注意力模型的操作,生成具有语义信息的注意力向量。这样就能有效的生成功能性词汇。
7.本发明使用自动平衡策略模型的原因是:虽然两种注意力模型具有很大差异,但不排除其中会存在信息重叠的部分,尤其是视觉信息比较明显的部分,比如图片中的猫,狗这些因素会导致两种模型的重叠信息比较多。这样会导致学***衡策略模型主要是为了解决此问题。模型的主要核心技巧是通过变异系数的性质判断***的选择。根据概率论相关知识,变异系数能够比较两种不同分布的离散情况。我们通过对两种注意力模型生成的注意力向量求解变异系数判断向量的离散程度。根据常识,离散程度低的注意力向量代表所属模型无法集中到某个确定部位,而离散程度高的注意力向量代表所属模型可以集中到某个特定部位。我们的自动平衡策略模型根据此原理丢弃离散程度低的注意力向量而选择离散程度高的注意力向量作为下一步的输入。
8.LSTM模型是时序模型的一种,它可以完善普通时序模型的一个功能,就是当我们输入的序列或者文本过于长的情况下,能够有较长的记忆,也就是说长期依赖性。一个LSTM由一长串的门(gate)构成。分别是input gate(current cell state),forget gate(0:忘记之前的所有;1:通过之前的所有),output gate(选择输出),New memory cell(得到新的记忆单元)。四种不同的门相互协作,相互抑制,从而使整个模型运作起来。其中input gate主要是来完成输入接口的工作,forget gate主要是用来控制模型判断信息的遗留问题,output gate主要控制模型的输出,而New memory cell是整个模型的“大脑”,它可以控制整个模型的运行。
9.GLSTM模型是基础LSTM模型的衍生物。有上文的LSTM模型我们知道,对于一个完整的LSTM,总共包含了4个门(gate),分别是input gate(current cell state),forgetgate(0:忘记之前的所有;1:通过之前的所有),output gate(选择输出),New memory cell(得到新的记忆单元)。而其中的input gate控制着模型的输入。不同于传统的LSTM模型,GLSTM在输入过程中另外加入了图片的特征。传统的LSTM模型的输入为(xt,ht),而GLSTM的输入为(xt,ht,vt)。xt代表输入的序列信息,ht代表状态信息,vt代表图像特征。
10.步骤(7)包含一系列的decoder(解码)操作。之前的步骤中,我们主要集中在encoder(编码)阶段,而对于编码后的信息,我们需要相应的decoder(解码)操作来得到我们需要的信息。我们把步骤(5)产生的上下文向量ct传入GLSTM模型中生成当前状态ht。ct代表图像特征加权注意力向量后的状态,ht代表当前时刻LSTM的状态。步骤(7)的解码过程主要是对ht解码。此解码过程主要分成如下步骤,分别是fc层->relu层->dropout层->fc层->输出。其中的fc层是非线性化转换层,主要用来强化参数的适应性。relu层是激活函数层,此层是神经网络非线性化后的必须层,主要用来使输出参数更加平滑。而dropout层是丢弃层,主要用来防止模型过拟合。
11.注意力模型分为两个阶段,分别是encoder阶段和decoder阶段;
在encoder阶段,用cnn低层的卷积层作为图像特征,其中卷积保留了图像空间信息,
在decoder阶段,根据LSTM的状态并利用softmax逻辑回归生成对应的注意力向量,此向量长度为N(特征数),其存储的数字相加总和为1,代表概率分布,对应的数字越大概率越大,相反概率越小。通过数字点乘特征向量就能得到上下文向量ct,从而形成视觉注意力模型。Encoder代表编码,decoder代表解码,而ct代表对特征向量施加注意力模型后所生成的向量。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1(a)为软注意力模型中注意力矩阵的方差分布,通常情况下,名词的注意力矩阵方差很大,也很容易决定其看哪。相反的,功能性词汇方差较小;
图1(b)为一个图像字幕描述图像和语义注意力的展示;
图2为gLSTM的结构。
图3为双时序模型的概述;
图4为一个单词条件下的语义注意模型;
图5(a)-图5(i)为生成字幕和注意力图的可视化;
图6(a)-图6(d)为生成字幕、视觉注意力、语义注意力和权重参数的可视化举例;
图7为代表性词汇的平衡参数的排序;
图8为本发明的流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
图像字幕生成在计算机视觉和机器学习领域中变得越来越重要。最近,基于神经网络的方法已经成为图像字幕的主流。一般来说,基于神经网络的图像字幕可以分为三大类:基于CNN(卷积神经网络)+RNN(循环神经网络)的方法、基于属性的方法和基于注意力的方法。
CNN+RNN的字幕生成方法主要受到了机器翻译中基于序列对编码-解码框架成功案例的启发。CNN和RNN的结合是一种基础方法,卷积神经网络CNN被用来提取视觉特征,而循环神经网络RNN则用来构建语言模型。为了通过图片和已经生成的单词来预测下一个单词,Kiros等人第一次提出了一个前馈神经网络结构,这是一种多模态的对数-双线性模型。然而,这种方法逐渐被一些新颖的想法所取代。例如,Vinyals使用长短期记忆网络LSTM(Long Short-Term Memory)代替普通的RNN作为解码器。Mao提出了一个m-RNN模型,在这个模型中,图像的特征被反馈到多模式层,而不只是输入到最初的时间步骤。但是,唯一的缺点是用静态输入的图像。虽然CNN提取的视觉特征可以很好地代表图像;但是,随着RNN的细胞增加,视觉信息将逐渐减少。为了解决这个问题,Donahue提出了一种在每一步骤中向RNN提供图像的策略。
基于属性的图像字幕利用了高级概念或属性,然后将它们注入到一种基于神经的方法中,作为语义注意来增强图像的字幕。杨等人将一个中间属性预测层加入到主CNN-lstm框架中,并实验了三个基于属性的模型。吴提出了一种将高级概念融入到CNN-RNN框架中的方法。此外,姚提出了一些架构的变体,用于从图像中抽取高级属性,以弥补图像生成句子结构的不足。
以注意力为基础的字幕生成使图像字幕更加智能。这些基于注意力的字幕模型结合了一种注意机制,从一开始学习潜在的单词和视觉的一致性。受到传统注意力模型的启发,wei提出了一种语义注意机制,该机制允许字幕生成器根据已经生成的文本自动地学习如何聚焦注意力位置,图像功能的哪些部分需要关注。在生成每个单词时,Chang引入了一个序列注意层,它将所有编码隐藏状态都考虑在内。Xiong提出了一种新颖的自适应关注模型,此模型拥有一个视觉哨兵,它可以决定何时何地去看图像。
本发明提出的方法也建立在关注框架上。然而,它与上述所有基于注意力的模型完全不同。本发明提出了两种注意层次,以平衡视觉注意力和语义注意力的影响。
本发明提出了一种新的双时序模型,同时使用两个不同的长短期记忆网络LSTM。
第一个长短期记忆网络LSTM用于保存累积的视觉信息。
第二个长短期记忆网络LSTM用来防止学习过程中每个时间步长中视觉信息的丢失。
融合原始和累积的视觉以减少生成单词的不确定性并增强下一个字预测的灵活性。
本发明提出了一种包含视觉注意力和单词条件语义注意力的自平衡注意框架。
视觉注意力的目标是将每个生成的词与相关的图像区域相结合。
单词条件语义注意力集中学习了在给定上一个生成单词的情况下,***应如何集中在相应的区域上。
然后,引入变异系数来测量由两个注意向量产生的平衡参数分布的离散程度。
最后,将视觉注意力和单词条件语义注意力融合在一起产生相应的词,见图1(b)。
如图8所示,本发明的方法流程图。
1.1图像字幕生成的编码-解码框架
编码-解码器框架被广泛用于图像字幕。它的核心思想是用图像和相应的句子来最大化公式(1):
Figure GDA0001422900300000101
其中,θ代表模型参数,I代表图片,S代表生成的句子。
应用Bayes的链式法则,分布可以分解为以下结构:
Figure GDA0001422900300000102
其中,Si代表句子S的第i个单词,S0是起始词,而SN是停止词,p(St|I,S1,...,St-1)代表在给定图片和上一个单词的情况下生成当前单词的概率。
作为编码器图像通常由CNN的特征向量来表示,而解码器部分通常是用循环的神经网络RNN建模。
如前所述,长短期记忆网络LSTM在图像字幕中比RNN的性能更好。然而,X.Jia,E.Gavves,B.Fernando,T.Tuytelaars.,Guiding the long-short term memory modelfor image caption generation.,In ICCV,2015.指出有时通过长短期记忆网络LSTM生成的句子也会缺少原始的图像信息。该文章还指出LSTM只在开始过程中使用图像内容,经过一段时间的学习后会损失很多的视觉信息。因此,本发明提出一个改进的LSTM,即gLSTM,gLSTM将视觉信息在每个时间步骤中作为额外的指导信息放入LSTM模型中。图2显示了gLSTM和LSTM之间的区别。虚线表示的是指导信息,它是gLSTM和LSTM之间的主要区别;LSTM和gLSTM的隐藏状态分别被建模为:
ht=LSTM(xt,ht-1,mt-1) (3)
ht=gLSTM(xt,g,ht-1,mt-1) (4)
1.2双时序模型
在图像字幕的基础注意力框架中,下一个生成单词wordt被定义为:
wordt=MLP(ht-1,ct) (5)
其中,ht-1代表长短期记忆网络LSTM在t-1时刻的隐藏状态,ct代表上下文向量;
ct=func(ht-1,V) (6)
ct提供图像字幕的视觉注意力信息,通常ct依赖ht-1和V,V∈Rd×k。视觉提取器产生k个矢量,每一个矢量都是d维,每一个矢量都相当于图像的一部分,V=[v1,...,vk]是通过卷积神经网络CNN提取的图像特征,在给定输入向量xt的情况下,当前隐藏状态表示为:
ht=LSTM(ht-1,ct,xt) (7)
隐藏的状态在两个方面起着重要的作用。一个是注意力生成部分,另一个是隐藏变量的生成部分。
与传统的基于注意力的框架不同,本发明分别利用有两个不同的LSTM来驱动这两个部分。图3显示了所提出的模型。如图3所示,两个LSTM不共享同一时间序列。第一个LSTM(没有图像特性)被认为是为了完成注意力的工作。第二个gLSTM(带有图像特征)是解码器的主要进程。虚线框突出了模型使用当前的状态(
Figure GDA0001422900300000111
or
Figure GDA0001422900300000112
),这与传统的注意力框架不同。在双时序模型中,注意力模块包含了一个视觉注意力框架,值得注意的是在后续的工作中它将会被视觉和语义注意力的融合框架所代替。
LSTM与gLSTM互为补充。第一个LSTM来源于【C.Xiong,J.Lu,D.Parikh,R.Socher.,Knowing when to look:Adap-285tive attention via a visual sentinel for imagecaptioning.,arXiv preprintarXiv:1612.01887,2016.】的想法。
当前隐藏的状态ht用来分析应该观察的区域(例如:生成上下文向量ct)。
因此,本发明在模型LSTM中定义了
Figure GDA0001422900300000113
Figure GDA0001422900300000114
Figure GDA0001422900300000115
Figure GDA0001422900300000116
是LSTM的状态信息,然而,视觉信息并没有被充分利用。为了解决这个问题,本发明使用改进的LSTM,即gLSTM,以提高视觉信息的利用率。本发明将从图像中提取的视觉信息作为LSTM每个单元的额外输入,目的是提高视觉信息的利用率。
gLSTM模型归纳为如下:
Figure GDA0001422900300000117
Figure GDA0001422900300000118
Figure GDA0001422900300000119
是模型gLSTM的状态信息,值得注意的是由于数据的不一致性,LSTM和gLSTM不共享相同的数据流。因此本发明称它为双时序模型。下面的工作都是建立在双时序模型的基础上的。
1.3文字条件下的语义注意力模型
由于图像字幕的注意力机制的有效性,本发明在提出的双时序模型中采用软注意框架。一个权重向量αv被用来建立上下文向量ct。矢量αv概括为:
Figure GDA0001422900300000121
ht-1代表上一时刻的隐藏状态,V代表图像特征。软注意模型对生成的名词(例如'dog',"filed")起明显的作用。然而,在软注意力实验中,本发明发现当生成的单词为虚词(如。“of”、“on”)时,αv呈现一个密集分布(具有小的方差值)。这一现象证明了算法对生成的词没有明确线索。在这种情况下,软注意模型很难决定要去哪里看。这种现象的主要原因是最后一个生成的单词语义信息未被充分利用。为了解决这一问题,本发明提出了一个单词条件下的语义注意模型,这个模型由图4所示。当单词条件下的语义注意模型接收到一个图像的时候,它通过最后一个生成的单词重新分配特征矩阵Vt';
Figure GDA0001422900300000122
其中,V∈Rd×k,V代表图片特征,Wt-1代表上一个生成单词的嵌入矩阵,Φ(.)代表非线性转换函数。将混合矩阵Vt'输入到softmax函数中,得到新的加权向量
Figure GDA0001422900300000123
Figure GDA0001422900300000124
文字条件下的语义注意力允许模型通过文字条件自动的学习语义信息。语义注意力作用于视觉注意力的互补机制。
1.4自动平衡注意力模型
结合视觉注意力和文字条件下的语义注意力的优势,本发明提出了一种自动平衡注意模型。如果加权的注意力向量αv具有大的方差时,***很容易决定去看哪里。否则,很难对图像和文字之间做出联系。图4所示为自动平衡注意模型。变异系数主要用来测量αv和αs的离散程度:
Figure GDA0001422900300000131
Figure GDA0001422900300000132
根据σv和σs计算平衡参数β:
Figure GDA0001422900300000133
采用两种不同的方法来生成平衡参数:
方法1:如果β大于1-β,则将β赋值为1,否则β为0。每一时刻只有一种注意力会被选择。
方法2:直接使用β作为最后的权重来分配两个注意力的比例,这两种注意力通过一种柔和的方式结合在一起。
因此,上下文向量ct被定义为:
Figure GDA0001422900300000134
Figure GDA0001422900300000135
代表由σv生成的上下文向量,
Figure GDA0001422900300000136
代表由σs生成的上下文向量,而ct是平衡后的上下文向量。
1.5训练细节
在本发明的实验当中,本发明使用最近比较提倡的Adam激活器,并且给模型赋以5e-4的学***缓。模型使用单个TiTan X GPU在COCO数据集上进行训练需要42个小时。
2.1实验结果
本发明在Flickr30k和微软COCO数据集上做了实验来证明本发明提出的方法具有很好的表现。
Flickr30k包含从Flickr收集的3万张图片。每个图像有5个对应的句子。根据以前的论文,本发明采用公用的分割方法,分别包含1000个图像来进行验证和测试。
COCO是一个具有挑战性的图像数据集,它包含82783、40504和40775个用于训练、验证和测试的图像。与Flickr数据集不同的是,这个数据集中的图像包含复杂的带有多个对象的场景。每一张图片都有5个人类注释说明。为了与之前的方法比较,本发明遵循之前的划分工作。对于离线评估,本发明从40504张验证集中选取5000张图片进行验证和5000张图片进行测试。对于在线评估的COCO评估服务器,本发明用82753个训练数据集和40504个验证数据集对模型进行训练。
预处理:本发明保留了至少出现5次的单词。分别在COCO和Flickr30k提取了8795,6359个单词。
比较方法:对于flickr和COCO的离线评估,将本发明的方法与deepv、BerkeleyLRCN、Attention、ERD、fcn、MSM、MAT和Adaptive进行比较。对于在线评估,将本发明的方法与LRCN、ATT-FCN、Attention、ERD、MSM、MAT和Adaptive进行比较。
2.2.整体比较
本发明使用COCO字幕评测工具,它包含以下评测方法:Bleu、Meteor、Rouge-L andCIDEr。本发明还使用最近提出的SPICE来评估本发明的模型。此方法被证明更符合人类的判断,并且在语言生成模型的评测过程中表现得更好。
表1显示了在COCO和Flickr30k上训练得到的结果,可以看到本发明的方法超过了绝大多数的方法去了Adaptive。本发明的SPICE结果为17.9(c5),结果表明了该模型的有效性。相同的结论也可以从表2的COCO在线评估服务器上得到。
表1
Figure GDA0001422900300000141
表2:在MSCOCO和Flickr30k上的比较结果(根据之前的数据分割工作)。使用c5报告度量指标。对于未来的比较,本发明的SPICE分数是0.142(Flickr30k)和0.179COCO。
表2
Figure GDA0001422900300000151
表3在微软MS COCO在线评测工具上评测的对比结果。所有的指标都使用c5和c40引用进行报告。
表3
Figure GDA0001422900300000152
通过实验,本发明发现在Flickr30k和COCO进行训练时使用resnet作为编码器比VGG表现更好,但在Flickr8k上表现偏差。所以,本发明使用resnet-152来提取特性。在实验中过程中,本发明没有对DTM-SBA的图片特征进行微调,这是性能比Adaptive差的原因之一。
2.3双重时序模型的性能
为了进一步证明双时序模型(DTM)的有效性,本发明比较了DTM和三个基线的得分:1)Soft-attention model;2)Guid-ing Long-Short Term Memory model;3)Spatialmodel.DTM集成了上述三种方法的优点。结果表3所示。除了b-2(Spatial)之外,DTM的所有指标都优于其他模型的指标。从表3可以得到两个结论。首先,在每一步添加图像信息是有必要的。第二,当前状态比之前的状态包含更多的指导信息。
2.4注意力模型选择
在这个小节中,本发明测试了自我平衡注意模型的性能。在第1.4节中提到了两种平衡策略。方法1是一个软平衡策略,视觉注意力和文字条件语义注意力通过一个平衡参数来融合。方法-2是一种硬平衡策略,选择视觉注意力或单词条件语义注意力其中之一。
这两种方法都比单独使用视觉注意力的DTM方法效果好。这一现象表明,有文字条件的语义注意力与视觉注意力有互补的作用。此外,值得注意的是,方法-2比方法-1更好。这意味着只选择一种注意力模式表现得更好。在一些特定的情况下,重复的注意力信息可能会导致目标偏离正确方向。相反,方法-2可以减少重复的关注信息。
表4两种不同融合方法的比较
Figure GDA0001422900300000161
2.5定性分析
为了使模型能够更好的理解,本发明展示了字幕的结果,并在图片上添加了注意力图,通过相关算法可视化附加注意力图后的图片。结果是从5000COCO测试集中选取得到的。如图6(a)-图6(d)所示,前两行代表名词的可视化,后两行代表功能性词汇的可视化。尤其需要说明的是,由于文字条件下的的语义注意力模型改变了图片的原始结构,导致了使用原始图片可视化注意力组件是不合适的。因此,本发明把重分布的特征矩阵作为背景。它展示了单词条件下的注意力模型的真实分布。通过比较不同行可以发现,模型对文字类型有很高的敏感性。本发明也在不同列分别展示了准确的描述和不准确的描述。前两列是正确的例子,最后一列是不正确的列子。结果表明,学习的校准符合人类的直觉。虽然有时描述是不准确的(缺乏高级语义),本发明的模型却可以精确地相应的位置。
如图5(a)-图5(i)所示,白色注意力区域代表目前模型所集中关注的地方。前两行显示了视觉注意力的效果,最后一行展示了文字条件下的语义注意力的下过。
此外,本发明还将视觉注意力和文字条件下的语义注意力模型的平衡参数可视化。并且,本发明也展示了视觉注意力的可视化图和文字条件下的语义可视化的图。从图7可以看出,自我平衡模型能够很好的平衡两种不同的注意力之间的关系。当碰到名词时(例如“man”,“surfboard”和”water”),视觉注意力将获得较大的平衡参数。当碰见功能性词汇时(例如“in”and“to”),文字条件下的语义注意力将获得较大的平衡参数。
图6(a)-图6(d)中列举了两种上下文生成方法。
为了进一步说明自我平衡注意模型的效果,本发明对生成的词中出现的平衡参数进行了平均。在实验中,来自COCO验证集的500个例子被随机列举。结果如图7所示。这些词按平衡参数的降序进行排列。大体上,当遇到名词时(例如”man”,”people”,”bus”)会更加集中的关注视觉注意力。当生成功能性词语时(例如”the”和”through”),平衡参数会更加倾向于文字条件下的语义注意力。此趋势是在没有任何先验信息的情况下得到的。在某些特殊的情况下,当同一单词出现不同的位置时,平衡参数会有所不同。拿“to”来举例,当短语是“go to”时,平衡参数小于0.1。当这个短语是“next to”时,它的平衡参数则大于0.2。产生这种现象的原因是需要生成的单词依赖于不同的条件单词(例如“go”,next”).另外,如果上一个生成的单词是不正确的,手动干预会使句子的生成回到正确的方向。据本发明所知,单词条件语义注意力模型在注意力模型中是第一个被提出来的。
结论,在此次工作中,本发明提出了一个新的双时序模型来充分利图像字幕的视觉信息。本发明也提出了一个自我平衡模型去平衡视觉注意力和文字条件下的语义注意力的影响。上述实验都是在图像字幕标准的基准上进行的。定量和定性的评估显示出所提方法是有效的。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,包括:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的预先标注文本描述,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
2.如权利要求1所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(2)中LSTM模型为:
Figure FDA0002475127560000011
其中,
Figure FDA0002475127560000012
代表长短期记忆网络LSTM在t时刻的隐藏状态,xt表示t时刻输入的文字矩阵,其维度为[2048,512],
Figure FDA0002475127560000013
代表长短期记忆网络LSTM在t-1时刻的隐藏状态,而
Figure FDA0002475127560000014
代表t-1时刻的细胞状态。
3.如权利要求2所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(3)的视觉注意力模型是:
Figure FDA0002475127560000015
Figure FDA0002475127560000016
其中,softmax表示逻辑回归分类函数,V代表通过卷积神经网络VGG模型提取的特征,其维度为[2048,49],tanh代表双曲正切非线性函数,
Figure FDA0002475127560000017
代表视觉注意力向量,维度为[49],视觉注意力向量中的数字代表看向对应图像特征V区域的概率,数字总和为1,
Figure FDA0002475127560000021
代表视觉注意力模型上下文矩阵,维度为[512,49]。
4.如权利要求3所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(4)的语义注意力模型是:
Figure FDA0002475127560000022
Figure FDA0002475127560000023
Figure FDA0002475127560000024
其中,Wt-1代表t-1时刻生成单词所转化的矩阵,其维度为[2048,512],V′t为加权语义信息后的特征向量矩阵,softmax表示逻辑回归分类函数,tanh代表神经网络结构中的双曲正切非线性函数,
Figure FDA00024751275600000211
代表语义注意力向量,其维度为[49],向量中的数字代表看向对应图像特征V′t区域的概率,数字总和为1,
Figure FDA0002475127560000026
代表语义注意力模型上下文矩阵,其维度为[512,49]。
5.如权利要求4所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(5)的公式为:
Figure FDA0002475127560000027
Figure FDA0002475127560000028
Figure FDA0002475127560000029
Figure FDA00024751275600000210
其中,σν代表视觉注意力向量的变异系数,σs代表语义注意力向量的变异系数,所述变异系数用来衡量向量的离散程度,视觉注意力向量和语义注意力向量的长度均为N,β代表自我平衡模型的权重系数,用来给视觉注意力模型上下文矩阵和语义注意力模型上下文矩阵分配权重;ct代表自动平衡策略模型的上下文矩阵。
6.如权利要求5所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(6)的gLSTM模型为:
Figure FDA0002475127560000031
其中,
Figure FDA0002475127560000032
代表gLSTM模型在t时刻的隐藏状态,
Figure FDA0002475127560000033
表示当前时刻传入gLSTM的文字矩阵,其维度为[2048,512],
Figure FDA0002475127560000034
代表gLSTM在t-1时刻的隐藏状态,而
Figure FDA0002475127560000035
代表gLSTM在t-1时刻的细胞状态。
7.如权利要求6所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述步骤(7)中:
Figure FDA0002475127560000036
其中,MLP为多层感知机模型,wordt表示单词。
8.如权利要求7所述的一种融合视觉注意力和语义注意力的图像字幕生成方法,其特征是,所述多层感知机模型包括:
步骤(71):第一全连接层将学到的
Figure FDA0002475127560000037
和ct映射到样本标记空间,所述样本标记空间是单词空间;
步骤(72):RELU激活函数为多层感知机模型加入非线性因素,防止线性模型的表达能力不够;
步骤(73):droupout层遗弃设定的神经元防止多层感知机模型过拟合;
步骤(74):第二全连接层将学到的
Figure FDA0002475127560000038
和ct映射到样本标记空间。
9.融合视觉注意力和语义注意力的图像字幕生成***,包括:存储器、处理器以及存储在存储器上并在处理器上执行的计算机指令,所述计算机指令在处理器上运行时,完成以下步骤:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的预先标注文本描述,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
10.一种计算机存储介质,其上存储有计算机指令,所述计算机指令通过处理器运行时,执行以下步骤:
步骤(1):通过卷积神经网络从每个待生成字幕的图像中提取图像特征,得到图像特征集合;
步骤(2):建立LSTM模型,将每个待生成字幕的图像对应的预先标注文本描述传入LSTM模型,得到时序信息;
步骤(3):结合步骤(1)的图像特征集合和步骤(2)的时序信息,生成视觉注意力模型;
步骤(4):结合步骤(1)的图像特征集合、步骤(2)的时序信息和前一时序的单词,生成语义注意力模型;
步骤(5):根据步骤(3)的视觉注意力模型和步骤(4)的语义注意力模型,生成自动平衡策略模型;
步骤(6):根据步骤(1)的图像特征集合和待生成字幕的图像对应的预先标注文本描述,建立gLSTM模型;
步骤(7):根据步骤(6)建立的gLSTM模型和步骤(5)的自动平衡策略模型,利用多层感知机模型MLP生成待生成字幕的图像对应的单词;
步骤(8):重复步骤(2)-(7),直到检测到停止标识,将得到的所有单词进行串联组合,产生字幕。
CN201710806115.3A 2017-09-08 2017-09-08 融合视觉注意力和语义注意力的图像字幕生成方法及*** Expired - Fee Related CN107608943B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710806115.3A CN107608943B (zh) 2017-09-08 2017-09-08 融合视觉注意力和语义注意力的图像字幕生成方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710806115.3A CN107608943B (zh) 2017-09-08 2017-09-08 融合视觉注意力和语义注意力的图像字幕生成方法及***

Publications (2)

Publication Number Publication Date
CN107608943A CN107608943A (zh) 2018-01-19
CN107608943B true CN107608943B (zh) 2020-07-28

Family

ID=61063350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710806115.3A Expired - Fee Related CN107608943B (zh) 2017-09-08 2017-09-08 融合视觉注意力和语义注意力的图像字幕生成方法及***

Country Status (1)

Country Link
CN (1) CN107608943B (zh)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108376558B (zh) * 2018-01-24 2021-08-20 复旦大学 一种多模态核磁共振影像病历报告自动生成方法
CN110084356B (zh) * 2018-01-26 2021-02-02 赛灵思电子科技(北京)有限公司 一种深度神经网络数据处理方法和装置
CN108446645B (zh) * 2018-03-26 2021-12-31 天津大学 基于深度学习的车载人脸识别方法
CN110321755A (zh) * 2018-03-28 2019-10-11 中移(苏州)软件技术有限公司 一种识别方法及装置
CN108510012B (zh) * 2018-05-04 2022-04-01 四川大学 一种基于多尺度特征图的目标快速检测方法
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及***
CN108959512B (zh) * 2018-06-28 2022-04-29 清华大学 一种基于属性增强注意力模型的图像描述网络及技术
CN109086797B (zh) * 2018-06-29 2021-12-28 中国地质大学(武汉) 一种基于注意机制的异常事件检测方法及***
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109271539B (zh) * 2018-08-31 2020-11-24 华中科技大学 一种基于深度学习的图像自动标注方法及装置
CN109271646B (zh) * 2018-09-04 2022-07-08 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN109359564B (zh) * 2018-09-29 2022-06-24 中山大学 一种图像场景图生成方法及装置
CN109508400B (zh) * 2018-10-09 2020-08-28 中国科学院自动化研究所 图文摘要生成方法
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
CN111325068B (zh) * 2018-12-14 2023-11-07 北京京东尚科信息技术有限公司 基于卷积神经网络的视频描述方法及装置
CN109816039B (zh) * 2019-01-31 2021-04-20 深圳市商汤科技有限公司 一种跨模态信息检索方法、装置和存储介质
CN109871798B (zh) * 2019-02-01 2021-06-29 浙江大学 一种基于卷积神经网络的遥感影像建筑物提取方法
CN109978139B (zh) * 2019-03-20 2021-06-04 深圳大学 图片自动生成描述的方法、***、电子装置及存储介质
CN110111399B (zh) * 2019-04-24 2023-06-30 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
CN110135567A (zh) * 2019-05-27 2019-08-16 中国石油大学(华东) 基于多注意力生成对抗网络的图像字幕生成方法
CN110457714B (zh) * 2019-06-25 2021-04-06 西安电子科技大学 一种基于时序主题模型的自然语言生成方法
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及***
CN110706302B (zh) * 2019-10-11 2023-05-19 中山市易嘀科技有限公司 一种文本合成图像的***及方法
CN110765966B (zh) * 2019-10-30 2022-03-25 哈尔滨工业大学 一种面向手写文字的一阶段自动识别与翻译方法
CN112949673B (zh) * 2019-12-11 2023-04-07 四川大学 一种基于全局注意力的特征融合目标检测与识别方法
CN111126221B (zh) * 2019-12-16 2023-09-26 华中师范大学 一种融合双向视觉注意力机制的数学公式识别方法及装置
CN111144410B (zh) * 2019-12-26 2023-08-04 齐鲁工业大学 一种跨模态的图像语义提取方法、***、设备及介质
CN111414505B (zh) * 2020-03-11 2023-10-20 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN111582287B (zh) * 2020-05-06 2022-10-25 西安交通大学 一种基于充足视觉信息与文本信息的图像描述方法
CN111783760B (zh) 2020-06-30 2023-08-08 北京百度网讯科技有限公司 文字识别的方法、装置、电子设备及计算机可读存储介质
CN111859674A (zh) * 2020-07-23 2020-10-30 深圳慕智科技有限公司 一种基于语义的自动驾驶测试图像场景构建方法
CN111859911B (zh) * 2020-07-28 2023-07-25 中国平安人寿保险股份有限公司 图像描述文本生成方法、装置、计算机设备及存储介质
CN112116685A (zh) * 2020-09-16 2020-12-22 中国石油大学(华东) 基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
CN112364068A (zh) * 2021-01-14 2021-02-12 平安科技(深圳)有限公司 课程标签生成方法、装置、设备及介质
CN113569892A (zh) * 2021-01-29 2021-10-29 腾讯科技(深圳)有限公司 图像描述信息生成方法、装置、计算机设备及存储介质
CN113052090B (zh) * 2021-03-30 2024-03-05 京东科技控股股份有限公司 用于生成字幕器以及输出字幕的方法和装置
CN113628288B (zh) * 2021-07-06 2024-05-31 上海电力大学 一种基于编-解码器结构的可控图像字幕生成优化方法
CN113627424B (zh) * 2021-07-14 2023-09-12 重庆师范大学 一种协同门控循环融合lstm图像标注方法
CN113515951B (zh) * 2021-07-19 2022-07-05 同济大学 基于知识增强注意力网络和组级语义的故事描述生成方法
CN114972795B (zh) * 2021-12-30 2023-04-07 昆明理工大学 一种结合属性检测和视觉感知的服装图像字幕生成方法
CN114299510A (zh) * 2022-03-08 2022-04-08 山东山大鸥玛软件股份有限公司 一种手写英文行识别***
CN114782739B (zh) * 2022-03-31 2023-07-14 电子科技大学 基于双向长短期记忆层和全连接层的多模态分类方法
CN115062174A (zh) * 2022-06-16 2022-09-16 电子科技大学 基于语义原型树的端到端图像字幕生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360B (en) * 2016-01-13 2020-08-19 Adobe Inc Image captioning with weak supervision
CN106778926A (zh) * 2016-12-23 2017-05-31 深圳市唯特视科技有限公司 一种基于视觉注意模型的图像文字描述方法
CN106650813B (zh) * 2016-12-27 2019-11-15 华南理工大学 一种基于深度残差网络和lstm的图像理解方法
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法

Also Published As

Publication number Publication date
CN107608943A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107608943B (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及***
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
CN109409221A (zh) 基于帧选择的视频内容描述方法和***
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN111523534A (zh) 一种图像描述的方法
CN113657115B (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
Tang et al. Modelling student behavior using granular large scale action data from a MOOC
CN111144410B (zh) 一种跨模态的图像语义提取方法、***、设备及介质
Fu et al. Contrastive transformer based domain adaptation for multi-source cross-domain sentiment classification
CN116975776A (zh) 一种基于张量和互信息的多模态数据融合方法和设备
Khan et al. A deep neural framework for image caption generation using gru-based attention mechanism
CN116579347A (zh) 一种基于动态语义特征融合的评论文本情感分析方法、***、设备及介质
Najdenkoska et al. Uncertainty-aware report generation for chest X-rays by variational topic inference
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及***
CN112651225B (zh) 一种基于多阶段最大化注意力的多项选择机器阅读理解的方法
Yang et al. Self-adaptive context and modal-interaction modeling for multimodal emotion recognition
CN117033558A (zh) 一种融合bert-wwm与多特征的影评情感分析方法
CN115309894A (zh) 一种基于对抗训练和tf-idf的文本情感分类方法及装置
Zeng et al. Learning cross-modality features for image caption generation
Hung et al. [Retracted] Application of Adaptive Neural Network Algorithm Model in English Text Analysis
Qian et al. Filtration network: A frame sampling strategy via deep reinforcement learning for video captioning
Khaing Attention-based deep learning model for image captioning: a comparative study
Chen et al. Multi-modal anchor adaptation learning for multi-modal summarization
De Bruyn From word to financial time series embedding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200728