CN110674850A - 一种基于注意力机制的图像描述生成方法 - Google Patents

一种基于注意力机制的图像描述生成方法 Download PDF

Info

Publication number
CN110674850A
CN110674850A CN201910828522.3A CN201910828522A CN110674850A CN 110674850 A CN110674850 A CN 110674850A CN 201910828522 A CN201910828522 A CN 201910828522A CN 110674850 A CN110674850 A CN 110674850A
Authority
CN
China
Prior art keywords
image
model
features
region
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910828522.3A
Other languages
English (en)
Inventor
肖春霞
赵坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910828522.3A priority Critical patent/CN110674850A/zh
Publication of CN110674850A publication Critical patent/CN110674850A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于注意力机制的图像描述生成方法,首先利用图像中的显著对象信息以及对象间关系的信息使用注意力机制生成更准确的图像描述,然后使用双层语言生成模型生成更细粒度的图像描述,最后使用强化学习优化整个模型。本发明有如下优点:关系特征与对象特征的融合能够丰富图像信息;双层语言模型能够生成更细粒度的图像描述;使用强化学习进一步优化训练模型能够缓解曝光偏差问题。

Description

一种基于注意力机制的图像描述生成方法
技术领域
本发明属于计算机视觉和自然语言处理领域,涉及一种图像语言描述生成方法,尤其是一种基于注意力机制的图像描述生成方法。
背景技术
在生活中有很多情况下需要把图像内容转化为文字描述,例如社交软件中在网络状态不良的情况下自动生成图像的文字摘要、帮助视觉障碍人士理解图像内容。现有的图像描述方法主要是基于深度学习的方法,使用卷积神经网络作为图像处理模型提取图像特征,将图像特征输入循环神经网络作为语言生成模型生成图像描述语言。但是模型通常使用全局或者对象级的图像特征,使用这样的特征难以关注到图像中显著的目标对象并且会丢失很多图像中重要的信息,很难充分的将图像中的重要的视觉语义关系信息应用到模型中。并且现有的模型多是一个单步前向的进程,在模型生成下一个单词的时候,它只能利用之前已经生成的单词,这样如果在生成过程中生成一个错误的单词后面就会造成错误的累计。另一方面,现有模型在训练时使模型生成的序列联合概率最大化,这样使交叉熵损失最小来训练模型,通过反向传播最大限度地提高生成的参考单词的联合概率,这样模型能学到的是句子中单词的概率分布,和通常在评判图像描述模型生成句子的质量的时候使用的自动评价指标不同,这些评价指标是不可微的所以不能直接用作损失函数,这种损失函数与评价指标的不一致性使模型无法得到充分的优化。
发明内容
本发明的目的是克服上述现有方法存在的缺陷,提供了一种基于注意力机制的图像描述生成方法,利用图像中的显著对象信息以及对象间关系的信息使用注意力机制生成更准确的图像描述,然后使用双层语言生成模型生成更细粒度的图像描述,最后使用强化学习优化整个模型。
本发明的上述技术问题主要是通过以下技术方案得以解决的,一种基于注意力机制的图像描述生成方法,包括以下步骤:
步骤1,从数据集的标注语句中提取词语构建词汇表;
步骤2,采用ResNet101模型作为CNN初始模型,并进行ResNet101的参数预训练,使用预训练的ResNet101单独提取图像的全局特征,然后使用预训练的ResNet101替换FasterR-CNN算法中的CNN提取每张图片的若干个对象区域特征,然后将对象区域两两组成关系区域提取关系特征;
步骤3,将关系特征和对象区域特征进行特征融合,得到包含对象间关系的对象区域特征;
步骤4,将上一步得到的包含对象间关系的对象区域特征输入双层LSTM语言模型中得到输出结果,即对图像生成的自然语言描述;
步骤5,训练一个映射空间模型衡量的图像与描述句子之间的相似度,使用CIDEr分数和相似度作为奖励项,使用强化学习进一步优化双层LSTM语言模型。
进一步的,步骤1中构建词汇表的方式为,统计MS COCO数据集文字描述中每个单词出现的次数,只选取出现次数大于五次的单词列入词汇表中,其中MS COCO数据集词汇表包含9487个单词。
进一步的,步骤2中使用Faster R-CNN算法提取图像的对象区域特征,训练时对于一个图像的损失函数定义如下:
其中,参数λ用来平衡Ncls和Nreg这两个标准化参数;将Ncls的大小设置为mini-batch的大小,将Nreg设置为anchor的总量;i表示训练时一个mini-batch中anchor的索引号,pi是索引号为i的anchor为对象区域的预测概率;如果anchor为正样本,则pi *等于1,若anchor为负样本,则pi *等于0;ti是表示生成的包围框的4个坐标参数的向量,ti *是与正样本的anchor相应的ground truth的包围框的坐标向量;
Lcls是对象的分类损失函数:
Lcls(pi,pi *)=-log[pi *pi+(1-pi *)(1-pi)]
Lreg表示边界框回归损失函数:
Lreg(ti,ti *)=R(ti-ti *)
其中R为smooth L1损失函数:
Figure BDA0002189889300000022
进一步的,步骤3中将关系特征和对象区域特征进行特征融合的具体方法为:
对于输入图像I在上一步得到一系列对象区域{v1,...,vi,...,vk}以及关系区域{S1,...,Si...,Sk},每一个对象包含在数个不同的关系区域中,每个关系对对象的重要性也不同,通过下式计算pi(Sk)表示关系sk对对象vi的注意力权重:
Figure BDA0002189889300000031
按照注意力权重将数个和对象vi相连的关系区域特征聚合为一个整体的聚合关系区域特征,然后将它作为信息传递到目标对象特征中,如下式:
Figure BDA0002189889300000032
Figure BDA0002189889300000033
其中,大写的Sk表示关系区域的集合,小写的sk表示单独的一个关系区域,
Figure BDA0002189889300000034
表示最终的聚合后的聚合关系特征向量,
Figure BDA0002189889300000035
是微调后的vi
进一步的,步骤4的具体实现方式如下,
步骤4.1,输入图像的全局特征v0到双层LSTM语言模型中的第一层;
步骤4.2,在每一时刻t都分别给每个经过特征融合后的对象区域计算出一个注意力权重:
其中
Figure BDA0002189889300000037
Wv1、Wh1是语言模型中需要学习的参数,
Figure BDA0002189889300000038
为t时刻i区域分配的注意力权重,
Figure BDA0002189889300000039
指的是第一层LSTM每一时刻t输出的结果,tanh为tanh激活函数:
Figure BDA00021898893000000310
步骤4.3,每个区域分配的注意力权重代表该区域对于当前生成单词的贡献度大小:
Figure BDA00021898893000000311
Figure BDA00021898893000000312
其中,
Figure BDA00021898893000000313
指的是对每一个vi进行注意力加权后的结果;
步骤4.4,语言模型的第二层中LSTM的输入由第一阶段语言模型的输出和经过注意力加权的图像特征组合而成;
步骤4.5,第二层LSTM的基础上增加一个哨兵门gt来计算生成文本单词时需要的参考的语言信息向量st
Figure BDA0002189889300000041
Figure BDA0002189889300000042
其中σ是sigmoid激活函数,Wx和Wh是需要训练的参数,ct表示t时刻LSTM的单元状态(cell state),⊙表示对应元素相乘,xt指的是第二层LSTM的输入,ht-1指的是第二层LSTM上一时刻t-1隐藏层的输出;
步骤4.6,第二层LSTM同样使用注意力机制:
Figure BDA0002189889300000043
其中
Figure BDA0002189889300000044
Wv2、Wh2是模型中需要学习的参数,不同的是在本层区分视觉单词和文本单词,在生成每个单词的时候让网络自动选择是更依赖于视觉信息vi还是更依赖于语言信息st
步骤4.7,在生成每个单词的时候计算视觉信息和语言信息分布权重:
Figure BDA0002189889300000045
其中,为步骤4.6得到的注意力向量,
Figure BDA0002189889300000047
Ws、Wh3是模型中需要学习的参数,包括图像区域特征和语言信息向量的权重;
Figure BDA0002189889300000048
表示对每一个vi乘上对应的β然后求和的结果,由于增加了一个语言信息向量,所以长度变为K+1;
步骤4.8,把第二层语言模型的输出输入softmax层计算生成t时刻生成单词的分布概率:
Figure BDA00021898893000000410
步骤4.9,最后使用交叉熵损失函数训练模型。
进一步的,步骤5的具体实现方式如下,
步骤5.1,首先计算模型的CIDEr分数CIDEr(ci,Si),ci为候选句子和Si为参考句子;
步骤5.2,对于一个匹配的图像-句子对(In,Sn),对于输入图像I训练一个卷积神经网络提取的全局特征向量φ(I),对于句子S训练一个循环神经网络来提取其特征
Figure BDA00021898893000000411
然后通过两个线性映射层将这两个不同模态的特征映射到同一空间;
然后计算余弦相似度来表示图像和句子之间的余弦相似度如下式:
Figure BDA0002189889300000051
为了训练这样一个映射空间模型,定义一个关于参数θs的损失函数使其最小化,训练集表示为
Figure BDA0002189889300000052
Figure BDA0002189889300000053
e(θs)代表示损失函数Le(I,S)的平均误差,这里使用双向排序损失来定义Le(I,S):
Figure BDA0002189889300000054
其中,β代表一个边界距离,I,S代表一组基准图像-句子对,I′,S′代表训练集里随机挑选的一组句子图像对,s表示余弦相似度;
步骤5.3,用
Figure BDA0002189889300000055
来定义奖励,其中表示模型预测的结果,
Figure BDA0002189889300000057
表示预测结果
Figure BDA0002189889300000058
的CIDEr得分,
Figure BDA0002189889300000059
表示输入图像I与
Figure BDA00021898893000000510
余弦相似度;
步骤5.4,使用强化学习中策略梯度来更新网络参数,根据REINFORCE算法,损失函数LRL(θ)关于参数θ的梯度计算式如下,
Figure BDA00021898893000000511
其中
Figure BDA00021898893000000512
是分值函数,是价值函数;
为了减少梯度估计的方差,引入一个基线函数b,
步骤5.5,使b=R(S*,I),则梯度计算公式为:
Figure BDA00021898893000000515
S*是图像I对应的描述语句,相当于是S的真实值。
与现有技术相比,本发明有如下优点:
1.本发明的中关系特征与对象特征的融合能够丰富图像信息;
2.本发明的双层语言模型能够生成更细粒度的图像描述;
3.本发明使用强化学习进一步优化训练模型能够缓解曝光偏差问题。
附图说明
图1是本发明的总流程图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明。
如图1所示,一种基于注意力机制的图像描述生成方法,包括如下步骤:
步骤1,从数据集的标注语句中提取词语构建词汇表;
步骤1中获得词汇表的方式为,统计MS COCO数据集文字描述中每个单词出现的次数,只选取出现次数大于五次的单词列入词汇表中,MS COCO数据集词汇表包含9,487个单词。
步骤2,采用ResNet101模型作为CNN初始模型,采用ImageNet数据集进行ResNet101的参数预训练,使用预训练的ResNet101单独提取图像的全局特征,然后使用预训练的ResNet101替换Faster R-CNN算法中的CNN提取每张图片的36个对象区域特征,然后将对象区域两两组成关系区域提取关系特征;
所述步骤2中使用预训练的ResNet101提取图像的全局特征,使用Faster R-CNN算法提取图像的对象区域特征,训练时对于一个图像的损失函数定义如下:
Figure BDA0002189889300000061
其中,参数λ用来平衡Ncls和Nreg这两个标准化参数。将Ncls的大小设置为mini-batch的大小,将Nreg设置为anchor的总量,λ设为10。i表示训练时一个mini-batch中anchor的索引号,pi是索引号为i的anchor为对象区域的预测概率。如果anchor为正样本,则pi *等于1,若anchor为负样本,则pi *等于0。ti是表示生成的包围框的4个坐标(分别包括左上角、右上角、左下角、右下角)参数的向量,ti *是与正样本的anchor相应的ground truth的包围框的坐标向量。Lcls是对象的分类损失函数:
Lcls(pi,pi *)=-log[pi *pi+(1-pi *)(1-pi)]
Lreg表示边界框回归损失函数:
Lreg(ti,ti *)=R(ti-ti *)
其中R为smooth L1损失函数:
Figure BDA0002189889300000062
步骤3,将关系特征和对象区域特征进行特征融合,得到包含对象间关系的对象区域特征,具体方法为:
对于输入图像I,在上一步得到一系列对象区域{v1,...,vi,...,vk}以及关系区域{S1,...,Si...,Sk},每一个对象包含在数个不同的关系区域中,每个关系对对象的重要性也不同,通过下式计算pi(Sk)表示关系sk对对象vi的注意力权重:
按照注意力权重将数个和对象区域vi相连的关系区域特征聚合为一个整体的聚合关系区域特征,然后将它作为信息传递到目标对象特征中,如下式:
Figure BDA0002189889300000072
其中,大写的Sk表示关系区域的集合,小写的sk表示单独的一个关系区域,
Figure BDA0002189889300000074
表示最终的聚合后的聚合关系特征向量,
Figure BDA0002189889300000075
是微调后的vi
步骤4,将上一步得到的包含对象间关系的对象区域特征输入双层LSTM语言模型中得到输出结果,即对图像生成的自然语言描述,具体包括如下子步骤:
步骤4.1,第一层LSTM输入图像的全局特征v0、第二层LSTM在t-1时刻的输出和t时刻生成的单词的编码这三者的连接向量生成初始描述。联合当前时刻生成的单词序列的特征和第一层LSTM在当前时刻的输出相连接作为下一层语言模型的输入。
步骤4.2,在每一时刻t都分别给每个经过特征融合后的对象区域计算出一个注意力权重:
Figure BDA0002189889300000076
其中
Figure BDA0002189889300000077
Wv1、Wh1是语言模型中需要学习的参数,
Figure BDA0002189889300000078
为t时刻i区域分配的注意力权重,
Figure BDA0002189889300000079
指的是第一层LSTM每一时刻t输出的结果,tanh为tanh激活函数:
步骤4.3,每个区域分配的注意力权重代表该区域对于当前生成单词的贡献度大小:
Figure BDA00021898893000000711
其中,
Figure BDA00021898893000000713
指的是对每一个vi进行注意力加权后的结果。
步骤4.4,语言模型的第二层中LSTM的输入由第一阶段语言模型的输出和经过注意力加权的图像特征组合而成;
步骤4.5,第二层LSTM的基础上增加一个哨兵门gt来计算生成文本单词时需要的参考的语言信息向量st
Figure BDA0002189889300000081
Figure BDA0002189889300000082
其中σ是sigmoid激活函数,Wx和Wh是需要训练的参数,ct表示t时刻LSTM的单元状态(cell state),⊙表示对应元素相乘,xt指的是第二层LSTM的输入,ht-1指的是第二层LSTM上一时刻t-1隐藏层的输出。
步骤4.6,第二层LSTM同样使用注意力机制:
Figure BDA0002189889300000083
其中
Figure BDA0002189889300000084
Wv2、Wh2是模型中需要学习的参数,不同的是在本层区分视觉单词和文本单词,在生成每个单词的时候让网络自动选择是更依赖于视觉信息vi还是更依赖于语言信息st
步骤4.7,在生成每个单词的时候计算视觉信息和语言信息分布权重:
Figure BDA0002189889300000085
其中,
Figure BDA0002189889300000086
为步骤4.6得到的注意力向量,
Figure BDA0002189889300000087
Ws、Wh3是模型中需要学习的参数,包括图像区域特征和语言信息向量的权重。
Figure BDA0002189889300000088
其中,
Figure BDA0002189889300000089
表示对每一个vi乘上对应的β然后求和的结果,由于增加了一个语言信息向量,所以长度变为K+1。
步骤4.8,把第二层语言模型的输出输入softmax层计算生成t时刻生成单词的分布概率:
Figure BDA00021898893000000810
步骤4.9,使用交叉熵损失函数训练模型:
Figure BDA00021898893000000811
其中,
Figure BDA00021898893000000812
代表前t-1时刻的值,
Figure BDA00021898893000000813
代表t时刻的真实值,L(θ)表示在已知1到t-1时刻的值的情况下关于t时刻值的条件概率。
步骤5,训练一个映射空间模型衡量的图像与描述句子之间的相似度,使用CIDEr分数和相似度作为奖励项,使用强化学习进一步优化双层LSTM语言模型,具体包括如下子步骤:
步骤5.1,首先计算模型的CIDEr分数,一个n-gram元组wk出现在参考句子sij中的次数记为hk(sij),出现在候选句子ci中的次数记为hk(ci),由下式计算每个n-gram元组wk的TF-IDF权重:
Figure BDA0002189889300000091
其中Ω是所有n-grams的集合,I是数据集中所有的图像。对于长度为n的n-grams元组使用候选句子ci和参考句子Si之间的平均余弦相似度来计算其CIDErn分数:
Figure BDA0002189889300000092
最后计算总的CIDEr分数,wn表示n-grams元组,如下式:
Figure BDA0002189889300000093
上述步骤可参见文献Vedantam R,LawrenceZitnick C,Parikh D.Cider:Consensus-based image description evaluation[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2015:4566-4575。
步骤5.2,对于一个匹配的图像-句子对(In,Sn),对于输入图像I训练一个卷积神经网络提取的全局特征向量φ(I),对于句子S训练一个循环神经网络(RNN)来提取其特征
Figure BDA0002189889300000098
然后通过两个线性映射层将这两个不同模态的特征映射到同一空间。
然后计算余弦相似度来表示图像和句子之间的余弦相似度如下式:
Figure BDA0002189889300000094
为了训练这样一个映射空间模型,定义一个关于参数θs的损失函数使其最小化,训练集表示为
Figure BDA0002189889300000095
Figure BDA0002189889300000096
e(θs)代表示损失函数Le(I,S)的平均误差。
这里使用双向排序损失来定义Le(I,S):
Figure BDA0002189889300000097
其中,β代表一个边界距离,I,S代表一组基准图像-句子对,I′,S′代表训练集里随机挑选的一组图像-句子对。
步骤5.3,用
Figure BDA0002189889300000101
来定义奖励,其中
Figure BDA0002189889300000102
表示模型预测的结果,
Figure BDA0002189889300000103
表示预测结果
Figure BDA0002189889300000104
的CIDEr得分,
Figure BDA0002189889300000105
表示输入图像I与
Figure BDA0002189889300000106
余弦相似度;
步骤5.4,使用强化学习中策略梯度(policy gradient)来更新网络参数,根据REINFORCE算法,损失函数LRL(θ)关于参数θ的梯度计算式如下,
其中
Figure BDA0002189889300000108
是分值函数,
Figure BDA0002189889300000109
是价值函数。
上述步骤可参见文献R.S.Sutton,D.McAllester,S.Singh,andY.Mansour.Policy gradient methods for reinforcement learning with functionapproximation.In Advances in Neural Information Processing Systems 12,pages1057–1063,2000.
为了减少梯度估计的方差,引入一个基线函数b,
Figure BDA00021898893000001010
步骤5.5,使b=R(S*,I),则梯度计算公式为
Figure BDA00021898893000001011
S*是图像I对应的描述语句,相当于是S的真实值,真实值为已知量。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种基于注意力机制的图像描述生成方法,其特征在于,包括以下步骤:
步骤1,从数据集的标注语句中提取词语构建词汇表;
步骤2,采用ResNet101模型作为CNN初始模型,并进行ResNet101的参数预训练,使用预训练的ResNet101单独提取图像的全局特征,然后使用预训练的ResNet101替换Faster R-CNN算法中的CNN提取每张图片的若干个对象区域特征,然后将对象区域两两组成关系区域提取关系特征;
步骤3,将关系特征和对象区域特征进行特征融合,得到包含对象间关系的对象区域特征;
步骤4,将上一步得到的包含对象间关系的对象区域特征输入双层LSTM语言模型中得到输出结果,即对图像生成的自然语言描述;
步骤5,训练一个映射空间模型衡量的图像与描述句子之间的相似度,使用CIDEr分数和相似度作为奖励项,使用强化学习进一步优化双层LSTM语言模型。
2.根据权利要求1所述的一种基于注意力机制的图像描述生成方法,其特征在于:步骤1中构建词汇表的方式为,统计MS COCO数据集文字描述中每个单词出现的次数,只选取出现次数大于五次的单词列入词汇表中,其中MS COCO数据集词汇表包含9487个单词。
3.根据权利要求1所述的一种基于注意力机制的图像描述生成方法,其特征在于:步骤2中使用Faster R-CNN算法提取图像的对象区域特征,训练时对于一个图像的损失函数定义如下:
Figure FDA0002189889290000011
其中,参数λ用来平衡Ncls和Nreg这两个标准化参数;将Ncls的大小设置为mini-batch的大小,将Nreg设置为anchor的总量;i表示训练时一个mini-batch中anchor的索引号,pi是索引号为i的anchor为对象区域的预测概率;如果anchor为正样本,则pi *等于1,若anchor为负样本,则pi *等于0;ti是表示生成的包围框的4个坐标参数的向量,ti *是与正样本的anchor相应的ground truth的包围框的坐标向量;
Lcls是对象的分类损失函数:
Lcls(pi,pi *)=-log[pi *pi+(1-pi *)(1-pi)]
Lreg表示边界框回归损失函数:
Lreg(ti,ti *)=R(ti-ti *)
其中R为smooth L1损失函数:
Figure FDA0002189889290000021
4.根据权利要求1所述的一种基于注意力机制的图像描述生成方法,其特征在于:步骤3中将关系特征和对象区域特征进行特征融合的具体方法为:
对于输入图像I在上一步得到一系列对象区域{v1,...,vi,...,vk}以及关系区域{S1,…,Si…,Sk},每一个对象包含在数个不同的关系区域中,每个关系对对象的重要性也不同,通过下式计算pi(Sk)表示关系sk对对象vi的注意力权重:
Figure FDA0002189889290000022
按照注意力权重将数个和对象vi相连的关系区域特征聚合为一个整体的聚合关系区域特征,然后将它作为信息传递到目标对象特征中,如下式:
其中,大写的Sk表示关系区域的集合,小写的sk表示单独的一个关系区域,
Figure FDA0002189889290000025
表示最终的聚合后的聚合关系特征向量,是微调后的vi
5.根据权利要求1所述的一种基于注意力机制的图像描述生成方法,其特征在于:步骤4的具体实现方式如下,
步骤4.1,输入图像的全局特征v0到双层LSTM语言模型中的第一层;
步骤4.2,在每一时刻t都分别给每个经过特征融合后的对象区域计算出一个注意力权重:
其中Wv1、Wh1是语言模型中需要学习的参数,
Figure FDA0002189889290000029
为t时刻i区域分配的注意力权重,
Figure FDA00021898892900000210
指的是第一层LSTM每一时刻t输出的结果,tanh为tanh激活函数:
步骤4.3,每个区域分配的注意力权重代表该区域对于当前生成单词的贡献度大小:
Figure FDA00021898892900000212
Figure FDA0002189889290000031
其中,
Figure FDA0002189889290000032
指的是对每一个vi进行注意力加权后的结果;
步骤4.4,语言模型的第二层中LSTM的输入由第一阶段语言模型的输出和经过注意力加权的图像特征组合而成;
步骤4.5,第二层LSTM的基础上增加一个哨兵门gt来计算生成文本单词时需要的参考的语言信息向量st
Figure FDA0002189889290000034
其中σ是sigmoid激活函数,Wx和Wh是需要训练的参数,ct表示t时刻LSTM的单元状态(cell state),⊙表示对应元素相乘,xt指的是第二层LSTM的输入,ht-1指的是第二层LSTM上一时刻t-1隐藏层的输出;
步骤4.6,第二层LSTM同样使用注意力机制:
Figure FDA0002189889290000035
其中
Figure FDA0002189889290000036
Wv2、Wh2是模型中需要学习的参数,不同的是在本层区分视觉单词和文本单词,在生成每个单词的时候让网络自动选择是更依赖于视觉信息vi还是更依赖于语言信息st
步骤4.7,在生成每个单词的时候计算视觉信息和语言信息分布权重:
Figure FDA0002189889290000037
其中,
Figure FDA0002189889290000038
为步骤4.6得到的注意力向量,Ws、Wh3是模型中需要学习的参数,包括图像区域特征和语言信息向量的权重;
Figure FDA00021898892900000310
Figure FDA00021898892900000311
表示对每一个vi乘上对应的β然后求和的结果,由于增加了一个语言信息向量,所以长度变为K+1;
步骤4.8,把第二层语言模型的输出输入softmax层计算生成t时刻生成单词的分布概率:
Figure FDA00021898892900000312
步骤4.9,最后使用交叉熵损失函数训练模型。
6.根据权利要求1所述的一种基于注意力机制的图像描述生成方法,其特征在于:步骤5的具体实现方式如下,
步骤5.1,首先计算模型的CIDEr分数CIDEr(ci,Si),ci为候选句子和Si为参考句子;
步骤5.2,对于一个匹配的图像-句子对(In,Sn),对于输入图像I训练一个卷积神经网络提取的全局特征向量φ(I),对于句子S训练一个循环神经网络来提取其特征然后通过两个线性映射层将这两个不同模态的特征映射到同一空间;
然后计算余弦相似度来表示图像和句子之间的余弦相似度如下式:
为了训练这样一个映射空间模型,定义一个关于参数θs的损失函数使其最小化,训练集表示为
Figure FDA0002189889290000043
Figure FDA0002189889290000044
e(θs)代表示损失函数Le(I,S)的平均误差,这里使用双向排序损失来定义Le(I,S):
Figure FDA0002189889290000045
其中,β代表一个边界距离,I,S代表一组基准图像-句子对,I′,S′代表训练集里随机挑选的一组句子图像对;
步骤5.3,用
Figure FDA0002189889290000046
来定义奖励,其中
Figure FDA0002189889290000047
表示模型预测的结果,表示预测结果
Figure FDA0002189889290000049
的CIDEr得分,
Figure FDA00021898892900000410
表示输入图像I与
Figure FDA00021898892900000411
余弦相似度;
步骤5.4,使用强化学习中策略梯度来更新网络参数,根据REINFORCE算法,损失函数LRL(θ)关于参数θ的梯度计算式如下,
其中
Figure FDA00021898892900000413
是分值函数,
Figure FDA00021898892900000414
是价值函数;
为了减少梯度估计的方差,引入一个基线函数b,
Figure FDA00021898892900000415
步骤5.5,使b=R(S*,I),则梯度计算公式为:
Figure FDA00021898892900000416
S*是图像I对应的描述语句,相当于是S的真实值。
CN201910828522.3A 2019-09-03 2019-09-03 一种基于注意力机制的图像描述生成方法 Pending CN110674850A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910828522.3A CN110674850A (zh) 2019-09-03 2019-09-03 一种基于注意力机制的图像描述生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910828522.3A CN110674850A (zh) 2019-09-03 2019-09-03 一种基于注意力机制的图像描述生成方法

Publications (1)

Publication Number Publication Date
CN110674850A true CN110674850A (zh) 2020-01-10

Family

ID=69076245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910828522.3A Pending CN110674850A (zh) 2019-09-03 2019-09-03 一种基于注意力机制的图像描述生成方法

Country Status (1)

Country Link
CN (1) CN110674850A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325323A (zh) * 2020-02-19 2020-06-23 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN111414962A (zh) * 2020-03-19 2020-07-14 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、***及介质
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN111783852A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于深度强化学习自适应式生成图像描述的方法
CN111814946A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于多体进化的图像描述自动生成方法
CN111916050A (zh) * 2020-08-03 2020-11-10 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN112037239A (zh) * 2020-08-28 2020-12-04 大连理工大学 基于多层次显式关系选择的文本指导图像分割方法
CN112069841A (zh) * 2020-07-24 2020-12-11 华南理工大学 新型x光违禁品包裹跟踪方法及装置
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113408430A (zh) * 2021-06-22 2021-09-17 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述***及方法
CN113469143A (zh) * 2021-08-16 2021-10-01 西南科技大学 一种基于神经网络学习的手指静脉图像识别方法
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与***
CN114882488A (zh) * 2022-05-18 2022-08-09 北京理工大学 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN116580283A (zh) * 2023-07-13 2023-08-11 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质
CN114882488B (zh) * 2022-05-18 2024-06-28 北京理工大学 基于深度学习与注意力机制的多源遥感图像信息处理方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与***
CN108520273A (zh) * 2018-03-26 2018-09-11 天津大学 一种基于目标检测的稠密小商品快速检测识别方法
CN109146786A (zh) * 2018-08-07 2019-01-04 北京市商汤科技开发有限公司 场景图生成方法及装置、电子设备和存储介质
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成***及方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918782A (zh) * 2016-12-29 2018-04-17 中国科学院计算技术研究所 一种生成描述图像内容的自然语言的方法与***
CN108520273A (zh) * 2018-03-26 2018-09-11 天津大学 一种基于目标检测的稠密小商品快速检测识别方法
CN109146786A (zh) * 2018-08-07 2019-01-04 北京市商汤科技开发有限公司 场景图生成方法及装置、电子设备和存储介质
CN109726696A (zh) * 2019-01-03 2019-05-07 电子科技大学 基于推敲注意力机制的图像描述生成***及方法
CN110111399A (zh) * 2019-04-24 2019-08-09 上海理工大学 一种基于视觉注意力的图像文本生成方法
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PREKSHA NEMA等: "Generating Descriptions from Structured Data Using a Bifocal Attention Mechanism and Gated Orthogonalization", 《ARXIV》 *
靳华中等: "一种结合全局和局部特征的图像描述生成模型", 《应用科学学报》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325323B (zh) * 2020-02-19 2023-07-14 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN111325323A (zh) * 2020-02-19 2020-06-23 山东大学 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN111814946A (zh) * 2020-03-17 2020-10-23 同济大学 一种基于多体进化的图像描述自动生成方法
CN111814946B (zh) * 2020-03-17 2022-11-15 同济大学 一种基于多体进化的图像描述自动生成方法
CN111414962A (zh) * 2020-03-19 2020-07-14 创新奇智(重庆)科技有限公司 一种引入物体关系的图像分类方法
WO2021190257A1 (zh) * 2020-03-27 2021-09-30 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN111753825A (zh) * 2020-03-27 2020-10-09 北京京东尚科信息技术有限公司 图像描述生成方法、装置、***、介质及电子设备
CN111783852B (zh) * 2020-06-16 2024-03-12 北京工业大学 一种基于深度强化学习自适应式生成图像描述的方法
CN111783852A (zh) * 2020-06-16 2020-10-16 北京工业大学 一种基于深度强化学习自适应式生成图像描述的方法
CN111612103A (zh) * 2020-06-23 2020-09-01 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、***及介质
CN111612103B (zh) * 2020-06-23 2023-07-11 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、***及介质
CN112069841A (zh) * 2020-07-24 2020-12-11 华南理工大学 新型x光违禁品包裹跟踪方法及装置
CN111916050A (zh) * 2020-08-03 2020-11-10 北京字节跳动网络技术有限公司 语音合成方法、装置、存储介质和电子设备
CN112037239A (zh) * 2020-08-28 2020-12-04 大连理工大学 基于多层次显式关系选择的文本指导图像分割方法
CN112256904A (zh) * 2020-09-21 2021-01-22 天津大学 一种基于视觉描述语句的图像检索方法
CN112200268A (zh) * 2020-11-04 2021-01-08 福州大学 一种基于编码器-解码器框架的图像描述方法
CN112528989A (zh) * 2020-12-01 2021-03-19 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN113378919B (zh) * 2021-06-09 2022-06-14 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113378919A (zh) * 2021-06-09 2021-09-10 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113408430A (zh) * 2021-06-22 2021-09-17 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述***及方法
CN113469143A (zh) * 2021-08-16 2021-10-01 西南科技大学 一种基于神经网络学习的手指静脉图像识别方法
CN113837230A (zh) * 2021-08-30 2021-12-24 厦门大学 基于自适应注意力机制的图像描述生成方法
CN114693790A (zh) * 2022-04-02 2022-07-01 江西财经大学 基于混合注意力机制的自动图像描述方法与***
CN114693790B (zh) * 2022-04-02 2022-11-18 江西财经大学 基于混合注意力机制的自动图像描述方法与***
CN114882488A (zh) * 2022-05-18 2022-08-09 北京理工大学 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN114882488B (zh) * 2022-05-18 2024-06-28 北京理工大学 基于深度学习与注意力机制的多源遥感图像信息处理方法
CN116580283A (zh) * 2023-07-13 2023-08-11 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质
CN116580283B (zh) * 2023-07-13 2023-09-26 平安银行股份有限公司 一种图像提示词生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN110807154B (zh) 一种基于混合深度学习模型的推荐方法与***
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN109299396B (zh) 融合注意力模型的卷积神经网络协同过滤推荐方法及***
CN108363753B (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN107273438B (zh) 一种推荐方法、装置、设备及存储介质
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN112733027B (zh) 一种基于局部和全局表示模型联合学习的混合推荐方法
CN112800344B (zh) 一种基于深度神经网络的电影推荐方法
CN115269847A (zh) 基于知识增强句法异构图的方面级情感分类方法
CN111753044A (zh) 一种基于正则化的去社会偏见的语言模型及应用
CN112597302B (zh) 基于多维评论表示的虚假评论检测方法
CN112256866A (zh) 一种基于深度学习的文本细粒度情感分析方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN112100439B (zh) 基于依赖关系嵌入与神经注意力网络的推荐方法
CN114372475A (zh) 一种基于RoBERTa模型的网络舆情情感分析方法及***
CN113326384A (zh) 一种基于知识图谱的可解释推荐模型的构建方法
CN114036298B (zh) 一种基于图卷积神经网络与词向量的节点分类方法
CN110874392B (zh) 基于深度双向注意力机制的文本网络信息融合嵌入方法
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN115422369B (zh) 基于改进TextRank的知识图谱补全方法和装置
CN115935067A (zh) 面向社会化推荐的语义与结构视图融合的物品推荐方法
CN111666410B (zh) 商品用户评论文本的情感分类方法及***
CN114996490A (zh) 电影推荐方法、***、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination