CN110390363A

CN110390363A - 一种图像描述方法

Info

Publication number: CN110390363A
Application number: CN201910688842.3A
Authority: CN
Inventors: 吕诗奇; 刘晋
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2019-10-29

Abstract

一种图像描述方法，利用VGG卷积神经网络来提取图片中的全局图像特征，利用Faster R‑CNN网络来提取图片中的局部图像特征，通过全局‑局部特征融合算法对全局图像特征和局部图像特征进行融合，得到图像融合特征，通过带有注意力机制的双向长短时记忆网络处理图像融合特征，生成初步的图像描述语句，利用局部图像特征提取时得到的图像目标信息与初步的图像描述语句中的名词进行基于WordNet词向量相似度计算，对图像描述语句进行纠正，生成最终的图像描述语句。本发明减少了无用信息的影响，增强了关键信息的体现，增强了模型的容错和泛化能力，增加了描述语句的准确性。

Description

一种图像描述方法

技术领域

本发明涉及图像识别处理领域，尤其涉及一种基于编码解码器和多种特征融合处理的图像中目标检测与描述语句生成方法。

背景技术

随着技术的高速发展，智能手机在人群中越来越普及，自拍和随手拍也渐渐成为人们主流的一种社交方式，因此图像正以指数级的速度增长着。截至2014年，仅仅facebook就拥有超过2500亿张图片，常规的图像检索的方法，如进行人工标注图像，并进行简要的图像描述，已经无法承受这种数量级的图片了，而完完全全以人工的方式来处理变得不太可能，因此孕育而生的是使用机器来自动标注和图像描述。

图像描述在机器学习与深度学习快速发展的大背景下茁壮发展，图像描述的应用极其广泛，包括人机交互、图像处理、目标提取、视频问答等等。图像描述简单来讲就是利用计算机来处理人们利用视觉***进行的对图像中各个目标背景进行分析描述的过程。图像描述对于人类相对方便，但是对于计算机却有相当的难度，因为计算机不但要找到图片中的目标和背景，同时还需要理解它们之间的关系，这是比较复杂的一件事情。

已有的大部分图像描述方法对于图像的特征使用的往往是全局特征，从描述结果可以看出在目标局部间的关系描述准确性低，同时在描述结果上会出现描述目标错误。目前的图像描述方法对于上述问题都没有有效的纠正方法。

发明内容

本发明提供一种图像描述方法，减少了无用信息的影响，增强了关键信息的体现，增强了模型的容错和泛化能力，增加了描述语句的准确性。

为了达到上述目的，本发明提供了一种图像描述方法，包含以下步骤：

利用VGG卷积神经网络来提取图片中的全局图像特征；

利用Faster R-CNN网络来提取图片中的局部图像特征；

通过全局-局部特征融合算法对全局图像特征和局部图像特征进行融合，得到图像融合特征；

通过带有注意力机制的双向长短时记忆网络处理图像融合特征，生成初步的图像描述语句；

利用局部图像特征提取时得到的图像目标信息与初步的图像描述语句中的名词进行基于WordNet词向量相似度计算，对初步生成的图像描述语句进行纠正，生成最终的图像描述语句。

所述的VGG卷积神经网络的图像卷积公式为：

其中，表示第l特征图层中的第j个点，中，M_i表示窗口的数量，表示第l-1输入层中的第i个单元，表示第l层中的第j个卷积层的第i个单元，表示第l层中的第j个偏移量，f表示一个激励函数；

所述的VGG卷积神经网络包含5个卷积层。

所述的利用Faster R-CNN网络来提取图片中的局部图像特征的方法包含：

FasterR-CNN网络中，使用多个卷积层将原始图片转化成一组特征图，RPN网络将特征图训练生成候选的区域框，ROI Pooling层从候选的区域框和特征图中获取到目标类别以及回归获取检测框最终的精准位置，提取到目标区域后，筛选图片中比重大于P的目标区域，利用VGG网络对筛选后的目标区域进行卷积特征提取的操作，获得和全局特征一样的N*N维的矩阵；

其中，P表示目标图片在整张图片中所占的比例，Sobject表示目标图片的面积，Spicture表示整张图片的面积。

所述的全局-局部特征融合算法的表达式为：

其中，Gf，Lf，Mf分别表示全局特征，局部特征和融合特征；目标函数中的分别表示投影后的异类数据尽可能远离，而同类数据尽可能密；常数k为平衡因子，其取值为正数；约束条件将投影矩阵进行归一化处理。

所述的带有注意力机制的双向长短时记忆网络处理图像融合特征的方法包含：

δ_i＝softmax(f_att(h_i，s_j))

f_att(h_i，s_j)＝tanh(W₁h_i+W₂s_j)

其中，C_i表示的是环境向量，h_i表示目前的隐藏状态，s_j表示前面的隐藏状态，a_ij表示注意力概率矩阵，δ_i是当前状态所加的权，也就是注意力权重，fatt(h_i，s_j)注意力函数计算的是h_i和s_j之间的非归一化分配值，利用全连接的方式计算；

使用索引t＝1，...，N表示语句中词语的数量，双向的长短期记忆单元的表示形式为：

x_t＝W_ωθ_t

e_t＝f(W_ex_t+b_e)

其中，θt是一个指示索引的列向量，表示一个词在t处的索引词向量，权重参数W_ω为一个词的嵌入矩阵，双向的长短期记忆单元有两条独立的工作流，一条是自左向右的长短记忆单元另一条是自右向左的长短记忆单元St是通过映射函数f得到第t个词位及周围的词位于句子中的位置，为h维向量，b表示偏置值。

所述的对图像描述语句进行纠正的方法包含：

使用softmax函数从局部图像特征中获得目标名词；

从初步的图像描述语句中解析获得描述名词；

利用WordNet计算目标名词和描述名词的相似度，用相似度低于1的目标名词替换描述名词。

所述的使用softmax函数从局部图像特征中获得目标名词的方法包含：

假设softmax函数的输入数据是c维度的向量z，它是一个归一化的指数函数，函数的数据也是一个c维度的向量y，里面的值是0到1之间，定义如下：

式中的分母充当了正则项的作用，使得：

作为神经网络的输出层，softmax函数中的值可以用c个神经元来表示。

对于给定的输入z，得到每个分类的概率t＝c for c＝1...C表示为：

其中，P(t＝1|z)表示，在给定输入z时，该输入数据是c分类的概率。

所述的从初步的图像描述语句中解析获得描述名词的方法包含：

对图片描述语句先进行分词的操作，随后对每个单词进行词性的分析，利用一个词性解析器以及一个关于名词的词性语料库，生成一组带有词性的单词二元组，将词性分为名词和非名词。

所述的利用WordNet计算目标名词和描述名词的相似度的方法包含：

利用WordNet，从WordNet的同义词词集抽取出候选同义词，通过WordNet进行词向量化，得到词语的特征，计算出特征集合SW：

feature(SW)＝{{W_S}，{W_C}}

其中，{W_S}表示图像目标提取名词的词向量特征，{W_C}表示描述中名词的词向量；

词汇相似度计算方法由下式表示：

其中，IDF(wi)表示从WordNet中训练得到的构建WordNet是出现某个w_i的文档的倒数，K_S表示同义词特征的权重，K_C表示类属特征的权重。

本发明的主要优点是：

1、增加图像内全局和局部特征的关联程度，利用VGG网络来提取全局特征，FasterR-CNN网络提取局部特征，通过全局-局部特征融合算法得到融合特征作为编码器部分的输出，以此来减少无用信息的影响，增强关键信息的体现。

2、利用注意力机制以及双向LSTM网络作为解码器部分进行训练，增加对于特征中重要信息的关注度，增加训练模型的容错率和泛化能力。

3、针对描述语句中比较明显的名词错误，利用局部特征提取时得到的图像目标信息与描述语句中的名词进行基于WordNet词向量相似度计算，对描述语句进行纠正，增加描述语句的准确性。

附图说明

图1是本发明提供的一种图像描述方法的流程图。

图2是利用VGG卷积神经网络来提取图片中的全局图像特征的示意图。

图3是利用Faster R-CNN网络来提取图片中的局部图像特征的示意图。

图4是进行图像纠正的流程图。

图5是最终生成的图像描述语句的示意图。

具体实施方式

以下根据图1～图5，具体说明本发明的较佳实施例。

如图1所示，本发明提供一种图像描述方法，包含以下步骤：

步骤1、对图片进行大小调整，将不同尺寸的输入图片缩放至统一尺寸。

步骤2、利用VGG卷积神经网络来提取图片中的全局图像特征；

步骤3、利用Faster R-CNN网络来提取图片中的局部图像特征；

步骤4、通过全局-局部特征融合算法对全局图像特征和局部图像特征进行融合，得到图像融合特征；

步骤5、通过带有注意力机制的双向长短时记忆网络处理图像融合特征，生成初步的图像描述语句；

步骤6、利用局部图像特征提取时得到的图像目标信息与初步的图像描述语句中的名词进行基于WordNet词向量相似度计算，对初步生成的图像描述语句进行纠正，生成最终的图像描述语句。

在步骤2中，本发明使用VGG16网络对图片全局特征进行提取。VGG16网络就是VGG网络，16指的是该网络共有16层。VGG16卷积神经网络有着强大的特征学习能力，通过卷积神经网络模型提取的视觉特征已成功地运用于多种视觉识别任务，且取得了较高的识别精度。VGG16采用连续的几个3x3的小卷积核。对于给定的感受野，即神经网络每一层的输出中每一个像素点在原图上映射的区域大小，采用连续多层非线性层可以增加网络深度来保证学习更复杂的模式，虽然VGG有较多的参数，较深的网络层次，但是VGG只需要很少的迭代次数就开始收敛，训练效果出色。图像根据预先定好的窗口大小，对原图进行卷积的操作，图像卷积公式如下所示：

其中，表示第l特征图层中的第j个点，和，M_i表示窗口的数量，表示第l-1输入层中的第i个单元，表示第l层中的第j个卷积层的第i个单元，表示第l层中的第j个偏移量，f表示一个激励函数。

本发明针对图像特征提取的需求，对VGG16网络稍作修改，因为不需要对图像的类别进行识别，因此在VGG16网络结构中去除了最后要进行类别预测时会用到的全连接层，以此减少训练层数和训练参数，加快训练效率。在本发明中的VGG16网络主要由5个卷积层组成。如图2所示，第一个卷积层使用了2个3*3*64的卷积核；第二个卷积层使用了2个3*3*128的卷积核；第三个卷积层使用了2个3*3*256和一个1*1*256的卷积核；第四个卷积层使用了2个3*3*512和一个1*1*512的卷积核；第五个卷积层使用了2个3*3*512和一个1*1*512的卷积核。在最后一层卷积层后，展示特征图，得到一组N*N维的矩阵，定义为Gf。这组矩阵就是本发明中所需要得到的全局特征，这组特征学习到了图像中颜色特征、纹理特征和形状特征等等的整体属性。

在步骤3中，本发明使用FasterR-CNN网络模型作为基础进行局部特征的提取，如图3所示。在FasterR-CNN网络中，使用多个卷积层用于将原始图片转化成一组特征图。该特征图被用于后续的RPN(Region Proposal Network)层和ROI Pooling(regions ofinterestpooling)层。RPN网络用于训练生成候选的区域框，综合这些候选区域框和之前的特征图信息在ROI Pooling层中获取到目标类别以及回归获取检测框最终的精准位置。

整个RPN网络训练时的损失函数为：

其中i表示第i个anchor区域框(在特征图中每个点都会预测k个预选区域框anchor boxes，这些box是在原图中M*N的图像上的，相当于预选的ROI。同时这些box都是以特征图的每点为中心，且其大小和长宽比都是事先固定的)，pi是anchor的前景的预测概率(网络计算出来的值)，是anchor的真实情况，ti代表预测的边框值，代表对应前景anchor对应的GTbox。当anchor是正样本时，当anchor是负样本，则表示一个与正样本anchor相关的正确的区域框(ground true box)坐标(每个正样本anchor只可能对应一个ground true box：一个正样本anchor与某个ground true box对应，那么该anchor与groundtrue box的IOU要么是所有anchor中最大，要么大于0.7)。

由于Faster RCNN得到的是一组目标位置信息以及类别信息，所以要与全局信息进行融合的话，需要将这一组数据转化为一组和全局特征一样的N*N维的矩阵。因此本发明在提取到目标后，利用VGG网络对目标进行卷积特征提取的操作，具体操作与步骤2相同。

由于在一张图片中往往会出现多种目标，如果将图片中的所有目标提取出来，再形成局部特征时，明显一些不重要的目标信息会成为干扰出现在特征中，因此需要对目标进行一次筛选，选出人们会主要关注的目标。从科学的研究中可以发现人们会更加关注于占据图片较大比重的目标。因此本发明利用目标在整张图片中所占的比率来进行评估，公式如下式所示。

其中，P表示目标图片在整张图片中所占的比例，Sobject表示目标图片的面积，Spicture表示整张图片的面积，在本发明中P的阈值定在0.3。也就是说，在Faster R-CNN提取图像中所有的目标所在区域后，本发明只保留在原图中占比超过30％的那些区域和目标，最后使用VGG16提取筛选后的区域中的图像信息。

在步骤4中，本发明将步骤2中提取到的全局特征和步骤3中提取到的局部特征进行融合，融合算法的最优化表达式为：

其中，Gf，Lf，Mf分别表示全局特征，局部特征和融合特征；目标函数中的分别表示投影后的异类数据尽可能远离，而同类数据尽可能密；常数k为平衡因子，其取值为正数，k反映了在特征提取过程中全局特征和局部特征对最终结果的影响程度；约束条件将投影矩阵进行归一化处理。

通过步骤4对图像全局特征与图像局部特征进行融合，本发明得到了一个图像融合特征向量。相较于单纯的图像全局特征，融合特征向量包含更多关键信息，着重包含了描述目标的图像信息以及目标之间的关系信息，因此可以提升描述语句的准确性。

在步骤5中，本发明构建了一个带有注意力机制的双向LSTM(长短时记忆)网络。双向LSTM可以考虑到词与词在顺序上的关系，在顺序上的关系，获取到更多的特征信息，所以效果比单向LSTM好，也由此被广泛应用到自然语言处理的任务中。同时考虑到双向LSTM在计算隐含层时的限制，使用注意力机制来增加关联较强的词的权重，降低了关联较弱的词的权重。

注意力模型是模拟人脑注意力的一种模型，其基本思想是对于事物的注意力会在特定时刻集中在某一特定地方，对其他部分分配的注意力会很少。

注意力机制可以提高处理大规模输入数据的计算效率，同时通过选择输入的子集来减少输入数据量的维度。另外注意力机制是更加关注于有用信息，让模型训练时专注于找到输入信息中更加突出的信息，以此提高训练结果的效果。注意力机制模型的提出是为了帮助编码器-解码器结构(encoder-decoder类型)的框架，从而解决encoder-decoder在设计上的一些缺陷。

本发明加入注意力机制后，对于步骤4中得到的图像融合特征计算公式如下：

δ_i＝softmax(f_att(h_i，s_j))

f_att(h_i，s_j)＝tanh(W₁h_i+W₂s_j)

其中，C_i表示的是环境向量，h_i表示目前的隐藏状态，s_j表示前面的隐藏状态，a_ij表示注意力概率矩阵，这些环境向量可以和当前的隐藏状态h_i一起预测。C_i可以由前面状态的平均得出，其中δ_i是当前状态所加的权，也就是注意力权重，fatt(h_i，s_j)注意力函数计算的是h_i和s_j之间的非归一化分配值，利用全连接的方式计算。

双向的长短时记忆网络将N个词的序列转换为一个对应的N个M维向量。此时Bi-LSTM网络单元将计算该词的上下文关系。使用索引t＝1，...，N表示语句中词语的数量，双向的长短期记忆单元的表示形式为：

x_t＝W_ωθ_t

e_t＝f(W_ex_t+b_e)

在步骤6中，本发明使用步骤3中提取的图像局部特征对步骤5得到的初步图像描述进行纠正，本发明所涉及的描述纠正过程如图4所示。

在步骤3中，本发明使用了Faster R-CNN提取了目标在图片中的位置信息，同时，FasterR-CNN也对检测出的目标进行了预测分类。预测的类别也就是提取到了基于图像局部特征的目标名词。对于在图片中会出现各类不同的目标，在本发明中使用多项Logistic回归，该方法也被称之为softmax函数，它能够解决多分类问题。

式中的分母充当了正则项的作用，可以使得：

作为神经网络的输出层，softmax函数中的值可以用c个神经元来表示。对于给定的输入z，我们可以得到每个分类的概率t＝c for c＝1...C可以表示为：

对于步骤5中生成的图片描述语句，本发明对句子先进行分词的操作，随后对每个单词进行词性的分析，利用一个词性解析器以及一个关于名词的词性语料库，生成一组带有词性的单词二元组，这里本发明将词性分为名词，以及非名词。

在得到了从目标提取得到的名词以及从语句描述得到的名词后，需要利用一种关系将这两部分的名词联系起来，本发明利用了WordNet来解决这个问题。WordNet是一种特殊的英语字典，WordNet包含了许多语义、词性的信息有别于通常意义上的字典。WordNet通常会以词条不同含义进行分组，同义词集合即synset表示一组具有相同含义的词组。WordNet对每一个同义词集合都做了简明的介绍，同时根据词性，语义来连接各个同义词集合。WordNet是一个可以了解词语词之间的词性和语义关系的十分完善的知识库网络，同时还具有词性的分类的结构信息。因此可以通过WordNet将提取出来的名词转化成一组词向量，通过对词向量之间的相似度计算可以得到目标提取得到的名词与描述中的名词之间的相似度大小，若相似度较大，说明描述的内容相对准确，若相似度较低，则说明描述内容有所误差，则需要将描述中的名词替换成目标名词。

feature(SW)＝{{W_S}，{W_C}}

其中，{W_S}表示图像目标提取名词的词向量特征，{W_C}表示描述中名词的词向量。

根据上述对于词汇特征的定义，可以通过计算词汇间的距离的大小作为词汇间相似度的判断依据。当两个词汇间的距离越小时，则说明两个词之间的相似度就越大。根据词汇相似度的值我们更加容易得到WordNet中两个词汇之间的相似度，词汇相似度计算方法可由下式表示：

其中，IDF(wi)表示从WordNet中训练得到的构建WordNet是出现某个w_i的文档的倒数，K_S表示同义词特征的权重，K_C表示类属特征的权重。如果Similarity(W_i，W_j)的值低于1，则认为两个词的相似度较低。

步骤6利用步骤3中提取的图像局部信息，对图像描述语句中出现的描述对象进行针对性纠正，防止出现描述目标错误。

在图5中展示了本发明的图像描述生成结果。

本发明的主要优点是：

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种图像描述方法，其特征在于，包含以下步骤：

利用VGG卷积神经网络来提取图片中的全局图像特征；

利用Faster R-CNN网络来提取图片中的局部图像特征；

2.如权利要求1所述的图像描述方法，其特征在于，所述的VGG卷积神经网络的图像卷积公式为：

所述的VGG卷积神经网络包含5个卷积层。

3.如权利要求1所述的图像描述方法，其特征在于，所述的利用Faster R-CNN网络来提取图片中的局部图像特征的方法包含：

4.如权利要求1所述的图像描述方法，其特征在于，所述的全局-局部特征融合算法的表达式为：

5.如权利要求1所述的图像描述方法，其特征在于，所述的带有注意力机制的双向长短时记忆网络处理图像融合特征的方法包含：

δ_i＝softmax(f_att(h_i，s_j))

f_att(h_i，s_j)＝tanh(W₁h_i+W₂s_j)

x_t＝W_ωθ_t

e_t＝f(W_ex_t+b_e)

6.如权利要求1所述的图像描述方法，其特征在于，所述的对图像描述语句进行纠正的方法包含：

使用softmax函数从局部图像特征中获得目标名词；

从初步的图像描述语句中解析获得描述名词；

7.如权利要求6所述的图像描述方法，其特征在于，所述的使用softmax函数从局部图像特征中获得目标名词的方法包含：

式中的分母充当了正则项的作用，使得：

8.如权利要求6所述的图像描述方法，其特征在于，所述的从初步的图像描述语句中解析获得描述名词的方法包含：

9.如权利要求6所述的图像描述方法，其特征在于，所述的利用WordNet计算目标名词和描述名词的相似度的方法包含：

feature(SW)＝{{W_S}，{W_C}}

词汇相似度计算方法由下式表示：