CN107665356A

CN107665356A - 一种图像标注方法

Info

Publication number: CN107665356A
Application number: CN201710969648.3A
Authority: CN
Inventors: 吕学强; 董志安; 李宝安
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2017-10-18
Filing date: 2017-10-18
Publication date: 2018-02-06

Abstract

本发明涉及一种图像标注方法，包括以下步骤：步骤1)定义图像标注模型的目标函数；步骤2)将图像输入CNN模型，得到原始图像特征；步骤3)对原始图像特征进行加权；步骤4)向LSTM模型中输入信息；步骤5)对预测结果产生的误差进行反向传播。本发明提供的图像标注方法，首先通过卷积神经网络提取图像底层特征，然后使用聚焦机制提取图像特定位置区域与图像标注词相关的图像特征输入到长短期记忆网络模型中，生成相应的预测标注词，最终实现图像标注，标注性能优异，标注精度高，可以很好地满足实际应用的需要。

Description

一种图像标注方法

技术领域

本发明属于图像处理技术领域，具体涉及一种图像标注方法。

背景技术

近年来，研究人员一直致力于研究计算机对图像的语义理解。自动图像标注是让计算机自动对图像中的实体标注关键词，它是图像检索领域中的一种关键技术。随着多媒体信息技术和互联网信息技术的迅速发展，每天数以亿计的新图像呈现在互联网上。和文本相比，图像可以更加直观、更加精确地描述信息，因此在如今信息***的时代，图像能使用户更方便、更快捷、更精确地获取所需信息。图像信息逐渐成为当下时代信息传播的最重要的途径之一。因此，如何在如此海量的图像数据中帮助用户迅速准确地找出所需图像成为近年来多媒体信息技术领域内的研究热点。自动图像标注技术作为图像检索领域内的关键技术之一，成为众多研究人员研究的重要课题。

自动图像标注作为图像检索领域里的重要技术，有较高的研究意义和商用价值。自动图像标注技术自2000年被提出以来，众多研究人员投身于相关研究中，很多自动图像标注方法被提出，虽然这些方法在一定程度上提高了图像检索的精确性和效率。但是，由于图像“语义鸿沟”的存在，目前的以自动图像标注技术为基础的检索***准确率依然不够理想，自动图像标注技术依然处在发展阶段，标注性能不够好、标注精度不够高是现有技术的缺陷。现如今图像信息已经成为互联网传播信息的重要途径。目前，全球规模最大的图像分享平台Flicker用户接近10亿，包含上百亿张图像。能够在如此庞大的图像库里快速精准地检索到用户需求的图像，是如今大数据时代的迫切需求，而当前大多数自动图像标注技术在如此庞大的图像库中普遍效果较差，所以研究大数据下的新的自动图像标注技术意义重大。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于提供一种标注性能优异、标注精度高的的图像标注方法。

为了实现上述发明目的，本发明提供的技术方案如下：

一种图像标注方法，包括以下步骤：

步骤1)定义图像标注模型的目标函数；

步骤2)将图像输入CNN模型，得到原始图像特征；

步骤3)对原始图像特征进行加权；

步骤4)向LSTM模型中输入信息；

步骤5)对预测结果产生的误差进行反向传播。

进一步地，步骤1)中的目标函数为其中y＝{y₁，…，y_N}，θ代表该模型中所有需要训练的参数，I代表图像；y代表最终预测的标注组合，即最终的标注词，K表示词汇表中词汇的数量，N代表标注词的个数。

进一步地，步骤2)中的原始图像特征为CNN全连接层之前的某层卷积层的特征图，该原始图像特征由L个D维特征组成，每个D维特征映射到原图像的不同位置区域。

进一步地，步骤3)包括利用聚焦权重向量α_t对原始图像特征进行加权，聚焦权重向量α_t是一个L维向量，每一维的值大小代表着图像不同位置特征的权重大小，

聚焦权重向量α_t＝softmax(W_ee_t)，其中，

e_t代表t时刻聚焦机制的中间状态信息，a代表原始图像特征，h_t-1代表t-1时刻LSTM模型的输出。

进一步地，步骤4)中，LSTM的输入信息x_t＝[W_yy_t-1，W_zz_t]，其中W_y为词编码参数，W_z为图像特征编码参数，其中y_t-1是图像的正确标注词，z_t是当前时刻使用聚焦权重参数加权后的图像特征。

进一步地，图像的正确标注词组Y＝(y₀，y₁，y₂…y_t…y_n)从t＝1时刻开始按顺序输入到LSTM模型当中，其中y₀是一个特殊的单词“start”，标志着标注过程的开始，y_n是另一个特殊单词“end”，标志着标注过程的结束；y_t-1经词向量编码参数W_y编码后输入到LSTM模型中；z_t经图像特征编码参数W_z编码后输入到LSTM模型中。

进一步地，正确标注词采用独热编码形式，由一个N维向量构成，N代表单词词典内的单词数目，除对应标注词位为1外，其余位为0。

进一步地，步骤5)包括利用损失函数将所有预测标注词标注正确的log似然概率值求和后取负数，所述损失函数定义为

进一步地，步骤5)还包括应用随机梯度下降法以及链式求导法则不断更新模型中的参数。

进一步地，LSTM模型的计算过程公式如下：

i_t＝σ(W_ixx_t+W_ihh_t-1)，

o_t＝σ(W_oxx_t+W_ohh_t-1)，

f_t＝σ(W_fxx_t+W_fhh_t-1)，

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_chh_t-1)，

h_t＝o_t⊙c_t，

y_t+1＝Softmax(W_yh_t)，

其中，σ(·)、h(·)是激活函数，⊙是矩阵点乘操作；i_t是输入门限，用来控制t时刻的输入信息；f_t是遗忘门限，用来控制对t-1时刻隐含层的记忆信息的选择性遗忘；o_t是输出门限，用来控制t时刻的输出信息；c_t是t时刻隐含层的记忆信息，它由上一时刻的隐含层信息和当前时刻的输入信息共同决定，它是LSTM的核心记忆单元；h_t是t时刻隐含层的输出信息；y_t+1是h_t经过softmax分类器得到的预测结果。

本发明提供的图像标注方法，针对有效缓解图像底层特征与高层语义之间存在的语义鸿沟问题，提出一种基于聚焦机制的深度神经网络图像标注方法，该方法首先通过卷积神经网络(CNN)提取图像底层特征，然后使用聚焦机制提取图像特定位置区域与图像标注词相关的图像特征输入到长短期记忆网络(LSTM)模型中，生成相应的预测标注词，最终实现图像标注；该方法借助聚焦机制，有效结合了CNN提取图像特征的能力以及LSTM提取图像语义特征的能力，能够利用图像底层特征和图像高层语义特征，可以更好地提取到与图像语义相关的图像特征，有效提高图像标注精度，标注性能优异，标注精度高，可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图；

图2为基于聚焦机制的深度神经网络图像标注模型的结构示意图；

图3为传统神经网络模型基本结构示意图；

图4为RNN神经网络模型常规结构示意图；

图5为LSTM网络单元内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本发明做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种图像标注方法，包括以下步骤：

步骤1)建立基于聚焦机制的的深度神经网络图像标注模型，定义该模型的目标函数：

其中，y＝{y₁，…，y_N}，θ代表该模型中所有需要训练的参数，I代表一张图像；y代表最终预测的标注组合，即最终的标注词，K表示词汇表中词汇的数量，N代表标注词的个数。图像标注模型的结构参照图2所示。

步骤2)将图像I输入CNN模型，得到原始图像特征a，

考虑到聚焦机制是对图像不同位置的特征进行加权，因此提取的原始特征应包含位置信息，CNN模型中全连接层之前各层的特征图与原图像存在位置上的映射关系。本发明选取CNN全连接层之前的某层卷积层的特征图作为原始图像特征，该原始图像特征由L个D维特征组成，每个D维特征映射到原图像的不同位置区域。

步骤3)利用聚焦权重向量对原始图像特征进行加权；

聚焦机制是实现对不同时刻对不同位置区域特征的关注度，这种对不同位置的关注通过聚焦权重α_t来控制。如图2所示，从t＝1时刻开始，每一个时刻该模型都会产生一个聚焦权重向量α_t。聚焦权重向量α_t是一个L维向量，其向量所有元素之和为1，即每一维的值大小代表着图像不同位置特征的权重大小。其计算公式如公式(4.4)、(4.5)所示，

α_t＝softmax(W_ee_t) (4.5)；

其中e_t代表t时刻聚焦机制的中间状态信息，当t＝0时，e₀从图像特征a中取得。当t＞0时，e_t由t-1时刻LSTM模型的输出h_t-1和t-1时刻聚焦机制的中间状态信息e_t-1共同决定。e_t-1可以理解为聚焦机制模型中的记忆模块，它记忆t时刻之前所有时刻对于图像位置区域的关注信息。这个过程可以直观理解为确定当前时刻要关注的图像位置区域需要借助之前时刻所关注的图像位置区域信息(由e_t-1提供)以及之前时刻记忆在LSTM模型中的语义信息(由h_t-1提供)。α_t由e_t经聚焦权重解码参数W_e解码后再经过softmax分类器得到。聚焦机制模型在训练开始时得到的聚焦权重α_t并不能将图像特征准确的聚焦到当前时刻预测标注词在图像中所处位置，即应用聚焦权重α_t得到的加权后的图像特征和准确地聚焦当前时刻预测标注词的加权图像特征是存在差距的。随着训练过程进行，聚焦机制模型中的参数W_a、W_h、W_e不断被更新，这种差距也就被不断地减小，最终聚焦机制模型可以实现准确的聚焦。

加权后输入到LSTM模型中的图像特征对于t时刻的z_t由原始图像特征a和t时刻聚焦权重α_t相乘得到，用来控制t时刻对于图像不同位置特征的关注度。对t时刻输入到LSTM模型的图像加权特征z_t所聚焦的位置就是t时刻LSTM模型的输出的预测标注词所处的位置。

步骤4)向LSTM模型中输入信息，将图像的正确标注词组以及加权后的图像特征输入LSTM模型中；

LSTM的输入信息x_t＝[W_yy_t-1，W_zz_t]，其中W_y为词编码参数，W_z为图像特征编码参数，x_t由两部分组成，其中y_t-1是图像的正确标注词(采用独热编码形式，由一个N维向量构成，N代表单词词典内的单词数目。除对应标注词位为1外，其余位为0)。图像的正确标注词组Y＝(y₀，y₁，y₂…y_t...y_n)从t＝1时刻开始按顺序输入到LSTM模型当中。其中y₀是一个特殊的单词“start”，标志着标注过程的开始。y_n是另一个特殊单词“end”，标志着标注过程的结束。y_t-1经词向量编码参数W_y编码后输入到LSTM模型中。x_t的另一部分是当前时刻使用聚焦权重参数加权后的图像特征z_t，z_t经图像特征编码参数W_z编码后输入到LSTM模型中。

每个时刻LSTM模型隐含层的输出信息h_t经过输出解码参数W_p解码后得到预测结果p_t+1，p_t+1＝g(W_p·h_t+b_p)，其中g(·)代表softmax分类器。p_t+1是使用LSTM模型得到的当前时刻LSTM模型输入标注词的下一个标注词的预测概率。然而通过p_t+1得到的预测标注词和当前时刻LSTM模型输入标注词的下一个正确标注词是存在差距的，即预测结果产生了误差。需要对这种误差进行反向传播，以保证随着模型的训练，LSTM模型每个时刻的预测结果与正确的预测结果差距越来越小，最终得到精度较高的图像标注模型。

步骤5)对预测结果产生的误差进行反向传播，将所有预测标注词标注正确的log似然概率值求和后取负数；

本模型训练过程是误差的反向传播，更新模型参数的过程，定义损失函数该损失函数是将所有预测标注词标注正确的log似然概率值求和后取负数的结果。

对于参数更新，应用随机梯度下降法(Stochastic Gradient Descent，简称SGD)以及链式求导法则。通过训练不断更新模型中的参数，使得损失值L(I，y)尽量小。这些参数包括LSTM模型内部参数，聚焦权重参数(W_a、W_h、W_e)，词编码参数W_y，图像特征编码参数W_z，输出解码参数W_p等(本发明直接使用训练好的CNN模型提取图像特征，因此不对CNN模型参数进行更新)，上述参数在模型训练的每个时刻都是参数共享的。

CNN是前馈神经网络的一种，它包含卷积层和池化层两种独特的隐含层结构。CNN具有较好的特征提取能力，目前它被广泛应用在图像、视频、语音等领域。

CNN具有独特的网络结构。其独特性主要体现在两个方面。一个方面时它的下一层神经元与上一层神经元之间不是全连接的，即其神经元之间是局部感知的。另一方面神经元连接过程中具有相同的权重，即神经元的连接是权重共享的。这种独特的局部感知和权重共享的网络结构与生物神经网络接近。这样的模型能够有效减少网络中的参数，有效降低网络的复杂度。CNN有两种独特的隐含层结构，即卷积层和池化层。CNN中某一层卷积层由多种卷积核组成，一个卷积核是一个M*M大小的滤波器，它用来提取上一层感受野中每个局部位置的某种局部特征。池化层用来对上一层卷积特征进行降维，具体操作是将上一层卷积特征划分成多个N*N的区域。提取每个区域的平均(或最大)的特征值作为降维后的特征。CNN通常在经过一系列卷积层、池化层、全连接层后通常会接入一个softmax分类器，用来处理多分类问题。

循环神经网络(Recurrent Neural Network，以下简称RNN)具有独特的记忆功能结构。神经网络模型包含输入层、隐含层、输出层三层结构。在传统的神经网络模型，从输入层到隐含层到输出层，每一层层内节点是无连接的，各层之间的节点是存在连接的，具体结构如图3所示。这种传统的神经网络模型并不包含记忆信息的功能，像一些需要借助已产生信息进行计算的问题是无能为力的。例如，如果对于一句话，要预测下一个出现的单词，大多情况下需要借助前面已经产生的词汇，比如“我是一个篮球运动员，我爱打篮球”这样一句话，后一句里面的“打篮球”需要通过前一句话中的“篮球运动员”推断出来。RNN模型可以将之前时刻产生的信息进行记忆并应用到当前时刻计算过程中，这得益于RNN相比于传统的神经网络模型在结构上发生的改变，RNN的隐含层的输入不仅包含当前时刻输入层的输出，还包含上一时刻隐含层的输出信息，即隐含层内部的节点是有连接的，具体结构信息如图4所示。

LSTM(Long Short-Term Memory，LSTM)是RNN模型的改进模型，它内部的单元结构如图5所示。LSTM模型的计算过程公式(3.1)-(3.6)所示。其中，σ(·)、h(·)是激活函数，⊙是矩阵点乘操作。i_t是输入门限，用来控制t时刻的输入信息。f_t是遗忘门限，用来控制对t-1时刻隐含层的记忆信息的选择性遗忘。o_t是输出门限，用来控制t时刻的输出信息。c_t是t时刻隐含层的记忆信息，它由上一时刻的隐含层信息和当前时刻的输入信息共同决定，它是LSTM的核心记忆单元。h_t是t时刻隐含层的输出信息。y_t+1是h_t经过softmax分类器得到的预测结果。

i_t＝σ(W_ixx_t+W_ihh_t-1) (3.1)；

o_t＝σ(W_oxx_t+W_ohh_t-1) (3.2)；

f_t＝σ(W_fxx_t+W_fhh_t-1) (3.3)；

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_chh_t-1) (3.4)；

h_t＝o_t⊙c_t (3.5)；

y_t+1＝Softmax(W_yh_t) (3.6)。

本发明提供的图像标注方法，针对有效缓解图像底层特征与高层语义之间存在的语义鸿沟问题，提出一种基于聚焦机制的深度神经网络图像标注方法，该方法首先通过卷积神经网络(CNN)提取图像底层特征，然后使用聚焦机制提取图像特定位置区域与图像标注词相关的图像特征输入到长短期记忆网络(LSTM)模型中，生成相应的预测标注词，最终实现图像标注；本图像标注方法的新的距离测度，融合了图像的语义信息，减小了图像底层特征与图像高层语义之间的差异，对于图像语义准确理解有重要意义，能够有效提高图像标注精度；该方法借助聚焦机制，有效结合了CNN提取图像特征的能力以及LSTM提取图像语义特征的能力，能够利用图像底层特征和图像高层语义特征，可以更好地提取到与图像语义相关的图像特征，有效提高图像标注精度，标注性能优异，标注精度高，可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种图像标注方法，其特征在于，包括以下步骤：

步骤1)定义图像标注模型的目标函数；

步骤2)将图像输入CNN模型，得到原始图像特征；

步骤3)对原始图像特征进行加权；

步骤4)向LSTM模型中输入信息；

步骤5)对预测结果产生的误差进行反向传播。

2.根据权利要求1所述的图像标注方法，其特征在于，步骤1)中的目标函数为

3.根据权利要求1-2所述的图像标注方法，其特征在于，步骤2中的原始图像特征为CNN全连接层之前的某层卷积层的特征图，该原始图像特征由L个D维特征组成，每个D维特征映射到原图像的不同位置区域。

4.根据权利要求1-3所述的图像标注方法，其特征在于，步骤3包括利用聚焦权重向量α_t对原始图像特征进行加权，聚焦权重向量α_t是一个L维向量，每一维的值大小代表着图像不同位置特征的权重大小。

聚焦权重向量α_t＝softmax(W_ee_t)，其中，

5.根据权利要求1-4所述的图像标注方法，其特征在于，步骤4)中，LSTM的输入信息x_t＝[W_yy_t-1，W_zz_t]，其中W_y为词编码参数，W_z为图像特征编码参数，其中y_t-1是图像的正确标注词，z_t是当前时刻使用聚焦权重参数加权后的图像特征。

6.根据权利要求1-5所述的图像标注方法，其特征在于，图像的正确标注词组Y＝(y₀，y₁，y₂...y_t...y_n)从t＝1时刻开始按顺序输入到LSTM模型当中，其中y₀是一个特殊的单词“start”，标志着标注过程的开始，y_n是另一个特殊单词“end”，标志着标注过程的结束；y_t-1经词向量编码参数W_y编码后输入到LSTM模型中；z_t经图像特征编码参数W_z编码后输入到LSTM模型中。

7.根据权利要求1-5所述的图像标注方法，其特征在于，正确标注词采用独热编码形式，由一个N维向量构成，N代表单词词典内的单词数目，除对应标注词位为1外，其余位为0。

8.根据权利要求1-7所述的图像标注方法，其特征在于，步骤5)包括利用损失函数将所有预测标注词标注正确的log似然概率值求和后取负数，所述损失函数定义为

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>I</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>log</mi> <mi> </mi> <msub> <mi>p</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

9.根据权利要求1-8所述的图像标注方法，其特征在于，步骤5)还包括应用随机梯度下降法以及链式求导法则不断更新模型中的参数。

10.根据权利要求1-9所述的图像标注方法，其特征在于，LSTM模型的计算过程公式如下：

i_t＝σ(W_ixx_t+W_ihh_t-1)，

o_t＝σ(W_oxx_t+W_ohh_t-1)，

f_t＝σ(W_fxx_t+W_fhh_t-1)，

c_t＝f_t⊙c_t-1+i_t⊙h(W_cxx_t+W_chh_t-1)，

h_t＝o_t⊙c_t，

y_t+1＝Softmax(W_yh_t)。