CN105631479A

CN105631479A - 基于非平衡学习的深度卷积网络图像标注方法及装置

Info

Publication number: CN105631479A
Application number: CN201511021328.2A
Authority: CN
Inventors: 张文生; 杨阳
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-12-30
Filing date: 2015-12-30
Publication date: 2016-06-01
Anticipated expiration: 2035-12-30
Also published as: CN105631479B

Abstract

本发明公开了一种基于非平衡学习的深度卷积网络图像标注方法及装置，该方法包括：步骤1、对于待识别图像做预处理，以获得待识别图像的原始像素；步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中，得到所述待识别图像的深度特征表示信息；步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息。本发明所述的图像标注方法，不仅考虑到了图像字典词汇的分布，而且通过深度卷积网络对图像的原始像素进行逐层提取，比传统的标注方法更加精确。

Description

基于非平衡学习的深度卷积网络图像标注方法及装置

技术领域

本发明涉及图像标注技术领域，尤其涉及一种基于非平衡学习的深度卷积网络图像标注方法。

背景技术

大数据时代，人们可以访问获取的信息资源呈现出***式的增长，互联网上每天都诞生海量的图像和视频信息。为了有效地组织、查询与浏览如此大规模的图像资源，图像检索技术应运而生。基于文本的图像检索(Text-BasedImageRetrieval，TBIR)是一种重要的图像检索方法。对TBIR来说，它要求用户提交文本作为查询，因此，图像检索需要事先获取图像的文本语义信息。图像的标签是一种有效获取图像的语义信息的方法，它应用广泛，例如在社交媒体中大量的图像被用户标记信息。然而互联网上同时存在大量的图像未被标记信息，因此人们期望利用含有标签图像通过某种算法自动生成缺失信息图像的标签。因此如何对海量的社交图像进行标注成为网络多媒体领域重要的研究内容。

目前主流的图像标注方法主要集中在基于视觉信息的方法，该类方法首先进行底层特征提取，如图像的SIFT特征，然后利用机器学习模型(聚类，支撑向量机等)来对基于特征表示的图像进行分类。虽然该类方法在一定程度上取得了较好的效果，然而当前图像标注方法依旧存在两个不足。首先，图像标注的效果强烈的依赖于人工特征提取的特征表示能力。图像标注是通过特定的方法图像的底层特征与高层语义特征的映射关系，当获取的图像底层特征表示能力不足时，无法准确的建立上述映射关系。其次，图像的标注词汇通常是分布不均匀的，一些通用词汇如“动物”或者“植物”等出现的频率较高，而一些抽象的词汇如“倒影”或者“打架”等出现频率较低。传统的图像标注算法在标注过程中容易忽略低频词汇而造成对图像的描述不完备。

图像标注的核心在于如何提取图像的更本质的特征表示，图像的更本质的特征拥有更强的表示能力的图像特征，对社交图像的理解有重要的促进作用。然而，如何设计更强大的图像特征，并考虑到图像类别标签的分布非均匀性，一直是图像标注领域的难点。本发明提出的基于非平衡学习的深度卷积网络图像标注方法，通过逐层特征提取的方法从图像的原始像素信息获得图像的深度特征，同时依据图像标签的词频解决了图像标签的分布非均匀性，对互联网图像标注有着重要作用。

发明内容

针对上述问题，为了解决现有技术中存在的上述问题，本发明提出了一种基于非平衡学习的深度卷积网络图像标注方法及装置。本发明主要解决了现有技术中的两个难题：特征提取与词汇非均匀分布。

根据本发明一方面，提供了一种基于非平衡学习的深度卷积网络图像标注方法，该方法包括以下步骤：

步骤1、对于待识别图像做预处理，以获得待识别图像的原始像素；

步骤2、将所述待识别图像的原始像素输入至深度卷积神经网络中，得到所述待识别图像的深度特征表示信息；

步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息；

其中，步骤2中所述深度卷积神经网络为预先训练好的，其通过下述方式训练得到：

步骤201、对于训练集中的训练图像做预处理；

步骤202、对于所述训练集中所述训练图像对应的标签计算词频，依据词频获取每幅训练图像所对应标签的监督信息；

步骤203、构建深度卷积神经网络，所述深度卷积神经网络包括多个隐层，所述隐层包括卷积层、降采样层和全连接层；

步骤204、将所述训练集中的训练图像作为所述深度卷积神经网络的输入，通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数；

其中，所述网络模型参数包括所述深度卷积神经网络中每层的网络权重和偏置参数，所述网络权重和所述偏置参数根据每次训练得到的深度卷积神经网络预测的标签分布和本次训练输入的训练图像所对应标签的监督信息确定的目标函数迭代更新。

根据本发明另一方面，提供了一种基于非平衡学习的深度卷积网络图像标注装置，包括：

预处理模块，对于待识别图像做预处理，以获得待识别图像的原始像素；

识别模块，将所述待识别图像的原始像素输入至深度卷积神经网络中，得到所述待识别图像的深度特征表示信息；

标注信息输出模块，利用所述深度特征表示信息预测所述待识别图像的标注信息；

其中，识别模块中所述深度卷积神经网络为预先训练好的，其通过下述方式训练得到：

对于训练集中的训练图像做预处理；

对于所述训练集中所述训练图像对应的标签计算词频，依据词频获取每幅训练图像所对应标签的监督信息；

构建深度卷积神经网络，所述深度卷积神经网络包括多个隐层，所述隐层包括卷积层、降采样层和全连接层；

将所述训练集中的训练图像作为所述深度卷积神经网络的输入，通过反向传播算法有监督的学习所述深度卷积神经网络的网络模型参数；

互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息与高层语义之间的语义鸿沟的存在，基于视觉的图像标注是一个具有挑战性的难题。本发明提出的上述基于非平衡学习的深度卷积网络图像标注方法能够自动对社交图像进行标注，另外本发明的标注方法比传统的标注方法更加精确。通过逐层特征提取的方法从图像的原始像素信息获得图像的深度特征，同时依据图像标签的词频解决了图像标签的分布非均匀性，对互联网图像标注有着重要作用。

附图说明

图1是根据本发明一实施例的基于非平衡学习的深度卷积网络图像标注方法的流程图；

图2是根据本发明一实施例的深度卷积网络的模型结构图；

图3是根据本发明一实施例的降采样池化过程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图1，对本发明进一步详细说明。

本发明提出了一种基于非平衡学习的深度卷积网络图像标注方法及装置。

首先，本发明构建深度卷积网络提取图像的深度特征。深度卷积网络主要包括三个组成部分：卷积层，降采样层和全连接层。卷积层用可训练的卷积核去卷积输入的图像(第一阶段是输入的图像，后面的阶段就是特征图了)，然后加一个偏置，得到卷积层。卷积层在同一特征映射面上的神经元权值相同，降低了网络的复杂性。降采样层将每邻域n个像素通过池化(pooling)步骤变为一个像素。降采样可以获得某种程度的位移、尺度、形变鲁棒性。通过全连接层的非线性变换，可以对图像的特征做进一步的抽取。最后考虑到图像标注词汇之间的相关性，选用Logistic分类器预测图像标签的概率分布。深度卷积网络避免了对图像显式的特征提取，通过训练数据隐式的学习图像特征。同时深度卷积网络的结构与图像的拓扑结构相吻合，在处理图像问题上有着独特的优势。

其次，本发明利用图像的标签词汇的频率优化卷积神经网络的目标函数。传统图像标注方法对不同词频的词汇同等对待，造成低频词汇在标注过程中容易丢失。本发明通过计算图像标签词典中所有词汇的出现频率，优化深度卷积网络的目标函数，对低频的词汇给予更大的损失权重。这样保证了在整个训练集中，不同词频的词汇造成的损失是平衡的。

本发明所提出的方法所涉及的相关数据集包括：1)训练集，其中包括图像以及该图像所对应的社交标签；2)测试集，仅包括待标注的测试图像，而没有标签信息。

考虑到图像底层视觉信息和社交标签信息的异构性，本发明提出了一种基于逐层标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下，逐层地进行标签信息和视觉信息的融合，从而学习图像的层级特征，为图像的标注提供特征表示。

图1示出了本发明提出的基于非平衡学习的深度卷积网络图像标注方法的流程图，如图1所示，所述方法包括：

步骤1、对于待识别图像做预处理，以获得待识别图像的原始像素；所述预处理包括尺度变换和标准化，用于提取图像的底层像素特征；其中，所述训练集中包括多个训练图像以及所述多个训练图像对应的标签；所述底层像素特征包括：图像的灰度值或者RGB三通道数值等；

步骤3、利用所述深度特征表示信息预测所述待识别图像的标注信息。

其中，步骤2中所述深度卷积神经网络为预先训练好的，其包括卷积层、降采样层和全连接层，其中所述深度卷积神经网络通过下述方式获得：

步骤201、对于训练集中的训练图像做预处理，所述预处理包括尺度变换和标准化，用于提取图像的底层像素特征；其中，所述训练集中包括多个训练图像以及所述多个训练图像对应的标签；所述底层像素特征包括：图像的灰度值或者RGB三通道数值等；

步骤204、将所述训练集图像中的训练图像作为所述深度卷积神经网络，通过反向传播算法学习所述深度卷积神经网络的网络模型参数。

下面详细介绍上述步骤的具体执行过程。

对于步骤1和201中，对待识别图像和训练集中的训练图像进行同样的预处理。优选地。所述预处理包括：对图像进行尺度变换和标准化处理，可尺度变换和标准化要求将图像的尺度变换为标准尺度(如256×256)，和对图像的像素值做标准化(训练集中的每幅图像像素值减去所有图像的均值并除以方差)。本发明优选图像的原始像素点作为所述深度卷积神经网络的输入，保存了图像最完整的信息，图像的像素特征用X表示。

步骤202中，对训练集中的训练图像对应的所有标签构成的标签字典统计词频。

假设训练集中图像数目为N，图像标签字典的长度为M，定义T_i，j(i＝1，2，...，N；j＝1，2，...，M)为第i幅图像的标签信息，其中T_i，j＝1表示第i幅图像包含图像标签字典中第j个标签。第j个标签的出现次数为那么第i幅图像的监督信息，可由下式计算

Y_{i, j} = (T_{i, j} / C_{j}) / \underset{j}{m a x} (T_{i, j} / C_{j}); j = 1, 2, ..., M

其中在训练深度卷积网络的时候，监督信息用来计算网络输出与监督信息的偏差。

所述步骤203为利用训练图像，训练深度卷积神经网络的模型参数。

步骤203中，构建包含L层隐藏层的深度卷积神经网络，其中包括L_C层卷积层，L_S层降采样层和L_F层全连接层，一般的L_C＝L_S且L＝L_C+L_S+L_F。然后，使步骤203中的监督信息对应为深度卷积网络的监督层(此处所谓的对应指的是将监督信息赋值到监督层上，计算监督信息Y与网络输出h^L+1的偏差)。设深度卷积网络各层的变量表示为h＝{h⁰，h¹...，h^L，h^L+1}，其中h⁰表示输入图像的底层视觉特征X，即获取的图像原始像素特征，表示矩阵特征，表示一维向量特征，h^L+1表示深度卷积网络输出的图像标签信息。

该步骤是本发明的重要组成部分，图2为根据本发明实施的逐层特征提取的深度卷积网络的模型结构图，参照图2，图2为卷积神经网络的通用示意图，所述步骤203包括以下步骤

步骤3.1：通过卷积计算提取输入图像的局部特征。所述卷积神经网络中，从h¹层向上到层，在h^2k与h^2k+1层之间构建一个卷积层，其中k＝0，...，L_C-1。通过所述卷积变换可由下层的表示得到上一层表示的映射。

比如，基于h^2k与h^2k+1层之间的卷积变换，由h^2k层表示可映射得到h^2k+1层的表示：

h^{2 k + 1} = σ (h^{2 k} * W_{2 k + 1, j}^{C} + b_{2 k + 1, j}), j = 1, ..., N_{k}

其中，为第2k+1层第j个卷积核矩阵(C_2k+1×C_2k+1的方阵)，b_2k+1，j为第2k+1层第j个偏置参数，N_k表示第2k+1层卷积核的个数。σ()表示ReLU函数，形式为σ(x)＝max(0，x)。

这样由h^2k层的表示通过映射就可以得到h^2k+1的表示。

步骤3.2：通过池化对图像的局部特征做降采样。所述卷积神经网络总从h²层向上到层，在h^2k+1与h^2k+2层之间构建有一个降采样层，其中k＝0，...，L_S-1。通过所述池化变换可由下层的表示得到上一层表示的映射。

比如，基于h^2k+1与h^2k+2层之间的池化变换。设池化步长为S_2k+2，如图所示，对输入矩阵h^2k+1(假定维数为B×C)，每隔S_2k+2个元素选取S_2k+2×S_2k+2区域内的最大值为该区域的输出，那么输出矩阵h^2k+2的维数为其中表示向上取整。

这样由h^2k+1层表示可映射得到h^2k+2层的表示。具体如图3所示，图3为根据本发明实施例的降采样池化过程实例示意图。

重复执行步骤3.1和3.2中的所述卷积操作和降采样操作，最终输出输入图像的局部特征；

步骤3.3：通过全连接层对所提取的局部特征做进一步的逐层特征提取。所述卷积神经网络从层到层，在每相邻两层之间构建一个非线性变换，通过所述非线性变换可由下一层的表示得到上一层表示的映射；

比如，基于和层之间的非线性变换，由层的表示可映射得到层的表示：

h^{L_{C} + L_{S} + k + 1} = σ (h^{L_{C} + L_{S} + k} \times W_{L_{C} + L_{S} + k + 1}^{F} + b_{L_{C} + L_{S} + k + 1})

其中，为第L_C+L_S+k+1层的变换权重，为第L_C+L_S+k+1层的偏置参数，σ()表示ReLU函数，形式如步骤3.2所示。

这样由层的表示通过映射就可以得到的表示。

步骤3.4：通过分类器层预测图像的标签分布。从h^L层到h^L+1层构建一个logistic(逻辑斯蒂克)分类器，通过所述分类器可以得到网络的输出h^L+1：

h^L+1＝f(h^L×W_L+1+b_L+1)

其中，W_L+1为第L+1层的变换权重，b_L+1为第L+1层的偏置参数，f()表示logistic函数，具体形式为f(x)＝1/(1+e^-x)

这样h^L+1层网络可以看出图像标签的分布概率。

所述步骤204中定义深度卷积网络的目标函数J，并通过反向传播算法有监督的最小化该目标函数，即利用前面得到的监督信息来最小化所述目标函数，从而整体优化整个卷积网络的参数。

网络的目标函数J定义为步骤202中计算得到的监督信息Y与深度卷积网络预测的标签分布h^L+1的交叉熵：

J＝-[(Ylog(h^L+1))+(1-Y)log(1-h^L+1)]

其中，利用梯度下降算法来最小化目标函数J，从而以迭代的方式对(W，b)进行调整：

W_{l} &LeftArrow; W_{l} - λ \frac{\partial J}{\partial W_{l}}

b_{l} &LeftArrow; b_{l} - λ \frac{a J}{\partial b_{l}}, l = 1, ..., L + 1

其中，λ为参数更新的学习率，W_l为卷积层和全连接层中的权重，b_l为卷积层和全连接层中的偏置。对于上式的求解方法在Rumelhart等人1986年发表在Nature上的文章"Learningrepresentationsbyback-propagatingerrors"中有具体介绍。

步骤2中，利用训练好的深度卷积神经网络，获得待识别图像的深度特征表示信息(h¹，...，h^L)。

步骤3中，利用所述深度卷积神经网络得到的待识别图像的深度特征表示信息，作为分类器的输出得到测试图像的标签信息的分布：h^L+1＝f(h^L×W_L+1+b_L+1)。

之后对待识别图像的标签信息的概率分布h^L+1进行排序，将前K个且的词汇作为待识别图像的标签，其中，ξ为标签生成的概率阈值，一般设为0.1。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于非平衡学习的深度卷积网络图像标注方法，其特征在于，该方法包括以下步骤：

步骤201、对于训练集中的训练图像做预处理；

2.如权利要求1所述的方法，其中步骤202中每幅训练图像所对应标签的监督信息如下计算：

假设训练集中训练图像数目为N，图像标签字典的长度为M，定义T_i，j(i＝1，2，...，N；j＝1，2，...，M)为第i幅图像的标签信息，其中T_i，j＝1表示第i幅图像包含标图像标签字典中第j个标签，第j个标签的出现次数为那么第i幅图像的监督信息，可由下式计算：

Y_{i, j} = (T_{i, j} / C_{j}) / \underset{j}{m a x} (T_{i, j} / C_{j}); j = 1, 2, ..., M .

3.如权利要求1所述的方法，其中，步骤203中所构建的深度卷积神经网络包括L_C层卷积层，L_S层降采样层和L_F层全连接层，其中L_C＝L_S，所构建的深度卷积神经网络的中间层数L＝L_C+L_S+L_F；深度卷积网络各层的变量表示为h＝{h⁰，h¹...，h^L，h^L+1}，其中h⁰表示输入图像的图像原始像素特征，表示矩阵特征，表示一维向量特征，h^L+1表示深度卷积神经网络输出的图像标签信息。

4.如权利要求3所述的方法，其中，步骤203具体包括：

步骤2031：在h^2k与h^2k+1层之间构建卷积映射，其中k＝0，...，L_C-1，所述卷积映射如下表示：

h^{2 k + 1} = σ (h^{2 k} * W_{2 k + 1, j}^{C} + b_{2 k + 1, j}), j = 1, ..., N_{k}

其中，为第2k+1层第j个卷积核矩阵，b_2k+1，j为第2k+1层第j个偏置参数，N_k表示第2k+1层卷积核的个数；σ()表示ReLU函数，形式为σ(x)＝max(0，x)；

步骤2032：在h^2k+1与h^2k+2层之间构建池化映射，以将h^2k+1层表示映射得到h^2k+2层的表示，其中k＝0，...，L_S-1；

步骤2033：从层到层，在每相邻两层之间构建一个非线性变换，通过所述非线性变换由层的表示得到的表示，其中k＝0，...，L_S-1；

步骤2034：从h^L层到h^L+1层构建一个分类器，通过所述分类器得到深度卷积神经网络的输出h^L+1：

h^L+1＝f(h^L×W_L+1+b_L+1)

其中，W_L+1为第L+1层的变换权重，b_L+1为第L+1层的偏置参数，f(x)＝1/(1+e^-x)。

5.如权利要求1所述的方法，其中，步骤2中所述深度卷积神经网络对所输入的待识别图像进行如下的识别过程：

利用所述深度卷积神经网络中的卷积层和降采样层对所输入的待识别图像逐层提取输入图像的局部特征；

步骤2032；将所提取的局部特征利用所述深度卷积神经网络中的多个全连接层做进一步的特征提取；

步骤2033：将最后一个全连接层输出的特征作为所述深度卷积神经网络的输出，即所述待识别图像的深度特征表示信息。

6.如权利要求1所述的方法，其中，所述步骤204包括：

步骤2041：应用所述深度卷积神经网络输出的预测标签与训练图像的真实标签之间的交叉熵损失来定义所述深度卷积神经网络的目标函数；

步骤2042：通过反向传播算法，最小化所述深度卷积神经网络的目标函数，更新网络模型参数。

7.如权利要求6所述的方法，其中，步骤2014中所述目标函数定义为所述监督信息与所述深度卷积神经网络输出的预测标签的交叉墒：

J＝-[(Ylog(h^L+1))+(1-Y)log(1-h^L+1)]

其中，J为目标函数，h^L+1为所述深度卷积神经网络输出的预测标签，Y为所述监督信息；

步骤2042中利用梯度下降算法最小化所述目标函数，从而迭代的方式对所述网络模型参数进行如下更新：

W_{l} &LeftArrow; W_{l} - λ \frac{\partial J}{\partial W_{l}}

b_{l} &LeftArrow; b_{l} - λ \frac{\partial J}{\partial b_{l}}, l = 1, ..., L + 1

其中，λ为参数更新的学习率，W_l为所述深度卷积神经网络中卷积层和全连接层中的权重，b_l为所述深度卷积神经网络中卷积层和全连接层中的偏置。

8.一种基于非平衡学习的深度卷积网络图像标注装置，其特征在于，包括：

对于训练集中的训练图像做预处理；