CN104021224A

CN104021224A - 基于逐层标签融合深度网络的图像标注方法

Info

Publication number: CN104021224A
Application number: CN201410290316.9A
Authority: CN
Inventors: 徐常胜; 袁召全; 桑基韬
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2014-06-25
Filing date: 2014-06-25
Publication date: 2014-09-03

Abstract

本发明公开了一种基于逐层标签融合深度网络的图像标注方法，该方法包括以下步骤：对于训练集中的训练图像，提取其底层视觉特征；对于训练图像的标签进行层级化，构建标签的层级结构；对于训练图像，逐层融合其底层视觉特征信息和标签信息，并通过深度网络参数学习，得到训练图像的层级特征表示；对于测试集中的测试图像，提取其底层视觉特征，然后通过深度网络学习得到其层级特征表示，最后根据测试图像的层级特征表示预测其标注信息本发明所述的图像标注方法属于一种层级的标注，比传统的标注方法更加精确。

Description

基于逐层标签融合深度网络的图像标注方法

技术领域

本发明涉及社交网络图像标注技术领域，尤其涉及一种基于逐层标签融合深度网络的图像标注方法。

背景技术

近年来，随着社交媒体的不断发展，社交平台上的图像数量呈***式增长，如何对海量的社交图像进行标注成为网络多媒体领域重要的研究内容。

目前主流的图像标注方法主要集中在基于视觉信息的方法，该类方法首先进行底层特征提取，然后利用机器学习模型来对基于特征表示的图像进行分类。该类方法在一定程度上取得了较好的效果，然而由于仅利用视觉信息而忽视了其上下文的文本信息，其效果仍不够理想。

图像标注的核心在于利用图像相关的信息(包括视觉，上下文文本标签信息等)进行图像内容的理解，融合图像的标签信息和视觉信息，得到更加有表达能力的图像特征，对图像标注，特别是社交图像有重要的促进作用。然而，视觉特征和文本标签信息的异构性，给两类信息的融合带来了挑战，本发明提出的基于逐层标签融合深度网络的图像标注方法逐层地融合两类信息，解决了异构信息融合的难题，对于社交图像标注有着重要的作用。

发明内容

为了解决现有技术中存在的上述问题，本发明提出了一种基于逐层标签融合深度网络的图像标注方法。

本发明提出的一种基于逐层标签融合深度网络的图像标注方法包括以下步骤：

步骤1、对于训练集中的训练图像，提取其底层视觉特征X；

步骤2、对于所述训练图像的标签进行层级化，构建标签的层级结构；

步骤3、对于所述训练图像，逐层融合其底层视觉特征信息和标签信息，并通过深度网络参数学习，得到所述训练图像的层级特征表示；

步骤4、对于测试集中的测试图像，提取其底层视觉特征，然后通过所述深度网络学习得到其层级特征表示，最后根据所述测试图像的层级特征表示预测其标注信息。

互联网图像标注在很多重要的相关领域已经有了广泛的应用。由于视觉顶层信息与高层语义之间的语义鸿沟的存在，基于视觉的图像标注是一个具有挑战性的难题。本发明提出的上述基于逐层标签融合深度网络的图像标注的方法能够自动对社交图像进行标注，另外本发明层级的标注方法比传统的标注方法更加精确。

附图说明

图1是根据本发明一实施例的基于逐层标签融合深度网络的图像标注方法的流程图；

图2是标签层级示例图；

图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

本发明所提出的方法所涉及的相关数据集包括：1)训练集，其中包括图像以及该图像所对应的社交标签；2)测试集，仅包括待标注的测试图像，而没有标签信息。

考虑到图像底层视觉信息和社交标签信息的异构性，本发明提出了一种基于逐层标签融合深度网络的图像标注方法。该方法的核心思想是在深度网络的框架下，逐层地进行标签信息和视觉信息的融合，从而学习图像的层级特征，为图像的标注提供特征表示。

图1示出了本发明提出的基于逐层标签融合深度网络的图像标注方法流程图，如图1所示，所述方法包括：

步骤1、对于训练集中的训练图像，提取其底层视觉特征；

下面详细介绍上述四个步骤的具体执行过程。

步骤1中，对象的底层视觉特征提取是得到对象的初始表示，对于图像信息，本发明优选采用尺度不变特征变换特征(SIFT)(比如1000维)作为图像的底层视觉特征，图像的底层视觉特征用X来表示。

步骤2中，利用一些可以用的工具，本发明优选WordNet，对于图像的社交标签构建层数为K的标签层级。比如：若某图像带有标签animal,plant,cat,dog,flower,则对应的标签层级如图2所示(此处层数为2)。

所述步骤3为对于训练图像，逐层融合其底层视觉特征信息和标签信息，并通过深度网络参数学习，得到所述训练图像的层级特征。

步骤3中，构建层数为L(L>K)的深度网络，并使标签层级结构的K层对应深度网络的最高层。设深度网络各层的变量表示为h={h^（0)，...，h^(L)}，其中，h⁽⁰⁾表示图像的底层视觉特征X；K层的标签层级结构对应的各个层的变量表示为y={y^(L-K+1)，...，y^(L)}。

该步骤是本发明的重要部分，图3是根据本发明一实施例的逐层特征融合深度网络的模型结构图，参照图3，所述步骤3可以分为以下几个子步骤：

步骤3.1：通过构建自编码器(auto-encoder)，基于重构误差对于深度网络中从h⁽⁰⁾层到h^(L-K+1)层的参数进行初步调整；

所述步骤3.1进一步包括以下步骤：

步骤3.1.1：从h⁽⁰⁾层向上到h^(L-K+1)层，在每相邻两层之间构建一个自编码器，通过所述自编码器可由下一层的表示得到上一层表示的映射；

比如，基于h^(l-1)和h^(l)层之间的自编码器，由h^(l-1)层的表示可映射得到h^(l)层的表示：

h^{(1)} = s (W_{h}^{(l - 1)} h^{(l - 1)} + b^{(l)}) - - - (1)

其中，表示h^(l-1)和h^(l)层之间的权重参数，b^(l)表示h^(l)层的偏置(bias)参数，s()表示logistic函数：

这样由h^(l-1)层的表示通过映射就可得到h^(l)层的表示。

步骤3.1.2：由上一层表示映射回来得到下一层的重构表示；

比如，由h^(l)的表示映射回来可得到h^(l-1)的重构表示z：

z = s (W_{h}^{' (l - 1)} h^{(l)} + b^{'}) - - - (2)

其中，为的转置表示，b′表示h^(l-1)的偏置(bias)参数。

步骤3.1.3：根据正确表示与重构表示之间的差错，对于所述深度网络的参数进行调整。

比如通过最小化z与h^(l-1)层表示之间的重构差错就可实现对于所述深度网络参数的初步调整，在本发明一实施例中，优选使用最小化重构交叉熵来对上述参数进行初步调整：

其中，k表示z的分量的下标，D^(l-1)表示z的维数。

如此进行下去，一直调整到h^(L-K+1)层。

步骤3.2：对于所述深度网络中的h^(L-K+1)层到最高h^(L)层，结合深度网络中的某一层，比如h^(l)层和标签层级结构中的相应层，比如u^(l)层，进行特征融合以及所述深度网络中相应参数的调整；

该步骤又可以分为两个子步骤：(以h^(l)为例)

步骤3.2.1：利用所述标签层级结构中的y^(l)层标签调整所述深度网络中从h⁽⁰⁾到h^(l)层的参数；

该步骤中，首先计算交叉熵损失：

Loss ({W, b}) = - Σ_{n = 1}^{N} Σ_{k = 1}^{K} t_{nk} \ln y_{nk} - - - (4)

其中，N表示样本的数目，K表示该层的标签的个数，y_nt表示模型对第n个样本的预测的第k维的值，t_nk表示训练样本中第n个样本的第k维的真实的值。

然后将该损失反过来对深度网络从h⁽⁰⁾到h^(l)层进行参数调整，在本发明一实施例中，采用著名的后向传播算法进行全局参数调整。

步骤3.2.2：通过h^(l)层和y^(l)层表示合并学习得到h^(l+1)层的特征表示；

该步骤中，将h^(l)层和y^(l)层的表示合并起来，与h^(l+1)层的表示构成一个自编码器(auto-encoder)：

h^{(l + 1)} = s (W_{h}^{(l)} h^{(l)} + W_{y}^{(l)} y^{(l)} + b^{(l + 1)}) - - - (5)

同样，h^(l)，y^(l)和h^(l+1)之间的参数通过最小化重构交叉熵来优化。

如此进行下去，一直到h^(L)层。

通过上述逐层的特征融合，就可以将图像的标签信息融合到视觉信息中，同时深度网络的参数也得到了优化。

步骤4中，利用参数已经优化的深度网络，对于测试集中的测试图像进行标注。

所述步骤4进一步分为以下几个子步骤：

步骤4.1：对于测试图像提取其底层视觉特征X_test，该步骤与步骤1中对训练集中的训练图像提取底层视觉特征的方法类似；

步骤4.2：利用优化参数后的深度网络，得到所述测试图像底层视觉特征X_test的层级特征表示{h^(L-K+1)，...，h^(L)}；

步骤4.3：利用该层级特征表示预测所述测试图像的标签信息{h^(L-K+1)，...，h^(L)}：

y_{i}^{(l)} = \frac{\exp (W_{i}^{T} h_{i}^{(l)})}{Σ_{j} \exp (W_{j}^{T} h_{j}^{(l)})} - - - (6)

其中，W_i表示标签与特征h^(l)之间的权重。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于逐层标签融合深度网络的图像标注方法，其特征在于，该方法包括以下步骤：

步骤1、对于训练集中的训练图像，提取其底层视觉特征X；

2.根据权利要求1所述的方法，其特征在于，所述训练图像的底层视觉特征为其尺度不变特征变换特征。

3.根据权利要求1所述的方法，其特征在于，所述深度网络的层数为L，标签层级结构的层数为K，其中，L>K，所述深度网络各层的变量表示为h={h⁽⁰⁾，...，h^(L)}，其中，h⁽⁰⁾表示图像的底层视觉特征X；所述标签层级结构对应各层的变量表示为y={y^(L-K+1)，...，y^(L)}。

4.根据权利要求3所述的方法，其特征在于，所述步骤3包括以下步骤：

步骤3.1：通过构建自编码器，基于重构误差对于深度网络中从h⁽⁰⁾层到h^(L-K+1)层的参数进行初步调整；

步骤3.2：对于所述深度网络中的h^(L-K+1)层到最高h^(L)层，结合深度网络中的某一层，比如h^(l)层和标签层级结构中的相应层，比如y^(l)层，进行特征融合以及所述深度网络中相应参数的调整。

5.根据权利要求4所述的方法，其特征在于，所述步骤3.1进一步包括以下步骤：

步骤3.1.2：由上一层表示映射回来得到下一层的重构表示；

步骤3.1.3：根据正确表示与重构表示之间的差错，对于所述深度网络的参数进行调整，直到h^(L-K+1)层。

6.根据权利要求5所述的方法，其特征在于，所述步骤3.1.3中，使用最小化重构交叉熵来对所述深度网络的参数进行调整。

7.根据权利要求4所述的方法，其特征在于，所述步骤3.2进一步包括以下步骤：

步骤3.2.1：利用所述标签层级结构中的某一层y^(l)标签调整所述深度网络中从h⁽⁰⁾到h^(l)层的参数；

步骤3.2.2：通过h^(l)层和y^(l)层表示合并学习得到h^(l+1)层的特征表示，并对所述深度网络的相应参数进行调整，直至h^(L)层。

8.根据权利要求7所述的方法，其特征在于，所述步骤3.2.1和步骤3.2.2中，基于交叉熵损失，利用后向传播算法对于所述深度网络进行参数调整。

9.根据权利要求7所述的方法，其特征在于，所述步骤3.2.2中，将h^(l)层和y^(l)层的表示合并起来，与h^(l+1)层的表示构成一个自编码器。

10.根据权利要求1所述的方法，其特征在于，所述步骤4进一步包括以下步骤：

步骤4.1：对于测试图像提取其底层视觉特征；

步骤4.2：利用所述深度网络，得到所述测试图像底层视觉特征的层级特征表示；

步骤4.3：利用所述测试图像的层级特征表示预测所述测试图像的标签信息。