CN104239897A

CN104239897A - 一种基于自编码器词袋的视觉特征表示方法

Info

Publication number: CN104239897A
Application number: CN201410448549.7A
Authority: CN
Inventors: 冀中; 刘青
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2014-09-04
Filing date: 2014-09-04
Publication date: 2014-12-24
Anticipated expiration: 2034-09-04
Also published as: CN104239897B

Abstract

一种基于自编码器词袋的视觉特征表示方法：输入训练样本构成训练集；对训练集中的每个训练样本进行预处理，减小光照、噪声等对图像表示准确度的影响；生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典；使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征；将图像的局部特征依据视觉字典量化为视觉单词；统计视觉单词的频率，生成视觉单词直方图，所述视觉单词直方图即为图像的全局视觉特征表示。本发明既利用自编码器自主学习特征表达的特点，又通过BoVW框架降低了对训练样本数量的要求。

Description

一种基于自编码器词袋的视觉特征表示方法

技术领域

本发明涉及一种多媒体分析、机器视觉等领域的视觉特征表示方法。特别是涉及一种基于自编码器词袋的视觉特征表示方法。

背景技术

视觉表示是多媒体分析、机器视觉等领域的重要问题之一，它深刻地影响着多媒体检索、图像分类、场景分析、目标识别等诸多现实应用问题。近年来，随着网络技术的飞速发展，越来越多的数字图像开始充斥人们的生活，如何准确地表示这些视觉数据(特别是在大数据环境下)，已经成为一个迫切需要解决的问题。

词袋(Bag of Words,BoW)模型最初应用于文档检索和分类领域，其基本思想是：统计语料库(corpus)中的所有单词组成字典，对于每一篇文档依据字典统计其中单词出现的频次，用由这些单词频率组成的直方图来表示这篇文档。BoW模型因其简单而有效的优点得到了广泛的应用，计算机视觉领域的研究者们将同样的思想应用到多媒体分析、机器视觉等领域，建立了由文本分析技术向视觉分析领域的过渡，相应的方法称作视觉词袋(Bag of VisualWords,BoVW)。

BoVW主要包含局部特征提取，视觉字典建立，局部特征量化，图像表示等四个步骤。其中最关键的就是局部特征的提取和视觉字典的建立。比较经典的方法是使用SIFT(Scale-Invariant Feature Transform)描述子。SIFT是David Lowe于1999年提出的局部描述子，并于2004年进行了进一步的完善。在此之后，相关研究领域的研究者们针对SIFT算法提出了大量改进方法。虽然SIFT特征对平移、旋转等具有良好的不变性，然而，该算法及其改进方法所提取的局部特征都是手工设计的特征，并不是从数据中自主学习到的特征，因而难以挖掘数据本质结构，尤其在大数据环境下，手工设计的特征局限性比较大。

深度学习模型是近些年研究的热点，它通过构建多层神经网络以及利用大量的训练数据提升特征表达的能力。在深度学习领域中，堆叠自编码器(Stacked Autoencoder，SAE)是一个重要的模型。SAE是由自编码器(Autoencoder，AE)堆叠而成的深度模型。在训练SAE时，一般都以整个图像作为网络的输入，并且使用全连接，即第一个隐层的每个神经元都与输入图像的所有像素连接，因而图像的尺寸对整个网络参数的数量有很大的影响，若图像的尺寸较大，将导致参数非常多。由于深度架构的固有属性(含有较多的隐层)以及使用整个图像作为输入等原因，导致SAE仅适用于图像尺寸较小、训练样本较多的情况，而在图像尺寸比较大、样本个数比较少的情况下，深度网络(不仅仅是SAE)很容易过拟合，因而难以学习到有效的特征。

在基于深度网络的特征表示方法中，由于深度网络含有大量参数，在训练样本较少的情况下容易出现过拟合问题；在基于视觉词袋的特征表示方法中，一般使用SIFT等人工设计的特征，因而难以发现数据内在的结构。

发明内容

本发明所要解决的技术问题是，提供一种结合视觉词袋框架以及自编码器，以达到有效利用数据内在结构、提高特征表示能力的基于自编码器词袋的视觉特征表示方法。

本发明所采用的技术方案是：一种基于自编码器词袋的视觉特征表示方法，包括如下步骤：

1)输入训练样本构成训练集；

2)对训练集中的每个训练样本进行预处理，以减小光照、噪声等对图像表示准确度的影响；

3)生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典；

4)使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征；

5)将图像的局部特征依据视觉字典量化为视觉单词；

6)统计视觉单词的频率，生成视觉单词直方图，所述视觉单词直方图即为图像的全局视觉特征表示。

步骤2)所述的预处理是采用均值归一化或方差归一化进行的。

步骤3)所述的生成视觉字典具体过程包括：

(1)从预处理后的训练集中随机选取多个训练样本，再从所述的每个训练样本中随机采集图像块；

(2)将第(1)步采集的图像块作为自编码器的输入，训练自编码器；

(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中，得到所述随机采集图像块的特征；

(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典。

第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像，再从所述图像中随机采集一个p×p大小的图像块，重复N_p次后可以得到一个p²×N_p的矩阵，所述的矩阵用于自编码器的训练，其中p和N都是大于1的整数。

第(2)步所述的训练，是以J_sparse(W,b)为目标函数，使用反向传播算法求得J_sparse(W,b)对神经网络中每个参数的偏导数，再结合无约束优化算法，从而训练得到一个用以提取图像局部特征的自编码器，其中，

J_{sparse} (W, b) = [\frac{1}{N} Σ_{i = 1}^{N} J (W, b; x^{(i)})] + \frac{λ}{2} Σ {W_{ij}}^{2} + β Σ_{j = 1}^{S_{2}} ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}

式中，N是随机图像块的总数，x⁽ⁱ⁾表示第i个随机图像块，W是自编码器的权重参数矩阵，W_ij表示第i层第j个神经元的权重参数，b是自编码器的偏置参数向量，J(W,b；x⁽ⁱ⁾)表示输入第i个随机图像块时自编码器的代价函数，λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数，S₂是隐藏层神经元的个数，表示隐藏层第j个神经元的平均激活度，ρ为稀疏性参数。

本发明的一种基于自编码器词袋的视觉特征表示方法，主要是针对现有的基于深度神经网络的特征表示方法参数多、需要大量样本等不足以及传统BoVW算法使用手工设计特征等不足，结合BoVW框架和无监督学习算法。其特点如下：

1、新颖性：首次把无监督学习中的自编码器引入到BoVW框架中。既利用自编码器自主学习特征表达的特点，又通过BoVW框架降低了对训练样本数量的要求。

2、有效性：大量实验证明了算法的有效性。本发明的方法特征表示能力有所提升，这是因为自编码器提取特征是由数据驱动而不是基于手工设计的。

3、适用性：本发明设计的基于自编码器词袋的特征表示算法具有更强的适用性，这是因为本方法使用自编码器提取的是图像的局部特征，即使在训练样本较少的情况下，只要采集足够多的随机图像块就能完成自编码器的训练。

4.实用性：简单可行，可以用于常见的多媒体分析、机器视觉等领域，如图像分类、人脸识别、目标识别等。

附图说明

图1是自编码器神经网络示意图；

其中X＝[x₁,x₂,...,x₆]表示输入；表示神经网络的输出，也就是对输入X的重建；“+1”表示神经元的偏置；h_W,b(x)为***函数，layer L₁表示第一层，layer L₂表示第二层，layer L₃表示第三层；

图2是本发明基于自编码器词袋的视觉特征表示方法的流程图；

图3是是视觉字典生成过程流程图；

图4是本发明的图像分类应用示意图。

具体实施方式

下面结合实施例和附图对本发明的一种基于自编码器词袋的视觉特征表示方法做出详细说明。

本发明的一种基于自编码器词袋的视觉特征表示方法，主要是在传统的基于视觉词袋的特征表示方法基础上，首次使用无监督学习中的自编码器来提取图像的局部特征，以替代手工设计的特征，本发明称基于自编码器词袋的视觉特征表示方法为Bag of Autoencoder Words(BOAEW)。BOAEW融合了视觉词袋框架和无监督特征学习方法，提高了特征表示能力。

在有监督学习中，训练样本是有类别标签的，相对的，在无监督学习中，训练集合没有类别信息。现在假设一个没有带类别标签的训练集合{x⁽¹⁾,x⁽²⁾,x⁽³⁾,...,x^(N)}，其中表示第i个样本，N为样本个数。自编码器是一种无监督学习算法，它尝试学习一个h_W,b(x)≈x的函数，其中x为输入，W和b是自编码器的参数(权重和偏置)，h_W,b(x)为网络的输出。换句话说，它尝试逼近一个恒等函数，从而使得输出接近于x。图1是一个自编码器的示意图。具体来讲，对于单个样本x，其代价函数为：

J (W, b; x) = \frac{1}{2} {| | h_{W, b} (x) - x | |}^{2}

因此可以定义整体的代价函数：

J (W, b) = [\frac{1}{N} Σ_{i = 1}^{N} J (W, b; x^{(i)})] + \frac{λ}{2} Σ {W_{ij}}^{2}

其中第一项是均方误差项；第二项是权重衰减项，其目的是减小权重幅度，防止过拟合。一般来说，将偏置项包含在权重衰减项中只会对最终的神经网络产生很小的影响，所以上式权重衰减项只包含权重。

恒等函数虽然看上去不太有学习意义，但是为自编码器加入某些限制，就可以从输入数据中发现内在结构。如果当神经元的输出接近于1的时候认为被激活，而输出接近于0的时候认为被抑制，那么使得神经元大部分时间都是被抑制的限制被称为稀疏性限制。

使用来表示在给定输入为x的情况下，自编码器隐藏神经元j的激活度，进一步，令

{\hat{ρ}}_{j} = \frac{1}{N} Σ_{i = 1}^{N} [a_{j}^{(2)} (x^{(i)})]

表示隐藏神经元j的平均激活度。为了实现稀疏性限制，在原来的代价函数中加入一个额外的惩罚因子：

Σ_{j = 1}^{S_{2}} ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}

其中ρ为稀疏性参数，通常是一个接近于0的较小的值，S₂为隐藏层神经元的个数。最小化这一惩罚因子具有使得靠近ρ的效果。

加入稀疏性限制之后的自编码器的最终代价函数为：

J_{sparse} (W, b) = [\frac{1}{N} Σ_{i = 1}^{N} J (W, b; x^{(i)})] + \frac{λ}{2} Σ {W_{ij}}^{2} + β Σ_{j = 1}^{S_{2}} ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}

其中β是控制稀疏惩罚项权重的系数。

本发明的一种基于自编码器词袋的视觉特征表示方法，如图2所示，包括如下步骤：

1)输入训练样本构成训练集；

2)对训练集中的每个训练样本进行预处理，以减小光照、噪声等对图像表示准确度的影响，所述的预处理是采用均值归一化或方差归一化进行的；

3)生成视觉字典，是利用自编码器提取随机图像块特征，再使用聚类方法把所述的随机图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典。所述的生成视觉字典具体过程包括：

所述的随机采集图像块，是每次从所有样本中随机选取一张图像，再从该图像中随机采集一个p×p大小的图像块，重复N_p次后可以得到一个p²×N_p的矩阵，该矩阵用于自编码器的训练，其中p和N都是大于1的整数。

(2)将第(1)步采集的图像块作为自编码器的输入，训练自编码器。使用上述p²×N_p的矩阵作为自编码器的输入，结合BP算法和无约束优化算法(例如：BFGS算法)进行训练，当训练次数足够大时(例如：400次)便认为该网络训练完成。所述的训练具体是：

以J_sparse(W,b)为目标函数，使用反向传播算法求得J_sparse(W,b)对神经网络中每个参数的偏导数，再结合无约束优化算法，从而训练得到一个用以提取图像局部特征的自编码器，其中，

J_{sparse} (W, b) = [\frac{1}{N} Σ_{i = 1}^{N} J (W, b; x^{(i)})] + \frac{λ}{2} Σ {W_{ij}}^{2} + β Σ_{j = 1}^{S_{2}} ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}

式中，N是随机图像块的总数，x(ⁱ)表示第i个随机图像块，W是自编码器的权重参数矩阵，W_ij表示第i层第j个神经元的权重参数，b是自编码器的偏置参数向量，J(W,b；x⁽ⁱ⁾)表示输入第i个随机图像块时自编码器的代价函数，λ和β分别是控制权重衰减项和稀疏惩罚项的权重系数，S₂是隐藏层神经元的个数，表示隐藏层第j个神经元的平均激活度，ρ为稀疏性参数。

与传统的自编码器训练方式不同，本发明在训练神经网络时使用的是局部图像块而不是整个图像，因而极大地降低了对训练样本个数的要求。

(3)再次将第(1)步随机采集的图像块输入到已训练完成的自编码器中，得到所述随机采集图像块的特征，即，当自编码器训练完成以后，把用以神经网络训练的图像块再次输入到网络中，输出就是图像块的特征。图像块的二次利用避免了采样工作的重复，提高了效率；

(4)使用聚类方法把所述的随机采集图像块的特征聚类成若干视觉单词，所有视觉单词组成了视觉字典。使用聚类方法，将图像块的特征聚为K类，这K个视觉单词就构成了视觉字典。本发明使用Elkan K-means。

图3为视觉字典生成过程流程图。这时，因为不需要额外的图像块训练视觉字典，所以既节省了计算量，也节约了存储空间。

4)在得到视觉字典之后，使用滑窗的方式对训练集里的图像依次采集图像块，并将所采集的图像块作为自编码器的输入，自编码器的输出即为图像的局部特征；

5)将图像的局部特征依据视觉字典量化为视觉单词；

与传统的视觉词袋最大的不同在于，本发明的一种基于自编码器词袋的视觉特征表示方法，使用自编码器自主学习到图像的局部特征，因此特征表达能力更强。

下面结合图4给出具体例子，如图4所示是图像分类的例子：

假设有一个训练集

S = {(x_{i}^{(j)}, y_{i}) | i = 1,2, . . ., C; j = 1,2, . . ., N_{i}; Σ N_{i} = N},

其中表示第i类中的第j个样本，y_i为相应的标签，C为类别个数，N_i为第i类样本个数，N为训练集中样本总数。利用BOAEW进行图像分类的步骤如下：

1)对S中的图像进行预处理；

2)从N个样本中每次随机选取一个图像，再从该图像中随机采集一个p×p大小的图像块，重复N_p次后可以得到一个p²×N_p的矩阵M_p；

3)利用M_p训练自编码器；

4)自编码器训练完成以后，再次使用M_p作为网络的输入得到随机图像块的特征F_p；

5)使用K-means等方法对F_p进行聚类，得到K个聚类中心o₁,o₂,…o_K，这K个聚类中心就组成了视觉词袋O＝{o₁,o₂,...,o_K}；

6)利用3)中所得的自编码器对S中的所有样本提取局部特征。令表示第i类中的第j个样本的局部特征集合；

7)依据视觉词袋O，将中每个局部特征量化为某个视觉单词；

8)统计图像视觉单词的频次，得到即为第i类中的第j个样本的BOAEW特征。因而，新的训练集可以表示为

S^{'} = {(h_{i}^{(j)}, y_{i}) | i = 1,2, . . ., C; j = 1,2, . . ., N_{i}; Σ N_{i} = N};

9)使用S'训练一个线性SVM；

10)测试时，根据1)至8)步，提取BOAEW特征，再利用9)中训练所得的SVM进行分类。

Claims

1.一种基于自编码器词袋的视觉特征表示方法，其特征在于，包括如下步骤：

1)输入训练样本构成训练集；

5)将图像的局部特征依据视觉字典量化为视觉单词；

2.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，步骤2)所述的预处理是采用均值归一化或方差归一化进行的。

3.根据权利要求1所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，步骤3)所述的生成视觉字典具体过程包括：

4.根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，第(1)步所述的随机采集图像块。是每次从所有样本中随机选取一张图像，再从所述图像中随机采集一个p×p大小的图像块，重复N_p次后可以得到一个p²×N_p的矩阵，所述的矩阵用于自编码器的训练，其中p和N都是大于1的整数。

5.根据权利要求3所述的一种基于自编码器词袋的视觉特征表示方法，其特征在于，第(2)步所述的训练，是以J_sparse(W,b)为目标函数，使用反向传播算法求得J_sparse(W,b)对神经网络中每个参数的偏导数，再结合无约束优化算法，从而训练得到一个用以提取图像局部特征的自编码器，其中，

J_{sparse} (W, b) = [\frac{1}{N} Σ_{i = 1}^{N} J (W, b; x^{(i)})] + \frac{λ}{2} Σ {W_{ij}}^{2} + β Σ_{j = 1}^{S_{2}} ρ \log \frac{ρ}{{\hat{ρ}}_{j}} + (1 - ρ) \log \frac{1 - ρ}{1 - {\hat{ρ}}_{j}}