CN108460426A

CN108460426A - 一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法

Info

Publication number: CN108460426A
Application number: CN201810269829.XA
Authority: CN
Inventors: 尹乾; 冯思博; 郭平
Original assignee: Beijing Normal University
Current assignee: Beijing Normal University
Priority date: 2018-03-29
Filing date: 2018-03-29
Publication date: 2018-08-28

Abstract

本发明公开一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法，包括(1)采用方向梯度直方图(HOG)提取图像梯度特征，计算图像的方向图，通过HOG算子统计若干重叠局部区域的方向特征，得到图像的HOG特征。我们设定不同的HOG算子的参数得到若干HOG特征，将这些特征融合成高维的特征向量。(2)使用伪逆学习算法训练堆栈自编码器(PILAE)，将上步骤中融合成的高维特征放入PILAE中继续学习特征。(3)将在PILAE中学习的特征放到分类器中进行分类。HOG可以提取图像二维的信息。伪逆学习算法是一种非迭代方法，用于训练多层前馈神经网络。本发明提出的模型，训练时间较其他模型有优势，大多数超参数由输入数据和网络结构自行决定，不需要手动设定。

Description

一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法

技术领域

本发明属于人工智能技术领域，涉及一种图像特征提取结合快速训练深度神经网络的方法，特别涉及方向梯度直方图结合伪逆学习训练堆栈自编码器的模型用于图像分类任务。

背景技术

近年来，深度学***得到很大的提升，使得深度学习再次兴起。

深度学习通过模拟人脑处理数据流程，是从给出的训练数据中使用包含复杂结构或由多重非线性变换构成多个处理层数据进行高层抽象的方法。目前，深度学习在图像视频、声音和文本识别中取得了突破性的进展，比浅层学习算法具有更强的学习能力。除了强大的函数拟合能力和很好的泛化能力，深度学习每层学习表现出了从底层特征到高层特征的过程。

在数据***的互联网时代，每天产生大量的无标注的数据，而训练深度模型往往需要大量的带有标签的数据，创建一个完备的带标签的数据集需要耗费大量的人力和时间。目前，深度学习大部分模型都为有监督，比如带标签的多层前馈神经网络，卷积神经网络等；无监督模型主要为自编码器。无监督学习的好处在于数据不需要标注，模型可以自动的学习特征，因此，发展无监督深度学习是深度学习的未来发展方向。

发明内容

(1)有鉴于此，本发明要解决的技术问题是提供一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器组成的模型，用于图像分类。该模型首先使用图像人工特征提取方法方向梯度直方图提取特征，之后连接伪逆学习训练的堆栈自编码器进一步提取特征，然后将特征放入分类器中分类。

(2)本发明为解决上述问题，提出如下技术方案：

1)采用方向梯度直方图(HOG)提取图像的梯度特征。方向梯度直方图是计算机视觉中用于图像检测目标的特征描述算子。HOG通过统计图像局部的梯度方向信息，得到整幅图像的外形和轮廓信息特征。HOG首先将图像划分成若干网格结构(block)，细胞单元(cell)在每个block中计算梯度信息，为了更好的描述图像梯度特征，HOG采用了局部重叠计算。由于不同的cell大小、不同的block大小和不同的滑动步长提取的特征不同。我们使用若干不同大小的cell、block和滑动步长参数来提取不同的HOG特征，然后将这些特征拼接成一个高维的特征向量。这个思想类似于卷积神经网络中，使用不同的卷积核提取不同的feature map。

2)使用伪逆学***教授提出的一种用于高效训练单隐层前馈神经网络的算法(Guo et al,“An ExactSupervised Learning for a Three-Layer Supervised Neural Network”,ICONIP'95,pp.1041-1044,1995.)，在2001年扩展到多层神经网络(Guo et al,“PseudoinverseLearning Algorithm for Feedforward Neural Networks”,in Mastorakis Eds.,Advances in Neural Networks and Applications,WSES Press(Athens)pp.321-326,2001.)。PIL算法思想是使用输入矩阵的伪逆矩阵代替权重，替代梯度下降算法。PIL通过矩阵运算，快速训练多层神经网络，相比梯度下降算法效率更高。具体地，当一个多层的神经网络有N个样本，每个样本有m维数，输入矩阵为X，期望目标为O,我们训练神经网络的目的是寻找一组参数，使得损失函数的值达到最小：

其中，g(x,Θ)是神经网络的映射函数，Θ是参数集合。我们可以用下式来表示多层神经网络第l层与第l+1层之间的关系。

Y^l+1＝σ(Y^lW^l)，

其中σ(·)是激活函数，Y^l代表第l层的输出。这样最后一层网络输出我们可以如下表示：

G＝Y^LW^L，

在这个式子中G是目标输出，W^L代表最后一层的权重。综合上述三个式子，我们可以将损失函数改写为下式：

这样，这个问题变成了线性最小二乘问题。上式的最优伪逆解为W＝(Y^L)⁺O，把最优解带入损失函数，我们可以将损失函数重新写成如下形式：

由上式可知，只需Y^L(Y^L)⁺接近单位阵I，损失函数即为最优解，因此，我们重新设定优化目标其中e是我们设定的误差阈值，在计算中只要平方误差小于该阈值，即视为达到优化目标。训练过程中，计算每层的||Y^l(Y^l)⁺-I||²，如果小于设定的阈值e，训练完成，算法结束，否则增加一个隐层，继续计算平方误差，直到收敛到设定的阈值范围内或者训练的隐层数达到设定的层数。

在训练过程中，我们在损失函数中加入正则化项，避免由于数据量不足导致过拟合。引入权重衰减正则化后，优化目标更改为：

其中，λ＞0为正则化系数，由上式，可以得出(Y^L)⁺＝(YY^T+λΙ)^-1Y^T。

(3)本发明的优点在于：

不需要设定超参数：本发明中HOG算子的个数、cell大小和block大小由手工设定；PILAE中隐层数由损失函数决定，当误差上升或达到用户设定的层数时训练停止；隐层单元数由输入矩阵的秩决定，通常输入矩阵的特征维数大于矩阵的秩，我们降低矩阵的维数消除冗余数据，减少相关特征，当输入矩阵的特征维数等于矩阵的秩的时候，我们以一定比例强制降低矩阵的维数，达到特征学习的目的；由于PILAE不需要梯度下降优化算法和迭代优化，故无需设定学习率和学习回合数；本发明神经网络的权重是输入矩阵的伪逆矩阵，故不需要初始化权重；

训练时间短：本发明使用不同的HOG算子提取不同的HOG特征最后组成高维特征向量。给定HOG算子参数，只需逐张图片提取特征拼接成高维的特征即可。后面连接PILAE进行进一步特征学习，其中PILAE训练不需要迭代优化，只需线性代数计算即可完成训练，相比其他神经网模型反复迭代，更新参数，在训练时间上本发明具有优势。而且本发明模型中不需要调节超参数，所以对于使用者来说，不仅训练时间快，而且节省了许多花费在调试超参数的时间。

AI民主化：现如今，许多网络模型在图像分类数据集上取得了很小的错误率，但当用户将网络模型应用到自己的实际使用场景中，往往得不到理想的效果。往往还需要调节许多网络参数，训练很长时间。调节神经网络参数对于专业人员来说是一件很难的事情，更何况没有专业背景的人。本发明使用简单，不需要复杂的调参，更有助于AI民主化。

附图说明

图1方向梯度直方图结合伪逆学习训练堆栈自编码器结构示意图

具体实施方式

(1)以下将结合附图，对本发明的优选实施例进行详细描述：

本发明提出了一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法。为了使本发明的目的、技术方案及优点更加清楚明白，以下结合具体实施实例及附图对该方法进一步详细描述。应当理解，此处具体实施实例的描述仅用以解释本发明，并不用于限定本发明。

具体地，图1所示是本发明实施实例的一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器结合用于手写体数字分类的方法。对于给定的N张n×n像素大小的图片组成训练样本集X，矩阵表示为X＝[x¹,x²,…,x^N]。本发明的实施实例的基于方向梯度直方图结合伪逆学习训练堆栈自编码器图像分类方法包括以下基本步骤：

步骤1)选用t个HOG描述算子，逐张图像提取HOG特征，这些算子的参数cell大小、block大小和梯度方向各不相同。将t个算子提取的特征向量连接成m维的特征向量组成特征矩阵F用于训练PILAE，矩阵表示为F＝[f¹,f²,…,f^N]。

步骤2)将上述特征矩阵F作为自编码器的输入矩阵，求解F的伪逆矩阵F⁺，首先将F进行奇异值分解得到

F＝UΣV^T

输入矩阵的秩r＝Rank(Σ)，其中Rank()函数是计算Σ中不为0的元素个数，输入特征向量的维数m＝Dim(f)，其中Dim()函数是计算特征向量特征个数。我们设置自编码器的隐层单元个数p为r<p<m。如果矩阵的秩r小于特征向量的维数m，则将隐层单元数p设定在r<p<m之间：

p＝r+α(m-r)

其中，α为用户自定的参数。当矩阵满秩，即矩阵的秩和特征维数相等，为了特征学习，强制降低特征维数使得p<m:

p＝βm

其中，β为用户自定的参数。

步骤3)根据PIL算法，首先将F进行SVD分解，得到

由F＝UΣV^T得其中，Σ'为Σ中不为零的元素的倒数。

为V截断后的矩阵，

V＝[v₁,v₂，…,v_p，…，v_m]^T，

其中p为步骤2)中设置的隐层单元数。然后，令W_e＝F⁺，将矩阵映射到隐层的特征空间中：

H＝σ(W_eF)

其中σ(·)为激活函数。

步骤4)根据伪逆学习求解解码器权重。自编码器解码器权重W_dH＝X，根据最小二乘存在最优伪逆近似解W_d＝XH⁺，因此计算隐层输出H的伪逆H⁺。伪逆学习的损失函数定义如下：

minE＝||X-WH||²

为了避免模型过拟合，我们增加了权重衰减正则化项，损失函数修改如下：

求解损失函数最小值，得到：

minE＝-(X-WH)H^T+kW＝0

W＝XH^T(ΗΗ^T+kI)-¹

步骤5)通过步骤4)获得解码器权重W_d，将解码器权重的转置作为编码器的权重这样，自编码器的隐层的输出H＝σ(W_eF)表示原始数据的特征表示，将隐层输出作为下一个自编码器的输入数据，重复步骤(1-4)训练下一个自编码器。当达到用户的要求后，停止训练，将训练好的自编码器打开，组成堆栈自编码器，将解码器部分去掉，最后的输出就是原始数据的特征，在后面放到分类器中进行分类。

(2)实施实例

为了证明本发明切实可行，我们使用机器学习常用的数据集检验模型的性能。并与相关模型进行比对实验。

实验所用的数据库是手写体数据库(THE MNIST DATABASE of handwrittendigits)，MNIST现被业界公认为检测分类算法性能优良的标准数据集。我们使用MNIST检测本发明的模型性能。MNIST由Yann LeCun等人创建的包含0～9手写体数字图像数据集，数据集共包含70000张手写体数字图像，其中60000张训练图像，10000张检测图像，每张图像都经过去背景预处理，并且被对其到28×28＝784个像素的图像上。我们使用经典的机器学习、神经网络模型和本发明的模型基于方向梯度直方图结合伪逆学习训练堆栈自编码器进行对比，结果如图表1所示。

对比其余模型可以看出，本发明提出的模型在训练时间上有明显的优势，并且取得了很好的识别精度。

模型	训练耗时(秒)	训练精度(％)	测试精度(％)
				SAE	298.43	97.53	96.72
Lenet-5	523.43	100.00	98.33
				SVM	2583.82	98.72	96.46
HOG	30.83	94.88	94.32
				PILAE	62.32	97.32	96.39
HOG+PILAE	92.58	98.82	98.01

表1

以上所述仅为本发明的优选实施例，并不用于限制本发明，显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法，包括以下步骤：

1)使用方向梯度直方图提取图像的梯度特征，这里使用若干不同参数的HOG算子提取不同的梯度特征，然后将这些不同的特征级联成高维特征。

2)使用伪逆学习算法训练堆栈自编码器(PILAE)，将步骤1)的高维特征作为模型输入，进一步学习特征。

3)将PILAE训练出的特征输入到分类器中进行图像分类。

2.根据权利要求1所述的，使用方向梯度直方图提取图像梯度信息，其特征在于，步骤1)所采用的方向梯度直方图是用来提取图像的梯度特征，其特点是设定了多个HOG描述算子的参数，提取不同的梯度特征，将这些特征融合成高维的特征向量。

3.根据权利要求1所述，基于方向梯度直方图结合伪逆学习训练堆栈自编码器的图像分类方法，其特征在于，步骤2)中所采用的伪逆学习算法是一种无迭代算法，用于训练多层前馈神经网络，其特点是没有反向传播，无需迭代优化，网络的权重由输入矩阵的伪逆矩阵决定，将均方误差作为损失函数，在网络的最后一层采用最小二乘求解最后一层权重。

4.根据权利要求1所述，使用伪逆学习算法训练自编码器的隐层单元数是由输入矩阵的秩确定的，输入特征向量的维数m＝Dim(f)，Dim()函数是计算特征向量特征个数和输入矩阵的秩r＝Rank(Σ)，其中Rank()函数是计算Σ中不为0的元素个数，我们将m和r建立联系，设定自编码器的隐层单元个数p为r<p<m。如果矩阵的秩r小于特征向量的维数m，则将隐层单元数p设定在r<p<m之间：p＝r+α(m-r)，其中，α为用户自定的参数，当矩阵满秩，即矩阵的秩和特征维数相等，为了特征学习，我们强制降低特征维数使得p<m：p＝βm，其中，β为用户自定的参数。

5.根据权利要求1所述，伪逆学习算法训练堆栈自编码器的隐层数是由定义的公式自动确认的：其中e为设定的阈值，计算每层的训练误差，当小于设定阈值，训练停止。