CN111401434B

CN111401434B - 一种基于无监督特征学习的图像分类方法

Info

Publication number: CN111401434B
Application number: CN202010173425.8A
Authority: CN
Inventors: 聂飞平; 陆继韬; 王榕; 李学龙
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-03-12
Filing date: 2020-03-12
Publication date: 2024-03-08
Anticipated expiration: 2040-03-12
Also published as: CN111401434A

Abstract

本发明提供了一种基于无监督特征学习的图像分类方法。首先，构建图块矩阵，并利用PCA算法学习滤波器组、进行特征图降维，再将输出作为输入，重复此过程以构建深层网络，得到两层降维后的特征图集合；然后，将降维后的特征图进行二值化，计算哈希值并分块统计直方图，得到原始图像的特征嵌入；接着，利用原始图像标签和特征嵌入对分类器进行训练；最后，对未标识的待分类图像计算特征嵌入并利用训练好的分类器进行处理，得到最终分类结果。

Description

一种基于无监督特征学习的图像分类方法

技术领域

本发明属机器学习和计算机视觉技术领域，具体涉及一种基于无监督特征学习的图像分类方法。

背景技术

随着计算能力的飞速提升和数据的***式增长，以卷积神经网络(ConvNet或CNN)为代表的深度学习方法在多种计算机视觉任务中取得了巨大的成功。众所周知，数据的特征提取对于机器学习的性能有着重要影响。CNN取得成功的主要原因之一，就是它通过级联的卷积滤波器提取图像多层次的语义信息，优于传统的手工设计的特征。CNN通常是有监督的，而网络上公开的免费数据集不一定适用于当前的任务，因此使用者通常需要付出高额的成本收集适用于欲完成任务的数据，并聘请人工对数据进行标记以便用于网络的训练。为了克服对数据标签的依赖，降低获取数据的成本，人们提出了许多无监督学习方法，即从大量未标记的图片和视频等样本中自动学习特征。使用无监督方法取代当前大规模应用的有监督方法，具有极高的经济价值与社会价值，是当前机器学习研究中的一个热点领域。

图像分类问题是计算机视觉中最基础、最重要也最具有挑战性的任务之一，是其他“高级”任务，如目标检测、语义分割、行人识别等的基础，提高图像分类的性能将间接提高其他数十项计算机视觉任务的性能。图像分类任务十分具有挑战性，主要原因是同一类图像中可能存在巨大的类内差异。

由于低级特征对类内差异的敏感性较低，人们曾花费了众多精力手工设计各种低级特征来克服类内差异。如文献“Jain A K,Farrokhnia F.Unsupervised texturesegmentation using Gabor filters[J].Pattern recognition,1991,24(12):1167-1186.”设计了用于纹理分类的特征，文献“Ahonen T,Hadid A,Pietikainen M.Facedescription with local binary patterns:Application to face recognition[J].IEEE Transactions on Pattern Analysis&Machine Intelligence,2006(12):2037-2041.”设计了用于面部分类的特征，文献“Lowe D G.Distinctive image features fromscale-invariant keypoints[J].International journal of computer vision,2004,60(2):91-110.设计特征用于物体分类，文献Dalal N,Triggs B.Histograms of orientedgradients for human detection[C].2005.”设计了用于行人检测的特征等等。尽管这些手工设计的特征在特定领域的任务中取得了巨大的成功，但绝大多数手工设计的特征无法简单适应新条件，为新任务设计有效的特征通常需要设计者拥有特定领域的知识。

从感兴趣的数据中学习特征被认为是对手工设计特征的补救措施，典型的是深度神经网络。深度神经网络的核心思想是学习多个层次的特征表示，希望高层的特征能表示数据中更多抽象的语义，而这些抽象表示对类内差异具有更强的鲁棒性。文献“Bruna J,Mallat S.Invariant scattering convolution networks[J].IEEE transactions onpattern analysis and machine intelligence,2013,35(8):1872-1886.”提出了小波散射网络，使用了类似CNN的级联卷积结构，但其滤波器组是简单的小波算子，不再需要学习滤波器参数，是一种无监督学习方法。尽管使用了固定的滤波器组，它在手写数字识别、纹理识别任务中仍展现了优越的性能。但是，该结构在人脸识别等光照条件变化明显的任务中泛化性能不够好。文献“Chan T H,Jia K,Gao S,et al.PCANet:A simple deeplearning baseline for image classification？[J].IEEE transactions on imageprocessing,2015,24(12):5017-5032.”提出了主成分分析网络(PCANet算法)，仍使用级联的卷积结构，但不再使用固定的滤波器组，而是使用PCA无监督地从数据中学习参数。该网络在特征学习阶段不使用标签，在手写数字识别、人脸识别等任务中取得了优异的效果。但是，该算法提取特征的维度随网络深度指数增加，很难通过提高深度来抽取层次更丰富的语义信息。

发明内容

为了克服现有技术的不足，本发明提供一种基于无监督特征学习的图像分类方法。首先，构建图块矩阵，并利用PCA算法学习滤波器组、进行特征图降维，再将输出作为输入，重复此过程以构建深层网络，得到两层降维后的特征图集合；然后，将降维后的特征图进行二值化，计算哈希值并分块统计直方图，得到原始图像的特征嵌入；接着，利用原始图像标签和特征嵌入对分类器进行训练；最后，对未标识的待分类图像计算特征嵌入并利用训练好的分类器进行处理，得到最终分类结果。本发明方法可以解决现有PCANet算法特征维度指数增长的问题，可以通过简单的线性PCA算子有效地提取图像的特征用于分类任务。

一种基于无监督特征学习的图像分类方法，其特征在于步骤如下：

步骤1：对于原始第i幅输入图像，i＝1,2,…,N，N为输入图像的数量，按照以下过程提取得到其降维后特征图集合其中，/>表示原始第i幅输入图像的第j幅降维后的特征图，j＝1,2,…,D₁，D₁为设定的目标维度：

步骤1.1：以步长为1的滑动窗口提取图像中以每个像素为中心的图像块，然后，将每个图像块拉伸为一维向量，并分别对每个向量进行去均值化处理，以每个去均值化后的向量作为矩阵的一列，得到矩阵X；其中，设输入图像的大小为p×p，所述的图像块的大小为k×k，k的取值范围为1＜k＜p；

步骤1.2：采用主成分分析算法求解一组标准正交基构成的正交矩阵V，满足：

其中，L₁为设定的滤波器个数，取值范围为1≤L₁＜k²；

将矩阵V的每一列由向量变换为k×k大小的矩阵，以变换得到的每个矩阵为一个滤波器，再将每个滤波器分别与原始输入图像做卷积运算，且通过补零操作使卷积后得到的特征图与原始图像大小相同，得到L₁幅大小为p×p的特征图；

步骤1.3：将步骤1.2输出的每幅特征图拉伸为一个一维向量，并以其作为矩阵的一行，得到原始特征图矩阵再采用主成分分析算法求解一组标准正交基构成的投影矩阵U₁，满足：

其中，D₁为设定的目标维度，取值范围为1≤D₁≤L₁；

按照计算得到降维后矩阵P，将P的每一个行向量变换为p×p大小的矩阵，每个矩阵即为一幅降维后的特征图，共得到D₁幅降维后的特征图，构成原始输入图像降维后的特征图集合；

步骤2：对于步骤1得到的每一个降维后特征图集合以其中的每一幅图像/>为输入图像，j＝1,2,…,D₁，并令步骤1.2中所述的滤波器个数为L₂，取值范围为1≤L₂＜k²，步骤1.3中所述的目标维度为D₂，取值范围为1≤D₂≤L₂，按照步骤1计算得到第二次降维后特征图集合/>

步骤3：对于步骤2得到的每一个特征图集合将其中的所有图像都进行二值化处理，使图像中所有的像素值为0或1，然后，提取不同图像中同一位置的所有像素点值构成一个长度为D₂的二进制串，对所有位置的像素点都如此进行提取，再将每一个二进制串转换为一个十进制数，并以每个十进制数作为其对应的二进制串所提取像素位置的新的像素值，得到一幅新图像，记为/>

至此，对于原始第i幅输入图像，得到一个新图像集合

步骤4：对于步骤3得到原始第i幅输入图像的新图像集合Γ_i，i＝1,2,…,N，将其中的每一幅图像以步长为s、大小为b×b的滑动窗口进行区块提取，其中，1≤b≤p，1≤s≤b，然后，分别在每个区块中统计含有个bin的直方图，再将所有直方图连接成一个向量；将集合中所有图像按前述过程得到的向量相连接，并以连接后的向量作为原始第i幅输入图像的特征嵌入；

对原始每一幅输入图像的新图像集合Γ_i，i＝1,2,…,N，都按照上述过程进行处理，得到其对应的特征嵌入，得到全部原始N幅输入图像的N个特征嵌入；

步骤5：以步骤4得到的N个特征嵌入作为分类器的输入数据，原始N幅输入图像的标签作为分类器的输入标签，对分类器进行训练，得到训练好的分类器；所述的分类器包括最邻近分类器、支持向量机；

步骤6：以未标记的待分类M幅图像为输入图像，按照步骤1-4计算得到其M个特征嵌入，再将这M个特征嵌入输入到步骤5得到的训练好的分类器，得到分类结果。

本发明的有益效果是：由于不使用梯度反向传播，而是利用PCA无监督地学习多阶段的滤波器组，与卷积神经网络相比，计算量大大降低，适用于非专用硬件环境下进行快速计算；由于以降维后特征图作为下一层输入图像，与PCANet相比，解决了参数数量随层数增加指数增长的问题，使构建更深层网络以提取更高层的语义信息成为可能；由于特征提取过程不依赖标记数据，可以在不增加额外人工标记成本的情况下，将网络上大量的未标记数据加入训练集，进一步提高特征提取性能；由于各个步骤均可并行化实现以缩短运行时间，可用于在分布式集群上进行大规模数据集训练。

附图说明

图1是本发明的一种基于无监督特征学习的图像分类方法基本流程图；

图2是本发明使用主成分分析算法计算滤波器组的过程示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于无监督特征学习的图像分类方法，其基本实现过程如下：

1、提取第一层降维后特征图集合。

(1)构建图块矩阵。

假定训练集由N幅大小均为p×p的图像组成，对于每一幅图像，以滑动窗口形式提取以其中的每个像素为中心的大小为k×k的图块，滑动步长为1。然后，将二维图块拉伸为列向量，并对所有图块向量去均值，即：

其中，x_i,j表示第i幅图像的第j个图块的列向量，表示去均值后的第i幅图像的第j个图块的列向量，1是各维度全为1的向量，i＝1,2,…,N，j＝1,2,…,m，m＝(p-k+1)²为每幅图像所提取图块的数量。

对于原始第i幅图像，i＝1,2,…,N，以其每一个去均值后的图块向量作为矩阵的一列，得到矩阵

(2)求解滤波器组并计算特征图。

使用主成分分析算法求解出一组标准正交基，使重构误差最小，即：

其中，L₁为设定的滤波器个数，取值范围为1≤L₁＜k²。该优化问题的解是协方差矩阵X_iX_i ^T最大的L₁个特征值对应的特征向量所构成的正交矩阵。这些特征向量捕捉了训练样本图块间的主要差异，将这些特征向量变换为L₁个k×k的矩阵，即得到第一层的滤波器组。

使用第一层的L₁个滤波器分别与原始输入图像上卷积，得到第一层的原始输出特征图：

其中，*表示二维卷积运算，I_i表示原始第i幅输入图像，W₁ ^l表示第一层的第l个滤波器，表示第i幅原始输入图像与第l个滤波器卷积生成的特征图。卷积前在原始图像I_i周围补零，使卷积后输出的特征图像保持与卷积前的原始图像大小相同。

(3)对特征图降维。

如果直接重复前述步骤(1)-(2)来构建深层网络，即将步骤(2)得到的所有特征图输入步骤(1)并迭代若干次，则输出特征图的数量会呈指数级增长。为了避免特征图数量随网络深度指数增长，本发明在输入下一层之前增加一个降维模块。将步骤(2)输出的所有特征图拉伸为一维向量，得到原始特征图矩阵再采用主成分分析算法求解一组标准正交基构成的投影矩阵U₁，满足：

其中，D₁为设定的目标维度，取值范围为1≤D₁≤L₁。该优化问题的解U₁是协方差矩阵最大的D₁个特征值对应的特征向量所构成的正交矩阵。

按照计算得到降维后矩阵P，P的大小为/>将P的每个行向量还原为大小为p×p的矩阵，得到一幅降维后的特征图，矩阵P共对应得到D₁幅大小为p×p的降维后特征图，构成降维后特征图集合；

至此，对于原始第i幅输入图像I_i，得到一个降维后特征图集合

2、迭代构建深层网络。

将步骤1得到的每一个降维后特征图集合作为下一层的输入，即以每个集合/>中的每一幅图像/>为输入图像，j＝1,2,…,D₁，按照前述过程从步骤1开始进行计算，并令其中的步骤(2)中所述的滤波器个数为L₂，取值范围为1≤L₂＜k²，步骤(3)中所述的目标维度为D₂，取值范围为1≤D₂≤L₂。至此，对于每一幅原始图像I_i，i＝1,2,…,N，会得到D₁个图像集合/>其中，每一个图像集合/>又包含D₂幅图像，即

3、哈希计算。

对于步骤2得到每一个特征图集合按照以下过程进行处理，将每个集合编码为一幅新图像：

(1)二值化。

将集合中所有图像都进行二值化处理，令负数为0，非负数为1，则图像中的像素值均变为0或1。

(2)二进制哈希。

提取集合中D₂幅图像同一位置的所有D₂个二进制值，构成一个长度为D₂的二进制串，对所有位置的像素点都如此进行提取。将每一个二进制串看作构成一个十进制数的二进制表示，转换为一个十进制数，于是输出的D₂幅实数特征图便转化为一幅整数图像，即：

其中，表示集合/>经上述处理得到的新图像，H(·)表示前面步骤(1)所述的对图像进行二值化处理，/>表示集合/>中的第d幅图像。得到的新图像中的每个像素是闭区间/>中的一个整数。

至此，对于原始第i幅输入图像，得到一个新图像集合

4、分块统计直方图。

对于步骤3得到原始第i幅输入图像的新图像集合Γ_i，i＝1,2,…,N，将其中的每一幅图像采用b×b的滑动窗口划分区块，其中1≤b≤p，滑动的步长s取值范围为1≤s≤b。设得到的区块个数为B，统计每个区块含有个区间(bin)的直方图，再将所有B个区块的直方图连接成一个向量。将集合中所有图像按前述过程得到的向量相连接，至此，对于每个集合Γ_i得到一个向量/>作为原始第i幅输入图像的特征嵌入。

对原始每一幅输入图像的新图像集合Γ_i，i＝1,2,…,N，都按照上述过程进行处理，得到其对应的特征嵌入，则可以得到全部原始N幅输入图像的N个特征嵌入。

5、利用特征嵌入训练分类器。

以步骤4得到的N个特征嵌入作为分类器的输入数据，原始N幅输入图像的标签作为分类器的输入标签，对分类器进行训练，得到训练好的分类器；所述的分类器包括最邻近分类器、支持向量机；

6、图像分类。

以未标记的待分类M幅图像为输入图像，并保持计算训练图像特征嵌入时设定的滤波器个数L₁、L₂和得到的投影矩阵U₁、U₂不变，按照步骤1-4计算得到其M个特征嵌入，再将这M个特征嵌入输入到步骤5得到的训练好的分类器，得到分类结果。

本实施例在中央处理器为Intel(R)Xeon(R)CPU E5-2680 [email protected]、内存512G的Ubuntu 16.04操作***上使用Python与PyTorch软件进行仿真实验，分别利用数据集MNIST和CIFAR-10数据集进行实验，数据集信息如表1所示。采用本发明步骤1-4进行特征提取，并使用线性SVM作为分类器进行分类的准确度如表2所示，特征提取所用时间如表3所示。可以看出，本发明方法可以在较短的时间内进行大规模数据的特征提取，并使用提取到的特征较好地完成分类任务。

表1

数据集	样本数	类别数
			MNIST	60000	10
CIFAR-10	50000	10

表2

数据集	准确度
		MNIST	99.39％
CIFAR-10	77.09％

表3

数据集	时间(秒)
		MNIST	587.88
CIFAR-10	2564.04

Claims

1.一种基于无监督特征学习的图像分类方法，其特征在于步骤如下：

其中，L₁为设定的滤波器个数，取值范围为1≤L₁＜k²；

其中，D₁为设定的目标维度，取值范围为1≤D₁≤L₁；

至此，对于原始第i幅输入图像，得到一个新图像集合