CN104573729A

CN104573729A - 一种基于核主成分分析网络的图像分类方法

Info

Publication number: CN104573729A
Application number: CN201510037296.9A
Authority: CN
Inventors: 吴丹; 伍家松; 姜龙玉; 杨淳沨; 达臻; 舒华忠
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2015-04-29
Anticipated expiration: 2035-01-23
Also published as: CN104573729B

Abstract

本发明公开一种基于核主成分分析网络的图像分类方法，包括以下步骤：（1）输入并预处理训练图像，得到训练图像的局部特征矩阵，（2）建立一个两层的核主成分分析网络，获得训练图像的主特征向量，（3）并用获得的主特征向量训练分类器；为了验证分类的正确性，建立测试核主成分分析网络对测试图像进行测试。发明通过构造一个两层的核主成分分析网络，能够获得图像的非线性特征，使得图像特征的描述更精确，分类也更为准确，对于图像分类问题有着更高的正确率。

Description

一种基于核主成分分析网络的图像分类方法

技术领域

本发明涉及数字图像领域，具体涉及一种基于核主成分分析网络的图像分类方法。

背景技术

对图像进行分类之前，通常需要对图像矩阵进行降维。常用的降维方法主要有两种：1、主成分分析法；2、核主成分分析法。前者主要是针对线性可分的数据，而后者则可以处理线性不可分的数据。两者的分类正确率都不是很高。

1、主成分分析法

主成分分析法是最常用的线性降维方法，其目标是通过线性映射将高维的数据映射到低维的空间中进行表达，并期望在所投影的维度上数据的方差最大，从而使用较少的数据维度保留住较多的原始数据的特点。

其具体算法如下：

假设输入m个n维的样本X_i,i＝1,2,...,m，其中将每个样本中的n维数据排成列向量，则输入样本表示为：

X_i＝[x_i,1 x_i,2 ... x_i,n]^T,i＝1,2,...,m (1)

首先对样本中每个维度的数据中心化：

每个样本减去平均值使得样本的每个维度均值都为0，：

X_{i} = [\begin{matrix} x_{i, 1} \\ x_{i, 2} \\ . \\ . \\ . \\ x_{i, n} \end{matrix}] - \overset{&OverBar;}{X}, i = 1,2, . . ., m - - - (2)

其中

\overset{&OverBar;}{X} = \frac{1}{m} (\begin{matrix} [\begin{matrix} x_{1,1} \\ x_{1,2} \\ . \\ . \\ . \\ x_{1, n} \end{matrix}] + [\begin{matrix} x_{2,1} \\ x_{2,2} \\ . \\ . \\ . \\ x_{2, n} \end{matrix}] + . . . + [\begin{matrix} x_{m, 1} \\ x_{m, 2} \\ . \\ . \\ . \\ x_{m, n} \end{matrix}] \end{matrix}),

x_1,j+x_2,j+...+x_m,j＝0,j＝1,2,...,n.(x_i,j,i＝1,2,...,m；j＝1,2,...,n表示第i个样本中第j维的元素)。

接着求X_i,i＝1,2,...,m的协方差矩阵C：

最后对C进行奇异值分解，求得C的特征值与特征向量，选取前L个最大的特征值所对应的特征向量作为映射的基向量,其中0＜L≤min(m,n)。

2、核主成分分析法

核主成分分析法是对主成分分析法的扩展，当核函数是线性核的时候，核主成分分析法就相当于主成分分析法；当核函数是非线性核的时候，核函数能够将线性不可分的数据映射到高维空间里，使得数据线性可分。

2.1常用的核函数

常用的核函数包括：线性核(Linear Kernel)、多项式核(Polynomial Kernel)、高斯核(Gaussian Kernel)、指数核(Exponential Kernel)、拉普拉斯核(LaplacianKernel)、双曲正切核(Hyperbolic Tangent(Sigmoid)Kernel)、有理二次核(RationalQuadratic Kernel)、逆多元二次核(Inverse Multiquadric Kernel)、圆核(CircularKernel)等。

线性核(Linear Kernel)是最简单的核函数，使用线性核函数的KPCA相当于PCA。两个列向量x，y的线性核函数定义为：

k(x,y)＝x^Ty+c (4)

其中c为任意的常数。

多项式核(Polynomial Kernel)是一种非静态核，适用于所有的训练数据都已经归一化的问题。多项式核的定义为：

k(x,y)＝(αx^Ty+c)^d (5)

其中x，y为两个维度相同的列向量，α为坡度系数，c为任意常数，d为大于0的常数。

高斯核(Gaussian Kernel)属于径向基函数核，其表达式为：

k (x, y) = \exp (- \frac{{| | x - y | |}^{2}}{2 σ^{2}}), σ &NotEqual; 0 - - - (6)

或者也可以表示为：

k(x,y)＝exp(-γ||x-y||²) (7)

其中x，y为两个维度相同的列向量，是可调节的系数，对高斯核的性能会有很大的影响，因此必须根据不同的情况选取合适的γ值。如果γ估计得过高，则指数将几乎为线性，高维的投影会失去其非线性的能量。反之，如果γ估计的过低，函数将缺少正规化，使得决策边界过高，对训练数据中的噪声将非常敏感。

指数核(Exponential Kernel)与高斯核关系密切，唯一的差别是范数的平方变成了范数，其表达式为：

k (x, y) = \exp (- \frac{| | x - y | |}{2 σ^{2}}), σ &NotEqual; 0 - - - (8)

其中x，y为两个维度相同的列向量，σ为任意非零参数。指数核也是一种径向基函数核。

拉普拉斯核(Laplacian Kernel)几乎与指数核相等，但是拉普拉斯核对于σ的取值不怎么敏感，同时它也是一种径向基函数核。表达式为：

k (x, y) = \exp (- \frac{| | x - y | |}{σ}), σ &NotEqual; 0 - - - (9)

其中x，y为两个维度相同的列向量，σ为任意非零参数。

双曲正切核(Hyperbolic Tangent(Sigmoid)Kernel)又叫多层感知器核(Multilayer Perceptron Kernel)与S核(Sigmoid Kernel)，其中S核来源于神经网络领域，双极的S核被用来作为人工神经元的激活函数。其表达式为：

k(x,y)＝tanh(αx^Ty+c) (10)

其中x，y为两个维度相同的列向量，坡度系数α与截距常数c是可以根据具体问题调节的，α>0且c<0是比较好的参数选择。

有理二次核(Rational Quadratic Kernel)相对于高斯核而言，计算密集性更低，因此如果希望获得高斯核的计算效果但是又希望避免计算密集性的话，可以采用有理二次核函数。有理二次核是一种非正定核，其表达式为：

k (x, y) = 1 - \frac{{| | x - y | |}^{2}}{{| | x - y | |}^{2} + c}, c &GreaterEqual; 0 - - - (11)

其中x，y为两个维度相同的列向量，c为任意实数。

逆多元二次核(Inverse Multiquadric Kernel)得到的核矩阵是一个满秩矩阵，因此在使用逆多元二次核将原始数据映射的到核空间时将会形成一个无限维的特征空间。其表达式为：

k (x - y) = \frac{1}{\sqrt{{| | x - y | |}^{2} + c^{2}}}, c &GreaterEqual; 0 - - - (12)

其中x，y为两个维度相同的列向量，σ为任意非零参数。

圆核(Circular Kernel)来源于统计学的观点，是一种各向异性的正定静态核。其定义为：

k (x - y) = \{\begin{matrix} \frac{2}{π} \arccos (\frac{| | x - y | |}{σ}) - \frac{2}{π} \frac{| | x - y | |}{σ} \sqrt{1 - {(\frac{| | x - y | |}{σ})}^{2}}, if | | x - y | | < σ \\ 0, if | | x - y | | &GreaterEqual; σ \end{matrix} - - - (13)

其中x，y为两个维度相同的列向量，σ为任意非零参数。

此外，还有各种类型的核函数以及核函数之间的线性变换也可以得到一个新的核函数，例如两个不同类型的核函数相加能够得到一个新的核函数。

2.2核主成分分析算法如下：

假设输入m个n维的样本X_i,i＝1,2,...,m，其中X_i∈Rⁿ且X_i为n维的列向量。

首先将数据映射到特征空间里面得到：

Φ(X₁),Φ(X₂),...,Φ(X_m) (14)

其中Φ为将数据映射到高维空间的映射函数。

接着中心化Φ(X_i),i＝1,2,...,m：

1)假设X_i,i＝1,2,...,m被映射到中后变为l(0＜l≤+∞)维的列向量：

Y_i＝[y_i,1 y_i,2 … y_i,l]^T,i＝1,2,...,m (15)

其中l≥n且l有可能是一个无穷大的正数。

2)求Y_i,i＝1,2,...,m的平均值

\begin{matrix} \overset{&OverBar;}{Y} = \frac{1}{m} (Y_{1} + Y_{2} + . . . + Y_{m}) \\ = \frac{1}{m} ([\begin{matrix} y_{1,1} \\ y_{1,2} \\ . \\ . \\ . \\ y_{1, l} \end{matrix}] + [\begin{matrix} y_{2,1} \\ y_{2,2} \\ . \\ . \\ . \\ y_{2, l} \end{matrix}] + . . . + [\begin{matrix} y_{m, 1} \\ y_{m, 2} \\ . \\ . \\ . \\ y_{m, l} \end{matrix}]) \end{matrix} - - - (16)

3)对Y_i,i＝1,2,...,m分别去均值：

Y_{i} = Y_{i} - \overset{&OverBar;}{Y}, i = 1,2, . . ., m

使得

Σ_{i = 1}^{m} Y_{i} = 0,

这等价于使得

Σ_{k = 1}^{m} Φ (X_{k}) = 0 .

核主成分分析法的主要目的是找出所有样本在特征空间中的协方差矩阵中的特征值λ≥0以及其对应的特征向量(表示V为空间里的非零向量)，其中为：

\overset{&OverBar;}{C} = \frac{1}{n} Σ_{j = 1}^{m} Φ (X_{j}) Φ {(X_{j})}^{T} - - - (17)

由于所有的解都在Φ(X₁),Φ(X₂),...,Φ(X_m)所生成的空间里面，也就是我们可以考虑以下的等价***：

λ_{k} (Φ (X_{k}) \cdot V) = (Φ (X_{k}) \cdot \overset{&OverBar;}{C} V), k = 1,2, . . ., m - - - (18)

同时，存在系数α₁,α₂,...,α_m，使得

v = Σ_{i = 1}^{m} α_{i} Φ (X_{i}) - - - (19)

将(17)，(19)代入(18)，同时定义一个m×m的矩阵K，其元素表示为：

K_ij:＝(Φ(X_i)Φ(X_j)),i＝1,2,...,m；j＝1,2,...,m (20)

可以得到：

mλKα＝K²α (21)

化简之后，有：

mλα＝Kα (22)

其中λ＝diag[λ₁ λ₂ … λ_m]，α＝[α₁ α₂ … α_m]^T。

假设(1)中非零特征值对应的特征向量在特征空间中都是单位向量，也就是V·V＝I，其中表示单位矩阵，因此归一化α系数向量：

α_{k} = \frac{1}{\sqrt{λ_{k}}}, k = 1,2, . . ., m - - - (23)

至此，便可以得到特征向量V了。

将映射到特征空间的测试数据投影到特征向量中，得到新数据X的主成分：

(V \cdot Φ (X)) = Σ_{i = 1}^{m} α_{i} (Φ (X_{i}) \cdot Φ (X)) - - - (24)

由于在实际操作过程中Φ(X_i),i＝1,2,...,m通常是未知的，而且通常对Φ(X_i),i＝1,2,..m.,进行点积操作，因此，通常采用核函数来计算点积而不需要具体地知道Φ(X_i)。对于不同的核函数，都有相应的Φ(X_i)将数据映射到高维特征空间中。因此，我们可以计算(4)中的点积如下：

K_ij:＝(k(X_i,X_j))_i,j,i＝1,2,...,m；j＝1,2,...,m (25)

其中，k为相应的核函数。

同时，为了实现数据被映射到高维空间中后的中心化，我们转而求的特征值与特征向量，其中为：

\overset{&OverBar;}{K} = K - 1_{m} K - K 1_{m} + 1_{m} K 1_{m} - - - (26)

其中，

{(1_{m})}_{ij} = \frac{1}{m}, i = 1,2, . . ., m; j = 1,2, . . ., m .

发明内容

针对现有技术的不足，本发明提出了一种基于核主成分分析网络的图像分类方法，利用核主成分分析法将数据映射到核空间里面，将线性不可分的数据线性化；接着提取数据中的特征，同时采用支持向量机(SVM)分类方法根据提取出的特征对数据进行分类；最大限度的提取出了图像的特征向量，同时提高分类的准确率。

为了实现上述目的，本发明的技术方案是：

本发明基于核主成分分析网络的图像分类方法，包括以下步骤：

步骤1：建立核主成分分析网络第一层：

步骤1.1：输入图像数据库中的N₁幅训练图像，并对其进行预处理，分别得到N₁幅训练图像中每一幅图像的局部特征矩阵I_i，i＝1,2,...,N₁；其中图像数据库包含N幅大小为m×n已经人工分类并作标记的图像，N₁＜N；

步骤1.2：求局部特征矩阵I_i的协方差矩阵均值选择任意一个核函数，将协方差矩阵均值映射到高维空间的核子空间当中，得到核子空间当中的协方差矩阵K，并对K去均值得到通过对进行奇异值分解，得到的主成分，从而获得第一层核主成分分析网络的滤波器V⁽¹⁾；分别将I_i与V⁽¹⁾卷积，得到第一层核主成分分析网络的训练输出图像；

步骤2：建立核主成分分析网络第二层：

将核主成分分析网络的第一层训练输出图像替代步骤1.1的N₁幅训练图像，重复步骤1.1至步骤1.2的过程，得到第二层核主成分分析网络的滤波器V⁽²⁾以及第二层核主成分分析网络的训练输出图像；

步骤3：建立核主成分分析网络的输出层：

步骤3.1：将第二层核主成分分析网络的训练输出图像中的每幅图像二值化，并对二值化后的图像分块以统计直方图，得到N₁幅训练图像中每幅图像的主特征向量

f_{i}^{(train)}, i = 1,2, . . ., N_{1};

步骤3.2：将每幅图像的主特征向量串联起来，得到所有训练图像的主特征矩阵F^(train)；

步骤4：训练分类器：

将F^(train)以及每幅图像对应的标记输入到分类器当中，训练分类器，获得能够对图像进行分类的分类器；

为了验证所获得分类器，建立测试核主成分分析网络对图像数据库中剩余的N-N1幅图像进行测试，计算出分类正确率：

测试核主成分分析网络：

步骤A)：分别输入图像数据库中剩余的N-N1幅图像作为测试图像，并对其进行预处理，得到N-N₁幅测试图像中每幅图像的局部特征矩阵I_l,l＝N₁+1,N₁+2,...,N；

步骤B)：将I_l与步骤1.2中得到的V⁽¹⁾卷积，将卷积后所获得的第一层核主成分分析网络的测试输出图像与步骤2中得到的V⁽²⁾进行卷积，将卷积后获得的第二层核主成分分析网络的测试输出图像替代步骤3.1中第二层核主成分分析网络的训练输出图像并重复步骤3.1，获得每幅测试图像的主特征向量

f_{l}^{(test)}, l = N_{1} + 1, N_{1} + 2, . . ., N;

步骤C)：将输入到步骤4中训练好的分类器中进行分类，获得每幅测试图像的所属标记，并将该标记与测试图像对应的原始标记进行对比，统计分类结果，计算出分类的正确率。

进一步的，所述步骤1.1具体包括以下内容：

在N幅大小为m×n的图像数据库中随机选取N₁幅作为训练图像数据库；用一个大小为k₁×k₂的滑块遍历训练图像数据库中的每幅训练图像的每一个像素，其中为实数集，k₁和k₂均为奇数，并且0<k₁≤m，0<k₂≤n，每一幅图像总共有mn个像素；对于每一个像素将滑块范围内的k₁k₂个像素值保存成一个列向量，得到mn个长度为k₁k₂的列向量，记为：

对式(1)中的列向量去均值得到：

式(2)中：

{\overset{&OverBar;}{x}}_{i, 1} = x_{i, 1} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, {\overset{&OverBar;}{x}}_{i, 2} = x_{i, 2} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, . . ., {\overset{&OverBar;}{x}}_{i, mn} = x_{i, mn} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}

将去均值后的向量组合，从而得到每幅训练图像X_i的局部特征矩阵I_i：

进一步的，所述步骤1.2具体包括以下内容：

(a)分别求局部特征矩阵的协方差矩阵：

对得到的N₁个协方差矩阵进行平均，得到：

(b)选择线性核函数、多项式核函数、高斯核函数、指数核函数、拉普拉斯核函数、双曲正切核函数、有理二次核函数、逆多元二次核函数、圆核函数中的任意一个核函数将映射到高维空间中的核子空间，得到大小为k₁k₂×k₁k₂的协方差矩阵并对矩阵K进行去均值得到：

\overset{&OverBar;}{K} = K - 1_{k_{1} k_{2} \times k_{1} k_{2}} K - 1_{k_{1} k_{2} \times k_{1} k_{2}} + 1_{k_{1} k_{2} \times k_{1} k_{2}} K 1_{k_{1} k_{2} \times k_{1} k_{2}} - - - (6)

其中为一个k₁k₂×k₁k₂的矩阵，每一个元素都是1/(k₁k₂)；

(c)对进行奇异值分解，找出的L₁个主成分，并将的L₁个主成分作为第一层核主成分分析网络的滤波器V⁽¹⁾：

式(7)中，为的第j个主成分，L₁为第一层核主成分分析网络中滤波器的个数，0＜L₁≤k₁k₂；

为使得卷积后的图像大小与原始图像大小一样，将局部特征矩阵I_i,i＝1,2,...,N₁分别与进行卷积，得到第一层核主成分分析网络的训练输出图像：

进一步，步骤2具体包括以下内容：

将第一层核主成分分析网络的训练输出图像替代步骤1.1中N₁幅训练图像，重复步骤1至步骤1.2过程，得到核主成分分析网络的第二层滤波器：

式(9)中，为第二层核主成分分析网络的第h个滤波器，L₂为第二层核主成分分析网络的滤波器个数，0＜L₂≤k₁k₂；

以及得到L₁L₂个第二层核主成分分析网络的训练输出图像：

进一步，步骤3.1具体包括以下内容：

(a)将第二层核主成分分析网络的训练输出图像中的每幅图像进行二值化操作，得到二值化后的图像，二值化操作具体为：中的元素如果大于0，则将该元素置为1；如果小于或者等于0，则将该元素置为0；二值化后的图像表示为：

将式(11)中的图像进行重新分组，每L₂张图像分为一组，得到N₁L₁个图像组，每个图像组包括L₂张图像，对每个图像组中的L₂张进行加权求和得到一张加权图像，从而获得N₁L₁个图像组的加权图像

T_{i, j}^{(train)} = Σ_{h = 1}^{L_{2}} 2^{h - 1} J_{i, j, h}^{(train)}, i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (12)

式(12)对应着N₁L₁张像素值介于的图像；

(b)将中的每张加权图像分成B块，0<B<mn；分别统计各个块的直方图并将这B个块的直方图连接成一个向量：

Bhist (T_{i, j}^{(train)}), i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (13)

由式(13)得到N₁幅训练图像中每幅图像的主特征向量

i＝1,2,...,N₁ (14)

进一步，步骤3.2具体包括以下内容：

按照原始输入的训练图像的标记，N₁幅训练图像中每幅图像的主特征向量串联起来，得到所有训练图像的主特征矩阵：

进一步，步骤4具体包括以下内容：

将F^(train)以及每幅训练图像X_i对应的原始标记输入到分类器中，训练出分类需要的参数，获得能够对图像进行分类的分类器。

进一步，测试核主成分分析网络步骤A)具体包括以下内容：

在N幅m×n的图像数据库中用剩下的N-N₁幅作为测试图像；同样用一个大小为k₁×k₂的滑块遍历每一幅测试图像的每一个像素；对于每一个像素，将滑块范围内的k₁k₂个像素值保存成一个列向量，这样可以得到mn个长度为k₁k₂的列向量，记为：

对式(16)中的向量进行去均值操作得到：

式(17)中

{\overset{&OverBar;}{x}}_{l, 1} = x_{l, 1} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{p, k}, {\overset{&OverBar;}{x}}_{l, 2} = x_{l, 2} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{p, k} . . ., {\overset{&OverBar;}{x}}_{l, mn} = x_{l, mn} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{l, k};

将去均值后的向量组合成测试图像的局部特征矩阵：

进一步，测试核主成分分析网络步骤B)具体包括以下内容：

分别将每幅测试图像的局部特征矩阵I_l,l＝N₁+1,N₁+2,...,N与步骤1.2中得到的滤波器进行卷积，获得第一层核主成分分析网络的测试输出图像

I_{l, j}^{(test)}, l = N_{1} + 1, N_{1} + 2, . . ., N; j = 1,2, . . ., L_{1},

将分别与步骤2得到的滤波器进行卷积，获得第二层核主成分分析网络的测试输出图像

I_{l, j, h}^{(test)}, l = N_{1} + 1, N_{1} + 2, . . ., N; j = 1,2, . . ., L_{1}; h = 1,2, . . ., L_{2};

将替代步骤3.1中第二层核主成分分析网络的训练输出图像重复步骤3.1，获得每幅测试图像的主特征向量：

进一步，测试核主成分分析网络步骤C)具体包括以下内容：

将每幅测试图像对应的主特征向量输入步骤4中已经训练好的分类器中进行分类，获得每幅测试图像的所属标记，然后将该标记与对应的测试图像原始标记进行对比，统计正确的分类个数，计算出分类正确率。

与现有技术相比，本发明的有益效果是：

1)本方法通过使用核主成分分析法，将原始数据空间映射到核空间，使得在原始数据空间线性不可分的数据在核空间变得线性可分。

2)本方法构造一个两层的核主成分分析网络，在去噪的同时能够非常有效的提取图像的特征信息。

3)本方法对于图像的光照变化有着不变性，同时对微小的形变稳定，对于有遮挡的人脸识别能力显著。

4)通过将核主成分分析法构造成一个两层的网络，使得分类更为精确，提高了分类的准确率。

附图说明

图1为本发明基于核主成分分析网络的图像分类方法分类示意图；

图2为本发明基于核主成分分析网络的图像分类方法的整体流程图；

图3为本发明基于核主成分分析网络的图像分类方法网络训练流程图；

图4为本发明基于核主成分分析网络的图像分类方法网络测试流程图；

具体实施方式

下面对本发明技术方案结合附图和实施例进行详细说明。

如图1-4所示，本发明中基于核主成分分析网络的图像分类方法通过级联两层核主成分分析滤波器构建了一种新的图像特征提取结构，称为核主成分分析网络，并对所构建的核主成分分析网络进行了测试，具体包括以下步骤。

步骤1：建立核主成分分析网络第一层

步骤1.1：在N幅大小为m×n的图像数据库中随机选取N₁幅作为训练图像数据库；用一个大小为k₁×k₂的滑块遍历训练图像数据库中的每幅训练图像的每一个像素，其中为实数集，k₁和k₂均为奇数，并且0<k₁≤m，0<k₂≤n，每一幅图像总共有mn个像素；对于每一个像素将滑块范围内的k₁k₂个像素值保存成一个列向量，得到mn个长度为k₁k₂的列向量，记为：

对式(1)中的列向量去均值得到：

式(2)中：

{\overset{&OverBar;}{x}}_{i, 1} = x_{i, 1} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, {\overset{&OverBar;}{x}}_{i, 2} = x_{i, 2} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, . . ., {\overset{&OverBar;}{x}}_{i, mn} = x_{i, mn} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}

步骤1.2：

(a)分别求局部特征矩阵的协方差矩阵：

对得到的N₁个协方差矩阵进行平均，得到：

\overset{&OverBar;}{K} = K - 1_{k_{1} k_{2} \times k_{1} k_{2}} K - {K 1}_{k_{1} k_{2} \times k_{1} k_{2}} + 1_{k_{1} k_{2} \times k_{1} k_{2}} K 1_{k_{1} k_{2} \times k_{1} k_{2}} - - - (6)

步骤2：建立核主成分分析网络第二层

将第一层核主成分分析网络的训练输出图像替代步骤1.1中N₁幅训练图像，重复步骤1.1至步骤1.2过程，得到核主成分分析网络的第二层滤波器：

步骤3：建立核主成分分析网络的输出层

步骤3.1：

T_{i, j}^{(train)} = Σ_{h = 1}^{L_{2}} 2^{h - 1} J_{i, j, h}^{(train)}, i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (12)

式(12)对应着N₁L₁张像素值介于的图像；

Bhist (T_{i, j}^{(train)}), i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (13)

由式(13)得到N₁幅训练图像中每幅图像的主特征向量

步骤3.2：

步骤4：训练分类器

为了验证所获得分类器，建立测试核主成分分析网络对图像数据库中剩余的N-N1幅图像进行测试，计算出分类正确率。

测试核主成分分析网络：

步骤A)：在N幅m×n的图像数据库中用剩下的N-N₁幅作为测试图像；同样用一个大小为k₁×k₂的滑块遍历每幅测试图像的每一个像素；对于每一个像素，将滑块范围内的k₁k₂个像素值保存成一个列向量，这样可以得到mn个长度为k₁k₂的列向量，记为：

对式(16)中的向量进行去均值操作得到：

式(17)中

{\overset{&OverBar;}{x}}_{l, 1} = x_{l, 1} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{p, k}, {\overset{&OverBar;}{x}}_{l, 2} = x_{l, 2} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{p, k} . . ., {\overset{&OverBar;}{x}}_{l, mn} = x_{l, mn} - \frac{1}{mn} Σ_{p = 1}^{mn} x_{l, k};

将去均值后的向量组合，从而得到每幅测试图像的局部特征矩阵I_l：

步骤B)：分别将每幅测试图像的局部特征矩阵I_l,l＝N₁+1,N₁+2,...,N与步骤1.2中得到的滤波器进行卷积，获得第一层核主成分分析网络的测试输出图像

I_{l, j}^{(test)}, l = N_{1} + 1, N_{1} + 2, . . ., N; j = 1,2, . . ., L_{1},

I_{l, j, h}^{(test)}, l = N_{1} + 1, N_{1} + 2, . . ., N; j = 1,2, . . ., L_{1}; h = 1,2, . . ., L_{2};

步骤C)：将每幅测试图像对应的主特征向量输入步骤4中已经训练好的分类器中进行分类，获得每幅测试图像的所属标记，然后将该标记与对应的测试图像原始标记进行对比，统计正确的分类个数，计算出分类正确率。

在图1中，由于本发明中核主成分分析法的引入，使得图像的非线性特征能够很好的被映射到核空间中，进而用线性分类算法就能很好的将其分类。同时，由于引入了二值化与分块的过程，图像的特征能够被很好的提取出来。由此取得更好的图像描述效果。

下面以MNIST数据库采用高斯核函数以及支持向量机分类器为例来详细说明。

现选取一台计算机进行图像分类，该计算机的配置有Intel(R)处理器(3.10GHz)和12GB随机存取存储器(RAM)，64位操作***，编程语言用的是Matlab(R2013a版本)。

手写数字图像数据库MNIST包含10类图像，分别是数字0到9。选取MNIST中的训练图像作为核主成分分析网络的训练图像，其中MNIST中的训练图像一共60000幅28×28的图像，以mat格式存储在一个785×60000的矩阵里面，最后一列为图像的标记；选取MNIST中的测试图像作为核主成分分析网络的测试图像，其中MNIST中的测试图像一共10000幅28×28的图像，以mat格式存储在一个785×10000的矩阵里面，最后一列为图像的标记。

步骤1.1：将训练图像矩阵中的图像数据与图像标记分别保存，并将图像数据保存到一个28×28×60000的元胞中并用大小为7×7的滑块遍历元胞中的每幅图像X_i，i＝1,2,...,60000，对每次滑块中的元素去均值之后向量化，将每幅图像所有向量化的滑块按行排列，得到一个49×48的局部特征矩阵I_i，i＝1,2,...,60000

步骤1.2：(a)求I_i，i＝1,2,...,60000的协方差矩阵2,，并对C_i进行平均，得到协方差平均矩阵

(b)将输入到所选择的核函数里面，例如高斯核函数得到非线性映射之后的协方差矩阵

K_{p, q} = \exp {(- \frac{{| | c_{p} - c_{q} | |}^{2}}{2})}_{p, q}, p = 1,2, . . ., 49; q = 1,2, . . ., 49,

其中c_p与c_q分别表示的第p行与第q行向量,||c_p-c_q||²为c_p-c_q的二范数；接着按照对K去均值，其中1₄₉为每个元素都为1/49，大小为49×49的方阵；

(c)设置第一层滤波器个数为8，对进行奇异值分解，求取的前8个最大特征值所对应的特征向量作为第一层核主成分分析网络的滤波器接着将I_i，i＝1,2,...,60000分别与卷积。对于图像X_i，将输出8幅图像最后一共输出480000幅大小为28×28的图像

步骤2：将所有480000幅图像重复步骤1.1到步骤1.2的操作，得到第二层核主成分分析网络的8个滤波器并将与分别卷积，将得到3840000幅图像

步骤3.1：将中每8幅图像二值化，得到将离散化，得到一幅离散化后的图像

T_{i, j}^{(train)} = Σ_{h = 1}^{8} 2^{h - 1} J_{i, j, h}^{(train)}, i = 1,2, . . ., 60000; j = 1,2, . . ., 8,

将中的每张图像分块，每块大小为7×7，块重叠率为0.5，统计所有块的直方图并向量化，保存为该图像的主特征向量

步骤3.2：将每幅图像的主特征向量串联起来，得到所有训练图像的主特征矩阵

F^{(train)} = [f_{1}^{(train)}, f_{2}^{(train)}, . . ., f_{60000}^{(train)}]

步骤4：将步骤3.2得到的图像主特征向量F^(train)以及每幅图像X_i对应的原始标记输入支持向量机分类器当中，获得支持向量机中每个特征的权值参数。

为了验证所获得分类器，将测试图像的图像数据X_l,l＝1,2,...,10000与图像标记分别保存，并用大小为7×7的滑块遍历X_l，对每次滑块中的元素去均值之后向量化，将每幅图像所有向量化的滑块按行排列，得到X_l的局部特征矩阵0并求I_l的协方差矩阵将I_l分别与卷积，输出8幅图像最后一共输出80000幅图像

将分别与卷积，得到64幅图像最后一共得到将得到640000幅图像对每8幅图像二值化，得到将离散化，得到一幅离散化后的图像将离散化后的图像分块，块大小为7×7，块重叠率为0.5，统计所有块的直方图并向量化，保存为该图像的主特征向量

将图像主特征向量输入步骤4中训练好的支持向量机中进行分类，获得图像的标记，并与该图像的原始标记进行对比，统计分类结果，计算出分类正确率。

表1给出了提出的核主成分分析网络在手写数字数据库MNIST在每层滤波器个数分别为6到14时，应用各种不同的核得到的分类结果。

表1

从表1的结果可以看到，提出的核主成分分析网络在处理手写数据分类时非常有效，特别是当每层的滤波器个数大于8时，分类正确率基本上在99％以上。因此也验证了本发明方法的有效性。

Claims

1.一种基于核主成分分析网络的图像分类方法，其特征在于，包括以下步骤：

步骤1：建立核主成分分析网络第一层：

步骤2：建立核主成分分析网络第二层：

步骤3：建立核主成分分析网络的输出层：

步骤3.1：将第二层核主成分分析网络的训练输出图像中的每幅图像二值化，并对二值化后的图像分块以统计直方图，得到N₁幅训练图像中每幅图像的主特征向量i＝1,2,...,N₁；

步骤4：训练分类器：

将F^(train)以及每幅图像对应的标记输入到分类器当中，训练分类器，获得能够对图像进行分类的分类器。

2.根据权利要求1所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤1.1对N₁幅训练图像的预处理具体为：

在N幅大小为m×n的图像数据库中随机选取N₁幅作为训练图像数据库；用一个大小为k₁×k₂的滑块遍历训练图像数据库中的每幅训练图像i＝1，2，…，N₁的每一个像素，其中为实数集，k₁和k₂均为奇数，并且0<k₁≤m，0<k₂≤n，每一幅图像总共有mn个像素；对于每一个像素将滑块范围内的k₁k₂个像素值保存成一个列向量，得到mn个长度为k₁k₂的列向量，记为：

对式(1)中的列向量去均值得到：

式(2)中：

{\overset{&OverBar;}{x}}_{i, 1} = x_{i, 1} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, {\overset{&OverBar;}{x}}_{i, 2} = x_{i, 2} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}, . . ., {\overset{&OverBar;}{x}}_{i, mn} = x_{i, mn} - \frac{1}{mn} Σ_{k = 1}^{mn} x_{i, k}

3.根据权利要求2所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤1.2具体包括以下步骤：

(a)分别求局部特征矩阵i＝1，2，…，N₁的协方差矩阵：

对得到的N₁个协方差矩阵进行平均，得到：

\overset{&OverBar;}{K} = K - 1_{k_{1} k_{2} \times k_{1} k_{2}} K - {K 1}_{k_{1} k_{2} \times k_{1} k_{2}} + 1_{k_{1} k_{2} \times k_{1} k_{2}} K 1_{k_{1} k_{2} \times k_{1} k_{2}} - - - (6)

将局部特征矩阵I_i,i＝1,2,...,N₁分别与j＝1,2,...,L₁进行卷积，得到第一层核主成分分析网络的训练输出图像：

4.根据权利要求1所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤2具体包括以下步骤：

以及得到L₁L₂幅第二层核主成分分析网络的训练输出图像：

5.根据权利要求4所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤3.1具体包括以下步骤：

将式(11)中的图像进行重新分组，每L₂幅图像分为一组，得到N₁L₁个图像组，每个图像组包括L₂幅图像，对每个图像组中的L₂张进行加权求和得到一幅加权图像，从而获得N₁L₁个图像组的加权图像

T_{i, j}^{(train)} = Σ_{h = 1}^{L_{2}} 2^{h - 1} J_{i, j, h}^{(train)}, i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (12)

式(12)对应着N₁L₁张像素值介于[0,2^L2-1]的图像；

(b)将i＝1,2,...,N₁；j＝1,2,...,L₁中的每幅加权图像分成B块，0<B<mn；分别统计各个块的直方图并将这B个块的直方图连接成一个向量：

Bhist T_{i, j}^{(train)}, i = 1,2, . . ., N_{1}; j = 1,2, . . ., L_{1} - - - (13)

由式(13)得到N₁幅训练图像中每幅图像的主特征向量

6.根据权利要求5所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤3.2具体包括以下步骤：

7.根据权利要求6所述的基于核主成分分析网络的图像分类方法，其特征在于，所述步骤4具体包括以下步骤：

将F^(train)以及每幅训练图像对应的原始标记输入到分类器中，训练出分类需要的参数，获得能够对图像进行分类的分类器。