CN105469101A

CN105469101A - 一种混合二维概率主成分分析方法

Info

Publication number: CN105469101A
Application number: CN201511022718.1A
Authority: CN
Inventors: 孙艳丰; 刘思萌; 句福娇; 胡永利; 尹宝才
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2016-04-06

Abstract

本发明公开了一种二维概率主成分分析方法，其能够对二维数据在行和列两个方向上进行降维，重构效果更好。该方法包括步骤：(1)根据公式(1)构建概率的二阶主成分分析模型2DPCA；(2)根据公式(2)构建混合的2DPC；(3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计；(4)在求解公式(4)时，利用变分最大期望EM算法来优化参数在EM算法的E步中，对隐变量

Description

一种混合二维概率主成分分析方法

技术领域

本发明属于特征提取及数据降维的技术领域，具体地涉及一种混合二维概率主成分分析方法。

背景技术

高维和多模态数据在现代计算机视觉的研究中随处可见。数据的高维度不仅增加了算法的复杂性和存储的开销，而且也降低了算法在实际应用中的广泛性。然而，高维数据往往是均匀分布在一个低维空间或流行空间上。所以，找到高维观测数据在低维空间中的一种映射关系已成为机器学习研究的一个具有挑战性的问题。在过去的几十年中，关于数据降维的算法已取得很大进展。

主成分分析(PrincipalComponentAnalysis,PCA)是一种广泛应用于模式识别和机器学习的降维方法。PCA有很多种解释，其中一种是假设观测到的高维数据是低维空间中数据的一种线性映射。实际中得到的数据往往具有内部相关结构，例如，图像。为了在二维数据上应用PCA，最直接的办法是将二维数据向量化。但向量化后的数据一般都是高维数据，这样不仅会导致维度灾难的问题而且忽略了二维数据的空间结构信息。所以，数据向量化的PCA并不是一种最优的特征提取方法。因此提出了一种二维数据的PCA(2DPCA)。与传统的PCA相比，2DPCA直接对2D数据矩阵进行降维运算，因此保留了数据间的结构关系，并且取得了优于PCA的实验结果。

这些非概率的PCA只依赖原始数据，并没有假设任何参数，也没有将观测数据的先验知识应用到预测结果中。为了克服这个不足，TippingandBishop提出了一种概率的PCA模型(PPCA)。这个模型同样是将数据表示成一维向量，并且假设噪声服从均值是0，斜方差为单位矩阵的高斯分布。与传统的PCA相比，PPCA是应用概率的理论达到对数据降维，模型的参数可通过极大似然估计(MLE)得出。进而，Zhaoetal.提出了基于二维数据的概率PCA(2DPPCA)，这是传统PPCA到2D模型的一个突破。2DPPCA在图像空间只定义了样本的全局投影，为了更好地表示样本的局部信息，Wangetal.基于人脸数据提出了混合概率PCA(MP2DPCA)。

一组二维数据的概率分布是相当复杂的，大多数情况下它不能由某一特定概率分布表示，所以需要使用混合高斯分布进行近似。根据Bishop，通过使用足够多的高斯分布，并且调节它们的均值和方差以及线性组合的系数，几乎所有的连续概率密度都能够以任意的精度近似。多个高斯分布的线性组合称为混合高斯(mixtureofGaussians)分布。Rasmussen提出了高斯混合模型(GMM)，Zivkovic将GMM应用于图片背景提取，Lietal.使用混合高斯回归分析进行子空间聚类。二阶数据的概率分布使用多个高斯分布的混合模拟，即是将二阶高维数据在多个主方向上降维，需要计算的参数较多，因此可以利用变分最大期望算法(VariationalExpectationMaximization，VariationalEM)解此模型。

但是，以上方法均不能对二维数据进行行和列两个方向上的降维。

发明内容

本发明的技术解决问题是：克服现有技术的不足，提供一种混合二维概率主成分分析方法，其能够对二维数据在行和列两个方向上进行降维，重构效果更好。

本发明的技术解决方案是：这种混合二维概率主成分分析方法，样本服从矩阵变量的混合高斯分布，该方法包括以下步骤：

(1)根据公式(1)构建概率的二阶主成分分析模型2DPCA

X_n＝LB_nR^T+M+E_n；(1)

其中L(p×r)和R(q×c)分别是行和列方向的降维矩阵；B_n(r×c)是样本X_n的隐变量核，称为系数矩阵；r≤p，c≤q是降维后的行和列数；M(p×q)是均值矩阵，E_n是满足矩阵高斯分布的噪声，它的每个分量满足

(2)根据公式(2)构建混合的2DPCA

其中分离的均值项M_k是第k类样本集的均值，L_k和R_k是样本集得到的第k类降维，π_k是混合比例，是第k个高斯分布的方差；

(3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计

z_nk取值为1或0，代表第n个样本是否属于第k个高斯分布。

(4)在求解公式(4)时，利用变分最大期望EM算法来优化参数在EM算法的E步中，对隐变量求解其后验分布:其中是均值，分别是行和列方向的协方差矩阵，经计算得到公式(9)-(11)：

T_{n}^{(k)} = {cσ}_{k}^{2} {[t r (R_{k}^{T} R_{k} S_{n}^{(k)}) L_{k}^{T} L_{k} + σ_{k}^{2} t r (S_{n}^{(k)}) I_{r}]}^{- 1} - - - (9)

S_{n}^{(k)} = {rσ}_{k}^{2} {[t r (L_{k}^{T} L_{k} T_{n}^{(k)}) R_{k}^{T} R_{k} + σ_{k}^{2} t r (T_{n}^{(k)}) I_{c}]}^{- 1} - - - (10)

v e c (Q_{n}^{(k)}) = {[R_{k}^{T} R_{k} &CircleTimes; L_{k}^{T} L_{k} + σ_{k} I &CircleTimes; σ_{k} I]}^{- 1} y - - - (11)

其中

y = v e c (L_{k}^{T} (X_{n} - M_{k}) R_{k});

M步更新公式(4)中的参数，得到公式(12)-(14)：

L_{k} = [Σ_{n = 1}^{N} γ_{n k} (X_{n} - M_{k}) R_{k} {(Q_{n}^{(k)})}^{T}] {[Σ_{n = 1}^{N} γ_{n k} Q_{n}^{(k)} R_{k}^{T} R_{k} {(Q_{n}^{(k)})}^{T} + t r (R_{k}^{T} R_{k} S_{n}^{(k)}) T_{n}^{(k)}]}^{- 1} - - - (12)

R_{k} = [Σ_{n = 1}^{N} γ_{n k} {(X_{n} - M_{k})}^{T} L_{k} Q_{n}^{(k)}] {[Σ_{n = 1}^{N} γ_{n k} {(Q_{n}^{(k)})}^{T} L_{k}^{T} L_{k} Q_{n}^{(k)} + t r (L_{k}^{T} L_{k} T_{n}^{(k)}) S_{n}^{(k)}]}^{- 1} - - - (13)

\begin{matrix} σ_{k}^{2} = \frac{1}{{pqN}_{k}} {Σ_{n = 1}^{N} γ_{n k} t r {(X_{n} - M_{k})}^{T} (X_{n} - M_{k}) \\ - 2 Σ_{n = 1}^{N} γ_{n k} t r (R_{k} < B_{n}^{(k)} >^{T} L_{k}^{T} (X_{n} - M_{k})) \\ + Σ_{n = 1}^{N} γ_{n k} t r (< B_{n}^{(k) T} L_{k}^{T} L_{k} B_{n}^{(k)} > R_{k}^{T} R_{k})} \end{matrix} - - - (14)

其中γ_n，k表示第n个样本属于第k个高斯分布的后验概率；

迭代进行E步和M步，使似然函数值增大并趋于稳定。

本发明基于混合高斯模型对二维数据进行降维，通过引入隐变量，使用变分最大期望算法求解模型参数，以及降维后的系数矩阵，达到对二维数据进行压缩的效果，使用降维矩阵和系数矩阵重构图像，与原始图像比较得到损失较小的图像，将降维后的系数矩阵看作是样本的特征，使用系数矩阵对样本进行分类，所以能够对二维数据在行和列两个方向上进行降维，重构效果更好。

附图说明

图1示出了MNIST数据库上不同算法的重构误差，图1a中K＝2，图1b中K＝5，图1c中K＝10。

图2a是在Yale数据库上的重构误差曲线图,图2b是在AR数据库上的重构误差曲线图，两图中K＝5。

具体实施方式

这种混合二维概率主成分分析方法，样本服从矩阵变量的混合高斯分布，该方法包括以下步骤：

(1)根据公式(1)构建概率的二阶主成分分析模型2DPCA

X_n＝LB_nR^T+M+E_n；(1)

(2)根据公式(2)构建混合的2DPCA

(3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计

z_nk取值为1或0，代表第n个样本是否属于第k个高斯分布。

T_{n}^{(k)} = {cσ}_{k}^{2} {[t r (R_{k}^{T} R_{k} S_{n}^{(k)}) L_{k}^{T} L_{k} + σ_{k}^{2} t r (S_{n}^{(k)}) I_{r}]}^{- 1} - - - (9)

S_{n}^{(k)} = {rσ}_{k}^{2} {[t r (L_{k}^{T} L_{k} T_{n}^{(k)}) R_{k}^{T} R_{k} + σ_{k}^{2} t r (T_{n}^{(k)}) I_{c}]}^{- 1} - - - (10)

v e c (Q_{n}^{(k)}) = {[R_{k}^{T} R_{k} &CircleTimes; L_{k}^{T} L_{k} + σ_{k} I &CircleTimes; σ_{k} I]}^{- 1} y - - - (11)

其中

y = v e c (L_{k}^{T} (X_{n} - M_{k}) R_{k});

M步更新公式(4)中的参数，得到公式(12)-(14)：

L_{k} = [Σ_{n = 1}^{N} γ_{n k} (X_{n} - M_{k}) R_{k} {(Q_{n}^{(k)})}^{T}] {[Σ_{n = 1}^{N} γ_{n k} Q_{n}^{(k)} R_{k}^{T} R_{k} {(Q_{n}^{(k)})}^{T} + t r (R_{k}^{T} R_{k} S_{n}^{(k)}) T_{n}^{(k)}]}^{- 1} - - - (12)

R_{k} = [Σ_{n = 1}^{N} γ_{n k} {(X_{n} - M_{k})}^{T} L_{k} Q_{n}^{(k)}] {[Σ_{n = 1}^{N} γ_{n k} {(Q_{n}^{(k)})}^{T} L_{k}^{T} L_{k} Q_{n}^{(k)} + t r (L_{k}^{T} L_{k} T_{n}^{(k)}) S_{n}^{(k)}]}^{- 1} - - - (13)

\begin{matrix} σ_{k}^{2} = \frac{1}{{pqN}_{k}} {Σ_{n = 1}^{N} γ_{n k} t r {(X_{n} - M_{k})}^{T} (X_{n} - M_{k}) \\ - 2 Σ_{n = 1}^{N} γ_{n k} t r (R_{k} < B_{n}^{(k)} >^{T} L_{k}^{T} (X_{n} - M_{k})) \\ + Σ_{n = 1}^{N} γ_{n k} t r (< B_{n}^{(k) T} L_{k}^{T} L_{k} B_{n}^{(k)} > R_{k}^{T} R_{k})} \end{matrix} - - - (14)

其中γ_n，k表示第n个样本属于第k个高斯分布的后验概率；

迭代进行E步和M步，使似然函数值增大并趋于稳定。

现在更详细地说明本发明。

为了求解公式(2)，利用变分近似算法求解模型中所有变量的后验分布的密度函数。

1概率的二阶PCA(PSOPCA)

令χ＝{X₁，X₂，...，X_N}是一组独立同分布随机变量的N个样本，其中每个样本的大小为2D主成分分析可以表示成如下形式：

X_n＝LB_nR^T+M+E_n；(1)

其中L(p×r)和R(q×c)分别是行和列方向的降维矩阵，B_n(r×c)是样本X_n的隐变量核，即系数矩阵。r≤p，c≤q是降维后的行和列数。M(p×q)是均值矩阵，E_n是满足矩阵高斯分布的噪声，即，也就是它的每个分量满足则模型(1)就是标准的概率2DPCA。

2MixB2DPPCA模型

对于更加复杂的数据集，单单用一个主成分模型很难拟合原来的样本集，因为这种主成分分析是一种全局降维模型，对于一些数据分布复杂的样本，仅仅找到一个主方向显然是不合理的。因此，提出一种局部2DPCA模型，利用多个2DPCA的混合形式找到一组降维方向，从而可以更好的表示原始数据的主成分。

在本项目中，考虑混合的2DPCA，目的是对复杂的二维样本数据在得到分类后，并求解每一类的降维矩阵。假设样本X_n服从由K个高斯分布组成的高斯混合模型(GMM)，即

值得注意的是，一个分离的均值项M_k是与K个混合成分相联系的,实际上它是第k类样本集的均值，L_k和R_k是样本集得到的第k类降维。π_k是混合比例，

π_{k} > 0, Σ_{k = 1}^{K} π_{k} = 1.

引入一个K维二进制随机变量z，K个元素中只有一个元素z_k等于1，其他元素为0.也就是z_k∈{0，1}且所以p(z_k＝1)＝π_k，则z的后验分布定义为：

p (z) = Π_{k = 1}^{K} π_{k}^{z_{k}}

因此样本Xn服从第k个高斯分布的条件概率为

则样本Xn的条件概率可以写成：

假设隐变量矩阵的先验概率服从均值为0，行、列协方差为单位矩阵的高斯分布：

3MixB2DPPCA的变分最大期望求解

通过极大似然函数对公式(2)中的参数进行估计。通过利用混合高斯模型的思想，公式(2)可以达到对样本集中的数据进行分类，并且找到不同类别的降维矩阵L_k和R_k(k＝1，...，K)。这个模型的似然函数为：

在求解此模型时，可以利用变分最大期望(EM)算法优化模型中参数

L_{k}, R_{k}, π_{k}, σ_{k}^{2}, (k = 1, ..., K) .

(1)引入变量γ_n，k，它表示第n个样本属于第k个高斯分布的后验概率即，

γ_{n k} = \frac{π_{k} p (X_{n} | k)}{p (X_{n})} = \frac{π_{k} p (v e c (X_{n}) | k)}{p (v e c (X_{n}))} - - - (5)

其中p(X_n|k)是样本X_n的边缘概率。由于在给定隐变量后X_n的条件概率是：

因此vec(X_n)的边缘分布为：其中

C = σ^{2} I + W_{k} W_{k}^{T}, W_{k} = R_{k} &CircleTimes; L_{k}

从而，可以得到每个高斯分布的权重系数：

π_{k} = \frac{1}{N} Σ_{n = 1}^{N} γ_{n k} - - - (7)

和均值：

M_{k} = \frac{Σ_{n = 1}^{N} γ_{n k} X_{n}}{Σ_{n = 1}^{N} γ_{n k}} - - - (8)

(2)首先初始化混合模型(1)的参数在EM算法的E步中，对隐变量求解其后验分布:其中分别是行和列方向的协方差矩阵。经计算可以得出：

T_{n}^{(k)} = {cσ}_{k}^{2} {[t r (R_{k}^{T} R_{k} S_{n}^{(k)}) L_{k}^{T} L_{k} + σ_{k}^{2} t r (S_{n}^{(k)}) I_{r}]}^{- 1} - - - (9)

S_{n}^{(k)} = {rσ}_{k}^{2} {[t r (L_{k}^{T} L_{k} T_{n}^{(k)}) R_{k}^{T} R_{k} + σ_{k}^{2} t r (T_{n}^{(k)}) I_{c}]}^{- 1} - - - (10)

v e c (Q_{n}^{(k)}) = {[R_{k}^{T} R_{k} &CircleTimes; L_{k}^{T} L_{k} + σ_{k} I &CircleTimes; σ_{k} I]}^{- 1} y - - - (11)

其中

y = v e c (L_{k}^{T} (X_{n} - M_{k}) R_{k}) .

(3)E步得到隐变量的后验分布后，M步更新模型中的参数，即降维矩阵。通过极大化似然函数，可以得到：

L_{k} = [Σ_{n = 1}^{N} γ_{n k} (X_{n} - M_{k}) R_{k} {(Q_{n}^{(k)})}^{T}] {[Σ_{n = 1}^{N} γ_{n k} Q_{n}^{(k)} R_{k}^{T} R_{k} {(Q_{n}^{(k)})}^{T} + t r (R_{k}^{T} R_{k} S_{n}^{(k)}) T_{n}^{(k)}]}^{- 1} - - - (12)

R_{k} = [Σ_{n = 1}^{N} γ_{n k} {(X_{n} - M_{k})}^{T} L_{k} Q_{n}^{(k)}] {[Σ_{n = 1}^{N} γ_{n k} {(Q_{n}^{(k)})}^{T} L_{k}^{T} L_{k} Q_{n}^{(k)} + t r (L_{k}^{T} L_{k} T_{n}^{(k)}) S_{n}^{(k)}]}^{- 1} - - - (13)

迭代进行E步和M步，使似然函数值增大并趋于稳定。

本发明在四个数据库上做了相应的实验，手写体数据库、Yale数据库、AR数据库和FERET数据库。这些实验是为了证明本文提出的方法可以损失更小地对样本降维，并且降维后的系数矩阵作为原始图像的特征，可以有效对图像分类。涉及到的算法有：GLRAM(GeneralizedLowRankApproximationsofMatrices),mixPPCA(MixtureProbabilisticPCA),mixB2DPPCA(MixtureofBilateral-ProjectionTwo-dimensionalProbabilisticPCA)。

1数据的准备以及实验参数设定

实验中应用了以下四个数据库：

◆MINIST数据库的一个子集(http://yann.lecun.com/exdb/mnist)

◆Yale数据库

(http://vision.ucsd.edu/content/yale-face-database)

◆AR数据库

(http://rvl1.ecn.purdue.edu/～aleix/aleix_face_DB.html)

◆FERET数据库

(http://www.itl.nist.gov/iad/humanid/feret/feret_master.html)

从MNIST数据库中选出1000张图片，即每个数字随机选出100张。所有图像是灰度图像且大小为28×28。

Yale数据库包含15个人，每个人11幅图像。这些图像是在不同光照条件和表情得到的。训练阶段我们选择每个人6幅图像(90)作为训练，剩下的作为测试，所有图像大小为64×64。

AR数据库包含126个人的4000幅图像，每个人26幅人脸正面图像，这26幅图像包含表情变化、光照变化和遮挡。每个人的26幅图像分为两部分(拍摄时间相隔两周)，两部分均为13张。在本实验中，选择30个人的图像做实验(男15人，女15人)，并且只选择每人无遮挡的14幅图像。其中每人的前7幅用来训练，后7幅做测试，每张图片下采样为64×64。

FERET数据库包含200个人的1400幅图像，每个人有7幅图像，这7幅图像中包含角度、表情、明暗变化，每张图片的大小为80×80。随机选出50个人的图像做实验，每人随机挑选5张做训练，另外的2张做测试。

本实验中π_k初始值为1/K，T_k和S_k初始值为单位矩阵，σ_k初始值为1，L_k和R_k初始值随机给定。

2重构误差

主要是在MNIST和Yale数据库上比较不同降维方法的重构误差。涉及到的方法有GLRAM，mixPPCA和本发明提出的mixB2DPPCA.GLRAM和mixB2DPPCA都是二维的特征提取方法，在行、列两个方向降维；mixPPCA和mixB2DPPCA都利用高斯混合模型对数据降维。

图1是MNIST数据库上不同算法的重构误差。从图中可以看出，当K相同时，使用本文提出的方法的重构误差优于mixPPCA；当K改变时，GLRAM的重构误差不变，这是因为GLRAM方法使用的是非混合模型，与K的大小无关；当K增大时，mixPPCA和mixB2DPPCA的重构误差都有所降低，并且mixB2DPPCA总是优于mixPPCA和GLRAM。

图2是在Yale数据库和AR数据库上的重构误差曲线图，其中K＝5。从图中可以看出使用本发明提出的算法可以得到重构误差更小的重构图像，即在降维时损失最小。

3识别率

第三个实验主要在Yale、AR和FERET数据库从识别率方面验证mixB2DPPCA算法的鲁棒性。实验中利用最近邻(1-NN)算法作为分类器。表1是GLRAM、mixPPCA和mixB2DPCA三种方法在Yale库上的识别率。其中降维的维数(r，c)分别为(2,2),(4,4),(6,6)和(8,8)。高斯混合模型的K分别取值为4,6,8。

表1

表2是在AR数据库上的识别率。降维维度(r，c)分别为(4,4)，(6,6)和(8,8)。高斯混合模型的K分别取值为6,8,10。

表2

表3是在FERET数据库上的识别率。降维维度(r，c)分别为(4,4)，(6,6)，(8,8)和(10,10)。高斯混合模型的K分别取值为6,8,10。

表3

从以上表格可以看出，使用本发明mixB2DPPCA提取的特征在识别上具有明显优势。

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种混合二维概率主成分分析方法，其特征在于，样本服从矩阵变量的混合高斯分布，该方法包括以下步骤：

(1)根据公式(1)构建概率的二阶主成分分析模型2DPCA

X_n＝LB_nR^T+M+E_n；(1)

(2)根据公式(2)构建混合的2DPCA

其中分离的均值项M_k是第k类样本集的均值，L_k和R_k是样本集得到的第k类降维，π_k是混合比例，π_k＞0，是第k个高斯分布的方差；

(3)通过公式(4)的极大似然函数对公式(2)中的参数进行估计

z_nk取值为1或0，代表第n个样本是否属于第k个高斯分布。

T_{n}^{(k)} = {cσ}_{k}^{2} {[t r (R_{k}^{T} R_{k} S_{n}^{(k)}) L_{k}^{T} L_{k} + σ_{k}^{2} t r (S_{n}^{(k)}) I_{r}]}^{- 1} - - - (9)

S_{n}^{(k)} = {rσ}_{k}^{2} {[t r (L_{k}^{T} L_{k} T_{n}^{(k)}) R_{k}^{T} R_{k} + σ_{k}^{2} t r (T_{n}^{(k)}) I_{c}]}^{- 1} - - - (10)

v e c (Q_{n}^{(k)}) = {[R_{k}^{T} R_{k} &CircleTimes; L_{k}^{T} L_{k} + σ_{k} I &CircleTimes; σ_{k} I]}^{- 1} y - - - (11)

其中

y = v e c (L_{k}^{T} (X_{n} - M_{k}) R_{k});

M步更新公式(4)中的参数，得到公式(12)-(14)：

L_{k} = [Σ_{n = 1}^{N} γ_{n k} (X_{n} - M_{k}) R_{k} {(Q_{n}^{(k)})}^{T}] {[Σ_{n = 1}^{N} γ_{n k} Q_{n}^{(k)} R_{k}^{T} R_{k} {(Q_{n}^{(k)})}^{T} + t r (R_{k}^{T} R_{k} S_{n}^{(k)}) T_{n}^{(k)}]}^{- 1} - - - (12)

R_{k} = [Σ_{n = 1}^{N} γ_{n k} {(X_{n} - M_{k})}^{T} L_{k} Q_{n}^{(k)}] {[Σ_{n = 1}^{N} γ_{n k} {(Q_{n}^{(k)})}^{T} L_{k}^{T} L_{k} Q_{n}^{(k)} + t r (L_{k}^{T} L_{k} T_{n}^{(k)}) S_{n}^{(k)}]}^{- 1} - - - (13)

\begin{matrix} σ_{k}^{2} = \frac{1}{{pqN}_{k}} {Σ_{n = 1}^{N} γ_{n k} t r {(X_{n} - M_{k})}^{T} (X_{n} - M_{k}) \\ - 2 Σ_{n = 1}^{N} γ_{n k} t r (R_{k} < B_{n}^{(k)} >^{T} L_{k}^{T} (X_{n} - M_{k})) \\ + Σ_{n = 1}^{N} γ_{n k} t r (< B_{n}^{(k) T} L_{k}^{T} L_{k} B_{n}^{(k)} > R_{k}^{T} R_{k})} \end{matrix} - - - (14)

其中γ_n，k表示第n个样本属于第k个高斯分布的后验概率；

迭代进行E步和M步，使似然函数值增大并趋于稳定。