CN111476100B

CN111476100B - 基于主成分分析的数据处理方法、装置及存储介质

Info

Publication number: CN111476100B
Application number: CN202010155934.8A
Authority: CN
Inventors: 奚晓钰
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2020-03-09
Filing date: 2020-03-09
Publication date: 2023-11-14
Anticipated expiration: 2040-03-09
Also published as: CN111476100A

Abstract

本发明实施例涉及软件缺陷预测领域，公开了一种基于主成分分析的数据处理方法、装置及计算机可读存储介质，所述方法包括：对初始样本数据进行降维处理，得到预设维度的样本数据；获取所述样本数据的多个特征，并计算每个特征与预设类别的相关度，其中，所述预设类别为所述样本数据具有的多种类别中的一种类别；去除所述多个特征中相关度小于预设相关度的特征，将剩余特征作为所述样本数据的鉴别特征。本发明提供的基于主成分分析的数据处理方法、装置及计算机可读存储介质能够去除样本数据中的冗余特征，得到具有高鉴别性的样本数据，从而提高预测效率。

Description

基于主成分分析的数据处理方法、装置及存储介质

技术领域

本发明实施例涉及数据处理领域，特别涉及一种基于主成分分析的数据处理方法、装置及计算机可读存储介质。

背景技术

信息熵是消除不确定性所需信息量的度量，也即未知事件可能含有的信息量。一个事件或一个***，准确的说是一个随机变量，它有着一定的不确定性。某些随机变量的不确定性很高，要消除这个不确定性，就需要引入很多的信息，这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多，则信息熵越高，反之则越低。如果某个情况因为确定性很高，几乎不需要引入信息，因此信息熵很低。根据香农给出的信息熵公式，对于任意一个随机变量X，它的信息熵定义如下，单位为比特(bit)：H(X)＝-∑xεX[P(x)logP(x)]。***中各种随机性的概率越均等，信息熵越大，反之越小。

发明人发现现有技术中至少存在如下问题：根据上述公式分析样本数据的特征，得到的冗余特征较多，导致利用该样本数据训练的模型预测效率不高。

发明内容

本发明实施方式的目的在于提供一种基于主成分分析的数据处理方法、装置及计算机可读存储介质，其能够去除样本数据中的冗余特征，得到具有高鉴别性的样本数据，从而提高预测效率。

为解决上述技术问题，本发明的实施方式提供了一种基于主成分分析的数据处理方法，包括：

对初始样本数据进行降维处理，得到预设维度的样本数据；获取所述样本数据的多个特征，并计算每个特征与预设类别的相关度，其中，所述预设类别为所述样本数据具有的多种类别中的一种类别；去除所述多个特征中相关度小于预设相关度的特征，将剩余特征作为所述样本数据的鉴别特征。

本发明的实施方式还提供了一种基于主成分分析的数据处理装置，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的基于主成分分析的数据处理方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述的基于主成分分析的数据处理方法。

本发明的实施方式相对于现有技术而言，通过对所述初始样本数据进行降维处理，得到预设维度的样本数据，以便于后续步骤的计算，减小后续步骤的运算量，从而提高数据处理方法的效率；通过获取所述样本数据的多个特征，并计算每个特征与预设类别的相关度，由于预设类别为样本数据具有的多种类别中的一种类别，通过此种方式，能够根据相似度得知样本数据的多个特征中哪些特征为冗余特征；通过去除所述多个特征中相关度小于预设相关度的特征，将剩余特征作为所述样本数据的鉴别特征，能够得到具有高鉴别性的样本数据，使得使用该样本数据的训练模型的预算速度变快，从而提高预测效率。

另外，在去除所述多个特征中相关度小于预设相关度的特征之后，还包括：将所述剩余特征按照所述相关度由高到低的顺序排序；将排序后的所述剩余特征划分为N个特征段，其中，每个特征段中均包括M个特征，N、M均为大于1的整数；判断是否存在M个特征均大于预设阈值的特征段，在判定存在时，去除所述特征段中相似度最小的特征。

另外，所述对所述初始样本数据进行降维处理，具体包括：将所述初始样本数据转化成数据矩阵；计算所述数据矩阵的协方差矩阵，并对所述协方差矩阵进行特征分解，得到所述协方差矩阵的特征值，以及与所述特征值对应的特征向量；根据所述特征值及所述特征向量得到投影矩阵，并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。

另外，所述根据所述特征值及所述特征向量得到投影矩阵，具体包括：将所述特征向量从上到下按行排列成矩阵，其中，所述特征向量对应的特征值越大，所述特征向量位于所述矩阵的越前行；取前k行组成所述投影矩阵，其中，k为大于1的整数。

另外，在计算所述数据矩阵的协方差矩阵之前，还包括：对所述数据矩阵的每一行进行零均值化处理；所述计算所述数据矩阵的协方差矩阵，具体包括：计算零均值化处理后的数据矩阵的协方差矩阵。

另外，通过以下公式计算特征与所述预设类别的相关度：Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]；其中，Si为所述相似度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。

另外，通过以下公式计算特征与所述预设类别的相关度：Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]；其中，Si为所述相似度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度；λ为平衡常数。

另外，所述初始样本数据为图像样本数据。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施方式提供的基于主成分分析的数据处理方法的流程图；

图2是根据本发明第二实施方式提供的基于主成分分析的数据处理方法的流程图；

图3是根据本发明第三实施方式提供的基于主成分分析的数据处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。

本发明的第一实施方式涉及一种基于主成分分析的数据处理方法，具体流程如图1所示，包括：

S101：对初始样本数据进行降维处理，得到预设维度的样本数据。

具体的说，在对初始样本数据进行降维处理之前，会预先获取待处理的初始样本数据。本实施方式中所述对所述初始样本数据进行降维处理，具体包括：将所述初始样本数据转化成数据矩阵；计算所述数据矩阵的协方差矩阵，并对所述协方差矩阵进行特征分解，得到所述协方差矩阵的特征值，以及与所述特征值对应的特征向量；根据所述特征值及所述特征向量得到投影矩阵，并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。所述根据所述特征值及所述特征向量得到投影矩阵，具体包括：将所述特征向量从上到下按行排列成矩阵，其中，所述特征向量对应的特征值越大，所述特征向量位于所述矩阵的越前行；取前k行组成所述投影矩阵，其中，k为大于1的整数。例如，特征向量从上到下按行排列成的矩阵共有8行，表明共有8个特征向量，若某一特征向量对应的特征值在这8个特征向量对应的特征值中最大，则该特征向量位于该矩阵的第一行，以此类推。

值得一提的是，为了减小数据矩阵的误差，避免数据矩阵中的噪声数据对最后的分析结果造成影响，在计算所述数据矩阵的协方差矩阵之前，还包括：对所述数据矩阵的每一行进行零均值化处理；所述计算所述数据矩阵的协方差矩阵，具体包括：计算零均值化处理后的数据矩阵的协方差矩阵。

可以理解的是，本实施方式是通过PCA方法降低初始样本数据的维度。需要说明的是，现有技术中通常使用多维尺度分析(MDS)对数据样本进行降维。MDS是一种维度降低的方法，通过分析相似数据来挖掘数据中的隐藏结构信息，通常，相似度量使用欧式距离度量来表示。所以，MDS算法的目的是在尽可能的保留数据样本间距离的情况下，将数据样本映射到一个低维的空间，以此降低样本的维度。MDS就是理论上保持欧式距离的一个经典方法，MDS最早主要用于做数据的可视化。由于MDS得到的低维表示中心在原点，所以又可以说保持内积。也就是说，用低维空间中的内积近似高维空间中的距离。经典的MDS方法，高维空间中的距离一般用欧式距离。多维尺度分析(MDS)和主成分分析(PCA)都是数据降维技术，但是在优化的方向有所不同。PCA的输入是n维空间的原始向量，并且将数据投影到具有最大协方差的投影方向上，因此在降维过程中数据的特性基本被保留。MDS的输入是点与点之间的成对距离，MDS的输出是距离被保留的点在二维或三维的投影。

简言之，PCA最小化样本维度,是可以保存数据的协方差。MDS最小化样本维度，是可以保存数据点之间的距离。如果在数据协方差和高维度数据点之间的欧几里得距离，即欧式距离一致的时候，他们是相同的；如果距离测量是不同的，那这两种方法是不同的。显而易见，MDS有其局限性，而PCA恰好作为替代方法可以弥补，应用范围更加广泛，并且PCA的输入为n维空间的原始向量，因此其相对MDS在输入方面就简化了算法，降低了算法复杂度，最重要的是PCA方法在软件缺陷方面对数据的降维和预处理应用非常广泛，效果较MDS也较好。

为了便于理解，下面对PCA方法的算法过程进行详细的解释说明：

设共有N张图像训练样本，简单地表示为x_k∈X(k＝1,...,N)，X为训练样本数据集，训练样本共有c类，每类分别有N_i张训练样本，把每幅数据的图像矩阵展开得到的列向量维数为n。所有图像训练样本的平均样本用下式表示：

训练样本的第i(i＝1,…,c)类的平均样本表示如下：

主成分分析方法的具体过程是：首先要读入数据库，把每一个读入的二维的数据图像数据都展开成为一维的向量，每类图像样本都可以根据产生的随机矩阵选择一定数量的图像构成训练样本集，剩下的就构成测试样本集。接着就是计算K-L正交变换的生成矩阵，该生成矩阵可以由训练样本的总体散度矩阵S_T表示，也可以由训练样本的类间散度矩阵S_B来表示，散度矩阵是由训练集生成的，在此用总体散度矩阵S_T表示，定义为：

生成矩阵Σ可表示为：Σ＝S_TS_T ^T

接着进行特征值分解，计算生成矩阵Σ的特征值和特征向量，把特征值按从大到小依次进行排序，保留前m个最大的特征值，以及这m个特征值所对应的特征向量，从而获得了从高维空间向低维空间投影的投影矩阵，构造特征子空间。也就是说利用K-L变换的PCA方法，旨在寻找一组最佳的投影向量，满足准则函数：

接下来就是寻找最佳投影向量，也就是最大化上述准则函数的单位向量w，其物理意义是：在该投影向量w表示的方向上，图像向量投影后得到的特征向量的总体分散程度最大，即图像数据的每个样本与总体训练样本的平均样本之间的距离最大。因为上述计算的最佳投影向量，就是总体散度矩阵S_T的最大特征值所对应的单位特征向量。而在样本类别数较多的情况下，只有单一的最优投影方向不足以用来完全表示所有图像样本的特征。从而，这里就需要寻找一组既能够极大化准则函数又能够满足标准正交条件的最佳投影向量组w₁,w₂,...,w_m。而最佳投影矩阵就是通过最佳投影向量组表示的，即P＝[w₁,w₂,...,w_m]。

接着，分别将训练样本和测试样本都投影到上面求出的特征子空间中，每一幅数据图像投影到上述特征子空间之后，都会对应于子空间中的一个点。同样，特征子空间中的任意一点也都能找到其相应的某一幅数据图像，这些特征子空间中数据图像投影得到的点就被称为“特征脸”。顾名思义，“特征脸”方法即表示通过K-L正交变换来进行数据识别的方法。

最后，把经过上述向量投影，变换到特征子空间中的所有测试图像样本和训练图像样本进行比较，从而确定待识别数据图像样本所属的类别，这就是对测试样本进行的分类，需要选择合适的分类器和相异度测试公式。

S102：获取样本数据的多个特征，并计算每个特征与预设类别的相关度。

具体的说，本实施方式可以通过以下公式计算特征与所述预设类别的相关度：Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]；其中，Si为所述相似度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。

值得一提的是，为了使得第一部分和第二部分的计算项平衡，需要增加一个平衡参数λ，因此，本实施方式还可以通过以下公式计算特征与所述预设类别的相关度：

Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]；其中，Si为所述相似度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度；λ为平衡常数。

可以理解的是，相对于现有技术中的信息熵公式，本实施方式中的公式扩展了原方法中只有样本的特征的计算方式，使得同一个样本之间任意两个不同特征之间的鉴别特征选取类别相关性较高。第一个方括号表示同一个样本之间任意两个不同特征及其在不同维度的表示之间的鉴别相关性，并且通过该计算的约束性可以更好的获得比较直观的相关性较高的特征，而原方法并不能很直观的通过计算得出相关性较高的特征，它只是考虑了样本特征的相关性，却忽略了样本特征之间存在更重要的特征相关性，通过该计算可以充分利用同一样本的不同特征之间的联系，包括相关特征和冗余特征，很显然，如果第一个方括号计算出来的值越大，则表示样本特征之间的相关性越高，可以获得其相关特征，反之亦然，如果第一个方括号计算出来的值越小，则表示样本特征之间的冗余度越高，可以有效去除其冗余特征，使得样本特征的鉴别性更高。后面两个方括号的计算表示同一样本的两个不同特征分别与类别变量之间的相似度，同样，值越大表示特征与类别的相似度越高，即相关性越高，反之亦然，值越小表示特征与类别的相似度越低，即相关性越低。

S103：去除多个特征中相关度小于预设相关度的特征，将剩余特征作为样本数据的鉴别特征。

具体的说，预设相关度的大小可以根据实际需求设置，本实施方式并不对此作具体限定。本实施方式是基于主成分分析样本数据，主成分分析的基本思想是提取高维数据空间的主要特征，并保持原来高维数据的绝大部分信息，使得高维数据可以在一个较低维的特征空间上被处理。K-L变换是主成分分析的基础。它是一种最优正交变换，是基于目标统计特征的，其目的是找到一个线性的投影变换，通过这个投影变换使得新的特征分量正交或不相关，并且为了使数据的能量更加集中，要求经过投影重建后的特征分量与原输入样本在最小均方意义下的误差最小。从而得到原样本的低维近似表示，能够更好得压缩原始数据。运用K-L变换进行数据识别，提出了经典的特征脸方法(Eigenfaces)，形成了子空间学习方法的基础。简而言之，就是从输入数据训练图像中，通过主成分分析得到一组特征脸图像，再给定任意的数据图像，使得每个数据图像都可以用这组特征脸图像来线性表示，即通过计算主成分分析得到的特征脸图像的加权线性组合。

主成分分析的本质是计算协方差矩阵并将其对角化。可以假设所有的数据图像都在一个线性的低维空间中，而且在该低维空间中所有数据图像都是线性可分的，再把主成分分析方法用于数据特征识别，其具体做法是要进行K-L变换，将高维图像输入空间经变换得到一组新的正交基，按照一定的方法对变换得到的正交基按一定的条件进行筛选，剔除一些冗余的向量，保留那些特征鉴别能力强的向量，来生成低维的数据子空间，也就是数据的特征脸子空间。利用主成分分析方法降低输入数据空间维数的关键是找出最能够代表原始数据的投影方法，以“降噪”和消灭“冗余”的维度，使得降低维度的同时，能够保证原始输入数据中最重要的特征不丢失。在协方差矩阵中，只需要选取那些能量(特征值)比较大的维度，其余相对较低的就舍掉，这样就能够保留输入图像数据中那些重要的特征信息，而舍弃无益于数据识别的其他部分。

为了便于理解，下面对本实施方式中如何处理样本数据进行具体的举例说明：

输入：训练样本集：X＝[X1，X2，...，Xc]，其中Xi＝(F1，F2，...，Fm，L)，k<m，i＝1...m。

PCA数据降维的维度：k

Claims

1.一种基于主成分分析的数据处理方法，其特征在于，包括：

对初始样本数据进行降维处理，得到预设维度的样本数据，其中，所述初始样本数据为图像样本数据，所述样本数据为各特征脸图像；

获取所述样本数据的多个特征，并计算每个特征与预设类别的相关度，其中，所述预设类别为所述样本数据具有的多种类别中的一种类别；

去除所述多个特征中相关度小于预设相关度的特征，将剩余特征作为所述样本数据的鉴别特征；

其中，所述对初始样本数据进行降维处理，得到预设维度的样本数据，包括：

基于主成分分析方法对所述图像样本数据进行数据特征识别处理，获取各所述特征脸图像，其中，各所述特征脸图像用于线性表示任一个所述图像样本数据；

所述去除所述多个特征中相关度小于预设相关度的特征之后，还包括：

将所述剩余特征按照所述相关度由高到低的顺序排序；

将排序后的所述剩余特征划分为N个特征段，其中，每个特征段中均包括M个特征，N、M均为大于1的整数；

判断是否存在M个特征的所述相关度均大于预设阈值的特征段，在判定存在时，去除所述特征段中相关度最小的特征。

2.根据权利要求1所述的基于主成分分析的数据处理方法，其特征在于，所述对所述初始样本数据进行降维处理，具体包括：

将所述初始样本数据转化成数据矩阵；

计算所述数据矩阵的协方差矩阵，并对所述协方差矩阵进行特征分解，得到所述协方差矩阵的特征值，以及与所述特征值对应的特征向量；

根据所述特征值及所述特征向量得到投影矩阵，并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。

3.根据权利要求2所述的基于主成分分析的数据处理方法，其特征在于，所述根据所述特征值及所述特征向量得到投影矩阵，具体包括：

将所述特征向量从上到下按行排列成矩阵，其中，所述特征向量对应的特征值越大，所述特征向量位于所述矩阵的越前行；

取前k行组成所述投影矩阵，其中，k为大于1的整数。

4.根据权利要求2或3所述的基于主成分分析的数据处理方法，其特征在于，在计算所述数据矩阵的协方差矩阵之前，还包括：

对所述数据矩阵的每一行进行零均值化处理；

所述计算所述数据矩阵的协方差矩阵，具体包括：

计算零均值化处理后的数据矩阵的协方差矩阵。

5.根据权利要求1所述的基于主成分分析的数据处理方法，其特征在于，通过以下公式计算特征与所述预设类别的相关度：

Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×

(IG(Y|L))-(H(Y)+H(L))]；

其中，Si为所述相关度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。

6.根据权利要求1所述的基于主成分分析的数据处理方法，其特征在于，通过以下公式计算特征与所述预设类别的相关度：

Si＝[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×

(IG(Y|L))-(H(Y)+H(L))]；

其中，Si为所述相关度；X、Y为样本数据的两个不同特征；X`为X在不同维度的表示、Y`为Y在不同维度的表示；L为所述预设类别；[X^T×Y+X`^T×Y+X^T×Y`+X`^T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性；[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度；λ为平衡常数。

7.一种基于主成分分析的数据处理装置，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的基于主成分分析的数据处理方法。

8.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于主成分分析的数据处理方法。