CN111476100B - 基于主成分分析的数据处理方法、装置及存储介质 - Google Patents
基于主成分分析的数据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111476100B CN111476100B CN202010155934.8A CN202010155934A CN111476100B CN 111476100 B CN111476100 B CN 111476100B CN 202010155934 A CN202010155934 A CN 202010155934A CN 111476100 B CN111476100 B CN 111476100B
- Authority
- CN
- China
- Prior art keywords
- data
- features
- sample data
- feature
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000513 principal component analysis Methods 0.000 title claims abstract description 43
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000009467 reduction Effects 0.000 claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims description 79
- 239000013598 vector Substances 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 9
- 230000009466 transformation Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及软件缺陷预测领域,公开了一种基于主成分分析的数据处理方法、装置及计算机可读存储介质,所述方法包括:对初始样本数据进行降维处理,得到预设维度的样本数据;获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,其中,所述预设类别为所述样本数据具有的多种类别中的一种类别;去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征。本发明提供的基于主成分分析的数据处理方法、装置及计算机可读存储介质能够去除样本数据中的冗余特征,得到具有高鉴别性的样本数据,从而提高预测效率。
Description
技术领域
本发明实施例涉及数据处理领域,特别涉及一种基于主成分分析的数据处理方法、装置及计算机可读存储介质。
背景技术
信息熵是消除不确定性所需信息量的度量,也即未知事件可能含有的信息量。一个事件或一个***,准确的说是一个随机变量,它有着一定的不确定性。某些随机变量的不确定性很高,要消除这个不确定性,就需要引入很多的信息,这些很多信息的度量就用“信息熵”表达。需要引入消除不确定性的信息量越多,则信息熵越高,反之则越低。如果某个情况因为确定性很高,几乎不需要引入信息,因此信息熵很低。根据香农给出的信息熵公式,对于任意一个随机变量X,它的信息熵定义如下,单位为比特(bit):H(X)=-∑xεX[P(x)logP(x)]。***中各种随机性的概率越均等,信息熵越大,反之越小。
发明人发现现有技术中至少存在如下问题:根据上述公式分析样本数据的特征,得到的冗余特征较多,导致利用该样本数据训练的模型预测效率不高。
发明内容
本发明实施方式的目的在于提供一种基于主成分分析的数据处理方法、装置及计算机可读存储介质,其能够去除样本数据中的冗余特征,得到具有高鉴别性的样本数据,从而提高预测效率。
为解决上述技术问题,本发明的实施方式提供了一种基于主成分分析的数据处理方法,包括:
对初始样本数据进行降维处理,得到预设维度的样本数据;获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,其中,所述预设类别为所述样本数据具有的多种类别中的一种类别;去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征。
本发明的实施方式还提供了一种基于主成分分析的数据处理装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于主成分分析的数据处理方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于主成分分析的数据处理方法。
本发明的实施方式相对于现有技术而言,通过对所述初始样本数据进行降维处理,得到预设维度的样本数据,以便于后续步骤的计算,减小后续步骤的运算量,从而提高数据处理方法的效率;通过获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,由于预设类别为样本数据具有的多种类别中的一种类别,通过此种方式,能够根据相似度得知样本数据的多个特征中哪些特征为冗余特征;通过去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征,能够得到具有高鉴别性的样本数据,使得使用该样本数据的训练模型的预算速度变快,从而提高预测效率。
另外,在去除所述多个特征中相关度小于预设相关度的特征之后,还包括:将所述剩余特征按照所述相关度由高到低的顺序排序;将排序后的所述剩余特征划分为N个特征段,其中,每个特征段中均包括M个特征,N、M均为大于1的整数;判断是否存在M个特征均大于预设阈值的特征段,在判定存在时,去除所述特征段中相似度最小的特征。
另外,所述对所述初始样本数据进行降维处理,具体包括:将所述初始样本数据转化成数据矩阵;计算所述数据矩阵的协方差矩阵,并对所述协方差矩阵进行特征分解,得到所述协方差矩阵的特征值,以及与所述特征值对应的特征向量;根据所述特征值及所述特征向量得到投影矩阵,并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。
另外,所述根据所述特征值及所述特征向量得到投影矩阵,具体包括:将所述特征向量从上到下按行排列成矩阵,其中,所述特征向量对应的特征值越大,所述特征向量位于所述矩阵的越前行;取前k行组成所述投影矩阵,其中,k为大于1的整数。
另外,在计算所述数据矩阵的协方差矩阵之前,还包括:对所述数据矩阵的每一行进行零均值化处理;所述计算所述数据矩阵的协方差矩阵,具体包括:计算零均值化处理后的数据矩阵的协方差矩阵。
另外,通过以下公式计算特征与所述预设类别的相关度:Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))];其中,Si为所述相似度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。
另外,通过以下公式计算特征与所述预设类别的相关度:Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))];其中,Si为所述相似度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度;λ为平衡常数。
另外,所述初始样本数据为图像样本数据。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明第一实施方式提供的基于主成分分析的数据处理方法的流程图;
图2是根据本发明第二实施方式提供的基于主成分分析的数据处理方法的流程图;
图3是根据本发明第三实施方式提供的基于主成分分析的数据处理装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本发明而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本发明所要求保护的技术方案。
本发明的第一实施方式涉及一种基于主成分分析的数据处理方法,具体流程如图1所示,包括:
S101:对初始样本数据进行降维处理,得到预设维度的样本数据。
具体的说,在对初始样本数据进行降维处理之前,会预先获取待处理的初始样本数据。本实施方式中所述对所述初始样本数据进行降维处理,具体包括:将所述初始样本数据转化成数据矩阵;计算所述数据矩阵的协方差矩阵,并对所述协方差矩阵进行特征分解,得到所述协方差矩阵的特征值,以及与所述特征值对应的特征向量;根据所述特征值及所述特征向量得到投影矩阵,并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。所述根据所述特征值及所述特征向量得到投影矩阵,具体包括:将所述特征向量从上到下按行排列成矩阵,其中,所述特征向量对应的特征值越大,所述特征向量位于所述矩阵的越前行;取前k行组成所述投影矩阵,其中,k为大于1的整数。例如,特征向量从上到下按行排列成的矩阵共有8行,表明共有8个特征向量,若某一特征向量对应的特征值在这8个特征向量对应的特征值中最大,则该特征向量位于该矩阵的第一行,以此类推。
值得一提的是,为了减小数据矩阵的误差,避免数据矩阵中的噪声数据对最后的分析结果造成影响,在计算所述数据矩阵的协方差矩阵之前,还包括:对所述数据矩阵的每一行进行零均值化处理;所述计算所述数据矩阵的协方差矩阵,具体包括:计算零均值化处理后的数据矩阵的协方差矩阵。
可以理解的是,本实施方式是通过PCA方法降低初始样本数据的维度。需要说明的是,现有技术中通常使用多维尺度分析(MDS)对数据样本进行降维。MDS是一种维度降低的方法,通过分析相似数据来挖掘数据中的隐藏结构信息,通常,相似度量使用欧式距离度量来表示。所以,MDS算法的目的是在尽可能的保留数据样本间距离的情况下,将数据样本映射到一个低维的空间,以此降低样本的维度。MDS就是理论上保持欧式距离的一个经典方法,MDS最早主要用于做数据的可视化。由于MDS得到的低维表示中心在原点,所以又可以说保持内积。也就是说,用低维空间中的内积近似高维空间中的距离。经典的MDS方法,高维空间中的距离一般用欧式距离。多维尺度分析(MDS)和主成分分析(PCA)都是数据降维技术,但是在优化的方向有所不同。PCA的输入是n维空间的原始向量,并且将数据投影到具有最大协方差的投影方向上,因此在降维过程中数据的特性基本被保留。MDS的输入是点与点之间的成对距离,MDS的输出是距离被保留的点在二维或三维的投影。
简言之,PCA最小化样本维度,是可以保存数据的协方差。MDS最小化样本维度,是可以保存数据点之间的距离。如果在数据协方差和高维度数据点之间的欧几里得距离,即欧式距离一致的时候,他们是相同的;如果距离测量是不同的,那这两种方法是不同的。显而易见,MDS有其局限性,而PCA恰好作为替代方法可以弥补,应用范围更加广泛,并且PCA的输入为n维空间的原始向量,因此其相对MDS在输入方面就简化了算法,降低了算法复杂度,最重要的是PCA方法在软件缺陷方面对数据的降维和预处理应用非常广泛,效果较MDS也较好。
为了便于理解,下面对PCA方法的算法过程进行详细的解释说明:
设共有N张图像训练样本,简单地表示为xk∈X(k=1,...,N),X为训练样本数据集,训练样本共有c类,每类分别有Ni张训练样本,把每幅数据的图像矩阵展开得到的列向量维数为n。所有图像训练样本的平均样本用下式表示:
训练样本的第i(i=1,…,c)类的平均样本表示如下:
主成分分析方法的具体过程是:首先要读入数据库,把每一个读入的二维的数据图像数据都展开成为一维的向量,每类图像样本都可以根据产生的随机矩阵选择一定数量的图像构成训练样本集,剩下的就构成测试样本集。接着就是计算K-L正交变换的生成矩阵,该生成矩阵可以由训练样本的总体散度矩阵ST表示,也可以由训练样本的类间散度矩阵SB来表示,散度矩阵是由训练集生成的,在此用总体散度矩阵ST表示,定义为:
生成矩阵Σ可表示为:Σ=STST T
接着进行特征值分解,计算生成矩阵Σ的特征值和特征向量,把特征值按从大到小依次进行排序,保留前m个最大的特征值,以及这m个特征值所对应的特征向量,从而获得了从高维空间向低维空间投影的投影矩阵,构造特征子空间。也就是说利用K-L变换的PCA方法,旨在寻找一组最佳的投影向量,满足准则函数:
接下来就是寻找最佳投影向量,也就是最大化上述准则函数的单位向量w,其物理意义是:在该投影向量w表示的方向上,图像向量投影后得到的特征向量的总体分散程度最大,即图像数据的每个样本与总体训练样本的平均样本之间的距离最大。因为上述计算的最佳投影向量,就是总体散度矩阵ST的最大特征值所对应的单位特征向量。而在样本类别数较多的情况下,只有单一的最优投影方向不足以用来完全表示所有图像样本的特征。从而,这里就需要寻找一组既能够极大化准则函数又能够满足标准正交条件的最佳投影向量组w1,w2,...,wm。而最佳投影矩阵就是通过最佳投影向量组表示的,即P=[w1,w2,...,wm]。
接着,分别将训练样本和测试样本都投影到上面求出的特征子空间中,每一幅数据图像投影到上述特征子空间之后,都会对应于子空间中的一个点。同样,特征子空间中的任意一点也都能找到其相应的某一幅数据图像,这些特征子空间中数据图像投影得到的点就被称为“特征脸”。顾名思义,“特征脸”方法即表示通过K-L正交变换来进行数据识别的方法。
最后,把经过上述向量投影,变换到特征子空间中的所有测试图像样本和训练图像样本进行比较,从而确定待识别数据图像样本所属的类别,这就是对测试样本进行的分类,需要选择合适的分类器和相异度测试公式。
S102:获取样本数据的多个特征,并计算每个特征与预设类别的相关度。
具体的说,本实施方式可以通过以下公式计算特征与所述预设类别的相关度:Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))];其中,Si为所述相似度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。
值得一提的是,为了使得第一部分和第二部分的计算项平衡,需要增加一个平衡参数λ,因此,本实施方式还可以通过以下公式计算特征与所述预设类别的相关度:
Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))];其中,Si为所述相似度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度;λ为平衡常数。
可以理解的是,相对于现有技术中的信息熵公式,本实施方式中的公式扩展了原方法中只有样本的特征的计算方式,使得同一个样本之间任意两个不同特征之间的鉴别特征选取类别相关性较高。第一个方括号表示同一个样本之间任意两个不同特征及其在不同维度的表示之间的鉴别相关性,并且通过该计算的约束性可以更好的获得比较直观的相关性较高的特征,而原方法并不能很直观的通过计算得出相关性较高的特征,它只是考虑了样本特征的相关性,却忽略了样本特征之间存在更重要的特征相关性,通过该计算可以充分利用同一样本的不同特征之间的联系,包括相关特征和冗余特征,很显然,如果第一个方括号计算出来的值越大,则表示样本特征之间的相关性越高,可以获得其相关特征,反之亦然,如果第一个方括号计算出来的值越小,则表示样本特征之间的冗余度越高,可以有效去除其冗余特征,使得样本特征的鉴别性更高。后面两个方括号的计算表示同一样本的两个不同特征分别与类别变量之间的相似度,同样,值越大表示特征与类别的相似度越高,即相关性越高,反之亦然,值越小表示特征与类别的相似度越低,即相关性越低。
S103:去除多个特征中相关度小于预设相关度的特征,将剩余特征作为样本数据的鉴别特征。
具体的说,预设相关度的大小可以根据实际需求设置,本实施方式并不对此作具体限定。本实施方式是基于主成分分析样本数据,主成分分析的基本思想是提取高维数据空间的主要特征,并保持原来高维数据的绝大部分信息,使得高维数据可以在一个较低维的特征空间上被处理。K-L变换是主成分分析的基础。它是一种最优正交变换,是基于目标统计特征的,其目的是找到一个线性的投影变换,通过这个投影变换使得新的特征分量正交或不相关,并且为了使数据的能量更加集中,要求经过投影重建后的特征分量与原输入样本在最小均方意义下的误差最小。从而得到原样本的低维近似表示,能够更好得压缩原始数据。运用K-L变换进行数据识别,提出了经典的特征脸方法(Eigenfaces),形成了子空间学习方法的基础。简而言之,就是从输入数据训练图像中,通过主成分分析得到一组特征脸图像,再给定任意的数据图像,使得每个数据图像都可以用这组特征脸图像来线性表示,即通过计算主成分分析得到的特征脸图像的加权线性组合。
主成分分析的本质是计算协方差矩阵并将其对角化。可以假设所有的数据图像都在一个线性的低维空间中,而且在该低维空间中所有数据图像都是线性可分的,再把主成分分析方法用于数据特征识别,其具体做法是要进行K-L变换,将高维图像输入空间经变换得到一组新的正交基,按照一定的方法对变换得到的正交基按一定的条件进行筛选,剔除一些冗余的向量,保留那些特征鉴别能力强的向量,来生成低维的数据子空间,也就是数据的特征脸子空间。利用主成分分析方法降低输入数据空间维数的关键是找出最能够代表原始数据的投影方法,以“降噪”和消灭“冗余”的维度,使得降低维度的同时,能够保证原始输入数据中最重要的特征不丢失。在协方差矩阵中,只需要选取那些能量(特征值)比较大的维度,其余相对较低的就舍掉,这样就能够保留输入图像数据中那些重要的特征信息,而舍弃无益于数据识别的其他部分。
为了便于理解,下面对本实施方式中如何处理样本数据进行具体的举例说明:
输入:训练样本集:X=[X1,X2,...,Xc],其中Xi=(F1,F2,...,Fm,L),k<m,i=1...m。
PCA数据降维的维度:k
相关性阈值(预设相关度):β
1)将原始数据按列组成数据矩阵,把每一个读入的二维的数据图像数据都展开成为一维的向量。
2)将数据矩阵的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值。
3)求出协方差矩阵。
4)进行特征值分解,求出协方差矩阵的特征值及对应的特征向量。
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成样本投影矩阵。
6)将数据降维到投影矩阵对应的维度,即k,X’=PX即为降维到k维后的数据。得到降维后的样本集表示为X’=[X'1,X'2,…,X'c],其中X'i=(F1,F2,…,Fk,L),k<m,i=1…m。
7)令i=1 to k,j=1 to k(i≠j)循环,计算Si=ISU(Fi,Fi’,Fj,Fj’,L)。
8)对Si按从大到小排序。
9)将序列中最前面的g个特征作为新样本的特征,得到样本集X”=[X”1,X”2,…,X”c],其中X”i=(F1,F2,…,Fg,L),g<k,i=1…m。
10)对每对特征从后向前进行相关性分析,去除大于β的指定特征,得出最终样本Y。
输出:样本集Y。
本发明的实施方式相对于现有技术而言,通过对所述初始样本数据进行降维处理,得到预设维度的样本数据,以便于后续步骤的计算,减小后续步骤的运算量,从而提高数据处理方法的效率;通过获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,由于预设类别为样本数据具有的多种类别中的一种类别,通过此种方式,能够根据相似度得知样本数据的多个特征中哪些特征为冗余特征;通过去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征,能够得到具有高鉴别性的样本数据,使得使用该样本数据的训练模型的预算速度变快,从而提高预测效率。
本发明的第二实施方式涉及一种基于主成分分析的数据处理方法,第二实施方式是在第一实施方式的基础上做了进一步的改进,具体改进之处在于:在第二实施方式中,在去除所述多个特征中相关度小于预设相关度的特征之后,还包括:将所述剩余特征按照所述相关度由高到低的顺序排序;将排序后的所述剩余特征划分为N个特征段,其中,每个特征段中均包括M个特征,N、M均为大于1的整数;判断是否存在M个特征均大于预设阈值的特征段,在判定存在时,去除所述特征段中相似度最小的特征。通过此种方式,能够进一步减少样本数据中的冗余特征,使得预测效率得到进一步的提高。
本实施方式的具体流程如图2所示,包括:
S201:对初始样本数据进行降维处理,得到预设维度的样本数据。
S202:获取样本数据的多个特征,并计算每个特征与预设类别的相关度。
S203:去除多个特征中相关度小于预设相关度的特征。
S204:将去除相关度小于预设相关度的特征后的多个特征按照相关度由高到低的顺序排序,并将排序后的剩余特征划分为N个特征段。
S205:判断是否存在M个特征均大于预设阈值的特征段,在判定存在时,去除所述特征段中相似度最小的特征。
针对上述步骤S204至S205,具体的说,使用阈值相关性方法去除样本数据的冗余特征。阈值相关性方法是用特征之间的相关度来识别冗余特征,实际软件度量中,存在非线性关系,所以这里依然选择ISU来计算一对特征间的相关度,其阈值相关性方法使用预设的β(即预设阈值)作为相关性的临界值,在去除多个特征中相关度小于预设相关度的特征后,从后向前对剩余特征进行相关性分析,所有大于临界值的一对特征就从样本集中去除靠后的特征,以此类推。之所以从后向前进行相关性分析,是因为去除多个特征中相关度小于预设相关度的特征从后往前其鉴别性越来越高,所以从后往前进行相关性分析,当遇到相关度大于β值的两个特征时,就可以优先去掉鉴别性小的特征,从而保留鉴别性较大的特征。
S206:将剩余特征作为样本数据的鉴别特征。
本实施方式的步骤S201至步骤S203、S206与第一实施方式的步骤S101至步骤S103类似,为了避免重复,此处不再赘述。
本发明的实施方式相对于现有技术而言,通过对所述初始样本数据进行降维处理,得到预设维度的样本数据,以便于后续步骤的计算,减小后续步骤的运算量,从而提高数据处理方法的效率;通过获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,由于预设类别为样本数据具有的多种类别中的一种类别,通过此种方式,能够根据相似度得知样本数据的多个特征中哪些特征为冗余特征;通过去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征,能够得到具有高鉴别性的样本数据,使得使用该样本数据的训练模型的预算速度变快,从而提高预测效率。
本发明第三实施方式涉及一种基于主成分分析的数据处理装置,如图3所示,包括:
至少一个处理器301;以及,
与至少一个处理器301通信连接的存储器302;其中,
存储器302存储有可被至少一个处理器301执行的指令,指令被至少一个处理器301执行,以使至少一个处理器301能够执行上述基于主成分分析的数据处理方法。
其中,存储器302和处理器301采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器301和存储器302的各种电路连接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器301处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器301。
处理器301负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器302可以被用于存储处理器301在执行操作时所使用的数据。
本发明第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。
Claims (8)
1.一种基于主成分分析的数据处理方法,其特征在于,包括:
对初始样本数据进行降维处理,得到预设维度的样本数据,其中,所述初始样本数据为图像样本数据,所述样本数据为各特征脸图像;
获取所述样本数据的多个特征,并计算每个特征与预设类别的相关度,其中,所述预设类别为所述样本数据具有的多种类别中的一种类别;
去除所述多个特征中相关度小于预设相关度的特征,将剩余特征作为所述样本数据的鉴别特征;
其中,所述对初始样本数据进行降维处理,得到预设维度的样本数据,包括:
基于主成分分析方法对所述图像样本数据进行数据特征识别处理,获取各所述特征脸图像,其中,各所述特征脸图像用于线性表示任一个所述图像样本数据;
所述去除所述多个特征中相关度小于预设相关度的特征之后,还包括:
将所述剩余特征按照所述相关度由高到低的顺序排序;
将排序后的所述剩余特征划分为N个特征段,其中,每个特征段中均包括M个特征,N、M均为大于1的整数;
判断是否存在M个特征的所述相关度均大于预设阈值的特征段,在判定存在时,去除所述特征段中相关度最小的特征。
2.根据权利要求1所述的基于主成分分析的数据处理方法,其特征在于,所述对所述初始样本数据进行降维处理,具体包括:
将所述初始样本数据转化成数据矩阵;
计算所述数据矩阵的协方差矩阵,并对所述协方差矩阵进行特征分解,得到所述协方差矩阵的特征值,以及与所述特征值对应的特征向量;
根据所述特征值及所述特征向量得到投影矩阵,并将所述初始样本数据的维度降低至所述投影矩阵对应的维度。
3.根据权利要求2所述的基于主成分分析的数据处理方法,其特征在于,所述根据所述特征值及所述特征向量得到投影矩阵,具体包括:
将所述特征向量从上到下按行排列成矩阵,其中,所述特征向量对应的特征值越大,所述特征向量位于所述矩阵的越前行;
取前k行组成所述投影矩阵,其中,k为大于1的整数。
4.根据权利要求2或3所述的基于主成分分析的数据处理方法,其特征在于,在计算所述数据矩阵的协方差矩阵之前,还包括:
对所述数据矩阵的每一行进行零均值化处理;
所述计算所述数据矩阵的协方差矩阵,具体包括:
计算零均值化处理后的数据矩阵的协方差矩阵。
5.根据权利要求1所述的基于主成分分析的数据处理方法,其特征在于,通过以下公式计算特征与所述预设类别的相关度:
Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+[2×(IG(X|L))-(H(X)+H(L))]+[2×
(IG(Y|L))-(H(Y)+H(L))];
其中,Si为所述相关度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度。
6.根据权利要求1所述的基于主成分分析的数据处理方法,其特征在于,通过以下公式计算特征与所述预设类别的相关度:
Si=[XT×Y+X`T×Y+XT×Y`+X`T×Y`]+λ×[2×(IG(X|L))-(H(X)+H(L))]+[2×
(IG(Y|L))-(H(Y)+H(L))];
其中,Si为所述相关度;X、Y为样本数据的两个不同特征;X`为X在不同维度的表示、Y`为Y在不同维度的表示;L为所述预设类别;[XT×Y+X`T×Y+XT×Y`+X`T×Y`]表示X在不同维度的表示与Y在不同维度的表示的鉴别相关性;[2×(IG(X|L))-(H(X)+H(L))]+[2×(IG(Y|L))-(H(Y)+H(L))]表示X、Y分别与预设类别之间的相关度;λ为平衡常数。
7.一种基于主成分分析的数据处理装置,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一项所述的基于主成分分析的数据处理方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于主成分分析的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010155934.8A CN111476100B (zh) | 2020-03-09 | 2020-03-09 | 基于主成分分析的数据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010155934.8A CN111476100B (zh) | 2020-03-09 | 2020-03-09 | 基于主成分分析的数据处理方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476100A CN111476100A (zh) | 2020-07-31 |
CN111476100B true CN111476100B (zh) | 2023-11-14 |
Family
ID=71748104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010155934.8A Active CN111476100B (zh) | 2020-03-09 | 2020-03-09 | 基于主成分分析的数据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111476100B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111914954A (zh) * | 2020-09-14 | 2020-11-10 | 中移(杭州)信息技术有限公司 | 数据分析方法、装置及存储介质 |
CN112528893A (zh) * | 2020-12-15 | 2021-03-19 | 南京中兴力维软件有限公司 | 异常状态的识别方法、装置及计算机可读存储介质 |
CN113177879A (zh) * | 2021-04-30 | 2021-07-27 | 北京百度网讯科技有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN115730592A (zh) * | 2022-11-30 | 2023-03-03 | 贵州电网有限责任公司信息中心 | 电网冗余数据剔除方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021897A (zh) * | 2006-12-27 | 2007-08-22 | 中山大学 | 一种基于块内相关性的二维线性鉴别分析人脸识别方法 |
CN103020640A (zh) * | 2012-11-28 | 2013-04-03 | 金陵科技学院 | 基于二维主成分分析法的人脸图像降维分类方法 |
CN103942572A (zh) * | 2014-05-07 | 2014-07-23 | 中国标准化研究院 | 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置 |
CN105138972A (zh) * | 2015-08-11 | 2015-12-09 | 北京天诚盛业科技有限公司 | 人脸认证方法和装置 |
CN106845397A (zh) * | 2017-01-18 | 2017-06-13 | 湘潭大学 | 一种基于相似度度量的人脸确认方法 |
CN109784668A (zh) * | 2018-12-21 | 2019-05-21 | 国网江苏省电力有限公司南京供电分公司 | 一种用于电力监控***异常行为检测的样本特征降维处理方法 |
CN109981335A (zh) * | 2019-01-28 | 2019-07-05 | 重庆邮电大学 | 组合型类不均衡流量分类的特征选择方法 |
CN109978023A (zh) * | 2019-03-11 | 2019-07-05 | 南京邮电大学 | 面向高维大数据分析的特征选择方法及计算机存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7760917B2 (en) * | 2005-05-09 | 2010-07-20 | Like.Com | Computer-implemented method for performing similarity searches |
WO2010144259A1 (en) * | 2009-06-09 | 2010-12-16 | Arizona Board Of Regents Acting For And On Behalf Of Arizona State University | Ultra-low dimensional representation for face recognition under varying expressions |
CN103839041B (zh) * | 2012-11-27 | 2017-07-18 | 腾讯科技(深圳)有限公司 | 客户端特征的识别方法和装置 |
-
2020
- 2020-03-09 CN CN202010155934.8A patent/CN111476100B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021897A (zh) * | 2006-12-27 | 2007-08-22 | 中山大学 | 一种基于块内相关性的二维线性鉴别分析人脸识别方法 |
CN103020640A (zh) * | 2012-11-28 | 2013-04-03 | 金陵科技学院 | 基于二维主成分分析法的人脸图像降维分类方法 |
CN103942572A (zh) * | 2014-05-07 | 2014-07-23 | 中国标准化研究院 | 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置 |
CN105138972A (zh) * | 2015-08-11 | 2015-12-09 | 北京天诚盛业科技有限公司 | 人脸认证方法和装置 |
CN106845397A (zh) * | 2017-01-18 | 2017-06-13 | 湘潭大学 | 一种基于相似度度量的人脸确认方法 |
CN109784668A (zh) * | 2018-12-21 | 2019-05-21 | 国网江苏省电力有限公司南京供电分公司 | 一种用于电力监控***异常行为检测的样本特征降维处理方法 |
CN109981335A (zh) * | 2019-01-28 | 2019-07-05 | 重庆邮电大学 | 组合型类不均衡流量分类的特征选择方法 |
CN109978023A (zh) * | 2019-03-11 | 2019-07-05 | 南京邮电大学 | 面向高维大数据分析的特征选择方法及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
A new algorithm of face detection based on differential images and PCA in color image;Yan Xu 等;《2009 2nd IEEE International Conference on Computer Science and Information Technology》;172-176 * |
基于FPCA和ReliefF算法的图像特征降维;齐迎春 等;《吉林大学学报(理学版)》(第05期);153-158 * |
基于特征选择的数据降维算法研究;余大龙;《中国优秀硕士学位论文全文数据库信息科技辑》(第08期);I138-317 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476100A (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476100B (zh) | 基于主成分分析的数据处理方法、装置及存储介质 | |
Rainforth et al. | Canonical correlation forests | |
US11294624B2 (en) | System and method for clustering data | |
Alzate et al. | Multiway spectral clustering with out-of-sample extensions through weighted kernel PCA | |
Landgrebe et al. | Efficient multiclass ROC approximation by decomposition via confusion matrix perturbation analysis | |
US8538173B2 (en) | Computer readable medium, apparatus, and method for adding identification information indicating content of a target image using decision trees generated from a learning image | |
US9330332B2 (en) | Fast computation of kernel descriptors | |
Denton | Kernel-density-based clustering of time series subsequences using a continuous random-walk noise model | |
Shrivastava et al. | Learning discriminative dictionaries with partially labeled data | |
US9275306B2 (en) | Devices, systems, and methods for learning a discriminant image representation | |
US9842279B2 (en) | Data processing method for learning discriminator, and data processing apparatus therefor | |
US20220179912A1 (en) | Search device, search method and learning model search system | |
CN106599856A (zh) | 一种联合人脸检测、定位和识别的方法 | |
JP2010039778A (ja) | 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置 | |
JP2014228995A (ja) | 画像特徴学習装置、画像特徴学習方法及びプログラム | |
Sivasankar et al. | Feature reduction in clinical data classification using augmented genetic algorithm | |
US20160078314A1 (en) | Image Retrieval Apparatus, Image Retrieval Method, and Recording Medium | |
CN111723206B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
Ibrahim et al. | On feature selection methods for accurate classification and analysis of emphysema ct images | |
CN110941542A (zh) | 基于弹性网络的序列集成高维数据异常检测***及方法 | |
Wu et al. | Discriminant Tensor Dictionary Learning with Neighbor Uncorrelation for Image Set Based Classification. | |
CN109978066B (zh) | 基于多尺度数据结构的快速谱聚类方法 | |
Huttunen et al. | Bayesian error estimation and model selection in sparse logistic regression | |
McInerney et al. | On using sift descriptors for image parameter evaluation | |
Bharathi et al. | The significance of feature selection techniques in machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |