CN107220346A - 一种高维不完整数据特征选择方法 - Google Patents

一种高维不完整数据特征选择方法 Download PDF

Info

Publication number
CN107220346A
CN107220346A CN201710388939.3A CN201710388939A CN107220346A CN 107220346 A CN107220346 A CN 107220346A CN 201710388939 A CN201710388939 A CN 201710388939A CN 107220346 A CN107220346 A CN 107220346A
Authority
CN
China
Prior art keywords
mrow
mtd
msub
feature
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710388939.3A
Other languages
English (en)
Other versions
CN107220346B (zh
Inventor
李玉诺
尹春福
王妍
杨钧
李俊
吴阳
付永全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bringspring Science And Technology Co Ltd
Liaoning University
Original Assignee
Bringspring Science And Technology Co Ltd
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bringspring Science And Technology Co Ltd, Liaoning University filed Critical Bringspring Science And Technology Co Ltd
Priority to CN201710388939.3A priority Critical patent/CN107220346B/zh
Publication of CN107220346A publication Critical patent/CN107220346A/zh
Application granted granted Critical
Publication of CN107220346B publication Critical patent/CN107220346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种高维不完整数据特征选择方法,涉及如下步骤:(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);步骤(2):假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着计算缺失熵:依次算出每个维度的缺失熵;对结果进行加权平均;步骤(3):在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪。得到去噪后的相关矩阵和选择特征的数量,再进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。

Description

一种高维不完整数据特征选择方法
技术领域
本发明涉及一种高维不完整数据特征选择方法,属于机器学习,数据挖掘技术领域。
背景技术
随着数据获取技术的发展,高维数据广泛应用在于社交网络,图像处理,生物医学等领域中.然而在实际的数据的采集中,由于探测仪器的限制、数据敏感、样本破损等原因会导致采集数据的不完整,从而形成高维不完整数据.对于不完整数据的预处理通常采用删除和填补的方法,对于包含了大量冗余信息和噪声的高维数据,通常先采用特征提取和特征选择[6]对其进行降维.根据特征子集评估策略的差异,可将特征选择分为三类:Filter模型、Wrapper模型和Embedded模型.Filter模型仅依赖数据的内在特性来选择特征,而不依赖任何具体的学习算法指导.Wrapper模型则需要一个预先设定的学习算法,将特征子集在其算法上的表现作为评估来确定最终的特征子集.Embedded模型则是在学习算法的目标分析过程中包含变量选择,将此作为训练过程的一部分.共同之处是这三种模型都是通过相关性度量来选择特征,但是对于高维数据,得到的相关矩阵中会存在大量噪声.
随机矩阵理论(random matrix theory,RMT)通过比较随机的多维序列统计特性,可以体现出实际数据对随机的偏离程度,并揭示实际数据中整体关联的行为特征.随机矩阵理论是在原子物理中由Wigner,Dyson,Mehta等人发展而来,在物理学,通讯理论,金融等方面应用非常广泛.Laloux(1999)[9]等人研究了如何去掉金融相关系数矩阵的噪声,Plerou(2002)等人详细研究了相关矩阵的特征值、特征向量的分布.
本文以随机矩阵理论为基础,提出一种特征选择方法,通过比较原始数据的相关矩阵和随机数据的相关矩阵在奇异值上的差异,去除原始相关矩阵的噪声,同时充分利用奇异值分解后的子矩阵来消除特征之间的冗余性,更好的实现特征选择.又根据熵概率选择,使这种方法能够应用于不完整数据.在分类准确率和运行时间上表明了本方法的高效性.
发明内容
本发明针对现有技术的不足,本发明提供一种高维不完整数据特征选择方法。
本发明的是通过下述技术方案实现的:一种高维不完整数据特征选择方法,包括如下步骤:
(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);
(2)采用不完整矩阵计算方法处理数据,具体为:
(2.1)假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着通过下式计算缺失熵:
其中pi是每个维度的缺失率,H(X)表示缺失熵;
(2.2)H(X)越大说明不确定性越高,缺失率越接近0.5,H(x)的极值为0.5;依次算出每个维度的缺失熵;
(2.3)对结果进行加权平均;
(2.4)对每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X);
(3)在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪,其实现步骤如下:
(3.1)设有原始N×L数据矩阵D,其中特征集合F={f1,f2,…,,ft},类集合C={c1,c2,…,ck},通过(1)式构建互信息矩阵M,当k较小时,无法很好的满足随机矩阵的特征,因此需要对M进行增广,复制m次,即M=[M,m(M)],为了保持初始的行列比,这里m=((L-1)2/N*k)-1.
其中P(x,y)是特征和类别的联合分布,P(x)和P(y)分别是特征和类别的出现概率
(3.2)为了保证一般性,对矩阵M进行规范化,通过(2)式中心化,然后再通过(3)式进行标准化,得到矩阵Md.接着根据(4)式计算得到t×t的特征相关矩阵C.
Iij是矩阵M中第i行第j列的元素,maxIi是第i行中最大的元素,minIi是第i行中最小的元素。
是(2)式中的求得的元素,表示求第i行中所有元素平方和的算术平方根
(3.3)对C按(5)式进行奇异值分解.其中Λ=diag(σ12,…,σr)且σ1≥σ2≥…σt>0i(i=1,2,…,r)为矩阵C的奇异值,这时称上式为矩阵C的奇异值分解式.
C=UΛV (5)
(3.4)建立t×m随机矩阵,其变量服从均值为0,方差为1的正态分布,根据下式可以得到相关矩阵的最大特征值.
其中Q是矩阵的行列比,即Q=t/m,;
(3.5)根据随机矩阵理论,认为的奇异值是噪声,则令所有i≥j的σi=0,t-j剩下的j-1个奇异值包含了所有的真实信息,因此可以矩阵相乘得到新的相关矩阵Cnew
Cnew=UΛnewV (6)
(3.6)对Cnew进行奇异值分解的到Unew和Vnew,,Cnew中的每个元素Kij表示任意2个特征对初始类的相关程度,Vnew中的每个元素Eij是每个特征对新类的相关程度.
(3.7)对通过去噪后的相关矩阵进行特征选择,特征选择的目标是去除与类不相关的特征和相互冗余的特征.经过去噪的结果可知,共保留了j-1个奇异值,因此在这里共选择j-1个特征,因此可以根据(7)式计算每一个特征的重要度,其中F(i)表示第i个特征的重要度,得到集合F={f1,f1,…,fi},接着对F进行降序排序,选择前j-1个重要度最大的特征,从而完成特征选择;
其中Iij是矩阵M的第i行第j列的元素,Eij是(6)式中Cnew奇异值分解后得到的右奇异矩阵Vnew的第i行第j列的元素,Kij是相关矩阵Cnew的第i行第j列的元素。
本发明的有益效果:与现有技术相比,本发明提出基于随机矩阵理论的特征选择方法,其通过将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到去噪后的相关矩阵和选择特征的数量,接着对去噪后的相关矩阵再进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择.。
附图说明
图1为本发明方法流程图。
具体实施方式
一种高维不完整数据特征选择方法,首先判断初始数据是否为完整数据;如果原始数据是不完整的,无法按照完整数据的方式来计算。需要通过以下步骤针对不完整矩阵计算,具体包括如下:
第一步:假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着通过下式计算缺失熵:
第二步:H(x)越大说明不确定性越高,缺失率越接近0.5,H(x)的极值为0.5;依次算出每个维度的缺失熵;
第三步:对结果进行加权平均;
第四步:对每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X);本发明方法的具体应用过程如下:
如果原始数据是不完整的,无法按照完整数据的方式来计算.因此本文提出了一个不完整随机矩阵计算方法.假设现在已经获取到了一个N×L训练数据矩阵,对于有数据缺失情况,需要更换计算方法.目前对于缺失值的处理通常有两种方法:删除和填补.考虑到缺失的数据可能是噪声或者是真实值.因此在对缺失值进行计算时,采取一种基于概率选择的计算方法.这里通过一个例子来说明.
表1数据缺失情况
假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,例如humidity,其缺失率p=2/7,接着通过下式计算缺失熵:
其中pi是每个维度的缺失率,H(X)表示缺失熵;
计算出维度humidity的熵,P(humidity=缺失)=p,P(humidity=完整)=1-p,则H(humidity)有:
H(p)=-plog2p-(1-p)log2(1-p)
H(p)=0.3,H(p)越大说明不确定性越高,缺失率越接近;依次算出每个维度的缺失熵得:
表2缺失熵
表3加权平均结果
接着进行加权平均,根据Hmean(X)的值进行概率选泽.即对于每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X).
对于完整数据则执行以下步骤:
在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪,其实现步骤如下:
第一步:设有原始N×L数据矩阵D,其中特征集合F={f1,f2,…,,ft},类集合C={c1,c2,…,ck},通过(1)式构建互信息矩阵M,当k较小时,无法很好的满足随机矩阵的特征,因此需要对M进行增广,复制m次,即M=[M,m(M)],为了保持初始的行列比,这里m=(L2/N)-1.
其中P(x,y)是特征和类别的联合分布,P(x)和P(y)分别是特征和类别的出现概率
第二步:为了保证一般性,对矩阵M进行规范化,通过(2)式中心化,再通过(3)式标准化,得到矩阵Md.接着根据(4)式计算得到t×t的特征相关矩阵C.
Iij是矩阵M中第i行第j列的元素,maxIi是第i行中最大的元素,minIi是第i行中最小的元素。
是(2)式中的求得的元素,表示求第i行中所有元素平方和的算术平方根;
第三步:对C按(5)式进行奇异值分解.其中Λ=diag(σ12,…,σr)且σ1≥σ2≥…σt>0i(i=1,2,…,r)为矩阵C的奇异值,这时称上式为矩阵C的奇异值分解式.
C=UΛV (5)
第四步:建立t×m随机矩阵,其变量服从均值为0,方差为1的正态分布,根据下式可以得到相关矩阵的最大特征值.
其中Q是矩阵的行列比,即Q=t/m,;
第五步:根据随机矩阵理论,认为的奇异值是噪声,则令所有i≥j的σi=0,剩下的j-1个奇异值包含了所有的真实信息,因此可以矩阵相乘得到新的相关矩阵Cnew
Cnew=UΛnewV (6)
第六步:对Cnew进行奇异值分解的到Unew和Vnew,Cnew中的每个元素Kij表示任意2个特征对初始类的相关程度,Vnew中的每个元素Eij是每个特征对新类的相关程度.
第七步:对通过去噪后的相关矩阵进行特征选择,特征选择的目标是去除与类不相关的特征和相互冗余的特征.经过去噪的结果可知,共保留了j-1个奇异值,因此在这里共选择j-1个特征,因此可以根据(6)式计算每一个特征的重要度,其中F(i)表示第i个特征的重要度,得到集合F={f1,f1,…,fi},接着对F进行降序排序,选择前j-1个重要度最大的特征,从而完成特征选择.
其中Iij是矩阵M的第i行第j列的元素,Eij是(6)式中Cnew奇异值分解后得到的右奇异矩阵Vnew的第i行第j列的元素,Kij是相关矩阵Cnew的第i行第j列的元素。
(3)实验
(3.1)实验数据集
为了说明本文提出的特征选择方法的有效性,通过分类实验来验证。选取UCI机器学习知识库上10个数据集进行实验。表4是对数据集的描述,数据集中的实例数从13910到101,特征从649到17,分布范围很宽广。
表4实验中用到的数据集
(3.2)实验结果与分析
实验在win7_64***,8GB内存,主频2.93GHZ的Core i7-870的PC上运行,采用python3.6,scikit-learn工具包。使用经典的MDL[11]方法对数据进行离散化,采用1-N,CART, Bayse三种分类器,选择FCBF[12],mRMR[13],IG[14],CFS[15],Relief-F[16]这5种经典特征选择方法与本文所提出的特征选择方法RMFS,RMFS-O进行对比。在给定的数据集上的10折交叉验证,并给出了它们在10个数据集上的平均准确率。在表的最后一行WTL表示该特征选择方法与本文所提出的特征选择方法相比在10个数据集上的高于/持平/弱于的次数。同时在每一个数据集上的较高的准确率,以粗体表示。
表5 1-NN分类器准确率
表6 CART分类器准确率
表7 Bayse分类器准确率
表8选择特征的个数
根据表5.6.7,可以看出本文所提的特征选择方法在三个分类器上整体胜率是63.3%,在平均准确率上的胜率是100%。当特征数大于100时,整体胜率是90.4%,在高维特征选择表现优异。相对于表现较好的FCBF,本方法在平均准确率上领先其1.86%。同时所提出的优化方法RMFS-O相对于RMFS在特征数大于300时,平均准确率领先1.38%。根据表8,本方法在平均特征选择数量上明显优于对比方法,相对于最好的FCBF,平均缩小了44.4%的数据规模。当特征数大于300时,类大于10时,相对于对比方法,平均缩小了59.7%的数据规模。

Claims (1)

1.一种高维不完整数据特征选择方法,包括如下步骤:
(1)判断初始数据是否为完整数据;若为不完整数据,则转到步骤(2);若为完整数据,则转到步骤(3);
(2)采用不完整矩阵计算方法处理数据,具体为:
(2.1)假设现在有各个维度的数据,用1表示该数据项是完整的,用0表示该数据项是缺失的.计算每个维度的缺失率,接着通过下式计算缺失熵:
<mrow> <mi>H</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <msub> <mi>logp</mi> <mi>i</mi> </msub> </mrow>
其中pi是每个维度的缺失率,H(X)表示缺失熵;
(2.2)H(X)越大说明不确定性越高,缺失率越接近0.5,H(x)的极值为0.5;依次算出每个维度的缺失熵;
(2.3)对结果进行加权平均;
(2.4)对每一个维度X的缺失值,P(忽略)=Hmean(X),P(填补)=1-Hmean(X);
(3)在高维数据中进行特征选择时,通过比较原始数据矩阵的相关矩阵和随机矩阵在奇异值上的差异,对相关矩阵进行去噪,其实现步骤如下:
(3.1)设有原始N×L数据矩阵D,其中特征集合F={f1,f2,…,,ft},类集合C={c1,c2,…,ck},通过(1)式构建互信息矩阵M,当k较小时,无法很好的满足随机矩阵的特征,因此需要对M进行增广,复制m次,即M=[M,m(M)],为了保持初始的行列比,这里m=((L-1)2/N*k)-1.
<mrow> <mi>I</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>;</mo> <mi>Y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>f</mi> <mo>&amp;Element;</mo> <mi>F</mi> <mo>,</mo> <mi>c</mi> <mo>&amp;Element;</mo> <mi>C</mi> </mrow> </munder> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mi>p</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
其中P(x,y)是特征和类别的联合分布,P(x)和P(y)分别是特征和类别的出现概率;
<mrow> <mi>M</mi> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>I</mi> <mn>11</mn> </msub> </mtd> <mtd> <msub> <mi>I</mi> <mn>12</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>I</mi> <mrow> <mn>1</mn> <mi>k</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>I</mi> <mn>21</mn> </msub> </mtd> <mtd> <msub> <mi>I</mi> <mn>22</mn> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>I</mi> <mrow> <mn>2</mn> <mi>k</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <mo>.</mo> </mtd> <mtd> <mo>.</mo> </mtd> <mtd> <mrow></mrow> </mtd> <mtd> <mo>.</mo> </mtd> </mtr> <mtr> <mtd> <msub> <mi>I</mi> <mrow> <mi>t</mi> <mn>1</mn> </mrow> </msub> </mtd> <mtd> <msub> <mi>I</mi> <mrow> <mi>t</mi> <mn>2</mn> </mrow> </msub> </mtd> <mtd> <mn>...</mn> </mtd> <mtd> <msub> <mi>I</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> </mtd> </mtr> </mtable> </mfenced> </mrow>
(3.2)为了保证一般性,对矩阵M进行规范化,通过(2)式中心化,然后再通过(3)式进行标准化,得到矩阵Md.接着根据(4)式计算得到t×t的特征相关矩阵C;
<mrow> <msub> <mover> <mi>I</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mfrac> <mrow> <msub> <mi>maxI</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>minI</mi> <mi>i</mi> </msub> </mrow> <mn>2</mn> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
Iij是矩阵M中第i行第j列的元素,maxIi是第i行中最大的元素,minIi是第i行中最小的元素。
<mrow> <mover> <msub> <mover> <mi>I</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>=</mo> <mfrac> <msub> <mover> <mi>I</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mover> <mi>I</mi> <mo>^</mo> </mover> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>
是(2)式中的求得的元素,表示求第i行中所有元素平方和的算术平方根
<mrow> <mi>C</mi> <mo>=</mo> <msub> <mi>M</mi> <mi>d</mi> </msub> <msubsup> <mi>M</mi> <mi>d</mi> <mi>T</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
(3.3)对C按(5)式进行奇异值分解.其中Λ=diag(σ12,…,σr)且σ1≥σ2≥…σt>0i(i=1,2,…,r)为矩阵C的奇异值,这时称上式为矩阵C的奇异值分解式.
C=UΛV (5)
(3.4)建立t×m随机矩阵,其变量服从均值为0,方差为1的正态分布,根据下式可以得到相关矩阵的最大特征值.
<mrow> <msub> <mi>&amp;lambda;</mi> <mrow> <mi>m</mi> <mi>a</mi> <mi>x</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <mn>1</mn> <mo>/</mo> <msqrt> <mi>Q</mi> </msqrt> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中Q是矩阵的行列比,即Q=t/m,;
Cnew=UΛnewV (6)
(3.5)根据随机矩阵理论,认为的奇异值是噪声,则令所有i≥j的σi=0,t-j剩下的j-1个奇异值包含了所有的真实信息,因此可以矩阵相乘得到新的相关矩阵Cnew
(3.6)对Cnew进行奇异值分解的到Unew和Vnew,,Cnew中的每个元素Kij表示任意2个特征对初始类的相关程度,Vnew中的每个元素Eij是每个特征对新类的相关程度.
(3.7)对通过去噪后的相关矩阵进行特征选择,特征选择的目标是去除与类不相关的特征和相互冗余的特征.经过去噪的结果可知,共保留了j-1个奇异值,因此在这里共选择j-1个特征,因此可以根据(7)式计算每一个特征的重要度,其中F(i)表示第i个特征的重要度,得到集合F={f1,f1,…,fi},接着对F进行降序排序,选择前j-1个重要度最大的特征,从而完成特征选择;
<mrow> <mi>F</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>I</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </munderover> <msub> <mi>E</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>t</mi> </munderover> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>
其中Iij是矩阵M的第i行第j列的元素,Eij是(6)式中Cnew奇异值分解后得到的右奇异矩阵Vnew的第i行第j列的元素,Kij是相关矩阵Cnew的第i行第j列的元素。
CN201710388939.3A 2017-05-27 2017-05-27 一种高维不完整数据特征选择方法 Active CN107220346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710388939.3A CN107220346B (zh) 2017-05-27 2017-05-27 一种高维不完整数据特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710388939.3A CN107220346B (zh) 2017-05-27 2017-05-27 一种高维不完整数据特征选择方法

Publications (2)

Publication Number Publication Date
CN107220346A true CN107220346A (zh) 2017-09-29
CN107220346B CN107220346B (zh) 2021-04-30

Family

ID=59947949

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710388939.3A Active CN107220346B (zh) 2017-05-27 2017-05-27 一种高维不完整数据特征选择方法

Country Status (1)

Country Link
CN (1) CN107220346B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885682A (zh) * 2019-01-25 2019-06-14 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法
CN110379521A (zh) * 2019-06-24 2019-10-25 南京理工大学 基于信息论的医疗数据集特征选择方法
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105181336A (zh) * 2015-10-30 2015-12-23 东南大学 一种用于轴承故障诊断的特征选取方法
US20160260030A1 (en) * 2013-01-18 2016-09-08 International Business Machines Corporation Transductive lasso for high-dimensional data regression problems
CN106228027A (zh) * 2016-08-26 2016-12-14 西北大学 一种多视角数据的半监督特征选择方法
CN106446951A (zh) * 2016-09-28 2017-02-22 中科院成都信息技术股份有限公司 一种基于奇异值选择的集成学习器
CN106503146A (zh) * 2016-10-21 2017-03-15 江苏理工学院 计算机文本的特征选择方法、分类特征选择方法及***
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法
US20170109438A1 (en) * 2015-10-19 2017-04-20 Emegabook Llc Contextual feature selection within an electronic data file

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160260030A1 (en) * 2013-01-18 2016-09-08 International Business Machines Corporation Transductive lasso for high-dimensional data regression problems
US20170109438A1 (en) * 2015-10-19 2017-04-20 Emegabook Llc Contextual feature selection within an electronic data file
CN105181336A (zh) * 2015-10-30 2015-12-23 东南大学 一种用于轴承故障诊断的特征选取方法
CN106228027A (zh) * 2016-08-26 2016-12-14 西北大学 一种多视角数据的半监督特征选择方法
CN106446951A (zh) * 2016-09-28 2017-02-22 中科院成都信息技术股份有限公司 一种基于奇异值选择的集成学习器
CN106503146A (zh) * 2016-10-21 2017-03-15 江苏理工学院 计算机文本的特征选择方法、分类特征选择方法及***
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LEI YU ET.AL: "Feature selection for high-dimensional data: a fast correlation-based filter solution", 《PROCEEDINGS OF THE TWENTIETH INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML-2003)》 *
TAKAKO HASHIMOTO ET.AL: "Topic extraction from millions of tweets using singular value decomposition and feature selection", 《2015 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)》 *
YUICHIRO KATAOKA ET.AL: "Selection of an optimum random matrix using a genetic algorithm for acoustic feature extraction", 《2016 IEEE/ACIS 15TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE (ICIS)》 *
杨杨 等: "高维数据的特征选择研究", 《南京师范大学学报 工程技术版》 *
王练 等: "高维特征集选择模型研究", 《重庆邮电学院学报 自然科学版》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885682A (zh) * 2019-01-25 2019-06-14 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法
CN109885682B (zh) * 2019-01-25 2022-08-16 南京邮电大学 基于fcbf的自定义特征维数文本特征选择算法
CN110379521A (zh) * 2019-06-24 2019-10-25 南京理工大学 基于信息论的医疗数据集特征选择方法
CN110379521B (zh) * 2019-06-24 2023-04-18 河南省新星科技有限公司 基于信息论的医疗数据集特征选择方法
CN113177608A (zh) * 2021-05-21 2021-07-27 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置
CN113177608B (zh) * 2021-05-21 2023-09-05 河南大学 一种针对不完整数据的近邻模型特征选择方法及装置

Also Published As

Publication number Publication date
CN107220346B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110533631B (zh) 基于金字塔池化孪生网络的sar图像变化检测方法
CN111967502B (zh) 一种基于条件变分自编码器的网络入侵检测方法
Mroczkowski et al. The quest for more powerful validation of conceptual catchment models
CN110852227A (zh) 高光谱图像深度学习分类方法、装置、设备及存储介质
CN108399248A (zh) 一种时序数据预测方法、装置及设备
CN102750333B (zh) 一种用于提取半导体纳米结构特征尺寸的方法
Zhao et al. Automatic recognition of loess landforms using Random Forest method
Robitzsch et al. Package ‘miceadds’
Segers et al. Nonparametric estimation of the tree structure of a nested Archimedean copula
Torrens Calibrating and validating cellular automata models of urbanization
CN107220346A (zh) 一种高维不完整数据特征选择方法
CN108491925A (zh) 基于隐变量模型的深度学习特征泛化方法
CN115601661A (zh) 一种用于城市动态监测的建筑物变化检测方法
CN104881867A (zh) 一种基于特征分布的遥感图像质量评价方法
WO2020130947A1 (en) Method and system for predicting quantitative measures of oil adulteration of an edible oil sample
CN116086790A (zh) 氢燃料电池高压阀的性能检测方法及其***
Matsueda et al. Proper encoding for snapshot-entropy scaling in two-dimensional classical spin models
Armstrong et al. The application of data mining techniques to characterize agricultural soil profiles.
CN115880505A (zh) 一种目标边缘检测神经网络的低序级断层智能识别方法
CN116306277A (zh) 一种滑坡位移预测方法、装置及相关组件
Bosdogianni et al. Mixed pixel classification with robust statistics
Bond et al. An unsupervised machine learning approach for ground‐motion spectra clustering and selection
Dai et al. Landslide risk classification based on ensemble machine learning
Valle et al. The Backbone of the financial interaction network using a maximum entropy distribution
Ebrahimi et al. Parametric OSV Design Studies–precision and quality assurance via updated statistics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant