CN108805162A - 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 - Google Patents
一种基于粒子群优化的酵母菌多标记特征选择方法及装置 Download PDFInfo
- Publication number
- CN108805162A CN108805162A CN201810380973.0A CN201810380973A CN108805162A CN 108805162 A CN108805162 A CN 108805162A CN 201810380973 A CN201810380973 A CN 201810380973A CN 108805162 A CN108805162 A CN 108805162A
- Authority
- CN
- China
- Prior art keywords
- particle
- yeast
- value
- correlation
- iteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000002245 particle Substances 0.000 title claims abstract description 195
- 241000235342 Saccharomycetes Species 0.000 title abstract description 5
- 238000013459 approach Methods 0.000 title abstract description 3
- 238000002372 labelling Methods 0.000 title abstract 2
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 48
- 239000003550 marker Substances 0.000 claims description 54
- 238000011156 evaluation Methods 0.000 claims description 33
- 238000005457 optimization Methods 0.000 claims description 23
- 230000003044 adaptive effect Effects 0.000 claims description 20
- 238000010187 selection method Methods 0.000 claims description 20
- VWDWKYIASSYTQR-UHFFFAOYSA-N sodium nitrate Chemical compound [Na+].[O-][N+]([O-])=O VWDWKYIASSYTQR-UHFFFAOYSA-N 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 36
- 238000004422 calculation algorithm Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000007423 decrease Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 244000060011 Cocos nucifera Species 0.000 description 1
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 238000006165 Knowles reaction Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000013405 beer Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000022131 cell cycle Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于粒子群优化的酵母菌多标记特征选择方法及装置,通过酵母菌特征和标记之间的相关性、特征和特征之间的冗余性、标记和标记之间的相关性构造候选特征子集的评价准则函数,将其作为离散粒子群方法的适应度函数,从而从酵母菌数据集中选择出最优的特征子集。本发明不仅可以有效的选取特征子集,为后续工作提供了一个精简、准确的特征子集,而且,有效降低了分类器的时间复杂度和计算复杂度,提高了分类性能。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种基于粒子群优化的酵母菌多标记特征选择方法及装置。
背景技术
在传统的监督学习框架中,每个学习对象有且仅有一个类别标记,且标记之间是相互排斥和独立的。例如,在性别分类预测问题中,只存在“性别”一个标记,并且标记值要么是“男”要么是“女”,不存在标记值重叠的情况。然而在现实生活中单独的一个标记无法准确的描述复杂的对象,一个对象可能与多个类别标记相关,标记之间也可能存在相关性。例如,在文本分类中,一篇题为“杨树安谈奥运筹备”的新闻报道可以被分类到“体育”、“交通”、“气候”、“经济”和“政治”的板块中;在图像分类中,一副图像,可能与“沙滩”、“大海”、“椰子树”等多个语义标记有关;此外,在音乐情感分析中,根据表达的情感的不同,一首歌可以同时具有“欢快”、“忧伤”、“乡愁”等标记。拥有多个标记的对象在生活中随处可见,因此近年来多标记分类引起了人们的广泛研究和关注。
生物信息学是多标记学***数据是一个常用的多标记学习数据,也是一个典型的生物信息学任务,其任务是预测这些酵母菌与14个功能目录中的标记是否相关。在该类应用中,标记之间往往存在一定的层次结构并且已经被领域专家发现,比如树状结构的功能目录以及有向无环图结构的基因拓扑结构等,因此,在应用多标记学习技术时需要很好的利用这些标记之间的关系。
酵母菌功能预测存在一系列的挑战:一方面每个酵母菌样本可能的类别标记很多,并且这些标记之间具有一定的相关性,因此在多标记学习中需要考虑标记之间的相关性;另一方面,由于酵母菌数据都是有高维的基因序列描述的,因此酵母菌样本具有数量大和向量维数高的两大特点,决定了酵母菌特征选择是一个运行时间和空间复杂度都很高的机器学习问题,这些数据过高的维度影响并制约着我们对数据的理解和建模。在现有技术中,已出现一些酵母菌数据的特征选择方法。例如,一些以预报风险的嵌入式特征选择方法为基础,通过对每个特征进行评价,最终获得最优特征子集。该方法与分类器和评价指标密切相关,很可能导致计算时间较长、降维效率低。
发明内容
本发明的目的在于提供一种基于粒子群优化的酵母菌多标记特征选择方法及装置,用以解决现有技术中的特征选择方法的计算时间长、效率低的问题。
为解决上述技术问题,本发明的技术方案为:
本发明提供了一种基于粒子群优化的酵母菌多标记特征选择方法,包括如下步骤:
提取酵母菌样本数据集,所述酵母菌样本数据集包括多个酵母菌样本特征矩阵和样本标记矩阵;
提取酵母菌样本数据集的特征数据,初始化二进制编码的粒子群;并初始化粒子群的位置和速度;
通过度量特征与特征之间的冗余性、特征与标记之间的相关性、标记和标记之间的相关性,构造结合标记相关性的CFS评价准则函数;
根据所述结合标记相关性的CFS评价函数,计算每个粒子的适应值;
对每个粒子,将其计算的适应值与其经历过的最优位置pbest进行比较,若优于经历过的最优位置pbest,则将所述计算的适应值作为其经历过的最优位置pbest;
并将所有粒子的最优位置pbest作为群体的最优位置gbest;
更新粒子的位置和速度进行迭代,最终得到的群体的最优位置gbest中值为1所对应的特征,即为酵母菌数据集的最优特征子集。
进一步的,所述更新粒子的位置和速度包括:
判断是否满足t<γ·Niter,其中,γ为[0,1]之间的随机数,Niter为迭代总次数;
若t<γ·Niter,则在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置;
否则,在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置。
在前期需要全局搜索能力,后期需要局部搜索能力,故针对不同的情况,采用不同的公式来更新粒子的位置和速度。
进一步的,所述结合标记相关性的CFS评价函数为:
其中,CFS(S)为包含k个特征的候选子集S的评价值;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
进一步的,计算每个粒子的适应值前,还包括把位置为1的粒子数控制为n的步骤:
统计每个粒子中位置为1的位置数h:
若h>n,则随机将h-n个值为1的位置改为0;
若h<n,则随机将n-h个值为0的位置改为1。
本发明还提供了一种基于粒子群优化的酵母菌多标记特征选择装置,包括处理器,所述处理器用于执行指令实现如下方法:
提取酵母菌样本数据集,所述酵母菌样本数据集包括多个酵母菌样本特征矩阵和样本标记矩阵;
提取酵母菌样本数据集的特征数据,初始化二进制编码的粒子群,并初始化粒子群的位置和速度;
通过度量特征与特征之间的冗余性、特征与标记之间的相关性,标记和标记之间的相关性,构造结合标记相关性的CFS评价准则函数;
根据所述结合标记相关性的CFS评价函数,计算每个粒子的适应值;
对每个粒子,将其计算的适应值与其经历过的最优位置pbest进行比较,若优于最优位置pbest,则将所述计算的适应值作为其经历过的最优位置pbest;
并将所有粒子的最优位置pbest作为群体的最优位置gbest;
更新粒子的位置和速度进行迭代,最终得到的群体的最优位置gbest中值为1所对应的特征即为酵母菌数据集的最优特征子集。
进一步的,所述更新粒子的位置和速度包括:
判断是否满足t<γ·Niter,其中,γ为[0,1]之间的随机数,Niter为迭代总次数;
若t<γ·Niter,则在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置;
否则,在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置。
进一步的,所述结合标记相关性的CFS评价函数为:
其中,CFS(S)为包含k个特征的候选子集S的评价值;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
进一步的,计算每个粒子的适应值前,还包括把位置为1的粒子数控制为n的步骤:
统计每个粒子中位置为1的位置数h:
若h>n,则随机将h-n个值为1的位置改为0;
若h<n,则随机将n-h个值为0的位置改为1。
本发明的有益效果:
本发明的一种基于粒子群优化的酵母菌多标记特征选择方法及装置,通过特征和标记之间的相关性、特征和特征之间的冗余性、标记和标记之间的相关性,构造候选特征子集的评价准则函数,将其作为离散粒子群方法的适应度函数,从而从数据集中选择出最优的酵母菌特征子集。本发明不仅可以有效的选取特征子集,为后续工作提供了一个精简、准确的特征子集,而且,降低分类器的时间复杂度和计算复杂度,提高了分类性能。
附图说明
图1是本发明的方法流程图。
具体实施方式
为了能够从酵母菌数据集中选择与其相关性较高的特征,为后续的工作提供一个精简、准确的特征子集,本发明提供了一种基于粒子群优化的酵母菌多标记特征选择装置,该装置包括处理器,处理器用于执行存储在存储器中的代码指令,实现本发明的基于粒子群优化的酵母菌多标记特征选择方法。下面结合附图,对该方法做详细说明。
整体来讲,该方法基于相关性和离散粒子群方法,通过酵母菌特征和标记之间的相关性、特征和特征之间的冗余性、标记和标记之间的相关性,构造候选特征子集的评价准则函数,衡量特征与分类问题之间的相关度,并以此作为离散粒子群方法的适应度函数,随机的搜索特征空间,进而选择出最优的特征子集。
下面先对粒子群方法和基于相关性的特征选择方法进行介绍。
一、粒子群方法
粒子群(Particle Swarm Optimization,PSO)方法是Eberhart和Kennedy博士在1995年提出的,来源于对鸟群捕食研究。与其他进化方法相比较,它最大的优势是实现简单和具有较强的全局优化能力。在该方法中,每个粒子通过对个体和群体的综合分析,调整自己的方向和速度,通过迭代找到最优解。
在PSO方法中,每个粒子都有决定其方向和位置的速度。在每次迭代优化的过程中,每个粒子都跟踪其已找到的最优位置pbest,以及所有的粒子已找到的全局最优位置gbest,以此来决定下一步的运动。所有粒子都有一个被优化函数决定的适应度值。
对于D维的搜索空间,在第t次迭代中,假设第i个粒子当前的位置为Xi=(xi1,xi2,…,xiD),xij为j维第i个粒子的位置,j=1,2,…,D;速度为Vi=(vi1,vi2,…,viD),vij为j维第i个粒子的速度,j=1,2,…,D;该粒子当前搜索到的最优位置pbest为Pi=(pi1,pi2,…,piD),pij为j维第i个粒子的最优位置pbest,j=1,2,…,D;整个粒子群搜索到的最优位置gbest为Pg=(g1,g2,…,gD),gj为j维整个粒子群搜索到的最优位置gbest,j=1,2,…,D;粒子群通过自身最优值和全局最优值更新自己。在第t+1次迭代中,在第j维的第i个粒子按照如下公式完成对速度和位置的更新:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生;w为惯性因子,决定了粒子对前一次迭代中速度的继承量;c1和c2为加速因子,通常c1=c2=2,体现了粒子向粒子群中优秀个体学习的能力;为第t次迭代中j维第i个粒子的位置,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter。
PSO还会制定一个最大速度vmax来决定粒子在一次迭代中的最大移动距离;每个粒子的速度都会被限制在vmax范围内;如果粒子的速度大于vmax,则速度会被设为vmax。
二、基于相关性的特征选择方法
基于相关性的特征选择方法(Correlation-Based Feature Selection,CFS)是通过度量特征与特征之间的冗余性、特征与标记之间的相关性,进而构造特征的评价准则函数,作为启发式搜索的适应度函数,从而对特征的价值进行评估的一种特征选择方法。对于随机搜索策略中产生的候选特征子集,CFS采用信息增益或pearson线性相关系数来衡量特征子集的优劣,其原理相对简单、计算复杂度低、易于实现,能有效、高效地选择出最优的特征子集。
基于相关性的特征选择方法CFS是结合启发式的搜索策略对候选特征子集进行评估的特征选择方法。由于以特征与特征之间的冗余性、特征与标记之间的相关性作为启发式搜索策略的评价准则,CFS同时考虑了特征与特征之间的冗余性和特征与标记之间的相关性。单标记的CFS和多标记的CFS具有相同的评价准则为:
其中,CFS(S)包含k个特征的候选特征子集S的评价值,CFS(S)的值越大,候选特征子集S与分类问题的关系越密切,即候选特征子集S越好;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
基于相关性的特征选择方法要实现两个目标:最大化候选特征子集S与标记L之间的平均相关性以提高预测准确率;最小化候选特征子集S中的特征之间的平均冗余性从而避免候选特征子集中出现冗余的特征,以免降低分类的性能和效率。
特征集和标记集之间的平均相关性通过对单个特征f和单个标记l之间的相关性rfl进行计算,以相同的方式对所有的标记进行求和、取平均,得出单个特征f和标记集L之间的平均相关性其计算公式为:
其中,q为标记的个数。
再以相同的方式对所有的特征进行求和、取平均得出标记集L和特征集S之间的平均相关性其计算公式为:
其中,k为特征的个数;q为标记的个数;rfl为单个特征和单个标记之间的相关性。
特征和特征之间的平均冗余性可以通过对特征集中的特征两两组合成对,分别求其冗余性,再求和、取平均给出,其计算公式为:
其中,rfifj为单个特征和单个特征之间的冗余性;fi和fj为特征集F中两个不同的特征;fp为特征子集F中的特征对数。
在候选的特征子集中增加或减少某个特征时,基于相关性的特征选择方法都要通过计算平均相关性和平均冗余性来给出CFS(S)的值,以决定该特征是否被加入到最优的特征子集中,信息增益能够衡量增加或删除某个特征后,信息量的增减,即候选特征子集的预测能力的增减。因此,信息增益可以用于计算特征与特征之间的平均相关性和特征与特征之间的平均冗余性
信息增益衡量标准是所选的候选特征能为分类问题增加多少的信息,增加的信息越多,表明候选特征与分类问题越相关。对于单个特征,在选择该特征后增加或减少的信息量代表该特征对分类问题的贡献度。
对于酵母菌特征选择的问题,下式分别给出了标记集L的熵H(L)、标记集L在候选特征子集S下的条件熵H(L|S):
其中,p(l)为标记集L取值为l的概率;p(l|f)为特征集S已知情况下标记集L的条件概率分布。
因此,候选特征子集S和标记集L之间的相关性的信息增益的计算公式gain为:
gain=H(L)-H(L|S)=H(S)-H(S|L)=H(L)+H(S)-H(S,L)
其中,H(L)为标记集L的熵;H(S)为特征集S的熵;H(L|S)为标记集L在候选特征子集S下的条件熵;H(S,L)为特征子集S和标记集L之间的互信息。
然而信息增益面临着一个问题:无论是否提供更多的信息,值较大的变量总是比值较小的变量携带更多的信息,这会影响分类问题的求解结果。对称不确定性(Symmetrical Uncertainty,SU)可以在程度长度上解决这个问题,并将结果归一化为[0,1]之间。对称不确定性公式为:
其中,H(L)为标记集L的熵;H(S)为特征集S的熵。
采用信息增益的方法时,候选特征子集S中特征和特征之间的冗余性为:
其中,fp为特征对数;H(fi)为特征fi的熵;H(fj)为特征fj的熵;H(fi|fj)为特征fi在特征fj下的条件熵。
候选特征子集S和标记集L之间的相关性为:
其中,k为特征的个数;q为标记的个数;H(l)为标记l的熵;H(f)为特征f的熵;H(f|l)为特征f在标记l下的条件熵。
因此,CFS准则函数为:
三、本发明的基于粒子群优化的酵母菌多标记特征选择方法
在多标记特征选择中,特征只存在选择和未选择两种情况,因此连续的粒子群方法无法直接处理特征选择问题,故这里需要采用离散粒子群方法。
在离散粒子群方法中,将粒子表示为0或1构成的二进制向量,向量长度是所有特征的数量,1表示相应特征被选中,0表示相应特征未被选中。速度定义为粒子每一位特征取0或1的概率。与粒子群方法相比,离散粒子群方法是以二元化的方式初始化和更新粒子的位置。
在离散粒子群方法中,初始化位置、速度的计算公式为:
其中,为j维第i个粒子的初始化的位置,i=1,2,…,m,j=1,2,…,D;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生;为j维第i个粒子的初始化速度,i=1,2,…,m,j=1,2,…,D;vmax为最大速度。
而随后的每次迭代t中,离散粒子群粒子的速度更新公式不变,位置更新公式为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生。 为logistic函数,根据粒子的速度给出粒子的位置。
当速度较大时,的值会近似等于1,这会导致粒子的位置始终是1,不利于离散粒子方法搜索全局最优解。因此,需要选择合适的最大速度vmax,以增加产生新颖的候选解的可能。
采用离散粒子群方法作为随机搜索策略的高阶特征选择方法需要控制所选的特征子集的大小,因此需要对粒子的位置的值进行限制:
(1)当粒子中值为1的位置数大于所要选的特征子集的大小时,随机的将值为1的位置设为0;
(2)当粒子中值为1的位置数小于所要选的特征子集的大小时,随机的将值为0的位置设为1。
与传统的粒子群方法相比,离散粒子群只是把特征的位置信息换成以0或1形式表示的特征被选中与未选中信息。但是,离散粒子群方法是缺少局部探测性的随机搜索方法,粒子随着迭代运行,越来越具有随机性,缺乏方向性没有收敛。为了解决该问题,可用下式来增强局部搜索能力:
其中,为第t次迭代中j维第i个粒子的位置,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生。 为logistic函数,根据粒子的速度给出粒子的位置。
根据一般的启发式搜索方法原理,则算法前期需要全局搜索能力,后期需要局部搜索能力,因此对该方法再做如下修改:
若t<γ·Niter,采用公式和更新粒子的位置、速度;否则,采用公式和更新粒子的位置、速度。
其中,γ为[0,1]之间的随机数;Niter为迭代总次数;在方法前期采用的是原始离散粒子群,后期则是新的变换公式。
CFS评价函数最大化特征与标记的相关性,以提高预测的准确率;最小化特征之间的冗余性,避免特征子集中出现冗余特性,降低分类的性能和效率,并用信息增益或pearson相关系数衡量特征子集的优劣。但是该函数并未考虑到标记与标记之间的关系,这使得计算并不精确,从而影响分类的精度。标记与标记之间是相互关联的,标记间的相关性可以提供额外的有效信息。充分利用这些信息,有利于建立更好的分类模型。假设酵母菌样本拥有的类标记对其的贡献值是相等的,将标记与标记之间的相关性加入CFS评价函数中,改进CFS评价函数。本发明按照范数归一化思想,将样本的所有标记与标记之间相关性和特征与标记之间的相关性之和设为1,在原有评价函数的基础上,引入了标记之间的相关性,提出一种综合标记相关性的CFS评价函数,则新的适应度函数定义如下:
其中,CFS(S)包含k个特征的候选特征子集S的评价值,CFS(S)的值越大,候选特征子集S与分类问题的关系越密切,即候选特征子集S越好;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
通过最大化特征与标记的相关性、标记与标记之间的相关性,两者的均值以提高预测的准确率;最小化特征之间的冗余性,避免特征子集中出现冗余特征,降低分类的性能和效率。
其具体过程如下:
Step1数据预处理:提取酵母菌样本数据集,包括多个酵母菌样本特征矩阵和样本标记矩阵,酵母菌数据集的描述包括数据集的样本数、特征数以及标记数。特征矩阵中的每行为酵母菌数据集的样本,矩阵中列向量为特征;标记矩阵中每行为酵母菌数据集的样本,矩阵中列向量为标记。例如:原始待降维的酵母菌数据集X={x1,x2,…,xn},其中,n为样本数,每个样本有若干个特征。
Step2根据特征提取得到的特征训练样本集X的特征数据,初始化二进制编码的粒子群:包括粒子群的位置和初始速度,随机产生一组初始值。初始化速度、位置公式如下:
其中,为j维第i个粒子的初始化的位置,i=1,2,…,m,j=1,2,…,D;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生;为j维第i个粒子的初始化速度,i=1,2,…,m,j=1,2,…,D;vmax为最大速度。
Step3位置为1的粒子数控制为n,分别统计每个粒子中位置为1的位置数h。若h>n,则随机将h-n个位置的值1的位置改为0;否则,则随机将n-h个值为0的位置改为1。
Step4根据CFS评价准则函数,计算粒子群中每个粒子的适应值(fitness),以在进行特征选择时,在保证甚至提高分类器性能的前提下降低特征子集的规模,即一个粒子能够使分类器产生的分类精度越高,同时选出的特征数目越少,那么它的适应值就越高。适应度公式如下:
其中,CFS(S)包含k个特征的候选特征子集S的评价值,CFS(S)的值越大,候选特征子集S与分类问题的关系越密切,即候选特征子集S越好;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
Step5将当前粒子的适应度pi与局部最优解pbest以及种群的全局最优解gbest进行比较,若粒子的适应度pi大于局部最优解pbest,则令粒子的局部最优解pbest等于适应度pi;若粒子的适应度pi大于全局最优解gbest,则令种群的全局最优解gbest等于适应度pi。
粒子初始化后,粒子的速度和位置为一群随机解,然后通过迭代找到最优解,在每次迭代中,粒子通过两个最优解来更新自己:一个是粒子本身所找到的最优解,即局部最优解pbest;另一个是种群目前找到的最优解,称之为全局最优解gbest。
Step6根据Step4所更新的局部最优解pbest以及种群的全局最优解gbest,计算粒子的移动速度和新的位置。
粒子通过种群中每个个体不停的运动来搜索最优解。每个粒子由自己当前的局部最优解和全部粒子的全局最优解两个部分决定它的运动方向。每个粒子代表j维空间中的一个点,其下一个位置由自己的当前位置和速度所决定。算法前期粒子速度、位置更新公式如下:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生;w为惯性因子,决定了粒子对前一次迭代中速度的继承量;c1和c2为加速因子,通常c1=c2=2,体现了粒子向粒子群中优秀个体学习的能力;为第t次迭代中j维第i个粒子的位置,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter。 为logistic函数,根据粒子的速度给出粒子的位置。
在算法运行后期粒子位置更新公式如下:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生。 为logistic函数,根据粒子的速度给出粒子的位置。
与传统的PSO相比,BPSO只是把特征的位置信息换成以0或1形式表示的特征被选中与未选中信息。但是BPSO算法是缺少局部探测性的随机搜索算法。粒子随着迭代运行,越来越具有随机性,缺乏方向性没有收敛。根据一般的启发式随机搜索算法原理,因此算法前期需要全局搜索能力,后期则需要局部搜索能力。
Step7判断是否符合终止条件,若符合,则结束并输出最优特征集,否则迭代次数加1,并返回Step3。
下面针对酵母菌数据集进行仿真测试和实验,以便对本发明的方法所能达到的效果做进一步的说明。该次实验提取酵母菌样本数据集,包括多个酵母菌样本特征矩阵和样本标记矩阵,酵母菌数据集的描述包括数据集的样本数、特征数、以及标记数。特征矩阵中的每行为酵母菌数据集的样本,矩阵中列向量为特征。标记矩阵中每行为酵母菌数据集的样本,矩阵中列向量为标记。酵母菌数据集具体的描述信息如表1所示。
表1酵母菌样本数据集的具体描述
根据王晨曦等撰写的《融合特征排序的多标记特征选择算法》(计算机工程与应用,2016,52(17):93-100.),选取AP(Average Precision)、CV(Coverage)、HL(HammingLoss)、RL(Ranking Loss)四种评价指标来分析和度量实验结果。
令测试集为根据函数f1(x)可定义排序函数为rankf(x,l)∈{1,2,…,L}。
AP:用于考察所有样本的预测标记排序中,排在隶属于该样本标记前面的标记仍属于该样本标记的概率的平均,定义如下:
其中,Ri={l|Yil=+1}表示与样本xi相关的标记构成的集合,Ri={l|Yil=-1}表示与样本xi不相关的标记构成的集合。
CV:用于度量平均每个样本需要查找多少步才能遍历所有与该样本相关的标记,定义如下:
HL:用于度量样本在单个标记上的误分类情况,定义如下:
RL:用来考察所有样本的不相关标记的排序排在相关标记前面的概率的平均值,定义如下:
为了验证该方法的有效性,采用Zhang和Zhou撰写的《Multilabeldimensionality reduction via dependence maximization》(ACM Transactions onKnowledge Discovery from Data(TKDD),2010,4(3):14.)(MDDMspc、MDDMproj)、Yu和Wang撰写的《Feature selection for multi-label learning using mutual informationand GA》(International Conference on Rough Sets and Knowledge Technology,Springer,Cham,2014:454-463.)(MLFSIE)算法作为对比实验,采用Zhang和Zhou撰写的《ML-KNN:A lazy learning approach to multi-label learning》(Patternrecognition,2007,40(7):2038-2048.)(ML-kNN)对在选择后的数据集进行评估。其中,ML-kNN的平滑参数s设置为1,近邻k设置为10。另外,MDDMspc以及MDDMproj算法得到的是一组特征排序。为了对比各方法得到的特征子集的分类性能,实验中将取特征排序的前k个特征作为特征子集。
下表2分别给出了这四个方法在酵母菌数据集上的实验结果。对于每一种评价指标,符号“↑”表示指标的值越大,分类性能越优;符号“↓”表示指标的值越小,分类性能越优,将对比方法中性能最优的实验结果使用加粗表示。
表2 Yeast分类性能比较
对比表2可以发现:对于AP、CV、HL和RL这4个评价指标:CFS-NBPSO算法约简得到的特征数目达到原始数据的10%,起到了很好的降维目的,并且CFS-NBPSO算法在所有的实验数据集上获得的分类性能都能优于MDDMspc、MDDMproj和MLFSIE算法。MDDMspc和MDDMproj算法虽然得到了较少的特征数,但在去除冗余特征的过程中也剔除了与分类相关的一些特征,导致其分类效果下降很多,与我们进行降维的目的冲突。
综上,根据表中16个对比结果(4个评价指标和4个算法),本发明的方法有100%的情况能够获得最优值。以上实验结果分析,充分表明了本发明所提方法得到的特征子集诱导出来的分类性能是明显优于其他三种对比算法。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (8)
1.一种基于粒子群优化的酵母菌多标记特征选择方法,其特征在于,包括如下步骤:
提取酵母菌样本数据集,所述酵母菌样本数据集包括多个酵母菌样本特征矩阵和样本标记矩阵;
提取酵母菌样本数据集的特征数据,初始化二进制编码的粒子群,并初始化粒子群的位置和速度;
通过度量特征与特征之间的冗余性、特征与标记之间的相关性,标记和标记之间的相关性,构造结合标记相关性的CFS评价准则函数;
根据所述结合标记相关性的CFS评价函数,计算每个粒子的适应值;
对每个粒子,将其计算的适应值与其经历过的最优位置pbest进行比较,若优于经历过的最优位置pbest,则将所述计算的适应值作为其经历过的最优位置pbest;
并将所有粒子的最优位置pbest作为群体的最优位置gbest;
更新粒子的位置和速度进行迭代,最终得到的群体的最优位置gbest中值为1所对应的特征即为酵母菌数据集的最优特征子集。
2.根据权利要求1所述的基于粒子群优化的酵母菌多标记特征选择方法,其特征在于,所述更新粒子的位置和速度包括:
判断是否满足t<γ·Niter,其中γ为[0,1]之间的随机数,Niter为迭代总次数;
若t<γ·Niter,则在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置;
否则,在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置。
3.根据权利要求1所述的基于粒子群优化的酵母菌多标记特征选择方法,其特征在于,所述结合标记相关性的CFS评价函数为:
其中,CFS(S)为包含k个特征的候选子集S的评价值;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
4.根据权利要求1所述的基于粒子群优化的酵母菌多标记特征选择方法,其特征在于,计算每个粒子的适应值前,还包括把位置为1的粒子数控制为n的步骤:
统计每个粒子中位置为1的位置数h:
若h>n,则随机将h-n个值为1的位置改为0;
若h<n,则随机将n-h个值为0的位置改为1。
5.一种基于粒子群优化的酵母菌多标记特征选择装置,其特征在于,包括处理器,所述处理器用于执行指令实现如下方法:
提取酵母菌样本数据集,所述酵母菌样本数据集包括多个酵母菌样本特征矩阵和样本标记矩阵;
提取酵母菌样本数据集的特征数据,初始化二进制编码的粒子群,并初始化粒子群的位置和速度;
通过度量特征与特征之间的冗余性、特征与标记之间的相关性,标记和标记之间的相关性,构造结合标记相关性的CFS评价准则函数;根据所述结合标记相关性的CFS评价函数,计算每个粒子的适应值;
对每个粒子,将其计算的适应值与其经历过的最优位置pbest进行比较,若优于最优位置pbest,则将所述计算的适应值作为其经历过的最优位置pbest;
并将所有粒子的最优位置pbest作为群体的最优位置gbest;
更新粒子的位置和速度进行迭代,最终得到群体的最优位置gbest中值为1所对应的特征即为酵母菌数据集的最优特征子集。
6.根据权利要求5所述的基于粒子群优化的酵母菌多标记特征选择装置,其特征在于,所述更新粒子的位置和速度包括:
判断是否满足t<γ·Niter,其中γ为[0,1]之间的随机数;Niter为迭代总次数;
若t<γ·Niter,则在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置;
否则,在第t次迭代中更新j维第i个粒子的位置为:
其中,为第t次迭代中j维第i个粒子的速度,i=1,2,…,m,j=1,2,…,D,t=1,2,…,Niter;rand()为均匀分布的随机函数,其值在0和1之间,每次迭代都会重新产生; 为logistic函数,根据粒子的速度给出粒子的位置。
7.根据权利要求5所述的基于粒子群优化的酵母菌多标记特征选择装置,其特征在于,所述结合标记相关性的CFS评价函数为:
其中,CFS(S)为包含k个特征的候选子集S的评价值;为酵母菌候选特征子集S与标记集L之间的平均相关性,为酵母菌标记集L与标记集L之间的平均相关性,为酵母菌候选特征子集S中特征之间的平均冗余性。
8.根据权利要求5所述的基于粒子群优化的酵母菌多标记特征选择装置,其特征在于,计算每个粒子的适应值前,还包括把位置为1的粒子数控制为n的步骤:
统计每个粒子中位置为1的位置数h:
若h>n,则随机将h-n个值为1的位置改为0;
若h<n,则随机将n-h个值为0的位置改为1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810380973.0A CN108805162A (zh) | 2018-04-25 | 2018-04-25 | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810380973.0A CN108805162A (zh) | 2018-04-25 | 2018-04-25 | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108805162A true CN108805162A (zh) | 2018-11-13 |
Family
ID=64092989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810380973.0A Pending CN108805162A (zh) | 2018-04-25 | 2018-04-25 | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108805162A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211638A (zh) * | 2019-05-28 | 2019-09-06 | 河南师范大学 | 一种考虑基因相关度的基因选择方法与装置 |
CN111340741A (zh) * | 2020-01-03 | 2020-06-26 | 中北大学 | 基于四元数与l1范数的粒子群优化灰度图像增强方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678680A (zh) * | 2013-12-25 | 2014-03-26 | 吉林大学 | 基于感兴趣区域多元空间关系模型的图像分类方法 |
CN105608004A (zh) * | 2015-12-17 | 2016-05-25 | 云南大学 | 一种基于cs-ann的软件缺陷预测方法 |
CN106991447A (zh) * | 2017-04-06 | 2017-07-28 | 哈尔滨理工大学 | 一种嵌入式多类别属性标签动态特征选择算法 |
CN107541544A (zh) * | 2016-06-27 | 2018-01-05 | 卡尤迪生物科技(北京)有限公司 | 用于确定微生物分布谱的方法、***、试剂盒、用途和组合物 |
-
2018
- 2018-04-25 CN CN201810380973.0A patent/CN108805162A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678680A (zh) * | 2013-12-25 | 2014-03-26 | 吉林大学 | 基于感兴趣区域多元空间关系模型的图像分类方法 |
CN105608004A (zh) * | 2015-12-17 | 2016-05-25 | 云南大学 | 一种基于cs-ann的软件缺陷预测方法 |
CN107541544A (zh) * | 2016-06-27 | 2018-01-05 | 卡尤迪生物科技(北京)有限公司 | 用于确定微生物分布谱的方法、***、试剂盒、用途和组合物 |
CN106991447A (zh) * | 2017-04-06 | 2017-07-28 | 哈尔滨理工大学 | 一种嵌入式多类别属性标签动态特征选择算法 |
Non-Patent Citations (2)
Title |
---|
***等: "离散二进制粒子群算法分析", 《南京大学学报(自然科学)》 * |
赵磊: "基于随机搜索策略的多标签特征选择方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110211638A (zh) * | 2019-05-28 | 2019-09-06 | 河南师范大学 | 一种考虑基因相关度的基因选择方法与装置 |
CN110211638B (zh) * | 2019-05-28 | 2023-03-24 | 河南师范大学 | 一种考虑基因相关度的基因选择方法与装置 |
CN111340741A (zh) * | 2020-01-03 | 2020-06-26 | 中北大学 | 基于四元数与l1范数的粒子群优化灰度图像增强方法 |
CN111340741B (zh) * | 2020-01-03 | 2023-05-09 | 中北大学 | 基于四元数与l1范数的粒子群优化灰度图像增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | A survey on online feature selection with streaming features | |
CN111191732B (zh) | 一种基于全自动学习的目标检测方法 | |
CN113190699B (zh) | 一种基于类别级语义哈希的遥感图像检索方法及装置 | |
CN110363282B (zh) | 一种基于图卷积网络的网络节点标签主动学习方法和*** | |
CN113326731A (zh) | 一种基于动量网络指导的跨域行人重识别算法 | |
CN109409496A (zh) | 一种基于蚁群算法改进的ldtw序列相似度量方法 | |
Chen et al. | An effective feature selection scheme for healthcare data classification using binary particle swarm optimization | |
Li et al. | MICQ-IPSO: An effective two-stage hybrid feature selection algorithm for high-dimensional data | |
CN110263804A (zh) | 一种基于安全半监督聚类的医学影像分割方法 | |
CN113535947A (zh) | 一种带有缺失标记的不完备数据的多标记分类方法及装置 | |
Chen et al. | Learning to segment object candidates via recursive neural networks | |
CN108805162A (zh) | 一种基于粒子群优化的酵母菌多标记特征选择方法及装置 | |
He et al. | Spatial and temporal dual-attention for unsupervised person re-identification | |
CN110674860A (zh) | 基于邻域搜索策略的特征选择方法、存储介质和终端 | |
CN110796198A (zh) | 基于混合蚁群优化算法的高维特征筛选方法 | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
CN116069985A (zh) | 一种基于标签语义增强的鲁棒在线跨模态哈希检索方法 | |
CN115861902A (zh) | 无监督的动作迁移和发现方法、***、设备和介质 | |
CN109284375A (zh) | 一种基于原始数据信息保留的域自适应降维方法 | |
Ma et al. | Video-based person re-identification by semi-supervised adaptive stepwise learning | |
Wu et al. | Dual-view data hallucination with semantic relation guidance for few-shot image recognition | |
Su et al. | Deep supervised hashing with hard example pairs optimization for image retrieval | |
CN108830370B (zh) | 基于增强学习型菌群觅食算法的特征选择方法 | |
Sun et al. | Dual Self-Paced Hashing for Image Retrieval | |
Li et al. | Source-Free Active Domain Adaptation via Augmentation-Based Sample Query and Progressive Model Adaptation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181113 |
|
RJ01 | Rejection of invention patent application after publication |