CN110782950A

CN110782950A - 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法

Info

Publication number: CN110782950A
Application number: CN201910903327.2A
Authority: CN
Inventors: 韩飞; 管天华; 孙郁闻天; 方升
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-02-11
Anticipated expiration: 2039-09-23
Also published as: CN110782950B

Abstract

本发明公开了一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，包括利用分类信息指数对原始基因表达谱数据集进行过滤，得到初级基因池；计算初始基因池中每个基因的基因类别灵敏度信息GCS值，然后通过GCS值对粒子进行编码；以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标，构建多目标优化模型；通过建立好的多目标模型搜索出最终的基因子集，识别出肿瘤的关键基因。在多目标优化模型方面，本发明能通过多目标模型在初级基因池里快速高效地识别出数目较少且分类性能较好的关键基因子集。

Description

基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法

技术领域

本发明属于肿瘤基因表达谱数据的计算机分析技术的应用领域，具体涉及一种基于偏好网格和莱维飞行的多目标粒子群优化的肿瘤关键基因识别方法。

背景技术

自上个世纪八十年代以来，微阵列技术已经被广泛应用于疾病诊断。它能帮助医务人员和研究人员同时访问数千个基因的表达水平，最终产生微阵列数据。通过基因表达谱对样本的诊断类别进行分类和预测，这些数据已成功应用于癌症的分类。但是复杂的基因表达谱数据在开发有效的分类器时仍面临很多挑战：首先，基因表达谱数据的维度很高，各维度及基因之间拥有复杂未知的关系。第二，基因表达谱数据集中拥有大量的无关样本。第三，基因表达谱数据集的样本量很少，这就导致了更高的计算复杂性和更多的预测误差。

关键基因识别即基因选择，也被称之为特征选择，可以被认为是一种提高模型预测性能的有效方法。它是数据挖掘中的关键预处理步骤，它侧重于通过减少冗余，无关或嘈杂的基因从表达数据集中鉴定最佳基因子集。根据每个基因与目标类别的相关性如何评估，基因选择可以主要分为过滤法，缠绕法和混合方法。过滤法不用分类器来评价基因子集，且多数过滤法不考虑基因之间的相关性。缠绕法将预定的学习算法与分类器集成，以根据预测准确度对最佳基因子集进行分组。尽管过滤法比缠绕法更有效，但后者的分类性能要比前者好得多。混合法是过滤法和封装法的结合，以互补的方式利用它们的优势。然而，这些方法通常将基因选择视为单目标问题。主要缺点是难以探索分类准确性与所选基因的不同子集之间的不同潜在权衡。

微粒群算法(Particle Swarm Optimization，PSO)的全局搜索能力较强，且收敛速度较快。相对于遗传算法而言，PSO无需进行复杂的遗传操作，且可调参数较少，易于实现，因此近年来它广泛应用于肿瘤表达谱数据的关键基因识别上。通常，肿瘤关键基因识别是一个多目标问题，其涉及到最小化基因子集的大小和最大化预测性能。速度约束多目标粒子群算法(SMPSO)加入了一种速度约束机制，当粒子的速度过大时，这个速度约束机制就会限制粒子的速度太大而造成种群***现象。基于竞争机制的多目标粒子群算法(CMOPSO)基于成对竞争的方式更新粒子而不是通过常规的个体最优和全局最优粒子更新。这些方法都一定程度上提高了算法的收敛性和多样性，但在面对复杂的多目标问题，例如非凸问题或者多模态问题时，算法性能往往会有所下降。此外，假设所有非支配解决方案都是可取的，这些多目标优化算法旨在搜索所有Pareto最优解。在实践中，关键基因识别的主要目的是增强分类器的分类性能。因此，关键基因识别可能更喜欢搜索解决方案表现出更好预测性能的那些区域，而不是那些在帕累托前沿具有较少基因的区域。从这个角度来看，这些方法在搜索不需要的解决方案时浪费了计算成本。

发明内容

发明目的：提出一种基于莱维飞行和双存档机制的多目标粒子群算法的肿瘤关键基因识别方法，该方法能识别出与肿瘤类别高度相关的基因子集，且选出的基因子集数目较少，相较于传统的方法具有较强的可解释性。

技术方案：一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，包括对原始基因利用分类信息指数进行初选，然后利用GCS信息对粒子进行编码，以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤，包括下列步骤：

步骤1基因表达谱数据的预处理，包括把原始数据集分成训练集和测试集，利用分类信息指数对原始基因表达谱数据集进行过滤，得到初始基因池；

步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值，然后通过GCS值对粒子进行编码；

步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标，构建多目标优化模型；

步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF)，并用它不断地搜索、评估更新粒子以及维护外部存档，以获得分类准确率较高且规模较小的基因子集；

步骤5如果满足终止条件，则输出最终识别好的肿瘤关键基因，否则转向步骤4；

进一步，所述步骤1中包含下列步骤：

步骤1.1载入原始基因数据集，并按照2：1的比例划分训练集和测试集；

步骤1.2根据式(1)，计算每个基因的分类信息指数并按降序排列，选择前400个基因加入初始基因池。

其中，

和

表示基因g在正类(+)和负类(-)上表达水平的均值，和

分别表示基因g在正类(+)和负类(-)上表达水平的标准差。

进一步，所述步骤2中包含下列步骤：

步骤2.1根据式(2)和式(3)，计算初级基因池中每个基因的GCS值，GCS值越大往往比GCS值小的基因对分类的贡献大；

其中X_Training为训练样本集，β_sq是ELM的第s个隐含层节点和第q个输出节点的权重，w_js是第j个输入节点和第s个隐含层节点的权重；Hid(s)是第s个隐含层节点的输入；N_gnl是初始基因池中基因的数目，g为ELM的激活函数，本发明取sigmoid函数。

步骤2.2对粒子进行编码，先将各个基因按GCS值进行降序排列，前20％的基因随机初始化为[0，1]内的随机数，其余80％的基因都初始化为0，粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中，反之小于0.5就表示未选中。

进一步，所述步骤3中包含下列步骤：

步骤3.1设置多目标粒子群算法的评价指标，它包括两个指标：准确率和基因规模。f₁为准确率acc(i)，它是第i个粒子在验证集上的ELM分类准确率，f₂为基因规模geneNum(i)，即为粒子i所选出的基因数目，为了把两个指标统一为最大化问题，这里把geneNum(i)变为

d是样本的维度。

步骤3.2把f＝(f₁，f₂)作为多目标粒子群算法的优化目标。

进一步，所述步骤4中包含下列步骤：

步骤4.1随机初始化种群粒子，并且给每个粒子新加入一个参数flag，该参数用以评判每个粒子经过多久都还没进化为更好的粒子；

步骤4.2每个粒子的参数flag是否小于预先设定的阈值T；；

步骤4.3如果小于T，按照公式(4)(5)，即常规的粒子群算法公式进化粒子，如果大于T，则按照公式(6)(7)(8)，对该粒子使用改进的莱维飞行策略进化粒子，同时该粒子的flag值变为0；

这里的u和v服从正态分布：

并且

其中，

为粒子i在第t+1次迭代时的速度，

为粒子i在第t次迭代的位置，x_pb，i为粒子i的个体历史最优位置，x_gb，i为粒子i的全局最优位置，w为惯性权重，一般在[0.4，0.9]间自适应变化，c₁，c₂为加速常数，r₁，r₂为两个在[0，1]范围内变化的随机数，S为莱维飞行的更新步长。一般来说，参数α通常被设置为0.01用以防止它过于激进进而很容易就跳出了决策边界，β设置为1.5。注意到，当更新步长S时，本发明对常规的莱维飞行公式作了一些扰动，这里会有一定的几率用S乘上全局最优粒子x_gb，i减去当前粒子的位置这样做的目的是当用莱维飞行更新粒子的位置时，粒子可以适当地往全局最优粒子x_gb，i方向靠，而不是完全地符合莱维分布的随机跳动。

步骤4.4以f＝(f₁，f₂)作为目标函数，评估粒子是否进化为更好的解，这里即评判新产生的解与个体最优粒子的支配关系，如果新粒子支配了个体最优粒子，则更新粒子的个体最优信息并把该粒子的参数flag置0；如果新粒子被个体最优粒子支配了，则该粒子的属性flag的值加1；如果新粒子与个体最优粒子互不支配，那么就以一定的概率(50％)更新粒子的个体最优信息并把该粒子的参数flag置0，反之就把该粒子的属性flag值加1。

步骤4.5对粒子进行支配比较，把非支配解加入外部存档，并对外部存档进行维护。在维护外部存档以及选择领导粒子时，本发明通过一种偏好网格的方式来进行，具体为：首先根据外部存档中的非支配解在目标函数上的值创建如图1所示的网格，每个非支配解代表网格中的一个黑点Q_i，所以Q＝{Q₁，Q₂，...，Q_i，...，Q_n}表示所以非支配解的集合，n是非支配解的个数，网格中至少有一个粒子的网格这里称之为有效网格。

对于Q_i∈Q，按照公式(9)计算Q_i的加权适应度值，其中F₁，F₂是两个目标的适应度值，α是[0，1]内的偏好权重，取决于F₁和F₂对于此次问题的重要程度，由决策者自己决定这个参数，本发明把α设为0.7，且β＝1-α，num为Q_i所在的网格内粒子的数目，θ为一个惩罚项，这里设为0.05。

λ_i＝α*F₁+β*F₂-θ*num (9)

当选择领导粒子时，根据式(10)，计算Q_i被选中的概率P_i，当维护外部存档要删粒子时，根据式(11)，计算Q_i被选中的概率P_i，其中n是非支配解的总个数，然后使用轮盘赌的方法选择一个粒子作为领导粒子或从存档中删去。注意到这里对每个λ_i都做了e的指数幂，这样做的目的可以让λ_i大的粒子拥有更大的概率被选中，进一步拉大λ_i大的粒子与λ_i小的粒子之间的选中概率。从λ_i中可以看出当Q_i所在的网格内粒子较多时，所得的的适应度值λ_i由于惩罚项的存在，会变得比较小，这样选出的解既具有较高的分类准确率又能使该解在网格中是稀疏的，极大地提高了算法的决策效率并节省了计算资源的开销。

步骤4.6判断这里的多目标粒子算法是否满足终止条件，若满足终止条件，则输出结果；若不满足，则转向步骤(4.2)

进一步，所述步骤5中包含下列步骤：

步骤5.1重复以上操作，直到适应度函数达到某个阈值或者达到预设的最大迭代次数，否则返回步骤4；

步骤5.2此时的存档中的非支配微粒均可代表最终选出的识别肿瘤的关键基因子集。

有益效果：高维小样本的肿瘤基因表达谱数据中存在变异和噪声，且大量有用信息被隐藏。传统方法的PSO算法容易陷入局部极小点，从而导致选出的基因子集非最佳。本发明通过加权法构造出一个能描述决策偏好的网格来维护存档和选择领导粒子，极大地提高了算法的决策效率并节省了计算资源的开销；同时又将一种改进的莱维飞行策略和多目标粒子群算法结合，提高了算法在复杂多目标优化问题上的收敛性能。

提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF)，并用它不断地搜索、评估更新粒子以及维护外部存档，不但能够获得分类准确率较高且规模较小的基因子集，同时该分识别类相比于传统的肿瘤关键基因识别方法，本发明能通过改进的多目标模型在初级基因池里识别出特定两种亚型肿瘤关键基因。

附图说明

图1是本发明的偏好网格的示意图；

图2是本发明的结构框图；

具体实施方式

一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，包括对原始基因利用分类信息指数进行初选，然后利用GCS信息对粒子进行编码，以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤，本发明具体包括下列步骤：

进一步，所述步骤1中包含下列步骤：

步骤1.1载入原始基因数据集，并按照2∶1的比例划分训练集和测试集；

其中，

和

表示基因g在正类(+)和负类(-)上表达水平的均值，

和

分别表示基因g在正类(+)和负类(-)上表达水平的标准差。

进一步，所述步骤2中包含下列步骤：

进一步，所述步骤3中包含下列步骤：

d是样本的维度。

步骤3.2把f＝(f₁，f₂)作为多目标粒子群算法的优化目标。

进一步，所述步骤4中包含下列步骤：

步骤4.2每个粒子的参数flag是否小于预先设定的阈值T；；

这里的u和v服从正态分布：

并且

其中，

为粒子i在第t+1次迭代时的速度，

为粒子i在第t次迭代的位置，x_pb，i为粒子i的个体历史最优位置，x_gb，i为粒子i的全局最优位置，w为惯性权重，一般在[0.4，0.9]间自适应变化，c₁，c₂为加速常数，r₁，r₂为两个在[0，1]范围内变化的随机数，S为莱维飞行的更新步长。一般来说，参数α通常被设置为0.01用以防止它过于激进进而很容易就跳出了决策边界，β设置为1.5。注意到，当更新步长S时，本发明对常规的莱维飞行公式作了一些扰动，这里会有一定的几率用S乘上全局最优粒子x_gb，i减去当前粒子的位置

这样做的目的是当用莱维飞行更新粒子的位置时，粒子可以适当地往全局最优粒子x_gb，i方向靠，而不是完全地符合莱维分布的随机跳动。

λ_i＝α*F₁+β*F₂-θ*num (9)

进一步，所述步骤5中包含下列步骤：

针对适应度函数仅用一种的单目标优化方案缺乏较好的解释性，选出的基因对肿瘤的识别不够准确，本发明提出结合莱维飞行和偏好网格的多目标粒子群优化进行肿瘤的关键基因子集的识别，以获取更为有效的肿瘤关键基因子集，从而提高肿瘤识别准确性。

下面以肿瘤基因表达谱数据为例，简单地说明本发明的执行过程。本实例选择脑癌(Brain cancer)肿瘤表达谱数据集，总共包含60个样本，共有两种亚型：46个典型脑癌(patients with classic brain cancer)样本和14个促***增生脑癌(patientswith desmoplastic brain cancer)。每个样本包含7219个基因，数据集来源于http://linus.nci.nih.gov/～brb/DataArchiveNew.html。尽管脑癌肿瘤表达谱数据集只有两个类别，但由于该数据集中各基因表达水平比较靠近，很难获取识别肿瘤的关键基因，从而多种分类器在传统基因识别方法选出的基因子集上对样本的预测精度都不高。在该数据集上，本发明的具体执行步骤如下：

如图2所示，一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，包括对原始基因利用分类信息指数进行初选，然后利用GCS信息对粒子进行编码，以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤，包括以下步骤：

(1)载入原始数据，并以2∶1的比例将数据集分为训练集和测试集，其中训练样本40个，测试样本20个。在训练集上采用改进的分类信息指数方法(Han F，Sun W，Ling Q-H(2014)A Novel Strategy for Gene Selection of Microarray Data Based on Gene-to-Class Sensitivity Information.PLoS ONE 9(5)：e97530.doi：10.1371/joumal.pone.0097530)初步筛选出400个基因，形成初始备选基因池。

(2)计算初级基因池中每个基因的GCS值(Han F，Sun W，Ling Q-H(2014)A NovelStrategy for Gene Selection of Microarray Data Based on Gene-to-ClassSensitivity Information.PLoS ONE 9(5)：e97530.doi：10.1371/joumal.pone.0097530)，并将各个基因按GCS值进行降序排列，前20％的基因随机初始化为[0，1]内的随机数，其余80％的基因都初始化为0，粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中，反之小于0.5就表示未选中。

(3)设置多目标粒子群算法的评价指标，它包括两个指标：准确率和基因规模。f₁为准确率acc(i)，它是第i个粒子在验证集上的ELM分类准确率，f₂为基因规模geneNum(i)，即为粒子i所选出的基因数目，为了把两个指标统一为最大化问题，这里把geneNum(i)变为

d是样本的维度。

(4)运用基于偏好网格和莱维飞行的多目标粒子群算法在初始基因池中选择出关键的肿瘤基因，具体步骤如下：

①按照步骤2初始化种群，每个粒子的参数flag设为0，阈值T设为10，种群大小设置为50，最大迭代次数设为50，外部存档大小与种群大小一致为50，偏好权重α设为0.7，惯性权重w从0.9线性递减至0.4；加速常数c₁和c₂为1.5。

②如果粒子的参数flag小于T，按照式(4)(5)进化粒子，如果大于T，按照式(6)(7)(8)以莱维飞行策略进化粒子。

③根据步骤3的评估目标计算出各个粒子的适应值，并更新各个粒子的历史最优位置和全局最优位置以及每个粒子的参数flag。

④对粒子进行支配比较，将非支配解加入外部存档，根据步骤4.5，以偏好网格的策略维护外部存档。

⑤如未达到预先设定的最大迭代次数(在本实施例中为50)，则返回至步骤②，否则输出结果，此时存档中的所有非支配粒子均可代表最终识别出的关键的肺癌肿瘤基因集合。

表1给出了本发明实施例中ELM在所识别出的基因子集上的分类准确率，在3个关键基因上，ELM分类5折交叉准确率和测试准确率分别达到86.97％和81.22％。而ELM在Kmeans-GCSI-MBPSO-ELM方法(Han F，Sun W，Ling Q-H(2014)A Novel Strategy for GeneSelection of Microarray Data Based on Gene-to-Class SensitivityInformation.PLoS ONE 9(5)：e97530.doi：10.1371/joumal.pone.0097530)所选出的6个最优基因子集上的5折交叉准确率和测试准确率分别为88.63％和80.40％。这进一步说明本发明能识别出与肿瘤有关的关键基因，且能找到基因数更少，对分类性能更具有帮助的关键基因。

表1本发明在脑癌数据集上选出的不同基因子集上，ELM的分类准确率

表2给出了用本发明的方法在脑癌肿瘤表达谱数据上进行1000次实验筛选出频次最高的10个识别脑癌的关键基因。从表1和表2中可以发现，在脑癌数据集(Braincancer)上，本发明提出的方法所选的基因子集数目较少，而基因序号为5931、4413和18的基因，不仅出现频次高，而且反复出现在所选的关键基因中。

表2本发明在脑癌肿瘤表达谱数据集上识别频次最高的30个基因

在多目标优化模型方面，本发明通过加权法构造出一个能描述决策偏好的网格来维护存档和选择领导粒子，极大地提高了算法的决策效率并节省了计算资源的开销；同时又将一种改进的莱维飞行策略和多目标粒子群算法结合，提高了算法在复杂多目标优化问题上的收敛性能。相比于传统的肿瘤关键基因识别方法，本发明能通过多目标模型在初级基因池里快速高效地识别出数目较少且分类性能较好的关键基因子集。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，包括下列步骤：

步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF)，并用它不断地搜索、评估更新粒子以及维护外部存档，以获得基因子集；

步骤5如果满足终止条件，则输出最终识别好的肿瘤关键基因，否则转向步骤4。

2.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，所述步骤1中包含下列步骤：

其中，

和表示基因g在正类(+)和负类(-)上表达水平的均值，和

分别表示基因g在正类(+)和负类(-)上表达水平的标准差。

3.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，所述步骤2中包含下列步骤：

其中X_Training为训练样本集，β_sq是ELM的第s个隐含层节点和第q个输出节点的权重，w_js是第j个输入节点和第s个隐含层节点的权重；Hid(s)是第s个隐含层节点的输入；N_gnl是初始基因池中基因的数目，g为ELM的激活函数，本发明取sigmoid函数；

4.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，所述步骤3中包含下列步骤：

d是样本的维度；

步骤3.2把f＝(f₁，f₂)作为多目标粒子群算法的优化目标。

5.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，所述步骤4中包含下列步骤：

步骤4.2每个粒子的参数flag是否小于预先设定的阈值T；

这里的u和v服从正态分布，为随机变量：

并且

其中，

为粒子i在第t+1次迭代时的速度，

为粒子i在第t次迭代的位置，x_pb，i为粒子i的个体历史最优位置，x_gb，i为粒子i的全局最优位置，w为惯性权重，c₁，c₂为加速常数，r₁，r₂为两个在[0，1]范围内变化的随机数，S为莱维飞行的更新步长，α、β为参数，当更新步长S时，本发明对常规的莱维飞行公式作了一些扰动，这里会有一定的几率用S乘上全局最优粒子x_gb，i减去当前粒子的位置

这样做的目的是当用莱维飞行更新粒子的位置时，粒子可以适当地往全局最优粒子x_gb，i方向靠，而不是完全地符合莱维分布的随机跳动；

步骤4.4以f＝(f₁，f₂)作为目标函数，评估粒子是否进化为更好的解，这里即评判新产生的解与个体最优粒子的支配关系，如果新粒子支配了个体最优粒子，则更新粒子的个体最优信息并把该粒子的参数flag置0；如果新粒子被个体最优粒子支配了，则该粒子的属性flag的值加1；如果新粒子与个体最优粒子互不支配，那么就以一定的概率更新粒子的个体最优信息并把该粒子的参数flag置0，反之就把该粒子的属性flag值加1；

步骤4.5对粒子进行支配比较，把非支配解加入外部存档，并对外部存档进行维护，在维护外部存档以及选择领导粒子时，本发明通过一种偏好网格的方式来进行，具体为：首先根据外部存档中的非支配解在目标函数上的值创建网格，每个非支配解代表网格中的一个黑点Q_i，所以Q＝{Q₁，Q₂，...，Q_i，...，Q_n}表示所以非支配解的集合，n是非支配解的个数，网格中至少有一个粒子的网格这里称之为有效网格；

对于Q_i∈Q，按照公式(9)计算Q_i的加权适应度值，其中F₁，F₂是两个目标的适应度值，α是[0，1]内的偏好权重，取决于F₁和F₂对于此次问题的重要程度，由决策者自己决定这个参数，且β＝1-α，num为Q_i所在的网格内粒子的数目，θ为一个惩罚项，这里设为0.05；

λ_i＝α*F₁+β*F₂-θ*num (9)

当选择领导粒子时，根据式(10)，计算Q_i被选中的概率P_i，当维护外部存档要删粒子时，根据式(11)，计算Q_i被选中的概率P_i，其中n是非支配解的总个数，然后使用轮盘赌的方法选择一个粒子作为领导粒子或从存档中删去，注意到这里对每个λ_i都做了e的指数幂，这样做的目的可以让λ_i大的粒子拥有更大的概率被选中，进一步拉大λ_i大的粒子与λ_i小的粒子之间的选中概率。从λ_i中可以看出当Q_i所在的网格内粒子较多时，所得的的适应度值λ_i由于惩罚项的存在，会变得比较小，这样选出的解既具有较高的分类准确率又能使该解在网格中是稀疏的，极大地提高了算法的决策效率并节省了计算资源的开销；

步骤4.6判断这里的多目标粒子算法是否满足终止条件，若满足终止条件，则输出结果；若不满足，则转向步骤(4.2)。

6.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，w为惯性权重，在[0.4，0.9]间自适应变化。

7.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法，其特征在于，所述步骤5中包含下列步骤：