CN110782950A - 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 - Google Patents

基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 Download PDF

Info

Publication number
CN110782950A
CN110782950A CN201910903327.2A CN201910903327A CN110782950A CN 110782950 A CN110782950 A CN 110782950A CN 201910903327 A CN201910903327 A CN 201910903327A CN 110782950 A CN110782950 A CN 110782950A
Authority
CN
China
Prior art keywords
particle
gene
grid
genes
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910903327.2A
Other languages
English (en)
Other versions
CN110782950B (zh
Inventor
韩飞
管天华
孙郁闻天
方升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University
Original Assignee
Jiangsu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University filed Critical Jiangsu University
Priority to CN201910903327.2A priority Critical patent/CN110782950B/zh
Publication of CN110782950A publication Critical patent/CN110782950A/zh
Application granted granted Critical
Publication of CN110782950B publication Critical patent/CN110782950B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Public Health (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括利用分类信息指数对原始基因表达谱数据集进行过滤,得到初级基因池;计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;通过建立好的多目标模型搜索出最终的基因子集,识别出肿瘤的关键基因。在多目标优化模型方面,本发明能通过多目标模型在初级基因池里快速高效地识别出数目较少且分类性能较好的关键基因子集。

Description

基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基 因识别方法
技术领域
本发明属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于偏好网格和莱维飞行的多目标粒子群优化的肿瘤关键基因识别方法。
背景技术
自上个世纪八十年代以来,微阵列技术已经被广泛应用于疾病诊断。它能帮助医务人员和研究人员同时访问数千个基因的表达水平,最终产生微阵列数据。通过基因表达谱对样本的诊断类别进行分类和预测,这些数据已成功应用于癌症的分类。但是复杂的基因表达谱数据在开发有效的分类器时仍面临很多挑战:首先,基因表达谱数据的维度很高,各维度及基因之间拥有复杂未知的关系。第二,基因表达谱数据集中拥有大量的无关样本。第三,基因表达谱数据集的样本量很少,这就导致了更高的计算复杂性和更多的预测误差。
关键基因识别即基因选择,也被称之为特征选择,可以被认为是一种提高模型预测性能的有效方法。它是数据挖掘中的关键预处理步骤,它侧重于通过减少冗余,无关或嘈杂的基因从表达数据集中鉴定最佳基因子集。根据每个基因与目标类别的相关性如何评估,基因选择可以主要分为过滤法,缠绕法和混合方法。过滤法不用分类器来评价基因子集,且多数过滤法不考虑基因之间的相关性。缠绕法将预定的学习算法与分类器集成,以根据预测准确度对最佳基因子集进行分组。尽管过滤法比缠绕法更有效,但后者的分类性能要比前者好得多。混合法是过滤法和封装法的结合,以互补的方式利用它们的优势。然而,这些方法通常将基因选择视为单目标问题。主要缺点是难以探索分类准确性与所选基因的不同子集之间的不同潜在权衡。
微粒群算法(Particle Swarm Optimization,PSO)的全局搜索能力较强,且收敛速度较快。相对于遗传算法而言,PSO无需进行复杂的遗传操作,且可调参数较少,易于实现,因此近年来它广泛应用于肿瘤表达谱数据的关键基因识别上。通常,肿瘤关键基因识别是一个多目标问题,其涉及到最小化基因子集的大小和最大化预测性能。速度约束多目标粒子群算法(SMPSO)加入了一种速度约束机制,当粒子的速度过大时,这个速度约束机制就会限制粒子的速度太大而造成种群***现象。基于竞争机制的多目标粒子群算法(CMOPSO)基于成对竞争的方式更新粒子而不是通过常规的个体最优和全局最优粒子更新。这些方法都一定程度上提高了算法的收敛性和多样性,但在面对复杂的多目标问题,例如非凸问题或者多模态问题时,算法性能往往会有所下降。此外,假设所有非支配解决方案都是可取的,这些多目标优化算法旨在搜索所有Pareto最优解。在实践中,关键基因识别的主要目的是增强分类器的分类性能。因此,关键基因识别可能更喜欢搜索解决方案表现出更好预测性能的那些区域,而不是那些在帕累托前沿具有较少基因的区域。从这个角度来看,这些方法在搜索不需要的解决方案时浪费了计算成本。
发明内容
发明目的:提出一种基于莱维飞行和双存档机制的多目标粒子群算法的肿瘤关键基因识别方法,该方法能识别出与肿瘤类别高度相关的基因子集,且选出的基因子集数目较少,相较于传统的方法具有较强的可解释性。
技术方案:一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括对原始基因利用分类信息指数进行初选,然后利用GCS信息对粒子进行编码,以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤,包括下列步骤:
步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;
步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;
步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;
步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得分类准确率较高且规模较小的基因子集;
步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4;
进一步,所述步骤1中包含下列步骤:
步骤1.1载入原始基因数据集,并按照2:1的比例划分训练集和测试集;
步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。
Figure BDA0002210823720000021
其中,
Figure BDA0002210823720000038
Figure BDA0002210823720000039
表示基因g在正类(+)和负类(-)上表达水平的均值,
Figure BDA00022108237200000311
分别表示基因g在正类(+)和负类(-)上表达水平的标准差。
进一步,所述步骤2中包含下列步骤:
步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;
Figure BDA0002210823720000035
Figure BDA0002210823720000036
其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本发明取sigmoid函数。
步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。
进一步,所述步骤3中包含下列步骤:
步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为
Figure BDA0002210823720000037
d是样本的维度。
步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。
进一步,所述步骤4中包含下列步骤:
步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;
步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;;
步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;
Figure BDA0002210823720000042
Figure BDA0002210823720000043
Figure BDA0002210823720000044
这里的u和v服从正态分布:
Figure BDA0002210823720000045
并且
Figure BDA0002210823720000046
其中,
Figure BDA0002210823720000047
为粒子i在第t+1次迭代时的速度,
Figure BDA0002210823720000048
为粒子i在第t次迭代的位置,xpb,i为粒子i的个体历史最优位置,xgb,i为粒子i的全局最优位置,w为惯性权重,一般在[0.4,0.9]间自适应变化,c1,c2为加速常数,r1,r2为两个在[0,1]范围内变化的随机数,S为莱维飞行的更新步长。一般来说,参数α通常被设置为0.01用以防止它过于激进进而很容易就跳出了决策边界,β设置为1.5。注意到,当更新步长S时,本发明对常规的莱维飞行公式作了一些扰动,这里会有一定的几率用S乘上全局最优粒子xgb,i减去当前粒子的位置这样做的目的是当用莱维飞行更新粒子的位置时,粒子可以适当地往全局最优粒子xgb,i方向靠,而不是完全地符合莱维分布的随机跳动。
步骤4.4以f=(f1,f2)作为目标函数,评估粒子是否进化为更好的解,这里即评判新产生的解与个体最优粒子的支配关系,如果新粒子支配了个体最优粒子,则更新粒子的个体最优信息并把该粒子的参数flag置0;如果新粒子被个体最优粒子支配了,则该粒子的属性flag的值加1;如果新粒子与个体最优粒子互不支配,那么就以一定的概率(50%)更新粒子的个体最优信息并把该粒子的参数flag置0,反之就把该粒子的属性flag值加1。
步骤4.5对粒子进行支配比较,把非支配解加入外部存档,并对外部存档进行维护。在维护外部存档以及选择领导粒子时,本发明通过一种偏好网格的方式来进行,具体为:首先根据外部存档中的非支配解在目标函数上的值创建如图1所示的网格,每个非支配解代表网格中的一个黑点Qi,所以Q={Q1,Q2,...,Qi,...,Qn}表示所以非支配解的集合,n是非支配解的个数,网格中至少有一个粒子的网格这里称之为有效网格。
对于Qi∈Q,按照公式(9)计算Qi的加权适应度值,其中F1,F2是两个目标的适应度值,α是[0,1]内的偏好权重,取决于F1和F2对于此次问题的重要程度,由决策者自己决定这个参数,本发明把α设为0.7,且β=1-α,num为Qi所在的网格内粒子的数目,θ为一个惩罚项,这里设为0.05。
λi=α*F1+β*F2-θ*num (9)
当选择领导粒子时,根据式(10),计算Qi被选中的概率Pi,当维护外部存档要删粒子时,根据式(11),计算Qi被选中的概率Pi,其中n是非支配解的总个数,然后使用轮盘赌的方法选择一个粒子作为领导粒子或从存档中删去。注意到这里对每个λi都做了e的指数幂,这样做的目的可以让λi大的粒子拥有更大的概率被选中,进一步拉大λi大的粒子与λi小的粒子之间的选中概率。从λi中可以看出当Qi所在的网格内粒子较多时,所得的的适应度值λi由于惩罚项的存在,会变得比较小,这样选出的解既具有较高的分类准确率又能使该解在网格中是稀疏的,极大地提高了算法的决策效率并节省了计算资源的开销。
Figure BDA0002210823720000051
Figure BDA0002210823720000052
步骤4.6判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,则输出结果;若不满足,则转向步骤(4.2)
进一步,所述步骤5中包含下列步骤:
步骤5.1重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤4;
步骤5.2此时的存档中的非支配微粒均可代表最终选出的识别肿瘤的关键基因子集。
有益效果:高维小样本的肿瘤基因表达谱数据中存在变异和噪声,且大量有用信息被隐藏。传统方法的PSO算法容易陷入局部极小点,从而导致选出的基因子集非最佳。本发明通过加权法构造出一个能描述决策偏好的网格来维护存档和选择领导粒子,极大地提高了算法的决策效率并节省了计算资源的开销;同时又将一种改进的莱维飞行策略和多目标粒子群算法结合,提高了算法在复杂多目标优化问题上的收敛性能。
提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,不但能够获得分类准确率较高且规模较小的基因子集,同时该分识别类相比于传统的肿瘤关键基因识别方法,本发明能通过改进的多目标模型在初级基因池里识别出特定两种亚型肿瘤关键基因。
附图说明
图1是本发明的偏好网格的示意图;
图2是本发明的结构框图;
具体实施方式
一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括对原始基因利用分类信息指数进行初选,然后利用GCS信息对粒子进行编码,以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤,本发明具体包括下列步骤:
步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;
步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;
步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;
步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得分类准确率较高且规模较小的基因子集;
步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4;
进一步,所述步骤1中包含下列步骤:
步骤1.1载入原始基因数据集,并按照2∶1的比例划分训练集和测试集;
步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。
Figure BDA0002210823720000071
其中,
Figure BDA0002210823720000079
Figure BDA00022108237200000710
表示基因g在正类(+)和负类(-)上表达水平的均值,
Figure BDA00022108237200000711
Figure BDA00022108237200000712
分别表示基因g在正类(+)和负类(-)上表达水平的标准差。
进一步,所述步骤2中包含下列步骤:
步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;
Figure BDA0002210823720000076
其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本发明取sigmoid函数。
步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。
进一步,所述步骤3中包含下列步骤:
步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为
Figure BDA0002210823720000078
d是样本的维度。
步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。
进一步,所述步骤4中包含下列步骤:
步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;
步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;;
步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;
Figure BDA0002210823720000081
Figure BDA0002210823720000083
Figure BDA0002210823720000084
这里的u和v服从正态分布:
Figure BDA0002210823720000085
并且
Figure BDA0002210823720000086
其中,
Figure BDA0002210823720000087
为粒子i在第t+1次迭代时的速度,
Figure BDA0002210823720000088
为粒子i在第t次迭代的位置,xpb,i为粒子i的个体历史最优位置,xgb,i为粒子i的全局最优位置,w为惯性权重,一般在[0.4,0.9]间自适应变化,c1,c2为加速常数,r1,r2为两个在[0,1]范围内变化的随机数,S为莱维飞行的更新步长。一般来说,参数α通常被设置为0.01用以防止它过于激进进而很容易就跳出了决策边界,β设置为1.5。注意到,当更新步长S时,本发明对常规的莱维飞行公式作了一些扰动,这里会有一定的几率用S乘上全局最优粒子xgb,i减去当前粒子的位置
Figure BDA0002210823720000089
这样做的目的是当用莱维飞行更新粒子的位置时,粒子可以适当地往全局最优粒子xgb,i方向靠,而不是完全地符合莱维分布的随机跳动。
步骤4.4以f=(f1,f2)作为目标函数,评估粒子是否进化为更好的解,这里即评判新产生的解与个体最优粒子的支配关系,如果新粒子支配了个体最优粒子,则更新粒子的个体最优信息并把该粒子的参数flag置0;如果新粒子被个体最优粒子支配了,则该粒子的属性flag的值加1;如果新粒子与个体最优粒子互不支配,那么就以一定的概率(50%)更新粒子的个体最优信息并把该粒子的参数flag置0,反之就把该粒子的属性flag值加1。
步骤4.5对粒子进行支配比较,把非支配解加入外部存档,并对外部存档进行维护。在维护外部存档以及选择领导粒子时,本发明通过一种偏好网格的方式来进行,具体为:首先根据外部存档中的非支配解在目标函数上的值创建如图1所示的网格,每个非支配解代表网格中的一个黑点Qi,所以Q={Q1,Q2,...,Qi,...,Qn}表示所以非支配解的集合,n是非支配解的个数,网格中至少有一个粒子的网格这里称之为有效网格。
对于Qi∈Q,按照公式(9)计算Qi的加权适应度值,其中F1,F2是两个目标的适应度值,α是[0,1]内的偏好权重,取决于F1和F2对于此次问题的重要程度,由决策者自己决定这个参数,本发明把α设为0.7,且β=1-α,num为Qi所在的网格内粒子的数目,θ为一个惩罚项,这里设为0.05。
λi=α*F1+β*F2-θ*num (9)
当选择领导粒子时,根据式(10),计算Qi被选中的概率Pi,当维护外部存档要删粒子时,根据式(11),计算Qi被选中的概率Pi,其中n是非支配解的总个数,然后使用轮盘赌的方法选择一个粒子作为领导粒子或从存档中删去。注意到这里对每个λi都做了e的指数幂,这样做的目的可以让λi大的粒子拥有更大的概率被选中,进一步拉大λi大的粒子与λi小的粒子之间的选中概率。从λi中可以看出当Qi所在的网格内粒子较多时,所得的的适应度值λi由于惩罚项的存在,会变得比较小,这样选出的解既具有较高的分类准确率又能使该解在网格中是稀疏的,极大地提高了算法的决策效率并节省了计算资源的开销。
Figure BDA0002210823720000091
Figure BDA0002210823720000092
步骤4.6判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,则输出结果;若不满足,则转向步骤(4.2)
进一步,所述步骤5中包含下列步骤:
步骤5.1重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤4;
步骤5.2此时的存档中的非支配微粒均可代表最终选出的识别肿瘤的关键基因子集。
针对适应度函数仅用一种的单目标优化方案缺乏较好的解释性,选出的基因对肿瘤的识别不够准确,本发明提出结合莱维飞行和偏好网格的多目标粒子群优化进行肿瘤的关键基因子集的识别,以获取更为有效的肿瘤关键基因子集,从而提高肿瘤识别准确性。
下面以肿瘤基因表达谱数据为例,简单地说明本发明的执行过程。本实例选择脑癌(Brain cancer)肿瘤表达谱数据集,总共包含60个样本,共有两种亚型:46个典型脑癌(patients with classic brain cancer)样本和14个促***增生脑癌(patientswith desmoplastic brain cancer)。每个样本包含7219个基因,数据集来源于http://linus.nci.nih.gov/~brb/DataArchiveNew.html。尽管脑癌肿瘤表达谱数据集只有两个类别,但由于该数据集中各基因表达水平比较靠近,很难获取识别肿瘤的关键基因,从而多种分类器在传统基因识别方法选出的基因子集上对样本的预测精度都不高。在该数据集上,本发明的具体执行步骤如下:
如图2所示,一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,包括对原始基因利用分类信息指数进行初选,然后利用GCS信息对粒子进行编码,以及利用基于偏好网格和莱维飞行的多目标粒子群算法搜索关键肿瘤基因的步骤,包括以下步骤:
(1)载入原始数据,并以2∶1的比例将数据集分为训练集和测试集,其中训练样本40个,测试样本20个。在训练集上采用改进的分类信息指数方法(Han F,Sun W,Ling Q-H(2014)A Novel Strategy for Gene Selection of Microarray Data Based on Gene-to-Class Sensitivity Information.PLoS ONE 9(5):e97530.doi:10.1371/joumal.pone.0097530)初步筛选出400个基因,形成初始备选基因池。
(2)计算初级基因池中每个基因的GCS值(Han F,Sun W,Ling Q-H(2014)A NovelStrategy for Gene Selection of Microarray Data Based on Gene-to-ClassSensitivity Information.PLoS ONE 9(5):e97530.doi:10.1371/joumal.pone.0097530),并将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。
(3)设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为
Figure BDA0002210823720000111
d是样本的维度。
(4)运用基于偏好网格和莱维飞行的多目标粒子群算法在初始基因池中选择出关键的肿瘤基因,具体步骤如下:
①按照步骤2初始化种群,每个粒子的参数flag设为0,阈值T设为10,种群大小设置为50,最大迭代次数设为50,外部存档大小与种群大小一致为50,偏好权重α设为0.7,惯性权重w从0.9线性递减至0.4;加速常数c1和c2为1.5。
②如果粒子的参数flag小于T,按照式(4)(5)进化粒子,如果大于T,按照式(6)(7)(8)以莱维飞行策略进化粒子。
③根据步骤3的评估目标计算出各个粒子的适应值,并更新各个粒子的历史最优位置和全局最优位置以及每个粒子的参数flag。
④对粒子进行支配比较,将非支配解加入外部存档,根据步骤4.5,以偏好网格的策略维护外部存档。
⑤如未达到预先设定的最大迭代次数(在本实施例中为50),则返回至步骤②,否则输出结果,此时存档中的所有非支配粒子均可代表最终识别出的关键的肺癌肿瘤基因集合。
表1给出了本发明实施例中ELM在所识别出的基因子集上的分类准确率,在3个关键基因上,ELM分类5折交叉准确率和测试准确率分别达到86.97%和81.22%。而ELM在Kmeans-GCSI-MBPSO-ELM方法(Han F,Sun W,Ling Q-H(2014)A Novel Strategy for GeneSelection of Microarray Data Based on Gene-to-Class SensitivityInformation.PLoS ONE 9(5):e97530.doi:10.1371/joumal.pone.0097530)所选出的6个最优基因子集上的5折交叉准确率和测试准确率分别为88.63%和80.40%。这进一步说明本发明能识别出与肿瘤有关的关键基因,且能找到基因数更少,对分类性能更具有帮助的关键基因。
表1本发明在脑癌数据集上选出的不同基因子集上,ELM的分类准确率
Figure BDA0002210823720000112
表2给出了用本发明的方法在脑癌肿瘤表达谱数据上进行1000次实验筛选出频次最高的10个识别脑癌的关键基因。从表1和表2中可以发现,在脑癌数据集(Braincancer)上,本发明提出的方法所选的基因子集数目较少,而基因序号为5931、4413和18的基因,不仅出现频次高,而且反复出现在所选的关键基因中。
表2本发明在脑癌肿瘤表达谱数据集上识别频次最高的30个基因
Figure BDA0002210823720000121
在多目标优化模型方面,本发明通过加权法构造出一个能描述决策偏好的网格来维护存档和选择领导粒子,极大地提高了算法的决策效率并节省了计算资源的开销;同时又将一种改进的莱维飞行策略和多目标粒子群算法结合,提高了算法在复杂多目标优化问题上的收敛性能。相比于传统的肿瘤关键基因识别方法,本发明能通过多目标模型在初级基因池里快速高效地识别出数目较少且分类性能较好的关键基因子集。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (7)

1.一种基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:
步骤1基因表达谱数据的预处理,包括把原始数据集分成训练集和测试集,利用分类信息指数对原始基因表达谱数据集进行过滤,得到初始基因池;
步骤2计算初始基因池中每个基因的基因类别灵敏度信息GCS值,然后通过GCS值对粒子进行编码;
步骤3以基因子集在极限学习机ELM上的分类准确率和基因子集的规模为目标,构建多目标优化模型;
步骤4提出基于偏好网格和莱维飞行的多目标粒子群算法(MOPSO-PAG-LF),并用它不断地搜索、评估更新粒子以及维护外部存档,以获得基因子集;
步骤5如果满足终止条件,则输出最终识别好的肿瘤关键基因,否则转向步骤4。
2.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤1中包含下列步骤:
步骤1.1载入原始基因数据集,并按照2∶1的比例划分训练集和测试集;
步骤1.2根据式(1),计算每个基因的分类信息指数并按降序排列,选择前400个基因加入初始基因池。
Figure FDA0002210823710000011
其中,
Figure FDA0002210823710000012
表示基因g在正类(+)和负类(-)上表达水平的均值,
Figure FDA0002210823710000015
分别表示基因g在正类(+)和负类(-)上表达水平的标准差。
3.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤2中包含下列步骤:
步骤2.1根据式(2)和式(3),计算初级基因池中每个基因的GCS值,GCS值越大往往比GCS值小的基因对分类的贡献大;
Figure FDA0002210823710000016
Figure FDA0002210823710000021
其中XTraining为训练样本集,βsq是ELM的第s个隐含层节点和第q个输出节点的权重,wjs是第j个输入节点和第s个隐含层节点的权重;Hid(s)是第s个隐含层节点的输入;Ngnl是初始基因池中基因的数目,g为ELM的激活函数,本发明取sigmoid函数;
步骤2.2对粒子进行编码,先将各个基因按GCS值进行降序排列,前20%的基因随机初始化为[0,1]内的随机数,其余80%的基因都初始化为0,粒子的位置在某一维度上的值大于0.5就表示对应该维度的基因被选中,反之小于0.5就表示未选中。
4.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤3中包含下列步骤:
步骤3.1设置多目标粒子群算法的评价指标,它包括两个指标:准确率和基因规模。f1为准确率acc(i),它是第i个粒子在验证集上的ELM分类准确率,f2为基因规模geneNum(i),即为粒子i所选出的基因数目,为了把两个指标统一为最大化问题,这里把geneNum(i)变为
Figure FDA0002210823710000022
d是样本的维度;
步骤3.2把f=(f1,f2)作为多目标粒子群算法的优化目标。
5.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤4中包含下列步骤:
步骤4.1随机初始化种群粒子,并且给每个粒子新加入一个参数flag,该参数用以评判每个粒子经过多久都还没进化为更好的粒子;
步骤4.2每个粒子的参数flag是否小于预先设定的阈值T;
步骤4.3如果小于T,按照公式(4)(5),即常规的粒子群算法公式进化粒子,如果大于T,则按照公式(6)(7)(8),对该粒子使用改进的莱维飞行策略进化粒子,同时该粒子的flag值变为0;
Figure FDA0002210823710000023
Figure FDA0002210823710000024
Figure FDA0002210823710000025
Figure FDA0002210823710000031
这里的u和v服从正态分布,为随机变量:
Figure FDA0002210823710000032
并且
其中,
Figure FDA0002210823710000034
为粒子i在第t+1次迭代时的速度,
Figure FDA0002210823710000035
为粒子i在第t次迭代的位置,xpb,i为粒子i的个体历史最优位置,xgb,i为粒子i的全局最优位置,w为惯性权重,c1,c2为加速常数,r1,r2为两个在[0,1]范围内变化的随机数,S为莱维飞行的更新步长,α、β为参数,当更新步长S时,本发明对常规的莱维飞行公式作了一些扰动,这里会有一定的几率用S乘上全局最优粒子xgb,i减去当前粒子的位置
Figure FDA0002210823710000036
这样做的目的是当用莱维飞行更新粒子的位置时,粒子可以适当地往全局最优粒子xgb,i方向靠,而不是完全地符合莱维分布的随机跳动;
步骤4.4以f=(f1,f2)作为目标函数,评估粒子是否进化为更好的解,这里即评判新产生的解与个体最优粒子的支配关系,如果新粒子支配了个体最优粒子,则更新粒子的个体最优信息并把该粒子的参数flag置0;如果新粒子被个体最优粒子支配了,则该粒子的属性flag的值加1;如果新粒子与个体最优粒子互不支配,那么就以一定的概率更新粒子的个体最优信息并把该粒子的参数flag置0,反之就把该粒子的属性flag值加1;
步骤4.5对粒子进行支配比较,把非支配解加入外部存档,并对外部存档进行维护,在维护外部存档以及选择领导粒子时,本发明通过一种偏好网格的方式来进行,具体为:首先根据外部存档中的非支配解在目标函数上的值创建网格,每个非支配解代表网格中的一个黑点Qi,所以Q={Q1,Q2,...,Qi,...,Qn}表示所以非支配解的集合,n是非支配解的个数,网格中至少有一个粒子的网格这里称之为有效网格;
对于Qi∈Q,按照公式(9)计算Qi的加权适应度值,其中F1,F2是两个目标的适应度值,α是[0,1]内的偏好权重,取决于F1和F2对于此次问题的重要程度,由决策者自己决定这个参数,且β=1-α,num为Qi所在的网格内粒子的数目,θ为一个惩罚项,这里设为0.05;
λi=α*F1+β*F2-θ*num (9)
当选择领导粒子时,根据式(10),计算Qi被选中的概率Pi,当维护外部存档要删粒子时,根据式(11),计算Qi被选中的概率Pi,其中n是非支配解的总个数,然后使用轮盘赌的方法选择一个粒子作为领导粒子或从存档中删去,注意到这里对每个λi都做了e的指数幂,这样做的目的可以让λi大的粒子拥有更大的概率被选中,进一步拉大λi大的粒子与λi小的粒子之间的选中概率。从λi中可以看出当Qi所在的网格内粒子较多时,所得的的适应度值λi由于惩罚项的存在,会变得比较小,这样选出的解既具有较高的分类准确率又能使该解在网格中是稀疏的,极大地提高了算法的决策效率并节省了计算资源的开销;
Figure FDA0002210823710000041
Figure FDA0002210823710000042
步骤4.6判断这里的多目标粒子算法是否满足终止条件,若满足终止条件,则输出结果;若不满足,则转向步骤(4.2)。
6.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,w为惯性权重,在[0.4,0.9]间自适应变化。
7.根据权利要求1所述的基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法,其特征在于,所述步骤5中包含下列步骤:
步骤5.1重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤4;
步骤5.2此时的存档中的非支配微粒均可代表最终选出的识别肿瘤的关键基因子集。
CN201910903327.2A 2019-09-23 2019-09-23 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 Active CN110782950B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910903327.2A CN110782950B (zh) 2019-09-23 2019-09-23 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910903327.2A CN110782950B (zh) 2019-09-23 2019-09-23 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法

Publications (2)

Publication Number Publication Date
CN110782950A true CN110782950A (zh) 2020-02-11
CN110782950B CN110782950B (zh) 2023-09-26

Family

ID=69383779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910903327.2A Active CN110782950B (zh) 2019-09-23 2019-09-23 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法

Country Status (1)

Country Link
CN (1) CN110782950B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111398837A (zh) * 2020-04-01 2020-07-10 重庆大学 一种基于数据驱动的车用电池健康状态估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN109344956A (zh) * 2018-12-05 2019-02-15 重庆邮电大学 基于改进莱维飞行粒子群算法的svm参数优化

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106548041A (zh) * 2016-12-08 2017-03-29 江苏大学 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN109344956A (zh) * 2018-12-05 2019-02-15 重庆邮电大学 基于改进莱维飞行粒子群算法的svm参数优化

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丁晓霖等: "《基于自适应网络与动态拥挤距离的多目标粒子群算法及应用》" *
凌青华等: "《一种改进的基于先验信息和微粒群算法的基因选择方法》" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111398837A (zh) * 2020-04-01 2020-07-10 重庆大学 一种基于数据驱动的车用电池健康状态估计方法

Also Published As

Publication number Publication date
CN110782950B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN109754113B (zh) 基于动态时间规整与长短时间记忆的负荷预测方法
CN110070141B (zh) 一种网络入侵检测方法
Li et al. An ant colony optimization based dimension reduction method for high-dimensional datasets
CN110009030B (zh) 基于stacking元学习策略的污水处理故障诊断方法
CN109685653A (zh) 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
CN112289391B (zh) 一种基于机器学习的阳极铝箔性能预测***
Tsakiridis et al. DECO3RUM: A Differential Evolution learning approach for generating compact Mamdani fuzzy rule-based models
CN110287985B (zh) 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法
CN110880369A (zh) 基于径向基函数神经网络的气体标志物检测方法及应用
Li et al. Heterogeneous ensemble learning with feature engineering for default prediction in peer-to-peer lending in China
CN112801140A (zh) 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法
CN116542382A (zh) 基于混合优化算法的污水处理溶解氧浓度预测方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN111079074A (zh) 一种基于改进的正弦余弦算法构建预测模型的方法
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
CN110598836B (zh) 一种基于改进的粒子群寻优算法的代谢组学分析方法
CN113255873A (zh) 一种聚类天牛群优化方法、***、计算机设备和存储介质
CN110782950A (zh) 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法
CN117172386A (zh) 优势储层划分识别预测方法、***、电子设备、及介质
CN116956160A (zh) 一种基于自适应树种算法的数据分类预测方法
CN111832645A (zh) 基于离散型乌鸦差分协同搜索算法的分类数据特征选择方法
CN114117876A (zh) 基于改进哈里斯鹰算法的特征选择方法
CN112801163B (zh) 基于动态图结构的小鼠模型海马生物标记物的多目标特征选择方法
CN114334168A (zh) 结合协同学习策略的粒子群混合优化的特征选择算法
CN113269217A (zh) 基于Fisher准则的雷达目标分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant