CN106548041A - 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 - Google Patents
一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 Download PDFInfo
- Publication number
- CN106548041A CN106548041A CN201611126799.4A CN201611126799A CN106548041A CN 106548041 A CN106548041 A CN 106548041A CN 201611126799 A CN201611126799 A CN 201611126799A CN 106548041 A CN106548041 A CN 106548041A
- Authority
- CN
- China
- Prior art keywords
- gene
- particulate
- bpso
- tumour
- gcs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Biotechnology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,包括肿瘤基因表达谱数据的预处理,在训练集上,通过自定义的准则函数,利用改进的Elbow方法确定最优基因聚类数目K;运用微粒群算法PSO优选K个最优聚类中心,并在训练集上用K‑均值方法将肿瘤基因聚成K类;在训练集上,分别获取基因类别灵敏度GCS信息和基因调控GR信息;通过所得的K个基因簇为搜索空间,结合上述获得的两类先验信息,运用并行二进制微粒群算法BPSO识别出关键的肿瘤基因。与现有的肿瘤关键基因识别方法相比,本发明通过考虑两类先验约束降低了丢失与肿瘤类别相关的关键信息基因的概率,从而有助于提高后续的肿瘤识别。
Description
技术领域
本发明属于肿瘤基因表达谱数据的计算机分析技术的应用领域,具体涉及一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法。
背景技术
在生命科学研究中,DNA微阵列技术为生物学和医学研究带来前所未有的机遇的同时,其所产生的复杂的基因表达谱数据却对现有的数据分析和处理方法提出了巨大的挑战。首先,基因表达谱数据具有很高的维度(基因),而且这些基因维之间又有非常复杂的关系。第二,基因表达谱数据具有较少的样本,这与巨大的基因数目构成不平衡矛盾。第三,基因表达谱数据天生具有高噪声高变异等数据分析难点。第四,基因表达谱数据中大量的有用信息被隐藏。对于肿瘤基因表达谱数据中关键基因的识别,是肿瘤基因表达谱分析的基础与关键。
关键基因识别即通过数据分析手段,从成千上万个基因中准确挑选出那些与肿瘤类型和亚型相关的基因,以便于建立准确的分类模型。常见的基因选择方法有很多,通常分为三类:过滤法、缠绕法和嵌入法。过滤法不用分类器来评价基因子集,且多数过滤法不考虑基因之间的相关性,从而导致分类器在选出的基因子集上分类性能不高。缠绕法在考虑基因之间的依赖性基础上,在基因选择的同时进行分类模型的选择。相对于过滤法,缠绕法容易导致过学习,且时间开销过大。嵌入法综合了前两种方法的优点,且时间开销大大小于缠绕法。缠绕法和嵌入法侧重于考虑基因间的相关性、模型的选择、数据的方差及分布,从而导致选出的基因缺乏可解释性。
微粒群算法(Particle Swarm Optimization,PSO)具有良好的全局搜索能力。相对于遗传算法,PSO具有无复杂的遗传操作,可调参数少,易于实现等优点,因此近年来它广泛应用于肿瘤表达谱数据的关键基因识别上。(1)传统PSO简单用于肿瘤表达谱数据的关键基因识别。Yang等(A hybrid feature selection method for microarrayclassification)和Shen等(A combination of modified particle swarm optimizationand support vector machine for gene selection and tumor classification)采用二进制PSO(BPSO)进行基因选择,该类方法虽然能选出与肿瘤类别相关的基因子集,但是选出的基因缺乏生物学上的解释。(2)运用PSO并耦合某一种先验约束的肿瘤关键基因识别方法。Han等(A novel strategy for gene selection of microarray data based ongene-to-class sensitivity information)首先运用基因类别灵敏度(GCS)约束来选出与肿瘤类别相关的基因,然后再将GCS约束编码进BPSO选出最紧凑的信息基因子集。该方法能在选出最紧凑的关键基因子集同时增加了选出基因的可解释性。为了避免利用GCS过滤掉少数与肿瘤类别高度相关但GCS值较低的基因,Han等(A gene selection method formicroarray data based on binary PSO encoding gene-to-class sensitivityinformation)利用编码GCS信息的BPSO直接从备选基因库中筛选与肿瘤类别高度相关的基因子集。此类方法过于依赖一类先验约束,从而易于丢失部分与肿瘤类别高度相关的基因,因此在关键肿瘤基因识别过程中有必要考虑多类先验信息。此外,利用单个PSO进行关键基因的选择,容易陷入局部极小点,从而可采取多个PSO进行并行筛选。截止目前为止,将多类先验约束编码进并行BPSO中进行关键肿瘤基因识别还还未见相应报道。
发明内容
发明目的:提出一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,该方法能识别出与肿瘤类别高度相关的基因子集,且选出的基因子集具有较强的可解释性。
技术方案:一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,包括基于微粒群算法(Particle Swarm Optimization,PSO)的K-均值基因聚类,以及利用先验信息和并行二进制微粒群算法(Binary Particle Swarm Optimization,BPSO)进行关键肿瘤基因识别的步骤,包括下列步骤:
步骤1肿瘤基因表达谱数据的预处理,包括肿瘤基因表达谱数据集的归一化和初步降维,同时将肿瘤基因表达谱数据集划分为训练集和测试集;
步骤2在训练集上,通过自定义的准则函数,利用改进的Elbow方法确定最优基因聚类数目K;
步骤3运用PSO算法优选K个最优聚类中心,并在训练集上用K-均值方法将肿瘤基因聚成K类;
步骤4在训练集上,分别获取基因类别灵敏度(Gene to Class Sensitivity,GCS)信息和基因调控(Gene Regulation,GR)信息;
步骤5以步骤3所得的K个基因簇为搜索空间,结合步骤4获得的两类先验信息,运用并行BPSO识别出关键的肿瘤基因。
进一步,所述步骤1中包含下列步骤:
步骤1.1利用线性变换将数据变换至区间[-1,1];
步骤1.2在训练数据集上,利用分类信息指数方法(Information Index toClassification,IIC)选出200-400个基因组成初始备选基因库。
进一步,所述步骤2中包含下列步骤:
步骤2.1定义准则函数
Eel(k)=|Dinside-Dbetween| (1)
其中,Dinside为类内距离和,Dbetween为类间距离和,x为数据对象,mi,mj分别为第i簇和第j簇的样本均值。
步骤2.2针对不同的聚类数目,利用K-均值方法,在训练集上进行基因聚类,并计算相应的准则函数值Eel(k),然后根据Elbow思想,取|Eel(k+1)-Eel(k)|-|Eel(k)-Eel(k-1)|为最大值时的K为最佳基因聚类数目。
进一步,所述步骤3中包含下列步骤:
步骤3.1初始化粒子群位置和速度,设置最大迭代次数和种群规模。设置每个微粒维度为步骤2得到的值K,粒子位置即为K个聚类中心。
步骤3.2将粒子的位置作为K个初始聚类中心进行K-均值聚类,并在此基础上计算每个微粒的适应度函数值,并更新个体最优位置pi和全局最优位置pg。适应度函数为
步骤3.3根据式(4)和式(5)更新微粒的速度和位置。
xij(t+1)=xij(t)+vij(t+1) (4)
vij(t+1)=ω*vij(t)+c1r1j(t)(pij(t)-xij(t))+c2r2j(t)(pgj(t)-xij(t)) (5)
步骤3.4判断是否达到最大迭代次数或全局最优粒子的适应度函数值低于预设值,否则返回步骤3.2。
步骤3.5所得的全局最优解即为优化后的K-均值聚类最佳初始中心点。
步骤3.6在获得的最佳初始聚类中心上,运用K-均值方法对对初始基因池进行聚类。
进一步,所述步骤5中包含下列步骤:
步骤5.1初始化耦合GCS信息的BPSO_1中种群,在步骤3聚类的每一簇中选取两个GCS值最大的基因作为粒子的初始分量。BPSO_1根据式(6)将GCS信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Sensitivity(j)为第j个基因的GCS值,Avg(Sensitivity)为所有基因的GCS值均值,Ls()为Logsig函数。
类似地,初始化耦合GR信息的BPSO_2中种群,在步骤3聚类的每一簇中选取两个GR值最大的基因作为粒子的初始分量。BPSO_2根据式(7)将GR信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Regulation(j)为第j个基因的GR值,Avg(Regulation)为所有基因的GR值均值,Ls()为Logsig函数。
两个BPSO在进化过程中,每一次迭代都共享全局最优解。
步骤5.2计算每个微粒的适应度函数值。根据极端学习机(Extreme LearningMachine,ELM)在验证集上的准确率以及每个微粒所选择的基因的数目来评价每个微粒,从而更新每个微粒的初始个体最优位置pbest和种群的全局最优位置gbest。适应度函数定义如下:
fitness(i)=104×(1-accuracy(i))+k×GenesNumber(i) (8)
其中accuracy(i)表示ELM在第i个微粒所选择的基因集合上的验证准确率,GeneNumber(i)表示第t个微粒所选择的基因的数目。参数k是一个大于0的权重系数。
步骤5.3根据每个微粒的适应度函数值调整微粒的历史个体最优pbest和种群的全局最优gbest。并且比较两个种群全局最优位置,取较好的作为两个BPSO的全局最优位置。
步骤5.4根据如下规则调整微粒最大飞行速度:当两个种群的全局最优位置在m次迭代中未得到优化,微粒最大飞行速度在区间[1.5,6.0]内逐步递减;当两个种群的全局最优位置在m次迭代中得到优化,微粒最大飞行速度在区间[1.5,6.0]逐步递增。
步骤5.5采取自适应变异操作。若当前微粒的历史最优多次迭代保持不变,则执行变异操作。BPSO_1根据GCS值排序结果,将GCS值最大的10%基因的位置重新设定为1,将GCS值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变。BPSO_2根据GR值排序结果,将GR值最大的10%基因的位置重新设定为1,将GR值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变。
步骤5.6重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤5.2。
步骤5.7全局最优微粒代表最终选出的识别肿瘤的关键基因子集。
有益效果:高维小样本的肿瘤基因表达谱数据中存在变异和噪声,且大量有用信息被隐藏,传统的仅耦合某一类先验约束的关键基因识别方法会遗漏部分与肿瘤类别高度相关的基因。同时传统方法因单个PSO容易陷入局部极小点,从而导致选出的基因子集非最佳。本发明在获取肿瘤基因表达谱数据中蕴含的基因类别灵敏度信息和基因调控信息基础上,提出耦合两类先验约束的并行BPSO以实现肿瘤关键基因的识别。与现有的肿瘤关键基因识别方法相比,本发明通过改进的基因聚类和考虑两类先验约束降低了丢失与肿瘤类别相关的关键信息基因的概率,从而有助于提高后续的肿瘤识别。
附图说明
图1是本发明的结构框图;
图2是本发明中基于PSO的K均值基因聚类算法的流程图;
图3是本发明中Brain cancer肿瘤表达谱数据上Elbow方法确定基因聚类数目曲线图;
图4是本发明中在Brain cancer肿瘤表达谱数据数据上并行BPSO收敛曲线图。
具体实施方式
一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,包括基于微粒群算法(Particle Swarm Optimization,PSO)的K-均值基因聚类,以及利用先验信息和并行二进制微粒群算法(Binary Particle Swarm Optimization,BPSO)进行关键基因识别的步骤,本发明具体包括下列步骤:
步骤1肿瘤基因表达谱数据的预处理,包括肿瘤基因表达谱数据集的归一化和初步降维,同时将肿瘤基因表达谱数据集划分为训练集和测试集;
步骤2在训练集上,通过自定义的准则函数,利用改进的Elbow方法确定最优基因聚类数目K;
步骤3运用PSO算法优选K个最优聚类中心,并在训练集上用K-均值方法将肿瘤基因聚成K类;
步骤4在训练集上,分别获取基因类别灵敏度(Gene to Class Sensitivity,GCS)信息和基因调控(Gene Regulation,GR)信息;
步骤5以步骤3所得的K个基因簇为搜索空间,结合步骤4获得的两类先验信息,运用并行BPSO识别出关键的肿瘤基因。
所述步骤1中进一步包含下列步骤:
步骤1.1利用线性变换将数据变换至区间[-1,1];
步骤1.2在训练数据集上,利用分类信息指数方法(Information Index toClassification,IIC)选出400个基因组成初始备选基因库。
所述步骤2中进一步包含下列步骤:
步骤2.1定义准则函数
Eel(k)=|Dinside-Dbetween| (1)
其中,Dinside为类内距离和,Dbetween为类间距离和,x为数据对象,mi,mj分别为第i簇和第j簇的样本均值。
步骤2.2针对不同的聚类数目,利用K-均值方法,在训练集上进行基因聚类,并计算相应的准则函数值Eel(k),然后根据Elbow思想,取|Eel(k+1)-Eel(k)|-|Eel(k)-Eel(k-1)|为最大值时的K为最佳基因聚类数目。
所述步骤3中进一步包含下列步骤:
步骤3.1初始化微粒群位置和速度,设置最大迭代次数和种群规模。设置每个微粒维度为步骤2得到的值K,微粒位置即为K个聚类中心。
步骤3.2将微粒的位置作为K个初始聚类中心进行K-均值聚类,并在此基础上计算每个微粒的适应度函数值,并更新个体最优位置pi和全局最优位置pg。适应度函数为
步骤3.3根据式(4)和式(5)更新微粒的速度和位置。
xij(t+1)=xij(t)+vij(t+1) (4)
vij(t+1)=ω*vij(t)+c1r1j(t)(pij(t)-xij(t))+c2r2j(t)(pgj(t)-xij(t)) (5)
步骤3.4判断是否达到最大迭代次数或全局最优粒子的适应度函数值低于预设值,否则返回步骤3.2。
步骤3.5所得的全局最优解即为优化后的K-均值聚类最佳初始中心点。
步骤3.6在获得的最佳初始聚类中心上,运用K-均值方法对对初始基因池进行聚类。
所述步骤5中进一步包含下列步骤:
步骤5.1初始化耦合GCS信息的BPSO_1中种群,在步骤3聚类的每一簇中选取两个GCS值最大的基因作为粒子的初始分量。BPSO_1根据式(6)将GCS信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Sensitivity(j)为第j个基因的GCS值,Avg(Sensitivity)为所有基因的GCS值均值,Ls()为Logsig函数。
类似地,初始化耦合GR信息的BPSO_2中种群,在步骤3聚类的每一簇中选取两个GR值最大的基因作为粒子的初始分量。BPSO_2根据式(7)将GR信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Regulation(j)为第j个基因的GR值,Avg(Regulation)为所有基因的GR值均值,Ls()为Logsig函数。
两个BPSO在进化过程中,每一次迭代都共享全局最优解。
步骤5.2计算每个微粒的适应度函数值。根据极端学习机(Extreme LearningMachine,ELM)在验证集上的准确率以及每个微粒所选择的基因的数目来评价每个微粒,从而更新每个微粒的初始个体最优位置pbest和种群的全局最优位置gbest。适应度函数定义如下:
fitness(i)=104×(1-accuracy(i))+k×GenesNumber(i) (8)
其中accuracy(i)表示ELM在第i个微粒所选择的基因集合上的验证准确率,GeneNumber(i)表示第i个微粒所选择的基因的数目。参数k是一个大于0的权重系数。
步骤5.3根据每个微粒的适应度函数值调整微粒的历史个体最优pbest和种群的全局最优gbest。并且比较两个种群全局最优位置,取较好的作为两个BPSO的全局最优位置。
步骤5.4根据如下规则调整微粒最大飞行速度:当两个种群的全局最优位置在m次迭代中未得到优化,微粒最大飞行速度在区间[1.5,6.0]内逐步递减;当两个种群的全局最优位置在m次迭代中得到优化,微粒最大飞行速度在区间[1.5,6.0]逐步递增。
步骤5.5采取自适应变异操作。若当前微粒的历史最优多次迭代保持不变,则执行变异操作。BPSO_1根据GCS值排序结果,将GCS值最大的10%基因的位置重新设定为1,将GCS值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变。BPSO_2根据GR值排序结果,将GR值最大的10%基因的位置重新设定为1,将GR值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变。
步骤5.6重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤5.2。
步骤5.7全局最优微粒代表最终选出的识别肿瘤的关键基因子集。
针对仅考虑一类先验约束的肿瘤关键基因识别方法易于丢失少数关键基因,本发明提出综合考虑两类先验约束结合并行BPSO进行肿瘤的关键基因子集的识别,以获取更为有效的肿瘤关键基因子集,从而提高肿瘤识别准确性。
下面以肿瘤基因表达谱数据为例,简单地说明本发明的执行过程。本实例选择脑癌(Brain cancer)肿瘤表达谱数据集,总共包含60个样本,共有两种亚型:46个典型脑癌(patients with classic brain cancer)样本和14个促***增生脑癌(patientswith desmoplastic brain cancer)。每个样本包含7219个基因,数据集来源于http://linus.nci.nih.gov/~brb/DataArchive_New.html。尽管脑癌肿瘤表达谱数据集只有两个类别,但由于该数据集中各基因表达水平比较靠近,很难获取识别肿瘤的关键基因,从而多种分类器在传统基因识别方法选出的基因子集上对样本的预测精度都不高。在该数据集上,本发明的具体执行步骤如下:
如图1所示,一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,包括基于微粒群算法的K-均值基因聚类,以及利用先验信息和并行二进制微粒群算法进行关键基因识别的步骤,包括以下步骤:
(1)通过线性变换将肺癌表达谱数据中各个基因表达水平归一化至[-1,1]之间,并将数据集分为训练集和测试集,其中训练样本30个,测试样本30个。在训练集上采用改进的IIC方法(Han F,Sun W,Ling Q-H(2014)A Novel Strategy for Gene Selection ofMicroarray Data Based on Gene-to-Class Sensitivity Information.PLoS ONE 9(5):e97530.doi:10.1371/joumal.pone.0097530)初步筛选出400个基因,形成初始备选基因池。
(2)如图2所示,在训练集上,通过式(1)、(2)和(3)定义的准则函数,利用改进的Elbow方法对初选的400个基因进行基因聚类以确定最优聚类数目K。如图3所示,在脑癌表达谱数据集上,最优基因聚类数目为6。
(3)如图2所示,运用PSO算法优选6个最优聚类中心,然后在训练集上用K-均值方法将肿瘤基因聚成6类,具体步骤如下:
①对种群中每个粒子的位置和速度进行初始化:从初始基因库中随机选取的6个基因,把这6个基因的编号作为粒子初始位置即每一位置表示一组聚类中心;每个粒子速度vi=(vi1,vi2,…,vik)的各个分量初始值则是从(0,1)内随机获取。在6维空间里第i个粒子的位置可表为矢量xi=(xi1,xi2,…,xiK),k=1,2,…,6,xik表示第i组聚类中心中第k个聚类中心。在本实施例中,种群大小为50。
②依据式(4)和(5)调整粒子的当前速度和位置。在本实施例中,惯性权重w从0.9线性递减至0.4;加速常数c1和c2分别为1.4和0.6。由于粒子位置各分量是基因的编号,那么速度在每一次迭代都必须取整。同时,粒子的位置只能在[1,400]内取值,若某个粒子某一位置的值大于400,则取400,若小于1,则取1。
③计算出各个粒子的适应值,并更新各个粒子的历史最优位置Pi和种群的最优位置Pg。
④如未达到预先设定的最大迭代次数(在本实施例中为50),则返回至步骤②,否则输出全局粒子,该粒子代表最终选出最优的聚类中心组合。
(4)在训练集上,利用ELM逼近方法获取初始基因库中各个基因的GCS值(Han F,Sun W,Ling Q-H(2014)A Novel Strategy for Gene Selection of Microarray DataBased on Gene-to-Class Sensitivity Information.PLoS ONE 9(5):e97530.doi:10.1371/journal.pone.0097530),利用统计方法获取初始基因库中各个基因的GR值(王红强,应用于基因选择与癌症分类的微阵列数据分析,中国科学技术大学,2005)。
(5)以获得的6个基因簇为搜索空间,结合各个基因的GCS和GR信息,运用并行BPSO选择出关键的肿瘤基因,具体步骤如下:
①对两个种群中每个粒子的位置和速度进行初始化:在BPSO_1中,每个粒子初始位置前12个分量依次为6个基因簇中GCS值最大的两个基因编号,其余分量随机选择;在BPSO_2中,每个粒子初始位置前12个分量依次为6个基因簇中GR值最大的两个基因编号,其余分量随机选择。每个粒子速度vi=(vi1,vi2,…,vid)的各个分量初始值则是从(0,1)内随机获取。在本实施例中,种群大小为50。
②BPSO_1依据式(5)和(6)调整粒子的当前速度和位置。BPSO_1依据式(5)和(7)调整粒子的当前速度和位置。在本实施例中,两个BPSO中惯性权重w从0.9线性递减至0.4;加速常数c1和c2分别为1.4和0.6;参数m设为3。由于粒子位置各分量是基因的编号,那么速度在每一次迭代都必须取整。同时,粒子的位置只能在[1,400]内取值,若某个粒子某一位置的值大于400,则取400,若小于1,则取1。
③BPSO_1和BPSO_2根据式(8)计算出各个粒子的适应值,并更新各个粒子的历史最优位置Pi,两个种群共享全局最优位置Pg。
④根据步骤5.3,BPSO_1和BPSO2中粒子自适应调整调整粒子飞行最大速度限制;根据步骤5.4,两个BPSO中粒子自适应变异。
⑤如未达到预先设定的最大迭代次数(在本实施例中为50),则返回至步骤②,否则输出全局粒子,该粒子代表最终识别出的关键的肺癌肿瘤基因集合。
表1给出了用新方法(PKmeans-BPSO-GCS&GR-ELM)在脑癌肿瘤表达谱数据上进行500次实验筛选出频次最高的30个识别脑癌的关键基因。新方法在关键基因识别过程中考虑GCS和GR信息,从而避免因只考虑GCS或GR信息而丢失部分关键基因。
表1本发明在脑癌肿瘤表达谱数据集上识别频次最高的30个基因
表2给出了本发明实施例中ELM在所识别出的基因子集上的分类准确率,在4个关键基因上,ELM分类5折交叉准确率、留一法准确率和测试准确率分别达到93.83%、95.60%和86.27%。而ELM在Kmeans-GCSI-MBPSO-ELM方法(Han F,Sun W,Ling Q-H(2014)A NovelStrategy for Gene Selection of Microarray Data Based on Gene-to-ClassSensitivity Information.PLoS ONE 9(5):e97530.doi:10.1371/journal.pone.0097530)所选出的6个最优基因子集上的5折交叉准确率、留一法准确率和测试准确率分别为88.63%、90.93%和80.40%。这进一步说明本发明更能识别出与肿瘤有关的关键基因。
表2本发明在脑癌数据集上选出的不同基因子集上,ELM的分类准确率
图4给出了本发明中在脑癌肿瘤表达谱数据数据上并行BPSO收敛曲线,所示为50次实验中耦合两类先验约束的并行BPSO迭代次数与验证准确率的平均关系图。从图4中可以看出,在脑癌肿瘤表达谱数据集上,改进的BPSO能够快速收敛识别出肿瘤关键基因子集,从而降低了时间开销。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (5)
1.一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,其特征在于,包括下列步骤:
步骤1肿瘤基因表达谱数据的预处理,包括肿瘤基因表达谱数据集的归一化和初步降维,同时将肿瘤基因表达谱数据集划分为训练集和测试集;
步骤2在训练集上,通过自定义的准则函数,利用改进的Elbow方法确定最优基因聚类数目K;
步骤3运用微粒群算法PSO优选K个最优聚类中心,并在训练集上用K-均值方法将肿瘤基因聚成K类;
步骤4在训练集上,分别获取基因类别灵敏度GCS信息和基因调控GR信息;
步骤5以步骤3所得的K个基因簇为搜索空间,结合步骤4获得的两类先验信息,运用并行二进制微粒群算法BPSO识别出关键的肿瘤基因。
2.根据权利要求1所述的基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,其特征在于,所述步骤1中包含下列步骤:
步骤1.1利用线性变换将数据变换至区间[-1,1];
步骤1.2在训练数据集上,利用分类信息指数方法选出200-400个基因组成初始备选基因库。
3.根据权利要求1所述的基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,其特征在于,所述步骤2中包含下列步骤:
步骤2.1定义准则函数
Ee1(k)=|Dinside-Dbetween| (1)
其中,Dinside为类内距离和,Dbetween为类间距离和,x为数据对象,mi,mj分别为第i簇和第j簇的样本均值;
步骤2.2针对不同的聚类数目,利用K-均值方法,在训练集上进行基因聚类,并计算相应的准则函数值Eel(K),然后根据Elbow思想,取|Eel(k+1)-Eel(k)|-|Eel(k)-Eel(k-1)|为最大值时的K为最佳基因聚类数目。
4.根据权利要求1所述的基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,其特征在于,所述步骤3中包含下列步骤:
步骤3.1初始化粒子群位置和速度,设置最大迭代次数和种群规模;设置每个微粒维度为步骤2得到的值K,粒子位置即为K个聚类中心;
步骤3.2将粒子的位置作为K个初始聚类中心进行K-均值聚类,并在此基础上计算每个微粒的适应度函数值,并更新个体最优位置pi和全局最优位置pg;适应度函数为
步骤3.3根据式(4)和式(5)更新微粒的速度和位置:
xij(t+1)=xij(t)+vij(t+1) (4)
vij(t+1)=ω*vij(t)+c1r1j(t)(pij(t)-xij(t))+c2r2j(t)(pgj(t)-xij(t)) (5)
步骤3.4判断是否达到最大迭代次数或全局最优粒子的适应度函数值低于预设值,否则返回步骤3.2;
步骤3.5所得的全局最优解即为优化后的K-均值聚类最佳初始中心点;
步骤3.6在获得的最佳初始聚类中心上,运用K-均值方法对对初始基因池进行聚类。
5.根据权利要求1所述的基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法,其特征在于,所述步骤5中包含下列步骤:
步骤5.1初始化耦合GCS信息的BPSO_1中种群,在步骤3聚类的每一簇中选取两个GCS值最大的基因作为粒子的初始分量,BPSO_1根据式(6)将GCS信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Sensitivity(j)为第j个基因的GCS值,Avg(Sensitivity)为所有基因的GCS值均值,Ls()为Logsig函数;
类似地,初始化耦合GR信息的BPSO_2中种群,在步骤3聚类的每一簇中选取两个GR值最大的基因作为粒子的初始分量;BPSO_2根据式(7)将GR信息耦合进BPSO的进化方程中以选取GCS值较高的基因,
其中Regulation(j)为第j个基因的GR值,Avg(Regulation)为所有基因的GR值均值,Ls()为Logsig函数;
两个BPSO在进化过程中,每一次迭代都共享全局最优解;
步骤5.2计算每个微粒的适应度函数值,根据极端学习机在验证集上的准确率以及每个微粒所选择的基因的数目来评价每个微粒,从而更新每个微粒的个体最优位置pbest和种群的全局最优位置gbest;适应度函数定义如下:
fitness(i)=104×(1-accuracy(i))+k×GenesNumber(i) (8)
其中accuracy(i)表示ELM在第i个微粒所选择的基因集合上的验证准确率,GeneNumber(i)表示第i个微粒所选择的基因的数目。参数k是一个大于0的权重系数;
步骤5.3根据每个微粒的适应度函数值调整微粒的历史个体最优pbest和种群的全局最优gbest;并且比较两个种群全局最优位置,取较好的作为两个BPSO的全局最优位置;
步骤5.4根据如下规则调整微粒最大飞行速度:当两个种群的全局最优位置在m次迭代中未得到优化,微粒最大飞行速度在区间[1.5,6.0]内逐步递减;当两个种群的全局最优位置在m次迭代中得到优化,微粒最大飞行速度在区间[1.5,6.0]逐步递增;
步骤5.5采取自适应变异操作:若当前微粒的历史最优多次迭代保持不变,则执行变异操作;BPSO_1根据GCS值排序结果,将GCS值最大的10%基因的位置重新设定为1,将GCS值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变;BPSO_2根据GR值排序结果,将GR值最大的10%基因的位置重新设定为1,将GR值最小的10%基因的位置重新设定为0,其余80%的基因位置保持不变;
步骤5.6重复以上操作,直到适应度函数达到某个阈值或者达到预设的最大迭代次数,否则返回步骤5.2;
步骤5.7全局最优微粒代表最终选出的识别肿瘤的关键基因子集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611126799.4A CN106548041A (zh) | 2016-12-08 | 2016-12-08 | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611126799.4A CN106548041A (zh) | 2016-12-08 | 2016-12-08 | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106548041A true CN106548041A (zh) | 2017-03-29 |
Family
ID=58396815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611126799.4A Pending CN106548041A (zh) | 2016-12-08 | 2016-12-08 | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106548041A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908927A (zh) * | 2017-10-27 | 2018-04-13 | 福州大学 | 基于改进PSO和ELM的疾病‑lncRNA关系预测方法 |
CN108629158A (zh) * | 2018-05-14 | 2018-10-09 | 浙江大学 | 一种智能肺癌癌细胞检测仪 |
CN108664985A (zh) * | 2017-11-07 | 2018-10-16 | 浙江工业大学 | 基于改进ga-svm的肿瘤特征基因提取方法 |
CN110782950A (zh) * | 2019-09-23 | 2020-02-11 | 江苏大学 | 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 |
CN111738304A (zh) * | 2020-05-28 | 2020-10-02 | 思派健康产业投资有限公司 | 一种高维特征空间中基于聚类算法的就诊人群分组方法 |
CN115588467A (zh) * | 2022-09-16 | 2023-01-10 | 皖南医学院 | 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 |
-
2016
- 2016-12-08 CN CN201611126799.4A patent/CN106548041A/zh active Pending
Non-Patent Citations (5)
Title |
---|
FEI HAN等: ""A Gene Selection Method for Microarray Data Based on Binary PSO Encoding Gene-to-Class Sensitivity Information"", 《IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGY AND BIOINFORMATICS》 * |
孙伟: ""基于基因类别灵敏度信息与微粒群优化的基因选择方法研究"", 《万方数据知识服务平台》 * |
孙伟等: ""基于基因灵敏度信息和二进制微粒群优化的基因选择方法"", 《计算机应用研究》 * |
杨春: ""基于先验信息和二进制微粒群算法的基因选择方法研究"", 《万方数据知识服务平台》 * |
杨春等: ""一种基于先验信息BPSO的基因选择方法"", 《软件导刊》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908927A (zh) * | 2017-10-27 | 2018-04-13 | 福州大学 | 基于改进PSO和ELM的疾病‑lncRNA关系预测方法 |
CN108664985A (zh) * | 2017-11-07 | 2018-10-16 | 浙江工业大学 | 基于改进ga-svm的肿瘤特征基因提取方法 |
CN108629158A (zh) * | 2018-05-14 | 2018-10-09 | 浙江大学 | 一种智能肺癌癌细胞检测仪 |
CN110782950A (zh) * | 2019-09-23 | 2020-02-11 | 江苏大学 | 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 |
CN110782950B (zh) * | 2019-09-23 | 2023-09-26 | 江苏大学 | 基于偏好网格和莱维飞行的多目标粒子群算法的肿瘤关键基因识别方法 |
CN111738304A (zh) * | 2020-05-28 | 2020-10-02 | 思派健康产业投资有限公司 | 一种高维特征空间中基于聚类算法的就诊人群分组方法 |
CN115588467A (zh) * | 2022-09-16 | 2023-01-10 | 皖南医学院 | 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 |
CN115588467B (zh) * | 2022-09-16 | 2023-05-09 | 皖南医学院 | 一种基于多层感知机的颅内动脉瘤破裂关键基因筛选方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106548041A (zh) | 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法 | |
CN110728224B (zh) | 一种基于注意力机制深度Contourlet网络的遥感图像分类方法 | |
CN107633255B (zh) | 一种深度学习模式下的岩石岩性自动识别分类方法 | |
CN110472817A (zh) | 一种结合深度神经网络的XGBoost集成信用评价***及其方法 | |
CN107292350A (zh) | 大规模数据的异常检测方法 | |
CN107577924B (zh) | 一种基于深度学习的长链非编码rna亚细胞位置预测方法 | |
CN106971091B (zh) | 一种基于确定性粒子群优化和支持向量机的肿瘤识别方法 | |
CN108595913A (zh) | 鉴别mRNA和lncRNA的有监督学习方法 | |
CN108491864B (zh) | 基于自动确定卷积核大小卷积神经网络的高光谱图像分类 | |
CN109492673A (zh) | 一种基于谱聚类采样的不平衡数据预测方法 | |
CN106682454B (zh) | 一种宏基因组数据分类方法和装置 | |
CN101923604A (zh) | 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法 | |
CN105550715A (zh) | 一种基于近邻传播聚类的集成分类器构建方法 | |
CN110287985B (zh) | 一种基于带变异粒子群算法的可变拓扑结构的深度神经网络图像识别方法 | |
CN106951728B (zh) | 一种基于粒子群优化和打分准则的肿瘤关键基因识别方法 | |
CN112801140A (zh) | 一种基于飞蛾扑火优化算法的XGBoost乳腺癌快速诊断方法 | |
CN103366189A (zh) | 一种高光谱遥感图像的智能化分类方法 | |
CN104463251A (zh) | 基于集成极端学习机的肿瘤基因表达谱数据识别方法 | |
CN109800790B (zh) | 一种面向高维数据的特征选择方法 | |
CN110659378A (zh) | 基于对比相似性损失函数的细粒度图像检索方法 | |
CN108171012A (zh) | 一种基因分类方法与装置 | |
CN107480441B (zh) | 一种儿童脓毒性休克预后预测的建模方法及*** | |
CN114065933B (zh) | 一种基于人工免疫思想的未知威胁检测方法 | |
CN110010204B (zh) | 基于融合网络和多打分策略的预后生物标志物识别方法 | |
CN107220320B (zh) | 基于专利引文的新兴技术识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170329 |