CN112382342A - 一种基于集成特征选择的癌症甲基化数据分类方法 - Google Patents

一种基于集成特征选择的癌症甲基化数据分类方法 Download PDF

Info

Publication number
CN112382342A
CN112382342A CN202011329335.XA CN202011329335A CN112382342A CN 112382342 A CN112382342 A CN 112382342A CN 202011329335 A CN202011329335 A CN 202011329335A CN 112382342 A CN112382342 A CN 112382342A
Authority
CN
China
Prior art keywords
data
feature selection
cancer
samples
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011329335.XA
Other languages
English (en)
Inventor
潘晓光
田奇
董虎弟
陈智娇
白丽霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanxi Sanyouhe Smart Information Technology Co Ltd
Original Assignee
Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanxi Sanyouhe Smart Information Technology Co Ltd filed Critical Shanxi Sanyouhe Smart Information Technology Co Ltd
Priority to CN202011329335.XA priority Critical patent/CN112382342A/zh
Publication of CN112382342A publication Critical patent/CN112382342A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种基于集成特征选择的癌症甲基化数据分类方法,包括下列步骤:输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;数据预处理,滤除所述数据集中的各种缺失值;通过集成特征选择方法来实现稳固的差异甲基化位点的选取;基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;输出最终的分类结果。本发明能有效解决高通量的甲基化数据的差异位点识别以及对于潜在不确定性样本的分类。本发明用于癌症甲基化数据的分类。

Description

一种基于集成特征选择的癌症甲基化数据分类方法
技术领域
本发明属于数据处理技术领域,具体涉及一种基于集成特征选择的癌症甲基化数据分类方法。
背景技术
随着计算机和测序技术的发展,产生了越来越多的大规模生物学数据,如何挖掘其中蕴含的价值是进一步发展精准医疗的重要手段之一。DNA甲基化作为一种广泛研究的表观遗传标记,在肿瘤发生中起着至关重要的作用。高通量测序技术的进步,如Infinium450K平台,使得以单CpG位点分辨率提供基因组规模的DNA甲基化数据成为可能。在此基础上,如何鉴别在正常和癌症样本中具有差异化表达的位点并且借此区分癌症和正常人的表观遗传差异能够提升人类对癌症早期的发现和预防。但是,针对目前能够获得的数据,其样本和位点数量之间极不平衡(大约1:1000),这就况导致大规模分析癌症病人与正常人之间的甲基化数据变得尤为困难。目前已有基于大规模甲基化数据区分癌症和正常样本的方法,大多基于简单特征预处理加单个分类器,使得难以精确地区别癌症和正常样本,并且难以获得对于区分癌症和正常样本至关重要的差异甲基化位点。
发明内容
针对上述现有的基于大规模甲基化数据区分癌症和正常样本的方法难以精确地区别癌症和正常样本的技术问题,本发明提供了一种分类准确度高、识别能力强、效率高的基于集成特征选择的癌症甲基化数据分类方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于集成特征选择的癌症甲基化数据分类方法,包括下列步骤:
S1、输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;
S2、数据预处理,滤除所述数据集中的各种缺失值;
S3、通过集成特征选择方法来实现稳固的差异甲基化位点的选取;
S4、基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;
S5、输出最终的分类结果。
所述S2中数据预处理的方法为:包括下列步骤:
S2.1、查找数据中的缺失值,若原数据中存在缺失值,滤除包含该缺失值的列或者特征;
S2.2、对不含缺失值的数据进行批次效应的校正;
S2.3、滤除方差最小的位点集,通过计算位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。
所述S2.2中采用经验贝叶斯EB方法消除批次效应的影响。
所述S3中集成特征选择方法为:包括下列步骤:
S3.1、引入样本多样性,所述样本多样性通过对原始数据进行等比列的多次随机采样,得到不同的样本子集,然后在样本子集上应用特征选择方法以获得不同的特征位点集合;
S3.2、引入函数多样性,即通过在同一个样本子集上应用不同的特征选择方法以获得不同的差异甲基化位点集合;
S3.3、采用多种特征选择方法提取上述两种差异位点集合,每一个样本子集,得到上述两个特征位点子集,取二者的并集,得到每个样本子集对应的特征子集,最后将所有样本子集对应的特征子集再求交集得到稳固的差异位点集合。
所述S4中得到最终的分类判别结果的方法为:包括下列步骤:
S4.1、根据集成特征选择方法的结果,训练逻辑回归,逻辑回归分类器通过最大化似然函数并由sigmoid函数将输出整合到关于{0,1}概率的分布,从而实现对样本的划分;
S4.2、通过支持向量机对于样本的分类,所述支持向量机通过搜寻样本中的支持向量,最大化两类样本的距离实现对样本的划分;
S4.3、通过随机森林分类器对于样本的分类,所述随机森林分类器通过树的结构,根据特征参数的取值大小,逐步实现对样本的划分;
S4.4、针对上述三种分类器的预测结果,通过投票的方式进行整合。
本发明与现有技术相比,具有的有益效果是:
本发明能有效解决高通量的甲基化数据的差异位点识别以及对于潜在不确定性样本的分类。通过集成特征选择方法,能够有效识别输入甲基化数据中稳固的差异甲基化位点,并且基于这些稳固的差异甲基化位点实现对于样本的分类。相比传统基于单一特征选择和单一分类器的方法,本发明在差异位点识别过程中引入集成特征选择,能够获得更可靠且更具区分度的差异甲基化位点,同时多分类器的投票融合方式也能有效提升对于待评估样本的分类准确度。
附图说明
图1为本发明的工作流程图;
图2为本发明的主要步骤示意图;
图3为本发明的集成特征选择方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于集成特征选择的癌症甲基化数据分类方法,如图1所示,包括下列步骤:
步骤1、以Infinium 450K平台数据为例,输入包含大规模甲基化位点的癌症和正常样本数据集,其中行表示样本即被测个体,并被标注为正常或者癌症,列表示特征即位点;
步骤2、输入数据后,首先进行预处理。第一步为查找数据中的缺失值,若原数据中存在缺失值,考虑到数据维度较高,通过包含几十万个测量位点,因此则滤除包含该缺失值的列或者特征;第二步为对不含缺失值的数据进行批次效应的校正。其中批次效应是指现实中一次测量的样本是有限的,可能要相隔几天或几个月才能测量更多样品,于是***“批量效应”或非生物差异,使得不同批次的样品不直接可比,这种与生物学无关因素的变异可能会导致的数据误差。这里我们使用一种经验贝叶斯(EB)方法,来消除批次效应的影响。EB方法在微阵列问题中表现非常好,因为它们在样品尺寸小时能够鲁棒地处理高维数据。通过EB方法处理过的数据就可以用于后续的计算分析。第三步为滤除方差最小的位点集。这里通过计算每一列特征或者说位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。一方面,对于方差小的位点,它们在正常和癌症样本中均难以表现出差异,因此无法指导后续的分类;另一方面,滤除方差小的位点可以减少数据的维度,从而在后续的计算分析中节省计算资源。
步骤3、在完成上述的预处理之后,如图3所示,我们通过集成特征选择方法来实现稳固的差异甲基化位点的选取。集成特征选择方法从两个角度出发实现稳固的特征选择,首先,我们引入“样本多样性”,即通过对原始数据进行等比列的多次随机采样,得到不同的样本子集,然后再样本子集上应用特征选择方法以获得不同的特征位点集合;其次,我们引入“函数多样性”,即通过在同一个样本子集上应用不同的特征选择方法以获得不同的差异甲基化位点集合。具体而言,我们结合交叉验证和多特征选择方法来实现稳固的位点集合提取,我们首先使用借鉴多折交叉验证的思想,将预处理完成的数据按原来的正常和癌症样本比例平均分成m份,用其中一份作为测试集评估特征选择结果的分类性能,用剩下m-1份作为训练集作为输入。然后采用多种特征选择方法提取差异位点集合。这里我们使用弹性正则网(ElasticNet)和Relief特征选择算法来实现差异位点集合的提取。前者结合了L1和L2正则化方法,实现不相关特征和冗余特征的滤除,而后者通过特征和分类标签的相关性赋予特征不同的权重来选择与分类结果最相关的特征位点。针对每一个样本子集,我们可以得到两个特征位点子集,然后我们取二者的并集,得到每个样本子集对应的特征子集,最后将将这m个样本子集对应的特征子集再求交集就得到了稳固的差异位点集合。具体的算法原理如图2所示。
步骤4、基于上述获得的稳固的差异甲基化位点集合,我们就可以建立分类模型,用来预测位置样本是否属于癌症还是正常样本。具体而言,根据集成特征选择方法的结果,我们训练逻辑回归,支持向量机以及随机森林分类器实现对于样本的分类。逻辑回归分类器通过最大化似然函数并由sigmoid函数将输出整合到关于{0,1}概率的分布,从而实现对样本的划分。支持向量机则通过搜寻样本中的支持向量,最大化两类样本的距离实现对样本的划分。随机森林则通过树的结构,根据特征参数的取值大小,逐步实现对样本的划分。由于三种分类器从样本属性的不同方面进行分析,并获得对样本的划分,因此它们对同一样本的判定结果可能不一致。因此我们针对上述每种分类器的预测结果,通过投票的方式进行整合。以某次训练过程为例,对某个待评估样本,假设上述三个分类器分别输出正常,正常,癌症三种判定结果,则根据投票的原则,最终对于该样本的预测结果为正常。
步骤5、完成了多种分类器的构建之后,我们就可以针对未知的待评估样本,通过输入甲基化数据实现对于样本属性的预测。
上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:包括下列步骤:
S1、输入甲基化位点的癌症和正常样本数据集,所述数据集中,每行表示被测个体,并被标注为正常或者癌症,每列表示特征位点;
S2、数据预处理,滤除所述数据集中的各种缺失值;
S3、通过集成特征选择方法来实现稳固的差异甲基化位点的选取;
S4、基于稳固的差异甲基化位点训练多分类器模型,根据每个分类器的预测结果进行投票,得到最终的分类判别结果;
S5、输出最终的分类结果。
2.根据权利要求1所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S2中数据预处理的方法为:包括下列步骤:
S2.1、查找数据中的缺失值,若原数据中存在缺失值,滤除包含该缺失值的列或者特征;
S2.2、对不含缺失值的数据进行批次效应的校正;
S2.3、滤除方差最小的位点集,通过计算位点在所有测得的样本中甲基化值的方差,对所有位点按照方差从大到小进行排序,然后舍去排在末尾的1/3左右的位点。
3.根据权利要求2所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S2.2中采用经验贝叶斯EB方法消除批次效应的影响。
4.根据权利要求1所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S3中集成特征选择方法为:包括下列步骤:
S3.1、引入样本多样性,所述样本多样性通过对原始数据进行等比列的多次随机采样,得到不同的样本子集,然后在样本子集上应用特征选择方法以获得不同的特征位点集合;
S3.2、引入函数多样性,即通过在同一个样本子集上应用不同的特征选择方法以获得不同的差异甲基化位点集合;
S3.3、采用多种特征选择方法提取上述两种差异位点集合,每一个样本子集,得到上述两个特征位点子集,取二者的并集,得到每个样本子集对应的特征子集,最后将所有样本子集对应的特征子集再求交集得到稳固的差异位点集合。
5.根据权利要求1所述的一种基于集成特征选择的癌症甲基化数据分类方法,其特征在于:所述S4中得到最终的分类判别结果的方法为:包括下列步骤:
S4.1、根据集成特征选择方法的结果,训练逻辑回归,逻辑回归分类器通过最大化似然函数并由sigmoid函数将输出整合到关于{0,1}概率的分布,从而实现对样本的划分;
S4.2、通过支持向量机对于样本的分类,所述支持向量机通过搜寻样本中的支持向量,最大化两类样本的距离实现对样本的划分;
S4.3、通过随机森林分类器对于样本的分类,所述随机森林分类器通过树的结构,根据特征参数的取值大小,逐步实现对样本的划分;
S4.4、针对上述三种分类器的预测结果,通过投票的方式进行整合。
CN202011329335.XA 2020-11-24 2020-11-24 一种基于集成特征选择的癌症甲基化数据分类方法 Pending CN112382342A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011329335.XA CN112382342A (zh) 2020-11-24 2020-11-24 一种基于集成特征选择的癌症甲基化数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011329335.XA CN112382342A (zh) 2020-11-24 2020-11-24 一种基于集成特征选择的癌症甲基化数据分类方法

Publications (1)

Publication Number Publication Date
CN112382342A true CN112382342A (zh) 2021-02-19

Family

ID=74588999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011329335.XA Pending CN112382342A (zh) 2020-11-24 2020-11-24 一种基于集成特征选择的癌症甲基化数据分类方法

Country Status (1)

Country Link
CN (1) CN112382342A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN117059165A (zh) * 2023-07-27 2023-11-14 上海睿璟生物科技有限公司 基于集成学习的差异甲基化区域选择及筛选方法、***、终端及介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100279879A1 (en) * 2007-09-17 2010-11-04 Koninklijke Philips Electronics N.V. Method for the analysis of breast cancer disorders
WO2015181330A1 (en) * 2014-05-28 2015-12-03 Syvänen Ann-Christine Method for all cancer category determination by means of methylation profiling
CN105550715A (zh) * 2016-01-22 2016-05-04 大连理工大学 一种基于近邻传播聚类的集成分类器构建方法
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107247873A (zh) * 2017-03-29 2017-10-13 电子科技大学 一种差异甲基化位点识别方法
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测***
CN109686414A (zh) * 2018-12-28 2019-04-26 陈洪亮 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
CN109685107A (zh) * 2018-11-22 2019-04-26 东软集团股份有限公司 特征选择方法、***、计算机可读存储介质及电子设备
CN111094590A (zh) * 2017-07-12 2020-05-01 大学健康网络 使用甲基化组分析进行癌症检测和分类
CN111378754A (zh) * 2020-04-23 2020-07-07 嘉兴市第一医院 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法
CN111461354A (zh) * 2019-12-24 2020-07-28 武汉大学 一种面向高维数据的机器学习集成分类方法及软件***
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及***

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100279879A1 (en) * 2007-09-17 2010-11-04 Koninklijke Philips Electronics N.V. Method for the analysis of breast cancer disorders
WO2015181330A1 (en) * 2014-05-28 2015-12-03 Syvänen Ann-Christine Method for all cancer category determination by means of methylation profiling
CN105550715A (zh) * 2016-01-22 2016-05-04 大连理工大学 一种基于近邻传播聚类的集成分类器构建方法
CN107066781A (zh) * 2016-11-03 2017-08-18 西南大学 基于遗传和环境相关的结直肠癌数据模型的分析方法
CN107247873A (zh) * 2017-03-29 2017-10-13 电子科技大学 一种差异甲基化位点识别方法
CN111094590A (zh) * 2017-07-12 2020-05-01 大学健康网络 使用甲基化组分析进行癌症检测和分类
CN109119167A (zh) * 2018-07-11 2019-01-01 山东师范大学 基于集成模型的脓毒症死亡率预测***
CN109685107A (zh) * 2018-11-22 2019-04-26 东软集团股份有限公司 特征选择方法、***、计算机可读存储介质及电子设备
CN109686414A (zh) * 2018-12-28 2019-04-26 陈洪亮 仅用于肝癌筛查的特异甲基化检测位点组合的选取方法
CN111461354A (zh) * 2019-12-24 2020-07-28 武汉大学 一种面向高维数据的机器学习集成分类方法及软件***
CN111378754A (zh) * 2020-04-23 2020-07-07 嘉兴市第一医院 基于tcga数据库的乳腺癌甲基化生物标志物及其筛选方法
CN111863250A (zh) * 2020-08-14 2020-10-30 中国科学院大学温州研究院(温州生物材料与工程研究所) 一种早期乳腺癌的联合诊断模型及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KANG LENG CHIEW等: "A new hybrid ensemble feature selection framework for machine learning-based phishing detection system", 《INFORMATION SCIENCES》 *
刘超: "基于DNA甲基化不平衡数据的胃癌分类模型研究", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926640A (zh) * 2021-02-22 2021-06-08 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN112926640B (zh) * 2021-02-22 2023-02-28 齐鲁工业大学 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
CN117059165A (zh) * 2023-07-27 2023-11-14 上海睿璟生物科技有限公司 基于集成学习的差异甲基化区域选择及筛选方法、***、终端及介质

Similar Documents

Publication Publication Date Title
CN109801680B (zh) 基于tcga数据库的肿瘤转移复发预测方法及***
CN104584022B (zh) 一种生成生物标记签名的***及方法
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
Shukla et al. Identification of potential biomarkers on microarray data using distributed gene selection approach
Bhargava et al. DNA barcoding in plants: evolution and applications of in silico approaches and resources
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
CN112259167B (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
Shaker et al. Information retrieval for cancer cell detection based on advanced machine learning techniques
CN110246544B (zh) 一种基于整合分析的生物标志物选择方法及***
CN108920889B (zh) 化学品健康危害筛查方法
Dotan et al. Effect of tokenization on transformers for biological sequences
US7272583B2 (en) Using supervised classifiers with unsupervised data
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及***
US8140456B2 (en) Method and system of extracting factors using generalized Fisher ratios
Khalilabad et al. Fully automatic classification of breast cancer microarray images
CN111105041A (zh) 一种用于智慧数据碰撞的机器学习方法及装置
Bawankar et al. Implementation of ensemble method on dna data using various cross validation techniques
CN110502669A (zh) 基于n边dfs子图的轻量级无监督图表示学习方法及装置
Shah et al. The Hitchhiker’s Guide to Statistical Analysis of Feature-based Molecular Networks from Non-Targeted Metabolomics Data
Yoon et al. Direct integration of microarrays for selecting informative genes and phenotype classification
CN105095689A (zh) 一种基于韦恩预测的电子鼻数据挖掘方法
Sinha et al. A study of feature selection and extraction algorithms for cancer subtype prediction
Mohanty et al. Cancer tumor detection using genetic mutated data and machine learning models
CN111383717A (zh) 一种构建生物信息分析参照数据集的方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210219