CN116564409A - 基于机器学习的转移性乳腺癌转录组测序数据识别方法 - Google Patents
基于机器学习的转移性乳腺癌转录组测序数据识别方法 Download PDFInfo
- Publication number
- CN116564409A CN116564409A CN202310505357.4A CN202310505357A CN116564409A CN 116564409 A CN116564409 A CN 116564409A CN 202310505357 A CN202310505357 A CN 202310505357A CN 116564409 A CN116564409 A CN 116564409A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- sequencing data
- transcriptome sequencing
- model
- metastatic breast
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 138
- 206010055113 Breast cancer metastatic Diseases 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000010801 machine learning Methods 0.000 title claims abstract description 17
- 206010006187 Breast cancer Diseases 0.000 claims abstract description 129
- 208000026310 Breast neoplasm Diseases 0.000 claims abstract description 129
- 108090000623 proteins and genes Proteins 0.000 claims description 107
- 206010027476 Metastases Diseases 0.000 claims description 78
- 230000009401 metastasis Effects 0.000 claims description 78
- 238000013145 classification model Methods 0.000 claims description 42
- 239000000523 sample Substances 0.000 claims description 28
- 230000014509 gene expression Effects 0.000 claims description 25
- 101150044508 key gene Proteins 0.000 claims description 18
- 230000000683 nonmetastatic effect Effects 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 16
- 238000000611 regression analysis Methods 0.000 claims description 12
- 238000012706 support-vector machine Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 11
- 238000007637 random forest analysis Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 8
- 235000012571 Ficus glomerata Nutrition 0.000 claims description 7
- 244000153665 Ficus glomerata Species 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 238000011160 research Methods 0.000 description 3
- 102100021977 Ectonucleotide pyrophosphatase/phosphodiesterase family member 2 Human genes 0.000 description 2
- 101000897035 Homo sapiens Ectonucleotide pyrophosphatase/phosphodiesterase family member 2 Proteins 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
基于机器学习的转移性乳腺癌转录组测序数据识别方法,涉及生物信息技术领域,针对现有技术中针对转移性乳腺癌转录组测序数据识别准确率低的问题,本申请采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器,并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果,完成对转移性乳腺癌转录组测序数据的识别。本申请的技术方案能够准确识别乳腺癌转录组测序数据中的转移性乳腺癌转录组测序数据。
Description
技术领域
本发明涉及生物信息技术领域,具体为基于机器学习的转移性乳腺癌转录组测序数据识别方法。
背景技术
乳腺癌常被称为“粉红杀手”,其发病率位居女性恶性肿瘤的首位。转移性乳腺癌转录组测序数据的识别可以从乳腺癌转录组测序数据中识别出转移性乳腺癌转录组测序数据,从而为乳腺癌转移研究的数据方面提供一定程度的技术支持,进一步促进乳腺癌转移研究进展。
现有技术中受限于转录组测序数据本身的复杂性,因此针对转移性乳腺癌转录组测序数据的识别准确率非常低。
发明内容
本发明的目的是:针对现有技术中针对转移性乳腺癌转录组测序数据识别准确率低的问题,提出基于机器学习的转移性乳腺癌转录组测序数据识别方法。
本发明为了解决上述技术问题采取的技术方案是:
基于机器学习的转移性乳腺癌转录组测序数据识别方法,包括以下步骤:
获取乳腺癌患者转录组测序数据;
在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据;
利用乳腺癌转移关键基因表达数据训练多个不同分类模型,并选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型;
利用转移性乳腺癌转录组测序数据识别模型进行转移性乳腺癌转录组测序数据识别;
所述在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据的具体步骤为:
步骤一:对乳腺癌患者转录组测序数据进行差异分析,得到乳腺癌转移差异基因集;
步骤二:对乳腺癌患者转录组测序数据进行WGCNA,得到乳腺癌转移枢纽基因集;
步骤三:提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因;
步骤四:利用LASSO回归分析对共同基因进行筛选,得到乳腺癌转移关键基因,并将乳腺癌转移关键基因与乳腺癌患者转录组测序数据进行比对,得到乳腺癌转移关键基因表达数据。
进一步的,所述获取乳腺癌患者转录组测序数据的步骤具体为:
首先,获取乳腺癌转移的GSE数据集;
其次,在RStudio中从所获取的GSE数据集中提取乳腺癌患者转录组测序数据、临床特征以及GEO芯片平台编号,并根据GEO芯片平台编号获取该芯片中各基因探针对应的基因名称。
进一步的,所述差异分析的具体步骤为:
在RStudio中使用limma包对乳腺癌患者转录组测序数据进行差异分析,并根据所获取的各基因探针对应的基因名称在差异分析结果中增加一列基因名称,以确定每个基因探针对应检测的基因的表达,之后根据差异分析结果,以P-value<0.05和|logFC|>0.5为筛选标准进行筛选,得到乳腺癌转移的差异基因。
进一步的,所述WGCNA的具体步骤为:
步骤二一:聚类所有样本,得到样本聚类树以及离群样本,然后根据离群样本在样本聚类树中的位置设置cutHeight值,以此去除离群值,得到剩余样本;
步骤二二:基于剩余样本,利用WGCNA包中的软阈值计算函数计算软阈值,并根据计算结果绘制无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势图,并以无标度拓扑拟合指数大于0.9以及平均连接度走势持平位置为标准选择最佳软阈值;
步骤二三:根据最佳软阈值构造无标度网络,得到模块标识的层次聚类树状图,并将模块、临床特征相关联,得到层次聚类树状图中每个模块与乳腺癌转移的相关性系数,并选择相关性系数最高和次高的模块;
步骤二四:提取相关性系数最高和次高的模块中的基因,即为乳腺癌转移枢纽基因。
进一步的,所述利用LASSO回归分析对共同基因进行筛选的具体步骤为:
在RStudio中使用glmnet包对乳腺癌转移关键基因进行了LASSO回归分析,并选取LASSO模型均方误差最小时的λ值对应的基因,即乳腺癌转移关键基因。
进一步的,所述多个不同分类模型包括:逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。
进一步的,所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为:
基于网格优化方法和五折交叉验证,通过查找参数空间范围内模型的所有超参数组合对多个分类模型分别进行分类训练和超参数优化。
进一步的,所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到,具体步骤为:
首先以多个分类模型中F1-Score值最大的模型即为最优模型,若F1-Score值相同,则比较多个分类模型的Accuracy值,Accuracy值最大的模型即为最优模型,若Accuracy值相同,则比较多个分类模型的AUC值,AUC值最大的模型即为最优模型,若多个分类模型的F1-Score值、Accuracy值以及AUC值都相同,则按照分类模型优先级顺序XGboost模型>GBDT模型>支持向量机模型>随机森林模型>逻辑回归模型进行选择。
进一步的,所述F1-Score以及Accuracy表示为:
其中,ACC即Accuracy,TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数,FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。
进一步的,所述GSE数据集为GSE9893数据集和GSE43837数据集。
本发明的有益效果是:
本申请采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器,并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果,完成对转移性乳腺癌转录组测序数据的识别。本申请的技术方案能够准确识别乳腺癌转录组测序数据中的转移性乳腺癌转录组测序数据。
本申请实现了对乳腺癌转录组测序数据是否为转移性乳腺癌转录组测序数据的识别。根据差异分析、WGCNA、LASSO回归分析对基因的联合筛选的结果,得到了乳腺癌转移关键基因,有效提高了转移性乳腺癌转录组测序数据的识别精度。
附图说明
图1为本申请的整体流程图;
图2为不同数据集下的差异分析结果示意图;
图3为WGCNA结果示意图;
图4为LASSO模型在不同λ值下的均方误差示意图;
图5为各分类模型识别效果对比示意图;
图6为转移性乳腺癌转录组测序数据识别装置的结构示意图。
具体实施方式
需要特别说明的是,在不冲突的情况下,本申请公开的各个实施方式之间可以相互组合。
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,包括以下步骤:
获取乳腺癌患者转录组测序数据;
在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据;
利用乳腺癌转移关键基因表达数据训练多个不同分类模型,并选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型;
利用转移性乳腺癌转录组测序数据识别模型进行转移性乳腺癌转录组测序数据识别;
所述在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据的具体步骤为:
步骤一:对乳腺癌患者转录组测序数据进行差异分析,得到乳腺癌转移差异基因集;
步骤二:对乳腺癌患者转录组测序数据进行WGCNA,得到乳腺癌转移枢纽基因集;
步骤三:提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因;
步骤四:利用LASSO回归分析对共同基因进行筛选,得到乳腺癌转移关键基因,并将乳腺癌转移关键基因与乳腺癌患者转录组测序数据进行比对,得到乳腺癌转移关键基因表达数据。
具体实施方式二:本实施方式是对具体实施方式一的进一步说明,本实施方式与具体实施方式一的区别是所述获取乳腺癌患者转录组测序数据的步骤具体为:
首先,获取乳腺癌转移的GSE数据集;
其次,在RStudio中从所获取的GSE数据集中提取乳腺癌患者转录组测序数据、临床特征以及GEO芯片平台编号,并根据GEO芯片平台编号获取该芯片中各基因探针对应的基因名称。
具体实施方式三:本实施方式是对具体实施方式二的进一步说明,本实施方式与具体实施方式二的区别是所述差异分析的具体步骤为:
在RStudio中使用limma包对乳腺癌患者转录组测序数据进行差异分析,并根据所获取的各基因探针对应的基因名称在差异分析结果中增加一列基因名称,以确定每个基因探针对应检测的基因的表达,之后根据差异分析结果,以P-value<0.05和|logFC|>0.5为筛选标准进行筛选,得到乳腺癌转移的差异基因。
具体实施方式四:本实施方式是对具体实施方式三的进一步说明,本实施方式与具体实施方式三的区别是所述WGCNA的具体步骤为:
步骤二一:聚类所有样本,得到样本聚类树以及离群样本,然后根据离群样本在样本聚类树中的位置设置cutHeight值,以此去除离群值,得到剩余样本;
步骤二二:基于剩余样本,利用WGCNA包中的软阈值计算函数计算软阈值,并根据计算结果绘制无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势图,并以无标度拓扑拟合指数大于0.9以及平均连接度走势持平位置为标准选择最佳软阈值;
步骤二三:根据最佳软阈值构造无标度网络,得到模块标识的层次聚类树状图,并将模块、临床特征相关联,得到层次聚类树状图中每个模块与乳腺癌转移的相关性系数,并选择相关性系数最高和次高的模块;
步骤二四:提取相关性系数最高和次高的模块中的基因,即为乳腺癌转移枢纽基因。
具体实施方式五:本实施方式是对具体实施方式四的进一步说明,本实施方式与具体实施方式四的区别是所述利用LASSO回归分析对共同基因进行筛选的具体步骤为:
在RStudio中使用glmnet包对乳腺癌转移关键基因进行了LASSO回归分析,并选取LASSO模型均方误差最小时的λ值对应的基因,即乳腺癌转移关键基因。
具体实施方式六:本实施方式是对具体实施方式五的进一步说明,本实施方式与具体实施方式五的区别是所述多个不同分类模型包括:逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。
具体实施方式七:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为:
基于网格优化方法和五折交叉验证,通过查找参数空间范围内模型的所有超参数组合对多个分类模型分别进行分类训练和超参数优化。
具体实施方式八:本实施方式是对具体实施方式六的进一步说明,本实施方式与具体实施方式六的区别是所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到,具体步骤为:
首先以多个分类模型中F1-Score值最大的模型即为最优模型,若F1-Score值相同,则比较多个分类模型的Accuracy值,Accuracy值最大的模型即为最优模型,若Accuracy值相同,则比较多个分类模型的AUC值,AUC值最大的模型即为最优模型,若多个分类模型的F1-Score值、Accuracy值以及AUC值都相同,则按照分类模型优先级顺序XGboost模型>GBDT模型>支持向量机模型>随机森林模型>逻辑回归模型进行选择。
具体实施方式九:本实施方式是对具体实施方式八的进一步说明,本实施方式与具体实施方式八的区别是所述F1-Score以及Accuracy表示为:
其中,ACC即Accuracy,TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数,FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。
具体实施方式十:本实施方式是对具体实施方式九的进一步说明,本实施方式与具体实施方式九的区别是所述GSE数据集为GSE9893数据集和GSE43837数据集。
作为本申请的一种实施方式,如图1所示,包括以下步骤:
S101、获取乳腺癌患者转录组测序数据及临床信息。
其中,乳腺癌患者转录组测序数据及临床信息包括乳腺癌患者转录组测序数据和乳腺癌患者临床信息,乳腺癌患者转录组测序数据为乳腺癌患者从组织样本所测得的众多基因的表达量数据,乳腺癌患者临床信息为乳腺癌患者治疗期间的身体状况以及乳腺癌进展情况等信息。
在一些可选地实施方式中,乳腺癌患者转录组测序数据及临床信息总共有2个数据集,包括:GEO数据库中GSE9893数据集(总样本数量为155,其中转移性乳腺癌转录组测序数据样本数量为48,非转移性乳腺癌转录组测序数据样本数量为107,测得基因数为22656)、GEO数据库中GSE43837数据集(总样本数量为38,其中转移性乳腺癌转录组测序数据样本数量为19,非转移性乳腺癌转录组测序数据样本数量为19,测得基因数为61359)。
S102、基于差异分析及WGCNA,初步筛选乳腺癌转移关键基因。
步骤S102包括以下子步骤S1021-S1023
S1021、对所述乳腺癌患者转录组测序数据进行差异分析,得到乳腺癌转移差异基因集。
在一些可选地实施方式中,使用RStudio对所述乳腺癌患者转录组测序数据和临床信息进行预处理,包括:提取所述两个数据集中得表达矩阵和临床信息、对所述乳腺癌患者根据临床信息中患者是否发生乳腺癌转移进行分组、对表达矩阵中基因探针进行注释。
在一些可选地实施方式中,在RStudio中使用limma包对所述乳腺癌患者转录组测序数据进行了差异分析,并以P-value<0.05和|logFC|>0.5为筛选标准初步筛选出乳腺癌远处转移的相关差异基因。差异分析结果如图2所示,其中从GSE9893数据集中筛选出6188个差异基因,从GSE43837数据集中筛选出2122个差异基因。
S1022、对所述乳腺癌患者转录组测序数据进行WGCNA,得到乳腺癌转移枢纽基因集。
在一些可选地实施方式中,聚类数据集GSE9893所有样本,观察这些样本是否有离群值或者异常值,并设置cutHeight为150来以此标准去除离群值。去除离群值后,基于剩余样本重构样本聚类树,并可视化表型数据与样本的联系。
在一些可选地实施方式中,根据无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势,得出最小软阈值为6。并进一步依据软阈值6构造无标度网络,得出了模块标识的层次聚类树状图,并将模块、临床特征相关联得出了模块与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数。WGCNA结果即模块与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数如图3所示,其中黄绿色模块基因和蓝色模块基因与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数相对较高,取黄绿色模块基因和蓝色模块基因(共3404个基因)作为乳腺癌转移枢纽基因来进行下一步分析筛选。
S1023、提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因。
在一些可选地实施方式中,提取GSE9893数据集中的6188个差异基因、GSE43837数据集中的2122个差异基因和所述3404个乳腺癌转移枢纽基因三者中的114个共同基因来进行下一步分析筛选。
S103、基于LASSO回归分析,对所述乳腺癌转移关键基因进行进一步筛选。
在一些可选地实施方式中,在RStudio中使用glmnet包对所述乳腺癌转移关键基因进行了LASSO回归分析。在LASSO模型中所述114个乳腺癌转移关键基因系数的绝对值随λ值增加而不断减小,甚至减小到0(即该基因在模型中不起作用)。因此需确定LASSO模型表现最优时λ值,从而进一步确定在LASSO模型中真正起作用的部分基因。LASSO模型在不同λ值下的均方误差如图4所示,于是选取了LASSO模型表现最优即均方误差最小时的λ值,进而筛选出了该λ值对应的ENPP2等21个预测能力较强的基因即所述乳腺癌转移关键基因。
S104、基于所述乳腺癌转移关键基因,构建转移性乳腺癌转录组测序数据识别模型。
种子模型选用逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型,基于所述GSE9893数据集中随机划分出的80%数据即训练集对所述种子模型即逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练,得到训练好的分类模型。步骤S104具体包括:
基于网格优化方法和五折交叉验证,通过查找参数空间范围内的模型所有的超参数组合对所述逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练和超参数优化。
对分类效果进行评价。
在一些可选地实施方式中,对分类效果进行评价的指标包括ACC、F1-Score、AUC,其计算公式如下:
其中TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数,FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。
F1-Score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率,可以看作是模型精确率和召回率的一种调和平均。
AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率。AUC值为ROC曲线下与坐标轴围成的面积。
S105、获取待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据;
S106、基于所述转移性乳腺癌转录组测序数据识别模型,识别乳腺癌转录组测序数据中转移性乳腺癌转录组测序数据。
采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器,并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果,完成对转移性乳腺癌转录组测序数据的识别。
作为本申请的实施例,包括以下步骤:
使用LASSO来选择乳腺癌转移关键基因。LASSO模型中λ值与均方误差之间的关系图,如图4所示。在所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因上进行乳腺癌转移关键基因的选择,确定乳腺癌转移关键基因的个数及具体基因名称。当λ值大致为-4.2时LASSO模型的均方误差最小。因此,我们取λ值大致为-4.2时所对应的LASSO模型中真正起作用的部分基因,即ENPP2等21个预测能力较强的乳腺癌转移关键基因。
接着获取了所述乳腺癌转移关键基因在各样本中的基因表达数据,即构建转移性乳腺癌转录组测序数据识别模型所需要的训练数据及验证数据。基于所述训练数据对所述种子模型即逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行训练,即通过查找参数空间范围内的模型所有的超参数组合对所述逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练和超参数优化,从而得出了转移性乳腺癌转录组测序数据识别模型。
最后将本发明中的几个转移性乳腺癌转录组测序数据识别模型进行比较,在比较时,保证了使用的数据集一致的基础上,使用一致的评价指标ACC、F1-Score、AUC,如图5所示。通过比较,基于支持向量机模型和XGboost模型构建的转移性乳腺癌转录组测序数据识别模型优于其它几个转移性乳腺癌转录组测序数据识别模型,并在转移性乳腺癌转录组测序数据识别上具有一定的有效性,并且可以为转移性乳腺癌转录组测序数据识别的研究提供一种新的思路。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。
Claims (10)
1.基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于包括以下步骤:
获取乳腺癌患者转录组测序数据;
在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据;
利用乳腺癌转移关键基因表达数据训练多个不同分类模型,并选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型;
利用转移性乳腺癌转录组测序数据识别模型进行转移性乳腺癌转录组测序数据识别;
所述在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据的具体步骤为:
步骤一:对乳腺癌患者转录组测序数据进行差异分析,得到乳腺癌转移差异基因集;
步骤二:对乳腺癌患者转录组测序数据进行WGCNA,得到乳腺癌转移枢纽基因集;
步骤三:提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因;
步骤四:利用LASSO回归分析对共同基因进行筛选,得到乳腺癌转移关键基因,并将乳腺癌转移关键基因与乳腺癌患者转录组测序数据进行比对,得到乳腺癌转移关键基因表达数据。
2.根据权利要求1所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述获取乳腺癌患者转录组测序数据的步骤具体为:
首先,获取乳腺癌转移的GSE数据集;
其次,在RStudio中从所获取的GSE数据集中提取乳腺癌患者转录组测序数据、临床特征以及GEO芯片平台编号,并根据GEO芯片平台编号获取该芯片中各基因探针对应的基因名称。
3.根据权利要求2所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述差异分析的具体步骤为:
在RStudio中使用limma包对乳腺癌患者转录组测序数据进行差异分析,并根据所获取的各基因探针对应的基因名称在差异分析结果中增加一列基因名称,以确定每个基因探针对应检测的基因的表达,之后根据差异分析结果,以P-value<0.05和|logFC|>0.5为筛选标准进行筛选,得到乳腺癌转移的差异基因。
4.根据权利要求3所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述WGCNA的具体步骤为:
步骤二一:聚类所有样本,得到样本聚类树以及离群样本,然后根据离群样本在样本聚类树中的位置设置cutHeight值,以此去除离群值,得到剩余样本;
步骤二二:基于剩余样本,利用WGCNA包中的软阈值计算函数计算软阈值,并根据计算结果绘制无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势图,并以无标度拓扑拟合指数大于0.9以及平均连接度走势持平位置为标准选择最佳软阈值;
步骤二三:根据最佳软阈值构造无标度网络,得到模块标识的层次聚类树状图,并将模块、临床特征相关联,得到层次聚类树状图中每个模块与乳腺癌转移的相关性系数,并选择相关性系数最高和次高的模块;
步骤二四:提取相关性系数最高和次高的模块中的基因,即为乳腺癌转移枢纽基因。
5.根据权利要求4所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述利用LASSO回归分析对共同基因进行筛选的具体步骤为:
在RStudio中使用glmnet包对乳腺癌转移关键基因进行了LASSO回归分析,并选取LASSO模型均方误差最小时的λ值对应的基因,即乳腺癌转移关键基因。
6.根据权利要求5所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述多个不同分类模型包括:逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。
7.根据权利要求6所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为:
基于网格优化方法和五折交叉验证,通过查找参数空间范围内模型的所有超参数组合对多个分类模型分别进行分类训练和超参数优化。
8.根据权利要求6所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到,具体步骤为:
首先以多个分类模型中F1-Score值最大的模型即为最优模型,若F1-Score值相同,则比较多个分类模型的Accuracy值,Accuracy值最大的模型即为最优模型,若Accuracy值相同,则比较多个分类模型的AUC值,AUC值最大的模型即为最优模型,若多个分类模型的F1-Score值、Accuracy值以及AUC值都相同,则按照分类模型优先级顺序XGboost模型>GBDT模型>支持向量机模型>随机森林模型>逻辑回归模型进行选择。
9.根据权利要求8所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述F1-Score以及Accuracy表示为:
其中,ACC即Accuracy,TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数,FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数,FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。
10.根据权利要求9所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法,其特征在于所述GSE数据集为GSE9893数据集和GSE43837数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505357.4A CN116564409A (zh) | 2023-05-06 | 2023-05-06 | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310505357.4A CN116564409A (zh) | 2023-05-06 | 2023-05-06 | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564409A true CN116564409A (zh) | 2023-08-08 |
Family
ID=87497616
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310505357.4A Pending CN116564409A (zh) | 2023-05-06 | 2023-05-06 | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116564409A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409965A (zh) * | 2023-09-28 | 2024-01-16 | 江苏先声医学诊断有限公司 | 适用于亚洲her2阳性乳腺癌患者风险预测*** |
CN117746983A (zh) * | 2023-12-19 | 2024-03-22 | 南昌大学 | 一种老年乳腺癌衰老评分模型的构建方法及其应用 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344907A (zh) * | 2018-10-30 | 2019-02-15 | 顾海艳 | 基于改进评判标准分类算法的判别方法 |
CN110120264A (zh) * | 2019-04-19 | 2019-08-13 | 上海依智医疗技术有限公司 | 一种哮喘的预后评估方法及装置 |
CN111081317A (zh) * | 2019-12-10 | 2020-04-28 | 山东大学 | 一种基于基因谱的乳腺癌***转移预测方法及预测*** |
CN111899882A (zh) * | 2020-08-07 | 2020-11-06 | 北京科技大学 | 一种预测癌症的方法及*** |
CN113130002A (zh) * | 2021-04-29 | 2021-07-16 | 吉林大学 | 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 |
CN113140320A (zh) * | 2021-05-13 | 2021-07-20 | 广州市妇女儿童医疗中心 | 一种用于先心病手术患儿术后远期营养不良的预测模型的构建方法 |
CN114360642A (zh) * | 2022-01-14 | 2022-04-15 | 吉林省蒲川生物医药有限公司 | 基于基因共表达网络分析的癌症转录组数据处理方法 |
CN114496066A (zh) * | 2022-04-13 | 2022-05-13 | 南京墨宁医疗科技有限公司 | 一种三阴性乳腺癌预后的基因模型的构建方法及其应用 |
CN115659245A (zh) * | 2022-10-24 | 2023-01-31 | 东华理工大学 | 一种基于机器学习的砂岩型铀矿岩层类型识别方法及装置 |
CN115938590A (zh) * | 2023-02-09 | 2023-04-07 | 四川大学华西医院 | 结直肠癌术后lars预测模型的构建方法及预测*** |
-
2023
- 2023-05-06 CN CN202310505357.4A patent/CN116564409A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344907A (zh) * | 2018-10-30 | 2019-02-15 | 顾海艳 | 基于改进评判标准分类算法的判别方法 |
CN110120264A (zh) * | 2019-04-19 | 2019-08-13 | 上海依智医疗技术有限公司 | 一种哮喘的预后评估方法及装置 |
CN111081317A (zh) * | 2019-12-10 | 2020-04-28 | 山东大学 | 一种基于基因谱的乳腺癌***转移预测方法及预测*** |
CN111899882A (zh) * | 2020-08-07 | 2020-11-06 | 北京科技大学 | 一种预测癌症的方法及*** |
CN113130002A (zh) * | 2021-04-29 | 2021-07-16 | 吉林大学 | 一种肺腺癌生物标志物筛选、预后模型构建及生物学验证的新方法 |
CN113140320A (zh) * | 2021-05-13 | 2021-07-20 | 广州市妇女儿童医疗中心 | 一种用于先心病手术患儿术后远期营养不良的预测模型的构建方法 |
CN114360642A (zh) * | 2022-01-14 | 2022-04-15 | 吉林省蒲川生物医药有限公司 | 基于基因共表达网络分析的癌症转录组数据处理方法 |
CN114496066A (zh) * | 2022-04-13 | 2022-05-13 | 南京墨宁医疗科技有限公司 | 一种三阴性乳腺癌预后的基因模型的构建方法及其应用 |
CN115659245A (zh) * | 2022-10-24 | 2023-01-31 | 东华理工大学 | 一种基于机器学习的砂岩型铀矿岩层类型识别方法及装置 |
CN115938590A (zh) * | 2023-02-09 | 2023-04-07 | 四川大学华西医院 | 结直肠癌术后lars预测模型的构建方法及预测*** |
Non-Patent Citations (1)
Title |
---|
高裴裴: "《智能计算技术与应用基础:面向新文科》", vol. 1, 31 August 2022, 北京邮电大学出版社, pages: 111 - 112 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117409965A (zh) * | 2023-09-28 | 2024-01-16 | 江苏先声医学诊断有限公司 | 适用于亚洲her2阳性乳腺癌患者风险预测*** |
CN117746983A (zh) * | 2023-12-19 | 2024-03-22 | 南昌大学 | 一种老年乳腺癌衰老评分模型的构建方法及其应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN113053535B (zh) | 一种医疗信息预测***及医疗信息预测方法 | |
US9940383B2 (en) | Method, an arrangement and a computer program product for analysing a biological or medical sample | |
JP2016200435A (ja) | マススペクトル解析システム,方法およびプログラム | |
CN107463797B (zh) | 高通量测序的生物信息分析方法及装置、设备及存储介质 | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
CN115274136A (zh) | 整合多组学与必需基因的肿瘤细胞系药物响应预测方法 | |
CN114358169A (zh) | 一种基于XGBoost的结直肠癌检测*** | |
WO2022011855A1 (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
Özkan et al. | Effect of data preprocessing on ensemble learning for classification in disease diagnosis | |
CN116153420B (zh) | 基因标志物在恶性乳腺癌与良性乳腺结节的早筛中的应用和筛查模型的构建方法 | |
CN110942808A (zh) | 一种基于基因大数据的预后预测方法及预测*** | |
JP6356015B2 (ja) | 遺伝子発現情報解析装置、遺伝子発現情報解析方法、及びプログラム | |
CN116130105A (zh) | 一种基于神经网络的健康风险预测方法 | |
Zhao et al. | Rfe based feature selection improves performance of classifying multiple-causes deaths in colorectal cancer | |
CN113889274B (zh) | 一种孤独症谱系障碍的风险预测模型构建方法及装置 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及*** | |
CN113113085B (zh) | 基于智能宏基因组测序数据肿瘤检测的分析***及方法 | |
CN110265151B (zh) | 一种基于ehr中异构时态数据的学习方法 | |
CN114639482A (zh) | 基于idpc和lasso的食管鳞癌预后生存风险评估方法 | |
CN113971984A (zh) | 分类模型构建方法及装置、电子设备、存储介质 | |
CN112382395A (zh) | 基于机器学习的一体化建模*** | |
Sinha et al. | A study of feature selection and extraction algorithms for cancer subtype prediction | |
CN116741384B (zh) | 一种基于床旁护理的重症急性胰腺炎临床数据管理方法 | |
CN110797083B (zh) | 基于多网络的生物标志物识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |