CN116564409A

CN116564409A - 基于机器学习的转移性乳腺癌转录组测序数据识别方法

Info

Publication number: CN116564409A
Application number: CN202310505357.4A
Authority: CN
Inventors: 张子龙; 段昊; 崔菲菲; 李兴风; 张清辰
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-08-08

Abstract

基于机器学习的转移性乳腺癌转录组测序数据识别方法，涉及生物信息技术领域，针对现有技术中针对转移性乳腺癌转录组测序数据识别准确率低的问题，本申请采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器，并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果，完成对转移性乳腺癌转录组测序数据的识别。本申请的技术方案能够准确识别乳腺癌转录组测序数据中的转移性乳腺癌转录组测序数据。

Description

基于机器学习的转移性乳腺癌转录组测序数据识别方法

技术领域

本发明涉及生物信息技术领域，具体为基于机器学习的转移性乳腺癌转录组测序数据识别方法。

背景技术

乳腺癌常被称为“粉红杀手”，其发病率位居女性恶性肿瘤的首位。转移性乳腺癌转录组测序数据的识别可以从乳腺癌转录组测序数据中识别出转移性乳腺癌转录组测序数据，从而为乳腺癌转移研究的数据方面提供一定程度的技术支持，进一步促进乳腺癌转移研究进展。

现有技术中受限于转录组测序数据本身的复杂性，因此针对转移性乳腺癌转录组测序数据的识别准确率非常低。

发明内容

本发明的目的是：针对现有技术中针对转移性乳腺癌转录组测序数据识别准确率低的问题，提出基于机器学习的转移性乳腺癌转录组测序数据识别方法。

本发明为了解决上述技术问题采取的技术方案是：

基于机器学习的转移性乳腺癌转录组测序数据识别方法，包括以下步骤：

获取乳腺癌患者转录组测序数据；

在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据；

利用乳腺癌转移关键基因表达数据训练多个不同分类模型，并选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型；

利用转移性乳腺癌转录组测序数据识别模型进行转移性乳腺癌转录组测序数据识别；

所述在乳腺癌患者转录组测序数据中获取乳腺癌转移关键基因表达数据的具体步骤为：

步骤一：对乳腺癌患者转录组测序数据进行差异分析，得到乳腺癌转移差异基因集；

步骤二：对乳腺癌患者转录组测序数据进行WGCNA，得到乳腺癌转移枢纽基因集；

步骤三：提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因；

步骤四：利用LASSO回归分析对共同基因进行筛选，得到乳腺癌转移关键基因，并将乳腺癌转移关键基因与乳腺癌患者转录组测序数据进行比对，得到乳腺癌转移关键基因表达数据。

进一步的，所述获取乳腺癌患者转录组测序数据的步骤具体为：

首先，获取乳腺癌转移的GSE数据集；

其次，在RStudio中从所获取的GSE数据集中提取乳腺癌患者转录组测序数据、临床特征以及GEO芯片平台编号，并根据GEO芯片平台编号获取该芯片中各基因探针对应的基因名称。

进一步的，所述差异分析的具体步骤为：

在RStudio中使用limma包对乳腺癌患者转录组测序数据进行差异分析，并根据所获取的各基因探针对应的基因名称在差异分析结果中增加一列基因名称，以确定每个基因探针对应检测的基因的表达，之后根据差异分析结果，以P-value<0.05和|logFC|>0.5为筛选标准进行筛选，得到乳腺癌转移的差异基因。

进一步的，所述WGCNA的具体步骤为：

步骤二一：聚类所有样本，得到样本聚类树以及离群样本，然后根据离群样本在样本聚类树中的位置设置cutHeight值，以此去除离群值，得到剩余样本；

步骤二二：基于剩余样本，利用WGCNA包中的软阈值计算函数计算软阈值，并根据计算结果绘制无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势图，并以无标度拓扑拟合指数大于0.9以及平均连接度走势持平位置为标准选择最佳软阈值；

步骤二三：根据最佳软阈值构造无标度网络，得到模块标识的层次聚类树状图，并将模块、临床特征相关联，得到层次聚类树状图中每个模块与乳腺癌转移的相关性系数，并选择相关性系数最高和次高的模块；

步骤二四：提取相关性系数最高和次高的模块中的基因，即为乳腺癌转移枢纽基因。

进一步的，所述利用LASSO回归分析对共同基因进行筛选的具体步骤为：

在RStudio中使用glmnet包对乳腺癌转移关键基因进行了LASSO回归分析，并选取LASSO模型均方误差最小时的λ值对应的基因，即乳腺癌转移关键基因。

进一步的，所述多个不同分类模型包括：逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。

进一步的，所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为：

基于网格优化方法和五折交叉验证，通过查找参数空间范围内模型的所有超参数组合对多个分类模型分别进行分类训练和超参数优化。

进一步的，所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到，具体步骤为：

首先以多个分类模型中F1-Score值最大的模型即为最优模型,若F1-Score值相同，则比较多个分类模型的Accuracy值，Accuracy值最大的模型即为最优模型，若Accuracy值相同，则比较多个分类模型的AUC值，AUC值最大的模型即为最优模型，若多个分类模型的F1-Score值、Accuracy值以及AUC值都相同，则按照分类模型优先级顺序XGboost模型>GBDT模型>支持向量机模型>随机森林模型>逻辑回归模型进行选择。

进一步的，所述F1-Score以及Accuracy表示为：

其中，ACC即Accuracy，TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数，FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数，TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数，FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。

进一步的，所述GSE数据集为GSE9893数据集和GSE43837数据集。

本发明的有益效果是：

本申请采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器，并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果，完成对转移性乳腺癌转录组测序数据的识别。本申请的技术方案能够准确识别乳腺癌转录组测序数据中的转移性乳腺癌转录组测序数据。

本申请实现了对乳腺癌转录组测序数据是否为转移性乳腺癌转录组测序数据的识别。根据差异分析、WGCNA、LASSO回归分析对基因的联合筛选的结果，得到了乳腺癌转移关键基因，有效提高了转移性乳腺癌转录组测序数据的识别精度。

附图说明

图1为本申请的整体流程图；

图2为不同数据集下的差异分析结果示意图；

图3为WGCNA结果示意图；

图4为LASSO模型在不同λ值下的均方误差示意图；

图5为各分类模型识别效果对比示意图；

图6为转移性乳腺癌转录组测序数据识别装置的结构示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，包括以下步骤：

获取乳腺癌患者转录组测序数据；

具体实施方式二：本实施方式是对具体实施方式一的进一步说明，本实施方式与具体实施方式一的区别是所述获取乳腺癌患者转录组测序数据的步骤具体为：

首先，获取乳腺癌转移的GSE数据集；

具体实施方式三：本实施方式是对具体实施方式二的进一步说明，本实施方式与具体实施方式二的区别是所述差异分析的具体步骤为：

具体实施方式四：本实施方式是对具体实施方式三的进一步说明，本实施方式与具体实施方式三的区别是所述WGCNA的具体步骤为：

具体实施方式五：本实施方式是对具体实施方式四的进一步说明，本实施方式与具体实施方式四的区别是所述利用LASSO回归分析对共同基因进行筛选的具体步骤为：

具体实施方式六：本实施方式是对具体实施方式五的进一步说明，本实施方式与具体实施方式五的区别是所述多个不同分类模型包括：逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。

具体实施方式七：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为：

具体实施方式八：本实施方式是对具体实施方式六的进一步说明，本实施方式与具体实施方式六的区别是所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到，具体步骤为：

具体实施方式九：本实施方式是对具体实施方式八的进一步说明，本实施方式与具体实施方式八的区别是所述F1-Score以及Accuracy表示为：

具体实施方式十：本实施方式是对具体实施方式九的进一步说明，本实施方式与具体实施方式九的区别是所述GSE数据集为GSE9893数据集和GSE43837数据集。

作为本申请的一种实施方式，如图1所示，包括以下步骤：

S101、获取乳腺癌患者转录组测序数据及临床信息。

其中，乳腺癌患者转录组测序数据及临床信息包括乳腺癌患者转录组测序数据和乳腺癌患者临床信息，乳腺癌患者转录组测序数据为乳腺癌患者从组织样本所测得的众多基因的表达量数据，乳腺癌患者临床信息为乳腺癌患者治疗期间的身体状况以及乳腺癌进展情况等信息。

在一些可选地实施方式中，乳腺癌患者转录组测序数据及临床信息总共有2个数据集，包括：GEO数据库中GSE9893数据集(总样本数量为155，其中转移性乳腺癌转录组测序数据样本数量为48，非转移性乳腺癌转录组测序数据样本数量为107，测得基因数为22656)、GEO数据库中GSE43837数据集(总样本数量为38，其中转移性乳腺癌转录组测序数据样本数量为19，非转移性乳腺癌转录组测序数据样本数量为19，测得基因数为61359)。

S102、基于差异分析及WGCNA，初步筛选乳腺癌转移关键基因。

步骤S102包括以下子步骤S1021-S1023

S1021、对所述乳腺癌患者转录组测序数据进行差异分析，得到乳腺癌转移差异基因集。

在一些可选地实施方式中，使用RStudio对所述乳腺癌患者转录组测序数据和临床信息进行预处理，包括：提取所述两个数据集中得表达矩阵和临床信息、对所述乳腺癌患者根据临床信息中患者是否发生乳腺癌转移进行分组、对表达矩阵中基因探针进行注释。

在一些可选地实施方式中，在RStudio中使用limma包对所述乳腺癌患者转录组测序数据进行了差异分析，并以P-value<0.05和|logFC|>0.5为筛选标准初步筛选出乳腺癌远处转移的相关差异基因。差异分析结果如图2所示，其中从GSE9893数据集中筛选出6188个差异基因，从GSE43837数据集中筛选出2122个差异基因。

S1022、对所述乳腺癌患者转录组测序数据进行WGCNA，得到乳腺癌转移枢纽基因集。

在一些可选地实施方式中，聚类数据集GSE9893所有样本，观察这些样本是否有离群值或者异常值，并设置cutHeight为150来以此标准去除离群值。去除离群值后，基于剩余样本重构样本聚类树，并可视化表型数据与样本的联系。

在一些可选地实施方式中，根据无标度拓扑拟合指数和平均连接度随软阈值变化的变化趋势，得出最小软阈值为6。并进一步依据软阈值6构造无标度网络，得出了模块标识的层次聚类树状图，并将模块、临床特征相关联得出了模块与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数。WGCNA结果即模块与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数如图3所示，其中黄绿色模块基因和蓝色模块基因与表型数据(是否为转移性乳腺癌转录组测序数据)的相关性系数相对较高，取黄绿色模块基因和蓝色模块基因(共3404个基因)作为乳腺癌转移枢纽基因来进行下一步分析筛选。

S1023、提取所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因。

在一些可选地实施方式中，提取GSE9893数据集中的6188个差异基因、GSE43837数据集中的2122个差异基因和所述3404个乳腺癌转移枢纽基因三者中的114个共同基因来进行下一步分析筛选。

S103、基于LASSO回归分析，对所述乳腺癌转移关键基因进行进一步筛选。

在一些可选地实施方式中，在RStudio中使用glmnet包对所述乳腺癌转移关键基因进行了LASSO回归分析。在LASSO模型中所述114个乳腺癌转移关键基因系数的绝对值随λ值增加而不断减小，甚至减小到0(即该基因在模型中不起作用)。因此需确定LASSO模型表现最优时λ值，从而进一步确定在LASSO模型中真正起作用的部分基因。LASSO模型在不同λ值下的均方误差如图4所示，于是选取了LASSO模型表现最优即均方误差最小时的λ值，进而筛选出了该λ值对应的ENPP2等21个预测能力较强的基因即所述乳腺癌转移关键基因。

S104、基于所述乳腺癌转移关键基因，构建转移性乳腺癌转录组测序数据识别模型。

种子模型选用逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型，基于所述GSE9893数据集中随机划分出的80％数据即训练集对所述种子模型即逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练，得到训练好的分类模型。步骤S104具体包括：

基于网格优化方法和五折交叉验证，通过查找参数空间范围内的模型所有的超参数组合对所述逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练和超参数优化。

对分类效果进行评价。

在一些可选地实施方式中，对分类效果进行评价的指标包括ACC、F1-Score、AUC，其计算公式如下：

其中TP表示识别为转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数，FP表示识别为转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数，TN表示识别为非转移性乳腺癌转录组测序数据的非转移性乳腺癌转录组测序数据样本数，FN表示识别为非转移性乳腺癌转录组测序数据的转移性乳腺癌转录组测序数据样本数。

F1-Score是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率，可以看作是模型精确率和召回率的一种调和平均。

AUC是衡量二分类模型优劣的一种评价指标，表示预测的正例排在负例前面的概率。AUC值为ROC曲线下与坐标轴围成的面积。

S105、获取待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据；

S106、基于所述转移性乳腺癌转录组测序数据识别模型，识别乳腺癌转录组测序数据中转移性乳腺癌转录组测序数据。

采用训练好的各个分类模型构建分别基于各分类模型的多个转移性乳腺癌转录组测序数据识别分类器，并将所述待识别的乳腺癌转录组测序数据中乳腺癌转移关键基因表达数据输入转移性乳腺癌转录组测序数据识别分类器得到分类结果，完成对转移性乳腺癌转录组测序数据的识别。

作为本申请的实施例，包括以下步骤：

使用LASSO来选择乳腺癌转移关键基因。LASSO模型中λ值与均方误差之间的关系图，如图4所示。在所述乳腺癌转移差异基因集和乳腺癌转移枢纽基因集中的共同基因上进行乳腺癌转移关键基因的选择，确定乳腺癌转移关键基因的个数及具体基因名称。当λ值大致为-4.2时LASSO模型的均方误差最小。因此，我们取λ值大致为-4.2时所对应的LASSO模型中真正起作用的部分基因，即ENPP2等21个预测能力较强的乳腺癌转移关键基因。

接着获取了所述乳腺癌转移关键基因在各样本中的基因表达数据，即构建转移性乳腺癌转录组测序数据识别模型所需要的训练数据及验证数据。基于所述训练数据对所述种子模型即逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行训练，即通过查找参数空间范围内的模型所有的超参数组合对所述逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型、XGboost模型进行分类训练和超参数优化，从而得出了转移性乳腺癌转录组测序数据识别模型。

最后将本发明中的几个转移性乳腺癌转录组测序数据识别模型进行比较，在比较时，保证了使用的数据集一致的基础上，使用一致的评价指标ACC、F1-Score、AUC，如图5所示。通过比较，基于支持向量机模型和XGboost模型构建的转移性乳腺癌转录组测序数据识别模型优于其它几个转移性乳腺癌转录组测序数据识别模型，并在转移性乳腺癌转录组测序数据识别上具有一定的有效性，并且可以为转移性乳腺癌转录组测序数据识别的研究提供一种新的思路。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于包括以下步骤：

获取乳腺癌患者转录组测序数据；

2.根据权利要求1所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述获取乳腺癌患者转录组测序数据的步骤具体为：

首先，获取乳腺癌转移的GSE数据集；

3.根据权利要求2所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述差异分析的具体步骤为：

4.根据权利要求3所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述WGCNA的具体步骤为：

5.根据权利要求4所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述利用LASSO回归分析对共同基因进行筛选的具体步骤为：

6.根据权利要求5所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述多个不同分类模型包括：逻辑回归模型、随机森林模型、支持向量机模型、GBDT模型和XGboost模型。

7.根据权利要求6所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述利用乳腺癌转移关键基因表达数据训练多个不同分类模型的具体步骤为：

8.根据权利要求6所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述选取分类模型中分类精度最高的作为转移性乳腺癌转录组测序数据识别模型通过对每个模型的分类效果进行评价得到，具体步骤为：

9.根据权利要求8所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述F1-Score以及Accuracy表示为：

10.根据权利要求9所述的基于机器学习的转移性乳腺癌转录组测序数据识别方法，其特征在于所述GSE数据集为GSE9893数据集和GSE43837数据集。