CN111291777B

CN111291777B - 一种基于多组学集成的癌症亚型分类方法

Info

Publication number: CN111291777B
Application number: CN201811496363.3A
Authority: CN
Inventors: 杨超; 殷鹏; 蒋佳新
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2018-12-07
Filing date: 2018-12-07
Publication date: 2023-04-07
Anticipated expiration: 2038-12-07
Also published as: WO2020113673A1; CN111291777A

Abstract

本发明提供了一种基于多组学集成的癌症亚型分类方法，包括：获取目标癌症患者群中的每个患者的目标多组学数据；计算得到组学相似度矩阵；对每个所述组学相似度矩阵进行预测，得到预测相似度矩阵；利用所述组学相似度矩阵修正所述预测相似度矩阵得到修正矩阵；进行加权融合，得到融合矩阵；对所述融合矩阵进行谱聚类，并建立与每个患者的所述融合矩阵对应的癌症亚型类别标签。本发明提高了癌症亚型的分类评价的准确性，并通过更灵活的整合方法实现对于患者进行分类，提高了数据分析效率，为对于癌症亚型的研究提供了方便。

Description

一种基于多组学集成的癌症亚型分类方法

技术领域

本发明涉及癌症亚型分类评估技术领域，更具体地说，涉及一种基于多组学集成的癌症亚型分类方法。

背景技术

癌症亚型的鉴定对癌症诊断和治疗至关重要。仅利用单组学信息进行癌症亚型分类存在较失衡的类别划分，往往划分后的癌症亚型具有较大存活率差异。因此，近年来已经提出了许多通过整合目标多组学数据来鉴定癌症亚型的方法。

癌症目标多组学数据集成常用方法包括特征提取、降维、相似度矩阵计算等，其中特征提取与降维方法一般结合使用，如潜变量因子分解。常用的聚类方法有：K-means、均值漂移聚类、基于密度的聚类、谱聚类等。

但是，现有方法中并没有考虑样本之间的相似性偏差和集成中不同组学数据的权重，造成对于患者的癌症亚型分类结果的准确性差，误差较大。

发明内容

有鉴于此，本发明提供一种基于多组学集成的癌症亚型分类方法，包括：

获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵；

用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵；

利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵；

将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；

对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别。

优选地，所述“用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵”包括：

基于线性回归法，分别将每个患者的所述目标多组学数据的其中每个组学对应的组学相似度矩阵作为目标矩阵，利用其他组学对应的组学相似度矩阵对所述目标矩阵进行线性回归预测，分别得到所述目标多组学数据的每个所述目标矩阵中的数据对应的预测值，并得到包含所述预测值的每个所述组学相似度矩阵对应的预测相似度矩阵。

优选地，所述线性回归预测利用如下公式进行：

其中，β₀为超参数，β_t为线性回归学习模型到的参数；r＇_k,ij为预测值。

优选地，所述“利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵”包括：

将所述目标多组学数据中每个组学的所述组学相似度矩阵与对应的所述预测相似度矩阵进行求和平均，分别得到所述目标多组学数据中的每个组学的修正矩阵。

优选地，所述求和平均通过如下公式计算：

其中，k为所述目标多组学数据中的组学，W_k为修正矩阵，M_k为组学相似度矩阵，M＇_k为所述预测相似度矩阵

优选地，所述“获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵”包括：

确定所述目标癌症患者群中每个患者的目标多组学数据，并对其中缺失的组学对应的数据进行均值插补；

对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵；相似度计算公式为：

其中，x_k,it为第k个组学中，癌症患者i对应特征t的值；

为第k个组学中，癌症患者i的平均值。

优选地，所述“对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵”之后，还包括：

对所述相似度矩阵通过Fisher转换进行数据处理，得到处理后的所述相似度矩阵；其中，Fisher转换的公式为：

其中，r_k,ij为矩阵变换的相似度矩阵，相似度矩阵M_k，ij为S_k,ij构成的矩阵。

优选地，所述“将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵”包括：

利用差分搜索法，确定所述目标多组学数据中每个组学对应的组学权重；

根据每个组学的所述组学权重，对每个患者的各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；其中，加权融合通过如下公式进行：

其中，W_k为本专利修正后的第k组学相似度矩阵，ω_k为W_k对应的权重，W为加权融合后的最终矩阵。

优选地，在所述“对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别”之后，还包括：

分别计算所述目标癌症患者群的每个所述癌症亚型类别中所有患者的每个组学的均值，作为亚型均值；

计算所述目标癌症患者群的每个所述癌症亚型类别中的所有所述亚型均值的亚型族群中心点；

获取所述待分析患者群中的患者的待测多组学数据；其中，所述待测多组学数据中的组学类别与所述目标多组学数据的组学类别相同；并且，计算所述待分析患者群中每个患者的待测多组学数据的中心点作为待分析中心点；

基于欧氏距离算法，计算所述待分析患者群中每个患者的待测多组学数据的待分析中心点与每个所述亚型族群中心点的相对距离，作为检测距离值；

选取所述待分析患者群中的每个患者的所有所述检测距离值中，距离最小的所述检测距离值对应的所述癌症亚型类别，作为所述待分析患者群中的该患者的癌症亚型类别。

此外，为解决上述问题，本发明还提供一种基于多组学集成的癌症亚型分类装置，包括：

获取模块，用于获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵；

预测模块，用于用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵；

修正模块，用于利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵；

融合模块，用于将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；

聚类模块，用于对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别。

本发明提供的一种基于多组学集成的癌症亚型分类方法。本发明通过计算得到目标患者群中每个患者的目标多组学数据中的每个组学对应的组学相似度矩阵，并且利用线性回归法进行预测得到每个所述组学相似度矩阵对应的预测相似度矩阵，进而将组学相似度矩阵和预测相似度矩阵进行组合修正，得到修正矩阵，根据权重进行加权融合，再进行谱聚类，从而为每个患者建立基于预设癌症亚型类别标签的对应的癌症亚型类别编号。本发明在相似性矩阵基础上，提出了一种简单有效的相似性融合模型，用于整合目标多组学数据以识别癌症亚型。针对每个组学数据中的样本之间的所存在的相似性偏差，并使用线性模型预测样本之间的相似性进行修正，进而权重来整合来自目标多组学数据的校正的修正矩阵，实现将患者样本聚类到不同的亚型组中进行分类。本发明提高了癌症亚型的分类评价的准确性，并通过更灵活的整合方法实现对于患者进行分类，提高了数据分析效率，为对于癌症亚型的研究提供了方便。

附图说明

图1为本发明基于多组学集成的癌症亚型分类方法实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明基于多组学集成的癌症亚型分类方法第一实施例的流程示意图；

图3为本发明基于多组学集成的癌症亚型分类方法第二实施例的流程示意图；

图4为本发明基于多组学集成的癌症亚型分类方法第三实施例的流程示意图；

图5为本发明基于多组学集成的癌症亚型分类方法第三实施例中另一种实施方式的流程示意图；

图6为本发明基于多组学集成的癌症亚型分类方法第四实施例的步骤S50之后的流程示意图；

图7为本发明基于多组学集成的癌症亚型分类方法的胶质母细胞瘤癌亚型的存活率和存活时间对比关系图；

图8为本发明基于多组学集成的癌症亚型分类装置的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面详细描述本发明的实施例，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。

本发明实施例计算机设备可以是的PC，也可以是智能手机、平板电脑、或者具有一定便携计算机等可移动式终端设备。如图1所示，该计算机设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。可选地，终端还可以包括RF(Radio Frequency，射频)电路、音频电路、WiFi模块等等。此外，计算机设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的计算机设备并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。如图1所示，作为一种计算机可读存储介质的存储器1005中可以包括操作***、数据接口控制程序、网络连接程序以及基于多组学集成的癌症亚型分类程序。

本发明提供的一种基于多组学集成的癌症亚型分类方法。其中，所述方法提高了癌症亚型的分类评价的准确性，并通过更灵活的整合方法实现对于患者进行分类，提高了数据分析效率，为对于癌症亚型的研究提供了方便。

实施例1：

参照图2，本发明第一实施例提供一种基于多组学集成的癌症亚型分类方法，包括：

步骤S10，获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵；

上述，组学相似度矩阵即为M_k；其中，M_k可以通过如下形式表达：

上述，目标癌症患者群为需要进行数据分析，对该群中的所有患者进行批量癌症亚型分类的集合。目标癌症患者群中包含有具有相同类型癌症但具有相同和或不同情况的患者的病理数据(理化指标数据、生化检验结果等)。

上述，在目标癌症患者群中，包含有多个具有相同类型癌症的患者，其中，每个患者均具有包含有多个组学的目标多组学数据。

上述，所述目标多组学数据，即为在目标癌症患者群中，每个患者均具有的需要进行数据分析的多个组学的组合。

例如，对于肺癌，建立肺癌的目标癌症患者群。群中所有的患者均为肺癌患者，数量为400个患者。根据不同组学的重要性和与肺癌的相关性，定义mRNA、甲基化和基因表达量这3个组学进行分析研究，将mRNA、甲基化和基因表达量这3个组学作为每个患者对应的目标多组学数据，而其中mRNA、甲基化和基因表达量为目标多组学数据中的单个的组学。

步骤S20，用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵；

步骤S30，利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵；

上述，现有的癌症亚型的数据分类处理技术中，具有的解决方案一般为如下情况：

(1)集成目标多组学数据；

(2)进行聚类；

(3)聚类结果进行存活率分析；

(4)评估聚类结果。

由此可见，现有的癌症亚型的数据分类处理方法中并没有考虑样本之间的相似性偏差和集成中不同组学数据的权重，这也是现有的分类方法中的普遍现象，而特征维度过多，特征选择的质量影响聚类结果的质量，大大降低结果的可信度和准确度。

本实施例中考量了这些缺点，利用简单的回归和线性融合集成了不同组学数据的权重，避免了特征选择和降维。本实施例不仅考虑了不同类型数据的患者之间的相似性，还权衡了不同类型占有的权重，最后利用谱聚类方法。模型在相似性矩阵基础上进行改进，可以简单有效的进行癌症亚型分类。提高癌症亚型类别划分的质量，亚型内一致性更强，更有利于保障亚型的后续研究和癌症治疗。

本实施例中，提出在或得到目标癌症患者群中每个患者的多组学相似度矩阵后，通过线性回归法建立每个相似度矩阵对应的预测矩阵，并通过预测矩阵对相似度矩阵进行修正，即将实测值和预测值进行综合校正，从而可以得到一致性更强、准确度更高、数据可信度更高的分类结果。

需要说明的是，线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析中包括两个或两个以上的自变量，且因变量和自变量之间是线性关系，则称为多元线性回归分析。本实施例中，通过多元线性回归分析，对组学相似度矩阵中的每个数据进行预测，得到一个与该组学相似度矩阵相对应的预测相似度矩阵。

步骤S40，将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；

上述，根据每个组学对应的权重，对目标多组学数据中的多个组学对应的修正矩阵进行加权融合，从而得到了每个患者对应的融合矩阵。

步骤S50，对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别。

上述，预设癌症亚型类别标签为对于目标的癌症类型的分类的标记。例如，通过聚类后，肺癌分类亚型分为三型，一型，二型，三型，分别为肺癌的类别标签。对应的，癌症亚型类别编号，一型为C1，二型为C2，三型为C3，本实施例中，将该类别标号作为对应的类别标签，从而实现基于该标签的分类。

需要说明的是，谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，它具有能在任意形状的样本空间上聚类且收敛于全局最优解的优点。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵，并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。

上述，通过谱聚类，对目标癌症进行分类，并在分类后建立不同分类类型对应的癌症亚型类别标签(例如，C1\C2\C3)，即实现了患者的融合矩阵与癌症亚型类别标之间的关系的建立，从而通过癌症亚型类别标签对患有不同亚型癌症的患者进行分类的目的。

本实施例提供的一种基于多组学集成的癌症亚型分类方法，通过计算得到目标患者群中每个患者的目标多组学数据中的每个组学对应的组学相似度矩阵，并且利用线性回归法进行预测得到每个所述组学相似度矩阵对应的预测相似度矩阵，进而将组学相似度矩阵和预测相似度矩阵进行组合修正，得到修正矩阵，根据权重进行加权融合，再进行谱聚类，从而为每个患者建立基于预设癌症亚型类别标签的对应的癌症亚型类别编号。本实施例在相似性矩阵基础上，提出了一种简单有效的相似性融合模型，用于整合目标多组学数据以识别癌症亚型。针对每个组学数据中的样本之间的所存在的相似性偏差，并使用线性模型预测样本之间的相似性进行修正，进而权重来整合来自目标多组学数据的校正的修正矩阵，实现将患者样本聚类到不同的亚型组中进行分类。本实施例提高了癌症亚型的分类评价的准确性，并通过更灵活的整合方法实现对于患者进行分类，提高了数据分析效率，为对于癌症亚型的研究提供了方便。

实施例2：

参照图3，本发明第二实施例提供一种基于多组学集成的癌症亚型分类方法，基于上述图2所示的第一实施例，所述步骤S20，“用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵”包括：

步骤S21，基于线性回归法，分别将每个患者的所述目标多组学数据的其中每个组学对应的组学相似度矩阵作为目标矩阵，利用其他组学对应的组学相似度矩阵对所述目标矩阵进行线性回归预测，分别得到所述目标多组学数据的每个所述目标矩阵中的数据对应的预测值，并得到包含所述预测值的每个所述组学相似度矩阵对应的预测相似度矩阵；

所述线性回归预测利用如下公式进行：

上述，每个患者的目标多组学数据中，包括多个组学，每个组学对应的通过相似度计算，得到了对应的组学相似度矩阵。然后，利用线性回归方法，对每个组学进行预测，得到预测相似度矩阵。

具体的，目标多组学数据中包含有的每个组学，分别通过其中的一个组学的组学相似度矩阵作为目标矩阵，利用区别于该目标矩阵的其他组学对应的组学相似度矩阵对该目标矩阵进行线性回归预测，可得到该目标矩阵中数据的预测值，即得到了该目标矩阵对应的预测相似度矩阵。然后，利用该方法对区别于目标矩阵的其他矩阵进行预测，从而分别得到了每个组学相似度矩阵对应的预测相似度矩阵。

例如，患者的目标多组学数据中，包含有M1、M2、M3等3个组学。线性回归预测过程为：

利用M2和M3对M1进行线性回归预测，得到M1＇；

利用M1和M3对M2进行线性回归预测，得到M2＇；

利用M1和M2对M3进行线性回归预测，得到M3＇。上述M1＇、M2＇和M3＇即为通过线性回归预测所得到的分别与M1、M2和M3对应的预测相似度矩阵。

所述步骤S30，“利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵”包括：

步骤S31，将所述目标多组学数据中每个组学的所述组学相似度矩阵与对应的所述预测相似度矩阵进行求和平均，分别得到所述目标多组学数据中的每个组学的修正矩阵；

所述求和平均通过如下公式计算：

其中，k为所述目标多组学数据中的组学，W_k为修正矩阵，M_k为组学相似度矩阵，M＇_k为所述预测相似度矩阵。

上述，在得到每个患者的组学相似度矩阵后，基于线性回归方法对每个组学相似度矩阵进行预测，得到每个组学相似度矩阵对应的预测相似度矩阵。然后，根据组学相似度矩阵和对应的预测相似度矩阵，进行求和平均，即通过预测值对已经得到的相似度值进行修正，从而将相似度值提高了准确度，这样就在考虑每个组学数据中的样本之间的相似性偏差情况下，使用线性模型预测样本之间的相似性，达到弥补患者间相似性的问题，从而使得到的相似度矩阵的值更加准确，具有可信度。

实施例3：

参照图4-5，本发明第三实施例提供一种基于多组学集成的癌症亚型分类方法，基于上述图2所示的第一实施例，所述步骤S10，“获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵”包括：

步骤S11，确定所述目标癌症患者群中每个患者的目标多组学数据，并对其中缺失的组学对应的数据进行均值插补；

上述，在目标多组学数据中，包含有多个组学，但是由于患者众多，不一定每个患者都完整的进行了每个组学的测试，可能存在缺检的情况，造成部分患者缺少某个组学，无法进行计算的情况，再次需要将缺项的患者所缺少的组学进行利用其它患者的所有该项的均值进行插补，从而补足数据，在不改变数据真实值的情况下保证数据的统计学意义。

步骤S12，对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵；相似度计算公式为：

其中，x_k,it为第k个组学中，癌症患者i对应特征t的值；x_k,i为第k个组学中，癌症患者i的平均值。

上述，相似度矩阵，即为将所有患者的某个组学的数据进行列表，例如，横坐标为基因表达量，纵坐标为患者名称或编号，在该图标中具有计算每个患者的基因表达量与其他患者的基因表达量的相似性。从而建立一个与患者对应的基因表达量的组学相似度矩阵。

在另一种实施方式下，所述步骤S10，“对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵”之后，还包括：

步骤S60，对所述相似度矩阵通过Fisher转换进行数据处理，得到处理后的所述相似度矩阵；其中，Fisher转换的公式为：

上述，在得到每个患者的每个组学对应的组学相似度矩阵后，通过Fisher转换，对该相似度矩阵进行数据预处理。预处理的过程及对患者的组学相似度矩阵中的数据进行归一化处理，从而得到的预处理后的组学相似度矩阵，可在进一步数据处理时更高效的运行。

所述步骤S40，“将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵”包括：

步骤S41，利用差分搜索法，确定所述目标多组学数据中每个组学对应的组学权重；

上述，利用0.05步长的差分搜索法，确定癌症各组学对应最佳权重。

步骤S42，根据每个组学的所述组学权重，对每个患者的各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；其中，加权融合通过如下公式进行：

上述，根据每个组学对应的最佳权重，对每个患者所包括的所有组学的修正矩阵进行融合，从而可得到每个患者的融合矩阵。

例如，本实施例中，对加权融合和单一组学进行了对比，具体情况见表1：

表1单一组学和加权融合在亚型存活分析的Cox-log P-value对比表

数据	基因表达	DNA甲基化	miRNA表达	加权融合
					GBM	<![CDATA[2.49×10<sup>-3</sup>]]>	<![CDATA[5.71×10<sup>-3</sup>]]>	<![CDATA[1.50×10<sup>-3</sup>]]>	<![CDATA[2.66×10<sup>-4</sup>]]>

由此表可见，加权融合具有更小的P值，亚型分类可靠度更高。所以本实施例中，采用加权融合方法对多个组学的数据进行融合，从而可以得到在统计学意义上更加可靠，更加准确的计算分析结果。

实施例4：

参照图6，本发明第四实施例提供一种基于多组学集成的癌症亚型分类方法，基于上述图2所示的第一实施例，在所述步骤S50，“对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别”之后，还包括：

步骤S70，分别计算所述目标癌症患者群的每个所述癌症亚型类别中所有患者的每个组学的均值，作为亚型均值；

在确认了目标癌症患者群中每个患者对应的癌症亚型类别后，可根据确定后的类别，构建一般规律。根据该一般规律，作为数据分析模型，从而对其他的单独患者或多个患者群的病例数据进行分析，从而实现快速分型的目的。

此外，作为构建一般规律的数据分析模型，目标癌症患者群中的患者数量需要达到一定的数量，数量越大，则该数据分析模型的作为一般规律的准确性越高，所以在此可设定一预设阈值，当目标癌症患者群的患者的数量达到预设阈值，才可作为数据分析模型进行对于其他患者的组学数据的癌症分型的分析。例如，该预设阈值为300例，即目标癌症患者群中患者数量要不小于300。

上述，在目标癌症患者群中，包含有多个患者，并且，每个患者对应一个癌症亚型类别，即为在进行数据分型分析后，将目标癌症患者群中的所有患者划分为不同根据癌症亚型类别对应的组。

计算所述目标癌症患者群的每个所述癌症亚型类别中所有患者的每个组学的均值，作为亚型均值；

将所述目标癌症患者群的每个所述癌症亚型类别中所有患者的每个组学的特征数值进行求取均值，得到亚型均值。其中，亚型均值的个数，与癌症亚型类别的个数相同。

步骤S80，计算所述目标癌症患者群的每个所述癌症亚型类别中的所有所述亚型均值的亚型族群中心点；

通过步骤S70后，可得到目标癌症患者群中每个所述癌症亚型的多个亚型均值，对每个所述癌症亚型的多个亚型均值进行求平均，可得到亚型族群中心点。

步骤S90，获取所述待分析患者群中的患者的待测多组学数据；其中，所述待测多组学数据中的组学类别与所述目标多组学数据的组学类别相同；并且，计算所述待分析患者群中每个患者的待测多组学数据的中心点作为待分析中心点；

上述，步骤“获取所述待分析患者群中的患者的待测多组学数据；其中，所述待测多组学数据中的组学类别与所述目标多组学数据的组学类别相同”可以在步骤S70，之前或与步骤S70同时进行，只要在进行执行“计算所述待分析患者群中每个患者的待测多组学数据的中心点作为待分析中心点”之前完成即可。

上述，待分析患者群，为区别于目标癌症患者群的患者的组合，该群中可以为一个患者，也可以为多个患者。其中，限定待分析患者群中的每个患者的待测多组学数据的组学类别，要与目标癌症患者群中每个患者的目标多组学数据中的组学类别相一致。例如，目标癌症患者群中的目标多组学数据包括突变、甲基化、mRNA等，那对应的待分析患者群中每个患者也要具有突变、甲基化、mRNA等这些数据，在多组学数据相一致的情况下，才能进行比较和分析。

上述，通过求取待分析患者群中每个患者的待测多组学数据中所有组学的均值，从而即得到待分析中心点。

步骤S100，基于欧氏距离算法，计算所述待分析患者群中每个患者的待测多组学数据的待分析中心点与每个所述亚型族群中心点的相对距离，作为检测距离值；

需要说明的是，欧氏距离(Euclid Distance)也称欧几里得度量、欧几里得距离,是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离.在二维空间中的欧氏距离就是两点之间的直线段距离。

通过欧氏距离算法，计算待分析患者群中每个患者的待测多组学数据的待分析中心点与每个亚型族群中心点的欧式距离，作为检测距离值。

所述步骤S110，选取所述待分析患者群中的每个患者的所有所述检测距离值中，距离最小的所述检测距离值对应的所述癌症亚型类别，作为所述待分析患者群中的该患者的癌症亚型类别。

在得到每个患者的所有的检测距离值后，对其所有的检测距离值进行比较，选取其中数值上最小的检测距离值对应的癌症亚型类别，作为该患者的癌症亚型类别，从而实现了在对目标癌症患者群中所有患者分型分析后，将其作为一般规律的数据分析模型，对其他患者进行迅速分型的目的。

例如，对于新加入的待分析患者群中的单个或多个癌症患者，可以利用原聚类标签数据对单个样本或多个样本群进行归类计算，直接判别其癌症亚型类别。

在目标癌症患者群中有500个患者，每个患者的包括O1，O2，O3三个组学数据，通过步骤S10-S50的方法对此患者群划分出C1和C2两个亚型。将新加入一批患者(待分析患者群)中的患者设为n1，n2，...，nk。具体如下：

1、分别计算目标癌症患者群的每个所述癌症亚型类别(C1、C2)中所有患者的每个组学(O1，O2，O3)的均值，作为亚型均值，亚型均值设为X_1,1，X_1,2，X_1,3，以及X_2,1，X_2,2，X_2,3。其中，X下标中的逗号前的1对应C1，逗号前的2对应C2，逗号后的1、2、3分别对应O1，O2和O3。

2、计算所述目标癌症患者群的每个所述癌症亚型类别(C1、C2)中的所有所述亚型均值的亚型族群中心点：

X1＝(X1,1+X1,2+X1,3)/3；对应C1；

X2＝(X2,1+X2,2+X2,3)/3；对应C2。

3、获取所述待分析患者群中的患者的待测多组学数据；其中，所述待测多组学数据中的组学类别与所述目标多组学数据的组学类别相同；并且，计算所述待分析患者群中每个患者的待测多组学数据的中心点作为待分析中心点；

分别计算新样本n1，n2，...，nk的中心点：

new1＝(n1,1+n1,2+n1,3)/3；

new2＝(n2,1+n2,2+n2,3)/3；

...

newk＝(n_k,1+n_k,2+n_k,3)/3；

其中，n_k,1，n_k,2，n_k,3分别是新样本第k个患者(本例中为多个患者)在组学O1，O2，O3的值。

4、新样本亚型归类：选取所述待分析患者群中的每个患者的所有所述检测距离值中，距离最小的所述检测距离值对应的所述癌症亚型类别，作为所述待分析患者群中的该患者的癌症亚型类别。

利用欧式距离算法公式：

进行求取所述每个患者的所有所述检测距离值；其中，i为亚型类别个数，计算新样本k与各亚型族中心的检测距离值d_1,k和d_2,k(本实施例中确定的癌症亚型类别为C1、C2两个，所以对应的要计算得到两个检测距离值)。

若d_1,k<d_2,k，则新样本k属于亚型C1；若d_1,k>d_2,k，属于亚型C2。此外，如果是多个癌症亚型类别的话，例如5个，则可选取其中最小的检测距离值对应的癌症亚型类别作为该患者的癌症亚型类别即可。

本实施例中，通过对于新加入的待分析患者群中的单个或多个癌症患者，可以利用原聚类标签数据对单个样本或多个样本群进行归类计算，直接判别其癌症亚型类别，从而可根据癌症亚型分类方法建立一般规律作为数据分析模型，实现对于其他患者的数据分析，从而可在临床研究中，为目标患者或患者群进行快速分型和数据分析提供了方便。此外，每个后加入的其他患者的分型的数据，也可加入到该模型中，从而不断的修正和提高模型分析的准确度，可统计学上的可信度。

基于胶质母细胞瘤癌症的统计学应用实验：

为更好的说明本申请中所提供的基于多组学集成的癌症亚型分类方法，分别进行应用对比实验。

首先，针对于胶质母细胞瘤癌症患者，包含有215个病例，对上述215个病例的患者，分别通过基于多组学集成的癌症亚型分类方法进行分类。从而得到分类结果(如表2)。由表2中可见，通过聚类后得到的分类结果进行统计，统计三种亚型患者的年龄、性别和生存时间，可分析得出：C1亚型与C2亚型存在显著不同的发病机制，后续研究分析可根据临床药物等对亚型治疗效果进行实验对比，研究各亚型患者对应的治疗药物和治疗方法。

进一步的，对所得到的分类结果与对应的存活率进行绘图，其中，包含的Subtype1、Subtype2和Subtype3等三种亚型对应C1、C2和C3。根据分析结果，建立上述胶质母细胞瘤癌症患者群中三种亚型存活率和与对应存活时间的比较，获得结果如图7，由图7可见三种亚型之间的存活率存在显著性差异，证明本实施例中所提供的基于多组学集成的癌症亚型分类方法准确有效，并且具有数据的统计学意义，且具有可信度。

表2胶质母细胞瘤癌的临床特征对比表

子类型ID	C1(N＝42)	C1(N＝112)	C1(N＝61)
				患者(男性：女性)	(24:18)	(69:43)	(41:20)
平均年龄(岁)	46.4	58.8	54.8
				平均生存时间(天)	931.9	402.5	504.9

此外，参考图8，本发明还提供一种基于多组学集成的癌症亚型分类装置，包括：

获取模块10，用于获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵；

预测模块20，用于用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵；

修正模块30，用于利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵；

融合模块40，用于将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵；

聚类模块50，用于对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别。

此外，本发明还提供一种计算机设备，所述计算机设备包括存储器以及处理器，所述存储器用于存储基于多组学集成的癌症亚型分类程序，所述处理器运行所述基于多组学集成的癌症亚型分类程序以使所述移动终端执行如上述所述基于多组学集成的癌症亚型分类方法。

此外，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于多组学集成的癌症亚型分类程序，所述基于多组学集成的癌症亚型分类程序被处理器执行时实现如上述所述基于多组学集成的癌症亚型分类方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于多组学集成的癌症亚型分类方法，其特征在于，包括：

2.如权利要求1所述基于多组学集成的癌症亚型分类方法，其特征在于，所述“用线性回归法对每个所述组学相似度矩阵进行预测，得到每个所述组学相似度矩阵对应的预测相似度矩阵”包括：

3.如权利要求2所述基于多组学集成的癌症亚型分类方法，其特征在于，所述线性回归预测利用如下公式进行：

；

其中，β ₀为超参数，β _t为线性回归学习模型到的参数；r＇ _k,ij为预测值。

4.如权利要求1所述基于多组学集成的癌症亚型分类方法，其特征在于，所述“利用所述组学相似度矩阵修正所述预测相似度矩阵，得到修正矩阵”包括：

5.如权利要求4所述基于多组学集成的癌症亚型分类方法，其特征在于，所述求和平均通过如下公式计算：

；

其中，k为所述目标多组学数据中的组学，W _k为修正矩阵，M _k为组学相似度矩阵，M＇ _k为所述预测相似度矩阵。

6.如权利要求1所述基于多组学集成的癌症亚型分类方法，其特征在于，所述“获取目标癌症患者群中的每个患者的目标多组学数据；并且，计算得到所述目标多组学数据中每个组学对应的组学相似度矩阵”包括：

对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵；相似度S_k,ij的计算公式为：

；

其中，x _k,it为第k个组学中，癌症患者i对应特征t的值； _k,i为第k个组学中，癌症患者i的平均值。

7.如权利要求6所述基于多组学集成的癌症亚型分类方法，其特征在于，所述“对所述目标多组学数据进行相似度计算，得到所述目标多组学数据中每个组学对应的所述相似度矩阵”之后，还包括：

；

其中，r _k,ij为矩阵变换的相似度矩阵，相似度矩阵M_k，ij为S _k,ij构成的矩阵。

8.如权利要求1所述基于多组学集成的癌症亚型分类方法，其特征在于，所述“将各组学对应的所述修正矩阵进行加权融合，得到融合矩阵”包括：

；

其中，W _k为本专利修正后的第k组学相似度矩阵，ω _k为W _k对应的权重，W为加权融合后的最终矩阵。

9.如权利要求1所述基于多组学集成的癌症亚型分类方法，其特征在于，在所述“对每个患者对应的所述融合矩阵进行谱聚类，确定每个患者对应的癌症亚型类别”之后，还包括：

获取待分析患者群中的患者的待测多组学数据；其中，所述待测多组学数据中的组学类别与所述目标多组学数据的组学类别相同；并且，计算所述待分析患者群中每个患者的待测多组学数据的中心点作为待分析中心点；

10.一种基于多组学集成的癌症亚型分类装置，其特征在于，包括：