WO2022111385A1

WO2022111385A1 - 基于图神经网络的临床组学数据处理方法、装置、设备及介质

Info

Publication number: WO2022111385A1
Application number: PCT/CN2021/131652
Authority: WO
Inventors: 邢小涵; 杨帆; 姚建华
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-11-30
Filing date: 2021-11-19
Publication date: 2022-06-02
Also published as: CN112364880A; EP4198821A4; US20230028046A1; JP2023542837A; JP7466058B2; EP4198821A1; CN112364880B

Abstract

一种基于图神经网络的组学数据处理方法、装置、设备及介质，涉及医疗、人工智能、云数据等技术领域。该方法包括：获取目标对象的第一组学数据，从第一组学数据提取至少两种第一组学特征（S101）；确定至少两种第一组学特征中不同组学特征之间的第一相关性（S102）；基于至少两种第一组学特征和第一相关性，构建第一组学数据对应的第一图结构，第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种第一组学特征，第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边所连接的两个节点对应的第一相关性（S103）；基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度（S104）；基于各节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率（S105）。

Description

基于图神经网络的临床组学数据处理方法、装置、设备及介质

本申请要求于2020年11月30日提交中国专利局、申请号为202011379315.3、名称为“基于图神经网络的组学数据处理方法、装置、设备及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及医疗、人工智能、云数据等技术领域，具体而言，本申请涉及一种基于图神经网络的组学数据处理方法、装置、设备及介质。

背景

人体在生命周期的不同阶段以及疾病发展的不同阶段，其基因表达和蛋白表达可能存在巨大的差异，因此组学(基因组学，转录组学，蛋白组学和代谢组学等)是***地研究生物学规律的重要工具，同时因为组学也可反映出机体所处的生命周期阶段以及疾病发展情况，因此，组学数据在医疗中起到至关重要的作用。

技术内容

本申请实施例提供了一种基于图神经网络的临床组学数据处理方法，该方法包括：

获取目标对象的第一组学数据；

从所述第一组学数据中提取至少两种第一组学特征；

确定至少两种第一组学特征中不同组学特征之间的第一相关性；

基于至少两种第一组学特征和第一相关性，构建第一组学数据对应的第一图结构，其中，第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种第一组学特征，第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的第一相关性；

基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度；

基于各节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。

另一方面，本申请实施例提供了一种基于图神经网络的临床组学数据处理装置，该装置包括：

数据获取模块，用于获取目标对象的第一组学数据，从所述第一组学数据中提取至少两种第一组学特征；

相关性确定模块，用于确定至少两种第一组学特征中不同组学特征之间的第一相关性；

图结构构建模块，用于基于至少两种第一组学特征和第一相关性，构建第一组学数据对应的第一图结构，其中，第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种第一组学特征，第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的第一相关性；

节点特征确定模块，用于基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度；

分析结果确定模块，用于基于各节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。

再一方面，本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器执行上述中基于图神经网络的组学数据处理的方法。

又一方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述中基于图神经网络的组学数据处理的方法。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1a为本申请实施例提供的一种基于图神经网络的组学数据处理方法的流程示意图；

图1b为本申请实施例的步骤S104中基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征的具体流程图；

图1c为本申请实施例的对于第一图结构中的每一节点，得到该节点的至少一个层级的第二特征的具体流程图；

图1d为本申请实施例的基于图神经网络的临床组学数据处理方法的流程图；

图2a为本申请实施例提供的一种基于图神经网络的组学数据处理方法的原理示意图；

图2b为本申请实施例提供的一种边矩阵示意图；

图3为本申请实施例提供的一种基于图神经网络的组学数据处理装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

随着组学数据在医疗中起到至关重要的作用，目前已有一些基于统计学方法和机器学习方法将组学数据用于疾病的诊断、分型和预测。但是统计学方法的思想集中在分析差异蛋白，需要大量人工干预，并且无法得到明确的分类或分型边界线。而基于机器学习的组学分析方法具体包括：首先获取样本组学特征，同时获取由医生标定的样本组学特征的样本类别标签，然后将所有的样本组学特征按照一定比例划分为训练集、验证集和测试集；将训练集中的样本组学特征作为输入，对应的样本类别标签作为监督信号对模型进行训练，并根据验证集的表现筛选模型的最优参数，得到最终的模型，然后基于最终的模型对组学数据进行疾病预测。但是经发现，基于机器学习的组学数据分析方法存在以下缺点：

1、由于每个疾病发展都有其对应的级联调控网络，不同特征之间相互关联和调控，但是机器模型通常基于每个单独的特征或者一些特征的随机组合进行疾病预测，没有考虑到这些组学特征中天然存在的调控关系，因此无法解释真正的致病机理，模型的可解释性不强，预测精度也有限。

(2)单个组学特征或它们的随机组合通常受到不同实验批次和实验条件的影响，因此基于这些特征所得到的模型受数据批次的影响较大，泛化能力比较弱。

(3)由于生物学中的调控网络是级联放大机制，因此在不同类别的样本之间，高级的调控因子差异并不显著，而被调控的功能蛋白反而有着明显差异，但是机器模型通常会将差异明显的功能蛋白检测为生物标志物，反而忽略更具临床意义的调控因子。

(4)相关的机器学习主要集中在基因组学和转录组学，但是对蛋白组学的关注较少，但是蛋白组学的研究对于疾病的诊断、分型和预测有着不可替代的优势，忽略了蛋白组学的研究是实现精准医疗的一大障碍。

综上所述，目前对组学数据的研究没有充分利用各组学特征之间的级联调控关系，无法很好地揭示疾病发展的真实生物学过程，基于目前的方式所得到的预测结果的可解释性和预测精度上都有待提高。

基于此，本申请实施例提供一种基于图神经网络的组学数据处理方法、装置、设备及介质，旨在解决上述中所描述的部分或全部技术问题。在本申请实施例中，在获取到待处理组学数据后，可以基于人工智能技术对组学数据进行处理，得到对应的医学预测结果。具体的，本申请实施例中可以基于人工智能技术中的机器学习技术得到待处理组学数据中每种组学特征的特征，然后可以基于每种组学特征的特征得到最终的医学预测结果。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在一些实施例中，本申请实施例中所涉及到的数据处理/计算可以基于云计算的方式进行。其中，云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。

首先对本申请涉及的几个名词进行介绍和解释：

组学(Omics)：是用于***地研究生物学规律的重要工具，主要包括基因组学(Genomics)、蛋白组学(Proteomics)、代谢组学(Metabolomics)、转录组学(transcriptomics)，脂类组学(lipidomics)、免疫组学(Immunomics)、影像组学(Radiomics)，超声组学(Ultrasomics)等。而组学特征：是可以反映生物学规律的各种组学的相关特征。

生物标志物(Biomarker)：指可以标记***、器官、组织、细胞及亚细胞结构或功能的改变或可能发生的改变的生化指标，具有非常广泛的用途，其可以用于疾病诊断、判断疾病分期或者用来评价新药或新疗法在目标人群中的安全性及有效性。

信号通路：是指当细胞里要发生某种反应时，信号从细胞外到细胞内传递了一种信息，细胞要根据这种信息来做出反应的现象，在本申请实施例中，当一个组学特征在执行功能时与其他组学特征相互作用时，该组学特征与其他组学特征将构成信号通路。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

在一些实施例中，本申请实施所提供的方法由电子设备执行，该电子设备可以是服务器也可以是终端设备。具体的，本申请实施所提供的方法可以基于终端设备或服务器和终端设备进行数据交互来执行。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。本申请实施所提供的方法在基于服务器和终端设备进行数据交互来执行时，终端设备可以先将待处理的组学数据发送服务器，由服务器对接收到的组学数据进行医学分析，得到医学分析结果返回至终端设备，再由终端设备将医学分析结果提供给用户。

图1a示出了本申请实施例中所提供的一种基于图神经网络的组学数据处理方法的流程示意图，如图1a所示，该方法包括：

步骤S101，获取目标对象的第一组学数据，从所述第一组学数据提取至少两种第一组学特征。

其中，目标对象的第一组学数据指的是需要进行医学分析的组学数据，该第一组学数据包括了至少两种第一组学特征，所包括的各第一组学特征属于同一类别，例如都属于基因组学，且属于同一个目标对象，但是各自不同。在一些实施例中，目标对象的类别本申请实施例不限定，如目标对象可以为人类，也可以为动物等。在一示例中，假设某一第一组学数据对应于基因组学，并且包括了属于人物A的基因1～基因10，此时基因1～基因10为不同的基因。

步骤S102，确定至少两种第一组学特征中不同第一组学特征之间的第一相关性。

在实际应用中，不同的组学特征在执行功能的时候通常并不是独立完成的，而是需要结合其它组学特征共同完成的，即各组学特征之间是相互关联和存在调控关系的。基于此，在本申请实施例中可以确定不同第一组学特征之间的第一相关性，进而可以基于第一组学特征之间的第一相关性，将行使相似功能的第一组学特征关联起来。

其中，在确定不同第一组学特征之间的第一相关性时，可以通过加权基因共表达分析技术(Weighted Gene Co-Expression Network Analysis，WGCNA)计算不同组学特征之间的相关性矩阵，然后可以通过设置阈值的方式，将相关性矩阵进行二值化处理，并将二值化处理后的相关性矩阵称之为边矩阵。如当两种第一组学特征之间的相关性不小于阈值时，此时说明该两种第一组学特征执行的功能相似，彼此相互作用(即可以构成信号通路)，此时可以将相关性矩阵中表征该两种第一组学特征之间的相关性的元素的值设为1，而当两种第一组学特征之间的相关性小于阈值时，此时说明该两种第一组学特征彼此之间的相关性较低，则将相关性矩阵中表征该两种第一组学特征之间的相关性的元素的值设为0。

在本申请实施例中，通过WGCNA的方式计算不同第一组学特征之间的相关性，可以使行使相似功能的第一组学特征具有更高的相关性；进一步的，在得到不同的、第一组学特征之间的相关性矩阵后，可以将该相关性矩阵进行二值化处理，进而可以更好的突出不同第一组学特征之间的相关性。

步骤S103，基于至少两种第一组学特征和第一相关性，构建第一组学数据对应的第一图结构，其中，第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种第一组学特征，第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的两种第一组学特征之间的第一相关性。

其中，图结构中包括各节点、以及连接各节点的连边，在本申请实施例中，图结构中的每个节点表征了一种第一组学特征，两个节点之间的连边表征了该两个节点对应的两种第一组学特征之间的第一相关性。相应的，在构建第一组学数据对应的第一图结构时，可以根据第一组学数据中所包括的第一组学特征得到第一图结构所包括的各节点，然后根据不同第一组学特征之间的第一相关性确定具体将第一图结构中哪两个节点之间建立连边，进而得到第一组学数据对应的第一图结构。

在本申请在一些实施例中实施例中，基于至少两种第一组学特征和各第一相关性，构建第一组学数据对应的第一图结构，包括：

对于任意两种第一组学特征，若两种第一组学特征之间的第一相关性大于或等于设定值，则在两种第一组学特征所对应的两个节点之间建立连边。

在一些实施例中，在已知不同第一组学特征之间的第一相关性后，对于第一组学数据中的任意两种第一组学特征，若确定该两种第一组学特征之间的第一相关性大于或等于设定值，则说明该两种第一组学特征执行的功能相似，彼此之间的相关性较高，此时可以将第一图结构中该两种第一组学特征所对应的两个节点之间建立连边。

在一些实施例中，若不同第一组学特征之间的第一相关性可以基于上述中的边矩阵体现，此时构建第一组学数据对应的第一图结构时，对于任意两种第一组学特征，若边矩阵中表征该两种第一组学特征之间的第一相关性的元素值为1，此时可以在该两种第一组学特征所对应的两个节点之间建立连边，而若边矩阵中表征该两种第一组学特征之间的第一相关性的元素值为0，则不对该两种第一组学特征所对应的两个节点之间建立连边。

在本申请实施例中，通过构建组学数据的图结构的方式，可以将行使相似功能的组学特征在图中被连接起来，此时不仅能够反映单个组学特征，并且还能反映不同组学特征之间的作用关系，能够更好地揭示致病机理，实现对生物学过程的模拟，从而可以得到更准确的疾病预测效果。

步骤S104，基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征所述节点特征具有至少一个维度。

在一些实施例中，当所述节点特征的维度为多个维度时，所述节点特征可以是一个序列或阵列。

其中，该第一图神经网络为该第一组学数据所属的组学对应的图神经网络，第一图神经网络的具体类型可以预先配置，如图神经网络可以是基于注意力机制的图卷积网络(Graph Attention Network，GAT)，也可以其他图神经网络，如图卷积网络，图自编码器网络等，本申请实施例中对此不限定。

在一些实施例中，在得到第一组学数据对应的第一图结构时，可以通过该第一组学数据对应的图神经网络，得到每个第一组学特征的特征，即第一图结构中的各节点的节点特征。

在本申请在一些实施例中实施例中，该方法还包括：

提取各第一组学特征的第一特征；

如图1b示出了步骤S104中基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征的具体流程图。如图1b所示，步骤S104具体包括：

步骤S1041，对于第一图结构中的每一节点，由第一图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征；

步骤S1042，对于每一节点，将该节点对应的第一特征和各第二特征融合，得到该节点的节点特征。

在一些实施例中，对于第一图结构中的每个节点，可以提取用于表征各节点的第一特征(即提取用于表征各第一组学特征自身的特征)，对于第一图结构中的每一节点，可以确定与该节点具有连边关系的各目标节点，然后由第一图神经网络基于各目标节点的第一特征以及该节点的第一特征，对该节点的第一特征进行至少一次的特征提取，得到该节点的至少一个层级的第二特征，所述第一特征为在与其他特征进行融合之前的，所述第一图结构中的每个节点的、仅包括单个第一组学特征的特征。在一些实施例中，第一图神经网络中可以包括至少一层特征提取层(如GAT层)，每个特征提取层的输出对应于一个第二特征，其中，第一个特征提取层的输入为第一图结构中各节点的第一特征，以及第一图结构中各节点之间的连边关系，除第一个特征提取层之外的其它特征提取层的输入为前一特征提取层对应的各节点的第二特征，以及各节点之间的连边关系。所述特征提取层可以是基于注意力机制的图卷积(GAT)层。

在一些实施例中，在得到各节点对应的第一特征和第二特征融合后，对于每个节点，可以将该节点对应的第一特征和至少一个第二特征进行融合，将融合后的特征作为该节点的节点特征，然后基于各节点的节点特征进行医学分析，得到对应的医学分析结果。

其中，在将每个节点的第一特征和至少一个第二特征进行融合时，可以将第一特征和至少一个第二特征经过各自连接的全连接层映射到相同的节点维度，得到各映射后的特征，然后通过拼接的方式将各映射后的特征进行融合，将融合后的特征作为每个节点的节点特征。

在本申请实施例中，由于每个节点的第二特征是基于组成信号通路的节点的特征融合得到的，此时得到的每个节点的第二特征融合了其它节点的组学特征(即第二特征为信号通路级别的特征)；此时，将各节点的第一特征和第二特征融合后所得到的各节点的节点特征，即同时包含了单个组学特征级别的特征(即第一特征)，还包括了信号通路级别的特征(即第二特征)，可以更好地表征目标对象的第一组学数据对应的组学特征，从而在基于第一组学数据进行医学分析时，所得到的分析结果能够更加的准确。

在本申请实施例中，图1c示出了本申请实施例的对于第一图结构中的每一节点，由第一图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征的具体流程图，如图1c所示，包括：

步骤S1043，获取第一图结构各节点的初始特征，其中，在确定各节点的第一个层级的第二特征时，各节点的所述初始特征为各节点对应的所述第一特征；在确定第一个层级的特征之外的任一层级的第二特征时，各节点的所述初始特征为该层级的前一层级的所述第二特征；

步骤S1044，对于每一节点，基于该节点的各关联特征，通过第一图神经网络确定各关联特征的权重，其中，各关联特征包括该节点的初始特征、以及与该节点所具有连边关系的各目标节点的初始特征；

步骤S1045，对于每一节点，基于该节点的各关联特征的权重，通过第一图神经网络对该节点的各关联特征进行加权融合，得到该节点的一个层级的第二特征；

其中，若一个节点对应有至少两个层级的第二特征，除第一个层级的第二特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的。

在一些实施例中，对于图结构中的各节点，可以确定各节点的初始特征，其中，若一个节点对应有至少两个层级的第二特征，此时除第一个层级的特征之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的，即在确定各节点的第一个层级的第二特征时，各节点的初始特征为各节点对应的第一特征，而在确定第一个层级的特征之外的任一层级的第二特征时，各节点的初始特征为该层级的前一层级的第二特征。

在实际应用中，对于任一节点，若该节点与某节点存在连边，说明该节点所对应的第一组学特征与该某节点对应的第一组学特征执行相似功能，可以构成信号通路，但是每个节点在执行功能时的重要程度是不同的，此时可以通过权重表征每个节点在执行功能时的重要程度。

在一些实施例中，对于每一节点，可以确定与该节点存在连边的各目标节点，然后基于该节点的初始特征、以及该节点所对应的各目标节点的初始特征(即该节点的各关联特征)，通过图卷积网络确定各关联特征的权重(即确定该节点的初始特征、以及该节点所对应的各目标节点的初始特征的权重)，然后可以根据该节点的初始特征、以及该节点所对应的各目标节点的初始特征各自对应的权重对该节点的初始特征和各目标节点的初始特征进行加权，得到加权后的各初始特征，然后将加权后的各初始特征进行融合，并将融合后的特征融合作为该节点的一个层级的第二特征。

在一示例中，假设第一图神经网络包括两个GAT层，第一图结构中包括3个节点(节点1～节点3)，且节点1分别与节点2和节点3存在连边，节点2和节点3仅与节点1存在连边。此时可以分别确定节点1～节点3的第一特征，对于节点1，可以确定该节点的目标节点为节点2和节点3，然后可以基于节点1的第一特征(即节点1的初始特征)，以及节点2和节点3所对应的第一特征(即节点2和节点3的初始特征)，通过图卷积网络中的第一个GAT层，确定节点1～节点3的第一特征的权重，然后通过第一个GAT层，根据节点1～节点3的第一特征各自对应的权重分别对节点1～节点3的第一特征进行加权并融合，得到节点1的第一个层级的第二特征，基于相同方式可以得到节点2和节点3的第一个层级的第二特征；进一步的，对于节点1，可以将节点1～节点3的第一个层级的第二特征作为节点1的关联特征，然后通过图卷积网络确定各关联特征的权重，然后基于该节点的各关联特征的权重，通过图卷积网络的第二个GAT层对该节点的节点1的关联特征进行加权融合，得到节点1的第二个层级的第二特征，同理可分别得到节点2和节点3的第二个层级的第二特征。

在本申请实施例中，由于每个节点的第二特征是将该节点的特征与其相连接的节点的特征加权融合得到的，因此能够将相似功能的组学特征(构成信号通路的组学特征)融合起来，此时得到的第二特征为信号通路级别的特征，能够实现对高级调控因子的更多关注。

步骤S105，基于各节点的节点特征，对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果，所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。

在一些实施例中，在得到各节点的节点特征时，可以基于各节点的特征进行医学分析，得到对应的医学分析结果。其中，医学分析具体包括的类别可以预先配置，本申请实施例不限定，例如，可以基于各节点的节点特征进行疾病识别、疾病分型或生存预测中的至少一项；此时，所得到的医学分析结果则可以包括疾病识别结果、疾病分型结果或生存预测结果中的至少一项。

在本申请实施例中，对于待处理的组学数据，可以根据不同组学特征之间的相关性将组学数据中的各组学特征图结构化，进而可以有效的模拟生物学上各组学特征之间的相互关联和调控关系，能够更好地表示组学特征的状态；相应的，可以基于图结构，通过图神经网络，得到图结构中的各节点的节点特征，然后基于各节点的节点特征，得到对应的医学分析结果，由于图结构化的组学特征能够有效的模拟生物学上组学特征之间的相互关联和调控关系，此时基于该图结构，通过图神经网络所得到的每个节点的节点特征融合了其它节点的特征，属于信号通路层次的综合特征、且能够体现各组学特征之间的相互关联和调控关系，所表征的内容更加丰富，进而基于各节点的节点特征所得到医学分析结果将会更加准确。

在本申请在一些实施例中实施例中，图1d示出了本申请实施例的基于图神经网络的临床组学数据处理方法的流程图。如图1d所示，该方法还包括：

步骤S106，获取至少一个第二组学数据，第一组学数据和至少一个第二组学数据中的不同组学数据均属于不同组学、且至少一个第二组学数据和第一组学数据属于同一目标对象；

步骤S107，提取各第二组学数据所对应的数据特征；

基于各节点的节点特征，得到医学分析结果，包括：

步骤S1051，基于各节点的节点特征和各第二组学数据所对应的数据特征，确定目标对象的医学分析结果。

其中，每个第二组学数据和第一组学数据属于同一目标对象，且每个第二组学数据与第一组学数据均属于不同类别的组学，例如，第一组学数据为基因组学，第二组学数据为蛋白组学，该第二组学数据和第一组学数据均属于人物A。

其中，在基于各第二组学数据所对应的数据特征和各节点的节点特征共同确定该目标对象的医学分析结果时，第一组学数据和各第二组学数据在确定医学分析结果时的重要程度可能是不同的，此时可以通过设置不同的权重来表征第一组学数据和各第二组学数据在确定医学分析结果时的重要程度；相应的，在确定医学分析结果时，则可以基于第一组学数据和每个第二组学数据各自对应的权重分别对各第二组学数据所对应的数据特征和各节点的节点特征进行加权融合，得到融合后的特征，然后基于该融合后的特征，确定目标对象的医学分析结果。

在本申请实施例中，由于在确定目标对象对应的医学分析结果时，还融合了属于同一目标对像、但是与第一组学数据不同类别的其它组学数据，因此实现了更加全面精准的医学分析，提升了医学分析结果的准确性。

在本申请在一些实施例中实施例中，每个第二组学数据包括至少两种第二组学特征；

基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，包括：

基于第一图结构，通过第一组学数据所属的组学所对应的第一图神经网络，得到第一图结构的各节点的节点特征；

对于任一第二组学数据，提取第二组学数据所对应的数据特征，包括：

确定该第二组学数据的至少两种第二组学特征中不同第二组学特征之间的第二相关性；

基于至少两种第二组学特征和各第二相关性，构建该第二组学数据对应的第二图结构；

基于第二图结构，通过与该第二组学数据所属的组学对应的第二图神经网络，得到该第二组学数据所对应的各节点的节点特征，以得到所述第二组学数据所对应的所述数据特征，数据特征包括该第二组学数据所对应的各节点的节点特征。

其中，第二组学数据包括至少两种第二组学特征，该第二组学特征与第一组学特征属于不同类别的组学。在一些实施例中，可以预先配置每一种组学所对应于的图神经网络，如可以预先配置基因组学对应的图神经网络、蛋白质组学对应的图神经网络等，由于每种组学所对应于的图神经网络是基于不同类别的样本组学特征所训练得到，此时每种组学所对应于的图神经网络的网络参数是各不相同的。

相应的，在得到第一组学数据和对应的第一图结构时，可以基于第一组学数据所属的组学所对应的第一图神经网络，得到第一图结构的各节点的节点特征；对于任一第二组学数据，可以确定该第二组学数据所包括的至少两种第二组学特征中不同第二组学特征之间的第二相关性，然后根据基于至少两种第二组学特征和不同第二组学特征之间的第二相关性，构建第二组学数据对应的第二图结构，此时该第二图结构中的一个节点表征一种第二组学特征，该第二图结构中的连边表征了该连边的两个节点对应的两种第二组学特征之间的第二相关性；进一步的，可以基于第二图结构，通过第二组学数据所属的组学对应的第二图神经网络，得到第二图结构中的各节点的节点特征，即第二组学数据所对应的数据特征。

在本申请在一些实施例中实施例中，基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，以及基于各节点的节点特征得到医学分析结果，是通过分析结果预测模型得到的，其中，分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。

在一些实施例中，可以获取各样本组学数据和初始神经网络模型，然后基于获取的各样本组学数据对初始神经网络模型进行训练，得到分析结果预测模型，此时在确定待处理的第一组学数据对应的医学分析结果时，可以先确定第一样组学数据对应的第一图结构，然后可以将第一组学数据对应的第一图结构输入至该分析结果预测模型，该分析结果预测模型可以基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，然后基于各节点的节点特征得到医学分析结果并输出。

在本申请在一些实施例中实施例中，分析结果预测模型是通过下列方式得到的：

获取训练数据集和初始神经网络模型，训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签，标注标签表征了真实医学分析结果；

将训练数据集划分为不同的子数据集；

基于不同的子数据集对初始神经网络模型分别进行迭代训练，直至满足预设的训练结束条件；

将每次训练结束时所对应的初始神经网络模型的模型参数进行融合，将融合后的模型参数作为分析结果预测模型的模型参数。

在一些实施例中，在基于各样本组学数据对初始神经网络模型进行训练时，可以获取训练数据集和初始神经网络模型，其中，训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签，标注标签表征了真实医学分析结果，进一步的，可以将训练数据集划分为不同的子数据集，对于每个子数据集，可以将该子数据集对初始神经网络模型分别进行迭代训练，直至满足预设的训练结束条件，得到对应于该子数据集的初始神经网络模型；相应的，在得到对应于各子数据集的初始神经网络模型时，可以将对应于各子数据集的初始神经网络模型的模型参数进行融合，将融合后的模型参数作为该分析结果预测模型的模型参数。

在一些实施例中，在实际应用中，可以一次性获取多个样本组学数据，然后将所有样本组学数据随机分成5个子集作为5组子数据集，每次取其中一个子数据集作为测试集，其余4个子数据集作为训练集对初始神经网络模型进行训练，直到5个子数据集依次被取作测试集后，可以得到对应于5个训练后的初始神经网络模型，此时对于分析结果预测模型中的每个网络参数，可以将5个训练后的初始神经网络模型中的该网络参数值进行平均处理，并将平均处理后的网络参数值作为分析结果预测模型的网络参数值，即采用五折交叉验证的方式对初始神经网络模型进行训练来得到分析结果预测模型。

其中，训练结束条件可以为初始神经网络模型对应的损失函数的值收敛，而初始神经网络模型对应的损失函数的值表征了样本组学数据预测的医学分析结果与样本组学数据的真实医学分析结果之间的差异，当损失函数的值收敛时，则说明当前的初始神经网络模型的精度已满足要求，此时可以结束训练。

在一些实施例中，当需要进行不同类型的医学分析时，分析结果预测模型的输出结果是不同的，在训练该分析结果预测模型时所对应的损失函数也是不同的。例如，若医学分析的类别为疾病诊断和疾病分型，初始神经网络模型输出的预测医学分析结果为样本组学数据对应于每个类别的预测概率，此时可以最小化所有样本组学数据的预测概率和医学分析结果标签之间的交叉熵来对初始神经网络模型进行训练；而当医学分析的类别为生存预测时，初始神经网络模型输出的预测医学分析结果为病人的危险系数，此时可以通过cox(Cox proportional hazards model，风险比例回归模型)的损失函数对初始神经网络模型进行训练。

在实际应用中，可以基于本申请实施例所提供的分析结果预测模型对组学数据进行自动化分析，从而得到疾病早期诊断和预测结果。此外，由于本申请实施例所提供的分析结果预测模型在对组学数据进行自动化分析时，通过对组学数据的图结构化处理来模拟生物学中的级联调控网络，从而使该分析结果预测模型具有更高的可解释性，更高的临床可应用性；进一步的，与传统的基于统计学检验方法和人工判断为主的分析方式相比，可以自动化的得到最终结果，节省了分析组学数据和等待的时间，也有效的避免了人工判断误差，有效提高医学分析结果的准确度。

在本申请在一些实施例中实施例中，该方法还包括：

获确定各第一组学特征对应的重要性参数值；

将医学分析结果和各第一组学特征对应的重要性参数值提供给用户；

其中，各第一组学特征的重要性参数值是通过以下方式确定的：

对于每一样本组学数据，基于该样本组学数据的医学分析结果，确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性参数值；

对于任一节点，基于所有样本组学数据所对应的该节点的重要性参数值，得到该节点的重要性参数值，将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。

其中，第一组学特征的重要性参数值表征了第一组学特征在其构建的信号通路中的重要程度。在一些实施例中，在本申请实施例中还可以获取各第一组学特征的重要性参数值，并将各第一组学特征的重要性以及得到的医学分析结果一并提供给用户(如提供给医护人员)，此时医护人员可根据各第一组学特征的重要性参数值，获知对医学分析结果起着重要作用的组学特征，进而提出生物学解释，将有利于使病人得到更加准确的医学治疗措施，达到精准治疗的目的。

在一些实施例中，对于每个第一组学特征的重要性参数值，该第一组学特征的重要性参数值为该第一组学特征在第一图结构中对应的节点的重要性，而第一图结构中每个节点的重要性可以基于样本组学数据对应的医学分析结果来确定，具体的：

在训练得到分析结果预测模型后，对于每一样本组学数据，可以基于分析结果预测模型得到该样本组学数据对应的医学分析结果，以及在得到该样本组学数据对应的医学分析结果的过程中，该样本组学数据对应的图结构中每个节点的各特征(包括第一特征和至少一个层级的第二特征)，此时可以基于医学分析结果，分别对每个节点的各特征进行梯度计算(如进行求导计算)，得到各计算值，然后将得到的各计算值求和，得到该样本组学数据的图结构中各每个节点的重要性参数值，基于同样方式，得到所有样本组学数据的图结构中各每个节点的重要性参数值；可以理解的是，由于各样本组学数据中的样本组学特征的数量以及类别均是相同的，此时各样本组学数据的图结构中节点数量也是相同的，每个节点所表征的样本组学特征属性也是相同的；相应的，对于图结构中任一节点，可以基于所有样本组学数据的图结构中该节点的重要性参数值，得到该节点的重要性参数值，并将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。例如，可以将所有样本组学数据的图结构中该节点的重要性参数值求和，将得到的和值作为该节点的重要性参数值。

进一步的，可以基于每个节点的重要性参数值确定出重要样本组学特征，然后将确定的重要样本组学特征进行信号通路的富集(如通过Metascape平台进行信号通路的富集)，从而找到可以作为信号通路级别的生物标志物的组学特征。

在本申请实施例中，可以通过梯度计算的方式得到的样本组学特征的重要性参数值，此时不仅可以为医学分析结果提供解释和依据，还可以基于各样本组学特征的重要性参数值对神经网络模型进行检验和修正。同时，还可以基于还可以确定出的重要样本组学特征得到对疾病预测起着重要作用的生物标志物，进而确定更加精准的预测疾病、确定疾病类型。

在本申请在一些实施例中实施例中，获取待处理的第一组学数据，包括：

获取初始组学数据，初始组学数据包括至少两种初始组学特征；

获取初始组学数据的关联组学特征，关联组学特征和初始组学数据属于同一目标对象，关联组学特征包括病例组学特征或影像组学特征中的至少一项；

分别将每种所述初始组学特征和所述关联组学特征进行融合，得到每种初始组学特征对应的融合组学特征，，并将其作为一种第一组学特征。

其中，关联组学特征指的是与初始组学数据存在关联的特征，关联组学特征与初始组学数据属于同一目标对象，而该关联组学特征的具体类别本申请实施例不限定，如关联组学特征可以包括目标对象的病例组学特征或影像组学特征中的至少一项。

在一些实施例中，在获取待处理的第一组学数据时，可以获取至少两种初始组学特征、以及与该初始组学数据属于同一目标对象的关联组学特征，然后分别将每种初始组学特征和该关联组学特征进行融合，得到每种初始组学特征对应的融合组学特征，并将每种初始组学特征对应的融合组学特征作为第一组学数据所包括的第一组学特征。

在本申请实施例中，由于用于确定医学结果的待处理组学数据融合了目标对象的组学特征和组学特征的关联特征，此时的待处理组学数据的特征表达更加丰富，从而实现了更加全面精准的医学分析，提升了医学分析结果的准确性。

为了更好地理解本申请实施例所提供的方法，下面结合图2a对该方法进行详细描述。在本示例中，可以获取到N个病人的组学数据，每个病人的组学数据包括K种不同的组学特征(即图中的K组学特征)，此时可以将N个病人的组学数据作为训练数据(即图中的训练数据X ^NxK)对初始图神经网络进行训练，得到分析结果预测模型；进一步的，可以基于该分析结果预测模型对病人的组学数据进行医学分析的，得到最终的医学分析结果。在一些实施例中，在本示例中以确定N个病人中的一个病人的组学数据V∈R ^K(即待处理的第一组学数据，其包括K种不同的组学特征)所对应的医学分析结果为例对本申请实施例所提供的方法进行详细说明，具体可以包括：

在一些实施例中，在确定病人的组学数据所对应的医学分析结果时，可以包括(a)基因共表达分析、(b)多次层次图特征提取和融合和(c)多任务预测3部分，其中，多次层次图特征提取和融合、以及多任务预测可以基于训练得到的分析结果预测模型来实现，此时需要先基于病人的组学数据执行基因共表达分析部分，然后再将得到的结果输入至分析结果预测模型，得到最终的医学分析结果。具体的，在获取到病人的组学数据后，可以基于加权基因共表达分析技术(即WGCNA)计算不同的组学特征之间的相关性矩阵，然后可以通过设置阈值，将相关性矩阵中的元素的值二值化处理，得到维度为K维乘K维的边矩阵E ^KxK，该边矩阵E ^KxK内包括各元素a _ij(i＝1、2、……、K，j＝1、2、……、K)，具体如图2b所示。例如，对于相关性矩阵中的任一个元素a ₁₂，若该元素a ₁₂所表征的两种组学特征之间的相关程度大于阈值，则将该元素a ₁₂的值设置为1，反之，则设置为0。

进一步的，可以将每种组学特征作为一个节点，根据边矩阵确定各节点之间的连接情况，得到组学数据对应的图结构，例如，对于任意两种组学特征，若两种组学特征之间的相关性大于或等于设定值，则在该两种组学特征所对应的两个节点之间建立连边；然后可以基于确定的图结构进行特征提取(如通过全连接层进行特征提取，图中未示出)，得到各节点的第一特征G1(图中以G1＝G1(V ^Kx1，E ^KxK)表征得到各节点的第一特征的过程)；

进一步的，可以基于两个基于注意力机制的图卷积(GAT)层(即前文中的特征提取层，图中的GAT层)对各节点的第一特征G1进行两次的特征提取，得到各节点对应于两个层级的第二特征G2和G3；其中，在确定G2时，第一个GAT层会将相连接的节点的第一特征根据注意力值加权求和，得到各节点的第二特征G2(图中以G2＝G2(V ^Kxh2，E ^KxK)表征得到各节点的第二特征G2的过程，h2表示进行第二次特征提取)，然后第二个GAT层将相连接的节点的第二特征G2根据注意力值加权求和，得到各节点的第二特征G3(图中以G3＝G3(V ^K xh3，E ^KxK)表征得到各节点的第二特征G3的过程，h3表示进行第二次特征提取)；至此，每种组学特征将得到三个不同级别的特征，分别是局部特征G1(每个节点的特征仅包含单个组学特征)和整体特征G2，G3(每个节点的特征都融合了信号通路上相连的组学特征的特征)。

进一步的，可以将三个级别的特征G1、G2和G3经过各自连接的全连接层映射为相同维度的特征，如G1映射后的特征为F1∈R ^K、G2映射后的特征为F ₂∈R ^K、G3映射后的特征为F ₃∈R ^K，然后通过拼接的方式将三个级别的特征F ₁、F ₂和F ₃进行融合，得到融合后的特征F∈R ^3K，然后可以基于F∈R ^3K进行疾病诊断、疾病分型或生存预测。

其中，在基于F∈R ^3K进行疾病诊断、疾病分型或生存预测前可以通过全连接网络进行进一步的特征提取(即特征映射)，得到特征R ^d1(d1表示特征R的维度为d1维)；然后可以基于特征R ^d1 进行疾病诊断、疾病分型或生存预测(即图中的(c)多任务预测部分)。

在一些实施例中，当基于特征R ^d1进行疾病诊断或疾病分型(即图中的疾病分类与分型)时，可以将特征R ^d1映射为维度与疾病种类或疾病类别数量相同的特征(本示例中以c个疾病种类或疾病类别为例)，然后基于映射后的特征得到疾病预测结果或疾病分型预测结果R ^c(即前文中的医学分析结果)，此时分析结果预测模型的输出y为R ^c(即y∈R ^c)，而R ^c表征了病人的组学数据对应于每一种疾病的概率、或对应于每一类别疾病的概率；当基于特征R ^d1进行生存预测，确定病人的生存概率时，可以基于特征R ^d1，得到病人的组学数据所对应的生存概率R ¹(即前文中的医学分析结果)，此时分析结果预测模型的输出y即为R ¹(即y∈R ¹)。

基于上述中实施例的说明可见，本申请实施例所提供的方法通过将组学数据图结构化的方式来模拟生物学上的级联调控网络，然后利用图神经网络充分挖掘组学数据之间的关联和相互作用对疾病发展的影响，可以将不同层级的图结构特征融合，不仅能够提取单个组学特征层次的信息，还能够提取信号通路层次的综合特征，因此能够更好地表示数据的状态，从而得到更加准确的预测结果，并且在确定病人的组学数据所对应的医学分析结果时，可以基于分析结果预测模型自动进行，在此过程中无需人工干涉，节省了分析数据和等待时间，避免人为判断的误差所带来的问题，和传统的技术方案相比，具有明显优势，实施起来可以更智能更准确地进行组学数据分析，从而能够更加精确的提供医疗干预，满足医护人员的实际需求。

本申请实施例提供了一种基于图神经网络的组学数据处理装置60，如图3所示，该基于图神经网络的组学数据处理装置60可以包括：数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605，其中，

数据获取模块601，用于获取目标对象的第一组学数据，从所述第一组学数据中提取至少两种第一组学特征；

相关性确定模块602，用于确定至少两种第一组学特征中不同组学特征之间的第一相关性；

图结构构建模块603，用于基于至少两种第一组学特征和第一相关性，构建第一组学数据对应的第一图结构，其中，第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种第一组学特征，第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的第一相关性；

节点特征确定模块604，用于基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度；

分析结果确定模块605，用于基于各节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。

在一些实施例中，图结构构建模块在基于至少两种第一组学特征和各第一相关性，构建第一组学数据对应的第一图结构时，具体用于：

对于所述至少两种第一组学特征中的任意两种第一组学特征，若两种第一组学特征之间的第一相关性大于或等于设定值，则在两种第一组学特征所对应的两个节点之间建立连边，以构建所述第一图结构。

在一些实施例中，该装置还包括特征提取模块，用于：

对于所述第一图结构中的每个节点，提取各第一组学特征的第一特征，所述第一特征为所述第一图结构中的每个节点的、仅包括单个第一组学特征自身的特征；

节点特征确定模块在基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征时，具体用于：

对于第一图结构中的每一节点，由第一图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征，每个所述层级对应所述第一图神经网络的一个特征提取层；

对于每一节点，将该节点对应的第一特征和各第二特征融合，得到该节点的节点特征。

在一些实施例中，对于第一图结构中的每一节点，节点特征确定模块在由第一图神经网络基于第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征时，具体用于：

获取第一图结构各节点的初始特征；

对于每一节点，基于该节点的各关联特征，通过第一图神经网络确定各关联特征的权重，其中，各关联特征包括该节点的初始特征、以及该节点所对应的各目标节点的初始特征；

对于每一节点，基于该节点的各关联特征的权重，通过第一图神经网络对该节点的各关联特征进行加权融合，得到该节点的一个层级的第二特征；

在一些实施例中，特征提取模块，还用于：

获取至少一个第二组学数据，第一组学数据和至少一个第二组学数据中的不同组学数据均属于不同组学、且至少一个第二组学数据和第一组学数据属于同一目标对象；

提取各第二组学数据所对应的数据特征；

分析结果确定模块在基于各节点的节点特征，得到医学分析结果时，具体用于：

基于各节点的节点特征和各第二组学数据所对应的数据特征，确定目标对象的医学分析结果。

在一些实施例中，每个第二组学数据包括至少两种第二组学特征；

对于任一第二组学数据，特征提取模块在提取第二组学数据所对应的数据特征时，具体用于：

在一些实施例中，基于第一图结构，通过第一图神经网络，得到第一图结构中的各节点的节点特征，以及基于各节点的节点特征得到医学分析结果，是通过分析结果预测模型得到的，其中，分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。

在一些实施例中，该装置还包括信息提供模块，用于：

获取各第一组学特征对应的重要性参数值；

对于每一样本组学数据，基于该样本组学数据的医学分析结果，确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性；

对于任一节点，基于所有样本组学数据所对应的该节点的重要性，得到该节点的重要性参数值，将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。

在一些实施例中，分析结果预测模型是通过下列方式得到的：

将训练数据集划分为不同的子数据集；

将每次训练结束时所对应的神经网络模型的模型参数进行融合，将融合后的模型参数作为分析结果预测模型的模型参数。

在一些实施例中，数据获取模块在获取待处理的第一组学数据时，具体用于：

分别将每种初始组学特征和关联组学特征进行融合，得到每种初始组学特征对应的融合组学特征，并将其作为所述第一组学特征。

在一些实施例中，医学分析结果包括疾病识别结果、疾病分型结果或生存预测结果中的至少一项。

本申请实施例的基于图神经网络的组学数据处理装置可执行本申请实施例提供的一种基于图神经网络的组学数据处理方法，其实现原理相类似，此处不再赘述。

基于图神经网络的组学数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如基于图神经网络的组学数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的基于图神经网络的组学数据处理装置可以采用软硬件结合的方式实现，作为示例，本申请实施例提供的基于图神经网络的组学数据处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于图神经网络的组学数据处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的基于图神经网络的组学数据处理装置可以采用软件方式实现，图3示出了存储在存储器中的基于图神经网络的组学数据处理装置60，其可以是程序和插件等形式的软件，并包括一系列的模块，包括数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605；其中，数据获取模块601、相关性确定模块602、图结构构建模块603、节点特征确定模块604以及分析结果确定模块605用于实现本发明实施例提供的基于图神经网络的组学数据处理方法。

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选地，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现图3所示的各模块的功能。

处理器2001可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI总线或EISA总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM或可存储静态信息和计算机程序的其他类型的静态存储设备，RAM或者可存储信息和计算机程序的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储或以数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质，但不限于此。

存储器2003用于存储执行本申请方案的应用程序的计算机程序，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序的计算机程序，以实现图3所示实施例提供的基于图神经网络的组学数据处理装置的动作。

本申请实施例提供了一种电子设备，包括处理器以及存储器：存储器被配置用于存储计算机程序，计算机程序在由处理器执行时，使得处理器上述实施例中的任一项方法。

本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质用于存储计算机程序，当计算机程序在计算机上运行时，使得计算机可以执行上述实施例中的任一项方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

本申请中的一种计算机可读存储介质所涉及的名词及实现原理具体可以参照本申请实施例中的一种基于图神经网络的组学数据处理方法，在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

一种基于图神经网络的临床组学数据处理方法，由电子设备执行，包括：

获取目标对象的第一组学数据；

从所述第一组学数据中提取至少两种第一组学特征；

确定所述至少两种第一组学特征中不同组学特征之间的第一相关性；

基于所述至少两种第一组学特征和所述第一相关性，构建所述第一组学数据对应的第一图结构，其中，所述第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种所述第一组学特征，所述第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的第一相关性；

基于所述第一图结构，通过第一图神经网络，得到所述第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度；

基于所述各节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。
根据权利要求1所述的方法，其中，所述基于所述至少两种第一组学特征和所述第一相关性，构建所述第一组学数据对应的第一图结构，包括：

对于所述至少两种第一组学特征中的任意两种所述第一组学特征，若所述两种第一组学特征之间的第一相关性大于或等于设定值，则在所述两种第一组学特征所对应的两个节点之间建立连边，以构建所述第一图结构。
根据权利要求1所述的方法，还包括：

对于所述第一图结构中的每个节点，提取所述第一组学特征的第一特征，所述第一特征为所述第一图结构中的每个节点的、仅包括单个第一组学特征的特征；

所述基于所述第一图结构，通过第一图神经网络，得到所述第一图结构中的各节点的节点特征，包括：

对于所述第一图结构中的每一节点，由所述第一图神经网络基于所述第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征，每个所述层级对应所述第一图神经网络的一个特征提取层；

对于每一节点，将该节点对应的第一特征和各所述第二特征融合，得到该节点的节点特征。
根据权利要求3所述的方法，其中，所述对于所述第一图结构中的每一节点，由所述第一图神经网络基于所述第一图结构中的该节点、以及与该节点具有连边关系的各目标节点，得到该节点的至少一个层级的第二特征，包括：

获取所述第一图结构各节点的初始特征；

对于每一节点，基于该节点的各关联特征，通过所述第一图神经网络确定各所述关联特征的权重，其中，所述节点的各所述关联特征包括该节点的初始特征、以及与该节点具有连边关系的各目标节点的初始特征；

对于每一节点，基于该节点的各所述关联特征的权重，通过所述第一图神经网络对该节点的各关联特征进行加权融合，得到该节点的一个层级的第二特征；

其中，若一个节点对应有至少两个层级的第二特征，则除所述第一个层级之外的任一层级的第二特征是基于该层级的前一层级的第二特征得到的。
根据权利要求4所述的方法，其中，所述获取所述第一图结构各节点的初始特征，包括：

如果在确定各节点的第一个层级的第二特征时，则将各节点对应的所述第一特征作为各节点的所述初始特征；

如果在确定第一个层级之外的任一层级的第二特征时，则将该层级的前一层级的所述第二特征作为各节点的所述初始特征。
根据权利要求1所述的方法，还包括：

获取至少一个第二组学数据，所述第一组学数据和所述至少一个第二组学数据中的不同组学数据均属于不同组学、且所述至少一个第二组学数据和所述第一组学数据属于同一目标对象；

提取各所述第二组学数据所对应的数据特征；

所述基于各所述节点的节点特征，得到医学分析结果，包括：

基于所述各节点的节点特征和各所述第二组学数据所对应的数据特征，确定所述目标对象的医学分析结果。
根据权利要求6所述的方法，其中，每个所述第二组学数据包括至少两种第二组学特征；

对于任一所述第二组学数据，提取所述第二组学数据所对应的数据特征，包括：

确定该第二组学数据的至少两种第二组学特征中不同第二组学特征之间的第二相关性；

基于所述至少两种第二组学特征和各所述第二相关性，构建该第二组学数据对应的第二图结构；

基于所述第二图结构，通过与该第二组学数据所属的组学对应的第二图神经网络，得到该第二组学数据所对应的各节点的节点特征，以得到所述第二组学数据所对应的所述数据特征，所述数据特征包括该第二组学数据所对应的各节点的节点特征。
根据权利要求1所述的方法，其中，所述基于所述第一图结构，通过第一图神经网络，得到所述第一图结构中的各节点的节点特征，以及所述基于各所述节点的节点特征得到医学分析结果，是通过分析结果预测模型得到的，其中，所述分析结果预测模型是基于各样本组学数据对初始神经网络模型进行训练得到的。
根据权利要求8所述的方法，所述方法还包括：

确定各所述第一组学特征对应的重要性参数值；

将所述医学分析结果和各所述第一组学特征对应的重要性参数值提供给用户；

其中，各所述第一组学特征的重要性参数值是通过以下方式确定的：

对于每一所述样本组学数据，基于该样本组学数据的医学分析结果，确定该样本组学数据对应的图结构中各组学特征所对应的节点的重要性；

对于任一节点，基于所有样本组学数据所对应的该节点的重要性，得到该节点的重要性参数值，将该节点的重要性参数值作为该节点对应的组学特征的重要性参数值。
根据权利要求8所述的方法，其中，所述分析结果预测模型是通过下列方式得到的：

获取训练数据集和初始神经网络模型，所述训练数据集包括各样本组学数据、每个样本组学数据对应的标注标签，所述标注标签表征了真实医学分析结果；

将所述训练数据集划分为不同的子数据集；

基于不同的子数据集对所述初始神经网络模型分别进行迭代训练，直至满足预设的训练结束条件；

将每次训练结束时所对应的神经网络模型的模型参数进行融合，将融合后的模型参数作为所述分析结果预测模型的模型参数。
根据权利要求1所述的方法，其中，所述获取目标对象的第一组学数据，包括：

获取所述目标对象的初始组学数据，所述初始组学数据包括至少两种初始组学特征；

获取所述初始组学数据的关联组学特征，所述关联组学特征和所述初始组学数据属于同一目标对象，所述关联组学特征包括病例组学特征或影像组学特征中的至少一项；

分别将每种所述初始组学特征和所述关联组学特征进行融合，得到每种初始组学特征对应的融合组学特征，并将其作为一种第一组学特征。
一种基于图神经网络的临床组学数据处理装置，包括：

数据获取模块，用于获取目标对象的第一组学数据；从所述第一组学数据中提取至少两种第一组学特征；；

相关性确定模块，用于确定所述至少两种第一组学特征中不同组学特征之间的第一相关性；

图结构构建模块，用于基于所述至少两种第一组学特征和所述第一相关性，构建所述第一组学数据对应的第一图结构，其中，所述第一图结构中包含至少两个节点，且每个节点表征所述第一组学数据中的一种所述第一组学特征，所述第一图结构中至少包含一条连接所述至少两个节点的连边，所述连边表征所连接的两个节点对应的第一相关性；

节点特征确定模块，用于基于所述第一图结构，通过第一图神经网络，得到所述第一图结构中的各节点的节点特征，所述节点特征具有至少一个维度；

分析结果确定模块，用于基于各所述节点的节点特征对所述目标对象进行医学分析，得到所述至少一个维度中各个维度对应的医学分析结果；所述医学分析包括对所述目标对象进行疾病诊断、疾病分型和生存预测；所述医学分析结果包括各个维度对应的所述目标对象患疾病的概率、各个维度对应的所述目标对象的疾病是某种疾病类别的概率以及各个维度对应的所述目标对象的生存概率。
一种电子设备，包括处理器以及存储器：

所述存储器被配置用于存储计算机程序，所述计算机程序在由所述处理器执行时，使得所述处理器执行权利要求1-11任一项所述的方法。
一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，当所述计算机程序在计算机上运行时，使得计算机可以执行上述权利要求1-11中任一项所述的方法。
一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行权利要求1-11任一项所述的方法。