CN116230247A

CN116230247A - 数据分析方法、装置、电子设备及存储介质

Info

Publication number: CN116230247A
Application number: CN202310518291.2A
Authority: CN
Inventors: 李妍; 成晓亮; 周岳; 张伟
Original assignee: Nanjing Pinsheng Medical Laboratory Co ltd; Shanghai Ammonia Biotechnology Co ltd; Nanjing Pinsheng Medical Technology Co ltd
Current assignee: Nanjing Pinsheng Medical Laboratory Co ltd; Shanghai Ammonia Biotechnology Co ltd; Nanjing Pinsheng Medical Technology Co ltd
Priority date: 2023-05-10
Filing date: 2023-05-10
Publication date: 2023-06-06

Abstract

本发明公开了一种数据分析方法、装置、电子设备及存储介质。该方法包括：获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种；确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法；基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。上述技术方案，通过自动确定数据分析方法，进而根据自动确定的数据分析方法自动对待分析数据进行分析，得到分析结果图表，实现从数据到图表一体化自动分析，提升了数据分析效率。

Description

数据分析方法、装置、电子设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种数据分析方法、装置、电子设备及存储介质。

背景技术

随着大数据技术的发展，以健康医疗为核心的数据在迅速增加，随着数据量和数据种类的增加，如何进行高效便捷的多组学数据处理成为了新的挑战。

当前的数据分析软件功能较为单一，用户需要借助多个软件才能得到完整的分析结果。

在实现本发明的过程中，发明人发现现有技术中至少存在以下技术问题：现有技术方案，存在数据分析效率低的问题。

发明内容

本发明提供了一种数据分析方法、装置、电子设备及存储介质，以提升数据分析的效率。

根据本发明的一方面，提供了一种数据分析方法，包括：

获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种；

确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法；

基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

根据本发明的另一方面，提供了一种数据分析装置，包括：

分析数据获取模块，用于获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种；

分析方法确定模块，用于确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法；

结果图表确定模块，用于基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的数据分析方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据分析方法。

本发明实施例的技术方案，通过获取待分析数据，其中，待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种，实现了多种组合数据的获取，进而确定待分析数据中各数据的数据类型，基于待分析数据中各数据的数据类型确定数据分析方法，实现了数据分析方法的自动确定，进而基于自动确定的数据分析方法对待分析数据进行分析，得到分析结果图表，实现了从数据到图表的一体化自动分析，从而提升了数据分析效率。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种数据分析方法的流程图；

图2是根据本发明实施例二提供的一种数据分析方法的流程图；

图3是根据本发明实施例三提供的一种数据分析方法的流程图；

图4是根据本发明实施例四提供的一种数据分析方法的流程图；

图5是根据本发明实施例五提供的一种数据分析装置的结构示意图；

图6是实现本发明实施例的数据分析方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元，本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

在介绍具体实施例之前，下面对本发明的背景技术进行详细介绍。现有技术中，在多组学数据分析方法使用阶段，进行多组学数据分析的算法可调参数多，涉及许多统计学背景，并且大多数多组学数据分析方法不具有用户友好的使用界面，还处在适用于Python语言、R语言等开发者语言的阶段，需要用户自己安装适配程序并针对数据情况进行相应的代码调整，对使用者在计算机方面的能力有较高要求。

用户在使用一种多组学分析方法时需要大量的学习成本，以及人工数据处理时间成本；若要实现多个多组学分析方法，从多个角度对现有数据进行分析比较和对照实现难度更大。具体而言，不同的组学数据在分析方法上存在区别，没有代码能力的实验人员需要学习大量网站的使用方法，但可能只得到最基础的图表；同时部分组学数据分析方法是只能通过下载示例代码，根据自身数据调整示例代码及各种参数，导致无代码能力的人无法使用上述分析方法。

由此可见，目前多组学数据分析缺少一套，使用者友好的，可以针对不同的数据类型的组合，自动化数据整合，适配多种多组学计算方法，并同步作图的一整套，一键式分析的工具。

本发明提供了一种综合性处理多组学和临床信息的数据分析方法、装置、电子设备及存储介质，减少了人工处理蛋白组学数据、代谢组学数据、脂质组学数据和临床信息所花的大量时间，极大的降低了多组学、多分析方法的分析难度和门槛，无需用户具有计算机学、统计学背景，可一键式使用，并通过丰富的作图展现形式，更直观的理解和比较数据分析结果。

实施例一

图1为本发明实施例一提供的一种数据分析方法的流程图，本实施例可适用于自动对多组学数据进行分析的情况，该方法可以由数据分析装置来执行，该数据分析装置可以采用硬件和/或软件的形式实现，该数据分析装置可配置于计算机终端、服务器等设备中。如图1所示，该方法包括：

S110、获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种。

本实施例中，待分析数据是指待进行多组学数据分析的数据，可以包括但不限于蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种，换而言之，若无临床信息，则默认需要输入两种及以上的组学数据；若有临床信息，则可以输入一种及以上的组学数据。

具体的，待分析数据中的各组学数据可以从对应的数据库中或者外部输入获取得到，待分析数据中的临床信息可以从电子设备、或者与电子设备相连接的其他设备的预设存储位置获取得到，例如电子设备可以为医院内的电子计算机等。

S120、确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法。

本实施例中，数据类型用于表征待分析数据中各数据的类型，可以包括蛋白组学数据类型、代谢组学数据类型、脂质组学数据类型和临床信息类型。

需要说明的是，通过确定待分析数据中各数据的数据类型，可以得知待分析数据的组成成分，以便后续选取适应该待分析数据的数据分析方法。例如，若检测到蛋白输入文件，则表明待分析数据中存在蛋白组学数据类型的数据，其中，蛋白输入文件中包含蛋白质登记号（protein accessions number）等信息；若检测到代谢输入文件，则表明待分析数据中存在代谢组学数据类型，其中，代谢输入文件中包含Name和Compound ID等信息。

示例性的，若检测到蛋白组学数据输入，则确定待分析数据中包含蛋白组学数据类型的数据，并对蛋白组学数据对应变量赋予TRUE，若未检测到蛋白组学数据输入，则确定待分析数据中不包含蛋白组学数据类型的数据，并对蛋白组学数据对应变量赋予FALSE；其他组学数据、临床信息的检测与蛋白组学数据的检测过程相同，在此不再赘述。在检测得到待分析数据中各数据的数据类型之后，可以根据各数据的数据类型选取适应该待分析数据的数据分析方法，以便对数据进行针对分析。

S130、基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

本实施例中，分析结果图表是指待分析数据转换得到的可视化图表，以使待分析数据更为直观的展示。示例性的，分析结果图表可以为网络图、折线图、柱状图、点状图等，分析结果图表的展示形式可以为静态图和/或动态交互图，其中，动态交互图可以为离线html交互式网络图。

具体的，可以通过关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种对待分析数据进行分析，得到一种或多种分析结果图表，并进行展示。

需要说明的是，本实施例提供的数据分析方法，减少了人工处理蛋白质组、代谢组、脂质组以及临床数据所花费的时间，并且该数据分析方法可以一键使用，用户无需具有代码能力，降低了多组学分析方法的分析难度和门槛，并可以展示分析结果图表，使用户更为直观的理解和比较分析数据。

实施例二

图2为本发明实施例二提供的一种数据分析方法的流程图，本实施例的方法与上述实施例中提供的数据分析方法中各个可选方案可以结合。本实施例提供的数据分析方法进行了进一步优化。可选的，所述获取待分析数据，包括：获取组学数据和/或临床信息；通过预先配置的组学数据处理方法，对所述组学数据进行数据处理，得到组学处理数据，其中，所述组学数据处理方法包括双尾学生T检验、多重检验校正和单因素方差分析中的一种或多种；对所述临床信息进行临床指标显著性分析，得到临床分析信息；将所述组学处理数据与所述临床分析信息合并，得到待分析数据。

如图2所示，该方法包括：

S210、获取组学数据和/或临床信息。

本实施例中，组学数据可以包括但不限于蛋白组学定量文件、代谢组学定量文件和脂质组学定量文件。

示例性的，蛋白组学定量文件可以为搜库软件Proteome Discoverer、MaxQuant、Spectronaut或者DIA-NN等输出的肽段定量结果文本文件。代谢组学定量文件可以为CD(Compound Discoverer)或者MS-DIAL搜库软件输出的文件。脂质组学定量文件可以为lipid search搜库软件输出的文件。

本实施例中，临床信息可以为表格形式的数据。示例性的，临床信息中的第一列可以为样本标识，第二列为样品分组，其他列为临床指标列。

S220、通过预先配置的组学数据处理方法，对所述组学数据进行数据处理，得到组学处理数据，其中，所述组学数据处理方法包括双尾学生T检验、多重检验校正和单因素方差分析中的一种或多种。

示例性的，可以对单个组学数据进行双尾学生T检验，得到P值（P value），进而使用多重检验（Benjamini&Hochberg，BH）校正方法对P值进行校正，得到Q值（Q value），其中，P值是用来判定假设检验结果的一个参数，Q值是P值校验后的结果。若组学数据超过两组，则使用单因素方差分析确定显著性并使用BH校正方法进行校正,从而得到组学处理数据。

S230、对所述临床信息进行临床指标显著性分析，得到临床分析信息。

示例性的，可以对临床信息中每种临床指标的每两个比较组之间做双尾学生T检验，比较两组的平均数的差异是否显著，得到临床分析信息。

在一些实施例中，还可以对临床信息进行方差分析（Analysis of Variance，ANOVA），以检验临床指标的显著性，并可以生成Excel表，以便对比和查看。

S240、将所述组学处理数据与所述临床分析信息合并，得到待分析数据。

在组学数据处理和临床信息处理完成之后，可以对将组学处理数据与临床分析信息合并，得到待分析数据。

S250、确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法。

S260、基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

本发明实施例的技术方案，通过获取组学数据和/或临床信息，进而通过预先配置的组学数据处理方法，对组学数据进行数据处理，得到组学处理数据，其中，组学数据处理方法包括双尾学生T检验、多重检验校正和单因素方差分析中的一种或多种，进而对临床信息进行临床指标显著性分析，得到临床分析信息，将组学处理数据与临床分析信息合并，得到待分析数据，以便后续对数据进行分析。

实施例三

图3为本发明实施例三提供的一种数据分析方法的流程图，本实施例的方法与上述实施例中提供的数据分析方法中各个可选方案可以结合。本实施例提供的数据分析方法进行了进一步优化。可选的，所述数据分析方法包括关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种。

如图3所示，该方法包括：

S310、获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种。

S320、确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法，所述数据分析方法包括关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种。

本实施例中，关联分析方法可以用于对不同组学的分子间数据关系进行挖掘。聚类分析方法可以用于确定各数据之间的共表达分子和分子间的调控关系。富集分析方法可以用于对待分析数据进行分布检验。MOFA分析方法可以用于对待分析数据进行整合。

S330、基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

需要说明的是，上述数据分析方法对待分析数据进行分析过程中，可以生成记录文件，以使分析过程可追溯；在一些实施例中，还可以保留数据处理中间文件与运行参数，便于后续分析和修改分析结果图表；在一些实施例中，通过各数据分析方法还可以得到Excel表格以及多种可插图的可视化结果，以便用户快速调用。

在上述各实施例的基础上，可选的，基于数据分析方法对待分析数据进行分析，得到分析结果图表，包括：基于关联分析方法对待分析数据进行分析，得到分析结果图表，其中，关联分析方法包括相互作用网络分析法、双向正交偏最小二乘和相关性确定方法中的一种或多种。

本实施例中，相互作用网络是指能够表征代谢、脂质和蛋白质之间的相互作用状态的网络。具体而言，可以从关系库中搜索鉴定到的各个组学的分子，提取生物学联系，进而生成html格式的动态网络图。需要说明的是，若蛋白和代谢、脂质之间存在反应关系，则在网络图中两点之间就会存在连线，从而展示出相互作用关系。在网络图中，可以用蓝色圆圈表示代谢，黄色圆圈表示蛋白，圆圈越大表示与之关联的分子越多。

双向正交偏最小二乘（O2PLS）可以从两个组学数据的整体角度，挖掘两组学之间的内部联系，确定两组学数据的关联程度，同时确定引起这种关联的主要蛋白，代谢或脂质。需要说明的是，经过双向正交偏最小二乘分析之后，每个组学可被分为关联部分（Jointpart，两组学中存在共同变化的部分），正交部分（Orthogonal part，两组学中不相关的部分）和噪音部分（Noise part，一些冗余信息）。O2PLS分析得到的关联部分的系数，可用来绘制载荷图，辅助解释分析结果，同时会根据进入的组学数据类型，自动生成两组学各个部分占比的示例图，两个组学载荷图可以合并到同一张图上，以不同颜色和形状区分，展示更直观方便。

相关性确定方法是指对临床信息和组学数据进行单变量线性拟合，确定回归关系中被单个自变量解释的比例。通过相关性确定方法对待分析数据进行分析，可以得到和弦图，和弦图线条宽度越宽关联度越高，可以蓝色表示负相关，红色表示正相关。除和弦图外，还可以根据R value的分布情况，整合所有临床信息，绘制R value密度图。

在上述各实施例的基础上，可选的，基于数据分析方法对待分析数据进行分析，得到分析结果图表，包括：基于聚类分析方法对待分析数据进行分析，得到分析结果图表，其中，聚类分析方法包括Mfuzz多组学分析方法和WGCNA分析方法中的一种或多种。

本实施例中，Mfuzz多组学分析方法可以确定多组学一致的变化趋势，为后续富集分析、多组学相关性分析提供数据支持，并且可以发现单个类执行的生物学功能。

具体的，对待分析数据中所有比较组的差异分子定量数据取并集，根据样本分组，计算在并集中每个分组在分组中定量值的中位数值，通过筛选变异系数大于0.1，作为表达模式聚类的输入数据。首先，把输入数据的样本分组按时间序列或者不同处理程度依次排序，使用模糊c均值聚类（Fuzzy C-Means Clustering，FCM）模糊聚类算法，通过优化目标函数得到每个分组的分子对所有类中心的隶属度，从而决定分组中分子的类属以达到自动对分组数据进行分类的目的，按给定类属，把分子在分组中的表达变化趋势分为给定类属，同一类中的分子表达趋势相同,同时得到隶属值，表示分子隶属类的概率。根据相同趋势得到分子的分类，具有相同趋势的蛋白、代谢、脂质分子会被分到同一个聚类组中，保存数据的分类结果，使用热图与折线图的组合形式将模糊聚类结果可视化展示,使用渐变色表示隶属值。

进一步的，可以分离不同组学数据，记录分组等信息，对单组学中每个类进行对应的富集分析，表征同种表达趋势下，参与的生物学过程，可以使用气泡图，热图，折线图等不同的展示形式。

需要说明的是，Mfuzz方法可以用于聚类，从而把多种组学的分子划分为趋势相同的自定义个数的集群，在划分完成之后，气泡图以及相应的富集结果表格可以根据富集分析之后的结果得到的，富集分析包括多种不同的分析方法，在此不做限定。热图可以包括多种不同的热图，例如热图可以包括第一热图和第二热图，第一热图可以根据Mfuzz结果得到，第二热图可以根据不同比较组与基线的比值得到。折线图与Mfuzz展示相关。与标注出来的位置的富集分析不同的是，此处仍然使用的是单组学分开富集，即只使用Mfuzz方法标注集群，之后每个组学及临床数据会被分开，再进行单独的处理。在一些实施例中，可以把单组学的富集方法加入后面的富集分析当中，以便后续数据分析。

为便于研究单个类中各个组学间的关系，从而发现生物过程中上下游之间的联系，在同属于一个聚类组的多种组学数据进行person/spearman相关性计算后，得出的结果绘制交互式多组学相互作用网络分析法图。

WGCNA分析方法为应用与多个样本基因表达模式的分析方法，可将表达模式相似的基因进行聚类，并分析模块与特定性状或表型之间的关联关系。本实施例通过使用WGCNA分析方法，找到各蛋白分子、代谢分子之间是否存在共表达现象，可以被聚类到同一个模块当中，并找到其中的关键分子，实现分析结果的可视化。

在上述各实施例的基础上，可选的，基于数据分析方法对待分析数据进行分析，得到分析结果图表，包括：基于富集分析方法对待分析数据进行分析，得到分析结果图表，其中，富集分析方法包括单组学富集方法、多组学共同富集方法和基因集富集分析中一种或多种。

本实施例中，单组学富集方法是指对各单组学分别进行富集分析的方法。

多组学共同富集方法使用检测到的蛋白、代谢、脂质分子为背景，差异的分子为前景。具体而言，可以使用超几何分布型

来检验一组差异表达分子中某个功能类的显著性，通过离散分布的显著性分析、富集度分析和假阳性分析,得出与实验目的有显著关联的、低假阳性率的蛋白代谢功能类别。其中，N为所有分子中具有pathway注释的数目；n为N中差异表达分子的数目；M为所有分子中注释为某特定pathway的蛋白数目；m为注释为某特定pathway的差异表达分子数目。富集结果显著性用p value表示，使用BH方法矫正p value，得到p.adjust值，然后以p.adjust<0.05为阈值,筛选满足此条件的pathway为显著富集结果。并使用气泡图与条形图可视化展示。

本实施例中，基因集富集分析（Gene Set Enrichment Analysis，GSEA）具体步骤包括：将分子在两种样品中的差异表达程度进行排序，然后判断用于GSEA的数据库是否倾向于聚集在该有序列表的顶部或底部，以此判别该组分子在两个对比组之间是否有统计学显著性。

在上述各实施例的基础上，可选的，基于数据分析方法对待分析数据进行分析，得到分析结果图表，包括：基于MOFA分析方法对待分析数据进行分析，得到分析结果图表。

本实施例中，MOFA为多组学数据整合方法，其基于贝叶斯群因素分析框架，以较低维的潜在因子来展现各个组学分子特征的整体变异性。该方法适用的数据类型广泛，例如离散型、连续型、二进制等，对大样本或小样本量数据均可使用，可用于缺失值估计，从因子角度，为多组学数据挖掘提供新的思路，并且有广泛的下游分析方法及丰富的作图方式，其中包括方差分解，特征权重检查，富集分析，样本聚类分析，潜在因子可视化，因子中贡献度高的分子相关性热图，相关性网络图，表达量热图等等。

在一些实施例中，数据库可以包括但不限于多组学共同富集数据库、基于KEGG的生物学反应关系的数据库和适用于GSEA分析的多组学数据库。

其中，多组学共同富集数据库为基于费希尔精确检验富集方法的多组学数据库，该数据库实现了多种组学数据的共同富集，富集结果可与单组学富集结果对照比较，更有利于发现生物功能的分子机制。基于KEGG的生物学反应关系的数据库可以用于提取蛋白、代谢、脂质反应关系，建立多组学反应关系库，通过基于KEGG的生物学反应关系的数据库可以绘制多组学反应网络图，确定组学间的调控关系。适用于GSEA分析的多组学数据库为用于GSEA分析方法的，以gmt格式和gmx格式排版和存储的多组学数据库。

本发明实施例的技术方案，通过关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种对待分析数据进行分析，得到分析结果图表，实现了图表自动生成，从而提升了数据分析效率。

实施例四

图4为本发明实施例四提供的一种数据分析方法的流程图，本实施例的方法与上述实施例中提供的数据分析方法中各个可选方案可以结合。本实施例提供的数据分析方法进行了进一步优化。可选的，所述基于所述待分析数据中各数据的数据类型确定数据分析方法，包括：若所述数据类型包括多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法；若所述数据类型包括临床信息和单个组学数据的数据类型，则确定数据分析方法为数据拟合分析方法；若所述数据类型包括临床信息和多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法和/或数据拟合分析方法；相应的，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：基于所述多组学数据分析方法和/或数据拟合分析方法对所述待分析数据进行分析，得到分析结果图表。

如图4所示，该方法包括：

S410、获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种。

S420、确定所述待分析数据中各数据的数据类型，若所述数据类型包括多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法；若所述数据类型包括临床信息和单个组学数据的数据类型，则确定数据分析方法为数据拟合分析方法；若所述数据类型包括临床信息和多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法和/或数据拟合分析方法。

本实施例中，多组学数据分析方法是指用于对多个组学数据进行分析处理的方法。示例性的，多组学数据分析方法可以包括但不限于Mfuzz多组学分析方法、双向正交偏最小二乘等。数据拟合分析方法是指用于临床信息和组学数据进行拟合分析的方法。示例性的，数据拟合分析方法可以包括但不限于相关性确定方法和WGCNA分析方法等。

S430、基于所述多组学数据分析方法和/或数据拟合分析方法对所述待分析数据进行分析，得到分析结果图表。

示例性的，若数据类型包括临床信息和多个组学数据的数据类型，则确定数据分析方法为Mfuzz多组学分析方法、双向正交偏最小二乘、相关性确定方法和WGCNA分析方法；进而基于Mfuzz多组学分析方法、双向正交偏最小二乘、相关性确定方法和WGCNA分析方法分别对待分析数据进行分析，得到各分析方法对应的分析结果图表。

本发明实施例的技术方案，根据待分析数据中各数据的数据类型确定数据分析方法，实现了数据分析方法的自动确定，为实现自动化分析数据提供了保障。

实施例五

图5为本发明实施例五提供的一种数据分析装置的结构示意图。如图5所示，该装置包括：

分析数据获取模块510，用于获取待分析数据，其中，所述待分析数据包括蛋白组学数据、代谢组学数据、脂质组学数据和临床信息中的至少两种；

分析方法确定模块520，用于确定所述待分析数据中各数据的数据类型，基于所述待分析数据中各数据的数据类型确定数据分析方法；

结果图表确定模块530，用于基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表。

在一些可选的实施方式中，分析数据获取模块510，还用于：

获取组学数据和/或临床信息；

通过预先配置的组学数据处理方法，对所述组学数据进行数据处理，得到组学处理数据，其中，所述组学数据处理方法包括双尾学生T检验、多重检验校正和单因素方差分析中的一种或多种；

对所述临床信息进行临床指标显著性分析，得到临床分析信息；

将所述组学处理数据与所述临床分析信息合并，得到待分析数据。

在一些可选的实施方式中，所述数据分析方法包括关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种。

在一些可选的实施方式中，结果图表确定模块530，还用于：

基于所述关联分析方法对所述待分析数据进行分析，得到分析结果图表，其中，所述关联分析方法包括相互作用网络分析法、双向正交偏最小二乘和相关性确定方法中的一种或多种。

在一些可选的实施方式中，结果图表确定模块530，还用于：

基于所述聚类分析方法对所述待分析数据进行分析，得到分析结果图表，其中，所述聚类分析方法包括Mfuzz多组学分析方法和WGCNA分析方法中的一种或多种。

在一些可选的实施方式中，结果图表确定模块530，还用于：

基于所述富集分析方法对所述待分析数据进行分析，得到分析结果图表，其中，所述富集分析方法包括单组学富集方法、多组学共同富集方法和基因集富集分析中一种或多种。

在一些可选的实施方式中，结果图表确定模块530，还用于：

基于所述MOFA分析方法对所述待分析数据进行分析，得到分析结果图表。

在一些可选的实施方式中，分析方法确定模块520，还用于：

若所述数据类型包括多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法；

若所述数据类型包括临床信息和单个组学数据的数据类型，则确定数据分析方法为数据拟合分析方法；

若所述数据类型包括临床信息和多个组学数据的数据类型，则确定数据分析方法为多组学数据分析方法和/或数据拟合分析方法；

相应的，结果图表确定模块530，还用于：

基于所述多组学数据分析方法和/或数据拟合分析方法对所述待分析数据进行分析，得到分析结果图表。

本发明实施例所提供的数据分析装置可执行本发明任意实施例所提供的数据分析方法，具备执行方法相应的功能模块和有益效果。

实施例六

图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备（如头盔、眼镜、手表等）和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器（ROM）12、随机访问存储器（RAM）13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器（ROM）12中的计算机程序或者从存储单元18加载到随机访问存储器（RAM）13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。I/O接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如数据分析方法，该方法包括：

在一些实施例中，数据分析方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的数据分析方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行数据分析方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上***的***（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的***和技术，该电子设备具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***（例如，作为数据服务器）、或者包括中间件部件的计算***（例如，应用服务器）、或者包括前端部件的计算***（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将***的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）、区块链网络和互联网。

计算***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种数据分析方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待分析数据，包括：

获取组学数据和/或临床信息；

3.根据权利要求1所述的方法，其特征在于，所述数据分析方法包括关联分析方法、聚类分析方法、富集分析方法和MOFA分析方法中的一种或多种。

4.根据权利要求3所述的方法，其特征在于，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：

5.根据权利要求3所述的方法，其特征在于，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：

6.根据权利要求3所述的方法，其特征在于，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：

7.根据权利要求3所述的方法，其特征在于，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述待分析数据中各数据的数据类型确定数据分析方法，包括：

相应的，所述基于所述数据分析方法对所述待分析数据进行分析，得到分析结果图表，包括：

9.一种数据分析装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的数据分析方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-8中任一项所述的数据分析方法。