CN113284611B - 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 - Google Patents
基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 Download PDFInfo
- Publication number
- CN113284611B CN113284611B CN202110535516.6A CN202110535516A CN113284611B CN 113284611 B CN113284611 B CN 113284611B CN 202110535516 A CN202110535516 A CN 202110535516A CN 113284611 B CN113284611 B CN 113284611B
- Authority
- CN
- China
- Prior art keywords
- cancer
- data
- model
- individual
- gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Primary Health Care (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Databases & Information Systems (AREA)
- Genetics & Genomics (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
Abstract
本发明公开了一种基于个体通路活性的癌症诊断和预后预测***、设备及存储介质,***包括:获取数据模块,用于获取待测个体的转录组测序数据;标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,通路活性计算模块,用于根据基因排序值计算通路活性;预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。与已有技术相比,本发明***不依赖于群体,消除了由癌症样本间异质性和跨平台测序产生的批次效应,更全面稳定的反应个体的物质代谢水平,提高了癌症诊断和预后预测的效率,为后续癌症异质性的研究及个性化医疗的发展提供了参考。
Description
技术领域
本发明涉及癌症的分子诊断领域,具体涉及一种基于个体通路活性的癌症诊断和预后预测***、设备及存储介质。
背景技术
利用转录组学数据筛选特征性的分子标志物对癌症患者进行分层,可以显著提高癌症的诊断、风险评估及预后预测。然而,现有的癌症分子标志物多基于单个基因或单个分子,其可重复性和灵敏度有限,难以应用于临床实践。越来越多的研究表明,癌症本质上是由于多个功能相关基因之间复杂的调控关系紊乱的结果,这提示应该从功能模块(如生物通路)的水平来解释癌症表达数据,而不是从单个基因和分子的水平。现有的癌症通路活性算法多依赖于群体或累计的正常样本,易受到样本间异质性和不同测序分析方法导致的批次效应的影响。
人工神经网络是以网络拓扑知识为理论基础,模拟人脑的神经***对复杂信息的处理机制的一种数学模型,它并非按给定的程序一步一步地执行运算,而是能够自身适应环境、总结规律并完成运算、识别或过程控制。作为应用最广泛的人工神经网络模型之一,反向传播(Back Propagation,BP)神经网络是一种按误差逆传播算法训练的多层前馈网络。BP神经网络使用最速下降法,通过反向传播来不断调整网络的权值和阈值,使网络的实际输出值和期望输出值之间的误差最小,以达到训练的目的。BP神经网络具有优良的非线性逼近能力,在处理缺失值和非线性问题时有着明显的优越性,已在模式识别、智能控制、风险评估和人工智能等众多领域取得了广泛的成功。
因此,完全可以将其引入临床医学诊断领域。然而原始标准的BP算法存在着易形成局部极小、收敛速度慢和过拟合等问题。为此,研究人员在标准BP算法的基础上进行了许多有益的改进,如动量法、Levenberg-Marquardt(LM)优化方法及共轭梯度学习算法等等。
发明内容
本发明的目的在于提出一种基于个体通路活性的癌症诊断和预后预测***、设备及存储介质,并依据个体化通路活性算法结合机器学***。
为了实现上述目的,本发明的技术方案是这样实现的:
基于个体通路活性的癌症诊断和预后预测***,包括:
获取数据模块,用于获取待测个体的转录组测序数据;
标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,
通路活性计算模块,用于根据基因排序值计算通路活性;
诊断预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
作为本发明的进一步改进,所述标准化处理模块具体用于,对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
作为本发明的进一步改进,所述通路活性计算模块具体用于从京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
作为本发明的进一步改进,所述癌症诊断模型采用以下方法构建:
对肿瘤基因组图谱(The Cancer Genome Atlas,TCGA)数据库中样本的通路活性进行计算;
利用通路活性数据构建癌症诊断模型:
对于每种癌症,将样本数据集随机划分为训练集和测试集;利用训练集中的数据创建双隐含层BP神经网络,并利用LM算法训练建立的网络,使其预测能力达到最优,最后在测试集中对模型的性能进行测试;
利用独立癌症数据集对模型进行验证和优化得到癌症诊断模型。
作为本发明的进一步改进,所述预后预测模型采用以下方法构建:
对于每种癌症,利用通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路;
对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;
筛选出在单因素COX回归中显著的通路,利用Lasso回归进一步筛选具有代表性的通路;
对于每种癌症,根据得到的代表性通路,构建多因素COX回归模型,得到预后预测模型。
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于个体通路活性的癌症诊断和预后预测方法的步骤;
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
作为本发明的进一步改进,对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:
对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
作为本发明的进一步改进,根据基因排序值计算通路活性具体步骤包括:
从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
与现有技术相比,本发明的有益效果体现在:
本发明提出的基于个体的通路活性算法的预测***,消除了由测序分析方法不同产生的批次效应,适用于多种测序平台产生的数据,更全面稳定的反应个体的物质代谢水平。利用个体化通路活性算法结合机器学***台测序产生的批次效应,更全面稳定的反应个体的物质代谢水平,提高了癌症诊断和预后预测的效率,为后续癌症异质性的研究及个性化医疗的发展提供了参考。
附图说明
图1为本发明提出的基于个体的通路活性算法的流程图;
图2为不同通路活性算法用于癌症诊断效率的比较;
图3为不同通路活性算法在独立癌症数据集中癌症诊断效率的比较图;
图4为不同通路活性算法用于癌症预后预测效率的比较图;
图5为基于个体通路活性的癌症诊断和预后预测***结构示意图;
图6为电子设备结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细说明。所述实施例仅用于解释本发明,而非对本发明保护范围的限制。
如图5所示,本发明一种基于个体通路活性的癌症诊断和预后预测***,包括:
获取数据模块,用于获取待测个体的转录组测序数据;
标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,
通路活性计算模块,用于根据基因排序值计算通路活性;
诊断预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
以下给出具体实施例,以说明本发明各个模块:
以TCGA泛癌症样本为例,利用本发明的方法,构建癌症诊断及预后模型,以下进行详细说明。
如图1所示,本发明提供所述标准化处理模块具体用于处理以下方法,包括以下步骤P1-P3。
P1:对TCGA的转录组测序数据进行标准化,对于每个样本,将标准化后的基因的表达值在样本内部从小到大的排序,将排序的位次作为基因的表达水平;
P2:为了防止微小变动对整体水平的影响,突出较大变化水平基因对整体的影响。根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,就得到了每个基因最终的表达水平。
P3:从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;对于每个样本,根据P2得到的基因表达水平,计算通路内基因的平均值得到该通路的活性水平。
所述通路活性计算模块具体用于从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
所述癌症诊断模型采用以下方法构建:
利用泛癌症样本的通路活性数据,本发明构建了癌症诊断模型,具体流程如下:
P4:利用机器学习构建癌症诊断模型
具体包括:利用计算得到的TCGA通路活性数据用于癌症诊断模型的构建。对于每种癌症,按照7:3比例将样本数据集随机划分为训练集和测试集。利用训练集中的数据创建双隐含层BP神经网络,并利用LM算法训练建立好的网络,使其预测能力达到最优;
P5:绘制模型的受试者工作特征(Receiver Operating Characteristic,ROC)曲线,计算ROC曲线下面积(Area Under Curve,AUC)对模型的预测效率进行评估,并与现有的通路活性算法进行比较;
具体包括:查阅文献,选择现有预测效率较好的通路活性算法,PLAGE、Pathifier、iPAS、IndividPath,对TCGA中所有样本的KEGG通路活性进行计算。利用通路活性数据,根据P4的方法分别构建癌症诊断模型。对每个模型绘制ROC曲线,计算AUC,比较发明算法与现有算法的预测效率。
P6:在癌症独立数据集中对模型进行验证。
具体包括:在GEO数据库中收集各个癌症的转录组测序数据,选取各个癌症中样本最多的独立数据集作为验证数据。对数据进行标准化,计算每个数据中各个样本的通路活性水平。利用通路活性数据对P4中构建的癌症预测模型进行验证,并绘制ROC曲线,计算AUC,比较本发明算法与现有算法的预测效率。
P7:在基于液体活检的独立数据集中对模型进行验证。
具体包括:收集基于肿瘤教育血小板(tumor-educated platelets,TEPs)的转录组测序数据,并对数据标准化。计算每个样本中的通路活性水平,对P1中构建的癌症预测模型进行验证。
所述预后预测模型采用以下方法构建:
结合预后数据,本发明构建了基于个体通路活性的癌症预后预测模型,具体流程如下:
P8:对于每种癌症,利用TCGA通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路(P-value<0.05);
P9:对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;
P10:筛选出在单因素COX回归中显著的通路(P<0.05),利用Lasso回归进一步筛选具有代表性的通路构建多因素COX回归模型;
P11:计算多因素COX回归模型的一致性指数(concordance index,C-index),比较算法与现有算法的预后预测效率;
表1本发明在基于肿瘤教育血小板的独立数据中的预测效率
实验结果:本发明构建了基于个体通路活性的癌症诊断及预后预测模型。
通过与现有方法对比发现,本发明构建的泛癌症诊断及预后预测模型具有更好的预测效能(图2-4),在基于肿瘤教育血小板的液体活检中也具有很高的临床应用价值(表1)。
如图6所示,本发明第二个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
其中,对转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:
对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
其中,根据基因排序值计算通路活性具体步骤包括:
从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
本发明第三个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述基于个体通路活性的癌症诊断和预后预测方法的步骤。
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
Claims (5)
1.基于个体通路活性的癌症诊断和预后预测***,其特征在于,包括:
获取数据模块,用于获取待测个体的转录组测序数据;
标准化处理模块,用于对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值,
通路活性计算模块,用于根据基因排序值计算通路活性;
诊断预测模块,用于根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测;
所述标准化处理模块具体用于,对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
所述癌症诊断模型采用以下方法构建:
对数据库中样本的通路活性进行计算;
利用通路活性数据构建癌症诊断模型:
对于每种癌症,将样本数据集随机划分为训练集和测试集;利用训练集中的数据创建双隐含层反向传播神经网络,并利用LM算法训练建立的网络,使其预测能力达到最优,最后在测试集中对模型的性能进行测试;
利用独立癌症数据集对模型进行验证和优化得到癌症诊断模型;
所述预后预测模型采用以下方法构建:
对于每种癌症,利用通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路;
对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;
筛选出在单因素COX回归中显著的通路,利用Lasso回归进一步筛选具有代表性的通路;
对于每种癌症,根据得到的代表性通路,构建多因素COX回归模型,得到预后预测模型。
2.根据权利要求1所述的***,其特征在于,
所述通路活性计算模块具体用于从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
3.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于个体通路活性的癌症诊断和预后预测方法的步骤;
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:
对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
所述癌症诊断模型采用以下方法构建:
对数据库中样本的通路活性进行计算;
利用通路活性数据构建癌症诊断模型:
对于每种癌症,将样本数据集随机划分为训练集和测试集;利用训练集中的数据创建双隐含层反向传播神经网络,并利用LM算法训练建立的网络,使其预测能力达到最优,最后在测试集中对模型的性能进行测试;
利用独立癌症数据集对模型进行验证和优化得到癌症诊断模型;
所述预后预测模型采用以下方法构建:
对于每种癌症,利用通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路;
对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;
筛选出在单因素COX回归中显著的通路,利用Lasso回归进一步筛选具有代表性的通路;
对于每种癌症,根据得到的代表性通路,构建多因素COX回归模型,得到预后预测模型。
4.根据权利要求3所述的电子设备,其特征在于,
根据基因排序值计算通路活性具体步骤包括:
从KEGG数据库中收集并整理所有生物学通路的信息,分别提取参与各个通路的基因列表;根据基因表达水平,计算通路内基因的平均值得到该通路的活性水平;批量计算所有KEGG通路的活性水平得到通路活性。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于个体通路活性的癌症诊断和预后预测方法的步骤:
基于个体通路活性的癌症诊断和预后预测方法包括以下步骤:
获取待测个体的转录组测序数据;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值;
根据基因排序值计算通路活性;
根据通路活性数据利用癌症诊断模型和癌症预后预测模型分别进行癌症诊断及预后预测;
对待测个体的转录组测序数据进行标准化处理,将标准化后的基因表达值转化为基因排序值具体包括:
对待测个体的转录组测序数据进行标准化;将标准化后的基因的表达值进行从小到大的排序,将排序的位次作为基因的表达水平;根据排序值的分位数,将特定分位数内的基因位次赋予相同的值,得到了每个基因最终的表达水平;
所述癌症诊断模型采用以下方法构建:
对数据库中样本的通路活性进行计算;
利用通路活性数据构建癌症诊断模型:
对于每种癌症,将样本数据集随机划分为训练集和测试集;利用训练集中的数据创建双隐含层反向传播神经网络,并利用LM算法训练建立的网络,使其预测能力达到最优,最后在测试集中对模型的性能进行测试;
利用独立癌症数据集对模型进行验证和优化得到癌症诊断模型;
所述预后预测模型采用以下方法构建:
对于每种癌症,利用通路活性数据结合样本的临床预后数据,对每个通路进行生存分析;筛选显著影响患者生存时间的通路;
对于每种癌症,对显著影响患者生存时间的通路分别构建单因素COX回归模型;
筛选出在单因素COX回归中显著的通路,利用Lasso回归进一步筛选具有代表性的通路;
对于每种癌症,根据得到的代表性通路,构建多因素COX回归模型,得到预后预测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535516.6A CN113284611B (zh) | 2021-05-17 | 2021-05-17 | 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110535516.6A CN113284611B (zh) | 2021-05-17 | 2021-05-17 | 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113284611A CN113284611A (zh) | 2021-08-20 |
CN113284611B true CN113284611B (zh) | 2023-06-06 |
Family
ID=77279463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110535516.6A Active CN113284611B (zh) | 2021-05-17 | 2021-05-17 | 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113284611B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341366A (zh) * | 2017-07-19 | 2017-11-10 | 西安交通大学 | 一种利用机器学习预测复杂疾病易感位点的方法 |
CN109599157A (zh) * | 2018-11-29 | 2019-04-09 | 同济大学 | 一种精准智能诊疗大数据*** |
CN110706749A (zh) * | 2019-09-10 | 2020-01-17 | 至本医疗科技(上海)有限公司 | 一种基于组织器官分化层次关系的癌症类型预测***和方法 |
WO2020232548A1 (en) * | 2019-05-21 | 2020-11-26 | Ontario Institute For Cancer Research (Oicr) | Pan-cancer transcriptional signature |
CN112725454A (zh) * | 2021-02-03 | 2021-04-30 | 山东第一医科大学附属省立医院(山东省立医院) | 膀胱癌患者总体生存率预后模型 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3763732A1 (en) * | 2016-11-25 | 2021-01-13 | Koninklijke Philips N.V. | Method to distinguish tumor suppressive foxo activity from oxidative stress |
-
2021
- 2021-05-17 CN CN202110535516.6A patent/CN113284611B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107341366A (zh) * | 2017-07-19 | 2017-11-10 | 西安交通大学 | 一种利用机器学习预测复杂疾病易感位点的方法 |
CN109599157A (zh) * | 2018-11-29 | 2019-04-09 | 同济大学 | 一种精准智能诊疗大数据*** |
WO2020232548A1 (en) * | 2019-05-21 | 2020-11-26 | Ontario Institute For Cancer Research (Oicr) | Pan-cancer transcriptional signature |
CN110706749A (zh) * | 2019-09-10 | 2020-01-17 | 至本医疗科技(上海)有限公司 | 一种基于组织器官分化层次关系的癌症类型预测***和方法 |
CN112725454A (zh) * | 2021-02-03 | 2021-04-30 | 山东第一医科大学附属省立医院(山东省立医院) | 膀胱癌患者总体生存率预后模型 |
Non-Patent Citations (4)
Title |
---|
"泛癌症图谱"的解读及应用;王思琪;唐明;王梁华;焦炳华;孙铭娟;;生命的化学(第05期);全文 * |
Pujan Joshi ; Brent Basso ; Honglin Wang ; Seung-Hyun Hong ; Charles Giardina ; Dong-Guk Shin.Identification of Key Biological Pathway Routes in Cancer Cohorts.IEEE.2021,全文. * |
基于多维基因组学的卵巢癌亚型分析;孟令豪;章琳;厉力华;;杭州电子科技大学学报(自然科学版)(第04期);全文 * |
基于肿瘤基质评分的胃癌预后基因分析;罗安;朱欣彦;胡晔东;刘雁冰;冉晨曦;刘菲;;同济大学学报(医学版)(第04期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113284611A (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Toh et al. | Applications of machine learning in healthcare | |
CN114783524B (zh) | 基于自适应重采样深度编码器网络的通路异常检测*** | |
CN111243662A (zh) | 基于改进XGBoost的泛癌症基因通路预测方法、***和存储介质 | |
CN107368707A (zh) | 基于us‑elm的基因芯片表达数据分析***及方法 | |
KR20210068713A (ko) | 딥러닝 기반 다중의료데이터를 통한 질병의 진행 예측 분석 시스템 | |
CN107924430A (zh) | 生物数据模式识别的多级体系构架 | |
Sekaran et al. | Predicting autism spectrum disorder from associative genetic markers of phenotypic groups using machine learning | |
CN114373547A (zh) | 疾病患病风险的预测方法及*** | |
CN113284611B (zh) | 基于个体通路活性的癌症诊断和预后预测***、设备及存储介质 | |
TWI709904B (zh) | 訓練類神經網路以預測個體基因表現特徵的方法及系統 | |
Ono et al. | Introduction to supervised machine learning in clinical epidemiology | |
WO2022212337A1 (en) | Graph database techniques for machine learning | |
Li et al. | Multiclass nonnegative matrix factorization for comprehensive feature pattern discovery | |
CN116631572B (zh) | 基于人工智能的急性心肌梗死临床决策支持***及设备 | |
Anand et al. | Building an intelligent integrated method of gene selection for facioscapulohumeral muscular dystrophy diagnosis | |
Khan et al. | Genetic Algorithm for Biomarker Search Problem and Class Prediction | |
CN114822691B (zh) | 基于图卷积神经网络的临床事件预测装置 | |
Gagula-Palalic et al. | Denver groups classification of human chromosomes using cann teams | |
Roth Cardoso | Enabling cardiovascular multimodal, high dimensional, integrative analytics | |
Zhou | Integrating web data miningand machine learningalgorithms to predict progression free survival and overall survival in multiple myeloma patients | |
Yu | Deep Generative Models for Single-Cell Perturbation Experiments | |
Galozy | Towards Understanding ICU Procedures using Similarities in Patient Trajectories: An exploratory study on the MIMIC-III intensive care database | |
Vasanthakumar et al. | A HYBRID ENSEMBLE METHOD FOR ACCURATE FUZZY AND SUPPORT VECTOR MACHINE FOR GENE EXPRESSION IN DATA MINING. | |
Omar Ali | A Comparative study of cancer detection models using deep learning | |
Mostafa | Gene expression analysis using machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |