CN116167462B - 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置 - Google Patents

肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置 Download PDF

Info

Publication number
CN116167462B
CN116167462B CN202310438603.9A CN202310438603A CN116167462B CN 116167462 B CN116167462 B CN 116167462B CN 202310438603 A CN202310438603 A CN 202310438603A CN 116167462 B CN116167462 B CN 116167462B
Authority
CN
China
Prior art keywords
model
prediction
sample
hepatocellular carcinoma
free dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310438603.9A
Other languages
English (en)
Other versions
CN116167462A (zh
Inventor
侯金林
樊蓉
赵思如
梁携儿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southern Hospital Southern Medical University
Original Assignee
Southern Hospital Southern Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southern Hospital Southern Medical University filed Critical Southern Hospital Southern Medical University
Priority to CN202310438603.9A priority Critical patent/CN116167462B/zh
Publication of CN116167462A publication Critical patent/CN116167462A/zh
Application granted granted Critical
Publication of CN116167462B publication Critical patent/CN116167462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Analytical Chemistry (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置。该肝细胞癌预测模型构建方法包括:确定预测对象的样本预测信息;基于该样本预测信息进行模型训练,获得肝细胞癌预测模型;该肝细胞癌预测模型包括第一模型、第二模型和第三模型;该第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型;第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型;第三模型的训练过程包括:基于第一模型、第二肝指标信息和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型。该肝细胞癌模型构建方法能够提高肝细胞癌预测模型的预测准确性。

Description

肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置
技术领域
本发明涉及生物信息学技术领域,具体涉及一种肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置、计算机设备和计算机可读存储介质。
背景技术
肝细胞癌是一种严重威胁人类生命安全的恶性疾病。当前肝细胞癌的针对性检查主要分为影像学检查和实验室检查。影像学检查最常用的是体表超声方法;实验室检查主要包括肝功能检查、血常规检查以及肿瘤标志物检查等。然而,肝细胞癌的病因和发病机制尚不明确,不论是影像学检查还是实验室检查,其检测能力都十分有限,确定患病结果时严重依赖检查医生的经验水平。
近年来,数据建模算法在医疗领域的应用频率和研究深度增长迅速,已有应用数据建模算法实现对部分疾病患病率的预测方法,且效果显著。然而,当前针对肝细胞癌预测的数据建模算法中一般都采用患者当次就诊时的血清学标志物(如甲胎蛋白)进行肝细胞癌发生概率的预测,没有对患者的纵向就诊数据进行有效利用,模型性能差,肝细胞癌发生概率预测准确性低。
发明内容
有鉴于此,本发明实施例提供了一种肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置、计算机设备和计算机可读存储介质,以解决当前肝细胞癌发生概率预测准确性差的问题。
根据第一方面,本发明实施例提供了一种肝细胞癌预测模型构建方法,该方法包括:确定样本预测对象的样本预测信息;所述样本预测信息包括按照随访时序记录的所述样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;基于样本预测对象的所述样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,所述肝细胞癌预测模型包括第一模型、第二模型和第三模型;所述第一模型的训练过程包括:基于所述属性信息和所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型;所述第二模型的训练过程包括:基于所述第一模型和所述第二肝指标信息训练初始的第二模型,获得训练后的第二模型;所述第三模型的训练过程包括:基于所述第一模型、第二肝指标信息和所述循环游离DNA特征训练初始的第三模型,获得训练后的第三模型。
在一些实施例中,所述基于所述属性信息和所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型的步骤,包括:确定所述样本预测对象当次随访的属性信息和第一肝指标信息对应的初始预测因子;根据所述样本预测对象的实际患病情况调整所述初始预测因子,获得第一预测因子;根据所述第一预测因子、当次随访的所述属性信息和当次随访的所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型;所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果。
在一些实施例中,基于所述第一模型和所述第二肝指标信息训练初始的第二模型,获得训练后的第二模型的步骤,包括:基于所述第一模型在当次随访以及历史随访输出的第一预测结果和所述样本预测对象当次随访以及历史随访的第二肝指标信息确定出所述样本预测对象的第一样本特征信息;将所述样本预测对象分为患病样本组和非患病样本组;分别拟合所述患病样本组和非患病样本组的第一样本特征信息,获得所述患病样本组对应的第一患病组平均轮廓和所述非患病样本组对应的第一非患病组平均轮廓;基于所述第一患病组平均轮廓和所述第一非患病组平均轮廓训练初始的第二模型,获得训练后的第二模型;所述第二模型用于在所述第一预测结果满足第一预设条件的情况下,基于所述第一预测结果和所述第二肝指标信息获得第二预测结果。
在一些实施例中,所述基于所述第一模型、第二肝指标信息和所述循环游离DNA特征训练初始的第三模型,获得训练后的第三模型的步骤,包括:基于所述第一模型在当次随访以及历史随访输出的第一预测结果、所述样本预测对象当次随访以及历史随访的第二肝指标信息和循环游离DNA特征确定出所述样本预测对象的第二样本特征信息;将所述样本预测对象分为患病样本组和非患病样本组;分别拟合所述患病样本组和非患病样本组的第二样本特征信息,获得所述患病样本组对应的第二患病组平均轮廓和所述非患病样本组对应的第二非患病组平均轮廓;基于所述第二患病组平均轮廓和所述第二非患病组平均轮廓训练初始的第三模型,获得训练后的第三模型;所述第三模型用于在所述第二预测结果满足第二预设条件的情况下,根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果。
根据第二方面,本发明实施例提供了一种基于如第一方面中的肝细胞癌预测模型的肝细胞癌预测方法,该方法包括:确定待预测对象的目标预测信息;所述目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;将所述目标预测信息输入所述肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果;所述肝细胞癌预测模型包括第一模型、第二模型和第三模型,其中,所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果;在所述第一预测结果满足第一预设条件的情况下,所述第二模型用于根据所述第一预测结果和所述第二肝指标信息获得第二预测结果;在所述第二预测结果满足第二预设条件的情况下,所述第三模型用于根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果;根据所述肝细胞癌预测结果确定所述待预测对象的肝细胞癌发生概率。
在一些实施例中,将所述目标预测信息输入所述肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的预测结果的步骤,包括:将所述目标预测信息输入所述第一模型中,以供所述第一模型基于模型自身的第一预测因子、当次随访的所述属性信息和当次随访的所述第一肝指标信息获得所述第一预测结果;在当次随访的第一预测结果满足第一预设条件的情况下,将按照随访时序记录的第一预测结果和第二肝指标信息输入所述第二模型,以供所述第二模型基于当次随访以及历史随访的所述第一预测结果和所述第二肝指标信息构建所述待预测对象对应的第一目标轮廓,并将所述第一目标轮廓与第一特定平均轮廓进行比较处理,获得所述第二预测结果;在当次随访的第二预测结果满足第二预设条件的情况下,将按照随访时序记录的第一预测结果、第二肝指标信息和循环游离DNA特征输入所述第三模型,以供所述第三模型基于当次随访以及历史随访的所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征构建所述待预测对象对应的第二目标轮廓,并将所述第二目标轮廓与第二特定平均轮廓进行比较处理,获得所述第三预测结果;将所述第三预测结果确定为所述肝细胞癌预测结果。
在一些实施例中,所述将所述目标预测信息输入肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果的步骤,还包括:在当次随访的第一预测结果不满足第一预设条件的情况下,将所述第一预测结果确定为所述肝细胞癌预测结果;或者,在当次随访的第二预测结果不满足第二预设条件的情况下,将所述第二预测结果确定为所述肝细胞癌预测结果。
在一些实施例中,所述确定待预测对象的目标预测信息的步骤,包括:提取所述待预测对象在历史随访时被记录的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;所述第一肝指标信息包括白蛋白、总胆红素以及血小板计数中的一种或多种,所述第二肝指标信息包括甲胎蛋白;针对当次随访,根据所述待预测对象的体检信息确定所述属性信息和所述肝指标信息,以及根据所述待预测对象的血液样本确定所述循环游离DNA特征,所述循环游离DNA特征包括核小体印记、末端基序特征、片段化特征中的一种或多种。
在一些实施例中,所述根据所述待预测对象的血液样本确定所述循环游离DNA特征的步骤,包括:从所述待预测对象的血液样本中提取源循环游离DNA样本;基于所述源循环游离DNA样本进行DNA建库和测序处理,并对测序处理后的循环游离DNA样本进行数据处理,获得目标循环游离DNA样本;基于基因组信息分析工具从所述目标循环游离DNA样本中提取所述循环游离DNA特征。
根据第三方面,本发明实施例提供了一种基于肝细胞癌预测模型的肝细胞癌预测装置,该装置包括:目标确定模块,用于确定待预测对象的目标预测信息;所述目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;输入模块,用于将所述目标预测信息输入所述肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果;所述肝细胞癌预测模型包括第一模型、第二模型和第三模型,其中,所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果;在所述第一预测结果满足第一预设条件的情况下,所述第二模型用于根据所述第一预测结果和所述第二肝指标信息获得第二预测结果;在所述第二预测结果满足第二预设条件的情况下,所述第三模型用于根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果;预测模块,用于根据所述肝细胞癌预测结果确定所述待预测对象的肝细胞癌发生概率。
根据第四方面,本发明实施例提供了一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如上述第一方面的肝细胞癌预测模型构建方法的步骤,或者如上述第二方面的肝细胞癌预测方法的步骤。
根据第五方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面的肝细胞癌预测模型构建方法的步骤,或者如上述第二方面的肝细胞癌预测方法的步骤。
本发明技术方案,具有如下优点:本发明实施例提供一种肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置、计算机设备和计算机可读存储介质,该肝细胞癌预测模型构建方法包括:首先确定预测对象的样本预测信息;该样本预测信息包括按照随访时序记录的该样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;然后基于该样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型;该第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型;第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型;第三模型的训练过程包括:基于第一模型和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型,该肝细胞癌模型构建过程实现了结合多种血清学标志物并联合循环游离DNA的综合模型训练,能够提高肝细胞癌预测模型的预测准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于循环游离DNA的肝细胞癌预测模型构建方法的流程图。
图2为本发明实施例提供的一种第一模型训练方法的流程图。
图3为本发明实施例提供的一种第二模型训练方法的流程图。
图4为本发明实施例提供的一种第三模型训练方法的流程图。
图5为本发明实施例提供的一种基于肝细胞癌预测模型的肝细胞癌预测方法的流程图。
图6为本发明实施例提供的一种确定待预测对象的目标预测信息的方法的流程图。
图7为本发明实施例提供的一种确定循环游离DNA特征的方法的流程图。
图8为本发明实施例提供的一种获得预测结果的方法的流程图。
图9为本发明实施例提供的一种基于循环游离DNA的肝细胞癌预测模型构建装置的结构示意图。
图10为本发明实施例提供的一种基于肝细胞癌预测模型的肝细胞癌预测装置的结构示意图。
图11为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于循环游离DNA(Deoxyribo Nucleic Acid,脱氧核糖核酸)的肝细胞癌预测模型构建方法的流程图。如图1所示,该基于循环游离DNA的肝细胞癌预测模型构建方法包括以下步骤:步骤S1-步骤S2。
步骤S1、确定样本预测对象的样本预测信息。
其中,样本预测对象是长时间随访的具有肝细胞癌风险的慢性肝炎人群。
样本预测信息包括按照随访时序记录的样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征。
样本预测信息源于样本预测对象的临床资料,利用样本预测对象随访期间所产生的庞大的所有标志物信息构建,即该样本预测信息是具有时序特征的纵向数据。在样本预测信息中,属性信息包括但不限于性别、年龄等;第一肝指标信息包括但不限于白蛋白(ALB)、总胆红素(TBIL)和血小板计数(PLT)中的一种或多种;第二肝指标信息包括但不限于甲胎蛋白。循环游离DNA是释放到血浆中的降解的DNA片段,存在于人体的各种体液中,随组织损伤、癌症和炎症反应等发生浓度变化,循环游离DNA特征包括但不限于核小体印记(Nucleosome)、末端基序特征(Motif)、片段化特征(Fragment)中的一种或多种。
在一些实施例中,该样本预测对象可以是长时间随访的肝硬化患者。例如,选择多个肝硬化患者将其作为样本预测对象,记录每个该肝硬化患者每次随访时的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征,以形成样本预测对象的样本预测信息。
需要说明的是,为了保证样本预测信息的质量和有效性,可以剔除随访时间小于第一预定时间段的样本预测对象的样本预测信息,因为随访时间过短会导致样本预测信息(时序序列)的纵向深度过短,参考意义受限,其中,第一预定时间段可以根据实际应用情况进行设定,例如可以设定为6个月。还可以剔除在第二预定时间段内确诊为肝细胞癌的样本预测对象的样本预测信息,一是因为肝细胞癌的病因和发病机制尚不明确,样本预测对象确诊时一般已经处于肝细胞癌发展程度较高水平,该样本预测对象的样本预测信息会给整体数据带来较大波动;二是因为本发明的目标是实现肝细胞癌的早期预测,该样本预测对象对发明的参考意义较小;其中,第二预定时间段可以根据实际应用情况进行设定,例如可以设定为3个月。
在一个实施方式中,确定样本预测信息中的循环游离DNA特征的步骤,包括:下述第一步、第二步和第三步。
第一步、从样本预测对象的血液样本中提取源循环游离DNA样本的方式包括:采集待预测对象8-10 ml外周血于采血管,离心2次,每次10分钟,分离获得含有循环游离DNA的血浆。前一次离心转速1600×g,后一次离心转速16000×g。按照循环游离DNA提取试剂盒说明书操作,分离提取循环游离DNA。利用荧光剂和片段分析仪器分别检测循环游离DNA的浓度和片段大小,剔除浓度与片段大小过低的循环游离DNA,获得源循环游离DNA样本。
第二步、从源循环游离DNA样本中使用5ng的循环游离DNA样本上述制备测序文库。制备过程包括:利用末端加A酶和接头连接酶对源循环游离DNA样本进行末端修复及添加A尾和接头连接,其中,接头序列为Illumina NovaSeq 6000(一种测序平台)设计;接着使用磁珠对循环游离DNA样本进行纯化,使用文库定量试剂盒进行定量,最后选取相同大小片段的DNA组成测序文库。
第三步、采用低通量全基因组测序技术进行测序。测序时,在测序平台上使用2×150 bp的配对末端进行平均覆盖率为2x的全基因组测序,获得测序处理后的循环游离DNA样本。
第四步、在测序质控软件上去除接头序列、末端序列和50 bp以下的循环游离DNA序列,使用比对算法工具将上述清理后的循环游离DNA序列与人类参考基因组GRCh37比对后,用比对去重软件标记并去除重复比对或未比对的循环游离DNA序列。接着运用SMA(Smart Memory Analyzer)文件处理工具计算比对率、重复率和基因组覆盖率,其中,比对率高于90%、重复率低于25%、覆盖率高于50%的序列属于可以通过质量控制的循环游离DNA序列。在得到通过质量控制的循环游离DNA序列后,进一步过滤掉未比对的、低质量的、标记重复的以及从正向和反向两次测序得到的序列结果未完美匹配的循环游离DNA序列,以获得目标循环游离DNA样本。
第五步、基于基因组信息分析工具从目标循环游离DNA样本中提取循环游离DNA特征。
其中,利用bedtools(一种处理基因组信息分析的工具)建立了核小体印记,以计算读取分布,并去除启动子区域(距离TSS±2.5kb)的未覆盖基因,以及剔除管家基因和沉默基因:在启动子区中测序深度显示为0、秩和检验时p(一种表征检验结果的显著性水平参数)≥0.05、最小绝对值收敛和选择算子(least absolute shrinkage and selectionoperator,LASSO)权重为0的基因进一步剔除。
末端基序特征由pysam(一种处理基因组信息分析的python模块)构建,用于计算256种类型的长度为4bp的DNA分子尾部的百分比,其中,除Y染色体外的整个基因组被分成5MB长度的分箱,生成621个区域,然后使用LASSO过滤掉权重为0的区域,并保留154个区域。
片段化特征由pysam建立,计算不同区域的***片段长度和短/长片段占比。我们识别了256种不同类型的长度为4 bp的循环游离DNA分子尾部,并计算了它们的百分比而不考虑染色体Y和未识别的碱基,过滤了以下Motif类型:p≥0.05(秩和检验时);LASSO权重为0。最终,115种循环游离DNA的片段化特征留作进一步分析。
步骤S2、基于样本预测对象的样本预测信息进行模型训练,获得肝细胞癌预测模型。
其中,肝细胞癌预测模型是用于对肝细胞癌发生概率进行预测的模型,该肝细胞癌预测模型包括第一模型、第二模型和第三模型。
肝细胞癌预测模型中,第一模型是风险预测(age-Male-ALBI-Platelets,aMAP)模型。该第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型。该训练后的第一模型用于根据属性信息和第一肝指标信息获得第一预测结果,该第一预测结果可以以分数值的形式表征。
第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型。其中,训练后的第二模型用于在第一预测结果满足第一预设条件的情况下,基于第一预测结果和第二肝指标信息获得第二预测结果,该第一预设条件是在获得第一预测结果后确定需要继续进行肝细胞癌预测的条件,例如可以为第一预测结果中的分数值大于第一阈值。该第二预测结果也可以以分数值的形式表征。
第三模型的训练过程包括:基于第一模型、第二肝指标信息和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型。其中,训练后的第三模型用于在第二预测结果满足第二预设条件的情况下,根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果,该第二预设条件例如第二预测结果中的分数值大于第二阈值,该第三预测结果也可以以分数值的形式表征。
本发明实施例中提供的肝细胞癌预测模型构建方法中,利用样本预测对象随访期间所产生的样本预测信息,即具有时序特征的纵向数据进行模型构建,能够使得构建后的肝细胞癌预测模型具有动态预测肝细胞癌发生概率的能力,实现对肝细胞癌患者的早筛。
另外,肝细胞癌预测模型包含的子模型(第一模型、第二模型和第三模型)的训练过程不是相互独立的训练过程,而是层层递进的训练过程:先训练初始的第一模型,获得训练后的第一模型;然后基于该训练后的第一模型对初始的第二模型进行训练,获得训练后的第二模型;最后基于该训练后的第一模型和训练后的第二模型对初始的第三模型进行训练,获得训练后的第三模型。并且,第一模型和第二模型的训练过程中引入了多种血清学标志物(第一肝指标信息和第二肝指标信息),第三模型的训练过程中引入了循环游离DNA特征,实现了结合多种血清学标志物并联合循环游离DNA的综合模型训练,有利于多方面反映机体病理改变与肿瘤相关变异信息,具有较高的灵敏性和准确度,为微小肿瘤的检测提供了新的工具与思路。
还需要说明的是,在获得训练后的第一模型、训练后的第二模型和训练后的第三模型之后,该肝细胞癌预测模型是由训练后的第一模型、训练后的第二模型和训练后的第三模型序贯应用获得的。该序贯应用是指进行肝细胞癌预测时,肝细胞癌预测模型中先由训练后的第一模型进行预测,获得第一预测结果,根据该第一预测结果确定是否需要继续进行预测;若需要继续进行预测的情况下,则由第二预测模型根据该第一预测结果进行进一步预测,获得第二预测结果,然后根据该第二预测结果确定是否需要再进一步预测;若需要继续进行预测的情况下,则由第三预测模型基于前述第一预测结果进行再进一步预测,获得第三预测结果。通过该序贯应用过程,可以逐步确定肝细胞癌的发生概率,逐步提高肝细胞癌的早筛精度,为实现肝细胞癌的早筛工作提供了经济高效和便于实行的临床方案。
本发明实施例提供一种基于循环游离DNA的肝细胞癌预测模型构建方法,该方法包括:首先确定预测对象的样本预测信息;该样本预测信息包括按照随访时序记录的该样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;然后基于该样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型;该第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型;第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型;第三模型的训练过程包括:基于第一模型、第二肝指标信息和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型,该肝细胞癌模型构建过程利用具有时序特性的样本预测信息,实现了结合多种血清学标志物并联合循环游离DNA的综合模型训练,能够提高肝细胞癌预测模型的预测准确性。
图2为本发明实施例提供的一种第一模型训练方法的流程图。如图2所示,上述基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型的步骤,包括:步骤S201-步骤S203。
步骤S201、确定样本预测对象当次随访的属性信息和第一肝指标信息对应的初始预测因子。
其中,属性信息包括但不限于性别、年龄等;第一肝指标信息包括但不限于白蛋白、总胆红素和血小板计数中的一种或多种。
样本预测对象当次随访的属性信息和第一肝指标信息是当次随访中记录的属性信息和第一肝指标信息。
初始预测因子包括初步确定的偏置值,以及用于表征该属性信息与该第一指标信息中每一项的重要程度的指标。
步骤S202、根据样本预测对象的实际患病情况调整初始预测因子,获得第一预测因子。
其中,第一预测因子是根据样本预测对象的实际患病情况调整获得的偏重指标,以及用于表征该属性信息与该第一指标信息中每一项的重要程度的指标。
步骤S203、根据第一预测因子、当次随访的属性信息和当次随访的第一肝指标信息训练初始的第一模型,获得训练后的第一模型。
其中,第一模型为风险评估模型。训练后的第一模型用于根据属性信息和第一肝指标信息获得第一预测结果。
在一个实施方式中,第一预测结果的计算方式为:aMAP= ({0.06 × 样本预测对象的年龄 + 0.89 × 样本预测对象的性别 (男性: 1;女性: 0) + 0.48 × [(log10样本预测对象的TBIL × 0.66) + (样本预测对象的ALB × -0.085)] - 0.01 × 样本预测对象的PLT)} + 7.4)/14.77 × 100,其中,0.06、0.89、0.48、0.66、-0.085、0.01、7.4、14.77以及100都是第一模型相应的第一评估因子。
本发明实施例中,基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型,该训练后的第一模型能够进行初步的肝细胞癌预测,确定第一预测结果。
图3为本发明实施例提供的一种第二模型训练方法的流程图。如图3所示,上述基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型的步骤,包括:步骤S204-步骤S207。
步骤S204、基于第一模型在当次随访以及历史随访输出的第一预测结果和样本预测对象当次随访以及历史随访的第二肝指标信息确定出样本预测对象的第一样本特征信息。
其中,第一样本特征信息是用于训练第二模型的训练数据。该第一样本特征信息包括按照随访时序记录的样本预测对象的第一预测结果和第二肝指标信息,即该第一样本特征信息中包含样本预测对象在当次随访以及历史随访时通过第一模型预测出的第一预测结果,以及样本预测对象当次随访以及历史随访的时检测的第二肝指标信息。该历史随访是指当次随访之前的每一次随访。
步骤S205、将样本预测对象分为患病样本组(HCC组)和非患病样本组(non-HCC组)。
步骤S206、分别拟合患病样本组和非患病样本组的第一样本特征信息,获得患病样本组对应的第一患病组平均轮廓和非患病样本组对应的第一非患病组平均轮廓。
其中,第一患病组平均轮廓是拟合患病样本组的第一样本特征信息获得的平均轮廓。第一非患病组平均轮廓是拟合非患病样本组的第一样本特征信息获得的平均轮廓。
在一个实施方式中,可以基于初始纵向模型,分别拟合患病样本组和非患病样本组的第一样本特征信息,获得患病样本组对应的第一患病组平均轮廓和非患病样本组对应的第一非患病组平均轮廓,其中,初始纵向模型可以采用多元线性混合效应模型(Multivariate Linear Mixed Effect Models, MLMM)。
步骤S207、基于第一患病组平均轮廓和第一非患病组平均轮廓训练初始的第二模型,获得训练后的第二模型。
其中,训练后的第二模型中包含第一患病组平均轮廓和第一非患病组平均轮廓,在利用第二模型进行肝细胞癌预测的过程中,第二模型可以分别比较疑似患者的第一样本特征信息拟合出的轮廓与第一患病组平均轮廓和第一非患病组平均轮廓的相似度,给出该疑似患者在当次随访时为分类为肝细胞癌患者组的预测概率,即第二预测结果,数值范围为0-1,数值越高则代表肝细胞癌发生风险越大。
在一个实施方式中,第二模型可以采用边际预测方法(使用对待预测对象观察到的纵向数据的边际分布来预测他们的转癌风险)分别比较疑似患者的第一样本特征信息拟合出的轮廓与第一患病组平均轮廓和第一非患病组平均轮廓的相似度。
本发明实施例中,训练后的第二模型用于在第一预测结果满足第一预设条件的情况下,基于第一预测结果和第二肝指标信息获得第二预测结果,实现基于多种血清学标志物的模型训练。
图4为本发明实施例提供的一种第三模型训练方法的流程图。如图4所示,上述基于第一模型和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型的步骤,包括:步骤S208-步骤S211。
步骤S208、基于第一模型在当次随访以及历史随访输出的第一预测结果、样本预测对象当次随访以及历史随访的第二肝指标信息和循环游离DNA特征确定出样本预测对象的第二样本特征信息。
其中,第二肝指标信息包括但不限于甲胎蛋白;循环游离DNA特征包括但不限于核小体印记、末端基序特征、片段化特征中的一种或多种。该第二样本特征信息包括按照随访时序记录的样本预测对象的第一预测结果、第二肝指标信息和循环游离DNA特征,即该第二样本特征信息中包含样本预测对象在当次随访以及历史随访时通过第一模型预测出的第一预测结果,以及样本预测对象当次随访以及历史随访时检测的第二肝指标信息以及循环游离DNA特征。
步骤S209、将样本预测对象分为患病样本组和非患病样本组。
步骤S210、分别拟合患病样本组和非患病样本组的第二样本特征信息,获得患病样本组对应的第二患病组平均轮廓和非患病样本组对应的第二非患病组平均轮廓。
其中,第二患病组平均轮廓是拟合患病样本组的第二样本特征信息获得的平均轮廓。第二非患病组平均轮廓是拟合非患病样本组的第二样本特征信息获得的平均轮廓。
在一个实施方式中,可以基于初始纵向模型,分别拟合患病样本组和非患病样本组的第二样本特征信息,获得患病样本组对应的第二患病组平均轮廓和非患病样本组对应的第二非患病组平均轮廓,其中,初始纵向模型可以采用多元线性混合效应模型。
步骤S211、基于第二患病组平均轮廓和第二非患病组平均轮廓训练初始的第三模型,获得训练后的第三模型。
其中,训练后的第三模型中包含第二患病组平均轮廓和第二非患病组平均轮廓,在利用训练后的第三模型进行肝细胞癌预测的过程中,第三模型可以分别比较疑似患者的第二样本特征信息拟合出的轮廓与第二患病组平均轮廓和第二非患病组平均轮廓的相似度,给出该疑似患者在当次随访时为分类为肝细胞癌患者组的预测概率,即第二预测结果,数值范围为0-1,数值越高则代表肝细胞癌发生风险越大。
在一个实施方式中,第三模型可以采用边际预测方法分别比较疑似患者的第二样本特征信息拟合出的轮廓与第二患病组平均轮廓和第二非患病组平均轮廓的相似度。
本发明实施例中,训练后的第三模型用于在第二预测结果满足第二预设条件的情况下,根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果,实现基于多种血清学标志物联合循环游离DNA特征的模型训练。
图5为本发明实施例提供的一种基于肝细胞癌预测模型的肝细胞癌预测方法的流程图。如图5所示,该基于肝细胞癌预测模型的肝细胞癌预测方法包括:步骤S3-步骤S5。
步骤S3、确定待预测对象的目标预测信息。
其中,待预测对象是要对其进行肝细胞癌预测的对象。
目标预测信息包括按照随访时序记录的待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征。
目标预测信息源于待预测对象的临床资料,利用待预测对象随访期间所产生的庞大的所有标志物信息构建,即该目标预测信息是具有时序特征的纵向数据。
在目标预测信息中,属性信息包括但不限于性别、年龄等;第一肝指标信息包括但不限于白蛋白(ALB)、总胆红素(TBIL)和血小板计数(PLT)中的一种或多种;第二肝指标信息包括但不限于甲胎蛋白。循环游离DNA是释放到血浆中的降解的DNA片段,存在于人体的各种体液中,随组织损伤、癌症和炎症反应等发生浓度变化,循环游离DNA特征包括但不限于核小体印记、末端基序特征、片段化特征中的一种或多种。
步骤S4、将目标预测信息输入肝细胞癌预测模型中,获得肝细胞癌预测模型输出的肝细胞癌预测结果。
其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型。该肝细胞癌预测模型是由训练后的第一模型、训练后的第二模型和训练后的第三模型序贯应用获得的。
该第一模型用于根据属性信息和第一肝指标信息获得第一预测结果,其中,第一预测结果可以以分数值的形式表征。
在第一预测结果不满足第一预设条件的情况下,将第一预测结果确定为肝细胞癌预测结果。在第一预测结果满足第一预设条件的情况下,第二模型用于根据第一预测结果和第二肝指标信息获得第二预测结果。
其中,第一预设条件是在获得第一预测结果后确定需要继续进行肝细胞癌预测的条件,例如,该第一预设条件可以是第一预测结果中的分数值大于第一阈值。该第二预测结果也可以以分数值的形式表征。
在第二预测结果不满足第二预设条件的情况下,将第二预测结果确定为肝细胞癌预测结果。在第二预测结果满足第二预设条件的情况下,第三模型用于根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果,并将该第三预测结果确定为肝细胞癌预测结果。
其中,第二预设条件是在获得第二预测结果后确定需要继续进行肝细胞癌预测的条件,例如,该第二预设条件可以是第二预测结果中的分数值大于第二阈值。该第三预测结果也可以以分数值的形式表征。
通过上述序贯应用过程,肝细胞癌预测模型可以逐步确定肝细胞癌的发生概率,逐步提高肝细胞癌的早筛精度。
本发明实施例中提供的肝细胞癌预测方法中,利用待预测对象随访期间所产生的目标预测信息,即具有时序特征的纵向数据进行肝细胞癌预测,能够有效进行动态预测肝细胞癌发生概率的预测,实现对肝细胞癌患者的早筛。
另外,目标预测信息中包含多种血清学标志物(第一肝指标信息和第二肝指标信息)以及循环游离DNA特征,将目标预测信息输入肝细胞癌预测模型中,能够实现结合多种血清学标志物并联合循环游离DNA的肝细胞癌预测,有利于多方面反映机体病理改变与肿瘤相关变异信息,具有较高的灵敏性和准确度。
步骤S5、根据肝细胞癌预测结果确定待预测对象的肝细胞癌发生概率。
其中,肝细胞癌预测结果是包含分数值的结果。
在一些实施例中,可以基于预先设定的对应关系表将肝细胞癌预测结果中的分数值转换为肝细胞癌发生概率,提高预测结果的直观性。
本发明实施例提供一种基于肝细胞癌预测模型的肝细胞癌预测方法,该方法包括:首先确定待预测对象的目标预测信息,该目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;然后将目标预测信息输入肝细胞癌预测模型中,获得该肝细胞癌预测模型输出的肝细胞癌预测结果;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型,该第一模型用于根据属性信息和第一肝指标信息获得第一预测结果;在第一预测结果满足第一预设条件的情况下,第二模型用于根据第一预测结果和第二肝指标信息获得第二预测结果;在第二预测结果满足第二预设条件的情况下,第三模型用于根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果;最后,根据肝细胞癌预测结果确定待预测对象的肝细胞癌发生概率,该肝细胞癌预测方法中利用具有时序特性的目标预测信息,实现了结合多种血清学标志物并联合循环游离DNA的肝细胞癌预测,能够提高肝细胞癌预测的准确性。
图6为本发明实施例提供的一种确定待预测对象的目标预测信息的方法的流程图。如图6所示,该确定待预测对象的目标预测信息的步骤,包括:步骤S31-步骤S32。
步骤S31、提取待预测对象在历史随访时被记录的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征。
其中,历史随访是指当次随访之前的随访。第一肝指标信息包括但不限于白蛋白、总胆红素以及血小板计数中的一种或多种,第二肝指标信息包括但不限于甲胎蛋白。
步骤S32、针对当次随访,根据待预测对象的体检信息确定属性信息和肝指标信息,以及根据待预测对象的血液样本确定循环游离DNA特征。
其中,循环游离DNA特征包括核小体印记、末端基序特征、片段化特征中的一种或多种。
图7为本发明实施例提供的一种确定循环游离DNA特征的方法的流程图。如图7所示,该根据待预测对象的血液样本确定循环游离DNA特征的步骤(步骤S32),包括:步骤S321-步骤S323。
步骤S321、从待预测对象的血液样本中提取源循环游离DNA样本。
其中,待预测对象的血液样本可以通过采集获得。
在一个实施方式中,从待预测对象的血液样本中提取源循环游离DNA样本的方式包括:采集待预测对象8-10 ml外周血于采血管,离心2次,每次10分钟,分离获得含有循环游离DNA的血浆。前一次离心转速1600×g,后一次离心转速16000×g。按照循环游离DNA提取试剂盒说明书操作,分离提取循环游离DNA。利用荧光剂和片段分析仪器分别检测循环游离DNA的浓度和片段大小,剔除浓度与片段大小过低的循环游离DNA,获得源循环游离DNA样本。
步骤S322、基于源循环游离DNA样本进行DNA建库和测序处理,并对测序处理后的循环游离DNA样本进行数据处理,获得目标循环游离DNA样本。
在一个实施方式中,基于源循环游离DNA样本进行DNA建库和测序处理的步骤,包括:下述(1)和(2)过程。
(1)从源循环游离DNA样本中使用5ng的循环游离DNA样本上述制备测序文库。制备过程包括:利用末端加A酶和接头连接酶对源循环游离DNA样本进行末端修复及添加A尾和接头连接,其中,接头序列为Illumina NovaSeq 6000(一种测序平台)设计;接着使用磁珠对循环游离DNA样本进行纯化,使用文库定量试剂盒进行定量,最后选取相同大小片段的DNA组成测序文库。
(2)采用低通量全基因组测序技术进行测序。测序时,在测序平台上使用2×150bp的配对末端进行平均覆盖率为2x的全基因组测序,获得测序处理后的循环游离DNA样本。
在一个实施方式中,对测序处理后的循环游离DNA样本进行数据处理,获得目标循环游离DNA样本的步骤,包括:在测序质控软件上去除接头序列、末端序列和50bp以下的循环游离DNA序列,使用比对算法工具将上述清理后的循环游离DNA序列与人类参考基因组GRCh37比对后,用比对去重软件标记并去除重复比对或未比对的循环游离DNA序列。接着运用SMA(Smart Memory Analyzer)文件处理工具计算比对率、重复率和基因组覆盖率,其中,比对率高于90%、重复率低于25%、覆盖率高于50%的序列属于可以通过质量控制的循环游离DNA序列。在得到通过质量控制的循环游离DNA序列后,进一步过滤掉未比对的、低质量的、标记重复的以及从正向和反向两次测序得到的序列结果未完美匹配的循环游离DNA序列,以获得目标循环游离DNA样本。
步骤S323、基于基因组信息分析工具从目标循环游离DNA样本中提取循环游离DNA特征。
其中,基因组信息分析工具包括但不限于bedtools、pysam等。
在一个实施方式中,利用bedtools(一种处理基因组信息分析的工具)建立了核小体印记;利用pysam建立末端基序特征和片段化特征,具体建立过程可参见图1所示实施例的具体描述,此处不再赘述。
图8为本发明实施例提供的一种获得预测结果的方法的流程图。如图6所示,上述将目标预测信息输入肝细胞癌预测模型中,获得该肝细胞癌预测模型输出的预测结果的步骤,包括:步骤S41-步骤S46。
步骤S41、将目标预测信息输入第一模型中,以供第一模型基于模型自身的第一预测因子、当次随访的属性信息和当次随访的第一肝指标信息获得第一预测结果。
其中,第一模型基于模型自身的第一预测因子、当次随访的属性信息和第一肝指标信息获得第一预测结果的详细描述可以参见前述实施例,此处不再赘述。
步骤S42、在当次随访的第一预测结果不满足第一预设条件的情况下,将第一预测结果确定为肝细胞癌预测结果。
其中,第一预设条件是在获得第一预测结果后确定需要继续进行肝细胞癌预测的条件,例如,该第一预设条件可以是第一预测结果中的分数值大于第一阈值。
本实施例中,当次随访的第一预测结果不满足第一预设条件代表不需要继续进行肝细胞癌预测,因此,可以直接将第一预测结果确定为肝细胞癌预测结果。
步骤S43、在当次随访的第一预测结果满足第一预设条件的情况下,将按照随访时序记录的第一预测结果和第二肝指标信息输入第二模型,以供第二模型基于当次随访以及历史随访的第一预测结果和第二肝指标信息构建待预测对象对应的第一目标轮廓,并将第一目标轮廓与第一特定平均轮廓进行比较处理,获得第二预测结果。
其中,该第二预测结果也可以以分数值的形式表征。当次随访以及历史随访的第一预测结果和第二肝指标信息是待预测对象每次随访时被记录的第一预测结果和第二肝指标信息。
本实施例中,在当次随访的第一预测结果满足第一预设条件的情况下,代表该待预测对象需要继续进行肝细胞癌预测,以进一步确定其肝细胞癌的发生概率。因此,将按照随访时序记录的第一预测结果和第二肝指标信息输入第二模型,以进一步确定其肝细胞癌的发生概率。
步骤S44、在当次随访的第二预测结果不满足第二预设条件的情况下,将第二预测结果确定为肝细胞癌预测结果。
其中,第二预设条件是在获得第二预测结果后确定需要继续进行肝细胞癌预测的条件,例如,该第二预设条件可以是第二预测结果中的分数值大于第二阈值。
本实施例中,当次随访的第二预测结果不满足第二预设条件代表此时不需要再继续进行肝细胞癌预测,因此,可以直接将第二预测结果确定为肝细胞癌预测结果。
步骤S45、在当次随访的第二预测结果满足第二预设条件的情况下,将按照随访时序记录的第一预测结果、第二肝指标信息和循环游离DNA特征输入第三模型,以供第三模型基于当次随访以及历史随访的第一预测结果、第二肝指标信息和循环游离DNA特征构建所述待预测对象对应的第二目标轮廓,并将第二目标轮廓与第二特定平均轮廓进行比较处理,获得第三预测结果。
其中,该第三预测结果也可以以分数值的形式表征。当次随访以及历史随访的第一预测结果、第二肝指标信息和循环游离DNA特征包含待预测对象在每次随访时被记录的第一预测结果、第二肝指标信息和循环游离DNA特征。
本实施例中,在当次随访的第二预测结果满足第二预设条件的情况下,代表该待预测对象还需要继续进行肝细胞癌预测,以再进一步确定其肝细胞癌的发生概率。因此,将按照随访时序记录的第一预测结果、第二肝指标信息和循环游离DNA特征输入第三模型,以再进一步确定其肝细胞癌的发生概率。
步骤S46、将第三预测结果确定为肝细胞癌预测结果。
本发明实施例中将目标预测信息输入肝细胞癌预测模型中,获得该肝细胞癌预测模型输出的预测结果的过程是一个序贯应用的过程,其中,肝细胞癌预测模型中先由训练后的第一模型进行预测,获得第一预测结果,根据该第一预测结果确定是否需要继续进行预测;若需要继续进行预测的情况下,则由第二预测模型根据该第一预测结果进行进一步预测,获得第二预测结果,然后根据该第二预测结果确定是否需要再进一步预测;若需要继续进行预测的情况下,则由第三预测模型基于前述第一预测结果进行再进一步预测,获得第三预测结果。通过该序贯应用过程,可以逐步确定肝细胞癌的发生概率,逐步提高肝细胞癌的早筛精度,为实现肝细胞癌的早筛工作提供了经济高效和便于实行的临床方案。
图9为本发明实施例提供的一种基于循环游离DNA的肝细胞癌预测模型构建装置的结构示意图。如图9所示,该装置包括:样本确定模块91和训练模块92。
样本确定模块91,用于确定样本预测对象的样本预测信息,其中,样本预测信息包括按照随访时序记录的所述样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征。
训练模块92,用于基于样本预测对象的样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型。
第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型,第一模型为风险预测模型。
第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型。
第三模型的训练过程包括:基于第一模型和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供一种基于循环游离DNA的肝细胞癌预测模型构建装置,该装置中样本确定模块用于确定预测对象的样本预测信息;该样本预测信息包括按照随访时序记录的该样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;训练模块用于基于该样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型;该第一模型的训练过程包括:基于属性信息和第一肝指标信息训练初始的第一模型,获得训练后的第一模型;第二模型的训练过程包括:基于第一模型和第二肝指标信息训练初始的第二模型,获得训练后的第二模型;第三模型的训练过程包括:基于第一模型和循环游离DNA特征训练初始的第三模型,获得训练后的第三模型,该肝细胞癌模型构建过程利用具有时序特性的样本预测信息,实现了结合多种血清学标志物并联合循环游离DNA的综合模型训练,能够提高肝细胞癌预测模型的预测准确性。
图10为本发明实施例提供的一种基于肝细胞癌预测模型的肝细胞癌预测装置的结构示意图。如图10所示,该装置包括:目标确定模块1001、输入模块1002和预测模块1003。
目标确定模块1001,用于确定待预测对象的目标预测信息,其中,目标预测信息包括按照随访时序记录的待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征。
输入模块1002,用于将目标预测信息输入肝细胞癌预测模型中,获得肝细胞癌预测模型输出的肝细胞癌预测结果;肝细胞癌预测模型包括第一模型、第二模型和第三模型,其中,第一模型用于根据属性信息和第一肝指标信息获得第一预测结果;在第一预测结果满足第一预设条件的情况下,第二模型用于根据所述第一预测结果和第二肝指标信息获得第二预测结果;在第二预测结果满足第二预设条件的情况下,第三模型用于根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果。
预测模块1003,用于根据肝细胞癌预测结果确定待预测对象的肝细胞癌发生概率。
需要明确的是,本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁,这里省略了对已知方法的详细描述,并且上述描述的***、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供一种基于肝细胞癌预测模型的肝细胞癌预测装置,该装置中,目标确定模块用于确定待预测对象的目标预测信息,该目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征,输入模块用于将目标预测信息输入肝细胞癌预测模型中,获得该肝细胞癌预测模型输出的肝细胞癌预测结果;其中,肝细胞癌预测模型包括第一模型、第二模型和第三模型,该第一模型用于根据属性信息和第一肝指标信息获得第一预测结果;在第一预测结果满足第一预设条件的情况下,第二模型用于根据第一预测结果和第二肝指标信息获得第二预测结果;在第二预测结果满足第二预设条件的情况下,第三模型用于根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果;预测模块用于根据肝细胞癌预测结果确定待预测对象的肝细胞癌发生概率,该肝细胞癌预测装置利用具有时序特性的目标预测信息,实现了结合多种血清学标志物并联合循环游离DNA的肝细胞癌预测,能够提高肝细胞癌预测的准确性。
图11为本发明实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备可以包括处理器1101和存储器1102,其中处理器1101和存储器1102可以通过总线或者其他方式连接,图11中以通过总线连接为例。
处理器1101可以为中央处理器(Central Processing Unit,CPU)。处理器1101还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器1102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的基于循环游离DNA的肝细胞癌预测模型构建方法,或者基于肝细胞癌预测模型的肝细胞癌预测方法对应的程序指令/模块。处理器1101通过运行存储在存储器1102中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的基于循环游离DNA的肝细胞癌预测模型构建方法,或者基于肝细胞癌预测模型的肝细胞癌预测方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器1101所创建的数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器1102可选包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过网络连接至处理器1101。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1102中,当被处理器1101执行时,执行如图1所示实施例中的基于循环游离DNA的肝细胞癌预测模型构建方法,或者基于肝细胞癌预测模型的肝细胞癌预测方法。
上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种肝细胞癌预测模型构建方法,其特征在于,所述方法包括:
确定样本预测对象的样本预测信息;所述样本预测信息包括按照随访时序记录的所述样本预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;所述随访包括当次随访和历史随访;所述属性信息包括性别、年龄;所述第一肝指标信息包括白蛋白、总胆红素和血小板计数中的一种或多种;第二肝指标信息包括甲胎蛋白;所述循环游离DNA特征包括核小体印记;
基于样本预测对象的所述样本预测信息进行模型训练,获得肝细胞癌预测模型;其中,所述肝细胞癌预测模型包括第一模型、第二模型和第三模型;
所述第一模型的训练过程包括:基于所述属性信息和所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型;
所述第二模型的训练过程包括:基于所述第一模型和所述第二肝指标信息训练初始的第二模型,获得训练后的第二模型;
所述第三模型的训练过程包括:基于所述第一模型、第二肝指标信息和所述循环游离DNA特征训练初始的第三模型,获得训练后的第三模型;
所述训练后的第一模型用于根据属性信息和第一肝指标信息获得第一预测结果;
所述训练后的第二模型用于在第一预测结果满足第一预设条件的情况下,基于第一预测结果和第二肝指标信息获得第二预测结果;
所述训练后的第三模型用于在第二预测结果满足第二预设条件的情况下,根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果;
所述基于所述第一模型、第二肝指标信息和所述循环游离DNA特征训练初始的第三模型,获得训练后的第三模型的步骤,包括:
基于所述第一模型在当次随访以及历史随访输出的第一预测结果、所述样本预测对象当次随访以及历史随访的第二肝指标信息和循环游离DNA特征确定出所述样本预测对象的第二样本特征信息;所述历史随访是指当次随访之前的每一次随访;
将所述样本预测对象分为患病样本组和非患病样本组;
分别拟合所述患病样本组和非患病样本组的第二样本特征信息,获得所述患病样本组对应的第二患病组平均轮廓和所述非患病样本组对应的第二非患病组平均轮廓;
基于所述第二患病组平均轮廓和所述第二非患病组平均轮廓训练初始的第三模型,获得训练后的第三模型;
所述方法还包括:剔除随访时间小于第一预定时间段的样本预测对象的样本预测信息;以及剔除在第二预定时间段内确诊为肝细胞癌的样本预测对象的样本预测信息;
确定样本预测对象中的循环游离DNA特征的步骤,包括:
采集样本预测对象外周血于采血管,分离获得含有循环游离DNA的血浆;分离提取循环游离DNA,利用荧光剂和片段分析仪器分别检测循环游离DNA的浓度和片段大小,剔除浓度与片段大小过低的循环游离DNA,获得源循环游离DNA样本;
利用末端加A酶和接头连接酶对源循环游离DNA样本进行末端修复及添加A尾和接头连接;并使用磁珠对循环游离DNA样本进行纯化,使用文库定量试剂盒进行定量,最后选取相同大小片段的DNA组成测序文库;
在测序平台上使用2×150 bp的配对末端进行平均覆盖率为2x的全基因组测序,获得测序处理后的循环游离DNA样本;
在测序质控软件上去除接头序列、末端序列和50 bp以下的循环游离DNA序列,使用比对算法工具将清理后的循环游离DNA序列与人类参考基因组比对后,用比对去重软件标记并去除重复比对或未比对的循环游离DNA序列;计算比对率、重复率和基因组覆盖率,其中,比对率高于90%、重复率低于25%、覆盖率高于50%的序列属于可以通过质量控制的循环游离DNA序列;在得到通过质量控制的循环游离DNA序列后,进一步过滤掉未比对的、低质量的、标记重复的以及从正向和反向两次测序得到的序列结果未匹配的循环游离DNA序列,以获得目标循环游离DNA样本;基于基因组信息分析工具从目标循环游离DNA样本中提取循环游离DNA特征。
2.根据权利要求1所述的方法,其特征在于,所述基于所述属性信息和所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型的步骤,包括:
确定所述样本预测对象当次随访的属性信息和第一肝指标信息对应的初始预测因子;
根据所述样本预测对象的实际患病情况调整所述初始预测因子,获得第一预测因子;
根据所述第一预测因子、当次随访的所述属性信息和当次随访的所述第一肝指标信息训练初始的第一模型,获得训练后的第一模型;所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果。
3.根据权利要求2所述的方法,其特征在于,基于所述第一模型和所述第二肝指标信息训练初始的第二模型,获得训练后的第二模型的步骤,包括:
基于所述第一模型在当次随访以及历史随访输出的第一预测结果和所述样本预测对象当次随访以及历史随访的第二肝指标信息确定出所述样本预测对象的第一样本特征信息;
将所述样本预测对象分为患病样本组和非患病样本组;
分别拟合所述患病样本组和非患病样本组的第一样本特征信息,获得所述患病样本组对应的第一患病组平均轮廓和所述非患病样本组对应的第一非患病组平均轮廓;
基于所述第一患病组平均轮廓和所述第一非患病组平均轮廓训练初始的第二模型,获得训练后的第二模型;所述第二模型用于在所述第一预测结果满足第一预设条件的情况下,基于所述第一预测结果和所述第二肝指标信息获得第二预测结果。
4.一种基于如权利要求1至3中任一项所述的肝细胞癌预测模型构建方法的肝细胞癌预测方法,其特征在于,所述方法包括:
确定待预测对象的目标预测信息;所述目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;
将所述目标预测信息输入肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果;所述肝细胞癌预测模型包括第一模型、第二模型和第三模型,其中,所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果;在所述第一预测结果满足第一预设条件的情况下,所述第二模型用于根据所述第一预测结果和所述第二肝指标信息获得第二预测结果;在所述第二预测结果满足第二预设条件的情况下,所述第三模型用于根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果;
根据所述肝细胞癌预测结果确定所述待预测对象的肝细胞癌发生概率。
5.根据权利要求4所述的方法,其特征在于,将所述目标预测信息输入所述肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的预测结果的步骤,包括:
将所述目标预测信息输入所述第一模型中,以供所述第一模型基于模型自身的第一预测因子、当次随访的所述属性信息和当次随访的所述第一肝指标信息获得所述第一预测结果;
在当次随访的第一预测结果满足第一预设条件的情况下,将按照随访时序记录的第一预测结果和第二肝指标信息输入所述第二模型,以供所述第二模型基于当次随访以及历史随访的所述第一预测结果和所述第二肝指标信息构建所述待预测对象对应的第一目标轮廓,并将所述第一目标轮廓与第一特定平均轮廓进行比较处理,获得所述第二预测结果;
在当次随访的第二预测结果满足第二预设条件的情况下,将按照随访时序记录的第一预测结果、第二肝指标信息和循环游离DNA特征输入所述第三模型,以供所述第三模型基于当次随访以及历史随访的所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征构建所述待预测对象对应的第二目标轮廓,并将所述第二目标轮廓与第二特定平均轮廓进行比较处理,获得所述第三预测结果;
将所述第三预测结果确定为所述肝细胞癌预测结果。
6.根据权利要求5所述的方法,其特征在于,所述将所述目标预测信息输入肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果的步骤,还包括:
在当次随访的第一预测结果不满足第一预设条件的情况下,将所述第一预测结果确定为所述肝细胞癌预测结果;
或者,在当次随访的第二预测结果不满足第二预设条件的情况下,将所述第二预测结果确定为所述肝细胞癌预测结果。
7.根据权利要求4所述的方法,其特征在于,所述确定待预测对象的目标预测信息的步骤,包括:
提取所述待预测对象在历史随访时被记录的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;
针对当次随访,根据所述待预测对象的体检信息确定所述属性信息和所述肝指标信息,以及根据所述待预测对象的血液样本确定所述循环游离DNA特征,所述循环游离DNA特征包括核小体印记、末端基序特征、片段化特征中的一种或多种。
8.一种基于肝细胞癌预测模型的肝细胞癌预测装置,其特征在于,所述装置包括:
目标确定模块,用于确定待预测对象的目标预测信息;所述目标预测信息包括按照随访时序记录的所述待预测对象的属性信息、第一肝指标信息、第二肝指标信息和循环游离DNA特征;所述随访包括当次随访和历史随访;所述属性信息包括性别、年龄;所述第一肝指标信息包括白蛋白、总胆红素和血小板计数中的一种或多种;第二肝指标信息包括甲胎蛋白;所述循环游离DNA特征包括核小体印记;
输入模块,用于将所述目标预测信息输入所述肝细胞癌预测模型中,获得所述肝细胞癌预测模型输出的肝细胞癌预测结果;所述肝细胞癌预测模型包括第一模型、第二模型和第三模型,其中,所述第一模型用于根据所述属性信息和所述第一肝指标信息获得第一预测结果;在所述第一预测结果满足第一预设条件的情况下,所述第二模型用于根据所述第一预测结果和所述第二肝指标信息获得第二预测结果;在所述第二预测结果满足第二预设条件的情况下,所述第三模型用于根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果;
预测模块,用于根据所述肝细胞癌预测结果确定所述待预测对象的肝细胞癌发生概率;
所述根据所述第一预测结果、所述第二肝指标信息和所述循环游离DNA特征获得第三预测结果的步骤,包括:
基于所述第一模型在当次随访以及历史随访输出的第一预测结果、所述待预测对象当次随访以及历史随访的第二肝指标信息和循环游离DNA特征确定出所述待预测对象的第二样本特征信息;所述历史随访是指当次随访之前的每一次随访;
将所述待预测对象分为患病样本组和非患病样本组;
分别拟合所述患病样本组和非患病样本组的第二样本特征信息,获得所述患病样本组对应的第二患病组平均轮廓和所述非患病样本组对应的第二非患病组平均轮廓;
基于所述第二患病组平均轮廓和所述第二非患病组平均轮廓训练初始的第三模型,获得训练后的第三模型;所述训练后的第三模型用于在第二预测结果满足第二预设条件的情况下,根据第一预测结果、第二肝指标信息和循环游离DNA特征获得第三预测结果;
还包括:剔除模块,用于剔除随访时间小于第一预定时间段的待预测对象的样本预测信息;以及剔除在第二预定时间段内确诊为肝细胞癌的待预测对象的样本预测信息;
确定待预测对象中的循环游离DNA特征的步骤,包括:
采集待预测对象外周血于采血管,分离获得含有循环游离DNA的血浆;分离提取循环游离DNA,利用荧光剂和片段分析仪器分别检测循环游离DNA的浓度和片段大小,剔除浓度与片段大小过低的循环游离DNA,获得源循环游离DNA样本;
利用末端加A酶和接头连接酶对源循环游离DNA样本进行末端修复及添加A尾和接头连接;并使用磁珠对循环游离DNA样本进行纯化,使用文库定量试剂盒进行定量,最后选取相同大小片段的DNA组成测序文库;
在测序平台上使用2×150 bp的配对末端进行平均覆盖率为2x的全基因组测序,获得测序处理后的循环游离DNA样本;
在测序质控软件上去除接头序列、末端序列和50 bp以下的循环游离DNA序列,使用比对算法工具将清理后的循环游离DNA序列与人类参考基因组比对后,用比对去重软件标记并去除重复比对或未比对的循环游离DNA序列;计算比对率、重复率和基因组覆盖率,其中,比对率高于90%、重复率低于25%、覆盖率高于50%的序列属于可以通过质量控制的循环游离DNA序列;在得到通过质量控制的循环游离DNA序列后,进一步过滤掉未比对的、低质量的、标记重复的以及从正向和反向两次测序得到的序列结果未匹配的循环游离DNA序列,以获得目标循环游离DNA样本;基于基因组信息分析工具从目标循环游离DNA样本中提取循环游离DNA特征。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-3任一项所述的肝细胞癌预测模型构建方法的步骤,或者如权利要求4-7任一项所述的肝细胞癌预测方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-3任一项所述的肝细胞癌预测模型构建方法的步骤,或者如权利要求4-7任一项所述的肝细胞癌预测方法的步骤。
CN202310438603.9A 2023-04-23 2023-04-23 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置 Active CN116167462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310438603.9A CN116167462B (zh) 2023-04-23 2023-04-23 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310438603.9A CN116167462B (zh) 2023-04-23 2023-04-23 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置

Publications (2)

Publication Number Publication Date
CN116167462A CN116167462A (zh) 2023-05-26
CN116167462B true CN116167462B (zh) 2023-08-15

Family

ID=86416682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310438603.9A Active CN116167462B (zh) 2023-04-23 2023-04-23 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置

Country Status (1)

Country Link
CN (1) CN116167462B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116386901B (zh) * 2023-06-05 2024-01-30 南方医科大学南方医院 乙肝临床治愈预测模型构建方法及装置、预测方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070776A2 (ko) * 2010-11-23 2012-05-31 (주)진매트릭스 만성 b형 간질환 환자의 간세포암 발병 위험도 분석 및 예측방법
WO2022226231A1 (en) * 2021-04-21 2022-10-27 Helio Health Inc. Liver cancer methylation and protein markers and their uses
CN115678996A (zh) * 2022-10-21 2023-02-03 无锡泛生子生物科技有限公司 基于新型血液标志物cfDNA的肝癌预测模型及其构建方法
CN115862850A (zh) * 2023-02-23 2023-03-28 南方医科大学南方医院 基于纵向多维数据的肝细胞癌监测模型的建模方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012070776A2 (ko) * 2010-11-23 2012-05-31 (주)진매트릭스 만성 b형 간질환 환자의 간세포암 발병 위험도 분석 및 예측방법
WO2022226231A1 (en) * 2021-04-21 2022-10-27 Helio Health Inc. Liver cancer methylation and protein markers and their uses
CN115678996A (zh) * 2022-10-21 2023-02-03 无锡泛生子生物科技有限公司 基于新型血液标志物cfDNA的肝癌预测模型及其构建方法
CN115862850A (zh) * 2023-02-23 2023-03-28 南方医科大学南方医院 基于纵向多维数据的肝细胞癌监测模型的建模方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原发性肝癌患者血浆循环游离线粒体DNA定量分析及其诊断意义;乔录新等;临床检验杂志(第01期);第44-46页 *

Also Published As

Publication number Publication date
CN116167462A (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN107229841B (zh) 一种基因变异评估方法及***
CN113539355B (zh) 预测cfDNA的组织特异性来源及相关疾病概率评估***及应用
US11869661B2 (en) Systems and methods for determining whether a subject has a cancer condition using transfer learning
CN116167462B (zh) 肝细胞癌预测模型构建方法、肝细胞癌预测方法及装置
CN109830264B (zh) 肿瘤患者基于甲基化位点进行分类的方法
EP4372751A1 (en) Cancer detection model and construction method therefor, and reagent kit
EP3729441B1 (en) Microsatellite instability detection
CN113862351B (zh) 体液样本中鉴定胞外rna生物标志物的试剂盒及方法
CN112200763A (zh) 一种基于肝脏ct影像的肝功能分级方法
CN107463797B (zh) 高通量测序的生物信息分析方法及装置、设备及存储介质
CN115896242A (zh) 一种基于外周血免疫特征的癌症智能筛查模型及方法
CN113362893A (zh) 肿瘤筛查模型的构建方法及应用
WO2024140881A1 (zh) 胎儿dna浓度的确定方法及装置
CN110760585A (zh) ***癌生物标志物及其应用
CN112819765A (zh) 一种肝脏图像处理方法
CN113362897A (zh) 基于核小体分布特征的肿瘤标志物筛选方法及应用
CN116682492A (zh) 一种宏病毒组数据的分析方法
CN111164701A (zh) 针对靶标定序的定点噪声模型
CN110462056B (zh) 基于dna测序数据的样本来源检测方法、装置和存储介质
EP4318493A1 (en) Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same
CN116434830B (zh) 基于ctDNA多位点甲基化的肿瘤病灶位置识别方法
KR102287096B1 (ko) 모체 시료 중 태아 분획을 결정하는 방법
CN117423388B (zh) 一种基于甲基化水平的多癌种检测***及电子设备
US20240021267A1 (en) Dynamically selecting sequencing subregions for cancer classification
US20230407405A1 (en) Method for diagnosing cancer and predicting type of cancer based on single nucleotide variant in cell-free dna

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant