CN113257350A

CN113257350A - 基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置

Info

Publication number: CN113257350A
Application number: CN202110650420.4A
Authority: CN
Inventors: 李庆原; 谢泓禹; 刘异倩; 刘小莉; 洪媛媛; 王小庆; 韩天澄; 杨顺莉; 于佳宁; 陈维之; 何骥; 杜波
Original assignee: Wuxi Precision Medical Laboratory Co ltd; Wuxi Zhenhe Biotechnology Co ltd; Zhenhe Beijing Biotechnology Co ltd
Current assignee: Wuxi Precision Medical Laboratory Co.,Ltd.; Wuxi Zhenhe Biotechnology Co.,Ltd.; Zhenhe (Beijing) Biotechnology Co.,Ltd.
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-13
Anticipated expiration: 2041-06-10
Also published as: CN113257350B

Abstract

本发明提供了一种基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置，其中，突变程度分析方法包括：对待检测血浆样本进行捕获测序得到FASTQ文件；分别提取配对reads中的分子标签并存储为uBAM文件；将FASTQ文件的基因序列与参考基因组进行比对并去重，并将其与uBAM文件合并得到含有分子标签的BAM文件；对BAM文件中的reads进行聚集并去重；在基因突变panel区域得到样本原始突变集合，并对其中的基因突变参数进行统计；对样本原始突变集合进行过滤，对各样本的基因突变参数进行统计；针对样本的基因突变参数对待检测血浆样本的突变程度进行评估，提高ctDNA突变检测的灵敏度。

Description

基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置

技术领域

本发明涉及生物医学技术领域，尤其涉及一种基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置。

背景技术

早筛、早诊、及时治疗是降低癌症死亡率的有效途径。欧洲医学肿瘤学会（ESMO）指出：西方国家的癌症发病率和致死率在逐年降低，主要是归功于癌症的早期筛查，早期良性腺瘤切除以及癌症病灶的早期治疗。发现和利用肿瘤特异性生物标记物，凭借高精度的检测和分析方法，在肿瘤发生早期锁定其发生器官并实施治疗，是提升肿瘤治疗效果，延长患者寿命的关键因素。通过肿瘤的早期筛查和诊断，对于提高全民生活质量、降低全社会医疗成本均具有深远的社会和经济意义。

目前，典型的肿瘤早筛和早诊手段可以大致分为两类：第一类在现有临床检测平台基础上（例如病理切片、CT影像、肠镜、胃镜等）引入更灵敏的电子化数据分析手段，以提高检测的灵敏度，降低对人工判读的依赖性，减少人为误差，辅助临床决策；第二类从机理角度研究与肿瘤发生发展潜在相关的临床层面和分子层面的体细胞、遗传学、表观遗传学、或者代谢产物等种类的肿瘤标志物，并以这些筛查位点为基础开发新的检测平台和检测手段。

在第一类的研究方面，研究者成功将人工神经网络、多目标优化等机器学习算法运用到结肠造影CT片的判读，以更灵敏地检测结肠息肉，提早发现癌变可能。但是，对于较小结肠息肉（直径6-9 mm）的影像识别能力还有待提高。基于类似的概念，一些机器学习算法也被成功用于自动判读肺部PET/CT影像，区分出良性和恶性的肺部结节，以实现对肺癌的早期诊断。代表性的算法包括支持向量机、随机森林、卷积神经网络或深度学习等。这些方法在肺癌的早期检测领域已经得到一定的应用。虽然对于低剂量PET影像的判断，基于机器学习的判读算法通常具有较高的特异性，但是灵敏性有待提高。在肝癌检测领域，机器学习算法也被用来从CT影像中区分并识别不同类别的肝损伤，包括肝囊肿、局部结节增生、肝血管瘤、慢性肝炎、肝硬化以及肝细胞癌等，及早并准确地从CT影像中识别出肝癌病变非常有利于治疗效果。类似的应用还包括对***X射线成像用于乳腺癌早筛，以及对***组织的H&E染色活检切片进行判读来有效排除癌症阴性样本等。

在第二类的研究方面，目前临床上常用的肿瘤标志物，例如癌胚抗原(CEA)、甲胎蛋白(AFP)、癌抗原125(CA125)、糖类抗原19-9(CA19-9)、***特异抗原(PSA)等对肿瘤筛查均有一定的指导意义。但是其敏感性或特异性通常不能满足对临床诊断的需求。因此在实践上，临床医生们通常会一次同时测定多种标志物，并结合临床症状、影像学检查等其他手段综合考虑。所以单就肿瘤标志物本身而言，对健康人群的广泛筛查可推广性不高。

液体活检技术，尤其基于血浆提取游离DNA(cfDNA)的检测技术，近年来成为一种重要的和最低限度侵入性肿瘤检测手段，被广泛应用于肿瘤的诊断、病情追踪、疗效评估和预后预测工作当中。在最近的研究中，基于cfDNA的基因变异检测的液体活检技术在癌症早期检测中表现出巨大的潜力，而其中检测血浆ctDNA突变信号是一个重要的分支。

用于早筛的ctDNA突变分析，一般利用肿瘤特征性的热点突变的组合作为标志物。但是突变标志物的位点在各个癌种中有所区别，即便在热点突变比较集中的肺癌与肠癌中，也至少需要十几个基因上百个位点的检测来覆盖该癌种的大多数患者，达到筛查的目的。对于位点的检测，若使用常用的PCR（指聚合酶链式反应）方法，会需要上百毫升的血液样本，对于普通的早筛体检可行性较低；且PCR方法检测突变会有较高的技术来源与克隆性造血来源的假阳性。可见，在使用DNA突变作为标志物的早筛检测中，通过PCR方法来实现并不可行。

发明内容

针对上述问题，本发明提供了一种基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置，对待检测血浆样本的ctDNA突变程度进行分析，提高检测灵敏度。

本发明提供的技术方案如下：

一方面，本发明提供了一种基于液体活检的ctDNA突变程度分析方法，包括：

根据预先创建的基因突变panel对待检测血浆样本进行捕获测序得到FASTQ文件，所述待检测血浆样本中的cfDNA携带有预先接入的分子标签；

分别提取所述FASTQ文件中配对reads中的分子标签并存储为uBAM文件；

将所述FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件，并将其与所述uBAM文件合并得到含有分子标签的BAM文件；

根据分子标签对BAM文件中的reads进行聚集并去重；

在所述基因突变panel区域使用pileup方法得到样本原始突变集合；

对所述样本原始突变集合中的基因突变参数进行统计，所述基因突变参数包括：基因突变等级、各等级基因突变数量及突变频率；

根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计；

针对所述样本的基因突变参数使用预先构建的突变分析模型对所述待检测血浆样本的突变程度进行评估。

进一步优选地，所述基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括预设癌症数据库中的致癌基因，等级II中包括预设癌症数据库中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；

所述基因突变参数包括：等级I的突变数量、等级I的突变最大突变频率值、等级II的突变数量、等级II的突变最大突变频率值、等级III的突变数量、等级III的突变最大突变频率值、等级IV的突变数量及等级IV的突变最大突变频率值。

进一步优选地，在所述根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计中，对所述样本原始突变集合进行过滤的规则包括：

在外周血白细胞中超过给定频率的胚系突变；

在特异于指定panel大量历史样本的数据库中重复出现的黑名单位点，以及数据库中人群频率超过设定阈值的位点；

由大于给定数量的健康人血浆样本的cfDNA在相同测序条件下构建背景噪音基线。

进一步优选地，根据分子标签对BAM文件中的reads进行聚集并去重中，包括：

基于所述分子标签形成基因family，在所述基因family中：分子标签之间的编辑距离小于第一预设值，且带有相同分子标签的reads之间的起始位置相差第二预设值；

根据规则对基因family进行过滤，所述规则包括：对于有对应双链分子标签的family，其内部包含的reads数量不小于第三预设值；对于没有对应双链分子标签的family，其内部包含的reads数量不小于第四预设值。

另一方面，本发明提供了一种基于液体活检的ctDNA突变分析装置，包括：

捕获测序模块，用于根据预先创建的基因突变panel对待检测血浆样本进行捕获测序得到FASTQ文件，所述待检测血浆样本中的cfDNA携带有预先接入的分子标签；

分子标签提取模块，用于分别提取所述FASTQ文件中配对reads中的分子标签并存储为uBAM文件；

文件形成模块，用于将所述FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件，并将其与所述uBAM文件合并得到含有分子标签的BAM文件；

识别模块，用于根据分子标签对BAM文件中的reads进行聚集并去重，及在所述基因突变panel区域使用pileup方法得到样本原始突变集合；

参数统计模块，用于对所述样本原始突变集合中的基因突变参数进行统计，所述基因突变参数包括：基因突变等级、各等级基因突变数量及突变频率；及用于根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计；

突变评估模块，用于针对所述样本的基因突变参数使用预先构建的突变分析模型对所述待检测血浆样本的突变程度进行评估。

进一步优选地，所述基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括癌症相关数据库中的致癌基因，等级II中包括癌症相关数据中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；

进一步优选地，所述ctDNA突变分析装置中还包括分别与所述识别模块和参数统计模块连接的过滤模块，用于对得到样本原始突变集合进行过滤，过滤的条件包括：

在外周血白细胞中超过给定频率的胚系突变；

进一步优选地，在所述识别模块中，包括：

基因family形成单元，用于基于所述分子标签形成基因family，在所述基因family中：分子标签之间的编辑距离小于第一预设值，且带有相同分子标签的reads之间的起始位置相差第二预设值；

过滤单元，用于根据规则对基因family进行过滤，所述规则包括：对于有对应双链分子标签的family，其内部包含的reads数量不小于第三预设值；对于没有对应双链分子标签的family，其内部包含的reads数量不小于第四预设值。

再一方面，本发明还提供了一种基于液体活检的ctDNA性能分析装置，包括：

数据预处理模块，用于对待测血浆样本中待分析的多维性能参数进行预处理操作，所述多维性能参数中包括如上述基因突变参数；

特征选择模块，与所述数据预处理模块连接，用于分别对待分析的多维性能参数进行特征筛选；

模型构建模块，与所述特征选择模块连接，用于针对待分析的多维性能参数分别构建性能分析模型及构建多维组学集成模型，其中，构建的多个所述性能分析模型的输出分别与所述多维组学集成模型的输入连接，且构建的多个所述性能分析模型中包括如上述突变分析模型，用于对所述基因突变参数进行分析；

性能分析模块，与所述模型构建模块连接，用于将所述特征选择模块筛选的多维性能参数的特征分别输入训练后的相应的性能分析模型进行初步分析，所述多维组学集成模型针对所述性能分析模型的初步分析结果进一步分析得到针对多维性能参数的综合分析结果，完成对待检测血浆样本ctDNA的性能分析。

进一步优选地，所述多维性能参数还包括临床数据和/或甲基化水平和/或肿瘤标志物浓度，所述特征选择模块筛选得到的特征包括临床数据特征和/或甲基化水平特征和/或预设肿瘤标志物浓度特征，所述模型构建模块构建的多个性能分析模型包括临床模型和/或甲基化分析模型和/或肿瘤标志物模型；

在所述性能分析模块中，创建的突变分析模型、临床模型和/或甲基化分析模型和/或肿瘤标志物模型对相应的参数进行初步分析后，所述多维组学集成模型针对所述性能分析模型的初步分析结果进一步分析得到针对多维性能参数的综合分析结果。

进一步优选地，在所述模型构建模块中，完成多个性能分析模型及多维组学集成模型的构建之后，于各性能分析模型的预测结果选定AUC最大的参数作为训练后的模型，并基于训练后的模型进一步对所述多维组学集成模型进行训练，所述多维组学集成模型通过样本拆分交叉验证的方式进行模型构建。

本发明提供的基于液体活检的基于液体活检的ctDNA突变程度分析方法和装置、ctDNA性能分析装置，至少能够带来以下有益效果：

1.基于设计的泛癌基因突变panel及NGS（新一代基因测序技术）检测平台检测待检测血浆样本中的基因突变，按照划分的基因突变类型分别统计各类型基因突变数量及突变频率，作为基因突变分析指标。相比PCR方法检测突变、NGS平台仅识别单个突变的方法等，本发明基于液体活检的ctDNA突变程度分析方法和装置多个基因突变分析指标联合，并通过创建突变分析模块的方式对其突变程度进行分析，避免出现由于单个突变位点出现假阳性降低检测灵敏度的问题，同时突破了在PCR平台上检测位点个数的局限性，为后续区分待检测血浆样本是否来源于癌症组织提供依据，尤其能够提高某些良性结节、早期癌症患者的检测灵敏度，从而有效辅助癌症的早期诊断以及癌症的早期筛查，提高筛查效率和精度。且相比传统的临床上使用的单个肿瘤标志蛋白CEA和临床常规PET-CT筛查结果，基于多个基因突变分析指标特征建模分析ctDNA突变的灵敏度更高。

2.针对ctDNA突变创建突变分析模型之外，针对其他性能参数（包括临床数据和/或甲基化水平和/或预设肿瘤标志物浓度）创建相应的性能分析模块，同时创建多维组学集成模型，根据各性能分析模块对于相应性能参数（不同维度）的初步分析结果进行进一步的综合性评估，相对于单一性能分析模型来说（单独使用血清的肿瘤标志蛋白辅助诊断，如CA125、CEA、AFP等时，由于这些肿瘤标志蛋白信息在非肿瘤患者中也能检测出来，会导致其敏感性和特异性都较低；单独使用基于ctDNA突变检测阳性来判断进行检测时，由于人体自身组织可以释放微量带有突变的DNA进入血浆，同时仪器也会产生技术性错误从而造成假阳性，因此敏感性和特异性较差；单独使用血浆中ctDNA CpG点甲基化信号进行检测时，敏感性和特异性同样都较低），不同组学数据之间能够互为补充和校正，能够通过提高模型的特异性，提高诊断整体的特异性和预测效果，为后续医生的诊断提供辅助。另外，在该模型中，各组学均采用无创的检测方式，为临床应用提供了便利，且能够尽可能多的采集到待检测血浆样本各方面的信息，以此能够更加全面的了解待检测血浆样本的情况。再有，在辅助肺癌筛查的实际应用中，可使用LDCT（低剂量螺旋CT）检测阳性的样本作为待检测血浆样本，以保留LDCT检测敏感性高的特点，提高诊断整体的灵敏度。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明基于液体活检的ctDNA突变程度分析方法一种实施例流程示意图；

图2为一实例中ctDNA突变ROC曲线；

图3为本发明基于液体活检的ctDNA突变分析装置一种实施例结构示意图；

图4为本发明中基于液体活检的ctDNA性能分析装置结构示意图；

图5为本发明中终端设备结构示意图。

附图标记：

110-捕获测序模块，120-分子标签提取模块，130-文件形成模块，140-识别模块，150-参数统计模块，160-突变评估模块，310-数据预处理模块，320-特征选择模块，330-模型构建模块，340-性能分析模块。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

本发明的第一种实施例，一种基于液体活检的ctDNA突变程度分析方法，如图1所示，包括：S10 根据预先创建的基因突变panel对待检测血浆样本进行捕获测序得到FASTQ文件，待检测血浆样本中的cfDNA携带有预先接入的分子标签；S20 分别提取FASTQ文件中配对reads中的分子标签并存储为uBAM文件；S30 将FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件，并将其与uBAM文件合并得到含有分子标签的BAM文件；S40 根据分子标签对BAM文件中的reads进行聚集并去重；S50 在基因突变panel区域使用pileup方法得到样本原始突变集合；S60 对样本原始突变集合中的基因突变参数进行统计，基因突变参数包括：基因突变等级、各等级基因突变数量及突变频率；S70 根据预先构建的过滤规则对样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计；S80 针对样本的基因突变参数使用预先构建的突变分析模型对待检测血浆样本的突变程度进行评估。

在本实施例中，Novaseq测序结果bcl文件拆分后得到FASTQ格式并进行3’端残留接头序列的处理：分别提取read1和read2 5’端的分子标签（以下简称UMI）序列并储存在一个uBAM文件中。同时，利用Bwa将FASTQ文件与参考基因组（hg19）去重得到BAM文件，与uBAM文件合并后得到带UMI的BAM文件（将UMI的标签信息RX合并入BAM文件中），便于后续一致性序列的识别操作，将来源于同一分子的read合并成一个read序列。

在一致性序列识别（Call Consensus Reads）中，根据分子标签对BAM文件中的reads进行聚集并去重。在这一过程中，基于分子标签形成基因family，在每个基因family中：分子标签之间的编辑距离（edit distance）小于第一预设值（如2、3等，可根据实际情况设定），且带有相同分子标签的reads之间的起始位置相差第二预设值（如1bp、2bp等，可根据实际情况设定）；根据规则对基因family进行过滤，将有或无双链分子标签（duplex UMI）支持的基因family区别处理，规则包括：对于有对应双链分子标签的family，其内部包含的reads数量不小于第三预设值（如1个等，可根据实际情况设定）；对于没有对应双链分子标签的family，其内部包含的reads数量不小于第四预设值（如3个等，可根据实际情况设定）；于各过滤后的基因family中识别出一致性序列，并将得到的两组一致性序列合并后再次与参考基因组进行比对得到最终BAM文件。

之后对生成的最终BAM文件的基因突变panel区域使用pileup方法（samtoolspileup）得到样本原始突变集合（Variant Calling），包括SNVs（单核苷酸变异）、InDels（***和缺失）、MNVs（多核苷酸变异）等。在这一过程中，为了提高检测效率，可以选择性的对滤除的reads数量为1但所覆盖突变有其它一致性序列支持的基因family进行补充。在实际应用中，可以通过fgbio软件对UMI进行提取、比对、一致性序列识别、基因突变识别等操作。

接着对样本原始突变集合中的基因突变参数进行统计，包括但不限于基因突变类型、各类型基因突变数量及突变频率，在实际应用中，为了提高识别灵敏度，基因突变类型可以根据实际情况进行设定。在一实例中，基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括预设癌症数据库中的致癌基因，等级II中包括预设癌症数据库中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；基因突变参数包括：等级I的突变数量、等级I的突变最大突变频率值、等级II的突变数量、等级II的突变最大突变频率值、等级III的突变数量、等级III的突变最大突变频率值、等级IV的突变数量及等级IV的突变最大突变频率值8个指标。

统计完样本原始突变集合中的基因突变参数之后，进一步根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计。具体，过滤的规则包括：在外周血白细胞（BC）中超过给定频率（如10%、15%、20%等）的胚系突变；在特异于指定panel大量历史样本的数据库中重复出现的黑名单位点（具体体现为一批使用相同panel测序的正常样本中，被判定为重复出现的非体细胞突变），以及数据库中人群频率超过设定阈值（如15%、20%、25%等）的位点；由大于给定数量（如20、30等甚至更多）的健康人血浆样本的cfDNA在相同测序条件下构建背景噪音基线（计算待测突变显著区别于基线的概率，如低于给定阈值（如0.05、0.06等）则认为是背景噪音）。过滤完成之后，进一步从样本层面对各样本的基因突变参数进行统计，对样本的基因突变等级、各等级基因突变数量及突变频率进行统计。

最后针对样本的基因突变参数使用预先构建的突变分析模型对待检测血浆样本的突变程度进行评估。对于突变分析模型的输出结果，还可以为突变分析模型对于待检测血浆样本属性的预测及其预测概率，如预测待检测血浆样本患有恶性结节的可能性、患有良性结节的可能性等，为后续医生进行诊断提供部分依据。对于构建的突变分析模型，可以根据实际情况选定适宜的网络模型，如一实例中，选用支持向量机（SVM）模型对待检测血浆样本的突变程度进行评估。在模型训练中，基于13-fold交叉验证，使用线性内核SVM训练突变分析模型表现。在每个fold中，随机选择70%的样本作为训练集，30%作为测试集，通过交叉验证穷举网格搜索最优化超参数，得到最佳的突变分析模型。最后使用独立的样本集作为验证集，对训练得到的突变分析模型进行验证。应当清楚，这里仅示例性的给出一种突变分析模型的结构及其训练方法，在其他实例中，突变分析模型结构及其训练参数均可根据实际情况进行调整，这里不做具体限定，只要能够实现本实施例的目的均包括在其范围内。

在其他实施例中，在步骤S10 根据预先创建的基因突变panel对待检测血浆样本进行捕获测序得到FASTQ文件之前，还包括基于大数据筛选基因突变位点形成泛癌基因突变panel的步骤。

泛癌基因突变panel由包括肿瘤基因组数据库的大数据筛选而来。在一实例中，基于TCGA、ICGC、COSMIC、MSK等国外主流数据库以及自建的超10万样本的中国人肿瘤基因组数据对泛癌基因突变panel。各数据库筛选得到的突变位点如表1所示。

表1：数据库突变位点表

数据库	TCGA	ICGC	COSMIC	MSK
					Cohort数量	32	81	48	31
样本数量	7120	19729	1434488	24592
					体细胞突变数量	1283201	2986166	4138403	3499

除TCGA、ICGC、COSMIC、MSK公共数据库以外，该panel设计还纳入了CancerSEEK和Genetron_HCC报道的癌症热点突变。最终得到的泛癌基因突变panel覆盖23条染色体，包含915个肿瘤热点基因，大小为200kb。

以下通过一实例对上述基于液体活检的ctDNA突变程度分析方法及其有益效果进行说明：

一、实验流程：

1.血浆cfDNA提取

分别按照血液基因组DNA提取试剂盒和游离核酸提取试剂盒（磁珠法）中的提取方法，进行BC@DNA及cfDNA提取，血浆和血细胞的提取量分别为4 mL和200 μL。DNA定量由Qubit分析仪完成。使用Agilent bioanalyzer 2100对cfDNA进行质检，选用不存在大片段基因组污染的样本（>600 bp占比小于30%）进行后续实验。DNA样本存储于-80°C。

2.cfDNA建库

按照KAPA Hper Prep Kit实验操作进行文库构建。cfDNA起始量不高于30 ng，运用携带特有分子标签的Duplex Seq Adapter进行接头连接，以起始量按照1:200的比例进行文库构建；BC@DNA通过超声打断（Covaris M220）成100~200 bp的片段来构建文库。分别使用Qubit dsDNA HS Assay Kit和Agilent bioanalyzer 2100对文库进行定量和质控。文库样本储存于-20°C。

3.文库捕获

以总量1 μg的等量文库（一个捕获不超过12个文库）进行捕获操作，通过Panel9_IDT探针在65°C杂交16 h进行靶向区域捕获，捕获到的样本经纯化洗脱及14个循环PCR扩增后得到最终捕获文库，通过Qubit进行文库定量。

4.捕获后上机

将捕获后的样本用illumina平台进行上机。

二、数据分析流程：

1）数据拆分与准备。Novaseq测序结果bcl文件拆分后得到fastq格式并进行 3’端残留接头序列的处理，分别提取read1和read2 5’端的UMI序列并储存在uBAM文件中。同时，利用Bwa将FASTQ文件与基因组进行比对后产生的BAM文件与uBAM合并。

2）一致性序列识别。

3）基因突变识别。使用定制化的识别器对生成的BAM文件进行基因突变识别。

三、机器学习建模

3.1 选两组样本，一组癌症患者（N=70），一组良性结节的病人（N=70），分别经过数据预处理，得到等级I、等级II、等级III及等级IV的基因突变数量及突变频率8个指标的突变分析模型。

3.2 取独立验证集，包含已知的癌症患者（N=30）和良性结节患者（N=30），对构建的突变分析模型进行验证并统计结果。如图2所示，最终Roc曲线下的面积AUC=0.85，特异性为95%时，敏感性为68%。

本发明还提拱了一种基于液体活检的ctDNA突变分析装置100，如图3所示，包括：捕获测序模块110，用于根据预先创建的基因突变panel对待检测血浆样本进行捕获测序得到FASTQ文件，待检测血浆样本中的cfDNA携带有预先接入的分子标签；分子标签提取模块120，用于分别提取FASTQ文件中配对reads中的分子标签并存储为uBAM文件；文件形成模块130，用于将FASTQ文件的基因序列与参考基因组进行比对并去重得到BAM文件，并将其与uBAM文件合并得到含有分子标签的BAM文件；识别模块140，用于根据分子标签对BAM文件中的reads进行聚集并去重，及在基因突变panel区域使用pileup方法得到样本原始突变集合；参数统计模块150，用于对样本原始突变集合中的基因突变参数进行统计，基因突变参数包括：基因突变等级、各等级基因突变数量及突变频率；及用于根据预先构建的过滤规则对样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计；突变评估模块160，用于针对样本的基因突变参数使用预先构建的突变分析模型对待检测血浆样本的突变程度进行评估。

识别模块中包括：基因family形成单元，用于基于分子标签形成基因family，在基因family中：分子标签之间的编辑距离小于第一预设值，且带有相同分子标签的reads之间的起始位置相差第二预设值；基因family过滤单元，用于根据规则对基因family进行过滤，规则包括：对于有对应双链分子标签的family，其内部包含的reads数量不小于第三预设值；对于没有对应双链分子标签的family，其内部包含的reads数量不小于第四预设值；一致性序列识别单元，用于于各基因family中识别出一致性序列；比对单元，用于将识别的一致性序列的基因序列与参考基因组进行比对。

在一致性序列识别（Call Consensus Reads）中，根据分子标签对BAM文件中的reads进行聚集并去重。具体，基于分子标签形成基因family，在每个基因family中：分子标签之间的编辑距离（edit distance）小于第一预设值（如2、3等，可根据实际情况设定），且带有相同分子标签的reads之间的起始位置相差第二预设值（如1bp、2bp等，可根据实际情况设定）；根据规则对基因family进行过滤，将有或无双链分子标签（duplex UMI）支持的基因family区别处理，规则包括：对于有对应双链分子标签的family，其内部包含的reads数量不小于第三预设值（如1个等，可根据实际情况设定）；对于没有对应双链分子标签的family，其内部包含的reads数量不小于第四预设值（如3个等，可根据实际情况设定）；于各过滤后的基因family中识别出一致性序列，并将得到的两组一致性序列合并后再次与参考基因组进行比对得到最终BAM文件。

之后识别模块对生成的最终BAM文件的基因突变panel区域使用pileup方法（samtools pileup）得到样本原始突变集合（Variant Calling），包括SNVs（单核苷酸变异）、InDels（***和缺失）、MNVs（多核苷酸变异）等。在这一过程中，为了提高检测效率，可以选择性的对滤除的reads数量为1但所覆盖突变有其它一致性序列支持的基因family进行补充。在实际应用中，可以通过fgbio软件对UMI进行提取、比对、一致性序列识别、基因突变识别等操作。

接着参数统计模块对识别的基因突变参数进行统计包括但不限于基因突变类型、各类型基因突变数量及突变频率，在实际应用中，为了提高识别灵敏度，基因突变类型可以根据实际情况进行设定。在一实例中，基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括预设癌症数据库中的致癌基因，等级II中包括预设癌症数据库中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；基因突变参数包括：等级I的突变数量、等级I的突变最大突变频率值、等级II的突变数量、等级II的突变最大突变频率值、等级III的突变数量、等级III的突变最大突变频率值、等级IV的突变数量及等级IV的突变最大突变频率值8个指标。统计完样本原始突变集合中的基因突变参数之后，进一步根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计。具体，过滤的规则包括：在外周血白细胞（BC）中超过给定频率(例：15%)的胚系突变；在特异于指定panel大量历史样本的数据库中重复出现的黑名单位点，以及数据库中人群频率超过设定阈值(例：20%)的位点；由大于给定数量的健康人血浆样本的cfDNA在相同测序条件下构建背景噪音基线（计算待测突变显著区别于基线的概率，如低于给定阈值(例：0.05)则认为是背景噪音）。过滤完成之后，进一步从样本层面对各样本的基因突变参数进行统计，对样本的基因突变等级、各等级基因突变数量及突变频率进行统计。

最后突变评估模块针对样本的基因突变参数使用预先构建的突变分析模型对待检测血浆样本的突变程度进行评估。对于突变分析模型的输出结果，还可以为突变分析模型对于待检测血浆样本属性的预测及其预测概率，如预测待检测血浆样本患有恶性结节的可能性、患有良性结节的可能性等，为后续医生进行诊断提供部分依据。对于构建的突变分析模型，可以根据实际情况选定适宜的网络模型，如一实例中，选用支持向量机（SVM）模型对待检测血浆样本的突变程度进行评估。在模型训练中，基于13-fold交叉验证，使用线性内核SVM训练突变分析模型表现。在每个fold中，随机选择70%的样本作为训练集，30%作为测试集，通过交叉验证穷举网格搜索最优化超参数，得到最佳的突变分析模型。最后使用独立的样本集作为验证集，对训练得到的突变分析模型进行验证。应当清楚，这里仅示例性的给出一种突变分析模型的结构及其训练方法，在其他实例中，突变分析模型结构及其训练参数均可根据实际情况进行调整，这里不做具体限定，只要能够实现本实施例的目的均包括在其范围内。

在其他实施例中，ctDNA突变分析装置中还包括基因突变panel创建模块，用于基于大数据筛选基因突变位点形成泛癌基因突变panel。泛癌基因突变panel由包括肿瘤基因组数据库的大数据筛选而来。在一实例中，基于TCGA、ICGC、COSMIC、MSK等国外主流数据库以及自建的超10万样本的中国人肿瘤基因组数据对泛癌基因突变panel。各数据库筛选得到的突变位点如表1所示。为了提高泛癌基因突变panel的精确性，除TCGA、ICGC、COSMIC、MSK公共数据库以外，该panel设计还纳入了CancerSEEK和Genetron_HCC报道的癌症热点突变。最终得到的泛癌基因突变panel覆盖23条染色体，包含915个肿瘤热点基因，大小为200kb。

在此基础上，本发明还提供了一种基于液体活检的ctDNA性能分析装置300，如图4所示，包括：数据预处理模块310，用于对待测血浆样本中待分析的多维性能参数进行预处理操作，多维性能参数中包括上述基因突变参数；特征选择模块320，与数据预处理模块310连接，用于分别对待分析的多维性能参数进行特征筛选；模型构建模块330，与特征选择模块320连接，用于针对待分析的多维性能参数分别构建性能分析模型及构建多维组学集成模型，其中，构建的多个性能分析模型的输出分别与多维组学集成模型的输入连接，且构建的多个性能分析模型中包括上述突变分析模型，用于对基因突变参数进行分析；性能分析模块340，与模型构建模块330连接，用于将特征选择模块筛选的多维性能参数的特征分别输入训练后的相应的性能分析模型进行初步分析，多维组学集成模型针对性能分析模型的初步分析结果进一步分析得到针对多维性能参数的综合分析结果，完成对待检测血浆样本ctDNA的性能分析。

在该ctDNA性能分析装置中，多维性能参数除了包括上述基因突变参数之外，还包括临床数据和/或甲基化水平和/或肿瘤标志物浓度，特征选择模块筛选得到的特征包括临床数据特征和/或甲基化水平特征和/或预设肿瘤标志物浓度特征，模型构建模块构建的多个性能分析模型包括临床模型和/或甲基化分析模型和/或肿瘤标志物模型。其针对临床数据和/或甲基化水平和/或预设肿瘤标志物浓度创建相应的模型，并同时创建多维组学集成模型从不同的维度对ctDNA性能进行综合评估。为了提高模型的特异性，在实际应用中，可以同时创建突变分析模型、临床模型、甲基化分析模型、肿瘤标志物模型及创建多维组学集成模型，其中，突变分析模型基于基因突变参数对待检测血浆样本的ctDNA突变进行分析，临床模型基于临床数据对待检测血浆样本的ctDNA性能进行分析，甲基化分析模型基于甲基化水平特征对待检测血浆样本的甲基化程度进行分析，肿瘤标志物模型基于肿瘤标志物浓度对待检测血浆样本的ctDNA性能进行分析，最后将四个模型的输出结果输入多维组学集成模型进行进一步的综合分析。对于各性能参数，创建的性能分析模型的分析结果包括但不限于待检测血浆的属性及其概率，如来源于健康人的概率等。

当多维性能参数中包括甲基化水平，特征选择模块中包括panel创建模块，在创建甲基化分析模型之前，根据应用需求对相应的指标建立panel（基因突变panel、甲基化panel、肿瘤标志蛋白panel等），其中，泛癌基因突变panel的创建过程如前述ctDNA突变分析方法和装置中panel的创建过程，由包括肿瘤基因组数据库的大数据筛选而来。在一实例中，基于TCGA、ICGC、COSMIC、MSK等国外主流数据库以及自建的超10万样本的中国人肿瘤基因组数据对泛癌基因突变panel。得到的泛癌基因突变panel覆盖23条染色体，包含915个肿瘤热点基因，大小为200kb，测序深度为35,000X。

创建甲基化panel时，panel创建模块包括：样本选定单元，用于获取公共数据库中收录的泛癌队列肿瘤组织和正常组织甲基化修饰数据及公共数据集中收录的健康人外周血甲基化修饰数据，并从中选定健康人组织样本和癌组织样本；差异显著位点筛选模块，用于筛选癌组织和癌旁组织之间的第一甲基化水平差异显著位点，及筛选癌组织和健康人血细胞之间的第二甲基化水平差异显著位点；核心位点获取模块，用于将第一甲基化水平差异显著位点和第二甲基化水平差异显著位点合并得到甲基化panel的核心位点，完成甲基化panel的创建。

这一过程中，由于健康人血浆中cfDNA主要来源于血细胞，而癌症病人血浆中还包含癌组织释放的ctDNA，是以除了筛选癌组织和癌旁组织之间的第一甲基化水平差异显著位点（DMP）之外，进一步筛选癌组织和健康人血细胞之间的第二甲基化水平差异显著位点，进而合并两个甲基化水平差异显著位点得到差异区间DMR，作为甲基化panel的核心位点，最大化甲基化panel在癌症患者与健康人之间的差异。在其他实施例中，为了方便panel的设计，还可以对合并得到的差异区间DMR进行进一步合并，如将间隔不超过250bp的两个DMP可以合并在一个差异区间DMR上等。在一实例中，利用公共数据库TCGA的450K甲基化数据，将癌组织和癌旁组织甲基化水平差异显著位点进行组合对甲基化panel进行创建，该panel大小为1.1Mb，测序深度为1500X。

为了进一步提高检测效率，在筛选癌组织和癌旁组织之间的第一甲基化水平差异显著位点，及筛选癌组织和健康人血细胞之间的第二甲基化水平差异显著位点之前，还包括筛选癌组织中CpG位点的步骤，具体：分次（如5次、10次、15次甚至更多）从随机选定的部分癌组织样本（如1/2样本、2/3样本、3/4样本等）中筛选满足预设条件的CpG位点；针对各次筛选得到的CpG位点进行进一步的筛选，将其交集作为最终选定的CpG位点。以此，基于所有癌组织样本和选定的CpG位点筛选癌组织和癌旁组织之间差异化最显著的第一数量（如400、500、600等甚至更多）的CpG位点，作为第一甲基化水平差异显著位点；基于所有癌组织样本和选定的CpG位点筛选癌组织和健康人血细胞之间差异化最显著的第二数量（如4500、5000、5500等甚至更多）的CpG位点，作为第二甲基化水平差异显著位点，最后合并两部分选择到的甲基化水平差异显著位点为甲基化panel的核心位点。

在本实施例筛选满足预设条件的CpG位点中，针对同一次甲基化panel创建，每次选定的癌组织样本数量相同，如分5次依次从随机选定的2/3癌组织样本中筛选满足预设条件的CpG位点等。具体，筛选CpG位点的预设条件包括：健康人样本和癌组织样本之间统计检验的错误发现率FDR小于第一预设阈值（如0.001、0.005、0.01、0.05、0.1、0.2等）；健康人血细胞的均值与标准差之和小于第二预设阈值（如0.05、0.1、0.2、0.5等）；过滤非CpG岛及相关区域的CpG位点（如过滤Open Sea区域等）；癌组织中的均值不小于基于第三预设阈值（如0.1、0.2、0.3、0.5等）；及癌旁正常组织（应尽量选择与癌种对应的正常组织）的均值与标准差之和小于第四预设阈值（如0.05、0.1、0.2、0.5等）。应当清楚，在实际应用中，对于CpG位点的筛选条件可以根据实际情况进行设定，甚至从上述条件中选定部分作为筛选依据。创建肿瘤标志蛋白panel时，根据肿瘤标志物的不同种类（胚胎抗原、糖蛋白抗原、蛋白质、酶或同工酶和激素等），及肿瘤标志物的相关癌种进行组合设计，使得检测panel包括多类指标并覆盖较为广泛的癌种，最大程度提高panel检测的灵敏性与特异性。在实际应用中，使用到的肿瘤标志物可以根据具体情况进行选定，为了提高检测精度，可以尽量多的选取相应种类。

完成panel的创建之后，进一步根据指标对相应的模型进行创建，对于临床模型，可以根据实际情况对临床数据进行选定，如患者年龄、性别、结节大小、饮酒史等临床特征，在对临床模型进行训练的过程中，保留良恶性结节中差异大的特征，选用AUC最大的模型，并保留测试样本的预测结果（预测为恶性结节的可能性），用于后续对多维组学集成模型的训练。该临床模型可通过logistic、SVM等方法进行创建，这里不做具体限定。

对于肿瘤标志物模型，通过对训练集中患者各种血液肿瘤标志物浓度进行特征筛选，对建立的肿瘤标志物模型进行训练的过程中，保留良恶性结节中差异大的特征（可根据实际情况按照差异程度选定，如按照差异程度排序选定差异程度大的20%、30%等的特征），选择AUC最大的模型，并保留测试样本的预测结果（预测为恶性结节的可能性），用于后续对多维组学集成模型的训练。该肿瘤标志物模型可通过logistic、SVM等方法进行创建，这里不做具体限定。

对于突变分析模型，基于ctDNA体细胞突变检测panel检测每个患者的cfDNA突变及其突变频率。通过对训练集中患者的cfDNA突变进行特征筛选或者特征转化，选择AUC最大的模型，并保留测试样本的预测结果（预测为恶性结节的可能性），用于后续对多维组学集成模型的训练。该突变分析模型可通过logistic、SVM等方法进行创建，这里不做具体限定。

对于甲基化分析模型，基于ctDNA甲基化修饰检测panel检测每个患者的cfDNA甲基化位点及其甲基化程度。通过对训练集中患者cfDNA甲基化位点进行特征筛选，保留良恶性结节中差异大的特征（可根据实际情况按照差异程度选定，如按照差异程度排序选定差异程度大的20%、30%等的特征），选择AUC最大的模型，并保留测试样本的预测结果（预测为恶性结节的可能性），用于后续对多维组学集成模型的训练。该甲基化分析模型可通过logistic、SVM等方法进行创建，这里不做具体限定。在构建并训练甲基化分析模型之前，先对各甲基化连锁区域的甲基化水平进行log2(x+1)变换，对于缺失数据，使用同一组别对应甲基化连锁区域的中位值填充，其中，x表示甲基化连锁区域的甲基化水平；之后根据式z=(x–mean(X))/std(X)进行标准化处理计算z-score值，其中，X表示同一样本组别对应MCB的甲基化水平。之后，使用交叉验证递归式特征消除的方法（Recursive FeatureElimination with Cross-Validation，简称RFECV）对甲基化连锁区域进一步进行特征筛选以最佳化模型的效果。为了进一步提升检测精度，在对各甲基化连锁区域的甲基化水平进行log2(x+1)变换之前，还包括筛选甲基化连锁区域的步骤，包括：根据预先创建的甲基化panel分别对癌症组织样本和健康人组织样本进行捕获测序；针对一类型的癌种，分别通过方差分析（ANOVA）、费希尔精确检验（Fisher’s exact test）、卡方检验（Chi-Squaretest）、Wilcoxon秩和检验（Wilcoxon rank sum test）、曼-惠特尼检验（Mann-Whitneytest）及t检验（Student’s t-test）6个指标计算癌症组织样本和健康人组织样本之间各甲基化连锁区域的差异程度；根据计算结果对甲基化连锁区域进行筛选，当一甲基化连锁区域6个指标中至少4个的结果为癌症组织样本和健康人组织样本之间的p值小于预设值（可根据实际情况进行设定，如设定为0.1等），保留该差异显著的甲基化连锁区域。之后基于保留的甲基化连锁区域对甲基化分析模型进行训练。对于选定的用于计算癌症组织样本和健康人组织样本之间各甲基化连锁区域差异程度的检验方法，在其他实施例中还可以根据实际应用进行调整，如还以采用基于二项分布和泊松分布的检验方法等，只要能够实现发明目的即可。

进一步来说，当ctDNA性能分析创建有甲基化分析模型时，ctDNA性能分析装置中还包括甲基化特征筛选模块，包括：待检测血浆样本处理单元，用于根据预先创建的甲基化panel对待检测血浆样本进行捕获测序并进行预处理操作（包括去重、过滤、排序、建立索引等）得到Bam文件；连锁区域划分单元，用于根据预先定义的划分规则对Bam文件进行划分得到甲基化连锁区域（methylation-correlated block，MCB），划分规则包括：同一甲基化连锁区域中任意相邻两个CpG位点之间的皮尔逊相关系数大于预设值，及同一甲基化连锁区域中CpG位点的数量大于预设数量；甲基化水平计算单元，用于分别计算各甲基化连锁区域的甲基化水平；甲基化程度评估单元，用于针对甲基化水平使用预先构建的甲基化分析模型对待检测血浆样本的甲基化程度进行评估。

在划分甲基化连锁区域中，使得同一MCB中任意相邻两个CpG位点之间的皮尔逊相关系数大于预设值及同一MCB中CpG位点的数量大于预设数量，且将MCB中包含的所有CpG位点Beta值的均值作为该MCB的甲基化水平。最后针对甲基化水平使用预先构建的甲基化分析模型（logistic模型、SVM模型等）对待检测血浆样本的甲基化程度进行评估，若判断待检测血浆样本甲基化程度高，表示其可能来源于癌症血浆样本；若判断待检测血浆样本甲基化程度低，表示其可能来源于健康人血浆样本，甲基化程度高/低由训练后的甲基化分析模型判定。在此基础上，在后续诊断过程中可以辅助医生进行综合判断，为诊断结果提供部分依据，辅助癌症筛查工作，尤其是早期癌症的诊断和筛查。对于甲基化分析模型的输出结果，还可以为甲基化分析模型对于待检测血浆样本属性的预测及其预测概率，如预测待检测血浆样本患有恶性结节的可能性、患有良性结节的可能性等，为后续医生进行诊断提供部分依据。对于皮尔逊相关系数的预设值和同一MCB中CpG位点的预设数量均可以根据实际应用进行设定，如，皮尔逊相关系数的预设值可以根据实际应用设定为0.7、0.75、0.8、0.85、0.9、0.95等；同一MCB中CpG位点的预设数量可以根据实际应用设定为3个、4个、5个、6个等。在一实例中，皮尔逊相关系数的预设值为0.9；同一MCB中CpG位点的预设数量为3个。

对于多维组学集成模型，基于每个患者以上每个单组学最优模型的预测结果用训练集构建，且用独立验证集对模型效果进行评估。具体方法如下：

数据整理：整合每个样本每个单组学最优模型的预测结果（突变分析模型、临床模型/甲基化分析模型/肿瘤标志物模型的预测结果），以及真实诊断结果。

构建模型：以训练集中单组学最优模型的预测结果作为集成模型的特征，对训练集进行13次拆分交叉验证（StratifiedShuffleSplit 10次 + StratifiedKFold 3次）进行模型构建。每次拆分，随机挑选训练集中70%的样本进行超参数调参建模，30%的样本作为测试集对模型进行评估。构建模型的算法，选用集成算法，如随机森林（Random Forest）、Adaboost (adaptive boosting)、GBDT(Gradient Boosting Decision Tree)等。每个样本在每次拆分中得到一个预测为恶性肺结节的概率值，最后取13次的均值作为该样本最后的预测结果。通过ROC绘制，获得模型最佳的阈值，并计算得到模型在训练集中的敏感性、特异性及准确性。

应当清楚，本发明中针对临床数据、甲基化水平、肿瘤标志物浓度等参数建立模型，在其他实施例中，为了进一步提高检测精度，还可以针对其他参数，如血浆miRNA、血浆cfDNA片段长度等进行建模。

一实例中，将该基于液体活检的ctDNA性能分析装置应用于区分经过病理诊断的100个肺结节良性患者与100个恶性患者，其中，70%样本作为训练集用于建立突变分析模型、临床模型、甲基化分析模型、肿瘤标志物模型及多维组学集成模型，30%样本作为独立验证集评估模型效果。全部患者经过术前血样采集，检测血浆DNA突变、甲基化水平及肿瘤标志物。

在检测中，首先，对血浆DNA突变、甲基化水平、肿瘤标志物及临床信息四个维度的数据应用机器学***4个独立模型的AUC分别为0.73、0.67、0.85及0.9，多维组学集成模型的AUC为0.95。结果证明集成的多维组学集成模型的预测效果高于每个独立模型，多组学模型在特异性为100%时，敏感性为85%。可见，相对于单组学模型来说，该ctDNA性能分析装置能够大大提高早期肺癌筛查的准确性，从而有效辅助癌症的早期诊断以及癌症的早期筛查，提高筛查效率和精度。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序单元或模块，以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中，也可是各个单元单独物理存在，也可以两个或两个以上单元集成在一个处理单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序单元的形式实现。另外，各程序模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

图5是本发明一个实施例中提供的终端设备的结构示意图，如所示，该终端设备200包括：处理器220、存储器210以及存储在存储器210中并可在处理器220上运行的计算机程序211，例如：基于液体活检的ctDNA突变程度分析方法关联程序。处理器220执行计算机程序211时实现上述各个基于液体活检的ctDNA突变程度分析实施例中的步骤，或者，处理器220执行计算机程序211时实现上述基于液体活检的ctDNA突变程度分析装置实施例中各模块的功能。

终端设备200可以为笔记本、掌上电脑、平板型计算机、手机等设备。终端设备200可包括，但不仅限于处理器220、存储器210。本领域技术人员可以理解，图5仅仅是终端设备200的示例，并不构成对终端设备200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如：终端设备200还可以包括输入输出设备、显示设备、网络接入设备、总线等。

处理器220可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器210可以是终端设备200的内部存储单元，例如：终端设备200的硬盘或内存。存储器210也可以是终端设备200的外部存储设备，例如：终端设备200上配备的插接式硬盘，智能TF存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器210还可以既包括终端设备200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序211以及终端设备200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述或记载的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其他的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性、机械或其他的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可能集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序211发送指令给相关的硬件完成，计算机程序211可存储于一计算机可读存储介质中，该计算机程序211在被处理器220执行时，可实现上述各个方法实施例的步骤。其中，计算机程序211包括：计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括：能够携带计算机程序211代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器 (ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如：在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

应当说明的是，上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通相关人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于液体活检的ctDNA突变程度分析方法，其特征在于，包括：

根据分子标签对BAM文件中的reads进行聚集并去重；

2.如权利要求1所述的ctDNA突变程度分析方法，其特征在于，所述基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括预设癌症数据库中的致癌基因，等级II中包括预设癌症数据库中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；

3.如权利要求1所述的ctDNA突变程度分析方法，其特征在于，在所述根据预先构建的过滤规则对所述样本原始突变集合进行过滤，并对各样本的基因突变参数进行统计中，对所述样本原始突变集合进行过滤的规则包括：

在外周血白细胞中超过给定频率的胚系突变；

4.如权利要求1-3任意一项所述的ctDNA突变程度分析方法，其特征在于，根据分子标签对BAM文件中的reads进行聚集并去重中，包括：

5.一种基于液体活检的ctDNA突变分析装置，其特征在于，包括：

6.如权利要求5所述的ctDNA突变分析装置，其特征在于，所述基因突变等级包括等级I、等级II、等级III及等级IV，其中，等级I中包括癌症相关数据库中的致癌基因，等级II中包括癌症相关数据中等级I之外的抑癌基因或功能性判断为有害的其他抑癌基因，等级III中包括等级I和等级II之外的外显子区域基因，等级IV中包括等级I、等级II和等级III之外的基因；

7.如权利要求5所述的ctDNA突变分析装置，其特征在于，所述ctDNA突变分析装置中还包括分别与所述识别模块和参数统计模块连接的过滤模块，用于对得到样本原始突变集合进行过滤，过滤的条件包括：

在外周血白细胞中超过给定频率的胚系突变；

8.如权利要求5-7任意一项所述的ctDNA突变分析装置，其特征在于，在所述识别模块中，包括：

9.一种基于液体活检的ctDNA性能分析装置，其特征在于，包括：

数据预处理模块，用于对待测血浆样本中待分析的多维性能参数进行预处理操作，所述多维性能参数中包括如权利要求5-8任意一项所述的基因突变参数；

模型构建模块，与所述特征选择模块连接，用于针对待分析的多维性能参数分别构建性能分析模型及构建多维组学集成模型，其中，构建的多个所述性能分析模型的输出分别与所述多维组学集成模型的输入连接，且构建的多个所述性能分析模型中包括如权利要求5-8任意一项所述的突变分析模型，用于对所述基因突变参数进行分析；

10.如权利要求9所述的ctDNA性能分析装置，其特征在于，所述多维性能参数还包括临床数据和/或甲基化水平和/或肿瘤标志物浓度，所述特征选择模块筛选得到的特征包括临床数据特征和/或甲基化水平特征和/或预设肿瘤标志物浓度特征，所述模型构建模块构建的多个性能分析模型包括临床模型和/或甲基化分析模型和/或肿瘤标志物模型；

11.如权利要求9或10所述的ctDNA性能分析装置，其特征在于，在所述模型构建模块中，完成多个性能分析模型及多维组学集成模型的构建之后，于各性能分析模型的预测结果选定AUC最大的参数作为训练后的模型，并基于训练后的模型进一步对所述多维组学集成模型进行训练，所述多维组学集成模型通过样本拆分交叉验证的方式进行模型构建。