CN116762132A

CN116762132A - 基于游离dna的疾病预测模型及其构建方法和应用

Info

Publication number: CN116762132A
Application number: CN202180089945.3A
Authority: CN
Inventors: 鞠佳; 白勇; 陈若言; 金鑫
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2021-01-14
Filing date: 2021-01-14
Publication date: 2023-09-15
Also published as: US20240068041A1; WO2022151185A1

Abstract

本发明属于生物技术领域，公开了一种基于游离DNA的疾病预测模型及其构建方法和应用。所述构建方法包括：1)获得疾病个体和对照个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；3)对于所述基因集中的基因，将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型。本发明还公开了一种基于游离DNA进行疾病预测的***，所述***可以用于实施基于游离DNA进行疾病预测的方法。

Description

基于游离DNA的疾病预测模型及其构建方法和应用

技术领域

本发明属于生物技术领域，更具体而言，本发明涉及一种利用游离DNA进行疾病预测的方法。

背景技术

现有技术中对肿瘤的预测是个重要的问题，目前有多种方法可以应用于肿瘤预测。基于血清学肿瘤标志物进行肿瘤预测，例如CA125、CA19-9、CEA、HGF等很多的血清蛋白对于肿瘤的诊断、检测有一定的作用[1,2]。利用CT、核磁共振等影像学手段进行肿瘤预测。基于下一代测序技术进行基因预测：a)根据SNV水平的基因组变异进行肿瘤预测，近来对cfDNA的研究表明肿瘤特异性的突变研究可以用于肿瘤早筛，通过高深度靶向测序或者多重PCR等方法检测肿瘤特有的体细胞突变(Somatic Mutation)[3,4]；b)基于CNV进行肿瘤预测，通过cfDNA全基因组测序可以检测染色体水平的变异或者拷贝数目变异[5-7]；c)根据染色体甲基化进行肿瘤预测，近年来的研究表明甲基化生物标志物可以进行肿瘤预测[8,9]；d)根据肿瘤的cfDNA片段特有核小体相关印记进行肿瘤预测，cfDNA测序可以反映包裹核小体cfDNA片段长度。Jiang P等人的研究[7]指出，在肝癌患者的cfDNA中肿瘤的片段检测中发现肝癌患者的cfDNA片段长度会部分的短于正常人。Cristiano S等人[10]将cfDNA在全基因组上的每个区间的短片段的比例作为特征可以用来预测肿瘤并识别其组织类型。核小体的位置[11]、cfDNA的片段末端在基因组上的位置[12,13]显示与肿瘤及其组织来源存在一定的相关性。

现有的肿瘤检测产品及已发表的肿瘤预测研究成果中，通常是将上述技术结合来使用。例如，Guardant Health的LUNAR-2(https://guardanthealth.com/solutions/#lunar-2)结合了上述a)、c)和d)方面的技术，在结直肠癌可以达到较高的灵敏度，具体方法未知。Natera公司肿瘤术后检测产品signature(https://www.natera.com/signatera)，基于上述a)，选择16个特异的SNV位点，在结直肠癌和肺癌上的复发检测上可以达到有超高的灵敏度[14,15]。2018年Joshua D.cohen团队发表在Science上一篇研究成果；基于血清标志物与SNV的肿瘤检测方法CancerSEEK，在1005个患有肺癌、肝癌、结直肠癌等不同8种类型的肿瘤患者中；特异性可以达到99％，灵敏性根据癌种的不同在69％到98％之间[16]。

现有技术中对肿瘤的预测主要有一些缺点。例如，利用血清学肿瘤标志物进行检测精度不高、特异性较低，通常在正常人的血清中同时存在，很难应用于肿瘤早期筛查。利用CT、核磁共振等影像学手段进行检测，对于早期的肿瘤筛查存在较高的假阳性和假阴性风险，很难实现肿瘤的早期筛查。基于下一代测序技术进行基因检测：根据SNV水平的基因组变异进行检测并不是所有患者均可检测到特异性变异，且实验成本较高很难实现大规模的普及；利用CNV进行检测，仅有少部分个体存在该种类型变异；利用基因组甲基化进行检测成本较高很难大规模的应用普及；根据肿瘤的cfDNA片段特有核小体相关印记进行检测通常需要较高的测序深度，且仅在科研探索阶段很难应用于临床常规检测。综上所述，目前现有技术中尚无有效预测早期肿瘤的方法。

参考文献：

1.Patz,E.F.,Jr.,et al.,Panel of serum biomarkers for the diagnosis of lung cancer.J Clin Oncol,2007.25(35):p.5578-83.

2.Liotta,L.A.and E.F.Petricoin,3rd,The promise of proteomics.Clin Adv Hematol Oncol,2003.1(8):p.460-2.

3.Phallen,J.,et al.,Direct detection of early-stage cancers using circulating tumor DNA.Sci Transl Med,2017.9(403).

4.Bettegowda,C.,et al.,Detection of circulating tumor DNA in early-and late-stage human malignancies.Sci Transl Med,2014.6(224):p.224ra24.

5.Leary,R.J.,et al.,Detection of chromosomal alterations in the circulation of cancer patients with whole-genome sequencing.Sci Transl Med,2012.4(162):p.162ra154.

6.Chan,K.C.,et al.,Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc Natl Acad Sci U S A,2013.110(47):p.18761-8.

7.Jiang,P.,et al.,Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients.Proc Natl Acad Sci U S A,2015.112(11):p.E1317-25.

8.Hao,X.,et al.,DNA methylation markers for diagnosis and prognosis of common cancers.Proc Natl Acad Sci U S A,2017.114(28):p.7414-7419.

9.Guo,S.,et al.,Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA.Nat Genet,2017.49(4):p.635-642.

10.Cristiano,S.,et al.,Genome-wide cell-free DNA fragmentation in patients with cancer.Nature,2019.570(7761):p.385-389.

11.Snyder,M.W.,et al.,Cell-free DNA Comprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.Cell,2016.164(1-2):p.57-68.

12.Jiang,P.,et al.,Preferred end coordinates and somatic variants as signatures of circulating tumor DNA associated with hepatocellular carcinoma.Proc Natl Acad Sci U S A,2018.115(46):p.E10925-E10933.

13.Sun,K.,et al.,Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin.Genome Res,2019.29(3):p.418-427.

14.Abbosh,C.,et al.,Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution.Nature,2017.545(7655):p.446-451.

15.Reinert,T.,et al.,Analysis of Plasma Cell-Free DNA by Ultradeep Sequencing in Patients With Stages I to III Colorectal Cancer.JAMA Oncol,2019.

16.Cohen,J.D.,et al.,Detection and localization of surgically resectable cancers with a multi-analyte blood test.Science,2018.359(6378):p.926-930.

发明内容

针对现在临床上没有有效疾病诊断方法的现状，本发明尝试提供一种相对高准确性的疾病预测模型及其构建方法和应用。

因此，在第一方面，本发明提供了一种构建基于游离DNA的疾病预测模型的方法，所述方法包括：

1)获得疾病个体和对照个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；

2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；

3)对于所述基因集中的基因，将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型。

在一个实施方案中，所述疾病为癌症，优选地，所述癌症为肺癌、肝癌、结直肠癌。

在一个实施方案中，所述疾病预测包括肿瘤早筛或肿瘤的复发检测。

在一个实施方案中，在1)中，所述游离DNA样本来自体液，例如血液。

在一个实施方案中，在2)中，游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。

在一个实施方案中，在2)中，所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。

在一个实施方案中，在2)中，对在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因进行排序，选取差异大的基因。

在一个实施方案中，在2)中，所述基因集包括10-50个基因。

在一个实施方案中，在3)中，所述预测模型为逻辑回归(Logistics Regression)模型或随机森林(Random Forest)模型。

在第二方面，本发明提供了根据本发明第一方面的方法构建的疾病预测模型。

在第三方面，本发明提供了一种基于游离DNA进行疾病预测的方法，所述方法使用本发明第一方面的方法建立的疾病预测模型，所述方法包括：

1)对于被试个体的游离DNA样本，获得建立所述疾病预测模型时确定的基因集的测序数据；

2)对于所述基因集中的基因，获取所述测序数据在转录起始位点区的覆盖情况；

3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型，预测所述被试个体是否患有所述疾病。

在第四方面，本发明提供了一种基于游离DNA进行疾病预测的***，所述***包括：

序列获取单元，被配置用于获得疾病个体、对照个体和被试个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；

基因集选择单元，被配置用于根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；

模型建立单元，被配置用于，对于所述基因集中的基因，将所述疾病个体和对照个体的测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型；

预测单元，被配置用于，对于所述基因集中的基因，将所述被试个体的测序数据在基因转录起始位点区上的覆盖情况作为输入所述疾病预测模型，预测所述被试个体是否患有所述疾病。

在一个实施方案中，在序列获取单元中，所述游离DNA样本来自体液，例如血液。

在一个实施方案中，在基因集选择单元中，游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。

在一个实施方案中，在基因集选择单元中，所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。

在一个实施方案中，在基因集选择单元中，对在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因进行排序，选取差异大的基因。

在一个实施方案中，在基因集选择单元中，所述基因集包括10-50个基因。

在一个实施方案中，在模型建立单元中，所述预测模型为逻辑回归(Logistics Regression)模型或随机森林(Random Forest)模型。

本发明实现了仅利用一次样本中cfDNA对应测序深度分布信息，在不利用任何其他辅助手段及额外数据的情况下，进行快速高效低成本的疾病例如肺癌早期预测。

附图说明

图1是肺癌测试集的ROC曲线，曲线下面积(AUC)为0.75。

图2是肝癌测试集的ROC曲线，曲线下面积(AUC)为1.00。

具体实施方式

在肿瘤患者的外周血中含有肿瘤来源的循环肿瘤DNA(Circulating Tumor DNA,ctDNA)。ctDNA仅占所有的外周血中循环游离(Circulating Free DNA,cfDNA)的小部分。本发明利用cfDNA在基因转录起始位点(Transcription Start Site，TSS)、转录终止位点(Transcription Terminal Site，TTS)或基因组开放区(Nucleosome Depletion Region，NDR)的测序读长覆盖深度变化，进行疾病的预测。并且，本发明基于核小体区间的覆盖情况建立预测模型。

本发明提供了一种相对高准确性的疾病预测模型及其构建方法和应用。构建基于游离DNA的疾病预测模型的方法包括：1)获得疾病个体和对照个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；3)对于所述基因集中的基因，将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型。基于游离DNA进行疾病预测的方法包括：1)对于被试个体的游离DNA样本，获得建立所述疾病预测模型时确定的基因集的测序数据；2)对于所述基因集中的基因，获取所述测序数据在转录起始位点区的覆盖情况；3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型，预测所述被试个体是否患有所述疾病。在上述两个方法中，使用的基因集和计算所述测序数据在转录起始位点区的覆盖情况的方法是对应的。

所述疾病预测模型的应用包括基于游离DNA进行疾病预测。本发明提供了一种基于游离DNA进行疾病预测的***，所述***可以用于实施所述基于游离DNA进行疾病预测。

根据本发明的一个具体实例，以正常对照和肺癌早期患者的血浆cfDNA测序数据为输入数据，具体步骤如下：

1、前期数据处理。

所有用于模型训练及预测和验证的样本的原始下机测序数据(fq格式)完成质控后使用比对软件(如BWA中samse模式)将测序数据的读长比对至人类参考染色体上；采用SAMtools计算比对结果中的重复读长的重复率、计算比对率、计算错配率，选取比对至人类参考染色体上的读长。

2、单个样本转录起始位点区测序覆盖情况相对测序深度值计算。

针对每个样本，计算全基因组每个基因的转录起始位点(TSS)区附近(以转录起始位点上下游100bp、400bp、600bp、1kb等范围作为转录起始位点附近区域均可)的测序深度。对于单链测序和双链测序采用不同的计算方法。对于单链测序，可以分为正比对和反向比对两种情况。正向比对的，直接记录bam文件中比对起始位点；反向比对的，记录bam中的比对结束位置，为比对的起始位点。然后根据比对的方向，正向比对的向后延伸，反向比对的向前延伸，从测序的起始位置延伸167bp，至cfDNA的峰值长度。对于双链测序，计算读长1和读长2刚好比对到同一条染色体、***片段长度在120bp至300bp间的测序片段。

根据比对文件定位测序片段在基因组上分布位置后，计算每个基因转录起始位点区附近的平均测序深度。为了增强相关信号，仅仅对测序片段的中心61bp的测序深度进行计数，并根据总体的比对读长数进行归一化处理，去除比对读长数不同引起的差异，得到相对测序深度(Relative Coverage,RC)。

3、挑选肺癌相关基因。

针对每个基因(或转录本)的转录起始位点附近区，将肺癌和对照样本的在该基因转录起始位点区的相对测序深度值进行显著性检验(一般统计监测方法如秩和检验或T检验等均可)，挑选m个(10-50，根据训练样本数设定合适的数值)显著性差异基因作为肺癌相关基因，用于后续预测模型的构建。

4、以转录起始位点区相对测序深度值数据构建输入矩阵。

将用于模型训练的n个样本对应在步骤3中所得显著性差异基因转录起始位点区上的相对深度形成肺癌相关基因矩阵作为输入建立预测模型。即，以n个样本对应m个显著性差异基因的转录起始位点上下游100bp、400bp、600bp或1kb区域上计算相对测序深度，则得到n×m的相对测序深度矩阵，以此为训练集D。

5、建立肺癌预测模型：

可以利用R等统计软件进行逻辑回归(Logistics Regression)或随机森林(Random Forest)、或其他预测模型的训练，将最终得到的结果作为预测模型储存起来，用于最后一步的预测。

在一个实施方案中，本发明使用基于随机森林(Random Forest，默认参数)模型。

6、利用已建立的模型预测肺癌。

取待预测的样本集，针对每个样本均在步骤3中所得基因的转录起始位点区域内计算相对测序深度值，将每个样本的m个相对测序深度值作为输入，利用步骤4中所得预测模型进行预测，预测样本是否为肿瘤样本。

实施例一：肺癌应用实例。

1、样本：总体样本集包括57个健康个体及100个肺腺癌个体，如表1。

表1.肺癌预测训练集及测试集样本情况汇总

取样及测序：抽取健康和肺癌患者的血浆样本，提取游离DNA，实验建库后，利用BGIseq500，采用PE100，3×测序方案进行测序。

2、样本切分：对步骤1中的总样本按照8:2的比例切分生成训练样本(N＝126)和测试样本(N＝31)。在切分过程中保持训练样本和测试样本中的正负样本与原始数据集中的正负样本比例不变。

3、选取差异转录起始位点区覆盖基因：计算出训练数据集中健康及肺腺癌样本在全部基因转录起始位点区附近的相对测序深度值。将健康及肺腺癌样本的相对测序深度值进行秩和检测(Wilcox rank sum test)，本实施例此步骤使用R统计软件wilcox检测包完成。最终从全部基因中选取差异性显著的基因作为后续模型训练的特征。考虑到样本集合中样本数目的多少，将从全部的基因中挑选P-value最小的前30个基因(表2)，定义为差异性显著的基因(数量可以小于或等于 )。最终得到不同转录起始位点附近区(此处选取转录起始位点上下游1000bp作为转录起始位点附近区)在健康及肺腺癌样本中相对测序深度分布存在显著性差异的基因共计30个。在训练样样本中提取这30个显著性差异基因转录起始位点附近的相对测序深度值生成训练集。在测试样本中提取这30个显著性差异基因转录起始位点附近的相对测序深度值生成测试集。

表2：筛选得到的30个基因列表

4、肺癌预测模型

对训练集进行5折交叉验证，完成特征选择，过程如下：

(a)将训练集合126个样本按正负样本的比例随机切分为5等份，其中4等份构成训练集，剩下一份作为验证集，重复该过程5次，生成5折交叉验证集。

(b)特征选择：对上步骤中的每个训练集，建立随机森林模型，输出对应每个基因在模型中的重要性，选择每个模型中对应重要性最高的10个基因。重复该过程5次，每次选择的重要基因列表如表3。

表3：5折交叉验证每轮选择的基因列表。

(c)对上步骤中的每次结果记录模型选择的特征，将所有5次的交叉验证选择的特征利用多数投票规则选出得票最多的5个特征，如表4所示：

表4：特征选择得到的5个特征列表

(d)建立最终模型：采用表4中的特征列表重新建立随机森林模型。

(e)模型评估：用测试集合的31个样本对模型进行评估。评估结果如图2表所示。根据图1，在测试数据集中，ROC曲线中，曲线下面积(AUC)值可以达到0.75。另外，根据表5，测试数据集混淆矩阵的结果、灵敏度和特异性分别可以达到0.8和0.73，精确度为0.84。

表5：测试数据集混淆矩阵

本发明实现了仅使用一次采样所得血浆中cfDNA数据对应基因组测序深度分布情况进行相对高准确性肺癌预测，为临床上肺癌的诊断提供了一种简洁、高效且低成本的参考辅助手段。本发明将不同基因转录起始位点区测序深度覆盖情况融合进入随机森林模型中，实现高效且相对高准确性的肺癌早期预测，为利用cfDNA数据进行肺癌预测提供了一套全面而***的方法。

实施例二：肝癌应用实例。

数据来源于www.ebi.ac.uk(accession no.EGAS00001001024)，illumina平台测序，双端测序读长75bp，每个样本17-79兆测序读长，中位数31兆。详细数据描述请见Peiyong Jiang，et al.PNAS 2015。

包括肝癌游离核酸样本90例，健康对照游离核酸样本32例。将数据按8：2分为训练集共97例与测试集共25例，并保证其中肝癌与健康样本的比例。

前期数据处理，单个样本转录起始位点区测序覆盖情况相对测序深度值计算及挑选与肝癌相关基因，三步骤过程与前面描述一致。按照两组间转录起始位点附近相对深度进行秩和检测(Wilcox rank sum test)后，P值从小到大在训练集筛选25例差异基因作为特征，采用随机森林建立模型在训练数据集上建立模型后，应用在测试数据集上。结果如下：

表6：筛选得到的25个基因列表，作为最终分类特征

测试集上的ROC曲线见图2。另外，根据测试数据集混淆矩阵结果(见表7)，显示本方法在肝癌预测中，灵敏度、特异性和准确率均可以达到1。

表7：混淆矩阵结果

Claims

一种构建基于游离DNA的疾病预测模型的方法，所述方法包括：

1)获得疾病个体和对照个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；

2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；

3)对于所述基因集中的基因，将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型。
根据权利要求1的方法，所述疾病为癌症，优选地，所述癌症为肺癌、肝癌、结直肠癌，所述疾病预测包括肿瘤早筛或肿瘤的复发检测。
根据权利要求1或2的方法，在1)中，所述游离DNA样本来自体液，例如血液。
根据权利要求1-3任一项的方法，在2)中，游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。
根据权利要求1-4任一项的方法，在2)中，所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。
根据权利要求1-5任一项的方法，所述基因集包括10-50个基因。
根据权利要求1-6任一项的方法，在3)中，所述预测模型为逻辑回归模型或随机森林模型。
根据权利要求1-7任一项的方法构建的疾病预测模型。
一种基于游离DNA进行疾病预测的方法，所述方法使用根据权利要求7的疾病预测模型，所述方法包括：

1)对于被试个体的游离DNA样本，获得建立所述疾病预测模型时确定的基因集的测序数据；

2)对于所述基因集中的基因，获取所述测序数据在转录起始位点区的覆盖情况；

3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型，预测所述被试个体是否患有所述疾病。
一种基于游离DNA进行疾病预测的***，所述***包括：

序列获取单元，被配置用于获得疾病个体、对照个体和被试个体的游离DNA样本的测序数据，所述疾病个体和所述对照个体都是多个；

基因集选择单元，被配置用于根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况，选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集；

模型建立单元，被配置用于，对于所述基因集中的基因，将所述疾病个体和对照个体的测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练，建立疾病预测模型；

预测单元，被配置用于，对于所述基因集中的基因，将所述被试个体的测序数据在基因转录起始位点区上的覆盖情况作为输入所述疾病预测模型，预测所述被试个体是否患有所述疾病。