CN116762132A - 基于游离dna的疾病预测模型及其构建方法和应用 - Google Patents
基于游离dna的疾病预测模型及其构建方法和应用 Download PDFInfo
- Publication number
- CN116762132A CN116762132A CN202180089945.3A CN202180089945A CN116762132A CN 116762132 A CN116762132 A CN 116762132A CN 202180089945 A CN202180089945 A CN 202180089945A CN 116762132 A CN116762132 A CN 116762132A
- Authority
- CN
- China
- Prior art keywords
- disease
- individual
- coverage
- prediction model
- transcription initiation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000010099 disease Diseases 0.000 title claims abstract description 80
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 80
- 238000010276 construction Methods 0.000 title abstract description 6
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 75
- 238000012163 sequencing technique Methods 0.000 claims abstract description 68
- 108700009124 Transcription Initiation Site Proteins 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 23
- 206010028980 Neoplasm Diseases 0.000 claims description 49
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 22
- 201000005202 lung cancer Diseases 0.000 claims description 22
- 208000020816 lung neoplasm Diseases 0.000 claims description 22
- 238000001514 detection method Methods 0.000 claims description 20
- 201000007270 liver cancer Diseases 0.000 claims description 12
- 208000014018 liver neoplasm Diseases 0.000 claims description 12
- 238000007637 random forest analysis Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 9
- 201000011510 cancer Diseases 0.000 claims description 8
- 206010009944 Colon cancer Diseases 0.000 claims description 6
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 6
- 238000011144 upstream manufacturing Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 4
- 210000004369 blood Anatomy 0.000 claims description 3
- 239000008280 blood Substances 0.000 claims description 3
- 210000001124 body fluid Anatomy 0.000 claims description 3
- 239000010839 body fluid Substances 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 21
- 239000000523 sample Substances 0.000 description 19
- 239000012634 fragment Substances 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 7
- 108010047956 Nucleosomes Proteins 0.000 description 5
- 210000000349 chromosome Anatomy 0.000 description 5
- 210000001623 nucleosome Anatomy 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 4
- 201000005249 lung adenocarcinoma Diseases 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000011987 methylation Effects 0.000 description 3
- 238000007069 methylation reaction Methods 0.000 description 3
- 210000002381 plasma Anatomy 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 102000039446 nucleic acids Human genes 0.000 description 2
- 108020004707 nucleic acids Proteins 0.000 description 2
- 150000007523 nucleic acids Chemical class 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000000405 serological effect Effects 0.000 description 2
- 210000002966 serum Anatomy 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 101150055869 25 gene Proteins 0.000 description 1
- 101150110188 30 gene Proteins 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 101150036080 at gene Proteins 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000005030 transcription termination Effects 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Analytical Chemistry (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Zoology (AREA)
- Medical Informatics (AREA)
- Evolutionary Biology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- Oncology (AREA)
- Hospice & Palliative Care (AREA)
- Physiology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明属于生物技术领域,公开了一种基于游离DNA的疾病预测模型及其构建方法和应用。所述构建方法包括:1)获得疾病个体和对照个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;3)对于所述基因集中的基因,将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型。本发明还公开了一种基于游离DNA进行疾病预测的***,所述***可以用于实施基于游离DNA进行疾病预测的方法。
Description
本发明属于生物技术领域,更具体而言,本发明涉及一种利用游离DNA进行疾病预测的方法。
现有技术中对肿瘤的预测是个重要的问题,目前有多种方法可以应用于肿瘤预测。基于血清学肿瘤标志物进行肿瘤预测,例如CA125、CA19-9、CEA、HGF等很多的血清蛋白对于肿瘤的诊断、检测有一定的作用[1,2]。利用CT、核磁共振等影像学手段进行肿瘤预测。基于下一代测序技术进行基因预测:a)根据SNV水平的基因组变异进行肿瘤预测,近来对cfDNA的研究表明肿瘤特异性的突变研究可以用于肿瘤早筛,通过高深度靶向测序或者多重PCR等方法检测肿瘤特有的体细胞突变(Somatic Mutation)[3,4];b)基于CNV进行肿瘤预测,通过cfDNA全基因组测序可以检测染色体水平的变异或者拷贝数目变异[5-7];c)根据染色体甲基化进行肿瘤预测,近年来的研究表明甲基化生物标志物可以进行肿瘤预测[8,9];d)根据肿瘤的cfDNA片段特有核小体相关印记进行肿瘤预测,cfDNA测序可以反映包裹核小体cfDNA片段长度。Jiang P等人的研究[7]指出,在肝癌患者的cfDNA中肿瘤的片段检测中发现肝癌患者的cfDNA片段长度会部分的短于正常人。Cristiano S等人[10]将cfDNA在全基因组上的每个区间的短片段的比例作为特征可以用来预测肿瘤并识别其组织类型。核小体的位置[11]、cfDNA的片段末端在基因组上的位置[12,13]显示与肿瘤及其组织来源存在一定的相关性。
现有的肿瘤检测产品及已发表的肿瘤预测研究成果中,通常是将上述技术结合来使用。例如,Guardant Health的LUNAR-2(https://guardanthealth.com/solutions/#lunar-2)结合了上述a)、c)和d)方面的技术,在结直肠癌可以达到较高的灵敏度,具体方法未知。Natera公司肿瘤术后检测产品signature(https://www.natera.com/signatera),基于上述a),选择16个特异的SNV位点,在结直肠癌和肺癌上的复发检测上可以达到有超高的灵敏度[14,15]。2018年Joshua D.cohen团队发表在Science上一篇研究成果;基于血清标志物与SNV的肿瘤检测方法CancerSEEK,在1005个患有肺癌、肝癌、结直肠癌等不同8种类型的肿瘤患者中;特异性可以达到99%,灵敏性根据癌种的不同在69%到98%之间[16]。
现有技术中对肿瘤的预测主要有一些缺点。例如,利用血清学肿瘤标志物进行检测精度不高、特异性较低,通常在正常人的血清中同时存在,很难应用于肿瘤早期筛查。利用CT、核磁共振等影像学手段进行检测,对于早期的肿瘤筛查存在较高的假阳性和假阴性风险,很难实现肿瘤的早期筛查。基于下一代测序技术进行基因检测:根据SNV水平的基因组变异进行检测并不是所有患者均可检测到特异性变异,且实验成本较高很难实现大规模的普及;利用CNV进行检测,仅有少部分个体存在该种类型变异;利用基因组甲基化进行检测成本较高很难大规模的应用普及;根据肿瘤的cfDNA片段特有核小体相关印记进行检测通常需要较高的测序深度,且仅在科研探索阶段很难应用于临床常规检测。综上所述,目前现有技术中尚无有效预测早期肿瘤的方法。
参考文献:
1.Patz,E.F.,Jr.,et al.,Panel of serum biomarkers for the diagnosis of lung cancer.J Clin Oncol,2007.25(35):p.5578-83.
2.Liotta,L.A.and E.F.Petricoin,3rd,The promise of proteomics.Clin Adv Hematol Oncol,2003.1(8):p.460-2.
3.Phallen,J.,et al.,Direct detection of early-stage cancers using circulating tumor DNA.Sci Transl Med,2017.9(403).
4.Bettegowda,C.,et al.,Detection of circulating tumor DNA in early-and late-stage human malignancies.Sci Transl Med,2014.6(224):p.224ra24.
5.Leary,R.J.,et al.,Detection of chromosomal alterations in the circulation of cancer patients with whole-genome sequencing.Sci Transl Med,2012.4(162):p.162ra154.
6.Chan,K.C.,et al.,Noninvasive detection of cancer-associated genome-wide hypomethylation and copy number aberrations by plasma DNA bisulfite sequencing.Proc Natl Acad Sci U S A,2013.110(47):p.18761-8.
7.Jiang,P.,et al.,Lengthening and shortening of plasma DNA in hepatocellular carcinoma patients.Proc Natl Acad Sci U S A,2015.112(11):p.E1317-25.
8.Hao,X.,et al.,DNA methylation markers for diagnosis and prognosis of common cancers.Proc Natl Acad Sci U S A,2017.114(28):p.7414-7419.
9.Guo,S.,et al.,Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA.Nat Genet,2017.49(4):p.635-642.
10.Cristiano,S.,et al.,Genome-wide cell-free DNA fragmentation in patients with cancer.Nature,2019.570(7761):p.385-389.
11.Snyder,M.W.,et al.,Cell-free DNA Comprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.Cell,2016.164(1-2):p.57-68.
12.Jiang,P.,et al.,Preferred end coordinates and somatic variants as signatures of circulating tumor DNA associated with hepatocellular carcinoma.Proc Natl Acad Sci U S A,2018.115(46):p.E10925-E10933.
13.Sun,K.,et al.,Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin.Genome Res,2019.29(3):p.418-427.
14.Abbosh,C.,et al.,Phylogenetic ctDNA analysis depicts early-stage lung cancer evolution.Nature,2017.545(7655):p.446-451.
15.Reinert,T.,et al.,Analysis of Plasma Cell-Free DNA by Ultradeep Sequencing in Patients With Stages I to III Colorectal Cancer.JAMA Oncol,2019.
16.Cohen,J.D.,et al.,Detection and localization of surgically resectable cancers with a multi-analyte blood test.Science,2018.359(6378):p.926-930.
发明内容
针对现在临床上没有有效疾病诊断方法的现状,本发明尝试提供一种相对高准确性的疾病预测模型及其构建方法和应用。
因此,在第一方面,本发明提供了一种构建基于游离DNA的疾病预测模型的方法,所述方法包括:
1)获得疾病个体和对照个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;
2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;
3)对于所述基因集中的基因,将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型。
在一个实施方案中,所述疾病为癌症,优选地,所述癌症为肺癌、肝癌、结直肠癌。
在一个实施方案中,所述疾病预测包括肿瘤早筛或肿瘤的复发检测。
在一个实施方案中,在1)中,所述游离DNA样本来自体液,例如血液。
在一个实施方案中,在2)中,游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。
在一个实施方案中,在2)中,所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。
在一个实施方案中,在2)中,对在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因进行排序,选取差异大的基因。
在一个实施方案中,在2)中,所述基因集包括10-50个基因。
在一个实施方案中,在3)中,所述预测模型为逻辑回归(Logistics Regression)模型或随机森林(Random Forest)模型。
在第二方面,本发明提供了根据本发明第一方面的方法构建的疾病预测模型。
在第三方面,本发明提供了一种基于游离DNA进行疾病预测的方法,所述方法使用本发明第一方面的方法建立的疾病预测模型,所述方法包括:
1)对于被试个体的游离DNA样本,获得建立所述疾病预测模型时确定的基因集的测序数据;
2)对于所述基因集中的基因,获取所述测序数据在转录起始位点区的覆盖情况;
3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型,预测所述被试个体是否患有所述疾病。
在第四方面,本发明提供了一种基于游离DNA进行疾病预测的***,所述***包括:
序列获取单元,被配置用于获得疾病个体、对照个体和被试个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;
基因集选择单元,被配置用于根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;
模型建立单元,被配置用于,对于所述基因集中的基因,将所述疾病个体和对照个体的测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型;
预测单元,被配置用于,对于所述基因集中的基因,将所述被试个体的测序数据在基因转录起始位点区上的覆盖情况作为输入所述疾病预测模型,预测所述被试个体是否患有所述疾病。
在一个实施方案中,所述疾病为癌症,优选地,所述癌症为肺癌、肝癌、结直肠癌。
在一个实施方案中,所述疾病预测包括肿瘤早筛或肿瘤的复发检测。
在一个实施方案中,在序列获取单元中,所述游离DNA样本来自体液,例如血液。
在一个实施方案中,在基因集选择单元中,游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。
在一个实施方案中,在基因集选择单元中,所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。
在一个实施方案中,在基因集选择单元中,对在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因进行排序,选取差异大的基因。
在一个实施方案中,在基因集选择单元中,所述基因集包括10-50个基因。
在一个实施方案中,在模型建立单元中,所述预测模型为逻辑回归(Logistics Regression)模型或随机森林(Random Forest)模型。
本发明实现了仅利用一次样本中cfDNA对应测序深度分布信息,在不利用任何其他辅助手段及额外数据的情况下,进行快速高效低成本的疾病例如肺癌早期预测。
图1是肺癌测试集的ROC曲线,曲线下面积(AUC)为0.75。
图2是肝癌测试集的ROC曲线,曲线下面积(AUC)为1.00。
在肿瘤患者的外周血中含有肿瘤来源的循环肿瘤DNA(Circulating Tumor DNA,ctDNA)。ctDNA仅占所有的外周血中循环游离(Circulating Free DNA,cfDNA)的小部分。本发明利用cfDNA在基因转录起始位点(Transcription Start Site,TSS)、转录终止位点(Transcription Terminal Site,TTS)或基因组开放区(Nucleosome Depletion Region,NDR)的测序读长覆盖深度变化,进行疾病的预测。并且,本发明基于核小体区间的覆盖情况建立预测模型。
本发明提供了一种相对高准确性的疾病预测模型及其构建方法和应用。构建基于游离DNA的疾病预测模型的方法包括:1)获得疾病个体和对照个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;3)对于所述基因集中的基因,将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型。基于游离DNA进行疾病预测的方法包括:1)对于被试 个体的游离DNA样本,获得建立所述疾病预测模型时确定的基因集的测序数据;2)对于所述基因集中的基因,获取所述测序数据在转录起始位点区的覆盖情况;3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型,预测所述被试个体是否患有所述疾病。在上述两个方法中,使用的基因集和计算所述测序数据在转录起始位点区的覆盖情况的方法是对应的。
所述疾病预测模型的应用包括基于游离DNA进行疾病预测。本发明提供了一种基于游离DNA进行疾病预测的***,所述***可以用于实施所述基于游离DNA进行疾病预测。
根据本发明的一个具体实例,以正常对照和肺癌早期患者的血浆cfDNA测序数据为输入数据,具体步骤如下:
1、前期数据处理。
所有用于模型训练及预测和验证的样本的原始下机测序数据(fq格式)完成质控后使用比对软件(如BWA中samse模式)将测序数据的读长比对至人类参考染色体上;采用SAMtools计算比对结果中的重复读长的重复率、计算比对率、计算错配率,选取比对至人类参考染色体上的读长。
2、单个样本转录起始位点区测序覆盖情况相对测序深度值计算。
针对每个样本,计算全基因组每个基因的转录起始位点(TSS)区附近(以转录起始位点上下游100bp、400bp、600bp、1kb等范围作为转录起始位点附近区域均可)的测序深度。对于单链测序和双链测序采用不同的计算方法。对于单链测序,可以分为正比对和反向比对两种情况。正向比对的,直接记录bam文件中比对起始位点;反向比对的,记录bam中的比对结 束位置,为比对的起始位点。然后根据比对的方向,正向比对的向后延伸,反向比对的向前延伸,从测序的起始位置延伸167bp,至cfDNA的峰值长度。对于双链测序,计算读长1和读长2刚好比对到同一条染色体、***片段长度在120bp至300bp间的测序片段。
根据比对文件定位测序片段在基因组上分布位置后,计算每个基因转录起始位点区附近的平均测序深度。为了增强相关信号,仅仅对测序片段的中心61bp的测序深度进行计数,并根据总体的比对读长数进行归一化处理,去除比对读长数不同引起的差异,得到相对测序深度(Relative Coverage,RC)。
3、挑选肺癌相关基因。
针对每个基因(或转录本)的转录起始位点附近区,将肺癌和对照样本的在该基因转录起始位点区的相对测序深度值进行显著性检验(一般统计监测方法如秩和检验或T检验等均可),挑选m个(10-50,根据训练样本数设定合适的数值)显著性差异基因作为肺癌相关基因,用于后续预测模型的构建。
4、以转录起始位点区相对测序深度值数据构建输入矩阵。
将用于模型训练的n个样本对应在步骤3中所得显著性差异基因转录起始位点区上的相对深度形成肺癌相关基因矩阵作为输入建立预测模型。即,以n个样本对应m个显著性差异基因的转录起始位点上下游100bp、400bp、600bp或1kb区域上计算相对测序深度,则得到n×m的相对测序深度矩阵,以此为训练集D。
5、建立肺癌预测模型:
可以利用R等统计软件进行逻辑回归(Logistics Regression)或随机森林(Random Forest)、或其他预测模型的训练,将最终得到的结果作为预测模型储存起来,用于最后一步的预测。
在一个实施方案中,本发明使用基于随机森林(Random Forest,默认参数)模型。
6、利用已建立的模型预测肺癌。
取待预测的样本集,针对每个样本均在步骤3中所得基因的转录起始位点区域内计算相对测序深度值,将每个样本的m个相对测序深度值作为输入,利用步骤4中所得预测模型进行预测,预测样本是否为肿瘤样本。
实施例一:肺癌应用实例。
1、样本:总体样本集包括57个健康个体及100个肺腺癌个体,如表1。
表1.肺癌预测训练集及测试集样本情况汇总
取样及测序:抽取健康和肺癌患者的血浆样本,提取游离DNA,实验建库后,利用BGIseq500,采用PE100,3×测序方案进行测序。
2、样本切分:对步骤1中的总样本按照8:2的比例切分生成训练样本(N=126)和测试样本(N=31)。在切分过程中保持训练样本和测试样本中的正负样本与原始数据集中的正负样本比例不变。
3、选取差异转录起始位点区覆盖基因:计算出训练数据集中健康及 肺腺癌样本在全部基因转录起始位点区附近的相对测序深度值。将健康及肺腺癌样本的相对测序深度值进行秩和检测(Wilcox rank sum test),本实施例此步骤使用R统计软件wilcox检测包完成。最终从全部基因中选取差异性显著的基因作为后续模型训练的特征。考虑到样本集合中样本数目的多少,将从全部的基因中挑选P-value最小的前30个基因(表2),定义为差异性显著的基因(数量可以小于或等于
)。最终得到不同转录起始位点附近区(此处选取转录起始位点上下游1000bp作为转录起始位点附近区)在健康及肺腺癌样本中相对测序深度分布存在显著性差异的基因共计30个。在训练样样本中提取这30个显著性差异基因转录起始位点附近的相对测序深度值生成训练集。在测试样本中提取这30个显著性差异基因转录起始位点附近的相对测序深度值生成测试集。
表2:筛选得到的30个基因列表
4、肺癌预测模型
对训练集进行5折交叉验证,完成特征选择,过程如下:
(a)将训练集合126个样本按正负样本的比例随机切分为5等份,其中4等份构成训练集,剩下一份作为验证集,重复该过程5次,生成5折交叉验证集。
(b)特征选择:对上步骤中的每个训练集,建立随机森林模型,输出对应每个基因在模型中的重要性,选择每个模型中对应重要性最高的10个基因。重复该过程5次,每次选择的重要基因列表如表3。
表3:5折交叉验证每轮选择的基因列表。
(c)对上步骤中的每次结果记录模型选择的特征,将所有5次的交叉验证选择的特征利用多数投票规则选出得票最多的5个特征,如表4所示:
表4:特征选择得到的5个特征列表
(d)建立最终模型:采用表4中的特征列表重新建立随机森林模型。
(e)模型评估:用测试集合的31个样本对模型进行评估。评估结果如图2表所示。根据图1,在测试数据集中,ROC曲线中,曲线下面积(AUC)值可以达到0.75。另外,根据表5,测试数据集混淆矩阵的结果、灵敏度和特异性分别可以达到0.8和0.73,精确度为0.84。
表5:测试数据集混淆矩阵
本发明实现了仅使用一次采样所得血浆中cfDNA数据对应基因组测序深度分布情况进行相对高准确性肺癌预测,为临床上肺癌的诊断提供了一种简洁、高效且低成本的参考辅助手段。本发明将不同基因转录起始位 点区测序深度覆盖情况融合进入随机森林模型中,实现高效且相对高准确性的肺癌早期预测,为利用cfDNA数据进行肺癌预测提供了一套全面而***的方法。
实施例二:肝癌应用实例。
数据来源于www.ebi.ac.uk(accession no.EGAS00001001024),illumina平台测序,双端测序读长75bp,每个样本17-79兆测序读长,中位数31兆。详细数据描述请见Peiyong Jiang,et al.PNAS 2015。
包括肝癌游离核酸样本90例,健康对照游离核酸样本32例。将数据按8:2分为训练集共97例与测试集共25例,并保证其中肝癌与健康样本的比例。
前期数据处理,单个样本转录起始位点区测序覆盖情况相对测序深度值计算及挑选与肝癌相关基因,三步骤过程与前面描述一致。按照两组间转录起始位点附近相对深度进行秩和检测(Wilcox rank sum test)后,P值从小到大在训练集筛选25例差异基因作为特征,采用随机森林建立模型在训练数据集上建立模型后,应用在测试数据集上。结果如下:
表6:筛选得到的25个基因列表,作为最终分类特征
测试集上的ROC曲线见图2。另外,根据测试数据集混淆矩阵结果(见表7),显示本方法在肝癌预测中,灵敏度、特异性和准确率均可以达到1。
表7:混淆矩阵结果
Claims (10)
- 一种构建基于游离DNA的疾病预测模型的方法,所述方法包括:1)获得疾病个体和对照个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;2)根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;3)对于所述基因集中的基因,将测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型。
- 根据权利要求1的方法,所述疾病为癌症,优选地,所述癌症为肺癌、肝癌、结直肠癌,所述疾病预测包括肿瘤早筛或肿瘤的复发检测。
- 根据权利要求1或2的方法,在1)中,所述游离DNA样本来自体液,例如血液。
- 根据权利要求1-3任一项的方法,在2)中,游离DNA在基因组上的覆盖情况通过相对测序深度进行确定。
- 根据权利要求1-4任一项的方法,在2)中,所述转录起始位点区是指转录起始位点上下游100bp、400bp、600bp或1kb等范围。
- 根据权利要求1-5任一项的方法,所述基因集包括10-50个基因。
- 根据权利要求1-6任一项的方法,在3)中,所述预测模型为逻辑回归模型或随机森林模型。
- 根据权利要求1-7任一项的方法构建的疾病预测模型。
- 一种基于游离DNA进行疾病预测的方法,所述方法使用根据权利要求7的疾病预测模型,所述方法包括:1)对于被试个体的游离DNA样本,获得建立所述疾病预测模型时确定的基因集的测序数据;2)对于所述基因集中的基因,获取所述测序数据在转录起始位点区的覆盖情况;3)将所述转录起始位点区的覆盖情况输入所述疾病预测模型,预测所述被试个体是否患有所述疾病。
- 一种基于游离DNA进行疾病预测的***,所述***包括:序列获取单元,被配置用于获得疾病个体、对照个体和被试个体的游离DNA样本的测序数据,所述疾病个体和所述对照个体都是多个;基因集选择单元,被配置用于根据所述疾病个体和对照个体的游离DNA样本的测序数据在基因组上的覆盖情况,选取在所述疾病个体和所述对照个体之间转录起始位点区覆盖差异的基因集;模型建立单元,被配置用于,对于所述基因集中的基因,将所述疾病个体和对照个体的测序数据在基因转录起始位点区上的覆盖情况作为输入预测模型进行训练,建立疾病预测模型;预测单元,被配置用于,对于所述基因集中的基因,将所述被试个体的测序数据在基因转录起始位点区上的覆盖情况作为输入所述疾病预测模型,预测所述被试个体是否患有所述疾病。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/071822 WO2022151185A1 (zh) | 2021-01-14 | 2021-01-14 | 基于游离dna的疾病预测模型及其构建方法和应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116762132A true CN116762132A (zh) | 2023-09-15 |
Family
ID=82447827
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180089945.3A Pending CN116762132A (zh) | 2021-01-14 | 2021-01-14 | 基于游离dna的疾病预测模型及其构建方法和应用 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240068041A1 (zh) |
CN (1) | CN116762132A (zh) |
WO (1) | WO2022151185A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115691665B (zh) * | 2022-12-30 | 2023-04-07 | 北京求臻医学检验实验室有限公司 | 基于转录因子的癌症早期筛查诊断方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190316209A1 (en) * | 2018-04-13 | 2019-10-17 | Grail, Inc. | Multi-Assay Prediction Model for Cancer Detection |
KR102381252B1 (ko) * | 2019-02-19 | 2022-04-01 | 주식회사 녹십자지놈 | 혈중 무세포 dna 기반 간암 치료 예후예측 방법 |
CN110272985B (zh) * | 2019-06-26 | 2021-08-17 | 广州市雄基生物信息技术有限公司 | 基于外周血血浆游离dna高通量测序技术的肿瘤筛查试剂盒及其***与方法 |
CN110387414B (zh) * | 2019-07-19 | 2022-09-30 | 广州市达瑞生物技术股份有限公司 | 一种利用外周血游离dna预测妊娠期糖尿病的模型 |
CN110305954B (zh) * | 2019-07-19 | 2022-10-04 | 广州市达瑞生物技术股份有限公司 | 一种早期准确检测先兆子痫的预测模型 |
CN110580934B (zh) * | 2019-07-19 | 2022-05-10 | 南方医科大学 | 一种基于外周血游离dna高通量测序的妊娠期相关疾病预测方法 |
CN110982907B (zh) * | 2020-02-27 | 2020-07-03 | 上海鹍远生物技术有限公司 | 甲状腺结节相关rDNA甲基化标志物及其应用 |
CN111863250B (zh) * | 2020-08-14 | 2023-10-10 | 国科温州研究院(温州生物材料与工程研究所) | 一种早期乳腺癌的联合诊断模型及*** |
-
2021
- 2021-01-14 CN CN202180089945.3A patent/CN116762132A/zh active Pending
- 2021-01-14 WO PCT/CN2021/071822 patent/WO2022151185A1/zh active Application Filing
- 2021-01-14 US US18/261,282 patent/US20240068041A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20240068041A1 (en) | 2024-02-29 |
WO2022151185A1 (zh) | 2022-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN110800063B (zh) | 使用无细胞dna片段大小检测肿瘤相关变体 | |
CN112805563A (zh) | 用于评估和/或治疗癌症的无细胞dna | |
US11869661B2 (en) | Systems and methods for determining whether a subject has a cancer condition using transfer learning | |
CN113366577A (zh) | 通过片段尺寸分析增强的对靶dna的检测 | |
Dhall et al. | Computing skin cutaneous melanoma outcome from the HLA-alleles and clinical characteristics | |
EP4372751A1 (en) | Cancer detection model and construction method therefor, and reagent kit | |
KR20190085667A (ko) | 무세포 dna를 포함하는 샘플에서 순환 종양 dna를 검출하는 방법 및 그 용도 | |
CN111429968A (zh) | 用于预测肿瘤类型的方法、电子设备和计算机存储介质 | |
TW201639968A (zh) | 血漿粒線體dna分析之應用 | |
De Sarkar et al. | Nucleosome patterns in circulating tumor DNA reveal transcriptional regulation of advanced prostate cancer phenotypes | |
Reggiardo et al. | LncRNA biomarkers of inflammation and cancer | |
CN115087745A (zh) | 无细胞样品中的双末端dna片段类型及其用途 | |
CN115410713A (zh) | 一种基于免疫相关基因的肝细胞癌预后风险预测模型构建 | |
Lin et al. | Evolutionary route of nasopharyngeal carcinoma metastasis and its clinical significance | |
JP2015089364A (ja) | 体細胞多重変異によるがん診断方法、がん医薬開発方法及びがん診断装置 | |
CN116762132A (zh) | 基于游离dna的疾病预测模型及其构建方法和应用 | |
WO2017220782A1 (en) | Screening method for endometrial cancer | |
US20230279498A1 (en) | Molecular analyses using long cell-free dna molecules for disease classification | |
Wilmott et al. | Tumour procurement, DNA extraction, coverage analysis and optimisation of mutation-detection algorithms for human melanoma genomes | |
EP4318493A1 (en) | Artificial-intelligence-based method for detecting tumor-derived mutation of cell-free dna, and method for early diagnosis of cancer, using same | |
Kessler et al. | Improving cancer detection and treatment with liquid biopsies and ptDNA | |
CN104846070B (zh) | ***癌的生物学标志物、治疗靶点及其用途 | |
Hu et al. | Sequential model selection-based segmentation to detect DNA copy number variation | |
CN111919257B (zh) | 降低测序数据中的噪声的方法和***及其实施和应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |