TW202342765A - 用於量測甲基化及疾病之片段化 - Google Patents
用於量測甲基化及疾病之片段化 Download PDFInfo
- Publication number
- TW202342765A TW202342765A TW112104317A TW112104317A TW202342765A TW 202342765 A TW202342765 A TW 202342765A TW 112104317 A TW112104317 A TW 112104317A TW 112104317 A TW112104317 A TW 112104317A TW 202342765 A TW202342765 A TW 202342765A
- Authority
- TW
- Taiwan
- Prior art keywords
- free dna
- determining
- dna molecules
- motifs
- terminal
- Prior art date
Links
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 494
- 230000011987 methylation Effects 0.000 title claims abstract description 493
- 238000013467 fragmentation Methods 0.000 title abstract description 59
- 238000006062 fragmentation reaction Methods 0.000 title abstract description 59
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title description 38
- 201000010099 disease Diseases 0.000 title description 34
- 108020004414 DNA Proteins 0.000 claims abstract description 745
- 238000003776 cleavage reaction Methods 0.000 claims abstract description 324
- 230000007017 scission Effects 0.000 claims abstract description 324
- 239000000523 sample Substances 0.000 claims abstract description 128
- 102000053602 DNA Human genes 0.000 claims abstract description 96
- 239000012472 biological sample Substances 0.000 claims abstract description 51
- 210000002700 urine Anatomy 0.000 claims abstract description 38
- 241000700605 Viruses Species 0.000 claims abstract description 21
- 230000007170 pathology Effects 0.000 claims abstract description 21
- 210000002966 serum Anatomy 0.000 claims abstract description 5
- 108091029430 CpG site Proteins 0.000 claims description 557
- 210000001519 tissue Anatomy 0.000 claims description 407
- 238000000034 method Methods 0.000 claims description 363
- 206010028980 Neoplasm Diseases 0.000 claims description 200
- 239000013598 vector Substances 0.000 claims description 160
- 201000011510 cancer Diseases 0.000 claims description 157
- 238000004458 analytical method Methods 0.000 claims description 152
- 238000010801 machine learning Methods 0.000 claims description 138
- 238000012360 testing method Methods 0.000 claims description 114
- 238000012163 sequencing technique Methods 0.000 claims description 99
- 206010005003 Bladder cancer Diseases 0.000 claims description 90
- 230000003902 lesion Effects 0.000 claims description 89
- 238000012549 training Methods 0.000 claims description 85
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 claims description 72
- 201000005112 urinary bladder cancer Diseases 0.000 claims description 72
- 238000010606 normalization Methods 0.000 claims description 64
- 230000006607 hypermethylation Effects 0.000 claims description 52
- 108700028369 Alleles Proteins 0.000 claims description 42
- 206010009944 Colon cancer Diseases 0.000 claims description 32
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 32
- 239000002773 nucleotide Substances 0.000 claims description 31
- 125000003729 nucleotide group Chemical group 0.000 claims description 31
- 238000013527 convolutional neural network Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 27
- 102000054766 genetic haplotypes Human genes 0.000 claims description 25
- 230000003612 virological effect Effects 0.000 claims description 20
- 210000003754 fetus Anatomy 0.000 claims description 19
- 230000035790 physiological processes and functions Effects 0.000 claims description 18
- 230000035935 pregnancy Effects 0.000 claims description 17
- 238000000926 separation method Methods 0.000 claims description 17
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 206010058467 Lung neoplasm malignant Diseases 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 15
- 201000005202 lung cancer Diseases 0.000 claims description 15
- 208000020816 lung neoplasm Diseases 0.000 claims description 15
- 230000035772 mutation Effects 0.000 claims description 15
- 208000008839 Kidney Neoplasms Diseases 0.000 claims description 14
- 206010060862 Prostate cancer Diseases 0.000 claims description 14
- 208000000236 Prostatic Neoplasms Diseases 0.000 claims description 14
- 206010038389 Renal cancer Diseases 0.000 claims description 14
- 201000010982 kidney cancer Diseases 0.000 claims description 14
- 108020005202 Viral DNA Proteins 0.000 claims description 13
- 239000013638 trimer Substances 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 12
- 210000000349 chromosome Anatomy 0.000 claims description 9
- 230000032683 aging Effects 0.000 claims description 8
- 206010006187 Breast cancer Diseases 0.000 claims description 5
- 208000026310 Breast neoplasm Diseases 0.000 claims description 5
- 230000018109 developmental process Effects 0.000 claims description 5
- 201000007270 liver cancer Diseases 0.000 claims description 5
- 208000014018 liver neoplasm Diseases 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 5
- 230000003252 repetitive effect Effects 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 3
- 238000011161 development Methods 0.000 claims description 3
- 230000015654 memory Effects 0.000 claims description 2
- 230000012010 growth Effects 0.000 claims 2
- 210000002381 plasma Anatomy 0.000 abstract description 111
- 238000005259 measurement Methods 0.000 abstract description 59
- 244000052769 pathogen Species 0.000 abstract description 3
- 230000001717 pathogenic effect Effects 0.000 abstract description 2
- 210000003296 saliva Anatomy 0.000 abstract description 2
- 102100033473 Cingulin Human genes 0.000 description 449
- 101000944124 Homo sapiens Cingulin Proteins 0.000 description 449
- 239000012634 fragment Substances 0.000 description 230
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 180
- 206010061306 Nasopharyngeal cancer Diseases 0.000 description 122
- 208000001894 Nasopharyngeal Neoplasms Diseases 0.000 description 120
- 241000701044 Human gammaherpesvirus 4 Species 0.000 description 87
- 238000005520 cutting process Methods 0.000 description 66
- 238000012706 support-vector machine Methods 0.000 description 63
- 230000001605 fetal effect Effects 0.000 description 61
- 210000004185 liver Anatomy 0.000 description 54
- 230000000875 corresponding effect Effects 0.000 description 52
- 238000001514 detection method Methods 0.000 description 50
- 238000003752 polymerase chain reaction Methods 0.000 description 46
- 210000002826 placenta Anatomy 0.000 description 45
- 206010025323 Lymphomas Diseases 0.000 description 37
- 210000000265 leukocyte Anatomy 0.000 description 35
- 238000001369 bisulfite sequencing Methods 0.000 description 30
- 201000006747 infectious mononucleosis Diseases 0.000 description 30
- 210000000601 blood cell Anatomy 0.000 description 25
- 241000700721 Hepatitis B virus Species 0.000 description 20
- 230000001965 increasing effect Effects 0.000 description 20
- 230000007423 decrease Effects 0.000 description 19
- 230000002485 urinary effect Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 230000035945 sensitivity Effects 0.000 description 18
- 210000003734 kidney Anatomy 0.000 description 17
- 238000003753 real-time PCR Methods 0.000 description 16
- 210000005084 renal tissue Anatomy 0.000 description 16
- 210000003741 urothelium Anatomy 0.000 description 16
- 230000007018 DNA scission Effects 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 14
- 238000003745 diagnosis Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 13
- 238000011304 droplet digital PCR Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 13
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical class NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 12
- 210000001072 colon Anatomy 0.000 description 11
- 230000008774 maternal effect Effects 0.000 description 11
- 210000004027 cell Anatomy 0.000 description 10
- 230000002596 correlated effect Effects 0.000 description 10
- 230000008685 targeting Effects 0.000 description 10
- 102000004190 Enzymes Human genes 0.000 description 9
- 108090000790 Enzymes Proteins 0.000 description 9
- 208000000102 Squamous Cell Carcinoma of Head and Neck Diseases 0.000 description 9
- 230000004075 alteration Effects 0.000 description 9
- 238000007847 digital PCR Methods 0.000 description 9
- 201000000459 head and neck squamous cell carcinoma Diseases 0.000 description 9
- 239000003550 marker Substances 0.000 description 9
- 210000005059 placental tissue Anatomy 0.000 description 9
- 238000002360 preparation method Methods 0.000 description 9
- 230000002441 reversible effect Effects 0.000 description 9
- 108091029523 CpG island Proteins 0.000 description 8
- 230000007067 DNA methylation Effects 0.000 description 8
- 108091092584 GDNA Proteins 0.000 description 8
- 210000000481 breast Anatomy 0.000 description 8
- 238000012217 deletion Methods 0.000 description 8
- 230000037430 deletion Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 8
- 238000000513 principal component analysis Methods 0.000 description 8
- 206010061218 Inflammation Diseases 0.000 description 7
- 208000002454 Nasopharyngeal Carcinoma Diseases 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 7
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 7
- 230000004054 inflammatory process Effects 0.000 description 7
- 210000005228 liver tissue Anatomy 0.000 description 7
- 210000004369 blood Anatomy 0.000 description 6
- 239000008280 blood Substances 0.000 description 6
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 6
- 238000009396 hybridization Methods 0.000 description 6
- 210000000440 neutrophil Anatomy 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 108091093088 Amplicon Proteins 0.000 description 5
- 102100031149 Deoxyribonuclease gamma Human genes 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 5
- 101000845618 Homo sapiens Deoxyribonuclease gamma Proteins 0.000 description 5
- 238000000585 Mann–Whitney U test Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000005094 computer simulation Methods 0.000 description 5
- 238000010219 correlation analysis Methods 0.000 description 5
- 238000003066 decision tree Methods 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 208000037805 labour Diseases 0.000 description 5
- 210000005155 neural progenitor cell Anatomy 0.000 description 5
- 230000001575 pathological effect Effects 0.000 description 5
- 210000002307 prostate Anatomy 0.000 description 5
- 238000011144 upstream manufacturing Methods 0.000 description 5
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 4
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 4
- 241000711549 Hepacivirus C Species 0.000 description 4
- 241001502974 Human gammaherpesvirus 8 Species 0.000 description 4
- 241000725303 Human immunodeficiency virus Species 0.000 description 4
- 241000701806 Human papillomavirus Species 0.000 description 4
- 101001024425 Mus musculus Ig gamma-2A chain C region secreted form Proteins 0.000 description 4
- 238000013103 analytical ultracentrifugation Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 4
- 239000000969 carrier Substances 0.000 description 4
- 230000030833 cell death Effects 0.000 description 4
- 229940104302 cytosine Drugs 0.000 description 4
- 238000013480 data collection Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 4
- 208000035475 disorder Diseases 0.000 description 4
- 230000002255 enzymatic effect Effects 0.000 description 4
- 238000003205 genotyping method Methods 0.000 description 4
- 238000007637 random forest analysis Methods 0.000 description 4
- 239000007787 solid Substances 0.000 description 4
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 3
- 108091023043 Alu Element Proteins 0.000 description 3
- 208000000419 Chronic Hepatitis B Diseases 0.000 description 3
- 108010053770 Deoxyribonucleases Proteins 0.000 description 3
- 102000016911 Deoxyribonucleases Human genes 0.000 description 3
- 238000010222 PCR analysis Methods 0.000 description 3
- 208000005718 Stomach Neoplasms Diseases 0.000 description 3
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 210000003719 b-lymphocyte Anatomy 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 239000013068 control sample Substances 0.000 description 3
- 238000001962 electrophoresis Methods 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- 206010017758 gastric cancer Diseases 0.000 description 3
- 210000002216 heart Anatomy 0.000 description 3
- 208000002672 hepatitis B Diseases 0.000 description 3
- 238000001114 immunoprecipitation Methods 0.000 description 3
- 230000003211 malignant effect Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004949 mass spectrometry Methods 0.000 description 3
- 210000003205 muscle Anatomy 0.000 description 3
- 210000000056 organ Anatomy 0.000 description 3
- 210000001672 ovary Anatomy 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 201000011549 stomach cancer Diseases 0.000 description 3
- 210000001550 testis Anatomy 0.000 description 3
- -1 transposons Proteins 0.000 description 3
- 210000003932 urinary bladder Anatomy 0.000 description 3
- 238000012070 whole genome sequencing analysis Methods 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 2
- 201000000046 Beckwith-Wiedemann syndrome Diseases 0.000 description 2
- 208000011691 Burkitt lymphomas Diseases 0.000 description 2
- 206010008342 Cervix carcinoma Diseases 0.000 description 2
- 108091035707 Consensus sequence Proteins 0.000 description 2
- 102100030012 Deoxyribonuclease-1 Human genes 0.000 description 2
- 101150050733 Gnas gene Proteins 0.000 description 2
- 208000017604 Hodgkin disease Diseases 0.000 description 2
- 208000021519 Hodgkin lymphoma Diseases 0.000 description 2
- 208000010747 Hodgkins lymphoma Diseases 0.000 description 2
- 101000863721 Homo sapiens Deoxyribonuclease-1 Proteins 0.000 description 2
- 208000015914 Non-Hodgkin lymphomas Diseases 0.000 description 2
- 108010047956 Nucleosomes Proteins 0.000 description 2
- 201000010769 Prader-Willi syndrome Diseases 0.000 description 2
- 102100035348 Serine/threonine-protein phosphatase 2B catalytic subunit alpha isoform Human genes 0.000 description 2
- 208000006105 Uterine Cervical Neoplasms Diseases 0.000 description 2
- 208000009956 adenocarcinoma Diseases 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 239000011324 bead Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 229960002685 biotin Drugs 0.000 description 2
- 235000020958 biotin Nutrition 0.000 description 2
- 239000011616 biotin Substances 0.000 description 2
- 210000005068 bladder tissue Anatomy 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 210000003855 cell nucleus Anatomy 0.000 description 2
- 201000010881 cervical cancer Diseases 0.000 description 2
- 210000004252 chorionic villi Anatomy 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000004049 epigenetic modification Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 238000013401 experimental design Methods 0.000 description 2
- 239000012530 fluid Substances 0.000 description 2
- 238000007672 fourth generation sequencing Methods 0.000 description 2
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000012678 infectious agent Substances 0.000 description 2
- 230000000302 ischemic effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 210000005229 liver cell Anatomy 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012164 methylation sequencing Methods 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 201000011216 nasopharynx carcinoma Diseases 0.000 description 2
- 230000001338 necrotic effect Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 210000001623 nucleosome Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 230000003169 placental effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 210000000582 semen Anatomy 0.000 description 2
- 206010041823 squamous cell carcinoma Diseases 0.000 description 2
- 238000001356 surgical procedure Methods 0.000 description 2
- 201000000596 systemic lupus erythematosus Diseases 0.000 description 2
- 238000007671 third-generation sequencing Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 102100030379 Acyl-coenzyme A synthetase ACSM2A, mitochondrial Human genes 0.000 description 1
- 208000009575 Angelman syndrome Diseases 0.000 description 1
- 101100440050 Arabidopsis thaliana CLPR1 gene Proteins 0.000 description 1
- 101100367234 Arabidopsis thaliana SVR1 gene Proteins 0.000 description 1
- 101100367235 Arabidopsis thaliana SVR3 gene Proteins 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 108091061744 Cell-free fetal DNA Proteins 0.000 description 1
- 102100038023 DNA fragmentation factor subunit beta Human genes 0.000 description 1
- 108010063593 DNA modification methylase SssI Proteins 0.000 description 1
- 208000000461 Esophageal Neoplasms Diseases 0.000 description 1
- 102100032610 Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Human genes 0.000 description 1
- 101100054737 Homo sapiens ACSM2A gene Proteins 0.000 description 1
- 101000950965 Homo sapiens DNA fragmentation factor subunit beta Proteins 0.000 description 1
- 101001014590 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms XLas Proteins 0.000 description 1
- 101001014594 Homo sapiens Guanine nucleotide-binding protein G(s) subunit alpha isoforms short Proteins 0.000 description 1
- 101001014610 Homo sapiens Neuroendocrine secretory protein 55 Proteins 0.000 description 1
- 101000797903 Homo sapiens Protein ALEX Proteins 0.000 description 1
- 238000012313 Kruskal-Wallis test Methods 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 108060004795 Methyltransferase Proteins 0.000 description 1
- 102000016397 Methyltransferase Human genes 0.000 description 1
- 108091092878 Microsatellite Proteins 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- 206010030155 Oesophageal carcinoma Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 241000227425 Pieris rapae crucivora Species 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 101100495925 Schizosaccharomyces pombe (strain 972 / ATCC 24843) chr3 gene Proteins 0.000 description 1
- 108700009124 Transcription Initiation Site Proteins 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 238000001793 Wilcoxon signed-rank test Methods 0.000 description 1
- 210000001766 X chromosome Anatomy 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000003567 ascitic fluid Anatomy 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000001574 biopsy Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011088 calibration curve Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 210000001175 cerebrospinal fluid Anatomy 0.000 description 1
- 210000003756 cervix mucus Anatomy 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 230000000112 colonic effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013211 curve analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000003828 downregulation Effects 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000008995 epigenetic change Effects 0.000 description 1
- 201000004101 esophageal cancer Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 238000012226 gene silencing method Methods 0.000 description 1
- 230000011365 genetic imprinting Effects 0.000 description 1
- 238000013412 genome amplification Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 125000002791 glucosyl group Chemical class C1([C@H](O)[C@@H](O)[C@H](O)[C@H](O1)CO)* 0.000 description 1
- 230000003394 haemopoietic effect Effects 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 238000007489 histopathology method Methods 0.000 description 1
- 238000000126 in silico method Methods 0.000 description 1
- 208000014674 injury Diseases 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000004698 lymphocyte Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 102000039446 nucleic acids Human genes 0.000 description 1
- 108020004707 nucleic acids Proteins 0.000 description 1
- 150000007523 nucleic acids Chemical class 0.000 description 1
- 239000002777 nucleoside Substances 0.000 description 1
- 125000003835 nucleoside group Chemical group 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 230000004962 physiological condition Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000013074 reference sample Substances 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 210000000813 small intestine Anatomy 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000000472 traumatic effect Effects 0.000 description 1
- 230000008736 traumatic injury Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000023790 viral DNA cleavage Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6844—Nucleic acid amplification reactions
- C12Q1/6851—Quantitative amplification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/154—Methylation markers
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Organic Chemistry (AREA)
- Medical Informatics (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Immunology (AREA)
- Data Mining & Analysis (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Biochemistry (AREA)
- Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Epidemiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Hospice & Palliative Care (AREA)
- Oncology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
測量游離DNA分子之片段化且用於達成各種目,包括確定例如DNA分子之特定位點處、個體之游離DNA生物樣本(例如,血漿、血清、尿液、唾液)的參考基因組中之特定基因組位點處或生物樣本(亦簡稱為樣本)之參考基因組中之特定區域的甲基化。可使用各種類型之片段化量測,例如末端基序及切割模式。另一目為確定特定組織類型之DNA(例如臨床相關之DNA)的比例濃度。另一目為使用包括游離DNA之生物樣本確定個體之病變。游離DNA可來自個體或個體樣本中之病原體(例如病毒)。可使用特定組織類型之高甲基化、低甲基化、5hmC富集及5hmC缺失之位點/區域。
Description
游離DNA(cfDNA)分子非隨機片段化。已在多個研究中證明cfDNA片段化模式與核小體結構之間的關聯(Sun等人《美國國家科學院院刊(Proc Natl Acad Sci UAS)》.2018;115:E5106; Snyder等人 《細胞(Cell)》. 2016;164:57-68)。舉例而言,cfDNA之特徵尺寸剖析顯示大約166 bp,其中更小分子以10 bp週期性形成一系列峰(Lo等人《科學轉化醫學(Sci Transl Med.)》 2010;2:61ra91)。以上所述的血漿DNA片段之尺寸模式表明在細胞死亡(例如經由細胞凋亡)或其他機制後DNA分子釋放至血液循環期間存在核小體間及核小體內切割。此外,吾人之小組先前已報導,發現一子集之基因組位置在生成血漿DNA分子期間被優先切割(Chan等人 《美國國家科學院院刊》. 2016;113:E8159-E8168;Jiang等人 《美國國家科學院院刊》. 2018;115:E10925-E10933),此類優先切割可能反映cfDNA來源之組織(Jiang等人 《美國國家科學院院刊》. 2018;115:E10925-E10933;Sun等人《美國國家科學院院刊》. 2018;115:E5106-E5114)。
當前,廣泛用於甲基化分析之策略係基於亞硫酸氫鹽或酶促轉化,隨後定序。此類方法涉及額外的DNA純化步驟或極端條件下導致的DNA降解,從而導致DNA分子之資訊損失。
提供出於各種目的使用游離DNA分子之片段化的各種實施例。一個示例目的為確定例如DNA分子之特定位點處、個體之游離DNA之生物樣本的參考基因組中之特定基因組位點處或生物樣本(亦簡稱為樣本)之參考基因組中之特定區域的甲基化。各種類型之片段化量測可用於達成此目的,例如末端基序及切割模式,其可包括在圍繞位點(諸如CpG位點)之一或多個位置處的切割信息。
另一示例目的為確定特定組織類型之DNA(例如臨床相關DNA)的比例濃度。各種類型之片段化量測結果可用於達成此目的,例如末端基序及切割模式。可選擇某些位點使用片段化量測。舉例而言,可使用特定組織類型之高甲基化及/或低甲基化位點/區域。作為另一實例,可使用特定組織類型之5hmC富集或缺失之位點。此外,技術可使用片段化量測結果(例如,末端基序及切割模式)來鑑別特定組織之5hmC富集及5hmC缺失之區域。
另一示例目的為使用包括游離DNA之生物樣本確定個體之病變。游離DNA可來自個體或個體樣本中之病原體(例如病毒)。各種類型之片段化量測結果可用於達成此目的,例如末端基序及切割模式。可選擇某些位點使用片段化量測。舉例而言,可使用特定組織類型之高甲基化及/或低甲基化位點/區域,例如以鑑別該特定組織類型之病變。作為另一實例,可使用甲基化程度類似但在具有病變之個體與無病變之個體之間具有不同切割模式之位點/區域。作為又一實例,可使用特定組織類型之5hmC富集或缺失之位點/區域,例如以鑑別特定組織類型之病變。機器學習模型可使用此類組織特異性甲基化模式(例如,高甲基化及低甲基化以及5hmC富集及缺失)來區分不同類型癌症。用於片段化量測之游離DNA片段可例如基於尺寸進行過濾。因此,可基於具有特定尺寸之游離DNA片段之末端基序的量偵測病變。
本發明之此等及其他實施例詳細描述於下文中。舉例而言,其他實施例係針對與本文所描述之方法相關之系統、裝置及電腦可讀媒體。
可參考以下詳細描述及附圖來獲得對本揭示案之實施例之性質及優勢的更佳理解。
相關申請案之交叉引用
本申請案主張以下臨時申請案之優先權且為以下美國臨時申請案之非臨時申請案:2022年2月7日申請之名稱為「用於量測甲基化及疾病之片段化(Fragmentation For Measuring Methylation And Disease)」的美國臨時申請案第63/307,622號;2022年4月7日申請之名稱為「用於量測甲基化及疾病之片段化(Fragmentation For Measuring Methylation And Disease)」的美國臨時申請案第63/328,710號;及2022年8月23日申請之名稱為「用於量測甲基化及疾病之片段化(Fragmentation For Measuring Methylation And Disease)」的美國臨時申請案第63/400,244號,該等臨時申請案之全部內容出於所有目的以引用之方式併入本文中。
吾人在本文中開發基於利用cfDNA片段化模式推斷cfDNA分子之甲基化狀態的方法。本文中之片段化模式可涉及(但不限於)片段末端、切割模式、片段末端基序、片段末端之基因組座標及片段尺寸。
吾人發現與CpG甲基化狀態相關之切割模式。該等切割模式可用於在單鹼基解析度下或在每個片段基礎上預測區域之甲基化。另外,吾人發現cfDNA末端基序(例如,3聚體或更高聚體)可用於預測區域甲基化。因此,量測末端在位點周圍之窗中之片段的切割模式可用於推斷區域、基因組中之位點或片段中一或多個位點的甲基化。作為另一實例,片段末端基序可用於推斷所關注之基因組區域之甲基化程度(例如,區域甲基化程度)。片段末端基序可由游離DNA片段末端處之一或多個核苷酸界定。作為另一實例,cfDNA片段化特徵可用於在單分子解析度下推斷甲基化狀態(亦即,跨越DNA分子中存在之CpG位點的甲基化模式)。舉例而言,來自一個DNA分子之末端基序可用於預測整個片段之甲基化狀態。
本揭示案之其他方面提供使用切割模式確定臨床相關DNA之比例濃度。舉例而言,甲基化相關之cfDNA片段體學特徵可用於(但不限於)對血漿DNA進行組織來源分析。如本文中所描述,可使用各種片段體學特徵,諸如切割模式及末端基序。可選擇某些位點用於使用片段化量測結果確定此類比例濃度。舉例而言,可使用特定組織類型之高甲基化及/或低甲基化位點/區域。作為另一實例,可使用特定組織類型之5hmC富集或缺失之位點。此外,技術可使用片段化量測結果(例如,末端基序及切割模式)來鑑別特定組織之5hmC富集及5hmC缺失之區域。
本揭示案之其他方面提供病變之偵測。舉例而言,全基因組或來自組織特異性(例如,肝臟特異性)低甲基化或高甲基化位點/區域之含CG基序可提供癌症(例如,HCC)或例如可能涉及特定組織之其他疾病的診斷/分類。可使用個體及/或病原體(例如病毒)之DNA。對於任一類型之DNA,可使用跨越不同個體(有或無病變)具有類似甲基化程度之位點,但其中個體具有不同切割模式。作為又一實例,可使用特定組織類型之5hmC富集或缺失之位點/區域,例如以鑑別特定組織類型之病變。機器學習模型可使用此類組織特異性甲基化模式(例如,高甲基化及低甲基化以及5hmC富集及缺失)來區分不同類型癌症。用於片段化量測之游離DNA片段可例如基於尺寸進行篩選。因此,可基於具有特定尺寸之游離DNA片段之末端基序的量偵測病變。
片段化信息(片段組學特徵)可以各種方式量測。作為實例,可使用高通量平行定序或全基因組定序。作為另一實例,可使用靶向定序方法來測定來自用於甲基化模式預測之所關注區域的cfDNA片段組學特徵。作為額外實例,cfDNA片段組學特徵可藉由使用不基於定序之方法偵測,該等方法為諸如定量聚合酶鏈反應(qPCR)、即時PCR、數字PCR(dPCR)、微滴式數字PCR(ddPCR)、質譜分析等。
5'末端基序之示例使用僅用作為一個實例。另外或替代本文所描述之任何實施例,可使用3'末端基序。
I. 片段化與甲基化之關係
本揭示案展示切割DNA(例如,作為形成游離DNA之一部分)之處與基因組中之位點之甲基化指標(狀態)之間的關係。切割DNA之處可定義為切割模式。在另一實例中,DNA切割之處可由末端基序表示。
A. 切割位置之定義
圖1示出根據本揭示案之實施例相對於CpG位點(亦稱為CG位點)之切割位置。水平線係指參考序列,例如參考基因組之一部分,其含有兩個CpG位點。在定序之後,所得讀段可映射至此區域。可計算片段末端與相對於CpG位點之位置之間的距離。舉例而言,片段110末端恰好在CG位置處,因此具有0之距離(亦稱為位置0)。
片段120末端在CpG位點102左側之一個位置。由於該片段在CpG位點之前的一個鹼基切割,因此認為距離為1。以此方式,吾人可計算切割末端與CpG位點之間的距離且將具有相同距離之片段分組在一起。如下文所示,此距離與甲基化程度相關。
圖2A展示可如何視5'末端至CpG位點之距離將DNA片段分組。若片段之5'末端處之前兩個核苷酸係CG,則前述距離係0。若緊接在CG之前的5'末端處存在一個核苷酸,則前述距離為1,其對應於具有NCG基序之片段,其中N為4個鹼基中之任一者。經定序之CpG位點可根據其相對於5'末端之距離分組為不同類別。圖2A中所示之最大距離為8,但可使用更遠距離。
B. 切割位置與切割CpG甲基化相關
為研究cfDNA片段化模式是否可用於預測甲基化,吾人研究甲基化指標與相對於片段之5'末端之CpG位置(亦即,CpG位點與5'末端之間的核苷酸距離)之間的關係。分析來自健康個體之8個血漿DNA樣本的亞硫酸氫鹽定序讀段(中位對讀定序讀段:3.81億(四分位數範圍:3.53-4.04億))。接著將序列與參考基因組進行比對。使用彼CpG位點處之序列讀段的甲基化值來確定各CpG位點之甲基化密度。
各距離之甲基化指標可以各種方式確定。舉例而言,可使用一組中之DNA片段覆蓋之甲基化CpG位點之數目除以各組之DNA片段上之定序CpG位點的總數。若片段上存在100個CpG位點且其中90個CpG位點經甲基化,則指數將為90。作為另一實例,甲基化指標可確定為組中多少片段出現於高甲基化位點(例如,位點處之甲基化密度大於指定百分比,諸如60%、70%、80%等)。
圖2B展示了各相對於血漿DNA分子之切割邊緣具有給定下游距離之CpG位點的甲基化程度(例如,相對於5'末端具有5 nt距離之CpG位點的甲基化程度)。圖2B展示甲基化指標視5'末端與CpG位點之間的距離而不同。CpG位點之甲基化指標與其相對於5'末端之距離之間存在相關性。如吾人可見,若距離為0,則甲基化程度為最高。若距離為1,則甲基化程度為最低。隨著距離進一步增加,甲基化程度變得相當穩定。當CpG位點發生甲基化時,切割將更多地發生在甲基化C處,而若CpG位點未甲基化,則將發生更隨機之切割。
因此,距離為0之CpG位點與距離為1之CpG位點相比具有更高甲基化機率[平均甲基化指標:88.7%(範圍:87.3-90.3)對比69.1%(範圍:58.2-76.9%)]。由於甲基化指標視5'末端與CpG位點之間的距離而不同,因此片段化模式可用於預測彼等CpG位點之甲基化程度。
切割位置亦與基序類型相關。舉例而言,若片段恰好在CG位置處切割,則末端基序為CGN****(其中*表示鹼基而N為4個鹼基中之任一者)。若片段在此CG之前一個鹼基處切割,則末端基序為NCG***(其中*表示鹼基)等等。因此,切割片段所圍繞之CpG位點的基序類型與甲基化程度之間存在關係。
為驗證吾人之觀測,進一步瞭解不同類型4聚體基序 (即片段末端處之四個位置處之256種可能序列)中之甲基化程度。
圖3展示根據本揭示案之實施例的一组4聚體末端基序及由具有特定4聚體末端基序之片段覆蓋的甲基化CpG位點百分比。在圖3中,各點表示特定4聚體基序。基於切割位置距CG之距離,將基序分組。如吾人可見,CGNN基序仍顯示最高甲基化程度,而NCGN基序顯示最低甲基化程度,NNCG介於兩者之間。
如301中所說明,若CpG位點發生甲基化,則恰好在此CG處切割可能極大。在302,若其未甲基化,則其可在此CpG位點之前的一個鹼基處切割。此係吾人觀測到許多以CG開始之片段發生甲基化,但許多以NCG開始之片段未甲基化的原因。
因此,一些實施例可使用CGN基序及/或NCG基序之量確定包括位點或多個位點之區域的甲基化指標。其他實例使用切割模式(下文更詳細地描述)及距離與甲基化之關係來確定甲基化。CGN及NCG末端基序可用於確定切割模式,且切割模式可包括CGN及NCG末端基序(亦簡稱為基序)之計數。
C. 某些末端之基於探針之計數
在以上實例中,定序用於確定末端位於距CpG位點某些距離處之片段的量或確定片段之末端基序。代替定序,吾人可使用基於探針之技術來相對於NCG量測CGN(或更長基序,諸如CGNN)的量。因此,來自特定區域之CGN及NCG頻率可經由諸如qPCR、數字PCR、微滴式数字PCR等其他方法偵測。
圖4展示根據本揭示案之實施例使用微滴式PCR確定所關注區域中之NCG及CGN基序之方法的一個實例。如所示,cfDNA分子400可經歷DNA末端修復、A加尾(在片段末端添加A)及共同接頭接合的過程,步骤可視情況選用之。DNA末端修復可形成平末端,因此兩股DNA之間不存在突出部分。可將共同接頭401添加至片段之末端。
可將接頭接合之分子分配至例如不同反應體系中,諸如微滴中。可以如下方式設計一對PCR引物:一個引物(例如共同正向引物410)可結合於共同接頭401而另一個引物(例如區域特異性反向引物420)可結合於所關注之特定區域。
DNA分子將藉由該對PCR引物在反應(例如,微滴)內部擴增。可使用兩種不同螢光的探針,例如用於偵測CGN終止片段之探針430及用於偵測NCG終止片段之探針440。對特定末端基序(諸如CGN或NCG末端基序)具有特異性之螢光探針可發生水解且發射螢光信號,因此能夠偵測特定基序之存在以及對特定基序進行定量。對於數位PCR,可計數對特定末端基序呈陽性之反應數目且用於確定所分析區域中具有彼末端基序之DNA片段的量。對於即時PCR,各信號之強度可用作終止於特定基序之DNA片段之量的量度。可將兩個強度彼此進行比較。
D. CGN及NCG之靶向定序
用於分析片段化之另一示例技術為靶向定序,例如藉由擴增具有至少部分對應於一或多個所關注區域之序列的DNA片段及/或使用選擇此類DNA片段之捕捉探針。可對具有與CpG位點至片段末端之特定距離相對應之特定末端基序的某些DNA分子進行擴增。可利用靶向定序方法以具成本效益之方式自所關注區域確定cfDNA片段組學特徵。靶向定序方法可增加所關注區域之深度,因此提高甲基化分析之準確度。可在定序文庫製備期間富集含CGN及NCG基序之DNA片段。此擴增使定序更有效,因為大部分序列讀段將包括CGN及/或NCG基序。
圖5展示根據本揭示案之實施例藉由選擇性地擴增含有NCG或CGN末端基序之DNA進行定序文庫製備的示例工作流程。如所示,cfDNA分子500可經歷DNA末端配對、A加尾及接頭接合的過程,步骤可視情況選用之。可以如下方式設計一對PCR引物:一個引物510可結合於共同接頭區域501(P1)而另一個引物520或530可結合於DNA與共同接頭(P2)之間的接合區域。藉由控制P2之3'末端中之最後一個鹼基為CG(引物520)或NCG(引物530),亦即ACG、CCG、TCG、GCG,可選擇性地擴增含有CG或NCG末端基序之DNA片段。
隨後將對彼等文庫進行定序。此類定序讀段將用於對CGN及NCG末端基序進行分析,從而允許確定甲基化程度、模式(例如,不同位點或區域之水準)以及差異。此外,含有CGN或NCG末端基序之DNA片段之選擇性擴增可富集映射至具有不同甲基化程度之區域的讀段,例如來自身體內之不同組織、來自腫瘤對非腫瘤來源或來自胎兒對妊娠母親之讀段。
II. 使用切割模式及末端基序之示例使用案例
cfDNA為含有來源於不同來源之DNA分子的混合物,其可能在一或多個CpG位點中具有不同甲基化狀態。不同甲基化狀態將影響在DNA分子因細胞死亡(例如經由細胞凋亡)或其他機制(例如主動分泌)而釋放至血漿的血漿DNA片段化模式。不同甲基化狀態亦可能影響游離DNA分子之清除。因此,使用cfDNA片段化模式將允許推斷CpG位點之甲基化狀態。由CpG甲基化狀態引起的對cfDNA片段化模式之影響將涉及跨越CpG位點附近或遠端之一系列基因組位置的血漿DNA切割,其可能由一或多種DNA核酸酶(諸如DNASE1及DNASE1L3)介導。
圖6展示根據本揭示案之實施例基於片段化模式之甲基化狀態推斷的示意圖。來自不同組織之DNA將具有不同甲基化組。舉例而言,血細胞將在不同位點處的甲基化會與肝臟不同,如位點610所示。在此三個CpG位點中,血细胞與肝臟組織具有不同甲基化程度,亦即血液之UMU及肝臟之UMM。
兩種組織將參與血漿中之游離DNA,此將使游離DNA甲基化程度在各位點不同。舉例而言,若第一位點在兩種組織中均低甲基化,則在游離DNA中,甲基化程度將非常低。而若其均甲基化,則游離DNA之甲基化程度將高。且若一者甲基化且一者未甲基化,則將得到部分甲基化之CpG位點。圖6中展示甲基化程度之此類情形。甲基化程度展示可依據針對血細胞及肝臟所描繪之示例甲基化模式在血漿中量測到。
同時,兩種組織(及活體內之其他組織)亦促進其游離片段體學特徵進入血漿中。因此,若第一位點低甲基化,則將存在更多未甲基化基序(例如,NCG)且切割將更隨機;而在第二位點,若其高甲基化,則將存在更多甲基化基序(CGN)。因此,末端基序及切割模式將為組織之混合物,且此信息實際上可基於其模式分析推斷各位點之甲基化狀態。此展示於關於cfDNA特徵之章節中,其中位點605具有未甲基化之相關末端基序602,而位點608具有甲基化之相關末端基序601。
圖6亦展示兩種用以推斷甲基化狀態之方法。方法620使用切割模式,且方法630使用末端基序分析。
切割模式可對應於末端位於圍繞CpG位點之位置的DNA片段之量。在此實例中使用甲基化模式,在兩種組織中甲基化之位點具有最高峰。對於未甲基化位點,不存在峰。對於高甲基化位點,存在高峰。對於部分甲基化位點(例如,僅在一些組織中甲基化),存在較低峰。如所示,可使用與CpG位點相關之切割模式來預測其來源於不同組織(諸如肝臟、肺、結腸、小腸、淋巴球、嗜中性球等)之血漿DNA分子之甲基化指標。切割模式可定義為(但不限於)跨越所分析之CpG位點周圍之多個基因組位置的各位置(亦稱為切割量測窗)之片段末端之量。基因組位置之數目(稱為窗尺寸)可為(但不限於)1 nt、2 nt、3 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt及10 nt或更多。片段末端之量可為標準化值,諸如(但不限於)片段末端之數目除以各位置處之定序深度。
方法630可使用末端基序分析來預測血漿中之甲基化程度。若甲基化程度較低(例如,顯示之第一位點),則將存在更多的未甲基化相關末端基序。若甲基化程度更高,則將存在更多的甲基化相關末端基序。使用此兩種信號,可預測CpG位點或區域未甲基化、高度甲基化或部分甲基化。所關注之基因組區域之末端基序分析(亦即,區域末端基序分析)可用於推斷其相應甲基化密度(例如,確定為甲基化之定序CpG之百分比)。
因為甲基化為組織特異性的且因為片段組學特徵反映甲基化,所以甲基化可進一步反映來源之組織。片段組學特徵可直接用於(或用於確定甲基化)確定特定組織類型之比例濃度(例如,若測定多重組織濃度,則使用組織反卷積),可提供來自特定組織(例如,臨床相關DNA)之DNA的比例濃度。切割模式及末端基序分析可用於估計特定組織之比例。因此,甲基化相關cfDNA片段組學特徵(諸如切割模式及基序分析)可用於推斷來自不同來源組織之cfDNA的貢獻(比例濃度)。
一些實施例亦可使用片段體學特徵推斷是否存在病變(例如疾病,諸如癌症)。
III. 基於片段化預測位點之甲基化
此章節描述在單一CpG使用切割模式預測基因組中之甲基化指標的技術。切割模式可以各種方式測定,包括使用某些末端基序,諸如CGN末端基序。下文提供示例定義及結果。不管切割模式如何定義,例如所用標準化化之類型,結果均一致。
A. 藉由覆蓋位置之總讀段標準化
切割模式係根據跨越與CpG位點有關之量測窗內之基因組座標的切割比率建構。在所關注之量測窗內之位置處的切割比率可藉由下式計算:
因此,在此實施例中,切割比率定義為位置處之末端之數目比覆蓋該位點之讀段之數目(定序深度)。
圖7示出根據本揭示案之實施例使用切割比率之切割模式的定義。展示寬度11之切割量測窗710,但可使用其他寬度。在參考序列720上方展示一組游離DNA片段700。相對位置係相對於CpG位點之C。標記為「末端」之列展示末端位於彼特定鹼基位置處之游離DNA片段之數目。標記為「深度」之列展示與彼鹼基位置重疊之游離DNA片段之數目。切割比率使用所示方程式計算。
CpG位點之C位於0位處,其對應於CGN末端基序。位置-5至-1在上游。-1位置對應於NCG末端基序。G在位置1處且其他四個在下游,至5。此等位置為切割量測窗710。在窗內,映射內部所有游離片段。對於各位置,計算多少片段之末端在彼位置處。此展示於標記為「末端」之列中。
接著計算各位置之深度。對於位置-5處之A,存在兩個映射至彼位置之片段,因此深度為二。由於位置-5之A具有一個終止於彼位置之片段及深度二,因此切割比率將為50(或50%)。
1. CG之切割剖析
分析兩組CG位點之切割模式:推定未甲基化及甲基化。由於健康參與者中大多數cfDNA分子來源於白細胞(Sun等人 《美國國家科學院院刊》 2015;112:E5503-5512),所以基於白細胞之公開可用的Illumina HumanMethylation450 BeadChip資料(GSE40279)鑑別出1,000個推定甲基化CpG位點(β值>0.8)及1000個推定未甲基化CpG位點(β值<0.1)。若在白細胞中位點發生甲基化,則假設其推定甲基化。為研究甲基化如何影響cfDNA片段化,分析8個健康對照cfDNA樣本之1,000個推定未甲基化CpG位點及1,000個推定甲基化CpG位點的切割模式,中位讀段數目為3.81億(四分位數範圍:3.53-4.04億)。亦可使用本文中提及之基於探針之技術,包括靶向定序。「推定」意謂甲基化來源於來自公開可用之資料庫的基因座陣列信息。
圖8展示根據本揭示案之實施例甲基化CpG位點810與未甲基化CpG位點820之間的切割模式之比較。x軸表示量測窗內相對於CpG位點之核苷酸位置。作為一實例,本文中之窗定義為CpG位點中C鹼基上游及下游5個核苷酸(亦即,5 nt)(亦即,窗尺寸為11 nt)。
y軸表示平均切割比率。對於各樣本,藉由計算11 nt窗內各位置之平均切割比率來組成來自推定甲基化CpG位點或推定未甲基化CpG位點之切割模式。如所示,與推定未甲基化CpG位點(中位切割比率:0.54;範圍:0.39-0.62)相比,推定甲基化CpG位點之切割模式顯示在位置『0』(亦即,所討論CpG位點之胞嘧啶核苷酸)之更高切割偏好(中位切割比率:1.24;範圍:0.91-1.37)(P值=0.00016,曼-惠特尼
U檢驗(Mann-Whitney
Utest))。因此,一旦C發生甲基化,則切割在C處可能性較大;而當C未甲基化時,切割在C處可能性降低。
2. 用於其他序列背景之切割模式
除甲基化狀態以外,序列背景亦可能影響切割模式。為研究序列背景之影響,自一組切割量測窗測定與甲基化及未甲基化CpG位點相關的切割模式,對於該等窗,位置『-1』對應於胞嘧啶核苷酸,亦即「CCG」子序列(總計6,928,652個量測窗)。
圖9-10展示根據本揭示案之實施例的與不同序列背景(包括CCG及甲基化狀態)相關之窗的切割模式。舉例而言,此資料係使用一個健康對照樣本之亞硫酸氫鹽定序結果生成(3.91億對讀定序讀段)。
圖9展示在位置-1、0及1處含有C、C及G核苷酸之窗的切割模式。黑線910表示在位置0處含有甲基化C之窗的切割模式,而灰線920表示在位置0處含有未甲基化C之窗的切割模式。在此實例中,甲基化狀態(由M表示)由甲基化指標大於70%之彼等CpG位點定義,而未甲基化狀態由甲基化指標小於30%之彼等CpG位點定義(由U表示)。
甲基化CpG位點處的位置『0』處之切割比率(0.90)似乎比未甲基化CpG位點(0.51)高得多。當C發生甲基化時,則切割在C處可能性較大;而當C未甲基化時,切割在彼C處可能性降低。
圖10展示在位置0、1、2及3(亦即,CGCG子序列)處含有C、G、C及G核苷酸之615,465個窗的切割模式。根據關於CGCG子序列之兩個CpG位點的甲基化模式,將切割模式分為四個組,亦即「MM」、「MU」、「UM」及「UU」。黑色實線1010表示在位置0及2處含有甲基化C之窗的切割模式,且灰色虛線1020表示在位置0及2處含有未甲基化C之窗的切割模式。黑色虛線1030表示在位置0處含有甲基化C且在位置2處含有未甲基化C之窗的切割模式,且灰色實線1040表示在位置0處含有未甲基化C且在位置2處含有甲基化C之窗的切割模式。
與「UU」組(切割比率分別為0.53及0.42)相比較,針對「MM」組,在CGCG子序列之兩個胞嘧啶位置中觀測到相對較高的切割比率(切割比率分別為0.86及0.89)。當彼2個CpG位點之甲基化狀態不同時(亦即,「MU」組及「UM」組),相對較高之切割傾向於在甲基化胞嘧啶處發生。此等資料表明,切割模式與跨越一系列不同CpG位點之甲基化模式相關。因此,切割模式可用於推斷跨越一系列不同CpG位點之甲基化模式。
3. 不同序列背景之CGN/NCG比率
例如圖2-3中已顯示CGN及NCG基序可用於反映緊鄰所關注之切割位點之CpG的甲基化狀態。且圖10展示兩個彼此靠近(亦即串聯)之CpG的切割模式。
為理解cfDNA切割模式與跨越相鄰若干CpG之甲基化狀態之間的關係,分析具有多個相鄰CpG位點之彼等分子跨越甲基化狀態之不同組合的CGN/NCG基序比率。CGN/NCG基序比率對應於具有CGN基序之DNA片段之量與具有NCG基序之DNA片段之量的比率。此處將相鄰CpG定義為位於75 bp大小範圍內但不串聯的彼等CpG位點。在其他實施例中,相鄰CpG可定義為位於(但不限於)5 bp、10 bp、20 bp、30 bp、40 bp、50 bp、100 bp、200 bp、500 bp、600 bp、1000 bp等範圍內之CpG位點。在又一實施例中,可使用串聯CpG。因為大部分cfDNA分子(約93.5%)在各分子中在75 bp範圍內含有不超過3個CpG位點數目,所以分析分別具有2個及3個CpG位點之彼等分子跨越甲基化狀態之不同組合的CGN/NCG基序比率。
圖11展示在相鄰CpG位點處之cfDNA分組的示意圖。切割位點1105在5'末端左側。在此實例中,範圍1110為75 nt。前兩個實例展示具有兩個CpG位點之DNA片段。後兩個實例展示具有三個CpG位點之DNA片段。右側展示甲基化狀態之不同組合。
對於具有2個CpG之cfDNA分子,甲基化狀態總共存在4種組合。一種組合可為如下情況,5'末端處之甲基化CpG後面為甲基化CpG(由「M-M」表示,其中「M」表示甲基化CpG而『-』表示任一或多個核苷酸)。其他組合可為「M-U」、「U-M」、「U-U」,其中「U」表示未甲基化之CpG。對於具有3個CpG之cfDNA分子,甲基化狀態總共存在8種組合,亦即「M-M-M」、「M-M-U」、「M-U-M」、「M-U-U」、「U-M-M」、「U-M-U」、「U-U-M」及「U-U-U」。
圖12A-12B展示具有多個相鄰CpG之甲基化模式對CGN/NCG基序比率的影響。如圖12A-12B中所展示,與以5'末端處未甲基化CpG之開始的分子(亦即,「U-M」、「U-U」、「U-M-M」、「U-M-U」、「U-U-M」及「U-U-U」)相比,在以5'末端處甲基化CpG開始之彼等cfDNA分子(亦即,「M-M」、「M-U」、「M-M-M」、「M-M-U」、「M-U-M」及「M-U-U」)中CGN/NCG基序比率顯著較高。此類似於單一CpG位點之行為,表明主要作用為所關注之切割位點處之末端基序。
以5'末端處未甲基化CpG開始之分子之切割似乎因相鄰CpG之甲基化的存在而相對增強。舉例而言,對於具有2個CpG位點之彼等分子,「U-M」組顯示CGN/NCG基序比率比「U-U」組提高約27.9%((P值=0.018)(圖12A)。
另外,對於具有3個CpG之以5'末端處未甲基化CpG開始的彼等cfDNA分子,CGN/NCG基序比率傾向於隨著更多相鄰CpG變為未甲基化而逐漸降低。與「U-M-U」、「U-U-M」及「U-U-U」相比,「U-M-M」組分別顯示CGN/NCG基序比率增加約20.6%、約25.0%及約52.2%(圖12B)。
因此,緊鄰所關注之切割位點之CpG的甲基化狀態對cfDNA切割之影響比遠離切割位點之彼等CpG位點更顯著。另外,資料亦表明,5'末端之CpG切割可能至少部分地受相鄰CpG之甲基化狀態影響。此發現可具有一些潛在應用。
在一個實施例中,可使用5'末端CGN及NCG基序來推斷參考基因組中之若干相鄰CpG之甲基化指標。儘管在所關注之切割位點使用末端基序係最佳,但末端位於彼位點處之DNA片段的數目可能不足,例如,因為CpG位點可能位於核小體內,因此DNA酶在此類位點進行切割之機會較少。在此情況下,可基於上游CpG位點處之CGN/NCG推斷甲基化狀態。舉例而言,如所示,約2之CGN/NCG基序比率將指示下一個CpG位點甲基化,而約1.7之CGN/NCG基序比率將指示下一個CpG位點未甲基化。因此,切割位點處之基序比率可確定切割位點處之甲基化指標,且亦確定下游一個或兩個CpG位點處之甲基化指標。
在另一實施例中,與一或多個相鄰CpG相關之cfDNA切割模式可用於增強診斷病理學病狀之能力。舉例而言,可使用與一定核苷酸距離內顯示相同甲基化模式之許多CpG相關的cfDNA切割模式來協助診斷標記物之選擇。作為另一實例,來源於癌症特異性低甲基化標記物之片段組學特徵可用於診斷癌症。在一些情況下,使用跨越具有相鄰低甲基化CpG之CpG位點的切割模式可勝過使用具有相鄰高甲基化CpG之CpG。
B. 藉由區域中之總末端標準化
標準化之另一實例使用末端位於該位點周圍之區域中之片段的數目。該區域可與用於確定切割剖析之窗相同或不同。
圖13示出根據本揭示案之實施例使用切割密度之切割模式的標準化。黑色條1305展示含有CG 1301之參考基因組。如同使用切割比率之實例一樣,為推導CpG位點之甲基化狀態,吾人可計算多少片段之末端位於此CpG位點處。對於標準化,將各位置處之末端之數目除以此整個區域中之總末端數。此為可用於將具有特定末端基序或末端位於特定位置之DNA片段之量標準化的另一示例技術。
進行類似分析以確定各種CpG位點關於切割密度之分析,如針對切割比率所進行。舉例而言,對一個CG、2個CG及3個CG進行分析。定序分析使用來自多個樣本之合併數據獲得較高定序深度。若甲基化指標大於第一臨限值(在此實例中為80%),則位點甲基化,且若甲基化指標小於第二臨限值(在此實例中為30%),則位點未甲基化。若位點之甲基化指標介於臨限值之間,則其不用於此實例。在其他實施方案中,可使用中間分類。
圖14提供根據本揭示案之實施例使用兩個CpG位點之各種甲基化組合之切割密度的切割模式。CpG位點在此實例中串聯,如同圖10中。根據第一CG及第二CG之甲基化狀態,存在四組。此處兩個虛線1403及1404表示此兩個胞嘧啶之位置。
如吾人可見,在上部兩個模式圖中,第一C 1401未甲基化因此在C 1201處不存在峰。但在下部兩個模式中,第一C甲基化,因此切割密度自-1至0位置存在顯著增加。對於第二及第四模式圖,第二CG甲基化。在此等模式中,第二C 1402存在峰。對於第一及第三模式圖,第二CG未甲基化因此峰較低或消失。關於切割密度1405,其具有高值,但未相對增加。相對增加對於推斷甲基化狀態而言較為重要,勝於位置處之精確數值。此等結果與圖10中使用切割比率之結果一致。
圖15提供根據本揭示案之實施例使用三個CpG位點之各種甲基化組合之切割密度的切割模式。不同模式對應於不同位點之甲基化狀態之不同組合。如吾人可見,上部兩個模式之第一CG甲基化而在下部兩個模式中未甲基化。吾人亦觀測到上部兩個模式在第一C 1501處之顯著峰1503及1505。但在下部兩個模式中第一C 1501之峰消失。
對於第一及第三模式圖,第二CG甲基化。觀測到第二C 1502之峰1504。對於第二及第四模式圖,第二CG未甲基化,因此峰已降低或消失。
在前三個模式圖中第三CG甲基化,且觀測到峰。在第四剖析中第三CG未甲基化,因此峰極低。
圖16展示根據本揭示案之實施例的包括CCG及甲基化狀態之窗的切割密度。分析含有CCG之區域,因為DNASE1L3偏好在CC處或CCC處切割。但若CG甲基化,則假設將偏好在此CG之上(在CC之間)精確切割。因此若其甲基化,則觀測到峰1601。若CG甲基化,則更偏好在兩個C之間切割。若CG未甲基化,則峰消失。此等結果與圖9中使用切割比率之結果一致。
圖17展示根據本揭示案之實施例使用切割密度對甲基化CpG位點與未甲基化CpG位點之間的切割模式之比較。圖17與圖8相當且顯示類似結果,但使用切割模式之不同定義,亦即使用與切割比率相當之切割密度。如同圖8一樣,自公開之白細胞甲基化陣列數據選擇推定高甲基化或推定低甲基化之CpG位點。隨機選擇在白細胞中甲基化之一千CpG組(β-值>0.8)及在白細胞中未甲基化之一千CpG位點(β-值<0.1)。
各條線1720表示具有一千個甲基化CpG區域之樣本,且各條線1730表示具有一千個未甲基化CpG位點之樣本。觀測到1720線中之顯著峰,此意謂高甲基化區域,可藉由此峰推斷甲基化狀態。而對於1730線,此處峰降低或甚至消失。因此,若CpG甲基化,則將存在末端位於位置1701之片段之末端之峰。在表示切割模式之示意圖1707中將看見該峰。當C未甲基化時,此CG末端偏好將消失,如示意圖1709中所示。結果表明,可藉由切割模式在單一CpG解析度下預測甲基化狀態。
C. 使用支持向量機之結果
在一些實施例中,可使用機器學習(ML)技術。此類技術可使用切割量測窗內之兩個或更多個量,且可在圍繞CpG位點之窗中包括完整切割模式。機器學習技術亦可使用序列背景,例如完整序列或k聚體實例,可以各種方式進行紀錄。序列背景之使用亦可在機器學習外,例如自-1至0位置之切割之相對增加可視C之前的鹼基而不同。機器學習可在用於ML模型之特徵向量輸入中的任一位置中鑑別此類模式。可使用各種ML模型。此章節使用支持向量機(SVM)將位點分類為高甲基化或低甲基化。
1. 僅使用切割模式
在一些實施例中,切割模式係使用來自以CpG位點為中心之11 nt切割量測窗的切割比率建構。使用來自華特生與克里克股(Watson and Crick strand)之切割模式訓練機器學習模型,該模型用於推斷處於窗中心之CpG位點的甲基化狀態。在一個實施例中,使用支持向量機(SVM)基於與CpG位點相關之切割模式預測該CpG位點處之甲基化指標是否超過95%或低於20%。
圖18展示根據本揭示案之實施例用於使用SVM將CpG位點分類為高甲基化或低甲基化的工作流程。對於訓練集,使用參考基因組中之33,147個低甲基化CpG位點及33,147個高甲基化CpG位點。使用亞硫酸氫鹽定序確定各位點之實際分類。在此實例中,低甲基化為甲基化指標低於20%,而高甲基化為甲基化指標高於95%。一半位點用於訓練而另一半用於測試。經訓練之模型可基於切割模式預測CpG位點為低甲基化還是高甲基化。輸入特徵向量係11個位置處之切割比率,如各位點處所示。特徵向量1810為此類特徵向量之一實例。
圖19展示根據本揭示案之實施例基於切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。兩個曲線圖展示來自華特生股(Watson strand)及克里克股(Crick strand)之數據。當僅使用來自華特生或克里克股之數據時,可實現約0.8之AUC。在此實例中,切割模式中之切割比率使用各位置處之定序深度標準化。
通常,華特生股中之CpG位點與互補克里克股中之對應位點的甲基化模式為對稱的。來自華特生與克里克股之切割剖析可合併以訓練機器學習模型,該模型用於推斷處於窗中心之CpG位點的甲基化狀態。因此,在一些實施例中,使用來自各股之切割模式。因此,特徵向量在量測窗中之此11個位置之實例中可具有22個值。在大多數情況下,兩股共有相同甲基化狀態。因此,可使用兩股推斷兩個CpG位點之甲基化狀態。
圖20展示根據本揭示案之實施例基於來自兩股之切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。在測試資料集中實現約0.89之AUC,其似乎優於基於來自單獨華特生或克里克股之數據的任一模型(P值<0.0001,DeLong檢驗)。若將基於SVM之輸出機率之臨限值設定為0.5用於確定CpG位點是否甲基化。可實現83.8%之靈敏度與77.2%之特異性。若將基於SVM之輸出機率之臨限值設定為0.55用於確定CpG位點是否甲基化。可實現81.4%之靈敏度與80.2%之特異性。此等數據表明,使用機器學習演算法使用切割模式來預測甲基化狀態係可行的。
用於訓練樣本之定序深度(例如10×)可高於用於測試樣本之定序深度。
2. 使用序列背景
可分析CpG位點周圍之定序背景來提高模型效能。舉例而言,可根據華特生股之『-1』位置處的核苷酸類型,將包含與甲基化及未甲基化CpG位點相關之切割模式的訓練數據集劃分成四個類別。序列背景可藉由訓練不同模型來使用:四個序列背景中之每一者為一種模型。
圖21A-21B展示根據本揭示案之實施例基於在不同序列背景之切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。使用序列背景可提高準確度。
圖21A展示來自華特生(W)及克里克(C)股之組合數據。不同線表示當在華特生股之量測窗內之-1、0及1位置處使用不同子序列時的ROC曲線。C處於-1位置處提供最大準確度。對於此實施方案,基本上存在四種不同模型:華特生股-1位置處為A、C、G及T之模型。
如圖21A中所展示,在聚焦於華特生股中-1、0及1位置處具有C、C及G核苷酸(亦即,CCG子序列)之切割量測窗時,AUC自0.89增加至0.94(P值<0.0001,DeLong檢驗),由此證明模型效能進步。在華特生股中-1、0及1位置處具有ACG、GCG及TCG子序列之切割量測窗中使用將分別得到0.86、0.91及0.89之AUC值。因此,對於兩個序列背景(CCG及GCG),相對於圖20之結果有所改良,而對於TCG,為相同的,不過對於ACG,有所降低。
圖21B展示來自兩股之量測窗內在-1、0及1位置處具有CCG子序列之華特生(W)及克里克(C)股的組合數據。因此,使用兩股之序列背景使AUC自0.94提高至0.97。若此針對兩股及所有四種鹼基進行延伸,則將存在16種不同模型。
因此,在一些實施例中,來自華特生股及克里克股中在-1、0及1位置處具有CCG子序列之窗的切割模式之使用將進一步增強模型效能,達至0.97之AUC。此等結果表明,根據序列背景及華特生與克里克股數據之組合選擇性地分析切割模式在區分甲基化CpG位點與未甲基化CpG位點方面協同地提高模型效能。
3. 具有不同寬度之窗
在圖20之實例中,使用11 bp之量測窗確定基因組中之給定位點為高甲基化還是低甲基化。針對本文中所描述之實施例中的任一者,可使用各種寬度之窗,例如2、3、4、6、7、8、9、10、11及20。此類寬度之結果展示於表1中。表1概述藉由具有不同窗尺寸之SVM模型進行甲基化預測之AUC。AUC(總體)藉由圖20中所使用之方法分析,而其餘四種藉由圖21A中所使用之方法使用位置-1處之參考基因組之序列背景分析。量測使用來自華特生(W)股及克里克(C)股之片段,不過量測可僅使用一個股。序列背景係針對華特生股而定義,但可針對克里克股以及針對兩者來定義。另外可使用其他序列背景(除-1位置以外),例如在位置-3、-2、1、2及3處。
表1:藉由具有不同窗尺寸之SVM模型進行甲基化預測之AUC。
窗尺寸 | AUC (總體) | AUC ( W 股中之 ACG ) | AUC ( W 股中之 CCG ) | AUC ( W 股中之 GCG ) | AUC ( W 股中之 TCG ) |
1 bp(位置0) | 0.77 | 0.73 | 0.81 | 0.73 | 0.74 |
1 bp(位置-1) | 0.82 | 0.75 | 0.88 | 0.83 | 0.78 |
1 bp(位置+1) | 0.59 | 0.57 | 0.57 | 0.56 | 0.64 |
2 bp(位置-1、0) | 0.84 | 0.81 | 0.93 | 0.88 | 0.86 |
3 bp(位置-1、0、+1) | 0.85 | 0.82 | 0.93 | 0.89 | 0.86 |
4 bp(位置-2 ~ +1) | 0.85 | 0.83 | 0.93 | 0.89 | 0.87 |
5 bp(位置-2 ~ +2) | 0.86 | 0.83 | 0.94 | 0.89 | 0.88 |
6 bp(位置-3 ~ +2) | 0.86 | 0.84 | 0.94 | 0.90 | 0.89 |
7 bp(位置-3 ~ +3) | 0.88 | 0.85 | 0.94 | 0.90 | 0.88 |
8 bp(位置-4 ~ +3) | 0.88 | 0.86 | 0.94 | 0.91 | 0.89 |
9 bp(位置-4 - +4) | 0.89 | 0.87 | 0.94 | 0.91 | 0.89 |
10 bp(位置-5 ~ +4) | 0.89 | 0.87 | 0.94 | 0.91 | 0.90 |
11 bp(位置-5 ~ +5) | 0.89 | 0.86 | 0.94 | 0.91 | 0.89 |
20 bp(位置-10 ~ +9) | 0.89 | 0.88 | 0.95 | 0.91 | 0.90 |
對於位置0處之1 bp窗,在CpG位點處,亦即使用末端位於該CpG位點之C處之DNA片段確定切割比率。對於此實例而言,切割比率使用定序深度標準化,如章節III.A中所描述。SVM模型可接收華特生股之切割比率及/或克里克股之切割比率作為輸入。可使用其他機器學習模型,諸如決策樹或神經網路。
當僅確定一個切割比率(例如,僅一個股)時,第一截止值/閥值可用於區分高甲基化與非高甲基化,而第二截止值/閥值可用於區分低甲基化與非低甲基化。當使用額外切割比率(例如,作為切割模式之一部分)時,可使用額外截止值/臨限值。切割比率可採取如本文所描述之各種形式,諸如藉由覆蓋位置之DNA片段之數目、該位點周圍之區域中之DNA片段的數目或末端位於該位點周圍之一或多個特定位置處之DNA片段的數目進行標準化。此類標準化中之任一者可用於切割模式。
對於位置-1處之1 bp窗,在CpG位點左側之位置-1處確定切割比率。此類位置對應於NCG末端基序。對於使用ACG之AUC行,DNA片段將在末端具有ACG,對於使用各別序列背景之其他AUC值,以此類推。
對於位置1處之1 bp窗,在CpG位點右側之位置1處確定切割比率。對於其餘量測窗中之每一者,針對窗尺寸之行中鑑別所使用之特定位置。
表1中之資料係使用33,147個低甲基化CpG位點及33,147個高甲基化CpG位點生成。在此實例中,低甲基化為甲基化指標低於20%,且高甲基化為甲基化指標高於95%。
D. 在序列背景下使用卷積神經網路之結果
在一些實施例中,機器學習模型(例如神經網路)可考慮CG位點周圍之序列背景及切割模式(例如超過一個切割密度或切割比率)來預測甲基化。在一個實施例中,為協同使用量測窗中存在之序列背景及切割模式,實施卷積神經網路(CNN)以判定基因組中之CpG位點是否甲基化。
圖22展示根據本揭示案之實施例基於切割模式及序列背景使用CNN模型進行甲基化狀態預測的示意圖。甲基化狀態可藉由甲基化指標超過95%(或其他值,例如本文所提及)定義,而未甲基化狀態可藉由甲基化指標低於20%(或其他值,例如本文所提及)定義。出於說明目的,對於華特生股,所分析之CpG位點處之胞嘧啶的上游5 nt(例如,ATCTG)及下游5 nt(例如,GAGTA)呈現為5'-[ATCTG]C[GAGTA]-3'。此序列之相對位置分別對應於-5、-4、-3、-2、-1、0、+1、+2、+3、+4及+5。中心位置「0」對應於進行甲基化狀態分析之CpG位點處的胞嘧啶。
各位置之片段切割比率可根據序列背景建構成2維(2D)矩陣2220。舉例而言,對於與鹼基鳥嘌呤(「G」)對應之位置-1,與「G」相關之切割比率(1.40)填充於對應格中「-1」行與「G」列之中,華特生股此位置中對應於「A」、「C」及「T」之其餘列填充「0」。亦類似地處理源自克里克股之切割模式及序列背景('5-[TTACT]C[GCAGA]-3')。來自華特生及克里克股之資料矩陣可進行組合以供下游分析。因此,此類數據矩陣可含有序列背景與切割剖析資訊兩者。使用與已知甲基化狀態,亦即甲基化CpG位點(輸出值為「1」)及未甲基化CpG位點(輸出值為「0」)相關之許多彼等數據矩陣訓練CNN模型。
如所示,計算兩股之切割比率。矩陣包括鹼基(核苷酸)、位置及切割比率(在此實例中使用獨熱編碼)。舉例而言,在W股中之-5處,第一鹼基為A,且切割比率為約0.25。兩個矩陣可組合成組合矩陣2230。此組合矩陣可為CNN模型之輸入度量,其具有提取此等矩陣之特徵的卷積佈局。所提取之特徵可組合成線性數據,以計算CpG位點甲基化還是未甲基化之可能性。可實現約0.96之AUC。
在一個實施例中,CNN模型使用兩個一維(1D)卷積層,各卷積層具有64個核尺寸為4之濾波器,但可使用其他超參數,諸如50-100個濾波器或3-6之核尺寸。彼等卷積層使用整流線性單位函数(ReLU)。隨後施加批量歸一化層,後面為丟棄率為0.5之丟棄層。進一步添加扁平層,後面為使用ReLU函數之包含128個神經元之全連接層。最終施加具有一個神經元之輸出層,利用S型激活函數,得到CpG位點甲基化之機率評分(亦即甲基化評分)。CNN模型之程式係基於PyTorch機器學習框架(https://pytorch.org/)實施。在各種實施例中,卷積層之數目可為1、3、4、5、6、7、8、9、10至20、30至40、40至50或更多。各卷積層之濾波器的數目可為1至10、10至20、20至30、30至40、40至50、50至60、60至70、70至80、80至90、90至100、100至150、150至200或更多。濾波器之核尺寸可為2、3、4、5、6、7、8、9、10、10至20或更大。CNN亦可包括多個隱藏層,該等隱藏層包括多個節點。多個隱藏層中之第一層與輸入層耦合。CNN可進一步包括輸出層,該輸出層與多個隱藏層之最後一層耦合且配置為輸出輸出數據結構。
當藉由迭代調整模型參數使藉由S型函數獲得之輸出評分與期望靶向輸出(二進位值:0或1)之間的總預測誤差達到最小時,獲得CNN模型之最佳參數。總預測誤差藉由深度學習演算法中之交叉熵損失函數來量測(pytorch.org)。自訓練數據集學習之模型參數用於分析測試數據集以輸出機率評分(在此研究中稱為甲基化評分),其將指示CpG位點發生甲基化之可能性。
甲基化評分可在0至1範圍內。在一個實施例中,甲基化評分1指示CpG位點可視為甲基化。甲基化評分0可指示CpG位點可視為未甲基化。在一些實施例中,若基於甲基化評分之截止值將特定CpG位點分類為「甲基化」或「未甲基化」,則可使用截止值進行分類。截止值之可能值包括5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%或95%。CpG位點之甲基化評分大於預界定之截止值,可歸類為「甲基化」,而CpG位點之甲基化機率不超過預界定之截止值,可歸類為「未甲基化」。可使用例如接收者操作特徵(receiver operating characteristics,ROC)曲線分析自訓練數據集獲得所需截止值。
圖23A展示根據本揭示案之實施例基於切割模式及序列背景使用CNN進行單CpG位點甲基化狀態預測之效能。實線表示用切割模式及序列背景訓練之模型的效能,且虛線表示僅用序列背景訓練之模型的效能。僅使用序列背景僅在參考基因組之序列模式上訓練,無任何片段化信息。
基於甲基化評分,CNN模型可實現0.96之AUC,其優於不含序列背景之基於SVM之模型(0.89)(P值<0.0001,DeLong檢驗)。且此AUC用於所有序列背景。若在此模型中僅使用序列背景而無切割模式,則效能將下降至0.79之AUC。此等結果表明組合使用切割模式及序列背景將顯著提高確定甲基化狀態之模型效能。在其他實施例中,切割模式及序列背景可用於推斷甲基化指標(例如,特定百分比或百分比範圍)而非高甲基化或低甲基化之二進位值。
在一些實施例中,機器學習模型可包括但不限於卷積神經網路(CNN)、線性回歸、邏輯回歸、深度循環神經網路(例如,全連接循環神經網路(RNN)、閘控循環單元(GRU)、長短期記憶(LSTM))、基於變換之方法(例如XLNet、BERT、XLM、RoBERTa)、貝葉斯分類器(Bayes'classifier)、隱藏式馬可夫模型(HMM)、線性判別分析(LDA)、k平均分群、具有雜訊的基於密度的分群方式(DBSCAN)、隨機森林演算法、自適應增強(AdaBoost)、極限梯度提昇(XGBoost)、支持向量機(SVM)或包含以上提出之一或多個模型的複合模型。
E. 使用各種位置之結果
如上文所示,切割距離反映甲基化指標,例如圖2A-2B及3中所示,尤其距離為0(對應於末端基序為CGN),1(應於位置-1且對應於末端基序NCG)及+1(對應於C與G之間的切割位點)。各個位置處之切割比率(例如使用特定位置處之量確定)亦顯示甲基化程度之間的差異,例如圖8-10及17中所示。在此章節中提供額外資料,其顯示使用末端位於CpG位點之第一位置處之游離DNA分子的量區分差異甲基化程度,其中該第一位置為-1至+1位置中之一者。如所示,可使用位置-1、位置0或位置+1。
圖23B展示39個ucfDNA樣本中在高甲基化與低甲基化CpG之間位置-1及+1處平均切割比率之和的比較。分析39個健康對照尿液cfDNA樣本之18,280,640個高甲基化CpG位點及2,576,102個低甲基化CpG位點的平均切割比率之和,對讀讀段中位數目為7580萬(四分位數範圍:6050萬-1.55億)。各點表示一名個體。如所示,位置-1及+1處之切割比率在高甲基化位點與低甲基化位點之間不同。此類資料顯示,可在不使用0位之片段信息的情況下預測甲基化。
圖24A展示基於排除位置0之切割模式及序列背景使用CNN模型進行單CpG位點甲基化狀態預測之效能。序列背景如上文所描述來使用。在無0位置之情況下,+/-5鹼基窗之組合矩陣將具有10行而非11,如圖22中所使用。實現0.91之AUC,較使用0位置之0.96AUC低,但仍比使用單獨序列背景(AUC=0.79)高得多。使用與圖23B相同之數據集。
如上文所提及,可單獨使用位置-1至+1中之任一者。雖然一些實施例可使用比率(例如CGN/NCG比率),其他實施例可使用多個位置處之切割比率之向量,或可使用末端位於相對於CpG位點之特定位置處之片段的量。
圖24B展示基於排除位置-1、0及1之切割模式及序列背景使用CNN進行單CpG位點甲基化狀態預測之效能。圖24B顯示可使用切割測量窗內之一組連續或不連續位置來形成輸入機器學習模型中用於訓練之數據結構。然而,若一些位置對分類有顯著貢獻,諸如,-1、0及1,則效能可能降低。
圖25A-25F為示出高甲基化CpG與低甲基化CpG之間血漿及尿液(ucfDNA)之各種位置之平均切割比率的差異的箱形圖。圖25A展示血漿中高甲基化CpG與低甲基化CpG之間位置-1之切割比率的差異。圖25B展示血漿中位置0之切割比率的差異。圖25C展示血漿中位置+1之切割比率的差異。下部箱形圖示出ucfDNA中位置-1(圖25D)、位置0(圖25E)及位置1(圖25F)之平均切割比率的差異。差異顯著,p<0.001。位置0提供最佳區分。位置-1對血漿之辨別優於對尿液,而位置+1對尿液之辨別優於對血漿。
F. 確定定量甲基化密度
在上文,實例為高甲基化(例如甲基化密度大於X%(例如80%))或低甲基化(例如小於Y%(例如小於30%))之分類。一些實施例可使用校準函數(例如,如術語章節中所描述)來確定更窄範圍或估計特定值。舉例而言,位點之甲基化程度可使用甲基化相關分析測定。亦可測定切割信息,諸如本文所描述之任何切割參數,諸如切割密度或切割比率。
此經量測之位點甲基化程度及對應切割信息/參數(例如切割比率或切割密度)可形成校準數據點,其中切割參數為對應於已知/經量測之甲基化程度之校準值。考慮到切割與甲基化之間的關係,當切割參數變化時,甲基化程度亦將變化。當切割參數變化時,校準函數可限定甲基化程度之比例變化。以此方式,當量測新樣本(例如,在不進行甲基化相關分析下定序)之切割參數時,此切割參數可與校準函數(例如與對應於已知甲基化程度之校準值)相比較。在一個實施方案中,切割信息/參數(例如,切割模式或末端基序)可與甲基化相關分析組合(例如,對由單分子即時定序生成之資料使用整體動力學模型,諸如美國公開案第2021/0047679號中)以提高測定DNA甲基化分析之最終分類準確度。
校準資料點可用於訓練模型,例如回歸模型。回歸模型可用於確定定量值,該定量值可為範圍,例如5%(諸如40%-45%之間的密度)、10%、15%、20%、25%或30%範圍。回歸可提供校準函數。在一些實施方案中,ML模型(例如,神經網路)之似然度可用作甲基化指標。
圖26A-26C展示用於確定8個血漿DNA樣本中具有不同甲基化程度之CpG之甲基化程度(例如,密度)的定量值的各種技術之比較。圖26A展示甲基化密度在各種範圍之CpG位點集的平均CGN/NCG基序比率。具體而言,寬度為20%之範圍展示如下:0-20%、20-40%、40-60%、60-80%及80-100%。圖26B展示相對於CpG位點之位置-1處的平均切割比率。圖26C展示CpG位點之位置0的平均切割比率。
在血漿DNA樣本之全基因組甲基化定序(WGBS)數據中,CpG根據甲基化指標之某一範圍分成5組,亦即0-20%、20-40%、40-60%、60-80%及80-100%。在相同樣本中,計算各組CpG之平均CGN/NCG基序比率(圖26A)、位置-1處之平均切割比率(圖26B)及位置0處之平均切割比率(圖26C)且繪圖。各點表示一名個體。
所有三個參數均顯示與甲基化指數的關係(增加或減小)。CGN/NCG基序比率隨著甲基化指數增加而逐漸增加。位置-1及0處之切割比率與甲基化指數範圍之不同組呈負相關及正相關。此等結果反映CGN/NCG基序比率及切割比率可區分高甲基化CpG與低甲基化CpG。此外,CGN/NCG基序比率及切割比率可用於預測甲基化程度之範圍。各圖展示校準曲線,其可用於使用末端位於0或-1之位置處之游離DNA片段的量確定定量值(至少在一範圍內)。
亦可使用11 bp窗(例如,-5至5)之切割模式進行SVM回歸分析。SVM模型用對應於不同甲基化指標範圍之CpG之切割模式訓練。舉例而言,基於範圍0-5%(第1組)、50-55%(第2組)及95-100%(第3組)訓練SVM回歸模型,亦即SVR 1。針對0-10%(第1組)、45-55%(第2組)及90-100%(第3組),訓練另一SVM回歸模型,亦即SVR 2。針對0-20%(第1組)、40-60%(第2組)、80-100%(第3組),訓練另一SVM回歸模型,亦即SVR 3。
表2展示基於近端切割剖析使用SVM回歸模型對不同甲基化指標範圍內之單一CpG位點進行甲基化狀態預測的效能。如第2列中所示(皮爾森(Pearson)r),預測之甲基化比例顯示與所測試之CpG之甲基化指標的良好相關性(亦即,皮爾森r=0.73、0.77及0.74)。對於各SVM回歸模型,各預測群組之甲基化指標與實際甲基化指標範圍非常符合。在一些實施例中,可在(但不限於)99%、95%、90%、85%、80%、75%、70%、65%、60%、55%、50%置信水平下表達預測值以及其他置信區間。
表2. 基於切割模式使用SVM對不同甲基化指標範圍內之單一CpG位點進行甲基化狀態預測的效能。
G. 用於確定基因組中之位點處之甲基化的方法
回歸模型 | 皮爾森 r | 中位甲基化指標(四分位數範圍) | ||
預測第1組 | 預測第2組 | 預測第3組 | ||
SVR1 | 0.73 | 0.8(0-2.1) | 52.7(51.6-53.7) | 96.7(95.8-97.4) |
SVR2 | 0.77 | 1.5(0.4-4.6) | 50.4(48.0-53.0) | 95.0(93.0-96.2) |
SVR3 | 0.74 | 4.7(0.7-10.5) | 51.5(46.5-55.5) | 93.3(89.4-95.7) |
提供使用切割信息確定基因組中之位點處之甲基化的方法。甲基化可為樣本在基因組中之位置處的特性,例如相對於參考基因組所定義。切割信息可具有各種類型,如本文所描述。可使用各種標準化,且可使用多於一個位置之切割信息。
圖27為根據本揭示案之實施例用於基於片段化確定位點處之甲基化之方法2700的流程圖。上文描述方法2700之各種實例,可部分或完全使用電腦系統執行方法2700。
在區塊2710處,分析來自個體之生物樣本之多個游離DNA分子。在本揭示案中描述之任一方法中,各種技術可用於此類分析。舉例而言,可使用定序進行分析,諸如高通量平行定序、靶向定序及單分子定序(例如,使用奈米孔定序或使用即時單分子定序(例如來自Pacific Biosciences))。示例PCR技術包括即時PCR及數字PCR(例如微滴式數字PCR)。分析可包括進行此類分析及接收自此等分析獲得之量測數據的實體步驟,或可僅包括接收量測數據。
分析游離DNA分子可包括確定參考基因組中對應於游離DNA分子之至少一個末端的基因組位置。舉例而言,可使用如熟習此項技術者將瞭解之各種比對技術中之任一者將DNA分子之一或多個序列讀段(例如末端處之成對讀段或整個分子之讀段)與參考基因組進行比對。比對可為參考基因組中之一些或全部。作為另一實例,基於探針之技術可將DNA分子鑑別為來自特定位置,例如藉由針對與特定基因組位置相對應之特定探針發射特定顏色。位置確定可針對參考基因組中之一些或全部,例如若僅分析基因組之一部分。作為實例,所分析之基因組之量可大於0.01%、0.1%、1%、5%、10%或50%。此類分析可針對本文所描述之其他方法進行。
如同本文所描述之其他方法一樣,分析多個游離DNA分子可包括量測游離DNA分子之尺寸。量測可以各種方式進行,例如使用物理分離(諸如電泳)及/或定序(諸如使用全分子定序或對讀讀段並定位)。
在區塊2720處,確定末端位於CpG位點周圍之窗內的第一位置處之游離DNA分子的第一量。第一位置可介於窗之位置-1至+1之間。舉例而言,第一量可為-1位置處之游離DNA,第一量可為0位置處之游離DNA,或第一量可為+1位置處之游離DNA。
第一量可以各種方式確定。舉例而言,當分析使用序列讀段時,區塊2720可確定與參考基因組中之CpG位點比對且終止於CG(5'末端在華特生股上左側)或終止於GC(5'末端在克里克股上右側)的讀段之數目。該量可為DNA分子之計數。作為另一實例(例如,如圖4中所描繪),可使用基於探針之技術。舉例而言,可使用對特定探針呈陽性之多個反應。作為又一實例,可使用來自特定探針之信號(例如,來自即時PCR)之強度(例如,電或光)。
可視情況在區塊2720處確定末端位於CpG位點周圍之窗內之第二位置(不同於第一位置)處的游離DNA分子的第二量。第二量可以類似於第一量之方式確定。量可為原始數目(例如,未標準化),此係因為其彼此進行比較。在其他實例中,可使用相對頻率。相對頻率之實例包括切割比率及切割密度,如可使用本文所描述之標準化技術確定。該兩個量可用於確定相對頻率,並用於後續步驟中。作為其他實例,可藉由分析相同數目之DNA分子,產生相同數目之讀段或使用相同體量之樣本(例如,指定體積(例如,毫升數))進行此類標準化或本文中提及之任何其他標準化。
第二量可為較大量之一部分。舉例而言,可確定覆蓋第一位置(例如CpG位點)之DNA分子之總數目(亦稱為深度)。此等DNA分子中之至少一些DNA分子的末端位於除第一位置以外的不同位置。因此,覆蓋第一位置之總數目可包括末端位於在CpG位點周圍之第二位置處的第二量。使用此類總數目進行標準化之技術使用第二量。因此,當第一量經標準化時,標準化可使用覆蓋CpG位點之游離DNA分子的數目。作為另一實例,標準化可使用末端位於包括CpG位點之區域內之游離DNA分子的數目。作為又一實例,標準化可使用包括CpG位點之區域中游離DNA分子之平均或中位深度。
第二位置可為量測窗內之任何位置,本文中描述示例窗。舉例而言,若第一位置為0位,則第二位置可位於CpG位點之+1或-1處。作為另一實例,量測窗可至少為CpG位點之-2至+2,且因此寬度大於5個鹼基。
在區塊2740處,使用第一量確定個體之基因組中CpG位點之甲基化的分類。視情況,亦可使用第二量。可確定位點之各種甲基化分類。舉例而言,可確定一個位點在樣本或個體中為低甲基化還是高甲基化。因此,如藉由分析樣本中之多個游離DNA分子所確定,甲基化之分類可為個體之基因組中CpG位點處於高甲基化狀態(亦稱為甲基化狀態)還是低甲基化狀態(亦稱為未甲基化狀態)。甲基化狀態可具有高於第一臨限值之甲基化密度,該第一臨限值為70%或更高。未甲基化狀態可具有低於第二臨限值之甲基化密度,該第二臨限值為30%或更少。分類可為任何甲基化程度,可定性(例如高、中或低,如可使用某些百分比臨限值定義)或定量(例如特定量,諸如百分比,其可具備給定解析度/範圍)提供。
分類以各種方式確定。舉例而言,分離值可使用第一量及第二量確定。分離值可與校準值進行比較。校準值可使用來自一或多個校準樣本且位於具有已知分類之CpG位點處的游離DNA分子確定。已知分類可使用甲基化相關分析或利用甲基化相關分析之其他分析結果來確定。校準值可為臨限值/截止值,超過或低於該臨限值/截止值,可確定特定分類。舉例而言,在圖17中,針對位置0處之切割密度約22之校準值可區分高甲基化位點與低甲基化位點。
作為分類之另一實例,位點可被鑑別為具有特定百分比或百分比範圍(例如5%、10%、15%、20%、25%、30%或更少)之甲基化程度。20%範圍之一實例為40%-60%。因此,分類可為定量值。比較分離值與校準值可包括比較分離值與校準函數,例如上文在章節E中所描述。
分類可使用除第一位置以外的至少兩個位置,例如若第一位置為位置0,則除CpG位點以外的位置。對於窗內至少兩個位置之各位置,可確定末端位於該位置之游離DNA分子的各別量。可將末端位於第一位置處之游離DNA分子的第一量與末端位於該位置處之游離DNA分子的各別量進行比較,作為確定分類之一部分。此類比較可確定位置-1至位置0處之量之間的差異及位置1處至位置0處之量之間的差異。舉例而言,圖8及17均具有自-1至0增加且自0至1減小之不同量。另外,兩個或更多個位置之此類使用可包括機器學習技術,諸如上文在章節C及D中所描述之彼等機器學習技術。
當使用機器學習技術時,特徵向量可包括各別量及第一量且作為確定分類之一部分輸入至機器學習模型中。本文所描述之任何此類機器學習模型均可使用位於具有已知分類之CpG位點處的游離DNA分子來訓練。第一位置及至少兩個位置可包括距CpG位點至少+5至-5之窗內的所有位置。如章節C.2及D中所描述,機器學習模型可使用窗內之序列背景。在一個實例中,針對窗內之序列背景訓練機器學習模型(例如,如圖21A中所示)。
在另一實例中,特徵向量可包括序列背景(例如,如圖22中所展示)。在此類實例中,特徵向量可形成矩陣,其中各列對應於股(可能兩股,華特生及克里克)之鹼基。如圖22中所示,行可在對應於鹼基之列中在相應位置處包括非零量。當特徵向量形成矩陣時,可使用CNN模型。
超過一個CpG位點可在量測窗內(例如,如圖10、14及15中所述)且均可分類。在此類情況下,CpG位點可為具有第一分類之第一CpG位點。窗可包括第二CpG位點且可包括至少兩個除第一CpG位點(例如,若第一位置為0)及第二CpG位點以外的位置。可確定末端位於第二CpG位點處之游離DNA分子的第三量。對於窗內至少兩個位置之各位置,可例如上文所描述,確定末端位於該位置之游離DNA分子的各別量。當使用機器學習時,特徵向量可包括各別量、第一量及第三量。特徵向量可作為確定第一CpG位點之分類及確定第二CpG位點之第二分類的一部分輸入至機器學習模型中。
超過一個CpG位點之甲基化分類可使用在切割位點處之第一CpG位點的第一量及第二量來確定,例如章節II.A.3中所描述。因此,一些實施例可使用第一量及第二量確定個體之基因組中不同CpG位點之甲基化的分類。不同CpG位點可位於CpG位點之5'末端下游,例如在諸如50 nt、75 nt或100 nt之指定範圍內。
IV. 基於末端基序預測區域中之甲基化
在一些實施例中,可預測區域之甲基化。甲基化之分類可與位點類似,例如分成低甲基化或高甲基化之分類或特定甲基化程度,其可為值範圍內(例如,在1%、2%、3%、4%或5%內)。可使用各種技術,包括機器學習。
A. 待分析區域之尺寸
區域可為整個基因組或基因組之特定部分,其可位於一個染色體上或跨越多個染色體。區域可由彼此分離(亦即,不相交)之不同窗構成。因此,甲基化程度可針對可在多個染色體(例如,2、3、4、5等)上之多個區域(例如,2、3、4、5、10、20、50等)整體上確定。以下第一章節分析整個基因組,而以下章節查看基因組之特定部分。
1. 整體
圖28展示根據本揭示案之實施例之CGN及NCG末端基序的甲基化指標。各點表示CGN及NCG末端基序之組內4個基序中之各者的平均甲基化指標。N表示A、C、G或T。圖28類似於圖2B之距離0及1。CGN對應於圖7中之位置0,且NCG對應於圖7中之位置-1。
該圖展示在與5'-CGN末端基序(亦即,CGA、CGT、CGC、CGG)相關之CpG位點處觀測到高甲基化指標(中位數:88%)。相比之下,在與5'-NCG末端基序(亦即,ACG、TCG、GCG、CCG)相關之CpG位點處存在低甲基化指標(中位數:69%)。在甲基化C或未甲基化C處之切割極為不同:若甲基化,則切割更可能在C處發生,而未甲基化,切割在C處發生可能性降低。若其在C處切割,則末端基序將為CGN。若其在前一個鹼基處切割,則末端基序將為NCG。
鑒於此差異,一些實施例可使用末端基序預測區域甲基化密度。舉例而言,具有更多CGN之區域將具有更高甲基化密度。具有更多NCG之區域將具有更低甲基化密度。
舉例而言,一或多個校準樣本可具有量測之甲基化程度以及CGN末端基序之量及/或NCG末端基序之量。各末端基序之量可分開使用或一起使用,例如呈兩個量之比率形式。若分開使用,則可例如使用本文中所描述之標準化技術將量標準化。量測之甲基化程度(已知分類)及一或多個量之參數可包含校準數據點,其中參數可視為校準值。此類校準更詳細地描述於其他章節中,例如術語部分及章節III.E中。
可分析新生物樣本中之游離DNA分子以確定CGN末端基序之量及/或NCG末端基序之量的參數。接著可將此參數與來自一或多個校準樣本之校準數據點相比較,校準數據點可使用校準函數(例如,與校準樣本集之校準數據點擬合的回歸函數)進行。若所量測之參數類似於校準數據點之校準值,則新樣本及先前校準樣本將具有類似的甲基化程度。校準數據點可用於訓練模型,例如線性模型、非線性模型或其他類似或更複雜的機器學習模型。
2. 選擇區域
基於圖28中之資料,假設特定基因組區域中存在之CGN及NCG基序之數目可用於預測區域甲基化密度。為此,舉例而言,確定與轉錄起始位點附近區域(亦即,TSS之±1000 bp,稱為TSS區域)重疊之彼等血漿DNA分子之CGN及NCG基序頻率及甲基化密度。藉由將序列讀段映射至彼等區域來確定分子之重疊。各TSS區域不與另一TSS區域重疊。各CpG之平均深度超過2。各區域有超過100個重疊DNA片段。
將甲基化密度超過70%之TSS區域定義為高甲基化區域(但可使用其他百分比範圍),且將甲基化密度低於30%之區域定義為低甲基化區域。排除兩者之間的區域,但可包括於其他實施例中,例如以鑑別部分甲基化之區域。亦可使用超過三個分類。計算所有低甲基化區域及高甲基化區域之CGN及NCG末端基序頻率,且藉由來自8個健康對照樣本之預期基序頻率進行標準化(中位成對讀定序讀段為3.81億(IQR:3.53-4.04億))。
該等區域可具有各種尺寸(例如,100 kb、200 kb、500 kb、1 Mb、2 Mb、3 Mb及5 Mb),其中1 Mb區域僅為實例。
B. 示例分類技術
一種示例技術使用CGN或NCG之量,或兩者之比率,可能針對任一者進行標準化。另一示例技術使用各基序(例如,各3聚體基序)之量。可使用k聚體基序之更高k值。
1. CGN或NCG
在一些實施例中,可使用CGN及/或NCG之量。該量可為所分析之游離DNA分子(例如來自所分析之區域(可為整個基因組)之DNA分子)之末端基序的3聚體組內基序之相對頻率。舉例而言,可確定所有所分析之DNA片段之所有3聚體末端基序中末端基序CGA、CGC、CGG及CGT之個別百分比的總和。可對NCG進行相同操作。各值可個別地使用或CGN及NCG之值可一起使用以確定參數,例如比率。此類百分比為一種類型之標準化。標準化之另一實例為CGN及NCG之量的比率,例如CGN/NCG、NCG/CGN、CGN/(CGN+NCG)等。此類各種比率可用於本文所揭示之使用CGN與NCG之比率的任何實施例中。在一些實施例中,此類標準化值亦可例如使用預期頻率來衡量。
在一些實施方案中,末端基序之預期頻率可基於參考基因組之區域內之參考序列,例如特定末端基序在參考基因組之區域中出現之次數來確定。精確預期頻率將視區域之序列而定且可經標準化,例如區域之尺寸可定義為區域中k聚體末端基序之總數目。預期頻率可提供關於所量測頻率是否高於預期頻率的信息,因為某些區域可能具有比其他區域更多的CpG位點。
在此分析中,可電腦模擬確定某一末端基序之預期頻率以用於調整對應末端基序之觀測頻率的權重。3 nt區間(亦即,3 nt滑動窗)用於以1 nt步長掃描所關注之區域。換言之,將3 nt滑動窗沿所關注之區域移動,每次偏移1 nt。因此,可基於3 nt滑動窗之移動生成多個3聚體基序。電腦模擬生成之彼等3聚體基序之頻率視為所關注之區域相關之末端基序的預期頻率。因此,預期頻率為隨機切割將出現之頻率。
在一個示例實施例中,某一末端基序之觀測頻率與預期頻率之比率(O/E比率)可用於下游分析。在O/E比率中,O為一組特定的一或多個k聚體末端基序的觀測頻率(亦即,經標準化之量)。頻率可經由本文中所描述之任何標準化技術來確定。舉例而言,觀測頻率可確定為具有該組特定的k聚體末端基序中之一者的片段在所有k聚體末端基序(例如,3聚體末端基序)中的百分比。
圖29展示根據本揭示案之實施例來自8個健康對照樣本之高甲基化及低甲基化區域中CGN及NCG末端基序之O/E比率。如所示,高甲基化區域中之CGN之O/E比率(中位數=2.07)高於低甲基化區域(中位數=0.99)(P值:0.00016,曼-惠特尼
U檢驗)。相比之下,低甲基化區域(中位數=0.71)中之NCG之O/E比率高於高甲基化區域(中位數=0.47)(P值:0.00016,曼-惠特尼
U檢驗)。此等數據表明使用CGN及NCG基序·將可用於推斷低甲基化或高甲基化。
此類數據可用於訓練模型,例如確定校準值(諸如用於進行二元分類之截止值/閥值或用於確定更窄定量值之值,如本文所描述)。舉例而言,當使用自CGN頻率確定之O/E比率時,值高於約1.7之截止值可指示高甲基化,如可自圖29中所確定。而值低於約1.1可指示低甲基化。當使用NCG時,值高於約0.6可指示低甲基化,而值低於約0.6可指示高甲基化。
若此類訓練數據點(校準數據點)除校準水準(亦即O/E比率)以外具有甲基化程度之特定值(不僅為高甲基化或低甲基化狀態),則此類訓練數據點可用於確定可提供輸入O/E比率之甲基化程度的校準函數(例如使用回歸)。貫穿整個本揭示案描述校準數據點之此類使用。熟習此項技術者將理解此類描述對於一種技術之適用性可適用於其他技術。
在其他實施例中,可採用CGN/NCG之比率,且此比率可藉由預期頻率之預期比率標準化。儘管書寫為CGN/NCG,但此比率可具有各種形式,諸如CGN/NCG基序比率或NCG/CGN基序比率或CGN/(CGN+NCG)或NCG/(CGN+NCG)。此類比率亦可包括此類值之函數之比率。此類變體可用於本文所描述之實施例中之任一者中。
2. k聚體之特徵向量
以上一些實例僅使用一些末端基序之量,例如僅使用所有3聚體末端基序之CGN末端基序(k聚體之k可使用其他值)。此章節描述使用所有k聚體之量。此量可形成輸入至機器學習模型之特徵向量,作為實例,其可確定二元分類或提供數值,諸如特定百分比(或等效地,十進位值)。回歸可提供此類數值。
圖30示出根據本揭示案之實施例,使用TSS區域之3聚體末端基序確定二元分類或回歸。末端基序展示在左下方。如所示,使用3聚體末端基序,但k可使用其他值,諸如1、2、4等。對於3聚體基序,特徵向量中存在64個值。對於4聚體基序,可輸入至機器學習模型之頻率向量存在256個值。
目標確定為區域之甲基化密度之分類。列出兩種方法。第一個為二元分類,其將高甲基化區域與低甲基化區域區分開來。將低及高定義為甲基化密度小於30%或超過70%。此分析中排除甲基化密度在此兩個數目之間的區域。亦使用回歸模型來定量預測準確甲基化密度,其可包括甲基化密度介於用於定義高甲基化區域及低甲基化區域之臨限值之間的區域。
圖31A-31B展示根據本揭示案之實施例的示例訓練程序。圖31A展示對單一個體之訓練且標記為單一樣本策略。訓練及測試一個樣本內之區域。選擇超過8,000個符合準則之區域。將區域劃分成隨機選擇之訓練集,而剩餘區域用作測試集。此兩組之間不存在重疊。圖31A中之技術用於生成圖32A、32B、33A、33B及36中之數據。
圖31B展示使用多名個體之訓練且標記為多個樣本策略。合併七個健康對照案例且得到超過43000個區域用於訓練。使用具有約8,000個區域之個體測試模型。圖31B中之技術用以生成圖34A、34B及38中之數據。
實施SVM以藉由使用區域5'k聚體末端基序頻率(例如,cfDNA片段之5'末端處之前三個核苷酸及總共64個類型之3聚體基序)預測TSS區域是否具有超過70%或低於30%之甲基化密度。
圖32A-32B及33A-33B展示根據本揭示案之實施例的不同k聚體基序之二元分類結果。此等結果使用一個樣本策略。觀測到預測準確度自1聚體基序至4聚體基序有所提高。自2聚基序體至3聚體基序之增加最顯著。3聚體末端基序以約0.97的AUC實現以末端基序預測區域甲基化密度。
圖34A展示根據本揭示案之實施例基於區域末端基序頻率或末端基序之O/E比率使用SVM進行區域甲基化狀態預測的效能。使用來自7個健康對照樣本的甲基化密度超過70%或低於30%之TSS區域(亦即,TSS之±1000 bp)的末端基序頻率或末端基序之O/E比率來訓練模型。使用來自一個獨立健康對照樣本之TSS區域進行關於區分基因組區域之甲基化狀態與未甲基化狀態之ROC分析。實線及虛線分別表示基於末端基序頻率及末端基序之O/E比率的模型效能。
藉由5' 3聚體末端基序頻率及5' 3聚體末端基序之O/E比率訓練的SVM模型分別達到0.97及0.94之AUC。此等資料表明,使用5'末端基序對所關注之特定地區中之甲基化密度預測提供信息。注意5'末端基序之示例使用僅為一個實例。另外或替代本文所描述之任何實施例,可使用3'末端基序。
在另一實施例中,實施支持向量回歸(SVR)以基於區域5' 3聚體末端基序頻率預測TSS區域之甲基化密度。SVR可執行多維線性回歸。使用甲基化密度之準確數目訓練該模型,且預測甲基化密度之百分比。
圖34B展示根據本揭示案之實施例基於區域末端基序頻率使用SVR進行區域甲基化密度估計之效能。使用來自7個健康對照樣本之TSS區域(亦即,TSS之±1000 bp)的區域末端基序頻率訓練模型以預測來自一個獨立健康對照樣本之TSS區域之甲基化密度。散點圖展示針對測試樣本預測甲基化密度與使用亞硫酸氫鹽定序所偵測之甲基化密度之間的相關性。
預測甲基化密度與藉由亞硫酸氫鹽定序推斷之甲基化密度高度相關(皮爾森r:0.93)。因此,資料表明,3聚體末端基序分析允許推斷所關注之基因組區域之甲基化密度。在另一實施例中,區域末端基序頻率可用於預測其他區域之甲基化密度,該等區域為諸如CpG島(CGI)、長散在核元件(LINE)、Alu重複序列、微衛星、串聯重複序列、強化子、轉座子、轉錄因子結合位點等。在另一實施例中,末端基序可涉及(但不限於)游離DNA分子之各末端處之1 nt、2 nt、3 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt及10 nt或更高。在又一實施例中,可實施其他機器學習模型,諸如決策樹、貝葉斯分類器、支持向量回歸、循環神經網路、其他基於神經網路之模型等,及其他熟習此項技術者瞭解的方法。
在一些實施例中,僅使用某些末端基序,例如對應於CGN或NCG之末端基序,或僅包括CG之末端基序(亦即,包括CGN及NCG,及甚至更大基序,視k值而定)。
C. 標準化
序列背景本身可發揮預測甲基化狀態之作用。可使用一區域之序列背景進行各種類型之標準化。標準化之示例類型可使用每區域之預期頻率(如上文所描述)或每片段之標準化。
1. 根據區域之標準化基序頻率
圖35示出根據本揭示案之實施例使用針對各基序之區域之預期頻率進行的標準化(區域標準化)。接著不同基序之標準化基序頻率可用於生成輸入至ML模型的特徵向量。
區域中給定基序之預期頻率可使用滑動窗計算,如上所描述。預期頻率可提供在隨機切割時將預期何種頻率的量度。如所示,給定區域之觀測頻率除以預期頻率,且CC之標準化值為2,指示頻率比預期高。TT之標準化頻率低於預期。此標準化可移除由序列背景引起之影響。以此方式,僅保持切割偏好之影響。
圖36展示根據本揭示案之實施例使用SVM模型進行二元分類之結果,該SVM模型使用經背景標準化(區域標準化)之末端基序。結果相對於如圖32A-33B中所示之無標準化更差。對於3聚體基序及4聚體基序,觀測到預測準確度降低。此降低可能因為序列背景具有一些信息,且藉由標準化,實際上失去此信息部分。另一原因可為,對於4聚體基序,其具有256種不同類型之多樣性。但大部分區域僅具有100種與200種類型之間的末端。因此,4聚體基序之特徵相對稀疏。較大區域可解決此類問題,因為將看到更多基序。
2. 每分子標準化基序頻率
亦研究每分子之標準化。
圖37展示根據本揭示案之實施例使用分子中之預期基序頻率基於每分子背景之標準化。片段雖然相對於參考基因組展示,但使用每分子之序列進行標準化。但例如當未進行整個片段定序且片段之兩個末端映射至參考序列時,各別分子之序列可使用參考序列來確定。參考序列可用於填充分子中未定序之部分。
所示之示例片段具有CGT之末端基序。所觀測之基序如此出現可視為1。預期基序頻率可使用片段上之3鹼基滑動窗確定,例如本文所描述。舉例而言,若片段為150 bp,則存在148種切割可能性。若彼等可能性中僅一者為CGT,則預期頻率為1/148,從而提供148之標準化基序頻率。然而,若存在CGT之五個實例,則預期頻率為5/148,標準化頻率將為29.6。以此方式,預期頻率可充當各片段之關於片段對標準化基序頻率之影響程度的權重。
圖38展示根據本揭示案之實施例的未標準化、區域標準化及每分子標準化之3聚體基序的結果。使用原始3聚體基序頻率之結果效能最佳。
D. 哪些末端提供最大區分
進行研究以發現哪些末端提供預測模型之最佳區分。
圖39展示根據本揭示案之實施例的不同2聚體末端基序之標準化頻率(使用區域標準化)的差異。Y軸展示標準化基序頻率。若切割為隨機的,則使用預期基序頻率標準化之後大約為一。觀測到CC及CG此兩個離群值。無論低甲基化還是高甲基化,均存在許多CC末端。在高甲基化區中,CC端進一步增加。
對於CG,在低甲基化區中,不存在切割偏好,因為其接近1。但在高甲基化區域中,偏好在此CG處切割。此符合本文中之其他結果。CG末端基序亦顯示低甲基化區域與高甲基化區域之間的最大差異,此與上文之結果一致。
鑒於CC及CG之標準化基序比率(頻率)之間的差異,此類比率可用於區分(分類)低甲基化區域與高甲基化區域。使用校準值之此類分類可如上文例如針對圖29所描述進行。使用區域標準化,CG末端基序提供最佳區分度。
圖40展示根據本揭示案之實施例的不同3聚體末端基序之標準化頻率(區域標準化)的差異。CGN末端基序顯示最大差異,此與上文之結果一致。同樣,查看以CC及CG開始之基序。可發現基序CA及CT在低甲基化區域及高甲基化區域中未顯示非常顯著之差異,但CC及CG基序顯示一些差異,其中CG基序顯示比CC基序更多的差異。此外,此差異與高甲基化區域具有更多CG基序量一致。
E. 確定區域中之甲基化之方法
提供使用切割信息確定基因組中之區域之甲基化的方法。甲基化可為樣本之特性或基因組中之特定區域之特性,其中可相對於參考基因組確定區域之位置。切割信息可具有如本文所描述之各種類型,例如序列末端基序。
圖41為說明根據本揭示案之實施例用於確定區域中之甲基化之方法4100的流程圖。如同本文所描述之其他方法一樣,方法4100可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。區域可在同一染色體上或在不同染色體上之不相交子區域(亦即,不連續)。
在區塊4110處,分析來自個體之生物樣本之多個游離DNA分子。區塊4110可以與區塊2710類似之方式執行,且反之亦然。如同區塊2710一樣,分析游離DNA分子可包括確定參考基因組中游離DNA分子之位置,例如當區域小於整個基因組時。多個游離DNA分子可位於參考基因組之區域中。
位置可以如本文所描述之各種方式確定,諸如比對序列讀段與參考基因組或使用基於位置之探針。基於位置之探針為序列主要或完全基於參考基因組中存在之序列的探針。因此,基於位置之探針之結合可用於指示結合DNA之基因組位置。結合DNA可為在體液中發現之游離DNA分子,例如血漿、血清、唾液、尿液、腹膜液、腦脊髓液、汗液、***(seminal fluid)、***(semen)、***分泌物、子宮頸液等。
區域可為整個參考基因組或基因組之一部分。基因組之該部分可為特定染色體之10 Mb或更小;本文提及區域之其他尺寸。多個游離DNA分子可來自參考基因組之一或多個特定區域。一或多個特定區域中之至少一者可對應於包含一或多個等位基因之特定基因型或單倍型。以此方式,可確定基因型、單倍型及特定染色體拷貝之甲基化。若個體在基因型或單倍型下具有某些甲基化程度,則此類特性可指示病變(例如經由基因組印記,更詳細地描述於本發明中其他地方)。舉例而言,某些甲基化程度(例如特定甲基化分類)可使基因靜默,此與病變相關,因為可能由疾病(例如癌症、發炎)或生理過程(例如在細胞分化期間或在發育期間,或衰老)或與生理過程相關之異常狀況/病症引起。拷貝數突變可為此類病變。實施例亦可確定生理過程之正常水準,例如監測個人之妊娠或衰老之階段,或個人之基因組印記之類型或水準。
分析可包括確定游離DNA分子之至少一個末端之末端序列基序(亦稱為末端基序)。末端基序可根據序列讀段中之最外側鹼基確定。若序列讀段僅包括一個末端而非整個DNA片段/分子(例如,作為覆蓋兩個末端之對讀讀段中之一者),則使用對應於DNA片段末端之鹼基且不使用位於片段中間之鹼基。游離DNA分子之末端可具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
在區塊4120處,確定在第一位置處具有C且在第二位置處具有G之第一組之一或多個末端序列基序的第一量(例如CGN或更多此等基序中之任一者的量)。第一組之一或多個末端基序可包括CGA、CGC、CGG及CGT中之一或多者,其中CGN表示所有。在其他實施例中,第一量可屬於在第二位置處具有C且在第三位置處具有G之第一組之一或多個末端基序(例如,NCG)。在此實例中,第一組之一或多個末端基序可包括ACG、CCG、GCG及TCG中之一或多者,其中NCG表示所有。此類示例末端基序可以如本文所描述之各種方式使用以確定用於進行分類之量及/或標準化參數(例如頻率)。可使用基於每區域或每片段之預期頻率的標準化。
區塊4120可以與區塊2720類似之方式執行。舉例而言,第一量可使用基於定序或探針之技術(諸如PCR)來確定。可對具有特定末端基序之序列讀段的量進行計數。作為另一實例(例如,如圖4中所描繪),可使用基於探針之技術。舉例而言,可使用對特定探針呈陽性之多個反應。作為另一實例,來自對特定末端基序具有特異性之探針的強度信號(例如電或光)可用於確定第一量。
在區塊4130處,藉由比較第一量與校準值來確定個體之基因組中區域之甲基化的分類。校準值可使用來自一或多個校準樣本且位於具有已知分類之區域(各自包括一或多個CpG位點)處的游離DNA分子確定。已知分類可使用甲基化相關分析或利用甲基化相關分析之其他分析結果來確定。
可確定例如用於標準化之其他量。舉例而言,當第一量使用一或多個CGN基序確定時,可確定在第二位置處具有C且在第三位置處具有G的第二組之一或多個末端基序(例如NCG)之第二量。接著確定分類可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與校準值進行比較。第二組之一或多個末端基序可包括ACG、CCG、GCG及TCG中之全部或一或多者。
量之另一實例為預期量,如上文所描述。可基於區域中之參考基因組之參考序列確定第一組之一或多個末端基序的預期量。接著,確定分類可包括將第一量用預期量進行標準化,以獲得經標準化之第一量(例如,O/E比率),將其與校準值進行比較。
作為標準化之另一實例,可確定多個游離DNA分子(例如區域中)之序列基序之總量。接著,確定分類可包括將第一量用總量進行標準化,以獲得經標準化之第一量(例如,基序比率或相對頻率),將其與校準值進行比較。
如同本文中所描述之其他技術一樣,可將多個量之特徵向量提供至機器學習模型,例如以上章節中所描述。不同量可對應於一系列末端基序,例如包括於第一組中之彼等末端基序及額外末端基序。包括於特徵向量中之此類末端基序可為針對特定k之所有k聚體或僅子集。因此,可確定在第一位置處具有C且在第二位置處具有G之各3聚體末端基序的各別量(亦即,CGN之四種量)。可生成包括各別量(其包括第一量)之特徵向量且作為確定個體之基因組中之區域的甲基化之分類的一部分輸入至機器學習模型中。機器學習模型可使用來自一或多個校準樣本之游離DNA分子來訓練。另外或替代地,特徵向量可包括在第二位置處具有C且在第三位置處具有G之各3聚體末端基序(亦即,NCG)的各別量。如上文所提及,特徵向量可包括所有3聚體末端基序之各別量。
V. 預測特定片段中之位點之甲基化
一些實施例可使用與單一血漿DNA分子相關之末端基序模式以及諸如片段尺寸及序列背景之其他特徵來預測其甲基化狀態。甲基化狀態可為完全甲基化、完全未甲基化或部分甲基化。除末端基序以外,亦可使用各種類型之信息來確定個別片段上之CpG位點的甲基化程度。
A. 輸入
圖42展示根據本揭示案之實施例用於在單分子層面下預測甲基化狀態之機器學習模型的示例工作流程。展示參考基因組4210,片段4205與之進行比對。對於各片段,展示三種類型之信息:末端基序、基因組(序列)內容及尺寸。此類信息可形成為用於建立特徵向量之各種數據結構。特徵向量之一個實例展示於圖42中。
在左側,末端基序轉化為對於各位置具有獨熱編碼之矩陣。舉例而言,末端基序為CGCA。第一鹼基為C,因此第一行對於C將為一,而其他鹼基將為零。第二鹼基為G,因此第二列之G將為一。第三鹼基為C;第四鹼基為A。因此,自5'末端對末端基序進行編碼,基於獨熱編碼規則之矩陣。使用4維向量編碼核苷酸。舉例而言,[1, 0, 0, 0]、[0, 1, 0, 0]、[0, 0, 1, 0]及[0, 0, 0, 1]分別表示A、C、G及T。因此,對於『CGCA』之末端基序,矩陣將表示為圖42中所示之格式(由特徵I表示)。末端基序可以其他方式表示,例如使用值1至4分別分配給各鹼基類型,例如A=1,C=2,G=3及G=4。
在中間,展示尺寸之使用。在此實例中,片段尺寸係基於對讀定序的序列讀段與參考基因組之比對來確定。當對整個分子進行定序時,不需要比對。標準化可例如藉由除以600來進行,因為大部分游離DNA片段小於600 bp。因此,片段尺寸可由所比對之對讀讀段之最外側基因組座標確定且藉由600 bp之因子標準化(由特徵II表示)。
在右側,基因組背景為包括二核苷酸模式之矩陣。2聚體中之第一鹼基在列上,且第二鹼基在行上。對於各特定2聚體,矩陣元素儲存彼2聚體之實例之數目的計數。因此,序列背景可編碼成包含沿著單一血漿DNA分子對二核苷酸類型之計數的矩陣。藉由2 nt滑動窗掃描單一血漿DNA分子,可確定單一血漿DNA分子之二核苷酸頻率。2維(2D)矩陣用以表達二核苷酸頻率(由特徵III表示)。舉例而言,若「AT」二核苷酸之頻率為2,則將「2」填充至「A」列及「T」行之格中。可使用其他k聚體陣列(向量、矩陣或高階張量)。對於三核苷酸模式,陣列將為三維。基因組(序列)背景亦可為整個序列。基因組背景之另一實例為GC百分比。
此等特徵中之兩者或更多者可組合(或僅單獨使用末端基序)輸入至機器學習模型以用於預測此分子是否完全甲基化或完全未甲基化,或部分甲基化。使用含有前述特徵(I、II及III)之組合特徵矩陣訓練CNN模型以判定一種DNA片段為完全甲基化還是完全未甲基化。
B. 結果
圖43A展示根據本揭示案之實施例基於末端基序、序列背景、片段尺寸使用CNN對單分子進行甲基化狀態分析的效能。可獲得以0.85之AUC區分甲基化分子與未甲基化分子之模型。結果表明使用具有來源於單一血漿DNA分子之其他特徵之片段組學特徵可使得能夠確定彼血漿DNA分子之甲基化狀態。
圖43B展示根據本揭示案之實施例基於CNN模型使用具有CGN及NCG末端基序之分子對單分子進行甲基化狀態分析的效能。因此,準確度由一組DNA片段之子集獲得。若集中於以CGN或NCG末端基序開始之彼等分子,則模型效能可顯著改良(亦即,0.85至0.94之AUC;P值<0.0001,DeLong檢驗)。因此,對具有某些基序之DNA分子子集的選擇性分析將允許在推斷單分子之甲基化狀態中增強分類能力。
CGN及NCG基序可充當DNA片段中之標籤,其能夠更準確地在個別分子層面上區分完全甲基化與完全未甲基化DNA片段。因此,基於每個片段,實施例可確定特定片段之甲基化程度。
C. 用於預測片段位點之甲基化之方法
如上文所描述,亦提供使用切割信息確定單一片段位點處之甲基化狀態的方法。切割信息可具有如本文所描述之各種類型,例如序列末端基序。
圖44為說明根據本揭示案之實施例用於預測DNA片段之甲基化之方法4400的流程圖。如同本文所描述之其他方法一樣,方法4400可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊4410處,可接收測試游離DNA分子之一或多個序列讀段。可以各種方式,例如使用針對區塊2710及4110所描述之技術,生成測試游離DNA分子。測試游離DNA分子可包括一或多個CpG位點。
在區塊4420處,使用一或多個序列讀段確定測試游離DNA分子之序列背景。序列背景之實例包括依序出現之鹼基之組合(例如,各種k聚體,亦稱為K聚體)。舉例而言,序列背景可包括K聚體矩陣,該K聚體矩陣指定測試游離DNA分子中之各K聚體之多個實例,其中K為整數。在K等於2時,K聚體矩陣為指定測試游離DNA分子中之二核苷酸對之多個實例的二核苷酸矩陣。作為另一實例,序列背景可包括來自測試游離DNA分子之各核苷酸的序列資訊(亦即,完整序列)。
在區塊4430處,使用一或多個序列讀段確定測試游離DNA分子之第一末端的第一末端基序。第一末端基序中鹼基之數目可變化。舉例而言,可使用不同k聚體。若整個分子為一個序列讀段,則最外側k鹼基可選自序列讀段之任一末端。若自兩個末端獲得兩個序列讀段,則可基於定序方法中獲得之位置信息鑑別對應於DNA分子之末端的鹼基。若使用探針,則對應於特定探針之信號提供自最外側至DNA分子之中心的排序。亦可確定測試游離DNA分子之第二末端的第二末端基序。
在區塊4440處,方法4400包括將機器學習模型裝載至電腦系統之記憶體中,該機器學習模型係使用具有甲基化狀態已知之CpG位點的訓練游離DNA分子之訓練集訓練。訓練集可包括訓練游離DNA分子之序列背景及末端基序。舉例而言,可使用甲基化定序或藉由人為使所有CpG位點均甲基化或未甲基化來確定訓練游離DNA分子之甲基化程度。舉例而言,全基因組擴增可使新合成之DNA未甲基化,且CpG甲基轉移酶(M.SssI)可使輸入DNA樣本甲基化。訓練可涉及各種技術及模型,包括集合模型。舉例而言,可使用訓練樣本之不同子集,且不同子集可用於驗證。
在區塊4450處,機器學習模型可確定測試游離DNA分子之一或多個CpG位點之甲基化程度。將測試游離DNA分子之序列背景及第一末端基序(例如,作為特徵向量之一部分)輸入至機器學習模型。此類特徵向量可使用其他特徵。舉例而言,另一末端之第二末端基序亦可輸入至機器學習模型。另一示例特徵為測試游離DNA分子之尺寸。
當測試游離DNA分子包括多個CpG位點時,甲基化程度可為多個CpG位點甲基化之百分比。作為另一實例,甲基化程度可為特定CpG位點是否甲基化。
可使用特徵向量之各種格式。舉例而言,第一末端基序可進行獨熱編碼以輸入至機器學習模型。序列背景(或基因組背景)之格式可為二維或更高維度之矩陣,例如基於用於K聚體之K值。
如上文所提及,尺寸可作為確定測試游離DNA分子之一或多個CpG位點之甲基化程度的一部分輸入至機器學習模型中。尺寸可具有多種格式,例如鹼基數目或相對於參考尺寸之比率,例如600 bp之比率。可以多種方式測定尺寸。舉例而言,當一個序列讀段跨越測試游離DNA分子時(例如,作為單分子定序之結果),可藉由對一個序列讀段中之鹼基數目進行計數來測定測試游離DNA分子之尺寸。作為另一實例,當獲得對應於測試游離DNA分子之兩個末端的兩個序列讀段(成對末端)時,尺寸可藉由將兩個序列讀段與參考基因組比對來測定。
可使用各種類型之機器學習模型,諸如卷積神經網路、循環神經網路、變換器模型(編碼器-解碼器模型)、隨機森林分類及在本揭示案中別處描述之其他模型。機器學習模型亦可為模型之組合,從而為集合模型。
VI. 5hmC富集或缺失區域之偵測
上文許多論述一般論述甲基化,而非任何特定類型之甲基化,因為其普遍適用。技術可用於偵測某一類型之甲基化。舉例而言,可使用hMe-Seal來偵測5hmC甲基化。鑑別5hmC富集(來自5hmC之甲基化比例高於其他區域)及5hmC缺失(來自5hmC之甲基化比例低於其他區域)之區域中的不同片段化。以此方式,一些實施例可偵測某一類型之甲基化比例比基因組之其他區域更高或更低的某些區域。基於切割,一些實施例可判定區域為富集還是缺失5hmC。
A. 末端基序與5hmc富集及缺失之區域之間的關係
5-羥甲基胞嘧啶(5hmC)係已與基因調節及癌症發病機制有關之重要哺乳動物DNA表觀遺傳修飾。在亞硫酸氫鹽定序中,5mC及5hmC兩者均讀取為胞嘧啶且因此無法區分。推測5hmC之存在可能改變含CG末端基序之頻率。為測試此假設,自健康個體之10個血漿DNA樣本獲得基於選擇性化學標記之5hmC定序(hMe-Seal)數據(Song等人 《細胞研究(Cell Res)》 2017; 27(10):1231-1242)。
hMe-Seal係一種使用β-葡萄糖基轉移酶(βGT)經由經疊氮化物改質之葡萄糖用生物素選擇性標記5hmC以富集含5hmC之DNA片段進行定序的方法。此類生物素可藉由一些磁珠捕捉,該等磁珠捕捉5hmC片段而非5mC。一個CpG位點周圍之定序深度愈高,表示樣本中存在之5hmC之量愈高。在整個基因組中形成『峰值』信號(較高覆蓋度)的彼等較高定序深度區域被定義為「5hmC富集區域」。藉由使用峰值識別方法(例如MACS2),鑑別10名健康個體中之38,168個共同『峰值』區域。分析4,631,823個CpG位點,藉由亞硫酸氫鹽定序,確定其在8個健康樣本(內部數據)內均甲基化。其中,25,102個CpG與5hmC富集之峰值區域重疊(稱為I組;5hmC富集區域)且3,409,329個CpG不存在於10名健康個體之任何峰值區域(稱為II組;5hmC缺失區域)。
推測I組中之彼等CpG位點將具有相對較多之5hmC修飾,而II組中之彼等CpG位點將具有相對較少之5hmC修飾。在相同8個健康血漿樣本中的此等經選擇之CpG中獲得含CG之末端基序之頻率。
為比較I組與II組之間的基序頻率,自參考基因組計算此兩個組中之含CG之基序的預期末端基序頻率用於將觀測末端基序頻率標準化。藉由觀測/預期比率(O/E比率)計算標準化值。預期頻率可如本文所描述來確定,例如藉由使用具有尺寸k(對應於所使用之k聚體末端基序)之滑動窗確定所分析之末端基序中之各者的頻率。在其他實施例中,可僅使用觀測頻率。隨後比較兩種類型區域(5hmC富集與5hmC缺失)之間的某些末端基序頻率。
圖45A-45B為展示5hmC富集區域與5hmC缺失區域之間的CGN(圖45A)及NCG(圖45B)基序之O/E比率的箱形圖。如圖45A-45B所示,相比於與II組CpG 4510(缺失)相關之cfDNA分子,I組CpG 4520(富集)相關之cfDNA分子之CGA、ACG及TCG末端基序之O/E比率明顯較高。對於CGC、CGG、CCG及GCG基序,在5hmC富集區域4520(亦即,I組CpG位點)中觀測到顯著較低之O/E比率。此等結果指示5hmC之存在將影響血漿DNA切割模式。
在上文中,展示富集和缺失5hmC之區域之間含CG基序的O/E比率不同。5hmC之存在可能改變含CG基序之頻率及含CG基序之O/E比率。含CG基序之改變可用於預測基因組區域中之5hmC的存在。
為說明預測能力,使用上文所提及之所鑑別之共同『峰值』區域(n=38,168)。接著將峰值區域之長度統一為200 bp(亦即,峰值中心+/-100 bp)且進一步選擇具有至少一個CpG位點的為NCG背景中之各者(亦即ACG、CCG、GCG、TCG)的峰值區域(n=24,221)。彼等區域在健康對照中稱為具有5hmC之區域(亦稱為5hmC富集)。
為定義健康對照中無5hmC之區域(亦稱為5hmC缺失),將參考基因組分為200 bp窗且鑑別不與具有5hmC之區域重疊且具有至少一個CpG位點為NCG背景(亦即,ACG、CCG、GCG、TCG)中之各者的窗(n=992,991)。舉例而言,合併來自8個健康對照樣本之血漿DNA的WGBS讀段,且對富集或缺失5 hmC之區域進行分類分析。最終大約有2,000個5hmC富集和2,000個5hmC缺失之含有超過20個含CG末端覆蓋之區域用於下游分析。
SVM模型係分別使用包含1,000個富集5hmC之區域及1,000個缺失5hmC之區域的數據集用含CG基序(亦即,ACG、TCG、CCG、GCG、CGA、CGT、CGC及CGG)之O/E比率來訓練。訓練模型用於分析另一獨立數據集,該資料集分別包含1,000個富集5hmC之區域及1,000個缺失5hmC之區域。
圖46A-46B展示基於5'含CG之3聚體末端基序進行5hmC預測的效能。圖46A為展示在富集5hmC之區域與缺失5hmC之區域之間存在5hmC之機率的箱形圖。圖46B為用於區分富集5hmC之區域與缺失5hmC之區域的ROC分析。如所示,富集5hmC之區域之預測機率顯著高於缺失5hmC之區域(P<0.001)。ROC分析顯示,SVM模型可達到約0.90之AUC,從而區分具有5hmC之區域與不具有5hmC之區域,亦即區分5hmC富集區域與5hmC缺失區域。
除單獨O/E比率或使用含CG基序之特徵向量(例如,上文展示之SVM模型)以外,亦可使用本文中所描述之其他技術。舉例而言,CGN/NCG比率可用於選擇末端基序,例如具有相反關係之末端基序。亦可使用末端基序頻率,可作為含CG基序之特徵向量(例如,不同3聚體末端基序之1-8個值)。該等特徵向量可用於機器學習模型中,如本文中所描述。可在未針對預期量進行標準化的情況下直接使用此類量。可使用其他標準化,例如使用特定組之末端基序(例如,CGN、NCG或兩者)或所需長度之所有末端基序(例如,3聚體或4聚體)之總量。
B. 使用末端基序偵測5hmc富集區域及5hmc缺失區域之方法
圖47為說明用於使用游離DNA分子量測個體之基因組中之區域的5hmC甲基化之方法的流程圖。如同本文所描述之其他方法一樣,方法4700可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊4710處,分析來自個體之生物樣本之多個游離DNA分子。區塊4710可以與區塊2710及區塊4110類似之方式執行。如同區塊2710及4110一樣,分析游離DNA分子可包括確定參考基因組中之游離DNA分子之位置,例如當區域小於整個基因組時。多個游離DNA分子可位於參考基因組之區域中。
分析可包括確定游離DNA分子之至少一個末端之末端序列基序(亦稱為末端基序),其可以與區塊4110類似之方式進行。末端基序可根據序列讀段中之最外側鹼基確定。若序列讀段僅包括一個末端而非整個DNA片段/分子(例如,作為覆蓋兩個末端之對讀讀段中之一者),則使用對應於DNA片段末端之鹼基而不使用位於片段中間之鹼基。游離DNA分子之末端可具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
在區塊4720處,確定在第一位置處具有C且在第二位置處具有G之第一組之一或多個末端基序的第一量(例如CGN或更多此等基序中之任一者的量)。第一組之一或多個末端基序可包括CGA、CGC、CGG及CGT中之一或多者,其中CGN表示所有。在其他實施例中,第一量可屬於在第二位置處具有C且在第三位置處具有G之第一組之一或多個末端基序(例如,NCG)。在此實例中,第一組之一或多個末端基序可包括ACG、CCG、GCG及TCG中之一或多者,其中NCG表示所有。此類示例末端基序可以如本文所描述之各種方式使用以確定用於進行分類之量及/或標準化參數(例如頻率)。可使用基於每區域或每片段之預期頻率的額外標準化。區塊4720可以與區塊2720及4120類似之方式進行。
在區塊4730處,藉由比較第一量與校準值來確定個體之基因組中區域之5hmC甲基化的分類。校準值可使用來自一或多個校準樣本且位於5hmC甲基化之水準具有已知分類之CpG位點處的游離DNA分子確定。已知分類可使用5hmC相關分析(例如,如上文所描述)或利用5hmC相關分析之其他分析結果來確定。
可確定例如用於標準化之其他量。舉例而言,當第一量使用一或多個CGN基序確定時,可確定在第二位置處具有C且在第三位置處具有G的第二組之一或多個末端基序(例如NCG)之第二量。接著確定分類可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與校準值進行比較。第二組之一或多個末端基序可包括ACG、CCG、GCG及TCG中之全部或一或多者。
量之另一實例為預期量,如上文所描述。可基於區域中之參考基因組之參考序列確定第一組之一或多個末端基序的預期量。接著,確定分類可包括將第一量用預期量進行標準化,以獲得經標準化之第一量(例如,O/E比率),將其與校準值進行比較。
作為標準化之另一實例,可確定多個游離DNA分子(例如區域中)之序列基序之總量。接著,確定分類可包括將第一量用總量進行標準化,以獲得經標準化之第一量(例如,基序比率或相對頻率),將其與校準值進行比較。
如同本文中所描述之其他技術一樣,可將多個量之特徵向量提供至機器學習模型,例如以上章節中所描述。不同量可對應於一系列末端基序,例如包括於第一組中之彼等末端基序及額外末端基序。包括於特徵向量中之此類末端基序可為針對特定k之所有k聚體或僅子集。因此,可確定在第一位置處具有C且在第二位置處具有G之各3聚體末端基序的各別量(亦即,CGN之四種量)。可生成包括各別量(其包括第一量)之特徵向量且作為確定個體之基因組中之區域的甲基化之分類的一部分輸入至機器學習模型中。機器學習模型可使用來自一或多個校準樣本之游離DNA分子來訓練。另外或替代地,特徵向量可包括在第二位置處具有C且在第三位置處具有G之各3聚體末端基序(亦即,NCG)的各別量。如上文所提及,特徵向量可包括所有3聚體基序之各別量。
VII. 臨床相關DNA之比例濃度
亦研究不同類型之組織中的片段化。分析具有組織特異性甲基化模式之區域/位點中的末端基序組CGN及NCG以及切割模式。臨床相關DNA可用於鑑別差異甲基化區域,例如獲得臨床相關DNA之特定組織的高甲基化、低甲基化、5hmc富集或5hmc缺失之區域的任何組織類型。示例組織類型包括胎兒組織、腫瘤組織或移植組織,或來自特定器官之組織,諸如肝臟組織。組織特異性等位基因可用於偵測組織特異性DNA,例如量測校準值以用於校準函數,校準函數可使用片段組學參數提供比例濃度。來自特定區域/位點之DNA片段可經由靶向技術(亦稱為富集)獲得,該等靶向技術可經由擴增某些區域或藉由自某些區域捕捉DNA來進行。富集之另外細節可見於本揭示案之其他章節中。
在本揭示案中進行對讀亞硫酸氫鹽定序(75 bp×2(亦即,成對末端定序),Illumina)。使用基於微陣列之基因分型技術(HumanOmni2.5基因分型陣列Illumina)獲得關於母體白細胞層及胎盤/絨毛膜絨毛組織樣本之基因型,且鑑別特異性SNP(亦即,其中母親為純合子的(表示為AA基因型),且胎兒為雜合子的(表示為AB基因型))。胎兒特異性DNA片段係根據在特異性SNP位點攜帶胎兒特異性等位基因之DNA片段來鑑別。在此情境下,B等位基因為胎兒特異性的,因此推斷攜帶B等位基因之DNA片段源自胎兒組織。確定攜帶胎兒特異性等位基因(B)之胎兒特異性分子(p)的數目。確定攜帶共有等位基因(A)之分子(q)的數目。所有游離DNA樣本中之胎兒DNA分數將藉由2p/(p+q)×100%計算。胎兒特異性等位基因之量在樣本間有所不同(中位數:198,248;範圍:147,614-207,735)。
A. CGN及NCG之組織特異性甲基化
因為吾人已揭露,具有CGN及NCG末端之DNA分子的數目與游離DNA分子末端處或附近之CpG之甲基化狀態相關,所以吾人進一步探索使用以CGN及/或NCG基序末端之血漿DNA分子的相對量反映甲基化模式的可能性。相對量可以各種方式量測。舉例而言,相對量可量測為比率(諸如CGN/NCG基序比率、或NCG/CGN基序比率、或CGN/(CGN+NCG)或NCG/(CGN+NCG))。亦可使用CGN或NCG與其他末端基序的比較。
作為另一實例,可量測末端為CGN之游離DNA分子相對於所分析(例如,定序)之游離DNA分子之總數目或游離DNA末端之總數目的百分比。類似地,亦可量測末端為NCG之游離DNA分子相對於所分析(例如,定序)之游離DNA分子之總數目或游離DNA末端之總數目的百分比。此外,可藉由分析相同數目之DNA分子,產生相同數目之讀段或使用相同體量之樣本(例如,指定毫升數)進行此類標準化或本文中提及之任何其他標準化。因此,若在一個操作至另一個操作之間對相同數目之DNA分子進行定序,則量可直接使用,因為已有效地進行標準化。用於標準化之此類各個選項可由本文所描述之方法中之任一者使用。
以下結果顯示,在跨越不同組織類型展現差異DNA甲基化模式之基因組區域上以CGN或NCG基序為末端之血漿DNA分子的相對量能夠確定血漿DNA分子來源之組織且確定特定類型之游離DNA分子的比例濃度。
1. 胎兒特異性等位基因之基序頻率
分析針對胎兒為高甲基化及低甲基化之區域的母體血漿樣本。針對所選區域計算所有3聚體基序,基序頻率確定為一種類型基序(例如CGN或NCG)之量/該區域之3聚體基序之總量。
圖48A及48B展示根據本揭示案之實施例的胎兒特異性高甲基化及低甲基化區域之基序頻率。視甲基化狀態而定,CGN及NCG末端基序頻率在攜帶胎兒特異性等位基因及共有等位基因之DNA分子之間有所不同。
分析來自一個處於第3產程之孕婦的胎兒特異性及共有cfDNA(定序深度:270X)。對於胎兒特異性高甲基化區域(chr3:187,767,589-187,768,381,具有9個CpG位點),胎兒特異性DNA分子之CGN末端基序之頻率為5.2%,高於攜帶胎兒及母親共有之等位基因的DNA分子(1.3%)。相比之下,胎兒特異性DNA分子之NCG末端基序之頻率為1.7%,低於攜帶胎兒及母親共有之等位基因的DNA分子(3.2%)。對於胎兒特異性低甲基化區域(chr7:25,889,274-25,890,315,具有9個CpG位點),觀測到與高甲基化區域不同的模式。胎兒特異性DNA分子相比於攜帶胎兒及母親共有之等位基因的相應DNA分子展示較低頻率之CGN末端基序但較高頻率之NCG末端基序(CGN末端基序:1.7%對比3.7%;NCG末端基序:3.3%對比0.5%)。此等結果進一步指示使用CGN及NCG末端基序頻率可提供用於預測跨越多個所關注基因組區域之甲基化改變的資訊。
此資料展示CGN及NCG與胎兒DNA之量相關。因為具有CGN之胎兒DNA末端的比率與共有等位基因DNA不同,所以末端為CGN之DNA分子的量可反映胎兒DNA之比例濃度。對於末端為NCG之DNA分子而言亦如此。此外,因為高甲基化區域與低甲基化區均出現該行為,所以可使用兩種類型之區域及CGN與NCG兩者,藉此提供四種類型之量測,或可僅執行該等類型之量測中的一者。
2. NCG與CGN之比率
為測試確定胎兒DNA之比例濃度之能力,鑑別並測試胎兒特異性位點。使用白細胞層(定序深度:75X單倍體基因組覆蓋度)及胎盤組織(定序深度:94X單倍體基因組覆蓋度)之亞硫酸氫鹽定序結果鑑別胎盤特異性高甲基化(n=188,978)及低甲基化(n=2,013,795)CpG位點。胎盤特異性高甲基化位點由在胎盤組織中甲基化密度超過70%但在白細胞層樣本中甲基化密度低於30%之彼等CpG位點定義。胎盤特異性低甲基化位點由在胎盤組織中甲基化密度低於30%但在白細胞層樣本中甲基化密度超過70%之彼等CpG位點定義。分別確定在胎盤特異性高甲基化及低甲基化CpG位點中含CGN末端基序之血漿DNA分子與含NCG末端基序之血漿DNA分子的比率。使用高通量平行成對讀定序分析總共30個懷孕女性血漿DNA樣本(對讀讀段中位數:2.06億;IQR:1.42-2.32億)。
另外,鑑別胎兒特異性等位基因,尤其單核苷酸多型性。使用具有胎兒特異性等位基因之讀段數目確定基於SNP之胎兒DNA比例。
圖49A-49B展示根據本揭示案之實施例基於源自胎盤特異性高甲基化CpG位點(圖49A)及胎盤特異性低甲基化CpG位點(圖49B)之血漿DNA分子之CGN/NCG比率與胎兒DNA比例之間的相關性。對處於不同產程之各個孕婦進行量測。數據點之形狀及顏色指示妊娠處於第一產程、第二產程或第三產程。亦可使用僅CGN或僅NCG(或此等組內之任一個末端基序)之量。
使用在末端覆蓋高甲基化或低甲基化位點之CG之序列讀段的量確定CGN之量。使用覆蓋高甲基化或低甲基化位點之末端具有NCG之序列讀段之量確定NCG之量。
如圖49A及49B中所示,來自胎盤特異性高甲基化CpG位點及低甲基化CpG位點之CGN/NCG比率分別與由胎兒特異性SNP推斷之胎兒DNA比例正相關及負相關(皮爾森r:0.90及0.86;對於兩個相關性,P值<0.0001)。資料指示,末端為CGN及NCG之血漿DNA分子的相對量(例如,CGN/NCG比率)可用於推斷血漿DNA分子來源之組織且可確定臨床相關DNA,諸如胎兒DNA、腫瘤DNA或移植DNA之游離DNA的比例濃度。
圖49A-圖49B中之線為校準函數之實例。對於針對新樣本確定之任何CGN/NCG比率,可將彼值輸入至線性函數以在胎兒DNA比例之X軸上提供輸出。此類校準函數可被視為包括校準數據點之校準值,該等校準數據點亦包括對應比例濃度。比例濃度之確定可由新CGN/NCG比率(或本文所描述之其他特徵)與已知對應比例濃度之校準值的比較。已知比例濃度可經由一些其他技術,諸如SNP分析確定。此類校準函數僅需要確定一次,因此不需要對新樣本執行此類基於SNP之分析(其可能不適用於所有情況或花費更多時間、分析及工作來鑑別SNP)。校準函數可更複雜,諸如機器學習技術(例如支持向量回歸),其仍將涉及與校準值之比較。
3. 獨立NCG或CGN
除使用CGN/NCG之比率以外,亦可獨立使用CGN及NCG。在一個實施例中,以各胎盤特異性高甲基化或低甲基化CpG位點為中心之量測窗(例如11 bp)可定義為胎盤特異性高甲基化區域及低甲基化區域。計算胎盤特異性高甲基化區域及低甲基化區域內CGN及NCG基序頻率。各區域具有一個CpG位點。基序頻率藉由將CGN或NCG之量用來自區域之末端基序之總量標準化(例如(CGN或NCG)/區域中之末端之總量)來確定。
圖50A-50B展示根據本揭示案之實施例基於源自胎盤特異性高甲基化CpG位點(圖50A)及胎盤特異性低甲基化CpG位點(圖50B)之血漿DNA 分子之NCG及CGN基序頻率與胎兒DNA比例之間的相關性。如圖50A所示,來源於胎盤特異性高甲基化區域之NCG及CGN基序之頻率分別與由胎兒特異性SNP推斷之胎兒DNA比例正相關及負相關(皮爾森r:-0.84及0.87;對於兩個相關性,P值<0.0001)。相比之下,來源於胎盤特異性低甲基化區域之NCG及CGN基序之頻率分別與由胎兒特異性SNP推斷之胎兒DNA比例正相關及負相關(圖50B;皮爾森r:0.87及-0.69;對於兩個相關性,P值<0.0001)。
CGN基序頻率定義為區域中具有CGN之末端基序之數目。NCG基序頻率定義為區域中具有NCG之末端基序之數目。此類標準化可以多種方式來進行。舉例而言,如上文所描述,可使用所分析(例如,定序)之游離DNA分子之總數目或游離DNA末端之總數目,而非僅將標準化因子限於僅僅CpG位點周圍之量測窗內的DNA。
此等圖中之各者展示可根據本揭示案之實施例(例如,如本文所描述)使用的校準函數。舉例而言,高甲基化區域之CGN基序頻率之新值可與校準值進行比較(例如,藉由將該值輸入至圖50A中右側之圖中所展示之線性校準函數中)。
4. ML模型中之低甲基化及高甲基化區域之CGN/NCG
在另一實施例中,分別來源於胎盤特異性高甲基化CpG位點及低甲基化CpG位點之CGN/NCG比率可整合在一起,作為用於機器學習之兩個獨立特徵。在其他實施方案中,個別量(例如,CGN或NCG)可用作獨立特徵。上文描述此類特徵之實例。
此類特徵可輸入至機器學習模型,該機器學習模型可確定臨床相關DNA之比例濃度。舉例而言,可使用支持向量回歸(SVR)模型,例如其可接收二(例如高甲基化及低甲基化CpG位點之CGN/NCG比率的任何變化)至四(例如高甲基化及低甲基化CpG位點之CGN及NCG量)個特徵。在其他實施例中,可使用其他演算法,包括(但不限於)線性/非線性回歸、決策樹、Lasso回歸(Lasso regression)、隨機森林、彈性網路、貝葉斯網路、支持向量機、卷積神經網路、循環神經網路、邏輯回歸等。舉例而言,可使用SVR模型來完成懷孕女性之母體血漿DNA中之胎兒DNA比例的確定。
圖51展示根據本揭示案之實施例,藉由基於SNP之方法推斷之胎兒DNA比例(x軸)與使用來自胎盤特異性高甲基化及低甲基化CpG位點之CGN/NCG比率(y軸)的相關性。在此實例中,使用SVR模型。
如圖51中所示,來自妊娠樣本的藉由CGN/NCG比率估計之胎兒DNA比例與藉由基於SNP之方法推斷之胎兒DNA比例相關(皮爾森r:0.95;P值<0.0001)。對於全部三個產程,此相關性成立。資料表明,對來自展現組織特異性低甲基化及高甲基化之區域之CGN/NCG比率的組合分析將增強血漿DNA分子來源之組織分析,例如來自胎盤組織之cfDNA佔比的確定。
圖51中所示之校準數據點為用以確定SVR校準函數之訓練資料(例如,校準數據點)的實例。此類訓練資料來自校準樣本,如本文針對其他實例所描述。圖51展示SVR校準函數之準確度。
5. 其他組織類型之實例
除胎兒/胎盤以外之其他組織類型可使用具有組織特異性甲基化狀態之基因座進行分析。舉例而言,在肝細胞、血細胞或結腸細胞中高甲基化或低甲基化之基因座可用於確定來自組織中之各者之樣本(例如血漿或血清)中的DNA片段的百分比(比例濃度/佔比)。為說明此類量測針對不同組織類型之用途,分析不同類型個體(移植及妊娠)之不同組織類型相對於健康對照的相對變化。
如上文所展示(例如,圖49A-49B),來自胎盤特異性高甲基化及低甲基化CpG之CGN/NCG基序比率與母體血漿DNA中之胎兒DNA比例高度相關。除確定比例濃度以外,給定分子在組織特異性基因座處之末端位置(例如在給定組織高甲基化或低甲基化)可用於鑑別DNA片段最可能來自之特定組織。當DNA片段在特定組織之高甲基化基因座處具有CGN基序(例如,指示甲基化之可能性)時,給定DNA片段來自特定組織之可能性較高。以此方式,可使用末端基序使樣本富集來自特定組織類型之DNA片段。
圖52展示基於血液及肝臟之組織特異性甲基化CpG之CGN/NCG基序比率分析的示意圖。圖52展示末端在血細胞中高甲基化之CpG位點5205、肝臟中高甲基化之CpG位點5215、血細胞中低甲基化之CpG位點5225及肝臟中低甲基化之CpG位點5235周圍的cfDNA片段。示意圖展示CGN/NCG基序比率分析可如何在一組在不同組織內特異性甲基化CpG中進行。
組織特異性高甲基化CpG定義為在目標組織(例如肝臟)中甲基化密度超過70%且在所分析之其餘組織中甲基化密度低於30%之CpG。組織特異性低甲基化CpG定義為在目標組織中甲基化密度低於30%且在其餘組織中甲基化密度超過70%之CpG。計算血漿DNA樣本中各組組織特異性CpG之CGN/NCG基序比率。
對於組織特異性高甲基化CpG,目標組織向血漿DNA中貢獻較多的在CpG背景中相對於『C』位點在5'切割的DNA分子,因此產生較高的CGN/NCG基序比率。彼等CpG位點上之其他組織具有相反偏好。因此,來源於彼等組織特異性高甲基化CpG位點之分子的CGN/NCG比率與由目標組織之cfDNA的數量比例成正比。相比之下,對於組織特異性低甲基化CpG,目標組織貢獻較少的在CpG中的『C』位點切割的血漿DNA分子,因此產生較低CGN/NCG基序比率。來源於彼等組織特異性低甲基化CpG位點之分子的CGN/NCG比率與由目標組織cfDNA的數量比例成反比。
由於血漿中來自血細胞之DNA之比例濃度高於來自肝臟之DNA之比例濃度,因此在血細胞特異性高甲基化基因座處之CGN/NCG比率高於在肝臟特異性高甲基化基因座處之CGN/NCG比率。此圖針對高甲基化CpG部分的底部展示此關係。反之,在血液特異性低甲基化基因座處之CGN/NCG比率低於在肝臟特異性低甲基化基因座處之CGN/NCG比率,,此圖針對低甲基化CpG部分的底部展示此關係。
舉例而言,基於白細胞層、肝臟組織、結腸組織及胎盤之亞硫酸氫鹽定序結果,鑑別對血細胞、肝臟、結腸及胎盤具有特異性之7,467、3,756、7,726及1,000個高甲基化CpG位點以及對相應組織具有特異性之40,788、19,619、93,510及631,734個低甲基化CpG位點。分別確定在彼等組織特異性高甲基化及低甲基化CpG位點中用以CGN末端基序為末端之血漿DNA分子與用含NCG末端基序之血漿DNA分子的比率。使用高通臉平行對讀定序分析來自一個健康對照案例(對讀讀段數目:3.91億)、一個肝臟移植案例(對讀讀段數目:3500萬)及一個懷孕女性(對讀讀段數目:2.38億)之血漿DNA樣本。
圖53A-53B展示來自健康對照、肝臟移植案例及妊娠案例之血漿DNA中之不同組織特異性高甲基化(圖53A)及低甲基化(圖53B)CpG的CGN/NCG基序比率。對於各組織類型(血液、結腸、肝臟及胎盤),提供三個不同個體(健康對照、肝臟移植及懷孕女性)之基序比率。基序比率之相對值顯示不同個體之各組織DNA比例的增加及減少。
如圖53A中所示,在健康對照案例下,來源於血細胞特異性高甲基化CpG位點之CGN/NCG基序比率對應於最高值,接著為肝臟,最小值來自胎盤。而肝臟移植個體肝臟DNA比例增加,而血細胞之貢獻減少。類似地,懷孕女性具有游離胎兒DNA,因此血液貢獻降低。
對於圖53B中之組織特異性低甲基化CpG位點,CGN/NCG基序比率以相反次序出現。組織特異性高甲基化CpG處之CGN/NCG基序比率較高將反映彼等相關組織特異性CpG位點處之血漿DNA之甲基化密度較高,指示彼組織之貢獻較高。組織特異性低甲基化CpG處之CGN/NCG基序比率較低將反映彼等相關組織特異性CpG位點處之血漿DNA之甲基化密度較低,指示彼組織之貢獻較高。
此等結果與血細胞為血漿中貢獻游離DNA之主要來源的概念一致(Sun等人《美國國家科學院院刊》 2015;112:E5503-5512)。在肝臟cfDNA比例為約40%之肝臟移植案例(基於SNP之方法)中,與健康對照之血漿DNA相比,來源於肝臟特異性高甲基化及低甲基化CpG位點之CGN/NCG基序比率分別展示實質性增加及減少。肝臟貢獻在健康對照中為約10%。
在胎兒cfDNA比例為約39%之妊娠案例(基於SNP之方法)中,與健康對照之血漿DNA相比,來源於胎盤特異性高甲基化及低甲基化CpG位點之CGN/NCG基序比率分別展示實質性增加及減少。在不同個體中結腸貢獻保持大約相同。
資料表明,末端為CGN及NCG之血漿DNA分子的相對量(例如CGN/NCG比率)可用於自多個組織推斷血漿DNA分子之組織來源。因此,不同組織DNA比例的相對變化(增加或減少)可使用基序比率來確定。舉例而言,健康對照之基線基序比率可用於判定特定組織DNA比例是否已顯著改變,例如藉由比較針對組織特異性基因座之基序比率之個體的新基序比率。可針對特定組織類型使用各別校準函數確定任何特定組織類型之特定比例貢獻。
B. 切割模式之特異性甲基化模式
除使用末端基序(例如CGN及NGC)之外或替代地可使用切割模式。切割模式之使用可與上文所描述類似。可確定一或多個量(例如切割比率/密度)。此類量可與如本文所描述之一或多個校準值(例如作為校準函數)一起使用,對於該等校準值為已知比例濃度的校準數據點。因此,可使用給定位置處之切割量或兩個或更多個位置之切割模式。
1. 高甲基化及低甲基化位點之切割模式
圖54A-54B展示根據本揭示案之實施例胎兒特異性甲基化反映在cfDNA片段化之切割模式上。在此圖中,黑線5405表示胎兒特異性DNA之切割模式,而灰線5410表示胎兒母體共有DNA之切割模式。圖54A展示源自胎盤特異性高甲基化CpG位點之胎兒特異性及共有DNA分子的切割模式。x軸表示相對於所關注CpG位點之位置。y軸表示平均切割比率。圖54B展示源自胎盤特異性低甲基化CpG位點之胎兒特異性及共有DNA分子的切割模式。
分別基於胎盤特異性高甲基化(n=188,978)及低甲基化(n=2,013,795)CpG位點,確定來自一個妊娠cfDNA樣本之胎兒特異性及共有血漿DNA分子之切割模式。使用白細胞層(定序深度:75X)及胎盤組織(定序深度:94X)之亞硫酸氫鹽定序結果鑑別胎盤特異性高甲基化及低甲基化CpG位點。胎盤特異性高甲基化位點由在胎盤組織中甲基化密度超過70%但在白細胞層樣本中甲基化密度低於30%之彼等CpG位點定義。胎盤特異性低甲基化位點由在胎盤組織中甲基化密度低於30%但在白細胞層樣本中甲基化密度超過70%之彼等CpG位點定義。
對於胎盤特異性高甲基化CpG位點,胎兒特異性片段在CpG位點處切割比率高於共有片段(主要為造血系統來源)。在胎盤特異性低甲基化CpG位點中,胎兒特異性片段在CpG位點處顯示低於共用片段之切割比率。此等結果表明組織特異性cfDNA甲基化差異可反映在cfDNA片段化模式上。甲基化模式可用於推斷不同組織/器官對血漿DNA池之DNA貢獻(Sun等人《美國國家科學院院刊》2015;112:E5503-5512)。因此,推測切割模式將適用於推斷不同組織對血漿DNA池之DNA貢獻,諸如懷孕女性之血漿DNA中之胎盤DNA比例。
2. SVR實施方案
使用妊娠樣本作為實例。確定胎盤特異性高甲基化及低甲基化CpG位點之切割模式。使用來自30個妊娠樣本之此類切割模式(中位對讀定序讀段:2.06億(IQR:1.42至2.32億))訓練SVR模型以基於留一法策略預測胎兒DNA比例。在其他實施方案中,SVR可使用位置0處之量(例如切割比率),可補充其他位置處之量。
圖55及56展示根據本揭示案之實施例確定無細胞樣本(例如血漿)中之胎兒DNA比例之SVR模型的標記物選擇、數據收集及訓練。使用來自白細胞層及胎盤之亞硫酸氫鹽定序數據。標記物標準與先前章節中所提及之標準相同。
關於數據收集,對個別樣本進行定序且計算各CpG位點之切割模式。對於高甲基化CG,計算合併切割模式,其為各位置之平均切割比率。對於一個位置,將來自各個位點之所有數值求平均值並得到一個數值。針對低甲基化位點進行相同操作。
對於各患者,具有兩個向量:一個來自高甲基化CG位點而另一個來自低甲基化CG位點。各向量含有11個反映各位置之平均切割比率的數值。值可使用其他數值亦可使用其他切割測量窗之寬度,如本文所描述,諸如4、5、6、7、8、9及10之寬度。對於各訓練樣本,使用胎兒特異性等位基因確定胎兒DNA比例。
使用留一法策略對SVR模型進行訓練,該策略用29個樣本訓練模型,接著預測一個樣本之胎兒DNA比例。接著,對不同的29個樣本訓練且測試另一個樣本直至三十個樣本之所有樣本已在測試集中且已預測胎兒DNA比例。比較預測胎兒DNA比例與基於SNP預測之胎兒DNA比例。
圖57展示根據本揭示案之實施例由切割模式及基於SNP之方法推斷之胎兒DNA比例之間的相關性。根據切割模式自妊娠樣本估計之胎兒DNA比例與由胎兒特異性SNP推斷之胎兒DNA比例高度相關(皮爾森r:0.97;P值<0.0001)。在各種實施例中,切割模式可用於預測其他組織之DNA比例,包括(但不限於)肝臟、腦、T細胞、B細胞、嗜中性粒細胞、肌肉、心臟、胎盤、卵巢、***、睪丸等。
組織DNA比例可為臨床相關DNA比例,例如腫瘤DNA比例。
3. 個別位點之切割模式
以上實例組合跨越CpG位點之量測且接著使用所得切割模式。舉例而言,末端位於0位置之DNA分子之量的比率可與末端位於-1或1位置之DNA分子之量(或兩者之和)相比較。亦可或替代地使用其他位置,如上文所描述。作為另一實例,切割模式可輸入至機器學習模型。
在其他實施例中,可確定各CpG位點之單獨量且分別與各校準值比較。因此,若分析N個CpG位點,則可確定N個量,各量對應於各CpG位點處之DNA片段的量。另外,可確定各CpG位點(或一些位點子集)之單獨切割模式,且可使用此等個別切割位點,例如輸入至機器學習模型。各切割模式可輸入至機器學習模型以確定彼特定CpG位點之比例濃度。這些比例濃度可求平均值(包括基於定序深度之加權平均值)。
在另一實例中,所有切割模式可同時輸入至機器學習模型。以此方式,將輸入更多特徵至機器學習模型。此類特徵矩陣之尺寸可為CpG位點之數目×量測窗中之位置數目。
在不同實例中,可確定不同CpG位點子集之各切割模式的單獨切割比率,可取個別比例濃度的平均值。
C. 使用組織特異性甲基化位點確定來自第一組織之DNA的比例濃度
來自特定組織類型之游離DNA分子(游離DNA片段)(例如臨床相關DNA)之比例濃度可以各種方式來確定。舉例而言,新樣本中末端位於一或多個CpG位點之0或-1位置處的DNA片段之量及校準數據(例如來自具有已知或藉由其他方式量測之比例濃度的校準樣本)可用於確定新樣本中之比例濃度。
圖58為根據本揭示案之實施例說明用於確定臨床相關DNA之比例濃度之方法5800的流程圖。生物樣本包含游離DNA。如同本文所描述之其他方法一樣,方法5800可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊5810處,方法5800包括分析來自個體之生物樣本之多個游離DNA分子。分析游離DNA分子可包括確定參考基因組中對應於游離DNA分子之至少一個末端的基因組位置。在區塊5810中對多個游離DNA分子中之各者的此類分析可使用本文所描述,如本文中關於其他方法所描述(諸如在區塊2710中)之任一種技術進行。在一些實施方案中,游離DNA分子之分析可包括確定游離DNA分子之至少一個末端之末端基序,其中游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
分析可以各種方式進行(例如,如本文所描述)且可包括實體步驟,該等實體步驟可由電腦控制。作為實例,可藉由定序或PCR(例如微滴式數字PCR)或質譜分析或電泳進行分析。
在區塊5820處,方法5800包括鑑別第一組之CpG位點,該等CpG位點在參考基因組中之第一組織類型皆具有第一差異甲基化。作為實例,第一差異甲基化可為第一組之CpG位點全部為低甲基化或第一組之CpG位點全部為高甲基化。其他實例為第一組之CpG位點全部為5hmC富集的或第一組之CpG位點全部為5hmC缺失的。在一些實施例中,可使用兩種類型之CpG位點,例如當各類型之量用作機器學習模型之單獨特徵時。在此類實施方案中,可鑑別第二組之另一類型CpG位點(例如若第一組為低甲基化,則該第二組為高甲基化)且針對第二組之位點確定另一量。
第一組之CpG位點可包括一或多個CpG位點,例如一個CpG位點或多個CpG位點。
在區塊5830處,方法5800包括確定末端位於第一組之CpG位點中之任一者的0或-1位置中之任一者處的游離DNA分子之第一量。此類實例對應於0位置使用CGN基序。末端位於0或-1位置之CpG位點之第一量可經進一步過濾,使得僅使用CGN基序之子集,例如CGA、CGT、CGC或CGG,或此四種末端基序之某一子集。此類組合亦可用於本文在其他章節中所描述之其他技術。可確定例如在CpG位點周圍之另一位置處的其他量,例如以確定CGN/NCG比率或切割模式。
在另一實施例中或作為確定模型之不同特徵的一部分,亦可使用對應於-1位置之NCG末端基序。舉例而言,第一組之一或多個末端基序之第一量在第二位置處具有C且在第三位置處具有G。第一組之末端基序可包括3聚體基序ACG、CCG、GCG及TCG中之一或多者。
因此,可確定第一組之一或多個末端基序的第一量。第一組之一或多個基序可在第一位置處具有C且在第二位置處具有G。作為另一實例,第一組之一或多個基序可在第二位置處具有C且在第三位置處具有G。
第一量可在與校準值進行比較之前標準化。標準化可以各種方式進行。舉例而言,標準化可使用末端位於包括CpG位點之區域內的游離DNA分子之數目(例如,上述區域標準化)。作為另一實例,標準化可使用覆蓋CpG位點之游離DNA分子之數目(例如使用定序深度,如本文所描述)。作為又一實例,標準可使用包括CpG位點之區域中游離DNA分子之平均或中位深度。
當分析超過一個CpG位點時,代替各CpG位點之單一量,可確定各CpG位點處之各別量(例如,如上文章節B.3中所述)。因此,確定第一量可包括確定末端位於第一組之CpG位點中之各者的0或-1位置處的游離DNA分子之各別量。接著,確定來自第一組織類型之DNA之比例濃度包括將各別量中之各者與各別校準值進行比較。此類各別量可用於模型之特徵向量中。因此,藉由將各別第一量作為特徵向量之一部分輸入至機器學習模型中來將各別量中之各者與各別校準值進行比較。可使用各位點之整個切割模式(參見上文B.3)。因此,對於各CpG位點,可例如藉由確定末端位於該位置處之游離DNA分子的各別量來確定切割模式(例如關於在CpG位點周圍之窗內之至少兩個位置的各位置)。至少兩個位置及CpG位點之各別量可包括於特徵向量中。
在區塊5840處,方法5800包括藉由將第一量與校準值進行比較來確定生物樣本中來自第一組織類型之DNA之比例濃度。校準值可自一或多個具有已知比例濃度之來自第一組織類型之DNA的校準樣本確定。DNA之比例濃度可具有各種解析度,例如高於或低於某一百分比或在一範圍內。此類範圍可具有各種解析度,諸如5%、10%、15%、20%、25%及30%解析度或更低。作為實例,5%解析度可對應於35%-40%。
在各種實施例中,此類技術可用於確定各種組織之DNA比例,包括(但不限於)肝臟、腦、T細胞、B細胞、嗜中性粒細胞、肌肉、心臟、胎盤、卵巢、***、睪丸、腫瘤組織(例如肝細胞癌、肺癌、大腸癌、卵巢癌)、患病組織(例如涉及發炎之組織(諸如涉及肝炎之肝臟組織、瘤周組織或其他)及具有細胞死亡增加的組織(諸如缺血或壞死組織或涉及外傷性損傷之組織),及感染一或多種傳染原(諸如病毒或細菌)之組織。
如上文所提及,可確定其他量。舉例而言,若第一量使用0位,則可確定末端位於在第一組之CpG位點中之任一者周圍的窗內的第一位置,諸如對應於NCG之-1位處之游離DNA分子的第二量。接著,確定比例濃度可包括將第一量用第二量進行標準化,以獲得經標準化之第一量(例如,CGN/NGC),將其與校準值進行比較。作為實例,第一位置可位於距一或多個CpG位點中之一者+1或-1處。作為另一實例,窗可為距CpG位點至少-2至+2,或距CpG位點至少-4至+4。
在一些實施方案中,切割模式可在例如上文所描述之窗中確定。切割模式可屬於窗中除CpG位點中之一者以外的至少兩個位置(例如第一位置)。對於窗內至少兩個位置中之各者,可確定末端位於該位置之游離DNA分子的各別量(包括第二量)。作為確定比例濃度之一部分,末端位於CpG位點之0或-1位置處之游離DNA分子的第一量可與末端位於該位置之游離DNA分子的各別量進行比較。舉例而言,可確定各別量及第一量中之各者的單獨比率。
在其他實施方案中,各別量之比較可作為機器學習模型(例如支持向量回歸)之一部分進行。舉例而言,特徵向量可包括各別量及第一量。特徵向量可輸入至機器學習模型中以確定比例濃度。機器學習模型可使用來自一或多個校準(訓練)樣本之游離DNA分子訓練,該等樣本具有已知(例如量測)之來自第一組織類型之DNA比例濃度。訓練可使用如熟習此項技術者將瞭解之各種技術來進行。
在參考基因組中針對第一組織類型而言第一組之一或多個CpG位點全部低甲基化時,可使用全部高甲基化之第二組之一或多個CpG位點(例如,如圖45-47中所描述)。可針對第一組生成第一特徵向量,且可針對第二組生成第二特徵向量。兩個特徵向量可輸入至機器學習模型中,作為確定比例濃度之一部分。在使用窗之此等示例技術中之任一者中,至少兩個位置可包括窗內之所有位置。作為實例,窗可為距CpG位點至少+2至-2,或距CpG位點至少+4至-4。
如以上章節A中所描述,可分析多個組織類型以測定比例濃度或其變化。在此類實例中,可鑑別參考基因組中針對第二組織類型而言全部低甲基化或全部高甲基化的第二組之一或多個CpG位點。可確定末端位於第二組之CpG位點中之任一者周圍之窗內的游離DNA分子的第二量。接著,可藉由比較第二量與另一校準值(例如健康對照中之基線)來確定來自生物樣本中之第二組織類型之DNA比例濃度的變化。因此,可自一或多個其他校準樣本確定另一校準值。
D. 確定多個組織之比例濃度
如上文所提及,一些實施例可進行反卷積以同時確定多個組織之比例濃度。此外,此類技術不需要鑑別在特定組織類型中高甲基化或低甲基化之位點。切割模式及/或末端基序分析可用於不同組織類型DNA比例濃度的估計。
參考矩陣A可包括一組位點(諸如CpG位點及周圍位點)之值,例如當使用切割模式時。亦可使用末端基序值。參考矩陣中之各行可對應於不同組織類型或不同模板樣本(例如具有不同組織之指定比例)。無細胞混合物(例如血漿、尿液等)中之值b的量測(量測之向量)可與A一起使用以確定各模板樣本之各組織類型的貢獻百分比x。此可藉由求解Ax=b進行。
當A中之行對應於不同組織類型時,貢獻向量x提供各組織類型之百分比。在此類實施例中,來自組織細胞之參考矩陣中之參考值可使用各種DNA核酸酶(例如DNASE1L3、DNASE1、DFFB等)製備以消化來自彼等相應組織之細胞核。舉例而言,可對來自肝臟組織之細胞核進行基於DNSE1L3之消化。分析經消化之DNA之定序數據在多個位點獲得參考值(例如切割模式及/或末端基序),以獲得cfDNA之血漿片段組學特徵以進行比較之片段組學特徵的組織特異性分析。
在另一實例中,可經由組織特異性cfDNA分子之分析生成參考。舉例而言,可使用肝臟移植案例,鑑別肝臟特異性DNA(例如使用組織特異性等位基因)且使用肝臟特異性序列讀段確定組織特異性模式。類似技術可用於其他組織。
當使用模板樣本時,各模板樣本可對應於總計100%之一組百分比。舉例而言,肝臟移植個體可用作模板,針對一組組織中之各者,具有指定百分比。其他模板可為各器官之病變,即存在用於將確定比例之各組織類型的模板。亦可使用健康個體。為確定各組織之貢獻百分比,模板之貢獻將與彼模板樣本之彼組織類型的百分比組合使用,此將針對各模板樣本進行。
VIII. 病變偵測
除確定甲基化及臨床相關DNA之比例濃度以外,使用切割模式及末端基序組(CGN及NCG)進行疾病偵測(例如癌症)。對於末端基序,進行全局分析或對特定CpG位點(例如在特定組織類型中高甲基化及/或在特定組織類型中低甲基化之位點)處之量進行分析。
亦使用特定CpG位點(例如在特定組織類型中高甲基化及/或在特定組織類型中低甲基化之位點)以及在組織當中不具有差異甲基化但針對不同等級病變具有不同切割模式之CpG位點處的切割模式。不同類型病變(例如不同類型癌症)可使用對不同類型病變(例如不同類型癌症)而言具有特異性的資訊性位點來確定。相對於使用其他末端基序(例如CCA或所有3聚體末端基序),使用CpG位點周圍之切割信息(例如,末端基序及切割模式)獲得意外準確之結果。
病毒及人類DNA用於不同技術中。示例病變包括癌症及自體免疫性疾病(例如系統性紅斑狼瘡(SLE))。病變之分類可為存在或不存在病變。在其他實例中,分類可按照病變之嚴重程度,例如本文所描述,諸如一或多個腫瘤之尺寸或一或多個腫瘤之表面積。此類嚴重程度可基於參數高於臨限值/截止值之程度或相對於來自已知具有特定嚴重度(例如癌症階段)之個體的校準程度來確定。
A. 使用CGN及/或NGC末端基序
當全基因組確定甲基化時,癌症通常為低甲基化的。此整體低甲基化描述於PCT公開案WO2014/043763中,該公開案出於所有目的以全文引用的方式併入本文中。以上圖28顯示CpG位點之片段化反映甲基化。以下分析顯示病變(諸如癌症)可使用例如在全基因組中或在基因組之重複部分上的片段化來確定。亦可針對基因組全部或大部分(例如至少10 Mb、20 Mb、50 Mb、100 Mb、500 Mb、1 Gb或更多)進行此類分析。基因組之該部分不需要為連續的,例如50 Mb可分開在不相交(亦即不連續)之五個10 Mb區域中。
1. CGN/NCG比率
全基因組CGN/NCG比率可用於反映全基因組甲基化程度且用於疾病偵測。分析6名健康對照及8名肝細胞癌(HCC)患者之整體甲基化密度,中位數為4.24億對讀亞硫酸氫鹽定序讀段(IQR:3.52-5.19億)。
圖59A-59C展示根據本揭示案之實施例說明健康對照與HCC病例之間全基因組甲基化密度(圖59A)、全基因組CGN/NCG比率(圖59B)及Alu區域之CGN/NCG比率(圖59C)之差異的箱形圖。如圖59A所示,HCC病例指示與健康對照相比顯著較低之甲基化程度(P值<0.001,威爾卡森檢驗(Wilcoxon test))。分析各患者之全基因組CGN/NCG比率且顯示與對照組相比,HCC組中顯著減少(圖59B;P值<0.001,威爾卡森秩和檢驗)。
除全基因組分析以外,假設跨越Alu區域或其他重複元件之CGN/NCG比率之變化可適用於反映甲基化之對應改變。人類基因組中超過90%之甲基化CpG位點出現在DNA重複元件中,諸如Alu及LINE-1(Zheng等人 《核酸研究(Nucleic Acids Research.)》 2017; 45:8697-8711)。ALU區域可有效地代表全基因組。亦可使用其他重複區域。作為一實例,如圖59C中所示,與對照相比,在HCC病例中Alu區域之CGN/NCG比率顯示顯著減少(P值<0.001,威爾卡森秩和檢驗)。此等結果表明,使用全基因組CGN/NCG比率使得能夠確定全基因組整體甲基化以及偵測癌症。
因此,特異性針對CGN及NCG之整體及重複序列特異性片段化模式(例如以比率或個別方式)可提供準確之疾病偵測。對於使用片段化值而言,鑑別健康與HCC係出人意料的,不需要使用甲基化相關分析。
2. CGN或NCG
亦可個別地使用CGN及NGC之末端基序。計算跨越基因組以及Alu區域之CGN及NCG基序頻率。
圖60A-60D展示根據本揭示案之實施例說明健康對照與HCC病例之間來自全基因組及Alu區域之CGN及NCG基序頻率之差異的箱形圖。如圖60A-60D所示,與對照組相比,在HCC組中來自全基因組及Alu區域之CGN頻率顯示顯著降低(P值=0.0047,威爾卡森秩和檢驗)。此外,與對照組相比,在HCC組中來自全基因組及Alu區域之NCG頻率顯著增加(全基因組,P值=0.05;Alu區域:P值=0.0019,威爾卡森秩和檢驗)。
使用比率CGN/NCG(或其變異體)可更好地鑑別,但亦可使用此等末端基序之個別量。
3. 多癌症分析
以上實例係針對HCC,但亦可偵測其他癌症。因為ALU具有更佳的鑑別度,所以使用ALU區域之CGN/NCG比率用於分析不同癌症類型。Alu區域中CGN/NCG比率之下降可協助各種癌症之偵測(亦即,泛癌症偵測)。為此,分析6名健康對照及8名HCC患者、10名頭頸部鱗狀細胞癌(HNSCC)患者、10名結直腸癌(CRC)患者、10名肺癌(LC)患者及10名NPC患者,中位數為8700萬對讀定序讀段(IQR:7300萬-1.27億)。
圖61展示根據本揭示案之實施例來自健康對照、HCC、HNSCC、CRC、LC及NPC之Alu區域CGN/NCG比率。藉由使用威爾卡森秩和檢驗計算兩組之間的P值。如圖61所示,與對照個體相比,來自癌症個體(包括但不限於HCC、HNSCC、CRC、LC及NPC)之Alu區域的CGN/NCG比率顯著較低(P值:HCC = 0.00067;HNSCC = 0.042;CRC = 0.0047;LC = 0.003;NPC = 0.042,威爾卡森秩和檢驗)因此,CGN/NCG比率可充當泛癌分析之生物標記物。針對CRC、LC及HCC,看見更佳的下降。
4. PCR-分析
PCR可用於本文所描述,例如上文在章節I中所描述之任一種技術。此類PCR分析可用於整體CGN/NCG比率以進行癌症診斷,以及量測來自特定組織類型之DNA之甲基化及比例濃度。因此,可使用數字或單分子PCR分析藉由利用重複區域,諸如Alu區域來確定CGN/NCG比率。在各個實例中,數字PCR可為微滴式數字PCR分析,或基於其他類型之分配(例如,用於進行反應之珠粒或表面(例如,玻璃上或流量槽中))的PCR。在另一實施例中,數字PCR可用例如來自Fluidigm之微流體晶片實現。
圖62展示根據本揭示案之實施例使用微滴式PCR確定所關注區域中之NCG及CGN基序的示例技術及探針之示例結構。舉例而言,圖62展示靶向DNA模板序列6220之探針6210,該DNA模板序列與接頭6230接合。PCR可使用覆蓋接頭6230與DNA模板序列6220之接合點的探針。
在所示實例中,不同探針用於CGN及NCG。以此方式,可區分NCG與CGN。作為實例,對於接合部分,探針可具有大約15 bp之尺寸。探針具有尺寸例如為7-8 bp之與接頭區域雜交之一個部分,而探針之尺寸例如為7至8 bp之另一部分與靶向Alu序列雜交。熟習此項技術者將瞭解,可使用其他用於雜交部分之尺寸。查看用於潛在實驗設計之CG探針及NCG探針,亦即,在ALU區域中的係探針之7-8 bp最多出現之序列。
圖63A-63B展示根據本揭示案之實施例用於潛在實驗設計之前10個CG探針及前10個NCG探針。分析不同組合以查看哪些探針提供最佳結果。不同組合使用來自CGN之一者及來自NCG之一者來確定比率。
使用CG探針「CGCCTGT」及NCG探針「TCGCTTGA」作為實例,使用健康對照及癌症患者中末端為「CGCCTGT」及「TCGCTTGA」之cfDNA片段的數目(使用定序結果確定)對ddPCR之潛在效能進行電腦模擬估計。應藉由dPCR分析讀取之彼等靶向之Alu區域中之CGN/NCG比率將反映為定序結果中「CGCCTGT」為末端之片段之量除以「TCGCTTGA」為末端之片段之量。電腦模擬估計使用定序數據鑑別序列,且接著選擇相應序列,如同其將使用PCR探針偵測。
圖64展示根據本揭示案之實施例,在健康對照及患有HCC、HNSCC、CRC、LC或NPC之個體中藉由利用含有Alu相關序列「CGCCTGT」及「TCGCTTGA」之探針的ddPCR分析對CGN/NCG比率之電腦模擬分析。藉由威爾卡森秩和檢驗計算兩組之間的P值。如圖64所示,與對照個體相比,來自癌症個體之CGN/NCG比率顯著較低(P值:HCC = 0.0027;HNSCC = 0.0047;CRC = 0.0005;LC = 0.001;NPC = 0.001,威爾卡森秩和檢驗)。對於所有癌症而言,分離均良好或對於一些癌症而言比針對CGN/NCG比率使用定序3聚體更佳,如上文所示。
圖65A-65E展示根據本揭示案之實施例,使用藉由電腦模擬ddPCR分析獲得之CGN/NCG比率區分患有HCC、HNSCC、CRC、LC或NPC之患者與健康對照的ROC分析。該分析使用與圖64中所用相同的兩個序列。自可藉由dPCR分析之靶向Alu區域推斷的CGN/NCG比率能夠區分HCC(AUC:0.96)、HNSCC(AUC:0.92)、CRC(AUC:0.98)、LC(AUC:0.97)及NPC(AUC:0.97)與健康對照。相對於針對HCC使用所有3聚體基序,在先前工作中提供0.872,ROC使用此等特異性末端基序意外的好。
具有不同尺寸及/或複合之探針可用於癌症偵測。靶向諸如LINE-1之其他所關注區域的探針可用於癌症偵測及監測。在其他實例中,質譜分析(例如,使用飛行時間質譜儀)可用於偵測含有DNA分子之反應產物。
另一實例可使用qPCR(即時PCR)自特定區域偵測CGN及NCG頻率。
圖66展示使用qPCR確定所關注區域中之NCG及CGN基序的示例方法。該方法類似於圖4中所描述之方法,因此關於圖4之描述可應用於此技術。如所示,游離DNA分子可經歷DNA末端配對、A加尾及接頭接合,步驟視情況選用之。可以如下方式設計一對PCR引物:一個引物(例如共同正向引物6645)可結合於共同接頭區域6615且另一個引物(例如區域特異性反向引物6650)結合於所關注之特定區域。DNA分子將藉由一對PCR引物擴增且水解對某一末端基序(諸如CGN或NCG末端基序)具有特異性之螢光探針以發射螢光信號,因此能夠偵測特定基序之存在以及定量特定基序。
圖67A-67C展示用於設計引物及探針之實例。擴增範圍(亦即在兩個引物之間)可為重複區域,包括(但不限於)LINE(長穿插元件)及SIN(短穿插元件)。出於說明目的,設計靶向Alu元件(一種類型SINE)之共有序列的反向引物(亦即,CCACTGCACTCCAGCCTG)(圖67A)。連同靶向所添加之共同接頭的正向引物一起,此對引物可用於擴增在cfDNA之5'末端處保留末端基序的Alu區域。兩個探針雜交位點(亦即CGCCTGT及TCGCTTGA)係選自所關注之Alu共有序列(亦即在反向引物之前200 bp)(圖67A)。連同來自共同接頭之12 nt序列一起,設計CGN探針(亦即,CTCTTCCGATCTCGCCTGT)及NCG探針(亦即,CTCTTCCGATCT TCGCTTGA)(圖67B)。
為測試此等探針之特異性,基於cfDNA之定序讀段確定全基因組中可能之雜交位點。如圖67C所示,大部分探針雜交位點位於Alu區域內,僅約0.3%偏離目標。因此,此兩個探針可提供良好覆蓋度且提供如下文所解釋之良好結果。
在一個機械片段化之gDNA樣本、一個健康對照cfDNA樣本及一個早期HCC cfDNA樣本中測試此類基於PCR之方法。對於qPCR測試,CGN/NCG基序比率之相對變化倍數基於由qPCR分析確定之CT值來計算。
圖68A-68B展示來自qPCR(68A)及ddPCR(68B)之測試結果。gDNA表示機械片段化之gDNA樣本且用作qPCR分析中之對照。相對於機械片段化之gDNA樣本,CGN/NCG基序比率之變化倍數基於由對照(亦即,片段化gDNA樣本)(CT
CGN對照)及測試樣本(CT
CGN測試)之CGN探針及對照(CT
NCG對照)及測試樣本(CT
NCG測試)之NCG探針確定的CT值如下計算。
對於ddPCR測試,CGN/NCG基序比率計算為CGN探針陽性微滴之量除以NCG探針陽性微滴之量。
隨著gDNA樣本機械剪切至200 bp,gDNA樣本中存在之末端基序傾向於隨機(亦即CGN/NCG基序比率接近1)。在健康對照cfDNA樣本中,因為Alu區域通常係高甲基化的,所以CGN末端基序比NCG末端基序(亦即,CGN/NCG基序比率>1)多。實際上,在qPCR及ddPCR之兩個測試結果中,健康對照cfDNA樣本顯示實質上比機械片段化之gDNA高的CGN/NCG基序比率。此外,在qPCR及ddPCR測試結果中,來自HCC cfDNA樣本之CGN/NCG基序比率低於來自健康對照cfDNA之CGN/NCG基序比率,此反映HCC樣本中之甲基化程度降低(亦即低甲基化)。
腫瘤來源之DNA比主要為造血來源之背景DNA短。對應於CGN探針之擴增子尺寸長於對應於NCG探針之擴增子尺寸,因為CGN探針與反向引物相距86 nt,而NCG探針僅45 nt。因此,相對於癌症患者中之CGN探針,對應於NCG探針之擴增子將增加,因為在同一片段上存在NCG探針及反向引物兩者之可能性較高,亦即,因為距離較短。結果為歸因於尺寸特性之CGN/NCG基序比率之額外降低。因此,靶向Alu區域之CGN/NCG基序比率可以協同方式增強與關於腫瘤來源之DNA分子之低甲基化及尺寸縮短相關的癌症信號,此將使得癌症偵測、監測及預後之效能更高。
5. 特定尺寸之片段之末端基序
在一些實施例中,可使用長讀段定序技術進行本發明中所描述之甲基化相關片段化分析,該等技術包括(但不限於)奈米孔定序(例如,Oxford Nanopore Technologies)及單分子即時定序(例如,Pacific Biosciences)。使用單分子即時定序(Pacific Biosciences),對來自15名健康個體之血漿DNA樣本進行定序(中位讀段:970,633;IQR:407,695-1,399,709)。基於來自8名健康個體之血漿DNA樣本之亞硫酸氫鹽定序鑑別血漿中之推定高甲基化(4,631,823)及低甲基化(307,831)CpG。推定高甲基化CpG定義為在所有情況下甲基化密度超過70%之CpG。推定低甲基化CpG定義為在所有情況下甲基化密度低於30%之CpG。藉由合併來自此等健康個體之所有單分子即時定序讀段來分析血漿中推定高甲基化及低甲基化CpG之CGN/NCG基序比率。
圖69A-69B展示自健康個體合集之彼等單分子即時定序讀段在不同尺寸範圍內的推定高甲基化及低甲基化CpG中的CGN/NCG基序比率。如圖69A所示,推定高甲基化CpG之CGN/NCG基序比率隨cfDNA片段尺寸增加而下降。如圖69B所示,推定低甲基化CpG之CGN/NCG基序比率在尺寸範圍<=1000 bp下隨cfDNA片段尺寸增加而下降,而該值在尺寸範圍> 1000 bp下隨cfDNA片段尺寸增加而增加。
圖69A-69B表明,當尺寸範圍不同時,切割偏好不同。對於長分子,高甲基化及低甲基化CpG位點之CGN/NCG基序比率比尺寸低於200時更接近。因此,研究分析某一尺寸範圍之DNA片段是否可提高準確度。
為說明在甲基化相關片段化分析期間考慮片段尺寸的有用性,出於說明之目的,使用單分子即時定序(Pacific Biosciences)對來自15名健康個體、13名慢性HBV感染患者(HBV攜帶者)及45名HCC患者之血漿DNA進行定序。在一個實施例中,分別使用短(<=200 bp)及長(>=1000 bp)血漿cfDNA分子,計算健康個體、HBV及HCC病例中之總體CGN/NCG基序比率。可使用除200 bp以外的短分子截止值之其他值,諸如150 bp、175 bp、225 bp及250 bp。除1000 bp以外,可使用長分子截止值之其他值,諸如6000 bp、700 bp、800 bp、900 bp、1,110 bp、1,500 bp及2,000 bp。
圖70A-70C為展示健康個體(健康)、HBV攜帶者(HBV)及HCC病例中短cfDNA片段(<=200 bp;70A)及長cfDNA片段(>=1000 bp;70B)之總體CGN/NCG基序比率及短cfDNA片段(<=200 bp)與長cfDNA片段(>=1000 bp)之間CGN/NCG基序比率差異(70C)的箱形圖。由於HCC整體低甲基化,故短DNA片段中HCC病例之總體CGN/NCG基序比率顯著低於健康及HBV個體(圖70A)。同時對於長DNA片段,與健康及HBV個體相比,HCC患者展示更高的總體CGN/NCG基序比率(圖70B)。
在一些實施例中,可一起使用具有CGN或NCG之短DNA片段的第一量(或其比率)及具有CGN或NCG之長DNA片段的第二量(或其比率)。兩個比率之間的分離值(例如差值或比率)之使用可提高準確度,例如因為短DNA片段及長DNA片段在相反方向上變化。作為另一實例,第一量及第二量可用作機器學習模型之輸入(對於短及長DNA片段兩者,可能為CGN及NCG之四個量),該機器學習模型為諸如決策樹、SVM、回歸或神經網路。
因此,具有不同長度之cfDNA片段的基序比率可經由(但不限於)計算短cfDNA片段與長cfDNA片段之CGN/NCG基序比率之間的差值或比率來組合。如圖70C,與非HCC個體相比,HCC個體中之短cfDNA片段與長cfDNA片段之間的CGN/NCG基序比率差值顯著較低。
圖71A-71B展示基於CGN/NCG基序比率與尺寸資訊進行HCC偵測的效能。圖71A展示使用短cfDNA片段(<=200 bp)及長cfDNA片段(>=1000 bp)之總體CGN/NCG基序比率及短(<=200 bp)及長cfDNA片段(>=1000 bp)之間的CGN/NCG基序比率差值區分HCC與非HCC(健康及HBV個體)的ROC分析(組合分析)。圖71B展示使用短cfDNA片段(<=200 bp)及長cfDNA片段(>=1000 bp)之總體CGN/NCG基序比率及短(<=200 bp)及長cfDNA片段(>=1000 bp)之間的CGN/NCG基序比率差值區分HCC與HBV的ROC分析(組合分析)。
來源於短DNA之CGN/NCG基序比率量度的使用產生0.89之AUC用於區分HCC病例與非HCC例(健康及HBV個體;圖71A),及0.79之AUC用於區分HCC與HBV攜帶者(圖71B)。來源於長DNA之CGN/NCG基序比率量度的使用產生0.72之AUC用於區分HCC病例與非HCC例(健康及HBV個體;圖71A),及0.79之AUC用於區分HCC與HBV個體(圖71B)。
可實現0.95之AUC用於區分HCC病例與非HCC案例(健康個體及HBV攜帶者;圖71A)及0.90之AUC用於區分HCC與HBV個體(圖71B)。此類效能優於單獨使用短或長cfDNA片段之對應AUC值。在另一實施例中,短cfDNA片段可定義為長度低於(但不限於)50 bp、60 bp、70 bp、80 bp、90 bp、100 bp、200 bp、300 bp、400 bp、500 bp、600 bp、1000 bp等之cfDNA片段,而長cfDNA片段可定義為長度高於(但不限於)300 bp、400 bp、500 bp、600 bp、700 bp、800 bp、900 bp、1000 bp、2000 bp、3000 bp、4000 bp、5000 bp等之cfDNA片段。在又一實施例中,具有不同尺寸之cfDNA片段可自Illumina定序平台、長讀段定序技術或其他平台獲得。質量亦可代替長度用作尺寸之量度。
6. 使用CGN及/或NGC末端基序之方法
病變可以各種方式確定。舉例而言,新樣本中末端位於CpG位點(例如,CGN末端基序或其子集)之DNA片段的量。該量可使用特定尺寸範圍內之一組DNA片段來確定。分類可使用各種模型來確定,諸如一個量與臨限值、截止值或參考值之比較或機器學習模型。此類模型可使用具有已知或量測之分類之參考/校準樣本(例如經由使用不同技術)來訓練。如同其他模型之訓練,可選擇不同準確度目標,例如在靈敏度與特異性之間進行所需權衡。此類訓練可針對本文中所描述之其他技術進行。
圖72為說明根據本揭示案之實施例用於確定病變等級之方法7200的流程圖。生物樣本包括游離DNA。如同本文所描述之其他方法一樣,方法7200可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊7210處,方法7200包括分析來自生物樣本之多個游離DNA分子以獲得序列讀段。序列讀段可包括對應於多個游離DNA分子之末端的末端序列。區塊7210可以與區塊2710及本文所描述之其他分析步驟類似之方式執行。在一些實施方案中,例如當分析具有小於整個基因組之區域時,分析游離DNA分子可包括測定參考基因組中游離DNA分子之位置。此類區域可為染色體。多個游離DNA分子可位於參考基因組之區域中。位置可以如本文所描述之各種方式確定,諸如比對序列讀段與參考基因組或使用基於位置之探針。
在區塊7220處,方法7200包括對於多個游離DNA分子中之各者,確定游離DNA分子之一或多個末端中之各者的序列基序。區塊7220可經由本文中所描述之任一種技術實施以例如經由定序或基於探針之技術(包括PCR)確定末端基序。區塊7220可以與區塊4120類似之方式執行。末端基序可根據序列讀段中之最外側鹼基確定。若序列讀段僅包括一個末端而非整個DNA片段/分子(例如,作為覆蓋兩個末端之成對讀段中之一者),則使用對應於DNA片段末端之鹼基且不使用位於片段中間之鹼基。游離DNA分子之末端可具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
在區塊7230處,方法7200包括確定在第一位置處具有C且在第二位置處具有G之第一組之一或多個末端基序第一量(例如CGN或更多此等基序中之任一者的量)。舉例而言,第一組之一或多個末端基序可包括CGA、CGC、CGG及CGT中之一或多者,其中CGN表示第三位置處為任何核苷酸。第一量可以各種方式標準化。
在其他實施例中,第一量可屬於在第二位置處具有C且在第三位置處具有G之第一組之一或多個末端基序(例如,NCG)。在此實例中,第一組之一或多個末端基序可包括ACG、CCG、GCG及TCG中之一或多者,其中NCG表示所有。此類示例末端基序可以如本文所描述之各種方式使用以確定用於進行分類之量及/或標準化參數。區塊7230可以與區塊2730及本文所描述之類似步驟類似之方式執行。
可確定及使用其他量,例如其他末端基序,諸如NCG,以確定CGN/NCG比率。因此,當第一量使用CGN時,可確定在第二位置處具有C且在第三位置處具有G之第二組之末端基序的第二量,該等末端基序對應於NCG或其任何子集。接著分類可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與參考值進行比較。作為另一實例,可確定基序之總量(例如,在一或多個特定區域中)且用於標準化。經標準化之第一量(例如基序比率或相對頻率)可再次與參考值進行比較。
作為標準化之另一實例,可確定多個游離DNA分子(例如區域中)之基序之總量。隨後,確定分類可包括將第一量用總量標準化,以獲得經標準化之第一量(例如基序比率或相對頻率),將其與參考值進行比較。
在區塊7240處,方法7200包括基於第一量與參考值之比較來確定個體之病變之等級的分類。參考值可作為訓練模型之一部分,例如使用具有已知分類之參考樣本來確定。與參考值之比較可以各種方式進行,例如與參考值直接比較,其中高於或低於之值指示不同分類。作為另一實例,可經由機器學習模型進行比較。
如上文所提及,多個游離DNA分子可來自參考基因組之一或多個特定區域。病變可在此一或多個特定區域中。舉例而言,一或多個特定區域中之至少一者對應於包含一或多個等位基因之特定基因型或單倍型。若個體在基因型或單倍型下具有一定量的某些末端基序(例如CGN及NCG)之片段化,則此類特性可指示由疾病(例如癌症或發炎)或生理過程或與生理過程有關之異常狀況/病症(例如經由衰老或發育過程或基因組印記,在本揭示案中別處更詳細地描述)引起的病變的等級。拷貝數突變可為此類病變。實施例亦可確定生理過程之正常水準,例如監測個人之妊娠、衰老之階段,或個人之基因組印記之類型或水準。
如同本文中所描述之其他技術一樣,可將多個量之特徵向量提供至機器學習模型,例如以上章節中所描述。不同量可對應於一系列末端基序,例如包括於第一組中之彼等末端基序及額外末端基序。包括於特徵向量中之此類末端基序可為針對特定k之所有k聚體或僅子集。因此,可確定在第一位置處具有C且在第二位置處具有G之各3聚體末端基序的各別量(亦即,四種量)。可生成包括各別量(其包括第一量)之特徵向量且接著輸入至機器學習模型中,作為確定個體之病變等級(例如生理過程之異常水準)之分類的一部分。另外或替代地,特徵向量可包括在第二位置處具有C且在第三位置處具有G之各3聚體末端基序的各別量。
游離DNA分子之分析可包括量測游離DNA分子之尺寸。接著可確定在第一尺寸範圍內之第一組游離DNA分子的第一量,例如章節5中所描述。作為實例,第一尺寸範圍可對應於小於尺寸截止值之尺寸或對應於大於第一尺寸截止值之尺寸。
當第一範圍大於第一尺寸截止值時,可確定在第二不同尺寸範圍內之第二組游離DNA分子的第二量,例如對應於小於第二尺寸截止值之尺寸。第二量可具有如上文所描述之CGN或NCG之一或多個末端基序。接著可使用第一量及第二量確定分類。當CGN用於長片段及短片段時,可使用第三量之NCG長DNA片段及第四量之NCG短DNA片段,例如使用第一尺寸截止及第二尺寸截止所定義。作為實例,分類可使用第一量與第二量之比率,可使用第一量與第二量之差值,或可使用接收第一量及第二量作為單獨輸入之機器學習模型。
B. 組織特異性低甲基化或高甲基化區域/位點
一般除分析CGN及NCG(例如,總體或在大部分基因組上)之外,亦可分析某些位點。舉例而言,可分析特定組織之高甲基化及/或低甲基化位點。此類分析可確定是否存在特定類型之癌症(例如組織來源/根源)。作為實例,區域之尺寸可為至少2 bp、10 bp、100 bp、200 bp、500 bp、1 kb、2 kb、3 kb、4 kb、5 kb、10 kb、50 kb、100 kb、500 kb、1 Mb等。來自特定區域/位點之DNA片段可經由靶向技術(亦稱為富集)獲得,該等靶向技術可經由擴增某些區域或藉由自某些區域捕捉DNA來進行。富集之另外細節可見於本揭示案之其他章節中。
分析HCC患者之樣本。鑑別肝臟與嗜中性粒細胞(最常見白血球)之間的差異甲基化區域,其表示血細胞DNA之背景。區域各自長度為500 bp。以此方式,獲得與嗜中性粒細胞相比之肝臟特異性高甲基化區域及肝臟特異性低甲基化區域。視區域之尺寸而定,差異甲基化區域可包括一或多個CpG位點。
對於在疾病與對照組之間酶(例如,DNASE1L3)活性相當時的肝臟高甲基化區域,肝癌病人CGN末端基序之量應增加,且NCG末端基序之量應降低。因此,CGN/NCG比率應增加。但若酶活性下調,則此類比率可能降低。對於肝臟低甲基化區域,肝癌病人CGN之量應降低,且NCG之量應增加。因此,CGN/NCG比率應下降。
在疾病與對照組之間酶(例如,DNASE1L3)活性相當時,HCC個體之肝細胞對血漿DNA佔比高於健康個體。自肝臟高甲基化區域中,預期相對於健康個體CGN增加及NCG降低。在肝臟低甲基化區域中,預期CGN降低且NCG增加。此將引起高甲基化區域中之CGN/NCG比率增加,但低甲基化區域中之CGN/NCG比率下降。
另外,來自肝臟或HCC特異性低甲基化區域之切割模式或其他甲基化相關cfDNA片段組學特徵可用於HCC偵測。且來自其他組織特異性低甲基化或高甲基化區域之甲基化相關cfDNA片段組學特徵可用於偵測其他癌症。舉例而言,來自結腸特異性、***特異性或***特異性低甲基化或高甲基化區域之甲基化相關cfDNA片段組學特徵可分別用於大腸癌、乳癌或***癌診斷。可自靶向定序結果推斷來自特定區域之此類甲基化相關cfDNA片段組學特徵。靶向定序可基於(但不限於)基於探針之雜交、基於擴增子之定序、免疫沉澱隨後定序等。
1. CGN及/或NCG
來自組織特異性低甲基化或高甲基化之末端基序頻率用於偵測及監測諸如癌症之疾病。分析8名健康對照、17名慢性B型肝炎(HBV)患者及34名肝細胞癌(HCC)患者,中位數為4.83億對讀定序讀段(IQR:3.95-5.49億)。
圖73A及73B展示根據本揭示案之實施例基於來自肝臟特異性高甲基化及低甲基化區域之CGN/NCG基序比率進行HCC偵測的效能。圖73A為顯示來自健康對照(CTR)、慢性B型肝炎患者(HBV)及肝癌(HCC)患者之肝臟特異性高甲基化及低甲基化區域之CGN/NCG基序比率的箱形圖。圖73B為分別使用來自肝臟特異性低甲基化及高甲基化區域之CGN/NCG基序比率區分患有HCC與未患HCC之患者的ROC分析。
比較HCC個體與非HCC個體,跨越肝臟特異性低甲基化區域觀測到顯著較高的CGN/NCG基序比率(亦即,CGN基序頻率/NCG基序頻率)(P值<0.001,克魯斯卡爾-沃利斯檢驗(Kruskal-Wallis test)),而在肝臟特異性高甲基化區域未觀測到顯著差異。來自肝臟特異性低甲基化區域之CGN/NCG基序比率可充當HCC之生物標記物,允許以0.85之AUC偵測HCC患者(P值=0.003,DeLong檢驗)。
此等結果表明,在肝臟特異性低甲基化下與CpG位點相關之CGN/NCG基序比率顯示比肝臟特異性高甲基化更好的區分HCC患者與非HCC個體之能力。癌症偵測之此類增強係因為對來自低甲基化區域之CGN/NCG基序比率的選擇性分析可使由DNA甲基化引起之特徵cfDNA切割與下調DNASE活性發生協同作用(例如,表觀遺傳改變及DNASE活性改變均引起CGN/NCG基序比率)。
2. 使用各別3聚體或更高基序之向量
由於肝臟特異性低甲基化區域可含有更多資訊,因此進一步使用此區域之所有3聚體基序來訓練SVM模型。因此,特徵向量具有在低甲基化區域中出現之3聚體中之各者之量的64個值。可使用例如本文中所描述之其他機器學習模型。
圖74A及74B展示根據本揭示案之實施例基於來自肝臟特異性低甲基化區域之3聚體末端基序頻率使用SVM進行HCC診斷的效能。圖74A為顯示藉由與肝臟特異性低甲基化區域相關之彼等血漿DNA分子的3聚體末端基序頻率確定HCC之機率的箱形圖(CTR:健康對照;HBV:慢性B型肝炎患者;HCC:HCC患者)。圖74B為使用來自肝臟特異性低甲基化區域之3聚體末端基序頻率區分患有HCC與未患HCC之患者的ROC分析。3聚體末端基序頻率可確定為特定末端基序之量除以所偵測或使用之DNA片段之總數或末端基序之總數。
為進一步使來自肝臟特異性低甲基化區域之末端基序的效用最大化,使用來自肝臟特異性低甲基化區域之5'3聚體末端基序建構SVM模型來進行HCC偵測。模型效能可達到約0.91之AUC以區分HCC或非HCC。
因此,來自組織特異性低甲基化或高甲基化之末端基序頻率可用於偵測及監測諸如癌症之疾病。舉例而言,自肝臟特異性低甲基化區域,使用所有5' 3聚體末端基序建構SVM模型來進行HCC偵測。然而,可使用少於所有64個3聚體末端基序。舉例而言,可僅使用八個包括CG之基序。與使用所有64個末端基序相比,此八個3聚體基序意外地提高準確度。此八個基序具體為CGA、CGT、CGC、CGC、ACG、TCG、CCG及GCG。亦可使用末端基序之其他子集,例如不包括CG之子集。
進一步藉由使用含CG之3聚體末端基序(總共8種類型之末端基序)測試HCC偵測之可能性,代替使用所有64種類型之3聚體末端基序。基於白細胞層及HCC組織之亞硫酸氫鹽定序結果,分別鑑別116,245及802,393個HCC特異性高甲基化及低甲基化CpG。
在各種實施方案中,可使用可經標準化(例如,作為頻率)之CGN及/或NCG量中之任一或多者。頻率可以各種方式確定。舉例而言,標準化可如在使用所有64個末端基序時所進行般進行。作為另一實例,標準化可在末端基序之子集內進行,例如藉由該子集內之末端基序之數目標準化。在一個實施方案中,使用NCG相關數據向量、CGN相關數據向量及合併的數據向量(亦即,含CG之末端基序之數據向量),其可分別自55個非HCC及34個HCC案例之HCC特異性高甲基化及低甲基化CpG獲得。
在NCG相關數據向量中,僅使用NCG基序頻率。舉例而言,ACG之頻率計算為ACG基序之量/NCG基序之總量。ACG、TCG、CCG及GCG頻率之和為100%。將類似計算應用於CGN相關數據向量。舉例而言,CGA之頻率計算為CGA基序之數目/CGN基序之總量。CGA、CGT、CGC及CGG頻率之和為100%。計算所有CGN及NCG基序之合併的數據向量。舉例而言,CGA之頻率計算為CGA基序之數目/CGN及NCG基序之總量。ACG、TCG、CCG、GCG、CGA、CGT、CGC及CGG頻率之和為100%。此等資料集分別用於建構支持向量機(SVM)模型。
圖75A-75B展示基於來自HCC特異性高甲基化及低甲基化CpG之含CG之3聚體末端基序進行HCC偵測的效能。如圖75A所示,基於來自HCC特異性高甲基化CpG之NCG相關數據向量、CGN相關數據向量及合併的數據向量訓練的SVM模型分別達到0.85、0.89及0.98之AUC以區分HCC患者與非HCC案例。如圖75B所示,對於HCC特異性低甲基化CpG,彼等模型分別達到0.94、0.90及0.98之AUC。NCG相關數據向量及合併的數據向量比圖74B中之準確度效能更佳。
一些實施例可組合來自高甲基化及低甲基化位點之特徵向量,用於訓練機器學習模型,例如SVM。
圖76展示使用來自HCC特異性高甲基化及低甲基化CpG之組合資料向量區分患有HCC與未患HCC之患者的ROC分析。為進一步使來自HCC特異性甲基化CpG之末端基序的效用最大化,整合來自HCC特異性高甲基化及低甲基化CpG之合併的數據向量且將其用於訓練SVM模型,其達到0.99之AUC以區分HCC患者與非HCC案例。
3. 使用切割模式
亦研究來自組織特異性高甲基化及低甲基化CpG位點之切割模式是否可用於偵測具有病理或生理狀態之個體。如上文所解釋,切割模式包括兩個或更多個包括CGN之末端基序之位置,例如一個為位置0。
a) 示例工作流程
出於說明目的,將妊娠用作模型。妊娠可視為或類似於病理或生理狀態,因為具有與宿主不同之特性的另一組織類型正在生長。舉例而言,胎兒及腫瘤均為總體低甲基化的,以及某些位點高甲基化,例如腫瘤抑制基因。因此,若個體可正確地歸類為懷有胎兒,其中此類組織具有特定甲基化模式,則實施例亦可用於使用低甲基化或高甲基化CpG位點偵測與其他組織類型相關之病變。其他分析可為一組CpG位點(例如CpG島)。區域可為或包括此類一或多個CpG位點。
圖77展示根據本揭示案之實施例的示例標記物選擇及資料收集。鑑別胎盤特異性高甲基化位點,其由在胎盤組織中甲基化密度超過70%但在白細胞層樣本中甲基化密度低於30%之彼等CpG位點定義。在其他實施例中,可改變此等甲基化密度臨限值以便實現不同診斷靈敏度及/或特異性,如本揭示案中之各種實施例中所描述。低甲基化可定義為(但不限於)低於10%、低於20%、低於30%、低於40%、低於50%等。高甲基化可定義為(但不限於)超過40%、超過50%、超過60%、超過70%、超過80%、超過90%等。臨限值可為範圍,例如但不限於20%-30%、30%-40%、40%-50%、60%-70%、70%-80%等。胎盤特異性低甲基化位點由在胎盤組織中甲基化密度低於30%但在白細胞層樣本中甲基化密度超過70%之彼等CpG位點定義。
對於資料收集,確定胎盤特異性高甲基化及低甲基化CpG位點之切割模式。切割模式使用本文所描述之技術來確定。確定30個妊娠樣本(中位對讀定序讀段:2.06億(IQR:1.42至2.32億))及9個非妊娠健康女性案例(中位對讀定序讀段:3.97億(IQR:3.5-4.24億))之此類切割模式。在此示例實施方案中,切割模式可藉由合併特定類型之所有位點的資料,例如合併一個切割模式之所有低甲基化位點的資料及另一切割模式之所有高甲基化位點的資料來生成。
圖78展示根據本揭示案之實施例,包括生成各種個體之切割模式以用於訓練機器學習模型的工作流程。在以量測窗展示且使用高甲基化位點及低甲基化位點之實例中,總共存在24個特徵。接著機器學習模型可基於該等特徵區分不同個體。下文提供此類結果。
b. 聚類結果
在以下結果中,聚類使用主成分分析(PCA)來進行。其他實施例可使用其他類型之機器學習、監督或無監督或其組合,如在本揭示案中別處所描述。
圖79A、79B及80展示根據本揭示案之實施例,藉由使用來自胎盤特異性高甲基化位點(圖79A)、胎盤特異性低甲基化位點(圖79B)或胎盤特異性高甲基化位點與低甲基化位點之組合(圖80)的切割模式對妊娠及非妊娠個體進行之PCA分析。PCA分析鑑別在兩種類型個體之間提供最佳分離的特徵之線性組合。支持向量機可提供類似結果。PCA允許沿著所鑑別之兩個主維度進行觀測。
如圖79A中所示,基於來自胎盤特異性高甲基化位點之切割模式的主成分(PC)(亦即,PC1及PC2)可將妊娠與非妊娠個體分類為兩個聚類,其中僅兩個非妊娠個體與妊娠個體重疊。基於來源於胎盤特異性低甲基化位點之切割模式的主成分(亦即,PC1及PC2)顯示在兩組之間無任何重疊下更好地區分妊娠與非妊娠案例(圖79B)。
此外,基於來自胎盤特異性高甲基化及低甲基化位點之切割模式的PC(亦即,PC1及PC2)顯示妊娠與非妊娠案例之間的完全分離(圖80)。資料表明,對來源於低甲基化及/或高甲基化CpG位點之切割模式的選擇性分析將提高用於對不同病理及生理狀態進行分類的分類能力。
c. 示例使用案例
來自組織特異性低甲基化或高甲基化CpG位點之切割模式將適用於偵測各種癌症或其他疾病。舉例而言,來自結腸特異性、***特異性或***特異性低甲基化或高甲基化CpG位點之切割模式可分別用於大腸癌、乳癌或***癌診斷。因此,切割模式將適用於預測及/或監測癌症患者。
舉例而言,來自組織特異性CpG之切割模式可適用於推斷不同組織對血漿cfDNA池之DNA貢獻,諸如HCC患者中之腫瘤DNA比例,其可用於HCC診斷。確定HCC特異性高甲基化及低甲基化CpG位點之切割模式。此類切割模式用於訓練SVM模型以進行HCC偵測。
圖81展示基於切割模式進行HCC偵測之效能。當用來自HCC特異性高甲基化或低甲基化CpG或高甲基化CpG與低甲基化CpG之組合之切割模式訓練時,模型效能可達到0.915、0.939及0.947之AUC以區分HCC患者與非HCC對照。
d. 個別區域/位點之切割剖析
以上實例將跨越區域(例如,確定CGN/NCG比率)或CpG位點(例如,確定切割比率)之量測進行組合。然而,在其他實施例中,可確定各區域或CpG位點之單獨量(例如CGN及/或NCG量)且分別與各別參考值進行比較。因此,若分析N個區域或CpG位點,則可確定N個量,各量對應於各別區域或CpG位點處之DNA片段的量。此N個量可為輸入至機器學習模型之特徵向量。另外或替代地,可確定各CpG位點(或位點之一些子集)之單獨切割模式,且可使用此等個別切割位點,例如輸入至機器學習模型。各切割模式可輸入至機器學習模型以確定病理等級。
在另一實例中,所有切割模式可同時輸入至機器學習模型。以此方式,將輸入更多特徵至機器學習模型。此類特徵矩陣之尺寸可為CpG位點之數目×量測窗中之位置數目。因此,若使用N個區域,且各切割模式中具有K個位置,則輸入特徵向量可包括總共N×K值。在不同實例中,可確定不同CpG位點子集之各切割模式的單獨切割比率,且多數議決可用於確定病理等級。
4. 癌症來源組織之偵測
如上文所示,來自肝臟或HCC特異性低甲基化區域之切割剖析或其他甲基化相關cfDNA片段組學特徵可用於HCC偵測。因此,組織特異性區域/位點可用於癌症組織類型,或僅用於組織本身。來自其他組織特異性低甲基化或高甲基化區域之甲基化相關cfDNA片段組學特徵可用於偵測其他癌症。舉例而言,來自結腸特異性、***特異性或***特異性低甲基化或高甲基化區域之甲基化相關cfDNA片段組學特徵可分別用於大腸癌、乳癌、肺癌、膀胱癌、腎癌或***癌診斷,或可使用對彼等癌症具有特異性之差異甲基化區域。切割模式將適用於對癌症亞型進行分類,諸如腺癌對比鱗狀細胞癌。在又一實施例中,可自靶向定序結果推斷來自特定區域之甲基化相關cfDNA片段體學特徵。靶向定序可基於(但不限於)基於探針之雜交、基於擴增子之定序、免疫沉澱隨後定序等。可針對本文所描述之使用組織特異性位點之任何技術進行此類富集。
因此,可針對各種組織中之差異甲基化區域進行分析。可確定各技術之分類,其確定各類型之組織是否存在病變(例如,癌症)。以此方式,可確定來源之組織。若多個組織特異性技術鑑別出存在癌症,則可鑑別出具有最大差異之組織用於進一步研究,例如進一步影像學檢查或組織活檢。
在一些實施例中,機器學習模型可使用包括各種組織類型之片段組學特徵(例如,如本文所描述之末端基序或切割模式)的輸入特徵向量。組織類型可包括癌症組織及/或非癌症組織。非癌症組織可包括正常組織及與特定癌症組織相鄰之非惡性組織。
可使用區域之集合。舉例而言,一組片段學特徵可對應於膀胱癌(或僅膀胱組織)之差異甲基化區域,另一組對應於***癌(或僅***),且另一組對應於腎癌(或僅腎臟)。可訓練特定模型以鑑別癌症中之一特定癌症,其中訓練不同模型來偵測該等癌症中之不同癌症。舉例而言,即使在該模型中亦使用***特異性甲基化區域之片段組學特徵,亦即除膀胱特異性甲基化區域以外,亦可訓練一個模型來偵測膀胱癌。關於尿液實例之章節提供另外細節。各模型可提供機率,且可鑑別具有最高機率之癌症類型用於進一步分析,例如用於治療或用於進一步篩選測試(例如影像學檢查),如本文所描述。
除了組織特異性區域,亦可使用所有其他組織類型或相對於至少一種其他組織類型可能差異甲基化區域。舉例而言,I型高甲基化標記物可在一個組織類型中具有大於截止值(例如70%)之甲基化,但在所測試之其他癌症組織中以及所使用之一組非癌症組織中均具有小於另一截止值(例如30%)之甲基化。類似標準可用於低甲基化標記物。II型高甲基化標記物可在一個組織類型中具有大於截止值(例如70%)之甲基化,但在所測試之至少一種其他癌症組織中或在所使用之一組非癌症組織中具有小於另一截止值(例如30%)之甲基化。類似標準可用於低甲基化標記物。
代替單獨模型,實施例可使用一個多類模型(例如神經網路,諸如具有卷積層之神經網路,CNN),其提供組織特異性甲基化區域用於生成片段體學特徵之各癌症類型的機率。關於尿液實例之章節提供另外細節。
在一些實施方案中,癌症類型之分類可在癌症對比非癌症確定之後(或一起)進行。因此,當可假定使用初始模型偵測癌症時,訓練樣本可能僅屬於一組相關癌症類型(例如尿液中DNA將顯著顯現之類型)。兩種模型均可使用相同原始資料,例如關於片段之末端基序的定序或PCR資料。
下文提供用含CG之3聚體末端基序(血漿DNA)對多種癌症類型進行分類之實例。探索使用含CG之3聚體末端基序(總共8種類型之末端基序)對血漿DNA中之多種癌症類型進行分類的可能性。舉例而言,對總共45個血漿DNA樣本(中位讀段:4.57億,IQR:2.49-5.22億)進行聚類分析,該等樣本包括34名肝細胞癌患者(HCC)、11名大腸直腸癌患者(CRC)之樣本。此類含CG之3聚體末端基序分析可使用跨越不同組織類型之一組組織資訊性甲基化標記物進行。
圖82展示定義組織資訊性甲基化標記物之示意圖。出於說明目的,使用HCC之偵測作為實例。HCC資訊性高甲基化標記物定義為各者中目標癌症(例如,HCC)之甲基化密度需要超過70%,而非癌症組織及CRC組織中之各者的甲基化密度需要低於30%之CpG,但可使用其他臨限值。在此實例中,非癌症組織包括血細胞、正常肝臟組織及正常結腸組織。本文中之癌症組織為HCC癌症組織。HCC資訊性低甲基化CpG定義為各者中目標癌症組織(例如,HCC)之甲基化密度需要低於30%,而非癌症組織及CRC組織中之各者的甲基化密度需要超過70%之彼等CpG位點。類似地,可定義CRC資訊性高甲基化標記物以及低甲基化標記物。
在此實例中,將來自組織資訊性高甲基化及低甲基化CpG之含CG之3聚體末端基序的頻率以及跨越所有組織之一組通常高甲基化或低甲基化CpG視為用於聚類分析之輸入特徵。跨越所有組織通常高甲基化及低甲基化CpG定義為正常血細胞、正常肝臟、正常結腸、HCC及CRC組織中甲基化密度超過70%或低於30%,亦稱為組織共有之高甲基化及低甲基化CpG位點。存在總共48個特徵,包括分別來自HCC癌症及CRC癌症資訊性高甲基化及低甲基化CpG位點的含CG之末端基序特徵[2個癌症類型×(8個高甲基化末端基序+8個低甲基化末端基序) = 32];以及來自組織共有之高甲基化及低甲基化CpG位點的含CG之末端基序特徵(8 + 8 = 16)。
可使用無監督聚類演算法,其可包括但不限於主成分分析(PCA)、t-分佈隨機鄰域嵌入(tSNE)、均勻流形近似和投影(uniform manifold approximation and projection,UMAP)等。
圖83A展示基於與組織資訊性及組織共有之CpG位點相關的5'含CG之3聚體末端基序對HCC及CRC患者的無監督叢集分析。使用來自HCC及CRC資訊性高甲基化及低甲基化CpG及組織共有之高甲基化及低甲基化CpG的總共48個5'含CG之3聚體末端基序作為輸入特徵。如所示,使用此48個末端基序特徵,PCA分析顯示HCC患者及CRC患者傾向於聚集成兩組。此等結果表明,使用來自不同癌症之癌症組織資訊性CpG之cfDNA的含CG之末端基序確定血漿DNA中之癌症類型(亦即腫瘤位置)係可行的。
進一步嘗試使用上文所提及之48個輸入特徵產生可區分HCC與CRC之分類器。在一個實施例中,使用支持向量機(SVM)訓練該分類器。
圖83B-83C展示基於與組織特異性及組織共有之CpG位點相關的5'含CG之3聚體末端基序的HCC分類器之效能。圖83B為展示由分類器預測患HCC之機率的箱形圖。圖83C為使用該分類器區分HCC患者與CRC患者之ROC分析。
如所示,HCC患者與CRC患者相比具有更高機率評分(中位數:0.969對比0.168)。ROC分析顯示分類器可達到約0.97之AUC以區分HCC與CRC患者。在各種實施例中,癌症類型可超過兩種,包括肺癌、胃癌、食道癌等。當考慮超過2種癌症類型時,可使用多個二元分類器,且產生最高機率評分之癌症類型將視為所測試個體最可能罹患之癌症類型。可使用一個多類分類模型(例如卷積神經網路(CNN))分析多種癌症類型,而不使用與組織資訊性及組織共有之CpG位點相關的含CG之末端基序重複進行多個二元分類。可使用其他多類分類模型,包括決策樹、隨機森林、深度神經網路、循環神經網路等。
5. 使用組織特異性差異甲基化區域/位點之方法
特定組織類型中之病變(例如癌症、發炎或生理過程之異常水準)等級可使用在該組織類型中差異甲基化之一或多個區域(其包括CpG位點或由CpG位點定義)來確定。相同類型(例如,全部高甲基化或低甲基化)區域/位點可一起分析以生成特徵值(例如,CGN比率)或特徵向量(例如,各區域或位點或者位點周圍之位置的不同特徵)。
圖84為根據本揭示案之實施例用於使用組織特異性差異甲基化區域確定特定組織之病變等級之方法8400的流程圖。生物樣本包括游離DNA。如同本文所描述之其他方法一樣,方法8400可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊8410處,方法8400包括(a)分析來自個體之生物樣本之多個游離DNA分子。區塊8410可以與區塊2710類似之方式執行。如同區塊2710一樣,分析游離DNA分子可包括確定參考基因組中之游離DNA分子之位置。多個游離DNA分子位於參考基因組之第一組之一或多個區域中。位置可以如本文所描述之各種方式確定,諸如比對序列讀段與參考基因組或使用基於位置之探針。在第一組織類型中第一組之一或多個區域中之各者係低甲基化的或各者係高甲基化的。
分析可包括確定游離DNA分子之至少一個末端之末端序列基序(亦稱為末端基序)。末端基序可根據序列讀段中之最外側鹼基確定。若序列讀段僅包括一個末端而非整個DNA片段/分子(例如,作為覆蓋兩個末端之成對讀段中之一者),則使用對應於DNA片段末端之鹼基且不使用位於片段中間之鹼基。游離DNA分子之末端可具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
如同本文所描述之其他方法一樣,分析多個游離DNA分子可包括量測游離DNA分子之尺寸。量測可以各種方式進行,例如使用物理分離(諸如電泳)及/或定序(諸如使用對讀讀段之全分子定序及比對)。
在區塊8420處,方法8400包括(b)確定在第一位置處具有C且在第二位置處具有G之第一組之一或多個末端基序的第一量(例如,CGN或更多此等基序中之任一者的量)。在其他實施例中,第一量可屬於在第二位置處具有C且在第三位置處具有G之第一組之一或多個末端基序(例如,NCG)。區塊8420可以與本文所描述之確定基序之量的其他技術類似之方式進行,諸如區塊2720、4120或7230。鑒於此類基序包括CGN及NCG,其可定義CpG位點。當使用多個區域時,可確定區域/位點處之總量或可確定及使用各區域/位點處之各別量。
可確定及使用其他量,例如其他末端基序,諸如NCG,以確定CGN/NCG比率。因此,可確定在第二位置處具有C且在第三位置處具有G之第二組之末端基序的第二量,其對應於NCG或其任何子集。接著分類可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與參考值進行比較。作為另一實例,可確定基序之總量(例如,在一或多個特定區域中)且用於標準化。經標準化之第一量(例如基序比率或相對頻率)可再次與參考值進行比較。
作為標準化之另一實例,可確定多個游離DNA分子(例如區域中)之基序之總量。接著,確定分類可包括將第一量用總量進行標準化以獲得經標準化之第一量(例如,基序比率或相對頻率),將其與參考值進行比較。
在一些實施例中,可確定在第一尺寸範圍內之第一組游離DNA分子之第一量。第一尺寸範圍可對應於小於尺寸截止值或大於第二尺寸截止值之尺寸。
在區塊8430處,方法8400包括(c)基於第一量與參考值之比較來確定個體之第一組織類型中之病變之等級的分類。區塊8430可以與本文所描述之與參考/校準值進行此類比較的其他技術類似之方式進行,諸如區塊4130、5840及7240。
當第一組之基序界定區域第一組內之第一組之CpG位點時,可確定切割模式。對於CpG位點周圍窗內之至少兩個位置的各位置而言,可確定末端位於該位置之游離DNA分子的各別量,從而確定各別量。包括各別量及第一量之特徵向量可輸入至機器學習模型中以確定個體之第一組織類型中之病變之等級的分類,例如上文針對章節4所述。
可使用低甲基化區及高甲基化區域/位點兩者。對於第一組織類型而言,第一組可為低甲基化的,且用於確定第一特徵向量。可使用高甲基化之第二組之CpG位點生成第二特徵向量。兩個特徵向量皆可輸入至機器學習模型中。
可確定各區域/位點之單獨值。確定末端位於第一組之CpG位點中之各者處的游離DNA分子之各別量,可例如直接地或藉由將各別第一量作為特徵向量之一部分輸入至機器學習模型中來比較各別量中之各者與各別參考值。可確定各位點之切割模式。因此,對於各位點周圍之窗內的至少兩個位置中之各者,可確定各別量。特徵向量中可包括至少兩個位置之各別量,包括CpG位點。
如同本文中所描述之其他技術一樣,可將多個量之特徵向量提供至機器學習模型,例如以上章節中所描述。不同量可對應於一系列末端基序,例如包括於第一組中之彼等末端基序及額外末端基序。包括於特徵向量中之此類末端基序可為針對特定k之所有k聚體或僅子集。因此,可確定在第一位置處具有C且在第二位置處具有G之各3聚體末端基序的各別量(亦即,四種量)。可生成包括各別量(其包括第一量)之特徵向量且接著輸入至機器學習模型中,作為確定個體之病變等級之分類的一部分。另外或替代地,特徵向量可包括在第二位置處具有C且在第三位置處具有G之各3聚體末端基序的各別量。
在一些實施方案中,可檢查其他組織,從而允許偵測引起病變之組織,例如存在何種類型癌症。因此,可針對參考基因組之額外一或多組之一或多個區域重複區塊8410-8430,其中額外一或多組在一或多個各別其他組織類型中均為低甲基化的或均為高甲基化的。
如以上章節4中所描述,可確定來源之組織。在此類實施方案中,第一組織類型可為癌症組織類型。舉例而言,當生物樣本為尿液時,癌症組織類型可選自膀胱癌、腎癌及***癌。作為另一實例,當生物樣本為血漿或血清,癌症組織類型可選自肝癌、大腸癌、肺癌及乳癌。
分類可指示由疾病(例如癌症或發炎)或生理過程(例如經由衰老或發育過程或基因組印記,在本揭示案中別處更詳細地描述)或與生理過程有關之異常狀況/病症引起的病變的等級。拷貝數突變可為此類病變。實施例亦可確定生理過程之正常水準,例如監測個人之妊娠、衰老之階段,或個人之基因組印記之類型或水準。
如針對圖82及後面關於尿液之實例所描述,分類可使用多個組織類型(包括第一組織類型)之差異甲基化區域。可分析來自生物樣本之其他組游離DNA分子,其中各組游離DNA分子位於參考基因組之各別組之一或多個區域中。其他組可用於其他組織類型(例如其他癌症類型)之組織特異性甲基化位點。各別組之一或多個區域中之各者可在多個組織類型之各別組織類型中係低甲基化的或高甲基化的。
可使用不同區域類型,例如I型、II型及組織共有,如章節4中所描述。例如特定差異甲基化狀態及組織類型之一組特定區域可包括多個區域類型之多個區域。第一區域類型(例如I型)可相對於其他組織具有差異甲基化。第二區域類型(II型)可相對於至少一種其他組織而非所有其他組織具有差異甲基化。亦可使用組織共有類型,使得另一組特定區域在該癌症組織類型之第一組織及健康第一組織(例如HCC組織及健康肝臟組織)中均為低甲基化的或均為高甲基化的。
在區分不同類型之病變類型(例如不同癌症類型)的實施方案中,分類可使用利用所有區域(包括來自不同組織類型之區域)訓練之第一機器學習模型。此外,其他情況相同區域之基序的量可用於使用在一或多個其他組織類型中具有病變之訓練樣本來訓練一或多個其他機器學習模型(例如若第一組織類型為HCC,則用於大腸癌)。病變等級之分類可使用多類機器學習模型(例如,CNN),該多類機器學習模型提供多個組織類型中之各者具有該病變的機率。多個組織類型可包括癌症組織類型(例如膀胱癌及CRC)及非癌症組織類型(例如膀胱組織及結腸組織)。
C. 組織特異性5hmC富集及缺失區域
如以上所描述,5-羥甲基胞嘧啶(5hmC)係已與基因調節及癌症發病機制有關之重要哺乳動物DNA表觀遺傳修飾。不同區域具有不同的5hmC甲基化模式。舉例而言,在一個組織類型(其可能為癌症組織類型)中,一些區域將為5hmC富集或5hmC缺失的,且在另一組織類型中,其他區域將為5hmC富集或5hmC缺失的。此類富集或缺失與具有5hmC甲基化之區域中之甲基化分子相對於其他類型甲基化的比例有關。
在一個實施例中,藉由分析來自10名健康個體及11個HCC案例之血漿DNA樣本的hMe-Seal資料來鑑別HCC特異性5hmC富集區域及5hmC缺失區域(Song等人 《癌症研究》 2017; 27(10):1231-1242)。HCC特異性5hmC富集區域定義為HCC樣本中存在定序覆蓋範圍中之峰值信號但在健康個體中不存在的區域。HCC特異性5hmC缺失區域定義為健康個體中存在定序覆蓋範圍中之峰值信號但在HCC樣本中不存在的區域。
鑑別總共2,605個HCC特異性5hmC富集區域及32,918個HCC特異性5hmC缺失區域。基於來自HCC組織及白細胞層之亞硫酸氫鹽定序資料,鑑別9,155,755個CpG位點,確定其在兩種組織類型之間通常高甲基化,例如甲基化大於截止值,諸如70%。有18,035個CpG高甲基化位點與HCC特異性5hmC富集之峰值區域重疊及84,287 CpG低甲基化位點與HCC特異性5hmC缺失區域重疊。
基於來自富集5hmC及缺失5hmC之HCC特異性CpG的5'含CG之3聚體末端基序,對包括38名健康個體、17名HBV攜帶者及34名HCC之隊列進行SVM分析。基於含CG之3聚體末端基序之SVM模型可達到0.96之AUC以用於區分HCC與非HCC(健康及HBV個體)案例。SVM模型提供個體患有HCC之機率。機率可通過截止值進行比較,對HCC是否存在做出最終判定。
圖85A-85B展示基於來自富集5hmC及缺失5hmC之HCC特異性CpG的5'含CG之3聚體末端基序進行HCC偵測的效能。SVM模型可具有總共16個特徵:包括5hmC富集區域中之含CG的八個3聚體末端基序及包括5hmC缺失區域中之含CG的八個3聚體末端基序。在圖85A中,HCC之機率係基於相對於具有HCC之訓練樣本或非HCC之訓練樣本的3聚體末端O/E比率的分離來提供。圖85A之水平軸對應於不同個體:健康、HBV感染者、早期HCC(eHCC)、中期HCC(iHCC)及晚期HCC(aHCC)。
大部分eHCC個體被鑑別為具有高機率之HCC。iHCC個體除一者外全部被鑑別為具有高機率之HCC。所有aHCC個體全部被鑑別為具有高機率之HCC。圖85B展示0.96之AUC。
資料表明,來自具有5hmC之區域的含CG之末端基序亦可提供癌症偵測之資訊。在又一實施例中,其他組織特異性或癌症特異性5hmC區域可用於其他癌症診斷及分類。在一些實施例中,可實施與5mC及5hmC相關的血漿DNA切割模式之組合使用以增強癌症偵測。
除單獨O/E比率或使用含CG基序之特徵向量(例如,上文展示之SVM模型)以外,亦可使用本文中所描述之其他技術。舉例而言,CGN/NCG比率可用於選擇末端基序,例如具有相反關係之末端基序。亦可使用末端基序頻率,可能作為含CG基序之特徵向量(例如,不同3聚體末端基序之1-8個值)。該等特徵向量可用於機器學習模型中,如本文中所描述。可在未針對預期量進行標準化的情況下直接使用此類量。可使用其他標準化,例如使用特定組之末端基序(例如,CGN、NCG或兩者)或所需長度之所有末端基序(例如,3聚體或4聚體)之總量。
因此,關於方法7200,可確定第一組游離DNA分子之第一量,該等游離DNA分子各自位於針對特定組織類型各自富含5hmC或各自缺失5hmC之一或多個區域內。病變可屬於特定組織類型,例如特定癌症類型。舉例而言,特定組織類型可為HCC癌症組織。當第一組游離DNA分子各自位於各自富集5hmC之一或多個區域內時,該方法可進一步包含確定多個游離DNA分子之第一組之一或多個末端基序的第二量,該等游離DNA分子各自位於針對特定組織類型各自缺失5hmC之一或多個區域內。可使用第一量及第二量,例如經由如上文針對SVM所描述的機器學習模型分析來確定分類。
類似地,關於方法7200,可確定第一組游離DNA分子之第一量,該等游離DNA分子各自位於針對特定組織類型各自高甲基化或低甲基化之一或多個區域內。病變可屬於特定組織類型,例如特定癌症類型。
D. 病毒DNA
除宿主(例如,人類、動物、哺乳動物)之DNA以外,樣本中之病毒的DNA亦可用於偵測病變。所測試之一或多種病毒中的各者可與一或多種病變相關聯。
宿主DNA之各種分析可用於病毒DNA。舉例而言,可使用無細胞樣本(例如血漿)中之病毒DNA分子的CGN/NCG基序比率,或可使用個別CGN及NCG量。作為另一實例,可分析某些CpG位點,例如高甲基化、低甲基化。作為另一實例,可使用有關例如在病變之不同分類(例如存在或不存在)之間具有類似(例如在指定範圍內)甲基化程度但具有不同切割特性的CpG位點的切割信息(例如切割密度或切割模式)。類似甲基化程度可包括高甲基化或低甲基化。
此類技術可偵測及監測病毒相關癌症,諸如(但不限於)伯基特氏淋巴瘤(Burkitt's lymphoma)、一些類型之霍奇金氏淋巴瘤(Hodgkin's lymphoma)及非霍奇金氏淋巴瘤、胃癌、鼻咽癌(NPC)、肝細胞癌、子宮頸癌等。此類癌症可能與病毒相關,包括(但不限於)EB病毒(Epstein-Barr virus,EBV)、B型肝炎病毒(HBV)、C型肝炎病毒(HCV)、人類免疫缺乏病毒(HIV)、人類疱疹病毒8(HHV-8)、人類乳頭瘤病毒(HPV)等。
分析5名傳染性單核白血球增多症(IM,亦即非惡性EBV相關疾病)患者、9名EBV相關淋巴瘤患者及62名NPC患者的亞硫酸氫鹽定序資料,中位數為1800萬對讀定序讀段(IQR:1400-2300萬)。在一些技術中,可鑑別病毒基因組中在非癌症個體與癌症個體之間具有差異甲基化之CpG位點。自癌症及非癌症之甲基化模式,可鑑別EBV基因組中在兩組之間具有差異之CpG位點。
1. 淋巴瘤
淋巴瘤特異性高甲基化位點可由在EBV相關淋巴瘤病例中血漿EBV DNA之甲基化密度超過50%但在IM樣本中低於50%的彼等CpG位點定義。淋巴瘤特異性低甲基化位點可由在EBV相關淋巴瘤病例中EBV DNA之甲基化密度低於50%但在IM樣本中超過50%的彼等CpG位點定義。可使用其他百分比臨限值(例如30%、35%、40%、45%、55%、60%、65%及70%),且淋巴瘤及IM不需要臨限值相同。舉例而言,淋巴瘤特異性低甲基化位點可由在EBV相關淋巴瘤病例中EBV DNA之甲基化密度低於45%但在IM樣本中超過54%的彼等CpG位點定義。
a) CGN/NCG比率
分析IM及EBV相關淋巴瘤病例在彼等CpG位點中之CGN/NCG比率。
圖86A-86B展示根據本揭示案之實施例基於來自血漿EBV DNA之淋巴瘤特異性高甲基化及低甲基化CpG位點之CGN/NCG比率進行EBV相關之淋巴瘤偵測的效能。圖86A為展示來自傳染性單核白血球增多症(IM)患者及EBV相關淋巴瘤(淋巴瘤)患者之淋巴瘤特異性高甲基化及低甲基化位點的CGN/NCG比率的箱形圖。圖86B展示分別使用基於淋巴瘤特異性低甲基化及高甲基化CpG位點之CGN/NCG比率區分IM患者與EBV相關淋巴瘤患者的ROC分析。
與IM個體相比,跨越EBV DNA之淋巴瘤特異性高甲基化位點觀測到顯著較高的CGN/NCG比率(P值=0.001,威爾卡森秩和檢驗),而在EBV相關淋巴瘤病例中跨越EBV DNA之淋巴瘤特異性低甲基化位點未觀測到顯著差異(圖86A)。來自淋巴瘤特異性高甲基化位點之EBV DNA的CGN/NCG比率可充當EBV相關淋巴瘤之生物標記物,從而允許以AUC 1區分EBV相關淋巴瘤患者與IM(圖86B)。
如吾人可見,對於淋巴瘤特異性高甲基化CpG位點,能夠將所有此等IM病例與淋巴瘤病例分開或非癌症與癌症患者分開。對於低甲基化情況,分離不太好。高甲基化分析產生1之AUC,且低甲基化分析為0.78。
b) CGN或NCG
亦單獨分析CGN及NCG。可將以淋巴瘤特異性高甲基化及低甲基化CpG位點中之各者為中心的量測窗(例如11 bp)定義為淋巴瘤特異性高甲基化及低甲基化區域。計算淋巴瘤特異性高甲基化區域及低甲基化區域內CGN及NCG基序頻率。
圖87A-87B展示根據本揭示案之實施例,使用基於淋巴瘤特異性低甲基化(A)及高甲基化(B)區域之CGN及NCG基序頻率區分IM患者與EBV相關淋巴瘤患者的ROC分析。如圖87A所示,對於淋巴瘤特異性高甲基化區域,CGN或NCG基序頻率之使用顯示良好的區分EBV相關淋巴瘤患者與IM之診斷能力(NCG之AUC:1;CGN之AUC:0.84)。對於淋巴瘤特異性低甲基化區域,CGN基序頻率之使用顯示與NCG之使用相比更佳的區分EBV相關淋巴瘤患者與IM之診斷能力(圖87B;AUC:0.87)。
2. NPC
亦分析NPC。NPC特異性高甲基化位點可由在NPC病例中EBV DNA之甲基化密度超過50%但在IM樣本中低於50%的彼等CpG位點定義。NPC特異性低甲基化位點可由在NPC病例中EBV DNA之甲基化密度低於50%但在IM樣本中超過50%的彼等CpG位點定義。可使用其他百分比臨限值(例如30%、35%、40%、45%、55%、60%、65%及70%),且NPC及IM不需要臨限值相同。舉例而言,NPC特異性低甲基化位點可由在EBV相關NPC病例中EBV DNA之甲基化密度低於45%但在IM樣本中超過54%的彼等CpG位點定義。
a) CGN/NCG比率
分析IM及NPC病例在彼等CpG位點中之CGN/NCG比率。
圖88A-88B展示根據本揭示案之實施例基於來自EBV DNA中之NPC特異性高甲基化及低甲基化CpG位點之CGN/NCG比率進行NPC偵測的效能。圖88A為展示來自傳染性單核白血球增多症(IM)患者及鼻咽癌(NPC)患者之NPC特異性高甲基化及低甲基化位點的CGN/NCG比率的箱形圖。圖88B展示分別使用基於NPC特異性低甲基化及高甲基化CpG位點之CGN/NCG比率區分IM患者與NPC患者的ROC分析。
與IM個體相比,在NPC病例中跨越EBV DNA之NPC特異性高甲基化位點觀測到顯著較高的CGN/NCG比率(P值<0.001,威爾卡森秩和檢驗),且在NPC病例中跨越EBV DNA之NPC特異性低甲基化位點觀測到顯著較低的CGN/NCG比率(P值=0.0015,威爾卡森秩和檢驗)(圖88A)。來自NPC特異性高甲基化位點及低甲基化位點之EBV DNA的CGN/NCG比率可充當NPC之生物標記物,從而允許分別以AUC 0.98及0.93區分NPC患者與IM患者(圖88B)。
b) CGN或NCG
亦單獨分析CGN及NCG。將以NPC特異性高甲基化及低甲基化CpG位點中之各者為中心的量測窗(例如11 bp)定義為NPC特異性高甲基化及低甲基化區域。計算NPC特異性高甲基化區域及低甲基化區域內CGN及NCG基序頻率。
圖89A-89B展示使用來自NPC特異性低甲基化(A)及高甲基化(B)區域之CGN及NCG基序頻率區分IM患者與NPC患者的ROC分析。如圖89A所示,對於NPC特異性高甲基化區域,NCG基序頻率之使用顯示與CGN基序頻率之使用相比更佳的區分EBV相關淋巴瘤患者與IM之分類能力(NCG之AUC:0.95,及CGN之AUC:0.71,P值=0.04,DeLong檢驗)。對於NPC特異性低甲基化區域,NCG及CGN基序頻率之使用顯示類似的區分EBV相關淋巴瘤患者與IM之分類能力(圖89B;NCG之AUC:0.77,及CGN之AUC:0.83)。
3. 非差異甲基化CpG位點(切割比率)
亦分析切割信息(例如切割比率)。由於DNA甲基化及酶活性兩者將影響血漿DNA分子之切割,因此在一個實例中,可選擇性地分析非差異甲基化CpG位點處之切割模式以進行疾病偵測,其中切割模式之改變可主要由酶活性引起。此類分析將提高疾病偵測之靈敏度,尤其在DNA甲基化與酶活性以拮抗作用於cfDNA切割起作用時。
分析來自110個具有短暫陽性EBV DNA之非NPC病例、50個具有持續陽性EBV DNA之非NPC病例及47個NPC病例的亞硫酸氫鹽定序資料,中位數為2200萬個對讀定序讀段(IQR:1600-3000萬)。
a) 切割比率之分佈及位點選擇
圖90A-90B展示在NPC及非NPC病例兩者中,在甲基化密度超過80%之各CpG位點之-1及1位置處來自NPC及非NPC病例之切割比率的分佈。確定經鑑別在NPC及非NPC病例中類似甲基化之各CpG之-1及+1位置處的切割比率(例如其甲基化密度均超過80%、均低於20%或均在40-60%之間)。可使用其他百分比範圍,且範圍可小於或大於此等實例。與非NPC個體相比,觀測到NPC病例之該CpG之位置-1及+1的更高切割比率的機率增加。
圖91A展示-1及1兩個位置之分佈。切割比率定義為在該位置處之末端數目除以定序深度乘以100。在-1及/或+1位置處之此類切割比率增加可用於區分NPC病例與非NPC病例。NPC中位置0處之切割比率亦下降,從而表明位置0亦可用於區分NPC病例與非NPC病例。
圖91B展示在存在酶缺乏時之切割偏好。若個體具有正常酶活性,則切割將偏好在C處。若酶缺乏,則切割將更均勻。若C為位置0,則在位置-1(對應於NCG)及+1(對應於在C與G之間切割)中,與正常酶相比,酶缺乏情況下將存在更多+1與-1切割。該缺乏可與各種癌症,例如NPC相關。當甲基化程度相同,可發現與非NPC相比,NPC在-1及1處之切割比率的分佈更高。
將非NPC及NPC病例分成訓練(例如,80%樣本)及測試(例如,20%樣本)數據集。在訓練數據集中,鑑別出各者在非NPC及NPC病例中呈現超過80%之甲基化密度的CpG位點。與非NPC相比,NPC組中需要CpG在-1或1位置之切割比率更高。最終,鑑別出10,483個顯示NPC組中切割比率更高之資訊性位置,包括5,451個『-1』位置及5,032個『+1』位置。在此實例中,使用任何更高值。在其他實施例中,切割比率可能需要高出特定量(例如差值之臨限值或截止值)。更高之標準將顯示在-1及1位置處之切割更高的分佈結果。
b) 區分NPC與非NPC
確定覆蓋彼等資訊性位置之血漿EBV DNA片段的數目(表示為T)及5'末端位於彼等資訊性位置之血漿EVB DNA片段的數目(表示為E)。樣本之「EBV DNA之切割比率」由E/T×100定義。
圖92A-92D展示說明訓練集及測試集中-1及+1資訊位置處NPC與非NPC病例之間的EBV DNA切割比率差異的箱形圖。如圖92A-92B所示,在訓練及測試資料集兩者中,基於『-1』資訊位置,觀測到與非NPC病例相比,NPC病例中EBV DNA之切割比率更高(訓練資料集:P值=0.0001;測試資料集:P值=0.006,克拉斯卡-瓦立斯檢驗)。此外,在訓練及測試資料集兩者中,基於『+1』資訊位置,觀測到與非NPC病例相比,NPC病例中EBV DNA之切割比率更高(圖92C-92D,訓練資料集:P值< 0.0001;測試資料集:P值=0.0001,克拉斯卡-瓦立斯檢驗)。
圖93A-93B展示說明訓練集(圖93A)及測試集(圖93B)中組合之-1與+1資訊位置處NPC與非NPC病例之間的EBV DNA切割比率差異的箱形圖。當組合『-1』及『+1』資訊位置時,可在NPC病例中觀測到更高的EBV DNA切割比率(訓練資料集:P值<0.0001;測試資料集:P值=0.002,克拉斯卡-瓦立斯檢驗)。可發現,訓練及測試位點均顯示與亦在測試隊列中之持續及短暫EBV陽性病例相比,NPC病例中在-1及+1位置處之切割比率顯著增加。
c) 切割分析連同比例及尺寸一起
在一些實施例中,切割分析可與病毒DNA片段之量的分析組合及/或與病毒DNA片段之尺寸分佈之統計值的分析組合。示例性統計值包括平均值(平均值)、中位數、眾數或在兩個尺寸範圍內之量之比率,其可重疊或不重疊。在訓練方面,若將所選CpG位點之切割比率與EBV DNA之比例組合,則靈敏度可為約100百分比,其中特異性為約94.6%。
圖94A-94B展示藉由使用訓練集(A)及測試集(B)中組合之-1與+1資訊位置處EBV DNA之切割比率及EBV DNA比例區分NPC病例與非NPC病例之診斷能力。(截止值:切割比率:0.31;EBV DNA比例:2.7×10
- 5)。切割及計數(例如,比例)之示例參考值以虛線展示,例如分別為計數參考值及切割參考值。因此,相應參數(比例及切割)可與各別截止值相比。亦可使用尺寸參考值,可將尺寸分佈之統計值與其進行比較。
使用切割比率及EBV DNA比例進行組合分析以用於區分NPC病例與非NPC病例,其中EBV DNA比例計算為:
若採用的關於EBV DNA比例及切割比率之截止值(參考值)實現100%靈敏度,則來自組合之『-1』及『+1』資訊位置之EBV DNA之切割比率可達到訓練資料集中94.6%之特異性及測試資料集中90.3%之特異性。
進一步使用EBV DNA比例、尺寸比及切割比率進行組合分析以用於區分NPC病例與非NPC病例,其中EBV DNA之尺寸比計算為:
若採用的關於EBV DNA比例、切割比率及尺寸比之截止值實現100%靈敏度,則來自所選CpG位點之EBV DNA之切割比率可達到訓練資料集中96.9%之特異性及測試資料集中96.8%之特異性。
圖95展示藉由在訓練及測試資料集中使用不同度量值區分NPC病例與非NPC病例之診斷能力。「計數」表示EBV DNA比例。「尺寸」表示EBV DNA尺寸比。「切割比率」表示在組合之-1及+1資訊位置處的切割。(截止值:切割比率:0.31;EBV DNA比例:2.7×10
- 5;尺寸比:5.0)
在圖95中,在EBV PCR陽性病例中組合不同方法之效能。無顏色為僅單一參數且有顏色為組合參數。此等結果表明,EBV DNA之切割比率、EBV DNA比例及EBV DNA尺寸比的組合分析(靈敏度:100%;特異性:訓練為96.9%且測試為96.8%)將優於其他方法,諸如基於單一度量值之方法,諸如EBV DNA之切割比率(靈敏度:100%;特異性:訓練為73.6%且測試為61.3%)、EBV DNA比例(靈敏度:100%;特異性:訓練為73.6%且測試為74.2%)或EBV DNA尺寸比(靈敏度:100%;特異性:訓練為34.9%且測試為38.7%);且EBV DNA之切割比率、EBV DNA比例及EBV DNA尺寸比的組合分析(靈敏度:100%;特異性:訓練為96.9%且測試為96.8%)將優於基於兩個度量值之其他組合,諸如基於EBV DNA比例及EBV DNA尺寸比之方法(靈敏度:100%;特異性:訓練為80.6%且測試為87.1%)及基於EBV DNA比例及EBV DNA之切割比率之方法(靈敏度:100%;特異性:訓練為94.6%且測試為90.3%)。
對於組合分析,可能需要所使用之技術中之各者對病變之陽性分類呈陽性,從而增加特異性。因為所有均具有100%之靈敏度,所以靈敏度無損失。
4. 使用CGN及/或NCG鑑別位點
一些技術鑑別出在NPC與非NPC之間發生差異甲基化之位點。代替使用甲基化鑑別資訊性位點,一些實施例可跳過甲基化分析且鑑別對於CGN量、NCG量或兩個值之比率或-1至1個末端位置之間的任何量具有差異頻率之位點,如以上所描述。因此,代替如上所描述選擇性地分析非差異甲基化CpG位點處之切割模式以進行疾病偵測的工作流程,在切割模式之改變可能主要由酶活性引起的情況下,可使用CGN及/或NCG量。血漿或其他樣本中之病毒DNA分子之CGN/NCG基序比率可不僅用於反映甲基化,其允許偵測及監測諸如鼻咽癌(NPC)、傳染性單核白血球增多症、淋巴瘤等病毒相關癌症。
一些實施例可使用CGN/NCG基序比率(或個別量)鑑別在無NPC之個體(非NPC)與患有NPC之個體之間展現不同甲基化狀態的資訊性CpG。彼等資訊性CpG位點可進一步用於協助NPC偵測。
圖96展示基於訓練集9605中之經調整之CGN/NCG基序比率選擇資訊性CpG並在測試集9615中進行NPC診斷之示意圖。如所示,將272個及65個EBV DNA陽性非NPC及NPC病例分成訓練(非NPC=230;NPC=31)及測試集(非NPC=42;NPC=34)。測試集包括基於先前方法無法區分之個體(亦即,EBV DNA比例及尺寸比)。
在訓練集9605中,在步驟9625處,將來自非NPC個體及NPC患者之血漿DNA中EBV DNA的所有定序讀段分別合併至數據集A及數據集B中。基於此兩個數據集,計算各CpG位點之經調整之CGN/NCG基序比率。經調整之CGN/NCG基序比率計算為(5'CGN基序之量)/(5'CGN基序之量+5'NCG基序之量)。經調整之比率可慮及當量(CGN或NCG)中之一者為零時的情況。本文所描述之基序比率中之任一者均可使用此公式。
EBV基因組中之1,425個CpG位點基於其滿足如下準則的經調整之CGN/NCG基序比率而鑑別:數據集B(NPC)中之CGN/NCG基序比率比訓練集中之數據集A(非NPC)高至少20%。可使用除20%以外的其他百分比(例如10%、15%或25%),且可鑑別比率降低指定百分比之位點。在亞硫酸氫鹽定序數據集中NPC病例中之甲基化指標比非NPC個體高進一步證實步驟9625中鑑別之彼等位點(非NPC=160;NPC=47,圖86A)。
圖97A展示在非NPC病例與NPC病例之間藉由亞硫酸氫鹽定序量測之資訊性CpG的甲基化指標。如所示,NPC中基序比率高於非NPC之位點亦具有較高甲基化指標。以此方式鑑別之CpG位點除甲基化以外可考慮其他影響切割之因素,例如不同酶活性。
在步驟9635,使用步驟9625中鑑別之位點分析樣本。針對訓練資料集中之各個體,計算來自彼等所選CpG之經調整之CGN/NCG基序比率,且藉由使用此數據集中NPC病例之基序比率的最低值確定截止值(圖97B)。
圖97B展示非NPC個體與NPC個體之間EBV基因組中之資訊性CpG的經調整之CGN/NCG基序比率(訓練集)。虛線9715展示由NPC病例之最低值定義之截止值。對於包含基於先前方法(亦即,EBV DNA比例及尺寸比)無法區分的42個非NPC個體及34個NPC病例之測試數據集,使用經調整之CGN/NCG基序比率允許自NPC診斷結論中排除額外14個非NPC病例,從而改良陽性預測值(亦即,26.8%;圖98B)。
圖98A展示非NPC個體與NPC個體之間EBV基因組中之資訊性CpG的經調整之CGN/NCG基序比率(測試集)。圖98B展示藉由基於PCR之分析、基於EBV DNA比例及尺寸比之方法以及組合之EBV DNA比例、尺寸比及切割基序之方法篩查NPC的陽性預測值。圖98A中之截止值(虛線)展示可自測試集中排除之額外14個非NPC病例。圖98B展示相比於如下先前技術改良之陽性預測值:(1)使用兩次PCR確定EBV DNA存在;及(2)EBV DNA%與尺寸組合。
在另一實施例中,血漿中之病毒DNA分子之CGN/NCG基序比率或經調整之基序比率可用於偵測及監測其他病毒相關癌症,諸如(但不限於)伯基特氏淋巴瘤、一些類型之霍奇金氏淋巴瘤及非霍奇金氏淋巴瘤、胃癌、肝細胞癌、子宮頸癌等。此類癌症可能與病毒相關,包括(但不限於)EB病毒(EBV)、B型肝炎病毒(HBV)、C型肝炎病毒(HCV)、人類免疫缺乏病毒(HIV)、人類疱疹病毒8(HHV-8)、人類乳頭瘤病毒(HPV)等。
5. 使用病毒DNA切割確定病變之方法
病變等級可使用一或多個具有類似甲基化程度(例如在特定範圍內,諸如高於70%、在60%-40%之間及小於30%)之區域(其包括CpG位點或由CpG位點定義)來確定。相同類型(例如全部高甲基化或低甲基化)之區域/位點可一起分析以生成特徵值(例如CpG位點周圍之另一位置處之CGN比率或切割比率)或特徵向量(例如各區域或位點或位點周圍之位置的不同特徵)。
圖99為說明使用包括來自個體及來自病毒之游離DNA分子之生物樣本確定個體之病變等級之方法9900的流程圖。生物樣本包括游離DNA。如同本文所描述之其他方法一樣,方法9900可部分或完全使用電腦系統進行。執行與其他方法中類似之功能性的區塊可以與其他流程圖中針對彼等區塊所描述之方式類似的方式執行。
在區塊9910處,方法9900包括分析來自個體之生物樣本之多個病毒游離DNA分子。一組DNA分子中之各者之分析可包括確定病毒之參考基因組中病毒游離DNA分子之位置。該組病毒游離DNA分子可位於參考基因組之第一組之一或多個CpG位點中。在具有病變之個體中第一組之一或多個CpG位點中之各者可具有指定範圍內之甲基化程度,例如高甲基化或低甲基化。區塊9910可以與區塊2710類似之方式執行。在具有病變之個體中第一組之一或多個CpG位點中之各者相對於無病變之個體可發生差異甲基化,例如以上章節1及2中所描述。但患有及無病變之個體中之甲基化程度可類似,例如章節3中所描述。
在鑑別第一組之位點之另一實施方案中,代替甲基化,可使用健康對照與具有病變之個體之間末端位置之量(例如CGN、NCG、比率或使用-1至1末端位置之任何量)的差異,例如以上所描述。因此,第一組之一或多個CpG位點中之各者可使用來自具有病變之個體之樣本的第一訓練集及來自無病變之個體之樣本的第二訓練集來鑑別。在第一訓練集與第二訓練集之間第一組之一或多個CpG位點中之各者處的第一量相差至少指定百分比。
分析可包括確定病毒游離DNA分子之至少一個末端之末端序列基序(亦稱為末端基序)。末端基序可根據序列讀段中之最外側鹼基確定。若序列讀段僅包括一個末端而非整個DNA片段/分子(例如,作為覆蓋兩個末端之成對讀段中之一者),則使用對應於DNA片段末端之鹼基且不使用位於片段中間之鹼基。游離DNA分子之末端可具有位於最外側位置之第一位置、緊鄰第一位置之第二位置及緊鄰第二位置之第三位置。
亦可如本文所描述之其他方法(諸如區塊2710)之類似步驟中所描述分析來自宿主(例如人類)之游離DNA。
在區塊9920處,確定末端位於第一組之一或多個CpG位點中之任一者的-1至+1個位置中之任一處或多處的病毒之該組病毒游離DNA分子的第一量。第一量可使用末端基序確定。如上文所描述,第一量可為末端位於-1位置處之病毒游離DNA分子之數目。第一量可為末端位於0位處之病毒游離DNA分子之數目。第一量可為末端位於+1位置處之病毒游離DNA分子之數目。區塊9920可以與區塊8420類似之方式執行。
因此,第一量可屬於在第一位置處具有C且在第二位置處具有G之第一組之一或多個末端基序。第一組之一或多個末端基序可包括CGN,其中N為包括在第三位置處之任何核苷酸。作為另一實例,第一量可屬於在第二位置處具有C且在第三位置處具有G之第一組之一或多個末端基序。作為又一實例,第一量可為末端位於第一組之一或多個CpG位點之-1或+1位置處之病毒游離DNA分子的和。
如本揭示案中所描述,可確定其他量,例如用於標準化。舉例而言,方法可包括確定在第二位置處具有C且在第三位置處具有G之第二組之末端基序的第二量。確定分類可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與參考值進行比較。第二組之末端基序包括NCG,其中N包括在第一位置處之任何核苷酸。
可確定多個病毒游離DNA分子之基序之總量。確定分類可包括將第一量用總量進行標準化,以獲得經標準化之第一量,將其與參考值進行比較。
作為其他實例,可確定窗中之量,例如以確定切割模式。
在區塊9930處,基於第一量與參考值之比較來確定個體之病變之等級的分類。區塊9930可以與區塊8430類似之方式執行。
當確定切割模式時,對於第一組之一或多個CpG位點中之任一者周圍的窗內之至少兩個位置的各位置,可確定末端位於該位置之游離DNA分子的各別量,從而確定各別量。特徵向量可包括各別量及第一量。特徵向量可輸入至機器學習模型中,作為確定病變等級之分類的一部分。使用來自具有已知分類之訓練樣本的游離DNA分子訓練機器學習模型。
在具有病變之個體中第一組之一或多個CpG位點中之各者可為低甲基化的或各者可為高甲基化的。若第一組為低甲基化的且特徵向量為第一特徵向量,則可使用全部高甲基化之第二組之一或多個CpG位點生成第二特徵向量。第二特徵向量及第一特徵向量可輸入至機器學習模型中,作為確定病變等級之分類的一部分。
可確定末端位於第一組之CpG位點中之各者處的游離DNA分子之各別量。確定病變之等級之分類可包括將各別量中之各者與各別參考值進行比較。可藉由將各別第一量作為特徵向量之一部分輸入至機器學習模型中來將各別量中之各者與各別參考值進行比較。
對於第一組之一或多個CpG位點中之各者及對於CpG位點周圍之窗內之至少兩個位置的各位置,可確定末端位於該位置之游離DNA分子的各別量,從而確定各別量。特徵向量可包括至少兩個位置之各別量及CpG位點之各別量。
方法可包括確定在第一位置處具有C且在第二位置處具有G之各3聚體末端基序的各別量。特徵向量可包括各別量,該等各別量包括第一量。特徵向量可輸入至機器學習模型中,作為確定病變等級之分類的一部分。另外或替代地,特徵向量可包括在第二位置處具有C且在第三位置處具有G之各3聚體末端基序的各別量。特徵向量可包括所有3聚體末端基序之各別量。
分析多個病毒游離DNA分子可包括確定多個病毒游離DNA分子中之各者的尺寸。可確定多個病毒游離DNA分子之尺寸分佈的統計值。確定個體之病變等級的分類可進一步包括將統計值與尺寸參考值進行比較。
方法可進一步包括確定多個游離DNA分子之量。確定個體之病變等級的分類可進一步包括將量與計數參考值進行比較。
IX. 等位基因特異性片段化分析
一些實施例可對某些基因型/單倍型進行片段化分析,該等基因型/單倍型可對應於不同類型組織。舉例而言,供體、胎兒或腫瘤可具有腫瘤特異性等位基因。
A. 基因組印記
本揭示案中之結果指示,來自所關注基因組區域之末端基序頻率(亦即區域末端基序頻率)可用於預測其甲基化密度。當與來自低甲基化區域之血漿DNA分子相比時,源自高甲基化區域之血漿DNA分子具有較高頻率之5'-CGN基序(其中N可為A、T、C或G,亦即CGA、CGT、CGC及CGG末端基序之和),而5'-NCG基序(亦即,ACG、TCG、GCG及CCG末端基序之和)之頻率較低(參見圖29)。
進一步推測,使用CGN及NCG基序之相對頻率可用於預測區域甲基化改變。對於具有13X之亞硫酸氫鹽定序深度之一個第1產程樣本孕婦的游離DNA樣本,針對所關注之各基因組區域確定區域5'-CGN末端基序頻率及5'-NCG末端基序頻率。在一個實例中,分析來自受基因組印記影響之區域(亦即
GNAS基因,位於chr20:57,415,043-57,415,176)的血漿DNA分子。基因組印記為視來源之親本而定通常涉及DNA甲基化之基因的沉默過程。
圖100A及100B展示根據本揭示案之實施例,CGN及NCG末端基序頻率可用於預測基因組印記。圖100A展示印記基因座處的等位基因特異性甲基化(
GNAS基因:chr20:57,415,043-57,415,176)。實心及空心圓圈分別表示甲基化及未甲基化CpG位點。各列表示一個定序DNA片段。垂直數字指示所分析CpG位點之基因組座標(hg 19)。核苷酸(A/G)對應於等位基因SNP之基因組位置。攜帶A等位基因之彼等分子甲基化,且攜帶G等位基因之彼等分子未甲基化。圖100B展示說明分別自攜帶A等位基因及G等位基因之彼等分子推斷之CGN及NCG基序頻率的條形圖。
如圖100A中所示,在SNP位點(rs1800900)處攜帶「A」或「G」之等位基因的DNA片段來自不同親本遺傳。攜帶G等位基因之彼等DNA片段未甲基化,而攜帶A等位基因之彼等DNA片段甲基化。如圖100B所示,攜帶A等位基因之DNA片段(甲基化)與攜帶G等位基因之對應DNA片段(未甲基化)相比展示較高頻率之CGN基序(13.9%對比3.7%),但NCG基序之頻率較低(2.8%對比13.0%)。此等結果表明CGN及NCG之末端基序可用於確定基因組印記之狀態。在一個實施例中,基於CGN及NCG末端基序之方法可用於偵測與基因印記有關之多種疾病及病症,包括(但不限於)安格爾曼氏症候群(Angelman syndrome)、普拉德-威利症候群(Prader-Willi syndrome)及貝克威斯-威德曼症候群(Beckwith-Wiedemann syndrome)。
若末端基序頻率在兩種基因型/單倍型之間存在偏斜,則可鑑定印記作用。若兩個等位基因之末端基序頻率相同,則不存在印記。以此方式,不需要亞硫酸氫鹽定序,片段末端處之定序信息可提供關於甲基化程度與等位基因之間的印記之信息。以此方式,也可確定哪個等位基因來自母本且哪個來自父本。
在一個實施例中,可藉由分析區域CGN及NCG末端基序來預測癌症特異性甲基化改變。舉例而言,當存在拷貝數突變時或當腫瘤在單倍型之間發生差異甲基化時可出現末端基序之差異。
B. 平衡性
若兩個單倍型之間的切割模式或CGN及/或NCG剖析存在不平衡,則可鑑別平衡性問題。基於與基因座比對之讀段,可確定該基因座為異型接合的。舉例而言,一個等位基因可為A且另一個可為T等位基因。對於具有A等位基因之片段,可確定末端位於相鄰CpG位點之百分比。可對T等位基因進行相同操作。兩種差異之比率可指示兩個單倍型之間的片段化差異(例如由於甲基化)。
在另一情況下,女性具有兩個X染色體,但對於任一細胞,其中一者將甲基化爾一者未甲基化。但若集合體內所有萬億個細胞,則甲基化應為平衡的。
兩個單倍型之間切割模式或CGN及/或NCG基序之不平衡可用於確定哪個單倍型自母本遺傳。假定母體雜合子位點(AB),其中兩個母本單倍型為Hap I及Hap II。若母體Hap I傳遞至胎兒,相比於Hap II,連接至Hap I之母體cfDNA將過度表現,因為在胎兒為純合子(AA)的位點, Hap I及Hap II之單倍型劑量之平衡配破壞。因此,相比與Hap II,過度表現之Hap I將具有更多胎兒來源之cfDNA。Hap I將顯示低甲基化性質。在此情況下,Hap I將具有較少CGN。因此,CGN及NCG剖析可指示哪個母本單倍型將由胎兒遺傳,亦即推斷胎兒之母本遺傳。因此,當區域之甲基化之分類為對應於懷有胎兒之女性之第一單倍型的第一甲基化程度時,可使用來自第二單倍型之游離DNA分子的第一組之末端基序之第二量確定對應於女性之第二單倍型之第二甲基化程度。接著,可基於第一甲基化程度及第二甲基化程度確定胎兒之遺傳單倍型。
類似地,可使用CGN及/或NCG剖析來證實患者之基因突變(SNV及拷貝數突變,CNA)之血漿DNA是否可能來源於腫瘤。舉例而言,是否連接於較少CGN之突變或CNA更可能與癌症相關。在此類情況下,區域可包括例如經由對區域處之DNA片段計數或尺寸分析自多個游離DNA分子確定的序列變異體或拷貝數突變,如美國專利公開案第2013/0040824號及第2016/0201142號中所描述。基於該區域之甲基化分類,可判定該序列變異體或該拷貝數突變是否來自腫瘤。舉例而言,若片段化指示甲基化低於臨限值,則序列變異體或拷貝數變異可鑑別為源自腫瘤。
此類分析可使用上文所描述之甲基化分類中之任一者,包括針對個別片段、針對位點及針對區域。
C. 用於甲基化預測之定序深度
為估計判定區域為甲基化還是未甲基化所需的定序深度,使用
GNAS印記基因座作為實例。發現甲基化DNA片段之CGN及NCG末端基序頻率分別為13.9%及2.8%。因此,甲基化DNA分子中含有CG二核苷酸之末端基序當中具有CGN末端基序之機率估計為0.83,其為13.9/(13.9+2.8)。
對於此實例中之未甲基化DNA片段,CGN及NCG之末端基序頻率分別為3.7%及13.0%。未甲基化DNA中含有CG二核苷酸之末端基序當中具有CGN末端基序之機率估計為0.22。
圖101展示根據本揭示案之實施例視定序深度而定的區分甲基化與未甲基化區域之效能。假定含CG基序(亦即,CGN及NCG末端基序)遵循二項分佈。甲基化區域及未甲基化區域中CGN末端基序之分佈可分別寫為組(n,0.83)及組(n,0.22),其中「組」表示二項分佈函數且「n」表示含CG基序之總數目(在1至100範圍內)。對既定「n」進行模擬1,000次,且評估用於基於CGN末端基序頻率區分甲基化與未甲基化區域的接收者操作特徵曲線下面積(AUC)值。使用含CG基序之總數目(n)推斷相應定序深度。如圖101所示,在定序深度為18X下,可達到>0.9之AUC。在定序深度為42X下,可達到超過0.99之AUC。
X. 富集技術
上文所述之各種技術使用在例如在特定組織中高甲基化、低甲基化、5hmC富集或5hmC缺失之某些區域/位點處或覆蓋其之DNA片段。此類區域/位點之分析可包括富集技術,例如擴增來自某些區域/位點之DNA(例如,隨後定序)或捕捉來自某些區域/位點之DNA(例如,使用探針)。
A. 使用CGN及NCG之某些區域之富集
圖102展示藉由選擇性分析末端具有特定末端基序之DNA分子子集進行富集,與所關注之某些基因組區域比對之定序片段的相對百分比。(所有:無選擇;具有NCG末端:選擇具有NCG末端基序之DNA片段;具有CGN末端:選擇具有CGN末端基序之DNA片段)。
如圖102中所示,與所有讀段相比,對末端具有NCG之DNA分子的選擇性分析相較於隨機定序方法將使映射至CpG島(CGI)(12.3%對比0.8%)及轉錄起始位點(TSS)(11.2%對比2%)之讀段的數目相對增加。而對具有CGN末端基序之DNA分子的選擇性分析將使映射至Alu區域之讀段量相對增加(27.6%對比17.0%)。
B. 使某些區域富集CGN及NCG
在各種實施例中,可在文庫製備期間富集來自一或多個所關注區域之含CGN及NCG基序之DNA片段。此類技術可用於有效地分析所關注之區域。
圖103為根據本揭示案之實施例藉由自所關注之區域選擇性地擴增含有NCG或CGN末端基序之DNA進行定序文庫製備的示例工作流程。雙股cfDNA分子10310可變性成單股且在5'-末端使用共同接頭10320進行共同接頭接合。區域特異性反向引物10330可用於延伸與來自所關注之區域之模板鏈相對的DNA鏈。區域特異性反向引物10330可在5'末端連接於共同接頭,因此最終經由引物延伸將共同接頭10320引入DNA分子。
在選擇對應於所關注之區域之某些DNA分子之後,可擴增或偵測具有某些末端基序(例如CGN及NCG)之DNA片段。
可以如下方式設計一對PCR引物:一個引物10340可結合於共同接頭區域(P1)且另一個引物10350a或10350b可結合於DNA與共同接頭(P2)之間的接合區域。藉由控制P2之3'末端中之最後一個鹼基為CG或NCG(亦即ACG、CCG、TCG、GCG),可優先擴增含有CG或NCG末端基序之DNA片段。隨後可使用探針對彼等文庫定序或偵測(例如正向引物P2可充當探針)。定序片段將用於對CGN及NCG末端基序進行分析,以確定所關注之區域中之甲基化改變。
C. 用於定序文庫製備之無PCR及有限PCR循環
當進行富集時,增強甲基化相關片段化分析可經由無PCR文庫製備或有限PCR製備進行。PCR亦可作為全基因組定序之一部分進行,且分析亦適用於此類情形。
在各種實施例中,不同PCR循環可用於Illumina全基因組定序之文庫製備以改良甲基化相關片段化分析。對源自一個健康cfDNA樣本的用4個PCR循環(讀段:3,385,548)、8個PCR循環(讀段:3,693,070)及無PCR(讀段:1,869,582)製備之文庫進行定序。
圖104展示分別用4個PCR循環、8個PCR循環及無PCR製備之血漿DNA之定序文庫中推定高甲基化及低甲基化CpG之CGN/NCG基序比率。如所示,推定高甲基化CpG之CGN/NCG基序比率在無PCR(4.39)或用4個PCR循環(4.28)製備之文庫中高於用8個PCR循環製備之文庫(2.55)。在PCR與無PCR文庫之間推定低甲基化CpG之CGN/NCG基序比率無明顯差異(無PCR:0.69;4個PCR循環:0.75;8個PCR循環:0.70;圖104)。
與用8個PCR循環製備之文庫相比,推定高甲基化與低甲基化CpG之間的CGN/NCG基序比率差異在無PCR文庫中高1.72倍,且在用4個PCR循環製備之文庫中高1.68倍。當使用無PCR或四個循環PCR文庫時,高甲基化與低甲基化CpG位點之間的分離可比八個循環PCR文庫更佳。此等結果指示,定序文庫製備中所用之較低PCR循環可改良甲基化相關片段化分析。在一些其他實施例中,PCR循環之數目可為(但不限於)1、2、3、5等。
XI. 尿液實例
提供尿液樣本之一些實例。
A. 切割模式及基序比率
除基於血漿cfDNA之切割模式進行CpG甲基化分析以外,本揭示案中之實施例亦適用於基於尿液cfDNA分子之基於切割模式的CpG甲基化分析。為研究尿液cfDNA片段化如何與DNA甲基化相關,分析39個對照尿液cfDNA樣本之18,280,640個高甲基化CpG位點及2,576,102個低甲基化CpG位點的切割模式,中位數為7580萬對讀定序讀段(四分位數範圍:6050萬-1.55億)。計算與CpG位點有關之量測窗內整個基因組座標的切割比率。作為一實例,本文中之窗定義為CpG位點中C鹼基上游及下游5個核苷酸(亦即,5 nt)(亦即,窗尺寸為11 nt)。對於各樣本而言,藉由計算11 nt窗內各位置之平均切割比率來合併來自高甲基化CpG位點或低甲基化CpG位點之切割模式。
圖105展示健康對照之尿液cfDNA樣本中高甲基化CpG位點與低甲基化CpG位點之間的切割模式之比較。x軸表示相對於量測窗內之CpG位點的核苷酸位置。y軸表示平均切割比率。關於尿液之圖105以與血漿之切割模式以類似的方式測定。
如圖105所示,與低甲基化CpG位點(中位切割比率:1.09;範圍:0.67-1.46)相比,高甲基化CpG位點之合併切割模式顯示在位置『0』(亦即,所討論CpG位點之胞嘧啶核苷酸)之更高切割偏好(中位切割比率:2.40;範圍:1.66-3.51)(P值<0.001,曼-惠特尼
U檢驗)。相比之下,與低甲基化CpG位點(位置『-1』:中位切割比率:0.83;範圍:0.53-1.30;位置『1』:中位切割比率:1.27;範圍:0.82-1.60)相比,在位置『-1』(亦即,在所討論CpG位點之胞嘧啶核苷酸之前的一個鹼基)及『1』(亦即,在所討論CpG位點之胞嘧啶核苷酸之後的一個鹼基),高甲基化CpG位點顯示較低切割偏好(位置『-1』:中位切割比率:0.37;範圍:0.26-1.16;位置『1』:中位切割比率:0.58;範圍:0.38-1.22)(P值<0.001,曼-惠特尼
U檢驗)。
經由相對於CpG位點在位置『0』、『-1』及『1』處尿液cfDNA中發生甲基化相關片段化的差異切割將引起末端基序之差異呈現。甲基化CpG位點傾向於在位置『0』處具有較多末端,富集5' CGN基序,但在位置『-1』及『1』處較少,即5' NCG基序及5'C^GN基序減少。5' C^GN基序係指在cfDNA分子之5'末端處具有『G』核苷酸且在5'末端之前的一個鹼基處具有『C』核苷酸的彼等基序(例如,如藉由與參考基因組比對所確定)。相比之下,未甲基化CpG位點減弱此類切割偏好。因此,具有CGN、NCG及C^GN末端之DNA分子的數目與游離DNA分子之末端處或附近之CpG之甲基化狀態相關。對於尿液,在『1』處(C^GN基序)之差異不同於血漿,因為對於血漿,未發現在『1』位置處甲基化或未甲基化之間太大差異。
進一步探索使用經CGN、NCG或C^GN基序封端之尿液cfDNA分子之相對量反映甲基化模式的可能性。亦可使用個別量(與相對量相反),例如藉由所分析之序列讀段或分子之總數目進行標準化;此類標準化可用本揭示案中所描述之量中之任一者進行。作為各種實例,相對量可藉由比率(諸如CGN/NCG基序比率、CGN/(CGN+NCG)、CGN/C^GN或CGN/(NCG+C^GN等)來量測。
圖106A-106D展示說明健康對照之尿液cfDNA中跨越全基因組區域、Alu區域及CpG島之甲基化密度(圖106A)、CGN/NCG比率(圖106B)、CGN/C^GN基序比率(圖106C)、CGN/(NCG+C^GN)基序比率(圖106D)之差異的箱形圖。各點表示尿液cfDNA樣本。
如圖106A中所示,與來自39個健康對照尿液cfDNA之人類基因組中之全基因組的總體甲基化程度相比,Alu區域顯示較高甲基化程度,而CpG島顯示較低甲基化程度。觀測到跨越Alu區域、CpG島及全基因組之基序比率(亦即,CGN/NCG基序比率、CGN/C^G基序比率及CGN/(CGN+C^G)基序比率)與藉由亞硫酸氫鹽定序確定之甲基化程度一致(圖106B-圖106D)。因此,此三個示例值中之任一者(以及涉及CGN、NCG及/或C^GN之其他示例值)可以與關於血漿所描述類似的方式用於確定甲基化程度。
作為可用於尿液、血漿或其他樣本之其他示例值,可量測末端為CGN之游離DNA分子相對於所分析(例如,定序)之游離DNA分子之總數目或游離DNA末端之總數目的百分比。類似地,亦可量測末端為NCG或C^GN之游離DNA分子相對於所分析(例如,定序)之游離DNA分子之總數目或游離DNA末端之總數目的百分比。
作為其他實例,其他方法可使用此等示例值之統計值來定量高甲基化與低甲基化CpG之間的切割模式差異以反映所關注之CpG位點之甲基化狀態,諸如移動平均值、窗內之值之變化(例如,變異數或標準偏差(SD))及熵。舉例而言,可定量SD或變異數以分析量測窗中之切割比率的變化性。如圖105所示,可看到高甲基化模式之切割比率之變化性大於低甲基化模式。因此,值變化之增加可指示甲基化程度之增加。
移動平均值(亦稱為平均差)為反映變化性之另一量度,例如藉由計算量測窗中相對於CpG位點之所有相鄰位置的平均絕對差值獲得。在另一實例中,移動平均值可為累積5'至3'或3'至5'之任兩個連續位置之間的切割比率差異的量度。舉例而言,若使用具有4 nt(例如,在CpG位點之C在位置0處的情況下,自位置-2至位置1)之量測窗,則移動平均值可基於各位置之切割比率(CR)如下計算:
此類統計值為使用末端位於CpG位點之游離DNA分子之第一量及末端位於圍繞CpG位點之窗內之第一位置處的游離DNA分子之第二量的實例。
B. 關於比例濃度之組織來源分析
除確定甲基化以外,可如針對血漿所描述確定尿液中的臨床相關DNA之比例濃度,且適用於包括游離DNA之其他樣本。在跨越不同組織類型呈現差異DNA甲基化模式之基因組區域處之CGN、NCG或C^GN末端基序封端之尿液cfDNA分子的相對量可用於確定尿液cfDNA分子之組織來源,例如尿液中來自特定組織類型之DNA的比例濃度。
對來自26名腎臟移植患者之尿液cfDNA進行對讀亞硫酸氫鹽定序(75 bp×2(亦即,成對末端定序),Illumina)(對讀讀段中位數:1.54億;IQR:1.18-1.69億)。使用基於微陣列之基因分型技術(HumanOmni2.5基因分型陣列Illumina)自白細胞層獲得關於供體及接受者之基因型,且鑑別特異性SNP(亦即,其中接受者為純合子的(表示為AA基因型),且供體為雜合子的(表示為AB基因型))。供體特異性DNA片段係根據在特異性SNP位點攜帶供體特異性等位基因之DNA片段來鑑別。在此情境下,B等位基因為供體特異性的,且推斷攜帶B等位基因之DNA片段源自供體組織(亦即,腎臟組織)。確定攜帶供體特異性等位基因(B)之供體特異性分子(p)的數目。確定攜帶共有等位基因(A)之分子(q)的數目。所有游離DNA樣本中之供體DNA比例將藉由2p/(p+q)×100%計算。
出於說明目的,確定來自腎臟移植患者之尿液cfDNA之腎臟特異性高甲基化(n=8,827)及低甲基化(n=14,692)CpG位點之CGN/NCG基序與供體DNA比例之間的相關性。使用白細胞層、腎臟組織及尿道上皮之亞硫酸氫鹽定序結果鑑別腎臟特異性高甲基化及低甲基化CpG位點。腎臟特異性高甲基化位點由在腎臟組織中甲基化密度超過70%但在白細胞層及尿道上皮中甲基化密度低於30%之彼等CpG位點定義。腎臟特異性低甲基化位點由在腎臟組織中甲基化密度低於30%但在白細胞層及尿道上皮中甲基化密度超過70%之彼等CpG位點定義。
圖107A-107B展示基於源自腎臟特異性高甲基化CpG位點(圖107A)及腎臟特異性低甲基化CpG位點(圖107B)之尿液cfDNA分子的供體DNA比例與CGN/NCG比率之間的相關性。如圖107A-107B所示,來自腎臟特異性高甲基化CpG位點及低甲基化CpG位點之CGN/NCG比率分別與由供體特異性SNP推斷之供體DNA比例正相關及負相關(皮爾森r:0.74及-0.64;對於兩個相關性,P值均<0.001)。資料表明,末端為CGN及NCG之尿液DNA分子的相對量(例如CGN/NCG比率)可用於推斷尿液DNA分子之組織來源。
因為尿液cfDNA中之甲基化相關片段化與尿液之核酸酶環境密切相關,所以各種分析前因素可經由甲基化相關片段化來影響組織來源分析之準確度,諸如但不限於cfDNA在尿液中之持續時間、尿液之DNASE活性及尿液之PH值。為最小化彼等可能影響樣本之組織特異性區域中的CGN/NCG比率之分析前因素對基於尿液切割模式之組織來源分析的準確度的影響,可使用來自一組參考CpG位點之cfDNA切割模式對彼等分析前因素進行標準化。
參考CpG位點包括在各種組織中穩定地高甲基化的第一組之CpG(亦即,參考高甲基化CpG位點,參考M)及在各種組織中穩定地低甲基化的第二組之CpG(亦即,參考低甲基化CpG位點,參考U)。在一個實施例中,基於白細胞層、腎臟組織及尿道上皮之亞硫酸氫鹽定序結果確定參考高甲基化及低甲基化CpG位點。參考高甲基化CpG位點由在所有組織中甲基化密度超過70%之彼等CpG位點定義,且參考低甲基化位點由在所有組織中甲基化密度低於30%之彼等CpG位點定義。
圖108A-108B展示CGN/NCG基序比率標準化之示意圖。如圖108A所示,確定參考M與參考U之間的CGN/NCG比率之差異,由參考M-參考U表示。可使用此類值對組織特異性值進行標準化。舉例而言,由於甲基化差異固定(由於使用高甲基化及低甲基化位點),故每個患者參考M-參考U之間的差異將為其他分析前因素之結果。
圖108B展示來自腎臟特異性高甲基化(組織特異性M)及低甲基化CpG(組織特異性U)之CGN/NCG比率的差異,由組織特異性M-組織特異性U表示。此組織特異性差異將視腎臟DNA之量及分析前因素之量而定。可藉由除以參考M-參考U來濾除分析前因素,因參考M-參考U對分析前因素具有相同依賴性。
(組織特異性M-組織特異性U)之值可藉由(參考M-參考U)標準化以反映腎臟cfDNA比例。圖108展示用於標準化之示例公式。其他標準化值可僅使用高甲基化位點(例如僅參考M)或僅使用低甲基化位點(例如僅參考U)或兩者之其他組合。另外,標準化可為差值,諸如,組織特異性M-參考M。此類標準化值可將上文所提及之分析前因素減至最少,此係因為分子及分母將在類似程度上受到彼等分析前因素影響且因此消除。
圖109展示來自腎臟移植病例之尿液cfDNA之供體DNA比例與經標準化之CGN/NCG比率之間的相關性。出於說明目的,確定參考高甲基化(n=14,535,312)及低甲基化(n=1,713,148)CpG位點之CGN/NCG基序比率。如圖109所示,與標準化之前CGN/NCG比率(絕對皮爾森r<0.74;P值<0.001)相比,自腎臟特異性高甲基化及低甲基化CpG位點計算的經標準化之CGN/NCG基序比率顯示與由供體特異性SNP推斷之供體DNA比例的相關性增強(皮爾森r:0.91;P值<0.0001)。皮爾森r自0.74增加至0.91。作為其他實例,經標準化之CGN/NCG基序比率可計算為但不限於組織特異性M/參考U、組織特異性U/參考M、組織特異性M/參考M、組織特異性U/參考U、組織特異性U/(參考M-參考U)或組織特異性M/(參考M-參考U)。
CGN/NCG比率(及其他變異體)亦可用於預測跨腎DNA比例(臨床相關DNA之另一實例)。出於說明目的,使用對讀亞硫酸氫鹽定序(75 bp×2;Illumina),確定來自5名骨髓移植患者之尿液cfDNA之血細胞特異性高甲基化(n=42,294)及低甲基化(n=73,925)CpG位點及參考高甲基化(n=17,167,208)及低甲基化(n= 2,360,363)CpG位點之CGN/NCG基序比率。對讀讀段中位數為8620萬(IQR:6970-8750萬)。使用白細胞層、腎臟組織及尿道上皮之亞硫酸氫鹽定序結果鑑別血細胞特異性高甲基化及低甲基化CpG位點。血細胞特異性高甲基化位點由在白細胞層中甲基化密度超過70%但在腎臟組織及尿道上皮中甲基化密度低於30%之彼等CpG位點定義。血細胞特異性低甲基化位點由在白細胞層中甲基化密度低於30%但在腎臟組織及尿道上皮中甲基化密度超過70%之彼等CpG位點定義。參考高甲基化CpG位點由在所有組織中甲基化密度超過70%之彼等CpG位點定義,而參考低甲基化位點由在所有組織中甲基化密度低於30%之彼等CpG位點定義。
圖110A-110B展示基於源自血細胞特異性高甲基化CpG位點(圖110A)及血細胞特異性低甲基化CpG位點(圖110B)之CGN/NCG比率與尿液cfDNA分子的供體DNA比例之間的相關性。如所示,來自彼等血細胞特異性高甲基化CpG位點及低甲基化CpG位點之CGN/NCG比率分別與由供體特異性SNP推斷之供體DNA比例正相關(皮爾森r:0.999;P值<0.001)及負相關(皮爾森r:-0.986;P值=0.002)。
圖111展示來自骨髓移植患者之尿液cfDNA之供體DNA比例與經標準化之CGN/NCG比率之間的相關性。由血細胞特異性高甲基化及低甲基化CpG位點計算之經標準化之CGN/NCG基序比率亦顯示與由供體特異性SNP推斷之供體DNA比例相關性良好(皮爾森r:0.998;P值<0.001)。資料表明,末端為CGN及NCG之DNA分子的相對量(例如CGN/NCG比率)可用於推斷尿液DNA分子之跨腎DNA比例。
在一些實施例中,CGN/NCG比率可用於預測其他組織之DNA比例,包括(但不限於)膀胱、肝臟、腦、T細胞、B細胞、嗜中性球、肌肉、心臟、胎盤、卵巢、***、睪丸、腫瘤組織(例如膀胱癌及腎癌)、患病組織(例如涉及發炎之組織(諸如涉及發炎之膀胱組織,及其他)及具有增加之細胞死亡的組織(諸如缺血或壞死組織或涉及外傷性損傷之組織)及感染傳染原(諸如病毒或細菌))之組織等。
因此,各種實施例可使用經標準化之量來確定第一組織類型,例如移植、胎兒、腫瘤或跨腎之比例濃度。舉例而言,可鑑別參考基因組中跨越多個組織類型全部低甲基化或全部高甲基化的第二組之CpG位點。可確定末端位於第二組之CpG位點中之任一者周圍的游離DNA分子的第二量。確定比例濃度可包括將第一量用第二量進行標準化,以獲得經標準化之第一量,將其與校準值進行比較。
C. 膀胱癌偵測
血漿之實例包括病變偵測。作為使用尿液偵測病變之實例,研究膀胱癌。
1. 基序分析
來自組織特異性低甲基化或高甲基化之末端基序頻率可用於偵測及監測諸如癌症之疾病。對來自39名無癌對照(中位數為7580萬對讀定序讀段(IQR:6050萬-1.55億))及46名膀胱癌患者(中位數為4200萬對讀定序讀段(IQR:3020萬-6040億))之尿液cfDNA進行定序。出於說明目的,計算來自尿液cfDNA之膀胱癌特異性高甲基化(n=5,060)及低甲基化(n=284,541)CpG的CGN/NCG基序比率。使用白細胞層、腎臟組織、尿道上皮及膀胱癌組織之亞硫酸氫鹽定序結果鑑別膀胱癌特異性高甲基化及低甲基化CpG位點。膀胱癌特異性高甲基化位點由在膀胱癌組織中甲基化密度超過70%但在白細胞層、尿道上皮及腎臟組織中甲基化密度低於30%之彼等CpG位點定義。膀胱癌特異性低甲基化位點由在膀胱癌組織中甲基化密度低於30%但在白細胞層、尿道上皮及腎臟組織中甲基化密度超過70%之彼等CpG位點定義。此類分析類似於章節VII.B。
圖112A-112B為展示來自對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中膀胱癌特異性高甲基化及低甲基化CpG之CGN/NCG基序比率的箱形圖。與對照相比,對於患有高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之彼等患者,跨越膀胱癌特異性高甲基化CpG觀測到顯著較高的CGN/NCG基序比率(分別地,P值=0.013及0.001;克拉斯卡-瓦立斯檢驗),且跨越膀胱癌特異性低甲基化CpG觀測到顯著較低的CGN/NCG基序比率(分別地,P值=0.013及<0.001;克拉斯卡-瓦立斯檢驗)。然而,在膀胱癌特異性高甲基化及低甲基化CpG中,未觀測到對照與患有低級別非肌層侵襲性膀胱癌(NMIBC LG)之患者之間CGN/NCG基序比率有顯著差異。
標準化可以與先前描述中類似之方式進行。因此,來自膀胱癌特異性高甲基化及低甲基化CpG之經標準化之CGN/NCG基序比率可用於膀胱癌診斷。
出於說明目的,分析參考高甲基化(n=7,833,538)及低甲基化(n=759,455)CpG之CGN/NCG基序比率。參考高甲基化位點由在膀胱癌組織、白細胞層、尿道上皮及腎臟組織中甲基化密度超過70%之彼等CpG位點定義。參考低甲基化位點由在膀胱癌組織、白細胞層、尿道上皮及腎臟組織中甲基化密度低於30%之彼等CpG位點定義。來自膀胱癌特異性高甲基化(腫瘤特異性M)及低甲基化(腫瘤特異性U)CpG之CGN/NCG基序比率可藉由來自參考高甲基化(參考M)及低甲基化(參考U)CpG之CGN/NCG基序比率如下標準化:
圖113為展示來自對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中膀胱癌特異性高甲基化及低甲基化CpG的經標準化之CGN/NCG基序比率的箱形圖。如圖113所示,與對照相比,在患有NMIBC LG、NMIBC HG及MIBC之患者之膀胱癌特異性高甲基化及低甲基化CpG中觀測到顯著較高的經標準化之CGN/NCG基序比率(P值<0.001,克拉斯卡-瓦立斯檢驗)。彼等結果指示,使用適當參考甲基化對組織特異性CGN/NCG基序比率進行標準化可改良信號雜訊比水準,使得診斷能力更佳。
2. 切割模式分析
來自組織特異性CpG之切割模式可適用於推斷不同組織對尿液cfDNA池之DNA貢獻,諸如膀胱癌患者中之膀胱癌DNA比例,其可用於膀胱癌診斷。此類分析可類似於章節VII.B.4中進行之分析。確定膀胱癌特異性高甲基化及低甲基化CpG位點之切割模式。此類切割剖析用於訓練SVM模型以進行膀胱癌偵測。
圖114為基於來自膀胱癌特異性高甲基化及低甲基化CpG位點之切割模式之SVM模型訓練以進行膀胱癌偵測的示意圖。該模型使用切割模式預測膀胱癌機率。如所示,使用11個來自高甲基化CpG位點及低甲基化CpG位點之鹼基,但可使用其他數目之鹼基。可將高甲基化位點處之切割模式(例如各位置處之切割比率)合併(例如各位置處之平均值),且可針對低甲基化位點進行相同操作。此兩個特徵向量可用以(例如)使用留一法策略來訓練SVM模型。
圖115A-115B展示基於切割模式進行膀胱癌偵測之效能。圖115A展示使用藉由來自膀胱癌特異性高甲基化及低甲基化CpG(SVM1)之切割模式訓練的SVM模型區分患有與未患膀胱癌之患者的ROC分析。模型效能(SVM1)提供0.904之AUC。
為進一步使切割模式之效用最大化,使用來自膀胱癌特異性高甲基化、膀胱癌特異性低甲基化、參考高甲基化及參考低甲基化CpG之切割模式建構SVM模型來進行膀胱癌偵測(SVM2)。因此,存在四個特徵向量,例如各自具有指定數目之切割比率,視位點周圍之窗的尺寸而定。參考位點跨越多個組織係高甲基化或低甲基化的,例如上文針對標準化所描述。相較於上文所示之SVM1(AUC:0.904),此細化模型效能(SVM2)顯示高達0.955之AUC的顯著改善(P=0.01,deLong檢驗)。
圖115B為展示在對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中藉由SVM2預測之膀胱癌機率的箱形圖。如所示,當個體患有癌症時,相較於非癌症,存在更高機率,且機率隨癌症階段而增加。
3. 3聚體末端基序分析
在一個實施例中,來自膀胱癌特異性高甲基化及低甲基化CpG之5' 3聚體末端基序、5'含CG之3聚體末端基序或其他甲基化相關cfDNA片段組學特徵可用於膀胱癌偵測。使用來自膀胱癌特異性高甲基化及低甲基化CpG之5'含CG之3聚體末端基序建構SVM模型以進行膀胱癌偵測。
圖116A為使用藉由來自膀胱癌特異性高甲基化及低甲基化CpG(SVM1)或來自膀胱癌特異性高甲基化及低甲基化CpG及參考高甲基化及低甲基化CpG(SVM2)之5'含CG之3聚體末端基序訓練的SVM模型區分患有與未患膀胱癌之患者的ROC分析。參考CpG如上文所定義。模型效能(SVM1)可達到0.901之AUC。相較於上文所示之SVM1(AUC:0.901),此細化模型效能(SVM2)顯示高達0.920之AUC的改善。
圖115B為展示在對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中藉由SVM2預測之膀胱癌機率的箱形圖。如所示,當個體患有癌症時,相較於非癌症,存在更高機率,且機率隨癌症階段而增加。
4. 藉由箱進行分析
一些實施例可進行每箱(基因組區域)分析,例如方法7200。可分析來自各箱之DNA片段以確定CpG位點周圍之末端基序頻率(例如CGN、NCG、C^GN或其比率,包括標準化值)。若箱具有異常CG末端基序頻率,則箱可標記為異常。異常箱的數量可用於偵測例如癌症之病變的等級。
舉例而言,CGN/NCG基序比率可用於反映尿液cfDNA之低甲基化程度,其可應用於膀胱癌偵測。對於各組,可比較CGN/NCG基序比率(或其他CG末端頻率)與例如由健康個體確定之參考(截止)值。因此,各箱可具有不同參考值,參考值可為基於標準偏差之下邊界(例如,與平均值相差3 STD)。若基序比率足夠低,則可推斷箱係低甲基化的。亦可確定高甲基化。異常箱之數目可與臨限值進行比較,臨限值可區分患有不同癌症等級之個體,例如患有癌症之個體與未患癌症之個體。
若進行標準化,則參考高甲基化位點(n=7,833,538)可由在膀胱癌組織、白細胞層、尿道上皮及腎臟組織中甲基化密度超過70%之彼等CpG位點定義。參考低甲基化位點(n=759,455)可由在膀胱癌組織、白細胞層、尿道上皮及腎臟組織中甲基化密度低於30%之彼等CpG位點定義。各組之CGN/NCG基序比率(箱R)可藉由來自參考高甲基化(參考M)及低甲基化(參考U)CpG之CGN/NCG基序比率如下標準化:
參考M及參考U之值係患者特異性的。
圖117為膀胱癌病例及無癌對照之示意圖。無癌對照分成探索集及測試集。在一個實例中,探索集中之15個無癌對照用於根據1 Mb箱建立跨越全基因組之基線標準化CGN/NCG基序比率。組可具有其他尺寸,例如100 kb、500 kb、2 MB、3 Mb等。
確定探索集之兩個項目。(1),藉由99%信賴區間確定判定箱是否異常之截止值,但可使用其他標準。在一個實例中,當標準化CGN/NCG基序比率低於探索集中標準化CGN/NCG基序比率之平均值的2.56 SD時,確定箱為顯著低之標準化CGN/NCG比率組。在一些其他實施例中,低於平均值之SD數目可為0.5、1、2、3、4、5、10等。
(2),用於區分癌症與非癌症之異常箱之數目的診斷臨限值。針對探索集,計算各情況下展示顯著低之CGN/NCG基序比率(稱為基序畸變)之箱的數目。藉由使用基於探測集之基序畸變值之平均值加2.56 SD來確定用於對患者是否患有癌症進行分類之診斷臨限值。在一些其他實施例中,高於平均值之SD數目可為0.5、1、2、3、4、5、10等。
接著使用來自(1)之每組截止值及來自(2)之臨限值分析膀胱癌病例及對照測試集。分析應用於探索數據集中不存在之所有剩餘病例(亦即測試集),包括24個無癌對照及46名膀胱癌患者。
圖118A-118B展示利用具有顯著低之標準化CGN/NCG基序比率(亦即,基序畸變)之箱的數目進行的膀胱癌診斷。圖118A為展示在對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中顯著低之標準化CGN/NCG基序比率箱(亦即,低甲基化)之量的箱形圖。膀胱癌病例具有更多異常箱。虛線表示探索集中所確定之截止值。圖118B為使用基序畸變區分患有與未患膀胱癌之患者的ROC分析。
如圖118A中所示,膀胱癌患者展示更大比例的具有基序畸變之1 Mb箱(P值<0.001,克拉斯卡-瓦立斯檢驗)。使用模基序畸變可達到0.95之AUC以區分癌症患者與非癌症對照(圖118B)。實現95.7%靈敏度及87.2%特異性。
基序畸變可用於偵測殘留病。出於說明目的,確定4名膀胱癌患者之成對手術前及手術後尿液cfDNA樣本中基序畸變之量(對讀定序讀段之中位數:6810萬;IQR:6220-7650萬)。
圖119展示使用展示來自膀胱癌患者之尿液cfDNA中顯著低之標準化CGN/NCG基序比率(亦即,基序畸變)之箱的量進行的殘留病診斷。如所示,在手術操作之前,所有4個病例均具有顯著低之標準化CGN/NCG基序比率之箱。手術操作後,在3個完全切除之病例之基序畸變大幅度減少至低於診斷截止值。已基於組織病理學分析證實此3個病例之完整切除。顯示持續基序畸變的病例已確認為邊緣陽性殘留病。此等結果表明使用CGN/NCG基序不僅可提供用於癌症偵測之工具,且亦允許用於癌症治療的預後監測。
來自其他組織特異性高甲基化或低甲基化CpG之甲基化相關尿液cfDNA片段組學特徵可用於偵測其他癌症。舉例而言,來自腎臟及***癌特異性高甲基化或低甲基化CpG之甲基化相關尿液cfDNA片段組學特徵可分別用於腎癌及***癌偵測。由於可偵測到跨腎DNA(例如,上文關於確定比例濃度所示),因此可偵測到cfDNA在血液中且接著進入尿液之其他癌症。尿液cfDNA中之甲基化相關片段化可用於對癌症亞型進行分類,諸如腺癌對比鱗狀細胞癌。可自靶向定序結果推斷來自特定區域之此類甲基化相關cfDNA片段組學特徵。靶向定序可基於(但不限於)基於探針之雜交、基於擴增子之定序、免疫沉澱隨後定序等。
此類技術可用於確定個體之病變等級之分類,例如與圖72之方法7200組合。多個游離DNA分子可來自參考基因組之多個區域中之第一區域,且其他多個可來自多個區域(組)中之其他區域。亦即,可如上文所描述分析各箱。第一量(CGN或NCG)與參考值(上文亦稱為截止值)之比較可指示第一區域之第一量是否異常。可針對多個區域中之各者進行此異常判定。可將異常區域之數目與臨限值進行比較以確定病變等級之分類。在一些實施方案中,對於多個區域中之各者,可將在第一位置處具有C且在第二位置處具有G之末端基序的各別量與例如上文所描述之區域特異性參考值進行比較。
D. 使用不同DMR之特徵向量區分不同癌症
在本揭示案之一些實施例中,已證明對某些基因組區域(例如具有組織特異性甲基化模式)之血漿DNA之CGN或NCG末端基序的相對量的分析能夠確定血漿DNA分子來源之組織,例如章節VIII.B.4中所描述。作為實例,組織特異性甲基化模式可包括高甲基化、低甲基化、5hmC富集或5hmC缺失區域。高甲基化區域可包括部分高甲基化區域,例如其中該區域相對於至少一種其他組織類型發生差異甲基化,但不一定相對於所有其他組織類型發生差異甲基化。低甲基化區域亦可包括部分低甲基化區域。探索使用此類區域使用一或多個含CG之3聚體末端基序(總共8種類型之末端基序)對多種癌症類型進行分類的可能性。
用於確定癌症或其他病變來源之組織的組織類型可包括各種癌症組織及/或非癌症組織中之一或多者。以下實例利用含CG之3聚體末端基序對多種癌症類型進行分類。可使用一些或全部3聚體。其他實施例可使用其他k聚體,其可表示相對於CpG位點之不同末端位置。
1. 使用不同癌症類型之 DMR 進行叢集
在一個實施例中,可使用跨越不同組織類型(包括癌症組織及非癌症組織)之一組組織資訊性甲基化標記物進行含CG之3聚體末端基序分析。非癌症組織可包括正常組織及與特定癌症組織相鄰之非惡性組織。
圖120展示使用膀胱癌作為實例定義組織資訊性甲基化標記物之示意圖。使用來自非癌症及癌症組織之亞硫酸氫鹽定序數據。非癌症組織包括血細胞、正常尿道上皮及正常腎臟。癌症組織包括三種類型之癌症組織:膀胱癌、腎癌及***癌。兩種類型之區域具有組織資訊性甲基化模式。一種為更具特異性之I型標記物,且另一種為不太具有特異性之II型標記物。兩種類型均具有高甲基化及低甲基化標記物。可使用任一或兩種類型,且可使用各種類型之組織資訊性甲基化模式。
視跨越不同組織之甲基化模式而定,可界定兩種類型之組織資訊性甲基化標記物,亦即I型及II型甲基化標記物。出於說明目的,使用膀胱癌之偵測作為實例。
I型高甲基化標記物定義為各者在目標癌症(例如,膀胱癌)之甲基化密度需要超過70%,而非癌症組織及兩個其他癌症組織中之各者的甲基化密度均需要低於30%之CpG。在此實例中,非癌症組織包括正常尿道上皮、血細胞及與腎癌相鄰之正常腎臟組織。兩種癌症組織包括腎癌及***癌組織。
I型低甲基化CpG定義為各者在目標癌症組織(例如,膀胱癌)之甲基化密度需要低於30%,而非癌症組織及兩個其他癌症組織(亦即,腎癌及***癌組織)中之各者的甲基化密度均需要超過70%之彼等CpG位點。
II型高甲基化標記物定義為各者在目標癌症組織(例如,膀胱癌)中之甲基化密度需要超過70%,而跨越非癌症組織及其他類型癌症(亦即,腎癌或***癌)中之至少一者對應CpG甲基化密度需要低於30%之CpG。
II型低甲基化CpG定義為各自顯示在目標癌症組織中甲基化密度低於30%,但在非癌症組織及其他類型癌症中之至少一者中甲基化密度超過70%之彼等CpG。I型與II型高甲基化標記物進行組合且稱為組織資訊性高甲基化標記物(例如膀胱癌資訊性高甲基化標記物)。I型與II型低甲基化標記物進行組合且稱為組織資訊性低甲基化標記物(例如膀胱癌資訊性低甲基化標記物)。類似地,可定義腎臟資訊性及***癌資訊性高甲基化標記物以及低甲基化標記物。
圖121展示利用含CG之末端基序之多個癌症聚類的示意圖。計算各患者總共64個基序特徵,包括來自膀胱癌、腎癌、***癌資訊性及組織共有之高甲基化及低甲基化CpG位點的含CG之末端基序(亦即,ACG、TCG、CCG、GCG、CGA、CGT、CGC、CGG)頻率。僅計算含CG之末端基序。在此實例中,ACG、TCG、CCG、GCG、CGA、CGT、CGC及CGG之頻率總和為100%,但可使用用以確定頻率之其他類型標準化。此64個基序特徵可用於不同個體之無監督聚類,例如所示不同患者ID。
當樣本為血漿或血清時,此類組織共有之位點可屬於樣本中存在之各種組織,諸如不同血細胞,以及身體之其他器官(例如肝臟、結腸、***、肺及胰臟)。
如圖121中所示,存在總共64個用於特徵向量之特徵,包括分別來自膀胱癌、腎癌及***癌資訊性高甲基化及低甲基化CpG位點的含CG之末端基序特徵[3個癌症類型×(8個高甲基化末端基序+8個低甲基化末端基序)=48];以及來自組織共有之高甲基化及低甲基化CpG位點的含CG之末端基序特徵(8 + 8 = 16)。
因此,對於各患者,將存在64個特徵之向量,用於確定存在哪一癌症類型。舉例而言,患者一具有64個特徵且指示患有膀胱癌。患者二亦具有64個特徵且標記為膀胱癌。將患者聚類以查看此等標記物是否可在無任何訓練下分離不同癌症類型。
舉例而言,針對總共72個尿液cfDNA樣本(包括46個膀胱癌、16個腎癌及10個***癌樣本)進行聚類分析。在一個實施例中,將來自組織資訊性高甲基化及低甲基化CpG之含CG之3聚體末端基序的頻率以及跨越所有組織之一組通常高甲基化或低甲基化CpG視為用於聚類分析之輸入特徵。跨越所有組織通常高甲基化及低甲基化CpG定義為正常尿道上皮、血球、正常腎臟、膀胱癌、腎癌及***癌組織中甲基化密度超過70%或低於30%,亦稱為組織共有之高甲基化及低甲基化CpG位點。可使用各種無監督聚類演算法,其可包括但不限於主成分分析(PCA)、t-分佈隨機鄰域嵌入(tSNE)、均勻流形近似和投影(UMAP)等。
圖122展示基於與組織資訊性及組織共有之CpG位點相關的5'含CG之3聚體末端基序對患有膀胱癌、腎癌及***癌之患者的無監督聚類分析。使用來自膀胱癌、腎癌及***癌資訊性高甲基化及低甲基化CpG及組織共有之高甲基化及低甲基化CpG的總共64個5'含CG之3聚體末端基序作為輸入特徵。
如所示,使用自組織資訊性及組織共有之CpG位點推斷的64個末端基序特徵,tSNE分析顯示膀胱癌患者傾向於聚集在一起,而腎癌患者及***癌患者聚集至另外兩個組中。此等結果表明,使用來自不同癌症之癌症組織資訊性CpG之cfDNA的含CG之末端基序確定癌症類型(亦即癌症位置)係可行的。
2. 使用多個二元分類對癌症類型進行分類
進一步嘗試使用上文所提及之64個輸入特徵產生可區分癌症類型之分類器。雖然在一個實施例中,使用支持向量機(SVM)來訓練分類器,但可使用其他機器學習模型,例如本文中所描述。在與尿液相關之不同類型的癌症中進行訓練。當血漿為樣本時可使用其他類型之癌症。此外,此類模型可區分是否存在癌症。在本實例中,癌症偵測作為初始分析,例如使用本文所描述之技術中之任一者或經由其他技術進行。
圖123展示利用多個二元分類進行多個癌症類型分類的示意圖。如所示,可基於癌症狀態對個體進行分類,亦即個體是否患有癌症。若測試個體分類為患有癌症,則個體將進一步進行癌症類型之分類。由於SVM通常用於二元分類,因此當考慮超過兩種癌症類型時,可使用多個二元分類來確定經偵測患有癌症之患者的癌症類型。出於說明目的,在此實例中,三種癌症類型(包括膀胱癌、腎癌及***癌)被視為可能癌症。
在步驟12310中,分類器將考慮個人是否患有膀胱癌(A組癌症)或非膀胱癌(包括腎癌與***癌兩者;表示為B組癌症)。在步驟12320中,使用針對特定癌症進行二元分類之三個分類器中之各者分析經鑑別患有癌症之個體的樣本。各分類器提供個體患特定癌症之機率,分類器針對該特定癌症進行訓練。舉例而言,癌症1分類器可提供個體患有膀胱癌之機率,且癌症2分類器可提供個體患有腎癌之機率。
計算各患者之上文提及之64個基序特徵中之各者,包括來自膀胱癌、腎癌、***癌資訊性及組織共有之高甲基化及低甲基化CpG位點的含CG之末端基序(亦即,ACG、TCG、CCG、GCG、CGA、CGT、CGC、CGG)頻率。基於此64個基序特徵,利用留一法策略訓練及測試三個SVM分類模型(亦即膀胱癌分類器、腎癌分類器及***癌分類器)。
藉由在A組與B組之間分析來自膀胱癌、腎癌、***癌資訊性及組織共有之CpG位點的末端基序特徵(亦即,64個特徵)來建構第一SVM分類器(稱為膀胱癌分類器)。
接著藉由分析用於第一SVM分類器中之相同組之末端基序特徵但使用不同患者組(亦即,患有腎癌之患者(A組)對比患有膀胱癌或***癌之患者(B組)來建構第二SVM分類器(稱為腎癌分類器)。因此,將藉由將另一類型之癌症(例如腎癌)改變為A組癌症及非腎癌(亦即膀胱癌及***癌)改變為B組癌症來重複分類分析。
藉由分析與用於前兩個SVM分類器中相同之末端基序特徵但比較不同患者組(亦即,患有***癌之患者(A組)對比患有其他癌症之患者(B組)來建構第三SVM分類器(稱為***癌分類器)。
圖124A-124B展示基於與組織資訊性及組織共有之CpG位點相關的5'含CG之3聚體末端基序的膀胱癌分類器之效能。圖124A為展示膀胱癌分類器預測患膀胱癌之機率的箱形圖。圖124B展示使用膀胱癌分類器區分患有膀胱癌之患者與患有其他癌症類型之患者的ROC分析。
如所示,使用膀胱癌分類器,患有膀胱癌之患者與患有腎癌及***癌之患者相比具有更高機率評分(中位數:0.979對比0.012;範圍:0.860-0.997對比0.005-0.036)。ROC分析顯示膀胱癌分類器之AUC確定為1.00以用於區分膀胱癌患者與其他癌症。
圖125A-125D展示基於與組織資訊性CpG位點以及組織共有之CpG位點相關的5'含CG之3聚體末端基序的腎癌及***癌分類器之效能。圖125A為展示腎癌分類器預測患腎癌之機率的箱形圖。圖125B展示使用腎癌分類器區分患有腎癌之患者與患有其他癌症類型之患者的ROC分析。圖125C為展示***癌分類器預測患***癌之機率的箱形圖。圖125D展示使用***癌分類器區分患有***癌之患者與患有其他癌症類型之患者的ROC分析。如所示,腎癌分類器及***癌分類器實現0.99及0.98之AUC以分別鑑別腎癌類型及***癌類型。
在使用不同癌症類型特異性分類模型確定機率評分之後,產生最高機率評分之癌症類型可視為所測試個體最可能罹患之癌症類型。作為說明性實例,使用3個分類器(亦即膀胱癌分類器、腎癌分類器、***癌分類器)對樣本進行分類。使用此3個分類器之樣本機率評分分別為0.91、0.12及0.08。由於在膀胱癌分類器中樣本具有最高機率評分,因此基於此分析之結果,膀胱癌視為患者最可能罹患之癌症類型。如表3中所示,基於多個二元分類之分析顯示97.2%(70/72)之總體準確度,其中針對膀胱癌、腎癌及***癌之準確度分別為100%(46/46)、93.8%(15/16)及90%(9/10)。
表3.根據多個二元分類器之最大機率評分,基於與組織資訊性及組織共有之CpG位點相關之5'含CG之3聚體末端基序的膀胱癌、腎癌及***癌分類之效能。
3. 使用一個多元分類對癌症類型進行分類
癌症類型 | 預測為膀胱癌 | 預測為腎癌 | 預測為***癌 |
膀胱癌 ( N = 46 ) | 46 (100%) | 0 | 0 |
腎癌 ( N = 16 ) | 0 | 15 (93.8%) | 1 |
***癌 ( N = 10 ) | 0 | 1 | 9 (90%) |
一些實施例可使用多元分類模型(例如卷積神經網路(CNN))分析多種癌症類型,而不使用與組織資訊性及組織共有之CpG位點相關的含CG之末端基序重複進行多個二元分類。在多元分類模型中,存在提供多個機率(例如,在以上實例中每三種差異癌症之三個機率)之一個模型。作為一實例,相同輸入特徵可為以上實例中之64個含CG之末端基序。
圖126A-126B展示基於含CG之基序使用CNN模型之多個癌症分類的示意圖。分析來自組織資訊性高甲基化及低甲基化CpGs以及一組組織共有之高甲基化或低甲基化CpG的含CG之3聚體末端基序之頻率。存在總共64個特徵,包括分別來自膀胱癌、腎癌及***癌資訊性高甲基化及低甲基化CpG位點的含CG之末端基序特徵[3個癌症類型×(8個高甲基化末端基序+8個低甲基化末端基序)=48];以及來自組織共有之高甲基化及低甲基化CpG位點的含CG之末端基序特徵(8 + 8 = 16)。
此64個特徵用於建構輸入矩陣12620,其中行表示含CG之基序之類型(亦即,ACG、TCG、CCG、GCG、CGA、CGT、CGC、CGG)而列表示計算之基序頻率。舉例而言,來自膀胱癌資訊性高甲基化CpG之「ACG」基序頻率(13.21)填充於「膀胱癌資訊性高甲基化」之行與「ACG」之列之間的對應格中。存在來自CNN之總和為1的三個輸出機率。具有最高機率之標記可指示測試個體可能經歷之癌症類型。
進行留一法策略,用於訓練CNN模型及測試效能。存在來自CNN之總和為1的三個輸出機率。具有最高機率之標記可指示測試個體可能經歷之癌症類型。舉例而言,若對於膀胱癌、腎癌及***癌,三個輸出機率分別為0.1、0.2及0.7,則基於此分析,***癌視為最可能癌症類型。若對於三種類型癌症,三個輸出機率分別為0.8、0.1及0.1,則膀胱癌視為最可能癌症類型。若對於三種類型癌症,三個輸出機率分別為0.1、0.6及0.3,則腎癌視為最可能癌症類型。
表4顯示約91.7%(66/72)之總體準確度,其中針對膀胱癌、腎癌及***癌之準確度分別為100%(46/46)、81.3%(13/16)及70%(7/10)。在另一實施例中,可在來自其他體液(諸如血漿、腦脊髓液、唾液、胸膜液等)之cfDNA中進行多種癌症分類分析。在一些實施例中,癌症類型可超過三種,包括肝癌、大腸直腸癌、肺癌等。在其他實施例中,可使用其他多元分類模型,包括決策樹、隨機森林、深度神經網路、循環神經網路等。
癌症類型 | 預測為膀胱癌 | 預測為腎癌 | 預測為***癌 |
膀胱癌 ( N = 46 ) | 46 (100%) | 0 | 0 |
腎癌 ( N = 16 ) | 0 | 13 (81.3%) | 3 |
***癌 ( N = 10 ) | 0 | 3 | 7 (70.0%) |
表4.根據CNN模型之最大機率評分,基於與組織資訊性及組織共有之CpG位點相關之5'含CG之3聚體末端基序的膀胱癌、腎癌及***癌分類之效能。
在訓練集之更多樣本下,模型可改良。當使用更多癌症類型時,將使用更多輸入特徵,此對多類模型之益處可能超過個別二元分類器。
因此,當分類可使用多個組織類型(包括第一組織類型)之差異甲基化區域時,可分析來自生物樣本之其他組之游離DNA分子。各組游離DNA分子位於參考基因組之各別組之一或多個區域中,其中各別組之一或多個區域中之各者在多個組織類型之各別組織類型中係低甲基化的或高甲基化的。如圖126A所示,特徵向量可形成矩陣,其中各列對應於參考基因組之各別組之一或多個區域中的一者。行可對應於第一組中各序列基序之各別量,且機器學習模型可為卷積神經網路。
XII. 治療 A. 進一步篩選模態
基於例如關於病變或臨床相關DNA之比例濃度的任何分類,個體可參考額外篩選模態,例如使用胸部X射線、超音波、電腦斷層攝影術、磁共振成像或正電子發射斷層掃描。此類篩選可針對癌症進行。
B. 治療選擇
本揭示案之實施例可準確地預測疾病復發,從而促進早期干預及選擇合適治療來改善個體之疾病結果及總存活率。舉例而言,在個體之對應樣本可預測疾病復發的情況下,可為該等個體選擇增強型化學療法。在另一實例中,可對已完成初始治療之個體的生物樣本進行定序以鑑別可預測疾病復發之病毒DNA。在此類實例中,可為個體選擇替代治療方案(例如,更高劑量)及/或不同治療,因為個體之癌症可能已對初始治療產生抗性。
實施例亦可包括回應於確定病變復發之分類來治療個體。舉例而言,若預測對應於局部病灶,則可選擇手術作為可能治療。在另一實例中,若預測對應於遠端轉移,則可額外選擇化學療法作為可能治療。在一些實施例中,治療包括手術、放射療法、化學療法、免疫療法、靶向療法、激素療法、幹細胞移植或精準醫學。為降低傷害個體之風險且增加總體存活率,可基於確定之復發分類來開發治療計劃。實施例可進一步包括根據治療計劃治療個體。
C. 治療類型
實施例可進一步包括在確定個體之分類之後治療患者之病變。可根據所確定之病變等級、臨床相關DNA之比例濃度或來源之組織來提供治療。舉例而言,可用特定的藥物或化學療法靶向治療之突變。來源之組織可用於指導手術或任何其他形式之治療。並且,病變等級可用於確定使用任何類型之治療時的侵襲性程度,其亦可基於病變等級來確定。病變(例如癌症)可藉由化學療法、藥物、膳食、療法及/或手術來治療。在一些實施例中,參數(例如量或尺寸)之值超出參考值愈多,治療愈具攻擊性。
治療可包括切除術。作為一實例,對於膀胱癌,治療可包括經尿道膀胱腫瘤切除術(TURBT)。此程序用於診斷、分級及治療。在TURBT期間,外科醫生經由尿道將膀胱鏡***至膀胱中。接著使用具有小導線環、雷射或高能電力之工具移除腫瘤。對於非肌層侵襲性膀胱癌(NMIBC)患者,TURBT可用於治療或消除癌症。另一治療可包括根治性膀胱切除術及淋巴結剝離。根治性膀胱切除術係移除整個膀胱及可能周圍組織及器官。治療亦可包括尿路分流術。尿路分流術係在移除膀胱作為治療之一部分時,醫師創建用於尿液排出身體外之新路徑。
治療可包括化學療法,其使用藥物來破壞癌細胞,通常保持癌細胞避免生長及***。藥物可涉及例如(但不限於)用於膀胱內化學療法之絲裂黴素-C(mitomycin-C)(可用作一般藥物)、吉西他濱(gemcitabine)(Gemzar)及噻替派(thiotepa)(Tepadina)。全身性化學療法可涉及例如(但不限於)吉西他濱(gemcitabine)、甲胺喋呤(methotrexate)(Rheumatrex,Trexall)、長春鹼(Velban)、阿黴素(doxorubicin)及順鉑。
在一些實施例中,治療可包括免疫療法。免疫療法可包括阻斷稱作PD-1之蛋白質的免疫檢查點抑制劑。抑制劑可包括(但不限於)阿替利珠單抗(atezolizumab)(Tecentriq)、納武利尤單抗(nivolumab)(Opdivo)、阿維魯單抗(avelumab)(Bavencio)、德瓦魯單抗(durvalumab)(Imfinzi)及派立珠單抗(pembrolizumab)(Keytruda)。
治療實施例亦可包括靶向療法。靶向療法為靶向作用於有助於癌症生長及存活之癌症特異性基因及/或蛋白質的治療。舉例而言,厄達替尼(erdafitinib)為經口給予之藥物,其經批准用於治療患有具有FGFR3或FGFR2基因突變之局部晚期或轉移性尿道上皮癌的人,該尿道上皮癌具有持續生長或擴散之癌細胞。
一些治療可包括放射療法。放射療法可包括使用高能量光子(例如,x射線)或其他粒子來破壞癌細胞。除各個別治療之外,亦可使用本文中所描述之此等治療之組合。在一些實施例中,當參數之值超出自身超出參考值之臨限值時,可使用治療之組合。參考文獻中關於治療之資訊以引用之方式併入本文中。
XIII. 示例系統
圖127示出根據本揭示案之一實施例的量測系統12700。所示系統在分析裝置12710內包括諸如游離DNA分子之樣本12705,其中可對樣本12705執行分析12708如所繪示。舉例而言,樣本12705可與分析12708之試劑接觸以提供物理特徵12715之信號。分析裝置之實例可為包括分析之探針及/或引物或微滴移動穿過之管(其中微滴包括分析)的流量槽。用偵測器12720偵測樣本之物理特性12715(例如,螢光強度、電壓或電流)。偵測器12720可按時間間隔(例如,週期性時間間隔)進行量測,獲得構成數據信號之數據點。在一個實施例中,類比至數位轉換器在多個時間將來自偵測器之類比信號轉換成數位形式。分析裝置12710及偵測器12720可形成分析系統,例如根據本文所描述之實施例執行定序之定序系統。將資料信號12725自偵測器12720發送至邏輯系統12730。作為一實例,資料信號12725可用於確定DNA分子之參考基因組中之序列及/或位置。資料信號12725可包括在同一時間作出之各種量測結果,例如用於樣本12705之不同分子之螢光染料的不同顏色或不同電信號,且因此資料信號12725可對應於多個信號。資料信號12725可儲存於局部記憶體12735、外部記憶體12740或儲存裝置12745中。
邏輯系統12730可為或可包括電腦系統、ASIC、微處理器、圖形處理單元(GPU)等。其亦可包括顯示器(例如,監測器、LED顯示器等)及使用者輸入裝置(例如,滑鼠、鍵盤、按鈕等)或與該等組件耦接。邏輯系統12730及其他組件可為獨立的或網路連接之電腦系統的一部分,或其可直接連接至包括偵測器12720及/或分析裝置12710之裝置(例如定序裝置)或併入其中。邏輯系統12730亦可包括在處理器12750中實行之軟體。邏輯系統12730可包括電腦可讀媒體,該電腦可讀媒體儲存用於控制量測系統12700以執行本文所描述之方法中之任一者的指令。舉例而言,邏輯系統12730可向包括分析裝置12710之系統提供命令,使得定序或其他物理操作得以執行。此類物理操作可以特定次序執行,例如以特定次序添加及移除試劑。此類物理操作可由可用以獲得樣本及進行分析之機器人(例如包括機器手臂)系統進行。
量測系統12700亦可包括可向個體提供治療之治療裝置12760。治療裝置12760可確定治療及/或用於執行治療。該治療之實例可包括手術、放射療法、化學療法、免疫療法、靶向療法、激素療法及幹細胞移植。邏輯系統12730可連接至治療裝置12760,例如以提供本文所描述之方法之結果。治療裝置可自諸如成像裝置及使用者輸入之其他裝置接收輸入(例如以控制治療,諸如對機器人系統進行控制)。
本文中提及之任何電腦系統可利用任何適合數目之子系統。此類子系統之實例展示於圖128之電腦系統10中。在一些實施例中,電腦系統包括單一電腦設備,其中子系統可為電腦設備之組件。在其他實施例中,電腦系統可包括具有內部組件之多個電腦設備,其各自為一個子系統。電腦系統可包括桌上型及筆記本電腦、平板電腦、行動電話及其他移動裝置。
展示於圖128中之子系統經由系統匯流排75互連。顯示額外子系統,諸如打印機74、鍵盤78、一或多個儲存裝置79、與顯示配接器82耦接之監測器76(例如顯示螢幕,諸如LED)及其他裝置。耦合至輸入/輸出(I/O)控制器71之周邊裝置及I/O裝置可藉由此項技術中已知之多種構件(諸如輸入/輸出(I/O)埠77(例如USB、FireWire®))連接至電腦系統。例如,I/O埠77或外部介面81(例如乙太網路(Ethernet)、Wi-Fi等)可用於將電腦系統10連接至廣域網路(諸如網際網路)、滑鼠輸入裝置或掃描儀。經由系統匯流排75實現之互連允許中央處理器73與各子系統通信及控制來自系統記憶體72或儲存裝置79(例如固接磁碟,諸如硬碟機,或光碟)之多個指令之執行,以及子系統之間的資訊交換。系統記憶體72及/或儲存裝置79可包括電腦可讀媒體。另一子系統為資料收集裝置85,諸如照相機、麥克風、加速計及其類似物。本文所提及之任何資料可自一個組件輸出至另一個組件且可輸出給使用者。
電腦系統可包括多個相同組件或子系統,例如藉由外部介面81、藉由內部介面或經由可抽換式儲存裝置連接到一起,該等可抽換式儲存裝置可自一個組件連接且抽換至另一組件。在一些實施例中,電腦系統、子系統或設備可經網路通信。在該等情況下,可將一個電腦視為用戶端且另一個電腦視為伺服器,其中各者可為同一電腦系統之一部分。用戶端及伺服器可各自包括多個系統、子系統或組件。
實施例之態樣可使用硬體電路(例如,特殊應用積體電路或場可程式化閘陣列)及/或使用以模組化或整合式方式儲存於具有大體可程式化處理器之記憶體中的電腦軟體以邏輯控制形式實施,且因此處理器可包括儲存組態硬體電路之軟體指令的記憶體以及具有組態指令之FPGA或ASIC。如本文所用,處理器可包括單核處理器、同一個積體晶片上之多核處理器或單一電路板或網路硬體以及專用硬體上之多個處理單元。基於本揭示案及本文中所提供之教示內容,本領域中一般熟習此項技術者將瞭解使用硬體及/或硬體與軟體之組合實施本揭示案之實施例的其他方式及/或方法。
本申請案中所描述之任何軟體組件或功能可使用例如習知或面向對象技術,以軟體程式碼形式實施,軟體程式碼係由處理器使用任何適合電腦語言(諸如Java、C、C++、C#、Objective-C、Swift)或腳本處理語言(諸如Perl或Python)執行。軟體程式碼可以一系列指令或命令形式儲存於電腦可讀媒體上以用於儲存及/或傳輸。合適之非暫時性電腦可讀媒體可包括隨機存取記憶體(RAM)、唯讀記憶體(ROM)、磁性媒體(諸如硬碟機或軟磁碟)或光學媒體(諸如密閉磁碟(CD)或數位光碟(DVD)或藍光光碟)、快閃記憶體及其類似裝置。電腦可讀媒體可為此類裝置之任何組合。另外,可重新配置操作之次序。處理程序可在其操作完成時終止,但可具有不包括於圖式中之額外步驟。處理程序可對應於方法、函式、程序、次常式、子程式等。當處理程序對應於函式時,其終止可對應於函式傳回至呼叫函式或主函式。
此類程式亦可使用適用於經由符合多種協定之有線、光學及/或無線網路(包括網際網路)傳輸的載波信號來編碼及傳輸。因而,電腦可讀媒體可使用經由此類程式編碼的資料信號建立。以程式碼編碼之電腦可讀媒體可與相容裝置一起封裝或與其他裝置分開提供(例如藉助於網際網路下載)。任何該等電腦可讀媒體可存在於單一電腦產品(例如硬碟機、CD或整個電腦系統)上或其內部,且可存在於系統或網路內之不同電腦產品上或其內部。電腦系統可包括用於向使用者提供本文所提及之任何結果的監測器、打印機、或其他適合之顯示器。
本文所述之任何方法可完全或部分地使用電腦系統來執行,該電腦系統包括一或多個經組態可執行該等步驟的處理器。可即時地執行藉由處理器執行之任何操作(例如比對、確定、比較、運算、計算)。術語「
即時」可指在某一時間限制內完成的運算操作或過程。時間限制可為1分鐘、1小時、1天或7天。因此,實施例可關於經組態以執行本文所描述之任何方法之步驟的電腦系統,其潛在地具有執行相應步驟或相應步驟組的不同組件。儘管以帶編號之步驟形式呈現,但本文中之方法之步驟可同時或在不同時間或以不同順序執行。此外,此等步驟之一部分可與其他方法之其他步驟之一部分一起使用。又,所有或部分步驟可為視情況選用的。此外,任何方法之任何步驟可使用用於執行此等步驟之系統的模組、單元、電路或其他構件來進行。
可在不脫離本揭示案之實施例的精神及範疇的情況下以任何適合方式組合特定實施例之特定細節。然而,本揭示案之其他實施例可關於與各個別態樣或此等個別態樣之特定組合相關的特定實施例。
已出於說明及描述之目的呈現本揭示案之例示性實施例的上述描述。其並不意欲為詳盡的或將本揭示案限於所描述之精確形式,且鑒於以上教示,許多修改及變化為可能的。
除非特別相反指示,否則「一(a/an)」或「該(the)」之敍述意欲意謂「一或多個(種)」。除非特別相反指示,否則「或」之使用欲意謂「包括或」而並非「互斥或」。提及「第一」組件不一定需要提供第二組件。此外,除非明確陳述,否則提及「第一」或「第二」組件不會將所提及組件限於特定位置。術語「基於」意指「至少部分地基於」。
申請專利範圍經擬定可排除可視情況選用之任何要素。因此,此陳述旨在與對所主張要素之敍述結合,充當使用諸如「僅僅(solely)」、「僅(only)」及其類似術語之排他性術語或使用「否定性」限制的前提基礎。
本文所提及之所有專利、專利申請案、公開案及描述均出於所有目的以全文引用之方式併入。不承認任一者為先前技術。當本申請案與本文所提供之參考文獻之間存在衝突時,應以本申請案為準。
10:電腦系統
71:輸入/輸出(I/O)控制器
72:系統記憶體
73:中央處理器
74:打印機
75:系統匯流排
76:監測器
77:輸入/輸出(I/O)埠
78:鍵盤
79:儲存裝置
81:外部介面
82:顯示配接器
85:資料收集裝置
102:CpG位點
110:片段
120:片段
400:cfDNA分子
401:共同接頭
410:共同正向引物
420:區域特異性反向引物
430:探針
440:探針
500:cfDNA分子
501:共同接頭區域
510:引物
520:引物
530:引物
601:甲基化之相關末端基序
602:未甲基化之相關末端基序
605:位點
608:位點
610:位點
620:方法
630:方法
700:一組游離DNA片段
710:切割量測窗
720:參考序列
810:甲基化CpG位點
820:未甲基化CpG位點
910:黑線
920:灰黑線
1010:黑色實線
1020:灰色虛線
1030:黑色虛線
1040:灰色實線
1105:切割位點
1110:範圍
1301:CG
1305:黑色條
1401:第一C
1402:第二C
1403:虛線
1404:虛線
1405:切割密度
1501:第一C
1502:第二C
1503:顯著峰
1504:峰
1505:顯著峰
1601:峰
1701:位置
1707:示意圖
1709:示意圖
1720:紅線
1730:藍線
1810:特徵向量
2220:矩陣
2230:組合矩陣
2700:方法
2710:區塊
2720:區塊
2730:區塊
4100:方法
4110:區塊
4120:區塊
4130:區塊
4205:片段
4210:參考基因組
4400:方法
4410:區塊
4420:區塊
4430:區塊
4440:區塊
4450:區塊
4510:II組CpG
4520:I組CpG
4700:方法
4710:區塊
4720:區塊
4730:區塊
5405:黑線
5410:灰線
5800:方法
5810:區塊
5820:區塊
5830:區塊
5840:區塊
6210:探針
6220:DNA模板序列
6230:共同接頭
6615:共同接頭區域
6645:共同正向引物
6650:區域特異性反向引物
7200:方法
7210:區塊
7220:區塊
7230:區塊
7240:區塊
8400:方法
8410:區塊
8420:區塊
8430:區塊
9605:訓練集
9615:測試集
9625:步驟
9635:步驟
9900:方法
9910:區塊
9920:區塊
9930:區塊
10310:雙鏈cfDNA分子
10320:共同接頭
10330:區域特異性反向引物
10340:引物
10350a:引物
10350b:引物
12310:步驟
12320:步驟
12620:輸入矩陣
12705:樣本
12708:分析
12710:分析裝置
12715:物理特徵
12720:偵測器
12725:資料信號
12730:邏輯系統
12735:局部記憶體
12740:外部記憶體
12745:儲存裝置
12750:處理器
12760:治療裝置
圖1示出根據本揭示案之實施例相對於CpG位點(亦稱為CG位點)之切割位置。
圖2A-2B展示根據本揭示案之實施例,甲基化指標視5'末端與CpG位點之間的距離而不同。
圖3展示根據本揭示案之實施例的多個4聚體末端基序及由具有特定4聚體末端基序之片段覆蓋的甲基化CpG位點百分比。
圖4展示根據本揭示案之實施例使用微滴式數字PCR確定所關注區域中之NCG及CGN末端基序之方法的一個實例。
圖5為根據本揭示案之實施例藉由選擇性地擴增含有NCG或CGN末端基序之DNA進行定序文庫製備的示例工作流程。
圖6展示根據本揭示案之實施例基於片段化模式之甲基化狀態推斷的示意圖。
圖7示出根據本揭示案之實施例使用切割模式之切割比率的定義。
圖8展示根據本揭示案之實施例甲基化CpG位點與未甲基化CpG位點之間的切割模式之比較。
圖9-10展示根據本揭示案之實施例不同序列背景(包括CCG)及甲基化狀態相關之窗的切割模式。
圖11展示通過相鄰CpG位點處將cfDNA分組的示意圖。
圖12A-12B展示多個相鄰CpG之甲基化模式對CGN/NCG基序比率的影響。
圖13示出根據本揭示案之實施例使用標準化之切割密度進行切割模式的標準化。
圖14示出根據本揭示案之實施例基於兩個各種甲基化組合之CpG位點之切割密度的切割模式。
圖15提供根據本揭示案之實施例基於三個各種甲基化組合之CpG位點之切割密度的切割模式。
圖16展示根據本揭示案之實施例的含有CCG及甲基化狀態之測量窗的切割密度。
圖17展示根據本揭示案之實施例使用切割密度對甲基化CpG位點與未甲基化CpG位點之間的切割模式之比較。
圖18展示根據本揭示案之實施例使用支持向量機(SVM)將CpG位點分類為高甲基化或低甲基化的工作流程。
圖19展示根據本揭示案之實施例基於切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。
圖20展示根據本揭示案之實施例基於雙鏈DNA之切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。
圖21A-22B展示根據本揭示案之實施例基於不同序列背景下之切割模式使用支持向量機(SVM)進行單CpG位點甲基化狀態預測之效能。
圖22展示根據本揭示案之實施例基於切割模式及序列背景使用CNN模型進行甲基化狀態預測的示意圖。
圖23A展示根據本揭示案之實施例基於切割模式及序列背景使用CNN進行單CpG位點甲基化狀態預測之效能。圖23B展示39個尿液游離DNA(ucfDNA)樣本在高甲基化與低甲基化CpG位點之位置-1及+1處切割比率之和的比較。
圖24A展示基於排除位置0之切割模式及序列背景使用CNN模型進行單CpG位點甲基化狀態預測之效能。圖24B展示基於排除位置-1、0及1之切割模式及序列背景使用CNN模型進行單CpG位點甲基化狀態預測之效能。
圖25A-25F為示出高甲基化CpG與低甲基化CpG之間血漿及尿液(ucfDNA)之各種位置之平均切割比率的差異的箱形圖。
圖26A-26C展示用於確定8個血漿DNA樣本中具有不同甲基化程度之CpG之甲基化程度(例如,密度)的定量值的各種技術之比較。
圖27為根據本揭示案之實施例用於基於片段化確定位點處之甲基化之方法的流程圖。
圖28展示根據本揭示案之實施例之CGN及NCG末端基序的甲基化指標。
圖29展示根據本揭示案之實施例來自8個健康對照樣本之高甲基化及低甲基化區域中CGN及NCG末端基序之O/E比率。
圖30示出根據本揭示案之實施例,使用TSS區域之3聚體末端基序確定二元分類或回歸。
圖31A-31B展示根據本揭示案之實施例的示例訓練程序。
圖32A-32B及33A-33B展示根據本揭示案之實施例的不同k聚體末端基序之二元分類結果。
圖34A展示根據本揭示案之實施例基於區域末端基序頻率或末端基序之O/E比率使用SVM進行區域甲基化狀態預測的效能。
圖34B展示根據本揭示案之實施例基於區域末端基序頻率使用SVR進行區域甲基化密度估計之效能。
圖35示出根據本揭示案之實施例使用針對各區域之基序之預期頻率進行的標準化(區域標準化)。
圖36展示根據本揭示案之實施例使用SVM模型進行二元分類之結果,該SVM模型使用經背景標準化(區域標準化)之末端基序。
圖37展示根據本揭示案之實施例使用分子中之預期基序頻率基於每分子背景之標準化。
圖38展示根據本揭示案之實施例的未標準化、區域標準化及每分子標準化之3聚體基序的結果。
圖39展示根據本揭示案之實施例的不同2聚體末端基序之標準化頻率(區域標準化)的差異。
圖40展示根據本揭示案之實施例的不同3聚體末端基序之標準化頻率(區域標準化)的差異。
圖41為說明根據本揭示案之實施例用於預測區域中之甲基化之方法的流程圖。
圖42展示根據本揭示案之實施例用於在單分子層面下預測甲基化狀態之機器學習模型的示例工作流程。
圖43A展示根據本揭示案之實施例基於末端基序、序列背景、片段尺寸使用CNN對單分子進行甲基化狀態分析的效能。
圖43B展示根據本揭示案之實施例基於CNN模型使用具有CGN及NCG末端基序之分子對單分子進行甲基化狀態分析的效能。
圖44為說明根據本揭示案之實施例用於預測單個DNA片段之甲基化之方法的流程圖。
圖45A-45B為展示5hmC富集區域與5hmC缺失區域之間的CGN及NCG基序之O/E比率的箱形圖。
圖46A-46B展示基於5'含CG之3聚體末端基序進行5hmC預測的效能。
圖47為說明用於使用游離DNA分子量測個體之基因組中之區域的5hmC甲基化之方法的流程圖。
圖48A及48B展示根據本揭示案之實施例的胎兒特異性高甲基化及低甲基化區域之基序頻率。
圖49A-49B展示根據本揭示案之實施例基於源自胎盤特異性高甲基化CpG位點(圖49A)及胎盤特異性低甲基化CpG位點(圖49B)之血漿DNA分子的CGN/NCG比率與胎兒DNA比例之間的相關性。
圖50A-50B展示根據本揭示案之實施例基於源自胎盤特異性高甲基化CpG位點(50A)及胎盤特異性低甲基化CpG位點(50B)之血漿DNA分子的NCG及CGN基序頻率與胎兒DNA比例之間的相關性。
圖51展示根據本揭示案之實施例,藉由基於SNP之方法推斷之胎兒DNA比例(x軸)與使用來自胎盤特異性高甲基化及低甲基化CpG之CGN/NCG比率預測的胎兒DNA比例(y軸)的相關性。
圖52展示基於血液及肝臟之組織特異性甲基化CpG之CGN/NCG基序比率分析的示意圖。
圖53A-53B展示來自健康對照、肝臟移植案例及妊娠案例之血漿DNA中之不同組織特異性高甲基化(圖53A)及低甲基化(圖53B)CpG的CGN/NCG基序比率。
圖54A-54B展示根據本揭示案之實施例胎兒特異性甲基化反映在cfDNA片段化之切割模式上。
圖55及56展示根據本揭示案之實施例確定無細胞樣本(例如血漿)中之胎兒DNA比例之SVR模型的標記物選擇、數據收集及訓練。
圖57展示根據本揭示案之實施例由切割模式及基於SNP之方法推斷之胎兒DNA比例之間的相關性。
圖58為根據本揭示案之實施例說明用於確定臨床相關DNA之比例之方法的流程圖。
圖59A-59C展示根據本揭示案之實施例說明健康對照與肝癌(HCC)病例之間全基因組甲基化密度(圖59A)、全基因組CGN/NCG比率(圖59B)及
Alu區域之CGN/NCG比率(圖59C)之差異的盒狀圖。
圖60A-60D展示根據本揭示案之實施例說明健康對照與HCC病例之間來自全基因組及Alu區域之CGN及NCG基序頻率之差異的箱形圖。
圖61展示根據本揭示案之實施例來自健康對照、HCC、頭頸部癌(HNSCC)、結腸癌(CRC)、肺癌(LC)及鼻咽癌(NPC)之
Alu區域CGN/NCG比率。
圖62展示根據本揭示案之實施例使用微滴式數字PCR(ddPCR)確定所關注區域中之NCG及CGN基序的示例技術及探針之示例結構。
圖63A-63B展示根據本揭示案之實施例用於潛在實驗設計之前10個CG探針及前10個NCG探針。
圖64展示根據本揭示案之實施例,在健康對照及患有HCC、HNSCC、CRC、LC或NPC之個體中藉由利用含有
Alu相關序列「CGCCTGT」及「TCGCTTGA」之探針的ddPCR分析對CGN/NCG比率之電腦模擬分析。
圖65A-65E展示根據本揭示案之實施例,使用藉由電腦模擬ddPCR分析獲得之CGN/NCG比率區分患有HCC、HNSCC、CRC、LC或NPC之患者與健康對照的ROC分析。
圖66展示使用qPCR確定所關注區域中之NCG及CGN基序的示例方法。
圖67A-67C展示用於設計引物及探針之實例。
圖68A-68B展示來自qPCR(A)及ddPCR(B)之測試結果。gDNA表示機械片段化之gDNA樣本且用作qPCR分析中之陰性對照。
圖69A-69B展示自不同尺寸範圍內的健康個體cfDNA之單分子即時定序讀段合集在推定高甲基化及低甲基化CpG中的CGN/NCG基序比率。
圖70A-70C為展示健康個體(健康)、HBV攜帶者(HBV)及HCC病例中短cfDNA片段(<=200 bp;70A)及長cfDNA片段(>=1000 bp;70B)之總體CGN/NCG基序比率及短cfDNA片段(<=200 bp)與長cfDNA片段(>=1000 bp)之間CGN/NCG基序比率差異(70C)的箱形圖。
圖71A-71B展示基於CGN/NCG基序比率與尺寸信息進行HCC偵測的效能。
圖72為說明根據本揭示案之實施例用於確定病變程度之方法的流程圖。
圖73A及73B展示根據本揭示案之實施例基於來自肝臟特異性高甲基化及低甲基化區域之CGN/NCG基序比率進行HCC偵測的效能。
圖74A及74B展示根據本揭示案之實施例基於來自肝臟特異性低甲基化區域之3聚體末端基序頻率使用SVM進行HCC偵測的效能。
圖75A-75B展示基於來自HCC特異性高甲基化及低甲基化CpG之含CG之3聚體末端基序進行HCC偵測的效能。
圖76展示使用來自HCC特異性高甲基化及低甲基化CpG之合併數據向量區分患有HCC與未患HCC之患者的ROC分析。
圖77展示根據本揭示案之實施例的示例標記物選擇及數據收集。
圖78展示根據本揭示案之實施例,包括生成多個個體之切割模式以用於訓練機器學習模型的工作流程。
圖79A、79B及80展示根據本揭示案之實施例,藉由使用來自胎盤特異性高甲基化位點(圖79A)、胎盤特異性低甲基化位點(圖79B)或胎盤特異性高甲基化位點與低甲基化位點之組合(圖80)的切割模式對妊娠及非妊娠個體進行之PCA分析。
圖81展示基於切割模式進行HCC偵測之效能。
圖82展示定義組織資訊性甲基化標記物之示意圖。
圖83A展示基於與組織資訊性及組織共有甲基化CpG位點相關的5'含CG之3聚體末端基序對HCC及CRC患者的無監督聚類分析。圖83B-83C展示基於與組織資訊性及組織共有甲基化CpG位點相關的5'含CG之3聚體末端基序的HCC分類器之效能。
圖84為根據本揭示案之實施例用於使用組織特異性差異甲基化區域確定特定組織之病變程度之方法的流程圖。
圖85A-85B展示基於來自富集5hmC及缺失5hmC之HCC特異性CpG的5'含CG之3聚體末端基序進行HCC偵測的效能。
圖86A-86B展示根據本揭示案之實施例基於來自血漿EBV DNA之淋巴瘤特異性高甲基化及低甲基化CpG位點之CGN/NCG比率進行EBV相關之淋巴瘤偵測的效能。
圖87A-87B展示根據本揭示案之實施例,使用基於淋巴瘤特異性低甲基化(A)及高甲基化(B)區域之CGN及NCG基序頻率區分單核細胞增多症(IM)患者與EBV相關淋巴瘤患者的ROC分析。
圖88A-88B展示根據本揭示案之實施例基於來自EBV DNA中之NPC特異性高甲基化及低甲基化CpG位點之CGN/NCG比率進行NPC偵測的效能。
圖89A-89B展示使用來自NPC特異性低甲基化(A)及高甲基化(B)區域之CGN及NCG基序頻率區分IM患者與NPC患者的ROC分析。
圖90A-90B展示在NPC及非NPC病例兩者中甲基化密度均超過80%之各CpG位點之-1及1位置處來自NPC及非NPC病例之切割比率的分佈。
圖91A展示-1及1兩個位置切割比率合集之分佈。圖91B展示在存在酶缺乏時之切割偏好。
圖92A-92D展示說明訓練集及測試集中資訊性-1及1位置處NPC與非NPC病例之間的EBV DNA切割比率差異的箱形圖。
圖93A-93B展示說明訓練集(A)及測試集(B)中資訊性-1與+1位置處NPC與非NPC病例之間的EBV DNA切割比率差異的箱形圖。
圖94A-94B展示藉由使用訓練集(A)及測試集(B)中-1與+1資訊位置處EBV DNA之切割比率及EBV DNA比例區分NPC病例與非NPC病例之診斷能力。
圖95展示藉由在訓練及測試資料集中使用不同指標區分NPC病例與非NPC病例之診斷能力。
圖96展示基於訓練集中之經調整之CGN/NCG基序比率進行資訊性CpG選擇及在測試集中偵測NPC之示意圖。
圖97A展示在非NPC病例與NPC病例之間藉由亞硫酸氫鹽定序量測之資訊性CpG的甲基化指標。圖97B展示非NPC個體與NPC個體之間EBV基因組中之資訊性CpG的經調整之CGN/NCG基序比率(訓練集)。
圖98A展示非NPC個體與NPC個體之間EBV基因組中之資訊性CpG的經調整之CGN/NCG基序比率(測試集)。圖98B展示藉由基於PCR之分析、基於EBV DNA比例及尺寸比之方法以及組合EBV DNA比例、尺寸比及切割模式之方法達到的陽性預測值。
圖99為說明使用包括來自個體及來自病毒之游離DNA分子之生物樣本確定個體之病變程度之方法的流程圖。
圖100A及100B展示根據本揭示案之實施例,CGN及NCG末端基序頻率可用於預測基因組印記。
圖101展示根據本揭示案之實施例視定序深度而定的區分甲基化與未甲基化區域之效能。
圖102展示藉由選擇性分析末端具有特定末端基序之DNA分子子集進行富集與所關注之某些基因組區域。
圖103為根據本揭示案之實施例藉由自所關注之區域選擇性地擴增含有NCG或CGN末端基序之DNA進行定序文庫製備的示例工作流程。
圖104展示分別用4個PCR循環、8個PCR循環及無PCR製備之血漿DNA之定序文庫中推定高甲基化CpG及低甲基化CpG之CGN/NCG基序比率。
圖105展示健康對照之尿液cfDNA樣本中高甲基化CpG位點與低甲基化CpG位點之間的切割模式之比較。
圖106A-106D展示說明健康對照之尿液cfDNA中全基因組區域、
Alu區域及CpG島之甲基化密度(圖106A)、CGN/NCG基序比率(圖106B)、CGN/C^G基序比率(圖106C)、CGN/(NCG+C^G)基序比率(圖106D)之差異的箱形圖。各點表示尿液cfDNA樣本。
圖107A-107B展示基於源自腎臟特異性高甲基化CpG位點(圖107A)及腎臟特異性低甲基化CpG位點(圖107B)之CGN/NCG比率與尿液cfDNA分子的供體DNA比例之間的相關性。
圖108A-108B展示CGN/NCG基序比率標準化化之示意圖。
圖109展示來自腎臟移植病例之尿液cfDNA之供體DNA比例與經標準化之CGN/NCG基序比率之間的相關性。
圖110A-110B展示基於源自血細胞特異性高甲基化CpG位點(圖110A)及血細胞特異性低甲基化CpG位點(圖110B)之CGN/NCG基序比率與尿液cfDNA分子的供體DNA比例之間的相關性。
圖111展示來自骨髓移植患者之尿液cfDNA之供體DNA比例與經標準化之CGN/NCG基序比率之間的相關性。
圖112A-112B為展示來自健康對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中膀胱癌特異性高甲基化及低甲基化CpG之CGN/NCG基序比率的箱形圖。
圖113為展示來自健康對照(對照)、患有低級別非肌層侵襲性膀胱癌(NMIBC LG)、高級別非肌層侵襲性膀胱癌(NMIBC HG)及肌層侵襲性膀胱癌(MIBC)之患者中膀胱癌特異性高甲基化及低甲基化CpG的經標準化化之CGN/NCG基序比率的箱形圖。
圖114為基於來自膀胱癌特異性高甲基化及低甲基化CpG位點之切割模式之SVM模型訓練以進行膀胱癌檢測的示意圖。
圖115A-115B展示基於切割模式進行膀胱癌檢測之效能。
圖116A-116B展示基於5'含CG之3聚體末端基序進行膀胱癌偵測的效能。
圖117為膀胱癌病例及無癌對照之示意圖。
圖118A-118B展示利用具有顯著低之標準化CGN/NCG基序比率(亦即,基序變異)之區域的數目進行的膀胱癌診斷。
圖119展示使用展示來自膀胱癌患者之尿液cfDNA中顯著低之標準化CGN/NCG基序比率(基序變異)之區域的量進行的殘留病診斷。
圖120展示使用膀胱癌作為實例定義組織資訊性甲基化標記物之示意圖。
圖121展示利用含CG之末端基序之多個癌症分類的示意圖。
圖122展示基於與組織資訊性及組織共有甲基化CpG位點相關的5'含CG之3聚體末端基序對患有膀胱癌、腎癌及***癌之患者的無監督聚類分析。
圖123展示利用多個二元分類進行多個癌症類型分類的示意圖。
圖124A-124B展示基於與組織資訊性及組織共有之甲基化CpG位點相關的5'含CG之3聚體末端基序的膀胱癌分類器之效能。
圖125A-125D展示基於與組織資訊性以及組織共有之甲基化CpG位點相關的5'含CG之3聚體末端基序的腎癌及***癌分類器之效能。
圖126A-126B展示基於含CG之基序使用CNN模型進行多個癌症分類的示意圖。
圖127示出根據本發明之一實施例的量測系統。
圖128展示可與根據本發明之實施例的系統及方法一起使用的一個示例電腦系統的方塊圖。
術語
「
組織」對應於一組細胞,其共同歸類為一個功能單元。可在單一組織中找到超過一種類型之細胞。不同類型的組織可由不同類型的細胞(例如肝細胞、肺泡細胞或血細胞)組成,但亦可對應於來自不同生物體(母親與胎兒)之組織或對應於健康細胞與腫瘤細胞。「
參考組織」可對應於用於測定組織特異性甲基化程度或組織特異性片段化模式之組織。來自不同個體之相同組織類型之多個樣本可用於測定彼組織類型之組織特異性甲基化程度。
「
生物樣本」係指獲自個體(例如人類(或其他動物),諸如懷孕女性、患有癌症或其他病症之個人、或疑似患有癌症或其他病症之個人、器官移植接受者或疑似患有涉及器官(例如心肌梗塞中之心臟、或中風中之腦、或貧血中之造血系統)之疾病過程之個體)且含有一或多個所關注之核酸分子的任何樣本。生物樣本可為體液,諸如血液、血漿、血清、尿液、***液、來自陰囊水腫(例如睪丸)之液體、***沖洗液、胸水、腹水、腦脊髓液、唾液、汗液、淚液、痰、支氣管肺泡灌洗液、乳汁、來自身體不同部分(例如甲狀腺、***)之抽吸液、眼內液體(例如眼房液)等。亦可使用糞便樣本。在各種實施例中,已富集游離DNA之生物樣本(例如經由離心方案獲得之血漿樣本)中之大部分DNA可為游離的,例如多於50%、60%、70%、80%、90%、95%或99% DNA可為游離的。離心方案可包括例如3,000 g × 10分鐘獲得液體部分,接著以例如30,000 g再離心10分鐘以移除殘餘細胞。作為生物樣本分析之一部分,可分析生物樣本之統計學上顯著數目的游離DNA分子(例如以提供準確量測結果)。在一些實施例中,分析至少1,000個游離DNA分子。在其他實施例中,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個游離DNA分子。可分析至少相同數目個序列讀段。
「
臨床相關 DNA」係指待量測之特定組織來源的DNA,例如以確定此類DNA之比例濃度或對樣本(例如血漿)之表現型進行分類。臨床相關DNA之實例為母本血漿中的胎兒DNA或患者血漿或其他具有游離DNA之樣本中的腫瘤DNA。另一實例包括對移植患者之血漿、血清或尿液中與移植物相關聯的DNA之量的量測。另一實例包括對個體血漿中之造血及非造血DNA之比例濃度、或樣本中之肝DNA片段(或其他組織)之比例濃度或腦脊髓液中之腦DNA片段之比例濃度的量測。
「
序列讀段」係指自核酸分子之任何部分或全部定序之核苷酸序列。舉例而言,序列讀段可為自核酸片段定序之短核苷酸序列(例如20-150個核苷酸)、在核酸片段之一端或兩端之短核苷酸序列或存在於生物樣本中之整個核酸片段的定序。序列讀段可以各種方式獲得,例如使用定序技術或使用探針(例如在雜交陣列或如可用於微陣列中之捕獲探針中)或擴增技術(諸如聚合酶鏈反應(PCR)或使用單一引物進行的線性擴增或等溫擴增)。示例定序技術包括高通量平行定序、靶向定序、桑格定序(Sanger sequencing)、藉由連接進行的定序、離子半導體定序及單分子定序(例如使用奈米孔定序,或單分子即時定序(例如來自Pacific Biosciences))。示例PCR技術包括即時PCR及數字PCR(例如微滴式數字PCR)。作為生物樣本分析之一部分,可分析統計學上顯著數目之序列讀段,例如可分析至少1,000個序列讀段。作為其他實施例,可分析至少10,000或50,000或100,000或500,000或1,000,000或5,000,000個或更多個序列讀段。
序列讀段可包括與片段之末端相關聯的「
末端序列」。末端序列可對應於片段的最外側N個鹼基,例如片段末端的1-30個鹼基。若序列讀段對應於整個片段,則序列讀段可包括兩個末端序列。當雙邊定序提供對應於片段末端之兩個序列讀段時,各序列讀段可包括一個末端序列。
「
序列基序」可指在DNA片段(例如,游離DNA片段)中短的反覆出現之鹼基序列。序列基序可出現在片段之末端,且因此為末端序列的一部分或包括末端序列。「末端基序」(亦稱為「末端序列基序」)可指末端序列之基序,該末端序列可能優先出現在來自特定類型組織之DNA片段之末端。末端基序亦可剛好出現在片段末端之前或之後,因此仍對應於末端序列。核酸酶對特定末端基序可具有特異性切割偏好,以及對第二末端基序具有第二最佳之切割偏好。用於分析之片段末端處之核苷酸(nt)數目可為例如(但不限於)1 nt、2 nt、3 nt、4 nt、5 nt、6 nt、7 nt、8 nt、9 nt及10 nt或更高。在一些實施例中,片段末端基序可由跨越片段末端附近之位置的一或多個核苷酸定義。片段末端基序可藉由參考基因組中圍繞片段末端所對準之基因組基因座的一或多個核苷酸來界定。
「
位點」(亦稱為「
基因組位點」)對應於單一位點,其可為單一鹼基位置或一組相關鹼基位置,例如CpG位點、TSS位點、DNA酶超敏位點或相關鹼基位置之更大群。「基因座」可對應於包括多個位點之區域。基因座可僅包括一個位點,此將使得基因座在彼情形下等效於一個位點。可分析各種數目之區域、位點或基因座,例如50、100、200、500、1,000、5,000、10,000、50,000、100,000、500,000或更大。各種技術可確定DNA分子位於參考基因組中之一或多個基因組位置,例如序列讀段與參考基因組對準或使用位置特異性探針。位置確定可針對參考基因組中之一些或全部,例如若僅分析基因組之一部分。作為實例,所分析之基因組之量可大於0.01%、0.1%、1%、5%、10%或50%。「
切割位點」可指DNA藉由核酸酶切割,從而產生DNA片段之位置。
「
切割模式」可指末端位於兩個或更多個在圍繞位點(例如,CpG位點)之窗中存在之位置處的片段之量。片段之量可對應於根據末端基序之不同類別(例如,分別位置0及-1之CGN及NCG)。該量可經標準化,例如使用各位置處之定序深度、區域中之深度或末端在區域中之片段之數目。單一位置處之此類經標準化之量可稱為切割比率、切割量或切割密度。在一個實例中,切割模式可定義為跨越與CpG位點有關之窗內之基因組座標的片段末端與定序深度之間的比率模式,其可用於推斷CpG位點之甲基化模式。可使用各種類型之標準化,如本文中所描述。窗可包括(但不限於)CpG位點上游之X個核苷酸(亦即,X-nt)及下游之Y個核苷酸(亦即,Y-nt)。X及Y之值可為1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、100、1000、5000等。窗可覆蓋CpG位點上游及下游之核小體尺寸範圍,例如-160 nt至160 nt。
術語「
等位基因」係指在同一實體基因組基因座處之多種表現形式的DNA序列,其可引起或可不引起不同表現型性狀。在具有各染色體之兩個拷貝(除男性人類個體中之性染色體之外)的任何特定二倍體生物體中,各基因之基因型包含在該基因座處存在之等位基因對,其在純合子中相同而在雜合子中不同。生物體之群體或物種在各個個體中在各基因座上通常包括多個等位基因。其中在群體中發現超過一個等位基因的基因組基因座稱為多態位點。基因座之等位基因變異可量測為群體中存在之等位基因的數目(亦即,多態現象之程度)或雜合子之比例(亦即,雜合度)。如本文所用,術語「
多態性」係指人類基因組中之任何個體間變異,不管其頻率如何。此類變異之實例包括(但不限於)單核苷酸多態性、簡單串聯重複多態性、***-缺失多態性、突變(其可為致病的)及拷貝數變異。如本文所用之術語「
單倍體」係指同一染色體或染色體區域上一起傳遞的多個基因座上之等位基因的組合。單倍體可指少至一對基因座,或指染色體區域,或指整個染色體或染色體臂。
術語「序列背景(sequence context)」可指一段DNA中之鹼基組成(A、C、G或T)及鹼基順序。此段DNA可圍繞進行甲基化分析或作為甲基化分析之目標的CpG位點。舉例而言,序列背景可指在進行甲基化分析之CpG位點上游及/或下游的鹼基。舉例而言,序列背景可包括K聚體矩陣,該K聚體矩陣指定測試游離DNA分子中之各K聚體之多個實例,其中K為整數。在K等於2時,K聚體矩陣為指定測試游離DNA分子中之二核苷酸對之多個實例的二核苷酸矩陣。作為另一實例,序列背景可包括來自測試游離DNA分子之各核苷酸的序列信息(亦即,完整序列)。獨熱編碼可用於該序列,從而生成尺寸為4×N之0及1矩陣,其中N為該序列中之鹼基數目。
存在各種類型之甲基化。在胞嘧啶、腺嘌呤、胸腺嘧啶及鳥嘌呤上均已發現甲基化,諸如5mC(5-甲基胞嘧啶)、4mC(N4-甲基胞嘧啶)、5hmC(5-羥甲基胞嘧啶)、5fC(5-甲醯基胞嘧啶)、5caC(5-羧基胞嘧啶)、1mA(N1-甲基腺嘌呤)、3mA(N3-甲基腺嘌呤)、7mA(N7-甲基腺嘌呤)、3mC(N3-甲基胞嘧啶)、2mG(N2-甲基鳥嘌呤)、6mG(O6-甲基鳥嘌呤)、7mG(N7-甲基鳥嘌呤)、3mT(N3-甲基胸腺嘧啶)及4mT(O4-甲基胸腺嘧啶)。在脊椎動物基因組中,5mC為最常見的鹼基甲基化類型,其次為鳥嘌呤(亦即在CpG背景下)。
各基因組位點(例如,CpG位點)之「
甲基化指標」或「
甲基化狀態」可指在該位點處顯示甲基化之DNA片段數(例如,如自序列讀段或探針測定)相比於覆蓋彼位點之讀段總數之比例。甲基化狀態可指特定位點是否在DNA片段之特定位點處甲基化。「讀段」可對應於獲自DNA片段之信息(例如位點處之甲基化狀態)。讀段可使用優先與特定甲基化狀態之DNA片段雜交之試劑(例如引物或探針)獲得。通常,此類試劑在藉由視DNA分子之甲基化狀態而定,有差異地修飾或有差異地識別DNA分子之方法,例如亞硫酸氫鹽轉化,或甲基化敏感限制酶,或甲基化結合蛋白,或抗甲基胞嘧啶抗體,或識別甲基胞嘧啶及羥甲基胞嘧啶之單分子定序技術處理後施加。
區域或一組位點之「
甲基化密度」可指該區域(亦稱為箱)或該組位點內顯示甲基化之位點的讀段數目除以覆蓋該區域或該組位點中之位點之讀段總數。區域可包括所關注之一或多個位點,包括至少1、2、3、4、5、10、20、50、100、200、500及1,000個位點。位點可具有特定特性,例如為CpG位點。因此,區域之「CpG甲基化密度」可指顯示CpG甲基化之讀段數目除以覆蓋區域中之CpG位點(例如特定CpG位點、CpG島或較大區域內之CpG位點)之讀段總數。舉例而言,人類基因組中每100 kb箱之甲基化密度可自亞硫酸氫鹽處理之後於CpG位點處未轉化之胞嘧啶(其對應於甲基化胞嘧啶)的總數相對於100 kb區域之序列讀段所覆蓋之所有CpG位點的比例。亦可對其他箱尺寸進行此分析,例如500 bp、5 kb、10 kb、50-kb或1-Mb等。區域可為整個基因組或染色體或染色體之一部分(例如染色體臂)。當區域僅包括CpG位點時,CpG位點之甲基化指標與區域之甲基化密度相同。「甲基化胞嘧啶之比例」可指展示為甲基化(例如在亞硫酸氫鹽轉化之後未經轉化)之胞嘧啶位點「C」之數目相對於分析之胞嘧啶鹼基之總數,亦即包括區域中除CpG背景之外的胞嘧啶。甲基化指標、甲基化密度及甲基化胞嘧啶之比例係「甲基化程度」之實例。除亞硫酸氫鹽轉化之外,熟習此項技術者已知之其他方法可用於檢測DNA分子之甲基化狀態,包括(但不限於)對甲基化狀態敏感之酶(例如,甲基化敏感限制酶)、甲基化結合蛋白、使用對甲基化狀態敏感之平台的單分子定序(例如,奈米孔定序(Schreiber等人, 《美國國家科學院院刊》2013;110: 18910-18915)或藉由Pacific Biosciences單分子即時定序分析(Tse等人, 《美國國家科學院院刊》2021;118: e2019768118)。
術語「
低甲基化」可指低於甲基化程度之指定臨限值,例如等於或低於甲基化程度之50%、45%、40%、35%、30%、25%或20%之位點或一組位點(例如區域)。若甲基化程度低於臨限值,則基因組中之位點可視為未甲基化。術語「
高甲基化」可指高於甲基化程度之指定值,例如等於或高於甲基化程度之95%、90%、80%、75%、70%、65%或60%之位點或一組位點(例如區域)。若甲基化程度大於臨限值,則基因組中之位點可視為甲基化。
差異甲基化區域(DMR)係跨越兩個或更多個生物樣本具有不同DNA甲基化狀態之基因組區域。不同DNA甲基化狀態可由甲基化指標或密度之一定差異定義,諸如(但不限於)1%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%等。
術語「
富集 5hmC」可指相對於其他類型之甲基化具有相對較高比例之5hmC甲基化分子的位點或一組位點(例如區域)。術語「缺失5hmC」可指相對於其他類型之甲基化具有相對較低比例之5hmC甲基化分子的位點或一組位點(例如區域)。
「相對頻率」(亦簡稱為「頻率」)可指比例(例如百分比、分率或濃度)。特定言之,特定末端基序(例如,CCGA或僅單一鹼基)或一組末端基序(例如,CGN或NCG)之相對頻率可提供樣本中與一組一或多個末端基序相關聯的游離DNA片段之比例。
「叢集值」可指例如一組末端基序之相對頻率的叢集。實例包括如可在叢集中實施之平均值、中位數、相對頻率之和、相對頻率之間的變化(例如,熵、標準差(SD)、變異係數(CV)、四分位間距(IQR)或不同相對頻率之間的某個百分位數截止值(例如第95個或第99個百分位數)),或與相對頻率之參考模式的差(例如,距離)。作為另一實例,叢集值可包含相對頻率之陣列/向量,可將該陣列/向量與參考向量(例如,代表多維數據點)進行比較。
術語「定序深度」係指基因座經與基因座對準之序列讀段覆蓋之次數。基因座可能與核苷酸一樣小,或與染色體臂一樣大,或與整個基因組一樣大。定序深度可表示為50x、100x等,其中「x」係指基因座經序列讀段覆蓋之次數。定序深度亦可應用於多個基因座或全基因組,在此情況下,x可指基因座或單倍體基因組或全基因組分別定序之平均次數。超深度定序可指定序深度為至少100x。
「
校準樣本」可對應於具有已知之特性(量測值)的生物樣本。示例特性包括甲基化程度或臨床相關DNA之比例濃度。臨床相關DNA之比例濃度(例如,組織特異性DNA分數)可為已知的或經由校準方法,例如使用組織特異性等位基因確定,諸如在移植中,藉此在供體基因組中存在但在接受者基因組中缺乏之等位基因可用作移植器官之標記物。作為實例,甲基化程度可為區域、基因組或基因組中或片段上之位點的甲基化程度。甲基化程度可使用甲基化感知分析,諸如甲基化感知定序或PCR測定。示例甲基化感知定序可包括亞硫酸氫鹽定序或單分子技術,例如使用奈米孔。校準樣本可具有單獨量測值(例如,具有特定末端基序或切割剖析之片段的量),可確定所期望量測值可與其相關。
「
校準數據點」包括「
校準值」(例如具有特定末端基序或切割模式之片段的量)及其他測試樣本期望測定的量測值或已知值。校準值可根據自樣本之DNA分子量測之各種類型的數據加以確定。校準值對應於與所期望特性(例如遺傳病症之分類或甲基化程度)相關的參數。舉例而言,可自針對校準樣本確定之量測值確定校準值,針對該量測值已知所期望特性。校準數據點可以多種方式定義,例如作為離散點或作為校準函數(亦稱為校準曲線或校準面)。校準函數可衍生自校準數據點之額外數學轉換。
「分離值」對應於涉及兩個值之差值或比率,例如兩個比例佔比或兩個甲基化程度之差值或比率。分離值可為簡單的差值或比率。作為實例,x/y以及x/(x+y)之比率為分離值。分離值可包括其他因子,例如倍增常數。關於其他實例,可使用該等值之函數的差值或比率,例如兩個值之自然對數(ln)的差值或比率。分離值可包括差值及比率。分離值可與臨限值進行比較以判定兩個值之間的分離是否為統計學上顯著的。
如本文所用之術語「
參數」意謂表徵定量資料集及/或定量資料集之間的數值關係之數值。舉例而言,第一核酸序列之第一量與第二核酸序列之第二量之間的比率(或比率之函數)為參數。可使用參數確定本文所描述之例如關於胎兒、癌症或移植分析之任何分類。「
分離值」及「
叢集 值」(例如相對頻率)為提供在不同分類(狀態)之間變化之樣本量度之參數(亦稱為度量)的兩個實例,且因此可用於確定不同分類。例如,當樣本之一組相對頻率與一組參考相對頻率之間獲得差值時,如可使用聚累評估,叢集值可為分離值。
如本文所用之術語「
分類」係指與樣本之特定特性相關之任何數字或其他字元。舉例而言,符號「+」(或字語「陽性」)可表示樣本歸類為具有缺失或擴增。分類可為二元(例如陽性或陰性)或具有更多分類(例如自1至10或0至1之標度)。
術語「
截止值」及「
臨限值」係指操作中所使用之預定數值。舉例而言,截止值尺寸可指一種尺寸,片段大於此尺寸則排除掉。臨限值可為一種值,高於或低於此值,則特定分類適用。此等術語中之任一者可用於此等情形中之任一者。截止值或臨限值可為表示特定分類或區別兩個或更多個分類之「參考值」或衍生自該參考值。可以各種方式測定此類參考值,亦可由如熟習此項技術者定義。舉例而言,可針對具有不同已知分類之兩個不同群組之個體確定度量,且可選擇參考值來表示一個分類(例如平均值)或介於度量之兩個集群之間的值(例如經選擇以獲得期望靈敏度及特異性)。作為另一實例,參考值可基於樣本之統計模擬來確定。特定截止值、臨限值、參考值等可基於所需準確度(例如,靈敏度及特異性)來確定。
術語「
癌症等級」可指癌症是否存在(亦即,存在或不存在)、癌症階段、腫瘤尺寸、是否存在轉移、身體之總腫瘤負荷、癌症對治療之反應及/或癌症嚴重度之其他量度(例如癌症復發)。癌症等級可為數字或其他標誌,諸如符號、字母及顏色。等級可為零。癌症等級亦可包括惡化前或癌變前病況(狀態)。癌症等級可以多種方式使用。舉例而言,篩檢可檢查先前未知患癌之某人是否存在癌症。評估可調查已經診斷患有癌症之某人以隨時間推移監測癌症之進展,研究療法有效性或確定預後。在一個實施例中,預後可表示為患者死於癌症之機率,或特定期限或時間之後癌症進展之機率,或癌症轉移之機率或程度。偵測可意謂『篩查』或可意謂檢查具有癌症之特徵(例如症狀或其他陽性測試)之某人是否患有癌症。
「病變等級」可指與生物體相關之病變的量、程度或嚴重度,其中該等級可如上文針對癌症所描述。病變之另一實例為移植器官排斥反應。其他示例病變可包括自體免疫攻擊(例如損傷腎臟之狼瘡性腎炎或損傷中樞神經系統之多發性硬化症)、炎症疾病(例如肝炎)、纖維化過程(例如肝硬化)、脂肪浸潤(例如脂肪肝疾病)、退化過程(例如阿茲海默氏症(Alzheimer's disease))及缺血性組織損傷(例如心肌梗塞或中風)。個體之健康狀態可視為無病變之分類。
「
機器學習模型」可指經組態以在一或多個處理器上運轉以提供一或多個樣本之特性之分類或數值的軟件模組。模型之一示例類型為可與本揭示案之實施例一起使用的監督式學習。示例監督式學習模型可包括不同的方法及演算法,包括分析學習、人工神經網路、反向傳播、提昇(boosting)(共通式演算法)、貝葉斯統計(Bayesian statistics)、案例式推理、決策樹學習、歸納邏輯程式設計、高斯過程回歸(Gaussian process regression)、遺傳規劃、數據分組處理法、核估計法(kernel estimator)、學習自動機、學習分類系統、最小訊息長度(決策樹、決策圖等)、多線性子空間學習、單純貝氏分類器(Naive Bayes classifier)、最大熵分類器、條件隨機場、最近相鄰演算法、機率近似正確學習(PAC)學習、漣波下降規則(ripple down rule)、知識獲取方法、符號機器學習演算法、子符號機器學習演算法、最小複雜度機器(MCM)、隨機森林、分類器集合、有序分類、資料預處理、處理不平衡資料集、統計關係學習或Proaftn(一種多準則分類演算法)。模型可包括線性回歸、邏輯回歸、深度循環神經網路(例如長短期記憶體,LSTM)、隱藏式馬可夫模型(hidden Markov model,HMM)、線性判別分析(LDA)、k平均分群、具有雜訊的基於密度的分群方式(DBSCAN)、隨機森林演算法、支持向量機(SVM)或本文所描述之任何模型。可以各種方式使用定義與已知標籤之誤差(例如,最小平方及與已知分類之絕對差異)的各種成本/損失函數及各種最佳化技術(例如,使用反向傳播、最陡下降、共軛梯度及牛頓及準牛頓技術)來訓練監督式學習模型。
術語「
約」或「
大約」可意謂在如一般熟習此項技術者所測定之特定值的可接受誤差範圍內,其將部分視量測或測定該值之方式(亦即量測系統之限制)而定。舉例而言,根據本領域中之實踐,「約」可意謂在1或大於1個標準差內。或者,「約」可意謂既定值之至多20%、至多10%、至多5%或至多1%之範圍。可替代地,尤其關於生物系統或方法,術語「約」或「大約」可意謂在值之一定數量級內、在5倍內或更佳在2倍內。若本申請案及申請專利範圍中描述特定值,則除非另有說明,否則應假設術語「約」意謂在特定值之可接受誤差範圍內。術語「約」可具有如一般熟習此項技術者通常所理解之含義。術語「約」可指±10%。術語「約」可指±5%。
在提供值範圍的情況下,應瞭解除非上下文另外明確規定,每个在該範圍上限與下限之間的精確至下限單位之十分位的各***值亦特別揭示。本揭示案之實施例內涵蓋陳述範圍中之任何所陳述值或***值之間的各較小範圍及所陳述範圍中之任何其他所陳述值或***值。此等更小範圍之上限及下限可獨立地包括或排除在該範圍內,且任一界限、無界限或兩個界限包括於更小範圍中之各範圍亦涵蓋於本揭示案內,受制於所陳述範圍中任何特別排除之界限。在所陳述範圍包括界限中之一或兩者時,不包括彼等所包括界限中之任一者或兩者之範圍亦包括於本揭示案中。
可使用標準縮寫,例如bp,鹼基對;kb,千鹼基;pi,皮升;s或sec,秒;min,分鐘;h或hr,小時;aa,胺基酸;nt,核苷酸;及其類似者。
除非另外定義,否則本文所用之所有技術及科學術語均具有與本揭示案所屬領域之一般熟習技術者所理解相同之含義。儘管可使用類似或等效於本文中描述之方法及材料的任何方法及物質來實踐或測試本揭示案之實施例,但現可描述一些潛在及示例性方法及材料。
Claims (167)
- 一種用於使用游離DNA分子來量測個體之基因組中之CpG位點的甲基化的方法,該方法包含: 分析來自該個體之生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之至少一個末端的基因組位置; 確定末端位於該CpG位點周圍之窗內之第一位置處的游離DNA分子之第一量,該第一位置介於該窗之-1至+1位置;及 使用該第一量確定該個體之該基因組中該CpG位點之甲基化的分類。
- 如請求項1之方法,其進一步包含: 確定末端位於該CpG位點周圍之該窗內之第二位置處的游離DNA分子之第二量,該第二位置不同於該第一位置,其中該分類使用該第一量及該第二量確定。
- 如請求項2之方法,其中該第一位置為0位,且其中該第二位置在距該CpG位點+1或-1處。
- 如請求項2之方法,其中該窗距該CpG位點至少-2至+2。
- 如請求項2之方法,其中確定該分類包括: 使用該第一量及該第二量確定分離值;及 將該分離值與校準值進行比較,其中該校準值係使用來自一或多個校準樣本且位於具有已知分類之CpG位點處的游離DNA分子確定。
- 如請求項5之方法,其中該分類為定量值,且其中將該分離值與該校準值進行比較包括將該分離值與校準函數進行比較。
- 如請求項6之方法,其中該定量值為30%或更小之範圍。
- 如請求項2之方法,其中該CpG位點為第一CpG位點且該分類為第一分類,且其中該窗包括第二CpG位點及除該第一CpG位點及該第二CpG位點外之至少兩個位置,且該方法進一步包含: 確定末端位於該第二CpG位點處之游離DNA分子的第三量; 對於該窗內之該至少兩個位置中之各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定包括該第二量之各別量,其中該至少兩個位置包括該第一位置; 生成包括該等各別量、該第一量及該第三量之特徵向量;及 將該特徵向量輸入至機器學習模型中,作為確定該第一CpG位點之該分類及確定該第二CpG位點之第二分類的一部分,其中使用位於具有已知分類之CpG位點周圍之窗內的游離DNA分子訓練該機器學習模型。
- 如請求項1之方法,其中該窗包括除該第一位置外之至少兩個位置,該方法進一步包含: 對於該窗內之該至少兩個位置中之各位置: 確定末端位於該位置處之游離DNA分子的各別量,其中該至少兩個位置包括該第一位置;及 將末端位於該CpG位點處之游離DNA分子的該第一量與末端位於該位置處之游離DNA分子的該各別量進行比較,作為確定該分類之一部分。
- 如請求項1之方法,其中該窗包括除該第一位置外之至少兩個位置,該方法進一步包含: 對於該窗內之該至少兩個位置中之各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量; 生成包括該等各別量及該第一量之特徵向量;及 將該特徵向量輸入至機器學習模型中,作為確定該分類之一部分,其中使用位於具有已知分類之CpG位點周圍之窗內的游離DNA分子訓練該機器學習模型。
- 如請求項10之方法,其中該特徵向量形成各列對應於股之鹼基的矩陣,且其中行在對應於各別位置處之該鹼基的該列中包括非零量。
- 如請求項10之方法,其中該機器學習模型為卷積神經網路。
- 如請求項10之方法,其中該第一位置及該至少兩個位置包括該窗內之所有位置,該窗距該CpG位點至少+4至-4。
- 如請求項10之方法,其中該機器學習模型使用該窗內之序列背景。
- 如請求項14之方法,其中針對該窗內之該序列背景訓練該機器學習模型。
- 如請求項14之方法,其中該特徵向量包括該序列背景。
- 如請求項1之方法,其中甲基化之該分類指示針對該CpG位點處之該等游離DNA分子,該CpG位點處於高甲基化狀態或低甲基化狀態,其中該高甲基化狀態指示甲基化密度超過第一臨限值,該第一臨限值為至少70%,且其中該低甲基化狀態指示該甲基化密度低於第二臨限值,該第二臨限值為30%或更小。
- 如請求項1之方法,其中該第一量經標準化。
- 如請求項18之方法,其中該標準化使用末端位於包括該CpG位點之區域內之游離DNA分子的數目。
- 如請求項18之方法,其中該標準化使用覆蓋該CpG位點之游離DNA分子的數目。
- 如請求項18之方法,其中該標準化使用包括該CpG位點之區域中游離DNA分子之平均或中位深度。
- 如請求項1或請求項2之方法,其進一步包含: 使用該第一量且視情況使用該第二量確定該個體之該基因組中之不同CpG位點的甲基化的另一分類,該不同CpG位點位於該CpG位點之5'末端下游600 nt內。
- 一種用於量測個體之基因組中之區域的甲基化的方法,該方法包含: 分析來自該個體之生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定該游離DNA分子之至少一個末端之末端基序,其中該游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置,其中該多個游離DNA分子位於參考基因組之該區域中; 確定第一組之一或多個末端基序的第一量,其中: 該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,或 該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G;及 藉由將該第一量與校準值進行比較來確定該個體之該基因組中之該區域的甲基化分類,其中該校準值係使用來自一或多個校準樣本且位於具有已知分類之CpG位點處的游離DNA分子確定。
- 如請求項23之方法,其中該區域為該個體之該基因組之一部分,且其中該多個游離DNA分子來自該參考基因組之一或多個特定區域。
- 如請求項24之方法,其中該區域包括自該多個游離DNA分子確定之序列突變或拷貝數突變,該方法進一步包含: 基於該區域之該甲基化分類,判定該序列突變或該拷貝數突變是否來自腫瘤。
- 如請求項24之方法,其中該一或多個特定區域中之至少一者對應於包含一或多個等位基因之特定基因型或單倍型。
- 如請求項26之方法,其中該區域之該甲基化分類為對應於懷有胎兒之女性之第一單倍型的第一甲基化程度,該方法進一步包含: 使用來自該女性之第二單倍型之游離DNA分子的該第一組之一或多個末端基序之第二量確定對應於該第二單倍型之第二甲基化程度;及 基於該第一甲基化程度及該第二甲基化程度確定該胎兒之遺傳單倍型。
- 如請求項26之方法,其進一步包含: 基於該分類確定該一或多個特定區域中該個體之病變之等級。
- 如請求項28之方法,其中該病變之該等級包括生理過程之異常程度或拷貝數突變。
- 如請求項23之方法,其中該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,該方法進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之第二組之一或多個末端基序的第二量, 其中確定該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項30之方法,其中該第一組之一或多個末端基序包括CGA、CGC、CGG及CGT,且其中該第二組之一或多個末端基序包括ACG、CCG、GCG及TCG。
- 如請求項23之方法,其進一步包含: 基於該區域中該參考基因組之參考序列確定該第一組之一或多個末端基序之預期量, 其中確定該分類包括將該第一量用該預期量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項23之方法,其進一步包含: 確定該多個游離DNA分子之基序之總量, 其中確定該分類包括將該第一量用該總量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項23之方法,其中該區域為該參考基因組。
- 如請求項23之方法,其中該區域為特定染色體之10 Mb或更小。
- 如請求項23之方法,其中該第一組之一或多個末端序列基序在該第一位置處具有C且在該第二位置處具有G,該方法進一步包含: 確定在該第一位置處具有C且在該第二位置處具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該基因組中之該區域的該甲基化分類之一部分,其中使用來自該一或多個校準樣本之游離DNA分子訓練該機器學習模型。
- 如請求項36之方法,其中該特徵向量包括所有3聚體末端序列基序之各別量。
- 如請求項23之方法,其中分析游離DNA分子包括: 確定該參考基因組中該游離DNA分子之位置。
- 一種用於量測來自個體之生物樣本的測試游離DNA分子之CpG位點之甲基化的方法,該方法包含: 接收該測試游離DNA分子之一或多個序列讀段,其中該測試游離DNA分子包括一或多個CpG位點; 使用該一或多個序列讀段確定該測試游離DNA分子之序列背景,其中該序列背景包括來自該測試游離DNA分子之各核苷酸的序列資訊; 使用該一或多個序列讀段確定該測試游離DNA分子之第一末端之第一末端基序; 將機器學習模型裝載至電腦系統之記憶體中,該機器學習模型係使用具有甲基化狀態已知之CpG位點的訓練游離DNA分子之訓練集訓練,該訓練集包括該訓練游離DNA分子之序列背景及末端基序;及 使用該機器學習模型確定該測試游離DNA分子之該一或多個CpG位點的甲基化程度,其中將(1)該測試游離DNA分子之該序列背景及(2)該第一末端序列基序輸入至該機器學習模型。
- 如請求項39之方法,其進一步包含: 使用該一或多個序列讀段確定該測試游離DNA分子之第二末端之第二末端基序,其中將該第二末端基序進一步輸入至該機器學習模型。
- 如請求項39之方法,其中該第一末端基序在輸入至該機器學習模型之前進行獨熱編碼。
- 如請求項39之方法,其中該序列背景包括該測試游離DNA分子之完整序列。
- 如請求項39之方法,其中該序列背景包括指定該測試游離DNA分子中之各K聚體之多個實例的K聚體矩陣,其中K為整數。
- 如請求項43之方法,其中K等於2,其中該K聚體矩陣為指定該測試游離DNA分子中之二核苷酸對之多個實例的二核苷酸矩陣。
- 如請求項39之方法,其中該機器學習模型包括卷積神經網路。
- 如請求項39之方法,其中該測試游離DNA分子包括多個CpG位點,且其中該甲基化程度為該多個CpG位點甲基化之百分比。
- 如請求項39之方法,其進一步包含: 確定該測試游離DNA分子之尺寸;及 將該測試游離DNA分子之該尺寸輸入至該機器學習模型中,作為確定該測試游離DNA分子之該一或多個CpG位點之該甲基化程度的一部分。
- 如請求項47之方法,其中該一或多個序列讀段為跨越該測試游離DNA分子之一個序列讀段,且其中確定該測試游離DNA分子之該尺寸包括計數該一個序列讀段中之鹼基數目。
- 如請求項47之方法,其中該一或多個序列讀段包括對應於該測試游離DNA分子之兩個末端的兩個序列讀段,且其中確定該測試游離DNA分子之該尺寸包括將該兩個序列讀段與參考基因組比對。
- 一種分析生物樣本以確定個體之該生物樣本中之病變之等級的方法,該生物樣本包括游離DNA,該方法包含: 分析來自該生物樣本之多個游離DNA分子以獲得序列讀段,其中該等序列讀段包括對應於該多個游離DNA分子之末端的末端序列; 對於該多個游離DNA分子中之各者,確定該游離DNA分子之一或多個末端中之各者的序列基序,其中游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置; 確定該多個游離DNA分子之第一組之一或多個末端基序的第一量,其中: 該第一組之一或多個末端序列基序在該第一位置處具有C且在該第二位置處具有G,或 該第一組之一或多個末端序列基序在該第二位置處具有C且在該第三位置處具有G;及 基於該第一量與參考值之比較來確定該個體之該病變之該等級的分類。
- 如請求項50之方法,其中分析該多個游離DNA分子包括量測該多個游離DNA分子中之各者的尺寸,且其中針對在第一尺寸範圍內之第一組游離DNA分子確定該第一量。
- 如請求項51之方法,其中該第一尺寸範圍對應於小於尺寸截止值之尺寸。
- 如請求項51之方法,其中該第一尺寸範圍對應於大於第一尺寸截止值之尺寸。
- 如請求項53之方法,其進一步包含: 確定該多個游離DNA分子之第二組之一或多個末端基序的第二量,其中: 該第二組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,或 該第二組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G, 其中針對在第二尺寸範圍內之第二組游離DNA分子確定該第二量,該第二尺寸範圍對應於小於第二尺寸截止值之尺寸,且其中使用該第一量及該第二量確定該分類。
- 如請求項54之方法,其中該第一量係使用在該第一位置處具有C且在該第二位置處具有G的該第一組之一或多個末端基序確定,且其中該第二量係使用在該第一位置處具有C且在該第二位置處具有G的該第二組之一或多個末端序列基序確定,該方法進一步包含: 確定具有在該第二位置處具有C且在該第三位置處具有G的第三組之末端基序的該第一組游離DNA分子之第三量,及 確定具有在該第二位置處具有C且在該第三位置處具有G的第四組之末端序列基序的該第二組游離DNA分子之第四量,其中該分類係使用該第三量及該第四量進一步確定。
- 如請求項54之方法,其中該分類使用該第一量與該第二量之比率,使用該第一量與該第二量之差值,或使用接收該第一量及該第二量作為單獨輸入之機器學習模型。
- 如請求項50之方法,其中針對各自位於特定組織類型之一或多個各富集5hmC或各缺失5hmC之區域內的第一組游離DNA分子確定該第一量,且其中該病變屬於該特定組織類型。
- 如請求項57之方法,其中該特定組織類型為HCC癌症組織。
- 如請求項57之方法,其中該第一組游離DNA分子各自位於一或多個各富集5hmC之區域內,該方法進一步包含: 確定各自位於該特定組織類型之一或多個各缺失5hmC之區域內的該多個游離DNA分子之該第一組之一或多個末端序列基序的第二量,其中該分類係使用該第一量及該第二量確定。
- 如請求項50之方法,其中針對各自位於特定組織類型之一或多個各高甲基化或低甲基化之區域內的第一組游離DNA分子確定該第一量,且其中該病變屬於該特定組織類型。
- 如請求項50之方法,其中該多個游離DNA分子來自參考基因組之多個區域之第一區域,且其中該第一量與該參考值之該比較指示該第一區域之該第一量是否異常,該方法進一步包含: 確定異常之該多個區域之數目;及 將異常區域之該數目與臨限值進行比較以確定該病變之該等級的該分類。
- 如請求項61之方法,其中,對於該多個區域中之各者,該第一組之一或多個末端基序之各別量與區域特異性參考值進行比較。
- 如請求項50之方法,其中該多個游離DNA分子來自參考基因組之一或多個特定區域,且其中該病變在該一或多個特定區域中。
- 如請求項63之方法,其中該一或多個特定區域中之至少一者對應於包含一或多個等位基因之特定基因型或單倍型。
- 如請求項63之方法,其中該病變之該等級包括拷貝數突變。
- 如請求項50之方法,其中該第一組之一或多個末端基序包括CGN,其中N包括在該第三位置處之任何核苷酸。
- 如請求項50之方法,其中該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,該方法進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之第二組之末端基序的第二量, 其中確定該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項67之方法,其中該第二組之末端基序包括NCG,其中N包括在該第一位置處之任何核苷酸。
- 如請求項50之方法,其進一步包含: 確定該多個游離DNA分子之序列基序之總量, 其中確定該分類包括將該第一量用該總量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項50之方法,其中該病變為癌症。
- 如請求項50之方法,其中該病變為生理過程之異常程度,其中該生理過程為妊娠、衰老、發育或生長。
- 如請求項50之方法,其中該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,該方法進一步包含: 確定在該第一位置處具有C且在該第二位置處具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該病變之該等級的該分類之一部分,其中使用具有已知分類之訓練樣本中的游離DNA分子訓練該機器學習模型。
- 如請求項72之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之各3聚體末端基序的各別額外量,從而確定各別額外量,其中該特徵向量包括該等各別額外量。
- 如請求項72之方法,其中該特徵向量包括所有3聚體末端基序之各別量。
- 如請求項50之方法,其中該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G,該方法進一步包含: 確定在該第二位置處具有C且在該第三位置具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該病變之該等級的該分類之一部分,其中使用具有已知分類之訓練樣本中的游離DNA分子訓練該機器學習模型。
- 一種分析生物樣本以確定個體之該生物樣本中之病變之等級的方法,該生物樣本包括游離DNA,該方法包含: (a)分析來自該個體之該生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中該游離DNA分子之位置,其中該多個游離DNA分子位於該參考基因組之第一組之一或多個區域中,且其中在第一組織類型中該第一組之一或多個區域中的各者低甲基化或各者高甲基化;及 確定該游離DNA分子之至少一個末端之末端基序,其中該游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置; (b)確定第一組之一或多個末端基序的第一量,其中: 該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,或 該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G;及 (c)基於該第一量與參考值之比較來確定該個體之該第一組織類型中該病變之該等級的分類。
- 如請求項76之方法,其中該第一組織類型為癌症組織類型。
- 如請求項77之方法,其中該生物樣本為尿液,且其中該癌症組織類型係選自膀胱癌、腎癌及***癌。
- 如請求項77之方法,其中該生物樣本為血漿或血清,且其中該癌症組織類型係選自肝癌、大腸癌、肺癌及乳癌。
- 如請求項76之方法,其中該分類使用包括該第一組織類型之多個組織類型的差異甲基化區,該方法進一步包含: 分析來自該生物樣本之其他組之游離DNA分子,其中各組之游離DNA分子位於該參考基因組之各別組之一或多個區域中,該多個組織類型之各別組織類型中該各別組之一或多個區域中的各者低甲基化或高甲基化。
- 如請求項80之方法,其中一組特定之一或多個區域包括多個區域類型之多個區域,其中第一區域類型相對於該多個組織類型之其他組織存在差異甲基化,且其中第二區域類型相對於該多個組織類型之至少一個其他組織但非所有其他組織存在差異甲基化。
- 如請求項81之方法,其中在第一組織之癌症組織類型及健康第一組織中另一組特定之一或多個區域全部低甲基化或全部高甲基化。
- 如請求項80之方法,其中該病變之該等級之該分類使用第一機器學習模型,且其中該第一組之一或多個末端基序之量用於使用在該多個組織類型之一或多個其他組織類型中具有該病變之訓練樣本訓練一或多個其他機器學習模型。
- 如請求項80之方法,其中該病變之該等級之該分類使用多類機器學習模型,該多類機器學習模型提供該多個組織類型中之各者具有該病變的機率。
- 如請求項80之方法,其中該多個組織類型包括癌症組織類型及非癌症組織類型。
- 如請求項76之方法,其進一步包含: 鑑別該參考基因組中跨越多個組織類型全部低甲基化或全部高甲基化的第二組之CpG位點;及 確定末端位於該第二組之CpG位點中之任一者周圍的游離DNA分子的第二量, 其中確定該病變之該等級之該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項76之方法,其中該第一組之一或多個末端基序界定該第一組之一或多個區域內的第一組之一或多個CpG位點,該方法進一步包含: 對於該第一組之一或多個CpG位點中之任一者周圍的窗內之至少兩個位置的各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量; 生成包括該等各別量及該第一量之特徵向量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該第一組織類型中該病變之該等級之該分類的一部分,其中使用來自具有已知分類之訓練樣本的游離DNA分子訓練該機器學習模型。
- 如請求項87之方法,其中針對該第一組織類型,該第一組之一或多個CpG位點全部低甲基化,且其中該特徵向量為第一特徵向量,該方法進一步包含: 使用全部高甲基化的第二組之一或多個CpG位點生成第二特徵向量;及 將該第二特徵向量及該第一特徵向量輸入至該機器學習模型中,作為確定該個體之該第一組織類型中該病變之該等級之該分類的一部分。
- 如請求項76之方法,其中該第一組之一或多個末端基序界定該第一組之一或多個區域內的第一組之CpG位點,且其中確定該第一量包括: 確定末端位於該第一組之CpG位點中之各者處的游離DNA分子之各別量,其中確定該病變之該等級之分類包括將該等各別量中之各者與各別參考值進行比較。
- 如請求項89之方法,其中藉由將該等各別量作為特徵向量之一部分輸入至機器學習模型中來將該等各別量中之各者與該各別參考值進行比較。
- 如請求項90之方法,其進一步包含,對於該第一組之一或多個CpG位點之各CpG位點: 對於該CpG位點周圍之窗內之至少兩個位置的各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量;及 該特徵向量中包括該至少兩個位置之該等各別量及該CpG位點之該等各別量。
- 如請求項76之方法,其中該第一組之一或多個區域為多個區域。
- 如請求項76之方法,其中該第一組之一或多個末端序列基序包括CGN,其中N包括在該第三位置處之任何核苷酸。
- 如請求項76之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之第二組之末端序列基序的第二量, 其中確定該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項94之方法,其中該第二組之末端基序包括NCG,其中N包括在該第一位置處之任何核苷酸。
- 如請求項76之方法,其進一步包含: 確定該多個游離DNA分子之序列基序之總量, 其中確定該分類包括將該第一量用該總量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項76之方法,其中該病變為癌症。
- 如請求項76之方法,其中該病變為生理過程之異常程度,其中該生理過程為妊娠、衰老、發育或生長。
- 如請求項76之方法,其進一步包含: 針對該參考基因組之額外一或多組之一或多個區域重複(a)、(b)及(c),且其中在一或多個其他組織類型中該額外一或多組全部低甲基化或全部高甲基化,從而確定該個體之癌症類型。
- 如請求項76之方法,其中該第一組之一或多個末端基序包括在該第一位置處具有C且在該第二位置處具有G之所有序列基序,該方法進一步包含: 確定在該第一位置處具有C且在該第二位置處具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該第一組織類型中該病變之該等級之該分類的一部分,其中使用具有已知分類之訓練樣本中的游離DNA分子訓練該機器學習模型。
- 如請求項100之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之各3聚體末端基序的各別額外量,從而確定各別額外量,其中該特徵向量包括該等各別額外量。
- 如請求項100之方法,其中該特徵向量包括所有3聚體末端基序之各別量。
- 如請求項76之方法,其中該第一組之一或多個末端基序包括在該第二位置處具有C且在該第三位置處具有G之所有序列基序,該方法進一步包含: 確定在該第二位置處具有C且在該第三位置具有G之各3聚體末端序列基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該病變之該等級的該分類之一部分,其中使用具有已知分類之訓練樣本中的游離DNA分子訓練該機器學習模型。
- 如請求項100或請求項103之方法,其中該分類使用包括該第一組織類型之多個組織類型的差異甲基化區,該方法進一步包含: 分析來自該生物樣本之其他組之游離DNA分子,其中各組之游離DNA分子位於該參考基因組之各別組之一或多個區域中,該多個組織類型之各別組織類型中該各別組之一或多個區域中的各者低甲基化或高甲基化, 其中該特徵向量形成各列對應於該參考基因組之該等各別組之一或多個區域中的一者的矩陣,且其中行對應於該第一組之各3聚體末端基序之該等各別量,且其中該機器學習模型為卷積神經網路。
- 一種分析包括游離DNA分子混合物之生物樣本以確定該生物樣本所獲自之個體之病變的等級的方法,該混合物包括來自該個體及來自病毒之游離DNA分子,該方法包含: (a)分析來自該個體之該生物樣本之多個病毒游離DNA分子,其中分析該病毒之一組病毒游離DNA分子中的各者包括: 確定該病毒之參考基因組中該病毒游離DNA分子之位置,其中該組病毒游離DNA分子位於該參考基因組之第一組之一或多個CpG位點;及 確定該病毒游離DNA分子之至少一個末端之末端基序,從而確定末端基序,其中該病毒游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置; (b)使用該等末端基序確定末端位於該第一組之一或多個CpG位點中之任一者的-1至+1位置中之任一處或多處的該病毒之該組病毒游離DNA分子的第一量;及 (c)基於該第一量與參考值之比較來確定該個體之該病變之該等級之該分類。
- 如請求項105之方法,其中在具有該病變之個體中該第一組之一或多個CpG位點中之各者具有在指定範圍內的甲基化程度。
- 如請求項105之方法,其中使用來自具有該病變之個體之樣本的第一訓練集及來自不具有該病變之樣本的第二訓練集鑑別該第一組之一或多個CpG位點中之各者,其中在該第一訓練集與該第二訓練集之間該第一組之一或多個CpG位點中之各者處的第一量相差至少指定百分比。
- 如請求項105之方法,其中相對於不具有該病變之個體,在具有該病變之個體中該第一組之一或多個CpG位點中之各者存在差異甲基化。
- 如請求項105之方法,其中該第一量屬於在該第一位置處具有C且在該第二位置處具有G之第一組之一或多個末端基序。
- 如請求項109之方法,其中該第一組之一或多個末端基序包括CGN,其中N包括在該第三位置處之任何核苷酸。
- 如請求項109之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之第二組之末端基序的第二量, 其中確定該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項111之方法,其中該第二組之末端基序包括NCG,其中N包括在該第一位置處之任何核苷酸。
- 如請求項105之方法,其中該第一量屬於在該第二位置處具有C且在該第三位置處具有G之第一組之一或多個末端基序。
- 如請求項105之方法,其中該第一量為末端位於該第一組之一或多個CpG位點之-1或+1位置處的該病毒游離DNA分子之和。
- 如請求項114之方法,其中該第一組之一或多個CpG位點各自係低甲基化的。
- 如請求項105之方法,其進一步包含: 對於該第一組之一或多個CpG位點中之任一者周圍的窗內之至少兩個位置的各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量; 生成包括該等各別量及該第一量之特徵向量;及 將該特徵向量輸入至機器學習模型中,作為確定該病變之該等級之該分類的一部分,其中使用來自具有已知分類之訓練樣本的游離DNA分子訓練該機器學習模型。
- 如請求項116之方法,其中在具有該病變之個體中該第一組之一或多個CpG位點中之各者係低甲基化的。
- 如請求項117之方法,其中該特徵向量為第一特徵向量,其進一步包含: 使用全部高甲基化的第二組之一或多個CpG位點生成第二特徵向量;及 將該第二特徵向量及該第一特徵向量輸入至該機器學習模型中,作為確定該病變之該等級之該分類的一部分。
- 如請求項105之方法,其中該第一組之一或多個CpG位點為第一組之CpG位點,其中確定該第一量包括: 確定末端位於該第一組之CpG位點中之各者處的游離DNA分子之各別量,及 其中確定該病變之該等級之分類包括將該等各別量中之各者與各別參考值進行比較。
- 如請求項119之方法,其中藉由將該等各別量作為特徵向量之一部分輸入至機器學習模型中來將該等各別量中之各者與該各別參考值進行比較。
- 如請求項120之方法,其進一步包含,對於該第一組之一或多個CpG位點之各CpG位點: 對於該CpG位點周圍之窗內之至少兩個位置的各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量;及 該特徵向量中包括該至少兩個位置之該等各別量及該CpG位點之該等各別量。
- 如請求項105之方法,其進一步包含: 確定該多個病毒游離DNA分子之序列基序之總量, 其中確定該分類包括將該第一量用該總量進行標準化,以獲得經標準化之第一量,將其與該參考值進行比較。
- 如請求項105之方法,其中該病變為癌症。
- 如請求項105之方法,其進一步包含: 確定在該第一位置處具有C且在該第二位置處具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該病變之該等級之該分類的一部分,其中使用具有已知分類之訓練樣本中的游離DNA分子訓練該機器學習模型。
- 如請求項124之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之各3聚體末端基序的各別額外量,從而確定各別額外量,其中該特徵向量包括該等各別額外量。
- 如請求項124之方法,其中該特徵向量包括所有3聚體末端基序之各別量。
- 如請求項105之方法,其中分析該多個病毒游離DNA分子包括確定該多個病毒游離DNA分子中之各者的尺寸,該方法進一步包含: 確定該多個病毒游離DNA分子之尺寸分佈的統計值,及 其中確定該個體之該病變之該等級的該分類進一步包括將該統計值與尺寸參考值進行比較。
- 如請求項105或請求項127之方法,其進一步包含: 確定該多個病毒游離DNA分子之量,及 其中確定該個體之該病變之該等級的該分類進一步包括將該量與計數參考值進行比較。
- 一種用於量測個體之生物樣本中來自第一組織類型之DNA之比例濃度的方法,該生物樣本包含游離DNA,該方法包含: 分析來自該個體之該生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之至少一個末端的基因組位置; 鑑別該參考基因組中針對該第一組織類型全部具有第一差別甲基化的第一組之CpG位點,其中該第一組之CpG位點包括一或多個CpG位點; 確定末端位於該第一組之CpG位點中之任一者的0或-1位置之一處的游離DNA分子的第一量;及 藉由將該第一量與校準值進行比較來確定該生物樣本中來自該第一組織類型之DNA的該比例濃度,其中該校準值係自具有已知之來自該第一組織類型之DNA的比例濃度的一或多個校準樣本確定。
- 如請求項129之方法,其中該第一差異甲基化係該第一組之CpG位點全部低甲基化,或其中該第一差異甲基化係該第一組之CpG位點全部高甲基化。
- 如請求項130之方法,其進一步包含: 鑑別該參考基因組中跨越多個組織類型全部低甲基化或全部高甲基化的第二組之CpG位點;及 確定末端位於該第二組之CpG位點中之任一者周圍之窗內的游離DNA分子的第二量, 其中確定該比例濃度包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項130之方法,其進一步包含: 鑑別該參考基因組中針對第二組織類型全部低甲基化或全部高甲基化的第二組之CpG位點,其中該第二組之CpG位點包括一或多個CpG位點; 確定末端位於該第二組之CpG位點中之任一者處的游離DNA分子的第二量;及 藉由將該第二量與另一校準值進行比較來確定該生物樣本中來自該第二組織類型之DNA之比例濃度的變化,其中該另一校準值係自一或多個其他校準樣本確定。
- 如請求項129之方法,其中該第一差異甲基化係該第一組之CpG位點全部富集5hmC,或其中該第一差異甲基化係該第一組之CpG位點全部缺失5hmC。
- 如請求項129之方法,其中確定該第一量包括: 確定末端位於該第一組之CpG位點中之各者的0位處的游離DNA分子之各別量,及 其中確定來自該第一組織類型之DNA之該比例濃度包括將該等各別量中之各者與各別校準值進行比較。
- 如請求項134之方法,其中藉由將該等各別量作為特徵向量之一部分輸入至機器學習模型中來將該等各別量中之各者與該各別校準值進行比較。
- 如請求項135之方法,其進一步包含,對於該一或多個CpG位點之各CpG位點: 對於該CpG位點周圍之窗內之至少兩個位置的各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定各別量;及 該特徵向量中包括該至少兩個位置之該等各別量及該CpG位點之該等各別量。
- 如請求項129之方法,其中該第一組之CpG位點為多個CpG位點。
- 如請求項129之方法,其中該第一量屬於末端位於0位之游離DNA分子,該方法進一步包含: 確定末端位於該第一組之CpG位點中之任一者周圍之窗內的第一位置處之游離DNA分子的第二量, 其中確定該比例濃度包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項138之方法,其中該第一位置距CpG位點+1或-1。
- 如請求項138之方法,其中該窗距CpG位點至少-2至+2。
- 如請求項138之方法,其進一步包含: 對於該窗內之該至少兩個位置中之各位置: 確定末端位於該位置處之游離DNA分子的各別量,其中該至少兩個位置包括該第一位置;及 將末端位於該CpG位點處之游離DNA分子的該第一量與末端位於該位置處之游離DNA分子的該各別量進行比較,作為確定該比例濃度之一部分。
- 如請求項138之方法,其進一步包含: 對於該窗內之至少兩個位置中之各位置: 確定末端位於該位置處之游離DNA分子的各別量,從而確定包括該第二量之各別量,其中該至少兩個位置包括該第一位置; 生成包括該等各別量及該第一量之特徵向量;及 將該特徵向量作為確定該比例濃度之一部分輸入至機器學習模型中,其中使用來自具有該等已知之來自該第一組織類型之DNA的比例濃度的該一或多個校準樣本的游離DNA分子訓練該機器學習模型。
- 如請求項142之方法,其中該參考基因組中該第一組之一或多個CpG位點針對該第一組織類型全部低甲基化,且其中該特徵向量為第一特徵向量,該方法進一步包含: 使用全部高甲基化的第二組之一或多個CpG位點生成第二特徵向量;及 將該第二特徵向量及該第一特徵向量作為確定該比例濃度之一部分輸入至該機器學習模型中。
- 如請求項142之方法,其中該至少兩個位置包括該窗內之所有位置,該窗距CpG位點至少+4至-4。
- 如請求項142之方法,其中該機器學習模型為支持向量回歸。
- 如請求項129之方法,其中該第一量經標準化。
- 如請求項146之方法,其中該標準化使用末端位於包括CpG位點之區域內之游離DNA分子的數目。
- 如請求項146之方法,其中該標準化使用覆蓋CpG位點之游離DNA分子的數目。
- 如請求項146之方法,其中該標準化使用包括CpG位點之區域中游離DNA分子之平均或中位深度。
- 如請求項129之方法,其中該DNA比例濃度為30%或更小之範圍。
- 如請求項129之方法,其中該第一量係針對末端位於該第一組之CpG位點中之任一者的0位處的游離DNA分子確定的。
- 一種用於量測個體之生物樣本中來自第一組織類型之DNA之比例濃度的方法,該生物樣本包含游離DNA,該方法包含: 分析來自該個體之該生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定參考基因組中對應於該游離DNA分子之至少一個末端的基因組位置;及 確定該游離DNA分子之至少一個末端之末端基序,其中該游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置; 鑑別該參考基因組中針對該第一組織類型全部低甲基化或高甲基化的第一組之CpG位點,其中該第一組之CpG位點包括一或多個CpG位點; 確定第一組之一或多個末端基序的第一量,其中: 該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,或 該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G;及 藉由將該第一量與校準值進行比較來確定該生物樣本中來自該第一組織類型之DNA的該比例濃度,其中該校準值係自具有已知之來自該第一組織類型之DNA的比例濃度的一或多個校準樣本確定。
- 一種用於使用游離DNA分子量測個體之基因組中之區域的5hmC甲基化的方法,該方法包含: 分析來自該個體之生物樣本之多個游離DNA分子,其中分析游離DNA分子包括: 確定該游離DNA分子之至少一個末端之末端基序,其中該游離DNA分子之末端具有位於最外側位置之第一位置、緊鄰該第一位置之第二位置及緊鄰該第二位置之第三位置,其中該多個游離DNA分子位於參考基因組之該區域中; 確定第一組之一或多個末端基序的第一量,其中: 該第一組之一或多個末端基序在該第一位置處具有C且在該第二位置處具有G,或 該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G;及 藉由將該第一量與校準值進行比較來確定該個體之該基因組中之該區域的5hmC甲基化的分類,其中該校準值係使用來自一或多個校準樣本且位於針對5hmC甲基化程度具有已知之分類之CpG位點處的游離DNA分子確定。
- 如請求項153之方法,其中該第一組之一或多個末端序列基序在該第一位置處具有C且在該第二位置處具有G。
- 如請求項154之方法,其進一步包含: 確定在該第二位置處具有C且在該第三位置處具有G之第二組之一或多個末端基序的第二量, 其中確定該分類包括將該第一量用該第二量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項153之方法,其中該第一組之一或多個末端基序在該第二位置處具有C且在該第三位置處具有G。
- 如請求項153之方法,其進一步包含: 基於該區域中該參考基因組之參考序列確定該第一組之一或多個末端序列基序之預期量, 其中確定該分類包括將該第一量用該預期量進行標準化,以獲得經標準化之第一量,將其與該校準值進行比較。
- 如請求項153之方法,其進一步包含: 確定在該第一位置處具有C且在該第二位置處具有G之各3聚體末端基序的各別量,從而確定各別量; 生成包括該等各別量之特徵向量,該等各別量包括該第一量;及 將該特徵向量輸入至機器學習模型中,作為確定該個體之該基因組中之該區域的該分類之一部分,其中使用來自該一或多個校準樣本之游離DNA分子訓練該機器學習模型。
- 如前述請求項中任一項之方法,其中分析該多個游離DNA分子使用定序。
- 如前述請求項中任一項之方法,其中分析該多個游離DNA分子使用PCR。
- 如請求項160之方法,其中該PCR靶向擴增重複區域中之序列。
- 如前述請求項中任一項之方法,其中分析該多個游離DNA分子包括分析至少1,000個游離DNA分子。
- 一種電腦產品,其包含儲存多個指令之非暫時性電腦可讀媒體,該多個指令在經執行時使得電腦系統進行如前述請求項中任一項之方法。
- 一種系統,其包含: 如請求項163之電腦產品,及 一或多個處理器,用於執行儲存於該電腦可讀媒體上之指令。
- 一種系統,其包含用於進行任一種上述方法之構件。
- 一種系統,其包含經組態以進行任一種上述方法之一或多個處理器。
- 一種系統,其包含分別進行任一種上述方法之步驟的模組。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263307622P | 2022-02-07 | 2022-02-07 | |
US63/307,622 | 2022-02-07 | ||
US202263328710P | 2022-04-07 | 2022-04-07 | |
US63/328,710 | 2022-04-07 | ||
US202263400244P | 2022-08-23 | 2022-08-23 | |
US63/400,244 | 2022-08-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW202342765A true TW202342765A (zh) | 2023-11-01 |
Family
ID=87553104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW112104317A TW202342765A (zh) | 2022-02-07 | 2023-02-07 | 用於量測甲基化及疾病之片段化 |
Country Status (3)
Country | Link |
---|---|
US (3) | US20230313314A1 (zh) |
TW (1) | TW202342765A (zh) |
WO (1) | WO2023147783A1 (zh) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110100013A (zh) * | 2016-10-24 | 2019-08-06 | 香港中文大学 | 用于肿瘤检测的方法和*** |
US20210265007A1 (en) * | 2020-02-05 | 2021-08-26 | The Chinese University Of Hong Kong | Molecular analyses using long cell-free fragments in pregnancy |
-
2023
- 2023-02-07 US US18/106,793 patent/US20230313314A1/en active Pending
- 2023-02-07 TW TW112104317A patent/TW202342765A/zh unknown
- 2023-02-07 WO PCT/CN2023/074730 patent/WO2023147783A1/en unknown
- 2023-03-06 US US18/118,024 patent/US20230374602A1/en active Pending
- 2023-03-06 US US18/117,992 patent/US20230374601A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023147783A1 (en) | 2023-08-10 |
US20230374601A1 (en) | 2023-11-23 |
US20230313314A1 (en) | 2023-10-05 |
US20230374602A1 (en) | 2023-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7168247B2 (ja) | 癌スクリーニング及び胎児分析のための変異検出 | |
KR102658592B1 (ko) | 핵산의 염기 변형의 결정 | |
JP6971845B2 (ja) | 遺伝子の変動の非侵襲的評価のための方法および処理 | |
CN113366122B (zh) | 游离dna末端特征 | |
TW202102687A (zh) | 確定循環核酸之線性及環狀形式 | |
US20200056245A1 (en) | Cell-free dna damage analysis and its clinical applications | |
US20220010353A1 (en) | Nuclease-associated end signature analysis for cell-free nucleic acids | |
WO2023093782A1 (en) | Molecular analyses using long cell-free dna molecules for disease classification | |
WO2023147783A1 (en) | Fragmentation for measuring methylation and disease | |
TW202424208A (zh) | 無細胞dna的表觀遺傳學分析 |