JP2024016039A - 相同組換え欠損を推定するための統合された機械学習フレームワーク - Google Patents
相同組換え欠損を推定するための統合された機械学習フレームワーク Download PDFInfo
- Publication number
- JP2024016039A JP2024016039A JP2023176962A JP2023176962A JP2024016039A JP 2024016039 A JP2024016039 A JP 2024016039A JP 2023176962 A JP2023176962 A JP 2023176962A JP 2023176962 A JP2023176962 A JP 2023176962A JP 2024016039 A JP2024016039 A JP 2024016039A
- Authority
- JP
- Japan
- Prior art keywords
- subject
- cancerous tissue
- cancer
- genome
- dna
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006801 homologous recombination Effects 0.000 title claims abstract description 81
- 238000002744 homologous recombination Methods 0.000 title claims abstract description 81
- 230000007812 deficiency Effects 0.000 title description 11
- 238000010801 machine learning Methods 0.000 title description 8
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 252
- 238000000034 method Methods 0.000 claims abstract description 175
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 119
- 201000011510 cancer Diseases 0.000 claims abstract description 114
- 230000005971 DNA damage repair Effects 0.000 claims abstract description 55
- 230000037361 pathway Effects 0.000 claims abstract description 54
- 238000012360 testing method Methods 0.000 claims abstract description 50
- 108700028369 Alleles Proteins 0.000 claims abstract description 39
- 238000011282 treatment Methods 0.000 claims abstract description 30
- 239000000523 sample Substances 0.000 claims description 88
- 108020004414 DNA Proteins 0.000 claims description 75
- 238000012549 training Methods 0.000 claims description 74
- 238000004422 calculation algorithm Methods 0.000 claims description 72
- 230000035772 mutation Effects 0.000 claims description 51
- 238000012163 sequencing technique Methods 0.000 claims description 43
- 150000007523 nucleic acids Chemical class 0.000 claims description 40
- 102000039446 nucleic acids Human genes 0.000 claims description 35
- 108020004707 nucleic acids Proteins 0.000 claims description 35
- 239000012661 PARP inhibitor Substances 0.000 claims description 25
- 229940121906 Poly ADP ribose polymerase inhibitor Drugs 0.000 claims description 25
- 102000036365 BRCA1 Human genes 0.000 claims description 20
- 108700020462 BRCA2 Proteins 0.000 claims description 20
- 102000052609 BRCA2 Human genes 0.000 claims description 20
- 101150008921 Brca2 gene Proteins 0.000 claims description 20
- 108700020463 BRCA1 Proteins 0.000 claims description 19
- 101150072950 BRCA1 gene Proteins 0.000 claims description 19
- 102000012338 Poly(ADP-ribose) Polymerases Human genes 0.000 claims description 14
- 108010061844 Poly(ADP-ribose) Polymerases Proteins 0.000 claims description 14
- 229920000776 Poly(Adenosine diphosphate-ribose) polymerase Polymers 0.000 claims description 14
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000001574 biopsy Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 210000004369 blood Anatomy 0.000 claims description 12
- 239000008280 blood Substances 0.000 claims description 12
- 230000007547 defect Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 11
- 238000012706 support-vector machine Methods 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000002360 preparation method Methods 0.000 claims description 9
- 238000007635 classification algorithm Methods 0.000 claims description 8
- 230000002950 deficient Effects 0.000 claims description 7
- 206010006187 Breast cancer Diseases 0.000 claims description 6
- 208000026310 Breast neoplasm Diseases 0.000 claims description 6
- 108020004711 Nucleic Acid Probes Proteins 0.000 claims description 6
- 206010061535 Ovarian neoplasm Diseases 0.000 claims description 6
- 230000037433 frameshift Effects 0.000 claims description 6
- 239000002853 nucleic acid probe Substances 0.000 claims description 6
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 6
- 206010033128 Ovarian cancer Diseases 0.000 claims description 5
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 206010009944 Colon cancer Diseases 0.000 claims description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 claims description 4
- 238000007482 whole exome sequencing Methods 0.000 claims description 4
- 231100000221 frame shift mutation induction Toxicity 0.000 claims description 3
- 239000003112 inhibitor Substances 0.000 claims description 3
- FAQDUNYVKQKNLD-UHFFFAOYSA-N olaparib Chemical group FC1=CC=C(CC2=C3[CH]C=CC=C3C(=O)N=N2)C=C1C(=O)N(CC1)CCN1C(=O)C1CC1 FAQDUNYVKQKNLD-UHFFFAOYSA-N 0.000 claims description 3
- 229960000572 olaparib Drugs 0.000 claims description 3
- HWGQMRYQVZSGDQ-HZPDHXFCSA-N chembl3137320 Chemical compound CN1N=CN=C1[C@H]([C@H](N1)C=2C=CC(F)=CC=2)C2=NNC(=O)C3=C2C1=CC(F)=C3 HWGQMRYQVZSGDQ-HZPDHXFCSA-N 0.000 claims description 2
- PCHKPVIQAHNQLW-CQSZACIVSA-N niraparib Chemical compound N1=C2C(C(=O)N)=CC=CC2=CN1C(C=C1)=CC=C1[C@@H]1CCCNC1 PCHKPVIQAHNQLW-CQSZACIVSA-N 0.000 claims description 2
- 229950011068 niraparib Drugs 0.000 claims description 2
- 230000006798 recombination Effects 0.000 claims description 2
- 238000005215 recombination Methods 0.000 claims description 2
- HMABYWSNWIZPAG-UHFFFAOYSA-N rucaparib Chemical compound C1=CC(CNC)=CC=C1C(N1)=C2CCNC(=O)C3=C2C1=CC(F)=C3 HMABYWSNWIZPAG-UHFFFAOYSA-N 0.000 claims description 2
- 229950004707 rucaparib Drugs 0.000 claims description 2
- 229950004550 talazoparib Drugs 0.000 claims description 2
- JNAHVYVRKWKWKQ-CYBMUJFWSA-N veliparib Chemical compound N=1C2=CC=CC(C(N)=O)=C2NC=1[C@@]1(C)CCCN1 JNAHVYVRKWKWKQ-CYBMUJFWSA-N 0.000 claims description 2
- 229950011257 veliparib Drugs 0.000 claims description 2
- 239000002299 complementary DNA Substances 0.000 claims 2
- 230000005945 translocation Effects 0.000 claims 1
- 238000001712 DNA sequencing Methods 0.000 abstract description 11
- 210000001519 tissue Anatomy 0.000 description 103
- 239000002773 nucleotide Substances 0.000 description 36
- 125000003729 nucleotide group Chemical group 0.000 description 36
- 210000004027 cell Anatomy 0.000 description 34
- 230000002068 genetic effect Effects 0.000 description 33
- 238000004458 analytical method Methods 0.000 description 22
- 241000282414 Homo sapiens Species 0.000 description 17
- 210000004602 germ cell Anatomy 0.000 description 16
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 15
- 230000001717 pathogenic effect Effects 0.000 description 15
- 210000002220 organoid Anatomy 0.000 description 14
- 230000033616 DNA repair Effects 0.000 description 11
- 201000010099 disease Diseases 0.000 description 11
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 11
- 238000007481 next generation sequencing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000000392 somatic effect Effects 0.000 description 11
- 102000004169 proteins and genes Human genes 0.000 description 10
- 238000002560 therapeutic procedure Methods 0.000 description 10
- 238000003556 assay Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000000869 mutational effect Effects 0.000 description 8
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000035945 sensitivity Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 7
- 239000003153 chemical reaction reagent Substances 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000012010 growth Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 7
- 210000002569 neuron Anatomy 0.000 description 7
- 210000000056 organ Anatomy 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 210000003296 saliva Anatomy 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 208000032818 Microsatellite Instability Diseases 0.000 description 6
- 101001024425 Mus musculus Ig gamma-2A chain C region secreted form Proteins 0.000 description 6
- 239000012472 biological sample Substances 0.000 description 6
- 239000013610 patient sample Substances 0.000 description 6
- 230000008439 repair process Effects 0.000 description 6
- 102000008096 B7-H1 Antigen Human genes 0.000 description 5
- 108010074708 B7-H1 Antigen Proteins 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- 238000013145 classification model Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 201000005787 hematologic cancer Diseases 0.000 description 5
- 208000024200 hematopoietic and lymphoid system neoplasm Diseases 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 230000036961 partial effect Effects 0.000 description 5
- 230000002085 persistent effect Effects 0.000 description 5
- 238000003752 polymerase chain reaction Methods 0.000 description 5
- 241000894007 species Species 0.000 description 5
- 230000004083 survival effect Effects 0.000 description 5
- 230000008685 targeting Effects 0.000 description 5
- 108010067741 Fanconi Anemia Complementation Group N protein Proteins 0.000 description 4
- 102000016627 Fanconi Anemia Complementation Group N protein Human genes 0.000 description 4
- 108091028043 Nucleic acid sequence Proteins 0.000 description 4
- 230000003321 amplification Effects 0.000 description 4
- 210000000349 chromosome Anatomy 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000005782 double-strand break Effects 0.000 description 4
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000012252 genetic analysis Methods 0.000 description 4
- 230000008595 infiltration Effects 0.000 description 4
- 238000001764 infiltration Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 238000003199 nucleic acid amplification method Methods 0.000 description 4
- 210000004940 nucleus Anatomy 0.000 description 4
- 244000052769 pathogen Species 0.000 description 4
- 229910052697 platinum Inorganic materials 0.000 description 4
- 230000005783 single-strand break Effects 0.000 description 4
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 3
- 230000005778 DNA damage Effects 0.000 description 3
- 231100000277 DNA damage Toxicity 0.000 description 3
- 230000004075 alteration Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 239000011324 bead Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000004640 cellular pathway Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000006378 damage Effects 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000007850 fluorescent dye Substances 0.000 description 3
- 230000009545 invasion Effects 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000003908 quality control method Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 230000001225 therapeutic effect Effects 0.000 description 3
- 108091007743 BRCA1/2 Proteins 0.000 description 2
- 102000053602 DNA Human genes 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 2
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 2
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 2
- 210000001766 X chromosome Anatomy 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- 239000000427 antigen Substances 0.000 description 2
- 108091007433 antigens Proteins 0.000 description 2
- 102000036639 antigens Human genes 0.000 description 2
- 238000003782 apoptosis assay Methods 0.000 description 2
- 230000006907 apoptotic process Effects 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 210000001185 bone marrow Anatomy 0.000 description 2
- 230000030833 cell death Effects 0.000 description 2
- 230000033077 cellular process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000009096 combination chemotherapy Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000037437 driver mutation Effects 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 229940071106 ethylenediaminetetraacetate Drugs 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000013467 fragmentation Methods 0.000 description 2
- 238000006062 fragmentation reaction Methods 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000011528 liquid biopsy Methods 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000008774 maternal effect Effects 0.000 description 2
- 230000009401 metastasis Effects 0.000 description 2
- 230000011987 methylation Effects 0.000 description 2
- 238000007069 methylation reaction Methods 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000037438 passenger mutation Effects 0.000 description 2
- 210000005259 peripheral blood Anatomy 0.000 description 2
- 239000011886 peripheral blood Substances 0.000 description 2
- 230000005522 programmed cell death Effects 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 239000013074 reference sample Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000002626 targeted therapy Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 108700040618 BRCA1 Genes Proteins 0.000 description 1
- 108700010154 BRCA2 Genes Proteins 0.000 description 1
- 206010055113 Breast cancer metastatic Diseases 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 208000037088 Chromosome Breakage Diseases 0.000 description 1
- 208000005443 Circulating Neoplastic Cells Diseases 0.000 description 1
- 108020003215 DNA Probes Proteins 0.000 description 1
- 102000011724 DNA Repair Enzymes Human genes 0.000 description 1
- 108010076525 DNA Repair Enzymes Proteins 0.000 description 1
- 239000003298 DNA probe Substances 0.000 description 1
- 238000012270 DNA recombination Methods 0.000 description 1
- 102100034484 DNA repair protein RAD51 homolog 3 Human genes 0.000 description 1
- 230000004568 DNA-binding Effects 0.000 description 1
- 238000011346 DNA-damaging therapy Methods 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 108700024394 Exon Proteins 0.000 description 1
- 206010017993 Gastrointestinal neoplasms Diseases 0.000 description 1
- 208000031448 Genomic Instability Diseases 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001132271 Homo sapiens DNA repair protein RAD51 homolog 3 Proteins 0.000 description 1
- 241000534431 Hygrocybe pratensis Species 0.000 description 1
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 1
- 101100384865 Neurospora crassa (strain ATCC 24698 / 74-OR23-1A / CBS 708.71 / DSM 1257 / FGSC 987) cot-1 gene Proteins 0.000 description 1
- 108020004485 Nonsense Codon Proteins 0.000 description 1
- 108091005461 Nucleic proteins Proteins 0.000 description 1
- 108091034117 Oligonucleotide Proteins 0.000 description 1
- 206010061902 Pancreatic neoplasm Diseases 0.000 description 1
- ZYFVNVRFVHJEIU-UHFFFAOYSA-N PicoGreen Chemical compound CN(C)CCCN(CCCN(C)C)C1=CC(=CC2=[N+](C3=CC=CC=C3S2)C)C2=CC=CC=C2N1C1=CC=CC=C1 ZYFVNVRFVHJEIU-UHFFFAOYSA-N 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 208000000453 Skin Neoplasms Diseases 0.000 description 1
- 108010090804 Streptavidin Proteins 0.000 description 1
- 206010066901 Treatment failure Diseases 0.000 description 1
- 208000007097 Urinary Bladder Neoplasms Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 208000037842 advanced-stage tumor Diseases 0.000 description 1
- 238000012197 amplification kit Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- 230000003851 biochemical process Effects 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000005907 cancer growth Effects 0.000 description 1
- 238000000423 cell based assay Methods 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 108091092356 cellular DNA Proteins 0.000 description 1
- 238000009104 chemotherapy regimen Methods 0.000 description 1
- 238000002648 combination therapy Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001861 endoscopic biopsy Methods 0.000 description 1
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 1
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 1
- 238000007387 excisional biopsy Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001605 fetal effect Effects 0.000 description 1
- 210000003754 fetus Anatomy 0.000 description 1
- 238000007672 fourth generation sequencing Methods 0.000 description 1
- 230000002496 gastric effect Effects 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000037442 genomic alteration Effects 0.000 description 1
- 238000011331 genomic analysis Methods 0.000 description 1
- 230000008826 genomic mutation Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000013275 image-guided biopsy Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 238000000338 in vitro Methods 0.000 description 1
- 238000007386 incisional biopsy Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011901 isothermal amplification Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000002147 killing effect Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000009092 lines of therapy Methods 0.000 description 1
- 239000006193 liquid solution Substances 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 229920002521 macromolecule Polymers 0.000 description 1
- 210000004962 mammalian cell Anatomy 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 1
- 238000013188 needle biopsy Methods 0.000 description 1
- 239000013642 negative control Substances 0.000 description 1
- 238000011227 neoadjuvant chemotherapy Methods 0.000 description 1
- 208000002154 non-small cell lung carcinoma Diseases 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008775 paternal effect Effects 0.000 description 1
- 230000007918 pathogenicity Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 239000012660 pharmacological inhibitor Substances 0.000 description 1
- 235000021110 pickles Nutrition 0.000 description 1
- 238000011518 platinum-based chemotherapy Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000002307 prostate Anatomy 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000007388 punch biopsy Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007389 shave biopsy Methods 0.000 description 1
- 238000007390 skin biopsy Methods 0.000 description 1
- 201000000849 skin cancer Diseases 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000007920 subcutaneous administration Methods 0.000 description 1
- JZBRFIUYUGTUGG-UHFFFAOYSA-J tetrapotassium;2-[2-[bis(carboxylatomethyl)amino]ethyl-(carboxylatomethyl)amino]acetate Chemical compound [K+].[K+].[K+].[K+].[O-]C(=O)CN(CC([O-])=O)CCN(CC([O-])=O)CC([O-])=O JZBRFIUYUGTUGG-UHFFFAOYSA-J 0.000 description 1
- 238000007671 third-generation sequencing Methods 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 231100000419 toxicity Toxicity 0.000 description 1
- 230000001988 toxicity Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011277 treatment modality Methods 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
- 210000004881 tumor cell Anatomy 0.000 description 1
- 208000029729 tumor suppressor gene on chromosome 11 Diseases 0.000 description 1
- 210000001835 viscera Anatomy 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6876—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
- C12Q1/6883—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
- C12Q1/6886—Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/30—Data warehousing; Computing architectures
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/112—Disease subtyping, staging or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Organic Chemistry (AREA)
- Analytical Chemistry (AREA)
- Mathematical Physics (AREA)
- Genetics & Genomics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Zoology (AREA)
- Pathology (AREA)
- Wood Science & Technology (AREA)
- Immunology (AREA)
- Computing Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Bioethics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Microbiology (AREA)
Abstract
【課題】がん性組織からのDNA配列決定結果を評価するためのシステムおよび方法を提供する。【解決手段】例えば、がん治療の予測および結果を改善するために、試験対象におけるがんの相同組換え経路状態を判定するための方法、システム、およびソフトウェアが提供される。いくつかの実施形態では、(i)がん性組織におけるDNA損傷修復遺伝子のヘテロ接合性状態、(ii)がん性組織のゲノム全体のヘテロ接合性の喪失の尺度、(iii)がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、(iv)非がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(v)腫瘍サンプルの純度のうちの1つ以上を使用する分類器が提供される。【選択図】図1A
Description
関連出願の相互参照
本出願は、2019年2月12日に出願された米国仮特許出願第62/804,730号、および2019年12月10日に出願された米国仮特許出願第62/946,347号の優先権を主張し、あらゆる目的のためにそれら全体が参照により本明細書に組み込まれる。
本出願は、2019年2月12日に出願された米国仮特許出願第62/804,730号、および2019年12月10日に出願された米国仮特許出願第62/946,347号の優先権を主張し、あらゆる目的のためにそれら全体が参照により本明細書に組み込まれる。
本開示は、一般に、相同組換え欠損を予測するためのがん性組織のDNA配列決定に対して訓練された機械学習分類器の使用に関する。
精密腫瘍学は、個々の腫瘍の固有のゲノム、エピジェネティック、および/またはトランスクリプトミクスプロファイルに合わせてがん治療法を調整する実践である。これは、患者が苦しんでいるがんのタイプのみに基づいてがん患者を治療する、例えば、すべての乳がん患者を第1の治療法で治療し、すべての肺がん患者を第2の治療法で治療するための従来の方法とは対照的である。精密腫瘍学は、同じタイプのがん、例えば乳がんと診断された異なる患者が一般的な治療計画に対して非常に異なった反応を示したという多くの観察から生まれた。時間の経過とともに、研究者は、個々のがんが特定の治療モダリティにどのように反応するかについて、あるレベルの予測を容易にするゲノム、エピジェネティック、およびトランスクリプトミクスマーカーを特定してきた。
特定のゲノム変化を標的とした治療法は、(例えば、黒色腫、結腸直腸がん、および非小細胞肺がんについてのNCCN(National Comprehensive Cancer Network)ガイドラインで示唆されているように)すでにいくつかの腫瘍タイプにおける標準ケアとなっている。NCCNガイドラインのこれらのいくつかの周知の変異は、個々のアッセイまたは小さな次世代配列決定(NGS)パネルで対処され得る。ただし、最大数の患者が個別化された腫瘍学の恩恵を受けるには、適応外薬の適応、併用療法、または組織非依存性免疫療法の標的となる可能性のある分子変化を評価する必要がある。Schwaederle et al.2016 JAMA Oncol.2,1452-1459,Schwaederle et al.2015 J Clin Oncol.32,3817-3825、およびWheler et al.2016 Cancer Res.76、3690-3701を参照のこと。大規模パネルNGSアッセイはまた、臨床試験登録のためのより広いネットをキャストする。Coyne et al.2017 Curr.Probl.Cancer 41,182-193、およびMarkman 2017 Oncology 31,158,168を参照のこと。
腫瘍のゲノム解析は、患者に合わせた治療を提供し、転帰を改善するための日常的な臨床診療に急速になりつつある。Fernandes et al.2017 Clinics 72,588-594を参照のこと。実際、最近の研究では、臨床ケアは、そのような試験を受けている患者の30~40%のNGSアッセイ結果によって導かれていることが示されている。Hirshfield et al.2016 Oncologist 21,1315-1325、Groisberg et al.2017 Oncotarget 8,39254-39267、Ross et al.JAMA Oncol.1,40-49、およびRoss et al.2015 Arch.Pathol.Lab Med.139、642-649を参照のこと。遺伝学に導かれた治療法アドバイスを受けた患者はより良い転帰を有するという証拠が増えている。例えば、マッチングスコア(例えば、治療法関連の数と患者あたりのゲノム異常に基づくスコア)を使用して、マッチングスコアが高い患者ほど安定した疾患の頻度が高く、治療が失敗するまでの時間が長く、全生存期間がより大きくなることを示したWheler et al.(2016 Cancer Res.76、3690-3701)を参照のこと。そのような方法は、すでに複数の治療法ラインに失敗した患者にとって特に有用である可能性がある。
標的療法は、特に無増悪生存期間に関して、患者の転帰に有意な改善を示している。Radovich et al.2016 Oncotarget 7,56491-56500を参照のこと。最近の証拠は、3,743人の患者からの進行期腫瘍の遺伝子試験を伴ったIMPACT試験から報告され、ここでは、患者の約19%が腫瘍生物学に基づいてマッチした標的療法を受けており、マッチした治療を受けた患者は16.2%の奏効率を示したのに対し、マッチしない治療を受けた患者では5.2%の奏効率であることを示した。Bankhead.「IMPACT Trial:Support for Targeted Cancer Tx Approaches.」MedPageToday.2018年6月5日を参照のこと。IMPACT研究はさらに、分子的にマッチした治療法を受けた患者の3年全生存期間が、マッチしない治療を受けた患者の3倍以上であることを見出した(15%対7%)。同文献およびASCO Post.「2018 ASCO:IMPACT Trial Matches Treatment to Genetic Changes in the Tumor to Improve Survival Across Multiple Cancer conditions.」 The ASCO POST.2018年6月6日を参照のこと。遺伝子検査によってケアの軌道が変わる患者の比率の推定値は、約10%~50%超まで大きく変動する。Fernandes et al.2017 Clinics 72,588-594を参照のこと。
特定の治療法の有効性にリンクしたゲノム形質の一例は、BRCA1、BRCA2、またはPALB2相同組換え遺伝子の変異である。PARP阻害剤(PARPi)として知られるポリADPリボースポリメラーゼ1(PARP1)の薬理学的阻害剤のクラスは、BRCA1、BRCA2、またはPALB2相同組換え遺伝子に変異を含むいくつかのがんを治療するための治療法有効性がある。PARP1は、エラーが発生しやすいマイクロホモロジー媒介末端結合(MMEJ)DNA修復経路に不可欠な酵素ある。Sharma S.et al.,Cell Death Dis.6(3):e1697(2015)。PARP1活性がない場合、一本鎖切断に遭遇するとDNA複製フォークが失速する。フォークの失速は、最終的には、MMEJ経路よりもエラーが発生しにくい相同組換え(HR)修復によって修復できる二本鎖染色体切断をもたらす。
がん細胞が一般的に欠損している他のDNA修復タンパク質とは異なり、PARP1は特定のがんのタイプで過剰発現していることが示されている。相同修復と比較してMMEJ DNA修復が増加すると、ゲノム変異が蓄積し、がんの発症につながる可能性があると理論付けられている。ただし、PARP阻害剤の有効性は完全には理解されていない。例えば、BRCA1、BRCA2、またはPALB2変異を持つすべてのがんがPARP阻害剤に感度があるわけではない。さらに、相同組換えタンパク質に変異がない一部のがんは、PARP阻害剤に感度がある。
相同組換え(HR)は、通常の高度に保存されたDNA修復プロセスであり、同一または密接に関連するDNA分子間で遺伝情報の交換を可能にする。これは、DNAの両方の鎖で発生する有害な切断(つまり損傷)を正確に修復するために細胞によって最も広く使用されている。DNA損傷は、UV光、放射線、または化学的損傷などの外因性(外部)ソースから、または、DNA複製のエラーやDNA損傷を引き起こす他の細胞プロセスなどの内因性(内部)ソースから発生することがある。二本鎖切断は、DNA損傷の一タイプである。
HRDを有する患者にポリ(ADP-リボース)ポリメラーゼ(PARP)阻害剤を使用すると、DNA修復の2つの経路が損なわれ、細胞死(アポトーシス)をもたらす。PARP阻害剤の有効性は、生殖細胞系列または体細胞のBRCA変異を示す卵巣がんだけでなく、HRDが他の根本的な病因によって引き起こされるがんでも改善される。
ポリ(ADP-リボース)ポリメラーゼ(PARP)は、DNA修復、ゲノム安定性、プログラム細胞死などの多くの細胞プロセスに関与するタンパク質ファミリーである。相同組換え欠損(「HR欠損」または「HRD」)は、患者に対するPARP阻害剤(PARPi)およびプラチナベースの治療法の有効性を高めることが示されている欠損である。細胞DNAの最も一般的な病変は一本鎖切断(SSB)であり、1日あたり細胞あたり数万で発生する。PARPは、一本鎖切断の修復を助けるDNA修復酵素である。これらのPARPが(例えば、PARP阻害剤の治療法によって)機能していないか、ブロックされている場合、これはしばしば、いわゆる二本鎖切断(DSB)につながる。相同組換え修復(HRR)は、体がこれらのDSBを修復する主な方法である。がん細胞がHRD(または言い換えれば、HRRの欠損)を持っている場合、細胞が増殖し続ける代わりに、DSBから回復する細胞の可能性が低下し、細胞をアポトーシス(プログラムされた細胞死)に導く。がん細胞を死に至らしめることは、人のがんの成長を止める1つの方法である。
人によっては、HRDは、BRCA1/2の両アレルの不活性化によって一般的に引き起こされる、相同組換えDNA修復経路の喪失を通じて腫瘍に生じる疾患状態と考えられている。欠損症はしばしばBRCA遺伝子の変異によって示されるが、がんで一般的であるように、腫瘍がHR欠損症を持つことができる他の方法がある。
がん全体で、HRDは約6%の頻度で発生する。発生率は、卵巣がんでは30%、ならびに乳がん、膵臓がん、および前立腺がんでは中程度(12~13%)になる可能性がある。HRDは、BRCA1、BRCA2、RAD51C、およびPALB2の両アレルの不活性化によって引き起こされる可能性がある。ヘテロ接合性の喪失(LOH)と欠失(特にBRCA2)も主な原因であると考えられている。
上記の背景を考慮すると、当技術分野で必要とされるのは、どのがんが相同修復欠損(HRD)であるかを予測するための改善された方法であり、例えば、どのがん患者がPARP阻害剤に好意的に反応する可能性が高いかを特定する。本開示は、がんの相同組換え状態を予測するように訓練された機械学習アルゴリズムを使用して、がん性組織からのDNA配列決定結果を評価するためのシステムおよび方法を提供することによって、これらおよび他のニーズに対処する。
相同組換えの喪失は、広く認識されているがん進行の決定因子である。しかし、患者のゲノムから相同組換え欠損症(HRD)を推定するための計算リソースはほとんど存在しない。ゲノミクスベースのHRDテストは、がんの診断に役立ち、例えばPARPiによる治療に向けた患者の層別化に使用することができる。人のがんのHRD状態を推定するためのシステムおよび方法が開示されている。
一態様では、本開示は、試験対象におけるがんの相同組換え経路状態を判定するための方法を提供する。本方法は、試験対象からの第1のDNAサンプルの第1の複数の配列読み取りを電子形式で取得することであって、第1のDNAサンプルが、対象のがん性組織からのDNA分子を含む、取得することを含む。本方法は、試験対象からの第2のDNAサンプルの第2の複数の配列読み取りを電子で取得することであって、第2のDNAサンプルが、対象の非がん性組織からのDNA分子からなる、取得することを含む。次に、本方法は、第1の複数の配列読み取りおよび第2の複数の配列読み取りに基づいて、対象のゲノムデータ構築物を生成することであって、ゲノムデータ構築物が、対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む、生成することを含む。いくつかの実施形態では、複数の特徴は、(i)対象のがん性組織における第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、(iii)対象のがん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)対象の非がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む。次に、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器にゲノムデータ構築物を入力し、それによって試験対象の相同組換え経路状態を判定することと、を含む。
別の態様において、本開示は、がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法を提供する。本方法は、がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、それぞれの訓練対象の対応するゲノムデータ構築物を取得することを含む。対応するゲノム訓練構築物が、(a)それぞれの訓練対象のがんの相同組換え経路状態、および(b)それぞれの訓練対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む。いくつかの実施形態では、1つ以上の特徴が、(i)それぞれの訓練対象のがん性組織における第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)それぞれの訓練対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、(iii)それぞれの訓練対象のがん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)それぞれの訓練対象の非がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む。次に、本方法は、それぞれの訓練対象ごとに、少なくとも(a)それぞれの訓練対象のがんの相同組換え経路状態、および(b)それぞれの訓練対象のがん性組織からの対応するDNAサンプルから判定された複数の特徴に対して分類アルゴリズムを訓練することを含む。
本開示の追加の態様および利点は、以下の詳細な説明から当技術分野の当業者に容易に明らかになり、本開示の例示的な実施形態のみが示され、説明される。理解されるように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、すべて本開示から逸脱することなく、様々な明白な点で修正することができる。したがって、図面および説明は、本質的に例示的なものと見なされるべきであり、限定的なものとして見なされるべきではない。
図面のいくつかの図を通して、同様の参照番号は、対応する部分を指す。
本開示は、がん性組織のDNA配列決定に由来する情報を使用して、がんの相同組換え状態を予測し、治療の予測および結果を改善するためのシステムおよび方法を提供する。いくつかの実施形態では、マッチしたがん性組織および生殖系列組織からの配列決定データを一緒に使用して、予測の精度を改善する。
定義
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および/または」という用語は、列挙する関連項目の1つ以上の任意のおよびあり得る全ての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える(comprises)」および/または「備えている(comprising)」という用語は、述べた特徴、完全体、ステップ、動作、要素、および/または構成要素が存在することを規定するが、1つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および/またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。さらに、「含んでいる(including)」、「含む(include)」、「有している(having)」、「有する(has)」、「有する(with)」、またはそれらの変化形の用語が詳細な説明および/または特許請求の範囲のいずれかで使用される限り、そのような用語は、「備えている」という用語と同様の方法で包括的である。
本開示で使用される用語は、特定の実施形態を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明の説明および特許請求の範囲の中で使用するとき、単数形「a」、「an」および「the」は、文脈において特に明確な指示がない限り、複数形も含むことを意図する。また、本明細書で使用するとき、「および/または」という用語は、列挙する関連項目の1つ以上の任意のおよびあり得る全ての組み合わせを指し、包含することも理解されるであろう。さらに本明細書で使用されるとき、「備える(comprises)」および/または「備えている(comprising)」という用語は、述べた特徴、完全体、ステップ、動作、要素、および/または構成要素が存在することを規定するが、1つ以上の他の特徴、完全体、ステップ、動作、要素、構成要素、および/またはそれらのグループが存在すること、もしくは追加されることを除外しないことも理解されるであろう。さらに、「含んでいる(including)」、「含む(include)」、「有している(having)」、「有する(has)」、「有する(with)」、またはそれらの変化形の用語が詳細な説明および/または特許請求の範囲のいずれかで使用される限り、そのような用語は、「備えている」という用語と同様の方法で包括的である。
本明細書で使用されるとき、「もし」という用語は、文脈に応じて「場合」もしくは「とき」、または「決定することに応じて」もしくは「検出することに応じて」を意味するものと解釈されてもよい。同様に、「決定される場合」または「(述べた条件または事象が)検出される場合」という句は、文脈に応じて「決定するとき」もしくは「決定することに応じて」、または「(述べた条件または事象を)検出するとき」もしくは「(述べた条件または事象を)検出することに応じて」を意味するものと解釈され得る。
また、第1、第2などの用語は、様々な要素を説明するために本明細書で使用されることがあるが、これらの要素はこれらの用語によって限定されるべきではないことも理解されるであろう。これらの用語は、ある要素を別の要素と区別するためにのみ使用される。例えば、本開示の範囲から逸脱することなく、第1の対象を第2の対象と称することができ、同様に、第2の対象を第1の対象と称することができる。第1の対象および第2の対象は、両方とも対象であるが、同じ対象ではない。さらに、「対象」、「ユーザ」、および「患者」という用語は、本明細書では互換的に使用される。
本明細書で使用される場合、「対象」という用語は、生きているまたは生きていない人間を指す。いくつかの実施形態では、対象は、任意の段階の男性または女性(例えば、男性、女性、または子供)である。
本明細書で使用される場合、「対照」、「対照サンプル」、「参照」、「参照サンプル」、「正常」、および「正常サンプル」という用語は、特定の状態を有さない、そうでなければ健康な対象からのサンプルを説明する。一例では、本明細書に開示される方法は、腫瘍を有する対象に対して実施することができ、参照サンプルは、対象の健康な組織から採取されたサンプルである。参照サンプルは、対象またはデータベースから取得できる。参照は、例えば、対象からのサンプルの配列決定から取得された配列読み取りをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生物学的サンプルから配列が読み取られ、構成サンプルをアラインメントおよび比較できる一倍体または二倍体ゲノムを指すことができる。構成サンプルの例は、対象から取得された白血球のDNAであり得る。一倍体ゲノムの場合、各遺伝子座に存在できるヌクレオチドは1つだけである。二倍体ゲノムの場合、ヘテロ接合遺伝子座を特定することができ、各ヘテロ接合遺伝子座は2つのアレルを持つことができ、どちらのアレルも遺伝子座へのアラインメントのマッチを可能にすることができる。
本明細書で使用される場合、「遺伝子座」という用語は、例えば特定の染色体上の、ゲノム内の位置(例えば、部位)を指す。いくつかの実施形態では、遺伝子座は、ゲノム内の、すなわち特定の染色体上の単一のヌクレオチド位置を指す。いくつかの実施形態では、遺伝子座は、例えば、がんゲノム内の連続するヌクレオチドの変異(例えば、置換、挿入、または欠失)によって定義されるような、ゲノム内のヌクレオチド位置の小さなグループを指す。正常な哺乳動物細胞は二倍体ゲノムを有するため、正常な哺乳動物ゲノム(例えば、ヒトゲノム)は、一般に、ゲノム内のすべての遺伝子座の2つのコピー、または常染色体上に位置するすべての遺伝子座の少なくとも2つのコピー、例えば、母体の常染色体と父方の常染色体上の1つのコピーを有する。
本明細書で使用される場合、「アレル」という用語は、染色体遺伝子座にある1つ以上の複数のヌクレオチドの特定の配列を指す。
本明細書で使用される場合、「参照アレル」という用語は、種の集団内のその染色体遺伝子座で表される主要なアレル(例えば、「野生型」配列)か、または種の参照ゲノム内で事前定義されているアレルのいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「変異型アレル」という用語は、種の集団内のその染色体遺伝子座で表される主要なアレルではない(例えば、「野生型」配列ではない)か、または種の参照ゲノム内で事前定義されているアレルではないもののいずれかである染色体遺伝子座での1つ以上のヌクレオチドの配列を指す。
本明細書で使用される場合、「一塩基バリアント」または「SNV」という用語は、ヌクレオチド配列、例えば、個体から読み取られた配列の位置(例えば、部位)でのあるヌクレオチドの異なるヌクレオチドへの置換を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」として示され得る。例えば、シトシンからチミンへのSNVは「C>T」として示され得る。
本明細書で使用される場合、「変異」または「バリアント」という用語は、1つ以上の細胞の遺伝物質における検出可能な変化を指す。特定の例では、1つ以上の変異ががん細胞に見出され、がん細胞を特定することができる(例えば、ドライバーおよびパッセンジャーの変異)。変異は見かけの細胞から娘細胞に伝染する可能性がある。当業者は、親細胞における遺伝子変異(例えば、ドライバー変異)が、娘細胞において追加の異なる変異(例えば、パッセンジャー変異)を誘発し得ることを理解するであろう。変異は一般的に核酸で発生する。特定の例において、変異は、1つ以上のデオキシリボ核酸またはそのフラグメントにおける検出可能な変化であり得る。変異とは、一般に、核酸の新しい位置に追加、削除、置換、反転、または変換されたヌクレオチドを指す変異は、自然変異または実験的に誘発された変異であり得る。特定の組織の配列の変異は、「組織特異的アレル」の例である。例えば、腫瘍は、正常細胞では発生しない遺伝子座にアレルをもたらす変異を有し得る。「組織特異的アレル」の別の例は、胎児組織で発生するが母体組織では発生しない胎児特異的アレルである。
本明細書で使用される場合、「ヘテロ接合性の喪失」という用語は、二倍体対象(例えば、ヒト)のゲノムの(例えば、1つ以上の遺伝子の一部または全部を含む)セグメントの1つのコピーの喪失または二倍体対象のゲノム、対象の組織、例えばがん性組織における機能的遺伝子産物をコードする配列の1つのコピーの喪失を指す。本明細書で使用される場合、対象のゲノム全体にわたるヘテロ接合性の喪失を表す測定基準に言及する場合、ヘテロ接合性の喪失は、対象のゲノムにおける様々なセグメントの1つのコピーの喪失によって引き起こされる。ゲノム全体にわたるヘテロ接合性の喪失は、対象のゲノム全体を配列決定することなく推定することができ、遺伝子パネルターゲティングベースの配列決定方法論に基づくそのような推定のためのそのような方法は、当技術分野で説明されている。したがって、いくつかの実施形態では、対象の組織のゲノム全体にわたるヘテロ接合性の喪失を表す測定基準は、単一の値、例えば、ゲノムのパーセンテージまたは画分として表される。場合によっては、腫瘍はさまざまなサブクローン集団で構成されており、それぞれの集団では、それぞれのゲノムの全体わたるヘテロ接合性の喪失の程度が異なることがある。したがって、いくつかの実施形態では、がん性組織のゲノム全体にわたるヘテロ接合性の喪失は、不均一な腫瘍集団にわたるヘテロ接合性の平均的な喪失を指す。本明細書で使用される場合、特定の遺伝子、例えば、相同DNA組換え経路に関与するタンパク質(例えば、BRCA1またはBRCA2)などのDNA修復タンパク質におけるヘテロ接合性の喪失の測定基準に言及するときに、ヘテロ接合性の喪失は、組織のゲノム内のタンパク質をコードする遺伝子の1つのコピーの完全または部分的な喪失、および/または完全長の遺伝子産物の翻訳を妨げる遺伝子の1つのコピーの変異、例えば、目的の遺伝子におけるフレームシフトまたは短縮(時期尚早な終止コドンを作成)変異を指す。場合によっては、腫瘍はさまざまなサブクローン集団で構成されており、各々が目的の遺伝子で異なる変異状態を有することがある。したがって、いくつかの実施形態では、目的の特定の遺伝子のヘテロ接合性の喪失は、がん性組織のすべての配列決定されたサブクローン集団にわたる遺伝子のヘテロ接合性の喪失の平均値によって表される。他の実施形態において、目的の特定の遺伝子のヘテロ接合性の喪失は、がん性組織のすべての配列決定されたサブクローン集団にわたる目的の遺伝子におけるヘテロ接合性の喪失の固有の発生数のカウントによって表される(例えば、配列決定データで特定された遺伝子の固有のフレームシフトおよび/または短縮型変異の数)。
本明細書で使用される場合、「がん」、「がん性組織」、または「腫瘍」という用語は、塊の成長が正常組織の成長を上回り、調整されていない組織の異常な塊を指す。がんまたは腫瘍は、以下の特徴に応じて「良性」または「悪性」として定義することができる。すなわち、形態および機能性を含む細胞分化の程度、成長速度、局所侵入および転移である。「良性」腫瘍は十分に分化することができ、悪性腫瘍よりも成長が遅いという特徴があり、原発部位に局在したままである。追加的に、場合によっては、良性腫瘍には、離れた部位に浸潤、侵入、または転移する能力がない。「悪性」腫瘍は、低分化(退形成)である可能性があり、進行性の湿潤、侵入、および周囲の組織の破壊を伴う特徴的に急速な成長を有する。さらに、悪性腫瘍は、離れた部位に転移する能力を有する可能性がある。したがって、がん細胞は、その成長が正常組織の成長と協調していない組織の異常な塊内に見られる細胞である。したがって、「腫瘍サンプル」は、本明細書で説明されるように、対象の腫瘍から得られた、またはそれに由来する生物学的サンプルを指す。
本明細書で使用される場合、本明細書で使用される「配列決定」、「配列判定」などの用語は、一般に、核酸またはタンパク質などの生体高分子の順序を決定するために使用できるありとあらゆる生化学的プロセスを指す。例えば、配列決定データは、mRNA転写物またはゲノム遺伝子座などの核酸分子中のヌクレオチド塩基の全部または一部を含むことができる。
本明細書で使用される場合、「配列読み取り」または「読み取り」という用語は、本明細書で説明されるか、または当技術分野で知られている任意の配列決定プロセスによって生成されるヌクレオチド配列を指す。読み取りは、核酸フラグメントの一端から生成することができ(「シングルエンド読み取り」)、場合によっては、核酸の両端から生成することもある(例えば、ペアエンド読み取り、ダブルエンド読み取り)。読み取られるシーケンスの長さは、特定の配列決定テクノロジーに関連していることがよくある。例えば、ハイスループット法では、サイズが数十~数百塩基対(bp)まで変化する可能性のある配列読み取りが提供される。いくつかの実施形態では、配列読み取りは、約15bp~900bpの長さの平均、中央値、または算術的平均の長さ(例えば、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpのものである。いくつかの実施形態では、配列読み取りは、約1000bp、2000bp、5000bp、10,000bp、または50,000bp以上の平均、中央値、または算術的平均の長さのものである。例えば、ナノポア配列決定では、サイズが数十から数百、数千塩基対まで変化する可能性のある配列読み取りが提供され得る。イルミナのパラレル配列決定では、それほど変化しない配列読み取りを提供することができ、例えば、ほとんどの配列読み取りは200bp未満にすることができる。配列読み取り(または配列決定読み取り)は、核酸分子(例えば、ヌクレオチドのストリング)に対応する配列情報を指すことができる。例えば、配列読み取りは、核酸フラグメントの一部からのヌクレオチドのストリング(例えば、約20~約150)に対応することができ、核酸フラグメントの一端または両端のヌクレオチドのストリングに対応することができ、または核酸フラグメント全体のヌクレオチドに対応することができる。配列読み取りは、様々な方法、例えば、配列決定技術を使用するか、もしくは例えば、ハイブリダイゼーションアレイやキャプチャープローブのプローブを使用する、またはポリメラーゼ連鎖反応(PCR)、単一プライマーもしくは等温増幅を使用した線形増幅などの増幅技術で取得され得る。
本明細書で使用される場合、「読み取りセグメント」または「読み取り」という用語は、個体から取得された配列読み取りを含む任意のヌレオクチド配列および/または個体から取得されたサンプルからの初期の配列読み取りに由来するヌクレオチド配列を指す。例えば、読み取りセグメントは、アラインメントされた配列読み取り、折りたたまれたシーケンス読み取り、またはステッチされた読み取りを指すことができる。さらに、読み取りセグメントは、一塩基バリアントなどの個々のヌクレオチド塩基を参照することができる。
本明細書で使用される場合、「参照エクソーム」という用語は、対象から特定された配列を参照するために使用され得る任意の生物または病原体からの任意の組織の、部分的または完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたエクソームを指す。人間の対象および他の多くの生物に使用される例示的な参照エクソームは、NCBI(National Center for Biotechnology Information)がホストするオンラインゲノムブラウザで提供される。
本明細書で使用される場合、「参照ゲノム」という用語は、対象から特定された配列を参照するために使用され得る任意の生物または病原体の、部分的または完全であるかを問わず、任意の特定の既知の、配列決定された、または特徴付けられたゲノムを指す。ヒトの対象および他の多くの生物に使用される例示的な参照ゲノムは、NCBI(National Center for Biotechnology Information)またはUCSC(University of California,Santa Cruz)がホストするオンラインゲノムブラウザで提供される。「ゲノム」とは、核酸配列で表現された、生物または病原体の完全な遺伝情報を指す。本明細書で使用される場合、参照配列または参照ゲノムは、多くの場合、個体または複数の個体から組み立てられたまたは部分的に組み立てられたゲノム配列である。いくつかの実施形態では、参照ゲノムは、1つ以上のヒト個体から組み立てられたまたは部分的に組み立てられたゲノム配列である。参照ゲノムは、種の遺伝子セットの代表的な例と見なすことができる。いくつかの実施形態では、参照ゲノムは、染色体に割り当てられた配列を含む。例示的なヒトの参照ゲノムには、NCBI build 34(UCSC同等物:hg16)、NCBI build 35(UCSC同等物:hg17)、NCBI build 36.1(UCSC同等物:hg18)、GRCh37(UCSC同等物:hg19)、およびGRCh38(UCSC同等物:hg38)が含まれるが、これらに限定されない。
本明細書で使用される場合、「アッセイ」という用語は、物質、例えば、核酸、タンパク質、細胞、組織、または器官の特性を判定するための技術を指す。アッセイ(例えば、第1のアッセイまたは第2のアッセイ)は、サンプル中の核酸のコピー数の変動、サンプル中の核酸のメチル化状態、サンプル中の核酸のフラグメントサイズ分布、サンプル中の核酸の変異状態、またはサンプル中の核酸の断片化パターンを判定するための技術を含むことができる。当業者に知られている任意のアッセイを使用して、本明細書に説明される核酸の任意の特性を検出することができる。核酸の特性には、配列、ゲノム同一性、コピー数、1つ以上のヌクレオチド位置でのメチル化状態、核酸のサイズ、1つ以上のヌクレオチド位置での核酸の変異の有無、および核酸の断片化のパターン(例えば、核酸が断片化するヌクレオチド位置)を含むことができる。アッセイまたは方法は、特定の感度および/または特異性を有することができ、診断ツールとしてのそれらの相対的な有用性は、ROC-AUC統計を使用して測定することができる。
「分類」という用語は、サンプルの特定のプロパティに関連付けられている任意の数字または他の文字を指すことができる。例えば、いくつかの実施形態では、「分類」という用語は、対象またはサンプルにおけるがんのタイプ、対象またはサンプルにおけるがんの段階、対象またはサンプルにおけるがんの予後、対象の腫瘍負荷、対象における腫瘍転移の存在などを指すことができる。分類は、バイナリ(例えば、正または負)にすることか、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)にすることができる。「カットオフ」および「閾値」という用語は、操作で使用される所定の数を指すことができる。例えば、カットオフサイズは、それを超えるとフラグメントが除外されるサイズを指すことができる。閾値は、それを超えるか、またはそれを下回ると特定の分類が適用される値であり得る。これらの用語のいずれかは、これらのコンテキストのいずれかで使用できる。
説明のための例示的な出願を参照して、いくつかの態様を以下に説明する。本明細書に説明される特徴の完全な理解を提供するために、多数の特定の詳細、関係、および方法が記載されていることを理解されたい。しかしながら、当業者は、本明細書に説明される特徴が、1つ以上の特定の詳細なしで、または他の方法で実施できることを容易に認識するであろう。いくつかの行為は異なる順序で、および/または他の行為またはイベントと同時に発生する可能性があるため、本明細書に説明される特徴は、行為またはイベントの説明される順序によって制限されない。さらに、本明細書に説明される特徴に従った方法論を実装するために、説明されたすべての行為または事象が必要とされるわけではない。
ここで実施形態を詳細に参照すると、その例は添付の図面に示される。以下の詳細な説明では、本開示の完全な理解を提供するために、多数の特定の詳細が記載される。しかしながら、本開示がこれらの具体的な詳細なしで実践されてもよいことは当業者には明らかであろう。他の例では、周知の方法、手順、構成要素、回路、およびネットワークは、実施形態の態様を不必要に曖昧にしないように詳細には説明されない。
例示的なシステムの実施形態
試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細な説明が、図1A~1Bと併せて説明される。したがって、図1A~1Bは、本開示の実施形態による、システムのトポロジーをまとめて示す。
試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細な説明が、図1A~1Bと併せて説明される。したがって、図1A~1Bは、本開示の実施形態による、システムのトポロジーをまとめて示す。
図1Aを参照すると、典型的な実施形態では、システム100は、1つ以上のコンピュータを含む。説明を目的として、図1Aでは、システム100は、細胞ベースのアッセイからのデータを使用して複雑な生物学的システム内の相互作用を特定するためのすべての機能性を含む単一のコンピュータとして表される。しかしながら、いくつかの実施形態では、試験対象におけるがんの相同組換え経路状態を判定するための機能性は、任意の数のネットワーク化コンピュータに分散される、および/または複数のネットワーク化コンピュータの各々に存在し、および/または通信ネットワーク105を介してアクセス可能な遠隔地にある1つ以上の仮想マシン上でホストされる。本出願には、幅広い異なるコンピュータトポロジのうちのいずれかが使用され、そのようなトポロジーは全て本開示の範囲内であることは、当業者は理解するであろう。
ここで、例示的なシステムの詳細を図1と併せて説明する。図1は、いくつかの実装によるシステム100を示すブロック図である。いくつかの実装におけるデバイス100は、少なくとも、1つ以上の処理ユニットCPU102(プロセッサとも呼ばれる)と、1つ以上のネットワークインターフェース104と、例えばディスプレイ108および/またはキーボード110を含むユーザインターフェース106と、メモリ111と、これらの構成要素を相互接続するための1つ以上の通信バス114と、を含む、1つ以上の通信バス114は、任意選択で、システムコンポーネント間の通信を相互接続および制御する回路(チップセットと呼ばれることもある)を含む。メモリ111は、非永続メモリ、永続メモリ112、またはそれらの任意の組み合わせであってもよい。非永続メモリには通常、DRAM、SRAM、DDR RAM、ROM、EEPROM、フラッシュメモリなどの高速ランダムアクセスメモリが含まれますが、永続メモリには、通常、CD-ROM、デジタル多用途ディスク(DVD)、もしくは他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイスを含まれる。その特定の実装に関係なく、メモリ111は、少なくとも1つの非一時的なコンピュータ可読記憶媒体を含み、プログラム、モジュール、およびデータ構造の形態であり得るコンピュータ実行可能な実行可能命令をその上に記憶する。
いくつかの実施形態では、図1Aに示されるように、メモリ111は、以下を記憶する。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含むオペレーティングシステム116。
・システム100を他のデバイスおよび/または通信ネットワーク105に接続するための任意選択のネットワーク通信モジュール(または命令)118。
・試験対象からの第1のDNAサンプルの第1の複数の配列読み取り122(例えば、122-1-1,…,122-1-N)を電子形式で含む第1の試験データセット120-1であって、第1のDNAサンプルは、対象のがん性組織からのDNA分子を含む。
・試験対象からの第2のDNAサンプルの第2の複数の配列読み取り122(例えば、122-2-1,…,122-2-M)を電子形式で含む第2の試験データセット120-2であって、第2のDNAサンプルは、対象の非がん性組織からのDNA分子からなる。
・第1の複数の配列読み取りおよび第2の複数の配列読み取りに基づいて生成され、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に入力される、対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む試験ゲノムデータ構造物128であって、以下を含む。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子130-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態(例えば、第1のデータセット)132。
〇対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度(例えば、第1のデータセット)134であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り136におけるゲノムヘテロ接合性の喪失を決定し、第1の複数の配列読み取りに対する腫瘍純度の推定138により、判定されたヘテロ接合性の喪失を正規化することによって、判定される、ヘテロ接合性の喪失の尺度134。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第1のデータセット)140-1。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第2のデータセット)140-2。
・例えば、訓練ゲノムデータ構築物176に記憶された訓練データを使用して、疾患状態を区別するために疾患分類器173を訓練するための分類器訓練モジュール170。
・例えば、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するための1つ以上の相同組換え経路分類器174である、疾患分類器173。
・疾患分類器を評価するための分類器評価モジュール171。
・例えば、訓練された疾患分類器173を用いて試験ゲノムデータ構築物128を評価することにより、試験対象の相同組換え経路状態を判定するための疾患分類モジュール172。
・それぞれの訓練対象について、がんの相同組換え経路状態を判定するためのアルゴリズム、例えば、疾患分類器173を訓練するために使用できる訓練ゲノムデータを記憶する訓練ゲノムデータ構造物176であって、それぞれの訓練対象のがんおよびそれぞれの訓練対象の非がん性組織のゲノムの1つ以上の特徴についての相同組換え経路状態190を含み、以下を含む訓練ゲノムデータ構築物176。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子178-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態180。
〇対象のがん性組織のゲノムの全体のにわたるヘテロ接合性の喪失の尺度182であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り184におけるゲノムヘテロ接合性の喪失を判定し、第1の複数の配列読み取りに対する腫瘍純度の推定186により、判定されたヘテロ接合性の喪失を正規化することによって、任意選択で判定される、ヘテロ接合性の喪失の尺度182。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度188-1。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度188-2。
・様々な基本的なシステムサービスを処理し、ハードウェアに依存するタスクを実行するための手順を含むオペレーティングシステム116。
・システム100を他のデバイスおよび/または通信ネットワーク105に接続するための任意選択のネットワーク通信モジュール(または命令)118。
・試験対象からの第1のDNAサンプルの第1の複数の配列読み取り122(例えば、122-1-1,…,122-1-N)を電子形式で含む第1の試験データセット120-1であって、第1のDNAサンプルは、対象のがん性組織からのDNA分子を含む。
・試験対象からの第2のDNAサンプルの第2の複数の配列読み取り122(例えば、122-2-1,…,122-2-M)を電子形式で含む第2の試験データセット120-2であって、第2のDNAサンプルは、対象の非がん性組織からのDNA分子からなる。
・第1の複数の配列読み取りおよび第2の複数の配列読み取りに基づいて生成され、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に入力される、対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む試験ゲノムデータ構造物128であって、以下を含む。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子130-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態(例えば、第1のデータセット)132。
〇対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度(例えば、第1のデータセット)134であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り136におけるゲノムヘテロ接合性の喪失を決定し、第1の複数の配列読み取りに対する腫瘍純度の推定138により、判定されたヘテロ接合性の喪失を正規化することによって、判定される、ヘテロ接合性の喪失の尺度134。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第1のデータセット)140-1。
〇第2の複数のDNA損傷修復遺伝子130-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度(例えば、第2のデータセット)140-2。
・例えば、訓練ゲノムデータ構築物176に記憶された訓練データを使用して、疾患状態を区別するために疾患分類器173を訓練するための分類器訓練モジュール170。
・例えば、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するための1つ以上の相同組換え経路分類器174である、疾患分類器173。
・疾患分類器を評価するための分類器評価モジュール171。
・例えば、訓練された疾患分類器173を用いて試験ゲノムデータ構築物128を評価することにより、試験対象の相同組換え経路状態を判定するための疾患分類モジュール172。
・それぞれの訓練対象について、がんの相同組換え経路状態を判定するためのアルゴリズム、例えば、疾患分類器173を訓練するために使用できる訓練ゲノムデータを記憶する訓練ゲノムデータ構造物176であって、それぞれの訓練対象のがんおよびそれぞれの訓練対象の非がん性組織のゲノムの1つ以上の特徴についての相同組換え経路状態190を含み、以下を含む訓練ゲノムデータ構築物176。
〇図1Bに示されるように、第1の複数のDNA損傷修復遺伝子178-1について、対象のがん性組織のゲノムにおけるヘテロ接合性状態180。
〇対象のがん性組織のゲノムの全体のにわたるヘテロ接合性の喪失の尺度182であって、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、任意選択で、第1の複数の配列読み取り184におけるゲノムヘテロ接合性の喪失を判定し、第1の複数の配列読み取りに対する腫瘍純度の推定186により、判定されたヘテロ接合性の喪失を正規化することによって、任意選択で判定される、ヘテロ接合性の喪失の尺度182。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象のがん性組織のゲノムにおける検出された変異型アレルの尺度188-1。
〇第2の複数のDNA損傷修復遺伝子178-2について、対象の非がん性組織のゲノムにおける検出された変異型アレルの尺度188-2。
いくつかの実装では、モジュール118、170、171および/または172および/またはデータストア120、128および/または176は、任意のブラウザ内でアクセス可能である(例えば、電話、タブレット、またはラップトップ/デスクトップシステムにインストールされる)。いくつかの実施形態では、モジュール118、120、170、171および/または172は、ネイティブデバイスフレームワーク上で動作し、Windows、macOS、Linux(登録商標)オペレーティングシステム、Android OS、またはiOSなどのオペレーティングシステム116を動作させるシステム100にダウンロード可能である。
いくつかの実装では、システム100の上記のデータ要素またはモジュールのうちの1つ以上は、前述のメモリデバイスのうちの1つ以上に記憶され、上述の機能を実行するための命令のセットに対応する。上記のデータ、モジュール、またはプログラム(例えば、命令のセット)は、別々のソフトウェアプログラム、手順、またはモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットは、様々な実装形態において組み合わされ、または他の方法で再構成されてもよい。いくつかの実装では、メモリ111は、任意選択的で、上記のモジュールおよびデータ構造のサブセットを記憶する。さらに、いくつかの実施形態では、メモリ111は、上述していない追加のモジュールおよびデータ構造を記憶する。いくつかの実施形態では、上記で特定された要素の1つ以上は、システム100の要素以外のコンピュータシステムに記憶され、これは、システム100が必要なときにそのようなデータの全部または一部を検索できるように、システム100によってアドレス指定可能である。
図1は「システム100」を示しているが、この図は、本明細書で説明される実装の構造概略図としてではなく、コンピュータシステムに存在し得る様々な特徴の機能的説明として意図されている。実際には、また当業者によって認識されるように、別々に示されるアイテムは組み合わせることができ、いくつかのアイテムは別々にすることができる。さらに、図1は、メモリ111(非永続的111または永続的メモリ112であり得る)内の特定のデータおよびモジュールを示しているが、これらのデータおよびモジュール、またはその一部は、2つ以上のメモリに記憶されてもよいと理解されたい。
例示的な方法
試験対象におけるがんの相同組換え経路状態を決定判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細が開示されたので、システムのプロセスおよび特徴に関する詳細は、本開示の様々な実施形態に従って、以下に開示される。具体的には、図2を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態では、システムのそのようなプロセスおよび特徴は、図1に示されるように、モジュール118、120、170、171および/または172によって実行される。これらの方法を参照すると、本明細書に説明されるシステム(例えば、システム100)は、試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための命令を含む。
試験対象におけるがんの相同組換え経路状態を決定判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するためのシステム100の詳細が開示されたので、システムのプロセスおよび特徴に関する詳細は、本開示の様々な実施形態に従って、以下に開示される。具体的には、図2を参照して、例示的なプロセスを以下に説明する。いくつかの実施形態では、システムのそのようなプロセスおよび特徴は、図1に示されるように、モジュール118、120、170、171および/または172によって実行される。これらの方法を参照すると、本明細書に説明されるシステム(例えば、システム100)は、試験対象におけるがんの相同組換え経路状態を判定する、および/またはがんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための命令を含む。
図2は、本開示の様々な実施形態による、試験対象におけるがんの相同組換え経路状態を判定するための例示的なワークフロー200を示す。ワークフロー200に示されるステップの様々な実装に関するさらなる詳細は、以下により詳細に説明される。当業者は、ワークフロー200に示される各ステップを実行するための適切な代替案を知っているであろう。
一態様では、本開示は、試験対象におけるがんの相同組換え経路状態を判定するための方法200を提供する。本方法は、試験対象からの第1のDNAサンプルの第1の複数の配列読み取りを電子形式で取得することであって、第1のDNAサンプルが、対象のがん性組織からのDNA分子を含む、取得すること(202)を含む。本方法は、試験対象からの第2のDNAサンプルの第2の複数の配列読み取りを電子で取得することであって、第2のDNAサンプルが、対象の非がん性組織からのDNA分子からなる、取得すること(204)を含む。
いくつかの実施形態では、第1のDNAサンプルは、対象のがん性組織の固形腫瘍生検からのものである。他の実施形態では、第2のDNAサンプルは、液体サンプル、例えば、液体生検からのものである。一般に、対象のがん性の生物学的サンプルは生検である。がん性組織のサンプルを取得するための方法は当技術分野で知られており、サンプリングされるがんのタイプに依存している。例えば、骨髄生検および循環腫瘍細胞の分離株を使用して血液がんのサンプルを取得することができ、内視鏡生検を使用して消化管、膀胱、および肺のがんのサンプルを取得することができ、針生検(例えば、細針吸引、コア針吸引、真空補助生検、および画像誘導生検を使用して、皮下腫瘍のサンプルを取得することができ、皮膚生検、例えば、剃毛生検、パンチ生検、切開生検、および切除生検を使用して、取得することができる。皮膚がんのサンプルを取得することができ、および外科的生検を使用して、患者の内臓に影響を与えるがんのサンプルを取得することができる。いくつかの実施形態では、生物学的サンプルは固形生検である。いくつかの実施形態では、固形生検は、マクロ解剖されたホルマリン固定パラフィン包埋(FFPE)組織切片である。いくつかの実施形態では、生物学的サンプルは、血液または唾液を含む。
いくつかの実施形態では、第1の複数の配列読み取りが、ゲノム領域のパネルについて対象のがん性組織からの核酸を濃縮するために複数の核酸プローブを使用した標的化配列決定によって生成された。いくつかの実施形態では、第1の複数の配列読み取りが、対象のがん性組織からの核酸の全ゲノム配列決定によって生成された。いくつかの実施形態では、第1の複数の配列読み取りは、対象のがん性組織からの核酸の全体的または部分的なエクソーム配列決定によって生成された。
いくつかの実施形態では、第2のDNAサンプルは、対象からの血液サンプルのバフィーコート調製物からのものである。他の実施形態では、第2のDNAサンプルは、対象の唾液からのものである。一般に、実質的にすべて非がん性組織に由来するゲノムまたはエキソミック材料を含む任意のサンプルを使用して、第2の複数の配列読み取りを生成することができる。
いくつかの実施形態では、第2の複数の配列読み取りが、ゲノム領域のパネルについて対象の非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された。いくつかの実施形態では、第2の複数の配列読み取りが、対象の非がん性組織からの核酸の全ゲノム配列決定によって生成された。いくつかの実施形態では、第2の複数の配列読み取りが、対象の非がん性組織からの核酸の全体的または部分的なエクソーム配列決定によって生成された。
次に、本方法は、第1の複数の配列読み取りおよび第2の複数の配列読み取りに基づいて、対象のゲノムデータ構築物を生成することであって、ゲノムデータ構築物が、対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む、生成すること(206)を含む。いくつかの実施形態では、複数の特徴は、(i)対象のがん性組織における第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、(iii)対象のがん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)対象の非がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む。
いくつかの実施形態では、対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度は、第1の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定し、第1の複数の配列読み取りに対する腫瘍純度の推定により、判定されたヘテロ接合性の喪失を正規化することによって取得される。つまり、多くの「腫瘍生検」には、残留パーセンテージの非がん性細胞が含まれる。腫瘍生検から分離された核酸からのヘテロ接合性の喪失を推定するときに、非がん性細胞からの核酸の存在は、ヘテロ接合性の全体的な喪失を下方に歪めるであろう。サンプルの腫瘍純度、例えば、非がん性細胞ではなくがん性細胞に由来する核酸のパーセンテージを推定することにより、配列決定データへの非がん性の寄与の存在を説明することができ、対象のがんゲノム全体のヘテロ接合性の喪失のより正確な分析を提供する。
いくつかの実施形態では、第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態が、第1の複数のDNA損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む。いくつかの実施形態では、第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態が、第1の複数のDNA損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む。いくつかの実施形態では、第1の複数のDNA損傷修復遺伝子が、相同組換え経路に関与する遺伝子である。いくつかの実施形態では、第1の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む。
いくつかの実施形態では、対象のがん性組織のゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度が、第1の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む。いくつかの実施形態では、対象の非がん性組織のゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度が、第2の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む。
いくつかの実施形態では、第2の複数のDNA損傷修復遺伝子が、相同組換え経路に関与する遺伝子である。いくつかの実施形態では、第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む。いくつかの実施形態では、BRCA1およびBRCA2における相同組換えの喪失に関連する固有の変異は、表1に列挙された変異の少なくとも25、50、75、100、125、または全てを含む。
次に、本方法は、相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に変異型アレルゲノムデータ構築物を入力し、それによって試験対象の相同組換え経路状態を判定すること(208)を含む。いくつかの実施形態では、分類器が、以下にさらに詳細に説明するように、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである。
いくつかの実施形態では、方法200は、分類器によって行われたHRD予測に基づいて対象を治療することも含む。例えば、いくつかの実施形態では、試験対象のがんが相同組換え欠損であると判定されたときに、ポリADPリボースポリメラーゼ(PARP)阻害剤を試験対象に投与することによってがんを治療し、試験対象のがんが相同組換え欠損ではないと判定されたときに、PARP阻害剤の試験対象に投与することを含まない治療法でがんを治療する。いくつかの実施形態では、PARP阻害剤は、オラパリブ、ベリパリブ、ルカパリブ、ニラパリブ、およびタラゾパリブから選択される。さまざまなPARP阻害剤に対する現在のFDA承認の概要を以下の表2に提供する。
別の態様において、本開示は、がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法を提供する。本方法は、がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、それぞれの訓練対象の対応するゲノムデータ構築物を取得することを含む。対応するゲノム訓練構築物が、(a)それぞれの訓練対象のがんの相同組換え経路状態、および(b)それぞれの訓練対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含む。いくつかの実施形態では、1つ以上の特徴が、(i)それぞれの訓練対象のがん性組織における第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)それぞれの訓練対象のがん性組織のゲノム全体のヘテロ接合性の喪失の尺度、(iii)それぞれの訓練対象のがん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)それぞれの訓練対象の非がん性組織のゲノムの第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む。次に、本方法は、それぞれの訓練対象ごとに、少なくとも(a)それぞれの訓練対象のがんの相同組換え経路状態、および(b)それぞれの訓練対象のがん性組織からの対応するDNAサンプルから判定された複数の特徴に対して分類アルゴリズムを訓練することを含む。
図3は、1つ以上の患者検体の分析および患者の健康情報の摂取から生成された情報に基づかない臨床レポートを生成するための例示的な方法のフローチャートを表示する。臨床実験室は、包括的なゲノムプロファイリングの注文やHRD状態の推定を提供する試験の注文などの注文を受けてもよい。物理的検体は、処理と分析のために実験室に提供されてもよい。処理および分析は、HRD状態の推定を含み得るヌクレオチドおよび臨床情報を含み得る分析を含み得る。1つ以上の検体は、アクセッション、病理学レビュー、抽出、ライブラリー調製、キャプチャーおよびハイブリダイゼーション、プーリング、および配列決定のステップを含み得る実験室を通して処理され得る。配列決定は、ショートリードテクノロジーなどの次世代配列決定テクノロジーを使用して実行されてもよい。ロングリード配列決定または当技術分野で知られている他の配列決定方法などの他の配列決定方法を交互に使用してもよい。配列決定の結果は、バイオインフォマティクスパイプラインに提供されてもよい。バイオインフォマティクスパイプラインの結果は、病原性および生物学的重要性についてのバリアント(該当する場合は体細胞および生殖細胞系列バリアントを含む)の解釈を含む、バリアント科学分析に提供されてもよい。バリアント科学分析では、マイクロサテライト不安定性(MSI)または腫瘍の変異負荷も推定してもよい。標的化治療は、注文する医師によるさらなる検討とレビューのために、遺伝子、バリアント、およびがんのタイプに基づいて特定されてもよい。いくつかの態様において、変異、がんのタイプ、および/または病歴に基づいて、患者が適格である可能性がある臨床試験が特定されてもよい。検証ステップが発生してもよく、その後、サインアウトと配信のためにレポートが完成されてもよい。いくつかの態様において、レポートにはHRD状態の推定が含まれる。他の態様では、図3に提示された方法の一部で生成された情報に基づいて、HRD状態の推定を有する第2のレポートが配信されてもよい。
生物学的サンプル
いくつかの実施形態では、推定されたHRD状態は、がんおよび/または正常な検体のヌクレオチドに関する情報に基づいて生成されてもよい。がん検体は、血液腫瘍および固形腫瘍を含む、異なるサブタイプのがんに由来してもよい。いくつかの実施形態では、包括的なゲノムプロファイリングに利用されるサンプルタイプは、固定ホルマリン、パラフィン包埋(FFPE)スライド、末梢血、または骨髄吸引物であり得る。サンプルは、エチレンジアミン四酢酸カリウム(EDTA)チューブなどのリポジトリに収集されてもよい。検体は、組織ブロックまたは複数のFFPEスライド、例えば、最大3枚のスライド、最大5枚のスライド、最大10枚のスライド、または最大20枚のスライドであり得る。いくつかの実施形態では、マッチした正常な検体は、末梢血または唾液である。
いくつかの実施形態では、推定されたHRD状態は、がんおよび/または正常な検体のヌクレオチドに関する情報に基づいて生成されてもよい。がん検体は、血液腫瘍および固形腫瘍を含む、異なるサブタイプのがんに由来してもよい。いくつかの実施形態では、包括的なゲノムプロファイリングに利用されるサンプルタイプは、固定ホルマリン、パラフィン包埋(FFPE)スライド、末梢血、または骨髄吸引物であり得る。サンプルは、エチレンジアミン四酢酸カリウム(EDTA)チューブなどのリポジトリに収集されてもよい。検体は、組織ブロックまたは複数のFFPEスライド、例えば、最大3枚のスライド、最大5枚のスライド、最大10枚のスライド、または最大20枚のスライドであり得る。いくつかの実施形態では、マッチした正常な検体は、末梢血または唾液である。
特徴
いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、複数遺伝子の包括的なゲノムプロファイリングパネルによって実施される配列決定によって生成され得る。パネルは、10を超える、100を超える、または1,000を超える遺伝子を分析してもよい。パネルは、検体のエクソームを分析する全エクソームパネルであってもよい。パネルは、検体のゲノムを分析する全ゲノムパネルであってもよい。いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、DNAベースの試験などの包括的なゲノムプロファイリング試験の一部として生成されてもよい。パネルは、一塩基多型(SNV)、挿入/欠失、コピー数多型(CNV)、および遺伝子再配列を特定してもよい。
いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、複数遺伝子の包括的なゲノムプロファイリングパネルによって実施される配列決定によって生成され得る。パネルは、10を超える、100を超える、または1,000を超える遺伝子を分析してもよい。パネルは、検体のエクソームを分析する全エクソームパネルであってもよい。パネルは、検体のゲノムを分析する全ゲノムパネルであってもよい。いくつかの態様において、推定されたHRD状態を生成するために使用される情報は、DNAベースの試験などの包括的なゲノムプロファイリング試験の一部として生成されてもよい。パネルは、一塩基多型(SNV)、挿入/欠失、コピー数多型(CNV)、および遺伝子再配列を特定してもよい。
システムおよび方法は、特定の遺伝子の変異状態を考慮に入れてもよい。例えば、システムおよび方法は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、または15個の遺伝子の変異状態を考慮に入れてもよい。システムおよび方法は、15~30遺伝子、30~45遺伝子、45~60遺伝子、60~75遺伝子、75~105遺伝子、および1~700遺伝子の変異状態を考慮に入れてもよい。システムおよび方法は、HR経路(相同組換え修復変異HRRm)などの経路において一般的に変異した遺伝子を考慮に入れてもよい。
システムおよび方法は、変異アレル画分の少なくとも5%における塩基置換について少なくとも99%の感度、少なくとも5%の変異アレル画分のインデルについて少なくとも98%の感度、30%以上の腫瘍核における8つ以上の遺伝子コピーからのCNVについて少なくとも95%の感度、および/または遺伝子配列について少なくとも99%の感度を有するパネルを使用してもよい。
パネルは、腫瘍の平均配列決定深度が500倍であってもよい。パネルは、マッチした正常に対して平均配列決定深度が150倍であってもよい。
いくつかの態様において、レポートは、患者のがんの変異状態に関する情報、およびHRD状態の推定などの包括的なゲノムプロファイリング情報とともに臨床医に返送されてもよい。いくつかの態様において、包括的なゲノムプロファイリング情報で報告された遺伝子は、HRD状態の推定の基礎となるか、そうでなければこれに関連するものとして強調表示されてもよい。そのような遺伝子の数は、1~5、1~10、1~20、1~30、1~40、1~50などであり得る。いくつかの態様において、包括的なゲノムプロファイリング情報において変異として報告された遺伝子は、検出されたときに、生殖細胞系列または体細胞の変化であるとして強調され得る。
いくつかの態様において、システムおよび方法はスケーラブルであり、DNA損傷修復経路における他の遺伝子、またはRNA発現などの他のデータ型との統合を可能にして、PARP阻害剤治療オプションなどの治療オプションに関する臨床意思決定支援を提供するために利用され得る。
バイオインフォマティクスパイプラインでは、HRD予測エンジンに提供できるさまざまな特徴が生成されてもよい。いくつかの実施形態では、コピー数セグメントのいくつかまたはすべて、目的のBRCA遺伝子における短縮型およびストップゲイン効果の病原性変異、ゲノムワイドLOH比率、腫瘍純度、およびBRCA遺伝子におけるLOHが、HRD状態を推測するために使用される。
遺伝子配列決定パネルでの患者検体の腫瘍正常マッチ配列決定分析とそれに続くバイオインフォマティクスパイプラインを使用して、各患者のSNPとコピー数バリアントをコールし、DNAバリアントデータセットに記憶してもよい。
各DNAバリアントデータセットは、同じ患者からのがんサンプルと非がんサンプルをDNA全エクソーム次世代配列決定(NGS)で処理してDNA配列決定データを生成することによって生成してもよく、DNA配列決定データはバイオインフォマティクスパイプラインによって処理されて、各サンプルにDNAバリアントコールファイル(他の出力の中でも)を生成してもよい。がんサンプルは、がん細胞を含む組織サンプルまたは血液サンプルであり得る。場合によっては、患者のがんサンプルの代わりに腫瘍オルガノイドサンプルが処理されることがある。
より詳細には、生殖細胞系列(「正常」、非がん性)DNAは、血液(例えば、患者が血液がんではないがんを有する場合)または唾液(例えば、患者が血液がんを有する場合)のいずれかから抽出され得る。正常な血液サンプルは患者から収集することができ(例えば、PAXgene Blood DNA Tubesで)、唾液サンプルは患者から収集することができる(例えば、Oragene DNA Salivaキットで)。
血液がんサンプルは、患者から収集することができる(例えば、EDTA収集チューブで)。固形腫瘍サンプルからマクロ解剖されたFFPE組織切片(組織病理学スライドにマウントされることがある)を病理学者が分析して、サンプル中の全体的な腫瘍量と、腫瘍と正常核の比率としての腫瘍細胞性の比を決定することができる。各切片について、切片が腫瘍純度の閾値を満たすように、背景組織を除外または除去することができる(一例では、切片内の核の少なくとも20%が腫瘍核である)。
次に、プロテイナーゼKを含む市販の試薬を使用して血液サンプル、唾液サンプル、および組織切片からDNAを分離し、DNAの液体溶液を生成することができる。
分離されたDNAの各溶液は、溶液中のDNA分子の濃度および/または量を判定するための品質管理プロトコルに供されてもよく、これは、蛍光色素および蛍光マイクロプレートリーダー、標準分光蛍光計、またはフィルター蛍光計の使用を含んでもよい。
各がんサンプルおよび各正常サンプルに、分離されたDNA分子は、超音波処理装置(例えば、Covaris超音波処理装置)を使用して、平均的な長さに機械的に剪断され得る。DNA分子を分析してフラグメントサイズを判定することもでき、これは、ゲル電気泳動技術を介して行うことができ、LabChip GX Touchなどのデバイスの使用を含んでもよい。
DNAライブラリーは、例えば、KAPA Hyper Prepキット、New England Biolabs(NEB)キット、または同様のキットを使用して、分離されたDNAから調製することができる。DNAライブラリーの調製には、DNA分子へのアダプターのライゲーションが含まれてもよい。例えば、Roche SeqCapデュアルエンドアダプターを含むUDIアダプター、またはUMIアダプター(例えば、全長またはずんぐりしたYアダプター)をDNA分子にライゲーションすることができる。
この例では、アダプターは、それらが由来するサンプルに従ってDNA分子を識別するための、および/または下流のバイオインフォマティクス処理および/または次世代配列決定反応を容易にするためのバーコードとして機能し得る核酸分子である。アダプター内のヌクレオチドの配列は、サンプルを区別するためにサンプルに固有であってもよい。アダプターは、シーケンサーフローセル上のオリゴヌクレオチド分子を固定するためのDNA分子の結合を促進し、配列決定反応の開始点を提供することにより、配列決定プロセスのシードとして機能し得る。
DNAライブラリーは、試薬、例えばAxygen MAG PCRクリーンアップビーズを使用して増幅および精製することができる。次に、DNA分子の濃度および/または量は、蛍光色素および蛍光マイクロプレートリーダー、標準的な分光蛍光光度計、またはフィルター蛍光光度計を使用して定量化され得る。
DNAライブラリーをプールし(2つ以上のDNAライブラリーを混合してプールを作成することができる)、試薬で処理してオフターゲットキャプチャーを低減することができる(例えば、Human COT-1および/またはIDT xGen Universal Blockers)。プールは真空で乾燥させ、再懸濁することができる。DNAライブラリーまたはプールは、プローブセット(例えば、19,000の既知のヒト遺伝子の約100、600、1,000、10,000などを含むパネルに固有のプローブセット)にハイブリダイズし、市販の試薬で増幅することができる(例えば、KAPA HiFi HotStart ReadyMix)。
プールは、インキュベーター、PCRマシン、ウォーターバス、または他の温度調節デバイスでインキュベートして、プローブをハイブリダイズさせることができる。次に、プールは、Streptavidinでコーティングされたビーズ、またはヒトゲノムのエキソンを表すDNA分子および/または遺伝子パネル用に選択された遺伝子などのハイブリダイズしたDNAプローブ分子をキャプチャーするための別の手段と混合することができる。
プールは、市販の試薬、例えば、KAPA HiFi Library AmplificationキットとAxygen MAG PCRクリーンアップビーズをそれぞれ使用して、2回以上増幅および精製することができる。プールまたはDNAライブラリーは、例えば、蛍光色素(例えば、PicoGreenプール定量化)および蛍光マイクロプレートリーダー、標準分光蛍光計、またはフィルター蛍光計を使用することによって、DNA分子の濃度または量を判定するために分析され得る。
一例では、DNAライブラリーの調製および/または全エクソームキャプチャーステップは、液体処理ロボット(例えば、SciClone NGSx)を使用して、自動化されたシステムで実行され得る。
ライブラリー増幅は、デバイス、例えばイルミナC-Bot2で実行でき、増幅されたターゲットキャプチャーDNAライブラリーを含む結果のフローセルは、次世代シーケンサー、例えばIllumina HiSeq 4000またはNovaSeq 6000で、ユーザが選択した固有のオンターゲット深度(300x、400x、500x、10,000xなど)まで配列決定される。サンプルは、すべてのターゲットbpの95%をユーザが選択した最小深度(300xなど)まで配列決定する必要がある各サンプルとの均一性についてさらに評価できる。次世代シーケンサーは、各フローセルまたは各患者サンプルにFASTQ、BCL、または他のファイルを生成してもよい。
バイオインフォマティクスパイプライン
特定の態様において、バイオインフォマティクスパイプラインは、この文書に開示されたシステムおよび方法を含む。
特定の態様において、バイオインフォマティクスパイプラインは、この文書に開示されたシステムおよび方法を含む。
FASTQとアライメント
マッチした正常組織が患者に利用可能になるときに、腫瘍正常マッチ配列決定実行が実行される。DNAは正常組織、通常は血液または唾液から抽出される。次に、腫瘍組織から抽出されたDNAに加えて、これが配列決定される。これらの2つの配列決定実行(1つは腫瘍組織用、もう1つは正常組織用)は、2つのFASTQ出力ファイルを生成する。FASTQフォーマットは、ヌクレオチド配列などの生物学的配列とそれに対応する品質スコアの両方を記憶するためのテキストベースのフォーマットである。これらのFASTQファイルを分析して、サンプルに存在する遺伝的バリアントまたはコピー数の変化を判定する。「マッチした」パネル固有のワークフローを実行して、腫瘍正常マッチFASTQファイルを共同で分析する。マッチした正常が利用できない場合、腫瘍組織からのFASTQファイルは「腫瘍のみ」モードで分析される。例えば、図5を参照のこと。
マッチした正常組織が患者に利用可能になるときに、腫瘍正常マッチ配列決定実行が実行される。DNAは正常組織、通常は血液または唾液から抽出される。次に、腫瘍組織から抽出されたDNAに加えて、これが配列決定される。これらの2つの配列決定実行(1つは腫瘍組織用、もう1つは正常組織用)は、2つのFASTQ出力ファイルを生成する。FASTQフォーマットは、ヌクレオチド配列などの生物学的配列とそれに対応する品質スコアの両方を記憶するためのテキストベースのフォーマットである。これらのFASTQファイルを分析して、サンプルに存在する遺伝的バリアントまたはコピー数の変化を判定する。「マッチした」パネル固有のワークフローを実行して、腫瘍正常マッチFASTQファイルを共同で分析する。マッチした正常が利用できない場合、腫瘍組織からのFASTQファイルは「腫瘍のみ」モードで分析される。例えば、図5を参照のこと。
2つ以上の患者サンプルが同じシーケンサーフローセルで同時に処理される場合、各患者サンプルに使用されるアダプターのシーケンスの違いは、各読み取りを正しい患者サンプルに関連付けて正しいFASTQファイルに配置するのを容易にするバーコードの目的に役立つことができる。
効率性のために、各分離株のペアエンド配列決定の結果は、FASTQファイルの分割ペアに含まれる。各腫瘍と正常な分離株の順方向(読み取り1)と逆方向(読み取り2)のシーケンスは別々に記憶されるが、同じ順序で同じ識別子の下に記憶される。例えば、図6を参照のこと。
様々な実施形態において、バイオインフォマティクスパイプラインは、各分離株からのFASTQデータをフィルタリングすることができる。このようなフィルタリングには、シーケンサーエラーの修正またはマスキング、低品質の配列または塩基、アダプターシーケンス、汚染、キメラリード、過剰表現された配列、ライブラリーの調製、増幅、またはキャプチャーによって引き起こされるバイアス、および他のエラーの除去(トリミング)が含まれる(図7)。エラーが発生する可能性のある読み取り全体、個々のヌクレオチド、または複数のヌクレオチドは、FASTQファイルの読み取りに関連する品質評価、シーケンサーの既知のエラー率、および/または読み取りにおける各ヌレオクチドと、参照ゲノムの同じ位置にアラインされた他の読み取りにおける1つ以上のヌクレオチドとの比較に基づいて廃棄されてもよい。フィルタリングは、Skewerなどのソフトウェアツールなどのさまざまなソフトウェアツールによって部分的または全体的に行うことができる(https://doi.org/10.1186/1471-2105-15-182を参照)。FASTQファイルは、品質管理と読み取りの迅速な評価のために、例えば、AfterQC、Kraken、RNA-SeQC、FastQCなどの配列決定データQCソフトウェア(Illumina、BaseSpace Labs、またはhttps://www.illumina.com/products/by-type/informatics-products/basespace-sequence-hub/apps/fastqc.html)、または別の同様のソフトウェアプログラムにより分析されてもよい。ペアエンド読み取りの場合、読み取りをマージできる。
マッチしたパネル固有の腫瘍正常分析では、各FASTQファイル、1つは腫瘍用、もう1つは正常(利用可能な場合)から分析される。腫瘍のみの分析では、腫瘍FASTQのみが分析に利用可能である。
FASTQからの各読み取りは、読み取り中のヌクレオチドの配列に最もよくマッチする配列を有するヒトゲノム中の位置にアラインメントすることができる。読み取りをアラインメントするように設計された多くのソフトウェアプログラムがある。例えば、Novoalign(Novocraft,Inc.)、Bowtie、Burrows Wheeler Aligner(BWA)、Smith-Watermanアルゴリズムを使用するプログラムなどである。アラインメントは、参照ゲノムにおけるヌレオクチド配列の部分を有する各読み取りにおけるヌレオクチド配列を比較することによって、読み取りの配列に対応する可能性が最も高い参照ゲノム配列の部分を判定することによって、参照ゲノム(例えば、hg19、GRCh38、hg38、GRCh37、ゲノム参照コンソーシアムによって開発された他の参照ゲノムなど)を使用することに向いている。アラインメントは、参照ゲノムの座標および参照ゲノムの各ヌクレオチドのカバレッジ(読み取り数)に従って、各読み取りの開始位置と終了位置を記憶するSAMファイルを生成してもよい。SAMファイルをBAMファイルに変換したり、BAMファイルをソートしたり、重複した読み取りに削除のマークを付けたりして、重複のないBAMファイルを作成することができる。(例えば、図8に示すように)このプロセスにより、腫瘍BAMファイルと通常のBAMファイル(利用可能なときに)が生成される。様々な実施形態において、BAMファイルは、一塩基バリアント(SNV)、コピー数バリアント(CNV)、遺伝子再配列などを含む、遺伝的バリアントおよび他の遺伝的特徴を検出するために分析され得る。様々な態様において、検出された遺伝的バリアントおよび遺伝的特徴は、品質管理の一形態として分析される。例えば、検出された遺伝的バリアントまたは特徴のパターンは、サンプル、配列決定手順、および/またはバイオインフォマティクスパイプラインに関連する問題、例えば、サンプルの汚染、サンプルの誤った標識、試薬の変更、配列決定手順および/またはバイオインフォマティクスパイプラインの問題などを示す。
SNVとインデルのコール
アラインメントに続いて、SamBAMBAのようなツールを使用して、ソートされたバムの重複をマークおよびフィルタリングすることができる。freebayesやpindelなどのソフトウェアパッケージを使用して、ソートされたBAMファイルを入力として使用し、参照として分析する遺伝子ターゲットを含むゲノムおよびパネルベッドファイルを使用してバリアントを呼び出す。生のVCFファイル(バリアントコール形式)ファイルが出力され、サンプルのヌクレオチド塩基が参照ゲノムのその位置のヌクレオチド塩基と同じではない場所が示される。vcfbreakmultiおよびvtなどのソフトウェアパッケージを使用して、生のVCFファイル内のマルチヌクレオチド多型バリアントを正規化し、バリアント正規化VCFファイルが出力される。VCF内のSNVは、転写情報、変異の影響、および1000のゲノムデータベースでの有病率についてSNPEffを使用して注釈が付けられている。EGFRバリアントは、speedseqを使用してchr 7で腫瘍と通常のfastqファイルを再アラインメントすることを通じて別々に呼び出される。重複はSambambaなどのツールを使用してマーク付けし、バリアントコールは他の染色体について説明したステップと同様に行われる。例えば、図9を参照のこと。
アラインメントに続いて、SamBAMBAのようなツールを使用して、ソートされたバムの重複をマークおよびフィルタリングすることができる。freebayesやpindelなどのソフトウェアパッケージを使用して、ソートされたBAMファイルを入力として使用し、参照として分析する遺伝子ターゲットを含むゲノムおよびパネルベッドファイルを使用してバリアントを呼び出す。生のVCFファイル(バリアントコール形式)ファイルが出力され、サンプルのヌクレオチド塩基が参照ゲノムのその位置のヌクレオチド塩基と同じではない場所が示される。vcfbreakmultiおよびvtなどのソフトウェアパッケージを使用して、生のVCFファイル内のマルチヌクレオチド多型バリアントを正規化し、バリアント正規化VCFファイルが出力される。VCF内のSNVは、転写情報、変異の影響、および1000のゲノムデータベースでの有病率についてSNPEffを使用して注釈が付けられている。EGFRバリアントは、speedseqを使用してchr 7で腫瘍と通常のfastqファイルを再アラインメントすることを通じて別々に呼び出される。重複はSambambaなどのツールを使用してマーク付けし、バリアントコールは他の染色体について説明したステップと同様に行われる。例えば、図9を参照のこと。
コピー数バリアントの判定
様々な実施形態において、システムおよび方法は、HRD状態を推定するために使用されるゲノム特徴を計算するためのコピー数分析方法を含む。例えば、いくつかの実施形態では、コピー数を評価するために、重複排除されたBAMファイルおよびバリアントコールパイプラインから生成されたVCFを使用して、腫瘍サンプルと正常サンプルとの間のヘテロ接合生殖細胞系列SNVの読み取り深度および変動を計算することができる。マッチした正常なサンプルが利用可能ではない場合、腫瘍サンプルとプロセスがマッチした正常対照のプールとの比較を利用することができる。円形のバイナリセグメンテーションを適用することができ、セグメントは、腫瘍とそのコンパレータ(マッチした正常または正常なプール)の間で非常に異なるlog2比で選択することができる。おおよその整数コピー数は、セグメント化された領域での異なるカバレッジと、ヘテロ接合性生殖細胞系列SNVの分析によって生成された間質混合物の推定値(例えば、腫瘍純度、または腫瘍対非腫瘍であるサンプルの部分)の組み合わせから評価することができる。
様々な実施形態において、システムおよび方法は、HRD状態を推定するために使用されるゲノム特徴を計算するためのコピー数分析方法を含む。例えば、いくつかの実施形態では、コピー数を評価するために、重複排除されたBAMファイルおよびバリアントコールパイプラインから生成されたVCFを使用して、腫瘍サンプルと正常サンプルとの間のヘテロ接合生殖細胞系列SNVの読み取り深度および変動を計算することができる。マッチした正常なサンプルが利用可能ではない場合、腫瘍サンプルとプロセスがマッチした正常対照のプールとの比較を利用することができる。円形のバイナリセグメンテーションを適用することができ、セグメントは、腫瘍とそのコンパレータ(マッチした正常または正常なプール)の間で非常に異なるlog2比で選択することができる。おおよその整数コピー数は、セグメント化された領域での異なるカバレッジと、ヘテロ接合性生殖細胞系列SNVの分析によって生成された間質混合物の推定値(例えば、腫瘍純度、または腫瘍対非腫瘍であるサンプルの部分)の組み合わせから評価することができる。
ヘテロ接合性の喪失の決定
いくつかの態様において、LOHは、コピー数コールアルゴリズムを使用することを通じて判定され得る。まず、腫瘍ゲノムの腫瘍純度とコピー状態は、期待値最大化アルゴリズム(EM)を使用して推定することができる。コピー状態と腫瘍純度の推定には、次の手順が関与してもよい。すなわち、1)読み取りアラインメントと正規化、2)Bアレル頻度と偏差の計算、3)腫瘍純度の予備推定、4)ゲノムセグメンテーション、および5)初期腫瘍純度推定の精緻化EMアルゴリズムによるコピー状態とLOHの推定である。
いくつかの態様において、LOHは、コピー数コールアルゴリズムを使用することを通じて判定され得る。まず、腫瘍ゲノムの腫瘍純度とコピー状態は、期待値最大化アルゴリズム(EM)を使用して推定することができる。コピー状態と腫瘍純度の推定には、次の手順が関与してもよい。すなわち、1)読み取りアラインメントと正規化、2)Bアレル頻度と偏差の計算、3)腫瘍純度の予備推定、4)ゲノムセグメンテーション、および5)初期腫瘍純度推定の精緻化EMアルゴリズムによるコピー状態とLOHの推定である。
読み取りアラインメントと正規化プローブ標的カバレッジを計算するために、腫瘍からの配列決定された読み取りをヒト参照ゲノムにアラインメントし、長さと深さ、およびGC含量によって正規化することができる。正常組織からの読み取りも、利用可能なときには同様に処理できる。マッチした正常が利用可能ではない場合、がんを持っていることが知られていない正常な健康な個人からの読み取りカバレッジからなる正常なプールを使用することができる。性別がマッチした正常なプールを選択するために、X染色体カバレッジとともにバリアントをX染色体にマッピングすることにより、性別推定ステップを実行することができる。通常のプールから、例えばPCA選択ステップを適用することを通じて、最も近いネイバーを選択することができる。それらのカバレッジ値は、腫瘍カバレッジを正規化するために使用することができる。このPCAの選択により、体細胞CNV検出の感度を高める。最後に、読み取りカバレッジは、正常カバレッジおよびlog2変換されたものに対する腫瘍カバレッジの比率として表すことができる。
Bアレル頻度と偏差の計算ヘテロ接合バリアントには、コピー数とLOHに関する有用な情報が含まれている。これらのバリアントは、freebayesとpindelを使用してなされた体細胞および生殖細胞系列バリアントコールからマイニングされ得る。予想される正常値からのBアレル頻度(BAF)偏差は、ヘテロ接合SNPごとに計算され、BAF対数オッズ比としても表される。バリアントが正常な生殖細胞系列である場合、正常からのBAF偏差は0に近いはずである。LOHを示すバリアントの場合、BAFは0から大幅に逸脱する。
腫瘍純度の予備的推定値腫瘍純度の初期推定値は、EMアルゴリズムの入力として使用するために、体細胞バリアントおよびBAFデータから取得することができる。体細胞バリアントの最大VAFは、理論的には腫瘍の純度と等しいはずである。これは、腫瘍の純度の体細胞推定値である。BAFデータから、対数オッズ比が2より大きいことを示すバリアントの場合、明らかにLOHであり、コピーが失われるか、またはコピーが中立であるときにのみこのような有意な偏差が予想される。そのようなバリアントの可能な最大VAFの2倍は、理論的には腫瘍の純度と等しいはずであり、BAFの推定値に対応する。これらの2つの推定値を平均して、腫瘍純度の初期推定値を形成する。
ゲノムセグメンテーションゲノムの二変量セグメンテーションが、腫瘍と通常のカバレッジ比およびBAF対数オッズデータを使用して実行される。一連のローリングT試験は、循環バイナリセグメンテーションと同様のアルゴリズムを使用してゲノム全体に実行され、コピー数の有意な切り替えが観察されるゲノムのセクションを特定する。これにより、全ゲノムがセグメントに集約され、各セグメントは異なるコピー数プロファイルを有する。セグメンテーションの分岐とプルーニングの閾値パラメーターは、どの程度セグメンテーションとフォーカルセグメントの検出が可能あり、Tempusデータ用に最適化されるかを制御する。
初期腫瘍純度推定の改良とEMアルゴリズムによるコピー状態とLOHの推定腫瘍純度の初期の推定から、腫瘍純度の半分から可能な最大値までの範囲の腫瘍純度値が繰り返され、各ゲノムセグメントに対して最適なコピー状態が推定される。各腫瘍純度の推定値とゲノムセグメントごとに、予想される対数比とBAFが、0~20の範囲のコピー状態ごとに計算され、意味のあるコピー状態の組み合わせのみが可能になる。次に、観測されたカバレッジとBAFの尤度が、2変量確率密度関数からのこれらの期待値を前提として計算され、尤度行列が作成される。最尤のコピー状態がこの行列から返される。このプロセスはすべてのセグメントで繰り返され、最適なコピー状態マップにセグメントが構築される。すべての腫瘍純度に対してこのステップを繰り返すと、腫瘍純度尤度行列が生成され、モデル誤差が最小で最尤の腫瘍純度が最終推定値として返される。すべてのゲノムセグメントでコピー状態の割り当てが利用可能になると、マイナーコピー数が0のセグメントにLOHが割り当てられる。これらのセグメントは、腫瘍の純度に応じて、1コピーの喪失、コピー中立、または高次のLOHのいずれかになる。
腫瘍の純度
腫瘍の純度を計算するために、体細胞バリアントと生殖細胞系列Bアレル頻度から初期の腫瘍純度の推定値が取得され、これは、腫瘍正常カバレッジ対数腫瘍の正常範囲の対数比と正常期待からのBアレル頻度偏差が与えられて、腫瘍の純度の尤度を評価するグリーディアルゴリズムを使用して精緻化される。アルゴリズムは、初期推定値を取り巻く一連の腫瘍純度の範囲を反復処理して、最尤法で腫瘍の純度を返す。
腫瘍の純度を計算するために、体細胞バリアントと生殖細胞系列Bアレル頻度から初期の腫瘍純度の推定値が取得され、これは、腫瘍正常カバレッジ対数腫瘍の正常範囲の対数比と正常期待からのBアレル頻度偏差が与えられて、腫瘍の純度の尤度を評価するグリーディアルゴリズムを使用して精緻化される。アルゴリズムは、初期推定値を取り巻く一連の腫瘍純度の範囲を反復処理して、最尤法で腫瘍の純度を返す。
ヘテロ接合性の喪失
ゲノムワイドヘテロ接合性の喪失(LOH)の推定のために、各SNPが、生殖細胞系列変異型アレル画分と正常期待からのBアレル頻度の偏差に基づいてLOHについて評価された。バイナリ0/1システムを使用してLOHなし/LOHありを割り当て、LOH下のゲノム塩基の平均比率を取得した。LOHを受けている塩基の数を、この特許に背悦明されている方法などのコピー数法を使用して分析された塩基の総数で割って、ゲノムワイドLOH比率の推定値を判定することができる。一例では、ゲノムワイドLOH比率の推定値は、生殖細胞系列(正常)サンプルには存在しない可能性のある体細胞(がん)サンプルのLOHを表してもよい。
ゲノムワイドヘテロ接合性の喪失(LOH)の推定のために、各SNPが、生殖細胞系列変異型アレル画分と正常期待からのBアレル頻度の偏差に基づいてLOHについて評価された。バイナリ0/1システムを使用してLOHなし/LOHありを割り当て、LOH下のゲノム塩基の平均比率を取得した。LOHを受けている塩基の数を、この特許に背悦明されている方法などのコピー数法を使用して分析された塩基の総数で割って、ゲノムワイドLOH比率の推定値を判定することができる。一例では、ゲノムワイドLOH比率の推定値は、生殖細胞系列(正常)サンプルには存在しない可能性のある体細胞(がん)サンプルのLOHを表してもよい。
BRCA1およびBRCA2遺伝子の平均LOHも同様の方法で判定できるが、2つの遺伝子の座標のみを考慮する。一例では、BRCA1/2遺伝子のLOHは、生殖細胞系列(正常)サンプルには存在しない可能性のある体細胞(がん)サンプルのLOHを表してもよい。
病原性バリアントの数をカウント
特定の遺伝子の病原性バリアントの数をカウントするために、各患者にコールされたすべてのSNPを使用し、既知の病原性および短縮型BRCAバリアント(例えば、BRCA1やBRCA2)のリストを含むキュレートされた参照変異リストと照合した。次に、SNP位置の重複に基づいて病原性バリアントの数を取得した。体細胞変異と生殖細胞系列バリアントの別々のカウントもBRCAについて出力される。2つのカウントの合計も生成され得る。
特定の遺伝子の病原性バリアントの数をカウントするために、各患者にコールされたすべてのSNPを使用し、既知の病原性および短縮型BRCAバリアント(例えば、BRCA1やBRCA2)のリストを含むキュレートされた参照変異リストと照合した。次に、SNP位置の重複に基づいて病原性バリアントの数を取得した。体細胞変異と生殖細胞系列バリアントの別々のカウントもBRCAについて出力される。2つのカウントの合計も生成され得る。
いくつかの実施形態では、本明細書に説明されるシステムおよび方法で使用される病原性バリアントは、表1に列挙されたバリアントのうちの1つ以上を含む。いくつかの実施形態では、本明細書で説明されたシステムおよび方法で使用される病原性バリアントは、表1に列挙される少なくとも5、10、15、20、25、30、40、50、75、100、125、またはすべてのバリアントを含む。
HRDマーカーに基づく陽性HRDコール
様々な態様において、HRDの特定のマーカーが検出された場合、本明細書に開示されるシステムおよび方法は、陽性HRDコールを返す。一例では、病原性ストップゲインまたはフレームシフトバリアントがBRCA1またはBRCA2に存在する場合、陽性HRDコールが返される。別の例では、ゲノムワイドヘテロ接合性の喪失の比率が、BRCA1またはBRCA2のヘテロ接合性の喪失と組み合わされて、BRCA変異を示す閾値を超えている場合、陽性HRDコールが返される。
様々な態様において、HRDの特定のマーカーが検出された場合、本明細書に開示されるシステムおよび方法は、陽性HRDコールを返す。一例では、病原性ストップゲインまたはフレームシフトバリアントがBRCA1またはBRCA2に存在する場合、陽性HRDコールが返される。別の例では、ゲノムワイドヘテロ接合性の喪失の比率が、BRCA1またはBRCA2のヘテロ接合性の喪失と組み合わされて、BRCA変異を示す閾値を超えている場合、陽性HRDコールが返される。
分類器
一般に、多くの異なる分類アルゴリズムが、本明細書に説明されるシステムおよび方法で使用されることが分かっている。例えば、いくつかの実施形態では、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定ツリーアルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
一般に、多くの異なる分類アルゴリズムが、本明細書に説明されるシステムおよび方法で使用されることが分かっている。例えば、いくつかの実施形態では、モデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、決定ツリーアルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、または線形回帰アルゴリズムである。
いくつかの実施形態では、本明細書で説明されるシステムおよび方法で使用される分類アルゴリズムは、ランダムフォレストアルゴリズムである。いくつかの実施形態では、訓練された分類方法は、訓練された分類器ストリームを含む。いくつかの実施形態では、非限定的な例として、訓練された分類器ストリームは決定ツリーである。本明細書で説明される分類モデルとして使用するのに好適な決定ツリーアルゴリズムは、例えば、Duda,2001,Pattern Classification,John Wiley&Sons,Inc.,New York,395-396に説明されており、これは参照により本明細書に組み込まれる。ツリーベースのメソッドは、フィーチャスペースを長方形のセットに分割し、モデル(定数など)を各1つに適合させる。いくつかの実施形態では、決定ツリーはランダムフォレスト回帰である。分類モデルとして使用できる1つの具体的なアルゴリズムは、分類および回帰ツリー(CART)である。分類器として使用できる具体的な決定ツリーアルゴリズムの他の例には、ID3、C4.5、MART、およびランダムフォレストが含まれるが、これらに限定されない。CART、ID3、およびC4.5は、Duda,2001,Pattern Classification,John Wiley&Sons,Inc.,New York.396-408,411-412に説明されており、これは、参照により本明細書に組み込まれる。CART、MART、およびC4.5は、Hastie et al.,2001,The Elements of Statistical Learning,Springer-Verlag,New York,Chapter 9に説明されており、これは、参照によりその全体が本明細書に組み込まれる。ランダムフォレストは、Breiman,1999,“Random Forests--Random Features,”Technical Report 567,Statistics Department,U.C.Berkeley,September 1999に説明されており、参照によりその全体が本明細書に組み込まれる。
いくつかの実施形態では、様々なBRCA LOH状態、病原性変異、およびゲノムワイドLOH測定値を有する腫瘍オルガノイドを増殖させ、PARP阻害剤で処理して、インビトロPARP薬物応答を取得することができる。サンプルは、幅広いがんコーホートにまたがる可能性がある。PARPに感度があると期待される腫瘍細胞株は、HRD変異を持たない陰性対照と一緒に試験することができる。PARP結果データは、ランダムフォレスト分類器の入力特徴を精緻化するために使用できる。追加情報は、HRD経路の変異シグネチャーおよび他の遺伝子から収集できる。例えば、本明細書に参照により組み込まれる、Gulhan DC,Lee JJ,Melloni GEM,Cortes-Ciriano I,Park PJ,「Detecting the mutational signature of homologous recombination deficiency in clinical samples,」Nat Genet.,51(5):912-19(2019)を参照のこと。
代替の実施形態では、ランダムフォレスト分類器を訓練してHRDコールを生成する代わりに、またはそれに加えて、システムおよび方法はビジネスロジックを使用する。例えば、いくつかの実施形態では、図10に示されるようなビジネスルールセットが、本明細書で説明されるシステムおよび方法で使用される。
いくつかの実施形態では、本明細書に説明されるシステムおよび方法を使用する分類アルゴリズムは、回帰アルゴリズムである。回帰アルゴリズムは、任意のタイプの回帰にすることができる。例えば、いくつかの実施形態では、回帰アルゴリズムはロジスティック回帰である。ロジスティック回帰アルゴリズムは、Agresti,An Introduction to Categorical Data Analysis,1996,Chapter 5,pp.103-144,John Wiley&Son,New Yorkに開示されており、これは、参照により本明細書に組み込まれる。いくつかの実施形態では、回帰アルゴリズムは、ラッソ、L2、または弾性ネット正則化を有するロジスティック回帰である。
いくつかの実施形態では、本明細書で説明されるシステムおよび方法を使用した分類アルゴリズムは、ニューラルネットワークである。畳み込みニューラルネットワークアルゴリズムを含むニューラルネットワークアルゴリズムの例は、例えば、Vincent et al.,2010,“Stacked denoising autoencoders:Learning useful representations in a deep network with a local denoising criterion,”J Mach Learn Res 11,pp.3371-3408、Larochelle et al.,2009,“Exploring strategies for training deep neural networks,”J Mach Learn Res 10,pp.1-40、およびHassoun,1995,Fundamentals of Artificial Neural Networks,Massachusetts Institute of Technologyに開示されており、これらの各々は、参照により本明細書に組み込まれる。
いくつかの実施形態では、本明細書で説明されるシステムおよび方法を使用した分類アルゴリズムは、サポートベクトルマシン(SVM)である。SVMアルゴリズムの例は、例えば、Cristianini and Shawe-Taylor,2000,“An Introduction to Support Vector Machines,”Cambridge University Press,Cambridge、Boser et al.,1992,“A training algorithm for optimal margin classifiers,”in Proceedings of the 5th Annual ACM Workshop on Computational Learning Theory,ACM Press,Pittsburgh,Pa.,pp.142-152、Vapnik,1998,Statistical Learning Theory,Wiley,New York、Mount,2001,Bioinformatics:sequence and genome analysis,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.、Duda,Pattern Classification,Second Edition,2001,John Wiley&Sons,Inc.,pp.259,262-265、Hastie,2001,The Elements of Statistical Learning,Springer,New YorkおよびFurey et al.,2000,Bioinformatics 16,906-914に開示されており、これらの各々は、参照によりその全体が本明細書に組み込まれる。分類に使用される場合、SVMは、ラベル付けされたデータから最大に離れた超平面を使用して、バイナリラベル付けされたデータ訓練セットの特定のセットを分離する。線形分離が不可能な場合、SVMは、特徴空間への非線形マッピングを自動的に実現する「カーネル」の手法と組み合わせて機能する。特徴空間でSVMによって見出された超平面は、入力空間の非線形決定境界に対応する。
いくつかの実施形態では、機械学習モデルは、ロジスティック回帰分類器を含む。他の実施形態では、機械学習または深層学習モデルは、決定ツリー、アンサンブル(例えば、バギング、ブースティング、ランダムフォレスト)、勾配ブースティングマシン、線形回帰、Naive Bayes、またはニューラルネットワークのうちの1つであり得る。HRDモデルには、訓練中に調整される特徴の学習された重みが含まれている。ここでは、「重み」という用語は、使用されている特定の機械学習手法に関係なく、モデルの任意の所与の特徴に関連する学習量を表すために一般的に使用される。いくつかの実施形態では、がん指標スコアは、1つ以上のDNA配列(またはそのDNA配列読み取り)に由来する特徴の値を機械学習または深層学習モデルに入力することによって判定される。
いくつかの実施形態では、例えば、HRD評価モデルがニューラルネットワーク(例えば、従来型または畳み込みニューラルネットワーク)であるときに、疾患分類器の出力は、例えば、がん陽性またはがん陰性のいずれかの分類である。しかしながら、いくつかの実施形態では、分類ではなく、モデルの出力に連続または半連続の値を提供するために、ニューラルネットワークの隠れ層、例えば、出力層の直前の隠れ層は、分類モデルの出力として使用される。
したがって、いくつかの実施形態では、モデルは、(i)複数の遺伝子型特性の値を受けるための入力層であって、複数の遺伝子型特性は、第1の次元数を含む、入力層と、(ii)重みのセットを含む埋め込み層であって、埋め込み層は入力層の出力を直接または間接的に受け、埋め込み層の出力は、第1の次元数よりも小さい第2の次元数を有するモデルスコアセットである、埋め込み層と、(iii)埋め込み層からモデルスコアセットを直接または間接的に受ける出力層と、を含む。いくつかの実施形態では、分類器の出力は、埋め込み層と呼ばれるニューラルネットワーク内の隠れ層に関連付けられたニューロンのセットの出力である。そのような実施形態では、埋め込み層内のそのような各ニューロンは、重みおよび活性化関数に関連付けられ、出力は、そのような各活性化関数の出力からなる。いくつかの実施形態では、埋め込み層内のニューロンの活性化関数は、正規化線形ユニット(ReLU)、tanh、またはシグモイド活性化関数である。いくつかのそのような実施形態では、埋め込み層のニューロンは、入力層の入力の各々に完全に接続されている。いくつかのそのような実施形態では、出力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続されている。いくつかの実施形態では、出力層の各ニューロンは、ソフトマックス活性化関数に関連付けられている。いくつかの実施形態では、1つ以上の埋め込み層および出力層は完全には接続されていない。
患者レポート
いくつかの実施形態では、患者レポートは、分類器の出力に基づいて生成される。レポートは、デジタルコピー(例えば、JSONオブジェクト、pdfファイル、またはWebサイトやポータル上の画像)、ハードコピー(例えば、紙に印刷されたもの、または別の有形の媒体)、または別のフォーマットで患者、医師、医療関係者、または研究者に提示できる。
いくつかの実施形態では、患者レポートは、分類器の出力に基づいて生成される。レポートは、デジタルコピー(例えば、JSONオブジェクト、pdfファイル、またはWebサイトやポータル上の画像)、ハードコピー(例えば、紙に印刷されたもの、または別の有形の媒体)、または別のフォーマットで患者、医師、医療関係者、または研究者に提示できる。
いくつかの実施形態では、レポートは、検体のHRD状態、検出された遺伝的バリアント、患者のサンプルの他の特性、および/または臨床記録に関連する情報を含む。レポートには、HRDステータス、検出された遺伝的バリアント、サンプルの他の特性、および/または臨床記録に基づいて、患者が適格である臨床試験、患者にマッチする可能性がある治療法、および/または患者が所与の治療法を受けた場合に予想される副作用が含まれてもよい。一例では、患者検体がHRDを有すると予測される場合、患者は、PARP阻害剤、プラチナベースの化学療法、および/または追加のDNA損傷療法にマッチしてもよい。
レポートに含まれる結果および/または追加の結果(例えば、バイオインフォマティクスパイプラインから)を使用して、臨床データのデータベースを分析し、特に、治療法が、検体と同じまたは同様の結果を有する他の患者のがんの進行を遅らせたことを示す傾向があるかどうかを判定することができる。結果は、腫瘍オルガノイド実験を設計するためにも使用できる。例えば、オルガノイドは、検体と同じ特性を有するように遺伝子操作されてもよく、治療法への曝露後に観察されて、治療がオルガノイドの成長速度を低下させることができ、したがって、検体に関連付けられた患者の成長速度を低減する可能性が高いことを判定することができる。
この例では、HRD情報は、さらに処理および/または表示するために、JSONオブジェクトなどのレポートオブジェクトに記憶できる。例えば、レポートオブジェクトからの情報は、注文する医師に返すための臨床検査レポートを準備するために使用され得る。情報は、テキスト、画像、および/または音声の組み合わせとして提供されてもよい。HRD情報を示すテキストと画像の例示的なディスプレイを図11として提示する。
いくつかの実施形態では、レポートはまた、相同組換えDNA修復経路における遺伝子および/またはこの経路と相互作用する遺伝子に関連する遺伝的バリアントのリストを含む。このリストの例示的なディスプレイを図12として提示する。
治療法
いくつかの態様において、本明細書に開示されるシステムおよび方法は、コンパニオン診断として使用されてもよい。例えば、いくつかの実施形態では、推定されたHRD状態は、PARP阻害剤でがんを治療する決定を下すために臨床医によって使用されてもよい。
いくつかの態様において、本明細書に開示されるシステムおよび方法は、コンパニオン診断として使用されてもよい。例えば、いくつかの実施形態では、推定されたHRD状態は、PARP阻害剤でがんを治療する決定を下すために臨床医によって使用されてもよい。
表2に、いくつかのPARP阻害剤と、2019年の様々ながんのタイプに対する各PARP阻害剤のFDA承認または臨床試験の状態を示す。この表は、HRDが陽性であると試験された患者に対するPARP阻害剤の広範な潜在的有用性を示す。
いくつかの態様において、推定されたHRD状態は、標準的なネオアジュバント化学療法にプラチナを加えることによりがんを治療する決定を下すために臨床医によって使用されてもよい。標準的な併用化学療法にプラチナ剤を追加すると、治療の毒性が高まるため、患者は、プラチナ剤と標準的な併用化学療法の組み合わせを通じてがんが治療される可能性が高いかどうかを示す推定されたHRDの恩恵を受けるだろう。
いくつかの態様において、PARP阻害剤は、具体的には生殖細胞系列の変化を宿すがんの治療のために承認されている。例えば、オラパリブは少なくとも3つの化学療法レジメンで治療された生殖細胞系列BRCA(gBRCA)陽性卵巣がんに対して承認されており、タロザパリブはgBRCA陽性、HER2陰性の限局性または転移性乳がんで承認されている。BRCAにおける生殖細胞系列バリアントまたはDNA修復経路に関連する他の遺伝子を検出することは、医師がPARPiを処方することを決定するのに役立つ可能性がある。
デジタルおよび実験室のヘルスケアプラットフォームを使用した実装
本明細書に説明される方法およびシステムは、一般に医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用することができる。そのようなプラットフォームと組み合わせて、上述の方法およびシステムの多くの使用が可能であると理解されたい。そのようなプラットフォームの一例は、「Data Based Cancer Research and Treatment Systems and Methods」と題する、2019年10月18日に出願された米国特許出願第16/657,804号に説明されており、これは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
本明細書に説明される方法およびシステムは、一般に医療および研究を対象とするデジタルおよび実験室のヘルスケアプラットフォームと組み合わせて、またはその一部として利用することができる。そのようなプラットフォームと組み合わせて、上述の方法およびシステムの多くの使用が可能であると理解されたい。そのようなプラットフォームの一例は、「Data Based Cancer Research and Treatment Systems and Methods」と題する、2019年10月18日に出願された米国特許出願第16/657,804号に説明されており、これは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
例えば、上述の方法およびシステムの1つ以上の実施形態の実装は、HRD検出をサポートするデジタルおよび実験室のヘルスケアプラットフォームを構成するマイクロサービスを含み得る。実施形態は、___を実行および送達するための単一のマイクロサービスを含み得るか、または各々が上記の実施形態の1つ以上を一緒に実装する特定の役割を有する複数のマイクロサービスを含むことができる。一例では、第1のマイクロサービスは、HRDモデルを訓練するために第2のマイクロサービスに特徴を送達するために、ゲノム特徴の計算を実行することができる。同様に、第2のマイクロサービスは、上記の一実施形態により、HRDモデルの訓練を実行して、訓練されたHRDモデルを第3のマイクロサービスに送達することができる。第3のマイクロサービスは、訓練されたHRDモデルを使用して、検体に関連付けられたデータを分析し、検体がHRDを有する可能性を判定することができる。
上記の実施形態が、デジタルおよび実験室のヘルスケアプラットフォームとともに、またはその一部として1つ以上のマイクロサービスで実行される場合、そのようなマイクロサービスの1つ以上は、上記の実施形態をインスタンス化するのに必要な適切な時間および適切な順序で、必要に応じてイベントのシーケンスを調整する注文管理システムの一部であり得る。マイクロサービスベースの注文管理システムは、例えば、「Adaptive Order Fulfillment and Tracking Methods and Systems」と題する、2019年7月12日に出願された米国仮特許出願第62/873,693号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
例えば、上記の第1および第2のマイクロサービスを続行すると、注文管理システムは、_______の注文が受信され、処理の準備ができたことを第1のマイクロサービスに通知してもよい。________の送達が第2のマイクロサービスに対して準備ができると、第1のマイクロサービスが実行し、注文管理システムに通知する。さらに、注文管理システムは、第1のマイクロサービスが完了したことを含め、第2のマイクロサービスの実行パラメータ(前提条件)が満たされていることを特定し、上記の一実施形態に従って、________への注文を処理し続けることができることを第2のマイクロサービスに通知することができる。
デジタルおよび実験室のヘルスケアプラットフォームが遺伝子分析システムをさらに含む場合、遺伝子分析システムは、標的化パネルおよび/または配列決定プローブを含むことができる。標的化パネルの例は、例えば、「System and Method for Expanding Clinical Options for Cancer Patients using Integrated Genomic Profiling」と題する、2019年9月19日に出願された米国仮特許出願第62/902,950号に開示されており、その全体が全ての目的のために本明細書に参照により組み込まれる。一例では、標的化パネルは、上記の一実施形態による、__の次世代配列決定結果の送達を可能にし得る。次世代配列決定プローブの設計例は、例えば、「Systems and Methods for Next Generation Sequencing Uniform Probe Design」と題する、2019年10月21日に出願された米国仮特許出願第62/924,073号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームがバイオインフォマティクスパイプラインをさらに含む場合、上述の方法およびシステムは、バイオインフォマティクスパイプラインで利用されるシステムおよび方法の完了または実質的な完了後に利用することができる。一例として、バイオインフォマティクスパイプラインは、次世代の遺伝子配列決定結果を受信し、参照ゲノムにアラインメントされたDNAおよび/またはRNA読み取りカウントを反映する1つ以上のBAMファイルなどのバイナリファイルのセットを返してもよい。上述の方法およびシステムは、例えば、DNAおよび/またはRNAの読み取りカウントを摂取し、結果として__を生成するために利用され得る。
デジタルおよび実験室のヘルスケアプラットフォームがさらにRNAデータノーマライザーを含む場合、任意のRNA読み取りカウントは、上述のように実施形態を処理する前に正規化され得る。RNAデータノーマライザーの例は、例えば、「Methods of Normalizing and Correcting RNA Expression Data」と題する、2019年9月24日に出願された米国特許出願第16/581,706号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが遺伝子データデコンボリューターをさらに含む場合、デコンボリューションのための任意のシステムおよび方法を利用して、2つ以上の生物学的成分を有する検体に関連付けられた遺伝子データを分析して、遺伝子データへの各成分の寄与を判定する、および/または、検体が精製された場合に、どの遺伝データが検体の任意の成分に関連付けられるかを判定することができる。遺伝子データデコンボリューターの例は、例えば、両方とも「Transcriptome Deconvolution of Metastatic Tissue Samples」と題する、2019年12月31日に出願された米国特許出願第16/732,229号とPCT19/69191号、「Calculating Cell-type RNA Profiles for Diagnosis and Treatment」と題する、2019年10月21日に出願された米国仮特許出願第62/924,054号、および「Rapid Deconvolution of Bulk RNA Transcriptomes for Large Data Sets(Including Transcriptomes of Specimens Having Two or More Tissue Types)」と題する、2019年12月6日に出願された米国仮特許出願第62/944,995号に開示されており、これらは、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが自動化されたRNA発現コーラーをさらに含む場合、RNA発現レベルは、分析用の複数のRNA発現データセットを準備するために行われることが多い、参照発現レベルに対する値として表現されるように調整し、同じ方法、機器、および/または試薬を使用して生成されていないためにデータセットに違いがあるときに発生するアーティファクトを回避することができる。自動化されたRNA発現コーラーの例は、例えば、「Systems and Methods for Automating RNA Expression Calls in a Cancer Prediction Pipeline」と題する、2019年12月4日に出願された米国仮特許出願第62/943,712号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが患者および/または検体に関連付けられた遺伝的および/または臨床データに基づく可能性がある疾患状態に関連する情報、特性、または判定を送達するための1つ以上の洞察エンジンをさらに含むことができる。例示の洞察エンジンには、起源不明の腫瘍エンジン、ヒト白血球抗原(HLA)ホモ接合性の喪失(LOH)エンジン、腫瘍変異負荷エンジン、PD-L1状態エンジン、相同組換え欠損エンジン、細胞経路活性化レポートエンジン、免疫浸潤エンジン、マイクロサテライト不安定性エンジン、病原体感染状態エンジンなどを含むことができる。起源不明の腫瘍エンジンの例は、例えば、「Systems and Methods for Multi-Label Cancer Classification」と題する、2019年5月31日に出願された米国仮特許出願第62/855,750号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。HLA LOHエンジンの例は、例えば「Detection of Human Leukocyte Antigen Loss of Heterozygosity」と題する、2019年8月20日に出願された米国仮特許出願第62/889,510号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。腫瘍変異負荷(TMB)エンジンの例は、例えば、「Assessment of Tumor Burden Methodologies for Targeted Panel Sequencing」と題する、2019年2月12日に出願された米国仮特許出願第62/804,458号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。PD-L1状態エンジンの例は、例えば、「A Pan-Cancer Model to Predict The PD-L1 Status of a Cancer Cell Sample Using RNA Expression Data and Other Patient Data」と題する、2019年5月30日に出願された米国仮特許出願第62/854,400号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。PD-L1状態エンジンの追加の例は、例えば、「PD-L1 Prediction Using H&E Slide Images」と題する、2019年3月26日に出願された米国仮特許出願第62/824,039号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。本明細書に開示されるシステムおよび方法は、相同組換え欠損エンジンの一例である。代替の相同組換え欠損エンジンは、例えば、「An Integrative Machine-Learning Framework to Predict Homologous Recombination Deficiency」と題する、2019年2月12日出願された米国仮特許出願第62/804,730号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。細胞経路活性化レポートエンジンの例は、例えば、「CellularPathwayReport」と題する、2019年8月16日に出願された米国仮特許出願第62/888,163号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。免疫浸潤エンジンの例は、例えば、「A Multi-Modal Approach to Predicting Immune Infiltration Based on Integrated RNA Expression and Imaging Features」と題する、2019年8月6日に出願された米国特許出願第16/533,676号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。免疫浸潤エンジンの追加の例は、例えば、「Comprehensive Evaluation of RNA Immune System for the Identification of Patients with an Immunologically Active Tumor Microenvironment」と題する、2019年2月12日に出願された米国特許出願第62/804,509号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。MSIエンジンの例は、例えば、「Microsatellite Instability Determination System and Related Methods」と題する、2019年10月15日に出願された米国特許出願第16/653,868号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。MSIエンジンの追加の例は、例えば、「Systems and Methods for Detecting Microsatellite Instability of a Cancer Using a Liquid Biopsy」と題する、2019年11月6日に出願された米国仮特許出願第62/931,600号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームがレポート生成エンジンをさらに含むときに、上述の方法およびシステムを利用して、患者の遺伝的プロファイルおよび医師に提示するための1つ以上の洞察エンジンの結果の要約レポートを作成することができる。例えば、レポートは、配列決定された検体が、第1の器官、第2の器官、第3の器官などからの腫瘍または正常組織をどの程度含んでいたかについての情報を医師に提供することができる。例えば、レポートは、検体内の組織のタイプ、腫瘍、または臓器の各々の遺伝的プロファイルを提供してもよい。遺伝子プロファイルは、組織タイプ、腫瘍、または器官に存在する遺伝子配列を表してもよく、バリアント、発現レベル、遺伝子産物に関する情報、または組織、腫瘍、もしくは器官の遺伝子分析に由来し得る他の情報を含むことができる。レポートには、遺伝子プロファイルまたは洞察エンジンの結果と要約の一部またはすべてに基づいてマッチした治療法および/または臨床試験が含まれ得る。例えば、治療法は、「Therapeutic Suggestion Improvements Gained Through Genomic Biomarker Matching Plus Clinical History」と題する、2019年2月12日に出願された米国仮特許出願第62/804,724号に開示されたシステムおよび方法に従ってマッチしてもよく、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。例えば、臨床試験は、「Systems and Methods of Clinical Trial Evaluation」と題する、2019年5月31日に出願された米国仮特許出願第62/855,913号に開示されたシステムおよび方法に従ってマッチしてもよく、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
レポートには、結果と多くの検体からの結果のデータベースとの比較が含まれ得る。結果を結果のデータベースと比較するための方法およびシステムの例は、「A Method and Process for Predicting and Analyzing Patient Cohort Response,Progression and Survival」と題する、2018年12月31日に出願された米国仮特許出願第62/786,739号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。この情報は、場合によっては、バイオマーカーを発見したり、臨床試験を設計したりするために、追加の検体からの同様の情報および/または臨床反応情報と組み合わせて使用されてもよい。
デジタルおよび実験室のヘルスケアプラットフォームが、プラットフォームに関連して開発されたオルガノイドへの本明細書における1つ以上の実施形態の適用をさらに含むときに、方法およびシステムを使用して、オルガノイドに由来する遺伝子配列決定データをさらに評価して、配列決定されたオルガノイドが第1の細胞タイプ、第2の細胞タイプ、第3の細胞タイプなどを含む程度に関する情報を提供する。例えば、レポートは、検体内の細胞タイプの各々の遺伝的プロファイルを提供してもよい。遺伝子プロファイルは、所与の細胞タイプに存在する遺伝子配列を表してもよく、バリアント、発現レベル、遺伝子産物に関する情報、または細胞の遺伝子分析に由来し得る他の情報を含むことができる。レポートには、デコンボリューションされた情報の一部またはすべてに基づいてマッチした治療法が含まれ得る。これらの治療法は、オルガノイド、そのオルガノイドの誘導体、および/または同様のオルガノイドで試験して、それらの治療法に対するオルガノイドの感度を決定することができる。例えば、オルガノイドは、「Tumor Organoid Culture Compositions,Systems,and Methods」と題する、2019年11月22日に出願された米国特許出願第16/693,117号、「Systems and Methods for Predicting Therapeutic Sensitivity」と題する、2019年10月22日に出願された米国仮特許出願第62/924,621号、および「Large Scale Phenotypic Organoid Analysis」と題する、2019年12月5日に出願された米国仮特許出願第62/944,292号に開示されたシステムおよび方法に従って、培養および試験することができ、これらは、それら全体が全ての目的のために本明細書に参照により組み込まれる。
デジタルおよび実験室のヘルスケアプラットフォームが、医療機器または一般に医療および研究を標的とする実験室開発試験と組み合わせて、またはその一部として、上記のうちの1つ以上の適用をさらに含むときに、そのような実験室開発試験または医療機器の結果は、人工知能を使用することで通じて向上し、パーソナライズすることができる。実験室開発試験の例、特に人工知能によって向上する可能性のあるものは、例えば、「Artificial Intelligence Assisted Precision Medicine Enhancements to Standardized Laboratory Diagnostic Testing」と題する、2019年10月22日に出願された米国仮特許出願第62/924,515号に開示されており、これは、その全体が全ての目的のために本明細書に参照により組み込まれる。
上記に与えられた例は例示的なものであり、デジタルおよび実験室のヘルスケアプラットフォームと組み合わせた本明細書に説明されたシステムおよび方法の使用を制限するものではないと理解されたい。
実施例1-初期のHRD予測モデルの分析
本明細書に説明されているように、初期のHRD予測アルゴリズムの精度は、BRCAにおける既知の病原性変異を有するサンプルでキュレーションされた小さな40サンプル訓練セットを使用して評価された。HRD予測に必要なすべてのゲノム特徴は、CONAを使用して訓練サンプルで計算された。sklearnの「train_test_split」メソッドを使用して、初期検証用の訓練セットとテストセットを作成した。sklearnの「standardscaler」および「fit_transform」メソッドを使用して、訓練サンプルの平均と分散を正規化し、将来のテストデータのスケールも同じに保った。「RandomForestClassifier」メソッドを使用して、ゲノム特徴の数を「n_estimators」として設定したランダムフォレスト分類器を作成した。「compute_simple_cross_val_score」を使用して、単純な5分割交差検証スコアメトリックを計算し、99%の分類精度を取得した。上位のk特徴は、標準のGini基準を使用して取得された。pickleを使用して分類モデルをファイルにダンプし、モデルをロードして各試験サンプルの予測を行った。各患者について、最初にCONAを使用してHRD特徴を計算し、訓練サンプルに使用したのと同じスケーリング関数を使用して特徴を標準化した。次に、sklearnに実装された「model.predict_proba」関数を使用して、これらの標準化された特徴が与えられた場合に、HRDの確率が取得された。HRD予測の信頼度はモデル予測確率であり、確率>0.5のサンプルに対して陽性コールが定義される。このモデルには任意の新しい特徴を簡単に組み込むことができ、訓練セットを簡単に拡張して再訓練と予測を行うことができる。
本明細書に説明されているように、初期のHRD予測アルゴリズムの精度は、BRCAにおける既知の病原性変異を有するサンプルでキュレーションされた小さな40サンプル訓練セットを使用して評価された。HRD予測に必要なすべてのゲノム特徴は、CONAを使用して訓練サンプルで計算された。sklearnの「train_test_split」メソッドを使用して、初期検証用の訓練セットとテストセットを作成した。sklearnの「standardscaler」および「fit_transform」メソッドを使用して、訓練サンプルの平均と分散を正規化し、将来のテストデータのスケールも同じに保った。「RandomForestClassifier」メソッドを使用して、ゲノム特徴の数を「n_estimators」として設定したランダムフォレスト分類器を作成した。「compute_simple_cross_val_score」を使用して、単純な5分割交差検証スコアメトリックを計算し、99%の分類精度を取得した。上位のk特徴は、標準のGini基準を使用して取得された。pickleを使用して分類モデルをファイルにダンプし、モデルをロードして各試験サンプルの予測を行った。各患者について、最初にCONAを使用してHRD特徴を計算し、訓練サンプルに使用したのと同じスケーリング関数を使用して特徴を標準化した。次に、sklearnに実装された「model.predict_proba」関数を使用して、これらの標準化された特徴が与えられた場合に、HRDの確率が取得された。HRD予測の信頼度はモデル予測確率であり、確率>0.5のサンプルに対して陽性コールが定義される。このモデルには任意の新しい特徴を簡単に組み込むことができ、訓練セットを簡単に拡張して再訓練と予測を行うことができる。
実施例2-初期のHRD予測モデルの分析
35の異なるがんタイプにわたる1000の患者サンプルのHRD状態は、本明細書に説明されているようにHRD分類器を使用して分析された。分析により、合計6.4%のHRD陽性のコールが特定された。BRCA遺伝子の病原性バリアントはHRD陽性コールで陰性コールよりも有意に大きかったが(P<4.1e-219、Mann-Whitney試験)、BRCAのLOHは濃縮されなかった(P<0.06、Mann-Whitney試験)。卵巣がん(12%HRD陽性、n=57)、乳がん(14.6%、n=89)、および結腸直腸がん(10%、n=285)は、最も代表的ながんのタイプの一部であった。以前に発表された結果とは対照的に、膵臓(2.3%、n=295)および前立腺(2.7%、n=37)の患者のほとんどはHRDを予測していなかった。
35の異なるがんタイプにわたる1000の患者サンプルのHRD状態は、本明細書に説明されているようにHRD分類器を使用して分析された。分析により、合計6.4%のHRD陽性のコールが特定された。BRCA遺伝子の病原性バリアントはHRD陽性コールで陰性コールよりも有意に大きかったが(P<4.1e-219、Mann-Whitney試験)、BRCAのLOHは濃縮されなかった(P<0.06、Mann-Whitney試験)。卵巣がん(12%HRD陽性、n=57)、乳がん(14.6%、n=89)、および結腸直腸がん(10%、n=285)は、最も代表的ながんのタイプの一部であった。以前に発表された結果とは対照的に、膵臓(2.3%、n=295)および前立腺(2.7%、n=37)の患者のほとんどはHRDを予測していなかった。
引用されたおよび代替の実施形態
本明細書に引用される全ての参考文献は、あたかも各個々の刊行物または特許または特許出願が全ての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
本明細書に引用される全ての参考文献は、あたかも各個々の刊行物または特許または特許出願が全ての目的のためにその全体が参照により組み込まれるように、具体的かつ個別に示されるのと同程度に、それらの全体が全ての目的のために本明細書に参照により組み込まれる。
本発明は、非一時的コンピュータ可読記憶媒体に埋め込まれたコンピュータプログラム機構を含むコンピュータプログラム製品として実装することができる。例えば、コンピュータプログラム製品には、図1に任意の組み合わせで示されているプログラムモジュール、および/または本出願の他の場所で説明されているプログラムモジュールを含むことができる。これらのプログラムモジュールは、CD-ROM、DVD、磁気ディスク記憶製品、USBキー、または他の任意の非一時的コンピュータ可読データまたはプログラム記憶製品に記憶することができる。
当業者には明らかとなるように、本開示の多くの修正および変形を、その趣旨および範囲から逸脱することなく行うことができる。本明細書に記載の特定の実施形態は、例としてのみ提供されている。実施形態は、本発明の原理およびその実際の使用を最良に説明するために選択および説明され、それによって当業者が本発明および考えられる特定の用途に適した様々な変更を伴う様々な実施形態を最良に利用することができるようにする。本開示は、そのような特許請求の範囲が権利を有する等価物の全範囲と共に、添付の特許請求の範囲の用語によってのみ限定されるべきである。
Claims (50)
- 試験対象におけるがんの相同組換え経路状態を判定する方法であって、
1つ以上のプロセッサと、前記1つ以上のプロセッサによって実行するための1つ以上のプログラムを記憶するメモリと、を有するコンピュータシステムにおいて、
(A)前記試験対象からの第1のDNAサンプルの第1の複数の配列読み取りを電子形式で取得することであって、前記第1のDNAサンプルが、前記対象のがん性組織からのDNA分子を含む、取得することと、
(B)前記試験対象からの第2のDNAサンプルの第2の複数の配列読み取りを電子で取得することであって、前記第2のDNAサンプルが、前記対象の非がん性組織からのDNA分子からなる、取得することと、
(C)前記第1の複数の配列読み取りおよび前記第2の複数の配列読み取りに基づいて、前記対象のゲノムデータ構築物を生成することであって、前記ゲノムデータ構築物が、前記対象の前記がん性組織および前記非がん性組織のゲノムの1つ以上の特徴を含み、前記複数の特徴が、(i)前記対象の前記がん性組織の前記ゲノムにおける第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)前記対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、(iii)前記対象の前記がん性組織の前記ゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)前記対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、を含む、生成することと、
(D)相同組換え経路欠損のあるがんと相同組換え経路欠損のないがんとを区別するように訓練された分類器に前記ゲノムデータ構築物を入力し、それによって前記試験対象の前記相同組換え経路状態を判定することと、を含む、方法。 - 前記第1のDNAサンプルが、前記対象の前記がん性組織の固形腫瘍生検からのものである、請求項1に記載の方法。
- 前記第2のDNAサンプルが、前記対象からの血液サンプルのバフィーコート調製物からのものである、請求項1または2に記載の方法。
- 前記第1の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記がん性組織からの核酸を濃縮するために複数の核酸プローブを使用した標的化配列決定によって生成された、請求項1~3のいずれか一項に記載の方法。
- 前記第1の複数の配列読み取りが、前記対象の前記がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項1~3のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、ゲノム領域のパネルについて前記対象の前記非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された、請求項1~5のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、前記対象の前記非がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項1~5のいずれか一項に記載の方法。
- 前記対象の前記がん性組織の前記ゲノム全体の前記ヘテロ接合性の喪失の前記尺度が、
前記第1の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定すること、および
前記第1の複数の配列読み取りに対する腫瘍純度の推定により、前記判定されたヘテロ接合性の喪失を正規化することによって、判定される、請求項1~7のいずれか一項に記載の方法。 - 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む、請求項1~8のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む、請求項1~9のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項1~10のいずれか一項に記載の方法。
- 前記対象の前記がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第1の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項1~11のいずれか一項に記載の方法。
- 前記対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記第2の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項1~12のいずれか一項に記載の方法。
- 前記第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項1~13のいずれか一項に記載の方法。
- BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異のうちの少なくとも50を含む、請求項14に記載の方法。
- BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異を含む、請求項14に記載の方法。
- 前記方法が、
前記試験対象の前記がんが相同組換え欠損であると判定されたときに、ポリADPリボースポリメラーゼ(PARP)阻害剤を前記試験対象に投与することにより前記がんを治療することと、
前記試験対象の前記がんが相同組換え欠損ではないと判定されたときに、PARP阻害剤を前記試験対象に投与することを含まない治療法で前記がんを治療することと、をさらに含む、請求項1~16のいずれか一項に記載の方法。 - 前記PARP阻害剤が、オラパリブ、ベリパリブ、ルカパリブ、ニラパリブ、およびタラゾパリブからなる群から選択される、請求項17に記載の方法。
- 前記がんが乳がんである、請求項1~18のいずれか一項に記載の方法。
- 前記がんが卵巣がんである、請求項1~18のいずれか一項に記載の方法。
- 前記がんが結腸直腸がんである、請求項1~18のいずれか一項に記載の方法。
- 前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項1~21のいずれか一項に記載の方法。
- 前記分類器がランダムフォレストアルゴリズムである、請求項1~21のいずれか一項に記載の方法。
- 前記第1の複数の配列読み取りが、前記対象の前記がん性組織から生成されたcDNA分子のエクソーム配列決定によって生成された、請求項1~3および8~23のいずれか一項に記載の方法。
- 前記第2の複数の配列読み取りが、前記対象の前記非がん性組織から生成されたcDNA分子のエクソーム配列決定によって生成された、請求項1~3および8~23のいずれか一項に記載の方法。
- コンピュータシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項1~23のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。 - プロセッサによって実行されるときに、プロセッサに請求項1~23のいずれか一項に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。
- がんの相同組換え経路状態を判定するためのアルゴリズムを訓練するための方法であって、
少なくとも1つのプロセッサと、前記少なくとも1つのプロセッサによって実行するための少なくとも1つのプログラムを記憶するメモリと、を含むコンピュータシステムにおいて、
(A)がんを有する複数の訓練対象におけるそれぞれの訓練対象ごとに、前記それぞれの訓練対象の対応するゲノムデータ構築物を取得することであって、前記対応するゲノム訓練構築物が、(a)前記それぞれの訓練対象の前記がんの相同組換え経路状態、および(b)前記それぞれの訓練対象のがん性組織および非がん性組織のゲノムの1つ以上の特徴を含み、前記1つ以上の特徴が、(i)前記それぞれの訓練対象の前記がん性組織の前記ゲノムにおける第1の複数のDNA損傷修復遺伝子のヘテロ接合性状態、(ii)前記それぞれの訓練対象の前記がん性組織の前記ゲノム全体のヘテロ接合性の喪失の尺度、(iii)前記それぞれの訓練対象の前記がん性組織の前記ゲノム中の第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度、および(iv)前記それぞれの訓練対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの尺度を含む、取得することと、
(B)それぞれの訓練対象ごとに、少なくとも(a)前記それぞれの訓練対象の前記がんの前記相同組換え経路状態、および(b)前記それぞれの訓練対象の前記がん性組織からの前記対応するDNAサンプルから判定された前記複数の特徴に対して分類アルゴリズムを訓練することと、を含む、方法。 - 前記それぞれの訓練対象の前記がん性組織の前記ゲノムの前記1つ以上の特徴が、前記それぞれの訓練対象からの固形腫瘍生検からのDNAサンプルの配列読み取りから判定される、請求項28に記載の方法。
- 前記それぞれの訓練対象の前記非がん性組織の前記ゲノムの前記1つ以上の特徴が、前記それぞれの訓練対象からの血液サンプルのバフィーコート調製物からのDNAサンプルの配列読み取りから判定される、請求項28または29に記載の方法。
- 前記それぞれの訓練対象からの前記固形腫瘍生検からの前記DNAサンプルの前記配列読み取りが、ゲノム領域のパネルについて前記対象の前記がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された、請求項29または30に記載の方法。
- 前記それぞれの訓練対象からの前記固形腫瘍生検からの前記DNAサンプルの前記配列読み取りが、前記対象の前記がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項29または30に記載の方法。
- 前記それぞれの訓練対象からの前記血液サンプルの前記バフィーコート調製物からの前記DNAサンプルの前記配列読み取りが、ゲノム領域のパネルについて前記対象の前記非がん性組織からの核酸を濃縮するために複数の核酸プローブを使用する標的化配列決定によって生成された、請求項30~32のいずれか一項に記載の方法。
- 前記それぞれの訓練対象からの前記血液サンプルの前記バフィーコート調製物からの前記DNAサンプルの前記配列読み取りが、前記対象の前記非がん性組織からの核酸の全ゲノム配列決定によって生成された、請求項30~32のいずれか一項に記載の方法。
- 前記それぞれの訓練対象の前記がん性組織の前記ゲノム全体の前記ヘテロ接合性の喪失の前記尺度が、
前記それぞれの訓練対象のがん性組織からの第1の複数の配列読み取りにおけるゲノムヘテロ接合性の喪失を判定すること、および
前記第1の複数の配列読み取りに対する腫瘍純度の推定により、前記判定されたヘテロ接合性の喪失を正規化することによって、判定される、請求項28~34のいずれか一項に記載の方法。 - 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有のフレームシフト変異の数のカウントを含む、請求項28~35のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子の前記ヘテロ接合性状態が、前記第1の複数のDNA損傷修復遺伝子において検出された固有の短縮型変異の数のカウントを含む、請求項28~36のいずれか一項に記載の方法。
- 前記第1の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項28~37のいずれか一項に記載の方法。
- 前記対象の前記がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記それぞれの訓練対象のがん性組織からの第1の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項28~38のいずれか一項に記載の方法。
- 前記対象の前記非がん性組織の前記ゲノム中の前記第2の複数のDNA損傷修復遺伝子において検出された変異型アレルの前記尺度が、前記対象の非がん性組織からの第2の複数の配列読み取りにおいて検出された相同組換えの喪失に関連する固有の変異の数のカウントを含む、請求項28~39のいずれか一項に記載の方法。
- 前記第2の複数のDNA損傷修復遺伝子が、BRCA1およびBRCA2を含む、請求項28~40のいずれか一項に記載の方法。
- BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異のうちの少なくとも50を含む、請求項41に記載の方法。
- BRCA1およびBRCA2における相同組換えの喪失に関連する前記固有の変異が、表1に列挙された変異を含む、請求項41に記載の方法。
- 前記がんが乳がんである、請求項28~43のいずれか一項に記載の方法。
- 前記がんが卵巣がんである、請求項28~43のいずれか一項に記載の方法。
- 前記がんが結腸直腸がんである、請求項28~43のいずれか一項に記載の方法。
- 前記分類器が、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、Naive Bayesアルゴリズム、最近傍アルゴリズム、ブーストツリーアルゴリズム、ランダムフォレストアルゴリズム、畳み込みニューラルネットワークアルゴリズム、決定ツリーアルゴリズム、回帰アルゴリズム、またはクラスタリングアルゴリズムである、請求項28~46のいずれか一項に記載の方法。
- 前記分類器がランダムフォレストアルゴリズムである、請求項28~46のいずれか一項に記載の方法。
- コンピュータシステムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサによって実行されるときに、前記プロセッサに請求項28~48のいずれか一項に記載の方法を実行させる、コンピュータ実行可能命令を含む非一時的なコンピュータ可読媒体と、を含む、コンピュータシステム。 - プロセッサによって実行されるときに、プロセッサに請求項28~48のいずれか一項に記載の方法を実行させるプログラムコード命令を記憶した非一時的なコンピュータ可読記憶媒体。
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962804730P | 2019-02-12 | 2019-02-12 | |
US62/804,730 | 2019-02-12 | ||
US201962946347P | 2019-12-10 | 2019-12-10 | |
US62/946,347 | 2019-12-10 | ||
JP2021547568A JP7368483B2 (ja) | 2019-02-12 | 2020-02-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
PCT/US2020/018002 WO2020168008A1 (en) | 2019-02-12 | 2020-02-12 | An integrated machine-learning framework to estimate homologous recombination deficiency |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547568A Division JP7368483B2 (ja) | 2019-02-12 | 2020-02-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024016039A true JP2024016039A (ja) | 2024-02-06 |
Family
ID=71945081
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547568A Active JP7368483B2 (ja) | 2019-02-12 | 2020-02-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
JP2023176962A Pending JP2024016039A (ja) | 2019-02-12 | 2023-10-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021547568A Active JP7368483B2 (ja) | 2019-02-12 | 2020-02-12 | 相同組換え欠損を推定するための統合された機械学習フレームワーク |
Country Status (6)
Country | Link |
---|---|
US (2) | US10975445B2 (ja) |
EP (1) | EP3924502A4 (ja) |
JP (2) | JP7368483B2 (ja) |
AU (1) | AU2020221845A1 (ja) |
CA (1) | CA3129831A1 (ja) |
WO (1) | WO2020168008A1 (ja) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11544574B1 (en) * | 2019-07-25 | 2023-01-03 | Cadence Design Systems, Inc. | System, method, and computer program product for analog structure prediction associated with an electronic design |
US20240079108A1 (en) * | 2019-10-09 | 2024-03-07 | Immunitybio, Inc. | Detecting Homologous Recombination Deficiencies (HRD) in Clinical Samples |
US20220392640A1 (en) * | 2019-10-22 | 2022-12-08 | Tempus Labs, Inc. | Systems and methods for predicting therapeutic sensitivity |
CA3174332A1 (en) | 2020-04-21 | 2021-10-28 | Jason PERERA | Tcr/bcr profiling |
WO2022147468A1 (en) | 2020-12-31 | 2022-07-07 | Tempus Labs, Inc. | Systems and methods for detecting multi-molecule biomarkers |
CA3204451A1 (en) | 2021-01-07 | 2022-07-14 | Francisco M. De La Vega | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics |
WO2022159774A2 (en) | 2021-01-21 | 2022-07-28 | Tempus Labs, Inc. | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING |
CN112820351A (zh) * | 2021-03-01 | 2021-05-18 | 江苏医联生物科技有限公司 | 检测肿瘤患者的突变和hrd评分指导用药的方法 |
WO2022226186A1 (en) * | 2021-04-22 | 2022-10-27 | Personalis Inc. | Detecting loss of heterozygosity in hla alleles using machine-learning models |
WO2022271547A1 (en) | 2021-06-21 | 2022-12-29 | Tesaro, Inc. | Combination treatment of cancer with a parp inhibitor and a lipophilic statin |
AU2022299105A1 (en) * | 2021-06-25 | 2024-01-04 | Foundation Medicine, Inc. | System and method of classifying homologous repair deficiency |
US20230144221A1 (en) | 2021-10-11 | 2023-05-11 | Tempus Labs, Inc. | Methods and systems for detecting alternative splicing in sequencing data |
US20230162815A1 (en) | 2021-11-19 | 2023-05-25 | Tempus Labs, Inc. | Methods and systems for accurate genotyping of repeat polymorphisms |
CN114067908B (zh) * | 2021-11-23 | 2022-09-13 | 深圳吉因加医学检验实验室 | 一种评估单样本同源重组缺陷的方法、装置和存储介质 |
EP4239647A1 (en) | 2022-03-03 | 2023-09-06 | Tempus Labs, Inc. | Systems and methods for deep orthogonal fusion for multimodal prognostic biomarker discovery |
CN114694752B (zh) * | 2022-03-09 | 2023-03-10 | 至本医疗科技(上海)有限公司 | 预测同源重组修复缺陷的方法、计算设备和介质 |
CN114708916B (zh) * | 2022-03-15 | 2023-11-10 | 至本医疗科技(上海)有限公司 | 微卫星稳定性的检测方法、检测装置、计算机设备及存储介质 |
EP4297037A1 (en) * | 2022-06-24 | 2023-12-27 | Seqone | Device for determining an indicator of presence of hrd in a genome of a subject |
CN116030261A (zh) * | 2023-03-29 | 2023-04-28 | 浙江省肿瘤医院 | Mri影像多组学评估乳腺癌同源重组修复缺陷的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011057125A2 (en) | 2009-11-05 | 2011-05-12 | Myriad Genetics, Inc. | Compositions and methods for determining cancer susceptibility |
ES2777228T3 (es) | 2013-04-05 | 2020-08-04 | Myriad Genetics Inc | Métodos para evaluar la deficiencia de recombinación homóloga y predecir la respuesta al tratamiento del cáncer |
US11203783B2 (en) * | 2013-11-21 | 2021-12-21 | Repertoire Genesis Incorporation | T cell receptor and B cell receptor repertoire analysis system, and use of same in treatment and diagnosis |
ES2800673T3 (es) * | 2014-08-15 | 2021-01-04 | Myriad Genetics Inc | Métodos y materiales para evaluar una deficiencia de recombinación homóloga |
WO2017165270A1 (en) | 2016-03-21 | 2017-09-28 | Myriad Genetics, Inc. | Homologous recombination deficiency to predict neoadjuvant chemotherapy necessity in bladder cancer |
-
2020
- 2020-02-12 AU AU2020221845A patent/AU2020221845A1/en active Pending
- 2020-02-12 US US16/789,363 patent/US10975445B2/en active Active
- 2020-02-12 EP EP20756491.5A patent/EP3924502A4/en active Pending
- 2020-02-12 JP JP2021547568A patent/JP7368483B2/ja active Active
- 2020-02-12 WO PCT/US2020/018002 patent/WO2020168008A1/en unknown
- 2020-02-12 CA CA3129831A patent/CA3129831A1/en active Pending
-
2021
- 2021-01-15 US US17/150,615 patent/US20210246511A1/en active Pending
-
2023
- 2023-10-12 JP JP2023176962A patent/JP2024016039A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
JP7368483B2 (ja) | 2023-10-24 |
AU2020221845A1 (en) | 2021-09-02 |
EP3924502A1 (en) | 2021-12-22 |
US20210246511A1 (en) | 2021-08-12 |
US20200255909A1 (en) | 2020-08-13 |
JP2022521492A (ja) | 2022-04-08 |
US10975445B2 (en) | 2021-04-13 |
WO2020168008A1 (en) | 2020-08-20 |
CA3129831A1 (en) | 2020-08-20 |
EP3924502A4 (en) | 2023-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
US11164655B2 (en) | Systems and methods for predicting homologous recombination deficiency status of a specimen | |
JP7487163B2 (ja) | がんの進化の検出および診断 | |
US11043304B2 (en) | Systems and methods for using sequencing data for pathogen detection | |
US20210098078A1 (en) | Methods and systems for detecting microsatellite instability of a cancer in a liquid biopsy assay | |
CN107406876B (zh) | 表现出病变细胞异质性的疾病的检测和治疗以及用于传送测试结果的***和方法 | |
JP2022532897A (ja) | マルチラベルがん分類のためのシステムおよび方法 | |
JP2022544604A (ja) | がん検体において細胞経路調節不全を検出するためのシステム及び方法 | |
US20220215900A1 (en) | Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics | |
JP2023507252A (ja) | パッチ畳み込みニューラルネットワークを用いる癌分類 | |
US20210398617A1 (en) | Molecular response and progression detection from circulating cell free dna | |
US20230154563A1 (en) | Detection of Human Leukocyte Antigen Loss of Heterozygosity | |
US20220101135A1 (en) | Systems and methods for using a convolutional neural network to detect contamination | |
US20240076744A1 (en) | METHODS AND SYSTEMS FOR mRNA BOUNDARY ANALYSIS IN NEXT GENERATION SEQUENCING |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231113 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231113 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231122 |