JP2017537646A - シーケンシングコントロール - Google Patents
シーケンシングコントロール Download PDFInfo
- Publication number
- JP2017537646A JP2017537646A JP2017532128A JP2017532128A JP2017537646A JP 2017537646 A JP2017537646 A JP 2017537646A JP 2017532128 A JP2017532128 A JP 2017532128A JP 2017532128 A JP2017532128 A JP 2017532128A JP 2017537646 A JP2017537646 A JP 2017537646A
- Authority
- JP
- Japan
- Prior art keywords
- artificial
- dna
- sequence
- rna
- standards
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 147
- 238000000034 method Methods 0.000 claims abstract description 232
- 108020004414 DNA Proteins 0.000 claims description 771
- 210000004507 artificial chromosome Anatomy 0.000 claims description 371
- 102000040430 polynucleotide Human genes 0.000 claims description 249
- 108091033319 polynucleotide Proteins 0.000 claims description 249
- 239000002157 polynucleotide Substances 0.000 claims description 249
- 239000002773 nucleotide Substances 0.000 claims description 213
- 125000003729 nucleotide group Chemical group 0.000 claims description 211
- 239000012634 fragment Substances 0.000 claims description 94
- 230000035772 mutation Effects 0.000 claims description 94
- 230000007614 genetic variation Effects 0.000 claims description 64
- 238000003780 insertion Methods 0.000 claims description 47
- 230000037431 insertion Effects 0.000 claims description 47
- 230000003252 repetitive effect Effects 0.000 claims description 46
- 239000013598 vector Substances 0.000 claims description 44
- 210000000349 chromosome Anatomy 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 36
- 238000011002 quantification Methods 0.000 claims description 33
- 238000012217 deletion Methods 0.000 claims description 32
- 230000037430 deletion Effects 0.000 claims description 32
- 230000005945 translocation Effects 0.000 claims description 20
- 238000013518 transcription Methods 0.000 claims description 15
- 230000035897 transcription Effects 0.000 claims description 15
- 230000029087 digestion Effects 0.000 claims description 11
- 108091029523 CpG island Proteins 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 8
- 102000054765 polymorphisms of proteins Human genes 0.000 claims description 7
- 230000010076 replication Effects 0.000 claims description 7
- 108010042407 Endonucleases Proteins 0.000 claims description 6
- 102000004533 Endonucleases Human genes 0.000 claims description 6
- 108091092878 Microsatellite Proteins 0.000 claims description 4
- 108091008915 immune receptors Proteins 0.000 claims description 4
- 102000027596 immune receptors Human genes 0.000 claims description 4
- 230000001915 proofreading effect Effects 0.000 claims 1
- 230000002068 genetic effect Effects 0.000 abstract description 20
- 238000007481 next generation sequencing Methods 0.000 abstract description 15
- 238000012165 high-throughput sequencing Methods 0.000 abstract description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 311
- 239000000203 mixture Substances 0.000 description 202
- 239000000523 sample Substances 0.000 description 166
- 108090000623 proteins and genes Proteins 0.000 description 159
- 230000000813 microbial effect Effects 0.000 description 90
- 108700028369 Alleles Proteins 0.000 description 81
- 108010029485 Protein Isoforms Proteins 0.000 description 75
- 102000001708 Protein Isoforms Human genes 0.000 description 73
- 230000004927 fusion Effects 0.000 description 72
- 108091028043 Nucleic acid sequence Proteins 0.000 description 67
- 238000004458 analytical method Methods 0.000 description 62
- 230000035945 sensitivity Effects 0.000 description 61
- 239000013614 RNA sample Substances 0.000 description 58
- 239000013615 primer Substances 0.000 description 56
- 210000004027 cell Anatomy 0.000 description 47
- 230000008859 change Effects 0.000 description 43
- 230000014509 gene expression Effects 0.000 description 42
- 108700005078 Synthetic Genes Proteins 0.000 description 35
- 238000001514 detection method Methods 0.000 description 33
- 238000005259 measurement Methods 0.000 description 32
- 239000002689 soil Substances 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 29
- 230000003321 amplification Effects 0.000 description 26
- 238000003199 nucleic acid amplification method Methods 0.000 description 26
- 238000009826 distribution Methods 0.000 description 25
- 108091093088 Amplicon Proteins 0.000 description 24
- 108700024394 Exon Proteins 0.000 description 24
- 238000012408 PCR amplification Methods 0.000 description 24
- 108020004465 16S ribosomal RNA Proteins 0.000 description 22
- 241000699666 Mus <mouse, genus> Species 0.000 description 22
- 208000010507 Adenocarcinoma of Lung Diseases 0.000 description 21
- 108091092195 Intron Proteins 0.000 description 21
- 201000005249 lung adenocarcinoma Diseases 0.000 description 21
- 238000010790 dilution Methods 0.000 description 19
- 239000012895 dilution Substances 0.000 description 19
- 238000002474 experimental method Methods 0.000 description 19
- 239000013612 plasmid Substances 0.000 description 19
- 239000002096 quantum dot Substances 0.000 description 19
- 102200055464 rs113488022 Human genes 0.000 description 19
- 238000010606 normalization Methods 0.000 description 18
- 238000002360 preparation method Methods 0.000 description 18
- 238000003559 RNA-seq method Methods 0.000 description 16
- 238000006467 substitution reaction Methods 0.000 description 16
- 102000053602 DNA Human genes 0.000 description 15
- 206010028980 Neoplasm Diseases 0.000 description 15
- 210000004072 lung Anatomy 0.000 description 15
- 238000011160 research Methods 0.000 description 15
- 108091003079 Bovine Serum Albumin Proteins 0.000 description 14
- 208000020584 Polyploidy Diseases 0.000 description 14
- 230000000295 complement effect Effects 0.000 description 14
- 201000010099 disease Diseases 0.000 description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 14
- 239000012091 fetal bovine serum Substances 0.000 description 14
- 230000001605 fetal effect Effects 0.000 description 13
- 150000007523 nucleic acids Chemical group 0.000 description 13
- 230000002759 chromosomal effect Effects 0.000 description 12
- 230000007613 environmental effect Effects 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 12
- 238000013207 serial dilution Methods 0.000 description 12
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 11
- 238000009825 accumulation Methods 0.000 description 11
- 102000039446 nucleic acids Human genes 0.000 description 11
- 108020004707 nucleic acids Proteins 0.000 description 11
- 238000011144 upstream manufacturing Methods 0.000 description 11
- 210000002230 centromere Anatomy 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 9
- 239000002609 medium Substances 0.000 description 9
- 108091035539 telomere Proteins 0.000 description 9
- 102000055501 telomere Human genes 0.000 description 9
- 210000003411 telomere Anatomy 0.000 description 9
- 102100025064 Cellular tumor antigen p53 Human genes 0.000 description 8
- 241000588724 Escherichia coli Species 0.000 description 8
- 108060003951 Immunoglobulin Proteins 0.000 description 8
- 238000003556 assay Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 102000018358 immunoglobulin Human genes 0.000 description 8
- 239000003550 marker Substances 0.000 description 8
- 230000008774 maternal effect Effects 0.000 description 8
- 230000006798 recombination Effects 0.000 description 8
- 238000005215 recombination Methods 0.000 description 8
- 230000000717 retained effect Effects 0.000 description 8
- 230000000392 somatic effect Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 108700020796 Oncogene Proteins 0.000 description 7
- 239000012980 RPMI-1640 medium Substances 0.000 description 7
- 108010078814 Tumor Suppressor Protein p53 Proteins 0.000 description 7
- 238000013459 approach Methods 0.000 description 7
- 201000011510 cancer Diseases 0.000 description 7
- 108020004999 messenger RNA Proteins 0.000 description 7
- 244000005700 microbiome Species 0.000 description 7
- 108091008146 restriction endonucleases Proteins 0.000 description 7
- 230000009897 systematic effect Effects 0.000 description 7
- GUAHPAJOXVYFON-ZETCQYMHSA-N (8S)-8-amino-7-oxononanoic acid zwitterion Chemical compound C[C@H](N)C(=O)CCCCCC(O)=O GUAHPAJOXVYFON-ZETCQYMHSA-N 0.000 description 6
- 230000031018 biological processes and functions Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 6
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000012010 growth Effects 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 6
- 238000000126 in silico method Methods 0.000 description 6
- 210000004185 liver Anatomy 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000001712 DNA sequencing Methods 0.000 description 5
- 108020002230 Pancreatic Ribonuclease Proteins 0.000 description 5
- 102000005891 Pancreatic ribonuclease Human genes 0.000 description 5
- 208000009052 Precursor T-Cell Lymphoblastic Leukemia-Lymphoma Diseases 0.000 description 5
- 208000017414 Precursor T-cell acute lymphoblastic leukemia Diseases 0.000 description 5
- 208000029052 T-cell acute lymphoblastic leukemia Diseases 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 210000005260 human cell Anatomy 0.000 description 5
- 238000000338 in vitro Methods 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 210000003819 peripheral blood mononuclear cell Anatomy 0.000 description 5
- 238000011176 pooling Methods 0.000 description 5
- 235000018102 proteins Nutrition 0.000 description 5
- 102000004169 proteins and genes Human genes 0.000 description 5
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 4
- 102000016911 Deoxyribonucleases Human genes 0.000 description 4
- 108010053770 Deoxyribonucleases Proteins 0.000 description 4
- 241000699670 Mus sp. Species 0.000 description 4
- 102000043276 Oncogene Human genes 0.000 description 4
- 230000006819 RNA synthesis Effects 0.000 description 4
- 208000007660 Residual Neoplasm Diseases 0.000 description 4
- 208000037280 Trisomy Diseases 0.000 description 4
- 238000007792 addition Methods 0.000 description 4
- 208000036878 aneuploidy Diseases 0.000 description 4
- 231100001075 aneuploidy Toxicity 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 4
- 210000000265 leukocyte Anatomy 0.000 description 4
- 230000000670 limiting effect Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 101150008391 A1 gene Proteins 0.000 description 3
- 101150042514 B1 gene Proteins 0.000 description 3
- 238000007702 DNA assembly Methods 0.000 description 3
- 230000006820 DNA synthesis Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 3
- 241000282412 Homo Species 0.000 description 3
- 101000984753 Homo sapiens Serine/threonine-protein kinase B-raf Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 3
- 101150025323 SCLT1 gene Proteins 0.000 description 3
- 102100027103 Serine/threonine-protein kinase B-raf Human genes 0.000 description 3
- 108091008874 T cell receptors Proteins 0.000 description 3
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 3
- 210000001744 T-lymphocyte Anatomy 0.000 description 3
- 108010056708 bcr-abl Fusion Proteins Proteins 0.000 description 3
- 238000003339 best practice Methods 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 3
- 108091092328 cellular RNA Proteins 0.000 description 3
- 238000010835 comparative analysis Methods 0.000 description 3
- 238000011109 contamination Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 230000002550 fecal effect Effects 0.000 description 3
- 210000004602 germ cell Anatomy 0.000 description 3
- 238000007403 mPCR Methods 0.000 description 3
- 239000013600 plasmid vector Substances 0.000 description 3
- 238000004445 quantitative analysis Methods 0.000 description 3
- -1 rRNA Proteins 0.000 description 3
- 108020003175 receptors Proteins 0.000 description 3
- 102000005962 receptors Human genes 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 102000053632 repetitive DNA sequence Human genes 0.000 description 3
- 108091035233 repetitive DNA sequence Proteins 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 210000001082 somatic cell Anatomy 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 230000005026 transcription initiation Effects 0.000 description 3
- 230000005030 transcription termination Effects 0.000 description 3
- WEVYNIUIFUYDGI-UHFFFAOYSA-N 3-[6-[4-(trifluoromethoxy)anilino]-4-pyrimidinyl]benzamide Chemical compound NC(=O)C1=CC=CC(C=2N=CN=C(NC=3C=CC(OC(F)(F)F)=CC=3)C=2)=C1 WEVYNIUIFUYDGI-UHFFFAOYSA-N 0.000 description 2
- 241000894006 Bacteria Species 0.000 description 2
- 102100026008 Breakpoint cluster region protein Human genes 0.000 description 2
- 238000013382 DNA quantification Methods 0.000 description 2
- 238000000729 Fisher's exact test Methods 0.000 description 2
- 101150028927 Hoxa1 gene Proteins 0.000 description 2
- 108020005198 Long Noncoding RNA Proteins 0.000 description 2
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 241000699660 Mus musculus Species 0.000 description 2
- 108020005067 RNA Splice Sites Proteins 0.000 description 2
- 240000002044 Rhizophora apiculata Species 0.000 description 2
- 101100348089 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) BUR6 gene Proteins 0.000 description 2
- 108020004688 Small Nuclear RNA Proteins 0.000 description 2
- 102000039471 Small Nuclear RNA Human genes 0.000 description 2
- 108020003224 Small Nucleolar RNA Proteins 0.000 description 2
- 102000042773 Small Nucleolar RNA Human genes 0.000 description 2
- 208000000389 T-cell leukemia Diseases 0.000 description 2
- 208000028530 T-cell lymphoblastic leukemia/lymphoma Diseases 0.000 description 2
- 108020004566 Transfer RNA Proteins 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 2
- 229960000723 ampicillin Drugs 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- WZSDNEJJUSYNSG-UHFFFAOYSA-N azocan-1-yl-(3,4,5-trimethoxyphenyl)methanone Chemical compound COC1=C(OC)C(OC)=CC(C(=O)N2CCCCCCC2)=C1 WZSDNEJJUSYNSG-UHFFFAOYSA-N 0.000 description 2
- 230000001580 bacterial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000024245 cell differentiation Effects 0.000 description 2
- 238000003776 cleavage reaction Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- CTMZLDSMFCVUNX-VMIOUTBZSA-N cytidylyl-(3'->5')-guanosine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@H](OP(O)(=O)OC[C@@H]2[C@H]([C@@H](O)[C@@H](O2)N2C3=C(C(N=C(N)N3)=O)N=C2)O)[C@@H](CO)O1 CTMZLDSMFCVUNX-VMIOUTBZSA-N 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 102000052116 epidermal growth factor receptor activity proteins Human genes 0.000 description 2
- 108700015053 epidermal growth factor receptor activity proteins Proteins 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010348 incorporation Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 210000005228 liver tissue Anatomy 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- YOHYSYJDKVYCJI-UHFFFAOYSA-N n-[3-[[6-[3-(trifluoromethyl)anilino]pyrimidin-4-yl]amino]phenyl]cyclopropanecarboxamide Chemical compound FC(F)(F)C1=CC=CC(NC=2N=CN=C(NC=3C=C(NC(=O)C4CC4)C=CC=3)C=2)=C1 YOHYSYJDKVYCJI-UHFFFAOYSA-N 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- JTJMJGYZQZDUJJ-UHFFFAOYSA-N phencyclidine Chemical compound C1CCCCN1C1(C=2C=CC=CC=2)CCCCC1 JTJMJGYZQZDUJJ-UHFFFAOYSA-N 0.000 description 2
- 229920001184 polypeptide Polymers 0.000 description 2
- 102000004196 processed proteins & peptides Human genes 0.000 description 2
- 108090000765 processed proteins & peptides Proteins 0.000 description 2
- 238000000746 purification Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 230000007017 scission Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical group CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- 230000002103 transcriptional effect Effects 0.000 description 2
- 210000004881 tumor cell Anatomy 0.000 description 2
- BSDCIRGNJKZPFV-GWOFURMSSA-N (2r,3s,4r,5r)-2-(hydroxymethyl)-5-(2,5,6-trichlorobenzimidazol-1-yl)oxolane-3,4-diol Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=CC(Cl)=C(Cl)C=C2N=C1Cl BSDCIRGNJKZPFV-GWOFURMSSA-N 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 241000337031 Anaeromyxobacter Species 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 101001042041 Bos taurus Isocitrate dehydrogenase [NAD] subunit beta, mitochondrial Proteins 0.000 description 1
- 102100028914 Catenin beta-1 Human genes 0.000 description 1
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 108091029430 CpG site Proteins 0.000 description 1
- 102100024812 DNA (cytosine-5)-methyltransferase 3A Human genes 0.000 description 1
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 230000009946 DNA mutation Effects 0.000 description 1
- 239000003155 DNA primer Substances 0.000 description 1
- 241000252212 Danio rerio Species 0.000 description 1
- 241001533413 Deltavirus Species 0.000 description 1
- 101150029707 ERBB2 gene Proteins 0.000 description 1
- 108010067770 Endopeptidase K Proteins 0.000 description 1
- 241000194033 Enterococcus Species 0.000 description 1
- 241000206602 Eukaryota Species 0.000 description 1
- 102100027842 Fibroblast growth factor receptor 3 Human genes 0.000 description 1
- 101710182396 Fibroblast growth factor receptor 3 Proteins 0.000 description 1
- 108010010285 Forkhead Box Protein L2 Proteins 0.000 description 1
- 102100035137 Forkhead box protein L2 Human genes 0.000 description 1
- 108091092584 GDNA Proteins 0.000 description 1
- 102100039788 GTPase NRas Human genes 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 1
- 108010033040 Histones Proteins 0.000 description 1
- 102100030309 Homeobox protein Hox-A1 Human genes 0.000 description 1
- 101000916173 Homo sapiens Catenin beta-1 Proteins 0.000 description 1
- 101000721661 Homo sapiens Cellular tumor antigen p53 Proteins 0.000 description 1
- 101000744505 Homo sapiens GTPase NRas Proteins 0.000 description 1
- 101001083156 Homo sapiens Homeobox protein Hox-A1 Proteins 0.000 description 1
- 101000599056 Homo sapiens Interleukin-6 receptor subunit beta Proteins 0.000 description 1
- 101001043809 Homo sapiens Interleukin-7 receptor subunit alpha Proteins 0.000 description 1
- 101000960234 Homo sapiens Isocitrate dehydrogenase [NADP] cytoplasmic Proteins 0.000 description 1
- 101000634835 Homo sapiens M1-specific T cell receptor alpha chain Proteins 0.000 description 1
- 101000763322 Homo sapiens M1-specific T cell receptor beta chain Proteins 0.000 description 1
- 101000605639 Homo sapiens Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Proteins 0.000 description 1
- 101001012157 Homo sapiens Receptor tyrosine-protein kinase erbB-2 Proteins 0.000 description 1
- 101000634836 Homo sapiens T cell receptor alpha chain MC.7.G5 Proteins 0.000 description 1
- 101000763321 Homo sapiens T cell receptor beta chain MC.7.G5 Proteins 0.000 description 1
- 101000823316 Homo sapiens Tyrosine-protein kinase ABL1 Proteins 0.000 description 1
- 102100037795 Interleukin-6 receptor subunit beta Human genes 0.000 description 1
- 102100021593 Interleukin-7 receptor subunit alpha Human genes 0.000 description 1
- 241000018427 Iphisa elegans Species 0.000 description 1
- 102100039905 Isocitrate dehydrogenase [NADP] cytoplasmic Human genes 0.000 description 1
- 101150009057 JAK2 gene Proteins 0.000 description 1
- KZSNJWFQEVHDMF-BYPYZUCNSA-N L-valine Chemical compound CC(C)[C@H](N)C(O)=O KZSNJWFQEVHDMF-BYPYZUCNSA-N 0.000 description 1
- 101150053046 MYD88 gene Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241000064099 Massilioclostridium coli Species 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 241001599018 Melanogaster Species 0.000 description 1
- 108700011259 MicroRNAs Proteins 0.000 description 1
- 244000294411 Mirabilis expansa Species 0.000 description 1
- 235000015429 Mirabilis expansa Nutrition 0.000 description 1
- 102100024134 Myeloid differentiation primary response protein MyD88 Human genes 0.000 description 1
- 241000221961 Neurospora crassa Species 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 102100038332 Phosphatidylinositol 4,5-bisphosphate 3-kinase catalytic subunit alpha isoform Human genes 0.000 description 1
- 108091007412 Piwi-interacting RNA Proteins 0.000 description 1
- 239000004743 Polypropylene Substances 0.000 description 1
- 241000477783 Pristimantis melanogaster Species 0.000 description 1
- 108010024221 Proto-Oncogene Proteins c-bcr Proteins 0.000 description 1
- 108020003584 RNA Isoforms Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 102100030086 Receptor tyrosine-protein kinase erbB-2 Human genes 0.000 description 1
- 108020004487 Satellite DNA Proteins 0.000 description 1
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 1
- 102100029454 T cell receptor alpha chain MC.7.G5 Human genes 0.000 description 1
- 102100026967 T cell receptor beta chain MC.7.G5 Human genes 0.000 description 1
- 108700042077 T-Cell Receptor beta Genes Proteins 0.000 description 1
- 101150080074 TP53 gene Proteins 0.000 description 1
- 108700009124 Transcription Initiation Site Proteins 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 241000251539 Vertebrata <Metazoa> Species 0.000 description 1
- 240000008042 Zea mays Species 0.000 description 1
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 1
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 208000009956 adenocarcinoma Diseases 0.000 description 1
- 235000001014 amino acid Nutrition 0.000 description 1
- 150000001413 amino acids Chemical group 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000004663 cell proliferation Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 210000001520 comb Anatomy 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 235000005822 corn Nutrition 0.000 description 1
- 230000002939 deleterious effect Effects 0.000 description 1
- 230000009274 differential gene expression Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 101150007818 dj gene Proteins 0.000 description 1
- 239000003623 enhancer Substances 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 230000004049 epigenetic modification Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000013613 expression plasmid Substances 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 238000011223 gene expression profiling Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000003205 genotyping method Methods 0.000 description 1
- 235000013922 glutamic acid Nutrition 0.000 description 1
- 239000004220 glutamic acid Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 208000006454 hepatitis Diseases 0.000 description 1
- 231100000283 hepatitis Toxicity 0.000 description 1
- 229920001519 homopolymer Polymers 0.000 description 1
- 102000048392 human ABL1 Human genes 0.000 description 1
- 210000003917 human chromosome Anatomy 0.000 description 1
- 230000000579 hyperploidy effect Effects 0.000 description 1
- 210000002865 immune cell Anatomy 0.000 description 1
- 238000001727 in vivo Methods 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 108091005434 innate immune receptors Proteins 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 201000005202 lung cancer Diseases 0.000 description 1
- 201000005296 lung carcinoma Diseases 0.000 description 1
- 208000020816 lung neoplasm Diseases 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 239000002679 microRNA Substances 0.000 description 1
- 238000002493 microarray Methods 0.000 description 1
- 238000012775 microarray technology Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 235000013536 miso Nutrition 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 108700025694 p53 Genes Proteins 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 229920001155 polypropylene Polymers 0.000 description 1
- 239000013641 positive control Substances 0.000 description 1
- 230000035935 pregnancy Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 238000003753 real-time PCR Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000003362 replicative effect Effects 0.000 description 1
- 210000003705 ribosome Anatomy 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 229920002477 rna polymer Polymers 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 239000004055 small Interfering RNA Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000004448 titration Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- 230000003612 virological effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07H—SUGARS; DERIVATIVES THEREOF; NUCLEOSIDES; NUCLEOTIDES; NUCLEIC ACIDS
- C07H21/00—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids
- C07H21/04—Compounds containing two or more mononucleotide units having separate phosphate or polyphosphate groups linked by saccharide radicals of nucleoside groups, e.g. nucleic acids with deoxyribosyl as saccharide radical
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/01—Preparation of mutants without inserting foreign genetic material therein; Screening processes therefor
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2545/00—Reactions characterised by their quantitative nature
- C12Q2545/10—Reactions characterised by their quantitative nature the purpose being quantitative analysis
- C12Q2545/107—Reactions characterised by their quantitative nature the purpose being quantitative analysis with a competitive internal standard/control
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Molecular Biology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- Physics & Mathematics (AREA)
- Immunology (AREA)
- Analytical Chemistry (AREA)
- Plant Pathology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Saccharide Compounds (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
- Apparatus Associated With Microorganisms And Enzymes (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
Abstract
Description
i)決定される標的ポリヌクレオチド配列を含む試料に、1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること;
ii)標的ポリヌクレオチドの配列を決定すること;
iii)1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列の配列を決定すること;及び
iv)オリジナル配列は、本明細書に開示された人工染色体中に存在する、フラグメント及び/または人工ポリヌクレオチド配列のオリジナル配列とiii)で決定された配列を比較すること;
ii)の配列決定を校正するために、iii)の配列決定の精度が用いられる。ポリヌクレオチドシーケンシングプロセスは、例えば、ポリヌクレオチドアライメント、ポリヌクレオチドアセンブリ、または他の公知のシーケンシングプロセスとしてよい。
i)決定される標的ポリヌクレオチド配列を含む試料に、公知の量の1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること;
ii)標的ポリヌクレオチドの量を測定すること;
iii)1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列の量を測定すること;及び
iv)i)の1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の公知の量と、iii)で測定される1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の量を比較すること;
ii)の量決定を校正するために、iii)の量決定の精度が用いられる。
i)決定される標的ポリヌクレオチド配列を含む試料に、公知の量の1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を付加すること;
ii)標的ポリヌクレオチドを増幅すること;
iii)1つ以上の本明細書に開示されたフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を増幅すること;及び
iv)ii)で増幅された標的ポリヌクレオチドの増幅された領域と、iii)で増幅された1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の増幅された領域を比較すること;
ii)の増幅を校正するために、iii)の増幅が用いられる。
初期ポリヌクレオチド配列を示す初期データを生成すること;
初期ポリヌクレオチド配列及び1つ以上の公知の天然ポリヌクレオチド配列間の類似性を示すマッチング値を決定すること;
修飾されたポリヌクレオチド配列を示す変更データを決定するためにマッチング値に基づいて初期データを変更し、この結果、修飾されたポリヌクレオチド配列は、公知の天然ゲノム配列のいずれかと識別可能となること;及び
データストアに変更データを記憶すること。
標的ポリヌクレオチド配列に関する第1のデータを受けること;
本明細書に開示された人工染色体の1つ以上のフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を示す第2のデータを受けること;第2のデータに基づいて、1つ以上のフラグメントの特性に関連する定量値または人工染色体の特性に関係する1つ以上の人工ポリヌクレオチド配列を決定し、当該定量値が、1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の特性を決定する精度を示すこと;及び
定量値に基づいて第1のデータに関連する特性を調節し、標的ポリヌクレオチド配列の校正された特性を決定すること。
標的ポリヌクレオチド配列に関する第1のデータ、本明細書に開示された人工染色体の1つ以上のフラグメント及び/または1つ以上の本明細書に開示された人工ポリヌクレオチド配列を示す第2のデータを受けるデータポート;及び
第2のデータに基づいて、1つ以上のフラグメントの特性に関連する第1の定量値及び/または人工染色体の特性に関係する1つ以上の人工ポリヌクレオチド配列を決定し、当該定量値が、1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の特性を決定する精度を示し、定量値に基づいて第1のデータを調節し、標的ポリヌクレオチド配列の校正された特性を決定するプロセッサー。
一般
本明細書全体にわたって、特に記載しない限り、または、文脈により特に要求されない限り、単一のステップ、物質の組成物、ステップの群または物質の組成物の群への参照では、これらのステップ、物質の組成物、ステップの群または物質の組成物の群の1つ及び複数(すなわち、1つ以上)を包含すると取らなければならない。
本明細書に開示された人工染色体は、物理的ポリヌクレオチド配列として生成してよい、またはコンピュータ中(in silico)に生成し、記憶してよい。本明細書に記載されたアプリケーションの多くでは、人工染色体が、in silicoのままで十分である。しかし、人工染色体の物理的ポリヌクレオチド配列は、スタンダードの、ポリヌクレオチド生成の公知の方法を用いて生成することができる。
本開示は、また、本明細書に開示された人工染色体またはそのフラグメントを生成する(または「作製する」)方法を提供する。さらに、本開示は、本明細書に開示された方法のいずれか1つまたはそれ以上によって生成される(または「作製される」)人工染色体またはそのフラグメントを提供する。本明細書に開示された人工染色体は、本明細書に記載されたとおり、いくつかの好適な方法によって作製してよい。例えば、人工染色体は、延長された隣接ポリヌクレオチド配列を形成するようにヌクレオチドのランダム付加によって、in silicoで他の公知の天然配列と配列同一性をほとんど有しない、または配列同一性を有しない隣接ポリヌクレオチド配列を生成することによって作製してよい。人工染色体配列を生成するのに用いることができる好適なソフトウエアプログラムとしては、ランダムDNA配列を生成するためのソフトウエア、例えば、FaBox(Villesen 2007)またはRANDNA(Piva and Principato 2006);DNA配列をシャッフルするためのソフトウエア、例えば、uShuffle(Jiang,Anderson et al.2008)及びShufflet(Coward 1999)が挙げられる(例えば、これらのものであり、これらに限定されない)。
上記に記載されたとおり、人工染色体(またはそのフラグメント)は、1つ以上の(またはいずれか)天然生物中に存在しない一次ヌクレオチド配列を含有するにもかかわらず、より高いレベルの特徴、例えば、真核生物遺伝子座、CpGアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動または原核生物遺伝子座、DNA反復、及び/またはモバイルエレメントを組み入れることができ、完全長または機能性mRNA、rRNA、tRNA、microRNA、piRNA、lncRNA、snRNA、snoRNA、機能性翻訳リーディングフレーム、ポリペプチドまたはタンパク質をコードしない。人工染色体のこれらの特徴及び他の追加または別の特徴が、本明細書に記載されている。
人工染色体の人工ポリヌクレオチド配列は、1つ以上の人工遺伝子を含むことができる。1つ以上の人工遺伝子は、介在するイントロンと1つ以上のエキソンを含むことができる。イントロン及び/またはエキソンは、任意の好適な長さのものとすることができる。例えば、エキソンは、25ヌクレオチド〜10キロベース(kb)の長さとしてよい。イントロンは、50ヌクレオチド〜2メガベース(Mb)の長さとしてよい。遺伝子全体のサイズは、200ヌクレオチド〜4Mbの範囲としてよい。人工染色体に存在する人工遺伝子の数は、1〜10,000で変えてよい。人工遺伝子それぞれの生成されるアイソフォームの数は、1〜200で変えてよい。1つの人工遺伝子当たりのエキソンの数は、1〜300で変えてよい。1つの人工遺伝子当たりのイントロンの数は、1〜300で変えてよい。
人工染色体の人工ポリヌクレオチド配列は、1つ以上のモバイル反復エレメントを含むことができる。モバイル反復エレメントは、人工染色体全体に点在する複数のコピーとして存在するきわめて類似したDNA配列である。これらの長さ及び存在量は、必要に応じて、変えることができる。例えば、本開示の人工染色体に組み入れることができる人工モバイルエレメントの反復ユニットの長さは、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000以上のヌクレオチドとすることができる。例えば、人工モバイルエレメントの反復ユニットのサイズは、100ヌクレオチド〜10kbで変えることができる。本明細書に開示された人工染色体中に存在する反復エレメントの数は、人工染色体の全長の0.1〜90%を占めてよい。
人工染色体の人工ポリヌクレオチド配列は、例えば、末端反復、例えばテロメア、逆方向反復、及びタンデム反復、例えばセントロメアを含む反復DNA特徴などの反復ポリヌクレオチド特徴を含むことができる。タンデム、逆方向及び末端反復DNAは、一連の反復ユニット増幅事象から進め、新しい反復サブファミリーを広げることができる。反復ユニット増幅の連続ラウンド、続いて、人工的に複写された配列分散(例えば、ランダムヌクレオチド置換、欠失及び/または挿入を挿入するための反復ユニットの操作によって;図5の実例によって例示されるとおり)を用いることによって、人工反復DNAを設計する場合、反復DNA配列を生成するこのプロセスをエミュレートすることができる。この反復プロセスは、反復ユニットのサブセット間の階層的関係性を維持する反復DNAタンデムアレーを生成することができる。
小規模な遺伝的変動(例えば、すべて、50未満隣接ヌクレオチド長である単一のヌクレオチド多型、挿入、欠失、複製、及び複数のヌクレオチド多型を含む)を本明細書に開示された複数の人工染色体に組み入れることができる。例えば、2つ以上の人工染色体に存在する2つ以上の変異が、2つ以上の対立遺伝子を示す(図6の実例によって例示されるとおり)遺伝的変動をシミュレートするために、一対の人工染色体間のヌクレオチド差を生成することができる。したがって、複数の人工染色体が、複数の対立遺伝子の典型とすることができる。例えば、1つの対立遺伝子の2つのコピーを含有するように、倍数体ゲノムの一部分をエミュレートする人工染色体の2つのマッチングコピーを生成することができる(これにより、ホモ接合性をシミュレートする)。あるいは、人工染色体の2つのコピーのそれぞれが、異なる対立遺伝子を含有することができる(これにより、ヘテロ接合性をシミュレートする)。所望のとおり、複数の人工染色体上に複数の対立遺伝子を調製することができると理解される。したがって、本開示は、天然対立遺伝子変動の典型である複数の人工染色体のコレクション(または「ライブラリー」)を提供する。1つの例では、2、3または4人工染色体上の2、3または4人工対立遺伝子が提供される。
また、本明細書に開示された複数の人工染色体に、大規模な遺伝的変動(例えば、大きな欠失、複製、コピー数変異、挿入、逆位及び転座を含み、それぞれが50以上の隣接ヌクレオチドのヌクレオチド配列と関係する)を組み入れることができる。天然大規模な遺伝的変動は、通常のショットガンショート配列リード長より大きなヌクレオチド配列に影響を及ぼし、さらに、天然の、試料ヌクレオチド配列中の構造的変動の検出及び分解を複雑にすることが多い。
微生物ゲノム(人工染色体は、また、本明細書で「人工微生物ゲノム」を意味する)をシミュレートするために、本明細書に開示された人工染色体の人工ポリヌクレオチド配列を設計することができる。例えば、本明細書に開示された方法によって天然配列との一次配列相同性を除去するために、天然微生物ゲノムをシャッフルすることによって人工染色体を生成し(図10の実例によって例示されるとおり)、同時に、なお、オリジナル微生物ゲノムの特定の特徴(例えば、サイズ、rRNAオペロン数、GC%、反復含有率等であるが、これらに限定されない)を保持することができる。
本明細書に開示された人工染色体の人工ポリヌクレオチド配列は、IgA、IgH、IgL、IgK、IgM、TCRA、TCRB、及びTCRG受容体等のいずれか1つまたはそれ以上の発現を含む1つ以上の免疫細胞受容体遺伝子座をコードすることができる。多様な範囲のクロノタイプと称される配列を生成するために、これらの免疫グロブリン及びT細胞受容体遺伝子座(loci)に、V(D)J組み換え及び体細胞超変異を受けさせる。人工クロノタイプのスイートを生成するために人工染色体配列を用いて、これらの生物学的プロセスをモデル化することができる。
in silicoで、本明細書に開示された人工染色体を提供してよく、それゆえ、コンピュータ読取可能媒体で提供してよい。このため、本開示は、また、1つ以上の本明細書に開示された人工染色体の典型であるデータを含有するコンピュータ読取可能媒体を提供する。コンピュータ読取可能媒体は、一時的でないものとしてよい。
RNAまたはDNAポリヌクレオチドとして、本明細書に開示された人工染色体配列の一部または全部のいずれかを物理的に生成することができる。このため、本開示は、また、人工染色体の人工ポリヌクレオチド配列の20〜10,000,000隣接ヌクレオチドを含む、またはからなる本明細書に開示された人工染色体のフラグメントを提供する。例えば、当該フラグメントは、人工ポリヌクレオチド配列の10,000,000隣接ヌクレオチドのいずれか、1,000,000隣接ヌクレオチドのいずれか、500,000隣接ヌクレオチドのいずれか、100,000隣接ヌクレオチドのいずれか、50,000隣接ヌクレオチドのいずれか、10,000隣接ヌクレオチドのいずれか、1,000隣接ヌクレオチドのいずれか、500隣接ヌクレオチドのいずれか、400隣接ヌクレオチドのいずれか、300隣接ヌクレオチドのいずれか、250隣接ヌクレオチドのいずれか、200隣接ヌクレオチドのいずれか、150隣接ヌクレオチドのいずれか、100隣接ヌクレオチドのいずれか、50隣接ヌクレオチドのいずれか、25隣接ヌクレオチドのいずれか、21隣接ヌクレオチドのいずれかまたは20隣接ヌクレオチドのいずれかを含んでよい、またはこれらからなるものでよい。かかるフラグメントが、本明細書で「スタンダード」を意味する。ポリヌクレオチドスタンダードは、人工染色体の対応する人工配列とマッチする。したがって、ポリヌクレオチドスタンダードは、本明細書に開示された人工染色体の特徴のいずれか1つまたはそれ以上の典型とすることができる。本明細書に開示されたスタンダードは、人工染色体と無関係に用いることができると理解される。例えば、人工スタンダードは、人工染色体への参照を必要としないで、ポリヌクレオチド定量プロセスを校正するために用いることができる。
スタンダードは、RNAスタンダードとしてよい。RNAスタンダードは、人工染色体によってコードされる対象の特徴とマッチし、これの典型であるRNA分子である。例えば、RNAスタンダードは、人工染色体によってコードされる人工遺伝子または転写されるエレメントまたはそのフラグメントの典型とすることができる。1つの例では、RNAスタンダードが、公知の天然配列のいずれかとの相同性のいずれも含まない。それゆえ、RNAスタンダードの長さは、対象の特徴に応じて変えることができる。1つの例では、RNAスタンダードの長さが、200ヌクレオチド〜30kbで変えることができる。
混合物としてまとめて複数のRNAスタンダードを用いることができる。したがって、本開示は、本明細書に開示された1つ以上のRNAスタンダードの混合物を提供する。混合物は、RNAスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。
人工染色体の人工ポリヌクレオチド配列内でコードされる対象の人工遺伝子のいずれかとマッチするようにRNAスタンダードを設計することができる。隣接RNAスタンダード配列は、人工エキソン配列とマッチすると同時に、介在するイントロン配列は、除外される(図3の実例に例示したとおり)。このため、RNAスタンダードは、人工染色体によってコードされる人工遺伝子のエキソン配列だけに相当する隣接ヌクレオチド配列を含む、またはこれからなることができる。これは、遺伝子スプライシングの天然プロセスをエミュレートし、これにより、イントロン配列が除去され、エキソン配列が一緒に結合される。
2つの人工染色体間の転座は、2つの異なる人工遺伝子を単一の融合遺伝子(または「キメラ」)に結合することができる。人工染色体間の転座によって生成される融合遺伝子とマッチするようにRNAスタンダードを生成することができる。
スタンダードは、DNAスタンダードとしてよい。DNAスタンダードは、人工染色体中の対象の人工配列とマッチし、これの典型であるDNA分子である。1つの例では、DNAスタンダードが、人工染色体中の特徴の配列とマッチする。このため、本開示は、また、本明細書に開示された人工染色体の人工配列のDNAフラグメントを提供する。DNA合成の任意の好適な公知の方法を用いてDNA分子として人工染色体配列の一部または全部を物理的に生成することができる。したがって、DNAスタンダードのサイズ及び含有率は、DNAスタンダードを形成するために選択される人工染色体の特定のフラグメントに応じて変えることができる。1つの例では、DNAスタンダードの長さが、20ヌクレオチド〜20Mbで変えることができる。
混合物としてまとめて複数のDNAスタンダードを用いることができる。したがって、本開示は、本明細書に開示された1つ以上のDNAスタンダードの混合物を提供する。混合物は、DNAスタンダードの構造的完全性を維持するために任意の好適な緩衝剤を含むことができる。
標準分子生物学技術、例えば、制限消化及び連結反応またはGibsonアセンブリを用いて、単一の隣接配列に複数のDNAスタンダードを一緒に連結する(または「結合する」)ことができる(例えば、図16に示したとおり)。このため、本開示は、また、結合されたDNAスタンダードを提供する。本開示は、また、単一の隣接配列に2つの以上の本明細書に開示されたDNAスタンダードを一緒に連結することを含む結合されたDNAスタンダードの調製方法を提供する。
メタゲノミクスは、さまざまな生物からの複数のゲノムの研究を必要とし、微生物ゲノムのコミュニティをプロファイルするのに適用することができる。例えば、メタゲノム分析を用い、配列を決定し、単一の試料(例えば、環境試料)内の複数の微生物ゲノムの存在量を測定することができる。人工微生物ゲノムとマッチし、これの典型であるDNAスタンダードを調製し、これにより、微生物コミュニティ構造及び多様性をエミュレートすることができる。
小規模な遺伝的変動は、人工染色体配列の2つの以上の変動型対立遺伝子を識別する(例えば、図6に示したとおり)。複数の人工染色体間のかかる小規模な遺伝的変動の典型であるDNAスタンダードを設計することができる。例えば、「参照」人工染色体中に存在する対立遺伝子の配列とマッチする個々のDNAスタンダードを生成することができ、「変異」人工染色体中に存在する対立遺伝子の配列とマッチする個々のDNAスタンダードを生成することができる。
大規模な遺伝的変動は、人工染色体配列の2つ以上の変動型対立遺伝子を識別することができる。複数の人工染色体間のかかる大規模な遺伝的変動とマッチし、これの典型であるDNAスタンダードを設計することができる(例えば、図8に示したとおり)。DNAスタンダードの相対的存在量は、大規模な変動の相対頻度とマッチし、接合生殖性をエミュレートすることができる。
同じDNA配列(例えば、同じ反復エレメント)とマッチするDNAスタンダード間で識別するために、DNAスタンダードに1つ以上の「バーコード」ヌクレオチド配列を組み入れることができる(例えば、図17に示したとおり)。バーコードヌクレオチド配列は、通常、全DNAスタンダード配列の小さなフラクションだけを構成する小さな(例えば、4、5、6、7、8、9、または10ヌクレオチド)隣接または非隣接ヌクレオチド配列である。例えば、1つ以上のバーコードヌクレオチド配列は、DNAスタンダードの全ヌクレオチド配列の10%未満、例えば、9%未満、例えば、8%未満、例えば、7%未満、例えば、6%未満、例えば、5%未満、例えば、4%未満、例えば、3%未満、例えば、2%未満、例えば、1%を占めてよい。バーコードヌクレオチド配列の存在は、DNAスタンダードの同定を可能にすることができる。例えば、複数のDNAスタンダードが同じ人工染色体配列とマッチする場合、「バーコード」ヌクレオチド配列は、同じ人工染色体配列とマッチする全DNAスタンダード内の特定のDNAスタンダードの同定を可能にする。バーコード配列は、分析中に除去する、または修飾することができるため、アライメントを妨げない。
本明細書に開示されたDNAスタンダードは、対応する人工染色体内でコードされる免疫グロブリン及びT細胞受容体遺伝子座から生成される人工クロノタイプとマッチし、これの典型であるように設計することができる(例えば、図12及び13に示したとおり)。1つの例では、DNAスタンダードが、ランダムに選択されるV、D及びJセグメントのクロノタイプ配列を包含する。本明細書に開示されたDNAスタンダードは、また、通常、免疫レパートリーシーケンシングで用いられるユニバーサルプライマー配列と相補的な小配列を保持してよい。例えば、DNAスタンダードが、天然クロノタイプ多様性をプロファイルするためのBIOMED−2(van Dongen,Langerak et al.2003)研究に記載されたプライマー配列を保持してよい。
DNAスタンダードを、人工微生物ゲノムから人工16S rRNA遺伝子配列の典型とすることができる(例えば、図11に示したとおり)。人工16S rRNA遺伝子は、通常、アンプリコンシーケンシングで用いられるユニバーサル16S プライマーと相補的な2つの配列を保持することを除いて、公知の配列との相同性を有しない。これにより、DNAスタンダードが16S プライマーによるPCR増幅のテンプレートの役割を果たすことができる。DNAスタンダードの増幅は、これにより、PCR増幅の合成的及び定量的測定、及び通常、微生物コミュニティ同一性及び構造を決定するのに用いられる16S rRNAマーカー遺伝子のシーケンシングを提供する。
本明細書に開示されたポリヌクレオチドスタンダードは、多種多様なシーケンシング方法を校正するために用いることができる。これは、測定される標的DNA/RNA配列を含む試料にポリヌクレオチドスタンダードを添加することによって実施することができる。標的DNA/RNAのソースは、公知の生物または環境試料のいずれかに由来するものとすることができる。例えば、ポリヌクレオチドスタンダードは、動物(例えば、哺乳動物、ヒトなど)、植物(例えば、トウモロコシ、コメなど)、微生物(例えば、細菌、原始細菌など)及び環境(例えば、土壌試料、ヒトの大便、臨床試料、例えば、感染創傷液など)ソースに由来する天然RNAの試料に添加することができる。測定される標的DNA/RNA配列を含有する試料のいずれかで実施されるシーケンシング方法を校正するために本明細書に開示されたポリヌクレオチドスタンダードを用いることができると理解される。
ヌクレオチドが誤って決定される場合、シーケンシングエラーが生じ、これはライブラリー調製またはシーケンシングプロセス自体のエラーまたは人工産物から生じる可能性がある。ポリヌクレオチドスタンダードからのシーケンスリードの分析は、ヌクレオチドエラー差を同定し、定量化することができる。シーケンシングエラーの同定を容易にする好適なソフトウエアとしては、Quake(Kelley,Schatz et al.2010)及びSysCall(Meacham,Boffelli et al.2011)が挙げられる。その後、この分析を用いて配列の性能及びクオリティを測定することができる。また、この分析により、その後、研究者が試料DNA/RNAからのリード内の系統的シーケンシングエラーを正規化する、または訂正することが可能になり、試料中の対象の標的DNA/RNAのはるかに正確な(質的及び量的の双方で)測定値が提供される。また、ポリヌクレオチドスタンダードのシーケンシングエラープロファイルを用いて、真のヌクレオチド差(例えば、SNPまたはヌクレオチド修飾)からのシーケンシングエラーを識別することができる。
シーケンシング作業中に、小さなシーケンスリードが最初に参照ゲノムにアラインされることが多い。リードの大きな参照ゲノムへのアライメントは、速度、感度及び精度の結果に差をもたらし、多くの方法で実施することができるコンピュータを多用するタスクである。本明細書に開示されたポリヌクレオチドスタンダードを用いて、シーケンスリードが本明細書に開示された人工染色体にアラインされる効率及び精度を評価し、これにより、実施されるアライメント方法を校正することができる。したがって、本明細書に開示された方法は、さらに、ポリヌクレオチドスタンダードに由来するシーケンスリードを、そのスタンダードが由来する人工染色体にアラインするステップを含んでよい。任意の好適なアライメント方法を用いて、このステップを実施することができる。配列リードのアライメントを容易にする好適なソフトウエアの例としては、BWA(Li and Durbin 2009、Kelley,Schatz et al.2010)及びBowtie(Langmead,Trapnell et al.2009)が挙げられる。
個々のポリヌクレオチドスタンダードを公知の濃度に希釈し、まとめて混合し、かかるスタンダードの定量的スケールを提供する混合物を形成することができる。スケールを定義するために選択される特定の値は、分析される試料中に存在する標的RNA/DNAの好適な量に基づいて決定することができる。シーケンシング後に、ポリヌクレオチドスタンダードにアラインするリードの数は、存在量の定量的測定をもたらすことができる。以下を含む(これらに限定されない)いくつかの方法で、公知の分子濃度及びポリヌクレオチドスタンダードの測定されたリード存在量間の比較を用いて、試料内及び試料間の定量的分析を知らせることができる。
(i)ポリヌクレオチドスタンダードの公知の濃度と、同じポリヌクレオチドスタンダードの存在量の測定値との比較が、DNA/RNAシーケンシング方法の定量的精度を示す。
(ii)ダイナミックレンジ(ポリヌクレオチドスタンダードの最大及び最少の存在量間の差)が、定量的直線性(またはこれの一部)を示す。これらの期待値から離れることが、定量的正規化の性能としてよい。
(iii)検出の下限(検出されたポリヌクレオチドスタンダードの最少濃度)が、ライブラリーサイズ及び感度を示す。
(iv)定量化されるポリヌクレオチドスタンダードが、対応する存在量で遺伝子を定量化するための内部参照を含む。
(v)シーケンシングユニット(R/FPKM)のモルまたは絶対的(転写コピー数)ユニットへの変換を可能にすること。
(vi)RNAスタンダードの定量的範囲が、2つ以上の試料間の正規化を可能にし、遺伝子発現の比較分析を可能にする。
遺伝子発現プロファイリングが、RNAシーケンシングリードを用いて複数の遺伝子の存在量を測定する。本明細書に開示されたRNAスタンダードは、一定の範囲の濃度で添加され、混合物を形成し、これにより、遺伝子発現の差をエミュレートすることができる。RNAスタンダードの存在量が測定される精度を評価し、これにより、付随する天然RNA試料中の遺伝子発現分析の定量的精度を評価することができる(例えば、図19に示したとおり)。
人工染色体中の小規模な遺伝的変動の変動型及び参照対立遺伝子の典型である本明細書に開示されたDNAスタンダードを生成することができる(例えば、図6に示したとおり)。一定の範囲の変数:例えば、変動型接合生殖性;リードアライメント、クオリティ及び/またはカバレッジ;変動型及び複雑度(例えば、SNP、インデル、ホモポリマー);隣接配列コンテクスト;及び小規模な遺伝的変動を同定するのに用いられるソフトウエア(これらに限定されない)が、変動型同定及び遺伝子型アサインメントに影響を及ぼす可能性がある。本明細書に開示されたDNAスタンダードを用いて、小規模な遺伝的変動が同定される感度及び特異性を評価することができる。DNAスタンダードの配列決定は、参照人工染色体配列について小規模な変動を同定することができる。小規模な遺伝的変動を同定するための好適なソフトウエアとしては、GATK(McKenna,Hanna et al.2010)及びSAMtools(Li,Handsaker et al.2009)が挙げられる。人工染色体について、小規模な遺伝的変動がDNAスタンダード内で検出される精度及び感度を評価することができる(例えば、図20に示したとおり)。不確実性(例えば、95%信頼区間)の値は、また、精度の推定の結果とみなすことができる。人工染色体中で小規模な遺伝的変動が同定される信頼度及び感度を比較することは、また、付随するDNA試料中の小規模な遺伝的変動の同定を知らせることができる。
対立遺伝子の頻度の正確な定量は、正確に遺伝子型を割り当てる、または変異(例えば、腫瘍試料内の癌細胞のサブセットが、有害変異を有する場合)を有する試料内のDNAのフラクションを推定するために必要である。本明細書に開示されたDNAスタンダードを用いて、対立遺伝子頻度の差をエミュレートし、これにより、対立遺伝子頻度が測定される定量的精度を評価する、または校正することができる。
コンピュータで大規模な変動、または構造的遺伝的変動を正確に分解するのは、シーケンスリードの長さより長いことが多いため、困難である可能性がある。大規模な変動の典型であり、これをエミュレートする本明細書に開示されたDNAスタンダードを生成することができる。例えば、正確に構造を分解するソフトウエアプログラム能力を評価する;及び構造的変動型の相対的存在量及びコピー数を定量化する、及び/または遺伝子型を構造的変動を含む配列に割り当てるために、構造的変動の典型であるDNAスタンダードを用いることができる。大規模な変動を分解するための好適なソフトウエアとしては、BreakDancer(Chen,Wallis et al.2009)及びCortex(Iqbal,Caccamo et al.2012)が挙げられる。また、参照人工染色体についての構造的変動による配列リードの再分布をモデル化するために本明細書に開示されたDNAスタンダードを用いることができる。DNAスタンダードの測定は、大規模な変動が付随する天然ゲノムDNA試料内で同定され、定量化される精度の評価を知らせることができる。
天然参照ゲノムが利用できない場合には、ゲノム配列は、オーバーラップしている配列リードからde novoでアセンブルしなければならない。付随する標的ゲノムDNA試料で、DNAスタンダードの並行de novoアセンブリを同時に実施することができる。de novoアセンブリの好適なソフトウエアとしては、Velvet(Zerbino and Birney 2008)及びABySS(Simpson,Wong et al.2009)が挙げられる。ゲノムアセンブリに影響を及ぼす変数としては、ゲノム複雑度及び反復含有率;倍数性;シーケンシング深度、クオリティ及びエラー率;リード長さ及び挿入サイズ;ならびにソフトウエアプログラム及び用いられるパラメータ(k−mer長さ、アライメントアプローチ、リードソフトクリッピング、及び他のパラメータを含む)が挙げられる(これらに限定されない)。これらの変数のDNAスタンダードのde novoアセンブリへのインパクトを評価することができる。
メタゲノム分析は、環境試料からの複数の微生物ゲノムのアセンブリ及び定量を含むことが多い。本明細書に開示されたDNAスタンダードを用いて、一定の範囲の異なる存在量でゲノムの不均一コレクションからなる複合微生物コミュニティをエミュレートすることができる(例えば、図10に示したとおり)。微生物ゲノムの典型であるこれらのDNAスタンダードを用いて、メタゲノム分析を評価することができる。メタゲノム分析に影響を及ぼす変数としては、微生物コミュニティゲノムサイズ、複雑度、反復及びGC含有率、ならびにユーザー定義変数、例えば、シーケンシング深度及びカバレッジ、クオリティ、リード長さ及び挿入サイズ、ならびにソフトウエア及び用いられるパラメータが挙げられる(これらに限定されない)。これらの変数のDNAスタンダードのメタゲノム分析へのインパクトを評価することができる。
16S rRNA遺伝子は、大きな複合微生物コミュニティをプロファイルするための系統的マーカーとして用いることが多い。人工微生物ゲノムからの16S rRNA遺伝子の一部分の典型であり、これとマッチするDNAスタンダードを生成することができる(例えば、図11に示したとおり)。さらに、異なる相対濃度で人工16S rRNA遺伝子の典型であるDNAスタンダードを混合し、微生物コミュニティをエミュレートし、実施される16S プロファイリングアプリケーションを評価することができる。
GC含有率のライブラリー調製及びシーケンシング中のいくつかの反応へのインパクトの結果、アセンブリ及び定量の偏りを生じさせる微生物ゲノムの偏った発現となる(Chen,Y.C.,et al.,2013)。本明細書に開示されたDNAスタンダードを用いて、GC含有率のシーケンシング及び分析へのインパクトを評価することができる。
免疫レパートリーシーケンシングは、白血球によって発現される免疫受容体配列のスイートを増幅するために共通セットのプライマーを用いる。本明細書に開示されたDNAスタンダードは、人工染色体の人工クロノタイプの典型となるように設計することができる(図12及び13に示した例)。クロノタイプDNAスタンダードの範囲及び複雑度は、白血球の試料によって発現される天然クロノタイプの複合及び多様なプロファイルをエミュレートするように合わせることができる。
上記から理解されるとおり、本開示は、また、1つ以上の本明細書に開示されたポリヌクレオチドスタンダードを含むキットを提供する。あるいはまたはさらに、キットは、1つ以上の本明細書に開示されたスタンダードをコードする1つ以上のポリヌクレオチド配列を含む1つ以上の本明細書に開示されたベクターを含んでよい。キットは、また、ポリヌクレオチドスタンダードを生成するためにベクターを発現するのに好適な1つ以上の成分を含んでよい。キットは、本明細書に開示されたポリヌクレオチドスタンダード及び本明細書に開示されたベクターの双方を含んでよい。キットは、また、その中に含有される特定のポリヌクレオチドスタンダードを記載している情報、例えば、その配列、濃度、対象の構造的ゲノム特徴など(これらに限定されない)を提供してよい。キットは、また、1つ以上の本明細書に開示された人工染色体を含んでよい。
本開示は、また、コンピュータシステム及びコンピュータ実装方法を提供する。図38は、ポリヌクレオチドシーケンシングプロセスを校正するのに好適なコンピュータシステム3800を示す。コンピュータシステム3800は、プログラムメモリ3804、データメモリ3806、コミュニケーションポート3808及びユーザーポート3810に接続されたプロセッサー3802を含む。プログラムメモリ3804は、非一過性コンピュータ読取可能媒体、例えばハードドライブ、ソリッドステートディスクまたはCD−ROMである。ソフトウエア、すなわち、プログラムメモリ3804に記憶される実行可能プログラムがプロセッサー3802に本明細書に開示された方法を実施させる。
実施例1:
以下のとおり、人工染色体の1つの例を調製した。ヒトchr7:271,335,00〜271,385,00(hg19)から5,000nt配列を取り出した。この配列は、HOXA1遺伝子のプロモーター中のCpGアイランド(CpGジヌクレオチドの密度を含有する配列)をオーバーラップさせる。相同性を除去するために、5,000nt配列をシャッフルし、同時に50ntのシャッフリングウインドウサイズでCGジヌクレオチドペアリングを維持した。このプロセスは、図2に示されている。相同性を除去するために、ウインドウ内の一次DNA配列をシャッフルして、配列を再配列し、同時にウインドウサイズより大きな分解で遺伝的特徴を維持した。必要な場合、公知の天然配列との相同性を除去するために追加のヌクレオチド置換、挿入及び欠失を手動で生成した。BLASTnソフトウエアプログラム(Altschul,S.F. et al.,JMolBiol215,403−10(1990))を用いてヌクレオチドコレクション(nr/nt)データベースと得られたシャッフルされた配列を比較し、公知または天然の配列のいずれかとの21nt隣接相同性より大きないずれかの配列がないことを確認した。この実施例の方法は、公知または天然の配列との相同性を有しないが、HOXA1プロモーター内に50ntの分解で高次のCpGアイランド遺伝的特徴を保持する5,000nt配列を生成した。
以下のとおり、人工染色体中の人工遺伝子配列の1つの例を調製した。最初に12エキソン及び11イントロンを含むヒトゲノム(hg19)から遺伝子配列を取り出した。個々のエキソン及びイントロン配列ならびに上流/下流1,000nt配列を取り出した。実施例1に記載されたとおり、相同性を除去するために20ntウインドウサイズでそれぞれの遺伝子エキソン及びイントロン配列を個々にシャッフルした。その後、正しい順序で、人工染色体内でシャッフルされたエキソン及びイントロン配列をアセンブルし、ヒトゲノム内のオリジナル遺伝子について、配向及び分布が保持された。この人工遺伝子が、図3に示したとおり、R_1_2_Rを指す。挿入されたエキソンと隣接しているヌクレオチドを手動で編集し、カノニカルジヌクレオチドAG−CTスプライス部位及びポリ−ピリミジントラックヌクレオチドを挿入した。このため、当該人工遺伝子は、天然ヒト遺伝子中に存在する遺伝子座のより高次の遺伝的特徴を保持するが、オリジナルヒト遺伝子または他の公知のヌクレオチド配列のいずれかとの一次配列相同性を保持しない。
以下のとおり、それぞれの遺伝子が複数のアイソフォームを含み、複数の遺伝子が人工染色体に含まれるものの1つの例を実施した。最初に、GENCODE v19基本的遺伝子アセンブリ(Harrow,Denoeud et al.2006)からヒトmRNAアイソフォーム配列を取り出した。混合されたエキソン長さ、エキソン数及びアイソフォーム数によってアイソフォームをランク付けした。このリストから系統立って2つ以上の別のアイソフォームを含む30の遺伝子のサンプルを抽出した。エキソン除外、エキソン含有、別の転写開始、別の転写終結、イントロンリテンションならびに別の3’及び5’スプライス部位使用を含む別の遺伝子スプライシングの異なる例を含むようにこれらのアイソフォームをキュレートした。ヒトゲノム(hg19)からのそれぞれの遺伝子エキソン及びイントロン配列を取り出し、相同性を除去するために、実施例1に上記のとおり、個々にシャッフルした。その後、人工染色体中でそれぞれのシャッフルされた配列を再アセンブルし、エキソン−イントロン構造を維持したが、天然配列との相同性を除去した。通常、ヒトゲノム中の遺伝子間でみられる距離とほぼ同じとなるように人工染色体中の挿入された遺伝子座間の距離を維持した。このプロセスによって、図1に示したとおり、人工染色体中に30の人工遺伝子座を組み入れた。
以下のとおり、人工染色体中に含有されるモバイルエレメントの1つの例を調製した。共通反復クラス(AluSx、MIRb、L2a等)(A.F.A.Smit,R.Hubley&P.Green Repeat Masker at http://repeatmasker.org)からモバイルエレメントの5つの例の天然ヒトDNA配列を取り出した。相同性を除去するために、実施例1に上記のとおり、反復配列をシャッフルし、キュレートした。十分な数にシャッフルされた反復配列を複製し、ヒトゲノム中に存在するものと同じ密度で人工染色体に挿入した。例えば、8Mb人工染色体配列が、ヒトゲノム中の類似天然反復エレメントの密度とマッチする788AluSx、534MIRb、433L2a、93MER5B及び166L1M5反復モバイルエレメントを有する。その後、図4に示したとおり、個々の反復エレメントをランダムヌクレオチド置換、挿入、及び欠失させ、祖先配列から個々の反復モバイルエレメントの配列分散を生じさせた。ヒトゲノム中の類似天然エレメントの配列及び長さ分散とマッチするようにシャッフルされた反復モバイルエレメントの配列及び長さ分散を設計することができる。その後、図1に示したとおり、ヒトゲノム中の類似天然モバイルエレメントと同じ密度及び分布で、人工染色体配列にシャッフルされた反復モチーフを挿入した。
以下のとおり、人工染色体中に含有される小規模な遺伝的変動の1つの例を調製した。変異型、ヌクレオチド含有率及びサイズに従って、SNP、挿入、欠失、ヘテロ接合体、マイクロサテライト及び複数のヌクレオチド多型を含むヒト小規模な変動のリスト(Sherry,S.T. et al.Nucleic Acids Res29,308−11(2001)をランク付けした。このリストから系統立って512の小規模な変異のすべてのサンプルを抽出した。選択した小規模な変異手動でキュレートし、広い範囲の変異型、ヌクレオチド含有率及びサイズの発現を確実にした。ヒトゲノム配列(hg19)から上流及び下流フランキング5ヌクレオチド配列と共にヒト小規模な変動のDNA配列を取り出した。その後、268の小規模な変動を2つの人工染色体に置換し、これにより、オリジナル「参照」人工染色体に対するホモ接合体変動を組み入れる一対の変動型人工染色体が生成された。次に、289の小規模な変動を1つの単一の人工変動型対立遺伝子染色体だけに置換し、これにより、オリジナル「参照」人工染色体に対するヘテロ接合体変動が生成された。このプロセスによって、人工染色体中のホモ接合体及びヘテロ接合体の小規模な変動を示すことができる。
以下のとおり、人工染色体への疾患特異的小規模な遺伝的変動の組み入れの1つの例を実施した。BRAF V600E変異の結果、バリン(V)からグルタミン酸(E)のBRAFタンパク質中の位置600で、アミノ酸置換が生じ、これは黒色腫症例の約85%にみられている(Davies,H. et al.Nature417,949−54(2002))。ヒトゲノムから野生型(T)または疾患関連変異BRAF V600E変異(A)のいずれか及びフランキング上流及び下流150ヌクレオチドとマッチするDNA配列を取り出した(hg19アセンブリ中のchr7:140,452,986−140,453,286に対応する)。BRAF V600E変異への6上流及び下流ヌクレオチドは、シャッフルされなかった。しかし、図7に示したとおり、BRAF V600E変動の部位からの距離を増大させながら、増大する大きなウインドウサイズ中に残りのフランキング配列をシャッフルした。例えば、BRAF V600E変動の20nt距離内の場合、6ntウインドウサイズで配列をシャッフルし、BRAF V600E変動の100nt距離内の場合、10ntウインドウサイズでシャッフルし、BRAF V600E変動の100nt距離を越える場合、20ntウインドウサイズでシャッフルした。これは、遺伝子配列全体で公知の天然配列との相同性を除去したが、変異のすぐそばのシャッフリングのウインドウ分解を増大させた。その後、シャッフルされた配列を「参照」人工染色体に置換し、BRAF V600E変異を有する人工変異染色体が形成された。
以下のとおり、人工染色体への大規模な遺伝的変動(>50nt)の組み入れの1つの例を実施した。変異型、ヌクレオチド含有率及びサイズに従って、ヒト大規模な変動のカタログ(Sherry,Ward et al.2001,MacDonald,Ziman et al.2014)をランク付けした。ヒト大規模な変動のリストから系統立って大規模な変動の12例すべてのサンプルを抽出し、手動でキュレートし、大きな欠失、挿入、逆位(トランスバージョン)、コピー数変動及びモバイルエレメント挿入を含む多様な範囲の異なる型の大規模な変動の完全発現を確実にした。追加の1,000ヌクレオチドフランキング上流及び下流配列と構造的変動の配列をシャッフルし、実施例1に前述のとおり、公知の天然配列との相同性を除去するためにキュレートした。特に、実施例4に前述のとおり、内部階層構造を維持することができるように大規模な変動の内部構造(例えば、反復または逆方向ユニット)のいずれかについて可能なシャッフリングを実施した。その後、構造的変動のこれらの例を人工染色体配列に挿入し、変動型人工染色体を生成した。この方法では、図12に示したとおり、人工染色体内に4つの異なる型の大規模な構造的変動の12例を挿入した。上記の実施例6の方法に記載されたとおり、「参照」人工染色体に対する複数の変動型人工染色体の使用によって、一定の範囲の構造的変動の遺伝子型(ホモ接合体及びヘテロ接合体)を確立することができる。
以下のとおり、2つの人工染色体間の転座による融合遺伝子の形成の1つの例を実施した。最初に、実施例2に前述の方法を用いて、2つの人工遺伝子、B1及びA1遺伝子をコードする2つの人工染色体を生成した。A1及びB1遺伝子のエキソン/イントロン構造は、それぞれ、ヒトABL1及びBCR遺伝子に由来した。図9に示したとおり、B1遺伝子は、人工染色体A上に23エキソン/21イントロンを含み、人工染色体B上に11エキソンを含むA1遺伝子の典型である配列を生成した。それぞれの人工染色体内に遺伝子のエキソン/イントロン構造を維持したが、上記の実施例1に記載された方法によって、相同性を除去するためにDNA配列をシャッフルした。その後、図9に示したとおり、(i)B1遺伝子中のエキソン4後及び(ii)A1遺伝子中のエキソン2前の転座によって、人工染色体A及びB配列を再配列し、これにより、人工染色体A上にB1エキソン1〜13及びA1エキソン2〜11を含む融合遺伝子及び人工染色体B上でA1エキソン1及びB1エキソン14〜22とマッチする融合遺伝子が生成された。このプロセスによって、2つの人工染色体の転座を実施し、融合遺伝子事象が形成された。
以下のとおり、微生物ゲノムコミュニティをシミュレートするために、本明細書に開示された人工染色体の使用の1つの例を実施した。環境DNA試料は、複数の微生物ゲノムの複合コミュニティを含有することが多い。そこで、型、サイズ、及び存在量が異なる微生物ゲノム(本明細書では「人工微生物ゲノム」を意味する)の典型である複数の人工染色体の複合コミュニティをシミュレートした。最初に、全部で30の微生物の高クオリティドラフトゲノム配列(Chan,P.P.,et al.,Nucleic Acids Res40,D646−52(2012))を取り出した。選択した微生物ゲノムを手動でキュレートし、広い範囲の分類群(アーキア及び細菌の双方を含む)、サイズ(0.5〜10Mbp)、GC含有率(27〜70%)、rRNAオペロンカウント(1〜10)の発現、及び多様な範囲の環境(ヒト身体、水生、陸上及び極端な物理的または化学的条件)からの分離を確実にした。当該選択(表9に示した)は、環境DNA試料内の複合微生物集団中でみられることが多い系統的及びゲノム異質性の典型となることを意図している。ゲノム配列をシャッフルし、公知の天然配列との配列相同性のいずれかを有する配列を除去するように操作した。このプロセスによって、30の人工微生物ゲノムのライブラリーが生成された。
本明細書に開示された人工染色体を用いて、哺乳動物免疫グロブリン配列多様性のシミュレーションの1つの例を実施した。人工免疫レパートリー配列の生成により、ヌクレオチドスタンダードの使用が可能になり、免疫レパートリーシーケンシング中にクロノタイプの精度及び定量が評価される。人工染色体上にTCRβ座を生成し、V(D)J組み換えのプロセスをモデル化し、人工TCRβクロノタイプのスイートを生成した。最初に、ヒトゲノム(hg19)からTCRβ遺伝子配列(65Vβセグメント、2Dβセグメント及び13Jβセグメントを含む)を取り出した。公知の天然配列との相同性を除去するために、それぞれのセグメントまたはイントロン配列を単独でシャッフルし、BIOMED−2研究(van Dongen,J.J. et al.Leukemia 17、2257−317(2003))に用いられるプライマー配列と相補的な配列は除外された。図13に示したとおり、その後、シャッフルされたセグメント及びフランキングイントロン配列を再アセンブルし、人工染色体上のTCRβ遺伝子座を組み入れた。
人工染色体中のR_1_2_R遺伝子の典型であるRNAスタンダード配列の1つの例を実施した。実施例2に記載された方法を用いて、R_1_2_R遺伝子座を人工染色体に組み入れた。その後、図3に示したとおり、R_1_2_R遺伝子の13−エキソン配列を一緒に結合し、連続1,310nt配列(配列番号:3)を形成し、同時に介在する12イントロン配列を除去した。追加の約100ヌクレオチドポリアデニントラクトをR_1_2_RmRNA配列の3’末端に付加した。シミュレートしたシーケンスリードを用いてR_1_2_Rスタンダードの典型であるRNAスタンダードの性能を評価した。Shermanソフトウエアを用いて、R_1_2_R配列(配列番号:3)からの1,000ペアエンド125−ntリードをシミュレートした。その後、以下のパラメータで、Tophat2ソフトウエア(Kim,Pertea et al.2013)を用いてシミュレートしたリードを人工染色体にアラインした。
>tophat2 cht_index simulated_reads.R1.fq simulated_reads.R1.fq
人工R_1_2遺伝子の別のスプライスmRNAアイソフォームの典型であるRNAスタンダードの1つの例を実施した。R_1_2_V配列は、人工染色体に含まれ、上記の実施例11に記載されたR_1_2_R配列への別のスプライスアイソフォームを含む。R_1_2_Vアイソフォーム配列は、隣接1,310nt配列(配列番号:4)を形成する12のエキソンを含むと同時に介在する11のイントロン配列は、除去される。図3に示したとおり、R_1_2_Vスタンダード配列は、別のアイソフォームR_1_2_Rスタンダードと共通した11エキソンを有することを明記する。しかし、それは、エキソン(4)を欠失し、追加の2つのエキソン(5及び6)を含有する。それゆえ、R_1_2人工遺伝子の別のスプライシングによって、R_1_2_R及びエキソン4が除外されエキソン5及び6を含有するR_1_2_V RNAスタンダードモデルを比較する。
R_1_2_R遺伝子の成熟mRNA配列の典型であるRNAスタンダードを生成するために、RNAスタンダードの製造の1つの例を実施した。市販のサービス(ThermoFisher GeneArt)を用いて、DNA分子としてR_1_2_R配列(配列番号:3)を最初に合成した。図14に示したとおり、エレメントの以下の順序で:(i)SP6プロモーター(ii)R_1_2_R遺伝子配列(iii)約50ヌクレオチドポリ−アデニン配列及び(iv)EcoR1制限部位、当該配列をpMA発現プラスミドに挿入した。当該プラスミドを変換し、E.coliで培養した。QIAprep Spin Midiprep(Cat#12945)を用いて当該プラスミドを精製した。プラスミドクローンは、上記の配列要素の精度、挿入及び配向を確認するためにシーケンスされたSangerであった。その後、EcoR1制限エンドヌクレアーゼによる消化によって当該プラスミドを線状化した。次に、in vitroRNA合成反応のテンプレートとして当該プラスミドを用いて、合成RNAポリヌクレオチドスタンダードを生成し、その後、これをQIAquick column(QIAGEN)で精製した。BioAnalyzer RNA Chip(Agilent)を用いてRNAスタンダードのアリコットを分析し、予測される完全長転写及び濃度を確認した。その後、精製したRNAスタンダードを必要な濃度に希釈した。
複数のRNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。最初に上記の実施例11及び13に記載されたとおり、人工染色体中でコードされる30の遺伝子の典型であるRNAスタンダードを製造した。表1に示したとおり、30のRNAスタンダードを10群(それぞれの群は、3つのRNAスタンダードからなる)に分けた。10群間で3倍連続滴定を実施し、最少及び最大群間の存在量が106倍の範囲に及ぶ。その後、異なる相対的存在量で30のRNAスタンダードを混合し、混合物を形成した。それゆえ、当該混合物は、RNA存在量の定量的スケールまたはラダーを含む異なる濃度の逐次的範囲で30の異なるRNAスタンダードを含む。このRNAスタンダードのコレクションを混合物Aと称した。
複数の別のスプライスRNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。最初に実施例13に記載された方法を用いて60RNAスタンダード(配列番号:1−62)を製造した。上記の実施例12に記載されたとおり、互いに共有し、エキソン配列含有率が異なる2つの別のアイソフォームを含む対としてRNAスタンダードを構成した。
以下のとおり、融合遺伝子の典型であるRNAスタンダードの1つの例を実施した。(i)B1遺伝子配列(配列番号:136)(ii)A1遺伝子配列(配列番号:135)及び(iii)B1エキソン1〜13配列及びA1エキソン2〜11配列(配列番号:137)とマッチするB1fA1遺伝子、とマッチするようにRNAスタンダードを製造した。実施例13に前述の方法を用いてRNAスタンダードを製造した。
6,974,486〜6,975,593ヌクレオチド間の人工染色体配列の典型であるようにDNAスタンダードの製造の1つの例を実施した。最初に市販のサービス(ThermoFisher GeneArt)で、1,122ntDNAスタンダード配列(配列番号:63)及び2つのフランキングSap1制限部位(GCTCTTC)をDNA分子に合成した。その後、図14に示したとおり、当該配列を高コピープラスミド(pMA)にクローン化した。それぞれのプラスミドをE.coli培養物中で成長させ、QIAprep Spin Midiprep(Cat#12945)を用いて調製した。QIAquickカラム(QIAGEN)を用いてDNAプラスミドを精製し、ストックを含むようにスタンダード濃度に希釈した。プラスミドクローンをSangerシーケンスし、プラスミドへの正確な配列及び挿入を確認した。PCR(D_1_1_R配列の末端でプライマー対を用いることがDNAスタンダードを増幅するのに用いられる)または制限ダイジェスト(フランキングSap1部位の下流のSap1制限エンドヌクレアーゼ切断5/6ntを用いて、切断後に末端に付加ヌクレオチドを残さず、D_1_1_RスタンダードDNA分子を切除することができる)によるDNAスタンダード合成のテンプレートとしてストックプラスミドを用いた。合成後に、Agilent 21000 BioanalyserでD_1_1_Rスタンダードのアリコットを分析し、当該スタンダードの予測される完全長サイズ及び濃度を確認した。その後、精製したDNAスタンダードを必要な濃度に希釈する。
複数のDNAスタンダードの異なる混合物を生成する方法の1つの例を実施した。上記の実施例17に記載された方法を用いて人工染色体配列とマッチする30のDNAスタンダードを製造した。DNAスタンダードを10群に分け、それぞれが3つのDNAスタンダードからなる。それぞれの群の3倍連続希釈(すなわち、3つのDNAスタンダードが同じ濃度を有する)をアセンブルし、これにより、DNAスタンダードの最少及び最大群間の濃度が106倍の範囲に及ぶ(表5に示した)。この範囲の濃度のDNAスタンダードの組み合わせは、混合物Aと称される。これにより、この混合物は、DNA存在量の定量的スケールまたはラダーを提供する。次に、異なる範囲の濃度で同じ30のDNAスタンダードをアセンブルし、表5に示したとおり、別の混合物Bを形成した。混合物B中の各DNAスタンダードの存在量は、DNAスタンダードの存在量間の対ごとの比較で、混合物A及び混合物B間のDNAスタンダードの存在量が0、2倍または4倍増大または減少を示す量である。混合物間のDNAスタンダード存在量のこの変化は、天然DNA配列とほぼ同じであり、DNA存在量の倍数変化を測定する定量的スケールまたはラダーを含む。
単一の、より大きな、または「結合された」DNAスタンダードを生成するために複数のDNAスタンダードを結合する方法の1つの例を実施した。結合されたDNAスタンダードが、上記の実施例17に記載された方法を用いて生成される複数の個々のDNAスタンダードを含む。例えば、結合されたDNAスタンダードAが、D_1_1_Rの1コピー;D_1_2_Rの2コピー;D_1_3_Rの3コピー、D_1_4_Rの4コピー;D_1_5_Rの5コピー;D_1_6_Rの6コピーを含む。また、図16に示したとおり、1(D_1_1_R)及び6(D_1_6_R)間でコピー数を変えることが、個々のD_1_1_R及びD_1_6_Rスタンダード間の存在量の6倍の増大に相当することを明記する。表7.に示したとおり、このアプローチを用いて、計90の個々のDNAスタンダードからアセンブルした15の結合されたDNAスタンダード(A〜O)を構成した。それゆえ、それぞれの結合されたDNAスタンダードが、1倍〜6倍の相対的コピー数で6つの個々のDNAスタンダードを含む。
人工染色体間の遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例5に前述のとおり、人工染色体間に遺伝的変動を組み入れることができる。上記の実施例17に記載された方法によって、等しい長さ(1000nt)の人工染色体配列の領域とマッチする32対のDNAスタンダード(配列番号:63〜134)を製造した。それぞれの対が、「参照」染色体(_Rで表される)または変異人工染色体(_Vで表される)のいずれかとマッチする2つのDNAスタンダードを含む。例えば、DNAスタンダード対;変異対立遺伝子(D_1_1_Vと称される;配列番号:64)とマッチする一方のDNAスタンダード及び上記の実施例20に記載された参照D_1_1_Rスタンダード(配列番号:63)とマッチする他方のDNAスタンダードを生成した。図6に示したとおり、D_1_1_Vスタンダード配列は、4SNP、12nt欠失、6nt挿入及び33nt欠失を含む7部位でD_1_1_Rスタンダード配列と異なる。可能な場合、変動の部位の上流及び下流に隣接する200nt配列が、また、シーケンシングエッジ効果のインパクトを最少化するDNA配列中にある。全体で、上記の実施例17に記載されたとおりの方法を用いて、252SNP、挿入または欠失50nt未満(DNAスタンダードごとに5〜8のSNP、挿入または欠失)を含有する30のDNAスタンダード対を製造した。
遺伝的変動の典型であるDNAスタンダードの異なる混合物を生成する方法の1つの例。実施例20に記載されたとおり、遺伝的変動の典型であるDNAスタンダード対の相対的存在量を変えることによって、異なる倍数体遺伝子型を示すことができる。最初に異なる存在量で30のDNAスタンダード対を添加し、表5に示したとおり、混合物Aを形成し、その結果、DNAスタンダード対間の対ごとの比較が、変異及び参照DNAスタンダード間の変異全体の相対的存在量の変化が等しい、3倍、9倍、及び30倍のものを示す。変動型及び参照DNAスタンダード間の相対的存在量のこの変化が、倍数体ゲノム中のホモ接合体、ヘテロ接合体、及び不均一変動のモデル化を可能にする。例えば、参照及び変異人工染色体の典型であるDNAスタンダードの等しい濃度が、ヒトなどの倍数体生物中のヘテロ接合体遺伝子型の典型である。DNAスタンダードの異なる相対濃度は、定量的差を測定するためのスケールまたはラダーを確立することができる。次に、異なる範囲の存在量で同じ30のDNAスタンダード対をアセンブルし、表5に示したとおり、異なる混合物を形成し、混合物Bと称した。混合物B中のDNAスタンダードの存在量は、参照及び変動型DNAスタンダードの相対的存在量間の対ごとの比較で、混合物A及び混合物B間の遺伝的変動の存在量の一定の範囲の倍数変化を示す量である。この変異存在量の変化の差が、DNA試料間の対立遺伝子頻度の変化とほぼ同じである。
特定の疾患関連遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例6に前述の参照及び変異人工染色体に対応する2つのDNAスタンダードを生成した。それゆえ、参照DNAスタンダードは、参照配列(Q139fsのT及びV600EのT;配列番号:138)とマッチし、変動型DNAスタンダードは、疾患関連遺伝的変動(Q139fsのTG及びV600EのA;配列番号:139)とマッチした。実施例17に前述のとおり、DNAスタンダードを製造した。
1.BWAを用いてシーケンスリードをヒトゲノムにアラインした;
2.Picardツールを用いてアライメントを処理した;
3.Genome Analysis Tool Kit(GATK)を用いて変異を同定した。
変異の双方(ヘテロ接合体混合物からの例のoutput.vcf fileから取った結果)を同定した:
p53フレームシフト変異
B5_R 300 . T TG 962.73 . \
AC=1;AF=0.500;AN=2;BaseQRankSum=1.780;ClippingRankSum=0.008; \
DP=60;FS=2.250;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0; \
MQRankSum=0.472;QD=16.05;ReadPosRankSum=−0.008;SOR=0.430 \
GT:AD:DP:GQ:PL 0/1:24,32:56:99:1000,0,677(GT0/1がヘテロ接合体対立遺伝子を示し、0は、参照対立遺伝子であり、1は、変異対立遺伝子である)
BRAF V600E変異
B5_R 602 . T A 130.77 . \
AC=1;AF=0.500;AN=2;BaseQRankSum=0.306;ClippingRankSum=0.184; \
DP=15;FS=0.000;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0; \
MQRankSum=−0.429;QD=8.72;ReadPosRankSum=0.184;SOR=1.022 \
GT:AD:DP:GQ:PL 0/1:10,5:15:99:159,0,364
大規模な遺伝的変動の典型であるDNAスタンダードの1つの例を実施した。実施例7に記載されたとおり、人工染色体に事前に組み入れた構造的変動の12例とオーバーラップしているDNAスタンダードを製造した。それぞれのDNAスタンダードでは、シーケンシング及びアセンブリに影響を及ぼす可能性がある末端効果を阻止するように、少なくとも600ntの上流及び下流フランキング配列が含まれた。実施例17に前述のとおり、DNAスタンダード対を製造し、異なる相対的存在量で混合し、実施例21に記載された方法を用いて異なる遺伝子型をモデル化する混合物を形成することができる。
コピー数変動の典型であるDNAスタンダードの1つの例を実施した。上記の実施例7の人工染色体に組み入れた人工D4Z4反復アレーとオーバーラップしている6のDNAスタンダード(配列番号:167〜172)を生成した。図33に示したとおり、それぞれのDNAスタンダードは、長さが計1,600ntであり、(i)単一のD4Z4反復コピーおよそ800nt長(ii)半反復コピーとマッチする400nt上流配列(iii)半反復コピーとマッチする400nt下流配列を含む。それぞれのDNAスタンダード間で識別するために、DNA配列中に6の「バーコード」ヌクレオチド配列(AGCTA、CGATC、CACTG、TCAGC、TAGAC、及びGCAGT)の1つを含めた。それぞれの配列は、1つのDNAスタンダード上に存在するだけであり、他の5つのDNAスタンダード上に存在しないことを明記する。図17に示したとおり、バーコードヌクレオチドは、DNAスタンダード配列内に40ntの介在する距離を有し、その結果、それぞれの100ntウインドウが、常にバーコード配列の少なくとも2つの例を含有する。
微生物ゲノムコミュニティの典型であるDNAスタンダードの1つの例を実施した。実施例9でアセンブルした人工微生物ゲノム内の選択された配列とマッチする12のDNAスタンダード(配列番号:149〜160)を生成した。DNAスタンダードの長さ及びGC%が、人工微生物ゲノムの長さ及びGC%と比例し、それゆえ典型的であるように微生物ゲノム配列を選択した。これは、表9に示し、図10に示した。例えば、人工「Enterococcus faecal様」ゲノムは、3.2Mbであり、平均38%GC含有率を有する。比較によって「E.faecalis様」ゲノムとマッチする典型的なDNAスタンダードMG_1(配列番号:149)は、2.2kb長さ(全ゲノムの長さの6.875%)及び38%GC含有率を有し、これにより、比例して「E.faecalis様」ゲノムの長さ及びGC含有率の典型となる。実施例17に前述のとおり、DNAスタンダードを製造した。12のDNAスタンダードを4つの群に構成し、10倍連続希釈の濃度でそれぞれの群を混合し、104倍の範囲の濃度を包含する混合物を形成した。
哺乳動物免疫グロブリン配列多様性の典型であるDNAスタンダードの1つの例を実施した。実施例10に記載された方法を用いて生成された人工TCRβVDJクロノタイプ配列とマッチした長さ750ntの15のDNAスタンダードを生成した。図13に示したとおり、DNAスタンダードは、BIOMED−2プライマー、ならびに介在するV、J及びDセグメントと相補的な配列とオーバーラップする。実施例17に前述のとおり、DNAスタンダードを製造した。DNAスタンダードを5つの群(すなわち、群ごとに3つのスタンダード)に構成し、10倍連続希釈の濃度でそれぞれの群を混合し、105倍の範囲の濃度を包含する混合物を形成した。このダイナミックレンジは、健康試料(Zvyagin,Pogorelyy et al.2014)にみられ、また、微小残存疾患(Logan,Gao et al.2011)などの疾患状態にみられるヒトクロノタイプ分布プロファイルに及ぶ。
シーケンシングのために天然RNA試料にRNAスタンダードを添加する方法の1つの例を実施した。最初に、Coriell Cell Repositories成長プロトコール及び標準に従ってK562細胞を培養した。簡潔にいうと、5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でK562細胞を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、K562細胞から全RNAを抽出した。次に、それぞれの試料にTURBO DNase(Life Technologies)でDNase処理を実施し、続いて、RNA Clean and Concentrator Kit(Zymo Research)でクリーンアップを実施した。全RNAにBioAnalyzerを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにRNA完全性数(RIN)>9.5のRNAだけを用いた。
RNAスタンダードのアライメント及びアセンブリを評価する方法の1つの例を実施した。上記の実施例11及び13に記載されたとおりの方法を用いて、2つの別のアイソフォームを含む30の遺伝子(全部で60のRNAスタンダード)とマッチするRNAスタンダードを生成した。RNAスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Cの等しい部分を形成した。その後、製造者の指示書に従ってTruSeq Stranded Total RNA Sample Prep Kit(Illumina)を用いて、RNAスタンダード混合物Cから直接、ライブラリーを調製した。HiSeq 2500(Illumina)装置で、125ntペアエンドリードで試料をシーケンスする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。実施例28に記載された方法を用いて配列リード(.fastq)ファイルを処理した。その後、以下のパラメータで、Tophat2を用いて配列リードを人工染色体(chrT)にアラインした。
>tophat2 chrT_index MixtureC.R1.fq MixtureC.R2.fq
RNAスタンダード及び天然RNA試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の1つの例を実施した。実施例26に記載された方法を用いて生成された配列ファイル(.fastq)をデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
>tophat2 hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
RNAスタンダードからのリードを人工遺伝子にアセンブルする方法の1つの例を実施した。デフォルトパラメータ:
>cufflinks K562_1_mixA.bam
に従って、Cufflink2(Trapnell,Williams et al.2010)を用いて、実施例28に記載された方法によって生成されたアライメントファイル(.bam)を完全長転写構造にアセンブルした。
RNAスタンダード存在量を定量化する方法の1つの例を実施した。最初に、実施例26に記載された方法を用いて、ライブラリー調製及びシーケンシングのために、実施例15の混合物Aとして事前に調製したとおりのRNAスタンダードを、3つの生物学的複写K562RNA試料に添加した。
>tophat2 −G annotations.gtf hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
>cufflinks −G annotations.gtf K562_1_mixA.bam
別のスプライシングを測定するためにRNAスタンダードを用いる方法の1つの例を実施した。個々のアイソフォームの正確な定量は、他の別の同じ遺伝子座からのスプライスアイソフォームと共有される配列のレベルを変えることによって複雑化する。それゆえ、アイソフォーム定量の精度を評価するために、図24Dに示したとおり、混合物A(実施例15で調製した)中のRNAスタンダードの公知のアイソフォーム存在量(アトモル/ulで)に対して、測定されたアイソフォーム存在量(RPKMで)をグラフ化した。次に、K562RNA試料を添加したアイソフォームRNAスタンダードの相関0.93(ピアソンのr)及び傾き0.86を決定し、これにより、アイソフォーム定量の評価が提供された。この結果は、表2にまとめられている。
複数のRNA試料間の差を測定するためにRNAスタンダードを用いる方法の1つの例を実施した。最初に、Coriell Cell Repositories成長プロトコール及び標準に従ってGM12878細胞を培養した。簡潔にいうと、5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco)中でGM12878を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878細胞からRNAを抽出した。実施例14に前述のとおり、及び表1に示したとおり、混合物A及び混合物BとしてRNAスタンダードを調製した。RNA混合物AをK562RNA試料に添加し、RNA混合物BをGM12878RNA試料に添加し、最終試料の最終容積1%(NanoDrop、ThermoScientificによって測定されるとおり)とした。実施例26の上記に記載されたとおりの配列のライブラリーを調製した。上記の実施例28〜30に記載された方法を用いて、人工染色体及び参照ヒトゲノムで、付随するGM12878RNA試料とRNAスタンダード混合物Bのシーケンスされたリードファイル(.fastq)を分析した。結果は、表2にまとめられ、図24B、Fに示されている。
疾患及び正常RNA試料間の差を校正するためにRNAスタンダードを用いる方法の1つの例を実施した。Origeneから3つの正常ヒト肺試料及び3つの肺腺癌試料からの全RNA試料を購入した(試料ID:CR560142、CR559185、CR560128、CR560083、CR560135、CR561324;Rockville、MD)。実施例26に前述の方法を用いて、RNAスタンダード混合物Aを1%総容積でそれぞれの肺腺癌試料に添加し、RNA混合物Bを1%容積でそれぞれの肺正常RNAに添加した。以前に公開されたERCC RNA Spike−In(Consortium 2005)との比較を可能にするために、また、製造者の指示書(tools.lifetechnologies.com/content/sfs/manuals/cms_086340.pdf)に従って、ERCC Spike−In混合物1をそれぞれの肺腺癌試料に添加し、ERCC Spike−In混合物2をそれぞれの肺正常試料に添加した。上記の実施例28〜30に記載された方法を用いて、シーケンシングのライブラリーとして混合したRNA試料を調製し、分析した。結果は、表2にまとめられている。
>Cuffdiff −g CancerGenes_RNAstandards.gtf \
LunGCancer1.sam,LunGCancer2.sam,LunGCancer3.sam \
LungNormal1.sam,LungNormal2.sam,LungNormal3.sam
シーケンシングのためにマウスRNA試料にRNAスタンダードを添加する方法の1つの例を実施した。最初に4ヶ月齢野生型スイスマウスからマウス肝臓組織を得た。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、マウス肝臓試料から全RNAを抽出した。次に、それぞれの試料にTURBO DNase(Life Technologies)でDNAse処理を実施し、続いて、RNA Clean and Concentrator Kit(Zymo Research)でクリーンアップを実施した。全RNAにBioAnalyzerを実行し、完全性をチェックし、濃度を決定した。ライブラリー調製のためにRNA完全性数(RIN)>9.5のRNAだけを用いた。1%容積(NanoDrop、ThermoFischerによって決定されるとおり)で、実施例15の混合物Aとして事前に調製したRNAスタンダードをマウス肝臓RNA試料に添加した。実施例26に記載された方法を用いてRNA試料を調製し、シーケンスした。
>tophat2 mm10_chrT_index ./MouseLiver.R1.fq ./MouseLiver.R2.fq
アライメントファイル(.bam)が提供された。実施例28〜30に前述の方法を用いて、マウス肝臓試料に付随するRNAスタンダードのアライメント、アセンブリ及び定量の分析を実施した。結果は、表2にまとめられ、図27及び28に示されている。特に、マウス肝臓RNA試料を添加した混合物A中のRNAスタンダードの分析は、表2に示したとおり、ヒトRNA試料と用いられるRNAスタンダードと、ほぼ同じ感度(0.56)及び特異性(0.97)を示した。これは、RNAスタンダードの性能がマウスRNA試料への添加によって影響を受けず、シーケンスリードのマウスゲノムへの付随するアライメントによっても影響を受けないことを裏付ける。
非ヒトゲノムでRNAスタンダードからのシーケンスリードを分析する方法の1つの例を実施した。RNAスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、前記実施例28〜30及び34に記載されたのと同等にうまく機能するかどうかを決定した。最初に以下の生物のゲノム配列をダウンロードした:H.sapiens(hg19)、M.musculus(mm10)、C.elegans(ce10)、D.melanogastor(dm3)、A.thalianis(tair9)E.coli(eschColiK12)及びM.kandleri(methKand1)及びS.cerevisae(SacCer6)。それぞれの個々のゲノム配列を人工染色体配列(chrT)と連結し、単一の配列(.fasta)ファイルを形成した。その後、Bowtie2−buildを用いて、製造者の指示書に従って、混合された配列ファイルに対応するインデックスを作製した。
>tophat2 *_chrT_index MixtureC.R1.fq MixtureC.R2.fq
*は、生物ゲノム(例えば、Dm3、hg19等)に相当する。
融合遺伝子発現を測定するためにRNAスタンダードを用いる方法の1つの例を実施した。実施例8に前述のとおり、人工染色体の転座から得られた正常(A1及びB1)遺伝子及び融合遺伝子(B1fA1)の典型であるRNAスタンダードについて、実施例27に記載された方法を用いてリードライブラリーをシミュレートした。図9Bに示したとおり、104倍の範囲を包含するように、2つの正常RNAスタンダード(A1及びB1遺伝子)に対して融合RNAスタンダードの10倍連続希釈に従ってリード存在量を配分する。この結果、リードの逓増小割合で融合RNAスタンダードの発現となった。RNAスタンダード配列リードを、1%の最終濃度まで、詳細が上記に記載されたK562、GM12878、肺正常及び肺癌RNA試料から生成した実験に由来するRNAシーケンシングライブラリーと連結した。さらなる分析のためにライブラリーファイル(.fastq)を生成した。
>tophat2−fusion hg19_chrT_index ./K562.R1.fq ./K562.R2.fq
アライメントファイル(.bam)及び融合ファイル(fusions.out)を生成し、転座によって生成された融合イントロンとオーバーラップしているリードの数(百万当たり;RPM)を示した。図9Bに示したとおり、リードカバレッジに対するそれぞれの融合RNAスタンダード希釈の公知の濃度をグラフ化した。相関(0.982)及び傾き(0.927)を用いて、融合遺伝子RNAスタンダードの定量的精度を評価し、正常遺伝子に対して融合遺伝子発現を定量化することが比較的高精度であることを示す。さらに、また、図9Cに示したとおり、RNA融合遺伝子の相対的存在量と比較した融合RNAスタンダードの同定とみなされる信頼度をグラフ化した。この分析は、付随する天然RNA試料内で対応するカバレッジの融合遺伝子を検出し、定量化することができる精度、感度及び信頼度を示す。
シーケンシングのために天然DNA試料にDNAスタンダードを添加する方法の1つの例を実施した。5%CO2下で、37℃で10%胎児ウシ血清(FBS)を補ったRPMI1640培地(Gibco(登録商標))中でヒトGM12878細胞株(Coriell Cell Repositories)を培養した。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、GM12878からDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で、精製したDNAを定量化した。実施例18及び表5に前述のとおり、混合物AとしてDNAスタンダードを混合した。その後、DNA混合物Aに約1%総容積までGM12878ゲノムDNA(NanoDrop、ThermoScientificで測定されるとおり)を添加した。
DNAスタンダードのアライメント及びアセンブリを評価する方法の1つの例を実施した。上記の実施例17及び20に記載されたとおりの方法を用いて、2つの対立遺伝子(参照及び変異)を有する人工染色体の30の領域とマッチするDNAスタンダードを生成した。DNAスタンダードを等しい存在量に希釈し、等しい割合で混合し、混合物Cの等しい部分を形成した。製造者の指示書に従ってTruSeq Stranded DNA Sample Prep Kit(Illumina)を用いて、DNAライブラリーを調製した。HiSeq 2500装置(Illumina)で、125ntペアエンドリードとして試料をシーケンスする前に、調製したライブラリーをQubit(Invitrogen)で定量化し、Agilent 2100 Bioanalyzer(Agilent Technologies)で確認した。実施例39に記載された方法を用いて、配列リード(.fastq)ファイルを処理し、アラインした。実施例39に記載された方法を用いて、アライメント(.bam)ファイルからのアライメントを評価した。特に、全RNAスタンダードは、十分な存在量があり、完全配列倍数カバレッジに達する。配列倍数カバレッジが限定されないアライメント測定値が、表6にまとめられている。特に、リードアライメントの99%感度及び97%特異性を決定し、これにより、人工染色体の領域の典型であるDNAスタンダードの有用性が確認された。
DNAスタンダード及び天然DNA試料ライブラリーからなるリードを人工染色体及び天然参照ゲノムにアラインする方法の1つの例を実施した。実施例37の方法を用いて生成された配列ファイル(.fastq)をデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、配列ファイルから低クオリティリード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
>bwa mem −M hg19_chrt.bwa sequence.read1.fq sequence.read2.fa >alignments.sam
アライメント(.bam)ファイルを生成した。
以下のとおり、結合されたDNAスタンダードからピペット操作エラーを計算する方法の1つの例を実施した。ここにどのようにして結合されたDNAスタンダードでピペット操作エラーを計算するかを示し、ピペット操作エラーの計算が、どれだけ正確であるかを示す。これは、ピペット操作による変動及び他の原因からの変動の公知のレベルが必要である。これを行うために、最初に実施例38に前述のとおり、等しい組み合わせで混合したDNAスタンダードからのシーケンスされたライブラリーに基づいて、ピペット操作及び他の原因による変動の量をシミュレートした。ピペット操作エラーによる変動は、個々のDNAスタンダードの存在量と全DNAスタンダードの平均存在量との差と定義した。これは、ピペット操作による予測される変動と称され、単一の結合されたDNAスタンダードを一緒に含む個々のDNAスタンダード間で依存し、同一である。同じDNAスタンダード混合物Cから調製したテクニカル複写配列ライブラリーの分析によって、他の原因、例えば、ライブラリー調製及びシーケンシング、による変動を決定した。変動は、DNA Flat mixのテクニカル複写間の正規化した存在量の差に相当する。他の原因による予測される変動は、単一の結合されたDNAスタンダードを一緒に含む個々のDNAスタンダード間で依存せず、異なる。以下に従って、変動のこれらの2つの原因をDNAスタンダード混合物の実測存在量に組み入れた。
実測存在量=予測存在量×ピペット操作による予測される変動×他の原因による予測される変動
DNAスタンダード存在量を定量化する方法の1つの例を実施した。最初にDNAスタンダードによって表される人工染色体のそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、これにより、百万当たりキロベース当たりのリード(RPKM)でそれぞれのDNAスタンダードの実測値を割り当てた。図28Aに示したとおり、それぞれのDNAスタンダードの公知の濃度(アトモル/ulで)と比較したDNAスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関(ピアソンのr)でDNAスタンダード定量を測定し、DNAスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、実施例37でGM12878ゲノムDNA試料で事前に調製したDNAスタンダードでは、0.94の相関がみられる。傾きは、DNAスタンダードのダイナミックレンジで予測存在量に対する実測値の線形比例性を示す。混合物AとしてGM12878試料と混合したDNAスタンダードでは、傾きは、1.01である。結果は、表6にまとめられている。
DNAスタンダードの遺伝的変動を同定する方法の1つの例を実施した。最初に、以下のとおり、SAMtools(Li、Handsaker et al.2009)及びPicardツールを用いて、実施例40に記載された方法を用いて調整したアライメント(.sam)ファイルを前処理した。
>java −jar CreateSequenceDictionary.jar R=hg19_chrT.fa O=hg19_chrT.dict
>samtools faidx hg19_chrT.fa >hg19_chrT.fai
>java −jar SortSam.jar INPUT=alignments.sam OUTPUT=alignments.sort.bam \
SORT_ORDER=coordinate
>java −jar ReorderSam.jar INPUT=alignments.sort.bam \
OUTPUT=alignments.sort.reorder.bam REFERENCE=hg19_chrT.fa
>java −jar BuildBamIndex.jar INPUT=alignments.sort.reorder.bam
疾患及び正常ヒトDNA試料間のDNAスタンダードの変動を定量化する方法の1つの例を実施した。Origene(CD563993、CR563976;Rockville、MD)から正常肺及び肺の腺癌からの市販のDNAを購入した。実施例18で調製したとおりのDNA混合物Aを1%総容積で肺腺癌DNA試料に添加し、DNA混合物Bを1%容積(NanoDropによって決定されるとおり)で肺正常DNA試料に添加した。実施例37に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。実施例41〜42に記載された方法を用いて、リードをアラインし、分析した。結果は、表6にまとめられている。
マウスDNA試料にDNAスタンダードを添加する方法の1つの例。4ヶ月齢野生型スイスSWR/Jマウスからマウス肝臓組織を得た。製造者の指示書に従ってTRIzol(Invitrogen)を用いて、マウス肝臓試料からゲノムDNAを抽出した。抽出されたDNA試料をRNase Aで処理し、続いて、Genomic DNA Clean&Concentrator kit(Zymo Research)でクリーンアップした。Nanodrop(Thermo Scientific)上で精製したDNAを定量化した。実施例18で調製したとおりのDNA混合物Aを1%総容積(NanoDropによって決定されるとおり)でマウスDNA試料に添加した。実施例37に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。
非ヒトゲノムでDNAスタンダードからのシーケンスリードを分析する方法の1つの例を実施した。DNAスタンダードが、一定の範囲の異なる生物クレードからの異なる天然ゲノムで用いられる場合、同等にうまく機能するかどうかを決定した。実施例35に前述の方法によって、付随する人工染色体を有する一定の範囲の生物ゲノムのためのインデックスビルドを生成した。次に、DNAスタンダードからのシーケンスリードを実施例38に記載されたとおりの方法を用いて調製した混合物Cにアラインした。以下のデフォルトパラメータでbowtie(Li and Durbin2009)を用いて、配列リードをそれぞれの生物ゲノム/人工染色体配列にアラインした。
>bowtie2 −x *_chrT_index −1 MixtureC.R1.fq −2 MixtureC.R2.fq
*は、生物ゲノム(例えば、Dm3、hg19等)に相当する。
DNAスタンダード中の疾患と関連した遺伝的変動を同定する方法の1つの例を実施した。実施例22に前述の方法によって生成され、疾患と関係する変動の特定の例の典型であるDNAスタンダードの性能を評価するために、実施例38に記載された方法を用いてシーケンスリードをシミュレートした。遺伝子型(例えば、ヘテロ接合体または変化する不均一スケール)に従って、リード存在量を配分した。
>bwa mem −M hg19_chrAB K562.R1.fq K562.R2.fq >alignments.chrB5.sam
>java −jar  ̄/1000G/GenomeAnalysisTK.jar −T HaplotypeCaller −R hg19_chrAB \
−I alignments.chrB5.sam −−genotyping_mode DISCOVERY
−−defaultBaseQualities 30 −o variants.vcf
DNAスタンダードによって表される構造的変異のアセンブリの方法の1つの例を実施した。人工染色体上の構造的変動の典型であるDNAスタンダード(実施例23に前述のとおり)を1%総容積でK562ゲノムDNA試料に添加した。DNA試料及びライブラリーを調製し、実施例37に前述の方法を用いて、シーケンスし、実施例39に記載された方法を用いて、人工染色体/ヒトゲノムにアラインした。
コピー数反復の測定を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。実施例23に前述の方法によって生成され、D4Z4コピー数変動の典型であるDNAスタンダードの性能を評価するために、実施例38に記載された方法を用いてシーケンスリードをシミュレートした。実施例23に前述のとおり、コピー数(10〜150コピー)に従ってリード存在量を配分した。
環境DNA試料にDNAスタンダードを添加する方法の1つの例。オーストラリアのクイーンズランドのWatsons Creek及びマングローブ畑から土壌を採集した。化学的及び生物学的分析の双方前に4℃で土壌試料を保管した。製造者のプロトコールに従ってPowerSoil(商標)DNA kit(MoBio Laboratories、Carlsbad、CA、USA)を用いて土壌試料からゲノムDNAを抽出した。Nanodrop(Thermo Scientific)によって全ゲノムDNAを定量化した。実施例18で調製したとおりのDNA混合物Aを1%総容積(NanoDropによって決定されるとおり)で土壌DNA試料に添加した。
DNAスタンダードリードを微生物ゲノムにアラインする方法の1つの例を実施した。HiSeq 2500装置によって生成された配列(.fastq)ファイルをデマルチプレックスした。製造者の指示書に従って、trim_galoreを用いて、低品質リード及び配列またはアダプターコンタミ配列を除去した。(http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/)。
>bwa mem −M ArtChr.bwa sequence.read1.fq sequence.read2.fa \ alignments.sam
以下のとおり、微生物ゲノムコミュニティのアセンブリを校正するためにDNAスタンダードリードを用いる方法の1つの例を実施した。製造者の指示書に従ってVelvet(Zerbino and Birney 2008)を用いてde novo配列アセンブリを実施した。
>velvet_1.2.10/velveth ./output 91 −sam soil.sam
>velvet_1.2.10/velvetg ./output −exp_cov auto −cov_cutoff 0 −scaffolding no
微生物ゲノムの定量を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。定量の精度を評価するために、それぞれのアセンブルしたコンティグの公知の濃度(アトモル/ulで)に対して実測存在量(RPKMで)をグラフ化した(図36A、Bに示したとおり)。最初にDNAスタンダードによって表される人工微生物ゲノムのそれぞれの領域でアライメントの頻度を測定した。長さの正規化後に、百万当たりキロベース当たりのリード(RPKM)でそれぞれのDNAスタンダードの実測値を割り当てた。図35Aに示したとおり、それぞれのDNAスタンダードの公知の濃度(アトモル/ulで)と比較したDNAスタンダード存在量の測定値をグラフ化し、定量的精度を評価した。したがって、相関(ピアソンのr)でDNAスタンダード定量を測定し、DNAスタンダード存在量の実測値及び予測値間の一致の指標を提供することができる。例えば、土壌試料1で調製したDNAスタンダードでは、0.96の相関がみられ、傾きは1.061である。結果は、表10にまとめられている。
複数の環境DNA試料間の差を測定するためにDNAスタンダードを用いる方法の1つの例を実施した。最初に、実施例49に前述の方法を用いて低有機含有率の3つの土壌試料との比較のために、高有機含有率の土壌試料の3つの土壌試料からDNAを抽出した。実施例18で調製したとおりのDNA混合物Aを1%総容積で高有機含有率の3つの土壌試料に添加し、DNA混合物Bを1%容積で低有機含有率の3つの土壌試料に添加した。実施例49に前述の方法を用いて、DNA試料及びライブラリーを調製し、シーケンスした。実施例50〜52に記載された方法を用いて、リードをアラインし、分析した。結果は、表10にまとめられ、図36A、Bに示されている。
環境DNA試料中の微生物ゲノムの定量を校正するためにDNAスタンダードを用いる方法の1つの例を実施した。50mLポリプロピレンチューブ中に健康男性から糞便試料を採集した。製造者のプロトコールに従ってMoBio PowerFecal(商標)DNA Isolation kit(MoBio Laboratories、Carlsbad、CA、USA)を用いて糞便試料からDNAを抽出した(0.25g)。
PCR増幅のテンプレートとしてDNAスタンダードを用いる方法の1つの例を実施した。哺乳動物免疫グロブリン配列多様性が増幅され、シーケンスされる免疫レパートリーシーケンシングなどのアンプリコンシーケンシングの方法にDNAスタンダードを用いることができる。実施例25に記載された方法を用いて、人工TCRγクロノタイプの典型であるDNAを事前に製造した。製造者の指示書に従ってTCRγ遺伝子座(チューブA及びBに存在する)のユニバーサルBIOMED2プライマー配列(vanDongen、Langerak et al.2003)を用いてDNAスタンダードにPCR増幅(KAPA Biosystems)した。BioAnalyser(2100 High Sensitivity DNA Assay;Agilent)を用いて増幅された生成物を分析した。図34に示したとおり、BioAnalyserトレースが、全15のTCRγクロノタイプDNAスタンダードからの正確なサイズ750nt生成物の増幅を示す。これは、免疫レパートリーシーケンシング中のPCR増幅のテンプレートとしてのDNAスタンダードの有用性を確認する。
哺乳動物免疫グロブリン配列多様性の分析にDNAスタンダードを用いる方法の1つの例を実施した。実施例25に記載された方法によって生成され、人工TCRβクロノタイプの典型であるDNAスタンダードの性能を評価するために、最初に、BIOMED−2TCRβマルチプレックスプライマー配列(チューブA〜C)(van Dongen,Langerak et al.2003)でDNAスタンダードのin silicoPCR増幅(http://insilico.ehu.es/PCR/)を実施し、約750ntアンプリコン配列を生成した。正確な相補性を有するにはプライマー結合部位が必要であり、プライマー特異的増幅偏りがないと想定した。次に、実施例38に前述の方法を用いてアンプリコン配列からのシーケンスリードをシミュレートした。実施例25に記載されたとおり、DNAスタンダードの相対濃度に従ってリード存在量を配分した。3人の健康ヒト対象中のTCRβ遺伝子座の事前に公開された実験的アンプリコンシーケンシングライブラリー(.fastq)に1%フラクションでリードを添加する(Zvyagin、Pogorelyy et al.2014)。Accession ID:SRP028752で、NCBI Short Read Archive(SRA)からこのデータを取り出した。これらの3つのライブラリーは、健康成人ヒト対象のTCRβクロノタイププロファイルの典型である。製造者の推奨に従ってMiTCRを用いてヒトライブラリーファイルを分析する(Bolotin、Mamedov et al.2012)。
16S rRNA系統プロファイリングの分析にDNAスタンダードを用いる方法の1つの例を実施した。表9に示したとおり、一定の範囲の分類群、サイズ、GC含有率及びrRNAオペロンカウントの典型である6つの異なる人工微生物ゲノムからの16S rRNA遺伝子とマッチする長さ1018ntの6つのDNAスタンダード(配列番号:161〜166)を生成した。DNAスタンダードは、追加のフランキング250nt配列を有して、16S rRNA遺伝子のV3領域中の2つのユニバーサル16S プライマーとオーバーラップするように設計される。16S DNAスタンダードは、ユニークアンプリコン配列を生成するためのPCR増幅のテンプレートを形成する。ユニバーサル16S プライマー配列でin silicoPCR増幅(http://insilico.ehu.es/PCR/)を実施した。これは、DNAスタンダードのそれぞれからユニークで別個のアンプリコンを生成した。図11に示したとおり、(i)人工コミュニティ内の微生物ゲノムの初期存在量及び(ii)人工微生物ゲノム内のrRNAオペロンコピー数に従って、それぞれのアンプリコンの存在量を配分した。また、アンプリコン存在量が、プライマー結合効率によって影響を受ける可能性がある、16S DNAスタンダードを用いてプライマー結合効率の差を同定し、正規化することができる。しかし、この分析では、PCR増幅に偏りがないと想定した。次に、実施例38に前述の方法を用いて16S DNAスタンダードからシーケンスされたリードライブラリーを生成した。意図されたアンプリコン濃度に従ってリード存在量を配分し、人工微生物コミュニティの16S プロファイリングから生成したシーケンスされたリードライブラリーとシーケンスされたリードライブラリーを混合した。図11Bに示したとおり、意図された濃度に対して16S DNAスタンダードの実測存在量をグラフ化した。図11Cに示したとおり、人工微生物ゲノムの存在量を完全に正規化するにはrRNAオペロンカウントが必要であることを明記する。これは、それ以下であると付随する試料中のいずれの微生物ゲノムも、確実に検出されない可能性がある検出の限界を示す。
以下のとおり、シーケンシング中のGC偏りを校正するためにDNAスタンダードを用いる方法の1つの例を実施した。約27%、68%及び74%GC含有率に対応する3つの異なる群に区別した9つのDNAスタンダードを設計し、製造した(配列番号:140〜148)。GC−Metaスタンダード間の長さ特異的偏りを最少化するには、全DNAスタンダードがほぼ同じ長さ(1,000nt)のものとなる。実施例38に前述の方法を用いて、等しい濃度で9つのDNAスタンダードを混合し、単一の混合物を形成した。クイーンズランドのWatsons Creek及びマングローブ畑から採集した土壌から取ったDNAにこの混合物を1%総容積で添加した。実施例49に前述の方法を用いて、ライブラリーとして混合したDNA試料を調製し、シーケンスした。
>bwa mem −M chrt.bwa sequence.read1.fq sequence.read2.fa / >alignments.sam
以下のとおり、免疫レパートリーシーケンシングを校正するためにTCRγクロノタイプをミミックする合成DNAスタンダードを用いる方法の1つの例を実施した。TCRγ(TCRG)は、それが生成するクロノタイプの比較的制限されたスイートのためにクローン性分析の優先の標的である。この例では、マルチプレックスPCR及び免疫受容体シーケンシングの間に合成TCRGスタンダードを設計し、製造し、用いた。
以下のとおり、結合された合成スタンダードを定量的DNAラダーとして用いる方法の1つの例を実施した。上記に説明したとおり、ピペット操作のエラーが、複数のスタンダードの存在量間で変動を生じさせる可能性がある。ピペット操作エラーを除去するために、個々のDNAスタンダードを一緒に結合することができる。かかる場合には、コピー数の差が存在量差となる。個々のスタンダード間の依存する変動を用いて、ピペット操作の変動によるエラーを計算し、別のスタンダード間の正確な頻度を確実にすることができる。
以下のとおり、融合遺伝子事象をミミックする合成スタンダードを用いる方法の1つの例を実施した。融合遺伝子事象は多くのヒト癌の一因となるが、これはRNAシーケンシング方法を用いて同定するのが難しい可能性がある。合成RNAスタンダードを用いて、融合遺伝子をエミュレートし、これにより、融合遺伝子を検出する能力を評価することができる。この例では、RNAシーケンシング方法を校正するために合成融合遺伝子スタンダードを設計し、製造し、用いた。
以下のとおり、生殖細胞系変動をミミックする合成スタンダードを用いる方法の1つの例を実施した。倍数体ヒトゲノム中の生殖細胞系変動は、主としてホモ接合体及びヘテロ接合体対立遺伝子頻度で、生じる。ホモ接合体遺伝子型は、単一のDNAスタンダードによって表すことができ、同時に、等しい頻度で2つの対立遺伝子を含むヘテロ接合体変動は、2つのDNAスタンダードを必要とする。2つを越える対立遺伝子が集団中に存在してよく、それぞれの対立遺伝子の典型である新しいDNAスタンダードが必要である。しかし、ヒトゲノムは、倍数体(すなわち、それぞれの常染色体性染色体の2つのコピーがある)であるため、2つのスタンダードだけが、個々のヒトの倍数体ゲノムをミミックする任意の1回で必要となる。
以下のとおり、体細胞変動をミミックする合成スタンダードを用いる方法の1つの例を実施した。体細胞変動は、多くの状態を実証することができ、癌の腫瘍変動がそのうちで最も重要である。ホモ接合体またはヘテロ接合体のいずれかであり、所与の個体の全細胞中に存在する生殖細胞系変動と異なり、体細胞変動は、腫瘍試料内の細胞のフラクション(サブクローン集団)だけに存在する可能性があり、また、腫瘍ゲノム中の頻繁な再配列及びコピー数変動によって混同される可能性がある。例えば、腫瘍が、その細胞系列に従って別個の遺伝子型を有する複数のクローン細胞集団を含む可能性がある。結果として、体細胞変動は、広い範囲の異なる頻度で存在する可能性がある。
以下のとおり、複合遺伝子型をミミックする合成スタンダードを用いる方法の1つの例を実施した。染色体異数性の場合、または複数の個々の遺伝子型が同時にサンプル抽出される場合、より多くの複合遺伝子型がみられる可能性がある。例えば、妊婦の血液中で循環するDNAが考慮される場合、2つのオーバーラップしている遺伝子型、胎児(母親及び父親の双方の対立遺伝子を構成する)及び母親(2つの母親の対立遺伝子を構成する)が検出される。胎児対立遺伝子は、胎児に由来する循環DNAのフラクションと共に(これは妊娠中に母親の循環DNAの約1〜40%から変えることができる)ホモ接合体及びヘテロ接合体対立遺伝子頻度の双方に従って、一定の範囲の濃度でみられる可能性がある。対立遺伝子頻度は、さらに、常染色体性染色体が、非倍数体頻度で、例えば、21−トリソミー、最も一般的な遺伝的先天異常で存在する染色体異数性によって複雑化する可能性がある。例えば、染色体21の変異の典型であるDNAスタンダードを、他の常染色体性染色体の変動の典型であるDNAスタンダードより1.5倍のより高い頻度で添加し、21−トリソミーをエミュレートした。それゆえ、DNAスタンダードによって表される対立遺伝子頻度は、(i)遺伝子型頻度(すなわち、ヘテロ接合体またはホモ接合体)(ii)循環中の胎児及び母親のDNAの相対的存在量及び(iii)胎児ゲノム中のコピー数変動(例えば、染色体異数性)の混合に反映する。
以下のとおり、テンプレート配列をリバースすることによるスタンダードの生成方法の1つの例を実施した。特に、以下の例は、コードされるタンパク質中でミスセンス置換(V617E)を生じさせ、癌と関係するJAK2遺伝子(COSM12600)中で1,849ntで生じる置換変動(G>T)をエミュレートするためにどのようにDNAスタンダードを設計するかを示す。
以下のとおり、テンプレート配列をリバースすることによって小規模または大規模な遺伝的変動をミミックするスタンダードの生成方法の1つの例を実施した。欠失または挿入などのより大きな構造的遺伝的事象を表す場合、変動を取り巻く配列反復性及び構造を維持することが重要である可能性があり、これは、局所リードアライメントが大きな変異の構造を分解するのにきわめて重要である可能性があるためである。それゆえ、DNAスタンダードを生成するためのテンプレート配列のリバージョン及び/または置換は、大きな構造的変異を表し、天然の大きな構造的変異にみられる多くは複合のアーキテクチャ及び反復配列構造を維持するのに特に有利な方法を提供する。
・Altschul,S.F.,Gish,W.,Miller,W.,Myers,E.W.& Lipman,D.J.Basic local alignment search tool.J Mol Biol 215,403−10(1990)。
・Anders,S.,D.J.McCarthy,Y.Chen,M.Okoniewski,G.K.Smyth,W.Huber and M.D.Robinson(2013).”Count−based differential expression analysis of RNA sequencing data using R and Bioconductor.” Nat Protoc 8(9):1765−1786。
・Baker,S.C.et al.The External RNA Controls Consortium:a progress report.Nat Methods 2,731−4(2005)。
・Bentley,D.R.et al.Accurate whole human genome sequencing using reversible terminator chemistry.Nature 456,53−9(2008)。
・Bernstein,B.E.et al.Genomic maps and comparative analysis of histone modifications in human and mouse.Cell 120,169−81(2005)。
・Bolotin,D.A.,I.Z.Mamedov,O.V.Britanova,I.V.Zvyagin,D.Shagin,S.V.Ustyugova,M.A.Turchaninova,S.Lukyanov,Y.B.Lebedev and D.M.Chudakov ”Next generation sequencing for TCR repertoire profiling:platform−specific features and correction algorithms.” Eur J Immunol 42(11):3073−3083(2012)。
・Burset,M.and R.Guigo ”Evaluation of gene structure prediction programs.” Genomics 34(3):353−367(1996)。
・Carlson,C.,O’Emerson,R.,Sherwood,A.,Desmarais,C.,Chung,M−W.,Parsons,J.,Steen,M.,A LaMadrid−Herrmannsfeldt,M.,Williamson,D.,Livingston,R.,Wu,D.,Wood,B,Rieder,M.& Robins,H.”Using synthetic templates to design an unbiased multiplex PCR assay.” Nature Communications 4,Article number 2680(2013)。
・Chen,K.,J.W.Wallis,M.D.McLellan,D.E.Larson,J.M.Kalicki,C.S.Pohl,S.D.McGrath,M.C.Wendl,Q.Zhang,D.P.Locke,X.Shi,R.S.Fulton,T.J.Ley,R.K.Wilson,L.Ding and E.R.Mardis(2009).”BreakDancer:an algorithm for high−resolution mapping of genomic structural variation.” Nat Methods 6(9):677−681。
・Chen,Y.C.,Liu,T.,Yu,C.H.,Chiang,T.Y.& Hwang,C.C.Effects of GC bias in next−generation−sequencing data on de novo genome assembly.PLoS One 8,e62856(2013)。
・Clarke,J.et al.Continuous base identification for single−molecule nanopore DNA sequencing.Nat Nanotechnol 4,265−70(2009)。
・Consortium,E.(2005).”Proposed methods for testing and selecting the ERCC external RNA controls.” BMC Genomics 6:150。
・Coward,E.(1999).”Shufflet:shuffling sequences while conserving the k−let counts.” Bioinformatics 15(12):1058−1059。
・Davies,H.et al.Mutations of the BRAF gene in human cancer.Nature 417,949−54(2002)。
・DePristo,M.A.,E.Banks,R.Poplin,K.V.Garimella,J.R.Maguire,C.Hartl,A.A.Philippakis,G.del Angel,M.A.Rivas,M.Hanna,A.McKenna,T.J.Fennell,A.M.Kernytsky,A.Y.Sivachenko,K.Cibulskis,S.B.Gabriel,D.Altshuler and M.J.Daly(2011).”A framework for variation discovery and genotyping using next−generation DNA sequencing data.” Nat Genet 43(5):491−498。
・Dobin,A.,C.A.Davis,F.Schlesinger,J.Drenkow,C.Zaleski,S.Jha,P.Batut,M.Chaisson and T.R.Gingeras(2013).”STAR:ultrafast universal RNA−seq aligner.” Bioinformatics 29(1):15−21。
・Edwards,R.A.et al.Using pyrosequencing to shed light on deep mine microbial ecology.BMC Genomics 7,57(2006)。
・Eid,J.et al.Real−time DNA sequencing from single polymerase molecules.Science 323,133−8(2009)。
・Futreal,P.A.,L.Coin,M.Marshall,T.Down,T.Hubbard,R.Wooster,N.Rahman and M.R.Stratton(2004).”A census of human cancer genes.” Nat Rev Cancer 4(3):177−183。
・Grosveld,G.,T.Verwoerd,T.van Agthoven,A.de Klein,K.L.Ramachandran,N.Heisterkamp,K.Stam and J.Groffen(1986).”The chronic myelocytic cell line K562 contains a breakpoint in bcr and produces a chimeric bcr/c−abl transcript.” Mol Cell Biol 6(2):607−616。
・Haas,B.J.,A.Papanicolaou,M.Yassour,M.Grabherr,P.D.Blood,J.Bowden,M.B.Couger,D.Eccles,B.Li,M.Lieber,M.D.Macmanes,M.Ott,J.Orvis,N.Pochet,F.Strozzi,N.Weeks,R.Westerman,T.William,C.N.Dewey,R.Henschel,R.D.Leduc,N.Friedman and A.Regev(2013).”De novo transcript sequence reconstruction from RNA−seq using the Trinity platform for reference generation and analysis.” Nat Protoc 8(8):1494−1512。
・Harrow,J.,F.Denoeud,A.Frankish,A.Reymond,C.K.Chen,J.Chrast,J.Lagarde,J.G.Gilbert,R.Storey,D.Swarbreck,C.Rossier,C.Ucla,T.Hubbard,S.E.Antonarakis and R.Guigo(2006).”GENCODE:producing a reference annotation for ENCODE.” Genome Biol 7 Suppl 1:S4 1−9。
・Harrow,J.,A.Frankish,J.M.Gonzalez,E.Tapanari,M.Diekhans,F.Kokocinski,B.L.Aken,D.Barrell,A.Zadissa,S.Searle,I.Barnes,A.Bignell,V.Boychenko,T.Hunt,M.Kay,G.Mukherjee,J.Rajan,G.Despacio−Reyes,G.Saunders,C.Steward,R.Harte,M.Lin,C.Howald,A.Tanzer,T.Derrien,J.Chrast,N.Walters,S.Balasubramanian,B.Pei,M.Tress,J.M.Rodriguez,I.Ezkurdia,J.van Baren,M.Brent,D.Haussler,M.Kellis,A.Valencia,A.Reymond,M.Gerstein,R.Guigo and T.J.Hubbard(2012).”GENCODE:the reference human genome annotation for The ENCODE Project.” Genome Res 22(9):1760−1774。
・Iqbal,Z.,M.Caccamo,I.Turner,P.Flicek and G.McVean(2012).”De novo assembly and genotyping of variants using colored de Bruijn graphs.” Nat Genet 44(2):226−232。
・Jiang,M.,J.Anderson,J.Gillespie and M.Mayne(2008).”uShuffle:a useful tool for shuffling biological sequences while preserving the k−let counts.” BMC Bioinformatics 9:192。
・Jiang,L.et al.Synthetic spike−in standards for RNA−seq experiments.Genome Res 21,1543−51(2011)。
・Johnson,D.S.,Mortazavi,A.,Myers,R.M.& Wold,B.Genome−wide mapping of in vivo protein−DNA interactions.Science 316,1497−502(2007)。
・Katz,Y.,E.T.Wang,E.M.Airoldi and C.B.Burge(2010).”Analysis and design of RNA sequencing experiments for identifying isoform regulation.” Nat Methods 7(12):1009−1015。
・Kelley,D.R.,M.C.Schatz and S.L.Salzberg(2010).”Quake:quality−aware detection and correction of sequencing errors.” Genome Biol 11(11):R116。
・Kim,D.,G.Pertea,C.Trapnell,H.Pimentel,R.Kelley and S.L.Salzberg(2013).”TopHat2:accurate alignment of transcriptomes in the presence of insertions,deletions and gene fusions.” Genome Biol 14(4):R36。
・Koboldt,D.C.et al.(2009) ”VarScan:variant detection in massively parallel sequencing of individual and pooled samples.” Bioinformatics 25:2283−5。
・Lander,E.S.et al.Initial sequencing and analysis of the human genome.Nature 409,860−921(2001)。
・Langmead,B.and S.L.Salzberg(2012).”Fast gapped−read alignment with Bowtie 2.” Nat Methods 9(4):357−359。
・Langmead,B.,C.Trapnell,M.Pop and S.L.Salzberg(2009).”Ultrafast and memory−efficient alignment of short DNA sequences to the human genome.” Genome Biol 10(3):R25。
・Law,J.C.,Ritke,M.K.,Yalowich,J.C.,Leder,G.H.& Ferrell,R.E.Mutational inactivation of the p53 gene in the human erythroid leukemic K562 cell line.Leuk Res 17,1045−50(1993)。
・Li,H.and R.Durbin(2009).”Fast and accurate short read alignment with Burrows−Wheeler transform.” Bioinformatics 25(14):1754−1760。
・Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis and R.Durbin(2009).”The Sequence Alignment/Map format and SAMtools.” Bioinformatics 25(16):2078−2079。
・Li,H.,B.Handsaker,A.Wysoker,T.Fennell,J.Ruan,N.Homer,G.Marth,G.Abecasis,R.Durbin and S.Genome Project Data Processing(2009).”The Sequence Alignment/Map format and SAMtools.” Bioinformatics 25(16):2078−2079。
・Lieberman−Aiden,E.et al.Comprehensive mapping of long−range interactions reveals folding principles of the human genome.Science 326,289−93(2009)。
・Logan,A.C.,H.Gao,C.Wang,B.Sahaf,C.D.Jones,E.L.Marshall,I.Buno,R.Armstrong,A.Z.Fire,K.I.Weinberg,M.Mindrinos,J.L.Zehnder,S.D.Boyd,W.Xiao,R.W.Davis and D.B.Miklos(2011).”High−throughput VDJ sequencing for quantification of minimal residual disease in chronic lymphocytic leukemia and immune reconstitution assessment.” Proc Natl Acad Sci U S A 108(52):21194−21199。
・MacDonald,J.R.,R.Ziman,R.K.Yuen,L.Feuk and S.W.Scherer(2014).”The Database of Genomic Variants:a curated collection of structural variation in the human genome.” Nucleic Acids Res 42(Database issue):D986−992。
・McKenna,A.,M.Hanna,E.Banks,A.Sivachenko,K.Cibulskis,A.Kernytsky,K.Garimella,D.Altshuler,S.Gabriel,M.Daly and M.A.Depristo(2010).”The Genome Analysis Toolkit:A MapReduce framework for analyzing next−generation DNA sequencing data.” Genome Res。
・Meacham,F.,D.Boffelli,J.Dhahbi,D.I.Martin,M.Singer and L.Pachter(2011).”Identification and correction of systematic error in high−throughput sequence data.” BMC Bioinformatics 12:451。
・Mitterbauer,G.,P.Nemeth,S.Wacha,N.C.Cross,I.Schwarzinger,U.Jaeger,K.Geissler,H.T.Greinix,P.Kalhs,K.Lechner and C.Mannhalter(1999).”Quantification of minimal residual disease in patients with BCR−ABL−positive acute lymphoblastic leukaemia using quantitative competitive polymerase chain reaction.” Br J Haematol 106(3):634−643。
・Mortazavi,A.,Williams,B.A.,McCue,K.,Schaeffer,L.& Wold,B.Mapping and quantifying mammalian transcriptomes by RNA−Seq.Nat Methods 5,621−8(2008)。
・Pearson,W.R.and D.J.Lipman(1988).”Improved tools for biological sequence comparison.” Proc Natl Acad Sci U S A 85(8):2444−2448。
・Piva,F.and G.Principato(2006).”RANDNA:a random DNA sequence generator.” In Silico Biol 6(3):253−258。
・Robinson,M.D.,D.J.McCarthy and G.K.Smyth(2010).”edgeR:a Bioconductor package for differential expression analysis of digital gene expression data.” Bioinformatics 26(1):139−140。
・Ronaghi,M.,Uhlen,M.& Nyren,P.A sequencing method based on real−time pyrophosphate.Science 281,363,365(1998)。
・Rothberg,J.M.et al.An integrated semiconductor device enabling non−optical genome sequencing.Nature 475,348−52(2011)。
・Schaap,M.,R.J.Lemmers,R.Maassen,P.J.van der Vliet,L.F.Hoogerheide,H.K.van Dijk,N.Basturk,P.de Knijff and S.M.van der Maarel(2013).”Genome−wide analysis of macrosatellite repeat copy number variation in worldwide populations:evidence for differences and commonalities in size distributions and size restrictions.” BMC Genomics 14:143。
・Sherry,S.T.,M.H.Ward,M.Kholodov,J.Baker,L.Phan,E.M.Smigielski and K.Sirotkin(2001).”dbSNP:the NCBI database of genetic variation.” Nucleic Acids Res 29(1):308−311。
・Simon,N.E.and A.Schwacha(2014).”The Mcm2−7 Replicative Helicase:A Promising Chemotherapeutic Target.” Biomed Res Int 2014:549719。
・Simpson,J.T.,K.Wong,S.D.Jackman,J.E.Schein,S.J.Jones and I.Birol(2009).”ABySS:a parallel assembler for short read sequence data.” Genome Res 19(6):1117−1123。
・Singh,J.,A.Behal,N.Singla,A.Joshi,N.Birbian,S.Singh,V.Bali and N.Batra(2009).”Metagenomics:Concept,methodology,ecological inference and recent advances.” Biotechnol J 4(4):480−494。
・Trapnell,C.,B.A.Williams,G.Pertea,A.Mortazavi,G.Kwan,M.J.van Baren,S.L.Salzberg,B.J.Wold and L.Pachter(2010).”Transcript assembly and quantification by RNA−Seq reveals unannotated transcripts and isoform switching during cell differentiation.” Nat Biotechnol 28(5):511−515。
・van der Maarel,S.M.and R.R.Frants(2005).”The D4Z4 repeat−mediated pathogenesis of facioscapulohumeral muscular dystrophy.” Am J Hum Genet 76(3):375−386。
・van Dongen,J.J.,A.W.Langerak,M.Bruggemann,P.A.Evans,M.Hummel,F.L.Lavender,E.Delabesse,F.Davi,E.Schuuring,R.Garcia−Sanz,J.H.van Krieken,J.Droese,D.Gonzalez,C.Bastard,H.E.White,M.Spaargaren,M.Gonzalez,A.Parreira,J.L.Smith,G.J.Morgan,M.Kneba and E.A.Macintyre(2003).”Design and standardization of PCR primers and protocols for detection of clonal immunoglobulin and T−cell receptor gene recombinations in suspect lymphoproliferations:report of the BIOMED−2 Concerted Action BMH4−CT98−3936.” Leukemia 17(12):2257−2317。
・Villesen,P.(2007).”FaBox:an online toolbox for fasta sequences.” Molecular Ecology Notes 7(6):965−968。
・Yang,J.,N.Ramnath,K.B.Moysich,H.L.Asch,H.Swede,S.J.Alrawi,J.Huberman,J.Geradts,J.S.Brooks and D.Tan(2006).”Prognostic significance of MCM2,Ki−67 and gelsolin in non−small cell lung cancer.” BMC Cancer 6:203。
・Zerbino,D.R.and E.Birney(2008).”Velvet:algorithms for de novo short read assembly using de Bruijn graphs.” Genome Res 18(5):821−829。
・Zhang,W.,W.Gong,H.Ai,J.Tang and C.Shen(2014).”Gene expression analysis of lung adenocarcinoma and matched adjacent non−tumor lung tissue.” Tumori 100(3):338−345。
・Zook,J.M.et al.Integrating human sequence data sets provides a resource of benchmark SNP and indel genotype calls.Nat Biotechnol 32,246−51(2014)。
・Zvyagin,I.V.,M.V.Pogorelyy,M.E.Ivanova,E.A.Komech,M.Shugay,D.A.Bolotin,A.A.Shelenkov,A.A.Kurnosov,D.B.Staroverov,D.M.Chudakov,Y.B.Lebedev and I.Z.Mamedov(2014).”Distinctive properties of identical twins’ TCR repertoires revealed by high−throughput sequencing.” Proc Natl Acad Sci U S A 111(16):5980−5985。
Claims (21)
- 人工ポリヌクレオチド配列を含む人工染色体であって、前記人工ポリヌクレオチド配列のいずれかのフラグメントが公知の天然ゲノム配列のいずれかと識別可能である前記人工染色体。
- 前記人工ポリヌクレオチド配列の1,000隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
- 前記人工ポリヌクレオチド配列の100隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
- 前記人工ポリヌクレオチド配列の21隣接ヌクレオチドのいずれかが、同じ長さの公知の天然ゲノム配列のいずれかと100%未満の配列同一性を有する、請求項1に記載の人工染色体。
- 前記人工ポリヌクレオチド配列が、遺伝子座、CpGアイランド、モバイルエレメント、反復ポリヌクレオチド特徴、小規模な遺伝的変動及び大規模な遺伝的変動からなる群から選択される天然真核生物染色体の特徴のいずれか1つまたはそれ以上を含む、請求項1〜4のいずれか1項に記載の人工染色体。
- 請求項5に記載の人工染色体であって、
i)前記人工ポリヌクレオチド配列が、複数の遺伝子座を含み;
ii)前記反復ポリヌクレオチドの特徴が、末端反復、タンデム反復、逆方向反復及び散在性反復のいずれか1つまたはそれ以上を含み;
iii)前記遺伝子座が、免疫受容体遺伝子座を含み;
iv)前記小規模な遺伝的変動が、1つ以上のSNP、1つ以上の挿入、1つ以上の欠失、1つ以上のマイクロサテライト及び/または複数のヌクレオチド多型を含み;及び/または
v)前記大規模な遺伝的変動が、1つ以上の欠失、1つ以上の複製、1つ以上のコピー数変異、1つ以上の挿入、1つ以上の逆位及び/または1つ以上の転座を含む、前記人工染色体。 - 天然原核生物染色体の1つ以上の特徴を含む、請求項1〜4のいずれか1項に記載の人工染色体。
- 前記人工ポリヌクレオチド配列の20〜10,000,000隣接ヌクレオチドを含む、請求項1〜7のいずれか1項に記載の人工染色体のフラグメント。
- RNAフラグメントまたはDNAフラグメントである、請求項8に記載のフラグメント。
- 隣接ポリヌクレオチド配列を形成するように結合された2つの以上の請求項8に記載のフラグメントを含む人工ポリヌクレオチド配列。
- RNAまたはDNAポリヌクレオチド配列である、請求項10に記載の人工ポリヌクレオチド配列。
- フラグメントが前記人工ポリヌクレオチド配列の20〜10,000,000隣接ヌクレオチドを含む、請求項1〜7のいずれか1項に記載の人工染色体のDNAフラグメントを含むベクター。
- 人工ポリヌクレオチド配列がDNAポリヌクレオチド配列である、請求項10に記載の人工ポリヌクレオチド配列を含むベクター。
- エンドヌクレアーゼ消化によって請求項12に記載のベクターから前記フラグメントを切除すること、または、請求項12に記載のベクター内に含まれる前記DNAフラグメントを増幅もしくは転写することを含む、請求項8または請求項9に記載のフラグメントの生成方法。
- エンドヌクレアーゼ消化によって請求項13に記載のベクターから前記人工ポリヌクレオチド配列を切除すること、または、請求項13に記載のベクター内に含まれる前記人工ポリヌクレオチド配列を増幅もしくは転写することを含む、請求項10または請求項11に記載の人工ポリヌクレオチド配列の生成方法。
- ポリヌクレオチドシーケンシングプロセスを校正するための請求項1〜7のいずれか1項に記載の人工染色体及び/または請求項8もしくは請求項9に記載のフラグメント及び/または請求項10もしくは請求項11に記載の人工ポリヌクレオチド配列の使用。
- ポリヌクレオチドシーケンシングプロセスの校正方法であって、
i)請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメント及び/または請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列を、決定される標的ポリヌクレオチド配列を含む試料に添加すること;
ii)前記標的ポリヌクレオチドの配列を決定すること;
iii)請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメント及び/または請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列の配列を決定すること;及び
iv)オリジナル配列が請求項1〜7のいずれか1項に定義されるとおりの前記人工染色体中に存在する、前記フラグメント及び/または前記人工ポリヌクレオチド配列のオリジナル配列とiii)で決定された前記配列を比較すること;
を含み、ii)の配列決定を校正するために、iii)の配列決定の精度が用いられる、前記方法。 - ポリヌクレオチド定量プロセスを校正するための請求項1〜7のいずれか1項に記載の人工染色体及び/または請求項8もしくは請求項9に記載のフラグメント及び/または請求項10もしくは請求項11に記載の人工ポリヌクレオチド配列の使用。
- ポリヌクレオチド定量プロセスの校正方法であって、
i)公知の量の、請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメント及び/または請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列を、決定される標的ポリヌクレオチド配列を含む試料に添加すること;
ii)前記標的ポリヌクレオチドの量を測定すること;
iii)請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメント及び/または請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列の量を決定すること;及び
iv)i)の1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の公知の量と、iii)で測定される1つ以上のフラグメント及び/または1つ以上の人工ポリヌクレオチド配列の量を比較すること;
を含み、ii)の量決定を校正するために、iii)の量決定の精度が用いられる、前記方法。 - 請求項1〜7のいずれか1項に記載の1つ以上の人工染色体及び請求項8もしくは請求項9に定義されるとおりの1つ以上のフラグメントまたは請求項10もしくは請求項11に定義されるとおりの1つ以上の人工ポリヌクレオチド配列を含むキット。
- コンピュータプログラム可能媒体であって、これに記憶される請求項1〜7のいずれか1項に記載の1つ以上の人工染色体を含有する、前記コンピュータプログラム可能媒体。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2014905092 | 2014-12-16 | ||
AU2014905092A AU2014905092A0 (en) | 2014-12-16 | Sequencing controls | |
AU2015903892A AU2015903892A0 (en) | 2015-09-24 | Sequencing controls | |
AU2015903892 | 2015-09-24 | ||
PCT/AU2015/050797 WO2016094947A1 (en) | 2014-12-16 | 2015-12-15 | Sequencing controls |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017537646A true JP2017537646A (ja) | 2017-12-21 |
Family
ID=56125446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017532128A Pending JP2017537646A (ja) | 2014-12-16 | 2015-12-15 | シーケンシングコントロール |
Country Status (9)
Country | Link |
---|---|
US (2) | US20180148778A1 (ja) |
EP (1) | EP3234128A4 (ja) |
JP (1) | JP2017537646A (ja) |
KR (2) | KR20240004617A (ja) |
CN (2) | CN107250356A (ja) |
AU (2) | AU2015367290A1 (ja) |
CA (1) | CA2965849A1 (ja) |
HK (1) | HK1245830A1 (ja) |
WO (1) | WO2016094947A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190138466A (ko) * | 2018-06-05 | 2019-12-13 | 연세대학교 산학협력단 | 차세대 염기서열 분석법의 정확도를 분석하는 방법 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11514289B1 (en) * | 2016-03-09 | 2022-11-29 | Freenome Holdings, Inc. | Generating machine learning models using genetic data |
WO2017165864A1 (en) * | 2016-03-25 | 2017-09-28 | Karius, Inc. | Synthetic nucleic acid spike-ins |
US10796000B2 (en) * | 2016-06-11 | 2020-10-06 | Intel Corporation | Blockchain system with nucleobase sequencing as proof of work |
CN111094583A (zh) | 2017-08-04 | 2020-05-01 | 十亿至一公司 | 与生物靶相关的定量中利用靶相关分子的测序输出确定和分析 |
EP3681996A1 (en) * | 2017-09-15 | 2020-07-22 | King's College London | Compositions and methods for enhancing gamma delta t cells in the gut |
WO2019060716A1 (en) | 2017-09-25 | 2019-03-28 | Freenome Holdings, Inc. | SAMPLE EXTRACTION METHODS AND SYSTEMS |
WO2019147663A1 (en) * | 2018-01-24 | 2019-08-01 | Freenome Holdings, Inc. | Methods and systems for abnormality detection in the patterns of nucleic acids |
CN110211636A (zh) * | 2018-02-23 | 2019-09-06 | 暨南大学 | 优化基因组测序结果的分类方法 |
US20210180112A1 (en) * | 2018-04-20 | 2021-06-17 | Biofire Diagnostics, Llc | Methods for normalization and quantification of sequencing data |
KR102191034B1 (ko) * | 2018-06-05 | 2020-12-15 | 연세대학교 산학협력단 | 차세대 염기서열 분석법의 정확도 측정용 조성물 |
WO2020041449A1 (en) * | 2018-08-21 | 2020-02-27 | Zymo Research Corporation | Methods and compositions for tracking sample quality |
US11385215B2 (en) | 2019-02-25 | 2022-07-12 | Trace Genomics, Inc. | Soil health indicators using microbial functional genes |
WO2020174406A1 (en) * | 2019-02-28 | 2020-09-03 | Inivata Ltd. | Method for quantifying the amount of a target sequence in a nucleic acid sample |
US20210366569A1 (en) * | 2019-06-03 | 2021-11-25 | Illumina, Inc. | Limit of detection based quality control metric |
JP2023513725A (ja) * | 2020-02-13 | 2023-04-03 | ガーヴァン インスティチュート オブ メディカル リサーチ | 参照ラダー及びアダプター |
CN114078568B (zh) * | 2020-09-14 | 2022-07-05 | 青岛欧易生物科技有限公司 | 基于iib型限制性内切酶特征的宏基因组测序数据处理***及处理方法 |
CN114196744B (zh) * | 2020-09-18 | 2024-04-09 | 赛纳生物科技(北京)有限公司 | 一种多碱基基因测序中信号归一化的方法 |
CN112662795B (zh) * | 2021-01-26 | 2023-12-15 | 苏州***医学研究所 | 用于感染性病原体检测的阳性对照品及其制备方法与应用 |
US20240219400A1 (en) * | 2021-04-29 | 2024-07-04 | Seer, Inc. | Peptide decorated nanoparticles for enrichment of specific protein subsets |
CN113628683B (zh) * | 2021-08-24 | 2024-04-09 | 慧算医疗科技(上海)有限公司 | 一种高通量测序突变检测方法、设备、装置及可读存储介质 |
CN115810395B (zh) * | 2022-12-05 | 2023-09-26 | 武汉贝纳科技有限公司 | 一种基于高通量测序动植物基因组t2t组装方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002522027A (ja) * | 1998-07-21 | 2002-07-23 | コブラ・セラピューティクス・リミテッド | 偏在性クロマチンオープニングエレメント(ucoe)を含むポリヌクレオチド |
JP2008515438A (ja) * | 2004-10-05 | 2008-05-15 | ワイス | 組換えタンパク質産生の改善方法および組成物 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US590703A (en) * | 1897-09-28 | Car-coupling | ||
US8A (en) * | 1836-08-10 | T Blanchard | Machine for cutting scores around ships' tackle blocks and dead eyes | |
US3A (en) * | 1836-08-11 | Thomas blanchard | ||
US5457027A (en) * | 1993-05-05 | 1995-10-10 | Becton, Dickinson And Company | Internal controls for isothermal nucleic acid amplification reactions |
CA2457427A1 (en) * | 2001-08-16 | 2003-02-27 | Stratagene | Compositions and methods comprising control nucleic acid |
EP1682675A2 (en) * | 2003-10-28 | 2006-07-26 | Bayer HealthCare AG | Methods and compositions for the response prediction of malignant neoplasia to treatment |
US8825411B2 (en) * | 2004-05-04 | 2014-09-02 | Dna Twopointo, Inc. | Design, synthesis and assembly of synthetic nucleic acids |
JP2008523786A (ja) * | 2004-10-18 | 2008-07-10 | コドン デバイシズ インコーポレイテッド | 高忠実度合成ポリヌクレオチドのアセンブリ方法 |
MX2009012722A (es) * | 2007-05-25 | 2009-12-11 | Decode Genetics Ehf | Variantes geneticas sobre chr 5p12 y 10q26 como marcadores para el uso en la evaluacion del riesgo, diagnostico, pronostico y tratamiento del cancer de mama. |
-
2015
- 2015-12-15 CN CN201580068605.7A patent/CN107250356A/zh active Pending
- 2015-12-15 EP EP15868702.0A patent/EP3234128A4/en active Pending
- 2015-12-15 KR KR1020237040574A patent/KR20240004617A/ko active Search and Examination
- 2015-12-15 AU AU2015367290A patent/AU2015367290A1/en not_active Abandoned
- 2015-12-15 US US15/535,768 patent/US20180148778A1/en not_active Abandoned
- 2015-12-15 WO PCT/AU2015/050797 patent/WO2016094947A1/en active Application Filing
- 2015-12-15 CA CA2965849A patent/CA2965849A1/en active Pending
- 2015-12-15 KR KR1020177019204A patent/KR20170099939A/ko not_active Application Discontinuation
- 2015-12-15 JP JP2017532128A patent/JP2017537646A/ja active Pending
- 2015-12-15 CN CN202111427653.4A patent/CN114381455A/zh active Pending
-
2018
- 2018-04-20 HK HK18105145.3A patent/HK1245830A1/zh unknown
-
2020
- 2020-12-18 US US17/127,159 patent/US20210317518A1/en active Pending
-
2022
- 2022-05-12 AU AU2022203184A patent/AU2022203184A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002522027A (ja) * | 1998-07-21 | 2002-07-23 | コブラ・セラピューティクス・リミテッド | 偏在性クロマチンオープニングエレメント(ucoe)を含むポリヌクレオチド |
JP2008515438A (ja) * | 2004-10-05 | 2008-05-15 | ワイス | 組換えタンパク質産生の改善方法および組成物 |
Non-Patent Citations (1)
Title |
---|
LUKAS PAUL: "Spike-in RNA Variants: Design, Production and Application", ERCC 2.0 WORKSHOP, JPN6019047631, 17 August 2014 (2014-08-17), ISSN: 0004498955 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20190138466A (ko) * | 2018-06-05 | 2019-12-13 | 연세대학교 산학협력단 | 차세대 염기서열 분석법의 정확도를 분석하는 방법 |
KR102123922B1 (ko) | 2018-06-05 | 2020-06-24 | 연세대학교 산학협력단 | 차세대 염기서열 분석법의 정확도를 분석하는 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20210317518A1 (en) | 2021-10-14 |
US20180148778A1 (en) | 2018-05-31 |
EP3234128A4 (en) | 2018-06-27 |
KR20240004617A (ko) | 2024-01-11 |
CN107250356A (zh) | 2017-10-13 |
EP3234128A1 (en) | 2017-10-25 |
WO2016094947A1 (en) | 2016-06-23 |
HK1245830A1 (zh) | 2018-08-31 |
CA2965849A1 (en) | 2016-06-23 |
AU2022203184A1 (en) | 2022-06-02 |
KR20170099939A (ko) | 2017-09-01 |
CN114381455A (zh) | 2022-04-22 |
AU2015367290A1 (en) | 2017-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210317518A1 (en) | Sequencing controls | |
Fungtammasan et al. | Accurate typing of short tandem repeats from genome-wide sequencing data and its applications | |
't Hoen et al. | Reproducibility of high-throughput mRNA and small RNA sequencing across laboratories | |
Kuleshov et al. | Whole-genome haplotyping using long reads and statistical methods | |
McElhoe et al. | Development and assessment of an optimized next-generation DNA sequencing approach for the mtgenome using the Illumina MiSeq | |
Lahens et al. | IVT-seq reveals extreme bias in RNA sequencing | |
Hedegaard et al. | Next-generation sequencing of RNA and DNA isolated from paired fresh-frozen and formalin-fixed paraffin-embedded samples of human cancer and normal tissue | |
Chen et al. | A systematic benchmark of Nanopore long read RNA sequencing for transcript level analysis in human cell lines | |
Xuan et al. | Next-generation sequencing in the clinic: promises and challenges | |
McIntyre et al. | RNA-seq: technical variability and sampling | |
Wadapurkar et al. | Computational analysis of next generation sequencing data and its applications in clinical oncology | |
Patch et al. | Germline and somatic variant identification using BGISEQ-500 and HiSeq X Ten whole genome sequencing | |
George et al. | Trans genomic capture and sequencing of primate exomes reveals new targets of positive selection | |
Kunde-Ramamoorthy et al. | Comparison and quantitative verification of mapping algorithms for whole-genome bisulfite sequencing | |
US20140296081A1 (en) | Identification and use of circulating tumor markers | |
CN117174167A (zh) | 通过分析无细胞dna确定肿瘤基因拷贝数的方法 | |
Rheinbay et al. | Discovery and characterization of coding and non-coding driver mutations in more than 2,500 whole cancer genomes | |
Kacmarczyk et al. | “Same difference”: comprehensive evaluation of four DNA methylation measurement platforms | |
Ku et al. | Technological advances in DNA sequence enrichment and sequencing for germline genetic diagnosis | |
Han et al. | Transposable element profiles reveal cell line identity and loss of heterozygosity in Drosophila cell culture | |
Qi et al. | Reproducibility of variant calls in replicate next generation sequencing experiments | |
Goltsman et al. | Meraculous-2D: Haplotype-sensitive assembly of highly heterozygous genomes | |
Decock et al. | DNA methylation profiling of primary neuroblastoma tumors using methyl-CpG-binding domain sequencing | |
Wan et al. | RNA sequencing and its applications in cancer diagnosis and targeted therapy | |
Kumar et al. | Partial bisulfite conversion for unique template sequencing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20180125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20180125 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191210 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20200304 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200825 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20201119 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210511 |