CN108138175A - 用于分子条形码编码的试剂、试剂盒和方法 - Google Patents
用于分子条形码编码的试剂、试剂盒和方法 Download PDFInfo
- Publication number
- CN108138175A CN108138175A CN201680049082.6A CN201680049082A CN108138175A CN 108138175 A CN108138175 A CN 108138175A CN 201680049082 A CN201680049082 A CN 201680049082A CN 108138175 A CN108138175 A CN 108138175A
- Authority
- CN
- China
- Prior art keywords
- bar code
- molecule
- nucleic acid
- oligonucleotides
- barcode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 511
- 239000003153 chemical reaction reagent Substances 0.000 title claims description 52
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 586
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 548
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 548
- 229920000642 polymer Polymers 0.000 claims abstract description 511
- 108091034117 Oligonucleotide Proteins 0.000 claims abstract description 474
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims abstract description 461
- 239000003795 chemical substances by application Substances 0.000 claims abstract description 341
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 215
- 239000002773 nucleotide Substances 0.000 claims abstract description 214
- 238000012163 sequencing technique Methods 0.000 claims abstract description 103
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 50
- 239000002253 acid Substances 0.000 claims description 97
- 230000015572 biosynthetic process Effects 0.000 claims description 96
- 238000003786 synthesis reaction Methods 0.000 claims description 96
- 210000004027 cell Anatomy 0.000 claims description 76
- 238000000137 annealing Methods 0.000 claims description 62
- 230000000295 complement effect Effects 0.000 claims description 42
- 239000002777 nucleoside Substances 0.000 claims description 38
- 238000004519 manufacturing process Methods 0.000 claims description 31
- 108020004999 messenger RNA Proteins 0.000 claims description 24
- 241000218636 Thuja Species 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 claims description 14
- 125000003835 nucleoside group Chemical group 0.000 claims description 14
- 238000010494 dissociation reaction Methods 0.000 claims description 11
- 230000005593 dissociations Effects 0.000 claims description 11
- 238000000926 separation method Methods 0.000 claims description 9
- 239000012188 paraffin wax Substances 0.000 claims description 8
- 210000002381 plasma Anatomy 0.000 claims description 8
- 210000002966 serum Anatomy 0.000 claims description 8
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 108060003951 Immunoglobulin Proteins 0.000 claims description 3
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 claims description 3
- 108091008874 T cell receptors Proteins 0.000 claims description 3
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 claims description 3
- 102000018358 immunoglobulin Human genes 0.000 claims description 3
- 102100034343 Integrase Human genes 0.000 claims 1
- 239000000047 product Substances 0.000 description 133
- 238000011144 upstream manufacturing Methods 0.000 description 92
- 108020004414 DNA Proteins 0.000 description 77
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 65
- 239000000243 solution Substances 0.000 description 58
- 230000003321 amplification Effects 0.000 description 49
- 239000005547 deoxyribonucleotide Substances 0.000 description 49
- 238000003199 nucleic acid amplification method Methods 0.000 description 49
- 238000006243 chemical reaction Methods 0.000 description 46
- 239000000203 mixture Substances 0.000 description 35
- 230000002441 reversible effect Effects 0.000 description 35
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical group N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 34
- 239000007853 buffer solution Substances 0.000 description 33
- 108091008146 restriction endonucleases Proteins 0.000 description 33
- 238000005859 coupling reaction Methods 0.000 description 31
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 29
- 239000011049 pearl Substances 0.000 description 26
- 229960002685 biotin Drugs 0.000 description 24
- 239000011616 biotin Substances 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 21
- 238000005520 cutting process Methods 0.000 description 21
- 238000011534 incubation Methods 0.000 description 21
- -1 nucleoside triphosphate Chemical class 0.000 description 20
- 239000001226 triphosphate Substances 0.000 description 20
- 235000011178 triphosphate Nutrition 0.000 description 20
- 230000008878 coupling Effects 0.000 description 19
- 238000010168 coupling process Methods 0.000 description 19
- 239000007787 solid Substances 0.000 description 19
- 239000000376 reactant Substances 0.000 description 18
- 235000020958 biotin Nutrition 0.000 description 17
- MXHRCPNRJAMMIM-SHYZEUOFSA-N 2'-deoxyuridine Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-SHYZEUOFSA-N 0.000 description 16
- MXHRCPNRJAMMIM-UHFFFAOYSA-N desoxyuridine Natural products C1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 MXHRCPNRJAMMIM-UHFFFAOYSA-N 0.000 description 16
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 15
- 230000008569 process Effects 0.000 description 15
- 108090000623 proteins and genes Proteins 0.000 description 15
- 230000000977 initiatory effect Effects 0.000 description 14
- 238000012408 PCR amplification Methods 0.000 description 13
- 102000053602 DNA Human genes 0.000 description 12
- 102000003960 Ligases Human genes 0.000 description 12
- 108090000364 Ligases Proteins 0.000 description 12
- 238000000746 purification Methods 0.000 description 12
- 238000002798 spectrophotometry method Methods 0.000 description 12
- 239000000126 substance Substances 0.000 description 12
- 238000007857 nested PCR Methods 0.000 description 11
- 238000004925 denaturation Methods 0.000 description 10
- 230000036425 denaturation Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000012986 modification Methods 0.000 description 10
- 210000004940 nucleus Anatomy 0.000 description 10
- 102000012410 DNA Ligases Human genes 0.000 description 9
- 108010061982 DNA Ligases Proteins 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000003752 polymerase chain reaction Methods 0.000 description 9
- 239000004094 surface-active agent Substances 0.000 description 9
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 8
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 8
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 8
- 108091028664 Ribonucleotide Proteins 0.000 description 8
- 108010090804 Streptavidin Proteins 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000035772 mutation Effects 0.000 description 8
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 8
- 239000002336 ribonucleotide Substances 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 8
- 102000004190 Enzymes Human genes 0.000 description 7
- 108090000790 Enzymes Proteins 0.000 description 7
- 238000007792 addition Methods 0.000 description 7
- 239000011324 bead Substances 0.000 description 7
- 239000002299 complementary DNA Substances 0.000 description 7
- 239000003480 eluent Substances 0.000 description 7
- 230000003993 interaction Effects 0.000 description 7
- 238000002156 mixing Methods 0.000 description 7
- 108091036407 Polyadenylation Proteins 0.000 description 6
- 108020004682 Single-Stranded DNA Proteins 0.000 description 6
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 6
- 102000006943 Uracil-DNA Glycosidase Human genes 0.000 description 6
- 108010072685 Uracil-DNA Glycosidase Proteins 0.000 description 6
- 210000000170 cell membrane Anatomy 0.000 description 6
- 230000000670 limiting effect Effects 0.000 description 6
- 102000040430 polynucleotide Human genes 0.000 description 6
- 108091033319 polynucleotide Proteins 0.000 description 6
- 239000002157 polynucleotide Substances 0.000 description 6
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 5
- 238000001712 DNA sequencing Methods 0.000 description 5
- 102100031780 Endonuclease Human genes 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 239000003550 marker Substances 0.000 description 5
- 238000013518 transcription Methods 0.000 description 5
- 230000035897 transcription Effects 0.000 description 5
- 108091093088 Amplicon Proteins 0.000 description 4
- 229930010555 Inosine Natural products 0.000 description 4
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 4
- 101710137500 T7 RNA polymerase Proteins 0.000 description 4
- 238000001574 biopsy Methods 0.000 description 4
- 230000000903 blocking effect Effects 0.000 description 4
- 238000006073 displacement reaction Methods 0.000 description 4
- 238000001976 enzyme digestion Methods 0.000 description 4
- 238000007306 functionalization reaction Methods 0.000 description 4
- 229960003786 inosine Drugs 0.000 description 4
- 150000003833 nucleoside derivatives Chemical class 0.000 description 4
- 229910052760 oxygen Inorganic materials 0.000 description 4
- 239000001301 oxygen Substances 0.000 description 4
- 239000002243 precursor Substances 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 4
- 239000011541 reaction mixture Substances 0.000 description 4
- 238000010839 reverse transcription Methods 0.000 description 4
- 125000002652 ribonucleotide group Chemical group 0.000 description 4
- 238000010561 standard procedure Methods 0.000 description 4
- 108010042407 Endonucleases Proteins 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000029087 digestion Effects 0.000 description 3
- 229920001519 homopolymer Polymers 0.000 description 3
- 238000000338 in vitro Methods 0.000 description 3
- 238000005464 sample preparation method Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 229940035893 uracil Drugs 0.000 description 3
- ZDWSNKPLZUXBPE-UHFFFAOYSA-N 3,5-ditert-butylphenol Chemical compound CC(C)(C)C1=CC(O)=CC(C(C)(C)C)=C1 ZDWSNKPLZUXBPE-UHFFFAOYSA-N 0.000 description 2
- 102000036365 BRCA1 Human genes 0.000 description 2
- 108700020463 BRCA1 Proteins 0.000 description 2
- 101150072950 BRCA1 gene Proteins 0.000 description 2
- 101100284398 Bos taurus BoLA-DQB gene Proteins 0.000 description 2
- 108020001738 DNA Glycosylase Proteins 0.000 description 2
- 102000028381 DNA glycosylase Human genes 0.000 description 2
- 108060002716 Exonuclease Proteins 0.000 description 2
- 102000011786 HLA-A Antigens Human genes 0.000 description 2
- 108010075704 HLA-A Antigens Proteins 0.000 description 2
- 108010010677 Phosphodiesterase I Proteins 0.000 description 2
- 102000009097 Phosphorylases Human genes 0.000 description 2
- 108010073135 Phosphorylases Proteins 0.000 description 2
- 238000003559 RNA-seq method Methods 0.000 description 2
- 108010006785 Taq Polymerase Proteins 0.000 description 2
- HMNZFMSWFCAGGW-XPWSMXQVSA-N [3-[hydroxy(2-hydroxyethoxy)phosphoryl]oxy-2-[(e)-octadec-9-enoyl]oxypropyl] (e)-octadec-9-enoate Chemical compound CCCCCCCC\C=C\CCCCCCCC(=O)OCC(COP(O)(=O)OCCO)OC(=O)CCCCCCC\C=C\CCCCCCCC HMNZFMSWFCAGGW-XPWSMXQVSA-N 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 229960003237 betaine Drugs 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000001124 body fluid Anatomy 0.000 description 2
- 239000010839 body fluid Substances 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 210000000349 chromosome Anatomy 0.000 description 2
- 230000007850 degeneration Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 238000010790 dilution Methods 0.000 description 2
- 239000012895 dilution Substances 0.000 description 2
- 238000010828 elution Methods 0.000 description 2
- 102000013165 exonuclease Human genes 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- KWIUHFFTVRNATP-UHFFFAOYSA-N glycine betaine Chemical compound C[N+](C)(C)CC([O-])=O KWIUHFFTVRNATP-UHFFFAOYSA-N 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000011065 in-situ storage Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- 238000002493 microarray Methods 0.000 description 2
- 238000003541 multi-stage reaction Methods 0.000 description 2
- 239000013642 negative control Substances 0.000 description 2
- 239000002736 nonionic surfactant Substances 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000008823 permeabilization Effects 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- QCVGEOXPDFCNHA-UHFFFAOYSA-N 5,5-dimethyl-2,4-dioxo-1,3-oxazolidine-3-carboxamide Chemical group CC1(C)OC(=O)N(C(N)=O)C1=O QCVGEOXPDFCNHA-UHFFFAOYSA-N 0.000 description 1
- WOVKYSAHUYNSMH-RRKCRQDMSA-N 5-bromodeoxyuridine Chemical group C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(Br)=C1 WOVKYSAHUYNSMH-RRKCRQDMSA-N 0.000 description 1
- 108091033380 Coding strand Proteins 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 102100028285 DNA repair protein REV1 Human genes 0.000 description 1
- 102100030569 Nuclear receptor corepressor 2 Human genes 0.000 description 1
- 101710153660 Nuclear receptor corepressor 2 Proteins 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- HDVCHBLHEICPPP-UHFFFAOYSA-N O=P(=O)C1=CC=NC(P(=O)=O)=C1P(=O)=O Chemical class O=P(=O)C1=CC=NC(P(=O)=O)=C1P(=O)=O HDVCHBLHEICPPP-UHFFFAOYSA-N 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-N Phosphoric acid Chemical group OP(O)(O)=O NBIIXXVUZAFLBC-UHFFFAOYSA-N 0.000 description 1
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 210000001744 T-lymphocyte Anatomy 0.000 description 1
- 239000013504 Triton X-100 Substances 0.000 description 1
- 229920004890 Triton X-100 Polymers 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 208000036878 aneuploidy Diseases 0.000 description 1
- 231100001075 aneuploidy Toxicity 0.000 description 1
- 210000003719 b-lymphocyte Anatomy 0.000 description 1
- 230000031709 bromination Effects 0.000 description 1
- 238000005893 bromination reaction Methods 0.000 description 1
- 150000007942 carboxylates Chemical group 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 239000003398 denaturant Substances 0.000 description 1
- 238000007865 diluting Methods 0.000 description 1
- 235000013601 eggs Nutrition 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000002255 enzymatic effect Effects 0.000 description 1
- 238000006911 enzymatic reaction Methods 0.000 description 1
- 229920006248 expandable polystyrene Polymers 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 229930182470 glycoside Natural products 0.000 description 1
- 150000002338 glycosides Chemical class 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 125000001967 indiganyl group Chemical group [H][In]([H])[*] 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000003402 intramolecular cyclocondensation reaction Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000007481 next generation sequencing Methods 0.000 description 1
- 238000007899 nucleic acid hybridization Methods 0.000 description 1
- 238000002515 oligonucleotide synthesis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 229910052698 phosphorus Inorganic materials 0.000 description 1
- 239000011574 phosphorus Substances 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000007841 sequencing by ligation Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical group OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- GPRLSGONYQIRFK-MNYXATJNSA-N triton Chemical group [3H+] GPRLSGONYQIRFK-MNYXATJNSA-N 0.000 description 1
- DJJCXFVJDGTHFX-XVFCMESISA-N uridine 5'-monophosphate Chemical compound O[C@@H]1[C@H](O)[C@@H](COP(O)(O)=O)O[C@H]1N1C(=O)NC(=O)C=C1 DJJCXFVJDGTHFX-XVFCMESISA-N 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1093—General methods of preparing gene libraries, not provided for in other subgroups
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2535/00—Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
- C12Q2535/122—Massive parallel sequencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2563/00—Nucleic acid detection characterized by the use of physical, structural and functional properties
- C12Q2563/179—Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2565/00—Nucleic acid analysis characterised by mode or means of detection
- C12Q2565/10—Detection mode being characterised by the assay principle
- C12Q2565/102—Multiple non-interacting labels
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2600/00—Oligonucleotides characterized by their use
- C12Q2600/16—Primer sets for multiplex assays
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Plant Pathology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Heterocyclic Carbon Compounds Containing A Hetero Ring Having Oxygen Or Sulfur (AREA)
- Nitrogen And Oxygen Or Sulfur-Condensed Heterocyclic Ring Systems (AREA)
Abstract
用于标记靶核酸的多聚体条形码编码剂包含:连接在一起的第一和第二条形码分子,其中每个条形码分子包含含有条形码区的核酸序列;以及第一和第二经条形码编码的寡核苷酸。所述多聚体条形码编码剂使得能够进行空间测序。单个多聚体条形码编码剂可用于标记完整核酸分子的子序列或核酸分子的共定位片段的子序列。可以对标记的子序列进行测序,并处理测序数据以确定来自单个完整核酸分子的子序列或来自核酸分子的共定位片段的子序列的序列。提供了相应的文库、试剂盒、方法和用途。
Description
技术领域
本发明涉及分子条形码编码。提供了多聚体条形码编码剂、分子条形码编码剂文库和包含多聚体条形码编码剂的试剂盒。还提供了涉及多聚体条形码编码剂的方法和多聚体条形码编码剂的用途。
背景技术
开发“分子条形码编码”是为了解决由DNA序列机固有的原始误差率(合成准确度)产生的问题,以及与对样品中单独核酸分子进行计数(分子计数)相关的问题。
分子条形码编码通常涉及使独特核酸标记(“条形码”)附接(例如,通过连接或通过引物延伸)至包含大量靶分子的溶液中的数个单独靶分子(DNA或RNA)。然后,对这些经标记的分子进行测序,这各自显示分子条形码的序列和经标记靶分子本身的序列的至少一部分。
这种条形码编码通常用于两个不同的末端。首先,其可用于实现“冗余测序”。例如,设想核酸样品在DNA样品中包含特定基因的1000个拷贝;这些拷贝中的999个具有彼此相同的序列,但是一个拷贝具有特定的单核苷酸突变。在不进行条形码编码下,测序仪将无法检测到该突变的拷贝,因为测序仪以高于1∶1000的比率产生随机误差-即,所述突变在所测序分子的群体中是如此稀少以致于其低于测序仪的固有背景噪声阈值。
然而,如果将1000个拷贝各自用独特的分子条形码标记,并且通过测序机对每个单独的经标记分子进行数次测序(冗余测序),则可以观察到每次(或者,至少99%次,等于测序仪的原始准确度)经标记的突变分子被冗余测序(即,每次观察到靶基因序列标记有附接至突变起始分子的这一个特定独特条形码),实际上会观察到同一明显突变。相比之下,当对经标记但未突变的基因拷贝进行冗余测序时,根据其各自的可替选条形码仅约1%次(测序仪的原始误差率)观察到该特定突变。
条形码因此用于在测序反应中在其所有相应多个拷贝之间标识单独的输入分子,从而允许序列检测算法特别地集中于其在测序数据集中的相应读取(read),并且因此避免存在于数据集的其余部分中的大量随机序列噪声(以序列错误的形式)。因此,这通过冗余测序实现“合成准确度”,其可能比测序仪本身的原始准确度高得多。
条形码编码还可以用于实现输入DNA或RNA分子的数字“分子计数”。在这个过程中,使大量独特的条形码附接至输入分子,例如,由特定mRNA种类制备的cDNA拷贝。将每个输入cDNA分子用单个独特条形码标记(例如,通过引物延伸)。然后,对分子进行测序,与冗余测序一样,这显示独特条形码和每个相关经标记输入分子的至少一部分;然后,也对这些分子各自测序多于一次。
作为使用这种冗余测序来减少测序错误的替代,在分子计数中,将其用于通过简单地计数被测序并发现与特定靶标相关的独特条形码的总数来数字地量化原始样品中存在给定靶分子(在这种情况下,cDNA)的多少单独分子。以这种方式进行条形码定向冗余测序降低任何输入分子被测序反应随机留下未测序的机会(因为每个经标记分子平均被测序数次),同时保持输入量的准确测量(因为冗余测序的起始分子仅被计数一次,如通过其独特条形码的重复拷贝来区分)。
US 8728766、US 8685678、US 8722368、Kinde等,2011(PNAS,108,23,9530-9535)和US 20140227705A1中提供了使用分子条形码的实例。
当长的连续DNA序列(长于在DNA测序仪上可获得的读长)被转变成两个或更多个较短的“子序列”时,产生“合成长读取”,所述“子序列”足够短以被DNA测序仪读取,并且其被以某种方式标记使得可以推导出(在测序后)该子序列由同一原始长DNA序列产生。例如,如果想要对长度为1000个核苷酸的特定人基因进行测序,但是用读长为100个核苷酸的短读取DNA测序仪进行测序,则可以将该长序列分成10个不同的长度为100个核苷酸的子序列,然后用合成的信息性“标记”DNA序列标记这10个子序列中的每一个,所述“标记”DNA序列将这10个子序列中的每一个标识为来自1000个核苷酸的同一原始DNA分子;然后对这10个所得DNA分子进行高通量DNA测序,并因此(对于10个所得DNA分子中的每一个)获得100个核苷酸的子序列和相关标识DNA标记二者。对于该高通量DNA数据,可以使用算法,其检测这些标识标记并将其用于使10个不同的100-核苷酸子序列彼此关联作为集合子序列“分组”,并以此评估10个子序列来自更长的1000-核苷酸基因,并以此通过在电脑中将这10个子序列一起“缝合”成1000个核苷酸长的单个基因来评估1000个核苷酸长的完整基因序列。
文献中已经描述的两种主要合成长读取技术:US 20130079231 A1中描述的基于分区的方法;以及Casbon等,2013(Nucleic Acids Research,2013,41,10,e112)、US8679756和US 8563274中描述的条形码复制方法。
“空间测序”被视为包含关于每个测序核酸在特定空间中(例如,在特定样品中或在特定细胞中)所在位置的一些信息的核酸测序。然而,很少的空间测序方法是已知的。主要已知技术是荧光原位RNA测序(fluorescent in situ RNA sequencing,FISSEQ)技术。在FISSEQ中,使细胞样品交联,并且在细胞仍完整时,在仍在交联细胞中时,使RNA逆转录成cDNA,并扩增。然后,用高功率且灵敏的光学检测***在仍在细胞中时对每个扩增的cDNA分子进行光学测序。Lee等,2014(Science,343,6177,1360-1363)中描述了该方法。
本发明解决了测序领域中的两个主要类型的问题:1)DNA测序机的特定分析限制;和2)与常见类型的实验DNA样品相关的生物物理挑战。
当前的高通量DNA测序机是用于分析大量遗传物质(从数千至数十亿个DNA分子)的强大平台,并且用作用于基础研究和实用医学应用二者的***。然而,当前的所有DNA测序机都受到某些分析限制,这限制其中可以有效使用其的科学和医学应用。主要的这样的限制包括有限的原始读长和有限的原始准确度,这两方面在下面描述。
关于有限的原始读长,每个DNA测序平台的特征在于其可以获得的典型“读长”,这是每个测序分子的其可以“读取”的DNA核苷酸的“长度”。对于大多数测序机,这为100至约500个核苷酸。
关于有限的原始准确度,每个测序平台的特征还在于可获得的“原始准确度”,通常将其限定为所述测序平台测序的每个给定核苷酸被正确地确定的可能性。最流行的测序平台的典型原始准确度为98%至99.5%。相关量“原始误差”率基本上是原始准确度的反面,并且是测序仪随机报告特定测序DNA分子中不正确核苷酸的每个核苷酸的可能性。
此外,某些常见的实验DNA样品对测序造成生物物理挑战。与所采用的测序机无关,这些挑战由这些样品中DNA的独特(和烦扰)分子状态引起,这使得难以对其进行测序或从其提取重要的遗传信息片段。例如,***固定石蜡包埋(Formalin-Fixed Paraffin-Embedded,FFPE)样品是来自人活检样本的用于进行分子病理学的标准实验工具。然而,产生FFPE样品的过程显著损害包含在其中的DNA和RNA,在所述过程中将活检样本通过苛刻的化学品固定(交联且物理地保持在一起并且在分子水平稳定)并随后包埋在石蜡中。因此,来自FFPE样品的DNA和RNA被严重片段化(通常片段化成50至200个核苷酸的小片段),并且还包括对单独核苷酸的散在损害,这使得基本不可能扩增或分离长连续序列。
发明内容
本发明提供了多聚体条形码编码剂、分子条形码编码剂文库和包含多聚体条形码编码剂的试剂盒。本发明还提供了由两个或更多个子条形码分子文库合成核酸条形码分子文库的方法。本发明还提供了由两个或更多个条形码分子组装多聚体条形码分子的方法和由两个或更多个条形码分子文库组装多聚体条形码分子文库的方法。本发明还提供了合成多聚体条形码编码剂和多聚体条形码编码剂文库的方法。多聚体条形码编码剂可以由多聚体条形码分子合成。本发明还提供了使用一个或更多个多聚体条形码编码剂来制备测序用核酸样品的方法、对样品进行测序的方法和处理测序数据的方法。本发明还提供了产生合成长读取的方法。本发明还提供了对两个或更多个共定位靶核酸进行测序的方法。本发明还提供了对来自单独细胞的靶核酸进行测序的方法。本发明还提供了多聚体条形码编码剂、文库和/或试剂盒的用途。本发明还提供了用于对多聚体条形码编码剂或多聚体条形码编码剂文库进行谱绘制的方法。
多聚体条形码编码剂
本发明提供了用于标记靶核酸的多聚体条形码编码剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含含有条形码区的核酸序列;以及第一和第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第一条形码分子的条形码区的条形码区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第二条形码分子的条形码区的条形码区和能够退火或连接至靶核酸的第二子序列的靶区域。
本发明提供了用于标记靶核酸的多聚体条形码编码剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含含有条形码区的核酸序列;以及第一和第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸包含退火至第一条形码分子的条形码区的条形码区和能够与靶核酸的第一子序列连接的靶区域,并且其中第二经条形码编码的寡核苷酸包含退火至第二条形码分子的条形码区的条形码区和能够与靶核酸的第二子序列连接的靶区域。
本发明提供了用于标记靶核酸的多聚体条形码编码剂,其中所述试剂包含:连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含含有条形码区的核酸序列;以及第一和第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸在5’至3’方向上包含退火至第一条形码分子的条形码区的条形码区和能够退火至靶核酸的第一子序列的靶区域,并且其中第二经条形码编码的寡核苷酸在5’至3’方向上包含退火至第二条形码分子的条形码区的条形码区和能够退火至靶核酸的第二子序列的靶区域。
优选地,条形码分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条形码分子可以包含一个或更多个简并核苷酸或序列。条形码分子可以不包含任何简并核苷酸或序列。
优选地,经条形码编码的寡核苷酸包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。经条形码编码的寡核苷酸可以包含一个或更多个简并核苷酸或序列。经条形码编码的寡核苷酸可以不包含任何简并核苷酸或序列。
条形码区可以独特地标识每个条形码分子。每个条形码区可以包含标识多聚体条形码编码剂的序列。例如,该序列可以是单个多聚体条形码编码剂的所有条形码区共有的恒定区。每个条形码区可以包含至少5、至少10、至少15、至少20、至少25、至少50、或至少100个核苷酸。优选地,每个条形码区包含至少5个核苷酸。优选地,每个条形码区包含脱氧核糖核苷酸,任选地条形码区中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条形码区可以包含一个或更多个简并核苷酸或序列。条形码区可以不包含任何简并核苷酸或序列。
优选地,第一经条形码编码的寡核苷酸的条形码区包含与第一条形码分子的条形码区互补并退火的序列,并且第二经条形码编码的寡核苷酸的条形码区包含与第二条形码分子的条形码区互补并退火的序列。每个经条形码编码的寡核苷酸的互补序列可以是至少5、至少10、至少15、至少20、至少25、至少50、或至少100个连续核苷酸。
靶区域可以包含不同序列。每个靶区域可以包含能够仅退火至核酸样品中靶核酸的单一子序列的序列。每个靶区域可以包含一个或更多个随机序列或者一个或更多个简并序列,以使靶区域能够退火至靶核酸的多于一种子序列。每个靶区域可以包含至少5、至少10、至少15、至少20、至少25、至少50、或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可以包含5至100个核苷酸、5至10个核苷酸、10至20个核苷酸、20至30个核苷酸、30至50个核苷酸、50至100个核苷酸、10至90个核苷酸、20至80个核苷酸、30至70个核苷酸、或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地靶区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个靶区域可以包含一个或更多个通用碱基(例如,肌苷)、一个或更多个经修饰核苷酸和/或一个或更多个核苷酸类似物。
经条形码编码的寡核苷酸的靶区域(其不退火至多聚体条形码分子)可以与多聚体条形码分子不互补。
经条形码编码的寡核苷酸可以在衔接子区和靶区域之间包含接头区。接头区可以包含不退火至多聚体条形码分子且与靶核酸的子序列不互补的一个或更多个连续核苷酸。接头可以包含1至100、5至75、10至50、15至30、或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这样的接头区增强使用多聚体条形码编码剂进行的条形码编码反应的效率。
多聚体条形码分子的条形码分子可以在核酸分子上连接。多聚体条形码分子的条形码分子可以包含在(单个)核酸分子中。多聚体条形码分子可以是包含两个或更多个条形码分子的单链核酸分子(例如,单链DNA)。这样的单链核酸分子提供可以与单链经条形码编码的寡核苷酸退火的骨架。
条形码分子可以通过附接至固体支持物(例如,珠)而连接。例如,可以使已知序列的条形码分子连接至珠。可以使可溶性珠(例如,超顺磁珠或泡沫聚苯乙烯珠)的溶液官能化以使得能够附接两个或更多个条形码分子。这种官能化可以通过珠上的化学部分(例如,羧化基团)和/或基于蛋白质的衔接子(例如,链霉抗生物素蛋白)来实现。可以在促进两个或更多个条形码分子在溶液中附接至每个珠的条件下使官能化珠与条形码分子的溶液接触。任选地,条形码分子通过共价连接或通过(稳定的)非共价连接(例如链霉抗生物素蛋白-生物素键或(稳定的)寡核苷酸杂交键)来附接。
多聚体条形码编码剂可以被配置成使得:每个条形码分子包含在5’至3’方向上包含衔接子区和条形码区的核酸序列;第一经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第一条形码分子的条形码区的条形码区、退火至第一条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第一子序列的靶区域;并且第二经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第二条形码分子的条形码区的条形码区、退火至第二条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第二子序列的靶区域。
每个条形码分子的衔接子区可以包含恒定区。任选地,多聚体条形码编码剂的所有衔接子区基本上相同。衔接子区可以包含至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100、或至少250个核苷酸。优选地,衔接子区包含至少4个核苷酸。优选地,每个衔接子区包含脱氧核糖核苷酸,任选地衔接子区中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区可以包含一个或更多个通用碱基(例如,肌苷)、一个或更多个经修饰核苷酸和/或一个或更多个核苷酸类似物。
多聚体条形码编码剂可以包含:连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、或至少10,000个条形码分子,其中每个条形码分子如本文限定的;和退火至每个条形码分子的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。优选地,多聚体条形码编码剂包含:连接在一起的至少5个条形码分子,其中每个条形码分子如本文限定的;和退火至每个条形码分子的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。
多聚体条形码编码剂可以包含:连接在一起的至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、或至少10,000个独特或不同条形码分子,其中每个条形码分子如本文限定的;和退火至每个条形码分子的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。优选地,多聚体条形码编码剂包含连接在一起的至少5个独特或不同条形码分子,其中每个条形码分子如本文限定的;和退火至每个条形码分子的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。
多聚体条形码编码剂可以包含:至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、或至少10,000个条形码区,其中每个条形码区如本文限定的;和退火至每个条形码区的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。优选地,多聚体条形码编码剂包含:至少5个条形码区,其中每个条形码区如本文限定的;和退火至每个条形码区的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。
多聚体条形码编码剂可以包含:至少2、至少3、至少4、至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少200、至少500、至少1000、至少5000、或至少10,000个独特或不同的条形码区,其中每个条形码区如本文限定的;和退火至每个条形码区的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。优选地,多聚体条形码编码剂包含:至少5个独特或不同的条形码区,其中每个条形码区如本文限定的;和退火至每个条形码区的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如本文限定的。
图1示出了包含第一(D1、E1和F1)和第二(D2、E2和F2)条形码分子的多聚体条形码编码剂,所述条形码分子各自包含含有条形码区(E1和E2)的核酸序列。这第一和第二条形码分子连接在一起,例如通过连接核酸序列(S)而连接在一起。多聚体条形码编码剂还包含第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)经条形码编码的寡核苷酸。这些经条形码编码的寡核苷酸各自包含条形码区(B1和B2)和靶区域(G1和G2)。
经条形码编码的寡核苷酸中的条形码区可以各自包含不存在于其他经条形码编码的寡核苷酸中的独特序列,并且因此可以用于独特地标识每个这样的条形码分子。靶区域可以用于使经条形码编码的寡核苷酸退火至靶核酸的子序列,并随后可以用作引物以用于引物延伸反应或扩增反应,例如聚合酶链反应。
每个条形码分子可以任选地还包含5’衔接子区(F1和F2)。经条形码编码的寡核苷酸则也可以包含与条形码分子的5’衔接子区互补的3’衔接子区(C1和C2)。
每个条形码分子可以任选地还包含3’区(D1和D2),其在每个条形码分子中可以由相同序列构成。经条形码编码的寡核苷酸则也可以包含与条形码分子的3’区互补的5’区(A1和A2)。这些3’区可以用于操作或扩增核酸序列,例如通过用经条形码编码的寡核苷酸标记核酸靶标而产生的序列。3’区可以包含至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100、或至少250个核苷酸。优选地,3’区包含至少4个核苷酸。优选地,每个3’区包含脱氧核糖核苷酸,任选地3’区中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个3’区可以包含一个或更多个通用碱基(例如,肌苷)、一个或更多个经修饰核苷酸和/或一个或更多个核苷酸类似物。
本发明还提供了包含本文所限定的第一和第二多聚体条形码编码剂的多聚体条形码编码剂文库,其中第一多聚体条形码编码剂的条形码区不同于第二多聚体条形码编码剂的条形码区。
本发明提供了用于标记靶核酸以进行测序的包含至少10个多聚体条形码编码剂的多聚体条形码编码剂文库,其中每个多聚体条形码编码剂包含:包含在(单个)核酸分子中的第一和第二条形码分子,其中每个条形码分子包含含有条形码区的核酸序列;以及第一和第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸包含任选地在5’至3’方向上的与第一条形码分子的条形码区互补并退火的条形码区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二经条形码编码的寡核苷酸包含任选地在5’至3’方向上的与第二条形码分子的条形码区互补并退火的条形码区和能够退火或连接至靶核酸的第二子序列的靶区域。
每个多聚体条形码编码剂的第一和第二条形码分子的条形码区可以不同于该文库中至少9个其他多聚体条形码编码剂的条形码区。
多聚体条形码编码剂文库可以包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个本文所限定的多聚体条形码编码剂。优选地,所述文库包含至少5个本文所限定的多聚体条形码编码剂。优选地,每个多聚体条形码编码剂的条形码区可以不同于其他多聚体条形码编码剂的条形码区。
每个多聚体条形码编码剂的条形码区可以不同于该文库中至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即,103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1、或至少109-1个其他多聚体条形码编码剂的条形码区。优选地,每个多聚体条形码编码剂的条形码区不同于该文库中至少999(即,103-1)个其他多聚体条形码编码剂的条形码区。
制备测序用核酸样品的方法
本发明可以用于制备一系列不同的测序用核酸样品。靶核酸可以是DNA分子(例如,基因组DNA分子)或RNA分子(例如,mRNA分子)。靶核酸可以来自任何样品。例如,单独细胞(或更多个细胞)、组织、体液(例如,血液、血浆和/或血清)、活检物或***固定石蜡包埋(FFPE)样品。
本发明提供了制备测序用核酸样品的方法,其中所述方法包括以下步骤:使核酸样品与本文所限定的多聚体条形码编码剂接触;使第一经条形码编码的寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二经条形码编码的寡核苷酸的靶区域退火至靶核酸的第二子序列;以及延伸第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由靶核酸作为模板合成的核苷酸。
在制备测序用核酸样品的任何方法中,核酸样品中的核酸分子和/或多聚体条形码编码剂可以以特定浓度,例如以以下浓度存在于溶液体积中:至少100纳摩尔、至少10纳摩尔、至少1纳摩尔、至少100皮摩尔、至少10皮摩尔浓度、或至少1皮摩尔。所述浓度可以为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔、或100皮摩尔至1纳摩尔。还可以使用可替选的更高或更低浓度。
制备测序用核酸样品的方法可以包括使核酸样品与本文所限定的多聚体条形码编码剂文库接触,其中:第一多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第一靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第二靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。
每个经条形码编码靶核酸分子可以包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000、或至少10,000个由靶核酸作为模板合成的核苷酸。优选地,每个经条形码编码靶核酸分子包含至少5个由靶核酸作为模板合成的核苷酸。
靶核酸可以是完整核酸分子、核酸分子的共定位片段、或来自单个细胞的核酸分子。优选地,靶核酸是单个完整核酸分子、单个核酸分子的两个或更多个共定位片段、或者来自单个细胞的两个或更多个核酸分子。
制备测序用核酸样品的方法可以包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子。
在该方法中,可以将经条形码编码的寡核苷酸在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前从核酸样品分离。作为补充或替代,可以将经条形码编码靶核酸分子从核酸样品分离。
延伸经条形码编码的寡核苷酸的步骤可以在经条形码编码的寡核苷酸退火至条形码分子时进行。
图2示出了制备测序用核酸样品的方法,其中使用本文所限定的多聚体条形码编码剂(例如,如图1所示)来标记和延伸核酸样品中的两个或更多个核酸子序列。在该方法中,合成了至少并入第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)经条形码编码的寡核苷酸的多聚体条形码编码剂,所述经条形码编码的寡核苷酸各自包含条形码区(B1和B2)和靶区域(分别为G1和G2)二者。
使包含靶核酸的核酸样品与多聚体条形码编码剂接触或混合,并使两个或更多个经条形码编码的寡核苷酸的靶区域(G1和G2)退火至靶核酸中的两个或更多个对应子序列(H1和H2)。在退火步骤之后,将第一和第二经条形码编码的寡核苷酸延伸(例如,用靶区域作为聚合酶的引物)至靶核酸的序列,使得子序列的至少一个核苷酸并入到每个经条形码编码的寡核苷酸的延伸3’端。该方法产生经条形码编码靶核酸分子,其中来自靶核酸的两个或更多个子序列被经条形码编码的寡核苷酸标记。
或者,所述方法还可以包括以下步骤:在使经条形码编码的寡核苷酸的靶区域退火至靶核酸的子序列之前,使经条形码编码的寡核苷酸从条形码分子解离。
图3示出了制备测序用核酸样品的方法,其中使用本文所述的多聚体条形码编码剂(例如,如图1所示)来标记和延伸核酸样品中的两个或更多个核酸子序列,但是其中使来自多聚体条形码编码剂的经条形码编码的寡核苷酸在退火至(和延伸)靶核酸序列之前从条形码分子解离。在该方法中,合成至少并入第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)经条形码编码的寡核苷酸的多聚体条形码编码剂,所述经条形码编码的寡核苷酸各自包含条形码区(B1和B2)和靶区域(G1和G2)二者。
使包含靶核酸的核酸样品与多聚体条形码编码剂接触,然后使经条形码编码的寡核苷酸从条形码分子解离。该步骤可以例如通过使试剂暴露于升高的温度(例如,至少35℃、至少40℃、至少45℃、至少50℃、至少55℃、至少60℃、至少65℃、至少70℃、至少75℃、至少80℃、至少85℃、或至少90℃的温度)或通过化学变性剂、或者其组合来实现。该步骤也可以使样品本身中的双链核酸变性。然后,可以使经条形码编码的寡核苷酸扩散一定量的时间(例如,至少5秒、至少15秒、至少30秒、至少60秒、至少2分钟、至少5分钟、至少15分钟、至少30分钟、或至少60分钟)(并且相应地,在样品中扩散一定物理距离)。
然后,可以改变试剂-样品混合物的条件以允许两个或更多个经条形码编码的寡核苷酸的靶区域(G1和G2)退火至靶核酸中的两个或更多个对应子序列(H1和H2)。这可以包括例如降低溶液的温度以允许退火(例如,将温度降低到低于90℃、低于85℃、低于70℃、低于65℃、低于60℃、低于55℃、低于50℃、低于45℃、低于40℃、低于35℃、低于30℃、低于25℃、或低于20℃)。在该退火步骤之后(或例如,在纯化/制备步骤之后),使第一和第二经条形码编码的寡核苷酸延伸(例如,用靶区域作为聚合酶的引物)至靶核酸的序列,使得子序列的至少一个核苷酸并入每个经条形码编码的寡核苷酸的延伸3’端。
该方法产生经条形码编码靶核酸分子,其中来自核酸样品的两个或更多个子序列被经条形码编码的寡核苷酸标记。此外,解离经条形码编码的寡核苷酸并使其在样品中扩散的步骤对于特定类型的样品具有优点。例如,交联的核酸样品(例如,***固定石蜡包埋(FFPE)样品)可以适合于相对小的单独经条形码编码的寡核苷酸的扩散。该方法可以允许标记具有差可接近性(例如,FFPE样品)或其他生物物理特性(例如靶核酸子序列在物理上彼此远离)的核酸样品。
可以向经条形码编码靶核酸分子添加通用引发序列。该序列可以使得能够使用一种正向引物和一种反向引物来对至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109种不同的经条形码编码靶核酸分子进行后续扩增。
在使核酸样品与本文所限定的多聚体条形码编码剂或多聚体条形码编码剂文库接触之前,可以向核酸样品(例如FFPE DNA样品)的两个或更多个靶核酸的5’端或3’端添加偶联序列。在该方法中,靶区域可以包含与偶联序列互补的序列。偶联序列可以包含同聚物3’尾(例如,聚(A)尾)。偶联序列可以通过末端转移酶添加。在其中偶联序列包含聚(A)尾的方法中,靶区域可以包含聚(T)序列。可以在将核酸样品高温孵育之后添加这样的偶联序列,以在添加偶联序列之前使其中包含的核酸变性。
或者,可以通过用限制性酶消化靶核酸样品(例如FFPE DNA样品)来添加偶联序列,在这种情况下,偶联序列可以包含限制性酶的识别序列的一个或更多个核苷酸。在这种情况下,偶联序列可以是至少部分双链的,并且可以包含平端双链DNA序列、或者具有1个或更多个核苷酸的5’突出区的序列、或者具有1个或更多个核苷酸的3’突出区的序列。在这些情况下,多聚体条形码编码剂中的靶区域则可以包含双链且平端(并且因此能够与平端限制性消化产物连接)的序列,或者靶区域可以包含1个或更多个核苷酸的5’或3’突出序列,这使得其具有针对所述限制性消化产物的黏性(并且因此能够与之退火并连接)。
该方法可以包括制备两个或更多个独立的测序用核酸样品,其中每个核酸样品使用不同的多聚体条形码编码剂文库(或不同的多聚体条形码分子文库)制备,并且其中每个多聚体条形码编码剂(或多聚体条形码分子)文库的条码区包含与其他多聚体条形码编码剂(或多聚体条形码分子)文库的条形码区不同的序列。在单独制备每个测序用样品之后,可以将由不同样品制备的经条形码编码靶核酸分子合并并一起测序。对每个经条形码编码靶核酸分子产生的序列读取可以用于鉴定在其制备中使用的多聚体条形码编码剂(或多聚体条形码分子)文库,并且从而鉴定制备其的核酸样品。
本发明提供了制备测序用核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与多聚体条形码编码剂以及第一和第二靶引物接触,其中每个经条形码编码的寡核苷酸在5’至3’方向上包含靶区域和条形码区;(b)使第一经条形码编码的寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二经条形码编码的寡核苷酸的靶区域退火至靶核酸的第二子序列;(c)使第一靶引物退火至靶核酸的第三子序列,其中第三子序列是第一子序列的3’,并使第二靶引物退火至靶核酸的第四子序列,其中第四子序列是第二子序列的3’;(d)使用靶核酸作为模板延伸第一靶引物直到其到达第一子序列以产生第一延伸靶引物,并使用靶核酸作为模板延伸第二靶引物直到其到达第二子序列产生第二延伸靶引物;以及(e)使第一延伸靶引物的3’端与第一经条形码编码的寡核苷酸的5’端连接以产生第一经条形码编码靶核酸分子,并使第二延伸靶引物的3’端与第二经条形码编码的寡核苷酸的5’连接以产生第二经条形码编码靶核酸分子,其中第一和第二经条形码编码靶核酸分子是不同的,并且其中每个经条形码编码靶核酸分子包含至少一个由靶核酸作为模板合成的核苷酸。
在该方法中,步骤(b)和(c)可以同时进行。
合成核酸条形码分子文库的方法
本发明还提供了合成核酸条形码分子文库的方法,其包括:使第一单链子条形码分子文库与第二单链子条形码分子文库接触,其中每个子条形码分子在5’至3’方向上包含子条形码区和下游区域,并且其中来自第一文库的子条形码分子的下游区能够退火至来自第二文库的子条形码分子的下游区;使来自第一文库的第一子条形码分子的下游区退火至来自第二文库的第一子条形码分子的下游区,并使来自第一文库的第二子条形码分子的下游区退火至来自第二文库的第二子条形码分子的下游区;以及延伸子条形码分子的3’端以产生第一和第二双链条形码分子。
每个子条形码分子还可以包含上游区,并且因此在5’至3’方向上包含上游区、子条形码区和下游区。
优选地,每个子条形码分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。优选地,每个子条形码区包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个子条形码区可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、至少25、或至少50个核苷酸。优选地,每个子条形码区包含至少2个核苷酸。
第一和第二子条形码分子文库可以各自包含至少10、至少50、至少100、至少250、至少500、至少103、至少104、或至少105个不同的子条形码分子。第一文库中每个子条形码分子的子条形码区可以不同于第一文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。第二文库中每个子条形码分子的子条形码区可以不同于第二文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。
该方法可以用于合成至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、至少109、至少1010、至少1011、或至少1012个不同条形码分子的文库。优选地,该方法用于合成至少100个不同条形码分子的文库。
每个条形码分子可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、或至少25个子条形码分子。优选地,每个条形码分子包含至少2个子条形码分子。
每个条形码分子可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、或至少25个子条形码区。优选地,每个条形码分子包含至少2个子条形码区。
该方法还可以包括解离第一和第二双链条形码分子以产生第一和第二单链条形码分子的步骤。
图4示出了由子条形码文库创建条形码分子文库的方法。在该方法中,将来自第一子条形码文库的第一(L1、M1、N1)和第二(L2、M2、N2)子条形码分子与来自第二个子条形码文库的第一(O1、P1、Q1)和第二(O2、P2、Q2)子条形码分子混合。来自第一子条形码文库的每个子条形码分子包含子条形码区(M1和M2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第一子条形码文库的每个子条形码分子还包含上游区(L1和L2)和下游区(N1和N2);在第一子条形码文库的所有子条形码分子中,上游区和/或下游区可以是相同的。
来自第二子条形码文库的每个子条形码分子包含子条形码区(P1和P2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第二子条形码文库的每个子条形码分子还包含上游区(O1和O2)和下游区(Q1和Q2);在第二子条形码文库的所有子条形码分子中,上游区和/或下游区可以是相同的。
在该方法中,第二文库中子条形码分子的下游区(Q1和Q2)与第一文库中子条形码分子的下游区(N1和N2)互补。在混合之后,使下游区Q1和Q2退火至下游区N1和N2以产生部分双链体核苷酸分子(退火步骤)。然后,用聚合酶和引物延伸反应延伸每个分子的3’端以产生第一和第二条形码分子。每个条形码分子是双链的组合的条形码分子,其包含与来自第二子条形码文库的分子的子条形码区在同一核酸分子上的来自第一子条形码文库的分子的子条形码区。第一条形码分子和第二条形码分子可以形成更大条形码分子文库的一部分。
可以进一步重复该方法以将第三、第四或另外的子条形码文库组合到条形码分子文库中,其中将另外的子条形码分子(来自另外的子条形码文库)添加到已建立的条形码分子(来自条形码分子)中涉及如图4中针对第一和第二子条形码文库所举例说明的退火步骤和随后延伸步骤。
通过这种方法,可以用相对较少数目的子条形码分子创建复杂的条形码分子文库。由于每个子条形码组合步骤形成组合反应,因此潜在条形码分子的数目作为输入子条形码分子的数目的函数呈指数缩放。
本发明还提供了合成核酸条形码分子文库的方法,其包括:使第一子条形码分子文库与第二子条形码分子文库接触,其中每个子条形码分子包含子条形码区;以及使来自第一文库的第一子条形码分子与来自第二文库的第一子条形码分子连接以形成第一条形码分子,并使来自第一文库的第二子条形码分子与来自第二文库的第二子条形码分子连接以形成第二条形码分子。
优选地,每个子条形码分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。优选地,每个子条形码区包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个子条形码区可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、或至少25个核苷酸。优选地,每个子条形码区包含至少2个核苷酸。
第一和第二子条形码分子文库可以各自包含至少10、至少50、至少100、至少250、至少500、至少103、至少104、或至少105个不同的子条形码分子。第一文库中每个子条形码分子的子条形码区可以不同于第一文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。第二文库中每个子条形码分子的子条形码区可以不同于第二文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。
该方法可以用于合成至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、至少109、至少1010、至少1011、或至少1012个不同条形码分子的文库。优选地,该方法用于合成至少100个不同条形码分子的文库。
每个条形码分子可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、或至少25个子条形码分子。优选地,每个条形码分子包含至少2个子条形码分子。
每个条形码分子可以包含至少2、至少3、至少4、至少5、至少10、至少15、至少20、或至少25个子条形码区。优选地,每个条形码分子包含至少2个子条形码区。
第一和第二文库的子条形码分子可以是单链核酸或双链核酸。
第一文库的每个子条形码分子还可以包含上游区,并且因此在5’至3’方向上包含上游区和子条形码区。
第二文库的每个子条形码分子还可以包含下游区,并且因此在5’至3’方向上包含子条形码区和下游区。
图5示出了通过连接由子条形码文库合成条形码分子文库的方法。在该方法中,将来自第一子条形码文库的第一(L1、M1、N1)和第二(L2、M2、N2)子条形码分子与来自第二子条形码文库的第一(O1、P1、Q1)和第二(O2、P2、Q2)子条形码分子混合。来自第一子条形码文库的每个子条形码分子包含子条形码区(M1和M2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第一子条形码文库的每个子条形码分子还包含上游区(L1和L2)和下游区(N1和N2);在第一子条形码文库的所有子条形码分子中,上游区和/或下游区可以是相同的。每个子条形码分子可以被合成为包含5’端磷酸基团。
来自第二子条形码文库的每个子条形码分子包含子条形码区(P1和P2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第二子条形码文库的每个子条形码分子还包含上游区(O1和O2)和下游区(Q1和Q2);在第二子条形码文库的所有子条形码分子中,上游区和/或下游区可以是相同的。
在该方法中,将来自第一子条形码文库的第一和第二子条形码分子与来自第二子条形码文库的第一和第二子条形码分子混合,然后使来自第一子条形码文库的第一子条形码分子与来自第二子条形码文库的第一子条形码分子连接以形成第一条形码分子,并使来自第一子条形码文库的第二子条形码分子与来自第二子条形码文库的第二子条形码分子连接以形成第二条形码分子,其中该连接通过单链连接酶进行。第一条形码分子和第二条形码分子可以形成更大条形码分子文库的一部分。
可以进一步重复该过程以将第三、第四或另外的子条形码文库组合到条形码分子文库中,其中将另外的子条形码分子(来自另外的子条形码文库)添加到已建立的条形码分子(来自条形码分子文库)中涉及如图5针对第一和第二子条形码文库所举例说明的连接步骤。
通过这种方法,可以用相对较少数目的子条形码分子创建复杂的条形码分子文库。由于每个子条形码组合步骤形成组合反应,因此潜在条形码分子的数目作为输入子条形码分子的数目的函数呈指数缩放。
本发明还提供了合成核酸条形码分子文库的方法,其包括:使第一子条形码分子文库与第二子条形码分子文库接触,其中每个子条形码分子包含子条形码区;以及使来自第一文库的第一子条形码分子与来自第二文库的第一子条形码分子连接以形成第一条形码分子,并使来自第一文库的第二子条形码分子与来自第二文库的第二子条形码分子连接以形成第二条形码分子。所述方法优选地要求:(a)第一文库的每个子条形码分子还包含上游区,其中第一文库的每个子条形码分子在5’至3’方向上包含上游区和子条形码区;(b)第二文库的每个子条形码分子还包含下游区域,其中第二文库的每个子条形码分子在5’至3’方向上包含子条形码区和下游区域;(c)第一条形码分子在5’至3’方向上包含第一文库的第一子条形码分子的上游区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区和第二文库的第一子条形码分子的下游区;以及(d)第二条形码分子在5’至3’方向上包含第一文库的第二子条形码分子的上游区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区和第二文库的第二子条形码分子的下游区。
优选地,第一文库的每个子条形码分子的上游区包含限制性内切核酸酶的上游识别位点,任选地,其中上游识别位点与子条形码区相邻。限制性内切核酸酶的识别位点可以位于子条形码分子的子条形码区上游1、2、少于3、少于4、少于5或少于10个核苷酸处。作为补充或替代,第二文库的每个子条形码分子的下游区包含限制性内切核酸酶的下游识别位点,任选地,其中下游识别位点与子条形码区相邻。限制性内切核酸酶的识别位点可以位于子条形码分子的子条形码区下游1、2、少于3、少于4、少于5或少于10个核苷酸处。
该方法还可以包括使用限制性内切核酸酶在上游识别位点和/或下游识别位点切割条形码分子的步骤。优选地,在切割之前扩增,例如通过PCR扩增条形码分子。优选地,通过与尿嘧啶DNA糖基化酶反应来对扩增产物进行修饰。
所述方法还可以包括以下步骤:(a)使经在下游识别位点切割的条形码分子与另一子条形码分子文库接触,其中该另一文库的每个子条形码分子在5’至3’方向上包含子条形码区和下游区;以及(b)使经在下游识别位点切割的第一条形码分子与该另一文库的第一子条形码分子连接以形成第一延伸条形码分子,并使经在下游识别位点切割的第二条形码分子与该另一文库的第二子条形码分子连接以形成第二延伸条形码分子。第一延伸条形码分子在5’至3’方向上包含第一文库的第一子条形码分子的上游区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区、该另一文库的第一子条形码分子的子条形码区和该另一文库的第一条形码分子的下游区。第二延伸条形码分子在5’至3’方向上包含第一文库的第二子条形码分子的上游区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区、该另一文库的第二子条形码分子的子条形码区和该另一文库的第二子条形码分子的下游区。
该另一文库的每个子条形码分子的下游区可以包含限制性内切核酸酶的下游识别位点,任选地其中下游识别位点与子条形码区相邻。限制性内切核酸酶的识别位点可以位于子条形码分子的子条形码区下游1、2、少于3、少于4、少于5、或少于10个核苷酸处。
所述方法还可以包括以下步骤:(a)使经在上游识别位点切割的条形码分子与另一子条形码分子文库接触,其中该另一文库的每个子条形码分子在5’至3’方向上包含上游区和子条形码区;以及(b)使经在上游识别位点切割的第一条形码分子与该另一文库的第一子条形码分子连接以形成第一延伸条形码分子,并使经在上游识别位点切割的第二条形码分子与该另一文库的第二子条形码分子连接以形成第二延伸条形码分子。第一延伸条形码分子在5’-3’方向上包含该另一文库的第一子条形码分子的上游区、该另一文库的第一子条形码分子的子条形码区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区和第二文库的第一子条形码分子的下游区。第二延伸条形码分子在5’-3’方向上包含该另一文库的第二子条形码分子的上游区、该另一文库的第二子条形码分子的子条形码区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区和第二文库的第二子条形码分子的下游区。
该另一文库的每个子条形码分子的上游区可以包含限制性内切核酸酶的上游识别位点,任选地其中上游识别位点与子条形码区相邻。限制性内切核酸酶的识别位点可以位于子条形码分子的子条形码区上游1、2、少于3、少于4、少于5或少于10个核苷酸处。
所述方法还可以包括以下步骤:(a)在该另一文库的子条形码分子的下游识别位点或上游识别位点处切割延伸条形码分子;以及(b)通过本文限定的步骤使经切割的延伸条形码分子与另一子条形码分子文库连接。可以重复步骤(a)和(b)至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、或至少25次。优选地,在切割之前扩增,例如通过PCR扩增延伸条形码分子。优选地,通过与尿嘧啶DNA糖基化酶反应来对扩增产物进行修饰。
图6示出了通过连接和切割合成条形码分子文库的方法。在该方法中,在双链连接反应中使两个不同子条形码分子的末端彼此连接以产生第一和第二串接条形码分子,其中随后用限制性酶切割这些连接分子以允许来自两个或更多个子条形码分子的子条形码区与经切割第一和第二条形码分子的子条形码区直接连接。这种方法能够使子条形码区连接在一起,而不干扰非条形码(恒定)序列。
在该方法中,将来自第一子条形码文库的第一(L1、M1)和第二(L2、M2)子条形码分子与来自第二子条形码文库的第一(P1、Q1)和第二(P2、Q2)子条形码分子混合。这些第一和第二子条形码分子以在末端具有待连接的平端的双链形式存在。来自第一子条形码文库的每个子条形码分子包含子条形码区(M1和M2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第一子条形码文库的每个子条形码分子还包含上游区(L1和L2),其在该文库的每个分子中可以是相同的。每个子条形码分子可以被合成为包含5’端磷酸基团。
来自第二子条形码文库的每个子条形码分子包含子条形码区(P1和P2),其各自可以不同于该文库中其他条形码分子的其他子条形码区中的一个或更多个(或全部)。来自第二子条形码文库的每个子条形码分子还包含下游区(Q1和Q2),其在该文库的每个分子中可以是相同的。
在该方法中,将来自第一子条形码文库的第一和第二子条形码分子与来自第二子条形码文库的第一和第二子条形码分子混合,使来自第一子条形码文库的第一子条形码分子与来自第二子条形码文库的第一子条形码分子连接以形成第一条形码分子,并使来自第一子条形码文库的第二子条形码分子与来自第二子条形码文库的第二子条形码分子连接以形成第二条形码分子,其中该连接是通过双链连接酶进行的平端连接。任选地,在该连接步骤之后,可以例如通过使用位于L和Q区中的引物来对连接产物(即第一和第二条形码分子)进行扩增反应。为了防止在后续扩增步骤中扩增夹带的但未连接的模板分子,这些引物可以包含一个或更多个脱氧尿嘧啶核苷酸,以使得能够在扩增后通过DNA糖基化酶进行后续修饰。
在连接(和扩增,如果进行的话)之后,使用限制性内切核酸酶(例如MlyI)来切割产物。限制性内切核酸酶(例如MlyI)的识别位点可以包含在L1和L2区内,使得该酶直接切割在上游区和子条形码区之间的第一接合部(L1-M1)和第二(L2-M2)接合部之间的核苷酸键。该反应在第一(M1)和第二(M2)条形码分子上产生平端。
然后,使具有平端的第一和第二条形码分子与另一子条形码分子文库的第一(T1-U1)和第二(T2-U2)子条形码分子连接以形成第一和第二延伸条形码分子。来自该另一子条形码文库的每个子条形码分子包含子条形码区(U1和U2),其各自可以不同于该文库中其他子条形码分子的其他子条形码区中的一个或更多个(或全部)。来自该另一子条形码文库的每个子条形码分子还包含上游区(T1和T2),其在该文库的每个分子中可以是相同的。
可以重复该过程以将第三、第四或另外的子条形码分子文库组合到条形码分子文库中,其中每个步骤涉及将来自另一文库的两个或更多个子条形码分子与两个或更多个延伸条形码分子组合的连接步骤,其中每个连接步骤涉及使另外的子条形码分子与已通过限制性内切核酸酶介导的切割反应(例如使用MlyI)产生的现有平端延伸条形码分子连接。后续步骤还可以包括添加另外的衔接子序列以用于扩增、进一步连接或进一步操作(延伸的)条形码分子。
合成核酸条形码分子文库的另一种方法要求第一文库的每个子条形码分子是双链的,并且在5’至3’方向上包含上游区和子条形码区。在该方法中,在使第一子条形码分子文库与第二子条形码分子文库接触的步骤之前,使第一子条形码分子文库与包含下游衔接子区的双链下游衔接子分子连接以产生连接产物文库,其中连接可以通过平端连接实现,使得每个分子随后在5’至3’方向上包含第一子条形码分子的上游区,随后是第一子条形码分子的子条形码区,随后是下游衔接子区。下游衔接子分子可以在5’端包含在所述连接反应中与子条形码分子连接的5’磷酸基团。该方法还可以包括扩增连接产物文库以产生扩增产物文库,其中每个子条形码分子的上游区包含正向引发序列且下游衔接子区包含反向引发序列,并且其中扩增步骤使用与正向引发序列退火的正向引物和与反向引发序列退火的反向引物来进行,任选地其中扩增步骤是通过PCR进行的。该方法还可以包括通过与尿嘧啶DNA糖基化酶反应来对扩增产物文库进行修饰,其中正向引物和/或反向引物包含至少一个脱氧尿嘧啶核苷酸。每个子条形码分子的上游区可以包含限制性内切核酸酶的识别位点,其中识别位点被定位成使得限制性内切核酸酶(例如MlyI)在识别位点的切割邻近子条形码分子的子条形码区发生。限制性内切核酸酶的识别位点可以位于子条形码分子的子条形码区上游1、2、少于3、少于4、少于5、或少于10个核苷酸处。所述方法还可以包括使用限制性内切核酸酶在识别位点切割连接产物文库或扩增产物文库以产生切割产物文库,任选地其中切割步骤在通过与尿嘧啶DNA糖基化酶反应进行修饰的步骤之后进行。
该方法随后需要以下步骤:使切割产物文库(即,第一子条形码分子库的经修饰形式)与第二子条形码分子文库接触,其中第二文库的每个子条形码分子是双链的并且在5’至3’方向上包含上游区和子条形码区;以及使来自切割产物文库的第一产物与来自第二文库的第一子条形码分子连接以形成第一条形码分子,并使来自切割产物文库的第二产物与来自第二文库的第二子条形码分子连接以形成第二条形码分子。第二文库的每个子条形码分子的上游区可以包含限制性内切核酸酶(例如MlyI)的识别位点,并且识别位点可以被定位成使得限制性内切核酸酶在识别位点的切割邻近子条形码分子的子条形码区发生。限制性内切核酸酶的识别位点可以位于第一子条形码分子的子条形码区上游1、2、少于3、少于4、少于5、或少于10个核苷酸处。
在该方法中,可以重复切割和连接的步骤1、2、3、4或5次,其中每个重复涉及使用另一子条形码分子文库,并且任选地其中每个重复包括重复扩增步骤,并且还任选地其中每个重复包括重复DNA糖基化酶修饰步骤。
在该方法中,最后的连接步骤可以包括使包含上游衔接子区的双链上游衔接子分子与切割产物文库连接以产生连接产物文库。该方法还可以包括使用与上游衔接子区中正向引发序列退火的正向引物和与下游衔接子区中反向引发序列退火的反向引物来扩增连接产物文库以形成扩增产物文库。
由条形码分子组装多聚体条形码分子的方法
本发明还提供了由通过本文所述方法产生的核酸条形码分子文库组装多聚体条形码分子文库的方法。该方法包括使正向夹板引物(splint primer)退火至连接产物文库或扩增产物文库,其中正向夹板引物在5’至3’方向上包含与本文限定的反向引物互补的序列和与本文限定的正向引物基本上相同的序列,并且其中延伸正向夹板引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中使用DNA聚合酶进行延伸反应。
所述方法还可以包括使正向终止引物退火至连接产物或扩增产物,其中正向终止引物在5’至3’方向上包含正向试剂扩增序列和与本文所限定的正向引物基本上相同的序列,并且其中延伸正向终止引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中使用DNA聚合酶进行延伸反应。
该方法还可以包括使反向夹板引物退火至连接产物或扩增产物,其中反向夹板引物在5’至3’方向上包含与本文限定的正向引物互补的序列和与本文限定的反向引物基本上相同的序列,并且其中延伸反向夹板引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中使用DNA聚合酶进行延伸反应。
在涉及正向夹板引物和/或反向夹板引物的由条形码分子合成多聚体条形码分子的任何方法中,正向夹板引物和/或反向夹板引物可以包含一个或更多个与条形码分子中的序列不互补(例如,与条形码分子的正向引物序列或反向引物序列不相同或互补)的核苷酸。正向夹板引物和/或反向夹板引物还可以包含一个或更多个含有随机化核苷酸或简并核苷酸的核苷酸区(即,其中夹板引物中的给定核苷酸位置可以被四种常规脱氧核糖核苷酸A/T/G/C中的两种或更多种占据);该简并核苷酸区域可以位于夹板引物的3’引发区的5’处。
该方法还可以包括使反向终止引物退火至连接产物或扩增产物,其中反向终止引物在5’至3’方向上包含反向试剂扩增序列和与本文限定的反向引物基本上相同的序列,并且其中延伸反向终止引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中使用DNA聚合酶进行延伸反应。
在引物的退火和延伸之后,可以用来自退火和延伸过程的两个或更多个分子进行重叠-延伸扩增反应以产生多聚体条形码分子文库,任选地其中扩增反应通过聚合酶链反应进行,其中每个多聚体条形码分子包含来自至少两个条形码分子的条形码区。
该方法还可以包括使用与正向试剂扩增序列基本上相同的正向引物和与反向试剂扩增序列基本上相同的反向引物来扩增多聚体条形码分子,其中扩增反应包括至少1、至少5、至少10、至少15、至少20、或至少30个扩增循环,任选地其中扩增通过聚合酶链反应进行。
多聚体条形码分子文库可以包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的多聚体条形码分子。优选地,多聚体条形码分子文库包含至少5个条形码分子。
该方法还可以包括核酸尺寸选择步骤以分离限定长度的多聚体条形码分子,任选地其中所述长度为900至1100个核苷酸、4500至5500个核苷酸、或9000至11000个核苷酸。还任选地,其中所述长度为约1000个核苷酸、约5000个核苷酸、或约10,000个核苷酸。
该方法还可以包括使用与正向试剂扩增序列基本上相同的单一正向引物或与反向试剂扩增序列基本上相同的单一反向引物来对扩增的多聚体条形码分子进行一个或更多个引物延伸循环。
该方法可以包括在引物延伸循环期间并入一个或更多个经修饰的脱氧核糖核苷酸,例如经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸。
本发明还提供了由两个或更多个条形码分子组装多聚体条形码分子的方法,其包括:(a)使第一条形码分子与第一引物接触并使第二条形码分子与第二引物接触,其中每个条形码分子包含在5’至3’方向上含有5’区、条形码区和3’区的第一链;(b)使第一引物退火至第一条形码分子的3’区,并使第二引物退火至第二条形码分子的3’区;(c)延伸第一引物以合成包含与第一条形码分子的第一链互补的序列的第二链以形成第一双链条形码分子,并延伸第二引物以合成包含与第二条形码分子的第一链互补的序列的第二链以形成第二双链条形码分子;以及(d)使一双链条形码分子与第二双链条形码分子连接。
图7示出了由两个或更多个条形码分子组装多聚体条形码分子(多聚体条形码编码剂的前体)的方法。在该方法中,首先通过使引物(DS)在其5’端退火并随后延伸来将各自包含含有条形码区(E1和E2)的核酸序列的第一(D1、E1和F1)和第二(D2、E2和F2)单链条形码分子转变成双链形式。该DS引物可以被合成为包含5’端磷酸基团,以使得能够进行后续连接反应。该过程分别产生原始第一和第二条形码分子的第一和第二双链拷贝。
然后,用双链连接反应将这些双链条形码分子连接在一起,以产生含有通过连接核酸序列连接的第一和第二条形码分子及其组成条形码区(E1和E2)的“串接”分子。任选地,可以重复该过程以将多于两个的双链条形码分子串接成连续的串接序列。还任选地,该连接反应可以在高浓度的单独双链条形码分子下进行,使得有利于将大量的单独双链条形码分子串接成连续的串接序列。
然后,可以使用进一步的双链连接反应使这些分子与第一(V)和第二(W)扩增衔接子连接。这些扩增衔接子可以分别并入正向引物和反向引物的序列,以允许串接条形码分子的通用扩增。然后,可以进一步处理这些扩增分子的第一或第二链以产生功能化多聚体条形码编码剂,例如如图9和图10所示。
本发明还提供了由两个或更多个单链条形码分子组装双链多聚体条形码分子的方法,其中每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区,所述方法包括:(a)使第一条形码分子与反向夹板引物接触,其中反向夹板引物包含与第二条形码分子的5’区互补的5’区和与第一条形码分子的3’区互补的3’区,并使第二条形码分子与反向终止引物接触,其中反向终止引物包含与第二条形码分子的3’区互补的3’区;(b)使反向夹板引物的3’区退火至第一条形码分子的3’区,并使反向终止引物的3’区退火至第二条形码分子的3’区;(c)延伸反向夹板引物以合成包含与第一条形码分子互补的序列的第一延伸产物,并延伸反向终止引物以合成包含与第二条形码分子互补的序列的第二延伸产物;(d)使第一延伸产物与正向终止引物接触,其中正向终止引物包含与第一条形码分子的5’区基本上相同的3’区;(e)使正向终止引物的3’区退火至第一延伸产物的3’区;(f)延伸正向终止引物以合成包含与第一延伸产物互补的序列的第三延伸产物;(g)使第二和第三延伸产物退火;以及(h)在3’端延伸第二和第三延伸产物以形成包含第一链和第二链的双链多聚体条形码分子,所述第一链包含与第二条形码分子的序列连接的第一条形码分子的序列,所述第二链与第一链互补。
本发明还提供了由两个或更多个单链条形码分子组装双链多聚体条形码分子的方法,其中每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区,所述方法包括:(a)使第一条形码分子与反向夹板引物接触,其中反向夹板引物包含与第二条形码分子的5’区互补的5’区和与第一条形码分子的3’区互补的3’区,并使第二条形码分子与反向终止引物接触,其中反向终止引物包含与第二条形码分子的3’区互补的3’区;(b)使反向夹板引物的3’区退火至第一条形码分子的3’区,并使反向终止引物的3’区退火至第二条形码分子的3’区;(c)延伸反向夹板引物以合成包含与第一条形码分子互补的序列的第一延伸产物,并延伸反向终止引物以合成包含与第二条形码分子互补的序列的第二延伸产物;(d)使第一延伸产物与正向终止引物接触,其中正向终止引物包含与第一条形码分子的5’区基本上相同的3’区,并使第二延伸产物与正向夹板引物接触,其中正向夹板引物包含与第一条形码分子的3’区基本上相同的5’区和与第二条形码分子的5’区基本上相同的3’区;(e)使正向终止引物的3’区退火至第一延伸产物的3’区,并使正向夹板形引物的3’区退火至第二延伸产物的3’区;(f)延伸正向终止引物以合成包含与第一延伸产物互补的序列的第三延伸产物,并使用正向夹板引物来延伸第二延伸产物以合成包含与正向夹板引物的5’区互补的序列的第四延伸产物;(g)使第三和第四延伸产物退火;以及(h)在3’端延伸第三和第四延伸产物以形成包含第一链和第二链的双链多聚体条形码分子,所述第一链包含与第二条形码分子的序列连接的第一条形码分子的序列,所述第二链与第一链互补。
在该方法中,正向终止引物可以包含含有正向试剂扩增序列的5’区,反向终止引物可以包含含有反向试剂扩增序列的5’区。
该方法还可以包括使用正向引物和反向引物来扩增多聚体条形码分子,其中正向引物退火至正向试剂扩增序列,反向引物退火至反向试剂扩增序列。
图8示出了由两个或更多个条形码分子组装多聚体条形码分子(多聚体条形码编码剂的前体)的方法。该方法在重叠-延伸方法中使用一种或更多种夹板引物。
在该方法中,首先使各自包含含有条形码区(分别为E1和E2)的核酸序列的第一(D1、E1和F1)和第二(D2、E2和F2)单链条形码分子退火至反向夹板引物(F1’和D2’),其包含与第二条形码分子的5’区(D2)互补的5’区(D2’)和与第一条形码分子的3’区(F1)互补的3’区(F1’)。使第一和第二条形码分子也退火至反向终止引物(F2’和W),其包含含有反向试剂扩增序列(W)的5’区和与第二条形码分子的3’区(F2)互补的3’区(F2’)。然后,沿着条形码分子进行引物延伸反应,其中使用反向夹板引物和反向终止引物来引发延伸反应。
然后,使所得引物-延伸产物退火至正向夹板引物(F1和D2),其包含与第一条形码分子的3’区(F1)基本上相同的5’区和与第二条形码分子的5’区(D2)基本上相同的3’区。使引物-延伸产物也退火到正向终止引物(V和D1),其包含含有正向试剂扩增序列(V)的5’区和与第一条形码分子的5’区(D1)基本上相同的3’区。然后,进行引物延伸反应,其中使用正向夹板引物和正向终止引物来引发延伸反应。
然后,使这些引物延伸产物变性,并使第一延伸产物(F1和D2)的上链的3’端退火至第二延伸产物(F1’和D2’)的下链的3’端。然后,使用聚合酶(例如通过PCR)延伸重叠的3’端,使得单独条形码分子随后通过重叠-延伸反应连接在一起,以产生包含通过连接核酸序列连接的第一和第二条形码分子及其组成条形码区(E1和E2)的“串接”分子。
任选地,可以重复该变性和重叠-延伸过程两次或更多次以将多于两个条形码分子串接成连续的串接序列。还任选地,可以相对于终止引物的浓度在高浓度的夹板引物下进行引物延伸反应,使得有利于将大量的单独条形码分子重叠延伸成连续的串接序列。
并入的正向试剂扩增序列(V)和反向试剂扩增序列(W)可以分别包含正向引物和反向引物的序列,以允许对串接条形码分子进行通用扩增。然后,可以进一步处理这些扩增分子的上链或下链以产生功能化多聚体条形码编码剂,例如如图9和图10所示。正向试剂扩增序列(V)和反向试剂扩增序列(W)可以被设计成在扩增反应(例如,通过PCR扩增)期间具有特定的估计退火温度,例如20至60摄氏度、60至90摄氏度、65至85摄氏度、70至80摄氏度、或75至90摄氏度。
在组装双链多聚体条形码分子的方法中,多聚体条形码分子可以使用至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少至少106个条形码分子来组装。优选地,其中多聚体条形码分子可以使用至少5个条形码分子来组装。多聚体条形码分子可以使用至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少至少106个独特或不同的条形码分子来组装。优选地,其中多聚体条形码分子可以使用至少5个独特或不同的条形码分子来组装。每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区。每个条形码分子在本文中进一步限定。多聚体条形码分子可以包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少106个条形码分子的条形码区。优选地,其中多聚体条形码分子包含至少5个条形码分子的条形码区。多聚体条形码分子可以包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少106个独特或不同的条形码分子的条形码区。优选地,其中多聚体条形码分子包含至少5个独特或不同的条形码分子的条形码区。
组装双链多聚体条形码分子的方法可以用于组装至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同多聚体条形码分子的文库。优选地,组装双链多聚体条形码分子的方法用于组装至少5个不同多聚体条形码分子的文库。
双链多聚体条形码分子可以用于制备如本文所述应用的单链多聚体条形码分子。例如,这可以通过包括以下的步骤来实现:(i)使双链多聚体条形码分子变性;和/或(ii)转录多聚体条形码分子的DNA序列以产生RNA序列,然后逆转录RNA序列以产生单链cDNA多聚体条形码分子。
涉及正向和/或反向夹板引物、和/或正向和/或反向终止引物、和/或正向和/或反向扩增引物的任何引物延伸步骤,以及任何重叠延伸步骤,以及任何PCR扩增步骤可以在合成多聚体条形码编码分子的过程中重复两次或更多次。这些步骤可以提高所述多聚体条形码编码分子的量或分子复杂性。
合成多聚体条形码编码剂的方法
本发明还提供了合成用于标记靶核酸的多聚体条形码编码剂的方法,其包括:(a)使第一和第二条形码分子与第一和第二延伸引物接触,其中每个条形码分子包含在5’至3’方向上含有衔接子区、条形码区和引发区的单链核酸;(b)使第一延伸引物退火至第一条形码分子的引发区,并使第二延伸引物退火至第二条形码分子的引发区;以及(c)通过延伸第一延伸引物来合成第一经条形码编码延伸产物,并通过延伸第二延伸引物来合成第二经条形码编码延伸产物,其中第一经条形码编码延伸产物包含与第一条形码分子的条形码区互补的序列且第二经条形码编码延伸产物包含与第二条形码分子的条形码区互补的序列,并且其中第一经条形码编码延伸产物不包含与第一条形码分子的衔接子区互补的序列且第二经条形码编码延伸产物不包含与第二条形码分子的衔接子区互补的序列;并且其中第一和第二条形码分子连接在一起。
所述方法还可以包括在合成第一和第二经条形码编码延伸产物的步骤之前进行以下步骤:(a)使第一和第二条形码分子与第一和第二封闭引物接触;以及(b)使第一封闭引物退火至第一条形码分子的衔接子区,并使第二封闭引物退火至第二条形码分子的衔接子区;其中所述方法还包括在合成经条形码编码延伸产物的步骤之后进行使封闭引物从条形码分子解离的步骤。
在该方法中,延伸步骤或在合成延伸产物之后进行的第二延伸步骤可以这样进行,其中将四种常规脱氧核糖核苷酸中的一种或更多种从延伸反应中排除,使得第二延伸步骤在衔接子区序列之前的位置终止,其中所述位置包含与所排除脱氧核糖核苷酸互补的核苷酸。该延伸步骤可以用缺乏3’至5’外切核酸酶活性的聚合酶来进行。
条形码分子可以由如本文所限定的单链多聚体条形码分子来提供。
条形码分子可以通过本文所限定的任何方法来合成。条形码区可以独特地标识每个条形码分子。条形码分子可以在核酸分子上连接。可以在连接反应中使条形码分子连接在一起。条形码分子可以通过包括使条形码分子附接至固体支持物的另一步骤而连接在一起。
可以在以上限定的步骤(a)(即,使第一和第二条形码分子与第一和第二延伸引物接触)之前通过本文所限定的任何方法将第一和第二条形码分子组装成双链多聚体条形码分子。可以使双链多聚体条形码分子解离以产生用于以上限定的步骤(a)(即,使第一和第二条形码分子与第一和第二延伸引物接触)的单链多聚体条形码分子。
所述方法还可以包括以下步骤:(a)使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区,其中第一衔接子寡核苷酸还包含能够退火至靶核酸的第一子序列的靶区域,并且第二衔接子寡核苷酸还包含能够退火至靶核酸的第二子序列的靶区域;以及(b)使第一经条形码编码延伸产物的3’端与第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使第二经条形码编码延伸产物的3’端与第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸。任选地,退火步骤(a)可以在合成第一和第二经条形码编码延伸产物的步骤之前进行,其中合成第一和第二经条形码编码延伸产物的步骤在存在进行连接步骤(b)的连接酶下进行。连接酶可以是热稳定性连接酶。延伸和连接反应可以在高于37摄氏度、高于45摄氏度或高于50摄氏度下进行。
靶区域可以包含不同的序列。每个靶区域可以包含能够仅退火至核酸样品中靶核酸的单一子序列的序列。每个靶区域可以包含一个或更多个随机序列或者一个或更多个简并序列,以使得靶区域能够退火至靶核酸的多于一种子序列。每个靶区域可以包含至少5、至少10、至少15、至少20、至少25、至少50、或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可以包含5至100个核苷酸、5至10个核苷酸、10至20个核苷酸、20至30个核苷酸、30至50个核苷酸、50至100个核苷酸、10至90个核苷酸、20至80个核苷酸、30至70个核苷酸、或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地,靶区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个靶区域可以包含一个或更多个通用碱基(例如,肌苷)、一个或更多个经修饰核苷酸和/或一个或更多个核苷酸类似物。
每个衔接子寡核苷酸的衔接子区可以包含恒定区。任选地,退火至单一多聚体条形码编码剂的衔接子寡核苷酸的所有衔接子区都基本上相同。衔接子区可以包含至少4、至少5、至少6、至少8、至少10、至少15、至少20、至少25、至少50、至少100、或至少250个核苷酸。优选地,衔接子区包含至少4个核苷酸。优选地,每个衔接子区包含脱氧核糖核苷酸,任选地,衔接子区中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区可以包含一个或更多个通用碱基(例如,肌苷)、一个或更多个经修饰核苷酸和/或一个或更多个核苷酸类似物。
对于涉及衔接子寡核苷酸的任何方法,衔接子寡核苷酸的3’端可以例如在靶区域的3’端核苷酸包含可逆终止子部分或可逆终止子核苷酸(例如,3’-O-封闭核苷酸)。当在延伸反应和/或延伸和连接反应中使用时,这些衔接子寡核苷酸的3’端可以被防止引发任何延伸事件。这可以在产生经条形码编码的寡核苷酸期间使错误引发或其他伪延伸事件最小化。在使用组装的多聚体条形码编码剂之前,可逆终止子的终止子部分可以通过化学或其他方式除去,由此使靶区域沿着与其退火的靶核酸模板延伸。
类似地,对于涉及衔接子寡核苷酸的任何方法,在延伸反应和/或延伸和连接反应期间可以利用与靶区域中一个或更多个序列互补的一个或更多个封闭寡核苷酸。封闭寡核苷酸可以在其3’端和/或5’端包含终止子和/或其他部分使得其不能够通过聚合酶延伸。封闭寡核苷酸可以被设计成使得其退火至与一个或更多个靶区域完全或部分互补的序列,并且在延伸反应和/或延伸和连接反应之前退火至所述靶区域。封闭引物的使用可以防止靶区域退火至溶液中这样的退火是不期望的序列(例如,条形码分子自身中的序列特征)并可能沿其错误引发。封闭寡核苷酸可以被设计以实现特定的退火和/或解链温度。在使用组装的多聚体条形码编码剂之前,则可以通过例如热变性并随后进行尺寸选择性清除或其他方式来除去封闭寡核苷酸。封闭寡核苷酸的除去可以允许靶区域沿着与其退火的靶核酸模板延伸。
所述方法可以包括合成包含至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子的多聚体条形码编码剂,其中:(a)每个条形码分子如本文所限定;以及(b)根据本文所限定的任何方法,由每个条形码分子合成经条形码编码延伸产物;以及任选地,(c)根据本文所限定的任何方法,使衔接子寡核苷酸与每个经条形码编码延伸产物连接以产生经条形码编码的寡核苷酸。
本发明还提供了合成多聚体条形码编码剂文库的方法,其中所述方法包括重复本文所限定的任何方法的步骤以合成两个或更多个多聚体条形码编码剂。任选地,所述方法包括合成至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、至少109或至少1010个如本文所限定的多聚体条形码编码剂的文库。优选地,所述文库包含至少5个如本文所限定的多聚体条形码编码剂。优选地,每个多聚体条形码编码剂的条形码区可以与其他多聚体条形码编码剂的条形码区不同。
图9示出了合成用于标记靶核酸的多聚体条形码编码剂的方法。在该方法中,使各自包含含有条形码区(E1和E2)的核酸序列并通过连接核酸序列(S)连接的第一条形码分子(D1、E1和F1)和第二条形码分子(D2、E2和F2)变性为单链形式。对于这些单链条形码分子,使第一和第二延伸引物(A1和A2)退火至第一和第二条形码分子的3’区(D1和D2),并使第一和第二封闭引物(R1和R2)退火至第一和第二条形码分子的5’衔接子区(F1和F2)。这些封闭引物(R1和R2)可以在3’端被修饰成使得其不能够用作聚合酶的引发位点。
然后,使用聚合酶来进行引物延伸反应,其中使延伸引物延伸以制备条形码分子的条形码区(E1和E2)的拷贝(B1和B2)。进行该引物延伸反应,使得延伸产物紧邻封闭引物序列终止,例如通过使用缺乏链置换或5’-3’外切核酸酶活性的聚合酶。然后,除去,例如通过高温变性除去封闭引物(R1和R2)。
该方法由此产生包含与单链衔接子区(F1和F2)相邻的第一和第二连接接合部(J1和J2)的多聚体条形码编码剂。该多聚体条形码编码剂可以用于图12所示的方法。
所述方法还可以包括使通过引物延伸步骤产生的第一和第二经条形码编码的寡核苷酸的3’端(B1和B2的3’端)与第一衔接子寡核苷酸(C1和G1)和第二衔接子寡核苷酸(C2和G2)连接的步骤,其中每个衔接子寡核苷酸包含与条形码分子的衔接子区(F1和F2)互补并且因此能够退火的衔接子区(C1和C2)。衔接子寡核苷酸可以被合成以包含5’端磷酸基团。
每个衔接子寡核苷酸还可以包含靶区域(G1和G2),其可以用于使经条形码编码的寡核苷酸退火至靶核酸,并且可以单独地或随后用作引物延伸反应或聚合酶链反应的引物。使第一和第二经条形码编码的寡核苷酸与衔接子寡核苷酸连接的步骤产生如图1所示的多聚体条形码编码剂,其可以用于图2和/或图3所示的方法。
图10示出了合成用于标记靶核酸的多聚体条形码编码剂(如图1所示)的方法。在该方法中,使各自包含含有条形码区(E1和E2)的核酸序列并通过连接核酸序列(S)连接的第一条形码分子(D1、E1和F1)和第二条形码分子(D2、E2和F2)变性为单链形式。对于这些单链条形码分子,使第一和第二延伸引物(A1和A2)退火至第一和第二条形码分子的3’区(D1和D2),并使第一衔接子寡核苷酸(C1和G1)和第二衔接子寡核苷酸(C2和G2)的衔接子区(C1和C2)退火至第一和第二条形码分子的5’衔接子区(F1和F2)。这些衔接子寡核苷酸可以被合成以包含5’端磷酸基团。
然后,使用聚合酶来进行引物延伸反应,其中使延伸引物延伸以制备条形码分子的条形码区(E1和E2)的拷贝(B1和B2)。进行该引物延伸反应,使得延伸产物紧邻衔接子区(C1和C2)序列终止,例如通过使用缺乏链置换或5’-3’外切核酸酶活性的聚合酶。
然后,使用连接酶来使衔接子寡核苷酸的5’端与对应延伸产物的相邻3’端连接。在一个可替选实施方案中,连接酶可以与聚合酶包含在一个反应中,这同时实现引物延伸和所得产物与衔接子寡核苷酸的连接二者。通过该方法,所得经条形码编码的寡核苷酸可以随后用作引物延伸反应或聚合酶链反应的引物,例如如在如图2和/或图3所示的方法中。
试剂盒
本发明还提供了包含本文所限定的一种或更多种组分的试剂盒。本发明还提供了特别地适于进行本文所限定的任何方法的试剂盒。
本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条形码编码剂,其包含(i)连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含含有,任选地在5’至3’方向上含有衔接子区和条形码区的核酸序列,以及(ii)第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含退火至第一条形码分子的条形码区的条形码区,并且其中第二条形码寡核苷酸包含退火至第二条形码分子的条形码区的条形码区;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第一条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第二条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第二子序列的靶区域。
本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条形码编码剂,其包含(i)连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含含有衔接子区和条形码区的核酸序列,以及(ii)第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含退火至第一条形码分子的条形码区的条形码区,并且其中第二条形码寡核苷酸包含退火至第二条形码分子的条形码区的条形码区;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含能够退火至第一条形码分子的衔接子区的衔接子区和能够与靶核酸的第一子序列连接的靶区域,并且其中第二衔接子寡核苷酸包含能够退火至第二条形码分子的衔接子区的衔接子区和能够与靶核酸的第二子序列连接的靶区域。
本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条形码编码剂,其包含(i)连接在一起的第一和第二条形码分子(即,多聚体条形码分子),其中每个条形码分子包含在5’至3’方向上含有衔接子区和条形码区的核酸序列,以及(ii)第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含退火至第一条形码分子的条形码区的条形码区,并且其中第二条形码寡核苷酸包含退火至第二条形码分子的条形码区的条形码区;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸在5’至3’方向上包含能够退火至第一条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸在5’至3’方向上包含能够退火至第二条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第二子序列的靶区域。
衔接子寡核苷酸可以在衔接子区和靶区域之间包含接头区。接头区可以包含一个或更多个不退火至第一和第二条形码分子(即,多聚体条形码分子)并且与靶核酸的子序列不互补的连续核苷酸。接头可以包含1至100、5至75、10至50、15至30或20至25个不互补核苷酸。优选地,接头包含15至30个不互补核苷酸。使用这样的接头区提高使用本文所述试剂盒进行的条形码编码反应的效率。
试剂盒的每种组分可以采用本文所限定的任何形式。优选地,条形码区特独特地标识每个条形码分子,靶区域包含不同的序列和/或衔接子寡核苷酸的衔接子区包含相同的恒定区。优选地,条形码分子在核酸分子上连接和/或条形码分子通过附接至固体支持物而连接。
衔接子寡核苷酸的靶区域(其不退火至多聚体条形码分子)可以与多聚体条形码分子不互补。
优选地,条形码分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条形码分子可以包含一个或更多个简并核苷酸或序列。条形码分子可以不包含任何简并核苷酸或序列。
优选地,条形码寡核苷酸包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如,经生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条形码寡核苷酸可以包含一个或更多个简并核苷酸或序列。条形码寡核苷酸可以不包含任何简并核苷酸或序列。
优选地,第一条形码寡核苷酸的条形码区包含与第一条形码分子的条形码区互补并退火的序列,并且第二条形码寡核苷酸的条形码区包含与第二条形码分子的条形码区互补并且退火的序列。每个条形码寡核苷酸的互补序列可以为至少5、至少10、至少15、至少20、至少25、至少50或至少100个连续核苷酸。
多聚体条形码编码剂和衔接子寡核苷酸可以作为物理上分离的组分在试剂盒中提供。
所述试剂盒可以包含:(a)多聚体条形码编码剂,其包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如本文所限定;和(b)能够退火至每个条形码分子的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文所限定。
所述试剂盒可以包含:两个或更多个多聚体条形码编码剂的文库,其中每个多聚体条形码编码剂如本文所限定;和针对每个多聚体条形码编码剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文所限定,其中第一多聚体条形码编码剂的条形码区与第二多聚体条形码编码剂的条形码区不同。
本发明提供了用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:(a)包含至少10个多聚体条形码编码剂的多聚体条形码编码剂文库,其中每个多聚体条形码编码剂包含:(i)包含在(单个)核酸分子中的第一和第二条形码分子,其中每个条形码分子包含含有任选地在5’至3’方向上的衔接子区和条形码区的核酸序列,以及(ii)第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含与第一条形码分子的条形码区互补并退火的条形码区,并且其中第二条形码寡核苷酸包含与第二条形码分子的条形码区互补并退火的条形码区;以及(b)针对每个多聚体条形码编码剂的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第一条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第二条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第二子序列的靶区域。
每个多聚体条形码编码剂的第一和第二条形码分子的条形码区与文库中至少9个其他多聚体条形码编码剂的条形码区不同。
所述试剂盒可以包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、至少109或至少1010个多聚体条形码编码剂的文库。优选地,试剂盒包含至少5个多聚体条形码编码剂的文库。每个多聚体条形码编码剂可以采用本文所限定的任何多聚体条形码编码剂的形式。试剂盒还可以包含针对每个多聚体条形码编码剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸可以采用本文所限定的任何衔接子寡核苷酸的形式。优选地,每个多聚体条形码编码剂的条形码区与试剂盒中其他多聚体条形码编码剂的条形码区不同。
每个多聚体条形码编码剂的条形码区可以与文库中至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1个其他多聚体条形码编码剂的条形码区不同。优选地,每个多聚体条形码编码剂的条形码区与文库中至少999(即103-1)个其他多聚体条形码编码剂的条形码区不同。
图11示出了用于标记靶核酸的包含多聚体条形码编码剂和衔接子寡核苷酸的试剂盒。更具体地,试剂盒包含第一条形码分子(D1、E1和F1)和第二条形码分子(D2、E2和F2),其各自并入条形码区(E1和E2)以及5’衔接子区(F1和F2)。这第一和第二条形码分子连接在一起,在该实施方案中通过连接核酸序列(S)连接在一起。
所述试剂盒还包含第一经条形码编码的寡核苷酸(A1和B1)和第二经条形码编码的寡核苷酸(A2和B2),其各自包含条形码区(B1和B2)以及5’区(A1和A2)。每个经条形码编码的寡核苷酸的5’区与条形码分子的3’区(D1和D2)互补,并且因此可以与之退火。条形码区(B1和B2)与条形码分子的条形码区(E1和E2)互补,并且因此可以与之退火。
试剂盒还包含第一衔接子寡核苷酸(C1和G1)和第二衔接子寡核苷酸(C2和G2),其中每个衔接子寡核苷酸包含与条形码分子的5’衔接子区(F1和F2)互补并且因此能够与之退火的衔接子区(C1和C2)。这些衔接子寡核苷酸可以被合成以包含5’端磷酸基团。每个衔接子寡核苷酸还包含靶区域(G1和G2),其可以用于使经条形码编码的寡核苷酸退火至靶核酸,并随后可以用作引物延伸反应或聚合酶链反应的引物。
本发明还提供了用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:(a)包含至少10个多聚体条形码分子的多聚体条形码分子文库,每个多聚体条形码分子含有包含在核酸分子中的第一和第二条形码分子,其中每个条形码分子包含含有任选地在5’至3’方向上的衔接子区和条形码区的核酸序列,并且其中每个多聚体条形码分子的第一和第二条形码分子的条形码区与文库中至少9个其他多聚体条形码分子的条形码区不同;以及(b)针对每个多聚体条形码分子的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第一条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第二条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第二子序列的靶区域。
本发明还提供了用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:(a)包含至少10个多聚体条形码分子的多聚体条形码分子文库,每个多聚体条形码分子含有包含在(单个)核酸分子中的第一和第二条形码分子,其中每个条形码分子包含含有任选地在5’至3’方向上的衔接子区、条形码区和引发区的核酸序列,并且其中每个多聚体条形码分子的第一和第二条形码分子的条形码区与文库中至少9个其他多聚体条形码分子的条形码区不同;(b)针对每个多聚体条形码分子的第一和第二延伸引物,其中第一延伸引物包含能够退火至第一条形码分子的引发区的序列,并且其中第二延伸引物包含能够退火至第二条形码分子的引发区的序列;以及(c)针对每个多聚体条形码分子的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第一条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第二条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第二子序列的靶区域。
文库中的每个多聚体条形码分子可以是包含两个或更多个条形码分子的单链核酸分子(例如,单链DNA)。
第一和第二延伸引物能够使用第一和第二条形码分子的条形码区作为模板来延伸以产生第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含与第一条形码分子的条形码区互补的序列,并且第二条形码寡核苷酸包含与第二条形码分子的条形码区互补的序列。
试剂盒的每种组分可以采用本文所限定的任何形式。
衔接子寡核苷酸的靶区域(其不退火至多聚体条形码分子)可以与多聚体条形码分子不互补。
衔接子寡核苷酸可以在衔接子区和靶区域之间包含接头区。接头区可以包含一个或更多个不退火至多聚体条形码分子并且与靶核酸的子序列不互补的连续核苷酸。接头可以包含1至100、5至75、10至50、15至30、或20至25个不互补核苷酸。优选地,接头包含15至30个不互补核苷酸。使用这样的接头区提高使用本文所述试剂盒进行的条形码编码反应的效率。
第一和第二延伸引物的序列可以相同。或者,第一和第二延伸引物的序列可以不同。
每个多聚体条形码分子可以包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如本文所限定;并且其中所述试剂盒包含能够退火至每个条形码分子的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文所限定。
所述试剂盒可以包含:至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个多聚体条形码分子的文库,其中每个多聚体条形码分子如本文所限定;和针对每个多聚体条形码分子的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文所限定。
每个多聚体条形码分子的条形码区可以与文库中其他多聚体条形码分子的条形码区不同。
每个多聚体条形码分子的条形码区可以与文库中至少4、至少9、至少19、至少24、至少49、至少74、至少99、至少249、至少499、至少999(即103-1)、至少104-1、至少105-1、至少106-1、至少107-1、至少108-1或至少109-1个其他多聚体条形码分子的条形码区不同。优选地,每个多聚体条形码分子的条形码区与文库中至少999(即103-1)个其他多聚体条形码分子的条形码区不同。
制备测序用核酸样品的另一些方法
本发明可以用于制备一系列不同的测序用核酸样品。靶核酸可以是DNA分子(例如,基因组DNA分子)或RNA分子(例如,mRNA分子)。靶核酸可以来自任何样品。例如,单独细胞(或更多个细胞)、组织、体液(例如,血液、血浆和/或血清)、活检物或***固定石蜡包埋(FFPE)样品。
以下提供的方法可以用本文所限定的任何试剂盒来进行。
本发明还提供了制备测序用核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二衔接子寡核苷酸的靶区域退火至靶寡核酸的第二子序列;(c)使核酸样品与如本文所限定的多聚体条形码编码剂接触;(d)使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区;以及(e)使第一条形码寡核苷酸的3’端与第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使第二条形码寡核苷酸的游离3’端与第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸。在该方法中,延伸第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。
每个经条形码编码靶核酸分子可以包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000、或至少10,000个由靶核酸作为模板合成的核苷酸。优选地,每个经条形码编码靶核酸分子包含至少5个由靶核酸作为模板合成的核苷酸。
所述方法可以使用如本文所限定的多聚体条形码编码剂文库和针对每个多聚体条形码编码剂的如本文所限定的衔接子寡核苷酸来进行。优选地,第一多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第一靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第二靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。
靶核酸可以是完整核酸分子、核酸分子的共定位片段、或来自单个细胞的核酸分子。优选地,靶核酸是单个完整核酸分子、单个核酸分子的两个或更多个共定位片段、或者来自单个细胞的两个或更多个核酸分子。
可以在步骤(c)之前、在步骤(d)之前和/或在步骤(e)之前进行延伸经条形码编码的寡核苷酸的步骤,并且第一和第二经条形码编码的寡核苷酸可以保持退火至第一和第二条形码分子直至步骤(e)之后。
或者,可以在骤(e)之后进行延伸经条形码编码的寡核苷酸的步骤。
所述方法可以包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子。优选地,所述方法包括产生至少5个不同的经条形码编码靶核酸分子。
可以向经条形码编码靶核酸分子添加通用引发序列。该序列可以使得能够使用一种正向引物和一种反向引物来对至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子进行后续扩增。
在使核酸样品与如本文所限定的多聚体条形码编码剂文库接触之前,可以向核酸样品(例如,FFPE DNA样品)的两个或更多个靶核酸的5’端或3’端添加偶联序列。在该方法中,靶区域可以包含与偶联序列互补的序列。偶联序列可以包含同聚物3’尾(例如,聚(A)尾)。偶联序列可以通过末端转移酶添加。在其中偶联序列包含聚(A)尾的方法中,靶区域可以包含聚(T)序列。
所述方法可以包括制备两个或更多个独立的测序用核酸样品,其中每个核酸样品使用不同的多聚体条形码编码剂文库(或不同的多聚体条形码分子文库)来制备,并且其中每个多聚体条形码编码剂(或多聚体条形码分子)文库的条形码区包含与其他多聚体条形码编码剂(或多聚体条形码分子)文库的条形码区不同的序列。在单独制备每个测序用样品之后,可以将由不同样品制备的经条形码编码靶核酸分子合并并一起测序。对每个经条形码编码靶核酸分子产生的序列读取可以用于鉴定在其制备中使用的多聚体条形码编码剂(或多聚体条形码分子)文库,并且从而鉴定制备其的核酸样品。
可以在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前从核酸样品分离经条形码编码的寡核苷酸。任选地,可以通过经由链霉抗生物素蛋白-生物素相互作用捕获在固体支持物上来分离经条形码编码的寡核苷酸。
可以从核酸样品分离经条形码编码靶核酸分子。任选地,通过经由链霉抗生物素蛋白-生物素相互作用捕获在固体支持物上来分离经条形码编码靶核酸分子。
图12示出了使用多聚体条形码编码剂来制备测序用核酸样品的方法。在该方法中,使第一衔接子寡核苷酸(C1和G1)和第二衔接子寡核苷酸(C2和G2)退火至核酸样品中的靶核酸,并随后用于引物延伸反应。每个衔接子寡核苷酸包含与条形码分子的5’衔接子区(F1和F2)互补并且因此能够退火的衔接子区(C1和C2)。每个衔接子寡核苷酸还包含靶区域(G1和G2),其可以用于使经条形码编码的寡核苷酸退火至靶核酸,并随后可以用作引物延伸反应或聚合酶链反应的引物。这些衔接子寡核苷酸可以被合成以包含5’端磷酸基团。
然后,使各自已延伸以包含来自靶核酸的序列的衔接子寡核苷酸与多聚体条形码编码剂接触,所述多聚体条形码编码剂包含第一条形码分子(D1、E1和F1)和第二条形码分子(D2、E2和F2)、以及第一经条形码编码的寡核苷酸(A1和B1)和第二经条形码编码的寡核苷酸(A2和B2),所述经条形码编码的寡核苷酸各自包含条形码区(B1和B2)以及5’区(A1和A2)。第一和第二条形码分子各自包含条形码区(E1和E2)、衔接子区(F1和F2)和3’区(D1和D2),并且连接在一起,在该实施方案中通过连接核酸序列(S)连接在一起。
在使引物延伸核酸样品与多聚体条形码编码剂接触之后,每个衔接子寡核苷酸的5’衔接子区(C1和C2)能够退火至与每个经条形码编码的寡核苷酸的3’端相邻的“连接接合部”(J1和J2)。然后,使延伸衔接子寡核苷酸的5’端与多聚体条形码编码剂中经条形码编码的寡核苷酸的3’端连接,从而在连接接合部之前所在位置产生连接碱基对(K1和K2)。可以随后进一步处理或扩增溶液,并将其用于后续反应。
类似于图2和图3所示的方法,该方法也产生经条形码编码靶核酸分子,其中来自核酸样品的两个或更多个子序列通过经条形码编码的寡核苷酸而标记。在该方法中,对于使靶区域退火至靶核酸的子序列的步骤、或使用聚合酶来延伸退火的靶区域的步骤,不需要存在多聚体条形码编码剂。该特征可以在某些应用(例如其中大量靶序列是感兴趣的)中占有优势,并且靶区域当其在分子上不被多聚体条形码编码剂约束时能够更快地与靶核酸杂交。
本发明还提供了制备测序用核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二衔接子寡核苷酸的靶区域退火至靶寡核酸的第二子序列;(c)使核酸样品与如本文所限定的多聚体条形码分子文库以及如本文所限定的第一和第二延伸引物接触;(d)使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区;(e)使用第一条形码分子的条形码区作为模板延伸第一延伸引物以产生第一条形码寡核苷酸,并使用第二条形码分子的条形码区作为模板延伸第二延伸引物以产生第二条形码寡核苷酸,其中第一条形码寡核苷酸包含与第一条形码分子的条形码区互补的序列,并且第二条形码寡核苷酸包含与第二条形码分子的条形码区互补的序列;以及(f)使第一条形码寡核苷酸的3’端与第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使第二条形码寡核苷酸的3’端与第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸;其中延伸第一和第二衔接子寡核苷酸、或第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。
每个经条形码编码靶核酸分子可以包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000、或至少10,000个由靶核酸作为模板合成的核苷酸。优选地,每个经条形码编码靶核酸分子包含至少5个由靶核酸作为模板合成的核苷酸。
可以在步骤(c)之前使延伸引物退火至多聚体条形码分子。或者,可以使核酸样品与如本文所限定的多聚体条形码分子文库和如本文所限定的单独延伸引物接触。然后,可以使延伸引物退火至核酸样品中的多聚体条形码分子。可以在步骤(d)期间使延伸引物退火至多聚体条形码分子。
优选地,第一多聚体条形码分子的衔接子寡核苷酸或经条形码编码的寡核苷酸可以退火至第一靶核酸的子序列且可以产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条形码分子的衔接子寡核苷酸或经条形码编码的寡核苷酸可以退火至第二靶核酸的子序列且可以产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。
在所述方法中,可以在步骤(c)之前、在步骤(d)之前、在步骤(e)之前和/或在步骤(f)之前进行延伸衔接子寡核苷酸的步骤,其中第一和第二衔接子寡核苷酸保持退火至第一和第二条形码分子直至步骤(f)之后。或者,可以延伸经条形码编码的寡核苷酸(通过步骤(f)产生的)。
可以在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前从核酸样品分离经条形码编码的寡核苷酸。
靶核酸可以是完整核酸分子、或核酸分子的共定位片段。
所述方法可以包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子。
可以向经条形码编码靶核酸分子添加通用引发序列。该序列可以使得能够使用一种正向引物和一种反向引物来对至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子进行后续扩增。
在使核酸样品与如本文所限定的多聚体条形码分子文库和衔接子寡核苷酸接触之前,可以向核酸样品(例如,FFPE DNA样品)的两个或更多个靶核酸的5’端或3’端添加偶联序列。在该方法中,靶区域可以包含与偶联序列互补的序列。偶联序列可以包含同聚物3’尾(例如,聚(A)尾)。偶联序列可以通过末端转移酶来添加。在其中偶联序列包含聚(A)尾的方法中,靶区域可以包含聚(T)序列。
所述方法可以包括制备两个或更多个独立的测序用核酸样品,其中每个核酸样品使用不同的多聚体条形码分子文库来制备,并且其中每个多聚体条形码分子文库的条形码区包含与其他多聚体条形码分子文库的条形码区不同的序列。在单独制备每个测序用样品之后,可以将由不同样品制备的经条形码编码靶核酸分子合并并一起测序。对每个经条形码编码靶核酸分子产生的序列读取可以用于鉴定在其制备中使用的多聚体条形码分子文库,并且从而用于鉴定制备其的核酸样品。
可以在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前从核酸样品分离经条形码编码的寡核苷酸。任选地,可以通过经由链霉抗生物素蛋白-生物素相互作用捕获在固体支持物上来分离经条形码编码的寡核苷酸。
可以从核酸样品分离经条形码编码靶核酸分子。任选地,通过经由链霉抗生物素蛋白-生物素相互作用捕获在固体支持物上来分离经条形码编码靶核酸分子。
本发明还提供了制备测序用核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与第一和第二衔接子寡核苷酸以及第一和第二靶引物接触,其中每个衔接子寡核苷酸在5’至3’方向上包含靶区域和衔接子区;(b)使第一衔接子寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二衔接子寡核苷酸的靶区域退火至靶核酸的第二子序列;(c)使第一靶引物退火至靶核酸的第三子序列,其中第三子序列是第一子序列的3’,并使第二靶引物退火至靶核酸的第四子序列,其中第四子序列是第二子序列的3’;(d)使用靶核酸作为模板延伸第一靶引物直至其达到第一子序列以产生第一延伸靶引物,并使用靶核酸作为模板延伸第二靶引物直至其达到第二子序列以产生第二延伸靶引物;(e)使第一延伸靶引物的3’端与第一衔接子寡核苷酸的5’端连接,并使第二延伸靶引物的3’端与第二衔接子寡核苷酸的5’端连接;(f)使核酸样品与如本文所限定的多聚体条形码分子文库接触;(g)使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区;以及(h)使用第一条形码分子的条形码区作为模板延伸第一衔接子寡核苷酸以产生第一经条形码编码的寡核苷酸,并使用第二条形码分子的条形码区作为模板延伸第二衔接子寡核苷酸以产生第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸包含与第一条形码分子的条形码区互补的序列,并且第二经条形码编码的寡核苷酸包含与第二条形码分子的条形码区互补的序列。
在所述方法中,步骤(b)和(c)可以同时进行。
在所述方法中,可以在步骤(d)和(e)之前进行步骤(f)至(h)。在该方法中,在完成步骤(c)时产生第一和第二不同的经条形码编码靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。
在所述方法中,可以在步骤(d)和(e)之后进行步骤(f)至(h)。在该方法中,在完成步骤(h)时产生第一和第二不同的经条形码编码靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。
每个经条形码编码靶核酸分子可以包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000、或至少10,000个由靶核酸作为模板合成的核苷酸。优选地,每个经条形码编码靶核酸分子包含至少5个由靶核酸作为模板合成的核苷酸。
图13示出了可以进行该方法的一种方式。在该方法中,靶核酸是因组DNA。应理解,靶核酸可以是其他类型的核酸,例如RNA分子如mRNA分子。
在通过试剂盒制备测序用核酸样品的任何方法中,核酸样品中的核酸分子、和/或多聚体条形码编码剂、和/或多聚体条形码分子(和/或包含在试剂盒中的其他试剂)可以以特定浓度,例如以以下浓度存在于溶液体积中:至少100纳摩尔,至少10纳摩尔、至少1纳摩尔,至少100皮摩尔、至少10皮摩尔、或至少1皮摩尔。所述浓度可以为1皮摩尔至100纳摩尔、10皮摩尔至10纳摩尔、或100皮摩尔至1纳摩尔。或者,还可以使用可替选的更高或更低浓度。
测序和/或处理测序数据的方法
本发明还提供了对样品进行测序的方法,其中所述样品已通过如本文所限定的制备测序用核酸样品的任何方法制备。对样品进行测序的方法包括以下步骤:分离经条形码编码靶核酸分子;以及由每个经条形码编码靶核酸分子产生序列读取,其包含条形码区、靶区域和至少一个另外的来自靶核酸的核苷酸。每个序列读取可以包含至少5、至少10、至少25、至少50、至少100、至少250、至少500、至少1000、至少2000、至少5000、或至少10,000个来自靶核酸的核苷酸。优选地,每个序列读取包含至少5个来自靶核酸的核苷酸。
测序可以通过本领域已知的任何方法来进行。例如通过链终止或Sanger测序。优选地,通过下一代测序方法进行测序,例如边合成边测序(sequencing by synthesis)、使用可逆终止子的边合成边测序(例如Illumina测序)、焦磷酸测序(例如,454测序)、边连接边测序(sequencing by ligation)(例如,SOLiD测序)、或单分子测序(例如,单分子实时(Single Molecule,Real-Time,SMRT)测序,Pacific Biosciences)。
本发明还提供了用于处理通过本文所限定的任何方法获得的测序数据的方法。用于处理序列数据的方法包括以下步骤:(a)对每个序列读取鉴定条形码区的序列和来自靶核酸的序列;以及(b)使用来自步骤(a)的信息来确定来自靶核酸的被来自相同多聚体条形码编码剂的条形码区标记的序列组。
所述方法还可以包括通过分析序列组以鉴定连续序列来确定靶核酸的序列的步骤,其中靶核酸的序列包含来自至少两个序列读取的核苷酸。
靶核酸可以是完整核酸分子、核酸分子的共定位片段、或来自单个细胞的核酸分子。优选地,靶核酸是单个完整核酸分子、单个核酸分子的两个或更多个共定位片段、或者来自单个细胞的两个或更多个核酸分子。
本发明还提供了用于处理(或分析)通过本文所限定的任何方法获得的测序数据的算法。算法可以被配置成进行本文所限定的用于处理测序数据的任何方法。所述算法可以用于检测每个序列读取中条形码区的序列且还检测序列读取中来源于靶核酸的的序列,并将这些分离成两个相关数据集。
本发明还提供了由靶核酸产生合成长读取的方法,其包括以下步骤:(a)根据本文所限定的任何方法来制备测序用核酸样品;(b)对样品进行测序,任选地其中通过本文所限定的任何方法对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地其中根据本文所限定的任何方法来处理序列数据;其中步骤(c)产成包含来自至少两个序列读取中每一个的至少一个核苷酸的合成长读取。
所述方法可以使得能够对靶核酸分子的靶序列进行定相(phase),即其可以使得能够确定序列位于染色体的哪个拷贝(即,父本或母本)。靶序列可以包含特定的靶突变、易位、缺失或扩增,并且该方法可以用于将突变、易位、缺失或扩增分配给特定的染色体。对两个或更多个靶序列的定相还可以使得能够检测非整倍性。
合成长读取可以包含至少50、至少100、至少250、至少500、至少750、至少1000、至少2000、至少104、至少105、至少106、至少107、或至少108个核苷酸。优选地,合成长读取包含至少50个核苷酸。
本发明还提供了对两个或更多个共定位靶核酸进行测序的方法,其包括以下步骤:(a)根据本文所限定的任何方法来制备测序用核酸样品;(b)对样品进行测序,任选地其中通过本文所限定的任何方法来对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地其中根据本文所限定的任何方法来处理序列数据;其中步骤(c)鉴定包含来自样品中共定位的至少两个靶核酸的核苷酸的至少两个序列读取。
本发明还提供了对来自单独细胞的靶核酸进行测序的方法,其包括以下步骤:(a)根据本文所限定的任何方法来制备测序用核酸样品,其中将多聚体条形码编码剂、或多聚体条形码分子、和/或衔接子寡核苷酸引入细胞中;(b)对样品进行测序,任选地其中通过本文所限定的任何方法来对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地其中根据本文所限定的任何方法来处理序列数据;其中步骤(c)鉴定包含来自细胞的至少两个靶核酸的核苷酸的至少两个序列读取。
多聚体条形码编码剂和/或衔接子寡核苷酸可以通过与脂质转染试剂进行化学复合并随后转染入细胞中来引入细胞中。
可以通过以下步骤将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中:(a)通过使细胞膜与化学表面活性剂接触来使其透化;以及随后(b)使细胞与多聚体条形码编码剂和/或衔接子寡核苷酸接触。化学表面活性剂可以是非离子表面活性剂。化学表面活性剂可以是Triton X-100(C14H22O(C2H4O)n(n=9至10))。化学表面活性剂在溶液中的浓度可以为小于200微摩尔、或小于500微摩尔、或小于1毫摩尔。
在所述方法中,在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中的步骤之后,可以将细胞孵育一段时间以使多聚体条形码编码剂或衔接子寡核苷酸的靶区域退火至细胞中靶核酸的子序列。孵育时间可以为至少1分钟、或至少5分钟、或至少15分钟、或至少30分钟、或至少60分钟。优选地,孵育时间为至少1分钟。孵育可以发生在包含核酸变性剂(例如,二甲基亚砜(DMSO)或甜菜碱)的溶液中。孵育可以发生在至少20摄氏度、至少37摄氏度、至少45摄氏度、或至少50摄氏度的温度下。优选地,孵育发生在至少20摄氏度的温度下。
在涉及使用多聚体条形码编码剂的方法中,孵育步骤可以使经条形码编码的寡核苷酸基本上从条形码分子(或多聚体条形码分子)解离。这可以使得经条形码编码的寡核苷酸更容易地在整个细胞中扩散,从而提高经条形码编码的寡核苷酸的靶区域能够退火至靶核酸的子序列的效率。
在所述方法中,在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,可以通过与多聚体条形码编码剂的靶区域互补的寡核苷酸的溶液来接触细胞。
在所述方法中,在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,可以例如通过离心来将细胞从反应混合物中分离。
在所述方法中,在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,可以将经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂从细胞中分离。
多聚体条形码编码剂、经条形码编码的寡核苷酸和/或衔接子寡核苷酸可以包含一个或更多个生物素部分。
在所述方法中,在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,可以通过以下方法来分离经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂:(a)任选地溶解细胞膜,例如使用化学表面活性剂或通过在高温下孵育来溶解细胞膜;(b)使所得混合物与固体支持物接触,任选地其中固体支持物包含链霉抗生物素蛋白部分;以及(c)在固体支持物上、任选地通过链霉抗生物素蛋白-生物素相互作用来捕获经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂。固体支持物可以是一个或更多个磁珠,任选地其中一个或更多个磁珠在其表面上包含链霉抗生物素蛋白分子。磁珠可以用磁体从反应混合物中分离。
靶核酸可以是DNA分子(例如,基因组DNA分子)或RNA分子(例如,mRNA分子)。
优选地,在分离退火至靶mRNA分子的经条形码编码的寡核苷酸之后通过使用逆转录酶和作为模板的靶mRNA分子延伸经条形码编码的寡核苷酸来产生每个经条形码编码靶核酸分子。
mRNA分子可以是对应于T细胞受体序列的α链和/或β链的mRNA分子,任选地其中确定在单独细胞中配对的α链和β链的序列。
mRNA分子可以是对应于免疫球蛋白序列的轻链和/或重链的mRNA分子,任选地其中确定在单独细胞中配对的轻链和重链的序列。
所述方法可以用于在至少10、至少100、或至少103、至少104、至少105、至少106、至少107、至少108或至少109个细胞中对靶核酸进行测序。优选地,所述方法可以用于在至少10个细胞中对靶核酸进行测序。优选地,细胞可以是T细胞和/或B细胞。
多聚体条形码编码剂、文库或试剂盒的用途
本发明还提供了如本文所限定的多聚体条形码编码剂、如本文所限定的多聚体条形码编码剂文库、或如本文所限定的试剂盒由靶核酸产生两个或更多个序列读取的用途,其中两个或更多个序列读取可以被标识为来源于同一靶核酸并进行组合以产生合成长读取。
本发明还提供了如本文所限定的多聚体条形码编码剂、如本文所限定的多聚体条形码编码剂文库、或如本文所限定的试剂盒标记***固定石蜡包埋(FFPE)核酸样品的用途,其中将多聚体条形码编码剂或试剂盒的组分引入样品中并用于标记两个或更多个共定位靶核酸的组以进行测序。
本发明还提供了如本文所限定的多聚体条形码编码剂、如本文所限定的多聚体条形码编码剂文库、或如本文所限定的试剂盒在单独细胞中标记靶核酸的用途,其中将多聚体条形码编码剂或试剂盒的组分引入细胞中并用于标记细胞中两个或更多个靶核酸的组以进行测序。
本发明还提供了如本文所限定的多聚体条形码编码剂、如本文所限定的多聚体条形码编码剂文库、或如本文所限定的试剂盒在人血浆或血清的样品中标记靶核酸的用途,其中多聚体条形码编码剂或试剂盒的组分用于标记血浆或血清中两个或更多个靶核酸的组以进行测序。
用于对多聚体条形码编码剂或多聚体条形码编码剂文库进行谱绘制的方法
本发明还提供了用于对多聚体条形码编码剂进行谱绘制的方法,其包括以下步骤:(a)制备测序用核酸样品,任选地其中根据本文所限定的方法之一来制备核酸样品用于进行测序,其中所述样品包含已知序列的靶核酸;(b)对样品进行测序,任选地其中通过本文所限定的任何方法来对样品进行测序;(c)处理通过步骤(b)获得的序列数据,其中所述处理包括鉴定包含来自已知序列的靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,以及确定多聚体条形码编码剂的两个或更多个条形码区的序列。
本发明还提供了用于对两个或更多个多聚体条形码编码剂的文库进行谱绘制的方法,其包括以下步骤:(a)制备测序用核酸样品,任选地其中通过本文所限定的任一种方法来制备核酸样品用于进行测序,其中所述样品包含已知序列的第一靶核酸和已知序列的第二靶核酸;(b)对样品进行测序,任选地其中通过本文所限定的任何方法对样品进行测序;(c)处理通过步骤(b)获得的序列数据,其中所述处理包括:(i)鉴定包含来自已知序列的第一靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,并确定第一多聚体条形码编码剂的两个或更多个条形码区的序列;以及(ii)鉴定包含来自已知序列的第二靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,并确定第二多聚体条形码编码剂的两个或更多个条形码区的序列。
所述谱绘制方法可以用于确定在多个这样的试剂的溶液中每个单独多聚体条形码编码剂中存在哪些条形码。在事先不知道每个条形码编码剂中包含哪些条形码的情况下,这将是有用的。
已知序列的靶核酸可以通过合成短(例如,约40至100个核苷酸)寡核苷酸的文库来制备;每个寡核苷酸可以包含在每个末端的两个恒定区(不变区),在包含随机化核苷酸(例如,序列中的10个核苷酸,其各自可以是四种常规核苷酸中的任一种)的延伸段的中心可变区侧翼。
优选地,存在于该文库中的独特可变序列的数目可以被配置成显著大于存在于待谱绘制编码链文库中的独特条形码的数目。
寡核苷酸可以例如使用单链连接酶进行环化,或者通过首先使用引物延伸反应从分子的3’端产生双链分子并随后使用双链连接酶进行分子内环化来进行环化。在环化之后,可以使双链分子变性以使其转变为单链形式。
然后,可以使单引物与这些环化分子各自的一个恒定区结合并用于使用具有链置换活性的具有持续合成能力的聚合酶(processive polymerase)(例如,phi29聚合酶)来引发链置换扩增反应。该过程可以产生每个单独环化分子的大量串联线性拷贝,其各自被包含作为长单链DNA序列。然后,这些串联-重复的合成分子充当本发明方法中已知序列的靶核酸。
在下组编号条款中进一步限定本发明:
1.用于标记靶核酸的多聚体条形码编码剂,其中所述试剂包含:
a.连接在一起的第一和第二条形码分子,其中每个条形码分子包含含有条形码区的核酸序列;和
b.第一和第二经条形码编码的寡核苷酸,其中第一经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第一条形码分子的条形码区的条形码区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二经条形码编码的寡核苷酸包含任选地在5’至3’方向上的退火至第二条形码分子的条形码区的条形码区和能够退火或连接至靶核酸的第二子序列的靶区域。
2.根据条款1所述的多聚体条形码编码剂,其中所述条形码区独特地标识每个条形码分子。
3.根据条款1或条款2所述的多聚体条形码编码剂,其中所述靶区域包含不同的序列。
4.根据条款1至3中任一项所述的多聚体条形码编码剂,其中所述条形码分子在核酸分子上连接。
5.根据条款1至3中任一项所述的多聚体条形码编码剂,其中所述条形码分子通过附接至固体支持物而连接。
6.根据条款1至5中任一项所述的多聚体条形码编码剂,其中:
a.每个条形码分子包含在5’至3’方向上包含衔接子区和条形码区的核酸序列;
b.第一经条形码编码的寡核苷酸在5’至3’方向上包含退火至第一条形码分子的条形码区的条形码区、退火至第一条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第一子序列的靶区域;以及
c.第二经条形码编码的寡核苷酸在5’至3’方向上包含退火至第二条形码分子的条形码区的条形码区、退火至第二条形码分子的衔接子区的衔接子区和能够退火至靶核酸的第二子序列的靶区域。
7.根据条款1至6中任一项所述的多聚体条形码编码剂,其中所述多聚体条形码编码剂包含:
a.连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如条款1至5中一项所限定;以及
b.退火至每个条形码分子的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸条款1至5中任一项所限定。
8.多聚体条形码编码剂文库,其包含如条款1至7中任一项所限定的第一和第二多聚体条形码编码剂,其中第一多聚体条形码编码剂的条形码区与第二多聚体条形码编码剂的条形码区不同。
9.根据条款8所述的多聚体条形码编码剂文库,其中所述文库包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、或至少108个条款1至6中任一项所限定的多聚体条形码编码剂,并且其中每个多聚体条形码编码剂的条形码区与其他多聚体条形码编码剂的条形码区不同。
10.制备测序用核酸样品的方法,其中所述方法包括以下步骤:
a.使核酸样品与如条款1至7中任一项所限定的多聚体条形码编码剂接触;
b.使第一经条形码编码的寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二经条形码编码的寡核苷酸的靶区域退火至靶核酸的第二子序列;以及
c.延伸第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由靶核酸作为模板合成的核苷酸。
11.根据条款10所述的方法,其中所述方法包括使核酸样品与条款8或条款9中所限定的多聚体条形码编码剂文库接触,并且其中:
a.第一多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第一靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且
b.第二多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第二靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。
12.根据条款10或条款11所述的方法,其中所述靶核酸是完整核酸分子或核酸分子的共定位片段。
13.根据条款10至12中任一项所述的方法,其中延伸经条形码编码的寡核苷酸的步骤在经条形码编码的寡核苷酸退火至条形码分子时进行。
14.根据条款10至12中任一项所述的方法,其中所述方法还包括在使经条形码编码的寡核苷酸的靶区域退火至靶核酸的子序列之前进行使经条形码编码的寡核苷酸从条形码分子解离的步骤。
15.根据条款10至14中任一项所述的方法,其中所述方法包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、或至少108个不同的经条形码编码靶核酸分子。
16.根据条款10至15中任一项所述的方法,其中在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前,从核酸样品分离经条形码编码的寡核苷酸。
17.根据条款10至15中任一项所述的方法,其中从核酸样品分离经条形码编码靶核酸分子。
18.合成核酸条形码分子文库的方法,其包括:
a.使第一单链子条形码分子文库与第二单链子条形码分子文库接触,其中每个子条形码分子在5’至3’方向上包含子条形码区和下游区,并且其中来自第一文库的子条形码分子的下游区能够退火至来自第二文库的子条形码分子的下游区;
b.使来自第一文库的第一子条形码分子的下游区退火至来自第二文库的第一子条形码分子的下游区,并使来自第一文库的第二子条形码分子的下游区退火至来自第二文库的第二子条形码分子的下游区;以及
c.延伸子条形码分子的3’端以产生第一和第二双链条形码分子。
19.根据条款18所述的方法,其中每个子条形码分子还包含上游区,并且其中每个子条形码分子在5’至3’方向上包含上游区、子条形码区和下游区。
20.根据条款18或条款19所述的方法,其中第一和第二子条形码分子文库各自包含至少10、至少50、至少100、至少250、至少500、至少103、至少104、或至少105个不同的子条形码分子。
21.根据条款18至20中任一项所述的方法,其中所述方法用于合成至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同条形码分子的文库。
22.根据条款18至21中任一项所述的方法,其中所述方法还包括解离第一和第二双链条形码分子以产生第一和第二单链条形码分子的步骤。
23.合成核酸条形码分子文库的方法,其包括:
a.使第一子条形码分子文库与第二子条形码分子文库接触,其中每个子条形码分子包含子条形码区;以及
b.使来自第一文库的第一子条形码分子与来自第二文库的第一子条形码分子连接以形成第一条形码分子,并使来自第一文库的第二子条形码分子与来自第二文库的第二子条形码分子连接以形成第二条形码分子。
24.根据条款23所述的方法,其中第一和第二子条形码分子文库各自包含至少10、至少50、至少100、至少250、至少500、至少103、至少104、或至少105个不同的子条形码分子。
25.根据条款23或条款24所述的方法,其中所述方法用于合成至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同条形码分子的文库。
26.根据条款23至25中任一项所述的方法,其中第一和第二文库的子条形码分子是单链核酸。
27.根据条款23至25中任一项所述的方法,其中第一和第二文库的子条形码分子是双链核酸。
28.根据条款23至27中任一项所述的方法,其中第一文库的每个子条形码分子还包含上游区,并且其中第一文库的每个子条形码分子在5’至3’方向上包含上游区和子条形码区。
29.根据条款23至27中任一项所述的方法,其中第二文库的每个子条形码分子还包含下游区,并且其中第二文库的每个子条形码分子在5’至3’方向上包含子条形码区和下游区。
30.根据条款23至27中任一项所述的方法,其中:
a.第一文库的每个子条形码分子还包含上游区,并且其中第一文库的每个子条形码分子在5’至3’方向上包含上游区和子条形码区;
b.第二文库的每个子条形码分子还包含下游区,并且其中第二文库的每个子条形码分子在5’至3’方向上包含子条形码区和下游区;
c.第一条形码分子在5’-3’方向上包含第一文库的第一子条形码分子的上游区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区和第二文库的第一子条形码分子的下游区;以及
d.第二条形码分子在5’-3’方向上包含第一文库的第二子条形码分子的上游区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区和第二文库的第二子条形码分子的下游区。
31.根据条款30所述的方法,其中:
a.第一文库的每个子条形码分子的上游区包含限制性内切核酸酶的上游识别位点,任选地其中上游识别位点与子条形码区相邻;和/或
b.第二文库的每个子条形码分子的下游区包含限制性内切核酸酶的下游识别位点,任选地其中下游识别位点与子条形码区相邻。
32.根据条款31所述的方法,其中所述方法还包括使用限制性内切核酸酶在上游识别位点和/或下游识别位点切割条形码分子的步骤。
33.根据条款32所述的方法,其中所述方法还包括以下步骤:
a.使经在下游识别位点切割的条形码分子与另一子条形码分子文库接触,其中所述另一文库的每个子条形码分子在5’至3’方向上包含子条形码区和下游区;以及
b.使经在下游识别位点切割的第一条形码分子与所述另一文库的第一子条形码分子连接以形成第一延伸条形码分子,并使经在下游识别位点切割的第二条形码分子与所述另一文库的第二子条形码分子连接以形成第二延伸条形码分子;
其中第一延伸条形码分子在5’-3’方向上包含第一文库的第一子条形码分子的上游区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区、所述另一文库的第一子条形码分子的子条形码区和所述另一文库的第一子条形码分子的下游区;
并且其中第二延伸条形码分子在5’-3’方向上包含第一文库的第二子条形码分子的上游区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区、所述另一文库的第二子条形码分子的子条形码区和所述另一文库的第二子条形码分子的下游区。
34.根据条款32所述的方法,其中所述方法还包括以下步骤:
a.使经在上游识别位点切割的条形码分子与另一子条形码分子文库接触,其中所述另一文库的每个子条形码分子在5’至3’方向上包含上游区和子条形码区;以及
b.使经在上游识别位点切割的第一条形码分子与所述另一文库的第一子条形码分子连接以形成第一延伸条形码分子,并使经在上游识别位点切割的第二条形码分子与所述另一文库的第二子条形码分子连接以形成第二延伸条形码分子;
其中第一延伸条形码分子在5’-3’方向上包含所述另一文库的第一子条形码分子的上游区、所述另一文库的第一子条形码分子的子条形码区、第一文库的第一子条形码分子的子条形码区、第二文库的第一子条形码分子的子条形码区和第二文库的第一子条形码分子的下游区;
并且其中第二延伸条形码分子在5’-3’方向上包含所述另一文库的第二子条形码分子的上游区、所述另一文库的第二子条形码分子的子条形码区、第一文库的第二子条形码分子的子条形码区、第二文库的第二子条形码分子的子条形码区和第二文库的第二子条形码分子的下游区。
35.根据条款33所述的方法,其中所述另一文库的每个子条形码分子的下游区包含限制性内切核酸酶的下游识别位点,任选地其中下游识别位点与子条形码区相邻。
36.根据条款34所述的方法,其中所述另一文库的每个子条形码分子的上游区包含限制性内切核酸酶的上游识别位点,任选地其中上游识别位点与子条形码区相邻。
37.根据条款35或条款36所述的方法,其中所述方法还包括以下步骤:
a.在所述另一文库的子条形码分子的下游识别位点或上游识别位点切割延伸条形码分子;以及
b.通过条款33或条款34中限定的步骤使经切割的延伸条形码分子与另一子条形码分子文库连接。
38.根据条款37所述的方法,其中重复条款37的步骤(a)和(b)至少2、至少3、至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少25、至少50、至少100或至少250次。
39.根据条款28所述的方法,其中子条形码分子是双链核酸,并且其中在条款23的步骤(a)之前,使第一子条形码分子文库与包含下游衔接子区的双链下游衔接子分子连接以产生连接产物文库,其中连接通过平端连接来实现,使得每个分子随后在5’至3’方向上包含第一子条形码分子的上游区,随后是第一子条形码分子的子条形码区,随后是下游衔接子区。
40.根据条款39所述的方法,其中所述下游衔接子分子在5’端包含在所述连接反应中与子条形码分子连接的5’磷酸基团。
41.根据条款39或条款40所述的方法,其中所述方法还包括扩增连接产物文库以产生扩增产物文库,其中每个子条形码分子的上游区包含正向引发序列且下游衔接子区包含反向引发序列,并且其中使用退火至正向引发序列的正向引物和退火至反向引发序列的反向引物来进行扩增步骤,任选地其中通过聚合酶链反应来进行扩增步骤。
42.根据条款41所述的方法,其中所述方法还包括通过与尿嘧啶DNA糖基化酶反应来对扩增产物文库进行修饰,其中正向引物和/或反向引物包含至少一个脱氧尿嘧啶核苷酸。
43.根据条款39至42中任一项所述的方法,其中每个子条形码分子的上游区包含限制性内切核酸酶的识别位点,并且其中识别位点被定位成使得限制性内切核酸酶在识别位点的切割邻近子条形码分子的子条形码区发生。
44.根据条款43所述的方法,其中限制性内切核酸酶的识别位点位于第一子条形码分子的子条形码区上游1、2、少于3、少于4、少于5、或少于10个核苷酸处。
45.根据条款44所述的方法,其中限制性内切核酸酶是MlyI。
46.根据条款43至45中任一项所述的方法,其中所述方法还包括使用限制性内切核酸酶来在识别位点切割连接产物文库或扩增产物文库以产生切割产物文库,任选地其中切割步骤在通过与尿嘧啶DNA糖基化酶反应进行修饰的步骤之后进行。
47.根据条款46所述的方法,其中用切割产物文库和第二子条形码分子文库进行条款23的步骤(a)和(b)中限定的接触和连接步骤,其中第二文库的每个子条形码分子是双链的且在5’至3’方向上包含上游区和子条形码区,并且其中第二子条形码分子文库包含条款43至45中任一项中限定的限制性内切核酸酶的识别位点。
48.根据条款47所述的方法,其中重复条款43至47中所限定的切割和连接步骤1、2、3、4或5次,其中每个重复涉及使用另一子条形码分子文库,并且任选地其中每个重复涉及重复条款41中限定的扩增步骤,并且还任选地其中每个重复包括重复条款42中所限定的修饰步骤。
49.根据条款48所述的方法,其中最后的连接步骤包括使包含上游衔接子区的双链上游衔接子分子与切割产物文库连接以产生连接产物文库,并且任选地其中所述方法还包括使用退火至上游衔接子区中正向引发序列的正向引物和退火至下游衔接子区中反向引发序列的反向引物来扩增连接产物文库以形成扩增产物文库。
50.由两个或更多个条形码分子组装多聚体条形码分子的方法,其包括:
a.使第一条形码分子与第一引物接触并使第二条形码分子与第二引物接触,其中每个条形码分子包含在5’至3’方向上包含5’区、条形码区和3’区的第一链;
b.使第一引物退火至第一条形码分子的3’区,并使第二引物退火至第二条形码分子的3’区;
c.延伸第一引物以合成包含与第一条形码分子的第一链互补的序列的第二链以形成第一双链条形码分子,并延伸第二引物以合成包含与第二条形码分子的第一链互补的序列的第二链以形成第二双链条形码分子;
d.使第一双链条形码分子与第二双链条形码分子连接。
51.由两个或更多个单链条形码分子组装双链多聚体条形码分子的方法,其中每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区,所述方法包括:
a.使第一条形码分子与反向夹板引物接触,其中反向夹板引物包含与第二条形码分子的5’区互补的5’区和与第一条形码分子的3’区互补的3’区,并使第二条形码分子与反向终止引物接触,其中反向终止引物包含与第二条形码分子的3’区互补的3’区;
b.使反向夹板引物的3’区退火至第一条形码分子的3’区,并使反向终止引物的3’区退火至第二条形码分子的3’区;
c.延伸反向夹板引物以合成包含与第一条形码分子互补的序列的第一延伸产物,并延伸反向终止引物以合成包含与第二条形码分子互补的序列的第二延伸产物;
d.使第一延伸产物与正向终止引物接触,其中正向终止引物包含与第一条形码分子的5’区基本上相同的3’区;
e.使正向终止引物的3’区退火至第一延伸产物的3’区;
f.延伸正向终止引物以合成包含与第一延伸产物互补的序列的第三延伸产物;
g.使第二和第三延伸产物退火;
h.在3’端延伸第二和第三延伸产物以形成包含第一链和第二链的双链多聚体条形码分子,所述第一链包含与第二条形码分子的序列连接的第一条形码分子的序列,所述第二链与所述第一链互补。
52.由两个或更多个单链条形码分子组装双链多聚体条形码分子的方法,其中每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区,所述方法包括:
a.使第一条形码分子与反向夹板引物接触,其中反向夹板引物包含与第二条形码分子的5’区互补的5’区和与第一条形码分子的3’区互补的3’区,并使第二条形码分子与反向终止引物接触,其中反向终止引物包含与第二条形码分子的3’区互补的3’区;
b.使反向夹板引物的3’区退火至第一条形码分子的3’区,并使反向终止引物的3’区退火至第二条形码分子的3’区;
c.延伸反向夹板引物以合成包含与第一条形码分子互补的序列的第一延伸产物,并延伸反向终止引物以合成包含与第二条形码分子互补的序列的第二延伸产物;
d.使第一延伸产物与正向终止引物接触,其中正向终止引物包含与第一条形码分子的5’区基本上相同的3’区,并使第二延伸产物与正向夹板引物接触,其中正向夹板引物包含与第一条形码分子的3’区基本上相同的5’区和与第二条形码分子的5’区基本上相同的3’区;
e.使正向终止引物的3’区退火至第一延伸产物的3’区,并使正向夹板引物的3’区退火至第二延伸产物的3’区;
f.延伸正向终止引物以合成包含与第一延伸产物互补的序列的第三延伸产物,并使用正向夹板引物来延伸第二延伸产物以合成包含与正向夹板引物的5’区互补的序列的第四延伸产物;
g.使第三和第四延伸产物退火;
h.在3’端延伸第三和第四延伸产物以形成包含第一链和第二链的双链多聚体条形码分子,所述第一链包含与第二条形码分子的序列连接的第一条形码分子的序列,所述第二链与所述第一链互补。
53.根据条款51或条款52所述的方法,其中:
a.正向终止引物包含含有正向试剂扩增序列的5’区,并且
b.反向终止引物包含含有反向试剂扩增序列的5’区。
54.根据条款53所述的方法,其中所述方法还包括使用正向和反向引物来扩增多聚体条形码分子,其中正向引物退火至正向试剂扩增序列并且反向引物退火至反向试剂扩增序列。
55.根据条款50至54中任一项所述的方法,其中所述多聚体条形码分子使用至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少至少106个条形码分子来组装,其中每个条形码分子在5’至3’方向上包含5’区、条形码区和3’区。
56.根据条款50至55中任一项所述的方法,其中所述多聚体条形码分子包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、或至少106个条形码分子的条形码区。
57.根据条款50至56中任一项所述的方法,其中组装至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107或至少108个不同多聚体条形码分子的文库。
58.根据条款50至57中任一项所述的方法,其中每个条形码分子如条款1至9或18至49中任一项所限定。
59.根据条款49所述的方法,其中所述方法还包括使正向夹板引物退火至连接产物文库或扩增产物文库,其中正向夹板引物在5’至3’方向上包含与条款49的反向引物互补的序列和与条款49的正向引物基本上相同的序列,并且其中延伸正向夹板引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中延伸反应使用DNA聚合酶来进行。
60.根据条款59所述的方法,其中所述方法还包括使正向终止引物退火至连接产物或扩增产物,其中正向终止引物在5’至3’方向上包含正向试剂扩增序列和与条款49的正向引物基本上相同的序列,并且其中延伸正向终止引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中延伸反应使用DNA聚合酶来进行。
61.根据条款59或条款60所述的方法,其中所述方法还包括使反向夹板引物退火至连接产物或扩增产物,其中反向夹板引物在5’至3’方向上包含与条款49的正向引物互补的序列和与条款49的反向引物基本上相同的序列,并且其中延伸反向夹板引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中延伸反应使用DNA聚合酶来进行。
62.根据条款59至61中任一项所述的方法,其中所述方法还包括使反向终止引物退火至连接产物或扩增产物,其中反向终止引物在5’至3’方向上包含反向试剂扩增序列和与条款49的反向引物基本上相同的序列,并且其中延伸反向终止引物的3’端以并入来自连接产物或扩增产物的序列,并且任选地其中延伸反应使用DNA聚合酶来进行。
63.根据条款59至62中任一项所述的方法,其中在引物的退火和延伸之后,用来自退火和延伸过程的两个或更多个分子进行重叠延伸扩增反应以产生多聚体条形码分子文库,任选地其中扩增反应通过聚合酶链反应来进行,其中每个多聚体条形码分子包含来自至少两个条形码分子的条形码区。
64.根据条款63所述的方法,其中所述方法还包括使用与正向试剂扩增序列基本上相同的正向引物和与反向试剂扩增序列基本上相同的反向引物来扩增多聚体条形码分子,其中所述扩增反应包括至少1、至少5、至少10、至少15、至少20、或至少30个扩增循环,任选地其中扩增通过聚合酶链反应来进行。
65.根据条款63或条款64所述的方法,其中多聚体条形码分子文库包含至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107或至少108个不同的多聚体条形码分子。
66.根据条款64或条款65所述的方法,其中所述方法还包括核酸尺寸选择步骤以分离限定长度的多聚体条形码分子,任选地其中所述长度为900至1100个核苷酸、4500至5500个核苷酸、或9000至11000个核苷酸。
67.根据条款64至66中任一项所述的方法,其中所述方法还包括使用与正向试剂扩增序列基本上相同的单一正向引物、或与反向试剂扩增序列基本上相同的单一反向引物来对扩增的多聚体条形码分子进行一个或更多个引物延伸循环。
68.根据条款67所述的方法,其中在引物延伸循环期间并入一个或更多个经修饰的脱氧核糖核苷酸,任选地其中脱氧核糖核苷酸是经生物素部分修饰的或是脱氧尿嘧啶核苷酸。
69.合成用于标记靶核酸的多聚体条形码编码剂的方法,其包括:
a.使第一和第二条形码分子与第一和第二延伸引物接触,其中每个条形码分子包含在5’至3’方向上包含衔接子区、条形码区和引发区的单链核酸;
b.使第一延伸引物退火至第一条形码分子的引发区,并使第二延伸引物退火至第二条形码分子的引发区;以及
c.通过延伸第一延伸引物来合成第一经条形码编码延伸产物,并通过延伸第二延伸引物来合成第二经条形码编码延伸产物,其中第一经条形码编码延伸产物包含与第一条形码分子的条形码区互补的序列且第二经条形码编码延伸产物包含与第二条形码分子的条形码区互补的序列,并且其中第一经条形码编码延伸产物不包含与第一条形码分子的衔接子区互补的序列且第二经条形码编码延伸产物不包含与第二条形码分子的衔接子区互补的序列;
并且其中第一和第二条形码分子连接在一起。
70.根据条款69所述的方法,其中所述方法还包括在合成第一和第二经条形码编码延伸产物的步骤之前进行以下步骤:
a.使第一和第二条形码分子与第一和第二封闭引物接触;以及
b.使第一封闭引物退火至第一条形码分子的衔接子区,并使第二封闭引物退火至第二条形码分子的衔接子区;
并且其中所述方法还包括在合成经条形码编码延伸产物的步骤之后进行使封闭引物从条形码分子解离的步骤。
71.根据条款69或条款70所述的方法,其中在合成延伸产物之后,进行第二延伸步骤,其中将四种常规脱氧核糖核苷酸中的一种或更多种从反应中排除,使得第二延伸步骤在衔接子区序列之前的位置终止,其中所述位置包含与所排除脱氧核糖核苷酸互补的核苷酸。
72.根据条款71所述的方法,其中所述第二延伸步骤用缺乏3’至5’外切核酸酶活性的聚合酶来进行。
73.根据条款69至72中任一项所述的方法,其中所述条形码分子通过条款22或条款26所述的方法合成。
74.根据条款69至73中任一项所述的方法,其中所述条形码区独特地标识每个条形码分子。
75.根据条款69至74中任一项所述的方法,其中所述条形码分子在核酸分子上连接。
76.根据条款75所述的方法,其中所述条形码分子在连接反应中连接在一起。
77.根据条款69至74中任一项所述的方法,其中所述条形码分子通过包括使条形码分子附接至固体支持物的另一步骤而连接在一起。
78.根据条款69至74中任一项所述的方法,其中在条款69的步骤(a)之前,通过条款50至68中任一项所述的方法将第一和第二条形码分子组装成双链多聚体条形码分子,并且在条款69的步骤(a)之前,所述方法还包括使双链多聚体条形码分子解离以产生单链多聚体条形码分子。
79.根据条款69至78中任一项所述的方法,其还包括以下步骤:
a.使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区,其中所述第一衔接子寡核苷酸还包含能够退火至靶核酸的第一子序列的靶区域,并且所述第二衔接子寡核苷酸还包含能够退火至靶核酸的第二子序列的靶区域;以及
b.使第一经条形码编码延伸产物的3’端与第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使第二经条形码编码延伸产物的3’端与第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸。
80.根据条款79所述的方法,其中条款79的步骤(a)在合成第一和第二经条形码编码延伸产物的步骤之前进行,并且其中合成第一和第二经条形码编码延伸产物的步骤在存在进行条款79的步骤(b)的连接酶下进行。
81.根据条款80所述的方法,其中所述连接酶是热稳定性连接酶,并且其中延伸和连接反应在高于37摄氏度、高于45摄氏度或高于50摄氏度下进行。
82.根据条款79至81中任一项所述的方法,其中所述靶区域包含两个或更多个不同的序列。
83.根据条款79至82中任一项所述的方法,其中所述衔接子寡核苷酸的衔接子区包含相同的恒定区。
84.根据条款69至83中任一项所述的方法,其中所述方法包括合成包含至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子的多聚体条形码编码剂,并且其中:
a.每个条形码分子如条款1至9或18至49中一项所限定;以及
b.根据条款69至83中任一项所限定的方法,由每个条形码分子合成经条形码编码延伸产物;以及任选地,
c.根据条款79至83中任一项所限定的方法,使衔接子寡核苷酸与每个经条形码编码延伸产物连接以产生经条形码编码的寡核苷酸。
85.合成多聚体条形码编码剂文库的方法,其中所述方法包括重复条款69至84中任一项所述的步骤以合成两个或更多个多聚体条形码编码剂。
86.用于标记靶核酸的试剂盒,其中所述试剂盒包含:
a.多聚体条形码编码剂,其包含:
i.连接在一起的第一和第二条形码分子,其中每个条形码分子包含含有任选地在5’至3’方向上的衔接子区和条形码区的核酸序列,和
ii.第一和第二条形码寡核苷酸,其中第一条形码寡核苷酸包含退火至第一条形码分子的条形码区的条形码区,并且其中第二条形码寡核苷酸包含退火至第二条形码分子的条形码区的条形码区;以及
b.第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第一条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第一子序列的靶区域,并且其中第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够退火至第二条形码分子的衔接子区的衔接子区和能够退火或连接至靶核酸的第二子序列的靶区域。
87.根据条款86所述的试剂盒,其中每个多聚体条形码编码剂如条款1至9或69至85中任一项所限定。
88.根据条款86或条款87所述的试剂盒,其中每个条形码分子如条款1至9或18至68中任一项所限定。
89.根据条款86至88中任一项所述的试剂盒,其中所述条形码区独特地标识每个条形码分子。
90.根据条款86至89中任一项所述的试剂盒,其中所述靶区域包含不同的序列。
91.根据条款86至90中任一项所述的试剂盒,其中所述衔接子寡核苷酸的衔接子区包含相同的恒定区。
92.根据条款86至91中任一项所述的试剂盒,其中所述条形码分子在核酸分子上连接。
93.根据条款86至92中任一项所述的试剂盒,其中所述条形码分子通过附接至固体支持物而连接。
94.根据条款86至93中任一项所述的试剂盒,其中所述多聚体条形码编码剂和衔接子寡核苷酸作为物理上分离的组分在试剂盒中提供。
95.根据条款86至94中任一项所述的试剂盒,其中所述试剂盒包含:
a.多聚体条形码编码剂,其包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如条款1至9、18至68、或86至94中一项所限定;和
b.能够退火至每个条形码分子的衔接子寡核苷酸,其中每个衔接子寡核苷酸如条款79至94中任一项所限定。
96.根据条款86至95中任一项所述的试剂盒,其中所述试剂盒包含:两个或更多个多聚体条形码编码剂的文库,其中每个多聚体条形码编码剂如条款1至9或69至95中任一项所限定;和针对每个多聚体条形码编码剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸如条款79至95中任一项所限定,其中第一多聚体条形码编码剂的条形码区与第二多聚体条形码编码剂的条形码区不同。
97.根据条款96所述的试剂盒,其中所述试剂盒包含:至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个多聚体条形码编码剂的文库,其中每个多聚体条形码编码剂如条款1至9或69至95中任一项所限定;和针对每个多聚体条形码编码剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸如条款79至95中任一项所限定,并且其中每个多聚体条形码编码剂的条形码区与其他多聚体条形码编码剂的条形码区不同。
98.制备测序用核酸样品的方法,其中所述方法包括以下步骤:
a.使核酸样品与如条款86至97中任一项所限定的第一和第二衔接子寡核苷酸接触;
b.使第一衔接子寡核苷酸的靶区域退火至靶核酸的第一子序列,并使第二衔接子寡核苷酸的靶区域退火至靶寡核苷酸的第二子序列;
c.使核酸样品与如条款86至97中任一项所限定的多聚体条形码编码剂接触;
d.使第一衔接子寡核苷酸的衔接子区退火至第一条形码分子的衔接子区,并使第二衔接子寡核苷酸的衔接子区退火至第二条形码分子的衔接子区;以及
e.使第一条形码寡核苷酸的3’端与第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使第二条形码寡核苷酸的游离3’端与第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸;
并且其中延伸第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。
99.根据条款98所述的方法,其中步骤(a)和(b)使用如条款96或条款97中限定的衔接子寡核苷酸来进行,且步骤(c)至(e)使用如条款96或条款97中限定的多聚体条形码编码剂文库来进行,并且其中:
a.第一多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第一靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且
b.第二多聚体条形码编码剂的经条形码编码的寡核苷酸退火至第二靶核酸的子序列且产生第一和第二不同的经条形码编码靶核酸分子,其中每个经条形码编码靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。
100.根据条款98或条款99所述的方法,其中所述靶核酸是完整核酸分子或核酸分子的共定位片段。
101.根据条款98至100中任一项所述的方法,其中延伸经条形码编码的寡核苷酸的步骤在步骤(c)之前、在步骤(d)之前和/或在步骤(e)之前进行,并且其中第一和第二经条形码编码的寡核苷酸保持退火至第一和第二条形码分子直至步骤(e)之后。
102.根据条款98至100中任一项所述的方法,其中延伸经条形码编码的寡核苷酸的步骤在步骤(e)之后进行。
103.根据条款98至102中任一项所述的方法,其中所述方法包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子。
104.根据条款98至103中任一项所述的方法,其中在退火至靶核酸的子序列之后并且在产生经条形码编码靶核酸分子之前,从核酸样品分离经条形码编码的寡核苷酸。
105.根据条款98至103中任一项所述的方法,其中从核酸样品分离经条形码编码靶核酸分子。
106.对根据条款10至17或条款98至105中任一项所述方法制备的样品进行测序的方法,其包括以下步骤:
a.分离经条形码编码靶核酸分子,以及
b.由每个经条形码编码靶核酸分子产生序列读取,其包含条形码区、靶区域和至少一个另外的来自靶核酸的核苷酸。
107.根据条款106所述的方法,其中每个序列读取包含至少10、至少25、至少50、至少100、至少250、至少500个来自靶核酸的核苷酸。
108.用于处理通过条款106或条款107所述的方法获得的测序数据的方法,其包括以下步骤:
a.对每个序列读取鉴定条形码区的序列和来自靶核酸的序列;以及
b.使用来自步骤(a)的信息来确定来自靶核酸的经来自同一多聚体条形码编码剂的条形码区标记的序列组。
109.根据条款108所述的方法,其还包括通过分析序列组以鉴定连续序列来确定靶核酸的序列的步骤,其中靶核酸的序列包含来自至少两个序列读取的核苷酸。
110.根据条款108或条款109所述的方法,其中所述靶核酸是完整核酸分子或核酸分子的共定位片段。
111.由靶核酸产生合成长读取的方法,其包括以下步骤:
a.根据条款10至17或条款98至105中任一项所述的方法来制备测序用核酸样品;
b.根据条款106或条款107所述的方法来对样品进行测序;以及
c.根据条款108至110中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)产生包含来自至少两个序列读取中每一个的至少一个核苷酸的合成长读取。
112.对两个或更多个共定位靶核酸进行测序的方法,其包括以下步骤:
a.根据条款10至17或条款98至105中任一项所述的方法来制备测序用核酸样品;
b.根据条款106或条款107所述的方法来对样品进行测序;以及
c.根据条款108至110中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)鉴定包含来自样品中共定位的至少两个靶核酸的核苷酸的至少两个序列读取。
113.对来自单独细胞的靶核酸进行测序的方法,其包括以下步骤:
a.根据条款10至17或条款98至105所述的方法来制备测序用核酸样品,其中将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中;
b.根据条款106或条款107所述的方法来对样品进行测序;以及
c.根据条款108至110中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)鉴定包含来自细胞的至少两个靶核酸的核苷酸的至少两个序列读取。
114.根据条款113所述的方法,其中通过与脂质转染试剂进行化学复合并随后转染入细胞中来将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中。
115.根据条款113所述的方法,其中通过以下步骤来将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中:
a.通过使细胞膜与化学表面活性剂接触来使其透化;以及随后
b.使细胞与多聚体条形码编码剂和/或衔接子寡核苷酸接触。
116.根据条款115所述的方法,其中所述化学表面活性剂是非离子表面活性剂。
117.根据条款115或条款116所述的方法,其中所述化学表面活性剂是Triton X-100(C14H22O(C2H4O)n(n=9至10))。
118.根据条款115至117中任一项所述的方法,其中所述化学表面活性剂在溶液中的浓度为小于200微摩尔、或小于500微摩尔、或小于1毫摩尔。
119.根据条款113至118中任一项所述的方法,其中在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中的步骤之后,将细胞孵育一段时间以使多聚体条形码编码剂或衔接子寡核苷酸的靶区域退火至细胞中靶核酸的子序列。
120.根据条款119所述的方法,其中孵育时间为至少1分钟、或至少5分钟、或至少15分钟、或至少30分钟、或至少60分钟。
121.根据条款119或条款120所述的方法,其中所述孵育发生在包含核酸变性剂(例如,DMSO或甜菜碱)的溶液中。
122.根据条款119至121中任一项所述的方法,其中所述孵育发生在至少37摄氏度、至少45摄氏度、或至少50摄氏度的温度下。
123.根据条款113至122中任一项所述的方法,其中在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,通过与多聚体条形码编码剂的靶区域互补的寡核苷酸的溶液来接触细胞。
124.根据条款113至123中任一项所述的方法,其中在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,通过离心从反应混合物中分离细胞。
125.根据条款113至124中任一项所述的方法,其中在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,从细胞中分离经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂。
126.根据条款113至125中任一项所述的方法,其中多聚体条形码编码剂、经条形码编码的寡核苷酸和/或衔接子寡核苷酸包含一个或更多个生物素部分。
127.根据条款113至126中任一项所述的方法,其中在将多聚体条形码编码剂和/或衔接子寡核苷酸引入细胞中之后,并且任选地在孵育步骤之后,通过以下方法来分离经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂:
c.溶解细胞膜,任选地使用化学表面活性剂或通过在高温下孵育来溶解细胞膜;
d.使所得混合物与固体支持物接触,任选地其中固体支持物包含链霉抗生物素蛋白部分;以及
e.在固体支持物上、任选地通过链霉抗生物素蛋白-生物素相互作用来捕获经条形码编码的寡核苷酸和/或经条形码编码靶核酸分子和/或多聚体条形码编码剂。
128.根据条款127所述的方法,其中所述固体支持物是一个或更多个磁珠,任选地其中一个或更多个磁珠在其表面上包含链霉抗生物素蛋白分子。
129.根据条款128所述的方法,其中所述磁珠用磁体从反应混合物中分离。
130.根据条款113至129中任一项所述的方法,其中所述靶核酸是mRNA分子。
131.根据条款130所述的方法,其中每个经条形码编码靶核酸分子在分离退火至靶mRNA分子的经条形码编码的寡核苷酸之后通过使用逆转录酶和作为模板的靶mRNA分子延伸经条形码编码的寡核苷酸来产生。
132.根据条款130或131所述的方法,其中所述mRNA分子是对应于T细胞受体序列的α链和/或β链的mRNA分子,任选地其中确定在单独细胞中配对的α链和β链的序列。
133.根据条款130或131所述的方法,其中所述mRNA分子是对应于免疫球蛋白序列的轻链和/或重链的mRNA分子,任选地其中确定在单独细胞中配对的轻链和重链的序列。
134.根据条款113至133中任一项所述的方法,其中对至少100、或至少103、至少104、至少105、至少106、至少107、至少108或至少109个细胞进行测序。
135.条款1至7中任一项所限定多聚体条形码编码剂、条款8或条款9中所限定多聚体条形码编码剂文库、或条款86至97中任一项所限定试剂盒由靶核酸产生两个或更多个序列读取的用途,其中两个或更多个序列读取被标识为来源于同一靶核酸并进行组合以产生合成长独序。
136.条款1至7中任一项所限定多聚体条形码编码剂、条款8或条款9中所限定多聚体条形码编码剂文库、或条款86至97中任一项所限定试剂盒标记***固定石蜡包埋核酸样品的用途,其中将多聚体条形码编码剂或试剂盒的组分引入样品中并用于标记两个或更多个共定位靶核酸的组以进行测序。
137.条款1至7中任一项所限定多聚体条形码编码剂、条款8或条款9中所限定多聚体条形码编码剂文库、或条款86至97中任一项所限定试剂盒在单独细胞中标记靶核酸的用途,其中将多聚体条形码编码剂或试剂盒的组分引入细胞中并用于标记细胞中两个或更多个靶核酸的组以进行测序。
138.条款1至7中任一项所限定多聚体条形码编码剂、条款8或条款9中所限定多聚体条形码编码剂文库、或条款86至97中任一项所限定试剂盒在人血浆或血清的样品中标记靶核酸的用途,其中多聚体条形码编码剂或试剂盒的组分用于标记血浆或血清中两个或更多个靶核酸的组以进行测序。
139.用于对多聚体条形码编码剂进行谱绘制的方法,其包括以下步骤:
a.根据条款10至17或条款98至105所述的方法来制备测序用核酸样品,其中所述样品包含已知序列的靶核酸;
b.根据条款106或条款107所述的方法来对样品进行测序;
c.处理通过步骤(b)获得的序列数据,其中所述处理包括:鉴定包含来自已知序列的靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,以及确定多聚体条形码编码剂的两个或更多个条形码区的序列。
140.用于对两个或更多个多聚体条形码编码剂的文库进行谱绘制的方法,其包括以下步骤:
a.根据条款10至17或条款98至105所述的方法来制备测序用核酸样品,其中所述样品包含已知序列的第一靶核酸和已知序列的第二靶核酸;
b.根据条款106或条款107所述的方法来对样品进行测序;
c.处理通过步骤(b)获得的序列数据,其中所述处理包括:
i.鉴定包含来自已知序列的第一靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,并确定第一多聚体条形码编码剂的两个或更多个条形码区的序列;以及
ii.鉴定包含来自已知序列的第二靶核酸的序列的序列读取,在这些序列读取中鉴定条形码区的序列,并确定第二多聚体条形码编码剂的两个或更多个条形码区的序列。
附图简述
通过参考结合附图的描述可最佳地理解本发明及其另一些目的和优点,在附图中:
图1示出了可用于图2或图3所示方法的多聚体条形码编码剂。
图2示出了使用多聚体条形码编码剂来制备测序用核酸样品的第一方法。
图3示出了使用多聚体条形码编码剂来制备测序用核酸样品的第二方法。
图4示出了使用退火和延伸步骤来由子条形码文库合成条形码分子文库的方法。
图5示出了使用连接来由子条形码文库合成条形码分子文库的方法。
图6示出了通过连接和切割来合成条形码分子文库的方法。
图7示出了由两个或更多个条形码分子组装多聚体条形码分子(多聚体条形码编码剂的前体)的方法。
图8示出了由两个或更多个条形码分子组装多聚体条形码分子(多聚体条形码编码剂的前体)的可替选方法。
图9示出了合成可用于图2、图3和/或图12所示方法的用于标记靶核酸的多聚体条形码编码剂的方法。
图10示出了合成可用于图2和/或图3所示方法的用于标记靶核酸的多聚体条形码编码剂(如图1所示)的可替选方法。
图11示出了用于标记靶核酸的包含多聚体条形码编码剂和衔接子寡核苷酸的试剂盒。
图12示出了使用多聚体条形码编码剂来制备测序用核酸样品的第三方法。
图13示出了使用多聚体条形码分子和衔接子寡核苷酸来制备测序用核酸样品的方法。
图14是示出了每个条形码序列中核苷酸的总数的图。
图15是示出了每个测序多聚体条形码分子中独特条形码分子的总数的图。
图16示出了通过分析脚本(analysis script)检出的代表性多聚体条形码分子。
图17是示出了在用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对已知序列的合成DNA模板进行条形码编码之后每个分子序列标识符的独特条形码的数目相对于分子序列标识符的数目的图。
图18是示出了在用多聚体条形码编码剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条形码编码之后每个分子序列标识符的独特条形码的数目相对于分子序列标识符的数目的图。
图19是示出了用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对三种人基因(BRCA1、HLA-A和DQB1)的基因组DNA基因座进行条形码编码的结果的表格。
图20是由用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对基因组DNA基因座进行条形码编码获得的序列读取的示意图。
图21是示出了来自同一多聚体条形码编码剂的对同一合成模板分子上序列进行标记的条形码的数目相对于合成模板分子的数目的图。
实施例
材料和方法
方法1-核酸条形码分子文库的合成
双链子条形码分子文库的合成
在PCR管中,将10微升的10微摩尔BC_MX3(SEQ ID NO:18至269中所有序列的等摩尔混合物)添加至10微升的10微摩尔BC_ADD_TP1(SEQ ID NO:1),加10微升的10X CutSmart缓冲液(New England Biolabs),加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加68微升H2O,直至99微升的终体积。将PCR管置于热循环仪上,并在75℃下孵育5分钟,然后缓慢退火至4℃,然后保持4℃,然后置于冰上。向溶液中添加1.0微升Klenow聚合酶片段(New England Biolabs;5U/μL)并混合。再次将PCR管置于热循环仪上,并在25℃下孵育15分钟,然后保持在4℃。然后,将溶液用纯化柱(核苷酸除去试剂盒(Nucleotide Removal Kit);Qiagen)纯化,在50微升H2O中洗脱,并通过分光光度法量化。
双链下游衔接子分子的合成
在PCR管中,将0.5微升的100微摩尔BC_ANC_TP1(SEQ ID NO:2)添加至0.5微升的100微摩尔BC_ANC_BT1(SEQ ID NO:3),加20微升的10X CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,直至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育5分钟,然后缓慢退火至4℃,然后保持4℃,然后置于冰上,然后储存在-20℃下。
双链子条形码分子文库与双链下游衔接子分子的连接
在1.5毫升Eppendorf管中,将1.0微升双链下游衔接子分子溶液添加至2.5微升双链子条形码分子文库,加2.0微升的10X T4 DNA连接酶缓冲液和13.5微升H2O,直至19微升的终体积。向该溶液中添加1.0微升T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,然后用1.8X体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在40微升H2O中洗脱。
连接文库的PCR扩增
在PCR管中,将2.0微升连接文库添加至2.0微升的50微摩尔BC_FWD_PR1(SEQ IDNO:4),加2.0微升的50微摩尔BC_REV_PR1(SEQ ID NO:5),加10微升的10X Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加81.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL)直至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃30秒,然后59℃30秒,然后72℃30秒;然后保持在4℃。然后,用1.8X体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱。
尿嘧啶糖基化酶消化
向eppendorf管中添加15微升洗脱的PCR扩增物、1.0微升H2O,加2.0微升的10XCutSmart缓冲液(New England Biolabs),加2.0微升USER酶溶液(New England Biolabs)并混合。将管在37℃下孵育60分钟,然后用1.8X体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在34微升H2O中洗脱。
MlyI限制性酶切割
向来自前一(糖基化酶消化)步骤的洗脱液中添加4.0微升的10X CutSmart缓冲液(New England Biolabs),加2.0微升MlyI酶(New England Biolabs,5U/μL)并混合。将管在37℃下孵育60分钟,然后用1.8X体积(72微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。
子条形码文库与MlyI切割溶液的连接
在1.5毫升Eppendorf管中,将10微升的MlyI切割溶液添加至2.5微升双链子条形码分子文库,加2.0微升的10X T4 DNA连接酶缓冲液和4.5微升H2O,直至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,然后用1.8X体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。
重复子条形码添加的循环
按顺序重复以下实验步骤总共5个循环:1)子条形码文库与MlyI切割溶液的连接,2)连接文库的PCR扩增,3)尿嘧啶糖基化酶消化,和4)MlyI限制性酶切割。
双链上游衔接子分子的合成
在PCR管中,将1.0微升的100微摩尔BC_USO_TP1(SEQ ID NO:6)添加至1.0微升的100微摩尔BC_USO_BT1(SEQ ID NO:7),加20微升的10X CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,直至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育60秒,然后缓慢退火至4℃,然后保持4℃,然后置于冰上,然后储存于-20℃下。
双链上游衔接子分子的连接
在1.5毫升Eppendorf管中,将3.0微升上游衔接子溶液添加至10.0微升的最终(在第五个循环之后)MlyI切割溶液,加2.0微升的10X T4 DNA连接酶缓冲液和5.0微升的H2O中,直至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New EnglandBiolabs;高浓度)并混合。将管在室温下孵育60分钟,然后用1.8X体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。
上游衔接子连接文库的PCR扩增
在PCR管中,将6.0微升上游衔接子连接文库添加至1.0微升的100微摩尔BC_CS_PCR_FWD1(SEQ ID NO:8),加1.0微升的100微摩尔BC_CS_PCR_REV1(SEQ ID NO:9),加10微升的10X Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加73.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL),直至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃30秒,然后61℃30秒,然后72℃30秒;然后保持在4℃。然后,用1.8X体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化包含扩增核酸条形码分子文库的溶液。然后,将扩增核酸条形码分子文库在40微升H2O中进行洗脱。
然后,使用由上述方法合成的扩增核酸条形码分子文库来如下所述组装多聚体条形码分子文库。
方法2-多聚体条形码分子文库的组装
使用根据方法1所述方法合成的核酸条形码分子文库来组装多聚体条形码分子文库。
用正向终止引物和正向夹板引物进行引物延伸
在PCR管中,将5.0微升扩增核酸条形码分子文库添加至1.0微升的100微摩尔CS_SPLT_FWD1(SEQ ID NO:10),加1.0微升的5微摩尔CS_TERM_FWD1(SEQ ID NO:11),加10微升的10X Thermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加80.0微升H2O,加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)直至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃30秒,然后53℃30秒,然后72℃60秒;然后是1个以下循环:95℃30秒,然后50℃30秒,然后72℃60秒,然后保持在4℃。然后,将溶液用PCR纯化柱(Qiagen)纯化,并在85.0微升H2O中洗脱。
用反向终止引物和反向夹板引物进行引物延伸
在PCR管中,将85.0微升正向延伸引物-延伸产物添加至1.0微升的100微摩尔CS_SPLT_REV1(SEQ ID NO:12),加1.0微升的5微摩尔CS_TERM_REV1(SEQ ID NO:13),加10微升的10X Thermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)直至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃30秒,然后53℃30秒,然后72℃60秒;然后是1个以下循环:95℃30秒,然后50℃30秒,然后72℃60秒,然后保持在4℃。然后,将溶液用PCR纯化柱(Qiagen)纯化,并在43.0微升H2O中洗脱。
用重叠延伸PCR使引物延伸产物连接
在PCR管中,添加43.0微升反向延伸引物-延伸产物,加5.0微升的10X Thermopol缓冲液(NEB),加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)直至50微升的终体积。将PCR管置于热循环仪上,并扩增5个以下循环:95℃30秒,然后60℃60秒,然后72℃2分钟;然后是5个以下循环:95℃30秒,然后60℃60秒,然后72℃5分钟;然后是5个以下循环:95℃30秒,然后60℃60秒,然后72℃10分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。
重叠延伸产物的扩增
在PCR管中添加2.0微升重叠延伸PCR溶液,加1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加10微升的10XThermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加83.0微升H2O,直至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃30秒,然后58℃30秒,然后72℃10分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,在50微升H2O中洗脱,并通过分光光度法量化。
扩增的重叠延伸产物的基于凝胶的尺寸选择
上样约250纳克扩增的重叠延伸产物并在0.9%琼脂糖凝胶上运行,然后用溴化乙锭染色并可视化。切下对应于尺寸为1000个核苷酸(±100个核苷酸)的条带,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化并在50微升H2O中洗脱。
重叠延伸产物的扩增
在PCR管中添加10.0微升凝胶尺寸选择溶液,加1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加10微升的10XThermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加75.0微升H2O,直至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃30秒,然后58℃30秒,然后72℃4分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,在50微升H2O中洗脱,并通过分光光度法量化。
定量已知数量的多聚体条形码分子的选择和扩增
将扩增的凝胶提取溶液稀释至1皮克/微升的浓度,然后向PCR管中添加2.0微升的该稀释溶液(约200万个单独分子),加0.1微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加0.1微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加1.0微升的10X Thermopol缓冲液(NEB),加0.2微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加0.1微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加6.5微升H2O,直至10微升的终体积。将PCR管置于热循环仪上并扩增11个以下循环:95℃30秒,然后57℃30秒,然后72℃4分钟;然后保持在4℃。
向PCR管中添加1.0微升的100微摩尔CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩尔CS_PCR_REV1(SEQ ID NO:15),加9.0微升的10X Thermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加76.0微升H2O,直至100微升的终体积。将PCR管置于热循环仪上并扩增10个以下循环:95℃30秒,然后57℃30秒,然后72℃4分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,在50微升H2O中洗脱,并通过分光光度法量化。
方法3:通过体外转录和cDNA合成产生单链多聚体条形码分子
该方法描述了产生单链DNA链的一系列步骤,寡核苷酸可以退火至所述单链DNA链并随后沿之进行条形码编码。该方法开始于平行进行的四个相同的反应,其中使用重叠延伸PCR扩增反应将T7 RNA聚合酶的启动子位点附加到多聚体条形码分子文库的5’端。平行进行四个相同的反应,然后合并以增加可用的该产物的定量量和浓度。在四个相同的PCR管中的每一个中,将约500皮克的经尺寸选择且PCR扩增的多聚体条形码分子(如在方法2的“定量已知数量的多聚体条形码分子的选择和扩增”步骤中产生的)与2.0微升的100微摩尔CS_PCR_FWD1_T7(SEQ ID NO.270)和2.0微升的100微摩尔CS_PCR_REV4(SEQ ID NO.271)混合,加20.0微升的10X Thermopol PCR缓冲液,加4.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,和2.0微升Vent Exo Minus聚合酶(5单位/微升),加水,直至200微升的总体积。将PCR管置于热循环仪上并扩增22个以下循环:95℃60秒,然后60℃30秒,然后72℃3分钟;然后保持在4℃。然后,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化来自所有四个反应的溶液,并在52微升H2O中洗脱。
将五十(50)微升洗脱液与10微升的10X NEBuffer 2(NEB)混合,加0.5微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物和1.0微升Vent Exo Minus聚合酶(5单位/微升),加水,直至100微升的总体积。将反应物在室温下孵育15分钟,然后用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,在40微升H2O中洗脱,并通过分光光度法量化。
然后进行转录步骤,其中将包含T7 RNA聚合酶启动子位点的PCR扩增模板文库(如在前一步骤中产生的)用作T7 RNA聚合酶的模板。这包括扩增步骤以产生大量对应于多聚体条形码分子文库的基于RNA的核酸(因为每个输入PCR分子可以作为模板以产生大量同源RNA分子)。在随后的步骤中,然后对这些RNA分子进行逆转录以产生所需的单链多聚体条形码分子。将十(10)微升洗脱液与20微升的5X转录缓冲液(Promega)混合,加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加10微升的0.1微摩尔DTT,加4.0微升SuperAseIn(Ambion),和4.0微升Promega T7 RNA聚合酶(20单位/微升),加水,直至100微升的总体积。将反应物在37℃下孵育4小时,然后用RNEasy微型试剂盒(Qiagen)纯化,在50微升H2O中洗脱,并添加至6.0微升SuperAseIn(Ambion)中。
然后,对在前一体外转录步骤中产生的RNA溶液进行逆转录(使用对RNA分子的3’端具有特异性的引物),然后用RNAse H消化以产生对应于多聚体条形码分子的单链DNA分子,寡核苷酸可以退火至所述单链DNA分子并随后沿之进行条形码编码。在两个相同的重复管中,将23.5微升洗脱液与5.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物混合,加3.0微升SuperAseIn(Ambion),和10.0微升的2.0微摩尔CS_PCR_REV1(SEQ ID NO.272),加水,直至73.5微升的终体积。将反应物在热循环仪上在65℃下孵育5分钟,然后在50℃下孵育60秒;然后保持在4℃。向管中添加20微升的5X逆转录缓冲液(Invitrogen),加5.0微升的0.1毫摩尔DTT,和1.75微升Superscript III逆转录酶(Invitrogen)。将反应物在55℃下孵育45分钟,然后在60℃下孵育5分钟;然后在70℃下孵育15分钟,然后保持在4℃,然后用PCR清除柱(Qiagen)纯化,并在40微升H2O中洗脱。
将六十(60)微升洗脱液与7.0微升的10X RNAse H缓冲液(Promega)混合,加4.0微升RNAse H(Promega)。将反应物在37℃下孵育12小时,然后在95℃下孵育10分钟,然后保持在4℃,然后用0.7X体积(49微升)的Ampure XP珠(Agencourt;按照制造商的说明书)纯化,在30微升H2O中洗脱,并通过分光光度法量化。
方法4:包含经条形码编码的寡核苷酸的多聚体条形码编码剂的产生
该方法描述了由单链多聚体条形码分子(如在方法3中产生的)以及合适的延伸引物和衔接子寡核苷酸产生多聚体条形码编码剂的步骤。
在PCR管中,将约45纳克的单链RNAse H消化多聚体条形码分子(如在方法3的最后步骤中产生的)与0.25微升的10微摩尔DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸)和0.25微升的10微摩尔US_PCR_Prm_Only_03(SEQ ID NO.274,延伸引物)混合,加5.0微升的5X等温延伸/连接缓冲液,加水,直至19.7微升的终体积。为了使衔接子寡核苷酸和延伸引物退火至多聚体条形码分子,在热循环仪中,将管在98℃下孵育60秒,然后缓慢退火至55℃,然后在55℃下保持60秒,然后缓慢退火至50℃,然后在50℃下保持60秒,然后以0.1℃/秒缓慢退火至20℃,然后保持在4℃。向管中添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL);和2.5微升的100毫摩尔DTT。为了使延伸引物延伸横跨每个多聚体条形码分子的相邻条形码区,并随后使该延伸产物与退火到其下游的衔接子寡核苷酸的磷酸化5’端连接,然后将该管在50℃下孵育3分钟,然后保持在4℃。然后,用PCR清除柱(Qiagen)纯化反应物,在30微升H2O中洗脱,并通过分光光度法量化。
方法5:已知序列的合成DNA模板的产生
该方法描述了如下产生具有大量串联重复的共线分子序列标识符的合成DNA模板的技术:使含有所述分子序列标识符的寡核苷酸环化并随后串联扩增(用具有持续合成能力的链置换聚合酶)。然后,该试剂可用于评价和测量本文所述的多聚体条形码编码剂。
在PCR中,添加0.4微升的1.0微摩尔Syn_Temp_01(SEQ ID NO.275)和0.4微升的1.0微摩尔ST_夹板_02(SEQ ID NO.276)以及10.0微升的10X NEB CutSmart缓冲液。在热循环仪上,将管在95℃下孵育60秒,然后在75℃下保持5分钟,然后缓慢退火至20℃,然后在20℃下保持60秒,然后保持在4℃。为了通过分子内连接反应使分子环化,然后向管中添加10.0微升ribo-ATP和5.0微升的T4 DNA连接酶(NEB;高浓度)。然后,将管在室温下孵育30分钟,然后在65℃下孵育10分钟,然后缓慢退火至20℃,然后在20℃下保持60秒,然后保持在4℃。然后,向每个管中添加10X NEB CutSmart缓冲液、4.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物和1.5微升的经稀释phi29DNA聚合酶(NEB;在1X CutSmart缓冲液中以1∶20稀释),加水,直至200微升的总体积。将反应物在30℃下孵育5分钟,然后保持在4℃,然后用0.7X体积(140微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,在30微升H2O中洗脱,并通过分光光度法量化。
方法6:用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对已知序列的合成DNA模板进行条形码编码
在PCR管中添加10.0微升的5X Phusion HF缓冲液(NEB),加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加2.0微升(10纳克)的5.0纳克/微升已知序列的合成DNA模板(由方法5产生),加水,直至42.5微升的终体积。然后,将管在98℃下孵育60秒,然后保持在20℃。向管中添加5.0微升的5.0皮克/微升包含经条形码编码的寡核苷酸的多聚体条形码编码剂(由方法4产生)。然后,将反应物在70℃下孵育60秒,然后缓慢退火至60℃,然后在60℃下5分钟,然后缓慢退火至55℃,然后在55℃下5分钟,然后缓慢退火至50℃,然后在50℃下5分钟,然后保持在4℃。向反应物中添加0.5微升Phusion聚合酶(NEB),加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277,与使由方法4产生的多聚体条形码编码剂沿着由方法5产生的合成DNA模板退火并延伸产生的延伸产物的一部分互补的引物,用作该方法中所述引物延伸和随后PCR反应的引物)。在此反应中,将5.0微升的体积添加至新的PCR管中,然后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,然后接着进行10个以下循环:98℃,然后65℃,然后72℃,各自30秒,然后保持在4℃。然后,向每个管中添加9.0微升的5X Phusion缓冲液,加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO.278,与用于按照方法4产生多聚体条形码编码剂的延伸引物部分互补并且在该PCR扩增反应中用作“正向”引物的引物),加0.5微升Phusion聚合酶(NEB),加水,直至50微升的终体积。将PCR管置于热循环仪上并扩增24个以下循环:98℃30秒,然后72℃30秒;然后保持在4℃,然后用1.2X体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,在30微升H2O中洗脱,并通过分光光度法量化。
然后,所得文库被条形码编码用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并信息性去多重化用于进一步分析。
方法7:用多聚体条形码编码剂和单独的衔接子寡核苷酸对已知序列的合成DNA模板进行条形码编码
为了使衔接子寡核苷酸沿着合成DNA模板退火并延伸,在PCR管中添加10.0微升的5X Phusion HF缓冲液(NEB),加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加5.0微升(25纳克)的5.0纳克/微升已知序列的合成DNA模板(如由方法5产生的),加0.25微升的10微摩尔DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸),加水,直至49.7微升的终体积。在热循环仪中,将管在98℃下孵育2分钟,然后在63℃下孵育1分钟,然后缓慢退火至60℃,然后在60℃下保持1分钟,然后缓慢退火至57℃,然后在57℃下保持1分钟,然后缓慢退火至54℃,然后在54℃下保持1分钟,然后缓慢退火至50℃,然后在50℃下保持1分钟,然后缓慢退火至45℃,然后在45℃下保持1分钟,然后缓慢退火至40℃,然后在40℃下保持1分钟,然后保持在4℃。向管中添加0.3微升Phusion聚合酶(NEB),并将反应物在45℃下孵育20秒,然后在50℃下20秒,然后在55℃下20秒,在60℃下20秒,然后在72℃下20秒,然后保持在4℃;然后用0.8X体积(40微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,在30微升H2O中洗脱,并通过分光光度法量化。
为了使衔接子寡核苷酸(如在前一步骤中已沿合成DNA模板退火并延伸)退火至多聚体条形码分子,然后使延伸引物退火并随后延伸跨越每个多聚体条形码分子的相邻条形码区,然后使该延伸产物与退火至其下游的衔接子寡核苷酸的磷酸化5’端连接,向PCR管中添加10微升来自前一步骤的洗脱液(含有衔接子寡核苷酸已沿着其退火并延伸的合成DNA模板),加3.0微升的RNAse H消化多聚体条形码分子(如在方法3的最后步骤中产生的)的50.0纳摩尔溶液,加6.0微升的5X等温延伸/连接缓冲液,加水,直至26.6微升的终体积。在热循环仪上,将管在70℃下孵育60秒,然后缓慢退火至60℃,然后在60℃下保持5分钟,然后缓慢退火至55℃,然后在55℃下保持5分钟,然后以0.1℃/秒缓慢退火至50℃,然后在50℃下保持30分钟,然后保持在4℃。向管中添加0.6微升的10μM US_PCR_Prm_Only_02(SEQ IDNO:278,延伸引物),并将反应物在50℃下孵育10分钟,然后保持在4℃。向管中添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL)和2.5微升的100毫摩尔DTT。然后,将管在50℃下孵育5分钟,然后保持在4℃。然后,用0.7X体积(21微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,在30微升H2O中洗脱,并通过分光光度法量化。
向新PCR管中添加25.0微升洗脱液,加10.0微升的5X Phusion HF缓冲液(NEB),加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO:277;与通过以上步骤产生的延伸产物的一部分互补的引物;用作在此所述的引物延伸和随后PCR反应的引物),加0.5μL Phusion聚合酶(NEB),加水,直至49.7微升的终体积。在该反应中,将5.0微升的体积添加至新PCR管中,然后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,然后进行10个以下循环:98℃,然后65℃,然后72℃,各自30秒,然后保持在4℃。然后,向每个管中添加9.0微升的5X Phusion缓冲液,加1.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemP_PE2_B1_Short1(SEQ ID NO:277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278),加0.5微升Phusion聚合酶(NEB),加水,直至50微升的终体积。将PCR管置于热循环仪上,并扩增24个以下循环:98℃30秒,然后72℃30秒;然后保持在4℃,然后用1.2X体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,在30微升H2O中洗脱,并通过分光光度法量化。
然后,所得文库被条形码编码用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并信息性去多重化用于进一步分析。
方法9:用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对基因组DNA基因座进行条形码编码
该方法描述了用于使用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对特定基因组基因座中的靶标进行条形码编码(例如,对特定基因中的多个外显子进行条形码编码)的框架。首先,通过体外转录和cDNA合成产生多聚体条形码分子的溶液(如方法3中所述)。然后,如方法4中所述并进行以下修改来产生包含经条形码编码的寡核苷酸的多聚体条形码编码剂的溶液:作为使用靶向合成DNA模板的衔接子寡核苷酸(即DS_ST_05,SEQID NO:273,如方法4中使用的)的替代,在该步骤包括靶向特定基因组基因座的衔接子寡核苷酸。具体地,对于以下三种不同人基因中的每一种单独地产生包含合适经条形码编码的寡核苷酸的多聚体条形码编码剂的溶液:BRCA1(包含7种衔接子寡核苷酸,SEQ ID NO:279至285)、HLA-A(包含3种衔接子寡核苷酸,SEQ ID NO:286至288)和DQB1(包含2种衔接子寡核苷酸,SEQ ID NO:289至290)。如上所述对这三种溶液中的每一种都进行方法4的过程。然后,将这三种溶液以等体积合并在一起,并稀释至约50纳摩尔的最终总浓度,所有经条形码编码的寡核苷酸。
在PCR管中加2.0微升的5X Phusion HF缓冲液(NEB),加1.0微升的100纳克/微升人基因组DNA(来自Coriell Institute的NA12878)至9.0微升的终体积。在该方案的某些变化方案中,在该步骤还添加多聚体条形码编码剂(包含经条形码编码的寡核苷酸),之后进行高温98℃孵育。将反应物在98℃下孵育120秒,然后保持在4℃。向管中添加1.0微升的上述50纳摩尔多聚体条形码试剂溶液,然后将反应物在55℃下孵育1小时,然后在50℃下1小时,然后在45℃下1小时,然后保持在4℃。(注意,对于某些样品,该最后的退火过程延长至过夜进行,每个温度步骤总共约4小时)。
为了将反向通用引发序列添加至每个扩增子序列(并且因此使得随后能够仅使用一种正向和一种反向扩增引物一次扩增整个文库),将反应物以1∶100稀释,并在新PCR管中将1.0微升所得溶液添加至20.0微升5X Phusion HF缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物,加1.0微升反向引物混合物(等摩尔浓度的SEQ ID No 291至303,每种引物的浓度为5微摩尔),加1.0μL Phusion聚合酶(NEB),加水至100微升的终体积。将反应物在53℃下孵育30秒,72℃45秒,98℃90秒,然后68℃30秒,然后64℃30秒,然后72℃30秒,然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,在30微升H2O中洗脱,并通过分光光度法量化。
然后,所得文库被条形码编码用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并信息性去多重化用于进一步分析。
方法10-对多聚体条形码分子文库进行测序
制备扩增的选定分子用于高通量测序评估
向PCR管中添加1.0微升扩增选定分子溶液,加1.0微升的100微摩尔CS_SQ_AMP_REV1(SEQ ID NO:16),加1.0微升的100微摩尔US_PCR_Prm_Only_02(SEQ ID NO:17),加10微升的10X Thermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加84.0微升H2O直至100微升的终体积。将PCR管置于热循环仪上,并扩增3个以下循环:95℃30秒,然后56℃30秒,然后72℃3分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在85微升H2O中洗脱。
然后,将该溶液添加至新PCR管中,加1.0微升的100微摩尔Illumina_PE1,加1.0微升的100微摩尔Illumina_PE2,加10微升的10X Thermopol缓冲液(NEB),加2.0微升的10毫摩尔脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)直至100微升的终体积。将PCR管置于热循环仪上并扩增4个以下循环:95℃30秒,然后64℃30秒,然后72℃3分钟;然后进行18个以下循环:95℃30秒,然后67℃30秒,然后72℃3分钟;然后保持在4℃。然后,用0.8X体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。
然后,用双端250-循环V2测序化学使用MiSeq测序仪对该样品进行高通量Illumina测序。
方法11-沿着单个合成模板DNA分子退火并延伸的条形码的多聚体性质的评估
使用根据方法3和方法4中一般性描述的方案产生的多聚体条形码编码剂溶液,使用如方法5中所述的合成DNA模板溶液,并且使用如方法6中所述的实验室方案产生经条形码编码合成DNA模板的文库;然后,所得文库被条形码编码用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并信息性去多重化用于进一步分析。然后,将来自该方法的DNA测序结果与由方法10产生的数据进行信息性比较,以评估合成DNA模板的多聚体条形码编码与所述条形码在单独多聚体条形码编码剂上的布置之间的重叠程度(结果示于图21)。
结果
每个测序多聚体条形码编码剂分子的结构和预期序列内容
制备如方法1至3中所述合成的多聚体条形码分子文库用于高通量测序,其中每个测序分子包括特定多聚体条形码分子的连续跨度(包括一个或更多个条形码序列、以及一个或更多个相关上游衔接子序列和/或下游衔接子序列),在所测序的分子中全部共线。然后,如所述,在MiSeq测序仪(Illumina)上用双端250核苷酸读取对该文库进行测序。这产生从该文库中测序的总共约1350万个分子,从每一端测序一次,总共约2700万个序列读取。
预期每个正向读取以6个核苷酸的序列开始,对应于上游衔接子的3’端:TGACCT。
在该正向读取之后是分子中的第一条形码序列(预期长度为20nt)。
然后,在该条形码之后是“条形码内序列(在以“正向”方向进行测序的这种情况下(其是包含串联的下游衔接子序列和上游衔接子序列二者的82个核苷酸):
ATACCTGACTGCTCGTCAGTTGAGCGAATTCCGTATGGTGGTACACACCTACACTACTCGGACGCTCTTCCGATCTTGACCT
在250个核苷酸的正向读取中,然后在这之后是第二条形码,另一条形码内序列,然后是第三条形码,然后是另一条形码内序列的一部分。
预期每个反向读取以对应于下游衔接子序列的以下序列开始:GCTCAACTGACGAGCAGTCAGGTAT。
然后,在该反向读取之后是从分子的相对端进入的第一条形码(也是20个核苷酸的长度,但是从分子的相对链测序,并且因此相对于通过正向读取测序的那些为相反方向)。
然后,在该条形码之后是“条形码内序列”,但是为相反方向(如其在相对链上):
AGGTCAAGATCGGAAGAGCGTCCGAGTAGTGTAGGTGTGTACCACCATACGGAATTCGCTCAACTGACGAGCAGTCAGGTAT
同样地,然后,在该250个核苷酸的反向读取之后将是第二条形码,另一条形码内序列,然后是第三条形码,然后是另一条形码内序列的一部分。
序列提取和分析
使用Python中的脚本处理,分离条形码与侧翼上游衔接子和下游衔接子序列的每个相关对,然后分离每个条形码分子的每个单独条形码序列,并将在相同分子中测序的每个条形码序列注释为属于多聚体条形码分子文库中的相同多聚体条形码分子。使用简单的分析脚本(Networkx;Python)通过检查条形码-条形码对在不同测序分子之间的重叠来确定总体多聚体条形码分子条形码组。对该数据产生几个度量,包括条形码长度,序列内容,以及多聚体条形码分子文库中多聚体条形码分子的大小和复杂性。
每个条形码序列中核苷酸的数目
分离来自每个Illumina测序分子中包含的每个条形码分子的每个单独条形码序列,并通过计数上游衔接子分子序列与下游衔接子分子序列之间核苷酸的数目来确定每个这样的条形码的总长度。结果示于图14中。
绝大多数条形码为20个核苷酸长,其对应于五次添加来自我们双链子条形码文库的我们长度为4个核苷酸的子条形码分子。因此,这是预期的期望结果,并且表明每个“循环”(子条形码文库与MlyI切割溶液的连接、连接文库的PCR扩增、尿嘧啶糖基化酶消化和MlyI限制性酶切割)是成功的且能够在每个循环有效地添加新的四核苷酸子条形码分子,然后成功地能够扩增这些分子并使其向前经历用于继续进一步处理的方案,包括经历总共五个子条形码添加循环,以制备最终的上游衔接子连接文库。
我们还使用这种序列分析方法来对所有测序多聚体条形码分子中全部独特条形码的总数进行定量:这等于总共19,953,626个独特条形码,与预期的2000万个条形码基本上相同,假定我们合成了200万个多聚体条形码分子,则每个具有约10个单独的条形码分子。
总之,该数据和分析因此表明,由子条形码序列创建复杂的组合条形码的方法对于合成多聚体条形码分子的目的是有效且有用的。
每个多聚体条形码分子中独特条形码分子的总数
图15示出了量化每个测序多聚体条形码分子中独特条形码分子(如通过其各自的条形码序列确定的)的总数的结果。如上所述,为此,在第一种情况下我们检查了在测序仪上测序的相同单独分子中存在并检出的条形码序列。然后,我们进一步采用了对条形码序列进行聚类的另外步骤,其中我们采用简单的网络分析脚本(Networkx),其可以基于连接的明确了解来确定单独条形码序列之间的连接(其中条形码见于相同的连续测序分子中),并且还可以确定“隐式”连接,其中不在相同测序分子中测序的两个或更多个条形码作为替代均与共同的第三条形码序列共有直接连接(这个共有的共同连接因此指示两个第一条形码序列实际上位于相同的多聚体条形码分子上)。
该图显示,在我们的反应中测序的大多数多聚体条形码分子在其中包含两个或更多个独特条形码,因此显示通过我们的重叠延伸PCR连接过程,我们能够将多个条形码分子一起连接成多聚体条形码分子。虽然我们预期会看到更多的多聚体条形码分子展现出更接近于预期的条形码分子数目(10),但我们预期观察到的这一效应是由于测序深度不够高,并且在测序分子的数目较大下,我们能够观察单独条形码分子之间的真实连接的更大部分。虽然如此,该数据表明,我们在这里描述的基本合成程序对于预期目的是有效的。
代表性多聚体条形码分子
图16示出了由我们的分析脚本检出的代表性多聚体条形码分子。在该图中,每个“节点”是单个条形码分子(来自其相关的条形码序列),每条线是在相同测序分子中已被测序至少一次的两个条形码分子之间的“直接连接”,每个节点簇是单独的多聚体条形码分子,其包含具有直接连接的条形码和如由我们的分析脚本确定的在隐式间接连接中的那些二者。插图包括单个多聚体条形码分子,以及其中包含的其组成条形码分子的序列。
该图示出了我们的多聚体条形码分子合成程序:我们能够由子条形码分子文库构建条形码分子,我们能够通过重叠延伸PCR反应使多个条形码分子连接,我们能够分离定量已知数量的单独多聚体条形码分子,并且我们能够扩增这些并对其进行下游分析和使用。
使用(i)包含经条形码编码的寡核苷酸的多聚体条形码编码剂、和(ii)多聚体条形码编码剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条形码编码
序列提取和分析
利用Python中并在Amazon Web Service(AWS)架构中实施的脚本,对于在样品去多重化之后的每个序列读取,使来自给定多聚体条形码试剂的每个条形码区与其侧翼上游衔接子和下游衔接子序列分离。同样地,使来自给定合成DNA模板分子的每个分子序列识别符区与其侧翼上游和下游序列分离。对样品文库中的每个分子重复该过程;进行单个过滤步骤,其中从数据中删去仅存在于单个读取中(因此可能代表测序错误或来自酶促样品制备过程的错误)的单独条形码和分子序列标识符。对于每个分子序列标识符,量化在单个序列读取中发现与其相关的独特(即具有不同序列)条形码区的总数。然后,创建直方图以使这一数目该文库中发现的所有分子序列标识符中的分布可视化。
讨论
图17示出了对方法6(用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对已知序列的合成DNA模板进行条形码编码)的这一分析的结果。该图清楚地看出大多数多聚体条形码编码剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝。观察到1至约5或6个“标记事件”的分布,表明可能存在一定程度的在该***中发生的随机相互作用,这可能是由于不完全的酶促反应或在条形码试剂/合成模板界面处的空间位阻,或其他因素。
图18示出了使用方法7(用多聚体条形码分子和单独衔接子寡核苷酸对已知序列的寡核苷酸合成DNA模板进行条形码编码)进行的这一相同分析的结果。该图也清楚地表明,大多数多聚体条形码编码剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝,具有与对先前分析观察到的分布相似的分布。
总之,这两幅图表明,多聚体分子条形码编码的这个框架是一个有效的框架,并且此外该框架可以以不同方法学方式配置。图17示出了基于以下方法的结果,在所述方法中该框架被配置成使得多聚体条形码试剂在使其与靶(合成)DNA模板接触之前已经包含经条形码编码的寡核苷酸。相比之下,图18示出了基于一种可替选方法的结果,在所述方法中衔接子寡核苷酸首先接触合成DNA模板,然后在随后的步骤中通过与多聚体条形码试剂接触来对衔接子寡核苷酸进行条形码编码。这些图一起表明了这些试剂的多聚体条形码编码能力,以及其在不同关键实验室方案中的多功能性二者。
为了分析单独多聚体条形码编码剂是否成功标记同一合成DNA模板的两个或更多个子序列及其标记程度,将文库中每个单独多聚体条形码编码剂上不同条形码的组(如从前面段落中所述的Networkx分析预测的并且如图16所示)与沿单个合成DNA模板退火并延伸的条形码(如方法11中所述)进行比较。向在单独多聚体条形码编码剂上发现的每个条形码组给予数字“试剂标识符标记”。对于在方法11的测序数据中由两个或更多个条形码(即,其中合成模板分子的两个或更多个子序列通过经条形码编码的寡核苷酸退火并延伸)表示的每个合成DNA模板分子序列标识符(即,对于每个单独的合成DNA模板分子),确定相应的“试剂标识符标记”。然后,对于每个这样的合成模板分子,计算来自同一个多聚体条形码编码剂的多聚体条形码的总数(即,计算合成模板分子中被不同的但来自同一个多聚体条形码编码剂的经条形码编码的寡核苷酸标记的不同子序列的数目)。然后,重复该分析,并与“阴性对照”条件进行比较,在所述阴性对照条件下分配给每个“试剂标识符标记”的条形码是随机化的(即,数据中仍然存在相同的条形码序列,但其不再对应于多聚体条形码编码剂文库中不同条形码序列的实际分子连接)。
来自该分析的数据示于图21:实际的实验数据和具有随机化条形码分配的对照数据二者(注意垂直轴的对数标度)。如该图所示,虽然每个靶合成DNA模板分子的独特条形码编码事件的数目较小,但其与单独多聚体条形码编码剂的已知条形码内容几乎完全重叠。也就是说,当与随机化条形码数据(其基本上不包含显示是“多价条形码编码”的模板分子)相比时,实际实验中显示被来自相同单独多聚体条形码编码剂的多个经条形码编码的寡核苷酸标记的绝大多数(超过99.9%)模板分子事实上被溶液中的相同单个试剂多重标记。相比之下,如果在标记单独合成DNA模板的不同条形码之间不存在非随机关联(即,如果图21显示实际实验数据与随机化数据之间没有差异),则这将指示条形码编码不以空间上约束的方式发生,如多聚体条形码编码剂指导的。然而,如上所述,数据有说服力地表明,期望条形码编码反应确实发生,其中在单个合成DNA模板上发现的子序列仅与单个单独的多聚体条形码编码剂相互作用(然后被其条形码编码)。
用包含经条形码编码的寡核苷酸的多聚体条形码编码剂对基因组DNA基因座进行条形码编码
序列提取和分析
与其他分析一样,脚本在Python中编写,并在Amazon Web Service(AWS)架构中实施。对于样品去多重化之后的每个序列读取,使来自给定多聚体条形码试剂的每个条形码区与其侧翼上游衔接子和下游衔接子序列分离,并独立记录用于进一步分析。同样地,分离到下游区的3’端的每个序列(表示包含经条形码编码的寡核苷酸的序列,以及在实验方案期间寡核苷酸已经沿之引发的任何序列)用于进一步分析。对每个读取的每个下游序列分析预期衔接子寡核苷酸序列(即来自对应于寡核苷酸所针对的三种基因之一的引物)和相关的另外下游序列的存在。然后,将每个读取记录为“中靶”(具有对应于预期的靶向序列之一的序列)或“脱靶”。此外,对于每个靶向区域,计算独特多聚体条形码的总数(即,具有融合成单拷贝表示的相同但重复的条形码)。在图20中示出了每个预期序列读取的示意图及其组成组分。
讨论
图19示出了针对这种方法对四个不同独立样品进行这一分析的结果。这四个样品代表其中使多聚体条形码试剂退火的过程进行3小时或过夜(约12小时)的方法。此外,对于这两种条件中的每一种,用按照最初合成保持完整的多聚体条形码试剂或者用改进方案进行所述方法,在所述改进方案中首先使条形码寡核苷酸变性远离条形码分子自身(通过过高温解链步骤)。如所示的,每行表示不同的扩增子靶标,并且每个单元格表示四个样品中每一个中发现与每个扩增子相关的独特条形码的总数。还列出了每个样品的合计在一起的所有中靶读取在所有靶标中的总比例。
如图所示,所有样品中的大部分读取是中靶的;然而,对于每个扩增子靶标观察到的独特条形码分子的数目的范围较大。在不同扩增子之间的这些趋势显示在不同的实验条件之间是一致的,并且可能是由于不同寡核苷酸的不同引发(或错误引发)效率、或不同扩增效率、或不同映射效率,以及独立地或组合作用的其他潜在因素。此外,清楚的是,退火较久的样品观察到的条形码数目较大,这可能是由于多聚体试剂与其同源基因组靶标的更完全整体退火。此外,其中使经条形码编码的寡核苷酸首先与条形码分子变性的样品显示出较低的独特条形码总数,这可能是由于其中完全组装的条形码分子可以更有效地使引物簇退火至相同基因座的附近基因组靶标的亲合力效应。在任何情况下,总之,该图说明了多聚体试剂同时在大量分子中标记基因组DNA分子的能力,以及为了实现这一点,经条形码编码的寡核苷酸是否保持结合在多聚体条形码编码剂上或者其是否已经与之变性并且由此可能能够更容易地在溶液中扩散。
所述方法中使用的核酸序列
Claims (46)
1.用于标记靶核酸以进行测序的包含至少10个多聚体条形码编码剂的多聚体条形码编码剂文库,其中每个多聚体条形码编码剂包含:
a.包含在核酸分子中的第一和第二条形码分子,其中每个所述条形码分子包含含有条形码区的核酸序列;以及
b.第一和第二经条形码编码的寡核苷酸,其中所述第一经条形码编码的寡核苷酸包含任选地在5’至3’方向上的与所述第一条形码分子的条形码区互补并退火的条形码区和能够与所述靶核酸的第一子序列退火或连接的靶区域,并且其中所述第二经条形码编码的寡核苷酸包含任选地在5’至3’方向上的与所述第二条形码分子的条形码区互补并退火的条形码区和能够与所述靶核酸的第二子序列退火或连接的靶区域;
并且其中每个所述多聚体条形码编码剂的第一和第二条形码分子的条形码区不同于所述文库中至少9个其他多聚体条形码编码剂的条形码区。
2.根据权利要求1所述的多聚体条形码编码剂文库,其中所述条形码区独特地标识每个所述条形码分子。
3.根据权利要求1或权利要求2所述的多聚体条形码编码剂文库,其中:
a.每个所述条形码分子包含在5’至3’方向上包含衔接子区和条形码区的核酸序列;
b.每个第一经条形码编码的寡核苷酸在5’至3’方向上包含与所述第一条形码分子的条形码区退火的条形码区、与所述第一条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第一子序列退火的靶区域;并且
c.每个第二经条形码编码的寡核苷酸在5’至3’方向上包含与所述第二条形码分子的条形码区退火的条形码区、与所述第二条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第二子序列退火的靶区域。
4.根据权利要求1至3中任一项所述的多聚体条形码编码剂文库,其中每个多聚体条形码编码剂包含:
a.连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如权利要求1至3之一中限定;以及
b.与每个条形码分子退火的经条形码编码的寡核苷酸,其中每个经条形码编码的寡核苷酸如权利要求1至3中任一项中限定。
5.根据权利要求1至4中任一项所述的多聚体条形码编码剂文库,其中每个靶区域包含至少5、至少10、至少15、至少20、至少25、或至少50个核苷酸。
6.根据权利要求1至5中任一项所述的多聚体条形码编码剂文库,其中所述文库包含至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、或至少108个权利要求1至5中任一项中所限定的多聚体条形码编码剂。
7.制备测序用核酸样品的方法,其中所述方法包括以下步骤:
a.使所述核酸样品与权利要求1至6中任一项中限定的多聚体条形码编码剂文库接触;
b.使所述第一经条形码编码的寡核苷酸的靶区域与靶核酸的第一子序列退火,并使所述第二经条形码编码的寡核苷酸的靶区域与所述靶核酸的第二子序列退火;以及
c.延伸所述第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码的靶核酸分子,其中每个所述经条形码编码的靶核酸分子包含至少一个由所述靶核酸作为模板合成的核苷酸。
8.根据权利要求7所述的方法,其中:
a.第一多聚体条形码编码剂的所述经条形码编码的寡核苷酸与第一靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第一靶核酸作为模板合成的核苷酸;并且
b.第二多聚体条形码编码剂的所述经条形码编码的寡核苷酸与第二靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第二靶核酸作为模板合成的核苷酸。
9.根据权利要求7或权利要求8所述的方法,其中延伸所述经条形码编码的寡核苷酸的步骤在所述经条形码编码的寡核苷酸与所述条形码分子退火时进行。
10.根据权利要求7或权利要求8所述的方法,其中所述方法还包括以下步骤:在使所述经条形码编码的寡核苷酸的靶区域与所述靶核酸的子序列退火之前,使所述经条形码编码的寡核苷酸与条形码分子解离。
11.根据权利要求7至10中任一项所述的方法,其中在所述经条形码编码的寡核苷酸与所述靶核酸的子序列退火之后并且在产生所述经条形码编码的靶核酸分子之前,从所述核酸样品分离所述经条形码编码的寡核苷酸。
12.用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:
a.包含至少10个多聚体条形码编码剂的多聚体条形码编码剂文库,其中每个多聚体条形码编码剂包含:
i.包含在核酸分子中的第一和第二条形码分子,其中每个所述条形码分子包含含有任选地在5’至3’方向上的衔接子区和条形码区的核酸序列;以及
ii.第一和第二条形码寡核苷酸,其中所述第一条形码寡核苷酸包含与所述第一条形码分子的条形码区互补并退火的条形码区,并且其中所述第二条形码寡核苷酸包含与所述第二条形码分子的条形码区互补并退火的条形码区;
并且其中每个所述多聚体条形码编码剂的第一和第二条形码分子的条形码区不同于所述文库中至少9个其他多聚体条形码编码剂的条形码区;以及
b.针对每个所述多聚体条形码编码剂的第一和第二衔接子寡核苷酸,其中所述第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第一条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第一子序列退火或连接的靶区域,并且其中所述第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第二条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第二子序列退火或连接的靶区域。
13.根据权利要求12所述的试剂盒,其中所述条形码区独特地标识每个所述条形码分子。
14.根据权利要求12或权利要求13所述的试剂盒,其中所述衔接子寡核苷酸的衔接子区包含相同的恒定区。
15.根据权利要求12至14中任一项所述的试剂盒,其中每个多聚体条形码编码剂包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如权利要求12至14之一中限定;并且其中所述试剂盒包含能够与每个条形码分子退火的衔接子寡核苷酸,其中每个衔接子寡核苷酸如权利要求12至14中任一项中限定。
16.根据权利要求12至15中任一项所述的试剂盒,其中每个靶区域包含至少5、至少10、至少15、至少20、至少25、或至少50个核苷酸。
17.根据权利要求12至16中任一项所述的试剂盒,其中所述试剂盒包含具有至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个多聚体条形码编码剂的文库,其中每个多聚体条形码编码剂如权利要求12至16中任一项中限定;以及针对每个所述多聚体条形码编码剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸如权利要求12至16中任一项中限定。
18.制备测序用核酸样品的方法,其中所述方法包括以下步骤:
a.使所述核酸样品与权利要求12至17中任一项中所限定的第一和第二衔接子寡核苷酸接触;
b.使所述第一衔接子寡核苷酸的靶区域与靶核酸的第一子序列退火,并使所述第二衔接子寡核苷酸的靶区域与靶寡核苷酸的第二子序列退火;
c.使所述核酸样品与权利要求12至17中任一项中所限定的多聚体条形码编码剂文库接触;
d.使所述第一衔接子寡核苷酸的衔接子区与所述第一条形码分子的衔接子区退火,并使所述第二衔接子寡核苷酸的衔接子区与所述第二条形码分子的衔接子区退火;以及
e.使所述第一条形码寡核苷酸的3’端与所述第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使所述第二条形码寡核苷酸的游离3’端与所述第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸;
并且其中延伸所述第一和第二衔接子寡核苷酸或所述第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码的靶核酸分子,其各自包含至少一个由所述靶核酸作为模板合成的核苷酸。
19.根据权利要求18所述的方法,其中:
a.第一多聚体条形码编码剂的所述衔接子寡核苷酸或经条形码编码的寡核苷酸与第一靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第一靶核酸作为模板合成的核苷酸;并且
b.第二多聚体条形码编码剂的所述衔接子寡核苷酸或经条形码编码的寡核苷酸与第二靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第二靶核酸作为模板合成的核苷酸。
20.根据权利要求18或权利要求19所述的方法,其中在步骤(c)之前、在步骤(d)之前和/或在步骤(e)之前进行延伸所述衔接子寡核苷酸的步骤,并且其中所述第一和第二衔接子寡核苷酸保持与所述第一和第二条形码分子退火直至步骤(e)之后。
21.根据权利要求18至20中任一项所述的方法,其中在所述经条形码编码的寡核苷酸与所述靶核酸的子序列退火之后并且在产生所述经条形码编码的靶核酸分子之前,从所述核酸样品分离所述经条形码编码的寡核苷酸。
22.用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:
a.包含至少10个多聚体条形码分子的多聚体条形码分子文库,每个多聚体条形码分子具有包含在核酸分子中的第一和第二条形码分子,其中每个所述条形码分子包含含有任选地在5’至3’方向上的衔接子区、条形码区和引发区的核酸序列,并且其中每个多聚体条形码分子的所述第一和第二条形码分子的条形码区不同于所述文库中至少9个其他多聚体条形码分子的条形码区;
b.针对每个所述多聚体条形码分子的第一和第二延伸引物,其中所述第一延伸引物包含能够与所述第一条形码分子的引发区退火的序列,并且其中所述第二延伸引物包含能够与所述第二条形码分子的引发区退火的序列;以及
c.针对每个所述多聚体条形码分子的第一和第二衔接子寡核苷酸,其中所述第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第一条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第一子序列退火或连接的靶区域,并且其中所述第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第二条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第二子序列退火或连接的靶区域。
23.根据权利要求22所述的试剂盒,其中所述第一和第二延伸引物的序列相同。
24.用于标记靶核酸以进行测序的试剂盒,其中所述试剂盒包含:
a.包含至少10个多聚体条形码分子的多聚体条形码分子文库,每个多聚体条形码分子具有包含在核酸分子中的第一和第二条形码分子,其中每个所述条形码分子包含含有任选地在5’至3’方向上的衔接子区和条形码区的核酸序列,并且其中每个多聚体条形码分子的所述第一和第二条形码分子的条形码区不同于所述文库中至少9个其他多聚体条形码分子的条形码区;以及
b.针对每个所述多聚体条形码分子的第一和第二衔接子寡核苷酸,其中所述第一衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第一条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第一子序列退火或连接的靶区域,并且其中所述第二衔接子寡核苷酸包含任选地在5’至3’方向上的能够与所述第二条形码分子的衔接子区退火的衔接子区和能够与所述靶核酸的第二子序列退火或连接的靶区域。
25.根据权利要求22至24中任一项所述的试剂盒,其中所述条形码区独特地标识每个所述条形码分子。
26.根据权利要求22至25中任一项所述的试剂盒,其中所述衔接子寡核苷酸的衔接子区包含相同的恒定区。
27.根据权利要求22至26中任一项所述的试剂盒,其中每个多聚体条形码分子包含连接在一起的至少5、至少10、至少20、至少25、至少50、至少75、或至少100个条形码分子,其中每个条形码分子如权利要求22至26中任一项中限定;并且其中所述试剂盒包含能够与每个条形码分子退火的衔接子寡核苷酸,其中每个衔接子寡核苷酸如权利要求22至26中任一项中限定。
28.根据权利要求22至27中任一项所述的试剂盒,其中每个靶区域包含至少5、至少10、至少15、至少20、至少25、或至少50个核苷酸。
29.根据权利要求22至28中任一项所述的试剂盒,其中所述试剂盒包含具有至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个多聚体条形码分子的文库,其中每个多聚体条形码分子如权利要求22至28中任一项中限定;以及针对每个所述多聚体条形码分子的衔接子寡核苷酸,其中每个衔接子寡核苷酸如权利要求22至28中任一项中限定。
30.制备测序用核酸样品的方法,其中所述方法包括以下步骤:
a.使所述核酸样品与权利要求22至29中任一项中所限定的第一和第二衔接子寡核苷酸接触;
b.使所述第一衔接子寡核苷酸的靶区域与靶核酸的第一子序列退火,并使所述第二衔接子寡核苷酸的靶区域与靶寡核苷酸的第二子序列退火;
c.使所述核酸样品与权利要求22至29中任一项中所限定的多聚体条形码分子文库以及权利要求22至29中任一项中所限定的第一和第二延伸引物接触;
d.使所述第一衔接子寡核苷酸的衔接子区与所述第一条形码分子的衔接子区退火,并使所述第二衔接子寡核苷酸的衔接子区与所述第二条形码分子的衔接子区退火;
e.使用所述第一条形码分子的条形码区作为模板延伸所述第一延伸引物以产生第一条形码寡核苷酸,并使用所述第二条形码分子的条形码区作为模板延伸所述第二延伸引物以产生第二条形码寡核苷酸,其中所述第一条形码寡核苷酸包含与所述第一条形码分子的条形码区互补的序列,并且所述第二条形码寡核苷酸包含与所述第二条形码分子的条形码区互补的序列;以及
f.使所述第一条形码寡核苷酸的3’端与所述第一衔接子寡核苷酸的5’端连接以产生第一经条形码编码的寡核苷酸,并使所述第二条形码寡核苷酸的3’端与所述第二衔接子寡核苷酸的5’端连接以产生第二经条形码编码的寡核苷酸;
并且其中延伸所述第一和第二衔接子寡核苷酸或第一和第二经条形码编码的寡核苷酸以产生第一和第二不同的经条形码编码的靶核酸分子,其各自包含至少一个由所述靶核酸作为模板合成的核苷酸。
31.根据权利要求30所述的方法,其中:
a.所述第一多聚体条形码分子的衔接子寡核苷酸或经条形码编码的寡核苷酸与第一靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第一靶核酸作为模板合成的核苷酸;并且
b.所述第二多聚体条形码分子的衔接子寡核苷酸或经条形码编码的寡核苷酸与第二靶核酸的子序列退火且产生第一和第二不同的经条形码编码的靶核酸分子,其中每个经条形码编码的靶核酸分子包含至少一个由所述第二靶核酸作为模板合成的核苷酸。
32.根据权利要求30或权利要求31所述的方法,其中在步骤(c)之前、在步骤(d)之前、在步骤(e)之前、和/或在步骤(f)之前进行延伸所述衔接子寡核苷酸的步骤,并且其中所述第一和第二衔接子寡核苷酸保持与所述第一和第二条形码分子退火直至步骤(f)之后。
33.根据权利要求7至11、18至21、或30至32中任一项所述的方法,其中所述靶核酸是完整核酸分子或核酸分子的共定位片段。
34.根据权利要求7至11、18至21、或30至33中任一项所述的方法,其中所述方法包括产生至少5、至少10、至少20、至少25、至少50、至少75、至少100、至少250、至少500、至少103、至少104、至少105、至少106、至少107、至少108、或至少109个不同的经条形码编码靶核酸分子。
35.对根据权利要求7至11、18至21、或30至34中任一项所述的方法制备的样品进行测序的方法,其包括以下步骤:
a.分离所述经条形码编码的靶核酸分子;以及
b.由每个经条形码编码的靶核酸分子产生序列读取,其包含所述条形码区、所述靶区域和至少一个另外的来自所述靶核酸的核苷酸。
36.根据权利要求35所述的方法,其中每个序列读取包含至少10、至少25、至少50、至少100、至少250、或至少500个来自所述靶核酸的核苷酸。
37.处理通过根据权利要求35或权利要求36所述的方法获得的测序数据的方法,其包括以下步骤:
a.对每个序列读取鉴定所述条形码区的序列和来自所述靶核酸的序列;以及
b.使用来自步骤(a)的信息来确定来自所述靶核酸的被来自同一多聚体条形码编码剂的条形码区标记的序列组。
38.根据权利要求37所述的方法,其还包括以下步骤:通过分析所述序列组以鉴定出连续序列来确定靶核酸的序列,其中所述靶核酸的序列包含来自至少两个序列读取的核苷酸。
39.根据权利要求37或权利要求38所述的方法,其中所述靶核酸是完整核酸分子或核酸分子的共定位片段。
40.由靶核酸产生合成长读取的方法,其包括以下步骤:
a.根据权利要求7至11、18至21、或30至34中任一项所述的方法来制备测序用核酸样品;
b.根据权利要求35或权利要求36所述的方法来对所述样品进行测序;以及
c.根据权利要求37至39中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)产生包含来自至少两个序列读取中每一个的至少一个核苷酸的合成长读取。
41.对两个或更多个共定位靶核酸进行测序的方法,其包括以下步骤:
a.根据权利要求7至11、18至21、或30至34中任一项所述的方法来制备测序用核酸样品;
b.根据权利要求35或权利要求36所述的方法来对所述样品进行测序;以及
c.根据权利要求37至39中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)鉴定至少两个序列读取,所述至少两个序列读取包含来自所述样品中共定位的至少两个靶核酸的核苷酸。
42.对来自单独细胞的靶核酸进行测序的方法,其包括以下步骤:
a.根据权利要求7至11、18至21、或30至34所述的方法来制备测序用核酸样品,其中将所述多聚体条形码编码剂、或多聚体条形码分子、和/或衔接子寡核苷酸引入所述细胞中;
b.根据权利要求35或权利要求36所述的方法来对所述样品进行测序;以及
c.根据权利要求37至39中任一项所述的方法来处理通过步骤(b)获得的序列数据;
其中步骤(c)鉴定至少两个序列读取,所述至少两个序列读取包含来自所述细胞的至少两个靶核酸的核苷酸。
43.根据权利要求42所述的方法,其中所述靶核酸是mRNA分子。
44.根据权利要求43所述的方法,其中每个经条形码编码的靶核酸分子在与靶mRNA分子退火的经条形码编码的寡核苷酸的分离之后、通过使用逆转录酶和作为模板的所述靶mRNA分子延伸所述经条形码编码的寡核苷酸来产生。
45.根据权利要求43或44所述的方法,其中所述mRNA分子是:
a.对应于T细胞受体序列的α链和/或β链的mRNA分子,任选地其中确定在单独细胞中配对的α链和β链的序列;或者
b.对应于免疫球蛋白序列的轻链和/或重链的mRNA分子,任选地其中确定在单独细胞中配对的轻链和重链的序列。
46.权利要求1至6中任一项中所限定的多聚体条形码编码剂文库或者权利要求12至17或权利要求22至29中任一项中所限定的试剂盒用于以下的用途:
a.由靶核酸产生两个或更多个序列读取,其中两个或更多个序列读取被标识为来源于同一靶核酸并且组合以产生合成长读取;
b.标记***固定石蜡包埋核酸样品,其中将所述多聚体条形码编码剂或所述试剂盒的组分引入所述样品中并用于标记两个或更多个共定位靶核酸的组以进行测序;
c.在单独细胞中标记靶核酸,其中将所述多聚体条形码编码剂或所述试剂盒的组分引入细胞中并用于标记所述细胞中两个或更多个靶核酸的组以进行测序;或者
d.在人血浆或血清的样品中标记靶核酸,其中将所述多聚体条形码编码剂或所述试剂盒的组分用于标记所述血浆或血清中两个或更多个靶核酸的组以进行测序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210549745.8A CN114940988A (zh) | 2015-06-23 | 2016-06-23 | 用于分子条形码编码的试剂、试剂盒和方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1511050.5 | 2015-06-23 | ||
GB1511050.5A GB2539675B (en) | 2015-06-23 | 2015-06-23 | Libraries of multimeric barcoding reagents and kits thereof for labelling nucleic acids for sequencing |
PCT/GB2016/051883 WO2016207639A1 (en) | 2015-06-23 | 2016-06-23 | Reagents, kits and methods for molecular barcoding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210549745.8A Division CN114940988A (zh) | 2015-06-23 | 2016-06-23 | 用于分子条形码编码的试剂、试剂盒和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108138175A true CN108138175A (zh) | 2018-06-08 |
CN108138175B CN108138175B (zh) | 2022-06-10 |
Family
ID=53784400
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210549745.8A Pending CN114940988A (zh) | 2015-06-23 | 2016-06-23 | 用于分子条形码编码的试剂、试剂盒和方法 |
CN201680049082.6A Active CN108138175B (zh) | 2015-06-23 | 2016-06-23 | 用于分子条形码编码的试剂、试剂盒和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210549745.8A Pending CN114940988A (zh) | 2015-06-23 | 2016-06-23 | 用于分子条形码编码的试剂、试剂盒和方法 |
Country Status (9)
Country | Link |
---|---|
US (4) | US20180171329A1 (zh) |
EP (2) | EP3310916B8 (zh) |
CN (2) | CN114940988A (zh) |
AU (2) | AU2016281758B2 (zh) |
CA (1) | CA2989976C (zh) |
GB (1) | GB2539675B (zh) |
IL (2) | IL301595A (zh) |
SG (1) | SG10202006644SA (zh) |
WO (1) | WO2016207639A1 (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10011872B1 (en) | 2016-12-22 | 2018-07-03 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10815525B2 (en) | 2016-12-22 | 2020-10-27 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
US10550429B2 (en) | 2016-12-22 | 2020-02-04 | 10X Genomics, Inc. | Methods and systems for processing polynucleotides |
GB201622222D0 (en) | 2016-12-23 | 2017-02-08 | Cs Genetics Ltd | Reagents and methods for molecular barcoding of nucleic acids of single cells |
GB201810571D0 (en) | 2018-06-27 | 2018-08-15 | Cs Genetics Ltd | Reagents and methods for the analysis of circulating microparticles |
WO2020146312A1 (en) * | 2019-01-07 | 2020-07-16 | Agilent Technologies, Inc. | Compositions and methods for genomic dna and gene expression analysis in single cells |
GB201909325D0 (en) | 2019-06-28 | 2019-08-14 | Cs Genetics Ltd | Reagents and methods for analysis for microparticles |
WO2022263846A1 (en) | 2021-06-18 | 2022-12-22 | Cs Genetics Limited | Reagents and methods for molecular barcoding |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060094019A1 (en) * | 2004-10-28 | 2006-05-04 | University Of Illinois | Polynucleotide barcoding |
US20130130919A1 (en) * | 2011-10-18 | 2013-05-23 | The Regents Of The University Of California | Long-Range Barcode Labeling-Sequencing |
WO2014018080A1 (en) * | 2012-07-24 | 2014-01-30 | Natera, Inc. | Highly multiplex pcr methods and compositions |
WO2014071361A1 (en) * | 2012-11-05 | 2014-05-08 | Rubicon Genomics | Barcoding nucleic acids |
WO2014145820A2 (en) * | 2013-03-15 | 2014-09-18 | Complete Genomics, Inc. | Multiple tagging of long dna fragments |
WO2015053943A1 (en) * | 2013-10-09 | 2015-04-16 | Stc.Unm | Synthetic long read dna sequencing |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE43097E1 (en) * | 1994-10-13 | 2012-01-10 | Illumina, Inc. | Massively parallel signature sequencing by ligation of encoded adaptors |
US7306904B2 (en) * | 2000-02-18 | 2007-12-11 | Olink Ab | Methods and kits for proximity probing |
CN104673903B (zh) * | 2005-06-20 | 2018-11-13 | 领先细胞医疗诊断有限公司 | 检测单个细胞中的核酸和鉴定异质大细胞群中罕见细胞的方法 |
ES2562159T3 (es) | 2009-08-20 | 2016-03-02 | Population Genetics Technologies Ltd. | Composiciones y métodos para el reordenamiento de ácido nucleico molecular |
WO2011094669A1 (en) * | 2010-01-29 | 2011-08-04 | Advanced Cell Diagnostics, Inc. | Methods of in situ detection of nucleic acids |
CN110878345A (zh) | 2010-09-21 | 2020-03-13 | 安捷伦科技有限公司 | 通过分子计数提高等位基因调用的置信度 |
US9476095B2 (en) | 2011-04-15 | 2016-10-25 | The Johns Hopkins University | Safe sequencing system |
CN103890245B (zh) * | 2011-05-20 | 2020-11-17 | 富鲁达公司 | 核酸编码反应 |
GB201108678D0 (en) * | 2011-05-24 | 2011-07-06 | Olink Ab | Multiplexed proximity ligation assay |
AU2012304328B2 (en) | 2011-09-09 | 2017-07-20 | The Board Of Trustees Of The Leland Stanford Junior University | Methods for obtaining a sequence |
EP3524693A1 (en) * | 2012-04-30 | 2019-08-14 | Raindance Technologies, Inc. | Digital analyte analysis |
US20150005200A1 (en) * | 2012-08-14 | 2015-01-01 | 10X Technologies, Inc. | Compositions and methods for sample processing |
-
2015
- 2015-06-23 GB GB1511050.5A patent/GB2539675B/en active Active
-
2016
- 2016-06-23 WO PCT/GB2016/051883 patent/WO2016207639A1/en active Application Filing
- 2016-06-23 IL IL301595A patent/IL301595A/en unknown
- 2016-06-23 EP EP16733175.0A patent/EP3310916B8/en active Active
- 2016-06-23 US US15/738,104 patent/US20180171329A1/en not_active Abandoned
- 2016-06-23 AU AU2016281758A patent/AU2016281758B2/en active Active
- 2016-06-23 CN CN202210549745.8A patent/CN114940988A/zh active Pending
- 2016-06-23 EP EP20162828.6A patent/EP3702457A1/en active Pending
- 2016-06-23 CA CA2989976A patent/CA2989976C/en active Active
- 2016-06-23 CN CN201680049082.6A patent/CN108138175B/zh active Active
- 2016-06-23 SG SG10202006644SA patent/SG10202006644SA/en unknown
-
2017
- 2017-12-20 IL IL256444A patent/IL256444B2/en unknown
-
2019
- 2019-01-11 US US16/246,195 patent/US10731150B2/en active Active
-
2020
- 2020-07-23 US US16/937,225 patent/US11242522B2/en active Active
-
2021
- 2021-06-21 AU AU2021204166A patent/AU2021204166B2/en active Active
-
2022
- 2022-02-03 US US17/591,930 patent/US20220411786A1/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060094019A1 (en) * | 2004-10-28 | 2006-05-04 | University Of Illinois | Polynucleotide barcoding |
US20130130919A1 (en) * | 2011-10-18 | 2013-05-23 | The Regents Of The University Of California | Long-Range Barcode Labeling-Sequencing |
WO2014018080A1 (en) * | 2012-07-24 | 2014-01-30 | Natera, Inc. | Highly multiplex pcr methods and compositions |
WO2014071361A1 (en) * | 2012-11-05 | 2014-05-08 | Rubicon Genomics | Barcoding nucleic acids |
WO2014145820A2 (en) * | 2013-03-15 | 2014-09-18 | Complete Genomics, Inc. | Multiple tagging of long dna fragments |
WO2015053943A1 (en) * | 2013-10-09 | 2015-04-16 | Stc.Unm | Synthetic long read dna sequencing |
Also Published As
Publication number | Publication date |
---|---|
IL256444B2 (en) | 2023-08-01 |
IL256444A (en) | 2018-02-28 |
AU2016281758B2 (en) | 2021-07-08 |
CA2989976C (en) | 2022-03-15 |
EP3702457A1 (en) | 2020-09-02 |
US11242522B2 (en) | 2022-02-08 |
IL256444B1 (en) | 2023-04-01 |
GB2539675A (en) | 2016-12-28 |
AU2016281758A1 (en) | 2018-02-15 |
WO2016207639A1 (en) | 2016-12-29 |
CN108138175B (zh) | 2022-06-10 |
AU2021204166B2 (en) | 2024-02-22 |
US20190136228A1 (en) | 2019-05-09 |
IL301595A (en) | 2023-05-01 |
GB201511050D0 (en) | 2015-08-05 |
CA2989976A1 (en) | 2016-12-29 |
US10731150B2 (en) | 2020-08-04 |
EP3310916A1 (en) | 2018-04-25 |
EP3310916B1 (en) | 2020-03-18 |
US20220411786A1 (en) | 2022-12-29 |
AU2021204166A1 (en) | 2021-07-15 |
US20200347382A1 (en) | 2020-11-05 |
SG10202006644SA (en) | 2020-08-28 |
GB2539675B (en) | 2017-11-22 |
EP3310916B8 (en) | 2020-04-29 |
CN114940988A (zh) | 2022-08-26 |
US20180171329A1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108138175A (zh) | 用于分子条形码编码的试剂、试剂盒和方法 | |
US11274335B2 (en) | Methods for the epigenetic analysis of DNA, particularly cell-free DNA | |
CN106555226B (zh) | 一种构建高通量测序文库的方法和试剂盒 | |
WO2015081229A2 (en) | Selective amplification of nucleic acid sequences | |
US11608518B2 (en) | Methods for analyzing nucleic acids | |
US20220364169A1 (en) | Sequencing method for genomic rearrangement detection | |
KR20170133270A (ko) | 분자 바코딩을 이용한 초병렬 시퀀싱을 위한 라이브러리 제조방법 및 그의 용도 | |
CN111801427A (zh) | 用于单分子的单链环状dna模板的产生 | |
TWI771847B (zh) | 擴增和確定目標核苷酸序列的方法 | |
JP2022546485A (ja) | 腫瘍高精度アッセイのための組成物および方法 | |
CA3200114C (en) | Rna probe for mutation profiling and use thereof | |
CN117625739A (zh) | 同时进行基因组和甲基化组测序的测序接头组合物、建库方法和测序方法 | |
JP2023552984A (ja) | 両端からポリヌクレオチド断片を配列決定するための方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |