CN111655848A - 在核酸模板中保留空间邻位邻接性和分子邻接性 - Google Patents
在核酸模板中保留空间邻位邻接性和分子邻接性 Download PDFInfo
- Publication number
- CN111655848A CN111655848A CN201880087150.7A CN201880087150A CN111655848A CN 111655848 A CN111655848 A CN 111655848A CN 201880087150 A CN201880087150 A CN 201880087150A CN 111655848 A CN111655848 A CN 111655848A
- Authority
- CN
- China
- Prior art keywords
- nucleic acid
- isolated nucleic
- proximity
- template
- barcode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 150000007523 nucleic acids Chemical class 0.000 title claims abstract description 533
- 102000039446 nucleic acids Human genes 0.000 title claims abstract description 488
- 108020004707 nucleic acids Proteins 0.000 title claims abstract description 488
- 238000000034 method Methods 0.000 claims abstract description 482
- 238000012163 sequencing technique Methods 0.000 claims abstract description 99
- 102000054766 genetic haplotypes Human genes 0.000 claims abstract description 52
- 239000000203 mixture Substances 0.000 claims abstract description 8
- 108091008146 restriction endonucleases Proteins 0.000 claims description 96
- 108091034117 Oligonucleotide Proteins 0.000 claims description 73
- 239000003153 chemical reaction reagent Substances 0.000 claims description 54
- 108010077544 Chromatin Proteins 0.000 claims description 46
- 210000003483 chromatin Anatomy 0.000 claims description 46
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 claims description 44
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 claims description 38
- 239000003795 chemical substances by application Substances 0.000 claims description 37
- 210000004027 cell Anatomy 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 238000001261 affinity purification Methods 0.000 claims description 25
- 239000012634 fragment Substances 0.000 claims description 25
- 238000006116 polymerization reaction Methods 0.000 claims description 25
- 210000004940 nucleus Anatomy 0.000 claims description 24
- 108091033319 polynucleotide Proteins 0.000 claims description 24
- 102000040430 polynucleotide Human genes 0.000 claims description 24
- 239000002157 polynucleotide Substances 0.000 claims description 24
- 210000000299 nuclear matrix Anatomy 0.000 claims description 23
- 101500006448 Mycobacterium bovis (strain ATCC BAA-935 / AF2122/97) Endonuclease PI-MboI Proteins 0.000 claims description 18
- 102000008579 Transposases Human genes 0.000 claims description 18
- 108010020764 Transposases Proteins 0.000 claims description 18
- 102000008297 Nuclear Matrix-Associated Proteins Human genes 0.000 claims description 15
- 108010035916 Nuclear Matrix-Associated Proteins Proteins 0.000 claims description 15
- WSFSSNUMVMOOMR-UHFFFAOYSA-N Formaldehyde Chemical compound O=C WSFSSNUMVMOOMR-UHFFFAOYSA-N 0.000 claims description 12
- 239000007790 solid phase Substances 0.000 claims description 12
- 238000011065 in-situ storage Methods 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 230000003321 amplification Effects 0.000 claims description 8
- 239000002773 nucleotide Substances 0.000 claims description 8
- 125000003729 nucleotide group Chemical group 0.000 claims description 8
- 108090000623 proteins and genes Proteins 0.000 claims description 8
- 230000005945 translocation Effects 0.000 claims description 7
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 6
- 230000037431 insertion Effects 0.000 claims description 6
- 239000012188 paraffin wax Substances 0.000 claims description 6
- 239000011324 bead Substances 0.000 claims description 4
- 239000003431 cross linking reagent Substances 0.000 claims description 3
- 230000002045 lasting effect Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 description 71
- 239000000047 product Substances 0.000 description 43
- 239000007787 solid Substances 0.000 description 35
- 230000029087 digestion Effects 0.000 description 31
- 239000011159 matrix material Substances 0.000 description 29
- 238000013459 approach Methods 0.000 description 25
- 238000002360 preparation method Methods 0.000 description 24
- 230000000717 retained effect Effects 0.000 description 24
- 108091092584 GDNA Proteins 0.000 description 15
- 230000014759 maintenance of location Effects 0.000 description 15
- 238000007671 third-generation sequencing Methods 0.000 description 15
- 239000002585 base Substances 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 210000000349 chromosome Anatomy 0.000 description 11
- 238000013467 fragmentation Methods 0.000 description 11
- 238000006062 fragmentation reaction Methods 0.000 description 11
- 238000005457 optimization Methods 0.000 description 11
- 239000012071 phase Substances 0.000 description 11
- 238000004321 preservation Methods 0.000 description 10
- 108091028043 Nucleic acid sequence Proteins 0.000 description 9
- 238000012070 whole genome sequencing analysis Methods 0.000 description 8
- 239000003550 marker Substances 0.000 description 7
- 239000000243 solution Substances 0.000 description 7
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 6
- 230000008901 benefit Effects 0.000 description 6
- 238000000137 annealing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000001747 exhibiting effect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000007481 next generation sequencing Methods 0.000 description 4
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 4
- 230000008707 rearrangement Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 3
- 235000020958 biotin Nutrition 0.000 description 3
- 239000011616 biotin Substances 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000001404 mediated effect Effects 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 239000000523 sample Substances 0.000 description 3
- 238000005063 solubilization Methods 0.000 description 3
- 230000007928 solubilization Effects 0.000 description 3
- 108091093088 Amplicon Proteins 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 108010090804 Streptavidin Proteins 0.000 description 2
- 239000002253 acid Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 2
- 229910052697 platinum Inorganic materials 0.000 description 2
- 229920000642 polymer Polymers 0.000 description 2
- ZCCUUQDIBDJBTK-UHFFFAOYSA-N psoralen Chemical compound C1=C2OC(=O)C=CC2=CC2=C1OC=C2 ZCCUUQDIBDJBTK-UHFFFAOYSA-N 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- VXGRJERITKFWPL-UHFFFAOYSA-N 4',5'-Dihydropsoralen Natural products C1=C2OC(=O)C=CC2=CC2=C1OCC2 VXGRJERITKFWPL-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 239000004971 Cross linker Substances 0.000 description 1
- 102100036263 Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Human genes 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101001001786 Homo sapiens Glutamyl-tRNA(Gln) amidotransferase subunit C, mitochondrial Proteins 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000013068 control sample Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000004132 cross linking Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000001502 gel electrophoresis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000009396 hybridization Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 208000014048 linear lichen planus Diseases 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 210000001082 somatic cell Anatomy 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1065—Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1075—Isolating an individual clone by screening libraries by coupling phenotype to genotype, not provided for in other groups of this subclass
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/1034—Isolating an individual clone by screening libraries
- C12N15/1093—General methods of preparing gene libraries, not provided for in other subgroups
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Plant Pathology (AREA)
- Immunology (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本文提供了用于制备核酸模板的方法和组合物,其中保留了靶核酸的空间邻位邻接性和分子邻接性,并且使用由其获得的测序数据,但不限于鉴定基因组变体、确定邻接性信息以告知靶核酸的从头组装,包括单倍型相位信息的解卷积,以及分析靶核酸的构象和拓扑结构。
Description
相关专利申请
本专利申请要求于2017年11月21日提交的美国临时专利申请号62/589,505的权益,该美国临时专利申请的名称为PRESERVING SPATIAL-PROXIMAL CONTIGUITY ANDMOLECULAR CONTIGUITY IN NUCLEIC ACID TEMPLATES(在核酸模板中保留空间邻位邻接性和分子邻接性),将Siddarth Selvaraj、Anthony Schmitt和Bret Reid指定为发明人并且被分配了代理人案卷号AMG-1002-PV。本专利申请与2018年11月20日提交的美国临时申请有关,所述美国临时申请的名称为METHODS FOR PREPARING NUCLEIC ACIDS THATPRESERVE SPATIAL-PROXIMAL CONTIGUITY INFORMATION(用于制备保留空间邻位邻接性信息的核酸的方法),将Anthony Schmitt、Catherine Tan、Derek Reid、Chris De La Torre和Siddarth Selvaraj指定为发明人并且被分配了代理人案卷号AMG-1003-PV。上述专利申请的全部内容以引用的方式并入本文,包括所有文本、表格和附图。
技术领域
该技术涉及对核酸进行测序。具体地涉及制备包含已经保留了空间邻位邻接性和分子邻接性的核酸的核酸模板以由其确定核酸序列,这可以适用于全基因组和靶向核酸序列测定。
背景技术
下一代测序(NGS)已经成为用于测定核酸序列以用于众多研究和临床应用的一组主要的方法1-9。典型的NGS工作流程如下:从核酸来源中分离出通常被组织为一个或多个染色体的天然基因组DNA,从而引起它的片段化,以产生核酸模板,随后通过测序仪器读取所述核酸模板以产生序列数据。主要的测序仪器读取高度片段化的核酸模板(例如Illumina测序仪读取100bp-500bp)。
在核酸模板制备期间捕获邻接性的一种方法是通过使用以下原理,即在核内,核酸通常以空间构象排列10,11。由于天然存在的空间邻近的核酸分子(nSPNA,参见下文的定义)在线性上可以是远离的,因此捕获nSPNA告知了一种邻接形式。实际上,捕获这样的构象信息的方法(例如3C12、4C13,14、5C15,16、HiC17,18、TCC19,20或其它方法或方法的组合)捕获nSPNA并且通过将它们“连接”而告知邻接性,具体地,将nSPNA连接以产生核酸的连接产物(LP),随后将多个这样的LP片段化并且制备成保留邻接性的核酸模板,对所述模板进行测序以获得保留邻接性的测序数据。
发明内容
本文公开的用于产生保留邻接性的核酸模板的方法CPSP-Prep包括两个关键步骤:首先,捕获nSPNA以获得空间邻位信息(例如通过PL方法或SSPC方法(定义于下文中)),以及其次,保留所捕获的nSPNA(所捕获的nSPNA在下文中被称为cSPNA,参见下文的定义)内的空间邻位邻接性和分子邻接性,从而引起保留邻接性的核酸模板的制备。由核酸模板的CPSP-Prep获得的测序数据(CPSP-Seq)使得通过能够鉴定基因组变体、确定邻接性信息以告知从头基因组组装、对单倍型相位信息进行解卷积而使得能够全面测定核酸序列,并且还有助于分析靶核酸的构象和拓扑结构。
定义
测序:除非另有说明,否则本文中的测序指的是短读段测序(例如Illumina),其对包含约500bp长度的核酸片段的核酸模板进行测序。
空间邻位核酸分子(SPNA):在细胞内,核酸通常天然地以空间构型排列,在本文中被称为nSPNA。nSPNA是彼此在空间上处于邻位的核酸分子,并且当使用PC方法(定义于下文中)捕获时,所得的所捕获的nSPNA在本文中被称为cSPNA。
邻位捕获(PC):PC方法折衷了涉及捕获nSPNA以得到cSPNA的方法。在这种背景下“捕获”包括告知核酸的空间邻位的机制。
邻位连接(PL):在PC方法内,PC的模式是包括邻位连接(PL)的一类方法。PL方法是其中通过连接而捕获nSPNA以产生连接产物(LP)的方法(例如3C、4C、5C、HiC、TCC或其它方法或方法的组合12,13,15,17,19)。邻位连接(PL)被理解为包括原位连接和溶液中的连接。通常在PL方法中,通过使用限制性内切酶(RE)或其它消化手段来消化来自核酸来源(一个或多个细胞,或核,或核基质)的nSPNA,然后通过连接来捕获经消化的nSPNA以形成连接产物(LP)。然后将LP片段化成更短的核酸分子并且制备成核酸模板进行测序(图2)。值得注意的是,LP被定义为具有<1Kb至>60Kb范围的高分子长度,并且除非另作说明,否则我们假设LP以高分子长度为特征。此外,LP通常被描绘为环化的核酸分子(图2),但是LP可以是线性的或环状的(图3)。此外,LP内构成连接的核酸被定义为连接接合点(LJ),并且重要的是,LP通常被示为表现出两个LJ(图3i),但是由于多个nSPNA连接在一起,因此LP可以表现出≥2个LJ(图3v)。此外,由于核酸构象的空间或物理约束或由于分子生物学效率低下,因此PL方法也可能表现出未连接的产物(uLP),并且因此,与uLP不同,表现出LJ的LP告知了空间邻位邻接性。最终,在一些PL方法(例如HiC,图2)中,对LJ进行标记而产生MLP(标记的LP)以去除uLP。概括地说,所有的PL工作流程均捕获nSPNA以产生LP,并且除非另作说明,否则术语LP包括MLP和表现出LJ的其它LP构型,但uLP除外。由于这种概括,因此可以假设LP表现出LJ。
固体基质介导的邻位捕获(SSPC):本文公开的一类新的PC方法被称作固体基质介导的邻位捕获(SSPC)。这些方法包括引入外源性固体基质,其通过固体基质与nSPNA的结合而促进了对nSPNA的捕获。一旦nSPNA通过与固体基质的结合而被捕获,与所述固体基质结合的cSPNA的集合就被称为SSPC产物。此外,SSPC产物被定义为具有<1Kb至>60Kb范围的高分子长度,并且除非另作说明,否则我们假设SSPC产物以高分子长度为特征。总而言之,LP和SSPC产物表示cSPNA的不同形式。
在整个本申请中,诸如cSPNA、LP和SSPC产物的定义可以互换使用。具体地,cSPNA是一种概括并且可以表示来自PL方法的LP或MLP产物,或来自SSPC方法的SSPC产物。此外,虽然上述定义涉及用于捕获nSPNA以产生cSPNA的方法(CPSP-Prep的第1步骤),但是以下定义论述了关于在由cSPNA制备的核酸模板中保留空间邻位邻接性和分子邻接性的概念(CPSP-Prep的第2步骤)。
隔室化:无论是通过PL方法还是通过SSPC方法来捕获nSPNA,都可以通过隔室化和用分子条形码标记来实现保留cSPNA内的空间邻位邻接性和分子邻接性的方法。在本公开的背景下,隔室化指的是将多个cSPNA划分到多个离散的隔室中以使得每一个隔室分配有亚单倍体量的核酸的动作。在“物理”隔室化的情况下,可以将多个cSPNA划分到被禁止与其它隔室相互混合的离散的物理空间(即隔室)中。这样的物理隔室可能是微量滴定板的孔(例如在CPT-Seq21,22中)或微流体液滴(例如在10X Genomics23中)。在“虚拟”隔室化的情况下,通过附连到固体基质上的转座酶进行转座来对多个cSPNA进行标记,以使得附连到固体基质上的独特条形编码化的转座酶代表它自身的“虚拟”隔室并且没有被物理禁止与其它虚拟隔室相互混合(例如在CPT-seqV224中)。
标记:在本公开的背景下,标记指的是物理整合独特分子标识符(即分子条形码,定义于下文中)作为cSPNA的一部分(或在其扩增子中)。如本文所述,可以使用转座酶将独特条形编码化的寡核苷酸整合到cSPNA中以将分子条形码整合到cSPNA中,或通过诸如引物延伸聚合(PEP)的技术将分子条形码整合到cSPNA中,其中聚合酶和包含分子条形码的引物与cSPNA退火并且沿cSPNA延伸,从而产生与条形编码化的引物核酸邻接的cSPNA的扩增子。还描述了标记的替代形式,其涉及将包含分子条形码的寡核苷酸连接到cSPNA的一个或多个末端。
分子条形码:在本公开的背景下,分子条形码指的是唯一可识别的核酸序列,其唯一地告知引入所述分子条形码的环境。例如,当将分子条形码整合到cSPNA中并且随后进行测序时,在测序读数中出现的分子条形码告知了序列读数源自于哪些cSPNA。
核酸模板:在本公开的背景下,核酸模板(或简称为“模板”)指的是由测序仪器读取的一个或多个核酸分子。产生核酸模板的方法通常涉及将核酸片段化为被推荐用于特定测序仪器的分子长度。例如,目前的Illumina短读段测序要求约500bp的核酸长度。
附图说明
图1:保留邻接性的核酸模板产生更长的邻接性。邻接性被定义为其中测定如在核酸模板中所表现的邻接的核酸的序列的现象,并且测量邻接性的一种方法是构建单倍型的能力,单倍型的跨度越长,邻接性越长。值得注意的是,来源(一个或多个细胞、核、核基质等)通常遗传了遗传物质的多个拷贝(例如人类体细胞遗传了遗传物质的两个拷贝),并且单倍型是通过连接遗传变体将遗传物质的拷贝解卷积的能力。在该图中,我们使用平均单倍型跨度(hN50)来告知核酸序列的邻接性。我们通过模拟在各种测序深度(x轴)下为各种方法制备的模板中所表现出的不同核酸片段长度并且通过由NA12878基因组(人类,hg18参考)中所表现出的单核苷酸变体构建而成的平均单倍型跨度(y轴)表示邻接性来描绘目前的方法。这些模拟代表了短读段(Illumina,500bp片段尺寸)和保留邻接性的核酸模板(15Kb-100 Kb片段尺寸,保留邻接性的核酸模板也被称为合成长读段,如通过PL方法或通过诸如10X Genomics23的其它方法所产生)。在与真实数据集比对时,除了对Illumina进行建模的500bp模拟之外,所有的模拟均允许核酸片段尺寸中的异质性,例如,对于15kb核酸片段尺寸模拟,我们对平均15kb的核酸尺寸的高斯分布进行了建模,其中与平均值的标准偏差为10%,均匀混合并且通过100bp配对末端测序读数表示。模拟结果与文献一致,这显示出我们的模拟方法的稳健性25。在图的右侧,我们示出了作为最大邻接性的测量结果的最长单倍型跨度的跨度以估计在超高的200×测序深度下模板内各种核酸片段尺寸的最佳性能以证实保留邻接性的模板产生更长的邻接性。
图2:通过PL方法捕获nSPNA的示意图。PL方法从(i)核酸来源(例如一个或多个细胞、核、核基质(全部或部分),包括一个或多个***固定的石蜡包埋(FFPE)的细胞或核或核基质)内的天然空间邻位核酸(nSPNA)开始,之后是(ii)消化(例如通过RE)和连接以产生cSPNA并且形成连接产物(LP)。广义上讲,PL方法被分类为基于3C和基于HiC,尽管PL存在许多特定的变化形式。在3C12(iii)中,将多个LP片段化,制备成短的核酸模板并且准备进行测序。在HiC17,18(iv)中,对经消化的核酸末端进行标记(例如生物素化),然后连接以产生标记的连接产物(MLP,MLP是LP的表现形式),其在LJ处带有亲和纯化标记。在将多个MLP片段化之后,使用亲和纯化来富集包含LJ的MLP的片段,并且将这些片段制备成核酸模板并且准备进行测序,即富集来自含有至少一个LJ的MLP的片段化的核酸并且将其制备成模板并且在HiC中测序,以贫化uMLP(通常不表现出LJ的未连接的MLP)。无论PL工作流程如何,虽然LP(或MLP)的产生会捕获并且产生cSPNA,但是由于在模板制备过程中LP被片段化成短片段,因此关于LP(或MLP)内的分子邻接性的关键信息无法很好地被捕获。
图3:通过PL方法产生的多种核酸分子构型。PL方法从核酸来源(例如一个或多个细胞、核、核基质)内的nSPNA开始,并且在消化后,对nSPNA进行邻位连接而产生呈连接和未连接的核酸产物(下排)形式的cSNPA(上排)。在(i)中,在两个nSPNA之间发生连接,从而产生具有两个LJ的单个LP。在(ii)中,两个nSPNA均未连接,从而产生没有LJ的未连接的产物(uLP)。在(iii)中,nSPNA自身连接,从而形成自连接产物和uLP。在(iv)中,在两个nSPNA之间仅发生一个连接,从而形成具有单个LJ的线性化的LP。在(v)中,在三个nSPNA之间发生三个连接,从而产生具有3个LJ的LP。在(vi)中,在三个nSPNA之间发生两个连接,从而产生具有2个LJ的线性化的LP。值得注意的是,其它核酸分子构型也是可能的,并且该图旨在说明一些常见的可能性。总体而言,在LP(或HiC中的MLP)内存在LJ捕获并且产生了cSPNA,而在LP(或MLP)内不存在LJ,如在uLP的情况下,表示对cSPNA的捕获不佳。
图4:HiC序列数据中有限的变体灵敏度。在PL工作流程(在这种情况下是HiC)的消化步骤中,通过6-切割酶或4-切割酶RE进行消化以从GM12878细胞(人类淋巴母细胞样细胞系)产生HiC模板并且测序到高达90×深度而产生HiC测序数据。将HiC测序数据以5×增量子采样到从35×到90×深度变动的深度。将HiC测序数据与hg19人类参考基因组进行比对并且使用内部自动化分析流程(in-house pipelines)和GATK26鉴定基因组变体(SNV)。确定每一个数据集的Vs,计算为如由被命名为白金基因组(platinum genomes)计划27的外部计划所鉴定的该样品中的已知基因组变体(SNV)当中在HiC测序数据中所鉴定的基因组变体(SNV)的分数,并且针对所分析的每一个测序深度绘制在y轴上。HiC序列数据是从Rao等28获得的。
图5:PL模板对变体灵敏度的影响。从GM12878细胞制备来自3C和HiC的PL模板并且测序到30×深度。作为外部对照,将其中核酸被分离并且片段化为500bp的非PL模板制备成常规的短读段模板,然后进行测序(也被称为全基因组测序(WGS)数据)。将所有序列数据与hg19人类参考基因组进行比对并且使用内部自动化分析流程和GATK26鉴定基因组变体(SNV)。在(i)中,我们将Vs绘制为距最近的RE消化位点的距离的函数。对于WGS外部对照,我们进行了相同的分析,但是由于WGS模板的制备不涉及通过RE进行的消化,因此我们将“GATC”基序用于消化位点,这是因为这是由用于制备这两个PL模板的RE识别的基序。我们绘制了从消化位点开始到+/-1Kb的每一个碱基处的Vs。在(ii)中,我们绘制了根据每一个测序数据集确定的Vs,揭示了3C与WGS之间的Vs在定量上相似(约95%),但是来自HiC的Vs有限(约60%)。HiC序列数据是从Rao等28下载的。WGS数据是从DePristo等29下载的。ArimaGenomics公司产生了3C模板和测序数据。
图6:来自PL模板的序列数据中有限的单倍型定相能力。为了制备用于测序的模板,3C包括将LP片段化并且将所有片段制备成用于测序的模板。HiC包括将MLP片段化并且富集包含LJ的MLP片段并且将其制备成用于测序的模板。从GM12878细胞产生了2个3C模板重复样品和1个HiC模板重复样品并且测序到30×深度。将3C和HiC序列数据与hg19人类参考基因组进行比对,并且使用内部自动化分析流程和GATK26鉴定基因组变体(SNV),并且使用内部自动化分析流程和HapCUT230组装单倍型。在(i)中,我们绘制了靶区域(在这种情况下是给定的染色体)的最大单倍型段(Hc)的跨度。在(ii)和(iii)中,我们分别绘制了全基因组Hr和全基因组Ha。“全基因组”表示Ha和Hr统计值是基于来自作为靶区域的整个基因组的数据而计算的。Arima Genomics公司产生了3C和HiC模板以及测序数据。
图7:在PL模板中保留空间邻位邻接性和分子邻接性可以改善单倍型定相。在(i)中,我们对具有至少2个基因组变体(例如SNV)的PL模板的概率进行建模,这是告知单倍型相位的要求。对于常规的PL模板(例如3C模板或HiC模板),我们假设如果PL模板是300bp,并且如果我们假设人类基因组中基因组变体(SNV)的密度是1500个碱基中有1个(杂合SNV,特别是一些人群中的杂合SNV具有这种密度),则具有告知单倍型相位的至少两个基因组变体的PL模板的概率是约1.7%,这是通过假设基因组变体在模板中均匀分布而得出的数学估计值。因此,仅通过LP保留空间邻位邻接性的常规PL模板(例如3C模板或HiC模板)具有较低的告知单倍型相位的概率,而保留空间邻位邻接性和分子邻接性这两者的更长的PL模板具有更高的表现出至少两个基因组变体以关键性地告知单倍型相位的概率。在(ii)中,我们通过将数据与hg19人类参考基因组进行比对而分析了来自GM12878细胞的HiC测序数据,然后通过人工地将读段长度从原始(300bp、150bp配对末端)长度延伸到最多2Kb而模拟了更长的模板长度。然后,我们假设一组已知的基因组变体(SNV)并且使用内部自动化分析流程和HapCUT230对所述基因组变体进行单倍型定相并且在各种测序深度(x轴)下计算Hr(y轴)。显然,通过更长的PL模板保留空间邻位邻接性和分子邻接性这两者产生了更高的单倍型相位的分辨率。Arima Genomics公司产生了HiC模板和测序数据。
图8:由于在PL模板中保留空间邻位邻接性和分子邻接性这两者而改善Ha的数学 验证。chr6的这一假设的3Kb区域含有5个基因组变体(SNV)(SNV位置的最后3位数字示于chr6轨迹下方的方框中)并且有两个单倍型是可能的,被示为“H1”或“H2”。(i)根据其中仅通过MLP在模板中保留了空间邻位邻接性的HiC序列数据,变体298与308之间的定相被错误地预测,这是因为告知这些基因组变体之间的单倍型的HiC读数很少(例如n=3)。也就是说,有限的HiC序列读段证据表明了错误的单倍型(GAT/AGA)的可能性是正确的单倍型(GAA/AGT)的24倍。在3C序列数据中,改善了Vs以定义更多的基因组变体并且因此,引入了变体811和变体975。然而,由于3C模板也仅通过LP而保留了空间邻位邻接性而没有很好地保留分子邻接性,因此在产生新的单倍型相位信息方面没有改善并且因此,即使当鉴定出811和975时,也无法对它们进行定相,并且单倍型定相仍然是错误的。因此,尽管改善了Vs,但是Ha和Hr在3C序列数据中仍然受到限制。(ii)通过保留空间邻位邻接性和分子邻接性这两者(例如通过更长的PL模板和如下文在CPSP-Prep中所论述的其它手段),引入了新的单倍型相位信息并且因此,可以对更多的变体进行定相,并且具有更高的准确度。在本实施例中,保留空间邻位邻接性和分子邻接性这两者通过使得能够对变体811和975进行单倍型定相而改善了Hr,并且此外,改善了Ha,这是因为新的单倍型信息在重要性上是先前的错误预测的>8倍(0.0003对比0.0025)。总体而言,保留空间邻位邻接性和分子邻接性这两者改善了总体单倍型性能,这是CPSP-Prep和CPSP-Seq背后的基本概念。
图9:来自PL方法的连接效率的变化。经消化的nSPNA的连接效率根据PL方法和RE的选择而变化。使用DpnII进行消化而对核酸来源(即GM12878细胞)进行3C或HiC。在TapeStation上分析消化后的nSPNA和连接后的cSPNA以测量平均核酸分子长度(以Kb为单位,x轴)。在(i)中,使用DpnII进行消化并且分析了经消化的nSPNA。在(ii)中,使用DpnII进行消化并且进行HiC,并且分析了MLP(cSPNA)。在(iii)中,使用DpnII进行消化并且进行3C,并且分析了LP(cSPNA)。结果表明基于3C的LP比基于HiC的MLP更长,这表明了3C方法可能表现出更高的连接效率,使得能够在LP内保留更多的邻接性,并且因此对CPSP-Prep更有利。
图10:在核酸模板中空间邻位邻接性的有限保留。(i)来自常规PL模板的序列数据可以将cSPNA分类为告知空间邻位邻接性的组。具体地,cSPNA可以源自于不同的染色体(“反式”)或相同的染色体(“顺式”)。在顺式SPNA内,它们可以被进一步分为线性序列距离大于15Kb的cSPNA(“长顺式”)或线性序列距离在15Kb以内的cSPNA(“短顺式”)。虽然cSPNA的所有分组对于一些应用(例如基因组变体(SNV或结构重排)检测)都是能提供信息的,但是长顺式cSPNA对于邻接性应用(例如靶向区域的单倍型定相或从头组装)是最能提供信息的。为了确定衍生自LP的PL模板保留空间邻位邻接性的程度,我们使用涉及使用HindIII进行限制性酶切消化的已公开的方法31-34制备了LP,继而进行片段化,制备成模板并且进行短读段测序。作为保留空间邻位邻接性的代表,我们询问了有多少分数的读数是长顺式,并且根据公开的PL模板方法,只有约2%的模板是长顺式,这揭示了使用公开的PL工作流程在空间邻位邻接性方面存在缺陷。(ii)使用HindIII对核酸来源(即GM12878细胞)进行消化。在TapeStation上分析消化后的nSPNA以测量平均核酸分子长度(以Kb为单位,x轴)。
图11:通过RE优化中的创新来改善PL核酸模板中空间邻位邻接性的保留。为了增加告知空间邻位邻接性的读数的分数,我们假设使用更频繁切割的RE消化nSPNA可以增加LP内LJ的频率并且进而使得包含LJ并且告知空间邻位邻接性的PL模板的分数更高。我们使用已公开的方法31-34制备了LP,其涉及使用6-切割酶HindIII(与图10中共用的数据相同的数据)或使用4-切割酶RE NlaIII进行限制性酶切消化,继而进行片段化,制备成模板并且进行短读段测序。作为保留空间邻位邻接性的代表,我们询问了有多少分数的读数是长顺式,并且根据使用HindIII的公开的PL模板方法,只有约2%是长顺式,而来自NlaIII的PL模板的约7%是长顺式。这表明了可以通过选择RE来改善空间邻位邻接性信号。
图12:通过染色质溶解度优化中的创新而在PL核酸模板中最佳保留空间邻位邻接 性。为了进一步增加告知空间邻位邻接性的长顺式读数的分数,我们假设在消化和连接之前通过十二烷基硫酸钠(SDS)优化染色质的溶解度可能增加实验效率,从而使得包含LJ并且告知空间邻位邻接性的PL模板的分数更高。我们使用先前提出的4-切割酶RE NlaIII制备了LP,但是在消化之前使用公开的10分钟的SDS处理(REF)时间或40分钟或80分钟的延长处理溶解了染色质。一旦产生了LP,我们就继续进行片段化,制备成模板并且进行短读段测序。作为保留空间邻位邻接性的代表,我们询问了有多少分数的读数是长顺式,并且根据公开的10分钟的SDS处理时间,只有约7%的模板是长顺式,而40分钟的SDS处理将该分数显著增加到约24%,然而,甚至更长的SDS处理时间使得长顺式信号相对减少到约19%。这不仅表明了可以通过染色质溶解度优化来显著改善空间邻位邻接性信号,而且还表明了必须谨慎地进行优化,这是因为过多的SDS处理会减少长顺式信号。总的来说,我们已经将长顺式信号提高到>10倍,即从使用已公开的PL方法的约2%提高到使用优化的RE和染色质溶解度的约24%。
图13:使用NlaIII最佳地保留了PL核酸模板中空间邻位邻接性的保留。为了全面研究在优化染色质溶解度的背景下RE的选择如何影响核酸模板中空间邻位邻接性的保留,我们使用我们优化的SDS处理时间(40分钟),使用多种RE(HindIII、MboI、DpnII)或新型RE组合(DpnII+HinfI)制备了LP,然后进行片段化,制备成模板并且进行短读段测序。作为保留空间邻位邻接性的代表,我们询问了有多少分数的读数是长顺式。虽然我们先前优化的NlaIII制备方法获得了高的长顺式信号(约26%),但是所有其它LP制备方法均实现显著更少的信号,从HindIII的约2%到MboI的约14%不等。重要的是,一种或多种RE消化染色质的频率不一定与长顺式信号有关,这是因为使用多种4-切割酶RE(DpnII+HinfI)没有产生最佳的长顺式信号。这些数据表明了使用NlaIII产生LP独特地制备了核酸模板中邻接性的最佳保留。
图14:使用优化的3C方法制备的LP中的更长分子长度。使用HindIII、MboI或NlaIII以及优化的染色质溶解度生物化学(40分钟)对核酸来源(即GM12878细胞)进行消化,如图13中所述。在TapeStation上分析连接后产生的LP(cSPNA)以测量平均核酸分子长度(以Kb为单位,x轴),并且指示了来自每一种RE的LP。
图15:通过SSPC方法捕获nSPNA的示意图。SSPC方法包括引入外源性固体基质,所述外源性固体基质被通过结合nSPNA来捕获nSPNA的一种或多种表面分子功能化。在所有情况下,将所述固体基质引入到核酸来源(一个或多个细胞、核、核基质(全部或部分),包括一个或多个***固定的石蜡包埋(FFPE)的细胞或核或核基质)中,并且在(i)中,用核酸交联剂对所述固体基质进行功能化以使得所述固体基质的表面与和它物理接触的nSPNA进行化学结合。在(ii)中,首先用亲和纯化标记对核酸来源的核酸进行标记,然后引入被亲和纯化分子功能化的固体基质以使得所述固体基质的表面与和它物理接触的经标记的nSPNA进行化学结合。在(iii)中,用带有条形编码的寡核苷酸的转座酶对固体基质进行功能化,以使得每一个固体基质具有它自己的一组独特条形编码化的寡核苷酸,并且使得在固体基质的表面与nSPNA物理接触时,所述条形编码的寡核苷酸整合到nSPNA中。
图16:在CPSP-Prep内在衍生自来自PL方法的LP的模板中保留空间邻位邻接性和 分子邻接性。在CPSP-Prep的一个方面,使用邻位连接捕获nSPNA(i-ii),产生包含LJ的LP以捕获空间邻位邻接性。接下来,使用两种示例性模式在衍生自LP的CPSP-prep核酸模板中保留分子邻接性。在(iii)中,制备包含LJ的HML核酸模板以保留LP内的分子邻接性和空间邻位邻接性并且通过长读段测序仪器进行测序。HML模板的制备将可能取决于哪种长读段测序仪器(例如Pacific Bioscience、Oxford Nanopore或其它测序仪)将读取HML模板。可选地,在(iv)中,将多个LP进行隔室化并且用隔室特异性分子条形码进行标记(例如描绘了PEP,但是也可以应用其它条形编码方法),片段化并且制备成短核酸模板以进行常规的和主要的短读段测序。所述分子条形码捕获LP内的分子邻接性。例如,推断共有“矩形”条形码的短条形编码的核酸模板源自于相同的LP并且因此保留了分子邻接性,而推断共有“圆形”条形码的条形编码的核酸模板分子源自于相同的LP,但是与矩形条形编码的模板源自于不同的LP。具有星形的CPSP-Prep核酸模板包含LJ,并且因此除了通过条形码保留的分子邻接性之外,还保留了空间邻位邻接性。
图17:在CPSP-Prep内将LP进行隔室化并且通过PEP用分子条形码标记LP的可行 性。使用DpnII或NlaIII,通过3C制备LP。然后,将1ng的HMW gDNA(对照)和LP在微流体液滴中进行隔室化并且通过PEP用分子条形码进行标记。在本实施例中,通过由10X Genomics报道的方法并且使用10X Genomics仪器和耗材建立了隔室化和基于PEP的标记,然而,也可以使用隔室化和标记的替代方法。PEP在同时将靶核酸片段化的过程中标记靶核酸,从而产生约1Kb的预期核酸分子长度。在标记后直接使用凝胶电泳分析经标记的核酸片段的核酸片段长度并且沿y轴绘制。
图18:由标记LP获得的标记产率有限。为了评估将LP进行隔室化并且使用PEP标记LP的可行性,我们使用本领域已知的RE(DpnII)制备了LP并且通过由10X Genomics报道的方法并且使用10X Genomics仪器和耗材对1ng的LP进行了标准的隔室化和标记。作为对照,我们还对1ng的HMW gDNA进行了相同的程序。通过Qubit荧光计测量来自标记LP和对照的核酸片段产率并且将其绘制成与HMW gDNA(对照)相比的通过标记获得的相对核酸片段产率。出乎意料的是,通过DpnII制备的LP的标记产率显著低于HMW gDNA对照,仅达到约2.6%的相对产率并且表明了在隔室化和基于PEP的标记方法中的某处效率低下。这些数据表明,使用非优化方法制备的LP或标准的标记反应条件23,35不适合保留LP内的分子邻接性,这对CPSP-Prep提出了最初的问题。
图19:通过RE和标记持续时间优化来优化CPSP-Prep中由标记来自PL方法的LP而 获得的标记产率的创新。为了提高基于PEP的标记产率,我们假设使用不同RE制备的LP可以具有提高隔室化或标记反应的效率的特性(即诸如具有更长分子长度的LP)。因此,在(i)中,我们使用DpnII或NlaIII制备了LP并且通过由10X Genomics报道的方法并且使用10XGenomics仪器和耗材对1ng的每一种LP进行了基于PEP的标记。作为对照,我们还对1ng的HMW gDNA进行了相同的程序。虽然通过DpnII制备的LP仅达到约2.6%的相对产率,但是通过NlaIII制备的LP将标记产率增加>10倍,达到相对于HMW gDNA对照约29%的产率,但是仍然显著低于所期望的结果。这些数据表明了优化用于产生LP的RE如何可以对隔室化和/或标记具有显著的影响。在(ii)中,我们假设延长标记持续时间可以允许基于PEP的标记反应克服效率低下并且达到所期望的标记产率。为了测试这一点,我们使用NlaIII制备了LP并且使1ng的LP经受了标准的3小时或延长的6小时标记持续时间并且对基于PEP的标记产率进行定量。作为标准3小时标记反应后的预期产率的对照,我们对1ng的HMW gDNA进行了3小时的标记并且绘制了相对于来自3小时HMW gDNA标记的预期产率的来自LP的标记产率。这些数据表明了将标记时间从推荐的3小时延长到6小时将LP标记产率增加到与HMW gDNA对照相当的量,这对于从CPSP-Prep的这些方面获得高质量和复杂的核酸模板来说是一个至关重要的优化。
图20:通过将LP进行隔室化并且使用PEP用分子条形码标记LP在CPSP-Seq中保留 空间邻位邻接性和分子邻接性的可行性。为了确定衍生自LP的条形编码的CPSP-Prep模板是否确实保留了空间邻位邻接性,我们制备了衍生自LP的条形编码的核酸片段作为模板并且通过短读段进行测序以产生CPSP-Seq数据。作为对照,我们在不进行隔室化或标记的情况下使用标准的片段化方法对相同的LP进行了片段化。我们绘制了来自PL模板和CPSP-Prep模板以及来自重复核酸模板制备的序列数据中每一个分组中cSPNA的分数。总体而言,我们证实了对LP进行隔室化和标记在技术上是可行的,这表明了除了保留空间邻位邻接性之外,还能够保留LP内的分子邻接性的潜能,从而为CPSP-Prep奠定了基础。
图21:在CPSP-Prep内在衍生自SSPC产物的模板中保留空间邻位邻接性和分子邻 接性。在CPSP-Prep的一个方面,使用SSPC方法捕获nSPNA以产生cSPNA,从而产生SSPC产物。当没有将条形码作为nSPNA捕获方法的一部分整合(例如图15iii)时,则(i)首先将SSPC产物进行隔室化。在所述方法的一个方面,(ii)通过首先连接包含隔室特异性分子条形码的寡核苷酸而在后续的CPSP-Prep模板中保留了空间邻位邻接性。然后,(iii)通过制备HML模板而在衍生自SSPC产物的CPSP-Prep模板中保留分子邻接性,随后通过长读段测序仪器(例如Pacific Bioscience测序仪)对所述HML模板进行测序。来自这种方法的最终核酸模板在条形码中保留了空间邻位邻接性并且在核酸模板的长度中保留了分子邻接性。在所述方法的另一个方面,(iv)通过将分子条形码整合到隔室化的SSPC产物中(例如PEP或转座)而在后续的CPSP-Prep模板中保留了空间邻位邻接性和分子邻接性。然后(v)将条形编码的片段制备成核酸模板并且通过短读段进行测序。在此,条形编码的CPSP-Prep核酸模板在单个条形码中保留了空间邻位邻接性和分子邻接性这两者。
图22:通过用序列特异性引物标记来进行靶标选择。为了使CPSP-Prep适用于分析靶向核酸,可以在PEP期间使用序列特异性引物标记cSPNA。为了说明所述方法的一个实施例,(i)首先将SSPC产物进行隔室化。在非靶向PEP标记方法中,随机退火引物与隔室中的所有SSPC产物退火并且沿其延伸,并且(iii)将衍生自所有SSPC产物的条形编码片段制备成核酸模板并且进行测序。在靶向PEP标记方法中,(iv)序列特异性退火引物仅与隔室中的靶向SSPC产物退火并且沿其延伸,并且(v)将衍生自那些靶向SSPC产物的条形编码片段制备成核酸模板并且进行测序。在靶向核酸模板和非靶向核酸模板这两者中,条形码仍然保留了空间邻位邻接性和分子邻接性。
图23:分析条形码以在CPSP-Seq中保留分子邻接性。在CPSP-Prep的一些方面,将cSPNA进行隔室化并且用隔室特异性分子条形码标记。在此描绘的实施例(i)是CPSP-Prep的一个实施方案,其中已经通过PL方法捕获了nSPNA而形成LP,随后将所述LP进行隔室化并且用分子条形码标记。一旦已经将条形编码片段制备成模板并且进行测序,就在CPSP-Seq读数的条形码中保留了分子邻接性,并且在包含LJ的读数中保留了空间邻位邻接性。分析CPSP-Seq数据并且利用读数中保留的两种形式的邻接性的一种方式是(ii)使用可能不包含LJ(被描绘为“非嵌合”)的短顺式读数(关于短顺式和长顺式的定义,参见图20的标题)组装LP内每一个邻接的nSPNA以形成重叠群(例如灰色重叠群和黑色重叠群),然后利用包含两个非邻接nSPNA和LJ并且与非嵌合读数共有相同的分子条形码的“嵌合”读数产生重叠群间连接以组装LP。通过非嵌合读数和嵌合读数进行重叠群内和重叠群间组装的组合对于从CPSP-Seq数据中提取最佳的邻接性信息是至关重要的。
具体实施方式
CPSP-PREP和由其获得测序数据(CPSP-SEQ)的详细说明
尽管NGS已经成为用于核酸序列测定的一组主要的方法,但是来自“短读段”方法的测序数据只能测定一部分染色体的毗连的核酸序列(图1,20Kb的最长邻接性)。此外,制备包含保留邻接性的核酸分子的核酸模板而随后对其进行测序使得产生了保留更长邻接性的测序数据(图1,2Mb-11Mb的最长邻接性)。基本上,在核酸模板制备期间维持邻接性允许在由其获得的测序数据中保留邻接性。保留邻接性的测序数据通过使得能够鉴定基因组变体、确定邻接性信息以告知从头基因组组装、将单倍型相位信息解卷积而使得能够全面确定核酸序列,如在保留邻接性的核酸模板中所表现出的那样,这些共同是了解遗传学在生命***中的作用的基础。
在涉及空间邻位连接的方法(在下文中被称为PL方法)中,虽然LP的产生通过连接nSPNA而告知了一种形式的邻接性(即空间邻位邻接性),但是无法很好地捕获另一种关键形式的邻接性。也就是说,LP表现出多种形式的邻接性,一种形式的邻接性通过连接nSPNA的性质而表现,而第二种形式的邻接性在它们的高分子长度(HML)中表现,这是因为LP的尺寸在<1Kb至>60Kb的范围。虽然PL方法捕获了空间邻位邻接性,但是它丧失了分子邻接性,这是因为LP被片段化,然后被制备成核酸模板,然后进行测序(当多个LP被片段化成更短的片段以产生核酸模板时,无法很好地捕获或丧失有关哪个短核酸片段源自于哪个LP的邻接性信息),如图2中所示。
在先前的部分中,我们论述了保留邻接性的模板如何可以产生保留邻接性的测序数据,这使得能够全面确定核酸序列。为了确定核酸序列,需要确定靶向核酸的邻接的核酸序列,包括同源核酸,和鉴定其中的基因组变体。具体地,必须(1)确定邻接核酸序列,理想地是所关注的整个靶向区域或染色体;(2)鉴定所关注的靶向区域内的核酸序列变体(例如单核苷酸变体(SNV)、结构变体(SV)或其它类型的变体);(3)将这样的核酸序列变体归属于它们对应的同源物(即单倍型定相)。在该部分中,我们利用PL工作流程作为产生保留邻接性的模板的手段(通过它保留空间邻位邻接性的固有性质)来证实它确定邻接核酸序列的能力以及如何可以通过除了保留空间邻位邻接性之外还保留分子邻接性以产生CPSP-Seq来对它进行改进。
为了确定邻接核酸序列,PL工作流程必须产生模板(被称作“PL模板”),其中必须表示出靶向区域中的每一个核酸并且任何区域都不能被有意地去除、排除或富集。通过分析从PL模板获得的测序数据,可以询问有多少分数的来自核酸来源的核酸被序列数据表示(被称作“覆盖度”),并且作为覆盖度的代表,可以确定在给定的测序深度下检测到的在靶向区域中表现出的基因组变体(例如SNV)的分数(变体灵敏度;Vs)。在比较来自HiC和3C的PL方法的测序数据时,我们认识到虽然HiC数据产生了有限的Vs,但是3C数据产生了最佳的Vs(图5i)。更具体地,在HiC中,富集了含有LJ的MLP片段并且将其制备成模板并且进行测序(图2iv)并且由于片段化的MLP是约500bp,因此基因组变体必须在消化位点的上游或下游约250bp内以使得它能够在HiC序列数据中被表示出。相反,远离消化位点的基因组变体不太可能在HiC序列数据中被表示出。消化位点的频率越高,可以实现的Vs就越高,实际上,对使用6碱基切割性RE进行消化而产生的HiC数据28的分析揭示了有限的Vs,通过使用4碱基切割性RE产生HiC模板和测序数据,显著地提高了Vs(图4)。然而,即使在约85×测序深度(其是通常的30×深度的3倍)下,来自4-切割酶序列数据的Vs也没有达到>95%的最佳Vs,这表明了即使当以这样高的深度进行测序时,也只有一部分来自核酸来源的核酸在HiC序列数据中被表示出。为了进一步检查来自HiC序列数据的有限的Vs,我们分析了随基因组变体到它们最近的消化位点的距离而变化的Vs(图5i)。远离RE消化位点的基因组变体的Vs显著下降,在距离消化位点恰好250bp处Vs是约20%(图5i)。与HiC模板相反,通过将LP进行片段化来制备3C模板,并且将所有片段化的核酸分子制备成模板以进行测序(图2iii),也就是说,在3C中,没有进行富集以选择LJ的亚群(与在HiC中优先富集具有LJ的MLP的方式不同)。由于在3C模板制备期间没有富集含有LJ的LP片段或对核酸分子进行任何其它排除或富集,因此将所有来自核酸来源的核酸均制备成模板以进行测序。实际上,对约30×测序深度的3C序列数据进行的分析揭示了,Vs不偏向限制性酶切消化位点(图5i)并且产生约95%的Vs(图5ii)。作为PL方法的外部对照,我们在不进行任何邻接性保留的情况下分析了来自Illumina短读段的数据29(被称为全基因组测序(WGS))。总之,虽然HiC从针对含有LJ而富集的MLP片段的子集制备核酸模板而导致有限的Vs,但是3C从来自核酸来源的所有核酸分子制备核酸模板而产生最佳的Vs。
为了了解PL方法确定邻接核酸序列的能力,我们论述了测量邻接性的手段。首先,可以通过测序数据从头组装靶区域的能力来测量核酸的邻接性。也就是说,虽然模板表现出片段化的核酸分子,但是通过从这样的模板获得的测序数据将靶区域组装成它们在片段化之前的天然形式的能力来测量邻接性。在这种背景下,PL方法(特别是HiC)已经被用于从头架构和组装靶区域36-39。测量邻接性的第二种手段是通过单倍型定相的能力。也就是说,需要将所鉴定出的基因组变体(例如SNV)归属于它们对应的同源区域,从而产生可以通过邻接连接的变体的单倍型定义和区分的同源区域。PL方法已经被用于单倍型定相40,41(例如来自这些发明人的PCT/US2014/04724342)。同源区域的单倍型定相可以扩展到从混合宏基因组学样品中对物种和物种的菌株进行解卷积43,44。虽然这些中的每一种都是邻接性的测量方法,但是在随后的段落和部分中,我们采用单倍型定相的方法来说明PL工作流程实现长单倍型和长邻接性的能力和局限性,但是此后的结果、论述和权利要求同样适用于邻接性的所有测量方法和类型。
单倍型定相从鉴定基因组变体开始,然后将它们关联或归属于它们在所关注的整个靶区域或染色体中对应的同源物。单倍型定相可以通过以下各项来测量:基因组变体可以被归属于它们对应的同源染色体的靶向区域核酸序列的跨度(单倍型完整度;Hc);可以被归属于同源染色体的基因组变体的分数(单倍型分辨率;Hr);以及正确归属于它们对应的同源物的基因组变体的分数(单倍型准确度;Ha),并且当Hr>95%并且Ha和Hc>99%时,定义了最佳的邻接性。在分析PL方法(例如3C、HiC)时,我们认识到虽然PL方法产生了最佳的Hc结果,但是它对Hr和Ha的性能相当有限(图6)。PL方法(例如3C和HiC)的关键缺点在于在PL模板中仅捕获了一种形式的邻接性(即空间邻位邻接性),而无法很好地捕获第二种形式的邻接性(即分子邻接性),这是因为在模板制备和测序之前将LP进行了片段化,我们假设这导致了有限的Hr和Ha(图6)。具体地,为了使PL模板告知单倍型定相,它必须表现出至少两个基因组变体,并且如果区分同源物的杂合基因组变体平均每1500个碱基中约有1个出现(例如在一些人类基因组中),则PL模板表现出多个基因组变体的概率会随模板中所表现出的核酸片段的长度而增加。我们假设如果分子邻接性被保留在LP内并且表现在高分子长度PL模板中,则增加模板长度有可能会在序列数据中提供更多的单倍型分析相位信息。例如,如果将LP片段化为2Kb而不是500bp并且制备成模板以进行测序,则显著更多的测序读数(44%,图7i)将告知单倍型定相而产生更高的Hr(图7ii)和更高的Ha(图8)。然而,由于常规的和主要的测序(短读段测序,参见定义部分)只能实现500bp测序,因此在核酸模板中保留分子邻接性和对更长片段进行测序将需要进一步的创新,如以下部分中所论述的那样。总之,在Ha和Hr方面所显示出的改进(图7和图8)是在核酸模板中保留空间邻位形式和分子形式的邻接性的结果。
如前所述,CPSP-Seq的变体灵敏度和单倍型定相能力的改善将使得CPSP-Seq能够改善邻接性的其它手段,如在从头组装靶向区域或宏基因组组装中的菌株解卷积中。此外,由于CPSP-Seq通过LP或通过SSPC产物捕获Nspna(如下所述),因此它告知了靶核酸的构象和拓扑结构。有趣的是,由于结构变异(SV),如结构重排(例如倒位、易位)会干扰构象,因此通过CPSP-Seq测量构象反而会告知结构重排的精确定位,总体上,通过保留空间邻位形式和分子形式的邻接性和构象,CPSP-Seq将可能具有多种应用以全面确定核酸序列和鉴定基因组变体。
CPSP-Prep和由其获得测序数据(CPSP-Seq)的技术说明
如PL模板中所表现出的由PL方法(例如3C和HiC)获得的序列数据(图2)被证实不足以进行全面的序列确定,这由所述数据在鉴定基因组变体(例如SNV)和邻接性应用(例如单倍型定相)方面的有限效用所表明(图4-图8)。PL工作流程的核心工作流程包括(1)通过邻位连接捕获nSPNA以产生LP;和(2)将LP片段化成短核酸片段,将所述短核酸片段制备成模板进行短读段测序。至关重要的是,由于这种工作流程,因此由PL工作流程得到的核酸模板仅捕获一种形式的邻接性,即空间邻位邻接性。然而,单独这种形式的邻接性不足以进行全面的序列确定(图4-图8)。为了特定地克服来自PL工作流程的序列数据中的这些局限性,我们开发了CPSP-Prep。
CPSP-Prep是本文公开的一种新颖方法,其包括制备核酸模板,由此保留空间邻位邻接性和分子邻接性。CPSP-Prep工作流程包括不同的方法,包括(1)使用多种技术捕获nSPNA以产生cSPNA(例如通过PL方法产生LP或通过SSPC方法产生SSPC产物,如下所述),然后是(2)保留cSPNA内的分子邻接性,以及最后是(3)制备核酸模板,所述核酸模板保留了空间邻位邻接性和分子邻接性这两者并且可以根据CPSP-Prep的具体实施方案通过长读段或短读段进行测序。关键的高水平差异在于在CPSP-Prep中,对cSPNA进行保留cSPNA内的分子邻接性的方法,从而使得制备了保留空间邻位邻接性和分子邻接性这两者的核酸模板。
在随后的部分中,我们描述了CPSP-Seq工作流程的每一个步骤。首先,我们描述了与CPSP-Prep相关的方法,其包括所有包括制备核酸模板的实验方法,从描述用于捕获nSPNA的方法开始,继而描述用于在衍生自cSPNA的核酸模板中保留空间邻位邻接性和分子邻接性这两者的方法。我们在此之后描述了如何使CPSP-Prep适应于靶向核酸,这是因为该工作流程可以应用于全基因组或靶向核酸序列确定,如关于CPSP-Seq数据分析策略和应用的最后部分中所述。
在CPSP-Prep中通过形成LP的邻位连接来捕获nSNPA:如上文所述,用于捕获nSPNA以产生cSPNA的一种模式是通过邻位连接,由此通过连接来捕获nSPNA(图2)。对于捕获nSPNA并且产生LP的该第一步骤,可以形成几种类型的核酸分子构型,包括LP、MLP、自连接产物和uLP(图3)。具体地,概念上最简单的LP类型将是2个nSPNA连接并且形成含有两个LJ的LP的结果(图3i)。然而,由于生物物理约束或分子生物学效率低下,并非每一个nSPNA都可以被连接,从而产生uLP,所述uLP是不含LJ的核酸分子(图3ii)。来自邻位连接的另一种核酸构型是自连接,其中单个nSPNA的两个消化末端相互连接(图3iii)。为此,虽然LP通常被示意性地示为环化的LP,但是当并非LP中的所有cSPNA都已经与另外的cSPNA连接时,也可以形成LP,从而引起线性LP的形成(图3iv)。最后且重要的是,LP可以由多于2个连接形成,其中所得的LP在多个cSPNA之间含有多个LJ并且产生具有更大的分子长度的LP(图3v-vi)。总之,通过PL方法产生这些类型的核酸构型的总体,其中关键的区别因素在于在HiC(或HiC衍生技术)中,对LP和uLP进行标记(例如用生物素)以形成MLP(和MuLP)。将这些MLP和MuLP进行片段化并且富集包含LJ的片段并且制备成模板进行测序。在其它PL工作流程中,LP(和uLP)是未标记的并且不经过富集程序,但是经受类似的片段化、模板制备和测序(图2iv)。每一种PL方法都存在某些优点和缺点,在为CPSP-Prep制备LP/MLP时,需要仔细考虑和了解(论述于下文中)。此外,除了用于产生LP的PL方法之外,LP的组成,如经消化的nSPNA的长度、LP长度和每个LP的LJ数量也可能会对CPSP-Prep具有显著的影响,如下文所论述。CPSP-Prep的这个方面(即从通过PL捕获的nSPNA开始)的最佳情况是来自PL方法的LP包含至少1个LJ,这样,通过捕获nSPNA产生cSPNA,每一个LP都告知空间邻位邻接性。如果邻位连接的输出大部分是uLP(图3ii)或自连接的LP(图3iii),则告知了有限的空间邻位邻接性。也就是说,具有更低的连接效率的PL方法可能会产生具有更少LJ的LP而无法很好地保留空间邻位邻接性。相反,具有高连接效率的PL方法将产生具有更多LJ的LP而保留空间邻位邻接性并且此外,更高的连接效率还可以使得能够产生更长的LP,其中随后可以通过随后的部分中所述的方法来保留分子邻接性。因此,CPSP-Prep的这个方面的关键点在于获得最佳的连接效率以保留最佳量的空间邻位邻接性并且产生更长的LP以用于将来保留分子邻接性。为了实现最佳的连接效率,我们进行了逐步创新:(1)我们比较和对比了HiC和3C的当前PL方法以了解它们对连接效率的特性;(2)鉴于PL方法,我们对方法进行创新以产生最佳的连接效率。
由于多种实验参数,因此产生LP的各种PL方法预期具有不同程度的连接效率。例如,3C涉及消化的粘端12(即“粘性末端”)之间的邻位连接,而HiC涉及平端17之间的邻位连接。已知这两种形式的连接具有截然不同的效率并且特别是,假设3C中的粘端连接的效率是10倍至100倍。为了验证这一假设,我们分析了来自经消化的nSPNA的核酸片段长度,并且在邻位连接之后再次分析(图9)。我们观测到经消化的nSPNA具有1.4Kb的长度,这使得由HiC产生2.4Kb的MLP(图9i、图9ii)。也就是说,虽然MLP通过表现出LJ而保留了空间邻位邻接性,但是2.4Kb尺寸的MLP似乎在分子长度上相对较小并且因此,无法显著保留分子邻接性。相反,通过基于3C的PL方法产生的LP产生具有约10Kb的分子长度的LP(与MLP相比增加到4倍),这表明了在3C中nSPNA之间可能存在更多的连接,并且由3C产生的LP可能每个LP具有更多的LJ并且具有整体上更长的LP分子长度(图9iii)。由于3C方法中的粘端连接固有地实现了更高的连接效率,因此3C方法似乎具有一定的能力以保留空间邻位邻接性并且产生更长的LP以随后保留分子邻接性。此外,基于3C的方法(图4)具有上述提高的Vs。
虽然基于3C的方法与基于HiC的方法相比似乎表现出更高的连接效率(图9)并且因此产生更长的LP以使得能够更好地保留分子邻接性,但是由常规的基于3C的方法产生的LP不一定会产生最佳的连接效率以随后保留空间邻位邻接性。因此,使用已公开的方法产生的基于3C的LP不能实现这两种邻接性的最佳保留,从而使它们不适用于CPSP-Prep。为了说明这一点,我们使用3C方法12,32-34制备了LP。具体地,我们使用HindIII产生了经消化的nSPNA,将消化末端连接以形成LP,然后将LP进行片段化以制备核酸模板并且通过短读段进行测序。我们观测到只有约2%的读数是长顺式(告知空间邻位邻接性的度量标准代表),这表明了来自已知3C方法的模板中只有非常小的一部分保留了空间邻位邻接性(图10i)。为了了解为何有这样低分数的读数告知了空间邻位邻接性,我们分析了在HindIII消化后但是在连接前经消化的nSPNA的核酸片段长度,并且观测到经消化的nSPNA是约21Kb(图10ii),并且由于短读段测序对约500bp的核酸模板进行测序,因此21Kb的连接前的经消化的nSPNA只能产生约2%的长顺式。为了提高长顺式分数,我们假设用更频繁切割的RE消化nSPNA可以增加LP内LJ的频率,并且进而增加包含LJ并且保留空间邻位邻接性的核酸模板的分数。为了验证这一假设,我们利用了识别4碱基核酸基序的RE(NlaIII),其消化核酸的频率是HindIII的16倍。我们使用NlaIII制备了3C模板并且通过短读段进行测序并且观测到的长顺式(7%)读数是使用HindIII制备LP时的3倍(图11),这支持了我们的假设。然而,即使是约7%的长顺式,也表明了只有一小部分的模板表现出LJ以保留空间邻位邻接性。为了进一步提高消化和连接效率,我们假设优化的染色质溶解度和解凝将实现更有效的RE消化和连接,进而使得LP中LJ的丰度和频率更大并且随后使得核酸模板中的LJ更多。实际上,通过将染色质增溶和解凝反应从10分钟延长到40分钟,我们观测到长顺式额外增加到>3倍(24%)(即与原始的基于HindIII的LP相比,长顺式增加到10倍)(图12)。重要的是,将染色质增溶和解凝时间进一步增加到80分钟导致长顺式略微减少,因此40分钟似乎是产生最佳长顺式的最佳时间。总体而言,通过创新地结合精心选择RE并且通过最佳的染色质增溶、消化和连接来提高实验效率,我们证实了最佳地保留连接效率并且因此在核酸模板中保留空间邻位邻接性是可行的(图13)。
至关重要的是,这些严格的优化通过侧重于实验参数而实现CPSP-Prep,所述实验参数以未经检查的方式特别有益于CPSP-Prep。总之,我们已经观测到,遵循PL方法(如3C31 -34或HiC28)产生了有限的连接效率并且因此限制了可以保留在衍生自LP的核酸模板中的潜在邻接性,但是我们经过创新优化的PL型式(被论述为对3C的改进)经过了独特的优化而更好地保留空间邻位邻接性并且产生更长的LP。具体地,为了使基于3C的LP适合于CPSP-Prep,我们优化了实验参数以提高长顺式而改善空间邻位邻接性。此外,我们的优化还使得能够产生更长的LP(图14),这进而可以通过随后部分中所述的方法而使得能够更大程度地保留分子邻接性。总之,我们的方法使得能够显著保留空间邻位邻接性并且产生更长的LP而使得能够在核酸模板中保留分子邻接性,从而满足CPSP-Prep的中心目标,例如,本文提供的数据表明了通过NlaIII和最佳的染色质溶解度产生的基于3C的LP有利于最佳地保留空间邻位邻接性,这是因为这些模板优化了长顺式(约24%),而通过MboI和最佳的染色质溶解度产生的基于3C的LP由于LP较长(>60Kb)而有利于实现分子邻接性的保留。本文所述的长顺式和LP长度(图10-图14)的精心优化均是CPSP-Prep的关键方面。例如,使用NlaIII的优化的PL型式优于使用MboI的PL型式,这是因为它极大地优化了长顺式(约26%)并且因此优化了核酸模板中空间邻位邻接性的保留,并且已经被证实产生完整的染色体跨度单倍型,这是最佳邻接性的度量标准(图6i)。尚未证实衍生自基于MboI的LP的核酸模板中降低的长顺式分数(约14%)是否将能够在CPSP-Prep中实现这样完整的邻接性。
在CPSP-Prep中通过SSPC捕获nSNPA并且形成SSPC产物:虽然产生LP是捕获nSPNA以产生cSPNA的一种方法,但是SSPC方法是一种替代方法。SSPC方法通过引入外源性固体基质来告知空间邻位邻接性,所述外源性固体基质通过固体基质以一种形式或另一种形式与一组nSPNA结合来捕获nSPNA以产生cSPNA(图15)。具体地,SSPC方法捕获nSPNA,从而产生SSPC产物,但是捕获nSPNA的模式取决于固体基质的设计,即nSPNA的捕获由固体基质的尺寸和形状以及它的表面分子和特性决定。在SSPC的一个方面,将固体基质(例如珠粒)用核酸交联剂(例如补骨脂素)进行功能化(例如涂布),并且通过nSPNA与固体基质表面之间的化学结合来捕获nSPNA(图15i)。在SSPC的这个方面,每一个单独的固体基质通过结合nSPNA而告知空间邻位邻接性,并且空间邻位邻接性被保留在核酸模板制备期间引入的分子条形码中,如以下部分中所述。在SSPC的另一个方面,首先用亲和纯化标记(例如生物素)来标记核酸来源内的核酸,并且引入被能够结合亲和纯化标记的分子(例如链霉亲和素)功能化的固体基质并且结合标记的nSPNA(图15ii)。类似于上述基于交联的SSPC方法,在该当前方法中空间邻位邻接性也被保留在核酸模板制备期间引入的分子条形码中,如以下部分中所述。在SSPC的另一个方面,将固体基质用带有包含独特分子条形码的寡核苷酸的转座酶进行功能化。在此,将每一个固体基质用负载固体基质特异性分子条形码的转座酶进行功能化。在这种方法中,固体基质与nSPNA物理接触并且表面转座酶将独特条形编码的寡核苷酸整合到nSPNA中(图15iii)。在此,通过由转座酶引入的分子条形码告知空间邻位邻接性。值得注意的是,SSPC的这个方面类似于“虚拟”隔室化(参见定义部分)的概念,但是在概念的应用上不同。具体地,虚拟隔室化是已经应用于保留分子邻接性的技术24,而SSPC方法利用转座酶来捕获和保留空间邻位邻接性。无论捕获nSPNA以产生cSPNA并且形成SSPC产物的SSPC方法如何,CPSP-Prep都独特地引入了第二步骤以保留cSPNA内的分子邻接性,从而最终引起其中保留了空间邻位邻接性和分子邻接性这两者的核酸模板的制备。以下部分假设已经通过PL方法或SSPC方法(如所示)捕获了nSPNA以形成cSPNA,并且它论述了可以从cSPNA中并且随后在CPSP-Prep核酸模板中保留这两种形式的邻接性的手段。
在由PL方法和SSPC方法得到的CPSP-Prep核酸模板中保留空间邻位邻接性和分子 邻接性:在CPSP-Prep的一个方面,在PL方法中通过连接nSPNA形成LP来捕获空间邻位邻接性(图2、图3)。由于这些LP可以具有高的分子长度(<1Kb至>60Kb,参见图14),因此有可能在LP内保留分子邻接性,最终制备保留分子邻接性和空间邻位邻接性这两者的核酸模板(为了解我们的创新如何使得能够保留分子邻接性和空间邻位邻接性,请参见图10-图14)。确实,对LP和后续核酸模板内分子邻接性的保留进行模拟的分析表明了这样做将可能会产生改善的邻接性(图7、图8)。因此,在CPSP-Prep的这些方面,通过制备具有高分子长度(HML)的模板,或通过将LP进行隔室化并且用分子条形码标记LP,由此所得的核酸模板包含保留分子邻接性的条形码,而在由PL方法(例如LP)得到的核酸模板中保留分子邻接性(图16)。无论如何保留分子邻接性(通过长模板或条形码),空间邻位邻接性都保留在包含LJ的模板中,这是因为LJ表现在LP中(而非表现在uLP中),如下文所述。
在CPSP-Prep的一个方面,通过制备由PL方法得到的HML核酸模板来保留分子邻接性,然后可以通过长读段测序仪器(例如Pacific Bioscience测序仪)对所述模板进行测序以产生CPSP-Seq数据。在此,简单地通过所制备的核酸模板的长度而在模板中保留了LP内的分子邻接性,并且在包含来自LP的LJ的模板中保留了空间邻位邻接性(图16iii)。在这种方法中,所述模板可以包含整个LP或源自于LP的HML片段。这种方法的优势在于,分子邻接性和空间邻位邻接性都可能被保留在核酸模板中,而无需后续复杂的实验工作流程(隔室化和标记)或提取分子条形码中保留的分子邻接性信息的分析工具。相反,这种方法的缺点主要关于如何通过长读段测序技术来读取HML核酸模板,在本公开的背景下,我们将测序定义为主要通过对约500bp进行测序的短读段测序仪进行,这是因为它们具有更高的每碱基准确度、可承受的成本和快速的周转时间。然而,HML核酸模板的制备使得需要通过长读段测序仪对这些核酸模板进行测序,所述长读段测序仪目前具有以下局限性:(1)对于准确的基因组变体检测,当前的长读段测序的每碱基准确度是次优的(即被定义为Va的变体准确度是次优的),尽管随着将来长读段技术的能力的提高,这可能会改善;(2)当前的每碱基成本使得长读段测序的成本太高而无法在大型基因组(例如人类)中广泛采用,尽管随着长读段技术的改进,这也可能会改善;(3)一些长读段测序仪器要求一定尺寸的核酸模板(例如Pacific Bioscience测序仪要求约20Kb),即如果LP内的cSPNA>20Kb,则将LP进行片段化为20Kb并且制备用于长读段测序的核酸模板的过程可能会导致空间邻位邻接性和分子邻接性的一定损失。总之,通过PL方法捕获nSPNA以形成LP,并且通过包含整个LP或其HML片段的HML核酸模板和长读段测序来保留LP内的分子邻接性。此外,借助于包含LJ的LP在模板中保留空间邻位邻接性。这种CPSP-Prep工作流程是有利的,这是因为它简单并且在HML模板中直接保留了空间邻位邻接性和分子邻接性这两者,但是由于与长读段测序方法相关的技术约束而在当前的实践中可能会受到限制。
在从LP开始的CPSP-Prep的另一个方面,通过将LP进行隔室化并且用隔室特异性分子条形码标记LP来保留LP内的分子邻接性,这产生了条形编码的核酸片段,其被制备成模板进行测序(图16iv)。在这些方法中,使用PL方法(例如3C、HiC)产生LP,然后进行隔室化以使得每一个隔室中的LP代表亚单倍体量的核酸。一旦LP被隔室化(例如液滴或微量滴定板孔),就将LP用分子条形码标记并且片段化成较短的核酸并且制备成模板进行测序(例如短读段或长读段)。在一些情况下,可以在用分子条形码标记之前将LP进行片段化,但是在其它情况下(图16iv),在片段化之前或在片段化的过程中(例如PEP或转座)用分子条形码标记LP。一旦已经将LP制备成条形编码的核酸模板,就对它们进行测序。在这些方法中,核酸模板中的分子条形码保留了分子邻接性,并且包含来自LP的LJ的条形编码的核酸模板保留了空间邻位邻接性,因此这两种形式的邻接性都被保留在核酸模板中。实际上,我们已经通过对LP进行这种保留分子邻接性的策略并且连同高分子量(HMW)gDNA的对照样品一起证实了成功的度量标准而证实了这种方法的可行性。具体地,我们首先使用DpnII RE进行消化并且使用3C进行连接来制备LP并且对它们进行微流体隔室化并且用分子条形码进行基于PEP的标记,并且已经发现条形编码的核酸片段的长度与由标记HMW gDNA而得到的对照条形编码的核酸片段相似,并且与已公开的文献45一致,这表明了成功的条形编码(图17)。然而,作为证明成功的第二个度量标准,我们测量了来自该初始标记反应的核酸片段产率。典型的PEP标记反应,如用于对照HMW gDNA的PEP标记反应是3小时。惊人的是,来自对使用DpnII RE和3C制备的LP进行标记的核酸片段产率显著低于来自标记HMW gDNA的核酸片段产率(相对于对照HMW gDNA标记,PEP标记产率是约2.6%)(图18)。这样低的标记产率表明了隔室化或标记效率严重受损,并且给CPSP-Prep带来了僵局。我们假设该降低的隔室化或标记效率可能是LP的特性的副产物。我们假设标记具有更长分子长度的LP将产生CPSP-Prep所需的提高的标记产率。因此,从图12-图14中所述的我们的优化中进行学习,我们使用10X Genomics仪器和试剂对我们优化的NlaIII LP(图12、图13)进行隔室化和标记,并且观测到预期的条形编码的片段长度(图17),但是标记产率增加到>10倍(图19i)。即使提高到10倍,相对于对照HMW gDNA标记,来自NlaIII LP标记的产率仍然只是一小分数,因此不适于CPSP-Prep。为了提高产率,我们优化了标记反应本身,并且延长了标记反应的持续时间。通过将用于NlaIII LP的标记反应持续时间延长一倍,我们观测到标记产率另外增加到4倍或5倍,从而与DpnII LP的初始标记相比,总体上将标记产率总共增加到约50倍,从而产生适用于CPSP-Prep的方案(图19ii)。总体而言,常规的标记反应对于处理LP来说不是最佳的并且必须通过延长持续时间来进行创新性的优化以实现必要的产率。
最后,PL方法告知了空间邻位并且引起保留空间邻位邻接性的核酸模板的制备。作为成功的最终评估,我们将衍生自LP的条形编码的核酸片段制备成核酸模板并且通过短读段进行测序。我们然后询问通过邻位连接形成LP而捕获的空间邻位信息是否保留在CPSP-Seq读数中。实际上,我们观测到与常规的PL工作流程(例如3C)序列数据相比,CPSP-Seq数据含有相似的空间邻位信息(图20),这表明了空间邻位邻接性在分子条形编码后保留在条形编码的核酸模板中。与上述的先前的HML模板和长读段测序方法相比,CPSP-Prep的这个方面的关键优势在于:(1)非常大(>60Kb)的LP的分子条形编码可能使得能够保留LP内更多的分子邻接性,这是因为一些长读段测序技术要求特定的核酸模板长度(例如Pacific Bioscience测序仪要求20Kb)进行测序;(2)使用分子条形码和短读段测序的核酸模板制备得益于短读段测序的低成本的经济性和高的每碱基准确度。相比之下,CPSP-Prep的这个方面的缺点可能有很多:(1)隔室化在实验上是高成本的或繁重的,这是因为它可能需要精密的设备(例如液滴形成)或涉及将LP稀释到一个或多个微量滴定板的几十个或几百个孔中的繁琐的工作流程;(2)标记也有本领域中表现出的几个已知的缺点,这取决于标记方法。例如,通过转座酶进行的条形编码的寡核苷酸的转座以这样的方式发生,所述方式使得只有最多50%的条形编码的核酸片段被制备成准备用于测序的核酸模板21,24,46。如果应用于CPSP-Prep,那么每一个LP的预期50%的最小损失将可能导致所得的核酸模板中分子邻接性和空间邻位邻接性这两者的显著损失。其它标记方法涉及在某种核酸扩增方法(如PEP)中用分子条形码标记。PEP在标记反应期间可能会受到序列偏好性和其它实验缺点的困扰,从而导致只有一部分的靶核酸被制备成核酸模板进行测序。例如,最近的出版物35已经估计只有约30%的靶核酸被制备成核酸模板并且进行测序。总之,在该特定的CPSP-Prep工作流程中,通过邻位连接来捕获nSPNA以形成LP,并且通过将LP进行隔室化并且用分子条形码标记LP来保留LP内的分子邻接性,以这样的一种方式使得所得的条形编码的核酸模板在条形码中保留分子邻接性,此外还保留空间邻位邻接性,这是因为条形编码的模板由包含LJ的LP形成。
在CPSP-Prep的一个方面,代替通过邻位连接来告知空间邻位,一种替代的方法是设计被一种或多种分子功能化的外源性固体基质以结合并且捕获nSPNA而以离散方式产生cSPNA,即本文公开的并且被称作固体基质介导的邻位捕获(SSPC)的方法(图15)。重要的是,这些SSPC方法中的大多数仅捕获nSPNA(图15i和图15ii)以产生SSPC产物,这仅代表中间步骤并且需要进一步的方法来在核酸模板中保留空间邻位邻接性。与从LP开始以保留空间邻位邻接性并且仅使用条形编码来保留分子邻接性的CPSP-Prep的方面不同,即使是为了在核酸模板中保留空间邻位邻接性,大多数SSPC产物也需要隔室化和分子条形编码。实际上,SPPC方法的一些变化方案使用相同的条形码来保留空间邻位邻接性和分子邻接性这两者(下文所述)。非常重要的是,从LP产物开始的CPSP-Prep和从SSPC产物开始的CPSP-Prep之间的根本区别在于可以在单个核酸分子(例如LP)内捕获来自PL方法的空间邻位信息,这意味着单个模板分子可以保留空间邻位邻接性。与之形成鲜明对比的是,由于SSPC产物是一组离散的cSPNA,因此没有单个的cSPNA可以告知空间邻位。因此,保留空间邻位邻接性的唯一方式是保留有关哪一组nSPNA与共同的固体基质结合并且被其捕获的信息。该问题的解决方案是将与共同的固体基质结合的cSPNA进行隔室化并且用独特的隔室特异性分子条形码对其进行标记(图21ii和图21iv)。因此,可以使用所述分子条形码来推断哪些cSPNA与共同的固体基质结合,从而在核酸模板中保留空间邻位邻接性(图21iii和图21v)。例如,可以将条形编码的寡核苷酸连接到隔室化的SSPC产物的末端(图21ii)。一旦将这些条形码引入到SSPC产物的末端,随后就可以将SSPC产物制备成HML模板以进行长读段测序。所得的模板通过作为HML模板的性质而保留了分子邻接性,并且通过分子条形码保留了空间邻位邻接性(图21iii)。作为替代方法,可以使用标记方法(即PEP、转座)来标记隔室化的SSPC产物(图21iv)。一旦已经将条形编码的核酸片段制备成核酸模板(图21v),模板内的单个条形码序列现在就保留了空间邻位邻接性,这是因为与共同的固体基质结合的所有cSPNA都将共有共同的条形码;并且保留了分子邻接性,这是因为衍生自单个cSPNA的所有条形编码的核酸模板都将共有共同的条形码。例如,在图13v中,黑色核酸模板之间共有的“圆形”条形码告知了黑色cSPNA内的分子邻接性(图21iv)。黑色、白色和灰色核酸模板中相同的“圆形”条形码序列保留了黑色、白色和深灰色cSPNA之间的空间邻位邻接性(图13iv)。
在CPSP-Prep模板中靶向核酸的方法:上述实施方案包括用于从靶核酸制备核酸模板的方法,其中所述靶核酸源自于核酸来源的所关注的任何靶区域或整个基因组(其中定义了每条染色体的邻接性,包括同源核酸)。为了将CPSP-Prep用于所关注的靶区域,可以在整个CPSP-Prep中的各个阶段进行靶标富集和选择程序,如在标记反应期间,或在已经通过CPSP-Prep制备了核酸模板之后,但是在测序之前。
在CPSP-Prep的所有方面,制备了最终的核酸模板,其保留了空间邻位邻接性和分子邻接性,并且准备进行测序。例如,制备靶向核酸模板的方法是通过对核酸模板应用寡核苷酸杂交和亲和纯化47(例如生物素化的寡核苷酸和链霉亲和素珠粒)。为了将这样的方法应用于通过CPSP-Prep制备的核酸模板,可以设计寡核苷酸(也被称作“探针”),其与靶向核酸区域反向互补并且与亲和纯化标记(例如生物素)结合。然后将所述探针与CPSP-Prep模板杂交,然后使用亲和纯化来纯化探针:模板双链体,从而产生仅包含靶向核酸,但是仍告知空间邻位邻接性和分子邻接性的富集的核酸模板。虽然杂交和亲和纯化是最常见的方法,但是在CPSP-Prep期间可以利用用于靶标富集的其它方法。例如,在CPSP-Prep的一些实施方案中,可以在PEP标记反应期间发生靶标富集(图16和图21)。并不是使用随机退火引物而使得大多数的靶核酸可以通过PEP标记并且制备成模板进行测序,而是可以设计条形编码的引物以使得一个或多个引物退火序列是靶核酸的一个或多个特定区域的反向互补序列(图22)。通过这种设计,条形编码的引物将仅与和引物退火序列反向互补的靶核酸退火,并且因此,只有靶向核酸将被分子条形码标记并且被制备成模板进行测序。使用先前对于CPSP-Prep模板所述的相同的原理,最终的条形编码的核酸模板将仍然保留空间邻位邻接性和分子邻接性(图16和图21)。
用于CPSP-Seq数据分析的方法:在CPSP-Prep的一些方面,在HML模板中保留分子邻接性和空间邻位邻接性,并且使用长读段测序直接且准确地确定其邻接核酸序列,而在CPSP-Prep的其它方面,使用以分子条形码进行标记来保留cSPNA内的分子邻接性,并且使用短读段测序对所得的条形编码的短核酸模板进行测序。为了提取和利用如模板中所表现出的保留在序列读数中的分子邻接性信息,必须使用条形码将靶核酸区域组装成它们在标记和片段化之前的天然形式。在其中天然形式是长邻接核酸分子的情况下(例如在SSPC产物中),可能会使用已知的工具35,48。然而,在其中天然形式是非邻接的人工连接的核酸分子(即在cSPNA之间包含多个嵌合LJ的LP)的情况下,已知的工具可能会有缺陷。这是因为这些工具期望邻接的靶核酸,长度通常在50Kb-100Kb的范围。LP偏离了这一期望,这是因为通过PL方法捕获的nSPNA可能是线性不邻接且远离的,并且具有广泛范围的线性距离(<1Kb至>200Mb)或甚至源自于不同的染色体。在此独特的挑战在于将单个不邻接的LP组装成它们在标记之前的天然形式。该问题的一种解决方案是新颖的“嵌合感知”LP组装算法(图23)。简单地说,我们提议利用德布莱英图(de bruijn graph)原理49以基于条形编码的读数中所表现出的条形码和重叠信息将每一个LP内的邻接nSPNA组装(图23)成邻接性块(图23ii,“非嵌合”)。从该初始步骤中排除非邻接nSPNA(例如含有连接接合点的“嵌合”短读数)是关键的,这是因为这样的嵌合读数违反了这样的假设,即短读段之间的重叠碱基和共有的条形码源自于单个邻接靶核酸区域,实际上,这样的嵌合体表现出非邻接的连接接合点。在最初产生邻接性块之后,然后可以使用条形编码的嵌合读段来组装源自于单个LP的非邻接块(图23iii)。为使这种方法起作用,至关重要的是,对于LP中的所有核酸,每碱基覆盖度高,如核酸模板中所表现出的那样,具体地,如果包含LJ的嵌合读数在测序读数中遗漏或无法很好地表示,则单个LP的整体的组装就会变得具有挑战性。在这种情况下,仅可以确定部分LP序列。分析条形编码的CPSP-Seq数据的最后考虑因素是两个同源靶核酸区域最终出现在同一隔室中并且因此表现出相同条形码的固有概率。这个问题取决于有多少DNA被划分到每一个隔室中和基因组尺寸,并且是需要隔室化和分子条形编码的方法的已知缺点。总体而言,从上述分析或以其它方式从CPSP-Seq数据中重建cSPNA(全部或部分)可以告知靶核酸的单倍型相位和邻接性的其它测量结果,如靶核酸的从头组装以及物种和亚菌株的宏基因组组装。此外,由于重建cSPNA还告知了靶核酸的空间构象,因此如前所述,诸如构象和拓扑结构研究以及结构重排分析(例如基因融合)的另外的应用是可行的。
参考文献
1 Hayden,E.C.Technology:The$1,000genome(技术:$1,000基因组),Nature507,294-295,doi:10.1038/507294a(2014)。
2 Kayser,M.和de Knijff,P.Improving human forensics through advancesin genetics,genomics and molecular biology(通过遗传学、基因组学和分子生物学的进步来改进人类法医学),Nature reviews.Genetics 12,179-192,doi:10.1038/nrg2952(2011)。
3 Lander,E.S.等,Initial sequencing and analysis of the human genome(人类基因组的初始测序和分析),Nature 409,860-921,doi:10.1038/35057062(2001)。
4 Padmanabhan,R.,Mishra,A.K.,Raoult,D.和Fournier,P.E.Genomics andmetagenomics in medical microbiology(医学微生物学中的基因组学和宏基因组学),Journal of microbiological methods 95,415-424,doi:10.1016/j.mimet.2013.10.006(2013)。
5 Ronald,P.C.Lab to farm:applying research on plant genetics andgenomics to crop improvement(实验室到农场:将植物遗传学和基因组学研究应用于作物改良),PLoS biology 12,e1001878,doi:10.1371/journal.pbio.1001878(2014)。
6 Shendure,J.和Lieberman Aiden,E.The expanding scope of DNAsequencing(DNA测序范围扩大),Nature biotechnology 30,1084-1094,doi:10.1038/nbt.2421(2012)。
7 Venter,J.C.等,The sequence of the human genome(人类基因组序列),Science 291,1304-1351,doi:10.1126/science.1058040(2001)。
8 Wang,L.,McLeod,H.L.和Weinshilboum,R.M.Genomics and drug response(基因组学和药物反应),The New England journal of medicine 364,1144-1153,doi:10.1056/NEJMra1010600(2011)。
9Yang,Y.,Xie,B.和Yan,J.Application of next-generation sequencingtechnology in forensic science(下一代测序技术在法医学中的应用),Genomics,proteomics&bioinformatics 12,190-197,doi:10.1016/j.gpb.2014.09.001(2014)。
10 Cremer,T.和Cremer,M.Chromosome territories(染色体领域),Cold SpringHarbor perspectives in biology 2,a003889(2010)。
11 Williamson,I.等,Spatial genome organization:contrasting views fromchromosome conformation capture and fluorescence in situ hybridization(空间基因组组织:来自染色体构象捕获和荧光原位杂交的截然不同的观点),Genes&development28,2778-2791(2014)。
12 Dekker,J.,Rippe,K.,Dekker,M.和Kleckner,N.Capturing chromosomeconformation(捕获染色体构象),Science 295,1306-1311(2002)。
13 Simonis,M.等,Nuclear organization of active and inactive chromatindomains uncovered by chromosome conformation capture-on-chip(4C)(通过芯片上染色体构象捕获(4C)而揭示的活性和非活性染色质结构域的核组织),Nature genetics 38,1348-1354(2006)。
14 De Laat,W.和Grosveld,F.(Google Patents,2014)。
15 Dostie,J.等,Chromosome Conformation Capture Carbon Copy(5C):amassively parallel solution for mapping interactions between genomic elements(染色体构象捕获碳拷贝(5C):用于绘制基因组元件之间的相互作用的大规模并行解决方案),Genome research 16,1299-1309(2006)。
16 Dekker,J.和Dostie,J.(Google Patents,2017)。
17 Lieberman-Aiden,E.等,Comprehensive mapping of long-rangeinteractions reveals folding principles of the human genome(长距离相互作用的全面绘图揭示了人类基因组的折叠原理),Science 326,289-293(2009)。
18 Dekker,J.等,(Google Patents,2016)。
19 Kalhor,R.,Tjong,H.,Jayathilaka,N.,Alber,F.和Chen,L.Genomearchitectures revealed by tethered chromosome conformation capture andpopulation-based modeling(通过系链式染色体构象捕获和基于群体的建模而揭示的基因组结构),Nature biotechnology 30,90-98(2012)。
20 Chen,L.和Kalhor,R.(Google Patents,2010)。
21 Adey,A.等,In vitro,long-range sequence information for de novogenome assembly via transposase contiguity(通过转座酶邻接性进行从头基因组组装的体外长距离序列信息),Genome research 24,2041-2049(2014)。
22 Amini,S.等,Haplotype-resolved whole-genome sequencing bycontiguity-preserving transposition and combinatorial indexing(通过保留邻接性的转座和组合标引进行的单倍型分辨的全基因组测序),Nature genetics46,1343-1349(2014)。
23 Zheng,G.X.等,Haplotyping germline and cancer genomes with high-throughput linked-read sequencing(使用高通量连锁读段测序对生殖系和癌症基因组进行单倍型分析),Nature biotechnology 34,303-311(2016)。
24 Zhang,F.等,Haplotype phasing of whole human genomes using bead-based barcode partitioning in a single tube(在单个管中使用基于珠粒的条形码划分对整个人类基因组进行单倍型定相),Nature biotechnology 35,852-857(2017)。
25 Zook,J.M.等,Extensive sequencing of seven human genomes tocharacterize benchmark reference materials(对七个人类基因组进行广泛测序以表征基准参考材料),Scientific data 3(2016)。
26 McKenna,A.等,The Genome Analysis Toolkit:a MapReduce framework foranalyzing next-generation DNA sequencing data(基因组分析工具包:用于分析下一代DNA测序数据的MapReduce框架),Genome research 20,1297-1303(2010)。
27 Eberle,M.A.等,Areference data set of 5.4million phased humanvariants validated by genetic inheritance from sequencing a three-generation17-member pedigree(通过对三代17人谱系进行测序通过基因遗传验证的540万个定相的人类变体的参考数据集),Genome research 27,157-164(2017)。
28 Rao,S.S.等,A3D map of the human genome at kilobase resolutionreveals principles of chromatin looping(在千碱基分辨率下人类基因组的3D图谱揭示了染色质环化的原理),Cell 159,1665-1680,doi:10.1016/j.cell.2014.11.021(2014)。
29 DePristo,M.A.等,A framework for variation discovery and genotypingusing next-generation DNA sequencing data(使用下一代DNA测序数据进行变异发现和基因分型的框架),Nature genetics 43,491-498(2011)。
30 Edge,P.,Bafna,V.和Bansal,V.HapCUT2:robust and accurate haplotypeassembly for diverse sequencing technologies(HapCUT2:用于不同测序技术的稳健且准确的单倍型组装),Genome research 27,801-812(2017)。
31 Naumova,N.,Smith,E.M.,Zhan,Y.和Dekker,J.Analysis of long-rangechromatin interactions using Chromosome Conformation Capture(使用染色体构象捕获来分析长距离染色质相互作用),Methods 58,192-203(2012)。
32 Tolhuis,B.,Palstra,R.-J.,Splinter,E.,Grosveld,F.和de Laat,W.Looping and interaction between hypersensitive sites in the activeβ-globinlocus(活性β-珠蛋白基因座中的超敏位点之间的环化和相互作用),Molecular cell 10,1453-1465(2002)。
33 Soler,E.等,The genome-wide dynamics of the binding ofLdb1complexes during erythroid differentiation(红系分化期间Ldb1复合物的结合的全基因组动力学),Genes&development 24,277-289(2010)。
34 Stadhouders,R.等,Dynamic long-range chromatin interactions controlMyb proto-oncogene transcription during erythroid development(动态长距离染色质相互作用控制红系发育期间的Myb原癌基因转录),The EMBO journal 31,986-999(2012)。
35 Weisenfeld,N.I.,Kumar,V.,Shah,P.,Church,D.M.和Jaffe,D.B.Directdetermination of diploid genome sequences(二倍体基因组序列的直接确定),Genomeresearch 27,757-767(2017)。
36 Dudchenko,O.等,De novo assembly of the Aedes aegypti genome usingHi-C yields chromosome-length scaffolds(使用Hi-C进行埃及伊蚊基因组的从头组装产生染色体长度的支架),Science 356,92-95(2017)。
37 Bickhart,D.M.等,Single-molecule sequencing and chromatinconformation capture enable de novo reference assembly of the domestic goatgenome(单分子测序和染色质构象捕获实现家山羊基因组的从头参考组装),Naturegenetics 49,643-650(2017)。
38 Kaplan,N.和Dekker,J.High-throughput genome scaffolding from invivo DNAinteraction frequency(来自体内DNA相互作用频率的高通量基因组架构),Nature biotechnology 31,1143-1147(2013)。
39 Burton,J.N.等,Chromosome-scale scaffolding of de novo genomeassemblies based on chromatin interactions(基于染色质相互作用的从头基因组组装的染色体规模架构),Nature biotechnology 31,1119-1125(2013)。
40 Selvaraj,S.,J,R.D.,Bansal,V.和Ren,B.Whole-genome haplotypereconstruction using proximity-ligation and shotgun sequencing(使用邻位连接和鸟枪法测序进行全基因组单倍型重建),Nature biotechnology 31,1111-1118,doi:10.1038/nbt.2728(2013)。
41 Selvaraj,S.,Schmitt,A.D.,Dixon,J.R.和Ren,B.Complete haplotypephasing of the MHC and KIR loci with targeted HaploSeq(使用靶向HaploSeq对MHC和KIR基因座进行完全单倍型定相),BMC genomics 16,900,doi:10.1186/s12864-015-1949-7(2015)。
42 Ren,B.,Selvaraj,S.和Dixon,L.(Google Patents,2014)。
43 Beitel,C.W.等,Strain-and plasmid-level deconvolution of asynthetic metagenome by sequencing proximity ligation products(通过对邻位连接产物进行测序来对合成宏基因组进行菌株和质粒水平的解卷积),PeerJ 2,e415(2014)。
44 Burton,J.N.,Liachko,I.,Dunham,M.J.和Shendure,J.Species-leveldeconvolution of metagenome assemblies with Hi-C-based contact probabilitymaps(使用基于Hi-C的接触概率图对宏基因组组装进行物种水平的解卷积),G3:Genes,Genomes,Genetics 4,1339-1346(2014)。
45 Genomics,X.Genome Reagent Kis v2 User Guide(基因组试剂盒v2用户指南)。
46 Adey,A.等,Rapid,low-input,low-bias construction of shotgunfragment libraries by high-density in vitro transposition(通过高密度体外转座对鸟枪法片段文库进行快速的低输入的低偏好性的构建),Genome biology11,R119(2010)。
47 Gnirke,A.等,Solution hybrid selection with ultra-longoligonucleotides for massively parallel targeted sequencing(使用超长寡核苷酸进行溶液杂交体选择以进行大规模平行靶向测序),Nature biotechnology27,182-189(2009)。
48 Zheng,G.X.等,Haplotyping germline and cancer genomes using high-throughput linked-read sequencing(使用高通量连锁读段测序对生殖系和癌症基因组进行单倍型分析),Nature biotechnology 34,303(2016)。
49 Compeau,P.E.,Pevzner,P.A.和Tesler,G.How to apply de Bruijn graphsto genome assembly(如何将德布莱英图应用于基因组组装),Nature biotechnology 29,987-991(2011)。
下文提供了所述技术的某些实施方案的非限制性实例。
A1.一种用于制备文库核酸模板的方法,其包括:
使分离的核酸与固相元件接触,所述接触在所述固相元件与所述分离的核酸之间产生复合物;和
使所述复合物与一种或多种试剂反应,所述一种或多种试剂:
将所述复合物隔室化到隔室中,从而提供隔室化的复合物;并且
将所述隔室化的复合物的核酸进行片段化并且将条形码寡核苷酸连接到所述隔室化的复合物的所述核酸上以产生条形编码的模板核酸,其中:
所述隔室之一中的所述条形编码的模板核酸中的所述条形码寡核苷酸与其它隔室中的所述条形编码的模板核酸中的所述条形码寡核苷酸不同,并且
所述条形码寡核苷酸中的条形码保留了所述复合物的分离的核酸的空间邻位邻接性信息或保留了其空间邻位邻接性信息和分子邻接性信息。
A2.实施方案A1的方法,其中所述分离的核酸包含染色质。
A3.实施方案A1或A2的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
A4.实施方案A1至A3中任一个的方法,其中所述分离的核酸是从一个或多个细胞中获得的。
A4.1.实施方案A1至A3中任一个的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
A5.实施方案A1至A3中任一个的方法,其中所述分离的核酸是从核中获得的。
A6.实施方案A1至A3中任一个的方法,其中所述分离的核酸是从核基质中获得的。
A7.实施方案A1至A6中任一个的方法,其中所述复合物包含25Kb或更大的分离的核酸。
A7.1.实施方案A1至A6中任一个的方法,其中所述复合物包含大于60Kb的分离的核酸。
A8.实施方案A1至A7.1中任一个的方法,其中所述固相元件是珠粒。
A9.实施方案A1至A8中任一个的方法,其中所述固相元件包含核酸交联剂。
A10.实施方案A1至A8中任一个的方法,其中所述固相元件包含亲和纯化分子。
A11.实施方案A10的方法,其中所述分离的核酸用亲和纯化标记进行标记。
A12.实施方案A1至A7.1中任一个的方法,其中所述进行片段化并且连接条形码寡核苷酸的一种或多种试剂将所述复合物进行虚拟隔室化。
A13.实施方案A12的方法,其中所述固相元件包含所述进行片段化并且连接条形码寡核苷酸的一种或多种试剂。
A14.实施方案A13的方法,其中所述进行片段化并且连接条形码寡核苷酸的一种或多种试剂包含具有独特条形编码的寡核苷酸的转座子和转座酶。
A15.实施方案A14的方法,其中所述转座酶是Tn5。
A16.实施方案A1至A11中任一个的方法,其中将所述复合物进行隔室化的所述一种或多种试剂包括产生微流体液滴的微流体隔室化装置。
A17.实施方案A1至A11中任一个的方法,其中将所述复合物进行隔室化的所述一种或多种试剂包括其中稀释了复合物的微量滴定板孔。
A18.实施方案A1至A11、A16和A17中任一个的方法,其中在核酸扩增反应中将条形码寡核苷酸整合到所述隔室化的复合物的分离的核酸中。
A18.1.实施方案A1至A11、A16和A17中任一个的方法,其中在扩增反应中扩增所述隔室化的复合物的分离的核酸并且将条形码连接到所述扩增的核酸上。
A19.实施方案A1至A11、A16和A17中任一个的方法,其中将所述隔室化的复合物的核酸进行片段化并且通过引物延伸聚合(PEP)连接条形码寡核苷酸以产生条形编码的模板核酸。
A20.实施方案A19的方法,其中所述引物延伸聚合(PEP)进行3小时或更长的时间段。
A21.实施方案A20的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
A22.实施方案A19至A21中任一个的方法,其中所述引物延伸聚合(PEP)包括随机引物。
A23.实施方案A1至A11、A16和A17中任一个的方法,其中将所述隔室化的复合物的核酸进行片段化并且通过连接将所述条形码寡核苷酸连接到所述片段化的核酸上。
A24.实施方案A1至A23中任一个的方法,其中作为长顺式模板的所述条形编码的模板的分数大于2%。
A25.实施方案A24的方法,其中所述分数大于5%。
A26.实施方案A25的方法,其中所述分数大于10%。
A27.实施方案A26的方法,其中所述分数大于15%。
A28.实施方案A27的方法,其中所述分数大于20%。
A29.实施方案A28的方法,其中所述分数大于25%。
A30.实施方案A19至A21中任一个的方法,其中通过引物延伸聚合(PEP)针对特定的靶标富集所述隔室化的复合物中的分离的核酸,所述引物延伸聚合包括与所述分离的核酸中的特定靶多核苷酸特异性杂交的引物。
A31.实施方案A1至A29中任一个的方法,其中针对特定的靶多核苷酸富集所述条形编码的模板。
A32.实施方案A31的方法,其中通过亲和纯化来富集条形编码的模板。
A33.实施方案A32的方法,其中所述亲和纯化包括连接到与所述特定的靶多核苷酸杂交的靶标特异性寡核苷酸上的亲和纯化分子。
A34.实施方案A30至A33中任一个的方法,其中所述特定的靶多核苷酸包含基因座或其部分。
A35.实施方案A30至A33中任一个的方法,其中所述特定的靶多核苷酸包含基因或其部分。
A36.实施方案A30至A33中任一个的方法,其中所述特定的靶多核苷酸包含外显子组或其部分。
A37.实施方案A1至A36中任一个的方法,其包括使用测序仪对所述条形编码的模板进行测序,产生约2千碱基或更大的序列读段。
A38.实施方案A1至A36中任一个的方法,其包括使用测序仪对所述条形编码的模板进行测序,产生约500个碱基或更少的序列读段。
A39.实施方案A37或A38的方法,其中以30×或更小的测序深度产生所述序列读段。
A40.实施方案A37至A39中任一个的方法,其包括部分地基于所述条形码寡核苷酸中的条形码序列的序列读段来确定邻接性信息。
A41.实施方案A40的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
A42.实施方案A40的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
A43.实施方案A40的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
A44.实施方案A40的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
A45.实施方案A40的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
A46.实施方案A45的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
B1.一种用于制备文库核酸模板的方法,其包括:
使分离的核酸与第一组试剂反应,产生邻位连接的核酸分子;和
使所述邻位连接的核酸分子与第二组试剂反应,所述试剂:
将所述邻位连接的核酸分子隔室化到隔室中,从而提供隔室化的核酸;
将所述隔室化的核酸分子进行片段化并且将条形码寡核苷酸连接到所述隔室化的核酸分子上以产生条形编码的模板,其中连接到所述隔室之一中的所述条形编码的模板上的所述条形码寡核苷酸与连接到其它隔室中的所述条形编码的模板上的所述条形码寡核苷酸不同,并且所述条形码寡核苷酸中的条形码保留了邻位连接的分子的分子邻接性信息。
B2.实施方案B1的方法,其中所述分离的核酸包含染色质。
B3.实施方案B1或B2的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
B4.实施方案B1至B3中任一个的方法,其中所述分离的核酸是从细胞中获得的。
B4.1.实施方案B1至B3中任一个的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
B5.实施方案B1至B3中任一个的方法,其中所述分离的核酸是从核中获得的。
B6.实施方案B1至B3中任一个的方法,其中所述分离的核酸是从核基质中获得的。
B7.实施方案B1至B6中任一个的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
B7.1.实施方案B1至B6中任一个的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
B8.实施方案B1至B7.1中任一个的方法,其中作为长顺式模板的所述条形编码的模板的分数大于2%。
B9.实施方案B8的方法,其中所述分数大于5%。
B10.实施方案B9的方法,其中所述分数大于10%。
B11.实施方案B10的方法,其中所述分数大于15%。
B12.实施方案B11的方法,其中所述分数大于20%。
B13.实施方案B12的方法,其中所述分数大于25%。
B14.实施方案B1至B13中任一个的方法,其中所述第一组试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
B15.实施方案B14的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS)。
B16.实施方案B14或B15的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是小于80分钟。
B17.实施方案B14至B16中任一个的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
B18.实施方案B1至B13中任一个的方法,其中所述第一组试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述条形编码的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
B19.实施方案B18的方法,其中所述优化的限制性内切酶是NlaIII。
B20.实施方案B1至B13中任一个的方法,其中所述第一组试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述条形编码的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
B21.实施方案B20的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且所述优化的限制性内切酶是NlaIII。
B22.实施方案B1至B21中任一个的方法,其中所述将所述邻位连接的核酸分子进行隔室化的一种或多种试剂包括产生微流体液滴的微流体隔室化装置。
B23.实施方案B1至B21中任一个的方法,其中将所述邻位连接的核酸分子进行隔室化的所述一种或多种试剂包括其中稀释了复合物的微量滴定板孔。
B24.实施方案B1至B23中任一个的方法,其中在核酸扩增反应期间将条形码整合到所述隔室化的核酸中。
B24.1.实施方案B1至B23中任一个的方法,其中在扩增反应中扩增所述隔室化的核酸并且将条形码连接到所述扩增的核酸上。
B25.实施方案B1至B23中任一个的方法,其中将所述隔室化的核酸进行片段化并且通过引物延伸聚合(PEP)连接条形码寡核苷酸以产生条形编码的模板核酸。
B26.实施方案B25的方法,其中与不使用优化的限制性内切酶时相比,使用优化的限制性内切酶产生邻位连接的分子产生了更大百分比的与条形码寡核苷酸连接的隔室化的核酸分子。
B27.实施方案B26的方法,其中所述优化的限制性内切酶是NlaIII。
B28.实施方案B26的方法,其中与使用DpnII限制性内切酶或等同的酶时相比,使用优化的限制性内切酶产生邻位连接的分子产生了更大百分比的与条形码寡核苷酸连接的隔室化的核酸分子。
B29.实施方案B26至B28中任一个的方法,其中所述引物延伸聚合(PEP)进行3小时或更长的时间段。
B30.实施方案B29的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
B31.实施方案B25至B30中任一个的方法,其中所述引物延伸聚合(PEP)包括随机引物。
B32.实施方案B1至B23中任一个的方法,其中将所述隔室化的核酸进行片段化并且使用具有独特条形编码的寡核苷酸的转座子和转座酶连接条形码寡核苷酸。
B33.实施方案B32的方法,其中所述转座酶是Tn5。
B34.实施方案B1至B23中任一个的方法,其中将所述隔室化的核酸进行片段化并且通过连接将所述条形码寡核苷酸连接到所述片段化的核酸上。
B35.实施方案B25至B30中任一个的方法,其中通过引物延伸聚合(PEP)针对特定的靶标富集所述隔室化的核酸,所述引物延伸聚合包括与所述隔室化的核酸中的特定靶多核苷酸特异性杂交的引物。
B36.实施方案B1至B34中任一个的方法,其中针对特定的靶多核苷酸富集所述条形编码的模板。
B37.实施方案B36的方法,其中通过亲和纯化来富集条形编码的模板。
B38.实施方案B37的方法,其中所述亲和纯化包括连接到与所述特定的靶多核苷酸杂交的靶标特异性寡核苷酸上的亲和纯化分子。
B39.实施方案B35至B38中任一个的方法,其中所述特定的靶多核苷酸包含基因座或其部分。
B40.实施方案B35至B38中任一个的方法,其中所述特定的靶多核苷酸包含基因或其部分。
B41.实施方案B35至B38中任一个的方法,其中所述特定的靶多核苷酸包含外显子组或其部分。
B42.实施方案B1至B41中任一个的方法,其包括使用测序仪对所述条形编码的模板进行测序,产生约2千碱基或更大的序列读段。
B43.实施方案B1至B41中任一个的方法,其包括使用测序仪对所述条形编码的模板进行测序,产生约500个碱基或更少的序列读段。
B44.实施方案B42或B43的方法,其中以30×或更小的测序深度产生所述序列读段。
B44.1.实施方案B42至B44中任一个的方法,其包括基于含有连接接合点的序列读段确定空间邻位邻接性信息。
B45.实施方案B42至B44.1中任一个的方法,其包括基于含有连接接合点的序列读段和所述条形码寡核苷酸中的条形码序列的序列读段来确定邻接性信息。
B46.实施方案B42至B45中任一个的方法,其包括基于鉴定所述条形码寡核苷酸中的共同条形码序列和鉴定嵌合序列来确定邻接性信息。
B47.实施方案B46的方法,其包括使用嵌合感知组装算法分析所述条形码寡核苷酸中的条形码序列和嵌合序列。
B48.实施方案B45至B47中任一个的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
B49.实施方案B45至B47中任一个的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
B50.实施方案B45至B47中任一个的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
B51.实施方案B45至B47中任一个的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
B52.实施方案B45至B47中任一个的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
B53.实施方案B52的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
B54.实施方案B1至B53中任一个的方法,其中原位产生所述邻位连接的核酸分子。
B55.实施方案B1至B53中任一个的方法,其中在溶液中产生所述邻位连接的核酸分子。
C1.一种用于制备保留空间邻位邻接性和分子邻接性的文库核酸模板的方法,其包括:
使分离的核酸与试剂反应,产生邻位连接的核酸分子;
由所述邻位连接的核酸分子制备高分子量模板,其中作为长顺式模板的所述模板的分数大于2%;和
使用测序仪对所述模板进行测序,产生约2千碱基或更大的序列读段。
C2.实施方案C1的方法,其中所述分离的核酸包含染色质。
C3.实施方案C1或C2的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
C4.实施方案C1至C3中任一个的方法,其中所述分离的核酸是从细胞中获得的。
C4.1.实施方案C1至C3中任一个的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
C5.实施方案C1至C3中任一个的方法,其中所述分离的核酸是从核中获得的。
C6.实施方案C1至C3中任一个的方法,其中所述分离的核酸是从核基质中获得的。
C7.实施方案C1至C6中任一个的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
C7.1.实施方案C1至C6中任一个的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
C8.实施方案C1至C7.1中任一个的方法,其中分数大于5%。
C9.实施方案C8的方法,其中所述分数大于10%。
C10.实施方案C9的方法,其中所述分数大于15%。
C11.实施方案C10的方法,其中所述分数大于20%。
C12.实施方案C11的方法,其中所述分数大于25%。
C13.实施方案C1至C12中任一个的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
C14.实施方案C13的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS)。
C15.实施方案C13或C14的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是小于80分钟。
C16.实施方案C13至C15中任一个的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
C17.实施方案C1至C12中任一个的方法,其中所述试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
C18.实施方案C17的方法,其中所述优化的限制性内切酶是NlaIII。
C19.实施方案C1至C12中任一个的方法,其中所述试剂包含使染色质增溶的试剂,使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
C20.实施方案C19的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且所述优化的限制性内切酶是NlaIII。
C21.实施方案C1至C20中任一个的方法,其中以30×或更小的测序深度产生所述序列读段。
C22.实施方案C1至C21中任一个的方法,其包括基于含有连接接合点的序列读段确定空间邻位邻接性信息。
C23.实施方案C22的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
C24.实施方案C22的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
C25.实施方案C22的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
C26.实施方案C22的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
C27.实施方案C22的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
C28.实施方案C27的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
C29.实施方案C1至C28中任一个的方法,其中原位产生所述邻位连接的核酸分子。
C30.实施方案C1至C28中任一个的方法,其中在溶液中产生所述邻位连接的核酸分子。
D1.一种用于制备保留空间邻位邻接性信息的分离的核酸的方法,其包括:
使分离的核酸与试剂反应,产生邻位连接的核酸分子,由此由所述邻位连接的核酸分子制备的模板具有大于2%的长顺式模板的分数。
D2.实施方案D1的方法,其中所述分离的核酸包含染色质。
D3.实施方案D1或D2的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
D4.实施方案D1至D3中任一个的方法,其中所述分离的核酸是从细胞中获得的。
D4.1.实施方案D1至D3中任一个的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
D5.实施方案D1至D3中任一个的方法,其中所述分离的核酸是从核中获得的。
D6.实施方案D1至D3中任一个的方法,其中所述分离的核酸是从核基质中获得的。
D7.实施方案D1至D6中任一个的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
D7.1.实施方案D1至D6中任一个的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
D8.实施方案D1至D7.1中任一个的方法,其中分数大于5%。
D9.实施方案D8的方法,其中所述分数大于10%。
D10.实施方案D9的方法,其中所述分数大于15%。
D11.实施方案D10的方法,其中所述分数大于20%。
D12.实施方案D11的方法,其中所述分数大于25%。
D13.实施方案D1至D12中任一个的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
D14.实施方案D13的方法,其中使染色质增溶的所述试剂是十二烷基硫酸钠(SDS)。
D15.实施方案D13或D14的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是小于80分钟。
D16.实施方案D13至D15中任一个的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
D17.实施方案D1至D12中任一个的方法,其中所述试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
D18.实施方案D17的方法,其中所述优化的限制性内切酶是NlaIII。
D19.实施方案D1至D12中任一个的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
D20.实施方案D19的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且所述优化的限制性内切酶是NlaIII。
D21.实施方案D1至D20中任一个的方法,其中原位产生所述邻位连接的核酸分子。
D22.实施方案D1至D20中任一个的方法,其中在溶液中产生所述邻位连接的核酸分子。
E1.一种用于将条形码寡核苷酸连接到邻位连接的核酸分子上的方法,其包括:
使用优化的限制性内切酶制备邻位连接的核酸分子,其中相对于使用限制性内切酶HindIII、DpnII或等同的限制性内切酶,优化的限制性内切酶产生更大分数的作为长顺式模板的所述邻位连接的核酸分子的模板;和
通过持续时间超过3小时的引物延伸聚合(PEP)反应将所述邻位连接的核酸分子进行片段化并且将条形码寡核苷酸连接到所述邻位连接的核酸分子上以产生条形编码的模板,由此与不使用优化的限制性内切酶并且所述PEP反应的持续时间是3小时或更短时相比,更大百分比的模板连接有条形码寡核苷酸。
E2.实施方案E1的方法,其中所述优化的限制性内切酶是NlaIII。
E3.实施方案E1或E2的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
E4.实施方案E1至E3中任一个的方法,其中原位产生所述邻位连接的核酸分子。
E5.实施方案E1至E3中任一个的方法,其中在溶液中产生所述邻位连接的核酸分子。
所述技术的某些实施方案阐述于所附的一项或多项权利要求中。
Claims (169)
1.一种用于制备文库核酸模板的方法,其包括:
使分离的核酸与固相元件接触,所述接触在所述固相元件与所述分离的核酸之间产生复合物;和
使所述复合物与一种或多种试剂反应,所述一种或多种试剂:
将所述复合物隔室化到隔室中,从而提供隔室化的复合物;并且
将所述隔室化的复合物的核酸进行片段化并且将条形码寡核苷酸连接到所述核酸上以产生条形编码的模板核酸,其中:
所述隔室之一中的所述条形编码的模板核酸中的所述条形码寡核苷酸与其它隔室中的所述条形编码的模板核酸中的所述条形码寡核苷酸不同,并且
所述条形码寡核苷酸中的条形码保留了所述复合物的分离的核酸的空间邻位邻接性信息或保留了其空间邻位邻接性信息和分子邻接性信息。
2.根据权利要求1所述的方法,其中所述分离的核酸包含染色质。
3.根据权利要求1或2所述的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
4.根据权利要求1至3中任一项所述的方法,其中所述分离的核酸是从一个或多个细胞中获得的。
5.根据权利要求1至3中任一项所述的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
6.根据权利要求1至3中任一项所述的方法,其中所述分离的核酸是从核中获得的。
7.根据权利要求1至3中任一项所述的方法,其中所述分离的核酸是从核基质中获得的。
8.根据权利要求1至7中任一项所述的方法,其中所述复合物包含25Kb或更大的分离的核酸。
9.根据权利要求1至7中任一项所述的方法,其中所述复合物包含大于60Kb的分离的核酸。
10.根据权利要求1至9中任一项所述的方法,其中所述固相元件是珠粒。
11.根据权利要求1至10中任一项所述的方法,其中所述固相元件包含核酸交联剂。
12.根据权利要求1至10中任一项所述的方法,其中所述固相元件包含亲和纯化分子。
13.根据权利要求12所述的方法,其中所述分离的核酸用亲和纯化标记进行标记。
14.根据权利要求1至9中任一项所述的方法,其中进行片段化并且连接条形码寡核苷酸的所述一种或多种试剂将所述复合物进行虚拟隔室化。
15.根据权利要求14所述的方法,其中所述固相元件包含进行片段化并且连接条形码寡核苷酸的所述一种或多种试剂。
16.根据权利要求15所述的方法,其中所述进行片段化并且连接条形码寡核苷酸的所述一种或多种试剂包含具有独特条形编码的寡核苷酸的转座子和转座酶。
17.根据权利要求16所述的方法,其中所述转座酶是Tn5。
18.根据权利要求1至13中任一项所述的方法,其中将所述复合物进行隔室化的所述一种或多种试剂包括产生微流体液滴的微流体隔室化装置。
19.根据权利要求1至13中任一项所述的方法,其中将所述复合物进行隔室化的所述一种或多种试剂包括其中稀释了复合物的微量滴定板孔。
20.根据权利要求1至13、18和19中任一项所述的方法,其中在核酸扩增反应中将条形码寡核苷酸整合到所述隔室化的复合物的分离的核酸中。
21.根据权利要求1至13、18和19中任一项所述的方法,其中在扩增反应中扩增所述隔室化的复合物的分离的核酸并且将条形码连接到所扩增的核酸上。
22.根据权利要求1至13、18和19中任一项所述的方法,其中将所述隔室化的复合物的核酸进行片段化并且通过引物延伸聚合(PEP)连接条形码寡核苷酸以产生条形编码的模板核酸。
23.根据权利要求22所述的方法,其中所述引物延伸聚合(PEP)进行3小时或更长的时间段。
24.根据权利要求23所述的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
25.根据权利要求22至24中任一项所述的方法,其中所述引物延伸聚合(PEP)包括随机引物。
26.根据权利要求1至13、18和19中任一项所述的方法,其中将所述隔室化的复合物的核酸进行片段化并且通过连接将所述条形码寡核苷酸连接到所述片段化的核酸上。
27.根据权利要求1至26中任一项所述的方法,其中作为长顺式模板的所述条形编码的模板的分数大于2%。
28.根据权利要求27所述的方法,其中所述分数大于5%。
29.根据权利要求28所述的方法,其中所述分数大于10%。
30.根据权利要求29所述的方法,其中所述分数大于15%。
31.根据权利要求30所述的方法,其中所述分数大于20%。
32.根据权利要求31所述的方法,其中所述分数大于25%。
33.根据权利要求22至24中任一项所述的方法,其中通过引物延伸聚合(PEP)针对特定的靶标富集所述隔室化的复合物中的分离的核酸,所述引物延伸聚合包括与所述分离的核酸中的特定靶多核苷酸特异性杂交的引物。
34.根据权利要求1至32中任一项所述的方法,其中针对特定的靶多核苷酸富集所述条形编码的模板。
35.根据权利要求34所述的方法,其中通过亲和纯化来富集条形编码的模板。
36.根据权利要求35所述的方法,其中所述亲和纯化包括连接到与所述特定的靶多核苷酸杂交的靶标特异性寡核苷酸上的亲和纯化分子。
37.根据权利要求33至36中任一项所述的方法,其中所述特定的靶多核苷酸包含基因座或其部分。
38.根据权利要求33至36中任一项所述的方法,其中所述特定的靶多核苷酸包含基因或其部分。
39.根据权利要求33至36中任一项所述的方法,其中所述特定的靶多核苷酸包含外显子组或其部分。
40.根据权利要求1至39中任一项所述的方法,其包括使用测序仪对所述条形编码的模板进行测序,所述测序仪产生约2千碱基或更大的序列读段。
41.根据权利要求1至39中任一项所述的方法,其包括使用测序仪对所述条形编码的模板进行测序,所述测序仪产生约500个碱基或更少的序列读段。
42.根据权利要求40或41所述的方法,其中以30×或更小的测序深度产生所述序列读段。
43.根据权利要求40至42中任一项所述的方法,其包括部分地基于所述条形码寡核苷酸中的条形码序列的序列读段来确定邻接性信息。
44.根据权利要求43所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
45.根据权利要求43所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
46.根据权利要求43所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
47.根据权利要求A40所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
48.根据权利要求43所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
49.根据权利要求48所述的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
50.一种用于制备文库核酸模板的方法,其包括:
使分离的核酸与第一组试剂反应,所述第一组试剂产生邻位连接的核酸分子;和
使所述邻位连接的核酸分子与第二组试剂反应,所述第二组试剂:
将所述邻位连接的核酸分子隔室化到隔室中,从而提供隔室化的核酸;
将所述隔室化的核酸分子进行片段化并且将条形码寡核苷酸连接到所述隔室化的核酸分子上以产生条形编码的模板,其中连接到所述隔室之一中的所述条形编码的模板上的所述条形码寡核苷酸与连接到其它隔室中的所述条形编码的模板上的所述条形码寡核苷酸不同,并且所述条形码寡核苷酸中的条形码保留了邻位连接的分子的分子邻接性信息。
51.根据权利要求50所述的方法,其中所述分离的核酸包含染色质。
52.根据权利要求50或51所述的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
53.根据权利要求50至52中任一项所述的方法,其中所述分离的核酸是从细胞中获得的。
54.根据权利要求50至52中任一项所述的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
55.根据权利要求50至52中任一项所述的方法,其中所述分离的核酸是从核中获得的。
56.根据权利要求50至52中任一项所述的方法,其中所述分离的核酸是从核基质中获得的。
57.根据权利要求50至56中任一项所述的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
58.根据权利要求50至56中任一项所述的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
59.根据权利要求50至58中任一项所述的方法,其中作为长顺式模板的所述条形编码的模板的分数大于2%。
60.根据权利要求59所述的方法,其中所述分数大于5%。
61.根据权利要求60所述的方法,其中所述分数大于10%。
62.根据权利要求61所述的方法,其中所述分数大于15%。
63.根据权利要求62所述的方法,其中所述分数大于20%。
64.根据权利要求63所述的方法,其中所述分数大于25%。
65.根据权利要求50至64中任一项所述的方法,其中所述第一组试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
66.根据权利要求65所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS)。
67.根据权利要求65或66所述的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是少于80分钟。
68.根据权利要求65至67中任一项所述的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
69.根据权利要求50至64中任一项所述的方法,其中所述第一组试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述条形编码的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
70.根据权利要求69所述的方法,其中优化的限制性内切酶是NlaIII。
71.根据权利要求50至64中任一项所述的方法,其中所述第一组试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述条形编码的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
72.根据权利要求71所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且优化的限制性内切酶是NlaIII。
73.根据权利要求50至72中任一项所述的方法,其中将所述邻位连接的核酸分子进行隔室化的所述一种或多种试剂包括产生微流体液滴的微流体隔室化装置。
74.根据权利要求50至72中任一项所述的方法,其中将所述邻位连接的核酸分子进行隔室化的所述一种或多种试剂包括其中稀释了复合物的微量滴定板孔。
75.根据权利要求50至74中任一项所述的方法,其中在核酸扩增反应期间将条形码整合到所述隔室化的核酸中。
76.根据权利要求50至74中任一项所述的方法,其中在扩增反应中扩增所述隔室化的核酸并且将条形码连接到所扩增的核酸上。
77.根据权利要求50至74中任一项所述的方法,其中将所述隔室化的核酸进行片段化并且通过引物延伸聚合(PEP)连接条形码寡核苷酸以产生条形编码的模板核酸。
78.根据权利要求77所述的方法,其中与不使用优化的限制性内切酶时相比,使用优化的限制性内切酶产生邻位连接的分子产生了更大百分比的与条形码寡核苷酸连接的隔室化的核酸分子。
79.根据权利要求78所述的方法,其中所述优化的限制性内切酶是NlaIII。
80.根据权利要求78所述的方法,其中与使用DpnII限制性内切酶或等同的酶时相比,使用优化的限制性内切酶产生邻位连接的分子产生了更大百分比的与条形码寡核苷酸连接的隔室化的核酸分子。
81.根据权利要求78至80中任一项所述的方法,其中所述引物延伸聚合(PEP)进行3小时或更长的时间段。
82.根据权利要求81所述的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
83.根据权利要求77至82中任一项所述的方法,其中所述引物延伸聚合(PEP)包括随机引物。
84.根据权利要求50至74中任一项所述的方法,其中将所述隔室化的核酸进行片段化并且使用具有独特条形编码的寡核苷酸的转座子和转座酶连接条形码寡核苷酸。
85.根据权利要求84所述的方法,其中所述转座酶是Tn5。
86.根据权利要求50至74中任一项所述的方法,其中将所述隔室化的核酸进行片段化并且通过连接将所述条形码寡核苷酸连接到所述片段化的核酸。
87.根据权利要求77至82中任一项所述的方法,其中通过引物延伸聚合(PEP)针对特定的靶标富集所述隔室化的核酸,所述引物延伸聚合包括与所述隔室化的核酸中的特定靶多核苷酸特异性杂交的引物。
88.根据权利要求50至86中任一项所述的方法,其中针对特定的靶多核苷酸富集所述条形编码的模板。
89.根据权利要求88所述的方法,其中通过亲和纯化来富集条形编码的模板。
90.根据权利要求89所述的方法,其中所述亲和纯化包括连接到与所述特定的靶多核苷酸杂交的靶标特异性寡核苷酸的亲和纯化分子。
91.根据权利要求87至90中任一项所述的方法,其中所述特定的靶多核苷酸包含基因座或其部分。
92.根据权利要求87至90中任一项所述的方法,其中所述特定的靶多核苷酸包含基因或其部分。
93.根据权利要求87至90中任一项所述的方法,其中所述特定的靶多核苷酸包含外显子组或其部分。
94.根据权利要求50至93中任一项所述的方法,其包括使用测序仪对所述条形编码的模板进行测序,所述测序仪产生约2千碱基或更大的序列读段。
95.根据权利要求50至93中任一项所述的方法,其包括使用测序仪对所述条形编码的模板进行测序,所述测序仪产生约500个碱基或更少的序列读段。
96.根据权利要求94或95所述的方法,其中以30×或更小的测序深度产生所述序列读段。
97.根据权利要求94至96中任一项所述的方法,其包括基于含有连接接合点的序列读段确定空间邻位邻接性信息。
98.根据权利要求94至97中任一项所述的方法,其包括基于含有连接接合点的序列读段和所述条形码寡核苷酸中的条形码序列的序列读段来确定邻接性信息。
99.根据权利要求94至98中任一项所述的方法,其包括基于鉴定所述条形码寡核苷酸中的共同条形码序列和鉴定嵌合序列来确定邻接性信息。
100.根据权利要求99所述的方法,其包括使用嵌合感知组装算法分析所述条形码寡核苷酸中的条形码序列和嵌合序列。
101.根据权利要求98至100中任一项所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
102.根据权利要求98至100中任一项所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
103.根据权利要求98至100中任一项所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
104.根据权利要求98至100中任一项所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
105.根据权利要求98至100中任一项所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
106.根据权利要求105所述的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
107.根据权利要求50至106中任一项所述的方法,其中原位产生所述邻位连接的核酸分子。
108.根据权利要求50至106中任一项所述的方法,其中在溶液中产生所述邻位连接的核酸分子。
109.一种用于制备保留空间邻位邻接性和分子邻接性的文库核酸模板的方法,其包括:
使分离的核酸与试剂反应,所述试剂产生邻位连接的核酸分子;
由所述邻位连接的核酸分子制备高分子量模板,其中作为长顺式模板的所述模板的分数大于2%;和
使用测序仪对所述模板进行测序,所述测序仪产生约2千碱基或更大的序列读段。
110.根据权利要求109所述的方法,其中所述分离的核酸包含染色质。
111.根据权利要求109或110所述的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
112.根据权利要求109至111中任一项所述的方法,其中所述分离的核酸是从细胞中获得的。
113.根据权利要求109至111中任一项所述的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
114.根据权利要求109至111中任一项所述的方法,其中所述分离的核酸是从核中获得的。
115.根据权利要求109至111中任一项所述的方法,其中所述分离的核酸是从核基质中获得的。
116.根据权利要求109至115中任一项所述的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
117.根据权利要求109至115中任一项所述的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
118.根据权利要求109至117中任一项所述的方法,其中分数大于5%。
119.根据权利要求118所述的方法,其中所述分数大于10%。
120.根据权利要求119所述的方法,其中所述分数大于15%。
121.根据权利要求120所述的方法,其中所述分数大于20%。
122.根据权利要求121所述的方法,其中所述分数大于25%。
123.根据权利要求109至122中任一项所述的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
124.根据权利要求123所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS)。
125.根据权利要求123或124所述的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是少于80分钟。
126.根据权利要求123至125中任一项所述的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
127.根据权利要求109至122中任一项所述的方法,其中所述试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
128.根据权利要求127所述的方法,其中所述优化的限制性内切酶是NlaIII。
129.根据权利要求109至122中任一项所述的方法,其中所述试剂包含使染色质增溶的试剂,使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
130.根据权利要求129所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且所述优化的限制性内切酶是NlaIII。
131.根据权利要求109至130中任一项所述的方法,其中以30×或更小的测序深度产生所述序列读段。
132.根据权利要求109至131中任一项所述的方法,其包括基于含有连接接合点的序列读段确定空间邻位邻接性信息。
133.根据权利要求132所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的单倍型信息。
134.根据权利要求132所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的重叠群的排序和取向。
135.根据权利要求132所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组混合物的解卷积。
136.根据权利要求132所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的构象和折叠模式。
137.根据权利要求132所述的方法,其包括使用所述邻接性信息确定所述分离的核酸的基因组变体。
138.根据权利要求137所述的方法,其中所述基因组变体包括单核苷酸变体、***、缺失、倒位、易位和拷贝数变异以及其它类型的基因组变体。
139.根据权利要求109至138中任一项所述的方法,其中原位产生所述邻位连接的核酸分子。
140.根据权利要求109至138中任一项所述的方法,其中在溶液中产生所述邻位连接的核酸分子。
141.一种用于制备保留空间邻位邻接性信息的分离的核酸的方法,其包括:
使分离的核酸与试剂反应,所述试剂产生邻位连接的核酸分子,由此由所述邻位连接的核酸分子制备的模板具有大于2%的长顺式模板的分数。
142.根据权利要求141所述的方法,其中所述分离的核酸包含染色质。
143.根据权利要求141或142所述的方法,其中所述分离的核酸包含基本上整个基因组或其部分。
144.根据权利要求141至143中任一项所述的方法,其中所述分离的核酸是从细胞中获得的。
145.根据权利要求141至143中任一项所述的方法,其中所述分离的核酸来自***固定的石蜡包埋的细胞、核或核基质。
146.根据权利要求141至143中任一项所述的方法,其中所述分离的核酸是从核中获得的。
147.根据权利要求141至143中任一项所述的方法,其中所述分离的核酸是从核基质中获得的。
148.根据权利要求141至147中任一项所述的方法,其中所述邻位连接的核酸分子包含25Kb或更大的核酸分子。
149.根据权利要求141至147中任一项所述的方法,其中所述邻位连接的核酸分子包含大于60Kb的核酸分子。
150.根据权利要求141至149中任一项所述的方法,其中分数大于5%。
151.根据权利要求150所述的方法,其中所述分数大于10%。
152.根据权利要求151所述的方法,其中所述分数大于15%。
153.根据权利要求152所述的方法,其中所述分数大于20%。
154.根据权利要求153所述的方法,其中所述分数大于25%。
155.根据权利要求141至154中任一项所述的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度。
156.根据权利要求155所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS)。
157.根据权利要求155或156所述的方法,其中使所述分离的核酸与所述试剂反应超过10分钟但是少于80分钟。
158.根据权利要求155至157中任一项所述的方法,其中使所述分离的核酸与所述试剂反应约40分钟。
159.根据权利要求141至154中任一项所述的方法,其中所述试剂包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
160.根据权利要求159所述的方法,其中所述优化的限制性内切酶是NlaIII。
161.根据权利要求141至154中任一项所述的方法,其中所述试剂包含使染色质增溶的试剂并且使所述分离的核酸与所述试剂反应超过10分钟,由此优化溶解度;并且包含限制性内切酶,相对于限制性内切酶HindIII、DpnII、MboI或等同的限制性内切酶,所述限制性内切酶产生更大分数的作为长顺式模板的所述模板,由此优化所述限制性内切酶以保留空间邻位邻接性。
162.根据权利要求161所述的方法,其中所述使染色质增溶的试剂是十二烷基硫酸钠(SDS),使所述分离的核酸与SDS反应约40分钟,并且所述优化的限制性内切酶是NlaIII。
163.根据权利要求141至162中任一项所述的方法,其中原位产生所述邻位连接的核酸分子。
164.根据权利要求141至162中任一项所述的方法,其中在溶液中产生所述邻位连接的核酸分子。
165.一种用于将条形码寡核苷酸连接到邻位连接的核酸分子上的方法,其包括:
使用优化的限制性内切酶制备邻位连接的核酸分子,其中相对于使用限制性内切酶HindIII、DpnII或等同的限制性内切酶,优化的限制性内切酶产生更大分数的作为长顺式模板的所述邻位连接的核酸分子的模板;和
通过持续时间超过3小时的引物延伸聚合(PEP)反应将所述邻位连接的核酸分子进行片段化并且将条形码寡核苷酸连接到所述邻位连接的核酸分子上以产生条形编码的模板,由此与不使用优化的限制性内切酶并且所述PEP反应的持续时间是3小时或更短时相比,更大百分比的模板连接有条形码寡核苷酸。
166.根据权利要求165所述的方法,其中所述优化的限制性内切酶是NlaIII。
167.根据权利要求165或166所述的方法,其中所述引物延伸聚合(PEP)进行6小时或更长的时间段。
168.根据权利要求165至167中任一项所述的方法,其中原位制备所述邻位连接的核酸分子。
169.根据权利要求165至167中任一项所述的方法,其中在溶液中制备所述邻位连接的核酸分子。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762589505P | 2017-11-21 | 2017-11-21 | |
US62/589,505 | 2017-11-21 | ||
PCT/US2018/062005 WO2019104034A1 (en) | 2017-11-21 | 2018-11-20 | Preserving spatial-proximal contiguity and molecular contiguity in nucleic acid templates |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111655848A true CN111655848A (zh) | 2020-09-11 |
Family
ID=64665111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880087150.7A Pending CN111655848A (zh) | 2017-11-21 | 2018-11-20 | 在核酸模板中保留空间邻位邻接性和分子邻接性 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11873481B2 (zh) |
EP (1) | EP3714052A1 (zh) |
CN (1) | CN111655848A (zh) |
WO (1) | WO2019104034A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114045332A (zh) * | 2020-09-29 | 2022-02-15 | 生物岛实验室 | 一种单细胞表观转录组学测序方法 |
WO2022067565A1 (zh) * | 2020-09-29 | 2022-04-07 | 生物岛实验室 | 空间组学测序、单细胞表观转录组学测序及定位标识方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019104034A1 (en) | 2017-11-21 | 2019-05-31 | Arima Genomics, Inc. | Preserving spatial-proximal contiguity and molecular contiguity in nucleic acid templates |
WO2023172501A2 (en) * | 2022-03-07 | 2023-09-14 | Arima Genomics, Inc. | Methods of selecting and treating cancer subjects that are candidates for treatment using inhibitors of a pd-1 pathway |
WO2023183706A2 (en) * | 2022-03-23 | 2023-09-28 | Arima Genomics, Inc. | Methods of selecting and treating cancer subjects that are candidates for treatment using inhibitors of parp |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170159109A1 (en) * | 2015-12-04 | 2017-06-08 | 10X Genomics, Inc. | Methods and compositions for nucleic acid analysis |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2057282A4 (en) | 2006-08-24 | 2010-10-27 | Univ Massachusetts Medical | MAPPING GENOMIC INTERACTIONS |
BRPI0806565A2 (pt) | 2007-01-11 | 2014-05-06 | Erasmus University Medical Center | Captura de conformação de cromossomo circular |
WO2010036323A1 (en) | 2008-09-25 | 2010-04-01 | University Of Massachusetts Medical School | Method of identifing interactions between genomic loci |
US20110287947A1 (en) | 2010-05-18 | 2011-11-24 | University Of Southern California | Tethered Conformation Capture |
RU2603082C2 (ru) | 2010-07-09 | 2016-11-20 | Сергентис Б.В. | Способы секвенирования трехмерной структуры исследуемой области генома |
US10847248B2 (en) | 2012-08-10 | 2020-11-24 | The Board Of Trustees Of The Leland Stanford Junior University | Techniques for determining haplotype by population genotype and sequence data |
WO2014144491A1 (en) * | 2013-03-15 | 2014-09-18 | The Broad Institute, Inc | Methods for determining multiple interactions between nucleic acids in a cell |
EP3022320B1 (en) | 2013-07-19 | 2021-07-14 | Ludwig Institute for Cancer Research Ltd | Whole-genome and targeted haplotype reconstruction |
US11694764B2 (en) | 2013-09-27 | 2023-07-04 | University Of Washington | Method for large scale scaffolding of genome assemblies |
EP2986761B1 (en) * | 2014-02-13 | 2018-08-15 | Bio-rad Laboratories, Inc. | Chromosome conformation capture in droplet partitions |
WO2016061517A2 (en) | 2014-10-17 | 2016-04-21 | Illumina Cambridge Limited | Contiguity preserving transposition |
US11279974B2 (en) | 2014-12-01 | 2022-03-22 | The Broad Institute, Inc. | Method for in situ determination of nucleic acid proximity |
CN107922959A (zh) | 2015-07-02 | 2018-04-17 | 阿瑞玛基因组学公司 | 混合物样品的精确分子去卷积 |
GB201518843D0 (en) * | 2015-10-23 | 2015-12-09 | Isis Innovation | Method of analysing DNA sequences |
WO2017090543A1 (ja) | 2015-11-27 | 2017-06-01 | 国立大学法人大阪大学 | Dna間相互作用の解析方法 |
EP3455356B1 (en) | 2016-05-13 | 2021-08-04 | Dovetail Genomics LLC | Recovering long-range linkage information from preserved samples |
IL263118B2 (en) | 2017-02-21 | 2023-12-01 | Illumina Inc | Tegumentation using fixed transpososomes with linkers |
WO2019104034A1 (en) | 2017-11-21 | 2019-05-31 | Arima Genomics, Inc. | Preserving spatial-proximal contiguity and molecular contiguity in nucleic acid templates |
-
2018
- 2018-11-20 WO PCT/US2018/062005 patent/WO2019104034A1/en unknown
- 2018-11-20 EP EP18819279.3A patent/EP3714052A1/en active Pending
- 2018-11-20 US US16/764,787 patent/US11873481B2/en active Active
- 2018-11-20 CN CN201880087150.7A patent/CN111655848A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170159109A1 (en) * | 2015-12-04 | 2017-06-08 | 10X Genomics, Inc. | Methods and compositions for nucleic acid analysis |
Non-Patent Citations (2)
Title |
---|
ANDREW ADEY等: "In vitro, long-range sequence information for de novo genome assembly via transposase contiguity", 《GENOME RES》, vol. 24, no. 12, pages 2041 - 2049, XP055552116, DOI: 10.1101/gr.178319.114 * |
潘有福: "染色质相互作用研究进展", 《遵义医学院学报》, vol. 37, no. 5, pages 470 - 478 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114045332A (zh) * | 2020-09-29 | 2022-02-15 | 生物岛实验室 | 一种单细胞表观转录组学测序方法 |
WO2022067565A1 (zh) * | 2020-09-29 | 2022-04-07 | 生物岛实验室 | 空间组学测序、单细胞表观转录组学测序及定位标识方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3714052A1 (en) | 2020-09-30 |
US11873481B2 (en) | 2024-01-16 |
US20210363516A1 (en) | 2021-11-25 |
WO2019104034A1 (en) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shendure et al. | DNA sequencing at 40: past, present and future | |
Van Dijk et al. | Ten years of next-generation sequencing technology | |
CN111655848A (zh) | 在核酸模板中保留空间邻位邻接性和分子邻接性 | |
Holt et al. | The new paradigm of flow cell sequencing | |
US20210363570A1 (en) | Method for increasing throughput of single molecule sequencing by concatenating short dna fragments | |
Fullwood et al. | Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses | |
JP7332733B2 (ja) | 次世代シークエンシングのための高分子量dnaサンプル追跡タグ | |
AU2015296029A1 (en) | Tagging nucleic acids for sequence assembly | |
CN103582887B (zh) | 提供核苷酸序列数据的方法和测序装置 | |
CN101395281A (zh) | 用于核酸作图和鉴定核酸的精细结构变化的方法以及用途 | |
CN108624668A (zh) | 用于基因组组装及单体型定相的方法 | |
CN103917654A (zh) | 用于对长核酸进行测序的方法和*** | |
US9758780B2 (en) | Whole genome mapping by DNA sequencing with linked-paired-end library | |
AU2016242953A1 (en) | Method for detecting genomic variations using circularised mate-pair library and shotgun sequencing | |
Huang et al. | Recent advances in experimental whole genome haplotyping methods | |
Xu et al. | Genome reconstruction and haplotype phasing using chromosome conformation capture methodologies | |
US20220205017A1 (en) | Methods and compositions for enhanced genome coverage and preservation of spatial proximal contiguity | |
US20240254473A1 (en) | Preserving spatial-proximal contiguity and molecular contiguity in nucleic acid templates | |
Singh et al. | Bioinformatics in next-generation genome sequencing | |
Xiong et al. | DNA Origami-Enabled Gene Localization of Repetitive Sequences | |
Jain et al. | Emerging Tools for Generating Genomics Data | |
Martin et al. | From First to Second: How Stickler’s Diagnostic Genetics Has Evolved to Match Sequencing Technologies | |
Maurya et al. | Satendra Singh, Anjali Rao, Pallavi Mishra, Arvind Kumar Yadav | |
Cameron et al. | Mapping and visualizing spatial genome organization | |
CN105602937A (zh) | 用于核酸作图和鉴定核酸中的精细结构变化的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200911 |
|
WD01 | Invention patent application deemed withdrawn after publication |