CN105593415A - 用于染色体定位的方法和组合物 - Google Patents
用于染色体定位的方法和组合物 Download PDFInfo
- Publication number
- CN105593415A CN105593415A CN201480053497.1A CN201480053497A CN105593415A CN 105593415 A CN105593415 A CN 105593415A CN 201480053497 A CN201480053497 A CN 201480053497A CN 105593415 A CN105593415 A CN 105593415A
- Authority
- CN
- China
- Prior art keywords
- locus
- probe
- chromosome
- approximately
- subregion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6827—Hybridisation assays for detection of mutation or polymorphism
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6813—Hybridisation assays
- C12Q1/6816—Hybridisation assays characterised by the detection means
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C99/00—Subject matter not provided for in other groups of this subclass
Landscapes
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Microbiology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Analytical Chemistry (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本文提供了用于核酸分析的改进的方法、组合物和试剂盒。所述改进的方法、组合物和试剂盒例如利用染色体定相/单倍型分析能够使得方向性染色体定位成为可能。所述改进的方法、组合物和试剂盒还能够使得对样品中核酸的拷贝数的估计成为可能。本文还提供了用于确定样品中两个或更多个拷贝的靶核酸的连锁(例如,所述两个或更多个拷贝是否在同一染色体或不同染色体上)或用于定相等位基因的方法、组合物和试剂盒。
Description
交叉引用
本申请要求2013年9月26日递交的美国临时申请第61/882,969号的权益,该申请通过引用整体并入本文。
背景
染色体定位(chromosomemapping)可用于确定染色体上特定基因座(例如基因)的位置。在有些情况下,下一代测序可用于染色体定位。然而,在有些情况下,单独的下一代测序不足以提供对复杂染色体结构的充分理解。例如,在某些情况下,基于相对短的序列读段的下一代测序不能用于跨越染色体上的复杂重排区域。染色体的复杂重排区域可包括拷贝数变异。拷贝数变异(CNV)区可包括约12%的人基因组DNA。这些区域的尺寸可从约1kb到几兆碱基不等。CNV区可能难以在染色体上定位。
如本文所认识到的,需要用于在基因组DNA序列的复杂区域中方向性定位染色体元件的改进的方法。
概述
一方面,提供了用于确定第一染色体上至少三个基因座的排列的方法,该方法包括:获得包含所述第一染色体的多核苷酸片段的样品;对所述第一染色体的多核苷酸片段分区;扩增来自所述第一染色体的多核苷酸片段的至少三个基因座,从而产生所述第一染色体的至少三个扩增的基因座;用一组至少三个探针检测所述第一染色体的至少三个扩增的基因座,其中所述至少三个探针的每一个包括不同的标记;确定所述第一染色体的至少三个基因座间的连锁频率;以及基于所述连锁频率,确定所述第一染色体上所述至少三个基因座的排列。
在有些情况下,该方法还包括用第二组至少三个探针检测第一染色体的多个扩增的基因座,其中第一组探针的第一探针与第一基因座退火,第一组的第二探针与第二基因座退火,第二组的第一探针与第一基因座退火,且第二组探针的第二探针与第二基因座退火。在有些情况下,第一组探针的第三探针与第三基因座退火,且第二组探针的第三探针与第四基因座退火,其中第三基因座与第四基因座不同。
在有些情况下,该方法还包括用至少两组各至少三个探针检测第一染色体的至少三个扩增的基因座,其中每一组中的每个探针包含不同的标记。在有些情况下,每一组探针包含具有相同标记的探针。在有些情况下,每一组探针包含至少三个探针,其中一组中的每个探针包含不同的标记。在有些情况下,至少两组探针中的每个探针与不同的基因座退火。
在有些情况下,第一组至少三个探针包括与第二组至少三个探针中的至少一个探针相同的基因座退火的至少一个探针。在有些情况下,每一组中的每个探针包含不同的标记。在有些情况下,每一组探针包含相同的标记。在有些情况下,第一组至少三个探针包括与第二组至少三个探针中的至少两个探针相同的基因座退火的至少两个探针。在有些情况下,包含至少三个探针的至少三组探针的每一组包括与其他组探针中的探针相同的基因座退火的至少一个探针。在有些情况下,与相同基因座退火的每个探针包含相同的标记。
在有些情况下,样品包含第二染色体的多核苷酸片段,其中第二染色体不同于第一染色体。在有些情况下,该方法还包括对第二染色体的多核苷酸片段分区。在有些情况下,该方法还包括扩增第二染色体的至少一个基因座,从而产生第二染色体的至少一个扩增的基因座。
在有些情况下,该方法还包括用参考探针检测第二染色体上的至少一个扩增的基因座,其中该参考探针是这组至少三个探针中的第四探针,其中该参考探针包含与该组中其他探针的标记不同的标记。在有些情况下,至少两组各至少三个探针的每一组包括参考探针,其中该参考探针与第二染色体退火,且其中该第二染色体不同于第一染色体。在有些情况下,每一组中的参考探针与第二染色体的相同序列退火。在有些情况下,至少两组各至少三个探针的每一组包括与第一染色体的不同基因座退火的三个探针和与第二染色体退火的参考探针,其中该第二染色体不同于第一染色体。在有些情况下,每一组中的参考探针包含相同的标记。在有些情况下,标记包括染料。在有些情况下,标记包括荧光染料。
在有些情况下,至少三个基因座位于染色体不包含一个或更多个拷贝数变异的区域。在有些情况下,至少三个基因座的每一个位于染色体的至少1kb的一段内。在有些情况下,至少三个基因座的每一个位于染色体的一段内。在有些情况下,确定至少三个基因座的排列包括使用计算机执行的算法。
在有些情况下,该方法还包括对包含第一染色体的样品执行下一代测序,从而产生下一代测序数据。在有些情况下,确定至少三个基因座的排列包括输入连锁频率和下一代测序数据到计算机执行的算法中。在有些情况下,下一代测序数据包括关于一个或更多个染色体断点的数据。在有些情况下,下一代测序数据被用来选择至少三个基因座用于扩增。在有些情况下,下一代测序数据被用来确定样品中的一个或更多个基因座是否包含多于一个等位基因。在有些情况下,下一代测序数据被用来确定具有拷贝数变异的区域中的一个或更多个基因座是否包含多于一个等位基因。
在有些情况下,该方法还包括确定在至少两个不同基因座上的等位基因是否位于相同染色体上。在有些情况下,至少三个基因座中的至少两个因多态性而不同。在有些情况下,确定至少三个基因座的排列包括确定对染色体每个基因座的扩增程度。在有些情况下,扩增包括聚合酶链式反应(PCR)。在有些情况下,PCR包括数字PCR。在有些情况下,数字PCR包括液滴数字PCR(dropletdigitalPCR)。在有些情况下,一对引物被用来扩增多个基因座的每一个。
在有些情况下,第一染色体上基因座与第二染色体上至少一个基因座的连锁为0%。在有些情况下,确定连锁频率包括计算包含来自具有不同标记的两个不同探针的信号的分区的数目。在有些情况下,确定连锁频率包括计算包含来自具有不同标记的两个不同探针二者的信号的分区的数目。在有些情况下,确定连锁频率包括确定包含随机分离到同一分区中的基因座的分区的数目。在有些情况下,确定连锁频率包括测量观察到的包含共定位的基因座的分区的数目与预期的包含由于两个独立分离的基因座的随机泊松分布导致的共定位的基因座的分区的数目之间的差异。
在有些情况下,被较小距离分隔的两个基因座的连锁频率大于被较大距离分隔的两个基因座的连锁频率。在有些情况下,连锁频率取决于样品中多核苷酸的断裂程度。在有些情况下,较高的断裂程度产生较低的连锁频率。
在有些情况下,每一组与第一染色体退火的至少三个探针由具有不同标记的三个探针组成,并且连锁频率可在与三个探针退火的扩增的基因座中确定。在有些情况下,样品不进行预断裂步骤。在有些情况下,样品进行预断裂步骤。在有些情况下,样品来自具有神经病症的受试者。在有些情况下,该神经病症是阿尔兹海默病。在有些情况下,该神经病症是孤独症。在有些情况下,该神经病症是精神***症。
在有些情况下,下一代测序包括焦磷酸测序。在有些情况下,下一代测序包括桥扩增(bridgeamplification)。在有些情况下,下一代测序被用来确定拷贝数变异的存在或不存在。
在有些情况下,第一染色体包括一个或更多个拷贝数变异。
在有些情况下,分区包括分开第一染色体的多核苷酸片段以使得每个分区包含零或一个第一染色体的具有基因座的多核苷酸片段。在有些情况下,分区包括分开第一染色体的多核苷酸片段以使得每个分区平均包含约0.2拷贝的第一染色体的包含至少三个基因座中的一个基因座的多核苷酸片段。在有些情况下,分区包括分开第二染色体的多核苷酸片段以使得每个分区包含零或一个第二染色体的具有至少一个基因座的多核苷酸片段。
在有些情况下,分区包括分开第二染色体的多核苷酸片段以使得每个分区平均包含约0.2拷贝的第二染色体的包含至少三个基因座中的一个基因座的多核苷酸片段。
在有些情况下,确定连锁频率包括对第一基因座和第二基因座阳性的分区的丰度与第一基因座、第二基因座和第三基因座阳性的分区的丰度进行比较。在有些情况下,第一基因座和第二基因座阳性的分区的丰度大于第一基因座、第二基因座和第三基因座阳性的分区的丰度,其中第一基因座和第二基因座在三个基因座中物理距离最近。
在有些情况下,至少三个基因座包括基因座A、B和C,且产生以下分区群:没有基因座的分区;具有单个基因座A、B或C的分区;具有基因座A和B的分区;具有B和C的分区;和具有基因座A、B和C的分区。
在另一方面,提供了非暂时计算机可读媒介,其上已存储指令序列,所述指令序列当被计算机***执行时,促使计算机***执行:确定第一染色体的至少三个扩增的基因座中的连锁频率,其中包括第一染色体的多核苷酸片段的样品被获得;第一染色体的多核苷酸片段被分区;来自第一染色体的多核苷酸片段的至少三个基因座被扩增;且第一染色体的至少三个扩增的基因座用至少三个探针检测,其中所述至少三个探针中的每一个包括不同的标记;且基于连锁频率确定第一染色体上至少三个基因座的排列。
在有些情况下,确定至少三个基因座的排列包括确定至少三个基因座的第一基因座和第二基因座之间的距离。在有些情况下,确定至少三个基因座的排列包括确定至少三个基因座的第二基因座和第三基因座之间的距离。在有些情况下,确定至少三个基因座的排列包括确定至少三个基因座的第一基因座和第三基因座之间的距离。在有些情况下,距离是相对距离。在有些情况下,通过与标准比较连锁频率确定距离。在有些情况下,该标准基于被已知距离分隔的分子的连锁频率。在有些情况下,确定至少三个基因座的排列包括确定第一染色体上第一基因座、第二基因座和第三基因座的顺序。
在有些情况下,确定连锁频率还包括用第二组至少三个探针检测第一染色体的多个扩增的基因座,其中第一组探针的第一探针与第一基因座退火,第一组的第二探针与第二基因座退火,第二组的第一探针与第一基因座退火,且第二组探针的第二探针与第二基因座退火。在有些情况下,第一组探针的第三探针与第三基因座退火,且第二组探针的第三探针与第四基因座退火,其中第三基因座与第四基因座不同。
在有些情况下,确定连锁频率还包括用至少两组至少三个探针检测第一染色体的至少三个扩增的基因座,其中每组中的每个探针包含不同的标记。在有些情况下,每一组探针包含具有相同标记的探针。在有些情况下,每一组探针包含至少三个探针,其中一组中的每个探针包含不同的标记。
在有些情况下,至少两组探针中的每个探针与不同的基因座退火。在有些情况下,第一组至少三个探针包括与第二组的至少三个探针中的至少一个探针相同的基因座退火的至少一个探针。在有些情况下,每一组中的每个探针包含不同的标记。在有些情况下,每一组探针包含相同的标记。在有些情况下,第一组至少三个探针包括与第二组至少三个探针中的至少两个探针相同的基因座退火的至少两个探针。在有些情况下,包含至少三个探针的至少三组探针的每一组包括与其他组探针中的探针相同的基因座退火的至少一个探针。在有些情况下,与相同基因座退火的每个探针包含相同的标记。
在有些情况下,样品包含第二染色体的多核苷酸片段,其中所述第二染色体不同于第一染色体。
在有些情况下,确定连锁频率还包括对第二染色体的多核苷酸片段分区。在有些情况下,确定连锁频率还包括扩增第二染色体的至少一个基因座,从而产生第二染色体的至少一个扩增的基因座。在有些情况下,确定连锁频率还包括用参考探针检测第二染色体上的至少一个扩增的基因座,其中该参考探针是这组至少三个探针中的第四探针,其中该参考探针包含与该组中其他探针的标记不同的标记。
在有些情况下,至少两组至少三个探针的每一组包括参考探针,其中该参考探针与第二染色体退火,且其中该第二染色体不同于第一染色体。在有些情况下,每一组中的参考探针与第二染色体的相同序列退火。在有些情况下,至少两组至少三个探针的每一组包括与第一染色体的不同基因座退火的三个探针和与第二染色体退火的参考探针,其中该第二染色体不同于第一染色体。在有些情况下,每一组中的参考探针包含相同的标记。在有些情况下,标记包括染料。在有些情况下,标记包括荧光染料。在有些情况下,至少三个基因座位于染色体的不包含一个或更多个拷贝数变异的区域。
在有些情况下,至少三个基因座的每一个位于染色体至少1kb的一段内。在有些情况下,至少三个基因座的每一个位于染色体的一段内。
在有些情况下,确定至少三个基因座的排列包括使用计算机执行的算法。
在有些情况下,对包含第一染色体的样品执行下一代测序,从而产生下一代测序数据。在有些情况下,确定至少三个基因座的排列包括将连锁频率和下一代测序数据输入到计算机执行的算法中。在有些情况下,下一代测序数据包括关于一个或更多个染色体断点的数据。在有些情况下,下一代测序数据被用来选择至少三个基因座用于扩增。在有些情况下,下一代测序数据被用来确定样品中的一个或更多个基因座是否包含多于一个等位基因。在有些情况下,下一代测序数据被用来确定具有拷贝数变异的区域中的一个或更多个基因座是否包含多于一个的等位基因。
在有些情况下,进一步确定在至少两个不同基因座上的等位基因是否位于相同染色体上。在有些情况下,至少三个基因座中的至少两个因多态性而不同。在有些情况下,确定至少三个基因座的排列包括确定染色体每个基因座的扩增程度。
在有些情况下,扩增包括聚合酶链式反应(PCR)。在有些情况下,PCR包括数字PCR。在有些情况下,数字PCR包括液滴数字PCR。在有些情况下,一对引物被用来扩增多个基因座的每一个。在有些情况下,第一染色体上基因座与第二染色体上至少一个基因座的连锁为0%。在有些情况下,确定连锁频率包括计算包含来自具有不同标记的两个不同探针的信号的分区的数目。在有些情况下,确定连锁频率包括数包含来自具有不同标记的两个不同探针二者的信号的分区的数目。在有些情况下,确定连锁频率包括确定包含随机分离到同一分区中的基因座的分区的预期数目。在有些情况下,确定连锁频率包括测量观察到的包含共定位基因座的分区的数目相对于包含由于两个独立分离基因座的随机泊松分布导致的共定位的基因座的预期的分区的数目之间的差异。
在有些情况下,被较小距离分隔的两个基因座的连锁频率大于被较大距离分隔的两个基因座的连锁频率。在有些情况下,连锁频率依赖于样品中多核苷酸的断裂程度。在有些情况下,较高的断裂程度产生较低的连锁频率。在有些情况下,每一组与第一染色体退火的至少三个探针由具有不同标记的三个探针组成,并确定与三个探针退火的扩增的基因座间的连锁频率。
在有些情况下,样品不进行预断裂步骤。在有些情况下,样品进行预断裂步骤。
在有些情况下,样品来自具有神经病症的受试者。在有些情况下,该神经病症是阿尔兹海默病。在有些情况下,该神经病症是孤独症。在有些情况下,该神经病症是精神***症。
在有些情况下,下一代测序包括焦磷酸测序。在有些情况下,下一代测序包括桥扩增。在有些情况下,下一代测序被用来确定拷贝数变异的存在或不存在。
在有些情况下,第一染色体包括一个或更多个拷贝数变异。
在有些情况下,分区包括分开第一染色体的多核苷酸片段以使得每个分区包含零或一个第一染色体的具有基因座的多核苷酸片段。在有些情况下,分区包括分开第一染色体的多核苷酸片段以使得每个分区平均包含约0.2拷贝的第一染色体的包含至少三个基因座中的一个基因座的多核苷酸片段。在有些情况下,分区包括分开第二染色体的多核苷酸片段以使得每个分区包含零或一个第二染色体的具有至少一个基因座的多核苷酸片段。在有些情况下,分区包括分开第二染色体的多核苷酸片段以使得每个分区平均包含约0.2拷贝的第一染色体的包含至少三个基因座中的一个基因座的多核苷酸片段。
在有些情况下,确定连锁频率包括对第一基因座和第二基因座阳性的分区的丰度与第一基因座、第二基因座和第三基因座阳性的分区的丰度进行比较。在有些情况下,第一基因座和第二基因座阳性的分区的丰度大于第一基因座、第二基因座和第三基因座阳性的分区的丰度,且其中第一基因座和第二基因座在三个基因座中物理距离最近。
在有些情况下,至少三个基因座包括基因座A、B和C,且其中产生以下分区群:没有基因座的分区;具有单个基因座A、B或C的分区;具有基因座A和B的分区;具有B和C的分区;和具有基因座A、B和C的分区。
在另一方面,提供了用于确定第一多核苷酸上的第一基因座与第二基因座之间的距离的方法,该方法包括a)将包含第一和第二基因座的样品分到多个分区中;b)确定包含第一基因座但不包含第二基因座的分区的数目;c)确定包含第二基因座但不包含第一基因座的分区的数目;d)确定包含第一基因座和第二基因座的分区的数目;e)确定既不包含第一基因座也不包含第二基因座的分区的数目;f)基于步骤b-e中的数目确定样品中第一基因座和第二基因座的连锁频率;和g)基于该连锁频率确定第一多核苷酸上的第一基因座与第二基因座之间的距离。
在有些情况下,第一多核苷酸是染色体。
在有些情况下,确定距离包括与标准比较第一基因座和第二基因座的连锁频率。在有些情况下,该标准基于第二连锁频率产生。在有些情况下,第二连锁频率是第二多核苷酸上被已知距离分隔的至少两个基因座的连锁频率。在有些情况下,第一多核苷酸和第二多核苷酸是相同的。在有些情况下,第一多核苷酸和第二多核苷酸是不同的。在有些情况下,第一多核苷酸和第二多核苷酸来自相同样品。在有些情况下,第一多核苷酸和第二多核苷酸来自不同样品。在有些情况下,第一多核苷酸和第二多核苷酸是来自同一样品的相同染色体。在有些情况下,第一多核苷酸是第一染色体而第二多核苷酸是第二染色体。
在有些情况下,标准是标准曲线。在有些情况下,标准是等式。在有些情况下,等式基于多对基因座的连锁频率。在有些情况下,多对基因座各自被已知距离分隔。在有些情况下,根据测序数据得知距离。在有些情况下,多对基因座各自具有共同的基因座。在有些情况下,多对基因座在相同的第二多核苷酸上。在有些情况下,第一多核苷酸和第二多核苷酸是相同的。在有些情况下,第一多核苷酸和第二多核苷酸是不同的。在有些情况下,第一多核苷酸和第二多核苷酸来自同一样品。在有些情况下,第一多核苷酸和第二多核苷酸来自不同样品。在有些情况下,第一多核苷酸和第二多核苷酸是来自同一样品的相同染色体。在有些情况下,第一多核苷酸是第一染色体而第二多核苷酸是第二染色体。
在有些情况下,第一多核苷酸来自具有三核苷酸重复疾病(tri-nucleotiderepeatdisease)的受试者。在有些情况下,第一基因座和第二基因座在具有三核苷酸重复区域的区域侧翼。在有些情况下,三核苷酸重复区域被扩大。在有些情况下,三核苷酸重复疾病是脆性X(FragileX)、亨廷顿病(Huntington'sdisease)、齿状核红核苍白球路易体萎缩症(Dentatorubropallidoluysianatrophy)、脊延髓肌萎缩症(Spinobulbarmuscularatrophy)、肯尼迪病(Kennedydisease)、脊髓小脑性共济失调(Spinocerebellarataxia)、弗里德希氏共济失调(Friedreich'sataxia)或肌强直性营养不良(Myotonicdystrophy)。
通过引用并入
本说明书中提到的所有出版物、专利和专利申请通过引用并入本文,其程度就如同每个单独的出版物、专利或专利申请被特别地和单独地指出通过引用并入一样。
附图简述
新颖的特征在所附权利要求中以细节给出。对特征和优点的更好的理解将通过参考给出例示性实施方式和附图的以下详述获得,在这些实施方式中利用了本文描述的方法和组合物的原理,且附图中:
图1显示用于定位基因组重排的4重连锁测定的实施方式。
图2显示被绘制成对于4重连锁测定的二维图的四维液滴幅度图,在4重连锁测定中四个探针中的每个在不同的通道发出荧光,所述通道在这里被显示为象限。
图3显示用于定位基因组重排的假想连锁分析测定的假想结果。
图4显示假想连锁分析的假想结果的图表。
图5显示具有基因组重排的染色体的假想连锁分析测定的假想结果。
图6显示具有基因组重排的染色体的假想连锁分析测定的假想结果。
图7显示估计靶序列的拷贝数的流程图。
图8显示其中两条靶序列在母本染色体上的实例和其中一条靶序列在母本染色体上且一条在父本染色体上的实例。
图9a显示用于确定靶序列的连锁的流程图。
图9b显示用于确定靶序列的连锁的备选流程图。
图10显示可用共定位测定分析的基因重排的实例。
图11是根据本公开内容的方面列出可在利用样品分区中进行扩增的示例性单倍型分析方法中执行的步骤的流程图。
图12是根据本公开内容的方面执行图11的方法的示例性***的所选择的方面的示意图。
图13是根据本公开内容的方面可通过位于受试者遗传物质中相同染色体类型上的一对SNP产生的示例性单倍型的示意图。
图14是根据本公开内容的方面显示示例性形式的图11的方法的性能的流程图的示意图,液滴作为分区并分析来自图13的受试者的遗传物质以区分出图13中呈现的潜在的单倍型。
图15是根据本公开内容的方面显示用于相互关联图14的扩增数据的可选方法的图。
图16显示用于预测两个靶间的断裂的流程图。
图17显示连锁和未连锁的靶。图17A显示未连锁的靶T1和T2。图17B显示连锁的T1和T2与未连锁的T1和T2的混合物。图17C显示T1和T2之间不同的间距。
图18和19显示当选择限制酶时可考虑的信息。
图20A和20B显示可进入数据库的测定信息。
图21显示用于ddPCR实验的流程的实例。
图22显示在液滴产生中的最大伸展。
图23显示作为样品流速的函数的最大伸展。
图24描绘了未消化的样品1-10和消化的样品11-20的液滴特性。
图25A和25B显示通过共定位的单倍型分析。
图26是由FAM和VIC探针识别的间隔1K、10K或100K碱基的示意性例示序列。
图27显示核酸的片段。T1和T2是靶序列。图27A显示其中T1和T2一直在分开的核酸上的情形(完全断裂)。图27B显示其中T1和T2一直连锁在一个核酸上的情形(没有断裂)。图27C显示其中T1和T2连锁在一些核酸上且也在分开的核酸上的情形(部分断裂)。
图28显示DNA品质评估(DNAqualityassessment)。
图29显示利用具有不同等位基因的复制的基因座的连锁分析。
图30显示连锁分析的另一实施方式。
图31显示连锁分析。
图32显示“mile”标志物测定。
图33显示Y轴上的连锁分子作为X轴上隔开“mile”标志物与锚定序列的距离的函数的百分比。
图34显示根据从起始密码子到终止密码子测量的基因长度分类的在人基因组内的所有基因。
详述
概要
本文提供了用于定位染色体区域的方法、组合物和试剂盒。通过例如聚合酶链式反应(PCR),例如数字PCR(dPCR),例如液滴数字PCR(ddPCR)的扩增可用于染色体定位。在有些情况下,PCR(例如dPCR)和下一代测序被用来定位染色体区域以使得准确的基因组组装成为可能。数字PCR可被用来确定染色体上基因座的排列,例如染色体上基因座的方向性顺序。在有些情况下,数字PCR可被用来确定染色体重排的存在或不存在。染色体重排的存在或不存在可通过与参考染色体做比较确定。参考染色体可具有一个或更多个重排;在有些情况下,参考染色体不具有一个或更多个重排。在有些情况下,确定染色体重排的存在或不存在无需与参考染色体做比较。
通过下一代测序获得的相对拷贝数信息可与通过dPCR测量的长距离信息(long-rangeinformation)联合来产生染色体图谱。例如,下一代测序数据能够提供关于DNA中的断点的信息,且这种信息可用于制作最终的染色体组装。最终的染色体组装可包括区域、两个不同区域之间的距离和/或每个区域的扩增程度的图谱。这种信息可用来帮助鉴别疾病和治疗疾病的方法。
在有些情况下,染色体定位可涉及以下技术的一种或更多种:下一代测序(包括下一代末端配对测序)、PCR(例如数字PCR)、荧光原位杂交(FISH)、基于微阵列的测定、长距离PCR、Southern印迹分析、比较基因组杂交和核型分析。例如,样品的下一代测序能够表明检测到拷贝数变异区域的多个等位基因。例如,第一基因可具有每细胞多个拷贝,例如5个拷贝/细胞,且这些拷贝可具有使其能够被区分的多态性(例如SNP)。多态性可用来定位每个等位基因存在于样品核酸中的位置(例如,在相同或不同染色体上)。
多核苷酸上基因座的连锁可用于方向性染色体定位。由于样品中多核苷酸的断裂,在染色体上被分隔较远距离的基因座与在该染色体上被以不太远距离物理分隔的基因座相比不太可能在多核苷酸上物理连锁。这种现象能够引起产生方向性定位信息的能力。例如,在数字PCR实验中,在稀释条件下分区中基因座共定位的频率能够反映在染色体上分隔基因座的距离。在染色体上相对靠近在一起的两个基因座能够以比在一个染色体上相对远距离的两个基因座大的频率共定位在一个分区中。
本文描述的方法能够用于非染色体的多核苷酸。在有些情况下,本文描述的方法用于人工染色体或合成染色体。
确定染色体重排和定向的染色体定位
包含多个多核苷酸的样品可用于染色体定位。多个多核苷酸可包含来自第一染色体的多个多核苷酸。多个多核苷酸可包含来自第二染色体的多个多核苷酸。多个多核苷酸可包含来自第一染色体和第二染色体的多个多核苷酸。多个多核苷酸可以是来自约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体(例如人染色体)的多个多核苷酸。多个多核苷酸可以是来自至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的多个多核苷酸。多个多核苷酸可以是来自多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的多个多核苷酸。多个多核苷酸可以是来自少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的多个多核苷酸。
核酸的断裂可使连锁的基因座分离。在有些情况下,样品中的多个多核苷酸片段可通过断裂产生。例如,可通过机械剪切、使样品通过注射器、超声处理、热处理(例如在90℃下30min)和/或核酸酶处理(例如,用DNA酶、RNA酶、内切核酸酶、外切核酸酶或限制酶)对样品中的核酸进行预断裂步骤。可对样品进行多个预断裂步骤。在有些情况下,样品不进行预断裂步骤;例如在有些情况下,片段因纯化过程的副作用而产生。在某尺寸范围内的多核苷酸片段可通过例如通过凝胶电泳和纯化、尺寸排阻层析或透析的分离来选择。在有些情况下,核酸的断裂可发生在从样品纯化核酸的过程中。例如,核酸的断裂可根据是否使用基于磁珠的方法或基于硅石的方法制备核酸而不同。
在有些情况下,选择小于10Mb、5Mb、1Mb、0.5Mb、0.1Mb、50kb、25kb、10kb、5kb或1kb的多核苷酸片段。在有些情况下,选择大于10Mb、5Mb、1Mb、0.5Mb、0.1Mb、50kb、25kb、10kb、5kb或1kb的多核苷酸片段。在有些情况下,选择约10Mb、5Mb、1Mb、0.5Mb、0.1Mb、50kb、25kb、10kb、5kb或1kb的多核苷酸片段。在有些情况下,选择至少10Mb、5Mb、1Mb、0.5Mb、0.1Mb、50kb、25kb、10kb、5kb或1kb的多核苷酸片段。在有些情况下,多核苷酸是整个染色体。在有些情况下,可选择具有约10Mb、5Mb、1Mb、0.5Mb、0.1Mb、50kb、25kb、10kb、5kb或1kb的平均尺寸的多核苷酸片段。可选择具有约1kb到约10Mb、约1kb到约1Mb、约1kb到约0.1Mb、约1kb到约10kb、或约10kb到约100kb的平均尺寸的多核苷酸片段。
本文提供了用于确定第一染色体上基因座的排列的方法,该方法包括:a)获得包含所述第一染色体的多核苷酸片段的样品;b)对所述第一染色体的多核苷酸片段分区;c)扩增来自所述第一染色体的多核苷酸片段的多个基因座,从而产生所述第一染色体的多个扩增的基因座;d)用至少三个探针检测所述第一染色体的多个扩增的基因座,其中所述至少三个探针的每一个包含不同的标记;e)确定所述第一染色体的扩增的基因座的连锁频率;和f)基于所述连锁频率,确定所述第一染色体上基因座的排列。基因座的排列可包含至少三个基因座。基因座的排列可包括线性核酸上基因座的顺序和/或线性核酸上基因座之间的距离。在有些情况下,线性核酸上基因座的排列可包括染色体上基因座的方向性排序(directionalordering)。基因座之间的距离可以是定量性距离、半定量性距离、估计距离、计算距离、绝对距离或相对距离。
可用一组探针进行测定来确定染色体上基因座的排列。例如,一组4个探针可被用来进行4重测定。在有些情况下,4重测定被用来产生关于染色体排列、重排的信息和/或染色体的方向性定位信息。使用多个4重测定来确定第一染色体上基因座的排列的测定实例在实施例1中提供并且在图1中显示。4重测定可包括包含四个探针或由四个探针组成的一组探针。一组中的四个探针可具有不同的标记,例如,不同的染料,例如不同的荧光团。在有些情况下,一组探针包括具有三个不同标记的三个探针,且这些探针与第一染色体上的不同基因座退火,且具有另一标记的第四(参考)探针与第二染色体(例如,对照染色体)上的基因座退火。在有些情况下,第一染色体和第二染色体是不同的。在有些情况下,第一染色体和第二染色体是相同的。多个4重测定可被用来定位染色体(例如,确定染色体上基因座的顺序和/或确定染色体上基因座之间的距离)。在有些情况下,不同于第一染色体的第二染色体的探针可被用来确定第一染色体是否是多体的或第一染色体的一个或更多个部分是否包括拷贝数变异。例如,如果第一染色体被扩增,具有来自第一染色体上第一基因座的信号的分区的数目可能多于具有来自第二参考染色体上的基因座的信号的分区的数目。
图1显示九个4重测定的实例。第一个(“1”)4重测定可包括四个探针:与B1退火的探针、与G1退火的探针、与O1退火的探针和与R1退火的探针。B1、G1和O1的探针可与第一染色体(102)退火。R1的探针可与第二染色体(104)退火。第一个4重测定中的每个探针可具有不同的标记(例如以不同的颜色:B(蓝色);G(绿色);O(橙色);和R(红色)发荧光的染料)。在数字测定(例如dPCR,例如ddPCR)中探针共定位的频率可被用来确定探针所退火的基因座的连锁频率。在该实例中,在包含基因座的核酸被稀释的条件下,R1不应该频繁地与B1、G1或O1共定位,因为包含基因座B1、G1和O1的第一染色体(102)不同于(例如,未物理连接于)包含基因座R1的第二染色体(104)。
当多个测定用来分析核酸时,来自不同测定的一个或更多个探针可与同一基因座退火。例如,当多个4重测定用来分析核酸时,来自不同4重测定的探针可与相同基因座退火。例如,图1中的第二个4重测定(“2”)可包括四个探针:与G1退火的探针、与O1退火的探针、与B2退火的探针和与R1退火的探针。第二个4重测定可包含三个探针与第一个4重测定中的探针相同的基因座(G1、O1和R1)退火。第一个4重测定和第二个4重测定之间共有的两个探针可与第一染色体(102)上相同的基因座:G1和O1退火。在第一个4重测定和第二个4重测定之间共有的探针之一,R1,可与第二染色体(104)退火。第三个4重测定(“3”)可包括针对O1的探针、针对B2的探针和针对G2的探针和针对R1的探针。第三个4重测定的探针中的三个,O1、B2和R1,可以和第二个4重测定的探针中的三个与相同的序列退火。第三个4重测定的探针中的两个,O1和B2,可以和第二个4重测定的探针中的两个与第一染色体上的相同基因座退火。第三个4重测定的探针之一,R1,可以与第二个4重测定的一个探针相同的基因座退火。
与相同基因座退火的探针可以具有相同序列。在有些情况下,与相同基因座退火的探针可以具有不同序列。例如,与相同基因座退火的两个不同探针可具有不同的长度或与该基因座的不同区域退火。
在一个或更多个4重测定中的基因座的连锁频率可被用来确定染色体上基因座的顺序和在染色体或核酸片段上一个或更多个基因座之间的距离。
多个4重测定可被用来分析染色体,例如,多个4重测定可被用来确定染色体上基因座的顺序和/或染色体上基因座之间的距离。例如,约2、5、10、25、50、100、250、500、1000、2500、5000、10,000、25,000、50,000或100,000个4重测定可被用来分析染色体。可进行约2到约10、约10到约25、约25到约100、约100到约250、约250到约1000、约1000到约2500、约2500到约10,000或约10,000到约100,000个4重测定来分析染色体。在有些情况下,多于2、5、10、25、50、100、250、500、1000、2500、5000、10,000、25,000、50,000或100,000个4重测定可被用来分析染色体。
可使用4重测定确定的染色体上两个基因座之间的距离可以是约2、5、10、25、50、100、250、500、1000、2500、5000、10,000、25,000、50,000、75,000或100,000、250,000、500,000、750,000或1,000,000bp或碱基。可使用4重测定确定的染色体上两个基因座之间的距离可小于2、5、10、25、50、100、250、500、1000、2500、5000、10,000、25,000、50,000、75,000或100,000、250,000、500,000、750,000或1,000,000bp或碱基。可使用4重测定确定的染色体上两个基因座之间的距离可以是约大于2、5、10、25、50、100、250、500、1000、2500、5000、10,000、25,000、50,000、75,000或100,000、250,000、500,000、750,000或1,000,000bp或碱基。可使用4重测定确定的染色体上两个基因座之间的距离可以是约2到约10碱基或bp、约10到约100碱基或bp、约100到约1000碱基或bp、约1000到约10,000碱基或bp、约10,000到约100,000碱基或bp或约100,000到约1,000,000碱基或bp。可使用标准物确定基因座之间的距离。
染色体上多个基因座的方向性顺序可使用本文描述的方法、组合物和/或试剂盒确定。例如,使用本文描述的方法可确定在染色体上的顺序的基因座的数目可以是约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、500、1000、5000、10,000、50,000、100,000、500,000或1,000,000。使用本文描述的方法、组合物或试剂盒可确定在染色体上的顺序的基因座的数目可小于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、500、1000、5000、10,000、50,000、100,000、500,000或1,000,000。使用本文描述的方法、组合物或试剂盒可确定在染色体上的顺序的基因座的数目可大于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、200、500、1000、5000、10,000、50,000、100,000、500,000或1,000,000。使用本文描述的方法、组合物或试剂盒可确定在染色体上的顺序的基因座的数目可以是约2到约10、约10到约25、约25到约50、约25到约100、约100到约500、约100到约1000、约1000到约5000、约1000到约10,000、约10,000到约100,000或约100,000到约1,000,000。
在有些情况下,3重测定被用来产生关于染色体排列、重排的信息和/或染色体的方向性定位信息。3-重测定可包括包含三个探针或由三个探针组成的一组探针,所述三个探针具有三个不同标记,例如不同染料,例如不同荧光团。在有些情况下,一组探针包括具有三个不同标记的三个探针,且这些探针与第一染色体上的不同基因座退火。在有些情况下,一组中的探针均不与第二染色体退火,其中第二染色体不同于第一染色体。多个3重测定可被用来定位染色体。3重测定可缺少与对照染色体退火的探针;例如,3重测定中的所有三个探针可都与第一染色体退火。多个3重测定可被用来分析染色体。例如,第一个(“1”)3重测定可包括三个探针:与B1退火的探针、与G1退火的探针和与O1退火的探针(见图1的示例性基因座顺序)。针对B1、G1和O1的探针可与第一染色体退火。第一个3重测定中的每个探针可具有不同的标记(例如以不同的颜色:B(蓝色);G(绿色);O(橙色);和R(红色)发荧光的染料)。数字测定(例如dPCR,例如ddPCR)中探针共定位的频率可被用来确定探针所退火的基因座的连锁频率。
当多个3重测定用来分析核酸时,来自不同3重测定的探针可与相同基因座退火。例如,第二个3重测定(“2”)可包括三个探针:与G1退火的探针、与O1退火的探针和与B2退火的探针(见图1的示例性基因座顺序)。第一个3重测定和第二个3重测定中的两个探针可与第一染色体上相同的基因座:G1和O1退火。第三个3重测定(“3”)可包括针对O1的探针、针对B2的探针和针对G2的探针(见图1的示例性基因座顺序)。第三个3重测定的探针中的两个,O1和B2,可以和第二个3重测定的探针中的两个与相同的序列退火。第三个3重测定的探针中的两个,O1和B2,可以和第二个3重测定的探针中的两个与第一染色体上的相同基因座退火(见图1的示例性基因座顺序)。
一个或更多个3重测定中的基因座连锁频率可被用来确定染色体上基因座的顺序和染色体上一个或更多个基因座之间的距离。可使用一个或更多个3重测定确定的基因座之间的距离可以与可使用以上所述的4重测定确定的距离相同。可通过将连锁频率与标准比较来确定距离。
在有些情况下,2重测定可用来产生关于染色体排列、重排的信息和/或染色体的方向性定位信息。2重测定可包括包含两个探针或由两个探针组成的一组探针,所述两个探针具有两个不同标记,例如不同染料,例如不同荧光团。在有些情况下,一组探针包括具有两个不同标记的两个探针,且这些探针与第一染色体上的不同基因座退火。在有些情况下,一组中的探针均不与第二染色体退火,其中第二染色体不同于第一染色体。多个2重测定可以被用来定位染色体(例如多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个2重测定)。当多个2重测定被用来分析染色体时,每个测定可包含与另一个2重测定中的探针相同的一个探针。至少两个不同的2重测定中的探针上的标记在所述至少两个不同的2重测定中可以相同。可使用一个或更多个2重测定确定的基因座之间的距离的实例可以是可使用4重测定确定的距离。
在有些情况下,用于分析染色体的测定是2重测定(包括2个探针或由2个探针组成)、3重测定(包括3个探针或由3个探针组成)、4重测定(包括4个探针或由4个探针组成)、5重测定(包括5个探针或由5个探针组成)、6重测定(包括6个探针或由6个探针组成)、7重测定(包括7个探针或由7个探针组成)、8重测定(包括8个探针或由8个探针组成)、9重测定(包括9个探针或由9个探针组成)或10重测定(包括10个探针或由10个探针组成),其中包含第一标记的一个探针与对照染色体上的基因座退火,且具有其他标记的探针与靶染色体上的不同基因座退火。
多个2重、3重、4重、5重、6重、7重、8重、9重或10重测定可用来定位染色体。多组探针的组合可被用来对染色体上基因座方向性排序。被用来在染色体上方向性排序基因座的多组中探针的数目可以是不同的(例如,第一组探针可包含3个探针,而第二组探针可包含4个探针)。多组探针之间或多个测定之间可与相同基因座退火的探针的数目可以是n-1、n-2、n-3、n-4、n-5、n-6、n-7、n-8、n-9、n-10,其中n是每组探针或每个测定中探针的总数。例如,两个4重测定或两组4个探针之间可与相同基因座退火的探针的数目可以是3(4-1)、2(4-2)、1(4-3)或0(4-4)。两个3重测定或两组3个探针之间可与相同基因座退火的探针的数目可以是2(3-1)、1(3-2)或0(3-3)。两个5重测定或两组5个探针之间可与相同基因座退火的探针的数目可以是4(5-1)、3(5-2)、2(5-3)、1(5-4)或0(5-5)。
在有些情况下,一组探针不包括与对照染色体退火的探针。对照染色体可以与被定位的染色体相同,且对照探针可与距离感兴趣的基因座的至少100、1000、10,000、100,000或1,000,000碱基退火。
在有些情况下,探针在溶液中。在有些情况下,探针与固体支持体例如珠或芯片连接。
本文描述的测定可用来确定染色体上基因座的排列。一旦确定,该信息可用作参考染色体来确定另一染色体上基因座的排列。图5显示在参考染色体(502)上基因座的排列和在第二染色体(506)上基因座的排列的实例。图5显示在第二染色体上的某些基因座相对于在参考染色体上的基因座被重排。具有基因座排列的参考染色体可从数据库例如基因组数据库获得。
在有些情况下,与第一染色体退火的一组中的探针可各自与该第一染色体上约0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。在有些情况下,与第一染色体退火的多组探针中的探针可各自与该第一染色体上约0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。
与第一染色体退火的一组中的探针可各自与该第一染色体上大于0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。在有些情况下,与第一染色体退火的多组探针中的探针可各自与该第一染色体上大于0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。在有些情况下,与第一染色体退火的多组探针中的探针可各自与第一染色体上为第一染色体全长的一段核酸序列上的基因座退火。
与第一染色体退火的一组中的探针可各自与该第一染色体上小于0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。在有些情况下,与第一染色体退火的多组探针中的探针可各自与该第一染色体上小于0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。
与第一染色体退火的一组中的探针可各自与该第一染色体上至少0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。在有些情况下,与第一染色体退火的多组探针中的探针可各自与该第一染色体上至少0.001、0.0025、0.005、0.0075、0.01、0.015、0.02、0.025、0.03、0.035、0.04、0.045、0.05、0.055、0.06、0.065、0.07、0.075、0.08、0.085、0.09、0.095、0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.6、7、7.1、7.2、7.3、7.4、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.1、9.2、9.3、9.4、9.5、9.6、9.7、9.8、9.9、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100Mb的一段核酸序列上的基因座退火。
在有些情况下,可与一组中的探针退火的第一染色体上的一段核酸为约0.01到约1MB、约0.01到约0.1MB、约0.01到约0.05MB、约50kb到约100kb、约50kb到约200kb或约50kb到约500kb。在有些情况下,可与第一染色体退火的多组探针中的探针可各自与第一染色体上约0.01到约1MB、约0.01到约0.1MB、约0.01到约0.05MB、约50kb到约100kb、约50kb到约200kb或约50kb到约500kb的一段核酸序列上的基因座退火。
在有些情况下,多个4探针组被用于染色体的方向性定位。一组中的每个探针可包含不同的标记,而每组探针可包含相同的标记。在有些情况下,探针组之间的标记是不同的。在有些情况下,一组中的每个探针与不同的基因座退火。
在有些情况下,用于确定染色体上基因座的排列和/或定位染色体的探针组的数目是约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900或1000。
在有些情况下,用于确定染色体上基因座的排列和/或定位染色体的探针组的数目是大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900或1000。
在有些情况下,用于确定染色体上基因座的排列和/或定位染色体的探针组的数目是小于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900或1000。
在有些情况下,用于确定染色体上基因座的排列和/或定位染色体的探针组的数目是至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900或1000。
在有些情况下,用来确定染色体上基因座的排列和/或定位染色体的探针组的数目为约1到约1000、约1到约100、约1到约10、约5到约500、约5到约100、约10到约100、约2到约20、约5到约100、约10到约100、约10到约50、约5到约50或约5到约25。
在有些情况下,在约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体上的基因座的排列被确定和/或定位。在有些情况下,在多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体上的基因座的排列被确定和/或定位。在有些情况下,在少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体上的基因座的排列被确定和/或定位。在有些情况下,在至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体上的基因座的排列被确定和/或定位。
多组探针组中的单个探针可以相同和/或可以与相同序列退火。例如,第一组的三个或四个探针可包括至少两个探针与第二组的三个或四个探针中的至少两个探针相同的基因座退火。在有些情况下,第一组的三个或四个探针可包括至少三个探针与第二组的三个或四个探针中的至少三个探针相同的基因座退火。在有些情况下,多组探针组之间的相同探针(或与相同序列退火的探针)之一与对照染色体退火。在有些情况下,一组探针中的两个探针各自与靶染色体上的相同基因座退火。在有些情况下,一组探针中的一个探针与靶染色体上的相同基因座退火。在有些情况下,一组探针中的两个探针各自与靶染色体上的相同基因座退火,且该组探针中的一个探针与对照染色体上的相同基因座退火。在有些情况下,多组探针中与相同基因座退火的探针包含相同的标记。
扩增可用来检测靶基因座(例如用探针检测基因座)。在有些情况下,扩增来自约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的基因座。在有些情况下,扩增来自多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的基因座。在有些情况下,扩增来自少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的基因座。在有些情况下,扩增来自至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个染色体的基因座。
在有些情况下,扩增来自第一染色体的多个基因座,并扩增来自第二染色体的一个基因座。在有些情况下,扩增来自第一染色体的多个基因座,并扩增来自第二染色体的多个基因座。在有些情况下,用一组中的第四探针检测第二染色体上的至少一个扩增的基因座,其中第四探针包括与该组中的至少三个探针的标记不同的标记。
在有些情况下,一对引物被用来扩增多个基因座的每一个。扩增的基因座可通过使探针与该基因座退火来检测。扩增可包括聚合酶链式反应(PCR),PCR可以是数字PCR,且数字PCR可以是液滴数字PCR。扩增可包括本文描述的任何扩增技术。
在数字PCR测定中,核酸可以被分区,且分区可以包括将第一染色体的多核苷酸片段分开以使得每个分区平均包含具有至少一个靶基因座的第一染色体的约0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5或5个多核苷酸片段;分区还可以包括将第二染色体的多核苷酸片段分开以使得每个分区平均包含具有至少一个靶基因座的第二染色体的0、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5或5个多核苷酸片段。在有些情况下,每个分区包含来自第一染色体的包含至少一个靶基因座的0或1个多核苷酸片段。在有些情况下,每个分区包含来自第二染色体的包含至少一个靶基因座的0或1个多核苷酸片段。在有些情况下,分区包含整个染色体。在有些情况下,分区包含整个基因组。
分区可分别地包含单倍体基因组等同物。在有些情况下,每个分区平均包含约0、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5或5个单倍体基因组等同物。每个分区可具有0、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、2、2.5、3、3.5、4、4.5或5个单倍体基因组等同物。在有些情况下,每个分区包含0或1个单倍体基因组等同物。
在有些情况下,本文描述的方法例如基因组定位不涉及核酸扩增。多核苷酸可用探针检测,而无需扩增。
探针上的标记可以是本文描述的任何标记。在有些情况下,探针上的标记包括染料。染料可以是本文描述的任何染料。例如,染料可包括荧光染料。荧光染料可包括FAMTM、VICTM或NEDTM(LifeTechnologies)。
在有些情况下,被扩增和/或检测的基因座位于染色体的不包含一个或更多个拷贝数变异的区域。在有些情况下,被扩增和/或检测的基因座位于染色体的包含一个或更多个拷贝数变异的区域。第一染色体可包含一个或更多个拷贝数变异。下一代测序被用来确定拷贝数变异的存在或不存在。在有些情况下,少量核苷酸多态性可被用来区分具有拷贝数变异的区域中不同的染色体拷贝。在有些情况下,可分析一个或更多个等位基因(例如,SNP)来确定哪个拷贝的扩增部分距离锚点(基因座)更近或更远。如果被扩增的(被复制的)区段相同,区段的顺序可以被确定或不可被确定。例如,图29显示在使用被复制的基因座的不同等位基因的连锁分析中被定位的染色体的结构。以垂直线(1)或水平线(2)画阴影的框是独特的序列。空的矩形(3和4)代表基因的相同拷贝,其例如可以长1Mb。基因座(3)和(4)之间的唯一差异是,基因座(3)具有将碱基改变为“A”等位基因的突变,而基因座(4)具有“G”等位基因,该实例中的野生型等位基因。该SNP的存在能容许这两个拷贝被适当定位。例如,可在两个孔之间进行连锁分析(例如3重反应);第二个孔可用于确认。第一个孔可具有用于检测以下基因座的测定(引物和探针):1、3(A等位基因)和4(G等位基因);第二个孔可具有用于检测基因座3(A等位基因)、基因座4(G等位基因)和基因座2的测定(引物和探针)。基于具有基因座1、3(A等位基因)的分区对具有基因座1、基因座3(A等位基因)和基因座4(G等位基因)的分区的丰度的相对丰度,可确定相比于基因座4(G等位基因)对基因座1,基因座3(A等位基因)更靠近基因座1。同样地,基于包含来自基因座4(G等位基因)和基因座2的信号的分区(例如液滴)的丰度相对于具有基因座3(A等位基因)、基因座4(G等位基因)和基因座2信号的分区的丰度,可确定相比于基因座3(A等位基因)对基因座2,基因座4(G等位基因)更靠近基因座2。
如以上所述,可通过比较双阳性分区(例如液滴)相对于三阳性分区(例如液滴)的丰度完成用于定位目的的连锁分析。
图30A显示了染色体的一部分,其中基因座1是独特的基因座,而基因座2和3是因单SNP而不同的拷贝-基因座2具有“A”且基因座3具有“G”。图30B显示了图30A中显示的染色体部分的3维荧光幅度图(3-dimensionalfluorescenceamplitudeplot)。假定发生随机剪切,可预期各自对于基因座1、基因座2(A等位基因)和基因座3(G等位基因)的单阳性分区(例如液滴)。样品能够以非常低的DNA载量被分析,这样来自单个片段的随机共定位的双阳性分区(例如液滴)的可能性非常低。在该实例中,因为基因座2(A等位基因)位于基因座1和基因座3(G等位基因)之间,所以没有基因座2(A等位基因)也存在于该分区中的基因座1/基因座3(G等位基因)双阳性分区预期不会被观察到,除非这两个靶(基因座1和基因座3)随机共定位到相同分区(例如液滴)。在图30B的图中,每个圆圈的尺寸代表该簇(cluster)中分区(例如液滴)的数目。NED、FAM和VIC是基因座1、2(A等位基因)和3(G等位基因)的探针上的标记。这里,因为FAM-NED簇大于FAM、NED、VIC簇,通过VIC检测的靶在包含用FAM和NED标记的探针的靶的DNA的区域外侧(5'或3')。FAM和VIC簇大于FAM和NED簇。这个结果表明,相比于基因座2(FAM)对基因座1(NED),基因座3(VIC)更靠近基因座2(FAM)。可进行一个或更多个另外的三重测定来获悉基因座3(G等位基因--VIC)是否在基因座2的5'或3'。
确定连锁频率可包括测量观察到的包含共定位基因座的分区(例如液滴)的数目与预期的包含由于两个独立分离基因座的随机泊松分布导致的共定位的基因座的分区的数目之间的差异。在有些情况下,确定基因座的排列和/或定位基因座包括确定第一染色体的基因座之间的距离。确定基因座的排列和/或定位基因座可包括确定染色体每个基因座的扩增程度。确定染色体上基因座的排列可包括确定染色体上基因座之间的距离和确定染色体上基因座的顺序。在有些情况下,确定染色体上基因座的排列可包括确定染色体上基因座之间的距离,确定染色体上基因座的顺序和确定染色体上基因座的扩增程度。
在有些情况下,第一染色体上基因座与第二染色体上至少一个基因座的连锁为0%。在有些情况下,第一染色体和第二染色体是不同的。在有些情况下,第一染色体上基因座与第二染色体上至少一个基因座的连锁大于0%。在有些情况下,第一染色体和第二染色体是相同的。确定连锁频率可包括计算包含来自具有不同标记的两个不同探针的信号的分区的数目。被较小距离分隔的两个基因座的连锁频率大于被较大距离分隔的两个基因座的连锁频率。连锁频率可依赖于样品中多核苷酸的断裂程度。例如,较高的断裂程度可产生较低的连锁频率。
在有些情况下,确定三个基因座彼此间的临近度通过直接比较双阳性液滴与三阳性液滴的丰度实现,其中双阳性簇相比于三阳性簇包含更多分区(例如液滴),且双阳性簇中扩增的基因座是三个筛选的基因座中彼此最靠近的两个基因座。
在有些情况下,对于3重测定,如果使用的DNA的量足够低以至于预期两个独立基因座不会随机分布到相同分区(例如液滴)中,则人们预期仅看到阴性分区(例如液滴),对于三个基因座(A、B和C)中的每个的单阳性分区(例如液滴),两个双阳性簇(A/B和B/C),以及一个三阳性簇(A、B和C)。在该情况下,可能有两个双阳性(A/B和B/C),而不是三个双阳性簇(没有A/C),因为在这个实例中,负载(loading)发生在另一双阳性簇(A/C)应该只通过断裂的拷贝的随机分布而出现的情况下。在有些情况下,产生以下分区群:没有基因座的分区;具有单个基因座A、B或C的分区;具有基因座A和B的分区;具有B和C的分区;和具有基因座A、B和C的分区。在有些情况下,断裂的基因座可随机共定位到相同的分区。例如,如果基因座A和基因座C被大距离分隔,且基因座A在核酸的一个片段上,且基因座C在不同的核酸片段上,偶然地,具有基因座A的核酸片段和具有基因座C的核酸片段可共定位于相同分区。
在有些情况下,每一组与第一染色体上的基因座退火的至少三个探针由具有不同标记的三个探针组成,并且可确定与三个探针退火的扩增的基因座间的连锁频率。
连锁频率可通过比较具有第一基因座和/或第二基因座的分区的总数相对于第一基因座和第二基因座共定位的分区的数目来确定。可基于多个基因座的连锁频率使用算法来产生染色体图谱。
染色体定位可以用一个带图(ideogram)(或多个带图)显示。在有些情况下,染色体定位利用国际细胞遗传学命名***(ISCN)。在ISCN方案中,对染色体编号可在着丝粒开始。染色体可具有短臂(p,短(petite)臂)和长臂(q,长(queue)臂)。染色体的每个臂可被分割成多个区域,且为每个区域指定的数字可随着从着丝粒到端粒的距离增加而变大。
本文还提供了用于例如通过数字分区分析核酸序列的方法、组合物和试剂盒。数字分区(digitalportioning)可用于连锁分析。而且,本文提供了用于估计样品例如基因组中的靶核酸序列的拷贝数的方法、组合物和试剂盒。本文还提供了用于确定样品例如基因组中的一个或更多个靶序列的连锁或单倍型信息的方法、组合物和试剂盒。单倍型分析(haplotyping)信息可以是关于一个靶序列的多个拷贝是否在单个或多个染色体上的信息。利用不同靶在相同分区内共定位的概念,推测状态(phase),即具有一个突变或SNP的特定等位基因是否与具有另一突变或SNP的等位基因物理连接可能是可行的。本文还提供了通过例如数字分析共定位信号来确定核酸样品(例如,基因组DNA样品、RNA样品、mRNA样品、DNA样品、cRNA样品、cDNA样品、miRNA样品、siRNA样品)的断裂或降解程度的方法、组合物和试剂盒。在另一方面,本文提供了用于发现倒位、易位和缺失的方法。
拷贝数变异估计
在有些情况下,拷贝数变异信息被用在染色体定位中。数字PCR可用来分析拷贝数变异。在有些情况下,如果靶核酸序列的多个拷贝在样品中的相同多核苷酸上,对靶序列拷贝数的数字分析(例如dPCR)可能低估样品中靶核酸序列的拷贝数。例如,在具有多个区室(例如,分区,空间上被分隔的区域)的数字PCR测定中,样品中的核酸可以被分区以使得每个区室平均接收约0、1、2或若干个靶多核苷酸。每个分区可平均具有小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。可以计算包含多核苷酸的区室的数目。然而,如果两拷贝的靶核酸序列在单个多核苷酸上,则包含该多核苷酸的区室可能被计数为只具有一个靶序列。
本文提供的方法可确定靶序列的相对位置。例如,靶序列能够以多个拷贝,例如约2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175、200、500、1000、5000、10,000、50,000或100,000拷贝,或大于2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175、200、500、1000、5000、10,000、50,000或100,000拷贝存在于生物体或细胞中。靶序列可相对彼此各自具有序列差异;例如,五个靶序列可存在于细胞或生物体中,且每个靶序列可因多态性而不同。不同的靶序列可彼此间变化至少1、5、10、100或1000碱基或bp的序列。本文提供的方法可用来确定核酸样品中不同靶序列的相对位置(例如,靶在相同还是不同的染色体上)。
在有些情况下,为了确定拷贝数变异,可将靶核酸序列物理分离。本文提供的方法能够避免由于在单个多核苷酸上存在多个靶序列拷贝而低估靶序列的拷贝数。图7显示拷贝数估计方法的实施方式的概观(701);这幅图和在本公开内容中提供的其他图仅为例示性目的而并非旨在限制本文描述的方法。图7中的步骤能够以任何适合的顺序和组合进行且能够与本公开内容的任何其他步骤联合。获得多核苷酸的第一样品(711);第一样品可以是例如基因组DNA样品。可以将第一样品中的靶核酸序列物理分离(例如,通过使第一样品与一个或更多个限制性内切酶接触)(721)。可以将第一样品分隔到多个分区中(731)。可以计算具有靶序列的分区的数目(741)。然后可估计靶的拷贝数(751)。
靶核酸可以是相同的;或者,在其他情况下,靶核酸可以是不同的。在有些情况下,靶核酸定位在相同的基因内。在有些情况下,靶核酸各自定位在基因的不同拷贝(相同或几乎相同的拷贝)中。仍在其他情况下,靶序列定位在内含子内或在基因之间的区域中。有时,一个靶序列定位在一个基因中;而第二靶序列定位在该基因之外。在有些情况下,靶序列定位在外显子内。
在有些情况下,基因组包括一个靶序列。在有些情况下,基因组包括两个或更多个靶序列。当基因组包括两个或更多个靶序列时,靶序列可以是约或大于50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或100%相同的。
物理分离两个靶序列可包括通过切割核酸序列上特定位点而物理分离这些靶序列。在有些情况下,物理分离靶核酸序列可包括使第一样品与一种或更多种限制酶接触。物理分离靶核酸序列可包括在位于靶核酸序列之间的位点处消化多核苷酸。在有些情况下,靶核酸序列各自位于一个基因内。在有些情况下,被靶向消化的位点位于两个基因之间。在有些情况下,被选择消化的位点位于一个基因中;且在有些情况下,该基因是与包含靶序列的基因相同的基因。在其他情况下,被选择消化的位点位于与靶序列的基因不同的基因中。在有些情况下,靶序列和被靶向消化的位点位于相同的基因中;且靶序列位于被靶向消化的位点的上游。在其他情况下,靶序列和被靶向消化的位点位于相同的基因中;但靶序列位于被靶向消化的位点的下游。在有些情况下,可通过用一种或更多种限制酶处理核酸样品来使靶核酸分离。在有些情况下,可通过剪切使靶核酸分离。在有些情况下,可通过超声使靶核酸分离。
在物理分离步骤(例如,用一种或更多种限制酶消化)之后,样品可被分配到多个分区中。所述多个分区中的每一个可包含约0、1、2或若干个靶多核苷酸。每个分区可平均具有小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个液滴具有零个靶核酸拷贝。
可在分区中扩增靶核酸。在有些情况下,扩增包括使用一个或更多个TaqMan探针。
方法还可以包括计算包含参考核酸序列的分区的数目的步骤。参考核酸序列可以是已知以一定拷贝数/基因组存在的,且可用来估计样品中靶核酸序列的基因组拷贝数。估计拷贝数可包括将包含靶序列的分区的数目与包含参考核酸序列的分区的数目进行比较。CNV估计可通过靶核酸序列与参考序列的浓度比确定。
方法还可以包括分析第二样品的步骤,其中该第二样品和第一样品从相同样品(例如,核酸样品被分成第一样品和第二样品)获取。方法还可以包括第二样品不与一种或更多种限制酶接触。在有些情况下,方法还包括将第二样品分离到多个分区中。方法还可以包括计算包含靶序列的第二样品的分区的数目。方法还可以包括数包含参考序列的第二样品的分区的数目。方法可包括估计第二样品中靶序列的拷贝数。估计第二样品中靶序列的拷贝数可包括将来自第二样品的具有靶序列的分区的数目与来自第二样品的具有参考序列的分区的数目进行比较。
可比较来自第一样品的靶序列的拷贝数和第二样品中靶序列的拷贝数来确定第二样品中靶序列的拷贝数是否被低估。拷贝数被低估的程度可能指示被询问的拷贝是否都在一个染色体上,或者,是否至少一个拷贝在一个同源染色体上而至少一个拷贝在另一个同源染色体上。更接近1/二倍体基因组的值可能指示第一种情况,而更接近2的值可能指示第二种情况。
通过扩增确定拷贝数差异的另外的方法被描述在例如美国专利申请公布第20100203538号中。用于确定拷贝数变异的方法被描述在美国专利第6,180,349号和Taylor等人(2008)PLoSOne3(9):e3179中。
当采用本文描述的方法时,可考虑多种特征:
样品制备:要考虑的核酸特性可包括二级结构、扩增子长度和断裂程度。可进行测定来确定核酸样品的断裂程度。如果核酸样品的断裂程度太高,则可将该样品从分析中排除。可采取多个步骤来消除样品中核酸的二级结构。例如可通过调节样品的温度或通过向样品加入添加剂来调整核酸的二级结构。可确定是否潜在的扩增子太大而不能被有效扩增。在一个实施方式中,使用Bioanalyzer来评估核酸(例如DNA)断裂。在另一个实施方式中,使用尺寸排阻层析来评估核酸(例如DNA)断裂。
动态范围:增加分区或空间上隔离的区域的数目能够增加方法的动态范围。可将模板核酸稀释到动态范围。
准确性:如果使用同质性样品(homogenoussample),可预期CNV值落在整数值上(自我参照)。中断的扩增(Drop-outamplification)可能引起不准确的浓度测量值,且因此引起不准确的CNV测定。添加剂(例如DMSO)可在富含GC的测定中添加。
多重化:实验可以是多重的。例如,两种颜色可用在本文提供的方法中:FAM:BHQ和NFQ-MGB测定;VIC:NFQ-MGB,TAMRA。HEX:BHQ。可使用5'和3'标记,且可使用内部标记的染料。在有些情况下,本文提供的方法中使用的颜色的数目大于两种,例如大于3、4、5、6、7、8、9或10种颜色。
精确度:可以以几种方式实现增加的精确度。在有些情况下,增加dPCR实验中液滴的数目能够提高分辨靶核酸与参考核酸之间浓度上的小差异的能力。软件能够通过从单个孔汇集复制物使“metawell”分析成为可能。在有些情况下,本文提供的方法使得检测小于30%、20%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%或1%的拷贝数差异成为可能。
测定格局(Assaylandscape):本文描述的靶基因测定可与市售或定制设计的靶基因测定组合。
本文描述的拷贝数变异可涉及核酸序列的丢失或获得。拷贝数变异可以是遗传的或者可由新生突变引起。CNV可以处于一种或更多种不同的类别。参见,例如,Redon等人(2006)Globalvariationincopynumberinthehumangenome.Nature444pp.444-454。CNV可由简单的新生缺失、由简单的新生复制或由缺失和复制二者产生。CNV可由多个等位基因变体的组合产生。CNV可以是具有新生获得(denovogain)的复杂CNV。CNV可包括约或多于0、1、2、3、4、5、6、7、8、9或10个邻近的基因。CNV可包括约1到约10、约1到约5、约1到约4、约1到约3、约1到约2、约0到约10、约0到约5或约0到约2个邻近的基因。拷贝数变异可涉及约或多于100、500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、500,000、750,000、1百万、5百万或1千万个碱基对的获得或损失。在有些情况下,拷贝数变异可涉及约1,000到约10,000,000、约10,000到约10,000,000、约100,000到约10,000,000、约1,000到约100,000或约1,000到约10,000碱基对的核酸序列的获得或损失。拷贝数变异可以是核酸序列的缺失、***或重复。在有些情况下,拷贝数变异可以是串联重复。
在有些情况下,可从通过被分区的样品的实时PCR或ddPCR产生的荧光信号估计CNV单倍型。在实时PCR或ddPCR实验的晚期阶段之前,当试剂可能变得有限时,具有靶序列的较高拷贝数的分区相比于具有靶序列的较低拷贝数的分区可具有更高的信号。可对样品(例如,连锁实验中使用的样品的子样品)分区,且可对分区(例如,液滴)进行PCR。分区的平均荧光强度可在它们经历对于靶和/或参考核酸序列的指数扩增时确定。平均强度可对应于靶的起始拷贝的数目。如果多个靶沿单个多核苷酸链连锁,捕获到该链的分区(例如液滴)中的强度可能大于捕获到仅具有单个靶拷贝的链的分区(例如液滴)的强度。具有较高平均幅值的阳性液滴的过量存在可能暗示着具有多个CNV拷贝的单倍型的存在。反过来,仅具有低平均幅值的阳性液滴的存在可能暗示着仅具有单CNV拷贝的单倍型存在于样品中。可基于分区的尺寸和分区中试剂的量优化用来估计CNV的循环的数目。例如,具有较低量的试剂的较小分区相比于预期会有较高量的试剂的较大分区可能需要较少的扩增循环数。
本文描述的方法可被用来分析在多核苷酸上彼此靠近,例如相距小于10、9、8、7、6、5、4、5、2、1、0.7、0.5、0.3、0.2、0.1、0.05或0.01兆碱基或在多核苷酸上彼此非常靠近,例如相距小于10、9、8、7、6、5、4、3、2或1千碱基的靶拷贝。在有些情况下,本文提供的方法用于分析在多核苷酸上彼此非常靠近,例如相距在约1、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900或950个碱基对(bp)之内的靶拷贝。在有些情况下,该方法可用于分析被零(0)个碱基对分隔的靶拷贝。在有些情况下,该方法可被应用于相同的、几乎相同的和完全不同的靶。
本文描述了用于估计一个或更多个靶序列的拷贝数的方法的另外的实施方式。在有些情况下,下一代测序(或大规模平行测序)被用来确定拷贝数变异(参见例如,DuanJ、ZhangJ-G、DengH-W、WangY-P(2013)ComparativeStudiesofCopyNumberVariationDetectionMethodsforNext-GenerationSequencingTechnologies.PLoSONE8(3):e59128.doi:10.1371/journal.pone.0059128)。
确定靶序列的连锁
在有些情况下,染色体定位利用关于两个或更多个基因座(靶序列)的连锁的信息。本文描述的方法可指示两个或更多个靶序列是否在多核苷酸上连锁(例如,该方法可被用来确定靶序列的连锁)。在一个实施方式中,提供了包括下列步骤的方法:物理分离靶序列拷贝(例如,通过使用一种或更多种限制酶)以使得这些拷贝能够被独立分类到多个分区中以便数字读出,以及使用未消化的DNA的读出连同来自消化的DNA的读出来估计靶拷贝如何连锁。例如,本文描述的方法可被用来确定靶序列是否存在于相同染色体上或它们是否在不同染色体上(参见例如,图8)。图8显示了细胞核(左),其中母本染色体包含两个拷贝的靶序列,但对应的父本染色体不包含拷贝;在右侧的细胞核中,母本染色体和对应的父本染色体各含有一个拷贝的靶。
图9a显示了方法的实施方式的流程,步骤的任何顺序没有限制。在一方面,提供包括下列步骤的方法(920):a)将包含多个多核苷酸的样品分成至少两个子样品(922);b)物理分离在第一子样品中物理连锁的靶序列(924);c)将第一子样品分离到第一组的多个分区中(926);d)估计第一子样品中靶序列的拷贝数(928);e)将第二子样品分离到第二组的多个分区中(930);f)估计第二子样品中靶序列的拷贝数(932);g)将所估计的第一子样品中靶序列的拷贝数与所估计的第二子样品中靶序列的拷贝数进行比较来确定样品中靶序列的单倍型(934)。
物理分离在第一子样品中物理连锁的靶序列可包括使第一子样品与一种或更多种限制酶接触。使包含多核苷酸的样品与一种或更多种限制酶接触可包括消化至少两个靶核酸序列之间的核酸序列。在有些情况下,可通过使核酸样品与一种或更多种限制酶接触来分离物理连锁的靶核酸。在有些情况下,可通过剪切分离物理连锁的靶核酸。在有些情况下,可通过超声分离物理连锁的靶核酸。
第一和第二子样品的多个分区中的每一个包含约0、1、2或若干个靶多核苷酸。每个分区可平均具有小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。
可在分区中扩增靶序列。
估计第一子样品中靶序列的拷贝数包括计算包含靶序列的第一子样品的分区的数目。估计第一子样品中靶序列的拷贝数可包括计算包含参考核酸序列的第一子样品的分区的数目。估计第一子样品中靶序列的拷贝数可包括将包含靶序列的第一子样品的分区的数目与第一子样品中包含参考序列的分区的数目进行比较。
在有些情况下,第二子样品不与一种或更多种限制酶接触。估计第二子样品中靶序列的拷贝数可包括计算包含靶序列的第二子样品的分区的数目。估计第二子样品中靶序列的拷贝数可包括计算包含参考序列的第二子样品的分区的数目。估计第二子样品中靶序列的拷贝数可包括将来自第二子样品的具有靶序列的分区的数目与来自第二子样品的具有参考序列的分区的数目进行比较。第一和第二子样品的参考序列可以是相同的序列或不同的序列。
确定靶序列的单倍型可包括将所估计的第一子样品中靶序列的拷贝数与所估计的第二子样品中靶序列的拷贝数进行比较。单倍型可包括在单个多核苷酸上具有两个拷贝的靶序列而在同源多核苷酸上没有拷贝。单倍型分析可包含在第一多核苷酸上的一个拷贝的靶序列和在第二(可能同源的)多核苷酸上的第二个拷贝的靶序列。
在有些情况下,在第一子样品与第二子样品的拷贝数之间的差异越大,越可能的是染色体之一不携带靶拷贝。
图9b显示方法的另一实施方式的流程,步骤的任何顺序没有限制。提供了包括以下步骤的方法(936):a)获得多核苷酸的样品(938)并将多个多核苷酸分成至少两个子样品(940);b)以短循环PCR预扩增第一子样品中的靶序列(942);c)将第一子样品分离到第一组的多个分区中(944);d)估计第一子样品中靶序列的拷贝数(946);e)将没有被预扩增(948)的第二子样品带到第二组的多个分区中(950);f)估计第二子样品中靶序列的拷贝数(952);g)将所估计的第一子样品中靶序列的拷贝数和所估计的第二子样品中靶序列的拷贝数进行比较来确定样品中靶序列的连锁(954)。参见例如,美国专利申请公布第20120322058号,其被为了所有目的通过引用并入。
在有些情况下,用于分离靶的预扩增是特异性靶扩增(STA)(Qin等人2008)NucleicAcidsResearch36e16),其可能需要进行短的预扩增步骤来产生对于靶核酸的不同的未连锁扩增子。
预扩增第一子样品中的靶序列可包括使第一子样品与包含DNA聚合酶、核苷酸和对靶序列特异性的引物的反应混合物接触并扩增该靶序列限定数目的循环。任选地,该方法还包括使用针对参考序列的引物并任选地扩增参考序列限定数目的循环。在一些实施方式中,循环数的数目可在约4到约25个循环的范围。在有些情况下,循环数目少于25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5或4个循环。循环的数目可取决于液滴尺寸和可用试剂的数量而变化。例如,很少的循环可用于具有较小尺寸的分区(例如液滴)。
预扩增的第一子样品可被分配到多个分区中,每个分区平均包含小于一个靶多核苷酸。每个分区可平均具有小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。
估计第一子样品中靶序列的拷贝数可包括计算包含参考核酸序列的第一子样品的分区的数目。估计第一子样品中靶序列的拷贝数可包括将包含靶序列的第一子样品的分区的数目与第一子样品中包含参考核酸序列的分区的数目进行比较。
在有些情况下,第二样品不进行预扩增步骤。第二子样品可被分配到多个分区中,每个分区平均包含约0、1、2或若干个靶多核苷酸。每个分区可具有平均小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。估计第二子样品中靶序列的拷贝数可包括计算包含靶序列的第二子样品的分区的数目。估计第二子样品中靶序列的拷贝数可包括计算包含参考序列的第二子样品的分区的数目。估计第二子样品中靶序列的拷贝数可包括将来自第二子样品的具有靶序列的分区的数目与来自第二子样品的具有参考序列的分区的数目进行比较。第一和第二子样品的参考序列可以是相同的序列或不同的序列。
确定靶序列的单倍型可包括将所估计的第一子样品中靶序列的拷贝数与所估计的第二子样品中靶序列的拷贝数进行比较。单倍型可包含在单个多核苷酸上具有两个靶序列拷贝而在同源多核苷酸上没有拷贝。单倍型可包含在第一多核苷酸上的一个拷贝的靶序列和在第二(可能同源的)多核苷酸上的第二个拷贝的靶序列。
在有些情况下,在第一子样品与第二子样品的拷贝数之间的差异越大,越可能的是染色体之一不携带靶的拷贝。
在又另一方面,本公开内容提供了鉴定多个靶核酸存在于相同多核苷酸上的方法,包括:a.将包含多个多核苷酸的样品分成至少两个子样品,其中该多核苷酸包含第一和第二靶核酸;b.如果第一靶核酸和第二靶核酸存在于相同多核苷酸上,使第一子样品与能够将第一靶核酸与第二靶核酸物理分离的剂接触;c.在步骤b后,将第一子样品分离到第一组的分区中;d.确定包含靶核酸的第一组分区中分区的数目;e.将第二子样品分离到第二组的分区中;f.确定包含靶核酸的第二组分区中分区的数目;和g.将步骤d中获得的值与步骤f中获得的值进行比较以确定第一靶核酸和第二靶核酸是否存在于相同的多核苷酸内。
样品可具有足够高的分子量以使得如果一对靶在相同染色体上,它们大多数也能在溶液中连锁。如果样品中的核酸(例如DNA)是完全未断裂的,读出可能是0、1或2个拷贝(整数)的靶。然而,因为核酸(例如DNA)可能被部分降解,拷贝数可以跨非整数值以及大于2的数字。可采取另一步骤来评估样品的核酸断裂,例如通过使用凝胶、Bioanalyzer、尺寸排阻层析或数字PCR共定位法(里程碑测定(milepostassay))。如果发现核酸样品被过度断裂,这减少了可收集关于连锁的信息的可能性。
这种方法可被用来确定较小的拷贝数状态,例如2、3、4。
本文提供了确定靶核酸序列的连锁的方法,该方法利用具有两个不同标记(例如VIC和FAM)的探针来检测相同的靶序列。例如,可将核酸序列分离到多个空间上隔离的分区中,靶序列可在分区中被扩增,且两个不同的探针可用来检测靶序列。可分配核酸样品以使得平均约0、1、2或若干个靶多核苷酸在每个分区中。每个分区可平均具有小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。
如果一个分区包含在多核苷酸上连锁的两个靶,那么该分区可具有针对第一探针(例如,仅VIC(VIC/VIC))、第二探针(例如,仅FAM(FAM/FAM))或两个探针(例如,VIC和FAM)的信号。分区中具有VIC和FAM信号的分区的丰度超过与从第一和第二探针靶的随机分散预期的丰度可能指示,该样品包含具有至少两个靶连锁在一个多核苷酸上的多核苷酸。没有具有两种信号(例如,VIC和FAM)的分区的过度丰度可能指示,两个靶核酸序列在样品中没有连锁。
确定基因座之间的距离
本文提供了用于确定多核苷酸上基因座之间的距离的方法。本文提供了用于确定第一多核苷酸上第一基因座与第二基因座之间的距离的方法,该方法包括a)将包含第一和第二基因座的样品分配到多个分区中;b)确定包含第一基因座但不包含第二基因座的分区的数目;c)确定包含第二基因座但不包含第一基因座的分区的数目;d)确定包含第一基因座和第二基因座的分区的数目;e)确定既不包含第一基因座也不包含第二基因座的分区的数目;f)基于步骤b-e中的数目,确定样品中第一基因座和第二基因座的连锁频率;和g)基于该连锁频率,确定第一多核苷酸上的第一基因座与第二基因座之间的距离。在有些情况下,包含第一基因座但不包含第二基因座的分区的数目被确定并用来确定基因座之间的连锁频率。在有些情况下,包含第二基因座但不包含第一基因座的分区的数目被确定并用来确定基因座之间的连锁频率。在有些情况下,包含第一基因座和第二基因座的分区的数目被确定并用来确定基因座之间的连锁频率。在有些情况下,既不包含第一基因座也不包含第二基因座的分区的数目被确定。在有些情况下,步骤b)、c)、d)和e)中的仅一个、两个或三个步骤被执行并用来确定第一基因座与第二基因座之间的连锁频率。
第一多核苷酸可以是染色体,例如人染色体。确定距离可包括与标准比较第一基因座和第二基因座的连锁频率。标准可基于第二连锁频率产生。第二连锁频率可以是第二多核苷酸上被已知距离分隔的至少两个基因座的连锁频率。
在有些情况下,第一多核苷酸和第二多核苷酸多核苷酸是相同的(例如,来自相同样品的相同染色体,或来自不同样品的相同染色体(例如染色体1),等等)。在有些情况下,第一多核苷酸和第二多核苷酸多核苷酸是不同的(例如,第一多核苷酸是来自人样品的染色体1,而第二多核苷酸是来自相同或不同人样品的染色体2,等等)。在有些情况下,第一多核苷酸和第二多核苷酸多核苷酸来自相同样品(例如,第一多核苷酸是来自样品的染色体1,而第二多核苷酸是来自相同受试者的染色体2;或第一多核苷酸和第二多核苷酸都是来自相同样品的染色体1,等等)。在有些情况下,第一多核苷酸和第二多核苷酸来自不同样品。在有些情况下,第一多核苷酸和第二多核苷酸是来自相同样品的相同染色体。在有些情况下,第一多核苷酸是第一染色体而第二多核苷酸是第二染色体。在有些情况下,第一多核苷酸和第二多核苷酸来自不同受试者的样品。在有些情况下,第一多核苷酸和第二多核苷酸来自同一受试者的相同样品。在有些情况下,第一多核苷酸和第二多核苷酸来自同一受试者的不同样品(例如,在受试者被施以治疗之前或之后采得的样品)。
标准可以是标准曲线。在有些情况下,标准是等式。标准曲线可以是对于多个基因座之间的连锁频率和每对基因座之间的已知距离的数据的拟合。在有些情况下,多个基因座之间的连锁频率和每对基因座之间的已知距离之间的关系是线性的;在有些情况下,这种关系是指数性的。等式可基于多对基因座的连锁频率。多对基因座可各自被已知距离分隔。可根据测序数据获知距离。多对基因座可各自共有共同的基因座,例如锚基因座。在有些情况下,多对基因座在相同的第二多核苷酸上。在有些情况下,第一多核苷酸和第二多核苷酸是相同的。在有些情况下,第一多核苷酸和第二多核苷酸是不同的。在有些情况下,第一多核苷酸和第二多核苷酸来自相同样品。第一多核苷酸和第二多核苷酸可来自不同样品。第一多核苷酸和第二多核苷酸可以是来自相同样品的相同染色体。第一多核苷酸可以是第一染色体,而第二多核苷酸可以是第二染色体。基因座之间的距离可以是估计的距离或计算的距离。
在有些情况下,本文描述的方法被用来测量来自患有三核苷酸重复疾病的受试者的多核苷酸中第一基因座和第二基因座之间的距离。在有些情况下,第一基因座和第二基因座在具有三核苷酸重复区域的区域侧翼。在有些情况下,基于来自测序技术例如下一代测序的结果选择第一基因座和第二基因座。在有些情况下,基于参考染色体或基因组的分析选择第一基因座和第二基因座。在有些情况下,第一基因座和/或第二基因座位于三核酸重复区域的5'末端或3'末端的小于10,000、1,000、500、250、100、50、25、10、5或2个碱基或碱基对。在有些情况下,三核苷酸重复区域被扩大。在有些情况下,三核苷酸重复区域包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、200、300、400、500、600、700、800、900或1000个三核苷酸重复。在有些情况下,三核苷酸区域疾病是脆性X、亨廷顿病、齿状核红核苍白球路易体萎缩症、脊延髓肌萎缩症、肯尼迪病、脊髓小脑性共济失调、弗里德希氏共济失调、肌强直性营养不良。三核苷酸重复疾病可以是聚谷氨酰胺(PloyQ)病,例如齿状核红核苍白球路易体萎缩症、亨廷顿病(HD)、脊髓小脑性共济失调1型(SCA1)、脊髓小脑性共济失调2型(SCA2)、脊髓小脑性共济失调3型(SCA3或Machado-Joseph病)、脊髓小脑性共济失调6型(SCA6)、脊髓小脑性共济失调7型(SCA7)或脊髓小脑性共济失调17型(SCA17)。在有些情况下,三核苷酸重复疾病是非聚谷氨酰胺病,例如脆性X综合征(FRAXA)、脆性X相关的震颤/共济失调综合征(FXTAS)、脆性XE智力低下(FRAXE)、弗里德希氏共济失调(FRDA)、肌强直性营养不良(DM)、脊髓小脑性共济失调8型(SCA8)或脊髓小脑性共济失调12型(SCA12)。在有些情况下,通过基于确定的在三核苷酸重复区域侧翼的第一基因座和第二基因座之间距离确定疾病状态。
共定位
样品分区和分析分区中多个靶的能力能够容许检测样品中在空间上簇集在一起的靶。这种空间簇集分析可通过评估具有靶的特殊组合的分区的数目与如果靶被随机分布在分区中将预期的数目相比是否处于统计过量而完成。这些分区的过度丰富的程度可被用来估计靶的组合的浓度。
例如,人们可利用数字PCR(例如ddPCR)测量两种靶:A和B。例如,将会有四种类型的液滴:对于两种靶阴性的液滴、对A阳性的液滴、对B阳性的液滴和对二者均阳性的液滴。在随机分布之下,双阳性液滴的数目应该接近(液滴的总数)×(具有至少B的液滴的分数)×(具有至少A的液滴的分数)。如果双阳性液滴的数目明显超出预期,则可做出推断:两个靶在样品中彼此临近。该结果可能意味着,靶A和B由于例如在同一多核苷酸上而物理连锁,意味着它们是同一蛋白/核酸复合物的一部分,意味着它们是同一外来体的一部分,或意味着它们是同一细胞的一部分。
可通过使用对该靶特异性的荧光团作为基于探针的TaqMan测定方案的一部分评估分区中特定靶的存在。例如,当测量两个靶A和B时,人们可以使用以用于A的FAM标记的探针和以用于B的VIC标记的探针。可以用同一种荧光团或***染料评估不同的靶,所述荧光团或***染料利用终点荧光来区分含有A的分区与含有B的分区与含有A和B的分区。
有时,不发生不同多核苷酸片段上的两个基因座随机分布到同一分区中。
重排
可构建正常情况下在多核苷酸上彼此远离的两个测定物(例如,扩增子)(例如,在染色体上被数百万bp分隔的两个基因)。一个测定物在一条通道上(例如,以FAM标记的探针),另一个在另一通道上(例如,以VIC标记的探针)。在数字扩增方法例如dPCR或ddPCR中,正常情况下,在同一分区(例如液滴)中的共定位不应被观察到在基线统计预期以上。如果FAM和VIC信号的共定位出现(例如,本文描述的连锁分析所测量的),这可能指示重排导致这两个基因座在基因组上彼此靠近。取决于基因座正常地定位在基因组中的哪个位置,这个结果可能指示倒位或易位。如果这些测定物的终点荧光足够不同,它们还可以被复合(multiplexed)到同一通道上。多于两个测定物可以被复合来捕捉多个倒位/易位事件或解释给定易位可能以不同断点存在的事实。
重排的检测可用于对多种病症诊断和预后,包括癌症和胎儿缺陷。重排的检测可用来为受试者选择一种或更多种治疗性治疗。例如,易位t(9;22)(q34.1;q11.2)的检测可导致与慢性粒细胞白血病(CML)相关的BCR-ABL融合蛋白的产生。表达BCR-ABL的CML患者可以用伊马替尼(格列卫)治疗。
可用此处描述的方法检测的重排包括例如倒位、易位、重复或缺失(参见例如,图10)。
在有些情况下,基因组可包含一个或更多个重排,且下一代测序、数字PCR和/或其他技术能够用来确定染色体上基因座的重排和/或将基因座定位到染色体。染色体重排可以是例如,缺失、重复、倒位或易位。
基因组可以包括一个或更多个易位。当非同源染色体之间的部分被重排时可发生易位。易位可以是平衡易位,其中多段染色体被重排但细胞中没有丢失或获得遗传物质。易位可以是不平衡易位,其中染色体材料的交换是不相等的且产生额外的或失去的遗传物质。易位可以是相互的(非罗伯逊易位),其可涉及非同源染色体之间物质的交换。易位可以是罗伯逊易位。罗伯逊易位可涉及融合在着丝粒附近的两个近端着丝粒染色体的重排。易位可能与癌症例如白血病(急性髓性白血病和慢性髓性白血病),例如实体恶性肿瘤如尤文肉瘤(Ewing'ssarcoma)相关。
在有些情况下,基因组可以包括一个或更多个倒位。倒位可以是其中染色体的区段被首尾相连地倒转的染色体重排。倒位可能发生在单个染色体经历断裂和自身内的重排时。存在两种类型的倒位:臂内倒位和臂间倒位。臂内倒位不包括着丝粒;两处断裂发生在染色体的一个臂中。臂间倒位可包括着丝粒;断点存在于每个臂中。
在有些情况下,基因组可以包括一个或更多个重复。重复可能发生在染色体的一部分被复制时,产生来自被重复的区段的额外遗传物质。重复可通过同源重组或逆转录转座发生。在有些情况下,整个染色体被重复。重复可由减数***过程中未对齐的(misaligned)同源染色体之间的不相等交换产生。重复可在癌细胞中发生。可具有癌基因扩增的癌症包括乳腺癌(MYC、ERBB2、CCND1、FGFR1、FGFR2)、***(MYC、ERBB2)、结肠直肠癌(HRAS、KRAS、MYB)、食道癌(MYC、CCND1、MDM2)、胃癌(CCNE、KRAS、MET)、胶质母细胞瘤(ERBB1、CDK4)、头颈癌(CCND1、ERBB1、MYC)、肝细胞癌(CCND1)、神经母细胞瘤(MYCN)、卵巢癌(MYC、ERBB2、AKT2)、肉瘤(MDM2、CDK4)和小细胞肺癌(MYC)。
在有些情况下,基因组可以包括一个或更多个缺失。基因组缺失可以是其中染色体的一部分或DNA的序列从基因组中消失的突变。在有些情况下,缺失是单个碱基、两个或更多个碱基或整个染色体。缺失可由以下产生:减数***过程中染色体交换的错误、来自易位的丢失、伴随染色体倒位的染色体交换、不相等交换或染色体断裂而无再接合。在有些情况下,缺失可导致移码突变。在有些情况下,缺失是末端缺失,其可朝向染色体末端发生。在有些情况下,缺失是中间缺失(intercalarydeletion)或中间缺失(interstitialdeletion),其可以是发生在染色体内部的缺失。在有些情况下,缺失是微缺失,其可以是最多5000个碱基对的缺失。
证实通过数字实验产生的连锁(单倍型)信息
可使用数字分析确定连锁信息且可通过一个或更多个其他测定证实样品的限制酶消化。在对本文描述的被分区的样品的实时PCR或ddPCR实验过程中的信号产生可被用来证实连锁信息。例如,可对样品(例如,在连锁实验中使用的样品的子样品)分区,且可对分区(例如,液滴)进行PCR。分区的平均荧光强度可在其经历对于靶和/或参考核酸序列的指数扩增时确定。具有含有靶核酸序列的多个(例如2个)连锁的拷贝的多核苷酸的分区可能具有比仅具有一个拷贝的靶核酸序列的液滴高的荧光强度。
长距离PCR可被用来证实连锁信息。例如,PCR可用来检测靶核酸序列的两个串联排列的拷贝在同一染色体上的存在(顺式构型),且它可用来检测在另一染色体上靶核酸序列的缺失。可利用扩增区域(怀疑具有靶的串联拷贝的区域)外侧的引物。DNA多核苷酸可被分配成多个液滴。将DNA多核苷酸分配成多个液滴可能是有益的,因为它能容许检测两种类型的DNA物质:a)具有串联排列的靶的DNA区段和b)具有靶的缺失的DNA区段。如果整批地进行相似的反应(例如,不分配多核苷酸),代表具有缺失的靶的DNA的较小的PCR产物能够超过代表具有串联排列的靶序列的DNA区段的PCR产物。结果是,可能仅产生一种PCR产物。这些PCR产物的尺寸差异可利用例如凝胶电泳或Bioanalyzer来估计。
在有些情况下,具有靶核酸序列的串联排列的拷贝的DNA可能太大以至不能被PCR成功扩增(例如,尺寸>20KB)。在这些情况下,通常仅较小的PCR产物被扩增,代表具有缺失的靶核酸序列的DNA区段。如果靶核酸序列太大而不容许产生PCR产物,可对含有对于靶核酸序列的缺失的染色体进行PCR。在这种情况下,如果PCR跨越该序列缺失的区域那么可产生产物,但如果靶序列存在那么可能不会产生产物,因为引物之间的距离可能太大。
长距离PCR可用来决定连锁或确定拷贝数估计。长距离PCR可与本文提供的方法结合使用。父母或其他亲属的基因型可被用(单独或与本文提供的方法一起)来推断靶个体的拷贝数状态。
可使用重组DNA技术克隆染色体区域且可对染色体区域的个别拷贝测序。下一代测序可用来鉴定近距离间隔(例如,相距小于2000核苷酸、小于1000核苷酸、小于500核苷酸、小于200核苷酸或小于100核苷酸)且一起存在于同一序列读段(read)中的多态性相关的信息,且本文提供的方法可用来鉴定相距更远(例如,相距大于约5、10、50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1250、1500、1750、2000、2500、3000、3500、4000、4500或5000个核苷酸)的多态性相关的信息。本文描述的方法可用来鉴定相距更远(例如,相距大于约5、10、50、100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1250、1500、1750、2000、2500、3000、3500、4000、4500或5000个核苷酸)的多态性相关的信息。在有些情况下,该方法包括使用本文描述的方法结合使用受试者的父母或其他近亲属的基因型信息利用孟德尔定律推断状态信息(phaseinformation)。然而这种方法在有些情况下不能定相每种多态性。一些实施方式包括结合对于连锁确定的统计方法使用本文提供的方法。
单倍型
单倍型可以指一起存在于或连锁在单个染色体上(例如,在同一染色体拷贝上)和/或在同一段核酸和/或遗传物质上的两个或更多个等位基因。定相(phasing)可以是确定等位基因是否一起存在于同一染色体上的过程。确定基因组中哪些等位基因被连锁对于考虑基因如何被遗传可能是有用的。本公开内容提供了用于通过扩增被分区的样品进行单倍型分析的***,包括方法和装置。
图11显示列出了可在单倍型分析的示例性方法(20)中进行的步骤的流程图。这些步骤能够以任何适合的顺序和组合进行且能够与本公开内容的任何其他步骤联合。可获得样品(22),一般从具有二倍体或更多套(complement)的染色体的受试者获得。样品可以被分区(24)。对样品分区可包括分配或划分包含样品的核酸的水相。可扩增一对(或更多)多态性基因座(26)。可为每个多态性基因座收集等位基因特异性扩增数据(28)。多态性基因座和来自相同体积份的扩增数据可以被相互关联(30)。可选择多态性基因座的单倍型(32)。
可对从受试者诸如人获得的样品进行单倍型分析。含有样品核酸的水相可被分配成多个不连续的体积份,如液滴。每个体积份可平均包含小于该核酸的一个基因组等同物,以使得每个体积份平均包含小于约一个拷贝的第一多态性基因座的等位基因和连锁的第二多态性基因座的等位基因。可扩增该核酸中来自第一多态性基因座和第二多态性基因座中的每一个的至少一条等位基因序列。可从单个体积份收集对于每个基因座的可区分的等位基因特异性扩增数据。可将对于第一基因座的等位基因特异性扩增数据与来自相同体积份的第二基因座的等位基因特异性扩增数据相互关联。可基于等位基因特异性扩增数据的关相互联选择对于第一和第二基因座中的每一个的核酸单倍型。一般地说,如果等位基因序列构成受试者的单倍型,该方法可依赖于在相同体积份中共扩增来自不同基因座的等位基因序列,且反过来,如果等位基因序列不构成受试者的单倍型,那么可缺少共扩增。
单倍型分析***可包括被配置成形成包含核酸的水相的液滴的液滴发生器。该***还可以包括被配置为收集来自各个体积份的对于每个基因座的等位基因特异性扩增数据的检测器。该***还可以包括处理器。可以配置处理器来将对于第一基因座的等位基因特异性扩增数据与来自相同体积份的对于第二基因座的等位基因特异性扩增数据相互关联,并基于等位基因特异性扩增数据的相互关联选择核酸单倍型。
任选地,样品可被分成子样品。任选地,第一子样品可与切割多态性基因座之间的位点的限制酶接触;且第二子样品可任选地被暴露于限制酶。任选地,可将来自第一子样品的等位基因特异性扩增数据与来自第二子样品的等位基因特异性扩增数据相关联。
本公开内容的另外的方面呈现在以下部分:(I)定义,(II)***概述,(III)示例性的由连锁的SNP产生的可能的单倍型,(IV)通过液滴中的扩增的示例性单倍型分析和(V)被选择的实施方式。
I.定义
本公开内容中使用的技术术语具有本领域技术人员通常认识的含义。然而,如以下所述,以下术语可具有另外的含义。
序列变异可以是一个群的成员之中或受试者和/或样品的染色体类型的多个拷贝之间/之中发现的基因组序列上的任何分歧。序列变异还可以称为多态性。
基因座可以是基因组的特定区域,一般是小于一千个碱基或小于一百个核苷酸的较短区域。
多态性基因座可以是群体中存在和/或受试者和/或样品中存在序列变异的基因座。多态性基因座可因两个或更多个不同的序列共存于基因组的相同位置而产生。不同的序列可因一个或更多个核苷酸置换、缺失/***、和/或任何数目核苷酸,尤其是,通常较小数目的核苷酸如小于50、10或5个核苷酸的重复而彼此不同。多态性基因座可因单核苷酸多态性(“SNP”),即,在群体内变化的单个核苷酸位置而产生。
等位基因可以是共存于多态性基因座的两个或更多个形式之一。等位基因还可以被称为变异体。等位基因可以是存在于多态性基因座的主要或占优势的形式或次要或甚至非常稀少的形式。相应地,来自同一多态性基因座的一对等位基因可以任何适宜比率存在于群体中,诸如约1:1、2:1、5:1、10:1、100:1、1000:1等等。
等位基因序列可以是表征、覆盖和/或与等位基因重叠的一串核苷酸。可利用等位基因序列的扩增来确定对应的等位基因是否存在于样品分区中的多态性基因座。
单倍型可以是在单个染色体上(例如在同一染色体拷贝上)和/或在同一段核酸和/或遗传物质上一起存在或连锁的两个或更多个等位基因;单倍型还指在单个染色体上一起存在或连锁的两个或更多个靶核酸。靶核酸可以是相同的或不同的。
连锁可以是在来自不同的多态性基因座的等位基因之间或之中的连接且还可以是在相同或几乎相同的靶核酸之间或之中的连接。显示连锁(和/或被连接)的多态性基因座通常包括在同一染色体拷贝上一起存在的相应的等位基因,且可以在该同一拷贝上相对彼此靠近,诸如,尤其是在约10、1或0.1兆碱基之内。
在有些情况下,下一代测序可被用来确定多个等位基因在一个或更多个基因座上的存在或不存在。在有些情况下,下一代测序被用来确定多个等位基因在包含拷贝数变异的一个或更多个基因座上的存在或不存在。2重、3重、4重等多重测定可用来确定在一个或更多个基因座上的等位基因例如通过下一代测序识别的等位基因位于相同还是不同的染色体上。在有些情况下,数字PCR(例如液滴数字PCR)可用来确定在不同基因座上的等位基因是否在相同或不同的染色体上。在有些情况下,确定至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个基因座上的等位基因是否在相同或不同的染色体上。
II.单倍型分析的***概述
图11显示列出了可在单倍型分析的示例性方法20中进行的步骤的流程图。这些步骤能够以任何适合的顺序和组合进行且可与本公开内容的任何其他步骤联合。
可获得样品,以22标示。可从受试者,一般是具有二倍体或更多套染色体的受试者获得样品。换言之,受试者通常具有至少两组染色体且每种类型的染色体的至少一对在受试者的细胞中。例如,人体细胞各自包含两个拷贝的染色体1、2、3等以提供23个染色体对(两组染色体)和总计46条染色体。
可分配样品,以24标示。分配样品可包括分配或划分包含样品的核酸的水相。分配将水相分成多个不连续且分离的体积份,所述体积份还可以称为分区。体积份可通过流体诸如连续相(例如油)而彼此分离。可选地,体积份可通过壁诸如样品容器的壁而彼此分离。体积份可被顺序性地或平行地形成。体积份可以是形成乳液分散相的液滴。
可扩增一对(或更多)多态性基因座,以26标示。更特别地,可扩增来自该多态性基因座的每一个的至少一条等位基因序列。每条等位基因序列可以表征该基因座的对应等位基因。在有些情况下,可从每个基因座扩增仅一条等位基因序列,或者可从基因座的至少一个扩增一对等位基因序列。特定的等位基因序列和被扩增的不同的等位基因序列的数目可由在水相被分配之前该水相中包含的特定引物组确定。
可收集对于每个多态性基因座的等位基因特异性扩增数据,以28标示。该数据可与各个体积份中对每条等位基因序列的可区分的扩增(或缺乏扩增)相互关联。该数据可从对应于被扩增的每条等位基因序列且能够与其特异性杂交的可区分的探针检测。该数据可被平行或顺序性地从这些体积份中收集。该数据可通过对扩增信号的光学检测收集。例如,光学检测可包括检测代表每条等位基因序列的可区分的扩增的荧光信号。
对于多态性基因座和来自相同体积份的扩增数据可以被相互关联,以30标示。相互关联通常决定哪些等位基因序列最可能一起存在于单独的体积份中,且因此最初便在受试者的遗传物质中的同一染色体拷贝上彼此连锁。相互关联可包括确定对应于在相同体积份中的不同等位基因序列的共扩增的至少一个相关系数。在有些情况下,相互关联可包括确定对应于同一基因座的一对等位基因序列中的每一个与另一个基因座的一个等位基因序列的共扩增的一对相关系数。相互关联还可以包括彼此和/或与阈值比较多个相关系数,或者可包括确定相关系数是负的还是正的。可对扩增数据进行相互关联,所述扩增数据已通过应用区分扩增阳性和扩增阴性信号的阈值而被转换为二进制形式。相互关联还可以或替代性地可包括比较表现出对不同组的等位基因序列的共扩增的体积份的数目和/或比较表现出对一组等位基因序列的共扩增的体积份的数目与表现出等位基因序列的仅其中之一的扩增的数目。
28和30处标示的步骤中的一个或两个可被确定来自相同体积份中的两个基因座的等位基因序列的共扩增的至少一个测量结果的步骤取代。可使用任何适宜的共扩增测量对象,诸如通过相互关联对于来自相同体积份的多态性基因座的等位基因特异性扩增数据而获得的至少一个相关系数。在其他实例中,共扩增的测量对象可以是代表对来自每个基因座的等位基因序列的共扩增的至少一个数字或频率的至少一个值。将扩增数据和确定共扩增测量结果相互关联的另外的方面被描述在本公开内容的其他地方,诸如在第IV部分中。
可将含有多核苷酸的样品分成两个或更多个子样品。可将第一子样品暴露于在两个多态性基因座之间的位点切割的限制酶。然后可将第一子样品分配到多个分区中。然后可如本文所述的收集对于每个多态性基因座的等位基因特异性扩增数据。可将没有暴露于在两个多态性基因座之间的位点切割的限制酶的第二子样品分配到多个分区中。然后可收集对于每个多态性基因座的等位基因特异性扩增。可将来自第一和第二子样品的扩增数据相互关联来确定多态性基因座的单倍型。
可选择多态性基因座的单倍型,以32标示。选择可基于扩增数据的相关和/或基于至少一个共扩增测量结果。可从被调查的多态性基因座的一组可能的单倍型中选择单倍型。所选择的单倍型通常包括指定可能在受试者的同一染色体拷贝上彼此连接的至少一对特定的等位基因的名字。
图12显示用于执行图11的方法20的示例性***40的所选方面的示意图。该***可包括液滴发生器(DG)42、热循环仪(TC)44、检测器(DET)46和处理器(PROC)48。箭头50-54在***部件之间延伸分别指示液滴(50和52)和数据(54)的变化。
液滴发生器42可形成包含核酸的水相的液滴。液滴可被顺序性地或平行地形成。
热循环仪44可将液滴暴露于多个加热和冷却循环以驱动等位基因序列的扩增,诸如PCR扩增。热循环仪可以是,尤其地,可平行扩增所有的液滴的批量热循环仪(batchthermocycler),或者可以是连续扩增液滴的基于流的热循环仪(flow-basedthermocycler)。
检测器46从液滴收集扩增数据,诸如等位基因特异性扩增数据。检测器可以是例如荧光检测器且可顺序性地或平行地检测液滴。
还可以被称为控制器的处理器48可与检测器46通讯且可被编程为处理来自检测器的扩增数据。可以是数字处理器的处理器可被编程为处理来自检测器的原始数据,以诸如减去背景和/或将基于液滴尺寸的液滴数据标准化。处理器还可以或替代性地可被编程为应用阈值将数据转换为二进制形式,执行扩增数据的相互关联,计算和/或比较共扩增的一个或更多个测量结果,基于关联性和/或测量结果选择单倍型,或其任何组合。
液滴发生器、热循环仪、检测器和控制器的另外的方面被描述在2010年7月8日公布的美国专利申请公布第2010/0173394A1号,通过引用将其并入本文。
III.示例性的由连锁的SNP产生的可能的单倍型
图13示意性地显示了由连锁的SNP产生的单倍型分析情况,其中二倍体受试者60的遗传物质在两个不同基因座的每一个上具有两种不同的核苷酸。单倍体分析的目标是确定第一基因座上的哪个核苷酸与第二基因座上的哪个核苷酸组合在每个染色体拷贝上。
受试者60可具有通过一对单核苷酸多态性66、68产生的两种可选的单倍型构型62、64中的任一种。每种构型代表两个单倍型:构型62具有单倍型(G,C)和(A,T),而构型64具有单倍型(G,T)和(A,C)。受试者的细胞70包括同一类型的一对染色体拷贝72、74。(可能存在于该细胞中的其他染色体类型未被显示)。染色体拷贝72、74在序列上可以大部分彼此相同,但这些拷贝也通常具有许多序列变异的基因座,诸如多态性基因座76、78,其中两个染色体拷贝在序列上不同。基因座76、78被包含在基因组区域或靶区域80中,在细胞70的细胞核中该区域的轮廓通过虚线框描绘且在细胞旁边被放大显示为代表基因座76、78的基因型82的复合序列(compositesequence)。(每个染色体拷贝的仅一条链和靶区域被显示在图6(和图7)中以简化该展示)。
在单倍型分析之前或作为单倍型分析的一部分,基因型82可通过任何适宜的基因分型技术确定。基因型82显示基因座76的单多态性核苷酸在染色体拷贝72和74上是“G”和“A”(或反之亦然),而对于基因座78是“C”和“T”。然而,该基因型没有指出这两个基因座的这些单独的核苷酸如何在染色体拷贝72、74上组合。相应地,基因型可通过可选的、潜在的单倍型构型62、64产生。如本文所公开的单倍型分析容许确定哪些可能的单倍型存在于受试者的遗传物质中。
IV.通过液滴中的扩增的示例性单倍型分析
图14示意性地显示了图11的方法的示例性形式88的性能。这里,分析了来自图13的受试者的遗传物质来区分在前一部分中描述的可选的、可能的单倍型构型。
获得样品90,以92标示。将样品处置成包含受试者的核酸96的水相94。在该视图中,为了简化,只描绘了包含基因组区域80的片段98。片段98足够长以至于仅少数(例如,不完整的片段100、102)不包括来自基因座76、78的等位基因序列104-110(也见于图13)。可配置水相用于等位基因序列104-110的PCR扩增。
形成了液滴112,以114标示。液滴可以是包含将液滴彼此分离的连续相118的乳液116的一部分。液滴可以是单分散的,即,具有大致相同的尺寸。可能适合的示例性单分散度被描述在2010年7月8日公布的美国专利申请公布第2010/0173394A1号中,其被通过引用并入本文。
片段98当其被形成时可随机分布到液滴中。以片段98在被分区的水相中的适当的稀释度下并且伴随液滴尺寸的适当的选择,每个液滴中包含平均小于一个靶区域80的拷贝或分子。因此,一些液滴如以120标示的空液滴不包含靶的拷贝,许多包含靶区域的仅一个拷贝,一些包含靶的两个或更多个拷贝(例如,以122标示的液滴),而一些包含靶区域的仅一个等位基因序列(例如,以124标示的液滴)。
可扩增等位基因序列,以126标示。这里,从基因座76扩增两个等位基因序列104和108,并从基因座78仅扩增等位基因序列110(还见于图13)。每个等位基因序列的扩增拷贝以104'、108'和110'标示。在其他实施方式中,尤其地,可从每个基因座仅扩增一个等位基因序列,或者可从每个基因座扩增至少两个等位基因序列。(例如,可用扩增序列110的相同引物扩增等位基因序列106,但在这里没有显示对等位基因序列106的扩增以简化展示)。
可从液滴收集等位基因特异性扩增数据,以130标示。在这个实例中,收集荧光数据,不同的、可区分的荧光染料各自被包含在不同的等位基因特异性探针中,为每个等位基因序列104'、108'、110'提供扩增信号。特别地,染料FAM、VIC和ROX发出分别与等位基因序列104、108和110的扩增相关的FAM-、VIC-和ROX信号132-136。在其他实施方式中,可检测所有四个等位基因序列104-110或仅两个等位基因序列(每个基因座一个)的等位基因特异性扩增。
将扩增数据相互关联,以140标示,和/或确定在相同液滴中的等位基因序列的共扩增的至少一个测量结果。图142、144示意性地显示了用于相互关联和/或确定共扩增的测量结果的方法。图142绘制了对于单独的液滴的FAM和ROX信号强度(由图中的原点表示),而图144绘制了对于单独的液滴的VIC和ROX信号强度。代表对于给定信号类型(以及由此而来的给定的等位基因序列)的扩增阴性(“-”)和扩增阳性(“+”)液滴的信号值被标示在图的每个轴附近。
直线146、148代表每个图的扩增数据最佳拟合成线性关系。然而,这两种拟合具有相伴随的极性相反的相关系数。图142中的扩增数据提供了负相关系数,因为对于相同液滴中的等位基因序列104(由FAM信号报告)和等位基因序列110(由ROX信号报告)的共扩增存在负相关。相反,图144中的扩增数据提供了正相关系数,因为对于相同液滴中的等位基因序列108(由VIC信号报告)和等位基因序列110(由ROX信号报告)的共扩增存在正相关。可将相关系数相互比较来选择单倍型。例如,可基于哪个相关系数更大(例如,接近1.0)和/或哪个是正的(如果仅一个是正的)来选择单倍型。这里,可基于VIC和ROX信号的正相关选择包括等位基因序列104和106的第一单倍型和等位基因序列108和110的第二单倍型。在有些实施方式中,可基于仅一种相关,诸如基于相关系数是负的还是正的或基于相关系数与预定义值的比较来选择单倍型。
图15示出了显示将图14的扩增数据相互关联的可选方法的柱状图160。已通过对每种液滴信号类型(FAM、VIC和ROX)与区分对于每条等位基因序列的扩增阳性液滴(指定“1”)和扩增阴性液滴(指定“0”)的阈值进行比较将图14的扩增数据转换为二进制形式。图160将数据的二进制形式制表来呈现对于单独或组合的各个等位基因序列的扩增阳性液滴的数目。以162标示的左侧的两个柱容许比较仅包含等位基因序列104(FAM)的液滴的数目与包含两个等位基因序列104(FAM)和110(ROX)的数目。左侧数据显示等位基因序列104的扩增不与等位基因序列110的扩增良好相关。换言之,等位基因序列104和110不倾向于在相同的液滴中共扩增。以164标示的右侧的两个柱容许比较仅包含等位基因序列108(VIC)的液滴的数目与包含两个等位基因序列108(VIC)和110(ROX)的数目。右侧数据显示等位基因序列108的扩增与等位基因序列110的扩增良好相关。换言之,等位基因序列108和110倾向于在相同液滴中共扩增。被分别或一起考虑的左侧这对柱和右侧这对柱指示其中等位基因序列108与等位基因序列110相关的单倍型。
包含遗传连锁的基因座的样品可在被本文描述的方法、组合物或试剂盒分析之前进行断裂。可通过例如机械剪切、使样品通过注射器、超声处理、热处理(例如在90℃30min)和/或核酸酶处理(例如,用DNA酶、RNA酶、内切核酸酶、外切核酸酶或限制酶)使包含遗传连锁的基因座的样品断裂。包含遗传连锁的基因座的样品在被分析之前可不进行处理或进行有限的处理。
在另一实施方式中,利用液滴数字PCR(ddPCR),可进行靶向两个基因组的基因座例如在共有染色体上的两个基因的双重反应。可根据液滴的荧光将其分类成四个群。例如,如果使用FAM标记的探针检测一个基因座而使用VIC标记的探针检测另一个基因座,四个群可以是FAM+/VIC+、FAM+/VIC-、FAM-/VIC+和FAM-/VIC-。通过比较具有这些群的每一个的液滴的数目,确定基因座共分离到同一液滴的频率可以是可能的。利用泊松统计,可相对于两个不同的基因座偶然处于同一液滴中的距离估计实际上彼此连锁的物质的百分比。
可利用本文描述的方法、组合物和试剂盒检验以确定遗传连锁基因座是否仍在样品中连锁或在样品中被分离的遗传连锁基因座的数目可以是大约、至少或大于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100。可利用本文描述的方法、组合物和试剂盒检验以确定遗传连锁基因座是否仍在样品中连锁或在样品中被分离的遗传连锁基因座的数目可以是约2到约10、约2到约8、约2到约6、约2到约4、约3到约10、约3到约8、约3到约6、约4到约10、约4到约6、约10到约100、约10到约50、约10到约25、约10到约20、约5到约100、约5到约50、约5到约25、约5到约20、约5到约15或约5到约10。
每个遗传连锁基因座之间的碱基对的数目可以是大约、至少、大于或小于10bp、25bp、50bp、75bp、100bp、250bp、500bp、750bp、1000bp、2000bp、3000bp、4000bp、5000bp、6000bp、7000bp、8000bp、9000bp、10,000bp、15,000bp、20,000bp、33,000bp、50,000bp、75,000bp、100,000bp、250,000bp、500,000bp、750,000bp、1,000,000bp、1,250,000bp、1,500,000bp、2,000,000bp、5,000,000bp或10,000,000bp。每个遗传连锁基因座之间的碱基对的数目可以是约10到约10,000,000bp、约100到约10,000,000bp、约1,000到约10,000,000bp、约1,000到约1,000,000bp、约1,000到约500,000bp、约1,000到约100,000bp、约3000到约100,000bp、约1000到约33,000bp、约1,000到约10,000bp或约3,000到约33,000bp。每个遗传连锁的等位基因之间的碱基对的数目可以是0bp。
单倍型分析的方法可包括检验在两个不同基因座上的两个等位基因是否共定位在同一空间上分离的分区。可分析在这两个基因座上的另外的等位基因。例如,如果在数字实验中在两个不同基因座上的两个等位基因没有共定位,那么可分析在这两个基因座上的一个或更多个其他等位基因来提供用于共定位的阳性对照。例如,假定母本继承的染色体在基因座1具有等位基因A且等位基因Y在与基因座1相距100bp的基因座2上。在对应的父本继承的染色体上,假定等位基因B在基因座1上且等位基因Z在基因座2上。如果包含这些核酸的核酸样品被分离到空间上分离的分区中,并进行对等位基因A和等位基因Z的扩增,那么对于等位基因A和等位基因Z的扩增信号应该很少或从来不会共定位到一个分区中,因为等位基因A和等位基因Z不连锁。可进行数字分析来确认等位基因A和等位基因Y连锁在母本继承的染色体上或等位基因B和等位基因Z连锁在父本继承的染色体上。
具有两个颜色的单倍型分析
虽然本文所示的实施方式展示使用三色***测量定相,也可以使用双色***测量定相。例如,如果需要对两个杂合SNP(Aa和Bb)定相,人们可以利用以FAM标记的探针靶向A的测定和以VIC标记的探针靶向B的测定。包含A和B二者的分区的过量将指示A和B之间的连锁,表明两个单倍型是A-B和a-b。缺乏这种过量可能表明替代性的单倍型组合:A-b和a-B。人们可以确定DNA具有足够高的分子量来做出后面这个推断。为了确认单倍型的替代性组合,可在单独的孔中进行另一双重测定,在该孔中靶向等位基因的不同组合。例如,可进行FAM测定靶向A并进行VIC测定靶向b。包含A和b二者的分区的过量将指示A和b之间的连锁,表明两个单倍型是A-b和a-B。
参考序列
在涉及拷贝数分析(或本文描述的其他应用)的方法中,计数例如在给定基因组中发现特定序列(例如靶)的次数可能是有用的。该分析可通过评价(或比较)靶核酸序列的浓度和已知以某个固定拷贝数存在于每个基因组中的参考核酸序列的浓度完成。对于参考物,可使用以每个二倍体基因组两个拷贝存在的管家基因(例如,维持基本细胞功能所需要的基因)。将靶的浓度或量除以参考物的浓度或量可产生每个基因组的靶拷贝数的估计值。还可以使用一个或更多个参考物来确定靶连锁。
可在本文描述的方法中用作参考物的管家基因可包括编码以下的基因:转录因子、转录阻遏物、RNA剪接基因、翻译因子、tRNA合成酶、RNA结合蛋白、核糖体蛋白、RNA聚合酶、蛋白加工蛋白、热休克蛋白、组蛋白、细胞周期调控蛋白、凋亡调控蛋白、癌基因、DNA修复/复制基因、碳水化合物代谢调控蛋白、柠檬酸循环调控蛋白、脂质代谢调控蛋白、氨基酸代谢调控蛋白、核苷酸合成调控蛋白、NADH脱氢酶、细胞色素C氧化酶、ATP酶、线粒体蛋白、溶酶体蛋白、蛋白酶体蛋白(proteosomalprotein)、核糖核酸酶、氧化酶/还原酶、细胞骨架蛋白、细胞粘附蛋白、通道或转运蛋白、受体、激酶、生长因子、组织坏死因子等等。可用在所描述的方法中的管家基因的具体实例包括例如,HSP90、β-肌动蛋白、tRNA、rRNA、ATF4、RPP30和RPL3。
为了确定靶的连锁,与另一基因座遗传连锁的基因座之一可以是共有参考物,例如RPP30。在本文描述的方法中可使用任何遗传连锁的基因座。
单拷贝参考核酸(例如基因)可被用来确定拷贝数变异。多拷贝参考核酸(例如多个基因)可被用来确定拷贝数以扩展动态范围。例如,多拷贝参考基因可包括约或大于2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20,21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45,46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70,71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000或100,000个拷贝在基因组中。多个不同的核酸(例如多个不同基因)可用作参考物。
确定核酸断裂的概率
可进行数字分析来确定核酸样品中的两个标志物之间的断裂程度。图16显示流程(1600)。图16中的步骤能够以任何适合的顺序和组合进行且能够与本公开内容的任何其他步骤联合。可获得多核苷酸的样品(1620)。该样品可被分配到多个分区中(1640)以使得每个分区包含平均仅约0、1、2或若干个靶多核苷酸。每个分区可具有平均小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。
可测定分区来计算具有第一靶和第二靶序列的分区(1660)且可使用算法来预测在第一和第二靶序列之间的断裂(1680)。
如果两个不同的基因座(T1和T2)在不同的多核苷酸上,具有这些多核苷酸的样品(1620)将包含仅具有T1和仅具有T2的多核苷酸(参见图17A)。然而,如果T1和T2在同一多核苷酸上,包含具有T1和T2的多核苷酸的样品可有三个种类:断裂的具有T1的多核苷酸、断裂的具有T2的多核苷酸、以及断裂的具有T1和T2的多核苷酸(图17B)。T1和T2之间的距离越长,T1和T2之间断裂的概率越高。样品可以被分区(图16:1640)。可进行数字分析,诸如数字PCR或液滴数字PCR,且可以计算具有T1、T2、以及T1和T2的信号的分区(1660)。可开发算法并用其确定T1和T2之间断裂的概率(1680)。该算法可利用T1和T2之间碱基或碱基对的数目(如果已知的话)。该方法可被用来确定DNA样品的断裂程度。如果包含T1和T2的信号的分区的数目大于人们将预期的T1和T2在同一分区中的分区的数目,这个观察结果可指示T1和T2是连锁的。
可能有利的是在核酸(例如DNA)样品上利用以上方法确保DNA具有足够高的分子量以至于连锁信息被保存在样品中。
在本文描述的任何利用DNA的方法中,可进行测定来估计样品中DNA的断裂,且这些方法可并入关于DNA断裂的信息。在另一实施方式中,可基于样品中DNA的断裂程度将测定的结果标准化。
核酸断裂还可以通过例如凝胶、Bioanalyzer、或尺寸排阻层析测量。
分离
靶序列的物理分离能够以序列特异性或非序列特异性方式发生。用于分离靶序列的非序列特异性手段包括利用注射器、超声处理、热处理(例如在90℃30min)和一些类型的核酸酶处理(例如,用DNA酶、RNA酶、内切核酸酶、外切核酸酶)。
限制酶
分离核酸序列的序列特异性方法可包括使用一种或更多种限制酶。一种或更多种限制酶可用在本文描述的任何方法中。例如,除了其他方法以外,限制酶可用来分离靶拷贝以准确地估计拷贝数状态,评价定相,产生单倍型,或确定连锁。可选择一种或更多种酶使得靶核酸序列之间的核酸(例如DNA或RNA)被限制,但待扩增或分析的区域不被限制。在一些实施方式中,可选择限制酶使得该限制酶确实在靶序列内,例如在靶序列的5'或3'端内切割。例如,如果靶序列被串联排列没有间隔序列,靶的物理分离可包括切割靶序列内的序列。消化的样品可用在数字分析(例如ddPCR)反应中以获得拷贝数估计、连锁确定、单倍型分析、检验RNA或DNA降解或确定例如CpG岛的甲基化负荷。
可选择限制性内切酶且最佳条件可在众多样品和用于广泛应用的测定类型之间鉴定和验证,所述用于广泛应用的测定类型例如用于CNV测定的数字PCR(ddPCR)和本文描述的任何其他方法。计算机软件可被用来选择一种或更多种限制酶用于本文描述的方法、组合物和/或试剂盒。例如,软件可以是Qtools软件。
本文描述的方法、组合物和/或试剂盒中使用的一种或更多种限制酶可以是任何限制性内切酶,包括从NewEnglandInc.(参见www.neb.com)可获得的限制酶。限制酶可以是例如限制性核酸内切酶、归巢内切核酸酶(homingendonuclease)、粘端核酸内切酶(nickingendonuclease)、或高保真(HF)限制酶。限制酶可以是I型、II型、III型或IV型酶或归巢内切核酸酶。在有些情况下,限制性消化发生在高星号活性的条件下。在有些情况下,限制性消化发生在低星号活性的条件下。
I型酶可在远离识别位点的位点切割;可能需要ATP和S-腺苷-L甲硫氨酸二者来发挥作用;且可以是具有限制活性和甲基酶活性的多功能蛋白。I型限制性核酸内切酶的识别序列可以是由两部分构成的(bipartite)的或中断的。限制性核酸内切酶的亚基构型可以是六聚体复合物。I型限制性核酸内切酶的共活化剂和活化剂包括例如镁、AdoMet(S-腺苷甲硫氨酸;SAM、SAMe、SAM-e)和ATP。I型限制性核酸内切酶可在距离识别位点遥远且可变的切割位点切割。I型限制性核酸内切酶的实例可包括例如EcoKI、EcoAI、EcoBI、CfrAI、StyLTII、StyLTIII和StySPI。
II型酶可在识别位点之内或在距离识别位点短的特定距离处切割;可能需要镁;且可能不依赖甲基酶发挥作用。II型限制性核酸内切酶的识别序列可以是回文的或中断的回文序列。II型限制性核酸内切酶的亚基结构可以是同二聚体。用II型限制性核酸内切酶对切割位点的切割能产生具有3'突出端、5'突出端或平端的片段。II型限制性核酸内切酶的实例包括例如EcoRI、BamHI、KpnI、NotI、PstI、Smal和XhoI。
存在几种II型限制性核酸内切酶的亚型,包括IIb型、IIs型和IIe型。
IIb型限制性核酸内切酶可具有由两部分构成的或中断的识别序列。IIb型限制性核酸内切酶的亚基结构可以是异三聚体。IIb型限制性核酸内切酶的辅因子和活化剂可以包括镁和AdoMet(用于甲基化)。IIb型限制性核酸内切酶可距识别位点特定定的、对称的短距离的两侧的两条链上的切割位点处切割并留下3'突出端。IIb型限制性核酸内切酶的实例包括例如,BcgI、Bsp24I、CjeI和CjePI。
IIe型限制性核酸内切酶可具有回文的、具有模糊性的回文或非回文的识别位点。IIe型限制性核酸内切酶的亚基结构可以是同二聚体或单体。IIe型限制性核酸内切酶的辅因子和活化剂可包括镁,且对该核酸内切酶可顺式或反式地起作用的第二识别位点可充当异构效应物(allostericeffector)。IIe型限制酶能够以特定的方式切割具有识别序列或短距离之外的切割位点。活化剂DNA可被用来完成切割。IIe型限制酶的实例包括例如,NaeI、NarI、BspMI、HpaII、SaII、EcoRII、Eco57I、AtuBI、Cfr9I、SauBMKI和Ksp632I。
IIs型限制酶可具有非回文的识别序列。该识别序列可以是连续的且没有模糊性。IIs型限制性核酸内切酶的亚基结构可以是单体的。可与IIs型限制酶一起使用的辅因子可以是镁。IIs型限制酶能够以特定的方式在切割位点处切割,至少一个切割位点在识别序列外。IIs型限制酶的实例包括例如,FokI、A1w26I、BbvI、BsrI、Earl、HphI、MboII、SfaNI和Tth111I。
III型酶能够在距识别位点短距离处切割且可能需要ATP。S-腺苷-L-甲硫氨酸虽可刺激具有III型酶的反应但不是必需的。III型酶可作为具有修饰甲基酶的复合物的一部分而存在。III型限制性核酸内切酶的识别序列可以是非回文的。可与III型限制性核酸内切酶一起使用的辅因子和活化剂包括例如,镁、ATP(未水解的)和相距可变距离的相反方向的第二未修饰的位点。III型限制性核酸内切酶的实例包括例如,EcoP15I、EcoPI、HinfIII和StyLTI。
IV型酶能够靶向甲基化的DNA。IV型限制酶的实例包括例如,大肠杆菌的McrBC和Mrr***。
限制酶可以是归巢核酸内切酶。归巢核酸内切酶可以是双链DNA酶。归巢核酸内切酶可具有大的、不对称的识别位点(例如,12-40碱基对)。归巢核酸内切酶的编码序列可被嵌入在内含子或内含肽(intein)中。内含肽可以是能够将自身切除并用肽键重新连接剩余部分(外显肽(extein))的“蛋白内含子”。归巢核酸内切酶可忍受其识别序列内的某种序列简并性。归巢核酸内切酶的特异性可以是10-12碱基对。归巢核酸内切酶的实例包括I-CeuI、I-SceI、I-Ppol、PI-SceI、PI-PspI和PI-SceI。
在本文的方法、组合物和/或试剂盒中使用的限制酶可以是二聚体、三聚体、四聚体、五聚体、六聚体等等。
在本文描述的方法、组合物和/或试剂盒中使用的一种或更多种限制酶可以是杂合蛋白或嵌合蛋白的组分。例如,限制酶的包含酶活性(例如核酸内切酶活性)的结构域可与另一蛋白例如DNA结合蛋白融合。DNA结合蛋白可将该杂合体靶向到DNA上的特定序列。具有酶活性的结构域的核酸切割活性可以是序列特异性或序列非特异性的。例如,来自IIs型限制性核酸内切酶FokI的非特异性切割结构域可被用作杂合核酸酶的酶(切割)结构域。具有酶活性的结构域可切割的序列可受限于DNA结合结构域对杂合体与DNA的物理捆绑作用。DNA结合结构域可来自真核或原核转录因子。DNA结合结构域可识别约或至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基对的连续核酸序列。在有些情况下,限制酶是4-碱基切割者、6-碱基切割者或8-碱基切割者。DNA结合结构域可识别约9到约18个碱基对的序列。DNA结合结构域可以是例如,锌指DNA结合结构域。该杂合体可以是锌指核酸酶(例如锌指核酸酶)。该杂合蛋白可作为多聚体(例如,二聚体、三聚体、四聚体、五聚体、六聚体等等)起作用。
可在本文描述的方法、组合物和/或试剂盒中使用的具体的限制酶的实例包括AaaI、AagI、AarI、AasI、AatI、AatII、AauI、Abal、Abel、AbrI、AccI、AccII、AccIII、Acc16I、Acc36I、Acc65I、Acc113I、AccB1I、AccB2I、AccB7I、AccBSI、AccEBI、AceI、AceII、AceIII、AciI、AclI、Ac1NI、Ac1WI、AcpI、AcpII、AcrII、AcsI、AcuI、AcvI、AcyI、Add、AeuI、AfaI、Afa22MI、Afal6RI、AfeI、AflI、AflII、AflIII、AgeI、AgeI-HF、AglI、AhaI、AhalI、AhalII、AhaB8I、AhdI、AhlI、AhyI、AitI、AjnI、AjoI、AleI、AlfI、AliI、AliAJI、AloI、AluI、AlwI、A1w21I、A1w26I、A1w44I、A1wNI、A1wXI、Ama87I、AcoI、AocII、AorI、Aorl3HI、Aor51HI、AosI、AosII、ApaI、ApaBl、ApaCI、ApaLI、ApaORI、ApeKI、ApiI、ApoI、ApyI、AquI、AscI、AseI、AselII、AsiSI、AvaI、AvaII、AvrII、BaeGI、Bad、BamHI、BamHI-HF、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAi、BcgI、BciVI、MI、BcoDI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaI-HF、BsaJI、BsaWI、BsaXI、BseRI、BseYI、BsgI、BsiEI、BsiHKAI、BsiWI、Bs1I、BsmAI、BSmBI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BsteII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、BtsIMutI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdeI、DpnI、DpnII、DraI、DraIII、DraIII-HFTM、DrdI、EaeI、EagI、EagI-HFTM、EarI、EciI、Eco53kI、EcoNI、Eco0109I、EcoP15I、EcoRI、EcoRI-HFTM、EcoRV、EcoRV-HFTM、FatI、FauI、Fnu4HI、FokI、FseI、FspEI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HindIII-HFTM、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、I-CeuI、I-SceI、KasI、KpnI、KpnI-HFTM、LpnPI、MboI、MboII、MfeI、MfeI-HFTM、M1uCI、MluI、MlyI、MmeI、Mn1I、MscI、MseI、Ms1I、MspAlI、MspI、MspJI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NcoI-HFTM、NdeI、NgoMIV、NheI、NheI-HFTM、NlaIII、N1aIV、NmeAIII、NotI、NotI-HFTM、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PI-PspI、PI-SceI、PleI、PmeI、Pm1I、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PstI-HFTM、PvuI、PvuI-HFTM、PvuII、PvuII-HFTM、RsaI、RsrII、SacI、SacI-HFTM、SacII、SalI、SalI-HFTM、SapI、Sau3AI、Sau96I、SbfI、SbfI-HFTM、ScaI、ScaI-HFTM、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、Sm1I、SnaBI、SpeI、SphI、SphI-HFTM、SspI、SspI-HFTM、StuI、StyD4I、StyI、StyI-HFTM、SwaI、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI和ZraI。
在本文描述的方法、组合物和/或试剂盒中使用的一种或更多种限制酶可以从多种来源获取。例如,一种或更多种制酶可从重组核酸产生。一种或更多种限制酶可从异源宿主中(例如,细菌、酵母、昆虫或哺乳动物细胞中)的重组核酸产生。一种或更多种限制酶可从异源宿主中的重组核酸产生且从该异源宿主纯化出来。一种或更多种制酶可从天然来源例如细菌或古细菌中纯化。如果使用多于一种限制酶,那么这些限制酶中的至少一种可以来自重组来源且所述多于一种限制酶中的至少一种可来自天然来源。
一种或更多种限制酶的识别位点可以是多种序列的任何一种。例如,一种或更多种限制酶的识别位点可以是回文序列。一种或更多种限制酶的识别位点可以是部分回文序列。在一些实施方式中,一种或更多种限制酶的识别位点不是回文序列。一种或更多种限制酶的识别位点可以是大约或大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个碱基或碱基对。限制酶的识别位点可以是约2到约20、约5到约20、约5到约15、约5到约10、约7到约20、约7到约15或约7到约10个碱基或碱基对。
两种或更多种限制酶可被用来消化多核苷酸。两种或更多种限制酶可识别相同或不同的识别位点。在单个多核苷酸上的两个靶核酸序列之间可存在对于单一限制酶的一个或更多个识别位点。在单个多核苷酸上的两个靶核酸序列之间可存在对于单一限制酶的约或至少1、2、3、4、5、6、7、8、9、10或更多个识别位点。在单个多核苷酸上的两个靶核酸序列之间可存在两个或更多个不同的限制酶识别位点。在单个多核苷酸上的两个靶核酸序列之间可存在约或至少1、2、3、4、5、6、7、8、9、10或更多个不同的限制酶识别位点。在单个多核苷酸上的两个靶核酸序列之间可存在一个或更多个不同的限制酶位点。在单个多核苷酸上的两个靶核酸序列之间可存在约或至少1、2、3、4、5、6、7、8、9、10或更多个限制酶限制位点。
限制酶消化可包括一种或更多种同裂酶(isoschizomer)。同裂酶是识别相同序列的限制性核酸内切酶。同裂酶可具有不同的切割位点;这些酶被称为异裂酶(neoschizomer)。
在一些实施方式中,限制酶切割产生平端。在一些实施方式中,限制酶切割不产生平端。在一些实施方式中,限制酶切割产生两个片段,每个具有5'突出端。在一些实施方式中,限制酶切割产生两个片段,每个具有3'突出端。
可设计用于一个或更多个扩增反应的引物来扩增限制酶切割位点的上游和下游的序列。
在一个实施方式中,限制酶不切割靶核酸序列或参考扩增子。人们可使用参考序列,例如基因组序列来预测限制酶是否将切割核酸序列。在另一个实施方式中,限制酶不剪切靶核酸序列。切割可发生在靶序列之内,靠近靶序列5'或3'端(在约5、10、15、25、50或100bp之内)。
在另一实施方式中,限制酶不剪切靶核酸序列或参考核酸序列或扩增子,即使该序列或扩增子包含一个或更多个SNP。SNP信息可从几个数据库获得,最容易从dbSNP(www.ncbi.nlm.nih.gov/projects/SNP/)获得。
一种或更多种甲基化敏感限制酶可用在本文提供的方法、组合物和试剂盒中。一种或更多种甲基化敏感限制酶可包括,例如DpnI、Acc65I、KpnI、ApaI、Bsp120I、Bsp143I、MboI、BspOI、NheI、Cfr9I、SmaI、Csp6I、RsaI、Ec1136II、SacI、EcoRII、MvaI、HpaII或MspI。甲基化敏感限制酶不能切割核酸中的甲基化的核苷酸(例如胞嘧啶),但能切割未被甲基化的核酸。
在本公开内容中使用的限制酶可被选择为特异性消化核酸序列的选定区域。一种或更多种限制酶可在靶核酸序列或靶扩增子之间切割。可选择识别序列在靶核酸序列或靶扩增子附近出现例如一次或多次的一种或更多种酶。可小心地确保识别序列不受SNP的存在影响。在有些情况下,限制酶的识别序列不被SNP改变。
限制酶可以是高效但特异性(无星号活性)的切割者。这种特性连同消化时间和酶浓度可通过进行适当的酶滴定实验被事先确定。限制酶可能具有星号活性。星号活性可以是对与特定的识别序列相似但不相同的序列的切割。
限制酶的“单位”数与核酸(例如DNA或RNA)的量之比可以是例如,约或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、12,000、14,000、15000、16,000、18,000或20,000单位/μg核酸。限制酶的单位数与核酸的量之比可以是约1到约20,000、约1到约10,000、约1到约5,000、约100到约10,000、约100到约1,000、约50到约500或约50到约250单位/μg。
可将一种或更多种限制酶与包含多核苷酸的样品一起孵育约或大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17,18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42,43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59或60分钟。可将一种或更多种限制酶与包含多核苷酸的样品一起孵育约、小于、至少或大于1、2、3、4、5、6、7、8、9、10、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47或48小时。可将一种或更多种限制酶与包含多核苷酸的样品一起孵育约1到约60min、约1min到约48小时、约1min到约24小时、约1min到约20小时、约1min到约16小时、约0.5小时到约6小时、约0.5小时到约3小时、约1小时到约10小时、约1小时到约5小时或约1小时到约3小时。
限制酶消化可在约、小于、至少或大于5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25,26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64或65℃的温度下进行。限制酶消化可在约10到约65℃、约20到约65℃、约30到约65℃、约37到约65℃、约40到约65℃、约50到约65℃、约25到约37℃、约25到30℃、约30到约37℃、约28到32℃、约32到38℃或约35到38℃的温度下进行。
利用一种或更多种限制酶的限制酶消化的pH可以是约2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、6.6、6.7、6.8、6.9、7、7.1、7.2、7.3、7.4、7.5、7.5、7.6、7.7、7.8、7.9、8、8.1、8.2、8.3、8.4、8.5、8.6、8.7、8.8、8.9、9、9.5、10、10.5、11、11.5、12或12.5。限制酶消化的pH可以是约5到约9、约5到约8、约5到约7、约6到约9或约6到约8。
限制性内切酶消化可包括一种或更多种缓冲液。一种或更多种缓冲液可以是,例如tris-HCl、1,3-二[三(羟甲基)甲氨基]丙烷-HCl(bis-tris-propane-HCl)、TAP、N-二甘氨酸(bicine)、tris、tris-乙酸盐、tris-HCl、N-三(羟甲基)甲基甘氨酸(tricine)、TAPSO、HEPES、TES、MOPS、PIPES、甲次胂酸盐(cacodylate)、SSC、磷酸盐缓冲液、可力丁(collidine)、醋酸佛罗那(veronalacetate)、MES.、ADA、ACES、氯化胆胺(cholaminechloride)、乙酰氨基苷氨酸(acetamidoglycine)、甘氨酰胺、马来酸盐、CABS、哌啶、甘氨酸、柠檬酸盐、甘氨酰甘氨酸、苹果酸盐、甲酸盐、琥珀酸盐、乙酸盐、丙酸盐、吡啶、哌嗪、组氨酸、bis-tris、乙醇胺、碳酸盐、MOPSO、咪唑、BIS-TRIS丙烷、BES、MOBS、三乙醇胺(TEA)、HEPPSO、POPSO、肼、Trizma(tris)、EPPS、HEPPS、N-二甘氨酸、HEPBS、AMPSO、牛磺酸(AES)、硼酸盐、CHES、2-氨基-2-甲基-1-丙醇(AMP)、氢氧化铵或甲胺。溶液中缓冲液的浓度可以是例如,约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100mM。溶液中缓冲液的浓度可以是约10到约100mM、约10到约75mM、约25到约75mM或约10到约50mM。
使用一种或更多种限制酶的限制酶消化可包括牛血清白蛋白(BSA)。在限制性消化中的BSA浓度可以是约、小于、至少或大于0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、3、4、5、6、7、8、9或10mg/ml。在限制性消化中的BSA浓度可以是约0.01到约10mg/ml、约0.01到约1mg/ml、约0.05到约1mg/ml或约0.05到约0.5mg/ml。
使用一种或更多种限制酶的限制酶消化可包括甘油。甘油可以是约、小于、大于或至少百分之1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25的浓度(体积比体积)。限制酶消化中的甘油浓度可以是约1到约25%、约1到约20%、约1到约15%、约1到约10%或约1到约5%。
限制酶消化可包括一种或更多种有机溶剂,例如DMSO、乙醇、乙二醇、二甲基乙酰胺、二甲基甲酰胺或suphalane。限制酶消化可不含一种或更多种有机溶剂。
限制酶消化可包括一种或更多种二价阳离子。一种或更多种二价阳离子可以是,例如Mg2+、Mn2+、Cu2+、Co2+或Zn2+。
限制性消化可包括一种或更多种盐。一种或更多种盐可包括例如乙酸钾、氯化钾、乙酸镁、氯化镁、乙酸钠或氯化钠。一种或更多种盐中每一种的浓度可以是例如,约、小于、至少或大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63,64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245或250mM。一种或更多种盐中每一种的浓度可以是约5到约250、约5到约200、约5到约150、约5到约100、约10到约100、约10到约90、约10到约80、约10到约70、约10到约60或约10到约50mM。
限制性消化可包括一种或更多种还原剂。一种或更多种还原剂可抑制蛋白中二硫键的形成。还原剂可以是例如,二硫苏糖醇(DTT)、2-巯基乙醇(BME)、2-巯基乙胺-HC1、三(2-羧乙基)磷化氢(TCEP)或半胱氨酸-HCl。限制酶消化中的一种或更多种还原剂的浓度可以是约、小于、至少或大于0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或25mM。限制酶消化中的一种或更多种还原剂的浓度可以是约0.01到约25mM、约0.01到约15mM、约0.01到约10mM、约0.01到约5mM、约0.1到约5mM或约0.5到约2.5mM。
在核酸的限制酶消化中可使用多于一种限制酶。例如,如果限制酶中的一种或更多种无法有效地切割核酸,或者如果它们无法对所有样品普遍良好地工作(例如,因为SNP),那么可采用多重消化(multiple-digest)。被一种或更多种限制酶的多重消化可在同一反应溶液中同时进行或顺序性地进行(例如,添加一种限制酶,在第一次消化后纯化核酸,并添加另一种限制酶)。可在限制性消化中使用的不同的限制酶的数目可以是约或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20种。可在限制酶消化中使用的不同的限制酶的数目可以是例如,约1到约20、约1到约15、约1到约10、约1到约7、约1到约6、约1到约5、约1到约4、约1到约3或约1到约2种。
在有些情况下,当包含扩增子或靶的片段尺寸较小时PCR工作得更好。因此,选择具有在扩增子或靶附近的剪切位点的限制酶可能是期望的。例如,限制酶识别位点或切割位点可以在距离多核苷酸上的靶之一的5'端或3'端约或小于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125,126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、300、350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、12,000、14,000、15000、16,000、18,000或20,000个碱基对之内。限制酶识别位点或切割位点可以在距离靶核酸序列的5'端或3'端约1到约10,000、约1到约5,000、约1到约2,500、约1到约1,000、约1到约100、约100到约1000、约100到约500、或约100到约250bp之内。
可对单个样品分析多个CNV。在这种情况下,选择对整组CNV都良好工作的最小数目的消化可能是期望的。可找出一种限制酶混合物,其不在任何一种扩增子或靶核酸序列之内切割而是在其每一个附近具有识别位点或切割位点。限制酶识别位点或切割位点可以在距离多核苷酸上的靶之一的5'端或3'端约或小于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24,25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49,50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74,75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99,100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、300,350、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000,10,000、12,000、14,000、15000、16,000、18,000或20,000个碱基对之内。限制酶识别位点或切割位点可以在距离多核苷酸上的靶之一的5'端或3'端约1到约20,000、约10到约20,000、约100到约20,000、约1000到约20,000、约10到约10,000、约10到约1000、约10到约100、约50到约20,000、约50到约1000、约50到约500、约50到约250、约50到约150或约50到100个碱基对之内。
可编写和/或使用适当的软件来使限制酶选择的过程自动化并为用户例如实验性生物工作者呈现一个界面来鉴于以上标准选择最适合的酶。软件可利用另外的考虑因素,诸如酶成本、酶效率、限制酶的缓冲液相容性、反应条件(例如,温度、时间等等)、甲基化敏感性、在核酸区段中的切割位点的数目或可用性。所述软件可用在计算机上。算法可在计算机可读介质上产生并用于选择消化核酸的一种或更多种限制酶。计算机可与互联网连接并且可用来访问可允许选择限制性核酸内切酶的网站。网络工具可被用于选择将在扩增子周围切割的限制酶以分离连锁的基因拷贝以便于CNV估计。例如,可将酶和测定存储在数据库中且限制酶的选择可以是自动的。可考虑的另外的统计学因素包括例如,最短片段的长度、%GC含量、扩增子周围(或其中)的切割频率和酶的成本。QTool可用来帮助选择一种或更多种限制酶。图18和19显示当选择限制酶时可考虑的信息。
对于数据分析的测定存储,研究者可通过位置或引物序列输入测定。QTool能自动检索和存储扩增子序列和已知的SNP并计算热力学参数。随着研究者更多地使用该测定,他们可以输入另外的数据,包括已确认的样品CNV和退火温度。
用多于一种酶顺序性地或一起在一个试管中进行的消化可帮助确保对棘手的靶的完全切割。对一个样品的一系列限制酶消化可用不同的酶进行,例如约1、2、3、4、5、6、7、8、9或10种酶。在有些情况下,顺序性消化可包括在加入下一种限制酶之前纯化样品。
消化中的一种或更多种限制酶可以在该限制酶消化后被灭活。在一些实施方式中,一种或更多种限制酶不能通过暴露于热而被灭活。大多数限制酶可以在限制性作用后通过提高限制性反应的温度被热灭活。热灭活的温度可以是例如,约、小于、至少或大于50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100℃。热灭活温度可以是约50到约100、约50到约90、约60到约90、约65到约90、约65到约85或约65到约80℃。热灭活的持续时间可以是例如,约、小于、至少或大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、65、70、80、90、100、110、120、180、240、300、360、420、480、540、600、660或720分钟。热灭活的持续时间可以是约5到约300、约5到约200、约5到约150、约5到约100、约5到约75、约5到约50、约5到约40、约5到约30、约5到约35、约5到约25、约5到约20或约10到约20分钟。热灭活的温度可以低于限制性消化的靶片段的熔点,以保持双链模板拷贝。
限制酶消化可通过向限制酶消化体系加入一种或更多种螯合剂而被终止。一种或更多种螯合剂可以是例如,EDTA、EGTA、柠檬酸或膦酸盐(phosphonate)。限制酶消化中一种或更多种螯合剂的浓度可以是例如,约或至少1、2、3、4、5、6、7、8、9、10,11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100mM。一种或更多种螯合剂的浓度可以是约1到约100mM、约1到约75mM或约25到约75mM。
对照测定和模板可被用来测量限制酶消化步骤的效率。
样品
有待使用本文提供的方法、组合物和试剂盒分析的样品可从包含核酸的非细胞实体(例如病毒)或从基于细胞的生物体(例如古细菌、细菌或真核生物领域的成员)获取。样品在有些情况下可从医院、实验室、临床或医学实验室获取。样品可包含核酸,例如RNA或DNA。样品可包含无细胞的核酸。在有些情况下,样品从表面诸如门或台面的拭子获取。
样品可来自受试者,例如植物、真菌、真细菌、古细菌、protest或动物。受试者可以是生物体,单细胞或多细胞生物体。受试者可以是培养的细胞,其尤其可以是原代细胞或来自已确立的细胞系的细胞。样品可被以任何适宜的形式从多细胞生物体中最初分离。动物可以是鱼,例如斑马鱼。动物可以是哺乳动物。哺乳动物可以是例如,狗、猫、马、牛、小鼠、大鼠、兔或猪。哺乳动物可以是灵长类动物,例如人、黑猩猩、猩猩、猴或大猩猩。人可以是男性或女性。样品可以来自人胚胎或人胎儿。人可以是婴儿、儿童、青少年、成人或老人。女性可以是怀孕的,可以是被怀疑怀孕的,或计划怀孕的。
样品可来自健康的受试者(例如,人受试者)。在有些实施方式中,样品采自怀孕至少4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25或26周的受试者(例如,准妈妈)。受试者可能受遗传疾病侵袭,可以是遗传疾病的携带者或处于发展或传递遗传疾病的风险下,其中遗传疾病是可能与遗传变异诸如突变、***、添加、缺失、易位、点突变、三核苷酸重复疾患和/或单核苷酸多态性(SNP)相关的任何疾病。样品可采自育龄女性患者,且在有些情况下,女性患者没有怀孕或具有未知的怀孕状态。受试者可以是男性患者、男性准爸爸或处于特定遗传异常的风险下、被诊断为具有或具有特定遗传异常的男性患者。在有些情况下,已知女性患者受遗传疾病或遗传变异侵袭,或是遗传疾病或遗传变异的携带者或处于遗传疾病或遗传变异的风险下、被诊断具有或具有特定遗传异常。在有些情况下,女性患者关于遗传疾病或遗传变异的状态可能是未知的。样品可采自关于基因序列的拷贝数变异具有已知或未知状态的任何儿童或成人患者。在有些情况下,儿童或成人患者已知受遗传疾病或遗传变异侵袭,或是遗传疾病或遗传变异的携带者。在有些情况下,样品来自具有神经性病症的受试者。在有些情况下,样品来自处于罹患神经性病症的风险或怀疑具有神经病症的受试者。神经性病症可以是阿尔兹海默病、孤独症或精神***症。
样品可以来自具有特定疾病、疾患或病症或怀疑具有特定疾病、疾患或病症(或处于罹患风险下)的受试者。例如,样品可以来自癌症患者、怀疑具有癌症的患者或处于罹患癌症的风险下的患者。所述癌症可以是,例如,急性成淋巴细胞性白血病(ALL)、急性髓性白血病(AML)、肾上腺皮质癌、卡波西肉瘤、***癌、基底细胞癌、胆管癌、膀胱癌、骨癌、骨肉瘤、恶性纤维组织细胞瘤、脑干神经胶质瘤、脑癌、颅咽管瘤、室管膜母细胞瘤、室管膜瘤、髓母细胞瘤、髓上皮瘤(medulloeptithelioma)、松果体实质肿瘤(pinealparenchymaltumor)、乳腺癌、支气管肿瘤、伯基特淋巴瘤(Burkittlymphoma)、非霍奇金淋巴瘤、类癌瘤、***、脊索瘤、慢性淋巴性白血病(CLL)、慢性髓性白血病(CML)、结肠癌、结肠直肠癌、皮肤T细胞淋巴瘤、原位导管癌、子宫内膜癌、食道癌、尤文肉瘤、眼癌、眼内黑色素瘤、视网膜母细胞瘤、纤维组织细胞瘤、胆囊癌、胃癌、胶质瘤、多毛细胞白血病、头颈癌、心脏癌症、肝细胞(肝)癌、霍奇金淋巴瘤、下咽癌、肾癌、喉癌、唇癌、口腔癌、肺癌、非小细胞肺癌、小细胞肺癌、黑色素瘤、口癌、骨髓增生异常综合征、多发性骨髓瘤、髓母细胞瘤、鼻腔癌、鼻窦癌、成神经细胞瘤、鼻咽癌、口部癌、口咽癌、骨肉瘤、卵巢癌、胰腺癌、***状瘤病、副神经节瘤、甲状旁腺癌、***癌、咽癌、垂体瘤、浆细胞肿瘤、***癌、直肠癌、肾细胞癌、横纹肌肉瘤、唾液腺癌、Sezary综合征、皮肤癌、非黑色素瘤、小肠癌、软组织肉瘤、鳞状细胞癌、睾丸癌、喉癌、胸腺瘤、甲状腺癌、尿道癌、子宫癌、子宫肉瘤、***癌、外阴癌、Waldenstrom巨球蛋白血症或Wilms瘤。样品可来自癌症患者的癌组织和/或正常组织。
在有些情况下,样品可来自怀孕女性,其胎儿具有非整倍性、怀疑具有非整倍性、或处于具有非整倍性的风险下。样品可来自胎儿、怀孕女性或二者。样品可包括基因组DNA或无细胞DNA。
样品可以来自已知患有遗传性疾病、疾患或病症的受试者。在有些情况下,已知受试者的基因或基因的一部分是野生型或突变体,所述基因例如CFTR、第VIII因子(F8基因)、β珠蛋白、血色病、G6PD、神经纤维瘤病、GAPDH、β淀粉样蛋白或丙酮酸激酶基因。在有些情况下,受试者的状态是已知或未知的,且受试者被测试了例如以下基因的突变或遗传变异的存在:CFTR、第VIII因子(F8基因)、β珠蛋白、血色病、G6PD、神经纤维瘤病、GAPDH、β淀粉样蛋白或丙酮酸激酶。
样品可以是水状液、玻璃体液、胆汁、全血、血清、血浆、乳汁、脑脊液、耵聍、内淋巴(enolymph)、外淋巴、胃液、粘液、腹腔液、唾液、皮脂、***、汗液、泪液、***分泌物、呕吐物、粪便或尿液。样品可从医院、实验室、临床或医学实验室获取。样品可以从受试者采集。样品可包含核酸。核酸可以是例如,线粒体DNA、基因组DNA、mRNA、siRNA、miRNA、cRNA、单链DNA、双链DNA、单链RNA、双链RNA、tRNA、rRNA或cDNA。样品可包含无细胞的核酸。样品可以是细胞系、基因组DNA、无细胞血浆、***固定石蜡包埋(FFPE)的样品或速冻样品。***固定石蜡包埋的样品可在提取核酸之前被脱石蜡。样品可以来自器官,例如,心脏、皮肤、肝脏、肺、***、胃、胰、膀胱、结肠、胆囊、脑等等。
当核酸是RNA时,RNA的来源可以是本文描述的任何来源。例如,RNA可以是无细胞的mRNA,可以来自组织活检物、穿刺活检物(corebiopsy)、细针穿刺物、速冻的或***固定石蜡包埋(FFPE)的样品。FFPE样品可在提取RNA之前被脱石蜡。提取的RNA在分析之前可被加热到约30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46,47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71,72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98或99℃。提取的RNA可被加热到任何这些温度持续约、大于、小于或至少15min、30min、45min、60min、1.5小时、2小时、2.5小时、3小时、3.5小时、4小时、4.5小时、5小时、5.5小时、6小时、6.5小时、7小时、7.5小时、8小时、8.5小时、9小时、9.5小时或10小时。
RNA可被用于多种下游应用。例如,可将RNA用逆转录酶转换为cDNA,且任选地可对cDNA进行PCR,例如,实时PCR或定量PCR。RNA或cDNA可被用于恒温扩增反应,例如恒温线性扩增反应中。RNA、所得cDNA或自其扩增的分子可用在微阵列实验、基因表达实验、Northern分析、Southern分析、测序反应、下一代测序反应等。可分析特异性RNA序列,或可总体地分析RNA序列。
可通过本领域普通技术人员可利用的手段从样品中提取核酸。例如,可通过使用有机溶剂(例如乙醇或异丙醇)沉淀或DNA结合离心柱(例如QiagenDNA迷你试剂盒)提取核酸。
可处理样品以使其能被扩增。示例性样品处理可包括裂解样品的细胞以释放核酸,纯化样品(例如,以将核酸与可能抑制扩增的其他样品组分分离),稀释/浓缩样品,和/或将样品与用于扩增的试剂组合,所述试剂尤其是诸如DNA/RNA聚合酶(例如用于PCR扩增的热稳定的DNA聚合酶)、dNTP(例如,dATP、dCTP、dGTP和dTTP(和/或dUTP))、针对每个待扩增的等位基因序列或多态性基因座的引物组、能够与每个待扩增的等位基因序列特异性杂交的探针(例如,尤其是,荧光探针,如TAQMAN探针或分子信标探针)、Mg2+、DMSO、BSA、缓冲液或其任何组合。在一些实例中,可将样品与限制酶、尿嘧啶-DNA糖基化酶(UNG)、逆转录酶或核酸处理的任何其他酶合并。
靶多核苷酸
术语多核苷酸或其语法等同术语可指共价连接在一起的至少两个核苷酸。本文描述的核酸可包含磷酸二酯键,但是在有些情况下,如以下概述的(例如在引物和探针诸如标记探针的构建中),包括可具有交替的骨架的核酸类似物,交替的骨架包括例如,磷酰胺键(Beaucage等人Tetrahedron49(10):1925(1993)及其参考文献;Letsinger,J.Org.Chem.35:3800(1970);Sprinzl等人Eur.J.Biochem.81:579(1977);Letsinger等人,Nucl.AcidsRes.14:3487(1986);Sawai等人,Chem.Lett.805(1984)、Letsinger等人J.Am.Chem.Soc.110:4470(1988);和Pauwels等人,ChemicaScripta26:14191986)),硫代磷酸酯键(Mag等人,NucleicAcidsRes.19:1437(1991);和美国专利第5,644,048号),二硫代磷酸酯键(Briu等人,J.Am.Chem.Soc.111:2321(1989),O-甲基亚磷酰胺键(参见EcksteinOligonucleotidesandAnalogues:APracticalApproachOxfordUniversityPress)和肽核酸(本文还称为“PNA”)骨架和键(参见EgholmJ.Am.Chem.Soc.114:1895(1992);Meier等人,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlsson等人,Nature380:207(1996),其全部被通过引用并入)。其他类似物核酸包括具有二环结构的那些,包括锁核酸(本文还称为“LNA”),Koshkin等人,J.Am.Chem.Soc.120.132523(1998);带正电的骨架(positivebackbone)(Denpcy等人,Proc.Natl.Acad.Sci.USA92:6097(1995),无离子骨架(美国专利第5,386,023、5,637,684、5,602,240、5,216,141和4,469,863号;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30:423(1991;Letsinger等人,J.Am.Chem.Soc.110:4470(1988);Letsinger等人,Nucleoside&;Nucleotide13:1597(1994);第2和第3章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch".Ed.Y.S.Sanghui和P.DanCook;Mesmaeker等人Bioorganic&MedicinalChem.Lett.4:395(1994);Jeffs等人,J.BiomolecularNMR34:17(1994);TetrahedronLett.37:743(1996))和无核糖骨架,包括描述于美国专利第5.235,033和5,034,506号,和第6和第7章,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch"Ed.Y.S.Sanghui和P.DanCook中描述的那些。包含一个或更多个碳环糖的核酸也被包括在核酸的定义中(参见Jenkins等人,Chem.Soc.Rev.(1995)pp169176)。几种核酸类似物被描述在Rawls,C&ENewsJun.21997第35页。“锁核酸”也被包括在核酸类似物的定义中。LNA是其中核糖环被连接2'-O原子与4'-C原子的亚甲基桥“锁定”的一类核酸类似物。所有这些参考文献在此被明确通过引用并入。可对核糖-磷酸骨架进行这些修饰来增加此类分子在生理学环境中的稳定性和半衰期。例如,PNA:DNA和LNA-DNA杂合体可表现出较高的稳定性且因而可用在一些实施方式中。如所指明的,靶核酸可以是单链的或双链的,或可包含双链或单链序列的多个部分。取决于应用,核酸可以是DNA(包括,例如,基因组DNA、线粒体DNA和cDNA)、RNA(包括,例如,mRNA和rRNA)或杂合体,其中该核酸包含脱氧核糖核苷酸和核糖核苷酸的任何组合,和包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤(xathanine)、次黄嘌呤(hypoxathanine)、异胞嘧啶、异鸟嘌呤的碱基的任何组合,等等。
本文提供的方法和组合物可用来评估多核苷酸(包括,例如,DNA、RNA、线粒体DNA、基因组DNA、mRNA、siRNA、miRNA、cRNA、单链DNA、双链DNA、单链RNA、双链RNA、tRNA、rRNA、cDNA等等)的量。所述方法和组合物可用来评估第一多核苷酸的量相比于第二多核苷酸的量。所述方法可被用来分析溶液中的合成质粒的量;检测从受试者获得或从环境获得的样品内的致病性生物体(例如,微生物、细菌、病毒、寄生虫、反转录病毒、慢病毒、HIV-1、HIV-2、流感病毒,等等)。所述方法还被用在其他应用中,其中一群罕见的多核苷酸群体存在于更大的一群多核苷酸内。
使用本文提供的方法、组合物和试剂盒分析其样品的受试者的样品(例如基因组)中的靶核酸序列的拷贝数可以是0,或约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、5000、10,000、20,000、50,000或100,000。利用本文提供的方法、组合物和试剂盒分析其样品的受试者的基因组中的靶核酸序列的拷贝数可以是约1到约20、约1到约15、约1到约10、约1到约7、约1到约5、约1到约3、约1到约1000、约1到约500、约1到约250、约1到约100、约10到约1000、约10到约500、约10到约250、约10到约100、约10到约50、约10到约20、约0到约100、约0到约50、约0到约25或约0到约10。
靶核酸序列可以在一个染色体上。如果靶核酸在从人受试者中获得的样品中,那么该靶核酸序列可以在染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y中的一个或更多个上。靶核酸可以在约、至少、小于或大于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22或23个染色体上。靶核酸序列的两个或更多个拷贝可以在相同或不同的染色体上。在人受试者中,靶核酸序列的两个或更多个拷贝可以在染色体1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、X或Y上。靶核酸序列的两个或更多个拷贝可以在受试者的一个多核苷酸(例如,染色体)上,但由于样品的处理(例如通过断裂)靶核酸可被从受试者采集的样品中分离。
当靶核酸的两个拷贝在同一多核苷酸上,例如同一染色体上时,这两个拷贝在该多核苷酸上可间隔约、至少、大于或小于1、2、3、4、5、6、7、8、9、10、25、50、75、100、200、300、400、500、600,700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000,30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1百万、2百万、3百万、4百万、5百万、6百万、7百万、8百万、9百万、1千万、2千万、3千万、4千万、5千万、6千万、7千万、8千万、9千万或1亿个碱基或碱基对。靶核酸可以间隔约100到约100,000、约100到约10,000、约100到约1,000、约10到约10,000或约10到约1,000个碱基或碱基对。
靶序列可以是基因。例如,所述基因可以是ERBB2、EGFR、BRCA1、BRCA2、APC、MSH2、MSH6、MLH1、CYP2D6、富含低拷贝重复(LCR)的序列(参见,例如,Balikova等人(2008)AmJ.HumGenet.82:181-187)、TAS1R1、GNAT1、IMPDH1、OPN1SW、OR2A12、OR2A14、OR2A2、OR2A25、OR2A5、OR2A1、OR2A42、OR2A7、OR4F21、OR4F29、OR4C6、OR4P4、OR4S2、OR5D13、ROM1、TASR14、TAS2R44、TAS2R48、TAS2R49、TAS2R50、OR6C2、OR6C4、OR6C68、OR6C70、OR4M1、OR4Q3、OR4K1、OR4K2、OR4K5、OR4N2、OR4K13、OR4K14、OR4K15、OR4M2、OR4N4、OR1F1、ACTG1、FSCN2、OR2Z1、OR11H1、MYH9、SKI、TP73、TNFRSF25、RAB3B、VAV3、RALB、BOK、NAT6、TUSC2、TUSC4、TAB33B、C6orf210、ESR1、MAFK、MAD1L1、MYC、VAV2、MAP3K8、CDKN1C、WT1、WIT-1、C1QTNF4、MEN1、CCND1、ORAOV1、MLL2、C13orf10、TNFAIP2、AXIN1、BCAR1、TAX1BP3、NFl、PHB、MAFG、C1QTNF1、YES1、DCC、SH3GL1、TNFSF9、TNFSF7、TNFSF14、VAV1、RAB3A、PTOV1、BAX、RRAS、BCAS4、HIC2、NROB2、TTN、SGCB、SMA3、SMA4、SMN1、LPA、PARK2、GCK、GPR51、BSCL2、A2M、TBXA2R、FKRP或COMT。
靶序列可编码微小RNA,例如,hsa-let-7g、hsa-mir-135a-1、hsa-mir-95、hsa-mir-218-1、hsa-mir-320、has-let-7a-1、has-let-7d、has-let-7f-1、has-mir-202、has-mir-130a、has-mir-130a、has-mir-338、has-mir-199a-1、has-mir-181c、has-mir-181d、has-mir-23a、has-mir-24-2、has-mir-27a、has-mir-150、has-mir-499、has-mir-124a-3或has-mir-185。
靶序列可以是Wong等人(2007)AmJofHumGenetics80:91-104中列出的任何序列。
扩增和检测
本文描述的方法可利用核酸扩增。靶核酸的扩增可通过本领域已知的任何手段进行。扩增可通过热循环或恒温地进行。在示例性实施方式中,扩增可通过聚合酶链式反应(PCR)完成。
可利用的PCR技术的实例包括但不限于:定量性PCR、定量性荧光定量PCR(QF-PCR)、多重荧光PCR(MFPCR)、实时PCR(RT-PCR)、单细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、PCR-RFLP/RT-PCR-RFLP、热启动PCR、巢式PCR、原位polonyPCR、原位滚环扩增(RCA)、桥式PCR、picotiterPCR、数字PCR、液滴数字PCR和乳液PCR。其他适合的扩增方法包括连接酶链反应(LCR)、转录扩增、分子倒位倒置探针(molecularinversionprobe、,MIP)PCR、自持序列复制(self-sustainedsequencereplication)、靶多核苷酸序列的选择性扩增、共有序列引物的聚合酶链式反应(CP-PCR)、任意随机引物的聚合酶链式反应(AP-PCR)、简并寡核苷酸引物的PCR(DOPPCRDOP-PCR)和基于核酸的序列扩增(NABSA)。可在本文中使用的其他扩增方法包括描述在美国专利第5,242,794、5,494,810、4,988,617和6,582,938号中的那些。靶核酸的扩增可发生珠上。在其他实施方式中,扩增不发生珠上。扩增可通过恒温扩增,例如恒温线性扩增。可进行热启动PCR,其中反应被加热到95℃持续两分钟,之后加入聚合酶,或聚合酶可在循环1中的第一个加热步骤之前保持失活。可使用热启动PCR来最小化非特异性扩增。扩增的其他策略和方面被描述在2010年7月8日公布的美国专利申请公布第2010/0173394A1号中,其被通过引用并入本文。
用于扩增靶和参考序列的技术是本领域已知的且包括在美国专利第7,048,481号中描述的方法。简言之,这些技术可包括将不同样品分离成小液滴的方法和组合物,在有些情况下每个小液滴包含平均小于5、4、3、2或一个靶核酸分子(多核苷酸)/液滴,在每个液滴中扩增核酸序列并检测靶核酸序列的存在。在有些情况下,被扩增的序列存在于基因组DNA的探针上,而不是基因组DNA本身。在有些情况下,至少200、175、150、125、100、90、80、70、60、50、40、30、20、10或0个液滴具有零拷贝的靶核酸。
关于扩增反应的信息可被输入数据库中。例如,图20A和20B显示可被输入数据库的测定信息。
引物
可根据用于避免二级结构和自杂交的已知参数设计引物。不同的引物对可在大致相同的温度,例如在另一引物对的约1、2、3、4、5、6、7、8、9或10℃之内退火和解链。在有些情况下,最初使用大于约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、100、200、500、1000、5000、10,000或更多个引物。此类引物可能能够与本文描述的遗传靶杂交。在有些情况下,使用约2到约10,000、约2到约5,000、约2到约2,500、约2到约1,000、约2到约500、约2到约100、约2到约50、约2到约20、约2到约10或约2到约6个引物。
引物可通过多种方法制备,方法包括但不限于使用本领域熟知的方法克隆合适的序列和直接化学合成(Narang等人,MethodsEnzymol.68:90(1979);Brown等人,MethodsEnzymol.68:109(1979))。引物还可以从商业来源诸如IntegratedDNATechnologies、OperonTechnologies、AmershamPharmaciaBiotech、Sigma和LifeTechnologies获得。引物可具有相同的解链温度。引物的熔解温度可以是约30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、81、82、83、84或85℃。在有些情况下,引物的熔解温度是约30到约85℃、约30到约80℃、约30到约75℃、约30到约70℃、约30到约65℃、约30到约60℃、约30到约55℃、约30到约50℃、约40到约85℃、约40到约80℃、约40到约75℃、约40到约70℃、约40到约65℃、约40到约60℃、约40到约55℃、约40到约50℃、约50到约85℃、约50到约80℃、约50到约75℃、约50到约70℃、约50到约65℃、约50到约60℃、约50到约55℃、约52到约60℃、约52到约58℃、约52到约56℃或约52到约54℃。
引物的长度可在5'端或3'端被延长或缩短以产生具有期望的解链温度的引物。引物对的引物之一可以长于另一引物。引物对内的引物的3'退火长度可不同。而且,可设计每个引物对的退火位置以使得该引物对的序列和长度产生期望的解链温度。用于确定小于25个碱基对的引物的解链温度的等式是Wallace规则(Td=2(A+T)+4(G+C))。还可使用计算机程序来设计引物,包括但不限于阵列设计软件(ArrayDesignerSoftware)(ArrayitInc.)、用于遗传分析的寡核苷酸探针序列设计软件(OligonucleotideProbeSequenceDesignSoftwareforGeneticAnalysis)(OlympusOpticalCo.)、NetPrimer和来自HitachiSoftwareEngineering的DNAsis。可使用软件程序诸如NetPrimer(基于在http://www.premierbiosoft.com/netprimer/index.html的免费网页程序)来计算每种引物的TM(解链或退火温度)。引物的退火温度在包括但不限于以下的任何扩增循环后可被重新计算和提高:约循环1、2、3、4、5,约循环6到约循环10,约循环10到约循环15,约循环15到约循环20,约循环20到约循环25,约循环25到约循环30,约循环30到约循环35或约循环35到约循环40。在最初的扩增循环之后,引物的5'那半可被并入来自感兴趣的每个基因座的产物中;因而TM可基于每个引物的5'那半和3'那半两者的序列被重新计算。
引物的退火温度在包括但不限于以下的任何扩增循环后可被重新计算和提高:约循环1、2、3、4、5,约循环6到约循环10,约循环10到约循环15,约循环15到约循环20,约循环20到约循环25,约循环25到约循环30,约循环30到约35或约循环35到约循环40。在最初的扩增循环之后,引物的5'那半可被并入来自感兴趣的每个基因座的产物中;因而TM可基于每个引物的5'那半和3'那半两者的序列被重新计算。
DNA聚合酶
可使用催化引物延伸的任何DNA聚合酶,包括不限于大肠杆菌DNA聚合酶、大肠杆菌DNA聚合酶1的Klenow片段、T7DNA聚合酶、T4DNA聚合酶、Taq聚合酶、PfuDNA聚合酶、PfxDNA聚合酶、TthDNA聚合酶、VentDNA聚合酶、噬菌体29、REDTaqTm、GenomicDNA聚合酶或测序酶。可使用热稳定的DNA聚合酶。DNA聚合酶可具有3'到5'外切核酸酶活性。DNA聚合酶可具有5'到3'外切核酸酶活性。DNA聚合酶可同时具有3'到5'外切核酸酶活性和5'到3'外切核酸酶活性。在有些情况下,DNA聚合酶具有链置换活性。在有些情况下,DNA聚合酶没有链置换活性。在有些情况下,DNA聚合酶具有弱的链置换活性。在有些情况下,DNA聚合酶具有强的链置换活性。
热循环
任何PCR循环数可被用来扩增DNA,例如,约、至少、大于或小于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个循环。扩增循环数可以是约1到约45、约10到约45、约20到约45、约30到约45、约35到约45、约10到约40、约10到约30、约10到约25、约10到约20、约10到约15、约20到约35、约25到约35、约30到约35或约35到约40。
可对液滴中包含的样品进行热循环反应。液滴在热循环过程中可保持完整。液滴在热循环过程中可以如下密度保持完整:大于约10,000液滴/mL、100,000液滴/mL、200,000液滴/mL、300,000液滴/mL、400,000液滴/mL、500,000液滴/mL、600,000液滴/mL、700,000液滴/mL、800,000液滴/mL、900,000液滴/mL或1,000,000液滴/mL。在其他情况下,两个或更多个液滴可能在热循环过程中合并。在其他情况下,大于100或大于1,000个液滴可能在热循环过程中合并。
探针
可通过本领域已知的方法设计通用探针。在有些情况下,探针包括随机序列。可选择通用探针以确保其在测定中不结合靶多核苷酸或可能在样品中的其他非靶多核苷酸(例如,被靶多核苷酸占据区域之外的基因组DNA)。
在本文描述的方法中,检测靶核酸序列或参考核酸序列的探针(例如,Taqman探针)上使用的标记(荧光团,染料)可以是,例如,6-羧基荧光素(FAM)、四氯荧光素(TET)、4,7,2'-三氯-7'-苯基-6-羧基荧光素(VIC)、HEX、Cy3、Cy3.5、Cy5、Cy5.5、Cy7、四甲基罗丹明、ROX和JOE。标记可以是AlexaFluor染料,例如,AlexaFluor350、405、430、488、532、546、555、568、594、633、647、660、680、700和750。标记可以是CascadeBlue、MarinaBlue、OregonGreen500、OregonGreen514、OregonGreen488、OregonGreen488-X、PacificBlue、RhodamineGreen、RhodolGreen、RhodamineGreen-X、RhodamineRed-X和TexasRed-X。标记可以在探针的5'端、探针的3'端、探针的5'端和3'端或在探针内部。独特的标记可用来在实验中检测每个不同的基因座。
探针,例如Taqman探针可包含猝灭剂,例如3'端猝灭剂。3'端猝灭剂可以是例如,TAMARA、DABCYL、BHQ-1、BHQ-2或BHQ-3。在有些情况下,本文提供的方法中使用的猝灭剂是blackholequencher(BHQ)。在有些情况下,猝灭剂是小沟结合剂(MGB)。在有些情况下,猝灭剂是荧光猝灭剂。在其他情况下,猝灭剂是非荧光猝灭剂(NFQ)。
探针可以约大于、小于或至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个碱基长。探针可以是约8到约40、约10到约40、约10到约35、约10到约30、约10到约25、约10到约20、约15到约40、约15到约35、约15到约30、约15到约25、约15到约20、约18到约40、约18到约35、约18到约30、约18到约25或约18到22个碱基。
试剂和添加剂
用于进行PCR反应的溶液和试剂可包括缓冲液。缓冲溶液可包括约、大于、至少或小于1、5、10、15、20、30、50、100或200mMTris。在有些情况下,溶液和试剂包括氯化钾(KCl)。氯化钾的浓度可以是约、大于、至少或小于10、20、30、40、50、60、80、100、200mM。缓冲溶液可包括约15mMTris和50mMKCl。核苷酸可包括脱氧核苷酸三磷酸分子,其包括dATP、dCTP、dGTP、dTTP,浓度各自为约、大于、至少或小于5、10、15、20、25、50、100、200、300、400、500、600或700μM。在有些情况下,将非典型核苷酸例如dUTP添加到扩增反应至约、大于、至少或小于5、10、15、20、25、50、100、200、300、400、500、600或700、800、900或1000μM的浓度。在有些情况下,将氯化镁(MgC12)以约、大于、至少或小于1.0、2.0、3.0、4.0或5.0mM的浓度添加到扩增反应。MgC12的浓度可以是约3.2mM。
可使用非特异性封闭剂诸如BSA或来自牛皮肤的明胶,其中明胶或BSA以约0.1到约0.9w/v的浓度范围存在。其他可能的封闭剂可包括β-乳球蛋白、酪蛋白、奶粉或其他常见的封闭剂。在有些情况下,BSA和明胶的优选浓度是约0.1%w/v。
扩增反应还可以包括一种或更多种添加剂,包括但不限于非特异性背景/封闭性核酸(例如鲑鱼***DNA)、生物防腐剂(例如叠氮化钠)、PCR增强剂(例如甜菜碱、海藻糖等等)和抑制剂(例如RNA酶抑制剂)。一种或更多种添加剂可包括,例如,2-吡咯烷酮、乙酰胺、N-甲基吡咯烷酮(NMP)、B-羟乙基吡咯烷酮(HEP)、丙酰胺、NN-二甲基乙酰胺(DMA)、N-甲基甲酰胺(MMP)、NN-二甲基甲酰胺(DMF)、甲酰胺、N-甲基乙酰胺(MMA)、二甲亚砜(DMSO)、聚乙二醇、甜菜碱、四甲基氯化铵(TMAC)、7-去氮杂-2'-脱氧鸟苷、牛血清白蛋白(BSA)、T4基因32蛋白、甘油或非离子去污剂(TritonX-100、吐温20、NonidetP-40(NP-40)、吐温40、SDS(例如,约0.1%SDS))、鲑鱼***DNA、叠氮化钠、甜菜碱(N,N,N-三甲基甘氨酸;[羧甲基]三甲铵)、甲酰胺、海藻糖、二硫苏糖醇(DTT)、β-巯基乙醇(BME)、植物多糖或RNA酶抑制剂。
扩增反应可包括一种或更多种缓冲液。一种或更多种缓冲液可包括,例如TAPS、N-二甘氨酸、Tris、Tricine、TAPSO、HEPES、TES、MOPS、PIPES、甲次胂酸盐、SSC、ADA、ACES、氯化胆胺、乙酰氨基苷氨酸、甘氨酰胺、马来酸盐、磷酸盐、CABS、哌啶、甘氨酸、柠檬酸盐、甘氨酰甘氨酸、苹果酸盐、甲酸盐、琥珀酸盐、乙酸盐、丙酸盐、吡啶、哌嗪、组氨酸、bis-tris、乙醇胺、碳酸盐、MOPSO、咪唑、BIS-TRIS丙烷、BES、MOBS、三乙醇胺(TEA)、HEPPSO、POPSO、肼、Trizma(tris)、EPPS、HEPPS、N-二甘氨酸、HEPBS、AMPSO、牛磺酸(AES)、硼酸盐、CHES、2-氨基-2-甲基-l-丙醇(AMP)、氢氧化铵、甲胺或MES。
可将非离子型环氧乙烷/环氧丙烷嵌段共聚物以约0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%或1.0%的浓度添加至扩增反应。常见的生物表面活性剂包括非离子型表面活性剂诸如PluronicF-68、Tetronics、ZonylFSN。PluronicF-68可以约0.5%w/v的浓度存在。
在有些情况下,硫酸镁可以相似的浓度替换氯化镁。来自不同供应商的广泛范围的常见的市售PCR缓冲液可替换缓冲溶液。
检测
可使用多种检测装置实现荧光检测,所述检测装置配备有产生可被荧光剂吸收的激发光的组件以及检测由荧光剂发出的光的组件。在有些情况下,样品(诸如液滴)可被批量检测。例如,可将样品分配在放置于检测仪的塑料管中,所述检测仪测量来自塑料管的大量荧光。在有些情况下,一个或更多个样品(诸如液滴)可被分配到板诸如96孔或384孔板的平板的一个或更多个孔中,且可使用荧光读板机检测各个孔的荧光。
在有些情况下,检测仪还包括对液滴样品的处理能力,各个液滴进入检测仪,经历检测,且然后离开检测仪。例如,流式细胞装置可被调整为于检测来自液滴样品的荧光。在有些情况下,配备有控制液滴移动的泵的微流体装置被用来检测来自成单行的液滴的荧光。在有些情况下,液滴被排列在二维表面上且检测仪相对于该表面移动,检测包含单个液滴的每个位置处的荧光。
计算机
在获取荧光检测数据后,可使用计算机存储和处理数据。可采用计算机可执行的逻辑学来执行此类功能如:减去背景荧光、指定靶序列和/或参考序列以及定量数据。计算机可用于展示、存储、检索或计算来自分子表现形态(molecularprofiling)的诊断结果:展示、存储、检索或计算来自基因组或核酸表达分析的原始数据;或展示、存储、检索或计算在本文描述的方法中有用的任何样品或患者信息。
本文还提供了软件(计算机可读介质),其包括当在计算机上执行时能促使计算机执行能够分析数字PCR数据和下一代测序数据以提供染色体图谱或染色体区域的算法的指令。计算机可读介质可包含记录在计算机可读介质上的指令,所述计算机可读介质适合用在电子装置例如计算机、计算机网络服务器、便携式电子装置或本文描述的电子装置中。计算机可读介质可以是非暂时性计算机可读介质。计算机可读介质可被配置成包括数据或用于处理数据的计算机可执行的指令。计算机可执行的指令可包括数据结构、对象、程序、日程或可通过处理***访问的其他程序模块,诸如与能够执行不同功能的一般目的计算机相关联的模块或与能够执行有限数目的功能的特殊目的计算机相关联的模块。计算机可执行的指令可促使处理***进行一种特定功能或多组功能,并且是用于执行本文公开的方法的步骤的程序代码的实例。可执行的指令的特别顺序可提供能够用来执行此类步骤的对应行动(act)的实例。计算机可读介质包括,例如,硬盘、软盘、随机存取存储器("RAM")、只读存储器("ROM")、可编程只读存储器("PROM")、可擦除可编程只读存储器("EPROM")、电可擦可编程只读存储器("EEPROM")、光盘只读存储器("CD-ROM")、CD±R、CD±RW、DVD、DVD±RW、DVD±R、DVD-RAM、HDDVD、HDDVDR、HDDVD±RW、HDDVD±RAM、蓝光光碟、光或磁存储介质、纸带、穿孔卡片(punchcard)、光标示表单或能够提供可被处理***访问的数据或可执行的指令的任何其他装置。计算机可读介质被描述在例如美国专利第7783072号中。
计算机代码装置可包括例如,脚本、动态链接库(DLL)、解释程序(interpretableprogram)、Java类和支程序(applet)、通用对象请求代理体系结构(COBRA)或完整可执行程序。
在有些情况下,染色体定位包括计算机执行的算法的使用。在有些情况下,定位包括输入连锁频率和下一代测序数据到计算机应用算法中。
本文还提供了用于定位染色体的***。该***可以包括用于从样品中提取核酸、对核酸测序(例如下一代测序);扩增核酸(例如,数字PCR、液滴数字PCR)、分析测序和/或扩增数据的仪器,和/或用于定位染色体的仪器。本文提供的***可包括处于电子通讯中的一个或更多个电子装置。一个或更多个电子装置可通过无线和/或有线连接相连。
可使用本文描述的方法、组合物和试剂盒产生报告。例如,报告可包括染色体定位信息。定位图可包括关于在基因座之间的距离和基因座的扩增程度的信息。这种信息可用于理解疾病(例如,自身免疫疾病、神经退行性疾病、癌症)和健康特征,以及生物体对环境(例如,暴露于毒素、病毒(例如天花、流感))、药物(例如,麻醉剂、抗生素、抗抑郁药、抗糖尿病药、止吐药、抗组织胺药、抗感染剂、抗肿瘤药、抗帕金森病药物、抗风湿剂、抗精神病药、抗焦虑药、心血管药、中枢神经******、用于阿尔兹海默病控制的药物、感冒药、COPD(慢性阻塞性肺疾病)药物、膳食补充剂、用于***功能障碍的药物、胃肠药、激素、用于治疗酒精中毒的药物、免疫抑制剂、偏头痛制剂、肌松药、用于治疗心肌梗塞的药物、非甾体抗炎剂、阿片样物质、其他止痛剂和***、眼用制剂、骨质疏松症制剂、疼痛药物、恐慌药物、***素、呼吸药、镇静剂、皮肤和粘膜药、失眠症药物治疗、减肥药和眩晕药治疗的响应;对生物恐怖性物质(bioterroristagent)(例如,炭疽、天花、流感)袭击或压力的响应。
数字分析
数字读出测定,例如数字PCR可被用来通过对样品中的靶分区并识别包含该靶的分区来计数靶(例如靶核酸序列)。数字读出是全有或全无分析,因为其指明给定分区是否含有感兴趣的靶,但不一定指出多少个靶拷贝在该分区中。例如,含有两个靶的一个多核苷酸可能在一个分区中,但在标准分析条件下,该分区将仅被认为含有一个靶。如果在同一多核苷酸上的靶被大数目碱基对分隔,靶核酸序列中的一些可能在样品的纯化过程中因断裂而被分离-一些连接的靶核酸序列可能在样品制备后不会保持物理连锁。数字PCR被概括性描述在例如,VogelsteinandKinzler(1999)PNAS96:9236-9241。该技术的应用包括例如,高分辨率CNV测量、全基因组范围关联研究的后续研究、细胞遗传分析、癌组织中的CNV改变和CNV连锁分析。
一般来说,dPCR可涉及将来自样品的各个多核苷酸在空间上分离(或分区),并对每个分区执行聚合酶链式反应。分区可以是例如,孔(例如,微孔板的孔)、毛细管、乳液的分散相、室(例如,在小型化室的阵列中的室)、液滴或核酸结合表面。样品可被分布成使得每个分区具有约0、1或2个靶多核苷酸。每个分区可具有平均小于5、4、3、2或1个拷贝的靶核酸/分区(例如液滴)。在有些情况下,至少0、1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、125、150、175或200个分区(例如液滴)具有零拷贝的靶核酸。在PCR扩增后,可以计算具有或没有PCR产物的分区的数目。分区的总数可以是例如,约、小于、至少或大于500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000、18,000、19,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、150,000、200,000、500,000、750,000或1,000,000。分区的总数可以是约500到约1,000,000、约500到约500,000、约500到约250,000、约500到约100,000、约1000到约1,000,000、约1000到约500,000、约1000到约250,000、约1000到约100,000、约10,000到约1,000,000、约10,000到约100,000或约10,000到约50,000。
在有些情况下,数字PCR是液滴数字PCR。在液滴数字PCR实验的一些实施方式中,可检测到少于0.00001、0.00005、0.00010、0.00050、0.001、0.005、0.01、0.05、0.1、0.5、1、2、2.5、3、3.5、4、4.5、5、6、7、8、9或10个拷贝的靶多核苷酸。在有些情况下,检测到少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300、350、400、450或500个拷贝的靶多核苷酸。在有些情况下,以大于1、2、3、4、5、10、50、100、200、300、400、500、600、700、800、900或1000液滴/秒的速度产生本文描述的液滴。
液滴数字PCR(ddPCR)可提供用于证实通过下一代测序仪和微阵列鉴定的拷贝数变异的实用方案。使用ddPCRTM的方法可使一个人能够在一次轮班中筛选待CNV分析的许多样品,例如数百个样品。在一个实施方式中,提供ddPCR流程,其包括使用一种或更多种限制酶来分离靶核酸序列的串联拷贝,之后组合包括检测靶核酸序列(例如第一基因)和单拷贝参考核酸序列(例如第二基因)的试剂的双重测定。当使用ddPCR时,反应混合物可随后被分配到可在分析前被热循环至终点的约、至少、小于或大于500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000、12,000、13,000、14,000、15,000、16,000、17,000,18,000、19,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000,150,000、200,000、500,000、750,000、1,000,000、2,000,000、3,000,000、4,000,000或10,000,000个纳升液滴中。在有些情况下,液滴大于一纳升;在其他情况下,液滴小于一纳升(例如,皮升)。每个反应液滴的数目可以是约1000到约1,000,000、约1000到约750,000、约1000到约500,000、约1000到约250,000、约1000到约100,000、约1000到约50,000、约1000到约30,000、约1000到约10,000、约10,000到约1,000,000、约10,000到约750,000、约10,000到约500,000、约10,000到约250,000、约10,000到约100,000、约10,000到约50,000或约10,000到约30,000。每个反应液滴的数目可以是约20,000到约1,000,000、约20,000到约750,000、约20,000到约500,000、约20,000到约250,000、约20,000到约200,000、约20,000到约50,000、约50,000到约100,000、约50,000到约200,000或约50,000到约300,000。
分析可发生在双色读出器中。阳性计数的液滴的分数可使得测量靶核酸序列和参考核酸序列(例如基因)的绝对浓度成为可能。这种信息可被用来确定相对拷贝数。例如,至少20,000PCR复制物/孔可提供分辨高阶拷贝数差异的统计功效。这种低成本方法能可靠地产生具有95%置信区间的拷贝数测量结果,该置信区间覆盖整数而不与相邻的拷贝数状态重叠。这一技术能够确定拷贝数变体的连锁,且可被用来确定基因拷贝是否在相同或不同染色体上。
体积份可具有任何适宜的尺寸。在有些情况下,体积份可具有约10到1000微米直径或特征性截面尺寸。
被分区的核酸可具有任何适宜的特点。核酸可包括受试者的遗传物质(例如,受试者的基因组DNA和/或RNA),尤其是受试者的信使RNA和/或从受试者的RNA获取的cDNA。核酸可具有任何适宜的平均长度。总地来说,平均长度基本上大于染色体上待分析的多态性基因座之间的距离。以这个平均长度,受试者中连锁的等位基因也常连锁在分离的核酸中,且因而在该水相被分区时往往一起分布到同一体积份中。在一些情况下,每个引物组可能能够扩增来自多态性基因座的至少一对不同的等位基因。
每个体积份可被分配为包含任何适宜的平均核酸浓度。总的来说,分配过程,结合水相中核酸的适宜起始浓度,产生具有平均小于每个容量几个核酸基因组等同物的体积份。尽管该方法可以平均每个体积份大于一个基因组等同物(例如,每个体积份约两个基因组等同物)进行,但是通过将浓度限制到每个体积份小于一个基因组等同物,分析总体上变得更加高效和可靠,具有更小的背景。因此,每个容量可含有平均小于包括每个多态性基因座的靶区域的一个拷贝或分子和/或平均小于每个多态性基因座的任何等位基因序列的一个拷贝。
集成的、快速的、流入式热循环装置可用在本文描述的方法中。参见,例如2009年9月23日提交的国际申请PCT/US2009/005317号。在此类集成装置中,毛细管被盘绕在保持2、3或4个温度区域的圆柱体周围。当液滴流过毛细管时,它们经历不同的温度区域以实现热循环。小体积份的每个液滴在液滴进入每个温度区域时产生极快的温度转变。
用于本文描述的方法、组合物和试剂盒的数字PCR装置(例如,液滴式数字PCR装置)可检测多个信号(参见,例如通过引用整体并入本文的2011年3月18日提交的美国临时专利申请第61/454,373号)。
液滴数字PCR可包括每秒数千离散的、稳健的液滴反应体的产生。ddPCR可包括通过被安装的基础仪器的标准热循环,所述被安装的基础仪器能够使数字数据立即为研究者所获取。对每个液滴的快速询问可产生初始样品中存在的靶分子的计数。
图21显示用于ddPCR实验的总体流程的实例。如在图21中所示,该过程可通过将样品分配到多个分区(例如液滴)中而启动,接着是在热循环仪中热循环该样品。然后可利用读出器(例如,光学读出器)检测液滴的荧光。
液滴产生
本公开内容包括使用液滴数字PCR的组合物和方法。本文描述的液滴包括在美国专利第7,622,280号中描述的乳液组合物(或两种或更多种不能混合的流体的混合物)和通过2009年9月23日提交的国际申请PCT/US2009/005317号中描述的装置产生的液滴。本文所用的术语乳液可指不能混合的液体(诸如油和水)的混合物。油相和/或油包水乳液容许反应混合物在水性液滴内的区室化(compartmentalization)。乳液可包括在连续的油相内的水性液滴。本文提供的乳液可以是水包油乳液,其中液滴是在连续的水相内的油滴。本文提供的液滴被设计为防止区室之间的混合,其中每个区室保护其内容物免于蒸发和与其他区室的内容物合并。
本文描述的混合物或乳液可以是稳定的或不稳定的。乳液可以是相对稳定的且具有最小的合并。合并发生在当小液滴合并逐渐形成较大液滴时。在有些情况下,从液滴发生器产生的液滴中少于0.00001%、0.00005%、0.00010%、0.00050%、0.001%、0.005%、0.01%、0.05%、0.1%、0.5%、1%、2%、2.5%、3%、3.5%、4%、4.5%、5%、6%、7%、8%、9%或10%与其他液滴合并。乳液还可具有有限的絮凝,絮凝是分散相以薄片状物从悬浮液中产生的过程。
如本文所述的将样品分成小的反应体积份可促使能够使用减少的量的试剂,从而降低分析的材料成本。通过分区降低样品复杂性还改善了检测的动态范围,因为更高丰度的分子与不同区室中的低丰度分子分离,从而容许较低丰度的分子有更大的比例接触反应试剂,这进而增强了对较低丰度的分子的检测。
可产生具有约、至少、小于或大于0.001、0.01、0.05、0.1、1、5、10、20、30、40、50、60、70、80、100、120、130、140、150、160、180、200、300、400或500微米的平均直径的液滴。液滴可具有约0.001到约500、约0.01到约500、约0.1到约500、约0.1到约100、约0.01到约100或约1到约100微米的平均直径。使用微通道错流聚焦(microchannelcross-flowfocusing)或物理搅拌产生乳液液滴的微流体方法已知产生单分散或多分散的乳液。液滴可以是单分散的液滴。液滴可被产生为使得所述液滴的尺寸变化不大于所述液滴平均尺寸的加5%或减5%。在有些情况下,液滴被产生为使得所述液滴的尺寸变化不会大于所述液滴平均尺寸的加2%或减2%。液滴发生器可产生来自单个样品的液滴群,其中这些液滴中无一尺寸变化大于总液滴群平均尺寸的加或减约0.1%、0.5%、1%、1.5%、2%、2.5%、3%、3.5%、4%、4.5%、5%、5.5%、6%、6.5%、7%、7.5%、8%、8.5%、9%、9.5%或10%。
较高的机械稳定性对于微流体操作和较高剪切的流体处理(例如,在微流体毛细管中或通过流体路径中90℃转角,诸如阀)可能是有用的。预热或后热处理的液滴或囊状物对标准的移液管操作和离心可能是机械稳定的。
可通过使油相流过水性样品形成液滴。水相可包括用于进行PCR反应的缓冲溶液和试剂,包括核苷酸、引物、用于荧光检测的一种或更多种探针、模板核酸、DNA聚合酶和任选的逆转录酶。
水相可包括一种或更多种本文描述的缓冲液和/或添加剂。
用于在水相中扩增的引物可具有约、至少、大于或小于0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.2、1.5、1.7或2.0μM的浓度。水相中的引物浓度可以是约0.05到约2、约0.1到约1.0、约0.2到约1.0、约0.3到约1.0、约0.4到约1.0或约0.5到约1.0μM。引物的浓度可以是约0.5μM。水相可包括用于荧光检测的以下浓度的一种或更多种探针:约、至少、大于或小于0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.2、1.4、1.6、1.8、或2.0μM。水相可包括用于荧光检测的以下浓度的一种或更多种探针:约0.05到约2.0、约0.1到约2.0、约0.25到约2.0、约0.5到约2.0、约0.05到约1、约0.1到约1或约0.1到约0.5μM。用于荧光检测的探针的浓度可以是约0.25μM。PCR中靶核酸浓度的经得起检验的范围可以在约1pg和约500ng之间。
油相可包括氟化的基础油,其可通过与氟化的表面活性剂诸如全氟化聚醚组合而被另外地稳定。在有些情况下,基础油可以是HFE7500、FC-40、FC-43、FC-70或另一种常见的氟化油中的一种或更多种。在有些情况下,阴离子表面活性剂是Krytox铵(Krytox-AM)、KrytoxFSH的铵盐或Krytox-FSH的吗啉代衍生物。Krytox-AS可以以约、大于、至少或小于0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、2.0%、3.0%或4.0%w/w的浓度存在。在有些情况下,Krytox-AS的浓度是1.8%。在其他情况下,Krytox-AS的浓度是1.62%。Krytox-FSH的吗啉代衍生物可以以约0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1.0%、2.0%、3.0%或4.0%w/w的浓度存在。Krytox-FSH的吗啉代衍生物的浓度可以是约1.8%。Krytox-FSH的吗啉代衍生物的浓度可以是约1.62%。
油相还可以包括用于调整油的特性诸如蒸汽压或粘度或表面张力的添加剂。非限制性实例包括全氟辛醇和1H,1H,2H,2H-全氟癸醇。1H,1H,2H,2H-全氟癸醇可被添加至约、大于、至少或小于0.05%、0.06%、0.07%、0.08%、0.09%、1.00%、1.25%、1.50%、1.75%、2.00%、2.25%、2.50%、2.75%或3.00%w/w的浓度。1H,1H,2H,2H-全氟癸醇可被添加至约0.18%w/w的浓度。
乳液可被配制成产生具有液体样界面膜的高度单分散的液滴,所述高度单分散的液滴可通过加热被转换成具有固体样界面膜的微囊;此类微囊可表现得像通过反应过程诸如PCR扩增能保留其内容物的生物反应器。这种向微囊形式的转化可在加热时发生。例如,此类转化可发生在大于约50、60、70、80、90或95℃的温度。在有些情况下,这种加热使用热循环仪发生。在加热过程中,流体或矿物油覆盖物可被用来防止蒸发。过量的连续油相在加热之前可被除去或可不被除去。该生物相容的囊能在各种各样的热处理和机械处理中抵抗合并和/或絮凝。
在转化后,囊可被存储在约、大于、至少或小于3、4、5、6、7、8、9、10、15、20、25、30、35或40℃。这些囊可被用在生物医学应用中,诸如大分子,尤其是含有核酸或蛋白或含有二者一起的混合物的水性生物流体的稳定的、数字化包封;药物和疫苗递送;生物分子文库;临床影像应用,以及其他应用。
微囊可含有一种或更多种多核苷酸且可抵抗合并,尤其是在高温下。因此,PCR扩增反应能够以非常高的密度(例如,每单位体积的反应数)发生。在有些情况下,每ml可发生大于约100,000、500,000、1,000,000、1,500,000、2,000,000、2,500,000、5,000,000或10,000,000个单独的反应。在有些情况下,反应在单个孔,例如微量滴定板的孔中发生,而没有反应体积份之间的内部混和。微囊还可以含有使得PCR反应发生的其他组分,例如引物、探针、dNTP、DNA或RNA聚合酶等等。这些囊在各种各样的热处理和机械处理中表现出对合并和絮凝的抵抗。
在一个实施方式中,在DNA的尺寸通过例如消化、热处理或剪切被减小后可改进液滴发生。
图22展示若干液滴的图像,示出a)当液滴被油从侧面的流入挤压时,液滴形成,和b)当液滴被牵拉离开主体流体时,拉伸/收缩成颈状。
图23显示增加DNA负载的效果。图23对最大伸展度相对于流速作图。测量从十字形的中心到液滴刚脱离时液滴的最远限度测量伸展度。某些液滴的伸展是可容忍的,但是如果它变得过度,则拉出连接液滴与主体流体的一条长“线”。当液滴脱离时,这条线可能使液滴崩溃成微液滴,导致不期望的多分散性。在极端情况下,液滴不脱离;反而是,水相作为连续相向下流到通道中心,而油沿着通道壁流动,而没有液滴被形成。
减少伸展的一个方式是降低流速。降低流速可能具有较低通过量以及还有增加的液滴尺寸的不期望的副作用。紫色(B)、蓝绿色(E)和绿色(A)曲线具有零DNA。这些样品能够容忍高流速而基本上不增加其向通道的伸展。
蓝色(D)、橙色(F)和红色(C)曲线具有较高DNA负载。对于这些状况,高流速促使液滴伸展进入通道。可使用低流速来避免过度的液滴伸展。
图24显示实验中的未消化的样品1-10和消化的样品11-20来研究液滴特性。DNA负载被显示在最右边的列中;压力(大致与流速成比例)被显示在第二行中。表是颜色和字母编码的:J(红色)指示喷射,E(黄色)表示伸展,且N(绿色)表示正常(没有喷射或伸展)的液滴产生。如可以看到的,消化(用限制酶)即使是在高DNA负载和高流速下导致改进的液滴产生。
应用
本文描述的方法可被用于诊断或预测疾患或疾病。
本文提供的方法和组合物可被用于人类受试者和非人类受试者两者。本文提供的方法和组合物的应用有很多,例如,高分辨率CNV测量、全基因组范围关联研究的后续研究、细胞遗传分析、癌组织中的CNV改变,CNV连锁分析,以及单倍型分析。
本文提供的应用包括用于诊断、预测、确定或评价胎儿或胚胎的遗传特征的应用。在有些情况下,这些应用可被用来诊断、预测、确定或评价通过体外受精或其他辅助生殖技术产生的胚胎中的核酸。此外,本文提供的方法可被用来向准父母(例如,孕妇)提供信息以便评价在正在发育的胎儿的基因组内的CNV或遗传定相。在其他情况下,本文提供的方法可用来帮助为患者建议关于未来后代的可能遗传属性。在有些情况下,这些方法可与辅助生殖技术联合使用。例如,所述信息可被用来评价从通过体外受精产生的胚胎采集的样品中的CNV或遗传定相。
一种或更多种CNV可见于癌细胞中。如,EGFR拷贝数在非小细胞肺癌中可增加。CNV可与治疗功效相关。例如,增加的HER2基因拷贝数可增强晚期非小细胞肺癌中对吉非替尼治疗的响应。参见CappuzzoF.等人(2005)J.Clin.Oncol.23:5007-5018。高EGFR基因拷贝数能预测对拉帕替尼和卡培他滨的提高的敏感性。参见Fabi等人(2010)J.Clin.Oncol.28:15s(2010ASCOAnnualMeeting)。高EGFR基因拷贝数与对西妥昔单抗和帕尼单抗的提高的敏感性相关。
在一个实施方式中,提供了包括使用本文描述的方法确定靶序列的拷贝数和基于所述测定设计治疗的方法。在一个实施方式中,靶是EGFR,且治疗包括施用西妥昔单抗、帕尼单抗、拉帕替尼和/或卡培他滨。在另一个实施方式中,靶是ERBB2,且治疗包括曲妥珠单抗(赫赛汀)。
拷贝数变异可归因于人类之中的遗传变异。参见,例如,ShebatJ.等人(2004)Science305:525-528。
与拷贝数变异相关的疾病可包括,例如,DiGeorge/腭心面综合征(22q11.2缺失)、Prader-Willi综合征(15q11-q13缺失)、Williams-Beuren综合征(7q11.23缺失)、Miller-Dieker综合征(MDLS)(17p13.3微缺失)、Smith-Magenis综合征(SMS)(17p11.2微缺失)、神经纤维瘤病1型(NF1)(17q11.2微缺失)、Phelan-McErmid综合征(22q13缺失)、Rett综合征(染色体Xq28上的MECp2的功能损失型突变)、梅氏病(Merzbacherdisease)(PLP1的CNV)、脊髓性肌萎缩症(SMA)(纯合性(homozygous)缺失染色体5q13上的端粒SMN1)、Potocki-Lupski综合征(PTLS,染色体17p.11.2的重复)。额外的PMP22基因拷贝可与Charcot-Marie-Tooth神经病IA型(CMT1A)和遗传压力易感性神经病(HNPP)相关。本文描述的检测CNV的方法可被用来诊断本文和通过引用并入的出版物中描述的CNV疾患。疾病可以是在LupskiJ.(2007)NatureGenetics39:S43-S47中描述的疾病。
非整倍体例如胎儿非整倍体可包括,例如,13三体、18三体、21三体(唐氏综合征)、克兰费尔特综合征(XXY)、一个或更多个染色体的单体性(X染色体单体性、特纳综合征)、X三体、一个或更多个染色体的三体性、一个或更多个染色体的四体性或五体性(例如,XXXX、XXYY、XXXY、XYYY、XXXXX、XXXXY、XXXYY、XYYYY和XXYYY)、三倍性(每个染色体有三个,例如人类中有69个染色体)、四倍性(每个染色体有四个,例如人类中有92个染色体)和多倍性。在一些实施方式中,非整倍性可以是区段性非整倍性(segmentalaneuploidy)。区段性非整倍性可包括例如,1p36重复、dup(17)(p11.2p11.2)综合征、唐氏综合征、佩梅病(Pelizaeus-Merzbacherdisease)、dup(22)(q11.2q11.2)综合征和猫眼综合征。在有些情况下,异常的基因型例如胎儿基因型是由性染色体或常染色体的一个或更多个缺失引起的,其可导致病症诸如猫叫综合征、Wolf-Hirschhorn、Williams-Beuren综合征、Charcot-Marie-Tooth病、遗传压力易感性神经病、Smith-Magenis综合征、神经纤维瘤病、Alagille综合征、腭心面综合征、DiGeorge综合征、类固醇硫酸酯酶缺乏症、Kallmann综合征、小眼线性皮肤缺陷(Microphthalmiawithlinearskindefects)、肾上腺发育不良、甘油激酶缺乏症、佩梅病、Y上的睾丸决定因子、***缺乏(因子a)、***缺乏(因子b)、***缺乏(因子c)或1p36缺失。在一些实施方式中,染色体数目的减少导致XO综合征。
过多的基因组DNA拷贝数变异见于Li-Fraumeni癌症倾向综合征(Shlien等人(2008)PNAS105:11264-9)。CNV与包括以下的畸形综合征有关:CHARGE(眼缺损、心脏畸形、鼻后孔闭锁、延迟发育、生殖器畸形和耳畸形),Peters-Plus综合征,Pitt-Hopkins综合征和血小板减少-桡骨缺失综合征(参见,例如RopersHH(2007)AmJofHumGenetics81:199-207)。拷贝数变异与癌症之间的关系被描述在例如ShlienA.andMalkinD.(2009)GenomeMed.1(6):62中。拷贝数变异与例如孤独症、精神***症和特发性学习失能(idiopathiclearningdisability)。参见,例如,ShebatJ.等人(2007)Science316:445-9;PintoJ.等人(2010)Nature466:368-72;CookE.H.和SchererS.W.(2008)Nature455:919-923;RuderferD.等人(2013)EuropeanJournalofHumanGeneticsdoi:10.1038/ejhg.2012.287。
拷贝数变异可与癌症患者对某些治疗的耐受性相关。例如,胸苷酸合酶的扩增能导致转移性结肠直肠癌患者中对5-氟尿嘧啶治疗的耐受性。参见Wang等人(2002)PNASUSA第99卷,第16156-61页。
CCL3L1的高拷贝数与对HIV感染的较低易感性有关(GonzalezE.等人(2005)Science307:1434-1440)。FCGR3B(CD16细胞表面免疫球蛋白受体)的低拷贝数能提高对***性红斑狼疮的易感性(AitmanT.J.等人(2006)Nature439:851-855)。发现常染色体显性的小耳畸形与染色体4p16的拷贝数变区域的五个串联拷贝相关(BalikovaI.(2008)AmJ.HumGenet.82:181-187)。本文描述的方法、组合物和试剂盒可被用来研究这些病症中的任何一种。
来自具有高淀粉饮食的群体中的个体一般具有比来自具有低淀粉饮食的群体中的个体更多的淀粉酶(AMYl)基因拷贝(PerryH.等人(2007)NatureGenetics39:1256-1260)。因而,拷贝数在进化过程中可进行正向选择。本文描述的方法、组合物和试剂盒可被用来研究进化。
与疾病相关的拷贝数变异的其他实例包括例如,21三体(唐氏综合征)、18三体(Edwards综合征)和13三体(Patau综合征)。
确定核酸是连锁还是分离(断裂)可为各种应用提供有用的信息。例如,本文描述的方法可被用来对疾患或疾病,例如遗传疾患诊断或预后。本文描述的方法可被用来对胎儿疾患,例如胎儿非整倍性诊断或预后。
本文描述的方法可被用于评估感染,例如病毒或细菌感染。例如,这些方法可被用来确定两个或更多个突变是否位于单个病毒或细菌之内,或两个或更多个突变是否在不同的个体病毒或细菌中。
本文描述的方法可用于监测转基因动物的产生。例如,这些方法可被用来确定转基因是否已被一次或多次引入转基因生物体的基因组中。在其他实施方式中,这些方法可被用于监测基因敲除动物的产生。例如,这些方法可被用来确定基因是否已在基因敲除生物体中缺失或中断。基因敲除动物可以是全身性基因敲除动物(例如,所述基因在所有组织中被缺失或中断)、组织特异性基因敲除动物(例如,所述基因在特定的组织中被缺失或中断)或诱导型基因敲除动物(例如基因的缺失或中断可通过试剂诱导)。在有些情况下,这些方法可被用于监测基因敲入动物的产生。例如,这些方法可被用来确定转基因是否已被一次或多次引入转基因动物的基因组中。
关卡(checkpoint)、DNA损伤和细胞周期
确定基因座是连锁还是分离(断裂)可被用来研究DNA损伤修复、双链断裂修复、同源重组、微同源介导的末端连接、单链退火(SSA)、断裂引起的复制或非同源末端连接(NHEJ)。本文描述的方法可被用来对与这些过程相关的疾病诊断和预后。
DNA损伤可由来源于环境因素以及内源性或正常的代谢过程。可损伤DNA的内源性因素包括,例如,活性氧物质和复制错误。生理性双链DNA断裂可包括V(D)J重组断裂和类转换断裂(classswitchbreak)。病态的双链DNA断裂可由电离辐射、氧自由基、穿过切口复制、在脆性位点的偶然性酶作用、拓扑异构酶失效和机械应力导致。能够引起DNA损伤的环境或外源性因素包括紫外线辐射、x-射线、γ-射线、DNA嵌入剂、某些植物毒素、病毒、热破坏和化学疗法。减数***的细胞可具有另外的DSB来源,包括酶Spo11。
双链DNA断裂可通过例如NHEJ修复。能参与NHEJ的因子包括例如,Ku70/86、DNA-PKcs、Artemis、polμ和λ、XRCC4、DNA连接酶IV、XRC44和XLF-Cernunnos。在双链断裂形成后,Ku可与断裂物结合形成DNA复合物。该DNA末端复合物能募集核酸酶、聚合酶和连接酶活性。在DNA末端的Ku可与DNA-PKc形成稳定的复合物。DNA-PKc可包括5'内切核酸酶活性、3'内切核酸酶活性、和发卡打开活性(hairpinopeningactivity)。Artemis可包括5'外切核酸酶活性。PALF(APLF)的3'外切核酸酶能在NHEJ中起作用。聚合酶μ和λ能通过其BRCT结构域结合Ku:DNA复合物。DNA连接酶IV能在缺口间连接,连接不相容的DNA末端和连接单链DNA。NHEJ可涉及链切除。XRCC4能够四聚化,且PNK(多核苷酸激酶)、APTX(aprataxin,一种能够在失败的连接产物的脱腺苷化中起作用的蛋白),且PALF能够与XRCC4相互作用。通过NHEJ的双链DNA断裂修复被综述在例如Lieber,M(2011)Annu.Rev.Biochem.79:181-211中,其在此被通过引用全部并入。NHEJ可发生在细胞周期的任何时间。
NHEJ蛋白可在V(D)J重组中起作用。蛋白RAG1和RAG2可在V(D)J重组中起作用。类别转换重组可发生在完成V(D)J重组后的B细胞中且可被用来改变免疫球蛋白重链基因。这个过程可涉及活化诱导的脱氨酶(AID)、RNA酶H、尿嘧啶转葡糖基酶、APE1和Exo1。
可通过同源性指导的修复(例如同源重组或单链退火)修复双链DNA断裂。可参与这些过程的因子的实例包括RAD50、MRE11、Nbsl(合称MRN复合物),RAD51(B,C,D),XRCC2,XRCC3,RAD52,RAD54B和BRCA2。在细胞周期的S期和G2期,有两个接近的姐妹染色单体,所以同源性指导的修复在这些时期中可能更常见。
ATM和ATR激酶能够识别损伤的DNA。这些激酶同DNA-PK一起能磷酸化H2AX并产生γH2AX灶。ATR能被由复制叉停滞或对大量损伤的处理产生的单链DNA区域激活。ATR能够与ATRIP相互作用。9-1-1复合物(Rad9、Hus1和Rad1)可在ATR对底物的磷酸化作用中起作用。RPA能够结合ssDNA且能够在ATR对底物的磷酸化作用中起作用。
ATM能够通过MRN识别DNA末端。磷酸化的H2AX能够招募MDC1、泛素连接酶RNF8和RNF168,以及53BP1。ATM能够磷酸化Chk2和p53。
还可以使用本文描述的方法、组合物和试剂盒分析关卡和细胞周期调控。细胞可通过细胞周期发生,且细胞周期可包括G1期、S期(DNA合成)、G2期和M期(有丝***)。已经停止***的细胞可能处于G0期(静止期)。关卡可被用来停止细胞周期并允许在细胞周期被准许继续之前修复DNA损伤。DNA损伤关卡可发生在G1期和S期以及G2期和M期的边界。另一个关卡是S期内部关卡(intra-Sphasecheckpoint)。
其他方法
确定核酸是连锁还是分离(断裂)可被用来研究在诸如DNA复制和转录的过程中的聚合酶(例如,DNA聚合酶、RNA聚合酶、逆转录酶)。例如,可确定聚合酶的持续合成能力(processivity)(例如,为确定全长新生链与部分长度新生链的百分比,人们可以通过计数基因的第一半拷贝与最后一半拷贝的数目测量存在基因的多少截短形式)。因为合成从5'到3'发生,预期待合成的产物的第一半(5'端)将比最后一半(3'端)产生得多。
确定基因座在样品中是连锁还是分离(断裂)可用于研究一种或更多种限制酶、RNA酶(RNAzyme)、DNA酶(DNAzyme)、外切核酸酶、内切核酸酶、RNA酶(RNase)、DNA酶(DNase)等等,来确定这些酶的切割(例如,对两个连锁的靶的分离)效率。
确定遗传基因座是连锁还是分离(断裂)可用于研究癌症中的RNA剪接、遗传重排、基因定位和DNA重排。遗传重排可以是例如,染色体易位。易位可以是相互的(非罗伯逊易位),其可涉及非同源染色体之间物质的交换。易位可以是罗伯逊易位。罗伯逊易位可涉及在着丝粒附近融合的两个近端着丝粒染色体的重排。与疾病相关的易位包括例如,t(8;14)(q24;a32)(伯基特淋巴瘤;c-myc与IGH的融合);t(11;14)(q13;q32)(被套细胞淋巴瘤;细胞周期蛋白D1与IGH的融合);t(14;18)(q32;q21)(滤泡淋巴瘤;IGH与Bcl-2的融合);t(10;(多种))(q11;(多种))(***状甲状腺癌;涉及染色体10上的RET原癌基因);t(2;3)(q13;p25)(滤泡状甲状腺癌;PAX8与PPARyγ1的融合));t(8;21)(q22;q22)(急性粒细胞白血病);t(9;22)(q34;q11)费城染色体(慢性髓性白血病;急性成淋巴细胞性白血病;ETO与AML1的融合);t(15;17)(急性早幼粒细胞白血病;PML与RAR-a的融合);t(12;15)(p13;q25)(急性髓性白血病、先天性纤维肉瘤、分泌型乳腺癌;TEL与TrkC受体的融合)、t(9;12)(p24;p13)(CML、ALL;AK与TEL的融合);t(12;21)(p12;q22)(ALL;TEL与AML1的融合);t(11;18)(q21;q21)(MALT淋巴瘤;Bcl-2与MLT的融合);和t(1;11)(q42.1;q14.3)(精神***症)。
本文描述的拷贝数变异分析可被用来诊断出生前病症,例如胎儿畸形,例如13三体、18三体或21三体。
确定法医遗传物质的降解(断裂)度可帮助确定在消耗珍贵的样品之前哪些分析可被成功地执行。确定核酸是连锁还是分离(断裂)可用于确定由于DNA的随机剪切导致的完全整数值拷贝数估计的预期缺陷。
检测靶序列的缺失
提供了用于通过共定位获得连锁信息的方法。该方法可被用来确定是否存在靶核酸序列的缺失或用于对CNV拷贝单倍型分析。标志物序列(用例如VIC标记的探针检测)可以在拷贝数变异区域中在靶序列的外侧但靠近靶序列(用例如FAM标记的探针检测)。包含核酸的样品可被分配成多个空间上隔离的区域,且可测到标志物核酸序列和靶核酸序列可被检测(例如,通过扩增和用探针检测)。可如图49中所描绘的分析VIC(标志物)和FAM(靶)的共定位。如果VIC和FAM总是共定位在一个分区中,那么可能没有靶序列的缺失(图49B)。如果存在只有未与FAM共定位的VIC的分区,这个结果表明靶序列的缺失(图49A)。
消化的核酸的储存
消化的核酸(例如DNA)的储存时长可能影响拷贝数变异测量结果。延长的储存能导致估计的拷贝数的减少。例如,延长的储存可导致核酸降解。消化的核酸样品的储存时长可以是约或小于例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100小时。消化的核酸样品的储存时长可以是约或小于例如,1、2、3、4、5、6、7、8、8,9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100天。消化的核酸样品的储存时长可以是约或小于例如,1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100年。
在一个实施方式中,持续延长的时间段在4℃储存消化的DNA可能影响CN估计值的质量(例如,拷贝数估计值可随时间变小,例如具有估计的CNV为6.0的靶的样品如果在4℃储存3周,可得到5.7的CNV)。
核酸样品(例如消化的核酸样品)的储存温度可以是约或小于4、0、-10、-20、-30、-40、-50、-60、-70、-80、-90、-100、-110、-120、-130、-140、-150、-160、-170、-180、-190或-200℃。
在一个实施方式中,消化的DNA可被储存在缓冲溶液(例如10mMtris,pH8.0)中。
在一些实施方式中,消化的DNA可被冻干或干燥(例如,使用SpeedVac浓缩仪)以便储存。
核酸长度对CNV分析的影响
即使核酸序列没有连锁(例如,如果它们在不同的染色体上),样品中存在长核酸可影响拷贝数变异值。通过例如限制性消化、热处理、剪切、超声处理、过滤等等减少样品中的核酸尺寸能改善拷贝数变异实验的结果。减少核酸长度还能改善PCR的靶可及性。
在高核酸负载下,核酸长度的减少可用来确保在液滴数字PCR实验中的一致性液滴信息。在具有长核酸的高核酸负载下,可减少或避免液滴形成,且可产生流。核酸长度可通过例如超声处理、热处理、限制酶消化、过滤或剪切减少。
液滴数字PCR可被用来测量限制酶的效率和特异性。
本申请为了所有目的通过引用整体并入以下材料:2006年5月9日授权的美国专利第7,041,481号;2010年7月8日公布的美国专利申请第2010/0173394A1号;和JosephR.Lakowicz,PRINCIPLESOFFLUORESCENCESPECTROSCOPY(第2版,1999)。
试剂盒
本文提供了用于执行本公开内容的方法的试剂盒。试剂盒可包括一种或更多种限制酶、装置、缓冲液、试剂和使用说明。试剂盒可包括限制酶、缓冲液、盐和使用说明。试剂盒可包括一种或更多种引物和一种或更多种探针。试剂盒可包括至少一种限制酶、四种引物和两种探针。试剂盒可包括至少一种限制酶、至少四种引物和至少一种探针。试剂盒可包括至少一种限制酶、至少四种引物和至少两种探针。
在有些情况下,试剂盒可包括一个或更多个平板,例如用于数字PCR的平板。平板可包括多个分区。试剂盒可包括约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个平板。平板上的每个分区可包含引物,例如一组4个引物对(8个引物)和/或一组四个探针。试剂盒可包括约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个引物对。在有些情况下,每个分区包括约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50组探针。一组探针可包括约、大于、小于或至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个探针。在有些情况下,包括平板、引物和/或探针的试剂盒还包括说明书。
相关技术
常规技术可用在本文描述的方法中。此类常规技术可见于标准实验室手册诸如:GenomeAnalysis:ALaboratoryManualSeries(卷I-IV),UsingAntibodies:ALaboratoryManual,Cells:ALaboratoryManual和MolecularCloning:ALaboratoryManual(均出自冷泉港实验室出版社);Stryer,L.(1995)Biochemistry(第4版)Freeman,NewYork;Gait,"OligonucleotideSynthesis:APracticalApproach(寡核苷酸合成:实用方法)"1984,IRLPress,London,Nelson和Cox(2000),Lehninger,(2004)PrinciplesofBiochemistry第4版,W.H.FreemanPub.,NewYork,N.Y.和Berg等人(2006)Biochemistry,6thEd.(生物化学第6版),W.H.FreemanPub.,NewYork,N.Y.,其全部被为了所有目的通过引用整体并入本文。
可通过包括以下的多种手段检测拷贝数变异:例如,荧光原位杂交、比较基因组杂交、阵列比较基因组杂交、带有SNP阵列的可视核型分析(virtualkaryotypingwithSNParray)和下一代测序。通过数字PCR确定拷贝数变异的方法被描述在例如美国专利申请公布第20090239308号中。可通过数字PCR通过稀释核酸检测拷贝数变异。可通过数字PCR通过使用可将单独的DNA分子分配到隔开的反应室中的纳米流控芯片(nanofluidicchip)(数字阵列)(例如,Fluidigm纳米流控芯片)检测拷贝数变异。可通过液滴数字PCR检测拷贝数变异。本文描述的方法可被用来确认用一种或更多种以上提到的技术进行的拷贝数变异分析的结果。
可被用来确定拷贝数变异的下一代测序技术包括例如,DNA纳米球测序(利用滚环复制来将基因组DNA的小片段扩增成DNA纳米球)(被例如CompleteGenomics使用)、纳米孔测序(被例如OxfordNanoporeTechnologies、GeniaTechnologies、Nabsys使用)(SoniG.V.和MellerA.(2007)ClinChem.53:1996-2001)、离子半导体测序(IonTorrentSystems、PersonalGenomeMachine、LifeTechnologies)(美国专利申请公布第20090026082号)、SOLiD测序(通过连接测序;被例如AppliedBiosystems使用)、Illumina(Solexa)测序(利用桥式扩增)、454焦磷酸测序(被例如RocheDiagnostics使用)(Margulies,M.等人2005Nature,437:376-380)、真正单分子测序(被例如Helicos使用)(HarrisT.D.等人(2008)Science320:106-109)、使用来自DoverSystems(Polonator)的技术的测序;或被PacificBiosciences使用的单分子实时测序(SMRT)。本文描述的方法、组合物和/或试剂盒可被用来追踪通过这些方法之一进行的CNV分析。在有些情况下,下一代测序技术是454测序(Roche)(参见例如,Margulies,M等人(2005)Nature437:376-380)。454测序可包括两个步骤。在第一步骤中,可将DNA剪切成大约300-800碱基对的片段,并且可将片段平端化。然后可将寡核苷酸接头与片段的末端连接。接头可充当用于杂交引物的位点以便片段的扩增和测序。可利用例如可含有5'-生物素标签的接头B将片段与DNA捕获珠例如链霉亲和素涂覆的珠相连。片段可通过杂交与DNA捕获珠相连。每个珠可捕获一个片段。与珠相连的片段可在油水乳液的液滴内被PCR扩增。结果可以是在每个珠上经克隆扩增的DNA片段的多个拷贝。在被扩增的片段仍保持与其特异性珠结合时乳液可被破坏。在第二步中,珠可被捕获在孔中(皮升尺寸的;PicoTiterPlate(PTP)装置)。可设计表面使得每个孔仅一个珠适合。PTP装置可被装载到用于测序的仪器中。可对每个DNA片段平行进行焦磷酸测序。一个或更多个核苷酸的添加能产生通过可在测序仪器中被CCD摄相机记录的光信号。信号强度可以与所掺入的核苷酸的数目成比例。
焦磷酸测序可利用焦磷酸(PPi),焦磷酸可在核苷酸添加时被释放。PPi可在腺苷5'磷酰硫酸酯的存在下被ATP硫酸化酶转化为ATP。萤光素酶可使用ATP将荧光素转化为氧化荧光素,并且这种反应能产生可被检测和分析的光。使用的454测序***可以是GSFLX+***或GSJuniorSystem。
在一些实施方式中,下一代测序技术是SOLiD技术(AppliedBiosystems;LifeTechnologies)。在SOLiD测序中,基因组DNA可被剪切成片段,且接头可被连接到片段的5'端和3'端以产生片段文库。可选地,内部接头可通过以下被引入:连接接头与片段的5'端和3’端,使片段环化,消化环化的片段以产生内部接头,并将接头连接到所得片段的5'端和3'端以产生配对(mate-paired)的文库。接下来,可在含有珠、引物、模板和PCR组分的微型反应器中制备克隆珠群。在PCR后,模板可被变性且珠可被富集以分离具有延伸的模板的珠。可对所选择的珠上的模板进行容许粘合到载玻片的3'修饰。测序引物可与接头序列结合。一组四种荧光标记的二碱基探针(di-baseprobe)可竞争与测序引物连接。二碱基探针的特异性可通过在每个连接反应中询问每个第一碱基和第二碱基实现。模板的序列可通过部分随机的寡核苷酸与可被特异性荧光团识别的确定的碱基(或碱基对)的顺序性杂交和连接来确定。在颜色被记录后,被连接的寡核苷酸可被切割并除去且该过程之后可被重复。在一系列连接循环后,延伸产物可被除去且模板可与对n-1位置互补的引物被重置以进行第二轮连接循环。对于每个序列标签可完成五轮引物重置。通过引物重置过程,大部分碱基可在两个独立连接反应中被两种不同的引物询问。通过用另外的引物使用多碱基编码方案可实现高达99.99%的准确度。在有些情况下,下一代测序机器是5500WSeriesGeneticAnalysisSystem。
在有些情况下,下一代测序技术是SOLEXA测序(ILLUMINA测序)。ILLUMINA测序可基于使用回折PCR(fold-backPCR)和锚定引物在固体表面上扩增DNA。ILLUMINA测序可包括文库制备步骤。基因组DNA可以被断裂,且被剪切的末端可以被修复和腺苷酸化。接头可以被添加到片段的5'和3'端。片段可以被选择尺寸并纯化。ILLUMINA测序可包括簇产生步骤。DNA片段可通过与附着到流动池(flowcell)通道表面的一片寡核苷酸(alawnofoligonucleotides)杂交被附着到流动池通道的表面。片段可通过桥扩增被延伸并克隆性扩增以产生独特的簇。片段变成双链的,且这些双链分子可被变性。变性后的多个固相扩增循环能在流动池的每个通道中产生数百万个具有同一模板的约1,000个单链DNA分子拷贝的簇。反向链(reversestrand)可被切割并洗去。末端可以被封闭,且引物可与DNA模板杂交。ILLUMINA测序可包括测序步骤。数以亿计的簇可被同时测序。引物、DNA聚合酶和四种荧光团-标记的可逆终止的核苷酸可被用来进行顺序测序。所有四种碱基可相互竞争模板。在核苷酸掺入后,可使用激光激发荧光团,并捕获图像和记录第一碱基的身份。除去3'终止剂和和来自每个被掺入的碱基的荧光团,并重复掺入、检测和识别步骤。每个循环可读取一个碱基。在一些实施方式中,HiSeq***(例如HiSeq2500、HiSeq1500、HiSeq2000或HiSeq1000)被用于测序。在一些实施方式中,使用MiSeq个人测序仪。在一些实施方式中,使用GenomeAnalyzerIIx。
在有些情况下,下一代测序技术包括PacificBiosciences的实时(SMRTTM)技术。在SMRT中,四种DNA碱基中的每种可被连接到四种不同的荧光染料之一。这些染料可以是磷酸连接的。一个DNA聚合酶可与一个模板单链DNA分子被固定在零模波导(ZMW)的底部。ZMW可以是限制结构,其使得相对于能快速扩散出入ZMW(以微秒计)的荧光核苷酸的背景观察单个核苷酸被DNA聚合酶掺入成为可能。可能花费数毫秒将核苷酸掺入到生长中的链中。在这个时间内,荧光标记可被激发并产生荧光信号,且该荧光标签可被切掉。ZMW可以从下面发光。来自激发光束的衰减的光能够穿透每个ZMW的靠下方的20-30nm。可创建具有20仄升(10-21升)检出限的显微镜。微小的检测体积能在减少背景噪声上提供1000倍的改进。检测染料的对应荧光能够指示哪个碱基被掺入。该过程可被重复。在有些情况下,PacBioRSII被用于下一代测序。
在有些情况下,下一代测序是纳米孔测序(参见,例如,SoniGV和MetterA.(2007)ClinChem53:1996-2001)。纳米孔可以是直径约一纳米等级的小孔。纳米孔浸入在导电流体中和在整个纳米孔应用电位可因离子通过纳米孔传导能产生微小的电流。流动的电流的量可能对纳米孔的尺寸是敏感的。当DNA分子通过纳米孔时,DNA分子上的每个核苷酸能在不同程度上阻塞纳米孔。因而,当DNA分子通过纳米孔时通过纳米孔的电流的改变可代表对DNA序列的读取。纳米孔测序技术可来自OxfordNanoporeTechnologies,例如GridlON***。单个纳米孔可被***到跨微孔顶部的聚合物膜中。每个微孔可具有用于个体感知的电极。微孔可以被制成阵列芯片,每个芯片具有100,000或更多个微孔(例如,多于200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000)。仪器(或节装置(node))可用来分析芯片。可实时分析数据。一次可操作一个或更多个仪器。纳米孔可以是蛋白纳米孔,例如蛋白α-溶血素、七聚体蛋白孔。纳米孔可以是固态纳米孔制备的,例如在合成膜(例如,SiNx或SlO2)中形成的纳米尺寸的孔。纳米孔可以是混合的孔(例如,蛋白孔整合到固态膜中)。纳米孔可以是具有集成的传感器(例如,隧穿电极检测器(tunnelingelectrodedetector)、电容式检测器(capacitivedetector)或基于石墨烯的纳米缝或边状检测器)的纳米孔(参见,例如,Garaj等人(2010)Naturevol.67,doi:10.1038/nature09379))。纳米孔可以被官能化以便分析特定类型的分子(例如,DNA、RNA或蛋白)。纳米孔测序可包括“链测序”,其中可使完整的DNA聚合物通过蛋白纳米孔,当DNA移位到孔时实时测序。酶可以分离双链DNA的链并将链供给至纳米孔。DNA可在一个末端具有发夹,且***可读取两条链。在一些实施方式中,纳米孔测序是“外切核酸酶测序”,其中前进的外切核酸酶可将单独的核苷酸从DNA链切割,且这些核苷酸可被穿过蛋白纳米孔。核苷酸可短暂地与孔中的分子(例如环葡聚糖)结合。电流的特征性中断可被用来鉴定碱基。
在有些情况下,利用来自GENIA的纳米孔测序技术。工程化蛋白孔可被嵌入在脂质双层膜中。“主动控制(ActiveControl)”技术可被用来使得有效的纳米孔膜组装和控制DNA通过该通道的运动成为可能。在一些实施方式中,纳米孔测序技术来自NABsys。基因组DNA可被断裂成平均长度约100kb的链。这些100kb片段可被制成单链的且随后与6-mer探针杂交。具有探针的基因组片段可被驱动通过纳米孔,这能产生电流-对-时间的追踪。电流追踪能够提供探针在每个基因组片段上的位置。基因组片段可以被排队以产生基因组的探针图谱。该过程可平行地进行以获得探针文库。可产生对于每个探针的基因组-长度的探针图谱。可用称为“移动窗口杂交测序(movingwindowSequencingByHybridization)”的方法修正错误。在一些实施方式中,纳米孔测序技术来自IBM/Roche。电子束可用来在微芯片中制造纳米孔尺寸的开口。电场可用来牵拉或使DNA穿过纳米孔。纳米孔中的DNA晶体管装置可包括交替的纳米尺寸的金属层和电介质层。DNA骨架中的分散电荷能被DNA纳米孔内的电场截留。关闭和打开门电压能容许DNA序列被读取。
在有些情况下,下一代测序包括离子半导体测序(例如,利用来自LifeTechnologies(IonTorrent)的技术)。离子半导体测序能利用该事实,当核苷酸被掺入DNA的链中时离子可被释放。为了进行离子半导体测序,可形成微型机械孔的高密度阵列。每个孔可容纳一个DNA模板。在孔下面可以是离子敏感层,且在该离子敏感层下面可以是离子传感器。当添加核苷酸到DNA时,可释放H+,其可作为pH的变化被测量。H+离子可被转化为电压并被离子半导体传感器记录。阵列芯片可以被顺序性地涌入一个接一个核苷酸。可不需要扫描、光或摄相机。在有些情况下,IONPROTONTM测序仪被用来对核酸测序。在有些情况下,利用IONPROTONTM测序仪。
在有些情况下,下一代测序是DNA纳米球测序(例如CompleteGenomics进行的;参见例如,Drmanac等人(2010)Science327:78-81;Carnevali等人,JCompBiol2012)。DNA可被分离、断裂并选择尺寸。例如,可将DNA断裂(例如通过超声处理)成约500bp的平均长度。接头(Adl)可以被添加到片段的末端。接头可用来与用于测序反应的锚杂交。可对具有与每个末端结合的接头的DNA进行PCR扩增。接头序列可被修饰成使得互补的单链末端彼此结合形成环状DNA。DNA可被甲基化以保护其免于被随后步骤中使用的IIS型限制酶切割。接头(例如,右侧的接头)可具有限制性识别位点,且该限制性识别位点可以保持非甲基化。接头中的非甲基化的限制性识别位点可以被限制酶(例如Acul)识别,且DNA可在右侧接头的右侧13bp被Acul切割以形成线性双链的DNA。第二轮的右侧和左侧接头(Ad2)可被连接到线性DNA的任一末端,且被两个接头结合的所有DNA可以被PCR扩增(例如,通过PCR)。可修饰Ad2序列以使其彼此结合并形成环状DNA。可将DNA甲基化,但限制酶识别位点可在左侧Adl接头上保持非甲基化。可应用限制酶(例如Acul),且DNA可在Adl左侧13bp被切割以形成线性DNA片段。可将第三轮右侧和左侧接头(Ad3)与该线性DNA的右侧和左侧侧翼连接,并对所得片段进行PCR扩增。可修饰接头以使其能彼此结合并形成环状DNA。可添加III型限制酶(例如,EcoP15);EcoP15可在Ad3的左侧26bp和Ad2的右侧26bp切割DNA。这种切割能除去大的DNA区段并再次线性化DNA。可将第四轮的右侧和左侧接头(Ad4)与DNA连接,且可扩增DNA(例如,通过PCR),并对DNA修饰以使其彼此结合并形成完整的环状DNA模板。滚环复制(例如利用Phi29DNA聚合酶)可被用来扩增小的DNA片段。四种接头序列可包含能杂交的回文序列且单链能折叠到其本身上以形成直径平均可在大约200-300纳米的DNA纳米球(DNBTM)。DNA纳米球可被附着(例如,通过吸附)到微阵列(测序流动池)。流动池可以是用二氧化硅、钛以及六甲基二硅烷(HMDS)和光阻材料涂覆的硅片。测序可通过将荧光探针连接到DNA的非链测序(unchainedsequencing)进行。被询问的位置的荧光颜色可通过高分辨率摄相机被视化。可确定接头序列之间的核苷酸序列的同一性。
在有些情况下,下一代测序技术是HelicosTrue单分子测序(tSMS)(参见,例如HarrisT.D.等人(2008)Science320:106-109)。在tSMS技术中,DNA样品可被切割成约100至200核苷酸的链,且polyA序列可被加至每条DNA链的3'端。可通过添加荧光标记的腺苷核苷酸将每条链标记。然后DNA链可杂交至流动池,流动池可包含数百万被固定到流动池表面的寡-T捕获位点。模板可以是以约1亿模板/cm2的密度。然后可将流动池载入仪器例如HELISCOPETM测序仪,且激光能照亮流动池的表面,揭示每个模板的位置。CCD相机可定位模板在流动池表面上的位置。然后可切割并洗去模板荧光标记。测序反应可通过引入DNA聚合酶和荧光标记的核苷酸开始。寡-T核酸可充当引物。DNA聚合酶能以模板指导的方式将标记的核苷酸掺入到引物。DNA聚合酶和未掺入的核苷酸可被移除。可通过对流动池表面成像检测已指导荧光标记的核苷酸的掺入的模板。在成像后,切割步骤可移除荧光标记,且该过程可以用其他荧光标记的核苷酸重复直到达到期望的读段长度。可伴随每个核苷酸添加步骤收集序列信息。测序可以是不同时的。测序可包括每天或每小时至少10亿碱基。
在有些情况下,测序技术可包含正向和反向模板链均可被测序的双端测序(paired-endsequencing)。在有些情况下,测序技术可包括双端文库测序(matepairlibrarysequencing)。在双端文库测序中,DNA可以是片段,且2-5kb片段可以被末端修复(例如,用生物素标记的dNTP)。DNA片段可以被环化,而非环化的DNA可以通过消化被除去。环状DNA可以被断裂并纯化(例如,利用生物素标记)。纯化的片段可以被末端修复并与测序接头连接。
在有些情况下,序列读段为约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900或4000个碱基。
在一些实施方式中,序列读段大于10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900或4000个碱基。
在有些情况下,序列读段小于10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900或4000个碱基。
在一些实施方式中,序列读段为至少10、11、12、13、14、15、16、17,18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42,43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67,68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92,93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112,113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130,131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148,149、150、151、152、153、154、155、156、157、158、159、160、161、162、163、164、165、166、167、168、169、170、171、172、173、174、175、176、177、178、179、180、181、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、197、198、199、200、201、202、203、204、205、206、207、208、209、210、211、212、213、214、215、216、217、218、219、220、221、222、223、224、225、226、227、228、229、230、231、232、233、234、235、236、237、238、239、240、241、242、243、244、245、246、247、248、249、250、251、252、253、254、255、256、257、258、259、260、261、262、263、264、265、266、267、268、269、270、271、272、273、274、275、276、277、278、279、280、281、282、283、284、285、286、287、288、289、290、291、292、293、294、295、296、297、298、299、300、301、302、303、304、305、306、307、308、309、310、311、312、313、314、315、316、317、318、319、320、321、322、323、324、325、326、327、328、329、330、331、332、333、334、335、336、337、338、339、340、341、342、343、344、345、346、347、348、349、350、351、352、353、354、355、356、357、358、359、360、361、362、363、364、365、366、367、368、369、370、371、372、373、374、375、376、377、378、379、380、381、382、383、384、385、386、387、388、389、390、391、392、393、394、395、396、397、398、399、400、401、402、403、404、405、406、407、408、409、410、411、412、413、414、415、416、417、418、419、420、421、422、423、424、425、426、427、428、429、430、431、432、433、434、435、436、437、438、439、440、441、442、443、444、445、446、447、448、449、450、451、452、453、454、455、456、457、458、459、460、461、462、463、464、465、466、467、468、469、470、471、472、473、474、475、476、477、478、479、480、481、482、483、484、485、486、487、488、489、490、491、492、493、494、495、496、497、498、499、500、525、550、575、600、625、650、675、700、725、750、775、800、825、850、875、900、925、950、975、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000、2100、2200、2300、2400、2500、2600、2700、2800、2900、3000、3100、3200、3300、3400、3500、3600、3700、3800、3900或4000个碱基。
在有些情况下,序列读段为约10到约50碱基、约10到约100碱基、约10到约200碱基、约10到约300碱基、约10到约400碱基、约10到约500碱基、约10到约600碱基、约10到约700碱基、约10到约800碱基、约10到约900碱基、约10到约1000碱基、约10到约1500碱基、约10到约2000碱基、约50到约100碱基、约50到约150碱基、约50到约200碱基、约50到约500碱基、约50到约1000碱基、约100到约200碱基、约100到约300碱基、约100到约400碱基、约100到约500碱基、约100到约600碱基、约100到约700碱基、约100到约800碱基、约100到约900碱基、约100到约1000碱基、约200到约400碱基或约150到约300碱基。
来自样品的序列读段的数目可以是约100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
来自样品的序列读段的数目可以是多于100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
来自样品的序列读段的数目可以是少于100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
来自样品的序列读段的数目可以是至少100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
每次运行的读段数目可以是约100、1000、5,000、10,000、20,000,30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
每次运行的读段数目可以是多于100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
每次运行的读段数目可以是少于100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
每次运行的读段数目可以是至少100、1000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、2,000,000、3,000,000、4,000,000、5,000,000、6,000,000、7,000,000、8,000,000、9,000,000或10,000,000。
样品的测序深度可以是约1x、2x、3x、4x、5x、6x、7x、8x、9x、______________________________________________________________10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、21x、22x、23x、24x、25x、26x、27x、28x、29x、30x、31x、32x、33x、34x、35x、36x、37x、38x、39x、40x、41x、42x、43x、44x、45x、46x、47x、48x、49x、50x、51x、52x、53x、54x、55x、56x、57x、58x、59x、60x、61x、62x、63x、64x、65x、66x、67x、68x、69x、70x、71x、72x、73x、74x、75x、76x、77x、78x、79x、80x、81x,82x、83x、84x、85x、86x、87x、88x、89x、90x、91x、92x、93x、94x、95x、96x、97x、98x、99x、100x、110x、120x、130x、140x、150x、160x、170x、180x、190x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1500x、2000x、2500x、3000x、3500x、4000x、4500x、5000x、5500x、6000x、6500x、7000x、7500x、8000x、8500x、9000x、9500x或10,000x。
样品的测序深度可以是多于1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、21x、22x、23x、24x、25x、26x、27x、28x、29x、30x、31x、32x、33x、34x、35x、36x、37x、38x、39x、40x、41x、42x、43x、44x、45x、46x、47x、48x、49x、50x、51x、52x、53x、54x、55x、56x、57x、58x、59x、60x、61x、62x、63x、64x、65x、66x、67x、68x、69x、70x、71x、72x、73x、74x、75x、76x、77x、78x、79x、80x、81x、82x、83x、84x、85x、86x、87x、88x、89x、90x、91x、92x、93x、94x、95x、96x、97x、98x、99x、100x、110x、120x、130x、140x、150x、160x、170x、180x、190x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1500x、2000x、2500x、3000x、3500x、4000x、4500x、5000x、5500x、6000x、6500x、7000x、7500x、8000x、8500x、9000x、9500x或10,000x。
样品的测序深度可以是少于1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、21x、22x、23x、24x、25x、26x、27x、28x、29x、30x、31x、32x、33x、34x、35x、36x、37x、38x、39x、40x、41x、42x、43x、44x、45x、46x、47x、48x、49x、50x、51x、52x、53x、54x、55x、56x、57x、58x、59x、60x、61x、62x、63x、64x、65x、66x、67x、68x、69x、70x、71x、72x、73x、74x、75x、76x、77x、78x、79x、80x、81x、82x、83x、84x、85x、86x、87x、88x、89x、90x、91x、92x、93x、94x、95x、96x、97x、98x、99x、100x、110x、120x、130x、140x、150x、160x、170x、180x、190x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1500x、2000x、2500x、3000x、3500x、4000x、4500x、5000x、5500x、6000x、6500x、7000x、7500x、8000x、8500x、9000x、9500x或10,000x。
样品的测序深度可以是至少1x、2x、3x、4x、5x、6x、7x、8x、9x、10x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、21x、22x、23x、24x、25x、26x、27x、28x、29x、30x、31x、32x、33x、34x、35x、36x、37x、38x、39x、40x、41x、42x、43x、44x、45x、46x、47x、48x、49x、50x、51x、52x、53x、54x、55x、56x、57x、58x、59x、60x、61x、62x、63x、64x、65x、66x、67x、68x、69x、70x、71x、72x、73x、74x、75x、76x、77x、78x、79x、80x、81x、82x、83x、84x、85x、86x、87x、88x、89x、90x、91x、92x、93x、94x、95x、96x、97x、98x、99x、100x、110x、120x、130x、140x、150x、160x、170x、180x、190x、200x、300x、400x、500x、600x、700x、800x、900x、1000x、1500x、2000x、2500x、3000x、3500x、4000x、4500x、5000x、5500x、6000x、6500x、7000x、7500x、8000x、8500x、9000x、9500x或10,000x。
样品的测序深度可以是约1x到约5x、约1x到约10x、约1x到约20x、约5x到约10x、约5x到约20x、约5x到约30x、约10x到约20x、约10x到约25x、约10x到约30x、约10x到约40x、约30x到约100x、约100x到约200x、约100x到约500x、约500x到约1000x、约1000x到约2000x、约1000x到约5000x或约5000x到约10,000x。测序深度可以是序列(例如基因组)被测序的次数。在一些实施方式中,Lander/Waterman等式被用于计算覆盖度(coverage)。该通用等式可以是:C=LN/G,其中C=覆盖度;G=单倍体基因组长度;L=读段长度;且N=读段数目。
在有些情况下,不同的条形码可被加至不同样品中的多核苷酸(例如通过引物或接头),且不同的样品可被汇集并在多重测定中分析。条形码可容许确定多核苷酸所来源的样品。条形码可以在与多核苷酸相连的接头上。接头可以是单链的,双链的,Y形的(例如,包含在一端的配对部分和在一另端的非配对部分),和/或具有形成茎环的能力。条形码可以在接头的单链或双链部分上。在其他情况下,条形码可以是多核苷酸上的内源序列。条形码可以是约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17,18、19、19或20个碱基。条形码可以多于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、19或20个碱基。条形码可以少于1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、15、16、17、18、19、19或20个碱基。条形码可以是至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、19或20个碱基。可以被汇集的加条形码的样品的数目可以多于5、10、15、20、25、30、35、40、45、50、60、70、80、90或100。
范围在本文可被表达为从“约”一个特定的值和/或到“约”另一个特定的值。当表达此类范围时,另一个实施方式包括从该特定值和/或到另一个特定值。类似地,当通过使用前述“约”将值表达为近似值时,将理解特定值形成另一实施方式。还将理解每个范围中的终点是重要的,其既与另一个终点相关又独立于另一个终点。本文所用的术语“约”是指在特定用法的背景内由规定的数值加或减15%的范围。例如,约10包括从8.5到11.5的范围。
除非另外限定,否则本文所用的所有技术和科学术语具有与本领域普通技术人员通常理解相同的含义。尽管与本文描述的那些方法和材料相似或等同的任何方法和材料也可以用于本发明的方法的实践或测试中,但现描述代表性的示例性方法和材料。
实施例
实施例1:方向性定位
图1示出了用于确定染色体上基因座的排列和基因组重排的方向性定位的4重连锁测定。白色柱(102)是参考染色体的示意图。基因座B1、B2、B3和B4包括被包含相同第一标记的不同探针识别的不同的核酸序列。基因座G1、G2、G3和G4也是被包含相同第二标记的不同探针识别的不同序列。基因座O1、O2、O3和O4也是被包含相同第三标记的不同探针识别的不同序列。在图1中显示九次的对照染色体(104)包含被包含第四标记的探针识别的序列R1。因为包含第四标记的探针不与参考染色体退火,在对照染色体(104)上的标志物与参考染色体(102)上的任何标志物之间应该不存在连锁。每个对照染色体(104)上面的数字代表4重测定(R1、以及B、G、以及O序列的组)的数目。九个4重连锁测定被显示(1-9)。显示了基因座距离参考染色体上的基因座B1的距离。例如,标志物G1距离基因座B150kb,且基因座O1距离基因座B1100kb。
图2显示在数字PCR实验中分区中的标记的可能组合。图2显示被绘成二维图的四维液滴幅度图,其中在4重连锁测定中,四个测定中的每个在不同的通道发荧光,所述通道在这里被显示为象限。左上方象限代表锚基因座(B)。右上方象限代表距离锚定序列(B)50kb远的基因座。右上下方象限代表距离锚基因座(B)100kb远的标志物。左下方象限代表在对照染色体上的基因座。在非常低的浓度下,预期同一分区不会含有三重或四重信号。因为R1在与参考染色体不同的染色体上,预期在R1与B、G或O标志物之间无连锁。预期在B、G和O之间有某种程度的连锁。
在数字实验中,连锁可取决于核酸样品的断裂程度。在本实施例中,假定相距小于或等于25kb的基因座显示100%连锁;相距50kb的基因座显示66%连锁;相距75kb的基因座显示33%连锁;相距100kb的基因座显示10%连锁,且相距大于100kb的基因座显示0%连锁。每个四重测定可提供对于每个靶的拷贝数估计值。
图3显示使用多个4重测定对参考基因组的假定分析。进行了数字PCR实验,其中使用了具有四种不同标记的探针。示意性染色体(302)显示不同基因座B1、G1、O1、B2、G2、O2、B3、G3、O3、B4和G4。在假定结果被显示在顶行的实验中,设计与序列B1、B2、B3和B4退火的具有相同标记的不同探针,并设计与序列G1、G2、G3和G4退火的具有相同标记的不同探针。基于以上关于基因组DNA样品的断裂频率的假定,相距50kb的B1和G1以66%的频率连锁,B2和G2以66%的频率连锁,B3和G3以66%的频率连锁,且B4和G4以66%的频率连锁。B2和G1相隔150kb且以0%的频率连锁。B3-G2和B4-G3也以0%的频率连锁。B1-O1、B2-O1、B2-O2、B3-O2、B3-O3以及B4-O4全部各自相隔100kb且以10%的频率连锁。G1-O1、G2-O2以及G3-O3各自相隔50kb且以66%的频率连锁。G2-O1、G3-O2以及G4-O3各自相隔150kb且以0%的频率连锁。该策略显示容许确认单个孔中的发现。每个测定,当与对照序列R1的测定配对时,应具有0%的连锁。
图4显示对图3中示出的数字PCR实验的假定结果的解释。使用的引物的身份和检测扩增产物的探针的标记是已知的。通过分析特定的基因座对的连锁百分比,可推断基因座在参考染色体上的顺序。
图5显示包含具有基因组重排的染色体(506)的样品的假定数字PCR实验的结果。显示连锁频率相对于参考染色体(502)改变的基因座对在图5中被加框。例如,重排已发生在O2与G2之间。现在,B2和G2相隔100kb并显示10%的连锁频率,而在参考染色体上B2和G2相隔50kb并显示66%的连锁频率。B3和G2在重排的染色体上相隔100kb并显示10%的连锁频率。G4和O3也被重排。然而,B4和G4仍相隔50kb并具有66%的连锁频率。B2和O2相隔50kb并显示66%的连锁频率。B3和O2现在相隔150kb并具有0%的连锁频率。B3和O3现在相隔250kb并显示0%的连锁频率。B4和O3现在相隔50kb并显示66%的连锁频率。G3和O3现在相隔200kb并显示0%的连锁频率。G4和O3相隔100kb并显示10%的连锁频率。
图6显示对图5中的假定数据的分析。具有连锁百分比的列显示重排染色体的连锁数字并显示与参考染色体相比连锁频率的差异。每个测定当与对照染色体配对时应产生0%连锁,这可证实在数字PCR样品中的随机分布。
实施例2:用于确定断裂的算法
在本实施例中,将分析两种不同类型的靶核酸。一种用FAM探针检测且一种用VIC检测。假定这两种靶核酸序列在同一多核苷酸上。在样品中,可存在三种DNA片段类型:1)Fam-Vic一起(没有被切开),2)Fam片段,和3)Vic片段。观察到某些概率(在FAM-VIC交会图中的计数),且目标是推断浓度。前面的首先被完成。给定浓度,计算计数。然后反过来进行,试验不同的浓度值并选择给出实际计数的浓度。
N=20000;
A=10000;
B=20000;
AB=10000;%Joinedtogether
cA=A/N;
cB=B/N;
cAB=AB/N;
fprintf(1,'%f%f%f\n',cAB,cA,cB);
pA=1-exp(-cA);
pB=1-exp(-cB);
pAB=1-exp(-cAB);
%AisXandBisYincrossplot
p(2,1)=(1-pA)*(1-pB)*(1-pAB);%Bottomleft
p(2,2)=pA*(1-pB)*(1-pAB);%Bottomright
p(1,1)=(1-pA)*pB*(1-pAB);%TopLeft
p(1,2)=1-p(2,1)-p(2,2)-p(1,1);%TopRight
disp(round(p*N));
%Alsocomputemarginalsdirectly
cAorAB=(A+AB)/N;%=c_A+c_AB;
cBorAB=(B+AB)/N;%=c_B+c_AB;
pAorAB=1-exp(-cAorAB);%Canbecomputedfromptoo
pBorAB=1-exp(-cBorAB);
%Inverse
H=p*N;%Wearegivensomehits
%H=[08000;20000];
%Computeprob
estN=sum(H(:));
i_p=H/estN;
i_pAorAB=i_p(1,2)+i_p(2,2);
i_pBorAB=i_p(1,1)+i_p(1,2);
i_cAorAB=-log(1-i_pAorAB);
i_cBorAB=-log(1-i_pBorAB);
maxVal=min(i_cAorAB,i_cBorAB);
delta=maxVal/1000;
errAn-=[];
gcABArr=[];
forgcAB=0:delta:maxVal
gcA=i_cAorAB-gcAB;
gcB=i_cBorAB-gcAB;
gpA=1-exp(-gcA);
gpB=1-exp(-gcB);
gpAB=1-exp(-gcAB);
gp(2,1)=(1-gpA)*(1-gpB)*(1-gpAB);%Bottomleft
gp(2,2)=gpA*(1-gpB)*(1-gpAB);%Bottomright
gp(1,1)=(1-gpA)*gpB*(1-gpAB);%TopLeft
gp(1,2)=1-gp(2,1)-gp(2,2)-gp(1,1);%TopRight
gH=gp*estN;
err=sqrt(sum((H(:)-gH(:)).^2));
errArr=[errArr;err];
gcABArr=[gcABArr;gcAB];
end
figure,plot(gcABArr,errArr);
minidx=find(errArr==min(errArr(:)));
minidx=minidx(1);
estAB=gcABArr(minidx);
estA=i_cAorAB-estAB;
estB=i_cBorAB-estAB;
fprintf(1,'%f%f%f\n',estAB,estA,estB);
gpA=1-exp(-estA);
gpB=1-exp(-estB);
gpAB=1-exp(-estAB);
gp(2,1)=(1-gpA)*(1-gpB)*(1-gpAB);%Bottomleft
gp(2,2)=gpA*(1-gpB)*(1-gpAB);%Bottomright
gp(1,1)=(1-gpA)*gpB*(1-gpAB);%TopLeft
gp(1,2)=1-gp(2,1)-gp(2,2)-gp(1,1);%TopRight
gH=gp*estN;
disp(round(gH));
%Confirmtheresultsusingsimulation
numMolA=round(estA*estN);
numMolB=round(estB*estN);
numMolAB=round(estAB*estN);
A=unique(randsample(estN,numMolA,1));
B=unique(randsample(estN,numMolB,1));
AB=unique(randsample(estN,numMolAB,1));
U=1:estN;
notA=setdiff(U,A);
notB=setdiff(U,B);
notAB=setdiff(U,AB);
AorBorAB=union(A,union(B,AB));
none=setdiff(U,AorBorAB);
simcount(2,1)=length(none);
simcount(2,2)=length(intersect(A,intersect(notB,notAB)));
simcount(1,1)=length(intersect(B,intersect(notA,notAB)));
simcount(1,2)=length(AorBorAB)-simcount(2,2)-simcount(1,1);
disp(simcount);
实施例3:Milepost测定分析—断裂的概率
问题陈述
如果两个不同的基因座在不同的分子上,可能存在两种物质(对应于FAM和VIC探针)。如果不同的基因座在同一分子上,可能存在三种物质—断裂的FAM、断裂的VIC和连锁的FAM-VIC。(参见图26)
有两种染料,所以可能存在模糊性。存在计算所有三种物质的浓度的需要。
算法:得到FAM对VIC计数的2×2表格。如果存在一种物质,计算断裂的FAM和连锁的FAM-VIC的浓度。如果存在一种物质,计算断裂的VIC和连锁的FAM-VIC的浓度。尝试连锁的FAM-VIC的不同浓度(从中可发现断裂的FAM和VIC的浓度)并找出具有观察的计数的概率表格中最佳匹配的:
FAM- | FAM+ | |
VIC+ | (1-f)v(1-c) | 1-其他的和 |
VIC- | (1-f)(1-v)(1-c) | f(1-v)(1-c) |
断裂的概率(以%计)
1k未剪切 | 6 | 6 | - |
10K未剪切 | 29.4 | 29.8 | 29.5 |
100K未剪切 | 98.7 | 97.7 | 99.9 |
1K注射器 | 11.4 | 11.1 | 11 |
10K注射器 | 87.2 | 89.9 | 91.7 |
100K注射器 | 100 | 100 | 100 |
1K Hae III | 100 | 100 | 100 |
接下来的步骤可包括看闭公式(closedformula)是否可被容易获得和/或整合QTool。
实施例4:断裂分析
利用ddPCR,可进行靶向两个基因组基因座的双重反应,例如在共同的染色体上的两个基因。液滴可根据其荧光被分为四个群(FAM+/VIC+、FAM+/VIC-、FAM-/VIC+和FAM-/VIC-)。通过比较具有这些群的液滴的数目,确定靶被共分离到同一液滴的频率是可能的。如果两个分离的拷贝偶然在同一液滴中,利用泊松统计,可估计实际彼此连锁的物质的百分比对距离。
设计了这样的测定,其中基因座距离共同的参考物(RPP30)1K、3K、10K、33K和100K。已进行其中两个基因座相隔1K、10K和100K的研究。通过处理具有这三种双链体(或只一种双链体)的未切割的(未被限制酶消化的)DNA并计数四种不同的液滴群,可使用统计分析来评价遗传物质的断裂状态。这些数据可用来帮助解释为什么拷贝数变异研究的95%置信限不总是覆盖整数值。
实施例5:用于计算DNA断裂或用于数字PCR多重化(Multiplexing)的算法
靶之间完全断裂
两个DNA靶T1和T2分别对应两种染料,FAM和VIC。在本实施例中,T1和T2总是在分开的DNA片段上。具有T1和T2靶的DNA片段的数目分别是M1和M2。参见图27A。
在具有多个分区的数字PCR实验中,FAM和VIC阳性的分区的计数分别是N1和N2。N2和N2将分别小于M1和M2,因为在一个分区中可存在多个DNA片段。分区的总数是N。所预期的分区的计数显示在表2中。
表2.分区的计数.
VIC阴性 | VIC阳性 | 总计 | |
FAM阳性 | N1*(N-N2)/N | N1*N2/N | N1 |
FAM阴性 | (N-N1)*(N-N2)/N | (N-N1)*N2/N | N-N1 |
总计 | N-N2 | N2 | N |
如果观察到FAM阳性的分区的概率被表示为p1=N1/N,且观察到VIC阳性的分区的概率被表示为p2=N2/N,那么对应的概率表是表3。
表3.概率表.
在该实例中,在T1和T2之间存在100%断裂。
T1分子和T2分子的数目M1和M2可分别如下计算:
M1=-Nlog(1-p1)
M2=-Nlog(1-p2)
(如果P为阳性的数字分区为N,则分子的数目是M=-Nlog(1-P/N))
靶之间没有断裂
如果T1和T2总是在同一DNA片段上,则它们是连锁的(或许因为它们的基因座在染色体的同一部分上彼此相当靠近且限制酶消化不在T1和T2之间消化)。参见图27B。因此,N1=N2。
表4.分区的计数.
VIC阴性 | VIC阳性 | 总计 | |
FAM阳性 | 0 | N1 | N1 |
FAM阴性 | N-N1 | 0 | N-N1 |
总计 | N-N1 | N1 | N |
表5.概率表.
VIC阴性 | VIC阳性 | 概率 | ||
FAM阳性 | 0 | p1 | p1 | |
FAM阴性 | 1-p1 | 0 | 1-p1 | |
总计 | 1-p1 | p1 | 1 |
在该实例中,存在0%断裂。
T1和T2分子的数目可如下计算,其中p1=N1/N:
M1=-Nlog(1-p1)
M2=-Nlog(1-p1)
部分断裂
在中间情况下,T1和T2在一些片段上连锁,但还碰巧在分离的片段上。参见图27C。
如果存在连锁的T1和T2片段的M3个分子,分离的T1片段的M1个分子和分离的T2片段的M2个分子,可制作以下的分区计数表格:
表6.分区的计数.
VIC阴性 | VIC阳性 | 总计 | |
FAM阳性 | N01 | N11 | N1 |
FAM阴性 | N00 | N10 | N-N1 |
总计 | N-N2 | N2 | N |
如果M1=M2=M3,那么存在50%断裂,因为50%的连锁分子被断裂成分离的片段且50%保持完整。
实施例6:用milepost测定评价血浆中的DNA品质
似乎在具有更高DNA产量的样品中,过多的DNA在尺寸上突出地大。如在图28中所示,当DNA产量在约2kGE(基因组等同物)/ml时,大致一半的DNA的尺寸小于1Kb;当产量特别高(10kGE/ml或更多)时,90%的DNA大于1Kb。这表明小的DNA浓度上相对恒定。这进一步表明较高的DNA产量是由于来自细胞DNA的污染。
实施例7:通过共定位的单倍型分析
提供了用于通过共定位收集单倍型分析信息的方法。该方法可被用来确定是否存在靶核酸序列的缺失。在拷贝数变异区域中,标志物序列(用例如VIC标记的探针检测)可在靶序列的外侧但靠近靶序列(用例如FAM标记的探针检测)。包含核酸的样品可被分配到多个空间上分离的区域中,且标志物序列和靶核酸序列可被检测(例如,通过扩增和用探针检测)。可如图25中所描绘的分析VIC(标志物)和FAM(靶)的共定位。如果VIC和FAM总是共定位在一个分区中,那么可能没有靶序列的缺失(图25B)。如果存在只有未与FAM共定位的VIC的分区,这个结果表明靶序列的缺失(图25A)。
实施例8:连锁分析
在该实施例中,用具有不同标记的探针在两个不同的通道上检测两个靶A和B。取决于哪个类别的分子最初存在于每个分区(液滴)中,分区可在每个通道上表现为阳性或阴性。双阳性分区可能是由于共定位、由于偶然或由于连锁(A和B物理上在同一分子上)(图31)。
N0—双阴性分区的数目
Na—仅A阳性的分区的数目
Nb—仅B阳性的分区的数目
N1—双阳性分区的数目
N_ch—由于偶然导致的双阳性分区的数目
N_1—由于连锁导致的双阳性分区的数目
N1直接观察,而N_ch和N_1可以从其他数据推断
N1=N_ch+NJ;N_ch=Na*Nb/N0
N_1=N1—Na*Nb/N0
实施例9:确定距离
可评估基因座间的距离,例如,可进行一种测定来确定基因座A比基因座C距离基因座B更远。为了测量距离,可将连锁频率与样品标准物比较。例如,可利用一系列“mile”标志物双重测定。在mile标志物实验中,可用例如用HEX标记的探针(HEX测定)靶向锚基因座,且距离该锚点增加距离的标志物可全部利用独特的探针(例如FAM探针)(FAM测定)靶向(参见,例如,图32)。为了测试不同距离的连锁,可从永生化B淋巴细胞系中提取DNA,并可使用七个mile标志物双重测定筛选DNA。通过汇集一系列双测定,并测量在每个双测定中连锁的基因座的百分比,可产生描述拟合数据的曲线的等式。这种关系可以是指数关系(参见,例如,图33)。图33显示Y轴上连锁的分子的百分比作为在X轴上的分隔mile标志物与锚序列的距离的函数。经3次提取,将数据拟合到具有每kb的均匀DNA断裂概率的指数模型。可测量一个分区(例如孔)中超出大约300kb的连锁。无连锁的对照,靶向不同染色体的测定显示对于任何mile标志物没有显著连锁。
对于同一样品(在有些情况下,没有冻融差别),可进行染色体定位实验。发现的对于基因座的连锁百分比可与对于直线的等式比较,提供对基因座之间的距离的估计值。在染色体之间的断裂率可被保存并且可不依赖特定的核苷酸序列。
可测量一个分区(例如孔)中超出200kb的连锁。图34显示根据从起始密码子到终止密码子测量的基因长度分类的人基因组内的所有基因。94%的基因短于210kb。本文描述的方法可被用于对人基因中的变体定相。
尽管本文已显示并描述优选的实施方式,将对本领域技术人员明显的是此类实施方式仅通过举例的方式被提供。现在本领域技术人员将想到不偏离本文描述的方法和组合物的众多变更、改变和替换。应理解可采用本文描述的方法和组合物的个种替代方式。期望以下权利要求限定本发明的范围且这些权利要求的范围之内的方法和结构及其等同物被其覆盖。
Claims (174)
1.一种用于确定第一染色体上至少三个基因座的排列的方法,所述方法包括:
a.获得包含所述第一染色体的多核苷酸片段的样品;
b.对所述第一染色体的多核苷酸片段分区;
c.扩增来自所述第一染色体的多核苷酸片段的至少三个基因座,从而产生所述第一染色体的至少三个扩增的基因座;
d.用一组至少三个探针检测所述第一染色体的至少三个扩增的基因座,其中所述至少三个探针的每一个包括不同的标记;
e.确定所述第一染色体的至少三个基因座间的连锁频率;和
f.基于所述连锁频率,确定所述第一染色体上的所述至少三个基因座的排列。
2.如权利要求1所述的方法,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第一基因座和第二基因座之间的距离。
3.如权利要求2所述的方法,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第二基因座和第三基因座之间的距离。
4.如权利要求3所述的方法,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第一基因座和第三基因座之间的距离。
5.如权利要求2-4中任一项所述的方法,其中所述距离是相对距离。
6.如权利要求2-4中任一项所述的方法,其中所述距离通过将所述连锁频率与标准比较确定。
7.如权利要求6所述的方法,其中所述标准基于被已知距离分隔的分子的连锁频率。
8.如权利要求1所述的方法,其中确定所述至少三个基因座的排列包括确定所述第一染色体上第一基因座、第二基因座和第三基因座的顺序。
9.如权利要求1所述的方法,所述方法还包括用第二组至少三个探针检测所述第一染色体的多个扩增的基因座,其中所述第一组探针的第一探针与第一基因座退火,所述第一组的第二探针与第二基因座退火,所述第二组的第一探针与第一基因座退火,且所述第二组探针的第二探针与第二基因座退火。
10.如权利要求9所述的方法,其中所述第一组探针的第三探针与第三基因座退火,且所述第二组探针的第三探针与第四基因座退火,其中所述第三基因座与所述第四基因座不同。
11.如权利要求1所述的方法,所述方法还包括用至少两组各至少三个探针检测所述第一染色体的所述至少三个扩增的基因座,其中每组中的每个探针包含不同的标记。
12.如权利要求11所述的方法,其中每一组探针包含具有相同标记的探针。
13.如权利要求11所述的方法,其中每一组探针包含至少三个探针,其中一组中的每个探针包含不同的标记。
14.如权利要求11所述的方法,其中所述至少两组探针中的每个探针与不同的基因座退火。
15.如权利要求11所述的方法,其中第一组至少三个探针包括与第二组至少三个探针中的至少一个探针相同的基因座退火的至少一个探针。
16.如权利要求11所述的方法,其中每组中的每个探针包含不同的标记。
17.如权利要求16所述的方法,其中每一组探针包含相同的标记。
18.如权利要求16所述的方法,其中第一组至少三个探针包括与第二组至少三个探针中的至少两个探针相同的基因座退火的至少两个探针。
19.如权利要求16所述的方法,其中包含至少三个探针的至少三组探针的每一组包括与其他组的探针中的探针相同的基因座退火的至少一个探针。
20.如权利要求15、18或19所述的方法,其中与相同基因座退火的每个探针包含相同的标记。
21.如权利要求1所述的方法,其中所述样品包含第二染色体的多核苷酸片段,其中所述第二染色体不同于所述第一染色体。
22.如权利要求21所述的方法,所述方法还包括对所述第二染色体的多核苷酸片段分区。
23.如权利要求22所述的方法,所述方法还包括扩增所述第二染色体的至少一个基因座,从而产生所述第二染色体的至少一个扩增的基因座。
24.如权利要求23所述的方法,所述方法还包括用参考探针检测所述第二染色体上的所述至少一个扩增的基因座,其中所述参考探针是所述一组至少三个探针中的第四探针,其中所述参考探针包含与所述组中其他探针的标记不同的标记。
25.如权利要求11所述的方法,其中所述至少两组各至少三个探针的每一组包括参考探针,其中所述参考探针与第二染色体退火,且其中所述第二染色体不同于所述第一染色体。
26.如权利要求25所述的方法,其中每一组中的参考探针与所述第二染色体的相同序列退火。
27.如权利要求11所述的方法,其中所述至少两组各至少三个探针的每一组包括与所述第一染色体的不同基因座退火的三个探针和与第二染色体退火的参考探针,其中所述第二染色体不同于所述第一染色体。
28.如权利要求26所述的方法,其中每一组中的参考探针包含相同的标记。
29.如权利要求1所述的方法,其中所述标记包含染料。
30.如权利要求29所述的方法,其中所述染料包括荧光染料。
31.如权利要求1所述的方法,其中所述至少三个基因座位于染色体不包含一个或更多个拷贝数变异的区域。
32.如权利要求1所述的方法,其中所述至少三个基因座的每一个位于所述染色体的至少1kb的一段内。
33.如权利要求1所述的方法,其中所述至少三个基因座的每一个位于染色体的一段内。
34.如权利要求1所述的方法,其中确定所述至少三个基因座的排列包括使用计算机执行的算法。
35.如权利要求1所述的方法,所述方法还包括对包含所述第一染色体的样品执行下一代测序,从而产生下一代测序数据。
36.如权利要求34所述的方法,其中确定所述至少三个基因座的排列包括输入所述连锁频率和下一代测序数据到计算机执行的算法中。
37.如权利要求34所述的方法,其中所述下一代测序数据包括关于一个或更多个染色体断点的数据。
38.如权利要求35所述的方法,其中所述下一代测序数据被用来选择用于扩增的所述至少三个基因座。
39.如权利要求35所述的方法,其中所述下一代测序数据被用来确定所述样品中的一个或更多个基因座是否包含多于一个等位基因。
40.如权利要求35所述的方法,其中所述下一代测序数据被用来确定具有拷贝数变异的区域中的一个或更多个基因座是否包含多于一个等位基因。
41.如权利要求39或40所述的方法,所述方法还包括确定在至少两个不同基因座上的等位基因是否位于相同染色体上。
42.如权利要求39所述的方法,其中所述至少三个基因座中的至少两个因多态性而不同。
43.如权利要求1所述的方法,其中确定所述至少三个基因座的排列包括确定所述染色体的每个基因座的扩增程度。
44.如权利要求1所述的方法,其中所述扩增包括聚合酶链式反应(PCR)。
45.如权利要求44所述的方法,其中所述PCR包括数字PCR。
46.如权利要求45所述的方法,其中所述数字PCR包括液滴数字PCR。
47.如权利要求1所述的方法,其中一对引物被用来扩增多个基因座中的每一个。
48.如权利要求24所述的方法,其中所述第一染色体上的基因座与所述第二染色体上的至少一个基因座的连锁为0%。
49.如权利要求1所述的方法,其中确定连锁频率包括计算包含来自具有不同标记的两个不同探针的信号的分区的数目。
50.如权利要求49所述的方法,其中确定连锁频率包括计算包含来自具有不同标记的两个不同探针二者的信号的分区的数目。
51.如权利要求49所述的方法,其中确定连锁频率包括确定包含随机分离到同一分区中的基因座的分区的预期数目。
52.如权利要求49所述的方法,其中确定连锁频率包括测量观察到的包含共定位的基因座的分区的数目与预期的包含由于两个独立分离的基因座的随机泊松分布导致的共定位的基因座的分区的数目之间的差异。
53.如权利要求1所述的方法,其中被较小距离分隔的两个基因座的连锁频率大于被较大距离分隔的两个基因座的连锁频率。
54.如权利要求1所述的方法,其中连锁频率依赖于所述样品中多核苷酸的断裂程度。
55.如权利要求54所述的方法,其中较高的断裂程度产生较低的连锁频率。
56.如权利要求11所述的方法,其中与所述第一染色体退火的每一组至少三个探针由具有不同标记的三个探针组成,并且所述三个探针所退火的扩增的基因座间的连锁频率被确定。
57.如权利要求1所述的方法,其中所述样品不进行预断裂步骤。
58.如权利要求1所述的方法,其中所述样品进行预断裂步骤。
59.如权利要求1所述的方法,其中所述样品来自具有神经性病症的受试者。
60.如权利要求59所述的方法,其中所述神经性病症是阿尔兹海默病。
61.如权利要求59所述的方法,其中所述神经性病症是孤独症。
62.如权利要求59所述的方法,其中所述神经性病症是精神***症。
63.如权利要求35所述的方法,其中所述下一代测序包括焦磷酸测序。
64.如权利要求35所述的方法,其中所述下一代测序包括桥式扩增。
65.如权利要求35所述的方法,其中下一代测序被用来确定拷贝数变异的存在或不存在。
66.如权利要求1所述的方法,其中所述第一染色体包括一个或更多个拷贝数变异。
67.如权利要求1所述的方法,其中所述分区包括将所述第一染色体的多核苷酸片段分开以使得每个分区包含零个或一个所述第一染色体的具有基因座的多核苷酸片段。
68.如权利要求1所述的方法,其中所述分区包括将所述第一染色体的多核苷酸片段分开以使得每个分区平均包含约0.2拷贝的所述第一染色体的包含所述至少三个基因座中的一个基因座的多核苷酸片段。
69.如权利要求22所述的方法,其中所述分区包括将所述第二染色体的多核苷酸片段分开以使得每个分区包含零个或一个所述第二染色体的具有至少一个基因座的多核苷酸片段。
70.如权利要求22所述的方法,其中所述分区包括使所述第二染色体的多核苷酸片段分开以使得每个分区平均包含约0.2拷贝的所述第二染色体的包含所述至少三个基因座中的一个基因座的多核苷酸片段。
71.如权利要求1所述的方法,其中确定连锁频率包括对第一基因座和第二基因座阳性的分区的丰度与第一基因座、第二基因座和第三基因座阳性的分区的丰度进行比较。
72.如权利要求71所述的方法,其中所述第一基因座和所述第二基因座阳性的分区的丰度大于所述第一基因座、所述第二基因座和所述第三基因座阳性的分区的丰度,并且其中所述第一基因座和所述第二基因座在三个基因座中物理距离最近。
73.如权利要求1所述的方法,其中所述至少三个基因座包括基因座A、B和C,且其中产生以下分区群:没有基因座的分区;具有单独的基因座A、B或C的分区;具有基因座A和B的分区;具有B和C的分区;和具有基因座A、B和C的分区。
74.一种非暂时计算机可读介质,所述非暂时计算机可读介质上已存储指令序列,所述指令序列当被计算机***执行时,促使所述计算机***执行:
a.确定第一染色体的至少三个扩增的基因座间的连锁频率,其中包含第一染色体的多核苷酸片段的样品被获得;所述第一染色体的多核苷酸片段被分区;来自所述第一染色体的多核苷酸片段的至少三个基因座被扩增;并且所述第一染色体的至少三个扩增的基因座用至少三个探针检测,其中所述至少三个探针中的每一个包括不同的标记;和
b.基于所述连锁频率确定所述第一染色体上的至少三个基因座的排列。
75.如权利要求74所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第一基因座和第二基因座之间的距离。
76.如权利要求75所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第二基因座和第三基因座之间的距离。
77.如权利要求76所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括确定所述至少三个基因座的第一基因座和第三基因座之间的距离。
78.如权利要求75-77中任一项所述的非暂时计算机可读介质,其中所述距离是相对距离。
79.如权利要求75-77中任一项所述的非暂时计算机可读介质,其中所述距离通过将所述连锁频率与标准比较确定。
80.如权利要求79所述的非暂时计算机可读介质,其中所述标准基于被已知距离分隔的分子的连锁频率。
81.如权利要求74所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括确定所述第一染色体上第一基因座、第二基因座和第三基因座的顺序。
82.如权利要求74所述的非暂时计算机可读介质,其中所述确定连锁频率还包括用第二组至少三个探针检测所述第一染色体的多个扩增的基因座,其中所述第一组探针的第一探针与第一基因座退火,所述第一组的第二探针与第二基因座退火,所述第二组的第一探针与所述第一基因座退火,且所述第二组探针的第二探针与所述第二基因座退火。
83.如权利要求82所述的非暂时计算机可读介质,其中所述第一组探针的第三探针与第三基因座退火,且所述第二组探针的第三探针与第四基因座退火,其中所述第三基因座与所述第四基因座不同。
84.如权利要求74所述的非暂时计算机可读介质,其中所述确定连锁频率还包括用至少两组各至少三个探针检测所述第一染色体的至少三个扩增的基因座,其中每组中的每个探针包含不同的标记。
85.如权利要求84所述的非暂时计算机可读介质,其中每一组探针包含具有相同标记的探针。
86.如权利要求84所述的非暂时计算机可读介质,其中每一组探针包含至少三个探针,其中一组中的每个探针包含不同的标记。
87.如权利要求84所述的非暂时计算机可读介质,其中所述至少两组探针中的每个探针与不同的基因座退火。
88.如权利要求84所述的非暂时计算机可读介质,其中第一组至少三个探针包括与第二组至少三个探针中的至少一个探针相同的基因座退火的至少一个探针。
89.如权利要求84所述的非暂时计算机可读介质,其中每组中的每个探针包含不同的标记。
90.如权利要求89所述的非暂时计算机可读介质,其中每一组探针包含相同的标记。
91.如权利要求89所述的非暂时计算机可读介质,其中第一组至少三个探针包括与第二组至少三个探针中的至少两个探针相同的基因座退火的至少两个探针。
92.如权利要求89所述的非暂时计算机可读介质,其中包含至少三个探针的至少三组探针的每一组包括与其他组探针中的探针相同的基因座退火的至少一个探针。
93.如权利要求88、91或92所述的非暂时计算机可读介质,其中与相同基因座退火的每个探针包含相同的标记。
94.如权利要求74所述的非暂时计算机可读介质,其中所述样品包含第二染色体的多核苷酸片段,其中所述第二染色体不同于所述第一染色体。
95.如权利要求94所述的非暂时计算机可读介质,其中所述确定连锁频率还包括对第二染色体的多核苷酸片段分区。
96.如权利要求95所述的非暂时计算机可读介质,其中所述确定连锁频率还包括扩增所述第二染色体的至少一个基因座,从而产生所述第二染色体的至少一个扩增的基因座。
97.如权利要求96所述的非暂时计算机可读介质,其中所述确定连锁频率还包括用参考探针检测所述第二染色体上的至少一个扩增的基因座,其中所述参考探针是所述一组至少三个探针中的第四探针,其中所述参考探针包含与所述组中其他探针的标记不同的标记。
98.如权利要求84所述的非暂时计算机可读介质,其中所述至少两组各至少三个探针的每一组包括参考探针,其中所述参考探针与第二染色体退火,且其中所述第二染色体不同于所述第一染色体。
99.如权利要求98所述的非暂时计算机可读介质,其中每一组中的参考探针与所述第二染色体的相同序列退火。
100.如权利要求84所述的非暂时计算机可读介质,其中所述至少两组各至少三个探针的每一组包括与所述第一染色体的不同基因座退火的三个探针和与第二染色体退火的参考探针,其中所述第二染色体不同于所述第一染色体。
101.如权利要求99所述的非暂时计算机可读介质,其中每组中的参考探针包含相同的标记。
102.如权利要求74中所述的非暂时计算机可读介质,其中所述标记包括染料。
103.如权利要求102中所述的非暂时计算机可读介质,其中所述染料包括荧光染料。
104.如权利要求74所述的非暂时计算机可读介质,其中所述至少三个基因座位于染色体不包含一个或更多个拷贝数变异的区域。
105.如权利要求74所述的非暂时计算机可读介质,其中所述至少三个基因座的每一个位于所述染色体的至少1kb的一段内。
106.如权利要求74所述的非暂时计算机可读介质,其中所述至少三个基因座的每一个位于染色体的一段内。
107.如权利要求74所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括使用计算机执行的算法。
108.如权利要求74所述的非暂时计算机可读介质,还包括对包含所述第一染色体的样品执行下一代测序,从而产生下一代测序数据。
109.如权利要求107所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括输入所述连锁频率和下一代测序数据到计算机执行的算法中。
110.如权利要求107所述的非暂时计算机可读介质,其中所述下一代测序数据包括关于一个或更多个染色体断点的数据。
111.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序数据被用来选择用于扩增的所述至少三个基因座。
112.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序数据被用来确定所述样品中的一个或更多个基因座是否包含多于一个等位基因。
113.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序数据被用来确定具有拷贝数变异的区域中的一个或更多个基因座是否包含多于一个等位基因。
114.如权利要求112或113所述的非暂时计算机可读介质,还包括确定至少两个不同基因座上的等位基因是否位于相同染色体上。
115.如权利要求112所述的非暂时计算机可读介质,至少所述三个基因座中的至少两个因多态性而不同。
116.如权利要求74所述的非暂时计算机可读介质,其中确定所述至少三个基因座的排列包括确定所述染色体的每个基因座的扩增程度。
117.如权利要求74中所述的非暂时计算机可读介质,其中所述扩增包括聚合酶链式反应(PCR)。
118.如权利要求117中所述的非暂时计算机可读介质,其中所述PCR包括数字PCR。
119.如权利要求118中所述的非暂时计算机可读介质,其中所述数字PCR包括液滴数字PCR。
120.如权利要求74所述的非暂时计算机可读介质,其中一对引物被用来扩增多个基因座中的每一个。
121.如权利要求96所述的非暂时计算机可读介质,其中所述第一染色体上的基因座与所述第二染色体上的至少一个基因座的连锁为0%。
122.如权利要求74所述的非暂时计算机可读介质,其中确定连锁频率包括计算包含来自具有不同标记的两个不同探针的信号的分区的数目。
123.如权利要求122所述的非暂时计算机可读介质,其中确定连锁频率包括计算包含来自具有不同标记的两个不同探针二者的信号的分区的数目。
124.如权利要求122所述的非暂时计算机可读介质,其中确定连锁频率包括确定包含随机分离到同一分区中的基因座的分区的预期数目。
125.如权利要求122所述的非暂时计算机可读介质,其中确定连锁频率包括测量观察到的包含共定位的基因座的分区的数目与预期的包含由于两个独立分离基因座的随机泊松分布导致的共定位的基因座的预期的分区的数目之间的差异。
126.如权利要求74所述的非暂时计算机可读介质,其中被较小距离分隔的两个基因座的连锁频率大于被较大距离分隔的两个基因座的连锁频率。
127.如权利要求74所述的非暂时计算机可读介质,其中连锁频率依赖于所述样品中多核苷酸的断裂程度。
128.如权利要求127所述的非暂时计算机可读介质,其中较高的断裂程度产生较低的连锁频率。
129.如权利要求84所述的非暂时计算机可读介质,其中与所述第一染色体退火的每一组至少三个探针由具有不同标记的三个探针组成,并且所述三个探针所退火的扩增的基因座间的连锁频率被确定。
130.如权利要求74所述的非暂时计算机可读介质,其中所述样品不进行预断裂步骤。
131.如权利要求74所述的非暂时计算机可读介质,其中所述样品进行预断裂步骤。
132.如权利要求74所述的非暂时计算机可读介质,其中所述样品来自具有神经性病症的受试者。
133.如权利要求132所述的非暂时计算机可读介质,其中所述神经性病症是阿尔兹海默病。
134.如权利要求132所述的非暂时计算机可读介质,其中所述神经性病症是孤独症。
135.如权利要求132所述的非暂时计算机可读介质,其中所述神经性病症是精神***症。
136.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序包括焦磷酸测序。
137.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序包括桥式扩增。
138.如权利要求108所述的非暂时计算机可读介质,其中所述下一代测序被用来确定拷贝数变异的存在或不存在。
139.如权利要求74所述的非暂时计算机可读介质,其中所述第一染色体包括一个或更多个拷贝数变异。
140.如权利要求74所述的非暂时计算机可读介质,其中所述分区包括使所述第一染色体的多核苷酸片段分开以使得每个分区包含零个或一个所述第一染色体的具有基因座的多核苷酸片段。
141.如权利要求74所述的非暂时计算机可读介质,其中所述分区包括使所述第一染色体的多核苷酸片段分开以使得每个分区平均包含约0.2拷贝的所述第一染色体的包含所述至少三个基因座中的一个基因座的多核苷酸片段。
142.如权利要求95所述的非暂时计算机可读介质,其中所述分区包括使所述第二染色体的多核苷酸片段分开以使得每个分区包含零个或一个所述第二染色体的具有至少一个基因座的多核苷酸片段。
143.如权利要求95所述的非暂时计算机可读介质,其中所述分区包括使所述第二染色体的多核苷酸片段分开以使得每个分区平均包含约0.2拷贝的所述第一染色体的包含所述至少三个基因座中的一个基因座的多核苷酸片段。
144.如权利要求74所述的非暂时计算机可读介质,其中确定连锁频率包括对第一基因座和第二基因座阳性的分区的丰度与第一基因座、第二基因座和第三基因座阳性的分区的丰度进行比较。
145.如权利要求144所述的非暂时计算机可读介质,其中所述第一基因座和所述第二基因座阳性的分区的丰度大于所述第一基因座、所述第二基因座和所述第三基因座阳性的分区的丰度,并且其中所述第一基因座和所述第二基因座在三个基因座中物理距离最近。
146.如权利要求74所述的非暂时计算机可读介质,其中所述至少三个基因座包括基因座A、B和C,且其中产生以下分区群:没有基因座的分区;具有单独的基因座A、B或C的分区;具有基因座A和B的分区;具有B和C的分区;和具有基因座A、B和C的分区。
147.一种用于确定第一多核苷酸上的第一基因座与第二基因座之间的距离的方法,所述方法包括
a.将包含第一和第二基因座的样品分配到多个分区中;
b.确定包含所述第一基因座但不包含所述第二基因座的分区的数目;
c.确定包含所述第二基因座但不包含所述第一基因座的分区的数目;
d.确定包含所述第一基因座和所述第二基因座的分区的数目;
e.确定既不包含所述第一基因座也不包含所述第二基因座的分区的数目;
f.基于步骤b-e中的数目确定所述样品中所述第一基因座和所述第二基因座的连锁频率;和
g.基于所述连锁频率,确定所述第一多核苷酸上所述的第一基因座与所述第二基因座之间的距离。
148.如权利要求147所述的方法,其中所述第一多核苷酸是染色体。
149.如权利要求147所述的方法,其中所述确定距离包括与标准比较所述第一基因座和所述第二基因座的连锁频率。
150.如权利要求149所述的方法,其中所述标准基于第二连锁频率产生。
151.如权利要求150所述的方法,其中所述第二连锁频率是第二多核苷酸上被已知距离分隔的至少两个基因座的连锁频率。
152.如权利要求151所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是相同的。
153.如权利要求151所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是不同的。
154.如权利要求151所述的方法,其中所述第一多核苷酸和所述第二多核苷酸来自相同的样品。
155.如权利要求151所述的方法,其中所述第一多核苷酸和所述第二多核苷酸来自不同的样品。
156.如权利要求151所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是来自相同的样品的相同染色体。
157.如权利要求151所述的方法,其中所述第一多核苷酸是第一染色体而所述第二多核苷酸是第二染色体。
158.如权利要求149所述的方法,其中所述标准是标准曲线。
159.如权利要求149所述的方法,其中所述标准是等式。
160.如权利要求159所述的方法,其中所述等式基于多对基因座的连锁频率。
161.如权利要求160所述的方法,其中所述多对基因座各自被已知距离分隔。
162.如权利要求151和161所述的方法,其中根据测序数据得知距离。
163.如权利要求160所述的方法,其中所述多对基因座自各具有共同的基因座。
164.如权利要求161所述的方法,其中所述多对基因座在相同的第二多核苷酸上。
165.如权利要求164所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是相同的。
166.如权利要求164所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是不同的。
167.如权利要求164所述的方法,其中所述第一多核苷酸和所述第二多核苷酸来自相同的样品。
168.如权利要求164所述的方法,其中所述第一多核苷酸和所述第二多核苷酸来自不同的样品。
169.如权利要求164所述的方法,其中所述第一多核苷酸和所述第二多核苷酸是来自相同的样品的相同染色体。
170.如权利要求164所述的方法,其中所述第一多核苷酸是第一染色体而所述第二多核苷酸是第二染色体。
171.如权利要求147所述的方法,其中所述第一多核苷酸来自具有三核苷酸重复疾病的受试者。
172.如权利要求171所述的方法,其中所述第一基因座和所述第二基因座在具有三核苷酸重复区域的区域侧翼。
173.如权利要求172所述的方法,其中所述三核苷酸重复区域被扩大。
174.如权利要求171所述的方法,其中所述三核苷酸重复疾病是脆性X、亨廷顿病、齿状核红核苍白球路易体萎缩症、脊延髓肌萎缩、肯尼迪病、脊髓小脑性共济失调、弗里德希氏共济失调或肌强直性营养不良。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361882969P | 2013-09-26 | 2013-09-26 | |
US61/882,969 | 2013-09-26 | ||
PCT/US2014/057898 WO2015048571A2 (en) | 2013-09-26 | 2014-09-26 | Methods and compositions for chromosome mapping |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105593415A true CN105593415A (zh) | 2016-05-18 |
Family
ID=52744719
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480053497.1A Pending CN105593415A (zh) | 2013-09-26 | 2014-09-26 | 用于染色体定位的方法和组合物 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20160362729A1 (zh) |
EP (1) | EP3049559A4 (zh) |
CN (1) | CN105593415A (zh) |
WO (1) | WO2015048571A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109161587A (zh) * | 2018-09-26 | 2019-01-08 | 上海交通大学医学院附属上海儿童医学中心 | 一种检测染色体重复片段断裂位点和定位信息的方法 |
CN110248724A (zh) * | 2016-09-21 | 2019-09-17 | 特韦斯特生物科学公司 | 基于核酸的数据存储 |
CN113330114A (zh) * | 2019-01-23 | 2021-08-31 | 哈普洛米奇科技私人有限公司 | 微流体装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3940084A1 (en) | 2011-02-09 | 2022-01-19 | Bio-Rad Laboratories, Inc. | Analysis of nucleic acids |
WO2015013681A1 (en) | 2013-07-25 | 2015-01-29 | Bio-Rad Laboratories, Inc. | Genetic assays |
CN105969762A (zh) * | 2016-04-21 | 2016-09-28 | 奥美德诺(北京)基因科技有限公司 | 用于高gc含量的基因组扩增反应试剂及其应用、试剂盒 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012129436A1 (en) * | 2011-03-22 | 2012-09-27 | Life Technologies Corporation | Identification of linkage using multiplex digital pcr |
US20120322058A1 (en) * | 2011-02-09 | 2012-12-20 | Bio-Rad Laboratories | Analysis of nucleic acids |
WO2013049443A1 (en) * | 2011-09-30 | 2013-04-04 | Life Technologies Corporation | Methods and systems for visualizing and evaluating data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013109731A1 (en) * | 2012-01-18 | 2013-07-25 | Singular Bio Inc. | Methods for mapping bar-coded molecules for structural variation detection and sequencing |
-
2014
- 2014-09-26 CN CN201480053497.1A patent/CN105593415A/zh active Pending
- 2014-09-26 WO PCT/US2014/057898 patent/WO2015048571A2/en active Application Filing
- 2014-09-26 US US14/498,352 patent/US20160362729A1/en not_active Abandoned
- 2014-09-26 EP EP14848062.7A patent/EP3049559A4/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120322058A1 (en) * | 2011-02-09 | 2012-12-20 | Bio-Rad Laboratories | Analysis of nucleic acids |
WO2012129436A1 (en) * | 2011-03-22 | 2012-09-27 | Life Technologies Corporation | Identification of linkage using multiplex digital pcr |
WO2013049443A1 (en) * | 2011-09-30 | 2013-04-04 | Life Technologies Corporation | Methods and systems for visualizing and evaluating data |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110248724A (zh) * | 2016-09-21 | 2019-09-17 | 特韦斯特生物科学公司 | 基于核酸的数据存储 |
CN110248724B (zh) * | 2016-09-21 | 2022-11-18 | 特韦斯特生物科学公司 | 基于核酸的数据存储 |
CN109161587A (zh) * | 2018-09-26 | 2019-01-08 | 上海交通大学医学院附属上海儿童医学中心 | 一种检测染色体重复片段断裂位点和定位信息的方法 |
CN113330114A (zh) * | 2019-01-23 | 2021-08-31 | 哈普洛米奇科技私人有限公司 | 微流体装置 |
Also Published As
Publication number | Publication date |
---|---|
EP3049559A4 (en) | 2017-05-03 |
US20160362729A1 (en) | 2016-12-15 |
WO2015048571A2 (en) | 2015-04-02 |
EP3049559A2 (en) | 2016-08-03 |
WO2015048571A3 (en) | 2015-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11499181B2 (en) | Analysis of nucleic acids | |
US20220290224A1 (en) | Method for in situ determination of nucleic acid proximity | |
US11414695B2 (en) | Nucleic acid enrichment using Cas9 | |
EP2702175B1 (en) | Methods and compositions for nucleic acid analysis | |
US20240035080A1 (en) | Method for nucleic acid amplification | |
CN105593415A (zh) | 用于染色体定位的方法和组合物 | |
EP4219710A2 (en) | Tagging nucleic acids for sequence assembly | |
US20150284769A1 (en) | Reduced representation bisulfite sequencing with diversity adaptors | |
US20230220377A1 (en) | Single cell analysis | |
CN105121661A (zh) | 用于基因组组装及单体型定相的方法 | |
CN108611399A (zh) | 长dna片段的多重标记 | |
US20220277805A1 (en) | Genetic mutational analysis | |
WO2021119550A1 (en) | Method for determination of 3d genome architecture with base pair resolution and further uses thereof | |
WO2023215524A2 (en) | Primary template-directed amplification and methods thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160518 |