CN103429754A - 天然延伸平行测序 - Google Patents
天然延伸平行测序 Download PDFInfo
- Publication number
- CN103429754A CN103429754A CN2011800562357A CN201180056235A CN103429754A CN 103429754 A CN103429754 A CN 103429754A CN 2011800562357 A CN2011800562357 A CN 2011800562357A CN 201180056235 A CN201180056235 A CN 201180056235A CN 103429754 A CN103429754 A CN 103429754A
- Authority
- CN
- China
- Prior art keywords
- substrate
- nucleic acid
- sequence
- target
- target nucleic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Microbiology (AREA)
- Immunology (AREA)
- Biotechnology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Analytical Chemistry (AREA)
- Physics & Mathematics (AREA)
- Biochemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供多核苷酸的天然延伸平行测序方法。
Description
交叉引用
本申请要求均提交于2011年9月23日的美国申请61/385,562和61/385,947的权益,该美国申请通过引用整体并入本文。
发明背景
微生物检测和鉴定,以及个体实际鉴定,例如,亲权鉴定和法医学(Reynolds等人,Anal.Chem.,63:2-15(1991)),器官移植供体-受体配型(Buyse等人,Tissue Antigens,41:1-14(1993)和Gyllensten等人,PCR Meth.Appl.1:91-98(1991)),遗传疾病诊断、预测和产前咨询(Chamberlain等人,Nucleic Acids Res.,16:11141-11156(1988)和L.C.Tsui,Human Mutat.,1:197-203(1992)),以及药物代谢和致癌突变研究(Hollstein等人,Science,253:49-53(1991)),需要具有成本效益的和快速的测序。另外,通过核酸分析进行传染病诊断的成本效益直接随批量测试的多重规模而变化。这些应用很多依赖于对大量有时为紧密排列的基因座处的单碱基差异的区分。
可以使用多种DNA杂交技术检测在含有大量序列区域的样品中一种或多种选定的多核苷酸序列的存在。在一种依赖于片段捕获和标记的简单方法中,含有选定的序列的片段通过与固定的探针杂交而被捕获。捕获的片段可以通过与含有可检测的报告部分的第二探针杂交而进行标记。
另一广泛应用的方法是Southern印迹法。在该方法中,通过凝胶电泳对样品中的DNA片段混合物进行分级分离,随后将其固定于硝酸纤维素滤纸上。通过将滤纸与一种或多种标记的探针在杂交条件下反应,可以鉴定含有探针序列的条带的存在。该方法对于鉴定DNA限制性酶切消化物中含有给定探针序列的片段和分析限制性片段长度多态性(“RFLP”)特别有用。
另一种检测多核苷酸样品中一种或多种给定序列的存在的方法涉及通过聚合酶链式反应对该序列的选择性扩增。Mullis等人的美国专利4,683,202和R.K.Saiki等人,Science230:1350(1985)。在该方法中,使用互补于选定序列的相对端部分的引物配合热循环来推进引物启动的复制的连续循环。扩增的序列可以很容易地通过多种技术进行鉴定。该方法特别可用于检测含多核苷酸样品中的低拷贝序列的存在,例如,用于检测体液样品中的病原体序列。
最近,报道了通过探针连接方法来鉴定已知靶序列的方法。N.M.Whiteley等人的美国专利4,883,750;D.Y.Wu等人,Genomics4:560(1989);U.Landegren等人,Science241:1077(1988);和E.Winn-Deen等人,Clin.Chem.37:1522(1991)。在一种被称为寡核苷酸连接分析(“OLA”)的方法中,将跨越感兴趣的靶区域的两条探针或探针元件与靶区域杂交。在探针元件与相邻靶碱基进行碱基配对的位置,可以通过连接,例如通过连接酶处理,将探针元件的相对末端连接起来。然后分析连接的探针元件,以证实靶序列的存在。
在该方法的改进形式中,连接的探针元件作为一对互补探针元件的模板。在探针元件对的存在下,经过连续的变性、杂交和连接的循环,将靶序列线性扩增,使得非常少量的靶序列能够得到检测和/或扩增。该方法被称为连接酶检测反应。当使用两个互补探针元件对的时候,该方法被称为连接酶链式反应,其实现了靶序列的指数扩增。F.Barany,Proc.Nat′l Acad.Sci.USA,88:189-93(1991)和F.Barany,PCR Methodsand Applications,1:5-16(1991)。
Grossman等人的美国专利5,470,705公开了用于多重检测核酸序列差异的另一方案,其中可将具有可检测标记物和独特的电荷/翻译摩擦阻力(charge/translational frictional drag)比例的序列特异性探针与靶标杂交并连接在一起。该技术在Grossman等人,Nucl.Acids Res.22(21):4527-34(1994)中用于囊性纤维化跨膜调节基因的大规模多重分析。Jou等人,Human Mutation5:86-93(1995)涉及使用所谓的“缺口连接酶链式反应”方法来同时扩增多个外显子的选定区域,其扩增产物在具有针对每个外显子的探针上的不同半抗原的特异性抗体的免疫色谱条带上进行阅读。
固相杂交分析需要多个液体处理步骤,且必须小心控制一些孵育和洗涤温度以保持对于单核苷酸错配辨识所需的严格性。该方法的多重化已被证明是困难的,因为最优杂交条件随探针序列变化很大。
等位基因特异性探针的连接一般应用固相捕获(U.Landegren等人,Science,241:1077-1080(1988);Nickerson等人,Proc.Natl.Acad.Sci.USA,87:8923-8927(1990))或依赖大小的分离(D.Y.Wu等人,Genomics,4:560-569(1989)和F.Barany,Proc.Natl.Acad.Sci,88:189-193(1991))来分辨等位基因信号,后一种方法在多重规模应用中受到连接探针的大小范围狭窄的限制。进一步地,在多重形式下,单独的连接酶检测反应无法制备足够多的产物用于少量靶序列的检测和定量。缺口连接酶链式反应方法需要额外的步骤——聚合酶延伸。对于更加复杂的多重检测而言,具有独特的电荷/翻译摩擦阻力比例的探针的使用要么需要更长的电泳时间,要么需要使用替代的检测形式。
对于快速、高通量且低成本的测序技术,尤其是对于如病原体的即时现场检测等市场,存在巨大需求。本发明允许使用简单化学过程和低成本设备来对大量基因组进行测序,这导致成本显著降低和速度的提高。
发明内容
一方面,本发明提供了一种用于测定靶核酸分子的序列的方法,该方法包括:(a)提供多个基底,其中基底的总数为n,将每个基底设定为基底(i),并且i为从1到n的整数,其中每个所述基底包含含有捕获探针的捕获位点,并且其中每个所述捕获探针包含与靶核酸分子互补的序列;(b)在所述基底上形成多个杂交复合物,每个杂交复合物包含:所述捕获探针和一个拷贝的所述靶核酸分子;(c)通过重复i-1次以下步骤来延伸每个所述基底(i)上的所述捕获探针:在聚合酶的存在下,使所述基底(i)上的所述杂交复合物依次接触dATP、dCTP、dGTP和dTTP,从而使用所述靶核酸分子作为模板使所述捕获探针延伸一个或多个碱基;(d)在聚合酶的存在下,使每个所述基底(i)上的所述每个杂交复合物依次接触标记的dATP、dCTP、dGTP和dTTP之一,标记的dATP、dCTP、dGTP和dTTP的混合物,标记的ddATP、ddCTP、ddGTP和ddTTP的混合物,或标记的ddATP、ddCTP、ddGTP、ddTTP和少量(<10%或<20%)的天然dATP、dCTP、dGTP和dTTP的混合物;(e)检测所述标记的dATP、dCTP、dGTP和dTTP向每个所述基底(i)上的每个所述捕获探针中的掺入,从而自每个基底(i)获得序列阅读值(read);以及(f)通过组装所述序列阅读值来测定所述靶核酸分子的序列。
在一些其它的实施方案中,本发明提供一种用于测定靶核酸分子的序列的方法,该方法包括:(a)提供多个基底,其中基底的总数为n,将每个基底设定为基底(i),并且i为从1到n的整数,其中每个所述基底包含含有捕获探针的捕获位点,并且其中每个所述捕获探针包含与靶核酸分子互补的序列;(b)在所述基底上形成多个杂交复合物,每个杂交复合物包含:所述捕获探针和一个拷贝的所述靶核酸分子;(c)通过重复i-1次以下步骤来延伸每个所述基底(i)上的所述捕获探针:在聚合酶的存在下,使所述基底(i)上的所述杂交复合物依次接触dATP、dCTP、dGTP和dTTP之一,或dATP、dCTP、dGTP和dTTP中的两种或三种的混合物(条件是四种dNTP中的每一种至少被加入一次),从而使用所述靶核酸分子作为模板使所述捕获探针延伸一个或多个碱基;(d)在聚合酶的存在下,使每个所述基底(i)上的所述每个杂交复合物依次接触标记的dATP、dCTP、dGTP和dTTP之一,标记的dATP、dCTP、dGTP和dTTP的混合物,标记的ddATP、ddCTP、ddGTP和ddTTP的混合物,或标记的ddATP、ddCTP、ddGTP、ddTTP和少量(<10%或<20%)的天然dATP、dCTP、dGTP和dTTP的混合物;(e)检测所述标记的dATP、dCTP、dGTP和dTTP向每个所述基底(i)上的每个所述捕获探针中的掺入,从而自每个基底(i)获得序列阅读值;以及(f)通过组装所述序列阅读值来测定所述靶核酸分子的序列。
援引并入
本说明书中提及的全部出版物、专利和专利申请均通过引用并入本文,如同特别和单独地指出每个单独的出版物、专利或专利申请通过引用并入本文。
附图说明
本发明的新特征在随附的权利要求中具体描述。通过参考以下对利用了本发明原理的说明性实施方案进行阐述的详细描述和附图,可以更好地理解本发明的特征和优点,附图中:
图1A和1B描述了本发明的示例性实施方案。图1A:五个不同的芯片连接有相同的捕获探针,并且探针与靶分子杂交。每个芯片经历不同次数的延伸循环(这里分别为0、1、2、3、4和5个)。对于每个延伸循环,依次加入四种不同的核苷酸(A、C、G、T),每次加入一种。图1B:四种碱基延伸的检测。
图2A-2B描述了示例性靶分子的延伸和检测。真核藻类核遗传工程。2A:延伸。2B:检测和标记的核苷酸。
图3A描述了本发明的一个示例性实施方案。捕获探针(50个碱基长)在玻璃芯片上直接合成,并与121mer靶核酸分子(“1890”)杂交,并且对测序反应使用1890测序引物。
图4A描述了本发明的一个示例性实施方案,单碱基延伸(SBE)。图4B描述了单碱基延伸的实验结果。标记的(U)和未标记的(G)之间的信噪比为17.2。
图5A描述了本发明的一个示例性实施方案,一个黑暗碱基(dark base)的单碱基延伸。T为黑暗(未标记的)碱基,而G为标记的碱基。图5B描述了一个黑暗碱基的单碱基延伸的实验结果。标记的(G)和未标记的(U)之间的信噪比为10.1。图5C描述了本发明的一个示例性实施方案,三个黑暗碱基的单碱基延伸。T、G和C为黑暗(未标记的)碱基,而U为标记的碱基。图5D描述了三个黑暗碱基的单碱基延伸的实验结果。标记的(U)和未标记的(G)之间的信噪比为6.5。
图6描述了本发明的一个示例性实施方案,在第15个碱基处的掺入(T)。
图7描述了8个碱基阅读值的实例。Incorp.:预期掺入;Misincorp.:错误掺入;S/N:信噪比。将相同的靶分子(8个碱基长)连接至不同芯片或不同的位置。对于每个芯片或位置,如图所示加入标记的(用“*”表示)或黑暗碱基(未标记的)。信噪比在3-188之间。
图8A-8C描述了同聚物的检测。8A:G伸延(stretch)的检测。使用标记的ddG和未标记的ddG(90%比10%)的混合物,并且延伸时间为1分钟和5分钟。8B:T伸延的检测。使用标记的ddU和未标记的dT(90%比10%)的混合物,并且延伸时间为1分钟、5分钟和30分钟。8C:T伸延的检测。使用标记的ddC和未标记的dC(90%比10%)的混合物,并且延伸时间为1分钟和5分钟。Y轴为信号强度,且X轴为伸延中的碱基数目。
具体实施方式
除非另有说明,在此使用的所有技术和科学术语均具有与本发明所属领域的普通技术人员的常规理解相同的含义。虽然与在此描述的方法和材料相似或等同的任何方法和材料均可用于本发明的实践或检测中,但是在此还是对代表性的说明性方法和材料进行了描述。
这些常规技术和描述可见于标准实验室手册中,例如GenomeAnalysis:A Laboratory Manual Series(第I-IV卷),Using Antibodies:ALaboratory Manual,Cell s:A Laboratory Manual,PCR Primer:A LaboratoryManual,和Molecular Cloning:A Laboratory Manual(均来自Cold SpringHarbor Laboratory Press);Stryer,L.(1995)Biochemistry(第四版)Freeman,New York;Gait,″Oligonucleotide Synthesis:A Practical Approach″1984,IRL Press,London,Nelson and Cox(2000),Lehninger,(2004)Principles ofBiochemistry第四版,W.H.Freeman Pub.,New York,N.Y.和Berg等人(2006)Biochemistry,第六版,W.H.Freeman Pub.,New York,N.Y.,所有这些出于任何目的均通过引用整体并入本文。
本发明涉及用于对靶多核苷酸分子进行测序的组合物和方法。通常,产生一组复制的基底,每个基底包含多个捕获位点,且每个捕获位点包含识别靶多核苷酸分子的捕获探针。优选地,不同捕获位点上的捕获探针识别不同的靶多核苷酸分子,如对不同的靶分子进行平行测序。然而,不同捕获位点上的一些捕获探针可以具有相同的序列以提供冗余度。
在下一步骤中,向基底加入多个靶分子以与捕获探针形成杂交复合物。这样,每个基底仍是彼此的复制物。之后不同的基底经历不同次数的碱基延伸以产生交错的片段,即长度增加的片段。例如,第一基底经历0、1、2个或更多个延伸循环,第二基底比第一基底多经历一次延伸,第三基底比第二基底多经历一个延伸循环(因此比第一基底多两个延伸循环),以此类推。优选地,第一基底经历0次延伸循环。因此,如果存在n个基底,每个设定为(i),则每个基底经历(i-1)次延伸。可以理解,每个基底(i)也可经历i、i+1、i+3次延伸循环等。优选地,不同的基底平行经历延伸。
在下一步骤(碱基延伸步骤)中,在每个延伸循环中,依次加入dATP、dCTP、dGTP和dTTP之一,但不一定以该顺序加入。在一些实施方案中,以不同的顺序加入dNTP。在一些实施方案中,在每个延伸循环中,加入两种或三种NTP,之后是一轮或多轮两种或更多种不同NTP,直至所有四种dNTP至少加入一次,因此使每个延伸循环能够有更长的延伸。在碱基延伸步骤之后,在不同基底上产生一系列交错片段,这些片段与相同的靶分子互补,但在长度上相差1个或多个碱基。
在下一步骤(碱基检测步骤)中,进一步延伸该系列交错片段(因此,充当测序引物)用于测序反应以获得靶分子的序列信息。序列信息是靶分子上相邻的一系列片段序列,可将其组装从而获得靶分子的长片段或全长序列。
在本发明的一个方面,将靶多核苷酸的连续测序转变为平行测序,以缩短对靶多核苷酸的给定数目的碱基进行测序所需的时间。
在一些实施方案中,引物与靶多核苷酸杂交,并且进行延伸反应以产生一批与靶多核苷酸互补的延伸引物序列。通常,这批延伸引物序列具有不同的长度,并且是使用靶核苷酸作为模板以受控的方式产生的。用于产生这批延伸引物序列的延伸反应通常是用天然核苷酸(如本文所用的“天然核苷酸”是天然存在的核苷酸或与天然存在的核苷酸具有相似的掺入效率的修饰核苷酸)和合适的聚合酶进行的。
不同的延伸引物序列可以用多种方式分开,例如在基底的不同位置,在不同反应管(例如96孔板)或在不同的基底中。至少一种延伸引物序列可用于使用靶多核苷酸作为模板(对多核苷酸进行测序)以及使用延伸引物序列作为引物来对一个或多个碱基(优选1-20个碱基)进行测序。许多测序反应适用于检测超出与模板杂交的引物的一个或几个碱基。例如,用标记的可逆终止子(可从Helicos,Inc.,Cambridge,MA或Illumina,Inc.,San Diego,CA购买到)进行测序,使用标记的双脱氧核糖核苷酸进行单碱基延伸以供DNA测序,使用带有探询碱基(interrogation base)的标记的随机nanomer进行连接反应等。在一些实施方案中,大多数或所有延伸引物序列用于对靶多核苷酸的一个或多个碱基进行测序。通过组装短的测序数据,可对大段靶多核苷酸进行测序,如可达约10、20、30、40、100、500、1000个碱基。
通常,对相同靶分子平行进行测序反应,并使用天然存在的核苷酸或与天然存在的核苷酸具有相似的掺入效率的修饰核苷酸,因此该方法被称作天然延伸平行测序(NPS)。
本发明提供的测序方法可用于对DNA/RNA进行测序。其可用于对病原体/微生物基因组进行测序以快速地鉴定物种/菌株。本发明提供的测序方法的一个优点是可以适应低效率的测序化学过程(可逆终止子、连接等),因此缩短测序的时间。此外,该方法可对非常长的片段(例如,100-10000个碱基对或更长)进行测序。
本发明提供的测序方法将连续测序转变为平行测序。在一系列平行反应中,每个反应以不同的长度延伸DNA(例如,捕获探针或引物),从而使用天然或天然性能核苷酸和聚合酶产生超出模板(靶多核苷酸分子)的交错序列。这之后通过在标记的核苷酸的存在下进一步延伸该交错序列来确定一个或多个碱基(优选1-20个)的序列。通过使用来自交错序列的短序列组装原模板序列来获得靶多核苷酸分子的序列。
I.交错碱基延伸和碱基检测
靶标制备
在一个方面,本发明提供了一种用于对靶核酸分子进行测序的方法。
“靶核酸分子”、“靶分子”、“靶多核苷酸”、“靶多核苷酸分子”或其语法上的等同术语在此是指目标核酸。在一个方面,本发明的靶核酸是基因组核酸。来源于特定生物体的染色体中的遗传材料的DNA是基因组DNA。基因组文库是由一组随机产生的、代表生物体整个基因组的重叠DNA片段组成的克隆的集合。靶核酸包括天然存在的或遗传改变的或合成制备的核酸(如来自哺乳动物疾病模型的基因组DNA)。靶核酸可以从几乎任何来源获得,并可使用本领域已知的方法制备。例如,靶核酸可无需扩增直接分离、通过使用本领域已知的方法扩增而分离,所述方法包括但不限于聚合酶链式反应(PCR)、全基因组扩增(WGA)、多重置换扩增(MDA)、滚环扩增(RCA)、滚环扩增(RCR)以及其它扩增方法。靶核酸还可通过克隆获得,所述克隆包括克隆至载体如质粒、酵母和细菌人工染色体内。
在本发明中,靶分子可以是无需任何扩增而从生物体(例如细胞或细菌)提取的基因组DNA的片段,或是通过从基因组DNA(例如,基因组DNA文库的片段或PCR产物)扩增而获得的DNA片段。靶分子还可含有外源序列,如在扩增过程期间引入的通用引物序列或条形码序列。
在一些实施方案中,靶多核苷酸是基因组DNA或基因组DNA的一部分。尽管一些实施方案是用于对全基因组进行测序,如超过50%的覆盖范围,但是这些实施方案也适合对靶区域如与药物代谢有关的基因组区域进行测序。在一个实例中,靶多核苷酸是人基因组DNA。
″核酸″或″寡核苷酸″或″多核苷酸″或语法上等同的术语一般是指共价连接在一起的至少两个核苷酸。本发明的核酸通常含有磷酸二酯键,虽然在如下所示的一些情况下(例如在引物和探针例如标记探针的构建中),也包括可具有其他骨架的核酸类似物,其包含例如磷酰胺(Beaucage等人,Tetrahedron49(10):1925(1993)及其中的参考文献;Letsinger,J.Org.Chem.35:3800(1970);Sprinzl等人,Eur.J.BioChem.81:579(1977);Letsinger等人,Nucl.Acids Res.14:3487(1986);Sawai等人,Chem.Lett.805(1984),Letsinger等人,J.Am.Chem.Soc.110:4470(1988);和Pauwels等人,Chemica Scripta26:14191986))、硫代磷酸酯(Mag等人,Nucleic Acids Res.19:1437(1991);和美国专利5,644,048)、二硫代磷酸酯(Briu等人,J.Am.Chem.Soc.111:2321(1989)、O-甲基亚磷酰胺(methylphophoroamidite)连接(参见Eckstein,0ligonucleotides and Analogues:A Practical Approach,Oxford UniversityPress)和肽核酸(此处也称为″PNA″)骨架和连接(参见Egholm,J.Am.Chem.Soc.114:1895(1992);Meier等人,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlsson等人,Nature380:207(1996),其全部通过引用并入本文)。其它核酸类似物包括那些具有双环结构的核酸,包括锁定核酸(此处也称为″LNA″),Koshkin等人,J.Am.Chem.Soc.120.132523(1998);阳性骨架(Denpcy等人,Proc.Natl.Acad.Sci.USA92:6097(1995);非离子骨架(美国专利5,386,023,5,637,684,5,602,240,5,216,141和4,469,863;Kiedrowshi等人,Angew.Chem.Intl.Ed.English30:423(1991);Letsinger等人,J.Am.Chem.Soc.110:4470(1988);Letsinger等人,Nucleoside&;Nucleotide13:1597(1994);ASC Symposium Series580第2和3章,″Carbohydrate Modifications in Antisense Research″,Y.S.S anghui和P.Dan Cook编;Mesmaeker等人,B ioorganic&;Medicinal Chem.Lett.4:395(1994);Jeffs等人,J.Biomolecular NMR34:17(1994);Tetrahedron Lett.37:743(1996))和非核糖骨架,包括在美国专利5.235,033和5,034,506和ASC Symposium Series580第6和7章,Y.S.Sanghui和P.Dan Cook编著的″Carbohydrate Modifications in AntisenseResearch″′中描述的那些。含有一个或更多个碳环糖的核酸也包括在核酸的定义内(参见Jenkins等人,Chem.Soc.Rev.(1995)pp169176)。一些核酸类似物描述于Rawls,C&;E News,1997年6月2日,第35页。″锁定核酸″也包括在核酸类似物的定义内。LNA是一类核酸类似物,其中核糖环被连接2′-O原子和4′-C原子的亚甲基桥所“锁定”。全部这些参考文献均在此明确地通过引用并入本文。可以对这些核糖-磷酸骨架进行修饰以增强该分子在生理环境中的稳定性和延长其半衰期。例如,PNA:DNA和LNA-DNA杂合体能够表现出更高的稳定性,从而可以在一些实施方案中使用。按照说明,靶核酸可以是单链或双链的,或既含有双链序列部分又含有单链序列部分。根据应用,核酸可以是DNA(包括基因组DNA和cDNA)、RNA(包括mRNA和rRNA)或杂合体,其中核酸含有脱氧核糖核苷酸和核糖核苷酸的任意组合,和包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤、肌苷、黄嘌呤、次黄嘌呤、异胞嘧啶、异鸟嘌呤等在内的碱基的任意组合。
在一些实施方案中,本发明的方法包括靶多核苷酸的捕获。靶多核苷酸可以来自基因组的已知区域。在一个实施方案中,寡聚物(oligo)探针可固定在珠子上,这些并不昂贵且可重复使用的寡聚物珠子可用于捕获靶基因组多核苷酸。在另一个实施方案中,利用微阵列捕获靶多核苷酸。
在一些实施方案中,使用相关领域已知的标准扩增方法扩增靶多核苷酸。在一个实施方案中,通过全基因组扩增(WGA)制备靶多核苷酸。WGA方法包括连接介导的PCR(LMP)、基于T7的DNA线性扩增(TLAD)和多重置换扩增(MDA)。LMP是一种使用核酸内切酶或化学裂解将gDNA样品断裂并使用接头和引物对其进行扩增的方法。其适于少量gDNA和单细胞的WGA(Klein等人,1999;Tanabe等人,2003)。RubiconGenomics将允许扩增RNA、DNA和甲基化DNA序列的不同试剂盒(Omniplex)商品化。其主要的优点在于该方法能够扩增降解的DNA,并允许不同的变异,且全部步骤均在同一管中进行。TLAD是最初由Phillips和Eberwine为了扩增mRNA而设计的方案(Phillips和Eberwine,1996)针对WGA进行了修改的变化形式(Liu等人,2003)。其使用Alu I限制性核酸内切酶消化和末端转移酶在3’末端添加多聚T尾。然后使用带有5’T7启动子和3’多聚A区段的引物,并使用Taq聚合酶合成第二链。然后对样品进行体外转录反应并随后进行逆转录。其主要优点在于TLAD不引入序列和长度依赖的偏差。多重置换扩增(MDA)是一种非基于PCR的等温方法,其基于随机六聚体与变性DNA的退火,然后在恒温下进行链置换合成(Blanco等人,1989)。其已应用于小基因组DNA样品,导致了具有有限序列表征偏差的高分子量DNA的合成(Lizardi等人,1998;Dean等人,2002)。因为DNA是通过链置换合成的,因此发生了数量逐渐增加的引发事件,形成超高分支DNA结构的网络。该反应可以被Phi29DNA聚合酶或Bst DNA聚合酶的大片段所催化。Phi29DNA聚合酶具有校正活性,产生比Taq聚合酶低100倍的错误率(Eckert和Kunkel,1991;Esteban等人,1993)。最近,已显示在用于高变异性的基因组DNA序列时,MDA会导致杂合性丢失(Murthy等人,2005)。已证实该技术非常灵敏,并且能够从单细胞(Hellani等人,2004,Handyside等人,2005)和单细菌(Raghunathan等人,2005)中扩增。任一在此公开的方法均可在本发明的方法中使用。
在另一种实施方案中,通过全基因组取样分析(WGSA)制备靶多核苷酸。WGSA通过扩增样品中的片段亚组而降低了核酸样品的复杂性。用一种或更多种限制性酶将核酸样品断裂,并在片段两端连接上衔接头。使用与衔接头序列互补的引物利用PCR扩增片段。在PCR过程中选择性地扩增选定大小范围的片段。大小范围可以是例如400-800或400-2000个碱基对。在选定大小范围之外的片段没有被有效扩增。可以通过计算机芯片上的消化来预测由WGSA扩增的片段,并可以设计阵列以对预计将要扩增的SNP进行基因分型。基因分型可以通过同与SNP个体等位基因完全互补的探针的等位基因特异性杂交来进行。与每个SNP周围区域互补的一组探针可以存在于阵列上。完全匹配的探针与靶标在探针的全长内互补。错配探针与PM探针除单一错配碱基外都相同。错配位置一般是中央的位置。Kennedy等人(2003),Nat Biotechnol,Vol.,pp.1233-1237,和系列号为09/920,492、09/904,039、10/681,773、10/316,517、10/442,021、10/463,991、10/316,629和10/264,945的美国专利申请和美国专利6,361,947公开了WGSA,所有这些均通过引用并入本文。通过与在阵列上合成的完全匹配(PM)和错配(MM)探针的等位基因特异性杂交,WGSA能够同时平行地对超过10,000个SNP进行基因分型。WGSA可能无法分析整组(entire panel)基因座。
在另一实施方案中,通过长片段(long-range)PCR制备靶多核苷酸。长片段PCR允许扩增比用常规Taq聚合酶能够得到的产物大得多的PCR产物。在合适的条件下,有可能从高质量的基因组DNA得到长达27kb的片段,虽然通常只能得到10-20kb的片段。该方法依赖于热稳定的DNA聚合酶的混合物,通常为具有高度持续合成能力(即5’-3’聚合酶活性)的Taq DNA聚合酶和具有3’-5’校正能力的另一DNA聚合酶(通常为Pwo)。该特征组合允许比单独的Taq所能获得的更长的引物延伸。用于检测FVIII基因内含子22倒位的该方法(Liu等人,1998)消除了使用Southern印迹法的必要性。可以在24小时内得到结果。标准长片段PCR实验方案的改变包括添加DMSO和掺入脱氮GTP以使得能够连读FVIII基因上游的高GC含量的区域。该方法依靠重叠PCR以生成恒定带,恒定带在所有模板DNA中均出现。该条带作为对照来显示反应已有效进行。使用该方法所见的最大扩增产物为12kb,其恰好位于所用酶混合物的范围内。在分析远离成簇基因座组的单个基因座时长片段PCR可能较为昂贵。
在另一实施方案中,通过基因座特异性多重PCR制备靶多核苷酸。多重基因座特异性扩增可用于从复杂核酸背景扩增多个预选定的靶序列。利用用于修饰片段末端的夹板(splint)寡核苷酸筛选靶标以供扩增。该片段具有已知的末端序列,且夹板设计为与末端互补。夹板可将片段末端汇合到一起,末端被连接形成一个环。夹板还可以用于在靶片段末端增加一个通用引发位点。将特异性基因座扩增,并可随后进行分析。
其它合适的扩增方法包括但不限于连接酶链式反应(LCR)(例如,Wu和Wallace,Genomics4,560(1989),Landegren等人,Science241,1077(1988)和Barringer等人Gene89:117(1990))、转录扩增(Kwoh等人,Proc.Natl.Acad.Sci.USA86,1173(1989)和WO88/10315)、自动维持序列复制(Guatelli等人,Proc.Nat.Acad.Sci.USA,87,1874(1990)和WO90/06995)、靶多核苷酸序列的选择性扩增(美国专利6,410,276)、共有序列引物聚合酶链式反应(CP-PCR)(美国专利4,437,975)、任意引物聚合酶链式反应(AP-PCR)(美国专利5,413,909、5,861,245)和基于核酸的序列扩增(NABSA)。(参见美国专利5,409,818、5,554,517和6,063,603,其中每个均通过引用并入本文)。在美国专利5,242,794、5,494,810、4,988,617和美国系列号09/854,317中描述了其它可用的扩增方法,其中每个均通过引用并入本文。在Dong等人,Genome Research11,1418(2001),美国专利6,361,947、6,391,592和美国系列号09/916,135、09/920,491、09/910,292和10/013,598中描述了其它样品制备方法和降低核酸样品复杂性的技术。
可直接在细胞裂解物中,在核酸提取物中,或在对核酸组分进行部分纯化而使它们富集目标靶标后分析天然存在的靶标。在一个实例中,靶多核苷酸是人基因组DNA。待测多核苷酸靶标可以是未修饰的或修饰的。有用的修饰包括但不限于放射性和荧光标记物以及例如生物素或地高辛配基的锚定配体。修饰可以在靶标内部或在5’或3′末端进行。靶标修饰可在合成后通过化学或酶促反应例如连接或聚合酶辅助的延伸进行。或者,可以在酶促聚合反应中使用少量修饰的NTP作为底物将内部标记物和锚定配体直接引入扩增的靶标或其互补体中。
靶多核苷酸可以从个体中分离。该个体不限于人,也可以是其它生物体,包括但不限于哺乳动物、植物、细菌、病毒或真菌。在一个实例中,靶多核苷酸是从人体中提取的基因组DNA。
在一些实施方案中,靶多核苷酸可断裂成合适的长度,如大约100-200、200-300、300-500、500-1000、1000-2000个碱基的长度。
在又一实施方案中,使用多重PCR产生靶多核苷酸,并且用标签序列标记每个PCR片段。可加入这种标签序列作为用于PCR的一条引物的一部分。因此,每个得到的PCR片段可被唯一识别。这样的应用对于微生物物种的鉴定特别有用。
固定靶多核苷酸的方法
本发明的一些实施方案采用复制的基底,基底上固定有靶多核苷酸。为了对多个靶多核苷酸(或多核苷酸靶标的片段)进行测序,将大量不同的靶多核苷酸或其片段固定在基底上。将这样的基底复制多次以产生一批基底。
在本发明的一些实施方案中,复制的基底为具有捕获探针的微阵列。目标样品与一组功能相同的微阵列杂交以产生一组基底,其中每个靶多核苷酸分子均处于可辨识的或特定的位置中。
在一些实施方案中,本发明的方法包括通常在基底上伸延的捕获探针。“捕获探针”在这里是指与基底表面连接并能够与靶分子结合的寡核苷酸。本发明的捕获探针可以为不同的长度,从18个碱基到100个碱基,优选20个碱基到50个碱基。
在一些实施方案中,捕获探针具有与靶分子互补的序列。例如,如果本发明方法用于对至少部分序列已知的基因组进行测序,则捕获探针可设计为与已知序列互补。在一些其它的实施方案中,捕获探针与经由例如特异性连接、作为用于PCR反应的引物的一部分等添加到靶多核苷酸上的“条形码”或“标识符”序列互补。在这样的反应中,靶分子特异性引物和包含独特条形码的引物用于扩增,因此所有具有相同序列的靶分子连接有相同的条形码。
捕获探针可以在5’端或3’端连接至基底。优选地,捕获探针在5’端连接至基底,且可如本文所述通过核苷酸的掺入而延伸捕获探针的3’端,以产生交错的延伸片段,转而可通过进一步掺入标记的核苷酸而对该片段进行测序。
在一些实施方案中,捕获探针在3’端连接至基底,因此捕获探针的3’端不能通过核苷酸的掺入而延伸。第二探针(也称作测序引物)与靶分子杂交,并且其3’端如本文所述通过核苷酸的掺入而延伸,以产生交错的延伸片段,转而可通过进一步掺入标记的核苷酸而对该片段进行测序。在这种情况下,延伸朝向捕获探针的方向。通常,测序引物与在直接由基因组DNA或亲本靶分子产生靶分子时引入到靶分子末端的接头杂交。因此该测序(引物)是可用于对不同靶分子进行测序的“通用引物”。在一些实施方案中,可使用靶分子特异性的测序引物,但在一些实施方案中,由于增加了引物合成成本,这并不是优选的。
如在此使用的术语“基底”或“固体载体”或其它语法等同术语一般是指任何经修饰从而允许核酸分子如此处所述发生“伸延”的材料。通常,基底含有适于连接或缔合装饰的核酸分子以形成伸延的核酸且适用于至少一种检测方法的离散的单独位点(例如,纳米通道、流动池(flowcell)或线)。如本领域技术人员能够理解的,可能的基底数目非常大。可能的基底包括但不限于,玻璃和修饰的或功能化的玻璃、塑料(包括丙烯酸树脂、聚苯乙烯以及苯乙烯和其它材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、TeflonJ等)、多糖、尼龙或硝酸纤维素、树脂、二氧化硅或基于二氧化硅的材料(包括硅和修饰的硅)、碳、金属、无机玻璃、塑料、光纤束和多种其它聚合物。通常,基底允许光学检测且其自身并不明显地发出荧光。
本发明的基底可设置为具有任何方便的几何形状或结构特征的组合。基底可以是刚性或柔性的,可以是光学透明的或光学不透明的,或具有这些表面的组合。基底也可以是电绝缘体、导体或半导体。进一步地,基底可以对于液体、蒸汽和/或气体基本上不可渗透,或者,另外地,基底可以对于一种或更多种这些种类的材料基本上可渗透。通常,基底落入两个不同的类别:以下更详细讨论的包含特定几何形状例如纳米通道或纳米孔的基底;或具有允许装饰核酸伸延的表面特性的基底,如使用表面化学的线性模式。
在本发明的一个方面,本发明的基底包含纳米结构或单元。这样的结构可包括但不限于纳米柱、纳米孔和纳米通道。在很多示例性的方面,本发明的基底包含纳米通道。这样的基底是本领域已知的。例如,美国专利7,217,562、6,685,841、6,518,189、6,440,662、6,214,246描述了根据本发明使用的纳米结构,其包括纳米通道。这些专利通过引用整体并入本文。一般而言,在这些纳米通道基底中,有一个放置寡核苷酸探针的存储器,寡核苷酸探针随后被移入纳米通道,每个纳米通道放置一个寡核苷酸探针分子,以形成伸延的核酸,然后检测掺入的探针的顺序,和可选的,掺入的探针的标记物之间的距离。
在一些实施方案中,基底包含通常为1-2毫米厚的单元。在一个实例中,基底,例如玻片,可以约10厘米长。可用于本发明的纳米结构的另一实施方案是含有纳米孔的基底。纳米孔装置可以提供对溶液中经电泳驱动通过纳米级别的孔的分子的单分子检测,并且可以根据各核苷酸通过孔时发出的信号顺序检测核苷酸序列。这样的纳米孔和使用纳米孔的测序方法是本领域已知的,并在以下文献中讨论,例如,Branton等人,(2008),Nature,26(10):1146-53和美国专利6,673,615;7,258,838;7,238,485;7,189,503;6,627,067;6,464,842;6,267,872和美国专利申请20080248561;20080171316,20080102504,它们各自出于任何目的通过引用整体并入本文,特别是对于附图、图例以及伴随的描述组合物、使用组合物的方法和制备组合物的方法的文本。
在一些实施方案中,寡核苷酸探针在与靶多核苷酸结合前被固定于固体载体上。在一个实施方案中,本发明的寡核苷酸探针的5’端连接于固体表面或基底上。寡核苷酸可通过多种本领域已知的方法进行固定化,包括(但不限于)共价交联至表面(例如,光化学交联或化学交联),通过锚定配体与相应受体蛋白质的相互作用(例如生物素-链霉亲和素或地高辛配基-抗地高辛配基抗体)非共价连接至表面,或通过与锚定核酸或核酸类似物杂交。锚定核酸或核酸类似物与靶标具有足够的互补性(即,它们形成的双链体具有足够高的Tm),以致锚-靶标-探针复合物不会被除去未结合的靶标和探针的严格洗涤所洗脱,但是它们与互补于探针反义序列的靶位点并不重叠。
固体基底可由能够直接或间接结合分子的任何材料制成。合适的固体基底的例子包括平板玻璃、石英、硅片、云母、陶瓷和有机聚合物如塑料,包括聚苯乙烯和聚甲基丙烯酸酯。表面可设置为发挥电极或导热基底作用(其增强杂交或鉴别过程)。例如,可使用平板印刷技术在合适的基底表面上形成微电极和次微电极。更小的纳米电极可以通过电子束成像/光刻来实现。还可以使用导体聚合物制备电极,该导体聚合物能利用喷墨印刷装置通过软刻蚀技术图案化处理基底或通过湿化学法均匀地应用。TnO2包被的玻璃基底是可获得的。可以按一定密度提供电极,从而使各固定化分子具有其自己的电极,或者以更高密度提供电极,从而使分子或元件组连接至单个电极。或者,一个电极可以作为阵列表面下方的层提供,该层形成单一的电极。固体基底可选地可以与渗透层或缓冲层交界。也可以使用半透膜例如硝化纤维素或尼龙膜,它们是广泛可得的。半透膜可安置在更坚固的固体表面例如玻璃上。表面层可包含溶胶-凝胶。表面可选地可以包被有一层金属,例如金、铂或其它过渡金属。合适的固体基底的一个具体的例子是商业上可获得的SPRBIACoreTM芯片(Pharmacia B iosensors)。Heaton等人,2001(PNAS98:3701-3704)将静电场施加于SPR表面并使用该静电场控制杂交。
固体基底一般是具有刚性或半刚性表面的材料。在一些实施方案中,基底的至少一个表面基本上是平的,虽然在一些实施方案中可能期望用例如凸起区域或蚀刻的沟槽物理分隔分立元件。例如,固体基底可包含纳米瓶-在平坦表面上的微小的腔,例如直径为10μm、深10μm。这对于从表面裂解分子并进行分析或其它处理如在其中进行扩增来说特别有用。溶液相反应比固相反应更有效,而结果仍然是空间可寻址的,这是有益的。其它形式包括但不限于合成或天然的珠子、膜或滤器、包括微阵列玻片在内的玻片、微量滴定板、微毛细管和微离心管。
在一些实施方案中,基因座特异性寡聚物探针包被或附着于珠子上用于捕获基因组DNA。寡聚物探针可针对基因组DNA上包括多个目标基因座的大区域。例如,多个ADME(吸收、分布、代谢和***)标记位于约200个基因上。基因座特异性寡聚物探针和靶多核苷酸之间的杂交可以在控制的温度和盐浓度下在柱子中的珠子上进行。杂交产物可用适当的压力从珠子上洗脱下来。
系列号为60/011,359的美国专利申请公开了具有捕获寡核苷酸阵列的固体载体的应用,该申请通过引用并入本文。当使用这样的阵列时,分别在上述偶联的PCR和LDR阶段中使用的寡核苷酸引物或探针具有可寻址的阵列特异性部分。在LDR或PCR阶段完成后,该过程产物的可寻址的阵列特异性部分保持为单链且在捕获阶段导致与捕获寡核苷酸杂交。C.Newton等人,″The Production of PCR Products With5′Single-Stranded Tails Using Primers That Incorporate NovelPhosphoramidite Intermediates,″Nucl.Acids Res.21(5):1155-62(1993),其通过引用整体并入本文。
在该过程的捕获阶段中,可将混合物在45-90℃的温度下与固体载体接触多达60分钟的时间。可以通过加入阳离子、体积排阻或离液剂对杂交进行加速。当阵列由几十至上百个地址组成时,重要的是正确的连接产物序列有机会与合适的地址杂交。这可以通过寡核苷酸在所用的高温下的热运动,通过与阵列表面接触的流体的机械移动,或通过使用电场移动寡核苷酸跨过阵列来实现。杂交后,依次用低严格度的洗涤缓冲液及随后的高严格度的洗涤缓冲液洗涤阵列。
可以通过流动和/或电力,包括由差异电荷和/或疏水性区域产生的扩散力和表面力,来调节和/或控制核酸向这些基底上的上样。可调整应用至基底的核酸数量(即,采用上样缓冲液或其它溶液)以保证非重叠核酸分子对线性特征的最大占据,从而使基底上的空线性特征的数量最小化。在一个示例性实施方案中,基底的至少50%的线性特征被至少一种核酸分子占据。在进一步的实施方案中,至少60%、70%、80%、90%和95%的线性特征被一种或更多种核酸占据。
在此为了说明性目的而在下文中公开了两种布置探针的示例性方法。第一种方法是“原位”寡核苷酸合成,其中探针位于X-Y坐标平面上已知的地理位置。在一个实施方案中,寡核苷酸探针在表面上合成。允许进行表面上寡聚物合成的技术的例子包括但不限于光刻法和喷墨法。在另一个实施方案中,将预合成的寡核苷酸探针点样在表面上。各种微阵列方案,例如,Agilent喷墨沉积预合成的寡聚物阵列的方案是本领域技术人员已知的。
诸如核酸或多肽等聚合物可使用光刻法和其它掩蔽技术(maskingtechniques)原位合成,由此通过在利用掩模技术和光不稳定反应物控制的特定位置处引入单体以分步方式合成分子。例如,美国专利5,837,832描述了一种基于超大规模集成技术产生固定至硅基底的DNA阵列的方法。具体而言,美国专利5,837,832描述了一种被称为“覆瓦(tiling)”的策略,该策略在基底上空间限定的位置处合成特异性探针组。美国专利5,837,832还提供了也可使用的较早技术的参考。光引导的合成也可以通过如(Singh-Gasson等人,(1999)Nature Biotechnology17:974-978)所述使用数字光微镜芯片(Texas Instruments)来进行。可使用常规的去保护基团如二甲氧基三苯甲基代替使用直接被光处理的光去保护基团用于光引导的方法,其中例如以空间可寻址的方式生成光生酸(photoacid),其选择性地对DNA单体进行去保护(McGall等人,PNAS199693:1355-13560;Gao等人,J.Am.Chem Soc.1998120:12698-12699)。酸的电化学产生是本发明的方法中可以使用的另一种方式。
“原位”阵列可以具有约1,000-100,000,000个阵列探针(特征)。在一个实施方案中,“原位”阵列带有大约200,000,000个探针。
可在阵列中固定的分子包括核酸,如DNA,及其类似物和衍生物,如PNA。核酸可获自任何来源,例如基因组DNA或cDNA,或使用已知的技术例如分步合成法进行合成。核酸可以是单链或双链的。也可以固定DNA纳米结构或其它超分子结构。其它分子包括但不限于由酰胺键连接的化合物,如肽、寡肽、多肽、蛋白质或含有它们的复合物;确定的化学实体,例如有机分子;偶联的聚合物和碳水化合物或其组合文库。
可以对分子进行标记以便能够使用多种方法进行探询。合适的标记物包括:光学活性染料,例如荧光染料;纳米颗粒,如荧光球和量子点、杆或纳米条;和表面等离子体共振粒子(PRP)或共振光散射粒子(RLS)-散射光的银或金粒子(PRP/RLS粒子的大小和形状决定了散射光的波长)。参见Schultz等人,2000,PNAS97:996-1001;Yguerabide,J.和Yguerabide E.,1998,Anal Biochem262:137-156。
杂交
在一个方面,本发明提供了一种用于对靶多核苷酸进行测序的方法,该方法包括以下步骤:在基底上形成多个杂交复合物,每个复合物包含:捕获探针和一个拷贝的靶核酸分子。
通常,存在多个基底并且基底(例如芯片)的总数为n,n为从10到100或更大的整数。将每个基底设定为基底(i),其中i是从1到n(包括1和n)的整数。例如,如果存在5个芯片,将它们设定为芯片1、2、3、4和5。参见图1A。应当理解,为每个基底分配数字仅出于方便的目的。可使用与本发明相一致的备选***。
在一些实施方案中,扩增靶分子以产生其拷贝,如通过克隆扩增,并且将靶分子的一个或多个拷贝与同样为复制物但位于不同基底上的捕获探针杂交,因此允许如本文所述的平行延伸和检测。因此使用包含靶分子或其拷贝的样品与基底接触。在一些实施方案中,每个基底位于单独的反应室中,并且将样品分开以分配到不同的反应室中。在一些实施方案中,基底位于相同的反应室中,并加载样品,并通过不同基底上的捕获探针捕获靶分子。或者,不使用扩增。单个分子常常可产生对如下所述的测序反应而言足够的信号。
[0044]在一些实施方案中,在不同基底上形成多个杂交复合物,每个复合物具有相同序列的捕获探针和相同序列的靶分子。因此,在不同基底上形成的不同的杂交复合物是彼此的“复制物”。然而,应当理解不同基底上的每个捕获探针和靶分子可具有序列变异,只要捕获探针和靶分子之间的互补序列相同从而允许平行延伸、检测以及最后组装来自不同基底的序列阅读值以致获得靶分子的序列信息即可。
[0044]在一些实施方案中,通过多重技术(multiplexing)进行测序,其中每个基底具有多个捕获位点并且每个捕获位点具有不同的捕获探针。然而,在连接有相同(或基本相同)的捕获探针的每个基底上存在相应的捕获位点。以这种方式,基底用于从多个不同靶分子平行产生序列阅读值。
在此使用的″杂交″典型地指允许具有一定程度的互补性的两条单链多核苷酸序列互相结合以形成稳定的双链多核苷酸的技术。在此使用的″互补″及其等价术语通常指核苷酸或核酸之间(例如,在双链DNA分子的两条链之间或在寡核苷酸引物和待测序或扩增的单链核酸上的引物结合位点之间)的杂交或碱基配对。互补核苷酸通常为A和T(或A和U),或C和G。当经过最佳比对和比较且具有适当核苷酸***或缺失的一条链的核苷酸与另一条链的至少约70%、通常至少约80%、85%、90%至95%、更优选约98%至100%的核苷酸配对的时候,称这两个单链RNA或DNA分子是互补的。参见M.Kanehisa Nucleic Acids Res.12:203(1984),通过引用并入本文。
杂交通常涉及以下步骤:1)使探针和靶标结合;和2)在严格条件下洗去未结合的或弱结合的探针,其中严格杂交条件是那些使有瑕疵的复合物解离,而保留期望的靶标特异性探针与对应靶标的复合物的洗涤条件。杂交特性的改善可以是杂交选择性(序列特异性和错配辨识)、杂交灵敏度(绝对信号与背景信号之比,信噪比)、探针和靶标之间的亲和力(杂交探针和靶标之间的结合速率与解离速率之比)、双链体或复合物的稳定性(热稳定性,Tm;也称为解离动力学惰性或动力学陷阱(kinetictrap))或者杂交的效率或效力(在固定孵育时间和杂交条件下,探针和靶标之间的杂交速率和/或复合物产率)的改进。用于进行多核苷酸杂交分析的方法在本领域已充分开发。杂交分析程序和条件根据具体应用而变化,并按照已知的一般结合方法进行选择,包括在以下文献中提到的那些方法:Maniatis等人,Molecular Cloning:A Laboratory Manual(第二版,Cold Spring Harbor,N.Y,1989);Berger和Kimmel,Methods inEnzymology,第152卷,Guide to Molecular Cloning Techniques(AcademicPress,Inc.,San Diego,Calif.,1987);Young和Davism,P.N.A.S,80:1194(1983)。进行重复的和受控的杂交反应的方法和设备已描述于美国专利5,871,928、5,874,219、6,045,996和6,386,749、6,391,623,其全部通过引用并入本文。
在一些实施方案中,对初始聚合酶链式反应混合物进行两个或更多个聚合酶链式反应循环,其中包括变性处理、杂交处理和延伸处理。在杂交过程中,探针的靶标特异性部分与靶核苷酸序列杂交。延伸处理导致杂交的初始寡核苷酸引物延伸,形成与初始寡核苷酸引物所杂交的靶核苷酸序列互补的初始延伸产物。
在一些实施方案中,杂交探针是等位基因特异性的,且探针序列是已知的,从而使捕获寡核苷酸探针能够以稳定的方式与靶多核苷酸序列杂交。除非以该方式设计寡核苷酸,否则可能由于从与靶标杂交的相同寡核苷酸组中捕获相邻的未反应的寡核苷酸而产生假阳性信号。在一方面,使用溶液探针(solution probe)的连接步骤和随后的杂交产物3’端加帽和特异性探针-靶标杂交复合物的3’端帽的切除能够获得更高的杂交特异性。在一些实施方案中,杂交特异性大于95%、96%、97%、98%、99%、99.5%或更高。
可以调整和优化靶标-探针杂交的严格度。杂交严格度一般指杂交分析中可容忍的错配程度。通过使用高温和低盐浓度获得高严格度。增加盐浓度和降低温度导致杂交严格度降低,并增强错配的异双链体的稳定性。在本发明的一些实施方案中,在本发明的方法中使用可能的最高杂交和洗涤严格度以增加杂交特异性。在一些实施方案中,捕获探针和靶多核苷酸之间的非特异性杂交产物能通过高严格度洗涤洗掉。可以调节洗涤所用的缓冲液的离子强度,例如,为达极端严格度可以降低盐浓度。在一些实施方案中,可从杂交双链体中洗掉靶多核苷酸,例如,基因组DNA,以允许随后的引物退火和碱基延伸。
天然碱基延伸
在一些实施方案中,在每个复制基底上的靶多核苷酸与序列引物杂交。至少一个复制基底与天然核苷酸混合物和聚合酶接触用于延伸。核苷酸混合物可含有一种、两种或三种不同的天然核苷酸(如dATP、dCTP、dGTP的混合物)或其等价物。因此,延伸反应得到控制而无法延伸超过需要缺少的碱基处。例如,如果核苷酸混合物含有dATP、dCTP和dGTP,延伸反应将在靶多核苷酸需要dTTP的位置处停止。存在许多不同的方法来控制延伸反应。例如,依次添加dATP、dCTP、dGTP和dTTP(一个碱基循环具有四个核苷酸添加步骤;碱基的特定顺序并不重要),在添加步骤之间为洗涤步骤(或在添加步骤之间为核苷酸降解步骤),则每个循环将延伸至少一个碱基。平均而言,对于典型的基因组,这样的循环每个循环产生约2个碱基延伸。依次添加三个碱基(例如,dATP/dCTP/dGTP、dCTP/dGTP/dTTP、dGTP/dTTP/dATP、dATP/dCTP/dTTP,具有四个核苷酸添加循环)是每个反应延伸更多碱基的一种方法,但仍具有控制性和同步性。
在一些实施方案中,每个复制基底经历不同的延伸步骤。因此,一个循环(四个步骤)可产生四种不同的复制基底。延伸之后,复制板在引物长度方面可以不同或相同。然而,在一个碱基添加的一个循环之后,至少一个复制基底将具有不同的引物长度。同样地,在三碱基循环中的两个延伸步骤之后至少一个被延伸,并且至少一个复制板具有与其它不同的引物长度。
通常,根据本发明的方法所使用的引物包含足够长度和适当序列的寡核苷酸,其在利用引物进行反应的严格度条件下提供含有靶核酸的大量核酸分子的聚合的特异性启动。用这种方式,选择性扩增含有目标核酸的特异性靶核酸序列是可能的。特别地,在此使用的术语“引物”指包含两个或更多脱氧核糖核苷酸或核糖核苷酸的序列,优选至少8个,所述序列能够启动基本上与靶核酸链互补的引物延伸产物的合成。寡核苷酸引物典型地含有15-22个或更多核苷酸,尽管其可以含有更少的核苷酸,只要引物具有足够的特异性以基本上只允许具体期望的靶核苷酸序列的扩增(即,引物是基本上互补的)。引物的确切长度取决于多个因素,包括温度、缓冲液和核苷酸组成。“基本上互补”指引物具有足够的互补性以在允许用于聚合的试剂发挥作用的条件下与其相应的链杂交。换言之,引物应当与其所杂交的侧翼序列具有足够的互补性并允许核苷酸序列扩增。优选地,延伸的引物的3′末端具有与互补侧翼链完全碱基配对的互补性。本发明使用的寡核苷酸引物可使用任何合适的方法制备,例如常规的磷酸三酯和磷酸二酯法或其自动化的实施方案。在一种这样的自动化实施方案中,二乙基亚磷酰胺用作起始材料,并可以如Beaucage等人(Tetrahedron Letters,22:1859-1862,1981)所述合成。一种在修饰的固体载体上合成寡核苷酸的方法在美国专利4,458,066中描述。根据本发明可使用的一种扩增方法是在美国专利4,683,202和4,683,195中描述的聚合酶链式反应(PCR)。
一碱基延伸还可用黑暗可逆终止子来进行。在这种形式中,使用多个复制芯片(或等位基因特异性测序芯片)。一个延伸是黑暗核苷酸(a、c、g和t)可逆终止子混合物(例如,可从Foundation for Molecular Evolution得到)的单碱基添加。每个芯片有一个单碱基的差异。
在四碱基延伸形式中,使用多个复制芯片(或等位基因特异性测序芯片)。一个延伸是四种核苷酸(a、c、g或t)添加的一个循环。当需要时,三循环延伸(如a、c、g、t;c、g、t、a;g、t、a、c)可用于构建更长的距离。可针对具体靶序列优化该循环。每个芯片具有增加的循环,如0、1、2、3、4、5、6个循环。四种标记的核苷酸(优选地为不同的颜色/信号,但是可以是单一颜色或少于四种颜色)的添加作为检测循环。
在一些实施方案中,四碱基延伸和检测用作图1A、1B、2A和2B中所示的实例。在该实例中,使用多个复制芯片(例如,等位基因特异性测序芯片或分子克隆基底)(出于说明性目的编号为1-5)。将具有相同序列的捕获探针连接至每个芯片并与靶分子杂交,该靶分子也具有相同的序列。可通过亲本靶分子的扩增来获得靶分子。使用一个循环(A、C、G、T)的延伸和检测(图1A、图2A)。
对于每个循环,将有最少1个碱基延伸(延伸1),所以每个芯片至少有一个碱基不同。例如,如果模板序列是acgt,则ACGT循环将仅延伸一个碱基“T”。一些循环具有多个碱基延伸,例如,序列tgca将延伸四个碱基。由于有重复序列如tttggccaaaaa,所以一个循环可延伸四个以上的碱基。在该实例中,每个循环将为12个碱基。为了延伸100个碱基的片段,我们需要大约20-50个循环。
在一种形式中,每个碱基添加(约1分钟)之后,存在洗涤步骤以去除核苷酸并为下一延伸做准备。
备选地,在另一种形式中,在核苷酸延伸之间不存在洗涤。取而代之,将腺苷三磷酸双磷酸酶加入到含有DNA聚合酶的延伸缓冲液中。依次加入每种核苷酸。通过优化延伸混合物(酶的量、核苷酸的浓度等),当将其加入以延伸碱基时,将存在足够量的特定量的核苷酸。此后,将用腺苷三磷酸双磷酸酶降解核苷酸。之后加入新的核苷酸以开始延伸循环的下一步骤或下一个延伸循环。
在图1B和图2B中描述了四碱基延伸和检测的实例。
优选地,将未修饰的核苷酸以及未修饰的或修饰最小的DNA聚合酶用于碱基延伸。通常,未修饰的核苷酸以及未修饰的或修饰最小的DNA聚合酶比修饰的核苷酸和/或修饰的聚合酶提供更高的掺入效率和保真度。未修饰的核苷酸以及未修饰的或修饰最小的DNA聚合酶的使用还降低了测序成本。
通常,将靶核酸模板固定于任何合适形式的固体载体上,并且在合适的缓冲液和核苷酸的存在下通过诸如DNA聚合酶、RNA聚合酶、逆转录酶等聚合酶进行延伸。通常,使用本领域已知的合适的条件来进行延伸。
碱基检测
检测碱基可以是标记的核苷酸,如带有标记物的dNTP。
通常,如下检测碱基:通过在聚合酶的存在下使杂交复合物依次接触标记的dATP、dCTP、dGTP和dTTP之一而延伸交错片段,并检测标记的dATP、dCTP、dGTP和dTTP的掺入,从而从每个基底获得序列阅读值。
在一些实施方案中,使用标记的dATP、dCTP、dGTP和dTTP的混合物。由于修饰的dNTP如标记的dNTP具有普遍较低的掺入效率,为了产生强信号仅延伸前几个碱基。“连缀(run-on)”延伸的可能性相当低,且使用本文提供的或本领域已知的方法可将这种“连缀”延伸产生的信号作为噪音而过滤掉。
在一些实施方案中,使用标记的ddATP、ddCTP、ddGTP和ddTTP的混合物,并且不允许“连缀”延伸。
通常,对于每个交错片段仅进行一轮覆盖所有四种可能的碱基的探询。例如,依次添加一种标记的dNTP导致一次一个碱基(即在每个基底上)。这通常导致可组装的短阅读值(如一个碱基或几个碱基)。
在一些实施方案中,利用超过一轮的探询产生较长阅读值。
在一些实施方案中,加入标记的ddATP、ddCTP、ddGTP、ddTTP和少量(<10%(例如5%、6%、7%、8%或9%)或<20%(例如,10%、11%、12%、13%、14%、15%、16%、17%、18%或19%))天然dATP、dCTP、dGTP和dTTP的混合物,以提供受控延伸,但阻止不必要的“连缀”。
在一些实施方案中,如此标记的核苷酸是可逆终止子,但它们不是必需的。可通过信号强度检测多个碱基,或对于可逆终止子,通过碱基添加检测来检测。
核苷酸可逆终止子是使用给3′-OH基团加帽以暂时性终止聚合酶反应的可逆化学部分修饰的核苷酸类似物。这样,即使在同聚物区域也只有一个核苷酸掺入生长的DNA链。例如,可以使用氨基-2-羟丙基基团对3’端进行加帽。也可以使用烯丙基或2-硝基苄基基团作为可逆部分对四种核苷酸的3′-OH加帽。可逆终止子的例子包括但不限于3′-O-修饰的核苷酸,如3′-O-烯丙基-dNTP和3′-O-(2-硝基苄基)-dNTP。在检测溶液探针上存在的切割位点后,通过不同的去保护方法重新生成引物延伸产物的3′-OH。DNA延伸产物3′-OH上的加帽部分可在检测切割位点后通过化学方法、酶促反应或光解作用有效移除,即从切割位点切下该帽。为了对DNA进行测序,在一些实施方案中,将含有同聚物区域的模板固定于Sepharose珠子上,随后通过在DNA珠子上使用核苷酸可逆终止子进行延伸-信号检测-去保护循环以明确译解DNA模板的序列。在一些实施方案中,该可逆终止子-测序方法在本发明的方法中使用,以精确测定DNA序列。(所述帽在此可以称为“保护基团”)。
本发明的多核苷酸可以进行标记。在一些实施方案中,分子或化合物连接有至少一种元素、同位素或化合物以能够检测该化合物。通常,本发明中使用的标记物包括但不限于同位素标记物(其可以是放射性或重同位素)、磁标记物、电标记物、热标记物、着色和发光染料、酶和磁性颗粒。本发明中使用的染料可以是发色团、磷光体或荧光染料,它们由于其强信号而为解码提供了良好的信噪比。
本发明的许多实施方案包括荧光标记物的使用。用于本发明的合适的染料包括但不限于包括铕和铽的荧光镧系元素的络合物、荧光素、罗丹明、四甲基罗丹明、曙红、赤藓红、香豆素、甲基-香豆素、芘、孔雀绿(Malacite green)、均二苯乙烯、荧光黄、Cascade B1ue、德克萨斯红和其它在RichardP.Haugland的Mo1ecular Probes Handbook第6版中描述的染料,其为了所有目的,特别是对于其中关于根据本发明应用的标记物的教导而特此通过引用整体并入本文。容易掺入标记寡核苷酸的商业上可获得的荧光核苷酸类似物包括,例如,Cy3-dCTP、Cy3-dUTP、Cy5-dCTP、Cy5-dUTP(Amersham Biosciences,Piscataway,New Jersey,USA)、荧光素-12-dUTP、四甲基罗丹明-6-dUTP、德克萨斯红 罗丹明绿TM-5-dUTP、俄勒冈绿德克萨斯红630/650-14-dUTP、650/665-14-dUTP、A1exaAlexa532-5-dUTP、Alexa568-5-dUTP、Alexa594-5-dUTP、Alexa546-14-dUTP、荧光素-12-UTP、四甲基罗丹明-6-UTP、德克萨斯红CascadeFL-14-UTP、TMR-14-UTP、TR-14-UTP、罗丹明绿TM-5-UTP、Alexa488-5-UTP、Alexa546-14-UTP(Molecular Probes,Inc.Eugene,OR,USA)。其它可用于合成后连接的荧光团尤其包括Alexa350、Alexa532、Alexa546、Alexa568、Alexa594、Alexa647、BODIPY493/503、BODIPY FL、BODIPY R6G、BODIPY530/550、BODIPY TMR、BODIPY558/568、BODIPY558/568、BODIPY564/570、BODIPY576/589、BODIPY581/591、BODIPY630/650、BODIPY650/665、Cascade Blue、CascadeYellow、丹酰、丽丝铵罗丹明B、Marina Blue、俄勒冈绿488、俄勒冈绿514、太平洋蓝、罗丹明6G、罗丹明绿、罗丹明红、四甲基罗丹明、德克萨斯红(可获自Molecular Probes,Inc.,Eugene,OR,USA)和Cy2、Cy3.5、Cy5.5和Cy7(Amersham Biosciences,Piscataway,NJ USA等)。
可以使用多种多重检测形式,包括标记的/加标签的珠组(例如,Luminex生产的),其中每个标记物指定给个体探针特异性引物,或玻片上的寡核苷酸阵列,其中特异性寡核苷酸点/位置被指定给个体探针特异性引物。回收的靶标特异性探针的有限的序列复杂性为更容易和更高水平的多重化(multiplexing)提供了条件,特别是与通用和Zip-code/ID序列标签一起使用。在引物与靶标-探针复合物杂交后,通过核苷酸聚合酶延伸引物。聚合酶链式反应是相关领域中熟知的技术。在某些实施方案中,聚合酶选自RNA聚合酶和逆转录酶。
在使用阵列时,该过程的检测阶段可以涉及扫描和鉴定测试样品中的靶多核苷酸序列。扫描可通过扫描探针显微镜术(SPM)进行,包括扫描隧道显微镜术(STM)和原子力显微镜术(AFM)、扫描电子显微镜术、共聚焦显微镜术、电荷耦合器件、红外显微镜术、电导和荧光或磷光成像,例如荧光共振能量转移(FRET)。光学探询/检测技术包括但不限于近场扫描光学显微镜术(NSOM)、共聚焦显微镜术和隐失波激发。这些技术的更加特别的形式包括远场共聚焦显微镜术、双光子显微镜术、广域落射光照和全内反射(TIR)显微镜术。许多上述技术也可用于光谱模式。实际检测方法包括电荷耦合器件(CCD)摄像机和增强的CCD、光电二极管和光电倍增管。这些方法和技术是本领域熟知的。各种检测方法在公开号为US2004/0248144的美国专利申请中公开,其通过引用并入本文。
对于多色成像而言,可通过多重采集或通过拆分信号同时采集、使用RGB探测器或分析全波长来获得不同波长的信号(RichardLevenson,Cambridge Healthtech Institutes,Fifth Annual meeting onAdvances in Assays,Molecular Labels,Signaling and Detection,May17-18thWashington D.C.)。一些光谱线可利用滤光轮或单色光源获得。电子可调滤波器如声光可调滤波器或液晶可调滤波器可用于获得多谱成像(例如Oleg Hait,Sergey Smirnov和Chieu D.Tran,2001,AnalyticalChemistry73:732-739)。获得光谱的一种替代方法是高光谱成像(Schultz等人,2001,Cytometry43:239-247)。
用于信号检测和强度数据处理的方法和设备在例如美国专利5,143,854、5,547,839、5,578,832、5,631,734、5,800,992、5,834,758、5,856,092、5,902,723、5,936,324、5,981,956、6,025,601、6,090,555、6,141,096、6,185,030、6,201,639、6,218,803和6,225,625,美国系列号60/364,731和PCT申请PCT/US99/06097(公开为W099/47964)中公开,其同样为了全部目的而通过引用整体并入本文。用于DNA序列分析和阅读值解释的荧光成像和软件程序或算法对本领域普通技术人员而言是已知的,并且公开于Harris TD等人“Single-Molecule DNA Sequencingof a Viral Genome”Science4April2008:Vol.320.no.5872,pp.106-109,其通过引用整体并入本文。在一些实施方案中,Phred软件用于DNA序列分析。Phred阅读DNA测序仪的追踪数据、判定碱基、对碱基指定质量值,并将碱基判定值(base calls)和质量值写成输出文件。Phred是用于碱基判定DNA测序跟踪文件的广泛使用的程序。Phred可以阅读来自SCF文件和ABI373和377型DNA测序仪chromat文件的追踪数据,自动检测文件格式。判定碱基后,phred将序列写成FASTA格式、适于XBAP的格式、PHD格式或SCF格式的文件。将碱基的质量值写成FASTA格式文件或PHD文件,该文件可以被phrap序列组装程序使用以增加组装序列的精确度。质量值是log转换的误差概率,具体为Q=-10log10(Pe),其中Q和Pe分别为特定碱基判定值的质量值和误差概率。已就区分正确和不正确的碱基判定值的精确度和能力对phred质量值进行了充分检验。Phred可以使用质量值来进行序列修剪。
在一些实施方案中,通过依次添加标记的A、C、G、T,之后在每次添加之后进行洗涤和检测来进行一个检测循环。参见图2B。在一些实施方案中,可使用具有可去除的标记物的核苷酸进行多个检测循环。
使用计算机算法对原始数据的处理和对遗传信息的分析
通常,用计算机鉴定靶多核苷酸序列并整合序列以组装基因组信息。在一些实施方案中,本发明还包括为了分析和组装通过本发明的方法获得的序列信息而设计的计算机软件或算法。
在“原位”阵列的序列阅读值解释方面,阵列特征处的阅读值对应于映射目标基因座的X-Y坐标。“阅读值”典型地指来源于原始数据的观察到的序列,例如对应于个体核苷酸循环添加的检测信号的顺序。在一些实施方案中,针对10-bp基因座处预期的参比基因组序列对阅读值进行质量控制检验。参比序列使得使用短阅读长度成为可能。然后对通过质量控制检验的阅读值进行组合以生成各基因座处的共有序列。在一个实例中,每个目标基因座减去没有通过质量控制检验的任何阅读值后有10个独特的探针。
在“坪(1awn)”方法的序列阅读值解释方面,阅读值处于表面例如流动池上的随机位置。在一些实施方案中,针对目标基因座处预期的参比基因组序列亚组对阅读值进行质量控制检验。将通过质量控制检验的阅读值定位到个体目标基因座。然后将对应于各基因座的阅读值进行组合以生成共有序列。在一个实施方案中,每10-bp基因座有大于3,000个阅读值。
序列阅读值的组装
在另一方面,本发明提供通过组装来自每个基底的序列阅读值来获得靶分子序列信息的方法。例如,参见图2B。通过由于使用相同靶分子的相同捕获探针的不同碱基延伸而具有不同长度的一系列多核苷酸的碱基延伸来获得序列阅读值。因此,它们代表靶分子序列的连续片段,并且可以组装以提供靶分子的连续序列。
可使用计算机程序追踪从不同基底上的相同捕获探针获得的序列阅读值用于组装。
多个靶标
在一些实施方案中,同时对多个靶标如10,000、100,000、1百万、1千万、1亿个序列或靶标进行测序。因此,对于每个基底,存在多个捕获位点,其中每个捕获位点具有识别不同靶标的不同捕获探针。如果靶标是较长序列的片段,可组装叠连序列以获得较长序列,如整个基因组序列。
II.基底形式
通常,多个靶标的测序一般以芯片形式进行,但也可以珠子的形式进行。
本文中的“芯片”是指具有用于靶标或探针连接的合适表面的基底。芯片的几何设计可以改变。例如,芯片可以是内有可用表面的管。芯片可呈流动池形式以促进液体处理。
在一些实施方案中,等位基因特异性芯片用于测序。在一些实施方案中,将捕获探针固定(或原位合成)在芯片上。这些探针可充当测序引物。同一靶标与大量芯片杂交,如5个(约15个碱基测序)至40个芯片(约100个碱基测序)或120个芯片(约300个碱基测序)或300个芯片(约1,000个碱基测序)。
在一些实施方案中,芯片是如在PCT/US2010/048526(通过引用并入本文)中所公开的等位基因特异性测序芯片。
在一些实施方案中,芯片包含从单分子开始的随机群簇(如Illumina流动池)。可将靶分子的分子克隆转印(print)至许多基底上以产生用于测序的复制基底。在一些实施方案中,芯片为通过尼龙膜压印和转印或其它本领域已知的方法得到的复制芯片。
在一些实施方案中,芯片是膜多芯片(membrane multichip)。产生了多层有孔(1微米至50微米)基底。将靶分子加载至孔内,其中一些孔具有单分子靶标。在孔内扩增靶标。将层剥离。每层具有一些连接至孔的分子。在分子方面,各层基本上是相似的(彼此的拷贝)。可直接使用这些层或将其转移至合适的测序基底进行测序。
其它芯片也可用于本发明中,包括但不限于光可裂解的寡聚物多芯片、有孔的多层基底和纳米转印芯片。
在一些实施方案中,生物素化的珠子用于锚定靶序列并通过在珠子***中进行碱基掺入而进行测序。
III.应用
本发明的方法具有几个优点。首先,本文提供的测序方法允许使用未修饰的核苷酸和酶,它们利用天然DNA合成化学。这不但降低了成本,而且由于通过演变过程产生的高保真化学而增加了准确度。
此外,当使用基因座特异性或等位基因特异性时,它们能够用于SNP,并且可以携带多个信号报告标记物或配体,提供不同靶序列的更高水平的多重化。
本发明提供了低成本、高通量且准确的靶多核苷酸测序方法。
此外,本发明的方法可极高程度地多重化。样品可包括分别为靶标和对照受试群体的合并的基因组,因为等位基因频率的精确分析可通过单分子计数进行精确测定。因为可以探测每个分子上多于一个的单一位点,因此容易确定单元型信息。还存在获得单元型频率的可能性。此类方法特别适用于关联研究,其中将群体中的SNP频率与疾病相关联。当每个研究需要进行上百万个单独反应时,单SNP分型反应的花费可能过于昂贵;本发明则允许在单一阵列表面上进行并分析上百万个单独反应。
本发明的方法可用于鉴定位于大量药物代谢酶和转运体(DMET)基因的调控元件和编码区域的高价值的多态性。这些DMET基因的表达会给出药物的吸收、分布、代谢和***谱信息。对各种药物的复杂转录响应的解释和随后的生理效果预测对于有效治疗剂的开发而言是很重要的。本发明的方法可帮助在基因表达谱与包括受试者对候选药物可能的反应在内的生理效应之间建立联系。
可通过本发明的方法检测众多疾病,例如,由细菌、病毒、寄生虫和真菌传染原导致的传染性疾病。也可以使用本发明确定各种传染原对药物的抗性。
也可以通过本发明的方法检测遗传疾病。这可通过产前或产后筛查染色体和遗传畸变或遗传疾病来实现。可检测的遗传疾病的例子包括:21羟化酶缺乏症、囊性纤维化、脆性X综合征、特纳综合征、杜氏肌营养不良症、唐氏综合征或其它三体性疾病(trisomies)、心脏疾病、单基因疾病、HLA分型、苯丙酮尿症、镰状细胞性贫血、泰-萨克斯病(Tay-Sachs Disease)、地中海贫血、克兰费尔特综合征(KlinefelterSyndrome)、亨廷顿病、自身免疫性疾病、脂沉积、肥胖缺陷、血友病、先天性代谢紊乱和糖尿病。
可以通过本发明的方法检测的癌症一般涉及癌基因、肿瘤抑制基因或与DNA扩增、复制、重组或修复有关的基因。它们的例子包括:BRCA1基因、p53基因、APC基因、Her2/Neu扩增、Bcr/Ab1、K-ras基因和16和18型人***瘤病毒。本发明的各方面可用于鉴定以下常见人类癌症中上述基因的扩增、大缺失以及点突变和小缺失/***:白血病、结肠癌、乳腺癌、肺癌、***癌、脑瘤、中枢神经***肿瘤、***、黑色素瘤、肝癌、骨肉瘤和其它骨癌、睾丸癌和卵巢癌、头颈部肿瘤和***。
在环境监测领域,本发明可用于检测、鉴定和监控天然和工程化的生态***和微环境如城市废水净化***和蓄水池或正在进行生物除污的污染区域中的病原性和原生性微生物。还可以用于检测含有能够代谢异生素的基因的质粒,在种群动态研究中监控特定目标微生物,或检测、鉴定或监控环境和工业厂房中的遗传修饰的微生物。
本发明还可以用于多种法医领域,包括用于军事人员和刑事侦查的人体鉴定、亲权鉴定和家庭关系分析、HLA相容性分型,和筛查血液、***或移植器官的污染。
在食品和饲料工业,本发明具有多种应用。例如,其可用于鉴定和表征生产生物,如用于生产啤酒、葡萄酒、奶酪、酸奶、面包等的酵母。另一个应用领域是关于产品和工艺(例如,家畜、巴氏消毒和肉类加工)针对污染物的质量控制和认证。其它用途包括用于育种目的的植物、鳞茎和种子的表征,植物特异性病原体的存在的鉴定,和兽医学传染病的检测和鉴定。
在另一方面,本发明提供了一种例如通过对来自病毒/细菌的PCR产物进行测序来检测微生物的方法。PCR产物可与5’-3’芯片(直接测序)或3’-5’芯片(需要附加的测序引物)杂交。仅需要20-50个碱基测序,约10-20个芯片。10k的芯片密度可产生大约200k-500k的碱基序列。
在一些实施方案中,本文提供的测序方法用于对病原体/微生物基因组进行测序以鉴定物种/菌株。
例如,假设细菌基因组具有5Mb(5×106bp)的大小,并且每个测序运行阅读100bp。基于同聚物计算进一步假设每个循环存在平均2.5bp延伸。因此需要40个循环(100/2.5),且每个循环需要4个芯片(每种标记物颜色为1个),即对于每个测序运行总共需要160个芯片。因此,如果在每个芯片上存在50×103个斑点(或捕获位点),各自具有不同的捕获探针,则对于5Mb的1×测序(50×103×100bp)=5Mb,总共需要160个芯片。
虽然在此已经显示和描述了本发明优选的实施方案,但是对于本领域技术人员而言显然这些实施方案仅仅是作为示例提供的。本领域技术人员在不偏离本发明的前提下将会想到大量的变化、改变和替换。应当理解,在本发明的实践中可以使用在此描述的本发明实施方案的各种替代方案。以下权利要求旨在限定本发明的范围,由此覆盖在这些权利要求的范围内的方法和结构及其等同物。
实施例
实施例1
检测同聚物
用黑暗和标记的碱基混合物(1∶9)对同聚物(一段G)进行测序。如果对于混合物,标记的碱基掺入=50%,100%标记的G的信号为100%信号,则单个G为50%信号,GG为75%信号,而GGG为87.5%信号。
Claims (15)
1.一种对靶核酸进行测序的方法,其包括:
(a)提供多个基底,其中靶核酸固定至所述多个基底上;
(b)使所述多个基底上的所述靶核酸与测序引物杂交;
(c)用聚合酶和一种、两种或三种不同的核苷酸延伸所述多个基底中的至少一个;
(d)从所述引物或延伸的引物对所述靶核酸的一个或多个碱基进行测序;和
(e)基于所述测序组装靶核酸序列。
2.一种对多个靶核酸分子进行测序的方法,其包括:
(a)提供多个基底,其中所述靶核酸固定至所述多个基底上;
(b)使所述多个基底上的所述靶核酸与测序引物杂交;
(c)用聚合酶和一种、两种或三种不同的核苷酸延伸所述多个基底中的至少一个;
(d)从所述引物或延伸的引物对所述靶核酸的一个或多个碱基进行测序;和
(e)基于所述测序组装靶核酸序列。
3.如权利要求1或2所述的方法,其中所述多个基底包含靶向特定基因组区域的特异性等位基因或基因座的捕获探针。
4.如权利要求1-3中任意一项所述的方法,其中所述多个基底包含靶向标识符序列(“条形码”序列)的捕获探针。
5.如权利要求1-3中任意一项所述的方法,其中所述多个基底包含一组复制的基底,其中每个所述基底在可检测地相似的位置中含有靶核酸的相似分子克隆。
6.如权利要求5所述的方法,其中所述复制的基底是通过转印制造的。
7.一种对靶核酸分子进行测序的方法,其包括:
(a)提供多个基底,其中基底的总数为n,将每个基底设定为基底(i)且i为从1到n的整数,其中每个所述基底包含含有捕获探针的捕获位点,并且其中每个所述捕获探针包含与靶核酸分子互补的序列;
(b)在所述基底上形成多个杂交复合物,每个杂交复合物包含:所述捕获探针和一个拷贝的所述靶核酸分子;
(c)通过重复i-1次以下步骤来延伸每个所述基底(i)上的所述捕获探针:在聚合酶的存在下,使所述基底(i)上的所述杂交复合物依次接触dATP、dCTP、dGTP和dTTP,从而使用所述靶核酸分子作为模板使所述捕获探针延伸一个或多个碱基;
(d)在聚合酶的存在下,使每个所述基底(i)上的所述每个杂交复合物依次接触标记的dATP、dCTP、dGTP和dTTP之一;
(e)检测所述标记的dATP、dCTP、dGTP和dTTP向每个所述基底(i)上的每个所述捕获探针中的掺入,从而自每个基底(i)获得序列阅读值;和
(f)通过组装所述序列阅读值来确定所述靶核酸分子的序列。
8.如权利要求7所述的方法,其中所述基底是芯片。
9.如权利要求7或8所述的方法,其中所述n为从10到100的整数。
10.如权利要求7或8所述的方法,其中所述n为10。
11.如权利要求7-10中任意一项所述的方法,其中每个所述基底(i)包含多个捕获位点,并且不同基底上的各个所述捕获位点中的至少一个包含相同序列的捕获探针。
12.如权利要求7-10中任意一项所述的方法,所述捕获探针连接至平坦表面或珠子上。
13.如权利要求12所述的方法,其中所述捕获探针合成或点样在所述平坦表面上。
14.如权利要求12所述的方法,其中所述平坦表面是流动池。
15.如权利要求12所述的方法,其中所述捕获探针点样在所述平坦表面上的已知位置。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US38556210P | 2010-09-23 | 2010-09-23 | |
US38594710P | 2010-09-23 | 2010-09-23 | |
US61/385,562 | 2010-09-23 | ||
US61/385,947 | 2010-09-23 | ||
PCT/US2011/053079 WO2012040624A1 (en) | 2010-09-23 | 2011-09-23 | Native-extension parallel sequencing |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103429754A true CN103429754A (zh) | 2013-12-04 |
CN103429754B CN103429754B (zh) | 2016-08-10 |
Family
ID=45874191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201180056235.7A Active CN103429754B (zh) | 2010-09-23 | 2011-09-23 | 天然延伸平行测序 |
Country Status (4)
Country | Link |
---|---|
US (2) | US20120083417A1 (zh) |
EP (1) | EP2619333B1 (zh) |
CN (1) | CN103429754B (zh) |
WO (1) | WO2012040624A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10072287B2 (en) | 2009-09-10 | 2018-09-11 | Centrillion Technology Holdings Corporation | Methods of targeted sequencing |
US10174368B2 (en) | 2009-09-10 | 2019-01-08 | Centrillion Technology Holdings Corporation | Methods and systems for sequencing long nucleic acids |
US20120252682A1 (en) | 2011-04-01 | 2012-10-04 | Maples Corporate Services Limited | Methods and systems for sequencing nucleic acids |
US8895249B2 (en) | 2012-06-15 | 2014-11-25 | Illumina, Inc. | Kinetic exclusion amplification of nucleic acid libraries |
US10533216B2 (en) | 2014-05-23 | 2020-01-14 | Centrillion Technology Holdings Corporation | Oligonucleotide probe inversion process for in situ synthesized probe arrays |
GB201418718D0 (en) * | 2014-10-21 | 2014-12-03 | Cambridge Epigenetix Ltd | Improved nucleic acid re-sequencing using a reduced number of identified bases |
CN106434873B (zh) * | 2015-08-13 | 2021-08-27 | 生捷科技控股公司 | 使核酸分子同步化的方法 |
US10695735B2 (en) | 2015-08-18 | 2020-06-30 | Centrillion Technology Holdings Corporation | Probe inversion process for in situ synthesized probe arrays |
US20200362397A1 (en) * | 2017-05-31 | 2020-11-19 | Centrillion Technology Holdings Corporation | Oligonucleotide probe array with electronic detection system |
US11667954B2 (en) | 2019-07-01 | 2023-06-06 | Mission Bio, Inc. | Method and apparatus to normalize quantitative readouts in single-cell experiments |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992010587A1 (en) * | 1990-12-06 | 1992-06-25 | Affymax Technologies N.V. | Sequencing of surface immobilized polymers utilizing microfluorescence detection |
WO2001032930A1 (en) * | 1999-11-04 | 2001-05-10 | California Institute Of Technology | Methods and apparatuses for analyzing polynucleotide sequences |
WO2002029003A2 (en) * | 2000-10-06 | 2002-04-11 | The Trustees Of Columbia University In The City Of New York | Massive parallel method for decoding dna and rna |
CN1771336A (zh) * | 2003-02-12 | 2006-05-10 | 金尼松斯文斯卡股份公司 | 用于核酸测序的方法和工具 |
US20060275782A1 (en) * | 1999-04-20 | 2006-12-07 | Illumina, Inc. | Detection of nucleic acid reactions on bead arrays |
US20100029498A1 (en) * | 2008-02-04 | 2010-02-04 | Andreas Gnirke | Selection of nucleic acids by solution hybridization to oligonucleotide baits |
US20100143900A1 (en) * | 2008-12-04 | 2010-06-10 | Peluso Paul S | Asynchronous sequencing of biological polymers |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6777187B2 (en) * | 2001-05-02 | 2004-08-17 | Rubicon Genomics, Inc. | Genome walking by selective amplification of nick-translate DNA library and amplification from complex mixtures of templates |
US20050186576A1 (en) * | 2004-02-19 | 2005-08-25 | Intel Corporation | Polymer sequencing using selectively labeled monomers and data integration |
US7754429B2 (en) * | 2006-10-06 | 2010-07-13 | Illumina Cambridge Limited | Method for pair-wise sequencing a plurity of target polynucleotides |
-
2011
- 2011-09-23 EP EP11827648.4A patent/EP2619333B1/en active Active
- 2011-09-23 CN CN201180056235.7A patent/CN103429754B/zh active Active
- 2011-09-23 WO PCT/US2011/053079 patent/WO2012040624A1/en active Application Filing
- 2011-09-23 US US13/243,833 patent/US20120083417A1/en not_active Abandoned
-
2015
- 2015-12-15 US US14/970,435 patent/US20160237486A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992010587A1 (en) * | 1990-12-06 | 1992-06-25 | Affymax Technologies N.V. | Sequencing of surface immobilized polymers utilizing microfluorescence detection |
US20060275782A1 (en) * | 1999-04-20 | 2006-12-07 | Illumina, Inc. | Detection of nucleic acid reactions on bead arrays |
WO2001032930A1 (en) * | 1999-11-04 | 2001-05-10 | California Institute Of Technology | Methods and apparatuses for analyzing polynucleotide sequences |
WO2002029003A2 (en) * | 2000-10-06 | 2002-04-11 | The Trustees Of Columbia University In The City Of New York | Massive parallel method for decoding dna and rna |
CN1771336A (zh) * | 2003-02-12 | 2006-05-10 | 金尼松斯文斯卡股份公司 | 用于核酸测序的方法和工具 |
US20100029498A1 (en) * | 2008-02-04 | 2010-02-04 | Andreas Gnirke | Selection of nucleic acids by solution hybridization to oligonucleotide baits |
US20100143900A1 (en) * | 2008-12-04 | 2010-06-10 | Peluso Paul S | Asynchronous sequencing of biological polymers |
Non-Patent Citations (1)
Title |
---|
SEO TS ET AL.: "Four-color DNA sequencing by synghesis on a chip using photocleavable fluorescent nucleotides", 《PNAS》, vol. 102, no. 17, 26 April 2005 (2005-04-26), XP002353000, DOI: 10.1073/pnas.0501965102 * |
Also Published As
Publication number | Publication date |
---|---|
WO2012040624A1 (en) | 2012-03-29 |
CN103429754B (zh) | 2016-08-10 |
EP2619333A4 (en) | 2014-06-18 |
US20120083417A1 (en) | 2012-04-05 |
US20160237486A1 (en) | 2016-08-18 |
EP2619333A1 (en) | 2013-07-31 |
EP2619333B1 (en) | 2017-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103429754A (zh) | 天然延伸平行测序 | |
US9689032B2 (en) | Methods and systems for sequencing long nucleic acids | |
US10072287B2 (en) | Methods of targeted sequencing | |
US6958217B2 (en) | Single-stranded polynucleotide tags | |
US20190360034A1 (en) | Methods and systems for sequencing nucleic acids | |
CN108138225A (zh) | 核酸序列信息的空间定位 | |
CN109477095A (zh) | 用于单分子检测的阵列及其应用 | |
US20110008775A1 (en) | Sequencing of nucleic acids | |
US20060035240A1 (en) | Optimization of gene expression analysis using immobilized capture probes | |
CN110520541B (zh) | 高通量单细胞多组学 | |
CN100588953C (zh) | 生物芯片检测单核苷酸多态性的方法 | |
US10174368B2 (en) | Methods and systems for sequencing long nucleic acids | |
WO2009065355A1 (fr) | Procédé et système de séquençage de l'adn | |
RU2609630C2 (ru) | Геномный отбор и секвенирование с помощью кодированных микроносителей | |
US20130344540A1 (en) | Methods for minimizing sequence specific bias | |
EP1975254A1 (en) | Method of detecting nucleotide sequence with an intramolecular probe | |
KR20180014054A (ko) | 뉴클레오타이드의 직교 비블록화 | |
US20110092380A1 (en) | Improved molecular-biological processing equipment | |
CN113026111A (zh) | 用于构建人单细胞tcr测序文库的试剂盒及其应用 | |
US20120141986A1 (en) | Multivalent substrate elements for detection of nucleic acid sequences | |
EP1423529B1 (en) | Assay for analyzing gene expression | |
US7914983B2 (en) | Detection method for gene expression | |
DE102006062089A1 (de) | Verbesserte molekularbiologische Prozessanlage | |
EP1571210A1 (en) | Method for analyzing variation of nucleic acid mutation and method for analyzing gene expression | |
US20130017974A1 (en) | Methods and compositions relating to multiplex genomic gain and loss assays |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Cayman Islands Grand Cayman Patentee after: Sheng Jie Technology Holdings Ltd. Address before: Cayman Islands Grand Cayman Patentee before: Centrillion Technology Holding Corp. |