CN102766689B - 一种增加测序读长的测序方法 - Google Patents

一种增加测序读长的测序方法 Download PDF

Info

Publication number
CN102766689B
CN102766689B CN201210232676.4A CN201210232676A CN102766689B CN 102766689 B CN102766689 B CN 102766689B CN 201210232676 A CN201210232676 A CN 201210232676A CN 102766689 B CN102766689 B CN 102766689B
Authority
CN
China
Prior art keywords
nucleic acid
anchor
primer
dna
seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210232676.4A
Other languages
English (en)
Other versions
CN102766689A (zh
Inventor
盛司潼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210232676.4A priority Critical patent/CN102766689B/zh
Publication of CN102766689A publication Critical patent/CN102766689A/zh
Application granted granted Critical
Publication of CN102766689B publication Critical patent/CN102766689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物基因工程领域,提供了一种增加测序读长的测序方法。本发明所述增加测序读长的测序方法,首先将第一锚定引物结合于待测核酸片段的第一接头上,使用连接测序法读取第一锚定引物延伸末端后的M个核苷酸的序列信息;利用内切酶识别相应的酶切识别位点将已读取序列信息的核苷酸部分或完全切除,在酶切回收的待测序片段上连接新的第二接头,然后在第二接头上锚定结合第二锚定引物,并在第二锚定引物延伸末端连接新的荧光探针,向前延伸读取核苷酸序列信息;通过循环上述操作,得到待测核酸片段所需的核苷酸序列信息,从而利用酶切延伸测序的方法增加了测序读长。

Description

一种增加测序读长的测序方法
技术领域
本发明涉及生物基因工程领域,更具体地说,涉及一种增加测序读长的测序方法。
背景技术
目前,检测基因序列突变的金标准是测序方法,常见的是sanger测序法和焦磷酸测序法(Pyrosequencing),其中Pyrosequencing适用于高通量分析。Pyrosequencing在测序时,连接有测序片段的磁珠固定于蚀刻光纤玻片(PTP板)的小孔中。由于小孔较大(55μm×44μm)因此为使测序时磁珠位置固定不变,需要向小孔中填充含有多种蛋白的复合物以保证测序及采图的顺利进行,再加上荧光素酶的使用,这些因素导致Pyrosequencing的成本高。
为使测序成本降低,现有技术采用连接测序法代替Pyrosequencing进行测序。现有的一种连接测序法是利用内切酶酶切延伸进行测序的,如图1所示,该方法的步骤包括:(1)、利用含有酶切识别位点的双链寡核苷酸第一接头与核酸片段连接,得到待测核酸片段;(2)、以识别酶切识别位点的限制性内切酶对待测核酸片段进行酶切,得到其中一条链含有突出末端的双链产物;(3)、在双链产物上连接一组对应特定位置含有荧光标记的双链第二接头,得到连接产物;通过检测连接产物的荧光信号获取该特定位置对应的核苷酸序列信息;其中,双链第二接头含有突出末端;双链第二接头含有酶切识别位点;根据酶切识别位点与酶切位点之间的核苷酸个数,所述突出末端预先计算好一个或数个核苷酸;(4)、分离步骤(3)中的连接产物,得到分离产物;(5)、利用能识别步骤(3)中所带酶切识别位点的酶对分离产物进行酶切,得到含有酶切识别位点的一组片段;(6)、重复步骤(3)至(5)的操作,直至测得待测核酸片段上能测的所有核苷酸序列;其中最后一次重复操作时,可以忽略步骤(5)。
在上述连接测序法中,利用含有荧光标记的双链寡核苷酸接头作为检测探针,以接头上所带酶切识别位点位置的变更来实现和控制测序位置的延伸推进。若使用该方法检测核酸序列,会因为双链寡核苷酸接头核苷酸个数以及所使用的限制性内切酶识别位点与酶切位点之间的核苷酸个数限制,使得所能检测得到的核苷酸序列最多只能等于酶切识别位点与酶切位点之间的核苷酸个数,其读长严重受限制,不利于核酸序列信息的检测与分析。
因此需要一种新的增加测序读长的测序方法,能够使得检测核酸序列时的读长增加,便于核酸序列信息的检测与分析。
发明内容
本发明的目的在于提供一种新的增加测序读长的测序方法,旨在解决现有技术中利用连接测序法检测时读长过短而不利于核酸序列信息的检测与分析的问题。
为了实现发明目的,一种增加测序读长的测序方法包括以下步骤:
A.将第一锚定引物结合于待测核酸片段上的第一接头上;
B.在第一锚定引物延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第一锚定引物延伸末端后M个核苷酸的序列信息;
C.利用内切酶将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物;
D.酶切产物连接第二接头得到新待测核酸片段,将第二锚定引物结合于新待测核酸片段的第二接头上;
E.在第二锚定引物延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第二锚定引物延伸末端后N个核苷酸的序列信息;
F.更换内切酶、接头、锚定引物和荧光探针,对前一步骤的产物进行酶切、接头连接、锚定引物结合、荧光探针连接和荧光信号检测;
G.重复步骤F,直至得到待测核酸片段中所需的核苷酸序列信息;
其中,M、N均为正整数;所述待测核酸片段含有营养指导基因序列、常规药物相关基因序列或易感基因序列。
其中,步骤A中所述待测核酸片段固定于固相载体表面。
其中,在步骤A之前还可以包括步骤:
A0.利用固相载体对源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
进一步的,所述步骤A0包括以下步骤:
A01.将用于扩增的源核酸固定于固相载体表面,得到表面含有至少一个核酸片段的固相载体;
A02.将引物结合于固相载体表面上的引物结合位点,得到固定有引物的扩增载体;
A03.对扩增载体上的源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
其中,步骤A02中所述引物包括用于对所述源核酸进行扩增的上游引物和/或下游引物,所述上游引物是与源核酸5’端互补结合的核酸序列,所述下游引物是与源核酸3’端序列相同的核酸序列。
其中,步骤A03中所述的扩增是单分子扩增。
其中,所述步骤A02中引物结合于固相载体表面的方式为:引物与固相载体表面携带的基团进行配对连接,实现直接结合;或通过连接子携带的基团分别与引物和固相载体表面携带的基团进行配对连接,实现间接结合。
进一步的,所述配对连接的方式采用生物素-亲和素/链霉亲和素、纳米金/碘乙酰-巯基、氨基-醛基/羧基/异硫氰基、丙烯酰胺-硅烷基/聚丙烯酰胺中的至少一种。
其中,步骤A中所述第一锚定引物含有至少一个酶切识别位点。
其中,所述步骤C可以包括以下步骤:
C1.将步骤B中连接的荧光探针与第一锚定引物洗脱,重置第一锚定引物并进行链延伸,与待测核酸片段形成双链核酸分子;
C2.内切酶通过识别第一锚定引物上所带的酶切识别位点并进行酶切,将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
其中,步骤C可以包括以下步骤:
C1’.在第一锚定引物的另一端连接双链的接头三,该接头三含有至少一个酶切识别位点;
C2’.利用内切酶识别接头三所带的酶切识别位点,将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
上述任一方案中,所述第一锚定引物含有至少一个特异性残基和/或一端是封闭的。
其中,所述步骤B包括以下步骤:
B1.在含有特异性残基的第一锚定引物延伸末端连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到对应位置的核苷酸序列信息;
B2.以特异性切割剂切割特异性残基,将前一步骤中连接的荧光探针及第一锚定引物洗脱,重置第一锚定引物;
B3.在第一锚定引物延伸末端重复带特定位置标记的荧光探针的连接和相应荧光信号检测的操作,得到第一锚定引物延伸末端后M个核苷酸的序列信息。
其中,所述营养指导基因包括抗自由基清除基因、嗜酒基因、抗吸烟损伤基因、解毒能力基因、DNA修复基因、叶酸及维生素B吸收能力基因、维生素D吸收能力基因、胆固醇代谢能力基因、低密度脂蛋白代谢能力基因、钙及磷吸收能力基因、黑色素沉积与代谢基因和牛奶消化与吸收基因中的至少一个。
其中,所述常规药物相关基因包括CYP1A2、CYP3A4、CYP3A5、CYP2C9、CYP2C19、CYP2D6、ABCB1、ADRB1、ADRB2、CACNA1C、NPPA、OPRM1和VKORC1的至少一个。
其中,所述易感基因包括肿瘤易感基因、心血管易感基因、代谢***易感基因和免疫***易感基因中的至少一个。
进一步的,所述肿瘤易感基因包括乳腺癌易感基因、肺癌易感基因、结直肠癌易感基因、鼻咽癌易感基因、胃癌易感基因、肝癌易感基因、胰腺癌易感基因、皮肤癌易感基因、卵巢癌易感基因、***癌易感基因和白血病易感基因中的至少一种;所述心血管易感基因包括动脉粥样硬化易感基因、冠状动脉性心脏病易感基因、原发性高血压易感基因、帕金森综合症易感基因和老年性痴呆症易感基因中的至少一种;所述代谢***易感基因包括Ⅰ型糖尿病易感基因、Ⅱ型糖尿病易感基因、脂肪肝易感基因和低血糖症易感基因中的至少一种;免疫***易感基因包括骨质疏松症易感基因、贫血易感基因、全身炎症反应综合症易感基因和银屑病易感基因中的至少一种。
由上可知,本发明的增加测序读长的测序方法,利用内切酶将待测核酸片段上已经得到序列信息的核苷酸部分或完全切除,然后再连接新的接头,锚定新的锚定引物并进行荧光探针的连接和荧光信号的检测,向前延伸读取核苷酸序列,从而增加了测序读长。
附图说明
图1是现有技术中一种利用内切酶酶切延伸测序的连接测序法示意图。
图2是本发明一个实施例中增加测序读长的测序方法流程图。
图3是本发明一个实施例中利用固相载体扩增得到待测核酸片段的方法流程图。
图4是本发明一个实施例中所用第一anchor的结构示意图。
图5是本发明一个实施例中利用图4所示的第一anchor得到其延伸末端后M个核苷酸的序列信息的方法流程图。
图6是本发明一个具体实施方式中第一anchor的结构示意图。
图7是本发明一个具体实施方式中利用图6所示的第一anchor得到其延伸末端后M个核苷酸的序列信息的方法流程图。
图8是本发明另一个具体实施方式中第一anchor的结构示意图。
图9是本发明一个具体实施方式中利用图8所示的第一anchor得到其延伸末端后M位核苷酸序列信息的方法流程图。
图10是本发明一个实施例中得到含有待测序片段的酶切产物的方法流程图。
图11是本发明另一个实施例中得到含有待测序片段的酶切产物的方法流程图。
图12是本发明一个实施例中得到第二anchor延伸末端后N个核苷酸的序列信息的方法流程图。
图13是本发明另一个实施例中得到第二anchor延伸末端后N个核苷酸的序列信息的方法示意图。
图14是本发明一个实施例中利用酶切延伸测序增加测序读长的测序方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明提供了一种增加测序读长的测序方法,包括以下步骤:首先利用第一锚定引物(第一anchor)与待测核酸片段上的第一接头锚定结合,利用不同位置标记的荧光探针与第一anchor的延伸末端相连接,并检测相应连接产物的荧光信号,根据荧光信号读取常规药物相关基因待测核酸片段中第一anchor延伸末端后M个核苷酸的序列信息;利用内切酶进行酶切,将之前已经读取过的核苷酸序列部分或完全切除,保留含有待测序核苷酸序列的待测序核酸片段,并使其与新的接头连接,进而锚定新的锚定引物(anchor),然后通过新的anchor的延伸末端连接带不同位置标记的荧光探针,读取新的anchor的延伸末端后N个核苷酸的序列信息;通过上述步骤完成一个检测循环,然后重复之前所述的内切酶酶切切除、接头更换连接、新的anchor锚定、新荧光探针的连接和荧光信号检测的步骤,循环读取,从而获得待测核酸片段上的核苷酸序列信息。利用本发明所记载的增加测序读长的测序方法,可以增加测序的读长。
需要说明的是,本发明的增加测序读长的测序方法可用于检测营养指导基因序列、常规药物相关基因型序列和易感基因序列。
所述营养指导基因是指在复制、转录、翻译表达过程中发生突变后对营养物质的代谢产生影响的基因,其中营养物质的代谢过程包括消化、转运、吸收和***。营养指导基因能够用以指导建立个性化营养食谱,调节营养吸收。对营养指导基因进行检测,可以了解个体的遗传独特性,并通过调整饮食结构,制定个性化的营养食谱,有利于个体化的营养补充和均衡,实现个体化营养的合理吸收。
药物反应的个体差异是临床上极其普遍的现象,产生这种差异的原因有许多,主要分为非遗传性因素和遗传性因素,两者结合可以导致不同病人对同一种药物的反应出现量与质的差别。非遗传性因素包括性别、年龄、体重、疾病状况在内的多种因素;遗传因素,也即常规药物的代谢、释放、信号传导和受体的基因多态性导致其编码蛋白的功能改变。
所述常规药物相关基因是指与常规药物在生物体内代谢、释放、信号传导和受体蛋白编码相关的基因或等位基因。对常规药物相关基因进行检测,可以得到具体的常规药物相关基因的核酸序列信息。所得核酸序列信息,即遗传性因素,与非遗传性因素相结合,可以得出药物在不同个体之间药效的差异,实现个性化用药。非遗传因素的确定方法包括但不限于进一步的分子生物学试验、临床试验、临床观察及综合分析等。所以利用本发明的方法对常规药物相关基因进行检测,得到的仅是常规药物相关基因的核酸序列信息,而并不能用以判断药物的疗效。
所述易感基因是指和人体特定表征具有一定关联,能揭示人体遗传体质对健康利弊以及疾病易感性状况的基因或等位基因。对复杂疾病的易感基因进行检测,可得到具体的核酸序列信息。在此基础上,可以结合后续进一步的分子生物学试验、临床试验、临床观察及综合数据的统计分析,建立疾病模型,从而实现早期评估疾病的易感性并采取相应预防措施降低疾病的发生几率。利用本发明的方法对易感基因进行检测得到的检测结果只是易感基因的核酸序列信息,并不用以直接判断患病与否。
本发明在对营养指导基因、常规药物相关基因或易感基因进行检测时,其初始样本是针对已经脱离人体或动物体的组织、体液或***物的样品进行处理或检测。这些样品包括但不限于血液、口腔上皮刮取样、唾液、尿液、石蜡包埋组织和穿刺组织。
其中,本发明所述锚定引物即为anchor,是指与待测核酸片段上的接头进行锚定结合的单链寡核苷酸;所述anchor的延伸末端,是指能够用于继续连接并进行核苷酸链延伸的anchor末端,可以是anchor的5’端,也可以是anchor的3’端。
本发明中所述荧光探针分为不同组别类型,同组类型中不同荧光标记对应同一特定位置的不同核苷酸序列,而不同组类型的荧光探针荧光标记对应的特定位置不同。每次连接反应中,加入同一组类型的荧光探针,根据所采集的荧光信号,可以读取该组荧光探针标记特定位置对应的核苷酸序列信息。
本发明中所述荧光探针的荧光标记种类不限,包括但不限于一种、两种、四种,或更多。
当荧光标记只有一种时,为了区分同一位置上的不同碱基,对同一位置上的碱基,需在锚定引物的延伸末端重复进行4次连接反应和荧光信号检测,每次连接反应中,荧光探针是对应某一特定位置上的某一种碱基(A、G、C或T)而含有荧光标记的探针。为了实现对x个位置的碱基的检测,则需要重复进行4×x次连接反应和荧光探针的检测。
当荧光标记有两种时,为了区分同一位置上的不同碱基,对同一位置上的碱基,需在锚定引物的延伸末端重复进行2次连接反应和荧光信号检测,每次连接反应中,荧光探针是对应某一特定位置上的某两种碱基(A、G、C或T)而含有荧光标记的探针。为了实现对x个位置的碱基的检测,则需要重复进行2×x次连接反应和荧光探针的检测。
当荧光标记有四种时,为了区分同一位置上的不同碱基,对同一位置上的碱基,需在锚定引物的延伸末端进行1次连接反应和荧光信号检测,每次连接反应中,荧光探针是对应某一特定位置上的某四种碱基(A、G、C或T)而含有荧光标记的探针。为了实现对x个位置的碱基的检测,则需要重复进行x次连接反应和荧光探针的检测。
当荧光标记的种类更多时,可参考上述方案进行序列检测。优选的,荧光标记的种类可被4整除或能把4整除,以简化荧光探针的设计及后续的检测实验。
此外,本发明中,在anchor的延伸末端连接荧光探针时,主要有两种实现形式,它们之间的区别主要在于每次连接荧光探针之前,是否重新锚定anchor:若不重新锚定anchor,则在完成每次荧光探针的连接和相应的荧光信号检测之后,将连接产物上的荧光探针切除,保留anchor,然后连接新的荧光探针,再进行荧光信号检测;若重新锚定anchor,则在完成每次荧光探针的连接和相应的荧光信号检测之后,将整个连接产物(荧光探针和anchor的连接物)去除,然后重新锚定anchor,连接新的荧光探针,并进一步采集连接产物的荧光信号。
图2示出了本发明一个实施例中增加测序读长的测序方法流程,该方法包括以下步骤:
S1.将第一anchor结合于待测核酸片段上的第一接头上;
S2.在第一anchor延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第一anchor延伸末端后M个核苷酸的序列信息;
S3.利用内切酶将步骤S2中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物;
S4.酶切产物连接第二接头得到新待测核酸片段,将第二anchor结合于新待测核酸片段的第二接头上;
S5.在第二anchor延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第二anchor延伸末端后N个核苷酸的序列信息;
S6.更换内切酶、接头、anchor和荧光探针,对前一步骤的产物进行酶切、接头连接、anchor结合、荧光探针连接和荧光信号检测;
S7.重复步骤S6,直至得到待测核酸片段中所需的核苷酸序列信息;
其中,M、N均为正整数;所述待测核酸片段含有营养指导基因序列、常规药物相关基因序列或易感基因序列。
本发明所记载的增加测序读长的测序方法,其优势在于,在进行测序反应检测核酸序列时,利用内切酶将待测核酸片段上已经读取过序列信息的核苷酸部分或完全切除,然后再在含有待测序核酸序列的核酸片段上连接新的接头,锚定新的anchor并进行新荧光探针的连接和相应荧光信号的检测,实现向前延伸读取更多的核苷酸序列,从而增加了运用连接测序法检测核酸序列的测序读长。
针对本发明所记载的技术方案,需要说明的是,步骤S1中所述第一anchor是根据碱基互补配对原则,与待测核酸片段上的第一接头进行锚定结合的锚定引物,是单链寡核苷酸,用于在步骤S2中连接荧光探针。除此之外,第一anchor还可以根据具体需要,进行不同的设计。
在本发明的一个实施方案中,第一anchor与待测核酸片段一端的第一接头通过碱基互补配对进行锚定结合。该方案中,第一anchor可以不进行封闭处理,以降低第一anchor的合成成本;也可以在第一anchor的一端进行封闭处理,避免第一anchor相互之间发生自连,保证第一anchor与荧光探针的定向连接。
将第一anchor的一端进行封闭,可以是第一anchor的3’端,也可以是5’端,经过封闭处理既可以控制连接的方向,又可以避免第一anchor之间相互连接。在本步骤的一个具体实施方式中,将第一anchor的3’端进行封闭,封闭的方法包括但不限于双脱氧、氨基化反应、酰胺化,第一anchor被封闭的3’端无法继续连接,即第一anchor的连接只能发生在5’端;而在本步骤的另一个具体实施方式中,将第一anchor的5’端进行封闭,封闭的方法包括但不限于去磷酸化或酰胺化,即第一anchor的连接只能发生在3’端。
在本发明的另一个实施方案中,第一anchor含有至少一个特异性残基,所述特异性残基是指其本身或其所带的化学键能被特异性切割的残基,它能使其所在的核苷酸片段由于被切割而更易于洗脱。用于切割特异性残基的物质称为特异性切割剂。所述特异性残基包括但不限于脱氧尿嘧啶核苷酸(deoxy-Uracil,dU)、脱氧肌苷(deoxy Inosine,dI)、含有硫代磷酸酯键的核苷酸和切口酶的酶切识别位点。其相应的特异性切割剂包括但不限于尿嘧啶-DNA糖基化酶(Uracil-DNA Glycocasylase,UDG酶)、大肠杆菌核酸内切酶Ⅴ、含有Ag、Hg、Cu、Mn、Zn或Cd离子的化合物和切口酶。所述切口酶,是指能识别双链核酸分子中一条核苷酸链所携带的酶切识别位点,而在含有该酶切识别位点的核苷酸链上进行酶切形成切口的Ⅱ型限制酶;本发明所述切口酶,包括但不限于:Nt.AlwⅠ内切酶、Nt.BsmAⅠ内切酶、Nt.BspQⅠ内切酶、Nt.BstNBⅠ内切酶。本实施方案的第一anchor设计方式可以使得在后续的洗脱更换过程中更加便利。
在本发明的另一个实施方案中,第一anchor含有至少一个酶切识别位点,该酶切识别位点可被直接利用于部分或完全切除步骤S2中所读取过的核苷酸序列,使得整个发明技术方案步骤简化,操作简便。
步骤S1中述第一接头为待测核酸片段一端上的一段已知序列,位于待测核酸片段的3’端或5’端,用于使第一anchor锚定结合到待测核酸片段上。该第一接头可以是得到待测序的样品之后进行测序文库构建过程中自行设计合成连接上去的,也可以是得到的待测序样品本身已经含有的。
所述营养指导基因,是指在复制、转录、翻译表达过程中发生突变后对营养物质的代谢产生影响的基因,营养指导基因能够用以指导建立个性化营养食谱,调节营养吸收。所述营养指导基因包括但不限于抗自由基清除基因、嗜酒基因、抗吸烟损伤基因、解毒能力基因、DNA修复基因、叶酸及维生素B吸收能力基因、维生素D吸收能力基因、胆固醇代谢能力基因、低密度脂蛋白代谢能力基因、钙及磷吸收能力基因、黑色素沉积与代谢基因和牛奶消化与吸收基因。
其中,所述抗自由基清除基因包括但不限于CAT、CYBA、NOS3、SOD3和PON1;所述嗜酒基因包括但不限于ADH2、ADH3、ALDH2和CYP2E1;所述抗吸烟损伤基因及解毒能力基因包括但不限于CYP1A1;所述DNA修复基因包括但不限于PARP1、XRCC1和ERCC2;所述叶酸及维生素B吸收能力基因包括但不限于MTHFR、MTR和MTRR;所述维生素D吸收能力基因包括但不限于VDR;所述胆固醇代谢能力基因及低密度脂蛋白代谢能力基因包括但不限于ABCB1、LPL、APOE和APOB;所述钙及磷吸收能力基因包括但不限于VDR;所述黑色素沉积与代谢基因包括但不限于MC1R、OCA2和TYRP1;所述牛奶消化与吸收基因包括但不限于LCT和MCM6。
其中,所述营养指导基因包括但不限于ABCB1、ADH2、ADH3、ALDH2、APOB、APOE、CAT、CYBA、CYP1A1、CYP2E1、ERCC2、LCT、LPL、MC1R、MCM6、MTHFR、MTR、MTRR、NOS3、OCA2、PARP1、PON1、SOD3、TYRP1、VDR和XRCC1。
其中,所述易感基因包括但不限于肿瘤易感基因、心血管易感基因、代谢***易感基因和免疫***易感基因。
所述肿瘤易感基因包括但不限于乳腺癌易感基因、肺癌易感基因、结直肠癌易感基因、鼻咽癌易感基因、胃癌易感基因、肝癌易感基因、胰腺癌易感基因、皮肤癌易感基因、卵巢癌易感基因、***癌易感基因和白血病易感基因。
所述乳腺癌易感基因包括但不限于FGFR2、GSTP1、IL-1β、MTHFR和GSTM1;所述肺癌易感基因包括但不限于APE1、CASP7、CASP8、CASP9、CHEK2、COX-2、CYP1A1、CYP2E1、ERCC1、ERCC2、ERCC6、Exo1、GSTP1、Hmlh1、IL-1β、MDM2、MTHFR、OGG1、P73、TERT、TGFB1、TP53、TP63和XRCC1。
所述结直肠癌易感基因包括但不限于MMP2、SMAD7、ADH2、ALDH2、CYP1A2、MMP-1、MTHFR、TP53、VEGF、COX-2、DNMT3B、hMLH1、LOC727677、MMP9、MTRR和TGF-β1。
所述鼻咽癌易感基因包括但不限于IL-2、MDM2、HLA-A、HLA-B/C、HLA-F、MDS1-EVI1、CDNK2A/2B、TNFRSF19、HCG9、GABBR1和ITGA9。
所述胃癌易感基因包括但不限于EGF、ALDH2、MTHFR、p53、IL-8、IL-10、PSCA、TNFA、PLCE1、CYP1A1、XRCC1、CYP2E1、TGFB1、CDH1、MDM2和VEGF。
所述肝癌易感基因包括但不限于IL1-B、TNF-α、EGF、TGF-β1、DEPDC5、MICA和KIF1B。
所述胰腺癌易感基因包括但不限于MTHFR、COX-2、FasL、CASP8、THSD7B、ARL4C、LTF、FOXQ1、PARK2、FAM91A1、RNF5P1、RNF43、BICD1、NDFIP2、PRPSAP2、MYO1D和LOC。
所述心血管易感基因包括但不限于动脉粥样硬化易感基因、冠状动脉性心脏病易感基因、原发性高血压易感基因、帕金森综合症易感基因和老年性痴呆症易感基因。
所述动脉粥样硬化易感基因包括但不限于ALOX5AP、ApoE、LDLR、HUMARA、DCC和Rb。
所述冠状动脉性心脏病易感基因包括但不限于MEF2A、PDGF、FGF、EGF、VEGF、COX-1和T-PA。
所述原发性高血压易感基因包括但不限于AGT、ACE、AT1R、CYP11B2、G-β3、eNOS、RnBO、LDLR和LL。
所述帕金森综合症易感基因包括但不限于SNCA、LRRK2、PINK1、UCH-L1和Parkin。
所述老年性痴呆症易感基因包括但不限于APP、PS-1、PS-2、ApoE、ACE、CH25H、CST3、CHRNB2和SORL1。
所述代谢***易感基因包括但不限于Ⅰ型糖尿病易感基因、Ⅱ型糖尿病易感基因、脂肪肝易感基因和低血糖症易感基因。
所述免疫***易感基因包括但不限于骨质疏松症易感基因、贫血易感基因、全身炎症反应综合症易感基因和银屑病易感基因。
所述常规药物相关基因,是指与常规药物在生物体内代谢、释放、信号传导和受体蛋白编码相关的基因或等位基因。
其中,所述常规药物包括但不限于:呼吸***相关病变药物中的镇咳药可待因和右美沙芬,平喘药茶碱;抗病原微生物药物中的抗感染药伏立康唑、伊曲康唑、氨苯砜、甲硝唑、新诺明和利福平,抗HIV病毒药奈非那韦,抗疟疾药硫酸奎宁和氯胍;内分泌***相关病变药物中的治疗糖尿病药格列本脲、格列吡嗪、格列美脲和那格列奈,激素类药物***和***,抗雄性激素药氟他胺;神经***疾病药物中的镇痛药***、芬太尼、***和***马多,中枢骨骼肌松弛药替扎尼定,解热镇痛抗炎药双氯芬酸、替诺西康、布洛芬(依布洛芬)、萘普生、吡罗昔康(吡氧噻嗪)、氟比洛芬、吲哚美辛、氯诺昔康、赛来昔布、阿司匹林和对乙酰氨基酚,抗抑郁药去甲替林、丙咪嗪(依米帕明)、氯丙咪嗪、盐酸氟西汀、舍曲林、帕罗西汀、文法拉辛、托莫西汀、西酞普兰、吗氯贝胺、氯巴占、曲米帕明、依替***、曲唑酮、氟伏沙明和度洛西汀,抗神经病药奋乃静、氟哌啶醇、利培酮、阿立哌唑、氯丙嗪和氯氮平,抗癫痫药苯妥英、安定(***)、***、丙戊酸钠和卡马西平,治偏头痛药佐米曲普坦,抗痛风药秋水仙碱;消化***相关病变药物中的胃肠不适药,止吐药屈***酚、西沙必利和昂丹司琼,抗消化性溃疡药奥美拉唑、兰索拉唑和半托拉唑;循环***相关病变药物中的β受体阻断药丁呋洛尔、美托洛尔和比索洛尔,抗高血压药卡维地洛、异喹胍、氯沙坦、缬沙坦和厄贝沙坦,抗心律失常药奎尼丁、恩卡尼、司巴丁、氟卡尼、普罗帕酮、安博律定、美西律和利多卡因,抗心绞痛药派克昔林(心舒宁),抗凝血药华法林,血脂调节药辛伐他汀、洛伐他汀和氟伐他汀,钙拮抗药非洛地平、硝苯地平、尼群地平、氨氯地平、尼莫地平、维拉帕米和地尔硫卓,抗血小板药氯吡格雷,以及免疫抑制药环孢素。
所述常规药物相关基因包括但不限于CYP1A2、CYP3A4、CYP3A5、CYP2C9、CYP2C19、CYP2D6、ABCB1、ADRB1、ADRB2、CACNA1C、NPPA、OPRM1和VKORC1。
其中,呼吸***相关病变药物相关基因包括但不限于CYP1A2、CYP2D6。抗病原微生物药物相关基因包括但不限于CYP2C19、CYP3A4、CYP2C9和CYP3A5。内分泌***相关病变药物相关基因包括但不限于CYP2C19、CYP2C9、CYP3A4和CYP1A2。神经***疾病药物相关基因包括但不限于CYP2D6、CYP3A4、CYP2C9、CYP1A2、CYP2C19、ABCB1和OPRM1。消化***相关病变药物相关基因包括但不限于CYP2C9、CYP3A4、CYP2D6、CYP1A2和CYP2C19。循环***相关病变药物相关基因包括但不限于CYP2D6、CYP2C9、CYP2C19、CYP1A2、CYP3A4、CYP3A5、ABCB1、VKORC1、CACNA1C、ADRB1、ADRB2和NPPA。
步骤S1中所述的待测核酸片段,可以是DNA、RNA或cDNA中的任一种,且至少其两端含有接头,为使测序时操作便利,优选将其中一端接头与固相载体连接,所述用于连接的固相载体可以是不同材质和不同形状的刚性物质,其材质包括但不限于:玻璃、硅、陶瓷、塑料和金属;其形状包括但不限于:板层形、平板形、圆片形和球形;对于固相载体,本发明优选磁珠以及玻片。
所述含有接头的待测核酸片段,其来源可以是得到的已经连接好接头的待测核酸片段,可直接用于测序;也可以是通过对构建测序文库得到。若通过构建测序文库得到待测核酸片段,则在步骤S1之前需要进行测序文库构建的操作,本发明优选采用以下步骤进行:S0.利用固相载体对源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
所述步骤S0中的操作如图3所示,具体包括以下步骤:
S01.将用于扩增的源核酸固定于固相载体表面,得到表面含有至少一个核酸片段的固相载体;
S02.将引物结合于固相载体表面上的引物结合位点,得到固定有引物的扩增载体;
S03.对扩增载体上的源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
运用本技术方案进行测序文库构建,将用于扩增的源核酸和用于扩增核酸片段的引物同时结合于固相载体表面,能够将扩增产物固定于固相载体表面,提高固相载体在扩增时的利用率,提高固相载体表面的扩增产物结合量;利用该方法扩增得到的扩增产物进行测序,因为固相载体表面的扩增产物结合量的提高,能进一步的增强测序的检测信号,降低对检测仪器的要求。
针对本技术方案,需要说明的是,所述源核酸为单链核酸分子,可以是DNA、RNA或cDNA,可以是直接从生物体、组织或细胞中提取获得的核酸分子,也可以是对直接从生物体、组织或细胞中提取获得的核酸分子进行PCR扩增后的产物。
其中,本技术方案所述固相载体,可以是由不同材质构成的,其材质可以采用玻璃、硅胶、陶瓷、塑料和金属中的任意一种,而固相载体的表面无特殊要求,优选含有平滑表面的固相载体,固相载体的具体类型可以是现有技术中常用的固相载体,包括但不限于塑料珠、玻璃珠、玻片、磁珠和纳米金颗粒。本发明中优选采用磁珠作为固相载体,以使得扩增反应结束后扩增产物的分离纯化更加方便。上述只是本发明对于固相载体的一些具体实施例,并不用以限制本发明的保护范围。
在本发明的一个具体实施方案中,直接在扩增之前对所要扩增的源核酸进行片段化,然后利用接头与片段化得到的核酸片段两端连接,且固相载体表面进行相应的修饰处理,再将接完接头之后的核酸片段固定于固相载体表面。
在本发明的另一个具体实施方案中,用于扩增的源核酸最初位于临床待测血液样品中。首先对固相载体表面进行链霉亲和素修饰,然后连接经过生物素修饰的捕获探针,得到含有捕获探针的固相载体。将含有捕获探针的固相载体直接与临床待测血液样品混合,从中进行源核酸的捕获。捕获结束后,利用离心分离,即可得到表面固定有源核酸的固相载体。
在本发明的另一个具体实施方案中,用于扩增的源核酸位于临床疾病患者的唾液中。为得到用于扩增的源核酸,首先利用相应的引物进行一般的PCR,将从患者的唾液中得到的源核酸进行放大,然后以凝胶电泳进行分离回收,回收产物再与生物素化接头连接,而固相载体采用链霉亲和素修饰的磁珠,两者混合结合,即可得到表面固定有至少一个核酸片段的磁珠。
上述仅是本发明中固相载体表面固定的源核酸来源的一些具体实施例,并不用以限制本发明的保护范围。
步骤S02中所述的引物,是用于对固相载体表面固定的源核酸进行扩增的核酸序列,包括上游引物和下游引物中的至少一种。所述上游引物,是与源核酸的5’端互补结合的核酸序列;所述下游引物,是与源核酸的3’端序列相同的核酸序列。
在本发明的一个具体实施例中,将上游引物或下游引物结合于固相载体表面的引物结合位点,与上游引物和下游引物同时固定于固相载体表面的方案相比,可以在实现发明目的的同时减少试剂的种类;在本发明的另一个具体实施例中,将上游引物、下游引物按照一定的比例同时结合于固相载体表面的引物结合位点,可以在实现发明目的的同时加快扩增的速度。其中上游引物与下游引物的混合比例根据需要可变,优选为1:2至2:1的比例之间,更优选为1:1。上述对于上游引物与下游引物之间的混合比例只是本发明所用的一些具体实施方式,并不用以限制本发明的保护范围。
步骤S02所述引物结合位点,是指固相载体表面用与引物相结合的位点。
步骤S02所述的扩增载体,是指表面固定有至少一个核酸片段,且同时还结合有引物的固相载体,此时核酸片段和引物同时固定于固相载体表面,能够直接应用于扩增。
本发明中所述引物结合于固相载体表面时,不排除引物同时也与核酸片段互补结合,这并不影响本发明的发明目的的实现。
步骤S02中所述引物结合于固相载体表面可以采用多种方式实现。在本发明的一个具体实施方案中,引物通过与固相载体表面携带的基团进行配对连接,实现直接结合,可以简化操作。在本发明的另一个具体实施方案中,引物通过与连接子携带的其中一个基团连接,再通过连接子携带的另一个基团与固相载体表面携带的基团进行配对连接,从而实现引物与固相载体的间接连接;在本实施方案的另一个具体实施例中,连接子是类似于树脂结构的存在,使用该连接子除了可以实现引物与固相载体的间接连接之外,还可以进一步提高固相载体表面结合的引物数量。
其中,所述连接子用于连接引物与固相载体。所述连接子可以采用多种化合物,包括但不限于:烷烃、单链核苷酸分子或包含多聚物部分的化合物。
上述配对连接的方式多种多样,可以采用生物素-亲和素/链霉亲和素、纳米金/碘乙酰-巯基、氨基-醛基/羧基/异硫氰基、丙烯酰胺-硅烷基/聚丙烯酰胺中的任意一种。
在本发明的一个具体实施方案中,引物含有生物素标记,而固相载体本身已经经过链霉亲和素修饰,因此两者直接通过生物素与链霉亲和素之间的配对连接,实现直接连接。
在本发明的另一个具体实施方案中,固相载体表面含有氨基修饰,而引物经过羧基修饰,两者通过氨基-羧基进行配对连接,实现直接连接。
在本发明的另一个具体实施方案中,采用多聚化合物如树脂作为连接子,通过氨基分别与引物所带的羧基及固相载体表面携带的醛基进行配对连接,实现引物与固相载体表面的间接结合。
在本发明的另一个具体实施方案中,以烷烃分子作为连接子,其上含有氨基以及羧基,因此可以与羧基化的引物以及表面氨基化的固相载体进行配对连接,实现引物与固相载体表面的间接结合。
上述仅是本发明中引物结合于固相载体表面的一些具体实施方式,并不用以限制本发明的保护范围。
步骤S02中引物与固相载体表面的结合方式,可以与步骤S01中源核酸与固相载体表面的结合方式一致,也可以采取不一样的结合方式。在本发明的一个实施方案中,引物以及源核酸都采用与固相载体表面直接配对连接的方式。进一步的,在采用相同结合方式时,源核酸与引物还可以采用相同或者是不同的基团配对实现与固相载体的直接或间接配对连接。在本实施方案的一个具体实施例中,固相载体表面含有链霉亲和素修饰,而源核酸和引物都含有生物素修饰,源核酸和引物都通过链霉亲和生物素的作用固定于固相载体表面;在本实施方案的另一个具体实施例中,固相载体表面含有氨基修饰,而源核酸含有羧基修饰,引物含有醛基修饰,源核酸与引物通过不同的基团配对实现与固相载体的直接配对连接;在本实施方案的另一个具体实施例中,固相载体表面含有氨基修饰,而源核酸含有羧基修饰,引物含有异硫氰基修饰,源核酸与引物通过不同的基团配对实现与固相载体的直接配对连接;在本实施方案的另一个具体实施例中,固相载体经过不同的修饰处理后含有氨基以及链霉亲和素,而源核酸含有羧基修饰,引物含有生物素修饰,源核酸与引物通过不同的基团配对实现与固相载体的直接配对连接;在本实施方案的另一个具体实施例中,固相载体表面含有树脂包埋,而源核酸与引物分别于树脂上所携带的相同或不同基团进行配对,从而都采用间接连接的方式实现与固相载体的连接。
在本发明的另一个实施方案中,源核酸与引物采用不同的固定方式与固相载体表面结合。在本实施方案的一个具体实施例中,固相载体表面含有链霉亲和素修饰,源核酸通过捕获探针实现与固相载体的间接配对连接,而引物通过链霉亲和生物素的作用实现与固相载体的直接配对连接,两者通过不同的结合方式与固相载体连接;在本实施方案的另一个具体实施例中,固相载体表面含有氨基修饰,源核酸利用羧基修饰实现与固相载体的直接配对连接,引物通过氨基与连接子上所带的醛基配对连接,然后再通过连接子上的醛基实现与固相载体的间接连接,从而实现源核酸与引物通过不同的结合方式与固相载体连接。
上述实施方案以及具体实施例仅是本发明中源核酸与引物两者与固相载体表面结合的一些具体实施方式,并不用以限制本发明的保护范围。
其中,步骤S02中的引物可以是用于扩增营养指导基因、常规药物相关基因或易感基因的特异性扩增引物。
步骤S03中,利用扩增载体对源核酸进行扩增,是指利用一定的方法(如化学、酶促或其他类型的方法)使得源核酸的拷贝数增加或导致源核酸存在的信号增加。本技术方案利用扩增载体进行扩增时,除加入必须的扩增试剂外,还加入少量游离态的引物用以加速扩增的启动以及扩增的速度。加入的游离态引物量可根据固相载体上固定的引物种类和量的不同而进行相应的调整。
在本发明的一个实施方案中,固相载体表面固定的是上游引物,在一个具体实施例中,加入的游离态引物是下游引物;在另一个具体实施例中,为使扩增速度能够加快,加入大量游离态下游引物的同时,也加入了少量上游引物。
在本发明的另一个实施方案中,固相载体表面固定的是下游引物,在一个具体实施例中,加入的游离态引物是上游引物;在另一个具体实施例中,为使扩增速度能够加快,加入大量游离态上游引物的同时,也加入了少量下游引物。
在本发明的另一个具体实施方案中,上游引物与下游引物同时结合于固相载体表面,在一个具体实施例中,加入的游离态引物是上游引物或者是下游引物中的其中一种;在另一个具体实施例中,扩增时同时加入游离态的上游引物和下游引物,以便加快扩增的速度,且上游引物与下游引物的量以1:1为佳,以其他比例亦可。
本发明可以采用多种扩增方式,包括但不限于常见的聚合酶链反应(PCR)和连接酶链反应(LCR)、链置换扩增(SDA)、转录介导的扩增、基于核酸序列的扩增(NASBA)、Q-Beta复制和滚环扩增(RCA),优选乳液PCR(EPCR)、桥式PCR,其中桥式PCR又可分为水相桥式PCR和乳液桥式PCR两种。
本发明所述单分子扩增,是指对源核酸,以极微量(甚至是单个分子)的形式在空间上隔离(但这些源核酸整体上还是属于同一个反应体系),在各自的空间内实现对源核酸的扩增,得到扩增均一的扩增产物,用以提升扩增后得到的扩增产物的信号。
其中,本发明中所述EPCR是利用乳浊液体系中各液滴形成的独立空间,对扩增载体上的源核酸进行独立扩增反应,用以生成大量均一的扩增产物的单分子扩增技术,其大致操作步骤是:将包含PCR所有反应成分的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。这些小水滴就构成了独立的PCR反应空间。理想状态下,每个小水滴只含一个扩增载体,包含有足够的其它扩增试剂(包括DNA聚合酶、dNTP等)。在EPCR反应后,固相载体表面就固定有拷贝数目巨大的同来源的源核酸扩增产物。EPCR具体步骤可参考文献:BEAMing: single-molecule PCR on microparticles in water-in-oil emulsions, Frank Diehl, Meng Li, Yiping He, nature methods, Vol.3, No.7, July 2006。
本发明中所述的桥式PCR是利用固定于固相载体上的上游引物或下游引物与源核酸形成桥状结构进行扩增,从而得到大量同源、均一扩增产物的单分子扩增技术。所述桥式PCR的基本原理是,桥式PCR的引物被固定在固相载体上,PCR过程中PCR扩增产物会被固定在固相载体上,且PCR扩增产物能够与固相载体上的引物互补配对,成桥状,然后互补配对的引物以与其成桥的扩增产物为模板进行扩增。通过控制初始模板加入的量,桥式PCR反应完成后,扩增产物在固相载体上以一簇簇的形式存在,且每一簇的扩增产物为同来源的DNA模板扩增产物。水相桥式PCR与乳液桥式PCR的主要区别在于,乳液桥式PCR是在乳液体系中隔离的独立空间中进行桥式PCR,同时具有水相桥式PCR与EPCR的特性。关于桥式PCR的具体原理和实施方案可参考以下文献:CN20061009879.X、US6227604和Dual primer emulsion PCR for next generation DNA sequencing, Ming Yan Xu et al Benchmarks Vol.48 No.5,2010。
在本发明的一个实施方案中,利用PCR方法对源核酸进行扩增,此方法操作简单,但缺点在于需要源核酸较多。
在本发明的另一个实施方案中,利用RCA的方法对源核酸进行扩增,此实施方案的优势在于能够形成单分子扩增,扩增结束后可以得到大量均一的扩增产物。
在本发明的一个优选实施方案中,利用EPCR对扩增载体表面固定的源核酸进行扩增,可以实现单分子扩增,以极少量甚至是单个源核酸完成扩增,而且得到大量均一的扩增产物。
在本发明的另一个优选实施方案中,利用桥式PCR对扩增载体表面固定的源核酸进行扩增,同样可以实现单分子扩增,以极少量甚至是单个源核酸完成扩增,得到大量均一的扩增产物。
在本实施方案中的一个具体实施例中,利用水相桥式PCR对固相载体表面固定的源核酸进行扩增;而在本实施方案中的另一个具体实施例中,利用乳液桥式PCR实现对固相载体表面固定的源核酸的扩增。
其中,本发明中所述的扩增产物,指的是经过扩增反应后,表面固定有大量扩增得到的核酸序列的固相载体。
上述优选实施方案中利用EPCR和桥式PCR进行单分子扩增,与只有引物或只有源核酸固定于固相载体的技术相比,可以避免由于缺少其中一种而无法进行扩增,从而可以提高固相载体用于扩增的效率,减少固相载体的使用量,降低成本。
上述仅是本发明中用于扩增固相载体表面固定的源核酸的一些具体实施方式,并不用以限制本发明的保护范围。
步骤S03进行扩增后,得到的扩增产物里包含表面结合有待测核酸片段的固相载体,以及其他未反应完的杂质,因此,进行后续操作前需要进行对扩增产物的纯化回收。纯化回收的目的在于将表面结合有待测核酸片段的固相载体与杂质分离提纯出来,可以使用现有技术中的常用方法,包括但不限于离心分离提纯、柱分离纯化。
步骤S2中,所述第一anchor的延伸末端,是指在第一anchor后能够继续连接并进行核苷酸链延伸的末端。
根据步骤S1中所述第一anchor的不同设计结构,步骤S2可以采用不同的实现方式。
在本发明的一个实施方案中,第一anchor含有特异性残基,在本实施方案中的一个具体实施例中,第一anchor的结构如图4所示,图中所示X为A、G、C或T,Y代表特异性残基,n为正整数。另外,图中Y的个数以及Y在X中的位置可变,当存在多个Y时,Y与Y之间并不一定是以图4中所示的相连的形式存在,可分别散布在第一anchor的不同位置。上述的第一anchor可以使得步骤S2中荧光探针的洗脱以及更换的实现更加简便。
利用该结构的第一anchor实现步骤S2的方法如图5所示,包括以下步骤:
S21.在含有特异性残基的第一anchor延伸末端连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到对应位置的核苷酸序列信息;
S22.以特异性切割剂切割特异性残基,将前一步骤中连接的荧光探针及第一anchor洗脱,重置第一anchor;
S23.在第一anchor延伸末端重复带特定位置标记的荧光探针的连接和相应荧光信号检测的操作,得到第一anchor延伸末端后M个核苷酸的序列信息。
需要说明的是,在该技术方案中,步骤S21中所述第一anchor含有的特异性残基及其相应的特异性切割剂可以包括多种。
在本发明的一个优选实施例中,如图6所示,第一anchor含有的特异性残基为dU碱基,其对应的特异性切割剂为UDG酶。
利用如图6所示结构的第一anchor,步骤S2可以通过图7所示的方法实现,该方法包括以下步骤:
S21’.在含有dU碱基的第一anchor延伸末端连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到对应位置的核苷酸序列信息;
S22’.以UDG酶识别dU碱基并进行酶切,将前一步骤中连接的荧光探针及第一anchor洗脱,重置第一anchor;
S23’.在第一anchor延伸末端重复带特定位置标记的荧光探针的连接和相应荧光信号检测的操作,得到第一anchor延伸末端后M个核苷酸的序列信息。
以该技术方案实现步骤S2,其优势在于,第一anchor含有dU碱基,可以直接利用特异性识别酶切dU碱基的UDG酶对第一anchor进行切割,形成短片段,从而使得步骤S2中荧光探针的洗脱以及更换的实现更加简便。
在本发明的另一个优选实施例中,如图8所示,第一anchor所带的特异性残基为切口酶Nt.AlwⅠ的酶切识别碱基。
利用如图8所示结构的第一anchor,步骤S2可以通过如图9所示的方法实现,该方法包括以下步骤:
S21’’.在含有切口酶酶切识别位点的第一anchor延伸末端连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到对应位置的核苷酸序列信息;
S22’’.以切口酶识别切口酶酶切识别位点并进行酶切,将前一步骤中连接的荧光探针洗脱;
S23’’.在第一anchor延伸末端重复带特定位置标记的荧光探针的连接和相应荧光信号检测的操作,得到第一anchor延伸末端后M个核苷酸的序列信息。
以该技术方案实现步骤S2,其优势在于,在更换带不同位置标记的荧光探针时,可以利用第一anchor上所携带的切口酶酶切识别位点,通过相应的切口酶直接将原来连接的荧光探针与第一anchor之间的连接打断,从而轻松将原来连接的荧光探针洗掉,连接新的荧光探针,避免将第一anchor洗脱之后又重置,简化操作步骤,同时节省试剂的成本。
其中,上述步骤中所述M均为正整数,其数值范围由本发明所使用的连接酶决定,优选为1~9,更优选为1~6。在本发明的一个实施方案中,利用T4连接酶实现本发明所述的酶切延伸测序法,M的数值优选为1~6;在本发明的另一个实施方案中,利用Tth连接酶实现本发明所述的酶切延伸测序法,M的数值范围可优选为1~9。在上述优选范围内,本发明利用酶切延伸增加测序读长的测序方法,不仅能够增加检测时测序的读长,还能进一步提高测序过程中的荧光探针与anchor连接的准确性,进而提高核苷酸序列信息读取的准确性。其中,当利用T4连接酶,将荧光探针连接在anchor的3’端或者5’端时,荧光探针与anchor发生连接的那一端的6个碱基需与相应的待测序片段完全互补配对,才能实现连接;当利用Tth连接酶,将荧光探针连接在anchor的3’端或5’端时,分别要求荧光探针与anchor连接的那一端的8个或9个碱基与相应的待测序片段完全互补配对,才能实现连接。
上述步骤中所使用的带不同位置标记的荧光探针分为不同组别类型,同组类型中不同荧光标记对应同一特定位置的不同核苷酸序列信息,而不同组类型的荧光探针荧光标记对应的特定位置不同。每次连接反应中,加入同一组类型的荧光探针,根据所采集的荧光信号,可以得到该组荧光探针标记特定位置对应的核苷酸序列信息;而通过第一anchor的杂交结合-荧光探针的连接-采集荧光信号-荧光探针的洗脱这些操作的重复,可以准确的得到第一anchor延伸末端后M个核苷酸的序列信息。
步骤S2检测结束后,待测核酸片段上保留有结合的第一anchor和带特定位置标记的荧光探针。为了便于步骤S3中的内切酶进行酶切,可将第一anchor延伸末端重新活化,然后加入四种核苷酸,利用DNA聚合酶,沿着第一anchor延伸末端的方向,将固定于固相载体上的待测核酸片段形成完整的双链核酸分子。
步骤S3中所述内切酶,是指能识别双链核酸分子上所含有的特异性酶切识别碱基序列,然后在距离酶切识别位点一定数量碱基的位置进行双链核酸切割的酶。在本发明中,可以使用酶切之后能得到平末端的内切酶,优选使用酶切之后能得到粘性突出末端的内切酶,其选用原则遵循通过识别酶切识别位点,能将步骤S2中已经获取的核苷酸序列全部或部分切除的内切酶即可。在选用内切酶时,优选最适反应温度在37℃左右的内切酶,最适反应温度过高的内切酶容易导致在酶切过程中双链的变性解离,从而导致后续荧光探针的连接受阻;优选对甲基化不敏感的内切酶,以便能持续的酶切和获取待测核酸片段的核苷酸序列;优选酶切识别位点与酶切位点之间核苷酸个数在4以上的,使得每次酶切之后向前延伸测序的长度更长。
本发明所用的内切酶可以是Ⅱ型内切酶,包括但不限于AcuⅠ、AlwⅠ、BbsⅠ、BbvⅠ、BccⅠ、BceAⅠ、BciVⅠ、BfuAⅠ、BmrⅠ、BpmⅠ、BsaⅠ、BseRⅠ、BsgⅠ、BsmAⅠ、BsmBⅠ、BsmFⅠ、BspMⅠ、BspQⅠ、BtgZⅠ、EarⅠ、EciⅠ、FauⅠ、FokⅠ、HgaⅠ、HphⅠ、HpyAⅤ、MboⅡ、MlyⅠ、MnlⅠ、PleⅠ、SapⅠ、SfaNⅠ、BpuEⅠ、MmeⅠ和NmeAⅢ,其中优选AcuⅠ、BbvⅠ、BceAⅠ、BpmⅠ、BseRⅠ、BspMⅠ、FokⅠ、HgaⅠ、MboⅡ和MnlⅠ;所用的内切酶也可以是Ⅲ型内切酶,包括但不限于Ecop1和Ecop15Ⅰ。
步骤S3中,用于被内切酶进行识别的酶切识别位点,可以通过第一anchor带入,也可以通过其他方法带入。根据酶切识别位点来源的不同,步骤S3也可以通过不同的方法实现。
在本发明中的一个实施方案中,酶切识别位点直接由第一anchor带入,即第一anchor含有至少一个酶切识别位点。
利用第一anchor上所含有的酶切识别位点,可以有多种不同的方式实现步骤S3。在本方案的一个具体实施方式中,步骤S3可以直接利用内切酶识别第一anchor上所带的酶切识别位点,将步骤S2中已经得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
利用该实施方式实现步骤S3的优势在于,在步骤S2得到第一anchor延伸末端后M个核苷酸的序列信息之后,利用第一anchor上所含有的酶切识别位点直接进行酶切,可以简化操作步骤。
在本方案的另一个具体实施方式中,利用第一anchor上所含有的酶切识别位点,步骤S3还可以通过如图10所示的方法实现,该方法包括如下步骤:
S31.将步骤S2中连接的荧光探针与第一anchor洗脱,重置第一anchor并进行链延伸,与待测核酸片段形成双链核酸分子;
S32.内切酶通过识别第一anchor上所带的酶切识别位点,将步骤S2中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
利用该技术方案实现步骤S3的优势在于,首先利用第一anchor的延伸末端进行链延伸,与待测核酸片段延伸形成双链核酸分子,能够保证酶切产物保持双链状态,便于后续接头的连接。
在本实施方案的一个优选实施例中,待测核酸片段通过5’端连接固定于微珠上,而结合于第一接头的第一anchor上含有酶切识别位点序列5’…CTGAAG…3’,步骤S3中利用Ⅱ型内切酶AcuⅠ识别该酶切识别位点并进行酶切,得到待测序片段3’端含有两个突出核苷酸的酶切产物。
在本实施方案的另一个优选实施例中,待测核酸片段通过5’端连接固定于微珠上,而结合于第一接头的第一anchor上含有酶切识别位点序列5’…GCAGC…3’,步骤S3中利用Ⅱ型内切酶BbvⅠ识别该酶切识别位点并进行酶切,得到待测序片段3’端含有两个突出核苷酸的酶切产物。
在本实施方案的另一个优选实施例中,待测核酸片段通过5’端连接固定于微珠上,而结合于第一接头的第一anchor上含有酶切识别位点序列5’…GAGTC…3’,步骤S3中利用Ⅱ型内切酶MlyⅠ识别该酶切识别位点并进行酶切,得到待测序片段3’端含有平末端的酶切产物。
在本实施方案的一个优选实施例中,待测核酸片段通过3’端连接固定于微珠上,而结合于第一接头的第一anchor上含有酶切识别位点序列5’…CATCC…3’,步骤S3中利用FokⅠ酶识别该酶切识别位点并进行酶切,得到待测序片段5’端含有4个突出核苷酸的酶切产物。
在本实施方案的一个具体实施例中,待测核酸片段通过5’端连接固定于微珠上,而结合于第一接头的第一anchor上含有酶切识别位点序列5’…CAGCAG…3’,步骤S3中利用Ⅲ型内切酶Ecop15Ⅰ酶识别该酶切识别位点并进行酶切,得到待测序片段3’端含有两个突出核苷酸的酶切产物。
在本发明的另一个实施方案中,酶切识别位点通过在第一anchor的另一端连接含有至少一个酶切识别位点的第三接头带入。利用第三接头,步骤S3可以通过如图11所示的方法实现,该方法包括以下步骤:
S31’.在第一anchor的另一端连接双链的第三接头,该第三接头含有至少一个酶切识别位点;
S32’.利用内切酶识别第三接头所带的酶切识别位点,将步骤S2中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
需要说明的是,所述第一anchor的另一端,是相对步骤S1中第一anchor已经用于延伸的末端而言的;若第一anchor的另一端在步骤S3之前是被封闭的,那么在步骤S3之前需要先进行活化;活化的方法可以利用现有技术中的任一种,只需将另一端中可用于连接的基团暴露出来即可,如在本发明的一个优选的具体实施方式中,第一anchor本身含有特异性残基,可直接利用特异性切割剂切割特异性残基完成活化。所述第三接头,是含有至少一个酶切识别位点的核酸分子,用于引入内切酶的酶切识别位点,以便于后续步骤中,通过内切酶将已得到序列信息的核苷酸部分或完全切除。利用该技术方案实现步骤S3的优势为适用性广,对待测核酸片段无特殊要求,无论待测核酸片段上结合的第一anchor是否含有酶切识别位点,均可通过该技术方案实现。
需要进一步说明的是,第三接头可以选用相应含有不同末端的接头,具体可包括但不限于平末端接头、突出末端接头、分叉型接头和带茎环结构的接头,这些接头的结构与特性可参见专利文献:CN201110222952.4。本发明中优选使用突出末端接头、分叉型接头和带茎环结构的接头,这些结构的接头在连接过程中可以避免出现多个接头之间自连的现象。针对上述不同的实现方案,第三接头上所述用于酶切的内切酶酶切识别位点可以是上述内切酶所对应的任意一种,只需在设计合成时将酶切识别位点与酶切位点之间的核苷酸预先计算好,使得酶切之后恰好将步骤S2中已经读取过序列信息的核苷酸部分或完全切除即可,因此在本发明中可以选用不同的酶切识别位点及其相应的内切酶实现对步骤S2中已得到序列信息的核苷酸的切除。
应当说明的是,上述实施方案仅是本发明中关于选用的酶切识别位点及其相应的内切酶的一些具体实施例,并不用以限制本发明的保护范围,换用符合条件的其他酶切识别位点及相应的内切酶,同样可实现本发明的目的。
为得到含有待测序片段的酶切产物,可以在步骤S3的酶切反应之后进行纯化回收,而纯化回收的方法可以利用现有技术中的多种方式实现。在本发明的一个实施例中,待测核酸片段固定于玻片上,酶切之后直接以缓冲液冲洗即可实现有待测序片段的酶切产物与其他物质分离纯化;在本发明的另一个具体实施例中,待测核酸片段固定于磁珠上,直接利用磁铁吸附,以缓冲液轻微冲洗,即可实现含有待测序片段的酶切产物与其他物质分离纯化。
骤S4中,在连接第二接头之前,根据步骤S3中得到的酶切产物的不同以及后续使用的连接方法,可以选择性的对酶切产物进行修饰处理,如末端补平;也可以直接利用酶切之后得到的突出末端进行第二接头的连接。
在本发明的一个具体实施例中,根据步骤S3中利用第一anchor上所带内切酶的酶切识别位点,以FokⅠ进行酶切,得到3’端含有4个核苷酸序列突出末端的酶切产物。对酶切产物先进行末端补平处理,然后再连接第二接头。此实施方式的优势在于可以避免由于过长的突出末端而使得第二接头合成的种类过多,从而降低第二接头的合成成本。
在本发明的另一个具体实施例中,根据步骤S3中利用第一anchor上所带酶切识别位点为AcuⅠ的酶切识别位点,以AcuⅠ进行酶切,得到3’含有2个核苷酸序列突出末端的酶切产物。针对该突出末端突出的核苷酸较少,只需合成42种第二接头即可实现连接,因此直接利用酶切之后得到的突出末端进行第二接头的连接。此实施方式的优势在于可以简化操作步骤,直接加入第二接头进行反应即可。
步骤S4中,所述第二接头,是用于与含有待测序片段的酶切产物连接形成新待测核酸片段的双链核酸分子。根据酶切产物末端以及选用的连接方式不同,第二接头可以选用相应含有不同末端的接头,包括但不限于平末端接头、突出末端接头、分叉型接头和带茎环结构的接头,这些接头的结构与特性可参见专利文献:CN201110222952.4。本发明中优选使用突出末端接头、分叉型接头和带茎环结构的接头,这些结构的接头在连接过程中可以避免出现多个接头之间自连的现象。
步骤S4中,为了便于后续第二anchor与第二接头的互补配对能够顺利进行,可以对酶切产物与第二接头连接之后形成的双链核酸连接产物进行处理,形成单链形式的新待测核酸片段。将双链核酸连接产物上互补结合于待测序片段上的核苷酸以及酶切之后保留下来的核苷酸进行处理形成单链新待测核酸片段的方法,包括但不限于通过NaOH变性解离或升温退火的方式进行清除。
所述第二anchor是能与第二接头锚定结合的单链核酸分子,用于在步骤S5中连接荧光探针;所述第二anchor可以与第一anchor相同或者不同。若第二anchor与第一anchor相同,则后续继续酶切时可使用相同的内切酶进行操作,简化反应试剂的种类,同时还能避免因新待测核酸片段中存在相同的内切酶序列,导致后续的酶切步骤得到非目标产物;若第二anchor与第一anchor不同,则可以在第二anchor的合成中引入新的设计,满足更多的实际需要。第二anchor与第一anchor的不同,可以是酶切识别位点的位置和种类不同,也可以是核苷酸数量的不同。
第二anchor根据需要可以进行其他处理。在本发明的一个具体实施例中,根据需要将第二anchor的3’端或5’端进行封闭,用以控制连接方向,并避免第二anchor相互之间的自连。在本实施例的一个具体实施方式中,对3’端进行封闭的方法包括但不限于双脱氧、氨基化反应、酰胺化,其无法继续连接,控制第二anchor的连接只发生在5’端;在本实施例的另一个具体实施方式中,将第二anchor的5’端进行封闭,通过5’端进行去磷酸化或酰胺化处理将其封闭,从而只保留3’端作为连接的末端。
在本发明的另一个具体实施例中,第二anchor含有特异性残基,可以使得后续荧光探针的更换以及洗脱更加简便。在本发明的一个优选实施方式中,第二anchor所带的特异性残基为dU碱基,其核苷酸序列中引入数个dU碱基,该结构的第二anchor可以在后续测序的洗脱过程中直接切除dU碱基形成不同的短片段,便于洗脱的实现。
在本发明的另一个优选实施方式中,第二anchor所带的特异性残基为含有硫代磷酸酯键的碱基,在其核苷酸序列中,以一个或多个硫代磷酸酯键(P-S)代替原有的P-O键,可以直接利用含有Ag、Hg、Cu、Mn、Zn和Cd离子的化合物切割P-S键实现第二anchor的洗脱。
在本发明的另一个优选实施方式中,第二anchor含有两个酶切识别位点,其中一个为用于切割双链的限制性内切酶酶切识别位点,另一个为用于切割双链中的一条单链形成切口的切口酶酶切识别位点。
应当说明的是,上述实施例仅是本发明中第二anchor的一些具体实施方式,并不用以限制本发明的保护范围。
步骤S5中,得到第二anchor延伸末端后N个核苷酸的序列信息通过如图12所示的方法实现,该方法包括以下步骤:
S51.在第二anchor延伸末端后连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到相应位置的核苷酸序列信息;
S52.将前一步骤连接的荧光探针去除,连接带不同位置标记的荧光探针,检测相应连接产物的荧光信号,得到相应标记位置的核苷酸序列信息;
S53.重复步骤S52的操作,直至得到第二anchor延伸末端后N个核苷酸的序列信息。
上述技术方案利用带不同位置标记的荧光探针之间的连接和更换,实现对第二anchor延伸末端后N个核苷酸的序列信息的获取。其中,步骤S52中所述荧光探针的去除可以有多种方式实现。
在本步骤的一个具体实施方式中,利用NaOH变性将荧光探针以及第二anchor从新待测核酸片段上解离下来,然后将第二anchor重新结合于第二接头上,进行后续标记位置不同的荧光探针的连接以及信号检测操作。此实施方式简单易行,不需要添加另外的试剂。
在本步骤的另一个优选实施方式中,第二anchor含有数个dU碱基,因此利用UDG酶直接进行dU碱基的切除,形成短片段,升温变性解离,重新得到新待测核酸片段,然后将第二anchor重新结合于第二接头上,进行后续标记位置不同的荧光探针的连接以及信号检测操作。
在本步骤的另一个优选实施方式中,第二anchor的核苷酸序列中,几个硫代磷酸键(P-S)代替原有的P-O键,因此直接利用含有Ag、Hg、Cu、Mn、Zn和Cd离子的化合物切割P-S键实现第二anchor以及荧光探针的去除。
在本步骤的另一个优选实施方式中,第二anchor延伸末端处含有一个切口酶的酶切识别位点,因此直接利用切口酶将荧光探针与第二anchor之间的连接去除,就可以在第二anchor的延伸末端继续连接标记位置不同的荧光探针,实现后续测序步骤的实施。此实施方式直接将荧光探针去除,而不需要对第二anchor进行处理,既简化操作,又降低试剂成本。
上述优选实施方式利用特异性的物质将第二anchor中的连接切除,形成短小片段,然后利用温和条件即可去除荧光探针。
其中,上述步骤中所述N为正整数,其数值范围同样由本发明所使用的连接酶决定,优选为1~9,更优选为1~6。在本发明的一个实施方案中,利用T4连接酶实现本发明所述的酶切延伸测序法,N的数值优选为1~6;在本发明的另一个实施方案中,利用Tth连接酶实现本发明所述的酶切延伸测序法,N的数值范围优选为1~9。在上述优选范围内,本发明的酶切延伸测序法不仅能够增加测序读长,还能进一步提高测序过程中的荧光探针与anchor连接的准确性,进而提高核苷酸序列信息读取的准确性。其中,当利用T4连接酶,将荧光探针连接在anchor的3’端或者5’端时,荧光探针与anchor发生连接的那一端的6个碱基需与相应的待测序片段完全互补配对,才能实现连接;当利用Tth连接酶,将荧光探针连接在anchor的3’端或5’端时,分别要求荧光探针与anchor连接的那一端的8个或9个碱基与相应的待测序片段完全互补配对,才能实现连接。
图13为步骤S5中一个具体实施例中得到第二anchor延伸末端后N个核苷酸的序列信息的方法示意图,该图直观的展现了得到第二anchor延伸末端后N个核苷酸的序列信息的过程。
步骤51.读取第二anchor延伸末端后第1位核苷酸序列信息:在T4连接酶的作用下,第二anchor延伸末端后连接标记位置为第1位的荧光探针,然后采图,收集荧光信号,根据得到的荧光信号确定第二anchor延伸末端后第1位的核苷酸序列信息。
步骤52.读取第二anchor延伸末端后第2位核苷酸序列信息:利用第二anchor延伸末端处所带的切口酶酶切识别位点,将荧光探针与第二anchor之间的连接切掉,通过升温变性解离将标记位置为第1位的荧光探针洗脱,然后换用标记位置为第2位的荧光探针连接到第二anchor的延伸末端,采图成像,收集荧光信号,根据得到的荧光信号确定第二anchor延伸末端后第2位的核苷酸序列信息。
步骤53.读取后续核苷酸:重复步骤52的操作,换用带不同位置标记的荧光探针获取相应位置的核苷酸序列信息,直至得到第二anchor延伸末端后第6位核苷酸的序列信息。
上述实施方案中,利用第二anchor延伸末端处含有的切口酶酶切识别位点,直接实现带不同位置标记的荧光探针的连接更换,从而实现获取第二anchor延伸末端后6个核苷酸的序列信息。
应当说明的是,上述实施例仅是实现步骤S5中得到第二anchor延伸末端后N个核苷酸的序列信息的一些具体实施方案,并不用以限制本发明的保护范围。例如改变其中N的数值,如更换与之前反应中所使用的试剂不同的试剂或者是将之前反应中反应过的试剂换成未反应过的试剂。
步骤S6中所述更换的试剂,指的是步骤S3至S5中所用到的内切酶、接头、anchor和带不同位置标记的荧光探针;所述更换,指的是广义的更换,如更换不同种类的试剂或者是将反应过的试剂换成未反应过的试剂。
试剂更换之后,以内切酶对步骤S5的产物进行已读取核苷酸序列的切除,然后再使酶切产物与新的接头连接,并结合新的anchor,连接新的荧光探针,检测该荧光探针的荧光信号,即可得到该荧光探针对应位置的核苷酸序列。如此进行类似上述的循环操作,即可得到待测核酸片段中所需的核苷酸序列信息。
图14为本发明一个实施例中增加测序读长的测序方法示意图,该图直观的展现了利用酶切延伸的方法进行测序的过程。
步骤1.第一anchor杂交结合:将第一anchor通过碱基互补配对杂交结合于待测核酸片段的第一接头上,其中待测核酸片段的5’端通过连接固定于微珠表面;其中,第一anchor含有序列为5’…CTGAAG…3’的酶切识别位点,且第一anchor的核苷酸序列中含有dU碱基。
步骤2.获取第一anchor延伸末端后6个核苷酸的序列信息:T4连接酶作用下,在第一anchor的延伸末端连接用于检测的荧光探针,检测荧光信号得到相应位置的核苷酸序列信息,并利用UDG酶切除dU碱基以实现第一anchor的重置和带不同位置标记的荧光探针的更换检测,采集相应探针的荧光信号图,获得第1至6位的核苷酸序列信息。
步骤3.酶切:为便于后续酶切的进行,当第一anchor延伸末端后6个核苷酸的序列信息全部被读取之后,首先在DNA聚合酶的作用下,将待测核酸片段延伸形成完整的双链核酸分子;然后利用AcuⅠ酶特异性识别并酶切第一anchor中所携带的酶切识别位点,将之前已经读取过的第一anchor延伸末端的6个核苷酸序列切除,得到3’端含有两个核苷酸突出末端的未测序片段;酶切反应之后,利用磁铁吸附磁珠,将含有未测序片段的酶切产物纯化回收。
步骤4.酶切产物连接第二接头并结合第二anchor:利用步骤3的酶切产物的一端所含有两个核苷酸突出末端,与一共为42=16种的第二接头,在T4连接酶的作用下进行连接得到双链连接产物;连接反应结束之后,将双链连接产物变性解离形成单链,得到固定于磁珠上的新待测核酸片段;将第二anchor通过碱基互补配对结合于新待测核酸片段的第二接头上。其中,第二anchor上同样含有序列为5’…CTGAAG…3’的酶切识别位点,且距离第二anchor延伸末端处4个核苷酸位置处还含有序列为5’…GGATC…3’的酶切识别位点。
步骤5.获取第二anchor延伸末端后6个核苷酸的序列信息:按照如图12所示实施例的方法,利用切口酶Nt.AlwⅠ切割带特定位置标记的荧光探针与第二anchor之间的连接,实现带不同位置标记荧光探针的更换,从而可以读取不同位置的核苷酸序列信息,获取第二anchor延伸末端后6个核苷酸的序列信息。
步骤6.更换试剂,重复步骤3、步骤4、步骤5中的操作,获取一定数量(其数值范围优选为1~6)的核苷酸序列信息之后,通过酶切手段切除已经读取过的核苷酸序列,并构建新的待测核酸片段,以此实现延伸测序的目的,直至得到待测核酸片段上所需的核苷酸序列信息。
针对上述各技术方案,为进一步说明本发明所记载技术方案的技术效果及优越性,本发明给出一具体的操作实施例。
本实施例以一个包含有牛奶吸收与消化能力MCM6基因的一段核酸片段(SEQ ID NO:103)的单克隆质粒,和一个包含有叶酸及维生素B吸收能力MTHFR基因的一段核酸片段(SEQ ID NO:104)的单克隆质粒作为待测样品的核酸模板。其中,MCM6基因和MTHFR基因相应的特异性扩增引物为:SEQ ID NO:61和SEQ ID NO:62、SEQ ID NO:63和SEQ ID NO:64,从中分别扩增出用于后续测序的目标核酸片段,然后利用目标核酸片段构建测序文库,从而进行待测核酸片段的检测。
其中待测核酸片段的5’端接头通过链霉亲和生物素的作用与磁珠结合,待测核酸片段的3’端含有第一接头序列。为减少操作过程的复杂性,两种核酸片段的第一接头采用相同的序列,因此在本实施例中两者所使用的第一anchor也是一样的,两者同时进行操作。整个测序过程以及荧光信号图像数据的处理分析采用深圳华因康基因科技有限公司生产的Pstar-Ⅱ Plus测序平台进行。所述实施例具体操作如下。
一、待测核酸片段的扩增。
利用上述核酸模板的特异性扩增引物,对MCM6基因和MTHFR基因的目标核酸片段进行扩增,得到用于构建测序文库的目标核酸片段。其中,所述扩增是分别进行的,反应体系如下:F引物(10μM),2μL;R游引物(10μM),2μL;dNTP(各2.5mM),4μL;作为核酸模板的质粒,20ng;Ex Taq(5U/μL),0.25μL;10×Ex Taq Buffer,5μL;ddH2O加至50μL。
PCR反应条件如下:
95℃ 3min;
94℃ 30s,58℃ 30s,72℃ 30s;重复25个循环;
72℃ 7min。
利用PCR回收试剂盒,分别对各样品的扩增产物进行分离,除去未扩增的引物和dNTP,琼脂糖凝胶纯化回收目标核酸片段。
二、利用扩增得到的目标核酸片段构建测序文库。
在步骤一中扩增得到的目标核酸产物两端连接第一接头,然后进行单分子扩增,得到测序用的测序文库。
1.目标核酸片段与第一接头连接。
以末端含有突出T碱基的突出末端接头作为第一接头,其具体序列为SEQ ID NO:95和SEQ ID NO:96,且该第一接头含有特定位置的生物素化修饰,以便于后续与含有链霉亲和素修饰的磁珠连接。第一接头与目标核酸片段连接,得到含有第一接头的目标核酸片段。
在T4连接酶的作用下,将分别扩增得到的两种目标核酸产物以等摩尔比混合,与第一接头连接,得到含有第一接头的目标核酸片段,连接体系为:目标核酸产物的混合物,50μL(约500ng);第一接头,2μL(约3000ng);10mM ATP,5μL;T4 DNA连接酶(30U/μL),1μL;10×T4连接酶缓冲液,10μL;加ddH2O至100μL。
16℃孵育4h以上,反应结束后利用纯化试剂盒纯化回收。
2.利用含有第一接头的目标核酸片段进行单分子扩增,构建测序文库。
利用如之前图3所示的扩增方法,以含有第一接头的目标核酸片段进行单分子扩增,构建测序文库,得到待测核酸片段,具体操作如下。
1)将含有生物素修饰的目标核酸片段与含有链霉亲和素修饰的Myone磁珠(1μm,10mg/mL;Invitrogen)结合,使得磁珠表面固定有至少一个目标核酸片段,反应体系及反应过程为:含有第一接头的目标核酸片段,0.018ng(108个分子);Myone磁珠(1μm,10mg/mL;Invitrogen),6μL;螺旋振荡混匀,反应30min,以适量TE缓冲液(10mM Tris-HCl,pH8.0;1mM EDTA)清洗两次,离心分离,将得到的磁珠以6μL结合缓冲液(10mM Tris-HCl,pH7.5;1mM EDTA;1M NaCl;0.01% Triton X-100)重悬保存。
2)单分子扩增引物结合于磁珠表面。
将步骤1)得到的产物与5’端含有生物素标记和距离5’端第6位核苷酸含有氨基化的单分子扩增引物(F3、R3)反应,使生物素化的F3、R3与含有第一接头的目标核酸片段同时结合在磁珠表面,其中,F3、R3的序列为SEQ ID NO:97和SEQ ID NO:98,与含有第一接头的目标核酸片段互补。反应体系及过程如下:生物素化且氨基化的引物F3(100μM),0.3μL;生物素化且氨基化的引物R3(100μM),0.3μL;步骤1)中得到的磁珠悬浮液,6μL;室温条件下(18~25℃),螺旋振荡,孵育1h;适量TE缓冲液清洗2次,离心,以6μL TE缓冲液重悬磁珠,得到磁珠悬浮液,4℃保存备用。
本步骤中,用于与磁珠结合,并作为单分子扩增模板序列的目标核酸片段的摩尔数与磁珠的数量大致相同,因此,步骤1)所得的磁珠悬浮液中的一个磁珠表面只结合了极少量甚至是单个模板序列。
3)制备用于单分子扩增的乳浊液体系。
采用深圳华因康基因科技有限公司的KE001乳浊液制备试剂盒,根据使用说明制备乳浊液体系。首先对油相制备试剂以螺旋剧烈振荡进行混匀,置于室温30min,得到用于制备乳浊液体系的油相体系;利用步骤2)得到的磁珠悬浮液制备PCR Mix水相体系,以150μL为例,该水相体系如下:ddH2O,113μL;10×PCR buffer(650mM Tris-HCl,pH8.0;160mM (NH42SO4;10mM DTT;11mM MgCl2),15μL;50mM MgSO4,3μL;10mM dNTP,3μL;未生物素化且无氨基化的F3(10μM),0.5μL;未生物素化且无氨基化的R3(10μM),0.5μL;步骤2)得到的磁珠悬浮液,6μL;5U/μL DNA Taq酶,9μL;将上述成分混匀,制备成PCR Mix水相体系。
将制备好的油相体系与水相体系按照4:1的比例放入EP管中混合,同时加入辅助混匀的钢珠,将EP管置于乳浊液制备仪上夹紧,按照15HZ,10s,再转换17HZ,8s进行振荡混匀,制备成用于单分子扩增的乳浊液体系。
4)利用制备好的乳浊液体系进行单分子扩增。
利用制备好的乳浊液体系进行EPCR单分子扩增,反应体系及反应过程如下所示:
4min,94℃;
30s,94℃,
55s,64℃,
45s,72℃,循环数为3;
30s,94℃,
55s,61℃,
45s,72℃,循环数为3;
30s,94℃,
55s,58℃,
45s,72℃,循环数为3;
30s,94℃,
55s,57℃,
45s,72℃,循环数为100;
6min,72℃;
反应结束后10℃保存。
3.破乳释放扩增产物,分离提纯得到测序文库。
在EPCR反应结束后的反应产物中加入适量异丙醇,螺旋震荡混匀后4000rpm,3min离心分离去上清,扩增产物以磁铁吸附。
扩增产物中加入适量的抽提缓冲液(Extraction buffer),螺旋振荡混匀后4000rpm离心3min分层,用磁铁吸附磁珠,将液体清除;重复此操作数次。
然后加入适量TE,重复清洗数遍扩增产物,最后以适量的TE重悬磁珠,得到含有待测核酸片段的磁珠。
三、利用测序文库进行酶切延伸测序。
1.第一anchor锚定结合于待测核酸片段的第一接头上。
将含有待测核酸片段的磁珠与测序缓冲液混合,在含有羧基活化基团修饰的玻片上进行点样固定,形成测序阵列。将第一anchor(SEQ ID NO:99)与待测核酸片段的第一接头之间通过碱基互补配对杂交结合,其中第一anchor延伸末端上含有AcuⅠ酶的酶切识别位点,该反应过程及体系为:28℃,400μL 2×SSPE(saline sodium phosphate EDTA)[175.32g/L NaCl,31.202g/L NaH2PO4.2H2O,0.01M EDTA,pH7.4]杂交缓冲液对固定于玻片表面的待测核酸片段进行润洗;加入第一anchor(15μM),2×SSPE环境下升温至65℃,维持30s;降温至42℃,杂交1min;以磁铁吸附磁珠,30℃,900μL清洗缓冲液[50mM KCl,10mM Tris-HCl(pH7.4),0.1mM EDTA]进行清洗,将未反应的第一anchor分离清除。
2.获取第一anchor延伸末端后6个核苷酸的序列信息。
1)连接荧光探针。
本实施例所用荧光探针分为不同组别类型,同组类型中不同荧光标记对应同一特定位置的不同核苷酸序列,而不同组类型的荧光探针荧光标记对应的特定位置不同。每次连接反应中,加入同一组类型的荧光探针,根据所采集的荧光信号,可以读取该组荧光探针标记特定位置对应的核苷酸序列信息。所述荧光探针的结构为5’-NNNXNNNNN-3’,其中N为简并碱基,X为A、T、G和C中的任意一种,X可以在5’端数起的第1至第6中的任何位置。
在T4连接酶的作用下,将对应1号位带不同荧光标记的一组四种荧光探针混合后连接到第一anchor延伸末端之后,连接反应过程及体系为:30℃,连接缓冲液[100mM MgCl2.6H2O,10mM Tris-HCl(pH7.4)]对杂交分离的产物进行润洗;加入0.2U/μL T4连接酶,荧光探针(浓度为2.5μM),连接缓冲液中,30℃,反应20min;连接反应结束之后,以磁铁吸附磁珠,30℃,900μL清洗缓冲液沿玻片平面进行清洗,将未反应的荧光探针与连接产物进行分离。
2)采集荧光信号,读取相应位置的核苷酸序列信息。
将连接有荧光探针的连接产物放入测序仪,在荧光显微镜下进行激发,采集荧光信号,根据荧光信号判断读取该位置的核苷酸序列。
3)洗脱第一anchor及荧光探针。
在读取上一步骤中相应位置的核苷酸序列信息后,可以利用不同的方法进行洗脱。
在本实施例中,利用NaOH直接变性解离,反应过程及体系为:测序反应体系中加入NaOH(0.05M),变性30s;以磁铁吸附磁珠,30℃,900μL洗脱缓冲液进行清洗,将变性解离的第一anchor及荧光探针以及NaOH进行清洗分离。
在本发明的另一个实施例中,利用UDG酶对第一anchor中的dU碱基进行切割形成小片段,然后将小片段直接洗脱,反应过程及体系为:酶切缓冲液,20μL;UDG酶,10μL;洗脱缓冲液加至200μL;37℃,5min进行酶切;酶切结束后,以磁铁吸附磁珠,加入900μL洗脱缓冲液进行洗脱分离,得到未接第一anchor的待测核酸片段。
4)重复上述步骤,通过更换不同标记位置的荧光探针进行连接,从而读取得到第一anchor延伸末端后第1至6位的核苷酸序列信息。
3.AcuⅠ酶切,得到含有未测序片段的酶切产物。
1)延伸形成双链核酸分子。
为便于后续酶切的进行,当第一anchor延伸末端后6位核苷酸序列信息全部被读取之后,利用之前所述的NaOH变性解离方法除去荧光探针及第一anchor,并重新结合第一anchor于第一接头上,然后在DNA聚合酶的作用下,将待测核酸片段延伸形成完整双链核酸分子,延伸反应体系及过程为:30℃条件下,以Klenow酶反应缓冲液润洗第一anchor与待测核酸片段的结合物;加入dNTP以及0.1U/μL的Klenow酶(BioLabs                                                Inc.,货号M0210L),1×NEBuffer2反应缓冲液中,37℃,孵育10min;延伸反应结束后,以磁铁吸附磁珠,30℃,900μL清洗缓冲液进行清洗,分离得到待测核酸片段延伸形成的完整双链核酸分子。
2)AcuⅠ酶切。
得到双链核酸分子后,以AcuⅠ进行酶切,得到含有待测序片段的酶切产物,酶切的反应体系及过程为:30℃,双链核酸分子中加入400μL 1×NEBuffer 2,40μM SAM;加入0.05U/μL的AcuⅠ酶(BioLabs Inc.),37℃孵育2h;酶切反应结束后,以磁铁吸附磁珠,30℃,900μL清洗缓冲液进行清洗,分离得到含有待测序片段的酶切产物,其中含有待测序片段的核苷酸链3’端含有两个核苷酸的突出末端。
4.酶切产物连接第二接头,并结合第二anchor。
1)酶切产物连接第二接头。
利用酶切产物所带的突出末端,以如图14所示结构的第二接头(SEQ ID NO:100和SEQ ID NO:101)进行连接,其中突出末端的-X碱基为A或G或C或T,第二接头是以种类一共为42=16种接头等摩尔比混合的形式加入连接反应中,连接反应的体系和过程为:30℃条件下,在回收的酶切产物中加入1×连接缓冲液;加入浓度为10μM的16种接头混合的第二接头,以及0.2U/μL的T4连接酶,16℃条件下孵育1h;连接反应结束后,以磁铁吸附磁珠,30℃,900μL清洗缓冲液进行清洗,分离得到双链核酸分子形式的新待测核酸片段。
2)第二anchor的结合。
以NaOH变性解离的方法,将双链核酸分子形式的新待测核酸片段转变成含有未测序片段的单链新待测核酸片段。第二anchor(SEQ ID NO:102)与第二接头的杂交结合体系及过程为:28℃,在单链新待测核酸片段中加入400μL 2×SSPE,加入第二anchor(10μM),60℃维持30s;然后降温至42℃,杂交孵育2min;杂交结束之后,以磁铁吸附磁珠,30℃,900μL清洗缓冲液进行清洗,将未反应的第二anchor分离清除。
5.获取第二anchor延伸末端后6个核苷酸的序列信息。
参考步骤2中获取第一anchor延伸末端后6个核苷酸序列信息的相同方法和类似操作,通过更换不同标记位置的荧光探针进行连接,读取得到第二anchor延伸末端后第1至6位的核苷酸序列信息。
6.获取后续核苷酸序列信息。
更换新的anchor、接头以及内切酶,重复步骤3至步骤5的操作,通过酶切手段切除已经读取过的核苷酸序列,并构建新的待测核酸片段,以此实现向前延伸测序的目的,直至得到待测核酸片段上所能读取的全部核苷酸序列信息。
对MCM6基因核酸片段以及MTHFR基因核酸片段所形成的待测核酸片段进行测序所得到的荧光信号图像数据,利用与PstarⅡ-Plus测序平台进行分析,得到序列号分别为SEQ ID NO:105和SEQ ID NO:106的核酸序列,更为具体的分析结果如表1所示。
表1.荧光信号图像数据分析结果图
项目 前100bases准确率 100~200bases准确率 200~300bases准确率 前300bases的平均准确率
MCM6基因核酸片段 99.98%(Q30) 99.88%(Q20) 99.26%(Q20) 99.74%(Q20)
MTHFR基因核酸片段 99.96%(Q30) 99.85%(Q20) 99.24%(Q20) 99.66%(Q20)
其中,表中所述Q30指的是在测序过程中读取错误率仅为千分之一的核苷酸;Q20指的是在测序过程中读取错误率仅为百分之一的核苷酸。
根据表1数据,以测序过程中Q20能达到99%为可信数据作为判断标准,通过上述实施例中得到的分析数据,利用本发明所记载的技术方案在在本实施例进行MCM6、MTHFR基因检测,能够达到至少300bp高质量的测序读长。
同时,为了验证本实施例测序结果的准确性,将最初包含有MCM6基因核酸片段以及包含有MTHFR基因核酸片段的单克隆质粒用sanger测序法进行序列测定,将得到的核酸序列结果与本实施所得的结果进行比对,比对结果显示:二者的测序结果在相似度上为100%。因此,本实施例所得到的结果为可信结果。
应当说明的是,以本发明所记载的技术方案进行核酸序列检测,理论上应当可以将待测核酸片段所有的核苷酸序列信息读取出来。但根据所述实施例中得到的数据,本实施例中得到的高质量读长至少为300bp,而且随着读长的增加,其读取准确率呈现逐步下降的趋势,其原因可能是由于在不断循环的酶切与连接操作中,内切酶的酶切能力以及连接酶的连接能力有所下降而导致。因此,若对于内切酶的酶切能力以及连接酶的连接能力进行加强,利用本发明所记载的技术方案检测核酸序列的话,可以达到更长的读长。
其次,上述实施例仅是本发明所记载技术方案的一个具体实施方案,针对不同待测样品中的一种或多种基因序列,利用相应的扩增引物,通过上述实施例相同的操作和步骤进行检测,同样可以得到类似的结果。
此外,测序过程以及荧光信号图像数据的处理分析所采用的测序平台还可以是深圳华因康基因科技有限公司生产的Pstar-Ⅱe、Pstar-Ⅱ。
本发明所述待测样品的来源可以多种多样,其来源包括但不限于血液、口腔上皮刮取样、唾液、石蜡包埋组织和穿刺组织等。在检测过程中,利用本发明所记载的技术方案检测基因序列时,检测的基因的种类和数目不受限制,可以任意组合。上述具体实施例只是对MCM6和MTHFR基因中的某一特定片段进行了检测,若需要对这两个基因的其他区域或其他基因的某些区域进行检测,只需设计相应的特异性扩增引物即可,相应的特异性扩增引物对包括但不限于如下所述。
所述ABCB1的引物为SEQ ID NO:1和SEQ ID NO:2;所述ADH2的引物为SEQ ID NO:3和SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6、SEQ ID NO:7和SEQ ID NO:8中的至少一对;所述ADH3的引物为SEQ ID NO:9和SEQ ID NO:10、SEQ ID NO:11和SEQ ID NO:12、SEQ ID NO:13和SEQ ID NO:14中的至少一对;所述ALDH2的引物为SEQ ID NO:15和SEQ ID NO:16、SEQ ID NO:17和SEQ ID NO:18、SEQ ID NO:19和SEQ ID NO:20、SEQ ID NO:21和SEQ ID NO:22中的至少一对;所述APOB的引物为SEQ ID NO:23和SEQ ID NO:24;所述APOE的引物为SEQ ID NO:25和SEQ ID NO:26、SEQ ID NO:27和SEQ ID NO:28中的至少一对;所述CAT的引物为SEQ ID NO:29和SEQ ID NO:30;所述CYBA的引物为SEQ ID NO:31和SEQ ID NO:32;所述CYP1A1的引物为SEQ ID NO:33和SEQ ID NO:34;所述CYP2E1的引物为SEQ ID NO:35和SEQ ID NO:36、SEQ ID NO:37和SEQ ID NO:38、SEQ ID NO:39和SEQ ID NO:40、SEQ ID NO:41和SEQ ID NO:42中的至少一对;所述ERCC2的引物为SEQ ID NO:43和SEQ ID NO:44、SEQ ID NO:45和SEQ ID NO:46中的至少一对;所述LCT的引物为SEQ ID NO:47和SEQ ID NO:48、SEQ ID NO:49和SEQ ID NO:50、SEQ ID NO:51和SEQ ID NO:52中的至少一对;所述LPL的引物为SEQ ID NO:53和SEQ ID NO:54、SEQ ID NO:55和SEQ ID NO:56中的至少一对;所述MC1R的引物为SEQ ID NO:57和SEQ ID NO:58、SEQ ID NO:59和SEQ ID NO: 60中的至少一对;所述MCM6的引物为SEQ ID NO:61和SEQ ID NO: 62;所述MTHFR的引物为SEQ ID NO:63和SEQ ID NO:64、SEQ ID NO:65和SEQ ID NO: 66中的至少一对;所述MTR的引物为SEQ ID NO:67和SEQ ID NO:68;所述MTRR的引物为SEQ ID NO:69和SEQ ID NO:70;所述NOS3的引物为SEQ ID NO:71和SEQ ID NO:72;所述OCA2的引物为SEQ ID NO:73和SEQ ID NO:74;所述PARP1的引物为SEQ ID NO:75和SEQ ID NO:76;所述PON1的引物为SEQ ID NO:77和SEQ ID NO:78;所述SOD3的引物为SEQ ID NO:79和SEQ ID NO:80;所述TYRP1的引物为SEQ ID NO:81和SEQ ID NO:82;所述VDR的引物为SEQ ID NO:83和SEQ ID NO:84、SEQ ID NO:85和SEQ ID NO:86、SEQ ID NO:87和SEQ ID NO:88、SEQ ID NO:89和SEQ ID NO:90中的至少一对;所述XRCC1的引物为SEQ ID NO:91和SEQ ID NO:92、SEQ ID NO:93和SEQ ID NO:94中的至少一对。
所述CYP1A2的引物包括SEQ ID NO:107和SEQ ID NO:108、SEQ ID NO:109和SEQ ID NO:110,以及SEQ ID NO:111和SEQ ID NO:112中的至少一对;所述CYP3A4的引物包括SEQ ID NO:113和SEQ ID NO:114、SEQ ID NO:115和SEQ ID NO:116、SEQ ID NO:117和SEQ ID NO:118、SEQ ID NO:119和SEQ ID NO:120、SEQ ID NO:121和SEQ ID NO:122以及SEQ ID NO:123和SEQ ID NO:124中的至少一对;所述CYP3A5的引物包括SEQ ID NO:125和SEQ ID NO:126以及SEQ ID NO:127和SEQ ID NO:128中的至少一对;所述CYP2C9的引物包括SEQ ID NO:129和SEQ ID NO:130以及SEQ ID NO:131和SEQ ID NO:132中的至少一对;所述CYP2C19的引物包括SEQ ID NO:133和SEQ ID NO:134以及SEQ ID NO:135和SEQ ID NO:136中的至少一对;所述CYP2D6的引物包括SEQ ID NO:137和SEQ ID NO:138、SEQ ID NO:139和SEQ ID NO:140、SEQ ID NO:141和SEQ ID NO:142、SEQ ID NO:143和SEQ ID NO:144、SEQ ID NO:145和SEQ ID NO:146、SEQ ID NO:147和SEQ ID NO:148以及SEQ ID NO:149和SEQ ID NO:150中的至少一对;所述ABCB1的引物包括SEQ ID NO:151和SEQ ID NO:152、SEQ ID NO:153和SEQ ID NO:154以及SEQ ID NO:155和SEQ ID NO:156中的至少一对;所述ADRB1的引物为SEQ ID NO:157和SEQ ID NO:158;所述ADRB2的引物为SEQ ID NO:159和SEQ ID NO:160;所述CACNA1C的引物包括SEQ ID NO:161和SEQ ID NO:162、SEQ ID NO:163和SEQ ID NO:164以及SEQ ID NO:165和SEQ ID NO:166中的至少一对;所述NPPA的引物为SEQ ID NO:167和SEQ ID NO:168;所述OPRM1的引物为SEQ ID NO:169和SEQ ID NO:170;所述VKORC1的引物为SEQ ID NO:171和SEQ ID NO:172。
对乳腺癌易感基因中的MTHFR、FGFR2基因和IL-1β基因进行检测,其特异性扩增引物序列分别为SEQ ID NO:173和SEQ ID NO:174、SEQ ID NO:175和SEQ ID NO:176、SEQ ID NO:177和SEQ ID NO:178。
对肺癌易感基因中的XRCC1、APE1、CASP7、CASP8、CASP9、CHEK2、COX-2和CYP1A1基因进行扩增及检测,对应的特异性扩增引物为SEQ ID NO:179和SEQ ID NO:180、SEQ ID NO:181和SEQ ID NO:182、SEQ ID NO:183和SEQ ID NO:184、SEQ ID NO:185和SEQ ID NO:186、SEQ ID NO:187和SEQ ID NO:188、SEQ ID NO:189和SEQ ID NO:190、SEQ ID NO:191和SEQ ID NO:192、SEQ ID NO:193和SEQ ID NO:194。
对结直肠癌易感基因中的MMP2、SMAD7、ADH2、ALDH2、CYP1A2基因进行检测,相应的特异性扩增引物为SEQ ID NO:195和SEQ ID NO:196、SEQ ID NO:197和SEQ ID NO:198、SEQ ID NO:199和SEQ ID NO:200、SEQ ID NO:201和SEQ ID NO:202、SEQ ID NO:203和SEQ ID NO:204。
对帕金森综合症易感基因中的SNCA、LRRK2、PINK1、UCH-L1和Parkin基因进行检测,相应的特异性扩增引物为SEQ ID NO:205和SEQ ID NO:206、SEQ ID NO:207和SEQ ID NO:208、SEQ ID NO:209和SEQ ID NO:210、SEQ ID NO211和SEQ ID NO:212、SEQ ID NO:213和SEQ ID NO:214。
应当说明的是,本发明典型的应用但不限于营养指导基因、常规药物相关基因、易感基因的检测,在其他类似的基因检测中也可以应用本发明所阐述的方法。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
SEQUENCE LISTING
 
<110>  盛司潼
<120>  一种增加测序读长的测序方法
<130> 
<160>  214  
<170>  PatentIn version 3.3
 
<210>  1
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  1
ctctttgcat gaaatgcttc cagg                                            24
 
<210>  2
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  2
gaagccaatc ctggtgagta ga                                            22
 
<210>  3
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  3
ggattagtag caaaaccctc aaa                                            23
 
<210>  4
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  4
gcgcggtgac cttgtgcaa                                               19
 
<210>  5
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  5
caggatgttg tgagtgagat taag                                           24
 
<210>  6
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  6
gcccccatgt gtaatttatt gata                                            24
 
<210>  7
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  7
cctggtgcct ggcttctagt a                                              21
 
<210>  8
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  8
ggtggctgta ggaatctgtc a                                              21
 
<210>  9
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  9
ggaaaaccaa ggcactgtaa t                                             21
 
<210>  10
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  10
tcctacttac cctggttgaa tcta                                             24
 
<210>  11
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  11
aagcactgta aaagcatatt gaag                                           24
 
<210>  12
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  12
ggaaaaccaa ggcactgtaa t                                             21
 
<210>  13
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  13
cccgctcttt actcctcag                                                 19
 
<210>  14
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  14
gggcgaggct gcatcaattt t                                              21
 
<210>  15
<211>  16
<212>  DNA
<213>  人工序列
 
<400>  15
gcccgctgcg atgttg                                                  16
 
<210>  16
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  16
cctgggtggc ggcggctgac aag                                           23
 
<210>  17
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  17
aggggaggac acgcagggtt caga                                         24
 
<210>  18
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  18
ggggctccac aaacacacct cc                                            22
 
<210>  19
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  19
gggagtgtaa cccataacc                                               19
 
<210>  20
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  20
ccaccagcag accctcaag                                               19
 
<210>  21
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  21
tgtttggagc ccagtcacc                                                19
 
<210>  22
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  22
cccagcagac cctaaatcc                                               19
 
<210>  23
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  23
gaggaaacca aggccacagt                                              20
 
<210>  24
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  24
gtgtgctata aacctggcct acc                                            23
 
<210>  25
<211>  17
<212>  DNA
<213>  人工序列
 
<400>  25
ggcacggctg tccaagg                                                 17
 
<210>  26
<211>  17
<212>  DNA
<213>  人工序列
 
<400>  26
ggaggagccg cttacgc                                                 17
 
<210>  27
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  27
cagagcaccg aggagctgcg                                             20
 
<210>  28
<211>  17
<212>  DNA
<213>  人工序列
 
<400>  28
ggccagggag cccacag                                                17
 
<210>  29
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  29
cctagcacct gaggaggtgt ag                                            22
 
<210>  30
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  30
ctggagaaat ctgcttcccc                                               20
 
<210>  31
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  31
caaggccggt gcctgcccg                                               19
 
<210>  32
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  32
gcccgaacat agtaattcct gg                                             22
 
<210>  33
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  33
gccacttcag ctgtctccct c                                              21
 
<210>  34
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  34
tccctctggt tacaggaagc                                               20
 
<210>  35
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  35
tggctaataa attgtcaaga gaaa                                           24
 
<210>  36
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  36
tccacattga ctagcttctt cttt                                             24
 
<210>  37
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  37
ctggctgtga ggtggagatg act                                            23
 
<210>  38
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  38
cagcagtgca tctagccatc tca                                            23
 
<210>  39
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  39
cccctgactg ctttctatct aatc                                             24
 
<210>  40
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  40
tgggacgagg gcagagcaca tgt                                           23
 
<210>  41
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  41
tgccaggaac aaactatcac aac                                            23
 
<210>  42
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  42
ttgggtaata tggctttgag ag                                              22
 
<210>  43
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  43
gacttcataa gaccttctag                                                20
 
<210>  44
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  44
ctccctttcc tctgttctct gc                                               22
 
<210>  45
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  45
gccccagctc atctctccgc a                                              21
 
<210>  46
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  46
tcaaagagac agacgagcag c                                            21
 
<210>  47
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  47
gccaccttgt cttctaaaat c                                               21
 
<210>  48
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  48
atttttgggc tgctgtcacc                                                20
 
<210>  49
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  49
ctggtgtcaa gctctcctct g                                              21
 
<210>  50
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  50
cagatgaagc cctcaggaaa c                                             21
 
<210>  51
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  51
ctggggttcg gagagctcc                                               19
 
<210>  52
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  52
gctccctgtt ggtggactta c                                              21
 
<210>  53
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  53
cgagatgcta cctggataat c                                              21
 
<210>  54
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  54
gtttgtttgc ttctttggtg atac                                              24
 
<210>  55
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  55
gactgtggga ccataatctt g                                              21
 
<210>  56
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  56
aagcaaaaac agaagaacaa caac                                          24
 
<210>  57
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  57
gctgcagcag ctggacaatg                                              20
 
<210>  58
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  58
caggaagaag accacgaggc                                             20
 
<210>  59
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  59
gcgctgtcac cctcaccatc ctgc                                           24
 
<210>  60
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  60
tccctctgcc cagcacact                                                19
 
<210>  61
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  61
cgaccatgga attcttccct                                                20
 
<210>  62
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  62
tgcagggctc aaagaacaat c                                             21
 
<210>  63
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  63
ccagtccctg tggtctcttc                                                20
 
<210>  64
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  64
aggacggtgc ggtgagag                                               18
 
<210>  65
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  65
gcatgtggtg gcactgccct c                                              21
 
<210>  66
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  66
caggatgggg aagtcacagc                                              20
 
<210>  67
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  67
gcattgacca ttactacacc ag                                             22
 
<210>  68
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  68
tccaaagcct tttacactcc tc                                              22
 
<210>  69
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  69
gagggagaat taatatcttt ag                                             22
 
<210>  70
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  70
tgtaacggct ctaaccttat cgg                                             23
 
<210>  71
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  71
gaggagggca tgaggctcag                                              20
 
<210>  72
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  72
tccatcccac ccagtcaatc                                               20
 
<210>  73
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  73
gagaggagga aaatctgcac                                              20
 
<210>  74
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  74
gacttgctct ccttttgata ccag                                             24
 
 
<210>  75
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  75
gccattcact gtgttggacc                                               20
 
<210>  76
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  76
gcttgaggaa ggcctgacc                                               19
 
<210>  77
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  77
tgttcaatac cttcacctta                                                 20
 
 
<210>  78
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  78
atccttctgc caccactcg                                                19
 
<210>  79
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  79
gctggcctgc tgcgtggtg                                                19
 
<210>  80
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  80
agcaaaggcg aaggtgagac                                             20
 
<210>  81
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  81
gttgaacata atattgaatt c                                               21
 
<210>  82
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  82
gtaagtgcta tgaggacagg acc                                           23
 
<210>  83
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  83
gtgggtggca ccaaggatg                                               19
 
<210>  84
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  84
ggtctccaca caccccaca                                               19
 
<210>  85
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  85
gcagagcccc tgtggtgtgt gg                                            22
 
<210>  86
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  86
accctgcccg caagaaac                                                18
 
<210>  87
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  87
gcagcggatg tacgtctgc                                               19
 
<210>  88
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  88
tcactggagg gctttggg                                                 18
 
<210>  89
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  89
gctgccgttg agtgtctgtg                                               20
 
<210>  90
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  90
catcttggca tagagcaggt g                                              21
 
<210>  91
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  91
cagatcacac ctaactggc                                                19
 
<210>  92
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  92
ttgcccagca caggataagg                                              20
 
<210>  93
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  93
ccacctgcca gcagcccac                                               19
 
<210>  94
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  94
cagccccctc taccctcag                                                19
 
<210>  95
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  95
gccggaagtc cgccacttca g                                             21
 
<210>  96
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  96
ctgaagtggc ggacttccgg ct                                             22
 
<210>  97
<211>  27
<212>  DNA
<213>  人工序列
 
<400>  97
ttttttgccg gaagtccgcc acttcag                                          27
 
<210>  98
<211>  27
<212>  DNA
<213>  人工序列
 
<400>  98
ttttttctga agtggcggac ttccggc                                          27
 
<210>  99
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  99
ctgaaguggc ggacutccgg                                              20
 
<210>  100
<211>  24
<212>  DNA
<213>  人工序列
 
<400>  100
gactgatagc ttcaggactg ctga                                           24
 
<210>  101
<211>  26
<212>  DNA
<213>  人工序列
 
<400>  101
tcagcagtcc tgaagctatc agtcnn                                         26
 
<210>  102
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  102
cagucctgaa gctaucagtc                                              20
 
<210>  103
<211>  350
<212>  DNA
<213>  人工序列
 
<400>  103
atacgaccat ggaattcttc cctttaaaga gcttggtaag catttgagtg tagttgttag              60
acggagacga tcacgtcata gtttatagag tgcataaaga cgtaagttac catttaatac            120
ctttcattca ggaaaaatgt acttagaccc tacaatgtac tagtaggcct ctgcgctggc            180
aatacagata agataatgta gcccctggcc tcaaaggaac tctcctcctt aggttgcatt            240
tgtataatgt ttgattttta gattgttctt tgagccctgc attccacgag gataggtcag              300
tgggtattaa cgaggtaaaa ggggagtagt acgaaagggc attcaagcgt                  350
 
<210>  104
<211>  349
<212>  DNA
<213>  人工序列
 
<400>  104
ccagtccctg tggtctcttc atccctcgcc ttgaacaggt ggaggccagc ctctcctgac            60
tgtcatccct attggcaggt taccccaaag gccaccccga agcagggagc tttgaggctg          120
acctgaagca cttgaaggag aaggtgtctg cgggagccga tttcatcatc acgcagcttt          180
tctttgaggc tgacacattc ttccgctttg tgaaggcatg caccgacatg ggcatcactt            240
gccccatcgt ccccgggatc tttcccatcc aggtgagggg cccaggagag cccataagct         300
ccctccaccc cactctcacc gcaccgtcct cgcacaggct gggggctct                   349
 
<210>  105
<211>  315
<212>  DNA
<213>  人工序列
 
<400>  105
atacgaccat ggaattcttc cctttaaaga gcttggtaag catttgagtg tagttgttag              60
acggagacga tcacgtcata gtttatagag tgcataaaga cgtaagttac catttaatac            120
ctttcattca ggaaaaatgt acttagaccc tacaatgtac tagtaggcct ctgcgctggc            180
aatacagata agataatgta gcccctggcc tcaaaggaac tctcctcctt aggttgcatt            240
tgtataatgt ttgattttta gattgttctt tgagccctgc attccacgag gataggtcag              300
tgggtattaa cgagg                                                  315
 
<210>  106
<211>  320
<212>  DNA
<213>  人工序列
 
<400>  106
ctcttcatcc ctcgccttga acaggtggag gccagcctct cctgactgtc atccctattg             60
gcaggttacc ccaaaggcca ccccgaagca gggagctttg aggctgacct gaagcacttg         120
aaggagaagg tgtctgcggg agccgatttc atcatcacgc agcttttctt tgaggctgac           180
acattcttcc gctttgtgaa ggcatgcacc gacatgggca tcacttgccc catcgtcccc           240
gggatctttc ccatccaggt gaggggccca ggagagccca taagctccct ccaccccact         300
ctcaccgcac cgtcctcgca                                              320
 
<210>  107
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  107
cgggacttct tggatgctta tg                                              22
 
<210>  108
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  108
aaaaaattag ctgggcgtga tg                                             22
 
<210>  109
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  109
ccagccccag aagtggaaac                                              20
 
<210>  110
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  110
actgatgcgt gttctgtgct tg                                              22
 
<210>  111
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  111
tgaggcaaga ggattgtttg ag                                             22
 
<210>  112
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  112
gaggacaagc cttaaattgg atg                                            23
 
<210>  113
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  113
acaggcacac tccaggcata g                                             21
 
<210>  114
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  114
cacacaccac tcactgacct cc                                             22
 
<210>  115
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  115
tgtccccacc agattcattc                                                20
 
<210>  116
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  116
tggagacctc cacaactgat g                                             21
 
<210>  117
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  117
tccagaatag gcaaatcc                                                18
 
<210>  118
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  118
caacaatcca caagaccc                                                18
 
<210>  119
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  119
accgagtgga tttccttc                                                 18
 
<210>  120
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  120
tctggttacc tttgtggg                                                  18
 
<210>  121
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  121
tttgagggct tcacttag                                                  18
 
<210>  122
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  122
gcagtttctg ctggacat                                                 18
 
<210>  123
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  123
tggaagtgga cccagaaa                                                18
 
<210>  124
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  124
cacccttaaa gatcacagat                                               20
 
<210>  125
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  125
gatttacctg ccttcaattt ttc                                             23
 
<210>  126
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  126
atccataccc ctagttgtac gac                                             23
 
<210>  127
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  127
gaaggacggt aagaggtgct g                                             21
 
<210>  128
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  128
gtgctctcca caaaggggtc                                               20
 
<210>  129
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  129
gcaatggaaa gaaatggaag g                                            21
 
<210>  130
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  130
cacccctgaa atgtttccaa g                                              21
 
<210>  131
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  131
gagccacatg ccctacacag                                              20
 
<210>  132
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  132
agccccaaac tggaaacaag                                              20
 
<210>  133
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  133
ttgcttttaa gggaattcat agg                                             23
 
<210>  134
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  134
aaatgtactt cagggcttgg tc                                             22
 
<210>  135
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  135
taaattacaa ccagagcttg gca                                            23
 
<210>  136
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  136
tgaatcacaa atacgcaagc ag                                            22
 
<210>  137
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  137
gggtgtccca gcaaagttca                                               20
 
<210>  138
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  138
cccgttctgt cccgagtatg                                               20
 
<210>  139
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  139
catggagctc ttcctcttct tc                                              22
 
<210>  140
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  140
catggagctc ttcctcttct tc                                              22
 
<210>  141
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  141
gaatgctgtc cccgtcctc                                                19
 
<210>  142
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  142
cagcctcccc tcattcctc                                                19
 
<210>  143
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  143
tgggtgatgg gcagaagg                                                18
 
<210>  144
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  144
ccagcagcct gaggaagc                                               18
 
<210>  145
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  145
ggtggggcta atgccttca                                                19
 
<210>  146
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  146
cgttgctcac ggctttgtc                                                 19
 
<210>  147
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  147
gcgtcccagg aggaatga                                                18
 
<210>  148
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  148
cgggtgtccc agcaaagt                                                18
 
<210>  149
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  149
tgtccagagg agcccatttg                                               20
 
<210>  150
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  150
cctggtcgaa gcagtatggt g                                             21
 
<210>  151
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  151
ctgagaacat tgcctatgga ga                                             22
 
<210>  152
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  152
gctcccaggc tgtttatttg                                                20
 
<210>  153
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  153
gcaggagttg ttgaaatgaa aat                                            23
 
<210>  154
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  154
gtccaagaac tggctttgct ac                                             22
 
<210>  155
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  155
tgaagttttt ttctcactcg tcc                                             23
 
<210>  156
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  156
tctgtggggt catagagcct c                                              21
 
<210>  157
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  157
ttcaactggc tgggctacg                                                19
 
<210>  158
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  158
tccaggctcg agtcgctg                                                18
 
<210>  159
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  159
gagcacgggc tggaactg                                                18
 
<210>  160
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  160
aggacgatga gagacatgac ga                                            22
 
<210>  161
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  161
aacataccca atgctctccc tc                                             22
 
<210>  162
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  162
cacagtgaat taccacccca ag                                            22
 
<210>  163
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  163
ggggaggaga gggcaact                                               18
 
<210>  164
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  164
ggggaggaga gggcaact                                               18
 
<210>  165
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  165
cgccaagtgt tcatctgtgt c                                              21
 
<210>  166
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  166
ggcccaaacc tgaatctcc                                                19
 
<210>  167
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  167
agaggcgagg aagtcaccat c                                             21
 
<210>  168
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  168
gggaagcagg tggtcagtaa tc                                            22
 
<210>  169
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  169
tctcggtgct cctggctac                                                19
 
<210>  170
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  170
cgcacacgat ggagtagagg                                              20
 
<210>  171
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  171
gggttcaagt ggttctcgtg                                               20
<210>  172
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  172
tatcacagac gccagaggaa g                                             21
 
<210>  173
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  173
cccagtccct gtggtctctt c                                               21
 
<210>  174
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  174
actcagcgaa ctcagcactc c                                             21
 
<210>  175
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  175
tcagaagttt ttgagagtgg c                                              21
 
<210>  176
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  176
ctgtgatttg tatgtggtag c                                               21
 
<210>  177
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  177
cagagagact cccttagcac c                                             21
 
<210>  178
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  178
caatactctt ttcccctttc c                                               21
 
<210>  179
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  179
cgcttctgtt gctaggctc                                                 19
 
<210>  180
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  180
tgtcaacgtc gtgggcttc                                                19
 
<210>  181
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  181
gggacctgtc ttcctaactg c                                              21
 
<210>  182
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  182
tcgggctgtt tatcgttgtg                                                20
 
<210>  183
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  183
ttggtcgtct cctttctttc c                                               21
 
<210>  184
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  184
cctggcaact ctgtcattca c                                              21
 
<210>  185
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  185
ctactttatg aatgagccga gg                                             22
 
<210>  186
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  186
caatgcttcc ttgaggtccc                                                20
 
<210>  187
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  187
tgcgaactgg agtctgaggc                                              20
 
<210>  188
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  188
tgtccccaga acctgccacc                                               20
 
<210>  189
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  189
gcagatacaa actccaccct c                                             21
 
<210>  190
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  190
gggttctaag ttccgctctc                                                20
 
<210>  191
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  191
taaacactgt cacaagatgg c                                              21
 
<210>  192
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  192
tacaggtgat tctaccctat ga                                              22
 
<210>  193
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  193
cagcaggata gccaggaaga                                              20
 
<210>  194
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  194
tccctctggt tacaggaagc                                               20
 
<210>  195
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  195
aagcccactg agacccaagc                                              20
 
<210>  196
<211>  18
<212>  DNA
<213>  人工序列
 
<400>  196
gcacagggtg aggggatg                                               18
 
<210>  197
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  197
gagacgcgta aaacttgctg                                               20
 
<210>  198
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  198
gttctcaggt cagccttcca                                                20
 
<210>  199
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  199
aggaatagta gggattagta gc                                             22
 
<210>  200
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  200
tgtgcaagca ctttcgtctc                                                20
 
<210>  201
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  201
gggagtgtaa cccataacc                                               19
 
<210>  202
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  202
ccaccagcag accctcaag                                               19
 
<210>  203
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  203
gagagccagc gttcatgttg                                               20
 
<210>  204
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  204
ggctgagggt tgagatggag                                              20
 
<210>  205
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  205
gctaaaaatg tctgctttgt cc                                              22
 
<210>  206
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  206
tcatgaacaa gcaccaaact g                                             21
 
<210>  207
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  207
tgggtgtttt gtgaggctg                                                 19
 
<210>  208
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  208
ttgcctactc caaggtttta tg                                              22
 
<210>  209
<211>  23
<212>  DNA
<213>  人工序列
 
<400>  209
aataatgaat gtcagtgcca gtg                                            23
 
<210>  210
<211>  22
<212>  DNA
<213>  人工序列
 
<400>  210
gtcctacagg gaaaatgctc tc                                             22
 
<210>  211
<211>  20
<212>  DNA
<213>  人工序列
 
<400>  211
tgctgccatc tgttctttgc                                                 20
 
<210>  212
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  212
catctctgac ctcgggaaaa c                                              21
 
<210>  213
<211>  21
<212>  DNA
<213>  人工序列
 
<400>  213
tgggaaaggt ttgatgctga t                                              21
 
<210>  214
<211>  19
<212>  DNA
<213>  人工序列
 
<400>  214
acgtccgtgg agggaagtg                                               19

Claims (13)

1.一种用于非疾病诊断目的的增加测序读长的测序方法,其特征在于,包括以下步骤:
A.将第一锚定引物结合于待测核酸片段上的第一接头上;
B.在第一锚定引物延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第一锚定引物延伸末端后M个核苷酸的序列信息;
C.利用内切酶将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物;
D.酶切产物连接第二接头得到新待测核酸片段,将第二锚定引物结合于新待测核酸片段的第二接头上;
E.在第二锚定引物延伸末端分别连接带不同位置标记的荧光探针,并检测相应连接产物的荧光信号,得到第二锚定引物延伸末端后N个核苷酸的序列信息;
F.更换内切酶、接头、锚定引物和荧光探针,对前一步骤的产物进行酶切、接头连接、锚定引物结合、荧光探针连接和荧光信号检测;
G.重复步骤F,直至得到待测核酸片段中所需的核苷酸序列信息;
其中,M、N均为正整数,1≤M≤9,1≤N≤9;所述待测核酸片段含有营养指导基因序列、常规药物相关基因序列或易感基因序列;
所述营养指导基因是指在复制、转录、翻译表达过程中发生突变后对营养物质的代谢产生影响的基因,所述营养指导基因包括ABCB1、ADH2、ADH3、ALDH2、APOB、APOE、CAT、CYBA、CYP1A1、CYP2E1、ERCC2、LCT、LPL、MC1R、MCM6、MTR、MTRR、NOS3、OCA2、PARP1、PON1、SOD3、TYRP1、VDR和XRCC1中的至少一个;
所述常规药物相关基因是指与常规药物在生物体内代谢、释放、信号传导和受体蛋白编码相关的基因或等位基因,所述常规药物相关基因包括CYP1A2、CYP3A4、CYP3A5、CYP2C9、CYP2C19、CYP2D6、ABCB1、ADRB1、ADRB2、CACNA1C、NPPA、OPRM1和VKORC1中的至少一个;
所述易感基因是指和人体特定表征具有一定关联,能揭示人体遗传体质对健康利弊以及疾病易感性状况的基因或等位基因,所述易感基因包括ACE、ADH2、AGT、ALDH2、ALOX5AP、APE1、APP、ApoE、ARL4C、AT1R、BICD1、CASP7、CASP8、CASP9、CDH1、CDNK2A/2B、CH25H、CHEK2、CHRNB2、COX-1、COX-2、CST3、CYP1A1、CYP1A2、CYP2E1、CYP11B2、DCC、DEPDC5、DNMT3B、eNOS、EGF、ERCC1、ERCC2、ERCC6、Exo1、FAM91A1、FasL、FGF、FGFR2、FOXQ1、GABBR1、GSTM1、GSTP1、GSTP1、G-β3、HCG9、HLA-A、HLA-B/C、HLA-F、Hmlh1、hMLH1、HUMARA、IL-1β、IL1-B、IL-2、IL-8、IL-10、ITGA9、KIF1B、LDLR、LL、LOC727677、LOC、LRRK2、LTF、MDM2、MDS1-EVI1、MEF2A、MICA、MMP-1、MMP2、MMP9、MTRR、MYO1D、NDFIP2、OGG1、p53、P73、Parkin、PARK2、PDGF、PINK1、PLCE1、PRPSAP2、PSCA、PS-1、PS-2、Rb、RnBO、RNF5P1、RNF43、SORL1、SMAD7、SNCA、TERT、TGFB1、TGF-β1、TP53、TP63、TNFA、TNF-α、TNFRSF19、THSD7B、T-PA、UCH-L1、VEGF和XRCC1中的至少一个。
2.根据权利要求1所述的增加测序读长的测序方法,其特征在于,步骤A中所述待测核酸片段固定于固相载体表面。
3.根据权利要求2所述的增加测序读长的测序方法,其特征在于,在步骤A之前还包括步骤:
A0.利用固相载体对源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
4.根据权利要求3所述的增加测序读长的测序方法,其特征在于,所述步骤A0包括以下步骤:
A01.将用于扩增的源核酸固定于固相载体表面,得到表面含有至少一个核酸片段的固相载体;
A02.将引物结合于固相载体表面上的引物结合位点,得到固定有引物的扩增载体;
A03.对扩增载体上的源核酸进行扩增,得到固定于固相载体表面的待测核酸片段。
5.根据权利要求4所述的增加测序读长的测序方法,其特征在于,步骤A02中所述引物包括用于对所述源核酸进行扩增的上游引物和/或下游引物,所述上游引物是与源核酸5’端互补结合的核酸序列,所述下游引物是与源核酸3’端序列相同的核酸序列。
6.根据权利要求4所述的增加测序读长的测序方法,其特征在于,步骤A03中所述的扩增是单分子扩增。
7.根据权利要求4所述的增加测序读长的测序方法,其特征在于,所述步骤A02中引物结合于固相载体表面的方式为:
引物与固相载体表面携带的基团进行配对连接,实现直接结合;
或通过连接子携带的基团分别与引物和固相载体表面携带的基团进行配对连接,实现间接结合。
8.根据权利要求7所述的增加测序读长的测序方法,其特征在于,所述配对连接的方式采用生物素-亲和素/链霉亲和素、纳米金/碘乙酰-巯基、氨基-醛基/羧基/异硫氰基、丙烯酰胺-硅烷基/聚丙烯酰胺中的至少一种。
9.根据权利要求1所述的增加测序读长的测序方法,其特征在于,步骤A中所述第一锚定引物含有至少一个酶切识别位点。
10.根据权利要求9所述的增加测序读长的测序方法,其特征在于,所述步骤C包括以下步骤:
C1.将步骤B中连接的荧光探针与第一锚定引物洗脱,重置第一锚定引物并进行链延伸,与待测核酸片段形成双链核酸分子;
C2.内切酶通过识别第一锚定引物上所带的酶切识别位点并进行酶切,将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
11.根据权利要求1所述的增加测序读长的测序方法,其特征在于,步骤C包括以下步骤:
C1’.在第一锚定引物的另一端连接双链的接头三,该接头三含有至少一个酶切识别位点;
C2’.利用内切酶识别接头三所带的酶切识别位点,将步骤B中已得到序列信息的核苷酸部分或完全切除,得到含有待测序片段的酶切产物。
12.根据权利要求1至11中任一项所述的增加测序读长的测序方法,其特征在于,所述第一锚定引物含有至少一个特异性残基和/或一端是封闭的。
13.根据权利要求12所述的增加测序读长的测序方法,其特征在于,所述步骤B包括以下步骤:
B1.在含有特异性残基的第一锚定引物延伸末端连接带特定位置标记的荧光探针,检测相应连接产物的荧光信号,得到对应位置的核苷酸序列信息;
B2.以特异性切割剂切割特异性残基,将前一步骤中连接的荧光探针及第一锚定引物洗脱,重置第一锚定引物;
B3.在第一锚定引物延伸末端重复带特定位置标记的荧光探针的连接和相应荧光信号检测的操作,得到第一锚定引物延伸末端后M个核苷酸的序列信息。
CN201210232676.4A 2012-04-17 2012-07-06 一种增加测序读长的测序方法 Active CN102766689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210232676.4A CN102766689B (zh) 2012-04-17 2012-07-06 一种增加测序读长的测序方法

Applications Claiming Priority (10)

Application Number Priority Date Filing Date Title
CN2012101125397 2012-04-17
CN201210112538 2012-04-17
CN2012101125363 2012-04-17
CN201210112536.3 2012-04-17
CN2012101125382 2012-04-17
CN201210112539 2012-04-17
CN201210112538.2 2012-04-17
CN201210112539.7 2012-04-17
CN201210112536 2012-04-17
CN201210232676.4A CN102766689B (zh) 2012-04-17 2012-07-06 一种增加测序读长的测序方法

Publications (2)

Publication Number Publication Date
CN102766689A CN102766689A (zh) 2012-11-07
CN102766689B true CN102766689B (zh) 2015-07-22

Family

ID=47094256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210232676.4A Active CN102766689B (zh) 2012-04-17 2012-07-06 一种增加测序读长的测序方法

Country Status (1)

Country Link
CN (1) CN102766689B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105886608B (zh) * 2015-12-22 2019-11-12 武汉康昕瑞基因健康科技有限公司 ApoE基因引物组、检测试剂盒和检测方法
CN107177670B (zh) * 2017-05-31 2020-12-18 上海昂朴生物科技有限公司 一种高通量检测帕金森病致病基因突变的方法
CN107641645B (zh) * 2017-11-14 2021-02-19 北京阅微基因技术股份有限公司 心血管疾病个性化用药相关基因多态性检测体系及试剂盒
CN112805394B (zh) * 2018-12-07 2024-03-19 深圳华大生命科学研究院 长片段核酸测序的方法
CN113584161A (zh) * 2021-06-15 2021-11-02 湖南菲思特精准医疗科技有限公司 一种芬太尼代谢标志物的检测试剂盒及其检测方法和应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995020053A1 (en) * 1994-01-21 1995-07-27 Medical Research Council Sequencing of nucleic acids
CN1230226A (zh) * 1996-06-06 1999-09-29 林克斯治疗公司 通过连接经编码的衔接子进行测序
WO2003102216A2 (en) * 2002-05-31 2003-12-11 Diversa Corporation Multiplexed systems for nucleic acid sequencing
CN101168774A (zh) * 2007-11-06 2008-04-30 东南大学 实现dna序列分析中增加测序阅读长度的测定方法
CN101942000A (zh) * 2010-04-13 2011-01-12 深圳华因康基因科技有限公司 携带修饰物的核苷酸及其制备方法和用于基因测序的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102559918B (zh) * 2012-02-28 2014-10-01 盛司潼 一种利用酶切延伸增加读长的测序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995020053A1 (en) * 1994-01-21 1995-07-27 Medical Research Council Sequencing of nucleic acids
CN1230226A (zh) * 1996-06-06 1999-09-29 林克斯治疗公司 通过连接经编码的衔接子进行测序
WO2003102216A2 (en) * 2002-05-31 2003-12-11 Diversa Corporation Multiplexed systems for nucleic acid sequencing
CN101168774A (zh) * 2007-11-06 2008-04-30 东南大学 实现dna序列分析中增加测序阅读长度的测定方法
CN101942000A (zh) * 2010-04-13 2011-01-12 深圳华因康基因科技有限公司 携带修饰物的核苷酸及其制备方法和用于基因测序的方法

Also Published As

Publication number Publication date
CN102766689A (zh) 2012-11-07

Similar Documents

Publication Publication Date Title
AU2021282536B2 (en) Polynucleotide enrichment using CRISPR-Cas systems
EP3377625B1 (en) Method for controlled dna fragmentation
CN105886608B (zh) ApoE基因引物组、检测试剂盒和检测方法
CN108004301A (zh) 基因目标区域富集方法及建库试剂盒
KR102592367B1 (ko) 게놈 및 치료학적 적용을 위한 핵산 분자의 클론 복제 및 증폭을 위한 시스템 및 방법
KR20160096633A (ko) 핵산 프로브 및 게놈 단편을 검출하는 방법
CN102766688B (zh) 一种检测基因序列的方法
CN102766689B (zh) 一种增加测序读长的测序方法
CN102604934B (zh) 一种基于固相载体进行扩增及进行核酸测序的方法
CN110886021B (zh) 一种单细胞dna文库的构建方法
CN109576346A (zh) 高通量测序文库的构建方法及其应用
CN109536579A (zh) 单链测序文库的构建方法及其应用
CN110396539A (zh) 用于检测高血压用药相关基因多态性的试剂盒和方法
AU2014279672A1 (en) Improved NGS workflow
JP2022525373A (ja) メチル化されたdnaの標的領域に基づいてシーケンシングライブラリーを構築する方法、システム及び応用
TW202305143A (zh) 用於準確的平行定量核酸的高靈敏度方法
US20220090059A1 (en) Method and use for construction of sequencing library based on dna samples
US11136576B2 (en) Method for controlled DNA fragmentation
KR20240037181A (ko) 핵산 농축 및 검출
CN102586421B (zh) 一种检测易瑞沙适用性基因的方法及试剂盒
EP4215619A1 (en) Methods for sensitive and accurate parallel quantification of nucleic acids
EP4332238A1 (en) Methods for accurate parallel detection and quantification of nucleic acids
CN102533991B (zh) 一种检测嗜酒基因的方法及试剂盒
JP2024035110A (ja) 変異核酸の正確な並行定量するための高感度方法
CN117940581A (zh) 核酸的富集和检测

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20121107

Assignee: Shenzhen HYK Gene Technology Co., Ltd.

Assignor: Sheng Sichong

Contract record no.: 2013440020062

Denomination of invention: Sequencing method for increasing sequencing reading length

License type: Common License

Record date: 20130227

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C14 Grant of patent or utility model
GR01 Patent grant