发明内容
本发明的目的是提供一种高效、全面测定样品中小RNA种类的方法。
本发明的另一目的在于提供一种高效制备高质量的、特别适用于cPAL测序平台的小RNA单链环状文库的方法以及用该方法制备的高质量的小RNA单链环状文库。
在本发明的第一方面,提供了一种单链环状小RNA文库的构建方法,包括步骤:
(a)提供分离的总RNA样本;
(b)对所述的总RNA样本进行纯化处理,从而获得纯化的总RNA;
(c)在所述的纯化的总RNA的3’端连接带有条形码(barcode)的3’接头,从而获得3’端带有条形码(barcode)的3’接头的总RNA;
(d)将上述步骤(c)中获得的所述的3’端带有条形码(barcode)的3’接头的总RNA,与反转录引物在3’接头区域进行退火,从而获得退火产物;
(e)对上一步骤(d)获得的所述退火产物进行5’接头连接,从而带有5’接头的所述退火产物;
(f)对上一步骤(e)中获得的带有5’接头的所述退火产物进行反转录,从而获得两端带有接头的cDNA;
(g)对上一步骤(f)中获得的cDNA产物进行PCR扩增,从而获得DNA扩增产物;
(h)对上一步骤中得到的所述DNA扩增产物,用聚丙烯酰胺凝胶电泳分离并回收85-97bp(对应于***片段为18-30bp)小RNA的扩增产物,获得纯化的DNA片段;
(i)将上一步骤中获得的纯化DNA片段,与标记有亲和素的磁珠通过“亲和素-生物素”进行结合,并碱性溶液进行处理,使没有生物素标记的那条链从磁珠上分离下来,再用酸溶液进行中和,从而获得两端带有接头序列的单链DNA溶液;
(j)在上一步骤中得到的所述的两端带有接头序列的单链DNA溶液中,加入与两端接头序列匹配的桥式DNA引物和连接酶,进行单链环化反应,从而获得含有单链环化分子的混合物;
(k)对上一步骤中所述的含单链环化分子的混合物,用特异性线性核酸酶消化掉未环化的单链DNA以及桥式DNA引物;从而获得含有未消化的单链环化产物的混合物;
(l)对上一步骤中的所述含有未消化的单链环化产物的混合物进行纯化定量,分离出所述的环化产物,从而获得小RNA测序单链环状DNA文库。
在另一优选例中,在步骤(h)中聚丙烯酰胺凝胶电泳分离并回收的小RNA扩增产物的长度为85-97bp(对应于***片段为18-30bp)。
在另一优选例中,在步骤(c)中,所述的3’接头设有用于以区分不同的样品的条形码(barcode)区,以及与cPAL测序的锚定序列相匹配的锚定匹配区。
在另一优选例中,所述3’接头的5’端被腺苷酰化修饰。
在另一优选例中,所述的条形码区的长度为10bp。
在另一优选例中,所述的条形码区的序列选自下组:SEQ ID NO:1-8。
TGTCATAAAT(SEQ ID NO.:1),
TTAATTAAGG(SEQ ID NO.:2),
GACTCACTGA(SEQ ID NO.:3),
ATAAGGCAGT(SEQ ID NO.:4),
TTGATAGATT(SEQ ID NO.:5),
CCTTCCTGGT(SEQ ID NO.:6),
AATATCTCTC(SEQ ID NO.:7),
CATGTTTCCC(SEQ ID NO.:8)。
在另一优选例中,整个3’接头的5’-3’序列为如下式I结构:
Z1-Z2-Z3 (I)
式中,
Z1为GTCTCCAGTCGAAGCCCGATC(SEQ ID NO.:9);
Z2为长度为8-12bp的条形码区;较佳地为SEQ ID NO.:1-8中任一所示的条形码区;
Z3为GAGCTTGTCT(SEQ ID NO.:10)。
在另一优选例中,在步骤(d)中,所述的反转录引物带有与3’接头完全匹配的条形码(barcode);
在另一优选例中,步骤(d)中,所述的接头中包括一种或多种不同的条形码区。
在另一优选例中,步骤(e)中所述的5’接头是一段RNA序列:5’-rUrCrCrUrArArGrArCrCrGrCrUrUrGrGrCrCrUrCrCrGrArCrUrU-3’(SEQ ID NO.:11),所述的RNA序列与cPAL测序的锚定序列相匹配,其5’端和3’未作特殊修饰;
在另一优选例中,在步骤(g)中,在所述的PCR扩增时,下游引物使用反转录引物5’AGACAAGCTCNNNNNNNNNNGATCGGGCTTCGACTGGAGAC-3’(SEQ ID NO.:12),上游引物使用与5’接头序列相同的DNA序列(SEQ ID NO.:13/5’bio-TCCTAAGACCGCTTGGCCTCCGACTT-3’),并且在上游引物的5’端有一个生物素标记。
在另一优选例中,在步骤(h)中,所述的聚丙烯酰胺凝胶浓度为4-8%,较佳的为5-8%,更佳的为6-7%。
在另一优选例中,所述的琼脂糖凝胶浓度为4%。
在另一优选例中,所述的聚丙烯酰胺凝胶浓度为6%。
在另一优选例中,步骤(i)中,所述的磁珠上固定有用于捕获DNA分子的寡核苷酸序列。
在另一优选例中,所述的寡核苷酸序列与所述接头序列是互补的。
在另一优选例中,步骤(i)中,所述的磁珠通过生物素-链霉素相互作用,捕获所述的DNA分子。
在另一优选例中,步骤(g)中,所述的引物对包括:
正向引物:(SEQ ID NO.:12:5’AGACAAGCTCNNNNNNNNNNGATCGGGCTTCGACTGGAGAC-3’)和
反向引物:/5-bio/(SEQ ID NO.:13/5-bio/TCCTAAGACCGCTTGGCCTCCGACTT-3’);
其中,/5-bio/表示5’端的生物素修饰基团。
在另一优选例中,在步骤(h)和(i)之间,还包括:用荧光染料对纯化的DNA片段进行含量测定,从而确定纯化DNA片段的总量。
在另一优选例中,步骤(i)中,用于该步骤的DNA片段的总量不低于200ng,较佳地不低于300ng,更佳地不低于400ng。
在另一优选例中,步骤(i)中所述的亲和素的磁珠为链霉素磁珠。
在另一优选例中,步骤(j)中,所述的桥式DNA引物的序列为(SEQ ID NO.:14)5’-GAGCTTGTCTTCCTAAGACCGC-3’。
在另一优选例中,步骤(k)中,所述的核酸酶为外切酶。
在另一优选例中,步骤(k)中,所述的核酸酶为特异性切割单链和双链线性DNA的外切酶。
在另一优选例中,所述的外切酶包括ENo I和ENo III的混合酶。
在另一优选例中,在步骤(l)之后,还包括步骤:
(m)对所述的小RNA测序单链环状文库进行浓度标准化处理,从而获得预定浓度7.5fmol/ul的小RNA测序单链环状文库;
(n)对步骤(m)中所述的预定浓度的小RNA测序单链环状文库进行滚环复制形成纳米球(DNA nanoball,DNB),然后用联合探针锚定连接测序(combinatorial probe-anchorligation,cPAL)方法进行测序。
在另一优选例中,步骤(m)中,所述的预定浓度为单链分子约6-9fmol/ul,较佳地为约7.5fmol/ul。
在另一优选例中,步骤(n)中所述的单链环状小RNA长度为85-97nt(对应于18-30nt的***片段的长度)。
在本发明的第二方面,提供了用于小RNA测序的单链环状文库,所述的单链环状文库是用本发明的第一方面提供的构建方法制备的。
在另一优选例中,所述的小RNA单链环状文库是微型RNA(miRNA)单链环状文库。
在另一优选例中,所述的小RNA单链环状文库是短的干扰RNA(siRNA)单链环状文库。
在另一优选例中,所述的小RNA单链环状文库是细胞核小RNA(snRNA)单链环状文库。
在另一优选例中,所述的小RNA单链环状文库是包括miRNA、siRNA、核仁小RNA(snoRNA)和(snRNA)或其组合的单链环状文库。
在另一优选例中,所述的小RNA单链环状文库,具有选自下组的一个或多个特征:
(1)单链环状的DNA分子;
(2)大小为85-97bp;
(3)浓度为约6-9fmol/ul(较佳地约7.5fmol/ul)。
在本发明的第三方面,提供了本发明第二方面所述的小RNA测序单链环状文库的用途,该用途用作cPAL方法的文库。
在另一优选例中,所述的测序为小RNA测序。
在另一优选例中,所述的小RNA测序包括生物体的总小RNA测序。
在另一优选例中,所述的生物体包括人、动物或植物。
在另一优选例中,所述的动物包括小鼠。
在另一优选例中,所述的植物包括水稻。
在另一优选例中,所述的小RNA测序包括生物体细胞的总小RNA测序
在另一优选例中,所述的小RNA测序包括人细胞的总RNA测序。
在另一优选例中,所述的细胞至少包括体细胞、生殖细胞、胚胎细胞、干细胞、肿瘤细胞。
应理解,在本发明范围内中,本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合,从而构成新的或优选的技术方案。限于篇幅,在此不再一一累述。
具体实施方式
本发明人通过广泛而深入的研究,首次开发了一种高效制备高质量的、可用于小RNA单链环状分子文库构建的新技术。实验结果证明,用本发明所述建库方法所构建的小RNA测序单链环状文库,其文库质量非常高,使之能用于cPAL原理测序平台,所得到的数据准确度高、可信度佳,对信息分析没有影响。在此基础上完成了本发明。
具体地,本发明人通过用与3’接头相同长度的反转录引物退火的方式,从而形成双链DNA,通过PCR时引入的生物素标记,分离出单链DNA并将之环化形成单链环状分子,把不同样品混合切胶回收的方法以提供足够的产物进行下一步的反应;开发了小RNA单链环状分子文库的构建方法,使之能用于cPAL原理测序的平台。
术语
在本发明中,术语“小RNA”指包括几种小RNA分子的不同类型的非编码RNA:微型RNA(miRNA),短的干扰RNA(siRNA),核仁小RNA(snoRNA)和细胞核小RNA(snRNA)。18-30nt主要是微型小RNA。
DNA条形码(DNA barcode)
DNA条形码(DNA barcode)是易扩增、相对较短且具有识别性的DNA片段。
利用DNA条形码,可以在一次测序中测定来自于多个物种、来自于多个个体、或来自于同一个体的不同样本,并基于各自随携带的特异性DNA条形码,直接对测序的读序进行分类,以便于汇总分析。
cPAL测序平台
联合探针锚定序列连接方法(combinatorial probe-anchor ligation,cPAL),在测序方面,用单个碱基读取荧光信号的连接测序,但其荧光探针来源独立的探针库,该探针库与锚定序列发生连接反应,通过荧光颜色对应读取相应的碱基信息,利用DNA纳米球阵列芯片技术,可运用多个普通探针,联同标准锚定序列和延伸锚定序列进行杂交和连接检测。这多个普通探针分为两组,一组用于检测接头位点的5’端,一组检测接头位点的3’端。每组有多型,每型有4种普通探针。标准锚定序列直接与接头的5’或3’端连接,随后普通探针进行杂交和连接。延伸的锚定序列由兼并和标准锚定序列连接而成。这种组合的探针锚定序列连接方法(combinatorial probe-anchor ligation,cPAL)使序列读长由5个碱基增加到10个碱基,再通过多种随机的6碱基序列组合占位,可使读长增加到28bp。
构建文库的方法
本发明人通过用与3’接头相同长度的反转录引物退火的方式以减少过量的3’接头与5’接头的连接,从而形成3’接头+***片段+5’接头的双链DNA,通过PCR时引入的生物素标记,分离出单链DNA并将之环化形成单链环状分子,把不同样品混合切胶回收的方法以提供足够的产物进行滚环复制制备成DNA纳米球(DNA nanoball,DNB),然后用cPAL测序平台对小RNA单链环状分子进行测序,获得高通量、信号均一及准确率高的小RNA单链环状分子文库。
单链环状文库
在本发明中,还提供了用本发明上述文库构建方法所制备的适用于小RNA分子测序的单链环状文库。
在本发明的优选例中,本发明人通过用与3’接头相同长度的反转录引物退火的方式,形成双链DNA,同时使加完3’接头后过量的接头被反转录引物所吸收,大大降低了过量的接头再被T4RNA ligase 1识别并连接到5’接头上的几率,在进行PCR扩增时这种接头自连的扩增产物也很大程度减少,从而有效降低了切胶回收时靶物片段受污染的几率。此外,选用不同样品,进行多次混合切胶回收的方法以提供足够的产物进行滚环复制制备成DNB,形成缠绕折叠的线性DNA纳米球(DNB)。控制滚环复制的时间就可以控制DNB的大小,也就是相同的复制时间获得的DNB大小是一样的,把这些相同大小的DNB通过重力作用,就可以使之均匀的平铺在芯片上,这样测序时获得的DNB的信号就是均一的,从而提高了测序的准确率。此外,特别值得一提的是,基于联合探针锚定连接测序技术(combinatorial probe-anchor ligation,cPAL)的高通量测序平台需要的文库是一种带有接头序列的单链环状分子,实验结果证明利用本发明的小RNA单链环状文库通过cPAL测序所获得的测序数据准确度高。
本发明主要优点在于:
(1)首次发明了用于小RNA测序中单链环状文库的构建方法。
(2)本发明的小RNA单链环状文库可用于cPAL测序平台。
(3)本发明提供的方法具有测序通量高,准确度高和操作简便。
(4)本发明提供的方法不但具有耗材耗时少且稳定性,可重复性和可靠性高的特点。
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)或植物分子生物学-实验手册(Plant Molecular Biology-A LaboratoryMannual,Melody S.Clark编,Springer-verlag Berlin Heidelberg,1997)中所述的条件,或按照制造厂商所建议的条件。除非另外说明,否则百分比和份数按重量计算。
材料和方法
1.人细胞的RNA标准品(UHRR和HBRR),小鼠RNA以及水稻RNA
本发明实施例中所用的实验材料如无特殊说明均可从市售渠道获得,其中,UHRR购自安捷伦公司(Agilent),HBRR购自Ambion公司,小鼠RNA和水稻RNA分别是从小鼠肝脏和日本晴叶片组织提取。
实施例1 小RNA单链环状文库的构建
具体实验步骤(见图1中所示流程步骤):
1.带有条形码(barcode)的3’接头的连接。该3’接头是一段DNA序列,与cPAL测序的锚定序列相匹配,并且带有10bp的条形码(barcode)序列,以便于区分不同的样品。在3’接头的5’端有腺苷酰化修饰,该修饰能够在没有三磷酸腺苷(ATP)的条件下被T4RNAligase 2truncated特异性识别,将其连接到RNA的3’羟基上,这样能够避免带有5’磷酸的RNA发生自连。具体的反应过程为:取1ug总RNA,加入1ul 10uM的3’接头,PCR仪中70℃反应2分钟,以打开序列的二级结构。再加入反应混合液:2N T4RNA ligase buffer5ul,RNase抑制剂(40U/ul)0.5ul,T4RNA ligase 2truncated(200U/ul)1ul,补无RNA酶水至反应体积为10ul。其中2N T4 RNA ligase buffer包括:100mMTris-HCl,20mM MgCl2,2mM DTT,25%的PEG8000,其余试剂为无RNA酶水。把反应混合液混匀后,在PCR仪中,25℃反应2小时。
2.加入反转录引物与3’接头进行退火,以阻止过量的3’接头在下一步反应中与5’接头发生连接。由于3’接头是带有条形码(barcode)的,所加入的反转录引物必须与3’接头完全匹配,也要带有条形码(barcode),这样二者退火形成双链,过量的3’接头就不能被RNAligase识别并连接到5’接头上,减少了接头自连的形成。具体反应过程为:取0.5ul 100uM的带有条形码(barcode)的反转录引物加入加完3’接头的连接反应液中混匀,放入PCR仪中反应,反应程序为:75℃5min,37℃30min,25℃15min。
3.5’接头的连接。5’接头是一段RNA序列,该序列同样与cPAL测序的锚定序列相匹配,其5’端和3’端未作特殊修饰,所以两端都是羟基。在ATP的存在下,使用T4RNA ligase 1能将RNA的5’磷酸基团与5’接头的3’羟基连接在一起。连接反应条件为:取1ul 10uM 5’接头,PCR仪中70℃反应2分钟,以打开序列的二级结构。冰上冷却2分钟后,将其加入步骤二的反应产物中,然后加入酶反应混合液:10mM ATP 1ul,RNase抑制剂(40U/ul)1ul,T4RNAligase 1(10U/ul)1ul。混匀后在PCR仪中20℃反应1小时。
4.反转录合成两端带有接头的cDNA并进行PCR扩增。由于在步骤二中已经加入了反转录引物,因此直接加入反转录的酶反应混合物进行反应即可:5N第一链缓冲液5ul,0.1M DTT 0.5ul,10mM dNTP 0.5ul,RNase抑制剂(40U/ul)0.5ul,superscript II(200U/ul)0.5ul。反应程序为:42℃30min,70℃15min,12℃保温。反转录后需要进行PCR扩增以富集带有接头序列的单链cDNA模板,扩增时下游引物使用反转录引物,上游引物与5’接头的序列相同,不过是DNA序列,并且在上游引物的5’端有一个生物素标记,以便于后续的单链分离反应。PCR反应体系为:
cDNA |
10ul |
上游引物 |
1ul |
10N pfN缓冲液 |
2ul |
50mM硫酸镁 |
0.4ul |
10mM dNTP |
0.6ul |
pfN |
0.4ul |
水 |
4.6ul |
total |
20ul |
反应程序为:
5.6%聚丙烯酰胺凝胶电泳分离并回收相应位置的小RNA片段。由于前面的酶反应过程都是针对总RNA的,如果把他们全部拿去测序则需要测很大的数据量才能得到足够的小RNA信息。因此需要通过电泳回收纯化来富集小RNA的PCR产物。这个产物可以通过6%聚丙烯酰胺凝胶电泳或4%的琼脂糖凝胶进行回收,但是后者的回收效率不如前者,因此我们选用了6%聚丙烯酰胺凝胶电泳。一个样品回收的产量比较低,不能满足后续的实验起始量,所以我们将8个带有不同条形码(barcode)样品的PCR产物混合在一起,再进行电泳回收纯化,这样不仅节省了切胶的时间,而且还减少了物料消耗的成本。选择8种条形码(barcode)进行混合则是为了在测序时使1个通道的测序文库达到碱基平衡。具体的内容为:把8种不同barcode的样品混合起来约160ul,加32ul6×loading buffer,分6个加样孔上样到6%聚丙烯酰胺凝胶;另取2ul 20bp DNA ladder marker加样于中间一孔。180V电泳约25分钟,溴酚蓝跑到距下沿约1/5处,即可停止电泳。染胶4-5分钟。拍照,见图2。切下约80-100bp的条带,将切下的主带胶块置于0.5ml已扎孔的离心管(套在2ml离心管上),13600rpm离心2分钟,使胶块通过小孔挤成碎胶。在碎胶中加入400ul 0.3MNaCl,室温下混匀器颠倒混匀2小时,洗脱DNA。将碎胶和缓冲液转入Spin-N filter,13600rpm离心2分钟。向洗脱液中加入2ul完全融化的糖原,40ul 3M NaAC(NaAC的体积=1/10倍的洗脱液体积),1000ul 100%乙醇(乙醇体积按照洗脱液的体积计算)。混匀后-80℃放置30分钟或更长,以提高回收效率,4℃13600rpm离心30分钟。离心后会见到白色沉淀,弃上清,再用1000ul70%或75%乙醇洗涤沉淀,晾干,用30ul洗脱溶液溶解白色沉淀。荧光染料定量检测DNA浓度,取总量不低于200ng,进行后续的单链分离及环化过程。
6.把步骤5回收的产物分离出一条单链DNA,并进行桥式环化,纯化后定量,即可用于cPAL测序。PCR的过程中,通过引物在PCR产物的一条链上的5’端引入了生物素标记,这个标记能够稳定结合到链霉素磁珠上,然后用碱溶液破坏DNA双链间的氢键,使没有生物素标记的那条链从磁珠上分离下来,再用酸溶液进行中和,就得到两端带有接头序列的单链DNA溶液。向这个单链DNA溶液中加入一段与两端接头序列匹配的桥式DNA引物以及连接酶等,使单链DNA形成一个环状分子。最后用线性外切酶消化掉未环化的单链DNA以及桥式DNA引物并纯化定量,即得到可用于cPAL测序的小RNA单链环状DNA文库。具体的内容为:将步骤五获得的PCR产物补水至体积为60ul,加入20ul 4NBBB(磁珠结合缓冲液),混匀后将其加入用1NBBB悬浮的链霉素磁珠,结合15分钟后,在磁分离器上分离磁珠,弃掉上清,再用BWB(磁珠清洗缓冲液)清洗磁珠两次,磁分离器上分离磁珠并吸干BWB后,用26ul 0.1M NaOH重悬磁珠,反应15分钟后,磁分离器上分离磁珠,吸取上清到一个新的离心管中,再加入13ul 0.3M的丙磺酸中和碱溶液,即得到单链DNA分子。向单链DNA分子中加入2.5ul的桥式DNA引物,6ul 10NTA buffer,0.6ul 100mM ATP和0.4ul DNA ligase(600U/ul),用水补总体积至60ul,混匀后37℃反应1.5小时。反应结束后再加入外切酶消化混合物:1ul 10NTA buffer,2.1ul外切酶I(20U/ul)和1.4ul外切酶III(100U/ul)。混匀后37℃反应30分钟,再加入2.5ul 500mM EDTA终止反应。反应产物补水40ul,再加入10ul NaAc,2ul糖原,300ul无水乙醇,混匀后-80℃沉淀30分钟以上,4℃13600rpm离心30分钟,弃上清,再用600ul 75%乙醇洗涤沉淀,离心弃去乙醇后,室温下晾干后用27ul溶解缓冲液溶解沉淀。最后获得的溶液即为单链环状的小RNA文库。
7.浓度标准化
按照单链分子定量测定的浓度调整DNB制备使用的样本起始量统一调整为7.5fmol/ul。
8.文库上机测序。测序使用cPAL测序平台。
结果
对步骤1-7中制备的小RNA单链环状文库,采用cPAL测序平台(型号为BlackBird)进行测序。
对测序所产生的数据,用cPAL测序平台自带的程序Teramap进行信息分析,主要以下步骤:
(1)过滤测序序列;
过滤不合格序列包括:序列中测序结果不确定的碱基(如cPAL测序平台测序结果中的N)个数超过整条序列碱基个数的10%则认为是不合格序列;除样本接头序列外,与其它实验引入的外源序列比对,如各种接头序列。若序列中存在外源序列则认为是不合格序列。原始的序列数据经过去除不合格序列处理后得到的序列数据我们称为干净的序列片段(clean reads),作为后续分析的基础。
(2)干净的序列片段与参考序列比对;
将高通量测序技术得到的干净的序列片段分别比对到参考基因组和参考基因序列上。参考基因组序列和参考基因序列可取于公共数据库GeneBank和miRBase。