CN106192023A

CN106192023A - 一种基于多维Index的多重测序文库构建方法

Info

Publication number: CN106192023A
Application number: CN201610645867.1A
Authority: CN
Inventors: 赵倍伦
Original assignee: Beijing Institute of Genomics of CAS
Current assignee: Beijing Institute of Genomics of CAS
Priority date: 2016-08-08
Filing date: 2016-08-08
Publication date: 2016-12-07

Abstract

本发明属于分子生物学领域，具体涉及一种基于多维Index的多重测序文库构建方法。本发明的目的是针对现有技术的不足，提供一种对样品进行Index标记的多重测序文库构建方法，所述的多重测序文库构建方法基于多维Index设计，通过两轮PCR扩增，在每轮PCR扩增时对同一个样品引入1‑2个Index，从而使得使用相对较少的Index数目，能够获得相对更多的Index组合，大大提高多重测序可混合分析的样品数量。本发明提供的方法能够实现使用40个Index完成对多达10000个不同样品进行标记。

Description

一种基于多维Index的多重测序文库构建方法

技术领域

本发明属于分子生物学领域，具体涉及一种基于多维Index的多重测序文库构建方法。

背景技术

高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，以能一次并行对几十万到几百万条DNA分子进行序列测定和一般读长较短等为标志，为基因组学和后基因组学研究带来了新的科研方法和解决方案。在动植物研究领域，高通量测序引领了一次具有里程碑意义的科学研究模式革新，科研人员可利用该技术在基因组、转录组和表观基因组等领域展开多层次多方面多水平的研究。目前，所说的高通量测序技术主要是指454 Life Sciences公司、ABI公司和Illumina公司推出的第二代测序技术以及Helicos Heliscope^TM和Pacific Biosciences推出的单分子测序技术。

为了节约测序成本，使测序平台更加高效的运行，或基于科学研究的需求，通常会采用多重测序(Multiplexedsequencing)技术，即在构建测序文库时，借助PCR引物，用不同的索引标签(Index)标记不同样品后，将不同样品混合起来上机测序，测序结束后通过识别Index来区分同一条泳道(Lane)中的不同样品数据。

多重测序技术极大程度的降低了测序成本，节约测序资源，并且给生物学研究提供的便利手段。例如，在进行微生物多样性研究时，通常需要对数百个样品的多样性进行分析，若没有多重测序技术，科研资金成本和时间成本将大大增加。

尽管目前的多重测序文库构建技术提高了测序平台的混合样品测序能力，然而在实际应用中仍不能很好地满足科研或商业对更大数量混合样品测序的需求。例如Illunima公司的Nextera XT Index Kit，其中包含20个(12+8)不同Index，能够提供96种(12×8)Index组合，即能够实现96个不同样品在同一个泳道的混合测序。在面对实际研究(例如土壤微生物或肠道微生物等的多样性分析)时，需要测定的样品数量多达数百个，甚至上千个，因此目前的多重测序文库构建技术，已无法满足需求。与此同时，实际测序反应发现，Index序列一定程度影响混合样品的测序数据平衡性，并非任何核苷酸序列都适合用作Index。一些成熟的加Index的试剂盒中提供的Index序列通常都是经过大量测序测试挑选出的比较稳定的序列。

综上所述，如何更加高效的利用Index序列，开发一种新型多重测序文库构建方法，使得用尽量少的Index数量获得尽可能多的Index标记组合，进一步提高混合测序可分析的混合样品数量，降低分析成本，缩短科研周期，是分子生物学领域亟待解决的重要问题。

发明内容

除非另外定义，本文中使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同意义。

本发明中的术语“Index”指索引标签，具体指一段用于区分不同测序样品的核苷酸序列；术语“PCR”指聚合酶链式反应；术语“目的基因”指需要进行测序的基因序列；术语“目的基因的正向扩增引物”和“目的基因的反向扩增引物”指能够通过PCR扩增出目的基因的一对引物。

本发明的目的是针对现有技术的不足，提供一种对样品进行Index标记的多重测序文库构建方法，所述的多重测序文库构建方法基于多维Index设计，通过两轮PCR扩增，在每轮PCR扩增时对同一个待测序目的基因样品引入1-2个Index，从而使用相对较少的Index数目，能够获得相对更多的Index组合，大大提高多重测序可混合分析的样品数量。

所述的多重测序文库构建方法包括以下步骤：

(1)、扩增PCR：通过PCR方法扩增待测序的目的基因，并利用引物1和引物2引入两个Index；使用引物1和2对待测样品中的目的基因进行扩增获得的扩增产物的核苷酸序列包含目的基因和两个Index，且目的基因位于两个Index之间；

(2)、建库PCR：以步骤(1)获得的扩增产物作为模板，使用引物3和引物4对步骤(1)获得的扩增产物进行PCR扩增，并利用引物3和引物4引入两个Index；使用引物3和4对步骤(1)获得的扩增产物进行扩增后，获得的扩增产物的核苷酸序列包含目的基因、步骤(1)引入的两个Index和本步骤引入的两个Index。

所述的引物1为包含一个Index的目的基因的正向扩增引物；其中所述的Index通过或不通过连接子和基因的正向扩增引物的5’端连接。

所述的引物2为包含一个Index的目的基因的反向扩增引物；其中所述的Index通过或不通过连接子和基因的反向扩增引物的5’端连接。

在本领域中，在构建测序文库时，常会通过引入各种接头序列。所述的引物1和引物2中还可以包含接头序列。

所述的引物1中的Index和引物2中的Index的核苷酸序列不同。

所述的引物1中的Index的长度为1-15bp；优选为2-14bp；更优选为3-13bp；进一步优选为4-12bp；再进一步优选为5-10bp；更进一步优选为6-9bp。

所述的引物2中的Index的长度为1-15bp；优选为2-14bp；更优选为3-13bp；进一步优选为4-12bp；再进一步优选为5-10bp；更进一步优选为6-9bp。

所述的引物3的核苷酸序列包含一个Index和所述的引物1的5’端的连续8-25个核苷酸。

所述的引物4的核苷酸序列包含一个Index和所述的引物2的5’端的连续8-25个核苷酸。

所述的引物3和引物4中还可以包含接头序列，例如测序接头。

所述的引物3中的Index和引物4中的Index的长度为0-15bp；优选为2-14bp；更优选为3-13bp；进一步优选为4-12bp；再进一步优选为5-10bp；更进一步优选为6-9bp；所述的引物3中的Index和引物4中的Index的长度不能同时为0bp。

所述的引物3中的Index和引物4中的Index的核苷酸序列不同。

所述的引物1-4中的Index的核苷酸序列各不相同。

与现有技术相比，本发明通过两轮PCR扩增，两次引入Index，使得能够标记的样品数量成倍增加。本发明提供的多重测序文库构建方法能够利用相对较少的Index数目标记相对更多的待测序样品。例如使用12个Index，能够获得3*3*3*3种不同的Index组合，也就是使用12个不同的Index(也可以说12条引物)就能对81个不同的样品进行标记。当Index的数目剧增加为25个时，用本发明提供的方法则能够获得5*5*5*5种不同的Index组合，即使用20个不同的Index(也可以说20条引物)能够实现对625个不同样品进行标记。而Illunima公司提供的Nextera XT Index Kit，同样使用20个Index，但其提供的方法只能实现对96个不同样品进行标记。若进一步将Index1、Index2、Index3和Index4的数目剧增加为10个时，用本发明提供的方法能够能够获得10*10*10*10种不同的Index组合，即使用40个不同的Index(也可以说40条引物)能够实现对多达10000个不同样品进行标记。而Illunima公司提供的Nextera XT v2 Index Kit同样使用42条引物，只能够标记384个样品。

由此可见，在使用相同数目的Index的情况下，本发明提供的方法能够标记的样品数目远远大于现有技术，进而使得多重测序可混合的样品数目大大提高。

附图说明

图1为本发明所述的多重测序文库构建方法的示意图。其中A：建库接头1；B：Index1；C：目的基因的正向扩增引物；D：目的基因的反向扩增引物；E：Index2；F：建库接头2；G：测序接头；H：Index3；I：建库接头1的5’端的连续8-25个核苷酸；J：建库接头2的5’端的连续8-25个核苷酸；K：Index4；L：测序接头。

具体实施方式

以下实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。对所公开的实施例的下述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例中，而是可以应用于符合与本文所公开的原理和新颖特点相一致的更宽的范围。虽然在本发明的实施或测试中可以使用与本发明中所述相似或等价的任何方法和材料，本文在此处例举优选的方法和材料。

本发明中的术语“ddH₂O”指双蒸水。

实施例中未注明具体技术或条件者，按照本领域内的文献所描述的技术或条件(例如参考J.萨姆布鲁克等著，黄培堂等译的《分子克隆实验指南》，第三版，科学出版社)或者按照产品说明书进行。

KOD-Plus-Neo购自TOYOBO公司；Agencourt AMPure XP磁珠购自Beckman公司；蝎子肠道样品由中科院北京基因组研究所提供；引物合成委托生工生物工程股份有限公司进行。

实施例1本方法用于肠道微生物多样性研究

使用10条引物，其中有9条引物中个包含一个Index，对27个不同地区来源的蝎子肠道样品添加Index标签，构建多重测序文库。

一、引物设计：

引物1-1，其核苷酸序列如SEQ ID NO：1所示；引物1-2，其核苷酸序列如SEQ IDNO：2所示；引物1-3，其核苷酸序列如SEQ ID NO：3所示；引物2-1，其核苷酸序列如SEQ IDNO：4所示；引物2-2，其核苷酸序列如SEQ ID NO： 5所示；引物2-3，其核苷酸序列如SEQ IDNO：6所示；引物3-1，其核苷酸序列如SEQ ID NO：7所示；引物4-1，其核苷酸序列如SEQ IDNO：8所示；引物4-2，其核苷酸序列如SEQ ID NO：9所示。引物4-3，其核苷酸序列如SEQ IDNO：10所示。

其中引物1-1、1-2、1-3、2-1、2-2、2-3、4-1、4-2和4-3中各含有1个Index序列，也就是利用9个Index，使用10条引物实现对27个不同样品进行标记，构建测序文库。

引物1-1、1-2和1-3中的1-19bp为建库接头1序列；20-27bp为Index序列；28-44为扩增细菌16S rRNA的简并引物序列。

引物2-1、2-2和2-3中的1-22bp为建库接头2序列；23-30bp为Index序列；31-50为扩增细菌16S rRNA的简并引物序列。

引物3-1中的1-30bp为测序接头序列；31-46bp为引物2-1中的5’端的16个连续核苷酸，该引物中没有Index序列。

引物4-1、4-2和4-3中的1-24bp为测序接头序列；25-30bp为Index序列；31-47bp为引物1-1中的5’端的17个连续核苷酸。

27个样品为27个不同地区来源的蝎子肠道样品。

二、测序文库的构建：

1、样品基因组DNA的提取：

蝎子肠道样品采用QIAamp DNA Stool Mini Kit(50)试剂盒(购自Qiagen公司)提取，共获得27个不同基因组DNA；

2、扩增PCR：

将引物1-1、1-2、1-3、2-1、2-2和2-3两两组合构成以下9个引物对：

引物对1：引物1-1和引物2-1；

引物对2：引物1-1和引物2-2；

引物对3：引物1-1和引物2-3；

引物对4：引物1-2和引物2-1；

引物对5：引物1-2和引物2-2；

引物对6：引物1-2和引物2-3；

引物对7：引物1-3和引物2-1；

引物对8：引物1-3和引物2-2；

引物对9：引物1-3和引物2-3；

将27个样品随机分成9组，每组3个样品，用上述9个引物作为引物，分别以步骤1获得的27个基因组DNA作为模板，进行PCR扩增，扩增样品中的16S rRNA，获得9组，共27个扩增产物；

扩增PCR反应体系如下表所示：

成分	含量
		基因组DNA(10ng/μL)	2μL
引物(10μM)	各0.75μL
		MgSO₄(25mM)	3μL
dNTPs(2mM)	5μL
		10×KOD-Plus-Neo Buffer	5μL
KOD-Plus-Neo	1μL
		ddH₂O	32.5μL
共计	50μL

扩增PCR程序如下表所示：

3、建库PCR：

将引物3-1和引物4-1、4-2和4-3组合构成以下3个引物对：

引物对10：引物3-1和引物4-1；

引物对11：引物3-1和引物4-2；

引物对12：引物3-1和引物4-3；

分别以以步骤2获得的27个扩增产物为模板，使用引物对1-3分别对步骤2获得的9组中的每组3个扩增产物进行PCR扩增；

每个样品在扩增PCR和建库PCR中使用到的引物如下表所示：

建库PCR反应体系如下表所示：

建库PCR程序如下表所示：

使用Agencourt AMPure XP磁珠纯化步骤3获得的27个扩增产物，纯化后的27个扩增产物混合后，即为多重测序文库，可使用Illumina MiSeq测序平台进行测序。

图1为本实施例的流程示意图，其中Index1指引物1-1、1-2、1-3中的Index，Index2指引物2-1、2-2、2-3中的Index，Index3指引物3-1中的Index(该引物中无Index，因此Index3长度为0bp)，Index4指引物4-1、4-2、4-3中的Index，目的基因指待测序的16SrRNA

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多重核酸测序文库的构建方法，其特征在于：所述的构建方法通过两轮PCR反应对一个待测序目的基因样品引入3或4个Index。

2.如权利要求1所述的构建方法，其特征在于：所述的构建方法包括以下步骤：

(1)、扩增PCR：通过PCR方法扩增待测序目的基因，并利用引物1和引物2引入两个Index；使用引物1和2对待测样品中的目的基因进行扩增获得的扩增产物的核苷酸序列包含目的基因和两个Index，且目的基因位于两个Index之间；

3.如权利要求2所述的构建方法，其特征在于：所述的引物1为包含了一个Index的目的基因的正向扩增引物；其中所述的Index通过或不通过连接子和基因的正向扩增引物的5’端连接。

4.如权利要求2所述的构建方法，其特征在于：所述的引物2为包含了一个Index的目的基因的反向扩增引物；其中所述的Index通过或不通过连接子和基因的反向扩增引物的5’端连接。

5.如权利要求2所述的构建方法，其特征在于：

6.如权利要求2所述的构建方法，其特征在于：

7.如权利要求2-6任意一项所述的建库方法，其特征在于：所述的引物1和引物2中的Index的长度为1-15bp；所述的引物3和引物4中的Index的长度为0-15bp；所述的引物3中的Index和引物4中的Index的长度不能同时为0bp。

8.如权利要求2-6任意一项所述的建库方法，其特征在于：所述的引物1-4中的Index的核苷酸序列各不相同。

9.如权利要求2-6任意一项所述的建库方法，其特征在于：所述的引物1、引物2、引物3和引物4中还包含接头序列。