WO2015081890A1

WO2015081890A1 - 测序文库及其制备和应用

Info

Publication number: WO2015081890A1
Application number: PCT/CN2014/093161
Authority: WO
Inventors: 阮珏; 王开乐; 吴仲义; 吕雪梅
Original assignee: 中国科学院北京基因组研究所
Priority date: 2013-12-06
Filing date: 2014-12-05
Publication date: 2015-06-11
Also published as: CN104695027A; CN104695027B; US10718015B2; US20160362735A1

Abstract

本发明提供一种测序文库及其制备方法，所述文库中的***片段是待测序列与标签序列同向交替串联体，还提供一种测序方法。所述测序文库及测序方法，在任何测序深度下，都能有效去除DNA扩增错误和测序错误，从而精确检测DNA分子上存在的突变，适用于微量DNA短片段甚至单链DNA测序文库的构建。

Description

测序文库及其制备和应用

技术领域

本发明涉及一种测序文库及其制备和应用。

背景技术

第二代测序技术的发展，推动了生物学以及生物医学研究的革命性发展。但是由于高通量测序本身的特点，在测得的序列中存在约1％的碱基错误。虽然在一些应用中1％的错误率是可以忍受的，但是在很多情况下，这1％的错误却掩盖了很多真实的信息，而成为很多研究的障碍。比如：检测一个正常个体的某一组织或器官是否存在潜在的致癌突变位点、检测癌症细胞群体中DNA组成的异质性以及隐藏的小克隆群体、利用每个细胞中的DNA突变作为标记追溯该细胞的起源及***模式、准确获取一个高度杂合的癌症群体中的基因型、计算癌症细胞或体细胞***时突变产生的速率、寻找生物医学治疗中一些小群体(如癌症干细胞等)中存在的致病突变等。如何利用现有的二代测序技术准确的测定DNA的序列，就成了一个非常关键的问题。

截止目前，有一些方法尝试从生物、化学等方面对二代测序的错误进行改进，如无扩增的建库方法，有效的避免了文库准备过程中因聚合酶链式反应扩增产生的错误。通过对样品DNA和参考DNA分别加相应的标签，从而有效过滤链特异性的错误。有一些方法则从数据分析角度降低二代测序的错误率。另外，还有一些方法通过DNA随机打断时产生的断点信息或者在聚合酶链式反应扩增之前对DNA模板加入相应的标签来矫正由于聚合酶链式反应扩增产生的错误。通过加入标签，就可以确定哪些DNA分子来自于同一条分子，从而达到矫正的作用。

这些方法从一定程度上提高了二代测序的准确性，但是由于各自方法的缺陷性，比如在金迪及其同事的文章(Kinde I，Wu J，Papadopoulos N，Kinzler KW，Vogelstein B(2011)Detection and quantification of rare mutations with massively parallel sequencing.Proc Natl Acad Sci USA 108：9530-9535)中，加入标签的方法是通过将标签加在特定引物的末端，通过聚合酶链式反应的方式将标签加入到DNA分子中，当加入标签时的聚合酶链式反应发生错误时，这种错误在后面的实验中就很难去除，从而限制了其对极低频位点的检测。对DNA进行外源加标签方法的一个非常大的局限是这种方法只能针对于小的基因组或者少数的目的基因，无法实现对整个基因组的全面检测。因为标签法需要测到相同和互补的标签才能起到DNA正负链相互校正的目的，这样就需要极高的测序深度，因此对于大的基因组是很难实现的。

同时，由于外周血容易获取，获取过程不会对身体造成侵害性影响，且其含有的突变信息一定程度上反映了个体内真实的突变信息，因此，检测外周血中游离DNA所含有的突变信息，已被广泛应用于产前诊断和对癌症的监测中。但外周血中游离的DNA被降解为140-170碱基对，且在1毫升的血液中仅有几千个拷贝。如何利用如此少的DNA构建有效的DNA文库，如何利用有限的测序覆盖度检测到外周血游离DNA中存在的极低频率的突变，成为一个亟待解决的问题。

古化石DNA绝大多数被微生物所污染，DNA量少且降解严重，如何利用极少量的降解严重的古DNA有效的进行二代高通量测序文库的构建，并有效的富集古人类DNA也成为研究古人类DNA的一个难题。

综上所述，构建一种能够快速、有效、精确地测序的DNA测序文库是十分必要的。

发明内容

为了解决现有技术中DNA测序准确率不能满足实际需求的问题，本发明提供了一种测序文库及其制备和应用。

本发明第一方面涉及一种测序文库，其特征在于，所述测序文库中的***片段包含待测序列与标签序列的同向交替串联体。

在本发明中，所述标签序列可以连接在待测序列的5’末端或者3’末端。

在本发明的实施方案中，所述标签序列连接在待测序列的5’末端。

根据本发明第一方面任一项的测序文库，其特征在于，所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。

根据本发明第一方面任一项的测序文库，其特征在于，所述同向交替串联体的长度大于测序仪的测序长度。

在本发明的实施方案中，所述同向交替串联体至少包括两个重复单元，每个重复单元包括一个待测序列与一个标签序列。

根据本发明第一方面任一项的测序文库，其特征在于，所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。

根据本发明第一方面任一项的测序文库，其特征在于，所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。

根据本发明第一方面任一项的测序文库，所述测序文库用于第二代测序或第三代测序。

本发明第二方面涉及一种制备测序文库的方法，所述方法包括：

(1)将待测序列与标签序列连接，得到双链或单链连接序列；

(2)当步骤(1)得到的连接序列为双链序列时，将连接序列单链化，然后进行环化处理，当步骤(1)得到的连接序列为单链序列时，直接进行环化处理；

(3)将步骤(2)得到的环化的连接序列进行基于链置换反应的DNA扩增，得到待测序列与标签序列的同向交替串联体；

(4)将待测序列与标签序列的同向交替串联体片段化，并在片段的两端连接测序接头，得到测序文库。

根据本发明第二方面任一项的方法，其中所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。

根据本发明第二方面任一项的方法，其中步骤(4)所述的同向交替串联体片段化后的长度大于测序仪的测序长度。

根据本发明第二方面任一项的方法，其中所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。

根据本发明第二方面任一项的方法，其中所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。

根据本发明第二方面任一项的方法，其中所述测序文库用于第二代测序或第三代测序。

本发明第三方面涉及一种测序方法，该方法包括使用本发明第一方面任一项的测序文库的步骤。

本发明第四方面涉及一种测序方法，该方法包括制备测序文库的步骤，所述制备测序文库的方法包括：

(1)将待测序列与标签序列连接，得到双链或单链连接序列；

(3)将步骤(2)得到的环化的连接序列进行基于链置换反应的DNA扩增，得到待测序列与标签序列的同向交替串联体，即制备得到测序文库；

根据本发明第四方面任一项的测序方法，其中所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。

根据本发明第四方面任一项的测序方法，其中步骤(4)所述的同向交替串联体片段化后的长度大于测序仪的测序长度。

根据本发明第四方面任一项的测序方法，其中所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。

根据本发明第四方面任一项的测序方法，其中所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。

根据本发明第四方面任一项的测序方法，该测序方法为第二代测序或第三代测序方法。

本发明还涉及本发明第一方面任一项的测序文库在测序中的应用。

根据本发明任一项的应用，其中所述的测序为第二代测序或第三代测序。

根据本发明任一项的应用，其中所述的测序包括但不限于基因组DNA测序、目标片段捕获测序(例如外显子捕获测序)、单链DNA片段的测序、化石DNA的测序或体液(例如血液、尿液、唾液)中游离DNA的测序。

本发明所称测序仪的测序长度是指：对双端测序而言，测序仪的测序长度等于双端测序长度之和；对单端测序而言，测序仪的测序长度等于单端序列的长度。

在本发明的一个实施方案中，所述标签序列含有随机碱基。在本发明的实施方案中，所述随机碱基的个数例如可以为1-13个，例如为1、2、3、4、5、6、7、8、9、10、11、12、13个。

在本发明的一个实施方案中，所述标签序列中确定碱基的个数为6-13个，例如为6、7、8、9、10、11、12、13个。

在本发明中，当设计标签序列时，可以设计为两条标签序列，也可以设计为一条标签序列；当设计为两条标签序列时，这两条序列可以退火形成双链。在本发明的实施方案中，设计为两条标签序列。

在本发明的一个实施方案中，所述标签序列如SEQ ID NO：1和/或SEQ ID NO：2所示。

在本发明的一个实施方案中，所述标签序列如SEQ ID NO：14和/或SEQ ID NO：15所示。

在本发明中，可以将双链待测序列与双链标签序列连接，也可以将单链待测序列与单链标签序列连接，以分别得到双链的连接序列或单链的连接序列。如果得到的是双链的连接序列，需要将其单链化处理后再进行环化；如果得到的是单链的连接序列，可以直接进行环化处理。

在本发明的实施方案中，当设计为双链标签序列时，两条标签序列可以进行退火，得到双链标签序列，其中一条的5’端需要磷酸化，以与待测序列连接，另一条的5’端不磷酸化，因此在最终构建得到的测序文库中，仅含有磷酸化的那条标签序列；当设计为单链标签序列时，该标签序列的5’端需要磷酸化，以与待测序列连接。

在本发明的实施方案中，为了方便连接，将片段化后的待测序列进行末端补平和加A，以得到含有突出的“A”的序列。

在本发明的实施方案中，所述一条标签序列的5’端突出一个“T”，以更方便与带有突出的“A”的待测序列连接。

在本发明的实施方案中，所述另一条标签序列的3’端突出一个或几个任意碱基，以保证连接的方向性。在本发明中，所述标签序列中的确定碱基与随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列，即在确定碱基中夹有随机碱基。

在本发明中，在设计标签序列时要尽量避免标签序列自身形成回文序列，以致于无法和待测序列正确连接；避免形成回文结构的标签序列的设计方法为本领域所公知，例如在设计时尽量避免出现反向互补序列等。

在本发明中，为了不影响测序结果的准确性或者避免标签序列与待测序列之间直接发生互补结合，在设计时应尽量避免标签序列与待测序列的参考序列之间有过高的同一性；参考序列的选择首选和待测序列同属于相同物种的已知的基因组DNA的参考序列，如果没有已知的相同物种的参考序列，可以选择相近物种的已知的基因组DNA的参考序列；避免过高的同一性的方法为本领域所公知，例如可以使标签序列与参考序列之间的同一性低于90％，例如低于85％，低于80％，低于75％，低于70％，低于65％，低于60％，低于55％，低于50％。

在本发明中，所述测序文库是指含有待测序列和其它序列(例如测序接头)的用于测序的DNA片段的集合。

在本发明中，所述测序文库的***片段是指除去测序接头等其它序列后的包含待测序列和标签序列的片段。

在本发明中，所述待测序列是指经过处理后的待测DNA片段，所述处理例如包括打断、末端补平、加A等。

在本发明的实施方案中，所述待测序列是指将待测的基因组 DNA经过打断、末端补平和加A后得到的用于测序的序列。

在本发明中，所述测序文库***片段中待测序列与标签序列形成的同向交替串联体包括两个以上的重复单元(其中一个待测序列加上一个标签序列为一个重复单元)。例如如果待测序列为A，标签序列为B，则一个重复单元为A-B或者B-A，同向交替串联体至少包括A-B-A-B或B-A-B-A；并且由于在构建测序文库时要经过随机打断的步骤，因此该同向交替串联体的重复单元可能并不是完整的重复单元，但经过拼接后至少包括两个以上的重复单元，例如可能是1/2A-B-A-B-A-B，或A-B-A-B-A-1/2B，或1/2A-B-A-B-2/3A。

在本发明中，所述基于链置换反应的DNA扩增(Roger S.Lasken Genomic DNA amplification by the multiple displacement amplification(MDA)method.Biochemical Society Transactions，2009，37，450-453)是指某些DNA聚合酶(例如包括Phi 29DNA聚合酶，Bst DNA聚合酶(大片段))在在延伸新链的过程中如果遇到下游DNA链，可以继续延伸反应并同时将下游双链剥离而产生游离的单链的DNA等温扩增。通常情况下，基于链置换反应的DNA扩增无需热变性。所述基于链置换反应的DNA扩增例如包括链置换扩增、滚环扩增、多重链置换扩增和环介导的扩增等。

在本发明的一个实施方案中，采用多重链置换扩增(multiple replacement amplification technical，MDA)，其是一种恒温的DNA扩增方法，利用phi29DNA聚合酶的链置换活性，实现DNA的大量扩增。

在本发明的另一个实施方案中，采用滚环扩增，其是采用环状DNA为模板，利用特定的引物或者随机引物，在链置换酶的作用下，实现对环状DNA模板的大量扩增。当随机引物与单链环状DNA结合后，phi29DNA聚合酶可以顺着环进行第二条链的合成，当合成到引物的起始位置时，phi29DNA聚合酶通过其链置换活性将引物所在的链打开，新的合成继续进行下去。新合成的DNA单链又同时会与新的六随机引物结合，进行新一轮的合成。循环往复，从而实现了对环状DNA分子的有效扩增。

在本发明中，所述第二代测序方法是指边合成边测序(Sequencing by Synthesis)，即通过捕捉新合成的末端的标记来确定DNA的序列的方法，其包括但不限于Roche/454FLX、Illumina/Solexa Genome Analyzer和Applied Biosystems SOLID system。

在本发明中，所述第三代测序方法是指单分子测序技术，即DNA测序时，不需要经过PCR扩增，即可实现对每一条DNA分子的单独测序。其包括但不限于单分子荧光测序，代表性的技术为美国螺旋生物(Helicos)的SMS技术和美国太平洋生物(Pacific Bioscience)的SMART技术，以及纳米孔测序(nanopore sequencing)。

在本发明中，为了便于区分，用于制备同向交替串联体中的标签序列称为“标签序列”，用于测序的标签序列称为“测序接头”。

本发明提供的测序文库及其应用，至少实现了如下有益效果：

1、在任何测序深度下，都能有效去除DNA扩增错误和测序错误，从而超精确检测DNA分子上存在的突变。

通过连接标签序列到待测序的DNA小片段5’末端(总长度小于测序长度的一半)，然后对这种嵌合体变性，得到单链的待测序列与标签序列连接片段DNA，再进行单链环化，而后对环化后的单链DNA进行滚环复制，构建待测序列与标签序列同向交替串联体序列。这些滚环复制所得到的重复单元之间，在扩增过程是相互独立的，因此，在各自单元上复制时所产生的错误也是独立的。以待测序列与标签序列同向交替串联体序列进行测序文库构建(文库***片段大小为至少两个重复单元)。对该文库进行一次测序，则至少测了两次同向重复单元，将两次重复单元测得的序列进行相互确认，两次重复单元不一致的碱基，即是文库制备过程中或测序过程中产生的聚合酶链式反应错误或测序错误。一致的序列即是原始序列。由于测序的重复单元来自于环状DNA，需要利用标签序列来确定待测序列的起始。

一条单链DNA和它的互补链，经过扩增后就无法确定新复制的 DNA来自于哪条链，这对识别碱基错误类型造成影响。例如，C突变为T和G突变为A，这两种类型的错误在双链DNA上是互补的，测序序列没有标记的话，就无法判断到底发生了C突变为T还是G突变为A。由于标签序列是非回文结构，并连接在单链DNA的5’端，经过复制扩增后，仍然可以根据标签序列的方向来确定出原始单链DNA，这样就可以识别出错误发生的类型，进而帮助识别低频突变。

由于DNA扩增的不平衡性，从少量DNA扩增到足够测序的DNA时会出现一部分DNA的拷贝数明显高于均值。在本发明中体现为：一个原始单链DNA滚环复制得到的多条测序序列共同反映同一条原始DNA的信息，存在测序冗余。但是在后续的数据处理中，由于没有任何信息来判断这些测序序列是否来自于同一个原始DNA单链环，这些测序序列可能被多次统计。由此会带来一种错误放大的效应：一个存在DNA损伤的单链滚环复制后，存在于多条测序序列中，被统计为可信的多次独立出现的DNA变异。识别出这种冗余将有助于排除上述错误。在本发明的实施方案中，标签序列可包括两个部分：已知碱基组成的接头区和随机碱基的自由区。接头区为6至13个连续的碱基，自由区为0至13个连续的碱基。特别指出的是自由区的碱基组成是随机的，在核酸序列合成时设计为相应长度的‘N’(随机碱基)。自由区的长度越长，区分的分辨率越高。如果自由区长度设计为零时，区分不同原始来源的测序序列仅依赖于1)从测序序列推断出的目标DNA片段的大小不同，2)推断出的目标DNA片段的序列组成不同。以下使用测序错误率为1/100(二代测序的错误率是1/100至1/1000)来阐明本发明的原理。一条一致序列上两个重复单元的同一位点同时发生一种类型错误的概率是：1/3＊(1/100)²，即3＊10^-5的错误率(更多的重复单元一致碱基的错误概率更低)。那么两条不同的一致序列出现同样错误的概率为：(1/3＊(1/100)²)²即9＊10^-10，因此，该方法极其有效的去除了文库构建过程和测序过程中产生的错误，达到了精确测序的目的。

2、适用于微量DNA短片段甚至单链DNA测序文库的构建。

由于单链环化所需的DNA起始量小(纳克级别甚至更低)，片段短(30-200碱基对)，环化后扩增效率高。因此特别适用于外周血游离DNA和古化石等降解严重的DNA的测序文库构建。

3、能够兼容目标区域捕获(如：外显子捕获，目的基因捕获)等方法。

本发明提供的待测序列与标签序列同向交替串联体序列中，由原始DNA复制的不同拷贝是串联在一起的。在进行目标区域捕获时，探针捕获到的分子至少含有两个同向重复单元的核酸序列，能够精确的测定DNA序列。

4、该方法构建的待测序列与标签序列同向交替串联体序列可用于构建多种第二代短片段测序文库，使其适用于各种测序平台。

附图说明

图1：本发明实施例5单链环化后的环大小及其分布图。

具体实施方式

下面将结合实施例对本发明的实施方案进行详细描述，但是本领域技术人员将会理解，下列实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

本发明的创新点之一在于，通过对短片段DNA分子连接标签序列(两者的总长度小于测序仪测序长度的一半)，单链环化，滚环复制，得到待测序列与标签序列同向交替串联体序列，构建测序文库并测序。具体来讲，可以采用如下两种方案来实现。

方案一：

首先将DNA随机打断成小于二代测序仪测序读长一半的片段 (打断后的长度加上标签序列的长度应该小于读长一半)，然后连接上标签序列，其中该标签序列第一条链(正链)的5’端经磷酸化修饰，而3’端突出一个T碱基，第二条链(负链)5’端未经磷酸化修饰，而3’端突出一个G碱基。经高温变性，去除切口处标签序列，这样就形成了含有单链标签序列的DNA序列，再经高温变性并立即冷却，将DNA变为单链。单链化后含标签序列的DNA，用单链环化酶进行环化。环化后的DNA，利用基于随机引物的滚环链置换扩增，大量扩增环化后的DNA分子。形成的扩增产物即是由目的DNA分子和标签序列组成的同向交替串联体。该同向交替串联核酸序列可用于构建标准的二代测序文库(文库构建过程中***片段的大小应大于测序仪的测序长度，以保证得到的多个重复单元是相互独立的)。

方案二：

首先将DNA随机打断成小于二代测序仪测序读长一半的片段(打断后的长度加上后续需要连接的标签序列的长度也应该小于读长的一半)，然后连接上特定的标签序列(同方案一)。单链化后含标签序列的DNA，用单链环化酶进行环化。环化后的DNA通过具有链置换功能的DNA聚合酶(如Phi29DNA聚合酶)进行滚环扩增，引物则采用标签序列里面的第二条链(即负链)。扩增完成后，再用标签序列的第一条链(即正链)为引物，将滚环后的单链线性DNA合成双链。此时双链DNA是由标签序列和目的DNA组成的重复单元组成的。该双链DNA经纯化后，可用于构建标准的二代测序文库。文库构建过程中***片段的大小应大于测序仪的测序长度，以保证得到的多个重复单元是相互独立的。

实施例1：按照上述方案一构建全基因组DNA待测序列与标签序列同向交替串联体文库(Illumina平台)

1)DNA片段化

所用仪器和试剂：

超声打断仪：Covaris：S2 Focused-ultrasonicator

打断管：Covaris Microtube 6x16mm，catalog#：520045

琼脂糖：Promega，Agarose，LE，Analytical Grade，catalog#：V3121

电泳仪电源：北京市六一仪器厂，DYY-7C型

电泳槽：北京市六一仪器厂，DYCP-31DN型电泳槽

QIAGEN MinElute Gel Extraction Kit(250)，Catalog#：28606

Takara 20bp DNA Ladder(Dye Plus)，Takara Code，3420A

用超声打断仪(Covaris S2Focused-ultrasonicator)将1μg纯化好的PhiX 174基因组DNA打断为150-200bp(Intensity：5，Duty Cycle：10％，Cycles per Burst：200，Temperature：4℃，time：60s，humber of cycles：5)，打断体系为50μl。

4％琼脂糖凝胶电泳(80V，70min；1×TAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)60-90bp片段(Takara 20bp DNA Ladder)，回收的简略步骤：6倍体积buffer QG溶胶，加入等体积异丙醇，混匀后过柱，buffer QG洗脱，buffer PE洗脱，晾干，56μl ddH₂O洗脱。详见QIAGEN MinElute Gel Extraction Kit说明书。

2)末端补平

所用试剂：New England Biolabs：

Ultra^TM DNA Library Prep Kit for

Catalog#：E7370S

片段化DNA：55.5μl

End Prep Enzyme Mix：3μl

End Repair Reaction Buffer(10×)：6.5μl

共：65μl

20℃30min，65℃30min。

3)末端加A并连接标签序列

所用试剂：New England Biolabs：

Ultra^TM DNA Library Prep Kit for

Catalog#：E7370S

已补平的DNA：65μl

Blunt/TA Ligase Master Mix：15μl

Ligation Enhancer：1μl

标签序列UO-A(50pmol)：1μl

ddH₂O：1.5μl

共：83.5μl

20℃30min，65℃10min立即置于冰上3min。

产物用MinElute Reaction Cleanup Kit纯化，15μl双蒸水洗脱。

标签序列：UO-A由100pmol的UO-adaptorl(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和100pmol的UO-adaptor2(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)等体积混合退火(94℃5min，以每秒0.1℃逐渐降温至25℃)而成。

注：标签序列包含但不局限于实施例中UO-adaptor1和UO-adaptor2的序列形式。下同。

4)单链环化

所用仪器和试剂：

PCR仪：Eppendorf：Mastercycler pros

New England Biolabs：Exonuclease I(E.coli)，Catalog#：M0293

New England Biolabs：Exonuclease III(E.coli)，Catalog#：M0206

Epicentre：CircLigase II ssDNA Ligase，Catalog#：CL9025K

将上述片段化后的DNA 37℃蒸干至4.2μl。

95℃3min(注：需要用可以对100μl体系进行反应的PCR仪，否则95℃后，4.2μl容易被蒸干)，立即置于冰上3min

完成后加入：

10×circligase buffer：0.5μl

10mmol MnCl₂：0.25μl

Circligase(100u/ul)：0.25μl

65℃2h，80℃10min进行环化。

环化完成后消化线性及二聚体DNA：

Exonuclease I(E.coli)：0.25μl

Exonuclease III(E.coli)：0.25μl

37℃1h，80℃20min。

5)多重链置换(MDA)反应

采用基于MDA原理的全基因组扩增(WGA)试剂盒，滚环扩增环化后的产物。

所用仪器和试剂：

PCR仪：Eppendorf：Mastercycler pros

GE healthcare：illustra GenomiPhi HY DNA Amplification Kits，Product code：25-6600-20

Beckman Coulter，Inc：Agencourt AMPure XP，Item No.A63880

取上述环化DNA：2.5μl

Sample buffer：22.5μl

95℃3min，立即置于冰上3min。

完成后加入：

Reaction buffer：22.5μl

Enzyme mix：2.5μl

共20μl

30℃1h，65℃l0min。

产物采用Agencourt AMPure XP(Beckman Coulter，Inc)磁珠纯化。概述如下：对扩增后产物加入1.8倍体积磁珠，室温放置5min，磁力架吸附5min，去上清，70％酒精洗两次，晾干后，50μl buffer AE(10mM Tris-Cl，0.5mM EDTA；pH 9.0)洗脱。详见试剂盒说明书。

纯化后的产物即是待测序列与标签序列同向交替串联体。

6)对待测序列与标签序列同向交替串联体构建Illumina文库

可利用构建标准的Illumina文库的商业试剂盒，如：TruSeq DNA Sample Preparation Kits，Nextera DNA Sample Preparation Kits等。具体包括以下步骤：

(1)待测序列与标签序列同向交替串联体DNA片段化

所用仪器和试剂：

1)超声打断仪：Covaris：S2Focused-ultrasonicator

2)打断管：Covaris Microtube 6x16mm，货号：520045

3)琼脂糖：Promega，Agarose，LE，Analytical Grade，catalog#：V3121

用超声打断仪(Covaris S2Focused-μltrasonicator)将2μg纯化后的DNA片段同向重复串联体打断为500-700bp(Intensity：3，Duty Cycle：5％，Cycles per Burst：200，Temperature：4℃，time：15s，number of cycles：5)，打断体系为85μl。

(2)末端补平

所用试剂：New England Biolabs：

End Repair Module，Catalog#：E6050

QIAGEN：MinElute Reaction Cleanup Kit，Catalog#：28206

片段化DNA：85μl

NEBNext End Repair Reaction Buffer：10μl

NEBNext End Repair Enzyme Mix：5μl

共：100μl

20℃30min。

产物用MinElute Reaction Cleanup Kit纯化，43μl ddH2O洗脱。

(3)末端加A

所用试剂：New England Biolabs：

dA-Tailing Module，Catalog#：E6053

QIAGEN：MinElute Reaction Cleanup Kit，Catalog#：28206

已补平的DNA：42μl

NEBNext dA-Tailing Reaction Buffer：5μl

Klenow Fragment(3′→5′exo-)：3μl

共：50μl

37℃30min。

产物用MinElute Reaction Cleanup Kit纯化，35.5μl ddH₂O洗脱。

(4)测序接头序列连接

所用试剂：Invitrogen：T4 DNA Ligase，Catalog#：15224-041

已末端加A的DNA：34.5μl

接头序列1(50pmol)：3μl

5×DNA ligase buffer：10μl

T4DNA Ligase：2.5μl

共：50μl

16℃过夜(16h)。

2％琼脂糖凝胶电泳(80V，80min；1×TAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500～700bp片段，22μl ddH₂O洗脱。

接头序列1：

接头序列退火：取等体积100pmol的Multiplexing Adapter 1.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和Multiplexing Adapter 2.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)，94℃5min，接着以每秒0.1℃逐渐降温至25℃。退火完成后即形成了浓度为50pmol的接头序列。

(5)PCR扩增

所用仪器试剂：

PCR仪：Eppendorf：Mastercycler pros

Thermo scientific：Phusion High-Fidelity PCR Master Mix with HF Buffer，Catalog#：F531L

上述回收的DNA(约30ng)+ddH₂O：23μl

MP PCR primer 1.0(10pmol)：lμl

MP index primer 1(10pmol)：1μl

2×Phusion High-Fidelity PCR Master Mix：25μl

共：50μl

PCR扩增循环条件：

98℃45s预变性，循环扩增(98℃15s，65℃30s，72℃60s)10次，72℃5min，4℃冷却。

2％琼脂糖凝胶电泳(80V，80min；1XTAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500-700bp片段，22μl ddH₂O洗脱。

洗脱后的DNA即是构建好的文库，该文库即可用于二代测序平台测序。

引物序列如下：

实施例2按照上述方案一构建人外显子待测序列与标签序列同向交替串联体文库(Illumina测序平台)

1)DNA片段化

所用仪器、试剂参见实施例1。用超声打断仪将1μg纯化好的人外周血基因组DNA打断为300bp(Intensity：4，Duty Cycle：10％，Cycles per Burst：200，Temperature：4℃，time：60s，number of cycles：2)，打断体系为50μl。

4％琼脂糖凝胶电泳(80V，70min；1×TAE)，切胶回收80～130bp片段，回收的简略步骤：6倍体积buffer QG溶胶，加入等体积异丙醇，混匀后过柱，buffer QG洗脱，buffer PE洗脱，晾干，56μl ddH2O洗脱。详见QIAGEN MinElute Gel Extraction Kit说明书。

2)末端补平

所用试剂参见实施例1。步骤1)的片段化DNA：55.5μl

End Prep Enzyme Mix：3μl

End Repair Reaction Buffer(10×)：6.5μl

共：65μl

20℃30min，65℃30min。

3)末端加A并连接标签序列

所用试剂参见实施例1。

步骤2)已补平的DNA：65μl

Blunt/TA Ligase Master Mix：15μl

Ligation Enhancer：1μl

标签序列UO-A(50pmol)：1μl

ddH₂O：1.5μl

共：83.5μl

20℃30min，65℃10min立即置于冰上3min。

产物用MinElute Reaction Cleanup Kit纯化，15μl ddH₂O洗脱。

标签序列：UO-A由100pmol的UO-adaptor1(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和100pmol的UO-adaptor2(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)等体积混合退火(94℃5min，以每秒0.1℃逐渐降温至25℃)而成。

4)DNA单链环化

所用仪器和试剂参见实施例1。

将步骤3)片段化后的DNA 37℃蒸干至4.2μl。

95℃3min(注：需要用可以对100μl体系进行反应的PCR仪，否则95℃后，4.2μl容易被蒸干)，立即置于冰上3min；

完成后加入：

10×circligase buffer：0.5μl

10mmol Mncl2：0.25μl

Circligase(100u/μl)：0.25μl

65℃2h，80℃10min；

环化完成后消化线性及二聚体DNA，

Exonuclease I(E.coli)：0.25μl

Exonuclease III(E.coli)：0.25μl

37℃1h，80℃20min。

5)多重链置换(MDA)反应

采用基于MDA原理的全基因组扩增(WGA)试剂盒，滚环扩增环化后的产物：

所用仪器和试剂参见实施例1。

上述环化DNA：2.5μl

Sample buffer：22.5μl

95℃3min，立即置于冰上3min；

完成后加入：

Reaction buffer：22.5μl

Enzyme mix：2.5μl

共20μl

30℃1h，65℃10min；

纯化后的产物即是待测序列与标签序列同向交替串联体。

6)对上述产生的待测序列与标签序列同向交替串联体构建外显子捕获文库(Illumina测序平台)

可利用构建外显子捕获文库的商业试剂盒，如：Agilent：SureSelect Human All Exon Kits等。

(1)待测序列与标签序列同向交替串联体DNA片段化

所用仪器和试剂参见实施例1。

用超声打断仪将2μg纯化后的待测序列与标签序列同向交替串联体打断为500-700bp(Intensity：3，Duty Cycle：5％，Cycles per Burst：200，Temperature：4℃，time：15s，number of cycles：5)，打断体系为85μl。

(2)末端补平

所用试剂参见实施例1。

步骤(1)的片段化DNA：85μl

NEBNext End Repair Reaction Buffer：10μl

NEBNext End Repair Enzyme Mix：5μl

共：100μl

20℃30min；

产物用MinElute Reaction Cleanup Kit纯化，43μl ddH₂O洗脱。

(3)末端加A

所用试剂参见实施例1。

步骤(2)已补平的DNA：42μl

NEBNext dA-Tailing Reaction Buffer：5μl

Klenow Fragment(3′→5′exo-)：3μl

共：50μl

37℃30min；

产物用MinElute Reaction Cleanup Kit纯化，35.5μl ddH₂O洗脱。

(4)测序接头序列连接

所用试剂参见实施例1。已末端加A的DNA：34.5μl

接头序列1(50pmol)：3μl

5×DNA ligase buffer：10μl

T4DNA Ligase：2.5μl

共：50μl

16℃过夜(16h)；

2％琼脂糖凝胶电泳(80V，80min；1×TAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500-700bp片段，22μl ddH₂O洗脱。

接头序列1：

接头序列退火：取等体积100pmol的Multiplexing Adapter 1.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和Multiplexing Adapter 2.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)，94℃5min，接着以每秒0.1℃逐渐降温至25℃。退火完成后即形成了浓度为50pmol的接头序列1。

(5)PCR扩增

所用仪器、试剂：

PCR仪：Eppendorf：Mastecycler pro s

Agilent：Herculase II Fusion DNA Polymerases，Catalog#：600677

QIAGEN：MinElute Reaction Cleanup Kit，Catalog#：28206

4个反应并行进行，每个反应配方如下：

上述回收的DNA(约90ng)+ddH₂O：36.5μl

MP PCR primer 1.0(10pmol)：1μl

MP index primer 1(10pmol)：1μl

5×Herculase II Reaction Buffer：10μl

dNTPs(100mM；25mM each dNTP)：0.5μl

Herculase II Fusion DNA Polymerase：1μl

共：50μl

PCR扩增循环条件：

98℃2min预变性，循环扩增(98℃30s，65℃30s，72℃30s)8次，72℃10min，4℃冷却。

PCR完成后浓缩4个反应管中的PCR产物(MinElute Reaction Cleanup Kit)，46μl ddH2O洗脱。

2％琼脂糖凝胶电泳(80V，90min；1×TAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500～700bp片段，26μl ddH2O洗脱。

引物序列如下：

(6)外显子探针杂交

本实验采用Agilent：SureSelect Human All EXon Kits对上述PCR反应产物进行外显子探针杂交。简述如下：

杂交缓冲液配制：

SureSelect Hyb#1(orange cap，or bottle)：25μl

SureSelect Hyb#2(red cap)：1μl

SureSelect Hyb#3(yellow cap)：10μl

SureSelect Hyb#4(black cap，or bottle)：13μl

共：49μl

65℃5min。

捕获文库混合物配制：

SureSelect Library：5μl

SureSelect RNase Block(purple cap)：0.5μl

ddH₂O：1.5μl

共：7μl

65℃2min。

样品混合物配制：

纯化好的DNA(约700ng)：3.4μl

SureSelect Indexing Block#1(green cap)：2.5μl

SureSelect Block#2(blue cap)：2.5μl

SureSelect Indexing Block#3(brown cap)：0.6μl

共：9μl

95℃5min，65℃hold。

取13μl配制好的杂交缓冲液加入捕获文库混合物(7μl)中，再将样品混合物(9μl)加入，共29μl，65℃杂交24h。

磁珠(Invitrogen^TM：

M-280Streptavidin，Catalog#：11205D)抓取杂交好的片段(50μl磁珠，用200μl SureSelect Binding Buffer洗涤三次，200μl SureSelect Binding Buffer重悬磁珠，加入杂交后产物，室温放置30min，磁珠吸附，SureSelect Wash 1洗一次，SureSelect Wash 2洗三次，36.5μl ddH₂O重悬磁珠)，详见Agilent：SureSelect Human All Exon Kits操作手册。

(7)探针杂交后PCR

所用仪器试剂：

PCR仪：Eppendorf：Mastecycler pro s

Agilent：Herculase II Fusion DNA Polymerases，Catalog#：600677

Beckman Coulter，Inc：Agencourt AMPure XP，Item No.A63880

4个反应并行进行，每个反应配方如下：

外显子探针杂交中重悬的磁珠：36.5μl

MP PCR primer 1.0(10pmol)：1μl

MP PCR primer 2.0(10pmol)：1μl

5×Herculase II Reaction Buffer：10μl

dNTPs(100mM；25mM each dNTP)：0.5μl

Herculase II Fusion DNA Polymerase：1μl

共：50μl。

PCR扩增循环条件：

98℃2min预变性，循环扩增(98℃30s，65℃30s，72℃30s)12次，72℃10min，4℃冷却。

引物序列如下：

PCR完成后用Agencourt AMPure XP磁珠纯化，概述如下：对扩增后产物加入1.8倍体积磁珠，室温放置5min，磁力架吸附5min，去上清，70％酒精洗两次，晾干后，16μl ddH₂O洗脱。详见试剂盒说明书。

洗脱后的DNA即是构建好的人外显子待测序列与标签序列同向交替串联体文库，该文库即可用于二代测序平台测序。

实施例3：按照方案一构建外周血游离DNA待测序列与标签序列同向交替串联体文库(Illumina测序平台)

1)提取外周血游离DNA并检测其片段大小。

所用仪器和试剂：

QIAGEN：QIAamp Circulating Nucleic Acid Kit，catalog#： 55114

Agilent：2100bioanalyzer

取2ml血浆，采用QIAGEN的QIAamp Circulating Nucleic Acid Kit提取血浆中的DNA(cell-free circulating DNA)，20μl ddH₂O洗脱(提取方法见试剂盒说明书)。采用Agilent的2100bioanalyzer检测提取的片段大小分布。从结果得出，正常人中游离的DNA片段大小集中在172bp附近，分布范围约是(130bp-230bp)，浓度为0.354ng/μl。肝癌病人中游离的DNA片段大小集中在164bp附近，分布范围约是(110bp-210bp)，浓度为4.78ng/μl。

2)末端补平

所用试剂参见实施例1。

提取的外周血游离DNA(50ng)+ddH2O：55.5μl

End Prep Enzyme Mix：3μl

End Repair Reaction Buffer(10×)：6.5μl

共：65μl

20℃30min，65℃30min。

3)末端加A并连接标签序列

所用试剂参见实施例1已补平的DNA：65μl

Blunt/TA Ligase Master Mix：15μl

Ligation Enhancer：1μl

标签序列UO-A(50pmol)：1μl

ddH₂O：1.5μl

共：83.5μl

20℃30min，65℃10min立即置于冰上3min。

产物用MinElute Reaction Cleanup Kit纯化，15μl ddH2O洗脱。

标签序列：UO-A由100pmol的UO-adaptor1(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和100pmol的UO-adaptor2(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)等体积混合退火(94℃5min，以每秒0.1℃ 逐渐降温至25℃)而成。

4)DNA单链环化

所用仪器和试剂参见实施例1。

将提取的外周血游离的DNA 37℃蒸干至4.2μl。

完成后加入：

10×circligase buffer：0.5μl

10mmol MnCl₂：0.25μl

Circligase(100u/μl)：0.25μl

65℃2h，80℃10min。

环化完成后消化线性及二聚体DNA

Exonuclease I(E.coli)：0.25μl

Exonuclease III(E.coli)：0.25μl

37℃1h，80℃20min。

5)多重链置换(MDA)反应

所用仪器和试剂参见实施例1。

上述环化DNA：2.5μl

Sample buffer：22.5μl

95℃3min，立即置于冰上3min；

完成后加入：

Reaction buffer：22.5μl

Enzyme mix：2.5μl

共20μl

30℃1h，65℃10min。

纯化后的产物即是待测序列与标签序列同向交替串联体。

6)对上述产生的待测序列与标签序列同向交替串联体构建illumina测序文库

可利用构建标准的Illumina文库的商业试剂盒，如：TruSeq DNA Sample Preparation Kits，Nextera DNA Sample Preparation Kits等。

(1)同向重复串联体DNA片段化

所用仪器和试剂参见实施例1。

用超声打断仪将2μg纯化后的待测序列与标签序列同向交替串联体打断为500～700bp(Intensity：3，Duty Cycle：5％，Cycles per Burst：200，Temperature：4℃，time：15s，number of cycles：5)，打断体系为85μl。

(2)末端补平

所用试剂参见实施例1。

片段化DNA：85μl

NEBNext End Repair Reaction Buffer：10μl

NEBNext End Repair Enzyme Mix：5μl

共：100μl

20℃30min；

产物用MinElute Reaction Cleanup Kit纯化，43μl ddH2O洗脱。

(3)末端加A

所用试剂参见实施例1。

已补平的DNA：42μl

NEBNext dA-Tailing Reaction Buffer：5μl

Klenow Fragment(3′→5′exo-)：3μl

共：50μl

37℃30min；

产物用MinElute Reaction Cleanup Kit纯化，35.5μl ddH2O洗脱。

(4)接头序列连接

所用试剂参见实施例1。已末端加A的DNA：34.5μl

接头序列1(50pmol)：3μl

5×DNA ligase buffer：10μl

T4DNA Ligase：2.5μl

共：50μl

16℃过夜(16h)。

2％琼脂糖凝胶电泳(80V，80min；1xTAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500～700bp片段，22μl ddH2O洗脱。

接头序列1：

标签序列退火：取等体积100pmol的Multiplexing Adapter 1.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和Multiplexing Adapter 2.0(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)，94℃5min，接着以每秒0.1℃逐渐降温至25℃。退火完成后即形成了浓度为50pmol的接头序列1。

(5)扩增

所用仪器、试剂参见实施例1。

上述回收的DNA(约30ng)+ddH₂O：23μl

MP PCR primer 1.0(10pmol)：1μl

MP index primer 1(10pmol)：1μl

2×Phusion High-Fidelity PCR Master Mix：25μl

共：50μl。

PCR扩增循环条件：

引物序列如下：

实施例4：

按照方案二构建待测序列与标签序列同向交替串联体文库(Illumina测序平台)

步骤：

1)DNA片段化

所用仪器和试剂参见实施例1。

用超声打断仪将1μg纯化好的黑腹果蝇基因组DNA打断为150-200bp(Intensity：5，Duty Cycle：10％，Cycles per Burst：200，Temperature：4℃，time：60s，number of cycles：5)，打断体系为50μl。

4％琼脂糖凝胶电泳(80V，70min；1×TAE)，切胶回收60-90bp片段，回收的简略步骤：6倍体积buffer QG溶胶，加入等体积异丙醇，混匀后过柱，buffer QG洗脱，buffer PE洗脱，晾干，56μl ddH2O 洗脱。详见QIAGEN MinElute Gel Extraction Kit说明书。

2)末端补平

所用试剂参见实施例1。片段化DNA：55.5μl

End Prep Enzyme Mix：3μl

End Repair Reaction Buffer(10X)：6.5μl

共：65μl

20℃30min，65℃30min。

3)末端加A并连接标签序列

所用试剂参见实施例1。已补平的DNA：65μl

Blunt/TA Ligase Master Mix：15μl

Ligation Enhancer：1μl

标签序列UO-A(50pmol)：1μl

ddH2O：1.5μl

共：83.5μl

20℃30min，65℃10min立即置于冰上3min。

产物用MinElute Reaction Cleanup Kit纯化，15μl ddH₂O洗脱。

4)DNA单链环化

所用仪器和试剂参见实施例1。

将片段化后的DNA 37℃蒸干至4.2μl。

完成后加入：

10×circligase buffer：0.5μl

10mmol MnCl₂：0.25μl

Circligase(100u/μl)：0.25μl

65℃2h，80℃10min；

环化完成后消化线性及二聚体DNA

Exonuclease I(E.coli)：0.25μl

Exonuclease III(E.coli)：0.25μl

37℃1h，80℃20min。

5)滚环扩增

所用仪器和试剂：

PCR仪：Eppendorf：Mastecycler pros

New England Biolabs：phi29DNA Polymerase，Catalog#：M0269L

单链环化后的DNA：5.7μl

phi29DNA Polymerase Reaaction Buffer：2μl

引物UO-a3(10pmol)：1μl

ddH₂O：8.9μl

共17.6μl，95℃3min，立即置于冰上3min。完成后加入：

10mM dNTP：1μl

100×BSA：0.4μl

phi29DNA Polymerase(10U/μl)：1μl

共：20μl

30℃8h，65℃10min。

引物序列：

6)线性DNA双链化

所用仪器和试剂：

PCR仪：Eppendorf：Mastecycler pros

New England Biolabs：phi29DNA Polymerase，Catalog#： M0269L

New England Biolabs：Exonuclease I(E.coli)，Catalog#：M0293

New England Biolabs：T4DNA polymerase，Catalog#：m0203

Epicentre：

Enzyme and Buffer，Catalog#：A3202K

Beckman Coulter，Inc：Agencourt AMPure XP，Item No.A63880

滚环后DNA：20μl

引物UO-a1(10p)：1μl

Ampligase 10×Reaction Buffer：5μl

2.5mM dNTP：1μl

ddH₂O：22.5μl

95℃3min，立即置于冰上3min，完成后加入：

T4DNA polymerase：0.5μl

12℃2.5h，75℃20min。完成后加入：

Ampligase DNA Ligase：3μl

60℃1h。完成后加入：

Exonuclease I：1μl

37℃1h，80℃20min。

产物用Agencourt AMPure XP磁珠纯化，概述如下：对扩增后产物加入1.8倍体积磁珠，室温放置5min，磁力架吸附5min，去上清，70％酒精洗两次，晾干后，20μl ddH₂O洗脱。详见试剂盒说明书。

纯化后的产物即是DNA片段的同向重复串联体。

引物序列

7)对上述产生的待测序列与标签序列同向交替串联体构建illumina测序文库

滚环8h后得到的DNA的量为几十纳克到几百纳克不等，可以通过增加滚环的时间来增加滚环后的DNA产量。根据所得到的DNA的量，选择合适的商业试剂盒构建标准的Illumina文库：如果得到几十纳克的DNA可采用Nextera DNA Sample Preparation Kits或者其他基于少量DNA构建文库的试剂盒，如果得到的DNA的量为几百纳克，则可采用TruSeq DNA Sample Preparation Kits等可以针对多起始量DNA的试剂盒。

这里采用一种基于转座酶EZ-Tn5的文库构建方法：

(1)转座子组装

Epi_MA1(10pmol)：1μl

Epi_MA2(10pmol)：1μl

甘油：0.5μl

1U/μl转座酶EZ-Tn5(epicentre)：2.5μl

共：5μl

25℃20min。

(2)DNA片段化

上述转座子：5μl

5×LMW buffer：2μl

上述获得的同向重复串联体DNA(约30ng)+ddH2O：3μl

共：10μl

55℃10min。

产物用MinElute Reaction Cleanup Kit纯化，24μl ddH2O洗脱。

(3)回收产物PCR扩增

所用仪器、试剂参见实施例1。

上述回收的DNA(约30ng)+ddH2O：23μl

Epi_PCR primer 1.0(10pmol)：1μl

Epi_index primer(10pmol)：1μl

2×Phusion High-Fidelity PCR Master Mix：25μl

共：50μl

PCR扩增循环条件：

72℃3min(不可少)，98℃30s，循环扩增(98℃10s，65℃30s，72℃3min)10次，4℃冷却。

2％琼脂糖凝胶电泳(80V，80min；1XTAE)，切胶回收(QIAGEN MinElute Gel Extraction Kit)500～800bp片段，17μl ddH2O洗脱。

上述各引物序列如下：

Epi_MA1：

由等体积100pmol的Epi_ME(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)和Epi_Adaptor1(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)退火而成。条件：94℃5min，接着以每秒0.1℃逐渐降温至25℃。

Epi_MA2：

由等体积100pmol的Epi_ME(退火缓冲液溶解：10mM Tris-HCl (pH 7.5)，1mM EDTA，0.1mM NaCl)和Epi_Adaptor2(退火缓冲液溶解：10mM Tris-HCl(pH 7.5)，1mM EDTA，0.1mM NaCl)退火而成。条件：94℃5min，接着以每秒0.1℃逐渐降温至25℃。

5×LMW buffer：50mM Tris-OAc，pH 8.0，25mM Mg(OAc)₂

按实施例1进行Oseq文库构建。

实施例5对噬菌体Phix174进行文库构建以及数据分析

对1μg噬菌体Phix174DNA，超声打断成主带在300bp的DNA片段。回收60～80bp片段，连接标签序列，单链化，滚环扩增(详见实施例1)。对滚环后的DNA进行了基于转座子EZ-Tn5的二代测序文库构建(详见实施例4)。用hiseq 2000测得约10G的双向数据(读长为2×100＝200bp)。对数据处理分析如下：

1、共测得：54391601条reads，其中能成环(能够检测到至少两个重复单元，下同)的reads数为：33987941条reads

2、成环率：OS2_in2：(135951764/4)/(217566404/4)＝62.49％

3、形成的环大小范围为：30-162bp，平均大小为：72.5333bp，标准差为：14.06478

中位数为：71bp。具体分布如图1所示。

4、对构建好的待测序列与标签序列同向交替串联体文库，进行双端的高通量测序(Pair-End sequencing)。由于环的大小小于测序仪的测序长度的一半，因此单端一次测序一定覆盖了至少一个单元的串联体，双端的一次测序一定测了至少两次串联体单元，将这两个串联体的序列相互比较，去除不一致的序列。利用该原理，来计算所测的数据中DNA的错误率。假设样品中不存在低频突变，该方法的错误率为1e-5。测序错误在不同碱基(参考基因组的碱基)上分布不同，其中C到T、G到A的测序错误率较高，约为1e-4，具体测序错误率见表1。这种突变的模式在其他测定低频突变的研究中也有发现，这两种突变很可能是由于胞嘧啶或者5甲基化胞嘧啶自发的脱氨基作用导致的。当发生脱氨基作用后，一根原始单链DNA上的碱基已经改变，对它的多次独立检测都只能观察到突变碱基。

表1 不同碱基的测序错误频率

测序错误类型	测序错误率
测序错误类型	测序错误率	A＝＞C	1.78E-06
T＝＞G	1.13E-06	A＝＞C	1.78E-06
T＝＞G	1.13E-06	A＝＞G	4.41E-06
T＝＞C	6.96E-06	A＝＞G	4.41E-06
T＝＞C	6.96E-06	A＝＞T	5.70E-06
T＝＞A	2.97E-06	A＝＞T	5.70E-06
T＝＞A	2.97E-06	C＝＞A	1.34E-05
G＝＞T	2.91E-05	C＝＞A	1.34E-05
G＝＞T	2.91E-05	C＝＞G	1.19E-05
G＝＞C	1.92E-05	C＝＞G	1.19E-05
G＝＞C	1.92E-05	C＝＞T	0.000153171
G＝＞A	0.000443162	C＝＞T	0.000153171

从上述计算的结果可以看出，该方法的单碱基错误率(10^-5)远远低于二代测序的错误率(1％)，也远远低于已经存在的一些改进方法，因此本方法较为彻底的消除了二代测序的错误率问题，借助于第二代测序技术平台实现了对DNA分子的超精确测序。该方法的另一个优点是测序精度与测序深度无关，解决了标签法必须在极高的测序覆盖乘数下才能较精确测定DNA序列的问题，从而也就可以实现对大基因组(如人类的基因组等)的精确测序。

实施例6对大肠杆菌进行文库构建以及数据分析

取Ecoli W3110的DNA，超声打断成主带在300bp的DNA片段。回收80～150bp片段，连接标签序列，单链化，滚环扩增。对滚环后的DNA进行了传统的二代测序文库构建(详见实施例1)。用hiseq2500测得约4G的双向数据(读长为2×150＝300bp)。对数据处理分析如下：

1、共测得：13787730条reads，其中能成环的reads数为：7578585条reads。

2、成环率：54.96615468971325％。

3、形成的环大小范围为：30-260bp，平均大小为：122.909bp，标准差为：17.74147bp。

中位数为：122bp。

各碱基的测序错误率见表2。

表2不同碱基的测序错误率

测序错误类型	测序错误频率
测序错误类型	测序错误频率	A＝＞C	2.66E-07
T＝＞G	4.10E-07	A＝＞C	2.66E-07
T＝＞G	4.10E-07	A＝＞G	2.79E-06
T＝＞C	2.47E-06	A＝＞G	2.79E-06
T＝＞C	2.47E-06	A＝＞T	1.58E-06
T＝＞A	1.29E-06	A＝＞T	1.58E-06
T＝＞A	1.29E-06	C＝＞A	5.68E-06
G＝＞T	3.85E-06	C＝＞A	5.68E-06
G＝＞T	3.85E-06	C＝＞G	3.20E-06
G＝＞C	1.14E-06	C＝＞G	3.20E-06
G＝＞C	1.14E-06	C＝＞T	0.000119
G＝＞A	7.73E-05	C＝＞T	0.000119

实施例7带随机标签序列测序文库的制备及数据分析

取phiX174DNA，超声打断成主带在100～200bp的DNA片段。回收60～100bp片段，连接标签序列，单链化，滚环扩增。对滚环后的DNA进行了传统的二代测序文库构建(详见实施例1)。其中和待测DNA片段连接的标签序列如下：

用hiseq 2000测得约4G的双向数据(读长为2×150＝300bp)。对数据处理分析如下：

1、共测得：19147560条reads，其中能成环(能够检测到至少两个重复单元，下同)的reads数为：4580270条reads。

2、成环率：23.92090689361987％。

3、形成的环大小范围为(去掉标签序列后)：1-133bp，平均大小为：88.56275bp，标准差为：29.17562bp。

中位数为：98bp。

各碱基的测序错误频率见表3。

表3 不同碱基的测序错误频率

测序错误类型	测序错误频率
测序错误类型	测序错误频率	A＝＞C	4.36E-07
T＝＞G	9.22E-07	A＝＞C	4.36E-07
T＝＞G	9.22E-07	A＝＞G	3.79E-06
T＝＞C	4.12E-06	A＝＞G	3.79E-06
T＝＞C	4.12E-06	A＝＞T	8.75E-06
T＝＞A	1.24E-05	A＝＞T	8.75E-06
T＝＞A	1.24E-05	C＝＞A	2.97E-05
G＝＞T	1.93E-05	C＝＞A	2.97E-05
G＝＞T	1.93E-05	C＝＞G	1.50E-05
G＝＞C	9.99E-06	C＝＞G	1.50E-05
G＝＞C	9.99E-06	C＝＞T	0.000103
G＝＞A	0.000131	C＝＞T	0.000103

本发明的方法能够超精确测定细胞中的DNA分子组成，可以把一个正常或发生病变(如癌症组织等)细胞群体中的DNA组成较真实的呈现出来。在癌症的检测方面，可以用来检测一个正常个体的某一组织或器官是否已经发生了潜在的致癌突变，以达到提前发现癌症和预防癌症的目的。在癌症研究的方面，该方法可以检测癌症群体中DNA突变的分布情况；可以用于发现癌症组织中潜在的小克隆群体来真实的了解肿瘤的异质性结构；可以帮助阐释突变在癌症的发生发展所起的作用；可以用来寻找肿瘤干细胞等。对于癌症治疗方面，可以用于寻找肿瘤干细胞群体，然后针对肿瘤干细胞设计特定的药物靶标，以实现对癌症的有效治疗等。对正常个体而言，该方法可以用于检测个体中正常细胞内DNA发生的突变，从而追溯正常组织的生长模式；也可以测定不同年龄个体中，某一组织中DNA突变发生的个数，从而估算DNA突变的速率；可以用于检测一个正常个体中是否存在与各种疾病相关的突变，达到预防疾病的目的等。

同时该方法能对外周血中的游离DNA进行有效的文库构建，能够有效的检测外周血中存在的低频突变位点，这种通过非侵害性的检测手段就能够对癌症的发生及发展过程、产前诊断中胎儿体内的有害突变等进行有效的检测和评估。

在古人类DNA的序列测定是研究人类进化的主要手段，但测定古人类DNA有很多难题，其中最大的几个问题是提取的古人类DNA含量低，降解严重，微生物污染严重。该方法能够利用极少量的DNA(单双链均可)进行文库构建，构建的文库能够进行外显子捕获(去除微生物基因组污染)，可有效针对古DNA文库构建过程中的这几个难题。

尽管本发明的具体实施方式已经得到详细的描述，本领域技术人员将会理解。根据已经公开的所有教导，可以对那些细节进行各种修改和替换，这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。

Claims

一种测序文库，其特征在于，所述测序文库中的***片段包含待测序列与标签序列的同向交替串联体。
权利要求1的测序文库，其特征在于，所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。
权利要求1的测序文库，其特征在于，所述同向交替串联体的长度大于测序仪的测序长度。
权利要求1的测序文库，其特征在于，所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。
权利要求4的测序文库，其特征在于，所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。
权利要求1-5任一项的测序文库，所述测序文库用于第二代测序或第三代测序。
一种制备测序文库的方法，所述方法包括：

(1)将待测序列与标签序列连接，得到双链或单链连接序列；

(2)当步骤(1)得到的连接序列为双链序列时，将连接序列单链化，然后进行环化处理，当步骤(1)得到的连接序列为单链序列时，直接进行环化处理；

(3)将步骤(2)得到的环化的连接序列进行基于链置换反应的DNA扩增，得到待测序列与标签序列的同向交替串联体；

(4)将待测序列与标签序列的同向交替串联体片段化，并在片段的两端连接测序接头，得到测序文库。
权利要求7的方法，其中所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。
权利要求7的方法，其中步骤(4)所述的同向交替串联体片段化后的长度大于测序仪的测序长度。
权利要求7的方法，其中所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。
权利要求10的方法，其中所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。
权利要求7-11任一项的方法，其中所述测序文库用于第二代测序或第三代测序。
一种测序方法，该方法包括使用权利要求1-6任一项的测序文库的步骤。
一种测序方法，该方法包括制备测序文库的步骤，所述制备测序文库的方法包括：

(1)将待测序列与标签序列连接，得到双链或单链连接序列；

(2)当步骤(1)得到的连接序列为双链序列时，将连接序列单链化，然后进行环化处理，当步骤(1)得到的连接序列为单链序列时，直接进行环化处理；

(3)将步骤(2)得到的环化的连接序列进行基于链置换反应的DNA扩增，得到待测序列与标签序列的同向交替串联体，即制备得到测序文库；

(4)将待测序列与标签序列的同向交替串联体片段化，并在片段的两端连接测序接头，得到测序文库。
权利要求14的测序方法，其中所述每个待测序列与标签序列的长度之和小于测序仪测序长度的一半。
权利要求14的测序方法，其中步骤(4)所述的同向交替串联体片段化后的长度大于测序仪的测序长度。
权利要求14的测序方法，其中所述标签序列包括4-20个(例如6-13个)连续的确定碱基和0-18个(例如0-13个)连续的随机碱基。
权利要求17的测序方法，其中所述确定碱基和随机碱基的排列方式为顺序排列(确定碱基和随机碱基不分前后)或镶嵌排列。
权利要求14-18任一项的测序方法，该测序方法为第二代测序或第三代测序方法。
权利要求1-6任一项的测序文库在测序中的应用。
权利要求20的应用，其中所述的测序为第二代测序或第三代测序。
权利要求20的应用，其中所述的测序包括基因组DNA测序、目标片段捕获测序(例如外显子捕获测序)、单链DNA片段的测序、化石DNA的测序或体液(例如血液、尿液、唾液)中游离DNA的测序。