CN110734908B

CN110734908B - 高通量测序文库的构建方法以及用于文库构建的试剂盒

Info

Publication number: CN110734908B
Application number: CN201911122433.3A
Authority: CN
Inventors: 王洋; 闫通帅; 罗镓超
Original assignee: Fuzhou Furui Medical Laboratory Co ltd
Current assignee: Fuzhou Furui Medical Laboratory Co ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2021-06-08
Anticipated expiration: 2039-11-15
Also published as: CN110734908A

Abstract

本发明提供一种高通量测序文库的构建方法以及用于文库构建的试剂盒。所述试剂盒包含如下成分中的至少一种：高通量测序Y型接头，用于单端线性PCR扩增的通用引物，用于单端线性多重PCR扩增的生物素标记特异性引物，正、反向文库扩增引物，UDG酶等。基于该试剂盒构建靶向双分子标签(UMI分子标签和链特异性分子标签)高通量测序文库的方法。本方法在基于多重PCR扩增的靶向测序体系中实现了随机分子标签UMI和序列多态性的链特异性分子标签双重纠错机制的同时，规避了绝大多数常规多重PCR扩增靶向测序体系的弊端，从而摒除了突变检测中的一切假阳性和假阴性，可对样品中的低频核酸突变进行高灵敏度，精准度以及高深度的检测。

Description

高通量测序文库的构建方法以及用于文库构建的试剂盒

技术领域

本发明涉及生物技术领域，具体地说，涉及一种高通量测序文库的构建方法以及用于文库构建的试剂盒。

背景技术

基因突变是有机体基因组核酸序列发生的永久性改变。突变通常来自于基因复制过程中的错误，或来自于其他形式的可逃逸机体内DNA错误校正修复机制的单链 DNA损伤。一般认为，有机体内的突变包括体细胞突变和胚系突变。其中，体细胞突变是癌症的主要特征之一，因此体细胞突变检测的准确性、灵敏度、特异性对于癌症早期诊断、伴随诊断和使用针对突变的靶向小分子药物进行后续治疗至关重要。而对于来自于胚系的突变，以人的二倍体基因组为例，遵循孟德尔遗传规律的遗传突变的等位基因频率通常为0％、50％以及100％，检测难度不大，但是对于等位基因频率(Allelic frequency)在10％甚至小于10％的新生突变或嵌合突变，以及遗传病领域重点关注的重复/缺失，突变检测的检测限、准确性和灵敏性对于早期提前干预，重症的亲体移植指导同样至关重要。近年来，随着高通量测序成本的降低，如全基因组测序(WGS)、全外显子组测序(WES)、靶向测序(Targetsequencing)等技术被更多地运用到胚系突变和肿瘤体细胞突变检测上。

用于高通量测序的高保真DNA聚合酶的错误率普遍约为1/10⁶，而Illumina测序平台的测序错误率约为1/10²～1/10³；在上机测序的过程中，双链DNA经过碱变性，在测序flowcell上以单链DNA形式成簇，并最终以单链的形式被测序。因此发生在文库构建过程中PCR扩增引发的错误或测序中由于光学信号或其他原因引入的测序错误会造成假阳性突变结果的产生，导致低于1％的突变几乎无法进行检测；同时，发生在 DNA复制早期单链损伤可能导致的碱基错配和后续的测序读取错误(如G→A及C→ T)，这些结果都会干扰到真正突变的检出或影响准确的突变频率的计算。

对于基于液相杂交捕获的全外显子组测序来说，存在人类85％致病突变的30Mb外显子区域即使测到10Gb的数据量，受捕获效率的影响，各个位点也仅能达到 100-200倍的平均测序深度，有效测序深度往往在100倍左右。这个测序深度对于突变频率较低体细胞突变和嵌合突变是远远不够的。因此，针对特定疾病相关基因或基因热点区的靶向测序技术越来越受到青睐。靶向测序技术以液相杂交捕获*** (Capture Panel)和多重PCR扩增子(multiplexing-PCR amplicon)***为两大技术阵营，而无论是基于液相杂交捕获Panel还是多重PCR扩增子的靶向测序技术，PCR扩增错误、测序错误，早期DNA损伤等都会混杂在最后的测序结果中无法正确分辨。

目前为止，基于多重PCR靶向测序平台，同时携带分子标签和链标签纠错机制的技术尚未有发表的研究结果和商品化产品。现已上市的类似商品化试剂盒一般只单独使用UMI(Unique molecular index)标记进行纠错。目前基于多重PCR扩增的靶向测序技术的纠错功能多为使用耦合随机碱基UMI到位点特异性引物的5’端，进行2～3 轮扩增得到完整的高通量测序文库结构；随着UMI随机碱基个数的增加，位点特异性引物的特异性结合会下降，导致上靶率下降；同时，常规多重PCR靶向测序建库体系中，在重叠区域设计的多对正反向引物在扩增中会产生非特异性扩增产物，这些非特异性扩增产物往往在扩增中占主导地位，严重影响目标区域的扩增效率；常规正反向引物设计导致对于类似cfDNA这种短DNA片段的利用率极低。

从临床适用性上看，基于液相杂交捕获的靶向测序的核心—探针合成几乎全部依赖于Roche，Agilent以及IDT等国外公司，成本居高不下；同时，定制化的探针常以Mix形式交付，无法实现单管探针的交付使用，灵活性不足。因此，亟需开发一种成本低、简单、快速、高效的高通量测序文库构建方法。

发明内容

本发明的目的是提供一种高通量测序文库的构建方法以及用于文库构建的试剂盒。

本发明构思如下：通过设计独特的Y型接头(其本身携带UMI分子标签)，与该接头连接后的特异性引物经过第一轮线性单引物扩增后，经UDG酶处理可产生链特异性标签，即通过较少循环数的扩增引入了两种分子标签。进一步地，可以根据实际需求，更换单端线性多重PCR引物序列，开发成适应不同应用范围的试剂盒。

为了实现本发明目的，第一方面，本发明提供一种高通量测序接头，所述高通量测序接头是由单链AS1和S1按等摩尔比混合退火而成的Y型接头；

单链AS1的核苷酸序列为：5’/PO4/-CTGCNNNNNNTCACCGACGGATCCGACTATAGTGAGTCGTATTA-3；’

单链S1的核苷酸序列为：5’-GCTATGACTCGGATCCGTCGGTGAMMMMMMG CAGT-3；’

其中，/PO4/表示磷酸化修饰；N、M各自独立地选自A、T、G或C；NNNNNN 与MMMMMM互补配对。

第二方面，本发明提供一种用于单端线性PCR扩增的通用引物S2，通用引物S2 的核苷酸序列为：5’-TAAUACGACUCACTATAG-3’。其中，U代表dU。

第三方面，本发明提供一种用于单端线性多重PCR扩增的特异性引物S3，特异性引物S3的核苷酸序列为：

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX₁-3；’

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX₂-3；’

……；以及

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX_n-3；’

其中，Biotin表示生物素修饰，X₁、X₂……X_n是指与同一基因上各待测靶点3’下游18-50bp碱基序列互补配对的核苷酸序列。

优选地，X₁、X₂……X_n的长度为18-24bp。

更优选地，特异性引物S3的Tm值为60℃。

第四方面，本发明提供一种正向文库扩增引物S4，引物S4的核苷酸序列为：5’-AATGATACGGCGACCACCGAGATCTACAC(i5)GTTCAGAGTTCTACAGTCCGAC GATC-3’；

其中，AATGATACGGCGACCACCGAGATCTACAC为与illumina Hiseq测序仪芯片适配的锚定P5端序列；(i5)表示P5端用于区分样本的Index。

第五方面，本发明提供一种反向文库扩增引物S5，引物S5的核苷酸序列为：5’-CAAGCAGAAGACGGCATACGAGAT(i7)GTGACTGGAGTTCCTTGGCACCCGAGA ATTCCAGGGGGGGGGGGG-3’；其中，CAAGCAGAAGACGGCATACGAGAT为与i llumina Hiseq测序仪芯片适配的锚定P7端序列；(i7)表示P7端用于区分样本的Index。

第六方面，本发明提供一种用于构建高通量测序文库的试剂盒，所述试剂盒包含如下成分中的至少一种：所述高通量测序Y型接头、所述用于单端线性PCR扩增的通用引物S2、所述用于单端线性多重PCR扩增的特异性引物S3、所述正向文库扩增引物S4、所述反向文库扩增引物S5、尿嘧啶-DNA糖基化酶(UDG)等。

第七方面，本发明提供所述试剂盒在高通量测序文库构建中的应用。

第八方面，本发明提供一种高通量测序文库的构建方法，包括以下步骤：

1)提取待测样本基因组DNA，然后随机打断基因组DNA；将片段化双链DNA 依次进行平末端修复，5’末端磷酸化修饰和3’末端加单碱基A；

2)步骤1)得到的DNA片段经T-A连接方式连接所述高通量测序Y型接头；

3)以步骤2)得到的连接产物为模板，利用所述用于单端线性PCR扩增的通用引物S2进行第一轮低循环数的单端引物线性PCR扩增；优选地，低循环数为2-4个循环；

4)使用尿嘧啶-DNA糖基化酶对步骤3)得到的扩增产物进行水解酶切；

5)以步骤4)得到的酶切产物为模板，利用所述用于单端线性多重PCR扩增的特异性引物S3进行第二轮单端引物线性高循环数的多重PCR扩增；优选地，高循环数为30-35个循环；

6)使用链霉亲和素磁珠富集回收步骤5)得到的扩增产物；

7)利用末端转移酶对步骤6)回收得到的扩增产物(带链霉亲和素磁珠)进行3’端加多聚胞嘧啶尾；

8)以步骤7)所得产物为模板，利用所述正向文库扩增引物S4和反向文库扩增引物S5进行PCR(带链霉亲和素磁珠)扩增，得到高通量测序文库。

优选地，步骤1)所述待测样本来自人的正常组织、细胞、口腔拭子、体液、FFPE 样本。

优选地，使用酶切和/或超声破碎对基因组DNA进行片段化。

优选地，利用T4 DNA聚合酶进行平末端修复。

优选地，利用T4多核苷酸激酶和三磷酸腺苷进行5’末端磷酸化修饰。

优选地，利用Klenow聚合酶进行3’末端加单碱基A。

优选地，步骤2)利用T4 DNA连接酶进行连接。

优选地，步骤3)利用高保真DNA聚合酶进行PCR扩增，优选NEB Q5热启动DNA 聚合酶。

优选地，步骤5)利用不具有3’-5’核酸外切酶校正活性的DNA聚合酶进行多重 PCR扩增。

优选地，步骤6)中使用的链霉亲和素磁珠为Invitrogen Dynabeads MyOneStreptavidin T1。

优选地，步骤8)利用高保真DNA聚合酶进行PCR扩增，优选KAPA HiFi热启动 DNA聚合酶。

本发明中，所有涉及双链DNA或单链DNA纯化使用的磁珠可以是Beckman CoulterAgencourt AMPure XP kit。

优选地，步骤3)PCR扩增的反应程序为：98℃45秒；98℃15秒，55℃40秒， 72℃1分钟，2-4个循环；72℃2分钟，12℃放置。

优选地，步骤5)多重PCR扩增的反应程序为：94℃2分钟；94℃30秒，60℃30 秒，72℃40秒，30-35个循环；72℃2分钟，12℃放置。

优选地，步骤8)PCR扩增的反应程序为：98℃45秒；98℃15秒，60℃30秒， 72℃30秒，12个循环；72℃1分钟，4℃放置。

借由上述技术方案，本发明至少具有下列优点及有益效果：

利用本发明提供的Y型接头以及建库方法，可以完全去除文库构建中产生的扩增错误和测序中的光学分辨导致的碱基错误，早期发生在DNA单链上的损伤，氧化，同时通过分子溯源机制规避多重PCR体系中的不均一扩增现象，实现对靶向区域拷贝数变异的精准定量，因而可以实现对样品中目标区域中所有的超低频/低频核酸点突变，染色体重排，拷贝数变异进行特异性、高灵敏度，高精准度以及高深度的检测；同时，由于多重PCR引物为互不干扰的基因区域同向引物，可以有效规避因规多重 PCR扩增体系中的重叠区域副产物扩增子过度扩增引起的特异性位点上靶率不足的问题。

附图说明

图1为本发明Y型接头元件结构示意图。

图2为本发明基于特殊的高通量测序接头元件，特殊通用引物元件，单端线性多重PCR扩增的位点特异性引物元件的双轮单引物线性多重PCR扩增进行NGS靶向双分子标签测序文库构建的分子层面流程图。

图3为本发明接头元件和文库构建方法的纠错示意图。

图4为本发明实施例2中文库使用琼脂糖凝胶电泳的检测结果。

图5为本发明实施例2中所建文库在1G测序数据量下各靶位点的平均测序深度。

具体实施方式

本发明提供一种特殊的高通量测序接头元件(高通量测序Y型接头)、一种单端PCR扩增的特殊通用引物元件(用于单端线性PCR扩增的通用引物S2)、一种单端线性多重PCR扩增的位点特异性引物元件(用于单端线性多重PCR扩增的特异性引物 S3)，以及基于上述三种元件构建靶向双分子标签(UMI分子标签和链特异性分子标签)高通量测序文库的方法。采用本发明提供的文库构建方法，在基于多重PCR扩增的靶向测序体系中实现了随机分子标签UMI和序列多态性的链特异性分子标签的双重纠错机制；单端线性多重PCR位点特异性引物的引入，有效规避了常规多重PCR 正反向引物产生大量非特异性副产物导致目标区域上靶率较低，对于长度较短的 DNA模板利用率低以及扩增效率不均一导致的拷贝数变异(Copy Number Variation) 鉴定不准确的特性等问题；整个实验过程中，由于无非特异性副产物的产生，大幅提高了目标区域结合的概率；同时，生物素标记的引入可进一步提高目标区域的上靶率，在相同数据量下，大幅提高了位点的平均测序深度，进而完全规避突变检测中的一切假阳性和假阴性，可对样品中的低频核酸突变包括点突变，***/缺失突变，拷贝数变异等进行高灵敏度，精准度以及高深度的检测。值得注意的是，对于来自于FFPE样本在甲醛处理过程中导致gDNA随机出现胞嘧啶C脱氨基形成尿嘧啶U，从而在后续测序中被测序成胸腺嘧啶T的情况，本发明提供的文库构建方法相较其他各种分子标签建库方法而言，亦能有效规避。

本发明基于多重PCR扩增体系的靶向测序相较于基于探针液相杂交捕获的靶向测序具有速度快，成本低，灵活性高等诸多应用优势。目前尚未有报道显示基于多重PCR的靶向测序技术可以进行原始体系的同一DNA分子的正负链还原。尽管UMI 可以去除文库构建体系中的PCR扩增错误和测序错误，但对于文库构建体系中PCR 反应开始之前存在于DNA单链上的，如DNA损伤，早期错误以及肿瘤FFPE样本中随机发生的影响突变检出的胞嘧啶-尿嘧啶等无法检出；因此，还是存在相当程度的假阳性；同时，由于在多重PCR体系中引入独立分子标签和链分子标签，可以对单外显子的拷贝数变异实现高精准度的检测。

根据本发明的典型实施方式，提供一种特殊的高通量接头元件，该接头元件由第一核苷酸链AS1_n(n＝4⁶＝4096)和第二核苷酸链S1_n(n＝4096)按照分子标签区随机碱基的完全Watson-Crick互补配对，通过自然降温方式退火形成部分Watson-Crick 配对的单管Y型接头(共4096管)，继而按照等物质的量进行等分子摩尔数混合单管退火接头形成，具体结构见图1。

根据本发明的典型实施方式，提供一种用于单端PCR扩增的特殊通用引物，参考5’-3’方向，与第一核苷酸链AS1的第一通用序列区3’-5’方向序列完全互补配对，其中，参照5’-3’方向，第4、10号位碱基由脱氧尿嘧啶核苷酸dU取代脱氧胸腺嘧啶核苷酸dT 与脱氧腺嘌呤核苷酸dA进行完全互补配对。

根据本发明的典型实施方式，提供一种用于单端线性多重PCR扩增的位点特异性引物(引物池)，其中5’末端经生物素Biotin修饰，参考5’-3’方向，依次为illumina 5’small RNA接头序列，位于同一基因的所有待检测位点3’下游20-50bp的同向位点特异性序列。

根据本发明的典型实施方式，提供两种用于文库扩增的引物-正向文库扩增引物S4和反向文库扩增引物S5。

本发明提供的接头元件除了第一分子标签区外，可通过特殊通用引物的2-4个低循环数、高保真度第一轮单引物线性PCR并经尿嘧啶-DNA糖基化酶UDG水解产生第二分子标签，即链分子标签；通过本发明的接头元件和上述方法对待检测DNA进行标记后，原始正链(负链)与由原始负链(正链)合成的新生正链(负链)携带相同第一分子标签，且5’末端携带不同碱基序列多态性的链分子标签，可以区分同一个分子的正负链；在对测序获得的序列进行分析时，可以保留来源于同一个DNA分子，同时出现在正链和负链上的突变，因此可以排除突变检测中的一切有PCR扩增以及测序造成的假阳性以及单链上发生的DNA损伤，PCR早期引入的错误，同时FFPE样本处理方式引入的gDNA目标区域单链上的尿嘧啶U碱基，可通过UDG水解消化，后续数据无法还原正负链，因此不会被分析成阳性突变，具体原理见图2和图3。

具体步骤包括：1)将片段化双链DNA进行平末端修复、5’末端磷酸化修饰和3’末端加单碱基A；2)在步骤1)得到的DNA片段经T-A连接方式连接所述接头元件；3)以步骤2)的连接产物为模板，以所述单端PCR扩增的特殊通用引物进行第一轮低循环的单端引物线性扩增，合成DNA原始模板双链各自的互补链；优选地，低循环数为2-4个循环；4)以步骤3)的单端引物线性扩增产物为模板，使用尿嘧啶-DNA 糖基化酶UDG对原始模板合成的互补链进行dU碱基的酶切，产生5’末端八碱基序列多态性(链分子标签)的酶切产物；5)以步骤4)的酶切产物为模板，使用所述单端线性多重PCR扩增的位点特异性引物池进行第二轮高循环数线性扩增；优选地，高循环数为30-35个循环；6)使用链霉亲和素磁珠富集回收步骤5)的单链扩增产物；7) 使用具有强末端转移酶和dCTP对步骤6)富集的单链扩增产物进行单链3’末端加多聚胞嘧啶尾；8)以步骤7)经基于固相载体可逆化固定(SPRI)的DNA磁珠纯化后的反应产物为模板，使用正向文库扩增引物S4和反向文库扩增引物S5进行PCR指数扩增，得到靶向测序文库。

可选地，步骤1)中，片段化为利用物理以及化学方法，对DNA样本进行随机打断；进一步优选地，使用酶切反应或超声物理破碎进行所述片段化。

可选地，步骤1)中，双链DNA由正常组织、细胞、口腔拭子、FFPE样本等提取后片段化处理，或血浆中分离的cfDNA或ctDNA直接提取纯化，不经片段化处理；优选地，FFPE样本提取后的双链DNA经DNA修复试剂盒修复；更优选地，FFPE样本使用凯杰公司的GeneReadDNA FFPE Kit(Cat/No.180134)提取。

优选地，步骤1)中，平末端修复是利用T4 DNA聚合酶完成的。

优选地，步骤1)中，磷酸化是用T4多核苷酸激酶(T4 PNK)和三磷酸腺苷ATP 进行的。

优选地，步骤1)中，3’末端加碱基A是利用去除3’-5’外切酶活性的Klenow 聚合酶进行的。

优选地，步骤2)中连接反应是用T4 DNA连接酶和增强型连接缓冲液完成；更优选地，加入适量聚乙二醇6000(PEG6000)加入T4连接酶反应体系增强反应。

优选地，步骤3)中的低循环线性扩增反应使用高保真DNA聚合酶完成；更优选地，所述DNA聚合酶选择NEB Q5热启动DNA聚合酶完成。

优选地，步骤5)中的高循环线性扩增反应用不带有3-5’核酸外切酶校正活性的DNA聚合酶完成；更优选地，所述DNA聚合酶选择NEB LongAmp热启动Taq酶。

优选地，步骤6)中的链霉亲和素磁珠为Invitrogen Dynabeads MyOneStreptavidin T1。

优选地，步骤8)及所有涉及双链DNA或单链DNA纯化使用的磁珠为BeckmanCoulter Agencourt AMPure XP kit。

优选地，步骤8)中的指数扩增用高保真DNA聚合酶完成；更优选地，所述DNA 聚合酶选择KAPA HiFi热启动DNA聚合酶。

以下实施例用于说明本发明，但不用来限制本发明的范围。若未特别指明，实施例均按照常规实验条件，如Sambrook等分子克隆实验手册(Sambrook J&Russell DW,Molecular Cloning:a Laboratory Manual,2001)，或按照制造厂商说明书建议的条件。

实施例1用于构建高通量测序文库的试剂盒以及高通量测序文库的构建方法

本实施例提供一种用于构建高通量测序文库的试剂盒，包括用于高通量测序文库构建的接头元件、一种用于单端PCR扩增的特殊通用引物以及生物素标记的用于进行单端线性多重PCR扩增的位点特异性引物。同时提供基于上述接头元件、单端扩增特殊通用引物以及生物素标记的单端线性多重PCR的位点特异性引物构建靶向高通量测序文库的方法。其中，第一接头元件由第一核苷酸链AS1和第二核苷酸链S1退火形成部分Watson-Crick配对的Y型的DNA双链接头结构；第一核苷酸链AS1的3’末端悬第一通用序列区；参照第一核苷酸链AS1的3’-5’方向，第一通用序列区后面为第一核苷酸链AS1与第二核苷酸链S1的完全碱基互补的第二序列区，第二序列区后为六个随机碱基N组成的第一分子标签区；第一分子标签区后为四个碱基组成的第三序列区，功能为末端保护碱基，其中第一核苷酸链AS的5’末端为磷酸化修饰；第二核苷酸链S1 5’末端悬第二通用序列区；参照第二核苷酸链S1的5’-3’方向，第二通用序列区后面为与第一核苷酸链AS1的第二序列区完全互补配对的第四序列区，第四序列区后为六个随机碱基N组成的第一分子标签互补区第一分子标签互补区后为五个碱基组成的与第三序列区完全互补配对的第五序列区，其中第五序列区末端为胸腺嘧啶核苷酸T；在退火缓冲液的作用下，根据上述第一分子标签区和第一分子标签互补区的序列进行第一核苷酸链AS1_n(n＝4⁶＝4096)和第二核苷酸链S1_n(n＝4096)自然降温方式退火形成接头结构，继而按照等物质的量进行等分子摩尔数混合单管退火接头，形成最终的混合Y型接头元件；单端扩增特殊通用引物为与第一核苷酸链AS1的第一通用序列区完全互补配对的第三核苷酸链S2，参照第三核苷酸链5’-3’方向第4、 10号位碱基由脱氧尿嘧啶核苷酸dU取代脱氧胸腺嘧啶dT；单端线性多重PCR位点特异性引物S3_n的5’末端经生物素Biotin修饰，参考S3_n的5’-3’方向，依次为illumina 5’ small RNA接头序列，位于检测位点3’下游20-50bp的同向位点特异性序列；上述Y型接头元件通过高浓度T4 DNA连接酶连接经末端修复，3’加单腺苷酸，5’磷酸化的片段化DNA，构成Y型接头-***片段的结构；通过第三核苷酸链S2进行N轮单引物线性扩增；线性扩增产物的dU碱基经尿嘧啶-DNA糖基化酶UDG水解，产生与原始DNA 模板携带相同分子标签且5’末端存在八碱基序列多态性的1条原始片段化DNA分子正链(负链)和N条经原始片段化DNA分子负链(正链)扩增形成的合成正链(负链)；上述八碱基序列多态性作为识别相同第一分子标签中的双链DNA分子正负链组成的第二分子标签，从而实现正负链溯源；经单端线性多重PCR位点特异性引物S3_n进行第二轮单端引物线性扩增，由链霉亲和素磁珠富集单链线性扩增产物；纯化单链线性扩增产物后经末端转移酶在3’末端加一定数量的胞嘧啶，形成相对固定长度的锚定多聚胞嘧啶尾；经文库正向扩增引物S4和反向扩增引物S5扩增，其中，扩增引物S4 为illumina P5端通用引物；S5参照5’-3’方向依次为与illumina测序仪Flowcell P7端互补序列、Index序列、illumina 3’small RNA接头互补序列以及锚定固定长度多聚鸟嘌呤尾，形成最终的携带第一分子标签，用于正负链识别的第二分子标签以及样本Index 标签的最终文库结构；应用本发明中的接头元件以及提供的建库方法，可以完全去除文库构建中产生的扩增错误和测序中的光学分辨导致的碱基错误，早期发生在 DNA单链上的损伤，氧化，同时通过分子溯源机制规避多重PCR体系中的不均一扩增现象，实现对靶向区域拷贝数变异的精准定量，因而对样品中目标区域中所有的超低频/低频核酸点突变，染色体重排，拷贝数变异进行特异性、高灵敏度，高精准度以及高深度的检测；同时，由于多重PCR引物为互不干扰的基因区域同向引物，可以规避由常规多重PCR扩增体系中的重叠区域副产物扩增子过度扩增引起的特异性位点上靶率不足的问题。具体方法如下：

本发明提供一种特殊的高通量测序接头元件，第一核苷酸链AS1_n(n＝4⁶＝4096)和第二核苷酸链S1_n(n＝4096)按照分子标签区随机碱基的完全Watson-Crick互补配对，通过自然降温方式退火形成部分Watson-Crick配对的单管Y型接头(共4096管)，继而按照等物质的量进行等分子摩尔数混合单管退火接头，形成最终的混合Y型接头元件；其中，非Watson-Crick配对区包括第一核苷酸链AS1 3’末端悬带的第一通用序列区，第二核苷酸链S1 5’末端悬第二通用序列区及3’末端悬单胸腺嘧啶核苷酸T； Watson-Crick配对区由第一核苷酸链AS1 _n的第二序列区—第一分子标签区—第三序列区与第二核苷酸链S1_n的第四序列区—第一分子标签互补区—第五序列区(5’-3’的前四个碱基)组成；其中，第二序列区和第四序列区的互补配对区行使退火结合以及第一分子标签锚定识别功能，第三序列区和第五序列区(5’-3’的前四个碱基)行使第一分子标签锚定校对功能；进一步地，所述第一通用序列区及第二通用序列区为不干扰所述接头元件配对的核苷酸单链序列，第一通用序列区参照3’-5’方向优选为剔除个别碱基并经美国国家生物技术信息中心(NCBI)的引物比对(Primer Blast) 功能确定的确定不影响S3n扩增的T7通用扩增引物的互补序列，第二通用序列区参照 5’-3’方向优选为剔除部分碱基的并经美国国家生物技术信息中心(NCBI)的引物比对(Primer Blast)功能确定不影响S3n扩增的通用引物M13反向序列；上述接头元件其序列碱基组成特征在于，所述第一核苷酸链AS1的序列为SEQ ID NO：1： 5’/PO4/-CTGCNNNNNNTCACCGACGGATCCGACTATAGTGAGTCGTATTA-3’，其中，参照3’-5’方向，ATTATGCTGAGTGATATC为第一通用序列区； AGCCTAGGCAGCCACT为第二序列区即Watson-Crick配对的锚定分子标签序列识别区，NNNNNN为6个随机碱基构成的第一分子标签序列区，CGTC为第三序列区即第一分子标签锚定校对功能区；/PO4/代表磷酸化修饰；所述第二核苷酸链S1的序列为SEQ ID NO：2：5’-GCTATGACTCGGATCCGTCGGTGAMMMMMMGCAGT-3’，其中，参照5’-3’方向，GCTATGAC为第二通用序列区；TCGGATCCGTCGGTGA为第四序列区与所述第一核苷酸链AS1的第二序列区进行Watson-Crick配对； MMMMMM为与所述第一核苷酸链AS1的完全互补配对的6个随机碱基构成的第一分子标签序列互补区，GCAGT为第五序列区，其中GCAG与所述第一核苷酸链AS1 的第三序列区完全互补配对，T碱基为S1的3’末端悬带的单碱基。其中，N、M各自独立地选自A、T、G或C。

进一步地，提供一种用于单端PCR扩增的特殊通用引物，即第三核苷酸链S2，其特征为，参考S2的5’-3’方向，与第一核苷酸链AS1的第一通用序列区3’-5’方向序列完全互补配对，其中，参照S2的5’-3’方向，第4、10号位碱基由脱氧尿嘧啶核苷酸dU 取代脱氧胸腺嘧啶核苷酸dT与脱氧腺嘌呤核苷酸dA进行完全互补配对；其序列碱基组成特征在于，参照链5’到3’端方向，第4，第10号位碱基使用dU替代dT，所述序列为SEQ ID NO：3：5’-TAAUACGACUCACTATAG-3’。

进一步地，提供一种用于单端线性多重PCR扩增的位点特异性引物S3_n，S3_n的5’末端经生物素Biotin修饰，参考S3_n的5’-3’方向，依次为illumina 5’small RNA接头序列，位于同一基因的所有待检测位点3’下游20-50bp的同向位点特异性序列；其特征为，引物5’末端进行生物素修饰，参照引物5’-3’方向，依次分别为与illumina文库扩增引物相同的公共序列，优选为illumina Truseq 5’small RNA接头序列(RA5)，位于同一基因的所有待检测位点3’下游20-50bp的同向位点特异性序列，即来自于同一个基因的所有位点特异性序列方向一致，这些同向性特异性位点序列不会经PCR产生扩增产物；其中，位点特异性序列使用多重PCR引物设计软件PrimerPlex(PREMIER Biosoft)完成设计，并针对每一个相同基因，在引物对中选择方向相同的引物，结合位置目标区域序列来源于NCBI公布的序列；引物经PrimerBlast在参考基因组 GRCh37(Hg19)上进行特异性验证；所述引物序列为SEQ IDNO：4： 5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCNNNNNNNNNNNNNNNNNNNN N-3’，其中Biotin表示生物素修饰，GTTCAGAGTTCTACAGTCCGACGATC为所述 illumina Truseq 5’smallRNA接头序列(RA5)，NNNNNNNNNNNNNNNNNNNNN为经PrimerPlex设计并经选择的位点特异性序列；Biotin代表生物素修饰。

提供一种正向文库扩增引物S4，参照寡核苷酸链5’-3’方向，所述引物序列为：5’-AATGATACGGCGACCACCGAGATCTACAC(i5)GTTCAGAGTTCTACAGTCCGA CGATC-3’；其中，AATGATACGGCGACCACCGAGATCTACAC为与illumina Hiseq 测序仪芯片适配的锚定P5端序列；i5代表P5端用于区分样本的Index； GTTCAGAGTTCTACAGTCCGACGATC为与illumina Truseq5’small RNA接头序列 (RA5)一致的序列；同时，提供一种反向文库扩增引物S5，参照寡核苷酸链5’-3’方向，所述引物序列为： 5’-CAAGCAGAAGACGGCATACGAGAT(i7)GTGACTGGAGTTCCTTGGCACCCGA GAATTCCAGGGGGGGGGGGG-3’；其中，CAAGCAGAAGACGGCATACGAGAT为与illumina Hiseq测序仪芯片适配的锚定P7端序列；i7代表P7端用于区分样本的 Index；CCTTGGCACCCGAGAATTCCA为和illumina Truseq 3’small RNA接头序列 (RA3)反向互补的序列。

本发明提供的高通量文库构建方法包括步骤：1)将片段化双链DNA进行平末端修复、5’末端磷酸化修饰和3’末端加单碱基A；2)步骤1)得到的DNA片段经T-A连接方式连接所述Y型接头元件；3)以步骤2)的连接产物为模板，以所述单端PCR扩增的特殊通用引物进行第一轮低循环的单端引物线性扩增，合成DNA原始模板双链各自的互补链；优选地，低循环数为2-4个循环；4)以步骤3)的单端引物线性扩增产物为模板，使用尿嘧啶-DNA糖基化酶UDG对原始模板合成的互补链进行dU碱基的水解，产生5’末端八碱基序列多态性(链分子标签)的水解产物；5)以步骤4)的酶切水解产物为模板，使用所述单端线性多重PCR扩增的位点特异性引物池进行第二轮高循环数线性扩增；优选地，高循环数为30-35个循环；6)使用链霉亲和素磁珠富集回收步骤5)的单链扩增产物；7)使用具有强末端转移酶和dCTP对步骤6)富集的单链扩增产物进行单链3’末端加多聚胞嘧啶尾；8)以步骤7)经基于固相载体可逆化固定(SPRI)的DNA磁珠纯化后的反应产物为模板，使用所述正向文库扩增引物 S4和反向文库扩增引物S5进行PCR指数扩增，得到靶向测序文库。

步骤1)中使用酶切反应或超声物理破碎进行DNA片段化。

步骤1)中双链DNA由来自人正常组织、细胞、口腔拭子、FFPE样本等提取，血浆中分离的cfDNA或ctDNA直接提取纯化，不经片段化处理。FFPE样本提取后的双链DNA经DNA修复试剂盒(凯杰公司的GeneRead DNA FFPE Kit)修复。

步骤1)中平末端修复是利用T4 DNA聚合酶完成的。

步骤1)中磷酸化是用T4多核苷酸激酶(T4 PNK)和三磷酸腺苷ATP进行的。

步骤1)中3’末端加碱基A是利用去除3’-5’外切酶活性的Klenow聚合酶进行的。

步骤2)中连接反应是用T4 DNA连接酶和增强型连接缓冲液完成；更优选地，加入适量聚乙二醇6000(PEG6000)加入T4连接酶反应体系增强反应。

步骤3)中低循环线性扩增反应使用高保真NEB Q5热启动DNA聚合酶完成。

步骤5)中高循环线性扩增反用不具有3-5’核酸外切酶校正活性的DNA聚合酶(NEB LongAmp热启动Taq酶、TAKARA LA Taq热启动酶)完成。

步骤6)中链霉亲和素磁珠为Invitrogen Dynabeads MyOne Streptavidin T1。

步骤8)及所有涉及双链DNA或单链DNA纯化使用的磁珠为Beckman CoulterAgencourt AMPure XP kit。

步骤8)中指数扩增用高保真KAPA HiFi热启动DNA聚合酶完成。

实施例2高通量测序文库构建实例

本实施例采用Horizon discovery公司的HD780 cfDNA multiplex标准品进行测试。该标准品共包含不同突变频率的4个样本，包含不同含量的三种类型变异(***、缺失和点突变)共8个，如表1所示：

表1

染色体号

基因

变异名称及类型

野生型

5％突变型

1％突变型

0.1％突变型

7p12

EGFR

EGFR_p.E746_A740del

0.00％

5.00％

1.00％

0.10％

7p12

EGFR

EGFR_p.V769_D770insASV

0.00％

5.00％

1.00％

0.10％

7p12

EGFR

EGFR_p.T790M

0.00％

5.00％

1.00％

0.10％

7p12

EGFR

EGFR_p.L858R

0.00％

5.00％

1.00％

0.10％

12p12.1

KRAS

KRAS_p.G12D

0.00％

6.30％

1.30％

0.13％

1p13.2

NRAS

NRAS_p.Q61K

0.00％

6.30％

1.30％

0.13％

1p13.3

NRAS

NRAS_p.A59T

0.00％

6.30％

1.30％

0.13％

3p26.3

PIK3CA

PIK3CA_p.E545K

0.00％

6.30％

1.30％

0.13％

具体操作步骤如下：

1、cfDNA末端修复、5’末端磷酸化，3’末端加腺苷酸

取标准品cfDNA100ng，加入KAPA HyperPlus文库构建试剂盒(Cat/No.KK8515) 末端修复加A缓冲液3微升，KAPA HyperPlus末端修复加A酶2微升，用无核酸酶的去离子水补足至总体积30微升，轻柔震荡混匀后，将上述反应混合物20℃孵育10分钟， 65℃孵育30分钟。

2、接头连接

使用的接头序列如下：

第一核苷酸链AS1(SEQ ID NO：1)

5’/PO4/-CTGCNNNNNNTCACCGACGGATCCGACTATAGTGAGTCGTATTA-3’

第二核苷酸链S1(SEQ ID NO：2)

5’-GCTATGACTCGGATCCGTCGGTGAMMMMMMGCAGT-3’

经退火产生单管接头以及等摩尔数混合产生的最终双链DNA接头(以下简称接头)，结构如下(//表示修饰基团，“PO4”为磷酸化修饰，下划线N为六随机碱基组成的第一分子标签区，斜体部分表示Watson-Crick配对区，波浪线部分表示非Watson-Crick配对区，即第一通用序列区及第二通用序列区，加粗部分为S1的3’末端悬带的单T碱基突出)：

向上一步反应液中加入15微升KAPA HyperPlus连接缓冲液，2微升接头，5微升KAPA HyperPlus连接酶，并用无核酸酶的去离子水补足至总体积60微升。将上述反应混合物20℃反应40分钟；加入48微升(0.8倍反应体积)的Agencourt AMPure XP磁珠(BeckmanCoulter Cat/No.10453438)。吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％新鲜配制的乙醇，室温静置30S；移除上清，重复洗涤一次；开盖干燥4分钟；加入21微升无核酸酶的去离子水洗脱，室温孵育5分钟，置磁力架1分钟，吸取20微升上清到一个新的0.2毫升PCR管中。

3、第一轮线性扩增

使用的第一轮线性扩增引物序列如下(以下简称一轮引物)：

SEQ ID NO：3：5’-TAAUACGACUCACTATAG-3’

将上述引物稀释到10uM。

向上一步洗脱的DNA中加入25微升2X KAPA HiFi热启动酶预混液，2.5微升一轮引物，2.5微升无核酸酶的去离子水。将上述混合反应液执行以下程序：1)98℃孵育 45秒；2)98℃孵育15秒，55℃孵育40秒，72℃孵育1分钟，3个循环；3)72℃孵育2 分钟，12℃放置。

4、尿嘧啶-DNA糖基化酶UDG水解(酶切)

向上一步反应液中加入1微升尿嘧啶-DNA糖基化酶UDG(Uracil-DNA GlycosylaseThermo#EN0361，1单位/微升)，执行以下反应条件：37℃孵育20分钟， 55℃变性10分钟；加入127.5微升(2.5倍反应体积)的Ampure XP磁珠。吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入 200微升80％新鲜配制的乙醇，室温静置30S；移除上清，重复洗涤一次；开盖干燥4 分钟；加入35微升无核酸酶的去离子水洗脱，室温孵育5分钟，置磁力架1分钟，吸取34微升上清到一个新的0.2毫升PCR管中。

5、第二轮线性扩增

使用的单边锚定多重PCR扩增引物(以下简称二轮引物)见表2(从左至右为5’端至3’端，Biotin表示生物素修饰)：

本实施例中的单边锚定多重PCR扩增引物中的基因特异识别位点序列来自于IonAmpliSeq Cancer Hotspot Panel v2公布的肿瘤50基因207扩增子的引物序列信息；在本实施例中选择NCBI公布的同一个基因(EGFR、KRAS、NRAS及PI3KCA)序列同向的引物进行混合，序列信息见表2：

表2

将上述二轮引物等物质的量混合得到引物池，稀释到10uM。

向上一步反应液中加入0.5微升TAKARA LA Taq聚合酶、2.5微升引物池、5微升TAKARA LA Taq缓冲液以及8微升2.5毫摩的dNTP，执行以下程序：1)94℃孵育2分钟；2)94℃孵育30秒，60℃孵育30秒，72℃孵育40秒，30个循环；3)72℃孵育2分钟，12℃放置。

6、链霉亲和素磁珠活化及富集单链

取80微升Dynabeads M270(Thermo Cat/No.65305)链霉亲和素磁珠，经200微升的1×磁珠清洗缓冲液，充分混匀，置于磁力架3分钟，移除上清；然后，经200微升的1×磁珠清洗缓冲液，充分混匀，置于磁力架3分钟，移除上清；接着，经100微升的1×磁珠清洗缓冲液，充分混匀，置于磁力架3分钟，移除上清。

将上一步反应液加入装有活化后的链霉亲和素磁珠的离心管中，充分吸打混匀10次，移至一个新的0.2毫升PCR管中；在PCR仪上执行以下程序：65℃孵育60分钟，期间每15分钟进行旋涡震荡一次混匀重悬。

置磁力架10分钟，移除上清；样品保持在磁力架上，小心加入200微升80％新鲜配制的乙醇，室温静置30S；移除上清，加入20微升0.1当量氢氧化钠溶液，常温反应 8分钟后，加入20微升0.2M Tris-HCl溶液；置磁力架10分钟，移除上清；样品保持在磁力架上，小心加入200微升80％新鲜配制的乙醇，室温静置30S，移除上清，重复洗涤一次；开盖干燥5分钟；加入30微升无核酸酶的去离子水，吸打混匀10次后的磁珠进入下一步反应。

7、富集单链3’末端加多聚腺苷酸尾

上述反应液(带磁珠)中，加入10×TDT缓冲液4微升，100mM脱氧胞嘧啶核苷酸0.25微升，2.5mM氯化钴溶液4微升，末端转移酶TDT(NEB Cat/No.M0315S)1 微升，在PCR仪上执行以下程序：37℃孵育30分钟，期间每10分钟进行瞬时旋涡震荡一次混匀重悬，70℃孵育10分钟，4℃放置；补水至总体积50微升后，置磁力架10分钟，移除上清；样品保持在磁力架上，小心加入200微升80％新鲜配制的乙醇，室温静置30S；移除上清，重复洗涤一次；开盖干燥5分钟；加入22微升无核酸酶的去离子水，吸打混匀后的磁珠进入下一步反应。

8、文库扩增

所用引物序列如下：

5’-AATGATACGGCGACCACCGAGATCTACAC(i5)GTTCAGAGTTCTACAGTC CGACGATC-3’(以下简称引物3)

5’-CAAGCAGAAGACGGCATACGAGAT(i7)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCAGGGGGGGGGGGG-3(以下简称引物4)

将上述引物稀释到10uM。

向上一步吸打混匀的磁珠中加入25微升2X KAPA HiFi热启动酶预混液，2.5微升引物3，2.5微升引物4。将上述混合反应液执行以下程序：1)98℃孵育45秒；2)98 ℃孵育15秒，60℃孵育30秒，72℃孵育30秒，12个循环；3)72℃孵育1分钟，4℃放置。

9、文库纯化以及片段分选

向上述反应液中加入125微升(2.5倍反应体积)的Ampure XP磁珠。吸打10次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入 200微升80％新鲜配制的乙醇，室温静置30S；移除上清，重复洗涤一次；开盖干燥4 分钟；加入100.5微升无核酸酶的去离子水洗脱，室温孵育5分钟，置磁力架1分钟，吸取100微升上清到一个新的1.5毫升离心管中；加入55微升(0.5倍反应体积)的 Ampure XP磁珠。吸打10次混匀，室温放置10分钟；置磁力架5分钟，小心吸取上清至一新的1.5毫升离心管中，加入20微升(0.2倍反应体积)Ampure XP磁珠，吸打10 次混匀，室温放置10分钟；置磁力架5分钟，移除上清；样品保持在磁力架上，小心加入200微升80％新鲜配制的乙醇，室温静置30S；移除上清，重复洗涤一次；开盖干燥4分钟；加入20.5微升无核酸酶的去离子水洗脱，室温孵育5分钟，置磁力架1分钟，吸取20微升上清到一个新的0.2毫升PCR管中。

10、高通量测序

将上一步纯化好的文库按照illumina Hiseq X的操作步骤，进行高通量测序；

11、数据分析

1)使用Trimmatic工具对数据进行过滤，去除低质量的碱基和接头序列、PCR引物序列；

2)使用cutadapt工具从原始数据中提取分子标签和链标签；

3)使用BWA将读段(Reads)比对到参考基因组上；

4)根据读段在基因组上的起始位置和终止位置，获得比对到目标区域的读段，进行下游分析；

5)将比对到目标区域的读段，根据起始位置、终止位置和分子标签，去除PCR 扩增重复，获得每一个原始双链DNA分子的数目；

6)对起始位置、终止位置和分子标签完全相同的DNA分子，作为同一来源的DNA 分子，提取正链标签和负链标签，还原扩增前DNA分子及其序列；

7)使用Varscan2对所有独立来源的DNA分子序列和参考基因组序列进行比较，获得体细胞变异，并计算变异的等位基因频率。

12、结果分析

从图4显示的不同突变频率标准品cfDNA构建文库的琼脂糖电泳检测结果可见，文库大小在300bp左右，***片段长度为160-170bp左右，为cfDNA的平均长度。

文库下机数据的比对读段数、上靶率，第一分子标签和内源标签得到的原始DNA分子数目、具有正负链标签支持的DNA分子数目占第一分子标签和内源标签得到的DNA分子数目见表3。

表3

从以上实验结果可知，本发明方法对靶向区域的富集效果非常好，上靶率全部在80％以上且样品间上靶率差异低，四次不同样本的独立实验的一致性很好(80.47％～85.41％)；检测到带随机碱基分子标签的DNA分子，31.62％以上被同时检测到了正链和负链，且一致性非常好(31.62％～33.69％)；

标准品实际检测突变品率、覆盖靶点的第一分子标签和内源标签得到的原始 DNA分子数目、检测到变异的DNA分子数目、具有正负链标签支持的DNA分子数目见表4：

表4

从以上突变检测结果可见，本发明方法对标准品中不同含量、不同类型的突变，都进行了有效的检出，对于含0.1％变异DNA分子的标准品可以高效检出，检出的突变频率与标准品人工掺入的频率高度一致(所有位点0.105％～0.227％)，全部同时检出变异分子的正链以及负链(8/8)，最低检出正负链分子数为1；对于含1％变异DNA 分子的标准品可以高效检出，检出的突变频率与标准品人工掺入的频率高度一致(所有位点0862％～1.235％)，全部同时检出变异分子的正链以及负链(8/8)，最低检出正负链分子数为3；对于含5％变异DNA分子的标准品可以高效检出，检出的突变频率与标准品人工掺入的频率高度一致(所有位点4.158％～6.459％)，全部同时检出变异分子的正链以及负链(8/8)，最低检出正负链分子数为9。如图5所示，在1G(10⁹bp) illumine PE150测序模式下，所有待测位点的平均测序深度均达到5000×以上，每个位点的测序深度在三次独立实验中的变异系数CV均小于5％，说明本方法稳定性好。

利用本发明提供的文库构建方法，在基于多重PCR扩增的靶向测序体系中实现了随机分子标签UMI和序列多态性的链特异性分子标签双重纠错机制的同时，规避了大量常规多重PCR扩增靶向测序体系的弊端，从而摒除了突变检测中的一切假阳性和假阴性，可对样品中的低频核酸突变包括点突变，***/缺失突变，拷贝数变异等进行高灵敏度，精准度以及高深度的检测。

虽然，上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之做一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

参考文献:

[1]Ames BN.Dietary carcinogens and anticarcinogens.Science 231,1256-1264(1983).

[2]Loeb,L.A.et al.Errors in DNA replication as a basis of malignantchange.Cancer Res.34,2311–2321(1974).

[3]Glenn,T.C.Field guide to next-generation DNAsequencers.Mol.Ecol.Resour.11,759–769(2011).

[4]Newman,A.et al.Nature Biotechnology.34,547–555(2016) 。

序列表

<110> 福州福瑞医学检验实验室有限公司

<120> 高通量测序文库的构建方法以及用于文库构建的试剂盒

<130> KHP191115615.0

<160> 4

<170> SIPOSequenceListing 1.0

<210> 1

<211> 44

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

ctgcnnnnnn tcaccgacgg atccgactat agtgagtcgt atta 44

<210> 2

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

gctatgactc ggatccgtcg gtgammmmmm gcagt 35

<210> 3

<211> 18

<212> DNA/RNA

<213> 人工序列(Artificial Sequence)

<400> 3

taauacgacu cactatag 18

<210> 4

<211> 47

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

gttcagagtt ctacagtccg acgatcnnnn nnnnnnnnnn nnnnnnn 47

Claims

1.用于单端线性PCR扩增的通用引物S2，其特征在于，通用引物S2的核苷酸序列为：5’-TAAUACGACUCACTATAG-3’；其中，U代表dU。

2.用于构建高通量测序文库的试剂盒，其特征在于，所述试剂盒包含如下成分：高通量测序接头、权利要求1所述的通用引物S2、用于单端线性多重PCR扩增的特异性引物S3、正向文库扩增引物S4、反向文库扩增引物S5、尿嘧啶-DNA糖基化酶；

其中，所述高通量测序接头是由单链AS1和S1按等摩尔比混合退火而成的Y型接头；

单链AS1的核苷酸序列为：5’/PO4/-CTGCNNNNNNTCACCGACGGATCCGACTATAGTGAGTCGTATTA-3’；

单链S1的核苷酸序列为：5’-GCTATGACTCGGATCCGTCGGTGAMMMMMMGCAGT-3’；

其中，/PO4/表示磷酸化修饰；N、M各自独立地选自A、T、G或C；NNNNNN与MMMMMM互补配对；

特异性引物S3的核苷酸序列为：

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX₁-3’；

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX₂-3’；

……；以及

5’-Biotin-GTTCAGAGTTCTACAGTCCGACGATCX_n-3’；

其中，Biotin表示生物素修饰，X₁、X₂……X_n是指与同一基因上各待测靶点3’下游18-50bp碱基序列互补配对的核苷酸序列；

引物S4的核苷酸序列为：5’-AATGATACGGCGACCACCGAGATCTACAC(i5)GTTCAGAGTTCTACAGTCCGACGATC-3’；

其中，AATGATACGGCGACCACCGAGATCTACAC为与illumina Hiseq测序仪芯片适配的锚定P5端序列；(i5)表示P5端用于区分样本的Index；

引物S5的核苷酸序列为：5’-CAAGCAGAAGACGGCATACGAGAT(i7)GTGACTGGAGTTCCTTGGCACCCGAGAATTCCAGGGGGGGGGGGGG-3’；其中，CAAGCAGAAGACGGCATACGAGAT为与illumina Hiseq测序仪芯片适配的锚定P7端序列；(i7)表示P7端用于区分样本的Index。

3.根据权利要求2所述的试剂盒，其特征在于，特异性引物S3中X₁、X₂……X_n的长度为18-24bp。

4.根据权利要求2或3所述的试剂盒，其特征在于，特异性引物S3的Tm值为60℃。

5.权利要求2-4任一项所述试剂盒在高通量测序文库构建中的应用。

6.高通量测序文库的构建方法，其特征在于，包括以下步骤：

1)提取待测样本基因组DNA，然后随机打断基因组DNA；将片段化双链DNA依次进行平末端修复，5’末端磷酸化修饰和3’末端加单碱基A；

2)步骤1)得到的DNA片段经T-A连接方式连接权利要求2-4任一项所述试剂盒中的高通量测序接头；

3)以步骤2)得到的连接产物为模板，利用权利要求1所述的通用引物S2进行第一轮低循环数的单端引物线性PCR扩增；

5)以步骤4)得到的酶切产物为模板，利用权利要求2-4任一项所述试剂盒中的特异性引物S3进行第二轮单端引物线性高循环数的多重PCR扩增；

6)使用链霉亲和素磁珠富集回收步骤5)得到的扩增产物；

7)利用末端转移酶对步骤6)回收得到的扩增产物进行3’端加多聚胞嘧啶尾；

8)以步骤7)所得产物为模板，利用权利要求2-4任一项所述试剂盒中的引物S4和引物S5进行PCR扩增，得到高通量测序文库。

7.根据权利要求6所述的方法，其特征在于，步骤1)所述待测样本来自人的正常组织、细胞、口腔拭子、体液、FFPE样本；和/或

使用酶切和/或超声破碎对基因组DNA进行片段化；和/或

利用T4 DNA聚合酶进行平末端修复；和/或

利用T4多核苷酸激酶和三磷酸腺苷进行5’末端磷酸化修饰；和/或

利用Klenow聚合酶进行3’末端加单碱基A；和/或

步骤2)利用T4 DNA连接酶进行连接；和/或

步骤3)利用高保真DNA聚合酶进行PCR扩增；和/或

步骤5)利用不具有3’-5’核酸外切酶校正活性的DNA聚合酶进行多重PCR扩增；和/或

步骤8)利用高保真DNA聚合酶进行PCR扩增。

8.根据权利要求6或7所述的方法，其特征在于，步骤3)PCR扩增的反应程序为：98℃45秒；98℃15秒，55℃40秒，72℃1分钟，2-4个循环；72℃2分钟，12℃放置；和/或

步骤5)多重PCR扩增的反应程序为：94℃2分钟；94℃30秒，60℃30秒，72℃40秒，30-35个循环；72℃2分钟，12℃放置；和/或

步骤8)PCR扩增的反应程序为：98℃45秒；98℃15秒，60℃30秒，72℃30秒，12个循环；72℃1分钟，4℃放置。

9.根据权利要求6或7所述的方法，其特征在于，步骤3)中低循环数为2-4个循环。

10.根据权利要求6或7所述的方法，其特征在于，步骤5)中高循环数为30-35个循环。

11.根据权利要求7所述的方法，其特征在于，步骤3)利用NEB Q5热启动DNA聚合酶进行PCR扩增。

12.根据权利要求7所述的方法，其特征在于，步骤8)利用KAPA HiFi热启动DNA聚合酶进行PCR扩增。