CN108893466B

CN108893466B - 测序接头、测序接头组和超低频突变的检测方法

Info

Publication number: CN108893466B
Application number: CN201810564438.0A
Authority: CN
Inventors: 杨功达; 曾丰波; 胡秀弟; 蒋廷亚; 黎小锋
Original assignee: Shanghai Augen Diagnostic Technology Co ltd
Current assignee: Suzhou Aogen Diagnostic Technology Co ltd
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2021-04-13
Anticipated expiration: 2038-06-04
Also published as: CN108893466A

Abstract

本发明公开了一种测序接头，包括双链互补区、单链5’‑连接臂和单链3’‑连接臂，双链互补区包括随机标签序列和接头标签序列，单链区与随机标签序列直接相连，移除了传统接头中单链区与随机标签序列之间的互补序列，能最大程度上减少错配接头比例，实现原始模板的完全配对，利用正负链配对关系进行序列校正。本发明公开了一种测序接头组，包括至少两个上述的测序接头，通过设置每组测序接头组中接头标签序列的序列种类和/或随机标签序列的长度，能够区分不同样本的测序结果，排除污染数据。本发明公开了一种超低频突变的检测方法，利用上述的测序接头组，最大化校正高通量测序中的各类低频错误，高效实现血浆循环游离DNA的超低频突变检测。

Description

测序接头、测序接头组和超低频突变的检测方法

技术领域

本发明涉及核酸测序技术领域，具体涉及一种测序接头、测序接头组和超低频突变的检测方法。

背景技术

高通量测序技术的发展使基因测序的成本急剧下降，由于其测序通量高、成本低，以及速度快等优势，在科学研究以及临床检测领域获得了广泛的应用，使人类医学由传统医学进入到了精准医疗时代成为了可能。目前，高通量测序技术在临床应用相对广泛的包括以游离DNA(cell free DNA,cfDNA)为检测对象的肿瘤液体活检和和无创产前诊断。

无创产前检测技术主要通过检测孕妇外周血中存在胎儿游离DNA(cell-freefetal DNA，cff DNA)，检测胎儿21、18、13染色体非整倍体。单胎妊娠早期的胎儿释放的游离cfDNA浓度小于10％。随着保存时间的延长，白细胞降解及随之而来的母体基因组DNA(gDNA)的释放将严重影响低含量的胎儿游离DNA(cff DNA)的比例及完整性，使cff DNA中的低频突变和超低频突变检出困难。肿瘤的液体活检技术主要通过对外周血、尿液、腹水等液体样本中包含的循环肿瘤DNA(Circulating Tumor DNA,ct DNA)进行检测，以获取疾病信息。ct DNA往往只是占cf DNA中非常少的比例，对于癌症早期患者来说，该比例通常不高于1％，即便是中晚期患者，ct DNA在cf DNA中的占比通常也不高于5％(Kennedy et al.，2014)，因此ct DNA中突变的频率一般非常低，为实现肿瘤液体活检，需要对血浆等液体样本中的ct DNA进行高准确率的低频突变检测。

目前，高通量测序技术在临床基因检测中被证实具有很高的准确度和灵敏度，然而受到文库构建以及测序过程中各种来源的错误和噪音的影响，(例如：测序时仪器读取碱基时引入的错误；文库构建过程中由于PCR扩增发生的复制错误，PCR过程中使用的DNA聚合酶也会引入10^-6～10^-7的错误率，随着PCR循环数的增加错误率也会有所增加；测序过程中由于标签跳跃(index hopping)引入的数据污染)，使测序得到的每个碱基出现错误的概率在1/1000～1/100之间，即每1000个碱基就会出现1到10个错误碱基，导致高通量测序在用于检测突变率在1％以下的低频突变和超低频突变时，难以区分是测序本身的错误还是生物体内本来就存在的突变。

为解决超低频突变噪音问题，主要通过在文库构建过程中引入分子标签，对原始的DNA分子进行标记，来区分DNA模板；在后续的生物信息学分析阶段，通过分子标签的识别以还原最原始的突变状态。分子标签可以是固定序列的组合，也可以是随机序列，现有技术中公开了图1所示的Y型接头，Y型接头的P5端连接index1，P7端连接index2，P7端index2序列后引入随机分子标签序列UMI(unique molecular index)，通过UMI对样品文库中的DNA片段进行单分子标记，并通过对同一UMI标记的重复序列进行一致性对比以去除测序错误；同时，利用双端index的组合降低由于index hopping引入的污染数据。然而，上述的UMI序列使双链DNA分子的每条链上都带有不同的分子标记，在文库构建和测序分析的过程中两个单链的配对关系丢失，无法利用原始模板的双链配对信息进行序列校正，限制了对高通量测序错误的识别检出。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中的高通量测序接头无法跟踪原始模板的正负链信息，不能很好地将正负链信息进行较正缺陷，从而提供一种保持原始模板的正负链配对关系，且对超低频突变识别准确度高的测序接头。

为此，本发明提供下述技术方案：

第一方面，本发明提供一种测序接头，包括：

双链互补区、单链5’-连接臂和单链3’-连接臂，所述双链互补区包括随机标签序列和接头标签序列，所述随机标签序列由随机碱基组成，所述接头标签序列为已知核苷酸序列；

所述单链5’-连接臂和所述单链3’-连接臂连接于所述随机标签序列远离所述接头标签序列的自由端。

上述的测序接头，还包括文库标签序列，所述文库标签序列位于所述单链5’-连接臂或所述单链3’-连接臂。

上述的测序接头，所述随机标签序列由3～8个随机碱基组成。

上述的测序接头，所述接头标签序列由10～15个碱基组成。

上述的测序接头，所述单链5’-连接臂为P5接头，所述单链3’-连接臂为P7接头，所述测序接头的文库标签序列位于所述P7接头。

上述的测序接头，所述单链5’-连接臂的核苷酸序列如SEQ ID NO.3或SEQ IDNO.9所示，所述单链3’-连接臂的核苷酸序列如SEQ ID NO.4或SEQ ID NO.10所示；所述文库标签序列的核苷酸序列如SEQ ID NO.5所示。

上述的测序接头，所述双链互补区远离所述单链5’-连接臂和单链3’-连接臂的一端突出碱基T。

上述的测序接头，所述接头标签序列选自SEQ ID NO.6和SEQ ID NO.11～SEQ IDNO.30所示的任一序列。

第二方面，本发明提供一种测序接头组，包括至少两个所述的测序接头，其中，至少一个所述测序接头的接头标签序列与其他所述测序接头不同。

上述的测序接头组，所述测序接头组包括具有5～100种所述接头标签序列的所述测序接头。

上述的测序接头组，连接不同样本文库的所述测序接头组中所述测序接头的随机标签序列的长度不同。

第三方面，本发明提供一种超低频突变的检测方法，包括以下步骤：

S1，制备至少一组所述的测序接头组，其中，至少一组测序接头组中所述测序接头的随机标签序列长度与其他所述测序接头组不同；

S2，连接待测基因片段与所述S1中的测序接头组，获得连接产物，扩增所述连接产物得到扩增产物，获得所述待测样本的测序文库；其中，同一样本来源的所述基因片段连接同一组所述测序接头组；

S3，捕获所述测序文库的目标区域，获得杂交后测序文库；

S4，将所述杂交后测序文库进行测序，获得测序数据，校正所述测序数据，基于校正后的测序数据进行突变分析。

上述的超低频突变的检测方法，所述基因片段为游离DNA，或打断的基因组DNA。

上述的超低频突变的检测方法，所述步骤S4中的校正所述测序数据包括：

(i)利用所述文库标签序列对同一样本来源的测序数据进行识别与校正；

(ii)利用所述随机标签序列的长度对同一样本来源的测序数据进行识别与校正；

(iii)利用所述随机序列标签和所述接头标签序列对同一基因片段来源的测序数据进行识别与校正。

第四方面，本发明提供一种试剂盒，包括上述的测序接头或上述的测序接头组。

第五方面，本发明提供下述a1～a6中的任一用途：

a1,所述的测序接头，所述的测序接头组，或所述的试剂盒在高通量测序中的用途；

a2,所述的测序接头，所述的测序接头组，或所述的试剂盒在构建高通量测序文库中的用途；

a3,所述的测序接头，所述的测序接头组，或所述的试剂盒在制备高通量测序文库的产品中的用途；

a4,所述的测序接头，所述的测序接头组，或所述的试剂盒在游离DNA超低频突变检测中的用途；

a5,所述的测序接头，所述的测序接头组，或所述的试剂盒在制备游离DNA超低频突变检测的产品中的用途；

a6,所述的测序接头，所述的测序接头组，或所述的试剂盒在制备癌症低频突变检测、靶向用药指导、疾病早期筛查和/或无创产前诊断的产品中的用途。

本发明技术方案，具有如下优点：

1、本发明提供的测序接头包括配对的双链互补区和不配对的单链5’-连接臂和单链3’-连接臂，双链互补区包括随机标签序列和接头标签序列。随机标签序列由随机碱基组成，为同一样本来源的基因片段加上不同的标签序列，实现对原始模板的单分子标记，在后续的PCR扩增过程中每一个原始模板连同其特异性的随机标签序列被多次复制，产生多条重复序列(duplication)；在后续的高通量测序过程中，利用随机序列标签区分文库构建过程中的重复序列，避免PCR产物重复计数，有效去除重复数据；同时，通过比对同一原始模板来源的多个重复序列进行序列校正，有效去除PCR扩增和测序过程中引入的错误，降低高通量测序的错误率，提高对低频突变检测和超低频突变检测的准确度。

本发明提供的测序接头呈Y型，其中随机标签序列和接头标签序列形成Y型接头的双链互补区，单链5’-连接臂和单链3’-连接臂形成Y型接头分叉的单链区。与传统的Y型接头相比，本发明提供的测序接头将单链5’-连接臂和单链3’-连接臂与随机标签序列的自由端直接相连，移除了传统Y型接头位于单链区与随机标签序列之间的配对序列，显著降低了制备测序接头的单链序列在退火过程中可能发生的错配概率，大大减少了错配接头的比例，从而实现原始模板的正负链在文库构建和测序过程的完全配对，利用原始模板正负链的配对信息对测序数据进行校正，提高对低频突变和超低频突变识别的准确率。

本发明提供的测序接头，接头标签序列利用已知核苷酸序列，代替兼并碱基形成，能够进一步避免制备测序接头的混合单链序列在退火过程中发生错配，减少错配接头的比例，以跟踪原始模板的正反义链信息，提高对低频突变和超低频突变检测的准确性。

2、本发明提供的测序接头，文库标签序列位于单链5’-连接臂或单链3’-连接臂，高通量测序为单barcode测序模式，利用本发明提供的测序接头在提高测序结果准确率的同时，降低了对高通量测序模式的要求。

3、本发明提供的测序接头，接头标签序列选自SEQ ID NO.6和SEQ ID NO.11～SEQID NO.30所示的任一序列。接头标签序列选择差异显著的序列形成，在制备接头标签序列不同的多个测序接头时，接头标签序列的差异性能够避免混合单链在退火形成测序接头过程中发生错配，减少错配接头比例，以保持原始模板正负链的完全配对，利用配对信息校正测序结果。

4、本发明提供的测序接头组，包括至少两个上述的测序接头，其中，至少一个所述测序接头的接头标签序列与其他所述测序接头不同。因此，测序接头组中的接头标签序列是至少两种固定序列的组合。

接头标签序列是已知的核苷酸序列，与原始的模板基因的两端直接相连，利用已知序列的接头标签序列，能够还原模板基因正负链的配对关系，避免由于随机标签序列部分错配可能产生的正负链的配对关系丢失，利用原始模板正负链的配对关系对测序结果进行校对。

测序接头组中接头标签序列的具体种类可以根据文库构建时模板基因的拷贝数进行确定，例如，确定测序接头组中接头标签序列的种类为20，由于同一模板基因的两端同时连接两个测序接头，则对同一模板基因的正义链进行标记的接头标签序列的组合为20×20＝400，对模板基因的反义链进行标记的接头标签序列的组合为20×20＝400，从而实现对近1000种拷贝的模板基因进行定位分析，利用测序接头组中接头标签序列的组合实现在数据分析时判断模板基因的位置和序列，并进一步还原模板基因正负链的配对关系，减少建库或者测序过程中的测序错误，提高对序列中低频突变和超低频突变识别的准确性。

5、本发明提供的测序接头组，连接不同样本文库的所述测序接头组中所述测序接头的随机标签序列的长度不同。也即，组成同一测序接头组的多个测序接头中的随机标签序列的长度相同，而不同测序接头组之间测序接头中随机标签序列的长度不同。利用不同测序接头组之间随机标签序列长度的多态性实现对不同样本文库的进一步区分，在分析测序结果时利用样本文库与随机序列长度之间的匹配信息过滤index hopping产生的错配，提高对突变信息和测序错误区分的准确度。

另一方面，illumina的测序错误类型主要为单碱基的转换或颠换，而***或缺失类型的测序错误很少，因此利用长度多态性进行样本区分的准确度更高。

6、本发明提供的超低频突变的检测方法，连接待测基因片段与上述的测序接头组，其中，同一样本来源的所述基因片段连接同一组所述测序接头组，在每个基因片段的两端分别连接同一测序接头组中的两个测序接头。通过上述的测序接头组对测序数据进行聚类分析，能够最大化校正高通量测序中的各类低频错误，包括PCR扩增错误，测序错误，DNA损失错误和单链碱基错误等等，显著提高循环游离DNA(包括ctDNA、cffDNA等)等微量样本超低频突变的检测灵敏度和特异性。

基于测序接头中的文库标签序列，能够识别不同样本来源的测序数据，避免由于不同样本之间交叉污染造成的测序错误。基于测序接头中的随机标签序列，能够区分来源于不同原始模板的测序数据，通过比对校正，排除重复序列，以及测序和建库过程中引入的错误。利用已知核苷酸序列的接头标签序列对原始模板基因的正负链进行标记，在测序数据分析时还原模板基因正负链的配对关系，利用正负链配对信息进行测序结果校正。不同种类的接头标签序列的组合能够对不同拷贝的模板基因在基因组中位置进行定位分析。测序接头中的随机标签序列与单链5’-连接臂和单链3’-连接臂直接相连，降低了混合单链序列在形成接头的退火过程中可能发生的错配概率，减少错配接头比例，以保持原始模板正负链之间的配对关系，利用正负链之间的配对信息对测序数据进行校正，提高识别超低频突变的准确性。

至少一组测序接头组中所述随机标签序列长度与其他所述测序接头组不同，基于不同测序接头组之间随机标签序列长度的多态性，能够进一步对不同样本来源的测序数据进行区分，排除由于index hopping造成的数据污染。

同时利用“接头标签序列”的不同序列组合和“随机标签序列”的长度多态性，对不同样本来源的测序数据进行识别与校正，还原模板基因的正负链配对关系，对不同拷贝的模板基因进行定位分析，最大程度上解决文库构建和测序过程引入的数据污染问题。

本发明的方法可以高效实现血浆循环游离DNA的低频突变检测。双重冗余校验技术、超量杂交捕获以及高效建库方案使得该方法在检测微量样本时具有超低的假阳性率和高灵敏度，避免了现有检测血浆循环游离DNA方法的缺陷。本发明的低频突变检测方法不仅可以实现癌症突变检测和靶向用药指导，也可以实现胎儿遗传缺陷及出生缺陷的早期筛查。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明背景技术中所示的Y型接头的接头示意图；

图2是本发明实施例1所示的测序接头的结构示意图；

图3是本发明实施例3所示的超低频突变的检测方法的流程图；

图4是本发明一个实施例3所示的利用随机标签序列识别和校正测序数据的示意图；

图5是本发明对比例1所示的比较方法1和方法2检测突变信号的对比图。

具体实施方式

以下通过具体实施例来说明本发明的实施方式，除非另外说明，本发明中所公开的实验方法均采用本技术领域常规技术，所有测序和引物合成由生工生物工程(上海)股份有限公司完成，实施例中所用到的试剂和原料均可由市场购得。

实施例1

本实施例提供一种测序接头，如图2所示，包括双链互补区、单链5’-连接臂和单链3’-连接臂。

双链互补区包括随机标签序列和接头标签序列，其中，随机标签序列为6个随机碱基“N”，接头标签序列为SEQ ID NO.6所示的核苷酸序列。单链5’-连接臂和单链3’-连接臂连接于随机标签序列的远离所述接头标签序列的自由端，其中，单链5’-连接臂与随机标签序列正义链的5’端直接连接，单链5’-连接臂为P5接头，其核苷酸序列如SEQ ID NO.3所示；单链3’-连接臂与随机标签序列反义链的3’端直接连接，单链3’-连接臂为P7接头，其核苷酸序列如SEQ ID NO.4所示，文库标签序列(index)位于单链3’-连接臂，其核苷酸序列如SEQ ID NO.5所示。

测序接头中接头标签序列远离单链5’-连接臂和单链3’-连接臂的自由端突出碱基T，碱基T具体地连接于双链的接头标签序列中正义链的3’末端，双链的接头标签序列中反义链的5’末端连接磷酸基团。测序接头的末端突出碱基T，原始的基因片段末端加A尾，通过“A-T”连接在原始基因片段的两端添加测序接头。测序接头中的磷酸基团保护碱基T不被核酸外切酶剪切，保障单分子标记接头与DNA片段的连接效率。

本实施例还提供了一种测序接头的制备方法：将SEQ ID NO.1所示的上游引物和SEQ ID NO.2所示的下游引物退火，两条单链引物部分互补配对，得到Y型的接头，即为上述的测序接头。

上述的测序接头连接到待测的基因片段两端，构建得到测序文库后，通过测序接头中的单链5’-连接臂和单链3’-连接臂将测序文库加载到测序芯片的FLowcell上，单链5’-连接臂的P5接头序列和单链3’-连接臂的P7接头序列分别与FLowcell基底上的Oligo互补，实现桥式PCR扩增，经桥式PCR扩增形成一个簇，在碱基延伸过程中，通过边合成边测序完成对待测样本文库的高通量测序过程，得到测序数据。测序接头中的文库标签序列用于区分不同的待测样本，排除样本之间交叉污染造成的测序错误。测序接头中的随机便签序列包含6个随机碱基，形成4⁶种特异性标签序列，实现对同一样本文库中不同基因片段的特异性标记。利用随机标签序列，能够对同一原始DNA模板得到的测序数据进行聚类分析，有效去除重复数据，避免PCR产物重复计数；同时，通过比对同一原始模板的测序结果，能够校正测序数据，排除PCR扩增和测序过程中引入的错误，降低高通量测序的错误率，提高对低频突变检测和超低频突变检测的准确度。测序接头中已知核苷酸序列的接头标签序列能够对DNA模板的正义链和反义链进行标记，利用配对的接头标签序列还原原始DNA模板正义链和反义链之间的配对关系，排除由于随机标记序列错配产生的DNA模板正负链的配对关系丢失。

测序接头中的单链5’-连接臂和单链3’连接臂与随机标签序列直接相连，移除了传统P5接头和P7接头之间的互补序列。由于测序接头中随机标签序列的多序列形式，因此用于连接同一样本文库的测序接头为混合接头，在混合接头的制备过程中，需要多种序列形式的上游引物和下游引物混合后经过退火过程，得到混合的测序接头。利用本发明提供的测序接头，能够显著降低形成测序接头的混合序列在退火过程中发生错配的概率，减少错配接头的比例，从而实现原始模板的正负链在文库构建和测序过程的完全配对，利用原始模板正负链的配对信息对测序数据进行校正，提高对低频突变和超低频突变识别的准确率。

作为可替代的实施方式，测序接头中的单链5’-连接臂还可以是SEQ ID NO.9所示的核苷酸序列，单链3’-连接臂还可以是SEQ ID NO.10所示的核苷酸序列，待测基因片段连接测序接头后，得到连接产物，在PCR扩增连接产物时，利用上游的通用引物(5’-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’)和下游的index引物(5’-CAAGCAGAAGACGGCATACGAGATCTATACGTGACTGGAGTTCCTTGGCACCCGAGAAT-3’)对连接产物进行PCR扩增，在单链3’-连接臂中引入文库标签序列，获得待测样本的测序文库；此时，测序接头由核苷酸序列为SEQ ID NO.7所示的上游引物和核苷酸序列为SEQ ID NO.8所示的下游引物退火制得。

作为可替代的实施方式，测序接头中的接头标签序列还可以是SEQ ID NO.11～SEQ ID NO.30任一所示的核苷酸序列。

作为可替代的实施方式，测序接头中的随机标签序列的长度还可以是3bp～8bp中任一长度的随机碱基序列。

实施例2

本实施例提供一组测序接头组，包括多个实施例1中的测序接头，测序接头中接头标签序列选自SEQ ID NO.11～SEQ ID NO.30中的任一核苷酸序列。测序接头组中包括接头标签序列分别为上述的20种序列的测序接头。

本实施例提供了上述测序接头组的制备方法：将形成每种测序接头的上游引物和下游引物的单链序列在同一体系中混合，退火后得到上述的测序接头组。

测序接头中的接头标签序列能够用于还原DNA模板的正负链的配对关系，利用配对信息对同一基因片段来源的正负链的测序结果进行识别与校正，测序接头组中接头标签序列的种类能够对不同拷贝的DNA模板进行定位标记，在数据分析时判断相同序列DNA模板的位置和突变信息。另一方面，由于测序接头组中测序接头上随机标签序列的长度有多种选择，在文库构建时，可以对连接不同待测样本的测序接头组中随机标签序列的长度进行区分，以使连接每一待测样本的测序接头中随机标签序列的长度相同，而连接不同待测样本的测序接头中随机标签序列的长度不同，利用随机标签序列长度的多态性对不同样本来源的测序数据进行区分，排除在建库或测序过程中由于index hopping引入的数据污染。

本实施例提供的测序接头组在应用于构建待测样本的测序文库时，可以同时通过设置测序接头组中“接头标签序列”的序列种类和“随机标签序列”的序列长度对不同的待测样本进行区分，最大程度上减少在文库构建和测序过程中的错误，还原原始DNA模板正负链的配对关系，对不同拷贝的DNA模板进行定位分析，提高对超低频突变检测的准确性。

实施例3

本实施例提供一种超低频突变的检测方法，流程图见图3，具体包括以下步骤：

S1，制备至少一组实施例2中的测序接头组，测序接头组的组数对应待测样本的数量。例如，待测样本的数量为20，则对应制备20组测序接头组，每组测序接头组中包括至少2种具有不同接头标签序列的测序接头，不同测序接头组中接头标签序列的种类可以相同或不同。

另外，不同测序接头组之间的随机标签序列的长度具有差异性，例如，对于上述的20组测序接头组，可以设置6种长度的随机标签序列(3bp，4bp，5bp，6bp，7bp，8bp)，也即，每组测序接头组中包括的测序接头均具有同一长度的随机标签序列，而不同测序接头组之间的随机标签序列的长度不同。例如，将上述的20组测序接头组命名为测序接头组1～测序接头组20，测序接头组1中随机标签序列的长度为6bp，而测序接头组2中随机标签序列的长度为5bp，测序接头组3中随机标签序列的长度为7bp等等。在具体实验中，可根据实际需要具体设置随机标签序列的长度范围以及随机标签序列在不同测序接头组中的长度差异性；以使不同待测样本连接的测序接头组中随机标签序列的长度各不相同，或者仅使在实验操作中相邻两个待测样本连接的测序接头组中随机标签序列的长度不同。

S2，连接待测基因片段与上述的测序接头组，获得连接产物；其中，同一样本来源的所述基因片段连接同一组所述测序接头组；扩增所述连接产物得到扩增产物，获得所述待测样本的测序文库；具体如下：

一、提取基因组DNA和cfDNA

1、样本采集和血浆分离

(1)样本采集：抽取供体血液8ml左右，用抗凝血管保存运输；

(2)血浆分离：获得新鲜全血样本，1600g，4℃离心10min，分离上清液至新的离心管，将上清液继续16000g，4℃离心10min，离心后的上清液转移至新的离心管，得到分离后的血浆，血浆可在-20℃下保存；

(3)血细胞分离：全血样本离心后的下层沉淀即为血细胞。

2、使用莱枫基因组DNA提取试剂盒(DK603)提取分离后的血细胞，得到基因组DNA；用莱枫游离DNA提取试剂盒(DK607)抽提分离后血浆，得到cfDNA。

二、文库构建

1、分别取1μl基因组DNA和cfDNA进行QuantiFluor^TM-ST(Promega)定量，另取1μl使用Agilent 2100检测质量。

2、以基因组DNA和cfDNA作为样本，使用KAPA LTP Library Preparation Kit分别制备基因组DNA文库和cfDNA文库，具体步骤如下所示：

(1)末端补平

a.向标记好的离心管中加入表1所示的末端补平混合液，用移液器吹打混匀；

表1末端补平混合液

试剂名称	体积
		水	8μl
KAPA End Repair Buffer(10X)	7μl
		KAPA End Repair Enzyme Mix	5μl
总体积	20μl

b.取50μl步骤1中定量后的样本，加入20μl表1所示的末端补平混合液，用水补足得到总体积为70μl的样本反应液，用移液器吹打混匀；

c.在PCR仪上运行如下程序：

20℃保持30min，

10℃静置。

(2)补平后纯化

重悬浮Agencourt AMpure XP reagent，磁珠室温放置30min。

a.样品管中加入120ul磁珠和步骤(1)中末端补平后的样本反应液，充分吹打混匀，室温静置5min；

b.将样品管置于磁力架上，待上清澄清后，吸弃上清；

c.保持样品管在磁力架上，加入200μl新鲜配制的80％乙醇，室温孵育至少30sec，转动离心管以清洗磁珠，吸弃上清；

d.保持样品管在磁力架上，加入200μl新鲜配制的80％乙醇，室温孵育至少30秒，转动离心管以清洗磁珠，吸弃上清；

e.将样品管瞬时离心，放置于磁力架上去掉残存的乙醇，室温晾干至磁珠表面无明亮反光后，从磁力架上取下样品管，加入42ul Nuclease-Free water重悬磁珠。

(3)加A尾

a.根据样本的数量，计算所需试剂用量，于标记好的离心管中加入表2所示的混合液，用移液器吹打混匀；

表2加A尾混合液

试剂名称	1个样本	8个样本	48个样本
				KAPA A-Tailing Buffer(10X)	5μl	40μl	240μl
KAPA A-Tailing Enzyme	3μl	24μl	144μl
				总体积	8μl	64μl	384μl

b.取42μl步骤(2)中纯化后的样本，加入8μl表2所示的混合液，用无菌超纯水补充总体积为70μl，用移液器吹打混匀；

c.在PCR仪上运行如下程序：

30℃保持30min，

10℃静置。

(4)加A尾后纯化

a.样品管中加入KAPA PEG/NaCl SPRI Solution 90μl和步骤(3)中加A尾后的样本反应液，充分吹打混匀，室温静置5min；

b.将样品管置于磁力架上，待上清澄清后，吸弃上清；

d.保持样品管在磁力架上，加入200μl新鲜配制的80％乙醇，室温孵育至少30sec，转动离心管以清洗磁珠，吸弃上清；

e.将样品管瞬时离心，放置于磁力架上去掉残存的乙醇，室温晾干至磁珠表面无明亮反光后，从磁力架上取下样品管，加入32ul Nuclease-Free water重悬磁珠。

(5)加测序接头

a.根据样本的数量，计算所需试剂用量，于标记好的离心管中加入如下表3所示的接头连接混合液和步骤(4)所得纯化后的样本(Beads with DNA)，用移液器吹打混匀：

表3接头连接混合液

c.连接：20℃保持15min。

(6)加接头后磁珠纯化

(7)文库扩增

a.室温解冻2×KAPA HiFi HotStart ReadyMix，于标记好的离心管中加入表4所示的文库扩增体系，用移液器吹打混匀；

表4文库扩增体系

b.取23μl步骤(6)中的纯化样本加入27μl表4所示的文库扩增体系，总体积50μl，用移液器轻轻混匀，瞬时离心2s，在PCR仪上运行如下程序：98℃变性45s，8个循环(98℃变性45s，65℃退火30s，72℃延伸30s)，72℃延伸1min，4℃冷却静置。

(8)文库鉴定

取2μl步骤(7)所得PCR产物于2％琼脂糖凝胶电泳，确定片段分布于250-500bp之间。

(9)文库纯化

a.加入Agencourt AMpure XP reagent 50μl于样品管中，样本管中盛装有步骤(7)中扩增后的文库样本，充分吹打混匀，室温静置5min。

b.瞬时离心样品管2s，置于磁力架上5min，吸弃上清。

c.保持样品管在磁力架上，加入200μl新鲜配制的80％乙醇，快速转动样品管以清洗磁珠，吸弃上清。

d.将样品管瞬时离心，放置于磁力架上去掉残存的乙醇，室温晾干至磁珠表面无明亮反光，加入22μl Nuclease free water，用移液器吹打混匀。室温静置2min，再次放置于磁力架上，取20μl上清于新的离心管。

e.取1μl样本使用QuantiFluor^TM-ST(Promega)精确定量，得到样本文库，将样本文库保存至-20℃或进行下一步的杂交捕获。

S3，捕获所述测序文库的目标区域，获得杂交后测序文库；PCR扩增杂交后的测序文库，获得富集的测序文库；具体如下：

1、根据步骤S2中纯化后的文库样本浓度吸取总量为500ng的样本至新的1.5ml离心管，加入表5所示试剂，放入浓缩仪浓缩至完全干燥，如不立即进行下一步实验，可室温(15-25℃)放置过夜；

表5浓缩体系

名称	体积
		Cot-1DNA	5μl
xGen Universal Blocking Oligo P5	1μl
		xGen Universal Blocking Oligo P7(6nt)	1μl

2、杂交体系配制与文库的变性

(1)室温溶解xGen 2X Hybridization Buffer，根据文库样本数量，配制表6所示的杂交混合液，用移液器吹打混匀；

表6杂交混合液

试剂名称	1个反应体积
		xGen 2X Hybridization Buffer	8.5μL
xGen Hybridization Buffer Enhancer	2.7μL
		Nuclease-Free Water	1.8μL
总体积	13μL

(2)向每管步骤1中浓缩完成后的样本加入13μl表6所示的杂交混合液，室温静置5min；

(3)用移液器吹打混匀样本并转移至low-bind 0.2ml PCR管，将样本放入PCR仪运行如下程序：

95℃保持10min，

65℃静置；

(4)当95℃运行结束时，保持样本在PCR仪上，立即加入4μl xGen Lockdown Probepool，用移液器吹打混匀，避免产生气泡，此时反应总体积为17μl。

(5)记录杂交开始时间，根据实验进度，选择4h或16h杂交时间。

3、配制Wash Buffer

(1)根据表7将xGen 2×Bead Wash Buffer、xGen 10×Wash Buffer I、xGen 10×Wash Buffer II、xGen 10×Wash Buffer III、xGen 10×Stringent Wash Buffer配制成1×工作液，移液器吹打混匀；

表7工作液体系

(2)准备稀释好的Wash Buffer I和Stringent Wash Buffer，按表8条件存放，其它试剂于室温存放(保证65℃孵育时间不少于2h)；

表8存放条件

试剂名称	1×工作液体积	1×工作液储存温度
			Wash Buffer I	100μL	65℃
Wash Buffer I	200μL	室温(15-25℃)
			Stringent Wash Buffer	400μL	65℃

(3)准备M-270磁珠

从4℃冰箱中取出M-270磁珠，确认磁珠已放置于室温30min，涡旋混匀使磁珠重悬浮；

①在1.7ml low-bind管中为每个样本准备100μl磁珠；

②将low-bind管置于磁力架上，静置至管内液体澄清，吸弃上清；

③加入200μl 1×Bead Wash Buffer，涡旋混匀10sec，静置于磁力架上至管内液体澄清，吸弃上清；

④重复步骤③一次；

⑤加入100μl 1×Bead Wash Buffer，移液器吹打混匀。

⑥将100μl悬浮磁珠转移至新的0.2ml low-bind管，置于磁力架上，静置至管内液体澄清，吸弃上清；

4、捕获

(1)确认步骤2的杂交反应已满足4h，保持样本和磁珠在PCR仪上，将样品转至准备好的磁珠管内，移液器吹打混匀，避免产生气泡；

(2)65℃孵育45min，期间每隔12min将磁珠混匀(保持样本在PCR仪上)，避免产生气泡。

5、洗涤

注意以下步骤需在65℃条件下快速操作：

(1)每个样本加入100μl 1×Wash Buffer I(65℃预热)，快速混匀；

(2)将样品转移至一新的1.7ml管中(65℃预热)，快速混匀；

(3)样品管置于磁力架上，静置至管内液体澄清，吸弃上清；

(4)加入200μl 1×Stringent Wash Buffer(65℃预热)，轻柔混匀，65℃水浴5min。样品管置于磁力架上，静置至管内液体澄清，吸弃上清；

(5)重复步骤(4)一次；

(6)加入200μl常温1×Wash Buffer I，涡旋混匀2min。样品管置于磁力架上，静置至管内液体澄清，吸弃上清；

(7)加入100μl常温1×Wash BufferⅡ，涡旋混匀1min。样品管置于磁力架上，静置至管内液体澄清，吸弃上清；

(8)加入200μl常温1×Wash BufferⅢ，涡旋混匀30sec，样品管置于磁力架上，静置至管内液体澄清，吸弃上清；

(9)将样品管从磁力架上取下，加入20μl Nuclease-Free Water，移液器吹打混匀，确保所有磁珠处于悬浮状态并全部转至0.2ml PCR管。

6、PCR富集

(1)室温解冻2×KAPA HiFi HotStart ReadyMix，配制表9所示的PCR扩增体系，P5primer的核苷酸序列为(5’–AATGATACGGCGACCACCG-3’)，P7primer的核苷酸序列为(5’-CAAGCAGAAGACGGCATACG-3’)快速混匀：

表9 PCR扩增体系

试剂名称	基因组文库
		2×KAPA HiFi HotStart ReadyMix	25μL
10uM P5/P7primer	2μL
		总体积	27μL

(2)每个样本(23uL)加入27μL PCR mix，总体积50μL，用移液器轻轻混匀，瞬时离心2s，在PCR仪上运行如下程序：98℃变性45s，12个循环(98℃变性15s，60℃退火30s，72℃延伸30s)，72℃延伸1min，4℃冷却静置。

7、纯化

重悬浮Agencourt AMpure XP reagent，确认磁珠已放置室温30min，每个样本用70μl beads纯化，20μl洗脱。

8、文库定量

a.取1μl步骤7中纯化后的样品用Qubit Fluorometer 3.0定量；

b.取2μl PCR产物用于2％琼脂糖凝胶电泳，剩余样本于-20℃保存。

S4，将所述杂交后测序文库进行测序，获得测序数据，校正所述测序数据，基于校正后的测序数据进行突变分析；具体如下：

测序样本数据量为10M Reads，***片段选择178(测序平台为illumine X-Ten，或其他高通量测序平台)。

测序数据的校正包括以下内容：

i，利用样本标签序列识别同一样本来源的测序数据，将具有相同样本标签序列的测序数据归类为一组进行聚类分析，剔除文库标签序列与样本信息不匹配的测序结果，排除由于样本交叉污染引入的测序错误；

ii，对上述的归类为同一组的测序数据，进一步利用接头标签序列的序列种类和随机标签序列的长度识别同一样本来源的测序数据，剔除接头标签序列的组合信息以及随机标签序列的长度与样本信息不匹配的测序结果，排除由于标签跳跃(index hopping)引入的测序错误；

iii，对于上述的识别为同一样本来源的测序数据，进一步利用随机标签序列识别同一基因片段来源的测序数据，排除重复测序结果以及在文库构建和测序过程中引入的错误数据；同时，利用接头标签序列，对同一基因片段来源的测序数据中正义链和反义链的测序数据进行识别，还原模板DNA正义链和反义链的配对关系，利用原始模板正反义链的配对信息对测序数据进行校正。利用接头标签序列的种类对不同拷贝的模板DNA进行识别和定位，用于相同序列的模板DNA的突变检出。

具体地，对同一基因片段来源的测序数据进行识别和校正的原理如图4所示：在建库的过程中每个基因片段的两端会连接上包含两种不同种类的随机标签序列的接头，标注为接头I和接头II。在接下来用P5和P7引物对连接产物进行PCR扩增时，同一个双链的基因片段会因为P5和P7的方向而产生接头I-接头II和接头II-接头I两类文库分子，理论上两类分子应该是1:1比例存在。当对所有文库进行测序后，测序数据中具有相同随机标签序列的认为是同一测序子集，对每一测序子集内的测序数据进行校验，理论上这些测序数据来自同一个原始的基因片段，因此如果是真实突变的话，该测序子集内的所有Reads应该都携带该突变，而来自捕获错误或测序错误等过程中的错误应该是散状分布的，如图4中的突变2和突变4。经过这样的单链随机标签序列的校验后可以看到接头I-接头II类文库分子存在突变1，接头II-接头I类分子存在突变1和突变3。由于还存在另外一类错误来源，比如原始双链DNA分子的某个碱基位置发生脱氨基等损伤导致的突变，这类错误无法通过单纯的单链分子的随机标签序列进行校验。因此基于接头I-接头II和接头II-接头I类的双分子识别码校验可以纠正这类双链上的局部错误(突变3)，从而得到真实的突变信息。

实验例1

1、实验目的：对20例孕妇进行胎儿的产前诊断筛查，20例孕妇及胎儿对应生物学父本的样本来源于常州市第二人民医院。

2、实验方法：以实施例3中提供的超低频突变的检测方法，分别提取20例孕妇的外周血中胎儿游离DNA(cell-free fetal DNA，cff DNA)，以及对应生物学父本的血浆中基因组DNA，构建测序文库。连接20例孕妇的cff DNA和20例生物学父本基因组DNA的测序接头组中，测序接头的单链5’-连接臂的核苷酸序列相同，如SEQ ID NO.3所示；单链3’-连接臂的核苷酸序列仅为文库标签序列的不同，其余部分与SEQ ID NO.4所示的核苷酸序列去除文库标签序列后相同。

连接20例孕妇的cff DNA和20例生物学父本基因组DNA的测序接头组中的接头标签序列的组合，和随机标签序列的长度如下表10所示：

表10连接不同待测样本的测序接头组信息

应用液相芯片(人人基因自配杂交体系，探针编号RRQZ05)对上述的测序文库中包括6000个SNP位点的区域进行杂交捕获，然后上机测序，测序数据校正后，基于校正的测序数据进行突变分析。

3、实验结果：

基于文库标签序列、随机标签序列、接头标签序列的组合和随机标签序列的长度进行数据校正后，获得20例孕妇样本的超低频突变信号，比较上述的超低频突变信号与生物学父本的序列信息，发现突变符合孟德尔遗传规律，其中，表11为检测的SNP位点示例，说明本发明提供的超低频突变的检测方法适于对游离DNA的超低频突变检测。

表11

对比例1

本对比例提供一种超低频突变的检测方法(以下称为方法1)，与本发明实施例3中提供的检测方法(以下称为方法2)的区别在于：

S1步骤中，方法1中使用的连接不同待测样本的测序接头组中的测序接头不包括随机标签序列，且测序接头中的接头标签序列的序列种类相同。

S2步骤中，仅应用文库标签序列对同一样本来源的测序数据进行识别与校正。

应用上述的方法1对编号为659S的待测样本和编号为682F的待测样本的突变信号进行检测(659S样本和682F样本选自实验例1中的孕妇样本)，方法1中对应检测待测样本659S的文库标签序列为5’-GACCGT-3’，对应检测待测样本682F的文库标签序列为5’-GACCTT-3’；同时应用方法2对待测样本659S和待测样本682F进行检测，方法2中使用的两组测序接头组中的文库标签序列同方法1。方法1和方法2的检测结果对比图如图5所示：横坐标为特定检验位点的深度.纵坐标表示某一位点上低频信号和高频信号的比例，raw表示方法1的检测结果，valid表示方法2的检测结果。由图5可知，应用方法2检测到的低频信号比例明显比方法1中的少。使用R中的t.test进行单侧T检验,结果如下:t＝29.046,df＝6399,p-value<2.2e-16,P值远远小于0.05,表示与方法1相比，方法2更适于检测低频突变信号。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

SEQUENCE LISTING

<110> 苏州人人基因科技有限公司

<120> 测序接头、测序接头组和超低频突变的检测方法

<130> WXHA201800029

<160> 30

<170> PatentIn version 3.3

<210> 1

<211> 79

<212> DNA

<213> 人工序列（single stranded DNA）

<220>

<221> misc_feature

<222> (59)..(64)

<223> n is a, c, g, or t

<400> 1

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctnn 60

nnnngatttg caaggtact 79

<210> 2

<211> 83

<212> DNA

<213> 人工序列（single stranded DNA）

<220>

<221> misc_feature

<222> (15)..(20)

<223> n is a, c, g, or t

<400> 2

gtaccttgca aatcnnnnnn tggaattctc gggtgccaag gaactccagt cacgtataga 60

tctcgtatgc cgtcttctgc ttg 83

<210> 3

<211> 58

<212> DNA

<213> 人工序列（P5）

<400> 3

aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58

<210> 4

<211> 63

<212> DNA

<213> 人工序列（P7）

<400> 4

tggaattctc gggtgccaag gaactccagt cacgtataga tctcgtatgc cgtcttctgc 60

ttg 63

<210> 5

<211> 6

<212> DNA

<213> 人工序列（index）

<400> 5

gtatag 6

<210> 6

<211> 15

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 6

gatttgcaag gtact 15

<210> 7

<211> 41

<212> DNA

<213> 人工序列（single stranded DNA）

<220>

<221> misc_feature

<222> (21)..(26)

<223> n is a, c, g, or t

<400> 7

acacgacgct cttccgatct nnnnnngatt tgcaaggtac t 41

<210> 8

<211> 41

<212> DNA

<213> 人工序列（single stranded DNA）

<220>

<221> misc_feature

<222> (15)..(20)

<223> n is a, c, g, or t

<400> 8

gtaccttgca aatcnnnnnn tggaattctc gggtgccaag g 41

<210> 9

<211> 20

<212> DNA

<213> 人工序列（P5）

<400> 9

acacgacgct cttccgatct 20

<210> 10

<211> 21

<212> DNA

<213> 人工序列（P7）

<400> 10

tggaattctc gggtgccaag g 21

<210> 11

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 11

gatcatgcat gca 13

<210> 12

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 12

tttgaagtcc cgt 13

<210> 13

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 13

ggccgtacaa acg 13

<210> 14

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 14

tggacgtacg atc 13

<210> 15

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 15

cgtacgatcg tac 13

<210> 16

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 16

tacgtacatc gta 13

<210> 17

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 17

actagctact acc 13

<210> 18

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 18

atgcctatcg tgc 13

<210> 19

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 19

ccgtccgcta ctg 13

<210> 20

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 20

aaagctagtc agt 13

<210> 21

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 21

atcatcgatg ccc 13

<210> 22

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 22

tacgttccgt acc 13

<210> 23

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 23

ttgtgcacta ccg 13

<210> 24

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 24

atgctacgta cgc 13

<210> 25

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 25

aacgtacgta ctt 13

<210> 26

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 26

ttgacgatcg cta 13

<210> 27

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 27

tagctacgat cga 13

<210> 28

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 28

gtcagcgcgt agc 13

<210> 29

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 29

tgtaacgcat cgc 13

<210> 30

<211> 13

<212> DNA

<213> 人工序列（adapter ligation sequence）

<400> 30

cccgtacgat cgt 13

Claims

1.一种测序接头，其特征在于，包括：

所述单链5’-连接臂和所述单链3’-连接臂连接于所述随机标签序列远离所述接头标签序列的自由端;还包括文库标签序列，所述文库标签序列位于所述单链3’-连接臂；所述单链5’-连接臂为P5接头，所述单链3’-连接臂为P7接头，所述测序接头的文库标签序列位于所述P7接头；所述单链5’-连接臂的核苷酸序列如SEQ ID NO.3所示，所述单链3’-连接臂的核苷酸序列如SEQ ID NO.4所示；所述文库标签序列的核苷酸序列如SEQ ID NO.5所示；

所述测序接头的制备方法：将SEQ ID NO.1所示的上游引物和SEQ ID NO.2所示的下游引物退火，两条单链引物部分互补配对，得到Y型的接头，即为上述的测序接头；所述接头标签序列选自SEQID NO.6和SEQ ID NO.11～SEQ ID NO.30所示的任一序列；连接不同样本文库的所述测序接头组中所述测序接头的随机标签序列的长度不同。

2.根据权利要求1所述的测序接头，其特征在于，所述双链互补区远离所述单链5’-连接臂和单链3’-连接臂的一端突出碱基T。

3.一种测序接头组，其特征在于，包括至少两个权利要求1或2所述的测序接头，

其中，至少一个所述测序接头的接头标签序列与其他所述测序接头不同。

4.根据权利要求3所述的测序接头组，其特征在于，所述测序接头组包括具有5～100种所述接头标签序列的所述测序接头。

5.一种试剂盒，其特征在于，包括权利要求1或2所述的测序接头或权利要求3或4所述的测序接头组。

6.下述a1～a5中的任一用途：

a1,权利要求1或2所述的测序接头，权利要求3或4所述的测序接头组，或

权利要求5所述的试剂盒在高通量测序中的用途；

a2,权利要求1或2所述的测序接头，权利要求3或4所述的测序接头组，或

权利要求5所述的试剂盒在构建高通量测序文库中的用途；

a3,权利要求1或2所述的测序接头，权利要求3或4所述的测序接头组，或

权利要求5所述的试剂盒在制备高通量测序文库的产品中的用途；

a4,权利要求1或2所述的测序接头，权利要求3或4所述的测序接头组，或

权利要求5所述的试剂盒在制备游离DNA超低频突变检测的产品中的用途；

a5,权利要求1或2所述的测序接头，权利要求3或4所述的测序接头组，或

权利要求5所述的试剂盒在制备癌症低频突变检测、靶向用药指导、疾病早期筛查和/或无创产前诊断的产品中的用途。