CN111534518A

CN111534518A - 通用封闭序列及其应用

Info

Publication number: CN111534518A
Application number: CN202010421923.XA
Authority: CN
Inventors: 胡玉刚; 汪彪; 郑文莉; 吴强
Original assignee: Naonda Nanjing Biological Technology Co ltd
Current assignee: Naonda Nanjing Biological Technology Co ltd
Priority date: 2020-05-18
Filing date: 2020-05-18
Publication date: 2020-08-14
Anticipated expiration: 2040-05-18
Also published as: CN111534518B; WO2021232793A1

Abstract

本发明提供了一种通用封闭序列及其应用。该通用封闭序列按照从5’到3’的方向包括依次连接的左侧非标签区封闭序列、中间标签区封闭序列及右侧非标签区封闭序列，左侧非标签区封闭序列包括5～7个LAN或BNA修饰的碱基，中间标签区封闭序列为通用封闭碱基序列，右侧非标签区封闭序列包括7～10个LAN或BNA修饰的碱基，且右侧非标签区封闭序列的3’端带有封闭修饰。通过在左侧和右侧非标签区分别设计5～7个和7～10个LNA或BNA修饰的碱基序列能够显著增强与待封闭序列的结合能力，从而增加封闭效果；3’端进行封闭修饰能够减少或避免文库的非特异性捕获，提高目的文库捕获的中靶率。

Description

通用封闭序列及其应用

技术领域

本发明涉及高通量测序文库构建领域，具体而言，涉及一种通用封闭序列及其应用。

背景技术

随着高通量测序在临床应用的辅助诊断重要性的提升，如何降低测序成本是一个很关键的问题，降低测序成本在不同的层面有相应的表现：华大智造(MGI)不断推出更高测序通量的测序仪，测序成本不断降低，相继推出MGI-200、MGI-2000和T7测序仪，其中T7测序仪是目前市场上测序通量最高和测序成本最低的测序仪。此外靶向捕获测序也是在检测目标序列的同时实现大规模降低检测成本的有效途径。

在测序的过程中，不同样本用不同的Index序列来区分，进而将多个样本混合测序，也是高通量测序能够降低单个样本成本的方式。但是，如果采用单端Index，由于Index接头或引物在合成、文库构建实验操作以及测序的各个环节，都不可避免地会导致污染和/或相互串扰。因此，需要一种方式解决样本之间的低频度的相互串扰，目前解决这个问题的方法是采用双端Index来区分不同的样本，用双端Index的方法可以有效去除样本之间的相互串扰。

通过杂交捕获可以有效地降低检测目标的测序成本，同时如果在杂交封闭的过程中能够提升捕获目标区域的占比，也能节省测序成本。然而，如何对双端带有index的样本文库进行高效捕获，目前尚无有效的解决方案。

发明内容

本发明的主要目的在于提供一种通用封闭序列及其应用，以解决现有技术中双端index文库杂交捕获效率较低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种通用封闭序列，该通用封闭序列按照从5’到3’的方向包括依次连接的左侧非标签区封闭序列、中间标签区封闭序列及右侧非标签区封闭序列，其中，左侧非标签区封闭序列包括5～7个LAN或BNA修饰的碱基，中间标签区封闭序列为通用封闭碱基序列，右侧非标签区封闭序列包括7～10个LAN或BNA修饰的碱基，且右侧非标签区封闭序列的3’端带有封闭修饰。

进一步地，3’端的封闭修饰为MGB修饰、C3间隔臂修饰，磷酸化修饰，地高辛修饰或生物素修饰，或者3’端碱基为双脱氧碱基。

进一步地，通用封闭碱基为次黄嘌呤或C3间隔臂。

进一步地，通用封闭序列为MGI测序平台的带有第一标签序列的P1接头的封闭序列或带有第二标签序列的P2接头的封闭序列，其中，P1接头的封闭序列为SEQ ID NO:3：

CTCTCA+GTACG+TCA+GCA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCACAGA+ACGA+CATGG+CTACGATC+CGACTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的C3间隔臂修饰；

P2接头的封闭序列为SEQ ID NO:4：

GCA+TGGC+GA+CCTT+ATCA+GXXXXXXXXXXXTTGTCTT+CCTA+AGA+CCGC+TTG+GCC+TCCGA+CTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的C3间隔臂修饰。

进一步地，通用封闭序列为MGI测序平台的带有第一标签序列的P1接头的封闭序列或带有第二标签序列的P2接头的封闭序列；

P1接头的封闭序列为SEQ ID NO:5：

CTC+TCA+GT+ACG+TCA+GCA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATC+CGACTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的C3间隔臂修饰；

P2接头的封闭序列SEQ ID NO:6：

GCA+TG+GC+GA+CC+TT+ATCA+GXXXXXXXXXXTTG+TCTT+CCTA+AGA+CC+GC+TTG+GCC+TCC+GA+CTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的C3间隔臂修饰。

为了实现上述目的，根据本发明的第二个方面，提供了一种捕获试剂盒，该捕获试剂盒包括通用封闭序列，封闭序列为上述任一种通用封闭序列。

进一步地，试剂盒中通用捕获探针的工作浓度以单个文库计，为0.4～0.8μg通用封闭序列/1μg待捕获文库。

根据本发明的第三个方面，提供了一种文库杂交捕获方法，该方法包括采用捕获试剂盒对待捕获文库进行捕获，捕获试剂盒采用上述任一种捕获试剂盒。

进一步地，采用捕获试剂盒对待捕获文库进行捕获的步骤包括，将封闭序列与待捕获文库按照摩尔比为10:1～20：1的比例进行封闭。

根据本发明的第四个方面，提供了一种建库方法，该建库方法包括：构建片段化文库；对片段化文库进行杂交捕获，得到捕获文库；对捕获文库进行PCR扩增，得到测序文库；采用上述任一种捕获试剂盒进行杂交捕获，或者采用上述任一种方法进行杂交捕获。

应用本发明的技术方案，通过在左侧非标签区封闭序列和右侧非标签区封闭序列上分别对5～7个和7～10个碱基进行LNA或BNA修饰，能够增强对待封闭序列的结合能力，从而提升封闭效果；在右侧非标签区封闭序列的3’端进行封闭修饰，使得本申请的封闭序列在文库捕获时能够减少或避免对非目标文库的捕获，提升目标文库的捕获率(或者叫目标文库的中靶率)。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了目前MGI平台双端Index建库流程的示意图；

图2示出了现有技术中采用通用封闭序列进行捕获时能够提升目标序列捕获的中靶率的原理示意图；

图3示出了现有技术中MGI平台双端Index文库采用12个双端Index所构建的文库之间相互串扰的统计结果图；

图4A和图4B示出了改进后的通用封闭序列对杂交文库的正常封闭和异常封闭的原理示意图；

图5示出了采用不同修饰数量和不同浓度的通用封闭序列对目标序列捕获的中靶率的影响示意图；

图6示出了过少和过多的碱基修饰的通用封闭序列对封闭效果的影响；

图7示出了修饰碱基数量相同但修饰位置不同的通用封闭序列对封闭效果的影响；

图8示出了不同文库投入量对封闭效果影响。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

双端Index接头：高通量测序时需要每个片段末端连接通用的测序接头，接头的非互补区域各有一个可变序列区域序列是Index序列，是用来测序时拆分数据用。

接头封闭序列：在文库捕获时，每个文库都具有相同和相近的接头序列，杂交时目标片段和非目标片段接头部分会相互结合，降低中靶率，接头封闭序列是用来特异结合接头部分序列，起到提升中靶率的作用。通用封闭序列，就是针对文库中带有不同Inedx的接头均能实现封闭的序列。

C3间臂：C3 Splicer主要用于模仿核糖的3'和5'羟基间的三碳间隔，或“替代”一个序列中未知的碱基，在核酸序列中间主要是起连接作用，并不能和互补的碱基配对而起到稳定作用，仅对前后碱基起到连接作用。

需要说明的是，本申请中所提及的MGI测序平台用的index长度是以10bp为例进行说明的。本申请中的针对index的标签封闭段的长度可以通过调整次黄嘌呤I和C3间隔臂的长度来适应不同长度的index接头的封闭。

如背景技术所提到的，现在的高通量测序仪需要降低测序成本，单次测序通量越来越高，现有MGI测序仪为了节约测序成本，也推出了目前市场上通量最高，测序成本最低的T7测序仪，测序通量提升了就要求一次必须混合很多测序样本测序，高通量测序就是通过不同的样本连接不用的Index接头来实现多个样本混合在一起测序。MGI最先推出的是单端Index接头的建库方案，该方案有一个显著的问题就是会有样本的相互串扰，为了解决串扰问题MGI也推出了双端Index的建库方案，这样就能解决由于接头合成、实验操作和测序过程相互影响导致的低频串扰问题，通过两个Index数据拆分把串扰的数据过滤掉。

但针对其双端index文库进行捕获文库测序时，还存在对含目标片段的文库的捕获效率低的缺陷，为了进一步提高该双端Index文库的捕获效率，本申请利用纳昂达针对MGI测序仪推出的双端Index建库方案(具体的双端Index建库流程如图1)，提出了相应的杂交捕获改进方案。

另一个降低测序成本的有效途径是靶向捕获测序，人的基因组大小是3Gb，编码基因的区域占比不到2％的区域，(以IDT的全外显子V2版本来说)涵盖了人的大概2万个基因，约34Mb大小，所以一个全基因组测序成本可以测10个全外显子测序，而肿瘤靶向用药的检测区域与全基因组测序相比，成本差异更大，更能体现出靶向测序的重要性。而且肿瘤的突变都是低频突变，需要考虑两个主要问题，一个是低频突变不能有样本之间的串扰，或者说如果串扰不能避免必须能有方法剔除串扰的数据，双端Index就是当串扰不能避免时的一种可剔除串扰的必选方案，所以这也是双端Index存在的最大意义。能够检测低频突变的另一个条件是测序深度要有保证，一般需要几千乘到几万乘的测序深度。

在靶向测序的过程中，有两方面的关键因素决定靶向捕获的中靶率，一方面是设计区域的特异性，设计的探针不能落到高度重复区域，另一方面是捕获时的接头封闭效果。探针序列是由待捕获区域的序列决定的，一般在设计探针时都会避开高度重复的区域，所以我们能够改进的是靶向捕获时的封闭效果。如果捕获时不加入封闭序列，理论上以及实际测试均表明，(目标片段文库)的中靶率不会超过50％。如图2所示，在不加入封闭接头序列时，接头部分会结合非靶向文库从而减低中靶率。在捕获探针区域的特异性比较好的前提下，加入不同等级的封闭序列可以使中靶率在45-90％之间波动。因此，本申请就以MGI平台的双端Index接头文库为例，解释说明改进设计的通用封闭序列及其所达到的封闭效果，能够大幅提升中靶率进而降低测序成本。

MGI平台的双端Index的文库两端分别有一个接头序列，不同编号的Index接头所携带的index序列都是一个10bp的可变区，该可变区是用来对混合捕获和混合测序中的不同样本进行区分的。上文提到双端Index的目的是去除相互串扰的，如图3所示，每万条序列通过双端Index可以过滤掉3-7条序列，如果不用双端Index对千分之一及以下的突变检测是不可信的数据，通过双端Index可以提升检测的准确性。在杂交捕获的过程中为了提升中靶率，本发明开发了针对MGI平台双端Index的通用封闭序列。这个通用序列的特征之一是10bp的Index区域是选择通用的碱基(次黄嘌呤或C3 spacer)起到封闭/占位作用，为了提升封闭效果两端的固定序列区域进行了提升杂交温度的碱基修饰替代，固定序列部分碱基进行LNA或BNA修饰。双端Index的通用探针的具体特征和要求如下：(1)标签序列区域为通用封闭碱基，比如次黄嘌呤(I)、C3间隔臂等间隔序列或者其组合；(2)为了增强该通用型封闭序列的结合效率，在封闭序列的上下游的非标签序列区域的部分碱基进行LNA或BNA修饰，并且修饰碱基的数量分别在5～7和7～10，或者20％-40％之间。(3)通用封闭序列最适使用浓度和修饰碱基数量成反比，修饰的碱基多，最适浓度相对浓度低，太高浓度会产生起反作用；相反修饰的碱基少，要达到封闭效果需要更高的封闭序列浓度。

本发明根据MGI双端Index的接头序列特征设计了通用封闭修饰序列，MGI两条通用封闭的原始序列如下：

SEQ ID NO:1：

CTCTCAGTACGTCAGCAGTTNNNNNNNNNNCAACTCCTTGGCTCACAGAACGACATGGCTACGATCCGACTT。

SEQ ID NO:2：

GCATGGCGACCTTATCAGNNNNNNNNNNTTGTCTTCCTAAGACCGCTTGGCCTCCGACTT。

N的部分是Index序列的封闭序列，10bp长度的Index相比6bp和8bp时的Index，其好处是可以增加在设计不同Index时的选择，缺点是对通用封闭序列设计而言，增加了难度和不稳定性。在设计成通用封闭序列时，Index区域的碱基设计成简并碱基N、C3间隔壁和次黄嘌呤，所获得的通用封闭序列的不稳定性更高，这就要求Index两端的通用封闭序列修饰的碱基更多，因此，本申请将提升封闭效果的修饰碱基的数量由3-6个提升到5-10个。

在本申请一种优选的实施例中，P1(5+7修饰)端封闭序列为SEQ ID NO:3：

CTCTCA+GTACG+TCA+GCA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCACAGA+ACGA+CATGG+CTACGATC+CGACTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的封闭修饰。在一种优选的实施例中，P2端封闭序列为SEQ ID NO:4：

GCA+TGGC+GA+CCTT+ATCA+GXXXXXXXXXXXTTGTCTT+CCTA+AGA+CCGC+TTG+GCC+TCCGA+CTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的封闭修饰。

在本申请另一种优选的实施例中，P1端封闭序列为SEQ ID NO:5：

CTC+TCA+GT+ACG+TCA+GCA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATC+CGACTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的封闭修饰。在一种优选的实施例中，P2端封闭序列为SEQ ID NO:6：

GCA+TG+GC+GA+CC+TT+ATCA+GXXXXXXXXXXTTG+TCTT+CCTA+AGA+CC+GC+TTG+GCC+TCC+GA+CTT/3SpC3/；其中+表示LAN或BNA修饰，X表示次黄嘌呤或C3 spacer，/3SpC3/为3’端的封闭修饰。

进一步研究发现，修饰碱基的数量比较多，同时加入的通用封闭序列的浓度比较高时反而封闭效果不好，如图4A和图4B所示，当封闭序列中修饰碱基数量多了，在局部区域形成强的结合能力，大部分会像图4A所示，封闭序列可以正确封闭文库序列，但同时也会形成十字星型封闭，捕获下来一个非靶向序列，从而降低文库中靶率，如图4B所示。

进一步地发现在杂交的过程中，加入的文库量也有最大量的限制，以250bp的长度***片段文库计算，在单次杂交不能超过6.5μg(25pmol/L,这里指单端序列)，在用全外显子测试发现每个文库在杂交时投入500ng，12个文库杂交效果要比14-16个文库杂交效果好，在杂交时由于文库投入量过多，文库空间距离变短也会有部分文库两个文库和通用封闭形成图4B所示的双文库和双封闭序列的十字星型结构，从而导致捕获效率降低。

基于上述研究和发现，申请人提出了本申请的技术方案。在一种典型的实施方式中，提供了一种通用封闭序列，该通用封闭序列按照从5’到3’的方向包括：包括依次连接的左侧非标签区封闭序列、中间标签区封闭序列及右侧非标签区封闭序列，其中，左侧非标签区封闭序列包括5～7个LAN(Locked nucleic acid，锁核酸)或BNA(桥连核酸Bridgednucleic acid 2',4'-BNA^NC，即2'-O,4'-aminoethylene bridged nucleic acid是含有具有NO键的六元桥连结构的化合物)修饰的碱基(主要对是C碱基进行LNA或BNA修饰)，中间标签区封闭序列为通用封闭碱基序列，右侧非标签区封闭序列包括7～10个LAN或BNA修饰的碱基，且右侧非标签区封闭序列的3’端带有封闭修饰。

通过在左侧非标签区封闭序列上5～7个碱基，并在右侧非标签区封闭序列上的7～10个碱基进行LNA或BNA修饰，能够显著增强与待封闭序列的结合能力，从而增加封闭效果；而在右侧非标签区封闭序列的3’端进行封闭修饰，使得文库中多余的接头不能被作为引物对其他文库的接头进行扩增，进而能够减少或避免文库的非特异性捕获，提高目的文库捕获的中靶率。

上述右侧非标签区封闭序列的3’端的封闭修饰，可以采用MGB修饰、C3间隔臂修饰，3’磷酸化修饰，3’地高辛修饰，3’生物素修饰或3’端的碱基为双脱氧碱基。在本申请中，优选采用C3间隔臂修饰。

上述标签区封闭序列采用通用封闭碱基可以采用与A、T、C和G四种碱基均存在弱结合能力的碱基序列。在本申请一种优选的实施例中，该通用封闭碱基为次鸟嘌呤I和/或C3间隔臂。具体标签区封闭序列的碱基数目并非局限于10bp，可以根据待封闭的文库中的样本标签的碱基数目合理设定。比如，还可以是6bp、7bp、8bp、9bp、11bp或12bp等。

当采用C3间隔臂作为标签区封闭序列时，以前述MGI平台的P1和P2接头的封闭序列为例，其是10个C3间隔臂，或10个次黄嘌呤(I)。次黄嘌呤的优点是能与所有的碱基都有微弱的配对能力，而C3间隔臂只是占位一个碱基，与配对碱基没有结合能力，不能起到稳定的作用。

上述通用封闭序列中，左侧非标签区封闭序列和右侧非标签区封闭序列中LNA或BNA修饰的碱基的数目，通常认为修饰碱基数据量与左侧非标签区封闭序列或右侧非标签区封闭序列的序列长度呈负相关，序列长则需要修饰的碱基数量少，序列短则需要修饰的碱基数量多。然而在本申请中，发明人发现，对于特定长度的非标签区域的封闭序列来看，LNA或BNA修饰的碱基在左侧非标签区封闭序列或右侧非标签区封闭序列中的数目为5～10个碱基时，封闭序列与目的接头的结合能力最强。而当少于5个碱基时，与目的接头的结合不稳定，从而使得捕获效率较低。

此外，在利用上述通用封闭序列进行文库捕获时，待捕获文库的总量与加入的通用封闭序列的量最好也要匹配，若添加的文库量过多，容易导致封闭序列之间杂交形成星状结构，从而导致非特异性捕获，减低捕获效率。比如，当通用封闭序列的添加量为2.4μg时，以每个文库500ng计算，共杂交12个文库，即总量为6μg时，杂交捕获效果比杂交14～16个文库的捕获效果要好。当然，每个文库小于500ng，比如400ng时，2.4μg的通用封闭序列，同时杂交15个文库的捕获效率最高。

针对MGI平台的双端index接头，本申请也提供了能够抑制MGI测序平台的双端Index测序文库捕获的通用封闭序列。在本申请一种优选的实施例中，P1(5+7修饰)端封闭序列为SEQ ID NO:3：

在本申请另一种优选的实施例中，P1端封闭序列为SEQ ID NO:5：

上述两种优选的实施例所提供的通用封闭序列，不仅在数量上增加了修饰碱基从而提高了与目的接头的结合能力，而且上述通用封闭序列上的修饰碱基的具***置也相比修饰其他位置的碱基时，对目的接头的结合能力强。也就是说，上述优选的通用封闭序列对目的接头的封闭效果最佳，杂交捕获时，目的文库的捕获效率最高。

在上述各种改进的通用封闭序列的基础上，在本申请第二种典型的实施方式中，提供了一种捕获试剂盒，该捕获试剂盒包括上述任一种通用封闭序列。该捕获试剂盒中的通用封闭序列与目的接头的结合能力强，在用于捕获文库构建时，能够实现目的文库的高效捕获。

为了进一步提高目标文库的捕获效率(即中靶率)，在一种优选实施例中，上述试剂盒中通用捕获探针的工作浓度为0.4～0.8μg通用封闭序列/1μg待捕获文库。按照上述用量进行捕获，能够进一步避免文库量过多而形成十字星型封闭，从而降低文库中靶率。上述工作浓度可以根据具体封闭方案的不同有所不同，比如，当采用本申请的SEQ ID NO：5和SEQ ID NO：6的封闭方案时，该工作浓度按照0.4μg通用封闭序列/1μg待捕获文库进行捕获，目标文库的中靶率较高。当采用本申请的SEQ ID NO：3和SEQ ID NO：4的封闭方案时，该工作浓度按照0.8μg通用封闭序列/1μg待捕获文库进行捕获目标文库的中靶率较高。

在本申请第三种典型的实施方式中，还提供了一种文库杂交捕获方法，该方法包括采用捕获试剂盒对待捕获文库进行捕获，捕获试剂盒采用上述捕获试剂盒。该捕获试剂盒中的封闭序列在捕获文库构建时，能够实现目的文库的高效捕获。

发明人还发现通用封闭序列与待捕获文库按照摩尔比为10：1～20：1时封闭效果更好。因而在本申请一种优选的实施例中，采用捕获试剂盒对待捕获文库进行捕获的步骤中，将封闭序列与待捕获文库按照摩尔比为10：1～20：1的比例进行封闭。

在本申请第四种典型的实施方式中，提供了一种建库方法，该建库方法包括：构建片段化文库；对片段化文库进行杂交捕获，得到捕获文库；对捕获文库进行PCR扩增，得到测序文库；采用上述捕获试剂盒进行杂交捕获，或者采用上述任一种方法进行杂交捕获。采用本申请的建库方法所构建的文库中目的文库的占比较高，文库产出的有效数据占比高。

下面将结合具体的实施例来进一步说明本申请的有益效果。

需要说明的是，以下实施例采用NadPrep^TM DNA文库构建试剂盒(for MGI)(201909Version2.0)(纳昂达(南京)生物科技有限公司)所提供的文库构建流程进行。还需要说明的是，以下实施例仅是示例性说明，并不限定本申请的方法仅能采用如下方法。具体流程简述如下：

DNA样本片段化---末端修复和加A---接头连接---片段筛选---PCR扩增---文库纯化、定量和质检---使用MGI平台测序或靶向捕获后测序。

实施例1修饰多少和加入浓度差异的通用封闭方案

步骤：文库构建参考NadPrep^TM DNA文库构建试剂盒(for MGI)(201909Version2.0)说明书进行。其中杂交捕获的步骤按以下进行，真空浓缩后进行多文库混合杂交捕获时，具体的杂交文库混合步骤如下表：

表1：

组分	总文库量	数量
			总文库	6μg	1～12
Human Cot DNA	5μl	/
			通用封闭序列(下面列出序列)	2μl	/

1)本申请改进的MGI接头双端Index通用型封闭序列

1.1 SEQ ID NO:3所示的P1端封闭序列和SEQ ID NO:4所示的P2端封闭序列。

CTCTCA+GTACG+TCA+GCA+GT+T10XXXXXXXXXXCA+ACTCCT+TGGC+TCACAGA+ACGA+CATGG+CTACGATC+CGACTT/3SpC3/；

GCA+TGGC+GA+CCTT+ATCA+GXXXXXXXXXXTTGTCTT+CCTA+AGA+CCGC+TTG+GCC+TCCGA+CTT/3SpC3/

1.2 SEQ ID NO:5：所示的P1端封闭序列和SEQ ID NO:6所示的P2端封闭序列CTC+TCA+GT+ACG+TCA+GCA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATC+CGACTT/3SpC3/；

GCA+TG+GC+GA+CC+TT+ATCA+GXXXXXXXXXXTTG+TCTT+CCTA+AGA+CC+GC+TTG+GCC+TCC+GA+CTT/3SpC3/

上述四条序列中，X表示C3 Spacer/次黄嘌呤，+N表示LNA或BNA修饰碱基(两种修饰效果相当，以LNA修饰为例)，/3SpC3/表示3’的C3间隔臂封闭。

在杂交过程中放入的通用封闭序列和浓度表如下：

表2：

2)具体杂交捕获步骤如下：

1、按照上表将各组分混合于一个0.2/1.5ml的低吸附离心管中，涡旋混匀，瞬时离心。

2、将离心管放入提前预热至60℃的真空浓缩仪中干燥。

3、待全部液体蒸发并完全干燥后，将离心管密封后备用。

4、取出

Exome Research Panel v2.0在冰上自然融解，使用后按需小量分装。

5、根据下表3配制杂交反应液，使用移液器混合均匀后加入到已经真空浓缩干燥的离心管底部，使用移液器轻柔吹吸混匀15～20次，瞬时离心，25℃孵育5～10min。

表3：

6、涡旋混匀杂交反应混合液，瞬时离心后，将离心管中的全部17μl杂交反应混合液转移至一个新的0.2ml PCR管中，瞬时离心，放进PCR仪中，启动如下杂交程序：

表4：

7、杂交文库洗脱

(1)准备工作

1、取出

Hybridization and Wash Kit中的其他试剂室温自然融解，涡旋混合均匀(注意：Wash Buffer I如果无法融解，可于65℃水浴孵育至完全融解)。

2、Dynabeads^TM M-270 Streptavidin Beads涡旋混合均匀，室温平衡30min后方可进行链霉亲和素磁珠的清洗和捕获步骤。

(2)试剂配制

1、洗脱缓冲液的配制

根据下表体系配制洗脱缓冲液的1X工作液：

表5：

组分名称	Rnase-free水	缓冲液	总计
				2X磁珠洗脱缓冲液	160μl	160μl	320μl
10X洗脱缓冲液I	252μl	28μl	280μl
				10X洗脱缓冲液II	144μl	16μl	160μl
10X洗脱缓冲液III	144μl	16μl	160μl
				10X Stringent洗脱缓冲液	288μl	32μl	320μl

2、磁珠悬浮液配制，如表6。

表6：

(3)亲和素磁珠清洗

1、将Dynabeads^TM M-270 Streptavidin Beads涡旋混匀15s,确保完全混匀。吸取50μlM270磁珠至1个1.5ml低吸附离心管中。

2、向离心管中加入100μl 1X Bead Wash Buffer，轻柔吹吸混匀10次，瞬时离心，置于磁力架上数分钟，待液体完全澄清，使用移液器移弃上清。将离心管从磁力架上移出。

3、重复步骤2两次。

4、向离心管中加入17μl磁珠悬浮液，轻柔吹吸混匀，将全部磁珠悬浮液转移至1个新的0.2ml低吸附PCR管中。

(4)链霉亲和素磁珠捕获

1、16h杂交反应后，调节PCR仪进入到洗脱程序。

2、将重悬的链霉亲和素磁珠加入到杂交体系中，并使用移液器轻柔吹吸混匀或涡旋混匀。

3、65℃孵育45min，每10～12min轻柔涡旋一次，确保磁珠完全重悬。

(5)热洗脱(注意：热洗脱过程操作要迅速；吹吸混匀过程中尽量避免产生气泡)

1、孵育结束后从PCR仪上取下PCR管，并向其中加入100μl 65℃1X Wash BufferI，吹吸混匀含有磁珠的杂交体系。

2、将PCR管置于磁力架上1min，待液体完全澄清后，使用移液器吸取移弃上清。

3、将PCR管从磁力架上移出，加入150μl 65℃1X Stringent Wash Buffer，轻柔吹吸10次混合均匀，放进PCR仪中65℃孵育5min。

4、重复步骤2和3一次。

(6)室温洗脱

1、将PCR管瞬时离心后置于磁力架上1min，待液体完全澄清后吸取移弃上清，加入150μl室温1X Wash Buffer I，涡旋混匀，室温孵育2min，期间涡旋混匀30s后静置30s，交替进行，确保充分混匀。

2、将PCR管瞬时离心后置于磁力架上1min，待液体完全澄清后吸取移弃上清，加入150μl室温1X Wash Buffer II，涡旋混匀，室温孵育2min，期间涡旋混匀30s后静置30s，交替进行，确保充分混匀。

3、将PCR管瞬时离心后置于磁力架上1min，待液体完全澄清后吸取移弃上清，加入150μl室温1X Wash Buffer III，涡旋混匀，室温孵育2min，期间涡旋混匀30s后静置30s，交替进行，确保充分混匀。

4、将PCR管瞬时离心后置于磁力架上1min，待液体完全澄清后吸取移弃上清，之后换用10μl吸头移去少量残余Buffer。

5、将PCR管从磁力架上移出，加入22.5μl Nuclease Free Water，使用移液器轻柔吹吸10次，确保混合均匀，转移全部液体至一个新的0.2ml PCR管中。

后续的PCR扩增及文库纯化和定量步骤按照NadPrep^TM DNA文库构建试剂盒(forMGI)(201909Version2.0)的说明书进行操作即可。

本实施例测试发现在Index区域是用通用碱基时，两端固定的区域碱基修饰的多少和通用封闭序列的使用浓度对最终的封闭效果影响加大，偏少的修饰碱基(5+7)时达到最佳封闭效果需要加入200μmol/L(封闭序列和文库比例是20：1)；偏多的修饰碱基(7+10)是100μmol/L就能达到最佳效果，达到200μmol/L时已经产生了抑制，如图5所示，可能是局部区域产生强的结合能力，当加入的通用封闭序列过多时，在反应体系中碰撞机会增加，从而形成异常的十字星结构(如图4B所示)。

实施例2

实施例2与实施例1的步骤相同，唯一不同的在于，所采用的通用封闭序列的修饰碱基数量不同。本实施例中，通用封闭序列的修饰碱基数目如下表所示：

表8：

封闭组合	4+6修饰封闭(封闭方案3)	8+11修饰组合(封闭方案4)
			浓度(μmol/L)	200	100

在封闭方案3中，P1序列不变(SEQ ID NO:3所示的P1端封闭序列，

CTCTCA+GTACG+TCA+GCA+GT+T10XXXXXXXXXXCA+ACTCCT+TGGC+TCACAGA+ACGA+CATGG+CTACGATC+CGACTT/3SpC3/)，P2序列为：SEQ ID NO:7

GCA+TGGC+GA+CCTT+ATCAGXXXXXXXXXXTTGTCTT+CCTA+AGA+CCGC+TTG+GCCTCCGA+CTT/3SpC3/。

在封闭方案4中，P1封闭序列为SEQ ID NO:8

CTC+TCA+GT+ACG+TCA+G+CA+GT+TXXXXXXXXXXCA+ACTCCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATC+CGA+CTT/3SpC3/；P2封闭序列为SEQ ID NO:9

GCA+TG+GC+GA+CC+TT+AT+CA+GXXXXXXXXXXTTG+TCTT+CCTA+AGA+CC+GC+TTG+GCC+TC+C+GA+CTT/3SpC3/。

方案3是在方案1的基础上保留P1的修饰不变，把P2的标签两端的封闭修饰碱基数量减少一个，修饰额的数量是4+6个；方案4是在方案是在方案3的基础上在标签两端的通用封闭各加一个封闭修饰碱基。当标签序列左侧的封闭修饰碱基是4个，右侧是6个时封闭效果明显不如方案1的5+7组合方案。同时方案4的8+11修饰方式也比方案2的7+10方案封闭效果差，结果见图6。所以左侧非标签区封闭序列包括5～7个修饰的碱基，和右侧非标签区封闭序列包括7～10个修饰的碱基是效果更好的方案。

实施例3

实施例3与实施例1的步骤相同，通用封闭序列的修饰碱基数目也与实施例1的方案2相同，唯一不同之处的在于，通用封闭序列的修饰碱基位置不同，具体序列如下：

封闭方案5：P1封闭序列为SEQ ID NO:10

CTC+T+CA+GT+ACG+TCA+GCA+GTTXXXXXXXXXXCAACTCCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATC+CGA+CTT/3SpC3/，P2封闭序列为SEQ ID NO:11

G+CA+TG+GC+GA+CC+TT+ATCAGXXXXXXXXXXTTGTCTT+CCTA+AGA+CC+GC+TTG+GCC+TC+C+GA+CTT/3SpC3/。

封闭方案6：P1封闭序列为SEQ ID NO:12

CTCTCA+GT+ACG+TCA+G+CA+GT+TXXXXXXXXXXCA+ACT+CCT+TGGC+TCAC+AGA+ACGA+CAT+GG+CTAC+GATCCGACTT/3SpC3/；P2封闭序列为SEQ ID NO:13

GCATG+GC+GA+CC+TT+AT+CA+GXXXXXXXXXXTTG+TCTT+C+CTA+AGA+CC+GC+TTG+GCC+TCC+GACTT/3SpC3/。

封闭方案5是与方案2修饰数量相同的基础上改变了修饰的位置，方案5的是减少了两端的各一个修饰，增加了离中间标签比较近的位置的修饰；封闭方案6是正好相反，增加了两端的封闭修饰碱基，减少了离中间标签比较近的修饰。通用封闭方案5，方案6与方案2的封闭序列使用浓度都是100μmol/L，用相同的投入量文库杂交。结果发现方案5和方案2的效果接近，方案6的效果变差，见图7所示，说明不仅是修饰的碱基数量影响封闭效果，修饰的位置了对封闭有影响，本发明发现均衡修饰和离中间标签序列比较近的区域增加修饰会明显好于两个末端增加修饰数量的效果好。

实施例4多个文库杂交测试

建库和杂交的实验步骤和实施例1一样，通用封闭选择7+10的碱基修饰，浓度用100μmol/L，区别是多个文库混合杂交，具体文库投入数量及文库投入总量如下：

表7.

投入文库数量(500ng/文库)	10个	12个	14个	16个
					文库投入量总量	5μg	6μg	7μg	8μg

在杂交捕获时投入量是500ng/文库时测序的各项指标表现比较好，如果单次杂交能够允许投入更多的量，也就是单次杂交更多的样本会降低每个样本的杂交捕获成本。本申请的通用封闭序列的测试发现单次不超过12个样本一起杂交时，杂交的各项指标表现较好，而杂交的文库数量达到14个和16个样本时，中靶率会有一定程度的下降。如图8所示，14个文库和16个文库的投入总量分别是7μg和8μg，在固定的捕获体系中，随着文库数量的增加，部分文库有机会出现两个文库与通用封闭形成十字星结构封闭，从而降低中靶率。

综上所述，本发明针对MGI平台的双端Index文库杂交设计了通用的封闭序列，通过在Index的可变区域用通用碱基替代，并在index两侧的固定序列中增加提升退火温度的碱基修饰，能够提高双端index文库的捕获效率。进一步地，本申请还发现通用封闭序列的封闭的效果与提升退火温度的修饰碱基的数量控制在左侧为5～7个，右侧为7～10个时，封闭序列的封闭效果更好。此外还发现如果进一步优化修饰碱基的具***置为本申请实施例的优选位置时，封闭效果最好。相应地，通用封闭序列的使用浓度也对捕获目的文库的中靶率有影响。当通用封闭序列的用量为0.4～0.8μg时，本申请可支持同时进行12个样本一起杂交，这大大降低了单个样本的杂交捕获成本。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

序列表

<110> 纳昂达（南京）生物科技有限公司

<120> 通用封闭序列及其应用

<130> PN132184NAGD

<160> 13

<170> SIPOSequenceListing 1.0

<210> 1

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签封闭序列,n表示A,T,C,或G；

<400> 1

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 2

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签封闭序列，n表示A，T，C或G

<400> 2

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 3

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(20)

<223> 左侧非标签区封闭序列，第6、12、15、18和20位的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (31)..(72)

<223> 右侧非标签区封闭序列，第33、39、43、50、54、59和67位的碱基为LAN或BNA修饰，第72位末端为C3间隔臂修饰；

<400> 3

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 4

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第4、8、10、14和18的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 右侧非标签区封闭序列，第36、40、43、47、50、53和58位的碱基为LAN或BNA修饰；

<400> 4

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 5

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(20)

<223> 左侧非标签区封闭序列，第4、7、9、12、15、18和20位的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (31)..(72)

<223> 右侧非标签区封闭序列，第33、39、43、47、50、54、57、59、63和67位的碱基为LAN或BNA修饰，第72位末端为C3间隔臂修饰；

<400> 5

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 6

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第4、6、8、10、12、14和18的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (29)..(60)

<223> 右侧非标签区封闭序列，第32、36、40、43、45、47、50、53、56和58位的碱基为LAN或BNA修饰，第60位末端为C3间隔臂修饰；

<400> 6

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 8

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第4、8、10、14位碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (29)..(60)

<223> 右侧非标签区封闭序列，第36、40、43、47、50和58位的碱基为LAN或BNA修饰，第60位末端为C3间隔臂修饰；

<400> 8

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 8

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(20)

<223> 左侧非标签区封闭序列，第4、7、9、12、15、16、18和20位的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (31)..(72)

<223> 右侧非标签区封闭序列，第33、39、43、47、50、54、57、59、63、67、70位碱基为LNA或BAN修饰，第72位碱基末端进行C3间隔臂封闭修饰

<400> 8

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 9

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第4、6、8、10、12、14、16和18的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (29)..(60)

<223> 右侧非标签区封闭序列，第32、36、40、43、45、47、50、53、55、56和58位的碱基为LAN或BNA修饰，第60位末端为C3间隔臂修饰；

<400> 9

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 10

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(20)

<223> 签区封闭序列，第4、5、7、9、12、15和18位的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (31)..(72)

<223> 右侧非标签区封闭序列，第39、43、47、50、54、57、59、63、67、70位碱基为LNA或BAN修饰，第72位碱基末端进行C3间隔臂封闭修饰

<400> 10

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 11

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第2、4、6、8、10、12和14位碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (29)..(60)

<223> 右侧非标签区封闭序列，第36、40、43、45、47、50、53、55、56和58位的碱基为LAN或BNA修饰，第60位末端为C3间隔臂修饰；

<400> 11

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

<210> 12

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (21)..(30)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(20)

<223> 签区封闭序列，第7、9、12、15、16、18和20位的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (31)..(72)

<223> 右侧非标签区封闭序列，第33、36、39、43、47、50、54、57、59和63位碱基为LNA或BAN修饰，第72位碱基末端进行C3间隔臂封闭修饰

<400> 12

ctctcagtac gtcagcagtt nnnnnnnnnn caactccttg gctcacagaa cgacatggct 60

acgatccgac tt 72

<210> 13

<211> 60

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (19)..(28)

<223> 标签区封闭序列，n表示次黄嘌呤或C3间隔臂；

<220>

<221> misc_feature

<222> (1)..(18)

<223> 左侧非标签区封闭序列，第6、8、10、12、14、16和18的碱基为LAN或BNA修饰；

<220>

<221> misc_feature

<222> (29)..(60)

<223> 右侧非标签区封闭序列，第32、36、37、40、43、45、47、50、53和56位的碱基为LAN或BNA修饰，第60位末端为C3间隔臂修饰；

<400> 13

gcatggcgac cttatcagnn nnnnnnnntt gtcttcctaa gaccgcttgg cctccgactt 60

Claims

1.一种通用封闭序列，其特征在于，所述通用封闭序列按照从5’到3’的方向包括依次连接的左侧非标签区封闭序列、中间标签区封闭序列及右侧非标签区封闭序列，

其中，所述左侧非标签区封闭序列包括5～7个LAN或BNA修饰的碱基，所述中间标签区封闭序列为通用封闭碱基序列，所述右侧非标签区封闭序列包括7～10个LAN或BNA修饰的碱基，且所述右侧非标签区封闭序列的3’端带有封闭修饰。

2.根据权利要求1所述的通用封闭序列，其特征在于，所述3’端的所述封闭修饰为MGB修饰、C3间隔臂修饰，磷酸化修饰，地高辛修饰或生物素修饰，或者所述3’端碱基为双脱氧碱基。

3.根据权利要求1所述的通用封闭序列，其特征在于，所述通用封闭碱基为次黄嘌呤或C3间隔臂。

4.根据权利要求1至3中任一项所述的通用封闭序列，其特征在于，所述通用封闭序列为MGI测序平台的带有第一标签序列的P1接头的封闭序列或带有第二标签序列的P2接头的封闭序列，其中，

所述P1接头的封闭序列为SEQ ID NO:3：

所述P2接头的封闭序列为SEQ ID NO:4：

5.根据权利要求1至3中任一项所述的通用封闭序列，其特征在于，所述通用封闭序列为MGI测序平台的带有第一标签序列的P1接头的封闭序列或带有第二标签序列的P2接头的封闭序列；

所述P1接头的封闭序列为SEQ ID NO:5：

所述P2接头的封闭序列SEQ ID NO:6：

6.一种捕获试剂盒，所述捕获试剂盒包括通用封闭序列，其特征在于，所述通用封闭序列为权利要求1至5中任一项所述的通用封闭序列。

7.根据权利要求6所述的试剂盒，其特征在于，所述试剂盒中通用捕获探针的工作浓度为0.4～0.8μg所述通用封闭序列/1μg待捕获文库。

8.一种文库杂交捕获方法，所述方法包括采用捕获试剂盒对待捕获文库进行捕获，其特征在于，所述捕获试剂盒采用权利要求6或7所述的捕获试剂盒。

9.根据权利要求8所述的方法，其特征在于，所述通用封闭序列与待捕获文库按照摩尔比为10:1～20：1的比例进行封闭。

10.一种建库方法，所述建库方法包括：

构建片段化文库；

对所述片段化文库进行杂交捕获，得到捕获文库；

对所述捕获文库进行PCR扩增，得到测序文库；

其特征在于，采用权利要求6或7所述的捕获试剂盒进行所述杂交捕获，或者采用权利要求9或10所述的方法进行所述杂交捕获。