WO2022036977A1

WO2022036977A1 - 双端文库标签组合物及其在mgi测序平台中的应用

Info

Publication number: WO2022036977A1
Application number: PCT/CN2020/139919
Authority: WO
Inventors: 汪彪; 胡玉刚; 吴强
Original assignee: 纳昂达(南京)生物科技有限公司
Priority date: 2020-08-19
Filing date: 2020-12-28
Publication date: 2022-02-24
Also published as: EP3998343A4; JP2023538561A; EP3998343A1; EP3998343B1; CN111910258A; EP3998343C0; CN111910258B

Abstract

本发明提供了一种双端文库标签组合物及其在MGI测序平台中的应用。其中，该双端文库标签组合物包括：多个5'端的文库标签和多个3'端的文库标签，多个的5'端的文库标签长度均相同，多个3'端的文库标签的长度均相同，且在双端文库标签组合物中，相同位置上每种碱基出现的次数相同。利用优化的双端文库标签进行数据拆分，能够解决合成、实验环节和上机测序过程中导致的串扰问题。而控制每个5'端的文库标签的长度相同，3'端的文库标签的长度也相同，且相同位置上每种碱基出现的次数相同，能够获得双端文库标签碱基平衡性很好的多个文库，将这多个文库混合上机测序时，各文库的双端标签读取准确性高，进而提高文库有效拆分率。

Description

双端文库标签组合物及其在MGI测序平台中的应用

技术领域

本发明涉及血浆DNA建库领域，具体而言，涉及一种双端文库标签组合物及其在MGI测序平台中的应用。

背景技术

在MGI高通量测序仪测序过程中，为了实现更多的样本测序，需要把每个样本用不同的标签序列(Index)进行标记测序后进行拆分。但目前的MGI测序平台使用的基本都是单端标签的文库。由于单端标签(Index)存在着天然的缺陷，容易导致样本之间串扰的发生。由于标签接头或引物在合成、实验操作以及测序的各个环节导致的污染，使得相互串扰是不可避免的，所以需要解决样本之间的低频度的相互串扰，目前最好的方式是用双端标签的方法来解决，用双端标签方法能够有效去除样本之间的相互串扰。

但采用双端标签相比单端标签，在测序数据拆分时，测序仪是否能够准确地读取标签序列，会严重影响测序数据有效拆分。如果双端标签序列读取有问题，则会降低测序数据的有效拆分率，进而增加测序成本。

因此，如何利用双端标签的方式标记混合测序的文库，一方面降低样本串扰现象，另一方面提高多样本混合测序后的数据有效拆分率。

发明内容

本发明的主要目的在于提供一种双端文库标签组合物及其在MGI测序平台中的应用，以解决现有MGI测序平台利用单端标签标记文库容易发生样本串扰的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种双端文库标签组合物，双端文库标签组合物包括：多个5’端的文库标签和多个3’端的文库标签，多个的5’端的文库标签长度均相同，多个3’端的文库标签的长度均相同，且在双端文库标签组合物中，相同位置上每种碱基出现的次数相同。

进一步地，多个5’端的文库标签的长度与多个3’端的文库标签的长度相同，优选均为6～10bp之间的任一固定长度；优选地，双端文库标签组合物中，任意两种文库标签间至少存在3个碱基差异；且任意一种文库标签中连续相同的碱基数目不超过3个；优选地，任意一种文库标签的GC含量为40～60％；优选地，双端文库标签组合物包括4标签平衡的双端文库标签的组合，或8标签平衡的双端文库标签的组合，其中，4标签平衡的双端文库标签的组合为4n个5’端的文库标签和4n个3’端的文库标签的组合，8标签平衡的的双端文库标签的组合为8n个5’端的文库标签和8n个3’端的文库标签的组合，其中，n为大于等于1的自然数。

进一步地，4标签平衡的双端文库标签的组合中，5’端的文库标签选自表1所示的96组中的任意一组或多组，3’端的文库标签组选自表1所示的96组不同于5’端的文库标签组的任意一组或多组。

进一步地，8标签平衡的双端文库标签的组合中，5’端的文库标签选自表2所示的48组中的任意一组或多组，3’端的文库标签组选自表2所示的48组不同于5’端的文库标签组的任意一组或多组。

根据本发明的第二个方面，提供了一种基于MGI测序平台的带双端文库标签的扩增引物组合物，该扩增引物组合物包括多个带双端文库标签的扩增引物对的组合，每个扩增引物对包括5’端的文库标签和3’端的文库标签，多个扩增引物对的5’端的文库标签的长度均相同，多个扩增引物对的3’端的文库标签的长度均相同，且相同位置上每种碱基出现的次数相同。

进一步地，多个扩增引物对的5’端的文库标签的长度与多个扩增引物对的3’端的文库标签的长度相同；优选地，5’端的文库标签和3’端的文库标签的长度均为6～10bp之间的任一固定长度；优选地，扩增引物组合物中，任意两种文库标签之间至少存在3个碱基差异；且任意一种文库标签中连续相同的碱基数目不超过3个；优选地，多个5’端的文库标签和多个3’端的文库标签的GC含量均为40～60％；优选地，扩增引物组合物包括4标签平衡的4n个扩增引物对的组合，或者为8标签平衡的8n个扩增引物对的组合，n为大于等于1的自然数。

进一步地，4标签平衡的4n个扩增引物对中，5’端的文库标签选自表1所示的96组中的任意一组或多组，3’端的文库标签组选自表1所示的96组不同于5’端的文库标签组的任意一组或多组；优选地，8标签平衡的8n个扩增引物对中，5’端的文库标签选自表2所示的48组中的任意一组或多组，3’端的文库标签组选自表2所示的48组不同于5’端的文库标签组的任意一组或多组。

进一步地，每个扩增引物对还包括5’端通用扩增序列和3’端通用扩增序列，5’端通用扩增序列包括位于5’端的文库标签上游的通用序列和位于5’端的文库标签下游的通用序列，3’端通用扩增序列包括位于3’端的文库标签上游的通用序列和位于3’端的文库标签下游的通用序列；优选地，位于5’端的文库标签上游的通用序列为SEQ ID NO:793，位于5’端的文库标签下游的通用序列为SEQ ID NO:794；位于3’端的文库标签上游的通用序列为SEQ ID NO:795，位于3’端的文库标签下游的通用序列为SEQ ID NO:796；或者

位于5’端的文库标签上游的通用序列为SEQ ID NO:793，位于5’端的文库标签下游的通用序列为SEQ ID NO:797；位于3’端的文库标签上游的通用序列为SEQ ID NO:795，位于3’端的文库标签下游的通用序列为SEQ ID NO:798。

根据本发明的第三个方面，提供了一种测序文库构建试剂盒，试剂盒包括上述任一种扩增引物组合物。

进一步地，试剂盒还包括泡状接头，泡状接头包括第一接头序列和第二接头序列，第一接头序列为SEQ ID NO:769，第二接头序列为SEQ ID NO:770，或者第一接头序列为SEQ ID NO:773，第二接头序列为SEQ ID NO:774。

根据本发明的第四个方面，提供了一种基于MGI测序平台的测序文库的构建方法，方法采用上述试剂盒进行构建。

根据本发明的第五个方面，提供了一种测序文库，测序文库包括上述双端文库标签组合，或者上述任一种扩增引物组合物。

应用本发明的技术方案，通过引入双端文库标签及优化的双端文库标签组合，利用双端文库标签进行数据拆分，能够解决合成、实验环节和上机测序过程中导致的串扰问题，会使检测结果更准确。进一步地，通过控制双端文库标签组合中每个5’端的文库标签的长度相同，3’端的文库标签的长度也相同，并且限定相同位置上每种碱基出现的次数相同，使得该组合物中的双端标签的碱基出现概率相同，因而合成带有该组合物中的双端标签的接头或文库扩增引物时，能够获得双端文库标签碱基平衡性很好的多个文库，将这多个文库混合上机测序时，能够使得这些混合文库中各文库的双端标签读取准确性高，进而提高文库有效拆分率。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1A、图1B及图1C示出了MGI测序平台采用双端标签比单端标签去除串扰的优势；

图2A和图2B示出了MGI的单端标签接头；

图3A和图3B示出了MGI的双端标签接头；

图4示出了MGI平台两种双端标签建库实现过程；

图5示出了本申请的本发明的双端标签方案和单端标签扩增子方案兼容；

图6示出本申请的双端标签扩增引物兼容单端标签的分子标签接头；

图7A和图7B示出了4平衡和8平衡标签序列碱基平衡型；

图8示出了4平衡和8平衡在多杂过程中碱基平衡性对比；

图9示出了两种建库方案产出对比；

图10示出了4平衡和8平衡在12杂测序过程中数据拆分差异。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例只是一个特例说明，并不是唯一性限定，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

术语解释：

双端标签接头：高通量测序时需要每个片段末端连接通用的测序接头，接头的不互补区域各有一个可变序列区域序列是标签序列，是用来测序时拆分数据用。

标签序列碱基平衡：DNA序列有四种碱基组成，即A、T、G和C，为了测序过程中的有效读取，组合出一组标签序列保证标签序列的每个位置碱基占比相等。

如背景技术所提到的，MGI的高通量测序仪用单端标签序列建库会有一定比例的样本之间的相互串扰(这是在Illumina的测序平台上也存在的现象，虽然MGI平台的测序过程和Illumina平台有很大区别，但是在接头序列合成、建库和杂交捕获过程避免不了会造成样本之间的标签相互串扰)。如图1A所示，如果在实验环节有1％的相互串扰，无论是接头合成、文库构建、杂交捕获还是上机测序，都会具有相同的串扰效果。目前解决样本之间串扰的最好方法是在建库的过程引入双端标签序列，如图1B所示，解决串扰的问题只能是尽量控制各个实验环节的同时引入双端标签序列的方法。如图1C所示双端标签方案会比单端方案降低串扰100倍(1％到0.01％)。

因此，为解决MGI测序平台的样本串扰问题，本申请也试图从MGI现有的单端标签改为双端标签来解决。具体的研发思路和历程如下：

MGI的建库方案是采用泡状接头，不同于Illumia的Y型接头，MGI的单端标签可以融合在接头之中(如图2B)，也可以是分开的方案(如图2A)；但是双端标签的序列不能和前端序列融合在一起(如图3B，如果在前端融合标签序列，由于前端互补区只有7bp，中间的泡状结构会更长，这种结构的稳定性极差，实现效率很低，实现效果不如标签序列引物和通用接头分开的截断型方案更优效率)，只能采用通用接头和分开的双端标签的扩增引物结构形式(如图3A所示)。发明人根据图3A所示结构形式连接双端标签，但在实际应用的过程中发现，泡状接头中间泡状太大会影响退火二级结构稳定，退火不好会影响接头连接效率(平均连接效率为20％-40％)。MGI的泡状接头不同于Illumina的Y型接头的双端标签可以融合在一起。

进一步研究发现，在MGI的泡状接头的中间区域不配对碱基可以是30±5bp，此时配对碱基为20±2bp时更容易形成稳定的退火连接，从而提高连接效率，如图4中的方案一；中间区域不配对碱基也可以是45±5bp，此时配对碱基为25±2bp时形成的退火连接更稳定，连接效率也更高，如图4中的方案二。而且，发明人进一步比较发现，相较方案二，方案一有下列好处，第一点，泡状区是30±5bp接头退火稳定，需要互补的区域少，稳定有利于连接；第二点，可以兼容单端标签的扩增子，扩增子可以在单双端标签中切换，如图5；第三点，可以兼容单端分子标签接头，如图6。

随着进一步研究的深入，发明人还发现，尽管上述方案一较方案二有诸多优势，但如果是想获得带有双端标签的MGI测序平台的测序文库，无论方案一还是方案二均能实现该目的。如果进一步利用双端标签构建的文库进行上机测序及测序后对数据进行拆分，发明人又发现MGI的双端标签接头在测序时碱基平衡要求比单端标签要求的还严格，要两端的标签序列都对才能拆分出来数据，如图1B。也就是说虽然双端标签解决了样本的串扰问题，但是对上机测序的碱基平衡性要求极其严格，碱基平衡性差会严重影响测序数据的准确读取，进而影响数据的有效拆分。

为了进一步更准确地对数据拆分，以双端标签的碱基数均为10为例，发明人根据如下规则对双端标签进行了碱基平衡优化，碱基筛选的规则如下：1)每种标签序列之间存在3个碱基的差异；2)每条序列的GC含量控制在0.4-0.6之间；3)相同连续碱基数不能超过3个。根据该规则对筛选出的每一条标签序列进行了二级结构评估，以评估该标签序列是否与扩增引物3’端的通用引物形成发卡折叠等二级结构，进而会降低该扩增引物的扩增效率，同时也对整个混样文库中各标签碱基的平衡性造成影响，进一步影响后续各标签的读取准确性，从而降低测序数据拆分的准确性。

按照上述筛选优化规则，本申请优化了384种4标签平衡和384种8标签平衡的序列，4标签平衡是指4个一组的标签序列平衡，如图7A所示(对应于表4中的前1-4号标签)，4个一组的标签序列在标签的1到10位，每个碱基A、T、G和C各有一个。同样，4标签平衡是指4个一组的标签序列平衡，如图7B所示(对应于表5中的前1-8号标签)，8个一组的标签序列在标签的1到10位，每个碱基A、T、G和C各有两个。

根据本申请的多次试验表明，4个一组平衡是最小的平衡单位，是最优组合。4平衡的组合可以组合成4个、8个、12个以及16个等4的倍数的平衡的组合，8平衡的组合需要组合成8个和16个等8的倍数的平衡组合。如图8所示(左侧的4平衡组合的标签序列对应于表1中的前4组扩增引物组所携带的文库标签组合，右侧的8平衡组合的文库标签，对应于表2中的前2组扩增引物组所携带的文库标签组合)，当4个文库标签混合上机测序时，4平衡中各碱基都是均衡出现的，因而各碱基的占比均为25％，而采用8平衡组合的文库标签时，各碱基的占比为0～50％。而当8的倍数，比如8个或16个样本混合上机时，文库标签组合后各碱基的占比能够达到平衡，均为25％。而当12个样本混合上机测序时，8平衡组合的文库标签中各碱基的占比在16.7％～33.3％之间。

此外，4平衡的非整数倍的平衡性也优于8平衡的组合，4平衡的应用更有利于MGI测序仪的安排上机。随着MGI的测序仪的测序通量越来越高，采用本申请优化的384种4平衡的标签组合，前后临近的每四个一组更有利于安排上机(见表1的4平衡的384种标签序列)。优化的384种8平衡的标签组合，前后临近的每八个一组，同样也利于安排上机(见表2的8平衡的384种标签序列)。

优选地，本申请中的两种平衡标签，在组成双端扩增引物时引物1序列是384种编号的正向排列；引物2是384种编号的反向排列，这只是本发明的一种优选推荐的排列方式。在实际应用中，也可以根据实际需要进行组合安排。比如，如下表1中，引物1选择96组中的任意一组时，引物2可以选择其余95组中的任意一组。当然，如果所需混样的样本数目大于4时，比如为8个或12个时，只要引物1所选择的标签组编号与引物2所选择的标签组编号不同即可。比如引物1选择前3组，引物2可以从剩余的93中任意选择3组。依次类推，只要是4的整数倍的样本进行混样上机测序时，就可以按照该规则进行选择双端的文库标签。

而当要混合的样本不是4的整数倍时，优先安排样本测序数据量大的4个安排在一组平衡标签组合，小样本测序量的小于4的样本安排另一组平衡的其它标签组合建库上机测序，这种情况的安排4平衡的组合要明显比8平衡的组合有优势；4平衡的组合除了在4的整数倍有一半比8平衡的有优势外(4，12，20)，非整数倍的组合也优于8平衡的组合，在4n+1和4n+2的时候平衡性也优于8平衡组合的相同样样本本混比测序。所以4平衡和8平衡比较有如下优点：1)4平衡的组合平衡的样本的组合种类比8平衡的多一倍；2)在不平衡的安排的三组组合中，4n+1和4n+2的组合中平衡性也优于8平衡的组合；3)在样本之间测序数据量有差别时，4平衡的更好安排接***衡的组合，大数据样本优先安排平衡组合中，小测序量样本可以不平衡。

表1：

表2：8平衡的384种标签序列

4平衡一组的上机数据拆分率会更高，因为测序仪对均衡组成的碱基读取更准确，碱基不平衡会读取错误导致数据拆分率降低。在12个样本等比混合上机时，分别用4平衡和8平衡的标签序列建库测序，从数据的拆分结果来看，如图10所示，4平衡的标签序列，12个样本的数据拆分波动不大，8平衡的标签序列，12个样本的数据拆分会有部分样本明显降低。

在上述研究结果的基础上，申请人提出了本申请的技术方案。

在本申请一种典型的实施方式中，提供了一种双端文库标签组合物，该双端文库标签组合物包括：多个5’端的文库标签和多个3’端的文库标签，多个的5’端的文库标签长度均相同，多个3’端的文库标签的长度均相同，且在双端文库标签组合物中，相同位置上每种碱基出现的次数相同。

本申请所提供的双端文库标签组合物，通过限定该组合中每个5’端的文库标签的长度相同，3’端的文库标签的长度也相同，并且限定相同位置上每种碱基出现的次数相同，使得该组合物中的双端标签的碱基出现概率相同，因而合成带有该组合物中的双端标签的接头或文库扩增引物时，能够获得双端文库标签碱基平衡性很好的多个文库，将这多个文库混合上机测序时，能够使得这些混合文库中各文库的双端标签读取准确性高，进而提高文库有效拆分率。

为进一步提高文库标签的碱基均衡性及读取准确性，在一种优选的实施例中，多个5’端的文库标签的长度与多个3’端的文库标签的长度相同，优选均为6～10bp之间的任一固定长度；两端的文库标签的长度相同，这样在拆分样本时，两端的文库标签所参与判定样本来源的碱基数目相同，因而两端文库提供支持的概率相同，能够避免一端文库标签较长提出支持的参考概率较高，另一端文库标签较短，提供支持的参考概率较低，从而导致拆分结果更偏向于依赖某一端的文库标签的拆分结果。

优选地，双端文库标签组合物中，任意两种文库标签间至少存在3个碱基差异；且任意一种文库标签中连续相同的碱基数目不超过3个；优选地，任意一种文库标签的GC含量为40～60％；满足上述碱基优化原则的文库标签在组合使用时，碱基读取的平衡性更好，读取结果也更准确，数据拆分率也更高。

优选地，双端文库标签组合物包括4标签平衡的双端文库标签的组合，或8标签平衡的双端文库标签的组合，其中，4标签平衡的双端文库标签的组合为4n个5’端的文库标签和4n个3’端的文库标签的组合，8标签平衡的的双端文库标签的组合为8n个5’端的文库标签和8n个3’端的文库标签的组合，其中，n为大于等于1的自然数。

在一种优选的实施例中，4标签平衡的双端文库标签的组合中，5’端的文库标签选自表1所示的96组中的任意一组或多组，3’端的文库标签组选自表1所示的96组不同于5’端的文库标签组的任意一组或多组。

在一种优选的实施例中，8标签平衡的双端文库标签的组合中，5’端的文库标签选自表2所示的48组中的任意一组或多组，3’端的文库标签组选自表2所示的48组不同于5’端的文库标签组的任意一组或多组。

在本申请第二种典型的实施方式中，提供了一种基于MGI测序平台的带双端文库标签的扩增引物组合物，该扩增引物组合物包括多个带双端文库标签的扩增引物对的组合，每个扩增引物对包括：5’端的文库标签和3’端的文库标签，多个扩增引物对的5’端的文库标签的长度均相同，多个扩增引物对的3’端的文库标签的长度均相同，且相同位置上每种碱基出现的次数相同。

通过限定该组合中每个扩增引物对的5’端的文库标签的长度相同，3’端的文库标签的长度也相同，并且限定相同位置上每种碱基出现的次数相同，使得组成的该扩增引物组合物中的双端标签，在用于标记多个混样上机测序的样本时，标签碱基的读取保持平衡，进而使得读取结果更准确，进一步使得根据该标签拆分的样本数据也更准确，提高样本拆分率。

在上述混合样本的5’端文库标签长度相同以及5’端文库标签长度相同的基础上，为进一步提高文库标签的碱基均衡性及读取准确性，在一种优选的实施例中，上述多个扩增引物对的5’端的文库标签的长度与多个扩增引物对的3’端的文库标签的长度相同。每对扩增引物中两端的文库标签的长度相同，这样在拆分样本时，两端的文库标签所参与判定样本来源的碱基数目相同，因而两端文库提供支持的概率相同，能够避免一端文库标签较长提出支持的参考概率较高，另一端文库标签较短，提供支持的参考概率较低，从而导致拆分结果更偏向于依赖某一端的文库标签的拆分结果。

更优选地，5’端的文库标签和3’端的文库标签的长度均为6～10bp之间的任一固定长度，更优选为10bp。此处优选择长度为10bp，相比6bp或8bp等其他长度，具有更大的区分度和更多的选择组合的有益效果。

为提供碱基更均衡的文库标签，在一种优选的实施例中，上述扩增引物组合物中，任意两种文库标签之间至少存在3个碱基差异；且任意一种文库标签中连续相同的碱基数目不超过3个；更优选地，多个5’端的文库标签和多个3’端的文库标签的GC含量均为40～60％。满足上述碱基优化原则的文库标签在组合使用时，碱基读取的平衡性更好，读取结果也更准确，数据拆分率也更高。

在一种优选的实施例中，上述扩增引物组合物包括4组标签平衡的4n个扩增引物对的组合，或者为8组标签平衡的8n个扩增引物对的组合，其中，n为大于等于1的自然数。更优选地，4组标签平衡的4n个扩增引物对中，5’端的文库标签选自上述表1所示的96组中的任意一组或多组，3’端的文库标签组选自表1所示的96组不同于5’端的文库标签组的任意一组或多组。此处组数根据实际需要确定。表1中的96组标签序列的组合，读取准确性更高，因而数据拆分更准确，拆分率也更高。

在另一种优选的实施例中，8组标签平衡的8n个扩增引物对中，5’端的文库标签选自表2所示的48组中的任意一组或多组，3’端的文库标签组选自上述表2所示的48组不同于5’端的文库标签组的任意一组或多组。

上述扩增引物组合物中，每个扩增引物对还包括5’端通用扩增序列和3’端通用扩增序列，5’端通用扩增序列包括位于5’端的文库标签上游的通用序列和位于5’端的文库标签下游的通用序列，3’端通用扩增序列包括位于3’端的文库标签上游的通用序列和位于3’端的文库标签下游的通用序列。上述每个扩增引物对中的通用扩增序列的具体序列根据MGI现有测序平台的通用序列进行确定。利用包含本申请上述改进的文库标签的扩增引物对形成的扩增引物组合，在进行混样上机测序时，能提高文库标签的读取准确率，进而提高各样本测序数据的拆分准确性和拆分率。

根据前述，文库构建可以采用相对较短的泡状接头(即中间区别不配对碱基数为30±5bp)，也可以采用相对较长的泡状接头(中间区域不配对碱基数为45±5bp)。相应地，此处的扩增引物对中的通用序列也可以根据泡状接头的长短，相应调整为较长或较短的通用扩增序列。

在一种优选的实施例中，与采用较短的泡状接头相对应的，位于5’端的文库标签上游的通用序列为SEQ ID NO:793，位于5’端的文库标签下游的通用序列为SEQ ID NO:794；位于3’端的文库标签上游的通用序列为SEQ ID NO:795，位于3’端的文库标签下游的通用序列为SEQ ID NO:796。

在另一种优选的实施例中，与采用较长的泡状接头相对应的，位于5’端的文库标签上游的通用序列为SEQ ID NO:793，位于5’端的文库标签下游的通用序列为SEQ ID NO:797；位于3’端的文库标签上游的通用序列为SEQ ID NO:795，位于3’端的文库标签下游的通用序列为SEQ ID NO:798。

在本申请第三种典型的实施方式中，还提供了一种基于MGI测序平台的文库构建试剂盒，该试剂盒包括上述任一种扩增引物组合物。利用具有上述碱基均衡性的扩增引物中双文库标签，能够使得混样测序后各样本的标签序列能够被准确读取，提高混样数据的样本拆分准确性和拆分率。

为进一步提高文库构建的便利性，上述试剂盒还可以进一步包括MGI测序平台的泡状接头，泡状接头包括第一接头序列和第二接头序列，第一接头序列为SEQ ID NO:769，第二接头序列为SEQ ID NO:770，或者第一接头序列为SEQ ID NO:773，第二接头序列为SEQ ID NO:774。改进的短泡状接头相比相对较长的泡状接头除了在接头连接步骤连接稳定性和连接效率更高外，在接头连接后的PCR扩增等程序中，相比较长的泡状接头更具兼容性。

在本申请第四种典型的实施方式中，还提供了一种基于MGI测序平台的测序文库的构建方法，该方法上述任一种试剂盒进行构建。利用本申请的上述试剂盒构建而成的文库，混合上机测序时，文库标签的均衡性更好，读取文库标签时的读取准确性更高，后续各样本的测序数据拆分也更准确，数据拆分率也更高。

在本申请第五种典型的实施方式中，还提供了一种测序文库，该测序文库包括上述任一种扩增引物组合物，或者采用上述任一种方法构建而成。该测序文库中多个样本的文库标签的均衡性更好，上机测序后文库标签的读取准确性更高，后续文库拆分率也更高。

下面将结合具体的实施例来进一步说明本申请的有益效果。需要说明的是，以下实施例采用NadPrep ^TM DNA文库构建试剂盒(for MGI)，货号：

血浆游离DNA双端分子标签文库构建试剂盒(for MGI)，货号：1003811使用说明书V1.0(纳昂达(南京)生物科技有限公司)所提供的文库构建流程进行。具体流程简述如下：

DNA样本片段化---末端修复和加A---接头连接---片段筛选---PCR扩增---文库纯化、定量和质检---使用MGI平台测序或靶向捕获后测序。

还需要说明的是，以下实施例仅是示例性说明，并不限定本申请的方法仅能采用如下方法。

实施例1建库方案一与方案二

具体步骤：参考NadPrep ^TM DNA文库构建试剂盒(for MGI)(201909Version2.0)说明书

唯一的区别是泡状接头序列和扩增引物序列的差异

(1)方案一：

泡状接头序列：

SEQ ID NO:769所示的接头序列1和SEQ ID NO:770所示接头序列2：

SEQ ID NO:769：(31bp)/phos/agtcggaggccaagcggtcttaggaagacaa；

SEQ ID NO:770(40bp)：ttgtcttcctaacaggaacgacatggctacgatccgact*t。

SEQ ID NO:771所示的扩增引物1和SEQ ID NO:772所示扩增引物2：

SEQ ID NO:771：(64bp)

/phos/ctctcagtacgtcagcagttnnnnnnnnnncaactccttggctcacagaacgacatggctacga；其中，nnnnnnnnnn之前的序列(/phos/ctctcagtacgtcagcagtt)记为SEQ ID NO:793，nnnnnnnnnn之后的序列(caactccttggctcacagaac gacatggctacga)记为SEQ ID NO:794(加粗及下划线的部分为相比方案二加长的部分)。

SEQ ID NO:772：(52bp)

gcatggcgaccttatcagnnnnnnnnnnttgtcttcctaagaccgcttggcc，其中，nnnnnnnnnn之前的序列(gcatggcgaccttatcag)记为SEQ ID NO:795，nnnnnnnnnn之后的序列(ttgtcttcctaagaccgcttgg cc)记为SEQ ID NO:796(末尾加粗及下划线的两个碱基CC是比方案二多出来的部分)。

方案一特点：

1.接头部分互补区是7+13bp(属于20±2bp范围)，中间泡状结构区域是20+12bp(属于30±5bp范围)；

2.扩增引物相对较长。

这样的好处有下面几点：

1.由于泡状区域比较短，所以退火结构稳定。

2.扩增引物兼容单端的扩增子方案和分子标签接头方案(参见申请号为201910229527.4的血浆建库分子标签专利)。

(2)方案二：

接头序列

SEQ ID NO:773所示的接头序列1和SEQ ID NO:774所示接头序列2。

SEQ ID NO:773(35bp)：/phos/agtcggaggccaagcggtcttaggaagacaatcag。

SEQ ID NO:774(59bp)：

ctgattgtcttcctaagcaactccttggctcacagaacgacatggctacgatccgactt。

SEQ ID NO:775所示的扩增引物1和SEQ ID NO:776所示扩增引物2。

SEQ ID NO:775：(51bp)

/phos/ctctcagtacgtcagcagttnnnnnnnnnncaactccttggctcacagaac。其中，nnnnnnnnnn之前的序列(/phos/CTCtcagtacgtcagcagtt)仍然为SEQ ID NO:793，nnnnnnnnnn之后的序列(caactccttggctcacagaac)记为SEQ ID NO:797。

SEQ ID NO:776：(50bp)

gcatggcgaccttatcagnnnnnnnnnnttgtcttcctaagaccgcttgg。其中，nnnnnnnnnn之前的序列(gcatggcgaccttatcag)仍然记为SEQ ID NO:795，nnnnnnnnnn之后的序列(ttgtcttcctaagaccgcttgg)记为SEQ ID NO:798。

这个方案的特点是：

1.接头部分互补区是7+17bp(属于25±2bp范围)，中间泡状结构区域是34+12bp(属于45±5bp范围)；

2.扩增引物比较短，见扩增引物部分。

与方案一相比，该方案有下面几点劣势：

1.由于泡状区域相对比较长，所以退火结构稳定性相对较差。

2.扩增引物兼容性差，不兼容任何其它方案(由于扩增引物序列相对较短，与方案一的泡状区域缺失重叠区域，因而难以与方案1的接头序列兼容)。

方案一和方案二的具体接头结构和扩增引物的扩增结果见图4，最终都能够实现MGI上机的双端标签文库，实验中分别做了25ng和100ng的投入量的建库实验，具体实验信息见下表。

表3：方案一和方案二建库产量对比表

方案一和方案二都可以正常建库成功，并且文库产出也比较接近，见图9。但是方案二不能兼容MGI平台的单端标签开发的扩增子和分子标签接头。

实施例2 4平衡和8平衡的12个样本混合数据拆分比较

双端标签的方案可以有效去除样本之间的串扰(又叫标签跳越)，但由于拆分数据需要两端的标签都正确，才能拆分出有效的测序数据，因此上机时的标签平衡要求比单端标签要求更严格。本申请优化了4平衡和8平衡的两套方案，本实施例分别采用4平衡和8平衡，对12个文库混样进行上机测试，以检测两套方案对各样本的有效拆分率，具体实验步骤和信息如下：

具体步骤：建库步骤参考NadPrep ^TM DNA文库构建试剂盒(for MGI)(201909Version2.0)说明书，唯一的区别在于：将单端标签接头改为双端标签接头建库方案。

实验中用到的4平衡双端标签序列如下表4所示，相邻4个一组平衡，每组用加粗或非加粗的字体进行区分，标签1是384条序列的正向排列，标签2是384条标签的反向排列。引物1的标签1和引物2的标签384组成第1组双端标签引物组合；引物1的标签2和引物2的383组成第2组双端标签引物组合，依次排列组合成384种组合。

8平衡的排列方式和4平衡的排列方式相同，唯一区别是8个一组平衡，见表5，当将12组文库标签放在一起时，前8个是平衡的，后4的是不平衡的，而相应的，4平衡的组合12组文库标签放在一起是完全平衡的。

表4：4平衡的12种双端标签序列组合

组合编号	标签1编号	标签1序列	标签2编号	标签2序列
XDI001	1(SEQ ID NO:1)	tcacattgct	384(SEQ ID NO:384)	gatagtaacg
XDI002	2(SEQ ID NO:2)	aatggcgctc	383(SEQ ID NO:383)	tgagtggcta
XDI003	3(SEQ ID NO:3)	gtctcaatga	382(SEQ ID NO:382)	ccgtcattac
XDI004	4(SEQ ID NO:4)	cggatgcaag	381(SEQ ID NO:381)	atccaccggt
XDI005	5(SEQ ID NO:5)	tcgcttaagc	380(SEQ ID NO:380)	gcaactgtga

XDI006	6(SEQ ID NO:6)	cgaggcttag	379(SEQ ID NO:379)	atccaccacc
XDI007	7(SEQ ID NO:7)	gtctaaggct	378(SEQ ID NO:378)	cgtgtgacat
XDI008	8(SEQ ID NO:8)	aatacgccta	377(SEQ ID NO:377)	tagtgatgtg
XDI009	9(SEQ ID NO:9)	aagcctattg	376(SEQ ID NO:376)	gcttgttcag
XDI010	10(SEQ ID NO:10)	cgctactgca	375(SEQ ID NO:375)	aacaagcact
XDI011	11(SEQ ID NO:11)	tcaagagcat	374(SEQ ID NO:374)	ttgccagtga
XDI012	12(SEQ ID NO:12)	gttgtgcagc	373(SEQ ID NO:373)	cgagtcagtc

表5：8平衡的12种双端标签序列组合

组合编号	标签1编号	标签1序列	标签2编号	标签2序列
MDI001	1(SEQ ID NO:385)	cgtcgatgac	384(SEQ ID NO:768)	taacacgacg
MDI002	2(SEQ ID NO:386)	atataaggcg	383(SEQ ID NO:767)	tgttctcttc
MDI003	3(SEQ ID NO:387)	gatcgtgctc	382(SEQ ID NO:766)	gagttcacaa
MDI004	4(SEQ ID NO:388)	cagtcttcgg	381(SEQ ID NO:765)	ctgatgtcct
MDI005	5(SEQ ID NO:389)	agaacgatct	380(SEQ ID NO:764)	agacagtggc
MDI006	6(SEQ ID NO:390)	ttggtgcatt	379(SEQ ID NO:763)	ctcacactta
MDI007	7(SEQ ID NO:391)	gccgtcataa	378(SEQ ID NO:762)	gccggtaagt
MDI008	8(SEQ ID NO:392)	tccaaccaga	377(SEQ ID NO:761)	actggaggag
MDI009	9(SEQ ID NO:393)	gatagcaaga	376(SEQ ID NO:760)	caacagtaac
MDI010	10(SEQ ID NO:394)	accgtgcttc	375(SEQ ID NO:759)	ataacgctca
MDI011	11(SEQ ID NO:395)	gcagatgtaa	374(SEQ ID NO:758)	gattgcgcct
MDI012	12(SEQ ID NO:396)	tgttggagcg	373(SEQ ID NO:757)	cggtgttgga

相同的人基因组标准品分别各用12个4平衡和12个8平衡的双端标签序列构建文库，12个4平衡的文库，双端标签序列如表4中列的先后顺序；12个8平衡的文库双端标签序列如表5中列的先后顺序。4平衡和8平衡的文库分别在MGI测序平台上进行双端标签测序和分析。

对两组混样文库的下机数据进行两轮拆分，第一轮用最大容错拆分(会把测序错误也拆分回来的方案)，第二轮每个标签只允许一个容错的拆分。经过数据拆分后的结果如图10所示，4平衡的12个文库混测数据拆分率更稳定，8平衡的12个文库混测数据拆分波动相对较大。这表明，双端标签严格平衡更有利于MGI测序仪的有效拆分，其中8平衡设计能够在一定程度上提高数据的有效拆分率，而4平衡设计对数据拆分效果更优。

实施例3

为确保本申请8平衡48组标签序列与华大制造提供的8平衡的12组标签序列之前的性能差异，本申请的8平衡48组标签序列在设计时就考虑了与华大制造提供的8平衡的12组标签序列在上机使用时的兼容性，因此，本申请的8平衡48组标签序列与华大制造提供的8平衡的12组标签序列之间任意两条序列均存在3个碱基的差异。

此外，其他主要的区别点在于：

1.本发明的的标签序列的碱基组成更均衡，GC％含量是40％-60％；而华大智造的是GC％含量是20％-80％；

2.本发明的标签序列都进行了与方案1的接头序列的匹配性计算，保证扩增文库的扩增效率的均衡产出；而华大智造的序列扩增效率上个别序列不满足扩增均衡性要求。

为进一步验证上述在扩增均衡性方面的性能差异，下面选择一组本发明的MDI001-MDI008的8平衡标签序列和华大智造的MGI001-MGI008的8平衡标签序列(如表6所示)分别按照本发明的方案1建库测试：均采用100ng的DNA投入量，扩增5个循环后回收测定文库产出，结果见表7。

如表7所示，本发明的8平衡一组产出比较均衡，而华大智造的有一个文库产出值低于正常值的一半，表明本发明经过筛选优化出来的标签序列均衡性更好，进而扩增效率更稳定。同时由于目前的MGI的测序仪通量比较高，本发明的两组384种标签，相比华大制造的120种标签，更能满足多样本的混合测序通量需求。

表6：华大智造的8平衡的8种双端标签序列组合

组合编号	标签1编号	标签1序列	标签2编号	标签2序列
MGI001	1(SEQ ID NO:777)	atgcatctaa	120(SEQ ID NO:785)	tagaggacaa
MGI002	2(SEQ ID NO:778)	agctctggac	119(SEQ ID NO:786)	cctagcgaat
MGI003	3(SEQ ID NO:779)	ctatcacgtg	118(SEQ ID NO:787)	gtagtcatcg
MGI004	4(SEQ ID NO:780)	ggactagtgg	117(SEQ ID NO:788)	gctgagctgt
MGI005	5(SEQ ID NO:781)	gccaagtcca	116(SEQ ID NO:789)	aacctagata
MGI006	6(SEQ ID NO:782)	cctgtcaagc	115(SEQ ID NO:790)	ttgccatctc
MGI007	7(SEQ ID NO:783)	tagaggtctt	114(SEQ ID NO:791)	agatcttgcg
MGI008	8(SEQ ID NO:784)	tatggcaact	113(SEQ ID NO:792)	cgctatcggc

表7

文库编号	文库产量	文库编号	文库产量
MGI001	1328	MDI001	1386
MGI002	1251	MDI002	1255
MGI003	1196	MDI003	1229
MGI004	1267	MDI004	1311
MGI005	667	MDI005	1307
MGI006	1345	MDI006	1238
MGI007	1257	MDI007	1233
MGI008	1344	MDI008	1274

从上述实施例的描述可以看出，本申请通过在MGI测序平台上引入双端文库标签，通过样本两端的标签序列进行数据拆分，达到消除合成、实验环节和上机测序过程中导致的串扰问题，会使检测结果更准确。此外，针对MGI测序平台的泡状接头，本申请通过对该特殊结构进行测试优化，发现了泡状接头中间不配对区域为30±5bp，配对碱基为20±2bp时，效果最优，这样组成的泡状接头退火最稳定，同时，相应的扩增引物为延长的扩增引物，能够兼容单端标签的扩增子和分子标签接头。该组成结构的泡状接头与延长的扩增引物(带双端文库标签)组合使用进行文库构建时，能够兼容现有的MGI平台的单端标签解决方案的模块，方便MGI测序仪测序应用。

在上述基础上，本申请为了更好地安排上机后的数据拆分，优化了4平衡和8平衡各384种标签序列，为MGI测序仪的高通量版测序和上机数据拆分提供最优解决方案。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等均应包含在本发明的保护范围之内。

Claims

一种双端文库标签组合物，其特征在于，所述双端文库标签组合物包括：多个5’端的文库标签和多个3’端的文库标签，多个所述的5’端的文库标签长度均相同，多个所述3’端的文库标签的长度均相同，且在所述双端文库标签组合物中，相同位置上每种碱基出现的次数相同。
根据权利要求1所述的双端文库标签组合物，其特征在于，所述多个所述5’端的文库标签的长度与多个所述3’端的文库标签的长度相同，优选均为6～10bp之间的任一固定长度；

优选地，所述双端文库标签组合物中，任意两种所述文库标签间至少存在3个碱基差异；且任意一种所述文库标签中连续相同的碱基数目不超过3个；

优选地，任意一种所述文库标签的GC含量为40～60％；

优选地，所述双端文库标签组合物包括4标签平衡的双端文库标签的组合，或8标签平衡的双端文库标签的组合，其中，所述4标签平衡的双端文库标签的组合为4n个所述5’端的文库标签和4n个所述3’端的文库标签的组合，所述8标签平衡的的双端文库标签的组合为8n个所述5’端的文库标签和8n个所述3’端的文库标签的组合，其中，n为大于等于1的自然数。
根据权利要求2所述的双端文库标签组合物，其特征在于，所述4标签平衡的双端文库标签的组合中，所述5’端的文库标签选自表1所示的96组中的任意一组或多组，所述3’端的文库标签组选自表1所示的96组不同于所述5’端的文库标签组的任意一组或多组。
根据权利要求2所述的双端文库标签组合物，其特征在于，所述8标签平衡的双端文库标签的组合中，所述5’端的文库标签选自表2所示的48组中的任意一组或多组，所述3’端的文库标签组选自表2所示的48组不同于所述5’端的文库标签组的任意一组或多组。
一种基于MGI测序平台的带双端文库标签的扩增引物组合物，其特征在于，所述扩增引物组合物包括多个带双端文库标签的扩增引物对的组合，每个所述扩增引物对包括5’端的文库标签和3’端的文库标签，

多个所述扩增引物对的5’端的文库标签的长度均相同，多个所述扩增引物对的3’端的文库标签的长度均相同，且相同位置上每种碱基出现的次数相同。
根据权利要求5所述的扩增引物组合物，其特征在于，多个所述扩增引物对的5’端的文库标签的长度与多个所述扩增引物对的3’端的文库标签的长度相同；

优选地，所述5’端的文库标签和所述3’端的文库标签的长度均为6～10bp之间的任一固定长度；

优选地，所述扩增引物组合物中，任意两种文库标签之间至少存在3个碱基差异；且任意一种文库标签中连续相同的碱基数目不超过3个；

优选地，多个所述5’端的文库标签和多个所述3’端的文库标签的GC含量均为 40～60％；

优选地，所述扩增引物组合物包括4标签平衡的4n个扩增引物对的组合，或者为8标签平衡的8n个扩增引物对的组合，n为大于等于1的自然数。
根据权利要求6所述的扩增引物组合物，其特征在于，所述4标签平衡的4n个扩增引物对中，所述5’端的文库标签选自表1所示的96组中的任意一组或多组，所述3’端的文库标签组选自表1所示的96组不同于所述5’端的文库标签组的任意一组或多组；

优选地，所述8标签平衡的8n个扩增引物对中，所述5’端的文库标签选自表2所示的48组中的任意一组或多组，所述3’端的文库标签组选自表2所示的48组不同于所述5’端的文库标签组的任意一组或多组。
根据权利要求5至7中任一项所述的扩增引物组合物，其特征在于，每个所述扩增引物对还包括5’端通用扩增序列和3’端通用扩增序列，所述5’端通用扩增序列包括位于所述5’端的文库标签上游的通用序列和位于所述5’端的文库标签下游的通用序列，所述3’端通用扩增序列包括位于所述3’端的文库标签上游的通用序列和位于所述3’端的文库标签下游的通用序列；

优选地，位于所述5’端的文库标签上游的通用序列为SEQ ID NO:793，位于所述5’端的文库标签下游的通用序列为SEQ ID NO:794；位于所述3’端的文库标签上游的通用序列为SEQ ID NO:795，位于所述3’端的文库标签下游的通用序列为SEQ ID NO:796；或者

位于所述5’端的文库标签上游的通用序列为SEQ ID NO:793，位于所述5’端的文库标签下游的通用序列为SEQ ID NO:797；位于所述3’端的文库标签上游的通用序列为SEQ ID NO:795，位于所述3’端的文库标签下游的通用序列为SEQ ID NO:798。
一种测序文库构建试剂盒，其特征在于，所述试剂盒包括权利要求5至8中任一项所述的扩增引物组合物。
根据权利要求9所述的试剂盒，其特征在于，所述试剂盒还包括泡状接头，所述泡状接头包括第一接头序列和第二接头序列，所述第一接头序列为SEQ ID NO:769，所述第二接头序列为SEQ ID NO:770，或者所述第一接头序列为SEQ ID NO:773，所述第二接头序列为SEQ ID NO:774。
一种基于MGI测序平台的测序文库的构建方法，其特征在于，所述方法采用权利要求9或10所述的试剂盒进行构建。
一种测序文库，其特征在于，所述测序文库包括权利要求1至4中任一项所述的双端文库标签组合物，或者权利要求5至8中任一项所述的扩增引物组合物。