CN110205683B

CN110205683B - Dna文库的制备方法和对dna文库的分析方法

Info

Publication number: CN110205683B
Application number: CN201910555735.3A
Authority: CN
Inventors: 张之宏; 王筱恬; 张振; 顾纭兆; 汉雨生; 张海波
Original assignee: Guangzhou Burning Rock Dx Co ltd
Current assignee: Guangzhou Burning Rock Dx Co ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2022-12-20
Anticipated expiration: 2039-06-25
Also published as: WO2020259722A1; CN110205683A; US20220372469A1

Abstract

本发明涉及DNA文库的制备方法。所述DNA文库的制备方法包括预文库的制备过程，其中所述的预文库制备过程包括DNA的制备、末端修复和3’端加A，用防污染接头进行接头连接，接头连接产物纯化，预文库扩增，扩增的预文库纯化。本发明还提供了防污染接头在制备用于DNA文库捕获试剂盒中的用途以及对本发明的制备方法制备的DNA文库进行生物信息学分析的方法。本发明的制备方法降低样本间交叉污染风险。

Description

DNA文库的制备方法和对DNA文库的分析方法

技术领域

本发明属于核酸测序领域。具体地，本发明涉及DNA文库的制备及对DNA文库的分析方法。

背景技术

随着与用药敏感性、耐药性、预后等多种临床价值密切相关的基因变异不断被发现，临床的迫切需求和科学的发展推动了我国在基于二代测序(NGS)技术的多基因检测产品的监管方式上的改革与创新，近几年NGS多基因检测产品在国内得到了极大的普及和推广，市场需求急速上升，面对更多的样本量和更短的检测周期，样本的建库检测流程有了更大的压力。增加操作人员和引入自动化设备可以提高检测通量，但同时样本间交叉污染风险也相应升高。

本领域需要降低样本间交叉污染风险的DNA文库制备方法。

发明内容

本发明基于发明人的下述发现：在现有技术中的DNA建库流程在最后一步通过PCR的方法给不同样本添加特异性标签，即直到建库最后样本才被彼此区分开，在此步骤之前，人工手动建库实验操作都是靠物理隔离(管盖，封膜)来隔离不同样本，严格遵守实验SOP。为了提高检测通量而增加每个操作员的建库通量或者增加操作员或者将该建库流程转化到自动化工作站平台，都会在无形中提高样本交叉污染的风险。

发明人在中国专利申请号：201611154433.8(该专利通过引用并入本文)中提供了一种DNA文库建库方法。在此基础上，发明人进一步进行了改进。

本发明把样本区分从建库最后一步提前到建库流程的第二步——接头连接阶段，只需要将原本的单一接头对替换成新的4种接头对(只比原来的接头多2～3bp)，再通过不同的位置排列即可。每个样本连接一种接头对，4种接头对在96孔板上通过特别的模式排列，不论有多少个样本，都可以确保每个样本使用的接头对与其周围的样本的接头对不一样，再通过更新的生物信息分析流程就可以彻底消除交叉污染的风险。

在一方面，本发明提供了DNA文库的制备方法，其包括预文库的制备过程，其中所述的预文库制备过程包括DNA的制备、末端修复和3’端加A，用防污染接头进行接头连接，接头连接产物纯化，预文库扩增，扩增的预文库纯化，

其中所述防污染接头与用于制备DNA文库的原始接头相比在3’端或5’端额外添加2-3个碱基，形成多对防污染接头。

在一个实施方案中，多对防污染接头是4对、5对、6对、7对或8对防污染接头。

在一个实施方案中，防污染接头的设计满足以下标准：

(1)从原始接头的3’端开始添加碱基，并保证添加的最后一个碱基是T碱基；

(2)在原始接头的3’端开始的第一个碱基位置分别添加A，T，G和C以保证测序中信号均衡，不影响碱基检出判断；

(3)在原始接头的3’端开始添加的每个位置，同一种碱基占比不能超过50％；

根据上述(1)-(3)，获得多个第一防污染接头；

且

(4)原始接头在5’端添加与第一防污染接头中除末位T以外的额外碱基反向互补的碱基并且5’端第一位碱基被磷酸化，从而获得多个第二防污染接头。

在一个实施方案中，在原始接头的3’端添加的第一个近端碱基位置上，有4种碱基，每种碱基占比均为25％；在原始接头3’端添加的第二个近端碱基位置上，有3种碱基，T碱基占比50％，剩下的2种碱基各占25％；在原始接头3’或5’端添加的第三个近端碱基位置上，两个接头在该位置为无碱基，另外两个接头是固定碱基T，占比50％。

在一个实施方案中，所述原始接头的序列是：

ADM-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T

ADM-A7：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC；

*代表硫代修饰；/5Phos/代表磷酸化修饰。

在一个实施方案中，对于多个第一防污染接头，所述额外的碱基序列是A*T、G*T、TC*T和CA*T；且对于多个第二防污染接头，所述额外的碱基是TA、CA、GAA和TGA，*代表硫代修饰；/5Phos/代表磷酸化修饰。

在一个实施方案中，防污染接头的序列是：

ACA1-A5：

ACA1-A7：

ACA2-A5：

ACA2-A7：

ACA3-A5：

ACA3-A7：

ACA4-A5：

ACA4-A7：

分别对应于SEQ ID No.1-8。

*代表硫代修饰；/5Phos/代表磷酸化修饰，其中加下划线且粗体的碱基是额外的碱基。

在一个实施方案中，测试样品排列为使得所述每种防污染接头与相邻位置或周围位置的防污染接头不同。

在一个实施方案中，使用以下引物进行预文库扩增：

Oligo PPS 1.1：ACACTCTTTCCCTACACGACGCTC；

Oligo PPS 2.1：GTGACTGGAGTTCAGACGTGTGC(分别对应于SEQ ID No.9-10)。

在一个实施方案中，测试样品排列为使得防污染接头的基本排列单位为：

其中ACA1表示使用ACA1-A5和ACA1-A7，ACA2表示使用ACA2-A5和ACA2-A7，ACA3表示使用ACA3-A5和ACA3-A7，且ACA4表示使用ACA4-A5和ACA4-A7。

在另一个方面，本发明提供了根据本发明所述的接头在制备用于DNA文库捕获试剂盒中的用途。

在一个实施方案中，DNA文库为cfDNA文库、白细胞gDNA文库或组织来源的DNA文库。

在又一个方面，提供了对本发明的制备方法制备的DNA文库进行生物信息学分析的方法，其包括对DNA文库进行测序；对测序数据进行分析；满足如下两个条件的第1条，而不满足第2条则认为一对读段其5’端存在防污染接头，3’末端不存在防污染接头序列，而如下两个条件均满足，则认为一对读段其5’端和3’末端均存在防污染接头序列；

条件1：具有相同序列ID的一对读段，读段1序列和读段2序列5’端的前2-3bp的碱基分别与防污染接头的5’端前2-3bp的碱基计算哈明距离，数值加和小于等于1；

条件2：在满足条件1的情况下，且一对读段等长，其中一条读段的反向互补序列与另外一条读段的正向序列近似相同，即二者序列字符计算的哈明距离值小于或等于软件默认设定的数值4时被认为是近似相同。

在一个实施方案中，在后续的分析过程中，对于只5’端存在防污染接头特有序列的一对读段，只减除读段的5’端的2-3bp的碱基；而对于5’端和3’末端均存在防污染接头特有序列的一对读段则均减除读段的5’端和3’末端的2-3bp的碱基。

在一个实施方案中，将两种减除防污染接头序列后的一对读段分别放在后续进行分析的读段1和读段2的fastq文件中；而对于不满足条件1的一对读段，则将这对读段分别放入遗弃的读段1和读段2的fastq文件中用于后续检查分析。

在一个实施方案中，方法包括判断防污染接头类型，在分析的过程中给出判断的接头序列和主要接头类型占比；如果该主要接头类型占比小于90％认为该样本受到了其他样本的污染，而停止后面的分析步骤；如果该主要接头类型占比大于90％但小于98％，认为该样本受到其他样本的轻微污染，在去除含有污染接头的读段后可进行后面的分析步骤；如果该主要接头类型占比大于98％，则认为该样本未被污染，直接进行后面的分析步骤。

在一个实施方案中，最终的分析结果中统计原始数据文件的总读段对数，进行了接头剪切的读段对数，最终保留的读段对数和遗弃的读段对数。

附图说明

图1：现有技术的建库操作流程示意图。片段化的cfDNA末端会有损伤以及中间会有断口或切口；经过组合酶的处理，DNA得以修复，3’末端被加上A；连接酶连接不含Index的短接头于DNA两端(虚线红框标记)；高保真酶进行预文库(全基因组)扩增；预文库接头被通用短接头阻断引物(B1-B4)封闭，目标区域特异性含生物素(红色)探针与预文库杂交；与生物素探针结合的预文库被链霉亲和素磁珠(蓝色)捕获并特异性洗脱；洗脱后的捕获文库经PCR加上双端样本标签以实现多重样本测序。

图2：本发明的建库流程与现有技术的建库流程基本相同，只是替换了接头与预文库扩增的引物(虚线红框标记)。片段化的cfDNA末端会有损伤以及中间会有断口或切口；经过组合酶的处理，DNA得以修复，3’末端被加上A；连接酶连接4种的防污染接头(ACA1/2/3/4)于DNA两端；利用PPS引物和高保真酶进行预文库(全基因组)扩增；预文库接头被通用短接头阻断引物(B1-B4)封闭，目标区域特异性含生物素(红色)探针与预文库杂交；与生物素探针结合的预文库被链霉亲和素磁珠(蓝色)捕获并特异性洗脱；洗脱后的捕获文库经PCR加上双端样本标签以实现多重样本测序。

图3：防污染接头结构示意图：添加的第一个碱基位置上，有4种碱基，每种碱基占比均为25％；添加的第二个碱基位置上，有3种碱基，T碱基占比50％，剩下的2种碱基各占25％；添加的第三个碱基位置上，ACA1和ACA2添加的固定碱基已结束，该位置上的碱基是***片段的第一个碱基N，4种碱基随机分布，ACA3和ACA4在该位置上仍然是固定碱基T，占比50％。

图4A-4C：建库实验QC结果统计。

图5A-5D：测序生信QC结果统计。

图6A-6D：建库实验QC结果统计。

图7A-7D：测序生信QC结果统计。

图8：现有技术中分析流程处理NA12878-ACA3样本中EGFR A750del突变位点检出结果。

图9：新设计分析流程处理NA12878-ACA3样本中EGFR A750del位点检出结果。

图10：防污染接头去除的生信分析算法思维导图。

具体实施方式

下文结合具体实施例进一步阐明本发明，应当理解，以下实施例仅仅用于说明本发明而不用于限制本发明的保护范围。

实施例

方法和材料

本实验采用广州燃石医学检验所HS建库试剂盒以及人多基因突变检测捕获探针(朗克)进行，具体实验操作步骤如下。

1.末端修复，3’端加A(Ends-repair&3’A-tailing)

1.1试剂准备：打开HS建库试剂盒，取出ERA缓冲液置于冰上融化。

1.2程序设置：设置PCR仪(BioRad S1000or ABI Veriti)，定义程序名为“ERA”，条件如下：

设置85℃热盖，60μL反应体积；

20℃ 30分钟(注意：加盖)

65℃ 30分钟(注意：加盖)

4℃ 保持

1.3操作流程

·在1.5mL管中加入无核酸酶水将30ng样本稀释到50μL。涡旋振荡1.5mL管，短暂离心3秒。

·将1.5mL管中的50μL样本用单通道移液器P100转移到48孔板中，样本加至管底，做好记录标记样本顺序(48孔板置于PCR管架上，备用)。

·在一个新的1.5mL Eppendorf LoBind管中配制末端修复和加A反应体系混匀液(表1，冰上配制)。按1：1.1的比例配制混匀液。

·手指轻弹1.5mL管3-5次，上下颠倒混匀2-3次，短暂离心3秒。

·用单通道移液器P200取相应的混匀液均匀分到八连管管底(根据样本量酌情处理)，避免产生气泡，短暂离心3秒。

·使用八通道移液器P10从八连管中吸取10μL混匀液至48孔板(已含50μL样本)中，上下吹打10次，贴膜(micro seal B)，刮板至紧密贴合。确保管内无气泡，短暂离心，1000rpm，3s。

表1：末端修复和3’端加A

·48孔板放入PCR仪Bio-Rad S1000或ABI Veriti中，使用程序“ERA”，(85℃热盖，20℃30分钟，65℃30分钟，4℃保持)。2小时内进入下一步。

2.接头连接(Adapter Ligation)

2.1试剂准备：准备表2中的试剂。

表2：接头连接与纯化试剂

2.2程序设置：设置(BioRad S1000或ABI Veriti)定义程序名为“LIG”

设置85℃热盖，50/100μl反应体积

20℃15分钟(注意：不加盖)

70℃10分钟(注意：加盖)

4℃保持

2.3操作步骤

·将完成反应程序”ERA“的48孔板从PCR仪取出，置于PCR管架上，短暂离心，1000rpm，3s，小心撕去封膜(micro seal B)，冰上备用。

·冰上1.5mL Eppendorf LoBind管中配制接头连接反应体系混匀液(表3)，按1：1.1的比例配制混匀液。

·手指轻弹1.5mL管3-5次，上下颠倒混匀2-3次，短暂离心3s。

·用单通道移液器P200取相应的混匀液到八连管中，短暂离心3s。

·使用八通道移液器P200从八连管中吸取50μL混匀液至上述48孔板中，八通道移液器P200调至量程80μL，轻柔上下吹打10次，贴膜(micro seal B)刮板至紧密贴合。管内无气泡，短暂离心1000rpm，3s。

表3：连接反应设置

·48孔板置于PCR仪(S1000或ABI Veriti)上，运行程序“LIG”

20℃15分钟，(85℃热盖，不加盖)

70℃10分钟，4℃保持(85℃热盖，加盖)

3.接头连接产物纯化(Ligation Purification)

3.1实验准备

·将SPB磁珠置于室温至少30分钟。

·按照每个文库400μL配制新鲜的75％乙醇。

3.2操作步骤

·将SPB磁珠上下颠倒2-3次，在VORTEX最大转速下混匀5-10s，使其均一化。

·在用单通道移液器P1000吸取相应的SPB磁珠到加样槽中。每个样本需要88μLSPB磁珠(样本:磁珠＝1：0.8)。

·从PCR仪上取出48孔板，置与PCR管架上，短暂离心1000rpm，3s，小心撕去贴膜。用八通道移液器P200从加样槽中吸取88μL SPB磁珠(样本:磁珠＝1：0.8)加入到48孔板中。八通道移液器P200调至量程180μL，上下吹打10次。

·48孔板贴膜(micro seal B)，离心1000rpm，3s。置于室温10min。

·离心1000rpm，1min，弃膜。

·48孔板置于磁力架(Thermo Scientific，AM10027)上，待溶液澄清(约3-5min)。

·使用八通道移液器P200调至最大量程，小心弃上清。注意：勿碰磁珠。

·48孔板仍置于磁力架上。采用移八通道移液器P200在样本孔中加入200μL新鲜配制的75％乙醇(加样槽中)。

·在磁力架上来回水平移动48孔板使磁珠充分浸洗。待1min，弃乙醇。

·重复以上两步骤一次。

·将48孔板静置在磁力架上1min，使用八通道移液器P20除净残留乙醇。

·将48孔板从磁力架上取下，置于PCR板架上室温2min，使磁珠干燥。以磁珠表面不反光，磁珠表面无裂痕为基准。

·在加样槽中加入适量的EB洗脱液。

·用八通道移液器P200在48孔板中加入28μL EB溶液，盖上八连管盖，vortex 5s左右，短暂离心1000rpm，3s。

·将48孔板置于室温孵育2min。

·甩板机离心1000rpm，1min。

·小心撕去八连管盖，将48孔板置于磁力架2min，直至溶液澄清。

·用八通道移液器P20移取上清27.5μL至新的48孔板中，尽量吸取所有上清。

4.预文库扩增(Pre-Enrichment Amplification)

4.1试剂准备:参见表4

表4：PCR和PCR纯化准备

4.2程序设置：”PRE”如表5：

表5：Pre-Enrichment PCR设置

4.3操作流程

·按照表6准备反应体系混匀液(冰上配制)，手指轻弹3-5次，上下颠倒混匀2-3次，短暂离心3s，均匀分装至八连管中。

·在“接头连接产物纯化”这一步中的48孔板中(含27.5μL纯化产物)，每孔用八通道移液器P200加入22.5μL反应混匀液，八通道移液器P200调至量程40μL，轻柔上下吹打10次。

·贴膜(micro seal B)刮板至紧密贴合。管内无气泡，离心1000rpm 3s。

·置于PCR仪上运行“PRE”程序。

表6：Pre-Enrichment PCR体系

5.扩增的预文库纯化(pre-enrichment library purification)

5.1试剂准备

·将SPB磁珠置于室温至少30分钟。

·按照每个文库400μL配制新鲜的75％乙醇。

5.2操作步骤

·在用单通道移液器P1000吸取相应的SPB磁珠到加样槽中。每个样本加入60μLSPB磁珠(样本:磁珠＝1：1.2)。

·从PCR仪上取出48孔板，短暂离心1000rpm，3s，小心撕去贴膜。用八通道移液器P200从加样槽中吸取60μL SPB磁珠(样本:磁珠＝1：1.2)加入到48孔板中，八通道移液器P200调至量程80μL，轻柔上下吹打10次。

·48孔板贴膜。置于室温10min。

·离心1000rpm，1min。

·弃膜，48孔板置于磁力架上，待溶液澄清(约3-5min)。

·使用八通道移液器P200调至最大量程，小心弃上清。勿碰磁珠。

·48孔板仍置于磁力架上。采用移八通道移液器P200在样本孔中加入200μL新鲜配制的75％乙醇。

·重复以上两步骤一次。

·在加样槽中加入适量的无核酸酶水(此步不能用EB)。

·用八通道移液器P200在48孔板中加入16μL无核酸酶水，盖上八连管盖，vortex5s左右，短暂离心1000rpm 3s。

·将48孔板置于室温孵育2min。

·离心1000rpm，1min。

·弃膜，将48孔板置于磁力架2min，直至溶液澄清。

·用八通道移液器P10移取上清15.5μL至新的48孔板中，勿吸磁珠。

6.纯化的预文库质检(pre-Library QC)

·预文库稀释。取1μL纯化后的预文库到一个新的48孔板中，加入11μL ddH2O，P20移液器上下吹打混匀10次(1μL用作Qubit定量，10μL用作下一步的Labchip或2100QC)

7.预文库杂交(Pre-library Hybridization)

7.1试剂准备：准备表7中的试剂。

7.2程序设置：设置(BioRad S1000)定义程序名为“HYB”

ο95℃ 5min(105℃热盖)

ο65℃ 保持

表7：杂交试剂准备

7.3操作步骤

·取15μL预文库，按照标记置于48孔板中，每个孔加入4Μl BLM阻断剂(标记为组分A)，吹打8～10次混匀，盖上八连管盖。

·按表8冰上配制组分B，然后分装到新的八连管中，盖上八连管盖。

表8：组分B体系配比

·

·将组分A置于PCR仪，运行程序“HYB”(95℃，5min；65℃，hold)。

·PCR仪温度降至65℃时，将组分B置于PCR仪上孵育，盖上热盖。

·2min后，打开PCR仪热盖及相应八连管盖，用移液器迅速将组分B转移到组分A中，每次更换枪头，吹打5次混匀(保持48孔板在PCR仪上)，盖紧八连管盖，贴膜以防止蒸干，盖上PCR仪盖，65℃孵育16-24h(105℃热盖)。

7.捕获洗脱(Binding and Wash)7.1试剂准备

表9：SCB磁珠捕获试剂准备

·准备表9中的试剂。

·设置恒温金属浴温度65℃。

·SCB磁珠室温平衡30分钟以上。

7.2程序设置：设置(BioRad S1000或ABI)定义程序名为“WASH 2”：

ο65℃Hold(70℃热盖)

7.3操作步骤

·按600μL/样本的用量将WB清洗液2置于15mL锥形管内金属加热器65℃孵育。

·取出SCB/T1磁珠，上下颠倒混匀5次，涡旋混匀10秒，室温静置半小时以上，涡旋混匀10秒,按样品数分装入1.5ml LoBind管，每个样品需25μL，每个Lobind管最多放150μL。静置于16孔磁力架上3分钟，弃上清。

·每25μL原始磁珠加150μL BWS结合缓冲液，涡旋混匀3秒，短暂离心，静置磁力架上3分钟，弃上清。

·重复以上步骤2次，共3次。

·重悬SCB(每25μL原始磁珠加150μL BWS结合缓冲液)，加入加样槽中，排枪分装150μL/管于48孔板(含28μL杂交液)中，轻柔上下吹打10次，贴膜，短暂离心1000rpm，3s。

·置于恒温混匀仪上，室温300rpm孵育30min。

·甩板机短暂离心1000rpm1min后，弃膜，置于磁力架上静置5min，弃上清。

·将适量WB清洗液1倒入加样槽中。使用P200排枪每个样本孔中加150μL WB清洗液1，移液器调到140μL上下吹打混匀10次。贴膜。置于超级恒温混匀仪上孵育，室温300rpm孵育15min。

·在孵育过程中手动转移2μLG1、H2、G3孔位阴性样本邻近的阳性样本至阴性样本中，模拟实验中的样本交叉污染发生。

·离心1000rpm，1min，弃膜，置于磁力架上静置5分钟，八通道移液器P200吸取并弃掉上清，再用八通道移液器P20吸去残留液体。

·将已预热至65℃的适量WB清洗液2倒入加样槽中。使用P200排枪每个样本孔中加150μLWB清洗液2，移液器调到130μL，轻柔上下吹打混匀10次。贴膜，放置PCR仪上65℃孵育10min(注意：热盖开启70℃)。

·离心1000rpm1min，撕膜，置于磁力架上，八通道移液器P200吸取并弃掉上清，再用八通道移液器P20吸去残留液体。

·重复WB清洗液2操作三次，共四次。

·离心1000rpm 1min，置于磁力架上，使用P20排枪吸取残留液体。

·在加样槽中加入适量EB。

·样本孔中加20μL EB，盖上8联管盖，vortex 3s，重悬SCB磁珠，短暂离心1000rpm，3s。

8.终文库制备(Post Capture Library Amplification)

8.1试剂准备：准备中的试剂(按表10)。

表10：1捕获文库扩增及纯化

8.2程序设置：设置PCR仪(BioRad S1000)程序“POST”如表11。

表11：Post PCR设置

8.3操作步骤

·取一块新的48孔板，按如表12所示的PostPCR体系，分别加入HiFi ready mix，Index。具体操作如下：

a.将HIFI ready mix和Index置于冰盒上解冻，准备新的48孔板，将解冻后的Index(排序。

c.用单通道移液器P2.5加入5μl Index到对应孔的管壁，盖上八连管盖，确认都加入后，甩板机离心1000rpm 3s。

d.准备新的八连管，加入适量的HIFI readymix。

e.用八通道移液器P200从八连管中吸取25μl HIFI readymix加入到48孔板中。

·将之前7.3步骤完成后得到的48孔板中20ml SCB结合文库的磁珠用八通道移液器P200小心吸取到已加Index和Mix的48孔板中，轻柔上下吹打10次混匀，贴膜。

·在PCR仪上运行“POST”程序。

表12：Post PCR体系

9.终文库纯化(Post PCR Library Purification)

9.1实验准备

·将SPB磁珠置于室温至少30分钟。

·按照每个文库400μL配制新鲜的75％乙醇。

9.2操作步骤

·从PCR上取出PCR产物(含SCB磁珠)置于离心1000rpm，1min，静置在磁力架上5min，用八通道移液器P20吸取50μL上清加入到新的48孔板中。

·用单通道移液器P1000吸取相应的SPB磁珠到加样槽中。每个样本加入50μL SPB磁珠(样本:磁珠＝1：1)。

·用八通道移液器P200从加样槽中吸取50μL SPB磁珠(样本:磁珠＝1：1)加入到48孔板(含50μL去掉SCB磁珠的PCR产物)中。八通道移液器P200调至量程80μL，轻柔上下吹打10次。

·48孔板贴膜。置于室温10min。

·离心1000rpm，1min。

·弃膜，48孔板置于磁力架上，待溶液澄清(约3-5min)。

·使用八通道移液器P200调至最大量程，弃上清。勿碰磁珠。

·48孔板仍置于磁力架上。采用八通道移液器P200在样本孔中加入200μL新鲜配制的75％乙醇。

·重复以上两步骤一次。

·在加样槽中加入适量的EB。

·用八通道移液器P20在48孔板中加入20μL EB，盖上八连管盖，vortex 5s左右，短暂离心1000rpm，3s。

·将48孔板置于室温孵育2min。

·离心1000rpm，1min。

·小心弃掉八连管盖，将48孔板置于磁力架2min，直至溶液澄清。

·用八通道移液器P10移取上清19.5μL至新的48孔板中，勿吸磁珠。

10.纯化后的文库浓度检测(Library QC)

·取2μL纯化后的文库到一个新的1.5mL EP管中，加入10μL ddH2O(1μL用作Qubit定量，其余11μL用作下一步的Labchip或2100QC)

11.纯化后文库片段大小检测(Library QC)

11.1试剂准备

·Labchip HS或Agilent 2100HS试剂及芯片室温静置30分钟以上。

11.2实验步骤

·检测试剂：Labchip HS Kit

·检测方法：将3.14.3步骤中的10μL文库用作此步的检测(参考《Labchip检测标准操作流程》或《Agilent 2100HS DNA Kit检测标准操作流程》)。

生信分析流程：

本发明在样本建库过程中，引入了新的防污染接头和特殊排列方式，保证每个样本在实验流程早期带上特异性标签，即使在实验后期发生交叉污染，也可以在生信分析流程中得到检出并剔除掉那些外来的污染信息，降低甚至消除污染风险。

对原始下机的fastq文件的每一对读段进行检查，同时输出交叉污染统计结果，保证了后续分析步骤所用数据的准确性；并且在防污染接头分析的过程中将那些存在防污染接头的读段进行剪切，将不存在防污染接头序列的读段重新输入到新的文件中，通过该方法便于后续的查找验证。

本发明的创新性是，软件会自行判断原始下机fastq文件的防污染接头类型，进而执行后续分析过程或通过污染的接头类型判断样品的污染源，简化了软件运行时的操作步骤。

本发明的实现原理包括设计，实验方法，算法

测序数据在下机之后生成bcl格式文件，之后通过bcl2fastq软件将bcl格式文件转换成为fastq格式文件，但bcl2fastq软件会执行测序读段的强行剪除，即读段序列3’末端只要出现预设的接头序列5’端存在的碱基就会被剪除，所以下机后的读段不等长，长度小于等于测序仪运行的cycle数；但如果在建库时部分insert序列过短，其长度小于测序的读段长度，则读段序列生成后其3’末端会测到接头序列。所以根据上述特性，设计防污染接头的去除方法。

该试剂盒设计的防污染接头都是修改试剂盒中的接头(ADM)，即在ADM(A7)的5’端加上2-3bp的碱基，而在ADM(A5)的3’端加上与5’端成反向互补序列的长度相等的碱基。所以在测序数据下机后，满足如下两个条件的第1条，而不满足第2条则认为这一对读段其5’端存在防污染接头，3’末端不存在防污染接头序列，而如下两个条件均满足则认为这一对读段其5’端和3’末端均存在防污染接头序列；

条件1:具有相同序列ID的一对读段，读段1序列和读段2序列5’端的前2-3bp的碱基分别与防污染接头(A7)的5’端前2-3bp的碱基计算哈明距离，数值加和小于等于1；

条件2:在满足条件1的情况下，且这一对读段等长，其中一条读段的反向互补序列与另外一条读段的正向序列近似相同(即二者序列字符其计算的哈明距离值小于或等于软件默认设定的数值4时被认为是近似相同)；

在后续的分析过程中，对于只5’端存在防污染接头特有序列的一对读段，只减除读段的5’端的2-3bp的碱基；而对于5’端和3’末端均存在防污染接头特有序列的一对读段则均减除读段的5’端和3’末端的2-3bp的碱基。将上述两种减除防污染接头特有序列后的一对读段分别放在后续进行分析的读段1和读段2的fastq文件中；而对于不满足条件1的一对读段则将这对读段分别放入遗弃的读段1和读段2的fastq文件中用于后续检查分析。

软件自行判断原始下机fastq文件的防污染接头类型，在分析的过程中中会给出判断的接头序列和主要接头类型占比。如果该主要接头类型占比小于90％认为该样本受到了其他样本的污染，而停止后面的分析步骤；如果该主要接头类型占比大于90％但小于98％，认为该样本受到其他样本的轻微污染，在去除含有污染接头的读段后可进行后面的分析步骤；如果该主要接头类型占比大于98％，则认为该样本未被污染，直接进行后面的分析步骤。在最终的分析结果中，会统计出原始数据文件的总读段对数，进行了接头剪切的读段对数，最终保留的读段对数和遗弃的读段对数。

接头和引物信息

ADM接头如下：

ADM-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T

ADM-A7：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC；

ACA1、ACA2、ACA3和ACA4接头如下：

ACA1-A5：

ACA1-A7：

ACA2-A5：

ACA2-A7：

ACA3-A5：

ACA3-A7：

ACA4-A5：

ACA4-A7：

本申请优化的PPS引物(PPO Plus引物)：

Oligo PPS 1.1：ACACTCTTTCCCTACACGACGCTC；

Oligo PPS 2.1：GTGACTGGAGTTCAGACGTGTGC。

阻断引物：

实施例1：对防污染ACA接头及PPO Plus引物在实验过程中的建库效率进行验证。

以NA12878基因组DNA(Coriell Institute，货号NA12878)(阴性样本)作为实验样本，按照Covaris M220打断仪195s打断后30ng投入量进行建库杂交捕获，建库过程中采用新设计ACA接头及PPS引物，并以ADM接头及PPO引物(序列(5’→3’)：ACACTCTTTCCCTACACGACG；GTGACTGGAGTTCAGACGTG)作为实验对照，验证新设计接头引物建库效率，ACA及ADM接头排列见下表。DNA文库制备过程如上文所述。

表13.实验接头排列方式示意图

	1	2
			A	ACA1	ACA1
B	ACA2	ACA2
			C	ACA3	ACA3
D	ACA4	ACA4
			E	ADM	ADM

实验结果

1)建库QC结果

本实施例中建库QC指标关注于预文库产量、终文库产量以及终文库平均片段大小，具体实验QC结果及统计请见下表，统计信息见图4A-4C。

表14：建库实验QC结果

样本名称	孔位	预文库产量(ng)	终文库产量(ng)	终文库片段大小(bp)
					NA12878-ACA1	A1	4893.7	103.9	459
NA12878-ACA1	A2	4972.8	114.5	461
					NA12878-ACA2	B1	3949.2	76.2	449
NA12878-ACA2	B2	4006.1	81.2	440
					NA12878-ACA3	C1	3889.0	79.0	448
NA12878-ACA3	C2	4041.8	83.4	454
					NA12878-ACA4	D1	4707.9	99.5	450
NA12878-ACA4	D2	4491.4	83.0	446
					NA12878-ADM	E1	3907.2	91.4	456
NA12878-ADM	E2	3751.9	88.4	457

结果显示新设计ACA接头引物及PPO Plus引物在预文库产量方面均达到或者优于原始ADM接头及PPO引物建库标准。以相应1μg预文库投入量进行杂交捕获，实验组所得到的终文库产量、平均片段大小与对照组均有相近表现。

由此说明新设计ACA接头及PPS引物能够满足正常建库QC指标且在一定程度上优于原始ADM接头及PPO引物建库效率。

2)测序生信QC结果

本实施例中靶向捕获实验生信QC指标主要关注于***片段大小、捕获效率、建库复杂度以及覆盖均一度(0.2X mean)，具体生信QC结果请见下表，统计信息见图5A-5D。

表15：测序生信QC结果

样本名称	孔位	***片段大小(bp)	建库复杂度	捕获效率	覆盖均一度(0.2X mean)
						NA12878-ACA1	A1	225	0.902	0.815	0.991
NA12878-ACA1	A2	222	0.905	0.817	0.99
						NA12878-ACA2	B1	229	0.886	0.817	0.991
NA12878-ACA2	B2	219	0.893	0.826	0.99
						NA12878-ACA3	C1	223	0.885	0.823	0.991
NA12878-ACA3	C2	223	0.886	0.821	0.991
						NA12878-ACA4	D1	223	0.902	0.824	0.991
NA12878-ACA4	D2	218	0.905	0.828	0.991
						NA12878-ADM	E1	226	0.903	0.819	0.991
NA12878-ADM	E2	226	0.901	0.822	0.991

结果显示新设计ACA接头及PPO Plus引物在***片段大小、捕获效率、建库复杂度以及覆盖均一度(0.2X mean)等生信指标方面，与原始ADM接头及PPO引物相比较无明显差异。

由此说明新设计ACA接头及PPO Plus引物能够满足正常测序生信QC分析要求并且与原始中ADM接头及PPO引物保持一致分析效果。

实施例2：对本发明的接头在实验过程中的防污染能力进行验证。

实验设计

以NA12878基因组DNA作为阴性样本，以HCC827细胞系DNA(细胞系购自ATCC，DNA用来自天根，货号DP304的抽提试剂盒提取)作为阳性样本进行实验(HCC827细胞系突变信息：EGFR E746-A750del，AF＝83.4％，EGFR CNV＝37)，两种样本均按照Covaris M220打断仪195s打断后30ng投入量进行建库杂交捕获，样本按照棋盘法进行排列，具体排列见下表16。

表16：实验样本排列方式示意图

备注：N代表NA12878(阴性样本)；H代表HCC827(阳性样本)

建库过程中采用新设计ACA接头，并以原始ADM接头作为实验对照(接头具体排列见下表17)，完成预文库后各取1μg预文库投入量进行杂交捕获，在捕获过程中手动向G1、H2、G3孔位的阴性样本中引入邻近孔位阳性样本模拟交叉污染发生，验证新设计ACA接头防污染能力。

表17：实验接头排列方式示意图

实验结果

1)建库QC结果

本发明中建库QC指标关注于预文库产量、终文库产量以及终文库平均片段大小，具体实验QC结果及统计请见下表18，统计信息请见图6A-6D。

表18：建库实验QC结果

样本名称	孔位	预文库产量(ng)	终文库产量(ng)	终文库片段大小(bp)
					NA12878-ACA1	A1	2412	91.2	425
HCC827-ACA2	B1	2001.6	220.2	430
					NA12878-ACA3	C1	1742.4	46.02	416
HCC827-ACA4	D1	2390.4	198	420
					NA12878-ACA1	E1	2800.8	81	429
HCC827-ACA2	F1	1756.8	138.6	418
					NA12878-ACA3	G1	2203.2	71.4	423
HCC827-ACA4	H1	2545.2	248.4	431
					HCC827-ACA3	A2	1530	172.8	431
NA12878-ACA4	B2	2124	68.4	415
					HCC827-ACA1	C2	2260.8	211.2	426
NA12878-ACA2	D2	2174.4	70.2	416
					HCC827-ACA3	E2	2095.2	187.2	424
NA12878-ACA4	F2	1598.4	55.8	427
					HCC827-ACA1	G2	2422.8	250.8	426
NA12878-ACA2	H2	2088	84	425
					NA12878-ACA1	A3	2221.2	104.4	430
HCC827-ACA2	B3	1947.6	159	421
					NA12878-ACA3	C3	1598.4	43.32	410
HCC827-ACA4	D3	2199.6	199.2	416
					NA12878-ACA1	E3	1728	90	418
HCC827-ACA2	F3	2926.8	117	423
					NA12878-ACA3	G3	2397.6	79.2	419
HCC827-ACA4	H3	2520	241.2	432
					HCC827-ADM	A4	2754	278.4	426
NA12878-ADM	B4	2930.4	79.8	394
					HCC827-ADM	C4	2685.6	229.8	400
NA12878-ADM	D4	2671.2	86.4	402
					HCC827-ADM	E4	2980.8	235.2	420
NA12878-ADM	F4	2563.2	76.2	406
					HCC827-ADM	G4	2750.4	217.8	403
NA12878-ADM	H4	2145.6	68.4	412

结果显示防污染ACA接头在预文库产量方面均低于原始ADM接头建库标准。以相应预文库投入杂交捕获，实验组与对照组中不同类型样本所得到的终文库产量相近，但终文库平均片段大小与对照组相比略有增大。

由此说明防污染ACA接头能够满足正常建库QC指标，但在建库效果上较原始ADM接头有所降低。

测序生信QC结果

本实施例中靶向捕获实验生信QC指标主要关注于***片段大小、捕获效率、建库复杂度以及覆盖均一度(0.2X mean)，具体生信QC结果请见下表19，统计信息见图7A-7D。

表19：测序生信QC结果

样本名称	孔位	***片段大小(bp)	建库复杂度	捕获效率	覆盖均一度(0.2X mean)
						NA12878-ACA1	A1	165	0.394	0.731	0.992
HCC827-ACA2	B1	160	0.396	0.844	0.992
						NA12878-ACA3	C1	162	0.33	0.749	0.992
HCC827-ACA4	D1	159	0.407	0.851	0.991
						NA12878-ACA1	E1	177	0.384	0.749	0.991
HCC827-ACA2	F1	161	0.382	0.856	0.992
						NA12878-ACA3	G1	180	0.374	0.77	0.99
HCC827-ACA4	H1	167	0.424	0.845	0.99
						HCC827-ACA3	A2	161	0.385	0.85	0.992
NA12878-ACA4	B2	163	0.391	0.759	0.991
						HCC827-ACA1	C2	161	0.388	0.856	0.991
NA12878-ACA2	D2	165	0.369	0.77	0.991
						HCC827-ACA3	E2	166	0.462	0.854	0.989
NA12878-ACA4	F2	165	0.31	0.764	0.992
						HCC827-ACA1	G2	163	0.428	0.858	0.991
NA12878-ACA2	H2	166	0.41	0.793	0.991
						NA12878-ACA1	A3	163	0.388	0.749	0.992
HCC827-ACA2	B3	160	0.413	0.87	0.99
						NA12878-ACA3	C3	162	0.293	0.774	0.99
HCC827-ACA4	D3	160	0.464	0.866	0.99
						NA12878-ACA1	E3	164	0.389	0.783	0.992
HCC827-ACA2	F3	161	0.338	0.865	0.991
						NA12878-ACA3	G3	165	0.35	0.804	0.989
HCC827-ACA4	H3	163	0.453	0.853	0.99
						HCC827-ADM	A4	163	0.429	0.843	0.992
NA12878-ADM	B4	167	0.393	0.758	0.989
						HCC827-ADM	C4	166	0.397	0.874	0.987
NA12878-ADM	D4	185	0.357	0.768	0.991
						HCC827-ADM	E4	173	0.402	0.861	0.988
NA12878-ADM	F4	162	0.358	0.774	0.991
						HCC827-ADM	G4	162	0.459	0.866	0.99
NA12878-ADM	H4	168	0.376	0.774	0.99

结果显示防污染ACA接头搭配原PPO引物在***片段大小、捕获效率、建库复杂度以及覆盖均一度(0.2X mean)等生信QC指标方面，与原始ADM接头及PPO引物相比较无明显差异。由此说明防污染ACA接头能够满足正常测序生信QC分析要求并且与原始ADM接头保持一致效果。

突变检测结果

采用常规数据分析流程对数据进行处理，检测到了在捕获过程中手动向阴性样本中引入的邻近孔位阳性样本突变位点，详细结果如表20所示，其中NA12878-ACA3样本中EGFR A750del突变位点检出结果如图8所示。

在图8中G1、H2、G3孔位NA12878为实验设计中手动模拟引入交叉污染发生，C3孔位NA12878为实验中意外发生真实交叉污染现象。

表20：常规分析流程处理突变检测结果

样本名称	孔位	EGFR:cn_amp	EGFR:p.E746_A750del
				HCC827-ACA2	B1	30.58	80.10％
HCC827-ACA4	D1	29.97	80.42％
				HCC827-ACA2	F1	32.70	80.47％
NA12878-ACA3	G1	5.82	31.60％
				HCC827-ACA4	H1	30.59	80.77％
HCC827-ACA3	A2	34.30	81.31％
				HCC827-ACA1	C2	30.70	79.83％
HCC827-ACA3	E2	32.14	81.01％
				HCC827-ACA1	G2	29.02	80.50％
NA12878-ACA2	H2	6.98	41.54％
				HCC827-ACA2	B3	31.15	80.06％
NA12878-ACA3	C3		0.34％
				HCC827-ACA4	D3	31.92	81.00％
HCC827-ACA2	F3	32.83	80.44％
				NA12878-ACA3	G3	7.54	39.52％
HCC827-ACA4	H3	30.26	80.70％
				HCC827-ADM	A4	37.13	82.65％
HCC827-ADM	C4	37.12	82.30％
				HCC827-ADM	E4	36.28	83.44％
HCC827-ADM	G4	37.50	82.35％

重新对数据使用新设计分析流程进行突变检测，成功去除了阴性样本中手动引入以及真实发生的阳性样本突变，结果如表21所示，其中NA12878-ACA3样本中EGFR A750del位点检出结果如图8所示。

表21.新设计分析流程处理突变检测结果

样本名称	孔位	EGFR:cn_amp	EGFR:p.E746_A750del
				HCC827-ACA2	B1	37.17	81.87％
HCC827-ACA4	D1	36.16	82.32％
				HCC827-ACA2	F1	38.83	82.18％
HCC827-ACA4	H1	36.92	82.48％
				HCC827-ACA3	A2	39.52	82.56％
HCC827-ACA1	C2	37.79	81.42％
				HCC827-ACA3	E2	38.48	82.26％
HCC827-ACA1	G2	36.41	82.07％
				HCC827-ACA2	B3	37.71	81.85％
HCC827-ACA4	D3	38.09	82.77％
				HCC827-ACA2	F3	38.74	82.29％
HCC827-ACA4	H3	36.54	82.51％
				HCC827-ADM	A4	37.13	82.65％
HCC827-ADM	C4	37.12	82.30％
				HCC827-ADM	E4	36.28	83.44％
HCC827-ADM	G4	37.5	82.35％

对处理后数据进行统计分析，使用防污染ACA接头匹配新设计生信分析流程有效避免了实验中手动引入以及真实发生阳性样本对突变检测的干扰，详细统计结果如下表22所示。

表22：新设计分析流程处理后突变位点统计结果

由此说明新设计防污染ACA接头匹配相应生信分析流程能够有效地避免在实验过程中外界因素所造成的样本间交叉污染情况发生所导致的错误实验数据产生，从而进一步提高实验准确性。

生物信息学分析举例说明

在测序数据下机后，满足如下两个条件的第1条，而不满足第2条则认为这一对读段其5’端存在防污染接头，3’末端不存在防污染接头序列，而如下两个条件均满足则认为这一对读段其5’端和3’末端均存在防污染接头序列；

表23：一对读段分别去除5’端和3’末端的防污染接头序列

注：在表23中，5’端防污染接头序列为“AT”，3’末端防污染接头序列为“AT”，在表格中读段1序列和读段2序列等长，读段1序列和读段2序列互为反向互补，所以在分析过程中去除这一对读段的5’端和3’末端防污染接头序列“AT”。

表24：一对读段分别去除5’端的防污染接头序列

注：在表24中，5’端防污染接头序列为“TCT”，3’末端防污染接头序列为“AGA”，在表格中读段1序列和读段2序列不等长，读段2序列的反向互补序列与读段1序列不同，所以在分析过程中去除这一对读段的5’端防污染接头序列“TCT”。

表25：一对读段不去除5’端序列并被丢弃

注：在表25中，5’端防污染接头序列为“GT”，在表格中读段1序列和读段2序列的5’端前2bp碱基分别为“GG”和“GA”，该序列均与防污染接头序列“GT”相差一个碱基不同，“GG”和“GA”分别与“GT”计算哈明距离数值加和为2大于1，所以这一对读段被去除。

序列表

<110> 广州燃石医学检验所有限公司

<120> DNA文库的制备方法和对DNA文库的分析方法

<130> C19P4066

<160> 10

<170> PatentIn version 3.5

<210> 1

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> ACA1-A5

<400> 1

acactctttc cctacacgac gctcttccga tctat 35

<210> 2

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> ACA1-A7

<400> 2

tagatcggaa gagcacacgt ctgaactcca gtcac 35

<210> 3

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> ACA2-A5

<400> 3

acactctttc cctacacgac gctcttccga tctgt 35

<210> 4

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> ACA2-A7

<400> 4

cagatcggaa gagcacacgt ctgaactcca gtcac 35

<210> 5

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> ACA3-A5

<400> 5

acactctttc cctacacgac gctcttccga tcttct 36

<210> 6

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> ACA3-A7

<400> 6

gaagatcgga agagcacacg tctgaactcc agtcac 36

<210> 7

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> ACA4-A5

<400> 7

acactctttc cctacacgac gctcttccga tctcat 36

<210> 8

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> ACA4-A7

<400> 8

tgagatcgga agagcacacg tctgaactcc agtcac 36

<210> 9

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> Oligo PPS 1.1

<400> 9

acactctttc cctacacgac gctc 24

<210> 10

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> Oligo PPS 2.1

<400> 10

gtgactggag ttcagacgtg tgc 23

Claims

1.DNA文库的制备方法，其包括预文库的制备过程，其中所述的预文库制备过程依次包括DNA的制备，末端修复和3’端加A，用防污染接头进行接头连接，接头连接产物纯化，预文库扩增，扩增的预文库纯化，

其中所述防污染接头与用于制备DNA文库的原始接头相比在3’端或5’端额外添加2-3个碱基，形成多对防污染接头；

其中所述防污染接头的设计满足以下标准：

(1) 从原始接头的3’端开始添加碱基，并保证添加的最后一个碱基是T碱基；

(2) 在原始接头的3’端开始的第一个碱基位置分别添加A，T，G和C以保证测序中信号均衡，不影响碱基检出判断；

(3) 在原始接头的3’端开始添加的每个位置，同一种碱基占比不能超过50%；

根据上述(1)-(3)，获得多个第一防污染接头；

且

(4) 原始接头在5’端添加与多个第一防污染接头中除末位T以外的额外碱基反向互补的碱基并且5’端第一位碱基被磷酸化，从而获得多个第二防污染接头。

2.根据权利要求1的制备方法，其中所述多对防污染接头是4对、5对、6对、7对或8对防污染接头。

3.根据权利要求1的制备方法，其中在原始接头的3’端添加的第一个近端碱基位置上，有4种碱基，每种碱基占比均为25%；在原始接头3’端添加的第二个近端碱基位置上，有3种碱基，T碱基占比50%，剩下的2种碱基各占25%；在原始接头3’或5’端添加的第三个近端碱基位置上，两个接头在该位置为无碱基，另外两个接头是固定碱基T，占比50%。

4.根据权利要求1的制备方法，其中所述原始接头的序列是：

ADM-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATC*T

ADM-A7：/5Phos/GATCGGAAGAGCACACGTCTGAACTCCAGTCAC；

*代表硫代修饰；/5Phos/代表磷酸化修饰。

5.根据权利要求1的制备方法，其中对于多个第一防污染接头，所述额外的碱基序列是A*T、G*T、TC*T和CA*T；且对于多个第二防污染接头，所述额外的碱基是TA、CA、GAA和TGA，*代表硫代修饰；/5Phos/代表磷酸化修饰。

6.根据权利要求5的制备方法，其中所述防污染接头的序列是：

ACA1-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATCTA*T

ACA1-A7：/5Phos/TAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC

ACA2-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATCTG*T

ACA2-A7：/5Phos/CAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC

ACA3-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATCTTC*T

ACA3-A7：/5Phos/GAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC

ACA4-A5：ACACTCTTTCCCTACACGACGCTCTTCCGATCTCA*T

ACA4-A7：/5Phos/TGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC

7.根据权利要求2的制备方法，其中测试样品排列为使得所述每种防污染接头与相邻位置或周围位置的防污染接头不同。

8.根据权利要求1的制备方法，其中使用以下引物PPS进行预文库扩增：

Oligo PPS 1.1：ACACTCTTTCCCTACACGACGCTC；

Oligo PPS 2.1：GTGACTGGAGTTCAGACGTGTGC。

9.根据权利要求6的制备方法，其中测试样品排列为使得防污染接头的基本排列单位为：

ACA1 ACA3

ACA2 ACA4

ACA3 ACA1

ACA4 ACA2；

10.根据权利要求1-9中任一项中所述的防污染接头在制备用于DNA文库捕获的试剂盒中的用途。

11.根据权利要求10的防污染接头在制备用于DNA文库捕获的试剂盒中的用途，其中所述DNA文库为cfDNA文库、白细胞gDNA文库或组织来源的DNA文库。

12.对权利要求1-9中任一项所述的制备方法制备的DNA文库进行生物信息学分析的方法，其包括对DNA文库进行测序；对测序数据进行分析；满足如下两个条件的第1条，而不满足第2条则认为一对读段其5’端存在防污染接头，3’末端不存在防污染接头序列，而如下两个条件均满足，则认为一对读段其5’端和3’末端均存在防污染接头序列；

13.根据权利要求12的方法，其中在后续的分析过程中，对于只5’端存在防污染接头特有序列的一对读段，只减除读段的5’端的2-3bp的碱基；而对于5’端和3’末端均存在防污染接头特有序列的一对读段则均减除读段的5’端和3’末端的2-3bp的碱基。

14.根据权利要求13的方法，其中将两种减除防污染接头特有序列后的一对读段分别放在后续进行分析的读段1和读段2的fastq文件中；而对于不满足条件1的一对读段，则将这对读段分别放入遗弃的读段1和读段2的fastq文件中用于后续检查分析。

15.根据权利要求12的方法，其包括判断防污染接头类型，在分析的过程中给出判断的接头序列和主要接头类型占比；如果该主要接头类型占比小于90%认为该样本受到了其他样本的污染，而停止后面的分析步骤；如果该主要接头类型占比大于90%但小于98%，认为该样本受到其他样本的轻微污染，在去除含有污染接头的读段后可进行后面的分析步骤；如果该主要接头类型占比大于98%，则认为该样本未被污染，直接进行后面的分析步骤。

16.根据权利要求12的方法，其中最终的分析结果中统计原始数据文件的总读段对数，进行了接头剪切的读段对数，最终保留的读段对数和遗弃的读段对数。