CN113136422A

CN113136422A - 通过成组snp位点检测高通量测序样本污染的方法

Info

Publication number: CN113136422A
Application number: CN202010061621.6A
Authority: CN
Inventors: 王学良; 杨贵江; 鲁梅梅; 刘蕴奡
Original assignee: Beijing San Valley Technology Development Co ltd
Current assignee: Beijing San Valley Technology Development Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2021-07-20

Abstract

本发明提供了通过成组SNP位点的突变情况检测测序样本是否被污染的方法，成组SNP位点是指一组或更多组成组SNP位点，每一组成组SNP位点包括2个或更多个SNP位点，同一组成组SNP位点中各SNP位点之间的距离使得它们的位点数据会出现在同一条测序reads上。检测一个样本的测序结果中每一条reads上成组SNP位点的基因型情况，如果存在于不同reads上的成组SNP位点的基因型不同，则可以判定该样本中存在污染。

Description

通过成组SNP位点检测高通量测序样本污染的方法

技术领域

本发明涉及基因检测方法，特别是检测基因测序样本是否受到污染的方法。

资助

本发明受到国家重点研发计划资助，课题编号为2016YFC1000705。

背景技术

污染问题是实验室质控的关键，尤其是涉及高灵敏度的分子生物学实验，特别是含PCR过程的各种基因检测实验，包括高通量测序，PCR过程中高温形成的含DNA分子的气溶胶严重威胁着实验室环境，加上测序繁复的操作流程，从DNA提取到上机测序，多达30多步操作，每一步的失误的都可能带来实验污染及质控风险，如试剂污染、样本标记错误，DNA提取时污染，扩增污染，Barcode加入错误或记录错误，Barcode脱落或交换，机器残留污染等等，每一步出问题均可导致致命的错误，虽然通过建立标准的实验室，规范的管理制度，优化的实验流程可以一定程度减少发生，但由于步骤过多，实际仍然难以避免，特别是高灵敏度的实验，比如涉及游离DNA的高灵敏度检测，对微量污染即非常敏感。但目前没有完善的方法来发现污染是否发生，因此目前的高通量实验室结果的可靠性并没有足够的保障，仍然面临着严重的污染威胁。污染可能是无法避免的，但只要能发现污染发生，即可有效避免污染造成严重后果。因此对最终的结果数据分析质控是否发生污染是必要的途径，也是各测序实验室亟需的解决方案。

SNP主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。占所有已知多态性的90％以上。SNP在人类基因组中广泛存在，平均每500～1000个碱基对中就有1个，估计其总数可达300万个甚至更多。大量存在的SNP位点，使人们有机会发现与各种疾病，包括肿瘤相关的基因组突变；从实验操作来看，通过SNP发现疾病相关基因突变要比通过家系来得容易；有些SNP并不直接导致疾病基因的表达，但由于它与某些疾病基因相邻，而成为重要的标记。

发明内容

本发明提供了检测高通量测序中的样本污染的解决方案，通过检测在一条reads上的成组SNP位点的基因型，来判断样本是否存在污染。

因此，本发明涉及检测高通量测序样本DNA是否存在污染的方法，包括：

对样本DNA进行高通量测序，获得包含成组SNP位点的DNA片段的测序reads，其中每个reads包含一组成组SNP位点的核苷酸信息，一组成组SNP位点包括两个或更多个连锁SNP位点；

如果对于至少一组成组SNP位点，具有其核苷酸信息的reads中包含该成组SNP位点的两种不同基因型，且其中占比较低的基因型的占比在0.1％-25％之间，则判定所述样本DNA中存在污染。如本领域技术人员所知，此处以及本发明全文中所说的某种基因型的占比是指测序结果中具有该基因型测序信息的reads在所有具有该成组SNP位点测序信息的reads中的占比。

如果测序结果中没有出现上述情况，则不能判定所述样本DNA中是否存在污染。

在一些实施方案中，一组成组SNP位点中各连锁SNP位点之间的距离小于200bp，且一组成组SNP位点中各连锁SNP位点的MAF值近似，优选一组成组SNP位点中任意两个SNP位点的MAF值之差小于等于0.2。

在一些实施方案中，一组成组SNP位点包括2个或3个SNP位点。

在一些实施方案中，所述成组SNP位点包括1-200组成组SNP位点。

在一些实施方案中，所述成组SNP位点包括选自下表中的一组或更多组成组SNP位点：

在一些实施方案中，所述高通量测序包括：从样本DNA扩增含获得含有成组SNP位点的DNA片段并用该DNA片段进行建库和测序，其中每个DNA片段含有一组成组SNP位点。

在一些实施方案中，所述扩增包括使用与成组SNP位点包含的两个或更多个连锁SNP位点的5’侧翼序列和3’侧翼序列互补的引物并进行扩增。

在一些实施方案中，所述引物包括选自下表中的一对或更多对引物：

附图说明

图1是通过成组SNP检测样本污染的示意图。

图2显示了CDP panel的稳定性，其中横坐标为每条amplicon，纵坐标为均一化之后的覆盖度。

图3是混合样本1的测序结果。

图4是混合样本2的测序结果。

图5是混合样本3的测序结果。

图6是混合样本4的测序结果。

图7是混合样本5的测序结果。

图8是混合样本6的测序结果。

图9是混合样本7的测序结果。

图10是混合样本8的测序结果。

图11是混合样本9的测序结果。

图12是混合样本10的测序结果。

图13是混合样本11的测序结果。

图14是混合样本12的测序结果。

图15是混合样本13的测序结果。

图16是混合样本14的测序结果。

图17是混合样本15的测序结果。

图18是混合样本16的测序结果。

图19是混合样本17的测序结果。

图20是混合样本18的测序结果。

图21是混合样本19的测序结果。

图22是混合样本20的测序结果。

图23是混合样本21的测序结果。

具体实施方式

通过SNP位点的特点可以知道，除同卵双胞胎之外，不同样本之间的SNP位点都存在有基因差异，当不同的样本混合在一起时，通过高通量测序检测到的SNP位点的突变比例会根据样本混合比例发生改变。但由于测序过程中有测序错误，在发生低频污染时，单个位点的SNP位点难以区分测序错误和污染。因此，发明人提出成组SNP位点的概念，在SNP数据库中寻找一组位置相近的连锁SNP位点(包含两个或更多个连锁SNP位点)，使该组SNP位点能够出现在一条测序reads上，通过检测一条reads上成组SNP位点的基因型情况，可以有效判断高通量测序过程中出现的污染。

在高通量测序中，每测一个碱基会给出一个相应的质量值，这个质量值是衡量测序准确度的。碱基质量值是衡量测序质量的重要指标，质量值(Q)越高代表碱基被测错的概率(P)越小，其计算公式为Q＝-10lgP；质量值是Q20，则错误识别的概率是1％，即错误率1％，或者正确率是99％；质量值是Q30，则错误识别的概率是0.1％，即错误率0.1％，或者正确率是99.9％。目前常见的测序公司采用Q20与Q30作为标准，来表示测序质量；即单个碱基识别错误的概率最高为1％，而在同一条reads中2个SNP位点同时识别错误的概率为1％*1％＝0.01％。基于此，两个或更多个不同SNP位点同时测错的概率约为0.01％，因此，通过检测一条reads上成组SNP位点的基因型情况，可以有效判断测序过程中出现的污染，其原理如图1所示，图1为两个不同的样本按照0.1％的比例混合后的高通量测序检测结果。其中样本A的成组SNP位点基因型为纯合GA，AG突变比例为0％，样本B的成组SNP位点基因型为AG。将样本B与样本A按照0.1％的比例混合后测序发现，在污染样本中能够检测到大约0.1％(该测序结果中具体为0.14％)样本B的基因型AG。AG在同一条reads上出现定义为污染，在不同的reads中分别出现则为测序错误。

本发明所使用的术语“高通量测序”也被称为第二代测序，包括焦磷酸测序、合成测序及芯片测序。本领域技术人员熟知如何进行高通量测序，在高通量测序中，通常样本DNA会经过建库、测序、质控和数据处理，最终获得测序结果。通常，如果希望对样本DNA中特定区域的片段进行测序，可以先对该特定区域的片段进行扩增，然后再进行高通量测序。高通量测序可以有多种选择，例如可以是Illumina Hiseq/MiSeq测序和Ion Torrent测序，它们的操作流程和原理是本领域技术人员熟知的。高通量测序可用于检测与疾病相关联的基因突变，由此诊断疾病。

如本领域技术人员所理解的，高通量测序通常包括建库、测序、质控、数据处理等步骤。在进行测序之前，需要将目标序列分割成短DNA片段并进行建库，本发明中所使用的术语“reads”是本领域通用的术语，指测序中读出的每一个短DNA片段的序列信息。测序完成后通常会对获得的数据进行质控和数据处理，去除被认为不可信的reads数据，然后进行进一步的数据处理，获得最终测序结果。本发明的方法中，对样本DNA进行高通量测序获得的包含成组SNP位点的DNA片段的测序reads，可以是通过质控和数据处理已去除了不可信reads数据的reads。

进行高通量测序时，可以将样本DNA打断成短片段DNA，以对整个样本DNA进行全长测序，也可以选择对样本DNA上的一个或多个目标区域进行测序，在这种情况下，可以先扩增目标区域，再利用扩增获得的DNA序列进行建库。例如，当需要对疾病相关基因进行测序以检测其中的核苷酸突变时，可以先对这些疾病相关基因或者其中的感兴趣的突变位点所在区域进行扩增，使用扩增获得的DNA序列进行建库和测序。由于这些与疾病相关的核苷酸突变有可能与SNP重合，因此，考虑到这种情况，在本发明的一些实施方案中，本发明所使用的成组SNP选自目标区域之外(在对样本DNA上的一个或多个目标区域进行测序的情况下)，由此对成组SNP的检测与对目标区域的检测不会相互影响。

在本发明的一些实施方案中，在对样本DNA的目标区域进行测序的同时，对本发明所述的成组SNP进行测序，以判定样本DNA是否存在污染。在一些实施方案中，先扩增含有成组SNP位点的DNA片段，使得每个DNA片段含有一组成组SNP位点，使用该DNA片段进行建库、测序，测序获得的一条reads上包含一个DNA片段的核苷酸信息。

本发明所使用的术语“SNP”是指单核苷酸多态性(singlenucleotidepolymorphism)，是指在基因组水平上由单个核苷酸变异引起的DNA多态性。

本发明所使用的术语“成组SNP位点”是指两个或更多个距离相近的连锁SNP位点，这些SNP位点一起被用于判定高通量测序样品中是否存在污染。一组成组SNP位点包括两个或更多个连锁SNP位点，同一组成组SNP位点中各连锁SNP位点之间的距离足够接近，以使得它们的核苷酸数据会出现在同一条测序reads上。由于两个或更多个连锁SNP位点同时发生测序错误的概率非常小，因此可以检测一个样本的测序结果中每一条reads上成组SNP位点的基因型情况，如果存在于不同reads上的成组SNP位点的基因型不同，则可以判定该样本中存在污染。

每一组成组SNP位点中可以包括2个、3个、4个、5个或更多个连锁SNP位点。可以选择SNP位点，使得同一组成组SNP位点中各个连锁SNP位点之间的距离能够确保它们的位点数据会出现在同一条测序reads上。不同的测序方法以及不同的测序机器的reads长度可能有所不同，因此同一组成组SNP位点中各个SNP位点之间的距离可以根据所使用的测序方法和/或所使用的测序机器确定。在一个实施方案中，同一组成组SNP位点中各个SNP位点之间的距离可以是小于等于200bp，小于等于150bp或小于等于100bp。

如本领域技术人员所知，SNP位点通常是二等位，即具有两种天然存在的基因型。连锁SNP位点是指两个或更多个不同的SNP位点上特定核苷酸共同出现的频率远高于其他核苷酸共同出现的频率。两个或更多个连锁SNP位点的基因型是指在这些SNP位点上天然共同出现的核苷酸的组合，也可以称为天然基因型，两个或更多个连锁SNP位点的不同基因型是指在这些SNP位点上天然共同出现的核苷酸的不同组合。通常，两个或更多个连锁SNP位点具有两种基因型。例如，对于两个连锁SNP位点而言，如果其中第一个SNP位点上是A，则第二个SNP位点上为T，如果第一个SNP位点上为G，则第二个SNP位点上为C，即对于这两个SNP位点而言，A和T总是共同出现，G和C总是共同出现，在这种情况下，AT为这两个连锁SNP位点的一种基因型，GC为这两个连锁SNP位点的另一种基因型。本领域技术人员熟知如何确定两个或更多个SNP位点是否连锁，例如可以根据不同SNP位点的距离以及数据库中显示的SNP位点的序列信息判断。在一些实例中，例如，可以根据不同SNP位点的3种基因型频率或根据不同SNP的最小等位基因频率(MAF)判断其是否连锁。在一些实例中，如果不同SNP的3种基因型频率均近似，甚至基本上相同，则这些SNP是连锁的。在另一些实例中，如果不同SNP的最小等位基因频率(MAF)近似，甚至基本上相同，则这些SNP是连锁的。本发明中，基因型频率相似或最小等位基因频率(MAF)近似例如可以指基因型频率或最小等位基因频率的差值小于等于0.05，小于等于0.1，小于等于0.15，或小于等于0.2。

本发明中，所选择的各SNP位点优选是在群体中，例如人群中出现的频率为大约40％-60％，优选大约50％的SNP位点。

本发明中，为了更准确、高效、灵敏地定性判断样品DNA中是否存在污染，可以使用多组成组SNP位点，这是因为，由于样本DNA和污染DNA在某些成组SNP位点上的基因型可能是相同的，因此根据这些成组SNP位点的测序结果可能无法判定是否存在污染，如果使用多组成组SNP位点，由于不同样本之间的SNP位点存在有核苷酸差异的机率很高，样本DNA和污染DNA不太可能在所有成组SNP位点上的基因型都是相同的，此时，如果样本DNA存在污染，至少会反映在一些成组SNP位点的测序结果上，此时，只要根据多组成组SNP位点中的一部分成组SNP位点的测序结果符合判定条件，就能够判定样品DNA存在污染。所使用的成组SNP位点的组数越多，则检测污染的灵敏度越高，在一些实施方案中，可以使用至少1组成组SNP位点，至少2组成组SNP位点，至少3组成组SNP位点，至少4组成组SNP位点，至少5组成组SNP位点，至少10组成组SNP位点，至少15组成组SNP位点，至少20组成组SNP位点，至少25组成组SNP位点，至少30组成组SNP位点，至少35组成组SNP位点，至少40组成组SNP位点或更多组成组SNP位点。在一些实施方案中，可以使用1-200组成组SNP位点，2-150组成组SNP位点，5-100组成组SNP位点，10-50组成组SNP位点，20-40组成组SNP位点，30-40组成组SNP位点。

根据本发明，由于在两个SNP位点上同时产生测序错误的概率非常小，因此如果样本中存在污染，测序结果中会出现成组SNP位点的两种不同基因型，且其中占比较低的基因型的占比在0.1％-25％之间。测序结果中在成组SNP位点上也可能出现非天然存在的基因型的其它核苷酸组合，这通常属于测序错误等其它情况，且其占比必然非常低，因此可以忽略不计。

术语“占比”是指对于一组成组SNP位点来说，测序结果中某一种基因型的reads数占全部reads数的比例。通常而言，如果测序结果中出现成组SNP位点的两种不同基因型，占比较高的基因型来自于样本DNA，占比较低的基因型可能来自于污染DNA。当占比较低的基因型的占比在0.1％-25％之间时，有可能是纯合样本DNA被纯合DNA或杂合DNA污染，或者杂合样本DNA被纯合DNA污染，但无论是哪种情况，至少可以判断样本DNA中存在污染。当占比较低的基因型的占比低于0.1％时，由于占比过低，该核苷酸组合可能表示噪声或测序错误。当占比较低的基因型的占比高于25％时，虽然样本DNA有可能被污染，但也有可能属于样本DNA本身为杂合且不存在污染的情况，因而无法确定样本DNA是否存在污染。

本发明中样本DNA或污染DNA的“纯合”或“杂合”是对于成组SNP位点而言的。当样本DNA或污染DNA来自于染色DNA时，“纯合”是指两条同源基因上的所述成组SNP位点上是相同的核苷酸组合，“杂合”是指两条同源基因上的所述成组SNP位点上是不同的核苷酸组合。因此，本发明中，“纯合DNA”是指DNA(例如样本DNA或污染DNA)中包含的两条同源基因上的成组SNP位点上是相同的核苷酸组合，“杂合DNA”是指DNA(例如样本DNA或污染DNA)中包含的两条同源基因上的成组SNP位点上是不同的核苷酸组合。

本发明中的“样本”可以是任何DNA样本，可以是来自单个个体的样本，例如可以是来自于个体的血液、体液、器官、组织的样本，例如基因组DNA样本。

本发明中，如果没有特别说明，“基因型”指天然存在的基因型，或天然存在的两个或更多个连锁SNP位点上的核苷酸的组合。

如果没有特别说明，本发明所述的DNA序列均以5’至3’的方式显示。

本发明中，以“在……之间”描述数值范围时，表示包含端点值。

本发明中，所述方法是非诊断性的。

下面通过实施例，并结合附图，对本发明的技术方案作进一步详细的说明，但本发明不限于下面的实施例。

实施例1成组SNP位点的筛选

在NCBI的dbsnp数据库中选取距离相近(<200bp)，MAF值(MinorAlleleFrequency：最小等位基因频率，通常是指在给定人群中的不常见的等位基因发生频率)相近的SNP位点，从中筛选出成组SNP位点(如下述表1所示)，在thermo的ampliseqdesigner网站上设计污染质控panel——CDP panel，即用于扩增下表1所示的35组成组SNP位点的引物，理论上可用于区分1000万人，成本增加<2％。

表1 35组成组SNP位点信息

该表中起始位置和终止位置分别是扩增的DNA片段的起始位置和终止位置，Rs ID是SNP位点信息。表格中每一行显示一个扩增的DNA片段以及该片段中包含的SNP位点的信息，一个片段中包含一组成组SNP位点，通过对这些DNA片段的测序检测相应成组SNP位点的突变。

所设计的引物序列如下表2所示：

表2用于扩增表1中的DNA片段的引物CDP panel

其中各引物序列的方向为5’至3’。

实施例2测序文库制备方法

(一)实验准备

1、提前20min将DNA样品和Ion AmpliSeqTMLibrary Kit 2.0试剂盒及引物对从-20℃冰箱取出，放到冰盒上备用。

2、配置70％乙醇(现用现配)，预约PCR仪。

(二)实验操作

1、多重PCR扩增。

1)反应体系如下：

组分	加入试剂体积
		5×Ion AmpliSeq HiFi Master Mix(红盖)	4μl
表2所示引物对的混合物	10μl
		样本DNA	Xμl(10ng)
总体积	20μl

2)设置PCR反应条件：

注：PCR结束后，反应产物放4℃过夜或-20℃长期保存。

2、加2μl FuPa Reagent到20μl PCR产物中混匀，总体积2μl。

3、将加好FuPa Reagent的PCR样品管放置PCR仪上，按下面程序运行(总时间不超过1小时)：

温度	时间
		50℃	10min
55℃	10min
		60℃	20min
10℃	Hold

4、连接接头，按下表将试剂加入到上一步反应完的PCR管中：

组分	加入试剂体积
		7.5×Switch Solution	4μl
Barcode Adapter(不同样品要区分)	2μl
		DNA Ligase	2μl
样品	22μl
		总体积	30μl

5、将PCR管放入PCR仪中，按照下面表格设置程序：

温度	时间
		22℃	30min
72℃	10min
		10℃	Hold

注：反应产物可-20℃保存。

6、纯化

1)提前30min分装Agencourt AMPure XP，放置室温平衡。准备一个新的1.5ml离心管并标记样品名称。

2)待连接接头反应结束，将PCR产物从PCR仪中取出。向已标记好的1.5ml离心管加45μl(1.5Xsample volume)Agencourt AMPure XP，然后将PCR管中30μl反应液中吸入1.5ml管中并上下吹吐10次混匀，然后室温孵育5min。

3)室温孵育结束，把反应管放到磁力架上，2min后或直到观察溶液澄清后用枪吸掉上清保留沉淀。

4)加200μl新鲜配制的70％乙醇至1.5ml离心管中，在磁力架上向一个方向(顺时针或逆时针，不要把离心管从磁力架上拿出来)转动离心管清洗珠子，然后弃掉上清。

5)重复上步操作一次。(共用70％乙醇清洗两次)

6)70％乙醇清洗结束，短暂离心后放回磁力架上并用10μl枪吸掉残余的液体，室温干燥5min。干燥结束加20μl的ddH₂O，上下吹吐10次混匀，洗脱。

7)重新放回磁力架上2min，等溶液澄清后，转移上清到一个新的1.5ml管里，标注好文库名及Barcode编号。

7、文库浓度测量

纯化结束后，使用Qubit 2.0初步测定文库浓度。在管壁上标注文库的Qubit值。

1μl样品+199μl buffer mix＝200μl

8、文库定量(Q-PCR)

1)qPCR试剂盒中标准品E.coli DH10B Ion Control Library，梯度稀释为10X，100X，1000X标准品。

2)稀释文库(一般Qubit值＞2，可稀释5000倍；1～2可稀释1000倍，＜1可稀释500倍)。

3)配置每个样品qPCR反应体系

组分	加入试剂体积
		TaqMan qPCR MasterMix	5μl
TaqMan Quantitation Assay 20X	0.5μl
		标准品/Library	4.5μl
总体积	10μl

4)按照下表进行qPCR仪器设置(7500)。

5)结果记录。

9、文库稀释

按Q-PCR结果计算稀释因子，最终文库稀释至100pM，按照体积比1﹕1混合，混匀，取16μl加入184μl的ddH₂O准备上机。

实施例4样本污染检测

分别用已知SNP基因型的不同的DNA样本作为原样本和污染样本，按照50％、25％、10％、5％、1％、0.5％、0.1％的污染比例(质量比)混合原样本和污染样本，即混合样本中污染样本所占比例分别为50％、25％、10％、5％、1％、0.5％、0.1％，按照实施例2的方法制备测序文库，其中使用实施例1的CDP Panel进行多重PCR。

在Ion torrent平台上进行测序并进行质控，随后利用生物信息学软件Bwa和Samtools软件对质控合格后的数据进行比对，排序，去重，得到每条reads的位置信息和匹配情况，根据设计的成组SNP位点，判断每组SNP位点对应的每条reads的碱基情况，如果存在reads上的一对SNP位点的核苷酸都发生改变，且改变为污染样本相应位置上的核苷酸，则判定该条reads为污染。可通过分析所有reads的污染情况，统计每个SNP位点的污染比例，定性确定样本是否存在污染。

检测CDP panel中每条amplicon的稳定性，在Ion torrent平台上，使用CDP产品对28个样本进行测序，amplicons经过均一化分析后(公式为{amplicon reads/(总reads/总amplicon数目)}×10000，表示在测序深度10000×的基础上，每个amplicon所达到的覆盖度)，其覆盖度如图2所示。计算CV值，97％的amplicons CV值<15％，可证明产品的amplicon都能达到稳定的覆盖。

混合样本1的部分测序结果如图3所示，其中按照50％污染比例混合原样本和污染样本，原样本中rs2480410、rs2480411和rs2480412的成组SNP的基因型为纯合AAA/AAA，污染样本为杂合样本AAA/GGG，在结果中检测到占比为23.13％的含GGG的reads和76.87％的含AAA的reads

混合样本2的部分测序结果如图4所示，其中按照50％污染比例混合原样本和污染样本，原样本中rs7356204和rs13127080的成组SNP基因型为纯合GG/GG，污染样本为杂合样本GG/TT，在结果中检测到占比为22.99％的含TT的reads和77.01％的含GG的reads。

混合样本3的部分测序结果如图5所示，其中按照50％污染比例混合原样本和污染样本，原样本中rs10255374和rs10255378的成组SNP基因型为纯合CG/CG，污染样本为杂合样本CG/TT，在结果中检测到占比为27.31％的含TT的reads和72.69％的含CG的reads。

混合样本4的部分测序结果如图6所示，其中按照25％污染比例混合原样本和污染样本，原样本中rs10182006和rs10169673的成组SNP基因型为纯合CA/CA，污染样本为纯合样本TG/TG，在结果中检测到占比为26.31％的含TG的reads和73.69％的含CA的reads。

混合样本5的部分测序结果如图7所示，其中按照25％污染比例混合原样本和污染样本，原样本中rs2480410和rs2480411的成组SNP基因型为纯合AA/AA，污染样本为纯合样本GG/GG，在结果中检测到占比为23.13％的含GG的reads和76.87％的含AA的reads。

混合样本6的部分测序结果如图8所示，其中按照25％污染比例混合原样本和污染样本，原样本中rs692664和rs521230的成组SNP基因型为纯合AC/AC，污染样本为纯合样本GA/GA，在结果中检测到占比为26.06％的含GA的reads和73.94％的含AC的reads。

混合样本7的部分测序结果如图9所示，其中按照10％污染比例混合原样本和污染样本，原样本中rs7356204和rs13127080的成组SNP基因型为纯合GG/GG，污染样本为纯合样本TT/TT，在结果中检测到占比为9.87％的含TT的reads和90.13％的含GG的reads。

混合样本8的部分测序结果如图10所示，其中按照10％污染比例混合原样本和污染样本，原样本中rs36037993和rs34225419的成组SNP基因型为纯合GC/GC，污染样本为纯合样本AA/AA，在结果中检测到占比为10.75％的含AA的reads和89.25％的含GC的reads。

混合样本9的部分测序结果如图11所示，其中按照10％污染比例混合原样本和污染样本，原样本中rs35100128、rs34931487和rs34800460的成组SNP基因型为纯合AAT/AAT，污染样本为纯合样本CGA/CGA，在结果中检测到占比为12.83％的含CGA的reads和87.17％的含AAT的reads。

混合样本10的部分测序结果如图12所示，其中按照5％污染比例混合原样本和污染样本，原样本中rs36037993和rs34225419的成组SNP基因型为纯合GC/GC，污染样本为纯合样本AA/AA，在结果中检测到占比为6.48％的含AA的reads和93.52％的含GC的reads。

混合样本11的部分测序结果如图13所示，其中按照5％污染比例混合原样本和污染样本，原样本中rs35100128、rs34931487和rs34800460的成组SNP基因型为纯合AAT/AAT，污染样本为纯合样本CGA/CGA，在结果中检测到占比为5.53％的含CGA的reads和94.47％的含AAT的reads。

混合样本12的部分测序结果如图14所示，其中按照5％污染比例混合原样本和污染样本，原样本中rs1119076和rs1119077的成组SNP基因型为纯合GA/GA，污染样本为纯合样本AG/AG，在结果中检测到占比为3.22％的含AG的reads和96.78％的含GA的reads。

混合样本13的部分测序结果如图15所示，其中按照1％污染比例混合原样本和污染样本，原样本中rs10906939和rs10906940的成组SNP基因型为纯合CT/CT，污染样本为纯合样本GG/GG，在结果中检测到占比为2.22％的含GG的reads和97.78％的含CT的reads。

混合样本14的部分测序结果如图16所示，其中按照1％污染比例混合原样本和污染样本，原样本中rs2798375和rs2798374的成组SNP基因型为纯合TG/TG，污染样本为纯合样本AA/AA，在结果中检测到占比为1.29％的含AA的reads和98.71％的含TG的reads。

混合样本15的部分测序结果如图17所示，其中按照1％污染比例混合原样本和污染样本，原样本中rs7356204和rs13127080的成组SNP基因型为纯合GG/GG，污染样本为纯合样本TT/GG，在结果中检测到占比为1.17％的含TT的reads和98.83％的含CT的reads。

混合样本16的部分测序结果如图18所示，其中按照0.5％污染比例混合原样本和污染样本，原样本中rs2798375和rs2798374的成组SNP基因型为纯合TG/TG，污染样本为纯合样本AA/AA，在结果中检测到占比为1.05％的含AA的reads和98.95％含TG的reads。

混合样本17的部分测序结果如图19所示，其中按照0.5％污染比例混合原样本和污染样本，原样本中rs10255374和rs10255378的成组SNP基因型为纯合TT/TT，污染样本为纯合样本CG/CG，在结果中检测到占比为1.05％的含CG的reads和98.95％的含TT的reads。

混合样本18的部分测序结果如图20所示，其中按照0.5％污染比例混合原样本和污染样本，原样本中rs937327和rs937326的成组SNP基因型为纯合CA/CA，污染样本为纯合样本TG/TG，在结果中检测到占比为0.45％的含TG的reads和99.55％的含CA的reads。

混合样本19的部分测序结果如图21所示，其中按照0.1％污染比例混合原样本和污染样本，原样本中rs10906939和rs10906940的成组SNP基因型为纯合CT/CT，污染样本为纯合样本GG/GG，在结果中检测到占比为0.10％的含GG的reads和99.90％的含CT的reads。

混合样本20的部分测序结果如图22所示，其中按照0.1％污染比例混合原样本和污染样本，原样本中rs2798375和rs2798374的成组SNP基因型为纯合TG/TG，污染样本为纯合样本AA/AA，在结果中检测到占比为0.16％的含AA的reads和99.84％的含TG的reads。

混合样本21的部分测序结果如图23所示，其中按照0.1％污染比例混合原样本和污染样本，原样本中rs7626312和rs7618641的成组SNP基因型为纯合GG/GG，污染样本为纯合样本AC/AC，在结果中检测到占比为0.10％的含AC的reads和99.90％的含GG的reads。

本发明的实施方式并不限于上述实施例所述，在不偏离本发明的精神和范围的情况下，本领域普通技术人员可以在形式和细节上对本发明做出各种改变和改进，而这些均被认为落入了本发明的保护范围。

Claims

1.检测高通量测序样本DNA是否存在污染的方法，包括：

当对于至少一组成组SNP位点，具有其核苷酸信息的reads中包含该成组SNP位点的两种不同基因型，且其中占比较低的基因型的占比在0.1％-25％之间时，则判定所述样本DNA中存在污染。

2.根据权利要求1所述的方法，其中一组成组SNP位点中各连锁SNP位点之间的距离小于200bp，且其MAF值之差小于等于0.2。

3.根据权利要求1或2所述的方法，其中一组成组SNP位点包括2个或3个SNP位点。

4.根据权利要求1-3任一项所述的方法，其中所述成组SNP位点包括1-200组成组SNP位点。

5.根据权利要求1-4任一项所述的方法，其中所述成组SNP位点包括选自下表中的一组或更多组成组SNP位点：

6.根据权利要求1-5任一项所述的方法，其中所述高通量测序包括：从样本DNA扩增含获得含有成组SNP位点的DNA片段并用该DNA片段进行建库和测序，其中每个DNA片段含有一组成组SNP位点。

7.根据权利要求1-6任一项所述的方法，其中所述扩增包括使用与成组SNP位点包含的两个或更多个连锁SNP位点的5’侧翼序列和3’侧翼序列互补的引物并进行扩增。

8.根据权利要求7的方法，其中所述引物包括选自下表中的一对或更多对引物：