CN111304299A

CN111304299A - 一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法

Info

Publication number: CN111304299A
Application number: CN201911270317.6A
Authority: CN
Inventors: 郑乔松; 师晓; 谭达; 李乐; 李光宇; 焦宇辰; 王思振
Original assignee: Genetron Health Beijing Co ltd
Current assignee: Genetron Health Beijing Co ltd
Priority date: 2019-12-11
Filing date: 2019-12-11
Publication date: 2020-06-19
Anticipated expiration: 2039-12-11
Also published as: CN111304299B

Abstract

本发明公开了一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法。本发明首先提供了用于检测常染色体拷贝数变异的引物组合，包括：Barcode引物、上游引物、下游外引物和下游内引物。本发明进一步公开了检测常染色体拷贝数变异的方法。本发明以逆转座子区域为扩增特定目标区域，通过设计有限的一到几对引物就可以覆盖这些区域对全基因组进行富集，就可以真正的反应不同染色体各区域的拷贝数水平，结合一步法构建扩增子文库，杜绝样本污染，使得本发明检测常染色体拷贝数变异具有操作简单、高灵敏度、高准确性以及低成本的特点，可真正实现染色体拷贝数检测方法在实际检测中的应用。

Description

一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法

技术领域

本发明涉及生物技术领域。具体涉及一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法。

背景技术

研究表明肿瘤的发生与原癌基因的活化以及抑癌基因的失活相关，而染色体拷贝数变异(CNV)在肿瘤的发生发展过程中也起着重要作用。染色体扩增或缺失都可能造成某些原癌基因的拷贝数升高或抑癌基因的拷贝数降低，影响相关基因的表达，染色体拷贝数变异在许多肿瘤中都会存在，是细胞癌变的一个重要指标。

现有的CNV检测技术有很多种，如荧光原位杂交技术、微阵列技术、SNP分型芯片、寡核苷酸微阵列分析技术、多重连接探针扩增技术以及基于新一代高通量测序平台的全基因组测序技术等等，尽管检测技术多种多样，但是由于检测区域有限、操作流程繁琐、稳定性差、灵敏度低、亦或是检测成本过高等原因，均限制了染色体拷贝数变异检测的应用推广。其中：基于二代测序的全基因组测序是最有效、最准确的检测染色体拷贝数变异的技术，可以真正的反应染色体不同区域的拷贝数水平，但是，该技术最大的问题就是检测的成本过高，而不能得到广泛的实际应用；单核苷酸多态性分型芯片，其通过比较待测DNA杂交信号强度和对照微阵列的杂交信号的平均值来分析拷贝数的差异，其存在的缺点是高密度芯片中SNP分布不均衡，重复区域和复杂区域的SNP探针密度相对较差，清晰度不够，检测效果差，同时该检测方式的成本较高；多重连接探针扩增技术，是根据靶位点设计相邻的两段探针，所有探针的5’端都连接有通用引物，通过比较待测样本和对照样本的差异实现拷贝数的检测，此方法可以快速灵敏的实现拷贝数的检测，但是该方法只能检测已知序列的位点，而且由于探针的特异性要求很高，并不适用于所有位点的检测；荧光原位杂交技术是经典细胞学检测技术，该检测技术也是针对于已知特定区域设计探针，可对目标区域进行定位和准确定量，但该方法检测的通量低，成本高，要求检测人员具有丰富的经验；而对于其它检测技术，如RT-qPCR，比较目的基因和参照基因进行相对定量，检测相对拷贝数丰度，但是受制于通量低，检测区域有限，在染色体拷贝数变异方面难以实际应用。

发明内容

本发明所要解决的技术问题为如何快速、低成本对常染色体拷贝数变异进行检测。

为解决上述技术问题，本发明首先提供了用于检测常染色体拷贝数变异的引物组合。

本发明用于检测常染色体拷贝数变异的引物组合包括：Barcode引物、上游引物、下游外引物和下游内引物；

所述Barcode引物包括依次排列的测序接头1、用于区分不同样本的barcode序列和通用序列1；

所述上游引物包括依次排列的通用序列1和上游特异性引物序列；

所述下游外引物包括依次排列的测序接头2和通用序列2；

所述下游内引物包括依次排列的通用序列2和下游特异性引物序列；

所述上游特异性引物序列和所述下游特异性引物序列为根据目的逆转座子区域设计，用于扩增逆转座子区域。

上述引物组合中，可选的，所述上游引物包括依次排列的通用序列1、分子标签和上游特异性引物序列；

进一步的，所述分子标签的长度为6-30nt，由M个随机碱基和至少一组特定碱基组成，所述M为大于等于6小于等于15的自然数；所述分子标签为用于标记PCR扩增所述目的逆转座子区域不同起始模板分子的序列，一个分子标签对应一个起始模板分子。

所述分子标签序列中，所述特定碱基设置于随机碱基中；设置例如，1组或2组；所述每组特定碱基由1-5个碱基组成，例如，3个或4个。在一次文库构建过程中，所述分子标签序列中除特定碱基的位置和组成固定外，随机碱基的碱基类别(A、T、G、C)随意选择。

上述引物组合中，所述barcode序列的长度为6-12nt、GC含量为30-70％、无明显二级结构。

上述引物组合中，所述测序接头1和所述测序接头2为根据不同测序平台选择对应的测序接头，进一步，可选的，所述测序平台为Illumina平台，所述测序接头1和所述测序接头2分别为P5和P7；可选的，所述测序平台为Ion Torrent平台，所述测序接头1和所述测序接头2分别为A和P。

上述引物组合中，所述通用序列1和通用序列2的长度均为15-25nt。所述Barcode引物的下游、上游引物的上游包含通用序列1，可通过通用序列1桥接Barcode引物和上游引物，使得Barcode引物可以扩增上述上游引物的扩增产物；所述下游外引物的下游和下游内引物的上游包含通用序列2，可通过通用序列2桥接下游外引物和下游内引物，使得下游外引物可以扩增上述下游内引物的扩增产物。

在本发明一个具体的实施方式中，所述通用序列1的序列为：TCTGTACGGTGACAAGGCG(SEQ ID No.3)；通用序列2的序列为：CTATGGGCAGTCGGTGAT(SEQ IDNo.4)。

在本发明中，所述逆转座子可根据实际情况进行确定，例如可以为Line-1；当所述逆转座子区域为Line-1，对应的上游特异性引物序列和下游特异性引物序列可以分别为5′-ACACAGGGAGGGGAAC-3′(SEQ ID No.1)和5′-TGCCATGGTGGTTTGC-3′(SEQ ID No.2)(包括但不限于这两条引物序列)。

上述引物组合中，适用的样本的取样样品可以为尿沉渣细胞提取的基因组DNA、离体的肿瘤组织提取的基因组DNA。

本发明还提供了一种用于检测常染色体拷贝数变异的试剂盒，包含上述引物组合。

上述试剂盒中，还包括数据处理***。

上述试剂盒中，所述数据处理***可以进行数据分析，判断染色体拷贝数的变异情况。

本发明还提供了上述引物组合或上述试剂盒在检测常染色体拷贝数变异的应用。

本发明也提供了一种检测常染色体拷贝数变异的方法，包括如下步骤：

构建基准集和训练集；其中，所述基准集包括若干健康人，所述训练集包括若干阳性样本和若干阴性样本；

利用上述引物组合或上述试剂盒构建基准集、训练集和待测样本的扩增子文库；

将扩增子文库进行测序，根据测序结果进行数据分析，判断待测样本是否发生染色体拷贝数变异。

上述方法中，所述数据分析的方法包括：

将基准集的测序结果进行预处理，得到扩增子的位置及其测序深度数据，并构建基准数据集；

将训练集和待测样本的测序结果进行预处理，以基准数据集为对照，得到训练集和待测样本分别与其交集的扩增子及其测序深度数据，根据测序深度数据得到训练集和待测样本的各个染色体臂水平上的Zscore，根据训练集中阳性样本和阴性样本在每个染色体臂上的Zscore值的分布差异，划定阳性阈值区间，然后用阳性阈值区间判断待测样本是否发生染色体拷贝数变异。

上述方法中，所述预处理的方法包括：与参考基因组进行比对、过滤或数据量归一化处理中的至少一种。

上述方法中，所述基准数据集的构建方法包括：将基准集扩增文库中各个扩增子的测序深度取log2值后，取平均值和标准差；

上述方法中，所述平均值的计算方法为：例如，基准集扩增文库中第i个扩增子的测序深度取log2值后的平均值(μi)，计算公式如下：

其中xi为正常样本的扩增子文库中第i个扩增子的测序深度取log2值；n为基准集样本的总个数；

上述方法中，所述标准差的计算方法为：对于基准集的扩增子文库中每个扩增子的测序深度取log2值后的标准差(σ)，计算公式如下：

其中xi为基准集的扩增子文库中第i个扩增子的测序深度取log2值；

为基准集的扩增子文库中所有扩增子的测序深度取log2值后的平均值；n为基准集样本的总个数；

上述方法中，所述训练集和待测样本的每个染色体臂水平上的Zscore计算公式为：

其中，假设单个染色体臂上的扩增子为(μ1...μ1)，Zj为每个待测样本或每个训练集样本的扩增子文库中第j个染色体臂的Zscore值，μ_i为基准集的扩增子文库中第i个扩增子的测序深度取log2值后的平均值，σ_i为基准集的扩增子文库中第i个扩增子的测序深度取log2值后的标准差，1为第j个染色体臂上的扩增子的个数。

上述方法中，所述基准集和训练集中的阴性样本均来源于健康人，所述健康人是指和阳性样本相对，临床诊断为非癌的人。

上述方法中，所述训练集中的阴性样本可以作为基准集。

上述方法中，训练集的总样本数大于等于30，基准集的总样本数大于等于10。

本发明检测常染色体拷贝数变异的方法具有如下优点：

1、高稳定性和灵敏性：以逆转座子区域为扩增特定目标区域，通过设计有限的一到几对引物就可以覆盖这些区域对全基因组进行富集，可以真正的反应不同染色体各区域的拷贝数水平，准确性接近WGS的水平；

2、高准确性：逆转座子区域对基因组范围的良好覆盖度以及一步法构建扩增子文库杜绝样本污染，可以实现对肿瘤纯度低至1％水平的染色体拷贝数的精确定量；

3、检测成本低：用一步法构建扩增子文库、超低数据量(400Mbp/样本)的NGS测序，总体检测成本要比全基因组测序低至少一个数量级；

4、操作简单：只需要进行简单的普通PCR、磁珠纯化及Qubit定量即可完成文库构建，对操作人员要求极低，后续搭配自动化上机测序流程；

5、检测周期短：一步法快速建库加NGS测序，最快可以在3天内得到染色体拷贝数检测结果。

附图说明

图1为文库构建完成后Agilent 2200 TapeStation Systems检测得到的PCR产物分布图，横坐标为片段长度，纵坐标为信号强度(FU)，lower峰为25bp位置marker，upper峰为1500bp位置marker。

图2为不同测序深度时扩增子在基因组上覆盖的区域大小。

图3为不同测序深度下的扩增子个数；横坐标为测序数据量，纵坐标为扩增子个数。

图4为测序数据量为400M以上时，各染色体上的平均扩增子个数。

图5为***片段(去掉测序接头、barcode序列和分子标签序列的扩增产物)长度的密度分布图。

具体实施方式

以下的实施例便于更好地理解本发明，但并不限定本发明。下述实施例中所使用的实验方法如无特殊说明，均为常规方法。下述实施例中所用的材料、试剂等，如无特殊说明，均可从商业途径得到。

实施例1常染色拷贝数变异的检测的建立

一、引物组合的设计合成

根据目的逆转座子区域设计引物组合，包括如下引物组合：

Barcode引物(F1)：测序接头1+用于区分不同样本的barcode序列+通用序列1；

上游引物(F2)：通用序列1+分子标签序列+上游特异性引物序列；

可选的，上游引物(F2)为：通用序列1+上游特异性引物序列；

下游外引物(R1)：测序接头2+通用序列2；

下游内引物(R2)：通用序列2+下游特异性引物序列；

所述分子标签序列中，所述特定碱基设置于随机碱基中；设置例如，1组、2组和3组；所述每组特定碱基由1-5个碱基组成，例如，3个或4个。在一次文库构建过程中，所述分子标签序列中除特定碱基的位置和组成固定外，随机碱基的碱基类别(A、T、G、C)随意选择。

一种barcode序列对应一个待测样本，所述barcode序列为用于区分不同待测样本的序列；可以根据待检测样本的多少设计barcode序列的数量；barcode序列长度均为6-12nt，GC含量为30-70％，无明显二级结构等；

所述上游特异性引物序列和下游特异性引物序列是根据目的逆转座子区域设计的，所述上游特异性引物序列与目的逆转座子区域的上游特异性结合，下游特异性引物序列与目的逆转座子区域的下游特异性结合。例如，当逆转座子序列为Line-1时，上游特异性引物序列可以为5′-ACACAGGGAGGGGAAC-3′(SEQ ID No.1)，下游特异性引物序列可以为5′-TGCCATGGTGGTTTGC-3′(SEQ ID No.2)。

通用序列1和通用序列2为核苷酸序列不同的通用序列，其长度为15-25nt，该序列可根据需要变化，例如，通用序列1可以为TCTGTACGGTGACAAGGCG(SEQ ID No.3)；通用序列2可以为CTATGGGCAGTCGGTGAT(SEQ ID No.4)。

测序接头1和测序接头2为核苷酸序列不同的测序接头，为测序所需的接头序列，根据测序平台确定：

如果测序平台为Illumina平台，测序接头1和测序接头2分别为P5和P7。

如果测序平台为Ion Torrent平台，测序接头1和测序接头2分别为A(CCATCTCATCCCTGCGTGTCTCCGACTCAG)和P(CCTCTCTATGGGCAGTCGGTGAT)。

二、扩增子文库的构建方法：

1、构建基准集和训练集，提取待检样本、基准集样本、训练集样本的基因组DNA；将F1、F2、R1及R2引物加相同体积的水溶解，备用。

2、用各样本的Barcode引物和引物mix(F2、R2、R1按照1∶1∶5的体积比配制)对gDNA进行PCR扩增，向0.2ml的八连排管或96孔板中，依次加入如下表1所示的试剂：

表1 PCR试剂

PCR扩增体系中，Barcode引物F1、上游引物F2、下游外引物R1和下游内引物R2的摩尔比如下：F1∶R1∶F2∶R2的摩尔比＝5∶2∶1∶1。

3、在PCR仪(PCR仪使用Applied bio-system的2720Thermal Cycler)上，运行如下表2所示程序，获得PCR反应液。

表2 PCR反应程序

4、用移液枪吸取PCR反应液1倍体积的Agencourt AMPure XP Kit(BECKMANCOULTER，A63882)进行纯化回收PCR产物，即完成对照样本、正常样本和待测样本的扩增子文库的构建。

具体纯化步骤如下：

1)提前30分钟取出Agencourt AMPure XP Kit，充分涡旋后，室温静置。

2)PCR反应结束后，将磁珠再次充分涡旋，向体系中加入24μl磁珠，反复吹打5次以上或充分涡旋，室温静置5分钟。

3)将EP管转移至置于磁力架上，静置5分钟至溶液澄清后，用移液枪小心除去上清，注意不要触碰磁珠。

4)每管加入100μl新鲜配置的80％乙醇溶液，EP管置于磁力架上缓慢旋转2圈，静置5m，弃去上清。

5)重复步骤4)步一次。

6)将EP管打开，室温静置，使液体挥发干净，以磁珠表面无光泽为准，注意不要过分干燥磁珠。

7)从磁力架上取下EP管，加入30μl PCR级纯化水，涡旋混匀后，室温静置10分钟。

8)将上步的EP管置于磁力架上2分钟或直至溶液澄清后，用移液枪在远离磁石的一面小心吸取上清液，注意不要触碰磁珠，即得纯化的PCR产物。

至此，扩增子文库构建完成。

5、测序、比对、过滤和数据归一化处理

将上述获得的扩增子文库，进行测序，例如，使用Proton或者Illumina。

比对：将测序结果数据与参考基因组进行序列比对(例如，使用比对软件bwa0.7.10)，得到训练集、基准集和待测样本的的扩增子文库中各个扩增子在参考基因组上的位置信息和测序深度，并过滤掉在任一个样本里没有覆盖的扩增子。

根据对比对结果，进行过滤，所述过滤的条件为：

1)扩增子长度小于60bp的去除；

2)扩增子测序深度在任意一个样本中的深度小于5X但在其他任何一个样本的深度大于50X的去除；

3)统计所有扩增子在所有待检样本中的测序深度分布方差，去除方差最高2％的扩增子；

4)使用分位数归一化，消除实验批次、样本间的噪音，后针对短片段可引起扩增偏差的问题进行了降噪，即根据扩增子测序深度密度分布去除了可引入偏差的部分扩增子。

可选的，对基准集、训练集和待测样本的扩增子的测序深度均做数据归一化处理，以抵消因起始数据量引起的扩增子的测序深度偏差。例如，以基准集样本为例，归一化方法具体为：计算所有基准集样本的扩增子的测序深度的平均值，再用每个样本扩增子的测序深度除以该平均值得到该样本相对于所有基准集样本的扩增子的测序深度的倍数关系，接着将该样本的扩增子的测序深度除以该倍数关系即为归一化之后的测序深度。

6、计算基准集的扩增子文库进行数据归一化处理后的各个扩增子的测序深度取log2值后的平均值和标准差作为训练集和待测样本的对照基准。

对于基准集的扩增子文库中第i个扩增子的测序深度取log2值后的平均值(μi)，计算公式如下：

其中xi为基准集的扩增子文库中第i个扩增子的测序深度取log2值；n为基准集样本的总个数；

对于基准集的扩增子文库中每个扩增子的测序深度取log2值后的标准差(σ)，计算公式如下：

为基准集的扩增子文库中所有扩增子的测序深度取log2值后的平均值；n为基准集的样本总个数；

7、CNV阳性信号阈值的划定和待测样本是否发生CNV的判断

分别将训练集和待测样本的扩增子文库中进行数据量归一化处理后的扩增子与基准集的扩增子取交集，作为计算待测样本和训练集CNV的扩增子。

其中，对于训练集或待测样本的扩增子文库中第i个扩增子的Zscore，计算公式如下：

其中，Ri为每个待测样本或每个训练集样本的扩增子文库中第i个扩增子的Zscore值，Depth_i为每个待测样本或每个训练集样本的扩增子文库中第i个扩增子的测序深度取log2值，μ_i为基准集样本的扩增子文库中第i个扩增子的测序深度的取log2值后的平均值，σ_i为训练集样本的扩增子文库中第i个扩增子的测序深度取log2值后的标准差。

根据上述扩增子的Zscore的计算方法，对于每个训练集样本或每个待测样本的单个染色体臂水平上的Zscore的计算方法，假设存在于某一个染色体臂上的扩增子为μ1...μl，得到的染色体臂水平上的Zscore的计算公式如下：

其中Zj为每个待测样本或每个训练集样本的第j个染色体臂的Zscore值，μ_i为基准集样本的扩增子文库中第i个扩增子的测序深度取log2值后的平均值，σ_i为基准集样本的扩增子文库中第i个扩增子的测序深度取log2值后的标准差，1为第j个染色体臂上的扩增子的个数。

按照训练集中阳性和阴性样本的扩增子文库中单个染色体臂水平上的Zscore值的分布差异，划定阳性阈值区间。该阳性阈值区间用于判定是否发生CNV，并且可以根据阳性阈值区间进一步判定CNV的种类，例如是扩增还是缺失。阳性阈值区间的选择根据训练集中阳性和阴性样本的Zscore值进行选择，例如可以选择以阳性或阴性样本在99.5％或者更高检出时确定的阳性阈值区间。

根据阳性阈值区间和待测样本的扩增子文库中各个染色体臂水平上的Zscore值判断是否发生了CNV，当单个染色体臂水平上Zscore值在对应染色体臂的阳性阈值区间时，说明没有发生CNV；当单个染色体臂水平上Zscore值不在对应染色体臂的阳性阈值区间时，说明发生了CNV，当Zscore值大于阳性阈值区间的上限时，则CNV的类型为扩增；当Zscore值小于阳性阈值区间的下限时，则CNV的类型为缺失。

实施例2膀胱癌尿沉渣中基因组DNA的常染色拷贝数变异的检测

1、扩增子文库的构建

1)设计引物

所述成套引物为：

Barcode引物(F1)：测序接头1+barcode序列+通用序列1；

上游引物(F2)：通用序列1+分子标签+上游特异性引物序列；

下游外引物(R1)：测序接头2+通用序列2；

下游内引物(R2)：通用序列2+下游特异性引物序列；

测序接头1的序列为：CCATCTCATCCCTGCGTGTCTCCGACTCAG；

通用序列1的序列为：TCTGTACGGTGACAAGGCG；

测序接头2的序列为：CCTCTCTATGGGCAGTCGGTGAT；

通用序列2的序列为：CTATGGGCAGTCGGTGAT；

上游特异性引物序列和下游特异性引物序列分别为5′-ACACAGGGAGGGGAAC-3′和5′-TGCCATGGTGGTTTGC-3′。

barcode序列的长度均为8-12，一共115个barcode序列；

分子标签的随机碱基数为9个，特定碱基为2组，分别为ACT和TGA，分子标签为NNNNACTNNNNNTGA。

2)基准集、训练集和待测样本的扩增子文库的构建

基准集构建：10个健康人。

训练集构建：30个健康人作为阴性样本和30个病理明确的膀胱癌患者作为阳性样本。

待测样本：45例临床样本(包括30例膀胱癌阳性及15例膀胱癌阴性)的尿沉渣

按照实施例1中方法提取待测样本、基准集样本、训练集样本的膀胱癌尿沉渣中基因组DNA，并按实施例1的方法进行扩增、纯化最终得到构建基准集样本、训练集样本和待测样本的扩增子文库。扩增子文库构建完成后，以其中一个训练集样本为例，Agilent2200TapeStation Systems检测得到的扩增产物分布(见图1)，扩增子文库中各扩增子的长度在200-220bp范围内。

2、对基准集、训练集和待测样本的扩增子文库进行测序，并与参考基因组进行序列比对(bwa 0.7.10)，得到基准集、训练集和待测样本的各个扩增子在参考基因组上的位置信息和测序深度，过滤掉在任何一个样本里没有覆盖的扩增子，获得这些样本共有的扩增子集约12000个。图2给出了不同测序深度时，扩增子在基因组上覆盖的区域大小，可见随着测序深度的增加，扩增子在基因组上的覆盖的区域变大。

对于经过过滤的扩增子情况如图3所示：扩增子个数为8000～12000个(与数据量成正相关，当数据量约为400M时扩增子个数到达平台区约12000个)，在基因组上的覆盖约为1M～1.5M。400M数据量下的平均覆盖深度约为190X，且存在大量的低覆盖扩增子。扩增子离散分布在各个染色体上，一般染色体越长包含的扩增子越多，如图4所示，但在13p，14p，15p和21q上没有覆盖。扩增子***片段大小呈典型的双峰分布(124bp；142bp)，且小***片段的扩增子明显多于长***片段的扩增子，说明扩增效率在小片段上有明显的偏好性。图5为扩增子***片段(去掉测序接头、barcode序列和分子标签序列的PCR产物)长度的密度分布图。

对上述扩增子进行过滤，过滤条件见实施例1，最终获得约5000个扩增子；上述扩增子数量会随特定样本及实验的批次有微小的波动，为正常样本、实验噪音。

对上述得到的基准集、训练集和待测样本的扩增子的测序深度按照实施例1所示的方法均做数据归一化处理。

3、Zscore计算

对于基准集的扩增子文库：

计算基准集10个样本的扩增子文库进行数据归一化处理后的各个扩增子的测序深度取log2值后的平均值和标准差作为训练集和待测样本的对照基准。

对于基准集扩增子文库中第i个扩增子的测序深度取log2值后的平均值(μi)，计算公式如下：

其中xi为基准集的扩增子文库中第i个扩增子的测序深度取log2值；n为10；

对于基准集扩增子文库中每个扩增子的测序深度取log2值后的标准差(σ)，计算公式如下：

对于训练集和待测样本的扩增子文库：

将训练集和待测样本的扩增子文库的各个扩增子的测序深度进行数据量归一化处理后的扩增子与正常样本的扩增子取交集，作为计算训练集和待测样本CNV的扩增子。

对于训练集的扩增子文库：

对于每个训练集样本的扩增子文库中第i个扩增子的测序深度的取log2值的Zscore，计算公式如下：

其中Ri为每个训练集样本的扩增子文库中第i个扩增子的Zscore值，Depth_i为每个训练集样本的扩增子文库中第i个扩增子的测序深度取log2值，μ_i为基准集扩增子文库中第i个扩增子的测序深度的log2后的平均值，σ_i为基准集扩增子文库中第i个扩增子的测序深度取log2值后的标准差。

根据上述扩增子的Zscore的计算方法，对于每个训练集样本的扩增子文库中单个染色体臂水平上的Zscore，假设某一个染色体臂上的扩增子为μ1...μl，该染色体臂水平上的Zscore的计算公式如下：

其中Zj为每个训练集样本的扩增子文库中第j个染色体臂的Zscore值，μ_i为基准集扩增子文库中第i个扩增子的测序深度取log2值后的平均值，σ_j为基准集扩增子文库中第i个扩增子的测序深度取log2值后的标准差，1为第j个染色体臂上的扩增子的个数。

CNV阳性信号阈值的划定：

按照训练集阳性和阴性样本的扩增子文库中单个染色体臂水平上的Zscore值的分布差异，划定阳性阈值区间。该阳性阈值区间用于判定是否发生CNV，并且可以根据阳性阈值区间进一步判定CNV的种类，例如是扩增还是缺失。阳性阈值区间的选择根据对照样本的Zscore值进行选择，例如可以选择以训练集的阳性样本在99.5％或者更高检出时确定的阳性阈值区间。

根据上述方法的计算结果，确定了如表3的阳性阈值。

例如，当1p上Zscore值在-1到1范围内的时候，为正常，没有发生变异，当Zscore值大于1为CNV为扩增，当Zscore值小于-1时，CNV为缺失。

表3不同染色体的判定阳性阈值

对于待测样本的扩增子文库，与上述训练集样本相同计算出各个染色体臂上的Zscore值，结果如表4所示(表4提供了待测样本中一个待测阳性样品和一个待测阴性样品的各个染色体臂上的Zscore值)。根据表3中阳性阈值区间判定各个染色体臂是否发生CNV。最终得到所有待测样本中各染色体臂阳性CNV的频次，其中30例膀胱癌阳性样本的结果如表5(表5提供了待测样本中30例膀胱癌患者的各染色体臂阳性CNV的频次)，结果显示所有膀胱癌阳性患者均存在不同程度的常染色体拷贝数变异的情况。

表4一个待测阳性样品和待测阴性样品的各个染色体臂上的Zscore值

染色体臂	RH049TU1	RH328TU1
			病理	膀胱癌阳性	膀胱癌阴性
1p	-5.02缺失	0.01NA
			1q	0.43NA	-0.05NA
2p	0.17NA	-0.03NA
			2q	-0.06NA	0.18NA
3p	0.39NA	0.06NA
			3q	0.70NA	0.22NA
4p	0.47NA	-0.05NA
			4q	0.26NA	0.07NA
5p	-0.05NA	-0.06NA
			5q	-0.19NA	-0.10NA
6p	0.42NA	0.20NA
			6q	0.37NA	-0.04NA
7p	0.65NA	0.19NA
			7q	0.31NA	0.05NA
8p	0.28NA	0.15NA
			8q	0.46NA	0.14NA
9p	-3.73缺失	0.00NA
			9q	-4.99缺失	-0.08NA
10p	0.39NA	-0.08NA
			10q	0.22NA	-0.18NA
11p	0.13NA	-0.05NA
			11q	-0.33NA	0.14NA
12p	0.30NA	0.03NA
			12q	0.21NA	0.07NA
13q	0.61NA	-0.03NA
			14q	0.27NA	-0.10NA
15q	0.10NA	0.04NA
			16p	0.04NA	-0.05NA
16q	-0.01NA	-0.07NA
			17p	-3.40缺失	-0.31NA
17q	0.30NA	-0.05NA
			18p	-0.26NA	-0.23NA
18q	-0.32NA	0.05NA
			19p	-0.37NA	-0.56NA
19q	0.33NA	-0.07NA
			20p	2.90扩增	0.04NA
20q	3.25扩增	-0.23NA
			21q	0.29NA	-0.05NA
22q	-0.10NA	-0.21NA
			离散值	33.06	4.30

表5 30例膀胱癌患者中各染色体臂阳性CNV的频次

染色体臂	扩增	缺失
			1p	2	3
1q	10	0
			2p	4	2
2q	3	5
			3p	7	4
3q	4	0
			4p	2	4
4q	0	5
			5p	9	3
5q	1	7
			6p	2	2
6q	2	4
			7p	3	0
7q	6	1
			8p	5	3
8q	5	0
			9p	0	15
9q	1	12
			10p	2	1
10q	1	5
			11p	0	12
11q	0	15
			12p	5	0
12q	5	1
			13q	4	3
14q	3	2
			15q	1	3
16p	3	1
			16q	0	4
17p	1	3
			17q	6	0
18p	7	0
			18q	4	2
19p	1	0
			19q	3	2
20p	9	0
			20q	6	0
21q	6	1
			22q	1	5
总计	134	130

实施例3脑癌患者LINE-1基因的常染色体拷贝数变异(CNV)

脑癌训练集构建：30个健康人作为阴性样本和50个病理明确的脑癌患者作为阳性样本。

待测样本为7例脑癌患者的新鲜手术肿瘤组织样品。

一、扩增子文库构建

1、引物的合成

表6引物序列

注：barcode序列对应为待测的7个样本。

2、按照实施例1中方法提取上述脑癌训练集和7例脑癌患者的新鲜手术肿瘤组织样品的基因组DNA，并按实施例1的方法进行扩增、纯化最终得到训练集和待测样本的扩增子文库。

3、比对与过滤

对得到训练集和待测样本的扩增子文库进行测序，将测序结果数据与参考基因组进行序列比对(bwa 0.7.10)，确定在参考基因组上的位置信息和测序深度，最终获得11581个扩增子。

对比对结果按照实施例1所述的方法进行过滤，得到5037个扩增子；

对待测样本扩增子文库中各个扩增子的测序深度均做基于数据量的归一化处理以抵消因起始数据量引起的扩增子的测序深度偏差。

4、待测样本的Zscore计算

将经过步骤3后得到训练集和待测样本的扩增子与实施例2构建的基准集的扩增子取交集，作为计算待测样本CNV的扩增子，共计5029个。

按照实施例1的方法，得到训练集阳性和阴性样本的单个染色体臂水平上的Zscore值的分布，在阳性样本在99.5％的阳性阈值区间，和实施例2具有相近的区域，故选择阳性阈值如表3所示。

按照实施例1所述的方法计算待测样本各个染色体臂水平上的Zscore，并利用实施例2表3所述的不同染色体的判定阳性阈值区间进行CNV判断，具体结果如表7所示。

表7待测样本各个染色体臂水平上的Zscore值和CNV情况

利用进行过荧光原位杂交(FISH)和全基因组脱靶检测(WGS)对上述待测样本的1号染色体短臂和19号染色体长臂进行CNV的检测，结果见表8，表明本发明方法与WGS检测的结果完全一致，而FISH和两种方法仅有一例不一致，充分体现了本发明方法准确性。

表8本发明方法与WGS、FISH方法的比较

以上对本发明进行了详述。对于本领域技术人员来说，在不脱离本发明的宗旨和范围，以及无需进行不必要的实验情况下，可在等同参数、浓度和条件下，在较宽范围内实施本发明。虽然本发明给出了特殊的实施例，应该理解为，可以对本发明作进一步的改进。总之，按本发明的原理，本申请欲包括任何变更、用途或对本发明的改进，包括脱离了本申请中已公开范围，而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围，可以进行一些基本特征的应用。

SEQUENCE LISTING

<110> 北京泛生子基因科技有限公司

<120> 一种用于检测常染色体拷贝数变异的引物组合、试剂盒和方法

<130> GNCFY191822

<160> 4

<170> PatentIn version 3.5

<210> 1

<211> 16

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 1

acacagggag gggaac 16

<210> 2

<211> 16

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 2

tgccatggtg gtttgc 16

<210> 3

<211> 19

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 3

tctgtacggt gacaaggcg 19

<210> 4

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<400> 4

ctatgggcag tcggtgat 18

Claims

1.用于检测常染色体拷贝数变异的引物组合，其特征在于：所述引物组合包括：Barcode引物、上游引物、下游外引物和下游内引物；

所述下游外引物包括依次排列的测序接头2和通用序列2；

2.根据权利要求1所述的引物组合，其特征在于：所述上游引物包括依次排列的通用序列1、分子标签序列和上游特异性引物序列；

优选的，所述分子标签序列的长度为6-30nt，由M个随机碱基和至少一组特定碱基组成，所述M为大于等于6小于等于15的自然数；所述分子标签为用于标记PCR扩增所述目的逆转座子区域不同起始模板分子的序列，一个分子标签对应一个起始模板分子。

3.根据权利要求1所述的引物组合，其特征在于：所述barcode序列的长度为6-12nt、GC含量为30-70％、无明显二级结构。

4.根据权利要求1所述的引物组合，其特征在于：所述测序接头1和所述测序接头2为根据不同测序平台选择对应的测序接头；可选的，所述测序平台为Illumina平台，所述测序接头1和所述测序接头2分别为P5和P7；可选的，所述测序平台为Ion Torrent平台，所述测序接头1和所述测序接头2分别为A和P；

优选的，所述通用序列1和通用序列2的长度均为15-25nt。

5.根据权利要求1-4任一所述的引物组合，其特征在于：所述逆转座子为Line-1，优选的，所述上游特异性引物序列和下游特异性引物序列分别为SEQ ID No.1和SEQ ID No.2所示。

6.用于检测常染色体拷贝数变异的试剂盒，其特征在于：包含权利要求1-5任一所述的引物组合。

7.根据权利要求6所述的试剂盒，其特征在于：还包括数据分析***。

8.权利要求1-5任一所述的引物组合或权利要求6或7所述的试剂盒在检测常染色体拷贝数变异的应用。

9.一种检测常染色体拷贝数变异的方法，其特征在于，包括如下步骤：

构建基准集和训练集；其中，所述基准集包括若干健康人，所述训练集包括若干阴性样本和若干阳性样本；

利用权利要求1-5任一所述的引物组合或权利要求6或7所述的试剂盒构建基准集、训练集和待测样本的扩增子文库；

10.根据权利要求7所述的试剂盒或权利要求9所述的方法，其特征在于，所述数据分析的方法包括：