CN106520940A

CN106520940A - 一种染色体非整倍体和拷贝数变异检测方法及其应用

Info

Publication number: CN106520940A
Application number: CN201610962141.0A
Authority: CN
Inventors: 刘萍; 史千玉; 陈大洋; 邱咏; 朱珠; 夏军; 谢林; 陈芳; 蒋慧; 徐讯; 牟峰
Original assignee: BGI Shenzhen Co Ltd
Current assignee: Huada biological technology (Wuhan) Co., Ltd.
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2017-03-22

Abstract

本发明提供了一种染色体非整倍体和拷贝数变异检测方法及其应用。具体地，本发明对待测样本的全基因组进行测序，获得样本的测序数据。当胚胎细胞中某条染色体为三体或单体时，该染色体的拷贝率与正常的二倍体相比会有所升高或降低，运用生物统计学进行信息分析，非整倍体可被准确检测。实验结果表明，使用本发明的方法可以简单、快速、准确的对染色体非整倍体和拷贝数变异进行检测。

Description

一种染色体非整倍体和拷贝数变异检测方法及其应用

技术领域

本发明属于医药健康领域，具体地说，本发明涉及一种染色体非整倍体和1M以上拷贝数变异检测方法及其应用。

背景技术

胚胎植入前遗传学筛查(Pre-implantation Genetic Screening,PGS)是体外授精－胚胎移植(In Vitro Fertilization-embryo Transfer,IVF)这一生殖助孕过程中的一种辅助技术。该技术能够减少因染色体数目或者结构异常而导致的IVF失败，提高受孕率。一些研究发现，在体外受精形成的胚胎中，大约50％左右的胚胎存在染色体的异常，可导致早期胚胎丢失、自然流产和死产，是限制IVF成功的重要原因之一。PGS是在人类辅助生殖技术的基础上，对植入前的胚胎进行染色体非整倍体和拷贝数变异的检测，选择正常的胚胎进行植入，以期提高IVF成功率。随着运用PGS技术获得成功妊娠的病例在1995年被首次报道后，这项技术的使用逐渐增加。但是由于之前的技术成本高、通量低的特点，限制了PGS技术在临床上的广泛应用。

因此，为了降低成本、提高通量，本领域迫切需要开发新的染色体非整倍体和拷贝数变异的检测技术。

发明内容

本发明的目的在于提供一种染色体非整倍体和拷贝数变异检测方法及其应用。

本发明的第一方面，提供了一种检测染色体非整倍体和基因拷贝数变异的方法，所述方法包括步骤：

(1)提供待测样本，并对所述样本进行全基因组测序获得全基因组序列；

(2)提供检测流程参考文件：

(2.1)生成窗口文件

提供参考基因组，将参考基因组按照步骤(1)中测得序列的长度随机打断成模拟read(读段)并将其重新比对到参考基因组上；

其中，每个窗***有n个read(读段),相邻窗口间的重合区域含有0.1n～0.4n个读段；

(2.2)提供全基因组校正基线文件

(2.2.1)提供正常参考样本，并对所述正常参考样本进行全基因组测序；

(2.2.2)将所述正常参考样本的全基因组序列比对到所述参考基因组上，提取唯一比对的read，去掉其中比对位置相同的read，

(2.2.3)根据(2.2.2)中比对read的坐标信息，计算落入(2.1)中每个窗口内的read数r_i,j，对于一个样本计算对应窗口参考基因组上的GC含量，比对上序列的GC含量，相对序列数R_i，j＝r_i，j/M；其中，M是此样本常染色体的所有窗口的平均read数，r_i,j为此窗口的read数；

其中，定义g_s为比对上序列的GC含量，g_r为对应窗口参考基因组上的GC含量；对于g_s和g_r按x％的GC含量间隔计算在此范围内序列数的中位值

则窗口i的矫正系数为则每个窗口矫正后的序列数累计全基因组常染色体的值除以总的窗口数得到矫正值M′，最终对于窗口i矫正后的序列数为

针对每种性别的所有参考样本取相同窗口的中位值做为最终基线文件内每个窗口的参考值；

(3)待测样本分析

(3.1)初始断点查找

逐个遍历待测样本全基因组序列中的窗口，选择窗口相邻的左右两端等量的窗口数进行游程检验，得到每个窗口对应的检测P值；对所有P值进行排序去掉非显著的窗口位置，得到初始断点集合B＝{b1,b2,b3……}；

(3.2)更新P值

对(3.1)中获得的断点，分别对相邻断点左右两端区间内的深度值进行二轮统计得到每个断点对应新的P值；

(3.3)最终断点查找

在(3.2)断点P值的基础上，对于一特定断点，分别于该特定断点左右两断点区间进行统计检验，并在循环中删除不显著断点；获得每个断点区间的P值和深度值的均值；

(3.4)断点过滤

根据断点P值显著性判断是否为真实断点，根据深度值的大小判断是缺失还是重复；根据断点区间大小判断检测精度；

(3.5)结果报告

根据变异区间坐标给出染色体条带信息、所属基因类型、疾病类型等。

在另一优选例中，所述步骤(2)中，还包括步骤：

(2.3)构建数据质控体系

在比对完成后根据比对信息计算样本唯一比对率、重复率、唯一比对read数目、错配率、GC含量；根据数据分布特点，选用百分位数法估计正常值范围；确定以上5个指标在参考样本中的波动范围；

(2.4)过滤已知假阳性信号

从参考样本的检测结果中得到由于***误差导致的假阳性信号，作为检测样本的过滤库；过滤掉与ENCODE计划中列出(The ENCODE Project Consortium2012)基因组上微卫星的区域，端粒酶和着丝粒区域重合的窗口；去掉参考基因组上的窗口内比对率低的窗口。

在另一优选例中，所述步骤(3)中，所述断点P值为1e-10，所述深度值中设定缺失阈值为0.7、重复阈值为1.3，断点区间大小为≥1M。

在另一优选例中，所述步骤(2.1)中，所述参考基因组为NCBI数据库中的标准人类参考基因组序列，例如可以为hg18,NCBI Build 36；hg19,NCBI Build 37。

在另一优选例中，所述步骤(2.1)中，n为50K－200K，优选地n为100K,相邻窗口间重合区域含有0.2n－0.3n个read。

在另一优选例中，所述步骤(2.2.3)中，x％为约0.1％-5％；优选为0.5％-2％；更优选为约1％。

在另一优选例中，所述步骤(3.5)中，选用大于1M的区间为最终的拷贝数变异区间，进行结果输出。

在另一优选例中，所述方法用于大于1M的CNVs以及染色体非整倍体检测。

在另一优选例中，所述方法中待测样本为单细胞样本，或多细胞样本。

在另一优选例中，所述方法为非诊断目的。

应理解，在本发明范围内中，本发明的上述各技术特征和在下文(如实施例)中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1显示了GC含量矫正前后各个GC间隔内深度波动分布(上：矫正前；下：矫正后)。

图2显示了检测原理示意图。

图3显示了Array-CGH简单原理示意图。

图4显示了SNP array简单原理示意图。

图5显示了基线文件建立流程。

图6显示了单样本检测流程。

图7显示了Sample1胚胎核型结果46,XY,del(17p11.2)(1.95M)。

图8显示了Sample1胚胎WGA扩增效果和变异显示：46,XY,del(17p11.2)(1.95M)。

图9显示了Sample2胚胎核型结果47,XX,+21。

图10显示了Sample2胚胎WGA扩增效果和变异显示：47,XX,+21。

图11显示了Sample3胚胎核型结果46,XX,del(1)(p36.33-p36.32)(1.54M)。

图12显示了Sample3胚胎WGA扩增效果和变异显示：46,XX,del(1)(p36.33-p36.32)(1.54M)。

具体实施方式

本发明人通过广泛而深入的研究，获得一种基于BGIseq-500测序仪的染色体非整倍体和拷贝数变异检测方法及其应用，实验结果表明，使用本发明的方法可以简单、快速、准确的对染色体非整倍体和拷贝数变异进行检测。

在描述本发明之前，应当理解本发明不限于所述的具体方法和实验条件，因为这类方法和条件可以变动。还应当理解本文所用的术语其目的仅在于描述具体实施方案，并且不意图是限制性的，本发明的范围将仅由所附的权利要求书限制。

除非另外定义，否则本文中所用的全部技术与科学术语均具有如本发明所属领域的普通技术人员通常理解的相同含义。如本文所用，在提到具体列举的数值中使用时，术语“约”意指该值可以从列举的值变动不多于1％。例如，如本文所用，表述“约100”包括99和101和之间的全部值(例如，99.1、99.2、99.3、99.4等)。

虽然在本发明的实施或测试中可以使用与本发明中所述相似或等价的任何方法和材料，本文在此处例举优选的方法和材料。

胚胎植入前染色体非整倍体筛查

目前，针对胚胎植入前染色体非整倍体筛查的方法主要有，荧光原位杂交(Fluorescence In Situ Hybridization,FISH)技术，比较基因组杂交(ComparativeGenomic Hybridization,CGH)技术，微阵列(Microarrays)技术和二代测序技术(NextGeneration Sequencing，NGS)。近年来发展起来的微阵列技术有微阵列比较基因组杂交(Array Comparative Genomic Hybridization，array-CGH)技术和单核苷酸多态性微阵列(Single Nucleotide Polymorphism-based Array，SNP array)技术。

FISH实验原理：用生物素或者地高辛标记的核酸探针同便于观察的有丝***中期细胞的染色体特异性结合，然后用带有荧光基团的特异亲和素与探针结合，在荧光显微镜下通过荧光分布来观察染色体情况。

CGH实验原理：用不同颜色的荧光染料分别标记待测DNA跟对照DNA，两种DNA等量混合后与处于有丝***中期的染色体杂交，用相应的软件分析荧光显微镜所成图像。如果待测DNA信号强于对照DNA信号，证明有染色体三体或者CNVs重复，反之，则证明有染色体单体或者CNVs缺失；如果二者信号相当，则证明染色体正常。

Array-CGH实验原理同CGH很相似，只是用带有基因组片段克隆载体的microarray代替了CGH中的有丝***中期染色体，它的分辨率高于CGH，简单的原理图见图3所示。

SNP array实验原理：用带有单链SNP片段探针的microarray同片段化的单链基因组DNA杂交，捕获基因组DNA的SNP位点，并通过软件分析得出基因组SNP情况，简单原理见图4。

FISH技术及CGH技术由于受到探针的局限，仅能完成部分染色体的检测，并不能反应全部23条染色体的情况，并且检测分辨率较低，因此染色体异常的胚胎检出率并没有达到理想水平，从而限制了其广泛应用。Array-CGH技术和SNP array技术由于其快速准确及高分辨率的特性已初步用于临床，但高昂的价格及检测过程中过量信息带来的分析困难是该项技术存在的缺点。同时，荧光显微镜成像的人为观察以及图像分析软件之间的矛盾，也会对实验的重复性产生不好的影响。

随着单细胞测序技术的不断发展，NGS作为PGS检测的新技术已经成为一种新的趋势。通过对所挑取细胞的全基因组扩增产物进行高通量大规模并行基因组测序，并对测序结果进行统计学信息分析，能够判断胚胎是否存在非整倍体或者大于1M的CNVs，并且，不同于FISH技术及CGH技术，本发明不受探针的限制，可以反应全部染色体的情况。同时，由于标签(Barcode)接头的存在，可以对多个样品pooling后并行上机测序，同Array-CGH技术和SNP array技术相比，在保证快速准确及高分辨率的基础上，能够大大的降低检测成本。自动化建库和自动化测序的可行性能够最大程度的减少人为干扰。

在本发明的一个优选地实施方式中，本发明提供了一种低成本、高通量适合临床广泛应用的PGS检测技术，基于新一代的测序仪BGIseq-500(华大基因)，本发明提供了一种能够用于筛查植入前胚胎染色体非整倍体以及大于1M的拷贝数变异(Copy NumberVariation，CNVs)的方法以及基于该方法的试剂盒。

本发明可以对IVF周期中卵裂球期或囊胚期胚胎的一个或多个细胞进行染色体非整倍体检测，以判断胚胎是否存在染色体非整倍性或者拷贝数变异。同时，本发明适用于所有进行IVF的人群，尤其是以下高风险人群：女性高龄；反复IVF植入失败；反复流产；严重的男性因素导致的不育；夫妇一方为染色体平衡易位携带者或生育过染色体疾病患儿。本发明检测结果作为胚胎是否进行植入的依据之一，可供临床参考。

根据本发明的检测方法概括如下：选取胚胎D3卵裂球以及D5囊胚外滋养层细胞作为筛查材料，提取1个或8个左右的细胞，因每个细胞中的DNA的含量约为6pg不足以建库上机，因此需要进行全基因组扩增(Whole Genome Amplification,WGA)以增加起始DNA模版量，再经过片段选择，末端修复，接头连接，文库pooling，扩增及上机测序，获得样本的测序数据。当胚胎细胞中某条染色体为三体或单体时，该染色体的拷贝率与正常的二倍体相比会有所升高或降低，运用生物统计学进行信息分析，非整倍体可被准确检测。具体统计原理如下：

通过序列比对获得每条染色体有效序列数量，按照基因组上划定好的窗口，获得每个窗口内的有效序列数。按照参考基因组上不同窗口内GC含量的差异，将GC含量从大到小划分为0.001的区域，统计每个区域中的有效序列数，根据对照样本计算相同GC间隔范围内的序列数的标准差和平均值，以此对待测样本的序列数进行标准化和矫正，获得代表每个窗口矫正后的序列数。

循环遍历基因组上的每个窗口，取其左右等量的若干个窗口进行统计检验，每个点会得到一个代表这个点两侧差异的P值，留下P值最小的若干点作为候选断点。选取上一个断点到该断点的区域以及该断点到下一个断点的区域，对这两个区域中矫正后的序列数做游程检验得到检测P值，确定相邻两个断点之间的区域为检验窗口，从而对窗口进行合并，为进一步对合并的窗口进行过滤，计算该片段中有些序列数的平均值与阈值范围进行比较，若低于此范围则为缺失，高于则为重复。根据各个染色体上不同窗口对应的拷贝率值和显著性差异值做出测试样品的峰图和核型图，整个PGS过程的简单检测原理见图2.

本发明使用BGIseq-500测序方法对胚胎D3卵裂球或者D5囊胚外滋养层细胞染色体的拷贝数变异(Copy Number Variations，CNVs)和整倍体情况进行分析检测。

本发明虽然在具体实例中使用的是细胞系单细胞，但在实际应用中不仅仅只限于单细胞，本发明适用于大于1M的CNVs以及染色体非整倍体检测，所以单细胞，多细胞，还有大于1M的CNVs，以及非整倍体的检测均受本专利的保护。

本发明的主要步骤如下：

(1)胚胎D3卵裂球或者D5囊胚外滋养层细胞采集；

(2)胚胎细胞全基因组扩增；

(3)测序文库制备；

(4)DNA测序反应；

(5)下机数据分析。

以上所述方法在本实验中具体的实施如下：

1.胚胎D3卵裂球或者D5囊胚外滋养层细胞采集

在受精卵发育至第三天卵裂球期，透明带打孔活检出1个胚胎细胞，洗涤后置于装有4μL细胞保存液的PCR管中；或在受精卵发育至第五天囊胚期，在显微操作仪下采用激光打孔的方法活检1个胚胎细胞，洗涤后置于装有4μL细胞保存液的PCR管中，短暂离心；保存有细胞的PCR管可以直接进行细胞全基因组扩增，也可以将PCR管直立保存在-80℃，禁止上下颠倒。

2.胚胎细胞全基因组扩增

对胚胎细胞进行WGA，具体的扩增过程包括三个步骤。第一，细胞裂解：向已经收集到细胞的PCR管中加入由细胞裂解缓冲液和细胞裂解酶配置的混合液，在75℃下反应10min，95℃下反应4min，使细胞裂解，并释放出其中的DNA。第二，前扩增：向上步反应液中加入由前扩增缓冲液和前扩增酶配置的混合液，在95℃下反应2min，然后在95℃15s，15℃50s，25℃40s，35℃30s，65℃40s，75℃40s下反应12个循环。第三，后扩增：向前一步反应液中加入由后扩增缓冲液，后扩增酶和去核酸酶水配置的混合液，在95℃下反应2min，然后在95℃15s，65℃1min，75℃1min下循环14次，反应完成后的扩增产物可直接用于下游分析或置于-20℃冰箱保存。

3.测序文库制备

对细胞的WGA产物进行文库构建，具体的文库构建过程包括四个步骤：DNA打断回收、末端修复、接头连接、PCR扩增。第一，DNA打断回收：对WGA产物进行定量，取一定量的WGA产物，向其中加入由DNA打断酶和DNA打断缓冲液组成的混合液，在37℃下反应5min，75℃下反应15min；然后对反应液进行磁珠两步法纯化，进行片段选择。第二，末端修复：对片段选择后的产物进行定量，取一定量的片段选择后的产物，向其中加入由末端修复缓冲液和末端修复酶配置的混合液，在37℃下反应30min，然后在75℃下反应15min。第三，接头连接：向上步末端修复反应液中加入由连接缓冲液和连接酶配置的混合液，然后向其中加入标签接头1-48(每个样本单独一个接头)，在20℃下反应20min，使用磁珠纯化连接反应产物。第四，PCR扩增，向上步反应纯化后的DNA中，加入由PCR反应液和PCR引物配置的混合液，在98℃下反应2min，然后在98℃15s，56℃15s，72℃30s下循环12个cycles，在72℃下延伸5min，4℃保持；扩增完成后，使用磁珠纯化，并测定纯化后样本的浓度。

4.DNA测序反应

基于二代高通量测序技术，在cPAS BGIseq-500测序平台(华大基因)进行上机测序。其中仪器的参数设置及操作方法都要严格按照操作手册进行。

虽然本发明中所用仪器为BGIseq-500，本发明中的测序循环数为SE28+10，但由于仪器以及建库、测序方法会不断升级，所以在实际应用中，本发明不限于这一种仪器，不限于这一种建库方法，不限于这一种循环数，适用于BGIseq系列中的各种建库方法、测序平台以及测序方法。

5下机数据分析流程

5.1确定检测流程参考文件

(1)窗口文件

基因组上的不同区域存在不同类型的特殊序列，比如高GC含量区域，端粒附近重复率较高区域，N碱基区域。这些异常会导致比对过程中各个区域的比对效率差异很大。为了避免基因组本身对比对造成的影响，通过以下过程生成窗口文件。将参考基因组(NCBI数据库中的标准人类参考基因组序列，例如可以为hg18,NCBI Build 36)。在本实施方式中选用hg19,NCBI Build 37。将参考基因组按照测得序列的长度随机打断，之后生成模拟下机样本数据并将其重新比对到参考基因组上。在本实施方式中保证每个窗***有100K read,相邻窗口间重合区域含有20K read，最终将全基因组划分为131290个窗口，也可以根据落入read数的差异选择其他窗口长度。根据测的得参考样本以单个窗口为单位横向比较所有窗口内深度的波动值，剔除掉波动较大的窗口。

(2)基线文件

选择一定数量的已知正常核型的男女胚胎作为参考样本，按照上述实验步骤测的下机数据。根据检测精度差异选择合适的单样本数据量。在本实施方式中单样本原始下机数据量为(8.38M－35.22M)。基于正常胚胎样本获得全基因组校正基线文件，在本实施方式中个选择30例男女正常胚胎作为正常参考样本。另外本实施方式中考虑到短read特点优先选用BWA(Burrows-Wheeler Aligner)作为实施方式中短序的比对软件，也可以选用其他短序列比对软件。将所测的正常样本用BWA比对到参考基因组上根据获得的SAM文件信息，提取唯一比对的read，去掉其中比对位置相同的read后用于后续分析。根据比对read的坐标信息，计算落入每个窗口内的read数r_i,j，针对之前划定的窗口，对于一个样本计算对应窗口参考基因组上的GC含量，比对上序列的GC含量，相对序列数R_i，j＝r_i，j/M；M是此样本常染色体的所有窗口的平均序列数，r_i,j为此窗口的序列数，其中定义g_s和g_r分别为比对上序列的GC含量和对应窗口参考基因组上的GC含量；对于g_s和g_r按1％的GC含量间隔计算在此范围内序列数的中位值也可按其他间隔进行计算。则窗口i的矫正系数为则每个窗口矫正后的序列数累计全基因组常染色体的值除以总的窗口数得到矫正值M′，最终对于窗口i矫正后的序列数为针对每种性别的所有参考样本取相同窗口的中位值做为最终基线文件内每个窗口的参考值。

(3)数据质控体系

在比对完成后根据比对信息计算样本唯一比对率，重复率，唯一比对read数目，错配率，GC含量等。根据数据分布特点，本实施方式中选用百分位数法估计正常值范围(在数据不符合正态分布和偏态分布情况下)采用范围为5％和95％，采用估计软件为：SPSSStatistics 17.0。可确定以上5个指标在参考样本中的波动范围，也可以选用其他可表征测序特点的指标作为质控范围。

(4)已知假阳性信号过滤

从参考样本的检测结果中得到由于***误差导致的假阳性信号，作为检测样本的过滤库。过滤掉与ENCODE计划中列出(The ENCODE Project Consortium 2012)基因组上微卫星的区域，端粒酶和着丝粒区域重合的窗口。去掉参考基因组上的窗口内比对率低的窗口。

5.2单个样本检测

根据过滤后的窗口信息以及对应的深度值进行下面的检测过程。找基因组上的断点坐标主要有以下步骤：

初始断点查找

逐个遍历样本中的窗口，选择窗口相邻的左右两端等量的窗口数进行游程检验(Wald A,Wolfowitz J.On a test whether two samples are from the samepopulation[J].The Annals of Mathematical Statistics,1940,11(2):147-162.)，得到每个窗口对应的检测P值。对所有P值进行排序去掉非显著的窗口位置，得到初始断点集合B＝{b1,b2,b3……}。

更新P值

对于上述步骤中获得断点，分别对相邻断点左右两端区间内的深度值进行二轮统计得到每个断点对应新的P值。

最终断点查找

在上述断点P值得基础上，对某一断点来说分别于左右两断点区间进行统计检验，并在循环中删除不显著断点。获得每个断点区间的P值和深度值的均值。

断点过滤

根据断点P值显著性判断是否为真实断点，根据深度值得大小判断是缺失还是重复。根据断点区间大小判断检测精度。在本实施方式中P值为1e-10，缺失阈值为0.7，重复阈值为1.3，选用大于1M的区间为最终的拷贝数变异区间。

结果报告

根据变异区间坐标给出染色体条带信息，所属基因类型，疾病类型等。并用全基因组深度分布图来质控WGA扩增质量，作为衡量检测结果的重要指标。

本发明结合BGIseq-500对胚胎D3卵裂球或者D5囊胚外滋养层细胞染色体的拷贝数变异(Copy Number Variations，CNVs)和整倍体情况进行分析检测。

本发明虽然在具体实例中使用的是3-8个细胞系细胞，但在实际应用中不仅仅只限于多细胞，本发明适用于大于1M的CNVs以及染色体非整倍体检测，所以单细胞，多细胞，还有大于1M的CNVs，以及非整倍体的检测均受本申请权利要求的保护。

在本发明的一个优选地实施方式中，可以开发PCR-free建库，取消PCR扩增过程，不但减少文库构建的时间，对测序bias也会有所改善。

本发明的主要优点在于：

第一，能够在24小时内给出PGS的检测结果，在保证准确度以及灵敏性的基础上，大大缩短了PGS的检测时间，能够帮助孕妇植入新鲜的胚胎；

第二，能够同时检测多个样本，大大降低了检测成本；

第三，能够检测人的全部染色体情况，不论是大于1M的CNVs，还是非整倍体的胚胎细胞都能检出；

第四，可以在同医院合作的联合实验室中进行检测，大大提高了检测效率，以及产能。

下面结合具体实施例，进一步详陈本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明详细条件的实验方法，通常按照常规条件如美国Sambrook.J等著《分子克隆实验室指南》(黄培堂等译，北京：科学出版社，2002年)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。以下实施例中所用的实验材料和试剂如无特别说明均可从市售渠道获得。

实施例1

本发明使用商业购买的细胞系，共有3个实施例，具体信息见下表

表1实施例中样本的Array-CGH结果

样本名	Array-CGH结果
		Sample1	46,XY.ish del(17)(p11.2p11.2)(1.98M)
Sample2	47,XX,+21
		Sample3	46,XX.ish del(1)(p36.33)(1.63M)

1.获取细胞系细胞

购买已经明确知道核型的细胞系细胞Sample1、Sample2以及Sample3(细胞系名称分别为GM20743，GM03606，以及GM22977，购买自Coriell Institute，USA)，消化细胞，用显微操作仪(Eppendorf,NK2)分选细胞。向消化后的细胞中加入Hochest(LIFETECHNOLOGIES,1660845)染色液，室温下避光染色15min。将染色后的细胞悬液平铺于已预先平铺了用PBS(LIFE TECHNOLOGIES，14190-144)稀释的1％BSA(NEB,B9001S)的载玻片表面，挑取1个明场下有明显细胞形貌及荧光场符合条件的有核细胞至做好标记的PCR管(AXYGEN，MCT-150-C)，PCR管根据实验要求提前添加4μL PBS作为底液，挑选完成后，离心，准备进行单细胞扩增反应。

2.细胞样本全基因组扩增

使用本发明中的试剂，具体的扩增过程包括三个步骤：第一，细胞裂解：向已经收集到细胞的PCR管中加入由细胞裂解缓冲液和细胞裂解酶配置的混合液，在75℃下反应10min，95℃下反应4min，裂解细胞，释放出DNA。第二，前扩增：向上步反应液中加入由前扩增缓冲液和前扩增酶配置的混合液，在95℃下反应2min，然后在95℃15s，15℃50s，25℃40s，35℃30s，65℃40s，75℃40s下反应12个循环。第三，后扩增：向前一步反应液中加入由后扩增缓冲液，后扩增酶和去核酸酶水配置的混合液，在95℃下反应2min，然后在95℃15s，65℃1min，75℃1min下循环14次，反应完成后的扩增产物可直接用于下游分析或置于-20℃冰箱保存。

3.测序文库制备

采用本发明中的试剂对细胞的WGA产物进行文库构建，具体的文库构建过程包括四个步骤：DNA打断回收、末端修复、接头连接、PCR扩增。第一，DNA打断回收：对WGA产物进行定量，取一定量的WGA产物，向其中加入由DNA打断酶和DNA打断缓冲液组成的混合液，在37℃下反应5min，75℃下反应15min；然后对反应液进行磁珠两步法纯化，进行片段选择。第二，末端修复：对片段选择后的产物进行定量，取一定量的片段选择后的产物，向其中加入由末端修复缓冲液和末端修复酶配置的混合液，在37℃下反应30min，然后在75℃下反应15min。第三，接头连接：向上步末端修复反应液中加入由连接缓冲液和连接酶配置的混合液，然后向其中加入标签接头1-48(每个样本单独一个接头)，在20℃下反应20min，使用磁珠纯化连接反应产物。第四，PCR扩增，向上步反应纯化后的DNA中，加入由PCR反应液和PCR引物配置的混合液，在98℃下反应2min，然后在98℃15s，56℃15s，72℃30s下循环12个cycles，在72℃下延伸5min，4℃保持；扩增完成后，使用磁珠纯化，并测定纯化后样本的浓度。

4.DNA测序反应

将PCR纯化后的样品等量pooling后，在华大自主研发的cPAS BGIseq-500测序平台进行上机测序。测序试剂采用本发明中试剂，其中仪器的参数设置及操作方法都要严格按照操作手册进行。

5.数据分析

(1)序列比对

本实施例中用BWA软件(版本号：0.7.7-r441)将测得的样本read比对回参考基因组(hg19,NCBI Build 37)。根据比对结果获得比对信息如表2从比对结果中挑出唯一比对的序列，去掉重复序列后用于下面的分析。根据比对产生的信息对样本进行质控。

表2实施例中样本比对的基本信息

样本名	总序列数	唯一比对率	有效序列数	重复率	GC含量	变异系数
							Sample1	21,766,451	0.5251	11,428,950	0.0785	0.4262	0.2988
Sample2	15,861,223	0.5832	7,530,114	0.1860	0.3807	0.2333
							Sample3	23,680,681	0.5520	10,876,076	0.1680	0.3727	0.1954

(2)数据矫正

在以GC含量为横坐标，标准化后的深度值为纵坐标的图中。将GC含量按0.01间隔，统计间隔内的深度值波动，按照方法中的步骤，公式对数据进行校正，如图1。

(3)断点查找

两步法判断断点位置第一步逐个遍历样本中的窗口，选择窗口相邻的左右两端等量的窗口数进行游程检验，得到每个窗口对应的检测P值。对所有P值进行排序去掉非显著的窗口位置，得到初始断点集合B＝{b1,b2,b3……}。对于上述步骤中获得断点，分别对相邻断点左右两端区间内的深度值进行二轮统计得到每个断点对应新的P值。在上述断点P值得基础上，对某一断点来说分别于左右两断点区间进行统计检验，并在循环中删除不显著断点。获得每个断点区间的P值和深度值的均值。

(4)结果报告

根据检测P值为1e-10，缺失阈值小于为0.7，重复阈值大于1.3，选用大于1M的区间为最终的拷贝数变异区间，进行结果输出。

表3实施例中样本的检测结果

通过表3的结果可以看出，本发明的检测结果与array-CGH的结果具有很好的一致性。

以上结果表明，本发明使用的胚胎植入前染色体CNVs以及非整倍体检测方法，以BGIseq-500上的二代高通量测序技术为基础，能够在24小时之内检测出大于2M的CNVs或者非整倍体的胚胎细胞，大大缩短了检测时间，能够帮助孕妇植入新鲜的胚胎，方法简单、快速、有效。本发明使用二代高通量建库以及测序方法，保证了检测结果的准确性以及灵敏度，同时能够实现自动化操作。

在本发明提及的所有文献都在本申请中引用作为参考，就如同每一篇文献被单独引用作为参考那样。此外应理解，在阅读了本发明的上述讲授内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种检测染色体非整倍体和基因拷贝数变异的方法，其特征在于，所述方法包括步骤：

(2)提供检测流程参考文件：

(2.1)生成窗口文件

(2.2)提供全基因组校正基线文件

(3)待测样本分析

(3.1)初始断点查找

(3.2)更新P值

(3.3)最终断点查找

(3.4)断点过滤

(3.5)结果报告

2.如权利要求1所述的方法，其特征在于，所述步骤(2)中，还包括步骤：

(2.3)构建数据质控体系

(2.4)过滤已知假阳性信号

从参考样本的检测结果中得到由于***误差导致的假阳性信号，作为检测样本的过滤库；过滤掉与ENCODE计划中列出(The ENCODE Project Consortium 2012)基因组上微卫星的区域，端粒酶和着丝粒区域重合的窗口；去掉参考基因组上的窗口内比对率低的窗口。

3.如权利要求1所述的方法，其特征在于，所述步骤(2.1)中，所述参考基因组为NCBI数据库中的标准人类参考基因组序列。

4.如权利要求1所述的方法，其特征在于，所述步骤(2.1)中，n为50K－200K，优选地n为100K,相邻窗口间重合区域含有0.2n－0.3n个read。

5.如权利要求1所述的方法，其特征在于，所述步骤(2.2.3)中，x％为约0.1％-5％。

6.如权利要求5所述的方法，其特征在于，所述步骤(2.2.3)中，x％为0.5％-2％。

7.如权利要求5所述的方法，其特征在于，所述步骤(2.2.3)中，x％为约1％。

8.如权利要求2所述的方法，其特征在于，所述参考基因组为hg18,NCBI Build 36；或hg19,NCBI Build 37。

9.如权利要求1所述的方法，其特征在于，所述步骤(3)中，所述断点P值为1e-10，所述深度值中设定缺失阈值为0.7、重复阈值为1.3，断点区间大小为≥1M。

10.如权利要求1所述的方法，其特征在于，所述步骤(3.5)中，选用大于1M的区间为最终的拷贝数变异区间，进行结果输出。