CN110268044B

CN110268044B - 一种染色体变异的检测方法及装置

Info

Publication number: CN110268044B
Application number: CN201780085820.7A
Authority: CN
Inventors: 庄雪寒; 高雅; 陈芳; 殷旭阳
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2017-03-07
Filing date: 2017-03-07
Publication date: 2022-08-02
Anticipated expiration: 2037-03-07
Also published as: WO2018161245A1; CN110268044A

Abstract

一种染色体变异的检测方法及装置，所述装置包括待测样本测序单元，用于对含有核酸的待测样本进行测序，获得由若干测序数据构成的测序结果；待测样本校正单元，用于使用正常数据集对待测样本进行校正；分割单元，用于对校正后的测序结果进行分割获得若干数据片段；以及检测单元，用于检测各数据片段是否为拷贝数变异片段。本申请降低了染色体异常漏检的概率，降低了假阳性和假阴性，对染色体非整体和染色体拷贝数变异具有更高的检测准确性，且能在低胎儿深度条件下检测出片段更小的染色体拷贝数变异。

Description

一种染色体变异的检测方法及装置

技术领域

本发明涉及染色体检测领域。

背景技术

无创产前检测(NIPT)是一项近几年才出现的产前筛查技术，用于在早孕周或者中孕周筛查胎儿罹患21-三体、18-三体、13-三体等染色体非整倍体的风险，其基本原理是对孕妇外周血中的胎儿游离DNA进行大规模平行测序，分析特定染色体上DNA测序信号是否发生不正常增多的现象，用以估算胎儿患病风险。相对于血清学唐筛和超声检测胎儿颈部透明带等传统方法，无创产前检测具有极高的灵敏性(＞99％)和极低的假阳性率(＜0.5％)，能够降低不必要的侵入性产前诊断数量和漏检数量，降低出生缺陷率，其临床有效性已经得到国际和国际大量临床研究证明，因此在临床上得到快速应用。

然而该项检测技术有其局限性，一是仅针对21-三体、18-三体、13-三体这三种染色体有较好的检测效果，二是仅针对染色体非整倍体这种染色体异常有较好的检测效果。因此，该项检测技术针对其他种类的染色体异常，尤其是染色体缺失重复等拷贝数变异等微小的区域性染色体异常缺乏较好的检测效果。而染色体缺失重复等拷贝数变异能够导致流产、死产、胎儿畸形、新生儿发育迟缓及智力障碍等严重临床表现，超过1％的妊娠存在具有临床意义的缺失/重复，目前国际上权成的数据库DECIPHER，收录了70多种微缺失/重复相关的综合症，因此开展对染色体拷贝数变异的产前检测十分重要。

近年来针对染色体拷贝数变异的产前检测的技术的改进，大数都是通过增加测序深度以获取更多的测序数据来实现，这是因为相比非整倍体这种变异，染色体拷贝数变异涉及的区域相对较小，因此为了提高检出率，手段之一就是增加测序深度。沿着增加测序深度的方向来对染色体拷贝数变异的产前检测的技术进行改进，虽然能检出部分染色体拷贝数变异，但同时也大幅增加了检测成本，不具备临床实用价值。

因此，基于低深度全基因组测序数据进行染色体拷贝数变异检测，检测的难度非常大。目前有一些文献报道基于低深度全基因组数据检测小数据量(例如10Mb)以上的染色体拷贝数变异，而能检测小数据量(例如10Mb)以下的染色体缺失重复的方法及临床验证数据几乎没有看过相关报道。

现有的基于低深度全基因组数据进行染色体变异检测的技术方案，大体包括三个步骤：一是数据校正步骤，二是片段分割步骤，三是确定微缺失/重复的区域步骤，下面分别说明。

一、数据校正步骤：

在数据校正步骤中，主要是对序列比对能力的校正和GC含量的校正。

序列比对能力的校正：将参考基因组序列打断成与测序样本相同读段的序列，将这些序列又重新比对回参考基因组中；将全基因连续划分成若干个滑动或不滑动，固定或不固定的窗口，对落在每个窗口的序列数目进行统计，获得每个窗口序列比对能力的参考值；用这个参考值对待测样本每个窗口的序列数目做校正。

窗口深度校正：统计所有窗口中打断的参考基因组序列的GC含量，获得深度和GC含量直接的相关性，并利用回归模型，对待测样本的每个窗口深度依据其GC含量进行校正。

二、片段分割步骤：

利用二元分割算法对以上校正后的数据进行片段分割，将相同拷贝数的窗口连续划分到同一片段中，从而可以将微缺失/重复的片段单独连续划分出来。

三、确定微缺失/重复的区域步骤：

计算分割后获得的片段的序列深度，与样本所有窗口的深度进行比较，通过计算t值，将绝对值大于3的片段确定为微缺失/重复的区域。

以上的基于低深度全基因组数据进行染色体变异检测的技术方案存在如下缺陷：

(1)数据校正存在缺陷：上述方案在对数据进行校正时，采用同一批次样本校正的策略，默认同一批次的样本为正常基线样本，对单个待测样本采用同批次其他样本进行数据校正。这样做的缺陷是，一旦同一批次的样本中存在相同的染色体缺失/重复，就将会造成数据校正错误，导致该位置的染色体异常信号漏检。

(2)无法解决不同批次测序样本之间由于实验环境、试剂和样本特性等造成的数据偏向性：由于上述方案采用同一批次样本校正的策略，忽略了不同批次样本间的差异，因此会导致校正后的数据依然存在偏向性，即在基因组某些区域出现假性数据富集或缺失的现象，从而产生假阳性或假阴性结果。

(3)对性染色体异常和嵌合体的检出效果不明显：上述只针对检测染色体拷贝数变异设计，仅评估了对染色体拷贝数变异的检出表现，对于性染色体异常、嵌合体检测并没有专门的设计和评估。

(4)针对小数据(例如10Mb以下)的染色体拷贝数变异的检出能力不强：根据模拟实验数据，上述方案对染色体拷贝数变异的检测精度在10Mb以上，且需要较高的游离核酸比例(10％)(Chen S，Lau TK，Zhang C，et al.A method for noninvasive detection offetal large deletions/duplications by low coverage massively parallelsequencing.Prenat Diagn.2013 Jun；33(6)：584-90.)，对于小于10Mb的染色体拷贝数变异或者更低的游离核酸比例检出率会大大降低。

发明内容

针对现有技术中存在的缺陷，本发明提供一种基于低深度全基因组数据进行染色体变异检测的方法。

第一方面，本发明提供一种染色体变异的检测方法，包括：

(1)对含有核酸的待测样本进行测序，获得由若干测序数据构成的测序结果；

(2)使用正常数据集对所述测序结果进行校正；

(3)对校正后的测序结果进行分割，获得若干数据片段；以及

(4)检测所述若干数据片段是否为拷贝数变异片段。

根据本发明的实施例，所述待测样本为外周血。

根据本发明的实施例，所述外周血为来自于孕妇的外周血。

根据本发明的实施例，所述测序为高通量测序。

根据本发明的实施例，所述核酸为DNA。

根据本发明的实施例，所述拷贝数变异为微缺失、微重复或其组合。

根据本发明的实施例，使用若干正常样本的测序数据建立所述正常数据集。

根据本发明的实施例，所述使用若干正常样本的测序数据建立所述正常数据集包括：

(0-1)将参考基因组连续划分成若干第一窗口，并确定各第一窗口的比对能力值；

(0-2)将参考基因组连续划分成若干第二窗口，确定各正常样本内GC含量与第二窗口深度的相关性，对于每一个所述第二窗口，利用所述第二窗口的GC含量对所述第二窗口的深度进行样本内与样本间的校正；

(0-3)将参考基因组连续划分成若干第三窗口，根据各正常样本间相同位置的第三窗口的平均深度值对各第三窗口的深度进行群体区域的校正；以及

(0-4)将参考基因组连续划分成若干第四窗口，根据各所述第四窗口的深度建立一矩阵，根据所述矩阵对各第四窗口的深度进行校正。

根据本发明的实施例，优选地，步骤(0-1)包括：

(0-1-1)将参考基因组打断成若干相同长度的读段，再将所述读段比对回所述参考基因组；

(0-1-2)将所述参考基因组连续划分成若干所述第一窗口，其中所述第一窗口的长度大于所述读段的长度；

(0-1-3)统计位于各第一窗口中的读段的数量，并将读段的数量小于一预定数量的第一窗口删除；和/或，计算各第一窗口中的重复区域比例，并将重复区域比例大于一预定比例的第一窗口删除；以及

(0-1-4)对于参考基因组中各未被删除的第一窗口，计算所述未被删除的第一窗口的平均读段数量，并将平均读段数量分别除以各未被删除的第一窗口的读段数量，以分别获得各未被删除的第一窗口的比对能力值。

根据本发明的实施例，优选地，步骤(0-2)包括：

(0-2-1)将所述各正常样本的测序数据比对到所述参考基因组中，并对各正常样本的读段进行比对能力值的校正；

(0-2-2)将所述参考基因组连续划分成若干所述第二窗口，对于每个正常样本，统计其各第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行的样本内的校正；以及

(0-2-3)对于进行样本内校正后的所有正常样本，统计所有正常样本的第二窗口的GC含量及深度，获得所有正常样本的整体的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行样本间的校正。

根据本发明的实施例，优选地，步骤(0-2-2)所述回归模型为LOESS回归模型。

根据本发明的实施例，优选地，步骤(0-3)包括：

(0-3-1)将所述参考基因组连续划分成若干所述第三窗口，统计所有正常样本的每个相同位置的所述第三窗口深度的平均值及方差，并计算每个相同位置的所述第三窗口的CV值，将所述CV值大于一预定值的第三窗口删除；以及

(0-3-2)计算所有未被删除的第三窗口的平均深度值，并用所述平均深度值对各未被删除的第三窗口的深度进行校正。

根据本发明的实施例，优选地，所述每个相同位置的所述第三窗口的CV值等于所述第三窗口深度的方差除以平均值。

根据本发明的实施例，优选地，步骤(0-4)包括：

(0-4-1)将所述参考基因组连续划分成若干所述第四窗口，根据各所述第四窗口的深度建立一矩阵，并对所述矩阵进行主成分分析，获得所述矩阵的特征向量矩阵；以及

(0-4-2)对每个所述正常样本进行主成分分析，将每个正常样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各所述窗口的深度。

根据本发明的实施例，步骤(2)包括：

(2-1)将所述待测样本的测序数据比对到参考基因组中，对所述待测样本的各读段进行比对能力值的校正；

(2-2)统计各所述第二窗口的深度以及GC含量，获得所述待测样本内的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型对所述第二窗口的深度进行样本内的校正；

(2-3)根据正常样本中GC含量与第二窗口深度的相关性，利用回归模型对所述待测样本的经步骤(2-2)校正后的各第二窗口深度进行样本间的校正；

(2-4)读取经步骤(2-3)校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对所述待测样本的各第三窗口的深度进行校正；以及

(2-5)读取经步骤(2-4)校正后的待测样本的各第四窗口深度，根据各正常样本的第四窗口的深度建立的所述矩阵对所述待测样本的各第四窗口的深度进行校正。

需要说明的是，步骤2-2、2-3、2-4和2-5所述第二窗口、第三窗口和第四窗口均依据参考基因组进行连续划分而获得。可以直接使用正常数据集构建时所划分的第二窗口、第三窗口和第四窗口，而不需要再重新划分窗口。

根据本发明的实施例，优选地，步骤(2-2)所述回归模型为LOESS回归模型。

根据本发明的实施例，优选地，步骤(2-5)包括：

(2-5-1)根据正常样本的各第四窗口深度建立一矩阵，并对所述矩阵进行主成分分析，获得所述矩阵的特征向量矩阵；以及

(2-5-2)读取经步骤(2-4)校正后的待测样本的各第四窗口深度，将所述各第四窗口的深度乘以所述特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。

根据本发明的实施例，步骤(3)包括：

(3-1)对校正后的测序结果进行分割获得若干具有相同拷贝数的片段；

(3-2)对于每一个所述片段，计算所述片段的z值，其中z值＝(待测样本所述片段的深度-正常样本在所述片段对应片段的平均深度)/正常样本在所述片段对应片段的方差；以及

(3-3)将z值的绝对值大于一预定值的片段标记为潜在拷贝数变异片段。

根据本发明的实施例，优选地，所述预定值为3。

根据本发明的实施例，步骤(4)包括：

(4-1)对于每一个所述潜在拷贝数变异片段，计算所述潜在拷贝数变异片段的对数发生比以及所述潜在拷贝数变异片段所在染色体的对数发生比；以及

(4-2)当一潜在拷贝数变异片段的对数发生小于一预定值且其所在染色体的对数发生比大于一预定值时，将所述潜在拷贝数变异片段标记为拷贝数变异片段。

根据本发明的实施例，优选地，所述预定值为0。第二方面，本发明提供一种染色体变异的检测装置，包括：

待测样本测序单元，所述待测样本测序单元用于对含有核酸的待测样本进行测序，获得由若干测序数据构成的测序结果；

待测样本校正单元，所述待测样本校正单元与待测样本测序单元相连，并且用于使用正常数据集对所述测序结果进行校正；

分割单元，所述分割单元与所述待测样本校正单元相连，并用于对校正后的测序结果进行分割，获得若干数据片段；以及

检测单元，所述检测单元与所述分割单元相连，并用于检测所述若干数据片段是否为拷贝数变异片段。

根据本发明的实施例，还进一步包括正常数据集构建单元，所述正常数据集构建单元与待测样本校正单元相连，用于用若干正常样本的测序数据建立正常数据集。

根据本发明的实施例，所述待测样本为外周血。

根据本发明的实施例，所述外周血为来自于孕妇的外周血。

根据本发明的实施例，所述测序为高通量测序。

根据本发明的实施例，所述核酸为DNA。

根据本发明的实施例，所述正常数据集构建单元包括：

参考基因对比能力确定单元，用于将参考基因组连续划分成若干第一窗口，并确定各第一窗口的比对能力值；

正常样本相关性单元，所述正常样本相关性单元与所述参考基因对比能力确定单元相连，用于将参考基因组连续划分成若干第二窗口，确定各正常样本内GC含量与第二窗口深度的相关性，对于每一个所述第二窗口，利用所述第二窗口的GC含量对所述第二窗口的深度进行样本内与样本间的校正；

群体区域校正单元，所述群体区域校正单元与所述正常样本相关性单元相连，用于将参考基因组连续划分成若干第三窗口，根据各正常样本间相同位置的第三窗口的平均深度值对各第三窗口的深度进行群体区域的校正；以及

矩阵单元，所述矩阵单元与所述群体区域校正单元相连，用于将参考基因组连续划分成若干第四窗口，根据各所述第四窗口的深度建立一矩阵，根据所述矩阵对各第四窗口的深度进行校正。

根据本发明的实施例，优选地，所述参考基因对比能力确定单元包括：

打断单元，用于将参考基因组打断成若干相同长度的读段，再将所述读段比对回所述参考基因组；

第一窗口单元，所述第一窗口单元与所述打断单元相连，用于将所述参考基因组连续划分成若干所述第一窗口，其中所述第一窗口的长度大于所述读段的长度；

第一删除单元，所述第一删除单元与所述第一窗口单元相连，用于统计位于各第一窗口中的读段的数量，并将读段的数量小于一预定数量的第一窗口删除；和/或，计算各第一窗口中的重复区域比例，并将重复区域比例大于一预定比例的第一窗口删除；以及

第一比对能力校正单元，所述第一比对能力校正单元与所述第一删除单元相连，用于对于参考基因组中各未被删除的第一窗口，计算所述未被删除的第一窗口的平均读段数量，并将平均读段数量分别除以各未被删除的第一窗口的读段数量，以分别获得各未被删除的第一窗口的比对能力值。

根据本发明的实施例，优选地，所述正常样本相关性单元包括：

第二比对能力校正单元，用于将所述各正常样本的测序数据比对到所述参考基因组中，并对各正常样本的读段进行比对能力值的校正；

正常样本内窗口深度校正单元，所述正常样本内窗口深度校正单元与第二比对能力校正单元相连，用于将参考基因组连续划分成若干所述第二窗口，对于每个正常样本，统计其各第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并根据所述相关性与所述第二窗口的GC含量，利用回归模型对所述第二窗口的深度进行样本内的校正；以及

正常样本间整体窗口深度校正单元，所述正常样本间整体窗口深度校正单元与所述正常样本内窗口深度校正单元相连，用于对于进行样本内窗口深度校正后的所有正常样本，统计所有正常样本的第二窗口的GC含量及深度，获得所有正常样本的整体的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行样本间的校正。

根据本发明的实施例，优选地，所述群体区域校正单元包括：

第二删除单元，用于将所述参考基因组连续划分成若干所述第三窗口，统计所有正常样本的每个相同位置的所述第三窗口深度的平均值及方差，并计算每个相同位置的所述第三窗口的CV值，将所述CV值大于一预定值的第三窗口删除，其中所述每个相同位置的所述第三窗口的CV值等于所述第三窗口深度的方差除以平均值；以及

第一深度校正单元，所述第一深度校正单元与所述第二删除单元相连，用于计算所有未被删除的所述第三窗口的平均深度值，并用所述平均深度值对各未被删除的所述第三窗口的深度进行校正。

根据本发明的实施例，优选地，所述矩阵单元包括：

第一主成分分析单元，用于将所述参考基因组连续划分成若干所述第四窗口，根据各所述第四窗口的深度建立一矩阵，并对所述矩阵进行主成分分析，获得所述矩阵的特征向量矩阵；以及

第二深度校正单元，所述第二深度校正单元与所述第一主成分分析单元相连，用于对每个所述正常样本进行主成分分析，将每个正常样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各所述窗口的深度。

根据本发明的实施例，所述待测样本校正单元，包括：

第三比对能力校正单元，用于将所述待测样本的测序数据比对到参考基因组中，对所述待测样本的各读段进行比对能力值的校正；

待测样本内窗口深度校正单元，所述待测样本内窗口深度校正单元与所述第三比对能力校正单元相连，用于统计各所述第二窗口的深度以及GC含量，获得所述待测样本内的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行样本内的校正；

样本间校正单元，所述样本间校正单元与所述待测样本内窗口深度校正单元相连，用于根据正常样本中GC含量与第二窗口深度的相关性，利用回归模型对待测样本的经所述待测样本内窗口深度校正单元校正后的各第二窗口深度进行样本间的校正；

第三深度校正单元，所述第三深度校正单元与所述样本间校正单元相连，用于读取经样本间校正单元校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对所述待测样本的各第三窗口的深度进行校正；

第四深度校正单元，所述第四深度校正单元与所述第三深度校正单元相连，用于读取经第三深度矫正单元校正后的待测样本的各第四窗口深度，根据各正常样本的第四窗口的深度建立的所述矩阵对所述待测样本的各第四窗口的深度进行校正。

根据本发明的实施例，优选地，样本间校正单元所述回归模型为LOESS回归模型。

根据本发明的实施例，优选地，所述第四深度校正单元包括：

矩阵建立单元，用于根据正常样本的各第四窗口的深度建立一矩阵，并对该矩阵进行主成分分析，获得该矩阵的特征向量矩阵；以及

主成分校正深度单元，所述主成分校正深度单元与所述矩阵建立单元相连，用于读取经第三深度校正单元校正后的待测样本的各第四窗口深度，将所述待测样本的各第四窗口的深度乘以所述特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。

根据本发明的实施例，所述分割单元包括：

相同拷贝数单元，用于对经待测样本校正单元校正后的测序结果进行分割获得若干具有相同拷贝数的片段；

z值计算单元，所述z值计算单元与所述相同拷贝数单元相连，用于对于每一个所述片段，计算所述片段的z值，其中z值＝(待测样本所述片段的深度-正常样本在所述片段对应片段的平均深度)/正常样本在所述片段对应片段的方差；以及

潜在拷贝数变异片段标记单元，所述潜在拷贝数变异片段标记单元与所述z值计算单元相连，用于将z值的绝对值大于一预定值的片段标记为潜在拷贝数变异片段。

根据本发明的实施例，优选地，所述预定值为3。

根据本发明的实施例，所述检测单元包括：

对数发生比计算单元，用于对于每一个潜在拷贝数变异片段，计算该潜在拷贝数变异片段的对数发生比以及该该潜在拷贝数变异片段所在染色体的对数发生比；以及

拷贝数变异片段确定单元，用于当一潜在拷贝数变异片段的对数发生小于一预定值且其所在染色体的对数发生比大于一预定值时，将该潜在拷贝数变异片段标记为拷贝数变异片段。

根据本发明的实施例，优选地，所述预定值为0。

依据上述实施例的染色体变异的检测方法及装置，由于用若干正常样本建立正常数据集，并使用所述正常数据集对待测样本的测序数据进行校正，从而降低了染色体异常漏检的概率，降低了假阳性和假阴性，对染色体非整体和染色体拷贝数变异具有更高的检测准确性，且能在低胎儿深度条件下检测出片段更小的染色体拷贝数变异。。

附图说明

图1是本申请一实施例的染色体变异的检测方法的流程示意图；

图2是本申请一实施例的染色体变异的检测方法中步骤S100的流程示意图；

图3是本申请一实施例的染色体变异的检测方法中步骤S110的流程示意图；

图4是本申请一实施例的染色体变异的检测方法中步骤S130的流程示意图；

图5是本申请一实施例的染色体变异的检测方法中步骤S150的流程示意图；

图6是本申请一实施例的染色体变异的检测方法中步骤S170的流程示意图；

图7是本申请一实施例的染色体变异的检测方法中步骤S300的流程示意图；

图8是本申请一实施例的染色体变异的检测方法中步骤S390的流程示意图；

图9是本申请一实施例的染色体变异的检测方法中步骤S500的流程示意图；

图10是本申请一实施例的染色体变异的检测方法中步骤S700的流程示意图；

图11是本申请一实施例的染色体变异的检测装置的结构示意图；

图12是本申请一实施例的染色体变异的检测装置中正常数据集构建单元的结构示意图；

图13是本申请一实施例的染色体变异的检测装置中参考基因对比能力确定单元的结构示意图；

图14是本申请一实施例的染色体变异的检测装置中正常样本相关性单元的结构示意图；

图15是本申请一实施例的染色体变异的检测装置中群体区域校正单元的结构示意图；

图16是本申请一实施例的染色体变异的检测装置中矩阵单元的结构示意图；

图17是本申请一实施例的染色体变异的检测装置中待测样本校正单元的结构示意图；

图18是本申请一实施例的染色体变异的检测装置中第四深度校正单元的结构示意图；

图19是本申请一实施例的染色体变异的检测装置中分割单元的结构示意图；

图20是本申请一实施例的染色体变异的检测装置中检测单元的结构示意图；

图21为一实例中待测样本各染色体的对数发生比的图像曲线；

图22为一实例中9号染色体的对数发生比的图像曲线；

图23为一实例中21号染色体的对数发生比的图像曲线；

图24为一实例中18号染色体的对数发生比的图像曲线；

图25为一实例中10号染色体的对数发生比的图像曲线。

具体实施方式

针对现有技术方案存在的问题，本发明克服现有数据校正方法中的缺陷，降低了现有技术中由于采用同一批次样本进行对照而导致染色体异常漏检的几率；解决不同批次样本之间的偏向性所导致的检测结果的假阳性和假阴性结果；解决同时检测染色体非整体性检测(包括常染色体异常和性染色体异常)和染色体拷贝数变异检测的问题；提高染色体非整倍性嵌合体的检出效果；提高对10Mb以下以及在低游离核酸比例时的染色体拷贝数变异的检出效果；降低了数据的偏向性以及由此产生的检测结果的假阳性和假阴性率。

术语

样本：本发明所述样本为含有核酸的生物样本。

正常样本：本发明所述正常样本为经羊水穿刺或绒毛膜取样检测发现其核型正常，并用现有技术判定其不存在染色体数目变异与拷贝数变异的样本。

读段：本发明所述读段为高通量测序中一个反应所获得的核酸测序序列，也称为reads。

窗口：本发明所述窗口为根据需要在参考基因组上划分的具有固定大小值的若干区段。比如，500bp的窗口、2kbp的窗口等。

窗口深度：本发明所述窗口深度为比对到该窗口的读段数目乘以读段长度，再除以窗口的长度。上述计算窗口深度的公式可以预设于计算机中，统计时可以根据该计算公式直接获得窗口深度数值。

相同位置的窗口：本发明所述相同位置的窗口为各个不同样本比对到参考基因组上的同一区段所在的窗口。

片段：本发明所述片段为染色体上长度不等的核酸序列。

片段深度：本发明所述片段深度为片段内的读段数目乘以读段长度，再除以片段的长度。上述计算片段深度的公式可以预设于计算机中，统计时可以根据该计算公式直接获得片段深度数值。

重复区域：本发明所述重复区域为核酸序列中存在串联重复序列的区域。

样本内的校正：本发明所述样本内的校正为一个样本内部所有核酸测序数据的校正。

样本间的校正：本发明所述样本间的校正为不同样本之间所有核酸测序数据的校正。

群体区域的校正：本发明所述群体区域的校正为在同一参考基因组区段上的群体样本的核酸测序数据的校正。

正常数据集：本发明所述正常数据集为无染色体数目变异与拷贝数变异的样本的核酸测序数据的集合。

下面通过若干实施例并结合附图对本申请作进一步地说明。

请参照图1，本实施例公开了一种染色体变异的检测方法，包括待测样本测序步骤S000、待测样本测序数据校正步骤S300、分割步骤S500和检测步骤S700。下面具体说明。

步骤S000：对含有核酸的待测样本进行测序，获得由若干测序数据构成的测序结果。在一实施例中，所述待测样本为来自于孕妇的外周血。在一实施例中，所述核酸为DNA。在一实施例中，所述测序为第二代高通量测序，比如采用BGISEQ-50测序平台。

在待测样本测序数据校正步骤S300中需要使用正常数据集来对步骤S000中的测序结果进行校正，需要说明的是，该正常数据集可以是在步骤S000对待测样本进行测序之前就被提前构建好并预设在计算机***中，使用时直接调用即可；该正常数据集也可以是在步骤S000对待测样本完成测序后，再进行构建。在一实施例中，染色体变异的检测方法还可以包括步骤S100，下面具体说明。

步骤S100：使用若干正常样本的核酸测序数据建立正常数据集。在一实施例中，可以用200个正常样本的核酸测序数据来建立正常数据集。请参照图2，在一实施例中，步骤S100包括步骤S110～S170。

步骤S110：将参考基因组连续划分成若干具有固定长度的第一窗口，并确定各第一窗口的比对能力值。具体地，请参照图3，在一实施例中，步骤S110可以包括步骤S111～S117。

步骤S111：将参考基因组打断成若干具有相同长度的读段再将这些读段比对回上述参考基因组。根据不同的测序平台，选择不同的读段长度。读段的长度通常为25-200bp。例如，将参考基因组打断成35bp大小的读段，再将这些读段比对回参考基因组。

步骤S113：将上述参考基因组连续划分成若干具有固定长度的第一窗口，其中第一窗口的长度大于所述读段的长度。例如，每一窗口的长度为500bp，即将参考基因组连续划分成若干500bp的不重叠的第一窗口。

步骤S115：统计位于各第一窗口中的读段的数量，并将读段的数量小于预定数量的第一窗口删除；和/或，计算各第一窗口中的重复区域比例，并将重复区域比例大于预定比例(例如20％)的第一窗口删除。其中，预定数量通常为正常样本数目乘以0.01所得的数值。

步骤S117：对于参考基因组中各未被删除的第一窗口，计算所有未被删除的第一窗口的平均读段数量，并将平均读段数量分别除以各未被删除的第一窗口的读段数量，以分别获得各未被删除的第一窗口的比对能力值(即ratio值)。

步骤S130：将参考基因组连续划分成若干具有固定长度的第二窗口，确定各正常样本内GC含量与第二窗口深度的相关性，对于每一个第二窗口，利用该第二窗口的GC含量对该第二窗口的深度进行样本内与样本间的校正。具体地，请参照图4，在一实施例中，步骤S130可以包括步骤S131～S135。

步骤S131：将上述各正常样本的测序数据比对到上述参考基因组中，并对各正常样本的读段进行比对能力值的校正。例如，将200个正常样本的测序数据比对到参考基因组中，进行比对能力值的校正，在一实施例中，比对能力值的校正，可以是对正常样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

步骤S133：将参考基因组连续划分成若干具有固定长度的第二窗口，对于每个正常样本，统计它的各个第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并对每个第二窗口，根据该相关性与第二窗口的GC含量，利用回归模型，对该第二窗口的深度进行样本内的校正。例如，将参考基因组连续划分成若干长度为500kbp的不重叠的第二窗口，统计每个正常样本的每个第二窗口的深度及CG含量，从而获得每个正常样本内GC含量与深度之间的相关性；利用LOESS回归模型，依据每个第二窗口的GC含量与该相关性，对每个第二窗口的深度进行样本内的校正；在一实施例中，步骤S133中对每个第二窗口的深度进行样本内的校正，即校正后的深度等于校正前的深度除以校正系数，校正系数由LOESS回归模型对每个正常样本内GC含量与深度之间的相关性进行回归得出。

步骤S135：对于进行样本内校正后的所有正常样本，统计所有正常样本的第二窗口的GC含量及深度，获得所有正常样本的整体的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据该相关性与所述第二窗口的GC含量，利用回归模型，对该第二窗口的深度进行样本间的校正。例如，统计200个正常样本经过步骤S133校正后的所有第二窗口的GC含量及深度，获得200个正常样本整体的GC含量和深度之间的相关性文件；再次利用LOESS回归模型，对每个样本每个第二窗口的深度进行样本间的校正。在一实施例中，步骤S135中对每个第二窗口的深度进行样本间的校正，即校正后的深度等于校正前的深度除以校正系数，其中校正系数由LOESS回归模型对200个正常样本整体的GC含量和深度之间的相关性进行回归得出。

步骤S150：将参考基因组连续划分成若干具有固定长度的第三窗口，根据各第三窗口的平均深度值对各第三窗口的深度进行校正。具体地，请参照图5，在一实施例中，步骤S150可以包括步骤S151和S153。

步骤S151：将参考基因组连续划分成若干具有固定长度的第三窗口，统计所有正常样本的各相同位置的第三窗口深度的平均值及方差，并计算所有正常样本的各相同位置的第三窗口的CV值，将CV值大于一预定值的第三窗口删除，其中各相同位置的第三窗口的CV值等于该窗口深度方差除以该窗口平均深度值。例如，将参考基因组连续划分成若干长度为100kbp的不重叠的第三窗口，统计200个正常样本的每个相同位置的第三窗口深度的平均值及方差，从而获得每个第三窗口的CV值，其中任意一第三窗口的CV值等于这200个正常样本中该相同位置的第三窗口深度的方差除以该窗口平均深度值；将CV值大于一预定值(例如0.25)的第三窗口删除，因为这说明该第三窗口波动性很大，不稳定。

步骤S153：利用所有未被删除的第三窗口深度平均值，对各未被删除的第三窗口的深度进行校正。在一实施例中，步骤S153中对任一第三窗口的深度进行校正，可以是将该相同位置第三窗口平均深度值除以该第三窗口的深度，获得该第三窗口校正后的深度。

步骤S170：将参考基因组连续划分成若干具有固定长度的第四窗口，根据各第四窗口的深度建立一矩阵，根据该矩阵对各第四窗口的深度进行校正。具体地，请参照图6，在一实施例中，步骤S170可以包括步骤S171和S173。

步骤S171：将参考基因组连续划分成若干具有固定长度的第四窗口，根据各第四窗口的深度建立一矩阵，并对该矩阵进行主成分分析，获得该矩阵的特征向量矩阵。例如，将上述参考基因组连续划分成若干长度为500kbp的不重叠的第四窗口，对200个正常样本每个第四窗口经步骤S153校正后的深度构成的矩阵进行主成分分析，即计算获得其特征向量矩阵。

步骤S173：对每个正常样本进行主成分分析，将每个正常样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。例如，对每个正常样本本进行主成分分析后，将前十个主成分删除，从而可以去除很多影响因素，这些影响因素包括不同批次样本间的偏向性，样本来源的不同环境，及其它噪音等；这样之后，可以获得PCA(主成分分析，Principal Component Analysis)校正后的每个第四窗口的深度文件。

步骤S300：使用上述正常数据集对待测样本进行校正。请参照图7，在一实施例中，步骤S300采用5步骤校正，其包括步骤S310～S390。

步骤S310：将待测样本的测序数据比对到参考基因组中，对待测样本的各读段进行比对能力值的校正。在一实施例中，比对能力值的校正，可以是对待测样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

步骤S330：统计各第二窗口的深度以及GC含量，获得待测样本内的GC含量与窗口深度的相关性；并对每个第二窗口，根据该相关性与该窗口的GC含量，利用回归模型对该第二窗口的深度进行样本内的校正。步骤S330用于对待测样本的第二窗口深度进行样本内的校正，具体地，步骤S330可以为：采用500kbp的第二窗口，统计待测样本全基因组范围内所有第二窗口的深度及其GC含量，获得其相关性；利用LOESS回归模型与该相关性，对每个第二窗口的深度进行样本内的校正。

步骤S350：根据正常样本整体的GC含量与第二窗口深度的相关性，利用回归模型对待测样本的经步骤S330校正后的各第二窗口深度进行样本间的校正。步骤S350是用于对待测样本进行样本间的校正，具体地，步骤S350可以为：利用200个正常样本数据获得的整体窗口深度与GC含量相关性文件，对待测样本的经步骤S330校正后的每个第二窗口深度进行样本间的校正，依然使用LOESS回归模型。

步骤S370：读取经步骤S350校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对待测样本的各第三窗口深度进行校正。例如，利用200个正常样本数据获得的具有稳定深度的区域信息文件，对待测样本的经步骤S350校正后的每个第三窗口深度进行校正，即将步骤S153获得的正常样本中各未被删除的第三窗口的平均深度除以该待测样本经步骤S350校正后的每个对应第三窗口的深度，获得校正后的待测样本每个对应第三窗口的深度。

步骤S390：读取经步骤S370校正后的待测样本的各第四窗口深度，并根据各正常样本的第四窗口的深度建立的所述矩阵对待测样本的各第四窗口深度进行校正。具体地，请参照图8，在一实施例中，步骤S390可以包括步骤S391和S393。

步骤S391：将参考基因组连续划分成若干具有固定长度的不重叠的第四窗口，根据各第四窗口的深度建立一矩阵，并对该矩阵进行主成分分析，获得该矩阵的特征向量矩阵。当步骤S171存在时，则步骤S391可以省略。

步骤S393：读取经步骤S370校正后的待测样本的各第四窗口深度，将待测样本各第四窗口的深度乘以上述矩阵的特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个主成分删除，再乘以上述特征向量矩阵的逆矩阵，获得待测样本的主成分分析校正后的各第四窗口的深度。

步骤S500：对校正后的待测样本的测序数据进行分割获得若干数据片段。请参照图9，在一实施例中，步骤S500包括步骤S510～S550。

步骤S510：对经步骤S393校正后的待测样本的测序数据进行分割获得若干具有相同拷贝数的片段。例如，利用二元分割算法(具体过程请参考文献Olshen AB，VenkatramanES，Lucito R，Wigler M(2004)Circular binary segmentation for the analysis ofarray-based DNA copy number data.Biostatistics 5：557-572.)对经步骤S393校正后的待测样本数据进行分割，获得具有相同拷贝数的片段。

步骤S530：对于每一个片段，计算该片段的z值，其中z值＝(待测样本该片段的深度-正常样本在该片段对应片段的平均深度)/正常样本在该片段对应片段的方差。

步骤S550：将z值的绝对值大于一预定值的片段标记为潜在拷贝数变异片段。

步骤S700：检测各数据片段是否为拷贝数变异片段。请参照图10，在一实施例中，步骤S700包括步骤S710和S730。

步骤S710：对于每一个潜在拷贝数变异片段，计算该潜在拷贝数变异片段的对数发生比以及该潜在拷贝数变异片段所在染色体的对数发生比。

步骤S730：当一潜在拷贝数变异片段的对数发生小于一预定值且其所在染色体的对数发生比大于一预定值时，将该潜在拷贝数变异片段标记为拷贝数变异片段。在一实施例中，所述拷贝数变异(CNVs)片段为微缺失片段、或微重复片段、或其组合。例如，利用LOGOdds RATIO的统计学方法检验潜在的拷贝数变异片段是否为真假：计算每个潜在拷贝数变异片段的对数发生值(LOG Odds RATIO值)，同时计算该片段所在的染色体的对数发生值(LOG Odds RATIO值)，当染色体的LOG Odds RATIO值大于0，片段的LOG Odds RATIO值小于0时，认为潜在拷贝数变异片段为拷贝数变异片段。对数生发值的计算如下：

其中f为待测样本的游离核酸比例，参照专利“确定生物样本中游离核酸比例的方法，装置及其用途”(申请号：PCT/CN2015/085109)所公开的方法计算游离核酸比例；Z为z值，参照上述步骤S530所公开的z值计算公式来计算，其中计算“潜在拷贝数变异片段所在染色体的对数发生比”时，将所述染色体看作z值计算公式中的片段。P(affected|Z，f)和P(eupliid|Z，f)分别为一定Z值和游离核酸比例下，该片段为CNVs和正常区域的后验概率。P(affected)和P(euploid)分别为该片段为CNVs或正常区域的先验概率。P(Z|affected，f)和P(Z|euploid，f)为在一定游离核酸比例下，该片段为CNV或正常区域的条件概率。

本申请还公开了一种染色体变异的检测装置，请参照图11，其包括待测样本测序单元000、待测样本校正单元300、分割单元500和检测单元700。

待测样本测序单元000用于对含有核酸的待测样本进行测序，获得由若干测序数据构成的测序结果。在一实施例中，所述待测样本为来自于孕妇的外周血。在一实施例中，所述核酸为DNA。在一实施例中，所述测序为第二代高通量测序，比如采用BGISEQ-50测序平台。

在待测样本校正单元300中需要使用正常数据集来对待测样本测序单元000中的测序结果进行校正，需要说明的是，该正常数据集可以是在待测样本测序单元000对待测样本进行测序之前就被提前构建好并预设在计算机***中，使用时直接调用即可；该正常数据集也可以是在待测样本测序单元000对待测样本完成测序后，再进行构建。在一实施例中，染色体变异的检测装置还可以包括正常数据集构建单元100，下面具体说明。正常数据集构建单元100用于用若干正常样本的核酸测序数据建立正常数据集。在一实施例中，正常数据集构建单元100可以用200个正常样本的核酸测序数据来建立正常数据集。请参照图12，在一实施例中，正常数据集构建单元100包括参考基因对比能力确定单元110、正常样本相关性单元130、群体区域校正单元150和矩阵单元170。

参考基因对比能力确定单元110用于将参考基因组连续划分成若干具有固定长度的第一窗口，并确定各第一窗口的比对能力值。具体地，请参照图13，在一实施例中，参考基因对比能力确定单元110可以打断单元111、第一窗口单元113、第一删除单元115和第一比对能力校正单元117。

打断单元111，用于将参考基因组打断成若干具有相同长度的读段，再将这些读段比对回所述参考基因组。根据不同的测序平台，选择不同的读段长度。读段的长度通常为25-200bp。例如，打断单元111将参考基因组打断成35bp大小的读段，再将这些读段比对回参考基因组。

第一窗口单元113，该第一窗口单元113与打断单元111相连，用于将所述参考基因组连续划分成若干具有规定长度的所述第一窗口，其中所述第一窗口的长度大于所述读段的长度。例如，第一窗口单元113中每一窗口的长度为500bp，即将参考基因组连续划分成若干500bp的不重叠的窗口。

第一删除单元115，该第一删除单元115与第一窗口单元113相连，用于统计位于各第一窗口中的读段的数量，并将读段的数量小于一预定数量的第一窗口删除；和/或，计算各第一窗口中的重复区域比例，并将重复区域比例大于一预定比例(例如20％)的第一窗口删除。其中，预定数量通常为正常样本数目乘以0.01所得的数值。

第一比对能力校正单元117，该第一比对能力校正单元117与第一删除单元115相连，用于对于参考基因组中各未被删除的第一窗口，计算所有未被删除的第一窗口的平均读段数量，并将平均读段数量分别除以各未被删除的第一窗口的读段数量，以分别获得各未被删除的第一窗口的比对能力值(即ratio值)。

正常样本相关性单元130，正常样本相关性单元130与参考基因对比能力确定单元110相连，用于将参考基因组连续划分成若干具有固定长度的第二窗口，确定各正常样本内GC含量与第二窗口深度的相关性，对于每一个第二窗口，利用该第二窗口的GC含量对该第二窗口的深度进行样本内与样本间的校正。具体地，请参照图14，在一实施例中，正常样本相关性单元130可以包括第二比对能力校正单元131、正常样本内窗口深度校正单元133和正常样本间整体窗口深度校正单元135。

第二比对能力校正单元131，用于将上述各正常样本的测序数据比对到上述参考基因组中，并对各正常样本的读段进行比对能力值的校正。例如，第二比对能力校正单元131将200个正常样本的测序数据比对到参考基因组中，进行比对能力值的校正，在一实施例中，比对能力值的校正，可以是对正常样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

正常样本内窗口深度校正单元133，该正常样本内窗口深度校正单元133与第二比对能力校正单元131相连，用于将参考基因组连续划分成若干所述第二窗口，对于每个正常样本，统计它的各个第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并对每个第二窗口，根据该相关性与第二窗口的GC含量，利用回归模型对该第二窗口的深度进行样本内的校正。例如，正常样本内窗口深度校正单元133将参考基因组连续划分成若干长度为500kbp的不重叠的第二窗口，统计每个正常样本的每个第二窗口的深度及CG含量，从而获得每个正常样本内GC含量与深度之间的相关性；利用LOESS回归模型，依据每个第二窗口的GC含量与该相关性，对每个第二窗口的深度进行样本内的校正；在一实施例中，正常样本内窗口深度校正单元133对每个第二窗口的深度进行样本内的校正，即校正后的深度等于校正前的深度除以校正系数，校正系数由LOESS回归模型对每个正常样本内GC含量与深度之间的相关性进行回归得出。

正常样本间整体窗口深度校正单元135，该正常样本间整体窗口深度校正单元135与正常样本内窗口深度校正单元133相连，用于对于进行样本内窗口深度校正后的所有正常样本，统计所有正常样本的第二窗口的GC含量及深度，获得所有正常样本的整体的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据该相关性与所述第二窗口的GC含量，利用回归模型，对该第二窗口的深度进行样本间的校正。例如，正常样本间整体窗口深度校正单元135统计200个正常样本经过窗口深度校正单元133校正后的所有第二窗口的GC含量及深度，获得200个正常样本整体的GC含量和深度之间的相关性文件；再次利用LOESS回归模型，对每个样本每个第二窗口的深度进行样本间的校正。在一实施例中，正常样本间整体窗口深度校正单元135中对每个第二窗口的深度进行样本间的校正，即校正后的深度等于校正前的深度除以校正系数，其中校正系数由LOESS回归模型对200个正常样本整体的GC含量和深度之间的相关性进行回归得出。

群体区域校正单元150，用于将参考基因组连续划分成若干具有固定长度的第三窗口，根据各第三窗口的平均深度值对各第三窗口的深度进行校正。具体地，请参照图15，在一实施例中，群体区域校正单元150可以包括第二删除单元151和第一深度校正单元153。

第二删除单元151用于将上述参考基因组连续划分成若干具有固定长度的所述第三窗口，统计所有正常样本的各相同位置的第三窗口深度的平均值及方差，并计算所有正常样本的各相同位置的第三窗口的CV值，将CV值大于一预定值的第三窗口删除，其中各相同位置的第三窗口的CV值等于该窗口深度方差除以该窗口平均深度值。例如，第二删除单元151将参考基因组连续划分成若干长度为100kbp的不重叠的第三窗口，统计200个正常样本的每个相同位置的第三窗口深度的平均值及方差，从而获得每个第三窗口的CV值，其中任意一第三窗口的CV值等于这200个正常样本中该相同位置的第三窗口深度的方差除以该窗口平均值；将CV值大于一预定值(例如0.25)的第三窗口删除，因为这说明该第三窗口波动性很大，不稳定。

第一深度校正单元153用于利用所有未被删除的第三窗口的平均深度值，对各未被删除的第三窗口的深度进行校正。在一实施例中，第一深度校正单元153中对任一第三窗口的深度进行校正，可以是将该相同位置第三窗口平均深度值除以该第三窗口的深度，获得该第三窗口校正后的深度。

矩阵单元170用于将参考基因组连续划分成若干具有固定长度的第四窗口，根据各第四窗口的深度建立一矩阵，根据该矩阵对各第四窗口的深度进行校正。具体地，请参照图16，在一实施例中，矩阵单元170可以包括第一主成分分析单元171和第二深度校正单元173。

第一主成分分析单元171用于将所述参考基因组连续划分成若干所述第四窗口，根据各第四窗口的深度建立一矩阵，并对该矩阵进行主成分分析，获得该矩阵的特征向量矩阵。例如，第一主成分分析单元171将上述参考基因组连续划分成若干长度为500kbp的不重叠的第四窗口，对200个正常样本每个第四窗口经第一深度校正单元153校正后的深度构成的矩阵进行主成分分析，即计算获得其特征向量矩阵。

第二深度校正单元173用于对每个正常样本进行主成分分析，将每个正常样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。例如，第二深度校正单元173对每个正常样本本进行主成分分析后，将前十个主成分删除，从而可以去除很多影响因素，这些影响因素包括不同批次样本间的偏向性，样本来源的不同环境，及其它噪音等；这样之后，可以获得PCA(主成分分析，PrincipalComponent Analysis)校正后的每个第四窗口的深度文件。

待测样本校正单元300用于使用上述正常数据集对待测样本进行校正。请参照图17，在一实施例中，待测样本校正单元300采用5单元校正，其包括第三比对能力校正单元310、待测样本内窗口深度校正单元330、样本间校正单元350、第三深度校正单元370和第四深度校正单元390。

第三比对能力校正单元310用于将待测样本的测序数据比对到参考基因组中，对待测样本的各读段进行比对能力值的校正。在一实施例中，比对能力值的校正，可以是对待测样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

待测样本内窗口深度校正单元330用于统计各第二窗口的深度以及GC含量，获得待测样本内的GC含量与窗口深度的相关性；并对每个第二窗口，根据该相关性与该窗口的GC含量，利用回归模型对该第二窗口的深度进行样本内的校正。待测样本内窗口深度校正单元330是用于对待测样本的第二窗口深度进行样本内的校正，具体地，待测样本内窗口深度校正单元330可以为：采用500kbp的第二窗口，统计待测样本全基因组范围内所有第二窗口的深度及其GC含量，获得其相关性；利用LOESS回归模型与该相关性，对每个第二窗口的深度进行样本内的校正。

样本间校正单元350用于根据正常样本整体的GC含量与第二窗口深度的相关性，利用回归模型对待测样本的经待测样本内窗口深度校正单元330校正后的各第二窗口深度进行样本间的校正。样本间校正单元350是用于对待测样本进行样本间GC含量的校正，具体地，样本间校正单元350可以为：利用200个正常样本数据获得的整体窗口深度与GC含量相关性文件，对待测样本的经待测样本内窗口深度校正单元330校正后的每个第二窗口深度进行样本间的校正，依然使用LOESS回归模型。

第三深度校正单元370用于读取经样本间校正单元350校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对待测样本的各第三窗口深度进行校正。例如，第三深度校正单元370利用200个正常样本数据得到的具有稳定深度的区域信息文件，对待测样本的经样本间校正单元350校正后的每个第三窗口深度进行校正，即将第一深度校正单元153获得的正常样本中各未被删除的第三窗口的平均深度除以该待测样本经样本间校正单元350校正后的每个对应第三窗口的深度，获得校正后的待测样本每个对应第三窗口的深度。

第四深度校正单元390用于读取经第三深度校正单元370校正后的待测样本的各第四窗口深度，并根据各正常样本的第四窗口的深度建立的所述矩阵对待测样本的各第四窗口深度进行校正。具体地，请参照图18，在一实施例中，第四深度校正单元390可以包括矩阵建立单元391和主成分校正深度单元393。

矩阵建立单元391用于将参考基因组连续划分成若干具有固定长度的不重叠的第四窗口，根据各第四窗口的深度建立一矩阵，并对该矩阵进行主成分分析，获得该矩阵的特征向量矩阵。当第一主成分分析单元171存在时，则矩阵建立单元391可以省略。

主成分校正深度单元393用于读取经第三深度校正单元370校正后的待测样本的各第四窗口深度，并将待测样本各第四窗口的深度乘以所述特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个(例如十个)主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。

分割单元500用于对校正后的待测样本的测序数据进行分割获得若干数据片段。请参照图19，在一实施例中，分割单元500包括相同拷贝数单元510、z值计算单元530和潜在拷贝数变异片段标记单元550。

相同拷贝数单元510用于对经待测样本校正单元300校正后的待测样本的测序数据进行分割获得若干具有相同拷贝数的片段。例如，相同拷贝数单元510利用二元分割算法(具体过程请参考文献Olshen AB，Venkatraman ES，Lucito R，Wigler M(2004)Circularbinary segmentation for the analysis of array-based DNA copy numberdata.Biostatistics 5：557-572.)对经主成分校正深度单元393校正后的待测样本数据进行分割，获得具有相同拷贝数的片段。

z值计算单元530用于对于每一个片段，计算该片段的z值，其中z值＝(待测样本该片段的深度-正常样本在该片段对应片段的平均深度)/正常样本在该片段对应片段的方差；

潜在拷贝数变异片段标记单元550用于将z值的绝对值大于一预定值的片段标记为潜在拷贝数变异片段。

检测单元700用于检测各数据片段是否为拷贝数变异片段。请参照图20，在一实施例中，检测单元700包括对数发生比计算单元710和拷贝数变异片段确定单元730。

对数发生比计算单元710用于对于每一个潜在拷贝数变异片段，计算该拷贝数变异片段的对数发生比以及该该潜在拷贝数变异片段所在染色体的对数发生比。

拷贝数变异片段确定单元730用于当一潜在拷贝数变异片段的对数发生小于一预定值且其所在染色体的对数发生比大于一预定值时，将该潜在拷贝数变异片段标记为拷贝数变异片段。在一实施例中，所述拷贝数变异(CNVs)片段为微缺失片段、或微重复片段、或其组合。例如，拷贝数变异片段确定单元730利用LOG Odds RATIO的统计学方法检验潜在的拷贝数变异片段是否为真假：计算每个潜在拷贝数变异片段的对数发生值(LOG OddsRATIO值)，同时计算该片段所在的染色体的对数发生值(LOG Odds RATIO值)，当染色体的LOG Odds RATIO值大于0，片段的LOG Odds RATIO值小于0时，认为潜在拷贝数变异片段为拷贝数变异片段；其中对数生发值的计算如下：

其中f为待测样本的游离核酸比例，参照专利“确定生物样本中游离核酸比例的方法，装置及其用途”(申请号：PCT/CN2015/085109)所公开的方法计算游离核酸比例；Z为z值，参照上述步骤S530所公开的z值计算公式来计算，其中计算“潜在拷贝数变异片段所在染色体的对数发生比”时，将所述染色体看作z值计算公式中的片段。P(affected|Z，f)和P(euploid|Z，f)分别为一定Z值和游离核酸比例下，该片段为CNVs和正常区域的后验概率。P(affected)和P(euploid)分别为该片段为CNVs或正常区域的先验概率。P(Z|affected，f)和P(Z|euploid，f)为在一定游离核酸比例下，该片段为CNV或正常区域的条件概率。

以上就是本申请公开的染色体变异的检测方法及装置，其采用同一批次样本和一定数量的正常样本作为对照，降低染色体异常漏检的可能性；在对待测样本所采用的5步校正法，尤其是主成分校正方法，能有效去除不同批次数据之间存在的偏向性；采用的联合片段检验方法(计算潜拷贝数变异片段的对数发生和其所在染色体的对数发生，当潜拷贝数变异片段的对数发生小于一预定值且其所在染色体的对数发生比大于一预定值时，将该潜在拷贝数变异片段标记为拷贝数变异片段)能有效降低假阳性和假阴性；与现有的技术相比拓展了检测的适用范围，对染色体非整倍性和染色体拷贝数变异具有更高的检测准确性，且能在低游离核酸比例条件下检测出片段更小的染色体拷贝数变异。

为了更好地理解本申请，下面再以一个例子进行说明。

取200例孕妇血浆正常样本()用于构建正常数据集，每例样本测序数据量5M，读段35bp。15例待检阳性临床孕妇血浆样本，按照BGISEQ-500测序仪的操作说明书进行文库构建与测序，获得每例样本测序数据量5M，读段35bp(依据羊水穿刺或绒毛膜取样发现核型异常，且依据现有技术判断其染色体存在拷贝数变异)。

首先就是用正常样本构建正常数据集。

(1)将参考基因组打断成35bp大小的读段，再用软件(例如BWA，Burrows-WheelerAligner)比对回参考基因组；将全基因组连续划分成500bp的窗口，统计每个窗口的唯一比对的读段数目，将比对率很低(如低于0.01)的窗口删除；分析每个窗口重复序列的覆盖情况(重复序列文件参考repeatMasker)，将重复区域大于20％的窗口删除。

(2)对未被删除的窗口，将所有未被删除的窗口的平均读段数目除以每个未被删除的窗口的读段数目获得衡量每个未被删除的窗口的比对能力的ratio值。

(3)将200个正常样本的测序数据比对到参考基因组中，进行比对能力值的校正，即对正常样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

(4)计算每条读段的GC含量，采用500kbp的窗口，统计每个样本每个窗口的深度及GC含量，从而获得每个样本内GC含量与深度之间的相关性；利用LOESS回归模型，依据每个窗口的GC含量，对每个窗口的深度进行样本内的校正。即校正后的深度等于校正前的深度除以校正系数，校正系数由LOESS回归模型对每个正常样本内GC含量与深度之间的相关性进行回归得出。

(5)统计200个样本经校正后的所有窗口的GC含量及深度，获得200个样本的群体GC含量和深度之间的相关性文件；再次利用LOESS回归模型，对每个样本每个窗口的深度进行GC含量的校正。

(6)采用100kbp的窗口，统计200个样本每个相同位置窗口深度的平均值及方差，从而获得所有样本的每个相同位置窗口的CV值，将CV值大于0.25的窗口，即波动性很大的不稳定的窗口删除。

(7)对于未被删除的窗口，利用每个未被删除的窗口深度的平均值对未被删除的每个样本每个窗口的深度进行校正。

(8)采用500kbp的窗口，对步骤(7)校正后的200个样本每个窗口的深度构成的矩阵进行主成分分析(PCA)获得其特征向量矩阵；对每个样本进行主成分分析，将前十个主成分删除，然后获得PCA校正后的每个窗口的深度文件。

其次就是对待测样本进行校正。

(1)比对能力的校正：将待测样本的测序数据比对到参考基因组，对每条读段进行比对能力的校正。即对待测样本的每条读段都赋予其所在参考基因组对应窗口的比对能力值。

(2)样本内窗口深度的校正：采用500kbp的窗口，统计待测样本全基因组范围内所有窗口的深度及其GC含量，获得其相关性；利用LOESS回归模型与该相关性，对每个窗口的深度进行样本内的校正。

(3)样本间窗口深度的校正：利用200个正常样本数据获得的群体窗口深度与GC含量相关性文件(即利用正常样本构建正常数据集的方法步骤5获得的文件)，对待测样本的经步骤(2)校正后的每个窗口深度进行校正，依然使用LOESS回归模型。

(4)群体区域校正：采用100kbp的窗口，利用200个正常样本数据获得的具有稳定深度的区域信息文件(即利用正常样本构建正常数据集的方法步骤7获得的文件)，对待测样本的经步骤(3)校正后的每个窗口深度进行校正，即将步骤7获得的正常样本中各未被删除的窗口的平均深度除以该待测样本每个对应窗口的深度。

(5)PCA校正：采用500kbp窗口，读取经步骤(4)校正后的待测样本的窗口深度信息，与由200个正常样本获得的特征向量矩阵(利用正常样本构建正常数据集的方法步骤8获得的信息)相乘，获得待测样本的主成分，将前十个主成分删除后，再乘以特征向量矩阵的逆矩阵获得PCA校正后的每个窗口的深度信息文件。具体步骤可参考文献：Chen Zhao，John Tynan，Mathias Ehrich et al.Detection of Fetal SubchromosomalAbnormalities by Sequencing Circulating Cell-Free DNA from MaternalPlasma.Clinical Chemistry 61：4608-616，2015。

最后就是对校正后的待测样本进行拷贝数变异检测。

(1)利用二元分割算法对校正后的数据进行片段分割，获得具有相同拷贝数的片段。二元分割算法的具体方法可参考文献：Olshen AB，Venkatraman ES，Lucito R，WiglerM(2004)Circular binary segmentation for the analysis of array-based DNA copynumber data.Biostatistics 5：557-572。

(2)计算每个片段的深度，并与200个正常样本在该片段的平均深度和方差进行计算，获得该片段的z值，即z值＝(待测样本该片段的深度-正常样本在该片段对应片段的平均深度)/正常样本在该片段对应片段的方差。z值的绝对值大于3的片段将是潜在的拷贝数变异片段，将进行进一步的分析。

(3)利用LOG Odds RATIO的统计学方法检验潜在的拷贝数变异片段是否为真假：计算每个片段的LOG Odds RATIO值，同时计算该片段所在的染色体的LOG Odds RATIO值，当染色体的LOG Odds RATIO值大于0，片段的LOG Odds RATIO值小于0，且片段的z值大于3时，认为该片段属于拷贝数变异，具体地，该拷贝数变异类型为微缺失或微重复。

对数生发值的计算如下：

检测结果如下：

请参照图21，为待测样本的对数发生比(logRatio)的图像，即待测样本经过数据校正后，每条染色体每个窗口的读段数目与该样本全基因组范围内的平均读段数目的比值的logRatio值。

请参照图22，为9号染色体的logRatio曲线，其中横坐标为染色体9的索引值(index)，纵坐标为该待测样本的logRaito值；图中的点表示该待测样本在9号染色体每个窗口的logRaito值；黑色线为经过二元分割算法获得的片段，其中位于0参考线下方的一条黑色片段为一个微缺失发生的区域。

请参照图23，为21号染色体的logRatio曲线，其中横坐标为染色体21的index值，纵坐标为该待测样本的logRaito值；图中的点表示该待测样本在21号染色体每个窗口的logRaito值；黑色线为经过二元分割算法获得的片段，其中位于0参考线上方的一条黑色片段为一个微重复发生的区域。

请参照图24，为18号染色体的logRatio曲线图，其中横坐标为染色体18的index值，纵坐标为该待测样本的logRaito值；图中的点表示该待测样本在18号染色体每个窗口的logRaito值；黑色线为经过二元分割算法获得的片段，其中位于0参考线上方的黑色片段为微重复发生的区域，可见该样本为18染色体3体。

请参照图25，为10号染色体的logRatio曲线图，其中横坐标为染色体10的index值，纵坐标为该待测样本的logRaito值；图中的点表示该待测样本在10号染色体每个窗口的logRaito值；黑色线为经过二元分割算法获得的片段，其中位于0参考线上方的黑色片段为微重复发生的区域，该样本在染色体10的拷贝数异常升高，但未达到非整倍体的阈值，检测结果为染色体10三体的嵌合体。

因此，上述检测出1例18号染色体三体；2例16号染色体三体；一例XO；3例染色体三体嵌合；8例染色体微缺失/重复，其中6例的微缺失/重复片段小于10M，最低为1.1M。以上检测结果均进行了羊水或脐带血测序验证，与本申请检测结果完全一致。

通过以上实例可知，本申请能检测更高精度的拷贝数变异，如1M以下的拷贝数变异；在更低的游离核酸比例下，如小于5％的游离核酸比例，准确检测出拷贝数变异。

本申请公开的染色体变异的检测方法及装置，其可以包括人类或动物疾病诊断用途和非诊断用途；以非诊断用途为例，本申请公开的染色体变异的检测方法及装置可以应用于科学研究，此外还可以应用于植物染色体变异检测，其中植物染色体变异可以表现为植物的遗传性状变化。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。对于本领域的一般技术人员，依据本发明的思想，可以对上述具体实施方式进行变化。

Claims

1.一种非诊断治疗目的的染色体变异的检测方法，其特征在于，包括：

(2)使用正常数据集对所述测序结果进行校正；

(3)对校正后的测序结果进行分割，获得若干数据片段；以及

(4)检测所述若干数据片段是否为拷贝数变异片段；

使用若干正常样本的测序数据建立所述正常数据集；

所述使用若干正常样本的测序数据建立正常数据集包括：

(0-2)将参考基因组连续划分成若干第二窗口，确定各正常样本内GC含量与第二窗口深度的相关性，对于每一个所述第二窗口，利用所述第二窗口的GC含量对所述第二窗口的深度进行样本内样本间的校正；

2.如权利要求1所述的方法，其特征在于，所述待测样本为外周血。

3.如权利要求2所述的方法，其特征在于，所述外周血为来自于孕妇的外周血。

4.如权利要求1所述的方法，其特征在于，所述测序为高通量测序。

5.如权利要求1所述的方法，其特征在于，所述核酸为DNA。

6.如权利要求1所述的方法，其特征在于，所述拷贝数变异为微缺失、微重复或其组合。

7.如权利要求1所述的方法，其特征在于，步骤(0-1)包括：

8.如权利要求7所述的方法，其特征在于，步骤(0-2)包括：

(0-2-2)将所述参考基因组连续划分成若干所述第二窗口，对于每个正常样本，统计其各第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行样本内的校正；以及

9.如权利要求8所述的方法，其特征在于，步骤(0-2-2)所述回归模型为LOESS回归模型。

10.如权利要求1所述的方法，其特征在于，步骤(0-3)包括：

11.如权利要求10所述的方法，其特征在于，所述每个相同位置的所述第三窗口的CV值等于所述第三窗口深度的方差除以平均值。

12.如权利要求1所述的方法，其特征在于，步骤(0-4)包括：

13.如权利要求1所述的方法，其特征在于，步骤(2)包括：

(2-4)读取经步骤(2-3)校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对待测样本的各第三窗口的深度进行校正；以及

(2-5)读取经步骤(2-4)校正后的待测样本的各第四窗口深度，根据各正常样本的第四窗口的深度建立的所述矩阵对待测样本的各第四窗口的深度进行校正。

14.如权利要求13所述的方法，其特征在于，步骤(2-2)所述回归模型为LOESS回归模型。

15.如权利要求13所述的方法，其特征在于，步骤(2-5)包括：

(2-5-1)根据正常样本的各所述第四窗口的深度建立一矩阵，并对所述矩阵进行主成分分析，获得所述矩阵的特征向量矩阵；以及

(2-5-2)读取经步骤(2-4)校正后的待测样本的各第四窗口深度，并将待测样本各第四窗口的深度乘以所述特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。

16.如权利要求1所述的方法，其特征在于，步骤(3)包括：

17.如权利要求16所述的方法，其特征在于，步骤(3-3)所述预定值为3。

18.如权利要求1所述的方法，其特征在于，步骤(4)包括：

19.如权利要求18所述的方法，其特征在于，步骤(4-2)所述预定值为0。

20.一种染色体变异的检测装置，其特征在于，包括：

检测单元，所述检测单元与所述分割单元相连，并用于检测所述若干数据片段是否为拷贝数变异片段；

还包括正常数据集构建单元，所述正常数据集构建单元与待测样本校正单元相连，用于用若干正常样本的测序数据建立正常数据集；

所述正常数据集构建单元包括：

21.如权利要求20所述的装置，其特征在于，所述待测样本为外周血。

22.如权利要求21所述的装置，其特征在于，所述外周血为来自于孕妇的外周血。

23.如权利要求20所述的装置，其特征在于，所述测序为高通量测序。

24.如权利要求20所述的装置，其特征在于，所述核酸为DNA。

25.如权利要求20所述的装置，其特征在于，所述拷贝数变异为微缺失、微重复或其组合。

26.如权利要求20所述的装置，其特征在于，所述参考基因对比能力确定单元包括：

27.如权利要求20所述的装置，其特征在于，所述正常样本相关性单元包括：

正常样本内窗口深度校正单元，所述正常样本内窗口深度校正单元与第二比对能力校正单元相连，用于将参考基因组连续划分成若干所述第二窗口，对于每个正常样本，统计其各第二窗口的深度以及GC含量，获得每个正常样本内的GC含量与窗口深度的相关性；并根据所述相关性与所述第二窗口的GC含量，利用回归模型对所述第二窗口的深度进行校正；以及

正常样本间整体窗口深度校正单元，所述正常样本整体窗口深度校正单元与所述正常样本内窗口深度校正单元相连，用于对于进行样本内窗口深度校正后的所有正常样本，统计所有正常样本的第二窗口的GC含量及深度，获得所有正常样本的整体的GC含量与窗口深度的相关性；并对每个所述第二窗口，根据所述相关性与所述第二窗口的GC含量，利用回归模型，对所述第二窗口的深度进行样本间的校正。

28.如权利要求20所述的染色体变异的检测装置，其特征在于，所述群体区域校正单元包括：

29.如权利要求20所述的装置，其特征在于，所述矩阵单元包括：

30.如权利要求20所述的装置，其特征在于，所述待测样本校正单元，包括：

第三深度校正单元，所述第三深度校正单元与所述样本间校正单元相连，用于读取经样本间校正单元校正后的待测样本的各第三窗口深度，根据正常样本的第三窗口的平均深度值对所述待测样本的各所述第三窗口的深度进行校正；以及

第四深度校正单元，所述第四深度校正单元与所述第三深度校正单元相连，用于读取经第三深度矫正单元校正后的待测样本的各第四窗口深度，根据各正常样本的第四窗口的深度建立的所述矩阵对所述待测样本的各所述第四窗口的深度进行校正。

31.如权利要求30所述的装置，其特征在于，所述第四深度校正单元包括：

矩阵建立单元，用于根据所述正常样本的各第四窗口的深度建立一矩阵，并对所述矩阵进行主成分分析，获得所述矩阵的特征向量矩阵；以及

主成分校正深度单元，所述主成分校正深度单元与所述矩阵建立单元相连，用于读取经所述第三深度校正单元校正后的待测样本的各第四窗口深度，将所述待测样本各第四窗口的深度乘以所述特征向量矩阵，获得待测样本的主成分，将待测样本的前预设数量个主成分删除，再乘以所述特征向量矩阵的逆矩阵，获得主成分分析校正后的各窗口的深度。

32.如权利要求20所述的装置，其特征在于，所述分割单元包括：

相同拷贝数单元，用于对经待测样本校正单元校正后的测序结果进行数据分割获得若干具有相同拷贝数的片段；

33.如权利要求32所述的装置，其特征在于，所述预定值为3。

34.如权利要求20所述的装置，其特征在于，所述检测单元包括：

35.如权利要求34所述的装置，其特征在于，所述预定值为0。