CN104120181B

CN104120181B - 对染色体测序结果进行gc校正的方法及装置

Info

Publication number: CN104120181B
Application number: CN201410339920.6A
Authority: CN
Inventors: 蒋馥蔓; 陈会飞; 柴相花; 袁玉英; 张秀清; 陈芳
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2011-06-29
Filing date: 2011-06-29
Publication date: 2017-06-09
Anticipated expiration: 2031-06-29
Also published as: CN104120181A

Abstract

本发明涉及通过大规模测序来自母体生物样品的核苷酸而无创性检测胎儿遗传异常的非诊断方法。还提供了去除由于染色体GC含量差异而造成的测序结果GC偏差的方法。本发明不但使得检测更加准确，而且给出了用于检测包括性染色体病症例如XO、XXX、XXY、XYY等的胎儿非整倍性的非诊断性综合方法。

Description

对染色体测序结果进行GC校正的方法及装置

相关申请

本申请是申请日为2011年6月29日、名称为《胎儿遗传异常的无创性检测》的中国专利申请201180067286.X的分案申请。

技术领域

本发明涉及通过对来自孕妇的样品进行DNA测序来检测胎儿遗传异常的无创性方法。更具体而言，本发明涉及数据分析，以除去由扩增和测序DNA样品引入的GC偏差。本发明还涉及统计分析，目的是检测胎儿遗传异常，例如包括非整倍性的染色体异常。

背景技术

包含有创步骤的常规产前诊断方法例如绒膜绒毛取样和羊膜腔穿刺术对胎儿和母亲二者都有潜在的风险。使用产妇血清标记物和超声波来无创性筛查胎儿非整倍性是可行的，但敏感性和特异性有限(Kagan,et al.,Human Reproduction(2008)23:1968–1975；Malone,et al.,N Engl J Med(2005)353:2001–2011)。

最近的研究已经证明，通过对孕妇血浆中的DNA分子进行大规模平行测序而无创性检测胎儿非整倍性是可行的。胎儿DNA已经在母体血浆和血清中被检测到并被定量(Lo,et al.,Lancet(1997)350:485 487；Lo,et al.,Am.J.hum.Genet.(1998)62:768-775)。多种胎儿细胞类型在母体循环***出现，包括胎儿粒细胞、淋巴细胞、有核红细胞、血液细胞和滋养细胞(Pertl and Bianchi,Obstetrics and Gynecology(2001)98:483-490)。胎儿DNA可以在妊娠第7周在血清中被检测到，并且随妊娠期增加。产妇血清和血浆中存在的胎儿DNA与从胎儿细胞分离方法得到的DNA浓度相当。

循环的胎儿DNA已经被用于确定胎儿的性别(Lo,et al.,Am.J.hum.Genet.(1998)62:768-775)。同时，已经使用胎儿DNA检测到胎儿恒河猴D基因型。然而，循环的胎儿DNA的诊断应用和临床应用限于存在于胎儿但不存在于母亲的基因(Pertl and Bianchi,Obstetrics and Gynecology(2001)98:483-490)。因此，仍存在这样的无创性方法的需求，即该无创性方法可以确定胎儿DNA序列并提供对胎儿染色体异常的确定性诊断。

过去数十年在母体血液中发现胎儿细胞和无细胞胎儿核酸以及对母体血浆无细胞DNA应用高通量鸟枪测序使得如下是可行的：检测母体血浆样品中由非整倍体胎儿造成的染色体的小变化。无创检测三体性13、18和21妊娠已经被实现。

然而，如一些研究表明的，通过扩增和测序引入的GC偏差对非整倍性检测的敏感性产生了操作限制。在不同条件例如试剂组成、簇密度和温度下，GC偏差可能在样品制备和测序过程中引入，这造成对不同GC组成的DNA分子的差异取样和富含GC或少含GC的染色体的测序数据的显著偏差。

为了提高敏感性，已经开发了用于去除GC偏差效应的方法。Fan and Quake开发了一种通过计算去除GC偏差的方法，该方法通过基于局部基因组GC含量对每个GC密度给予权重，以通过乘以相应权重改善映射到每一区段(bin)中的读段(read)数目(Fan and QuakePLoS ONE(2010)5:e10439)。然而，该方法在处理性染色体病症特别是Y染色体相关病症方面有困难，原因是该方法可能造成数据轻微失真，这会干扰检测的准确性。

在本文中，发明人描述了一种通过计算去除GC偏差的方法，目的是除了避免数据失真以外还获得更高的胎儿遗传异常检测的敏感性。该方法根据GC含量定义用于统计测试的参数。另外，发明人通过显示出更高的敏感性和特异性的二元假设将估计的胎儿分数引入诊断。发明人的方法还表明，对于含低胎儿DNA分数的母体样品，通过测序更多的多核苷酸片段，有可能将对胎儿遗传异常的无创性检测的敏感性增加至预设精度。在后面的孕周对母体血浆再次取样也可以增加诊断的敏感性。

发明内容

本发明涉及通过大规模测序来自母体生物样品的核苷酸而无创性检测胎儿遗传异常的非诊断方法。还提供了去除由于染色体GC含量差异而造成的测序结果GC偏差的方法。

因此，在一方面，本文提供了一种用于建立染色体的覆盖深度和GC含量之间的关系的方法，所述方法包括：从多于一个样品获得涵盖所述染色体的多个多核苷酸片段的序列信息；基于所述序列信息将所述片段分配至染色体；对于每个样品基于所述序列信息计算所述染色体的覆盖深度和GC含量；并确定所述染色体的覆盖深度和GC含量之间的关系。

在一个实施方案中，所述多核苷酸片段的长度区间是约10-约1000bp。在另一个实施方案中，所述多核苷酸片段的长度区间是约15-约500bp。在又一个实施方案中，所述多核苷酸片段的长度区间是约20-约200bp。在再一个实施方案中，所述多核苷酸片段的长度区间是约25-约100bp。在另一个实施方案中，所述多核苷酸片段的长度是约35bp。

在一个实施方案中，所述序列信息通过平行基因组测序获得。在另一个实施方案中，将所述片段分配至染色体是通过将所述片段的序列与参考人基因组序列比较进行的。参考人基因组序列可以是任何合适的和/或公布的人基因组版本(build)，例如hg18或hg19。分配至多于一个染色体或未分配到任一染色体的片段可以被忽略。

在一个实施方案中，染色体的覆盖深度是分配至所述染色体的片段数目和所述染色体的参考独特读段数目之间的比值。在另一个实施方案中，覆盖深度被标准化。在又一个实施方案中，标准化相对于所有其他常染色体的覆盖进行计算。在又一个实施方案中，标准化相对于所有其他染色体的覆盖进行计算。

在一个实施方案中，所述关系为以下公式：

cr_i,j＝f(GC_i,j)+ε_i,j,j＝1,2,…,22,X,Y

其中f(GC_i,j)代表样品i、染色体j的标准化覆盖深度和相应GC含量之间的关系，ε_i,j代表样品i、染色体j的残差。在一些实施方案中，覆盖深度和GC含量之间的关系通过局部多项式回归进行计算。在一些实施方案中，所述关系可以是弱线性关系。在一些实施方案中，所述关系通过loess算法确定。

在一些实施方案中，所述方法还包括根据以下公式计算拟合覆盖深度：

在一些实施方案中，所述方法还包括根据以下公式计算标准差：

其中ns代表参考样品的数目。

在一些实施方案中，所述方法还包括根据以下公式计算student t-统计量：

在一个实施方案中，染色体的GC含量是分配至所述染色体的所有片段的平均GC含量。片段的GC含量可以通过用所述片段的G/C核苷酸数目除以所述片段的核苷酸总数目进行计算。在另一个实施方案中，染色体的GC含量是所述染色体的参考独特读段的合计GC含量。

在一些实施方案中，使用至少2、5、10、20、50、100、200、500或1000个样品。在一些实施方案中，所述染色体是染色体1、2、……、22、X或Y。

在一个实施方案中，所述样品来自怀孕的女性受试者。在另一个实施方案中，所述样品来自男性受试者。在又一个实施方案中，所述样品来自怀孕的女性受试者和男性受试者二者。

在一些实施方案中，所述样品是生物样品。在一些实施方案中，所述样品是外周血样。

在一方面，本文提供了一种对染色体测序结果进行GC校正的方法，即去除由于染色体GC含量差异而造成的测序结果GC偏差的方法，所述方法包括：通过测序从一个或多个样品中获得涵盖所述染色体的多个多核苷酸片段的序列信息；基于所述序列信息将所述片段分配至所述染色体；基于每个样品的所述序列信息计算所述染色体的GC含量；使用所述染色体的GC含量以及本文一方面提供的方法而建立的所述染色体的覆盖深度和GC含量之间的关系，来计算所述染色体的拟合覆盖深度，以获得所述染色体的GC校正测序结果，所述染色体的GC校正测序结果包含所述染色体的拟合覆盖深度。

本文提供了一种确定孕妇外周血样本中胎儿分数的方法，所述方法包括：(1)利用或者预先利用前述本文一方面提供的方法建立Y染色体的覆盖深度和GC含量之间的关系；(2)利用(1)中所述关系对怀有女性胎儿的孕妇样本和男性受试者的Y染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度和所述男性受试者的Y染色体的拟合覆盖深度；(3)利用以下公式计算所述孕妇外周血样本中胎儿分数，其中是所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度，是所述男性受试者的Y染色体拟合覆盖深度。在一个实施方案中，步骤(1)中的关系是预先建立的，关系一旦建立可保存用于其它所有的未知的孕妇外周血样本的胎儿分数的确定。

本文提供了另一种确定孕妇外周血样本中胎儿分数的方法，所述方法包括：(1)利用或者预先利用前述本文一方面提供的方法建立X染色体的覆盖深度和GC含量之间的关系；(2)利用(1)中所述关系对怀有女性胎儿的孕妇样本和男性受试者样本的X染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的X染色体的拟合覆盖深度和所述男性受试者的X染色体的拟合覆盖深度；3)利用以下公式计算所述孕妇外周血样本中胎儿分数，其中是所述怀有女性胎儿的孕妇的样本的X染色体拟合覆盖深度，是所述男性受试者样本的X染色体的拟合覆盖深度。在一个实施方案中，步骤(1)中的关系是预先建立的，将已建立的关系保存用于其它所有的未知的孕妇外周血样本的胎儿分数的确定。

本文提供了又一种确定孕妇外周血样本中胎儿分数的方法，所述方法包括：(1)利用或者预先利用前述本文一方面提供的方法建立X和Y染色体的覆盖深度与各自的GC含量之间的关系；(2)利用(1)中所述的关系对怀有女性胎儿的孕妇样本和男性受试者的X和Y染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的X和Y染色体的拟合覆盖深度，以及所述男性受试者的X和Y染色体的拟合覆盖深度，所述怀有女性胎儿的孕妇样本中含有所述女性胎儿的核酸；(3)利用以下公式计算所述孕妇外周血样本中胎儿分数，其中是所述怀有女性胎儿的孕妇样本的X染色体的拟合覆盖深度，是所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度，是所述男性受试者的X染色体的拟合覆盖深度，是所述男性受试者的Y染色体的拟合覆盖深度。在一个实施方案中，步骤(1)中的关系是预先建立的，将已建立的关系保存用于其它所有的未知的孕妇外周血样本的胎儿分数的确定。

本文还提供了一种检测胎儿遗传异常的非诊断方法，所述方法包括：a)从样品获得多个多核苷酸片段的序列信息；b)基于所述序列信息将所述片段分配至染色体；c)基于所述序列信息计算染色体的覆盖深度和GC含量；d)使用所述染色体的GC含量以及确立的所述染色体的覆盖深度和GC含量之间的关系计算所述染色体的拟合覆盖深度；以及e)将所述染色体的拟合覆盖深度与覆盖深度进行比较，其中它们之间的差异指示胎儿遗传异常。

在一些实施方案中，所述方法还包括步骤f)确定胎儿性别。所述胎儿性别可以根据以下公式确定：

其中cr.a_i,x和cr.a_i,y分别是X和Y染色体的标准化的相对覆盖度。

在一些实施方案中，所述方法还包括步骤g)估计所述胎儿分数。所述胎儿分数可以根据以下的公式进行计算：

其中是从来自怀有女性胎儿的孕妇的样品的染色体Y覆盖深度和相应GC含量的关系计算的拟合覆盖深度，是指从由男性受试者的染色体Y覆盖深度和相应GC含量的关系计算的拟合覆盖深度。或者，所述胎儿分数可以按照以下公式计算：

其中是从来自怀有女性胎儿的孕妇的样品的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度，是指从男性受试者的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度。此外，所述胎儿分数可以按照以下公式计算：

其中是从来自怀有女性胎儿的孕妇的样品的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度，是指从来自怀有女性胎儿的孕妇的样品的染色体Y覆盖深度和相应GC含量的关系计算的拟合覆盖深度，是指从男性受试者的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度，是指从男性受试者的染色体Y覆盖深度和相应GC含量的关系计算的拟合覆盖深度。

在一个实施方案中，所述遗传异常是染色体异常。在另一个实施方案中，所述遗传异常是非整倍性。在又一个实施方案中，所述胎儿非整倍性是选自三体性13、18和21的常染色体病症。在再一个实施方案中，所述胎儿非整倍性是选自XO、XXX、XXY和XYY的性染色体病症。

在一些实施方案中，将所述染色体的拟合覆盖深度与覆盖深度进行比较通过统计假设检验进行，其中一个假设是所述胎儿是整倍体(H0)且另一个假设是所述胎儿是非整倍体(H1)。可以对这两个假设计算统计量。在一些实施方案中，根据以下公式分别对H0和H1计算student t统计量：和其中fxy是胎儿分数。在一些实施方案中，根据以下公式计算t1和t2的对数似然比：

L_i,j＝log(p(t1_i,j,degree|D))/log(p(t2_i,j,degree|T))，其中degree是指t分布度，D是指二倍性，T是指三体性，p(t1_i,j,degree|*),*＝D,T代表给定t分布度的条件概率密度。

在一个实施方案中，所述胎儿性别是女性，student t统计量根据以下公式进行计算：其中是从来自怀有女性胎儿的孕妇的样品的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度。在一些实施方案中，|t1|>3.13指所述胎儿可能是XXX或XO。在一些实施方案中，|t1|>5指示所述胎儿是XXX或XO。

在另一个实施方案中，所述胎儿性别是男性，student t统计量根据以下公式计算：其中是从来自怀有女性胎儿的孕妇的样品的染色体X覆盖深度和相应GC含量的关系计算的拟合覆盖深度。在一些实施方案中，|t2|>3.13指示所述胎儿可能是XXY或XYY。在一些实施方案中，|t2|>5指示所述胎儿是XXY或XYY。

本文还提供了一种确定胎儿遗传异常的非诊断方法，所述方法包括：a)从多于一个正常样品获得覆盖目的染色体的多个多核苷酸片段的序列信息；b)基于所述序列信息将所述片段分配至染色体；c)基于所述正常样品的序列信息计算所述染色体的覆盖深度和GC含量；d)确定所述染色体的覆盖深度和GC含量之间的关系；e)从生物样品获得多个多核苷酸片段的序列信息；f)基于来自所述生物样品的序列信息将所述片段分配至染色体；g)基于所述生物样品的序列信息计算所述染色体的覆盖深度和GC含量；h)使用所述染色体的GC含量以及所述染色体的覆盖深度和GC含量之间的关系计算所述染色体的拟合覆盖深度；以及i)将所述染色体的拟合覆盖深度与覆盖深度进行比较，其中它们之间的差异指示胎儿遗传异常。

在另一方面中，本文提供了一种包含用于进行胎儿遗传异常的检测的多条指令的计算机可读介质，其工作过程包括以下步骤：a)从样品接收多个多核苷酸片段的序列信息；b)基于所述序列信息将所述多核苷酸片段分配至染色体；c)基于所述序列信息计算染色体的覆盖深度和GC含量；d)使用所述染色体的GC含量以及确立的所述染色体的覆盖深度和GC含量之间的关系计算所述染色体的拟合覆盖深度；以及e)将所述染色体的拟合覆盖深度与覆盖深度进行比较，其中它们之间的差异指示胎儿遗传异常。在又一方面中，本文提供了一种用于检测胎儿遗传异常的***，其包括：a)用于从样品获得多个多核苷酸片段的序列信息的工具；和b)包含用于进行胎儿遗传异常的产前诊断的多条指令的计算机可读介质。在一些实施方案中，所述***还包含从怀孕的女性受试者获得的生物样品，其中所述生物样品包含多个多核苷酸片段。

附图说明

图1显示了通过使用多核苷酸片段的序列信息计算覆盖深度和GC含量的原理过程。

图2示出了通过使用来自300个参考案例的数据建立的标准化覆盖深度-GC含量相关性。将每个案例的标准化覆盖深度相对于序列的GC含量作图。十字指示怀有整倍体女性胎儿的案例，方块指示怀有整倍体男性胎儿的案例。实线是覆盖深度和GC含量的拟合线。

图3通过以染色体的固有上升GC含量排列染色体而示出了标准化覆盖深度和相应GC含量之间的趋势。这里每一个染色体的固有上升GC含量引用300个参考案例中染色体的序列标签的平均GC含量。

图4显示了每个染色体的CG类的不同组成。对每个染色体计算参考独特读段的每35bp读段的GC含量，将GC含量分级成36个水平，并且每个水平的百分比被计算为每个染色体的GC组成。然后，将所述染色体通过热图作图并进行层次聚类。

图5通过人工模拟测序仪偏好表明了测序偏差可引入图2中所示的相关性。

图6绘出相对于序列的多核苷酸片段的总数目的标准差。在150个样品中，每一染色体的校正标准方差显示出与独特读段的数目的平方根的倒数的相互线性关系。

图7显示了对通过公式3计算的每一染色体残差的QQ作图，显示出具有正态分布的线性关系。

图8显示了染色体Y覆盖深度的直方图。有两个峰值表示案例的性别可以通过染色体Y的覆盖深度区分。曲线是通过以Gaussian函数进行核密度估计而得出的染色体Y的相对覆盖深度的分布。

图9显示了用于对903个测试样品诊断胎儿染色体异常的过程的简图。

图10显示了非整倍性：三体性13、18和21以及XO、XXY、XYY案例和正常案例的结果。图10A显示了对染色体13、18和21的标准化的覆盖深度相对GC含量的作图。图10B显示了对染色体X和Y的作图。圆代表正常女性胎儿的相对覆盖度深度与GC含量，点代表正常男性胎儿。实线是相对覆盖度和GC含量的拟合线，虚线是t值绝对值是1，点线是t值绝对值是2，点虚线：t值绝对值是3。

图11比较了不同诊断方法的置信度的值。

图12显示了胎儿DNA分数和孕龄之间的关系。母体血浆中胎儿DNA的分数与孕龄相关。胎儿DNA分数通过X和Y一块估计。在平均胎儿DNA分数和孕龄之间有统计显著的相关性(P<0.001)。注意，R2值表示相关系数的平方较小。分数最小值是3.49％。

图13显示了标准方差与检测所需的案例数目之间的关系。通过公式5计算每一染色体的标准方差随不同样品数目而变化。当样品数目超过100个时标准方差变得稳定。

图14显示了在无细胞血浆中用于检测胎儿非整倍性的独特读段的估计数目，其是胎儿DNA分数的函数。对于各自具有不同长度的染色体13、18、21和X甚至Y(从X和Y之间的关系)的非整倍性，所述估计值是基于不小于3的置信度t值水平。随着胎儿DNA分数降低，需要的鸟枪序列的总数目增加。使用流动池(flowcell)上每通道4百万序列读段的测序通量，如果3.5％的所述无细胞DNA是胎儿的则可以检测到三体性21。当所述分数和独特读段数目较小例如4％和5百万读段时，不易检测到染色体X的非整倍性。不同染色体需要不同水平的胎儿DNA分数和独特读段数目，这可能是由于染色体的GC结构导致的。

图15显示了，数据量和孕龄(周)所反映的，用于对于每个孕周和数据量的每个点检测女性胎儿染色体13的三体性的敏感性的恒值图。

图16显示了，数据量和孕龄(周)所反映的，用于对于每个孕周和数据量的每个点检测女性胎儿染色体18的三体性的敏感性的恒值图。

图17显示了，数据量和孕龄(周)所反映的，用于对于每个孕周和数据量的每个点检测女性胎儿染色体21的三体性的敏感性的恒值图。

图18显示了，数据量和孕龄(周)所反映的，用于对于每个孕周和数据量的每个点检测女性胎儿染色体X的三体性的敏感性的恒值图。

图19显示了数据量和孕龄(周)所反映的，用于检测男性染色体13的三体性的敏感性的恒值图。对于每个孕周和数据量的每个点，发明人首先对给定数据量计算胎儿DNA分数和标准方差的经验分布，并比较通过XY或Y估计的分数，然后发明人计算了每一敏感性类型的非整倍性。

图20显示了数据量和孕龄(周)所反映的，用于检测男性染色体18的三体性的敏感性恒值图。

图21显示了数据量和孕龄(周)所反映的，用于检测男性染色体21的三体性的敏感性恒值图。

具体实施方式

本发明涉及用于通过大规模测序来自母体生物样品的多核苷酸片段而无创性检测胎儿遗传异常的方法。还提供了基于染色体的覆盖深度和相应GC含量之间的关系去除由于染色体GC含量差异造成的测序结果GC偏差的方法。因此，本文提供了一种方法，以通过局部加权的多项式回归来拟合每个样品的染色体相对于所述多核苷酸片段的GC含量的覆盖深度，从而通过计算校正关于GC含量的student-t计算的参考参数。

本文还提供了一种通过使用统计假设检验的统计分析来确定胎儿遗传异常的方法。另外，还提供了方法，以计算可用于确定对特定统计显著性水平所需要的临床样品量的数据质量控制(DQC)标准。

I.定义

除非另外定义，否则本文使用的所有技术术语和科学术语具有与本发明所属技术领域普通技术人员通常理解相同的含义。本文参考的所有专利、专利申请、公布的专利申请和其他出版物都通过引用的方式全文纳入本文。如果该部分中列出的定义与通过引用纳入本文的所述专利、专利申请、公布的专利申请和其他出版物中列出的定义相反或要不然不一致，该部分中列出的定义优先于通过引用纳入本文中的定义。

除非另外指明，否则本文使用的单数形式“一(a)”、“一个(an)”和“该(the)”包括复数的指代物。例如，“一个”二体包括一个或多个二体。

术语“染色体异常”是指受试者染色体和正常同源染色体的结构之间的偏差。术语“正常”是指具体物种正常个体中出现的主流核型或带型。染色体异常可以是数目的或结构的，包括但不限于非整倍性、多倍性、倒位、三体性、单体性、重复、缺失、部分染色体缺失、增加、部分染色体增加、***、染色体片段、染色体区、染色体重排和易位。染色体异常可能与存在病理病症或者与倾向于发生病理病症相关。本文定义的单核苷酸多态性(“SNP”)不是染色体异常。

单体性X(XO，缺失整条X染色体)是最常见类型的特纳综合征，每2500至3000个新生女婴中出现1例(Sybert and McCauley N Engl J Med(2004)351:1227-1238)。XXY综合征是男性具有额外X染色体的病症，每1000名男性中大约出现1例(Bock,UnderstandingKlinefelter Syndrome:A Guide for XXY Males and Their Families.NIH Pub.No.93-3202(1993))。XYY综合征是男性有额外Y染色体的性染色体非整倍性，共有47条染色体，而不是正常的46条，1000个出生男性中有1例，并可能导致男性不育(Aksglaede,et al.,JClin Endocrinol Metab(2008)93:169–176)。

特纳综合征包括数种病症，其中单体性X(XO，缺少整条性染色体，巴氏小体)最常见。女性通常具有两条X染色体，但特纳综合征中这些性染色体中的一条缺失。在2000至5000表型女性中出现1例，该综合征以多种方式显现。克兰费尔特综合征是男性具有额外X染色体的病症。在人类中，克兰费尔特综合征是最常见的性染色体病症，是由存在额外染色体引起的第二常见病症。该病症在每1000名男性中出现大约1例。XYY综合征是男性有额外Y染色体的性染色体非整倍性，共有47条染色体，而不是正常的46条。这产生47、XYY核型。该病症通常无症状，1000个出生男性中有1例，有可能导致男性不育。

三体性13(帕塔综合征)、三体性18(Edward综合征)和三体性21(唐氏综合征)是临床上最重要的常染色体三体性，如何检测它们一直是热点。检测以上胎儿染色体畸变在产前诊断中十分重要(Ostler,Diseases of the eye and skin:a color atlas.LippincottWilliams&Wilkins.pp.72.ISBN 9780781749992(2004)；Driscoll and Gross N Engl JMed(2009)360:2556-2562；Kagan,et al.,Human Reproduction(2008)23:1968–1975)。

术语“参考独特读段”是指具有独特序列的染色体片段。因此，这类片段可以被清楚地分配至单染色体定位。染色体的参考独特读段可以基于发布的参考基因组序列例如hg18或hg19进行构建。

术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”在本文中可互换使用，是指任意长度的多聚体形式的核苷酸，可以包括核糖核苷酸、脱氧核糖核苷酸、其类似物或其混合物。该术语仅是指所述分子的一级结构。因此，所述术语包括三链、双链和单链脱氧核糖核酸(“DNA”)以及三链、双链和单链核糖核酸(“RNA”)。它还包括修饰的(例如通过烷基化和/或通过加帽)多核苷酸和非修饰形式的多核苷酸。更具体地，术语“多核苷酸”、“寡核苷酸”、“核酸”和“核酸分子”包括多脱氧核糖核苷酸(含2-脱氧-D-核糖)、多核糖核苷酸(含D-核糖)，包括tRNA、rRNA、hRNA和剪接或未剪接的mRNA，为嘌呤或嘧啶碱基的N糖苷或C糖苷的任何其他类型多核苷酸以及含非核苷酸(normucleotidic)主链的其他多聚体，例如聚酰胺(例如核酸肽(“PNA”))和多吗啉代(可市购自Anti-Virals,Inc.,Corvallis,OR.,例如)多聚体和其他合成的序列特异性核酸多聚体，条件是所述多聚体包含处于允许例如见于DNA和RNA中的碱基配对和碱基堆积的构型的核碱基。因此，这些术语包括例如3'-脱氧-2',5'-DNA、寡脱氧核糖核苷酸N3'-P5'亚磷酰胺、2'-O-烷基取代的RNA、DNA与RNA之间或者PNA与DNA或RNA之间的杂交体，还包括已知类型的修饰物，例如标记物、烷基化物、“帽”、一个或多个核苷酸置换为类似物、核苷酸间修饰物(例如具有不荷电连接物那些(例如甲基磷酸酯、磷酸三酯、亚磷酰胺、氨基甲酸酯等)、具有荷负电连接物的那些(例如磷硫酰、二硫代磷酸酯等)和具有荷正电连接物的那些(例如氨烷基亚磷酰胺、氨基烷基磷酸三酯)，包含悬垂部分例如蛋白质(包括酶(例如核酸酶)、毒素、抗体、信号肽、聚左旋赖氨酸等)的那些，具有***剂(例如吖啶、补骨脂素等)的那些，包含螯合物(例如金属、放射性金属、硼、金属氧化物等的螯合物)的那些，包含烷基化物的那些，具有修饰的连接物的那些(例如α异头核酸)；以及未修饰形式的所述多核苷酸或寡核苷酸。

“大规模平行测序”是指用于测序数百万核酸片段的技术，例如通过将随机片段化的基因组DNA附着于透光的平面上并进行固相扩增以形成具有数百万个簇的高密度测序流动池，每个簇在每平方厘米上包含约1000个拷贝的模板。将这些模板使用4色DNA边合成边测序技术进行测序。参见Illumina,Inc.,San Diego,Calif提供的产品。本发明使用的测序优选在无预扩增或克隆步骤的情况下进行，但在具有可用于PCR和基于显微模板的测序二者的反应室的微流芯片中可以与基于扩增的方法相结合。仅需要约30bp的随机序列信息来将序列确定为属于具体的人染色体。更长序列可以唯一地确定更具体的靶。在本例中，获得了大量的35bp读段。对大规模平行测序方法的进一步描述见Rogers and Ventner,Nature(2005)437:326-327。

本文使用的“生物样品”是指自活体或病毒来源或其他来源的大分子和生物分子获得的任何样品，包括从中可获得核酸、蛋白质或其他大分子的受试者的任何细胞类型或组织。生物样品可以是从生物源直接获得的样品，或者被加工过的样品。例如，可扩增的分离核酸构成了生物样品。生物样品包括但不限于体液，例如血液、血浆、血清、脑脊液、滑液、尿和汗液；来自动植物的组织和器官样品以及由其获得的加工样品。

文中“覆盖所述染色体”是指多个核酸片段的序列信息能够覆盖到至少一部分所述染色体，即例如，多个核酸片段的序列信息能够覆盖到所述染色体的一部分、多个核酸片段的序列信息能够覆盖到所述染色体的一部分和至少一条其他染色体的一部分、多个核酸片段的序列信息能够覆盖到所述染色体的一部分和至少一条其他染色体的全部、多个核酸片段的序列信息能够覆盖到所述染色体的全部、多个核酸片段的序列信息能够覆盖到所述染色体的全部和至少一条其他染色体的一部分、或多个核酸片段的序列信息能够覆盖到所述染色体的全部和至少一条其他染色体的全部；

应理解，本文描述的本发明的方面和实施方案包括“由……组成”和/或“基本由……组成”的方面和实施方案。

从结合附图的如下详细说明，本发明的其他目标、优点和特征将变得清晰。

II.建立覆盖深度和GC含量之间的关系

本文提供了一种用于建立染色体的覆盖深度和GC含量之间的关系的方法，所述方法包括：从多于一个样品获得涵盖所述染色体的多个多核苷酸片段的序列信息；基于所述序列信息将所述片段分配至染色体；对于每个样品基于所述序列信息计算所述染色体的覆盖深度和GC含量；并确定所述染色体的覆盖深度和GC含量之间的关系。所述操作步骤可以以无特定顺序的方式进行。在一些实施方案中，所述方法可以以如下顺序进行：a)从多于一个样品获得涵盖所述染色体的多个多核苷酸片段的序列信息；b)基于所述序列信息将所述片段分配至染色体；c)对于每个样品基于所述序列信息计算所述染色体的覆盖深度和GC含量；和d)确定所述染色体的覆盖深度和GC含量之间的关系。

为了计算染色体区域的覆盖深度和GC含量，通过测序从样品获得的模板DNA来获得多核苷酸片段的序列信息。在一个实施方案中，所述模板DNA包含母体DNA和胎儿DNA二者。在另一个实施方案中，模板DNA获自孕妇的血液。血液可以使用用于取血的任何常规技术收集，包括但不限于静脉穿刺。例如，血液可以取自肘内侧或手背的静脉。血样可以在妊娠任何时间从孕妇采集。例如，血样可以在1-4、4-8、8-12、12-16、16-20、20-24、24-28、28-32、32-36、36-40或40-44胎儿孕周，优选8-28胎儿孕周，从孕妇采集。

基于所述序列信息将所述多核苷酸片段分配至染色体区域。参考基因组序列用于获得所述参考独特读段。本文使用的术语“参考独特读段”是指基于参考基因组序列被分配至特异基因组区域的所有独特多核苷酸片段。在一些实施方案中，参考独特读段具有相同长度，例如约10、12、15、20、25、30、35、40、50、100、200、300、500或1000bp。在其他一些实施方案中，人基因组版本hg18或hg19可以被用作所述参考基因组序列。染色体定位是染色体上长度为约10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000或更多KB的连续窗口。染色体定位还可以是单条染色体。

本文使用的术语“覆盖深度”是指分配到染色体区域的片段数目和所述染色体区域的参考独特读段数目之间的比值，使用以下公式计算：

C_i,j＝n_i,j/N_j,j＝1,2,…,22,X,Y (1)

其中n_i,j是样品i中映射到染色体j上的独特序列读段数目；C_i,j是样品i中染色体j的覆盖深度；N_j是染色体j中参考独特读段数目。

在一些实施方案中，将未分配至单个染色体区域或分配至多个染色体区域的多核苷酸片段忽略。在一些实施方案中，所述覆盖深度是基于另一染色体区域的覆盖深度、另一染色体的覆盖深度、所有其他常染色体的平均覆盖深度、所有其他染色体的平均覆盖深度或所有染色体的平均覆盖深度而标准化的。在一些实施方案中，22条常染色体的平均覆盖深度被用作标准化常数来计算对不同样品获得的序列读段总数目的差异：

其中cri,j代表样品i中染色体j的相对覆盖深度。从现在开始，每一染色体的“相对覆盖深度”是指标准化的值，被用于比较不同的样品以及用于后续分析。

染色体定位的GC含量可以基于染色体定位中的独特参考读段或者基于分配至所述染色体定位的测序多核苷酸片段通过所述染色体定位的平均GC百分比进行计算。染色体的CC含量可以使用以下公式进行计算：

GC_i,j＝NGC_i,j/BASE_i,j (3)

GC_i，chrj＝no.GC_i/no.BASE_i其中i代表样品i，j代表染色体j，NGC_i,j代表样品i中染色体j上的G和CDNA碱基数目，BASE_i.j代表样品i中染色体j上的DNA碱基数目。

覆盖深度和GC含量可以基于从单个样品或者从多个样品获得的多核苷酸片段的序列信息。为了建立染色体区域的覆盖深度和GC含量之间的关系，所述计算可以基于从至少1、2、5、10、20、50、100、200、500或1000个样品获得的多核苷酸片段的序列信息。

在一些实施方案中，覆盖深度和GC含量之间的关系是不强的线性关系。

Loess算法或局部加权多项式回归可以用于评估数值对之间例如覆盖深度和GC含量之间的非线性关系(相关性)。

III.确定胎儿遗传异常

本文还提供了一种确定胎儿遗传异常的非诊断方法，所述方法包括：a)从样品获得多个多核苷酸片段的序列信息；b)基于所述序列信息将所述片段分配至染色体；c)基于所述序列信息计算染色体的覆盖深度和GC含量；d)使用所述染色体的GC含量以及确立所述染色体的覆盖深度和GC含量之间的关系计算所述染色体的拟合覆盖深度；并且e)将所述染色体的拟合覆盖深度和覆盖深度比较，其中它们之间的差异指示胎儿遗传异常。

所述方法可以用于检测胎儿染色体异常，特别可用于检测非整倍性、多倍性、单体性、三体性、三体性21、三体性13、三体性14、三体性15、三体性16、三体性18、三体性22、三倍性、四倍性和性染色体异常，包括XO、XXY、XYY和XXX。还可以根据本发明的方法关注人基因组中的某些区域，目的是鉴定部分单体性和部分三体性。例如，所述方法可以涉及分析确定的染色体滑动“窗口”中的序列数据，例如分布在整个染色体上的连续的、不重叠的50Kb区域。除其他之外，已经报道了部分三体性13q、8p(8p23.1)、7q、远端6p、5p、3q(3q25.1)、2q、1q(1q42.1和1q21-qter)、部分Xpand单体性4q35.1。在18q21.1-qter重复的情况下，染色体18长臂的部分重复可导致爱德华兹综合征(Mewar,et al.,Am J Hum Genet.(1993)53:1269-78)。

在一些实施方案中，所述胎儿分数基于对于来自样品的多核苷酸片段获得的序列信息进行估计。染色体X和Y的覆盖深度和GC含量可以用于估计所述胎儿分数。在一些实施方案中，所述胎儿性别基于对来自样品的多核苷酸片段获得的序列信息进行确定。染色体X和Y的覆盖深度和GC含量可以用于确定所述胎儿性别。

在一些实施方案中，通过统计假设检验对所述染色体的拟合覆盖深度与覆盖深度进行比较，其中一个假设是所述胎儿是整倍体(H0)且另一个假设是所述胎儿是非整倍体(H1)。在一些实施方案中，分别对两个假设计算student t统计量，作为t1和t2。在一些实施方案中，计算t1和t2的对数似然比。在一些实施方案中，对数似然比>1指示所述胎儿三体性。

IV.确定胎儿遗传异常的计算机可读介质和***

在另一方面，本文提供了一种包含用于进行胎儿遗传异常的检测的多条指令的计算机可读介质，其工作过程包含以下步骤：a)接收所述序列信息；b)基于所述序列信息将所述多核苷酸片段分配至染色体；c)基于所述序列信息计算染色体的覆盖深度和GC含量；d)使用所述染色体的GC含量以及确立的所述染色体的覆盖深度和GC含量之间的关系计算所述染色体的拟合覆盖深度；以及e)将所述染色体的拟合覆盖深度与覆盖深度进行比较，其中它们之间的差异指示遗传异常。

在又一方面中，本文提供了一种用于检测胎儿非整倍性的***，其包括：a)用于获得所述多个多核苷酸片段的序列信息的工具；和b)包含用于进行胎儿遗传异常的产前诊断的多条指令的计算机可读介质。在一些实施方案中，所述***还包含从怀孕的女性受试者获得的生物样品，其中所述生物样品包含多个多核苷酸片段。

对本领域技术人员来说明显的是，可以使用若干不同的测序方法和变体。在一个实施方案中，所述测序使用大规模平行测序进行。大规模平行测序，例如可在454平台(Roche)(Margulies,et al.,Nature(2005)437:376-380)、Illumina Genome Analyzer(或Solexa^TM平台)或SOLiD System(Applied Biosystems)上或采用Helicos True SingleMolecule DNA测序技术(Harris,et al.,Science(2008)320:106-109)、PacificBiosciences的单分子、实时(SMRT^TM)技术和纳米孔测序技术(Soni and Meller,Clin Chem(2007)53:1996-2001)实现的那些，使得可以平行的方式以高次多路对从样本分离的许多核酸分子进行测序(Dear,Brief Funct Genomic Proteomic(2003)1:397-416)。这些平台各自均可测序克隆扩增的或者甚至未扩增的核酸片段单分子。市购的测序设备可以用于获得多核苷酸片段的序列信息。

V.实施例

提高以下实施例以举例说明本发明，但不限制本发明。

实施例1分析影响检测敏感性的因素：GC偏差和性别

用于计算覆盖深度和GC含量的原理步骤框架显示于图1。发明人使用软件通过将hg18参考序列切割成l-mer(这里的l-mer是以与样品测序读段相同的长度“l”从人序列参考人工分解成的读段)而产生参考独特读段，收集这些“独特”l-mer作为发明人的参考独特读段。第二，本发明人将他们的测序样品读段映射至每个染色体的参考独特读段。第三，发明人通过应用五分之一离群值截止法删除离群值，以得到干净的数据集。最后，发明人对每个样品计算每一染色体的覆盖深度，并且对于每个样品计算映射到每一染色体的测序独特读段的GC含量。

为了研究GC含量如何影响发明人的数据，发明人选择了有核型结果的300个整倍体案例，并将它们的测序读段覆盖深度和相关GC含量散布至图中，所述图显示了它们之间的强相关性，该现象以前未被报道过(图2)。在图2中，覆盖深度与GC-含量强相关，在一些染色体例如4、13等中显示明显的向下趋势，而在其他染色体例如19、22等中显示向上趋势。将所有染色体按它们的固有GC-含量升序排列，如图3中所示，向下趋势存在于较低GC-含量组染色体中，而向上趋势存在于较高GC-含量组染色体中。这可以解释为，如果对于一个样品被测序的多核苷酸片段具有比其他样品更高的GC-含量，则该样品呈现的覆盖深度与其他样品的覆盖深度相比在较低GC-含量组染色体中将下降，而在较高GC-含量组染色体中将上升。

对于不同GC-含量染色体中这种不同变化趋势的可能解释是，图4中所示的不同染色体中GC-含量组成的差异，结合以测序过程中引入的GC偏差。对于每一染色体的每35-mer参考独特读段的GC含量被用于将GC含量分级成36个水平。计算作为每一染色体的GC组成的每个水平的百分比，然后用于用Heatmap2软件画热图。以染色体13为例，其大部分由较低GC-含量序列区段组成，但其小部分由较高GC-含量序列区段组成。如果测序或PCR过程中的条件有利于测序这些较高GC-含量的区段，那么较大部分的具有低GC-含量的染色体13将难以被测序，造成在该样品中染色体13的覆盖深度变得更低。相比之下，在较高GC-含量组例如染色体19中，在该样品中染色体19的覆盖深度变得更高，原因是大部分的染色体19具有比测序仪偏好的更高的GC-含量。不管在哪个染色体中，少含GC区段和富含GC区段都难以被测序，但GC偏差引起的影响对具有不同GC-含量组成的不同染色体是不同的。将每一参考染色体分成1KB的区段，计算所述区段中每个独特参考读段的GC含量。将以合适间隔结构[0.3,0.6]存在的每个区段的GC含量除以0.001的步长，然后计算每个间隔的相对覆盖度。图5显示了对每个染色体的相对覆盖度和GC含量的作图。

使用两独立样本的t检验分析胎儿性别对数据的影响。对于GC含量，除了性染色体之外的常染色体之间基本未发现显著差异，但在女性和男性之间UR％有明显差异(Chiu etal.,(2008)Proc Natl Acad Sci USA 105:20458–20463)，暗示在检测常染色体非整倍性时不需要区分胎儿性别，但在检测性染色体非整倍性例如XO、XYY等时需要首先区分胎儿性别。

实施例2统计模型

使用上文讨论的该现象，发明人试图使用局部多项式来拟合覆盖深度和相应GC含量之间的关系。覆盖深度由如下的GC的函数和正态分布的残差组成：

cr_i,j＝f(GC_i,j)+ε_i,j,j＝1,2,…,22,X,Y (4)

其中f(GC_i,j)代表样品i、染色体j的覆盖深度和相应GC含量之间的关系，ε_i,j代表样品i、染色体j的残差。在所述覆盖深度和相应GC含量之间有不强的线性关系，因此发明人应用loess算法将所述覆盖深度与所述相应GC含量进行拟合，发明人从中计算了对发明人的模型来说重要的值，即拟合覆盖深度：

用所述拟合覆盖深度，根据以下公式6和公式7计算标准方差和student t：

实施例3胎儿分数估计

由于胎儿分数对发明人的检测非常重要，在测试步骤之前发明人估计了胎儿分数。如前文指出的，发明人测序了19名成年男性，当将他们的覆盖深度与怀有女性胎儿的案例比较时，发明人发现男性的染色体X覆盖深度是女性的接近1/2，男性的染色体Y覆盖深度比女性的大接近0.5倍。因此，发明人可以如公式8、公式9和公式10依赖于染色体X和Y的覆盖深度并考虑GC相关性来估计胎儿分数：

其中是指通过对怀有女性胎儿案例的染色体X覆盖深度和相应GC含量进行回归关联得到的拟合覆盖深度，是指通过对怀有女性胎儿案例的染色体Y覆盖深度和相应GC含量进行回归关联得到的拟合覆盖深度，是指通过对男性成年的染色体X覆盖深度和相应GC含量进行回归关联得到的拟合覆盖深度，是指通过对男性成年的染色体Y覆盖深度和相应GC含量进行回归关联得到的拟合覆盖深度。为了简化计算，设定和相等，和相等。

实施例4计算每一染色体的残差

图6显示了，在某一独特读段总数目下每一染色体的标准差(参见公式3)受到参与的参考案例数目的影响。在对于每个案例测序170万的总独特读段数目的条件下，当选择的案例数目超过150个时，标准差几乎不增加。然而，对于不同染色体所述标准差是不同的。在考虑GC偏差后，发明人的方法对于以下染色体有适度的标准差：染色体13(0.0063)、染色体18(0.0066)和染色体21(0.0072)。染色体X的标准差比以上提及的染色体高，它需要更多策略来进行准确的异常检测。

图7显示了Q-Q作图，其中残差被编译成正态分布，正态分布表明所述student-t计算是合理的。

实施例5区分胎儿性别

为了发现性染色体病症，最好区分胎儿性别。在发明人对300个案例中染色体Y覆盖深度的频率分布进行研究时，存在两个明显峰，这提示可通过染色体Y的覆盖深度区分性别。覆盖深度小于0.04的案例可以被看作怀有女性胎儿，而大于0.051被看作怀有男性胎儿，0.04和0.051之间被看作性别不确定，如图8。对于这些性别不确定和非整倍性案例，使用逻辑回归来预测他们的性别，如公式11(Fan,et al.,Proc Natl Acad Sci USA(2008)42:16266–16271)：

其中cr.a_i,x和cr.a_i,y分别是X和Y的标准化的相对覆盖度。

与核型结果相比，发明人的区分胎儿性别的方法在其300个参考案例中进行的非常好，准确性100％，而在其901个案例组中进行时仅弄错一个案例，并且该错误案例的染色体Y覆盖深度在0.04和0.051之间。

实施例6GC-相关性t-检验方法的检测性能

样品募集

903参加者预期地募集自深圳人民医院和深圳母婴保健中心，有其核型结果。从每个募集单位的公共审查部门获得许可，所有参加者签署知情同意书。在取血时记录母亲年龄和孕周。所述903个案例包括2个三体性13案例、15个三体性18案例、16个三体性21案例、3个XO案例、2个XXY案例和1个XYY案例。其核型结果分布如图9中所示。

母体血浆DNA测序

从每个参加孕妇采集外周静脉血(5毫升)至EDTA管中，在4小时内在1,600g下离心10分钟。将血浆转移至微量离心管中并在16,000g下离心10分钟以除去残留细胞。将无细胞血浆在80℃下保存至DNA提取。每个血浆样品仅冻融一次。

为了大规模平行基因组测序，根据改良的来自Illumina的方案使用从600μl母体血浆提取的DNA进行DNA文库构建。简而言之，使用T4DNA聚合酶、Klenow^TM聚合酶和T4多核苷酸激酶对母体血浆DNA片段进行末端配对。加入末端A残基，然后将市购的适体(Illumina)连接至所述DNA片段。然后，将所述适体连接的DNA以常规多重引物使用17个循环的PCR另外进行扩增。使用Agencourt AMPure^TM60ml Kit(Beckman)来纯化PCR产物。在2100Bioanalyzer^TM(Agilent)上以DNA1000试剂盒分析所述测序文库的大小分布，并以实时PCR进行定量。然后，将具有不同索引(index)的测序文库等量合并为一个，然后在IlluminaGA II^TM上进行cluster station(单末端测序)。

将19个男性整倍体样品测序，用于胎儿DNA分数估计的后续分析。发明人开发了一种新的GC相关性t检验方法，用于诊断三体性13、三体性18、三体性21和性染色体异常，发明人将该新方法与下文提及的其他两种方法在诊断性能方面进行了比较。

实施例7检测胎儿非整倍性例如三体性13、18和21

为了确定患者案例中的染色体拷贝数是否偏离正常，将染色体的覆盖深度与所有其他参考案例进行比较。所有以前的研究仅有一个零假设。发明人通过使用两个零假设首次引入了二元假设。一个零假设(H0：所述胎儿是整倍性)是假定所述患者案例分布的平均覆盖深度和所有正常参考分布的平均覆盖深度相等，这意味着如果该零假设被接受则该患者案例是整倍体。使用student t检验，t1可以如公式12计算：

另一零假设(H1：所述胎儿是非整倍性)是具有不良胎儿分数的患者案例分布的平均覆盖深度等于具有相同胎儿分数的非整倍性案例分布的平均覆盖深度，这意味着如果该零假设被接受则该患者案例是非整倍体。student t统计量，t2如公式13计算：

|t1|>3和|t2|<3将指示在大多数情况下特别是当整倍体案例和非整倍体案例之间的分布被完全区分时的非整倍体案例，而在其他条件下例如精密度不足或胎儿分数不足等，|t1|可以小于3，但胎儿是异常的。t1和t2结合可以帮助发明人作更正确的决定，然后发明人应用公式14的t1和t2的对数似然比：

L_i,j＝log(p(t1_i,j,degree|D))/log(p(t2_i,j,degree|T)) (14)

其中L_i,j是对数似然比。如果所述比值大于1，发明人将推断所述胎儿可能是三体性。

但对于怀有女性胎儿的案例，发明人难以估计其胎儿分数，因此不可能进行计算。然而，根据胎儿分数的经验分布，发明人可以得到7％的分数参考值(RV)。

研究了903个案例，其中866个携带整倍体胎儿，在其中随机选择300个案例来开发GC相关性student-t方法。另外，2个三体性13、12个三体性18、16个三体性21、4个XO(由3个XO案例和1个嵌合体45、xo/46、xx(27:23)案例组成)、2个XXY和1个XYY案例参加了发明人的研究。在比对后，发明人获得每个案例平均170万的数据(SD＝306185)独特匹配读段(无错配)。通过使用发明人新开发的CG相关性student t检验，所有T13案例(2个中的2个)被成功鉴定，而901个非三体性13案例中的901个被正确分类(图10A)。该方法的敏感性和特异性是100％和100％(表1)。

对于三体性18，12个三体性18案例中的12个和891个非三体性18案例中的888可以被正确地鉴定(图10A)。该方法的敏感性和特异性分别是100％和99.66％。对于三体性21，16个三体性21案例中的16个和16个非三体性21案例中的16个也可以被正确地检测(图10A)。该方法的敏感性和特异性分别是100％和100％。

实施例8检测XO、XXX、XXY、XYY

在上文发明人考虑了对常染色体三体性的检测，也可以通过发明人的方法检测性染色体病症例如XO、XXX、XXY和XYY。

首先，通过性别区分确认性别。如果测试案例被确认怀有女性胎儿，那么需要计算student-t值t1以用于XXX或XO检测，其中和std_Xf与公式10相同；如果t1大于3.13或小于-3.13，该案例可能是XXX或XO。但考虑到精确度被染色体X的覆盖深度的大偏差限制，发明人再次取样血浆并重复实验以在|t1|<5(即使|t1|>3.13)时作出更可信的决定。在该案例中，|t1|>5被确认是非整倍性。所有发明人的检测方法是基于这样的前提，即数据满足标准质量控制。

如果测试样品被确认怀有男性胎儿，首先通过Y和X估计所述胎儿DNA分数。同时，发明人能够以仅通过染色体Y覆盖深度估计的胎儿DNA分数外推染色体X的拟合覆盖深度，并且可以计算t2。如果t2太大(大于5)或太小(小于-5)，所述胎儿可以是XXY或XYY。另外，通过X和Y独立估计的胎儿分数之间的差异将提供用于检测有关性染色体的病症的信息。

在XO检测中，4个XO案例中的3个被检测，不能被鉴定的案例是嵌合体案例(图10B)。该方法的敏感性和特异性分别是75％(如果发明人忽略所述嵌合体案例则是100％)和99.55％。对于XXY案例，所有2个案例都被成功鉴定，而901个非XXY案例中的901个被正确分类(图10B)，敏感性100％且特异性100％。对于XYY案例，发明人将其正确地鉴定(图10B)，敏感性和特异性分别是100％和100％。

为了评估在与其他两个报道的方法：z值和GC校正z值比较时，本发明的新方法是否有任何优点，发明人使用所有这3种方法分析发明人的900个案例，相同的300个案例作为参考组用于所有这些方法。测量的精度始终以置信度值(CV)体现。在发明人的研究中，标准的z值方法的CV在临床感兴趣的染色体18和21中大于其他方法(图11)，导致对于三体性18和21的敏感性较低(表1)。

表1不同方法的敏感性和特异性的比较

对于GC校正z值方法，染色体13的CV值是0.0066，100％敏感性率和100％特异性率。对于本文讨论的新的GC相关性student t方法，染色体13的CV值是0.0063，100％敏感性率和100％特异性率。在染色体18中，这两种方法的CV分别是0.0062和0.0066，都为100％敏感性且对它们的特异性率分别是99.89％和99.96％。对于染色体21，在比较这两种方法的CV时性能相似：分别为0.0088和0.0072。二者在发明人的小案例组研究中都导致100％的相同敏感性率，并达到相同的100％特异性率。并且，这两种方法的性能都优于标准的z值方法。发明人新开发的GC相关性方法不但与GC校正方法相比具有好的性能，而且它在检测性染色体异常例如XO、XXY和XYY中有另一优点。发明人的数据显示，在进行GC校正方法时，难以用在通过乘以权重因子修复序列标签数目中引入的性染色体所呈现的数据偏差来区分胎儿性别，从而对性染色体病症的检测似乎很难。

实施例9考虑数据大小、孕周和胎儿DNA分数时的GC相关性t检验方法的理论性能

测量非整倍性仍然很难，原因是直至今日高背景的母体DNA(Fan,et al.,ProcNatl Acad Sci USA(2008)42:16266–16271)和随意少量的胎儿DNA分数是通过大规模并行基因组测序(MPGS)方法进行非整倍性检测的最重要限制因素。然而，在特别针对女性胎儿的MPGS检测之前，临床上在确定最小胎儿DNA分数方面没有大的突破，而仅有的与涉及胎儿DNA分数相关的临床线索是孕周。以前已经报道在胎儿DNA分数和孕龄之间有统计显著的相关性(Lo,et al.,Am.J.Human Genet.(1998)62:768-775)。在发明人的研究中，为了研究估计的胎儿DNA分数和孕龄之间的关系，发明人在图12中绘出了通过估计公式10获得的所有怀有男性胎儿的参与案例(共427个案例)的胎儿DNA分数。对每个样品估计的胎儿DNA分数与孕周相关(P小于0.0001)。还显示，即使在孕龄20周中，65个案例中仍有4个的胎儿DNA分数少于5％，这将不利地影响检测准确性。为了评估所述胎儿分数估计方法，发明人选择了估计的胎儿分数中层次分布的一些案例，然后用Q-PCR帮助计算另一相关胎儿分数。然后，发明人得到显示它们之间强相关性的相关性标准曲线，这证明了通过发明人的方法估计胎儿分数是可信的。

同时，测序深度(总独特读段的数目)是影响以标准差值体现的非整倍性检测的精确度的另一重要因素。当参考案例数目达到150个时，发明人的GC相关方法中采用的每条染色体的标准差可以被固定在某一测序深度水平下(图13)。为了研究测序深度如何影响每条染色体的标准差，发明人不但以本发明的170万水平，而且以总独特读段数目达到5百万(SD＝170万)的另一测序深度水平测序了150个案例。依赖于这两个集，发明人发现标准方差与总独特读段数目的平方根的倒数是线性相关的，如图6中所示。

对于给定的胎儿DNA分数，发明人可以估计用于本发明方法的总独特读段数目以检测在t1等于3时与正常的染色体拷贝数偏差(图14)。已经表明，胎儿DNA分数越少，所需的测序深度越大。在本发明的170万独特读段集中，本发明方法能够检测胎儿DNA分数多于4.5％的染色体13和X的非整倍性胎儿，超过4％的染色体21和18的非整倍性胎儿；而在本发明的5百万参考集中，本发明方法能够检测甚至所述胎儿DNA分数约3％的三体性18和三体性21。如果发明人想鉴定胎儿分数为约4％的染色体X异常例如XXX或XO的胎儿，在这些案例和相应参考案例中需要的总独特数目应达5百万。如果胎儿DNA少于3.5％，则测序深度需求将超过20M。并且，如果DNA胎儿分数更低，则检测将变得不可信且难以进行，因此发明人建议另一策略，即应在孕龄变大时再取样孕妇血浆、再进行本发明实验并再分析数据，因为在孕龄变大时有更大可能性胎儿DNA分数将随孕龄增加而升高。并且，该策略还可以应用于怀疑有少量胎儿DNA分数的样品。

即使本发明的方法工作良好，但如果没有大异常案例集合则没有说服力。为了估计本发明应用的该GC相关性student t方法的敏感性，发明人公开了考虑不同孕龄和不同测序深度的理论敏感性。

发明人以以下步骤计算了非整倍性的理论敏感性。首先，发明人应用了回归分析来以孕龄拟合胎儿DNA分数其中是第i孕龄gsa_i拟合的胎儿DNA分数平均值，并通过应用Gaussian函数密度估计(Birke,(2008)Journal of Statistical Planning和Inference139:2851-2862)来估计大约的胎儿DNA分数，主要是指分布在19和20孕周中的估计胎儿DNA分数，然后根据胎儿DNA分数和孕龄之间的关系外推其他周中胎儿DNA分数分布，其中是第i孕龄中胎儿DNA分数的拟合概率密度，其中X是19和20孕周的数据(图12)。第二，发明人根据其以前提及的总独特读段数目来估计标准方差其中tuqn是总独特读段数目。最后，为了根据在每个测序深度中估计的分布胎儿DNA分数和标准方差计算在某一测序深度水平下每一孕龄的敏感性，发明人计算了每一胎儿DNA分数的假阴性的概率密度(在本文中，发明人假设胎儿DNA分数波动为正态分布)，然后将它们整合以得到由所有胎儿DNA分数水平组成的孕龄的假阴性率(FNR)其中j是染色体j。容易地，该孕龄的某一测序深度的理论敏感性被计算为1-FNR。图15-21显示了发明人计算得到的图。设置student-t大于3来鉴定女性胎儿非整倍性，而对于男性胎儿，当计算每一分数的假阴性的概率密度时，大于1的对数似然性被用作发明人在二元假设中提及的临界值，该值帮助达到比女性更高的敏感性。

然而，发明人的推理是相对保守的，原因是难以得到无限接近胎儿DNA分数随孕龄——特别是小规模取样中的小孕龄——的真实分布的分布。

参考文献

1.Virginia P.Sybert,Elizabeth McCauley(2004).Turner's Syndrome.N EnglJ Med 2004；351:1227-1238.

2.Robert Bock(1993).Understanding Klinefelter Syndrome:A Guide forXXY Males and Their Families.NIH Pub.No.93-3202 August 1993

3.Aksglaede,Lise；Skakkebaek,Niels E.；Juul,Anders(January 2008)."Abnormal sex chromosome constitution and longitudinal growth:serum levels ofinsulin-like growth factor(IGF)-I,IGF binding protein-3,luteinizing hormone,and testosterone in 109 males with 47,XXY,47,XYY,or sex-determining region ofthe Y chromosome(SRY)-positive 46,XX karyotypes".J Clin Endocrinol Metab 93(1):169–176.doi:10.1210/jc.2007-1426.PMID 17940117.

4.H.Bruce Ostler(2004).Diseases of the eye and skin:a coloratlas.Lippincott Williams&Wilkins.pp.72.ISBN 9780781749992.

5.Driscoll DA,Gross S(2009)Clinical practice.Prenatal screening foraneuploidy.N Engl J Med 360:2556-2562.

6.Karl O.Kagan,Dave Wright,Catalina Valencia etc(2008).Screening fortrisomies 21,18 and 13 by maternal age,fetal nuchal translucency,fetal heartrate,free b-hCG and pregnancy-associated plasma protein-A.Human ReproductionVol.23,No.9 pp.1968–1975,2008 doi:10.1093/humrep/den224

7.Malone FD,et al.(2005)First-trimester or second-trimesterscreening,or both,for Down’s syndrome.N Engl J Med 353:2001–2011.

8.Fan HC,Quake SR(2010)Sensitivity of Noninvasive Prenatal Detectionof Fetal Aneuploidy from Maternal Plasma Using Shotgun Sequencing Is LimitedOnly by Counting Statistics.PLoS ONE 5(5):e10439.

doi:10.1371/journal.pone.0010439.

9.Chiu RW,Chan KC,Gao Y,Lau VY,Zheng W,et al.(2008)Noninvasiveprenatal diagnosis of fetalchromosomal aneuploidy by massively parallelgenomic sequencing of DNA in maternal plasma.Proc Natl Acad Sci USA 105:20458–20463.

10.McCullagh,P.and Nelder,J.～A.(1989),Generalized Linear Models,London,UK:Chapman&Hall/CRC.

11.Fan HC,Blumenfeld YJ,et al.(2008)Noninvasive diagnosis of fetalaneuploidy by shotgun sequencing DNA from maternal blood.Proc Natl Acad SciUSA 42:16266–16271.

12.Melanie Birke.(2008)Shape constrained kernel densityestimation.Journal of Statistical Planning and Inference Volume 139,Issue 8,1August 2009,Pages 2851-2862.

13.Lo et al.,Lancet 350:485 487(1997).

14.Lo et al.,Am.J.hum.Genet.62:768-775(1998).

15.Pertl and Bianchi,Obstetrics and Gynecology 98:483-490(2001).

16.Rogers and Ventner,"Genomics:Massively parallel sequencing,"Nature,437,326-327(15 Sep.2005).

17.Mewar et al.,"Clinical and molecular evaluation of four patientswith partial duplications of the long arm of chromosome 18,"Am J HumGenet.1993 December；53(6):1269-78.

18.Margulies et al.,(2005)Nature 437:376-380.

19.Harris et al.,(2008)Science,320:106-109.

20.Soni and Meller,(2007)Clin Chem 53:1996-2001.

21.Dear,(2003)Brief Funct Genomic Proteomic 1:397-416.

Claims

1.一种用于建立染色体的覆盖深度和GC含量之间的关系的方法，所述方法包括：

从多于一个样品获得涵盖所述染色体的多个多核苷酸片段的序列信息；

基于所述序列信息将所述片段分配至染色体；

基于每个样品的所述序列信息计算所述染色体的覆盖深度和GC含量；并且

确定所述染色体的所述覆盖深度和GC含量之间的关系。

2.根据权利要求1所述的方法，其中所述分配是通过将所述片段的序列与人基因组参考序列比较进行的。

3.根据权利要求1所述的方法，其中所述染色体的所述覆盖深度是分配至所述染色体的片段数目与所述染色体的参考独特读段数目之间的比值。

4.根据权利要求3所述的方法，其中所述覆盖深度是标准化的。

5.根据权利要求4所述的方法，其中所述标准化是相对于另一染色体的所述覆盖度进行计算的，或者相对于所有其他常染色体的所述覆盖度进行计算的，或者相对于所有其他染色体的所述覆盖度进行计算的。

6.根据权利要求1所述的方法，其中所述染色体的所述GC含量是分配至所述染色体的所有片段的平均GC含量。

7.根据权利要求1所述的方法，其中所述染色体是染色体1、2、……、22、X或Y。

8.根据权利要求4所述的方法，其中所述关系为以下公式：

cr_i,j＝f(GC_i,j)+ε_i,j,j＝1,2,…,22,X,Y，

其中f(GC_i,j)代表样品i、染色体j的覆盖深度和相应GC含量之间的关系的函数，ε_i,j代表样品i、染色体j的残差。

9.根据权利要求1所述的方法，其中所述覆盖深度和GC含量之间的关系是通过局部多项式回归计算的。

10.根据权利要求9所述的方法，其中所述关系是非强线性关系。

11.根据权利要求10所述的方法，其中所述关系通过loess算法确定。

12.根据权利要求8所述的方法，进一步包括：根据以下公式计算拟合覆盖深度：

\hat{{cr}_{i, j}} = f ({GC}_{i, j}), j = 1, 2, ..., 22, X, Y .

13.根据权利要求12所述的方法，进一步包括：

根据以下公式计算标准差：

{std}_{j} = \sqrt{\underset{i}{Σ} {({cr}_{i, j} - \hat{{cr}_{i, j}})}^{2} / (n s - 1)}, j = 1, 2, ..., 22, X, Y,

其中ns代表参考样品的数目。

14.根据权利要求13所述的方法，进一步包括：

根据以下公式计算student t-统计量：

t 1_{i, j} = ({cr}_{i, j} - \hat{{cr}_{i, j}}) / {std}_{j}, j = 1, 2, ..., 22, X, Y .

15.一种对染色体测序结果进行GC校正的方法，所述方法包括：

通过测序从一个或多个样品中获得涵盖所述染色体的多个多核苷酸片段的序列信息；

基于所述序列信息将所述片段分配至所述染色体；

基于每个样品的所述序列信息计算所述染色体的GC含量；

使用所述染色体的GC含量以及利用权利要求1-14任一所述的方法所建立的所述染色体的覆盖深度和GC含量之间的关系来计算所述染色体的拟合覆盖深度，以获得所述染色体的GC校正测序结果，所述染色体的GC校正测序结果包含所述染色体的拟合覆盖深度。

16.一种确定孕妇外周血样本中胎儿DNA分数的方法，所述方法包括：

1)利用或者预先利用权利要求1-14任一所述的方法建立Y染色体的覆盖深度和GC含量之间的关系；

2)利用1)中所述关系对怀有女性胎儿的孕妇样本和男性受试者的Y染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度和所述男性受试者的Y染色体的拟合覆盖深度；

3)利用以下公式计算所述孕妇外周血样本中胎儿DNA分数，其中是所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度，是所述男性受试者的Y染色体拟合覆盖深度。

17.一种确定孕妇外周血样本中胎儿DNA分数的方法，所述方法包括：

1)利用或者预先利用权利要求1-14任一所述的方法建立X染色体的覆盖深度和GC含量之间的关系；

2)利用1)中所述关系对怀有女性胎儿的孕妇样本和男性受试者的X染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的X染色体的拟合覆盖深度和所述男性受试者的X染色体的拟合覆盖深度；

3)利用以下公式计算所述孕妇外周血样本中胎儿DNA分数，其中是所述怀有女性胎儿的孕妇的样本的X染色体拟合覆盖深度，是所述男性受试者样本的X染色体的拟合覆盖深度。

18.一种确定孕妇外周血样本中胎儿分数的方法，所述方法包括：

1)利用或者预先利用权利要求1-14任一所述的方法分别建立X和Y染色体的覆盖深度与各自的GC含量之间的关系；

2)利用1)中所述的关系对怀有女性胎儿的孕妇样本和男性受试者的X和Y染色体测序结果进行GC校正，获得所述怀有女性胎儿的孕妇样本的X和Y染色体的拟合覆盖深度，以及所述男性受试者的X和Y染色体的拟合覆盖深度；

3)利用以下公式计算所述孕妇外周血样本中胎儿DNA分数，其中是所述怀有女性胎儿的孕妇样本的X染色体的拟合覆盖深度，是所述怀有女性胎儿的孕妇样本的Y染色体的拟合覆盖深度，是所述男性受试者的X染色体的拟合覆盖深度，是所述男性受试者的Y染色体的拟合覆盖深度。