CN107922959A

CN107922959A - 混合物样品的精确分子去卷积

Info

Publication number: CN107922959A
Application number: CN201680046872.9A
Authority: CN
Inventors: S·塞尔瓦拉; N·海兹曼; C·E·莱恩
Original assignee: Arima Genomics Co
Current assignee: Arima Genomics Co
Priority date: 2015-07-02
Filing date: 2016-07-04
Publication date: 2018-04-17
Also published as: EP3317420A4; US20180187241A1; WO2017004612A1; EP3317420A1; EP3317420B1; US12018314B2

Abstract

本公开内容涉及将来自不同起源或来源的遗传物质的混合物样品去卷积的方法。所公开的方法可以用于各种应用，包括：在母本血浆或其它体液中来自无细胞核酸的胎儿基因组、胎儿‑组(例如外显子组)或其它靶向胎儿基因座的非侵入性确定；在含有来自正常细胞和肿瘤细胞的核酸混合物的体液样品中来自无细胞核酸的癌症相关突变的确定；和使用来自移植受体的体液定量供体细胞污染，以监测和/或预测移植过程的结果。

Description

混合物样品的精确分子去卷积

相关申请的交叉引用

本申请要求于2015年7月2日提交的标题为“胎儿的全基因组双倍体序列测序”的美国临时申请号62/188,355的优先权，该申请通过引用将其全部内容并入本文用于所有目的。

政府支持声明

本发明是在国立卫生研究院授予的资助号1R43HD087113-01A1的政府支持下完成的。政府对本发明有一定的权利。

技术领域

本公开内容涉及将含有来自不同起源或来源的遗传物质混合物的样品(称为混合物样品或不纯的样品)去卷积的方法。所公开的方法可以用于各种应用，包括但不限于：a)在母本血浆或其它体液中来自无细胞核酸的胎儿基因组、胎儿-组(fetal-ome)例如外显子组或其它靶向胎儿基因座的非侵入性确定；b)在含有来自正常细胞和肿瘤细胞的核酸混合物的体液样品中来自无细胞核酸的肿瘤相关核酸的确定；和c)使用来自移植受体的体液定量供体遗传污染，以监测和/或预测移植过程的结果。

背景技术

在自然和医学中有几个例子，其中源自不同来源的核酸混合在一起并表示为单个样品。去卷积这样的混合物样品是几个临床应用的基础，并且是非常具有挑战性的。

混合样品的一个例子是来自母本体液例如血浆的无细胞核酸。来自母本血浆的无细胞核酸含有源自母本和胎儿的遗传物质的混合物，并且该混合物的精确描绘允许使用简单的母本静脉采血(抽血)将胎儿基因内容精确确定至基因型和单倍型的单核苷酸变异(SNV)水平，避免了更侵入性的采样方法的需要。有几千种单基因孟德尔疾病，其累计影响约1％的人类出生人口，此外，微缺失、大的兆碱基型非整倍体和三体性显著促成胎儿遗传疾病。总之，这些遗传缺陷是导致流产和先天性出生障碍的主要原因之一。

作为混合样品的第二个例子是来自这样的患者的无细胞核酸，所述患者正在针对肿瘤相关突变或异常的存在被筛选、测试、治疗或监测。这种类型的混合样品将含有来自正常细胞和肿瘤细胞的核酸。

混合样品的第三个例子是来自移植受体患者的无细胞核酸。这种类型的混合样品将具有受体核酸和供体核酸。定量供体遗传污染的量将大大有助于理解移植结果和/或监测移植过程。

因此，用于去卷积混合物样品(如上述无细胞核酸)或任何其它混合物样品以确定基因内容的成本有效的更快且高度准确的方法将具有巨大的临床效用。

发明内容

本公开内容通过提供用于各种临床环境的混合物样品(例如无细胞核酸(cfNA，例如cfDNA))的成本有效去卷积的方法来解决上述未满足的需要，所述方法包括：a)通过利用亲本长单倍型例如跨染色体单倍型结合低深度(<10X)MPcfDNA测序，去卷积母本血浆cfDNA(MPcfDNA)样品以非侵入性地确定整个胎儿基因组(基因型和单倍型)；b)通过利用-组的亲本长单倍型例如跨染色体单倍型结合MPcfDNA–组的最小测序，去卷积MPcfDNA以非侵入性地确定胎儿-组序列(外显子组或其它-组例如常见变体组或顺式调控元件组、条件特异性基因小组等)；c)通过利用相应基因座的亲本长单倍型例如跨基因座单倍型结合对代表靶基因座的MPcfDNA的测序，去卷积MPcfDNA以非侵入性地确定用户定义的靶胎儿基因座序列，其中测序深度取决于基因座的长度；d)通过利用种系单倍型结合用于癌症检测、监测和监视的cfDNA测序，去卷积cfDNA以检测肿瘤相关突变；e)通过利用受体单倍型结合RcfDNA测序去卷积受体cfDNA(RcfDNA)以定量供体污染以了解移植结果和/或监测，以及(f)其它效用。

本公开内容的一个实施方案包括使用HaploSeq(如S.Selvaraj等,NatureBiotechnology,"Whole genome haplotype reconstruction using proximity-ligationand shotgun sequencing"，2013年11月3日在线出版，doi:10.1038/nbt.2728；Selvaraj等,BMC Genomics,“Complete haplotype phasing of the MHC and KIR loci withtargeted HaploSeq”,2015年11月5日在线出版,doi:10.1186/s12864-015-1949-7；标题为“Whole-genome and targeted haplotype reconstruction”的美国公开号2016/0160275；以及标题为“Whole-exome haplotype reconstruction”的美国临时专利申请(申请号62/234,329，2015年9月29日提交)所述)，以确定跨染色体长度或其它靶长度的亲本单倍型和/或种系单倍型。这些参考文献的内容通过引用以其整体并入。

本公开内容的另一个实施方案是对混合物样品(例如cfNA-MPcfDNA或来自癌症患者的cfDNA，或RcfDNA)进行测序。存在于MPcfDNA中的胎儿分数(fraction)或存在于癌症患者cfDNA中的肿瘤分数或RcfDNA中的供体分数通常是少数：在胎儿情况下为5-15％，在癌症和移植情况中均为0.01-10％。

本公开内容的另一个实施方案是新型的基于HMM的分析，其用于通过利用亲本和/或种系单倍型对混合物样品进行去卷积。本公开内容的特征是创新的基于HMM的分析，其中来自相同单倍型上的附近碱基的混合物数据(例如cfDNA数据)被用于累积地支持对碱基去卷积的决定。来自相同单倍型上数据的这种累积支持(称为“枚举”)降低了在混合物样品中表现的观察到的等位基因分数的变异，这使得能够通过最小化的混合物样品测序对混合物样品进行准确的去卷积，从而能够实现混合物样品的成本有效的去卷积。例如，在确定整个胎儿基因组的情况下，枚举允许将MPcfDNA的所需测序深度从40-70X深度降低到<10X深度。基于单倍型的枚举允许混合或不纯的样品的成本有效且准确的去卷积。

本文公开了用于非侵入性确定胎儿基因内容的方法，其包括：获得包含一组具有基因组DNA的染色体的细胞母本样品，并从所述母本样品获得母本基因型或单倍型；获得包含一组具有基因组DNA的染色体的细胞父本样品，并从所述父本样品获得父本基因型或单倍型；获得无细胞核酸母本样品并确定无细胞核酸母本样品的序列；通过分析来自无细胞核酸母本样品的测序数据，确定传递的和未传递的母本和父本等位基因的胎儿等位基因分数；枚举来自相邻胎儿等位基因的每个胎儿等位基因；并且将一个或多个枚举的等位基因输入HMM以确定胎儿基因内容。在另一个实施例中，该方法进一步包括HMM后分析。在另一个实施方案中，测序是无细胞核酸母本样品的全基因组测序，母本或父本单倍型是长的，胎儿基因内容是整个胎儿基因组。在另一个实施方案中，长单倍型是跨越染色体单倍型。在又另一个实施方案中，所述测序是无细胞核酸母本样品的-组测序，母本或父本单倍型是长的，胎儿基因内容是胎儿-组。在另一个实施方案中，长单倍型是-组的跨染色体单倍型。在一个实施方案中，-组是外显子组。在另一个实施方案中，测序是无细胞核酸母本样品的基因座测序，母本或父本单倍型是长的，胎儿基因内容是胎儿基因座。在一个实施方案中，长单倍型是跨基因座单倍型。在其它实施方案中，枚举窗口大小从约100千碱基到约20兆碱基；或以约85％至90％、90％至95％、95％至96％、96％至97％、97％至98％、98％至99％)或99％至100％的准确率确定胎儿基因内容；或母本样品、父本样品和无细胞核酸母本样品来自人类、非人类哺乳动物、无脊椎动物、植物或真菌。在又其它实施方案中，胎儿基因内容的确定是胎儿基因型变体或胎儿单倍型变体。在一个实施方案中，通过推断一个或多个母本或父本重组位置并由此确定胎儿基因型变体和胎儿单倍型变体来确定胎儿基因内容。在另一个实施方案中，无细胞核酸母本样品可以表现母源或胎源的新生变体。

本文公开了用于非侵入性确定受试者中的癌症相关突变的方法，其包括：从所述受试者获得包含一组具有基因组DNA的染色体的细胞样品并从所述样品获得长的种系单倍型；从所述受试者获得无细胞核酸样品并确定无细胞核酸样品的序列；通过分析来自无细胞核酸样品的测序数据确定肿瘤和正常等位基因的等位基因分数；枚举来自相邻等位基因的每个等位基因；并将一个或多个枚举的等位基因输入HMM以确定癌症相关突变的存在；和长种系单倍型是跨染色体种系单倍型、-组的跨染色体种系单倍型或跨基因座种系单倍型。

本文还公开了用于非侵入性确定来自移植受体的样品中的基因内容的方法，其包括：从移植受体获得包含一组具有基因组DNA的染色体的细胞样品并从所述样品获得长种系单倍型；从移植受体获得无细胞核酸样品并确定无细胞核酸样品的序列；通过分析来自无细胞核酸样品的测序数据确定供体和受体等位基因的等位基因分数；枚举来自相邻等位基因的每个等位基因；以及将一个或多个枚举的等位基因输入到HMM中以确定样品的基因内容；并且其中所述长种系单倍型是跨染色体种系单倍型、-组的跨染色体种系单倍型或跨基因座种系单倍型。

附图说明

本发明的这些和其它特征/方面和优点将参照以下描述、所附权利要求和附图而变得更好理解，其中：

图1.对长范围亲本单倍型信息的知识减少区分母本和胎儿内容所需的MPcfDNA测序的量，从而使得能够精确确定胎儿基因内容。假设传递和未传递的亲本单倍型是泊松随机变量，将来自中心极限定理的近似值用于从数学上(在***框方程中示出)代表确信地(99％)区分单倍型的MPCfDNA测序所需的水平。更具体地说，ε＝胎儿分数，Z＝在α＝0.99时的z得分，N是在母本传递的等位基因内的累积覆盖率，其中母本是杂合的，父本对母本传递的等位基因而言是纯合的。在这些位点，由于父本内容是纯合的，因此母本单倍型单独确定胎儿基因内容(图1A)。假设在MPcfDNA中存在10％胎儿DNA，当母本单倍型块是整个染色体的长度(100％)时，如用HaploSeq实现的，MPcfDNA的～1X测序是足够的(图1B)。类似地，跨越如通过不同的妊娠时间确定的不同胎儿分数对三个母本单倍型长度水平(0.1％、1％和100％)进行建模。在较长的母本单倍型知识的情况下，用于区分MPcfDNA中的母本和胎儿内容所需的MPcfDNA测序是非常低的：在5％胎儿DNA时2-3X MPcfDNA测序。

图2A图示地描绘了可以如何非侵入性地确定胎儿基因型和单倍型。使用来自母亲和父亲的简单抽血，可以自对MPcfDNA进行测序确定胎儿基因型和单倍型。具体而言，母本单倍型告知来自仅母本杂合等位基因(MHet,#)的胎儿等位基因，类似地，父本单倍型告知来自仅父本杂合等位基因(PHet,@)的胎儿等位基因。在双亲杂合等位基因(Bi-het,*)中，两种单倍型都告知胎儿的基因内容。图2B描绘了如分别自用于胎儿基因组、外显子组和基因座分析的HaploSeq获得的跨染色体亲本单倍型(i)、跨染色体亲本-组单倍型(ii)和任何基因座的亲本单倍型(iii)。

图3显示了来自枚举的MPcfDNA测序的胎儿基因内容确定。图3A显示了“模拟”MPcfDNA测序的实验设计。传递的母本和父本单倍型一起表现胎儿基因内容，并且为了简单起见，仅分析了其中父本等位基因对母本传递的等位基因而言是纯合的胎儿等位基因(MHet-PeqMT，灰色碱基)。在这些等位基因中，母本单倍型单独确定胎儿内容，假定在MPcfDNA中具有15％胎儿分数，传递和未传递的等位基因分别具有0.575和0.425分数(图3A)。即使在2X MPcfDNA测序下，也可以区分传递和未传递的单倍型(图3B)。在分析来自1号染色体的MPcfDNA时，由于MPcfDNA测序的低2X深度，当前算法使用的原始数据不遵循预期分数(下部，在0.575和0.425附近的水平虚线)。通过枚举在5Mb长度内的M1和M2单倍型(上部)，辨明与真实重组(黑色垂直虚线)一致的精确重组位置(#，灰色垂直条带)(*表示着丝粒)(图3C)。

图4显示了在枚举的MPcfDNA数据上的HMM模型导致在1号染色体的父本等位基因对母本传递的等位基因而言纯合(MHet-PeqMT)的胎儿等位基因处以>99％的准确率确定胎儿基因内容。图4A显示在2XMPcfDNA下gHMM比bHMM更准确(上部)，分辨率损失最小(下部)。图4B显示跨越多个枚举窗口大小的gHMM的准确率，其中约2Mb的窗口大小在MPcfDNA的2X测序中表现最佳。图4C与图4B相同，但具有0.99的后阈值。在2Mb左右的窗口大小下，准确率达到99.9-100％，有名义分辨率损失(灰色条带)。图4D显示在各种MPcfDNA测序深度，不同枚举窗口大小，在0.99后截止下gHMM的准确率(上部)和相应的分辨率损失(下部)。图4E显示由于HMM仅在模拟中观察到的碱基处预测胎儿基因内容，所以由于MPcfDNA测序读出的泊松分布，存在固有的分辨率损失。这两个来源(HMM和MPcfDNA读出分布)一起造成分辨率的损失。图4F显示超过4X MPcfDNA测序深度，来自HMM和MPcfDNA读出分布(参见图4E)的分辨率的损失最小，准确率有最小的增加。

图5：在用于胎儿确定的不同类型的等位基因中HMM模型的概括。在母本和父本等位基因都是纯合的情况下，胎儿基因内容的确定是微不足道的。在母本或父本等位基因是杂合的或两者都是杂合的情况下，准确确定胎儿基因序列需要复杂的数学模型如隐马尔可夫模型(HMM)。更具体地说，在仅母本杂合等位基因(MHet：Mat-Het，Pat-Hom)中只提供母本单倍型信息，在仅父本杂合等位基因(Phet：Mat-Hom，Pat-Het)中只提供父本单倍型信息，并且在双亲杂合等位基因(Bi-het：Mat-Het，Pat-Het)中都提供两种单倍型信息。因此，在双亲都是杂合的情况下，可能需要4态HMM来确定胎儿基因序列。在每种这些类型中，表现出两种情况，其进而表现出独特的预期等位基因分数，其中f定义为MPcfDNA中胎儿基因内容的分数。在这个图例中，在每个等位基因类型中建模HMM的具体配置。其它类型的配置可同样良好地起作用——例如，在一次情形中用于所有类型的等位基因的4态单HMM而不是多个HMM。

图6显示在6X MPcfDNA下，在1号染色体的所有三种类型的胎儿等位基因处，基于HMM的高度准确(>99％)胎儿基因内容测定(参见图6A)。对于所有三种类型的胎儿等位基因(MHet，PHet，Bi-het)，gHMM在2-3Mb的枚举窗口大小(灰色条带)下产生胎儿确定的>99％准确率(上部)和最小分辨率损失(下部)。在曲线中定义的准确率是在0.99的后阈值下的Post2(hmm后的微型转换(post-hmm micro-switch)和冲突校正)(图6B)。gHMM的可能性可以用作准确率的代表。在图6B(i)中，在不同窗口大小中示出了MHet的可能性(如图6A所述)，并且如所期望的，在2-3Mb的窗口大小下可能性最大，与相同窗口范围中的高准确率良好对应。图6B(i)中的插图重复准确率和可能性之间的线性关系——可能性越高，准确率越高。在图6B(ii)中，以各种窗口大小描绘了MHet的基于HMM的准确率和post2准确率(后阈值0)。基于HMM的准确率和post2准确率均与可能性良好相关(灰色条带)，并且在2-3Mb的窗口大小下最大化。当窗口大小固定为2.5Mb(对于MHet等位基因)时，标准偏差似乎最小地影响gHMM模型的基于HMM的准确率和post2准确率(图6C)。

图7描述了来自不同胎儿等位基因类型以确定整个胎儿基因组(1号染色体)的组合结果。胎儿染色体由所有三种类型的等位基因组成，因此组合来自每个等位基因类型的结果允许对整个胎儿基因组的无偏倚确定。这里，描述了每种类型(MHet，PHet，Bi-het)在0.99后部(posterior)的基于HMM的准确率。接下来，应用hmm后的窗口(PSW)校正来消除或减少由于HMM而表现的微型转换错误，以获得post1准确率。由于在MHet和Bi-Het等位基因之间以及在PHet和Bi-Het等位基因之间共享信息，所以进行了努力来组合来自这两组的结果来确定post2Acm和Acp准确率。在post2期间，分辨了预测之间(MHet和Bi-Het之间，以及PHet和Bi-Het之间)的进一步微型转换和冲突。最终的准确率(A＝99.77％)和分辨率(R＝99.74％)由Acm和Acp以及Rcm和Rcp确定。如上所述，预测整个1号染色体翻译成预测整个胎儿基因组，因为胎儿独立地遗传每条染色体，并且通过在1号染色体中显示所公开的方法，它也可以被翻译成其它染色体并且一起被翻译成基因组。描述了每个等位基因类型和组合步骤中预测和分辨的等位基因的数目，最终的准确率和分辨率为99.7％。这清楚地显示了所公开的方法在确定胎儿基因组中的精密度。

图8显示在1号染色体的所有类型的胎儿等位基因，在50X MPcfDNA外显子组下基于HMM的准确(>98％)胎儿外显子基因内容确定。图8A显示对于所有三种类型的胎儿等位基因(MHet，PHet，Bi-het)，gHMM在胎儿外显子组确定中产生>98％的准确率(上部)。但是，分辨率有明显损失(下部)，尤其在B-Het胎儿等位基因中。无论如何，2-4Mb的枚举窗口大小(灰色条带)以合理的分辨率损失(对于MHet为<5％，对于Bi-Het为<20％)产生最高的准确率(>98％)。在曲线中定义的准确率是在0.99的后阈值下的Post2(hmm后的微型转换和冲突校正)(图8B)。如在图6B中那样，在基因组情况下，外显子组gHMM的可能性也可用作准确率的代表。在图8B(i)中，在不同的窗口大小中示出了MHet的可能性(如在图6B(i)中那样)，并且如所期望的，在2-4Mb的窗口大小下可能性是最大的，与相同的窗口范围中的高准确率良好对应。图8B(i)的插图显示准确率和可能性之间的线性关系——可能性越高，准确率越高，如图6B(i)所示。在图8B(ii)中，以各种窗口大小描绘MHet的基于HMM的准确率和post2准确率(后阈值0)。基于HMM的准确率和post2准确率与可能性良好相关(灰色条带)，并在2-4Mb的窗口大小下最大化。总之，胎儿外显子组确定的结果遵循与胎儿基因组确定的情况类似的原理并显示出与其类似的准确率。这些结果也适用于其它-组例如顺式调控元件或常见变体的全基因组集合等。

图9描述来自不同胎儿等位基因类型以确定整个胎儿外显子组(1号染色体)的组合结果。该图遵循图7的概要。因为外显子组代表2-3％的基因组，所以在外显子的1号染色体中仅约3,500个胎儿等位基因待测定，而不是158,000个总胎儿等位基因(图7)。如在胎儿基因组确定(图6，图7)的情况，通过基于HMM的预测，随后通过基于post1的微型转换校正，并且最后通过post2微型转换和冲突分析进行外显子组确定。为简单起见，根据等位基因或SNV的数目来表示PSW(post1和post2的hmm后的窗口大小)。图9清楚地显示了可如何以99.12％的最终准确率(A)确定胎儿外显子组；再次显示本文公开的方法的精密度。

图10显示根据真正的亲本重组连接显现的胎儿外显子组确定(来自图9中的最终结果)的结果。该方法的总体目标是对混合物MPcfDNA样品去卷积以确定胎儿基因组和外显子组，并且这通过预测亲本重组连接以确定胎儿单倍型和基因型来实现。在图10(i)中，描述了在PHet等位基因的胎儿外显子组预测。在这些等位基因中，只有父本单倍型提供信息，因此胎儿隐态预测限于P1和P2。从这个分析中可以看出几点。首先，预测是稀疏的(图中P1和P2的稀疏黑色数据点)，因为外显子只是基因组的2-3％。其次，预测与真正的重组(竖线)非常吻合。第三，如预期的，错误主要发生在真正的重组附近。图10(ii)显示来自MHet等位基因的结果。与PHet类似，只有母本单倍型在MHet中提供信息，因此胎儿碱基预测限于M1和M2。不同于有一个真正的重组事件的PHet，MHet代表M1和M2之间的四个重组。这解释了为何MHet预测与PHet预测相比通常具有较低的准确率和分辨率(图6A，图8A，图7和图9)。在图10(iii)中，显示了来自Bi-het的结果。如前所述，在这些等位基因中，两个亲本单倍型都提供信息，因此胎儿碱基预测基于具有5个总体重组的4个隐态M1P1、M2P1、M1P2、M2P2。Bi-het情况通常是最具挑战性的等位基因类型，因为a)它表现出4种状态，和b)Bi-het中的胎儿等位基因的数目少于MHet/PHet情形中的胎儿等位基因的数目(图7和图9)。总之，图10显示可以通过本文所公开的方法以及通过所公开的方法的扩展在整个外显子组以及其它-组(*表示着丝粒)中在1号染色体中精确预测胎儿外显子序列。

图11显示MPcfDNA中胎儿拷贝数变异(CNV)的稳健鉴定。在母本1号染色体中：在约60-80Mb之间(浅灰色条带)引入模拟的20Mb重复事件，并且用2Mb窗口枚举。通过传递(从0.575到0.72)和未传递(0.425到0.28)等位基因的预期等位基因分数的变化在MPcfDNA中检测传递的CNV(在黑色母本单倍型M1中显现)(*表示着丝粒)。

图12显示所公开的方法可以如何对患者的cfDNA去卷积以确定患者肿瘤的基因内容(图12A)。从患者简单抽血，可以从cfDNA确定肿瘤的基因内容，因为它含有来自正常细胞和肿瘤细胞的DNA。虽然肿瘤的基因内容可以包含不同类型的变异，但是大的结构变异(LSV)被认为是癌症的标志。LSV可以是缺少或重复事件，平均而言，已知肿瘤含有8个LSV。例如，基于缺失的LSV(表示为-1)可以通过49.5％至50.5％的等位基因失衡来确定，假设cfDNA中1％的肿瘤分数。然而，区分49.5％至50.5％的失衡需要对cfDNA进行深度测序。产生长的种系单倍型使得能够枚举在肿瘤与正常细胞之间常见的LSV中的SNV等位基因，以从同一种系单倍型的整个LSV累积收集等位基因分数证据，从而能够从cfDNA的最小测序中检测肿瘤相关的LSV。图12B和图12C描述了可如何使用所公开的方法来检测8个染色体臂水平的LSV。图12B显示LSV缺失，图12C显示LSV重复。假设肿瘤和正常染色体分布为泊松随机变量，将来自中心极限定理的近似值用于从数学上(在***框方程中示出)代表确信地(99％)区分由肿瘤引起的缺失LSV(-1)的等位基因失衡的cfDNA测序所需的水平(图12B)。更具体地说，ε＝肿瘤分数，Z＝在α＝0.99时的z得分，N是在LSV等位基因内的累积覆盖率。来自例如HaploSeq的更长单倍型使得能够进行cfDNA的最小测序(图12B(i))，这在cfDNA中肿瘤的较低分数中是特别重要的(图12B(ii))。图12C显示了与图12B类似的结果，但是用于重复(+1)LSV。

具体实施方式

提供以下详细描述以帮助本领域技术人员实践本发明。即使如此，该详细描述不应当被解释为过度地限制本发明，因为本领域普通技术人员可以在不背离本发明性发现的精神或范围的情况下对本文讨论的实施方案进行修改和变化。

如在本公开内容和所附权利要求中所使用的，除非上下文另有明确说明，否则单数形式“一个”、“一种”和“该”包括复数形式。如在本公开内容和所附权利要求中所使用的，术语“或”可以是单数或包括在内的。例如，A或B可以是A和B。

及时获取准确的遗传信息可以提高对人类健康和疾病的认识。最近，下一代测序(NGS)方法已经显现为获取个体遗传信息的标准方法。NGS方法正在用于疾病的诊断和监测。但是，要真正实现精准医学，当前的一些挑战必须得到解决。NGS的一个挑战是定义单倍型。更具体地说，人类遗传两拷贝的遗传物质，母本和父本的，并且去卷积两拷贝的单倍型是非常具有挑战性的。换句话说，人类基因型，即“亲本合并”的遗传信息，可以通过当前的NGS获得，但是使基因型去合并以识别单倍型仍然是非常困难的。对单倍型(以及基因型)的知识将个体的完整个体的遗传信息分类，并且是遗传学在精准医学中的效用的基础。

当前的NGS方法的另一个挑战是去卷积来自混合或不纯的样品的遗传信息。更具体地说，虽然可以从个体的“纯”DNA源(例如唾液，来自血液的白细胞(WBC)，组织活检等)获得遗传信息，但是去卷积混合物样品以确定基因内容是远更具挑战性的。作为混合样品的一个经典实例，母本体液如血浆含有cfNA(MPcfDNA)，其含有来自胎儿和母亲的遗传物质，并且确定来自MPcfDNA混合物的胎儿基因内容能够检测胎儿遗传疾病。由于包括单基因孟德尔疾病和非整倍体在内的胎儿遗传缺陷是导致流产和先天性出生障碍的主要原因之一，所以已经作出重大努力去卷积MPcfDNA以定义胎儿内容。

被称为非侵入性产前检测(NIPT)的方法已经使得能够检测来自MPcfDNA的胎儿非整倍体。但由于MPcfDNA中胎儿含量的分数很小(约5-15％)，并且由碎片化至150bp的DNA组成，所以将胎儿基因内容(基因型和单倍型)确定至SNV水平仍然具有挑战性。SNV基因型的知识是诊断胎儿单基因孟德尔疾病的基础。此外，胎儿单倍型的非侵入性去卷积对于评估复杂的多基因疾病的风险是必要的。因此，在SNV基因型和单倍型背景下定义胎儿遗传背景的方法将具有很高的临床效用。

在NIPT的情况下，可以使用诸如HaploSeq(如上所述)等方法来解析母本和父本单倍型，并且通过利用长单倍型例如跨染色体(或跨基因座)亲本单倍型，本发明人开发了一种新的基于隐马尔可夫的算法，以从MPcfDNA的最小测序确定胎儿基因内容(基因型和单倍型)。

在HaploSeq之前，获得长亲本单倍型是具有挑战性的。用于获得单倍型的几种已知方法(例如基于fosmid的、基于稀释的、10X Genomics、Dovetail基因组学等)产生有限长度的单倍型(通常是100兆碱基的平均人染色体的<1-5％)，需要过多的时间耗时且费钱的MPcfDNA深度测序以获得准确的胎儿遗传推断。这在胎儿cfDNA可以低至3-5％时的早期妊娠中尤其明显-例如，在5％胎儿cfDNA时，如图1A和图1B中所示。

对长单倍型例如跨染色体亲本单倍型(100％人染色体)的知识可以将准确的胎儿遗传推断所需的MPcfDNA测序深度最小化。然而，已知的产生亲本跨染色体单倍型的方法，例如基于染色体分离的定相(phasing)或经由亲子三元体(parent-child trios)的定相，费力地执行，需要专门的设备和/或需要来自通常不可获得的祖父母的遗传物质。

HaploSeq是全基因组(跨染色体)和靶向单倍型分析的唯一实用和可扩展的方法，可以解决低染色体定相的问题，这困扰着前面提到的方法。HaploSeq是第一个可扩展的成本有效的方法，用于在没有亲本信息、***样品或专门设备的情况下，组装跨染色体单倍型、跨染色体-组单倍型(外显子组或其它-组单倍型)或靶向跨基因座单倍型。

本公开内容揭示了一种用于去卷积混合物样品的新方法。混合物样品的示例性类型是NIPT样品、肿瘤样品和移植样品。

在总结NIPT时，使用父母的跨染色体单倍型(通过HaploSeq获得)使得能够从低深度(<10X)MPcfDNA测序确定整个胎儿基因组。对-组的跨染色体亲本单倍型的知识可使得能够确定胎儿-组(外显子组或其它-组例如常见变体组或顺式调控元件组等)。特别地，外显子组代表(2-3％)的基因组，并且在所有染色体中稀疏分布。使用Exome HaploSeq获得关于长单倍型例如跨染色体亲本外显子组单倍型的信息，并将该信息用于确定来自MPcfDNA的胎儿外显子组。使用相同的基本原理，用关于相应的亲本单倍型的信息可以从MPcfDNA中确定任何特定的胎儿基因座。因此，本文公开的方法显示自MPcfDNA或来自其它体液的cfDNA的真实胎儿测序测定，其能够在SNV基因型和单倍型的背景下非侵入性确定胎儿基因型和单倍型以确定整个基因组、外显子组(或其它-组)或任何靶向基因座，以及时和高度准确地诊断胎儿遗传疾病。

分子肿瘤学领域可以找到混合物样品去卷积的第二个例子。具体而言，来自癌症患者的血浆、尿液或其它体液(BF)的cfNA包含来自正常细胞以及肿瘤细胞的核酸。因此，已经开始使用cfDNA(其显示无细胞肿瘤DNA(ctDNA))作为非侵入性检测癌症相关突变或异常的手段。本文描述了来自个体的种系单倍型(指示正常遗传物质)的知识如何允许使用从cfDNA测序获得的数据准确检测癌症相关突变。取决于cfDNA所显示的“被推断的”癌症相关突变的大小和位置，相应的种系单倍型知识允许减少cfDNA测序，节省时间和金钱。

混合物样品的第三个例子是来自器官移植受体的cfNA。具体而言，已知来自受体血浆样品(RcfDNA)的cfDNA包含源自受体以及供体的DNA。去卷积RcfDNA以定量受体样品中供体DNA的量提供了移植结果的指示并且允许监测移植程序。受体单倍型的知识可以允许从RcfDNA测序中成本有效地测量供体遗传“污染”。

总之，本公开内容显示，长单倍型(亲本、种系等)的知识促进了混合物样品的成本有效的去卷积以非侵入性地确定胎儿基因组、外显子组(或其它-组)或任何靶向基因座，或非侵入性地检测癌症相关突变，非侵入性地定量供体污染以及其它应用。总体而言，所公开的方法将允许使用基于混合样品的测定(例如cfDNA)来推进大量的临床应用。

范围

如本文所公开的，提供了多个数值范围。应理解的是，除非上下文清楚地另外指出，在该范围的上限和下限之间的每个中间值至下限单位的十分之一也被具体地公开。在所述范围内的任何所述值或中间值与该所述范围内的任何其它所述值或中间值之间的每个较小范围都包含在本发明内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在外，并且其中在较小范围内包括任一个、两个端点或两个端点都不包括的每个范围也包括在本发明内，受限于所述范围的任何明确排除的端点。在所述范围包括一个或两个端点的情况下，排除那些所包括的端点中的任一个或两个的范围也包括在本发明中。

约

术语“约”通常是指所指数字的加减10％。例如，“约10％”可以表示9％至11％的范围，“约1”可以表示0.9-1.1。“约”的其它含义可以从上下文明显看出，例如四舍五入，所以例如“约1”也可以表示0.5到1.4。

单倍型

由于人类基因组由两套同源染色体组组成，理解个体的真实遗传组成需要描绘遗传物质的母本和父本拷贝或单倍型。单倍型重建也被称为“单倍型定相”，是描绘母本和父本单倍型的行为。一种流行的方法是使用DNA或RNA测序数据来分组遗传自同一亲本的变体等位基因。这个分组被称为单倍型块。参见Browning等Am J Hum Genet 81,1084-97(2007)。在个体中获得单倍型的效用可为几倍：首先，单倍型在临床上可用于预测器官移植中供体-宿主匹配的结果(Crawford等,Annual Review Of Medicine 56,303-320(2005)和Petersdorf等,PLoS Medicine 4,e8(2007))，并越来越多地用作检测疾病相关性的手段(Studies等，Nature 447,655-660(2007)；Cirulli,等,Nature Reviews.Genetics 11,415-425(2010)；和Ng等,Nature Genetics42,30-35(2010))。其次，在显示复合杂合性的基因中，单倍型提供了关于两个有害变体是否位于相同或不同的等位基因上的信息，极大地影响这些变体的遗传是否有害的预测(Musone等,Nature Genetics 40,1062-1064(2008)；和Erythematosus,等,Nature Genetics 40,204-210(2008)；和Zschocke,Journal ofInherited Metabolic Disease 31,599-618(2008))。在复杂基因组例如人中，复合杂合性可涉及位于远离其所调节的基因的非编码顺式调控位点处的遗传或表观遗传变异(Sanyal等,Nature 489,109-113(2012))，强调了获得长单倍型例如跨染色体单倍型的重要性。第三，来自个体组的单倍型提供了关于群体结构(International HapMap,C.等,Nature 449,851-861(2007)；Genomes Project,C.等,Nature 467,1061-1073(2010)；和GenomesProject,C.等,Nature 491,56-65(2012))和人类种族的进化史(Meyer等,Science 338,222-226(2012))的信息。第四，单倍型结构的知识对于产前非侵入性胎儿测序是临床上有用的(Kitzman,等Sci Transl Med 4,137ra765(2012))。此外，单倍型对于理解已知影响疾病易感性的基因表达中的“等位基因失衡”、DNA甲基化和蛋白质-DNA相互作用是有用的(Kong,A.等Nature 462,868-1074(2009),International Consortium for SystemicLupus Erythematosus,G.等Genome-wide association scan in women with systemiclupus erythematosus identifies susceptibility variants in ITGAM,PXK,KIAA1542and other loci.Nat Genet 40,204-10(2008),和Hindorff等Proc Natl AcadSci USA 106,9362-7(2009))。总而言之，获得单倍型信息对于人类遗传学的临床和生物医学进展是重要的。这些参考文献的内容通过引用以其整体并入。

单倍型可以通过全基因组测序(例如HaploSeq)获得并且可以跨越100％的染色体(跨染色体单倍型)或染色体的任何长的部分(>0.05％，例如0.1％、1％等)。长单倍型被定义为大于染色体总长度的约0.05％直至染色体长度的100％。

单倍型可以通过-组的靶向测序(例如Exome HaploSeq)来实现，并且可以跨越覆盖-组元件的整个染色体(染色体的100％)或染色体的任何长部分(>0.05％，例如0.1％、1％等)。例如，Exome HaploSeq产生仅覆盖外显子组等位基因的跨染色体单倍型或外显子组的跨染色体单倍型。长单倍型被定义为大于染色体总长度的约0.05％直至染色体长度的100％。

单倍型可以通过基因座的靶向测序(例如靶向HaploSeq)获得，并且可以跨越整个基因座(基因座的100％)或基因座的任何长部分(>0.05％，例如0.1％、1％等)。长单倍型被定义为大于染色体总长度的约0.05％直至染色体长度的100％。

枚举

枚举是集合中所有项目的完整有序的列表。该术语在数学和计算机科学中通常用来提及集合中所有要素的列表。在本公开内容的上下文中，根据种系或亲本单倍型枚举并一起平均由其等位基因类型分类的混合物cfDNA数据的碱基。更具体地说，通过枚举来自相同单倍型上的邻近碱基的cfDNA数据来估计来自混合物cfDNA数据的特定碱基的等位基因分数，以累积地支持传递和未传递的等位基因频率的稳健估计。单倍型越长(例如，跨染色体或跨基因座)，可以使用越多的等位基因进行枚举，因此更长的单倍型最大化等位基因分数的稳健估计的机会。

去卷积

去卷积是将某物解析成其组成元素或去除复杂以澄清它的过程。在本公开内容的上下文中，混合物样品的去卷积允许确定每种组成来源的基因内容。例如，去卷积MPcfDNA意味着确定胎儿和母本遗传物质的内容。

基因组

基因组是所有遗传物质的任何集合，包括来自遗传来源的所有染色体和非染色体DNA。遗传来源可以包括但不限于真核、原核、无细胞、胚胎等。

核酸

“核酸”是指DNA分子(例如基因组DNA)、RNA分子例如mRNA或DNA或RNA类似物。DNA或RNA类似物可以由核苷酸类似物合成。核酸分子可以是单链或双链DNA。

样品

样品可包含来自生物体的一个或多个细胞或无细胞遗传物质(无细胞核酸(cfNA))。细胞可以是二倍体细胞、非整倍体细胞或癌(肿瘤)细胞。样品可以通过非侵入性(例如抽血)或侵入性(例如手术或活检)方法获得。当样品含有来自截然不同或不同来源的遗传物质时，样品被称为混合物样品或不纯的样品。

样品可以是从生物体(例如患者)或生物体的组分(例如细胞或无细胞核酸源)获得的样品。样品可以是任何生物组织、细胞或流体。样品可以来源于受试者例如人类患者。这样的样品包括但不限于唾液、痰液、血液、血细胞(例如白细胞)、羊水、血浆、***、骨髓和组织、细针活检样品、尿液、腹膜液、胸膜流体、毛发或来自其的细胞。样品还可以包括组织切片，例如为了组织学目的而取得的冷冻切片。样品还可以包括基本上纯化或分离的蛋白质、膜制备物或细胞培养物。

无细胞核酸(cfNA)

从体液获得的核酸，其中核酸(DNA、RNA等)“漂浮在一起”而没有细胞结构。RcfDNA是无细胞核酸的例子。

“-组”

在本公开内容中，-组是用于提及分布在整个染色体和基因组中的相同类型的元件的集合的术语。例如，外显子组是外显子的集合。顺式调控-组是基因组中存在的顺式调控元件的集合。

隐马尔可夫模型(HMM)

术语HMM和基于HMM的在整个公开内容中可互换使用，表示使用任何类型的HMM。

隐马尔可夫模型(HMM)是用于对广泛的时间序列数据建模的流行统计学工具。隐马尔可夫模型(HMM)是形成线性序列“标记”问题的概率模型的正式基础。它们只是通过绘制直观的图片来提供构建复杂模型的概念工具包。它们处于各种程序的核心，包括基因发现、谱搜索、多序列比对和调控位点鉴定。HMM是计算序列分析的乐高积木(如Eddy,S.R.,Nature Biotechnology 22,1315-1316(2004)中所述)。该参考文献的内容通过引用以其整体并入。

隐马尔可夫模型也在Browning等,Nature Reviews Genetics 12,703-714 2011年10月、美国公开号2014/0045705和美国公开号2013/0316915中描述。这些参考文献的内容通过引用以其整体并入。

HMM可以是2-态或4-态或一般多态模型，其包括每等位基因类型一个或多个隐马尔可夫模型——用于仅母本杂合等位基因的一个或多个模型、用于仅父本杂合等位基因的一个或多个模型以及用于双亲杂合等位基因的一个或多个模型，其中观察的分布可以通过二项式、多项式、单一或混合高斯或其它数学分布接着一个或多个共识算法(consensusalgorithms)以尽可能确定胎儿基因内容而建模。

HMM可以是涵盖所有等位基因类型一致的单实例或多实例2-态、4-态或一般多态模型，其中观测的分布可以通过二项式、多项式、单一或混合高斯或其它数学分布接着一个或多个共识算法以尽可能确定胎儿基因内容而建模。

更一般地，HMM可以是单一情形或多情形多态HMM模型，其中观察的分布可以通过二项式、多项式、单一或混合高斯或其它数学分布而建模。

HMM模型可以将所枚举的等位基因分数作为输入并预测混合物样品(包括NIPT、肿瘤学和移植中的例子或其它例子)的状态。

HMM后分析

HMM后分析可以对每个等位基因类型独立进行或通过组合分析或两者同时进行。HMM后分析有助于减少来自微型转换的错误、来自等位基因类型间的冲突预测的错误或其它类型的错误。HMM后分析提高去卷积分析的准确率和分辨率。

变体

本文公开的方法可以用于确定任何类型的遗传变体。变体可以是单核苷酸变体(SNV)、indel、结构变体、***、缺失、重复、倒位或易位。

基因型变体

构成细胞、无细胞物质或生物体的基因内容的变体的单倍型未分辨或亲本未合并的列表。

单倍型变体

构成细胞、无细胞物质或生物体的基因内容的变体的单倍型经分辨的列表。单倍型在二倍体(例如人)和多倍体生物体(例如，某些品种的面包小麦具有6拷贝的各染色体)中是相关的。

新生变体

新生变体是非遗传变体。遗传和新生变体一起构成细胞、无细胞物质或生物体的基因内容。在NIPT的情况下，胎儿或母本起源的类型兆碱基规模结构变异的新生变体可以通过与来自母本无细胞核酸样品的测序数据中显示的新生拷贝数变异的区域的预期读数的偏离来确定。其它类型的新生变体如SNV需要对母本无细胞核酸样品进行深度测序(>50X)。

等位基因类型

在NIPT的情况下，胎儿遗传确定主要对MHet(仅母本杂合等位基因)、PHet(仅父本杂合等位基因)、Bi-Het(双亲杂合等位基因)进行。确定其它等位基因类型例如Bi-HomEq(双亲都对相同等位基因纯合)和Bi-HomUn(双亲都对不同等位基因纯合)是轻松的。在肿瘤学和移植的情况下，种系和/或混合物cfDNA中的纯合和杂合等位基因都可用于混合物去卷积。

相邻胎儿等位基因

在枚举中使用相邻的胎儿等位基因。具体而言，从来自在相同亲本单倍型上的相同等位基因类型的相邻胎儿等位基因对每个胎儿等位基因进行枚举，其中“相邻”被定义为大小为100千碱基至20兆碱基的区域。

测序

在所公开的方法中，可以使用任何合适的测序平台或技术进行测序。例如，可在所公开的方法中使用任何下一代测序方法、大规模平行测序平台、循环阵列方法、通过杂交的测序、纳米孔测序、DNA合成的实时观察、通过电子显微术的测序、鸟枪测序、重新测序、从头装配、外显子组测序、靶向基因座测序(例如MHC)、靶向-组测序(例如外显子组测序、顺式调控元件测序等)、DNA-Seq、靶向DNA-Seq、甲基-Seq、靶向甲基-Seq、脱氧核糖核酸酶-Seq、Sano-Seq、FAIRE-seq、MAINE-Seq、RNA-Seq、ChIP-Seq、RIP-Seq、CLIP-Seq、HITS-Seq、FRT-Seq、NET-Seq、Hi-C、Chia-PET、Ribo-Seq、TRAP、PARS、合成饱和诱变、免疫-Seq、深度蛋白质诱变、PhIT-Seq、SMRT或全基因组染色质相互作用作图或本文未提及的其它方法。

测序深度

测序深度定义遗传碱基测序的次数。

基因内容的准确率

使用所公开的方法，可以以约85％至90％、90％至95％、95％至96％、96％至97％、97％至98％、98％至99％或99％至100％的准确率确定混合物样品的基因内容。

枚举窗口大小

任何所公开的方法可以具有从约100千碱基至约20兆碱基的窗口大小。

基于单倍型的枚举的原理

随着测序技术变得越来越便宜，越来越高效，现在许多努力正在转向提供更高水平的遗传数据解读，以提高精准和个性化医疗。虽然努力集中于纯样品(例如来自个体的DNA)的基因测序和解读，精准医疗中的一个重要步骤是将含有源自不同来源的遗传数据的样品(“混合物”或“不纯”样品)去卷积。这种混合物样品的几个例子在自然中存在。例如，孕妇的母本血浆含有无细胞核酸(MPcfDNA)，其显示来自母亲以及胎儿的DNA(MPcfDNA中5-15％的胎儿分数)。去卷积MPcfDNA以确定胎儿基因内容是非侵入性产前检测(NIPT)的关键。目前的方法可以从MPcfDNA确定胎儿非整倍体和大的胎儿拷贝数变异，但是将胎儿基因内容确定至单核苷酸变异(SNV)的水平一直具有挑战性。胎儿SNV的基因型和单倍型告知孟德尔遗传疾病和其它复杂的遗传疾病，其在>1％新生儿中引起遗传缺陷，因此非侵入性地确定胎儿SNV的基因型和单倍型是非常重要的。

认识到确定胎儿序列至SNV基因型和单倍型的水平的重要性，几个研究小组试图使用亲本单倍型来确定来自MPcfDNA的胎儿基因内容。具体而言，这些研究已经揭示，当在长距离内定相时，亲本单倍型有助于从未传递的亲本单倍型区分传递至胎儿的亲本单倍型(图1A)，尤其是在MPcfDNA中的胎儿分数甚至更低(例如图1B中的5％)的妊娠时。该过程允许准确推断胎儿基因型，随后可以在亲本和胎儿基因型的背景下推断胎儿单倍型(亲本：孩子三元分析)。由于难以获得长的亲本单倍型(例如，跨染色体单倍型)，目前的方法需要昂贵的MPcfDNA的过度深度测序(深度>40X)。更具体地说，这些方法根据仅包含在待预测的目前MPcfDNA碱基上的信息预测胎儿基因型，并且因此需要对MPcfDNA的每个碱基进行深度测序(深度>40X)以获得传递和未传递的等位基因频率的稳健估计。深度测序是昂贵的，也导致胎儿基因型确定中1-5％范围的错误。成本过高的性质和不准确率影响NIPT在临床应用中的使用。

之前，HaploSeq方法是发明的HaploSeq(如S.Selvaraj等,NatureBiotechnology,"Whole genome haplotype reconstruction using proximity-ligationand shotgun sequencing",2013年11月3日在线发表，doi:10.1038/nbt.2728；Selvaraj,et al.BMC Genomics,“Complete haplotype phasing of the MHC and KIR loci withtargeted HaploSeq”,2015年11月5日在线发表，doi:10.1186/s12864-015-1949-7；标题为“Whole-genome and targeted haplotype reconstruction”的美国公开号2016/0160275；以及标题为“Whole-exome haplotype reconstruction”的美国临时专利申请(申请号62/234,329，2015年9月29日提交))，以确定来自个体细胞(例如来自血液中的白细胞(WBC))的跨染色体单倍型和靶向单倍型。本文公开了使用HaploSeq产生完整的和跨染色体的亲本单倍型(图2A和图2B(i))。使用HaploSeq结合创新的胎儿推断算法导致使用MPcfDNA的最小测序确定胎儿基因型或单倍型。被称为“枚举”的过程完成了这一点。更具体地说，不同于其中从仅在“待预测的”MPcfDNA碱基上所包含的信息预测胎儿基因型的当前范例，本文所述的新方法枚举来自相同单倍型上的附近碱基的MPcfDNA数据以累积地支持传递和未传递的等位基因频率的稳健估计。这样的枚举使得能够对来自MPcfDNA的较低测序的等位基因频率进行低方差估计。本文描述的是枚举如何允许将MPcfDNA的测序深度从当前方法所需的40-70X深度降低到小于10X以确定整个胎儿基因组(基因型和单倍型)的例子。当输入到HMM中时，下述的所枚举的等位基因频率可以以<0.5％的错误率确定胎儿基因组(图7中所示)，相对比的是当前方法具有1-5％的错误率，即使使用>40X MPcfDNA深度。本公开内容的关键是理解到用较长的亲本单倍型的知识并使用较长的亲本单倍型来最大化枚举。因此，从HaploSeq获得的跨染色体亲本单倍型对于最大化枚举和最小化MPcfDNA测序是关键的。

因此，单倍型枚举允许成本有效且准确地去卷积来自混合物MPcfDNA样品的胎儿基因内容。虽然MPcfDNA是混合物样品的一个例子，但是还存在许多其它例子，包括但不限于肿瘤样品和移植样品。例如，来自癌症患者的cfDNA含有来自正常细胞以及肿瘤细胞的DNA，并且因此对长种系(正常)单倍型的知识允许cfDNA的最大枚举，导致使用cfDNA的最小测序确定癌症相关突变。在相似的例子中，来自移植受体的cfDNA(RcfDNA)含有来自受体以及来自供体的DNA。对长受体(正常)单倍型的知识允许RcfDNA的最大枚举以使用RcfDNA的最小测序来定量供体DNA的量。

总之，本公开内容通过提供用于跨越若干临床环境的混合物样品(例如cfDNA)的成本有效的去卷积的方法来解决上述未满足的需要，所述方法包括a)通过利用亲本长单倍型例如跨染色体单倍型结合低深度(<10X)MPcfDNA测序，去卷积混合物MPcfDNA样品以非侵入性地确定整个胎儿基因组(基因型和单倍型)；b)通过利用-组的亲本长单倍型例如跨染色体单倍型结合MPcfDNA–组的最小测序，去卷积混合物MPcfDNA以非侵入性地确定胎儿-组序列(外显子组或其它-组例如常见变体组或顺式调控元件组、条件特异性基因小组等)；c)通过利用相应基因座的亲本单倍型结合对代表靶基因座的MPcfDNA的测序，去卷积混合物MPcfDNA以非侵入性地确定用户定义的靶胎儿基因座序列，其中测序深度取决于基因座的长度；d)通过利用种系单倍型结合用于癌症检测、监测和监视的cfDNA测序，去卷积混合物cfDNA以检测肿瘤相关突变；和e)通过利用受体单倍型结合RcfDNA测序去卷积混合物受体cfDNA(RcfDNA)以定量供体污染以了解移植结果和/或监测，以及(f)其它效用。

缺乏枚举导致NIPT的深度测序

其他研究人员提出了类似于枚举的方法。例如，在NIPT的情形中，Dennis Lo及同事提出了“单倍型剂量”。该方法参与寻找亲本单倍型的相关代表以推断传递的与未传递的单倍型。更具体地说，该方法将亲本染色体分类为“α型”区段和“β型”区段，其中胎儿在母本杂合和父本纯合位点分别为纯合和杂合的。然后，对于每个区段，他们使用单倍型的剂量或过度代表的原理来确定哪个母本单倍型传递给胎儿。由于任意分段，在这种方法中没有充分利用亲本单倍型，并且尽管深度MPcfDNA测序，但与更好的制定的胎儿推断统计模型(例如隐马尔可夫模型(HMM))相比，这种方法导致准确率降低，正如Jay Shendure及同事所证明的。然而，由于经由Jay Shendure及同事使用的fosmid方法的不完全的亲本单倍型，基于枚举的HMM方法是不可行的，因为频繁的单倍型转换错误(单倍型错误/～300Kb，导致在连续的单倍型上平均人染色体的<1％的定相)。转换错误产生假重组连接，从而使枚举和胎儿推断过程变得复杂。尽管具有产生自昂贵而不切实际的祖父母测序的跨染色体单倍型，北京基因组研究所(BGI)的研究人员提出的多项式算法并不包括枚举，因此没有有效利用亲本信息，导致需要高MPcfDNA测序深度(40X-50X)用于胎儿推断，错误高达5％。由于需要高深度MPcfDNA测序用于胎儿基因序列推断，所有上述方法都是昂贵的。

实施例

以下实施例旨在提供本公开内容的应用的说明。以下实施例并不意图完全限定或以其它方式限制本公开内容的范围。本领域技术人员理解的是，本领域中已知的许多其它方法可以替代在此具体描述或参考的方法。

实施例1：在NIPT的背景下通过HaploSeq的最大化枚举的影响

本文所述的方法通过长范围和最大化枚举充分利用基于HaploSeq的跨染色体亲本单倍型，因此有利于最小化和低深度的MPcfDNA测序。这种创新的方法支持图1A所示的理论极限估计：长亲本单倍型显著降低确定胎儿基因组的所需MPcfDNA测序深度(图2B(i))。此外，通过HaploSeq的跨染色体-组(例如外显子组)亲本单倍型的可行性意味着可以从MPcfDNA的-组靶向测序确定胎儿-组(例如外显子组)(图2B(ii))——关键是-组元件分布在整个染色体上，因此，亲本-组的跨染色体单倍型使最大化枚举和最小化MPcfDNA-组测序成为可能。此外，可以根据该基因座的亲本单倍型的知识以及通过来自MPcfDNA的该基因座的靶向测序确定任何靶向的胎儿基因座。例如，可以根据跨亲本基因座的MHC单倍型以及MPcfDNA的MHC靶向测序来确定胎儿MHC基因座(4Mb区)(图2B(iii)))。应注意的一个关键点是MHC亲本单倍型需要跨越整个MHC基因座，使得最大化枚举是可能的(从来自基因座的所有可能碱基中枚举)，从而减少所需的MHC-MPcfDNA测序的量。

为了显示所公开的枚举方法的影响，设计了以下实验。利用来自1000基因组计划(父本：GM12877，母本：GM12878，孩子：GM12879)的单倍型亲子三元体，并下载了公众可用的基因组测序数据集(fastq格式)。将母本和孩子基因组序列文件以约15:85的比率混合以模拟MPcfDNA，并在低深度2X测序深度分析该“模拟MPcfDNA”(图3A)。这种方法同时确定胎儿基因型和单倍型：胎儿确定问题是通过以下方式制定的。如果将母本单倍型定义为M1和M2，并将父本单倍型定义为P1和P2，那么在胎儿基因序列的每个碱基位置处有四种可能的亲本传递(M1P1、M1P2、M2P1、M2P2)。因此，可以通过精确鉴定亲本重组事件的位置，使得能够精确推断亲本传递来确定胎儿单倍型。由于这种认识，相信低深度的MPcfDNA测序将能够检测重组事件，如果两个条件是正确的：(1)可在低深度MPcfDNA测序区分传递与未传递的亲本单倍型，和(2)可枚举来自相同亲本单倍型上的邻近碱基的MPcfDNA序列数据以补偿低深度MPcfDNA测序以估计用于预测胎儿碱基的稳健等位基因分数。实际上，本文中所呈现的分析证明，在模拟MPcfDNA中可以容易地区分传递和未传递的母本单倍型(图3B)，满足条件1。

如前所述，第二个条件代表了与当前NIPT范式的关键偏离，当前NIPT范式中确定给定位置的胎儿基因型仅依赖于该位置处的MPcfDNA测序数据(因此它们需要40-70X的高深度测序)。相反，在所公开的方法中，跨越已知的亲本单倍型枚举MPcfDNA测序数据以获得低方差和稳健的等位基因频率。这些等位基因频率在隐马尔可夫模型(HMM)中被认为是“观察到的”值，以预测给定位置处隐藏的胎儿碱基(状态)。具体而言，碱基预测是通过使用HMM来预测给定位置的胎儿碱基而获得的，其中碱基是隐藏的单倍型“状态”并且该状态可以是2态(M1、M2或P1、P2)或4态：M1P1、M2P1、M1P2、M2P2。为了使该模型起作用，使用重组事件的相对稀有度(～1/染色体臂)和来自HaploSeq的亲本单倍型的可用性(用于枚举)。作为一个例子，为了预测来自仅母本杂合的位点的胎儿碱基，其中父本等位基因对母本传递的等位基因是纯合的(MHet-PeqMT)，只有母本单倍型提供信息。因此，这些胎儿碱基可以通过其中状态为M1(母本单倍型1)、M2(母本单倍型2)的2态HMM模型进行预测。具体而言，为了预测特定MHet-PeqMT位点的胎儿状态，枚举来自窗口内的其它MHet-PeqMT位点的等位基因分数(例如，目的碱基的上游和下游的5Mb)以收集输入到HMM的累积和稳健的等位基因分数。因为MHet-PeqMT等位基因分布在整个染色体中，所以来自HaploSeq的跨染色体亲本单倍型允许从远端和因此更多的MHet-PeqMT等位基因枚举，从而即使在最小MPcfDNA测序时也产生稳健的等位基因分数。换句话说，仅仅因为HaploSeq生成>5Mb的长单倍型，并且在5Mb窗口内的重组事件的概率低，才能够进行稳健的枚举。事实上，本文描述的实验显示枚举方法满足条件2(图3C，上图)，补偿了低深度2X模拟MPcfDNA测序数据中的噪声并且鉴定了不能使用非枚举低深度原始等位基因分数定位的重组的精确位置(图3C，下图)。换句话说，使用未枚举的原始等位基因分数需要40-70X的深度MPcfDNA测序以观察传递和未传递等位基因的分别0.575和0.425的预期分数(假设15％的胎儿分数)，并且低深度MPcfDNA测序-2X测序深度例如产生非常噪音的模式(图3C，下图)。通过在大窗口大小上亲本单倍型的创新性枚举，对亲本重组模式获得足够的见识以精确推断胎儿基因内容(图3C，上图)。使用这种方法，预测的重组位点(浅垂直条带)与真正的重组位点(黑色虚线)密切匹配。

实施例2：具有来自MPcfDNA的低深度测序的枚举输入的HMM准确确定胎儿序列

利用所枚举的等位基因分数作为观察值，本公开内容的一个方面是使用这样的HMM算法，其假设胎儿的隐藏单倍型状态(2-态：M1，M2)经在MHet-PeqMT等位基因中的二项式分布真实地发射所枚举的等位基因分数。2-态二项式HMM模型在2X模拟MPcfDNA测序用5Mb枚举以>98％的准确率确定了胎儿基因内容(图4A)。这是非凡的，因为该方法实现了与其它使用>40X MPcfDNA测序的方法相当的准确率，但是在2X MPcfDNA测序下，因此将测序成本降低了超过20倍。虽然二项式HMM算法是一个自然的选择，因为它直接通过二项式期望(在本实施例中p(成功)＝0.575)直接建模发射枚举观察的隐态的概率，但是在处理起源于枚举过程的标准误差上其可为不足的，这在针对HMM预测中的后验概率的变化严格性的准确率的类似估计中是明显的(图4A)。因此，合理的是，假设通过高斯近似预测发射所枚举观察的隐藏的胎儿状态的概率的模型可能能够克服处理标准误差上的不足。高斯近似在较高的后验严格性下将准确率提高到>99％(图4A)。值得注意的是，增加后验的严格性导致胎儿序列确定的分辨率的小损失(LOR，未预测变体的分数)(图4A，下部小图)，因为较高的后验严格性模型在靠近真正的重组连接的等位基因处的胎儿单倍型预测值得怀疑。尽管如此，分辨率的小牺牲被准确率的显著提高所抵消，特别是对于这种低深度测序数据。

实施例3：枚举窗口大小的优化

本公开内容的重要特征是正确的亲本单倍型枚举块窗口。5Mb滑动窗口为2态高斯HMM提供了稳健的输入，以在2X测序的MHet-PeqMT等位基因的我们模拟MPcfDNA数据中以>99％准确率预测胎儿基因型和单倍型(图4A)。较长的枚举窗口大小可以实现对HMM更强大的累积输入，但在该窗口中重组的概率也更高。同时，较短的窗口大小可能没有足够的数据点来产生强大的HMM输入。因此，为了解决这种折衷，分析了多个窗口大小，以利用最佳的可能HMM输入来获得胎儿序列推断的最高准确率。我们对MHet-PeqMT等位基因的分析揭示，在每个MHet-PeqMT等位基因的上游和下游～2Mb窗口大小内枚举对1号染色体产生最佳准确率(～99.5％)(图4B)。使用p>0.99的更高后验严格性，准确率以～10％LOR达到99.8-100％(图4C)。换句话说，虽然在没有LOR的情况下99.5％的准确率是可行的，但是以10％LOR，>99.8％变得可能(图4B和图4C)。无论如何，这些结果显示，给定亲本单倍型的知识，2XMPcfDNA测序在很大程度上足以确定胎儿基因型和单倍型。

实施例4：MPcfDNA测序深度的优化

本公开内容的另一方面是MPcfDNA测序深度。本文公开的方法在2XMPcfDNA测序下产生高度准确的胎儿基因内容的确定。然而，可改善10％的LOR，导致更全面的胎儿测序。降低10％LOR的一种方法是对MPcfDNA进行更深的测序。因此，在各种MPcfDNA测序深度分析了在MHet-PeqMT等位基因中我们方法的性能(准确率和LOR)(图4D)。从这个分析出现了三点。首先，对于这个实施例，无论MPcfDNA测序深度如何，～2Mb似乎都是最佳窗口大小。然而，(本实例中使用的)1号染色体中的重组事件的数目是4，并且长度100兆碱基的平均人染色体中的重组事件的数目通常为1或2，因此可能的是不同的窗口大小会为另一条染色体产生最佳结果。本领域技术人员能够对任何给定染色体的最佳窗口大小进行估计，如此处针对1号染色体所示。其次，超过4X MPcfDNA测序，准确率为～99.9-100％，在0.99的后验截止值时LOR为2％。第三，在这个实施例中，准确率和LOR似乎已经达到“饱和”点，因此超过4X的更深的测序可能不会为胎儿推断增加显著的价值。另外，由于测序读出据的泊松分布，具有至少一个测序读出覆盖它的碱基的分数在4X测序时达到～100％(图4E)。这意味着在2XMPcfDNA测序中，总LOR是～35％(来自HMM的10％，p>0.99和来自MPcfDNA读出分布的15％)，而在4X时总LOR是2-3％(因为MPcfDNA读出分布是0％LOR)。总之，在这个实施例中，当与2X比较时，4X MPcfDNA测序产生了更全面和准确的胎儿序列确定，并且更深的MPcfDNA测序(>4X)可能会或可能不会在胎儿推断中增加任何显著的值(图4F)。仅在MHet-PeqMT等位基因中测试了4X MPcfDNA测序测定是足够的，其它等位基因类型可能需要更高深度的MPcfDNA测序，在MPcfDNA中包含较低胎儿分数的样品也可能是这样。

实施例5：所公开的方法的一般化：从MHet-PeqMT至所有类型的胎儿等位基因

应该注意的是，上面讨论的结果是基于集中于MHet-PeqMT等位基因的分析(图5中定义的1型和条件1)，并基于含有15％胎儿分数的模拟MPcfDNA。为了一般化这些结果，我们对所有类型(和条件)的等位基因进行了枚举和HMM分析。应该注意的是，不是所有的胎儿碱基都需要被推断出来——与父母一样的胎儿碱基很容易推断，双亲等位基因是纯合的时的胎儿基因也是如此(Bi-hom:Mat Hom.,Pat Hom.)。只有对至少在一个父母中是杂合的胎儿等位基因，需要复杂的数学模型。因此，将可能的等位基因类型划分为MHet、PHet和Bi-Het，并针对每种类型设计特定的HMM算法(图5)。在MHet的情况下，只有母本单倍型(M1，M2)提供信息，并且由于MHet具有两个条件，设计了两个2态HMM。具体而言，在每个待推断的MHet胎儿碱基处，对可如条件1和条件2出现的等位基因独立进行枚举(图5)，其中假设M1为传递的单倍型而定义条件。如果M2是传递的单倍型，条件的性质转换，并且HMM被设计成精确地捕获这些转换，由此定义重组连接。对于每个条件使用2态HMM模型，并且使用这两个HMM模型(其代表两个条件)之间的最大可能性来推断胎儿隐态(M1，M2)以确定胎儿单倍型和基因型。如上所述，枚举取决于亲本单倍型的长度，并且因为HaploSeq产生跨染色体单倍型，所以该方法最大程度地利用枚举的益处。另外，根据定义，跨染色体单倍型导致不存在转换错误，从而简化胎儿确定过程。换句话说，利用fosmid、10X基因组学或Dovetail基因组学的其它单倍型分析方法每300Kb-2Mb(产生假的重组连接)产生一个转换错误，这又使枚举和HMM模型复杂化。对于PHet，使用了两个2态HMM的类似策略，这里只有父本单倍型提供信息，因此隐态是P1，P2。在Bi-Het的情况下，双亲单倍型都提供信息，因此单个4态HMM真实地捕获这些等位基因的本质。

因为染色体含有三种类型的等位基因(MHet，PHet，Bi-Het)，所以在本公开内容的一个实施方案中，使用HMM后步骤来提高根据等位基因类型配置HMM的模型中的胎儿确定的准确率。在一个步骤中，从不正确的HMM预测中显示的微型转换(post1)被校正，并且在每个独立于其它等位基因类型的等位基因类型中进行。在另一个步骤中，分析了MHet和Bi-het之间的共享结果，并还分析了PHet和Bi-het之间的共享结果，以进一步分别纠正微型转换并解决胎儿状态的母本和父本预测中的任何冲突(post2)。这些结果总结在图6中。具体而言，我们在所有三个等位基因类型中显示了在来自1号染色体(图6A)的6X模拟MPcfDNA测序下来自这些分析的结果。更具体地，三种情况中的每一种在2-3Mb窗口大小下以最小的LOR获得>99％的post2准确率(图6A)。从这个分析出现了三点。首先，对于这个实施例，提供最好结果的窗口大小可在不同的等位基因类型中不同(例如2.5Mb的窗口大小对于MHet和PHet是最好的，但对于Bi-Het，3Mb的窗口大小是最好的)(浅灰色垂直条，图6A)。这可能是因为在Bi-Het情况下碱基数比在MHet和PHet情况下少，因此可能需要更大的窗口大小来进行足够的枚举。其次，即使在Bi-het中使用4态HMM，post2准确率也与使用3Mb窗口大小的MHet和PHet情况相当。第三，无论窗口大小的选择如何，PHet具有>99.5％的准确率，这可能是由于下列事实：父本单倍型中只有一个重组，而在母本单倍型中出现4个重组(MHet，图3C)。在这个实施例中，在不同类型的等位基因上，以最小的LOR和在6X MPcfDNA测序下准确确定了(>99％)胎儿1号染色体的序列。

实施例6：利用似然估计来指导HMM参数的优化

在本公开内容的另一实施方案中，使用来自HMM的似然估计作为准确率的代表。似然估计可以指导模型朝向最佳的HMM参数，因此最佳的准确率和分辨率，因为真实的准确率通常是未知的。模拟MPcfDNA是一个特殊的情况，因为父母和祖父母的信息可以作为1000基因组计划的一部分获得，准确地说明了真实的准确率。本文公开的分析表明，可能性和准确率相关性良好。例如，来自MHet等位基因的似然估计在2-3Mb的窗口大小处达到最大值，真实准确率也如此(图6B)，并且遵循与真实准确率的线性关系(插图，图6B)——可能性越高，真实准确率越高。当可能性达到最大值时，实现高HMM准确率，这转化为更高的post2准确率(图6B(ii))。因此，通过HMM参数的变化来最大化可能性有助于通过HMM和post2测量的更高的准确率，从而产生由组合所有类型的等位基因获得的改善的最终准确率(A＝99.77％)，如图7所示。

实施例7：了解HMM参数对胎儿基因序列预测的准确率的影响

重要的是理解HMM参数例如高斯模型的标准偏差和过渡概率)以及用于校正微型转换和冲突(post1，post2)的HMM后窗口大小(PSW)对HMM确定胎儿序列的预测力的影响。首先，跨越不同类型的等位基因研究了标准偏差和过渡概率参数，以了解它们对准确率的影响。这些分析显示标准偏差对准确率的影响最小——例如，来自MHet等位基因的分析显示在图6C中。类似地，在过渡概率的多个值(0.01至0.0001)处生成最优模型(高准确率和最小LOR)(数据未示出)。这些分析表明标准偏差和过渡概率不是重要的参数。因此，标准偏差固定接近来自MPcfDNA枚举的等位基因分数的标准偏差的经验估计值，固定的过渡概率为0.0001。然而，这些参数需要在其它染色体、MPcfDNA中15％以外的胎儿分数或其它类型的NIPT变异例如外显子组中测试。

实施例8：将来自每个等位基因类型的HMM组合以构建共有胎儿基因组确定

虽然图6显示了独立地来自MHet、Phet和Bi-het的结果，但图7描述了来自每个等位基因类型以及组合步骤的结果。具体而言，将来自这三个等位基因类型的结果组合，以在6X MPcfDNA测序深度准确确定整个1号染色体的胎儿基因内容(最终结果A＝99.77％和R＝99.74％，图7)。这种方法的主要步骤是针对每个等位基因类型的HMM、纠正微型转换的Post1以及组合共享信息的等位基因类型即MHet、Bi-het和PHet、Bi-het的post2，以进一步纠正微型转换并解决冲突。对于在1号染色体的至少一个亲本中杂合的约158,000个胎儿等位基因，这种方法导致99.77％的最终准确率和99.74％的分辨率。由于染色体是独立遗传的，胎儿染色体推断的过程可以转化为胎儿基因组推理(因为基因组是由22个独立的常染色体的集合)。

图7所示的结果显示HMM后组合分析(post1，post2)是重要的，因为染色体含有所有类型的等位基因，只有组合分析可以导致确定完整的胎儿基因组或外显子组或任何靶向的基因座。图7显示一个参数集的整个胎儿染色体预测的结果，并且在该过程的每个步骤中描绘参数，其可以重复以确定所有染色体，从而确定整个基因组。图7显示：a)准确率和分辨率随着每个进展的步骤而提高，例如在MHet的情况中，HMM准确率为98.7％，而post1为99.62％，post2(Acm)为99.8％；b)可能由于它们的4态性质，而且由于数据点较少(Bi-het在所有等位基因的约一半中显现，正如MHet和PHet)，Bi-het是最难预测的；和c)post1和post2步骤的hmm后窗口大小(PSW)取决于等位基因的类型——分别使用500Kb和100Kb的窗口用于母本和父本等位基因。总体而言，以>99.7％的准确率和分辨率(LOR为0.3％)推断有意义的158,000个等位基因的胎儿状态，以确定完整的胎儿1号染色体，并经由翻译确定完整的胎儿基因组。与在40-70X测序深度产生平均准确率95-99％的胎儿基因组确定的现有方法相比，所公开的方法在6XMPcfDNA测序深度上达到99.7％的准确率。即使在MPcfDNA中具有较低的胎儿分数(例如5-10％)，所公开的基于HaploSeq和HMM的方法将最可能需要<10X MPcfDNA测序用于胎儿基因组确定。总而言之，该实施例(如图7中所述)证明了利用枚举、HMM方案、通过不可知的似然函数的有效参数优化以及HMM后过程的公开的多步预测模型在确定胎儿基因组上的高准确率水平。

实施例9：代替每等位基因类型一个HMM的单一4态HMM

不同的HMM配置对于预测胎儿基因组是可能的。上面已经显示了独立HMM对于每个等位基因类型的效用以及用于组合等位基因类型之间的预测的HMM后组合分析。还研究了替代的HMM配置。具体而言，进行了单一4态HMM，其中在单一情形中一起建模所有的等位基因类型。该单一情形4态模型具有与图7中所描述的相同的参数集(标准偏差、过渡概率等)，与独立配置模型中>99.7％的准确率和分辨率(图7)相比，产生了99.05％的总体最终准确率和98.07％的分辨率。这表明，具有独立配置的模型更精确地捕获数据，并允许通过hmm后分析来纠正错误，从而产生比4态单一情形HMM更高的准确率和分辨率。这些结果可能是由于几个因素。首先，4态单一情形HMM通过4态对MHet、PHet和Bi-Het建模，并且因为在MHet和PHet中只有母本或父本单倍型提供信息，这些等位基因的4态模型可能不能有效地捕获数据。其次，一个等位基因类型的错误可能会被强加于其它等位基因类型上，因为它们所有都被建模在一起。因此，相信虽然HMM的不同配置是可能的，似乎每个等位基因类型的独立配置更精确地捕获MPcfDNA的本质。

此外，post1和post2的准确率是基于依赖于等位基因类型的PSW(后窗口大小)来定义的。也可以在所公开的方法中使用替代方法例如离散HMM来像post1和post2那样纠正微型转换以及冲突。HMM和后-HMM的两种不同配置都可以用作所公开的方法的一部分以产生高质量胎儿确定。

如通过1号染色体的确定所例示的，以上公开的方法可以在所有染色体上重复，从而导致确定整个胎儿基因组。

实施例10：NIPT中的新变体：确定胎儿-组的SNV基因型和单倍型

尽管全基因组胎儿确定提供信息且是完整的，但实际上在时间和成本方面可能存在限制，从而可阻止某人选择确定整个胎儿基因组。或者，可以确定胎儿的靶向区域。作为一个例子，外显子(编码区)分布在整个染色体(和基因组)中，统称为“外显子组”。外显子组占基因组的约2-3％。在基因组中还存在其它类型的“-组”。例如，“-组”可以是分布在染色体(或基因组)上的常见变体的集合、顺式调控变体的集合或条件特异性基因的集合等。在一些情况下，从MPcfDNA确定胎儿-组可能更实际。例如，外显子组包含所有基因的信息，因此包含与孟德尔疾病有关的信息，在进行更昂贵的胎儿基因组分析之前，其作为第一关口可能足够。换句话说，在胎儿基因组确定的情况中，按照当今的测序成本，使用HaploSeq确定亲本中跨染色体单倍型(+<10X MPcfDNA)会导致“$5,000-$10,000”的成本。对于外显子组，使用Exome HaploSeq确定亲本的跨染色体外显子组单倍型(+50-100XMPcfDNA外显子组)会导致<$1,000的成本，因为外显子组仅仅是基因组中所有碱基的较小亚集。尽管要预测的胎儿碱基数量显著减少(图2B(ii))——从基因组情形(1号染色体)的158,000减少到外显子组织情形(1号染色体)的3,500，所公开的枚举、HMM和后-HMM方法也可用于确定胎儿外显子组。

由于在胎儿外显子组情形中待预测的胎儿等位基因数目减少，可能需要更高的MPcfDNA测序深度(50-100X)以收集准确胎儿外显子组确定所需的等位基因频率的稳健枚举。除了较高的MPcfDNA测序深度以外，跨染色体亲本外显子组单倍型的使用是重要的，因为外显子分布在整个染色体上，因此，仅跨染色体外显子组单倍型可以允许最大枚举以稳健估计等位基因频率。根据定义，跨染色体外显子组单倍型也意味着没有转换错误，因此没有假的重组，从而使用于胎儿外显子组确定的最小MPcfDNA(50-100X)测序成为可能。例如，HaploSeq可以产生跨染色体外显子组亲本单倍型，因此除了确定胎儿基因组外，还允许确定胎儿外显子组。事实上，如上所述，这个策略可以应用于其它-组。为了证明所公开的方法在确定胎儿外显子组中的能力，进行了以下实验。产生了50X模拟MPcfDNA外显子组测序数据(包含仅在MPcfDNA的外显子组序列上的信息)，并且借助来自1000Genomes(父本：GM12877，母本：GM12878，孩子：GM12879)的跨染色体亲本外显子组单倍型，将以下所公开的方法用于确定胎儿外显子组。结果在图8中示出。图8显示了几件事情。首先，每个等位基因类型中post2的准确率>98％。然而，由于在MHet和Bi-Het中较高的重组，分辨率仅适度(或LOR明显高于基因组情形(图6A))，尤其是在Bi-Het中(图8A)。其次，2-4Mb的枚举窗口大小在不同的胎儿等位基因中运作最好(图8A)。正如在胎儿基因组确定的情况(图6B)，HMM模型的似然估计充当准确率的良好代表，从而可用于指导参数优化(图8B)。如先前所观察到的，通过HMM和HMM后组合过程，准确率和分辨率得到提高，最终胎儿外显子组确定准确率为99.12％，最终分辨率为95.86％(LOR–4.14％)(图9)。与这些结果同样令人印象深刻的是，高于50X的测序可能允许减小LOR和甚至更高的准确率。最后，在图10中，根据真正的重组位置显示来自胎儿外显子组确定的结果。更具体地说，图10描绘了在PHet(i)、MHet(ii)和Bi-Het(iii)的背景下来自图9的最终胎儿状态预测。据观察，预测的外显子组状态和真正的重组连接非常一致，正如所预期的，大多数错误发生在重组连接附近。总体而言，胎儿外显子组确定的这些结果遵循与全基因组胎儿确定的情况类似的原理，并显示出与其类似的准确率。

实施例11：超越胎儿SNV(单核苷酸变异)——胎儿遗传结构变异的鉴定

传统上，几种可用的NIPT方法集中于确定13、18和21号染色体中的非整倍体例如三体性以测试如在Patau综合征、Edwards综合征或唐氏综合征中观察到的染色体异常。这些染色体异常代表整个染色体水平上的拷贝数变异(CNV)。为此，其它NIPT方法侧重于基于SNV的方法来确定缺失例如DiGeorge综合征。因此，现有的方法可以确定染色体水平的非整倍体和更小的缺失。

除了准确预测胎儿基因型和单倍型至SNV水平之外，所公开的枚举HMM方法还可以提供对胎儿遗传CNV和其它类型的结构变异(例如平衡结构变异(例如倒位))的见识。此外，在整个染色体水平上以及在特定的区域或基因座上都可以确定胎儿CNV。更一般地，如果亲本基因组含有非整倍体，平衡结构变异或重复CNV或缺失CNV，则所公开的方法将检测这种变异向胎儿基因组的传递。为了证明这一点，在母本单倍型中模拟20Mb重复CNV，并借助预期的等位基因分数的变化检测重复CNV向胎儿基因组的传递(图11)。可以类似地检测缺失或大重复(例如三体性)。在平衡的结构变异的情况下，这种类型的变异的传递可以通过MPcfDNA读出映射策略来检测，因为已知平衡的结构变异例如倒位表现出独特的映射特征(例如***读出现象(split-read phenomenon))。

实施例12：NIPT中的新变体：确定胎儿靶向基因座的SNV基因型和单倍型

常常尤其感兴趣的是，在特定基因座将DNA混合物去卷积。具体而言，靶向方法是有吸引力的，因为它降低了测序成本，同时提供了更深测序的机会，以实现胎儿序列确定的更高的准确率和分辨率。在一个例子中，关注NIPT样品中的22q11.2缺失可以提供与DiGeorge综合征有关的信息。在第二个例子中，人类中的主要组织相容性复合体(MHC)基因座是主要的免疫应答区域，并在几种疾病状况下进行研究。例如，如果要确定胎儿MHC基因座(6号染色体中的4Mb基因座)，则通过利用MHC的亲本跨基因座单倍型并利用所公开的基于HMM的方法，使用来自MPcfDNA的数据确定胎儿MHC基因座而进行。因为诸如HaploSeq等方法单独可以确定跨基因座亲本单倍型，所以本文公开的方法可以利用基因座内的所有SNV来生成等位基因分数和胎儿隐态的低方差和稳健估计。其它产生单倍型的方法可以产生不跨越整个感兴趣的基因座的不完全的单倍型，从而产生转换错误和假重组。如前所述，转换错误和假重组使得胎儿序列确定复杂化。另一方面，诸如HaploSeq等方法可以通过允许自所有MHC SNV的枚举和通过经由不存在假重组简化模型，使确定胎儿MHC基因座所需的MPcfDNA MHC测序最小化。这个基本原理可以扩展到任何靶向基因座或靶向基因座组，其中基因座可以是基因或扩展区，例如MHC或KIR(杀伤免疫球蛋白样受体区，19号染色体)。总体而言，如在SNV或结构变异的情况中，所公开的枚举、HMM和后-HMM方法可以通过利用亲本单倍型将MPcfDNA混合物去卷积以确定胎儿基因组、外显子组或靶向基因座。

实施例13：确定胎儿分数

使本公开内容能够进行的重要技术细节是定义胎儿分数的能力。更具体地说，用于这些分析的模拟MPcfDNA具有15％的胎儿分数。但是在真正的实际样品中，估计MPcfDNA中胎儿DNA的百分比将是定义预期的等位基因分数(例如，在15％的胎儿情况下为0.525,0.425)的关键。我们可以通过收集亲本等位基因来估计胎儿分数，所述亲本等位基因既与参考等位基因纯合，又与备选等位基因纯合(Bi-homUn:Mat Hom,Pat.Hom.,不同等)。在这些等位基因中，将父本等位基因占MPcfDNA中的总读出计数的分数的两倍定义胎儿分数，因为胎儿一半的基因组遗传自父亲。即，f＝2*p/(p+q)，其中f是胎儿分数，p是来自父本等位基因的读出计数，q是来自母本等位基因的读出计数。在f被估计的情况下，如图5所示的预期等位基因分数可以列表并用于HMM以确定胎儿序列。

实施例14：用于NIPT的双亲单倍型的知识对比仅单亲单倍型的可用性

上述方法需要双亲单倍型。在仅有单亲单倍型可用的情况下，枚举可能不如那么有效，因此可能需要增加MPcfDNA测序以准确测定胎儿基因组、外显子组或靶向基因座。尽管如此，只用单亲信息也有可能确定胎儿序列。为此，目前的NIPT方法通过在包含CNV或非整倍性的区域中预期的MPcfDNA序列信息的变化来检测新生的胎儿非整倍体和大CNV。然而，检测新生的胎儿SNV是具有挑战性的，尤其是使用贯穿本公开内容推荐的低深度MPcfDNA测序水平。更具体地说，亲本单倍型提供有限的信息来检测胎儿新生变异，因为按照定义，新生变异在亲本基因组中并不存在。总之，所公开的方法可以通过MPcfDNA混合物样品的精确去卷积来确定任何遗传的胎儿序列。

实施例15：超越NIPT，在癌症中的去卷积：为了癌症诊断或监测的目的而对患者的cfDNA去卷积以确定与癌症相关突变

除了在NIPT中使用的混合物样品MPcfDNA之外，本文公开的方法还可用于对其它混合物样品去卷积，其中所公开的方法利用基于HMM的方法并利用亲本单倍型。混合物样品在分子肿瘤学和移植以及其它医学领域中很常见。在肿瘤学方面，最近已经开始尝试使用在患者的血浆、尿液或其它体液中显现的无细胞肿瘤DNA(ctDNA)作为非侵入性检测癌症相关突变的手段。因为ctDNA测定也被称为液体活检测定(LBA)，提供与癌症诊断或进展相关的遗传物质的直接测量，因此这些测定能够对广泛的癌症类型进行准确的筛查和监测，避免侵入性组织活检的需要。然而，由于液体活检样品中患者cfDNA存在的ctDNA分数在早期癌症中可低至0.01％，在晚期癌症中很少高达10％，因此开发出高度准确的方法用于基于cfDNA的癌症分析具有挑战性。目前的商业方法集中于高灵敏性方法例如基于数字液滴的PCR(ddPCR)或超深度DNA测序(15,000-40,000X深度)以检测与特定癌症类型递归相关的预定基因或基因座中的特定单核苷酸突变，但是这些方法限于单核苷酸突变和较小的结构变异。对于较大的结构变异(LSV)，如大CNV和非整倍体，需要对覆盖LSV的cfDNA进行深度测序(>10,000X)，这是成本过高的。另外，关注于LSV的方法也非常少。LSV被认为是癌症的标志，因此通过最小的cfDNA测序检测LSV，使得能够开发用于早期检测、监测和/或监视特定类型的癌症的临床方法。

例如癌症基因组图谱(TCGA)等群体的大量努力已经证明在肿瘤基因组中LSV倾向于是大的染色体臂水平拷贝数变化。事实上，估计在平均癌症基因组中平均有8个这样的LSV。在本公开内容中，长的单倍型例如来自HaploSeq的跨染色体种系单倍型被用来枚举并因此最小化检测LSV所需的cfDNA测序的量(图12A)。更具体地说，假设患者的cfDNA中有1％的肿瘤DNA，肿瘤中的LSV缺失导致从cfDNA获得的序列中49.5:50.5的等位基因失衡。然而，区分这种小的等位基因失衡需要cfDNA的深度测序。通过利用长种系单倍型并枚举来自落入相同单倍型的LSV内的SNV，可以获得等位基因分数的低方差和稳健估计。这使得能够从最小的cfDNA测序检测癌症相关的LSV。具有完全覆盖LSV的长单倍型是重要的，并且因为存在多个LSV(平均8)，所以只有跨染色体种系单倍型(例如如从HaploSeq获得的)可以保证LSV区域中不存在转换错误。实际上，在缺失LSV(图12B(i))或重复LSV(图12C(i))的情况下，跨染色体单倍型(例如如从HaploSeq获得的)可以使cfDNA测序的量最小化，如图12B(ii)和图12C(ii)所示，在肿瘤分数较低(0.1-1％)的情况下，这尤其显著。总之，跨染色体单倍型(例如如从HaploSeq获得的)允许cfDNA的最小测序以检测肿瘤相关的LSV。这在1％肿瘤分数的缺失的情况下，是从数十万测序深度显著减少到<5X cfDNA测序深度，以及在重复和其它情况中是类似的减少。为了进一步最小化cfDNA测序深度，传统的基于覆盖率深度的方法可以与基于HaploSeq的枚举方法相结合。总之，跨染色体和一般长种系单倍型的确定允许最大枚举，其可以输入到HMM模型中以去卷积混合的cfDNA样品以检测肿瘤相关的LSV。

上述问题的一个变体是利用-组的长种系单倍型(例如，-组的跨染色体种系单倍型)用于检测cfDNA中的肿瘤相关突变。与获得跨染色体种系单倍型相比，-组的跨染色体种系单倍型是成本有效的，但是可能能够提供足够的枚举来检测肿瘤相关突变，特别是在LSV的情况下。类似地，当需要在特定基因座检测肿瘤相关突变时，跨基因座种系单倍型将是足够的。

实施例16：超越NIPT和癌症：去卷积移植受体的cfDNA以定量供体DNA用于移植监测和移植结果预测

本文公开的方法也可以用于对在移植过程中获得的混合物样品去卷积。例如，从移植受体的简单抽血，可以从患者的WBC中构建种系单倍型。然后从血浆中可获得包含来自供体和受体的DNA的cfDNA(受体cfDNA(RcfDNA))。定量RcfDNA中供体DNA的量允许对移植受体的保健专业护理人员监测移植的进展并确定移植过程的结果。因为供体(例如器官供体)可以与受体有关或无关，所以可以采取几种策略。在遗传相关供体(例如受体的母亲)的情况下，可以执行类似于NIPT的策略。例如，了解亲本基因组已经重组成为一个孩子(受体)基因组，对受体种系单倍型的知识允许定量RcfDNA中相关供体的DNA。事实上，来自HaploSeq的受体种系单倍型的知识可以允许最大枚举，这又将使定量供体DNA所需的RcfDNA的量最小化。在类似的情况下，如果供体与受体无关，假设供体和受体的单倍型不同，并且受体种系单倍型的知识将能够定量供体的DNA。这样的分析可以在全基因组范围内进行或者限于免疫应答基因座如KIR或MHC。这是可能的，因为使用跨染色体单倍型(例如，如通过HaploSeq获得的或者-组的跨染色体单倍型，例如如通过Exome HaploSeq获得的)用于RcfDNA的全基因组分析，以及使用MHC/KIR的靶向跨基因座单倍型，用于分析RcfDNA中的MHC/KIR区域。例如，可以从受体的WBC获得KIR/MHC种系跨基因座单倍型，然后可以从RcfDNA获取KIR/MHC区域。这将允许理解RcfDNA的哪一部分来自供体MHC/KIR与受体MHC/KIR。跨基因座MHC/KIR种系单倍型允许最大枚举(在基因座中的SNV越多，枚举越多)，并且跨基因座单倍型意味着基因座内没有转换错误。因此，在NIPT、癌症和移植的应用中，跨染色体单倍型或跨整个基因座的单倍型对于使枚举最大化是重要的。

尽管在本文中已经显示和描述了某些实施方案，但是对于本领域技术人员显而易见的是，这样的实施方案仅仅是通过示例的方式提供的。本领域技术人员现在将想到众多变化、改变和替代而不偏离本公开内容。应该理解的是，可以在实践本公开内容时采用本文所述的公开内容的实施方案的各种替代方案。意图的是所附权利要求限定本公开内容的范围，并且由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims

1.一种非侵入性确定胎儿基因内容的方法，其包括：

获得包含一组具有基因组DNA的染色体的细胞母本样品，并从母本样品获得母本基因型或单倍型；

获得包含一组具有基因组DNA的染色体的细胞父本样品，并从父本样品获得父本基因型或单倍型；

获得无细胞核酸母本样品并确定所述无细胞核酸母本样品的序列；

通过分析来自所述无细胞核酸母本样品的测序数据，确定传递和未传递的母本和父本等位基因的胎儿等位基因分数；

枚举来自相邻胎儿等位基因的每个胎儿等位基因；和

将一个或多个枚举的等位基因输入到HMM中以确定胎儿基因内容。

2.根据权利要求1所述的方法，进一步包括HMM后分析。

3.根据权利要求1所述的方法，其中所述测序是无细胞核酸母本样品的全基因组测序，母本或父本单倍型是长的，胎儿基因内容是全胎儿基因组。

4.根据权利要求3所述的方法，其中长单倍型是跨染色体单倍型。

5.根据权利要求1所述的方法，其中所述测序是无细胞核酸母本样品的-组测序，母本或父本单倍型是长的，所述胎儿基因内容是胎儿-组。

6.根据权利要求5所述的方法，其中长单倍型是-组的跨染色体单倍型。

7.根据权利要求5所述的方法，其中所述-组是外显子组。

8.根据权利要求1所述的方法，其中所述测序是所述无细胞核酸母本样品的基因座测序，母本或父本单倍型是长的，所述胎儿基因内容是胎儿基因座。

9.根据权利要求8所述的方法，其中长单倍型是跨基因座单倍型。

10.根据权利要求1所述的方法，其中

a)枚举窗口大小是从约100千碱基至约20兆碱基；或

b)以约85％至90％、90％至95％、95％至96％、96％至97％、97％至98％、98％至99％或99％至100％的准确率确定胎儿基因内容；或

c)所述母本样品、所述父本样品和所述无细胞核酸母本样品来自人类、非人类哺乳动物、无脊椎动物、植物或真菌。

11.根据权利要求1所述的方法，其中胎儿基因内容的确定是胎儿基因型变体或胎儿单倍型变体。

12.根据权利要求1所述的方法，其中所述胎儿基因内容通过推断一个或多个母本或父本重组位置并由此确定胎儿基因型变体和胎儿单倍型变体而确定。

13.根据权利要求1所述的方法，其中所述无细胞核酸母本样品能够显现母源或胎源的新生变体。

14.一种非侵入性确定受试者中的癌症相关突变的方法，其包括：

从所述受试者获得包含一组具有基因组DNA的染色体的细胞样品并从所述样品获得长种系单倍型；

从所述受试者获得无细胞核酸样品并确定所述无细胞核酸样品的序列；

通过分析来自所述无细胞核酸样品的测序数据，确定肿瘤和正常等位基因的等位基因分数；

枚举来自相邻等位基因的每个等位基因；和

将一个或多个枚举的等位基因输入到HMM中以确定癌症相关突变的存在；和

所述长种系单倍型是跨染色体种系单倍型、-组的跨染色体种系单倍型、或跨基因座种系单倍型。

15.一种非侵入性确定来自移植受体的样品中的基因内容的方法，其包括：

从所述移植受体获得包含一组具有基因组DNA的染色体的细胞样品并从所述样品获得长种系单倍型；

从所述移植受体获得无细胞核酸样品并确定所述无细胞核酸样品的序列；

通过分析来自所述无细胞核酸样品的测序数据，确定供体和受体等位基因的等位基因分数；

枚举来自相邻等位基因的每个等位基因；以及

将一个或多个枚举的等位基因输入到HMM中以确定所述样品的基因内容；并且

其中所述长种系单倍型是跨染色体种系单倍型、-组的跨染色体种系单倍型、或跨基因座种系单倍型。