CN105392893A

CN105392893A - 检测核酸样本中预定事件的方法和***以及捕获芯片

Info

Publication number: CN105392893A
Application number: CN201180074169.6A
Authority: CN
Inventors: 蒋慧; 陈芳; 葛会娟; 李培培; 李旭超; 汪建; 王俊; 杨焕明; 张秀清
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2011-10-14
Filing date: 2011-12-21
Publication date: 2016-03-09
Also published as: CN103874767A; CN102329876B; WO2013053182A1; CN103890189A; CN103890189B; TW201315813A; CN102329876A; HK1193845A1; US20180371539A1; WO2013053183A1; WO2013053207A1; CN103874767B; US20140249038A1; HK1215812A1; WO2013053180A1

Abstract

本发明公开了检测核酸样本中预定事件的方法。其中，检测核酸样本中预定事件的方法，包括以下步骤：针对核酸样本构建测序文库；对测序文库进行测序，以便获得由多个测序数据构成的测序结果；确定来自预定区域的测序数据；以及基于来自预定区域的测序数据的组成，判断在核酸样本中发生所述预定事件。

Description

检测核酸样本中预定事件的方法和***以及捕获芯片优先权信息

本申请请求 2011 年 10 月 14 日向中国国家知识产权局提交的、专利申请号为 201 110311333.2的专利申请的优先权和权益，并且通过参照将其全文并入此处。技术领域

本发明涉及生物医学领域。具体地，本发明涉及检测核酸样本中预定事件的方法和*** 以及捕获芯片。背景技术

单基因病 (monogenic disorders)是由一对等位基因控制的疾病或病理性状，又称孟德尔疾病或单基因遗传病，其按遗传方式可以分为常染色体隐性遗传病（AR )、常染色体显性遗传病（ AD )、 X连锁隐形遗传病（ XR )、 X连锁显性遗传（ XD )和 Y连锁遗传病等；根据人类基因组计划信息网站公布的数据显示，现有 6000种已知临床症状且遗传机理明确的单基因遗传病 ( http：〃 www.ncbi.nlm.nih.gov/omim )。

然而，目前的相关检测手段仍有待改进。发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出能够有效检测核酸样本中预定事件的方法。

根据本发明的第一方面，本发明提出了一种检测核酸样本中预定事件的方法。根据本发明的实施例，该检测核酸样本中预定事件的方法包括以下步骤：针对所述核酸样本构建测序文库；对所述测序文库进行测序，以便获得由多个测序数据构成的测序结果；确定来自预定区域的测序数据；以及基于所述来自预定区域的测序数据的组成，判断所述预定事件的发生。利用上述方法能够有效地对核酸样本中的预定事件进行检测，例如可以有效地检测 SNP位点中的突变类型，或者能够有效地进行产前染色体的非整倍性。

根据本发明的第二方面，本发明提出了一种用于检测核酸样本中预定事件的***。根据本发明的实施例，该用于检测核酸样本中预定事件的***包括：文库构建装置，所述文库构建装置适于针对所述核酸样本构建测序文库；测序装置，所述测序装置与所述文库构建装置相连，并且适于对所述测序文库进行测序，以便获得由多个测序数据构成的测序结果；分析装置，所述分析装置适于从所述测序结果中选择来自预定区域的测序数据，并且基于所述来自预定区域的测序数据占总测序数据的比例，判断所述预定事件的发生。利用该系统，能够有效地实施前面所述的检测核酸样本中预定事件的方法，从而有效地对核酸样本中的预定事件进行检测，例如可以有效地检测 SNP位点中的突变类型，或者能够有效地进行产前染色体的非整倍性。

根据本发明的第三方面，本发明提出了一种捕获芯片。根据本发明的实施例，该捕获芯片包括：芯片本体；以及多个寡核苷酸探针，所述多个寡核苷酸探针设置在所述芯片本体的表面上，其中，所述寡核苷酸探针对于人基因组中的预定区域是特异性的。基于该捕获芯片所具有的寡核苷酸探针对于人基因组中的预定区域是特异性的，因而，该捕获芯片可以有效地应用于前述检测核酸样本中预定事件的方法，有效地确定来自预定区域的测序数据，从而能够有效的对人基因组中的预定区域进行检测。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。附图说明

本发明的上述和 /或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图 1是根据本发明一个实施例的检测核酸样本中预定事件的***的结构示意图；图 2是根据本发明又一个实施例的检测核酸样本中预定事件的***的结构示意图；图 3是根据本发明一个实施例的检测 SNP, 根据母亲杂合胎儿纯合时的碱基概率分布，随机产生不同测序深度时各碱基的模拟频数，使用公式 I所示的贝叶斯模型进行运算，得到不同测序深度时的准确度的结果，其中，胎儿浓度表示母亲外周血中胎儿游离 DNA占血浆 DNA的百分比，检测效率表示该模型的检测效率即 1-FN (假阴性）；

图 4是根据本发明一个实施例的检测染色体非整倍性的结果；以及

图 5是才艮据本发明一个实施例的捕获芯片的结构示意图。具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。术语 "第一"、 "第二" 等仅用于方便描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，除非另有说明， "多个" 的含义是两个或两个以上。

检测核酸样本中预定事件的方法

根据本发明的实施例，本发明提出了一种检测核酸样本中预定事件的方法。在本文中所使用的术语 "预定事件" 是指核酸样本中可能存在的突变或者异常，例如遗传变异 ( ( http://en.wikipedia.org/wiki/Genetic_variation ) )。这些突变或者异常的发生位点或者区域已经预先知道或者有所报道，根据本发明的实施例的方法，能够检测的预定事件可以为核酸序列的结构变异如缺失、 ***、突变、重复、异位和倒位等，也可以为染色体数目的变异如非整倍体等，或者可以为分子遗传标记包含基因组内的单核苷酸多态性（SNP )、小卫星及微卫星序列（STR )等。发明人发现，可以通过检测包含可能发生预定事件的位点的核酸样本中的特定区域，并对这些特定区域的测序结果的构成（例如，在特定的位点， ATGC 碱基各自出现的频率）进行分析，可以有效地确定核酸样本中是否发生上述预定事件或者上述预定事件的类型，例如可以确定 SNP的类型。需要说明的是，基于本发明的方法，在对是否发生 "预定事件" 进行判断的基础上，还可以对这些所检测的结果进行进一步分析，可以得出进一步的结论，例如根据本发明的实施例，在获得 SNP的信息之后，可以进一步将该方法应用于实现有效的亲子鉴定。因而，在本文中所使用的术语 "预定事件" 应做广义理解，其不仅包括可以直接通过测序结果得出的项目，还可以包括通过对检测结果进行进一步分析所得到的项目，例如判断不同核酸样本之间的亲缘关系。

根据本发明的实施例，检测核酸样本中预定事件的方法可以包括下列步骤：

首先，针对核酸样本构建测序文库。根据本发明的实施例，核酸样本的类型并不受特别限制，可以是脱氧核糖核酸（DNA ), 也可以是核糖核酸（R A ), 优选 DNA。本领域技术人员可以理解，对于 R A样本，可以通过常规手段将其转换为具有相应序列的 DNA样本，进行检测。另外，核酸样本的来源也不受特别限制。根据本发明的一些实施例，可以釆用的核酸样本为选自人的基因组 DNA样本和游离核酸的至少一种，优选，所述基因组 DNA 样本是来自人白细胞或孕妇血浆的基因组 DNA。发明人发现，利用本发明的方法，能够有效地确定人类基因组中的特定事件例如核酸突变。另外，通过对人外周血尤其是孕妇外周血中提取的游离核酸或者基因组 DNA进行分析，可以有效地对胎儿的遗传性状进行分析，实现对胎儿无损的产前诊断或者亲子鉴定。关于针对核酸样本，构建测序文库的方法和流程，本领域技术人员可以根据不同的测序技术进行适当选择，关于流程的细节，可以参见测序仪器的厂商例如 Illumina公司所提供的规程，例如参见 Illumina公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 ) 或 Paired-End SamplePrep Guide ( Part#1005063; Feb 2010 ), 通过参照将其并入本文。根据本发明的实施例，从生物样本提取核酸样本的方法和设备，也不受特别限制，可以釆用商品化的核酸提取试剂盒进行。在获得测序文库之后，将测序文库应用于测序仪器，对测序文库进行测序，并获得相应的测序结果，该测序结果是由多个测序数据构成的。根据本发明的实施例，可以用于进行测序的方法和设备并不受特别限制，包括但不限于双脱氧链终止法；优选高通量的测序方法，由此，能够利用这些测序装置的高通量、深度测序的特点，进一步提高了确定有核红细胞染色体非整倍性的效率。从而，提高后续对测序数据进行分析，尤其是统计检验分析时的精确性和准确度。

所述高通量的测序方法包括但不限于第二代测序技术或者是单分子测序技术。

所述第二代测序平台（技术）（可参见 Metzker ML. Sequencing technologies-the next generation. Nat Rev Genet. 2010 Jan;ll(l):31-46, 通过参照将其全文并入本文）包括但不限于 Illumina-Solexa ( GA^TM，HiSeq2000™等）、 ABI-Solid和 Roche-454 (焦磷酸测序）测序平台；单分子测序平台（技术）包括但不限于 Helicos公司的真实单分子测序技术（True Single Molecule DNA sequencing ) ， Pacific Biosciences 公司单分子实时测序 ( single molecule real-time (SMRT™) ), 以及 Oxford Nanopore Technologies公司的纳米孔测序技术等（可参见 Rusk, Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6 (4): 244-245 , 通过参照将其全文并入本文）。

随着测序技术的不断进化，本领域技术人员能够理解的是还可以釆用其他的测序方法和装置进行全基因组测序。

根据本发明的具体示例，可以利用选自 Illumina-Solexa、 ABI-SOLiD、 Roche-454和单分子测序装置的至少一种对所述全基因组测序文库进行测序。接下来，将所得到的测序结果进行处理，确定来自预定区域的测序数据。在本文中所使用的术语 "预定区域" 应作广义理解，是指任何包含可能发生预定事件位点的核酸分子的区域。对于 SNP分析而言，可以是指包含 SNP位点的区域。对于分析染色体非整倍性，则预定区域指的是所要分析的染色体的全长或者部分，即选择所有来自该染色体的测序数据。从测序结果中选择来自相应区域的测序数据的方法可以不受特别限制。根据本发明的实施例，可以通过将所得到的所有测序数据与已知的核酸参照序列进行比对，从而得到来自于预定区域的测序数据。另夕卜，也可以在进行测序操作之前，完成对进行测序的测序文库的筛选，从而可以直接获得来自预定区域的测序数据。由此，根据本发明的实施例，确定来自预定区域的测序数据，可以包括在获得测序结果之后，通过比对等方法对测序结果进行筛选，得到来自预定区域的测序数据。也可以通过在测序之前就对测序文库进行选择，从而最终获得由来自预定区域的测序数据构成的测序结果。根据本发明的实施例，对测序文库进行选择的方法并不受特别限制，可以是在构建测序文库的任何阶段进行，例如可以釆用预定区域特异性的探针进行。根据本发明的实施例，可以将基因组打断获得 DNA片段，使用特异性的探针对 DNA片段进行筛选，并对筛选得到的 DNA片段进行后续的文库构建操作，从而得到来自预定区域的测序文库。当然，也可以在获得 DNA测序文库之后，利用特定区域特异性的探针对测序文库进行筛选，从而筛选得到来自预定区域的测序文库。因而，根据本发明的实施例，可以在将所述测序文库进行测序之前，进一步包括利用探针对所述测序文库进行稀选的步骤，其中所述探针对于所述预定区域是特异性的。由此，可以在测序之前，对测序文库进行初步筛选，从而提高所得到的测序数据中可以直接进行分析的数据的比例，并且可以进一步提高测序深度，实现同时对核酸样本的多个预定区域进行测序和分析。根据本发明的实施例，探针的形式并不受特别限制。根据本发明的实施例，所述探针设置在芯片上。由此，通过将探针设置在芯片上，可以通过实现高通量筛选多种预定区域的测序文库，进一步提高对核酸样本进行检测分析的效率。本领域技术人员，可以根据需要设计探针，并且目前有制造商可以提供探针合成以及芯片制作的服务，例如可以设计针对 MHC 区域的杂交芯片，或者针对多个 SNP (可以多至数量级为万 )。根据本发明的实施例，可以将筛选多个 SNP 位点的探针集成在一个芯片上，通过一次杂交反应可以同时检测多种不同的疾病。进一步，发明人发现，利用检测单基因疾病的芯片，通过本发明实施例的检测方法，基于可以同时检测大量的 SNP位点，因而，可以实现有效的亲子鉴定，提高亲子鉴定的有效性和时效性并且，根据本发明的实施例，利用上述检测单基因疾病的芯片，通过本发明实施例的检测方法，还可以对染色体异常进行检测，例如在本发明的实施例中有效地实现了对染色体非整倍性如 21三体综合症的检测。另外，根据本发明的实施例，可以同时检测多种样品，只要在各个样品构建文库的过程中，添加不同的且已知序列的标签即可。大大提高了检测的通量，减少了临床应用中多次检测的操作过程和试剂损耗，节省了时间，降低了成本，为未来大规模用于临床无创产前筛查工作提供巨大支持。

另外，根据本发明的实施例，通过比对确定来自预定区域的测序数据的方法，也可以和通过探针稀选预定区域的测序文库的方法相结合，从而可以提高选择来自预定区域的测序数据的精确性。对于预定区域比较短的检测，例如对于目的在于检测 SNP突变类型的检测，可以仅仅依靠探针杂交筛选文库来进行测序数据的筛选。另外，根据本发明的实施例，对测序结果进行选择，进一步包括从测序结果中除去测序质量不好的结果，关于这一点，本领域技术人员可以根据预定的标准进行过滤。根据本发明的实施例，在获得所述测序结果之后，进一步包括：将所述测序结果与已知的核酸序列进行比对，以便获得唯一比对序列；以及从所述唯一比对序列选择来自预定区域的测序数据。由此，可以进一步提高对核酸样本进行检测分析的准确性或效率。

在从测序结果中选择来自预定区域的测序数据之后，可以基于所述来自预定区域的测序数据的组成，判断所述预定事件的发生。对于来自预定区域的测序数据，尤其是通过二代测序等高通量深度测序所得到的测序结果，相同的位点，会被检测多次，同时也会有一定的误差，或者发生了其他的突变，在本文中所使用的术语 "测序数据的组成" 的含义指的是，对于所研究的区域，所有的测序数据，包括所得到的所有位点的测序结果，以及各种结果所对应的读数（reads ) 的数目。发明人提出，可以通过统计分析的方法，对这些测序数据的组成进行分析，排除偶然发生的误差，从而得到最可能反映真实情况的测序结果。

为此，发明人提出了一种针对 SNP的分析方法。对于 SNP的分析方法，所述预定区域是包含已知 SNP的核酸片段，所述预定事件为 SNP位点的突变类型，其中，判断在所述核酸样本中发生所述预定事件进一步包括：确定在 SNP位点分别为碱基八、 T、 G、 C的测序数据分别占总测序数据的比例；以及基于所述比例，利用贝叶斯模型，确定在所述 SNP位点出现概率最高的碱基，以便确定所述核酸样本中 SNP位点的突变类型。由此，可以有效地确定预定区域中 SNP的突变类型，进而可以通过对胎儿及其父母中多个 SNP位点的突变类型进行检测，来进行亲子鉴定。并且利用该方法能够有效地对多种变异类型进行检测，扩大了疾病检测的范围。

发明人发现在特定位点，四种碱基（A、 T、 C和 G ) 的出现是相互排斥的，同时仅有这四种可能，因而在特定的位点出现特定碱基的概率服从四项分布。因而，当其基因型为纯合型，例如 AA , 则四种碱基出现的概率为：

注： *Pr(Base)表示碱基所出现的概率；

δ为碱基错误率，即在测序过程中碱基被测错的比例

当其基因型为杂合型，例如 ΑΓ , 则四种碱基出现的概率为：

注： *Pr(Base)表示碱基所出现的概率; δ为碱基错误率，即在测序过程中碱基被测错的比例

根据四项分布的规律，对于 η个测序结果中， Α出现 α_Α次、 Τ出现 α_Γ次、 C出现 o_c次且 G出现 fl_G次的概率是

其中 <¾+ θΓ+<¾+<¾?⁼η,

PA . Ρτ . 和 p_G 分别表示碱基 A T C 和 G 的出现概率， ^{i e} {^4Α, ΤΓ, CC, GG, AT, AC, AG, CT, CG, GT}。由于目前测序技术的测序深度比较高，所以没有必要将先验的概率引入，所以，可以假定在观察前，每种基因型出现的概率相等，即 ^{genotype = 0 = 0.1 , 因为样本空间中 i {AA, ΊΤ, CC, GG, AT, AC, AG, CT, CG, GT}共有 i ₀ 种可能出现的情况。

基于以上前提，可以通过贝叶斯模型，对测序结果进行分析，即利用下列方程：

公式 I是贝叶斯展开式，可以分别计算在核酸样本中预定区域为不同的基因型时，得到当前的测序结果的概率。概率最大时的基因型，即为根据本发明的分析方法确定的实际基因型。其中， Pr(ge«o¾pe = )是指某种基因型的出现概率，基于前述分析，这里全都默认为 0.1 ; PrO e«ce | ge«o¾pe = 0是当实际基因型为 i时，得到当前测序数据的概率，可以由公式

■藝議議議國議國 i議 illii議議圍隱隱變議變國續誦计算得到； Pr(genotype = i | sequence)代表在当前测序数据中，不同基因型出现的概率。借助上述贝叶斯模型的分析，可以将测序结果中，在特定位点出现特定碱基的概率进行计算，从而得到概率最高的测序结果，由此，可以确定针对该位点的基因型。即出现概率最大的基因型，将会被认定为本位点的基因型。另外可以将计算得到出现概率最大的基因型所对应的 ^pr( ¾P^e ^ l ^^"^Ci , 根据公式_^{1 ()} * ¹⁽⁾^ ^")转化成质量值，来衡量本次基因型决定的可靠性，其中 Pr表示该基因型的出现概率。

由此，可以有效地对样本特定核酸位点的类型进行确定，例如可以同时确定多个 SNP 的突变类型，从而可以有效地对样本之间的血缘关系进行检测，实现有效的亲子鉴定，也可以实现同时对多种疾病的有效检测。当然本领域技术人员可以理解，上述利用贝叶斯模型的分析方法，也可以适用于其他核酸变异情况的分析。与传统单个位点 PCR方法不同，本方法不但涉及较多位点，检测结果更加可靠，且同时可检测多个样品，通量大大增加，使操作流程较大程度得到简化。

另夕卜，本发明还提出了一种分析染色体非整倍性的方法。由此，根据本发明的一个实施例，所述预定区域是基因组中的第一染色体，预定事件为所述第一染色体的非整倍性。进而，根据本发明的实施例，基于来自预定区域的测序数据的数目，判断所述预定事件的发生进一步包括下列步骤：

首先，确定来自第一染色体的测序数据占总测序数据的比例，即可以通过将测序数据与已知基因组信息进行比对，确定来自第一染色体的测序数据，并分别对来自第一染色体的测序数据的总量，以及总测序数据的量进行比较，从而获得来自第一染色体的测序数据占总测序数据的比例。这里所使用的术语 "第一染色体" 应做广义理解，其可以是指任何期望研究的目的染色体，其数目并不仅限于一条染色体，甚至可以同时将全部染色体进行分析。根据本发明的实施例，第一染色体为选自人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种。由此，能够有效地确定常见的人类染色体疾病。本发明的发明人惊奇地发现，根据本发明实施例，确定染色体非整倍性的方法，能够非常有效地应用于检测人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的非整倍性。因而，根据本发明的实施例的确定染色体非整倍性的方法，能够非常有效地应用于孕妇的产前检测，可以极大地缩短检测的时间以及对孕妇的伤害，避免常规检测可能带来的流产风险。根据本发明的实施例，用于研究染色体非整倍性的核酸样本的来源不受特别限制，根据具体的实例，所述核酸样本为从孕妇血浆中提取的基因组 DNA。由此，进一步在对胎儿没有损伤的前提下，实现对胎儿染色体非整倍性相关的遗传性疾病进行检测。本方法所用无创取样的方式避免了传统羊水穿刺等方法带来的流产风险，省去了超声等辅助设施，取样更加简单方便。

接下来，在获得来自第一染色体的测序数据占总测序数据的比例之后，因为如果存在非整倍性，则第一染色体的测序数据占总测序数据的比例会与正常的核酸样本有显著的区别。因而，基于来自第一染色体的测序数据占总测序数据的比例与预定参数的差异，可以确定关于第一染色体，所述核酸样本是否具有非整倍性。由此，可以有效地确定染色体的非整倍性，从而可以实现产前对胎儿遗传性疾病的有效检测。在本文中所使用的术语 "预定参数" 是指将已知基因组正常的核酸样本重复针对生物样本单细胞实施的操作和分析所得到的关于特定染色体的相关数据。本领域技术人员能够理解的是，可以釆用相同的测序条件和数学运算方法，分别获得特定染色体的相关参数，以及正常细胞的相关参数。这里，可以将正常核酸样本的相关参数作为对照参数。另外，本文中所使用的术语 "预定"，应做广义理解，可以是预先通过实验确定的，也可以是在进行生物样本分析时，釆用平行实验获得的。由此，根据本发明的一个实施例，所述预定参数是从正常核酸样本获得的来自于所述第一染色体的测序数据占总测序数据的比例。根据本发明的实施例，来自第一染色体的测序数据占总测序数据的比例与预定参数的差异，可以通过任何已知的数学方法体现出来，例如，可以通过将比例与预定参数进行比较，并将所得到的结果与阈值相比较，如果大于阈值，则判断为针对该染色体，核酸样本为第一染色体 3体。另外，才艮据本发明的一个实施例，进一步包括对所述比例与所述参数进行 T检验（student's test )。由此，能够进一步提高测序分析结果的准确度和精确度。本领域技术人员可以理解，在进行相关的数学统计检验后，也可以相应地设置不同的阙值，来进行上述相似的分析。根据本发明的实施例，在进行 T检验后，阈值可以设置为至少 1.5 , 例如至少 2, 更优选至少 3。

用于检测核酸样本中预定事件的***

根据本发明的第二方面，本发明提出了一种用于检测核酸样本中预定事件的*** 1000。参考图 1 , 根据本发明的实施例，该用于检测核酸样本中预定事件的*** 1000包括文库构建装置 100、测序装置 200以及分析装置 300。借助根据本发明实施例的用于检测核酸样本中预定事件的***，能够有效地实施上述根据本发明实施例的检测核酸样本中预定事件的方法。关于该方法的优点，前面已经进行了详细描述，不再赘述。

根据本发明的实施例，文库构建装置 100适于针对核酸样本构建测序文库。根据本发明的实施例，关于针对核酸样本，构建测序文库的方法和流程，本领域技术人员可以根据不同的测序技术进行适当选择，关于流程的细节，可以参见测序仪器的厂商例如 Illumina公司所提供的规程，例如参见 Illumina 公司 Multiplexing Sample Preparation Guide ( Part#1005361; Feb 2010 )或 Paired-End SamplePrep Guide ( Part#1005063; Feb 2010 ), 通过参照将其并入本文。根据本发明的实施例，从生物样本提取核酸样本的方法和设备，也不受特别限制，可以釆用商品化的核酸提取试剂盒进行。

根据本发明的实施例，测序装置 200与文库构建装置 100相连，并且适于对测序文库进行测序，以便获得由多个测序数据构成的测序结果。根据本发明的实施例，可以用于进行测序的方法和设备并不受特别限制。根据本发明的实施例，可以釆用第二代测序技术，也可以釆用第三代以及***或者更先进的测序技术。根据本发明的具体示例，可以利用选自 Illumina-Solexa、 ABI-SOLiD、 Roche-454、和单分子测序装置的至少一种对所述全基因组测序文库进行测序。由此，结合最新的测序技术，针对单个位点可以达到较高的测序深度，检测灵敏度和准确性大大提高，因而能够利用这些测序装置的高通量、深度测序的特点，进一步提高对核酸样本进行检测分析的效率。从而，提高后续对测序数据进行分析，尤其是统计检验分析时的精确性和准确度。参考图 2, 根据本发明的一个实施例，该***可以进一步包括文库筛选装置 400。根据本发明的实施例，文库筛选装置 400中设置有探针，所述探针对于预定区域是特异性的，以便利用探针对所述测序文库进行稀选。由此，可以在测序之前，对测序文库进行初步稀选，从而提高所得到的测序数据中可以直接进行分析的数据的比例，并且可以进一步提高测序深度，实现同时对核酸样本的多个预定区域进行测序和分析。根据本发明的一个实施例，所述探针呈芯片的形式。由此，通过将探针设置在芯片上，可以通过实现筛选多种预定区域的测序文库，进一步提高对核酸样本进行检测分析的效率。如前所述，这里所描述的文库筛选装置 400 可以设置在文库构建的任何环节中，既可以设置在将核酸样本例如基因组 DNA打断得到 DNA片后，也可以设置在获得基因组 DNA的测序文库之后，进行测序之前。

根据本发明的实施例，分析装置 300与测序装置 200相连，并且适于测序装置 200接收测序结果，从所述测序结果中选择来自预定区域的测序数据，进一步基于来自预定区域的测序数据的数目，判断所述预定事件的发生。关于从测序结果中选择来自预定区域的测序数据，前面已经进行了详细描述，在此不再赘述。根据本发明的实施例，可以釆用在分析装置 300中预存有相关的序列信息，也可以釆用分析装置 300与远程数据库（图中未显示）相连，进行联网操作。

关于判断所述预定事件的发生，前面也进行了详细描述，此处不再赘述。简言之，分析装置 300适于对 SNP进行检测和分析。对于 SNP的分析方法，所述预定区域是包含已知 SNP的核酸片段，所述预定事件为 SNP位点的突变类型，其中，分析装置 300适于进行：确定在 SNP位点分别为碱基八、 T、 G、 C的测序数据分别占总测序数据的比例；以及基于所述比例，利用贝叶斯模型，确定在所述 SNP位点出现概率最高的碱基，以便确定所述核酸样本中 SNP位点的突变类型。由此，可以有效地确定预定区域中 SNP的突变类型，进而可以通过对胎儿及其父母中多个 SNP位点的突变类型进行检测，来进行亲子鉴定。

根据本发明的一个实施例，分析装置 300可以用于分析染色体的非整倍性，因而，预定区域是基因组中的第一染色体，所述预定事件为所述第一染色体的非整倍性，其中，所述分析装置 300适于：确定来自所述第一染色体的测序数据占总测序数据的比例；以及基于所述比例与预定参数的差异，确定关于所述第一染色体，所述核酸样本是否具有非整倍性。由此，可以有效地确定染色体的非整倍性，从而可以实现产前对胎儿遗传性疾病的有效检测。根据本发明的一个实施例，所述第一染色体为选自人类 21号染色体、 18号染色体、 13 号染色体、 X染色体和 Y染色体的至少一种。由此，能够有效地确定常见的人类染色体疾病。根据本发明的一个实施例，分析装置 300进一步包括 T检验装置（图中未示出），以便对所述比例与所述参数进行 T检验。由此，能够进一步提高测序分析结果的准确度和精确度。

利用该***，能够有效地实施前面所述的检测核酸样本中预定事件的方法，从而有效地对核酸样本中的预定事件进行检测，例如可以有效地检测 SNP位点中的突变类型，或者能够有效地进行产前染色体的非整倍性的分析。在本文中所的术语 "相连" 应作广义理解，既可以是直接相连，也可以是间接相连，只要能够实现上述功能上的衔接即可。

需要说明的是，本领域技术人员能够理解，在前面所描述的用于检测核酸样本中预定事件的方法的特征和优点也适合于用于检测核酸样本中预定事件的***，为描述方便，不再详述。捕获芯片

根据本发明的实施例，本发明还提出了一种用于前述用于检测核酸样本中预定事件的方法的捕获芯片。参考图 5 , 该芯片 2000包括芯片本体 2001和多个寡核苷酸探针 2002。根据本发明的实施例，所述多个寡核苷酸探针 2002设置在芯片本体 2001的表面上，其中，所述寡核苷酸探针对于人基因组中的预定区域是特异性的。由此，通过利用该捕获芯片，能够有效地将样品中与预定区域所对应的核酸样品进行捕获，从而可以有效地提高检测核酸样本中预定事件的方法的效率。根据本发明的实施例，首先确定所感兴趣的预定区域，然后，根据预定区域的序列特征，确定寡核苷酸探针的序列。并且，根据本发明的实施例，预定区域的类型并不受特别限制。才艮据本发明的实施例，所述预定区域是人基因组中与疾病相关的基因区。由此，利用该芯片，能够有效地筛选来自人类基因组中与疾病相关的基因信息。根据具体的示例，基因区位于人基因组第 18、 13或 21号染色体。另外，根据本发明的实施例，预定区域是包含已知 SNP的核酸片段。由此，可以利用该芯片，可以同时筛选大量的 SNP相关信息。

需要说明的是，本领域技术人员能够理解，在前面所描述的用于检测核酸样本中预定事件的方法的特征和优点也适合于该捕获芯片，为描述方便，不再详述。下面参考具体实施例，对本发明进行说明，需要说明的是，这些实施例仅仅是说明性的，而不能理解为对本发明的限制。若未特别指明，实施例中所釆用的技术手段为本领域技术人员所熟知的常规手段，可以参照《分子克隆实验指南》第三版或者相关产品进行，所釆用的试剂和产品也均为可商业获得的。未详细描述的各种过程和方法是本领域中公职的常规方法，所用试剂的来源、商品名以及有必要列出其组成成分者，均在首次出现时标明，其后所用相同试剂如无特殊说明，均以首次标明的内容相同。实施例 1、 SNP位点的检测所取样品包括一个家庭中父亲和母亲孕期的外周血，胎儿出生后取脐带血，以 EDTA抗凝管收集。取母亲孕期外周血， 1600g, 4°C离心 10分钟，将血细胞和血浆分开，血浆再以 16000g, 4°C离心 10分钟，进一步去除残留的白细胞。孕妇外周血细胞和血浆用 TIANamp Micro DNA Kit ( TIANGEN )提取 DNA, 分别代表母亲基因组 DNA及母亲和胎儿基因组 DNA混合物。父亲外周血和胎儿脐带血则直接用该试剂盒提取 DNA。所获得的所有 DNA 样品，除血浆 DNA样品外，需用 Covaris™打断仪打断至 500bp大小的片段。将获得的 DNA 片段根据 HiSeq2000™ 测序仪制造商 illumia®公司所提供的说明书进行建库，获得测序文库，具体步骤如下：末端修复：

10 X T4多核苷酸激酶緩冲液 10 μΐ dNTPs(lOmM) 4 μΐ

Τ4 DNA聚合酶 5 μΐ

Klenow片段（具有 5'→3'聚合酶活性和 3'→5 '外切酶活性） 1 μΐ

Τ4 多核苷酸激酶 5 μ1

DNA 30μ1

ddH₂0 补至 100 μΐ

20°C反应 30分钟后，使用 PCR纯化试剂盒 (QIAGEN)回收末端修复产物。样品最后溶于 34μ1的 ΕΒ緩冲液中。末端添加碱基 Α:

10 X Klenow緩冲液 5μ1

dATP(lmM) ΙΟμΙ Klenow 片段 (3 '-5 ' exo— ) 3μ1

DNA (末端修复产物） 32μ1

37°C温育 30分钟后，经 MinElute® PCR纯化试剂盒 (QIAGEN)纯化并溶于 12μ1的 ΕΒ中。接头连接：

2χ快速 DNA连接緩冲液 25μ1

PEI Adapter oligomix(20uM) 1 Ομΐ

Τ4 DNA连接酶 5μ1

末端添加碱基 Α的产物 1 Ομΐ

20°C反应 15分钟后，使用 PCR纯化试剂盒 (QIAGEN)回收连接产物。样品最后溶于 32μ1 的 ΕΒ緩冲液中。

PCR扩增：

接头连接的产物 10 μΐ

Phusion DNA聚合酶 Mix 25 μΐ

PCR 引物（lO pmol/μΙ) 1 μΐ

标签 Ν*(10 ρηιο1/μ1) 1 μΐ

超纯水 13 μΐ

注： *制造商 illumina®提供。

PCR反应程序如下：

10个循环

72 °C

4°C Hold

使用 PCR纯化试剂盒 (QIAGEN)回收 PCR产物。样品最后溶于 50μ1的 ΕΒ緩冲液中。将构建好的文库经 Agilent®Bioanalyzer 2100 检测片段分布范围符合要求，再经过 Q-PCR 方法对该文库进行定量，合格后，用在 NimbleGen 公司定制的固相芯片 11032 I HG 19_BGI_exon_chrM_cap_HX3 (关于该芯片的细节见下）进行杂交，杂交后产物用 illumina® HiSeq2000™测序仪测序，测序循环数为 PE101Index(即双向 lOlbp Index测序），其中仪器的参数设置及操作方法按照制造商 Illumina®提供的 HiSeq2000™测序仪操作说明书进行 (该说明书可由 http://www.illumina.com/support/documentation.ilmn获取 )。

固相芯片 110321_HG19_BGI_exon_chrM_cap_HX3的设计和制备：

申请人根据制造商 Roche NimbleGen提供的探针设计指南，针对下表中所列出的区域，选取单基因疾病相关的区域（ http://omim.org/statistics/geneMap ), 以已知的人基因组序列信息 Hgl9为参考序列，设计了平均长度为 150bp的探针 7644条，其覆盖参考基因组 1.8M的区域。并交 Roche NimbleGen 公司合成到杂交芯片上，即为 110321 HG 19_BGI_exon_chrM_cap_HX3。作为一种替代方式，探针设计亦可交予芯片公司完成，只要探针有效覆盖所述区域即能达到相同或类似的效果。

测序得到的数据量，如表 -1中所示。父母及孩子的白细胞样本测序深度约为 50x, 母亲孕期外周血样本测序深度约为 300x。在数据分析过程中，使用 SOAP v2.20将测序 reads比对到参考序列 hgl9上，参数设置为（ -V 5 -S 40 -1 40 -r 1 )。只取比对结果中唯一比对到芯片目标区域的 reads进行后续分析。对于父母和胎儿的 SNP结果，已有全基因组测序和芯片数据作为标准结果。因此从中选取所有落在芯片目标区域的 SNP位点作为候选位点进行分析。

表 -1 测序数据产量

统计每个 SNP位点上的覆盖深度及 A、 T、 C、 G分布，过滤掉其中覆盖度较低的位点，最终得到可推断位点的碱基分布。根据公式 I所列的贝叶斯模型进行父母基因组及母亲外周血中胎儿的基因型的推断，具体数据如表 -2中所示。

表 -2 SNP正确率统计

从表 2, 可以看出对于父母的基因型检测准确率基本为 100%, 胎儿基因型的检测准确率也在 70%以上，其中对应母亲纯合的位点检测正确率可以达到 92.54%, 正确率不高主要是由母亲杂合位点造成。目前结果受限于本次试验的测序深度。如图 3所示是模拟数据分析结果显示，当深度提高时准确率还有较大的提升空间。图 3是根据母亲杂合胎儿纯合时的碱基概率分布，随机产生不同测序深度时各碱基的模拟频数，使用公式 1所示的贝叶斯模型进行运算，得到不同测序深度时的准确度的结果。

实施例 2 染色体非整倍性检测选取已经羊水穿刺检测结果证实胎儿为 T21(二十一三体综合症）的孕妇血浆样品一例，怀有正常胎儿孕妇的血浆样品两例，分别提取血浆 DNA, 按照实施例 1所示方法进行文库构建，使用与实施例 1 中相同的捕获芯片对测序文库进行捕获后，利用 Illumina® HiSeq2000TM 测序仪测序。对于染色体数目异常检测，测序得到的有效数据如表 -3所示。各样本的测序深度为 50x左右。

比对等过程与实施例 1的 SNP基因型推断一致。对于比对结果，分析以染色体为单位统计落入各染色体的唯一性比对 reads占全基因组测序数据的比例。然后以正常样本的比例作为对照进行相除，对得到的相对 reads分布进行 T检验，其中离群值超过显著限的即为数目异常的染色体。结果如图 4所示，对于 T21血浆样品，其他染色体都在阈值以内，而 21 号染色体超出了阈值（3 ), 如图 4中箭头所指。通过阈值筛选，可以成功检测出 21号染色体的数目异常。表 -3 测序数据产量

在本说明书的描述中，参考术语 "一个实施例"、 "一些实施例"、 "示例"、 "具体示例"、或 "一些示例" 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

权利要求书

1、一种检测核酸样本中预定事件的方法，其特征在于，包括以下步骤：

针对所述核酸样本构建测序文库；

对所述测序文库进行测序，以便获得由多个测序数据构成的测序结果；

确定来自预定区域的测序数据；以及

基于所述来自预定区域的测序数据的组成，判断在所述核酸样本中发生所述预定事件，其巾，

任选地，所述核酸样本为选自人的基因组 DNA样本和游离核酸的至少一种，任选地，所述基因组 DNA样本是来自人白细胞或孕妇血浆的基因组 DNA,

任选地，所述测序是利用选自 Illumina-Solexa、 ABI-Solid、 Roche-454、和单分子测序装置的至少一种对所述全基因组测序文库进行的，

任选地，在将所述测序文库进行测序之前，进一步包括利用探针对所述测序文库进行筛选的步骤，其中所述探针对于所述预定区域是特异性的，

任选地，所述探针设置在芯片上，

任选地，在获得所述测序结果之后，进一步包括：

将所述测序结果与已知的核酸序列进行比对，以便获得唯一比对序列；以及从所述唯一比对序列选择来自预定区域的测序数据。
2、根据权利要求 1所述的方法，其特征在于，所述预定区域是包含已知 SNP的核酸片段，所述预定事件为 SNP位点的突变类型，

其巾，

判断在所述核酸样本中发生所述预定事件进一步包括：

确定在 SNP位点分别为碱基 A、 T、 G、 C的测序数据分别占总测序数据的比例；以及

基于所述比例，利用贝叶斯模型，确定在所述 SNP位点出现概率最高的碱基，以便确定所述核酸样本中 SNP位点的突变类型。
3、根据权利要求 1所述的方法，其特征在于，所述预定区域是基因组中的第一染色体，所述预定事件为所述第一染色体的非整倍性，其中，判断在所述核酸样本中发生所述预定事件进一步包括：

确定来自所述第一染色体的测序数据占总测序数据的比例；以及

基于所述比例与预定参数的差异，确定关于所述第一染色体，所述核酸样本是否具有非整倍性，

任选地，所述第一染色体为选自人类 21号染色体、 18号染色体、 13号染色体、 X 染色体和 Y染色体的至少一种，

任选地，所述核酸样本为从孕妇血浆中提取的基因组 DNA,

任选地，所述预定参数是从正常核酸样本获得的来自于所述第一染色体的测序数据占总测序数据的比例，

任选地，进一步包括对所述比例与所述参数进行 T检验。
4、一种用于检测核酸样本中预定事件的***，其特征在于，包括：

文库构建装置，所述文库构建装置适于针对所述核酸样本构建测序文库；

测序装置，所述测序装置与所述文库构建装置相连，并且适于对所述测序文库进行测序，以便获得由多个测序数据构成的测序结果；

分析装置，所述分析装置适于确定来自预定区域的测序数据，并且基于所述来自预定区域的测序数据的组成，判断所述预定事件的发生，

任选地，所述测序装置为选自 Illumina-Solexa、 ABI-Solid、 Roche-454、和单分子测序装置的至少一种，

任选地，进一步包括文库筛选装置，所述文库筛选装置中设置有探针，对于所述预定区域是特异性的，以便利用所述探针对所述测序文库进行筛选，
5、根据权利要求 4所述的***，其特征在于，所述预定区域是包含已知 SNP的核酸片段，所述预定事件为 SNP位点的突变类型，其中，所述分析装置适于：

确定在 SNP位点分别为碱基、 T、 G、 C的测序数据分别占总测序数据的比例；以及基于所述比例，利用贝叶斯模型，确定在所述 SNP位点出现概率最高的碱基，以便确定所述核酸样本中 SNP位点的突变类型。
6、根据权利要求 4所述的***，其特征在于，所述预定区域是基因组中的第一染色体，所述预定事件为所述第一染色体的非整倍性，

其中，

所述分析装置适于：

确定来自所述第一染色体的测序数据占总测序数据的比例；以及

基于所述比例与预定参数的差异，确定关于所述第一染色体，所述核酸样本是否具有非整倍性，

任选地，所述第一染色体为选自人类 21号染色体、 18号染色体、 13号染色体、 X染色体和 Y染色体的至少一种，任选地，所述分析装置进一步包括 T检验装置，以便对所述比例与所述参数进行 Τ检验。
7、一种用于权利要求 1所述检测核酸样本中预定事件的方法的捕获芯片，其特征在于，包括：

芯片本体；

多个寡核苷酸探针，所述多个寡核苷酸探针设置在所述芯片本体的表面上，其巾，

所述寡核苷酸探针对于人基因组中的预定区域是特异性的。
8、根据权利要求 7所述的捕获芯片，其特征在于，所述预定区域是人基因组中与疾病相关的基因区，

任选地，所述基因区位于人基因组第 18、 13或 21号染色体。
9、根据权利要求 7所述的捕获芯片，其特征在于，所述预定区域是包含已知 SNP的核酸片段。