CN112652359B

CN112652359B - 染色体异常检测装置

Info

Publication number: CN112652359B
Application number: CN202011624173.2A
Authority: CN
Inventors: 杜洋; 李申曼; 王娟; 李志民; 孙雪光
Original assignee: Annoroad Gene Technology Beijing Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2024-05-28
Anticipated expiration: 2040-12-30
Also published as: CN112652359A

Abstract

本发明涉及一种染色体异常检测装置，包括：测序数据获取器，其基于DNA样本进行测序以获得DNA样本的测序数据；参考序列比对器，其用于将测序数据与参考序列进行比对以获得DNA样本的染色体数据；染色体间特征分析器，其基于获取的染色体数据，对DNA样本的染色体进行染色体间特征分析以获得每一条染色体相对于所有染色体的第一特征；性染色体特征测定器，其基于获取的染色体数据，对DNA样本的性染色体进行特征测定以获得性染色体相对于常染色体的第二特征，Y染色体相对于X染色体的第三特征；异常特征判定器，其基于第一特征、第二特征和第三特征来判定DNA样本是否存在染色体异常，以及基于第二特征和/或第三特征判定DNA样本是否存在整倍体畸变。

Description

染色体异常检测装置

技术领域

本发明涉及一种染色体异常检测装置。本申请的装置适用于染色体异常的检测，与现有检测染色体异常检测装置相比，本检测装置更适用于三倍体综合征的检测，特别是能检测出核型为69XXY的三倍体综合征。

背景技术

三倍体综合症是指比正常二倍体多了一套单倍体染色体，有三条性染色体，染色体总数为69。三倍体综合症是产前诊断中最常见的多倍体。99％的三倍体胎儿都不能成活出生，其中的大部分在10-20孕周流产，约占早孕期自然流产病例的10％。镶嵌体的三倍体可以存活较长时间。三倍体的核型有三种，即69XXY、69XXX、69XYY，比例分别为60％、37％和3％。三倍体发生机制主要包括双雄受精和双雌受精。

针对染色体异常，尤其是三倍体综合症，现有技术中常用的Z值检测方法是通过分析样本内部各染色体与其他染色体的相关性来确定待检测染色体是否存在异常情况。因此能够检测出某条染色体相对于其他染色体是否有异常。但当所有染色体均发生异常时，如发生三倍体综合征时，就无法将其中某条染色体与其它染色体进行区分。

发明内容

鉴于上述现有技术中存在的不足，本发明的目的在于提供一种染色体异常检测装置，特别是提供一种能够准确检测三倍体综合征的染色体异常检测装置。

具体来说，本发明的目的是通过以下技术方案予以实现。

本发明涉及如下内容：

1.一种染色体异常检测装置，其包括：

测序数据获取器，所述测序数据获取器基于DNA样本进行测序以获得所述DNA样本的测序数据；

参考序列比对器，所述参考序列比对器用于将所述测序数据与参考序列进行比对以获得所述DNA样本的染色体数据；

染色体间特征分析器，所述染色体间特征分析器基于获取的染色体数据，对所述DNA样本的染色体进行染色体间特征分析以获得每一条染色体相对于所有染色体的第一特征；

性染色体特征测定器，所述性染色体特征测定器基于获取的染色体数据，对所述DNA样本的性染色体进行特征测定以获得性染色体相对于常染色体的第二特征，以及Y染色体相对于X染色体的第三特征；

异常特征判定器，所述异常特征判定器基于第一特征、第二特征和第三特征来判定所述DNA样本是否存在染色体异常，以及基于第二特征和/或第三特征判定所述DNA样本是否存在整倍体畸变。

2.根据项1所述的装置，其中，

所述参考序列比对器包括窗口切割器，所述窗口切割器用于将参考序列切割成大小相同的窗口，以及将所述染色体数据对应切割为多个染色体窗口。

3.根据项1所述的装置，其中，

所述测序数据获取器包括第一低质量数据过滤组件，所述第一低质量数据过滤组件用于对所述DNA样本的测序数据进行过滤以除去所述DNA样本的测序数据中的低质量数据，并且将过滤后的所述DNA样本的测序数据用于与所述的参考序列比对器中的参考序列进行比对。

4.根据项1所述的装置，其中，所述染色体间特征分析器获取所述DNA样本的每一条染色体的UR值，以及基于每一条染色体的UR值获取每一条染色体相对于所有染色体的第一特征。

5.根据项4所述的装置，在所述染色体间特征分析器中，基于UR值以及GC含量通过Lowess方法以及标准化方法获得第一特征。

6.根据项1所述的装置，其中，性染色体特征测定器包括：

第二特征获取器，所述第二特征获取器用于获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征；

第三特征获取器，所述第三特征获取器用于获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征。

7.根据项6所述的装置，其中，所述常染色体是1号染色体。

8.根据项1所述的装置，其中，在所述异常特征判定器中，

基于所述第一特征判定每一条常染色体的数目；

基于所述第三特征判定Y染色体的数目；

基于所述第二特征判定X染色体的数目，以及

基于所述第二特征和/或所述第三特征对常染色体的数目进行修正，

从而判定所述DNA样本是否存在染色体异常以及所述DNA样本是否存在整倍体畸变。

9.根据项1所述的装置，其中，DNA样本来源于待检测羊水。

10.根据项1所述的装置，其中，所述装置还包括校正组件，所述校正组件基于所述装置的检测结果对所述第二特征和/第三特征进行调整。

11.根据项2所述的装置，其中，所述染色体间特征分析器包括：

UR值获取组件，所述UR值获取组件获取每个染色体窗口的UR值；

第二低质量数据过滤组件，所述第二低质量数据过滤组件过滤低于UR设定值的染色体窗口；

矫正组件，所述矫正组件利用LOWESS方法基于GC含量对经第二低质量数据过滤组件过滤剩余的染色体窗口进行GC矫正以获得残差；

第一特征获取器，用于将残差标准化以获得每一条染色体相对于所有染色体的第一特征。

12.根据项11所述的装置，其中，所述性染色体特征测定器包括：

第三特征获取器，所述第三特征获取器用于获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征；

其中性染色体的UR值是指性染色体每个窗口的UR值除去极值之后的总和；

常染色体的UR值是指常染色体每个窗口的UR值除去极值之后的总和；

X染色体的UR值是指X染色体每个窗口的UR值除去极值之后的总和；以及

Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和。

13.根据项12所述的装置，其中，所述去极值处理是指去掉全部数值中的最大的5％部分与最小的5％部分。

14.一种染色体异常检测方法，其包括：

测序数据获取步骤，在该步骤中，基于DNA样本进行测序以获得所述DNA样本的测序数据；

参考序列比对步骤，在该步骤中，将所述测序数据与参考序列进行比对以获得所述DNA样本的染色体数据；

染色体间特征分析步骤，在该步骤中，基于获取的染色体数据，对所述DNA样本的染色体进行染色体间特征分析以获得每一条染色体相对于所有染色体的第一特征；

性染色体特征测定步骤，在该步骤中，基于获取的染色体数据，对所述DNA样本的性染色体进行特征测定以获得性染色体相对于常染色体的第二特征，以及Y染色体相对于X染色体的第三特征；

异常特征判定步骤，在该步骤中，基于第一特征、第二特征和第三特征来判定所述DNA样本是否存在染色体异常，以及基于第二特征和/或第三特征判定所述DNA样本是否存在整倍体畸变。

15.根据项14所述的方法，其中，

所述参考序列比对步骤还包括窗口切割步骤，在该步骤中，将参考序列切割成大小相同的窗口，以及将所述染色体数据对应切割为多个染色体窗口。

16.根据项14所述的方法，其中，

所述测序数据获取步骤包括第一低质量数据过滤步骤，在该步骤中，对所述DNA样本的测序数据进行过滤以除去所述DNA样本的测序数据中的低质量数据，并且将过滤后的所述DNA样本的测序数据用于与所述参考序列比对器中的参考序列进行比对。

17.根据项14所述的方法，其中，在所述染色体间特征分析步骤中，获取所述DNA样本的每一条染色体的UR值，以及基于每一条染色体的UR值获取每一条染色体相对于所有染色体的第一特征。

18.根据项17所述的方法，在所述染色体间特征分析步骤中，基于UR值以及GC含量通过Lowess方法以及标准化方法获得第一特征。

19.根据项14所述的方法，其中，所述性染色体特征测定步骤还包括：

第二特征获取步骤，在该步骤中，获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征，

第三特征获取步骤，在该步骤中，获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征。

20.根据项19所述的方法，其中，所述常染色体是1号染色体。

21.根据项14所述的方法，其中，在所述异常特征判定步骤中，

基于所述第一特征判定每一条常染色体的数目；

基于所述第三特征判定Y染色体的数目；

基于所述第二特征判定X染色体的数目，以及

22.根据项14所述的方法，其中，DNA样本来源于待检测羊水。

23.根据项14所述的方法，其中，所述方法还包括校正步骤，在该步骤中，基于所述装置的检测结果对所述第二特征和/第三特征进行调整。

24.根据项15所述的步骤，其中，所述染色体间特征分析步骤包括：

UR值获取步骤，在该步骤中，获取每个染色体窗口的UR值；

第二低质量数据过滤步骤，在该步骤中，过滤低于UR设定值的染色体窗口；

矫正步骤，在该步骤中，利用LOWESS方法基于GC含量对经第二低质量数据过滤组件过滤剩余的染色体窗口进行GC矫正以获得残差；

第一特征获取步骤，在该步骤中，将残差标准化以获得每一条染色体相对于所有染色体的第一特征。

25.根据项24所述的步骤，其中，所述性染色体特征测定步骤包括：

第二特征获取步骤，在该步骤中，获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征；

第三特征获取步骤，在该步骤中，获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征；

26.根据项25所述的步骤，其中，所述去极值处理是指去掉全部数值中的最大的5％部分与最小的5％部分。

本发明的效果：

本发明提供的装置解决了现有技术中采用的装置所不能解决的问题，即虽然能够检测出某条染色体相对于其他染色体是否有异常，但当所有染色体均发生异常时，如发生三倍体综合征时，就无法将其中某条染色体与其它染色体进行区分。

本发明提供一种在当所有染色体均发生异常时，如发生三倍体综合征时也能够准确地进行判断的染色体异常检测装置。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1为本发明的染色体异常检测装置的整体框架结构图；

图2为本发明一实施例的染色体异常检测装置的框架结构图；

图3为本发明另一实施例的染色体异常检测装置的框架结构图；

图4为本发明另一实施例的染色体异常检测装置的框架结构图；

图5为本发明另一实施例的染色体异常检测装置的框架结构图。

附图标记：1-测序数据获取器，11-第一低质量数据过滤组件，2-参考序列比对器，21-窗口切割器，3-染色体间特征分析器，31-UR值获取组件，32-第二低质量数据过滤组件，33-矫正组件，34-第一特征获取器，4-性染色体特征测定器，41-第二特征获取器，42-第三特征获取器，5-异常特征判定器。

具体实施方式

本发明中涉及如下定义。

通常人类23对染色体，包括22对常染色体和1对性染色体。性染色体由X和X或X和Y染色体组成。

三倍体：是指含有三组染色体的细胞或生物。三倍体生物因难以进行减数***形成配子，故常不育。

高通量测序：高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，以能一次并行对几十万到几百万条DNA分子进行序列测定。

窗口：一般指基因组上的一段固定长度的区域。

Reads：read的复数，read是高通量测序平台产生的一段短测序片段序列。

Unique reads：是指唯一比对到基因组上的reads。在测序过程中，有些reads可以同时比对到基因组多个位置，Unique reads则是从所有非dup的reads中过滤掉这些多处比对的reads，剩下的就是unique reads。

UR值：每个窗口包含的Unique Reads数。

GC含量：在DNA的4种碱基中，鸟嘌呤和胞嘧啶所占的比率称为GC含量。

LOWESS方法：Lowess方法是在指定的窗口之内，每一点的数值都用窗口内临近的数据进行加权回归得到的。

去极值：去除数据中的极端值。

在本发明中，残差是指实际检测值与经过gc修正处理(如Lowess方法处理)得到的估计值(如回归值)的差值。

在本发明中，标准化方法是指Z标准化，也叫标准差标准化，其基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。

每种生物的染色体数目与结构是相对恒定的，但在自然条件或人工因素的影响下，染色体可能发生数目与结构的变化，从而导致生物的变异。染色体畸变包括染色体数目变异和染色体结构变异。

在本文中整倍体畸变是指:人类染色体数目畸变分为整倍体畸变和非整倍体畸变两种类型。整倍体畸变又分为单倍体和多倍体，其中，以三倍体和四倍体较为多见，也是造成自然流产的主要原因之一。整倍体畸变包括三整倍体综合征，如核型为69XXY的三整倍体综合征。

如图1-图5所示，本发明一种染色体异常检测装置，其包括：测序数据获取器1，参考序列比对器2，染色体间特征分析器3，性染色体特征测定器4，和异常特征判定器5。

其中，测序数据获取器1基于DNA样本进行测序以获得所述DNA样本的测序数据。所述DNA样本可以来源于待检测羊水。获取DNA样本及测序可以采用任何已有的技术进行。

在一个优选的实施方式中，如图2所示，测序数据获取器1包括第一低质量数据过滤组件11，第一低质量数据过滤组件11用于对所述DNA样本的测序数据进行过滤以除去所述DNA样本的测序数据中的低质量数据，并且将过滤后的所述DNA样本的测序数据用于与位于下游的参考序列比对器中2的参考序列进行比对。

参考序列比对器2设置在测序数据获取器1的下游，用于将所述测序数据与参考序列进行比对以获得所述DNA样本的染色体数据。其中参考序列是人类基因组序列，例如hg19全基因组参考序列。

在一个优选的实施方式中，如图3所示，参考序列比对器2包括窗口切割器21，所述窗口切割器21用于将参考序列切割成大小相同的窗口，以及将所述染色体数据对应切割为多个染色体窗口。在一个具体的实施方式中，窗口切割器21将参考序列切割成大小相同的窗口，以及将上述得到的染色体数据对应切割为多个染色体窗口。其中，参考序列和染色体数据均切割成多个窗口，每个窗口100kb，且前后每两个窗口重叠50kb。

染色体间特征分析器3位于参考序列比对器2的下游，基于获取的染色体数据，对所述DNA样本的染色体进行染色体间特征分析以获得每一条染色体相对于所有染色体的第一特征。

在一个具体的实施方式中，染色体间特征分析器3获取所述DNA样本的每一条染色体的UR值，以及基于每一条染色体的UR值获取每一条染色体相对于所有染色体的第一特征。优选地，在所述染色体间特征分析器3中，基于UR值以及GC含量通过Lowess方法以及标准化方法获得第一特征。其中，Lowess方法是在指定的窗口之内，每一点的数值都用窗口内临近的数据进行加权回归得到的。

当参考序列比对器2包括窗口切割器21时，在一个优选的实施方式中，如图5所示，染色体间特征分析器3包括UR值获取组件31，第二低质量数据过滤组件32，矫正组件33，以及第一特征获取器34。其中UR值获取组件31获取每个染色体窗口的UR值，第二低质量数据过滤组件32过滤低于UR设定值的染色体窗口。矫正组件33利用LOWESS方法基于GC含量对经第二低质量数据过滤组件32过滤剩余的染色体窗口进行GC矫正以获得残差。第一特征获取器34，用于将残差标准化以获得每一条染色体相对于所有染色体的第一特征。

在一个具体的实施方式中，样本进入到染色体间特征分析器3中，首先利用UR值获取组件31获取每个染色体窗口的UR值，即统计bam文件中落入窗口内的reads数和UniqueReads数。然后计算每条染色体每个窗口的Unique Reads数占总reads数的比值。UR设定值为0.625。如果该比值低于UR设定值，则染色体间特征分析器3中的第二低质量数据过滤组件32将低于UR设定值的窗口过滤掉，染色体间特征分析器3中的矫正组件33利用LOWESS方法基于GC含量对经第二低质量数据过滤组件32过滤剩余的染色体窗口进行GC矫正以获得残差，第一特征获取器34用于将残差标准化以获得每一条染色体相对于其它染色体的第一特征。

性染色体特征测定器4位于参考序列比对器2或染色体间特征分析器3的下游，基于获取的染色体数据，对所述DNA样本的性染色体进行特征测定以获得性染色体相对于常染色体的第二特征，以及Y染色体相对于X染色体的第三特征。

在一个具体的实施方式中，性染色体特征测定器4包括第二特征获取器41和第三特征获取器42。其中，第二特征获取器41用于获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征。第三特征获取器42用于获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征。在一个优选的实施方式中，所述常染色体是1号染色体。

当参考序列比对器2包括窗口切割器21时，在一个优选的实施方式中，性染色体特征测定器4包括第二特征获取器41和第三特征获取器42。其中，第二特征获取器41用于获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征。第三特征获取器42用于获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征。其中性染色体的UR值是指性染色体每个窗口的UR值除去极值之后的总和。常染色体的UR值是指常染色体每个窗口的UR值除去极值之后的总和。X染色体的UR值是指X染色体每个窗口的UR值除去极值之后的总和。以及

Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和。其中，所述去极值处理是指去掉全部数值中的最大的5％部分与最小的5％部分。

在一个具体的实施方式中，第二特征包括X染色体的比例特征和Y染色体的比例特征。其中，X染色体的比例特征为X染色体的UR值与(常染色体的UR值+X染色体的UR值)的比例。在本实施例中，X染色体的UR值是X染色体每个窗口的UR值除去极值之后的总和。Y染色体的比例特征为Y染色体的UR值与(常染色体的UR值+Y染色体的UR值)的比例。第三特征为Y染色体的UR值/(X染色体的UR值+y染色体的UR值)的比例。

其中，X染色体的比例特征和Y染色体的比例特征可以分别或者合并与第三特征值配合使用，用于检测DNA样本的性染色体是否存在异常的情况，特别是当其比例特征在一定阈值范围内时，需要根据这些比例特征判断对经过第一特征判断的常染色体的情况进行调整，如将经过第一特征判断为常染色体二倍体的情况修正为常染色体三倍体。

异常特征判定器5位于染色体间特征分析器3和所述性染色体特征测定器4的下游，基于第一特征、第二特征和第三特征来判定所述DNA样本是否存在染色体异常，以及基于第二特征和/或第三特征判定所述DNA样本是否存在整倍体畸变，即判定所述DNA样本是否存在染色体异常需要基于第一特征、第二特征和第三特征三个特征，而判定所述DNA样本是否存在整倍体畸变则基于第二特征和第三特征两个特征。

在一个具体的实施方式中，在异常特征判定器5中，基于所述第一特征判定每一条常染色体的数目；基于所述第三特征判定Y染色体的数目；基于所述第二特征判定X染色体的数目，以及基于所述第二特征和/或所述第三特征对常染色体的数目进行修正，从而判定所述DNA样本是否存在染色体异常以及所述DNA样本是否存在整倍体畸变。

在一个具体的实施方式中，判定过程如下：

(1)针对Y染色体

如果第三特征值<0.03且Y染色体的第一特征值<-3，则判断Y染色体为0倍体；

如果第三特征值>0.125且Y染色体的第一特征值>3，则判断Y染色体为二倍体；

其他情况判断Y染色体为一倍体。

(2)针对X染色体

如果第二特征值<0.275,则判断X染色体为一倍体，其他常染色体基于第一特征值的判断不变；

如果第二特征值>0.425，则判断X染色体为三倍体，其他常染色体基于第一特征值的判断不变；

如果第二特征值在0.275和0.425之间的时候，则判断X染色体是二倍体。进一步，如果第二特征值>＝0.275且第二特征值<0.32时，则判断X是二倍体，其他常染色体需要修正为三倍体。

(3)针对常染色体1-22

如果第一特征值<＝-1.5则为单倍体；

如果第一特征值>＝1.5则为三倍体，

其余情况为二倍体。

本发明还提供一种染色体异常检测方法，其包括：

在一个具体的实施方式中，所述参考序列比对步骤还包括窗口切割步骤，在该步骤中，将参考序列切割成大小相同的窗口，以及将所述染色体数据对应切割为多个染色体窗口。

进一步地，在一个具体的实施方式中，所述染色体间特征分析步骤包括：UR值获取步骤，在该步骤中，获取每个染色体窗口的UR值；第二低质量数据过滤步骤，在该步骤中，过滤低于UR设定值的染色体窗口；矫正步骤，在该步骤中，利用LOWESS方法基于GC含量对经第二低质量数据过滤组件过滤剩余的染色体窗口进行GC矫正以获得残差；第一特征获取步骤，在该步骤中，将残差标准化以获得每一条染色体相对于所有染色体的第一特征。

更进一步地，在一个具体的实施方式中，所述性染色体特征测定步骤包括：第二特征获取步骤，在该步骤中，获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征；第三特征获取步骤，在该步骤中，获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征；其中性染色体的UR值是指性染色体每个窗口的UR值除去极值之后的总和；常染色体的UR值是指常染色体每个窗口的UR值除去极值之后的总和；X染色体的UR值是指X染色体每个窗口的UR值除去极值之后的总和；以及Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和。

在一个具体的实施方式中，所述去极值处理是指去掉全部数值中的最大的5％部分与最小的5％部分。

在一个具体的实施方式中，所述测序数据获取步骤包括第一低质量数据过滤步骤，在该步骤中，对所述DNA样本的测序数据进行过滤以除去所述DNA样本的测序数据中的低质量数据，并且将过滤后的所述DNA样本的测序数据用于与所述参考序列比对器中的参考序列进行比对。

在一个具体的实施方式中，在所述染色体间特征分析步骤中，获取所述DNA样本的每一条染色体的UR值，以及基于每一条染色体的UR值获取每一条染色体相对于所有染色体的第一特征。

进一步地，在所述染色体间特征分析步骤中，基于UR值以及GC含量通过Lowess方法以及标准化方法获得第一特征。

在一个具体的实施方式中，所述性染色体特征测定步骤还包括：第二特征获取步骤，在该步骤中，获取性染色体的UR值相对于任一条常染色体和性染色体的UR值之和的比例，即第二特征；第三特征获取步骤，在该步骤中，获取Y染色体的UR值相对于X染色体和Y染色体UR值之和的比例，即第三特征。进一步地，所述常染色体是1号染色体。

在一个具体的实施方式中，在所述异常特征判定步骤中，基于所述第一特征判定每一条常染色体的数目；基于所述第三特征判定Y染色体的数目；

基于所述第二特征判定X染色体的数目，以及基于所述第二特征和/或所述第三特征对常染色体的数目进行修正，从而判定所述DNA样本是否存在染色体异常以及所述DNA样本是否存在整倍体畸变。

在一个具体的实施方式中，所述方法还包括校正步骤，在该步骤中，基于所述装置的检测结果对所述第二特征和/第三特征进行调整。

本发明提供的装置可以获得第一特征、第二特征和第三特征，并基于第一特征、第二特征和第三特征来判定DNA样本是否存在染色体异常，基于第二特征和/或第三特征判定DNA样本是否存在性染色体异常，以及根据第二特征和/或第三特征修正第一特征对常染色体异常的检测结果。如当常染色体发生整倍体畸变时，根据第二特征和/或第三特征能够对第一特征确定的常染色体异常的检测结果进行修正，从而准确判断是否存在整倍体畸变。

实施例

以下给出实施例，对本发明进行更具体的说明，但本发明不限于这些实施例。

对一例经染色体显带实验检测核型为69,XXY的流产组织样本，通过本新型提供的装置进行检测。

从上述流产组织样本中提取DNA样本，将该提取的DNA样本放入染色体异常检测装置中。

在该装置中，第一步利用测序数据获取器1基于上述提取的DNA样本进行测序以获得该DNA样本的测序数据。

详细来说在测序数据获取器1中，首先获得了原始的下机数据，即fastq文件形式存储的数据。测序数据获取器1包括第一低质量数据过滤组件11，可以对该原始的fastq形式存储的文件进行过滤以去除低质量数据，低质量数据只是接头序列，过短序列，高比例N序列等对检测有负面影响的数据。，得到经过滤后的DNA样本的测序数据。

然后在该装置中，利用位于测序数据获取器1下游的参考序列比对器2(bwa对比器)将经过过滤后的测序数据(经处理的fastq文件)与参考序列，即hg19全基因组进行比对，从而获得了DNA样本的染色体数据。在参考序列比对器2中，在进行比对的时候，先去除掉bam文件中由PCR造成的重复。

同时还利用参考序列比对器2中的窗口切割器21将参考序列切割成大小相同的窗口，以及将上述得到的染色体数据对应切割为多个染色体窗口。其中，参考序列和染色体数据均切割成多个窗口，每个窗口100kb，且前后每两个窗口重叠50kb。

然后，样本进入到染色体间特征分析器3中，首先利用UR值获取组件31获取每个染色体窗口的UR值，即统计bam文件中落入窗口内的reads数和Unique Reads数。然后计算每条染色体每个窗口的Unique Reads数占总reads数的比值。在本实施例中，UR设定值为0.625。

如果该比值低于UR设定值，则染色体间特征分析器3中的第二低质量数据过滤组件32将低于UR设定值的窗口过滤掉，染色体间特征分析器3中的矫正组件33利用LOWESS方法基于GC含量对经第二低质量数据过滤组件32过滤剩余的染色体窗口进行GC矫正以获得残差，第一特征获取器34用于将残差标准化以获得每一条染色体相对于其它染色体的第一特征。

基于上述的处理，获得的每条染色体的第一特征如表1所示：

表1

染色体	xploid	Z1(第一特征)
			chr1	Diploid	0.243453
chr2	Diploid	0.254678
			chr3	Diploid	0.195764
chr4	Diploid	-0.03261
			chr5	Diploid	0.249682
chr6	Diploid	0.203638
			chr7	Diploid	0.23647
chr8	Diploid	0.06719
			chr9	Diploid	0.152058
chr10	Diploid	0.18946
			chr11	Diploid	0.18284
chr12	Diploid	0.066156
			chr13	Diploid	-0.03719
chr14	Diploid	0.104728
			chr15	Diploid	0.188485
chr16	Diploid	-0.19674
			chr17	Diploid	-0.06965
chr18	Diploid	-0.01094
			chr19	Diploid	-0.50583
chr20	Diploid	0.349064
			chr21	Diploid	0.111789
chr22	Diploid	-0.0169
			chrX	Diploid	-4.27922
chrY	Haploid	-9.07163

随后，在性染色体特征测定器4中，基于获取的染色体数据，对所述DNA样本的性染色体进行特征测定以获得性染色体相对于常染色体的第二特征，以及Y染色体相对于X染色体的第三特征。

其中，第二特征获取器41用于获取性染色体的UR值相对于1号常染色体和性染色体的UR值的比例。

其中，第二特征包括X染色体的比例特征和Y染色体的比例特征。

计算公式如下：

X染色体的比例特征＝X染色体的UR值/(常染色体的UR值+X染色体的UR值)在本实施例中，X染色体的UR值是X染色体每个窗口的UR值除去极值之后的总和。

在本实施例中，常染色体的UR值是指常染色体每个窗口的UR值除去极值之后的总和，其中常染色体采用的是1号染色体。其中，去极值，即去掉所有数值中最大的5％和最小的5％的值，然后对于剩下的每个窗口的UR值进行加和。

Y染色体的比例特征＝Y染色体的UR值/(常染色体的UR值+Y染色体的UR值)

在本实施例中，常染色体的UR值是指常染色体每个窗口的UR值除去极值之后的总和，其中常染色体采用的是1号染色体。Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和。其中，去极值，即去掉所有数值中最大的5％和最小的5％的值，然后对于剩下的每个窗口的UR值进行加和。

第三特征＝Y染色体的UR值/(X染色体的UR值+y染色体的UR值)

在本实施例中，X染色体的UR值是指X染色体每个窗口的UR值除去极值之后的总和，Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和。其中，去极值，即去掉所有数值中最大的5％和最小的5％的值，然后对于剩下的每个窗口的UR值进行加和。

基于上述的处理，获得的性染色体的X染色体的比例特征和Y染色体的比例特征和第三特征如表2：

表2

类型	比例
		第三特征	0.049662
Y染色体的比例特征	0.021216
		X染色体的比例特征	0.293184

然后，上述计算的结果进入异常特征判定器5，其基于第一特征值、第二特征值和第三特征值来判定所述DNA样本是否存在染色体异常，以及基于第二特征值和/或第三特征值判定所述DNA样本是否存在整倍体畸变。

判断过程如下：

(1)针对Y染色体

其他情况判断Y染色体为一倍体。

(2)针对X染色体

(3)针对常染色体1-22

如果第一特征值<＝-1.5则为单倍体；

如果第一特征值>＝1.5则为三倍体，

其余情况为二倍体。

通过第二特征值和第三特征对第一特征进行修正，获得的检测结果如表3：

表3

染色体	xploid
		chr1	Triploid
chr2	Triploid
		chr3	Triploid
chr4	Triploid
		chr5	Triploid
chr6	Triploid
		chr7	Triploid
chr8	Triploid
		chr9	Triploid
chr10	Triploid
		chr11	Triploid
chr12	Triploid
		chr13	Triploid
chr14	Triploid
		chr15	Triploid
chr16	Triploid
		chr17	Triploid
chr18	Triploid
		chr19	Triploid
chr20	Triploid
		chr21	Triploid
chr22	Triploid
		chrX	Diploid
chrY	Haploid

上述表1-表3中，Xploid为倍体数目，Triploid为三倍体，Diploid为二倍体，Haploid为单倍体。

由表3检测结果可见，本实施例的装置将由仅通过Z值判定核型为47,XXY(表1)修正为69,XXY(表3)。

Claims

1.一种染色体异常检测装置，其包括：

异常特征判定器，所述异常特征判定器基于第一特征、第二特征和第三特征来判定所述DNA样本是否存在染色体异常，以及基于第二特征和/或第三特征判定所述DNA样本是否存在整倍体畸变；

其中，

所述参考序列比对器包括窗口切割器，所述窗口切割器用于将参考序列切割成大小相同的窗口，以及将所述染色体数据对应切割为多个染色体窗口；

所述染色体间特征分析器包括：

第一特征获取器，用于将残差标准化以获得每一条染色体相对于所有染色体的第一特征；

所述染色体间特征分析器获取所述DNA样本的每一条染色体的UR值，以及基于每一条染色体的UR值获取每一条染色体相对于所有染色体的第一特征；

所述性染色体特征测定器包括：

Y染色体的UR值是指Y染色体每个窗口的UR值除去极值之后的总和；

在所述异常特征判定器中，

基于所述第一特征判定每一条常染色体的数目；

基于所述第三特征判定Y染色体的数目；

基于所述第二特征判定X染色体的数目，以及

从而判定所述DNA样本是否存在染色体异常以及所述DNA样本是否存在整倍体畸变；

所述第一特征值小于等于-1.5则判定常染色体为单倍体；

所述第一特征值大于等于1.5则判定常染色体为三倍体；

其余情况判定常染色体为二倍体；

所述第三特征值<0.03且Y染色体的第一特征值<-3，则判断Y染色体为0倍体；

所述第三特征值>0.125且Y染色体的第一特征值>3，则判断Y染色体为二倍体；

其他情况判断Y染色体为一倍体；

所述第二特征值<0.275,则判断X染色体为一倍体，其他常染色体基于第一特征值的判断不变；

所述第二特征值>0.425，则判断X染色体为三倍体，其他常染色体基于第一特征值的判断不变；

所述第二特征值在0.275和0.425之间的时候，则判断X染色体是二倍体，进一步，所述第二特征值>＝0.275且第二特征值<0.32时，则判断X是二倍体，其他常染色体需要修正为三倍体。

2.根据权利要求1所述的装置，其中，所述参考序列比对器为bwa对比器。

3.根据权利要求1所述的装置，其中，所述测序数据获取器包括第一低质量数据过滤组件，所述第一低质量数据过滤组件用于对所述DNA样本的测序数据进行过滤以除去所述DNA样本的测序数据中的低质量数据，并且将过滤后的所述DNA样本的测序数据用于与所述的参考序列比对器中的参考序列进行比对。

4.根据权利要求1所述的装置，在所述染色体间特征分析器中，基于UR值以及GC含量通过Lowess方法以及标准化方法获得第一特征。

5.根据权利要求1所述的装置，其中，所述常染色体是1号染色体。

6.根据权利要求1所述的装置，其中，所述DNA样本来源于待检测羊水。

7.根据权利要求1所述的装置，其中，所述装置还包括校正组件，所述校正组件基于所述装置的检测结果对所述第二特征和/第三特征进行调整。

8.根据权利要求1所述的装置，其中，所述除去极值是指去掉全部数值中的最大的5％部分与最小的5％部分。