CN111226281A

CN111226281A - 确定染色体非整倍性、构建分类模型的方法和装置

Info

Publication number: CN111226281A
Application number: CN201980004859.0A
Authority: CN
Inventors: 张红云; 袁玉英; 柴相花; 周丽君; 王梦杰; 刘强; 尹烨
Original assignee: Shenzhen Huada Clinic Examination Center
Current assignee: Shenzhen Huada Clinic Examination Center
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-06-02
Anticipated expiration: 2039-12-31
Also published as: AU2019480813B2; KR20220122596A; AU2019480813A1; US20220336047A1; CN111226281B; EP4086356A1; WO2021134513A1; IL277746A; EP4086356A4; AU2019480813A8; JP2023517155A; CA3141362A1; JP7467504B2

Abstract

本发明提供了一种确定胎儿是否存在染色体非整倍性的方法。根据本发明的实施例，该方法包括：(1)获取来自孕妇样本的核酸测序数据；(2)基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度；(3)基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征；和(4)基于所述第一特征和第二特征，利用对照样本的相应数据，确定所述胎儿针对所述待测染色体是否存在非整倍性，其中，所述对照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。

Description

确定染色体非整倍性、构建分类模型的方法和装置

技术领域

本发明涉及生物技术领域，特别是无创产前基因检测，具体地涉及确定染色体非整倍性的方法和装置以及相应的构建机器学习分类模型的方法和装置。

背景技术

产前筛查方法通常分为两大类，即创伤性方法(也可称之为产前诊断)和非创伤性方法。前者主要包括羊膜腔穿刺、绒毛取样、脐血取样等；后者包括超声波检查、母体外周血清标志物测定和胎儿细胞检测等。通过如绒毛膜绒毛取样(CVS)或羊膜穿刺术等创伤性方法，获得从胎儿处分离得到的细胞，可以利用这些细胞进行常规产前诊断。虽然用这种方法来诊断胎儿非整倍体的准确性较高，但是这些常规的方法是侵入性的，对于孕妇和胎儿都具有一定的危险性。

常规的非创伤性筛查方法，例如产前血清学筛查等方法通常准确性较低。

Dennis Lo等人在母体血浆和血清中发现有非细胞的游离胎儿DNA，为无创产前筛查(NIPT)提供了新思路。无创性产前筛查主要是利用高通量测序技术分析方法对孕妇外周血中胎儿的游离DNA进行分析，以评估胎儿常见染色体非整倍性异常风险。目前筛查范围常见的是21号染色体非整倍性(T21)、18号染色体非整倍性(T18)、13号染色体非整倍性(T13)和性染色体。

基于高通量测序技术，采用孕妇外周血中胎儿游离DNA进行胎儿常见染色体非整倍性检测的现有常见技术如下：

1、基于测序序列数定量的方法进行NIPT：该方法的主要原理是采用比对软件将测序序列(read，有时也称为“测序读段”)定位到预先划定的窗口内，再利用适当的方法对待检染色体进行非整倍性检测。

2、基于单核苷酸多态性(SNP)的方法进行NIPT：该方法的主要原理是依据预先确定的SNP位点区域，分别对父母双方基因组DNA和胎儿游离DNA进行捕获测序，从而利用父母和胎儿的基因型信息采用贝叶斯模型进行待检染色体非整倍性检测。

3、基于DNA片段大小的方法进行NIPT：该方法的主要思想是利用双端(PE，paired-end)测序技术，基于胎儿游离DNA片段与母体DNA片段之间的分布差异特性专门提取胎儿游离DNA片段，最后采用Z检验基于参照样本对待检染色体进行非整倍性检测。

然而，这些现有的无创产前诊断方法各有相应的缺点，为了方便理解，特总结在下表中：

因此，目前通过无创手段确定染色体非整倍性的方法仍有待改进。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明的一个目的在于提出一种能够有效地确定染色体非整倍性的方法。

根据本发明的一个方面，本发明提供了一种确定胎儿是否存在染色体非整倍性的方法，根据本发明的实施例，该方法包括：(1)获取来自孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成；(2)基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；(3)基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征；和(4)基于所述第一特征和第二特征，利用对照样本的相应数据，确定所述胎儿针对所述待测染色体是否存在非整倍性，其中，所述对照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。

通过该方法能够有效地确定胎儿针对待测染色体是否具有非整倍性，另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

根据本发明的实施例，上述方法还可以具有下列附加技术特征：

根据本发明的实施例，所述孕妇样本包括孕妇外周血。

根据本发明的实施例，所述核酸测序样本是通过双末端测序、单末端测序或者单分子测序获得的。

根据本发明的实施例，所述胎儿浓度是通过下列步骤确定的：(a)将来自所述孕妇样本的所述核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和(b)基于所述落入预定窗口的测序读段的数目，确定所述孕妇样本的胎儿浓度。

根据本发明的实施例，在步骤(2)中，所述第一比较染色体的测序读段数目为多条常染色体的平均测序读段数目，所述多条常染色体包括至少一个已知不具有非整倍性的常染色体。

根据本发明的实施例，在步骤(2)中，所述第一比较染色体的测序读段数目为至少15条常染色体的平均测序读段数目，可选的，第一比较染色体的测序读段数目为至少20条常染色体的平均测序读段数目，可选的，第一比较染色体的测序读段数目为全部常染色体的平均测序读段数目。

根据本发明的实施例，反估浓度是按照下列公式确定的：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示所述多条常染色体的平均测序读段数目，和

Rj表示第j号染色体的测序读段数目。

根据本发明的实施例，在步骤(3)中，基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度平均值的差异确定第一特征。

根据本发明的实施例，所述第二比较染色体包含至少10条常染色体。

根据本发明的实施例，所述第二比较染色体包含15条常染色体。

根据本发明的实施例，进一步包括：确定多条常染色体的所述反估浓度；和按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。

根据本发明的实施例，所述第一特征是通过下列公式确定的：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fr表示所述第二比较染色体的反估浓度平均值。

根据本发明的实施例，所述第二特征是通过下列公式确定的：

其中

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fa表示所述胎儿浓度。

根据本发明的实施例，在进行步骤(4)之前，所述第一特征和所述第二特征进行标准化处理，以便所述第一特征和所述第二特征的绝对值分别独立地处于0～1之间。

根据本发明的实施例，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例不低于1：4。

根据本发明的实施例，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例不超过4：1。

根据本发明的实施例，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例为1:0.1～5。

根据本发明的实施例，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例为1:0.25～4。

根据本发明的实施例，所述阳性样本和所述阴性样本针对所述待测染色体以外的其他染色体均不存在非整倍性。

根据本发明的实施例，在步骤(4)中，采用所述第一特征和所述第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由所述二维特征向量确定的样本间距离，将所述孕妇样本在所述阳性对照样本和所述阴性对照样本之间进行归类，以便确定所述胎儿针对所述待测染色体是否存在非整倍性。

根据本发明的实施例，所述距离为欧几里得距离、曼哈顿距离或切比雪夫距离。

根据本发明的实施例，在步骤(4)中，进一步包括：(4-1)分别计算所述孕妇样本与所述对照样本之间的距离；(4-2)将所得到的所述距离进行排序，所述排序基于由小到大的顺序；(4-3)基于所述排序，从小到大选择预定数量的对照样本；(4-4)分别确定所述预定数量的所述对照样本中阳性样本和阴性样本的数目；(4-5)基于多数决策法，确定将所述孕妇样本的归类结果。

根据本发明的实施例，所述预定数量为不超过20。

根据本发明的实施例，所述预定数量为3～10。

根据本发明的实施例，在步骤(4-2)中，在进行所述排序之前，预先对所述待测样本与预定所述对照样本之间的距离进行加权处理。

在本发明的第二方面，本发明提供了一种确定胎儿是否存在染色体非整倍性的装置，其特征在于，包括：数据获取模块，用于获取来自孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成；胎儿浓度-反估浓度确定模块，用于基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；特征确定模块，用于基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征；和非整倍性确定模块，用于基于所述第一特征和第二特征，利用对照样本的相应数据，确定所述孕妇的胎儿针对所述待测染色体是否存在非整倍性，其中，所述对照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。利用根据本发明的实施例的确定胎儿是否存在染色体非整倍性的装置，能够有效地实施前面所描述的确定胎儿是否存在染色体非整倍性的方法，从而能够有效地确定胎儿针对待测染色体是否存在非整倍性。另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

根据本发明的实施例，上述装置还可以具有下列附加技术特征：

根据本发明的实施例，所述胎儿浓度-反估浓度确定模块包括：比对单元，用于将来自所述孕妇样本的所述核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和胎儿浓度计算单元，用于基于所述落入预定窗口的测序读段的数目，确定所述孕妇样本的胎儿浓度。

根据本发明的实施例，所述胎儿浓度-反估浓度确定模块包括：反估浓度计算单元，用于按照下列公式确定所述反估浓度：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示所述多条常染色体的平均测序读段数目，和

Rj表示第j号染色体的测序读段数目。

根据本发明的实施例，所述胎儿浓度-反估浓度确定模块包括：第二比较染色体确定单元用于将多条常染色体的所述反估浓度按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。

根据本发明的实施例，所述特征确定模块包括：

第一特征确定单元，用于通过下列公式确定所述第一特征：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fr表示所述第二比较染色体的反估浓度平均值。

根据本发明的实施例，所述特征确定模块包括：第二特征确定单元，用于通过下列公式确定所述第二特征：

其中

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fa表示所述胎儿浓度。

根据本发明的实施例，所述特征确定模块包括：标准化处理单元，用于对所述第一特征和所述第二特征进行标准化处理，以便所述第一特征和所述第二特征的绝对值分别独立地处于0～1之间。

根据本发明的实施例，所述非整倍性确定模块用于采用所述第一特征和所述第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由所述二维特征向量确定的样本间距离，将所述孕妇样本在所述阳性对照样本和所述阴性对照样本之间进行归类，以便确定所述胎儿针对所述待测染色体是否存在非整倍性。

根据本发明的实施例，所述非整倍性确定模块用于采用k-近邻模型确定将所述孕妇样本的归类结果。

根据本发明的实施例，所述k-近邻模型采用的K值为不超过20。

根据本发明的实施例，所述k-近邻模型采用的K值为3～10。

根据本发明的实施例，所述k-近邻模型中，对所述样本间距离进行加权处理。

在本发明的第三方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前面所述确定胎儿是否存在染色体非整倍性的方法的步骤。由此，能够有效地实施前面所描述的确定胎儿是否存在染色体非整倍性的方法，从而能够有效地确定胎儿针对待测染色体是否存在非整倍性。另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

在本发明的第四方面，本发明提出了一种电子设备，其包括：前面所述的计算机可读存储介质；以及一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。由此，能够有效地实施前面所描述的确定胎儿是否存在染色体非整倍性的方法，从而能够有效地确定胎儿针对待测染色体是否存在非整倍性。另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

在本发明的第五方面，本发明提出了一种构建机器学习分类模型的方法，根据本发明的实施例，该方法包括：(a)针对多个孕妇样本的每一个分别进行：获取来自所述孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成，所述孕妇样本包括至少一个阳性样本和至少一个阴性样本，所述阳性样本针对待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性；基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；和基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征，(b)将所述多个孕妇样本作为样本，利用所述样本的第一特征和第二特征，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。利用该方法，根据本发明的实施例，能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。

根据本发明的实施例，所述机器学习分类模型为KNN模型。

根据本发明的实施例，所述KNN模型采用欧几里得距离。

在本发明的第六方面，本发明提供了一种构建机器学习分类模型的装置，其包括：特征获取模块，用于针对多个孕妇样本的每一个分别进行：获取来自所述孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成，所述孕妇样本包括至少一个阳性样本和至少一个阴性样本，所述阳性样本针对待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性；基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；和基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征，训练模块，用于将所述多个孕妇样本作为样本，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。利用该装置能够有效地实施前面所述的构建机器学习分类模型的方法，从而能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。

根据本发明的实施例，所述机器学习分类模型为KNN模型。

在本发明的第七方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求前面所述用于构建机器学习分类方法的步骤。由此，可以有效地实施前面所述的构建机器学习分类模型的方法，从而能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1显示了根据本发明一个实施例的确定胎儿是否存在染色体非整倍性的方法的流程示意图；

图2显示了根据本发明一个实施例的确定胎儿浓度的方法的流程示意图；

图3显示了根据本发明一个实施例的对孕妇样本进行归类的方法的流程示意图；

图4显示了根据本发明一个实施例的确定胎儿是否存在染色体非整倍性的装置的框图；

图5显示了根据本发明一个实施例的胎儿浓度-反估浓度确定模块的框图；

图6显示了根据本发明一个实施例的特征确定模块的框图；

图7显示了根据本发明一个实施例的构建机器学习分类模型的框图；

图8和9显示了根据本发明一个实施例利用KNN模型对T21检测时参数k对应的ROC曲线；

图10和11显示了根据本发明一个实施例利用KNN模型对T18检测时参数k对应的ROC曲线；和

图12和13显示了根据本发明一个实施例利用KNN模型对T13检测时参数k对应的ROC曲线。

具体实施方式

下面详细描述本发明的实施例。下面描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。需要说明的是，本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

根据本发明的一个方面，本发明提供了一种确定胎儿是否存在染色体非整倍性的方法。下面通过参考图1～3，对根据本发明实施例的确定胎儿是否存在染色体非整倍性的方法进行详细描述。

参考图1，根据本发明的实施例，该确定胎儿是否存在染色体非整倍性的方法包括：

S100：获取来自孕妇样本的核酸测序数据

根据本发明的实施例，在该步骤中，首先获取来自孕妇样本的核酸测序数据，该孕妇样本含有胎儿游离核酸，例如根据本发明的实施例，可以采用的孕妇样本包括但不限于孕妇外周血。如前所述，Dennis Lo等人在母体血浆和血清中发现有非细胞的游离胎儿DNA，为无创产前诊断(NIPT)提供了新思路。通过采用孕妇外周血，不会对对孕妇造成创伤，避免了由于取样而造成的流产风险。根据本发明的实施例，在获取孕妇样本，例如孕妇外周血，可以对这些样本进行核酸测序，以便获得该孕妇样本的核酸测序数据，通常，该核酸测序数据是由多个或者大量测序读段(read)构成的。根据本发明的实施例，对孕妇样本的核酸分子进行测序的方法并不受特别限制，具体的，可以采用本领域技术人员已知的任何测序方法，例如包括但不限于通过双末端测序、单末端测序或者单分子测序对孕妇样本的核酸分子进行测序。

本领域技术人员能够理解的是，在获得核酸测序数据之后，可以根据质控标准，对所得到的由大量测序读段构成的测序数据进行过滤和筛选处理，除去存在测序质量问题的测序读段，从而可以提高后续数据分析的准确性。

S200确定反估浓度和胎儿浓度

获取来自孕妇样本的核酸测序数据之后，通过对核酸测序数据的测序读段数目进行分析，可以确定该孕妇样本的胎儿浓度以及特定染色体的反估浓度。

根据本发明的实施例，胎儿浓度是指孕妇样本，例如外周血中的游离核酸中，来自胎儿的游离核酸的数目占总游离核酸数目的比例。通常，该胎儿浓度的数值会随着孕周的增加而提高，例如，在第12孕周左右时，胎儿游离核酸(有时直接称为“胎儿游离DNA”)占总游离核酸的比例(即“胎儿浓度”)可以达到10～14％，在第20孕周之后，这个比例可以达到20％以上。当胎儿存在异常状况，例如存在染色体非整倍性时，胎儿浓度会出现异常。由此，胎儿浓度可以作为表征孕妇样本的一个重要指标。

本领域技术人员能够通过各种已知的方法获取孕妇样本中的胎儿浓度数据。例如，根据本发明的一个实施例，可以采用包括但不限于Y染色体估算法、基于SNP的胎儿特异SNP位点法、基于核小体印迹法等方法。然而，本发明的发明人发现，这些方法均有其局限性，例如Y染色体估算法不适用于女性胎儿，基于SNP的胎儿特异SNP位点法需要获取父亲的DNA样本(有时这些样本是比较难以获得的)，基于核小体印迹法的准确性差同时在构建模型时需要进行深度测序。

参考图2，根据本发明的实施例，可以通过下列步骤确定核酸样本中的胎儿浓度，具体的，包括：

S210：将来自孕妇样本的核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和

S220：基于所述落入预定窗口的测序读段的数目，确定所述孕妇样本的胎儿浓度。

该确定胎儿浓度的方法是基于特定窗口(即一定长度的核酸序列)中的测序读段数目，是与胎儿浓度呈正相关的。因此，通过确定至少一个预定窗口的测序读段的数目，可以反推获得孕妇样本的胎儿浓度，例如加权平均的方式。该预定窗口可以通过统计学的手段或者机器学习的手段进行确定。根据本发明的实施例，预定窗口是通过对参考基因组序列的特定染色体进行连续划分而获得的，进一步利用各预定窗口的权重，确定胎儿浓度。根据本发明的一些具体示例，各预定窗口的权重是通过利用训练样品预先确定的。由此，结果准确可靠，可重复性好。

根据本发明的实施例，权重是利用岭回归统计模型和神经网络模型的至少之一确定的。根据本发明的一些实施例，所述神经网络模型采用TesnsorFlow学习***。根据本发明的一些具体示例，所述TesnsorFlow学习***的参数包括：采用常染色体的各窗口的测序数据数目作为输入层；采用胎儿浓度作为输出层；神经元类型采用ReLu；优化算法采用选自Adam、SGD和Ftrl的至少之一；优选Ftrl。优选地，Tesnsor Flow学习***的参数进一步包括：学习速率设置为0.002；隐藏层的层数为1；隐藏层中神经元数为200。由此，结果准确可靠。需要说明的是，本文中所使用的术语“权重”是一个相对的概念，针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。例如，某一个“预定窗口的权重”指某一个预订窗口在所有预定窗口中的相对重要程度。某一个“连接权重”指某一个两个不同层连接在所有两个不同层连接中的相对重要程度。

关于该确定胎儿浓度的方法，PCT/CN2018/07204(发明名称：确定生物样本中预定来源的游离核酸比例的方法及装置)有详细的介绍，在此不再赘述，在此将该申请的全文以引用的方式全文并入。通过该方法能够简单、快捷、准确地获得胎儿浓度数据，同时，所获得的胎儿浓度数据能够更有效的应用于本发明的方法，用于确定胎儿是否存在染色体非整倍性。

另外，获取来自孕妇样本的核酸测序数据之后，不仅可以确定胎儿浓度，还可以进一步确定预定染色体的反估浓度。

在本文中所使用的术语“反估浓度”是指表征特定染色体的DNA含量与正常染色体的DNA含量之间差异的量度，具体的，可以用特定染色体的测序读段数目与正常染色体的测序读段数目的差异来进行表示。例如，理想状态下，对于存在三体的染色体，其反估浓度为表征多余的一条染色体的DNA含量的量，对于正常染色体，则因为没有多余出来的染色体，所以其反估浓度为0.

因本文主要集中于染色体非整倍性的分析，因此，在本文中所使用的术语“正常染色体”是指不存在染色体非整倍性的染色体，而不意味着该染色体不存在其他的异常状况。

另外，在本文中，多次提到表达方式“……的测序读段数目”，例如“正常染色体的测序读段数目”，“特定染色体的测序读段数目”，“落入预定对的测序读段数目”等，其含义是指能够与该区域匹配的测序读段数目，例如将核酸测序结果与参考序列例如hg19进行比对，例如采用常规软件如SOAP等进行比对时，能够与特定的区域比对的测序读段，则被认定为该区域的测序读段。另外，根据本发明的实施例，还可以仅选择“唯一比对测序读段”作为落入特定区域的测序读段，即仅能够与参考序列的一个位置比对上的测序读段。进一步，考虑到测序时有可能存在测序设备受到某些因素的影响造成测序倾向性偏差，例如由于GC含量的影响，可以对所得到的测序读段数目进行校正，例如通过GC含量进行校正，具体的，例如，根据本发明的实施例，确定经过校正的测序读段数目的步骤包括：

将参考序列例如人基因组(GRCh37)划分出多个窗口，利用bwa(0.7.7-r441)把高通量测序后的测序读段与人类参考基因组(GRCh37)进行比对，统计测序读段比对到每条染色体上的每个窗口内的信息，即每个窗口内的测序读段数目，记第i个窗口内的测序读段数目为URi，记参考基因组在第i个窗口的GC含量为GCi。将各窗口的测序读段数目和GC含量进行拟合，并基于拟合系数对原窗口内的测序读段数目进行校正，记第i个窗口GC校正后的有效序列数为URAi。

由此，通过选择唯一比对测序读段和进行GC含量校正处理，能够有效地提高测序数据分析的准确性和精确性。

如前所述，“反估浓度”是指表征特定染色体的DNA含量与正常染色体的DNA含量之间差异的量度，因此，该反估浓度可以作为表征孕妇样本的一个重要指标。根据本发明的实施例，反估浓度是基于预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的。

这里所使用的术语“预定染色体”包括待测染色体，即需要确定其是否存在非整倍性的染色体，另外，预定染色体还包括第二比较染色体，根据本发明的实施例，第二比较染色体包括至少一条常染色体。需要说明的是，反估浓度是针对预定染色体的每一条分别进行计算的，因此针对待测染色体和第二比较染色体的每一条，会分别得到与该染色体对应的反估浓度。另外，需要说明的是，对于第一比较染色体和第二比较染色体与待测染色体均来源于相同的样本，而不是采用其他样本的数据进行分析。

根据本发明的实施例，第二比较染色体包含至少10条常染色体。根据本发明的实施例，第二比较染色体包含15条常染色体。另外，如前所述，反估浓度可以作为表征染色体是否存在异常的一个指标，因此，可以通过借助反估浓度来进行第二比较染色体的选择。根据本发明的实施例，进一步包括：确定多条常染色体的所述反估浓度；和按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。根据前面所描述的，反估浓度越小说明该染色体作为正常染色体的概率越高。例如，通过将所有常染色体按照反估浓度(可以采用绝对反估浓度的绝对值)由小至大进行排序，然后选择反估浓度比较小的排位前15的常染色体做第二比较染色体。由此，可以在不确定染色体非整倍性状态的前提下，选择合适的常染色体作为第二比较染色体。当然，本领域技术人员能够理解，在实践中可以通过经验确定其染色体数目是否存在异常的情形，例如通过统计分析发现某些染色体几乎不存在非整倍性，由此，可以将这些染色体作为第二比较染色体。

另外，关于第一比较染色体，如前所述，反估浓度是希望表征特征染色体与正常染色体之间的差异，因此，根据本发明的实施例，第一比较染色体包括至少一个不同于所述预定染色体的常染色体。需要说明的是，这里所说的第一比较染色体和第二比较染色体可能是由交叉的，具体的，在进行反估浓度计算式，会在预定染色体中选择一个特定的染色体，由此，其余的染色体尽管有可能被“第二比较染色体”的含义所覆盖，但仍属于“不同于预定染色体的常染色体”的概念范围。例如，选定第23号染色体作为待测染色体，第2～5号染色体作为第二比较染色体，则当计算第23号染色体的反估浓度时，第2～5号染色体仍然可以作为第一比较染色体。另外，根据本发明的实施例，第一比较染色体可以包括多条常染色体，在计算反估浓度时，选择其平均测序读段数目即可。这样，可以进一步提高测序数据分析的效率和准确性。根据本发明的实施例，第一比较染色体的测序读段数目为多条常染色体的平均测序读段数目，该多条常染色体包括至少一个已知不具有非整倍性的常染色体。根据本发明的实施例，第一比较染色体的测序读段数目为至少15条常染色体的平均测序读段数目，可选的，第一比较染色体的测序读段数目为至少20条常染色体的平均测序读段数目，可选的，第一比较染色体的测序读段数目为全部常染色体的平均测序读段数目。这样，通过选择多条染色体的平均测序读段数目，可以消除各染色体之间的差异。

根据本发明的实施例，反估浓度是按照下列公式确定的：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示所述多条常染色体的平均测序读段数目，和

Rj表示第j号染色体的测序读段数目。

发明人发现通过该公式计算得到的反估浓度，可以有效地应用于后续的机器学习归类模型。

如前所述，在本步骤中确定的胎儿浓度和反估浓度都受到染色体非整倍性在不同程度上的影响，因此这两个参数可以在后续应用于进行非整倍性的检测。

S300确定第一特征和第二特征

在确定胎儿浓度和反估浓度之后，可以进一步将这些参数作为样本的特征值，从而可以进一步利用机器学习进行分析。

具体的，根据本发明的实施例，通过待测染色体的反估浓度与第二比较染色体的反估浓度的差异确定第一特征，通过前面所确定的测染色体的反估浓度与胎儿浓度的差异确定第二特征。由此，所得到的第一特征和第二特征，均可以视为能够受到非整倍性影响的特征，因此，可以有效地应用于后续分析。根据本发明的实施例，本领域技术人员可以采用多种算法来表征前面所描述的差异，例如通过计算数值的差，数值的比值等。

如前所述，第二比较染色体的反估浓度优选为多条常染色体的平均反估浓度。由此，可以进一步提高分析的效率和准确性。

另外，根据本发明的实施例，第一特征是通过下列公式确定的：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示待测染色体的编号，

Fi表示待测染色体的所述反估浓度，

Fr表示第二比较染色体的反估浓度平均值。

其中

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fa表示所述胎儿浓度。

根据本发明的实施例，如此得到的第一特征和第二特征，一方面均能够体现各自所采用的差异，另一方面所得到的数值均在相同的数量级上，避免出现单个参数过多影响分析结果的情形。如果特征的选择不合适，则后续分析结果有可能会出现偏差，例如K模型中要根据样本的特征计算样本之间的距离(例如，样本x₁的特征为

样本x₂的特征为

则样本x₁和x₂之间的距离为

若两样本之间特征数值相差特别大，例如距离为

则尽管两维特征是同等重要的，但显然第二维特征会对距离产生较大的影响。

为了消除这种影响，根据本发明的实施例，在进行后续步骤之前，将所得到的的第一特征和第二特征进行标准化处理，以便第一特征和第二特征的绝对值分别独立地处于0～1之间。根据本发明的实施例，对第一特征和第二特征进行标准化处理的手段不受特别限制，具体的，可以采用下列方法，针对一批相同维度的数据(均为第一特征或者第二特征)，按照下列公式进行处理

newValue＝(oldVale-min)/(max-min)

其中，min和max分别为这批数值的最小和最大值，oldvale表示处理前的数值，newvalue表示经过标准化处理后的数值。

由此，可以消除某个特征过多影响最终的分析结果，提高分析结果的准确性。

S400基于第一特征和第二特征，确定非整倍性

如前所述，第一特征和第二特征的数值均受到非整倍性的影响，由此，在获得第一特征和第二特征之后，利用对照样本的相应数据，确定胎儿针对待测染色体是否存在非整倍性。具体的，对照样本包括阳性样本和阴性样本，阳性样本针对待测染色体具有非整倍性，阴性样本针对待测染色体不具有非整倍性。

通过采用第一特征和第二特征作为分类特征，将待测样本针对待测染色体在阳性样本和阴性样本之间进行分类，可以实现所述待测染色体是否存在非整倍性的确定。其中，根据本发明的实施例，发明人在研究过程中，发现，阳性样本和阴性样本的数目满足一定比例能够进一步提高分析的准确性。例如，根据本发明的实施例，阳性样本和阴性样本的数目比例不低于1：4。根据本发明的实施例，所述阳性样本和所述阴性样本的数目比例不超过4：1。根据本发明的实施例，所述阳性样本和所述阴性样本的数目比例为1:0.1～5。根据本发明的实施例，所述阳性样本和所述阴性样本的数目比例为1:0.25～4。发明人发现，通过采用上述比例可以避免模型结果的偏向性，发明人发现，如果阳性样本偏多时则结果偏阳性，即假阳性率高，反之阴性样本偏多时则结果偏阴性，即假阴性率高。

根据本发明的实施例，所述阳性样本和所述阴性样本针对所述待测染色体以外的其他染色体均不存在非整倍性。由此，可以进一步提高对照样本的归类参考能力。

根据本发明的实施例，采用第一特征和第二特征进行归类的方法，并不受特别限制，可以采用多种机器学习的方法，例如神经网络、SVM法等。发明人在进行深入研究的过程中发现，神经网络需要的训练集的数目比较庞大，而SVM则有可能需要额外更多的参数来进行分类，以提高分类的准确性。根据本发明的实施例，可以采用第一特征和第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由二维特征向量确定的样本间距离，将孕妇样本在阳性对照样本和阴性对照样本之间进行归类，以便确定胎儿针对所述待测染色体是否存在非整倍性。根据本发明的实施例，，可以采用的距离包括但不限于欧几里得距离、曼哈顿距离或切比雪夫距离。

具体的，根据本发明的实施例，可以采用K-近邻法(KNN)模型进行归类分析，为了方便理解，参考图3，对KNN模型的过程简单描述如下：

根据本发明的实施例，归类处理包括下列步骤：

S410：分别计算孕妇样本与各个对照样本之间的距离；

S420：将所得到的距离进行排序，该排序基于由小到大的顺序；

S430：基于所得到的排序，从小到大选择预定数量的对照样本(这个预定数量即为KNN模型中的K值)；

S440：分别确定所得到的预定数量的对照样本中阳性样本和阴性样本的数目；

S450：基于多数决策法，确定将所述孕妇样本的归类结果。

根据本发明的实施例，所述预定数量为不超过20。根据本发明的实施例，所述预定数量为3～10。为了方便处理，K值可以采用奇数，以避免无法做出决定的情形。当然本领域技术人员能够理解的是，对于不同待测染色体最终选择的K值可以是不同的，例如，根据本发明的一个实施例，对于T13和T18检测最终选的k为7，T21检测最终选择k为9。

另外，根据本发明的实施例，在所述排序之前，可以预先对所述待测样本与预定的对照样本之间的距离进行加权处理。由此，可以进一步提高检验的准确性。

本领域技术人员能够理解，这些加权处理的加权系数或者KNN模型的K值都是可以通过机器学习，利用已知的样本作为训练集进行训练获得的。

具体的，根据本发明的实施例，可以通过下列步骤进行：

A、样本集选择

选择有回访结果的样本作为样本集，并按照6：2：2的比例划分为训练集、测试集和验证集。

B、模型训练

模型的输入：k值；训练数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}其中x_i∈Rⁿ为样本的n维特征向量；y_i∈{+1，-1}，i＝1，2，...，N为样本阴阳性标签(阴性为-1，阳性为+1)，N为样本集大小。

模型的输出：样本x所属的类别y

C：模型验证

初始化k＝1，基于验证集不断调整k值(可采用交叉验证和网格搜索等方法)，直到模型的预测能力达到较好的准确性。

D：模型预测

利用训练好的模型对测试集进行预测，从而评估模型的预测性能。

由此，通过该方法能够有效地确定胎儿针对待测染色体是否具有非整倍性，另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

在本发明的第二方面，与上述方法相对应的，本申请实施例还提供了对应的装置，用于实现上述方法。具体的，本发明提供了一种确定胎儿是否存在染色体非整倍性的装置。参考图4，该包括确定胎儿是否存在染色体非整倍性的装置包括：

数据获取模块100，用于获取来自孕妇样本的核酸测序数据，孕妇样本含有胎儿游离核酸，核酸测序数据由多个测序读段构成；

胎儿浓度-反估浓度确定模块200，用于基于核酸测序数据确定孕妇样本的胎儿浓度以及预定染色体的反估浓度，反估浓度是基于预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，预定染色体包括待测染色体和第二比较染色体，第一比较染色体包括至少一个不同于预定染色体的常染色体；

特征确定模块300，用于基于待测染色体的反估浓度与第二比较染色体的反估浓度的差异确定第一特征，基于待测染色体的反估浓度与胎儿浓度的差异确定第二特征；和

非整倍性确定模块400，用于基于第一特征和第二特征，利用对照样本的相应数据，确定孕妇的胎儿针对待测染色体是否存在非整倍性，其中，照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。

利用根据本发明的实施例的确定胎儿是否存在染色体非整倍性的装置，能够有效地实施前面所描述的确定胎儿是否存在染色体非整倍性的方法，从而能够有效地确定胎儿针对待测染色体是否存在非整倍性。另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。

参考图5，根据本发明的实施例，胎儿浓度-反估浓度确定模块200包括：

比对单元210，用于将来自孕妇样本的所述核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和

胎儿浓度计算单元220，用于基于落入预定窗口的测序读段的数目，确定孕妇样本的胎儿浓度。

根据本发明的实施例，胎儿浓度-反估浓度确定模块200还包括：

反估浓度计算单元230，用于按照下列公式确定所述反估浓度：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示所述多条常染色体的平均测序读段数目，和

Rj表示第j号染色体的测序读段数目。

根据本发明的实施例，胎儿浓度-反估浓度确定模块200包括：

第二比较染色体确定单元240，用于将多条常染色体的所述反估浓度按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。

根据本发明的实施例，特征确定模块300包括：

第一特征确定单元310，用于通过下列公式确定第一特征：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fr表示所述第二比较染色体的反估浓度平均值。

根据本发明的实施例，特征确定模块300还包括：

第二特征确定单元320，用于通过下列公式确定第二特征：

其中

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fa表示所述胎儿浓度。

根据本发明的实施例，特征确定模块300还包括：

标准化处理单元330，用于对所述第一特征和所述第二特征进行标准化处理，以便所述第一特征和所述第二特征的绝对值分别独立地处于0～1之间。

根据本发明的实施例，非整倍性确定模块400用于采用所述第一特征和所述第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由所述二维特征向量确定的样本间距离，将所述孕妇样本在所述阳性对照样本和所述阴性对照样本之间进行归类，以便确定所述胎儿针对所述待测染色体是否存在非整倍性。

根据本发明的实施例，所述k-近邻模型采用的K值为3～10。

需要说明的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该确定胎儿是否存在染色体非整倍性的装置，在此不再赘述。

本领域技术人员能够理解的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该计算机可读存储介质，在此不再赘述。

在本发明的第四方面，本发明提出了一种电子设备，其包括：前面所述的计算机可读存储介质；以及一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。由此，能够有效地实施前面所描述的确定胎儿是否存在染色体非整倍性的方法，从而能够有效地确定胎儿针对待测染色体是否存在非整倍性。另外，根据本发明的实施例，在实施该方法的过程中，发现该方法替代了目前基于测序序列数目中的阈值设定策略，消除了检测灰区，同时还能够缩短样本检测周期，提高客户体验度，并且能够显著降低测序和检测成本。本领域技术人员能够理解的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该电子设备，在此不再赘述。

在本发明的第五方面，本发明提出了一种构建机器学习分类模型的方法，根据本发明的实施例，该方法包括：

(a)针对多个孕妇样本的每一个分别进行：

获取来自孕妇样本的核酸测序数据，孕妇样本含有胎儿游离核酸，核酸测序数据由多个测序读段构成，孕妇样本包括至少一个阳性样本和至少一个阴性样本，阳性样本针对待测染色体具有非整倍性，阴性样本针对待测染色体不具有非整倍性；

基于核酸测序数据确定孕妇样本的胎儿浓度以及预定染色体的反估浓度，反估浓度是基于预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，预定染色体包括待测染色体和第二比较染色体，第一比较染色体包括至少一个不同于预定染色体的常染色体；和基于待测染色体的反估浓度与第二比较染色体的反估浓度的差异确定第一特征，基于待测染色体的反估浓度与胎儿浓度的差异确定第二特征，

(b)将多个孕妇样本作为样本，利用样本的第一特征和第二特征，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。

利用该方法，根据本发明的实施例，能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。根据本发明的实施例，机器学习分类模型为KNN模型。根据本发明的实施例，KNN模型采用欧几里得距离。

本领域技术人员能够理解的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该构建模型的方法，在此不再赘述。

在本发明的第六方面，本发明提供了一种构建机器学习分类模型的装置。

参考图7，该装置包括：

特征获取模块800，用于针对多个孕妇样本的每一个分别进行：获取来自孕妇样本的核酸测序数据，孕妇样本含有胎儿游离核酸，核酸测序数据由多个测序读段构成，孕妇样本包括至少一个阳性样本和至少一个阴性样本，阳性样本针对待测染色体具有非整倍性，阴性样本针对待测染色体不具有非整倍性；基于核酸测序数据确定孕妇样本的胎儿浓度以及预定染色体的反估浓度，反估浓度是基于预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，预定染色体包括待测染色体和第二比较染色体，第一比较染色体包括至少一个不同于预定染色体的常染色体；和基于待测染色体的反估浓度与第二比较染色体的反估浓度的差异确定第一特征，基于待测染色体的反估浓度与胎儿浓度的差异确定第二特征；和

训练模块900，用于将多个孕妇样本作为样本，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。利用该装置能够有效地实施前面的构建机器学习分类模型的方法，从而能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。

根据本发明的实施例，机器学习分类模型为KNN模型。

利用该装置，根据本发明的实施例，能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。根据本发明的实施例，机器学习分类模型为KNN模型。根据本发明的实施例，KNN模型采用欧几里得距离。

本领域技术人员能够理解的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该构建模型的装置，在此不再赘述。

在本发明的第七方面，本发明提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求前面用于构建机器学习分类方法的步骤。由此，可以有效地实施前面的构建机器学习分类模型的方法，从而能够有效地构建机器学习的分类模型，从而进一步可以利用该分类模型对未知的样本进行识别和归类，以确定针对特定的染色体是否存在染色体非整倍性。本领域技术人员能够理解的是，前面针对确定胎儿是否存在染色体非整倍性的方法所描述的特征和优点均适用于该构建模型的计算机可读存储介质，在此不再赘述。

下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解，下面的实施例仅用于说明本发明，而不应视为限定本发明的范围。实施例中未注明具体技术或条件的，按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市场获得的常规产品。

实施例1：

本实施例基于BGISEQ-500平台2017年到2018年间的有回访结果的3075例样本(其中男胎：1716例，女胎：1359例，阴性样本：2215例，21号染色体三体(T21)：637例，18号染色体三体(T18)：165例，13号染色体三体(T13)：58例)进行模型训练和模型预测。

首先，将参考基因组(GRCh37)按固定长度(本方法使用60K)连续划分相邻的窗口，过滤掉N区内的窗口，统计窗口内GC含量，得到参照窗口文件hg19.gc；

接下来，将基于CG平台SE测序之后的序列(35bp)比对(BWA V0.7.7-r441)到参考基因组(GRCh37)；

过滤及初步统计：根据比对结果选择唯一完全比对的序列，去掉重复序列和存在碱基错配的序列得到有效序列，然后按照hg19.gc文件中窗口统计各个窗口的有效序列数和其GC含量；

GC矫正，步骤具体如下：

对于某个样本，记第i个窗口的有效序列数为UR_i，记参考基因组在该窗口的GC含量为GC_i(hg19.gc文件中记录)，记常染色体(1～22号染色体)上所有窗口有效序列数均值为

利用常染色体所有窗口的有效序列数及GC含量进行拟合(本实施例中使用三次样条拟合)得到二者之间的关系式：ur＝f(gc)；

对所有染色体的窗口进行校正：

记第i个窗口GC校正后的有效序列数为URA_i。

按照下列公式计算各染色体的反估浓度：

反估浓度的计算公式如下：

j表示染色体的编号，

表示能够与第j号染色体参照序列匹配的经过GC校正后的测序读段数目，

表示能够与所有常染色体参照序列匹配的经过GC校正的平均测序读段数目。

按照常规方法或者PCT/CN2018/072045所公布的方法确定胎儿浓度。

基于样本集进行KNN模型训练和样本预测，具体步骤如下：

(a)样本集划分和数据预处理：将样本集以6:2:2的比例随机分为训练集、验证集和测试集；分别对训练集、验证集和测试集的样本进行数据预处理，使每个样本得到一个两维的特征向量，以及对应的标签(阴性为-1，阳性为+1)。

(b)超参数k的选择：发明人发现如果选择较小的k值，就相当于用较小的邻域中的训练样本集进行预测，预测结果会对邻近的样本点非常敏感，整体模型变得复杂，容易发生过拟合；如果选择较大的k值，就相当于用较大邻域中的训练样本集进行预测，这时与新输入样本较远(不相似)的训练样本集也会对预测结果起作用，使预测发生错误；一种极限情况是K为某个数值时，无论新输入的样本属于什么类别，都将简单的预测为在训练样本集中最多的类。因此，在本发明的实践中，k一般取一个比较小的数值。

(c)模型训练：包括两部分：KNN模型训练和k值的选择。此时选取欧氏距离和多数表决规则。

KNN模型训练：对于分类决策函数：

f:Rⁿ→{c₁，c₂}＝{-1，+1}

其中x∈Rⁿ为n维特征空间，-1和+1分别为样本标签(阴性为-1，阳性为+1)。那么误分类的概率为：

P(Y≠f(X))＝1-p(Y＝f(X))

对与给定的样本x∈X，其最近邻的k个训练样本点构成的集合为N_k(x)。如果涵盖N_k(x)的区域类别为c_j，那么误分类的概率为：

要使误分类概率最小，就要使

最大。因此选定k值后，模型训练的过程即为使

最大的过程。

k值的选择：初始化k＝1(k∈{1，2，…，20})，基于验证集采用线性搜索的方法确定k值。结果见图8～13，其中，图8～13均是ROC曲线图，分别表示参数k选择不同数值时对应的ROC曲线图，其反映对应的分类器的效果，评价标准就是AUC，即ROC曲线下面的面积，AUC越大，分类性能越好。图8和9表示KNN模型对T21检测时，参数k分别选择6,7,8和9时的ROC曲线图。图10和11表示KNN模型对T18检测时，参数k分别选择6,7,8和9时的ROC曲线图。图12和13表示KNN模型对T13检测时，参数k分别选择6,7,8和9时的ROC曲线图。根据图8～13的结果，对于T13和T18最终选的k为7，T21最终选择k为9。

(d)模型预测：基于上述步骤训练好的模型对测试集进行预测，预测结果如下表所示。

分别计算检测的灵敏度、特异度、PPV和ACC的结果如下表所示。

	灵敏度	特异度	PPV	ACC
					T21	100％	99.38％	97.60％	99.51％
T18	100％	99.13％	86.84％	99.18％
					T13	100％	99.00％	62.50％	99.01％

2.5与SVM模型的比较

基于相同的训练集、验证集和测试集，用SVM(支持向量机)的方法对样本的阴阳性进行分类，结果如下：

分别计算检测的灵敏度、特异度、PPV和ACC的结果如下表所示

	灵敏度	特异度	PPV	ACC
					T21	100％	97.13％	89.71％	97.71％
T18	100％	98.61％	80.49％	98.69％
					T13	100％	98.67％	55.56％	98.69％

从数据中可以看出，不管KNN模型还是SVM模型，在测试集中，T13、T18和T21的检测均没有漏检，灵敏度都达到了100％。但是在T21的检测中，SVM模型有14例假阳性样本，而KNN模型只有3例假阳；在T18的检测中，SVM模型有8例假阳，而KNN模型只有5例假阳；在T13的检测中，SVM模型有8例假阳，而KNN模型有6例假阳。不管对T21、T18还是T13，KNN模型均比SVM模型的假阳率低。

发明人分析，KNN模型较SVM模型假阳性率低的主要原因是：模型本身导致，即KNN主要依据聚类，它是很多个细化的聚类，而SVM只是简单的两类，所以细致程度上没有KNN好。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

Claims

1.一种确定胎儿是否存在染色体非整倍性的方法，其特征在于，包括：

(1)获取来自孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成；

(2)基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；

(3)基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征；和

(4)基于所述第一特征和第二特征，利用对照样本的相应数据，确定所述胎儿针对所述待测染色体是否存在非整倍性，其中，所述对照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。

2.根据权利要求1所述的方法，其特征在于，所述孕妇样本包括孕妇外周血。

3.根据权利要求1所述的方法，其特征在于，所述核酸测序样本是通过双末端测序、单末端测序或者单分子测序获得的。

4.根据权利要求1所述的方法，其特征在于，所述胎儿浓度是通过下列步骤确定的：

(a)将来自所述孕妇样本的所述核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和

(b)基于所述落入预定窗口的测序读段的数目，确定所述孕妇样本的胎儿浓度。

5.根据权利要求1所述的方法，其特征在于，在步骤(2)中，所述第一比较染色体的测序读段数目为多条常染色体的平均测序读段数目，所述多条常染色体包括至少一个已知不具有非整倍性的常染色体。

6.根据权利要求5所述的方法，其特征在于，在步骤(2)中，所述第一比较染色体的测序读段数目为至少15条常染色体的平均测序读段数目，

可选的，第一比较染色体的测序读段数目为至少20条常染色体的平均测序读段数目，

可选的，第一比较染色体的测序读段数目为全部常染色体的平均测序读段数目。

7.根据权利要求5所述的方法，其特征在于，反估浓度是按照下列公式确定的：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示所述多条常染色体的平均测序读段数目，

Rj表示第j号染色体的测序读段数目。

8.根据权利要求1所述的方法，其特征在于，在步骤(2)中，所述第二比较染色体包含多个不具有非整倍性的常染色体，并且在步骤(3)中，基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度平均值的差异确定第一特征。

9.根据权利要求8所述的方法，其特征在于，所述第二比较染色体包含至少10条常染色体。

10.根据权利要求8所述的方法，其特征在于，所述第二比较染色体包含15条常染色体。

11.根据权利要求8所述的方法，其特征在于，进一步包括：

确定多条常染色体的所述反估浓度；和

按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。

12.根据权利要求1所述的方法，其特征在于，所述第一特征是通过下列公式确定的：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的反估浓度，

Fr表示所述第二比较染色体的反估浓度平均值。

13.根据权利要求12所述的方法，其特征在于，所述第二特征是通过下列公式确定的：

其中，

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的反估浓度，

Fa表示所述胎儿浓度。

14.根据权利要求1～13任一项所述的方法，其特征在于，在进行步骤(4)之前，对所述第一特征和所述第二特征进行标准化处理，以便所述第一特征和所述第二特征的绝对值分别独立地处于0～1之间。

15.根据权利要求1所述的方法，其特征在于，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例不低于1：4。

16.根据权利要求1所述的方法，其特征在于，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例不超过4：1。

17.根据权利要求1所述的方法，其特征在于，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例为1:0.1～5。

18.根据权利要求1所述的方法，其特征在于，在步骤(4)中，所述阳性样本和所述阴性样本的数目比例为1:0.25～4。

19.根据权利要求1所述的方法，其特征在于，所述阳性样本和所述阴性样本针对所述待测染色体以外的其他染色体均不存在非整倍性。

20.根据权利要求1所述的方法，其特征在于，在步骤(4)中，采用所述第一特征和所述第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由所述二维特征向量确定的样本间距离，将所述孕妇样本在所述阳性对照样本和所述阴性对照样本之间进行归类，以便确定所述胎儿针对所述待测染色体是否存在非整倍性。

21.根据权利要求20所述的方法，其特征在于，所述距离为欧几里得距离、曼哈顿距离或切比雪夫距离。

22.根据权利要求20所述的方法，其特征在于，在步骤(4)中，进一步包括：

(4-1)分别计算所述孕妇样本与所述对照样本之间的距离；

(4-2)将所得到的所述距离进行排序，所述排序基于由小到大的顺序；

(4-3)基于所述排序，从小到大选择预定数量的对照样本；

(4-4)分别确定所述预定数量的所述对照样本中阳性样本和阴性样本的数目；

(4-5)基于多数决策法，确定将所述孕妇样本的归类结果。

23.根据权利要求22所述的方法，其特征在于，所述预定数量为不超过20。

24.根据权利要求22所述的方法，其特征在于，所述预定数量为3～10。

25.根据权利要求22所述的方法，其特征在于，在步骤(4-2)中，在进行所述排序之前，预先对所述待测样本与预定所述对照样本之间的距离进行加权处理。

26.一种确定胎儿是否存在染色体非整倍性的装置，其特征在于，包括：

数据获取模块，用于获取来自孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成；

胎儿浓度-反估浓度确定模块，用于基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；

特征确定模块，基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，用于基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征；和

非整倍性确定模块，用于基于所述第一特征和第二特征，利用对照样本的相应数据，确定所述孕妇的胎儿针对所述待测染色体是否存在非整倍性，其中，所述对照样本包括阳性样本和阴性样本，所述阳性样本针对所述待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性。

27.根据权利要求26所述的装置，其特征在于，所述胎儿浓度-反估浓度确定模块包括：

比对单元，用于将来自所述孕妇样本的所述核酸测序数据与参照序列比对，以便确定落入预定窗口的测序读段的数目；和

胎儿浓度计算单元，用于基于所述落入预定窗口的测序读段的数目，确定所述孕妇样本的胎儿浓度。

28.根据权利要求26所述的装置，其特征在于，所述胎儿浓度-反估浓度确定模块包括：

反估浓度计算单元，用于按照下列公式确定所述反估浓度：

Fj＝2*|Rj-Rr|/(Rr)

其中

j表示需要确定所述反估浓度的染色体的编号，

Fj表示第j号染色体的反估浓度，

Rr表示多条常染色体的平均测序读段数目，和

Rj表示第j号染色体的测序读段数目。

29.根据权利要求26所述的装置，其特征在于，所述胎儿浓度-反估浓度确定模块包括：

第二比较染色体确定单元用于将多条常染色体的所述反估浓度按照由小至大的优先顺序，选择目标排序的常染色体作为所述第二比较染色体。

30.据权利要求26所述的装置，其特征在于，所述特征确定模块包括：

第一特征确定单元，用于通过下列公式确定所述第一特征：

X1＝Fi-Fr

其中

X1表示第一特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fr表示所述第二比较染色体的反估浓度平均值。

31.据权利要求26所述的装置，其特征在于，所述特征确定模块包括：

第二特征确定单元，用于通过下列公式确定所述第二特征：

其中

X2表示第二特征，

i表示所述待测染色体的编号，

Fi表示所述待测染色体的所述反估浓度，

Fa表示所述胎儿浓度。

32.据权利要求26所述的装置，其特征在于，所述特征确定模块包括：

标准化处理单元，用于对所述第一特征和所述第二特征进行标准化处理，以便所述第一特征和所述第二特征的绝对值分别独立地处于0～1之间。

33.据权利要求26所述的装置，其特征在于，所述非整倍性确定模块用于采用所述第一特征和所述第二特征确定所述孕妇样本和所述对照样本的二维特征向量，基于由所述二维特征向量确定的样本间距离，将所述孕妇样本在所述阳性对照样本和所述阴性对照样本之间进行归类，以便确定所述胎儿针对所述待测染色体是否存在非整倍性。

34.据权利要求33所述的装置，其特征在于，所述距离为欧几里得距离、曼哈顿距离或切比雪夫距离。

35.据权利要求26所述的装置，其特征在于，所述非整倍性确定模块用于采用k-近邻模型确定将所述孕妇样本的归类结果。

36.根据权利要求35所述的装置，其特征在于，所述k-近邻模型采用的K值为不超过20。

37.根据权利要求35所述的装置，其特征在于，所述k-近邻模型采用的K值为3～10。

38.根据权利要求35所述的装置，其特征在于，所述k-近邻模型中，对所述样本间距离进行加权处理。

39.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-25中任一项所述方法的步骤。

40.一种电子设备，其特征在于，包括：

权利要求39中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。

41.一种构建机器学习分类模型的方法，其特征在于，包括：

(a)针对多个孕妇样本的每一个分别进行：

获取来自所述孕妇样本的核酸测序数据，所述孕妇样本含有胎儿游离核酸，所述核酸测序数据由多个测序读段构成，所述孕妇样本包括至少一个阳性样本和至少一个阴性样本，所述阳性样本针对待测染色体具有非整倍性，所述阴性样本针对所述待测染色体不具有非整倍性；

基于所述核酸测序数据确定所述孕妇样本的胎儿浓度以及预定染色体的反估浓度，所述反估浓度是基于所述预定染色体的测序读段数目和第一比较染色体的测序读段数目的差异确定的，所述预定染色体包括待测染色体和第二比较染色体，所述第一比较染色体包括至少一个不同于所述预定染色体的常染色体；和

基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征，

(b)将所述多个孕妇样本作为样本，利用所述样本的第一特征和第二特征，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。

42.根据权利要求41所述的方法，其特征在于，所述机器学习分类模型为KNN模型。

43.根据权利要求42所述的方法，其特征在于，所述KNN模型采用欧几里得距离。

44.一种构建机器学习分类模型的装置，其特征在于，包括：

特征获取模块，用于针对多个孕妇样本的每一个分别进行：

基于所述待测染色体的反估浓度与所述胎儿浓度的差异确定第二特征，基于所述待测染色体的反估浓度与所述第二比较染色体的反估浓度的差异确定第一特征，

训练模块，用于将所述多个孕妇样本作为样本，进行机器学习训练，以便构建用于确定胎儿是否具有非整倍性的器学习分类模型。

45.根据权利要求44所述的装置，其特征在于，所述机器学习分类模型为KNN模型。

46.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求41～43任一项所述方法的步骤。