CN107133495B

CN107133495B - 一种非整倍性生物信息的分析方法和分析***

Info

Publication number: CN107133495B
Application number: CN201710310451.9A
Authority: CN
Inventors: 王少为; 徐寒黎; 王伟伟; 张静波; 刘斐然; 刘倩; 刘珂弟; 唐宇
Original assignee: Beijing Kexun Biotechnology Co Ltd; Beijing Hospital
Current assignee: Beijing Kexun Biotechnology Co Ltd; Beijing Hospital
Priority date: 2017-05-04
Filing date: 2017-05-04
Publication date: 2018-07-13
Anticipated expiration: 2037-05-04
Also published as: CN107133495A

Abstract

本发明公开了一种非整倍性生物信息的分析方法和分析***。其中，1)构建参考数据库异；2)计算UR ratio；3)构建参考数据库统计学参数；4)Z值计算；5)按照上述减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性；6)按照上述胎儿DNA浓度预测模型的构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度；7)计算胎儿每条染色体的DNA数量占总体DNA的百分比：8)常染色体非整倍体的判断：9)性染色体异常判断。应用本发明的技术方案，极大地提高了分析的准确性。

Description

一种非整倍性生物信息的分析方法和分析***

技术领域

本发明涉及生物医学技术领域，具体而言，涉及一种非整倍性生物信息的分析方法和分析***。

背景技术

产前诊断是指利用非侵入性或侵入性手段对胎儿进行检查，可以在孕早期或中期就对胎儿做出诊断，以便进行提前干预或治疗。其中，侵入性手段包括：绒毛活检术、羊膜穿刺术和经腹脐静脉穿刺术等等。虽然结果较准确，但是具有相当高的风险性，容易造成孕妇流产或宫内感染。产前筛查手段(外周血生化筛查和超声颈部透明带)虽然不使用侵入式方法，但是检测率和假阳率并不能达到期望的水平。NIPT，简称无创产前检测，是应用于孕期产检的一项技术，这项技术是基于孕妇外周血的血浆中存在的胎儿游离DNA，具有很高的检测准确性，同时也避免了侵入性检测所带来的流产和宫内感染风险。

NIPT检测首先需要抽取孕妇外周血，分离出血浆，提取出血浆游离DNA，构建二代测序文库，利用二代测序仪得到孕妇血浆游离DNA的序列信息。得到的测序数据通过基本的质控、和人类参考基因组比对、GC校正、计算Z值等步骤来得到胎儿患病的风险。但是，已有的NIPT检测技术存在以下缺点：1)当胎儿DNA浓度低的时候，无法精确判断染色体异常，容易造成假阴；2)只能检测13号、18号、21号染色体等常染色体的非整倍体异常，很难有效判断性染色体；3)适用于单胎，无法对双胎乃至多胎进行有效检测；4)受测序批次影响较大，易造成假阳；5.)不适合检测母体异常(染色体的微缺失和微重复)的胎儿DNA，易造成假阳。

发明内容

本发明旨在提供一种非整倍性生物信息的分析方法和分析***，以提高分析的准确性。

为了实现上述目的，根据本发明的一个方面，提供了一种测序GC偏好性的校正方法。该校正方法包括以下步骤：1)利用高通量测序平台对待测样品进行测序；2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对，统计每条染色体上的唯一比对到参考基因组的序列条数，即Unique Read的条数，并计算每条染色体上Unique Read的总量占总的Unique Reads的百分率UR ratio；3)测序GC偏好性校正：数据预处理，然后同时采用三套不同的校正策略进行GC矫正；其中，数据预处理包括：将整条染色体划分为100kb片段大小的窗，重叠区域为50kb，计算每个窗内各测序序列的GC含量，同时计算窗内的unique reads数，忽略带有测序不确定的碱基N、unique reads为0或者异常高的那些窗，然后，对窗内的unique reads数进行归一化，即除以参考数据库的对照样本的对应窗内的unique reads数；三套不同的校正策略包括：一、采用局部多项式加权回归方法进行GC校正：数据预处理后，利用窗内的unique reads数与窗内的GC含量作局部多项式加权回归，再利用窗内归一化的unique reads数除以局部多项式加权回归得到的估计值算出每个窗的unique reads的数值，进而实现对每条染色体上的Unique reads的GC校正；二、采用滚动中值(rolling median)方法进行GC校正：数据预处理后，对所有染色体内所有窗的GC含量进行排序，以0.1％GC值差异对所有窗进行分组，统计每个GC值组内的所有窗的Unique reads数，计算其中位数作为该组测序序列的GC权重，再利用窗内归一化的unique reads数除以该组的GC权重，从而得到GC校正后的unique reads数；三、利用线性回归方法进行GC校正：数据预处理后，利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程，得到unique reads的估计值，利用窗内归一化的unique reads数除以其对应窗的估计值，从而实现对每条染色体的Unique reads数的GC校正。

根据本发明另一个方面，提供一种测序GC偏好性的校正***。该校正***包括：测序模块：用于利用高通量测序平台对待测样品进行测序；比对统计模块：用于将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对，统计每条染色体上的Unique Read的条数，并计算每条染色体上Unique Read的总量占总的Unique Reads的百分率UR ratio；矫正模块：用于测序GC偏好性校正；矫正模块包括数据预处理子模块和矫正子模块，其中，数据预处理子模块：用于将整条染色体划分为100kb片段大小的窗，重叠区域为50kb，计算每个窗内各测序序列的GC含量，同时计算窗内的unique reads数，忽略带有测序不确定的碱基N、unique reads为0或者异常高的那些窗，然后，对窗内的unique reads数进行归一化，即除以参考数据库的对照样本的对应窗内的unique reads数；矫正子模块用于同时采用三套不同的校正策略进行GC矫正，三套不同的校正策略包括：一、采用局部多项式加权回归方法进行GC校正：数据预处理后，利用窗内的unique reads数与窗内的GC含量作局部多项式加权回归，再利用窗内归一化的uniquereads数除以局部多项式加权回归得到的估计值算出每个窗的unique reads的数值，进而实现对每条染色体上的Unique reads的GC校正；二、采用滚动中值(rolling median)方法进行GC校正：数据预处理后，对所有染色体内所有窗的GC含量进行排序，以0.1％GC值差异对所有窗进行分组，统计每个GC值组内的所有窗的Unique reads数，计算其中位数作为该组测序序列的GC权重，再利用窗内归一化的unique reads数除以该组的GC权重，从而得到GC校正后的unique reads数；三、利用线性回归方法进行GC校正：数据预处理后，利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程，得到uniquereads的估计值，利用窗内归一化的unique reads数除以其对应窗的估计值，从而实现对每条染色体的Unique reads数的GC校正。

根据本发明的再一个方面，提供一种胎儿DNA浓度预测模型的构建方法。该构建方法包括以下步骤：1)选取一定数量核型分析无染色体异常且孕周大于等于12周的怀有正常男胎的孕妇样品、一定数量的健康男性和女性样本，对这些样本的血浆游离DNA样本进行基因测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算这些样本的Y染色体的UR ratio，得到怀有正常男胎的孕妇样品的Y染色体的UR ratio R_样品、女性样本的Y染色体的UR ratio R_female、男性样本的Y染色体的UR ratio R_male；2)根据如下公式计算胎儿浓度：男胎胎儿DNA浓度＝(R_样品-R_female)/(R_male-R_female)，然后，计算怀有正常男胎的孕妇样品的测序序列的片段长度，并统计片段长度的分布情况，通过计算不同片段长度的比例得到统计学参数片段长度百分比，将胎儿浓度与片段长度百分比做线性回归，构建线性回归模型，然后通过线性回归模型根据怀有女胎的孕妇样品的片段长度百分比预测女胎胎儿的DNA浓度。

根据本发明的又一个方面，提供一种用于性染色体分析的预测模型的构建方法。该构建方法包括以下步骤：1)选取一定数量核型分析无染色体异常且孕周大于等于12周的孕妇样品作为参考数据库的对照样品，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异；另外选择相同数量的经核型分析验证的XO、XXX、XXY、XYY样品，该六类样品作为构建模型的测试集；2)对测试集的血浆中提取的DNA样本进行基因测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio；同时上述胎儿DNA浓度预测模型的构建方法构建预测模型，利用片段长度百分比计算胎儿浓度；3)对于X染色体和Y染色体的UR ratio及胎儿浓度三个参数，利用基于二叉树的支持向量机多类分类算法，利用k折交叉验证得到稳定的预测模型。

根据本发明的再一个方面，提供一种减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法。该方法包括以下步骤：1)提取待测母体的血浆游离DNA进行测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正；2)计算测试样本数据在每个窗口中的Z值；将测试样本的某个染色体上的Z值的平均值与相应的阈值进行比较，从而判断该染色体是否缺失或重复，及缺失或重复的区域；3)在胎儿染色体非整倍体检测Z值计算时，将测试样本中存在缺失或重复的窗过滤掉，从而减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体的假阳性。

根据本发明的又一个方面，提供一种非整倍性生物信息的分析方法。该分析方法包括以下步骤：

1)构建参考数据库：选取一定数量孕周大于等于12周且核型分析无染色体异常的孕妇样品作为对照样品库，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异；

2)计算UR ratio：按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对参考数据库中样本的unique reads数进行GC校正，然后计算每条染色体URratio；

3)构建参考数据库统计学参数：根据步骤2)中获得的UR ratio，计算对照样品库中每条常染色体UR ratio的均值和标准误差；

4)Z值计算：对待测孕妇样本的血浆游离DNA进行测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio，其常染色体的Z值计算：

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

5)按照上述减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性；

6)按照上述胎儿DNA浓度预测模型的构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度；

7)计算胎儿每条染色体的DNA数量占总体DNA的百分比：计算待测样本中每条染色体的UR ratio与对照样品库对照样本的偏差，该差值与对照样本UR ratio的平均值的比例的2倍则为胎儿的DNA占总体DNA的比例，公式为：

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占总体DNA的百分比；

8)常染色体非整倍体的判断：

根据步骤4)针对三套不同的GC矫正校正策略计算出每条染色体的三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，具体的，若三套不同的Z_i均Z_i＞3(i＝1，2，…，22)，且fr_i接近胎儿浓度，则判断第i号染色体为非整倍体；

9)性染色体异常判断：

通过上述用于性染色体分析的预测模型的构建方法构建预测模型，对测试孕妇样品的性染色体异常情况进行判断。

进一步地，步骤8)中进一步包括根据计算对数似然比L值，并根据L值进行常染色体非整倍体的判断。

根据本发明的又一个方面，提供一种非整倍性生物信息的分析***。该分析***包括：

参考数据库构建模块：用于选取一定数量孕周大于等于12周且核型分析无染色体异常的孕妇样品作为对照样品库，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异；

UR ratio计算模块：用于上述校正方法消除染色体内和染色体间测序GC偏好性，对参考数据库中样本的unique reads数进行GC校正，然后计算每条染色体UR ratio；

参考数据库统计学参数构建模块：用于根据UR ratio计算模块中获得的URratio，计算对照样品库中每条常染色体UR ratio的均值和标准误差；

Z值计算模块：用于对待测孕妇样本的血浆游离DNA进行测序，测序数据按照上述校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio，其常染色体的Z值计算：

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

母体自身染色体微缺失或微重复计算模块：用于上述方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性；

胎儿DNA浓度预测模块：用于上述构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度；

胎儿DNA数量计算模块：用于计算胎儿每条染色体的DNA数量占总体DNA的百分比：计算待测样本中每条染色体的UR ratio与对照样品库对照样本的偏差，该差值与对照样本UR ratio的平均值的比例的2倍则为胎儿的DNA占总体DNA的比例，公式为：

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占总体DNA的百分比；

常染色体非整倍体的判断模块：用于根据Z值计算模块中针对三套不同的GC矫正校正策略计算出每条染色体的三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，具体的，若三套不同的Z_i均Z_i＞3(i＝1，2，…，22)，且fr_i接近胎儿浓度，则判断第i号染色体为非整倍体；

性染色体异常判断模块：用于通过上述用于性染色体分析的预测模型的构建方法构建预测模型，对测试孕妇样品的性染色体异常情况进行判断。

进一步地，常染色体非整倍体的判断模块中进一步包括根据计算对数似然比L值，并根据L值进行常染色体非整倍体的判断。

由于UR ratio是本发明算法中最基础的依托数据，除了三体信号外很多其它因素也会带来它的变化，譬如样品上机批次及测序GC-bias等都会对UR ratio造成较大的影响。对此，本发明的算法同时采用了三套不同的校正策略来消除诸如碱基GC含量和序列特征等因素带来的UR ratio的波动，算法应用了包括局部多项式回归、滚动中值(rollingmedian)、权重校正等多种策略，尽可能减少误差干扰，最后根据统计检验算法，计算出三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，极大地提高了分析的准确性。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

本发明主要的生物信息分析流程如下：Illumina平台测序得到DNA序列信息后，首先对原始数据进行去除接头及低质量的reads，本发明的核心算法是首先将DNA序列比对到人类基因组参考序列上，然后根据比对的结果来统计样品DNA序列在每条染色体上的分布情况，统计每条染色体上的Unique Read的条数。每条染色体上Unique Read的总量占总的Unique Reads的百分率(UR ratio)就是我们研究的重要数据之一。理论上来说，某条染色体UR ratio的值的过高或者过低的异常是来源于该样品中该条异常染色体核酸分子量的异常。本发明的算法的核心就是基于这一原理来诊断胎儿的染色体是否为整倍性。

根据本发明一种典型的实施方式，提供一种测序GC偏好性的校正方法。该校正方法包括以下步骤：1)利用高通量测序平台对待测样品进行测序；2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对，统计每条染色体上的Unique Read的条数，并计算每条染色体上Unique Read的总量占总的Unique Reads的百分率UR ratio；3)测序GC偏好性校正：数据预处理，然后同时采用三套不同的校正策略进行GC矫正；其中，数据预处理包括：将整条染色体划分为100kb片段大小的窗，重叠区域为50kb，计算每个窗内各测序序列的GC含量，同时计算窗内的unique reads数，忽略带有N、unique reads为0或者异常高的那些窗，然后，对窗内的unique reads数进行归一化，即除以参考数据库的对照样本的unique reads数；三套不同的校正策略包括：一、采用局部多项式加权回归方法进行GC校正：数据预处理后，利用窗内的unique reads数与窗内的GC含量作局部多项式加权回归，再利用窗内归一化的unique reads数除以局部多项式加权回归得到的权值算出每个窗的unique reads的数值，进而实现对每条染色体上的Unique reads的GC校正；二、采用滚动中值(rolling median)方法进行GC校正：数据预处理后，对所有染色体内所有窗的GC含量进行排序，以0.1％GC值差异对所有窗进行分组，统计每个GC值组内的所有窗的Unique reads数，计算其中位数作为该组测序序列的GC权重，再利用窗内归一化的unique reads数除以该组的GC权重，从而得到GC校正后的unique reads数；三、利用线性回归方法进行GC校正：数据预处理后，利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程，得到unique reads的估计值，利用窗内归一化的unique reads数除以其对应窗的估计值，从而实现对每条染色体的Unique reads数的GC校正。

由于UR ratio是本发明算法中最基础的依托数据，除了三体信号外很多其它因素也会带来它的变化，譬如样品上机批次及测序GC-bias等都会对UR ratio造成较大的影响。对此，本发明的算法同时采用了三套不同的校正策略来消除诸如碱基GC含量和序列特征等因素带来的UR ratio的波动，算法应用了包括局部多项式回归、滚动中值(rollingmedian)、权重校正等多种策略，尽可能减少误差干扰。

根据本发明一种典型的实施方式，提供一种测序GC偏好性的校正***。该校正***包括：测序模块：用于利用高通量测序平台对待测样品进行测序；比对统计模块：用于将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对，统计每条染色体上的Unique Read的条数，并计算每条染色体上UniqueRead的总量占总的Unique Reads的百分率UR ratio；矫正模块：用于测序GC偏好性校正；矫正模块包括数据预处理子模块和矫正子模块，其中，数据预处理子模块：用于将整条染色体划分为100kb片段大小的窗，重叠区域为50kb，计算每个窗内各测序序列的GC含量，同时计算窗内的unique reads数，忽略带有测序不确定碱基N、unique reads为0或者异常高的那些窗，然后，对窗内的unique reads数进行归一化，即除以参考数据库的对照样本的uniquereads数；矫正子模块用于同时采用三套不同的校正策略进行GC矫正，三套不同的校正策略包括：一、采用局部多项式加权回归方法进行GC校正：数据预处理后，利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归，再利用窗内归一化的unique reads数除以局部多项式加权回归得到的权值算出每个窗的unique reads的数值，进而实现对每条染色体上的Unique reads的GC校正；二、采用滚动中值(rolling median)方法进行GC校正：数据预处理后，对所有染色体内所有窗的GC含量进行排序，以0.1％GC值差异对所有窗进行分组，统计每个GC值组内的所有窗的Unique reads数，计算其中位数作为该组测序序列的GC权重，再利用窗内归一化的unique reads数除以该组的GC权重，从而得到GC校正后的unique reads数；三、利用线性回归方法进行GC校正：数据预处理后，利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程，得到unique reads的估计值，利用窗内归一化的unique reads数除以其对应窗的估计值，从而实现对每条染色体的Unique reads数的GC校正。

此外，胎儿DNA浓度等因素也会对检测的准确性造成影响，过低的胎儿浓度能够造成假阴性的结果。我们可以利用血浆中胎儿DNA片段略短于母亲cfDNA的特性，根据测序片段的长度信息计算片段长度百分比，通过一定的怀有正常男胎的孕妇样品作训练集，推断出片段长度百分比与胎儿浓度的线性关系，从而计算出胎儿浓度。

根据本发明一种典型的实施方式，提供一种胎儿DNA浓度预测模型的构建方法。该构建方法包括以下步骤：1)选取一定数量核型分析无染色体异常且孕周大于等于12周的怀有正常男胎的孕妇样品、一定数量的健康男性和女性样本，对这些样本的血浆游离DNA样本进行基因测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算这些样本的Y染色体的UR ratio，得到怀有正常男胎的孕妇样品的Y染色体的UR ratio R_样品、女性样本的Y染色体的UR ratioR_female、男性样本的Y染色体的UR ratio R_male；2)根据如下公式计算胎儿浓度：男胎胎儿DNA浓度＝(R_样品-R_female)/(R_male-R_female)，然后，计算怀有正常男胎的孕妇样品的测序序列的片段长度，并统计片段长度的分布情况，通过计算不同片段长度的比例得到统计学参数片段长度百分比，将胎儿浓度与片段长度百分比做线性回归，构建线性回归模型，然后通过所述线性回归模型根据怀有女胎的孕妇样品的片段长度百分比预测女胎胎儿的DNA浓度。

在胎儿性别方面，由于血浆中男性和女性的DNA序列在X、Y染色体上存在明显的差别，可以借助这两者的联合分布(用联合分布作假设检验)来判断性别。然而，此前很多的校正方法中，性染色体异常的检测一直是较大的难点。本发明的算法借助于先进的模式识别算法，能够有效地抓住相应的特征值，对性染色体异常的样品作出准确的判断。

根据本发明一种典型的实施方式，提供一种用于性染色体分析的预测模型的构建方法。该构建方法包括以下步骤：1)选取一定数量核型分析无染色体异常且孕周大于等于12周的孕妇样品作为参考数据库的对照样品，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异；另外选择相同数量的经核型分析验证的XO、XXX、XXY、XYY样品，该六类样品作为构建模型的测试集；2)对测试集的血浆游离中提取的DNA样本进行基因测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio；同时按照上述胎儿DNA浓度预测模型的构建方法构建预测模型，利用片段长度百分比计算胎儿浓度；3)对于X染色体和Y染色体的URratio及胎儿浓度三个参数，利用基于二叉树的支持向量机多类分类算法，利用k折交叉验证得到稳定的预测模型。

本发明的核心算法也考虑到了由母亲自身染色体存在微重复等情况造成的胎儿染色体非整倍性的假阳性的情况。因此可以对阳性样本的每一条染色体都分若干小窗进行统计Unique Reads，进行相应的GC校正算法后，作出以窗为单位的染色体覆盖深度图，并且以窗为单位进行样本间统计检验。

根据本发明一种典型的实施方式，提供一种减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法。该方法包括以下步骤：1)提取待测母体的血浆游离DNA进行测序，测序数据按照上述测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正；2)计算测试样本数据在每个窗口中的Z值；将测试样本的某个染色体上的Z值的平均值与相应的阈值进行比较，从而判断该染色体是否缺失或重复，及缺失或重复的区域；3)在胎儿染色体非整倍体检测Z值计算时，将测试样本中存在缺失或重复的窗过滤掉，从而减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体的假阳性。

根据本发明一种典型的实施方式，提供一种非整倍性生物信息的分析方法。该分析方法包括以下步骤：

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占总体DNA的百分比；

8)常染色体非整倍体的判断：

9)性染色体异常判断：

在本发明的典型的实施方式中，步骤8)中计算出三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，三种并行检测策略大大增加了检测的可信度。通常，Z大于3或者小于-3为统计学意义上的异常，本发明中只有三个值均为阴性，才判为阴性，否则会针对性地深度分析。

优选的，步骤8)中进一步包括根据计算对数似然比L值，并根据L值进行常染色体非整倍体的判断。

后期随着阳性样本的积攒，在Z值的基础上，还可以进一步计算对数似然比L值。L值与Z值相比在检测胎儿染色体非整倍性异常的敏感性和特异性上有更大的优势。这是因为，Z仅仅代表该样本偏离阴性参考样本的程度，Z越大越说明该样本不是阴性；L是该样本偏离阴性参考样本的程度和该样本偏离阳性参考样本的程度的比值，L越来越说明该样本不是阴性更可能是阳性。

另外，随着海量样本的积累，本发明可以利用机器学习的优势，将Z值、母亲年龄、孕周、胎儿浓度等多种变量作为模型的输入，使用随机森林算法，进一步做模式判定，提高胎儿非整倍性检测的可靠性。

根据本发明一种典型的实施方式，提供一种非整倍性生物信息的分析***。该分析***包括：

UR ratio计算模块：用于按照上述校正方法消除染色体内和染色体间测序GC偏好性，对参考数据库中样本的unique reads数进行GC校正，然后计算每条染色体UR ratio；

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

母体自身染色体微缺失或微重复计算模块：用于按照上述方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性；

胎儿DNA浓度预测模块：用于按照上述的构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度；

胎儿DNA数量计算模块：用于计算胎儿每条染色体的DNA数量占总体DNA的百分比：计算待测样本中每条染色体的UR ratio与对照样品库长对照样本的偏差，该差值与对照样本UR ratio的平均值的比例的2倍则为胎儿的DNA占总体DNA的比例，公式为：

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占总体DNA的百分比；

常染色体非整倍体的判断模块：用于根据Z值计算模块中针对每条染色体的三套不同的GC矫正校正策略计算出三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，具体的，若三套不同的Z_i均Z_i＞3(i＝1，2，…，22)，且fr_i接近胎儿浓度，则判断第i号染色体为非整倍体；

优选的，常染色体非整倍体的判断模块中进一步包括根据计算对数似然比L值，并根据L值进行常染色体非整倍体的判断。

下面将结合实施例进一步说明本发明的有益效果。

实施例1

1)构建参考数据库：选取1500例孕周大于等于12周且核型分析无染色体异常的孕妇样品作为对照样品库，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异。

采用贝瑞和康的胎儿染色体非整倍体(T13/T18/T21)检测试剂盒(可逆末端终止测序法)来构建NIPT文库，具体步骤如下：

(1)取7例孕妇血浆游离DNA，编号为Y1-Y7，核型分析结果显示，2例为阴性样本(Y6,Y7)，1例为21号染色体三体(Y1)，1例为18号染色体三体(Y2)，1例为13号染色体三体(Y3)，1例为X染色体三体(Y5)，1例为15号染色体母体微重复(Y4)，按照表1加入反应体系组分：

表1

纯化的血浆游离DNA	40.5μl
		缓冲液1	7μl
酶1	1.5μl
		总体积	49μl

轻柔混匀。瞬时离心，PCR仪上按照表2程序进行反应：

表2

37℃	20min
		72℃	20min
4℃	Hold

后立刻放置冰上，立即进入下一步接头连接反应。

(2)按照表3向上述产物中加入体系组分：

表3

轻柔混匀，瞬时离心，PCR仪上按照表4程序进行反应：

表4

20℃	15min
		65℃	10min
4℃	Hold

(3)纯化产物：

a.向上述产物中加入混匀的磁珠28ul，混合均匀；室温放置5min；

b.短暂离心，将样品放在磁力架上静置5min；

c.溶液澄清后，弃上清；

d.加入200ul洗涤缓冲液，放置30s，用枪头小心吸取丢弃上清液；

e.再加入200ul洗涤缓冲液，放置30s，用枪头小心吸取丢弃上清液；

f.瞬时离心，用10ul枪头吸取残余废液丢弃；

g.室温放置3min晾干；

h.加入22ul缓冲液T，混合均匀，室温放置5min；

i.短暂离心，将样品放在磁力架上静置2min；

j.溶液澄清后将20ul上清转移到干净的收集管中，进行下一步操作。

(4)qPCR定量文库后在NextSeq CN500上采用SE75测序得到测序数据。

2)计算UR ratio：按照本发明的测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对参考数据库中样本的unique reads数进行GC校正，然后计算每条染色体UR ratio；

表1为7个样本校正前染色体21、18、13、X、15的UR ratio

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

表3为7个样本部分染色体对应的z值

	Y1	Y2	Y3	Y4	Y5	Y6	Y7
								胎儿DNA浓度	0.1084	0.1311	0.1643	0.1881	0.1770	0.1934	0.01542

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占总体DNA的百分比；

	fr21	fr18	fr13	frX	fr15
						Y1	0.1036	0.0217	0.0081	0.0711	0.0378
Y2	0.0365	0.1206	0.0177	0.0315	0.0554
						Y3	0.0434	0.0545	0.1869	0.0503	0.0383
Y4	0.0409	0.0157	0.0095	0.0860	0.4662
						Y5	0.0363	0.0008	0.0372	0.2091	0.0203
Y6	0.0297	0.0412	0.0413	0.0552	0.0546
						Y7	0.0145	0.0479	0.0446	0.0474	0.0591

8)常染色体非整倍体的判断：

样本Y1-Y3的Z21、Z18、Z13均大于3，且对应的fr值与胎儿浓度接近，故分别判断为T21、T18、T13.

由于Y4样本fr15远大于胎儿浓度，通过检验母体白细胞可以判断母体chr15存在微重复，因此Z15偏大是由母体微重复造成的假阳。

样本Y6-Y7所有染色体的z值均小于3，属于正常范围，因此，判断为阴性，染色体不存在异常。

9)性染色体异常判断：

根据上述步骤得到待测试孕妇样品Y5的X染色体和Y染色体的UR ratio及胎儿浓度三个参数，代入权利要求4所描述的用于性染色体分析的预测模型，即可判断Y5为XXY。

在步骤8)中计算出三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，三种并行检测策略大大增加了检测的可信度。通常，Z大于3或者小于-3为统计学意义上的异常，本发明中只有三个值均为阴性，才判为阴性，否则会针对性地深度分析。

另外，除了上述实施例之外，采用本发明的技术方案对301医院100例预约羊穿孕妇进行分析，发现100例中NIPT与羊穿对照结果仅有1例不一致，该样本重建库重测序6次，均为显著T13；但羊穿结果为阴性。样本后经贝瑞验证，依旧为T13，疑似胎盘嵌合导致T13假阳。还检测了一万余例样本，全部阳性结果与羊穿结果等已知信息比对，准确性达到了100％，其中，成功剔除了一例母亲7号染色体存在大片段重复所造成的胎儿7号染色体三体的假阳性、一例母亲10号染色体存在大片段重复所造成的胎儿7号染色体三体的假阳性；羊穿验证结果与NIPT结果均报出母体微重复。

综上所述，本发明的实施例至少达到了以下技术效果。

1)能够有效评估胎儿浓度，建立判定模型，胎儿浓度低时能保证检测结果准确；

2)能够检测胎儿全部23对染色体非整倍体异常；

3)可以用于多胎检测；

4)可以有效校正掉批次间的波动性；

5)适用于母体染色体异常的情况，能够有效剔除母体异常的影响。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种胎儿DNA浓度预测模型的构建方法，其特征在于，包括以下步骤：

1)选取一定数量核型分析无染色体异常且孕周大于等于12周的怀有正常男胎的孕妇样品、一定数量的健康男性和女性样本，对这些样本的血浆游离DNA样本进行基因测序，测序数据按照测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对uniquereads数进行GC校正，然后计算这些样本的Y染色体的UR ratio，得到怀有正常男胎的孕妇样品的Y染色体的UR ratio R_样品、女性样本的Y染色体的UR ratio R_female、男性样本的Y染色体的UR ratio R_male；

所述测序GC偏好性的校正方法包括以下步骤：

1)利用高通量测序平台对待测样品进行测序；

2)将测序得到的碱基序列去除接头及低质量的碱基序列后与参考数据库的对照样本的参考基因组序列进行比对，统计每条染色体上的唯一比对到参考基因组的序列条数，即Unique Read的条数，并计算每条染色体上Unique Read的总量占总的Unique Reads的百分比，即UR ratio；

3)测序GC偏好性校正：数据预处理，然后同时采用三套不同的校正策略进行GC矫正；

其中，数据预处理包括：将整条染色体划分为100kb片段大小的窗，重叠区域为50kb，计算每个窗内各测序序列的GC含量，同时计算窗内的unique reads数，忽略带有测序不确定的碱基N、unique reads为0或者异常高的那些窗，然后，对窗内的unique reads数进行归一化，即除以参考数据库的对照样本的对应窗内的unique reads数；

所述三套不同的校正策略包括：

一、采用局部多项式加权回归方法进行GC校正：数据预处理后，利用窗内的uniquereads数与窗内的GC含量作局部多项式加权回归，再利用窗内归一化的unique reads数除以局部多项式加权回归得到的估计值算出每个窗的unique reads的数值，进而实现对每条染色体上的Unique reads的GC校正；

二、采用滚动中值方法进行GC校正：数据预处理后，对所有染色体内所有窗的GC含量进行排序，以0.1％GC值差异对所有窗进行分组，统计每个GC值组内的所有窗的Unique reads数，计算其中位数作为该GC组测序序列的GC权重，再利用窗内归一化的unique reads数除以该GC组的GC权重，从而得到GC校正后的unique reads数；

三、利用线性回归方法进行GC校正：数据预处理后，利用最小二乘法估算出每条染色体的归一化unique reads数和GC与1/GC的回归方程，得到unique reads的估计值，利用窗内归一化的unique reads数除以其对应窗的估计值，从而实现对每条染色体的Unique reads数的GC校正；

2)根据如下公式计算胎儿浓度：男胎胎儿DNA浓度＝(R_样品-R_female)/(R_male-R_female)，然后，计算所述怀有正常男胎的孕妇样品的测序序列的片段长度，并统计片段长度的分布情况，通过计算不同片段长度的百分比得到统计学参数片段长度百分比，将胎儿浓度与片段长度百分比做线性回归，构建线性回归模型，然后通过所述线性回归模型根据怀有女胎的孕妇样品的片段长度百分比预测女胎胎儿的DNA浓度。

2.一种用于性染色体分析的预测模型的构建方法，其特征在于，包括以下步骤：

1)选取一定数量核型分析无染色体异常且孕周大于等于12周的孕妇样品作为参考数据库的对照样品，其中，要求怀有男胎和女胎的孕妇样品数量无显著差异；另外选择相同数量的经核型分析验证的XO、XXX、XXY、XYY样品，怀有男胎的对照样品、怀有女胎的对照样品和经核型分析验证的XO、XXX、XXY、XYY样品作为构建模型的测试集；

2)对所述测试集的血浆中提取的DNA样本进行基因测序，测序数据按照测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio；同时按照如权利要求1所述的胎儿DNA浓度预测模型的构建方法构建预测模型，利用片段长度百分比计算胎儿浓度；

所述测序GC偏好性的校正方法包括以下步骤：

1)利用高通量测序平台对待测样品进行测序；

所述三套不同的校正策略包括：

3)对于X染色体和Y染色体的UR ratio及胎儿浓度三个参数，利用基于二叉树的支持向量机多类分类算法，利用k折交叉验证得到稳定的预测模型。

3.一种减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性的方法，其特征在于，包括以下步骤：

1)提取待测母体的血浆游离DNA进行测序，测序数据按照测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正；

所述测序GC偏好性的校正方法包括以下步骤：

1)利用高通量测序平台对待测样品进行测序；

所述三套不同的校正策略包括：

2)计算测试样本数据在每个窗口中的Z值；将测试样本的某个染色体上的Z值的平均值与相应的阈值进行比较，从而判断该染色体是否缺失或重复，及缺失或重复的区域；

3)在胎儿染色体非整倍体检测Z值计算时，将测试样本中存在缺失或重复的窗过滤掉，从而减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体的假阳性。

4.一种非整倍性生物信息的分析***，其特征在于，包括：

UR ratio计算模块：用于按照测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对参考数据库中样本的unique reads数进行GC校正，然后计算每条染色体URratio；

所述测序GC偏好性的校正方法包括以下步骤：

1)利用高通量测序平台对待测样品进行测序；

所述三套不同的校正策略包括：

参考数据库统计学参数构建模块：用于根据UR ratio计算模块中获得的UR ratio，计算对照样品库中每条常染色体UR ratio的均值和标准误差；

Z值计算模块：用于对待测孕妇样本的血浆游离DNA进行测序，测序数据按照测序GC偏好性的校正方法消除染色体内和染色体间测序GC偏好性，对unique reads数进行GC校正，然后计算每条染色体UR ratio，其常染色体的Z值计算：

Z_i＝(x_i-μ_i)/σ_i

i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

σ_i：对照样品库中第i号染色体的UR ratio的标准误差；

母体自身染色体微缺失或微重复计算模块：用于按照如权利要求3所述的方法减少母体自身染色体存在微缺失或微重复造成的胎儿染色体非整倍体假阳性；

胎儿DNA浓度预测模块：用于按照如权利要求1所述的构建方法构建的胎儿DNA浓度预测模型预测胎儿DNA浓度；

胎儿DNA数量计算模块：用于计算胎儿每条染色体的DNA数量占总体DNA的百分比：计算待测样本中每条染色体的UR ratio与对照样品库长对照样本的偏差，该偏差与对照样本URratio的平均值的比例的2倍则为胎儿的DNA占总体DNA的比例，公式为：

fr_i＝(x_i-μ_i)/μ_i*2

其中，i：染色体编号；

x_i：分析数据中第i号染色体的UR ratio；

μ_i：对照样品库中第i号染色体的UR ratio的平均值；

fr_i：胎儿第i号染色体的DNA数量占胎儿和母体的第i号染色体总DNA的百分比；

常染色体非整倍体的判断模块：用于根据所述Z值计算模块中针对三套不同的GC矫正校正策略计算出三套不同的Z值，三者结合来综合地判断UR ratio的值是否有统计学意义上的异常，具体的，若三套不同的Z_i均Z_i＞3(i＝1，2，…，22)，且fr_i接近胎儿浓度，则判断第i号染色体为非整倍体；

性染色体异常判断模块：用于通过如权利要求2所述的用于性染色体分析的预测模型的构建方法构建预测模型，对测试孕妇样品的性染色体异常情况进行判断。

5.根据权利要求4所述的分析***，其特征在于，所述常染色体非整倍体的判断模块中进一步包括根据计算对数似然比L值，并根据L值进行常染色体非整倍体的判断。