CN115223654A - 检测胎儿染色体非整倍体异常的方法、装置及存储介质 - Google Patents

检测胎儿染色体非整倍体异常的方法、装置及存储介质 Download PDF

Info

Publication number
CN115223654A
CN115223654A CN202210825534.2A CN202210825534A CN115223654A CN 115223654 A CN115223654 A CN 115223654A CN 202210825534 A CN202210825534 A CN 202210825534A CN 115223654 A CN115223654 A CN 115223654A
Authority
CN
China
Prior art keywords
value
fetal
chromosome
sample
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210825534.2A
Other languages
English (en)
Inventor
杨杰淳
彭继光
彭智宇
孙隽
向嘉乐
刘晶娟
李婧柔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BGI Shenzhen Co Ltd
Original Assignee
BGI Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BGI Shenzhen Co Ltd filed Critical BGI Shenzhen Co Ltd
Priority to CN202210825534.2A priority Critical patent/CN115223654A/zh
Publication of CN115223654A publication Critical patent/CN115223654A/zh
Priority to PCT/CN2023/080510 priority patent/WO2024011929A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请公开了一种检测胎儿染色体非整倍体异常的方法、装置及存储介质。本申请检测胎儿染色体非整倍体异常的方法,包括根据待测孕妇血液游离DNA的胎儿DNA浓度、Z值、嵌合度,计算待测样本新的Z值,根据新的Z值判断胎儿染色体是否发生非整倍体异常;嵌合度为胎儿异常细胞占所有胎儿细胞的比率。本申请率先将嵌合度纳入胎儿染色体非整倍体异常检测,综合考虑胎儿DNA浓度、嵌合度和Z值三个变量计算新的Z值,能提升NIPT检测准确度,对真阳性和假阳性样本具有很好的区分度,减少假阳性;新的Z值从分布上符合正态分布,能满足目前监管和临床使用的要求,降低数据分布波动性,从而降低灰区率、降低重测率,提升检测结果稳定性。

Description

检测胎儿染色体非整倍体异常的方法、装置及存储介质
技术领域
本申请涉及胎儿染色体非整倍体异常检测技术领域,特别是涉及一种检测胎儿染色体非整倍体异常的方法、装置及存储介质。
背景技术
胎儿染色体非整倍体异常,即胎儿染色体为非整倍体,正常胎儿的染色体为23对(46条),即染色体呈整倍体,如果出现了染色体缺失或染色体增多,形成非整倍体,则说明胎儿染色体存在异常,即胎儿染色体非整倍体异常。
目前,临床上比较常见的胎儿染色体非整倍体异常为唐氏综合征、爱德华氏综合征和Patau综合征。
唐氏综合征(21-三体综合征,Down syndrome)是21号染色体的三体现象造成的遗传疾病,常见症状有发育迟缓、特殊的面部特征以及轻度到中度的智能障碍。目前唐氏综合症并无有效的治疗方法,仅能透过生活照料及教育来改善患者的生活品质。除唐氏综合征之外,临床上比较常见的胎儿染色体非整倍体异常还包括爱德华氏综合征(18-三体综合症,Edwards syndrome)和Patau综合征(13-三体综合征,Patau syndrome)等,均会导致患儿发生严重发育异常。
唐氏综合征的分子生物学机制是生殖细胞在生成时21号染色体不分离,导致受精卵中含有3个21号染色体的拷贝,进而导致一系列分子与发育生物学过程的异常。由于以唐氏综合征为代表的染色体非整倍体综合征尚无有效治疗手段且尚未发现与其发病相关的特定行为或环境因素,因此,目前的主要应对手段是通过对孕妇进行产前筛查避免唐氏综合征等具有严重遗传疾病婴儿的出生,即在母亲怀孕时进行相应检测,若检测到相关指标为阳性或高风险,则通过终止妊娠来避免三体婴儿的诞生。
传统筛查通过血清学标志物,如AFP、游离β-hCG、uE3、Inhibin-A,进行三体风险的评估。由于血清学标志物是间接指标,并不能直接反应胎儿染色体非整倍体状态,因此灵敏度和特异性均较差。2010年前后,高通量测序技术逐渐兴起与普及,通过高通量测序技术可以精确地对母亲血浆中的游离DNA(cfDNA)进行检测和定量,进而通过目标染色体的相对含量高低来筛查包含21-三体在内的染色体异常(即NIPT,Non-Invasive PrenatalTesting)。2015年,《新英格兰》杂志发表文章,通过前瞻性、多中心临床试验对15841例样本进行分析表明,NIPT的性能显著优于传统筛查,其灵敏度和特异性均达到99.9%以上;相比之下,传统血清学筛查手段的灵敏度仅为78.9%,特异性仅为94.6%,证明NIPT大大提升了以唐氏综合征为代表的染色体非整倍体综合征筛查的效果。
然而,NIPT检测的性能依然有待提升。根据Zhang等人2015年发表的文章,作者对112669例具有随访结果的NIPT检测结果进行分析,发现传统NIPT的检测性能主要存在以下两方面的问题:第一,阳性预测值(PPV)有待提升。根据文章中的数据,T21的阳性预测值为92.2%,而T18的阳性预测值为76.6%,T13的阳性预测值更是仅有32.8%,显示出传统NIPT检测方法的假阳较多,阳性预测值有待提升;第二,重测率高。根据文章中的数据,112669例样本产生了3213次重抽血,重抽血率为2.8%。重抽血意味着第一次NIPT检测值处于灰区,因此不能给出阴性或阳性的检测结果,需要重新抽一管血,再次检测。在这种情况下,孕妇不仅额外经受了一次抽血的痛苦;更重要的是,延长了NIPT检测报告结果的周期,可能导致孕妇错过最佳的干预时期,对孕妇的生命健康带来重大隐患。
因此,如何提升NIPT检测的阳性预测值,降低重测率,是胎儿染色体非整倍体异常检测的研究重点和难点。
发明内容
本申请的目的是提供一种改进的检测胎儿染色体非整倍体异常的方法、装置及存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种检测胎儿染色体非整倍体异常的方法,包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,标记为Znew,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常;嵌合度为胎儿异常细胞占所有胎儿细胞的比率。
需要说明的是,本申请检测胎儿染色体非整倍体异常的方法,关键在于将胎儿DNA浓度、本申请独特的指标:嵌合度、以及传统Z值三个变量计算获得目前领域内常用且认可的新的Z值,即Znew。其中,“传统Z值”即根据传统的常规方法获得的Z值;本申请的“新的Z值”即本申请通过三个变量计算获得的Z值。本申请的方法,将嵌合度作为计算“新的Z值”的输入变量,有助于提升NIPT检测的准确度,对真阳性和假阳性样本具有很好的区分度,减少假阳性;新的Z值从分布上符合正态分布,不仅能够满足目前监管和临床使用的要求;而且还能够大大降低数据分布的波动性,从而降低灰区率、降低重测率,提升检测结果的稳定性。
本申请的一种实现方式中,根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,包括将胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值,由模型输出值印射获得待测样本的新的Z值;其中,胎儿染色体非整倍体异常检测模型是采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型。
可以理解,机器学习模型训练获得新的Z值只是本申请的一种实现方式,不排除还可以采用其他计算方式由胎儿DNA浓度、Z值、嵌合度计算获得本申请的新的Z值。
本申请的一种实现方式中,由模型输出值印射获得待测样本的新的Z值,包括根据待测样本的模型输出值、阳性阈值、阴性阈值、所有阴性样本的模型输出值的中位数,计算获得待测样本的新的Z值;其中,阳性阈值为阳性样本对应的模型输出值的阈值,阴性阈值是阴性样本对应的模型输出值的阈值。
需要说明的是,模型输出值,或称机器学习模型生成值,是通过胎儿染色体非整倍体异常检测模型输出的评估胎儿染色体非整倍体异常的数值,该数值无法像传统Z值一样根据统计学意义来划分阈值,只有通过训练数据的特征进行阈值划定;例如,划定阴性阈值,使得训练数据中所有的真阳性样本均不会被判定为阴性,保证模型不会产生假阴性;划定阳性阈,使得尽可能多的真阳性样本能够被判断为阳性,同时尽可能少的原始假阳性样本被判断为阳性,从而降低假阳性以提升NIPT检测的性能;阳性阈值与阴性阈值之间为灰区;为了使待测样本的模型输出值能够直接用于判断胎儿染色体非整倍体异常状态,本申请进一步的将模型输出值印射为新的Z值,即Znew;并且,试验结果显示,通过本申请印射获得的新的Z值符合正态分布,且分布的中心位于0,因此,依然可以用Z>3作为阳性的判断标准,Z<1.96作为阴性的判断标准。
本申请的一种实现方式中,阴性样本的模型输出值的中位数,是把所有阴性训练样本再次输入胎儿染色体非整倍体异常检测模型中,获得的所有阴性样本的模型输出值的中位数;
本申请的一种实现方式中,由模型输出值印射获得待测样本的新的Z值,包括以下印射方式,
当待测样本的模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当待测样本的模型输出值小于阳性阈值、且大于阴性阈值时,
Figure BDA0003743827800000041
当待测样本的模型输出值小于阴性阈值时,
Figure BDA0003743827800000042
以上公式中,Znew为新的Z值,LD为待测样本的模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为所有阴性样本的模型输出值的中位数。
需要说明的是,本申请中,由模型输出值印射获得新的Z值的理念如下:
1)当模型输出值大于阳性阈值时,最终转换得到的新的Z值需要大于3,因为临床上对于三体阳性的判定习惯以Z>3作为阈值。
2)当模型输出值处于灰区时,最终转换得到的新的Z值需要介于1.96~3之间,因为临床上习惯以Z~[1.96,3)作为灰区范围。
3)当模型输出值小于阴性阈值时,最终转换得到的新的Z值需要小于1.96,因为临床上对于三体阴性的判定习惯以Z<1.96作为阈值。
另外,本申请还保证了阴性样本新的Z值的中位数为0,因为对于标准正态分布其中位数就应该等于0;因此,公式里面有考虑Med,即阴性样本的模型输出值中位数。根据以上印射公式可以发现,当模型输出值等于阴性样本的模型输出值中位数的时候,新的Z值为0。
还需要说明的是,以上公式中的具体数值是本申请的一种实现方式中具体得出的数据;可以理解,如果训练样本改变,相应的印射公式中的数据也会改变;但是,通过印射公式获得新的Z值的基本原则不变。
本申请的一种实现方式中,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常,包括,新的Z值大于3判断为阳性,即胎儿染色体非整倍体异常;新的Z值小于1.96判断为阴性,即胎儿染色体正常。
本申请的一种实现方式中,机器学习模型为线性判别分析模型(lineardiscriminant analysis,缩写LDA)。
本申请的一种实现方式中,胎儿异常细胞为含有胎儿染色体非整倍体异常的细胞。
本申请的一种实现方式中,孕妇血液游离DNA中的胎儿DNA浓度、Z值,通过孕妇血液游离DNA的高通量测序数据计算获得。
本申请的一种实现方式中,嵌合度由公式一计算获得;
公式一
Figure BDA0003743827800000051
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;
frak采用公式二计算获得;
公式二
Figure BDA0003743827800000052
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure BDA0003743827800000053
为第k条染色体矫正后的深度的平均值,
Figure BDA0003743827800000054
为所有常染色体校正后的深度的平均值;
公式一和公式二中,k的取值为1至22;
Mosaick为0,说明胎儿的第k条染色体正常;Mosaick为1,说明胎儿的第k条染色体完全为三体;Mosaick介于0-1之间,说明胎儿的第k条染色体存在嵌合。本申请中,胎儿染色体k存在嵌合是指,一部分胎儿细胞中的染色体k是三体状态,另一部分胎儿细胞中的染色体k是非三体状态;原则上,在固定胎儿DNA浓度的情况下,若胎儿是完全三体,则孕妇外周血中的三体信号较强;若胎儿是嵌合三体,则孕妇外周血中三体信号较弱;并且,嵌合度较低时一般为数据波动带来的假阳性,嵌合度较高时一般为真阳性。
本申请的一种实现方式中,每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值,通过孕妇血液游离DNA的高通量测序数据计算获得。
本申请的一种实现方式中,本申请检测胎儿染色体非整倍体异常的方法,包括以下步骤:
数据获取步骤,包括获取待测孕妇血液游离DNA的高通量测序数据;
数据处理步骤,包括根据获取的待测孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、Z值;
嵌合度计算步骤,包括根据公式一计算每条染色体的嵌合度;
新的Z值计算步骤,包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;
胎儿染色体非整倍体异常判断步骤,包括根据新的Z值判断待测胎儿的染色体是否发生非整倍体异常。
需要说明的是,本申请检测胎儿染色体非整倍体异常的方法,关键在于将胎儿DNA浓度、嵌合度、以及传统Z值三个变量通过胎儿染色体非整倍体异常检测模型综合考虑得到模型输出值,并将该值转换成目前领域内常用且认可的Z值,即新的Z值(Znew)。其中,“传统Z值”即“数据处理步骤”根据传统的常规方法获得的Z值,为了更好的区分本申请的“新的Z值”,将“数据处理步骤”获得的Z值称为“传统Z值”,将本申请通过模型输出值印射获得的Z值称为“新的Z值”。本申请将嵌合度纳入机器学习模型中有助于提升NIPT检测的准确度,对真阳性和假阳性样本具有很好的区分度,减少假阳性;新的Z值从分布上符合正态分布,不仅能够满足目前监管和临床使用的要求;而且还能够大大降低数据分布的波动性,从而降低灰区率、降低重测率,提升检测结果的稳定性。
本申请的第二方面公开了一种胎儿染色体非整倍体异常检测模型的构建方法,包括采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型。
需要说明的是,本申请的胎儿染色体非整倍体异常检测模型的构建方法,实际上就是本申请的检测胎儿染色体非整倍体异常的方法中,胎儿染色体非整倍体异常检测模型的构建方法;因此,胎儿DNA浓度、Z值和嵌合度的计算方法都可以参考本申请的检测胎儿染色体非整倍体异常的方法,在此不累述。
本申请的第三方面公开了一种检测胎儿染色体非整倍体异常的装置,包括新的Z值计算模块和胎儿染色体非整倍体异常判断模块;新的Z值计算模块包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;嵌合度为胎儿异常细胞占所有胎儿细胞的比率;胎儿染色体非整倍体异常模块包括根据所述新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常。
本申请的一种实现方式中,新的Z值计算模块还包括将胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值,由模型输出值印射获得待测样本的新的Z值;其中,胎儿染色体非整倍体异常检测模型是采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,由此获得的模型;模型输出值用于综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况。
因此,本申请的一种实现方式中,本申请的装置还包括模型训练模块,采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型。优选地,机器学习模型为线性判别分析模型。
本申请的一种实现方式中,新的Z值计算模块包括模型输出值分析子模块和Z值印射子模块;模型输出值分析子模块,包括用于将待测样本的胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值;Z值印射子模块,包括用于根据待测样本的模型输出值,以及阳性阈值、阴性阈值、所有阴性样本的模型输出值的中位数,计算获得待测样本的新的Z值;阳性阈值为阳性样本对应的模型输出值的阈值,阴性阈值是阴性样本对应的模型输出值的阈值。
本申请的一种实现方式中,Z值印射子模块,根据以下方式获得新的Z值,
当待测样本的模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当待测样本的模型输出值小于阳性阈值、且大于阴性阈值时,
Figure BDA0003743827800000071
当待测样本的模型输出值小于阴性阈值时,
Figure BDA0003743827800000072
以上公式中,Znew为新的Z值,LD为待测样本的模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为所有阴性样本的模型输出值的中位数;
本申请的一种实现方式中,胎儿染色体非整倍体异常模块,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常,包括,新的Z值大于3判断为阳性,即胎儿染色体非整倍体异常;新的Z值小于1.96判断为阴性,即胎儿染色体正常。
需要说明的是,本申请的装置中,模型训练模块可以根据需求使用,例如在已经获得胎儿染色体非整倍体异常检测模型、阳性阈值、阴性阈值和所有阴性样本的模型输出值的中位数的情况下,其他模块可以直接调用模型和数据;因此,不必每次检测都运行模型训练模块。当然,如果训练样本发生改变,例如增加训练样本,则建议运行模型训练模块,以进一步完善模型和各项数据。
还需要说明的是,本申请检测胎儿染色体非整倍体异常的装置,实际上就是通过各模块实现本申请的检测胎儿染色体非整倍体异常的方法;因此,各模块的具体限定可以参考本申请的检测胎儿染色体非整倍体异常的方法。例如,胎儿DNA浓度、Z值和嵌合度的计算,具体的Znew计算方式、线性判别分析模型、如何根据Znew判断阳性和阴性等,都可以参考本申请的检测胎儿染色体非整倍体异常的方法。
本申请的第四方面公开了一种检测胎儿染色体非整倍体异常的装置,该装置包括存储器和处理器;存储器包括用于存储程序;处理器包括用于通过执行存储器存储的程序以实现本申请的检测胎儿染色体非整倍体异常的方法或者本申请的胎儿染色体非整倍体异常检测模型的构建方法。
可以理解,在本申请的装置通过执行存储器存储的程序以实现本申请的胎儿染色体非整倍体异常检测模型的构建方法时,本申请的装置实际上是一个用于模型构建的装置,由该装置构建获得的模型可以按照本申请的方法用于检测胎儿染色体非整倍体异常。
本申请的第五方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的检测胎儿染色体非整倍体异常的方法或者本申请的胎儿染色体非整倍体异常检测模型的构建方法。
可以理解,在本申请的计算机可读存储介质中存储的程序能够被处理器执行以实现本申请的胎儿染色体非整倍体异常检测模型的构建方法时,本申请的计算机可读存储介质实际上是一个用于模型构建的计算机可读存储介质,该计算机可读存储介质可以直接被使用,以实现胎儿染色体非整倍体异常检测模型的构建,由此构建获得的模型可以按照本申请的方法用于检测胎儿染色体非整倍体异常。
由于采用以上技术方案,本申请的有益效果在于:
本申请检测胎儿染色体非整倍体异常的方法和装置,率先将嵌合度纳入胎儿染色体非整倍体异常检测,综合考虑胎儿DNA浓度、嵌合度和传统Z值三个变量,计算新的Z值。本申请的方法和装置能够提升NIPT检测的准确度,对真阳性和假阳性样本具有很好的区分度,减少假阳性。并且,新的Z值从分布上符合正态分布,不仅能够满足目前监管和临床使用的要求;还能够降低数据分布的波动性,从而降低灰区率、降低重测率,提升检测结果的稳定性。
附图说明
图1是本申请实施例中检测胎儿染色体非整倍体异常的方法的流程框图;
图2是本申请实施例中检测胎儿染色体非整倍体异常的装置的结构框图;
图3是本申请实施例中10240例样本的T13嵌合度分析图;
图4是本申请实施例中10000例样本21号染色体的新的Z值的Q-Q图;
图5是本申请实施例中10000例样本13号染色体的传统Z值和新的Z值的分布图。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
本申请创造性的将嵌合度作为计算新的Z值的一个变量,以此提升NIPT检测的准确度。因此,本申请提出了一种检测胎儿染色体非整倍体异常的方法,包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常;其中,嵌合度为胎儿异常细胞占所有胎儿细胞的比率。
本申请的一种实现方式中,检测胎儿染色体非整倍体异常的方法,如图1所示,具体包括数据获取步骤11、数据处理步骤12、嵌合度计算步骤13、新的Z值计算步骤14、胎儿染色体非整倍体异常判断步骤15。
其中,数据获取步骤11,包括获取待测孕妇血液游离DNA的高通量测序数据。例如本申请的一种实现方式中,下机数据为测序仪产生的fastq格式的文件。
数据处理步骤12,包括根据获取的待测孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、Z值、每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值。在本申请的一种实现方式中,该步骤包含常规NIPT流程的通用操作,具体包括如下:
A)序列比对及过滤,将测序仪产生的fastq格式文件中包含的序列信息通过公开软件,如BWA(0.7.7-r441),比对至人体参考基因组,如GRCh37/hg19,过滤去除比对质量较差序列、多重比对序列、重复序列、非完美比对序列,留下唯一比对序列,将每一条唯一比对序列的坐标等信息储存在bam格式文件中。
B)窗口划分以及数据矫正,将人类参考基因组划分为60kb左右的窗口,统计每一个60kb的窗口内唯一比对的序列数,作为该窗口原始的深度信息,即窗口深度。进一步,对每个窗口的原始深度进行GC矫正以及样本间矫正,得到每一个窗口矫正后的深度信息(即UR),对一条染色体上所有窗口矫正后的深度取平均,即得到“第k条染色体矫正后的深度的平均值”,本申请计算了所有常染色体校正后的深度的平均值。
C)胎儿DNA浓度计算,本申请对男胎和女胎分别采用不同的计算方式,具体如下:
男胎浓度计算方式如下:
男胎的胎儿浓度通过Y染色体的占比来确定,Y染色体的窗口UR均值除以常染色体的UR均值,再乘以2即为男胎的胎儿浓度FF:
Figure BDA0003743827800000101
女胎浓度计算方式如下:
女胎的胎儿浓度通过利用胎儿游离DNA在基因组上的非均匀分布建立一个高维回归模型来进行估算,背景假设在于胎儿,无论男胎还是女胎,其胎儿cfDNA和母体cfDNA在基因组上的分布特征不同。因此使用男胎的Y染色体方法估计的胎儿浓度作为训练模型的输入,利用神经网络机器学习的方法构建出回归模型,具体如下:
Figure BDA0003743827800000102
其中l为网络的层的序号,第一层为输入层,最后一层为输出层(只有一个神经元),中间为隐藏层。
Figure BDA0003743827800000103
为第l层第j个神经元的数值,
Figure BDA0003743827800000104
为第l-1层第k个神经元的数值,
Figure BDA0003743827800000105
为第l-1层第k个神经元到第l层第j个神经元的连接权重,
Figure BDA0003743827800000106
为第l层第j个神经元的输入偏差。函数f的最常用形式为rectified linear unit,亦即f(x)=max(0,x)。w与b在训练模型时得到。应用模型时,按照以上公式逐层计算神经元的数值,最后一层的神经元数值即为胎儿浓度模型预测值。
D)传统Z值的计算,某一条染色体上所有区间的深度符合正态分布,因此以某一条染色体作为参照,即可利用待测染色体区间深度的分布计算待测染色体的Z值,该Z值即可以作为判定该条染色体是否为三体的依据。
本申请具体的,传统Z值计算方式如下:
常染色体每个窗口矫正后的深度信息UR服从泊松分布,窗口数较大时服从正态分布,对于正常样本,待测染色体UR的分布和参照染色体UR的分布是不存在显著差异的,对于异常样本则存在微小的差异,利用Z检验即可判断出胎儿染色体非整倍体异常,具体如下:
Figure BDA0003743827800000111
其中:
Figure BDA0003743827800000112
i号染色体UR的均值;
Figure BDA0003743827800000113
j号染色体UR的均值;
SDi:表示i号染色体的UR的标准差;
SDj:表示j号染色体的UR的标准差;
Li:表示i号染色体划分的窗口数目;
Lj:表示j号染色体划分的窗口数目;
Zi:表示i号染色体的非整倍体的显著性,反应与整倍性的差异。
上述公式是在同一个样本内部的22条常染色体之间进行相互比较,这样做的背景假设在于,一个样本的绝大部分染色体均应该是正常的二倍体。因此,将目标染色体与其余21条染色体进行21次比较,如果目标染色体是正常的二倍体,则21次Z检验绝大部分的值应该接近于0,取平均就得到一个阴性的Z值;反之如果目标染色体是三体,则21次Z检验绝大部分的值都远大于0,取平均就得到一个阳性的Z值。
嵌合度计算步骤13,包括根据胎儿DNA浓度计算每条染色体的嵌合度。
例如,具体根据公式一计算每条染色体的嵌合度:
公式一
Figure BDA0003743827800000114
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;frak采用公式二计算获得:
公式二
Figure BDA0003743827800000115
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure BDA0003743827800000116
为第k条染色体矫正后的深度的平均值,
Figure BDA0003743827800000117
为所有常染色体校正后的深度的平均值;公式一和公式二中,k的取值为1至22。
Mosaick为0,说明染色体k正常;Mosaick为1,说明胎儿的染色体k完全为三体;Mosaick介于0-1之间,说明胎儿的染色体k存在嵌合。
需要说明的是,嵌合度计算以及将其纳入胎儿染色体非整倍体异常,是本申请的创新改进之一。研究显示,胎儿三体并不都是完全三体的情形,也就是说,并不是胎儿身上的每一个细胞都是三体状态,胎儿细胞一部分是三体状态,一部分非三体状态的这种情形叫做嵌合。胎儿嵌合情况会影响NIPT的检出结果,例如,在固定胎儿DNA浓度的情况下,若胎儿是完全三体,则孕妇外周血中的三体信号较强;若胎儿是嵌合三体,则孕妇外周血中三体信号较弱。由于NIPT涉及到血浆采集、保存、运输、cfDNA分离、建库、上机测序等多个步骤,其中任何一步的细微波动都会导致最终的检测结果产生波动,对于阴性样本来说,可能由于数据波动带来类似低嵌合度的弱三体信号。因此,本申请创造性的提出,对于嵌合度进行定量描述,并进一步明确真阳性样本的嵌合度与由于数据波动造成的弱三体信号的嵌合度之间的差异,以此更好对真阳性和假阳性样本进行区分。
新的Z值计算步骤14,包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;其中,嵌合度为胎儿异常细胞占所有胎儿细胞的比率。
例如,将新的Z值计算步骤14分为模型输出值分析子步骤和Z值印射子步骤。
模型输出值分析子步骤,包括将待测样本的胎儿DNA浓度、传统Z值和嵌合度,输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值。其中,胎儿染色体非整倍体异常检测模型是采用若干个已知胎儿染色体非整倍体异常情况的样本作为训练样本,以胎儿DNA浓度、传统Z值和嵌合度为输入,模型输出值为输出,进行机器学习模型训练,获得的模型。
需要说明的是,机器学习模型训练是本申请的另一个创新改进,本申请在训练模型之前,研究发现,胎儿DNA浓度、嵌合度、传统Z值三个变量之间存在非常好的线性关系;因此,将胎儿DNA浓度、嵌合度、传统Z值三个变量放入LDA(线性判别分析)模型中进行模型训练,得到训练后的模型,即胎儿染色体非整倍体异常检测模型。
LDA模型的一般形式如下:
LD=W1a1+W2a2+…+wkak
其中wk为系数,即模型训练得到的模型输出值,而ak为变量,为输入模型的样本信息,在本例即胎儿浓度、传统Z值和嵌合度。因此,模型训练后实际上得到的是胎儿浓度、传统Z值、嵌合度这三个变量的系数,有了这三个系数,再加上样本的胎儿浓度、传统Z值、嵌合度,就能够通过上述公式得到机器学习模型的结果,即模型输出值(LD值)。
Z值印射子步骤,包括根据待测样本的模型输出值,阳性阈值、阴性阈值、所有阴性样本的模型输出值中位数,计算获得待测样本的新的Z值,标记为Znew
需要说明的是,机器学习模型生成的结果不再符合某一具有统计学意义的分布,因此无法像传统Z值一样根据统计学意义来划分阈值,只有通过训练数据的特征进行阈值划定。划定阴性阈值,使得训练数据中所有的真阳性样本均不会被判定为阴性,保证模型不会产生假阴性。划定阳性阈值,使得尽可能多的真阳性样本能够被判断为阳性,同时尽可能少的原始假阳性样本被判断为阳性,从而降低假阳性以提升NIPT检测的性能。阳性阈值与阴性阈值之间为灰区。
机器学习模型生成的结果不再符合某一具有统计学意义的分布,然而实际临床使用中,根据临床的使用习惯以及监管的要求,NIPT三体检测结果必须以Z值的形式进行反馈,且以3作为阳性阈值,如何使得不具有统计学意义的机器学习模型的结果转变为具有统计学意义的Z值是本申请的第三个创新改进。本申请的一种实现方式中采用的机器学习模型是线性模型,使得机器学习模型最终生成的结果能够保持传统Z值的分布特征;因此,本申请创造性的采用印射方法,将模型输出值印射为新的Z值,这样既能够提升NIPT检测的性能,又使得最终的结果具有和Z值类似的分布特征,即符合中心为0的正态分布。
本申请的一种实现方式中,具体印射方法如下:
当待测样本的模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当待测样本的模型输出值小于阳性阈值、且大于阴性阈值时,
Figure BDA0003743827800000131
当待测样本的模型输出值小于阴性阈值时,
Figure BDA0003743827800000132
以上公式中,Znew为新的Z值,LD为待测样本的模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为阴性样本的模型输出值中位数。
胎儿染色体非整倍体异常判断步骤15,包括根据新的Z值判断待测胎儿的染色体是否发生非整倍体异常。
本申请的一种实现方式中,通过分段印射得到的新的Z值也符合正态分布,且分布的中心位于0;因此,依然可以用Z>3作为阳性判断值,Z<1.96作为阴性判断值。
基于本申请的检测胎儿染色体非整倍体异常的方法,本申请提出了一种胎儿染色体非整倍体异常检测模型的构建方法,包括采用若干个已知胎儿染色体情况的样本作为训练样本,所述训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型。其中,胎儿DNA浓度、Z值和嵌合度的计算方法都可以参考本申请的检测胎儿染色体非整倍体异常的方法,在此不累述。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的***进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请检测胎儿染色体非整倍体异常的方法,本申请提出了一种检测胎儿染色体非整倍体异常的装置,包括新的Z值计算模块和胎儿染色体非整倍体异常判断模块,新的Z值计算模块包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;嵌合度为胎儿异常细胞占所有胎儿细胞的比率;胎儿染色体非整倍体异常模块包括根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常。
本申请的一种实现方式中,检测胎儿染色体非整倍体异常的的装置,如图2所示,包括数据获取模块21、数据处理模块22、嵌合度计算模块23、模型训练模块24、新的Z值计算模块25、胎儿染色体非整倍体异常判断模块26。
其中,数据获取模块21,包括用于获取待测孕妇血液游离DNA的高通量测序数据。例如获取测序仪产生的fastq格式的文件。
数据处理模块22,包括用于根据获取的待测孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、传统Z值、每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值。例如参考现有的常规NIPT方案进行胎儿DNA浓度、传统Z值、每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值等的计算。
嵌合度计算模块23,包括根据胎儿DNA浓度计算每条染色体的嵌合度。
例如,根据公式一计算每条染色体的嵌合度;
公式一
Figure BDA0003743827800000151
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;
frak采用公式二计算获得;
公式二
Figure BDA0003743827800000152
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure BDA0003743827800000153
为第k条染色体矫正后的深度的平均值,
Figure BDA0003743827800000154
为所有常染色体校正后的深度的平均值;
公式一和公式二中,k的取值为1至22;
Mosaick为0,说明染色体k正常;Mosaick为1,说明胎儿的染色体k完全为三体;Mosaick介于0-1之间,说明胎儿的染色体k存在嵌合。
模型训练模块24,包括采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型;并在进行模型训练后,利用阳性样本获得对应的阳性阈值,利用阴性样本获得对应的阴性阈值,利用所有阴性样本模型输出值获得其中位数。
新的Z值计算模块25,包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;其中,嵌合度为胎儿异常细胞占所有胎儿细胞的比率。
例如,新的Z值计算模块25包括模型输出值分析子模块和Z值印射子模块;模型输出值分析子模块,包括用于将待测样本的胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值;Z值印射子模块,包括用于根据待测样本的模型输出值,以及阳性阈值、阴性阈值、所有阴性样本的模型输出值的中位数,计算获得待测样本的新的Z值;阳性阈值为阳性样本对应的模型输出值的阈值,阴性阈值是阴性样本对应的模型输出值的阈值。
胎儿染色体非整倍体异常判断模块26,包括用于根据新的Z值判断待测胎儿的染色体是否发生非整倍体异常。例如,新的Z值大于3判断为阳性,即胎儿染色体非整倍体异常;新的Z值小于1.96判断为阴性,即胎儿染色体正常。
本申请的另一实现方式中还提供了一种检测胎儿染色体非整倍体异常的装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常;其中,嵌合度为胎儿异常细胞占所有胎儿细胞的比率。或者,具体的用于实现以下方法:数据获取步骤,包括获取待测孕妇血液游离DNA的高通量测序数据;数据处理步骤,包括根据获取的待测孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、传统Z值;嵌合度计算步骤,包括根据胎儿DNA浓度计算每条染色体的嵌合度;模型值分析步骤,包括将待测的胎儿DNA浓度、传统Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值;Z值印射步骤,包括根据待测样本的模型输出值、阳性阈值、阴性阈值、阴性样本的模型输出值中位数,计算获得新的Z值;胎儿染色体非整倍体异常判断步骤,包括根据新的Z值判断待测胎儿的染色体是否发生非整倍体异常。
或者,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:包括采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常;其中,嵌合度为胎儿异常细胞占所有胎儿细胞的比率。或者,具体的用于实现以下方法:数据获取步骤,包括获取待测孕妇血液游离DNA的高通量测序数据;数据处理步骤,包括根据获取的待测孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、传统Z值;嵌合度计算步骤,包括根据胎儿DNA浓度计算每条染色体的嵌合度;模型值分析步骤,包括将待测的胎儿DNA浓度、传统Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值;Z值印射步骤,包括根据待测样本的模型输出值、阳性阈值、阴性阈值、阴性样本的模型输出值中位数,计算获得新的Z值;胎儿染色体非整倍体异常判断步骤,包括根据新的Z值判断待测胎儿的染色体是否发生非整倍体异常。
或者,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:包括采用若干个已知胎儿染色体情况的样本作为训练样本,训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型。
本申请的方法和装置,与现有技术的不同之处在于:
(1)本申请独创了检测指标——嵌合度,研究发现,嵌合度对于当前仅通过Z值(即传统Z值)方法报出的真阳性和假阳性样本具有很好的区分度。
(2)本申请综合胎儿浓度、本申请独特的指标——嵌合度、以及传统Z值三个变量,并在一种实现方式中,具体选择线性判别分析(LDA)作为机器学习模型,进行模型的训练以及结果的判定。研究发现,该模型的判定结果相比原始结果能够降低假阳性,提升检测效果。
(3)本申请使用的三个变量之间均是线性关系,线性关系简单明确,避免变量过多,变量之间量纲、分布特征不同带来的复杂性。在一种实现方式中采用线性判别分析模型(LDA)模型进行分析,模型简单且不存在过拟合的问题。
(4)本申请研发了一种新的Z值的转换的方法,将机器学习得到的不具备统计学含义的数值转化成临床上常用、且符合监管要求的Z值,即本申请的新的Z值。并且,通过本申请的Z值转换方法得到的新的Z值从分布上符合正态分布,能够满足目前监管和临床使用的要求。
(5)将本申请的新的Z值与传统Z值对比,可以发现新的Z值大大降低了数据分布的波动性,降低灰区、重测,提升检测结果的稳定性。
(6)本申请提供的基于机器学***台等因素产生的独特特征,因而能够更好地运用于华大基因当前实际生产产生的数据当中。可以理解,本申请建立的是一套针对个性化数据进行学习的方法,而并非只能针对华大基因的自身数据。
本申请首先独创了新的检测指标——嵌合度,并进一步综合胎儿DNA浓度、嵌合度、以及传统Z值三个变量,克服传统NIPT仅依靠Z值进行三体判断带来的结果的不准确性;且使用线性模型综合上述三个变量,模型简单且不存在过拟合的问题。进一步的,本申请还研发了一种Z值转换的方法,即Z值印射,将机器学习模型得到的无意义的数值转换成有意义且临床认可的Z值,即Znew,同时降低传统Z值的灰区、重测,提升检测结果的稳定性。
可以理解,在本申请的基础上,不排除还可以采用更多的参数进行模型训练和胎儿染色体非整倍体异常分析,例如考虑孕周、孕妇年龄等变量。当然,变量增加,相应的机器学习模型也需要进行更换,例如采用非线性的QDA模型。此外,本申请具体的Z值分段印射,也可以根据需求进行调整。
实施例1
本例使用建立的胎儿染色体非整倍体异常检测模型对有诊断结果/随访结果的样本进行预测。具体的,本例共采用108293例样本进行模型训练,这些样本在进入模型训练时分为阴性和阳性两类,但其中又包含3类核型,阴性样本包含真阴性和假阳性样本,阳性包含真阳性样本。由于男、女胎的胎儿浓度计算方式不同,导致男、女胎的胎儿浓度数据特征有差异,而胎儿浓度又是模型的关键变量之一,因此分男、女分别训练2个模型。具体样本数如表1所示。
表1用于模型训练的样本
真阳性 798 620
假阳性 234 318
真阴性 56864 49459
合计 57896 50397
表2用于模型训练的样本数据示例
胎儿浓度 传统Z值 嵌合度
真阳性1 0.149 14.501 0.900
真阳性2 0.120 10.058 0.885
假阳性1 0.293 4.834 0.173
假阳性2 0.389 6.821 0.158
真阴性1 0.229 -0.810 -0.035
真阴性2 0.120 -0.596 -0.049
本例将训练样本的胎儿DNA浓度、传统Z值和嵌合度,如表2所示,输入LDA模型中进行训练,获得模型输出值。将阴性样本机器学习得到的值取中位数,即得到“模型输出值中位数”,即后续印射公式中的Med。本例计算获得的中位数如表3所示。
表3模型输出值的中位数
Figure BDA0003743827800000181
Figure BDA0003743827800000191
在印射前,通过人为观察真阴性、假阳性与真阳性样本的分布,划定LD值的阈值,使得:1.真阳性样本均不会被判定为阴性;2.尽可能多的真阳性样本被判断为阳性;3.尽可能少的假阳性样本被判断为阳性。根据上述原则划定LD值的阈值,即印射公式中的阳性阈值(cutp)和阴性阈值(cutn),本例的具体值如表4所示。
表4LD值的阈值
Figure BDA0003743827800000192
在经过印射后,即取临床上常用的1.96和3作为新的Z值的阈值,即获得如下印射方法:
当模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当模型输出值小于阳性阈值、且大于阴性阈值时,
Figure BDA0003743827800000193
当模型输出值小于阴性阈值时,
Figure BDA0003743827800000194
以上公式中,Znew即新的Z值,LD为模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为阴性样本的模型输出值中位数。
选取华大基因在实际临床应用中检测的,并且进行了产前诊断/产后随访的样本共10240例。这些样本在实际临床检测中依据传统Z值给出检测结果,并依据检测结果进行后续产前诊断/产后随访,因此根据每个样本的检测结果与产前诊断/产后随访的结果可以将每一个样本归为真阳性、假阳性、真阴性3类,具体样本信息如表5所示。
其中,传统Z值计算方式如下:
Figure BDA0003743827800000201
其中:
Figure BDA0003743827800000202
i号染色体UR的均值;
Figure BDA0003743827800000203
j号染色体UR的均值;
SDi:表示i号染色体的UR的标准差;
SDj:表示j号染色体的UR的标准差;
Li:表示i号染色体划分的窗口数目;
Lj:表示j号染色体划分的窗口数目;
Zi:表示i号染色体的非整倍体的显著性,反应与整倍性的差异。
表5传统Z值给出的三体检测结果
Figure BDA0003743827800000204
表6用于模型测试的样本数据示例
胎儿浓度 传统Z值 嵌合度
真阳性1 0.067 5.824 0.885
真阳性2 0.146 11.714 0.808
假阳性1 0.188 3.602 0.205
假阳性2 0.187 4.186 0.252
真阴性1 0.115 1.137 0.090
真阴性2 0.059 -1.125 -0.192
可以看到,依据传统Z值进行检测,T21、T18、T13的阳性预测值分别为0.86、0.58和0.36,假阳性问题较为突出。
采用本申请的胎儿染色体非整倍体异常检测模型和检测胎儿染色体非整倍体异常的方法,计算上述10240例样本的嵌合度,以T13为例,结果如图3所示,嵌合度能够较好地区分真阳性、假阳性以及真阴性样本。进一步将嵌合度、胎儿浓度、传统Z值三个变量输入训练好的机器学习模型中,再通过Z值印射生成新的Z值。用于模型测试的部分样本数据如表6所示。通过新的Z值对上述10240例样本进行重新判定,以Z>3判定为阳性,Z<1.96判定为阴性生成新的检测结果,结果表7所示。
表7改进的胎儿染色体非整倍体异常检测方法给出的三体检测结果
Figure BDA0003743827800000211
表7的结果显示,使用新的Z值将14例T21假阳性、33例T18假阳性以及39例T13假阳性全部正确判定为阴性,同时87例T21真阳性、45例T18真阳性、22例T13真阳性以及10000例真阴性样本依然能够正确判定,因此T21、T18、T13的阳性预测值均达到100%,灵敏度为100%,特异性为100%,保证灵敏度的同时大幅降低检测的假阳性、提升PPV以及特异性。
实施例2
本例使用建立的模型对产线连续样本进行检测。
由于诊断/随访结果的搜集等因素,有核型的样本并不是单一中心连续样本,因此其在数据分布上的特征并不能反应人群真实的分布特征,因此无法评估新的Z值真实的分布特征。因此利用一段时间内,华大基因某一医检所收到的连续样本,对于得到的新的Z值的分布特征进行评估,并与传统Z值进行比较,以展示新的Z值在实际使用中的真实特征与规律。
抽取华大基因某一单一医检所某一时间段内进行了临床检测的10000例连续样本,利用本申请的胎儿染色体非整倍体异常检测模型和检测胎儿染色体非整倍体异常的方法对这10000例样本计算新的Z值,以21号染色体的Z值为例,查看21号染色体Z值的分布是否符合正态分布,结果如图4所示。图4的结果显示,10000例单一中心、连续时间段内的样本新的Z值基本位于Q-Q图的对角线上,其中个别偏离Q-Q图对角线较多的样本是信号较强的阳性样本,图4显示出新的Z值具有非常好的正态性。
进一步对比新的Z值与传统Z值的分布,以13号染色体的Z值为例,如图5所示。图5的结果显示,首先,新的Z值分布的中心更接近于0,表明新的Z值相比传统Z值更符合以0为中心的正态分布。其次,新的Z值分布相比传统Z值更加集中,说明新的Z值波动性相比传统Z值更低,稳定性更佳。
新的Z值相比传统Z值波动更小,可以带来灰区率下降的效果。本例进一步用更大样本量证明这一点。具体的,取华大基因某一单一医检所2020年全年检测的360786例临床样本,这些样本共进行了383306次检测。新的Z值在383306次检测中产生了785次T21灰区、345次T18灰区以及288次T13灰区,T21、T18、T13的灰区率分别为0.22%、0.09%、0.08%,三体检测的整体灰区率为0.39%。相比之下,传统Z值产生了3071次T21灰区、4350次T18灰区以及2335次T13灰区,T21、T18、T13的灰区率分别为0.80%、1.14%、0.61%,三体检测的整体灰区率为2.55%,如表8所示。
表8传统Z值和新的Z值灰区样本数和灰区率对比结果
Figure BDA0003743827800000221
表8的结果显示,通过本申请的方法生成的新的Z值可以将三体检测的灰区率下降到之前的约十分之一,大幅降低由于灰区导致的重测,提升NIPT的检测性能。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。

Claims (11)

1.一种检测胎儿染色体非整倍体异常的方法,其特征在于:包括根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,根据所述新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常;
所述嵌合度为胎儿异常细胞占所有胎儿细胞的比率。
2.根据权利要求1所述的方法,其特征在于:根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值,包括将胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值,由模型输出值印射获得待测样本的新的Z值;
所述胎儿染色体非整倍体异常检测模型是采用若干个已知胎儿染色体情况的样本作为训练样本,所述训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型;
优选地,由模型输出值印射获得待测样本的新的Z值,包括根据待测样本的模型输出值、阳性阈值、阴性阈值、所有阴性样本的模型输出值的中位数,计算获得待测样本的新的Z值;
所述阳性阈值为阳性样本对应的模型输出值的阈值,所述阴性阈值是阴性样本对应的模型输出值的阈值;
优选地,所有阴性样本的模型输出值的中位数,是把所有阴性训练样本再次输入胎儿染色体非整倍体异常检测模型中,获得的所有阴性样本的模型输出值的中位数;
优选地,由模型输出值印射获得待测样本的新的Z值,包括以下印射方式,
当待测样本的模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当待测样本的模型输出值小于阳性阈值、且大于阴性阈值时,
Figure FDA0003743827790000011
当待测样本的模型输出值小于阴性阈值时,
Figure FDA0003743827790000012
以上公式中,Znew为新的Z值,LD为待测样本的模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为所有阴性样本的模型输出值的中位数;
优选地,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常,包括,新的Z值大于3判断为阳性,即胎儿染色体非整倍体异常;新的Z值小于1.96判断为阴性,即胎儿染色体正常;
优选地,所述机器学习模型为线性判别分析模型;
优选地,所述胎儿异常细胞为含有胎儿染色体非整倍体异常的细胞;
优选地,孕妇血液游离DNA中的胎儿DNA浓度、Z值,通过孕妇血液游离DNA的高通量测序数据计算获得。
3.根据权利要求1或2所述的方法,其特征在于:所述嵌合度由公式一计算获得;
公式一
Figure FDA0003743827790000021
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;
frak采用公式二计算获得;
公式二
Figure FDA0003743827790000022
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure FDA0003743827790000023
为第k条染色体矫正后的深度的平均值,
Figure FDA0003743827790000024
为所有常染色体校正后的深度的平均值;
公式一和公式二中,k的取值为1至22;
Mosaick为0,说明胎儿的第k条染色体正常;Mosaick为1,说明胎儿的第k条染色体完全为三体;Mosaick介于0-1之间,说明胎儿的第k条染色体存在嵌合;
优选地,每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值,通过孕妇血液游离DNA的高通量测序数据计算获得。
4.一种胎儿染色体非整倍体异常检测模型的构建方法,其特征在于:包括采用若干个已知胎儿染色体情况的样本作为训练样本,所述训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此训练获得的模型,即胎儿染色体非整倍体异常检测模型。
5.根据权利要求4所述的构建方法,其特征在于:所述胎儿DNA浓度和Z值,根据孕妇血液游离DNA的高通量测序数据计算获得;所述嵌合度为胎儿异常细胞占所有胎儿细胞的比率;
优选地,所述胎儿异常细胞为含有胎儿染色体非整倍体异常的细胞;
优选地,所述嵌合度由公式一计算获得;
公式一
Figure FDA0003743827790000031
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;
frak采用公式二计算获得;
公式二
Figure FDA0003743827790000032
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure FDA0003743827790000033
为第k条染色体矫正后的深度的平均值,
Figure FDA0003743827790000034
为所有常染色体校正后的深度的平均值;
公式一和公式二中,k的取值为1至22;
Mosaick为0,说明胎儿的第k条染色体正常;Mosaick为1,说明胎儿的第k条染色体完全为三体;Mosaick介于0-1之间,说明胎儿的第k条染色体存在嵌合;
优选地,每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值,根据孕妇血液游离DNA的高通量测序数据计算获得;
优选地,所述机器学习模型为线性判别分析模型。
6.一种检测胎儿染色体非整倍体异常的装置,其特征在于:包括新的Z值计算模块和胎儿染色体非整倍体异常判断模块;
所述新的Z值计算模块,包括用于根据待测样本孕妇血液游离DNA中的胎儿DNA浓度、Z值、嵌合度,计算获得待测样本的新的Z值;所述嵌合度为胎儿异常细胞占所有胎儿细胞的比率;
所述胎儿染色体非整倍体异常模块,包括用于根据所述新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常。
7.根据权利要求6所述的装置,其特征在于:所述新的Z值计算模块,还包括用于将胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值,由模型输出值印射获得待测样本的新的Z值;
所述胎儿染色体非整倍体异常检测模型是采用若干个已知胎儿染色体情况的样本作为训练样本,所述训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,由此获得的模型;所述模型输出值用于综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况。
8.根据权利要求7所述的装置,其特征在于:还包括模型训练模块,采用若干个已知胎儿染色体情况的样本作为训练样本,所述训练样本包括胎儿染色体非整倍体异常的阳性样本和阴性样本,以胎儿DNA浓度、Z值和嵌合度为输入,进行机器学习模型训练,获得一个综合胎儿DNA浓度、Z值和嵌合度三个变量表征胎儿染色体情况的模型输出值,由此获得的模型,即胎儿染色体非整倍体异常检测模型;
优选地,所述机器学习模型为线性判别分析模型;
优选地,所述新的Z值计算模块包括模型输出值分析子模块和Z值印射子模块;所述模型输出值分析子模块,包括用于将待测样本的胎儿DNA浓度、Z值和嵌合度输入胎儿染色体非整倍体异常检测模型,获得待测样本对应的模型输出值;所述Z值印射子模块,包括用于根据待测样本的模型输出值,以及阳性阈值、阴性阈值、所有阴性样本的模型输出值的中位数,计算获得待测样本的新的Z值;所述阳性阈值为阳性样本对应的模型输出值的阈值,所述阴性阈值是阴性样本对应的模型输出值的阈值;
优选地,所述Z值印射子模块,根据以下方式获得新的Z值,
当待测样本的模型输出值大于阳性阈值时,Znew=LD-cutp+3;
当待测样本的模型输出值小于阳性阈值、且大于阴性阈值时,
Figure FDA0003743827790000041
当待测样本的模型输出值小于阴性阈值时,
Figure FDA0003743827790000042
以上公式中,Znew为新的Z值,LD为待测样本的模型输出值,cutp为阳性阈值,cutn为阴性阈值,Med为所有阴性样本的模型输出值的中位数;
优选地,所述胎儿染色体非整倍体异常模块中,根据新的Z值判断待测样本的胎儿染色体是否发生非整倍体异常,包括,新的Z值大于3判断为阳性,即胎儿染色体非整倍体异常;新的Z值小于1.96判断为阴性,即胎儿染色体正常。
9.根据权利要求6所述的装置,其特征在于:还包括数据获取模块,用于获取待测样本的孕妇血液游离DNA的高通量测序数据;
优选地,还包括数据处理模块,用于根据获取的孕妇血液游离DNA的高通量测序数据,计算胎儿DNA浓度、Z值;
优先地,所述数据处理模块还包括用于根据获取的待测孕妇血液游离DNA的高通量测序数据,计算每条染色体矫正后的深度的平均值、所有常染色体校正后的深度的平均值;
优选地,还包括嵌合度计算模块,用于根据公式一计算每条染色体的嵌合度;
公式一
Figure FDA0003743827790000051
公式一中,Mosaick为第k条染色体的嵌合度,frak为第k条染色体的相对胎儿浓度,FF为胎儿DNA浓度;
frak采用公式二计算获得;
公式二
Figure FDA0003743827790000052
公式二中,frak为第k条染色体的相对胎儿浓度,
Figure FDA0003743827790000053
为第k条染色体矫正后的深度的平均值,
Figure FDA0003743827790000054
为所有常染色体校正后的深度的平均值;
公式一和公式二中,k的取值为1至22;
Mosaick为0,说明胎儿的第k条染色体正常;Mosaick为1,说明胎儿的第k条染色体完全为三体;Mosaick介于0-1之间,说明胎儿的第k条染色体存在嵌合。
10.一种检测胎儿染色体非整倍体异常的装置,其特征在于,所述装置包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现权利要求1-3任一项所述的检测胎儿染色体非整倍体异常的方法或者权利要求4或5所述的胎儿染色体非整倍体异常检测模型的构建方法。
11.一种计算机可读存储介质,其特征在于:包括程序,所述程序能够被处理器执行以实现权利要求1-3任一项所述的检测胎儿染色体非整倍体异常的方法或者权利要求4或5所述的胎儿染色体非整倍体异常检测模型的构建方法。
CN202210825534.2A 2022-07-13 2022-07-13 检测胎儿染色体非整倍体异常的方法、装置及存储介质 Pending CN115223654A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210825534.2A CN115223654A (zh) 2022-07-13 2022-07-13 检测胎儿染色体非整倍体异常的方法、装置及存储介质
PCT/CN2023/080510 WO2024011929A1 (zh) 2022-07-13 2023-03-09 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210825534.2A CN115223654A (zh) 2022-07-13 2022-07-13 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115223654A true CN115223654A (zh) 2022-10-21

Family

ID=83611265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210825534.2A Pending CN115223654A (zh) 2022-07-13 2022-07-13 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN115223654A (zh)
WO (1) WO2024011929A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011929A1 (zh) * 2022-07-13 2024-01-18 深圳华大基因股份有限公司 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180211002A1 (en) * 2015-07-13 2018-07-26 Agilent Technologies Belgium Nv System and methodology for the analysis of genomic data obtained from a subject
CN107133495B (zh) * 2017-05-04 2018-07-13 北京医院 一种非整倍性生物信息的分析方法和分析***
CN112669901A (zh) * 2020-12-31 2021-04-16 北京优迅医学检验实验室有限公司 基于低深度高通量基因组测序的染色体拷贝数变异检测装置
CN115223654A (zh) * 2022-07-13 2022-10-21 深圳华大基因股份有限公司 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024011929A1 (zh) * 2022-07-13 2024-01-18 深圳华大基因股份有限公司 检测胎儿染色体非整倍体异常的方法、装置及存储介质

Also Published As

Publication number Publication date
WO2024011929A1 (zh) 2024-01-18

Similar Documents

Publication Publication Date Title
CN112669901A (zh) 基于低深度高通量基因组测序的染色体拷贝数变异检测装置
CN110268044B (zh) 一种染色体变异的检测方法及装置
CN107133491B (zh) 一种获取胎儿游离dna浓度的方法
CN110191964B (zh) 确定生物样本中预定来源的游离核酸比例的方法及装置
JP7467504B2 (ja) 染色体異数性を判定するためおよび分類モデルを構築するための方法およびデバイス
KR20230110615A (ko) 태아 염색체 이상을 검출하는 방법 및 시스템
EP3023504B1 (en) Method and device for detecting chromosomal aneuploidy
WO2024011929A1 (zh) 检测胎儿染色体非整倍体异常的方法、装置及存储介质
CN107622183B (zh) 一种基于多重指标的胎儿染色体倍性检测分析方法
WO2024140881A1 (zh) 胎儿dna浓度的确定方法及装置
KR20140090296A (ko) 유전 정보를 분석하는 방법 및 장치
EP3688473B1 (en) Method and computer program for predicting bilirubin levels in neonates
CN110459312A (zh) 类风湿性关节炎易感位点及其应用
CN108229099A (zh) 数据处理方法、装置、存储介质及处理器
CN109243533B (zh) 一种用于计算基因的组织特异表达的鲁棒z-score打分方法
US20160265051A1 (en) Methods for Detection of Fetal Chromosomal Abnormality Using High Throughput Sequencing
WO2023010242A1 (zh) 估计无创产前基因检测数据中胎儿核酸浓度的方法和***
Thomas et al. Computational Method of Predicting Down Syndrome on Foetus by Utilizing First Trimester Ultrasound Scan
Yekdast An intelligent method for down syndrome detection in fetuses using ultrasound images and deep learning neural networks
KR102532991B1 (ko) 태아의 염색체 이수성 검출방법
CN109686401B (zh) 一种识别异源低频基因组信号唯一性的方法及其应用
CN116392166B (zh) 一种孕囊及胚芽自动测量方法、***、装置及介质
Susanne Methods in human growth genetics
KR20210157978A (ko) 유전체 분석 정보를 이용한 개인 맞춤형 영양정보 제공방법
Mourão et al. Adjusting covariates in CRIB score index using ROC regression analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40081922

Country of ref document: HK