CN114267409A - 无创产前基因检测测序数据的分析方法、装置及存储介质 - Google Patents
无创产前基因检测测序数据的分析方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114267409A CN114267409A CN202210032341.1A CN202210032341A CN114267409A CN 114267409 A CN114267409 A CN 114267409A CN 202210032341 A CN202210032341 A CN 202210032341A CN 114267409 A CN114267409 A CN 114267409A
- Authority
- CN
- China
- Prior art keywords
- chromosome
- tumor
- value
- module
- scores
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 77
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000007405 data analysis Methods 0.000 title claims abstract description 21
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 136
- 210000000349 chromosome Anatomy 0.000 claims abstract description 108
- 230000035935 pregnancy Effects 0.000 claims abstract description 39
- 208000036878 aneuploidy Diseases 0.000 claims abstract description 36
- 231100001075 aneuploidy Toxicity 0.000 claims abstract description 35
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 43
- 210000002593 Y chromosome Anatomy 0.000 claims description 18
- 238000012502 risk assessment Methods 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 12
- 239000013643 reference control Substances 0.000 claims description 8
- 238000012937 correction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000003556 assay Methods 0.000 claims description 2
- 230000008774 maternal effect Effects 0.000 abstract description 13
- 201000011510 cancer Diseases 0.000 abstract description 10
- IOSROLCFSUFOFE-UHFFFAOYSA-L 2-nitro-1h-imidazole;platinum(2+);dichloride Chemical compound [Cl-].[Cl-].[Pt+2].[O-][N+](=O)C1=NC=CN1.[O-][N+](=O)C1=NC=CN1 IOSROLCFSUFOFE-UHFFFAOYSA-L 0.000 abstract 5
- 238000013500 data storage Methods 0.000 abstract 1
- 230000035945 sensitivity Effects 0.000 description 11
- 238000012216 screening Methods 0.000 description 9
- 239000012634 fragment Substances 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 8
- 230000001605 fetal effect Effects 0.000 description 7
- 230000002759 chromosomal effect Effects 0.000 description 6
- 238000003745 diagnosis Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 206010009944 Colon cancer Diseases 0.000 description 4
- 208000001333 Colorectal Neoplasms Diseases 0.000 description 4
- 108010047956 Nucleosomes Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 210000001623 nucleosome Anatomy 0.000 description 4
- 210000005259 peripheral blood Anatomy 0.000 description 4
- 239000011886 peripheral blood Substances 0.000 description 4
- 208000024891 symptom Diseases 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 208000037280 Trisomy Diseases 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 201000007270 liver cancer Diseases 0.000 description 3
- 208000014018 liver neoplasm Diseases 0.000 description 3
- 230000011987 methylation Effects 0.000 description 3
- 238000007069 methylation reaction Methods 0.000 description 3
- 239000000439 tumor marker Substances 0.000 description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 2
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 210000003754 fetus Anatomy 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000005865 ionizing radiation Effects 0.000 description 2
- 201000005202 lung cancer Diseases 0.000 description 2
- 208000020816 lung neoplasm Diseases 0.000 description 2
- 230000035772 mutation Effects 0.000 description 2
- 238000007481 next generation sequencing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000405 serological effect Effects 0.000 description 2
- 210000001519 tissue Anatomy 0.000 description 2
- WMZHJZFCFREAFU-UHFFFAOYSA-N 1,3-dimethyl-7-[4-(2-nitroimidazol-1-yl)butyl]purine-2,6-dione Chemical compound C1=2C(=O)N(C)C(=O)N(C)C=2N=CN1CCCCN1C=CN=C1[N+]([O-])=O WMZHJZFCFREAFU-UHFFFAOYSA-N 0.000 description 1
- 206010069754 Acquired gene mutation Diseases 0.000 description 1
- 102000004506 Blood Proteins Human genes 0.000 description 1
- 108010017384 Blood Proteins Proteins 0.000 description 1
- 206010006187 Breast cancer Diseases 0.000 description 1
- 208000026310 Breast neoplasm Diseases 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 208000031404 Chromosome Aberrations Diseases 0.000 description 1
- 201000010374 Down Syndrome Diseases 0.000 description 1
- 206010025323 Lymphomas Diseases 0.000 description 1
- 206010033128 Ovarian cancer Diseases 0.000 description 1
- 206010061535 Ovarian neoplasm Diseases 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000003322 aneuploid effect Effects 0.000 description 1
- 230000001640 apoptogenic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005784 autoimmunity Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000090 biomarker Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000017531 blood circulation Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 210000000777 hematopoietic system Anatomy 0.000 description 1
- 238000012165 high-throughput sequencing Methods 0.000 description 1
- 208000032839 leukemia Diseases 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 238000007403 mPCR Methods 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 201000001441 melanoma Diseases 0.000 description 1
- 230000003169 placental effect Effects 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 238000003793 prenatal diagnosis Methods 0.000 description 1
- 238000009609 prenatal screening Methods 0.000 description 1
- 238000009598 prenatal testing Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 230000037439 somatic mutation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 206010053884 trisomy 18 Diseases 0.000 description 1
- 210000002993 trophoblast Anatomy 0.000 description 1
- 238000012070 whole genome sequencing analysis Methods 0.000 description 1
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请公开了一种无创产前基因检测测序数据的分析方法、装置及存储介质。本申请方法包括,从NIPT测序数据中获取出现两条或以上染色体非整倍体的样本的原始测序结果,将其与参考基因组比对,去除不匹配或重复reads;根据NIFTY算法计算除Y和19号染色体外的其他染色体的Z值,计算Z值绝对值前五的平均值,如果其大于阈值,则判断待测对象为肿瘤高风险人群。本申请首次利用NIPT检测中MCA样本的染色体Z值绝对值前五的平均值评估孕期肿瘤情况,本申请分析方法直接利用NIPT测序数据即可,简单方便,没有NIPT测序以外的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用。
Description
技术领域
本申请涉及基因测序数据分析技术领域,特别是涉及一种无创产前基因检测测序数据的分析方法、装置及存储介质。
背景技术
怀孕合并肿瘤的发生比较罕见,发病率在0.07%至0.1%。较为常见的肿瘤类型包括淋巴瘤、乳腺癌、卵巢癌、黑色素瘤、白血病、结直肠癌。由于肿瘤的隐蔽性和潜伏性且发生在孕期,肿瘤常见的症状会被怀孕期间的生理变换所掩盖。又因为孕期的特殊性,考虑到胎儿暴露于补充性检查的固有风险,如电离辐射,使医生不容易立即检查引起这些症状的原因;另一方面怀孕干扰了诊断方法的敏感性和特异性,即使在症状得到适当检查的情况下,仍然有较高的误诊或漏诊。
肿瘤患者的外周血中,含有肿瘤来源的循环游离DNA(circulating tumor DNA,ctDNA)。ctDNA仅占所有的母体外周血中的游离DNA片段(cell-fell DNA,cfDNA)的小部分。ctDNA带有其肿瘤相关的分子特征,可以应用于液体活检,具有重要的临床应用价值。在怀孕期间,孕妇外周血中的cfDNA绝大部分来自于母体的造血***,另外存在少量的来源于胎盘滋养细胞凋亡而释放进入母亲的血液循环***。若母体存在肿瘤,则cfDNA中也存在部分肿瘤凋零ctDNA。
无创产前检测(non-invasive prenatal testing,NIPT),或称无创产前基因检测,是一种通过对母体外周血中的游离DNA片段(cell-fell DNA,cfDNA)进行高通量测序分析,检测胎儿染色体数目异常的非侵入性产前筛查技术。相比于传统的筛查手段,无创产前基因检测具有安全、方便等特点;并且,可以高敏感和高特异性地检出唐氏综合症(T21)、爱德华综合征(T18)、帕陶氏综合征(T13)。NIPT在2011年开始商业应用,据华大基因统计,迄今为止,全球已进行了超过一千万次NIPT检测。NIPT检测中常用染色体Z分数评估胎儿染色体非整倍体情况,一般Z分数的绝对值>3通常作为风险阈值。
现有研究显示,肿瘤是导致无创产前基因检测的检测失败或造成假阳性的原因之一;并且,有研究报道,NITP数据多条染色体离群样本中意外发现肿瘤样本的案例。Bianchi等人在JAMA上发表成果,对NIPT异常样本,即一条及一条以上染色体非整倍体,进行回顾性分析,研究NIPT多种异常类型样本中的肿瘤发生比例,得到如下结论:在两条及两条以上染色体非整倍体中发生比例最高可达18%,95%置信区间为7.5%-33.5%。Ji,X.,et al.在文献(Identifying occult maternal malignancies from 1.93 million pregnantwomen undergoing noninvasive prenatal screening tests.Genet Med,2019)中开发了一套基于拷贝数目变异(copy number variation,CNV)的NIPT异常(多条染色非整倍体)样本中检测母体肿瘤的信息分析算法,其灵敏度(sensitivity)83%,特异度(specificity)85%,若结合肿瘤标志物信息,阳性预测值(positive predictive value,PPV)提高到75%。该方法初步解决了肿瘤预测问题,但是无法给出具体的肿瘤类型。
目前,对于肿瘤的检测技术主要包括:
(1)基于血清学肿瘤标志物的检测,例如CA125、CA19-9、CEA、HGF等血清蛋白对于肿瘤的诊断、检测有一定的作用。
(2)CT、核磁共振等影像学手段。
(3)基于下一代测序技术进行的肿瘤检测,主要有以下方案:
a)SNV水平的基因组变异:近来对ctDNA的研究表明肿瘤特异性的突变研究可以用于肿瘤早筛,通过高深度靶向测序或者多重PCR等方法检测肿瘤特有的体细胞突变(somatic mutation)。
b)拷贝数变异检测:通过ctDNA全基因组测序可以检测染色体水平的变异或者拷贝数目变异。
c)甲基化:近年来的研究表明甲基化生物标志物也可以进行肿瘤预测。
d)肿瘤的cfDNA片段特有核小体相关印记:cfDNA测序可以反应包裹核小体cfDNA片段长度。Jiang P等人的研究指出,在肝癌患者的cfDNA中肿瘤的片段检测中发现肝癌患者的cfDNA片段长度会部分的短于正常人。Cristiano S等人将cfDNA在全基因组上的每个区间的短片段的比例作为特征可以用来预测肿瘤并识别其组织类型。核小体的位置,cfDNA的片段末端在基因组上的位置显示与肿瘤及其组织来源存在一定的相关性。
现有的产品及已发表的肿瘤预测研究成果中,通常是将上述技术结合来使用。例如Guardant Health的LUNAR-2(https://guardanthealth.com/solutions/#lunar-2)结合了上述a、c、d三个方案,在结直肠癌可以达到较高的灵敏度,具体方法未知。
Natera公司肿瘤术后检测产品signature(https://www.natera.com/signatera),基于上述a方案,选择16个特异的SNV位点,在结直肠癌和肺癌上的复发检测上可以达到有超高的灵敏度。
2018年Joshua D.cohen团队发表在Science上一篇研究成果。基于血清标志物与SNV的肿瘤检测方法CancerSEEK,在1005个患有肺癌、肝癌、结直肠癌等不同8种类型的肿瘤患者中。特异性可以达到99%,灵敏性根据癌种的不同在69%到98%之间。
基于血清学肿瘤标志物的检测,在肿瘤患者的诊断、管理中有一定的价值,但由于其在妊娠期间,肿瘤标志物水平会发生显著的变化,缺乏敏感性和特异性。常用的肿瘤标志物ca153、SCC、ca125和AFP水平在妊娠期升高;CEA、CA 19-9、LDH、AMH、HE-4水平一般不会增加,理论上,在肿瘤的检查上起到一定的作用。
CT、核磁共振等影像学手段,对于早期的肿瘤筛查存在较高的假阳性和假阴性风险,很难实现肿瘤的早期筛查。并且,因为孕期的特殊性,考虑到胎儿暴露于补充性检查的固有风险,如电离辐射,使医生不容易立即检查引起这些症状的原因。
基于下一代测序技术进行的肿瘤检测,各种方案都有其缺陷和不足,例如方案a,SNV水平的基因组变异,并不是所有患者均可检测到特异性变异,且实验成本较高很难实现大规模的普及。方案b,拷贝数变异检测,仅有少部分个体存在该种类型变异。方案c,甲基化检测,成本较高很难大规模的应用普及。方案d,肿瘤的cfDNA片段特有核小体相关印记,通常需要较高的测序深度,且仅在科研探索阶段很难应用于临床常规检测。
综上所述,目前尚未有能够基于无创产前基因检测有效预测无症状孕期肿瘤的技术。如何利用无创产前基因检测测序数据为无症状孕期肿瘤预测提供中间结果或参考数据,是亟待解决的问题。
发明内容
本申请的目的是提供一种新的无创产前基因检测测序数据的分析方法、装置及存储介质。
为了实现上述目的,本申请采用了以下技术方案:
本申请的第一方面公开了一种无创产前基因检测测序数据的分析方法,包括以下步骤:
染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiple chromosomal aneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;
其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
需要说明的是,本申请首次巧妙的利用NIPT检测中MCA样本的染色体Z分数平均值评估孕期肿瘤情况,并创造性的将除Y染色体和19号染色体外,其他染色体的Z值分数绝对值最大的前5条染色体的平均值作为孕期肿瘤评估的阈值,在检测无症状母体癌症方面具有很高的敏感性和特异性。本申请的分析方法,简单且分析不涉及测序或实验的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用,对扩大NIPT在妊娠期间筛查胎儿21,13和18三体以外的隐匿性母体癌症的应用有重要意义。
可以理解,本申请的分析方法,最终获得的仅仅是待测对象的肿瘤患病风险,只能作为中间参考数据,不能直接用于诊断;原则上,对于判断为肿瘤高风险人群的待测对象,还需要进一步的进行医学检查,以确定是否患病。因此,本申请的分析方法,能够用于隐匿性母体癌症的广泛筛查,为无症状孕期肿瘤预测提供科学的参考依据。
本申请的一种实现方式中,根据NIFTY算法计算染色体的Z值的公式为,Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。
需要说明的是,本申请根据NIFTY算法计算染色体的Z值可以参考文献:Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advancednoninvasive prenatal diagnosis methodology for fetal autosomal and sexchromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11,因此,该文献中关于Z值计算的相关内容全部引用至本申请。
本申请的一种实现方式中,M TOP5 Z scores的计算公式为,
其中,absolute z scores即Z值绝对值。
本申请的一种实现方式中,染色体非整倍体获取及比对步骤中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
需要说明的是,之所以排除Y染色体和19号染色体,是因为研究发现,19号染色体拷贝数异常率过高,而Y染色体存在胎儿性别差异;因此,在定义MCA和M TOP5 Z scores时均排除这两个染色体。
本申请的一种实现方式中,训练集包括至少42例肿瘤样本和至少294例正常样本,训练获得的阈值为5.94。
需要说明的是,本阈值为5.94,训练集包括至少42例肿瘤样本和至少294例正常样本,这些都是本申请的一种实现方式中具体采用的样本和获得的阈值;可以理解,在本申请的发明构思下,可以采用更多或更少的样本,具体获得的阈值也可能有所不同,在此不作具体限定。
本申请的第二方面公开了一种无创产前基因检测测序数据的分析装置,包括染色体非整倍体获取及比对模块、染色体Z值计算模块、阈值训练模块和孕期肿瘤风险评估模块;染色体非整倍体获取及比对模块,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算模块,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Zscores;阈值训练模块,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Zscores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值;孕期肿瘤风险评估模块,包括用于将待测对象的M TOP5 Z scores与M TOP5 Z scores阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群。
需要说明的是,本申请的分析装置中,阈值训练模块主要是为了利用训练集获得阈值;可以理解,在已经获得阈值的情况下,可以直接使用该阈值;因此,不用每次都运行阈值训练模块。当然,在有新的待测对象及其检测结果的情况下,也可以将新的待测对象的检测结果提供给阈值训练模块,进一步训练完善,使其获得的阈值能够更准确有效的用于肿瘤风险评估。
还需要说明的是,本申请的无创产前基因检测测序数据的分析装置,实际上就是通过各模块分别实现本申请的无创产前基因检测测序数据的分析方法中的各步骤;因此,各模块的具体限定可以参考本申请的无创产前基因检测测序数据的分析方法,在此不累述。例如,NIFTY算法、M TOP5 Z scores的计算公式、训练集样本数和阈值等,都可以参考本申请的无创产前基因检测测序数据的分析方法。
本申请的第三方面公开了一种无创产前基因检测测序数据的分析装置,该装置包括存储器和处理器;存储器包括用于存储程序;处理器包括用于通过执行存储器存储的程序以实现本申请的无创产前基因检测测序数据的分析方法。
本申请的第四方面公开了一种计算机可读存储介质,该存储介质中存储有程序,该程序能够被处理器执行以实现本申请的无创产前基因检测测序数据的分析方法。
由于采用以上技术方案,本申请的有益效果在于:
本申请无创产前基因检测测序数据的分析方法,首次利用NIPT检测中MCA样本的染色体Z值绝对值前五的平均值评估孕期肿瘤情况;本申请分析方法直接利用NIPT测序数据即可,简单方便,且没有NIPT测序以外的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用。
附图说明
图1是本申请实施例中无创产前基因检测测序数据的分析方法的流程框图;
图2是本申请实施例中无创产前基因检测测序数据的分析装置的结构框图;
图3是本申请实施例中19号染色体在肿瘤孕妇和健康孕妇中多倍体和单倍体异常比例分析图;
图4是本申请实施例中62例肿瘤和434例正常样本的M TOP5 Z scores值比较分析图;
图5是本申请实施例中训练集与验证集M TOP5 Z scores的ROC曲线。
具体实施方式
下面通过具体实施方式结合附图对本申请作进一步详细说明。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他装置、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
目前为止,尚未有一种方法能够直接利用无创产前基因检测进行有效的预测无症状孕期肿瘤。本申请巧妙的利用NIPT检测中MCA样本的染色体Z分数平均值评估孕期肿瘤情况,方法简单且分析不涉及测序或实验的额外成本,进一步扩展了NIPT在检测妊娠期隐匿性母体癌症中的使用,且无需额外费用,便于形成产品并推广。本申请的基本发明构思是,采用NIPT检测中生成的Z分数判断孕妇是否罹患肿瘤,具体的,分析NIPT检测中出现两条或两条以上染色体非整倍体(Multiple chromosomal aneuploidies,MCA)样本的染色体Z分数,M TOP5 Z scores是指除Y和19号染色体外,Z分数绝对值最大的前5条染色体的平均值,利用M TOP5 Z scores评估孕期肿瘤风险。
基于以上思路,本申请创造性的提出了一种无创产前基因检测测序数据的分析方法,如图1所示,包括染色体非整倍体获取及比对步骤11、染色体Z值计算步骤12和孕期肿瘤风险评估步骤13。
其中,染色体非整倍体获取及比对步骤11,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads。
本申请的一种实现方式中,具体是,利用bwa与参考基因组hg19进行比对,去除unmatched的reads及重复的reads。
染色体Z值计算步骤12,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores。
本申请的一种实现方式中,具体是计算公式为:Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。Z值计算公式的详细说明和解释可以参考Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advancednoninvasive prenatal diagnosis methodology for fetal autosomal and sexchromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11。
在本申请的孕期肿瘤(n=62)和正常对照(n=434)样本中,正常孕妇样本中chr19缺失(Z值<-3)和chr19扩增(Z值>3)的比例分别为53.92%和21.89%。肿瘤孕妇样本中chr19缺失(Z值<-3)和chr19扩增(Z值>3)的比例分别为22.58%和45.16%,如图3所示。鉴于chr19拷贝数异常率过高和Y染色体存在胎儿性别差异,本申请定义MCA和M TOP5 Zscores时,都排除这两个染色体。MCA定义为除Y染色体和19号染色体外至少两条染色体Z分数绝对值>3.0。
孕期肿瘤风险评估步骤13,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
本申请的一种实现方式中,训练集包括42例肿瘤和294例正常样本,确定M TOP5 Zscores的阈值为5.94,若待测样本计算出来的MTOP5Zscores>5.94,说明该样本属于肿瘤高风险人群,建议进行医学检查。
本领域技术人员可以理解,上述方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述方法中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的***进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述方法中全部或部分功能。
因此,基于本申请的无创产前基因检测测序数据的分析方法,本申请提出了一种无创产前基因检测测序数据的分析装置,如图2所示,包括染色体非整倍体获取及比对模块21、染色体Z值计算模块22、阈值训练模块23和孕期肿瘤风险评估模块24。
其中,染色体非整倍体获取及比对模块21,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads。例如,参考bwa与参考基因组hg19进行比对。
染色体Z值计算模块22,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores。
例如,M TOP5 Z scores的计算公式为,
其中,absolute z scores即Z值绝对值。
阈值训练模块23,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5Z scores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值。
例如,以42例肿瘤和294例正常样本为训练集,进行训练,最终确定M TOP5 Zscores的阈值为5.94。
孕期肿瘤风险评估模块24,包括用于将待测对象的M TOP5 Z scores与阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于所述阈值,则判断待测对象为肿瘤高风险人群。
本申请的另一实现方式中还提供了一种无创产前基因检测测序数据的分析装置,该装置包括存储器和处理器;存储器,包括用于存储程序;处理器,包括用于通过执行存储器存储的程序以实现以下方法:染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiple chromosomalaneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
本申请另一种实现方式中还提供一种计算机可读存储介质,该存储介质中包括程序,该程序能够被处理器执行以实现如下方法:染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体(Multiplechromosomal aneuploidies,MCA)的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Zscores;孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果M TOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;其中,阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
实施例
本例利用62例肿瘤样本和434例正常样本NIPT测序数据,所有样本均为NIPT检测结果为MCA的样本,即除Y染色体和19号染色体外,其他染色体中至少两条染色体Z分数绝对值>3.0。将62例肿瘤样本和434例正常样本分为两组,一组为训练集,一组为验证集。其中,训练集中含有42例肿瘤样本和294例正常样本,验证集中含有20例肿瘤和140例正常样本,本例分别计算各样本的M TOP5 Z scores值,利用训练集获得阈值,利用验证集验证本例无创产前基因检测测序数据的分析方法,对肿瘤风险评估的准确性。具体如下:
(1)获取62例肿瘤样本和434例正常人NIPT下机数据;
(2)对于每一例样本的测序数据,分别利用bwa与参考基因组hg19进行比对,去除unmatched的reads及重复的reads;
(3)利用Jiang F,Ren J,Chen F,et al.Noninvasive Fetal Trisomy(NIFTY)test:an advanced noninvasive prenatal diagnosis methodology for fetalautosomal and sex chromosomal aneuploidies.BMC medical genomics,2012,5(1):1-11文献报道中的NIFTY算法计算除Y染色体和19号染色体以外的每条染色体的Z值,并计算每个样本中Z值绝对值前五的平均值,标记为M TOP5 Z scores。
Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。其中,参考对照人群是指同批次进行检测样本,即sdj是所有同批次检测样本的(crij-cr’ij)的标准差。例如,对于训练集而言,就是42例肿瘤样本和294例正常样本中同批次检测的所有样本;对于验证集而言,就是20例肿瘤和140例正常样本中同批次检测的所有样本。
M TOP5 Z scores的计算公式为,
其中,absolute z scores即Z值绝对值。
采用训练集中的42例肿瘤样本和294例正常样本,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值,本例具体的M TOP5 Z scores的阈值为5.94,若待测样本计算出来的M TOP5 Z scores>5.94,说明该样本属于肿瘤高风险人群,建议进行医学检查。
以获得的阈值5.94为基础,对验证集中的20例肿瘤和140例正常样本进行肿瘤风险评估,将肿瘤风险评估结果与实际情况进行比较,验证本例无创产前基因检测测序数据的分析方法,对肿瘤风险评估的准确性。
本例的分析方法在训练集验证集中筛查孕期恶性肿瘤的效果如图4、图5和表1所示。
表1 M TOP5 Z scores在训练集和验证集中筛查孕期肿瘤的效果评价
表1中,括号内数值为对应参数的95%可信区间。
图4为62例肿瘤和434例正常样本M TOP5 Z scores值比较,图5为训练集与验证集M TOP5 Z scores的ROC曲线。图4、图5和表1的结果显示,与正常人相比,肿瘤病人具有更高的M TOP5 Z scores值;训练集的ROC曲线显示,训练集AUC为90.56%,验证集的ROC曲线显示,验证集AUC为88.14%。
由此可见,本例无创产前基因检测测序数据的分析方法能够对无症状孕期肿瘤进行预测,灵敏度达到85%以上,95%置信区间的最高灵敏度可达96%以上;并且,特异性达到80%以上,95%置信区间的最高特异性可达88%以上。因此,本例的无创产前基因检测测序数据的分析方法能够用于隐匿性母体癌症的早期筛查,进一步扩展了NIPT的应用。
以上内容是结合具体的实施方式对本申请所作的进一步详细说明,不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干简单推演或替换。
Claims (10)
1.一种无创产前基因检测测序数据的分析方法,其特征在于:包括以下步骤,
染色体非整倍体获取及比对步骤,包括从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
染色体Z值计算步骤,包括根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
孕期肿瘤风险评估步骤,包括将待测对象的M TOP5 Z scores与阈值进行比较,如果MTOP5 Z scores大于阈值,则判断待测对象为肿瘤高风险人群;
所述阈值是以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Z scores为输入,是否肿瘤样本为输出,获得的用于评估肿瘤风险的阈值。
2.根据权利要求1所述的分析方法,其特征在于:根据NIFTY算法计算染色体的Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。
4.根据权利要求1-3任一项所述的分析方法,其特征在于:所述染色体非整倍体获取及比对步骤中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
5.一种无创产前基因检测测序数据的分析装置,其特征在于:包括染色体非整倍体获取及比对模块、染色体Z值计算模块、阈值训练模块和孕期肿瘤风险评估模块;
所述染色体非整倍体获取及比对模块,包括用于从无创产前基因检测的测序数据中获取出现两条或两条以上染色体非整倍体的样本的原始测序结果,将其与参考基因组进行比对,去除不匹配或重复的reads;
所述染色体Z值计算模块,包括用于根据NIFTY算法计算除Y染色体和19号染色体以外的,其他染色体的Z值,并计算Z值绝对值前五的平均值,标记为M TOP5 Z scores;
所述阈值训练模块,包括用于以若干肿瘤样本和若干正常样本为训练集,以M TOP5 Zscores为输入,是否肿瘤样本为输出,获得用于评估肿瘤风险的阈值;
所述孕期肿瘤风险评估模块,包括用于将待测对象的M TOP5 Z scores与所述阈值训练模块获得的阈值进行比较,如果待测对象的M TOP5 Z scores大于所述阈值,则判断待测对象为肿瘤高风险人群。
6.根据权利要求5所述的分析装置,其特征在于:根据NIFTY算法计算染色体的Z值的公式为,
Z值=(crij-cr’ij)/sdj
其中,crij是第i样本第j条染色体的reads数占第i样本总reads数的比例,cr’ij是GC校正后第i样本第j条染色体的reads数占第i样本总reads数的比例,sdj是参考对照人群的(crij-cr’ij)的标准差。
8.根据权利要求5-7任一项所述的分析装置,其特征在于:所述染色体非整倍体获取及比对模块中,出现两条或两条以上染色体非整倍体是指,除Y染色体和19号染色体以外的其他染色体出现两条或两条以上染色体非整倍体。
9.一种无创产前基因检测测序数据的分析装置,其特征在于,所述分析装置包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现权利要求1-4任一项所述的无创产前基因检测测序数据的分析方法。
10.一种计算机可读存储介质,其特征在于:包括程序,所述程序能够被处理器执行以实现权利要求1-4任一项所述的无创产前基因检测测序数据的分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210032341.1A CN114267409A (zh) | 2022-01-12 | 2022-01-12 | 无创产前基因检测测序数据的分析方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210032341.1A CN114267409A (zh) | 2022-01-12 | 2022-01-12 | 无创产前基因检测测序数据的分析方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114267409A true CN114267409A (zh) | 2022-04-01 |
Family
ID=80832938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210032341.1A Pending CN114267409A (zh) | 2022-01-12 | 2022-01-12 | 无创产前基因检测测序数据的分析方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114267409A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115132271A (zh) * | 2022-09-01 | 2022-09-30 | 北京中仪康卫医疗器械有限公司 | 一种基于批次内校正的cnv检测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825076A (zh) * | 2015-01-08 | 2016-08-03 | 北京圣庭生物技术有限公司 | 消除常染色体内和染色体间gc偏好的方法及检测*** |
CN106148513A (zh) * | 2016-06-22 | 2016-11-23 | 杭州杰毅麦特医疗器械有限公司 | 一种游离dna文库构建方法及试剂盒 |
-
2022
- 2022-01-12 CN CN202210032341.1A patent/CN114267409A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105825076A (zh) * | 2015-01-08 | 2016-08-03 | 北京圣庭生物技术有限公司 | 消除常染色体内和染色体间gc偏好的方法及检测*** |
CN106148513A (zh) * | 2016-06-22 | 2016-11-23 | 杭州杰毅麦特医疗器械有限公司 | 一种游离dna文库构建方法及试剂盒 |
Non-Patent Citations (3)
Title |
---|
FUMAN JIANG ET,AL.: "Noninvasive Fetal Trisomy (NIFTY) test: an advanced noninvasive prenatal diagnosis methodology for fetal autosomal and sex chromosomal aneuploidies", BMC MED GENOMICS ., vol. 5, 31 December 2012 (2012-12-31), XP021137777, DOI: 10.1186/1755-8794-5-57 * |
毛锦江;甘冰;韦舟玲;: "无创产前DNA检测在胎儿非整倍体疾病诊断的临床应用", 中国优生与遗传杂志, no. 02, 25 February 2020 (2020-02-25) * |
范向群;黄海龙;林娜;蔡美英;郑琳;王梅英;徐两蒲;林元;: "无创产前基因检测在11133例孕妇产前筛查中的应用研究", 中国妇幼保健, no. 21, 1 November 2018 (2018-11-01) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115132271A (zh) * | 2022-09-01 | 2022-09-30 | 北京中仪康卫医疗器械有限公司 | 一种基于批次内校正的cnv检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Reuben et al. | Genomic and immune heterogeneity are associated with differential responses to therapy in melanoma | |
Kim et al. | Determination of fetal DNA fraction from the plasma of pregnant women using sequence read counts | |
Wittenberger et al. | DNA methylation markers for early detection of women’s cancer: promise and challenges | |
JP5938484B2 (ja) | ゲノムのコピー数変異の有無を判断する方法、システム及びコンピューター読み取り可能な記憶媒体 | |
CN108138233B (zh) | Dna混合物中组织的单倍型的甲基化模式分析 | |
Fiorentino et al. | The importance of determining the limit of detection of non‐invasive prenatal testing methods | |
IL249095B1 (en) | Detection of subchromosomal aneuploidy in the fetus and variations in the number of copies | |
US20210090687A1 (en) | Methods of quality control using single-nucleotide polymorphisms in pre-implantation genetic screening | |
JP2023541368A (ja) | がんを評価するための無細胞dna断片サイズ密度のための方法及びシステム | |
Lu et al. | Noninvasive prenatal testing for assessing foetal sex chromosome aneuploidy: a retrospective study of 45,773 cases | |
Chen et al. | Validation of fetal DNA fraction estimation and its application in noninvasive prenatal testing for aneuploidy detection in multiple pregnancies | |
EP3023504B1 (en) | Method and device for detecting chromosomal aneuploidy | |
Tynan et al. | Application of risk score analysis to low‐coverage whole genome sequencing data for the noninvasive detection of trisomy 21, trisomy 18, and trisomy 13 | |
Zhao et al. | Global analysis of methylation profiles from high resolution CpG data | |
Xu et al. | Informative priors on fetal fraction increase power of the noninvasive prenatal screen | |
CN114267409A (zh) | 无创产前基因检测测序数据的分析方法、装置及存储介质 | |
Benn | Posttest risk calculation following positive noninvasive prenatal screening using cell-free DNA in maternal plasma | |
Qu et al. | The setup and application of reference material in sequencing-based noninvasive prenatal testing | |
Raymond et al. | Placental, maternal, fetal and technical origins of false-positive cell-free DNA screening results | |
Nguyen et al. | An Efficient Computational Method to Simulate Autosomal Chromosomes with Trisomy Aberrations | |
Ye et al. | Molecular counting enables accurate and precise quantification of methylated ctDNA for tumor-naive cancer therapy response monitoring | |
Adil | Accurate Quantification of Placental (Fetal) Fraction by Tissue Specific Cell-Free DNA Analysis | |
Koptyra et al. | METB-11. EXPANSION OF THE PEDIATRIC BRAIN TUMOR ATLAS: AN OPEN SCIENCE EFFORT OF CHILDREN’S BRAIN TUMOR NETWORK, KIDS FIRST DATA RESOURCE AND CHILDHOOD CANCER DATA INITIATIVE | |
Paluoja | Computational Estimation of Fetal DNA Fraction in Low Coverage Whole Genome Sequencing Data | |
Townsend et al. | Developments in non-invasive prenatal testing: is bigger better? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231020 Address after: 518083 Huada Complex Park, 21 Hongan Third Street, Yantian District, Shenzhen City, Guangdong Province, 7 buildings, 7 floors-14 floors Applicant after: BGI SHENZHEN Co.,Ltd. Applicant after: Shanghai Huada Medical Laboratory Co.,Ltd. Address before: 518083 Huada Complex Park, 21 Hongan Third Street, Yantian District, Shenzhen City, Guangdong Province, 7 buildings, 7 floors-14 floors Applicant before: BGI SHENZHEN Co.,Ltd. |