CN116779025A - 用于癌症筛查的*** - Google Patents

用于癌症筛查的*** Download PDF

Info

Publication number
CN116779025A
CN116779025A CN202210228206.4A CN202210228206A CN116779025A CN 116779025 A CN116779025 A CN 116779025A CN 202210228206 A CN202210228206 A CN 202210228206A CN 116779025 A CN116779025 A CN 116779025A
Authority
CN
China
Prior art keywords
cfdna
sequencing data
sequencing
data
chromosome
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210228206.4A
Other languages
English (en)
Inventor
彭勇飞
杨亚东
李永君
王小齐
郭媛媛
田继超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Biochain Beijing Science and Technology Inc
Original Assignee
Biochain Beijing Science and Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biochain Beijing Science and Technology Inc filed Critical Biochain Beijing Science and Technology Inc
Priority to CN202210228206.4A priority Critical patent/CN116779025A/zh
Publication of CN116779025A publication Critical patent/CN116779025A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种用于癌症筛查的***,其包括:数据采集模块,其用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及癌症计算模块,其基于数据采集模块中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。本发明的***综合利用甲基化水平、cfDNA特征相关的指标构建,能够大幅度地降低癌症筛查的成本并提高筛查准确率的癌症无创筛查方法,并具有非常高的灵敏度和特异性。

Description

用于癌症筛查的***
技术领域
本发明涉及一种用于癌症筛查的***。
背景技术
肺癌是全球发病率、死亡率最高的癌症之一,5年生存率低于20%。在我国,肺癌发病率、死亡率也居首位。其中主要是由于肺癌确诊的时候通常在晚期,治疗远没有早期有效。肺癌的常规筛查手段有低剂量螺旋CT(LDCT),还有一些蛋白标志物,例如:癌胚抗原(CEA)、鳞状细胞癌抗原(SCC)、神经元特异性烯醇化酶(NSE)等。但这些常规的手段在灵敏性和特异性方面各参差不齐。目前,DNA甲基化已被证明具有组织特征性,可用于早期癌症检测,并可根据循环肿瘤DNA(ctDNA)甲基化特征追踪到肿瘤原发部位。
液体活检就是通过分析血液中的癌症组分,来实现癌症的早期筛查、分子分型、预后、用药指导以及复发检测等临床应用。液体活检作为精准医疗新技术,因其可定性定量检测肿瘤直接相关的肿瘤细胞和DNA,并具有非侵入性、取样便捷、实时监测等特点,逐步在肿瘤诊疗中发挥越来越重要的作用。
目前,有研究证明cfDNA分子并不是随机片段。特定组织细胞死亡会引起受影响组织的DNA片段分布发生变化,可以通过这种组织来源分析追踪到肿瘤原发部位,用于癌症的早期诊断。另外,cfDNA片段组可以全面的代表基因组和染色质特征,从而识别循环中肿瘤衍生的大量变化。
基于全基因组甲基化测序(WGBS)既能够检测到甲基化水平信息,又能够检测cfDNA片段组,因此,基于WGBS数据联合甲基化水平和片段组特征为肿瘤检测提供了新的策略。
发明内容
针对现有技术的问题,本发明的目的在于提供一种用于癌症筛查的***。
具体地,涉及如下技术方案:
1.一种用于癌症筛查的***,其包括:
数据采集模块,其用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及
癌症计算模块,其基于数据采集模块中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
2.根据项1所述的***,其中,
所述数据采集模块包括测序模块、甲基化水平分析模块和cfDNA相关特征提取模块,
所述测序模块用于对受试者的cfDNA进行全基因组测序,
所述甲基化水平分析模块用于从测序模块获得测序数据来分析目标区域的甲基化水平,所述cfDNA相关特征提取模块用于从测序模块获得的测序数据中提取cfDNA测序数据的相关特征。
3.根据项1所述的***,其中,
所述目标区域包括以下区域中的任意一种或两种以上:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
4.根据项1所述的***,其中,
目标区域的甲基化水平是基于目标区域每一个CG位点的甲基化水平来计算的,其中所述CG位点的甲基化水平为在所有检测到的该位点的序列结果中检测到该位点为发生了甲基化的胞嘧啶与为发生了甲基化的胞嘧啶和未发生甲基化的胞嘧啶之和的比值。
5.根据项2所述的***,其中,
所述cfDNA相关特征包括:
cfDNA测序数据中得到的所有片段大小的平均值、
cfDNA测序数据中得到的所有片段大小的众数、
cfDNA测序数据中得到的平均覆盖度、
预存的健康人对应区间短片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的短片段覆盖度之间的相关系数、
预存的健康人对应区间长片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的长片段覆盖度之间的相关系数、
以及预存的健康人对应区间短长片段比值的平均值向量与受试者的cfDNA测序数据中得到的短长片段比值之间的相关系数。
6.根据项5所述的***,其中,
预存的健康人对应区间短片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间长片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间长片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间短长片段比值的平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短长片段的平均值,用于提供给数据采集模块来计算。
7.根据项5所述的***,其中,
cfDNA测序数据中得到的所有片段大小的平均值是指受试者的cfDNA测序数据得到的所有片段的大小之和与所有片段的数量的比值;
cfDNA测序数据中得到的平均覆盖度是指受试者的cfDNA测序数据得到的所有片段的数量;
cfDNA测序数据中得到的短片段覆盖度是指受试者的cfDNA测序数据得到的短片段的数量;
cfDNA测序数据中得到的长片段覆盖度是指受试者的cfDNA测序数据得到的长片段的数量。
8.根据项5所述的***,其中,
所述长片段的长度为201~320bp,所述短片段的长度为150~200bp。
9.根据项2所述的***,其中,
cfDNA测序数据是经过去除低质量测序片段后的cfDNA测序数据。
10.根据项9所述的***,其中,
cfDNA测序数据是去除低质量测序片段后进一步排除了低比对率区间内的测序数据后的测序数据。
11.根据项1所述的***,其中,
在癌症计算模块中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症,
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
12.根据项1所述的***,其中,
所述***还包括重亚硫酸盐处理模块,其用于对受试者的cfDNA进行重亚硫酸盐处理。
1.一种用于癌症筛查的***,其包括:
数据采集模块,其用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及
癌症计算模块,其基于数据采集模块中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
2.根据项1所述的***,其中,
所述数据采集模块包括测序模块、甲基化水平分析模块和cfDNA相关特征提取模块,
所述测序模块用于对受试者的cfDNA进行全基因组测序,
所述甲基化水平分析模块用于从测序模块获得测序数据来分析目标区域的甲基化水平,所述cfDNA相关特征提取模块用于从测序模块获得的测序数据中提取cfDNA测序数据的相关特征。
3.根据项1所述的***,其中,
所述目标区域包括以下区域中的任意一种或两种以上:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
4.根据项1所述的***,其中,
目标区域的甲基化水平是基于目标区域每一个CG位点的甲基化水平来计算的,其中所述CG位点的甲基化水平为在所有检测到的该位点的序列结果中检测到该位点为发生了甲基化的胞嘧啶与为发生了甲基化的胞嘧啶和未发生甲基化的胞嘧啶之和的比值。
5.根据项2所述的***,其中,
所述cfDNA相关特征包括:
cfDNA测序数据中得到的所有片段大小的平均值、
cfDNA测序数据中得到的所有片段大小的众数、
cfDNA测序数据中得到的平均覆盖度、
预存的健康人对应区间短片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的短片段覆盖度之间的相关系数、
预存的健康人对应区间长片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的长片段覆盖度之间的相关系数、
以及预存的健康人对应区间短长片段比值的平均值向量与受试者的cfDNA测序数据中得到的短长片段比值之间的相关系数。
6.根据项5所述的***,其中,
预存的健康人对应区间短片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间长片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间长片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间短长片段比值的平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短长片段的平均值,用于提供给数据采集模块来计算。
7.根据项5所述的***,其中,
cfDNA测序数据中得到的所有片段大小的平均值是指受试者的cfDNA测序数据得到的所有片段的大小之和与所有片段的数量的比值;
cfDNA测序数据中得到的平均覆盖度是指受试者的cfDNA测序数据得到的所有片段的数量;
cfDNA测序数据中得到的短片段覆盖度是指受试者的cfDNA测序数据得到的短片段的数量;
cfDNA测序数据中得到的长片段覆盖度是指受试者的cfDNA测序数据得到的长片段的数量。
8.根据项5所述的***,其中,
所述长片段的长度为201~320bp,所述短片段的长度为150~200bp。
9.根据项2所述的***,其中,
cfDNA测序数据是经过去除低质量测序片段后的cfDNA测序数据。
10.根据项9所述的***,其中,
cfDNA测序数据是去除低质量测序片段后进一步排除了低比对率区间内的测序数据后的测序数据。
11.根据项1所述的***,其中,
在癌症计算模块中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症,
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
12.根据项1所述的***,其中,
所述***还包括重亚硫酸盐处理模块,其用于对受试者的cfDNA进行重亚硫酸盐处理。
13.一种用于癌症筛查的方法,其包括:
数据采集步骤,用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及
癌症计算步骤,基于数据采集步骤中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
14.根据项13所述的方法,其中,
所述数据采集步骤包括测序步骤、甲基化水平分析步骤和cfDNA相关特征提取步骤,
所述测序步骤用于对受试者的cfDNA进行全基因组测序,
所述甲基化水平分析步骤用于从测序步骤获得测序数据来分析目标区域的甲基化水平,所述cfDNA相关特征提取步骤用于从测序步骤获得的测序数据中提取cfDNA测序数据的相关特征。
15.根据项13所述的方法,其中,
所述目标区域包括以下区域中的任意一种或两种以上:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
16.根据项13所述的方法,其中,
目标区域的甲基化水平是基于目标区域每一个CG位点的甲基化水平来计算的,其中所述CG位点的甲基化水平为在所有检测到的该位点的序列结果中检测到该位点为发生了甲基化的胞嘧啶与为发生了甲基化的胞嘧啶和未发生甲基化的胞嘧啶之和的比值。
17.根据项14所述的方法,其中,
所述cfDNA相关特征包括:
cfDNA测序数据中得到的所有片段大小的平均值、
cfDNA测序数据中得到的所有片段大小的众数、
cfDNA测序数据中得到的平均覆盖度、
预存的健康人对应区间短片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的短片段覆盖度之间的相关系数、
预存的健康人对应区间长片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的长片段覆盖度之间的相关系数、
以及预存的健康人对应区间短长片段比值的平均值向量与受试者的cfDNA测序数据中得到的短长片段比值之间的相关系数。
18.根据项17所述的方法,其中,
预存的健康人对应区间短片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短片段覆盖度的平均值,用于提供给数据采集步骤来计算;
预存的健康人对应区间长片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间长片段覆盖度的平均值,用于提供给数据采集步骤来计算;
预存的健康人对应区间短长片段比值的平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短长片段的平均值,用于提供给数据采集步骤来计算。
19.根据项17所述的方法,其中,
cfDNA测序数据中得到的所有片段大小的平均值是指受试者的cfDNA测序数据得到的所有片段的大小之和与所有片段的数量的比值;
cfDNA测序数据中得到的平均覆盖度是指受试者的cfDNA测序数据得到的所有片段的数量;
cfDNA测序数据中得到的短片段覆盖度是指受试者的cfDNA测序数据得到的短片段的数量;
cfDNA测序数据中得到的长片段覆盖度是指受试者的cfDNA测序数据得到的长片段的数量。
20.根据项17所述的方法,其中,
所述长片段的长度为201~320bp,所述短片段的长度为150~200bp。
21.根据项14所述的方法,其中,
cfDNA测序数据是经过去除低质量测序片段后的cfDNA测序数据。
22.根据项21所述的方法,其中,
cfDNA测序数据是去除低质量测序片段后进一步排除了低比对率区间内的测序数据后的测序数据。
23.根据项13所述的方法,其中,
在癌症计算步骤中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症,
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
24.根据项13所述的方法,其中,
所述方法还包括重亚硫酸盐处理步骤,其用于对受试者的cfDNA进行重亚硫酸盐处理。
发明的效果
本发明的***综合利用甲基化水平、cfDNA特征相关的指标构建,能够大幅度地降低癌症筛查的成本并提高筛查准确率的癌症无创筛查方法,并具有非常高的灵敏度和特异性。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1为基于5个区域构建模型在训练集中的ROC曲线;
图2为基于5个区域构建模型在测试集中的ROC曲线;
图3是针对甲基化水平构建的癌症筛查模型的结果图;
图4是针对cfDNA特征构建的癌症筛查模型的结果图;
图5是针对甲基化水平和cfDNA特征构建的癌症筛查模型的结果图。
具体实施方式
下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要说明的是,在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解,技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
定义
除非在本文的其他地方具体限定,否则本文使用的所有其他技术和科学术语具有本申请所属领域的普通技术人员通常理解的含义。
甲基化
甲基化是蛋白质和核酸的一种重要的修饰,调节基因的表达和关闭,与癌症、衰老、老年痴呆等许多疾病密切相关,是表观遗传学的重要研究内容之一。最常见的甲基化修饰有DNA甲基化和组蛋白甲基化。
DNA甲基化是指发生在CpG二核苷酸中胞嘧啶上第5位碳原子的甲基化过程,作为一种对稳定的修饰状态,在DNA甲基转移酶的作用下,可随DNA的复制过程遗传给新生的子代DNA,是一种重要的表观遗传机制,DNA甲基化时,基因启动子区的甲基化可导致抑癌基因转录沉寂,因此它与肿瘤的***密切。异常甲基化包括抑癌基因和DNA修复基因的高甲基化、重复序列DNA的低甲基化、某些基因的印记丢失,其与多种肿瘤的发生有关。
在本文中,ROC曲线一定程度上可以反映分类器的分类效果。AUC实际上就是ROC曲线下的面积。AUC直观地反映了ROC曲线表达的分类能力。
全基因组甲基化测序
全基因组甲基化测序(Whole-genome bisulfite sequencing,WGBS)被视为甲基化测序的“金标准”。其原理是用重亚硫酸盐处理,将基因组中未发生甲基化的C碱基转换成U,进行PCR扩增后变成T,与原本具有甲基化修饰的C碱基区分开来,再结合高通量测序技术与参考序列比对,即可判断CpG/CHG/CHH位点是否发生甲基化。
特异性
特异性是指没有特定临床疾病的患者的样本,其检测结果呈阴性的比率。
灵敏度
灵敏度是指患有明确临床疾病的患者的样本,其检测结果呈阳性的比率。
PPV
预测为阳性的人中,真正为阳性的人的比例。
NPV
预测为阴性的人中,真正为阴性的人的比例。
众数
众数是指一组数据中出现次数最多的数值。cfDNA测序数据中得到的所有片段大小的众数是指cfDNA测序数据中片段大小出现最多的数值。
相关系数
相关系数是表示变量之间相关程度的量。本发明中所使用的相关系数是皮尔逊相关系数。皮尔逊相关系数(Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。系数的值为1意味着X和Y可以很好的由直线方程来描述,所有的数据点都很好的落在一条直线上,且Y随着X的增加而增加。系数的值为-1意味着所有的数据点都落在直线上,且Y随着X的增加而减少。系数的值为0意味着两个变量之间没有线性关系。
梯度提升树
梯度提升树(Gradient Boosting Decision Tree,GBDT)又叫MART(MultipleAdditive Regression Tree),是一种迭代的决策树算法。它在被提出之初就被认为是泛化能力较强的算法。
交叉验证
交叉验证(Cross Validation),有的时候也称作循环估计(RotationEstimation),是一种统计学上将数据样本切割成较小子集的实用方法。交叉验证的基本思想是把在某种意义下将原始数据(dataset)进行分组,一部分做为训练集(train set),另一部分做为验证集(validation set or test set),首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型(model),以此来做为评价分类器的性能指标。
本发明提供一种用于癌症筛查的***,其包括数据采集模块和癌症计算模块。其中,数据采集模块用于获取受试者目标区域的甲基化水平、cfDNA相关特征,癌症计算模块基于数据采集模块中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
在本文中受试者的目标区域可以是受试者染色体上的特定区域,例如,所述目标区域包括以下区域中的任意一种或两种以上:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位。
在一个具体的实施方式中,所述目标区域为2号染色体191184000-191189000位。
在一个具体的实施方式中,所述目标区域为4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位和2号染色体191183500-191188500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位和2号染色体191184000-191189000位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位和2号染色体191184000-191189000位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191184000-191189000位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为2号染色体191184000-191189000位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位和2号染色体191184000-191189000位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位、2号染色体191184000-191189000位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位、2号染色体191184000-191189000位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191184000-191189000位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位、2号染色体191184000-191189000位和4号染色体68566500-68571500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位、2号染色体191184000-191189000位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为2号染色体191183500-191188500位、2号染色体191184000-191189000位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191184000-191189000位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
在一个具体的实施方式中,所述目标区域为1号染色体151445000-151450000位、2号染色体191183500-191188500位、2号染色体191184000-191189000位、4号染色体68566500-68571500位和11号染色体30601500-30606500位。
目标区域的甲基化水平是基于目标区域每一个CG位点的甲基化水平来计算的,其中所述CG位点的甲基化水平为在所有检测到的该位点的序列结果中检测到该位点为发生了甲基化的胞嘧啶与为发生了甲基化的胞嘧啶和未发生甲基化的胞嘧啶之和的比值。
对于每个window,统计每个window中的CG位点个数。因为已知每个CG位点的甲基化胞嘧啶的深度和位点的总深度,进而可以计算出整个window的甲基化水平,即为所有CG位点的甲基化胞嘧啶的深度的总和除以所有CG位点的总深度之和的比值。每个window会通过上述计算方式,得到相应的一个甲基化水平。其中,每个CG位点的甲基化胞嘧啶的深度为测序检测结果显示该位点为甲基化的胞嘧啶的reads的个数,即测序结果显示测得的该位点结果为C(胞嘧啶)的reads的个数,位点的总深度为涵盖该位点的全部测序reads的总数,即测得结果显示该位点为C或T(胸腺嘧啶)的reads总数。甲基化胞嘧啶的深度和位点的总深度可以通过测序软件分析后直接提供。
上述目标区域中癌症和健康人cfDNA的甲基化水平有显著差异,因此可以用于作为癌症检测相关的标志物:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
cfDNA相关特征是指cfDNA测序数据中获得的有关cfDNA的特征。
在一个具体的实施方式中,所述cfDNA相关特征包括:
cfDNA测序数据中得到的所有片段大小的平均值、
cfDNA测序数据中得到的所有片段大小的众数、
cfDNA测序数据中得到的平均覆盖度、
预存的健康人对应区间短片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的短片段覆盖度之间的相关系数、
预存的健康人对应区间长片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的长片段覆盖度之间的相关系数、
以及预存的健康人对应区间短长片段比值的平均值向量与受试者的cfDNA测序数据中得到的短长片段比值之间的相关系数。
其中,cfDNA测序数据中得到的所有片段大小的平均值是指受试者的cfDNA测序数据得到的所有片段的大小之和与所有片段的数量的比值。
cfDNA测序数据中得到的平均覆盖度是指受试者的cfDNA测序数据得到的所有片段的数量。
cfDNA测序数据中得到的短片段覆盖度是指受试者的cfDNA测序数据得到的短片段的数量。
cfDNA测序数据中得到的长片段覆盖度是指受试者的cfDNA测序数据得到的长片段的数量。
预存的健康人对应区间短片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短片段覆盖度的平均值,用于提供给数据采集模块来计算。
预存的健康人对应区间长片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间长片段覆盖度的平均值,用于提供给数据采集模块来计算。
预存的健康人对应区间短长片段比值的平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短长片段的平均值,用于提供给数据采集模块来计算。
在一个具体的实施方式中,所述长片段的长度为201~320bp,所述短片段的长度为150~200bp。
进一步地,cfDNA测序数据是经过去除低质量测序片段后的cfDNA测序数据。
更进一步地,cfDNA测序数据是去除低质量测序片段后并排除了低比对率区间内的测序数据后的测序数据。具体地,可以参考https://genome.ucsc.edu/cgi-bin/hgFileUi?db=hg19&g=wgEncodeMapability中提供的低比对率区间进行。
本发明的数据采集模块进一步可以包括测序模块、甲基化水平分析模块和cfDNA相关特征提取模块三个子模块,其中,所述测序模块用于对受试者的cfDNA进行全基因组测序。所述甲基化水平分析模块用于从测序模块获得测序数据来分析目标区域的甲基化水平。所述cfDNA相关特征提取模块用于从测序模块获得的测序数据中提取cfDNA测序数据的相关特征。
本发明的癌症计算模块中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症。将在数据采集模块中获取的受试者目标区域的甲基化水平、cfDNA相关特征代入到癌症计算模块中的模型,即可得到受试者是否罹患癌症的预测结果。
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
本发明所述的***还可以进一步包括重亚硫酸盐处理模块,其用于对受试者的cfDNA进行重亚硫酸盐处理。经过重亚硫酸盐处理的cfDNA用于后续的cfDNA测序。
本发明还提供一种用于癌症筛查的方法,其包括数据采集步骤,用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及
癌症计算步骤,基于数据采集步骤中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
进一步地,所述数据采集步骤包括测序步骤、甲基化水平分析步骤和cfDNA相关特征提取步骤,
所述测序步骤用于对受试者的cfDNA进行全基因组测序,
所述甲基化水平分析步骤用于从测序步骤获得测序数据来分析目标区域的甲基化水平,所述cfDNA相关特征提取步骤用于从测序步骤获得的测序数据中提取cfDNA测序数据的相关特征。
目标区域、目标区域的甲基化水平、cfDNA相关特征如上针对用于癌症筛查的***的描述。
在癌症计算步骤中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症,
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
所述方法还进一步包括重亚硫酸盐处理步骤,用于对受试者的cfDNA进行重亚硫酸盐处理。
实施例
实施例1差异甲基化区域的计算和片段组特征的计算
1.1cfDNA提取纯化
1.1.1血浆样本制备:
4℃、2000g离心血液样本10min,将血浆转移到一个新的离心管中。4℃、16000g离心血浆样本10min,根据使用的收集管类型,执行下一步,本实验中使用的收集管类型为其他。
/>
1.1.2裂解和结合
1.1.2.1.按照下表准备Binding Solution/Beads Mix,然后彻底混匀。
加入适量体积的血浆样品。
1.1.2.2.彻底混匀血浆样品和Binding Solution/Beads Mix。
1.1.2.3.在旋转混匀仪上充分的结合10min,使cfDNA结合到磁珠上。
1.1.2.4.将结合管放在磁力架上5min,直到溶液变得澄清,磁珠完全吸附在磁力架上。
1.1.2.5.用移液管小心的弃去上清,继续保持管子在磁力架上几分钟,用移液管移去残留上清。
1.1.3洗涤
1.1.3.1.将珠子重悬在1ml Wash Solution中。
1.1.3.2.将重悬液转移到新的无吸附1.5ml离心管中。保留结合管。
1.1.3.3.将含有珠子重悬液的离心管置于磁力架上,20s。
1.1.3.4.将分离得到的上清,吸出洗涤结合管,将清洗后的残留珠子再次收集到重悬液中,弃掉裂解/结合管。
1.1.3.5.管子置于磁力架上2min,直到溶液变得澄清,珠子聚集在磁力架,用1ml移液器移除上清。
1.1.3.6.管子留在磁力架上,用200μL移液器尽可能移除残留的液体。
1.1.3.7.将管子从磁力架取下来,加入1ml Wash Solution,涡旋30s。
1.1.3.8.置于磁力架2min,直到溶液澄清,珠子聚集在磁力架上,用1ml移液管移除上清。
1.1.3.9.管子留在磁力架上,用200μL移液器彻底移除残留液体。
1.1.3.10.将管子从磁力架取下,加入1ml 80%乙醇,涡旋30s。
1.1.3.11.置于磁力架上2min,溶液变得澄清,用1ml移液器移去上清。
1.1.3.12.管子留在磁力架上,用200μL移液器移去残留液体。
1.1.3.13.用80%乙醇重复上述10-12步骤一次,尽可能除去上清。
1.1.3.14.管子留在磁力架上,空气中干燥珠子3~5分钟。
1.1.4洗脱cfDNA
1.1.4.1.按照下表加入Elution Solution。
1.1.4.2.置于磁力架上2min,溶液变得澄清,吸取上清液中的cfDNA。
1.1.4.3.纯化的cfDNA立即使用,或者将上清转移至新的离心管中,-20℃保存。
1.2gDNA打断与纯化:
1.2.1.按照Qubit浓度,取2μg DNA,加水补至125μl,加入到covaris 130μl打断管中,设置程序:50W,20%,200cycles,250s。
1.2.2打断结束后取1μl样品使用Agilent2100进行片段检测,正常打断后样品检测主峰约在150bp-200bp。
对于cfDNA样品,Agilent2100进行片段检测,直接Qubit用于后续的实验。
1.3末端修复、3‘端加“A”:
1.3.1.取Xng打断后的gDNA或cfDNA至PCR管中,用无核酸酶水补至50μl,加入以下试剂,涡旋混匀:
组分 体积
gDNA/cfDNA 50μl
End Repair&A-Tailing Buffer 7μl
End Repair&A-Tailing Enzyme Mix 3μl
总体积 60μl
1.3.2.设置以下程序在PCR仪上进行反应:
热盖温度85℃。
温度 时间
20℃ 30min
65℃ 30min
4℃
1.4接头连接及纯化:
1.4.1.参照下表将接头提前稀释成合适的浓度:
/>
1.4.2.按下表配制以下试剂,轻轻吸打混匀,短暂离心:
组分 体积
末端修复、加“A”反应产物 60μl
接头 5μl
无核酸酶水 5μl
Ligation Buffer 30μl
DNA Ligase 10μl
总体积 110μl
1.4.3.设置以下程序在PCR仪上进行反应:
无热盖。
温度 时间
20℃ 30min
4℃
1.4.4.按照以下体系,加入纯化磁珠进行实验(Agencourt AMPure XP磁珠提前拿至室温震荡混合均匀备用):
组分 体积
接头连接产物 110μl
Agencourt AMPure XP beads 110μl
总体积 220μl
1.4.4.1.轻轻吸打混匀6次。
1.4.4.2.室温静置孵育5-15min,将PCR管置于磁力架上3min使溶液澄清。
1.4.4.3.移除上清,PCR管继续放置在磁力架上,向PCR管内加入200μl 80%乙醇溶液,静置30s。
1.4.4.4.移除上清,再向PCR管内加入200μl 80%乙醇溶液,静置30s后彻底移除上清(建议使用10μl移液器移除底部残留乙醇溶液)。
1.4.4.5.室温静置3-5min,使残留乙醇彻底挥发。
1.4.4.6.加入22μl的Nuclease-freewater,把PCR管从磁力架取下,轻轻吸打重悬磁珠,避免产生气泡,室温静置2min。
1.4.4.7.将PCR管置于磁力架上2min使溶液澄清。
1.4.4.8.用移液器吸取20μl上清液,转移到新的PCR管。
1.5重亚硫酸盐处理及纯化:
1.5.1.预先拿出所需要的试剂,并溶解。根据下表加入各试剂:
组分 高浓度样品(1ng-2μg)体 低浓度样品(1-500ng)
接头连接纯化产物 20μl 40μl
Bisulfite solution 85μl 85μl
DNA protect buffer 35μl 15μl
总体积 140μl 140μl
1.5.2.DNA Protect buffer加入液体变成蓝色。轻轻吸打混匀,然后分成两管至于PCR仪上。
1.5.3.设置以下程序,并运行:
热盖105℃。
温度 时间
95℃ 5min
60℃ 10min
95℃ 5min
60℃ 10min
4℃
1.5.4.简短离心将两管相同样本合并至同一个干净的1.5ml离心管中。
1.5.5.每个样本中加入310μl Buffer BL(样本量少于100ng加入1μl的CarrierRNA(1μg/μl)),涡旋混匀,简短离心。
1.5.6.加入250μl无水乙醇到每个样本中,涡旋混匀15s,简短离心,将混合液加入到准备好的对应的离心柱中。
1.5.7.静置1min,离心1min,将收集管中的液体重新转移到离心柱中,离心1min,弃去离心管的液体。
1.5.8.加入500μl buffer BW(注意是否加入无水乙醇),离心1min,弃去废液。
1.5.9.加入500μl buffer BD(注意是否加入无水乙醇),盖好管盖,室温放置15min。离心1min,弃去离心下的液体。
1.5.10.加入500μl buffer BW(注意是否加入无水乙醇),离心1min,弃去离下来的液体,在重复一次,共2次。
1.5.11.加入250μl无水乙醇,离心1min,将离心柱放置到新的2ml收集管中,弃掉全部剩余液体。
1.5.12.将离心柱放置到干净的1.5ml离心管中,加入20μl无核酸酶水到离心柱膜中心,轻轻盖上管盖,室温放置1min,离心1min。
1.5.13.将收集管中的液体重新转移至离心柱中,室温放置1min,离心1min。
1.6杂交前预扩增及纯化:
1.6.1.按下列表格配制反应体系,吹打混匀,短暂离心:
1.6.2.设置以下程序并启动PCR程序:
热盖105℃
1.6.3.PCR循环数根据投入DNA的量不同进行调整,参考数据如下所示:
/>
1.6.4.向反应结束后的PCR管中加入50μl Agencourt AMPure XP磁珠,用移液器吹打混匀,避免产生气泡(Agencourt AMPure XP提前室温混匀并平衡)。
1.6.5.室温孵育5-15min,把PCR管置于磁力架上3min使溶液澄清。
1.6.6.移除上清,PCR管继续放置在磁力架上,向PCR管内加入200μl 80%乙醇溶液,静置30s。
1.6.7.移除上清,再向PCR管内加入200μl 80%乙醇溶液,静置30s后彻底移除上清(建议使用10μl移液器移除底部残留乙醇溶液)。
1.6.8.室温静置5min,使残留乙醇彻底挥发。
1.6.9.加入30μl的Nuclease-free water,将离心管从磁力架取下,使用移液器,轻轻吸打重悬磁珠。
1.6.10.室温静置2min,将200μl PCR管置于磁力架上2min使溶液澄清。
1.6.11.用移液器将上清液转移到新的200μl PCR管中(置于冰盒上),在反应管上标记好样本号,准备下一步反应。
1.6.12.取1μl样品使用Qubit进行文库浓度测定,记录文库浓度。
1.6.13.取1μl样品使用安捷伦2100进行文库片段长度测定,文库长度约在270bp-320bp间。
1.6.14.使用Illumina高通量测序平台进行测序。
1.6.15.甲基化生信分析流程。流程如下:使用fastp等质控软件查看原始测序数据质量,并进行过滤、截取或去除低质量的reads,得到对应的clean data;采用Bismarkbowtie2比对软件将质控后的clean data数据比对到参考基因组(hg19)上;利用deduplicate_bismark对初次比对的bam文件进行去重;利用Bismark_methylation_extractor提取对应的甲基化位点信息,得到最终的甲基化CG文件(包括所有单个CG位点信息文件);最后,利用sliding window的方法在参考基因组上进行划窗,计算出每个window区间中的CG位点的整体甲基化水平;对于每个样本统计对应window的甲基化水平,根据不同样本的组别找出差异甲基化window。
1.6.16.cfDNA片段特征提取流程。
使用fastp等质控软件查看测序质量,去除低质量的读段,然后采用Bismarker等比对软件将质控后的clean data的数据比对到参考基因组上,
得到比对后的bam文件,过滤掉MAPQ<30的reads,使用R包GCcontent提取全基因组片段信息。
将提取的片段信息根据hg19参考基因组常染色体平铺为相邻的、不重叠的100kb区间,并基于之前的研究工作排除了低比对率的区间。定义短片段长度在150~200bp之间,长片段长度在201~320bp之间,计算每个区间短片段覆盖度、长片段覆盖度以及短片段+长片段的总覆盖度。
使用局部加权回归(LOWESS)校正短片段、长片段以及总覆盖度,从而去除GC偏移引起的覆盖度偏差。
将100kb的区间依次合并为5MB的区间,得到499个不重叠的区间,然后计算每个区间校正后的短片段覆盖度、长片段覆盖度、短长片段比值以及总覆盖度,便可得到样本的多个初步特征。
实施例2
基于14个肺癌患者cfDNA和22个健康人cfDNA训练集,利用实施例1所述的方法检测14个肺癌患者和22个健康人的1583个初始标志物的甲基化水平,筛选出5个最显著区分肺癌和健康人cfDNA的甲基化区域作为用于肺癌检测相关的特定区域。如表1所示,相应的区域信息如下:第一区域,1号染色体151445000-151450000位;第二区域,2号染色体191183500-191188500位;第三区域,2号染色体191184000-191189000位;第四区域,4号染色体68566500-68571500位;第五区域,11号染色体30601500-30606500位。
将检测到的14个肺癌患者和22个健康人的各区域的、基于实施例1方法检测到的每个上述标志物的甲基化水平数据输入R软件,并利用R软件的randomForest包构建随机森林模型进行模型回归。回归结果显示,在训练集中,能够用于预测肺癌结果的基于5个标志物的综合甲基化水平的cutoff值为0.442,即指定阈值为0.442(大于0.442即判读为肺癌患者),最终模型得到的AUC达到1,准确度100%,灵敏度100%,特异性为100%,PPV为100%,NPV为100%,具体信息见表1和图1。
表1
实施例3
基于实施例2的中5个甲基化标志物,使用R软件中的pROC,根据每个甲基化标志物的甲基化水平,计算得到5个甲基化标志物分别在测试集中(不用于训练集的10个肺癌患者cfDNA和不用于训练集的16个健康人cfDNA)的能够用于预测肺癌结果的综合甲基化水平的cutoff和AUC值,见表2。
表2
实施例4
基于实施例2中构建的模型,在10个肺癌患者cfDNA和16个健康人cfDNA的测试集中,能够用于预测肺癌结果的基于5个标志物的综合甲基化水平的cutoff为0.442,即指定阈值为0.442(大于0.442即判读为肺癌患者),AUC达到0.919,准确度84.62%,灵敏度90%,特异性为81.25%,PPV为75%,NPV为92.86%,具体信息见表3和图2。
表3
实施例5
选择不同于实施例2-4的另外的42例肺癌样本,不同于实施例2-4的另外的64例健康人,共106例样本,按实施例1的方法采集外周血;建库,并通过Illumina平台测序;测序数据经上述甲基化分析流程得到5个差异甲基化区域的甲基化水平;将上述106例样本划分为70%的训练集和30%的测试集;在全部106样本上,利用R语言工具,使用多个机器学习模型(逻辑回归、支持向量机、随机森林、梯度提升树等)进行5倍交叉验证来评估每个模型的训练结果,在该数据集上梯度提升树模型结果最优,由此选择梯度提升树模型作为最终模型来对进行建模。
进一步针对训练集(选取42例肺癌样本中的28例肺癌样本,64例健康人样本中的46例健康样本),使用梯度提升树模型,采用5倍的交叉验证法获得最优模型;模型在测试集上的结果如图3和表4,AUC值为0.905,灵敏度为85.7%,特异性为88.9%。阳性预测值PPV为85.7%,阴性预测值NPV为88.9%。
表4
实施例6
选择与实施例5相同的42例肺癌样本,64例健康人,按实施例1的方法采集外周血;建库,并通过Illumina平台测序;按照片段组生信分析流程,得到样本关于片段组的多个初步特征:499个短片段覆盖度特征,499个长片段覆盖度特征以及499个总覆盖度特征。用上面三类特征计算,得到4个综合指标:cov(覆盖度,499个区间合并为一个区间,计算499个总片段覆盖度的平均值)、short.cor(所有健康人对应区间短片段覆盖度平均值向量与样本的短片段覆盖度相关系数)、long.cor(所有健康人对应区间长片段覆盖度平均值向量与样本的长片段覆盖度相关系数)、ratio.cor(所有健康人对应短长片段比值的平均值向量与样本的短长片段比值的相关系数)。使用上面4个特征结合mean_size(片段大小均值)、mode_size(片段大小的众数),将106例样本划分为70%的训练集和30%的测试集,
进一步针对训练集(选取42例肺癌样本中的28例肺癌样本,64例健康人样本中的46例健康样本);利用R语言工具,采用5倍的交叉验证法,构建得到梯度提升树模型,然后在测试集上进行验证该梯度提升树模型的效果。
本申请的模型在测试集上的结果如图4和表5,AUC值为0.937,灵敏度为85.7%,特异性为88.9%。阳性预测值PPV为85.7%,阴性预测值NPV为88.9%。
表5
实施例7
选择与实施例5相同的42例肺癌样本,64例健康人,将实施例5得到的甲基化特征和实施例6采用的6个片段征合并,联合甲基化和片段组特征进行肺癌判别。同样将106例样本划分为70%的训练集和30%的测试集;在训练集(选取42例肺癌样本中的28例肺癌样本,64例健康人样本中的46例健康样本)上,使用梯度提升树模型,采用5倍的交叉验证选择最优模型(该最优模型也称为本申请的模型);该模型在测试集上的结果如图5和表3,AUC值为0.978,灵敏度为92.9%,特异性为94.4%。阳性预测值PPV为92.9%,阴性预测值NPV为94.4%。
表6
本发明的方法使用WGBS数据可以用于癌症筛查,通过WGBS数据获得的片段组信息是可靠的,且WGBS还可以计算甲基化水平,这样便可以同时结合这两方面做早筛。先前研究用的是WGS数据获得片段组信息,然后再结合WGS数据得到CNV拷贝数变异等信息做肿瘤早筛。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。

Claims (12)

1.一种用于癌症筛查的***,其包括:
数据采集模块,其用于获取受试者目标区域的甲基化水平、cfDNA相关特征;以及
癌症计算模块,其基于数据采集模块中获取的甲基化水平和cfDNA相关特征以预测受试者是否罹患癌症。
2.根据权利要求1所述的***,其中,
所述数据采集模块包括测序模块、甲基化水平分析模块和cfDNA相关特征提取模块,
所述测序模块用于对受试者的cfDNA进行全基因组测序,
所述甲基化水平分析模块用于从测序模块获得测序数据来分析目标区域的甲基化水平,所述cfDNA相关特征提取模块用于从测序模块获得的测序数据中提取cfDNA测序数据的相关特征。
3.根据权利要求1所述的***,其中,
所述目标区域包括以下区域中的任意一种或两种以上:
1号染色体151445000-151450000位,
2号染色体191183500-191188500位,
2号染色体191184000-191189000位,
4号染色体68566500-68571500位,或
11号染色体30601500-30606500位。
4.根据权利要求1所述的***,其中,
目标区域的甲基化水平是基于目标区域每一个CG位点的甲基化水平来计算的,其中所述CG位点的甲基化水平为在所有检测到的该位点的序列结果中检测到该位点为发生了甲基化的胞嘧啶与为发生了甲基化的胞嘧啶和未发生甲基化的胞嘧啶之和的比值。
5.根据权利要求2所述的***,其中,
所述cfDNA相关特征包括:
cfDNA测序数据中得到的所有片段大小的平均值、
cfDNA测序数据中得到的所有片段大小的众数、
cfDNA测序数据中得到的平均覆盖度、
预存的健康人对应区间短片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的短片段覆盖度之间的相关系数、
预存的健康人对应区间长片段覆盖度平均值向量与受试者的cfDNA测序数据中得到的长片段覆盖度之间的相关系数、
以及预存的健康人对应区间短长片段比值的平均值向量与受试者的cfDNA测序数据中得到的短长片段比值之间的相关系数。
6.根据权利要求5所述的***,其中,
预存的健康人对应区间短片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间长片段覆盖度平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间长片段覆盖度的平均值,用于提供给数据采集模块来计算;
预存的健康人对应区间短长片段比值的平均值向量是指基于已知的健康人的cfDNA的测序数据计算出来的在这些已知的健康人中其对应区间短长片段的平均值,用于提供给数据采集模块来计算。
7.根据权利要求5所述的***,其中,
cfDNA测序数据中得到的所有片段大小的平均值是指受试者的cfDNA测序数据得到的所有片段的大小之和与所有片段的数量的比值;
cfDNA测序数据中得到的平均覆盖度是指受试者的cfDNA测序数据得到的所有片段的数量;
cfDNA测序数据中得到的短片段覆盖度是指受试者的cfDNA测序数据得到的短片段的数量;
cfDNA测序数据中得到的长片段覆盖度是指受试者的cfDNA测序数据得到的长片段的数量。
8.根据权利要求5所述的***,其中,
所述长片段的长度为201~320bp,所述短片段的长度为150~200bp。
9.根据权利要求2所述的***,其中,
cfDNA测序数据是经过去除低质量测序片段后的cfDNA测序数据。
10.根据权利要求9所述的***,其中,
cfDNA测序数据是去除低质量测序片段后进一步排除了低比对率区间内的测序数据后的测序数据。
11.根据权利要求1所述的***,其中,
在癌症计算模块中,预先存储有基于已知样本的甲基化水平、cfDNA相关特征的数据拟合而成的模型以用于预测受试者是否罹患癌症,
所述模型是基于已知样本的甲基化水平、cfDNA相关特征的数据通过梯度提升树模型,采用5倍的交叉验证选择得到的。
12.根据权利要求1所述的***,其中,
所述***还包括重亚硫酸盐处理模块,其用于对受试者的cfDNA进行重亚硫酸盐处理。
CN202210228206.4A 2022-03-08 2022-03-08 用于癌症筛查的*** Pending CN116779025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210228206.4A CN116779025A (zh) 2022-03-08 2022-03-08 用于癌症筛查的***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210228206.4A CN116779025A (zh) 2022-03-08 2022-03-08 用于癌症筛查的***

Publications (1)

Publication Number Publication Date
CN116779025A true CN116779025A (zh) 2023-09-19

Family

ID=87984691

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210228206.4A Pending CN116779025A (zh) 2022-03-08 2022-03-08 用于癌症筛查的***

Country Status (1)

Country Link
CN (1) CN116779025A (zh)

Similar Documents

Publication Publication Date Title
CN114045345B (zh) 基于游离dna的基因组癌变信息检测***和检测方法
CN114736968B (zh) 血浆游离dna甲基化标志物在肺癌早筛中的用途以及肺癌早筛装置
CN110760580B (zh) 一种肝癌的早期诊断设备
WO2012047899A2 (en) Novel dna hypermethylation diagnostic biomarkers for colorectal cancer
CN110964826A (zh) 一种结直肠癌抑癌基因甲基化高通量检测试剂盒及其应用
CN114974430A (zh) 用于癌症筛查的***及其方法
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
CN106845154B (zh) 一种用于ffpe样本拷贝数变异检测的装置
CN107142320B (zh) 用于检测肝癌的基因标志物及其用途
CN114743593B (zh) 一种基于尿液进行***癌早期筛查模型的构建方法、筛查模型及试剂盒
CN107630093B (zh) 用于诊断肝癌的试剂、试剂盒、检测方法及用途
CN114182022B (zh) 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法
WO2023142625A1 (zh) 一种甲基化测序数据过滤方法及应用
CN115831355A (zh) 多癌种wgs的肿瘤早期筛查方法
CN116121390A (zh) 癌症预后和免疫治疗适用性的标志物及其应用
CN116779025A (zh) 用于癌症筛查的***
CN113817822B (zh) 一种基于甲基化检测的肿瘤诊断试剂盒及其应用
CN117441027A (zh) Heatrich-BS:用于亚硫酸氢盐测序的富含CpG的区域的热富集
US20240194295A1 (en) Cellular heterogeneity-adjusted clonal methylation (chalm): a methylation quantification method
CN116042820B (zh) 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN114231635B (zh) 用于肺癌筛查的标志物、探针组合物及其应用
CN115896258A (zh) 一种用于癌症筛查的方法及用于癌症筛查的***
CN114507734B (zh) 用于甲状腺癌筛查的标志物、探针组合物及其应用
CN117059163A (zh) 筛选大片段甲基化标志物的***及其方法
CN113948150B (zh) Jmml相关基因甲基化水平评估方法、模型及构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination