一种cfDNA分类方法、装置和用途
技术领域
本发明属于基因组学和生物信息学领域,涉及一种cfDNA分类方法、装置和用途。
背景技术
泌尿生殖***肿瘤(***癌、尿路上皮癌和肾癌)是危害人类健康的严重疾病。而对于泌尿生殖***肿瘤的诊断和监测方法通常是侵入性的,或者缺乏敏感性和特异性。
肾癌大约占成人恶性肿瘤的3%,占肾脏肿瘤的90%-95%,其中约75%为肾脏透明细胞癌。目前,手术治疗仍是局限性肾癌最有效的治疗方法,但是术后大约有20%-40%患者将复发。肾细胞癌对放疗和化疗敏感性低。肾癌患者的死亡率高达40%,肾癌引起的高死亡率主要是因为其早期缺乏明显的临床症状,进展期缺乏有效的治疗方法。目前,影像学、细针针吸细胞学检查(fine needle aspiration,FNA),空芯针活检(core biopsy,CB)只能辅助监测,无法给出明确的诊断。目前没有一种敏感性和特异性均较好的肿瘤标志物可用于肾癌的早期诊断及术后随访。
尿路上皮癌是起源于是发生在肾盂、输尿管、膀胱、尿道等覆盖移行上皮细胞的恶性肿瘤,主要包括肾盂和输尿管所在的上尿路上皮癌和膀胱癌。其中上尿路上皮癌相对少见,仅占尿路上皮癌的5%-10%,但在中国上尿路上皮癌占尿路上皮癌的比例高达30%。有多项研究表明上尿路上皮癌的地域特征可能和服用含有马兜铃酸及其类似物的中药相关。另外,虽然组织来源相同,上尿路上皮癌和膀胱癌在临床病理特征方面还有很大不同。筛选尿路上皮癌的新风险因子、新靶点、诊断、预后和动态监测的新型标记物必须同时考虑这两个亚型的癌症。并且,尿路上皮癌患者高复发率可导致手术次数增加、并发症发生率增高、治疗费用增加等。复发患者最终需要进行根治性膀胱切除术或双侧肾输尿管切除术,极大地降低了生存率和生活质量。目前,膀胱癌的诊断可以通过影像学、荧光原位杂交FISH、尿细胞学检查辅助检查判断,但是对于低分级的***敏感性只有4%-31%。目前,诊断膀胱癌最主要的方法就是膀胱镜,但膀胱镜费用昂贵,并且是侵入式的,增加了病人的痛苦。此外,膀胱癌复发率较高,膀胱镜不便用于长期、终身以及预后监测。
***癌是男性常见的恶性肿瘤,一定程度上发病率呈上升趋势。***癌早期没有症状,当肿瘤发展到一定程度,会阻塞尿道或侵犯膀胱颈,造成尿频、尿急、尿失禁等。很多患者确诊时已是晚期,晚期很多患者多发生骨转移。目前,***癌公认的方法是直肠指检和***特异性抗原(PSA)检查,但是PSA的水平也会受到***炎、尿潴留、导尿和药物等因素的影响,造成不少的假阳性率。
随着科学技术的发展,对于肿瘤的诊断技术也在不断的推进。2017年6月,世界经济论坛与《科学美国人》杂志的专家委员会联合选出了2017年度全球十大新兴技术榜单,其中肿瘤的无创诊断技术成功入选并荣膺榜首。肿瘤无创诊断技术即液体活检(liquidbiopsies)的出现,标志着人类在攻克肿瘤的道路上又前进了一大步。与传统的组织活检相比,液体活检具备实时动态检测、克服肿瘤异质性、提供全面检测信息等独特优势。目前,临床研究中,液体活检主要包括游离循环肿瘤细胞(CTCs)检测、循环肿瘤DNA(ctDNA)检测、外泌体及循环RNA(Circulating RNA)检测等,与传统的依靠临床症状或影像学诊断技术比较,利用液体活检技术可以更早地发现疾病进展。液体活检预计在患者治疗过程中评估肿瘤动态和负荷变化,实时监测治疗的有效性,及监测患者机体的微小残留病灶、复发、预后评估、耐药的产生等多个方面发挥重大作用。
目前,尚需要开发新的泌尿生殖***肿瘤的检测手段,其特异性和敏感性均较好,更方便用于多次、长期和预后监测,并减少患者痛苦。
发明内容
本发明人经过深入的研究和创造性的劳动,惊奇地发现,通过在尿上清中检测游离DNA(cfDNA),有利于泌尿***中早期阶段、低级别、非浸润的肿瘤的检测或诊断。进一步地,本发明人设计并完成了实验、测序和分析,通过检测尿液上清的中的cfDNA拷贝数变异(CNV),能够实现一次性完成多达3种泌尿生殖***肿瘤的诊断和分类。由此提供了下述发明:
本发明的一个方面涉及一种cfDNA分类方法,包括:
计算目标样本中的cfDNA的拷贝数变异数据;
计算目标cfDNA拷贝数变异数据与各分类标签的cfDNA拷贝数变异数据的相似度;
根据所述相似度,利用分类器模型确定所述目标cfDNA所属的分类。
在本发明的一些实施方式中,所述的分类方法,其中,确定所述目标cfDNA所属的分类包括:
根据所述相似度,利用随机森林模型确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度;
根据所述相关度,利用所述分类器模型确定所述目标cfDNA所属的分类。
在本发明的一些实施方式中,所述的分类方法,其中,确定所述各分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度包括:
根据所述相关度,对所述cfDNA拷贝数变异数据进行排序,以形成向量序列;
将所述向量序列输入所述随机森林模型,确定所述分类标签的cfDNA拷贝数变异数据与人泌尿生殖***肿瘤的相关度。
在本发明的一些实施方式中,所述的分类方法,其中,所述人泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌;
优选地,所述人泌尿生殖***肿瘤通过对手术样本进行组织活检确诊。
在本发明的一些实施方式中,所述的分类方法,其中,所述随机森林模型为至少3个随机森林二元分类器,并且选自如下的I-VI组中的任意一组、两组、三组或四组:
I.
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
在本发明的一些实施方式中,所述的分类方法,其中,对每个组进行投票,取得票数最高的组对应分类为最终分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终分类,我们定义该集成分类方法为GUdetector。
在本发明的一些实施方式中,所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据由尿液样本中的cfDNA的测序数据计算得到;优选地,所述测序数据为全基因组测序数据;优选地,测序深度为1X-5X。
在本发明的一些实施方式中,所述的分类方法,其中,所述目标样本中的cfDNA的拷贝数变异数据和/或所述各分类标签的cfDNA拷贝数变异数据按照如下方法计算:
将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin(例如50000个bin);将测序数据进行归一化处理,并计算得到各个bin对应的reads数的比值A/B,
其中:
A是一个bin中的经GC含量校正后的实际的reads数;
B是该bin里面理论reads数,是将该样本测得的reads总数除以bin的总数;
比值A/B即为拷贝数变异。
在本发明的一个或多个实施方式中,所述的分类方法,其中,通过Varbin、CNVnator、ReadDepth或SegSeq等软件或算法,将待测样本的基因组划分为5000-500000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,通过Varbin、CNVnator、ReadDepth或SegSeq等软件或算法,计算得到各个bin对应的reads数的比值A/B。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-200000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-150000个长度相等或者理论模拟拷贝数相等的bin。
在本发明的一个或多个实施方式中,所述的分类方法,其中,将待测样本的基因组划分为10000-100000个(例如10000、20000、30000、40000、50000、60000、70000、80000、90000或100000个)长度相等或者理论模拟拷贝数相等的bin。
在本发明的一些实施方式中,所述的分类方法,其中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
在本发明的一些实施方式中,所述的分类方法,其中,所述比值A/B为生物标志物组合中的各生物标志物的比值A/B,
其中,
所述的生物标志物组合为下文中所描述的本发明任一项的生物标志物组合。
本发明的另一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的方法,包括下述步骤(1)、步骤(2)、可选的步骤(3)、步骤(4):
(1)收取尿液样本,提取cfDNA;
(2)筛选得到90-300bp的cfDNA片段或100-300bp的cfDNA片段,
(3)利用得到的cfDNA片段构建全基因组文库;
(4)将cfDNA片段按照本发明中任一项所述的分类方法进行分类。
在本发明的一些实施方式中,所述的方法,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
在本发明的一些实施方式中,所述的方法,其中,步骤(1)中,所述尿液样本为晨尿;优选地,所述尿液样本为晨尿上清。
在本发明的一些实施方式中,所述的方法,其中,步骤(2)中,所述筛选为磁珠筛选。
本发明的再一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,包括:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
本发明的再一方面涉及一种用于人泌尿生殖***肿瘤的检测、诊断、分类、患病风险评估或预后评估的装置,
包括存储器;和耦接至所述存储器的处理器,
其中,
所述存储器上存储有由处理器执行的程序指令,所述程序指令包含选自如下的4个决策单元中的任意1个、任意2个、任意3个或者全部4个决策单元,其中,每个决策单元里面包含3个随机森林二元分类器:
I.‘正常决策单元’:
正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:
肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:
尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:
***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
在本发明的一些实施方式中,所述的装置,其中,所述处理器被配置为基于存储在所述存储器装置中的指令,执行本发明中任一项所述的分类方法。
在本发明的一些实施方式中,所述的装置,其中,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
本发明的再一方面涉及选自如下的1)-3)项中的任意一项在制备人泌尿生殖***肿瘤的检测、诊断、患病风险评估或预后评估的药物中的用途:
1)本发明中任一项所述的生物标志物组合;
2)人尿液中的cfDNA特别是人尿液上清中的cfDNA;
优选地,所述尿液为晨尿;
优选地,所述cfDNA为90-300bp的cfDNA或100-300bp的cfDNA;更优选地,所述cfDNA为90-150bp的cfDNA或100-150bp的cfDNA;
3)DNA文库,其由第2)项制得;优选地,所述DNA文库为全基因组文库;
优选地,所述泌尿生殖***肿瘤为选自***癌、尿路上皮癌和肾癌中的一种或多种;
优选地,所述肾癌为透明肾细胞癌,
优选地,所述尿路上皮癌为上尿路上皮癌和/或膀胱癌,
优选地,所述***癌为***腺癌。
本发明的还一个方面涉及一种生物标志物组合,其包含m个生物标志物,m为大于或等于50的正整数;
所述生物标志物为一段DNA,其对应于染色体上的起始位点为A±n1,终止位点为B±n2;
其中,所述n1和n2独立地为小于或等于60,000的非负整数;
其中,所述染色体、A和B选自如下的(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组(例如前6组)或全部7组;
(1)肾癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表1
(2)尿路上皮癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表2
(3)***癌VS正常的生物标志物(标记物序号越小,分类效能越强)
表3
(4)肾癌VS***癌的生物标志物(标记物序号越小,分类效能越强)
表4
(5)尿路上皮癌VS肾癌的生物标志物(标记物序号越小,分类效能越强)
表5
(6)尿路上皮癌VS***癌的生物标志物(标记物序号越小,分类效能越强)
表6
(7)正常VS***癌的生物标志物(考虑到性别差异,正常人群中只包括了男性,标记物序号越小,分类效能越强)
表7
在本发明的一些实施方式中,所述的生物标志物组合,其中,m为50-300或者大于300,例如50-100、100-150、150-200、200-250、250-300、50、100、150、200、250或300。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,n1和n2独立地为5000、4000、3000、2000、1500、1000、500、300、200、150、100、90、80、70、60、50、40、30、20、10、5或0。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,所述生物标志物为一段cfDNA;优选地,所述cfDNA来源于人尿液特别是人尿液上清。
在本发明的一个或多个实施方案中,所述的生物标志物组合,其中,
所述染色体、A和B如所述(1)-(7)组中的任意1组、任意2组、任意3组、任意4组、任意5组、任意6组或全部7组所示。
下面对本发明涉及的部分术语进行解释。
术语“bin”(区间/区域)是基因组学研究领域对基因组按某个长度人为定义或划分的通用描述,例如,把人的基因组约30亿个碱基对平均划分为3000个bin,那每个bin的大小就是一百万的碱基对左右。
术语“cfNA”是Cell free nucleic acid的缩写,是指血浆游离核酸,是位于外周循环中的细胞外的核酸片段。
术语“cfDNA”是Cell free DNA的缩写,是指血浆游离DNA,是位于外周循环中的细胞外的DNA片段。
术语“覆盖度(coverage)”指的是基因组上至少被检测到1次的区域,占整个基因组的比例。覆盖度是衡量基因组被数据覆盖程度的术语。由于基因组中的高GC、重复序列等复杂结构的存在,测序最终拼接组装获得的序列往往无法覆盖有所的区域,这部分没有获得的区域就称为Gap。例如一个细菌基因组测序,覆盖度是98%,那么还有2%的序列区域是没有通过测序获得的。
术语“测序深度(depth)”是指是指测序得到的碱基总量(bp)与基因组大小(Genome)的比值,或者理解为基因组中每个碱基被测序到的平均次数。例如,假设一个基因大小为2M,获得的总数据量为20M,那么测序深度为20M/2M=10X。
术语“read”或“reads”是指读段,即测得的序列。
术语“pair-end reads”是指配对读段。
术语“拷贝数变异(copy number variations,CNVs)”是指较大DNA片段的缺失或重复,常见的从几百bp至几百万bp的DNA片段的拷贝数增加或者减少。CNVs是由基因组发生重排而导致的,是肿瘤的重要致病因素之一。
术语“理论模拟拷贝数”是指通过拷贝数计算软件和/或方法,将基因组划分成若干个长度相等或者不等的区域,但通过数据模拟,每个区域包含的理论上的拷贝数是相同的。
发明的有益效果
(1)微量检测,降低了测序成本,实现了较低较浅覆盖度即可检测。早期肿瘤细胞释的cfDNA中的含量一般在百分之一甚至万分之一以下,因此想检测到ctDNA中SNV(单核酸变异)和INDEL(***/缺失)水平上的变异,对于目前的DNA检测技术来讲,非常具有挑战性,而且需要很深的测序深度,但是本发明人利用cfDNA全基因组测序技术,检测其拷贝数变异的情况,理论和技术上都具备可行性。本发明人的样本测序深度仅为1X到5X,实现了高灵敏性和特异性的诊断。
(2)实现单种泌尿***肿瘤的高准确性诊断。
(3)组织特异性诊断。解决了未知情况下诊断出是什么肿瘤的问题。本发明人基于建立的分类***筛选出的生物标志物组,可以较高准确度的一次性判断样本来自于泌尿***中哪种肿瘤。
(4)真正做到无创。尿液收集简单、无创,病人无任何痛苦,利于样本收集、诊断、长期和预后定期监测。
附图说明
图1:随机森林二元分类器肾癌VS正常分类结果:敏感性72.2%,特异性93.1%,准确率85.1%。
图2:随机森林二元分类器尿路上皮癌VS正常分类结果:敏感性76.2%,特异性100%,准确率90.0%。
图3:随机森林二元分类器***癌VS正常分类结果:敏感性71.4%,特异性93.1%,准确率86.1%。
图4:随机森林二元分类器肾癌VS***癌分类结果:敏感性72.2%,特异性85.7%,准确率78.1%。
图5:随机森林二元分类器尿路上皮癌VS肾癌分类结果:敏感性95.2%,特异性77.8%,准确率87.2%。
图6:随机森林二元分类器尿路上皮癌VS***分类结果:敏感性85.7%,特异性85.7%,准确率85.7%。
图7A,GUdetector集成分类模型示意图。
图7B,集成分类决策***(GUdetector)四类分类结果,每一类预测正确率分别为正常组89.7%,尿路上皮癌76.2%,***癌64.3%,肾癌44.4%,总体准确率为72.0%。
图8:男性样本的***癌诊断模型。***癌VS正常:准确率96.7%。
图9:SVM四类分类结果(考虑性别因素,去除所有性染色体上的marker),每一类预测正确率分别为正常组84.7%,尿路上皮癌74.3%,***癌52.2%,肾癌55.8%,总体准确率为70.1%。
图10:SVM三类分类结果,每一类预测正确率分别为正常组88.5%,尿路上皮癌76.1%,肾癌64.8%,总体准确率为78.4%。
图11:SVM尿路上皮癌分类结果(定义为UCdetector),并和LASSO和随机森林方法比较。SVM预测正确率分别为正常组94.7%,尿路上皮癌86.5%,总体准确率为91.4%。LASSO预测正确率分别为正常组94.7%,尿路上皮癌75.0%,总体准确率为86.72%。随机森林预测正确率分别为正常组97.4%,尿路上皮癌80.8%,总体准确率为89.8%。
图12A-12D:尿路上皮癌治疗疗效动态监测示例。其中:
图12A,患者1术后动态监测。
图12B,患者2术后动态监测。
图12C,患者3术后动态监测。
图12D,3例患者术后动态监测总结。
具体实施方式
下面将结合实施例对本发明的实施方案进行详细描述,但是本领域技术人员将会理解,下列实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体条件者,按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1:cfDNA样品的制备
1.目标群体
95例健康人;
172例患者,包括:58例透明肾细胞癌(ccRCC)患者,69例尿路上皮癌患者和45例***癌患者。均通过对手术样本进行组织活检确诊。
健康人和患者合计267例。
2.实验方法
(1)收集上述健康人的晨尿和肿瘤病人术前晨尿,每例尿液均收集于50ml离心管中,体积约20-50ml,收集后置于4℃冰盒中,半个小时内进行提取,以免cfDNA降解。
(2)将收集到的晨尿样本分别在3500转/分钟下离心15分钟,然后分别取上清。
(3)利用zymo Quick-DNATM Urine Kit试剂盒进行cfDNA的提取。提取后用Qubit 4荧光定量仪测浓度,后放-80℃保存。
制得267例cfDNA样品。
实施例2:全基因组文库的构建
1.实验样品、试剂和仪器
前面实施例1得到的267例cfDNA样品。
尿液游离DNA提取试剂盒:ZYMO Quick-DNA Urine Kit(ZYMO,Cat#:D3061)。
磁珠:AMPure XP beads(Beckman Coulter,Cat#:A63880)。
普通离心机。
2.实验方法
(1)通过磁珠筛选100bp-300bp的cfDNA(通过控制磁珠体积和cfDNA样本的体积之比能够对磁珠吸附DNA片段大小的范围进行控制)。具体操作如下:
在提取的尿液cfDNA中加入0.6倍体积的磁珠,吸附5分钟后弃去磁珠,保留上清,然后在上清中加入0.3倍体积的磁珠,吸附5分钟后弃上清,保留磁珠(注:加入0.6倍体积的磁珠目的是吸附大的DNA片段,然后丢掉,再在上清中加入0.3倍体积的磁珠以吸附小片段的目的DNA片段,这样就回收了小的DNA片段),80%乙醇洗两次,最后用水溶解DNA。
(2)末端补平,加A。具体操作参见试剂盒操作说明,NEBNext End Repair Module:货号E6050S;NEBNext dA-Tailing Module,货号E6053S。
(3)加上PE接头。具体操作参见试剂盒操作说明,T4 DNA Ligase,货号M0202L。
(4)采用接头特异性引物,进行PCR扩增。
(5)将前面得到的PCR产物用磁珠进行纯化,得到267例样品各自的DNA文库即全基因组文库。
另外,使用Agilent 2100Bioanalyse对267个文库进行质量检测,确定建完库后均没有接头污染。
实施例3:HiSeq X10 system测序
1.试剂和仪器
待测样品:前面实施例2制得的267例文库。
2.实验方法
进行全基因组测序。测序委托诺禾致源测序公司进行。
3.实验结果
获得267例文库各自的150bp双端测序读段(pair-end reads)。每个样品的产出测序深度大约在1X-5X。用于后面的肿瘤标志物分析。
实施例4:肿瘤标志物的筛选、分析和应用
1.实验方法
(1)比值A/B的计算
根据Varbin算法(Genome-wide copy number analysis of singlecells.Nature protocols 7,1024-1041,doi:10.1038/nprot.2012.039(2012))首先将每个样本的基因组均划分为50000个bin,然后结合前面实施例3的测序结果,计算每个bin里面的reads数和GC含量,并对每个文库样本测序得到的reads总数和GC含量进行归一化处理,从而得到每个样本的每个bin里面的原始reads数和经GC含量校正后的实际的reads数(A),校正的方法是局部加权回归散点平滑法(LOWESS smoothing);进一步得到每个区间(bin)的reads数相对于该区间中的理论reads数的比值A/B。其中:
A是一个bin中的经GC含量校正后的实际的reads数;
B是该bin里面理论reads数,是将该样本测得的reads总数除以bin的总数50000”,因此,对于一个样本而言,其每个bin中的理论read数是相等的。
比值A/B大于1,预示着这个区域很可能是拷贝数增加,等于1,说明这个区域没有变化,小于1说明这个区域很可能是拷贝数缺失。
最终每个样本均得到50000个比值,这50000个比值(也称为特征)用于后面marker的筛选。
(2)marker的筛选
将4组对象样本(健康人样本、透明肾细胞癌患者样本、尿路上皮癌患者样本和***癌患者样本),以随机的方式分别将每一组对象样本划分为训练集(约70%)和测试集(约30%),分别得到4个训练集和相应的4个测试集,其各自的人数如下面的表7所示。
表7
先对4个训练集进行两两比较。具体是将每个bin在不同组之间进行两两比较,依次进行,直到50000个bin全部检验完。即对50000个bin对应的比值A/B进行t检验,通过t检验筛选出差异显著(p<0.05)的比值A/B,找到对应于该比值A/B的marker(bin)。举例而言,取一个bin,将正常人和肾癌中该bin对应的比值A/B进行两组间比较,统计检验显著后保留该bin,否则舍弃;如此计算50000个bin。这样共得到6种两两组合,以及6组差异显著的marker。
然后将这6组marker进行进一步的筛选,具体的做法是将6组marker对应的比值A/B分别放入随机森林分类器进行二元分类模型训练,通过特征的重要性(即随机森林算法的运算结果)进行排序(marker对于分类越重要,排序就越靠前),选择靠前的marker比如top500、top300、top100、top50、top10再次进行随机森林模型训练,评估在不同的marker集合下训练集和测试集的预测准确率,选择准确率高的marker作为最终的marker集合(当准确率基本一致的时候,本发明人倾向于选择数量较少的marker组合),这样6个随机森林二元分类器一共得到6组marker,每组含有50个marker。如前面的表1-表6所示。
将得到的表1-表6中的6组生物标志物(marker)对应的数据(6组marker的比值A/B)分别提取出来,使用随机森林算法进行训练,最后得到6个二元分类模型。
(3)集成分类***的构建(GUdetector)
本发明人将这6个二元分类模型组合起来以投票的方式进行多类分类,具体方法如下:
本发明人设计了4个决策单元,每个决策单元里面包含3个随机森林二元分类器:
I.‘正常决策单元’:正常-vs-肾癌,正常-vs-尿路上皮癌,正常-vs-***癌;
II.‘肾癌决策单元’:肾癌-vs-正常,肾癌-vs-尿路上皮癌,肾癌-vs-***癌;
III.‘尿路上皮癌决策单元’:尿路上皮癌-vs-正常,尿路上皮癌-vs-肾癌,尿路上皮癌-vs-***癌;
IV.‘***癌决策单元’:***癌-vs-正常,***癌-vs-肾癌,***癌-vs-尿路上皮癌。
然后本发明人对每个决策单元进行投票,即将一个样本对应的6组marker的比值A/B分别输入到上面4个决策单元中各自对应的分类器中进行预测分类,比如‘正常决策单元’正常预测得票为N1,‘肾癌决策单元’肾癌组预测得票为N2,‘***癌决策单元’***癌预测得票为N3,‘尿路上皮癌决策单元’尿路上皮癌预测得票为N4,最后取得票数最高的预测单元对应分类为最终预测分类,如果得票数相等,则取得票数相等的组中预测概率最高的类别为最终预测分类。
同时,将6组marker在公开的TCGA数据库中验证可靠性。TCGA中包含了各种肿瘤组织的拷贝数数据(原发肿瘤组织及正常组织的数据),下载对应的四组数据,然后计算该6组marker对应的值(是TCGA提供的是segment值,用来衡量拷贝数变化),放入随机森林模型进行训练和预测,评估准确率。
2.标志物分析结果:
如图1-图12所示。其中,KIRC表示肾癌,UC表示尿路上皮癌,PRAD表示***癌,Normal表示健康人。都是那30%的测试集里面的预测结果,一般是用训练集进行挑选marker和训练分类模型,测试集用来评估预测准确率。
分析结果是筛选得到最终的6组marker后通过随机森林二元分类器对分类效果进行评估后的计算结果,通过R语言中的函数计算得到。
1)如图1所示。
肾癌VS正常:敏感性72.2%,特异性93.1%。
2)如图2所示。
尿路上皮癌VS正常:敏感性76.2%,特异性100%。
3)如图3所示。
***癌VS正常:敏感性71.4%,特异性93.1%。
4)如图4所示。
肾癌VS***癌:敏感性72.2%,特异性85.7%。
5)如图5所示。
尿路上皮癌VS肾癌:敏感性95.2%,特异性77.8%。
6)如图6所示。
尿路上皮癌VS***:敏感性85.7%,特异性85.7%。
7)如图7A和图7B所示。
参照实施例1-3的实验方法和样本。集成分类***(GUdetector)4组同时分类。
8)如图8所示。
男性样本的***癌诊断模型。参照实施例1-3的实验方法和样本,采用非肿瘤人群中的43个男性患者和45个***癌患者的拷贝数数据,进行分类模型的构建。
***癌VS正常:准确率AUC=0.967。
9)如图9所示。
考虑性别因素,去除所有性染色体上的marker,参照实施例1-3的实验方法和样本,采用SVM模型进行4组同时分类。
每一类预测正确率分别为正常组89.7%,尿路上皮癌76.2%,***癌64.3%,肾癌44.4%,总体准确率为72.0%。
10)如图10所示。
参照实施例1-3的实验方法和样本,采用SVM模型进行3组同时分类结果,每一类预测正确率分别为正常组88.5%,尿路上皮癌76.1%,肾癌64.8%,总体准确率为78.4%。
11)如图11所示。
参照实施例1-3的实验方法和样本,只采用90例非肿瘤个体和65例尿路上皮癌患者,采用SVM模型进行尿路上皮癌诊断结果,并和LASSO和随机森林方法比较。SVM预测正确率分别为正常组94.7%,尿路上皮癌86.5%,总体准确率为91.4%。LASSO预测正确率分别为正常组94.7%,尿路上皮癌75.0%,总体准确率为86.72%。随机森林预测正确率分别为正常组97.4%,尿路上皮癌80.8%,总体准确率为89.8%。
12)如图12A-12D所示。
参照实施例1-3的实验方法和样本,在3例尿路上皮癌治疗疗效动态监测示例,三个患者手术前后的cfDNA的拷贝数以及肿瘤DNA占总的cfDNA的比例,通过ichorCNA算法得到,可见,在三例患者中术前都检测到了拷贝数变化以及肿瘤DNA的含量,但是,术后则未检测到,这和患者其他检测相一致,三例患者都没有出现复发。以上结果支持,本发明也可以用来无创预后监测。
另外说明的是:
特异性和敏感性是评估marker分类效能的指标。敏感性是挑出肿瘤患者的能力,特异性是指挑出正常人的能力,例如,假设一共有1000个肿瘤患者,1000个正常人,通过该分类器,敏感性72.2%和特异性93.1%,本发明人在肿瘤组正确挑出了722人,正常组中挑出了931人。
两种癌症之间的敏感性和特异性是指为了评估分开两种肿瘤的能力,虽然这两个概念是用来评估阴性和阳性、或者正常和异常,但在这里,本发明人也拿来评估两种肿瘤,本发明人定义了阳性类,在结果最下方显示为‘positive’class。
除了敏感性数值和特异性数值,Accuracy指的是总体准确率。每个结果最上方的混淆矩阵表示某一组正确分类的个数以及误分类到另一组里面的个数。
Confusion matrix(混淆矩阵),Reference指的是原本的类别,Prediction指的是预测分类,比如UC组,有16个UC被预测成UC(预测正确),2个UC被预测成了Normal,3个UC被预测成了PRAD,没有一个被预测成KIRC,其余依次类推;
总体准确率为0.7195;
每一类的预测准确率就是下面对应的Sensitivity,这里不用管特异性,因为这两个概念是二分类里面的概念,现在是4类分类,只关心总体的准确率和每一类的灵敏度就可以。
3.结果讨论:
本发明人首创建立了基于尿液的cfDNA拷贝数分类***,通过筛选出的生物标志物组,能够一次性预测未知泌尿生殖***肿瘤的不同组织来源,且有着较高的敏感性和特异性。另外,考虑到性别差异,只有男性才有评估***癌风险的需要,所以,我们同时针对男性重新训练了***癌分类标记物。另外,排除性别因素,训练了正常、肾癌和尿路上皮癌的3类分类模型。3类分类时将不能采用集成分类投票的方法,所以,我们比较了SVM,LASSO和随机森林等机器学习分类方法,发现SVM模型明显优于其它两个机器算法模型(LASSO和随机森林)。
实施例5:诊断示例
针对门诊上的一个随机的未知对象(可能是健康人,也可能是泌尿生殖***肿瘤患者),可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表1-表6中所示的300个marker所对应的比值,放入前面的集成分类***(GUdetector)进行预测。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例6:考虑到性别差异***癌诊断标记物筛选
***癌是男性特有肿瘤,因此,如果不考虑性别因素,健康人群中包含男性和女性,性染色体的拷贝数将会高估分类器诊断准确性。因此,我们针对男性未知对象,来诊断其是否罹患***癌时,可以用采用健康人群的男性进行标记物的重新筛选(男性健康人群vs.***癌患者,表7)。针对门诊上的一个男性患者,可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表7中所示的50个marker所对应的比值,通过SVM等机器学习算法,预测未知样本是否是***癌。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例7:正常、肾癌和尿路上皮癌诊断和分类标记物筛选。
针对门诊上的一个随机的未知对象(可能是健康人,也可能是肾癌和尿路上皮癌),可以参考下述方法:
1.收取晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.将待测样本的基因组划分为50000个bin;将测序数据进行归一化处理,并使用varbin算法计算得到50000个bin对应的reads比值;
6.提取对应于表1、2、5中所示的150个marker所对应的比值,通过SVM等机器学习算法,预测未知样本是否是正常、肾癌和尿路上皮癌。
上述步骤1-4的具体操作可分别参考实施例1-4。
实施例8:尿路上皮癌治疗疗效动态监测示例
针对cfDNA的拷贝数分析完全可以采用其他算法得到,比如,ichorCNA算法。该方法将基因组区域分成了均匀的1000000bp长度的区域,进而计算拷贝数变异情况以及肿瘤来源DNA所占的比例。针对门诊上的一个手术前以及治疗后复查的患者,可以参考下述方法:
1.收取手术前和定期复查时晨尿,提取cfDNA;
2.磁珠筛选100bp-300bp的DNA片段,
3.进行全基因组文库构建;
4.对文库进行全基因组测序,得到测序数据;
5.采用ichorCNA的方法得到肿瘤患者手术前和复查时尿液cfDNA的拷贝数变异图谱以及估计的肿瘤DNA含量。
6.根据以上图谱和肿瘤DNA含量的比对,评估患者的治疗疗效以及复发情况。
对比例1:采用LASSO算法模型
1.实验方法
参考文献Circulating tumour DNA methylation markers for diagnosis andprognosis of hepatocellular carcinoma中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表8所示。
表8
结果显示,使用LASSO分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有58.5%。
对比例2:采用SVM算法模型
1.实验方法
参考文献CancerLocator:non-invasive cancer diagnosis and tissue-of-origin prediction using methylation profiles of cell-free DNA中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表9所示。
表9
结果显示,使用SVM分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有54.7%。
对比例3:随机森林四类分类模型
1.实验方法
参考文献:Epigenetic profiling for the molecular classification ofmetastatic brain tumors中的方法进行。
输入的数据为表1-表6中的6组生物标志物(marker)对应的比值A/B。
2.实验结果
结果如下面的表10所示。
表10
结果显示,使用随机森林四类分类模型,各类预测准确率比本发明人提出的集成分类***(GUdetector)低,总体准确率仅有65.1%。
尽管本发明的具体实施方式已经得到详细的描述,本领域技术人员将会理解。根据已经公开的所有教导,可以对那些细节进行各种修改和替换,这些改变均在本发明的保护范围之内。本发明的全部范围由所附权利要求及其任何等同物给出。