CN115691667A

CN115691667A - 尿路上皮癌早筛方法、模型构建方法、装置和设备

Info

Publication number: CN115691667A
Application number: CN202211718465.1A
Authority: CN
Inventors: 曹善柏; 张雅风; 陈利斌; 楼峰
Original assignee: Tianjin Xiangxin Medical Instrument Co ltd; Beijing Xiangxin Biotechnology Co ltd
Current assignee: Tianjin Xiangxin Medical Instrument Co ltd; Beijing Xiangxin Biotechnology Co ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-02-03
Anticipated expiration: 2042-12-30
Also published as: CN115691667B

Abstract

本申请涉及生物技术的技术领域，尤其是涉及尿路上皮癌早筛方法、模型构建方法、装置和设备，方法包括：基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定待筛查样本的SNV/INDEL特征；基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征；将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；基于特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

Description

尿路上皮癌早筛方法、模型构建方法、装置和设备

技术领域

本申请涉及生物技术的技术领域，尤其是涉及尿路上皮癌早筛方法、模型构建方法、装置和设备。

背景技术

尿路上皮癌是起源于尿路上皮的一种多源性恶性肿瘤，包括肾盂癌、输尿管癌、膀胱癌以及尿道癌，是最常见的泌尿***肿瘤。尿路上皮癌一般可分为非肌层浸润性和肌层浸润性。非肌层浸润性尿路上皮癌具有手术，BCG灌注，化疗等治疗方式，5年生存率为80～90％，具有较好的预后；而发展为肌层浸润性尿路上皮癌后，肿瘤容易发生转移，5年生存率不到40％。因此，针对尿路上皮癌及早的检测以及治疗非常重要。

目前，尿路上皮癌的检测方法包括影像学技术(CT，MRI，尿路造影，B超)、膀胱镜结合尿脱落细胞学和FISH检测等。然而，CT、MRI等影像学检查对于输尿管肿瘤的检出率相对偏低，尿液脱落细胞学检测的阳性率低于50％，尿液FISH检测也受制于标本条件和肿瘤梗阻水平，输尿管镜/软镜镜检是有创检查且可能增加膀胱转移的风险。

因此，如何提供一种针对尿路上皮癌早筛领域的具有更高检测性能的无创检测是本领域技术人员亟待解决的问题。

发明内容

本申请的目的是提供尿路上皮癌早筛方法、模型构建方法、装置和设备，用于解决以上至少一项技术问题。

本申请的上述发明目的是通过以下技术方案得以实现的：

第一方面，本申请提供一种尿路上皮癌早筛方法，采用如下的技术方案：

一种尿路上皮癌早筛方法，所述方法包括：

获取待筛查样本的cfDNA测序结果；

基于所述cfDNA测序结果和多个点突变marker进行过滤筛查，确定所述待筛查样本的SNV/INDEL特征，其中，所述点突变marker为能够区别健康人和尿路上皮癌患者的标志，所述SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

获取CNV基线信息和待筛查样本的基因组，并基于所述CNV基线信息和所述待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，其中，所述CNV基线信息是基于多个健康人样本计算预先得到的，所述CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，所述CNV特征包括：CNV数量和CNV标签；

将所述待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

基于所述特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，所述尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。

通过采用上述技术方案，基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到CNV特征，然后再将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，基于特征组合来利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于待筛查样本对应的SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

本申请在一较佳示例中可以进一步配置为：所述基于所述CNV基线信息和所述待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，包括：

基于所述CNV基线信息和所述待筛查样本的基因组，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数；

基于所述待筛查样本的所有区段各自对应的区段CNV分数，确定所述待筛查样本中每一染色体各自对应的染色体CNV分数；

针对所述待筛查样本中每一染色体各自对应的染色体CNV分数，判断染色体CNV分数的绝对值是否大于第一阈值，若大于，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记；

基于所有染色体各自对应的CNV标记，得到待筛查样本对应的第一CNV数量；

基于所述第一CNV数量，确定CNV特征。

本申请在一较佳示例中可以进一步配置为：所述基于所述CNV基线信息和所述待筛查样本的基因组，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数之后，还包括：

获取所述待筛查样本的肿瘤细胞含量，并基于所述待筛查样本中所述肿瘤细胞含量和第二阈值的大小关系，确定待筛查样本对应的第二CNV数量；

针对所述待筛查样本中每一染色体的每一区段，若区段对应的区段CNV分数的绝对值大于第三阈值，则将区段记为CNV区间；

针对所述待筛查样本中每一染色体，基于染色体对应的所有CNV区间，确定特征比例，其中，所述特征比例为染色体对应的所有CNV区间长度与染色体长度的比例；

针对所述待筛查样本中每一染色体，判断所述特征比例是否大于第四阈值，若大于，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记；

基于所有染色体各自对应的CNV标记，得到待筛查样本对应的第三CNV数量；

相应的，所述基于所述第一CNV数量，确定CNV特征，包括：

基于所述第一CNV数量和目标CNV数量，综合确定CNV数量，其中，所述目标CNV数量为所述第二CNV数量和所述第三CNV数量中任意一项或多项；

基于所述CNV数量，确定CNV特征。

本申请在一较佳示例中可以进一步配置为：所述基于所述CNV基线信息和所述待筛查样本的基因组，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数，包括：

基于CNV基线信息和所述待筛查样本的基因组，确定所述待筛查样本的基因组中每个bin区间的CNV分数，其中，所述CNV分数用于反映待筛查样本中每一bin区间与CNV基线信息中对应的bin区间的差异；

基于所述待筛查样本的基因组中所有bin区间各自对应CNV分数进行区间合并，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数，其中，区段为连续的bin区间合并得到的。

本申请在一较佳示例中可以进一步配置为：确定CNV基线信息的方法，包括：

获取多个健康人样本的基因组；

针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到所述健康人样本的基因组中每一bin 区间的read 覆盖度；

基于所有健康人样本的基因组各自对应的每一bin区间的read覆盖度，确定CNV基线信息，其中，所述CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，利用每一区间内所有健康人样本的read覆盖度求均值确定read期望覆盖度，利用每一区间内所有健康人样本的read覆盖度求方差确定read标准差。

本申请在一较佳示例中可以进一步配置为：所述针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到所述健康人样本的基因组中每一bin区间的read覆盖度，包括：

针对每一健康人样本，将健康人样本的基因组划分成多个bin区间；

针对每一bin区间，统计read的起始位置或终止位置位于bin区间的read数之和，得到每一bin区间对应的初始read覆盖度；

针对每一bin区间，基于所述初始read覆盖度进行GC校正和自身标准化，得到健康人样本的基因组中每一bin区间的read覆盖度。

本申请在一较佳示例中可以进一步配置为：确定点突变marker的方法，包括：

基于公共肿瘤数据、内部样本和测序数据集进行突变点位过滤筛选，确定与尿路上皮癌对应多个点突变marker。

第二方面，本申请提供一种尿路上皮癌早期筛查模型的构建方法，采用如下的技术方案：

一种尿路上皮癌早期筛查模型的构建方法，所述方法包括：

获取大量的测试样本各自对应的cfDNA测序结果，其中，所述大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本；

针对每一测试样本，基于所述测试样本对应的cfDNA测序结果和多个点突变marker进行过滤筛查，确定所述测试样本的SNV/INDEL特征，其中，所述点突变marker为能够区别正常人和尿路上皮癌患者的标志，所述SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

针对每一测试样本，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到测试样本的CNV特征，其中，所述CNV特征包括：CNV数量和CNV标签；

针对每一测试样本，将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。

通过采用上述技术方案，获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本，针对每一测试样本，基于测试样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到CNV特征，然后再将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合，然后，基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。基于大量的特征组合对模型进行训练，能够使得基于尿路上皮癌早期筛查模型进行筛查时筛查结果更加精准，即，敏感性和特异性均较高。

第三方面，本申请提供一种尿路上皮癌早期筛查装置，采用如下的技术方案：

一种尿路上皮癌早期筛查装置，包括：

第一获取模块，获取待筛查样本的cfDNA测序结果；

第一点突变筛查模块，用于基于所述cfDNA测序结果和多个点突变marker进行过滤筛查，确定所述待筛查样本的SNV/INDEL特征，其中，所述点突变marker为能够区别健康人和尿路上皮癌患者的标志，所述SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

第一CNV特征获取模块，用于获取CNV基线信息和待筛查样本的基因组，并基于所述CNV基线信息和所述待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，其中，所述CNV基线信息是基于多个健康人样本计算预先得到的，所述CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，所述CNV特征包括：CNV数量和CNV标签；

第一特征整合模块，用于将所述待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

尿路上皮癌筛查模块，用于基于所述特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，所述尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。

第四方面，本申请提供一种尿路上皮癌早期筛查模型的构建装置，采用如下的技术方案：

一种尿路上皮癌早期筛查模型的构建装置，包括：

第二获取模块，用于获取大量的测试样本各自对应的cfDNA测序结果，其中，所述大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本；

第二点突变筛查模块，用于针对每一测试样本，基于所述测试样本对应的cfDNA测序结果和多个点突变marker进行过滤筛查，确定所述测试样本的SNV/INDEL特征，其中，所述点突变marker为能够区别正常人和尿路上皮癌患者的标志，所述SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

第二CNV特征获取模块，用于针对每一测试样本，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到测试样本的CNV特征，其中，所述CNV特征包括：CNV数量和CNV标签；

第二特征整合模块，用于针对每一测试样本，将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

模型训练模块，用于基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。

第五方面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行如第一方面任一项所述的方法。

第六方面，本申请提供一种电子设备，采用如下的技术方案：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行如第二方面任一项所述的方法。

第七方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行如第一方面任一项所述的方法。

第八方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行如第二方面任一项所述的方法。

综上所述，本申请包括以下至少一种有益技术效果：

1.基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到CNV特征，然后再将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，基于特征组合来利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于待筛查样本对应的SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

2.获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本，针对每一测试样本，基于测试样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到CNV特征，然后再将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合，然后，基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。基于大量的特征组合对模型进行训练，能够使得基于尿路上皮癌早期筛查模型进行筛查时筛查结果更加精准，即，敏感性和特异性均较高。

附图说明

图1是本申请其中一实施例的一种尿路上皮癌早筛方法的流程示意图。

图2是本申请其中一实施例的统计每一bin区间对应的初始read覆盖度的结构示意图。

图3是本申请其中一实施例的确定与尿路上皮癌对应多个点突变marker的结构示意图。

图4是本申请其中一实施例的一种尿路上皮癌早期筛查模型的构建方法的流程示意图。

图5是本申请其中一实施例的每一测试样本基于尿路上皮癌早期筛查模型的执行过程的示意图。

图6是本申请其中一实施例的一种尿路上皮癌早筛装置的结构示意图。

图7是本申请其中一实施例的一种尿路上皮癌早期筛查模型的构建装置的结构示意图。

图8是本申请其中一实施例的一种电子设备的结构示意图。

具体实施方式

以下结合图1至图8对本申请作进一步详细说明。

本具体实施例仅仅是对本申请的解释，其并不是对本申请的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本申请的范围内都受到专利法的保护。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，如无特殊说明，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本申请实施例作进一步详细描述。

因而，为了解决上述技术问题，本申请提供了一种尿路上皮癌早筛方法，该方法是一种高检测性能的无创检测，即，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查。

本申请实施例提供了一种尿路上皮癌早筛方法，由电子设备执行，该电子设备可以为服务器也可以为终端设备，其中，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此，该终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制，如图1所示，该方法包括步骤S101、步骤S102、步骤S103、步骤S104以及步骤S105，其中：

步骤S101：获取待筛查样本的cfDNA测序结果。

对于本申请实施例，待筛查样本为健康人或尿路上皮癌患者的尿液样本，基于对待筛查样本进行相应的处理，至少能够得到与待筛查样本对应的cfDNA测序结果、基因组、肿瘤细胞含量等，当然，还可以获得更多的信息，本申请实施例不再进行限定。

获取待筛查样本的cfDNA测序结果的方式可以基于试剂盒完成，cfDNA(cell freeDNA, 游离DNA)是指游离于细胞外的部分降解了的机体内源DNA，主要来自于细胞的凋亡或坏死。由于 cfDNA的半衰期很短(16min)，因而，将cfDNA作为生物标志物的潜力巨大。在特定情况下（例如，肿瘤患者、孕妇、接受器官移植的患者等），小部分来自“异源性”细胞的cfDNA（如肿瘤细胞、胎儿细胞、或供体细胞）可以作为基因检测的标志物。

步骤S102：基于cfDNA测序结果和多个点突变marker进行过滤筛查，确定待筛查样本的SNV/INDEL特征，其中，点突变marker为能够区别健康人和尿路上皮癌患者的标志，SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率。

对于本申请实施例，将cfDNA测序结果与所有点突变marker进行逐一匹配，若cfDNA测序结果中存在点突变marker，则确定待筛查样本存在点突变，并统计点突变个数。点突变数量是基于待筛查样本的cfDNA测序结果与所有点突变marker进行过滤筛查，得到的待筛查样本存在点突变marker的数量；点突变标签用于表征待筛查样本是否存在与尿路上皮癌对应的点突变marker，且点突变标签由点突变数量决定的，例如，若点突变数量为0，则将点突变标签记为0；若点突变数量不为0，则将点突变标签记为1，其中，点突变标签与点突变数量的对应关系，用户可以基于实际情况进行设定，本申请实施例不再进行限定。最大突变频率为待筛查样本中对应的多个点突变marker中突变频率最大的。

进一步的，多个点突变marker是基于公共肿瘤数据、内部样本和测序数据集进行突变点位过滤筛选，综合确定的与尿路上皮癌对应多个点突变marker。在本申请实施例中，确定点突变marker的方式为：通过对大量数据集中位点进行人群频率、位点在Cosmic数据库中的出现频率、位点的突变频率、位点突变reads数、氧化损伤导致的突变等方面的过滤筛选，其中，大量数据集包括：公共肿瘤数据、内部样本和测序数据集，最终选出能够区分健康人样本和尿路上皮癌患者样本的148个点突变marker。

步骤S103：获取CNV基线信息和待筛查样本的基因组，并基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，其中，CNV基线信息是基于多个健康人样本计算预先得到的，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，CNV特征包括：CNV数量和CNV标签。

对于本申请实施例，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，其中，CNV为拷贝数变异，在尿路上皮癌早期筛查中能够将CNV特征作为筛查的依据。在进行CNV特征获取中，可以基于不同的特征提取标准判断待筛查样本中是否发生了CNV以及CNV的数量，特征提取标准包括但不限于：待筛查样本的基因组中染色体对应的CNV分数、发生CNV的区段的长度占染色体长度的比例。CNV特征包括CNV数量和CNV标签，CNV数量为待筛查样本的基因组中出现的CNV总数量，CNV标签由CNV数量决定的，例如，CNV数量为0，则将CNV标签记为0；若CNV数量不为0，则将CNV标签记为1，其中，CNV标签与CNV数量的对应关系，用户可以基于实际情况进行设定，本申请实施例不再进行限定。

具体的，CNV基线信息是基于多个健康人样本的基因组计算预先得到的，即，针对每一健康人样本的基因组按照1M大小的窗口划分bin区间，并计算每个bin的read覆盖度，然后将所有健康人样本的基因组中所有bin区间各自对应的read覆盖度进行处理，得到CNV基线信息，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，其中，每一bin区间的read期望覆盖度是基于所有健康人样本的基因组中每一bin区间的read覆盖度求平均值得到的，标准差也是基于所有健康人样本进行求方差处理得到的。

步骤S104：将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合。

对于本申请实施例，将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，即，将待筛查样本对应的SNP/INDEL特征中的点突变个数、点突变标签、最大突变频率和CNV特征中的CNV数量和CNV标签进行整合，得到待筛查样本对应的特征组合，其中，特征组合可以为特征矩阵的形式。

步骤S105：基于特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。

对于本申请实施例，将待筛查样本对应的特征组合发送至尿路上皮癌早期筛查模型，以进行尿路上皮癌筛查，得到筛查结果，通过筛查结果能够快速且精确地得知待筛查样本的情况，其中，筛查结果包括阳性和阴性。

基于大量的训练集、验证集和测试集对逻辑回归模型进行训练，以得到尿路上皮癌早期筛查模型，其中，训练集、验证集和测试集中包括大量正常样本与癌症样本。且，当利用测试集对逻辑回归模型进行测试时，只有测试结果中敏感性和特异性均超过各自对应的阈值，则表明逻辑回归模型训练成功，并将训练成功的逻辑回归模型作为尿路上皮癌早期筛查模型。

可见，在本申请实施例中，基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到CNV特征，然后再将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，基于特征组合来利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于待筛查样本对应的SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

进一步的，为了提高待筛查样本对应的CNV特征的准确性，在本申请实施例中，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，包括：

基于CNV基线信息和待筛查样本的基因组，得到待筛查样本的基因组对应的多个区段的区段CNV分数；

基于待筛查样本的所有区段各自对应的区段CNV分数，确定待筛查样本中每一染色体各自对应的染色体CNV分数；

针对待筛查样本中每一染色体各自对应的染色体CNV分数，判断染色体CNV分数的绝对值是否大于第一阈值，若大于，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记；

基于第一CNV数量，确定CNV特征。

对于本申请实施例，基于CNV基线信息和待筛查样本的基因组，确定待筛查样本的基因组中每个bin区间的CNV分数, 其中，CNV分数用于反映待筛查样本中每一bin区间与CNV基线信息中对应的bin区间的差异。然后，基于待筛查样本的基因组中所有bin区间各自对应CNV分数进行区间合并，得到待筛查样本的基因组对应的多个区段的区段CNV分数，优选的，利用CBS方法将一些连续且CNV分数接近的 bin区间，连接成一个区段，并针对每一区段，基于区段对应的所有bin区间各自对应的CNV分数，计算区段对应的区段CNV分数。

进而，基于染色体对应的染色体CNV分数确定待筛查样本对应的第一CNV数量，待筛查样本中包括24条染色体，每一染色体中包括若干区段，因而，针对每一条染色体，将染色体中所有区段各自对应的CNV分数取均值，得到每一染色体各自对应的染色体CNV分数，即，能够得到待筛查样本对应的24条染色体各自对应的CNV分数。

针对每一染色体各自对应的染色体CNV分数，判断染色体CNV分数的绝对值是否大于第一阈值，若大于，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记，其中，第一阈值是基于大量的实验数据得到的，当然用户可根据实际情况自行设定，优选的，将第一阈值设置为5.5。基于待筛查样本中24条染色体各自对应的CNV标记，将CNV标记为确定标记的记为1，将CNV标记为否定标记的记为0，然后，将所有CNV标记所代表的数值进行相加，最终得到的相加结果记为待筛查样本对应的第一CNV数量。然后，若第一CNV数量为0，则将CNV标签记为0；若CNV数量不为0，则将CNV标签记为1，基于第一CNV数量和CNV标签则可以确定出CNV特征。

可见，在本申请实施例中，基于CNV基线信息和待筛查样本的基因组，确定待筛查样本的基因组对应的多个区段的区段CNV分数，然后，基于待筛查样本的所有区段各自对应的区段CNV分数，确定待筛查样本中每一染色体各自对应的染色体CNV分数，并基于染色体CNV分数确定了待筛查样本对应的第一CNV数量，并基于第一CNV数量，确定CNV特征。通过待筛查样本的基因组中的染色体CNV分数确定待筛查样本的第一CNV数量，进而确定CNV特征，提高了待筛查样本对应的CNV特征的准确性。

进一步的，为了进一步提高待筛查样本对应的CNV特征的准确性，在本申请实施例中，基于CNV基线信息和待筛查样本的基因组，得到待筛查样本的基因组对应的多个区段的区段CNV分数之后，还包括：

获取待筛查样本的肿瘤细胞含量，并基于待筛查样本中肿瘤细胞含量和第二阈值的大小关系，确定待筛查样本对应的第二CNV数量；

针对待筛查样本中每一染色体的每一区段，若区段对应的区段CNV分数的绝对值大于第三阈值，则将区段记为CNV区间；

针对待筛查样本中每一染色体，基于染色体对应的所有CNV区间，确定特征比例，其中，特征比例为染色体对应的所有CNV区间长度与染色体长度的比例；

针对待筛查样本中每一染色体，判断特征比例是否大于第四阈值，若大于，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记；

基于所有染色体各自对应的CNV标记，得到待筛查样本对应的第三CNV数量。

对于本申请实施例，由于肿瘤细胞含量能够反应肿瘤的严重程度，因而获取待筛查样本的肿瘤细胞含量，并从待筛查样本中肿瘤细胞含量的方面确定待筛查样本对应的第二CNV数量，判断待筛查样本中肿瘤细胞含量是否大于第二阈值，若大于，则将待筛查样本对应的第二CNV数量记为1，若不大于，则将待筛查样本对应的第二CNV数量记为0，其中，第二阈值是基于大量的实验数据得到的，当然用户可根据实际情况自行设定。

针对待筛查样本中每一染色体的所有区段，将每一区段CNV分数的绝对值与第三阈值进行比较，若大于第三阈值，则将区段记为CNV区间，其中，第三阈值是基于大量的实验数据得到的，当然用户可根据实际情况自行设定，优选的，第三阈值的大小为5。然后，针对待筛查样本中每一染色体，将染色体对应的所有CNV区间进行加和，并计算所有CNV区间加和的长度与染色体的长度比例，将该比例作为染色体对应的特征比例。即，针对待筛查样本中24条染色体会得到对应的24个特征比例。

基于每一染色体对应的特征比例，将特征比例与第四阈值进行比较，若大于第四阈值，则确定染色体对应的CNV标记为确定标记，若不大于，则确定染色体对应的CNV标记为否定标记，其中，第四阈值是基于大量的实验数据得到的，当然用户可根据实际情况自行设定，优选的，第四阈值的大小为0.3。基于待筛查样本中24条染色体各自对应的CNV标记，其中，将CNV标记为确定标记的记为1，将CNV标记为否定标记的记为0，然后，将所有CNV标记所代表的数值进行相加，最终得到的相加结果记为待筛查样本对应的第三CNV数量。

相应的，基于第一CNV数量，确定CNV特征，包括：

基于第一CNV数量和目标CNV数量，综合确定CNV数量，其中，目标CNV数量为第二CNV数量和第三CNV数量中任意一项或多项；

基于CNV数量，确定CNV特征。

对于本申请实施例，在基于CNV数量确定CNV特征时，可以基于第一CNV数量和目标CNV数量综合确定CNV数量后，再基于CNV数量确定CNV特征，即，在确定CNV数量时包括多种情况：由第一CNV数量和第二CNV数量确定CNV数量、由第一CNV数量和第三CNV数量确定CNV数量、由第一CNV数量、第二CNV数量和第三CNV数量确定CNV数量。基于多种维度综合确定CNV数量，提高了待筛查样本对应的CNV特征的准确性。

可见，在本申请实施例中，基于待筛查样本中肿瘤细胞含量确定待筛查样本对应的第二CNV数量；基于区段CNV分数确定CNV区间，然后基于染色体对应的所有CNV区间确定特征比例，并基于特征比例确定待筛查样本对应的第三CNV数量，然后，基于第一CNV数量、第二CNV数量和第三CNV数量综合确定CNV数量和CNV特征。通过这种方式，通过染色体CNV分数、肿瘤细胞含量、特征比例三个维度的组合综合确定待筛查样本的CNV数量，进一步提高了待筛查样本对应的CNV特征的准确性。

进一步的，为了能够基于区段CNV分数较为方便的确定CNV区间，在本申请实施例中，基于CNV基线信息和待筛查样本的基因组，得到待筛查样本的基因组对应的多个区段的区段CNV分数，包括：

基于CNV基线信息和待筛查样本的基因组，确定待筛查样本的基因组中每个bin区间的CNV分数，其中，CNV分数用于反映待筛查样本中每一bin区间与CNV基线信息中对应的bin区间的差异；

基于待筛查样本的基因组中所有bin区间各自对应CNV分数进行区间合并，得到待筛查样本的基因组对应的多个区段的区段CNV分数，其中，区段为连续的bin区间合并得到的。

对于本申请实施例，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，优选的，确定CNV基线信息时利用的每一bin区间的read覆盖度是经过GC校正和自身标准化的。基于CNV基线信息和待筛查样本，确定待筛查样本中每个bin区间的CNV分数的过程具体为：利用公式计算bin区间的ratio，公式为：ratio = RCbin(待筛查样本)/RCbin(baseline)，其中，RCbin(待筛查样本)为待筛查样本的该bin区间的read 覆盖度，RCbin(baseline)为CNV基线信息中该bin区间的read期望覆盖度。然后，基于每一bin区间的ratio以及CNV基线信息，确定每个bin区间的CNV分数，具体的，利用CNV分数公式进行计算，CNV分数公式为：Z-Score = (ratio–E(ref-ratio))/std(ref-ratio)，其中，ratio为对应bin区间的ratio，E(ref-ratio)为CNV基线信息中对应bin区间的平均ratio，std(ref-ratio)为CNV基线信息中对应bin区间的标准差。故，CNV分数用于反映待筛查样本中每一bin区间与CNV基线信息中对应的bin区间的差异。

基于待筛查样本的基因组中所有bin区间各自对应CNV分数进行区间合并，得到待筛查样本的基因组对应的多个区段的区段CNV分数，优选的，利用CBS方法，得到待筛查样本的基因组对应的多个区段的区段CNV分数，具体的，利用CBS方法能够将一些连续且CNV分数接近的 bin区间，连接成一个区段，并针对每一区段，基于区段对应的所有bin区间各自对应的CNV分数，计算区段对应的区段CNV分数。因而，利用CBS方法后，能够得到待筛查样本的基因组对应的多个区段和所有区段各自对应的区段CNV分数。

可见，在本申请实施例中，基于CNV基线信息和待筛查样本的基因组，确定待筛查样本的基因组中每个bin区间的CNV分数，并基于待筛查样本的基因组中所有bin区间各自对应CNV分数进行区间合并，得到待筛查样本的基因组对应的多个区段的区段CNV分数，能够基于区段CNV分数较为方便的确定CNV区间，以进行CNV特征的确定。

进一步的，为了使得CNV基线信息更加精准贴合健康人的情况，在本申请实施例中，确定CNV基线信息的方法，包括：

获取多个健康人样本的基因组；

针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到健康人样本的基因组中每一bin 区间的read 覆盖度；

基于所有健康人样本的基因组各自对应的每一bin区间的read覆盖度，确定CNV基线信息，其中，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差。

对于本申请实施例，CNV基线信息是基于多个健康人样本进行处理得到的，通过这种方式能够使得CNV基线信息更加精准贴合健康人的情况。针对每一健康人样本，将健康人样本进行CNV滑窗覆盖度计算，得到健康人样本中每一bin 区间的read 覆盖度，进行CNV滑窗覆盖度计算的具体操作包括：针对每一健康人群样本的基因组按照1M大小的窗口划分bin区间，并计算每个bin的read覆盖度，bin 区间的read 覆盖度的确定方式为：统计read的起始位置或终止位置位于bin区间的read数之和，记为RC，RC的数值即为该bin 区间的read 覆盖度。针对每一健康人样本中的每一bin 区间，在得到每一bin 区间各自对应的read 覆盖度后，优选的，将所有read 覆盖度进行GC校正，再进行自身标准化，其中，GC校正是为了使得read 覆盖度更加精准，自身标准化的目的是消除健康人样本数据量差异对read 覆盖度的影响。由于不同健康人样本的基因组各自确定的每一bin区间的read覆盖度不尽不相同，则需要基于多个健康人样本进行相应处理，以使得每一bin区间的read覆盖度更加精准。

在完成所有健康人样本的基因组CNV滑窗覆盖度计算后，基于所有健康人样本的基因组各自对应的每一bin区间的read覆盖度，确定CNV基线信息，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差。具体的，将所有健康人样本的基因组中的每一bin区间的read覆盖度进行相应的处理，得到CNV基线信息，简单来说，针对CNV基线信息中的一个bin区间的read覆盖度，是基于所有健康人样本的基因组中的该bin区间的read覆盖度进行处理得到的。例如，选择90例健康人样本进行CNV基线信息确定，则会基于90例健康人样本的基因组中所有bin区间的read覆盖度进行操作，最终得到的CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，其中，针对一个bin区间，该bin区间的read期望覆盖度是基于90例健康人样本的基因组中与该bin区间对应的90个read 覆盖度取平均值得到的，该bin区间的read标准差同样是基于90例健康人样本的基因组中与该bin区间对应的90个read 覆盖度进行标准差得到的。

可见，在本申请实施例中，基于每一健康人样本的基因组进行CNV滑窗覆盖度计算，得到每一健康人样本的基因组中每一bin 区间的read 覆盖度，并基于所有健康人样本的基因组各自对应的每一bin区间的read覆盖度，确定CNV基线信息，通过这种方式能够使得CNV基线信息更加精准贴合健康人的情况。

进一步的，为了使得bin区间的read覆盖度更加精准，在本申请实施例中，针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到健康人样本的基因组中每一bin区间的read覆盖度，包括：

针对每一bin区间，基于初始read覆盖度进行GC校正和自身标准化，得到健康人样本的基因组中每一bin区间的read覆盖度。

对于本申请实施例，针对每一健康人样本，该健康人样本中包括24条染色体，基于每条染色体进行bin区间划分，得到健康人样本对应的所有bin区间，优选的，按照1M大小的窗口划分bin区间。针对每一bin区间，统计read的起始位置或终止位置位于bin区间的read数之和，得到每一bin区间对应的初始read覆盖度，其中，read为一段区间，包括起始位置和终止位置，在本申请实施例中，若read的起始位置或终止位置位于bin区间，则将该bin区间的read数加1，将bin区间的read数之和作为对应的初始read覆盖度，为了更加清楚的的描述统计read的起始位置或终止位置位于bin区间的read数之和，得到每一bin区间对应的初始read覆盖度，如图2所示，在一个bin区间中read的起始位置或终止位置位于bin区间的read数之和为4。

针对每一bin区间，在得到bin区间对应的初始read覆盖度后进行GC校正和自身标准化，以使得bin区间的read覆盖度更加精准，并将处理后的每一bin区间的read覆盖度记作健康人样本中每一bin区间的read覆盖度。具体的，对初始read覆盖度（RC）进行GC校正的方法为：通过loess回归计算校正系数correction coefficient，然后通过公式RCgc = RC* correction coefficient，即，得到GC校正后的read覆盖度（RCgc）。然后，再对GC校正后的read覆盖度进行自身标准化，进行自身标准化的方法为：通过自身标准化公式进行计算，公式为：RCbin = RCgc-bin/mean(RCgc-all-bin)，其中，RCgc-bin代表每个bin区间GC校正后的read覆盖度，mean(RCgc-all-bin)为该健康人样本种所有bin区间GC校正后的read覆盖度的均数。因而，通过对初始read覆盖度进行GC校正和自身标准化，将Rcbin作为健康人样本的基因组中每一bin区间的read覆盖度。

可见，在本申请实施例中，针对每一健康人样本，将健康人样本的基因组划分成多个bin区间，且基于read的起始位置或终止位置位于bin区间的read数之和，得到每一bin区间对应的初始read覆盖度，并基于初始read覆盖度进行GC校正和自身标准化，得到健康人样本的基因组中每一bin区间的read覆盖度，将初始read覆盖度进行GC校正和自身标准化，能够使得bin区间的read覆盖度更加精准。

进一步的，为了使得点突变marker能够精准的区别出健康人和尿路上皮癌患者，在本申请实施例中，确定点突变marker的方法，包括：

对于本申请实施例，公共肿瘤数据为从TCGA数据库中获取的数据，其中，TCGA数据库作为癌症研究的首选公共数据库，整合了各种癌症的多组学数据，主要包含DNA、mRNA、miRNA、total RNA sequencing以及甲基化、拷贝数等多种数据类型。内部样本为内部尿路上皮癌患者的处理后的尿液样本，至少能够得到与内部尿液样本对应的cfDNA测序结果、基因组、肿瘤细胞含量等，当然，还可以获得更多的信息，本申请实施例不再进行限定。测序数据集是内部尿路上皮癌患者的全外显子测序，基于全外显子方法，全外显子是一种针对人类全部基因的全部外显子进行检测的一种方法，适用于一些难以判断的复杂遗传病的诊断。临床上对于一些怀疑是遗传因素，临床表型具有遗传异质性的都会选择全外显子检测方案，由于外显子虽然仅占人类基因组的1%-2%，但是在外显子上包含了85%的致病变异，所以WES是一种相对比较简便的快速的诊断方案。

进一步的，基于公共肿瘤数据、内部样本和测序数据集进行突变点位过滤筛选，通过所有位点进行人群频率、位点在Cosmic数据库中的出现频率、位点的突变频率、位点突变reads数、氧化损伤导致的突变等方面的过滤筛选，最终选出能够区分健康人样本和尿路上皮癌患者样本的148个点突变marker，如图3所示，图3中tumor data set表示尿路上皮癌患者样本，normal data set表示健康人样本, data set filtering表示位点的数据集过滤，Frequency filtering表示人群频率过滤位点的突变频率, Cosmic filtering表示位点在Cosmic数据库中的出现频率过滤。其中，人群频率来自公共的数据库，公共的数据库中的人群频率是基于大量的数据进行统计得到的。

最终筛选得到了148个点突变marker，至少包括：基因TERT上的chr5：1295228-1295228和chr5：1295250-1295250；基因FGFR3上的chr4：1803564-1803564、chr4：1803568-1803568、chr4：1807890-1807890、chr4：1807889-1807889、chr4：1806099-1806099、chr4：1806092-1806092、chr4：1806089-1806089、chr4：1808937-1808937。

可见，在本申请实施例中，基于公共肿瘤数据、内部样本和测序数据集进行突变点位过滤筛选，确定与尿路上皮癌对应多个点突变marker，使得点突变marker能够精准的区别出健康人和尿路上皮癌患者。

本申请实施例提供了一种尿路上皮癌早期筛查模型的构建方法，由电子设备执行，如图4所示，该方法包括步骤S301、步骤S302、步骤S303、步骤S304以及步骤S305，其中：

步骤S301：获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本。

对于本申请实施例，获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本，针对每一测试样本均会有一个类型标签，类型标签用于区分正常人群样本和尿路上皮癌患者样本。

步骤S302：针对每一测试样本，基于测试样本对应的cfDNA测序结果和多个点突变marker进行过滤筛查，确定测试样本的SNV/INDEL特征，其中，点突变marker为能够区别正常人和尿路上皮癌患者的标志，SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率。

对于本申请实施例，针对每一测试样本，基于cfDNA测序结果和多个点突变marker进行过滤筛查，确定测试样本的SNV/INDEL特征的过程，与步骤S102中对待筛查样本进行相应处理的过程相同，即针对待筛查样本处理的过程同样适用于测试样本，因此，本申请实施例不再进行论述。当完成对每一测试样本确定SNV/INDEL特征后，得到了所有测试样本各自对应的SNV/INDEL特征。

步骤S303：针对每一测试样本，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到测试样本的CNV特征，其中，CNV特征包括：CNV数量和CNV标签。

对于本申请实施例，针对每一测试样本，基于CNV基线信息和测试样本进行CNV特征获取，得到测试样本的CNV特征的过程，与步骤S103中对待筛查样本进行相应处理的过程相同，即针对待筛查样本处理的过程同样适用于测试样本，因此，本申请实施例不再进行论述。当完成对每一测试样本确定CNV特征后，得到了所有测试样本各自对应的CNV特征。

步骤S304：针对每一测试样本，将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合。

对于本申请实施例，针对每一测试样本，将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合的过程，与步骤S104中对待筛查样本进行相应处理的过程相同，即针对待筛查样本处理的过程同样适用于测试样本，因此，本申请实施例不再进行论述。当完成对每一测试样本确定特征组合后，得到了所有测试样本各自对应的特征组合。

步骤S305：基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。

对于本申请实施例，基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型，具体的，将大量的测试样本各自对应的所有特征组合分为训练集、验证集和测试集，并基于大量的训练集、验证集和测试集对逻辑回归模型进行训练，其中，训练集、验证集和测试集中包括大量正常样本与癌症样本。且，当利用测试集对逻辑回归模型进行测试时，只有测试结果中敏感性和特异性均超过各自对应的阈值，则表明逻辑回归模型训练成功，并将训练成功的逻辑回归模型作为尿路上皮癌早期筛查模型。

在本申请实施例中，将155例尿路上皮癌样本和150例正常人群样本分为训练集和验证集，另外将89例尿路上皮癌样本和157例正常人群样本作为独立测试集。并对训练集、验证集和测试集中每一测试样本进行相应处理，得到所有测试样本各自对应的特征组合。然后，基于大量的测试样本各自对应的所有特征组合进行逻辑回归模型预测，当预测值大于等于0.5时，确定测试样本状态为阳性，当预测值小于0.5时，确定测试样本状态为阴性。针对每一测试样本的执行过程，如图5所示。图5中sample表示测试样本，SNP/INDEL和CNV分别表示SNP/INDEL特征和CNV特征，mutation number表示点突变个数，mutation label表示点突变标签，mutation max frequency表示最大突变频率，cnv number表示CNV数量，cnvlabel表示CNV标签，然后基于Logistic Regression model表示的逻辑回归模型进行预测，得到预测值，当预测值大于等于0.5时，确定测试样本状态为阳性，当预测值小于0.5时，确定测试样本状态为阴性。

与此同时，本申请分别基于单SNP/INDEL特征、单CNV特征、SNP/INDEL特征与CNV特征结合三方面进行了尿路上皮癌早期筛查模型构建的操作，其中，在确定CNV特征中的CNV数量时是基于第一CNV数量、第二CNV数量和第三CNV数量组合的形式确定的，得到了如表1至表6所示的结果。

表1 单SNP/INDEL特征下训练集与验证集性能

表2单CNV特征下训练集与验证集性能

其中，表2中CNV特征是基于第一CNV数量、第二CNV数量确定的。

表3单CNV特征下训练集与验证集性能

其中，表3中CNV特征是基于第一CNV数量、第三CNV数量确定的。

表4单CNV特征下训练集与验证集性能

其中，表4中CNV特征是基于第二CNV数量、第三CNV数量确定的。

表5 单CNV特征下训练集与验证集性能

其中，表5中CNV特征是基于第一CNV数量、第二CNV数量、第三CNV数量确定的。

表6 SNP/INDEL特征与CNV特征结合下训练集与验证集性能

基于表1至表6可知，当使用单SNP/INDEL特征时，尿路上皮癌早期筛查模型的敏感性0.716，特异性为1；当使用单个CNV特征时，其中，当CNV特征是基于第一CNV数量、第二CNV数量确定时，尿路上皮癌早期筛查模型的敏感性为0.683，特异性为0.993，当CNV特征是基于第一CNV数量、第三CNV数量确定时，尿路上皮癌早期筛查模型的敏感性为0.767，特异性为0.987，当CNV特征是基于第二CNV数量、第三CNV数量确定时，尿路上皮癌早期筛查模型的敏感性为0.722，特异性为0.987，当CNV特征是基于第一CNV数量、第二CNV数量、第三CNV数量确定时，尿路上皮癌早期筛查模型的敏感性为0.832，特异性为0.987，故当CNV特征是基于第一CNV数量、第二CNV数量、第三CNV数量确定时，基于CNV单特征构建的尿路上皮癌早期筛查模型性能最优，当使用SNP/INDEL特征与CNV特征结合时，尿路上皮癌早期筛查模型的敏感性为0.91，特异性为0.98，综合性能最优。

可见，在本申请实施例中，获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本，针对每一测试样本，基于测试样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到CNV特征，然后再将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合，然后，基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。基于大量的特征组合对模型进行训练，能够使得基于尿路上皮癌早期筛查模型进行筛查时筛查结果更加精准，即，敏感性和特异性均较高。

上述实施例从方法流程的角度介绍一种尿路上皮癌早筛方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种尿路上皮癌早筛装置，具体详见下述实施例。

本申请实施例提供一种尿路上皮癌早筛装置200，如图6所示，该尿路上皮癌早筛装置200具体可以包括：

第一获取模块210，用于获取待筛查样本的cfDNA测序结果；

第一点突变筛查模块220，用于基于cfDNA测序结果和多个点突变marker进行过滤筛查，确定待筛查样本的SNV/INDEL特征，其中，点突变marker为能够区别健康人和尿路上皮癌患者的标志，SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

第一CNV特征获取模块230，用于获取CNV基线信息和待筛查样本的基因组，并基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，其中，CNV基线信息是基于多个健康人样本计算预先得到的，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，CNV特征包括：CNV数量和CNV标签；

第一特征整合模块240，用于将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

尿路上皮癌筛查模块250，用于基于特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。

对于本申请实施例，基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到CNV特征，然后再将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，基于特征组合来利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于待筛查样本对应的SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

本申请实施例的一种可能的实现方式，第一CNV特征获取模块230在执行基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征时，用于：

基于第一CNV数量，确定CNV特征。

本申请实施例的一种可能的实现方式，尿路上皮癌早筛装置200，还包括：

综合CNV特征获取模块，用于获取待筛查样本的肿瘤细胞含量，并基于待筛查样本中肿瘤细胞含量和第二阈值的大小关系，确定待筛查样本对应的第二CNV数量；

相应的，第一CNV特征获取模块230在执行基于第一CNV数量，确定CNV特征时，用于：

基于CNV数量，确定CNV特征。

本申请实施例的一种可能的实现方式，第一CNV特征获取模块230在执行基于CNV基线信息和待筛查样本的基因组，得到待筛查样本的基因组对应的多个区段的区段CNV分数时，用于：

CNV基线信息确定模块，用于获取多个健康人样本的基因组；

基于所有健康人样本的基因组各自对应的每一bin区间的read覆盖度，确定CNV基线信息，其中，CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，利用每一区间内所有健康人样本的read覆盖度求均值确定read期望覆盖度，利用每一区间内所有健康人样本的read覆盖度求方差确定read标准差。

本申请实施例的一种可能的实现方式，CNV基线信息确定模块在执行针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到健康人样本的基因组中每一bin区间的read覆盖度时，用于：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种尿路上皮癌早筛装置200的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述实施例从方法流程的角度介绍一种尿路上皮癌早期筛查模型的构建方法，下述实施例从虚拟模块或者虚拟单元的角度介绍了一种尿路上皮癌早期筛查模型的构建装置，具体详见下述实施例。

本申请实施例提供一种尿路上皮癌早期筛查模型的构建装置300，如图7所示，该尿路上皮癌早期筛查模型的构建装置300具体可以包括：

第二获取模块310获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本；

第二点突变筛查模块320针对每一测试样本，基于测试样本对应的cfDNA测序结果和多个点突变marker进行过滤筛查，确定测试样本的SNV/INDEL特征，其中，点突变marker为能够区别正常人和尿路上皮癌患者的标志，SNV/INDEL特征包括：点突变个数、点突变标签、最大突变频率；

第二CNV特征获取模块330针对每一测试样本，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到测试样本的CNV特征，其中，CNV特征包括：CNV数量和CNV标签；

第二特征整合模块340针对每一测试样本，将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合；

模型训练模块350基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。

对于本申请实施例，获取大量的测试样本各自对应的cfDNA测序结果，其中，大量的测试样本包括若干正常人群样本与若干尿路上皮癌患者样本，针对每一测试样本，基于测试样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和测试样本的基因组进行CNV特征获取，得到CNV特征，然后再将测试样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合，然后，基于大量的测试样本各自对应的所有特征组合进行模型训练，得到尿路上皮癌早期筛查模型。基于大量的特征组合对模型进行训练，能够使得基于尿路上皮癌早期筛查模型进行筛查时筛查结果更加精准，即，敏感性和特异性均较高。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的一种尿路上皮癌早期筛查模型的构建装置300的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例中提供了一种电子设备，如图8示，图8所示的电子设备400处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。可选地，电子设备400还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备400的结构并不构成对本申请实施例的限定。

处理器401可以是CPU（Central Processing Unit，中央处理器），通用处理器，DSP（Digital Signal Processor，数据信号处理器），ASIC（Application SpecificIntegrated Circuit，专用集成电路），FPGA（Field Programmable Gate Array，现场可编程门阵列）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI（Peripheral Component Interconnect，外设部件互连标准）总线或EISA（ExtendedIndustry Standard Architecture，扩展工业标准结构）总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条粗线表示，但并不表示仅有一根总线或一型的总线。

存储器403可以是ROM（Read Only Memory，只读存储器）或可存储静态信息和指令的其他类型的静态存储设备，RAM（Random Access Memory，随机存取存储器）或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM（Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器）、CD-ROM（Compact DiscRead Only Memory，只读光盘）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。还可以为服务器等。图8示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与相关技术相比，本申请实施例，基于待筛查样本的cfDNA测序结果和多个点突变marker进行过滤筛查，确定SNV/INDEL特征，基于CNV基线信息和待筛查样本的基因组进行CNV特征获取，得到CNV特征，然后再将待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，基于特征组合来利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。利用尿路上皮癌早期筛查模型进行癌症筛查，实现了无创检测，且基于待筛查样本对应的SNP/INDEL特征和CNV特征，使得尿路上皮癌早期筛查的准确性更高。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种尿路上皮癌早筛方法，其特征在于，包括：

获取待筛查样本的cfDNA测序结果；

将所述待筛查样本对应的SNP/INDEL特征和CNV特征进行整合，得到特征组合，基于所述特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果，其中，所述尿路上皮癌早期筛查模型是利用大量的测试样本训练得到的。

2.根据权利要求1所述的尿路上皮癌早筛方法，其特征在于，所述基于所述CNV基线信息和所述待筛查样本的基因组进行CNV特征获取，得到待筛查样本的CNV特征，包括：

基于所述第一CNV数量，确定CNV特征。

3.根据权利要求2所述的尿路上皮癌早筛方法，其特征在于，所述基于所述CNV基线信息和所述待筛查样本的基因组，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数之后，还包括：

相应的，所述基于所述第一CNV数量，确定CNV特征，包括：

基于所述CNV数量，确定CNV特征。

4.根据权利要求2所述的尿路上皮癌早筛方法，其特征在于，所述基于所述CNV基线信息和所述待筛查样本的基因组，得到所述待筛查样本的基因组对应的多个区段的区段CNV分数，包括：

5.根据权利要求1所述的尿路上皮癌早筛方法，其特征在于，确定CNV基线信息的方式，包括：

获取多个健康人样本的基因组；

6.根据权利要求5所述的尿路上皮癌早筛方法，其特征在于，所述针对每一健康人样本，基于健康人样本的基因组进行CNV滑窗覆盖度计算，得到所述健康人样本的基因组中每一bin区间的read覆盖度，包括：

7.根据权利要求1至6任意一项所述的尿路上皮癌早筛方法，其特征在于，确定点突变marker的方法，包括：

8.一种尿路上皮癌早期筛查模型的构建方法，其特征在于，包括：

9.一种尿路上皮癌早期筛查装置，其特征在于，包括：

第一获取模块，用于获取待筛查样本的cfDNA测序结果；

第一CNV特征获取模块，用于基于CNV基线信息和所述待筛查样本进行CNV特征获取，得到待筛查样本的CNV特征，其中，所述CNV基线信息是基于多个健康人样本计算预先得到的，所述CNV基线信息包括：每一bin区间的read期望覆盖度和标准差，所述CNV特征包括：CNV数量和CNV标签；

尿路上皮癌筛查模块，用于基于所述特征组合，利用尿路上皮癌早期筛查模型进行尿路上皮癌筛查，得到筛查结果。

10.一种电子设备，其特征在于，包括：

至少一个处理器；

存储器；

至少一个应用程序，其中至少一个应用程序被存储在存储器中并被配置为由至少一个处理器执行，所述至少一个应用程序配置用于：执行权利要求1～7和/或8任一项所述的方法。