CN114864080A

CN114864080A - 一种肝癌诊断模型c-galad ii的建立方法、***、设备及介质

Info

Publication number: CN114864080A
Application number: CN202210560932.6A
Authority: CN
Inventors: 许立达; 高琦; 林长青; 张永豪; 李鸿江; 李艳召
Original assignee: Beijing Rexing Medical Laboratory Co ltd; Beijing Hotgen Biotech Co ltd
Current assignee: Beijing Rexing Medical Laboratory Co ltd; Beijing Hotgen Biotech Co ltd
Priority date: 2022-05-23
Filing date: 2022-05-23
Publication date: 2022-08-05

Abstract

本发明属于临床诊断技术领域，具体涉及一种肝癌诊断模型C‑GALAD II的建立方法，以及由其建立的肝癌诊断模型C‑GALAD II的应用。根据本发明的方法建立的肝癌诊断模型C‑GALAD II可用于区分肝细胞癌与慢性肝脏疾病和/或健康对照，其诊断性能较好，有效提高了肝细胞癌、慢性肝脏疾病的早期精确诊断率，为临床早期治疗提供了可靠的依据。

Description

一种肝癌诊断模型C-GALAD II的建立方法、***、设备及介质

技术领域

本发明涉及临床检验、诊断技术领域，具体涉及一种的肝癌诊断模型的建立方法、由其制备的肝癌诊断模型的应用、肝癌风险预测***、电子设备存储介质。

背景技术

肝细胞癌是发生于肝脏组织的一种常见的恶性肿瘤，来源于肝细胞上皮组织，发生原因主要是由于慢性病毒性肝炎反复不愈。肝细胞癌对人体的危害是十分大的，肝细胞癌会极大地破坏人体的肝功能的正常发挥，会对肝功能造成一些不可以挽回的损害。肝癌导致人体丧失生命的比率非常高，它的预后情况并不理想，即使采用了根治性切除肝癌细胞，它在五年内转移复发的比例是非常高的，可以达到百分之六十以上。因此，如何对肝癌进行早期诊断、精准治疗等一直是医疗工作者的研究重点。

当前，肝细胞癌的诊断多依赖于影像学检查；常用的血清标志物甲胎蛋白(AFP)、甲胎蛋白异质体(AFP-L3)、异常凝血酶原(DCP，或称PIVKA-II)均存在诊断敏感性和特异性不高的问题。

2014年由Johnson等人建立的国际通用GALAD模型，基于性别(G)、年龄(A)、三种肝癌血清标志物甲胎蛋白(A)，甲胎蛋白异质体(L)、异常凝血酶原(D)五个变量组成，此模型可显著提高HCC的诊断效率，补充超声对肝癌非创诊断的局限性，并已在国际队列中得到了验证。2019-2020年由高春芳等人建立的肝癌诊断模型GAP-TALAD、C-GALAD和LAD，分别基于联合实验室指标血小板计数(P)、总胆红素(T)、白蛋白(A)、性别(G)、年龄(A)、甲胎蛋白异质体(L)、甲胎蛋白(A)，异常凝血酶原(D)的全部、后五种和后三种组成，上述模型对HCC的诊断效率远远高于单个血清学标志物，并在独立的临床病例中得到验证。

然而，上述国际通用GALAD模型并未聚焦乙肝病毒相关肝癌，而我国80％以上的HCC均与乙肝病毒感染有关。而高春芳等人建立的肝癌诊断模型，其所用数据仅来源于东方肝胆外科医院，且仅集中于肝癌患者与慢性肝病患者的数据，缺少无肝病人群样本，模型的诊断准确率仍然有待提高。如何提高模型的准确性是本领域技术人员一直尝试解决的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

发明目的

本发明的目的在于提供一种肝细胞癌(HCC)诊断模型的建立方法、***、设备及介质，并将该模型用于诊断、鉴别肝细胞癌与慢性肝脏疾病(benign liver diseases,BLDs)和/或健康对照，有效提高了肝细胞癌的早期精确诊断率，为临床早期治疗提供了可靠的依据。

解决方案

为实现本发明的目的，本发明提供了以下技术方案。

第一方面，一种肝癌诊断模型C-GALAD II的建立方法，其包括如下步骤：

(1)数据采集处理：收集多个来源的慢性肝脏疾病患者、正常人和肝细胞癌患者的样本数据，对数据进行预处理；

其中，样本数据包括背景信息、诊断结果和指标检测数据；背景信息包括患者个人信息(包括性别、年龄)；诊断结果包括是否罹患肝细胞癌；所述指标检测数据包括在罹患肝细胞癌与非罹患肝细胞癌之间具有统计学差异的标志物检测数据；可选地，标志物检测数据包括血小板计数(PLT)、总胆红素(TBIL)、甲胎蛋白异质体比率(AFP-L3％)、甲胎蛋白(AFP)和异常凝血酶原(DCP)；

(2)指标筛选：在训练集中，以是否罹患肝癌为因变量，将样本数据中的背景信息、指标检测数据作为自变量纳入逻辑回归模型，通过一种或多种特征筛选的方式进行剔除，选择患者性别、年龄、血小板计数、总胆红素、甲胎蛋白异质体比率、甲胎蛋白和异常凝血酶原七个指标作为模型的输入特征；可选地，筛选方式包括基于数据集的逐步回归、逐步退出或逐步进入的方法；

(3)模型建立：训练集数据中，以是否罹患肝细胞癌为因变量，将步骤(2)选择的七个指标特征的数据作为自变量纳入机器学习模型建立肝癌诊断模型，通过测试集数据对模型进行验证，获得用于诊断或预测肝细胞癌的诊断模型。

其中，优选地，所述多个来源为5个机构以上的来源，优选10个、12个、15个、17个、20个机构以上的来源。

对于上述实验室指标，作为公知常识，本领域技术人员已知如下事实：

男性、年龄大于40是肝癌的高危险因素；

甲胎蛋白(AFP)是用于肝癌诊断的经典指标，但对早期肝癌的诊断价值有所下降；

甲胎蛋白异质体比率(AFP-L3％)是AFP的岩藻糖基化变异体占总AFP的比率，慢性肝炎和肝硬化患者AFP主要成分为AFP-L1，肝癌患者AFP主要成分是AFP-L3；

异常凝血酶原(DCP)，正常参考值：DCP＜40mAU/mL；

血小板计数(PLT)，可反映肝脏的合成功能；

总胆红素(TBIL)，可反映肝脏胆汁代谢功能；

在具体实施方案中，甲胎蛋白(AFP)、甲胎蛋白异质体比率(AFP-L3％)和异常凝血酶原(DCP)均采用北京热景生物技术有限公司的相应测定试剂盒(磁微粒化学发光免疫分析法)进行测定；总胆红素(TBIL)、白蛋白(ALB)、γ-谷氨酰基转移酶GGT(U/L)、天冬氨酸氨基转移酶AST(U/L)均采用贝克曼库尔特临床全自动生化仪进行检测；血小板(PLT)采用Sysmex XN系列血液分析***进行测定。

其中，样本指标预处理的方法包括：重复数据分析与处理、缺失值分析与处理、一致化分析与处理和异常值分析与处理中的一种或几种；可选地，多来源的样本数据包括长数据和/或宽数据；可选地，采用Python中Pandas包将长数据转换为宽数据，可选地，重复数据分析与处理包括：对于包含同一样本同一检测指标多个检测值的长数据保留最后一项的检测结果；可选地，缺失值分析与处理包括：采用missingno库的可视化工具查验数据缺失情况，对于能够通过计算或判断重新获得的缺失值保留，对于无法通过再次实验获得的缺失值作删除处理；可选地，一致化分析与处理包括：对于命名规范和数据格式不同的异构数据进行统一，将非数值型数据转换为数值型数据；

其中，所述步骤(1)中训练集和测试集的分配比例为6:4；可选地，划分函数可以为sklearn包中的train_test_split函数。

进一步地所述机器学习模型采用逻辑回归模型、支持向量机算法模型、随机森林模型或全连接神经网络模型。

当所述机器学习模型为逻辑回归模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为自变量纳入逻辑回归模型，建立肝癌诊断模型；可选地，在训练集中，采用SPSS软件中二元逻辑回归建立模型；

或者，所述机器学***均值法的方式确定预测值；

或者，所述机器学习模型为随机森林模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为随机森林模型的输入值，建立区分肝癌与非肝癌的诊断模型；可选地，在训练集中，选择sklearn包中RandomForestClassifier，定义最大深度为2；

或者，所述机器学习模型为全连接神经网络模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为全连接神经网络模型的输入值，建立肝癌诊断模型；可选地，神经网络结构包括一个输入层、一个输出层和三个隐藏层；可选地，所述隐藏层的神经元数量分别为14、7、3，隐藏层采用ReLu激活函数，输出层采用Sigmoid激活函数。

进一步地，根据机器学习模型输出模型预测值Z；

可选地，当所述机器学习模型采用支持向量机、随机森林、全连接神经网络模型中的任意一种时，由predict_proba函数输出模型预测值Z；

可选地，当所述机器学习模型采用逻辑回归模型时，模型预测值Z公式为：

Z＝-8.1942+A *Gender+B*Age+C*log₁₀(AFP)+D*AFP-L3％+E*log₁₀(DCP)+F*PLT+G*TBIL，

其中，性别(Gender)男性定义为1，女性定义为0；

其中，系数A为0.0705-1.6952；系数B为0.0843-0.1441；系数C为0.2453-1.2768；系数D为0.0363-0.1570；系数E为0.7056-1.4651；系数F为(-0.0222)-(-0.0141)；系数G为(-0.0080)-(-0.0010)。

优选的，系数A为0.8829；系数B为0.114；系数C为0.761；系数D为0.0965；系数E为1.0855；系数F为-0.0181；系数G为-0.0043。

进一步地，肝癌风险评估方式为：按模型预测值从高到低，依次将预测值作为阈值，得到FPR和TPR，构建模型对应的ROC曲线；通过约登指数最大值寻找ROC曲线的最佳cutoff值；

可选地，逻辑回归模型以-2.316作为最佳cutoff值将人群划分为高风险和低风险进行肝细胞癌诊断；

可选地，支持向量机模型以0.5915作为最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；

可选地，随机森林模型以0.4203作为最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；

可选地，全连接神经网络模型以0.1212作为最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断。

进一步地，根据模型的最佳cutoff值将模型的预测值转换为风险预测得分，公式为：

其中，Z为模型的预测值，cutoff为根据约登指数最大值寻找到的最佳cutoff值，b为常数ln 1.5，

可选地，b为0.4055；

可选地，所述肝癌诊断模型以风险预测得分值为60作为阈值进行肝细胞癌诊断。

第二方面，提供一种第一方面所述的建立方法建立的肝癌诊断模型C-GALAD II在制备用于诊断肝细胞癌，或者用于区分慢性肝脏疾病和肝细胞癌的试剂盒中的应用。

第三方面，提供一种肝癌风险预测***，包括：

数据预处理模块：将多个来源的慢性肝脏疾病患者、正常人和肝细胞癌患者的样本数据进行筛选，对重复数据、缺失值、异构化数据和异常值数据进行分析与处理；

机器学习模型构建模块：通过特征筛选的方式从多个肝癌相关因素中选择了性别(Gender)、年龄(Age)、血小板计数(PLT)、总胆红素(TBIL)、甲胎蛋白异质体比率(AFP-L3％)、甲胎蛋白(AFP)和异常凝血酶原(DCP)七个指标作为模型的输入特征，以是否罹患肝癌作为模型的预测标签，建立机器学习模型；

肝癌风险评估模块：按照模型预测值从高到低，依次将预测值作为阈值，得到FPR和TPR，构建模型对应的ROC曲线；通过约登指数最大值寻找ROC曲线的最佳cutoff值；以最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；或将模型预测值转换为风险预测得分，以风险预测得分值为60作为阈值进行肝细胞癌诊断。

第四方面，提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的步骤。

第五方面，提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的步骤。

有益效果

本发明的肝癌诊断模型基于多个来源的多中心数据，基于此数据推导的模型可具有更广泛的适用范围，能适应较大范围的人群特征；且实验证明，本发明的模型对肝细胞癌患者的诊断敏感性为85.87％-92.39％，特异性为92.95％-95.08％，准确性为92.9％-94.5％，比市场在售产品罗氏(Roche)的GALAD模型和雅培(Abbott)的ASAP模型表现更好。本发明中对于数据的预处理、指标的筛选对模型的准确建立具有非常重要的作用。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

图1是本发明的机器学习模型和现有血清学诊断模型在测试集对肝细胞癌患者的诊断效率比较。其中，GALAD、ASAP、C-GALAD、GAP-TALAD属于现有血清学诊断模型，Logistic、SVM、RandomForest、DNN为本发明的机器学习模型；

图2是本发明的机器学习模型在测试集中预测的正常、慢性肝病、肝癌人群的预测结果分布；其中，a:逻辑回归模型，b:支持向量机模型，c:随机森林模型，d:全连接神经网络模型。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

另外，为了更好的说明本发明，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本发明同样可以实施。在一些实施例中，对于本领域技术人员熟知的原料、元件、方法、手段等未作详细描述，以便于凸显本发明的主旨。

以下实施例是基于国人临床检验指标回归模型的建立与应用，用于区分肝细胞癌与慢性肝脏疾病和/或健康对照。

1、样本收集

(1)慢性肝脏疾病患者和正常无肝病人群的信息采集

采用回顾性分析，收集3家医院和5家体检中心肝脏慢性疾病(包括肝硬化、脂肪肝、乙型病毒肝炎、丙型病毒肝炎等)患者和无肝病正常人共计3299例，排除术后、肝脏移植及其他器官恶性肿瘤。

其中肝硬化患者符合以下入选标准：参考《乙型肝炎防治指南》，临床特征或影像学诊断为肝硬化；肝穿病理组织学诊断标准提示存在肝硬化；所有病例的基本信息均完整；排除肝癌及其他器官恶性肿瘤。

(2)肝癌患者信息采集

采用回顾性分析，收集3家医院和5家体检中心肝癌患者(包括肝细胞癌、肝占位、肝恶性肿瘤等)229例。其中肝细胞癌患者符合以下入选标准：以可根治性手术治疗的早期病例为主；病理学诊断明确其肿瘤病理(Edmoson)分期；所有病例基本信息均完整；排除其他原因引起的慢性肝病如酒精性脂肪性肝病和自身免疫性肝病等；排除妊娠、生殖胚胎源性肿瘤、其它器官恶性肿瘤、严重感染性疾病、其他重要脏器疾病等。

2、检测仪器

血清甲胎蛋白采用(电)化学发光全自动免疫分析仪进行定量检测；甲胎蛋白异质体采用凝集素LCA+抗体的(电)化学发光进行定量检测；血清异常凝血酶原采用化学发光全自动免疫分析仪进行定量检测，所有数据采用python和SPSS 21.0分析软件进行统计分析。

3、入选病例的信息

数据采集中肝癌和肝病患者的背景信息、诊断结果以及各项指标检测数据。背景信息中包含有数据中包含患者编号、检测日期、就诊日期、性别、年龄等；检测数据包腹水、肝性脑病、肿瘤个数(肝癌患者)、肿瘤大小(肝癌患者)、血管侵犯(肝癌患者)、远处转移(肝癌患者)、HBsAg定性、HBeAg定性、甲胎蛋白、甲胎蛋白异质体比率、异常凝血酶原以及其他各项血清学指标。

4、数据预处理

由于数据来源于不同的临床研究中心，数据在录入、合并和迁移过程中生成冗余、缺失或不一致的数据，会严重影响数据的使用和分析，需要对数据进行预处理以筛选出相对干净的数据。数据预处理包括：

(1)重复数据分析与处理

对数据集的分布进行查看，数据总体上分为两大类，一类为临床数据另一类为体检数据。临床数据的储存格式为宽数据，有过初步的统计。每一个数据均有唯一样本号，确定了该数据的唯一性。体检数据部分为宽数据、部分为长数据，通过Python中Pandas包可以进行长数据转为宽数据，检测指标中除临床病理结果外其余指标相同。在长数据中存在同一个样本在同一次检测中多个检测值的现象，通过收集资料，该现象是由于第一次测量值不准确(稀释倍数不够，指标处于检测限外等情况)而进行复测。因此，在保留重复数据时选择只保留最后一项。

(2)缺失值分析与处理

缺失数据可能是处理真实数据集时最常见的问题之一。数据分析之前首先要保证数据集的质量，missingno库提供了一个灵活易用的可视化工具来观察数据缺失情况，通过其中的可视化实用程序，可以快速直观地了解数据集的完整性。missingno基于matplotlib可视化，接受pandas数据源。

对于缺失值，例如疾病诊断分类可由确定诊断结果获得，年龄可由检测日期与出生日期之差获得。此外，对于无法通过再次实验获得的其他缺失值，对于缺失属性值的观测作删除处理。

(3)一致化分析与处理

由于数据来源于多中心，各中心对变量的表示的不一致，即数据是异构的。例如，γ-谷氨酰转移酶、GGT、谷氨酰转肽酶、γ-GT均表示同一项检测指标；在性别一项中，有男/女、1(男)/2(女)、1(男)/0(女)三种表示方式；确定诊断结果中，对于肝癌的诊断同样具有不同的表示方法，如肝癌、肝细胞癌、肝细胞肝癌、原发性肝细胞癌、HCC等。在多中心数据合并的过程中，需要选择统一的命名规范和数据格式进行表示，在本文中，采用英文简写或数字的方式进行表示，该表示方法更易被程序识别，提高数据处理过程中的鲁棒性。

数据分析过程中，计算机仅能处理数值型数据，因此需要对非数值型数据进行相应的处理以便于分析。性别一项以1表示男性，0表示女性；确定诊断中，以1表示肝癌，0表示良性肝病和健康人将字符串类型的数据转为数值型。对于甲胎蛋白异质体比率中含有小于，大于的项，处理方式为使用比较符号后的具体数值代表该属性值。

(4)异常值分析与处理

在上一步的一致化处理过程中，某些值表现为异常，无法处理为数值型数据，例如使用‘/’或者空格代替了缺失值，在缺失值检测时未被检测出，在此处进行转换时往往发现出现异常。另有检测结果为0值，而现实情况下，数值应当为小于某个值例如<0.06，此时的0值代表了数据未被检测，应当判定为缺失值。以上出现的缺失值，按照第二步中的缺失值方法进行处理。

此外，由于数据集中的指标均为非正态分布，并且高纬度的数据集也不能通过简单的比较大小进行衡量，对于检测指标例如甲胎蛋白而言，数据本身的分布便是处于一个长尾分布，且该数据的值为正确的检测结果，因此未进行高维度异常值处理。

本发明通过对数据背景分析，通过python中的pandas库、missingno库以及sklearn库进行了自动化脚本的开发，在回顾性收集的多中心数据中经过清洗得到了质量较好的清洁数据。由于多中心数据存在许多干扰因素而造成数据质量不高，通过对其重复值、缺失值、异常值等进行处理，最终获得了较为干净的数据。数据结构统一为宽数据结构或称表格数据，如表1所示，其中第一行为特征属性，每列数据为该特征所对应的属性值，每行代表一个样本。

表1预处理后的表格数据示例

DCP	PLT	TBIL	γ-GT	AST	ALB
						3.87	167	20.3	28	42.5	202
23.98	220	38.87	18.23	32.5	52.9
						6.9	122	21.2	100	64.1	37
31.62	165	11.31	24.5	14	34.5
						30.64	212	15.6	23	35.2	33.6
33.51	201	16.3	27	16.2	38.1
						13.92	29	218.5	718	1043.7	27.9
76.3	216	16.6	14.1	15.4	47.8
						6.98	177	15.74	5.6	17.5	42.5
11.06	166	16.91	12.4	21.6	45.5
						11.5	195	44.3	21.3	15	47.8
15.1	207	11.7	12	22.3	42.8
						13.6	196	11.9	18.8	21.1	43.9
52.1	63	58.4	15	33	20.9
						35.03	90	15.4	52	30.6	45.9
9.23	135	22.8	43	29.2	42

实施例1：本肝癌诊断模型C-GALADⅡ的建立

一、七个指标的筛选

本发明选择性别、年龄、甲胎蛋白、甲胎蛋白异质体比率、异常凝血酶原、血小板、总胆红素、白蛋白、天冬氨酸氨基转移酶与γ-谷氨酰基转移酶十项指标作为模型的备选特征集合。对于数据类型为定量的指标，采用S-W检验(Shapiro-Wilk test)进行正态性检验，以均值±标准差

表示正态分布的指标，两组间比较采用t检验；以中位数和四分位数间距[M(Q25～Q75)]表示非正态分布的指标，两组间比较采用Mann-Whitney U检验。对于数据类型为定性的指标，采用χ²检验比较。

经过Shapiro-Wilktest正态性检验分析，除年龄外其余定量的指标均为非正态分布，因此对年龄采用t检验，其他指标采用Mann-Whitney U检验进行两组间比较。结果如表2所示，纳入的十个指标在肝癌组与对照组之间均具有统计学差异(P＜0.05)。

表2肝癌组与对照组之间具有统计学差异的十个指标

注：分类变量以数字(百分比)表示，非正态分布则以中位数(P25，P75)表示；分类变量采用卡方检验进行比较，非正态分布的连续变量则使用Mann-Whitney检验进行比较。

将样本以6:4的比例分层随机划分为训练集和测试集。在训练集中，以是否罹患肝癌为因变量，将上述10个特征为自变量纳入逻辑回归模型中，通过逐步向后回归的方法进行剔除，最终留下性别(gender)、年龄(age)、甲胎蛋白(AFP)、总胆红素(TBIL)、甲胎蛋白异质体比率(AFP-L3％)、血小板计数(PLT)和异常凝血酶原(DCP)七个指标。

二、基于七个指标的肝癌诊断模型C-GALADⅡ的建立与性能分析

本发明的肝癌诊断模型C-GALADⅡ包括逻辑回归、支持向量机、随机森林或全连接神经网络肝癌诊断模型。其中，

1)逻辑回归的肝癌诊断模型(Logistic C-GALAD II)

基于上述划分的训练集与七个指标，通过SPSS软件中二元逻辑回归方法建立基于性别、年龄、肝癌三联检(AFP、AFP-L3％、DCP)以及血小板计数(PLT)和总胆红素(TBIL)的逻辑回归模型，结果见表3。

表3多因素Logistic回归模型详细参数

其中，表3中的英文对应的中文名称及缩写如下：

(1)Gender，性别，G；(2)Age，年龄，A；(3)AFP-L3％，甲胎蛋白异质体比率，L；(4)AFP，甲胎蛋白；(5)DCP，又称PIVKA-II，异常凝血酶原，D；(6)PLT，血小板计数，P；(7)TBIL，总胆红素，T。

结果显示：肝癌诊断模型C-GALAD II的模型公式为：

Z＝-8.1942+A*Gender+B*Age+C*log₁₀(AFP)+D*AFP-L3％+E*log₁₀(DCP)+F*PLT+G*TBIL，

其中，性别(Gender)男性定义为1，女性定义为0；

2)支持向量机的肝癌诊断模型(SVM C-GALAD II)

基于支持向量机算法的特性，在建立模型前需对数据进行标准化，此处使用sklearn包中StandardScaler类进行处理。将上述具有分类能力的7个指标作为支持向量机模型的输入值，建立区分肝癌与非肝癌的诊断模型。在训练集中，以sklearn包中默认的支持向量机分类模型为基模型，采用分层有放回随机采样的方式为抽取子样本训练基模型，最终预测时通过平均值法的方式确定预测值。

3)随机森林的肝癌诊断模型(RandomForest C-GALAD II)

将上述具有分类能力的7个指标作为随机森林模型的输入值，建立区分肝癌与非肝癌的诊断模型。在训练集中，选择sklearn包中RandomForestClassifier，定义最大深度为2，建立模型。

4)全链接神经网络的肝癌诊断模型(DNN C-GALAD II)

构建一个全链接神经网络(DNN)模型，模型包括1个输入层，1个输出层和三个隐藏层(神经元数量分别为14、7、3)，隐藏层采用ReLu激活函数，输出层采用Sigmoid激活函数。将上述具有分类能力的7个指标作为模型的输入值，在训练集中进行训练。

三、模型对原发性肝细胞癌患者的诊断性能验证

通过上述机器学习模型C-GALADⅡ(逻辑回归模型Logistic、支持向量机模型SVM、随机森林模型RandomForest、或全连接神经网络模型DNN)模型的建立，根据模型在测试集中的预测值，绘制了基于上述7个指标的肝癌诊断模型的ROC曲线，并与已经报道的罗氏(Roche)的GALAD模型、雅培(Abbott)的ASAP模型、高春芳等人的GAP-TALAD模型和C-GALAD模型进行比较(图1)。根据Youden指数(Sensitivity+Specificity-1)最大值判断临界值(Cutoff)，计算得到敏感性(％)、特异性(％)、准确性(％)和曲线下面积(AUC)(表4、表5)。

表4本发明的四个机器学习模型C-GALAD II与现已报道肝癌模型诊断效能比较

通过图1的ROC曲线下面积以及各项指标可以发现，基于7指标的Logistic肝癌诊断模型与其他已经报道的模型(ASAP为4指标模型，GALAD、C-GALAD为5指标模型，GAP-TALAD为8指标模型)相比，敏感性和特异性都有明显提高，诊断性能有明显提升。同时，基于7个指标的其他机器学习模型(SVM、RandomForest和DNN模型)同样具有良好的表现。

此外，还在测试集中，对本发明的机器学习模型C-GALADⅡ、罗氏(Roche)发布的GALAD模型、雅培(Abbott)发布的ASAP模型、高春芳等人的C-GALAD模型、GAP-TALAD模型进行了比较验证，结果(见表5和图1)显示：在测试集中，各模型AUC的大小排序为：

本发明的机器学习模型C-GALADⅡ>雅培ASAP>罗氏GALAD>C-GALAD>GAP-TALAD。

由表5和图2可知，机器学习模型C-GALADⅡ与其他主流模型相比，敏感性和特异性都有明显提高，诊断性能有明显提升。

此外，根据以下公式，可将根据本发明的机器学习模型计算得到的模型预测值转换为风险预测得分：

其中，Z为模型的预测值，cutoff为根据约登指数最大值寻找到的最佳cutoff值，b为常数ln 1.5，score是转换后的模型风险预测得分值。经过公式转换，模型风险预测得分值以60作为分类的最佳阈值，即score在[0,60)的人群划分为低风险，score在[60,100]的人群划分为高风险。便于临床应用。

从测试集中肝细胞癌患者、慢性肝病患者、正常人群的风险预测分值分布(表5和图2)可见，肝癌人群中的发现率均超过88％，机器学习模型C-GALADⅡ有较好的敏感性和特异性。

表5测试集中，根据本发明的机器学习模型C-GALADⅡ预测的正常、慢性肝病、肝癌人群的低、高风险分布

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种肝癌诊断模型C-GALAD II的建立方法，其包括如下步骤：

(1)数据采集：收集多个来源的慢性肝脏疾病患者、正常人和肝细胞癌患者的样本数据，对数据进行预处理，将预处理后的样本数据分为训练集和测试集；

其中，样本数据包括背景信息、诊断结果和指标检测数据；背景信息包括患者个人信息；诊断结果包括是否罹患肝细胞癌；所述指标检测数据包括在罹患肝细胞癌与非罹患肝细胞癌之间具有统计学差异的标志物检测数据；

2.根据权利要求1所述的建立方法，其特征在于，样本指标预处理的方法包括：重复数据分析与处理、缺失值分析与处理、一致化分析与处理和异常值分析与处理中的一种或几种；

可选地，多来源的样本数据包括长数据和/或宽数据；可选地，采用Python中Pandas包将长数据转换为宽数据，可选地，重复数据分析与处理包括：对于包含同一样本同一检测指标多个检测值的长数据保留最后一项的检测结果；

可选地，缺失值分析与处理包括：采用missingno库的可视化工具查验数据缺失情况，对于能够通过计算或判断重新获得的缺失值保留，对于无法通过再次实验获得的缺失值作删除处理；

可选地，一致化分析与处理包括：对于命名规范和数据格式不同的异构数据进行统一，将非数值型数据转换为数值型数据；

可选地，异常值分析与处理包括：对于无法处理为数值型数据作缺失值处理。

3.根据权利要求1或2所述的建立方法，其特征在于，所述步骤(1)中训练集和测试集的分配比例为6:4。

4.根据权利要求1或2所述的建立方法，其特征在于，所述机器学习模型采用逻辑回归模型、支持向量机算法模型、随机森林模型或全连接神经网络模型；

可选地，所述机器学习模型为逻辑回归模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为自变量纳入逻辑回归模型，建立肝癌诊断模型；可选地，在训练集中，采用SPSS软件中二元逻辑回归建立模型；

可选地，所述机器学***均值法的方式确定预测值；

可选地，所述机器学习模型为随机森林模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为随机森林模型的输入值，建立区分肝癌与非肝癌的诊断模型；可选地，在训练集中，选择sklearn包中RandomForestClassifier，定义最大深度为2；

可选地，所述机器学习模型为全连接神经网络模型，以是否罹患肝细胞癌为因变量，将其它特征的数据作为全连接神经网络模型的输入值，建立肝癌诊断模型；可选地，神经网络结构包括一个输入层、一个输出层和三个隐藏层；可选地，所述隐藏层的神经元数量分别为14、7、3，隐藏层采用ReLu激活函数，输出层采用Sigmoid激活函数。

5.根据权利要求1至4任一所述的建立方法，其特征在于，根据机器学习模型输出模型预测值Z；

其中，性别(Gender)男性定义为1，女性定义为0；

其中，系数A为0.0705-1.6952；系数B为0.0843-0.1441；系数C为0.2453-1.2768；系数D为0.0363-0.1570；系数E为0.7056-1.4651；系数F为(-0.0222)-(-0.0141)；系数G为(-0.0080)-(-0.0010)；

6.根据权利要求1至5任一所述的建立方法，其特征在于，肝癌风险评估方式为：按模型预测值从高到低，依次将预测值作为阈值，得到FPR和TPR，构建模型对应的ROC曲线；通过约登指数最大值寻找ROC曲线的最佳cutoff值；

可选地，支持向量机模型以0.5915作为最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；可选地，随机森林模型以0.4203作为最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；

7.根据权利要求1至6任一所述的建立方法，其特征在于，根据模型的最佳cutoff值将模型的预测值转换为风险预测得分，公式为：

可选地，b为0.4055；

可选地，所述肝癌诊断模型以风险预测得分值60作为阈值进行肝细胞癌诊断，风险预测得分值大于60时视为罹患肝癌高风险。

8.一种根据权利要求1-7任一项所述的建立方法建立的肝癌诊断模型在制备用于诊断肝细胞癌，或者用于区分慢性肝脏疾病和肝细胞癌的试剂盒中的应用。

9.根据权利要求8所述的应用，其特征在于，所述肝癌诊断模型风险预测得分值为60作为阈值进行肝细胞癌诊断。

10.一种肝癌风险预测***，其特征在于，包括：

机器学习模型构建模块：通过特征筛选的方式从多个肝癌相关因素中选择了性别、年龄、血小板计数、总胆红素、甲胎蛋白异质体比率、甲胎蛋白和异常凝血酶原七个指标作为模型的输入特征，以是否罹患肝癌作为模型的预测标签，建立机器学习模型；

肝癌风险评估模块：按照模型预测值从高到低，依次将预测值作为阈值threshold，得到FPR和TPR，构建模型对应的ROC曲线；通过约登指数最大值寻找ROC曲线的最佳cutoff值；以最佳cutoff值将人群划分为高风险和低风险，进行肝细胞癌诊断；或将模型预测值转换为风险预测得分，以风险预测得分值为60作为阈值进行肝细胞癌诊断。

11.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项方法所述的步骤。

12.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项方法所述的步骤。