WO2022110278A1

WO2022110278A1 - 一种用于肺结节风险性评估的***

Info

Publication number: WO2022110278A1
Application number: PCT/CN2020/133952
Authority: WO
Inventors: 叶莘; 范献军; 周燕玲; 陈燕慈; 黄萌; 张俊成; 石剑峰
Original assignee: 珠海圣美生物诊断技术有限公司; 珠海横琴圣澳云智科技有限公司
Priority date: 2020-11-25
Filing date: 2020-12-04
Publication date: 2022-06-02
Also published as: CN112382392A

Abstract

一种用于肺结节风险性评估的***，该***通过逻辑回归模型、决策树模型或随机森林模型，对获取的患者的影像分析数据、患者的CAC检测数据和患者的风险因素进行综合评估，对患者肺结节风险性进行评估，不仅能够实现对是否存在肺结节进行评估，还能够预测存在的肺结节的风险性，且具有较高的准确率。

Description

一种用于肺结节风险性评估的***

相关申请的交叉引用

本公开要求于2020年11月25日提交中国专利局的申请号为CN202011341094.0、名称为“一种用于肺结节风险性评估的***”的中国专利申请的优先权，其全部内容通过引用结合在本公开中。

技术领域

本公开涉及医学数据处理技术领域，具体而言，涉及一种用于肺结节风险性评估的***。

背景技术

结节病(sarcoidosis)是一种病因未明的多***多器官的肉芽肿性疾病，常侵犯肺、双侧肺门***、眼或皮肤等器官，其胸部受侵率高达80％～90％。呈世界分布，欧美国家发病率较高，东方民族少见，多见于20～40岁，女略多于男。

目前肺结节的致病原因和发病机理还都处于研究阶段，仅探明了结节病是未知抗原与机体细胞免疫和体液免疫功能相互抗衡的结果。由于个体的差异(年龄、性别、种族、遗传因素、激素或HLA)和抗体免疫反应的调节作用，视其产生的促进因子和拮抗因子之间的失衡状态，而决定肉芽肿的发展和消退，表现出结节病不同的病理状态和自然缓解的趋势。肺结节病肉芽肿在组织切片上可见为皮样细胞的聚集，其中有多核巨噬细胞，周围有淋巴细胞，而无干酪样病变。在巨噬细胞的泡浆中可见有包涵体，如卵圆形的舒曼(Schaumann)小体、双折光的结晶和星状小体(asteroid body)。肺结节病的初发病变有较广泛的单核细胞、巨噬细胞或淋巴细胞浸润的肺泡炎，累及肺泡壁和间质。肺泡炎和肉芽肿都可能自行消散。但在慢性阶段，肉芽肿周围的纤维母细胞胶原化和玻璃样，成为非特异性的纤维化。肉芽肿的组织形态学表现并无特性，可见于分支杆菌和真菌感染，或为异物或外伤的组织反应，亦可见于铍病、第三期梅毒、淋巴瘤和外源性***反应性肺泡炎等，应行鉴别。但在多器官中见到同样的组织病变，结合临床资料，可诊断本病。常见的肺结节多为良性，而恶性的肺结节即可诊断为肺癌，因此，肺结节通常为肺癌的主要早期表现，准确检测肺结节对肺癌的早期诊断和治疗具有重要意义。

肺结节的尺寸范围分布很广，既有5cm以上的大尺寸结节，也有亚厘米级的结节，对于大尺寸的肺结节，传统的医学影像检测即可发现，而对于小尺寸的肺结节(3～10mm)，仅仅依靠传统医学影像观察，会由于不同的医生水平、医院条件或数据孤岛，使得判断标准不一，导致了大量的临床经验误诊。

随着影像学技术的进一步发展，其处理能力得到了显著提高，然而，由于肺部计算机断层扫描(CT)图像背景复杂以及检测范围大，且肺结节大小不一和/或形态各异，所以快速准确检测肺结节是一项极具挑战的工作。

近年来，AI技术得到了长足的发展，已有大量将AI技术应用于医学影像分析的研究报道，但是，现有报道中仍存在明显不足。

首先，现有的CT影像AI技术中所采用的样本量比较小，且通常阈值设定较低，因此检出的准确度及灵敏度均高于实际值，所得到的结果中普遍存在假阳性，需要专家进行复核，才能最终确定结果，实际上不仅没有提高检测效率，反而增大的检测成本。

目前所见到的利用AI技术处理CT影像其检测结果准确度在90％以上的报道中普遍存在调查样本量少，设定阈值低的缺点。当样本量扩大后，其检测结果的准确度和灵敏度都会显著下降，例如，Tao Xu等即报道了受试患者人数达到534个时，AI的分析准确率仅为70％(Tao Xu,Chuoji Huang,Yaoqi Liu,Jing Gao,Huan Chang,Ronghua Yang,Tianjiao Jiang,Zhaozhong Cheng,Wencheng Yu,Juncheng Zhang,Chunxue Bai，Artificial intelligence based on deep learning for differential diagnosis between benign and malignant pulmonary nodules:A real-world,multicenter,diagnostic study.Journal of Clinical Oncology.)，无法满足实际临床的需求。

另外，对于小细胞肺癌和鳞癌，放射科医生从影像也很难以进行辨认。由于影像上的特性不明显，现有的AI算法对这一类肺癌的检测准确率不到10％。

除了采用医学图像数字化处理的手段进行肺结节检测以及肿瘤风险评估之外，还有包括基于免疫反应在内的很多其他检测和评估手段，其中循环异常细胞(CAC)检测因为具有操作简便、随时可检、灵敏度高、特异性好、稳定性强且检测用时短等优势，而备受关注。

多项研究表明，肿瘤发生早期与染色体特定区域的变化(扩增、缺失或融合等)密切相关。通过分离富集并检测血液中含有与特定癌种高度相关的染色体异常细胞，能更加全面地反映癌症早期发生的情况，进而提供癌症诊断的信息。这种存在于外周血或人体其他体液且含有与癌症发生相关染色体异常的细胞为循环异常细胞(circulating abnormal cell，CAC)。初步研究证明，CAC在早期的肿瘤检测中的优势明显，具有良好的诊断效能。

临床研究的结果表明，CAC检测对于肺癌的不同的类型和分期均有较为一致的检出率，小于5-10mm的肺结节的鉴别准确率也超过70％，而这一类结节由于尺寸较小，从影像上难以进行分析和鉴别，因此，目前CAC的检测结果可作为CT影像AI分析技术的有效补充手段，对CT影像AI分析的检测结果进行查漏补缺，例如青岛大学附属医院的徐涛医生利用我司提供的CAC检测结果去进行CT-AI分析结果的修正。从临床医生倾向积极治疗的11例CT-AI判断低风险的样本中找到了8例高风险的样本。而这8例样本的最终病理检测结果则与CAC的评价结果完全一致，实现了查漏补缺的作用。然而，这也仅仅是用CAC的检测结果对CT-AI的结果进行补充，并未深入分析两者如何有机的结合，进一步提升对肺结节中早期肺癌检测的准确率。

鉴于此，特提出本公开。

发明内容

本公开针对上述技术问题，提供了一种用于肺结节风险性评估的***，该***通过机器自学习，不仅实现了将患者的病灶影像结果与患者的CAC检测数据联合用于肺结节风险性评估，还进一步整合了患者的风险因素，显著提高了患者肺结节风险性评估的准确率。

第一方面，本公开提供一种用于肺结节风险性评估的***，包括：

数据采集模块，配置成获取患者的病灶影像结果、患者的CAC检测数据和患者的风险因素；

数据处理模块，配置成对数据采集模块获取的数据进行预处理，所述预处理的输出结果与肺结节风险性评估模块相匹配；

肺结节风险性评估模块，配置成应用机器学习构建的肺结节风险性评估模型对数据处理模块预处理输出结果进行计算，得到肺结节风险性结果。

在可选实施方式中，所述患者的风险因素包括患者的性别、年龄、家族肿瘤病史或吸烟史中的一种或两种及以上组合。

在可选实施方式中，所述数据处理模块配置成：将所述患者的病灶影像结果经人工智能计算转换为病灶影像分析数据，输出患者肺结节恶性概率；将所述患者的性别转换为相应的性别标识；将所述家族肿瘤病史转换为相应的家族肿瘤病史标识；将所述吸烟史转换为相应的吸烟史标识。

所述性别标识是指，男性患者的性别标识为1，女性患者的性别标识为0；所述家族肿瘤病史标识是指，具有家族肿瘤病史的患者的病史标识为1，不具有家族肿瘤病史的患者的病史标识为0；所述吸烟史标识是指，具有吸烟史的患者的吸烟史标识为1，不具有吸烟史的患者的吸烟史标识为0。

在可选实施方式中，所述患者的病灶影像结果包括低剂量螺旋CT扫描图、薄层螺旋CT扫描图、X光射线胸片或正电子发射计算机断层显像中的一种或两种及以上组合。

所述的病灶影像分析方法包括：首先对获得的影像进行3D拓扑重构，而后对结节边界进行三维分割，再提取结节图像的特征，通过提取到的特征进行成分、相关性和聚类分析，最后根据现有的结节图像判断标准指南以及标记的图像数据进行人工智能恶性概率计算。

在可选的实施方式中，所述患者的CAC检测数据包括患者的CAC检测得到的每万个单个核细胞中循环异常细胞数量。

所述患者的CAC检测所使用的样本包括患者的血液、胸腹水、肺泡灌洗液、尿液、唾液或脑脊液中的一种或两种及以上组合。

在可选的实施方式中，所述肺结节风险性评估模块采用逻辑回归模型，根据预处理结果计算得到患者的肺结节风险性；所述预处理结果包括患者的病灶影像分析数据、患者的CAC检测数据、患者的年龄和患者的性别标识；所述逻辑回归模型计算公式为：

logit(π)＝θ ^TX+θ ₀，式中X为自变量矩阵，包括患者的病灶影像分析数据x ₁、患者的CAC检测数据x ₂、患者的年龄标识x ₃和患者的性别标识x ₄，式中θ ^T为与自变量矩阵X对应的系数矩阵，

θ ₀为常系数，π为患者肺结节恶性概率；将计算得到的π与预设的分类阈值比较，得到比较结果；基于比较结果输出患者肺结节的良性标识或恶性标识，所述的良性标识为0，恶性标识为1。

优选地，所述分类阈值为0.5～0.8。

优选地，所述分类阈值为0.6。

在可选的实施方式中，所述θ ₁为3.08～15.05任意值，优选为7.92；

所述θ ₂为-0.12～0.40任意值，优选为0.10；

所述θ ₃为-0.03～0.16任意值，优选为0.06；

所述θ ₄为-7.72～-1.43任意值，优选为-3.9；

所述θ ₀为-12.60～1.18任意值，优选为-4.94。

在可选的实施方式中，所述肺结节风险性评估模块采用决策树模型，将患者的病灶影像分析数据、患者的CAC检测数据、患者的年龄和患者的性别标识作为划分特征，根据预处理结果对患者的肺结节风险性进行分类。

优选地，所述决策树的决策深度为2～7。

优选地，所述决策树的决策深度为4。

优选地，所述决策树的决策深度为7。

在可选的实施方式中，所述肺结节风险性评估模块采用随机森林模型，同时构建100～1000棵决策树对患者的肺结节风险性进行分类，并根据100～1000棵决策树的分类结果计算患者的肺结节恶性的概率；所述100～1000棵决策树随机从患者的病灶影像分析数据、患者的CAC检测数据、患者的年龄和患者的性别标识中选取2～4种预处理结果作为划分特征。

优选地，选取3种预处理结果作为划分特征。

优选地，所述决策树数量为300。

第二方面，本公开提供前述实施方式所述***中肺结节风险性评估模块采用的肺结节风险性评估模型的训练方法，所述训练方法包括将获取的已知病理结果的患者的病灶影像分析数据、患者的CAC检测数据、患者的风险因素转换后的对应标识和患者的病理检测数据，作为自学习样本输入预设模型，经自学习得到特征参数，确定肺结节风险性评估模型。

优选地，所述肺结节风险性评估模型为逻辑回归模型，所述自学习得到的特征参数包括系数矩阵、常系数和分类阈值。

优选地，所述肺结节风险性评估模型为决策树模型，所述自学习得到的特征参数包括根节点划分特征值和各级父节点划分特征值。

优选地，所述肺结节风险性评估模型为随机森林模型，所述自学习得到的特征参数包括决策树数量、每棵决策树的根节点划分特征值和各级父节点划分特征值。

上述预设模型包括逻辑回归模型，所述逻辑回归模型是统计建模中用来对于二元变量建立模型的经典模型。其建立在假设因变量服从伯努利分布基础上，与线性回归假设因变量服从高斯分布具有很多相同之处。上述的病灶影像分析数据包括人工智能计算给出患者肺结节的恶性概率，所述的人工智能计算方法包括采用以卷积神经网络为模型对医学影像信息进行数字化处理分析得到的肺结节恶性的概率值的方法，经临床采集患者的病灶影像分析数据与病理分析结果，进行数理统计验证证实，本公开中选用的病灶影像分析数据与肺结节恶化之间存在显著联系。上述CAC检测数据包括依据CAC检测原理对患者血细胞进行检测得到的检测数据，包括使用CAC试剂盒或CAC检测设备执行检测操作得到的相应的检测数据，经临床采集患者CAC检测数据与病理分析结果，数理统计结果证实，本公开中选用的CAC检测数据与肺结节恶化概率之间也存在联系。因此，本公开构建了模型实现了对患者病灶影像分析数据和患者血液CAC检测数据的联合处理分析。

所述逻辑回归分析的构建方法包括：以获取的患者的风险因素、患者的病灶影像分析数据和患者的液态样本CAC检测数据为自变量，以患者的病理检测数据为因变量构建逻辑回归方程，而后以实现代价函数最小化为目的通过梯度下降算法或迭代加权最小二乘法得到优化后的自变量的系数矩阵和常系数，得到逻辑回归方程，并确定分类阈值，所述分类阈值为0.5～0.8，所述分类阈值确定过程中的阈值增长梯度为0.05。

经验证集验证，采用本公开提供的逻辑回归模型进行评估所得的准确率与现有技术中单独采用CT影像的AI分析数据和CAC检测数据进行肺结节恶性评估所得的准确率和敏感度相比均有显著提高，且逻辑回归模型所得的结节良恶性风险分析概率对比病理结果，准确率接近90％。

上述的预设模型包括决策树模型，决策树(Decision Tree)是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。本公开以患者的病灶影像分析数据、患者的CAC检测数据和患者的风险因素为特征，通过基尼系数

计算根据其中一个特征的特征值进行划分后的情况，其中

最小的特征作为划分节点，以此类推直至将所有数据划分叶节点或最大深度，最后得到决策树模型及决策深度；其中D为决策树训练过程中的某内部节点，A为训练过程中可采用的某***方式，p为该内部节点中成为某标类的概率，经交叉验证，可得到决策树的决策深度。本公开提供的决策树的最大深度为7。

经验证集验证，采用本公开提供的决策树模型进行评估所得的准确率与现有技术中单独采用CT影像的AI分析数据和CAC检测数据进行肺结节恶性评估所得的准确率和敏感度相比均有显著提高。

上述的预设模型还包括随机森林模型，随机森林模型可以解释若干自变量(X ₁、X ₂、...和X _k)对因变量Y的作用。如果因变量Y有n个观测值，有k个自变量与之相关；在构建随机森林模型中的单独分类树的时候，随机森林会随机地在原数据中重新选择n个观测值，遵循Bootstrap重新抽样的方法，其中有的观测值被选择多次，有的没有被选到。同时，随机森林随机地从k个自变量选择部分变量进行分类树节点的确定。这样，每次构建的分类树都可能不一样。本公开以获取的患者病灶影像分析数据、患者的CAC检测数据以及患者的风险因素为自变量，以患者的病理检测数据为因变量，通过随机方式在全部样本中选取设置决策树数量的子集作为学习样本，并建立设置数量的决策树，最后以交叉验证的方式来筛选调谐参数，从而得到随机森林模型。

经验证集验证，采用本公开提供的随机森林模型进行评估所得的准确率与现有技术中单独采用CT影像的AI分析数据和CAC检测数据进行肺结节恶性评估所得的准确率和敏感度相比均有显著提高。

上述的交叉验证的方法包括将训练数据或自学习样本随机划分为k份，轮流使用其中1份用作测试集，而将另外k-1份作为训练集，其中k优选为10。

本公开具有以下有益效果：

本公开提供了一种用于肺结节风险性评估的***，该***的肺结节风险性评估模块能够对采集到的患者的病灶影像分析数据、患者的CAC检测数据和患者的风险因素进行联合评估分析，在给出患者肺结节的恶性概率的同时，给出风险性预测。与单独采用CT影像的AI分析数据和CAC检测数据进行肺结节风险性预测相比具有更高的准确性。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为患者的病灶影像结果的AI处理流程图示意图；

图2为患者的病灶影像结果的AI结节特征处理示意图；

图3为CT-AI处理结果显示界面示意图；

图4为血液样本荧光原位杂交处理流程示意图；

图5为CAC和正常细胞荧光原位杂交结果示意图；

图6为实施例2中得到的决策树；

图7为实施例9应用实施例2的决策树的决策结果；

图8为实施例10～14中得到的设置不同决策树数量的交叉验证准确率结果。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将对本公开实施例中的技术方案进行清楚地和完整地描述。实施例中未注明具体条件者，按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

本公开以下各组实施例所采用的患者病灶影像分析数据是通过TargetCall ^TM软件(珠海圣美生物诊断技术有限公司)对患者的病灶影像结果进行处理获得的，分析流程依次包括图像获取(S1)、图像分割(S2)、特征提取(S3)、模型构建(S4)和分类预测(S5)，如图1所示，具体步骤如下：

首先，获取患者病灶影像，例如薄层CT(厚度小于2mm)或DICOM图像等，将收集到的患者病灶影像导入AI分析***，AI分析***读取病灶影像数据，从中构建影像的三维信息，进行结节检测。检测到结节后进行图像分割，并对结节进行特征提取，而后基于结节的特征信息完成模型构建，进行三维分析，从而实现对结节的良恶性进行鉴别。

所述特征提取包括：结节实性成分的百分比、钙化成分的百分比、结节体积、结节直径和结节密度等特征参数的获取。

所述的三维分析包括：结节分类和结节分割，以及根据肺结节指南和肺结节影像组学估算出结节的恶性概率和恶性级别。

其中结节的分类包括：实性结节、混合性结节、磨玻璃结节和钙化结节，其中前三种是医生较为关注的结节类型。关于结节分类，不同医生之间的差异也比较大，尤其对于混合性结节，一致性约为65％。

图像分割的实现方式如下：在TargetCall ^TM软件(珠海圣美生物诊断技术有限公司)软件中，***可将不规则实性结节和磨玻璃结节进行三维分割。对于混合性结节，***会对实性成分进行三维分割，并计算实性成分的百分比，同时依据钙化成分的不同形状，对钙化成分进行分割，其中所述的钙化成分的形状包括弥散型、中央型、分层状和爆米花状，并将钙化成分大于80％的结节归类为钙化结节。

所述特征提取中结节体积计算方法如下：分割后的结节图像由多个像素点组成，像素点的个数乘以每个像素点的体积即得出结节的体积。

结节直径的测量方法包括三维直径测量和二维直径测量。其中三维直径包括轴向直径和标准直径，二维直径则是测量在结节横断面的长直径和短直径。

结节密度的测量方法为：分割后得到的每个像素对应一个密度值，***据此计算出所有像素的平均密度，并将所有像素按照密度大小进行排序，并取第95百分位的密度为最大密度，取第5百分位密度为最小密度。

通过提取上述的结节形状、纹理、强度、密度和钙化比等特征，如图2所示范例，肺结节原始图像(A)经过提取强度(intensity)、形状(shape)和密度(texture)等特征参数(B)后，对提取得到的特征进行相关性分析(C)，来考察各个特征之间的依赖性，并在此基础上，进行模型构建，而后给出分类预测的恶性概率结果。

恶性概率是指该结节为恶性的可能性，是指良恶性鉴别的信心评分。其范围为1％～100％。如果恶性概率>50％，则可能是恶性结节。恶性概率越高，结节是恶性的信心越高。反之，如果恶性概率<50％，则很可能是良性结节。恶性概率越低，对结节是良性的信心越高。

根据美国ACCP指南的标准，结节的恶性概率可以分为四种：极低，恶性概率<5％；低，恶性概率5％-40％；中等，恶性概率40％-65％；高，恶性概率>65％。以此恶性概率值为依据，按照ACCP指南，CT-AI算法能计算出恶性级别：极低、低、中等和高。同时也可以根据不同的国内外指南(Lung-RADS指南，Fleischner指南)，自动给出的结节管理建议，CT-AI最终处理结果如图3所示。

本公开以下各实施例采用的CAC检测方法包括，依据CAC检测原理，使用CAC试剂盒或CAC检测设备执行检测操作，检测流程如图4所示，具体包括步骤如下：

首先，对患者进行样本收集(S1)，例如采集患者血液样本，使用细胞保存液(珠海圣美生物诊断技术有限公司)进行固定，然后使用密度梯度的离心方法对血液样本进行细胞分离，对分离获得的外周血单个核细胞富集和纯化后(S2)，固定在载玻片上后(S3)，经酶消化和乙醇梯度脱水杂交前处理后，外周血单个核细胞中的DNA发生变性，随后加入荧光探针，使其与外周血单个核细胞中的DNA结合，形成“染色体-特定序列探针”复合物；最后用核酸染料对细胞核进行染色指示完整细胞核型。经处理的样本通过荧光显微镜扫描(S4)，实现对特定染色体数目异常的CAC进行识别与检测，根据荧光标志物检测算法统计每个细胞四个通道上的染色点数目特征从而判别该细胞是否为CAC。由于CAC被定义为在两个及两个以上染色通道上具有增益，因此可以基于对四个探针图像中的荧光信号的计数来对每个细胞进行分类(S5)，如图5所示，图中绿色和红色标识指示的是一条染色体上的2个位点，蓝色和黄色标识指示的是另一条染色体上2个位点，根据荧光检测结果对细胞按照表1的规则进行分类，图5中细胞A的检测结果中有两种染色信号(绿色和红色)的数量为3个，根据表1细胞A为CAC，而细胞B的检测结果中四种染色信号均成对出现，根据表1，细胞B为正常细胞。

表1 细胞类型判别规则

细胞类型	说明
正常细胞	细胞核内染色信号成对出现
丢失细胞	细胞核内有一种染色信号低于2个
增益细胞	细胞核内只有1种染色信号超过2个
CAC	细胞核内有2对及以上染色信号超过2个
待定细胞	非以上四类

本公开所述的患者的风险因素包括患者性别、年龄、吸烟史和家族遗传史等信息，用来辅助分层分析。

以下结合实施例对本公开的特征和性能作进一步的详细描述。

现采集64名肺结节患者的病灶CT影像结果和血液样本，分别用于CT影像AI分析和CAC检测，并对该64名患者进行了全面的病理分析，其结果如下表所示。

表2 64名患者CT影像AI分析结果、CAC检测结果及病理分析结果

实施例1

本实施例通过对表2中采集的64位患者的年龄、性别、CT影像AI分析数据、CAC检测数据和病理分析结果进行逻辑回归分析，成功构建了逻辑回归模型，具体包括以下步骤：

(1)构建逻辑回归模型

在R 3.6.0统计软件中，输入患者的CT影像AI分析结果(x ₁)、CAC检测数据(x ₂)、年龄(x ₃)和性别标识(x ₄:男性为1，女性为0)作为自变量，病理结果作为因变量(π)，构建回归方程logit(π)＝θ ₀+θ ₁x ₁+θ ₂x ₂+θ ₃x ₃+θ ₄x ₄，带入表1中64位患者的对应数据，经过R 3.6.0统计软件计算得到系数θ ₀、θ ₁、θ ₂、θ ₃和θ ₄，计算结果显示：θ ₀为选自-12.60～1.18中的任意数值，优选为-4.94；θ ₁为选自3.08～15.05中的任意数值，优选为7.92；θ ₂为选自-0.12～0.40中的任意数值，优选为0.10；θ ₃为选自-0.03～0.16中的任意数值，优选为0.06；θ ₄为选自-7.72～-1.43中的任意数值，优选为-3.9。

在阈值的选择过程，本实施例从0.5到0.8以0.05为阶梯建立不同备选阈值。对于每一备选阈值，以病理检测结果为标准，分别计算出相对的预测结果的准确度，结果如表3所示。

表3 实施例1中备选阈值对应准确度

备选阈值	分类准确度
0.5	0.8413
0.55	0.8413
0.6	0.8571
0.65	0.8413
0.7	0.8254

因此，本实施例选择了分类准确度最高的分类阈值0.6。

实施例2

本实施例采用表2中采集的64位患者的CT影像AI分析数据、CAC检测数据和病理分析结果，成功构建了决策树模型，具体包括以下步骤：

(1)将表2中采集的数据随机划分为10份，轮流使用其中1份用作测试集，而将另外9份为训练集；

(2)考虑年龄、性别、“CT影像AI恶性概率”和“CAC检测数据”这四个特征，利用训练集，通过

计算根据其中一特征的特征值进行划分后的情况，其中

选择使Gini(D,A)最小的特征作为划分节点；

(3)在决策树生成过程中，对每个节点在划分前先进行评估，若当前节点能带来决策树泛化性能提升，则划分当前节点，否则不进行划分；

(4)重复上述步骤(2)和步骤(3)直至将所有数据划分叶节点或最大深度，最后得到的即为决策树，其中最大深度可以设置2～7中的任意数值；

(5)利用上述生成的决策树分类器对步骤(1)中随机划分的1份测试集数据进行判别，若测试集测试结果满足精度要求则进行下一步，否则重新进行分类；

(6)对于步骤(1)中产生的10组训练集和测试集，重复上述步骤(2)至步骤(5)，并计算得出10折交叉验证准确率；

(7)根据步骤(6)产生的10折交叉验证结果，当深度为7时，交叉检验评估的准确率已经达到了82.9％，已经满足了实际评估需求，因此，将决策树的最大深度设为7，所得决策树如图6所示，其中“ct＜0.58”表示节点的划分标准为CT影像AI恶性概率小于0.58，“sex＝M”表示患者性别为男性，“cac＜7”表示CAC检测数据小于7，“age＜56”表示患者年龄小于56周岁，其他节点的划分标准为相应的表示方法，且每级节点中满足划分标准的样本划分入下一级节点的左侧节点，不满足划分标准的样本划分入下一级节点的右侧节点。

图6中得到的决策树的根节点采用ct＜0.58作为划分标准，得到左右排列的A1和A2两个一级父节点，而后A1和A2两个父节点分别采用sex＝M和cac＜4作为划分标准，得到由左到右排列的B1、B2和B3三个二级父节点以及一个恶性叶子节点，三个二级父节点B1、B2和B3分别采用cac＜7、age＜56和sex＝M作为划分标准，得到由左到右排列的良性叶子节点、三级父节点C1、三级父节点C2、恶性叶子节点、三级父节点C3和恶性叶子节点，三个三级父节点C1、C2和C3分别采用cac≥10、ct<0.43和age<57作为划分标准，得到由左到右排列的良性叶子节点、恶性叶子节点、良性叶子节点、恶性叶子节点、四级父节点D1和恶性叶子节点，四级父节点D1采用age≥55作为划分标准，得到由左到右排列的良性叶子节点和五级父节点E1，五级父节点E1采用cac≥1作为划分标准得到由左到右排列的六级父节点F1和恶性叶子节点，六级父节点F1采用cac<2作为划分标准，得到由左到右排列的良性叶子节点和恶性叶子节点。

实施例3

本实施例采用表2中采集的64位患者的CT影像AI分析数据、CAC检测数据和病理分析结果，成功构建了随机森林模型，具体包括以下步骤：

(2)设置随机森林中决策树数量为100棵，通过Bootstrap重抽样方法将训练集数据重新划分为100组不同的数据集，其中有的观测值被选择多次，有的没有被选到；

(3)对于步骤(2)中的每组数据集，考虑年龄、性别、“CT影像AI恶性概率”和“CAC检测数据”这四个特征，设置调谐参数mtry，在每个节点需要***时，先从当前节点的集合中随机地从这四个特征中选取mtry个特征的子集，并从这个子集中选择使Gini(D,A)最小的特征进行节点***；

(4)按照步骤(3)构建100棵决策树组成随机森林，然后将每棵树对测试集进行判别与分类，根据分类树的投票多少判定分类结果，计算测试集的错误率；

(5)调谐参数mtry在2～4之间，重复步骤(3)和步骤(4)，并分别计算出10折交叉验证准确率；

(6)根据步骤(5)产生的10折交叉验证结果，调谐参数mtry为3时，交叉验证的准确率已经达到了84.2％，已经符合了实际评估要求，因此，将随机森林模型的调谐参数mtry为3。

实施例4～7

实施例4～7分别采用表2中采集的64位患者的CT影像AI分析数据、CAC检测数据和病理分析结果，成功构建了四个随机森林模型。与实施例3相比，实施例4～7的区别仅在于，采用的决策树的数量分别为300棵、500棵、700棵和1000棵。

实施例8

本实施例应用实施例1提供的逻辑回归模型对5位患者进行肺结节风险性评估，5位患者的CT影像分析数据和CAC检测数据见下表。

表4 实施例8中5位待评估患者的CT影像AI分析数据和CAC检测数据

患者编号

CT影像AI分析数据

CAC检测数据(个)

年龄

性别

A	5％	0	44.8	男
B	8％	1	45.7	女
C	14％	1	47.1	男
D	49％	11	71.5	男
E	31％	1	76.7	女

将表4中的数据代入实施例1中得到的逻辑回归模型，经计算得到表4中五位患者的肺结节风险性评估结果，根据实施例1得到的结果确定阈值为0.6时，本实施例设定评估结果中大于阈值的，对应患者确认为恶性，输出恶性标识1，小于阈值的确认为良性，输出良性标识0，其检测结果如表11所示。

实施例9

本实施例采用实施例2提供的决策树模型对表4中五位患者进行肺结节风险性评估，将表4中的数据代入实施例2中得到的决策树模型，如图7所示，经过评估得到表4中5位患者的肺结节风险性，其评估结果如表11所示。

实施例10～14

本组实施例分别采用实施例3～7提供的随机森林模型对表4中5位患者进行肺结节风险性评估，将表4中的数据代入实施例3～7中得到的随机森林模型，经过评估得到表4中5位患者的肺结节风险性，对上述待测5位患者进行病理检测后，与本组实施例给出的评估概率进行对比，其结果如表5～9所示。

表5 实施例10中待测患者随机森林的决策结果

表6 实施例11中待测患者随机森林的决策结果

表7 实施例12中待测患者随机森林的决策结果

表8 实施例13中待测患者随机森林的决策结果

表9 实施例14中待测患者随机森林的决策结果

可见，本公开提供的5个随机森林模型用于对上述待测患者的肺结节恶性进行评估时，均能够达到100％的准确率。

进一步的，对上述采用5个具有不同决策树数目的随机森林模型对待测患者进行风险评估的实施例10～14得到的评估结果进行交叉验证，得到的准确率结果如表10所示。

表10 实施例10～14得到的评估结果的交叉验证准确率

实施例	决策树数目(棵)	交叉验证准确率
实施例10	100	0.8095238095238095
实施例11	300	0.8261904761904763
实施例12	500	0.8261904761904763
实施例13	700	0.8261904761904763
实施例14	1000	0.8261904761904763

由表10可以看出，对于5位待测患者的随机森林评估的交叉准确率来讲，当决策树数目达到300时，其交叉验证准确率已经能够满足要求，并且再进一步增加决策树数量并不能提高交叉验证的准确率，如图8所示。

对比例1

本对比例采用表1中患者数据，采用与实施例1相同的构建方法，构建逻辑回归模型。输入CAC检测数据(x ₁)作为自变量，病理结果作为因变量，构建回归方程logit(π)＝θ ₀+θ ₁x ₁，中的系数θ ₀和θ ₁，分别为0.98和0.14，即为构建的逻辑回归。而后采用得到的逻辑回归模型对表4中的5位患者进行肺结节风险性评估，采用与实施例3相同的阈值。

对比例2

本对比例采用表2中患者数据，采用与实施例1相同的构建方法，构建逻辑回归模型。输入CT影像AI分析数据(x ₁)作为自变量，病理结果作为因变量，构建回归方程logit(π)＝θ ₀+θ ₁x ₁，中的系数θ ₀和θ ₁，分别为-0.95和4.11,即为构建的逻辑回归。而后采用得到的逻辑回归模型对表4中的5位患者进行肺结节风险性评估，采用与实施例3相同的阈值。

最后，对五位患者进行病理分析，将分析结果与实施例8、实施例9和实施例10以及对比例1和对比例2得到的评估结果进行对比，其对比结果如下。

表11 不同模型对五位患者评估结果

由上可见，实施例8、9和10中的预测结果均与病理分析完全吻合。相比而言，对比例1和2中的预测结果与病例分析结果存在不同程度的偏差。对比例1中的仅用CAC检测结果建立的模型倾向于给出保守的预测结果，即所有患者均有大概率的恶性肿瘤概率。相比而言，对比例2中的仅用CT检测结果建立的模型倾向于给出相对自由的预测结果。然而在运用相同阈值的情况下，五名案例中的两名会出现错误的预测结果。联系到在医疗过程，错误的预测结果可能引起不同但是严重的后果。所以，本公开实施例8、9和10中的模型为更为先进的模型，并给出合理性的诊断建议。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换和改进等，均应包含在本公开的保护范围之内。

Claims

一种用于肺结节风险性评估的***，其特征在于，包括：

数据采集模块，配置成获取患者的病灶影像结果、患者的CAC检测数据和患者的风险因素；

数据处理模块，配置成对数据采集模块获取的数据进行预处理，所述预处理的输出结果与肺结节风险性评估模块相匹配；

肺结节风险性评估模块，配置成应用机器学习构建的肺结节风险性评估模型对数据处理模块预处理输出结果进行计算，得到肺结节风险性结果。
根据权利要求1所述的***，其特征在于，所述患者的风险因素包括患者的性别、年龄、家族肿瘤病史或吸烟史中的一种或两种及以上组合。
根据权利要求2所述的***，其特征在于，所述数据处理模块配置成：将所述患者的病灶影像结果经人工智能计算转换为病灶影像分析数据，输出患者肺结节恶性概率；将所述患者的性别转换为相应的性别标识；将所述家族肿瘤病史转换为相应的家族肿瘤病史标识；将所述吸烟史转换为相应的吸烟史标识。
根据权利要求3所述的***，其特征在于，所述患者的病灶影像结果包括低剂量螺旋CT扫描图、薄层螺旋CT扫描图、X光射线胸片或正电子发射计算机断层显像中的一种或两种及以上组合。
根据权利要求1所述的***，其特征在于，所述患者的CAC检测数据包括患者的CAC检测得到的每万个单个核细胞中循环异常细胞数量。
根据权利要求1～5任一项所述的***，特征在于，所述肺结节风险性评估模块采用逻辑回归模型，根据预处理结果计算得到患者的肺结节风险性；

所述预处理结果包括患者的病灶影像分析数据、患者的CAC检测数据、患者的年龄和患者的性别标识；

所述逻辑回归模型的计算公式为：

logit(π)＝θ ^TX+θ ₀，式中X为自变量矩阵，包括患者的病灶影像分析数据x ₁、患者的CAC检测数据x ₂、患者的年龄标识x ₃和患者的性别标识x ₄，式中θ ^T为与自变量矩阵X对应的系数矩阵，
θ ₀为常系数，π为患者肺结节恶性概率；

将计算得到的π与预设的分类阈值比较，得到比较结果；基于比较结果输出患者肺结节的良性标识或恶性标识；

优选地，所述分类阈值为0.5～0.8；

优选地，所述分类阈值为0.6。
根据权利要求6所述的***，其特征在于，所述θ ₁为3.08～15.05任意值，优选为7.92；

所述θ ₂为-0.12～0.40任意值，优选为0.10；

所述θ ₃为-0.03～0.16任意值，优选为0.06；

所述θ ₄为-7.72～-1.43任意值，优选为-3.9；

所述θ ₀为-12.60～1.18任意值，优选为-4.94。
根据权利要求1～5任一项所述的***，其特征在于，所述肺结节风险性评估模块采用决策树模型，将患者的病灶影像分析数据、患者的CAC检测数据、患者的年龄和患者的性别标识作为划分特征，根据预处理结果对患者的肺结节风险性进行分类；

优选地，所述决策树的决策深度为2～7；

优选地，所述决策树的决策深度为4；

优选地，所述决策树的决策深度为7。
根据权利要求1～5任一项所述的***，其特征在于，所述肺结节风险性评估模块采用随机森林模型，同时构建100～1000棵决策树对患者的肺结节风险性进行分类，并根据100～1000棵决策树的分类结果计算患者的肺结节恶性的概率；所述100～1000棵决策树随机从患者的病灶影像分析数据、患者的CAC 检测数据、患者的年龄和患者的性别标识中选取2～4种预处理结果作为划分特征；

优选地，选取3种预处理结果作为划分特征；

优选地，所述决策树的数量为300。
权利要求1～9任一项所述***中肺结节风险性评估模块采用的肺结节风险性评估模型的训练方法，其特征在于，所述训练方法包括将获取的已知病理结果的患者的病灶影像分析数据、患者的CAC检测数据、患者的风险因素转换后的对应标识和患者的病理检测数据，作为自学习样本，输入预设模型，经自学习得到特征参数，确定肺结节风险性评估模型；

优选地，所述肺结节风险性评估模型为逻辑回归模型，所述自学习得到的特征参数包括系数矩阵、常系数和分类阈值；

优选地，所述肺结节风险性评估模型为决策树模型，所述自学习得到的特征参数包括根节点划分特征值和各级父节点划分特征值；

优选地，所述肺结节风险性评估模型为随机森林模型，所述自学习得到的特征参数包括决策树数量、每棵决策树的根节点划分特征值和各级父节点划分特征值。