CN113469954A

CN113469954A - 一种肺结节良恶性评价方法及装置

Info

Publication number: CN113469954A
Application number: CN202110660081.8A
Authority: CN
Inventors: 周振; 李一鸣; 俞益洲; 乔昕
Original assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Current assignee: Beijing Shenrui Bolian Technology Co Ltd; Shenzhen Deepwise Bolian Technology Co Ltd
Priority date: 2021-06-15
Filing date: 2021-06-15
Publication date: 2021-10-01
Anticipated expiration: 2041-06-15
Also published as: CN113469954B

Abstract

本发明提供一种肺结节良恶性评价方法及装置。所述方法包括：构建包括特征提取模块、估算模块和数据融合模块的评价模型；利用由肺结节对及不同医生标注的关于两个肺结节良恶性程度相对高低的标签组成的训练数据集，采用基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练；将待评价肺结节CT图像输入到训练好的评价模型，得到肺结节的良恶性打分。由于本发明用于训练评价模型的数据集采用的是两个肺结节良恶性程度相对高低的标签，而不同医生标注的所述标签的一致性很好，因此提高了肺结节良恶性评价的准确度；本发明的训练方法还降低了时间复杂程度，提高了模型训练的速度。

Description

一种肺结节良恶性评价方法及装置

技术领域

本发明涉及利用神经网络的图像处理技术领域，具体涉及一种肺结节良恶性评价方法及装置。

背景技术

现有技术中，肺结节的良恶性识别是指通过深度神经网络自动识别给定肺部CT影像中肺结节的良恶性。神经网络识别肺结节良恶性的准确率非常依赖于训练数据中肺部CT影像的良恶性标签的准确率。肺结节CT影像的标签有两种来源：第一种是由影像学医生对肺结节的良恶性进行判断；第二种是由微观的病理分析来判断肺结节的良恶性。影像学医生的标记费用较低，标记正确率一般为75％左右。病理分析的标记费用较高，正确率接近100％，一般将病理分析标记视为肺结节真实的良恶性标记。一种影像学医生标记的具体方法利用若干个影像学医生会对肺部CT影像进行从1至5的打分，1代表恶性程度最低，5代表恶性程度最高。若肺部CT影像的平均分高于3.5分，则该影像的标签为恶性，若平均分低于2.5分，则该影像的标签为良性，平均分在2.5至3.5之前的影像则被舍弃。现在所用的大部分基础肺结节CT影像数据集采用的都是影像学医生的标记方法。但是，影像学医生标记准确率受人为因素影响较大，不同影像学医生的对肺结节的良恶性打分的标准不一致，有的诊断更为保守，有的诊断更为激进。不同的影像学医生给相同的肺结节CT影像的打分存在很大差异。由此导致神经网络数据集质量较低影响神经网络训练。

发明内容

为了解决现有技术中存在的上述问题，本发明提供一种肺结节良恶性评价方法及装置。

为了实现上述目的，本发明采用以下技术方案。

第一方面，本发明提供一种肺结节良恶性评价方法，包括以下步骤：

构建包括特征提取模块、估算模块和数据融合模块的评价模型，估算模块的每个估算器用于根据特征提取模块输出的肺结节特征进行打分，数据融合模块用于计算所述打分的加权均值；

利用由肺结节对及不同医生标注的关于两个肺结节良恶性程度相对高低的标签组成的训练数据集，采用基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练；

将待评价肺结节的CT图像输入到训练好的评价模型，得到肺结节的良恶性打分。

进一步地，确定每个估算器输出打分权重的方法包括针对每个估算器进行的以下步骤：

选取N个肺结节CT图像作为评价模型的输入，其中恶性肺结节的数量为A，良性肺结节的数量为B，N＝A+B；

分别统计阈值T从打分的最小值按步长变化到最大值时，估算器输出的打分值超过T的恶性肺结节的数量TP和未超过T的良性肺结节的数量FP，计算Y＝TP/A，X＝FP/B；

以X为横坐标、以Y为纵坐标绘制曲线，计算曲线下的面积得到估算器输出打分的权重。

更进一步地，估算器输出打分的最小值为1、最大值为5。

进一步地，所述标签为：若第一个肺结节的恶性程度更严重，则标签为1；若第二个肺结节的恶性程度更严重，则标签为-1；若两个肺结节的恶性程度相当，则标签为0。

更进一步地，损失函数为：

式中，为L_r第r个估算器的损失函数；

为第r个医生标注的第i个肺结节对的关于两个肺结节良恶性程度相对高低的标签，C＝{-1,0,1}，i＝1,2,…,n，n为肺结节对的数量，r＝1,2,…,R，R为医生或估算器的数量；ε为一个服从sigmoid分布的随机误差；

为根据肺结节对中第一个肺结节打分

和第二个肺结节打分

得到的良恶性程度相对高低的量化值；λ为设定的边界阈值；

为指示函数，当

时其值为1，当

时其值为0；

为

时的概率值，分别为：

其中，

第二方面，本发明提供一种肺结节良恶性评价装置，包括：

建模模块，用于构建包括特征提取模块、估算模块和数据融合模块的评价模型，估算模块的每个估算器用于根据特征提取模块输出的肺结节特征进行打分，数据融合模块用于计算所述打分的加权均值；

训练模块，用于利用由肺结节对及不同医生标注的关于两个肺结节良恶性程度相对高低的标签组成的训练数据集，采用基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练；

评价模块，用于将待评价肺结节CT图像输入到训练好的评价模型，得到肺结节的良恶性打分。

选取N个肺结节的CT图像作为评价模型的输入，其中恶性肺结节的数量为A，良性肺结节的数量为B，N＝A+B；

更进一步地，估算器输出打分的最小值为1、最大值为5。

更进一步地，损失函数为：

式中，为L_r第r个估算器的损失函数；

为根据肺结节对中第一个肺结节打分

和第二个肺结节打分

为指示函数，当

时其值为1，当

时其值为0；

为

时的概率值，分别为：

其中，

与现有技术相比，本发明具有以下有益效果。

本发明通过构建包括特征提取模块、估算模块和数据融合模块的评价模型，利用由肺结节对及不同医生标注的关于肺结节对中两个肺结节良恶性程度相对高低的标签组成的训练数据集对评价模型进行训练，基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练，将待评价肺结节输入到训练好的评价模型，得到肺结节的良恶性打分，实现了对肺结节良恶性的定量评价。由于本发明用于训练评价模型的数据集采用的是两个肺结节良恶性程度相对高低的标签，而不同医生标注的所述标签的一致性很好，即标签精度高，因此提高了肺结节良恶性评价的准确度；同时以基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练，降低了时间复杂程度，提高了模型训练的速度。

附图说明

图1为本发明实施例一种肺结节良恶性评价方法的流程图。

图2为评价模型的结构示意图。

图3为本发明实施例一种肺结节良恶性评价装置的方框图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明白，以下结合附图及具体实施方式对本发明作进一步说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例一种肺结节良恶性评价方法的流程图，包括以下步骤：

步骤101，构建包括特征提取模块、估算模块和数据融合模块的评价模型，估算模块的每个估算器用于根据特征提取模块输出的肺结节特征进行打分，数据融合模块用于计算所述打分的加权均值；

步骤102，利用由肺结节对及不同医生标注的关于两个肺结节良恶性程度相对高低的标签组成的训练数据集，采用基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练；

步骤103，将待评价肺结节的CT图像输入到训练好的评价模型，得到肺结节的良恶性打分。

本实施例是利用人工神经网络(如卷积神经网络CNN)构建一个肺结节良恶性的评价模型。评价模型的输入是肺结节CT图像，输出是对输入肺结节的良恶性的定量评价，也就是一个综合打分。只要将待评价肺结节的CT图像输入到训练好的评价模型，就能自动输出其良恶性打分。

本实施例中，步骤101主要用于构建肺结节良恶性评价模型。所述评价模型主要由特征提取模块、估算模块和数据融合模块组成，如图2所示。特征提取模块用于对输入的肺结节CT图像进行特征提取。估算模块由多个估算器组成，所有估算器共享特征提取模块的输出，根据特征提取模块输出的肺结节特征进行打分，比如，肺结节越大，分支越多，恶性的可能性越大，打分值越高。数据融合模块用于对所有估算器输出的打分进行融合得到一个综合打分。本实施例采取的融合方法是对各个估算器的打分加权求均值，计算公式如下：

式中，S为最终的综合打分，s_r为第r个估算器的打分，k_r为第r个估算器打分的权重，R为估算器的数量。权重最简单的取值策略是均取1，数据融合相当于求平均值。但为了提高数据融合的效果，一般根据估算器可靠性的不同设置不同的权重，可靠性越好的估算器权重越大。后面将给出一个确定估算器权重的具体实施例。

本实施例中，步骤102主要用于对评价模型进行训练。本实施例的模型训练主要是对每个估算器的参数和特征提取模块的参数进行优化。现有技术的训练数据集一般是由单个肺结节CT图像样本和医生标注的良恶性标签组成，由于不同医生打分标准不一致导致标签正确率不高，从而使训练后模型的预测精度不高。但是不同医生对两个不同肺结节良恶性程度相对高低(即哪个更严重)做出的评价的一致性却很好，就好比很难准确说出一个人的具体身高，但对两个人比较谁更高却很受容易做出准确判断。为此，本实施例将肺结节CT图像样本“两两配对”，即每两个组成一对，然后由不同的医生对同一个肺结节对良恶性程度的相对高低进行评价，并以此作为该肺结节对的标签，从而得到由肺结节对及其标签组成的训练数据集。本实施例在训练时采用的损失函数与现有技术也不同，现有技术一般是以一个总的损失函数对模型进行训练，而本实施例是针对每个估算器分别给出一个由其输出和标签差异决定的损失函数，分别对每个估算器和特征提取模块的参数进行优化训练。本实施例的处理方法，不仅可以提高模型的预测精度，还可以明显降低训练的时间复杂度，减小训练时间、提高训练速度。

本实施例中，步骤103主要用于得到待评价肺结节的良恶性打分。将将待评价肺结节的CT图像输入到训练好的评价模型，就可以方便地得到肺结节的良恶性打分。

作为一可选实施例，确定每个估算器输出打分权重的方法包括针对每个估算器进行的以下步骤：

本实施例给出了确定估算器输出打分权重的一种技术方案。本实施例是利用ROC(Receiver Operating Characteristic，接受者操作特征曲线)曲线确定估算器输出打分权重的。ROC曲线最早应用于雷达信号检测领域，用于区分信号与噪声。后来人们将其用于评价模型的预测能力，ROC曲线是基于混淆矩阵得出的。一个二分类模型的阈值可能设定为高或低，每种阈值的设定会得出不同的假正率FPR和真正率TPR，将同一模型每个阈值的(FPR，TPR)坐标都画在ROC空间里，就成为特定模型的ROC曲线。ROC曲线横坐标为FPR，纵坐标为TPR。AUC(Area under the Curve)就是ROC曲线下的面积，在比较不同的分类模型时，可以将每个模型的ROC曲线都画出来，将曲线下面积作为模型优劣的指标。AUC具有以下特点：值域为[0,1]；假设阈值以上是阳性，阈值以下是阴性，AUC等于分类器正确判断阳性样本的值高于阴性样本的概率。因此，AUC值越大的分类器，正确率越高。应用到本实施例就是AUC值越大的估算器可行性越高，打分权重越大。因此，只须针对每个估算器画出其对应的ROC曲线，计算曲线下面积即可得到其打分权重。

作为一可选实施例，估算器输出打分的最小值为1、最大值为5。

本实施例给出了估算器输出打分的一种取值范围，最小值为1，最大值为5。打分分值越大，表示肺结节的恶性程度越严重。值得说明的是，本实施例只是给出了一种较佳的实施方式，并不否定和排斥其它可行的实施方式，比如，也可以采用十分制或百分制。

作为一可选实施例，所述标签为：若第一个肺结节的恶性程度更严重，则标签为1；若第二个肺结节的恶性程度更严重，则标签为-1；若两个肺结节的恶性程度相当，则标签为0。

本实施例给出了表示肺结节对中两个肺结节良恶性程度相对高低的标签的具体取值，分别为1，0，-1。标签1和-1分别表示其中一个肺结节比另一个肺结节更严重，0表示两个肺结节的良恶性程度相同或相近。同样，本实施例只是给出了一种较佳的实施方式，并不否定和排斥其它可行的实施方式，其实任意三个不同的整数都可以作为标签，只是本实施例的方案更直观、简洁。

作为一可选实施例，损失函数为：

式中，为L_r第r个估算器的损失函数；

为根据肺结节对中第一个肺结节打分

和第二个肺结节打分

为指示函数，当

时其值为1，当

时其值为0；

为

时的概率值，分别为：

其中，

本实施例给出了损失函数的一种技术方案。如前述，本实施例为每个估算器分别设置一个损失函数用于对应估算器参数的训练优化，因此用估算器的序号r作为损失函数的下标。由于标签有三个取值1，0，-1，因此与标签相等的概率等于标签分别为1、0、-1时的概率的和，所以损失函数中包含对标签变量

求和的运算。另外，还要对训练数据集中的所有肺结节对对应的损失值进行求均值运算，所以损失函数中还包含对肺结节对变量i求和(均值)的运算。根据估算器实际输出的打分估算的两个肺结节良恶性程度相对高低的量化分值

是一个分段函数，根据两个肺结节打分的差值所属的三个区间取三个不同的值1、0、-1，-λ、λ是三个区间的分界点，也称为边界阈值，具体见

的表达式。上面还给出了标签

分别为1、0、-1时，

与标签相等的概率

的计算公式，所述概率服从sigmoid分布。

图3为本发明实施例一种肺结节良恶性评价装置的组成示意图，所述装置包括：

建模模块11，用于构建包括特征提取模块、估算模块和数据融合模块的评价模型，估算模块的每个估算器用于根据特征提取模块输出的肺结节特征进行打分，数据融合模块用于计算所述打分的加权均值；

训练模块12，用于利用由肺结节对及不同医生标注的关于两个肺结节良恶性程度相对高低的标签组成的训练数据集，采用基于每个估算器输出及其标签得到的损失函数对特征提取模块和每个估算器的参数进行训练；

评价模块13，用于将待评价肺结节的CT图像输入到训练好的评价模型，得到肺结节的良恶性打分。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。后面的实施例也是如此，均不再展开说明。

作为一可选实施例，损失函数为：

式中，为L_r第r个估算器的损失函数；

为根据肺结节对中第一个肺结节打分

和第二个肺结节打分

为指示函数，当

时其值为1，当

时其值为0；

为

时的概率值，分别为：

其中，

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。