CN110298345A

CN110298345A - 一种医学图像数据集的感兴趣区域自动标注方法

Info

Publication number: CN110298345A
Application number: CN201910606180.0A
Authority: CN
Inventors: 余春艳; 杨素琼
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2019-10-01

Abstract

本发明涉及一种医学图像数据集的感兴趣区域自动标注方法，首先构建感兴趣区域检测网络，获取医学图像数据集中每张医学图像中的感兴趣区域；然后从所述感兴趣区域中选取置信度最高的N个感兴趣区域；接着利用深度网络学习并分别提取所述N个感兴趣区域的特征；然后将提取得到的N个特征分别输入到感知机中，经过sotfmax函数计算N个感兴趣区域为目标类的概率；最后将上一步得到的概率与一个Leakey noisy‑or gate结合，获得最终为目标类的可能性以完成感兴趣区域的自动标注任务。本发明同时能够解决检测步骤中的感兴趣区域漏检问题，从而提供更具意义的参考意见。

Description

一种医学图像数据集的感兴趣区域自动标注方法

技术领域

本发明涉及图像处理技术领域，特别是一种医学图像数据集的感兴趣区域自动标注方法。

背景技术

医学图像数据集和普通图像数据集标注不同，医学图像数据集的标注需要有专业知识和技能。并且，标注质量受限于医学与计算机专业的鸿沟，标注质量差。因此，难以获取大型的高质量标注数据集。

发明内容

有鉴于此，本发明的目的是提出一种医学图像数据集的感兴趣区域自动标注方法，同时能够解决检测步骤中的感兴趣区域漏检问题，从而提供更具意义的参考意见。

本发明采用以下方案实现：一种医学图像数据集的感兴趣区域自动标注方法，具体包括以下步骤：

步骤S1：构建感兴趣区域检测网络，获取医学图像数据集中每张医学图像中的感兴趣区域；

步骤S2：从所述感兴趣区域中选取置信度最高的N个感兴趣区域；

步骤S3：利用深度网络学习并分别提取所述N个感兴趣区域的特征；

步骤S4：将提取得到的N个特征分别输入到感知机中，经过sotfmax函数计算N个感兴趣区域为目标类的概率；

步骤S5：将步骤S4得到的概率与一个Leakey noisy-or gate结合，获得最终为目标类的可能性以完成感兴趣区域的自动标注任务。

进一步地，所述S1中，所述感兴趣区域检测网络由一个UNet网络作为主干网络和一个RPN网络作为输出层组成。

进一步地，步骤S2中，所述N为5，当感兴趣区域不足5个时，利用相同大小的非感兴趣区域图像补齐。

进一步地，步骤S3中，所述深度网络为复用感兴趣检测网络的主干网络UNet。

进一步地，步骤S4中，所述感知机为两层，分别为隐藏单元和输出单元，其中隐藏单元为64个，输出单元为1个，采用的激活函数为Sigmoid函数，获得感兴趣区域为目标类的概率。

进一步地，步骤S5具体为：引入一个假想的感兴趣区域为目标类的概率为P_d，并利用以下公式，获得最后的目标类概率，以完成标注任务：

式中，P_i表示第i个感兴趣区域为目标类的概率。

与现有技术相比，本发明有以下有益效果：本发明利用扰动因子以实现医学图像数据集的自动标注，能够为AI医学影像提供大量的高质量标注数据，同时，能够减少对人工标注的依赖性。本发明同时能够解决检测步骤中的感兴趣区域漏检问题，从而提供更具意义的参考意见。

附图说明

图1为本发明实施例的方法原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1所示，本实施例提供了一种医学图像数据集的感兴趣区域自动标注方法，具体包括以下步骤：

在本实施例中，所述S1中，所述感兴趣区域检测网络由一个UNet网络作为主干网络和一个RPN网络作为输出层组成。

在本实施例中，步骤S2中，所述N为5，当感兴趣区域不足5个时，利用相同大小的非感兴趣区域图像补齐。

在本实施例中，步骤S3中，所述深度网络为复用感兴趣检测网络的主干网络UNet。

在本实施例中，步骤S4中，所述感知机为两层，分别为隐藏单元和输出单元，其中隐藏单元为64个，输出单元为1个，采用的激活函数为Sigmoid函数，获得感兴趣区域为目标类的概率。

在本实施例中，步骤S5具体为：引入一个假想的感兴趣区域为目标类的概率为P_d，并利用以下公式，获得最后的目标类概率，以完成标注任务：

式中，P_i表示第i个感兴趣区域为目标类的概率。

具体的，本实施例通过肺部CT图像进行举例说明，所述图像为3D图像，具体包括以下实施步骤：

步骤一：收集数据，所用数据集为LUNA16数据集，所述数据集中包括1186个肺结节标注，患者数量为888个。

步骤二：预处理，以提取肺实质图像，所诉预处理步骤，具体如下：

1、对原图像进行HU值处理；

2、通过阈值做二值化处理，获得灰度图像；

3、对所获得的灰度图像，进行形态学腐蚀与膨胀处理，获得肺实质图像；

步骤三：将所述肺实质图像，利用大小为128x128x128x1的滑动窗口，将图像以块为基础进行输入；

步骤四：利用UNet网络和一个RPN网络作为感兴趣区域检测网络模型，提取每个CT图像的感兴趣区域，具体如下：

UNet网络分为下采样部分和上采样部分：

下采样部分具体为：

第一个块由两层3D卷积层组成，核大小为(3，3，3)，输出通道为24，BN正则化，激活函数为ReLU函数；

第二个块为残差块，由2个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为32，BN正则化，激活函数为ReLU函数；

中间层，最大池化层，核大小为(2，2，2)，步长为2；

第三个块为残差块，由2个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为64，BN正则化，激活函数为ReLU函数；

中间层，最大池化层，核大小为(2，2，2)，步长为2；

第四个块为残差块，由3个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为64，BN正则化，激活函数为ReLU函数；

中间层，最大池化层，核大小为(2，2，2)，步长为2；

第五个块为残差块，由3个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为64，BN正则化，激活函数为ReLU函数；

中间层，最大池化层，核大小为(2，2，2)，步长为2；

上采样部分，具体为：

第一个块中第一层为3D反卷积层，输入、输出通道为64，核大小为(2，2，2)，步长为2，BN正则化，激活函数为ReLU函数，和一个串联层，串联所述的上采样中第四块的输出与所述第一层的输出；

第二个块为残差块，由3个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为64，BN正则化，激活函数为ReLU函数；

第三个块中第一层为3D反卷积层，输入、输出通道为64，核大小为(2，2，2)，步长为2，BN正则化，激活函数为ReLU函数，和一个串联层，串联所述的上采样中第三块的输出与所述第一层的输出；

第四个块为残差块由3个残差单元组成，每个残差单元由两层3D卷积层，核大小为(3，3，3)，输出通道为64，BN正则化，激活函数为ReLU函数；

第五个块由两层3D卷积层组成，核大小为(1，1，1)，输出通道分别为64和15，BN正则化，激活函数为ReLU函数，输出的特征大小为32x32x32x15；

将UNet网络的输出特征大小重置为32x32x32x3x5，3为锚的个数尺度分别为10，30，60，5为回归值个数，接着利用真值计算损失，以完成模型训练，具体使用的损失函数如下：

L＝L_cls+pL_reg

式中，L_cls为分类损失使用交叉熵函数，L_reg为回归损失使用L1函数；

步骤五：利用训练完成的所述感兴趣区域检测模型，对图像进行测试，以获得置信度最高的5个感兴趣区域，当感兴趣不足5个，则使用该图像中的非感兴趣区域补足，使得感兴趣区域保持5个；

步骤六：特征提取并获得CT图像的置信度最高的5个概率，具体为：

1、训练特征提取网络，复用所述UNet网络；

2、将5个感兴趣区域，大小为24x24x24x128，分别输入到所述已训练完成的特征提取模型，获得128-D的特征；

3、所获得的128-D特征输入到两层感知机，隐藏单元为64，和一个输出单元，激活函数为Sigmoid函数分别获得所述患者的5个感兴趣区域。

步骤七：利用Leakey noisy-or gate计算出最后为目标类的概率，获得为目标类可能性以完成标注任务，具体为：引入一个假想的感兴趣区域为目标类的概率P_d，并利用以下公式，获得最后的目标类概率后完成自动标注：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，所述S1中，所述感兴趣区域检测网络由一个UNet网络作为主干网络和一个RPN网络作为输出层组成。

3.根据权利要求1所述的一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，步骤S2中，所述N为5，当感兴趣区域不足5个时，利用相同大小的非感兴趣区域图像补齐。

4.根据权利要求1所述的一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，步骤S3中，所述深度网络为复用感兴趣检测网络的主干网络UNet。

5.根据权利要求1所述的一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，步骤S4中，所述感知机为两层，分别为隐藏单元和输出单元，其中隐藏单元为64个，输出单元为1个，采用的激活函数为Sigmoid函数，获得感兴趣区域为目标类的概率。

6.根据权利要求1所述的一种医学图像数据集的感兴趣区域自动标注方法，其特征在于，步骤S5具体为：引入一个假想的感兴趣区域为目标类的概率为P_d，并利用以下公式，获得最后的目标类概率，以完成标注任务：

式中，P_i表示第i个感兴趣区域为目标类的概率。