CN115587967B

CN115587967B - 一种基于HA-UNet网络的眼底图像视盘检测方法

Info

Publication number: CN115587967B
Application number: CN202211093428.6A
Authority: CN
Inventors: 胡文丽; 周晓飞; 张继勇; 李世锋; 周振; 何帆
Original assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Current assignee: China Power Data Service Co ltd; Hangzhou Dianzi University
Priority date: 2022-09-06
Filing date: 2022-09-06
Publication date: 2023-10-10
Anticipated expiration: 2042-09-06
Also published as: CN115587967A

Abstract

本发明涉及一种基于HA‑UNet网络的眼底图像视盘检测方法，包括如下步骤：数据预处理、模型构建、模型训练和模型评估。所述数据预处理包括对图像的缩放与剪切；所述构建的HA‑UNet网络在原始UNet网络的基础上，采用残差模块替代原UNet中的卷积层，并提出混合注意力模块，即HA模块，建立多注意力机制与特征之间的关系，对前景信息与背景信息进行挖掘与融合，同时，该网络采用混合损失函数，即BCE损失函数、SSIM损失函数和IoU损失函数的结合作为模型最终的损失函数；所述模型训练即当模型的损失函数不再降低之后，保存模型；所述模型评估即将训练好的模型放到测试集上进行评估。

Description

一种基于HA-UNet网络的眼底图像视盘检测方法

技术领域

本发明涉及一种基于HA-UNet网络的眼底图像视盘检测方法，属于医学图像分析技术领域。

背景技术

青光眼是一种导致视力下降、致盲的眼部疾病，而青光眼引起的视觉功能的损伤是不可逆的，且几乎不能预防，所以做到早发现、早治疗对青光眼的治疗极其重要。在对青光眼的诊断中，眼底图像中视盘区域的检测发挥着十分重要的作用。而人工对于视盘区域的检测，往往受到主观经验、外在环境等因素的影响，在此背景下，通过人工智能的辅助实现对视盘区域高准确率检测就显得尤为重要。

随着机器学习和深度学习的发展，现有的视盘智能检测方法也利用了机器学习和深度学习。机器学习方法主要通过提取眼底图像的特征和训练好的分类器进行图像分割；而深度学习近年在医疗影像的处理中取得了很好的效果，先后提出了利用FCN、CNN、U-Net等神经网络对视盘区域进行分割。

现有视盘检测技术虽然能实现了视盘区域的分割，但仍存在耗时长、易受眼底图像中对比度和血管等因素的干扰、忽略全局上下文信息或局部信息等缺点，从而导致检测准确度低、效率低等问题。

发明内容

本发明的目的是针对现有方法存在的不足，提供一种基于HA-UNet网络的眼底图像视盘检测方法。

为实现上述目的，本发明的技术方案是：

一种基于HA-UNet网络的眼底图像视盘检测方法，包括以下步骤：

步骤一、数据预处理：获取待分割的原始医学图像，对其进行预处理，将原始图像缩放为256*256大小的固定尺寸，再随机切割为224*224大小的固定尺寸，并以分割后的医学图像作为标签，构建训练数据集；

步骤二、构建HA-UNet网络：

HA-UNet网络由编码模块、解码模块和混合注意力模块(即Hybrid AttentionModule，以下简称HA模块)三部分组成。

编码模块包括六个依序级联的编码层，相邻编码层间通过下采样层连接。同时，每个编码层的输出会通过一个HA模块与相应的解码层相连。

解码模块包括依序级联的六个解码层，相邻解码层之间通过上采样连接。

HA模块由通道注意力模块CA、空间注意力模块SA、反向注意力模块RA组成。将全局图像级内容集成到HA模块中，前景信息通过SA与CA注意力模块进行探索，背景信息再通过一个RA反向注意力模块进行探索，从而输出前景信息和背景信息互补的内容。

所述训练数据集预处理后的图像输入到编码层，通过编码层对预处理后的图像进行特征编码，编码层的输出通过一个HA作用再连接到相应的解码层。解码模块包括依序级联的六个解码层，相邻解码层之间通过上采样连接。

S21、六个编码层在原始UNet网络的基础上进行改进，将卷积单元用残差模块替换。六个编码层分别由3个、4个、6个、3个、3个、3个残差模块组成，每个残差模块均依次包括：3*3卷积层、归一化层、激活函数层、3*3卷积层、归一化层、加法器(将上一个卷积层的输出与原始输入相加)、激活层；

S22、六个解码层，每个解码层由依次连接的三个卷积层，归一化层和激活层组成。每个阶段的输入是其上一阶段的上采样结果和相应编码器通过HA模块后输出结果的连接特征；

S23、引入HA模块，HA模块由通道注意力模块CA、空间注意力模块SA、反向注意力模块RA组成；

S24、引入通道注意力模块CA：通过全局平均池化来生成各通道的统计量，将全局空间信息压缩到一个通道描述符中，通过两个全连接层建模通道间的相关性，最后再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征；

S25、引入空间注意力模块SA：抑制与分割任务不相关的信息以及噪声的激活响应，同时增强与分割任务相关的目标区域的学习；

S26、引入反向注意力模块RA：由该模块对背景信息进行建模，为模型学习提供重要线索；

HA的输入为相应编码层的输出I，输入首先通过CA模块得到I_ca，I_ca再通过通道乘法器与I进行通道相乘得到I'_ca。为得到背景信息，I'_ca通过SA模块得到I_sa，I_sa再通过RA模块得I_ra，I_ra通过像素乘法器与I'_ca进行像素相乘(element-wise multiple)得到I_b，即背景信息；为得到前景信息，I'_ca直接与I_sa通过像素乘法器进行像素相乘得到I_f，即前景信息。I_f与I_b分别通过3*3的卷积得到I'_f与I'_b，I'_f与I'_b通过拼接器拼接后的结果再通过一个3*3的卷积得到I'_fb，最后，I'_fb与I通过加法器相加得到HA的输出结果O。

S27、引入混合损失函数：将BCE损失函数、SSIM损失函数和IoU损失函数的结合作为模型最终的损失函数，其中：

BCE损失函数的定义为：

L_BCE＝-∑_(r，c)[G(r，c)log(S(r，c))+(1-G(r，c))log(1-S(r，c))]

SSIM损失函数的定义为：

IoU损失函数的定义为：

G(r，c)是真实掩膜图中像素点(r，c)的值，取值0或1；S(r，c)是算法得到的分割图中像素点(r，c)的预测值，取值范围为0～1。x、y分别是真实掩膜图和预测图中大小为N*N的像素块，u_x、u_y和σ_x、σ_y分别为x和y的均值和标准差，σ_xy为它们的协方差，使用C₁＝0.012和C₂＝0.032来避免除以零，则混合损失定义为：

L＝L_BCE+L_SSIM+L_IoU

步骤三、模型训练，将训练集输入搭建的HA-UNet网络中进行训练，当模型的损失函数不再降低之后，保存模型；

步骤四、建立评价模型，评价指标的选用：采用平均相似度(Dice)系数、杰卡德(Jaccard)系数、召回率(recall)系数和准确度(accuracy)系数作为评价指标；

其中，Dice系数即为相似度度量函数，用于计算两个样本的相似度。Jaccard系数表示分割结果与标定真值数据之间的相似度。recall系数用来衡量算法分割目标区域的能力；accuracy系数表示正确分割的部分占总体的比值。

以上各评价指标的值域均为[0，1]，越接近1，表示性能越好。Dice系数(Di)、Jaccard系数(J)、recall系数(R)和accuracy系数(A)分别定义为：

式中：TP表示被正确分割成视盘区域的像素数量；TN表示被正确分割成背景区域的像素数量；FP表示将背景区域预测成视盘区域的像素数量；FN表示将视盘区域预测成背景区域的像素数量。

与现有技术相比，本发明的有益效果在于：

本发明提出一种训练简单的HA-UNet网络，利用残差模块形成深度堆叠的编码器，并添加了HA模块，集成了图像的前景信息和背景信息，能够提高分割准确性。同时，将本发明训练好的HA-UNet网络放到测试集上测试，模型性能良好，能够适应不同的图像且准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于HA-UNet网络的眼底图像视盘检测方法的HA-UNet网络的整体结构图；

图2为本发明基于HA-UNet网络的眼底图像视盘检测方法的残差模块的结构图；

图3为本发明基于HA-UNet网络的眼底图像视盘检测方法的混合注意力模块的结构图；

图4为本发明基于HA-UNet网络的眼底图像视盘检测方法的通道注意力模块的结构图；

图5为本发明基于HA-UNet网络的眼底图像视盘检测方法的空间注意力模块的结构图；

图6为本发明基于HA-UNet网络的眼底图像视盘检测方法的反向注意力模块的结构图；

图7为本发明基于HA-UNet网络的眼底图像视盘检测方法的对视盘区域进行识别分割后的效果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤二、模型构建：

所述发明，是对原始Unet网络进行了改进，假设原始Unet网络主要包括编码器和解码器；HA-UNet网络对编码器的卷积模块采用残差模块替换，编码器的输出通过HA模块之后传输到解码层的相应模块。所述HA-UNet网络结构如附图1所示，残差模块如附图2所示。

所述编码器，包括：依次连接的第一编码层e1、第一下采样层s1、第二编码层e2、第二下采样层s2、第三编码层e3、第三下采样层s3、第四编码层e4、第四下采样层s4、第五编码层e5、第五下采样层s5、第六编码层e6；

所述解码器，包括：依次连接的第一解码层d1、第一上采样层u1、第一拼接器c1、第二解码层d2、第二上采样层u2、第二拼接器c2、第三解码层d3、第三上采样层u3、第三拼接器c3、第四解码层d4、第四上采样层u4、第四拼接器c4和第五解码层d5、第五上采样层u5、第六解码层d6。

进一步地，第一编码层e1的输出端通过HE模块后与第五拼接器c5的输入端连接；第二编码层e2的输出端通过HE模块后与第四拼接器c4的输入端连接；第三编码层e3的输出端通过HE模块后与第三拼接器c3的输入端连接；第四编码层e4的输出端通过HE模块后与第二拼接器c2的输入端连接；第五编码层e5的输出端通过HE模块后与第一拼接器c1的输入端连接；第六编码层e6的输出端通过HE模块后直接与第一解码层输入端相连。

S21、前四个编码层的结构与ResNet34相同，e1、e2、e3、e4分别由依次连接的3个、4个、6个、3个残差模块组成，每个残差模块均依次包括：3*3卷积层、归一化层、激活函数层、3*3卷积层、归一化层、加法器(将上一个卷积层的输出与原始输入相加)、激活层；

在前四个编码层后再加上两个编码层，即第五、六个编码层e5、e6，e5、e6都由依次连接的3个残差模块组成，每个残差模块均依次包括：3*3卷积层、归一化层、激活函数层、3*3卷积层、归一化层、加法器(将上一个卷积层的输出与原始输入相加)、激活层；

S22、六个解码层d1、d2、d3、d4、d5、d6，每个解码层由依次连接的三个卷积层，归一化层和激活层组成。每个阶段的输入是其上一阶段的上采样结果和相应编码器通过HE模块后输出结果的连接特征；

S23、HA模块由通道注意力模块CA、空间注意力模块SA、反向注意力模块RA组成。HA的作用主要是提取前景信息与背景信息，再将二者融合。所述HA模块如附图3所示，所述CA、SA、RA模块如附图4、5、6所示；

S24、引入通道注意力模块CA：通过全局平均池化来生成各通道的统计量，将全局空间信息压缩到一个通道描述符中；通过两个全连接层建模通道间的相关性，最后再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征；

BCE损失函数的定义为：

L_BCE＝-∑_(r，c)[G(r，c)log(S(r，c))+(1-G(r，c))log(1-S(r，c))]

SSIM损失函数的定义为：

IoU损失函数的定义为：

G(r，c)是真实掩膜图中像素点(r，c)的值，取值0或1；S(r，c)是算法得到的分割图中像素点(r，c)的预测值，取值范围为0～1。x、y分别是真实掩膜图和预测图中大小为N*N的像素块，u_x、u_y和σ_x、σ_y分别为x和y的均值和标准差，σ_xy为它们的协方差，使用C₁＝0.012和C₂＝0.032来避免除以零。

则混合损失定义为：

L＝L_BCE+L_SSIM+L_IoU

进一步地，所述训练后的HA-UNet网络，训练过程包括：

步骤三、构建训练集；所述训练集为已知眼底视盘图像分割结果；将训练集输入到HA-UNet网络中，对HA-UNet网络进行训练，当损失函数值不再降低时，停止训练；

步骤四、进一步地，建立评价模型，评价指标的选用：采用平均相似度(Dice)系数、杰卡德(Jaccard)系数、召回率(recall)系数和准确度(accuracy)系数作为评价指标；

其中，Dice系数集合相似度度量函数，用于计算两个样本的相似度。Jaccard系数表示分割结果与标定真值数据之间的相似度。recall系数用来衡量算法分割目标区域的能力。accuracy系数表示正确分割的部分占总体的比值。

以上各评价指标的值域均为[0，1]，越接近1，表示性能越好。

Dice系数的定义为：

Jaccard系数的定义为：

recall系数的定义为：

accuracy系数的定义为：

式中：TP表示被正确分割成视盘区域的像素数量；TN表示被正确分割成背景区域的像素数量；FP表示将背景区域预测成视盘区域的像素数量；FN表示将视盘区域预测成背景区域的像素数量；

示例性地，所述训练集，使用的数据集公开的DRISHTI-GS、MESSIDOR和DRIONS-DB眼底图像数据集。DRISHTI-GS数据集共101张彩色眼底图像，其中训练集50张，训练集51张；MESSIDOR数据集共1200张彩色眼底图像，其中训练集1000张，训练集200张；DRIONS-DB数据集共110张，其中训练集60张，测试集50张。

由于三个数据集的训练集数量有限，为了防止过拟合，对训练集进行了数据扩充。对于DRISHTI-GS、DRIONS-DB数据集，扩充步骤主要包括：将图片镜像处理，再分别把原图和镜像图片旋转90°、180°、270°，训练集分别扩充至400张和480张。对于MESSIDOR数据集，扩充步骤主要包括：将图片镜像处理，再把原图旋转90°、180°、270°将训练集图像最终扩充至5000张。

将训练集图像输入到构建好的HA-UNet网络中，当损失函数值不再降低时，停止训练，得到训练后的HA-UNet网络。

将测试集数据输入到训练好的HA-UNet网络中，对训练集的分割结果进行评估，评估结果如表1所示。

表1 DRISHTI-GS、MESSIDOR和DRIONS-DB测试集评估结果

	Dice	Jaccard	recall	accuracy
					DRISHTI-GS	0.9626	0.9283	0.9913	0.9979
MESSIDOR	0.9428	0.8953	0.9776	0.9987
					DRIONS-DB	0.9493	0.9066	0.9907	0.9966

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.一种基于HA-UNet网络的眼底图像视盘检测方法，其特征在于：包括以下步骤：

步骤一、数据预处理：获取待分割的原始医学图像，对其进行预处理，将原始图像缩放，再随机切割，并以分割后的医学图像作为标签，构建训练数据集；

步骤二、构建HA-UNet网络：HA-UNet网络由编码模块、解码模块和混合注意力模块三部分组成；

步骤三、模型训练：将训练集输入搭建的HA-UNet网络中进行训练，当模型的损失函数不再降低之后，保存模型；

步骤四、建立评价模型，评价指标的选用：采用平均相似度系数、杰卡德系数、召回率系数和准确度系数作为评价指标；

所述步骤二中编码模块包括六个依序级联的编码层，相邻编码层间通过下采样层连接，每个编码层的输出会通过一个HA模块与相应的解码层相连，

解码模块包括依序级联的六个解码层，相邻解码层之间通过上采样连接，

HA模块由通道注意力模块CA、空间注意力模块SA、反向注意力模块RA组成，将全局图像级内容集成到HA模块中，前景信息通过SA与CA注意力模块进行探索，背景信息再通过一个RA反向注意力模块进行探索，从而输出前景信息和背景信息互补的内容，

所述训练数据集预处理后的图像输入到编码层，通过编码层对预处理后的图像进行特征编码，编码层的输出通过一个HA作用再连接到相应的解码层，解码模块包括依序级联的六个解码层，相邻解码层之间通过上采样连接。

2.根据权利要求1所述的一种基于HA-UNet网络的眼底图像视盘检测方法，其特征在于：所述步骤二具体包括：

S21、六个编码层在原始UNet网络的基础上进行改进，将卷积单元用残差模块替换，六个编码层分别由3个、4个、6个、3个、3个、3个残差模块组成，每个残差模块均依次包括：3*3卷积层、归一化层、激活函数层、3*3卷积层、归一化层、加法器、激活层；

S22、六个解码层，每个解码层由依次连接的三个卷积层，归一化层和激活层组成，每个阶段的输入是其上一阶段的上采样结果和相应编码器通过HA模块后输出结果的连接特征；

S24、引入通道注意力模块CA：通过全局平均池化来生成各通道的统计量，将全局空间信息压缩到一个通道描述符中，通过两个全连接层建模通道间的相关性，再为每个通道赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征；

HA的输入为相应编码层的输出I，输入首先通过CA模块得到I_ca，I_ca再通过通道乘法器与I进行通道相乘得到I'_ca，为得到背景信息，I'_ca通过SA模块得到I_sa，I_sa再通过RA模块得I_ra，I_ra通过像素乘法器与I'_ca进行像素相乘得到I_b，即背景信息；为得到前景信息，I'_ca直接与I_sa通过像素乘法器进行像素相乘得到I_f，即前景信息，I_f与I_b分别通过3*3的卷积得到I'_f与I'_b，I'_f与I'_b通过拼接器拼接后的结果再通过一个3*3的卷积得到I'_fb，最后，I'_fb与I通过加法器相加得到HA的输出结果O；

BCE损失函数的定义为：

SSIM损失函数的定义为：

IoU损失函数的定义为：

G(r，c)是真实掩膜图中像素点(r，c)的值，取值0或1；S(r，c)是算法得到的分割图中像素点(r，c)的预测值，取值范围为0～1，x、y分别是真实掩膜图和预测图中大小为N*N的像素块，u_x、u_y和σ_x、σ_y分别为x和y的均值和标准差，σ_xy为它们的协方差，使用C₁＝0.012和C₂＝0.032来避免除以零，则混合损失定义为：

L＝L_BCE+L_SSIM+L_IoU。

3.根据权利要求1所述的一种基于HA-UNet网络的眼底图像视盘检测方法，其特征在于：所述步骤四具体包括：

其中，Dice系数即为相似度度量函数，用于计算两个样本的相似度，Jaccard系数表示分割结果与标定真值数据之间的相似度，recall系数用来衡量算法分割目标区域的能力；accuracy系数表示正确分割的部分占总体的比值，

以上各评价指标的值域均为[0，1]，越接近1，表示性能越好，Dice系数、Jaccard系数、recall系和accuracy系数分别定义为：

4.根据权利要求1所述的一种基于HA-UNet网络的眼底图像视盘检测方法，其特征在于：所述步骤一中对图像进行预处理，将原始图像缩放为256*256大小的固定尺寸，再随机切割为224*224大小的固定尺寸。