CN116740076A

CN116740076A - 视网膜色素变性眼底图像中色素分割的网络模型及方法

Info

Publication number: CN116740076A
Application number: CN202310544818.9A
Authority: CN
Inventors: 陈新建; 许景程
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2023-05-15
Filing date: 2023-05-15
Publication date: 2023-09-12

Abstract

本发明提供一种视网膜色素变性眼底图像中色素分割的网络模型及方法，该网络模型包括编码器，用于从原始图片中提取特征图；多尺度全局注意力模块，与所述编码器连接，用于根据编码器提取的特征图的特征，融合多尺度全局上下文信息；通道和空间联合注意力模块，用于根据编码器提取的特征图的特征，提取上下文语义特征；解码器，与所述多尺度全局注意力模块连接，用于根据多尺度全局上下文信息和上下文语义特征，对提取到的特征进行恢复，得到预测结果；在所述编码器与所述解码器块每层之间采用通道和空间联合注意力模块进行连接。本发明实现了眼底图像中色素沉积的自动分割，提高了分割精度。

Description

视网膜色素变性眼底图像中色素分割的网络模型及方法

技术领域

本发明涉及图像分割技术领域，尤其涉及一种视网膜色素变性眼底图像中色素分割的网络模型及方法。

背景技术

视网膜色素变性(Retinitis Pigmentosa，RP)是一种由光感受器丧失引起的遗传性视网膜营养不良，全球患病率大约为0.025％。

眼底照相是检查患者是否患有视网膜色素变性的一种重要方式，色素沉积是视网膜色素变性的典型特征，其准确分割对视网膜色素变性患者的诊断和治疗有重要意义。

目前，大多数分割色素沉积的方法都是基于传统的机器学习。Brancati等人[1]提出了一种使用随机森林和自适应增强的集成分类器的方法对眼底图像中的色素沉积进行检测，从而将每个区域分为正常区域或色素区域，他们还提出了另一种基于相邻区域特征之间关系的方法分割色素沉积[2]，该方法通过应用局部预处理来减弱图像失真，接着对图片进行分水岭变换以产生同质区域，随后对提取的特征进行异常值检测，最后对色素区域和正常区域进行分类，从而分割出色素区域。随着深度学习的不断发展，基于神经网络的方法也开始涌现。Brancati等人[3]首次应用基于U-Net的网络来分割视网膜上的色素沉积，实现了RP患者的眼底图像的端到端自动分割。Arsalan等人[4]提出了一个自动RP分割网络(RPS-Net)，它能够通过卷积层之间的多重密集连接应用特征增强策略，使网络能够区分正常和患病的眼睛，并准确地将患病区域从背景中分割出来。

虽然分割色素沉积的方法有了不少的进步，但目前这些分割眼底图像色素的方法仍然存在许多局限性。基于机器学习的方法依赖于人工设计的特征，不能实现自动的端到端分割，会增加医生的工作量。基于深度学习的方法并没有考虑到多尺度全局上下文信息和注意力模块的重要性，着重于特征的全面，而忽略了语义特征，从而在提取特征时可能会引入冗余的信息，并会对最终的分割结果产生负面影响。

因此，亟需一种能精确分割视网膜色素变性眼底图像中色素沉积的网络模型及方法。

参考文献：

[1]Brancati,N.,Frucci,M.,Gragnaniello,D.,Riccio,D.,Di Iorio,V.,DiPerna,L.:Automatic segmentation of pigment deposits in retinal fundus imagesof retinitis pigmentosa.Computerized Medical Imaging and Graphics 66,73–81(2018)。

[2]Brancati,N.,Frucci,M.,Gragnaniello,D.,Riccio,D.,Di Iorio,V.,DiPerna,L.,Simonelli,F.:Learning-based approach to segment pigment signs infundus images for retinitis pigmentosa analysis.Neurocomputing 308,159–171(2018)。

[3]Brancati,N.,Frucci，M.,Riccio,D.,Di Perna,L.,Simonelli,F.:Segmentation of pigment signs in fundus images for retinitis pigmentosaanalysis by using deep learning.In:Image Analysis and Processing–ICIAP 2019:20th International Conference,Trento,Italy,September 9–13,2019,Proceedings,Part II 20.pp.437–445.Springer(2019)。

[4]Arsalan,M.,Baek,N.R.,Owais,M.,Mahmood,T.,Park,K.R.:Deeplearningbased detection of pigment signs for analysis and diagnosis ofretinitis pigmentosa.Sensors 20(12),3454(2020)。

发明内容

为此，本发明实施例提供了一种视网膜色素变性眼底图像中色素分割的网络模型及方法，用于解决现有技术中基于机器学习的方法依赖于人工设计的特征，不能实现自动的端到端分割以及基于深度学习的方法没有考虑到多尺度全局上下文信息和注意力模块的重要性，着重于特征的全面，而忽略了语义特征，从而在提取特征时可能会引入冗余的信息，并会对最终的分割结果产生负面影响的问题。

为了解决上述问题，本发明实施例提供一种视网膜色素变性眼底图像中色素分割的网络模型，该网络模型包括：

编码器，用于从原始图片中提取特征图；

多尺度全局注意力模块，与所述编码器连接，用于根据编码器提取的特征图的特征，融合多尺度全局上下文信息；

通道和空间联合注意力模块，用于根据编码器提取的特征图的特征，提取上下文语义特征；

解码器，与所述多尺度全局注意力模块连接，用于根据多尺度全局上下文信息和上下文语义特征，对提取到的特征进行恢复，得到预测结果；

其中，在所述编码器与所述解码器块每层之间采用通道和空间联合注意力模块进行连接；

所述编码器的每一层的输出经过通道和空间联合注意力模块模块后，得到的输出与解码器上一层的输出直接相加，作为解码器下一层的输入。

优选地，所述编码器一共包括五层，在每次下采样之后做两次3x3卷积、批归一化和Relu激活处理；每次下采样后，通道数增大一倍，分辨率降低一倍，输出通道数分别是32、64、128、256、512。

优选地，所述编码器的前四层经过Relu激活后添加挤压和激发模块，所述挤压和激发模块将输入特征图先经过全局平均池化，再经过两个全连接层，得到的输出向量与原图进行通道权重相乘，得到输出特征图。

优选地，所述多尺度全局注意力模块结构为：

所述多尺度全局注意力模块包括K端、Q端和V端三个输入端，输入特征X_in经过1x1卷积后作为Q端的输入；

输入特征X_in经过多尺度信息融合模块后得到特征X_m，特征X_m经过通道注意力机制，将获得的通道信息与输入特征X_in相乘后作为K端的输入，其中所述通道注意力机制包括平均池化、两个1x1卷积、Relu激活处理以及Sigmoid激活函数；

输入特征X_in经过多尺度信息融合模块后得到特征X_m，经过平均池化和最大池化对特征X_m进行全局的特征细化，得到全局特征，随后将两种全局特征拼接起来，得到空间信息融合特征，经过7×7卷积后与特征X_m相乘，得到的特征图作为V端的输入；

Q端的输出经过转置后与K端的输出相乘，经过归一化指数函数得到通道融合结果，将通道融合结果转置后与V端的输出相乘，经过重塑后得到最终的输出特征X_out。

优选地，所述多尺度信息融合模块由并行的1x1卷积、3×3卷积、和5×5卷积组成，用于提取多尺度特征。

优选地，所述通道和空间联合注意力模块的结构为：

优选地，将编码器得到的特征T_h与解码器上采样后的特征T_up进行联合，通过1x1卷积和空间注意力模块，得到的特征进行归一化后得到权重信息，再与特征T_h相乘，最后与T_up进行信息融合。

优选地，所述网络模型采用了基于Dice损失和交叉熵损失的联合分割损失函数，表示如下：

其中，L_Dice表示Dice损失，L_BCE表示交叉熵损失，L_joint表示Dice损失和交叉熵损失的联合分割损失，0≤g≤1表示金标准中的目标像素值，0≤p≤1表示神经网络的输出图的像素值，C表示图像中所有像素的个数，i表示第i个像素。

本发明实施例还提供了一种视网膜色素变性眼底图像中色素分割的方法，所述方法包括：

S1：采集不同视网膜色素变性眼底图像构成数据集，将数据集随机划分为训练集、验证集和测试集；

S2：构建视网膜色素变性眼底图像中色素分割的网络模型；

S3：利用训练集和验证集对网络模型进行训练，保存验证集上效果达到最佳时的模型权重；

S4：加载保存的模型权重，利用训练后的网络模型对眼底图像进行预测，进而实现色素沉积的分割。

优选地，采用Dice系数、交叉联合、准确度和特异度对分割结果进行评估。

本发明实施例还提供了一种电子装置，包括处理器、存储器和总线***，所述处理器和存储器通过该总线***相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现上述任意一项所述的视网膜色素变性眼底图像中色素分割的方法。

从以上技术方案可以看出，本发明申请具有以下优点：

本发明实施例提供一种视网膜色素变性眼底图像中色素分割的网络模型及方法，本发明在编码器和解码器中间添加MsGAM模块，来引导模型学习多尺度全局上下文信息；提出了CSAM模块，来捕捉来自编码器的空间和通道特征，获取更关键的特征信息；结合MsGAM和CSAM模块，本发明提出了基于U型结构的视网膜色素变性眼底图像中色素分割的网络模型，与其他网络相比，本发明所提出的网络在色素分割性能上有明显的提升。

附图说明

为了更清楚地说明本发明实施案例或现有技术中的技术方案，下边将对实施例中所需要使用的附图做简单说明，通过参考附图会更清楚的理解本发明的特征和优点，附图是示意性的而不应该理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为根据实施例中提供的一种视网膜色素变性眼底图像中色素分割的网络模型的结构示意图；

图2为实施例中挤压和激发模块的结构示意图；

图3为实施例中多尺度全局注意力模块的结构示意图；

图4为实施例中通道和空间联合注意力模块的结构示意图；

图5为根据实施例中提供的一种视网膜色素变性眼底图像中色素分割的方法的流程图；

图6为实施例中采用不同方法的眼底图像中色素沉积的分割结果示意图；

图7为实施例中眼底图像中色素区域可视化检测结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案与优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如图1所示，本发明实施例提出一种视网膜色素变性眼底图像中色素分割的网络模型，所述网络模型包括：

编码器，用于从原始图片中提取特征图；

本发明一种视网膜色素变性眼底图像中色素分割的网络模型，本发明在编码器和解码器中间添加MsGAM模块，来引导模型学习多尺度全局上下文信息；提出了CSAM模块，来捕捉来自编码器的空间和通道特征，获取更关键的特征信息；结合MsGAM和CSAM模块，本发明提出了基于U型结构的视网膜色素变性眼底图像中色素分割的网络模型，与其他网络相比，本发明所提出的网络在色素分割性能上有明显的提升。

进一步地，本发明提出的视网膜色素变性眼底图像中色素分割的网络模型，所提出的分割网络模型的主干是一个基于U-Net的U型网络，由编码器、多尺度全局注意力模块(multi-scale global attention module，MsGAM)、通道和空间联合注意力模块(channeland spatial joint attention module，CSAM)和解码器部分组成。MsGAM是为了融合多尺度全局上下文信息，CSAM是为了提取更多的上下文语义特征。本发明设计的目标是通过将眼底图像输入网络以得到端到端的色素分割模型。

进一步地，编码器一共包括五层，在每次下采样之后做两次3x3卷积、批归一化和Relu激活处理；每次下采样后，通道数增大一倍，分辨率降低一倍，输出通道数分别是32、64、128、256、512。编码器的前四层经过Relu激活后添加挤压和激发模块(Squeeze-and-Excitation，SE)，与U-Net的编码器相比，添加SE模块可以提高编码器提取特征的能力。

如图2所示，SE模块将输入特征图先经过全局平均池化，再经过两个全连接层，得到的输出向量与原图进行通道权重相乘，得到输出特征图。

进一步地，考虑到色素沉积在眼底图像中尺寸变化较大、分布广泛且边缘模糊的复杂病理表现，分割网络需要加强提取多尺度全局特征的能力。本发明设计了一种新颖的多尺度全局注意力模块，并将其嵌入在编码器路径的顶层，MsGAM结构如图3所示，与传统的自注意力模块不同的是，三个输入端键向量(key，K)、查询向量(query，Q)和值向量(value，V)各自的输入信息不同。

具体地，输入特征X_in经过1x1卷积后作为Q端的输入；输入特征X_in经过多尺度信息融合模块后得到特征X_m，特征X_m经过通道注意力机制，将获得的通道信息与输入特征X_in相乘后作为K端的输入，其中所述通道注意力机制包括平均池化、两个1x1卷积、Relu激活处理以及Sigmoid激活函数；输入特征X_in经过多尺度信息融合模块后得到特征X_m，经过平均池化和最大池化对特征X_m进行全局的特征细化，得到全局特征，随后将两种全局特征拼接起来，得到空间信息融合特征，经过7×7卷积后与特征X_m相乘，得到的特征图作为V端的输入。Q端的输出经过转置后与K端的输出相乘，经过归一化指数函数得到通道融合结果，将通道融合结果转置后与V端的输出相乘，经过重塑后得到最终的输出特征X_out。这使得网络模型在捕获多尺度局部空间和通道信息的同时，能够得到全局的长距离信息，相似的特征将相互关联，而不管它们的距离远近，从而使得模型有更高的辨别能力，这对像色素这种分布范围较广的病灶来说非常适用。

其中所述多尺度信息融合模块由并行的1x1卷积、3×3卷积、和5×5卷积组成，用于提取多尺度特征。

进一步地，在U-Net中简单的跳跃连接将不同层次的局部信息无差别地结合起来，忽略了语义信息，很容易引入冗余信息，影响最终色素的分割性能。考虑到这种情况，本发明采用CSAM模块来代替U-Net中的跳跃连接，在一个实施例中，在编码器与解码器块之间的每层跨越连接层采用通道和空间联合注意力模块进行连接。

CSAM模块结构如附图4所示，将编码器得到的特征T_h与解码器上采样后的特征T_up进行联合，通过1x1卷积和空间注意力模块，得到的特征进行归一化后得到权重信息，再与特征T_h相乘，最后与T_up进行信息融合。这使得网络能充分考虑全局上下文信息，保留更多的有效信息。

进一步地，本发明使用了Dice损失(L_Dice)和交叉熵损失(L_BCE)的联合损失函数。Dice损失能够效缓解图像分割中数据不平衡的问题，有利于色素分割，同时交叉熵损失的加入能有效缓解Dice损失的会使模型的训练不稳定的问题。联合损失可以表示为：

实施例二

如图5所示，本发明提供一种视网膜色素变性眼底图像中色素分割的方法，该方法包括：

S2：构建视网膜色素变性眼底图像中色素分割的网络模型；

所述方法，采用上述所述的视网膜色素变性眼底图像中色素分割的网络模型，用以实现眼底图像中色素沉积的分割，为了避免冗余，在此不再赘述。

以下将通过具体的实验来阐述本发明方法的优点。

一、实验数据集

本发明使用数据集由215张眼底图像组成，金标准由医生团队标注。对于每张原始图像，采用对目标区域最小外接矩形进行裁剪的方法去掉部分噪声，减轻噪声对最终分割结果的影响。为了得到最好的分割效果，我们将数据集随机划分为训练集132张，验证集42张，测试集41张，基本符合6:2:2。

二、实验设置

本发明使用Adam优化器，初始学习率为1.0×10-4，动量为0.9。批量大小被设置为4，迭代次数设置为350。所有的图像首先被调整为1024×1024，然后被分成4块进行数据增强，即每块为512×512，最后输入模型当中。本发明基于Pytorch环境，使用一块带有12GB存储空间的NVIDIA RTX 3060 GPU进行模型训练、验证和测试。

三、网络模型的训练与验证

为了验证本发明提出的CSAM和MsGAM的有效性，采用了Dice系数、交叉联合(Intersection-over-Union，IoU)、准确度(Accuracy，Acc)和特异度(Specificity，Spec)四个评价指标，进行了相应的消融实验，表1展示了相关消融实验的结果与比较。

表1

(1)U-Net的前四层编码器加入SE模块，作为基线网络，即表1中的“Baseline”；(2)将CSAM加入本发明提出的基线网络，即表1中的“Baseline+CSAM”；(3)将MsGAM加入本发明提出的基线网络，即表1中的“Baseline+MsGAM”；由表1可见，相对于基线网络，Baseline+CSAM与Baseline+MsGAM网络在Dice系数和IoU上均有提升，结合所有模块的UAU-Net，Dice系数比基线网络增加了1.38％，达到60.25％，IoU提升了1.27％。

图6展示了采用不同方法的眼底图像中色素沉积的分割结果，(a)为原图，(b)为金标准，(c)-(f)依次为基线网络，基线网络+MsGAM，基线网络+CSAM和本发明提出的UAU-Net的分割结果。图中白色区域为正确分割区域，深灰色区域为漏分割区域，浅灰色区域为多分割区域。结果表明本发明提出的UAU-Net在的性能最好。

为了客观评估本发明方法的性能，将本发明所提出的方法与其它基于CNN的优秀分割网络进行了比较，包括U-Net、上下文编码网络(CE-Net)、上下文金字塔融合网络(CPFNet)、注意力U型网络(Att-UNet)和曲线结构分割网络(CS²-Net)。在这些实验中，参数的设置均和UAU-Net的设置相同。

图7展示了眼底图像中色素区域可视化检测结果，(a)为原图，(b)为金标准，(c)-(g)依次为U-Net，CE-Net，CPFNet，CS²-Net和本发明提出的UAU-Net的分割结果。发现本发明提出的方法取得了最好的效果。

定量分析的结果如下表2所示，本发明所提出的方法在Dice、IoU和Acc和Spec上都取得了良好的效果。与对比的网络中表现最好的CE-Net相比，Dice提升了2.14％，IoU提升了1.81％。除了CS²-Net，这些网络都没有关注到全局注意力，没有考虑特征的长距离依赖关系，对于色素这种分布较为广泛且尺寸变化较大的目标来说，全局注意力能够使远距离特征也能相互关联，更容易判断不同距离的特征是否是同一目标。与CS²-Net网络相比，Dice提升了8.17％，虽然CS²-Net也使用了自注意力相关的模块，但与上述网络相同，他们并不适合像色素这种的小目标，没有捕捉到对小目标来说最关键的信息。更值得注意的是，本发明所提出的方法在Dice和IoU两个指标上都得到了最小的标准差，说明得到的分割结果最为稳定。

表2

综上，本发明提出的一种视网膜色素变性眼底图像中色素分割的方法已经实现并进行验证。基于本发明提出的多尺度全局注意力模块MsGAM和通道和空间联合注意力模块CSAM较好地克服了以往模型在多尺度全局上下文特征信息提取方面考虑不充分以及冗余信息过多等不足。实验结果表明，本发明所设计的UAU-Net网络可以有效分割眼底图像上的色素沉积，有利于眼科医生对视网膜色素变性患者的诊断治疗。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，包括：

编码器，用于从原始图片中提取特征图；

2.根据权利要求1所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述编码器一共包括五层，在每次下采样之后做两次3x3卷积、批归一化和Relu激活处理；每次下采样后，通道数增大一倍，分辨率降低一倍，输出通道数分别是32、64、128、256、512。

3.根据权利要求2所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述编码器的前四层经过Relu激活后添加挤压和激发模块，所述挤压和激发模块将输入特征图先经过全局平均池化，再经过两个全连接层，得到的输出向量与原图进行通道权重相乘，得到输出特征图。

4.根据权利要求1所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述多尺度全局注意力模块结构为：

5.根据权利要求4所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述多尺度信息融合模块由并行的1x1卷积、3×3卷积、和5×5卷积组成，用于提取多尺度特征。

6.根据权利要求1所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述通道和空间联合注意力模块的结构为：

将编码器得到的特征T_h与解码器上采样后的特征T_up进行联合，通过1x1卷积和空间注意力模块，得到的特征进行归一化后得到权重信息，再与特征T_h相乘，最后与T_up进行信息融合。

7.根据权利要求1所述的视网膜色素变性眼底图像中色素分割的网络模型，其特征在于，所述网络模型采用了基于Dice损失和交叉熵损失的联合分割损失函数，表示如下：

8.一种视网膜色素变性眼底图像中色素分割的方法，其特征在于，包括：

S2：构建权利要求1至7任意一项所述的视网膜色素变性眼底图像中色素分割的网络模型；

9.根据权利要求8所述的视网膜色素变性眼底图像中色素分割的方法，其特征在于，采用Dice系数、交叉联合、准确度和特异度对分割结果进行评估。

10.一种电子装置，其特征在于，包括处理器、存储器和总线***，所述处理器和存储器通过该总线***相连，所述存储器用于存储指令，所述处理器用于执行存储器存储的指令，以实现权利要求8至9任意一项所述的视网膜色素变性眼底图像中色素分割的方法。