CN113240655B

CN113240655B - 一种自动检测眼底图像类型的方法、存储介质及装置

Info

Publication number: CN113240655B
Application number: CN202110559562.XA
Authority: CN
Inventors: 雷柏英; 陈少滨; 谢海; 杜曰山一; 赵金凤; 张汝钢; 汪天富; 张国明
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-04-07
Anticipated expiration: 2041-05-21
Also published as: CN113240655A

Abstract

本发明公开了一种自动检测眼底图像类型的方法、存储介质及装置，方法包括步骤：分别通过弱增强器和强增强器两个不同的操作来获得两种不同版本的未标记眼底图像，首先，利用弱增强器来生成伪标签，该伪标签用作强增强版本未标记眼底图像的监督训练标签；为了提高分类器的分类性能，将E‑GAN集成到网络中，该网络使用已标记眼底图像的压缩版本来生成生成高质量已标记眼底图像；最后将自注意力模块，空间注意力模块和通道注意力模块与分类器模型相结合，以增强特征提取能力。实验结果表明，本发明提出的方法可以在已标记眼底图像较少的情况下获得较好的类别识别准确率。

Description

一种自动检测眼底图像类型的方法、存储介质及装置

技术领域

本发明涉及深度学习算法应用领域，特别涉及一种自动检测眼底图像类型的方法、存储介质及装置。

背景技术

早产儿视网膜病变(ROP)是低出生体重儿常见的视网膜疾病，也是儿童失明的主要原因。AP-ROP是一种特殊的ROP，其特征是视网膜血管发育中的血管增生性疾病，如果干预不及时，可能会导致不可逆转的视觉损害。ROP、AP-ROP和正常眼底图像如图1所示，从图1可以看出，ROP和AP-ROP的外观非常相似，这是眼科医生准确快速识别的主要障碍。因此，计算机辅助识别在ROP和AP-ROP进行客观评估中尤为重要。

深度学习算法已应用于ROP疾病检测和自动筛选，布朗等人利用CNN网络实现ROP正病的二级诊断。有研究使用AlexNet，VGG-16和GoogleNet开发了具有广角视网膜图像的自动ROP筛查***。由于存在许多标记数据集，因此深度神经网络可以通过监督学习获得强大的性能。但是，带标签的数据通常由具有足够专业知识和时间的专家注释，这导致了带标签的数据的不足，使得对AP-ROP图像的识别准确率降低。

因此，现有技术还有待于改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的不足，提供一种自动检测眼底图像类型的方法、存储介质及装置，旨在解决现有技术中由于带标签的AP-ROP图像数据的不足，导致采用深度学习方法对眼底图像的类别识别准确率较低的问题。

为了解决上述技术问题，本发明所采用的技术方案如下：

一种自动检测眼底图像类型的方法，其中，包括步骤：

将未标记眼底图像经过弱增强器处理后输入分类器中，生成伪标签；

将未标记眼底图像经过强增强器处理后输入分类器中，以所述伪标签作为监督训练标签，计算得到无标签数据的监督损失；

将已标记眼底图像经过压缩后输入到E-GAN网络中，生成高质量已标记眼底图像，所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像；

将所述高质量已标记眼底图像输入分类器中，计算生成样本的伪监督损失；

将已标记眼底图像经过弱增强处理后输入分类器中，计算有标签数据的监督损失；

根据所述无标签数据的监督损失、生成样本的伪监督损失以及有标签数据的监督损失，计算得到分类器的总损失函数；

根据所述分类器的总损失函数对所述分类器参数进行调整，得到训练后分类器；

将待测眼底样本输入所述训练后分类器，得到待测眼底样本的图像类型。

所述自动检测眼底图像类型的方法，其中，所述弱增强处理为翻转增强、平移增强和裁剪增强中的一种或多种。

所述自动检测眼底图像类型的方法，其中，所述强增强处理为调整亮度、最大化对比度、调整清晰度和调整图像色彩平衡中的一种或多种。

所述自动检测眼底图像类型的方法，其中，将未标记眼底图像经过强增强器处理后输入分类器中，以所述伪标签作为监督训练标签，计算得到无标签数据的监督损失的步骤包括：

为每个未标记眼底图像生成的标签生成一组概率值p_j＝f_classifier(F(u_j))，然后将c_j＝argmax(p_j)用作伪标签；

在计算未标记眼底图像的损失函数之前，使用p_j生成置信系数ε_j＝T(max(p_j)≥θ)，当max(p_j)的值大于θ时，ε_j的值为1，否则值为0，θ是标量超参数；

基于所述置信系数，定义无标签数据的监督损失为：

其中，f_classifier是分类器。

所述自动检测眼底图像类型的方法，其中，所述E-GAN网络包括生成器网络和判别器网络，其中，所述生成器网络包括18个密集残差块，所述判别器网络包括3个鉴别器块。

所述自动检测眼底图像类型的方法，其中，所述生成器网络的总损失函数为

L_Ge＝β₁L_adv+β₂L_content+L_perceptual，其中，β₁和β₂是平衡不同损失项的系数，

其中，x_l为已标记眼底图像，x_g＝G(x′_l)，x′_l表示经过压缩处理的已标记眼底图像；L_perceptual是使用VGG网络分别从x_l和x_g中提取特征，然后比较它们的平均绝对误差获得；L_content是通过直接计算x_l和x_g的L1范数获得。

所述自动检测眼底图像类型的方法，其中，所述分类器为改进型ResNet50，所述改进型ResNet50包括4个块组，分别为[group1，group2，group3，group4]，其中，所述group3和group4中的9个空间(3×3)卷积替换为自我注意力模块，所述group1和group2中集成有通道注意模块和空间注意模块。

所述自动检测眼底图像类型的方法，其中，在所述自我注意力模块中，将相对位置编码拆分为group1，group2高度W_{rand([1,d,1,h])}和宽度W_{rand([1,d,w,1])}；将所述W_{rand([1,d,1,h])}和W_{rand([1,d,w,1])}之间的元素进行相加，获得位置编码p；通过将输入特征分别传递给三组1×1卷积，分别得到查询(q)，键(k)和值(v)，最终得到自我注意力模块的输出定义为：

Z＝softmax(qP^T+qk^T)。

一种存储介质，其中，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明自动检测眼底图像类型的方法中的步骤。

一种自动检测眼底图像类型的装置，其中，包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行本发明所述自动检测眼底图像类型的方法中的步骤。

有益效果：本发明提出了一种自动检测眼底图像类型的方法，分别通过弱增强器和强增强器两个不同的操作来获得两种不同版本的未标记眼底图像，首先，利用弱增强器来生成伪标签，该伪标签用作强增强版本未标记眼底图像的监督训练标签；为了提高分类器的分类性能，将E-GAN集成到网络中，该网络使用已标记眼底图像的压缩版本来生成生成高质量已标记眼底图像；最后将自注意力模块，空间注意力模块和通道注意力模块与分类器模型相结合，以增强特征提取能力。实验结果表明，本发明提出的方法可以在已标记眼底图像较少的情况下获得较好的类别识别准确率。

附图说明

图1为常规ROP、AP-ROP和正常眼底图像的展示图。

图2为本发明一种自动检测眼底图像类型的方法较佳实施例的流程图。

图3为本发明一种自动检测眼底图像类型的方法架构图。

图4为E-GAN网络的结构组成示意图。

图5为分类器的结构示意图。

图6为自注意力模块的结构示意图。

图7为通道注意模块和空间注意模块的结构示意图。

图8为本发明一种自动检测眼底图像类型的装置原理框图。

具体实施方式

本发明提供一种自动检测眼底图像类型的方法、存储介质及装置，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

下面结合附图，通过对实施例的描述，对发明内容作进一步说明。

带标签的眼底图像数据通常由具有足够专业知识和时间的专家注释，这导致了带标签的眼底图像数据的不足，使得现有技术在采用深度学习方法对眼底图像的类别进行识别时，容易出现识别准确率较低的问题。

基于此，本发明提供了一种自动检测眼底图像类型的方法，如图2所示，其包括步骤：

S10、将未标记眼底图像经过弱增强器处理后输入分类器中，生成伪标签；

S20、将未标记眼底图像经过强增强器处理后输入分类器中，以所述伪标签作为监督训练标签，计算得到无标签数据的监督损失；

S30、将已标记眼底图像经过压缩后输入到E-GAN网络中，生成高质量已标记眼底图像，所述已标记眼底图像包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像；

S40、将所述高质量已标记眼底图像输入分类器中，计算生成样本的伪监督损失；

S50、将已标记眼底图像经过弱增强处理后输入分类器中，计算有标签数据的监督损失；

S60、根据所述无标签数据的监督损失、生成样本的伪监督损失以及有标签数据的监督损失，计算得到分类器的总损失函数；

S70、根据所述分类器的总损失函数对所述分类器参数进行调整，得到训练后分类器；

S80、将待测眼底样本输入所述训练后分类器，得到待测眼底样本的图像类型。

本实施例从深圳市眼科医院获取到4228个眼底图像检查样本，其包括未标记眼底图像和已标记眼底图像，所述未标记眼底图像和已标记眼底图像均包括正常眼底图像、ROP眼底图像以及AP-ROP眼底图像。如图3所示，本实施例分别通过弱增强器和强增强器两个不同的操作来获得两种不同版本的未标记眼底图像，首先，利用弱增强器来生成伪标签，该伪标签用作经过强增强器处理的未标记眼底图像的监督训练标签；为了提高分类器的分类性能，将E-GAN集成到网络中，该网络使用已标记眼底图像的压缩版本来生成生成高质量已标记眼底图像；最后将自注意力模块，空间注意力模块和通道注意力模块与分类器模型相结合，以增强特征提取能力。实验结果表明，本发明提出的方法可以在已标记眼底图像较少的情况下获得较好的类别识别准确率。

对于多类分类问题，令X_L＝{(x_i,y_i)|i∈(1,2,…,K)}是一批带有K个标记的数据对，其中x_i是训练样本，y_i是一位有效编码。令X_U＝{u_j|j∈(1,2,…,αK)}是一批αK个未标记样本，其中α是一个超参数，用于确定训练过程中标记数据与未标记数据的数量之比。作为举例，所述α被设置为2。对于未标记的样本x，本实施例采用两种不同的数据增强方法：弱增强和强增强，分别用F(x)和I(x)表示。对于F(x)，本实施例可使用翻转增强、平移增强和裁剪增强中的一种或多种，作为举例，当使用标准的翻转增强策略时，即以给定的概率水平翻转它。基于F(x)，本实施例在方法I(x)中添加了其他四种增强方法，包括调整亮度，最大化对比度，调整清晰度和调整图像色彩平衡。

在一些实施方式中，本实施例提出的方法的损失函数由三个交叉熵损失项组成：有标签数据X_L的监督损失L_L，无标签数据X_U的监督损失L_U和生成样本的伪监督损失L_G，其中，L_L和L_G分别是经过弱增强器处理的已标记眼底图像和高质量已标记眼底图像的标准交叉熵损失。对于未标记的样本，为每个未标记眼底图像生成的标签生成一组概率值p_j＝f_classifier(F(u_j))，然后将c_j＝argmax(p_j)用作伪标签；在计算未标记眼底图像的损失函数之前，使用p_j生成置信系数ε_j＝T(max(p_j)≥θ)，这确保了分类器可以为未标记样本提供更稳定的标签，实验研究表明，该方法能显著提高分类器的性能；当max(p_j)的值大于θ时，ε_j的值为1，否则值为0，θ是标量超参数，它表示我们保留伪标签的阈值，即图3中的划线部分；基于所述置信系数，定义无标签数据的监督损失为：

其中，f_classifier是分类器。作为举例，用于获取伪标签的最佳标量超参数θ可设置为0.90。

在一些实施方式中，为了提高分类性能，本实施例提出了一种E-GAN(增强型生成对抗网络)，所述E-GAN网络包括生成器网络和判别器网络，基于所述E-GAN网络可将压缩的低分辨率已标记眼底图像生成高质量的训练样本，即高质量已标记眼底图像。本实施例使用密集的残差块来设计生成器，并在训练过程中结合感知损失和内容损失来优化生成图像的质量。作为举例，可将已标记眼底图像压缩4倍，作为生成器的输入，以生成高质量已标记眼底图像。受相对论平均生成对抗网络的启发，本实施例的判别器的功能不再仅仅是区分输入图像的真假，而是比较由生成器生成的图像是否更接近真实图像。因此，本实施例提出的生成器可以生成更真实、更可靠的训练样本。图4为本实施例提出的E-GAN网络结构示意图，如图所示，所述生成器网络包括18个密集残差块，所述判别器网络包括3个鉴别器块。

具体来说，判别损失函数定义如下：

所述生成器网络的总损失函数为

L_Ge＝β₁L_adv+β₂L_content+L_perceptual，

其中，β₁和β₂是平衡不同损失项的系数，

在一些实施方式中，图5为本实施例分类器的结构示意图，如图所示，所述分类器为改进型ResNet50，所述改进型ResNet50包括4个块组，分别为[group1，group2，group3，group4]，所述4个块组分别对应于有3、4、6、3个瓶颈块，其中，所述group3和group4中的9个空间(3×3)卷积替换为自我注意力模块，由于卷积数量的减少，从网络中提取的图像特征可能不足以预测最终的分类结果，因此将通道注意模块和空间注意(CASA)模块集成到所述group1和group2中来改善分类性能。值得注意的是，ResNet50的group 3和group 4中的第一个瓶颈块以步幅2进行空间卷积，相应地，我们使用2×2的平均池化层来代替自我注意力模块(SeA)顶部的此操作。

在本实施例中，自我注意是一种计算原语，它通过基于内容的寻址机制实现了配对实体交互，从而可以在长序列中学习到丰富的关联特征。它已成为Transformer块形式的标准工具，并已在自然语言处理中得到广泛的使用。对于视觉任务，多头自注意层被用来代替空间卷积层，以实现自注意的应用。在本实施例的SeA模块中，我们分别将相对位置编码拆分为高度W_{rand([1，d，1，h])}和宽度W_{rand([1，d，w，1])}，它们是来自均为0和方差为1的正态分布的随机数。将W_{rand([1，d，1，h])}和W_{rand([1,d,w,1])}之间的元素进行相加，我们可以获得位置编码p。通过将输入特征分别传递给三组1×1卷积，可以分别得到查询(q)，键(k)和值(v)。SeA模块的结构图如图6所示。最后，我们的SeA模块的输出定义为：

Z＝softmax(qP^T+qk^T)。

在一些实施方式中，所述通道注意力模块和空间注意力模块的结构图如图7所示，通道注意力模块主要探索“什么”对输入图像更有意义。基于不同通道特征之间的关系，我们生成了通道注意图M_c∈R^C×1×1。然后用M_c生成信道特征图F_C∈R^C×H×W，其具体定义如下：

其中σ表示S型函数，

表示逐元素乘法，

和

分别表示全局平均池化和全局最大池化。W₁和W₂代表两个共享的完全连接层的权重。相反，空间注意力模块是对通道注意力的补充，其主要目的是解决“目标在哪里”的问题。我们使用通道特征图F_C探索空间特征之间的关系。我们定义生成的空间注意图为M_S∈R^1×H×W。类似地，我们使用M_S生成空间特征图F_S∈R^C×H×W，实现可定义如下：

其中f^3×3表示卷积运算，滤波器内核大小为3×3。

和

分别表示平均池化和最大池化。

在一些实施方式中，根据所述无标签数据的监督损失、生成样本的伪监督损失以及有标签数据的监督损失，计算得到分类器的总损失函数为：

L_T＝λ_LL_L+λ_UL_U+λ_GL_G，

其中，λ_L,λ_G,λ_U分别是标记损失，未标记损失和伪造监督损失的权重，作为举例，将参数λ_L,λ_U,λ_G分别设置为0.6、0.3和0.1；根据所述分类器的总损失函数对所述分类器参数进行调整，得到训练后分类器；将待测眼底样本输入所述训练后分类器，得到待测眼底样本的图像类型。本实施例将自注意力模块，空间注意力模块和通道注意力模块与分类器模型相结合，以增强特征提取能力。实验结果表明，本实施例提出的方法可以在已标记眼底图像较少的情况下获得较好的类别识别准确率。

在一些实施方式中，本实施例可使用精确率(precision，Pre)、召回率(recall，Rec)，F1-score作为模型性能的评价指标，其计算方法如下：

上式中TP(true positive)、TN(true negative)、FP(false positive)和FN(false negative)分别为真阳性、真阴性、假阳性和假阴性的样本个数。

在一些实施方式中，还提供一种存储介质，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现本发明自动检测眼底图像类型的方法中的步骤。

一种自动检测眼底图像类型的装置，如图8所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(CommunicationsInterface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序；存储数据区可存储根据终端设备的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行本发明所述自动检测眼底图像类型的方法中的步骤。

综上所述，本发明提出了一种自动检测眼底图像类型的方法，分别通过弱增强器和强增强器两个不同的操作来获得两种不同版本的未标记眼底图像，首先，利用弱增强器来生成伪标签，该伪标签用作强增强版本未标记眼底图像的监督训练标签；为了提高分类器的分类性能，将E-GAN集成到网络中，该网络使用已标记眼底图像的压缩版本来生成生成高质量已标记眼底图像；最后将自注意力模块，空间注意力模块和通道注意力模块与分类器模型相结合，以增强特征提取能力。实验结果表明，仅使用300张已标签眼底图像，其识别类别准确率就可以达到99.53％。本发明实现了在少量标记数据的前提下，帮助用户快速准确地从眼底图像样本中识别出AP-ROP。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种自动检测眼底图像类型的方法，其特征在于，包括步骤：

将待测眼底样本输入所述训练后分类器，得到待测眼底样本的图像类型；

其中，所述分类器为改进型ResNet50，所述改进型ResNet50包括4个块组，分别为group1、group2、group3、group4，所述4个块组分别对应于有3、4、6、3个瓶颈块；其中，所述group3和group4中的9个空间3×3卷积替换为自我注意力模块，所述group1和group2中集成有通道注意模块和空间注意模块；

所述改进型ResNet50的group3和group4中的第一个瓶颈块以步幅2进行空间卷积，使用2×2的平均池化层代替自我注意力模块顶部的空间卷积。

2.根据权利要求1所述自动检测眼底图像类型的方法，其特征在于，所述弱增强处理为翻转增强、平移增强和裁剪增强中的一种或多种。

3.根据权利要求1所述自动检测眼底图像类型的方法，其特征在于，所述强增强处理为调整亮度、最大化对比度、调整清晰度和调整图像色彩平衡中的一种或多种。

4.根据权利要求1所述自动检测眼底图像类型的方法，其特征在于，将未标记眼底图像经过强增强器处理后输入分类器中，以所述伪标签作为监督训练标签，计算得到无标签数据的监督损失的步骤包括：

基于所述置信系数，定义无标签数据的监督损失为：

其中，f_classifier是分类器。

5.根据权利要求1所述自动检测眼底图像类型的方法，其特征在于，所述E-GAN网络包括生成器网络和判别器网络，其中，所述生成器网络包括18个密集残差块，所述判别器网络包括3个鉴别器块。

6.根据权利要求5所述自动检测眼底图像类型的方法，其特征在于，所述生成器网络的总损失函数为

L_Ge＝β₁L_adv+β₂L_content+L_perceptual，

其中，β₁和β₂是平衡不同损失项的系数，

7.根据权利要求1所述自动检测眼底图像类型的方法，其特征在于，在所述自我注意力模块中，将相对位置编码拆分为group1，group2高度W_{rand([1，d，1，h])}和宽度W_{rand([1，d，w，1])}；将所述W_{rand([1，d，1，h])}和W_{rand([1，d，w，1])}之间的元素进行相加，获得位置编码p；通过将输入特征分别传递给三组1×1卷积，分别得到查询(q)，键(k)和值(v)，最终得到自我注意力模块的输出定义为：

Z＝softmax(qp^T+qk^T)v。

8.一种存储介质，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1-7任意一项所述自动检测眼底图像类型的方法中的步骤。

9.一种自动检测眼底图像类型的装置，其特征在于，包括处理器，适于实现各指令；以及存储介质，适于存储多条指令，所述指令适于由处理器加载并执行权利要求1-7任意一项所述自动检测眼底图像类型的方法中的步骤。