CN115082372A

CN115082372A - 面向视网膜眼底图像中的多尺度小目标检测方法

Info

Publication number: CN115082372A
Application number: CN202110262435.3A
Authority: CN
Inventors: 张欣鹏; 赵萌; 杨虹霞; 敖吉; 陈胜勇
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2022-09-20

Abstract

一种面向视网膜眼底图像中的多尺度小目标方法，属于计算机视觉和医学图像处理领域。以深度卷积神经网络为基础，使用了8种眼底公共数据集，通过基于Laplacian尺度空间理论计算每个小目标以及负样本的最佳感受野，从而得到每个小目标的多种尺度的patch图片，以训练如图2所示网络模型，在完成基本的二分类任务的基础上，进一步解决了多尺度眼底图像的分类问题。如图2，该网络模型使用全新提出的T型网络架构，提出ASPP方法处理不同尺度的输入图像，并加强特征表达和对显著特征的关注，从而得到较为优秀的分类结果。本发明适用于多尺度的眼部医疗数据，用于进行眼部图像的分类任务。

Description

面向视网膜眼底图像中的多尺度小目标检测方法

技术领域

本发明涉及一种面向视网膜眼底图像中的多尺度小目标检测方法，属于计算机视觉和医学图像处理领域。

背景技术

微动脉瘤(microaneurysm，MA)是视网膜眼底图像中的一种小目标，也被认为是糖尿病视网膜病变(Diabetic retinopathy，DR)的最早期病变，在彩色眼底图像中，MA表现类圆形暗红色斑点且尺度不一。眼科医生通过手动检查的方法耗时费力。因此，准确的MA检测计算机辅助技术对于DR的大规模筛选至关重要。已经公开了许多方法来检测公共数据库和临床数据库上的MA。在将深度学习广泛应用于计算机视觉任务之前，传统方法旨在设计一个两阶段框架并提取手工特征进行分类。此外，还基于端到端架构引入了深度学习技术，以提取上下文特征并检测MA。

许多研究提出了分别检测MA的两阶段框架。数学形态学技术被用于候选人的提取，导致了一些MA和大量非MA的出现。通过监督分类器(例如k近邻(k-nearest neighbor，KNN))提取视觉特征以进行准确分类。研究了RGB视网膜眼底图像的成像原理，并得出结论，绿色通道包含最多的视网膜信息，其对比度最高。因此，绿色通道始终用于MA检测。此外，该方法提出了一种用于对比度增强和阴影校正的非线性多项式运算符。为了提高候选者提取的性能，引入了基于过滤器的模板匹配而不是形态，以排除错误的候选者(例如血管和出血)。仍然存在尽管可以粗略地检测到更多的MA，但候选集中有大量的非MA。为了区分它们，研究了多种特征(例如统计，形状和纹理)以进行分类。一种统计特征沿着不同方向扫描强度，并计算横截面轮廓。MA在轮廓中心表征了一个确定的高斯峰。因此，这种特征已经在分类阶段得到了广泛的应用，并取得了显着的效果。基于MA的圆形形状使用高斯滤波器提取沿多个方向的圆形候选，并发现了一组来自形状自适应滤波器的局部收敛指数特征，细血管的碎片可以被准确地去除。此外，许多方法对MA的局部区域进行了编码，并生成了一种可以检测真实MA的稀疏纹理特征。取决于局部二值图案(local binary pattern，LBP)的旋转和亮度不变，利用LBP运算来表示MA的局部纹理特征。然而，由于手工特征的低表示能力，这些提到的方法仍然遭受有限的检测精度。

最近，深度卷积神经网络(deep convolutional neural network，DCNN)技术已广泛应用于MA检测。先前提出了一种基于卷积神经网络(convolutional neural network，CNN)的像素级MA分类方法。在RGB彩色眼底图像中，每个像素都可以分为MA或非MA。基本的CNN计算出训练图像的概率图，并生成类似于MA的信息性补丁。为了更准确地进行分类，较深的最终CNN为每个MA获得了一组候选补丁，并使用磁盘内核平滑了概率图并消除了噪声。应用形态学算法和高斯滤波器可以来抑制背景噪声。为了方便起见，所有图像的分辨率都通过双三次插值进行了归一化。为了提高代表性由于具有CNN的功能，因此使用了来自同一域的另一个数据集对网络进行了重新训练。此外，只有可以提取特定特征的图层才经过微调，同时冻结了其他图层的权重和偏差，这种交错冻结的方式可以减少计算成本。集中于网络校正和重新分类，类似于强化学习。重新分类网是由容易发生的错误分类结果驱动的。重新分类网络的目的是最大程度地减少精炼分类结果与基本事实之间的差异。为了提高准确性，引入了一个验证网来确定是否接受重新分类结果。与基于两阶段框架的方法相比，基于深度学习的方法对MA分类的准确性更高。

MA作为彩色眼底图像中的小目标，尺寸较小且大小不一，仅用单一的patchsize构建样本集难以准确包括不同尺寸MA的局部和全局信息。如果样本尺寸过大，较小的MA则湮没在背景中，无法提取局部特征；反之，如果样本尺寸过小，网络难以学习目标局部邻域或背景的有效特征。因此，本网络首先基于Laplacian尺度空间理论计算每个MA以及负样本的最佳感受野，从而得到每个MA的patchsize，并构建训练样本集。然后，基于SpatialPyramid Pooling(SPP)框架能够适用于多尺度patch的优良特性，在网络输入层之后，将不同尺度的Patch通过SPP层统一到相同维度，实现视觉特征的多尺度融合。

此外，对于MA这类图像中的弱小目标，传统的深度网络经过多次卷积和池化后，目标信息会大量丢失，难以提取丰富有效地语义特征(语义特征可以更好地表示目标的本征特性)。因此，本网络经过轻量的conv+pooling运算后，引入特征金字塔(Feature PyramidNetwork，FPN)，不仅可以避免特征的大量丢失，而且能够实现语义特征的多尺度融合。同时，在特征金字塔网络中，将up-sampling替换成deconv，能够有效地弥补由于conv&pooling造成的特征细节丢失这一缺陷。此外，在FPN中加入了视觉注意机制(Convolutional Block Attention Module)对特征进行优化和融合，从而更好地提高特征表达的能力。

发明内容

本发明目的在于设计一个多尺度的神经网络模型，检测眼底图像中的小目标(MA)。

为了实现上述目的，本发明的方案是：

设计一种适用于多尺度的神经网络模型，用于检测眼底图像的小目标区域，并进一步进行分类。提出了一种全新的神经网络结构，可以接受任意尺度的输入图像，并加强特征表达和对显著特征的关注，精确对图像进行分类。目前的具体步骤如下：

(1)选取8种公共数据集，包括ROC、DB1、e-ophtha、RC-RGB-MA1、RC-RGB-MA2、RC-SLO-G、RC-SLO-I、IDRiD，基于Laplacian尺度空间理论计算每个MA以及负样本的最佳感受野，从而得到每个MA的patchsize；

(2)对于正负样本patch的计算，正样本(MA)以MA区域的连通域(金标准)质心为中心，截取patch，负样本选取除MA区域外随机截取图像中的patch区域作为负样本；

(3)MA检测属于一个二分类任务，而眼底图像中负样本的数量远远大于正样本的数量，导致训练样本不均。为了保证网络能够充分学习正负样本的特征，本网络按照正负样本数量比为1∶2构建训练样本集；

(4)设计神经网络，可实现对不同尺度的样本进行训练，实现正负样本的分类功能；

(5)进行多次实验，探究最佳的网络参数，并使用多种评价指标评估模型，包括准确度(Accuracy)、精确度(Precision)、灵敏度(Sensitivity)、F1分数；

(6)设计消融实验，探究每个模块所解决的具体问题；

(7)证明该方法的可行性与优越性，即该方法可实现对各种眼底图像进行正确且精准的分类。

本发明的有益效果是：该方法能对多种尺度的眼底图片进行特征提取，并使用同一部分的共享参数对不同尺度的测试样本进行正负预测。以神经网络为基础，我们使用多种公共数据集手动截取了多种尺寸的正负样本图像，以训练一个适合的网络模型，在完成基本的分类问题的基础上，进一步解决了一个具有挑战性的问题：多尺度图像分类。为了解决这个问题，我们构建了ASPP模块，自适应的对图像进行池化，使用特殊的特征融合机制，并引入注意力机制和特征金字塔融合方式，得到有效特征，更加有利于分类任务。

附图说明

图1是数据集的制作流程图。

图2是视网膜眼底图像中微动脉瘤检测的分层金字塔网络算法的流程图。

具体实施方式

一种用于处理多尺度眼底图像的分类算法，解决了传统的深度学习算法只能处理单一尺度的局限性，对于眼底病变区域分类这一领域，为医学研究做出微薄之力。

选取8种公共数据集，包括ROC、DB1、e-ophtha、RC-RGB-MA1、RC-RGB-MA2、RC-SLO-G、RC-SLO-I、IDRiD，基于Laplacian尺度空间理论计算每个MA以及负样本的最佳感受野，从而得到每个MA的patchsize，作为神经网络的输入，如图1所示。

以标注后的眼底图像patch为基础，利用卷积神经网络(Convolutional NeuralNetworks，CNN)和深度学习方法实现二分类，对眼底图像中的病灶区域进行特征学习。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。

我们的输入图像选择了19×19、21×21、23×23、25×25、27×27、29×29、31×31、33×33八种尺度，使用全新的T型网络框架。先经过第一阶段特征提取，增加通道相关性，之后使用ASPP结构，可以针对不同尺度的输入图像进行自适应池化，再经过视觉特征过尺度融合得到同一尺寸的特征图，用于第二阶段的特征提取。第二阶段的特征提取包括下采样和上采样两个阶段，下采样阶段引入cbam注意力机制，上采样阶段引入金字塔融合(语义特征多尺度融合)机制。每种尺度都有数万张样本图像，使用训练集∶验证集∶测试集＝7∶2∶1的比例进行实验，算法流程如图2所示。

在我们的神经网络算法中，ASPP结构中使用自适应pooling方法得到5×5、7×7、9×9的特征图，用padding和add方式对特征图进行特征融合，可以使不同尺度的输入图片得到相同尺度的9×9的特征图。对融合后的特征图进行3层下采样特征提取，每层下采样的输出分别经过通道注意力机制和空间注意力机制，可以更加准确的强调有效特征，避免背景以及其他噪声对有效特征信息造成干扰。在提取到有效的特征后，通过3层上采样操作还原特征图的细节信息，并与下采样中不同尺度的特征图进行特征金字塔融合，最后将金字塔每一层的特征图进行像素累加操作，作为用于分类的特征图，最终得到二分类预测结果。

根据检测的混淆矩阵，计算准确度(Accuracy)、精确度(Precision)、灵敏度(Sensitivity)、F1分数，综合评价模型性能：

其中，TP(True Positive)表示真正例，FN(False Negative)表示假反例，FP(False Positive)表示假正例，他们代表不同的预测结果。四者均是结果越高，模型效果越好。

需要说明的是，以上所述仅为本发明实施例，仅仅是解释本发明，并非因此限制本发明专利范围。对属于本发明技术构思而仅仅显而易见的改动，同样在本发明保护范围之内。

Claims

1.一种面向视网膜眼底图像中的多尺度小目标检测方法，包括如下步骤：

(1)选取8种公共数据集，基于Laplacian尺度空间理论计算每个MA以及负样本的最佳感受野，从而得到每个MA的patchsize；

(2)手动对正负样本patch进行计算，正样本(MA)以MA区域的连通域(金标准)质心为中心，截取patch，负样本选取除MA区域外随机截取图像中的patch区域作为负样本；

(3)制作数据集对应的标签，并通过预设值对图像进行标准化和归一化；

(4)设计适用于现有数据集的神经网络，以实现对多尺度视网膜眼底图像中微动脉瘤的分类；

(5)通过计算准确度、精确度、灵敏度、F1分数对所述神经网络性能进行评价。

2.如权利要求1所述的面向视网膜眼底图像中的多尺度小目标检测方法，其特征在于，步骤(4)中的神经网络为特征提取网络，以提取有效的病灶区域特征信息，完成后续的分类任务。

3.如权利要求1所述的面向视网膜眼底图像中的多尺度小目标检测方法，其特征在于，神经网络使用ASPP方法，对不同尺度的眼底图像进行自适应池化，之后进行多尺度特征融合，使不同尺寸的图像可以得到相同尺度的特征图，用于后面共享参数的训练。

4.如权利要求1所述的面向视网膜眼底图像中的多尺度小目标检测方法，其特征在于，卷积神经网络引入注意力机制，对融合后的特征图进行3层下采样特征提取，每层下采样的输出分别经过通道注意力机制和空间注意力机制，可以更加准确的强调有效特征，避免背景以及其他噪声对有效特征信息造成干扰。

5.如权利要求1所述的面向视网膜眼底图像中的多尺度小目标检测方法，其特征在于，特征融合使用金字塔融合机制，在提取到有效的特征后，通过3层上采样操作还原特征图的细节信息，并与下采样中不同尺度的特征图进行特征金字塔融合，最后将金字塔每一层的特征图进行像素累加操作，作为用于分类的特征图，最终得到二分类预测结果。