CN113158863A

CN113158863A - 一种异常眼底照片识别方法

Info

Publication number: CN113158863A
Application number: CN202110395471.7A
Authority: CN
Inventors: 朱子辰; 刘成菊
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-04-13
Filing date: 2021-04-13
Publication date: 2021-07-23

Abstract

本发明涉及一种异常眼底照片识别方法，其特征在于，包括以下步骤：S1：获取眼底照片；S2：通过多种方式对眼底照片进行特征提取，得到眼底照片的多种特征向量；S3：对提取的多种特征向量进行特征融合；S4：根据融合特征，利用训练完成的分类器对眼底照片进行分类；S5：根据分类结果进行异常眼底照片的识别，与现有技术相比，本发明具有准确率高、速度快等优点。

Description

一种异常眼底照片识别方法

技术领域

本发明涉及图像处理领域，尤其是涉及一种异常眼底照片识别方法。

背景技术

在眼底照相中引入图像识别技术，拍摄照片后，可以由眼底相机或者与眼底相机相连接的电脑直接对眼底照片进行图像处理，识别出异常眼底照片后提供给医生进行眼底疾病的诊断和治疗，有效提高医生的工作效率。

国内外已经有一些学者开展了一些研究工作，这些工作集中在特定领域，针对某一特定类型的异常眼底进行识别，而不能对多种类型的异常眼底照片进行全面的识别，识别的准确率和效率均不高。

因此，亟需一种能够识别多种类型的异常眼底照片，快速判断眼底照片是否异常的技术。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种准确率高、效率高的异常眼底照片识别方法。

本发明的目的可以通过以下技术方案来实现：

一种异常眼底照片识别方法，包括以下步骤：

S1：获取眼底照片；

S2：通过多种方式对眼底照片进行特征提取，得到眼底照片的多种特征向量；

S3：对提取的多种特征向量进行特征融合；

S4：根据融合特征，利用训练完成的分类器对眼底照片进行分类；

S5：根据分类结果进行异常眼底照片的识别。

优选地，步骤S2中，分别利用修改后的VGG16模型、修改后的ResNet50模型、修改后的Inception-v3模型和修改后的DenseNet121模型进行特征提取。

进一步地，所述的修改后的VGG16模型通过以下方式得到：

首先加载VGG16模型在ImageNet数据库上训练好的参数，将VGG16模型的最后的全连接层的输出大小修改为2，并解冻最后一层之前的所有层的参数；

然后使用标记好的眼底照片数据集训练VGG16模型；

训练完成后，保存该VGG16模型，得到修改后的VGG16模型。

进一步地，所述的修改后的ResNet50模型通过以下方式得到：

首先加载ResNet50模型在ImageNet数据库上训练好的参数，将ResNet50中最后的全连接层的输出大小修改为2，并解冻最后一层之前的所有层的参数；

然后使用标记好的眼底照片数据集训练ResNet50模型；

训练完成后，保存该ResNet50模型，得到修改后的ResNet50模型。

进一步地，所述的修改后的Inception-v3模型通过以下方式得到：

首先加载Inception-v3模型在ImageNet数据库上训练好的参数，将Inception-v3中最后的全连接层的输出大小修改为2，并解冻最后一层之前的所有层的参数；

然后使用标记好的眼底照片数据集训练Inception-v3模型；

训练完成后保存该Inception-v3模型，得到修改后的Inception-v3。

进一步地，所述的修改后的DenseNet121模型通过以下方式得到：

首先加载DenseNet121模型在ImageNet数据库上训练好的参数，将DenseNet121中最后的全连接层的输出大小修改为2，并解冻最后一层之前的所有层的参数；

然后使用标记好的眼底照片数据集训练DenseNet121模型；

训练完成后，保存该DenseNet121模型，得到修改后的DenseNet121。

进一步优选地，所述的标记好的眼底照片数据集中，标记的方法为：

获取多名医生对每张眼底照片有无异常的独立判断结果；

若所有医生均判断某张眼底照片没有异常，则将该照片标记为“没有异常”；

若有至少一位医生判断某张眼底照片有异常，则将该照片标记为“有异常”；

若有至少一位医生认为无法分辨是否有异常，则将该照片标记为“有异常”。

进一步优选地，所述的标记好的眼底照片数据集采用ODIR2019数据集，训练时，将ODIR2019数据集中的眼底照片随机分为训练集、验证集和测试集，且训练集、验证集和测试集之间没有重复样本，所述的训练集占所有数据的70％，所述的验证集和测试集分别占所有数据的15％。

进一步地，步骤S3中，采用级联的方式进行特征融合；步骤S4中，所述的分类器采用随机森林分类器。

更进一步地，所述的随机森林分类器的训练过程包括以下步骤：

S41：获取眼底照片训练集，使用多种方式对眼底照片进行特征提取，得到眼底照片的多种特征向量，并进行特征融合；

S42：设置随机森林分类器的参数为500棵树，并保持其他参数为默认值；

S43：训练随机森林分类器；

S44：判断所有叶子节点是否均少于2个样本，若是，则执行步骤S45，否则返回执行步骤S43；

S45：完成训练，保存训练完成的随机森林分类器。

与现有技术相比，本发明具有以下优点：

1)本发明提供异常眼底照片的识别方法，能实现拍摄到眼底照片后立即识别出异常眼底照片，提供给有经验的医生进行读取，加快医生的工作效率，另外通过本发明方法可以通过网络只将异常眼底照片发送给远程的医生，方便病人和医生远程诊断，充分利用了中心城市的大医院医生，尽量少地增加大医院医生的劳动强度，有效提高医生的工作效率并降低医生的工作压力；

2)本发明取得合适的照片以后，采用四种方式分别提取眼底照片的特征，这四种方式是最佳的组合，既可以提取出足够多的特征，提高识别异常眼底照片的准确率，也可以最大限度地减少计算量，快速的得到结果，提高识别异常眼底照片的效率，方便使用。

附图说明

图1为本发明异常眼底照片识别方法流程示意图；

图2为本实施例中修改VGG16的流程示意图；

图3为本实施例中训练随机森林分类器的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

实施例

如图1所示，本发明公开了一种异常眼底照片识别方法，包括以下步骤：

1)获取眼底照片

本发明首先需要使用眼底相机拍摄眼底照片，也可以提供以前拍摄好的眼底照片，虽然近年来眼底相机的分辨率较高，达到5184×3456个像素，但是有的眼底相机拍摄的照片分辨率比较低，只有250×188个像素，如果像素太少，难以准确的反应细节，识别的准确度将大大下降，因此为了保证识别的准确度，要求获取的单张眼底照片中横向像素数量不少于640，纵向像素数量不少于640，总的像素数量不少于640×640。

2)采用四种方式分别提取眼底照片的特征

取得合适的照片以后，需要采用四种方式分别提取眼底照片的特征，分别为采用修改后的VGG16模型提取特征、采用修改后的ResNet50模型提取特征、采用修改后的Inception-v3模型提取特征，以及采用修改后的DenseNet121模型提取特征。

以上四种方式都对每一张眼底照片提取出多个维度的特征向量，这四种方式是最佳的组合，既可以提取出足够多的特征，识别异常眼底照片的准确度达到最高，也可以最大限度地减少计算量，快速的得到结果，方便使用。

只有使用数据集训练过的VGG16、ResNet50、Inception-v3、DenseNet121等模型才能得到令人满意的准确度，本申请需要使用完成标记的眼底照片数据集训练这些模型。

国际上有一些公开的数据集，如Kaggle眼底图像数据集、MESSIDOR数据集、ACRIMA、e-ophtha数据集等等，这些数据集主要用于糖尿病视网膜病变和青光眼的研究。本实施例中选择ODIR2019数据集，该数据集包括5000人的双眼彩色眼底照片，并提供了包含患者的性别、年龄、和疾病等信息，ODIR2019数据集是公开的。从网站上可以下载其中4000人的眼底照片，年龄分布在14岁到91岁；这些眼底照片中像素数量最少的是250×188，最多的是5184×3456，不使用像素数量少于640×640的照片。本实施例中使用正常眼底照片数量为3098张，异常眼底照片为3711张，其中，异常眼底照片包含各种常见的症状和拍摄质量不佳的眼底照片，如青光眼、白内障、年龄性黄斑病变、病理性近视、视网膜出血、玻璃体变性等。

原始的VGG16网络不能直接用到本申请中，如图2所示，修改VGG16模型的方式为：将原始的VGG16模型的最后一层全连接层的输出大小修改为2，加载VGG16模型在ImageNet数据库上训练好的参数，解冻最后一层之前的所有层的参数，使用ODIR2019数据集训练VGG16模型，训练完成以后，保存模型，该VGG16模型是修改后的VGG16模型。用修改后的VGG16模型提取眼底照片的特征，每一张眼底照片将产生4096维度的特征向量。

ImageNet数据库提供了用于视觉对象识别软件研究的大型可视化数据库，VGG16、ResNet50、Inception-v3、DenseNet121等模型在ImageNet上训练好的参数是公开的，所有人都可以得到这些参数。在VGG16、ResNet50、Inception-v3、DenseNet121等模型中加载在ImageNet上训练好的参数后，还不能直接用这些模型获取图像的特征，需要解冻最后一层之前的所有层的参数，使用数据集训练模型。

本实施例中，使用ODIR2019数据集训练VGG16模型时，学习率(learning rate)设置为0.001，以随机梯度下降(SGD)为优化器(Optimizer)，批处理(batch size)大小为16，迭代(epoches)50次，采用交叉熵损失函数(cross entropy)为loss function函数，使用softmax分类器(Classifier)。

残差网络(Residual network,ResNet)常作为许多计算机视觉任务网络的骨干网络，ResNet采用shortcut连接方式，因此可以实现跳层连接，采用跳层连接的方式很好地解决了深度神经网络的退化问题，同等层数的前提下残差网络也收敛得更快，这使得设计更深的前馈神经网络成为可能。在各种ResNet中，经常使用ResNet50。

原始的ResNet50也不能直接用到本申请中，本实施例中，修改ResNet50的方法是：修改ResNet50中最后全连接层的输出大小为2，然后加载ResNet50模型在ImageNet数据库上训练好的参数，解冻最后一层之前的所有层的参数，使用ODIR2019数据集训练ResNet50模型，训练完成以后，保存修改后的ResNet50模型，该ResNet50模型就是所述的修改后的ResNet50模型。用修改后的ResNet50模型提取眼底照片的特征，每一张眼底照片将产生2048维度的特征向量。

在实施例中，使用ODIR2019数据集训练ResNet50时，主要参数和训练VGG16时一样。

Inception-v3是由Google提出的深度学习模型，共有4个版本，均采用了Inception模块进行构建。其中Inception-v3模型在2015年ImageNet大型视觉识别挑战赛(ImageNet Large Scale Visual Recognition Competition，ILSVRC)获得第一名。Inception网络提出了卷积分解的方式进行网络连接，该连接方式实现了不降低网络效率的情况下减少参数的数量。Inception模块由卷积核大小为1×1、3×3和5×5的卷积层组成，其输出合并在一起作为下一层的输入，采用较小的卷积替换较大的卷积提高了模型的训练速度。

原始的Inception-v3模型不能用于本申请，本实施例中，修改Inception-v3的方式为：加载Inception-v3模型在ImageNet数据库上训练好的参数，将Inception-v3中最后的全连接层的大小改为2，解冻最后一层之前的所有层的参数，然后使用ODIR2019数据集训练Inception-v3模型，训练完成以后，保存修改后的Inception-v3模型，该Inception-v3模型就是所述的修改后的Inception-v3模型。用修改后的Inception-v3模型提取眼底照片的特征，每一张眼底照片将产生2048维度的特征向量。

本实施例中，使用ODIR2019数据集训练Inception-v3时，主要参数如下：学习率(learning rate)设置为1.0，以Adam为优化器(Optimizer)，批处理(batch size)大小为16，迭代50次，采用交叉熵(cross entropy)为损失函数(loss function)，以softmax为分类器(Classifier)。

在Dense Block中，每一层的输入来自前面所有层的输出，这种密集的联系使得信息流最大化，也实现了特征的重复利用。同时网络的每一层可以被设计得特别窄，即只使用了比较少的特征图，可以达到降低冗余的目的，这使得DenseNet的计算量比较小，梯度传递更加有效。完整的DenseNet架构由若干个Dense Block串联而成的，在每个Dense Block结构中添加bottleneck层，减少了输入的feature map数量，既能缩小计算量，又能融合各个通道的特征。

原始的DenseNet121不能用于本申请，本实施例中，修改DenseNet121的方式是：将其中最后全连接层的大小改为2，加载DenseNet121在ImageNet数据库上训练好的参数，解冻最后一层之前的所有层的参数，使用ODIR2019数据集训练DenseNet121模型，训练完成以后，保存DenseNet121，该DenseNet121模型就是所述的修改后的DenseNet121模型。用修改后的DenseNet121模型提取眼底照片的特征，每一张照片将产生1024维度的特征向量。

本实施例中，使用ODIR2019数据集训练DenseNet121时，主要参数和训练Inception-v3时一样。

本实施例中，训练VGG16、ResNet50、Inception-v3、DenseNet121时，将ODIR2019数据集中的照片随机分为训练集、验证集和测试集，且相互之间没有重复样本，训练集占所有数据的70％，验证集和测试集分别是15％。

每次提取特征时都可以直接使用以前修改后的VGG16、ResNet50、Inception-v3、DenseNet121，而无需再次修改它们；对这些网络模型的修改工作比较繁琐，需要使用标记好的数据集，由本领域的技术人员按照本申请记载的方法修改后，就可以直接使用，而无需再次修改和训练。

3)对提取的特征进行融合

当不同类别图像之间的差异在某种特征敏感特性上的差异不大时，采用一种特征训练的分类器难以得到正确的分类。此外，图像中复杂的背景噪声也会导致提取的特征的质量下降，既增加了分类器训练难度，又降低了分类器的预测准确性。特征融合同时提取数据的多种特征，并进行特征级融合，实现不同特征之间的信息互补，在解决图像识别问题中，相对于单一特征而言，基于特征融合的图像识别方法具有更好的鲁棒性。

本实施例中，采用级联的方式进行特征融合，将修改后的VGG16、ResNet50、inception-v3和DenseNet121模型用于提取眼底照片特征，每一个模型提取的特征向量大小分别为4096、2048、2048和1024，进行特征融合以后的维度为9216。

4)使用分类器进行分类

分类器也需要进行训练，如图3所示，本实施例中训练分类器的过程如下：

S41：输入眼底照片训练集，分别使用修改后的VGG16模型、ResNet50模型、Inception-v3模型、DenseNet121模型提取眼底照片特征，并进行特征融合；

S43：训练随机森林分类器，训练时自动调整参数；

S45：完成训练，保存训练完成的随机森林分类器。

本实施例中采用Python编写了用户界面，在用户界面中用文字显示分类后的结果。多种编程工具都可以编写用户界面，用文字、语音、图片等方式都可以显示分类后的结果。

5)显示分类后的结果。

本实施例中，使用Ubuntu18.04***的计算机修改VGG16、ResNet50、Inception-v3、DenseNet121等网络模型和训练分类器，处理器型号为Inter(R)Xeon(R)E5-2678v3，用于加速深度学习模型训练的GPU为Geforce GTX1080Ti显卡。深度学习相关配置环境为Ubuntu18.04+CUDA10.0+CUDNN7.5.1，Python版本为3.8，采用的深度学习框架是PyTorch。

为了分析实验结果，本实施例采用准确度(Accuracy)、灵敏度(Sensitivity)、精确度(Precision)和F1度量(F1_measure)来评估模型的性能。准确度是分类正确的样本数与总样本数之比；灵敏度是所有正例样本中分类正确的比例；精确度是预测为正例，实际为正例的比例；F1指标是精确度和灵敏度的调和均值。

四个性能指标的计算公式如下：其中，TP、TN、FP、FN分别是指真阳性(TruePositive)、真阴性(True Negative)、假阳性(False Positive)和假阴性(FalseNegative)的数量。其中，Accuracy＝(TP+TN)÷(TP+TN+FP+FN)×100％；Sensitivity＝TP÷(TP+FN)×100％；Specificity＝TN÷(TN+FP)×100％；Precision＝TP÷(TP+FP)×100％；F1_measure＝2×Specificity×Precision÷(Specificity+Precision)×100％。

真阳性是指着异常眼底样本被正确分类为异常，如果异常眼底样本被错误地归为正常类别，则为假阴性。真阴性意味着正常眼底正确地归为正常，而假阳性是指正常眼底样本被错误地归为异常眼底。

通过本发明的方法，修改后的VGG16模型在测试集上的准确度和F1度量是84.4％和83.3％，修改后的ResNet50模型在测试集上的准确度和F1度量是86.6％和83.3％，修改后的Inception-v3模型在测试集上的准确度和F1度量是86.4％和88.2％，修改后的DenseNet121模型在测试集上的准确度和F1度量是86.6％和83.3％。

将四个模型提取的眼底图像特征以级联方式进行融合，融合后的特征作为随机森林分类器的输入，准确度和F1度量是95.1％和94.8％。如果将随机森林分类器换成其他的分类器，准确度和F1度量都会下降，因此本实施例优选使用随机森林分类器。

本发明方法可以变成网络服务程序，在网络连接的状态下实现自动异常眼底照片的识别。在本地电脑里选择一张眼底照片，选择的眼底照片将传递到服务器中，服务器接收到选择的眼底照片，服务器采用本申请的方法得出眼底照片的分类结果，将结果返回给本地计算机。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的工作人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种异常眼底照片识别方法，其特征在于，包括以下步骤：

S1：获取眼底照片；

S3：对提取的多种特征向量进行特征融合；

S5：根据分类结果进行异常眼底照片的识别。

2.根据权利要求1所述的一种异常眼底照片识别方法，其特征在于，步骤S2中，分别利用修改后的VGG16模型、修改后的ResNet50模型、修改后的Inception-v3模型和修改后的DenseNet121模型进行特征提取。

3.根据权利要求2所述的一种异常眼底照片识别方法，其特征在于，所述的修改后的VGG16模型通过以下方式得到：

然后使用标记好的眼底照片数据集训练VGG16模型；

训练完成后，保存该VGG16模型，得到修改后的VGG16模型。

4.根据权利要求2所述的一种异常眼底照片识别方法，其特征在于，所述的修改后的ResNet50模型通过以下方式得到：

然后使用标记好的眼底照片数据集训练ResNet50模型；

训练完成后，保存该ResNet50模型，得到修改后的ResNet50模型。

5.根据权利要求2所述的一种异常眼底照片识别方法，其特征在于，所述的修改后的Inception-v3模型通过以下方式得到：

然后使用标记好的眼底照片数据集训练Inception-v3模型；

训练完成后保存该Inception-v3模型，得到修改后的Inception-v3。

6.根据权利要求2所述的一种异常眼底照片识别方法，其特征在于，所述的修改后的DenseNet121模型通过以下方式得到：

然后使用标记好的眼底照片数据集训练DenseNet121模型；

训练完成后，保存该DenseNet121模型，得到修改后的DenseNet121。

7.根据权利要求3-6任一项所述的一种异常眼底照片识别方法，其特征在于，所述的标记好的眼底照片数据集中，标记的方法为：

获取多名医生对每张眼底照片有无异常的独立判断结果；

8.根据权利要求1所述的一种异常眼底照片识别方法，其特征在于，步骤S3中，采用级联的方式进行特征融合；步骤S4中，所述的分类器采用随机森林分类器。

9.根据权利要求8所述的一种异常眼底照片识别方法，其特征在于，所述的随机森林分类器的训练过程包括以下步骤：

S43：训练随机森林分类器；

S45：完成训练，保存训练完成的随机森林分类器。

10.根据权利要求3-6任一项所述的一种异常眼底照片识别方法，其特征在于，所述的标记好的眼底照片数据集采用ODIR2019数据集，训练时，将ODIR2019数据集中的眼底照片随机分为训练集、验证集和测试集，且训练集、验证集和测试集之间没有重复样本，所述的训练集占所有数据的70％，所述的验证集和测试集分别占所有数据的15％。