CN112598683A

CN112598683A - 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法

Info

Publication number: CN112598683A
Application number: CN202011571625.5A
Authority: CN
Inventors: 王建林; 郭永奇; 付雪松; 邱科鹏
Original assignee: Beijing University of Chemical Technology
Current assignee: Beijing University of Chemical Technology
Priority date: 2020-12-27
Filing date: 2020-12-27
Publication date: 2021-04-02
Anticipated expiration: 2040-12-27
Also published as: CN112598683B

Abstract

本发明公开了一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法，属于医学图像分割领域。首先，在Mask R‑CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野，提升网络对人眼OCT图像目标变化的适应能力；其次，结合关系模型(relation model,RM)模块，学习人眼OCT图像结构间的位置关系特征图，利用位置关系特征图增强网络特征；然后在此基础上构建multi‑stage mask结构，通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点，能够有效利用人眼结构特征和迭代分割网络等结构提高人眼OCT图像分割准确度。

Description

一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法

技术领域

本发明涉及一种扫频OCT人眼图像分割方法，属于医学图像分割领域，尤其涉及一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法。

背景技术

基于扫频光学相干层析成像(optical coherence tomography，OCT)技术的人眼图像具有高分辨率、非侵入和实时成像的优点，已广泛应用于眼科视网膜和眼前节疾病诊断。人眼OCT图像结构与眼科疾病表征、人眼相关参数测量有着密切的联系，因此，对人眼OCT图像结构的准确分割，能够提高眼科疾病诊断、角膜曲率和眼轴长等人眼参数测量的准确度。

基于机器学习的OCT图像分割方法将图像分割问题转化为分类问题，实现不同类别像素的分割，对同一类目标的形变和不同目标间的形状差异都具有较强的适应能力。然而人工特征对目标信息的表达能力有限，无法准确分割目标和识别分辨外界干扰，制约了OCT图像分割的准确度。近年来，深度学习利用深层卷积神经网络(Convolutional NeuralNetworks,CNN)自主提取和学习目标的深层抽象特征，相比于人工构建的特征，深层抽象特征由网络自主学习构建，无需人工干扰，能够为网络提供丰富准确表征目标信息的特征，进而实现高精度、快速的目标分类、识别及分割。代表性的实例分割方法MaskR-CNN利用区域生成网络(Region Proposal Network,RPN)从高维特征图中提取含有目标的区域(Regionof Interest，ROI)，对ROI内的目标进行识别分割，使得感受野和目标区域重合，充分利用了分割感受野，能够准确识别分割实例目标。然而，该方法应用于人眼OCT图像分割时，存在以下问题：(1)该方法中的常规卷积形式产生的常规感受野对人眼OCT图像中的非规则目标形状拟合度较低；(2)Mask分支的单次上采样形式无法修正分割误差，制约了目标分割的精度；(3)该方法将每一个ROI区域进行单独处理，无法有效利用人眼OCT图像中结构间的关系，存在误分割和漏分割，对外界干扰的鲁棒性较低。

本发明公开了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法，属于医学图像分割领域。首先，在MaskR-CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野，提升网络对人眼OCT图像目标变化的适应能力；其次，结合关系模型(relation model,RM)模块，学习人眼OCT图像结构间的位置关系特征图，利用位置关系特征图增强网络特征；然后在此基础上构建multi-stage mask结构，通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点，能够有效利用人眼结构解决MaskR-CNN网络的问题，提高了人眼OCT图像分割准确度。

发明内容

本发明以提高扫频人眼OCT图像分割准确度为目的，提出了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法，包括以下步骤：

步骤一：通过图像翻转的数据增强方式对扫频OCT人眼图像训练样本进行预处理并构建训练数据集；

步骤二：构建RM Multi-stage Mask R-CNN目标分割网络模型，在主干网络中采用调制可变形卷积，产生非规则的感受野，提高感受野与人眼OCT图像非规则结构的拟合度；在特征图提取阶段结合RM，充分学习角膜、晶状体和视网膜固定的位置关系；利用迭代修正误差的思想，在mask分割阶段构建multi-stage mask，将前一迭代阶段的mask特征融合至下一阶段，修正分割误差，提高人眼OCT图像目标检测及分割准确度；

步骤三：为训练目标构建损失函数，网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和，根据步骤一获得的训练数据集，训练步骤二所构建的RM Multi-stageMask R-CNN目标分割网络模型直至损失函数收敛；

步骤四：输入扫频OCT人眼图像，利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜，输出图像中每个目标的边界框类别、位置、尺寸、分割结果。

所述步骤一，具体包括：

通过对扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。其中翻转率为0.5，即每张图片有0.5的概率会进行翻转。

所述步骤二，具体包括：

网络结构包括四部分：主干网络、RPN、relation FC以及multi-work分支，详细结构如图1(a)所示。网络以ResNet50-FPN作为主干网络提取目标特征，其中ResNet50的stage3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积，使得网络能够产生不规则的感受野，提升网络适应人眼OCT图像目标形变的能力，利用FPN融合高维和低维的特征图，增强特征提取能力；调制可变形卷积可写为如式所示。

式中，y_d为卷积后的输出，x为该点的像素值，p₀为采样网格中心点，p_i为采样网格点，Δp_i为偏置，常为分数，采用双线性插值获得采样值，如式所示，R为正方形采样位置的集合，当卷积核大小为3×3，膨胀率为1时，R＝{(-1,-1),(-1,0),...,(1,1)}，调制权重Δm_i∈[0,1]，Δm_i同样由额外卷积层获得，输入与Δp_i相同，但由不同卷积核实现，通道数为N。

式中，p＝p₀+p_i+Δp_i，q枚举了特征图上所有整数位置，G_bil(·,·)为二维双线性插值核，可表示为如式所示。

G_bil(q,p)＝g(q_x,p_x)·g(q_y,p_y)

式中，g(a,b)＝max(0,1-|a-b|)。

将主干网络提取的特征图传入RPN产生ROIs，将ROIs传入multi-work分支，multi-work分支包括检测及分割分支，检测分支输出目标类别及回归框坐标，分割分支输出分割目标，每次迭代首先经过RoIAlign对ROIs进行池化和对齐，首级迭代结构采用relation FC结构，在cls和loc共享的两层FC每一层之后接入RM，利用RM获取特征图中目标的关系，并与特征图融合，提升目标识别和分割准确度，后两级迭代结构采用shared FC结构，relationFC的详细结构分别如图1(b)所示。

每一个ROI特征由几何特征(geometric feature)f_G及外观特征(appearancefeature)f_A表示，f_G为4-D回归框坐标值，f_A为网络上一层输出特征图。

对于N个目标

第n个目标与目标集合的关系特征为

式中，W_V为投影矩阵，

为第m个输出特征图。W_V对

做线性变换，输出维度为

原始维度的1/N_re，N_re为关系个数，re为关系特征提取重复次数，w^mn代表目标m对目标n的影响，可由式表示。

式中，

为外观权重，

为几何权重，k_target为影响目标n的目标总个数。

可由式表示。

式中，

为

和

点乘，W_K和W_Q为投影矩阵，

为投影后特征维度。

由式表示。

式中，ε_G将

及

投影到高维空间，输出维度为d_g，W_G为投影矩阵，将变化后的高维特征转化为标量。

f_G表示为

式中，x，y，w，h分别为几何特征的坐标及宽和高，f_G的形式用以避免翻转和尺度变化影响。

最终目标n的输出特征为

人眼OCT图像分割的首要目标是提高目标结构的分割准确度，而Mask R-CNN的单次mask特征提取上采样反卷积方式无法对分割误差进行修正，制约了Mask分支的分割准确度。而采用特定交并比(intersection over union,IoU)阈值训练的bounding box(bbox)回归器倾向于产生IoU更高的bbox，因此，检测分支采用IoU阈值不断增加的一系列级联检测器，能够用于解决近似误报(close false positives)样本问题，进而提高检测和分割的准确度。bbox迭代如式所示。

式中，x_feature为主干网络提取的特征图，r为RPN输出的回归框坐标，T是迭代次数，每一阶段输出B_T作为下一迭代阶段输入，相当于重采样，改变了假设的分布，每阶段具有不同的回归框归一化均值、方差，且对于特定阈值IoU_t优化目标函数。

分割分支的迭代思想相同，每一阶段的mask特征通过网络提取特征图x_feature和预测边框r_t获得，通过将反卷积层之前的特征进行1×1卷积，与原始mask特征相加，向下一阶段迭代。迭代过程如式到式所示。

式中，A为RoIAlign，负责分别生成7×7的

特征和14×14的

特征，B_t为bbox端(bbox head)，M_t为mask端(mask head)，F将上一阶段mask特征与本阶段

结合，cov_t为1×1的卷积操作，

为mask端反卷积层之前的输出。

所述步骤三，具体包括：

为了实现网络训练获取收敛的网络模型，需要构建网络损失函数实现网络训练。网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和，L_loc为边框预测值与真实值之间smooth L1损失，L_cls为目标分类预测概率与真实类别之间的交叉熵，L_mask为目标预测掩码和真实掩码之间二进制交叉熵，L_RPN为RPN模块损失函数。网络损失函数如式所示。

式中，c_t为目标分类预测，

为目标分类真实值，r_t为边框预测值，

为边框真实值，m_t为目标预测掩码，

为目标真实掩码；T为迭代分支的迭代次数，α_t为每阶段优化目标之间权衡系数，λ_clc、λ_loc、λ_mask和λ_RPN为多任务之间权衡系数。训练深度卷积神经网络直至损失函数收敛，获得RM Multi-stage Mask R-CNN网络分割模型。

所述步骤四，具体包括：

输入测试样本，加载已训练好的RM Multi-stage Mask R-CNN模型进行人眼OCT图像识别分割。

本发明通过调制可变形卷积产生非规则感受野，提升了人眼OCT图像复杂形变的拟合度，引入关系模型充分学习人眼OCT图像中角膜、晶状体和视网膜之间的位置关系构建关系特征，利用关系特征提升了目标分割准确度，采用迭代mask结构分支有效的修正了分割误差，解决了人眼OCT图像识别和分割准确度较低，易受环境干扰的问题，能够有效实现人眼OCT图像中角膜、晶状体和视网膜的准确识别与分割，实现了眼轴长的准确测量。

附图说明

图1是RM Multi-stage Mask R-CNN网络结构示意图：(a)网络结构整体示意图(b)relationFC结构示意图；

图2是人眼OCT图像Ⅰ：无干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN；

图3是人眼OCT图像Ⅱ：轻微干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RMMulti-stage Mask R-CNN；

图4是人眼OCT图像Ⅲ：严重干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN。

图5是人眼OCT图像多目标分割指标结果箱型图(a)Dice指标结果(b)Jaccard指标结果(c)Precision指标结果(d)Recall指标结果(e)Specificity指标结果。

具体实施方式

下面结合实例及附图对本发明作进一步的描述，需要说明的是，实施例并不限定本发明要求保护的范围。

实施例

实施例采用扫频OCT人眼图像进行验证，扫频OCT人眼图像采集于温州医科大学眼视光医院杭州院区，采集设备为卡尔蔡司公司的IOL Master 700光学生物测量仪，此设备光源使用可调谐激光器，波长范围为1035nm-1080nm，眼轴长测量范围14mm-38mm，显示分辨率为0.01mm。数据采集时为了保证患者隐私性，并未透露患者性别年龄等信息，仅获取眼轴长度数据及人眼OCT图像。实验所用人眼OCT图像数据共996张，分别为：636张训练集图像数据，160张验证集图像数据，200张测试集图像数据。实施例的计算机配置为Linux***，Ubantu 18.04，Python3.6，Pytorch框架，CPU为Intel Core i7-8700K，内存16GB，图形处理单元(Graphics Processing Units,GPU)为NVIDIA GTX 1080Ti，并采用NVIDA cuda(v8.0)和cudnn(v6.0)库。

将本发明应用到上述扫频人眼OCT图像的具体步骤如下：

步骤一：首先进行数据标注，将采集到的所有人眼OCT图像数据进行目标标注，标注过程由温州医科大学眼视光医院的专业人士指导。标注后将标注数据集格式按照COCO格式进行转换及分类，产生符合网络输入要求的训练集、验证集和测试集。利用生成的训练集和验证集对网络进行训练。测试集用于测试训练后的网络。而后，通过对训练集的扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。

步骤二：数据增强后构建扫频OCT人眼图像训练数据集，利用训练数据集对RMMulti-stage Mask R-CNN模型进行训练。RM Multi-stage Mask R-CNN网络结构的主干网络采用pre-training方式进行了权重迁移，预训练权重为mmdetection提供的预训练权重，在进行迁移学习后利用人眼OCT图像数据对网络进行微调(fine turn)训练。优化方式采用随机梯度下降(stochastic gradient descent,SGD)方法，初始学习率(learning rate)为0.02，在第13和17个epoch处降低学习率，每次降低10倍。关系模型中超参数设置为

d_g＝64，N_re＝16，re＝1；损失函数中超参数设置T＝3，α_t为每阶段优化目标之间权衡系数，α_1,2,3＝[1,0.5,0.25]，λ_clc、λ_loc、λ_mask和λ_RPN为多任务之间权衡系数，均设置为1，超参数通过实验方式确定。当模型通过多次迭代收敛后，获得训练完成的Multi-stageMask R-CNN模型。

步骤三：将扫频OCT人眼图像输入到训练完成的Multi-stage Mask R-CNN模型中。首先通过主干网络提取扫频OCT人眼图像的特征图，并且利用可变性卷积产生非规则的感受野，实现非规则目标的准确拟合；然后将特征图输入到RPN中，提取ROIs，并将ROIs输入至RM模块中，利用RM模块学习扫频OCT人眼图像中角膜、晶状体和视网膜之间的结构关系，构建关系特征图，并将关系特征图与原始特征图融合，将融合之后的特征图传入多任务网络，对前景进行再次分类并且对回归框进行二次回归，在mask分支中对目标进行分割，并且通过多次迭代，修正分割误差，提升分割准确度。Multi-stage Mask R-CNN网络的分割结果如图2-图4所示。

为了验证本发明所提方法的分割准确度，选取K-means、U-net和FPN-deformable-Mask R-CNN作为对比方法。并选取了5个图像分割领域具有代表性的评价指标，分别为Dice、Jaccard(也被称为IOU)、Precision、Specificity和Recall(也被称为Sensitivity)。分割结果指标如表1所示，多个目标的分割指标箱型图如图5所示。

表1人眼OCT图像分割结果指标

由表1可以得出，本发明所述方法在分割标准指标Dice和Jaccard中的指标均为最高，并且相比较其他几种方法均有较大提升。Precision与FPN-deformable-Mask R-CNN几乎持平。Recall指标与U-net相比低了0.02，但是Recall与Precision两个指标相互制约，在一个指标较高的同时另外一个指标会相对较低；因为本发明分割的目的是尽量提升分割准确度，因此本发明所述方法将代表准确度的Precision指标作为优先考虑，并且本发明所述方法在保持了Precision为0.8886的同时，将Recall指标提高到了0.8549；Specificity与K-means相比低了0.0031，因为K-means只进行了二分类，其对背景的判别相对较简单，因此该项指标较高，而本发明所述方法进行了四分类，对非特定目标分类判别较复杂，在此情况下，本发明所述方法Specificity提高到了0.9847。图5表示了每种方法对每一类目标分割得到的各个指标的箱型图。图中可以得出，本发明所述方法在Dice和Jaccard中具有较高的数值，而且在三类目标中均具有较高的分割准确度，由于三类目标的形变较大，而本发明所述方法均可以实现高准确度分割，证明本发明所述方法对于目标形变具有较强的适应性，能够同时实现大目标和小目标的精准分割，并且对低强度目标和外界干扰具有较强的鲁棒性，而其余几种方法在小目标分割和形变较大的目标分割方面能力不足。图2至图4也可以看出，本发明所述方法在多种情况下均没有出现误分割和漏分割，由图3可以看出，由于眼睫毛的影响，在图像中出现了一些干扰，而FPN-deformable-Mask R-CNN在干扰较少时出现了一个误分割，而U-net出现了多处漏分割区域；由图4可以看出，在干扰项较多时，FPN-deformable-Mask R-CNN出现多处的误分割，U-net依旧存在多处漏分割区域。而本发明所述方法在多种干扰情况下均未出现误分割和漏分割，并且能够准确分割目标，因为本发明所述方法首先对mask部分采用了迭代方式提高分割准确度，通过对mask多次迭代减小分割误差。并且由于人眼结构中的角膜、晶状体及视网膜位置固定，本发明引入了RM，RM可以学习目标间的相互关系，进而利用人眼结构中位置固定的特点，提高大目标和小目标识别及分割的准确度。

Claims

1.一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法，其特征在于：该方法包括以下步骤：

步骤二：构建RM Multi-stage MaskR-CNN目标分割网络模型，在主干网络中采用调制可变形卷积，产生非规则的感受野，提高感受野与人眼OCT图像非规则结构的拟合度；在特征图提取阶段结合关系模型RM，充分学习角膜、晶状体和视网膜固定的位置关系；利用迭代修正误差的思想，在mask分割阶段构建Multi-stage mask，将前一迭代阶段的mask特征融合至下一阶段，以提高mask特征的提取能力，修正分割误差；构建基于RM Multi-stageMask R-CNN网络的扫频OCT人眼图像分割方法，提高人眼OCT图像目标检测及分割准确度；

步骤三：为训练Multi-stage Mask R-CNN网络构建损失函数，网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和，根据步骤一获得的训练数据集，训练步骤二所构建的RM Multi-stage Mask R-CNN目标分割网络模型直至损失函数收敛；

步骤四：输入扫频OCT人眼图像，利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜，输出图像中每个目标的边界框位置、尺寸、分割结果以及目标类别。

2.根据权利要求1所述的一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法，其特征在于：步骤二包括如下步骤，

网络结构包括四部分：主干网络、RPN、relation FC以及multi-work分支；网络以ResNet50-FPN作为主干网络提取目标特征，其中ResNet50的stage 3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积，使得网络能够产生不规则的感受野，提升网络适应人眼OCT图像目标形变的能力，利用FPN融合高维和低维的特征图，增强特征提取能力；调制可变形卷积写为如式所示；

式中，y_d为卷积后的输出，x为该点的像素值，p₀为采样网格中心点，p_i为采样网格点，Δp_i为偏置，常为分数，采用双线性插值获得采样值，如式所示，R为正方形采样位置的集合，当卷积核大小为3×3，膨胀率为1时，R＝{(-1,-1),(-1,0),...,(1,1)}，调制权重Δm_i∈[0,1]，Δm_i同样由额外卷积层获得，输入与Δp_i相同，但由不同卷积核实现，通道数为N；

式中，p＝p₀+p_i+Δp_i，q枚举了特征图上所有整数位置，G_bil(·,·)为二维双线性插值核，可表示为如式所示；

G_bil(q,p)＝g(q_x,p_x)·g(q_y,p_y)

式中，g(a,b)＝max(0,1-|a-b|)；

将主干网络提取的特征图传入RPN产生ROIs，将ROIs传入multi-work分支，multi-work分支包括检测及分割分支，检测分支输出目标类别及回归框坐标，分割分支输出分割目标，每次迭代首先经过RoIAlign对ROIs进行池化和对齐，首级迭代结构采用relationFC结构，在cls和loc共享的两层FC每一层之后接入RM，利用RM获取特征图中目标的关系，并与特征图融合，提升目标识别和分割准确度，后两级迭代结构采用sharedFC结构；

每一个ROI特征由几何特征f_G及外观特征f_A表示，f_G为4-D回归框坐标值，f_A为网络上一层输出特征图；

对于N个目标