CN112598683A - 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 - Google Patents

一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 Download PDF

Info

Publication number
CN112598683A
CN112598683A CN202011571625.5A CN202011571625A CN112598683A CN 112598683 A CN112598683 A CN 112598683A CN 202011571625 A CN202011571625 A CN 202011571625A CN 112598683 A CN112598683 A CN 112598683A
Authority
CN
China
Prior art keywords
mask
stage
human eye
target
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011571625.5A
Other languages
English (en)
Other versions
CN112598683B (zh
Inventor
王建林
郭永奇
付雪松
邱科鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202011571625.5A priority Critical patent/CN112598683B/zh
Publication of CN112598683A publication Critical patent/CN112598683A/zh
Application granted granted Critical
Publication of CN112598683B publication Critical patent/CN112598683B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10101Optical tomography; Optical coherence tomography [OCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,属于医学图像分割领域。首先,在Mask R‑CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野,提升网络对人眼OCT图像目标变化的适应能力;其次,结合关系模型(relation model,RM)模块,学习人眼OCT图像结构间的位置关系特征图,利用位置关系特征图增强网络特征;然后在此基础上构建multi‑stage mask结构,通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点,能够有效利用人眼结构特征和迭代分割网络等结构提高人眼OCT图像分割准确度。

Description

一种基于扫频光学相干层析成像的扫频OCT人眼图像分割 方法
技术领域
本发明涉及一种扫频OCT人眼图像分割方法,属于医学图像分割领域,尤其涉及一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法。
背景技术
基于扫频光学相干层析成像(optical coherence tomography,OCT)技术的人眼图像具有高分辨率、非侵入和实时成像的优点,已广泛应用于眼科视网膜和眼前节疾病诊断。人眼OCT图像结构与眼科疾病表征、人眼相关参数测量有着密切的联系,因此,对人眼OCT图像结构的准确分割,能够提高眼科疾病诊断、角膜曲率和眼轴长等人眼参数测量的准确度。
基于机器学习的OCT图像分割方法将图像分割问题转化为分类问题,实现不同类别像素的分割,对同一类目标的形变和不同目标间的形状差异都具有较强的适应能力。然而人工特征对目标信息的表达能力有限,无法准确分割目标和识别分辨外界干扰,制约了OCT图像分割的准确度。近年来,深度学习利用深层卷积神经网络(Convolutional NeuralNetworks,CNN)自主提取和学习目标的深层抽象特征,相比于人工构建的特征,深层抽象特征由网络自主学习构建,无需人工干扰,能够为网络提供丰富准确表征目标信息的特征,进而实现高精度、快速的目标分类、识别及分割。代表性的实例分割方法MaskR-CNN利用区域生成网络(Region Proposal Network,RPN)从高维特征图中提取含有目标的区域(Regionof Interest,ROI),对ROI内的目标进行识别分割,使得感受野和目标区域重合,充分利用了分割感受野,能够准确识别分割实例目标。然而,该方法应用于人眼OCT图像分割时,存在以下问题:(1)该方法中的常规卷积形式产生的常规感受野对人眼OCT图像中的非规则目标形状拟合度较低;(2)Mask分支的单次上采样形式无法修正分割误差,制约了目标分割的精度;(3)该方法将每一个ROI区域进行单独处理,无法有效利用人眼OCT图像中结构间的关系,存在误分割和漏分割,对外界干扰的鲁棒性较低。
本发明公开了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法,属于医学图像分割领域。首先,在MaskR-CNN网络采用调制可变形卷积替代规则卷积产生非规则感受野,提升网络对人眼OCT图像目标变化的适应能力;其次,结合关系模型(relation model,RM)模块,学习人眼OCT图像结构间的位置关系特征图,利用位置关系特征图增强网络特征;然后在此基础上构建multi-stage mask结构,通过mask多步迭代修正人眼结构的分割误差。本发明考虑了人眼OCT图像特点,能够有效利用人眼结构解决MaskR-CNN网络的问题,提高了人眼OCT图像分割准确度。
发明内容
本发明以提高扫频人眼OCT图像分割准确度为目的,提出了一种基于RM Multi-stage Mask R-CNN网络的扫频OCT人眼图像分割方法,包括以下步骤:
步骤一:通过图像翻转的数据增强方式对扫频OCT人眼图像训练样本进行预处理并构建训练数据集;
步骤二:构建RM Multi-stage Mask R-CNN目标分割网络模型,在主干网络中采用调制可变形卷积,产生非规则的感受野,提高感受野与人眼OCT图像非规则结构的拟合度;在特征图提取阶段结合RM,充分学习角膜、晶状体和视网膜固定的位置关系;利用迭代修正误差的思想,在mask分割阶段构建multi-stage mask,将前一迭代阶段的mask特征融合至下一阶段,修正分割误差,提高人眼OCT图像目标检测及分割准确度;
步骤三:为训练目标构建损失函数,网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,根据步骤一获得的训练数据集,训练步骤二所构建的RM Multi-stageMask R-CNN目标分割网络模型直至损失函数收敛;
步骤四:输入扫频OCT人眼图像,利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜,输出图像中每个目标的边界框类别、位置、尺寸、分割结果。
所述步骤一,具体包括:
通过对扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。其中翻转率为0.5,即每张图片有0.5的概率会进行翻转。
所述步骤二,具体包括:
网络结构包括四部分:主干网络、RPN、relation FC以及multi-work分支,详细结构如图1(a)所示。网络以ResNet50-FPN作为主干网络提取目标特征,其中ResNet50的stage3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积,使得网络能够产生不规则的感受野,提升网络适应人眼OCT图像目标形变的能力,利用FPN融合高维和低维的特征图,增强特征提取能力;调制可变形卷积可写为如式所示。
Figure BDA0002862904410000031
式中,yd为卷积后的输出,x为该点的像素值,p0为采样网格中心点,pi为采样网格点,Δpi为偏置,常为分数,采用双线性插值获得采样值,如式所示,R为正方形采样位置的集合,当卷积核大小为3×3,膨胀率为1时,R={(-1,-1),(-1,0),...,(1,1)},调制权重Δmi∈[0,1],Δmi同样由额外卷积层获得,输入与Δpi相同,但由不同卷积核实现,通道数为N。
Figure BDA0002862904410000032
式中,p=p0+pi+Δpi,q枚举了特征图上所有整数位置,Gbil(·,·)为二维双线性插值核,可表示为如式所示。
Gbil(q,p)=g(qx,px)·g(qy,py)
式中,g(a,b)=max(0,1-|a-b|)。
将主干网络提取的特征图传入RPN产生ROIs,将ROIs传入multi-work分支,multi-work分支包括检测及分割分支,检测分支输出目标类别及回归框坐标,分割分支输出分割目标,每次迭代首先经过RoIAlign对ROIs进行池化和对齐,首级迭代结构采用relation FC结构,在cls和loc共享的两层FC每一层之后接入RM,利用RM获取特征图中目标的关系,并与特征图融合,提升目标识别和分割准确度,后两级迭代结构采用shared FC结构,relationFC的详细结构分别如图1(b)所示。
每一个ROI特征由几何特征(geometric feature)fG及外观特征(appearancefeature)fA表示,fG为4-D回归框坐标值,fA为网络上一层输出特征图。
对于N个目标
Figure BDA0002862904410000041
第n个目标与目标集合的关系特征为
Figure BDA0002862904410000042
式中,WV为投影矩阵,
Figure BDA0002862904410000043
为第m个输出特征图。WV
Figure BDA0002862904410000044
做线性变换,输出维度为
Figure BDA0002862904410000045
原始维度的1/Nre,Nre为关系个数,re为关系特征提取重复次数,wmn代表目标m对目标n的影响,可由式表示。
Figure BDA0002862904410000046
式中,
Figure BDA0002862904410000047
为外观权重,
Figure BDA0002862904410000048
为几何权重,ktarget为影响目标n的目标总个数。
Figure BDA0002862904410000049
可由式表示。
Figure BDA00028629044100000410
式中,
Figure BDA00028629044100000411
Figure BDA00028629044100000412
Figure BDA00028629044100000413
点乘,WK和WQ为投影矩阵,
Figure BDA00028629044100000414
为投影后特征维度。
Figure BDA00028629044100000415
由式表示。
Figure BDA00028629044100000416
式中,εG
Figure BDA00028629044100000417
Figure BDA00028629044100000418
投影到高维空间,输出维度为dg,WG为投影矩阵,将变化后的高维特征转化为标量。
fG表示为
Figure BDA00028629044100000419
式中,x,y,w,h分别为几何特征的坐标及宽和高,fG的形式用以避免翻转和尺度变化影响。
最终目标n的输出特征为
Figure BDA00028629044100000420
人眼OCT图像分割的首要目标是提高目标结构的分割准确度,而Mask R-CNN的单次mask特征提取上采样反卷积方式无法对分割误差进行修正,制约了Mask分支的分割准确度。而采用特定交并比(intersection over union,IoU)阈值训练的bounding box(bbox)回归器倾向于产生IoU更高的bbox,因此,检测分支采用IoU阈值不断增加的一系列级联检测器,能够用于解决近似误报(close false positives)样本问题,进而提高检测和分割的准确度。bbox迭代如式所示。
Figure BDA0002862904410000051
式中,xfeature为主干网络提取的特征图,r为RPN输出的回归框坐标,T是迭代次数,每一阶段输出BT作为下一迭代阶段输入,相当于重采样,改变了假设的分布,每阶段具有不同的回归框归一化均值、方差,且对于特定阈值IoUt优化目标函数。
分割分支的迭代思想相同,每一阶段的mask特征通过网络提取特征图xfeature和预测边框rt获得,通过将反卷积层之前的特征进行1×1卷积,与原始mask特征相加,向下一阶段迭代。迭代过程如式到式所示。
Figure BDA0002862904410000052
Figure BDA0002862904410000053
Figure BDA0002862904410000054
式中,A为RoIAlign,负责分别生成7×7的
Figure BDA0002862904410000055
特征和14×14的
Figure BDA0002862904410000056
特征,Bt为bbox端(bbox head),Mt为mask端(mask head),F将上一阶段mask特征与本阶段
Figure BDA0002862904410000057
结合,covt为1×1的卷积操作,
Figure BDA0002862904410000058
为mask端反卷积层之前的输出。
所述步骤三,具体包括:
为了实现网络训练获取收敛的网络模型,需要构建网络损失函数实现网络训练。网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,Lloc为边框预测值与真实值之间smooth L1损失,Lcls为目标分类预测概率与真实类别之间的交叉熵,Lmask为目标预测掩码和真实掩码之间二进制交叉熵,LRPN为RPN模块损失函数。网络损失函数如式所示。
Figure BDA0002862904410000061
式中,ct为目标分类预测,
Figure BDA0002862904410000062
为目标分类真实值,rt为边框预测值,
Figure BDA0002862904410000063
为边框真实值,mt为目标预测掩码,
Figure BDA0002862904410000064
为目标真实掩码;T为迭代分支的迭代次数,αt为每阶段优化目标之间权衡系数,λclc、λloc、λmask和λRPN为多任务之间权衡系数。训练深度卷积神经网络直至损失函数收敛,获得RM Multi-stage Mask R-CNN网络分割模型。
所述步骤四,具体包括:
输入测试样本,加载已训练好的RM Multi-stage Mask R-CNN模型进行人眼OCT图像识别分割。
本发明通过调制可变形卷积产生非规则感受野,提升了人眼OCT图像复杂形变的拟合度,引入关系模型充分学习人眼OCT图像中角膜、晶状体和视网膜之间的位置关系构建关系特征,利用关系特征提升了目标分割准确度,采用迭代mask结构分支有效的修正了分割误差,解决了人眼OCT图像识别和分割准确度较低,易受环境干扰的问题,能够有效实现人眼OCT图像中角膜、晶状体和视网膜的准确识别与分割,实现了眼轴长的准确测量。
附图说明
图1是RM Multi-stage Mask R-CNN网络结构示意图:(a)网络结构整体示意图(b)relationFC结构示意图;
图2是人眼OCT图像Ⅰ:无干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN;
图3是人眼OCT图像Ⅱ:轻微干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RMMulti-stage Mask R-CNN;
图4是人眼OCT图像Ⅲ:严重干扰结构分割结果(a)原图(b)K-means(c)U-net(d)FPN-deformable-Mask R-CNN(e)RM Multi-stage Mask R-CNN。
图5是人眼OCT图像多目标分割指标结果箱型图(a)Dice指标结果(b)Jaccard指标结果(c)Precision指标结果(d)Recall指标结果(e)Specificity指标结果。
具体实施方式
下面结合实例及附图对本发明作进一步的描述,需要说明的是,实施例并不限定本发明要求保护的范围。
实施例
实施例采用扫频OCT人眼图像进行验证,扫频OCT人眼图像采集于温州医科大学眼视光医院杭州院区,采集设备为卡尔蔡司公司的IOL Master 700光学生物测量仪,此设备光源使用可调谐激光器,波长范围为1035nm-1080nm,眼轴长测量范围14mm-38mm,显示分辨率为0.01mm。数据采集时为了保证患者隐私性,并未透露患者性别年龄等信息,仅获取眼轴长度数据及人眼OCT图像。实验所用人眼OCT图像数据共996张,分别为:636张训练集图像数据,160张验证集图像数据,200张测试集图像数据。实施例的计算机配置为Linux***,Ubantu 18.04,Python3.6,Pytorch框架,CPU为Intel Core i7-8700K,内存16GB,图形处理单元(Graphics Processing Units,GPU)为NVIDIA GTX 1080Ti,并采用NVIDA cuda(v8.0)和cudnn(v6.0)库。
将本发明应用到上述扫频人眼OCT图像的具体步骤如下:
步骤一:首先进行数据标注,将采集到的所有人眼OCT图像数据进行目标标注,标注过程由温州医科大学眼视光医院的专业人士指导。标注后将标注数据集格式按照COCO格式进行转换及分类,产生符合网络输入要求的训练集、验证集和测试集。利用生成的训练集和验证集对网络进行训练。测试集用于测试训练后的网络。而后,通过对训练集的扫频OCT人眼图像进行图像翻转的数据增强方式对训练样本进行预处理并构建训练数据集。
步骤二:数据增强后构建扫频OCT人眼图像训练数据集,利用训练数据集对RMMulti-stage Mask R-CNN模型进行训练。RM Multi-stage Mask R-CNN网络结构的主干网络采用pre-training方式进行了权重迁移,预训练权重为mmdetection提供的预训练权重,在进行迁移学习后利用人眼OCT图像数据对网络进行微调(fine turn)训练。优化方式采用随机梯度下降(stochastic gradient descent,SGD)方法,初始学习率(learning rate)为0.02,在第13和17个epoch处降低学习率,每次降低10倍。关系模型中超参数设置为
Figure BDA0002862904410000081
dg=64,Nre=16,re=1;损失函数中超参数设置T=3,αt为每阶段优化目标之间权衡系数,α1,2,3=[1,0.5,0.25],λclc、λloc、λmask和λRPN为多任务之间权衡系数,均设置为1,超参数通过实验方式确定。当模型通过多次迭代收敛后,获得训练完成的Multi-stageMask R-CNN模型。
步骤三:将扫频OCT人眼图像输入到训练完成的Multi-stage Mask R-CNN模型中。首先通过主干网络提取扫频OCT人眼图像的特征图,并且利用可变性卷积产生非规则的感受野,实现非规则目标的准确拟合;然后将特征图输入到RPN中,提取ROIs,并将ROIs输入至RM模块中,利用RM模块学习扫频OCT人眼图像中角膜、晶状体和视网膜之间的结构关系,构建关系特征图,并将关系特征图与原始特征图融合,将融合之后的特征图传入多任务网络,对前景进行再次分类并且对回归框进行二次回归,在mask分支中对目标进行分割,并且通过多次迭代,修正分割误差,提升分割准确度。Multi-stage Mask R-CNN网络的分割结果如图2-图4所示。
为了验证本发明所提方法的分割准确度,选取K-means、U-net和FPN-deformable-Mask R-CNN作为对比方法。并选取了5个图像分割领域具有代表性的评价指标,分别为Dice、Jaccard(也被称为IOU)、Precision、Specificity和Recall(也被称为Sensitivity)。分割结果指标如表1所示,多个目标的分割指标箱型图如图5所示。
表1人眼OCT图像分割结果指标
Figure BDA0002862904410000082
由表1可以得出,本发明所述方法在分割标准指标Dice和Jaccard中的指标均为最高,并且相比较其他几种方法均有较大提升。Precision与FPN-deformable-Mask R-CNN几乎持平。Recall指标与U-net相比低了0.02,但是Recall与Precision两个指标相互制约,在一个指标较高的同时另外一个指标会相对较低;因为本发明分割的目的是尽量提升分割准确度,因此本发明所述方法将代表准确度的Precision指标作为优先考虑,并且本发明所述方法在保持了Precision为0.8886的同时,将Recall指标提高到了0.8549;Specificity与K-means相比低了0.0031,因为K-means只进行了二分类,其对背景的判别相对较简单,因此该项指标较高,而本发明所述方法进行了四分类,对非特定目标分类判别较复杂,在此情况下,本发明所述方法Specificity提高到了0.9847。图5表示了每种方法对每一类目标分割得到的各个指标的箱型图。图中可以得出,本发明所述方法在Dice和Jaccard中具有较高的数值,而且在三类目标中均具有较高的分割准确度,由于三类目标的形变较大,而本发明所述方法均可以实现高准确度分割,证明本发明所述方法对于目标形变具有较强的适应性,能够同时实现大目标和小目标的精准分割,并且对低强度目标和外界干扰具有较强的鲁棒性,而其余几种方法在小目标分割和形变较大的目标分割方面能力不足。图2至图4也可以看出,本发明所述方法在多种情况下均没有出现误分割和漏分割,由图3可以看出,由于眼睫毛的影响,在图像中出现了一些干扰,而FPN-deformable-Mask R-CNN在干扰较少时出现了一个误分割,而U-net出现了多处漏分割区域;由图4可以看出,在干扰项较多时,FPN-deformable-Mask R-CNN出现多处的误分割,U-net依旧存在多处漏分割区域。而本发明所述方法在多种干扰情况下均未出现误分割和漏分割,并且能够准确分割目标,因为本发明所述方法首先对mask部分采用了迭代方式提高分割准确度,通过对mask多次迭代减小分割误差。并且由于人眼结构中的角膜、晶状体及视网膜位置固定,本发明引入了RM,RM可以学习目标间的相互关系,进而利用人眼结构中位置固定的特点,提高大目标和小目标识别及分割的准确度。

Claims (3)

1.一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,其特征在于:该方法包括以下步骤:
步骤一:通过图像翻转的数据增强方式对扫频OCT人眼图像训练样本进行预处理并构建训练数据集;
步骤二:构建RM Multi-stage MaskR-CNN目标分割网络模型,在主干网络中采用调制可变形卷积,产生非规则的感受野,提高感受野与人眼OCT图像非规则结构的拟合度;在特征图提取阶段结合关系模型RM,充分学习角膜、晶状体和视网膜固定的位置关系;利用迭代修正误差的思想,在mask分割阶段构建Multi-stage mask,将前一迭代阶段的mask特征融合至下一阶段,以提高mask特征的提取能力,修正分割误差;构建基于RM Multi-stageMask R-CNN网络的扫频OCT人眼图像分割方法,提高人眼OCT图像目标检测及分割准确度;
步骤三:为训练Multi-stage Mask R-CNN网络构建损失函数,网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,根据步骤一获得的训练数据集,训练步骤二所构建的RM Multi-stage Mask R-CNN目标分割网络模型直至损失函数收敛;
步骤四:输入扫频OCT人眼图像,利用所训练的RM Multi-stage Mask R-CNN目标分割网络模型分割扫频OCT人眼图像中的角膜、晶状体和视网膜,输出图像中每个目标的边界框位置、尺寸、分割结果以及目标类别。
2.根据权利要求1所述的一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,其特征在于:步骤二包括如下步骤,
网络结构包括四部分:主干网络、RPN、relation FC以及multi-work分支;网络以ResNet50-FPN作为主干网络提取目标特征,其中ResNet50的stage 3至stage 5中所有3×3卷积均采用3×3的调制可变形卷积,使得网络能够产生不规则的感受野,提升网络适应人眼OCT图像目标形变的能力,利用FPN融合高维和低维的特征图,增强特征提取能力;调制可变形卷积写为如式所示;
Figure FDA0002862904400000011
式中,yd为卷积后的输出,x为该点的像素值,p0为采样网格中心点,pi为采样网格点,Δpi为偏置,常为分数,采用双线性插值获得采样值,如式所示,R为正方形采样位置的集合,当卷积核大小为3×3,膨胀率为1时,R={(-1,-1),(-1,0),...,(1,1)},调制权重Δmi∈[0,1],Δmi同样由额外卷积层获得,输入与Δpi相同,但由不同卷积核实现,通道数为N;
Figure FDA0002862904400000021
式中,p=p0+pi+Δpi,q枚举了特征图上所有整数位置,Gbil(·,·)为二维双线性插值核,可表示为如式所示;
Gbil(q,p)=g(qx,px)·g(qy,py)
式中,g(a,b)=max(0,1-|a-b|);
将主干网络提取的特征图传入RPN产生ROIs,将ROIs传入multi-work分支,multi-work分支包括检测及分割分支,检测分支输出目标类别及回归框坐标,分割分支输出分割目标,每次迭代首先经过RoIAlign对ROIs进行池化和对齐,首级迭代结构采用relationFC结构,在cls和loc共享的两层FC每一层之后接入RM,利用RM获取特征图中目标的关系,并与特征图融合,提升目标识别和分割准确度,后两级迭代结构采用sharedFC结构;
每一个ROI特征由几何特征fG及外观特征fA表示,fG为4-D回归框坐标值,fA为网络上一层输出特征图;
对于N个目标
Figure FDA0002862904400000022
第n个目标与目标集合的关系特征为
Figure FDA0002862904400000023
式中,WV为投影矩阵,
Figure FDA0002862904400000024
为第m个输出特征图;WV
Figure FDA0002862904400000025
做线性变换,输出维度为
Figure FDA0002862904400000026
原始维度的1/Nre,Nre为关系个数,re为关系特征提取重复次数,wmn代表目标m对目标n的影响,由下式表示;
Figure FDA0002862904400000031
式中,
Figure FDA0002862904400000032
为外观权重,
Figure FDA0002862904400000033
为几何权重,ktarget为影响目标n的目标总个数;
Figure FDA0002862904400000034
可由式表示;
Figure FDA0002862904400000035
式中,
Figure FDA0002862904400000036
Figure FDA0002862904400000037
Figure FDA0002862904400000038
点乘,WK和WQ为投影矩阵,
Figure FDA0002862904400000039
为投影后特征维度;
Figure FDA00028629044000000310
由式表示;
Figure FDA00028629044000000311
式中,εG
Figure FDA00028629044000000312
Figure FDA00028629044000000313
投影到高维空间,输出维度为dg,WG为投影矩阵,将变化后的高维特征转化为标量;
fG表示为
Figure FDA00028629044000000314
式中,x,y,w,h分别为几何特征的坐标及宽和高,fG的形式用以避免翻转和尺度变化影响;
最终目标n的输出特征为
Figure FDA00028629044000000315
检测分支采用IoU阈值不断增加的一系列级联检测器,能够用于解决近似误报样本问题,提高检测和分割的准确度;bbox迭代如式所示;
Figure FDA00028629044000000316
式中,xfeature为主干网络提取的特征图,r为RPN输出的回归框坐标,T是迭代次数,每一阶段输出BT作为下一迭代阶段输入,相当于重采样,改变假设的分布,每阶段具有不同的回归框归一化均值、方差,且对于特定阈值IoUt优化目标函数;
分割分支的迭代思想相同,每一阶段的mask特征通过网络提取特征图xfeature和预测边框rt获得,通过将反卷积层之前的特征进行1×1卷积,与原始mask特征相加,向下一阶段迭代;迭代过程如式到式所示;
Figure FDA0002862904400000041
Figure FDA0002862904400000042
Figure FDA0002862904400000043
式中,A为RoIAlign,负责分别生成7×7的
Figure FDA0002862904400000044
特征和14×14的
Figure FDA0002862904400000045
特征,Bt为bbox端,Mt为mask端,F将上一阶段mask特征与本阶段
Figure FDA0002862904400000046
结合,covt为1×1的卷积操作,
Figure FDA0002862904400000047
为mask端反卷积层之前的输出。
3.根据权利要求1所述的一种基于扫频光学相干层析成像的扫频OCT人眼图像分割方法,其特征在于:步骤三包括如下步骤,
网络损失函数为每阶段多任务损失函数以及RPN损失函数的加和,Lloc为边框预测值与真实值之间smooth L1损失,Lcls为目标分类预测概率与真实类别之间的交叉熵,Lmask为目标预测掩码和真实掩码之间二进制交叉熵,LRPN为RPN模块损失函数;网络损失函数如式所示;
Figure FDA0002862904400000048
式中,ct为目标分类预测,
Figure FDA0002862904400000049
为目标分类真实值,rt为边框预测值,
Figure FDA00028629044000000410
为边框真实值,mt为目标预测掩码,
Figure FDA00028629044000000411
为目标真实掩码;T为迭代分支的迭代次数,αt为每阶段优化目标之间权衡系数,λclc、λloc、λmask和λRPN为多任务之间权衡系数;训练深度卷积神经网络直至损失函数收敛,获得RM Multi-stage Mask R-CNN网络分割模型。
CN202011571625.5A 2020-12-27 2020-12-27 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法 Active CN112598683B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011571625.5A CN112598683B (zh) 2020-12-27 2020-12-27 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011571625.5A CN112598683B (zh) 2020-12-27 2020-12-27 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法

Publications (2)

Publication Number Publication Date
CN112598683A true CN112598683A (zh) 2021-04-02
CN112598683B CN112598683B (zh) 2024-04-02

Family

ID=75202830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011571625.5A Active CN112598683B (zh) 2020-12-27 2020-12-27 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法

Country Status (1)

Country Link
CN (1) CN112598683B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255682A (zh) * 2021-06-04 2021-08-13 浙江智慧视频安防创新中心有限公司 一种目标检测***、方法、装置、设备及介质
CN113520317A (zh) * 2021-07-05 2021-10-22 汤姆飞思(香港)有限公司 基于oct的子宫内膜检测分析方法、装置、设备及存储介质
CN114170484A (zh) * 2022-02-11 2022-03-11 中科视语(北京)科技有限公司 图片属性预测方法、装置、电子设备和存储介质
CN114283260A (zh) * 2021-11-16 2022-04-05 北京航空航天大学 一种基于实例分割网络的角膜移植缝合操作的ar导航方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194865A1 (en) * 2018-04-02 2019-10-10 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110599448A (zh) * 2019-07-31 2019-12-20 浙江工业大学 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测***
CN111292338A (zh) * 2020-01-22 2020-06-16 苏州大学 一种从眼底oct图像中分割脉络膜新生血管的方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019194865A1 (en) * 2018-04-02 2019-10-10 12 Sigma Technologies Enhanced convolutional neural network for image segmentation
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110599448A (zh) * 2019-07-31 2019-12-20 浙江工业大学 基于MaskScoring R-CNN网络的迁移学习肺部病变组织检测***
CN111292338A (zh) * 2020-01-22 2020-06-16 苏州大学 一种从眼底oct图像中分割脉络膜新生血管的方法及***

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255682A (zh) * 2021-06-04 2021-08-13 浙江智慧视频安防创新中心有限公司 一种目标检测***、方法、装置、设备及介质
CN113520317A (zh) * 2021-07-05 2021-10-22 汤姆飞思(香港)有限公司 基于oct的子宫内膜检测分析方法、装置、设备及存储介质
CN114283260A (zh) * 2021-11-16 2022-04-05 北京航空航天大学 一种基于实例分割网络的角膜移植缝合操作的ar导航方法及***
CN114170484A (zh) * 2022-02-11 2022-03-11 中科视语(北京)科技有限公司 图片属性预测方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112598683B (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN112598683B (zh) 一种基于扫频光学相干层析成像的扫频oct人眼图像分割方法
Ghaderizadeh et al. Hyperspectral image classification using a hybrid 3D-2D convolutional neural networks
CN107369160B (zh) 一种oct图像中脉络膜新生血管分割算法
CN109345538B (zh) 一种基于卷积神经网络的视网膜血管分割方法
EP3674968B1 (en) Image classification method, server and computer readable storage medium
US20220198230A1 (en) Auxiliary detection method and image recognition method for rib fractures based on deep learning
Kar et al. Retinal vessel segmentation using multi-scale residual convolutional neural network (MSR-Net) combined with generative adversarial networks
CN112819821B (zh) 一种细胞核图像检测方法
CN112163599B (zh) 一种基于多尺度多层次融合的图像分类方法
CN112633386A (zh) 基于sacvaegan的高光谱图像分类方法
de Sales Carvalho et al. Automatic method for glaucoma diagnosis using a three-dimensional convoluted neural network
CN107563996A (zh) 一种新型视神经盘分割方法及***
CN112348059A (zh) 基于深度学习的多种染色病理图像分类方法及***
CN115147600A (zh) 基于分类器权重转换器的gbm多模态mr图像分割方法
CN113298742A (zh) 基于图像配准的多模态视网膜图像融合方法及***
CN116740418A (zh) 一种基于图重构网络的目标检测方法
CN115147640A (zh) 一种基于改进胶囊网络的脑肿瘤图像分类方法
Kugelman et al. Constructing synthetic chorio-retinal patches using generative adversarial networks
Gaddipati et al. Glaucoma assessment from oct images using capsule network
Kanse et al. HG-SVNN: harmonic genetic-based support vector neural network classifier for the glaucoma detection
Wang et al. Optic disc detection based on fully convolutional neural network and structured matrix decomposition
CN116188435A (zh) 一种基于模糊逻辑的医学图像深度分割方法
Thanh et al. A real-time classification of glaucoma from retinal fundus images using AI technology
CN115937590A (zh) 一种并联融合CNN和Transformer的皮肤病图像分类方法
CN109190506A (zh) 一种基于核稀疏和空间约束的高光谱目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant