CN111462126B - 一种基于边缘增强的语义图像分割方法及*** - Google Patents

一种基于边缘增强的语义图像分割方法及*** Download PDF

Info

Publication number
CN111462126B
CN111462126B CN202010268199.1A CN202010268199A CN111462126B CN 111462126 B CN111462126 B CN 111462126B CN 202010268199 A CN202010268199 A CN 202010268199A CN 111462126 B CN111462126 B CN 111462126B
Authority
CN
China
Prior art keywords
image
network
edge
semantic
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010268199.1A
Other languages
English (en)
Other versions
CN111462126A (zh
Inventor
陈军
陈超
韩镇
万东帅
刘旷也
王晓芬
刘春雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010268199.1A priority Critical patent/CN111462126B/zh
Publication of CN111462126A publication Critical patent/CN111462126A/zh
Application granted granted Critical
Publication of CN111462126B publication Critical patent/CN111462126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20172Image enhancement details
    • G06T2207/20192Edge enhancement; Edge preservation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于边缘增强的语义图像分割方法及***,包括对输入图像进行预处理;建立边缘增强网络模型,包括轻量级边缘网络和深度语义网络;将预处理后图像输入轻量级边缘网络,利用空间注意力模块自适应地关注图像的局部边缘信息;分批次将预处理后图像输入深度语义网络,利用通道注意力模块优化深度网络不同阶段的输出;将所得特征进行级联降维,融合不同层次的特征信息,利用通道注意力模块优化;归一化得到边缘增强网络模型预测的图像分割结果;计算预测的分割图和给定的标准分割图的交叉熵损失和焦点损失,以分别监督轻量级边缘网络和深度语义网络的输出,使用随机梯度下降法更新边缘增强网络的模型参数,实现对输入图像的精确分割。

Description

一种基于边缘增强的语义图像分割方法及***
技术领域
本发明属于计算机视觉与图像处理领域,涉及一种图像分割方法,具体涉及一种基于边缘增强的语义图像分割技术方案。
背景技术
图像语义分割是一个像素级分类任务,其本质是为图像中的每个像素分配对应的语义标签,把图像划分成若干个互不相交的区域,使得这些特征在同一区域内表现出一致性或相似性,而在不同区域间表现出明显的不同。图像语义分割是许多计算机视觉任务(如识别、检测等等)的重要预处理步骤,广泛应用于人脸识别、指纹识别、医学图像和卫星图像定位等领域。
随着近年来深度学***衡。
基于深度学习的图像分割模型利用卷积神经网络,对图像上的每个像素点进行分类,这种方式虽然可以准确分类大多数的像素点,但是依赖于更深的网络模型、更庞大的参数量。这些复杂的网络模型能有效提取全局一致性较强的上下文特征,但是缺乏边界空间信息,对语义边界的分类并不友好。例如,当图像中两个不同类别的物体彼此相邻,其边界区域往往容易混淆错分类,降低了图像分割的精确度。
为了解决上述技术难题,本文提出了一种基于边缘增强的语义图像分割方法,将语义图像分割模型分为轻量级边缘网络和深度语义网络两个部分。轻量级边缘网络关注于图像的语义边界,强化图像的空间边界位置信息;深度语义网络关注于图像的深层语义,通过更大的感受野获取更强的语义一致性。对两个子网络的信息进行融合分类后,该方法对不同类别的边界分割效果更好,整体分割精确度更高。
为证明本专利的独创性,对已有类似的图像分割工作展开调研,迄今为止发明名称内含有图像分割的已有专利2433项,其中与边缘强化相关的有专利31项,但没有与本项发明中的单独用一个轻量卷积神经网络提取边缘特征的相关专利,该31项专利如下表所示:
Figure BDA0002442137270000021
Figure BDA0002442137270000031
其中前27项是传统图像分割方法与边缘增强有关的专利,后4项是基于深度学习的图像分割方法与边缘增强有关的专利,下面列出其中与本发明最为相关的4项公开专利的分析。
中国专利文献号CN107680113A,公开(公告)日2018.02.09,公开了一种基于贝叶斯框架边缘先验的多层分割网络的图像分割方法,该发明利用限定域转换(DirectedDomain Transform,DDT)将边缘检测网络得到的显式边缘用于约束主分割网络中的分割结果。该发明主要用于遥感图像的分割,遥感图像的边缘比较有规律,适用于边缘相对简单的图片,但是在类别较多的复杂通用场景下效果不佳。
中国专利文献号CN107610149A,公开(公告)日2018.01.19,公开了一种图像分割结果边缘优化处理方法、装置、计算设备及计算机存储介质,该发明利用深度学习方法分割图像得到图像的前景掩膜,通过前景图像边缘的模糊处理和原始图像的边缘约束提高分割精确度。该发明会把所有分割类别视为前景,而边缘约束也包含背景边缘的信息,而且忽视了不同类别间的边缘关系,在类别较多的复杂场景下效果不佳。
中国专利文献号CN110210475A,公开(公告)日2019.09.06,公开了一种非二值化和边缘检测的车牌字符图像分割方法,该发明利用二值化和边缘检测方法对车牌字符图像进行字符分割,该方法适用于边缘特征明显的字符图像,在类别较多的复杂场景下效果不佳。
中国专利文献号CN110264483A,公开(公告)日2019.09.20,公开了一种基于深度学习的语义图像分割方法,该发明利用深度卷积神经网络提取图像深层特征,通过空洞卷积提取多尺度信息和边缘强化结构对这些信息进行增强,实现对通用图像的分割。但是该发明首先通过深层卷积网络提取的特征已经失去了大量的空间信息,缺乏对浅层空间边缘信息的关注,因此该算法在类别较多的复杂场景下对边界分割的效果不佳。
直观比较可见下表:
Figure BDA0002442137270000032
Figure BDA0002442137270000041
相关参考文献:
[1]Long J,Shelhamer E,Darrell T,et al.Fully convolutional networksfor semantic segmentation[J].computer vision and pattern recognition,2015:3431-3440.
[2]Chen L,Papandreou G,Kokkinos I,et al.Semantic Image Segmentationwith Deep Convolutional Nets and Fully Connected CRFs[J].internationalconference on learning representations,2015.
[3]Zhao H,Shi J,Qi X,Wang X,Jia J.Pyramid Scene Parsing Network[C]//Computer Visionand Pattern Recognition.IEEE,2017.
[4]Changqian Yu,Jingbo Wang,Chao Peng,ChangxinGao,Gang Yu,and NongSang.Bisenet:Bilateral segmentation network for real-time semanticsegmentation[C].In Proceedings of the European Conference on Computer Vision(ECCV),pages 325–341,2018.
发明内容
本发明的目的是提出一种基于边缘增强的语义图像分割方案,解决现有技术在图像语义边界分割错误的问题,通过边缘网络和语义网络分别获取图像的局部边缘特征和全局语义特征,融合两个不同层次的特征,实现图像边界的精确分割,提升整体的分割准确度。
本发明所采用的技术方案是一种基于边缘增强的语义图像分割方法,包括以下步骤:
步骤1,对输入图像进行预处理,建立边缘增强网络模型;所述边缘增强网络模型包括轻量级边缘网络和深度语义网络;
步骤2,分批次将步骤1所得预处理后图像输入轻量级边缘网络,所述轻量级边缘网络由三个卷积块和一个空间注意力模块组成,利用空间注意力模块自适应地关注图像的局部边缘信息,输出图像的边缘特征;
步骤3,分批次将步骤1所得预处理后图像输入深度语义网络,所述深度语义网络包括一个卷积池化层和四个残差块Res-1,Res-2,Res-3,Res-4,残差块Res-1,Res-2,Res-3,Res-4分别表示四个不同层次的语义信息,在Res-3和Res-4的输出部分加上了通道注意力模块进行细节优化;利用通道注意力模块进一步优化深度网络不同阶段的输出,得到图像的全局语义特征;
步骤4,将所得的边缘特征和全局语义特征进行级联,利用卷积操作对级联结果进行降维,融合不同层次的特征信息,然后利用通道注意力模块优化融合结果;
步骤5,对融合结果进行归一化,得到边缘增强网络模型预测的图像分割结果;
步骤6,计算边缘增强网络模型预测的分割图和给定的标准分割图的交叉熵损失和焦点损失,以分别监督轻量级边缘网络和深度语义网络的输出,使用随机梯度下降法更新边缘增强网络的模型参数,实现对输入图像的精确分割。
而且,步骤1中预处理的实现方式为,归一化输入的图像块,并进行水平方向或者竖直方向的翻转,然后从原图像和翻转后的图像做随机裁剪,得到具有相同分辨率的图像块,实现对训练数据的扩充。
而且,步骤2中的每个卷积块由三个内核大小为3的卷积层、Batch Normalization层和Relu层组成,前两个卷积块为标准卷积,第三个卷积块为空洞卷积,以增大感受野,保留图像细节信息,更好地拟合目标边界。
而且,步骤2中的空间注意力模块对输出的通道特征图执行归一化,经过基于特征张量在通道域上平均值的激活函数,得到仅与空间信息有关的掩膜,自适应地关注图像的局部边缘信息,得到图像的边缘特征。
而且,所述空间注意力模块对边缘特征的优化如下,
si=xi*(1+f(xi)),
其中,设X表示卷积操作后提取的初步特征,S表示优化后的边缘特征,f()表示掩膜生成的激活函数,S={s1,s2,K,si,K,sN},X={x1,x2,K,xi,K,xN},xi表示第i个通道的初步特征图,si表示第i个通道的边缘特征图,N表示当前卷积层的总通道数。
而且,步骤3和步骤4中通道注意力模块的实现方式为,
A)首先利用全局平均池化把输入的二维特征图变为全局平均值,并通过两个全连接层进行通道权重的学习,进行归一化,再经过sigmoid和Relu激活函数得到每个特征图的权重,取值在[0,1]之间;
B)然后,将每个输入的特征图和其对应的权重值相乘,再通过输入特征图本身进行相加,放大关键的特征信息,记为:
tj=yj*(1+g(yj)),
其中,设Y表示残差块提取的初步特征,T表示经过通道注意力模块优化后的语义特征,T={t1,t2,K,tj,K,tM},Y={y1,y2,K,yj,K,yM},其中tj表示第j个通道的初步特征,yj表示第j个通道的优化后的特征,M表示当前卷积层通道数;函数g表示步骤A中将特征图映射为[0,1]之间的权重值的过程。
而且,步骤6中,深度语义网络的交叉熵损失loss不仅包括最终融合输出和标准分割图的交叉熵损失,还有第3、4层级的特征输出和标准分割图的交叉熵损失,计算如下:
Figure BDA0002442137270000061
其中SL()表示交叉熵损失函数,FL()表示焦点损失函数,O表示网络的最终输出,ts表示第s层级的特征输出,α和λ表示两个辅助损失的权重,w表示交叉熵损失计算中的参数,v表示焦点损失计算中的参数。
而且,焦点损失用于解决正负样本严重失衡的问题,从而放大类间的区分度,加强对类别边界的拟合,表达如下:
FL=-(1-pk)γlogpk
其中,pk是类别k的估计概率,k∈[1,2,…,K],K为总类别数,γ是一个待调整的参数,以使该网络得到最好的分割效果。
本发明还相应提取一种基于边缘增强的语义图像分割***,用于执行如上所述的一种基于边缘增强的语义图像分割方法。
本发明所提方法,充分利用了图像的不同类别间的边缘信息,同时融合了图像的局部边缘信息和全局语义信息,并加入了焦点损失监督边缘网络的输出,因此本发明,对边缘的分割更加精确,对于图像的分割精确度更高。和现有技术相比,本发明的重要贡献如下:
1)本发明不仅能基于深层语义特征对图像进行分割,还能通过轻量级边缘网络实现对语义边缘的提取,提升不同类别边界的分割效果。
2)本发明引入焦点损失和多阶段的交叉熵损失优化监督网络学习,提升了图像分割精度。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例的网络结构图,其中(a)部分为边缘增强网络模型结构图,(b)部分为空间注意力模块SAM结构图,(c)部分为通道注意力模块CAM结构图。
图3为采用本发明实施例方法和其他模型对于图像进行语义分割的效果对比图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
如图1和图2所示,本发明实施例提供一种基于边缘增强的语义图像分割方法,包括以下步骤:
步骤1:对输入图像进行预处理,生成样本数据,建立边缘增强网络模型:优选基于PASCALVOC2012增强数据集,选取10582张图像作为原始训练数据,对所选图像进行归一化(归一化过程如下:先求出图像整体均值,每个像素点减去均值,使其均值为0,再对零均值的图像求其方差,每个非零像素点除以方差,使其方差为1)再进行水平方向或者竖直方向的翻转,然后从原图像和翻转后的图像中随机裁剪出尺寸为[512,512]的图像块,实现对训练数据的扩充。
本实施例以PASCALVOC2012增强数据集为例,采用基于边缘增强的语义图像分割方法在该数据集上进行图像分割。PASCAL VOC2012原始数据集包含20个前景对象类和一个背景类,其中包含1464个图像进行训练,1449个图像进行验证和1456个图像进行测试,再加上额外的辅助SBD数据集(Semantic Boundaries Dataset),组成包含10582个训练图像的增强数据集,作为原始训练数据。
如图2(a)所示,实施例建立的整个边缘增强网络模型(Network Architecture)包含两个子网络,轻量级边缘网络(EdgeNetwoek)和深度语义网络(Semantic Network),对两个子网络的输出还有利用级联、归一化等操作。其中图2(a)中的ConvBlock表示卷积块,SAM表示空间注意力模块,CAM表示通道注意力模块,Res-n表示残差网络的各层次残差块(n=[1,4]),concatenate表示通道特征的级联,upsample表示上采样;
实施例的空间注意力模块(Space Attention Module,SAM)如图2(b)所示,图2(b)中的Batch Norm表示归一化,AvgPool表示通道域上的平均值激活函数,mul表示矩阵点乘,add表示矩阵相加;
实施例的通道注意力模块(Channel Attention Module,CAM)如图2(c)所示,(图2(c)中的GlobalPool表示全局池化,1×1conv表示全连接层,Batch Norm表示归一化,sigmoid表示sigmoid激活函数,relu表示relu激活函数,mul表示矩阵点乘,add表示矩阵相加。
步骤2:分批次将步骤1所得预处理后图像输入图2(a)中的轻量级边缘网络(EdgeNetwork),利用空间注意力模块(SAM)自适应地关注图像的局部边缘信息,输出图像的边缘特征;轻量级边缘网络(Edge Network)由三个卷积块(ConvBlock)和一个空间注意力模块(SAM)组成。
步骤2.1:利用3个相同结构的卷积块对步骤1中预处理的图像块进行特征提取,得到低阶的图像特征:原始图像经过三个卷积块的信息提取,得到较低层的图像语义,包含更多的空间信息与细节信息。其中每个卷积块(ConvBlock)由3个内核大小为[3,3]的卷积层、Batch Normalization层(批归一化层)和Relu层(激活函数层)组成,每个卷积块的通道数依次为32、64、128,其中前两个卷积块为标准卷积,第三个卷积块为步长为6的空洞卷积,可以增大感受野,保留图像细节信息,更好地拟合目标边界。
步骤2.2:利用空间注意力模块对输出的通道特征图执行归一化,经过基于特征张量在通道域上平均值的激活函数,得到仅与空间信息有关的掩膜,自适应地关注图像的局部边缘信息,得到图像的边缘特征:
实施例中,利用图2(b)中的空间注意力模块(SAM),对输出的通道特征图执行归一化(Batch Norm),利用1×1卷积融合归一化后的信息,再经过基于特征张量在通道域上平均值的激活函数(AvgPool),将每一个通道的特征图转换为[0,1]之间的空间信息掩膜。如图2(b)所示,每个输入的特征图和其生成的空间信息掩模通过mul(相乘),再通过add(加上)输入特征图其本身,得到图像的边缘特征。空间注意力模块(SAM)能够放大关键空间信息的作用,自适应地关注图像的局部边缘信息。其中掩膜生成的激活函数(AvgPool)公式为:
Figure BDA0002442137270000081
其中,xi表示第i个通道的特征图,f()表示掩膜生成的激活函数,mi为经过激活函数的空间掩膜,meani和stdi分别表示特征图xi的平均值和标准差,xi,c表示特征图xi第c个位置的实值。
其中空间注意力模块对边缘特征的优化如下,
si=xi*(1+f(xi)),
其中,设X表示卷积操作后提取的初步特征,S表示优化后的边缘特征,f()表示掩膜生成的激活函数,S={s1,s2,K,si,K,sN},X={x1,x2,K,xi,K,xN},其中xi表示第i个通道的初步特征图,si表示第i个通道的边缘特征图,N表示当前卷积层的总通道数。
步骤3:分批次将步骤1所得预处理后图像输入图2(a)中的深度语义网络(Semantic Network),利用通道注意力模块(CAM)进一步优化深度网络不同阶段的输出,得到图像的全局语义特征;深度语义网络的结构类似于ResNet-101网络,包括一个卷积池化层(Conv+Pool)和四个残差块Res-1,Res-2,Res-3,Res-4,残差块Res-1,Res-2,Res-3,Res-4分别表示四个不同层次的语义信息,本发明的改进之处是在Res-3和Res-4的输出部分加上了通道注意力模块(CAM)进行细节优化。
步骤3.1:利用预训练的ResNet-101模型对步骤1中预处理的图像块进行特征提取,通过残差块Res-1,Res-2,Res-3,Res-4得到图像从低到高4个层次的语义特征,分别为{I4,I8,I16,I32},可形成相应二维特征图,下标4表示特征图是原始输入图像块的四分之一,8表示特征图是原始输入图像块的八分之一,16表示特征图是原始输入图像块的十六分之一,32表示特征图是原始输入图像块的三十二分之一。
步骤3.2:利用图2(c)中的通道注意力模块(CAM)优化后两个层次的特征I16,I32,得到优化后的特征T16,T32
通道注意力模块的工作过程如下:
A)首先利用全局平均池化(Global Pool)把步骤3.1中输入的二维特征图变为全局平均值,并通过两个全连接层(1×1conv)进行通道权重的学习,利用Batch Norm进行归一化,再经过sigmoid和Relu激活函数得到每个特征图的权重,取值在[0,1]之间。
B)然后,通过mul将每个输入的特征图和其对应的权重值相乘,再通过add和输入特征图本身进行相加,能够放大关键的特征信息,可记为:
tj=yj*(1+g(yj)),
其中,设Y表示残差块提取的初步特征,T表示经过通道注意力模块优化后的语义特征,函数g表示将特征图映射为[0,1]之间的权重值的一系列过程(如步骤A中的操作),T={t1,t2,K,tj,K,tM},Y={y1,y2,K,yj,K,yM},其中tj表示第j个通道的初步特征,yj表示第j个通道的优化后的特征,M表示当前卷积层通道数。
其中将一张特征图映射为[0,1]之间的一个权重值的函数g的公式为:
g(yj)=σ(w2δ(w1zj))
Figure BDA0002442137270000101
其中,σ函数是sigmoid激活函数,δ函数是Relu函数,w1和w2表示要学***均池化得到的全局平均值,zj,c表示特征图zj的第c个位置的实值,[H,W]表示特征图的尺寸大小。
步骤3.3:利用最邻近插值法对最后一个层次的语义特征T32进行2倍上采样,利用最邻近插值法对前一层次的语义特征T16进行4倍上采样,使其分辨率与边缘网络输出的边缘特征一致,然后使用concatenate操作级联两个上采样的特征,得到语义网络最终提取到的全局语义特征。
步骤4:利用concatenate操作级联边缘网络的边缘特征和语义网络的全局语义特征,利用卷积操作对级联结果进行降维,融合不同层次的特征信息,然后利用通道注意力模块(CAM)优化融合结果。此处通道注意力模块(CAM)实现同样可参见步骤3.2。
步骤5:利用softmax函数对融合结果进行归一化,通过8倍最邻近插值上采样(8xupsample)得到边缘增强网络模型预测的图像分割结果;
步骤6:计算边缘增强网络模型预测的分割图和给定的标准分割图的交叉熵损失和焦点损失,来分别监督轻量级边缘网络和深度语义网络的输出,使用随机梯度下降法更新边缘增强网络的模型参数,实现对输入图像的精确分割。
其中深度语义网络的交叉熵损失loss不仅包括最终融合输出和标准分割图的交叉熵损失,还有第3、4层级的特征输出和标准分割图的交叉熵损失,具体算式如下:
Figure BDA0002442137270000102
其中SL()表示交叉熵损失函数,FL()表示焦点损失函数(Focal Loss),O表示网络的最终输出,ts表示第s层级的特征输出(可参见前文T16,T32),α和λ表示两个辅助损失的权重,w表示交叉熵损失计算中的参数,v表示焦点损失计算中的参数。
其中的焦点损失(Focal Loss)降低了大量简单负样本在训练中所占的权重,解决正负样本严重失衡的问题,从而放大类间的区分度,加强对类别边界的拟合。例如,类别A和类别B的两个目标物体在空间上毗邻,类A所占空间大,类B所占空间小,一般的损失函数在计算赋予类别A和类别B相同的权重,焦点损失能够减小大样本的权重,放大小样本的权重。
实施例采用的焦点损失FL的公式表达如下:
FL=-(1-pk)γlogpk
其中pk是类别k的估计概率,k∈[1,2,…,K],K为总类别数,γ是一个待调整的参数,以使该网络得到最好的分割效果。焦点损失由(T.-Y.Lin,P.Goyal,R.Girshick,K.He,and P.Dollar.Focal loss for dense object detection.In IEEE International,Conference on Computer Vision,2017.5)中的物体检测损失函数改进而来。
本实施例采用平均交并比来作为分割效果的性能指标。
随机梯度下降法为现有技术,本发明不予赘述。
本实施例中,本发明模型与其他的语义分割模型在额外增强的PASCAL VOC2012数据集上的对比结果如表1所示,从表1可以看出,具有通道注意力模块和引入焦点损失的DeepLabV2模型在该数据集上达到了77.5%mIOU,比原始的DeepLabV2模型提升了1.5%,说明具有通道注意力模块和焦点损失监督的网络模型在增强全局语义一致性和优化语义边界分割的同时有更好的分割效果;表中,CAM代表通道注意力模块,EL代表焦点损失。
表1本发明模型与其他的语义分割模型在PASCAL VOC2012数据集上的mIOU对比结果
Method mIOU(%)
FCN-8s 63.3
DeconvNet 72.5
DeepLab 72.7
DeepLabV2 76.0
DeeplabV2-CAM 76.6
DeeplabV2-CAM-EL 77.5
RefineNet 78.0
本发明模型 80.5
本实施例还给出了本发明模型与其他的语义分割模型在PASCAL VOC2012数据集上的分割结果对比,如图3所示,图中第一列为输入原图;第二列为目标真实分割图;第三列为DeepLabV2模型的分割结果图;第四列为DeepLabV2模型加上通道注意力模块和焦点损失监督的分割结果图;第五列为本发明模型的分割结果图;从中可以看出,本发明模型对于图像的分割效果优于其他语义模型的分割效果,说明加入和边缘网络、焦点损失监督和注意力模块的网络模型在保证更强的语义一致性的同时,能更好地区分不同类别的边界特征,实现更好地分割效果。
本方法能够在保证图像分割效果的同时,对不同类别的边缘有更好的分割。
本发明技术方案可采用软件技术实现自动流程运行,运行本发明流程的***装置也应当在保护范围内。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于边缘增强的语义图像分割方法,其特征在于,包括以下步骤:
步骤1,对输入图像进行预处理,建立边缘增强网络模型;所述边缘增强网络模型包括轻量级边缘网络和深度语义网络;
步骤2,分批次将步骤1所得预处理后图像输入轻量级边缘网络,所述轻量级边缘网络由三个卷积块和一个空间注意力模块组成,利用空间注意力模块自适应地关注图像的局部边缘信息,输出图像的边缘特征;
步骤3,分批次将步骤1所得预处理后图像输入深度语义网络,所述深度语义网络包括一个卷积池化层和四个残差块Res-1,Res-2,Res-3,Res-4,残差块Res-1,Res-2,Res-3,Res-4分别表示四个不同层次的语义信息,在Res-3和Res-4的输出部分加上了通道注意力模块进行细节优化;利用通道注意力模块进一步优化深度语义网络不同阶段的输出,得到图像的全局语义特征;
步骤4,将所得的边缘特征和全局语义特征进行级联,利用卷积操作对级联结果进行降维,融合不同层次的特征信息,然后利用通道注意力模块优化融合结果;
步骤5,对融合结果进行归一化,得到边缘增强网络模型预测的图像分割结果;
步骤6,计算边缘增强网络模型预测的分割图和给定的标准分割图的交叉熵损失和焦点损失,以分别监督轻量级边缘网络和深度语义网络的输出,使用随机梯度下降法更新边缘增强网络的模型参数,实现对输入图像的精确分割;
深度语义网络的交叉熵损失loss不仅包括最终融合输出和标准分割图的交叉熵损失,还有第3、4层级的特征输出和标准分割图的交叉熵损失,计算如下:
Figure FDA0003797864800000011
其中SL()表示交叉熵损失函数,FL()表示焦点损失函数,O表示网络的最终输出,ts表示第s层级的特征输出,α和λ表示两个辅助损失的权重,w表示交叉熵损失计算中的参数,v表示焦点损失计算中的参数;
焦点损失用于解决正负样本严重失衡的问题,从而放大类间的区分度,加强对类别边界的拟合,表达如下:
FL=-(1-pk)γlog pk
其中,pk是类别k的估计概率,k∈[1,2,…,K],K为总类别数,γ是一个待调整的参数,以使该网络得到最好的分割效果。
2.根据权利要求1所述的基于边缘增强的语义图像分割方法,其特征在于:步骤1中预处理的实现方式为,归一化输入的图像块,并进行水平方向或者竖直方向的翻转,然后从原图像和翻转后的图像做随机裁剪,得到具有相同分辨率的图像块,实现对训练数据的扩充。
3.根据权利要求1所述的基于边缘增强的语义图像分割方法,其特征在于:步骤2中的每个卷积块由三个内核大小为3的卷积层、Batch Normalization层和Relu层组成,前两个卷积块为标准卷积,第三个卷积块为空洞卷积,以增大感受野,保留图像细节信息,更好地拟合目标边界。
4.根据权利要求1所述的基于边缘增强的语义图像分割方法,其特征在于:步骤2中的空间注意力模块对输出的通道特征图执行归一化,经过基于特征张量在通道域上平均值的激活函数,得到仅与空间信息有关的掩膜,自适应地关注图像的局部边缘信息,得到图像的边缘特征。
5.根据权利要求4所述的基于边缘增强的语义图像分割方法,其特征在于:所述空间注意力模块对边缘特征的优化如下,
si=xi*(1+f(xi)),
其中,设X表示卷积操作后提取的初步特征,S表示优化后的边缘特征,f()表示掩膜生成的激活函数,S={s1,s2,...,si,...,sN},X={x1,x2,...,xi,...,xN},xi表示第i个通道的初步特征图,si表示第i个通道的边缘特征图,N表示当前卷积层的总通道数。
6.根据权利要求1或2或3或4或5所述的基于边缘增强的语义图像分割方法,其特征在于:步骤3和步骤4中通道注意力模块的实现方式为,
A)首先利用全局平均池化把输入的二维特征图变为全局平均值,并通过两个全连接层进行通道权重的学习,进行归一化,再经过sigmoid和Relu激活函数得到每个特征图的权重,取值在[0,1]之间;
B)然后,将每个输入的特征图和其对应的权重值相乘,再通过输入特征图本身进行相加,放大关键的特征信息,记为:
tj=yj*(1+g(yj)),
其中,设Y表示残差块提取的初步特征,T表示经过通道注意力模块优化后的语义特征,T={t1,t2,...,tj,...,tM},Y={y1,y2,...,yj,...,yM},其中tj表示第j个通道的初步特征,yj表示第j个通道的优化后的特征,M表示当前卷积层通道数;函数g表示步骤A中将特征图映射为[0,1]之间的权重值的过程。
7.一种基于边缘增强的语义图像分割***,其特征在于:用于执行如权利要求1至6任一项所述的一种基于边缘增强的语义图像分割方法。
CN202010268199.1A 2020-04-08 2020-04-08 一种基于边缘增强的语义图像分割方法及*** Active CN111462126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010268199.1A CN111462126B (zh) 2020-04-08 2020-04-08 一种基于边缘增强的语义图像分割方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010268199.1A CN111462126B (zh) 2020-04-08 2020-04-08 一种基于边缘增强的语义图像分割方法及***

Publications (2)

Publication Number Publication Date
CN111462126A CN111462126A (zh) 2020-07-28
CN111462126B true CN111462126B (zh) 2022-10-11

Family

ID=71685221

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010268199.1A Active CN111462126B (zh) 2020-04-08 2020-04-08 一种基于边缘增强的语义图像分割方法及***

Country Status (1)

Country Link
CN (1) CN111462126B (zh)

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986210B (zh) * 2020-07-29 2022-11-04 天津大学 一种医学影像小病灶分割方法
CN112017191B (zh) * 2020-08-12 2023-08-22 西北大学 基于注意力机制的肝脏病理图像分割模型建立及分割方法
CN111914948A (zh) * 2020-08-20 2020-11-10 上海海事大学 一种基于粗精语义分割网络的海流机叶片附着物自适应识别方法
CN112052783B (zh) * 2020-09-02 2024-04-09 中南大学 一种结合像素语义关联和边界注意的高分影像弱监督建筑物提取方法
CN112070049B (zh) * 2020-09-16 2022-08-09 福州大学 基于BiSeNet的自动驾驶场景下的语义分割方法
CN112418227A (zh) * 2020-10-28 2021-02-26 北京工业大学 基于双自注意力机制的监控视频卡车分割方法
CN112330681B (zh) * 2020-11-06 2024-05-28 北京工业大学 一种基于注意力机制的轻量级网络实时语义分割方法
CN113744141B (zh) * 2020-11-19 2024-04-16 北京京东乾石科技有限公司 图像的增强方法、装置和自动驾驶的控制方法、装置
CN112580661B (zh) * 2020-12-11 2024-03-08 江南大学 一种深度监督下的多尺度边缘检测方法
CN112613517B (zh) * 2020-12-17 2022-02-18 深圳大学 内窥镜仪器分割方法、装置、计算机设备及存储介质
CN112598003B (zh) * 2020-12-18 2022-11-25 燕山大学 基于数据扩充和全监督预处理的实时语义分割方法
CN112651981B (zh) * 2020-12-23 2024-04-19 浙江工业大学 一种显著边缘特征提取模块引导网络的肠道疾病分割方法
CN112580654A (zh) * 2020-12-25 2021-03-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 遥感图像地物语义分割方法
CN112634238B (zh) * 2020-12-25 2024-03-08 武汉大学 一种基于注意力模块的图像质量评价方法
CN112819006B (zh) * 2020-12-31 2023-12-22 北京声智科技有限公司 图像处理方法、装置及电子设备
CN112686913B (zh) * 2021-01-11 2022-06-10 天津大学 基于边界注意力一致性的目标边界检测和目标分割模型
CN112733744B (zh) * 2021-01-14 2022-05-24 北京航空航天大学 一种基于边缘协同监督与多级约束的伪装物体检测模型
CN112785569B (zh) * 2021-01-19 2024-04-19 浙江工业大学 基于边缘指导和多尺度融合的全景片龋齿分割方法
CN112862761B (zh) * 2021-01-20 2023-01-17 清华大学深圳国际研究生院 一种基于深度神经网络的脑瘤mri图像分割方法及***
CN112750140B (zh) * 2021-01-21 2022-10-14 大连理工大学 基于信息挖掘的伪装目标图像分割方法
CN112837278B (zh) * 2021-01-25 2024-04-19 浙江工业大学 基于深度边界监督的牙齿全景片龋齿识别方法
CN112802039B (zh) * 2021-01-26 2022-03-01 桂林电子科技大学 一种基于全局边缘注意力的全景分割方法
CN112966603B (zh) * 2021-03-05 2022-03-08 哈尔滨市科佳通用机电股份有限公司 一种铁路货车渡板脱落的故障识别方法
CN112950477B (zh) * 2021-03-15 2023-08-22 河南大学 一种基于双路径处理的高分辨率显著性目标检测方法
CN113065426B (zh) * 2021-03-19 2023-10-17 浙江理工大学 基于通道感知的手势图像特征融合方法
CN113159043B (zh) * 2021-04-01 2024-04-30 北京大学 基于语义信息的特征点匹配方法及***
CN113012172B (zh) * 2021-04-09 2023-10-03 杭州师范大学 一种基于AS-UNet的医学图像分割方法及***
CN113076902B (zh) * 2021-04-12 2023-07-18 华南理工大学 一种多任务融合的人物细粒度分割***和方法
CN113283434B (zh) * 2021-04-13 2024-06-21 北京工业大学 一种基于分割网络优化的图像语义分割方法及***
CN113313669B (zh) * 2021-04-23 2022-06-03 石家庄铁道大学 一种地铁隧道表面病害图像顶层语义特征增强方法
CN113269197B (zh) * 2021-04-25 2024-03-08 南京三百云信息科技有限公司 基于语义分割的证件图像顶点坐标回归***和识别方法
CN113128513B (zh) * 2021-04-28 2023-07-07 西安微电子技术研究所 一种基于目标分割的小样本训练方法
CN113220915B (zh) * 2021-04-29 2022-11-22 华中科技大学 一种基于残差注意力的遥感图像检索方法及装置
CN113192093B (zh) * 2021-05-10 2023-04-18 新疆大学 基于双流网络结构的快速显著性目标检测方法
CN113222012A (zh) * 2021-05-11 2021-08-06 北京知见生命科技有限公司 一种肺部数字病理图像自动定量分析方法及***
CN113392728B (zh) * 2021-05-28 2022-06-10 杭州电子科技大学 一种基于ssa锐化注意机制的目标检测方法
CN113409321B (zh) * 2021-06-09 2023-10-27 西安电子科技大学 一种基于像素分类和距离回归的细胞核图像分割方法
CN113516670B (zh) * 2021-06-29 2024-06-25 清华大学 一种反馈注意力增强的非模式图像分割方法及装置
CN113361495B (zh) * 2021-07-27 2024-04-09 平安科技(深圳)有限公司 人脸图像相似度的计算方法、装置、设备及存储介质
CN113469287A (zh) * 2021-07-27 2021-10-01 北京信息科技大学 一种基于实例分割网络的航天器多局部构件检测方法
CN113807356B (zh) * 2021-07-29 2023-07-25 北京工商大学 一种端到端的低能见度图像语义分割方法
CN113343953B (zh) * 2021-08-05 2021-12-21 南京信息工程大学 一种用于遥感场景识别的fgr-am方法和***
CN113674297B (zh) * 2021-08-11 2022-07-05 山东大学 基于信息混乱度度量的语义边缘检测方法及***
CN113657392B (zh) * 2021-08-16 2022-09-23 山东建筑大学 基于低秩混合注意力机制的小目标语义分割方法及***
CN113744205B (zh) * 2021-08-17 2024-02-06 哈尔滨工业大学(威海) 一种端到端的道路裂缝检测***
CN113838073B (zh) * 2021-09-08 2024-05-31 厦门美图之家科技有限公司 基于自适应边缘增强的人脸解析方法、装置及存储介质
CN114170167B (zh) * 2021-11-29 2022-11-18 深圳职业技术学院 基于注意力引导上下文校正的息肉分割方法和计算机设备
CN114241407B (zh) * 2021-12-10 2023-05-23 电子科技大学 一种基于深度学习的近距离屏幕监控方法
CN114463340B (zh) * 2022-01-10 2024-04-26 武汉大学 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN114445426B (zh) * 2022-01-28 2022-08-26 深圳大学 内窥镜图像中息肉区域的分割方法、装置及相关组件
CN114596502B (zh) * 2022-03-03 2023-04-07 合肥工业大学 基于边缘增强的高分辨率遥感影像的耕地信息提取方法
CN114565770B (zh) * 2022-03-23 2022-09-13 中南大学 基于边缘辅助计算和掩模注意力的图像分割方法及***
CN114511576B (zh) * 2022-04-19 2022-07-12 山东建筑大学 尺度自适应特征增强深度神经网络的图像分割方法与***
CN114972748B (zh) * 2022-04-28 2024-05-28 北京航空航天大学 一种可解释边缘注意力和灰度量化网络的红外语义分割方法
CN115063591B (zh) * 2022-07-26 2022-11-29 之江实验室 一种基于边缘度量关系的rgb图像语义分割方法及装置
CN115218798B (zh) * 2022-09-20 2022-12-09 西安中科慧远视觉技术有限公司 测量板材孔和/或槽尺寸的光学测量***、方法及介质
CN115578360B (zh) * 2022-10-24 2023-12-26 电子科技大学 一种针对超声心动图像的多目标语义分割方法
CN115661820B (zh) * 2022-11-15 2023-08-04 广东工业大学 一种基于密集特征反向融合的图像语义分割方法及***
CN115797633B (zh) * 2022-12-02 2023-06-27 中国科学院空间应用工程与技术中心 一种遥感图像分割方法、***、存储介质和电子设备
CN116453111B (zh) * 2023-06-16 2023-11-21 广东海洋大学 一种基于轻量级YOLOv4的菠萝成熟度分析方法
CN117690107B (zh) * 2023-12-15 2024-04-26 上海保隆汽车科技(武汉)有限公司 一种车道边线识别方法和装置
CN117612164B (zh) * 2024-01-19 2024-04-30 武汉互创联合科技有限公司 基于双重边缘检测的细胞***均衡度检测方法
CN117830646A (zh) * 2024-03-06 2024-04-05 陕西天润科技股份有限公司 一种基于立体影像快速提取建筑物顶部高程的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013168154A1 (en) * 2012-05-07 2013-11-14 Bar Ilan University A cognitive training method for semantic skills enhancement
CN110147763B (zh) * 2019-05-20 2023-02-24 哈尔滨工业大学 基于卷积神经网络的视频语义分割方法
CN110853053A (zh) * 2019-10-25 2020-02-28 天津大学 一种以多候选对象为语义知识的显著对象检测方法
CN110837811B (zh) * 2019-11-12 2021-01-05 腾讯科技(深圳)有限公司 语义分割网络结构的生成方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CGNet:cross-guidance network for semantic segmentation;Zhijie Zhang等;《SCIENCE CHINA information Sciences》;20190616;第23卷(第2期);全文 *

Also Published As

Publication number Publication date
CN111462126A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN111462126B (zh) 一种基于边缘增强的语义图像分割方法及***
CN111027575B (zh) 一种自注意对抗学习的半监督语义分割方法
Chen et al. Saliency detection via the improved hierarchical principal component analysis method
CN111191583B (zh) 基于卷积神经网络的空间目标识别***及方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
Mao et al. Deep residual pooling network for texture recognition
Seo et al. Progressive attention networks for visual attribute prediction
CN115082675B (zh) 一种透明物体图像分割方法及***
CN110929080A (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN113240683B (zh) 基于注意力机制的轻量化语义分割模型构建方法
CN115578378A (zh) 红外与可见光图像融合的光伏缺陷检测方法
CN110598746A (zh) 一种基于ode求解器自适应的场景分类方法
CN114821050A (zh) 一种基于transformer的指称图像分割方法
CN116012722A (zh) 一种遥感影像场景分类方法
Han et al. L-Net: lightweight and fast object detector-based ShuffleNetV2
Liu et al. Image retrieval using CNN and low-level feature fusion for crime scene investigation image database
ABAWATEW et al. Attention augmented residual network for tomato disease detection andclassification
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
CN114519383A (zh) 一种图像目标检测方法及***
Wu et al. Vehicle detection based on adaptive multi-modal feature fusion and cross-modal vehicle index using RGB-T images
Cong et al. CAN: Contextual aggregating network for semantic segmentation
Nebili et al. Augmented convolutional neural network models with relative multi-head attention for target recognition in infrared images
Wang Remote sensing image semantic segmentation algorithm based on improved ENet network
Sanyal et al. Traffic sign recognition on Indian database using wavelet descriptors and convolutional neural network ensemble
Zeng et al. Masanet: Multi-angle self-attention network for semantic segmentation of remote sensing images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant