CN116342877A - 一种复杂场景下基于改进aspp和融合模块的语义分割方法 - Google Patents
一种复杂场景下基于改进aspp和融合模块的语义分割方法 Download PDFInfo
- Publication number
- CN116342877A CN116342877A CN202310163543.4A CN202310163543A CN116342877A CN 116342877 A CN116342877 A CN 116342877A CN 202310163543 A CN202310163543 A CN 202310163543A CN 116342877 A CN116342877 A CN 116342877A
- Authority
- CN
- China
- Prior art keywords
- module
- aspp
- convolution
- semantic segmentation
- improved
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明的目的在于提供一种复杂场景下基于改进ASPP和融合模块的语义分割方法,包括如下步骤:在Pytorch框架下搭建Deeplabv3+模型;基于传统ASPP结构,设计RA‑ASPP模块;设计CBB模块;采用RA‑ASPP模块对Deeplabv3+模型中的ASPP模块进行替换,采用CBB模块替换解码融合部分的3×3标准卷积;采用冻结训练法训练模型,并分别使用Xception、MobileNetV2作为骨干部分在PASCALVOC07+12数据集上进行消融实验,对比不同模型性能。本发明所提出的改进模块提升了Deeplabv3+的分割效果,不同骨干部分也为复杂场景下的语义分割任务提供了更多的选择。
Description
技术领域
本发明涉及的是一种图像处理方法。
背景技术
图像语义分割的主要任务就是对图像的语义进行理解,并对不同语义的物体进行分割,其中语义指的是图像中物体所代表的含义,例如复杂场景中,行人、车辆、道路、障碍物等都有着不同的含义。它通过将数字图像分成多个集合(像素集)的过程,在分割图像中具有相同标签的像素具有类似的特征。
语义分割效果直接关系到无人***对场景理解的准确度。对智能驾驶、机器人认知层面的自主导航、无人机着陆***以及智慧安防监控等无人***具有至关重要的作用。例如,在自动驾驶领域,汽车需要具备必要的图像识别与分割能力才能充分理解其行驶过程中的环境变化;在医疗图像诊断领域,可以帮助医生对病人的患病处图像进行分析,从而提高对病患的诊断效率。图像分割的精度越高,则后续的图像处理任务实现的效果越好,可以说图像分割的好坏是图像处理的先决条件,是至关重要的基础工作,在计算机视觉领域中有着重要的地位。然而复杂场景中易出现非结构化、目标多样化、形状不规则化以及光照变化、物体遮挡等各种因素,都给语义分割精度带来了极大的挑战。例如较难分割小目标物体,以及目标物体的较小条状区域。例如,室内场景下桌椅的脚,以及道路场景下电线杆、路灯等较细的条状部分。较难区分具有相似外观的不同目标,以及具有不同外观的同一目标。例如,与树具有相似纹理及外观的地面被误分为树木一类。对复杂环境下光照、季节变化的适应能力不强,鲁棒性欠佳。
随着深度卷积神经网络的发展,许多计算机视觉的任务都获得了极大的效果提升。语义分割作为计算机视觉中最为重要的任务之一,也依靠深度学习的相关技术获得了不错的进展。语义分割作为计算机视觉领域一个难度较大的任务,其难点在于现实中前景和背景的物体非常复杂,通常这些物体会有不同的形状、大小和颜色等。尽管深度卷积神经网络已经把传统语义分割任务的效果提升了不少,但是对于真正应用到现实生活的复杂场景语义分割中仍存在差距。分割场景的日趋复杂化,对分割算法的要求也愈加严格。在场景感知技术当中,高效准确的从环境信息中获取目标种类的分类信息非常的艰难,其主要有两个原因,其一是:针对一些属性相似的对象,就无法进行准确的分割。其二是:语义分割是借助物体的形状进行分割的,针对一些形状稳定或不发生较多变化的静态对象,能够表现出较高的分割精度,但若是被测对象在进行运动或是时常发生较为明显的形状变化时,则无法进行准确的划分。因此为了使图像语义分割的准确度更高,就要进行更深入的研究。通过优化网络结构来提升语义分割效果,对实现复杂场景下的精准感知至关重要。
发明内容
本发明的目的在于提供可以为复杂场景下的语义分割任务提供更多选择的一种复杂场景下基于改进ASPP和融合模块的语义分割方法。
本发明的目的是这样实现的:
本发明一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:
(1)在Pytorch框架下搭建Deeplabv3+模型;
(2)基于传统ASPP结构,设计RA-ASPP模块;
(3)设计CBB模块;
(4)采用RA-ASPP模块对Deeplabv3+模型中的ASPP模块进行替换,采用CBB模块替换解码融合部分的3×3标准卷积;
(5)采用冻结训练法训练模型,并分别使用Xception、MobileNetV2作为骨干部分在PASCAL VOC07+12数据集上进行消融实验,对比不同模型性能。
本发明还可以包括:
1、所述步骤(1)包括如下步骤:
(1.1)采用Xception网络模型作为骨干部分搭建Deeplabv3+网络结构,其中骨干部分进行Xception、MobileNetV2的切换,以应对不同应用需求;
(1.2)在ASPP结构的基础上提出一个RA-ASPP模块,先利用残差网络结构,实现更密集的多尺度特征提取;接着将非对称卷积模块与空洞卷积模块结合,构成一个新的AACB模块,用于替换ASPP中的3×3空洞卷积模块;
(1.3)在解码融合后提出一种结合1×1标准卷积和瓶颈模块的并联融合结构CBB。
2、步骤(2)中的AACB模块用于替换ASPP中的3×3空洞卷积模块,AACB模块延续空洞卷积中的扩张率,即AACB模块的采样率rate={6,12,18}。
3、步骤(3)中的CBB模块结构在ResNet中的瓶颈模块的基础上,在3×3卷积操作之后添加SE注意力机制模块,SE模块的缩减因子为16。
4、步骤(5)中,采用PASCAL VOC07+12数据集进行网络训练,用额外标注的10582张图像进行训练,用1449张图像进行验证和测试,初始学习率为0.007,采用随机梯度下降网络模型优化器,动量为0.9,权重衰减率设为0.0001,学习率下降方式为cos,输入图像大小为512×512,Freeze batch size为8,Freeze epoch为100;Unfreeze batch size为8,UnFreeze epoch为200;共训练300epochs。
本发明的优势在于:本发明提出一种结合残差网络和非对称空洞卷积模块的RA-ASPP模块,进一步丰富了特征提取的尺度,实现了更密集的多尺度特征提取,显示地增强了网络的表征能力;提出了一种结合1×1标准卷积和瓶颈模块的并联融合结构CBB,减少整个网络传输过程中的信息丢失。为满足复杂场景任务下的高精度与实时性,本发明分别使用Xception、MobileNetV2作为骨干部分在PASCAL VOC07+12数据集上进行实验验证。实验结果表明,当骨干部分为Xception时,所提出的方法的平均交并比MIoU为79.78%,在速度仅牺牲1.72FPS的情况下,比改进前提高了2.81%,所提出模块显著提高了语义分割精度,取得了与先进语义分割算法相媲美的分割效果,满足了高精度的要求。骨干部分为MobileNetV2时,所提出的方法的速度达到了37.54FPS,比改进前的提升了17.34FPS,同时MIoU达到了73.32%,保证了实时分割速度与精度之间的平衡。本发明所提出的改进模块提升了Deeplabv3+的分割效果,不同骨干部分也为复杂场景下的语义分割任务提供了更多的选择。
附图说明
图1为Deeplabv3+结构图;
图2为改进的Deeplabv3+结构图;
图3为RA-ASPP结构图;
图4a为RA-ASPP的残差网络单元示意图(残差网络结构),图4b为RA-ASPP的残差网络单元示意图(改进单元);
图5为具有不同扩张率的空洞卷积示意图;
图6为非对称卷积示意图;
图7a为CBB模块结构图(CBB结构图),图7b为CBB模块结构图(SE模块);
图8为Xception作为骨干部分的loss训练曲线;
图9为Xception作为骨干部分的MIoU变化曲线;
图10为Deeplabv3+、Ours1、Ours2在PASCAL VOC07+12数据集上的IoU性能对比图;
图11为不同方法的分割效果对比图(Input image、labeled image、Deeplabv3+、Ours1(Xception)、Ours2(MobileNetV2))。
具体实施方式
下面结合附图举例对本发明做更详细地描述:
结合图1-11,传统Deeplabv3+模型结构如图1所示,本发明对Deeplabv3+进行结构改进。Deeplabv3+是典型的语义分割网络架构之一,它是由编码器、解码器两部分构成,能对图像进行像素级分割,这使得它在图像分类上效果较好。Deeplabv3+比Deeplabv3、Deeplabv2、Deeplabv1增加了一个简单而有效的解码器模块,形成了编码器-解码器结构,这样能收集更多的像素信息,使分割出来的图像准确率更高。Deeplabv3+使用Xception代替ResNet,加深网络的深度,通过骨干网络Xception模型中不同通道的深度可分离卷积层提取图像特征信息,利用空间金字塔池化模块中不同速率的并行空洞卷积获取高层语义信息,并通过1×1卷积进行通道压缩;解码器部分将骨干网络中提取出的低级特征与经过4倍双线性插值上采样的高级特征进行融合,再利用3×3卷积恢复空间信息和4倍双线性插值上采样精细目标边界,解码结构提高了边缘信息的恢复效果,从而提高了精度。
本发明提出一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其网络结构如图2所示。所述方法通过设计一种RA-ASPP模块,并在解码端采用并联融合结构CBB,来提高网络的识别准确度与分割精度。
包括如下步骤:
步骤1:输入大小为512×512的RGB图像;(如图2)
步骤2:将图像输入骨干部分(图2中Backbone),对图像进行特征提取。
本发明设置了两个可切换的骨干部分,分别为Xception和MobileNetV2。其中,Xception是传统Deeplabv3+的骨干部分,而MobileNetV2是Google针对手机等嵌入式设备提出的一种轻量级的深层神经网络。MobileNetV2是MobileNet的升级版,相比于传统的卷积神经网络,在准确率小幅度降低的前提下大大减少了模型参数和运算量。MobileNetV2相比Xception具有低消耗和实时性等优点,符合语义分割任务的实时性要求。MobileNetV2引入深度可分离深度可分离卷积替换普通卷积,引入线性瓶颈和倒残差结构来避免信息损失改善精度,极大降低模型参数量和计算量,进而提高网络的表征能力。为了满足复杂场景下语义分割的实时性要求,本发明用MobileNetV2替换Xception,从而提供一种更满足实时应用要求的语义分割方法。
步骤3:针对ASPP存在的局限性,以及考虑复杂场景目标多样化的特点,对ASPP进行改进,本发明提出一种RA-ASPP模块,用来补充ASPP特征提取过程丢失的信息,从而达到更好地目标分割效果。图3为本发明提出的RA-ASPP结构示意图。
传统ASPP模块是利用骨干网络得到的高级语义特征图进行多尺度采样,生成多尺度的特征图。它结合了空洞卷积可在不丢失分辨率的情况下扩大卷积核的感受野。ASPP由两部分并联组成,第一部分包含1个1×1卷积层和三个3×3的采样率为rate={6,12,18}的空洞卷积层,卷积核数量为256,包含批标准化层;第二部分是图像级特征表示,具体操作是应用全局平均池化之后接着一个卷积核为256的1×1的卷积层,最后在进行双线性上采样操作,得到所需要的空间维度。ASPP结构里存在不同采样率的空洞卷积并行采样。空洞卷积能在不丢失图像分辨率的情况下扩大特征图的感受野,分辨率高可以精确定位目标,而不同的感受野可以感受不同的尺度信息,通过并行组合不同采样率可以获得多个不同尺寸的感受野,从而实现分类任意大小目标的目的。但ASPP的局限性也体现在空洞卷积这里,大采样率的空洞卷积对大目标物体的识别有较好的效果,但遗失了小目标物体的有效信息;小采样率的空洞卷积能获得小目标物体的语义位置信息,但遗失了更多的大目标物体的轮廓边缘信息。并行组合不同采样率的空洞卷积在一定程度上弥补了空洞卷积遗失的信息,但遗失的信息里的有效内容依然没有得到很好的利用。
所述步骤3包括:
步骤3.1:搭建RA-ASPP的残差网络单元,图4是RA-ASPP的残差网络单元示意图。
针对卷积神经网络易出现过拟合和梯度消失问题,残差网络被提出,它的基本思想是假设一个深层次的网络中,存在一个最优的网络层数,那么该网络中就包含了一部分多余的网络层定义为冗余层。将这些冗余层设置为恒等层,能够完成输入和输出的恒等映射,并且在网络训练的过程中能自适应地学习出恒等层。
图4(a)为残差网络结构示意图。残差网络提出了一个捷径(shortcut)的概念,即跳过一个层或多个层,将输入结果直接添加到底层,残差网络的计算公式如式(1)所示。
H(x)=x+F(x) (1)
式(1)中:H(x)为底层的映射;x为输入结果;F(x)为网络中的隐藏层输出结果。通过多个卷积层级联的输出与输入相加的方式对图片进行特征提取。
在卷积神经网络结构中,网络层次越深,训练时产生的错误越多。残差网络的出现在一定程度上解决了在极深度条件下深度卷积神经网络性能退化的问题。如图4(b)所示,本发明在传统ASPP结构中增加了残差网络,避免网络性能退化问题的出现,并利用残差连接进一步丰富了特征提取的尺度,实现了更密集的多尺度特征提取,从而增加了网络模型分割的准确性。
步骤3.2:搭建图3中RA-ASPP中的AACB模块,即将非对称卷积与空洞卷积结合,构成新的非对称空洞卷积AACB模块。针对空洞卷积的不足,将非对称卷积与空洞卷积模块结合,构成一个新的AACB(asymmetric atrous convolution block)模块,用于替换ASPP中的3×3空洞卷积模块。同时AACB模块延续了空洞卷积中的扩张率,即AACB模块的采样率rate={6,12,18}。本发明所提出的非对称空洞卷积模块AACB,一方面利用率空洞卷积扩大感受野,捕获多尺度上下文信息;另一方面,AACB很好地补全空洞卷积在空间层次上缺失地信息,使整个网络具有更好的连续性。
Deeplabv3+网络模型在特征提取时采用ASPP模块丰富上下文的语义信息,但是多个扩张率的空洞卷积易引发棋盘效应,导致小尺度目标丢失和分割不连续的问题。图5是具有不同扩张率的空洞卷积示意图。空洞卷积与普通卷积层相比,引入了一个称为“扩张率”的新参数,该参数定义了卷积核处理数据时各值的间距。空洞卷积具有数据结构保留完整和不使用下采样的特性,优点明显。但多层的空洞卷积也有破坏数据连续性的缺点。空洞卷积的卷积核是通过在普通的卷积核上填0实现的,增大了网络的扩张率。扩张率与空洞卷积核的尺寸关系如式(2)所示:
kdsize=(γ-1)(ksize-1)+ksize (2)
式中:γ表示空洞卷积的扩张系数;ksize表示普通卷积核尺寸;kdsize表示空洞卷积核尺寸,当γ=1时即为普通卷积核。
ACNet的工作表明标准的方形卷积核的骨架部份比边角部分更加重要,训练时丢弃卷积核骨架部分的权重会降低模型的精度,丢弃卷积核边角部分的权重却会增加模型的精度。当增强卷积核骨架部分时,可以捕获更多的图像特征,提升模型精度。因此本发明引入非对称卷积,对空洞卷积部分进行改进。图6是非对称卷积示意图。非对称卷积模块在标准方形卷积的基础上添加水平和垂直的非对称卷积核,输入图像分别经过3×3,1×3和3×1卷积核3个不同形状的卷积处理,提取不同分支特征,如式(3)所示:
为了增强3×3卷积核的骨架部分,ACB将三个并行的3×3,1×3和3×1的卷积核利用卷积的可加性将不同分支进行融合,得到融合后的特征输出,融合输出的特征维度与输入特征的维度保持一致,如式(4)所示:
其中I为输入特征图矩阵,K(1)和K(2)分别代表两个尺寸可以相互兼容的2D卷积核,是对两个2D卷积核对应位置进行求和操作,组成非对称卷积模块代替原始的3×3卷积核来增强卷积核的骨架部分。ACNet的核心是对常规方形卷积核的替换,替换为非对称卷积的形式,可以通过增强卷积核骨架部分,提升卷积核骨架部分的权重,从而捕获更多图像特征,提升基准模型精度。
步骤4:搭建结合1×1卷积和瓶颈模块的并联融合结构CBB。本发明提出的CBB模块可以减少由于上采样导致的部分信息丢失问题,提高网络的准确性。
Deeplabv3+的解码融合部分利用3×3卷积对合并后的总的特征进行简单特征融合,最后对特征采用4倍数双线性插值上采样得到分割结果。在Deeplabv3+网络中采用两次双线性插值上采样,双线性插值的具体矩阵如式(5)所示,以(0,0)、(1,0)、(0,1)、(1,1)为例,在这个正方形里面进行x轴和y轴方向上的插值。
假设x,y分别是目标点的x轴坐标和y轴坐标,当在(0,0)、(1,0)、(0,1)、(1,1)中间进行插值为(x,y)时,这个点与(0,0)之间的关系为f(1,0)×(1-x)×(1-y),与(1,0)的关系为f(1,0)×x×(1-y),与(0,1)的关系为f(0,1)×(1-x)×y,与(1,1)的关系为f(1,1)×x×y。从公式(5)中可以得出,目标点的灰度值是由周围4个像素灰度值取平均得到的,这种方式考虑了周围像素值大小,但是没有考虑相邻点变化率影响,会使放大后部分细节信息丢失。
针对上双线性插值采样导致的信息丢失的问题,本发明提出的CBB模块结构图如图7(a)所示,将1×1卷积和瓶颈模块进行并联融合来构成CBB模块,用来替换传统的3×3卷积模块。在CBB模块中,通过添加1×1卷积调整通道和分辨率。CBB模块是在传统ResNet的瓶颈模块的基础上,在3×3卷积操作之后添加SE模块,缩减因子为16(r=16)。SE模块主要通过学习的方式来自动获取每个特征通道的重要程度,即为特征通道分配不同的权重,重点突出对当前检测任务有用的特征并抑制无效特征,从而提升特征处理的效率,它可以灵活嵌入到其他网络模型中。
图7(b)为SE模块的结构示意图。SE模块首先利用全局平均池化(Global pooling)对输入特征图进行处理,再经过两个全连接层(Fully Connected)先降低特征图的维度再升高维度,最后经过sigmoid激活函数处理后可以得到相应的权重,利用权重在对应位置与原输入特征图相乘得到输出结果,即可以对不同重要程度的特征图进行相应的处理。
步骤5:实验设置。
实验中设置的初始学习率为0.007,骨干网络采用Xception,使用随机梯度下降(SGD)网络模型优化器,动量(momentum)为0.9,为了防止过拟合,将权重衰减率设为0.0001,使用到的学习率下降方式为cos,输入图像的大小为512×512。受制于硬件设备的处理能力,本发明的实验采用冻结训练的方式,从而加快训练效率。其中Freeze batchsize为8,Freeze epoch为100;Unfreeze batch size为8,UnFreeze epoch为200;共训练了300epochs。
实验采用的是PASCAL VOC07+12数据集,由语义分割标准数据集PASCAL VOC2007和VOC2012数据集合并而成,共有21个语义分割类别,包括20个前景类别和1个背景类别。PASCAL VOC07+12数据集中用额外标注的10582张图像进行训练,用1449张图像进行验证和测试,不单独划分测试集。PASCAL VOC07+12数据集是目前语义分割领域中最常用的数据集,数据量大,可使训练得到的语义分割模型表现出更强的泛化能力。实验程序主要采用主流深度学习框架Pytorch实现,软硬件配置如表1所示。
表1实验硬件配置表
步骤6:实验结果及分析。
步骤6.1:本发明使用PASCAL VOC07+12数据集对本发明提出的一种复杂场景下基于改进ASPP和融合模块的语义分割方法进行训练,从而验证本发明算法的有效性。此处以Xception作为骨干部分的改进网络的训练情况作为实例展示。
图8为所提出模型在训练时Loss的变化趋势。由于采用了冻结训练的方式来提高模型训练效率,loss曲线整体下降的较快。train loss和val loss都在不断下降,直至趋于不变,证明本发明提出的模型训练效果好。当Epoch为100时候,Loss曲线逐渐平缓。图9为训练过程中的MIOU变化曲线示意图,当Epoch为195时候,MIOU为79.78%为最优值。
步骤6.2:广泛消融实验对比。
表2在PASCAL VOC07+12数据集上的广泛消融实验
为了验证改进模块的有效性,基于表1的实验条件,本发明在PASCAL VOC07+12数据集上对Deeplabv3+模型进行了消融实验。表2展示了消融实验的结果。所提出的RA-ASPP模块、CBB模块对Deeplabv3+的模型分割精度有明显提升,并仅增加少量的参数。其中,Ours1的MioU、MPA、PA相比传统Deeplabv3+分别提高了2.81%、1.86%、0.76%,参数值为64.157MB,比改进前增加了9.443MB,并达到了18.48FPS的实时语义分割。为进一步提高模型的分割速度,在Ours2中将骨干部分切换为更轻量化的MobileNetV2。Ours2的MioU、MPA、PA分别达到了73.32%、82.01%、94.05%。相比于Deeplabv3+、Ours1,Ours2牺牲了一定精度,但是它的参数量仅为7.299MB,同时分割速度达到了37.54FPS,比Deeplabv3+快了17.34FPS。Ours2在速度与精度之间达到了很好的平衡。消融实验结果证明,本发明提出的两个改进模块较好的提升了Deeplabv3+的分割精度,所提出的两种改进Deeplabv3+模型都具备较好的准确度和实时性。
表3不同GPU上的速度对比
在表3中比较了不同GPU上模型的语义分割速度。其中Ours1使用Xception作为骨干部分,Ours2使用MobileNetV2作为骨干部分。Ours1的分割速度与Deeplabv3+接近,只有1FPS左右的差距。Ours2比传统的Deeplabv3+、Ours1有明显的速度优势。
表4不同网络在PASCAL VOC07+12数据集上的MIOU
如表4所示,Ours1在PASCAL VOC07+12数据集上的MIOU为79.78%,高于同系列的SegNet、FCN-8s、Deeplabv1、Deeplabv2、Deeplabv3、Deeplabv3+。它取得了与先进语义分割算法相当的精度指标,具有良好的语义分割性能。Ours2的MIOU为73.32%,高于SegNet、FCN-8s、Deeplabv1,但低于表4中的其他算法,这主要是由于Ours2采用了轻量的骨干部分,获得速度提升的同时牺牲了一定精度。
图10中展示了Deeplabv3+、Ours1(Xception)和Ours2(MobileNetV2)在PASCALVOC07+12数据集上各个类别的IoU对比结果。本发明提出的改进的Deeplabv3+取得了与当前主流语义分割算法相当的精度指标,具有出色的语义分割性能。
图11展示了不同方法的分割效果对比图。Ours1的分割结果比Deeplabv3+分割结果更好,图像内容的形状信息更全面,边缘轮廓结果也更加细腻平滑。Ours2的分割效果比Deeplabv3+、Ours1差,但也能很好的预测出对应分割结果。当骨干部分为Xception时,改进Deeplabv3+的分割效果优于传统Deeplabv3+;当骨干部分为更轻量的MobileNetV2,改进Deeplabv3+的分割效果比Deeplabv3+差。
Claims (5)
1.一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:
(1)在Pytorch框架下搭建Deeplabv3+模型;
(2)基于传统ASPP结构,设计RA-ASPP模块;
(3)设计CBB模块;
(4)采用RA-ASPP模块对Deeplabv3+模型中的ASPP模块进行替换,采用CBB模块替换解码融合部分的3×3标准卷积;
(5)采用冻结训练法训练模型,并分别使用Xception、MobileNetV2作为骨干部分在PASCAL VOC07+12数据集上进行消融实验,对比不同模型性能。
2.根据权利要求1所述的一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:所述步骤(1)包括如下步骤:
(1.1)采用Xception网络模型作为骨干部分搭建Deeplabv3+网络结构,其中骨干部分进行Xception、MobileNetV2的切换,以应对不同应用需求;
(1.2)在ASPP结构的基础上提出一个RA-ASPP模块,先利用残差网络结构,实现更密集的多尺度特征提取;接着将非对称卷积模块与空洞卷积模块结合,构成一个新的AACB模块,用于替换ASPP中的3×3空洞卷积模块;
(1.3)在解码融合后提出一种结合1×1标准卷积和瓶颈模块的并联融合结构CBB。
3.根据权利要求1所述的一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:步骤(2)中的AACB模块用于替换ASPP中的3×3空洞卷积模块,AACB模块延续空洞卷积中的扩张率,即AACB模块的采样率rate={6,12,18}。
4.根据权利要求1所述的一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:步骤(3)中的CBB模块结构在ResNet中的瓶颈模块的基础上,在3×3卷积操作之后添加SE注意力机制模块,SE模块的缩减因子为16。
5.根据权利要求1所述的一种复杂场景下基于改进ASPP和融合模块的语义分割方法,其特征是:步骤(5)中,采用PASCAL VOC07+12数据集进行网络训练,用额外标注的10582张图像进行训练,用1449张图像进行验证和测试,初始学习率为0.007,采用随机梯度下降网络模型优化器,动量为0.9,权重衰减率设为0.0001,学习率下降方式为cos,输入图像大小为512×512,Freeze batch size为8,Freeze epoch为100;Unfreeze batch size为8,UnFreeze epoch为200;
共训练300epochs。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163543.4A CN116342877A (zh) | 2023-02-24 | 2023-02-24 | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310163543.4A CN116342877A (zh) | 2023-02-24 | 2023-02-24 | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342877A true CN116342877A (zh) | 2023-06-27 |
Family
ID=86876639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310163543.4A Pending CN116342877A (zh) | 2023-02-24 | 2023-02-24 | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116342877A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037105A (zh) * | 2023-09-28 | 2023-11-10 | 四川蜀道新能源科技发展有限公司 | 基于深度学习的路面灌缝检测方法、***、终端及介质 |
-
2023
- 2023-02-24 CN CN202310163543.4A patent/CN116342877A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117037105A (zh) * | 2023-09-28 | 2023-11-10 | 四川蜀道新能源科技发展有限公司 | 基于深度学习的路面灌缝检测方法、***、终端及介质 |
CN117037105B (zh) * | 2023-09-28 | 2024-01-12 | 四川蜀道新能源科技发展有限公司 | 基于深度学习的路面灌缝检测方法、***、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443842B (zh) | 基于视角融合的深度图预测方法 | |
CN111210443B (zh) | 基于嵌入平衡的可变形卷积混合任务级联语义分割方法 | |
CN109859190B (zh) | 一种基于深度学习的目标区域检测方法 | |
CN109241982B (zh) | 基于深浅层卷积神经网络的目标检测方法 | |
CN112101175A (zh) | 基于局部图像的高速公路车辆检测及多属性特征提取方法 | |
CN110689599B (zh) | 基于非局部增强的生成对抗网络的3d视觉显著性预测方法 | |
CN110659664B (zh) | 一种基于ssd的高精度识别小物体的方法 | |
CN111563909A (zh) | 一种复杂街景图像语义分割方法 | |
CN112396607A (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN109753878B (zh) | 一种恶劣天气下的成像识别方法及*** | |
CN109886159B (zh) | 一种非限定条件下的人脸检测方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN110517270B (zh) | 一种基于超像素深度网络的室内场景语义分割方法 | |
CN110717921B (zh) | 改进型编码解码结构的全卷积神经网络语义分割方法 | |
CN112257766A (zh) | 一种基于频域滤波处理的自然场景***影识别检测方法 | |
CN113378756B (zh) | 一种三维人体语义分割方法、终端设备及存储介质 | |
CN110472634A (zh) | 基于多尺度深度特征差值融合网络的变化检测方法 | |
CN113269133A (zh) | 一种基于深度学习的无人机视角视频语义分割方法 | |
CN109523558A (zh) | 一种人像分割方法及*** | |
CN114627269A (zh) | 一种基于深度学***台 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 | |
CN116503709A (zh) | 一种基于改进YOLOv5的雾霾天气下车辆检测方法 | |
CN116740516A (zh) | 基于多尺度融合特征提取的目标检测方法及*** | |
CN116342877A (zh) | 一种复杂场景下基于改进aspp和融合模块的语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |