CN116704190A - 轻量级DeepLabV3+图像语义分割方法及设备 - Google Patents
轻量级DeepLabV3+图像语义分割方法及设备 Download PDFInfo
- Publication number
- CN116704190A CN116704190A CN202310710211.3A CN202310710211A CN116704190A CN 116704190 A CN116704190 A CN 116704190A CN 202310710211 A CN202310710211 A CN 202310710211A CN 116704190 A CN116704190 A CN 116704190A
- Authority
- CN
- China
- Prior art keywords
- training
- loss
- semantic segmentation
- image
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 79
- 238000011176 pooling Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 230000007246 mechanism Effects 0.000 claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 25
- 238000003860 storage Methods 0.000 claims description 14
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 241000282326 Felis catus Species 0.000 claims description 4
- 241000271566 Aves Species 0.000 claims description 3
- 241000283690 Bos taurus Species 0.000 claims description 3
- 241000282472 Canis lupus familiaris Species 0.000 claims description 3
- 241000283086 Equidae Species 0.000 claims description 3
- 241001494479 Pecora Species 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 9
- 238000003709 image segmentation Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000010008 shearing Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 239000011796 hollow space material Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种轻量级DeepLabV3+图像语义分割方法及设备,本发明基于SE通道注意力机制动态调整深度可分离卷积层,对原始样本数据进行特征提取,提取的深层特征输入至结合ECA通道注意力机制的空洞空间金字塔池化模块对数据进行进一步卷积提取深层特征图通道上的注意力权重并与输出的深层特征图逐元素相乘融合;将融合后的深层特征图与浅层特征图进行拼接融合,融合后得到的通道维度上的图像特征图解码,并以此建立的模型对训练集进行预训练、构建预训练模型,并以此对验证集、测试集进行测试预测图像分割结果。本发明降低了计算复杂度,加快了模型训练速度,采用的主干特征提取网络提高了训练速度的同时保持了分割精度的相似度。
Description
技术领域
本发明属于计算机机器视觉技术领域,具体涉及轻量级DeepLabV3+图像语义分割方法及设备。
背景技术
语义分割是计算机视觉中的一项任务,其目的是对图像中的每个像素进行分类,这种分类可以将图像中的每个像素与其他像素区分开,并将图像中的不同物体或场景元素分开。随着深度学习技术的发展和大规模数据集的开发,语义分割任务变得越来越受到关注;特别是近年来DeepLab系列网络的强势登场,在语义分割任务上取得了显著的成果;DeepLabV3+网络是DeepLab系列模型的最新版本,它结合了深度卷积神经网络和空洞空间金字塔池化模块,在处理各种尺度的输入图像时能够获得更好的语义信息。
随着语义分割应用到自动驾驶、无人机视觉等领域,实时性的分割需求变得更加重要。DeepLabV3+在运行时参数量大,需要消耗大量的运行时间,且没有充分考虑到网络的实时性,而对于现在的移动端应用而言,不仅要求分割的精度,还需要能够实时的进行处理和反馈,所以如何在保证精度的前提下提升运行速度,减少模型复杂度和计算复杂度是关键。
发明内容
本发明针对上述缺陷,提供一种轻量级DeepLabV3+图像语义分割方法及设备。本发明所解决的技术问题是针对DeepLabV3+网络存在语义信息不全面、特征提取不连续导致的分割精度低和网络参数量大、训练速度缓慢的问题,提出了一种基于注意力机制的轻量级DeepLabV3+语义分割算法,设计的膨胀可分离卷积替换了空洞空间金字塔池化模块中的膨胀卷积,降低了计算复杂度,加快了模型训练速度,并解决了膨胀卷积所导致的特征提取不连续的问题;轻量级MobileNetV3网络作为特征提取主干网络解决了由于模型复杂度所导致的训练速度缓慢的问题,同时保持了与改进前网络的分割精度相似;设计的ECA通道注意力机制与空洞空间金字塔池化模块合并,解决了编码器区域的连续下采样导致的细节信息流失的问题。
本发明提供如下技术方案:轻量级DeepLabV3+图像语义分割方法,括以下步骤:
S1、数据预处理,将数据集根据网络需求改为512×512尺寸大小,并对数据集进行数据增强;
S2、将经过所述S1步骤处理后的图像数据集输入至轻量级MobileNetV3主干网络中提取特征,并输出浅层特征图和深层特征图;
S3、将所述S2步骤提取到的深层特征图传入基于ECA注意力机制的空洞空间金字塔池化模块中,所述空洞空间金字塔池化模块中的通道注意力机制模块提取所述深层特征图通道上的注意力权重,将提取到的注意力权重与空洞空间金字塔池化模块输出的多尺度拼接的深层特征图逐元素相乘融合,得到通道维度上的图像特征图;
S4、对所述S3步骤融合后得到的通道维度上的图像特征图解码,使用1×1卷积核对其进行通道数调整,然后通过4倍线性差值上采样处理,将经过上采样处理后的特征图与所述S2步骤输出的所述浅层特征图进行拼接融合,然后传入至3×3卷积核中进行细化特征,最后再进行4倍线性插值上采样并调整通道数为21,得到最终的预测图;
S5、使用所述S1-S4步骤建立的模型对训练集进行项训练,保存最好的网络模型权重文件并获取最好的分割结果,作为预训练模型;
S6、加载所述S5步骤构建的预训练模型,对所述S1步骤预处理后得到的验证集、测试集分别进行测试预测图像语义分割验证和测试。
进一步地,所述S1步骤中的数据预处理包括以下步骤:
S1.1、收集通用图像语义分割数据集,并划分为训练集、验证集和测试集;
S1.2、选用PASCAL voc2012图像数据集作为通用图像语义分割数据集,其中,分别用于图像数据训练和测试的训练集和测试集共有17125张,用来语义分割的掩模图片2913张;图像数据集中包含人、汽车、马、鸟、猫、狗、摩托车、火车、沙发、电视机/显示器、牛、羊、公共汽车、船、盆栽植物、餐桌、瓶子、飞机、自行车、椅子以及背景共21个类别图像。
进一步地,所述S1步骤中对数据集进行数据增强为在数据集的基础上进行随机翻转、平移变换、随机剪切、高斯噪声扰动中的一种或多种处理。
进一步地,所述S2步骤中所述轻量级MobileNetV3主干网络对所述S1步骤处理后的图像数据集提取特征包括以下步骤:
S2.1、采用1×1卷积核进行通道的扩张;
S2.2、采用深度可分离卷积提取经过所述S2.1步骤扩张后的图像中每个通道的特征,以减少计算量;
S2.3、对所述S2.3步骤深度可分离卷积后的特征图使用Hswish激活函数增加模型的表达能力;
S2.4、将经过所述2.2步骤处理后的特征图采用1×1卷积核进行通道的减少;
在所述S2.1步骤至所述S2.3步骤处理过程中的每个卷积核之间引入SE通道注意力机制动态调整通道特征的重要性;
所述S2步骤采用的轻量级MobileNetV3主干网络为倒残差结构。
进一步地,所述S2.3步骤使用的Hswish激活函数的计算公式为:
Hswish(x)=x*ReLU6(x+3)/6;
其中,ReLU6(x)=min(max(0,x),6),将输入值x限制在[0,6]的范围内,x为所述S2.3步骤深度可分离卷积后的特征图。
进一步地,所述S2步骤中采用的述空洞空间金字塔池化模块由1层1×1的普通卷积层、三层膨胀可分离卷积层和一层全局平均池化层组成。
进一步地,所述三层膨胀可分离卷积层的扩张率分别为6、12和18。
进一步地,所述S5步骤,包括以下步骤:
S5.1、对所述S1-S4步骤建立的模型设定超参数,以epochs为100、小于等于5×e-4且大于等于0.05×e-4的自适应学习率,学习coslr学习策略;
S5.2、将训练集输入至所述S5.1处理后的模型中,对训练集采用Focal_Loss和Dice_Loss联合训练,选取训练得到的最优分割结果所对应的权重文件并保存。
进一步地,所述S5.2步骤中,对训练集采用Focal_Loss和Dice_Loss联合训练计算总损失TotalLoss,使用Adam优化器,将Adam优化器中的动量参数β1设置为0.9,训练阶段的权重衰减值设置为0;Focal_Loss和Dice_Loss联合训练的总损失计算函数如下:
TotalLoss=λ*Dice Loss+(1-λ)*Focal Loss;
FL(pt)=-α(1-pt)γlog(pt)
其中,λ为总损失计算函数中Dice_Loss的权重系数,0<λ<1,FL(pt)为Focal_Loss的计算公式,pt代表样本属于真实值的概率,α为Focal_Loss的权重因子,0<α<1;γ为聚焦参数,γ>0;DiceLoss为Dice_Loss的计算公式,N为样本总数,yi为第i个样本,为第i个样本的估计值。
本发明还提供一种电子设备,,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,所述程序被储存于计算机可读存储介质上;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的轻量级DeepLabV3+图像语义分割方法。
本发明的有益效果为:
1、本发明基于卷积神经网络,使用轻量级MobileNetV3+网络作为主干网络替换掉了原始主干特征提取网络,减少了模型复杂度和计算复杂度,使模型更加的轻量化,更有利于部署到移动端设备上应用。
2、本发明通过引入ECA通道注意力机制设计了基于注意力机制的空洞空间金字塔池化模块,解决了由于连续下采样所导致的细节信息丢失的问题,增加了特征提取的性能,提升了网络模型的分割精度。
3、本发明采取膨胀卷积与深度可分离卷积结合,替换掉了之前的膨胀卷积,解决了由于膨胀卷积里面的0填充所导致的特征提取不连续的问题,一方面减少了参数数量,另一方面提升了网络模型的分割性能。
附图说明
在下文中将基于实施例并参考附图来对本发明进行更详细的描述。其中:
图1为本发明提供的方法过程流程图;
图2为本发明提供的本发明所构建的基于注意力机制的空洞空间金字塔池化模块结构示意图;
图3为本发明提供的轻量级DeepLabV3+语义分割网络模型结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本申请提供的轻量级DeepLabV3+图像语义分割方法的流程图,本申请提供的轻量级DeepLabV3+图像语义分割方法包括以下步骤:
S1、数据预处理,将数据集根据网络需求改为512×512尺寸大小,并对数据集进行数据增强;
S2、将经过S1步骤处理后的图像数据集输入至轻量级MobileNetV3主干网络中提取特征,并输出浅层特征图和深层特征图;
S3、将S2步骤提取到的深层特征图传入基于ECA注意力机制的空洞空间金字塔池化模块中,将提取到的注意力权重与空洞空间金字塔池化模块输出的多尺度拼接的深层特征图逐元素相乘融合,得到通道维度上的图像特征图;
S4、对S3步骤融合后得到的通道维度上的图像特征图解码,使用1×1卷积核对其进行通道数调整,然后通过4倍线性差值上采样处理,将经过上采样处理后的特征图与S2步骤输出的浅层特征图进行拼接融合,然后传入至3×3卷积核中进行细化特征,最后再进行4倍线性插值上采样并调整通道数为21,得到最终的预测图;在该步骤中的拼接融合过程中,浅层特征图提供了更加细节的信息,深层特征图提供了语义信息;
S5、使用S1-S4步骤建立的模型对训练集进行项训练,保存最好的网络模型权重文件并获取最好的分割结果,作为预训练模型;
S6、加载S5步骤构建的预训练模型,对S1步骤预处理后得到的验证集、测试集分别进行测试预测图像语义分割验证和测试。
本申请提供的轻量级DeepLabV3+图像语义分割方法采用的MobileNetV3主干网络为深度可分离卷积,通过采用深度可分离卷积替换现有技术中的标准卷积对原始样本数据进行特征提取,本申请的MobileNetV3主干网络所蔡允恭的深度可分离卷积包含逐通道卷积和逐点卷积两个部分;逐通道卷积是指对输入的每个通道应用单独的卷积核。它的作用是在每个输入通道上进行空间特征的提取,通过在每个通道上进行卷积操作来捕捉通道内的特征,逐通道卷积可以有效地减少参数量和计算量,从而使网络更加轻量化;逐点卷积是指在逐通道卷积之后应用一个1x1的卷积核,对每个通道的特征进行线性组合。它的作用是将逐通道卷积提取的通道特征进行组合和整合,将不同通道之间的信息进行交互和融合。逐点卷积可以增加网络的表达能力,帮助网络学习更复杂的特征表示。
由于采用的深度可分离卷积参数数量更少,模型复杂度更低,因此,本申请提供的轻量级DeepLabV3+图像语义分割方法计算效率更加高效。
S6步骤具体为:
S6.1、加载已经训练好的网络模型权重文件,将数据集放入到网络模型中进行训练和验证,得到最后的分割结果;
S6.2、保存性能最好的一次权重文件,用于测试测试集,得到最后的实验数据和数据集对应的分割图。
作为本发明的一个优选实施例,S1步骤中的数据预处理包括以下步骤:
S1.1、收集通用图像语义分割数据集,并划分为训练集、验证集和测试集;
S1.2、选用PASCAL voc2012图像数据集作为通用图像语义分割数据集,其中,分别用于图像数据训练和测试的训练集和测试集共有17125张,用来语义分割的掩模图片2913张;图像数据集中包含人、汽车、马、鸟、猫、狗、摩托车、火车、沙发、电视机/显示器、牛、羊、公共汽车、船、盆栽植物、餐桌、瓶子、飞机、自行车、椅子以及背景共21个类别图像。
进一步优选地,S1步骤中对数据集进行数据增强为在数据集的基础上进行随机翻转、平移变换、随机剪切、高斯噪声扰动中的一种或多种处理。
对原始数据集进行上述处理后可以提升最终训练得到的模型的鲁棒性,增加了整个网络的方向上的不变性的同时,降低网络模型的误判率。
作为本发明的另一个优选实施例,S2步骤中轻量级MobileNetV3主干网络对S1步骤处理后的图像数据集提取特征包括以下步骤:
S2.1、采用1×1卷积核进行通道的扩张;
S2.2、采用深度可分离卷积提取经过S2.1步骤扩张后的图像中每个通道的特征,以减少计算量;
S2.3、对S2.3步骤深度可分离卷积后的特征图使用Hswish激活函数增加模型的表达能力;
S2.4、将经过2.2步骤处理后的特征图采用1×1卷积核进行通道的减少;
在S2.1步骤至S2.3步骤处理过程中的每个卷积核之间引入SE通道注意力机制动态调整通道特征的重要性;
S2步骤采用的轻量级MobileNetV3主干网络为倒残差结构。
S2.4步骤中的SE通道注意力机制为,首先将全局平均池化操作应用于输入特征图,将其压缩为一个大小为1×1×C的张量,通过两个全连接层对压缩后的特征进行学习权重的计算。假设压缩后的特征为z∈R^C×1×1,第一个全连接层将z映射到一个中间维度为C/r的特征,其中r是一个控制特征降维的比例因子,在这里我们取r值为4。然后,通过RELU激活函数进行非线性激活,再经过第二个全连接层将其映射回原始的通道维度C。最后,通过sigmoid函数将激励后的特征转化为一个范围在0到1之间的权重向量。最后将计算得到的权重向量应用于原始的输入特征图上,对每个通道进行加权。
具体地,S2.3步骤使用的Hswish激活函数的计算公式为:
Hswish(x)=x*ReLU6(x+3)/6;
其中,ReLU6(x)=min(max(0,x),6),将输入值x限制在[0,6]的范围内,x为S2.3步骤深度可分离卷积后的特征图;Hswish函数是在ReLU6的基础上进行的变换,通过乘以X实现非线性的平滑映射。
本申请所采用的倒残差结构的轻量级MobileNetV3主干网络,由用于调整通道数的1×1的卷积层、用于特征提取的3×3深度可分离卷积层以及激活函数组成,激活函数使用的ReLU6对输出进行非线性变换,倒残差连接将输入特征图经过一系列的卷积和激活之后得到的特征图与输入的特征图进行通道维度上的拼接操作形成输出特征图。保持了输入特征图与输出特征图具有相同的空间尺寸。
进一步优选地,S2步骤中采用的述空洞空间金字塔池化模块由1层1×1的普通卷积层、三层膨胀可分离卷积层和一层全局平均池化层组成,三层膨胀可分离卷积层的扩张率分别为6、12和18。
本申请提供的轻量级DeepLabV3+图像语义分割方法在S2步骤中采用的空洞空间金字塔池化模块通过与ECA通道注意力机制合并,增强了对深层特征信息通道之间的依赖关系的特征学习,解决了连续下采样所导致的细节信息丢失的问题,同时提升了网络模型的分割性能。
此外,在S2步骤中采用的空洞空间金字塔池化模块所采用的膨胀可分离卷积层结合了膨胀卷积和深度可分离卷积的特性,其包含逐通道卷积和逐点卷积两个部分;逐通道卷积是指对输入的每个通道应用单独的卷积核,通过引入膨胀率,实现更大的感受野和参数效率的平衡并减少参数量和计算量;逐点卷积是指在逐通道卷积之后应用一个1x1的卷积核,对每个通道的特征进行线性组合。它的作用是将逐通道卷积提取的通道特征进行组合和整合,将不同通道之间的信息进行交互和融合。逐点卷积可以增加网络的表达能力,帮助网络学习更复杂的特征表示。
作为本发明的另一个优选实施例,S5步骤中使用S1-S4步骤建立的模型对训练集进行项训练,得到预训练模型,具体包括以下步骤:
S5.1、对S1-S4步骤建立的模型设定超参数,以epochs为100、小于等于5×e-4且大于等于0.05×e-4的自适应学习率,学习coslr学习策略;
S5.2、将训练集输入至S5.1处理后的模型中,对训练集采用Focal_Loss和Dice_Loss联合训练,选取训练得到的最优分割结果所对应的权重文件并保存。
经过设定网络模型的超参数,并采取自适应学***衡和像素类别分布不平衡的问题。
S5.2步骤中,对训练集采用Focal_Loss和Dice_Loss联合训练计算总损失TotalLoss,使用Adam优化器,将Adam优化器中的动量参数β1设置为0.9,训练阶段的权重衰减值设置为0;Focal_Loss和Dice_Loss联合训练的总损失计算函数如下:
TotalLoss=λ*Dice Loss+(1-λ)*Focal Loss;
FL(pt)=-α(1-pt)γlog(pt)
其中,λ为总损失计算函数中Dice_Loss的权重系数,0<λ<1,FL(pt)为Focal_Loss的计算公式,pt代表样本属于真实值的概率,α为Focal_Loss的权重因子,0<α<1;γ为聚焦参数,γ>0;DiceLoss为Dice_Loss的计算公式,N为样本总数,yi为第i个样本,为第i个样本的估计值。
聚焦参数γ用于控制简单样本重要性降权的速率,通常取值0以上,可以根据实际情况进行调整,较大的r值会降低容易分类样本的权重,是模型更关注难分类的样本,当γ=0时,Focal_Loss退化为普通的交叉熵损失函数;权重因子α用于控制正负样本的权重,取值为0到1之间,0代表完全不关注正样本,1表示平等对待正负样本;pt表示样本属于真实值True的概率。
Focal_Loss和Dice_Loss两个损失函数联合训练时,它们作为两个独立的损失函数,并对他们进行加权求和,得到最终的总损失。总损失计算函数的公式为Total Loss=λ*Dice Loss+(1-λ)*Focal Loss,其中λ是权衡两个损失函数之间的权重系数,通过调节λ的取值,可以调整模型在相似度和类别不平衡之间的权衡关系。
所使用的Adam优化器的权重衰减(weight decay)是通过调整优化器的超参数来实现的,通过在优化的过程中对Adam优化器的权重衰减参数的设置,可以对权重的更新进行合适的调整和控制,在某些情况下,设置较小的权重衰减值可以有助于控制模型的复杂度,并降低过拟合的风险。然而,在使用Adam优化器时,由于其自适应的学习率调整机制,权重衰减往往不需要额外的调整,因此,将训练阶段的权重衰减设置为0可以使模型的训练过程更加稳定,避免对权重参数施加不必要的额外惩罚。此外,动量参数是Adam优化器中的一个参数,用于控制参数更新的方向和速度,一般设置在0到1之间,较高的动量值会增加更新参数的幅度,使得参数更快地移动。为了在梯度下降的过程中加速收敛并帮助跳出局部极小值,我们将Adam优化器里面的动量参数(β1)设置为0.9。
在某些情况下,如果希望保留高质量或重要的训练样本,可以选择将筛选阈值设置得较高,超过阈值的样本被剔除,只保留质量较高的样本进行训练。这种策略可以帮助提高模型的鲁棒性和泛化能力,减少对噪声或异常样本的过拟合。
另一方面,如果想要充分利用所有样本进行训练,并且不希望剔除任何样本,可以选择较低的筛选阈值,以保留所有样本。这种策略可能会导致模型对于低质量样本或噪声更为敏感,需要更多的训练样本来进行模型的泛化。一般情况下阈值可以设置在0到1之间。
S5.1步骤中的coslr学习策略,全称为"Cosine Annealing LR"(Cosine LR),其是一种学习率调度策略,用于优化神经网络的训练过程。它基于余弦函数的变化模式,通过周期性地调整学习率来帮助网络更好地收敛。其计算公式为lr=lr=min_lr+0.5*(max_lr-min_lr)*(1+cos(epoch*pi/T_total)),其中lr是当前的学习率,max_lr是最大学习率,min_lr是最小学习率,epoch为训练次数,T_total为总训练次数。
在S5.1步骤中,学习coslr学习策略过程中,冻结训练时batchsize为8,解冻训练时batchsize为4,输入图像尺寸为512×512。
本发明提供的轻量级DeepLabV3+图像语义分割方法训练集采用Focal_Loss和Dice_Loss联合训练,通过Focal_Loss训练,解决了类别不平衡的问题并且减少了易分类样本的权重;通过Dice_Loss训练,可以针对像素类别分布不平衡的问题,对像素数量少的类别进行捕捉,因此通过Focal_Loss和Dice_Loss联合训练相较于现有技术提高了训练的精确度和准确度。
易分类样本是指容易分类得到的样本图像,因为类别不平衡的原因,可能导致有一些类别容易分类,一些类别难分类,例如飞机和电视机,在数据集中出现的频率较低,它们的形状和外观特征相对复杂,因此对模型而言难分类,而像人、汽车、猫等类别较为容易分类。
本发明还提供一种电子设备,该电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,程序被储存于计算机可读存储介质上;
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上任意一个实施例提供的轻量级DeepLabV3+图像语义分割方法。
本申请提供的轻量级DeepLabV3+图像语义分割方法可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。机器可读存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。机器可读存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。本发明提供的能够执行轻量级DeepLabV3+图像语义分割方法的电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)中的程序或者从存储装置加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线304彼此相连。输入/输出(I/O)接口也连接至总线。
通常,以下装置可以连接至I/O接口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
本领域技术人员在考虑说明书及实践这里的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由上面的权利要求指出。
Claims (10)
1.轻量级DeepLabV3+图像语义分割方法,其特征在于,包括以下步骤:
S1、数据预处理,将数据集根据网络需求改为512×512尺寸大小,并对数据集进行数据增强;
S2、将经过所述S1步骤处理后的图像数据集输入至轻量级MobileNetV3主干网络中提取特征,并输出浅层特征图和深层特征图;
S3、将所述S2步骤提取到的深层特征图传入基于ECA注意力机制的空洞空间金字塔池化模块中,所述空洞空间金字塔池化模块中的通道注意力机制模块提取所述深层特征图通道上的注意力权重,将提取到的注意力权重与空洞空间金字塔池化模块输出的多尺度拼接的深层特征图逐元素相乘融合,得到通道维度上的图像特征图;
S4、对所述S3步骤融合后得到的通道维度上的图像特征图解码,使用1×1卷积核对其进行通道数调整,然后通过4倍线性差值上采样处理,将经过上采样处理后的特征图与所述S2步骤输出的所述浅层特征图进行拼接融合,然后传入至3×3卷积核中进行细化特征,最后再进行4倍线性插值上采样并调整通道数为21,得到最终的预测图;
S5、使用所述S1-S4步骤建立的模型对训练集进行项训练,保存最好的网络模型权重文件并获取最好的分割结果,作为预训练模型;
S6、加载所述S5步骤构建的预训练模型,对所述S1步骤预处理后得到的验证集、测试集分别进行测试预测图像语义分割验证和测试。
2.根据权利要求1所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S1步骤中的数据预处理包括以下步骤:
S1.1、收集通用图像语义分割数据集,并划分为训练集、验证集和测试集;
S1.2、选用PASCAL voc2012图像数据集作为通用图像语义分割数据集,其中,分别用于图像数据训练和测试的训练集和测试集共有17125张,用来语义分割的掩模图片2913张;图像数据集中包含人、汽车、马、鸟、猫、狗、摩托车、火车、沙发、电视机/显示器、牛、羊、公共汽车、船、盆栽植物、餐桌、瓶子、飞机、自行车、椅子以及背景共21个类别图像。
3.根据权利要求1所述的的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S1步骤中对数据集进行数据增强为在数据集的基础上进行随机翻转、平移变换、随机剪切、高斯噪声扰动中的一种或多种处理。
4.根据权利要求1所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S2步骤中所述轻量级MobileNetV3主干网络对所述S1步骤处理后的图像数据集提取特征包括以下步骤:
S2.1、采用1×1卷积核进行通道的扩张;
S2.2、采用深度可分离卷积提取经过所述S2.1步骤扩张后的图像中每个通道的特征,以减少计算量;
S2.3、对所述S2.3步骤深度可分离卷积后的特征图使用Hswish激活函数增加模型的表达能力;
S2.4、将经过所述2.2步骤处理后的特征图采用1×1卷积核进行通道的减少;
在所述S2.1步骤至所述S2.3步骤处理过程中的每个卷积核之间引入SE通道注意力机制动态调整通道特征的重要性;
所述S2步骤采用的轻量级MobileNetV3主干网络为倒残差结构。
5.根据权利要求4所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S2.3步骤使用的Hswish激活函数的计算公式为:
Hswish(x)=x*ReLU6(x+3)/6;
其中,ReLU6(x)=min(max(0,x),6),将输入值x限制在[0,6]的范围内,x为所述S2.3步骤深度可分离卷积后的特征图。
6.根据权利要求1所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S2步骤中采用的述空洞空间金字塔池化模块由1层1×1的普通卷积层、三层膨胀可分离卷积层和一层全局平均池化层组成。
7.根据权利要求6所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述三层膨胀可分离卷积层的扩张率分别为6、12和18。
8.根据权利要求1所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S5步骤,包括以下步骤:
S5.1、对所述S1-S4步骤建立的模型设定超参数,以epochs为100、小于等于5×e-4且大于等于0.05×e-4的自适应学习率,学习coslr学习策略;
S5.2、将训练集输入至所述S5.1处理后的模型中,对训练集采用Focal_Loss和Dice_Loss联合训练,选取训练得到的最优分割结果所对应的权重文件并保存。
9.根据权利要求8所述的轻量级DeepLabV3+图像语义分割方法,其特征在于,所述S5.2步骤中,对训练集采用Focal_Loss和Dice_Loss联合训练计算总损失TotalLoss,使用Adam优化器,将Adam优化器中的动量参数β1设置为0.9,训练阶段的权重衰减值设置为0;Focal_Loss和Dice_Loss联合训练的总损失计算函数如下:
TotalLoss=λ*Dice Loss+(1-λ)*Focal Loss;
FL(pt)=-α(1-pt)γlog(pt)
其中,λ为总损失计算函数中Dice_Loss的权重系数,0<λ<1,FL(pt)为Focal_Loss的计算公式,pt代表样本属于真实值的概率,α为Focal_Loss的权重因子,0<α<1;γ为聚焦参数,γ>0;DiceLoss为Dice_Loss的计算公式,N为样本总数,yi为第i个样本,为第i个样本的估计值。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,所述程序被储存于计算机可读存储介质上;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任意一项所述的轻量级DeepLabV3+图像语义分割方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710211.3A CN116704190A (zh) | 2023-06-15 | 2023-06-15 | 轻量级DeepLabV3+图像语义分割方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310710211.3A CN116704190A (zh) | 2023-06-15 | 2023-06-15 | 轻量级DeepLabV3+图像语义分割方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116704190A true CN116704190A (zh) | 2023-09-05 |
Family
ID=87825336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310710211.3A Pending CN116704190A (zh) | 2023-06-15 | 2023-06-15 | 轻量级DeepLabV3+图像语义分割方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116704190A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134909A (zh) * | 2024-04-30 | 2024-06-04 | 苏州元脑智能科技有限公司 | 一种电子产品外观图像检测方法及装置 |
-
2023
- 2023-06-15 CN CN202310710211.3A patent/CN116704190A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134909A (zh) * | 2024-04-30 | 2024-06-04 | 苏州元脑智能科技有限公司 | 一种电子产品外观图像检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112257794B (zh) | 一种基于yolo的轻量级的目标检测方法 | |
JP2022531641A (ja) | 量子化モデルの最適化方法、装置、情報推薦方法、装置、ニューラルネットワークモデルの最適化方法、装置、電子機器及びコンピュータプログラム | |
CN112418392A (zh) | 一种神经网络构建方法以及装置 | |
CN113570029A (zh) | 获取神经网络模型的方法、图像处理方法及装置 | |
CN111882031A (zh) | 一种神经网络蒸馏方法及装置 | |
CN112529146A (zh) | 神经网络模型训练的方法和装置 | |
KR102621355B1 (ko) | 미세 구조 마스크를 사용한 다중 스케일 인자 이미지 슈퍼 해상도 | |
US20220004849A1 (en) | Image processing neural networks with dynamic filter activation | |
CN112232355A (zh) | 图像分割网络处理、图像分割方法、装置和计算机设备 | |
CN112927209A (zh) | 一种基于cnn的显著性检测***和方法 | |
CN116704190A (zh) | 轻量级DeepLabV3+图像语义分割方法及设备 | |
CN116721334A (zh) | 图像生成模型的训练方法、装置、设备及存储介质 | |
CN110570375B (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
CN115169548A (zh) | 基于张量的持续学习方法和装置 | |
CN113239866B (zh) | 一种时空特征融合与样本注意增强的人脸识别方法及*** | |
US20240152809A1 (en) | Efficient machine learning model architecture selection | |
CN112989843B (zh) | 意图识别方法、装置、计算设备及存储介质 | |
CN114723989A (zh) | 多任务学习方法、装置及电子设备 | |
CN116682076A (zh) | 面向船舶***的多尺度目标检测方法、***及设备 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN113762304B (zh) | 图像处理方法、图像处理装置和电子设备 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN113826115A (zh) | 二进制神经网络正则化的设备、方法和*** | |
CN118094233B (zh) | 内容处理模型集成方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |