CN113223006B - 一种基于深度学习的轻量级目标语义分割方法 - Google Patents

一种基于深度学习的轻量级目标语义分割方法 Download PDF

Info

Publication number
CN113223006B
CN113223006B CN202110545310.1A CN202110545310A CN113223006B CN 113223006 B CN113223006 B CN 113223006B CN 202110545310 A CN202110545310 A CN 202110545310A CN 113223006 B CN113223006 B CN 113223006B
Authority
CN
China
Prior art keywords
network
target
segmentation
edge
mobilenet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110545310.1A
Other languages
English (en)
Other versions
CN113223006A (zh
Inventor
陈光柱
易佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Univeristy of Technology
Original Assignee
Chengdu Univeristy of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Univeristy of Technology filed Critical Chengdu Univeristy of Technology
Priority to CN202110545310.1A priority Critical patent/CN113223006B/zh
Publication of CN113223006A publication Critical patent/CN113223006A/zh
Application granted granted Critical
Publication of CN113223006B publication Critical patent/CN113223006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20016Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于深度学习的轻量级目标语义分割方法。该方法的关键在于构建二维语义分割网络结构,在满足轻量化的基础上提高分割精度,并能解决多尺度目标分割问题。选取轻量化网络MobileNet v2模型的骨干网络,提出边界约束网络提高对边界分割的处理能力,从而可以同时满足分割的实时性与准确性。设计具有多尺度性质的金字塔池化模块,利用多次金字塔池化融合不同尺度的特征信息,可保证分割网络对多尺度目标分割的适用性。本发明针对目标的分割问题,研究对MobileNet v2模型的骨干网络的下采样特征图尺寸进行扩大,补全MobileNet v2模型丢失的图像的部分特征,提高了基于MobileNet v2模型对目标的分割精度。

Description

一种基于深度学习的轻量级目标语义分割方法
技术领域
本发明属于计算机视觉、深度学习领域,具体涉及一种基于深度学习的轻量级目标语义分割方法
背景技术
图像语义分割在图像理解中占有重要的地位,是计算机视觉中重要的研究热点之一。图像语义分割、图像识别以及目标检测之间存在着很大的共性,但又拥有许多的不同。图像识别与目标检测都是在一定范围中进行归类操作,将相同类别的像素点给定同一标签,完成对某一类别的识别,两者的不同之处在于图像识别只需得到图像中存在什么目标,但是目标检测不仅需要给定图像中拥有什么目标,而且需要给定目标在图像中的大概位置。图像语义分割在图像识别与目标检测的基础之上,需要对每一个像素进行处理,然后给每一个像素指定相应的标签,最后得到一个与原图大小相同的语义标签图。图像语义分割不但需要得到图像中拥有什么目标及其大概位置,而且需要准确给定目标边界轮廓,整个过程就像在图像识别与目标检测之上加入了目标边界检测操作,得到了更为精确的目标位置。
利用深度卷积神经网络来进行语义分割任务,是在传统图像分割技术上发展而来的一种技术,能对图像中的各区域进行深层次的理解。一些以全卷积网络(fullyconvolutional networks,FCN)为基础架构的早期语义分割网络,在分割准确率和效率上远超传统方法。但这些模型采用逐点相加的方式融合深层的语义类别特征和浅层的像素定位特征,会丢失许多位置信息,导致像素还原不精确,分割结果图边缘模糊,同时这类型的语义分割网络还存在实时性较差等缺点。在实际应用中,存在许多对实时性有需要的场景,一些轻量级语义分割网络被提出。如BiSeNet利用双通道结构解决大感受野和多空间像素的矛盾,并采用轻量级网络模型,使得运行速度得到大幅提升,但自身精度却不是太高。
综上所述,针对以上研究的不足,提出了一种基于深度学习的轻量级语义分割方法。
发明内容
鉴于上述问题,本发明的目的在于提供一种基于深度学习的轻量级目标语义分割方法。
一种基于深度学习的轻量级目标语义分割方法,包括以下步骤:
步骤一:数据集的采集与制作;
步骤二:基于紧凑型神经网络的设计思想,设计二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny SegmentationNetwork Based on Edge Constraints,MPPTSNet-EC);
步骤三:构建合适的损失函数,加速整个网络的收敛,达到网络最优状态;
步骤四:加入边缘约束网络,提高编码器对制造目标图像边缘信息的提取能力。
与现有技术相比,本发明具有以下有益效果:
1.相比于现有语义分割技术在兼顾实时性的同时也保证了分割的准确性,具备不错的像素级别的分割能力。
2.具备较高的实时性,可应用于对实时性有需求的场景。
附图说明
图1是车间目标语义分割数据集的标注过程
图2是车间目标边缘数据集效果图
图3是二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based on Edge Constraints,MPPTSNet-EC)
图4是解码器采用具有多尺度性的多金字塔池化模块(Multi Pyramid PoolingModule,MPPM)
图5是边缘约束网络结构图
图6是车间目标语义分割测试效果
具体实施方式
下面结合附图对本发明的技术方案进行详细说明。
一种基于深度学习的轻量级目标语义分割方法,以数字化车间为例,具体包括以下步骤:
步骤一:建立数据集
步骤11:车间目标语义分割数据集,数字车间语义分割数据集的数量将在很大程度上提高分割网络的精度,现如今面向智能车间目标语义分割的数据集尚不存在,需要建立智能车间目标语义分割数据集,将数据集分为人、机器、移动机器人三类,在建立部分数字车间语义分割数据集后,利用了数据增强的手段来扩充数据集,将原始数据集经过旋转、缩放、平移等操作,完成数字车间语义分割数据集的扩充,如附图1所示;
步骤12:车间边缘数据集,为了对边缘约束网络进行训练,需要构建车间目标边缘标签图。不同于常规的边缘检测算法,边缘约束网络所需要的标签图只是分割目标的边界,并不包含分割目标的内部的边缘。本发明利用边缘检测算法Canny,对车间目标分割数据集中的目标分割标签图进行处理,得到对应的车间目标边缘标签图,效果如附图2所示。
步骤二:设计如附图3所示的二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based onEdge Constraints,MPPTSNet-EC)
步骤21:为了平衡语义分割的精度与实时性,改进MobileNet v2骨干特征提取网络的第5次下采样特征图的尺寸,将其尺寸扩大为MobileNet v2的骨干特征提取网络第5次采样时的2倍(见附图3中的编码过程),并保持其特征图的通道数不变,此网络称之为Resized_MobileNet v2。
步骤22:解码器采用具有多尺度性的多金字塔池化模块(Multi Pyramid PoolingModule,MPPM),如附图4所示。
步骤三:边缘约束网络,步骤二中的Resized_MobileNet v2总共进行了5次采样操作,得到了不同尺度的目标特征信息。为了获得数字化车间目标分割图像更为准确的边缘信息,在步骤二的基础上构建边缘约束网络,提升MPPTSNet-EC中编码器对目标边缘信息的准确提取,如附图5,具体研究思路为:
步骤31:将步骤二中Resized_MobileNet v2中不同尺度的特征图作为边缘约束网络的输入;
步骤32:利用不同的1×1卷积对不同尺度的特征图进行处理,再将处理后的结果上采样至目标原图尺寸大小并进行融合;
步骤33:对1×1卷积处理融合后的特征图经过Sigmoid函数处理,得到最后的目标边缘预测图。
步骤四:损失函数设计,设计损失函数对MPPTSNet-EC进行训练,具体研究思路为:
步骤41:构建交叉熵损失函数L1
Figure GDA0003531899340000031
式中,M代表样本中的类别数量,pc表示预测图像属于类别c的概率,yc表示为一个独热(one-hot)向量,由0与1两种元素构成,当预测值等于样本值为1,反之为0;
步骤42:当样本中前景所占比例较小时,交叉熵损失函数会使得整个网络趋于背景,严重影响网络精度,由此构建DiceLoss损失函数L2
Figure GDA0003531899340000032
式中,X代表了样本标签,Y代表了预测结果,|X∩Y|表示了这两者之间的公共元素,|X|、|Y|分别代表了两者中元素的个数;
步骤43:对目标边缘构建一个分类的损失函数L3,其中,y表示边缘点,p(y)为该样本属于边界类的概率:
L3=-(ylog(p(y))+(1-y)log(1-p(y))),
步骤44:利用交叉熵损失函数、DiceLoss损失函数和分类的损失函数构建损失函数L,共同对MPPSNet-EC网络进行训练:
L=L1+L2+L3
整个网络结构完整描述如下:
步骤1:将整个网络的输入大小设定为473×473×3;
步骤2:Resized_MobileNet v2第4次下采样后的特征图大小为30×30×96;
步骤3:Resized_MobileNet v2第5次下采样的特征图大小为30×30×320;
步骤4:进行第1次金字塔池化操作;
步骤5:提出多金字塔池化网络,采用上下文信息融合方式,将第4次下采样尺寸为30×30×96的特征图与第1次金字塔池化操作后的结果相叠加,获得更加丰富的目标特征;
步骤6:经过第2次金字塔池化操作,最后再利用Conv Module构建一个分类器,完成最终的图像分割预测,如附图6所示。

Claims (1)

1.一种基于深度学习的轻量级目标语义分割方法,其特征在于,包括如下步骤:
步骤1:数据集的采集与制作;
首先,建立目标语义分割数据集,根据功能需求将数据集分为不同的类别,利用数据增强的方法扩充数据集;随后,建立目标边缘数据集,利用目标边缘检测算法,对目标语义分割数据集中的目标分割标签图进行处理,得到相应的目标边缘标签图;
步骤2:设计二维语义分割网络—基于边缘约束的多金字塔池化轻量级语义分割网络(Multi Pyramid Pooling Tiny Segmentation Network Based on Edge Constraints,MPPTSNet-EC);
首先,改变MobileNet v2的骨干特征提取网络的第5次下采样特征图的尺寸,将其尺寸扩大为其2倍,并保持其通道数不变,此网络称之为Resized_MobileNet v2;然后,Resized_MobileNet v2将待分割目标图像进行通道扩张、减小尺寸,获得不同尺度的特征图;其次,构建多金字塔池化模块,作为解码器,将第五次下采样的结果与第四次下采样的结果作为多金字塔池化模块的输入,进行不同尺度的特征信息融合;最后,利用分类器将多金字塔池化处理后的结果转为目标分割预测图;
步骤3:构建合适的损失函数,加速整个网络的收敛,达到网络最优状态;
首先,构建交叉熵损失函数L1
Figure FDA0003516391960000011
式中,M代表样本中的类别数量,pc表示预测图像属于类别c的概率,yc表示为一个独热(one-hot)向量,由0与1两种元素构成,当预测值等于样本值为1,反之为0;
而当样本中前景所占比例较小时,交叉熵损失函数会使得整个网络趋于背景,严重影响网络精度,由此引出DiceLoss损失函数L2
Figure FDA0003516391960000012
式中,X代表了样本标签,Y代表了预测结果,|X∩Y|表示了这两者之间的公共元素,|X|、|Y|分别代表了两者中元素的个数;
对目标边缘构建一个分类的损失函数L3,其中,y表示边缘点,p(y)为该样本属于边界类的概率:
L3=-(ylog(p(y))+(1-y)log(1-p(y))),
综上所述,构建损失函数L:
L=L1+L2+L3
利用损失函数L共同来进行MPPSNet-EC网络的训练;
步骤4:加入边缘约束网络,提高编码器对目标图像边缘信息的提取能力;
首先将Resized_MobileNet v2提取的不同尺度的特征图作为边缘约束网络的输入;随后利用不同的1×1卷积对不同尺度的特征图进行处理,再将处理后的结果上采样至目标原图尺寸大小并进行融合;最后,对1×1卷积处理融合后的特征图经过Sigmoid函数处理,得到最后的目标边缘预测图。
CN202110545310.1A 2021-05-19 2021-05-19 一种基于深度学习的轻量级目标语义分割方法 Active CN113223006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110545310.1A CN113223006B (zh) 2021-05-19 2021-05-19 一种基于深度学习的轻量级目标语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110545310.1A CN113223006B (zh) 2021-05-19 2021-05-19 一种基于深度学习的轻量级目标语义分割方法

Publications (2)

Publication Number Publication Date
CN113223006A CN113223006A (zh) 2021-08-06
CN113223006B true CN113223006B (zh) 2022-04-15

Family

ID=77093021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110545310.1A Active CN113223006B (zh) 2021-05-19 2021-05-19 一种基于深度学习的轻量级目标语义分割方法

Country Status (1)

Country Link
CN (1) CN113223006B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114494703B (zh) * 2022-04-18 2022-06-28 成都理工大学 一种智能车间场景目标轻量级语义分割方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211137A (zh) * 2019-06-08 2019-09-06 西安电子科技大学 基于残差网络和U-Net分割网络的卫星图像分割方法
CN111259983A (zh) * 2020-02-13 2020-06-09 电子科技大学 基于深度学习的图像语义分割方法及存储介质
CN112163572A (zh) * 2020-10-30 2021-01-01 国网北京市电力公司 识别对象的方法和装置
CN112686304A (zh) * 2020-12-29 2021-04-20 山东大学 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211137A (zh) * 2019-06-08 2019-09-06 西安电子科技大学 基于残差网络和U-Net分割网络的卫星图像分割方法
CN111259983A (zh) * 2020-02-13 2020-06-09 电子科技大学 基于深度学习的图像语义分割方法及存储介质
CN112163572A (zh) * 2020-10-30 2021-01-01 国网北京市电力公司 识别对象的方法和装置
CN112686304A (zh) * 2020-12-29 2021-04-20 山东大学 一种基于注意力机制以及多尺度特征融合的目标检测方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
兰天翔 ; 向子彧 ; 刘名果 ; 陈凯.融合U-Net及MobileNet-V2的快速语义分割网络.《计算机工程与应用》.2020, *

Also Published As

Publication number Publication date
CN113223006A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN111210443B (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
CN112634276B (zh) 一种基于多尺度视觉特征提取的轻量级语义分割方法
CN113052210B (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN108596330B (zh) 一种并行特征全卷积神经网络装置及其构建方法
CN111178316B (zh) 一种高分辨率遥感影像土地覆盖分类方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110569851B (zh) 门控多层融合的实时语义分割方法
CN115457498A (zh) 一种基于双注意力和密集连接的城市道路语义分割方法
CN113850324B (zh) 一种基于Yolov4的多光谱目标检测方法
CN114022408A (zh) 基于多尺度卷积神经网络的遥感图像云检测方法
CN114463812B (zh) 基于双通道多分支融合特征蒸馏的低分辨率人脸识别方法
CN111832453A (zh) 基于双路深度神经网络的无人驾驶场景实时语义分割方法
CN111881743A (zh) 一种基于语义分割的人脸特征点定位方法
CN113554032A (zh) 基于高度感知的多路并行网络的遥感图像分割方法
US20240161531A1 (en) Transformer-based multi-scale pedestrian re-identification method
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN115713546A (zh) 移动终端设备用的轻量化目标跟踪算法
CN113762039A (zh) 一种交通标志牌的信息匹配方法及相关装置
CN116363358A (zh) 基于改进U-Net的道路场景图像实时语义分割方法
CN114463340B (zh) 一种边缘信息引导的敏捷型遥感图像语义分割方法
CN113223006B (zh) 一种基于深度学习的轻量级目标语义分割方法
CN115908793A (zh) 一种基于位置注意力机制的编解码结构语义分割模型
CN114693966A (zh) 一种基于深度学习的目标检测方法
CN117173595A (zh) 基于改进YOLOv7的无人机航拍图像目标检测方法
CN114494703B (zh) 一种智能车间场景目标轻量级语义分割方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant