CN115424012A - 一种基于上下文信息的轻量图像语义分割方法 - Google Patents
一种基于上下文信息的轻量图像语义分割方法 Download PDFInfo
- Publication number
- CN115424012A CN115424012A CN202210619401.XA CN202210619401A CN115424012A CN 115424012 A CN115424012 A CN 115424012A CN 202210619401 A CN202210619401 A CN 202210619401A CN 115424012 A CN115424012 A CN 115424012A
- Authority
- CN
- China
- Prior art keywords
- feature map
- input
- feature
- semantic segmentation
- context information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于上下文信息的轻量语义分割方法。首先,采用并行结构的网络提取输入图像的特征,得到多分辨率的多个特征图子图;然后,将多个特征图子图输入多分辨率图像融合模块,得到融合特征图;第三,通过上下文信息模块,增强对分割任务有利的特征表示,保证网络分割的精度。本发明优点在于在保持高分辨图像和降低模型运算量同时获得较高的图像语义分割精度。
Description
技术领域
本发明涉及图像分割领域,具体为一种基于上下文信息的轻量图像语义分割方法。
背景技术
图像语义分割技术是计算机视觉领域的热点问题,语义分割是为给定图像中的每个像素分配一个类, 实现了智能设备场景理解。语义分割广泛应用于无人驾驶、医学图像分析、遥感图像、视频监控等领域。 精确的图像语义分割网络是保证以上应用顺利实施的先决条件。虽然随着深度卷积神经网络的不断改进 和迭代,语义分割网络的分割准确率得到极大地提升,但现有的图像语义分割网络仍然面临以下问题: 常规语义分割网络比较复杂,模型的参数量和计算量大,在训练时占用大量的计算资源和存储空间,限 制了图像语义分割的实际应用和落地。
通常,减少分割网络运算量有两种方式:缩小输入图像大小和降低模型复杂度。前者可以最大限度 地减少计算量,但这样做会造成大量的细节损失,使得网络不能对图像的上下文信息进行有效的综合考 虑,从而使模型的准确率大大下降。模型的复杂性会削弱模型的特征抽取能力,进而影响到图像的分割 效果。为了将图像语义分割模型应用于各类场景中以及嵌入到低运算、低存储资源设备上,在保持高分 辨图像和降低模型运算量的同时能获得较高的图像语义分割精度是亟需解决的难题。
发明内容
针对上述问题,本发明提出一种基于上下文信息的轻量图像语义分割方法,该方法能在保持高分辨 图像和降低模型运算量同时获得较高的图像语义分割精度。本发明内容如下:
S100.采用并行结构的轻量化卷积神经网络提取输入图像的多尺度特征图,得到四个子特征图;
S200.将获得的得到四个子特征图输入至多分辨率图像融合模块,得到融合特征图F1;
S300.融合特征图F1输入至上下文信息模块,计算目标物体与像素之间的关系,增强上下文特征表 达能力,输出大小为H×W的用于图像语义分割的增强特征图F;
S400.根据增强特征图F对图像的像素预测分类,最终获得较高质量的图像语义分割结果。
本发明具有如下优点:
1、本发明的基于上下文信息的轻量图像语义分割方法能在保持高分辨图像和降低模型运算量同时获 得较高的图像语义分割精度;
2、本发明提出的上下文信息模块的通用性强,既能与并行结构的特征提取网络组合使用,也能与串 行结构的特征提取网络组合使用,弥补轻量化图像语义分割网络在图像细节的损失。
附图说明
图1是一种基于上下文信息的轻量图像语义分割方法的步骤流程图;
图2是并行结构轻量化网络HRNet的结构图;
图3是多分辨率图像融合模块结构图;
图4是上下文信息模块结构图;
具体实施方式:
以下通过特定的具体实例并结合附图说明本发明的实施方式,本领域技术人员可由本说明书所揭示 的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用,本 说明书中的各项细节亦可基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
图1为本发明一种基于上下文信息的轻量图像语义分割方法的步骤流程图。一种基于上下文信息的 轻量图像语义分割方法,包括如下步骤:
S100.采用当前主流的并行结构轻量化网络HRNet(Lightweight HRNet,LHRNet)作为特征提取网 络,提取输入图像的多尺度特征图,得到四个子特征图;
S200.将获得的得到四个子特征图输入至结构如图3所示的多分辨率图像融合模块,得到融合的特 征图F1;该多分辨率图像融合模块包括四个输入和一个输出,每个输入对应一个分支;输入一对应最高 分辨率的输入特征图,输入二对应次高分辨率的输入特征图,输入三对应次低分辨率的输入特征图,输 入四对应最低分辨率的输入特征图;输出为融合特征图;对输入二、输入三和输入四进行上采样操作, 恢复得到三个与输入一同等分辨率大小的特征图;将输入一与所述恢复得到的三个与输入一同等分辨率 大小的特征图执行拼接操作,然后执行1×1卷积操作得到输出的融合特征图。
S300.融合后的特征图F1输入至上下文信息模块,计算目标物体与像素之间的关系,增强上下文特 征表达能力,输出大小为H×W的用于图像语义分割的增强特征图F;该上下文信息模块的结构如图4 所示,输入的通道数、大小为C×H×W的特征图经过1×1卷积得到目标类别数、大小为C2×H×W的 粗略初始分割图;同时将输入特征图进行3×3卷积得到通道数、大小为C1×H×W深层像素表示特征图, 其中,C,C1表示通道数,H、W分别表示特征图的高宽,C2表示目标类别数;然后,采用Softmax函数 对所述的初始分割图进行归一化,与所述的深层像素表示特征图相乘得到目标类别区域特征图C1×C2; 第三,通过对所述深层像素表示特征图与所述目标类别区域特征图进行1×1卷积处理,获得特征图Q, 所述目标类别区域特征图进行1×1卷积处理得到特征图K,所述目标类别区域特征图进行1×1卷积处理 得到特征图V,按照公式(1)计算特征图Q、K、V之间的关联性得到关联矩阵X,式中,dk为通道数, 其与卷积得到特征图K的通道数相同;利用关联矩阵X对目标区域特征进行加权求和,得到目标上下文 特征图,之后拼接所述的目标上下文特征图和所述的深层像素表示特征图得到增强特征图,以预测每一 个像素的语义类别。
S400.根据增强特征图F对图像的像素预测分类,最终获得较高质量的图像语义分割结果。
实例:
为了证明基于上下文信息的轻量图像语义分割方法的性能和效率具有优势,本发明通过以下实验进 行验证与分析。
A、实验数据
本发明在PASCAL VOC 2012,Cityscapes和ADE20k三个数据集上进行实验。Cityscapes是一个城 市街道的驾驶场景数据集,ADE20K是一个场景丰富的数据集,单张场景图中物体多,有不同的场景布 局。Pascal VOC 2012是一个普通的场景数据集。Cityscapes包含5000张精细注释的图像,图像分辨率为 1024×2048。它们被分成979,500和1,525张图像的训练集、验证集和测试集。Cityscapes共有30个类, 其中19个类用于语义分割的训练和评估。ADE20K包含室内室外的图像,总共包含25000张图像,其 中2万张用于训练,2000张用于验证,2000张用于测试。数据集中有150个类。Pascal VOC 2012包括 20个对象类别和一个背景类别。它包含1464张用于训练的图像和1449张用于验证的图像,1456张用于 测试的图像。
B、实验平台
硬件:CPU Intel Xeon E5-2650v3,内存64G,Tesla T4GPU,显存16G,硬盘4TB7200转/分。
软件:操作***Ubuntu 16.04,实验平台pytorch1.5.0,标准统一的语义分割框架MMsegmentation。
C图像语义分割评估标准
平均交并比(mean intersection over union,MIoU)、模型参数量和计算量(floating point operations, FLOPs),以用于评估模型分割精度、模型空间复杂度和模型时间复杂度。
D.实验细节
在实验中,将Cityscapes数据集的原始图像裁剪到512×1024尺寸大小,PASCALVOC2012Aug和 ADE20K数据集的原始图像裁剪到512×512尺寸大小作为网络的输入图像。
选取交叉熵函数训练和优化网络,交叉熵函数表达式如下所示:
网络训练优化算法选取梯度下降算法SGD(Stochastic Gradient Descent),其公式如下:
wt=wt-1+momentum×v-lr×Δw (3)
式(3)wt-1是网络上一次迭代得到的权重值,momentum是动量,设置为0.9,lr是网络学习率, 实验设置为0.001,Δw表示一阶导数,v表示初始速度,wt表示网络迭代后的新权重值。此优化算法能 很好地贴合训练损失函数下降的趋势,能加快模型的训练速度,现大多数深度学习网络模型都是采用 SGD作为模型的优化器。
E.实验结果
(1)上下文信息模块的通用性与有效性对比实验
①与主流上下文模块ASPP、PSP的对比实验
为了验证本发明提出的上下文信息模块(Ours)的性能,在Cityscapes、ADE20K和PASCAL VOC2012三个数据集上将本发明提出的上下文信息模块与主流的上下文模块ASPP[38]和PSP[33]进行了 性能比较。实验中,选取目前最强串行骨干网络ResNet101作为图像特征提取器。从表1、2和3结果看 出,本发明的上下文信息模块在很大程度上优于其他两种上下文模块。在三个数据集上相对于PSP(ASPP) 分割准确率的增长为1.75%(0.97%),1.74%(1.2%),1.39%(1.06%),而且本发明提出的上下文模块 复杂度最低,在大规模分割数据集上分割效果比其他两种上下文模块更好。这是因为本发明提出的模块 善于学习特征图的全局上下文信息,以获得对图像的全局理解。同时也说明本发明的上下文信息模块可 以***到串行骨干网络,在多个数据集中各个方面表现优异,具有良好的实用性。
表1 Cityscapes数据集的分割检测结果
表2 ADE20K数据集的分割检测结果
表3 PASCAL VOC2012数据集的分割检测结果
②上下文信息模块在并行骨干网络中的对比实验
本实验在三个数据集上验证本发明上下文模块与新兴的并行结构特征提取网络的适用性和有效性。 选取并行结构HRNet网络作为骨干网络,以证明本模块与并行骨干网络也具有适用性和有效性。从表4、 5和6结果可以看出本发明的上下文信息模块与并行骨干网络的结合也能达到好的分割效果,同时因并 行骨干网络一直保持高分辨率特征图,使得网络无需构造更深的骨干网络以实现高分割精度,减少了网 络的参数量和运算量。与同类型并行网络相比,虽然LHRNet网络在分割性能上不是最佳,但是在显存 占用、速度和复杂度上是最优的,且基于本发明的上下文信息模块构成的网络属于高分割性能网络。实 际应用角度来说,在显存占用、速度以及精度三个方面综合考虑,本发明方法是最佳选择。实验结果表 明,本发明提出的模块具有通用性且可以应用于不同结构的骨干网络。
表4 Cityscapes数据集的分割检测结果
表5 ADE20K数据集的分割检测结果
表6 PASCAL VOC2012数据集的分割检测结果
(2)与主流图像语义分割方法的对比实验
将本发明的基于上下文信息的轻量图像语义分割方法(为方便说明,简称为LSCM)与现有主流语 义分割算法在三个数据集上作对比实验,如表7、8和9所示。从表7显示的结果可以看出,本发明的基 于上下文信息的轻量图像语义分割方法在Cityscapes数据集上分割结果、推理速度和复杂度三个方面综 合来说最优的。与DeepLabV3、Semantic FPN和APCNet模型相比参数量以及计算量是最少的。与SETR 相比,虽然分割精度低了3.5%,但是在推理速度和参数量分别高了10.15fps、300.16M,模型复杂度和 速度方面是远远高于SETR。这是因为SETR网络的特征提取网络ViT,单一采用ViT作为骨干网络能提 高分割率却会极大地增加网络的复杂度,网络所需的计算资源也相应大幅度增长。从表8和9显示的结果可以看出,本发明的基于上下文信息的轻量图像语义分割方法在大型复杂场景ADE20K数据集和大型 PASCAL VOC2012数据集上模型复杂度最低且具有较好的分割准确率,本发明模型能极大地节约计算资 源,便于更好应用和研究发展。在ADE20K数据集上,本发明模型与DeepLabV3、ANN、DANet和GCNet 模型相比参数量以及计算量是最少的。与最高分割率DeepLabV3相比,虽然分割精度低了5.23%,但是 在推理速度、运算量以及参数量三个方面分别高了14.21fps、250.89G和61.73M,模型复杂度和速度方 面是远远超于DeepLabV3。在PASCAL VOC2012数据集上,本发明网络与DeepLabV3、ANN、DANet 和GCNet模型相比参数量以及计算量是最少的。与GCNet相比,虽然分割精度低了1.41%,但是在推理 速度、运算量以及参数量三个方面分别高了8.2fps、153.51G和43.25M,模型复杂度和速度方面是高于GCNet。从在三个数据集上的实验结果可以看出本发明网络是高分割性能网络且计算量小。
表7 Cityscapes数据集语义分割网络实验结果
表8 ADE20K数据集语义分割网络实验结果
表9 PASCAL VOC2012数据集语义分割网络实验结果
将本发明的基于上下文信息的轻量图像语义分割方法与轻量语义分割算法进行对比,如表10所示, 可以看出本发明方法具有高分割性能同时也具有较低的参数量。本发明网络在保证低参数量情况下,一 直保留高分辨率的细节特征图,同时融合低高层的特征,更好地学习到来自网络不同分辨率图上的语义 和位置信息,从而获得了好的分割效果。
表3. 10 Cityscapes数据集轻量语义分割网络实验结果
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在 本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于上下文信息的轻量语义分割方法,其特征在于,至少包含以下几个步骤:
S100.采用并行结构的轻量化卷积神经网络提取输入图像的多尺度特征图,得到四个子特征图;
S200.将获得的得到四个子特征图输入至多分辨率图像融合模块,得到融合特征图F1;
S300.融合特征图F1输入至上下文信息模块,计算目标物体与像素之间的关系,增强上下文特征表达能力,输出大小为H×W的用于图像语义分割的增强特征图F;
S400.根据增强特征图F对图像的像素预测分类,最终获得较高质量的图像语义分割结果。
2.根据权利要求1所述的基于上下文信息的轻量语义分割方法,其特征在于:步骤S200中,所述多分辨率图像融合模块包括四个输入和一个输出,每个输入对应一个分支;输入一对应最高分辨率的输入特征图,输入二对应次高分辨率的输入特征图,输入三对应次低分辨率的输入特征图,输入四对应最低分辨率的输入特征图;输出为融合特征图;对输入二、输入三和输入四进行上采样操作,恢复得到三个与输入一同等分辨率大小的特征图;将输入一与所述恢复得到的三个与输入一同等分辨率大小的特征图执行拼接操作,然后执行1×1卷积操作得到输出的融合特征图。
3.根据权利要求1所述的基于上下文信息的轻量语义分割方法,其特征在于:步骤S300中,输入的通道数、大小为C×H×W的特征图经过1×1卷积得到目标类别数、大小为C2×H×W的粗略初始分割图;同时将输入特征图进行3×3卷积得到通道数、大小为C1×H×W深层像素表示特征图,其中,C,C1表示通道数,H、W分别表示特征图的高宽,C2表示目标类别数;然后,采用Softmax函数对所述的初始分割图进行归一化,与所述的深层像素表示特征图相乘得到目标类别区域特征图C1×C2;第三,通过对所述深层像素表示特征图与所述目标类别区域特征图进行1×1卷积处理,获得特征图Q,所述目标类别区域特征图进行1×1卷积处理得到特征图K,所述目标类别区域特征图进行1×1卷积处理得到特征图V,按照公式(1)计算特征图Q、K、V之间的关联性得到关联矩阵X,式中,dk为通道数,其与卷积得到特征图K的通道数相同;利用关联矩阵X对目标区域特征进行加权求和,得到目标上下文特征图,之后拼接所述的目标上下文特征图和所述的深层像素表示特征图得到增强特征图,以预测每一个像素的语义类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210619401.XA CN115424012A (zh) | 2022-05-30 | 2022-05-30 | 一种基于上下文信息的轻量图像语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210619401.XA CN115424012A (zh) | 2022-05-30 | 2022-05-30 | 一种基于上下文信息的轻量图像语义分割方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424012A true CN115424012A (zh) | 2022-12-02 |
Family
ID=84195587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210619401.XA Pending CN115424012A (zh) | 2022-05-30 | 2022-05-30 | 一种基于上下文信息的轻量图像语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424012A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402895A (zh) * | 2023-06-05 | 2023-07-07 | 未来机器人(深圳)有限公司 | 安全校验方法、无人叉车及存储介质 |
-
2022
- 2022-05-30 CN CN202210619401.XA patent/CN115424012A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116402895A (zh) * | 2023-06-05 | 2023-07-07 | 未来机器人(深圳)有限公司 | 安全校验方法、无人叉车及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111489358B (zh) | 一种基于深度学习的三维点云语义分割方法 | |
CN111062951B (zh) | 一种基于语义分割类内特征差异性的知识蒸馏方法 | |
CN111652903B (zh) | 一种自动驾驶场景下基于卷积关联网络的行人目标跟踪方法 | |
CN111062395B (zh) | 一种实时的视频语义分割方法 | |
CN110991311A (zh) | 一种基于密集连接深度网络的目标检测方法 | |
CN111626128A (zh) | 一种基于改进YOLOv3的果园环境下行人检测方法 | |
CN111612008A (zh) | 基于卷积网络的图像分割方法 | |
CN110751027B (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN110942471A (zh) | 一种基于时空约束的长时目标跟踪方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN114565770A (zh) | 基于边缘辅助计算和掩模注意力的图像分割方法及*** | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
CN113850135A (zh) | 一种基于时间移位框架的动态手势识别方法及*** | |
CN115240052A (zh) | 一种目标检测模型的构建方法及装置 | |
CN113642571A (zh) | 一种基于显著性注意力机制的细粒度图像识别方法 | |
Wang et al. | Global contextual guided residual attention network for salient object detection | |
CN115424012A (zh) | 一种基于上下文信息的轻量图像语义分割方法 | |
CN116977712B (zh) | 基于知识蒸馏的道路场景分割方法、***、设备及介质 | |
CN110942463B (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN117058235A (zh) | 跨多种室内场景的视觉定位方法 | |
CN109583584B (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及*** | |
CN117173595A (zh) | 基于改进YOLOv7的无人机航拍图像目标检测方法 | |
CN117011655A (zh) | 基于自适应区域选择特征融合方法、目标跟踪方法及*** | |
CN114494284B (zh) | 一种基于显式监督区域关系的场景解析模型及方法 | |
CN115019342A (zh) | 一种基于类关系推理的濒危动物目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |