CN110472631B - 基于序列预测的实时语义分割方法 - Google Patents
基于序列预测的实时语义分割方法 Download PDFInfo
- Publication number
- CN110472631B CN110472631B CN201910630980.6A CN201910630980A CN110472631B CN 110472631 B CN110472631 B CN 110472631B CN 201910630980 A CN201910630980 A CN 201910630980A CN 110472631 B CN110472631 B CN 110472631B
- Authority
- CN
- China
- Prior art keywords
- spnet
- convolution
- module
- prediction result
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
- G06F18/2193—Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
基于序列预测的实时语义分割方法,涉及图像分割。对于图像库中的图像,随机选取一部分图像作为训练集;设计合适的网络用于训练,抽取相应的图像特征,包括修改后的Resnet和Xception网络;编码器和解码器的每个模块都输出一个预测结果;上一个模块的预测结果用于辅助下一个模块的预测,并且每个预测结果做为主干网络的一部分来优化整个网络;在解码器部分设计多种预测结果融合方法;将Resnet中的残差卷积改为上下文残差卷积,在只增加少量计算量的同时,增大感受野的大小。提高语义分割的准确性,利用循环促进的方法减少了网络传输过程中造成的信息损失,提升了网络精度。
Description
技术领域
本发明涉及图像分割,具体是涉及一种基于序列预测的实时语义分割方法。
背景技术
近年来,尽管深度学习在语义分割领域取得了极大的进展,但现有方法大都只考虑精度,而无法实际应用。一些快速语义分割的工作,却只得到较低的精度。
传统的语义分割存在网络模型大,未考虑到速度,无法在实际场景中使用的问题。之前的一些语义分割工作,只在解码阶段添加监督信息,从而忽略网络编码层的潜能。在边缘检测上已有人提出在encode阶段添加监督信息,然而这些方法将每个模块的预测结果直接上采样至原分辨率大小,级联后再通过卷积层输出最后的预测结果,对语义分割而言并非有效,且极其耗时。
发明内容
本发明的目的在于针对现有技术存在的上述问题,在只增加少量计算量的同时,充分降低网络传输过程中造成的信息损失,从而进一步提升网络精度的一种基于序列预测的实时语义分割方法。
本发明包括以下步骤:
1)对于图像库中的图像,随机选取一部分图像作为训练集;
2)设计合适的网络用于训练,抽取相应的图像特征,包括修改后的Resnet和Xception网络;
3)编码器和解码器的每个模块都输出一个预测结果;
4)上一个模块的预测结果用于辅助下一个模块的预测,并且每个预测结果做为主干网络的一部分来优化整个网络;
5)在解码器部分设计多种预测结果融合方法;
6)将Resnet中的残差卷积改为上下文残差卷积,在只增加少量计算量的同时,极大增大感受野的大小。
在步骤2)中,所述抽取相应的图像特征的具体方法可为:使用修改后的Resnet和Xception网络,对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征,其中,n表示训练集中的类别的个数,h和w分别代表输入图像的长和宽的大小。
在步骤3)中,所述编码器和解码器的每个模块都输出一个预测结果的具体方法可为:对于每个模块都输出一个预测结果,大小为hi×wi×n维的图像特征,i表示第i个模块,hi和wi分别代表第i个模块的长和宽。
在步骤4)中,所述优化整个网络的具体方法可为:
(1)上一个模块的预测结果做为下一个模块预测结果输入的一部分,来指导下一次模块的预测;
(2)上一个模块的预测结果做为下一个模块输入结果的一部分,充分利用现有网络,提升网络性能;
(3)梯度更新时候优化前向网络的参数,进而优化先前的预测结果。
在步骤6)中,所述将Resnet中的残差卷积改为上下文残差卷积的具体步骤包括:
(1)使用3×3卷积和7×7卷积来提取特征,其中,3×3卷积使用较高的通道数量来提取特征,7×7卷积使用较小通道数量来获取更大的感受野;
(2)使用1维卷积来替换2维卷积,如1×3和3×1卷积用于替换3×3卷积。
本发明提出了一种的序列预测网络(SPNet),该网络基于端到端的编码器解码器架构,用于实现高精度的实时语义分割。其中,编码器用于解决下采样和通道减少时信息丢失的问题,解码器用于上采样时来恢复空间位置信息和边缘信息。该网络在只增加一些额外计算量的同时,极大地提高语义分割的准确性。本发明利用循环促进的方法减少了网络传输过程中造成的信息损失,提升了网络精度。
附图说明
图1为基于序列预测的实时语义分割网络结构图。
图2为基于序列预测的实时语义分割模块图。在图2中,(a)和(b)是编码器模块,分别称为SPNet_EnC1和SPNet_EnC2;(c)是解码器模块,称为SPNet_DeC3;(a)用于图像降采样过程,(c)用于图像重建过程。
图3为在解码阶段的4种融合策略图。在图3中,(a)表示级联策略;(b)表示相加策略;(c)表示attention策略;(d)表示级联+attention策略。
图4为上下文残差卷积的设计。在图4中,(a)表示传统残差卷积,(b)表示上下文残差卷积。
具体实施方式
以下实施例将结合附图对本发明作详细的说明。
本发明实施例包括以下步骤:
1)利用ResNet或Xception做为主干网络来设计SPNet。如图1,SPNet主要包括三种模块,即SPNet_EnC1,SPNet_EnC2和SPNet_DeC3。在编码阶段使用SPNet_EnC1和SPNet_EnC2来提取精确的类别信息,在解码阶段使用SPNet DeC3将图像特征由低分辨率向高分辨率重建。本发明将级联方法集成到编码模块中,并进一步在解码模块中应用多种融合策略。
2)设计编码器。图2(a)显示SPNet_EnC1主要包括2个上下文残差卷积,一个1×1卷积和步长等于2的3×3卷积,2个上下文残差卷积用于学习更精确的类别信息,1×1卷积用于控制输出通道的数量,图2(a)中的19表示当前数据库的类别数量,步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半,而使用3×3卷积的目的是在图像特征分辨率减小时降低信息的丢失。在通过2个上下文残差卷积后,得到图像特征fi,将上一模块的预测结果pi-1与fi级联,并使用1×1卷积,输出当前模块的预测结果pi,并引入GroundTruth,使用Softmax交叉熵损失函数,计算当前预测结果的前向网络的损失。其中,i表示第i个模块。本模块的预测结果不仅用于降低在图像分辨率和通道发生变化时候造成的损失,并且前一个预测结果也将作为后一个预测结果输入的一部分,用于指导后一个模块的预测。具体做法是,具体做法是将当前模块的预测结果pi与fi级联,并通过步长为2的3×3卷积,得到当前模块的输出。因输出图像特征的分辨率减半,所以,本发明使用一个3×3的Max-pooling将当前模块预测结果的分辨率减半。
图2(b)显示了SPNet_EnC2的设计,该模块结构上与SPNet_EnC1大致相似,同样是编码器部分的模块,不同的是SPNet_EnC1用于处理图像分辨率减小的模块,SPNet_EnC2用于处理图像分辨率的模块。故SPNet_EnC2与SPNet_EnC1在设计上有2处不同之处,其一是SPNet_EnC2使用步长为1的1×1卷积替换掉步长2的3×3卷积,该方法可极大降低网络的计算量,其二是把当前模块的预测结果用来指导下一模块的预测,因为该模块输入输出图像分辨率大小一致。
3)设计解码器:之前的一些语义分割工作直接将编码器得到的图像特征直接上采样至原图像大小,但该操作导致预测出来的图像会丢失很多空间信息,造成边缘模糊。本发明设计了一种解码器模块SPNet_DeC3将图像特征从低分辨率重建至高分辨率,但由于在高分辨图像上计算量激增,为均衡速度和精度,只将从解码器得到的图像特征从原图像的1/32重建至原图像的1/4,再上采样至原图像大小。
SPNet_DeC3主要包括一个步长为2的3×3反卷积,一个上下文残差卷积和一个1×1卷积。步长为2的3×3反卷积用于恢复图像分辨率,上下文残差卷积用于学习更精确的类别信息,同编码器模块相比,SPNet_DeC3只使用一个上下文残差卷积以减少网络的计算量。Skip connect获取底层的空间位置信息,来恢复重建结果的空间位置信息。在通过一个步长为2的3×3反卷积和一个上下文残差卷积后,得到图像特征fi。将底层特征fj与高层图像特征fi级联,再通过一个1×1卷积,得到当前模块的预测结果pi。其中,底层特征fj是编码器中与fi具有相同分辨率的最后一层特征,底层特征fj用于提供当前分辨率的空间位置信息,高层图像特征fi用于提供更精确的类别信息。最后,pi与fi级联,直接作为下一模块的输入。
4)解码器部分设置不同的融合策略:为进一步在本***的实验中扩展相互促进策略,本***设计了几种预测结果的融合方法,如图3所示(a)是级联策略,同编码器的设计相似,将上一个模块的预测结果同当前模块的特征层级联,用来指导当前模块的预测。(b)是相加策略,表示将上一个模块的预测结果同当前模块预测结果直接相加。(c)是attention策略,通过一个门运算,用于筛选上一层预测结果中有用的信息。具体做法是将当前预测结果通过一个sigmoid运算,得到gate,该gate的分辨率和通道数量与预测结果一致。接着把上一模块预测结果与gate点乘后,与当前模块的预测结果直接相加。(d)表示级联+attention的组合策略,如图3(d)所示,即先进行(a)的级联操作,再进行(c)的attention预算。此外,在重建过程中,图像分辨率在不断增加,因此需将上一模块的预测结果上采样至当前模块的分辨率下,再进行融合。
5)设计上下文卷积:残差卷积的提出极大程度上解决了梯度下降问题,但传统的残差卷积,受限于卷积设计,只能获取局部区域的感受野,若使用5×5或7×7卷积,则会导致卷积计算量过大。本发明一种上下文残差卷积,在只增加少量计算量的同时,能够获取更大感受野的上下文信息。如图4(b)所示,上下文残差卷积共有2个分支,第一个分支与图4(a)的传统卷积设计相似,用于计算局部区域的类别信息,第二个分支则是用来提取更大范围的上下文信息。与传统残差卷积不同的是,本发明设计的上下文残差卷积共有以下几个特点。1)本发明使用非对称残差卷积,即使用1×3、3×1、1×7和7×1分别来代替3×3或7×7卷积,该操作极大程度上减少了卷积的计算量,尤其是对于7×7卷积而言。2)对于第二个分支,先通过1×1卷积将通道减少至原图像的1/16,再使用1×7和7×1卷积,该操作同样在极大程度上减少计算量的同时,能够获取更大感受野的上下文卷积。3)使用扩张卷积来代替传统卷积,在不增加计算量的同时,就能提升感受野的大小。4)使用Leak Relu来代替Relu,能够在一定程度上减少信息丢失。
6)实时语义分割***实现:本发明实现了三个速度下语义分割,均达到了state-of-art的效果,每一类的IoU和每个速度下的mIoU如表1和表2所见,本发明在精度上更优于同级速度下的快速语义分割方法,SPNet-A的精度甚至更优于大多数不考虑速度的语义分割方法。
表1 Cityscapes测试集合上每一类的IoU及每个方法的mIoU
表2 Cityscapes测试集上,三种SPNet方法在速度、参数和精度上与其他State-of-art方法的对比
为进一步验证SPNet中各个方法的有效性,本发明对每一个方法分别进行了消融实验。表三显示了上下文残差卷积的消融实验,SPNet-A和SPNet-B分别使用ResNet50和ResNet22作为主干网络,2个网络在使用残差卷积后,分别在只增加5.7%和10.2%参数量的同时,精度上分别有了2.34%和2.72%的提升。
表3上下文残差卷积的消融实验
表4显示了SPNet编码器解码器的消融实验,在编码网络中,SPNet-A和SPNet-B在增加5.88%和14.4%参数量的同时,精度上有了2%的提升,而SPNet-Xception在只增加6%参数量的同时,精度上有了3.75%的提升。在解码网络中,SPNet-A、SPNet-B和SPNet-Xception在增加1.08%、4.12%和1.98%参数量的同时,精度上分别提升了1.47%、1.19%和2.61%。实验结果证明,在增加相同计算量的时候,在解码部分使用序列预测能提升更大的精度,这是因为在网络中设计中,decode部分的损失函数使用了更大的权值。最终,在网络的编解码部分全部使用序列预测,SPNet-A、SPNet-B和SPNet-Xception分别增加了3.11%,2.72%和4.52%的精度。
表4 SPNet种编码器解码器的消融实验
表5不同融合策略的消融实验
表5显示了SPNet解码器部分预测结果不同融合策略的消融实验,包括Cascade、Sum、Attension和Cascade+Attension 4种融合策略。可见,直接将预测结果相加会使得精度下降,而使用Cascade和Attention策略会提升精度。在基本上只增加很少计算量的同时,使用Cascade策略在SPNet-A、SPNet-B和SPNet-Xception最终分别有0.62%,0.52%和0.50的提升,使用Attention策略分别有0.68%,0.41%和0.38%的提升,而使用Cascade+Attension分别有0.86%,1.19%和0.77%的提升,最终SPNet-A、SPNet-B和SPNet-Xception在Cityscape的验证集上分别达到了70.21%、60.92和66.40%的mIoU,速度分别为每秒18.5帧、每秒109帧和每秒64.9帧。
本发明利用循环促进的方法来减少网络传输过程中造成的信息损失。在编码器和解码器的每个块,都引入Ground Truth作为监督信息,通过softmax交叉熵损失函数,计算每个块的损失。接着,前一个模块的预测结果将作为监督信息来减小后一个模块在分辨率或通道发生变化时候造成的损失,并且前一个预测结果也将作为后一个预测结果输入的一部分,用于指导后一个模块的预测,而后一个模块预测在梯度更新时也将修正预测结果前的网络参数。为了获得更丰富的上下文,本发明还提供了一个新的上下文残差卷积。本发明在几个开源的数据集上,没有使用预训练模型的情况下都达到现有的实时语义分割state-of-art的性能。
Claims (2)
1.基于序列预测的实时语义分割方法,其特征在于包括以下步骤:
1)对于图像库中的图像,随机选取一部分图像作为训练集;
2)利用ResNet或Xception做为主干网络设计SPNet,SPNet包括三种模块,即SPNet_EnC1,SPNet_EnC2和SPNet_DeC3;在编码阶段使用SPNet_EnC1和SPNet_EnC2提取类别信息,在解码阶段使用SPNet DeC3将图像特征由低分辨率向高分辨率重建;SPNet_EnC1包括2个上下文残差卷积,一个1×1卷积和步长等于2的3×3卷积,2个上下文残差卷积用于学习类别信息,1×1卷积用于控制输出通道的数量,步长为2的3×3卷积将输出特征图像的长宽均减少为输入图像的一半;SPNet_EnC2同样是编码器部分的模块,不同的是SPNet_EnC1用于处理图像分辨率减小的模块,SPNet_EnC2用于处理图像分辨率的模块;SPNet_DeC3将图像特征从低分辨率重建至高分辨率,SPNet_DeC3包括一个步长为2的3×3反卷积,一个上下文残差卷积和一个1×1卷积;步长为2的3×3反卷积用于恢复图像分辨率,上下文残差卷积用于学习类别信息;
3)编码器和解码器的每个模块都输出一个预测结果,具体方法为:
对于每个模块都输出一个预测结果,大小为hi×wi×n维的图像特征,i表示第i个模块,hi和wi分别代表第i个模块的长和宽;
4)上一个模块的预测结果用于辅助下一个模块的预测,并且每个预测结果做为主干网络的一部分来优化整个网络;
所述优化整个网络的具体方法为:
(1)上一个模块的预测结果做为下一个模块预测结果输入的一部分,来指导下一次模块的预测;
(2)上一个模块的预测结果做为下一个模块输入结果的一部分,充分利用现有网络,提升网络性能;
(3)梯度更新时候优化前向网络的参数,进而优化先前的预测结果;
5)在解码器部分设计多种预测结果融合方法;
6)将Resnet中的残差卷积改为上下文残差卷积,增大感受野的大小,具体步骤为:
(1)使用3×3卷积和7×7卷积来提取特征,其中,3×3卷积使用高的通道数量来提取特征,7×7卷积使用小通道数量来获取更大的感受野;
(2)使用1维卷积来替换2维卷积。
2.如权利要求1所述基于序列预测的实时语义分割方法,其特征在于在步骤2)中,抽取相应的图像特征的具体方法为:使用修改后的Resnet和Xception网络,对训练集中的每幅图像提取原图像同样大小的h×w×n维的特征,其中,n表示训练集中的类别的个数,h和w分别代表输入图像的长和宽的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630980.6A CN110472631B (zh) | 2019-07-12 | 2019-07-12 | 基于序列预测的实时语义分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910630980.6A CN110472631B (zh) | 2019-07-12 | 2019-07-12 | 基于序列预测的实时语义分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472631A CN110472631A (zh) | 2019-11-19 |
CN110472631B true CN110472631B (zh) | 2022-05-03 |
Family
ID=68509507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910630980.6A Active CN110472631B (zh) | 2019-07-12 | 2019-07-12 | 基于序列预测的实时语义分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472631B (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599805B (zh) * | 2016-12-01 | 2019-05-21 | 华中科技大学 | 一种基于有监督数据驱动的单目视频深度估计方法 |
CN108921163A (zh) * | 2018-06-08 | 2018-11-30 | 南京大学 | 一种基于深度学习的包装喷码检测方法 |
CN109670529A (zh) * | 2018-11-14 | 2019-04-23 | 天津大学 | 一种用于快速语义分割的可分离分解残差模块设计方法 |
CN109919838B (zh) * | 2019-01-17 | 2023-02-14 | 华南理工大学 | 基于注意力机制提升轮廓清晰度的超声图像超分辨率重建方法 |
-
2019
- 2019-07-12 CN CN201910630980.6A patent/CN110472631B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110472631A (zh) | 2019-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113888744B (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
US10095977B1 (en) | Learning method and learning device for improving image segmentation and testing method and testing device using the same | |
CN112669325B (zh) | 一种基于主动式学习的视频语义分割方法 | |
CN109034162B (zh) | 一种图像语义分割方法 | |
CN113709455A (zh) | 一种使用Transformer的多层次图像压缩方法 | |
CN108804397B (zh) | 一种基于少量目标字体的汉字字体转换生成的方法 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
CN111832570A (zh) | 一种图像语义分割模型训练方法及*** | |
CN113747163B (zh) | 基于上下文重组建模的图像编码、解码方法及压缩方法 | |
CN113011337B (zh) | 一种基于深度元学习的汉字字库生成方法及*** | |
CN113240683B (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN116469100A (zh) | 一种基于Transformer的双波段图像语义分割方法 | |
CN115496919A (zh) | 基于窗口掩码策略的混合卷积-变压器架构及自监督方法 | |
CN115331073A (zh) | 一种基于TransUnet架构的影像自监督学习方法 | |
CN116612283A (zh) | 一种基于大卷积核骨干网络的图像语义分割方法 | |
CN110472631B (zh) | 基于序列预测的实时语义分割方法 | |
CN113255675B (zh) | 基于扩张卷积和残差路径的图像语义分割网络结构及方法 | |
CN116152263A (zh) | 一种基于cm-mlp网络的医学图像分割方法 | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
CN113223038A (zh) | 一种基于离散余弦变换的掩码表示的实例分割方法 | |
CN118283266A (zh) | 一种基于特征残差预测的端到端可变码率图像编码方法 | |
Peng | Efficient Neural Light Fields (ENeLF) for Mobile Devices | |
Lamei et al. | EBSNet: Efficient Binary Semantic Segmentation Network | |
WO2024103076A2 (en) | Method and apparatus for semantic based learned image compression | |
CN116167995A (zh) | 一种基于特征图自优化和多层特征逐级加权融合的裂缝检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |