CN113313721B

CN113313721B - 基于多尺度结构的实时语义分割方法

Info

Publication number: CN113313721B
Application number: CN202110867844.6A
Authority: CN
Inventors: 练智超; 贾稀贝; 刘悦; 陶叔银
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-11-19
Anticipated expiration: 2041-07-30
Also published as: CN113313721A

Abstract

本发明公开一种基于多尺度结构的实时语义分割方法，首先对语义信息分支进行高维特征提取；然后建立上下文语义分支和空间分支；最后，语义特征和空间特征输入特征融合模块进行特征融合，最终输出对应的预测图，实现语义分割任务。本发明的并行语义信息分支中嵌入的多重卷积，集合了不同阶段的相应特征，并以较小的计算代价生成了一个强大的全局上下文特征表示。与BiSeNet相比，本发明实现了更快的速度和相当的性能，在基于ResNet18主干的城市景观数据集上，FPS指标为195.7，在语义分割推理速度FPS指标上远超BiSeNet，相当于每秒钟可以多计算45张左右分辨率为512×1024的图像。

Description

基于多尺度结构的实时语义分割方法

技术领域

本发明属于图像视频信息智能处理技术领域，具体涉及一种基于多尺度结构的实时语义分割方法。

背景技术

语义分割作为深度学***的提高。时至今日，语义分割在精度提高的速度愈发缓慢，而在模型推理速度的提高使得模型的兼容性更强。

现有的实时语义分割算法，在优化卷积神经网络结构的同时，还会采取一些模型精简的方法，如模型压缩、知识蒸馏和模型剪枝等改进方案，通常是用精度换速度的策略。值得关注的是，网络结构的改进是实现实时语义分割任务最直接可行的研究方向。

目前的经典实时语义分割网络BiSeNet网络，在语义分支中采用类似U-shape的级联结构，然而这种类似U-shape的级联结构实现从高维特征恢复到原始大小仍然引入较多计算量，也会因此导致整个模型推理速度减慢。受限于深层语义特征图拥有较高通道数的弊端，在进行卷积等操作时，不可避免地使得计算量骤增。

申请号为202011137108.7的中国发明专利公开一种基于空间信息引导的实时语义分割方法，利用浅层的空间细节信息不断地引导深层的全局上下文特征向邻域传播，从而有效地对全局上下文特征中所丢失的空间信息进行重构该方式采用单流分割方式，该网络是一种典型的“ 编码器-解码器”的网络结构。其中，编码器旨在对输入图片进行编码，从而得到更加抽象、更加语义化的特征表达。在解码器部分，设计了轻量级的双向网络对编码后的特征进行解码，并在解码的过程中引入了空间细节信息的引导。该专利采用的是单流分割方式，参数量大，速度慢，不适用于快速处理大量图片的情况。

发明内容

本发明解决的技术问题：提供一种由改进空间分支并依据多尺度结构的语义分支结构组成的语义分割网络，实现参数量较少，处理速度更快的基于多尺度结构的实时语义分割方。

技术方案：为了解决上述技术问题，本发明采用的技术方案如下：

一种基于多尺度结构的实时语义分割方法，对语义信息分支进行高维特征提取；建立上下文语义分支和空间分支；语义特征和空间特征输入特征融合模块进行特征融合，最终输出对应的预测图，实现语义分割任务。

基于多尺度结构的实时语义分割方法具体包括以下步骤：

步骤1：首先利用残差网络完成语义分支的高维特征图提取；

步骤2：构建空间分支，将高维特征图下采样1/4尺寸的特征图经过池化层，并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图，作为特征融合模块的输入之一；

步骤3：构建语义分支，将ResNet的4个Bottleneck对应特征图分别经过卷积层，并在通道维度归一化为128维特征图，之后进行合并、压缩到适合特征融合模块输入的通道维度特征图，再经过上采样模块之后进入特征融合模块；

步骤4：将步骤2步骤3获得的空间特征和语义特征进行特征融合，最终输出对应的预测图，实现语义分割任务。

作为优选，步骤1中高维特征的提取，以ResNet18浅层卷积神经网络作为基干模型，通过网络中预定义的卷积块对输入图像层提取语义特征，最终将图像映射到512维的具有原始图像尺寸1/32的特征图，合理的提取到高维的特征。

作为优选，步骤2中空间分支，将语义分支中ResNet提取特征中的某层结上采样操作生成空间分支，作为补充空间细节信息的特征图。

作为优选，步骤3构建语义分支，利用4个不同类型的卷积层结上采样对4个残差阶段的特征图进行卷积操作，使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图。

作为优选，利用Concat层合并所有特征图，充分聚合了深层、粗略、语义信息和浅层、细节、空间信息，利用通道卷积将特征图降维为128维，以便输入特征融合模块。

作为优选，并联结构的4层卷积包括标准卷积与扩张卷积，以应对多个不同尺寸特征图感受野的变化较大的问题，利用扩张卷积在适当缩小特征图的同时增加语义信息。

有益效果：与现有技术相比，本发明具有以下优点：

本发明主要针对实时语义分割网络模型的改进研究，构建一种新的实时语义分割的快速体系结构，称为SPCCNet（Spatial and Parallel Context Combined Network），从现有的双边分割网络出发，提出一种分割推理速度上更有优势的实时语义分割模型，使用了新的上下文语义分支和空间分支结构，语义信息分支在ResNet18主干中逐级编码输入，并为特征融合模块提供上下文信息。前一阶段的特性通常包含丰富的低级细节，而后一阶段提供高级语义。语义信息分支中嵌入的多重卷积，集合了不同阶段的相应特征，并以较小的计算代价生成了一个强大的全局上下文特征表示，空间分支由一个汇集层和一个上采样操作符以及投影卷积层组成，简洁的组件为网络提供了更多的空间细节。本发明使用了双流的方式进行空间信息提取，同时具有参数量较少，速度更快等特点。与BiSeNet相比，本算法实现了更快的速度和相当的性能，在基于ResNet18主干的城市景观数据集上，mIoU准确率为72.34%，FPS为195.7。

附图说明

图1为本发明SPCCNet网络整体结构图；

图2为本发明SPCCNet中的语义分支；

图3为本发明SPCCNet中的空间分支。

具体实施方式

下面结合具体实施例，进一步阐明本发明，实施例在以本发明技术方案为前提下进行实施，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围。

本发明的基于多尺度结构的实时语义分割方法是在BiSeNet实时语义分割网络架构上展开的。该模型首先利用ResNet18残差网络完成语义分支的高维特征图（512×h×w）提取；将下采样1/4尺寸的特征图经过池化层，并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图，作为特征融合模块的输入之一；对于语义分支，将ResNet的4个Bottleneck对应特征图分别经过卷积层，并在通道维度归一化为128维特征图，之后进行合并压缩到适合特征融合模块输入的通道维度特征图，再经过上采样模块之后进入特征融合模块FFM（Feature Fusion Module），最终输出对应的预测图，实现语义分割任务。具体包括以下步骤：

步骤1，提取高维特征：首先利用ResNet18残差网络完成语义分支的高维特征图（512×h×w）提取；

高维特征的提取以ResNet18这样的浅层卷积神经网络作为基干模型，通过网络中预定义的卷积块对输入图像层提取语义特征，最终会将图像映射到512维的具有原始图像尺寸1/32的特征图，能够合理的提取到高维的特征。

步骤2，对空间分支进行改进：将高维特征图下采样1/4尺寸的特征图经过池化层，并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图，作为特征融合模块的输入之一；

空间分支改进，主要流程如下：在空间分支，原有的BiseNet网络采用单层大卷积核的卷积操作和两层3×3核的卷积层对原始图像提取空间信息并编码细节信息，最终将图像映射到1/8大小的特征图上，以补充语义分支缺失的空间信息。这是网络在保证精度的前提下的加速策略，而其他算法通常是通过减小输入图像分辨率来加速。本算法借助“共享权重”的思想，移除原网络中用于提取空间信息的三个卷积层，将语义分支中ResNet提取特征中的某层（倒数第二层）结上采样操作生成空间分支，作为补充空间细节信息的特征图。一方面由于ResNet在提取特征过程中并未完全丢失空间信息，利用合理的上采样操作可以以更小的计算量生成所需的特征图，同时由于是在ResNet中间层获取的特征图，因此深层语义信息仍然丰富，有利于提高分割精度。此外，考虑到融合更为原始的空间细节信息，本算法还利用计算量较少的池化操作从ResNet中第一个Bottleneck的输出获取到原尺寸1/8大小的浅层特征图。

步骤3，对语义分支进行改进：将ResNet的4个Bottleneck对应特征图分别经过卷积层，并在通道维度归一化为128维特征图，之后进行合并压缩到适合特征融合模块输入的通道维度特征图，再经过上采样模块之后进入特征融合模块。

语义分支改进的主要流程如下：取消了解码器阶段的级联结构，并移除了原有网络中用于增强特征的ARM和Refines模块，使其仅保留ResNet残差网络的基干结构。结合ResNet四个卷积阶段语义信息和空间信息的变化规律，设计分别利用4个不同类型的卷积层（分别为5×5、3×3、1×1和1×1大小的卷积核）结上采样对4个残差阶段的特征图进行卷积操作，使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图。在这一过程中，不同阶段输出的特征图包含不同的层次的信息，如低通道64维特征图经过扩张卷积操作获得输出包含丰富的空间信息也同样拥有少量的语义信息，将空间信息转移到了通道维度；而512维特征图经过上采样和标准卷积操作的输出包含丰富的语义信息和少量的空间信息，将语义信息转移到了空间尺度。

随后利用Concat层合并所有特征图，充分聚合了深层、粗略、语义信息和浅层、细节、空间信息。之后利用通道卷积将特征图降维为128维，以便输入特征融合模块，在最后由于特征融合模块需要输入两个同尺寸的特征图，因此还对该特征图进行了一次上采样操作。这个并联结构的4层卷积包括标准卷积与扩张卷积以应对多个不同尺寸特征图感受野的变化较大的问题，卷积操作与感受野变化定义如下式：

其中，y是扩张卷积操作输出，y[i,j]表示扩张卷积输出横坐标为i，纵坐标为j点的输出值。r是扩张卷积的扩张率（r=1时退化为标准卷积），x是输入特征图，K是卷积核大小，k用于从1到卷积核大小K的累加。w[k]是卷积核对应权重值，i,j是特征图上对应特征值；n表示的是第几个扩张卷积层，r _n是第n个卷积层中对应的感受野大小，k _n是第n个卷积操作的卷积步长；S_i表示的是第n个卷积层的步长。仅对ResNet第一阶段的特征图执行了扩张卷积，而且阶段均为标准卷积，因为在第一阶段提取特征过程中，仅包含了有限的卷积操作，该阶段特征图虽然具有较丰富语义信息，但感受野仍然较小。在进行一些验证试验中，曾尝试以该阶段特征图为主导的损失进行传播，但实际效果较差，这是由于网络较浅层严重缺少语义信息造成，因此本算法利用扩张卷积在适当缩小特征图的同时增加语义信息。

进一步的，本模型中用于展示模型效果所用的评价分割效果的指标包括mIoU、mAcc和allAcc，mIoU（Mean Intersection over Union）是最为经典的评价指标，其中IoU是通过计算真实值集合与预测值集合的交集与并集之比获得，而mIoU则是在每个预测类别上分别计算IoU，然后取平均值，定义如式：

而mAcc（Mean Accuracy）与allAcc（All Classes Accuracy）则是利用真阳性的像素数量与正确类别总像素数量的比例来评价语义分割效果，定义如下式：

还使用mIoU_noback（mIoU with no background）指标，在该指标表示在去除背景类的精度评估之后的平均交并比。

其中，k代表预测类别总数，p _ii表示预测为i类并真实类别也是i类的像素数量，也就是真阳性（True-Positive, TP），p _ij表示预测为i类但实际为j类的像素数量，即假阳性（False-Positive, FP），p _ji则表示预测为j类但实际为i类的像素数量，即假阴性（False-Negative, FN）。

由于本章是关注于实时语义分割模型的研究，因此针对模型的分割推理速度进行评价，因此采用评价语义分割速度的FPS（Frame Per Second）每秒预测帧数，定义如下式：

其中，N是测试图片的数目，t _i是第i张图片的分割预测时间。

步骤4：将步骤2步骤3所获得的空间特征和语义特征进行特征融合，最终输出对应的预测图，实现语义分割任务。

为验证本模型的有效性，整个实验过程均采用相同的训练策略保证公平性。SPCCNet以ResNet18作为基干网络提取特征，设置初始学***衡样本分布不均的问题，定义如下式：

其中，L是联合损失函数定义，l _m是输出预测图的主损失函数，l _i是第i个阶段的辅助损失函数，X _i则是模型第i个阶段的特征图，α用于平衡主损失和辅助损失函数的比例，A为辅助分支个数，并设定A=α=1；其中主损失函数l _m和不同阶段的辅助损失函数l _i计算定义如下式：

其中，N是训练批次大小，W _k是第k个类别的损失权重，p _i是像素属于j类的概率，p _k是像素属于k类的概率。

辅助预测分支是一种有效的增强训练策略。其中，辅助分支的加入可以增强网络对不同尺度下的特征的学***衡样本带来的差异。另外在计算总损失时，对所有类别都预设权重，并采用加权平均的策略求解损失。

对于数据增强，图像将会在[0.75, 1, 1.25, 1.5, 1.75, 2.0]范围内被随机放大或者缩小、以50%的概率随机水平翻转、随机旋转-10到10度以及随机高斯噪声等，此外考虑到Cityscapes图片分辨率过大，还将对图片进行随机裁剪，最终归一化到768×1536大小以防止内存溢出。

针对Cityscapes数据集的训练，训练共计19个类别，训练epochs设置为80次，每个epoch内都会以batch_size=8的批次大小进行1000次迭代，以保证在每个epoch训练中都能用到所有训练样本。

针对验证模型速度测试，采用了5000张图片进行分割任务，并取平均值的策略，以保证验证模型速度的准确性。

实验中除使用经典mIoU和allAcc语义分割精度指标之外，还使用mIoU_noback（mIoU with no background）指标，在该指标表示在去除背景类的精度评估之后的平均交并比。针对模型的分割推理速度进行评价采用评价语义分割速度的FPS（Frame PerSecond）每秒预测帧数，定义如下式：

表1语义分割模型综合性能对比

改进语义分支和空间分支的SPCCNet分割模型（Ours）与BiSeNet网络的性能进行对比，从表1中可以观察到，在同是以ResNet18为基干网络的情况下，本算法的SPCCNet模型在一定程度上引入的参数量更少，更精简；输入图像尺寸为512×1024分辨率时，在语义分割推理速度FPS指标上远超BiSeNet，相当于每秒钟可以多计算45张左右分辨率为512×1024的图像，效率大大提高。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多尺度结构的实时语义分割方法，其特征在于，对语义信息分支进行高维特征提取；建立上下文语义分支和空间分支；语义特征和空间特征输入特征融合模块进行特征融合，最终输出对应的预测图，实现语义分割任务；具体包括以下步骤：

步骤1：首先利用残差网络完成语义分支的高维特征图提取；

步骤2：构建空间分支，将高维特征图下采样1/4尺寸的特征图经过池化层，并与下采样1/16尺寸特征图经过上采样之后的结果合并为空间分支的输出特征图，作为特征融合模块的输入之一；将语义分支中ResNet提取特征中的倒数第二层结合上采样操作生成空间分支，作为补充空间细节信息的特征图，ResNet在提取特征过程中并未完全丢失空间信息，上采样操作以更小的计算量生成所需的特征图；另外，利用计算量较少的池化操作从ResNet中第一个Bottleneck的输出获取到原尺寸1/8大小的浅层特征图；

步骤3：构建语义分支，将ResNet的4个Bottleneck对应特征图分别经过卷积层，并在通道维度归一化为128维特征图，之后进行合并、压缩到适合特征融合模块输入的通道维度特征图，再经过上采样模块之后进入特征融合模块，

构建语义分支的具体方式如下：取消解码器阶段的级联结构，并移除原有网络中用于增强特征的ARM和Refines模块，使其仅保留ResNet残差网络的基干结构，结合ResNet四个卷积阶段语义信息和空间信息的变化规律，分别利用4个不同类型的卷积层：5×5、3×3、1×1和1×1大小的卷积核；结合上采样对4个残差阶段的特征图进行卷积操作，使得每个残差阶段均输出128维通道的1/16原图像空间尺寸的特征图；在这一过程中，不同阶段输出的特征图包含不同的层次的信息，低通道64维特征图经过扩张卷积操作获得输出包含丰富的空间信息也同样拥有少量的语义信息，将空间信息转移到了通道维度；而512维特征图经过上采样和标准卷积操作的输出包含丰富的语义信息和少量的空间信息，将语义信息转移到了空间尺度；

利用Concat层合并所有特征图，充分聚合深层、粗略、语义信息和浅层、细节、空间信息；并联结构的4层卷积包括标准卷积与扩张卷积，以应对多个不同尺寸特征图感受野的变化较大的问题，利用扩张卷积在适当缩小特征图的同时增加语义信息；卷积操作与感受野变化定义如下式：

其中，y是扩张卷积操作输出，y[i,j]表示扩张卷积输出横坐标为i、纵坐标为j点的输出值，r是扩张卷积的扩张率，x是输入特征图，K是卷积核大小，k用于从1到卷积核大小K的累加，w[k]是卷积核对应权重值，i,j是特征图上对应特征值；n表示的是第几个扩张卷积层，r _n是第n个卷积层中对应的感受野大小，k _n是第n个卷积操作的卷积步长；S_i表示的是第n个卷积层的步长；

步骤4：将步骤2步骤3获得的空间特征和语义特征进行特征融合，最终输出对应的预测图，实现语义分割任务；

针对模型的分割推理速度进行评价，采用评价语义分割速度的每秒预测帧数FPS，定义如下式：

2.根据权利要求1所述的基于多尺度结构的实时语义分割方法，其特征在于：步骤1中高维特征的提取，以ResNet18浅层卷积神经网络作为基干模型，通过网络中预定义的卷积块对输入图像层提取语义特征，最终将图像映射到512维的具有原始图像尺寸1/32的特征图，合理的提取到高维的特征。