CN113436210A

CN113436210A - 一种融合上下文逐级采样的道路图像分割方法

Info

Publication number: CN113436210A
Application number: CN202110706637.2A
Authority: CN
Inventors: 陆彦钊; 刘惠义
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-09-24
Anticipated expiration: 2041-06-24
Also published as: CN113436210B

Abstract

本发明公开了一种融合上下文逐级采样的道路图像分割方法，其包括：对获取的多张道路图像进行预处理得到分割图片；将分割图片输入构建好的Xception模型提取深层特征图和浅层特征图；将浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，并将输出结果输入建好的HRNet模块进行融合；将深层特征图输入构建好的ASPP金字塔模块进行池化；将融合结果和池化结果中相同分辨率大小的深层特征图或浅层特征图融合，并进行逐级2倍上采样将深层特征图或浅层特征图放大回原图大小；本发明能够提高图片的分割准确率，同时在细节方面分割更加精细。

Description

一种融合上下文逐级采样的道路图像分割方法

技术领域

本发明涉及一种融合上下文逐级采样的道路图像分割方法，属于图像分割技术领域。

背景技术

图像语义分割是如今计算机领域的一个关键性问题，也是计算机视觉研究的一个重要方向。早期在计算机视觉技术中对图片分割一般依靠边缘和渐变等信息，没有提供像素级的理解，导致分割准确率不高，无法运用于智能驾驶等领域。近些年随着卷积神经网络研究的深入，计算机对像素级的理解能力越来越强，用于进行语义分割的网络也越来越完善，在自动驾驶汽车、人机交互、虚拟现实等领域有着广泛的应用前景。

早期图像语义分割一般有基于阈值、边缘、区域等方法。这些方法虽使用方便，易于理解，但会损失很多空间信息，导致分割效果不好。为解决这些问题，Jonathan Long等人在CNN卷积神经网络的基础上，提出了全卷积网络FCN(Fully Convolutional Networks)。该网络将CNN最后的全连接层去除，并对CNN最后一个特征图反卷积以进行上采样，然后把上采样图放大为原图大小以达到像素级分类的目的。Jonathan Long等人的研究在图像语义分割上取得了巨大的突破。然而，由于FCN将原图像缩小32倍再进行放大，其中的池化会导致信息丢失和标签之间的概率模型没有被运用。Chen LC等人提出了DeeplabV1方法，采用了空洞卷积以扩大感受野，减少了池化层，避免因为过多池化造成的细节信息丢失。同时，由于采用CRF条件随机场，进一步细化边缘，提升了类似于树木、自行车这类复杂边缘的分割效果。Linag-Chieh Chen等人在DeepLabV1的基础上，提出了DeeplabV2。较DeeplabV1网络，把用作主干网络的VGG16改成了ResNet并增加了ASPP(atrous spatial pyramidpooling)金字塔模块。ASPP并行采用多个采样率的空洞卷积层来探测，融合全局与局部特征以提升分割效果。随后的DeeplabV3+，引入了编码器和解码器的结构，把主干网络输出与浅层特征相融合，逐步重构空间信息来更好地捕捉物体的细节。同时采用深度可分离卷积以减少计算量。DeeplabV3+能虽然较好地捕获上下文信息，但是对小尺度物体的边缘分割精度依旧不高。

为了解决上述问题，本申请提出了一种融合上下文逐级采样的道路图像分割方法。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种融合上下文逐级采样的道路图像分割方法，能够对道路上小目标物体识别更加准确，对图像细节分割具有明显的提升。

为达到上述目的，本发明是采用下述技术方案实现的：

一种融合上下文逐级采样的道路图像分割方法，包括：

对获取的多张道路图像进行预处理得到分割图片；

将分割图片输入构建好的Xception模型提取深层特征图和浅层特征图；

将浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，并将输出结果输入建好的HRNet模块进行融合；

将深层特征图输入构建好的ASPP金字塔模块进行池化；

将融合结果和池化结果中相同分辨率大小的深层特征图或浅层特征图融合，并进行逐级2倍上采样将深层特征图或浅层特征图放大回原图大小。

优选的，所述对获取的多张道路图像进行预处理得到分割图片包括：

将道路图像裁剪成1024*1024像素的图片，并统一存储为jpg格式；

对每个图片进行语义标注得到分割图片；

其中，语义标注的内容包括背景、汽车、人、天空、道路、草地、墙、建筑、人行道路。

优选的，所述Xception模型的构建包括：

构建block1中间特征层，其由32通道的3*3卷积层、relu激活层、64通道的3*3卷积层、relu激活层组成；

构建block2中间特征层，其由2个128通道的3*3深度可分离卷积层、relu激活层、最大池化层组成；

构建block3中间特征层，其由2个256通道的3*3深度可分离卷积层、relu激活层、最大池化层组成；

构建block4中间特征层，其由2个728通道的3*3深度可分离卷积层、relu激活层、最大池化层组成；

构建block5-block13中间特征层，其均由728通道的3*3深度可分离卷积层、3个relu激活层组成；

其中，在block1中间特征层输出后同时送入一个1*1卷积层，将结果与block2中间特征层的输出相加；在block2中间特征层输出后同时送入一个1*1卷积层，将结果与block3中间特征层的输出相加；在block3中间特征层输出后同时送入一个1*1卷积层，将结果与block4中间特征层的输出相加。

优选的，所述将分割图片输入构建好的Xception模型提取深层特征图和浅层特征图包括：Xception模型在block13中间特征层提取分割图片中的深层特征图，Xception模型在block2、block3、block4中间特征层提取分割图片中的浅层特征图。

优选的，所述将浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，并将输出结果输入建好的HRNet模块进行融合包括：

将block2、block3、block4中间特征层提取的浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，输出out1、out2、out3；

将out1、out2、out3通过上采样和下采样的方式进行交叉融合，得到对应的3个分辨率大小的特征图hrout1、hrout2、hrout3；

其中，所述小目标为分割图片中面积小于10*10个像素的物体；

所述hrout2的大小是hrout1的1/2，hrout3的大小是hrout2的1/2。

优选的，所述CBAM注意力模型的构建包括：构建通道注意力机制和空间注意力机制；

所述通道注意力机制包括：

将输入的特征图在通道维度上分别最大池化一次和平均池化一次，以提取每个通道上的最大权重和平均权重；

将最大权重和平均权重分别送入两个全连接层进行分类；

将分类结果相加并用sigmoid函数激活，得到每个通道的重要性权重矩阵；

将每个通道的重要性权重矩阵与输入的特征图相乘得到放大通道特征的输出；

其中，所述最大池化是指取每个通道的像素点的最大值，所述平均池化是指取每个通道像素点的平均值，所述sigmoid激活函数用于使输入中的较大值更大，输入中的较小值更小；

所述空间注意力机制包括：

将放大通道特征的输出在空间维度上进行一次最大池化和一次平均池化，以提取每个像素点的最大权重和平均权重；

将最大权重和平均权重通过3*3卷积层进行卷积操作并用sigmoid函数激活，输出每个像素点的重要性权重矩阵；

将每个像素点的重要性权重矩阵与放大通道特征的输出相乘得到放大像素点特征的输出。

优选的，所述ASPP金字塔模块包括步长分别为6、12、18的3*3卷积层以及一个步长为1的平均池化层；所述将深层特征图输入构建好的ASPP金字塔模块进行池化包括：

将block13中间特征层提取的深层特征图送入步长为6的3*3卷积层，再送入两个步长为1的1*1卷积层输出结果；

将block13中间特征层提取的深层特征图送入步长为12的3*3卷积层，再送入两个步长为1的1*1卷积层输出结果；

将block13中间特征层提取的深层特征图送入步长为18的3*3卷积层，再送入两个步长为1的1*1卷积层输出结果；

将block13中间特征层提取的深层特征图送入一个步长为1的平均池化层输出结果；

将上述输出结果合并，得到最终的ASPP金字塔模块池化输出。

优选的，所述将融合结果和池化结果中相同分辨率大小的深层特征图或浅层特征图融合，并进行逐级2倍上采样将深层特征图或浅层特征图放大回原图大小包括：

将ASPP金字塔模块池化输出卷积一次，2倍上采样一次，并与hrout3合并；

将合并结果卷积一次，2倍上采样一次，并与hrout2合并；

将合并结果卷积一次，2倍上采样一次，并与hrout1合并；

将合并结果卷积两次，2倍上采样一次，用softmax函数激活得到最终输出。

与现有技术相比，本发明所达到的有益效果：

本发明提供的一种融合上下文逐级采样的道路图像分割方法，利用HRNet的模式融合不同层级特征，并在HRNet模块前加上CBAM注意力机制，增强有益特征通道，减弱无用特征通道，最后将ASPP金字塔模块的输出与融合后的不同层级特征逐步上采样。实验结果表明：融合上下文逐级上采样的方法对道路上小目标物体识别更加准确，对图像细节分割具有明显的提升；本发明可帮助汽车识别路面物体的种类、位置和大小，由于对小目标物体识别更加准确，可以有效的提前预判远处的小目标行人，在智能驾驶方向有很大的发挥空间。

附图说明

图1是本发明实施例提供的一种融合上下文逐级采样的道路图像分割方法的流程图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一：

本实施例提供了一种道路图像分割方法，包括以下步骤：

步骤1、对获取的多张道路图像进行预处理得到分割图片；

对每个图片进行语义标注得到分割图片；

步骤2、将分割图片输入构建好的Xception模型提取深层特征图和浅层特征图；

Xception模型在block13中间特征层提取分割图片中的深层特征图，Xception模型在block2、block3、block4中间特征层提取分割图片中的浅层特征图。

步骤3、将浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，并将输出结果输入建好的HRNet模块进行融合；

所述hrout2的大小是hrout1的1/2，hrout3的大小是hrout2的1/2。

步骤4、将深层特征图输入构建好的ASPP金字塔模块进行池化；

将上述输出结果合并，得到最终的ASPP金字塔模块池化输出。

步骤5、将融合结果和池化结果中相同分辨率大小的深层特征图或浅层特征图融合，并进行逐级2倍上采样将深层特征图或浅层特征图放大回原图大小。

将合并结果卷积一次，2倍上采样一次，并与hrout2合并；

将合并结果卷积一次，2倍上采样一次，并与hrout1合并；

其中，Xception模型是***公司提出的一种用于图片分类的网络结构，在本实施例中Xception模型的构建包括：

Convolution Block Attention Module(CBAM)是一种结合了空间和通道的注意力模型，能够利用像素间的空间和通道信息提高对小目标物体的识别能力；本实施例中CBAM注意力模型的构建包括：构建通道注意力机制和空间注意力机制；

所述通道注意力机制包括：

将最大权重和平均权重分别送入两个全连接层进行分类；

所述空间注意力机制包括：

ASPP金字塔模块利用不同步长的空洞卷积扩大感受野，避免了传统方法为了获得更大感受野而牺牲分辨率的问题，本实施例中ASPP金字塔模块包括步长分别为6、12、18的3*3卷积层以及一个步长为1的平均池化层。

本实施例中构建HRNet模块，包含：

将out1、2倍上采样的out2、4倍上采样的out3合并成out11；将2倍下采样的out1、out2、2倍上采样的out3合并成out22；将4倍下采样的out1、2倍下采样的out2、out3合并成out33；

将out11、2倍上采样的out22、4倍上采样的out33合并成out111；将2倍下采样的out11、out22、2倍上采样的out33合并成out222；将4倍下采样的out11、2倍下采样的out22、out33合并成out333。

以德国城市街景图为例，该数据集包含9个大类：背景、汽车、人、天空、道路、草地、墙、建筑、人行道路。该数据集一共有德国10个城市1300张道路街景图片。用于训练的样本1000张，测试的样本300张。每张图片都是2048*1024像素大小。训练时使用显存为16G的Tesla P100 GPU进行训练。在训练时采用随机梯度下降的方式，优化器为AdamOptimizer，学习率在前500个epoch为0.001，后200个epoch调整为0.0001。损失函数采用交叉熵损失函数(categorial_crossentropy)。

将测试数据集投入步骤(1)中进行图像预处理，其步骤如下：

1.1将1000张测试图片进行切割，切割成2000张1024*1024像素大小的图片。

1.2将步骤1.1中切割好的2000张图片转换为3通道数组形式，得到2000个大小为1024*1024*3的矩阵。

1.3将步骤1.2中的2000个三维矩阵合并成一个2000*1024*1024*3的四维矩阵。

将步骤1.3中的结果放入步骤(2)中，用Xception网络提取特征，其步骤如下：

2.1将四维矩阵的场宽用0填充两次，成2000*1028*1028*3的矩阵，放入Xception网络中的block1中，得到一个大小为2000*512*512*64的矩阵。

2.2将步骤2.1的输出放入block2中，得到一个大小为2000*256*256*128的浅层特征图矩阵。

2.3将步骤2.2的输出放入block3中，得到一个大小为2000*128*128*256的浅层特征图矩阵。

2.4将步骤2.3的输出放入block4中，得到一个大小为2000*64*64*728的浅层特征图矩阵。

2.5将步骤2.4的输入依次放入block5、block6、block7、block8、block9、block10、block11、block12、block13中，得到深层特征图矩阵，大小为2000*64*64*728。

将步骤2.2、2.3、2.4的输出分别放入步骤(3)中，用CBAM注意力机制放大小目标特征，具体步骤如下：

3.1步骤2.2中block2池化前的特征矩阵依次进入CBAM模块中的通道注意力机制和空间注意力机制，得到放大小目标特征后的输出矩阵图，大小为2000*512*512*128。

3.2步骤2.3中block3池化前的特征矩阵依次进入CBAM模块中的通道注意力机制和空间注意力机制，得到放大小目标特征后的输出矩阵图，大小为2000*256*256*256。

3.3步骤2.4中block4池化前的特征矩阵依次进入CBAM模块中的通道注意力机制和空间注意力机制，得到放大小目标特征后的输出矩阵图，大小为2000*128*128*512。

将步骤2.5的深层特征图block13放入步骤(4)中，用ASPP金字塔模块获取更大感受野，其具体步骤如下：

4.1将block13的输出特征矩阵图放入通道数为256步长为6的3*3卷积层中，得到2000*64*64*256大小的特征矩阵。

4.2将block13的输出特征矩阵图放入通道数为256步长为12的3*3卷积层中，得到2000*64*64*256大小的特征矩阵。

4.3将block13的输出特征矩阵图放入通道数为256步长为18的3*3卷积层中，得到2000*64*64*256大小的特征矩阵。

4.4将block13的输出特征矩阵图放入步长为1的池化层中，再经过一个通道数为256的3*3卷积层中，得到2000*64*64*256大小的特征矩阵。

4.5将步骤4.1、4.2、4.3、4.4的输出合并得到一个2000*64*64*1024大小的特征矩阵，再经过一个通道数为256的3*3卷积层得到输出为2000*64*64*256大小的特征矩阵。

将步骤(3)的浅层特征矩阵放入步骤(5)中，用CBAM注意力机制放大小目标特征，具体步骤如下：

5.1将步骤3.2的输出上采样2倍成2000*512*512*256大小，将步骤3.3的输出上采样4倍成2000*512*512*512大小，将这两个结果与步骤3.1的结果合并，得到一个2000*512*512*896大小的矩阵，然后经过两个通道数为128的3*3卷积层，得到一个2000*512*512*128大小的特征图矩阵。

5.2将步骤3.1的输出下采样2倍成2000*256*256*128大小，将步骤3.3的输出上采样2倍成2000*256*256*512大小，将这两个结果与步骤3.2的结果合并，得到一个2000*256*256*896大小的矩阵，然后经过两个通道数为256的3*3卷积层，得到一个2000*256*256*256大小的特征图矩阵。

5.3将步骤3.1的输出下采样4倍成2000*128*128*128大小，将步骤3.2的输出下采样2倍成2000*128*128*256大小，将这两个结果与步骤3.3的结果合并，得到一个2000*128*128*896大小的矩阵，然后经过两个通道数为512的3*3卷积层，得到一个2000*128*128*512大小的特征图矩阵。

5.4将步骤5.2的输出上采样2倍成2000*512*512*256大小，将步骤5.3的输出上采样4倍成2000*512*512*512大小，将这两个结果与步骤5.1的结果合并，得到一个2000*512*512*896大小的矩阵，然后经过两个通道数为128的3*3卷积层，得到一个2000*512*512*128大小的特征图矩阵。

5.5将步骤5.1的输出下采样2倍成2000*256*256*128大小，将步骤5.3的输出上采样2倍成2000*256*256*512大小，将这两个结果与步骤5.2的结果合并，得到一个2000*256*256*896大小的矩阵，然后经过两个通道数为256的3*3卷积层，得到一个2000*256*256*256大小的特征图矩阵。

5.6将步骤5.1的输出下采样4倍成2000*128*128*128大小，将步骤5.2的输出下采样2倍成2000*128*128*256大小，将这两个结果与步骤5.3的结果合并，得到一个2000*128*128*896大小的矩阵，然后经过两个通道数为512的3*3卷积层，得到一个2000*128*128*512大小的特征图矩阵。

将步骤4.5、5.4、5.5、5.6逐步送入步骤(6)中，逐级上采样放大特征图，其具体步骤如下：

6.1将步骤5.6的输出放入一个通道数为80的1*1卷积层，再上采样2倍得到大小为2000*128*128*80的矩阵。

6.2将步骤6.1的输出和4.5的输出合并，得到大小为2000*128*128*336的矩阵，再经过两个通道数为256的3*3卷积层，再上采样2倍，得到大小为2000*256*256*256的矩阵。

6.3将步骤5.5的输出放入一个通道数为80的1*1卷积层，再上采样2倍得到大小为2000*256*256*80的矩阵。

6.4将步骤6.3的输出和6.2的输出合并，得到大小为2000*256*256*336的矩阵，再经过两个通道数为256的3*3卷积层，再上采样2倍，得到大小为2000*512*512*256的矩阵。

6.5将步骤5.4的输出放入一个通道数为80的1*1卷积层，再上采样2倍得到大小为2000*512*512*80的矩阵。

6.6将步骤6.5的输出和6.4的输出合并，得到大小为2000*512*512*336的矩阵，再经过两个通道数为256的3*3卷积层，再上采样2倍，得到大小为2000*1024*1024*256的矩阵。

6.7将步骤6.6的输出矩阵放入一个9通道的1*1卷积层，并用softmax函数激活，得到2000*1024*1024*9大小的矩阵。

6.8比较输出矩阵和标注图片矩阵的差，使用梯度下降的方法不断优化网络参数，损失函数采用交叉熵损失函数，经过700次训练后得出最终网络。

在步骤(7)中，输出分割图片，其具体步骤如下：

7.1采用300张1024*2048像素大小的测试图片进行测试将每一张图片裁剪为2张1024*1024像素大小的图片。

7.2将步骤7.1裁剪好的图片一次送入网络中，得到1个大小为600*1024*1024*9的矩阵，使用onehot编码在最后一个维度降维，得到600*1024*1024的矩阵，即600张大小为1024*1024的图片，图片上每个像素都是0到9中的一个标签，代表了背景、汽车、人、天空、道路、草地、墙、建筑、人行道路这9个分类。

表1本发明方法和其他方法的比较

分类方法	Deeplabv1	Deeplabv2	Deeplabv3+	本发明方法
					准确率	79.5％	83.32％	88.48％	90.02％

由表1可知，本发明方法在道路图像分割方面的准确率要优于现有的主流分割网络。特别是对小目标的识别能力更强，对物体边缘分割更加精确。本发明方法利用深度学习的方法，发现不同物体的不同特征，并加以归类，能够广泛用于道路识别，道路场景分割等方向。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种道路图像分割方法，其特征在于，包括：

对获取的多张道路图像进行预处理得到分割图片；

将深层特征图输入构建好的ASPP金字塔模块进行池化；

2.根据权利要求1所述的一种道路图像分割方法，其特征在于，所述对获取的多张道路图像进行预处理得到分割图片包括：

对每个图片进行语义标注得到分割图片；

3.根据权利要求1所述的一种道路图像分割方法，其特征在于，所述Xception模型的构建包括：

4.根据权利要求3所述的一种道路图像分割方法，其特征在于，所述将分割图片输入构建好的Xception模型提取深层特征图和浅层特征图包括：Xception模型在block13中间特征层提取分割图片中的深层特征图，Xception模型在block2、block3、block4中间特征层提取分割图片中的浅层特征图。

5.根据权利要求4所述的一种道路图像分割方法，其特征在于，所述将浅层特征图输入构建好的CBAM注意力模型放大其中小目标的特征，并将输出结果输入建好的HRNet模块进行融合包括：

所述hrout2的大小是hrout1的1/2，hrout3的大小是hrout2的1/2。

6.根据权利要求1所述的一种道路图像分割方法，其特征在于，所述CBAM注意力模型的构建包括：构建通道注意力机制和空间注意力机制；

所述通道注意力机制包括：

将最大权重和平均权重分别送入两个全连接层进行分类；

所述空间注意力机制包括：

7.根据权利要求4所述的一种道路图像分割方法，其特征在于，所述ASPP金字塔模块包括步长分别为6、12、18的3*3卷积层以及一个步长为1的平均池化层；所述将深层特征图输入构建好的ASPP金字塔模块进行池化包括：

将上述输出结果合并，得到最终的ASPP金字塔模块池化输出。

8.根据权利要求7所述的一种道路图像分割方法，其特征在于，所述将融合结果和池化结果中相同分辨率大小的深层特征图或浅层特征图融合，并进行逐级2倍上采样将深层特征图或浅层特征图放大回原图大小包括：

将合并结果卷积一次，2倍上采样一次，并与hrout2合并；

将合并结果卷积一次，2倍上采样一次，并与hrout1合并；