CN110136141B

CN110136141B - 一种面向复杂环境的图像语义分割方法及装置

Info

Publication number: CN110136141B
Application number: CN201910333809.9A
Authority: CN
Inventors: 吴俊君; 王嫣然; 陈世浪
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2023-07-11
Anticipated expiration: 2039-04-24
Also published as: CN110136141A

Abstract

本发明属于计算机视觉技术领域，具体涉及一种面向复杂环境的图像语义分割方法及装置，首先将微调的VGG16卷积神经网络生成基础网络，通过所述基础网络提取训练图像的初步特征；进而将隐藏层卷积特征模块和VGG16卷积神经网络的每一个卷积层进行连接，生成高层语义特征；并通过空洞卷积方法将所述初步特征输入到金字塔结构的空洞卷积中，得到细粒度低层特征；然后将所述高层语义特征和细粒度低层特征进行融合，生成高分辨率特征图；通过设置网络训练参数，以交叉熵损失函数为目标，通过反向传播进行网络训练，从而建立语义分割网络；最后将测试图像输入所述语义分割网络，生成测试图像的语义分割结果，本发明能解决现有方法在复杂环境下分割边界模糊的缺点，能够产生高分辨率的预测图像，提高在复杂环境下的图像语义分割方法的性能。

Description

一种面向复杂环境的图像语义分割方法及装置

技术领域

本发明属于计算机视觉技术领域，具体涉及一种面向复杂环境的图像语义分割方法及装置。

背景技术

图像语义分割是指按照图像中每个像素点所表达的语义内容对其进行分类的图像分割方法，它是场景理解的基础性技术，可在像素级别对物体进行定位识别，对智能驾驶、机器人认知层面的自主导航、无人机着陆***以及智慧安防监控等无人***具有至关重要的作用，直接关系到无人***对场景理解的准确度。

由于无人***在面对非结构化复杂环境时，传统语义分割方法的场景理解能力及工作效率表现欠佳，因此近年来面向复杂环境的语义分割问题成为研究的热点，并取得了一系列显著的成果。尤其是卷积神经网络的出现，使得图像语义分割领域取得了可喜的进展，从模型结构、损失函数、效率等不同角度提高了语义分割精度问题。但是面对复杂的真实环境所具备的非结构化、目标多样化、形状不规则化以及物体遮挡等各种因素，都给现有的图像语义分割精度带来了极大的挑战。

发明内容

本发明的目的在于提供一种面向复杂环境的图像语义分割方法及装置，以解决现有方法在复杂环境下分割边界模糊的缺点，提高在复杂环境下的图像语义分割方法的性能。

为实现上述目的，本发明提供了如下方案：

一种面向复杂环境的图像语义分割方法，包括以下步骤：

步骤S100、将VGG16卷积神经网络进行修改生成基础网络，通过所述基础网络提取训练图像的初步特征，所述VGG16卷积神经网络中的卷积层分为5个阶段；

步骤S200、使用隐藏层卷积特征模块处理所述基础网络中前4阶段卷积层得到的初步特征，生成高层语义特征；

步骤S300、通过金字塔结构的空洞卷积处理所述基础网络中最末层卷积得到的初步特征，得到细粒度低层特征；

步骤S400、将所述高层语义特征和细粒度低层特征进行融合，生成高分辨率特征图；

步骤S500、设置网络训练参数，以交叉熵损失函数为目标，通过反向传播进行网络训练，从而建立语义分割网络；

步骤S600、将测试图像输入所述语义分割网络，生成测试图像的语义分割结果。

进一步，在步骤S100中，所述将VGG16卷积神经网络进行修改生成基础网络具体为：

舍弃原始VGG16卷积神经网络中所有的全连接层和最后一个池化层，构建端到端的全卷积网络；

通过所述全卷积网络进行卷积、池化、批量归一化及ReLU操作，得到基础网络中每一个卷积层的特征图，从而提取图像的初步特征。

进一步，所述步骤S200的具体实现方法为：

步骤S210、将所述特征图分别输入到1×1大小的卷积和3×3大小的卷积，获取各个尺度的卷积特征；

步骤S220、将各个尺度的卷积特征进行融合，并进行ReLU操作，得到第一结果；

步骤S230、将所述第一结果输入到1×1大小的卷积中，将输出特征通道数调整到对应的类别数，从而生成高层语义特征。

进一步，所述步骤S300的具体实现方法为：

步骤S310、将所述特征图分别输入两组空洞卷积中，并分别进行批量归一化和ReLU操作，进而分别输入到1×1大小的卷积，将输出特征通道数分别调整到对应的类别数，生成第一特征图和第二特征图；

步骤S320、将所述第一特征图和第二特征图进行卷积、批量归一化、ReLU操作，从而构成金字塔结构；

步骤S330、将所述金字塔结构中的第一特征图和第二特征图进行融合，生成细粒度低层特征。

进一步，在步骤S400中，所述高层语义特征和细粒度低层特征具体通过eltwise层进行加成融合，生成高分辨率特征图。

进一步，在步骤S500中，所述网络训练参数具体设置为：

采用poly学习策略，将初始学习率设置为0.001，将power设置为0.9、将卷积核权重初始值设置为服从均值为0，标准差为0.01的高斯分布，将偏置初始值设置为0，将权重衰减值设置为0.0005，将衰减动量设置为0.9。

一种面向复杂环境的图像语义分割装置，所述装置包括：

提取单元，用于将VGG16卷积神经网络进行修改生成基础网络，通过所述基础网络提取训练图像的初步特征，所述VGG16卷积神经网络中的卷积层分为5个阶段；

高层语义特征单元，用于使用隐藏层卷积特征模块处理所述基础网络中前4阶段卷积层得到的初步特征，生成高层语义特征；

细粒度低层特征单元，用于通过金字塔结构的空洞卷积处理所述基础网络中最末层卷积得到的初步特征，得到细粒度低层特征；

高分辨率特征图单元，用于将所述高层语义特征和细粒度低层特征进行融合，生成高分辨率特征图；

语义分割网络单元，用于设置网络训练参数，以交叉熵损失函数为目标，通过反向传播进行网络训练，从而建立语义分割网络；

语义分割结果单元，用于将测试图像输入所述语义分割网络，生成测试图像的语义分割结果。

本发明的有益效果是：本发明公开一种面向复杂环境的图像语义分割方法及装置，首先将VGG16卷积神经网络进行修改生成基础网络，通过所述基础网络提取训练图像的初步特征；进而使用隐藏层卷积特征模块处理VGG16前4阶段卷积层得到的初步特征，生成高层语义特征；并通过金字塔结构的空洞卷积处理VGG16最末层卷积得到的初步特征，得到细粒度低层特征；然后将所述高层语义特征和细粒度低层特征进行融合，生成高分辨率特征图；通过设置网络训练参数，以交叉熵损失函数为目标，通过反向传播进行网络训练，从而建立语义分割网络；最后将测试图像输入所述语义分割网络，生成测试图像的语义分割结果，本发明能解决现有方法在复杂环境下分割边界模糊的缺点，能够产生高分辨率的预测图像，提高在复杂环境下的图像语义分割方法的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种面向复杂环境的图像语义分割方法的流程示意图；

图2为本发明实施例一种面向复杂环境的图像语义分割装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供的一种面向复杂环境的图像语义分割方法，包括以下步骤：

作为本实施例的优选，在步骤S100中，所述VGG16卷积神经网络具体为：由13个卷积层和3个全连接层串联组成的具有学习能力的神经网络，其中13个卷积层分为5个阶段，第一阶段包含2层3×3大小，输出维度为64的卷积层；第二阶段包含2层3×3大小，输出维度为128的卷积层；第三阶段包含两层3×3大小的卷积层和一层1×1大小的卷积层，其输出维度均为256；第四阶段包含两层3×3大小的卷积层和一层1×1大小的卷积层，其输出维度均为512；第五阶段包含两层3×3大小的卷积层和一层1×1大小的卷积层，其输出维度均为512；每阶段之后均连接有一个最大池化层。

在步骤S100中，所述将VGG16卷积神经网络进行修改生成基础网络具体为：

在一个或多个实施例中，所述ReLU操作的计算公式为：

f(x)＝max(0,x)，其中，x为输入，f(x)为输出。

在一个实施例中，所述步骤S200的具体实现方法如下：

在一个实施例中，所述步骤S300的具体实现方法如下：

在一个优选的实施例中，将所述特征图输入到孔洞大小为6的3×3的空洞卷积中，并进行批量归一化和ReLU操作，进而输入到1×1大小的卷积中，将输出特征通道数调整到对应的类别数，生成第一特征图；

将所述特征图输入到孔洞大小为12的3×3的空洞卷积中，并进行批量归一化和ReLU操作，进而输入到1×1大小的卷积中，将输出特征通道数调整到对应的类别数，生成第二特征图；

步骤S320、将所述第一特征图和第二特征图通过卷积、批量归一化、ReLU操作，从而构成金字塔结构；

在一个实施例中，步骤S400中所述的高层语义特征和细粒度低层特征具体通过eltwise层进行加成融合，生成高分辨率特征图。

在一个实施例中，在步骤S500中，所述网络训练参数具体设置为：

为衡量本实施例中的网络预测性能，验证语义分割结果的准确性，采用以下实验环境运行实施例中的方法：Dell Precision Tower T7920工作站，其配置为CPU：IntelXeon Silver 4114，10核20线程，主频为2.2GHz，内存：64GB，操作***：Ubuntu 16.04 LTS(64位)，GPU：NVIDIA Geforce GTX 1080TI，显存：11G。

采用以下步骤进行验证：

步骤S610、将SUN RGB-D数据集中的图片划分为训练图片、验证图片和测试图片；

步骤S620、对划分出来的训练图片进行预处理，具体包括：将图片进行镜像操作和随机裁剪；

步骤S630、利用训练图片和验证图片对网络进行训练，测试图片对网络进行测试，使用像素精度、均像素精度、平均交并比指标衡量网络预测性能。

所述像素精度表示正确的像素占总像素的比例。

所述均像素精度表示像素精度的提升，首先计算每个类内被正确分类像素数的比例，之后求所有类的平均。

所述平均交并比通过计算两个集合的交集和并集之比，在语义分割问题中计算的是真实分割与预测的分割之间的交并比，即真实正例的数量除以真实正例、错误负例、错误正例的总数量。

经实验测试表明：本实施例提供的方法能够产生高分辨率的预测图像，能够保证在SUN RGB-D数据集上的分割效果较大部分方法具有一定提升。

参考图2，本发明实施例还提供一种面向复杂环境的图像语义分割装置，所述装置包括：

提取单元100，用于将VGG16卷积神经网络进行修改生成基础网络，通过所述基础网络提取训练图像的初步特征，所述VGG16卷积神经网络中的卷积层分为5个阶段；

高层语义特征单元200，用于使用隐藏层卷积特征模块处理所述基础网络中前4阶段卷积层得到的初步特征，生成高层语义特征；

细粒度低层特征单元300，用于通过金字塔结构的空洞卷积处理所述基础网络中最末层卷积得到的初步特征，得到细粒度低层特征；

高分辨率特征图单元400，用于将所述高层语义特征和细粒度低层特征进行融合，生成高分辨率特征图；

语义分割网络单元500，用于设置网络训练参数，以交叉熵损失函数为目标，通过反向传播进行网络训练，从而建立语义分割网络；

语义分割结果单元600，用于将测试图像输入所述语义分割网络，生成测试图像的语义分割结果。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种面向复杂环境的图像语义分割方法，其特征在于，包括以下步骤：

步骤S600、将测试图像输入所述语义分割网络，生成测试图像的语义分割结果；

通过所述全卷积网络进行卷积、池化、批量归一化及ReLU操作，得到基础网络中每一个卷积层的特征图，从而提取图像的初步特征；

所述步骤S200的具体实现方法为：

2.如权利要求1所述的面向复杂环境的图像语义分割方法，其特征在于，所述步骤S300的具体实现方法为：

3.如权利要求1所述的面向复杂环境的图像语义分割方法，其特征在于，在步骤S400中，所述高层语义特征和细粒度低层特征具体通过eltwise层进行加成融合，生成高分辨率特征图。

4.如权利要求1所述的面向复杂环境的图像语义分割方法，其特征在于，在步骤S500中，所述网络训练参数具体设置为：

5.一种面向复杂环境的图像语义分割装置，其特征在于，所述装置包括：

语义分割结果单元，用于将测试图像输入所述语义分割网络，生成测试图像的语义分割结果；

所述将VGG16卷积神经网络进行修改生成基础网络具体为：

所述高层语义特征单元具体用于：

将所述特征图分别输入到1×1大小的卷积和3×3大小的卷积，获取各个尺度的卷积特征；

将各个尺度的卷积特征进行融合，并进行ReLU操作，得到第一结果；

将所述第一结果输入到1×1大小的卷积中，将输出特征通道数调整到对应的类别数，从而生成高层语义特征。