CN109190626A

CN109190626A - 一种基于深度学习的多路径特征融合的语义分割方法

Info

Publication number: CN109190626A
Application number: CN201810842201.4A
Authority: CN
Inventors: 宋辉; 王东飞; 白伟; 黎政; 姜竹青; 门爱东
Original assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications
Current assignee: National News Publishes Broadcast Research Institute Of General Bureau Of Radio Film And Television; Beijing University of Posts and Telecommunications; Academy of Broadcasting Science of SAPPRFT
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2019-01-11

Abstract

本发明涉及一种基于深度学习的多路径特征融合的语义分割方法，包括以下步骤：使用多路径特征融合方法提取图像的基础深度特征；将提取的基础深度特征经过解码端网络，恢复原始图像分辨率信息，并生成分割结果；以交叉熵损失函数为目标训练网络，使用准确率和mIoU评价网络性能。本发明设计合理，其充分考虑了局部信息以及全局信息，在网络中的特征提取端和分类端添加了很多条路径，网络的输出是与原图像分辨率大小一致的分割图，使用图像已有的标签计算分割准确率，以最小化交叉熵损失函数为目标来训练网络，有效地提高了图像语义分割地准确率。

Description

一种基于深度学习的多路径特征融合的语义分割方法

技术领域

本发明属于计算机视觉图像语义分割技术领域，尤其是一种基于深度学习的多路径特征融合的语义分割方法。

背景技术

图像语义分割是指通过一定的方法将图像中的每个像素分为不同的语义类别，实现从底层到高层语义的推理过程，最终得到显示不同分割区域的逐像素语义标注的分割图。图像语义分割广泛用于汽车自动驾驶中的街景识别及目标检测、无人机落地点检测、场景理解、机器人视觉等许多计算机视觉任务方面的应用。从基于计算机视觉的机器学习方法到目前基于深度学习的方法，图像语义分割算法的研究得到了很大的进展，但是，由于工业需求的不断加大，图像语义分割依然是计算机视觉任务中的研究热点之一。

早期的图像语义分割利用手工标注特征，如方向梯度直方图HOG和尺度不变特征转换SIFT。基于机器学习的方法从最简单的像素级别阈值法、基于像素聚类的分割方法到基于图论划分的分割方法。这些方法过于依赖手工标注的特征库，难以广泛表示图像特征，在实际应用中有很大的局限性。近年来，卷积神经网络(CNN)的发展，使计算机视觉任务中的许多问题得到了巨大的突破。由于深度卷积网络可以从大量样本数据中提取出图像的特征，比手工标注特征更好，在图像分类和目标检测等高层计算机视觉任务上获得了巨大的成功。此外，Pascal VOC、Cityscapes、Microsoft COCO等竞赛中也都引入图像语义分割任务，图像复杂、物体分类多、难度大，吸引了大量国内外研究人员的强烈关注，并涌现出大量经典有效的方法。

尽管图像语义分割方法目前已经有了不错的发展，但因为它的复杂性，仍然有很多问题有待解决。图像语义分割的挑战性主要体现在：物体层次的不确定性，这是因为图像的明亮程度，模糊程度，图像中物体的大小、方向等诸多因素的影响；物体类别层次的模糊性，同一个物种的不同类别，也不好分别开。为了减少不确定性和模糊性等外界因素的影响，充分利用图像中的信息(如图像像素值，从中可以提出许多特征，如颜色特征，图像中像素、物体之间的联系等上下文信息)，获得更好的特征表示，是一个重要的方法。为了提高图像语义分割的准确性，人们也一直在努力使用先进的算法。因此，如何提高图像语义分割性能是目前迫切需要解决的问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种设计合理且识别准确率高的基于深度学习的多路径特征融合的语义分割方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于深度学习的多路径特征融合的语义分割方法，包括以下步骤：

步骤1、使用多路径特征融合方法提取图像的基础深度特征；

步骤2、将提取的基础深度特征经过解码端网络，恢复原始图像分辨率信息，并生成分割结果；

步骤3、以交叉熵损失函数为目标训练网络，使用准确率和mIoU评价网络性能。

所述基础深度特征包含全局信息和局部信息并通过不同的卷积层的输出融合得到。

所述步骤1的具体实现方法包含以下步骤：

⑴将输入图像缩放到统一尺寸256×256，以VGG16卷积神经网络架构作为预训练的基础卷积神经网络，根据输出特征分辨率的大小将网络分成4个模块,每一个模块在原始网络的基础上添加两条路径，其卷积层的数量分别是1和2；

⑵将缩放后的图像输入到修改后的VGG16网络结构中，图像经过一系列卷积、批量归一化、池化、ReLU操作后，每个模块输出一种特征，其分辨率依次为64×64、32×32、16×16和8×8的局部特征。

所述步骤2的具体实现方法包含以下步骤：

⑴将8×8特征经过卷积和上采样层，得到16×16的特征图，将此特征与编码端16×16的卷积层级联，得到更多的16×16特征图；

⑵将16×16特征同样经过(1)中的处理，得到32×32特征；

⑶依次执行下去，直到获得128×128特征图；

⑷将128×128特征图经过上采样和卷积处理，生成256×256的分割图。

所述步骤3的具体实现方法包含以下步骤：

⑴计算预测分割图与已标注好的分割图的交叉熵损失，利用反向传播算法更新权重。

⑵网络训练完成后，使用准确率和mIoU衡量其预测性能。

本发明的优点和积极效果是：

本发明设计合理，其充分考虑了局部信息以及全局信息，在网络中的特征提取端和分类端添加了很多条路径，网络的输出是与原图像分辨率大小一致的分割图，使用图像已有的标签计算分割准确率，以最小化交叉熵损失函数为目标来训练网络，有效地提高了图像语义分割地准确率。

附图说明

图1是本发明提出的整体网络框架图；

图2是本发明网络结构中的多路径模块工作原理图(应用在编码端)；

图3是本发明网络结构中的上采样模块工作原理图(应用在解码端)；

图4是本发明在公开数据集CamVid上的测试结果。

具体实施方式

以下结合附图对本发明实施例做进一步详述。

本发明针对在图像语义分割中如何充分利用全局信息以及局部信息的问题，提出一种利用多路径特征融合网络进行语义分割。如图1至3所示，本发明改变网络结构，在特征提取端，即编码端(Encoder)，将网络结构中的每一个卷积层的一条路径变成多条路径，在每一层的卷积输出端，将多条路径提取的特征相加，输入到下一层网络中。在分类端，即解码端，特征经过卷积层和上采样层，恢复图像原始分辨率大小，使分类结果更加可信。这种方法相当于在网络中的特征提取端和分类端添加了很多条路径，不同的路径会使同一层中卷积核的感受野也不同，这样每条路径得到的特征包含的尺度信息不同，最终得到了一系列从局部到全局的特征。这样的融合结果充分考虑了局部信息以及全局信息。网络的输出是与原图像分辨率大小一致的分割图，使用图像已有的标签计算分割准确率，最后以最小化交叉熵损失函数为目标来训练网络。

在本实施例中，一种基于深度学习的多路径特征融合的语义分割方法包括以下步骤：

步骤S1、在编码端，使用提出的多路径特征融合方法提取图像的基础深度特征，这些特征由不同的卷积层的输出融合而得到，因此包含了全局信息和局部信息。本步骤的具体处理方法如下：

步骤S1.1将输入图像缩放到统一尺寸256×256，以VGG16卷积神经网络架构作为预训练的基础卷积神经网络，然后根据输出特征分辨率的大小将网络分成4个模块,每一个模块在原始网络的基础上添加两条路径，其卷积层的数量分别是1和2；

步骤S1.2将缩放后的图像输入到修改后的VGG16网络结构中，图像经过一系列卷积、批量归一化、池化、ReLU操作后，每个模块输出一种特征，其分辨率依次为64×64，32×32，16×16，8×8的局部特征；

步骤S2、将提取的特征经过解码端网络，恢复原始图像分辨率信息，并生成分割结果。本步骤的具体处理方法如下：

步骤S2.1将8×8特征经过卷积和上采样层，得到16×16的特征图，将此特征与编码端16×16的卷积层级联，得到更多的16×16特征图。

步骤S2.2将16×16特征同样经过(1)中的处理，得到32×32特征。

步骤S2.3、依次执行下去，直到获得128×128特征图。

步骤S2.4、将128×128的特征图经过上采样和卷积层，生成256×256的分割图。

步骤S3、以交叉熵损失函数为目标训练网络，使用准确率和mIoU评价网络性能。本步骤的具体处理方法如下：

步骤S3.1、计算预测分割图与已标注好的分割图的交叉熵损失，利用反向传播算法更新权重。

步骤S3.2、网络训练完成后，使用准确率和mIoU(Mean Intersection overUnion，均交并比)衡量其预测性能。

下面按照本发明的方法进行实验，说明本发明的识别效果。

测试环境：python2.7；PyTorch框架；Ubuntu16.04***；NVIDIA GTX 1070p GPU

测试序列：所选数据集是用于图像分割的图像数据集CamVid和CityScapes。其中CamVid数据集包含701张图像，CityScapes数据集包含5000张图像。

测试指标：本发明使用准确率(Global Accuracy)和mIoU为性能评价指标。准确率指像素分类准确率。mIoU指平均预测正确的错误像素的交集与并集之比。对当今流行的不同算法计算这些指标数据然后进行结果对比，证明本发明在图像语义分割领域得到较好的结果。

测试结果如下：

表1.本发明在不同路径条件下的性能对比，通过比较可知多路径融合可提升网络性能

表2.本发明与其他算法在CityScapes数据集下的性能比较

表3.本发明与其他算法在CamVid数据集下的性能比较

通过以上对比数据可以看出，本发明的准确率和mIoU与现有算法相比有明显的提高。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明包括并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于深度学习的多路径特征融合的语义分割方法，其特征在于包括以下步骤：

步骤1、使用多路径特征融合方法提取图像的基础深度特征；

2.根据权利要求1所述的一种基于深度学习的多路径特征融合的语义分割方法，其特征在于：所述基础深度特征包含全局信息和局部信息并通过不同的卷积层的输出融合得到。

3.根据权利要求1或2所述的一种基于深度学习的多路径特征融合的语义分割方法，其特征在于：所述步骤1的具体实现方法包含以下步骤：

4.根据权利要求1或2所述的一种基于深度学习的多路径特征融合的语义分割方法，其特征在于：所述步骤2的具体实现方法包含以下步骤：

⑵将16×16特征同样经过(1)中的处理，得到32×32特征；

⑶依次执行下去，直到获得128×128特征图；

5.根据权利要求1或2所述的一种基于深度学习的多路径特征融合的语义分割方法，其特征在于：所述步骤3的具体实现方法包含以下步骤：

⑵网络训练完成后，使用准确率和mIoU衡量其预测性能。