CN112802026A

CN112802026A - 一种基于深度学习实时的交通场景语义分割方法

Info

Publication number: CN112802026A
Application number: CN202110203890.6A
Authority: CN
Inventors: 梁仕华; 付文伟; 宋俊; 汪颖; 赵晶
Original assignee: Chengfang Big Data Technology Beijing Co ltd
Current assignee: Chengfang Big Data Technology Beijing Co ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-05-14

Abstract

本发明公开了一种基于深度学习实时的交通场景语义分割方法，涉及计算机视觉技术领域，包括以下步骤：预先建立基础实时语义分割网络框架，用于对图像进行分割并构建分层的特征；进行获取图像像素类别，并获取粗糙的语义分割图；基于获取的粗糙的语义分割图通过精细粒度细化模块结构对语义分割图进行精细化微调；再基于轻量级语义分割优化模块执行通道的裁剪和特征信息的优化；获取精细的语义分割结果并作为输出。本发明实现了实时高效率交通场景处理能力，不仅采用基于多重粒度的实时语义分割网络的新颖框架，该框架以粗糙到精细的方式对图像进行分割，通过混合注意力特征聚合、精细粒度细化模块和轻量级语义分割优化模块，实现更准确的分割，适应性强。

Description

一种基于深度学习实时的交通场景语义分割方法

技术领域

本发明涉及计算机视觉技术领域，具体来说，涉及一种基于深度学习实时的交通场景语义分割方法。

背景技术

语义分割在计算机和多媒体领域是一种重要的基础工作，其目的是为图像中每个像素分配一个语义类别。具体来说，就是从图像的每个像素中分辨出目标对象是何种类别，首先要从图像中将目标检测出来，识别出不同种类目标、目标与背景的界限，使用one-hot编码对像素进行数学表达，编码后用不同的颜色表示不同类别的语义。语义分割有着广泛的应用，包括自动驾驶，遥感影像分析，场景解析，多媒体分析等等。

近几年，基于深度卷积神经网络(CNNs)的语义分割取得了重大的进展。一般采用空间特征金字塔池化(FPN)的方式，将特征信息进行语义分割。

目前，对于实时语义分割的研究，主要集中在注意机制(Attention)、语义特征聚合和多尺度特征融合等方面，在此基础上提高空间细节上的丰富度。因此如何选择合适的图像分辨率，选择单独的组件还是整体进行处理，是目前语义分割方法面临的挑战。降低计算复杂度提高效率和提高语义分割的有效性是实时语义分割的两个重要因素。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出一种基于深度学习实时的交通场景语义分割方法，通过对多尺度几何语义特征细节与高层语义之间潜在的相关性进行建模，提出了一种高效的多粒度语义融合分割网络(MGFSNet)，能够快速准确地实现实时语义分割，从而更快更好的分割交通场景，以克服现有相关技术所存在的上述技术问题。

本发明的技术方案是这样实现的：

一种基于深度学习实时的交通场景语义分割方法，包括以下步骤：

预先建立基础实时语义分割网络框架，用于对图像进行分割并构建分层的特征；

进行获取图像像素类别，并获取粗糙的语义分割图；

基于获取的粗糙的语义分割图通过精细粒度细化模块结构对语义分割图进行精细化微调；

再基于轻量级语义分割优化模块执行通道的裁剪和特征信息的优化，其中包括低分辨率功能图处理、通道压缩处理和简化单元处理；

获取精细的语义分割结果并作为输出。

进一步的，所述语义分割网络框架为多粒度语义融合分割网络(MGFSNet)框架。

进一步的，所述多粒度语义融合分割网络(MGFSNet)框架，包括骨干网(ResNet-18)、混合注意力特征聚合(HAFA)、精细粒度细化模块(FGRM)和轻量级语义分割优化模块(LWAF)。

进一步的，所述进行预测图像像素类别，包括以下步骤：

预先采用轻量级骨干网(ResNet-18)来抽取不同尺度的语义特征，其中，采样尺度分别为原始输入图像的1/8、1/16和1/32；

进行通过混合注意力特征聚合(HAFA)结构，融合三个尺度的语义特征生成一个粗糙的语义分割图。

进一步的，所述精细粒度细化模块，包括细节特征图生成、类别感知权重学习和语义标签图细化；

所述细节特征图生成，用于从注意力特征(HAFA)中提取关键几何边界细节；

所述类别感知权重学习，用于对多尺度特征元素和类别之间的相关性进行建模，基于相关性获取分割结果；

所述语义标签图细化，用于构建具有细节特征的基于类别的融合组，在类别感知权重的控制下生成精细的语义分割图。

本发明的有益效果：

本发明基于深度学习实时的交通场景语义分割方法，通过预先建立基础实时语义分割网络框架；进行获取图像像素类别，并获取粗糙的语义分割图；基于获取的粗糙的语义分割图通过精细粒度细化模块结构精细划分；再基于轻量级语义分割优化模块执行通道的裁剪和特征信息的增加，获取精细的语义分割结果并作为输出，实现了实时高效率交通场景处理能力，不仅采用基于多重粒度的实时语义分割网络的新颖框架，该框架以粗糙到精细的方式对图像进行分割，通过混合注意力特征聚合、精细粒度细化模块和轻量级语义分割优化模块，实现更准确的分割，适应性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于深度学习实时的交通场景语义分割方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明的实施例，提供了一种基于深度学习实时的交通场景语义分割方法。

如图1所示，根据本发明实施例的基于深度学习实时的交通场景语义分割方法，包括以下步骤：

进行获取图像像素类别，并获取粗糙的语义分割图；

获取精细的语义分割结果并作为输出。

其中，所述语义分割网络框架为多粒度语义融合分割网络(MGFSNet)框架。

其中，所述多粒度语义融合分割网络(MGFSNet)框架，包括骨干网(ResNet-18)、混合注意力特征聚合(HAFA)、精细粒度细化模块(FGRM)和轻量级语义分割优化模块(LWAF)。

其中，所述进行预测图像像素类别，包括以下步骤：

其中，所述精细粒度细化模块，包括细节特征图生成、类别感知权重学习和语义标签图细化；

借助于上述技术方案，通过预先建立基础实时语义分割网络框架；进行获取图像像素类别，并获取粗糙的语义分割图；基于获取的粗糙的语义分割图通过精细粒度细化模块结构精细划分；再基于轻量级语义分割优化模块执行通道的裁剪和特征信息的增加，获取精细的语义分割结果并作为输出，实现了实时高效率交通场景处理能力，不仅采用基于多重粒度的实时语义分割网络的新颖框架，该框架以粗糙到精细的方式对图像进行分割，通过混合注意力特征聚合、精细粒度细化模块和轻量级语义分割优化模块，实现更准确的分割，适应性强。

具体的，在一个实施例中，包括以下步骤：

步骤1，建立基础实时语义分割网络框架：为了有效地进行语义分割，提出了一种基于多粒度语义融合的实时分割网络(MGFSNet)的新颖框架。该框架能实现从粗糙到精细的方式对图像进行分割，而无需明确地构建分层的特征金字塔。多粒度语义融合分割网络(MGFSNet)框架：包括骨干网(ResNet-18)、混合注意力特征聚合(HAFA)、精细粒度细化模块(FGRM)和轻量级语义分割优化模块(LWAF)。

步骤2，初步预测图像像素类别：骨干网(ResNet-18)：采用轻量级骨干网ResNet-18来抽取不同尺度的语义特征，采样尺度分别是原始输入图像的1/8、1/16、1/32，然后通过混合注意力特征聚合(HAFA)结构，融合三个尺度的语义特征生成一个粗糙的语义分割图，用于过滤特征的嘈杂空间细节，并减轻早期特征学习的梯度消失问题。

步骤3，通过精细粒度细化模块结构精细划分：为了提高划分的精确性，采用了精细粒度细化方案来对标签的多个粒度进行建模，精细粒度细化模块(FGRM)结构是将步骤二中分割出的粗糙对象轮廓进一步微调，以丰富分割细节，从而精确建模多级特征和类别之间的关系，识别几何边界细节的重要性，并生成适当的权重以进行融合。该模块可以学习语义类别、视觉特征和尺度之间的相关性，然后确定各个特征的权重，以便最终结果得以细化，从而自适应地控制多级特征融合的分割粒度，仅增加少量的计算量就实现更准确的分割。

另外，精细粒度细化模块(FGRM)结构：由三个部分组成：细节特征图生成；类别感知权重学习；语义标签图细化。

1)细节特征图生成：为了捕获对比例敏感的空间细节，设计了具有不同比例的特征提取器，以从注意力特征(HAFA)中提取关键几何边界细节。

2)类别感知权重学习：多种粒度学习的核心思想是对多尺度特征元素和类别之间的相关性进行建模，利用这些相关性来完善最终分割结果。

3)语义标签图细化：利用粗糙标签图的每个通道自然地构建具有细节特征的基于类别的融合组，在类别感知权重的控制下生成精细的标签图。

步骤4，轻量级语义分割优化模块：轻量级语义分割优化模块执行通道的裁剪和特征信息的增加。与一般注意模型不同，LWAF是专门设计的注意方案，它考虑了跨尺度特征的差异，并以轻微的性能损失加速了注意力特征的学习。通过采用一系列轻量级操作，快速分辨率下采样，通道压缩等方法，提出了新颖且经过专门设计的模型加速策略，从而大大提高了效率，以满足实时需求。

此外，轻量化结构：主要包括采用低分辨率功能图，通道压缩和简化单元。

1)采用低分辨率特征图：建议的方法利用Resnet-18的最后3个阶段的侧面输出进行分割任务，与原始样本相比，分别降低了1/8、1/16和1/32的采样率输入。

2)通道压缩：具体来说，通过3x3卷积层将所有侧面输出功能减少到128个通道。与原始输出的256-512原始尺寸相比，这使计算复杂度降低了3倍以上。

3)简化单元：混合注意力特征聚合利用卷积层作为特征聚合的基础单元，而不是利用复杂的模块作为基础单元来进行特征聚合。

步骤5，根据时实交通场景进行分析：将时实交通场景图像输入，得到精细的语义分割结果，再运用到实时交通场景分割服务中。

综上所述，借助于本发明的上述技术方案，可实现如下效果：

1、为了有效地进行语义分割，提出了一种基于多重粒度的实时语义分割网络(MGFSNet)的新颖框架，该框架以粗糙到精细的方式对图像进行分割，而无需构建多尺度输入的语义分割模型。

2、混合注意力特征聚合将混合注意力机制与自上而下的特征聚合相结合，以过滤嘈杂的空间细节，获取尺度不变性特征，并减轻早期特征学习的梯度消失问题。精细粒度细化(FGRM)模块可学习类别，视觉特征和尺度之间的相关性，然后确定各个权重，以便最终结果得以细化，从而自适应地控制多级特征融合的分割粒度，实现更准确的细分语义特征。

3、为了提高效率，本发明提出了一系列轻量级策略和简化的结构，从而实现了实时处理能力。

4、它达到85fps的极高速度，分别比最先进的方法ICNet，SwiftNet和FCHarDNet快三倍，两倍和1.5倍，同时在Cityccape等公开数据集上实现高精度分割，在实时性和精度上超越现有的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习实时的交通场景语义分割方法，其特征在于，包括以下步骤：

进行获取图像像素类别，并获取粗糙的语义分割图；

获取精细的语义分割结果并作为输出。

2.根据权利要求1所述的基于深度学习实时的交通场景语义分割方法，其特征在于，所述语义分割网络框架为多粒度语义融合分割网络框架。

3.根据权利要求2所述的基于深度学习实时的交通场景语义分割方法，其特征在于，所述多粒度语义融合分割网络框架，包括骨干网、混合注意力特征聚合、精细粒度细化模块和轻量级语义分割优化模块。

4.根据权利要求3所述的基于深度学习实时的交通场景语义分割方法，其特征在于，所述进行预测图像像素类别，包括以下步骤：

预先采用轻量级骨干网来抽取不同尺度的语义特征，其中，采样尺度分别为原始输入图像的1/8、1/16和1/32；

进行通过混合注意力特征聚合结构，融合三个尺度的语义特征生成一个粗糙的语义分割图。

5.根据权利要求4所述的基于深度学习实时的交通场景语义分割方法，其特征在于，所述精细粒度细化模块，包括细节特征图生成、类别感知权重学习和语义标签图细化，其中；

所述细节特征图生成，用于从注意力特征中提取关键几何边界细节；