CN108985250A

CN108985250A - 一种基于多任务网络的交通场景解析方法

Info

Publication number: CN108985250A
Application number: CN201810842269.2A
Authority: CN
Inventors: 李琳辉; 李佳骏; 连静; 周雅夫; 钱波; 苏兵
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-07-27
Filing date: 2018-07-27
Publication date: 2018-12-11

Abstract

本发明公开了一种基于多任务网络的交通场景解析方法，包括以下步骤：将多任务网络划分为编码器、分割解码器和检测解码器。编码器提取图像的特征并提取特征图中的多尺度信息；分割解码器扩大特征图的尺寸，并与特征图进行融合；检测解码器对输入特征图进行处理，输出对应的目标检测结果。使用深度学习框架Tensorflow对上述多任务网络进行配置、训练和测试。本发明的多任务网络可以提取丰富的图像特征，弥补了编码器中下采样带来的图像细节信息的丢失，有助于提高分割和检测效果。本发明设计了一种多任务网络结构，能够通过一次反向传播实现交通场景图像的语义分割和目标检测，具有较好的实时性和较高的精确率。

Description

一种基于多任务网络的交通场景解析方法

技术领域

本发明属于安全辅助驾驶领域，特别是一种用于实时交通场景解析的多任务网络设计方法。

背景技术

基于视觉的交通场景解析在智能交通***中具有重要的应用。语义分割和目标检测是交通场景解析中的两个主要任务。解决这些任务的传统方法如支持向量机(SVM)、自适应增强算法(AdaBoost)、随机森林迭代法(random forest)等具有较差的泛化性和鲁棒性。近年来，深度学习取得了突破性进展，并在图像处理领域广泛应用。深度学习方法从复杂数据中自动提取丰富的特征，使得模型具有更好的泛化能力，而且提取的特征可以用于语义分割和目标检测等不同的任务。

语义分割将像素分为不同的类，本质上是一个分类任务。许多基于深度学习的方法在语义分割任务中取得了较好的效果，但这些语义分割方法主要关注精度，实时性较差。目前，基于多尺度的网络被证明在保证精确率的前提下，能够获得较好的实时性。在目标检测方面，一些能够端到端训练的目标检测网络被提出，在检测精度和实时性上都获得了较好的效果，并且随着深度学习的发展，这些网络的性能在不断得到改善。

在实际的交通场景应用中，如果进行交通场景解析，同时实现语义分割和目标检测，则必须同时运行两个网络，这需要强大的计算性能且实时性差。

发明内容

为解决现有技术存在的上述问题，本发明要提出一种能同时实现语义分割和目标检测任务，从而减少计算量和计算时间的基于多任务网络的交通场景解析方法。

为实现上述目的，本发明的技术方案如下：一种基于多任务网络的交通场景解析方法，包括以下步骤：

A、多任务网络结构设计

多任务网络包括编码器、分割解码器和检测解码器。所述的编码器包含卷积层和下采样层，所述的卷积层采用深度残差网络中的三层残差学习单元，用来从原始图像提取特征信息，得到特征图；所述的下采样层的卷积核大小为3×3、步长为2，用来缩小特征图的尺寸；在编码器的最后，包含一个空间金字塔池化层，用来提取特征图中不同尺度的信息。编码器输出的特征图作为分割解码器和检测解码器的输入。所述的分割解码器为多尺度结构，首先通过多级的双线性差值方法对输入特征图进行上采样，扩大特征图的尺寸，然后采用1×1卷积核对编码器中不同尺寸的特征图执行卷积操作，并将输出特征图与分割解码器中上采样后的对应大小的特征图进行相加，以此来弥补编码器中下采样层带来的图像细节丢失的问题。所述的检测解码器基于回归的方法，对输入特征图进行处理，输出对应的目标检测结果。

B、多任务网络的训练

使用深度学习框架Tensorflow对上述多任务网络进行配置、训练和测试。网络训练的目标函数定义为分割解码器和检测解码器的损失函数之和，采用交叉熵损失函数作为分割解码器的损失函数，且仅利用分割解码器最后一层输出的特征图来计算损失值，公式如下：

式中，L_S是损失值，q是标签，p是预测值，C是类别数量，N是训练批次中的样本数量，i表示第i个类别。检测解码器的损失函数定义为置信度的交叉熵损失函数和边界框坐标的L1损失函数的总和，公式如下：

式中(x，y)是边界框的中心点坐标，L_b是损失值，q是标签，p是预测值，N是一个训练批次中的样本数量，w和h分别是边界框的高和宽，i表示第i个类别。

在反向传播阶段，利用适应性阶梯算法即Adam优化器对多任务网络权重进行优化。Adam优化器是一种基于梯度下降的方法，使用梯度一阶矩估计和二阶矩估计来动态调整每个参数的学习速率。训练时，采用小批量梯度下降的方法，小批量值设置为3-5，学习率设置为0.00005-0.00015。采用L2正则化方法，正则化系数设置为0.0003-0.0007。

采用KITTI道路基准数据集和KITTI目标基准数据集对多任务网络进行训练和测试。

与现有技术相比，本发明具有以下有益效果：

1、本发明构建了具有多尺度结构的多任务网络，包括编码器、分割解码器、检测解码器。所设计的多任务网络可以提取丰富的图像特征，弥补了编码器中下采样带来的图像细节信息的丢失，有助于提高分割和检测效果。

2、本发明设计了一种多任务网络结构，能够通过一次反向传播实现交通场景图像的语义分割和目标检测，具有较好的实时性和较高的精确率。

附图说明

本发明共有附图2张，其中：

图1是本发明的多任务网络结构示意图；

图2是本发明的流程图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施方式，一种用于实时交通场景分析的多任务网络设计方法，包括以下步骤：

A、多任务网络结构设计

多任务网络包括编码器、分割解码器和检测解码器。所述的编码器包含卷积层和下采样层，所述的卷积层采用深度残差网络中的三层残差学习单元，用来从原始图像提取特征信息，得到特征图；所述的下采样层的卷积核大小为3×3、步长为2，用来缩小特征图的尺寸；在编码器的最后，包含一个空间金字塔池化层，用来提取特征图中不同尺度的信息。通过卷积和下采样的层级组合，编码器输出特征图尺寸为输入图像尺寸的1/32，这些特征图作为分割解码器和检测解码器的输入。所述的分割解码器为多尺度结构，首先通过多级的双线性差值方法对输入特征图进行上采样，扩大特征图的尺寸，然后在编码器的1/8尺寸特征图和1/16尺寸特征图处，分别使用1×1卷积核对编码器中特征图执行卷积操作，并将输出特征图与分割解码器中上采样后的对应大小的特征图进行相加，以此来弥补编码器中下采样层带来的图像细节丢失的问题。所述的检测解码器基于回归的方法，对输入特征图进行处理，输出对应的目标检测结果。

B、多任务网络的训练方法

采用KITTI道路基准数据集和KITTI目标基准数据集对多任务网络进行训练和测试。采用MaxF1来评估网络的语义分割性能，采用平均精度得分来评估网络的目标检测性能。训练时的最大迭代次数设置为200000，每隔2000次迭代在验证集上测试网络的性能，在大约170000次迭代以后，网络开始收敛。训练结束后，采用数据集中的图片对网络进行测试，

本发明不局限于本实施例，任何在本发明披露的技术范围内的等同构思或者改变，均列为本发明的保护范围。

Claims

1.一种基于多任务网络的交通场景解析方法，其特征在于：包括以下步骤：

A、多任务网络结构设计

多任务网络包括编码器、分割解码器和检测解码器；所述的编码器包含卷积层和下采样层，所述的卷积层采用深度残差网络中的三层残差学习单元，用来从原始图像提取特征信息，得到特征图；所述的下采样层的卷积核大小为3×3、步长为2，用来缩小特征图的尺寸；在编码器的最后，包含一个空间金字塔池化层，用来提取特征图中不同尺度的信息；编码器输出的特征图作为分割解码器和检测解码器的输入；所述的分割解码器为多尺度结构，首先通过多级的双线性差值方法对输入特征图进行上采样，扩大特征图的尺寸，然后采用1×1卷积核对编码器中不同尺寸的特征图执行卷积操作，并将输出特征图与分割解码器中上采样后的对应大小的特征图进行相加，以此来弥补编码器中下采样层带来的图像细节丢失的问题；所述的检测解码器基于回归的方法，对输入特征图进行处理，输出对应的目标检测结果；

B、多任务网络的训练

使用深度学习框架Tensorflow对上述多任务网络进行配置、训练和测试；网络训练的目标函数定义为分割解码器和检测解码器的损失函数之和，采用交叉熵损失函数作为分割解码器的损失函数，且仅利用分割解码器最后一层输出的特征图来计算损失值，公式如下：

式中，L_S是损失值，q是标签，p是预测值，C是类别数量，N是训练批次中的样本数量，i表示第i个类别；检测解码器的损失函数定义为置信度的交叉熵损失函数和边界框坐标的L1损失函数的总和，公式如下：

式中(x，y)是边界框的中心点坐标，L_b是损失值，q是标签，p是预测值，N是一个训练批次中的样本数量，w和h分别是边界框的高和宽，i表示第i个类别；

在反向传播阶段，利用适应性阶梯算法即Adam优化器对多任务网络权重进行优化；Adam优化器是一种基于梯度下降的方法，使用梯度一阶矩估计和二阶矩估计来动态调整每个参数的学习速率；训练时，采用小批量梯度下降的方法，小批量值设置为3-5，学习率设置为0.00005-0.00015；采用L2正则化方法，正则化系数设置为0.0003-0.0007；