CN105956532B

CN105956532B - 一种基于多尺度卷积神经网络的交通场景分类方法

Info

Publication number: CN105956532B
Application number: CN201610261849.3A
Authority: CN
Inventors: 李琳辉; 连静; 李红挪; 刘爽; 钱波; 周雅夫; 孙延秋; 矫翔
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2019-05-21
Anticipated expiration: 2036-04-25
Also published as: CN105956532A

Abstract

本发明公开了一种交通场景多目标分类方法，包括以下步骤：提取基于多尺度卷积神经网络的隐性特征；获取最优覆盖分割树。本发明在实现交通场景分类的过程中，采用多尺度卷积神经网络，通过对原始图像在不同尺度上有效提取具有不变性的优秀隐性特征，相比于单一尺度的卷积神经网络，实现了图像更加丰富有效特征信息的获取。本发明通过将卷积神经网络提取的有效信息与图像的原始分割树结合，形成最优纯度代价树，并进行最优纯度的覆盖，实现了获得更加清晰的目标轮廓，增加了分类的准确性。本发明通过将RGB‑D作为卷积神经网络输入，相比传统RGB卷积神经网络输入，训练的特征增加了深度信息，实现了输入图像更加精确的分类。

Description

一种基于多尺度卷积神经网络的交通场景分类方法

技术领域

本发明属于车辆智能交通领域，特别是一种城郊区道路交通场景分类方法。

背景技术

车辆智能化是当今汽车工业发展的三大核心科技之一，对道路交通场景的分类是提高智能车辆和高级辅助驾驶***(ADAS)智能化程度的重要前提和基础。

交通场景分类是指基于车载摄像机拍摄交通场景图像，采用不同的机器学习方法，模拟人类的视觉感知过程，实现对所拍摄视景内车辆、行人、道路、环境元素进行分类标记。目前，按照机器学习模型层次结构的深度不同，可以将交通场景的分类方法分为基于浅层学习的方法和基于深度学习的方法两种。浅层学习有限的模型复杂度和表达能力难以应对交通场景的多目标分类问题。随着分类复杂度的增加，需要的参数和样本巨大，会导致浅层学习模型的学习结构效率低下，难以实现。此外，显性特征的确定及提取需要以丰富的专家经验为基础。深度学习方法能够直接作用于原始图像数据，能够提取反映数据本质的隐性特征，具有足够的模型复杂度，可以实现交通场景中多目标分类，但深度学习方法的模型结构多样，仍存在很大的发展与优化空间，在现有的深度学习方法中分类图像的轮廓清晰度和准确性需要提高。因此，需要设计一种能够提高分类图像轮廓清晰度和准确性的交通场景多目标分类方法。

发明内容

为解决现有技术存在的上述问题，本发明要设计一种能够提高分类图像轮廓清晰度和准确性的交通场景多目标分类方法。

为了实现上述目的，本发明的技术方案如下：一种基于多尺度卷积神经网络的交通场景分类方法，包括以下步骤：

A、提取基于多尺度卷积神经网络的隐性特征

A1、基于车载RGB-D相机，获取车辆前方交通场景的RGB-D图像，即彩色图和深度图，形成四通道拉普拉斯金字塔图像作为深度学习算法的数据输入；同时，基于图像最小生成树分割，利用经典的区域融合方法，以交通场景中RGB-D图像为输入，构造具有层级结构的原始分割树。

A2、为有效提取并融合四通道拉普拉斯金字塔图像不同尺度上的有效信息，处理四通道拉普拉斯金字塔图像的卷积神经网络模型为多尺度结构，四通道拉普拉斯金字塔图像在多尺度卷积神经网络模型中以金字塔的形式存储。每一个比例的四通道拉普拉斯金字塔图像层建立一个与其他尺度图像共享权重参数的多级卷积神经网络，每级卷积神经网络包含卷积层及特征池化层，经过卷积和池化过程，获得卷积神经网络的多尺度特征图。

对同一个尺度上的卷积神经网络：卷积过程中，每个特征图只有一个卷积核与之对应并与之进行卷积运算，前一层特征图通过一个可训练卷积核进行卷积，其结果再通过一个激活函数形成下一层特征图；池化过程中，池化层中的每个特征图都分别和卷积层中的特征图一一对应，通过感受野对卷积层进行抽样，选取局部感受野中值最大的点。

对不同尺度上的卷积神经网络，在每一个尺度上相对应的卷积层中使用相同的卷积核，相对应的池化层中使用相同的池化函数，并且使用相同的权重参数。大尺度的特征图反应原始图像的细节，即局部信息，小尺度的特征图反应原始图像各部分整体信息。设F₁、F₂...F_N分别代表不同尺度卷积神经网络经过卷积、池化后的特征图，其中，F₁的大小即为原始图像的大小。其公式如下式：

f_S(X_S,θ_S)＝W_LH_L-1 s＝1,2,...,N

H_l＝pool(tanh(W_lH_l-1+b_l)) l＝1,2,...,L

其中，f_S是尺度为s的卷积神经网络，X_S是尺度为s的四通道拉普拉斯金字塔输入图像，θ_S是尺度为s的卷积神经网络模型参数，N为多尺度卷积神经网络总的尺度数量，L为卷积神经网络的总层数，l表示卷积神经网络的第l层，W_L为最后一层第L层的Toeplitz矩阵，H_L-1为第L-1层的特征图，W_l为第l层Toeplitz矩阵，H_l为第l层的特征图，pool为池化操作，tanh为激活函数，b_l为偏置。

A3、对卷积池化后与F₁不同尺度的特征图F₂,F₃,...,F_N进行上采样，使不同尺度上卷积池化后的特征图像大小变为与F₁具有相同尺寸的上采样操作输出特征图，形成包含不同尺度上有效信息且尺度相同的特征图集合F。其公式如下式：

F＝[F₁，u(F₂),...,u(F_N)]

其中，F为N个尺度上采样操作后的特征图集合，F_s为多尺度卷积神经网络经卷积池化后尺度为s的未进行上采样操作的特征图，尺度s的取值范围为s＝1,2,...,N，u为上采样函数。

A4、基于卷积神经网络上采样操作输出的包含不同尺度上有效信息的特征图集合，对每一个分割树节点对应原始图像位置的特征向量，使用最大池化函数对其进行特征聚合，生成每个节点对应的聚合特征向量组。

B、获取最优覆盖分割树

B1、将交通场景图像中的物体分为七类：第一类为车辆，第二类为行人，第三类为道路，第四类为交通标志，第五类为建筑物，第六类为天空，第七类为树木。采用神经网络分类器进行聚合特征向量组的分类，获得每个节点的类别分布。其中神经网络分类器是一个两层的神经网络模型，输入为聚合特征向量组，输出为分割树节点代表原始图像中所属类别，神经网络分类器模型的网络参数通过神经网络分类器训练获得。

同时，定义类别分布混乱度函数作为覆盖该节点的纯度代价函数，得出覆盖该节点的代价值，代价值越小，表明该节点的纯度越高，越倾向于将该节点覆盖。至此，构造出分类纯度代价树。

分类纯度代价函数公式如下：

k_i＝argmin(Z_i) i＝1,2,...,M

其中，Z_i为分割树第i个节点的类别分布代价值，k_i为反映分割树第i个节点类别的指标，argmin()为函数获得使k_i最小的Z_i的值，M为分割树的节点个数。

B2、从分类纯度代价树的每个叶子节点出发，寻找其至根节点路径中使纯度代价函数最优的节点，由这些最优节点组成的集合将形成涵盖整幅原始图像的最优覆盖分割树，实现轮廓清晰的交通场景多目标分类。

与现有技术相比，本发明具有以下有益效果：

1、本发明在实现交通场景分类的过程中，采用多尺度卷积神经网络，通过对原始图像在不同尺度上有效提取具有不变性的优秀隐性特征，相比于单一尺度的卷积神经网络，实现了图像更加丰富有效特征信息的获取。

2、本发明通过将卷积神经网络提取的有效信息与图像的原始分割树结合，形成最优纯度代价树，并进行最优纯度的覆盖，实现了获得更加清晰的目标轮廓，增加了分类的准确性。

3、本发明通过将RGB-D作为卷积神经网络输入，相比传统RGB卷积神经网络输入，训练的特征增加了深度信息，卷积神经网络的训练效果更加明显，实现了输入图像更加精确的分类。

附图说明

本发明共有附图2张，其中：

图1是基于多尺度卷积神经网络及最优覆盖分割树的交通场景分类方法流程图。

图2是基于多尺度卷积神经网络及最优覆盖分割树的交通场景分类方法实例图。

图中：1、彩色图，2、深度图，3、原始分割树，4、四通道拉普拉斯金字塔，5、多尺度特征图，6、聚合特征向量组，7、神经网络分类器，8、分类纯度代价树，9、最优覆盖分割树。

具体实施方式

以下结合附图对本发明作进一步地说明。

如图1所示，本发明的具体实施方式包括以下步骤：

A、提取基于多尺度卷积神经网络的隐性特征

A1、基于车载RGB-D相机，获取车辆前方交通场景的RGB-D图像，即彩色图1和深度图2，形成四通道拉普拉斯金字塔图像4作为深度学习算法的数据输入；同时，基于图像最小生成树分割，利用经典的区域融合方法，以交通场景中RGB-D图像为输入，构造具有层级结构的原始分割树3。其中，原始分割树3中的每个节点都对应于一个原始分类图像区域，根节点C₁₀代表整幅原始分类图像，叶节点C₁、C₂、C₃、C₄、C₅代表原始分类图像被分割的最小区域。

A2、为有效提取并融合四通道拉普拉斯金字塔图像4不同尺度上的有效信息，处理四通道拉普拉斯金字塔图像4的卷积神经网络模型为多尺度结构，四通道拉普拉斯金字塔图像4在多尺度卷积神经网络模型中以金字塔的形式存储。每一个比例的四通道拉普拉斯金字塔图像层建立一个与其他尺度图像共享权重参数的多级卷积神经网络，每级卷积神经网络包含卷积层及特征池化层，经过卷积和池化过程，获得卷积神经网络的多尺度特征图5。

对不同尺度上的卷积神经网络，在每一个尺度上相对应的卷积层中使用相同的卷积核，相对应的池化层中使用相同的池化函数，并且使用相同的权重参数。大尺度的特征图反应原始图像的细节，即局部信息，小尺度的特征图反应原始图像各部分整体信息。图2中所采用的卷积神经网络是一个三尺度卷积神经网络，其中，F₁、F₂、F₃分别代表不同尺度卷积神经网络经过卷积、池化后的特征图，F₁的大小即为原始图像的大小。其公式如下式：

f_S(X_S,θ_S)＝W_LH_L-1 s＝1,2,...,N

H_l＝pool(tanh(W_lH_l-1+b_l)) l＝1,2,...,L

其中，f_S是尺度为s的卷积神经网络，X_S是尺度为s的拉普拉斯金字塔输入图像，θ_S是尺度为s的卷积神经网络模型参数，N为多尺度卷积神经网络总的尺度数量，L为卷积神经网络的总层数，l表示卷积神经网络的第l层，W_L为最后一层第L层的Toeplitz矩阵，H_L-1为第L-1层的特征图，W_l为第l层Toeplitz矩阵，H_l为第l层的特征图，pool为池化操作，tanh为激活函数，b_l为偏置。

A3、对卷积池化后与F₁不同尺度的特征图F₂,F₃,...,F_N进行上采样，使不同尺度上卷积池化后的特征图像大小变为与F₁具有相同尺寸的上采样操作输出特征图，形成包含不同尺度上有效信息且尺度相同的特征图集合F，如图2中5所示。其公式如下式：

F＝[F₁，u(F₂),...,u(F_N)]

A4、基于卷积神经网络上采样操作输出的包含不同尺度上有效信息的特征图集合，对每一个分割树节点对应原始图像位置的特征向量，使用最大池化函数对其进行特征聚合，生成每个节点对应的聚合特征向量组6。

B、获取最优覆盖分割树

B1、将交通场景图像中的物体分为七类：第一类为车辆，第二类为行人，第三类为道路，第四类为交通标志，第五类为建筑物，第六类为天空，第七类为树木。采用神经网络分类器7进行聚合特征向量组6的分类，获得每个节点的类别分布。其中神经网络分类器7是一个两层的神经网络模型，输入为聚合特征向量组6，输出为原始分割树3节点代表原始图像中所属类别，神经网络分类器模型的网络参数通过神经网络分类器训练获得。

同时，定义类别分布混乱度函数作为覆盖该节点的纯度代价函数，得出覆盖该节点的代价值，代价值越小，表明该节点的纯度越高，越倾向于将该节点覆盖。至此，构造出分类纯度代价树8。

分类纯度代价函数公式如下：

k_i＝argmin(Z_i) i＝1,2,...,M

B2、从分类纯度代价树8的每个叶子节点出发，寻找其至根节点路径中使纯度代价函数最优的节点，由这些最优节点组成的集合将形成涵盖整幅原始图像的最优覆盖分割树9，实现轮廓清晰的交通场景多目标分类。

图2中最优节点Z₂、Z₅、Z₆、Z₇、Z₈被覆盖，最终形成了轮廓清晰的交通场景分类。

Claims

1.一种基于多尺度卷积神经网络的交通场景分类方法，其特征在于：包括以下步骤：

A、提取基于多尺度卷积神经网络的隐性特征

A1、基于车载RGB-D相机，获取车辆前方交通场景的RGB-D图像，即彩色图(1)和深度图(2)，形成四通道拉普拉斯金字塔(4)图像作为深度学习算法的数据输入；同时，基于图像最小生成树分割，利用经典的区域融合方法，以交通场景中RGB-D图像为输入，构造具有层级结构的原始分割树(3)；

A2、为有效提取并融合四通道拉普拉斯金字塔(4)图像不同尺度上的有效信息，处理四通道拉普拉斯金字塔(4)图像的卷积神经网络模型为多尺度结构，四通道拉普拉斯金字塔(4)图像在多尺度卷积神经网络模型中以金字塔的形式存储；每一个比例的四通道拉普拉斯金字塔(4)图像层建立一个与其他尺度图像共享权重参数的多级卷积神经网络，每级卷积神经网络包含卷积层及特征池化层，经过卷积和池化过程，获得卷积神经网络的多尺度特征图(5)；

对同一个尺度上的卷积神经网络：卷积过程中，每个特征图只有一个卷积核与之对应并与之进行卷积运算，前一层特征图通过一个可训练卷积核进行卷积，其结果再通过一个激活函数形成下一层特征图；池化过程中，池化层中的每个特征图都分别和卷积层中的特征图一一对应，通过感受野对卷积层进行抽样，选取局部感受野中值最大的点；

对不同尺度上的卷积神经网络，在每一个尺度上相对应的卷积层中使用相同的卷积核，相对应的池化层中使用相同的池化函数，并且使用相同的权重参数；大尺度的特征图反应原始图像的细节，即局部信息，小尺度的特征图反应原始图像各部分整体信息；设F₁、F₂...F_N分别代表不同尺度卷积神经网络经过卷积、池化后的特征图，其中，F₁的大小即为原始图像的大小；其公式如下式：

f_S(X_S,θ_S)＝W_LH_L-1 s＝1,2,...,N

H_l＝pool(tanh(W_lH_l-1+b_l)) l＝1,2,...,L

其中，f_S是尺度为s的卷积神经网络，X_S是尺度为s的四通道拉普拉斯金字塔(4)输入图像，θ_S是尺度为s的卷积神经网络模型参数，N为多尺度卷积神经网络总的尺度数量，L为卷积神经网络的总层数，l表示卷积神经网络的第l层，W_L为最后一层第L层的Toeplitz矩阵，H_L-1为第L-1层的特征图，W_l为第l层Toeplitz矩阵，H_l为第l层的特征图，pool为池化操作，tanh为激活函数，b_l为偏置；

A3、对卷积池化后与F₁不同尺度的特征图F₂,F₃,...,F_N进行上采样，使不同尺度上卷积池化后的特征图像大小变为与F₁具有相同尺寸的上采样操作输出特征图，形成包含不同尺度上有效信息且尺度相同的特征图集合F；其公式如下式：

F＝[F₁，u(F₂),...,u(F_N)]

其中，F为N个尺度上采样操作后的特征图集合，F_s为多尺度卷积神经网络经卷积池化后尺度为s的未进行上采样操作的特征图，尺度s的取值范围为s＝1,2,...,N，u为上采样函数；

A4、基于卷积神经网络上采样操作输出的包含不同尺度上有效信息的特征图集合，对每一个分割树节点对应原始图像位置的特征向量，使用最大池化函数对其进行特征聚合，生成每个节点对应的聚合特征向量组(6)；

B、获取最优覆盖分割树(9)

B1、将交通场景图像中的物体分为七类：第一类为车辆，第二类为行人，第三类为道路，第四类为交通标志，第五类为建筑物，第六类为天空，第七类为树木；采用神经网络分类器(7)进行聚合特征向量组(6)的分类，获得每个节点的类别分布；其中神经网络分类器(7)是一个两层的神经网络模型，输入为聚合特征向量组(6)，输出为分割树节点代表原始图像中所属类别，神经网络分类器(7)模型的网络参数通过神经网络分类器(7)训练获得；

同时，定义类别分布混乱度函数作为覆盖该节点的纯度代价函数，得出覆盖该节点的代价值，代价值越小，表明该节点的纯度越高，越倾向于将该节点覆盖；至此，构造出分类纯度代价树(8)；

分类纯度代价函数公式如下：

k_i＝argmin(Z_i)i＝1,2,...,M

其中，Z_i为分割树第i个节点的类别分布代价值，k_i为反映分割树第i个节点类别的指标，argmin()为函数获得使k_i最小的Z_i的值，M为分割树的节点个数；

B2、从分类纯度代价树(8)的每个叶子节点出发，寻找其至根节点路径中使纯度代价函数最优的节点，由这些最优节点组成的集合将形成涵盖整幅原始图像的最优覆盖分割树(9)，实现轮廓清晰的交通场景多目标分类。