CN111611919A

CN111611919A - 一种基于结构化学习的道路场景布局分析方法

Info

Publication number: CN111611919A
Application number: CN202010431561.2A
Authority: CN
Inventors: 李垚辰; 袁建; 董子坤; 王雨潇; 刘跃虎
Original assignee: XI'AN JIAOTONG UNIVERSITY SUZHOU ACADEMY
Current assignee: XI'AN JIAOTONG UNIVERSITY SUZHOU ACADEMY
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2020-09-01
Anticipated expiration: 2040-05-20
Also published as: CN111611919B

Abstract

一种基于结构化学***台分类进行标注和预处理；对图像进行子区域分割，先对图像进行超像素分割，用超像素的特征和标签训练增强决策树回归器，得到初始分割结果，再用马尔科夫随机场优化初始分割结果得到最终分割结果；然后在子区域上提取特征，用子区域特征和隐变量标签训练SVM分类器，预测出每张图片子区域隐变量的组合；最后用子区域隐变量的组合和场景平台标签的对应关系构建决策树，通过决策树找到这组标签最终对应的场景平台的标签；本发明基于简单道路交通场景环境的道路场景图片和视频，能够有效实现交通场景平台的预测，预测效果较准确，方法简单有效。

Description

一种基于结构化学习的道路场景布局分析方法

技术领域

本发明属于图像处理、计算机视觉及模式识别领域，具体涉及一种基于结构化学习的道路场景布局分析方法。

背景技术

交通场景的布局估计在无人驾驶领域具有极为重要的应用。在一些实际应用中，如道路场景的三维重建等问题中都具有广泛的应用前景。常见的交通场景布局估计方法是基于概率图模型推断和基于卷积神经网络的预测。但是基于概率图模型推断的方法比如Geiger等提出的方法(参考Geiger的方法：Geiger A,Lauer M,Wojek C,et al.3D TrafficScene Understanding From Movable Platforms[J].IEEE Transactions on PatternAnalysis and Machine Intelligence,2014,36(5):1012-1025.)，将图片中的信息按像素为单位处理，提取图片中的车辆轨迹、消失点、场景流等信息，构建概率图模型，用计算条件概率的方法推断出场景中包含的几何语义标签，从而确定场景的布局。但是这种方法计算量较大，不易处理；基于卷积神经网络的预测方法，比如FANG-YU等提出的方法(参考FANG-YU的方法：F.-Y.Wu,S.-Y.Yan,J.S.Smith,and B.-L.Zhang,“Traffic scene recognitionbased on deep CNN and VLAD spatial pyramids,”in Machine Learning andCybernetics(ICMLC),2017International Conference on,vol.1,pp.156–161,IEEE,2017.)，用CNN提取region proposal算法生成的一些image patches的特征，并用PCA降维，之后用VLAD编码，再放入SVM分类器中进行分类，最终可以把交通场景分为10类。但是这种方法步骤复杂，计算量也比较大。

发明内容

为了解决上述现有技术存在的问题，本发明的目的在于提供一种基于结构化学习的道路场景布局分析方法。

为了达到上述目的，本发明采用如下的技术方案：

一种基于结构化学习的道路场景布局分析方法，包括以下步骤：

步骤1：采集交通场景图像，形成交通场景图像数据集，对交通场景图像数据集按场景平台分类进行标注和预处理；

步骤2：对标注和预处理之后的图像基于有监督训练和图模型优化进行子区域分割，得到子区域的分割结果；

步骤3：用隐变量对分割结果中的子区域的子主题进行建模，并采用带有N个松弛变量的切平面结构化SVM方法训练分类器，不断迭代更新权重，直到损失函数的值最小时，停止训练，得到分类器的最优化参数，利用分类器的最优化参数推断隐变量标签，得到子区域隐变量；

步骤4：采用CART算法构建决策树，推断子区域隐变量标签组合对应的场景平台标签。

本发明进一步的改进在于，步骤1中，标注和预处理的具体过程为：为交通场景图像数据集中的每个像素标注一个子区域标签，对标注后的数据集进行数据清洗，筛除掉标注有缺漏的数据，然后将图片尺寸重设为256×256。

本发明进一步的改进在于，步骤2的具体过程为：将标注和预处理之后的的交通场景图像数据集分为训练集和测试集，对训练集中的所有图像进行超像素分割并提取每个超像素的特征，然后利用子区域标签和提取到的超像素的特征，训练提升决策树回归器，回归器的输出为初始分割结果，最后对初始分割结果构建马尔科夫随机场进行优化，得到子区域的分割结果。

本发明进一步的改进在于，每个超像素的特征包括sift特征、颜色的RGB均值和方差、外观的GIST特征和位置特征；

对初始分割结果构建马尔科夫随机场进行优化，得到子区域的分割结果的具体过程为：最小化能量函数J(c)：

其中，SP是超像素的集合，s_i是第i个超像素，c_i是第i个超像素对应的子区域类别标签；s_j是第j个超像素，c_j是第j个超像素对应的子区域类别标签；A是相邻超像素对的集合，s_i和s_j是相邻超像素对的集合A中的一个相邻超像素对；E_data和E_smooth分别是数据项和平滑项，λ是平滑项的权重。

本发明进一步的改进在于，数据项E_data和平滑项E_smooth的具体形式为：

E_data＝-w_iσ(L(s_i,c_i)) (2)

E_smooth(c_i,c_j)＝-log[(P(c_i|c_j)+P(c_j|c_i))/2]×δ[c_i≠c_j] (3)

数据项中L(s_i,c_i)是第i个超像素属于子区域c_i的似然比值，σ是sigmoid函数，w_i是第i个超像素的权重；δ是事件函数。

本发明进一步的改进在于，平滑项中P(c_i|c_j)是某个超像素属于子区域c_i时，相邻超像素属于子区域c_j的条件概率；当满足条件c_i≠c_j时事件函数δ为1，当不满足条件c_i≠c_j时事件函数δ为0。

本发明进一步的改进在于，步骤3的具体过程如下：首先，用隐变量对分割结果中的子区域的子主题进行建模，然后，采用带有N个松弛变量的切平面结构化SVM方法训练分类器，不断迭代更新权重，直到损失函数的值最小时，停止训练，得到分类器的最优化参数。

本发明进一步的改进在于，步骤3的具体过程如下：训练SVM分类器时，输入提取的子区域的特征向量x_i和隐变量标签z_i进行有监督的训练；其中，提取的子区域的特征包括HOG、Gabor、LBP与RGB，损失函数定义如下：

ξ_i≥Δ(z_i,z)+F(z,x_i；ω)-F(z_i,x_i；ω)

其中，ξ是松弛变量，ω是权重，λ是惩罚参数，x_i是一个L维的特征向量，z_i是第i个样本的隐变量标签，z是隐变量标签集合中包含的所有标签，Δ(z_i,z)是第i个样本的隐变量标签和隐变量标签集合中某个标签之间的距离值，F是目标函数，定义如下：

其中，x_i是一个L维的特征向量，ω是权重，φ(x_i,z_i)为特征映射函数，M是子区域样本个数；特征映射函数φ(x_i,z_i)的形式形如：

其中，

是φ(x_i,z_i)中的一段非零向量，

的值与x_i的值相同，且在φ(x_i,z_i)的第z_i个位置；ω^*为使损失函数最小的最优化参数。

本发明进一步的改进在于，推断隐变量标签时，穷举隐变量标签z，求得使目标函数F(x,z；ω)最大的隐变量标签z^*作为推断结果：

z^*＝argmax_z∈Z F(x,z；ω^*) (7)

其中，ω^*是使损失函数最小的最优化参数，Z是隐变量标签的集合。

本发明进一步的改进在于，步骤4的具体过程如下：根据场景布局和结构定义14个场景平台的标签，并找出与每一类场景平台相关的隐变量组合z^*为数据；采用CART算法构建决策树，向决策树中输入一组隐变量标签，通过决策树即可找到这组隐变量标签最终对应的场景平台标签。

本发明和现有技术相比较，具有如下有益效果：

本发明首先采集和扩充交通场景图像数据集，并且对数据集按场景平台分类进行标注和预处理；其次对图像进行超像素分割，用超像素的特征和标签训练增强决策树回归器，对图像进行子区域分割，再用马尔科夫随机场优化初始分割结果得到最终分割结果；然后在分割好的子区域上提取特征，用子区域特征和人为定义的隐变量标签训练SVM分类器，预测出每张图片子区域隐变量的组合；最后用子区域隐变量的组合和场景平台标签的对应关系构建决策树，通过决策树可以简单方便的找到一组子区域隐变量的标签对应的场景平台的标签。本发明准确率高，简单有效。使用本发明进行图像子区域分割时，相比于已有方法，如无监督聚类法等，本发明利用图像的底层特征进行有监督训练，并用图模型优化结果，因此结果更加精确。使用本发明进行场景平台预测时，相较于基于神经网络分析图片布局和结构的方法，本发明利用隐变量对子区域的子主题进行建模，提取底层特征，自底向上挖掘图像各部分的高级语义，弥补了整体表示可能无法模拟一张图片的不足，无需复杂的网络结构，且训练所需的消耗更小，置信度更高；另一方面，利用决策树推断隐变量组合对应的场景平台标签，相较于有监督训练法，构建决策树的计算量比较小，且在输入的隐变量组合预测正确的情况下，推断准确率可达到100％。

附图说明

图1为道路场景平台示意图。

图2为道路图像分割原理图。

图3为道路场景平台推断示意图。

图4为多种SVM模型试验对比图。

图5为道路场景平台决策树。

具体实施方式

下面结合附图和具体实施方式，对本发明做详细描述。

本发明具体方法如下：

步骤1：采集交通场景图像，形成交通场景图像数据集，并且对交通场景图像数据集按场景平台分类进行标注和预处理；标注和预处理的具体过程为：为交通场景图像数据集中的每个像素标注一个子区域标签，对标注后的数据集进行数据清洗，筛除掉标注有缺漏的数据，然后将图片尺寸重设为256×256。

步骤2：对重设之后的图像进行子区域分割：本发明是基于有监督训练和图模型优化对图像进行子区域分割，得到子区域的分割结果；具体过程如下：

将图像重设之后的交通场景图像数据集分为训练集和测试集，对训练集中的所有图像进行超像素分割并提取每个超像素的特征，提取的特征包括sift特征、颜色的RGB均值和方差、外观的GIST特征和位置特征。然后利用子区域标签和提取到的超像素的特征，训练提升决策树回归器，回归器的输出为初始分割结果，即每个超像素属于每个子区域类别的似然比，超像素属于似然比值最大的子区域。

最后对初始分割结果构建马尔科夫随机场进行优化，得到最终分割结果，即子区域的分割结果，具体过程为：最小化如下能量函数J(c)：

其中，其中，SP是超像素的集合，s_i是第i个超像素，c_i是第i个超像素对应的子区域类别标签；s_j是第j个超像素，c_j是第j个超像素对应的子区域类别标签；A是相邻超像素对的集合，s_i和s_j是相邻超像素对的集合A中的一个相邻超像素对；，λ是平滑项的权重，E_data和E_smooth分别是数据项和平滑项。具体形式为：

E_data＝-w_iσ(L(s_i,c_i)) (2)

E_smooth(c_i,c_j)＝-log[(P(c_i|c_j)+P(c_j|c_i))/2]×δ[c_i≠c_j] (3)

数据项中L(s_i,c_i)是第i个超像素属于子区域c_i的似然比值，σ是sigmoid函数，w_i是第i个超像素的权重；平滑项中P(c_i|c_j)是某个超像素属于子区域c_i时，相邻超像素属于子区域c_j的条件概率，反之同理；δ是事件函数，当满足条件c_i≠c_j时为1，反之为0。

步骤3：预测子区域隐变量：用隐变量对分割结果中的子区域的子主题进行建模，并采用带有N个松弛变量的切平面结构化SVM方法训练分类器，不断迭代更新权重，直到损失函数的值最小时，停止训练，得到分类器的最优化参数，利用分类器的最优化参数推断隐变量标签，得到子区域隐变量。具体过程如下：

首先，用隐变量对分割结果中的子区域的子主题进行建模，具体过程为：用K个数值代表子区域的子主题对应的隐变量标签z，则z形如z∈{1,2,...,k,...,K}。隐变量可以表示天空、道路、左树木、右树木等子主题。

然后，采用带有N个松弛变量的切平面结构化SVM方法训练分类器，不断迭代更新权重，直到损失函数的值最小时，停止训练，得到分类器的最优化参数，具体过程如下：

在训练SVM分类器时，输入提取的子区域的特征向量x_i和隐变量标签z_i进行有监督的训练。其中，提取的子区域的特征包括HOG、Gabor、LBP与RGB等。采用带有N个松弛变量的切平面结构化SVM方法训练分类器，损失函数定义如下：

ξ_i≥Δ(z_i,z)+F(z,x_i；ω)-F(z_i,x_i；ω)

其中，x_i是一个L维的特征向量，ω是权重，权重ω是一个C×L维的向量矩阵，φ(x_i,z_i)为特征映射函数，M是子区域样本个数。特征映射函数φ(x_i,z_i)的形式形如：

其中，

是φ(x_i,z_i)中的一段非零向量，其值与x_i的值相同，且在φ(x_i,z_i)的第z个位置，可知权重ω与特征映射函数φ(x_i,z_i)的乘积为一个常数。ω^*为使损失函数最小的最优化参数。通过梯度下降法不断迭代，求得使损失函数最小的权重ω^*。

在推断隐变量标签时，穷举隐变量标签z，求得使目标函数F(x,z；ω)最大的隐变量标签z^*作为推断结果：

z^*＝argmax_z∈Z F(x,z；ω^*) (7)

步骤4：预测场景平台标签：采用CART算法构建决策树，推断子区域隐变量标签组合对应的场景平台标签y。具体过程如下：

根据场景布局和结构定义出14个场景平台的标签，并找出与每一类场景平台相关的隐变量组合作为数据；采用CART算法构建决策树，该算法以基尼指数来度量属性的选择，选择基尼指数最小的属性进行***，对两个子节点递归的调用计算基尼指数和***的过程，直到数据已经没有新的属性可再分并且没有未处理的数据，完成构建。向决策树中输入一组子区域隐变量标签，通过决策树即可找到这组隐变量标签最终对应的场景平台标签y。

相比于已有的基于基于概率图模型推断的方法，和相比于基于卷积神经网络的预测方法，本算法预测准确率高，能有效生成交通场景的整体模型，计算量较小，方法简单有效。

本发明算法的框架基于SSVM和决策树实现。实验数据选取了不同场景下1000张图片作为数据集，以7:3的比例将单幅道路图像数据集拆分为训练集与测试集。图1中，展示了6种场景平台，包括真实场景及其对应的场景线框模型，根据图像内容将道路划分为“背景”、“左墙”、“右墙”、“地面”、“天空”等区域，用四角星填充的面片表示“背景”，五角星填充的面片表示“左墙”，菱形填充的面片表示“右墙”，圆形填充的面片表示“地面”，直线填充的面片表示“天空”。

图2展示了道路图像分割原理，流程可分为分类和优化两个步骤。

图3展示了道路场景平台推断过程，整个流程分为由子区域特征预测子区域隐变量和由隐变量组合预测场景平台标签。

图4展示了在预测子区域隐变量时，使用带有N个松弛变量的切平面结构化SVM方法训练分类器与单个松弛变量的Structured SVM模型、LibSVM模型、SubgradientStructured SVM模型、Frankwolf Block Structured SVM模型、Frankwolf BatchStructured SVM模型提取RGB特征、HOG特征、Gabor特征、LBP特征的实验对比。可以看到本文所使用的N个松弛变量的Structured SVM模型在不同的特征下均有良好的精度。

图5展示了在预测场景平台标签时，根据CART算法构建的决策树。

将本发明的算法与卷积神经网络进行比较，如表1所示，比较的数据来源于不同场景下的1000张图片，以7:3的比例将单幅道路图像数据集拆分为训练集与测试集。将本发明的算法与AlexNet、VGG16、ResNet_101三种神经网络模型进行比较，定量评估的标准为准确率、精确率、召回率和F1分数。比较的结果说明了本发明算法有更高的分类准确率。

表1场景平台分类结果的定量评估

本发明基于简单道路交通场景环境的道路场景图片和视频，能够有效实现交通场景平台的预测，预测效果较准确，方法简单有效。

Claims

1.一种基于结构化学习的道路场景布局分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于结构化学习的道路场景布局分析方法，其特征在于，步骤1中，标注和预处理的具体过程为：为交通场景图像数据集中的每个像素标注一个子区域标签，对标注后的数据集进行数据清洗，筛除掉标注有缺漏的数据，然后将图片尺寸重设为256×256。

3.根据权利要求1所述的一种基于结构化学习的道路场景布局分析方法，其特征在于，步骤2的具体过程为：将标注和预处理之后的的交通场景图像数据集分为训练集和测试集，对训练集中的所有图像进行超像素分割并提取每个超像素的特征，然后利用子区域标签和提取到的超像素的特征，训练提升决策树回归器，回归器的输出为初始分割结果，最后对初始分割结果构建马尔科夫随机场进行优化，得到子区域的分割结果。

4.根据权利要求3所述的一种基于结构化学习的道路场景布局分析方法，其特征在于，每个超像素的特征包括sift特征、颜色的RGB均值和方差、外观的GIST特征和位置特征；

5.根据权利要求4所述的一种基于结构化学***滑项E_smooth的具体形式为：

E_data＝-w_iσ(L(s_i,c_i)) (2)

E_smooth(c_i,c_j)＝-log[(P(c_i|c_j)+P(c_j|c_i))/2]×δ[c_i≠c_j] (3)

6.根据权利要求5所述的一种基于结构化学***滑项中P(c_i|c_j)是某个超像素属于子区域c_i时，相邻超像素属于子区域c_j的条件概率；当满足条件c_i≠c_j时事件函数δ为1，当不满足条件c_i≠c_j时事件函数δ为0。

7.根据权利要求1所述的一种基于结构化学***面结构化SVM方法训练分类器，不断迭代更新权重，直到损失函数的值最小时，停止训练，得到分类器的最优化参数。

8.根据权利要求1所述的一种基于结构化学习的道路场景布局分析方法，其特征在于，步骤3的具体过程如下：训练SVM分类器时，输入提取的子区域的特征向量x_i和隐变量标签z_i进行有监督的训练；其中，提取的子区域的特征包括HOG、Gabor、LBP与RGB，损失函数定义如下：

ξ_i≥Δ(z_i,z)+F(z,x_i；ω)-F(z_i,x_i；ω)

其中，

是φ(x_i,z_i)中的一段非零向量，

9.根据权利要求8所述的一种基于结构化学习的道路场景布局分析方法，其特征在于，推断隐变量标签时，穷举隐变量标签z，求得使目标函数F(x,z；ω)最大的隐变量标签z^*作为推断结果：

z^*＝arg max_z∈ZF(x,z；ω^*) (7)

10.根据权利要求1所述的一种基于结构化学***台的标签，并找出与每一类场景平台相关的隐变量组合z^*为数据；采用CART算法构建决策树，向决策树中输入一组隐变量标签，通过决策树即可找到这组隐变量标签最终对应的场景平台标签。