CN108876805A

CN108876805A - 一种端对端无监督场景可通行区域认知与理解方法

Info

Publication number: CN108876805A
Application number: CN201810636311.5A
Authority: CN
Inventors: 赵祥模; 刘占文; 樊星; 高涛; 董鸣; 沈超; 王润民; 连心雨; 徐江; 张凡
Original assignee: Changan University
Current assignee: Shaanxi Heavy Duty Automobile Co Ltd
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-11-23
Anticipated expiration: 2038-06-20
Also published as: CN108876805B

Abstract

本发明公开了一种端到端无监督场景路面区域确定方法，通过构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中，构建一种融合位置先验特征的卷积网络框架，然后结合全卷积网络和U‑NET构建深度网络架构—UC‑FCN网络，将构建的可通行区域位置先验概率分布图作为深度网络架构‑UC‑FCN网络的一种特征图映射，生成UC‑FCN‑L网络；基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC‑FCN‑L网络进行训练，得到用于可行驶区域提取的深度网络模型，解决了可通行区域标签困难的问题，适用性强，可在多种道路环境下稳定工作，且实时性较好，本方法检测准确率高，适应性、实时性与鲁棒性好，方法简单有效。

Description

一种端对端无监督场景可通行区域认知与理解方法

技术领域

本发明属于交通控制技术领域，具体涉及一种基于视频数据集的端对端自监督场景可通行区域认知与理解方法。

背景技术

随着社会的发展，汽车已经成为人类日常生活不可替代的交通工具。然而，其带来的安全问题也日益突出。《全球道路安全状况报告》指出，由交通事故造成的死亡人数每年高达124万，而造成事故的主要原因是司机的疏忽与疲劳驾驶，为了缓解这种情况，汽车智能化技术的发展显得尤为重要，在基于计算机视觉的自动驾驶和高级辅助驾驶研究中，车辆前方可行驶区域的实时认知与理解是必不可少的环节，车辆的可行驶区域包括了结构化的路面、半结构化的路面、非结构化的路面。结构化的路面一般是有道路边缘线，路面结构单一，比如城市主干道，高速、国道、省道等；半结构化的路面是指一般的非标准化的路面，路面面层是颜色和材质差异较大，比如停车场，广场等，还有一些分支道路；非结构化的路面没有结构层，天然的道路场景。目前智能化汽车主要是结合雷达与摄像机进行可行驶区域的认知与理解，然而雷达(激光雷达、毫米波雷达、超声波雷达)通常成本较高，功耗较大且易产生相互干扰。

基于视觉的可行驶区域认知与理解方法主要是基于路面颜色、道路模型、路面纹理特征等获取路面的基本结构特征，通过这些特征进一步的获得灭点、道路边缘线、道路的基本方向(直走、左转、右转、左急转、右急转)等潜在信息，对这些特征使用传统的分割提取方法进行可行驶区域的最终提取，然而这种利用传统分割的方法往往效果不理想，可能会把部分车辆、行人等交通参与者提取到可行驶区域中，为智能汽车后一步的行进造成不良影响。

发明内容

本发明的目的在于提供一种端对端无监督场景可通行区域认知与理解方法，以克服现有技术的不足。

为达到上述目的，本发明采用如下技术方案：

一种端到端无监督场景路面区域确定方法，包括以下步骤：

步骤1)、构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中，从而构建位置先验信息在实际道路交通环境中能够灵活应用的可通行区域位置先验概率分布图；

步骤2)、结合全卷积网络和U-NET构建深度网络架构—UC-FCN网络，作为实现检测的主体网络模型；

步骤3)、将构建的可通行区域位置先验概率分布图作为深度网络架构-UC-FCN网络的一种特征图映射，获取最佳附加位置，直接附加到全卷积层最佳附加位置中，生成UC-FCN-L网络；

步骤4)、基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练，得到用于可行驶区域提取的深度网络模型。

进一步的，步骤1)中，利用道路区域在空间及图像中的分布规律，基于统计构建可通行区域位置先验概率分布图。

进一步的，步骤1)中基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，分别得到两种道路情况下的可通行区域位置先验概率分布图，再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合，得到可通行区域位置先验概率分布图。

进一步的，基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，统计每一个坐标位置被判定为可通行区域的次数并对其求均值，分别得到两种道路情况下的可通行区域位置先验概率分布图，在概率分布图中，每个像素点的亮度表示该像素点属于目标的概率，像素点的亮度越高，其属于目标的概率越大；反之，亮度越低，其属于目标的概率越小；通过概率分布图像，将可通行区域从场景中分离出来，再对两种先验概率分布图进行融合，得到可通行区域位置先验概率分布图。

进一步的，步骤2)中，UC-FCN网络包括收缩结构和膨胀结构，收缩结构进行卷积与池化操作，逐渐减少空间维度，使得得到的图像越来越小，分辨率越来越低；然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作，在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上，增加输出的分辨率，逐步修复物体的细节和空间维度。

进一步的，膨胀结构采用上采样卷积的重复架构，重复架构中的上采样具体为上采样加ReLU激活函数结构，使用双线性插值将输入上采样2倍，之后使用ReLU解决梯度消失问题，上采样过后，使用卷积操作实现特征图的通道数改变，卷积层中卷积核大小均为3*3，将卷积后的结果与收缩结构中对应步骤的特征图融合起来，最后经过softmax层，得到高精度识别结果。

进一步的，步骤3)中，将可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同，将调整后的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中，生成UC-FCN-L网络。

进一步的，对采集到的训练图像基于消失点方法进行可通行区域检测并将其检测结果作为训练数据的真值GT，在网络训练过程中，通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练，得到最终可用于可通行区域检测的网络架构。

进一步的，步骤4)中对UC-FCN-L网络采用无监督的方式进行训练，得到用于可行驶区域提取的深度网络模型。

进一步的，无监督方式训练，即将样本分为标记样本与未标记样本，标记样本就是训练样本集D_l＝{(x₁,y₁),(x₂,y₂),K(x_l,y_l)}中这l个类别标记为已知的样本，未标记样本就是训练样本集D_u＝{x_l+1,x_l+2,x_l+u}中这u个类别标记未知的样本，u远大于l，基于有标记样本D_l的训练来构建模型，未标记样本D_u所包含的信息未被利用这样的训练方式被称为监督学习，如果缺少标记样本D_l样例的话，需要考虑从未标记样本D_u中实现对模型的学习。

与现有技术相比，本发明具有以下有益的技术效果：

本发明一种端到端无监督场景路面区域确定方法，通过构建道路位置先验概率分布图并将其作为检测网络的特征映射直接附加到卷积层中，从而构建位置先验信息在实际道路交通环境中能够灵活应用的可通行区域位置先验概率分布图，构建一种融合位置先验特征的卷积网络框架，然后结合全卷积网络和U-NET构建深度网络架构—UC-FCN网络，作为实现检测的主体网络模型；将构建的可通行区域位置先验概率分布图作为深度网络架构-UC-FCN网络的一种特征图映射，获取最佳附加位置，直接附加到全卷积层最佳附加位置中，生成UC-FCN-L网络；基于消失点检测方法对可通行区域进行检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练，得到用于可行驶区域提取的深度网络模型，采用自监督的学习方式，解决了可通行区域标签困难的问题，适用性强，可在多种道路环境下稳定工作，且实时性较好，可广泛用于智能汽车和辅助驾驶***，相比于已有可行驶区域认知与理解方法，本方法检测准确率高，适应性、实时性与鲁棒性好，方法简单有效。

进一步的，基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，分别得到两种道路情况下的可通行区域位置先验概率分布图，再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合，得到可通行区域位置先验概率分布图，从而消除传统卷积神经网络对位置先验不敏感而造成的将具有相似外观特征前景与后景错误检测的问题。

进一步的，采用收缩结构进行卷积与池化操作，逐渐减少空间维度，使得得到的图像越来越小，分辨率越来越低；然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作，在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上，增加输出的分辨率，逐步修复物体的细节和空间维度，实现检测速度提升同时检测精度较高的目的。

附图说明

图1是场景可通行区域认知与理解方法整体框架图。

图2是位置先验与位置先验特征示意图，(a)为实际交通场景中物体的空间分布；(b)为基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图。

图3是UC-FCN网络架构示意图。

图4是不同连接可通行区域位置先验概率分布图对比示意。

图5是UC-FCN-L网络整体示意图。

具体实施方式

下面结合附图对本发明做进一步详细描述：

如图1所示，一种端到端无监督场景路面区域确定方法，具体包括以下步骤：

1)、利用道路区域在空间及图像中的分布规律，基于统计构建道路位置先验概率分布图并将其作为检测网络的一种特征映射直接附加到卷积层中，构建位置先验信息在实际道路交通环境中可以灵活应用的可通行区域位置先验概率分布图；

2)、针对可通行区域认知与理解方法，既路面检测和分割问题，结合全卷积网络(FCN)和U-NET构建新的深度网络架构—UC-FCN网络，作为实现检测的主体网络模型；

3)、将构建的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射，通过实验验证其最佳附加位置，直接附加到全卷积层最佳附加位置中，生成UC-FCN-L网络；

4)、针对自采交通场景视频数据集获得训练数据对应的像素级语义标签难度大的问题，提出一种无监督训练方法，基于传统的消失点检测方法对可通行区域进行粗检测并将得到的检测结果作为训练数据集的真值对UC-FCN-L网络进行训练，得到用于可行驶区域提取的深度网络模型。

步骤1)中，为消除传统卷积神经网络对位置先验不敏感而造成的将具有相似外观特征前景与后景错误检测的问题，基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，分别得到两种道路情况下的可通行区域位置先验概率分布图，再对两种先验概率分布图进行融合，得到可通行区域位置先验概率分布图；如图2(a)所示，在实际交通场景中物体的空间分布具有特定的规律，例如，天空分布在图像顶部，建筑物分布在图像两侧，而道路区域分布在图像底部。传统的卷积神经网络只对目标局部外观特征敏感，并不能利用位置先验信息，可能会将建筑区域错误地认定为与其具有相似外观特征的道路区域，若合理利用位置先验可以有效地消除此类错误检测。为了使位置先验信息在实际道路交通环境中灵活应用，不同的输入图像应拥有同样的位置特征表达，因此将位置先验作为检测网络的一种特征映射直接附加到卷积层中。如图2(b)所示，基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，统计每一个坐标位置被判定为可通行区域的次数并对其求均值，分别得到两种道路情况下的可通行区域位置先验概率分布图，在概率分布图中，每个像素点的亮度表示该像素点属于目标的概率，像素点的亮度越高，其属于目标的概率越大；反之，亮度越低，其属于目标的概率越小。通过概率分布图像，可以将可通行区域从场景中分离出来。再对两种先验概率分布图进行融合，得到可通行区域位置先验概率分布图。

步骤2)中，基于全卷积神经网络提出一种新的深度网络架构—UC-FCN网络。卷积神经网络(CNN)自2012年以来，在图像分类和图像检测等方面取得了巨大的成就和广泛的应用。传统的CNN方法以像素块为感知区域，只能提取一些局部的特征，从而导致分类的性能受到限制。针对这个问题,UC Berkeley的Jonathan Long等人提出了FullyConvolutional Networks(FCN)用于图像的分割，试图从抽象的特征中恢复出每个像素所属的类别。FCN将传统CNN中的全连接层转化成一个个的卷积层，所有的层都是卷积层，故称为全卷积网络。

以FCN网络架构方式为基础，改进构建我们的网络：

UC-FCN网络包括收缩结构和膨胀结构，收缩结构进行卷积与池化操作，逐渐减少空间维度，使得得到的图像越来越小，分辨率越来越低，为了从这个分辨率低的粗略图像恢复到原图的分辨率，使用膨胀结构，具体为在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作，增加输出的分辨率，逐步修复物体的细节和空间维度，为了使用局部信息，在两模块间设置连接以帮助膨胀结构更好地修复目标的细节，具体为在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上。

基于FCN网络构建由卷积与池化操作为主，逐渐减少空间维度，使得得到图像越来越小的收缩结构与上采样、卷积操作为主，增加输出分辨率，逐步修复物体细节和空间维度的膨胀结构组成的UC-FCN网络，为了使用局部信息，在两结构间设置连接以帮助膨胀结构更好地修复目标的细节，具体为把在网络收缩结构中产生的高分辨率特征连接至膨胀结构卷积后的结果上，通过对两部分结构的改善，实现检测速度提升同时检测精度较高的目的。

具体的，如图3所示，由于特征图的高度与宽度比输入的要小，所以可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同。将可通行区域位置先验概率分布图连接至33*33或15*15两种特征图后面，前者比后者拥有更准确的位置先验信息，可以描述更多样化、更不规则的形状，更能较好地体现出远距离的道路及小型拐角等细节信息，可以取得更准确的检测结果。将最终的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中，生成UC-FCN-L网络；

收缩结构是典型的卷积网络架构，它的架构是一种重复结构，每次重复中都有2个卷积层和一个池化层，卷积层中卷积核大小均为3*3，激活函数使用ReLU，两个卷积层之后是一个2*2的步长为2的最大池化层，每一次下采样后特征通道的数量都会加倍，5次卷积池化重复结构后是全卷积卷积结构，有2层卷积层，FCN的改进就是将CNN这里的全连接层换成卷积层，FCN在特征提取阶段(收缩结构)使用VGG16作为基础，这个网络在全卷积卷积结构有4096个7*7的滤波器，大量的大尺寸滤波器使得计算量较大，我们将全卷积卷积结构的滤波器数量从4096降低到1024，滤波器尺寸由7*7变为3*3，这样网络的参数减少一些，计算量相应降低，精度也有所下降，为保持网络的识别精度，在膨胀结构做相应改进；

具体的，膨胀结构采用上采样卷积的重复架构，重复架构中的上采样具体为上采样加ReLU激活函数结构，使用双线性插值将输入上采样2倍，之后使用ReLU解决梯度消失问题，每次使用上采样都将特征图大小加倍，上采样过后，使用卷积操作实现特征图的通道数改变，卷积层中卷积核大小均为3*3，将卷积后的结果与收缩结构中对应步骤的特征图融合起来，最后经过softmax层，得到识别结果。

为了使收缩结构滤波器数量减少不影响识别精度，在膨胀结构中具体改进为：

1)在收缩结构与膨胀结构间增加conv-Ncl层，conv-Ncl层卷积核大小为1*1，经过conv-Ncl层特征图通道数由1024转化为特定数量，特征图大小转化为1*1，为了简化后续分类计算量，直接将转化通道数量设为分类数；

2)为使膨胀结构卷积结果与收缩结构特征图通道数匹配，膨胀结构的所有架构层都使用多个卷积核，为避免网络参数的大量增加，使用标量值C作为卷积核数量系数，新网络的膨胀部分具有C*Ncl个卷积核，根据不同的相应特征图位置对C进行调整，使之与相应收缩结构卷积核数量相同。

步骤3)中，将构建的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射，直接附加到全卷积层中，对位置特征进行提取，生成UC-FCN-L网络。如步骤1)中所述，合理利用位置先验可以有效地避免一些错误检测，由于特征图的高度与宽度比输入的要小，所以可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同。从UC-FCN网络中不难看出，生成特征图的卷积是一种重复结构，这种结构重复出现7次，输出宽高分别为259*259，130*130，65*65，33*33，17*17，15*15(最后两次全卷积特征图大小不变)，可通行区域位置先验概率分布图经过用于特征提取的卷积层数量的不同会导致生成结果有所差异，卷积层数越多，提取到的特征信息越具体，越细节性，卷积层数越少，提取到的特征信息月轮廓型，更能涵盖整体信息。可通行区域位置先验概率分布图作为可通行区域检测的辅助信息，在一定程度上对检测结果做了适当矫正，对可通行区域位置先验概率分布图特征的提取既要保留轮廓信息，有要包含细节信息，因此将可通行区域位置先验概率分布图连接至33*33的特征图后面，此时可通行区域位置先验概率分布图可以描述更多样化、更不规则的形状，其提取的特征既能体现道路大体形状、位置等轮廓信息，又能较好地体现出远距离的道路及小型拐角等细节信息，可以取得更准确的检测结果，将最终的可通行区域位置先验概率分布图置于其相应位置，得到用于可行驶区域提取的深度网络模型，如图5所示。

步骤4)中对UC-FCN-L网络采用无监督的方式进行训练，得到用于可行驶区域提取的深度网络模型。样本在深度学习的训练过程中不可或缺，主要分为标记样本与未标记样本，标记样本就是训练样本集D_l＝{(x₁,y₁),(x₂,y₂),K(x_l,y_l)}中这l个类别标记为已知的样本，未标记样本就是训练样本集D_u＝{x_l+1,x_l+2,x_l+u}(u远大于l)中这u个类别标记未知的样本。基于有标记样本D_l的训练来构建模型，未标记样本D_u所包含的信息未被利用这样的训练方式被称为监督学习，如果缺少标记样本D_l样例的话，需要考虑从未标记样本D_u中实现对模型的学习，这种仅有且仅利用未标记样本的训练方式被称为无监督学习。

本发明提出的用于场景可通行区域认知与理解的网络架构基于自采交通场景视频数据集，如图4所示，包含市区、乡村和高速公路等场景采集的真实图像数据，选取其中的部分图像数据进行训练和测试，可通行区域认知与理解方法本质上是对图片进行像素级分割，若要获得图像分割真值，需要使得训练数据获得其对应的像素级语义标签，然而采集的大量实景数据对其进行像素级标签难度极大，须采用无监督的方法对网络进行训练。

具体的，首先用传统方法对采集到的训练图像基于消失点方法进行可通行区域检测。消失点就是空间一组平行直线在图像平面上所成像的唯一交点。基于消失点的可通行区域检测主要有以下步骤：使用Gabor小波在多个尺度上进行纹理分析，舍弃纹理不显著的点；考察每个点与纹理信息的关系，使用纹理投票的方法计算每个点的得分；根据消失点寻找道路边缘，得到路面区域。基于消失点的可通行区域检测效果，将基于消失点得到的检测结果作为训练数据的真值GT，在网络训练过程中，通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练，得到最终可用于可通行区域检测的网络架构。

Claims

1.一种端到端无监督场景路面区域确定方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种端到端无监督场景路面区域确定方法，其特征在于，步骤1)中，利用道路区域在空间及图像中的分布规律，基于统计构建可通行区域位置先验概率分布图。

3.根据权利要求1或2所述的一种端到端无监督场景路面区域确定方法，其特征在于，步骤1)中基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，分别得到两种道路情况下的可通行区域位置先验概率分布图，再对两种道路情况下得到的可通行区域位置先验概率分布图进行融合，得到可通行区域位置先验概率分布图。

4.根据权利要求3所述的一种端到端无监督场景路面区域确定方法，其特征在于，基于KITTI数据集中有车道城市道路和无车道城市道路的实景图及真值图，对其可通行区域进行统计，统计每一个坐标位置被判定为可通行区域的次数并对其求均值，分别得到两种道路情况下的可通行区域位置先验概率分布图，在概率分布图中，每个像素点的亮度表示该像素点属于目标的概率，像素点的亮度越高，其属于目标的概率越大；反之，亮度越低，其属于目标的概率越小；通过概率分布图像，将可通行区域从场景中分离出来，再对两种先验概率分布图进行融合，得到可通行区域位置先验概率分布图。

5.根据权利要求1所述的一种端到端无监督场景路面区域确定方法，其特征在于，步骤2)中，UC-FCN网络包括收缩结构和膨胀结构，收缩结构进行卷积与池化操作，逐渐减少空间维度，使得得到的图像越来越小，分辨率越来越低；然后通过膨胀结构在卷积层后用上采样操作代替收缩结构中卷积层后的池化操作，在网络收缩结构中产生的高分辨率特征被连接到了膨胀结构卷积后的结果上，增加输出的分辨率，逐步修复物体的细节和空间维度。

6.根据权利要求5所述的一种端到端无监督场景路面区域确定方法，其特征在于，膨胀结构采用上采样卷积的重复架构，重复架构中的上采样具体为上采样加ReLU激活函数结构，使用双线性插值将输入上采样2倍，之后使用ReLU解决梯度消失问题，上采样过后，使用卷积操作实现特征图的通道数改变，卷积层中卷积核大小均为3*3，将卷积后的结果与收缩结构中对应步骤的特征图融合起来，最后经过softmax层，得到高精度识别结果。

7.根据权利要求1所述的一种端到端无监督场景路面区域确定方法，其特征在于，步骤3)中，将可通行区域位置先验概率分布图应等比调整至与其连接的最后一个特征图大小相同，将调整后的可通行区域位置先验概率分布图作为UC-FCN网络的一种特征图映射附加到其相应位置中，生成UC-FCN-L网络。

8.根据权利要求1所述的一种端到端无监督场景路面区域确定方法，其特征在于，对采集到的训练图像基于消失点方法进行可通行区域检测并将其检测结果作为训练数据的真值GT，在网络训练过程中，通过不断改进网络参数以减小提出的网络模型实现检测结果与基于消失点得到检测结果的差值对网络进行训练，得到最终可用于可通行区域检测的网络架构。

9.根据权利要求1所述的一种端到端无监督场景路面区域确定方法，其特征在于，步骤4)中对UC-FCN-L网络采用无监督的方式进行训练，得到用于可行驶区域提取的深度网络模型。

10.根据权利要求9所述的一种端到端无监督场景路面区域确定方法，其特征在于，无监督方式训练，即将样本分为标记样本与未标记样本，标记样本就是训练样本集D_l＝{(x₁,y₁),(x₂,y₂),K(x_l,y_l)}中这l个类别标记为已知的样本，未标记样本就是训练样本集D_u＝{x_l+1,x_l+2,x_l+u}中这u个类别标记未知的样本，u远大于l，基于有标记样本D_l的训练来构建模型，未标记样本D_u所包含的信息未被利用这样的训练方式被称为监督学习，如果缺少标记样本D_l样例的话，需要考虑从未标记样本D_u中实现对模型的学习。