CN110599497A

CN110599497A - 一种基于深度神经网络的可行驶区域分割方法

Info

Publication number: CN110599497A
Application number: CN201910703366.8A
Authority: CN
Inventors: 陈分雄; 蒋伟; 袁小康; 王晓莉; 熊鹏涛; 韩荣; 叶佳慧; 王杰
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-12-20

Abstract

本发明提供了一种基于深度神经网络的可行驶区域分割方法，包括：以Mask‑RCNN模型为基础，采用ResNet深度残差网络作为特征提取网络对输入图像进行特征提取；采用RPN网络对特征提取后的图像进行处理，以实现对前景和背景的区分；通过RoIAlign对分类出的前景和背景的轮廓进行定位；通过全连接网络对定位出的前景进行类别识别，以实现对前景的具体分类；根据前景的具体分类结果和区分出的背景，采用全卷积神经网络实现可行驶区域和不可行驶区域的分割。

Description

一种基于深度神经网络的可行驶区域分割方法

技术领域

本发明涉及自动驾驶与人工智能技术领域，具体涉及一种基于深度神经网络的可行驶区域分割方法。

背景技术

智能驾驶汽车具有缓解交通拥堵、避免交通事故、增强驾驶体验、提高道路使用率和降低能耗等诸多方面的优势，使其具有广阔的商业前景。我国发布的《中国制造2025》中对智能驾驶汽车有着明确的定义，并且已经将智能驾驶纳入了中国人工智能领域的重点发展方向。

目前，智能汽车是新一轮人工智能技术革命背景下的新兴技术。《中国人工智能系列***—智能交通》中指出了智能汽车技术发展的重要性和汽车行业的战略地位。智能汽车融合了多种前沿技术，主要包括现代传感技术、信息与通信技术、自动控制技术、计算机技术和人工智能等技术。因此智能汽车的发展不仅仅是汽车产业转型升级的关键，也是商业领域中未来汽车技术发展的战略制高点，更是国家当前高科技水平的体现。

汽车高级辅助驾驶***(Advanced Driving Assistance System,ADAS)是智能汽车技术中至关重要的组成单元，能够有效地提高车辆驾驶安全性能和降低道路交通安全事故发生率。汽车高级辅助驾驶***首先通过汽车配置的内部及外部传感器，获取车辆自身的驾驶状态和周边的驾驶环境信息来提升驾驶员对当前车辆驾驶状态和驾驶环境的感知能力，然后经过信息处理后向驾驶员发送所需要关注的驾驶信息，辅助驾驶员能够安全地驾驶车辆。并且这也为后续的驾驶决策规划阶段提供关键的信息来源，结合车辆的控制***可以逐步实现车辆的智能化，达到自动驾驶的水平。

可行驶区域分割技术是视觉感知技术中重要的技术环节，它在汽车高级辅助驾驶***、道路障碍物检测和目标识别等应用中都具有重要的价值。可行驶区域的提取是ADAS的关键技术，旨在使用传感器感知技术感知驾驶车辆周围的道路环境，识别并分割出当前驾驶场景下可行驶的区域，防止偏离车道或违规驾驶，能够为ADAS中的防撞碰撞预警功能提供重要的信息和线索，帮助***或驾驶员完成控制决策。

在智能汽车技术的发展初期，主要的研究应用场景是固定的行驶轨道，如有轨电车等。研究者结合无线通信技术和磁诱导、电缆等设备构建了自动控制车辆***，使车辆具备了智能驾驶功能。这其中包括了美、日、德、意等一些国家的成果。美国高速路安全管理局将智能汽车的发展分为四个阶段(见表1)，目前商业中关于智能汽车的落地产品的功能主要集中在第二个阶段。

表1自动驾驶发展阶段

相比于国外，我国在智能汽车的发展和研究方面起步略晚。从80年代末开始，国防科技大学先后研制出基于视觉的CITAVT系列智能车辆。其中自主研制的CITAVT-Ⅳ型智能车辆是由吉普车所改装而成的，该车型旨在能够在结构化道路环境下实现自主驾驶。在道路测试阶段，该车辆的行驶速度最高可达110km/h。同时该车辆也兼具了在非结构化道路上低速自主驾驶的工作模式。1988年，清华大学在国防科工委和国家“863计划”的资助下开始研究开发THMR系列智能车。在结构化道路行驶时，THMR-Ⅴ智能车能够自动跟踪车道线；在准结构化环境下行驶时，能够实现道路跟踪；在复杂的驾驶场景下，能够避开障碍物和视觉临场感遥控行驶，其最高车速可达150km/h。2013年，上汽集团和中航科工酒智能驾驶领域展开合作，在两年后的上海车展上展示了自主研发的可初步实现远程遥控泊车、自动巡航、自动跟车、车道保持、换道行驶、自主超车等功能的智能驾驶汽车iGS。不仅如此，国内其他汽车制造商也纷纷展开对智能汽车的研制、开发试验和路试，计划逐步完善和增添智能汽车的功能，其中包括长安汽车、北汽集团和长城汽车等。

与此同时，国内互联网企业和新兴的智能驾驶解决方案提供商也纷纷涉足于智能驾驶领域。百度公司于2013年启动了百度无人驾驶汽车项目，其技术核心是“百度汽车大脑”，包括高精度地图、定位、感知、智能决策与控制四大模块。2015年百度无人驾驶汽车在国内首次实现了城市、环路和高速公路混合路况下的全自动驾驶，测试时的最高速度达100km/h。2018年1月，滴滴在北京宣布成立了人工智能实施例室，与汽车制造商和供应商展开合作，开发智能汽车，并已经取得北京市自动驾驶车辆道路测试资格。目前国内也有很多AI公司根据自身的优势，在智能驾驶领域寻找切入点，比如图森科技、Pony.ai、地平线、虹软科技。

在驾驶场景中，人们所关注的道路信息大部分来源于人们所捕捉到的视觉信息，而这些视觉信息对人们的驾驶决策起着至关重要的影响。类比地，对智能汽车而言，车载摄像头就像人们的视觉感官***，能够实时采集周围的驾驶环境信息。更为重要的，相比基于激光雷达的解决方案，基于摄像头的视觉***解决方案具有成本低廉、安装简单、获取信息量大等特点。同时，这也是目前主流ADAS产品所采用的解决方案，例如Mobileye的高级驾驶辅助***。近年来，提出的众多优秀深度神经网络给图像处理领域带来了一场技术革命。道路场景理解是自动驾驶决策和安全运行的关键组成部分。鉴于道路驾驶的结构性，所有自动驾驶车辆必须遵循道路规则。目前实现辅助驾驶的***通常依赖于对道路标志和交通规则的视觉感知技术，因此依赖于简单的道路结构和道路标志(例如维护良好的高速公路)。将这些***扩展应用到更加复杂的驾驶场景。.

传统的基于视觉传感器的可行驶道路估计方法通常会使用预处理步骤去消除阴影和曝光伪影，并通过特征检测以及连续帧之间的道路和车道特征的时序融合来提取低层次的道路特征和车道线特征，最终实现拟合道路模型的功能。虽然这些方法在维护良好的道路环境中有效，但这些方法在存在遮挡，阴影或光线昏暗的驾驶场景下会受到很大的影响，甚至会失效。B.Ma和A.S.Huang分别提出了一种将图像视觉信息和雷达或LIDAR捕获的信息融合的方案,旨在解决辅助驾驶场景中存在的这类问题，但是雷达或LIDAR会显著地增加研究和开发成本。近来，在图像处理领域的研究中，将深度学习和计算机视觉技术结合取得了明显的进展，尤其是与图像语义分割相关罐体取得的进展令人兴奋。该技术对于输入图像的语义理解是细粒度的。具体地，这类方法实现了图像中物体像素级别的分类，因此比以前的基于特征的方法更加具有鲁棒性。

发明内容

本发明要解决的技术问题在于，针对上述目前的可行驶区域分割技术受限于道路环境和光照阴影的技术问题，提供一种基于深度神经网络的可行驶区域分割方法解决上述技术缺陷。

一种基于深度神经网络的可行驶区域分割方法，包括：

步骤一、以Mask-RCNN模型为基础，采用ResNet深度残差网络作为特征提取网络对输入图像进行特征提取；

步骤二、采用RPN网络对特征提取后的图像进行处理，以实现对前景和背景的区分；

步骤三、通过RoIAlign对分类出的前景和背景的轮廓进行定位；

步骤四、通过全连接网络对定位出的前景进行类别识别，以实现对前景的具体分类；

步骤五、根据前景的具体分类结果和区分出的背景，采用全卷积神经网络实现可行驶区域和不可行驶区域的分割。

进一步的，步骤一中，ResNet深度残差网络结构引入残差学习模块和捷径连接模块，在原始卷积的基础上，通过在层与层之间的输入和输出之前引入一个线性连接；采用3x3的标准卷积核，使用ReLU激活函数进行激活，其中包含典型的卷积以及最大池化操作；采用了FPN特征金字塔网络，FPN通过改变网络连接方式来融合多尺度、不同语义强度的特征。

进一步的，步骤二中，前景包括输入图像中的行人、动物、车辆、交通标志和道路障碍物，背景包括输入图像中的天空、绿化带、湖泊和空白道路。

进一步的，步骤三中，RoIAlign是基于RoIPooling改进而来，在Mask-RCNN中，以RoI Align以代替Faster R-CNN中的RoI Pooling操作，使用双线性插值计算RoI块，然后通过池化操作聚合。

进一步的，在步骤四中，在全连接网络中，全连接层整合末端特征图，这些特征图具有一定程度的类别区分度，最后将特征图映射成多维向量，全连接层将多维向量传入分类层和回归层。

进一步的，在步骤五中，全卷积网络采用了下采样和上采样的编码--解码网络设计结构，并且能够共享卷积特征。

与现有技术相比，本发明的优势在于：

提供一种复杂多变的驾驶场景下，基于深度神经网络的可行驶区域分割方法，以Mask-RCNN模型为基础，采用ResNet作为Mask-RCNN模型中的特征提取网络，并结合FPN的优势，融合了不同特征图的不同分辨率、不同语义强度的特征，有效地提升了算法可行驶区域分割的准确性，该方法在不同的驾驶场景下具有良好的鲁棒性和适应性。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明一种基于深度神经网络的可行驶区域分割方法流程图；

图2是本发明RPN网络结构图；

图3是本发明RoIAlign网络结构图；

图4是本发明实施例中部分在非结构化道路上提取可行驶区域的效果图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的具体实施方式。

一种基于深度神经网络的可行驶区域分割方法，如图1所示，包括：

步骤二、采用RPN网络对特征提取后的图像进行处理，以实现对前景和背景的区分；前景是指输入图像中的行人、动物、车辆、交通标志和道路障碍物等，背景是指输入图像中的天空、绿化带、湖泊和空白道路等；

步骤三、通过RoIAlign对分类出的前景和背景的轮廓进行精确定位；

步骤四、通过全连接网络对精确定位出的前景进行类别识别，已实现对前景的具体分类；

ResNet深度残差网络结构，区别于以往的神经网络结构，该网络引入残差学习模块和捷径(Shortcut)连接模块，在原始卷积的基础上，通过在层与层之间的输入和输出之前引入一个线性连接，这样不仅可以有效地避免因层数过多而引发的过拟合问题，同时可以更好地利用低维度的图像特征，在一定程度上能够提升准确率；采用3x3的标准卷积核，使用ReLU(Rectified Linear Unit)激活函数进行激活，其中包含典型的卷积以及最大池化操作。采用了特征金字塔网络(Feature Pyramid Networks，FPN)，FPN通过改变网络连接方式来融合多尺度、不同语义强度的特征，而且这种方法几乎没有增加计算量，就能够获得精度上的提升。

RPN(Region Proposal Network)是一种采用全卷积方式构建的深度神经网络，RPN的网络结构如图2所示，其作用在于通过产生区域候选框来区分前景、背景，并同时能够修正候选框的坐标。RPN在特征提取网络的共享卷积层末端的特征图上移动滑窗，每个滑窗均映射成低维向量并传入分类层和包围框回归层，得到区域候选框。以滑动窗中心为基准，赋予K中尺度的锚(anchor)，分类层对每种尺度的锚均给出属于前景或背景的概率；回归层则给出包围框坐标信息。

RoIAlign是基于RoIPooling改进而来的，如图3所示，是一种区域特征聚集方式，在Mask-RCNN中，以RoI Align以代替Faster R-CNN中的RoI Pooling操作，使用双线性插值计算RoI块，然后通过池化操作聚合，这样避免了对RoI块进行量化处理，解决了RoI池化时的量化操作造成的目标定位不准确的问题。RoIAlign解决了量化操作造成的目标定位不准确的问题。

前景物体分类和包围框定位回归是目标检测中的两个核心环节。分类给出输入图像包含有意义的目标类信息，输出的是所属类别的置信值。定位则给出图像中目标物体所在的具***置信息，输出的是目标物体的包围框。采用全连接层整合末端特征图，这些特征图具有一定程度的类别区分度，最后将特征图映射成n维向量。全连接层将输出结果传入分类层和回归层，其损失函数由分类损失和包围框回归损失两部分组成，包围框损失用以修正目标位置信息。模型采用基于区域候选框的检测算法，沿用了Faster R-CNN方法中最重要的步骤，使用RPN网络生成的候选框代替R-CNN中的选择性搜索(Selective Search)算法。这样可以简化模型训练，避免训练过程中耗费的大量时间和存储空间，并且也能同时提高检测精度，这也有助于提升可行驶区域分割的精度。

传统的CNN模型使用较大的感受野，导致图像分割结果边缘粗糙，同时由于最大池化层的使用，进一步加重了分割粗糙的问题。而全卷积网络结构率先完成了图像端到端的语义分割任务，并提出与卷积操作逆向的运算思路，在特征提取进行卷积下采样丢弃了图像的低维度的多种特征的情况下，将经过残差网络训练的特征经过1×1的卷积核重新调整维度以适应分割任务。其采用转置卷积的方式来完成上采样操作，并引入跳跃连接层，将低维度特征与高维度特征进行融合。Mask-RCNN模型在mask分支中引入全卷积网络，该网络的优点在于采用了下采样和上采样的编码-解码网络设计结构，并且能够共享卷积特征，大大节省了存储资源，提高了对可行驶区域分割任务的处理效率。

实施例1：在COCO数据集上进行实例分割的评估结果见表2。

表2不同特征提取网络的评估结果

表2中显示，随着ResNet深度残差网络的网络层数递增，其特征表达能力越强。而FPN对不同特征图的不同分辨率、不同语义强度特征进行融合，其特征表达能力比残差网络单一输出的特征图要更好。

实施例2：对以ResNet101-FPN为特征提取网络的Mask-RCNN模型进行训练，由实施例中设置批量大小为1，由于批量大小比较小，在训练阶段冻结了BN层。实施例中采用了预训练的权重初始化策略，将模型训练分为3个主要阶段。首先训练Mask-RCNN头部网络层部分，然后微调残差网络权重，这两个步骤设置的初始学习率为1×10-3；最后结合前面两个步骤训练的结果，微调所有网络层权重，该步骤的初始学习率设置为1×10-4。对整个模型训练了160epochs，每次epoch迭代训练1000次。

在本实施例的模型训练中，通过补零操作将所有输入图像大小设置为1024×1024。并且采用了数据增强，对输入图像进行随机左右平移操作。由于RPN生成候选框的时候往往负样本占比过高，我们设置正负样本候选框比例为1:3，以缓解样本类别不均衡的问题。

同样，在以ResNet50-FPN为特征提取网络的Mask-RCNN模型上使用相同的超参进行训练。然后，在已训练的神经网络上进行算法评估，测试样本来自测试数据集，表3给出了测试阶段的评估结果。

表3评估结果

特征提取网络	输入图片大小	AP<sub>50</sub>(％)	AP<sub>75</sub>(％)	mIoU(％)
					ResNet-50+FPN	1024×1024	96.9	84.0	90.4
ResNet-101+FPN	1024×1024	98.1	86.6	93.3

评估结果显示，使用ResNet深度残差网络作为特征提取网络对复杂多样的驾驶场景能够有效地实现可行驶区域分割，并且具有良好的鲁棒性和适应性。

实施例3：采用Mask-RCNN模型在非结构化道路上提取可行驶区域的效果图。如图4所示，第一行为输入测试图像，第二行为其相应的真值分割图。

非结构化道路是指城市非主要干道、乡村街道等结构化程度较低的道路，这种道路没有车道线或清晰的道路边界。并且这类道路往往受阴影、水迹和泥泞等影响，不易区别出可行驶区域。实施例结果表明，采用Mask-RCNN模型能够有效地提取可行驶区域。

本发明专利提供一种复杂多变的驾驶场景下，基于深度神经网络的可行驶区域分割方法，该方法以Mask-RCNN模型为基础，采用ResNet-50和ResNet-101作为Mask-RCNN模型中的特征提取网络，并通过结合FPN的优势，融合了不同特征图的不同分辨率、不同语义强度的特征，有效地提升了算法可行驶区域分割的准确性，同时，实施例结果表明了该方法在不同的驾驶场景下具有良好的鲁棒性和适应性。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于深度神经网络的可行驶区域分割方法，其特征在于，包括：

2.根据权利要求1所述的一种基于深度神经网络的可行驶区域分割方法，其特征在于，步骤一中，ResNet深度残差网络结构引入残差学习模块和捷径连接模块，在原始卷积的基础上，通过在层与层之间的输入和输出之前引入一个线性连接；采用3x3的标准卷积核，使用ReLU激活函数进行激活，其中包含典型的卷积以及最大池化操作；采用了FPN特征金字塔网络，FPN通过改变网络连接方式来融合多尺度、不同语义强度的特征。

3.根据权利要求1所述的一种基于深度神经网络的可行驶区域分割方法，其特征在于，步骤二中，前景包括输入图像中的行人、动物、车辆、交通标志和道路障碍物，背景包括输入图像中的天空、绿化带、湖泊和空白道路。

4.根据权利要求1所述的一种基于深度神经网络的可行驶区域分割方法，其特征在于，步骤三中，RoIAlign是基于RoIPooling改进而来，在Mask-RCNN中，以RoIAlign以代替Faster R-CNN中的RoIPooling操作，使用双线性插值计算RoI块，然后通过池化操作聚合。

5.根据权利要求1所述的一种基于深度神经网络的可行驶区域分割方法，其特征在于，在步骤四中，在全连接网络中，全连接层整合末端特征图，这些特征图具有一定程度的类别区分度，最后将特征图映射成多维向量，全连接层将多维向量传入分类层和回归层。

6.根据权利要求1所述的一种基于深度神经网络的可行驶区域分割方法，其特征在于，在步骤五中，全卷积网络采用了下采样和上采样的编码--解码网络设计结构，并且能够共享卷积特征。