CN113111722A - 基于改进Mask R-CNN的自动驾驶目标识别方法 - Google Patents

基于改进Mask R-CNN的自动驾驶目标识别方法 Download PDF

Info

Publication number
CN113111722A
CN113111722A CN202110287700.3A CN202110287700A CN113111722A CN 113111722 A CN113111722 A CN 113111722A CN 202110287700 A CN202110287700 A CN 202110287700A CN 113111722 A CN113111722 A CN 113111722A
Authority
CN
China
Prior art keywords
frame
recommendation
automatic driving
cnn
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110287700.3A
Other languages
English (en)
Inventor
董恩增
杨启娟
佟吉钢
冯进峰
张祖锋
于航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University of Technology
Original Assignee
Tianjin University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University of Technology filed Critical Tianjin University of Technology
Priority to CN202110287700.3A priority Critical patent/CN113111722A/zh
Publication of CN113111722A publication Critical patent/CN113111722A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于机器视觉技术领域,涉及基于改进Mask R‑CNN的自动驾驶目标识别方法。该方法包括如下步骤,S1、读取图片信息后对其进行预处理,得到图片的特征图;S2、将特征图输入到区域推荐网络模块,得到推荐框;S3、推荐框通过二分类层判断内部是否存在目标,然后区分推荐框中的目标和背景,利用边界回归确定目标位置,从筛选出的特征图确定ROI区域,再利用非极大值抑制NMS算法去除多余的推荐框得到精确的推荐框;S4、对ROI区域进行处理后,掩码模块利用FCN网络对每个ROI区域进行分割,输出特征图;S5、分类和边框回归模块收集得到ROI区域,ROI区域在此模块中计算分类损失和基于Kullback‑Leibler loss边界框回归损失,利用NMS方法确定精确的推荐框,实现图片中目标的识别和分割。

Description

基于改进Mask R-CNN的自动驾驶目标识别方法
技术领域
本发明属于机器视觉技术领域,更具体地,涉及基于改进Mask R-CNN的自动驾驶目标识别方法。
背景技术
汽车自动驾驶技术始于Google的无人驾驶汽车项目,近些年随着深度学习在图像处理中的不断应用,自动驾驶相应得到了快速发展,这使得基于深度学习的道路环境感知方法在自动驾驶中的应用成为可能。然而在自动驾驶领域中,由于道路交通中路况比较复杂,车辆来往疏密不同,车速起伏也相对较大,这就导致对车辆及其周围环境的识别要求相对较高。在自动驾驶中最重要的是视觉感知,当天气状况恶劣,如雨雪、雾霾天气;道路状况复杂,人群车辆往来较密时,这些复杂路况对视觉感知算法仍是一个挑战。
研究表明,基于Mask R-CNN的图像分割方法相比较于其它基于深度学习的图像分割方法如SDS、CFM、MNC等可以实现同一类别中不同个体的检测分割,且在分割准确率方面有了极大的提升。Mask R-CNN是基于CNN(convolutional neural network,卷积神经网络)的目标识别及分割算法的主流框架之一,采用ResNet-101+FPN特征提取网络输入图片进行特征提取,然后对Feature maps上的每个像素点都预测9个anchor boxes再挑选出分类得分高的300个anchor boxes作为最终的ROI区域。最后将ROI区域送入Mask模块、Classification和Boundingbox regression模块判定目标类别并获得精准的目标位置。Mask R-CNN是一种比较接近人类真实视觉感受的计算机视觉算法,在自动驾驶领域有着很高的应用价值。但Mask R-CNN算法存在由于目标边界框模糊导致边缘分割效果不佳以及对小目标的分割效果较差的缺点。
发明内容
针对现有技术存在的不足之处,本发明提出基于改进Mask R-CNN的自动驾驶目标识别方法。该方法通过对Mask R-CNN算法的改进,能够很好地应对复杂多变的交通环境,准确检测分割车辆及其周围的路况,该改进方法在自动驾驶应用中具有良好的适用性。
各类大中小目标的自动检测分割与识别是自动驾驶视觉感知的关键技术,尤其是对来往车辆以及行人。针对比较复杂的道路交通路况,变化的车速对目标分割和识别的高精度要求,本发明提出了基于KL loss的改进Mask R-CNN算法。采用ResNet-101+FPN特征提取网络,实现更好的Feature maps,充分利用提取到的各个阶段的特征;采用估计位置置信度的网络结构KL loss对边界框进行回归,极大地提升由于边界框的模糊而影响边界的分割精确度,且几乎不会增加额外的计算成本。为完善算法在雨雪等恶劣天气中的目标检测分割效果,结合自动驾驶数据集Cityscapes中的8000个图片和MS-COCO数据集中的1942个图片对模型进行训练。实验结果表明该发明算法与Mask R-CNN相比,在分割精度和召回上均有明显提升,在自动驾驶场景中具有良好的泛化能力和实用性。
为实现上述目的,本发明采用如下技术方案:
基于改进Mask R-CNN的自动驾驶目标识别方法,包括如下步骤,
S1、读取图片信息后对其进行预处理,得到图片的特征图;
S2、将特征图输入到区域推荐网络模块,得到推荐框;
S3、推荐框通过二分类层判断内部是否存在目标,然后区分推荐框中的目标和背景,利用边界回归确定目标位置,从筛选出的特征图确定ROI区域,再利用非极大值抑制NMS算法去除多余的推荐框得到精确的推荐框;
S4、对ROI区域进行处理后,掩码模块利用FCN网络对每个ROI区域进行分割,输出特征图;
S5、分类和边框回归模块收集得到ROI区域,ROI区域在此模块中计算分类损失和基于Kullback-Leibler loss边界框回归损失,利用NMS方法确定精确的推荐框,实现图片中目标的识别和分割。
如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S1具体是首先对图片进行放缩处理,然后将其输入到特征提取网络模块的残差网络101+特征金字塔特征提取网络,再经过全卷积网络后,提取到图片的特征图。
本技术方案进一步的优化,所述步骤S2中区域推荐网络模块运用滑动窗遍历特征图,每个像素预测出多个锚框,产生推荐框。
本技术方案更进一步的优化,所述滑动窗的大小为3*3。
本技术方案更进一步的优化,所述每个像素预测的锚框尺寸有6种,6种尺度为{2,4,8,16,64,256},比例有9种{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},共54个锚框。
本技术方案更进一步的优化,所述锚框基准窗设置为16*16,因此锚框的面积Sk如下,
Sk=(16*2k) K∈[1,6] (1)
锚框的长宽比为a:1,则每个锚框的宽WK、长HK如下,
Figure BDA0002981162880000031
Figure BDA0002981162880000032
本技术方案进一步的优化,所述步骤S3中NMS算法的阈值筛选法公式如下,
Figure BDA0002981162880000033
式中,B={b1,b2,L L bn}是一系列初始的检验框,S={s1,s2,.....sn}是它们对应的分类得分,Nt是重叠度的阈值。
本技术方案进一步的优化,所述步骤S4中对ROI区域进行处理具体是对ROI区域进行双线性插值对齐操作,将其尺寸固定成统一大小。
本技术方案进一步的优化,所述步骤S5通过全连接层到目标物体分类结果和边界回归的偏移量,如式(5)(6)所示,
Figure BDA0002981162880000041
Figure BDA0002981162880000042
式(5)中,
Figure BDA0002981162880000043
表示分类损失,定义为
Figure BDA0002981162880000044
其中pi是区域推荐预测为目标物体概率,
Figure BDA0002981162880000045
是真实标定框标签,
Figure BDA0002981162880000046
表示边界框回归损失,定义为SmoothL1(t-t*),其中,
Figure BDA0002981162880000047
式(6)式中,xg为基本GT边界框位置,xe是待估计的边界框位置,DKL是KL距离,PD是基本GT狄拉克函数,Pθ是预测的高斯分布,H(p)为信息熵。
本技术方案进一步的优化,所述步骤S5定义边界回归损失为预测分布和真实标定框分布之间的KL距离,并且将边界框位置和边界框位置的标准差一起用于评估KL loss,并用于边界框的回归。
区别于现有技术,上述技术方案具有如下优点:
A)自动驾驶技术对微小目标和被遮挡物体的检测正确率、漏捡率要求更加苛刻。本发明中Feature extraction network的特征提取网络为ResNet-101+FPN,ResNet采取跨层连接,使得训练更加容易,FPN则实现更好的Feature maps融合。它通过由下向上的卷积神经网络得到feature maps,再采用自顶向下和横向连接的方式将feature maps相融合,这样融合之后每层的网络都具有深层次和浅层次的特征,可以充分保障提取到各个阶段的特征。
B)配合自动驾驶的视野要求,并结合自动驾驶中目标物体小、数量多的情况,修改Region proposal network模块中anchor boxes的比例与尺度。修改后的anchor boxes提高了RPN对目标的检测能力,尤其是在小目标的检测分割中表现出更好的召回率。
C)原Mask R-CNN算法在分割任务中依赖区域信息,采用平均交叉熵损失函数,利用边界框的回归定位目标,这种方式会由于边界框的模糊而影响边界的分割精确度,从而影响车辆在自动驾驶过程中的判断决策和其动作的及时有效性。本方法采用估计位置置信度的网络结构KL loss对边界框进行回归。这种损失函数可以极大的提升多种架构的准确度,且几乎不会增加额外的计算成本,提高边界框模糊小目标的分割精确度,从而在自动驾驶过程中能够做出及时有效的判断决策。
D)采用分阶段训练的方式训练网络模型,针对每一阶段做出参数上的调整,避免了无效的训练,节省显存。
E)训练集采用自动驾驶数据集Cityscapes和MS-COCO的混合数据集,有效提升了模型在多种天气状况及复杂交通环境下的检测分割精度和泛化能力。
附图说明
图1为改进Mask R-CNN网络结构图;
图2为ResNet-101+FPN特征提取网络示意图;
图3为估计边界框位置置信度KL loss网络结构图;
图4为Precision-Recall关系曲线图;
图5为在下雪天气干扰下的检测分割效果图;
图6为在下雨天气干扰下的检测分割效果图;
图7为复杂道路场景中对各类车辆以及行人的分割效果图;
图8为目标车辆有遮挡、截断的分割效果图;
图9为目标车辆不同程度遮挡或者目标较小情况下的分割效果图;
图10为在车辆和行人比较集中的十字路口下的分割效果图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明提出基于改进Mask R-CNN的自动驾驶目标识别方法,它包括以下步骤:
S1、读取图片信息后对其进行预处理,首先将图片缩放至1600*700,然后进入特征提取网络(Feature extraction network)模块中的残差网络101+特征金字塔(ResNet-101+FPN)特征提取网络,如图1所示,为改进Mask R-CNN网络结构图。经过ResNet-101+FPN的Conv1、Conv2_x、Conv3_x、Conv4_x共91层全卷积网络后,提取到图片的特征图(featuremaps)。
S2、特征提取网络模块输出的特征图进入区域推荐网络(Regionproposalnetwork)模块,如图2所示,ResNet-101+FPN特征提取网络示意图。Regionproposal network模块运用3*3大小的滑动窗遍历Feature maps,每个像素预测出多个锚框(anchor boxes),产生推荐框(Proposal boxes)。为了使锚框基本覆盖目标物体的各种尺度和形状,经过大量实验验证后,该发明设定每个像素预测出的锚框尺度有6种,6种尺度为{2,4,8,16,64,256},比例有9种{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},共54个锚框。本发明将锚框的基准窗设置为16*16,因此锚框的面积Sk如式(1)所示。
Sk=(16*2k) K∈[1,6] (1)
锚框的长宽比为a:1,则每个锚框的宽WK、长HK如式(2)、(3)所示。
Figure BDA0002981162880000061
Figure BDA0002981162880000062
S3、生成的推荐框再通过二分类(Softmax)层判断内部是否存在目标,然后区分推荐框中的目标和背景,利用边界框回归(BBoxes regressive)确定其位置,最终由筛选出的约300个推荐框中确定最终的感兴趣区域(Region of Interest)ROI区域。再利用非极大值抑制(Non-Maximum Suppression)NMS算法去除多余的目标框得到精确的推荐框,NMS算法的阈值筛选法如式(4)所示。
Figure BDA0002981162880000071
式中,B={b1,b2,L L bn}是一系列初始的检验框,S={s1,s2,.....sn}是它们对应的分类得分,Nt是重叠度的阈值。
S4、对ROI区域进行双线性插值对齐(ROIAlign)操作,将其尺寸固定成统一大小。
S5、掩码(Mask)模块利用FCN网络每个ROI区域进行分割,输出K个m×m的特征图,即K个类别的m×m的二值Mask,得到m×m的空间布局,从而获取目标的分割掩码。
S6、分类(Classification)&Boundingbox regression模块收集得到ROI区域,ROI区域在此模块中计算分类损失和基于Kullback-Leibler loss(KL-loss)边界框回归损失,如图3所示,为估计边界框位置置信度KL loss网络结构图。再通过全连接层(FC layers)得到目标物体分类结果和边界回归的偏移量,如式(5)(6)所示。
Figure BDA0002981162880000072
Figure BDA0002981162880000073
式(5)中,
Figure BDA0002981162880000081
表示分类损失,定义为
Figure BDA0002981162880000082
其中pi是区域推荐(Region proposal)预测为目标物体概率,
Figure BDA0002981162880000083
是真实标定框(GroundTruth)标签。
Figure BDA0002981162880000084
表示边界框回归损失,定义为SmoothL1(t-t*),其中
Figure BDA0002981162880000085
在此基础上定义边界回归损失为预测分布和真实标定框(GroundTruth)分布之间的KL距离,并且将BBox位置和BBox位置的标准差一起用于评估KLloss,并用于边界框的回归。式(6)式中,xg为基本GT边界框位置;xe是待估计的边界框位置;DKL是KL距离;PD是基本GT狄拉克函数,Pθ是预测的高斯分布,H(p)为信息熵,一般情况下数值比较小且是固定的。
建立训练数据集:训练数据集选用自动驾驶数据集Cityscapes中的8000个训练图像,包括不同城市不同驾驶的条件下街道场景的真实图像数据。为了提高训练模型在恶劣天气条件及复杂交通条件下的目标分割精度,加入MS-COCO数据集中的1942个训练图片,天气条件包括“snow”,“rain”,“sunny”;复杂交通条件包括“车流量大”和“车辆拥挤”等。在实验中,为了配合混合数据集用于改进算法中,将其制作成MS-COCO数据集的格式。
训练网络模型:对Feature extraction network模块中的ResNet-101+FPN在ImageNet中进行训练,将训练后得到的网络模型作为预训练模型,混合自动驾驶数据集做fine-tuning;训练分为三个阶段:第一阶段为Training network heads;第二阶段为Fine-tuning ResNet stage 4and up;第三阶段Fine-tuning all layers。设置算法学***均值分别设置为0.0001和0,使得KL loss和标准的smooth L1损失在训练初期相似。
本发明算法改进的目的是完善Mask R-CNN算法的不足,并使算法符合自动驾驶任务的技术指标。Region proposal network模块中anchor boxes的比例与尺度比较适合中大型目标,对于小目标的检测有一定的不足;由于特征提取网络所提取的特征不完整,导致目标漏检的问题;以及在自动驾驶场景下模型泛化能力差的问题。
本发明优选一实例,基于改进Mask R-CNN的自动驾驶目标识别方法,它包括以下步骤,
(1)输入图片首先缩放至1600*700,然后经过ResNet-101+FPN特征提取网络的Conv1、Conv2_x、Conv3_x、Conv4_x后得到图片Feature maps,如图2所示,为ResNet-101+FPN特征提取网络示意图。
(2)一个3*3大小的滑动窗,以中心点的锚点为基准遍历(1)中得到的每一个Feature maps像素,每个锚点可以预测出6中尺度{2,4,8,16,64,256}和9种比例{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},将这54个anchor boxes作为初始的检测框。其中最大的anchor boxes是1774*590,最小的anchor boxes是56*16,因此54个anchorboxes基本覆盖了目标物体的各种尺度和形状。再经过Softmax层判断内部是否存在目标,区分Proposal boxes中的目标和背景,利用BBoxes regressive确定其位置,然后从筛选出的约300个Proposal boxes中确定最终的ROI区域。最后利用NMS算法去除多余的目标框得到精确的Proposal box。
(3)综合(1)中得到的Feature maps和(2)中得到的Proposal box送入Mask模块&Classification&Boundingbox regression模块中,Mask模块利用FCN网络对每个ROI区域进行分割,得到目标的分割掩码;Classification&Boundingbox regression模块通过KLloss和标准的smooth L1计算边界框回归损失和分类损失。同时利用NMS方法确定精确的Proposal box,完成一幅图片中目标的识别和分割。
(4)建立训练数据集:训练数据集选用自动驾驶数据集Cityscapes中的8000个训练图像,包括不同城市不同驾驶的条件下街道场景的真实图像数据。为了提高训练模型在恶劣天气条件及复杂交通条件下的目标分割精度,加入MS-COCO数据集中的1942个训练图片。在实验中,为了配合混合数据集用于改进算法中,将其制作成MS-COCO数据集的格式。
(5)ResNet-101+FPN在ImageNet中进行训练,将训练后得到的网络模型作为预训练模型,混合自动驾驶数据集做fine-tuning;训练分为三个阶段:第一阶段为Trainingnetwork heads;第二阶段为Fine-tuning ResNet stage 4and up;第三阶段Fine-tuningall layers.设置算法学***均值分别设置为0.0001和0。
实验结果与分析
实验环境与参数
本发明的实验环境为Ubuntu16.04的操作***下进行,服务器采用Intel XeonSilver 4110 2.10GHz的8核CPU,配有2个Hynix 64GB DDR4-2666MHz内存,且有2块GTX2080TI 11G的显卡。在此基础上搭建Tensorflow深度学习框架,并用Python语言编程实现网络的训练与测试。
定性和定量分析模型精度
目标检测识别任务中公认的评价的指标是Precision-Recall关系曲线、AP(Interpolated Average Precision)值和mAP(mean Average Precision)值。
Precision-Recall关系曲线就是以Precision为纵坐标,Recall为横坐标而描绘的曲线,通过调节阈值、观察曲线变化来定性评估***对每类物体分类情况的优劣。
Precision-Recall关系曲线中的Precision(精确率)反映了被正确识别的目标中,真阳性(True positives)所占比例,计算公式如式(7)所示,
Figure BDA0002981162880000111
式中,TP:True positives,真阳性。FP:False positives,假阳性。
Recall(召回率)反映某类被正确识别的目标物体占该类物体的比重,计算公式如式(8)所示。
Figure BDA0002981162880000112
其中,TP:True positives,真阳性。FN:False negatives,假阴性。
如图4所示,为对本算法进行定性分析的Precision-Recall曲线。Precision-Recall关系曲线图中右上角的各类物体曲线均呈现凸起状,说明本算法的识别效果良好、精确度高。
本发明使用各类物体AP(Interpolated Average Precision)值定量分析模型精度;使用mAP(mean Average Precision)值评价本算法在数据集上的检测识别效果。AP(Average Precision)值是Precision-Recall关系曲线下的面积,使用它来定量分析模型精度。本发明为了避免PR曲线不稳定而导致AP值较低的问题,使用“Interpolated AveragePrecision”的计算方法,即每次使用的阈值Precision中,采用最大值的Precision值与Recall值相乘,再将所有阈值下求得的乘积值累加,如式(9)所示。
Figure BDA0002981162880000121
其中,P为Precision。R为Recall。
在图片的多目标检测和识别中,使用mAP值来衡量模型在全部类别的物体的分类任务中的好坏。mAP是多个类别物体AP值的平均值,其值越大检测精度越高,表明算法的性能越好。
数据集为混合自动驾驶数据集,衡量指标为APsmall(目标像素面积小于322),APmedium(目标像素面积大于322且小于962),APlarge(目标像素面积大于962)。实验结果如表1所示。
表1大中小三类目标AP值对比
mAP APs APm APl
BBoxreg 23.6 33.2 32.1 37.1
BBoxreg+BBoxreg Std 30.9 34.9 33.5 40.2
如表2为本发明算法在不同网络结构下的的mAP值对比。
表2不同网络结构下的mAP值对比
Figure BDA0002981162880000122
由实验结果不难得出以下结论:在基本网络结构ResNet-101中加入FPN网络与原先不加FPN网络相比,本算法的网络结构在mAP值上有了明显的提高;而ResNeXt-101+FPN网络结构搭配虽然能够在mAP值上提高的更多,但是由于网络参数更多,在运行速度上会有一定的局限性,不能满足自动驾驶对快速反应的要求。
实验结果
本发明算法在自动驾驶混合数据集上训练后的测试结果如图5~6所示。图5、图6为训练网络模型在下雪天和下雨天天气干扰下的检测分割效果。本发明算法在自动驾驶混合数据集上训练后的测试结果如图7~9所示。从图7可以看出本算法在复杂道路场景中对各类车辆以及行人的分割效果良好;在图8中,最左侧目标车辆有遮挡,但本发明算法仍然可以精确的锁定目标车辆并对其进行分割;对图9中左侧车辆因树木遮挡而模糊不清的目标车辆,分割算法仍可以克服遮挡,准确检测识别目标车辆。图10展现了在车辆和行人比较集中的十字路口,本发明算法的分割算法精度也未下降,同时还能准确分割自行车与行人。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (10)

1.基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,包括如下步骤,
S1、读取图片信息后对其进行预处理,得到图片的特征图;
S2、将特征图输入到区域推荐网络模块,得到推荐框;
S3、推荐框通过二分类层判断内部是否存在目标,然后区分推荐框中的目标和背景,利用边界回归确定目标位置,从筛选出的特征图确定ROI区域,再利用非极大值抑制NMS算法去除多余的推荐框得到精确的推荐框;
S4、对ROI区域进行处理后,掩码模块利用FCN网络对每个ROI区域进行分割,输出特征图;
S5、分类和边框回归模块收集得到ROI区域,ROI区域在此模块中计算分类损失和基于Kullback-Leibler loss边界框回归损失,利用NMS方法确定精确的推荐框,实现图片中目标的识别和分割。
2.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S1具体是首先对图片进行放缩处理,然后将其输入到特征提取网络模块的残差网络101+特征金字塔特征提取网络,再经过全卷积网络后,提取到图片的特征图。
3.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S2中区域推荐网络模块运用滑动窗遍历特征图,每个像素预测出多个锚框,产生推荐框。
4.如权利要求3所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述滑动窗的大小为3*3。
5.如权利要求3所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述每个像素预测的锚框尺寸有6种,6种尺度为{2,4,8,16,64,256},比例有9种{0.3:1,0.5:1,0.7:1,0.9:1,1:1,1.5:1,2:1,2.5:1,3:1},共54个锚框。
6.如权利要求3所述的基于改进Mask R-CNN的自动驾驶目标识别方法,
其特征在于,所述锚框基准窗设置为16*16,因此锚框的面积Sk如下,
Sk=(16*2k)K∈[1,6] (1)
锚框的长宽比为a:1,则每个锚框的宽WK、长HK如下,
Figure FDA0002981162870000021
Figure FDA0002981162870000022
7.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,
其特征在于,所述步骤S3中NMS算法的阈值筛选法公式如下,
Figure FDA0002981162870000023
式中,B={b1,b2,L L bn}是一系列初始的检验框,S={s1,s2,.....sn}是它们对应的分类得分,Nt是重叠度的阈值。
8.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S4中对ROI区域进行处理具体是对ROI区域进行双线性插值对齐操作,将其尺寸固定成统一大小。
9.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S5通过全连接层到目标物体分类结果和边界回归的偏移量,如式(5)(6)所示,
Figure FDA0002981162870000024
Figure FDA0002981162870000025
式(5)中,
Figure FDA0002981162870000026
表示分类损失,定义为
Figure FDA0002981162870000027
其中pi是区域推荐预测为目标物体概率,
Figure FDA0002981162870000031
是真实标定框标签,
Figure FDA0002981162870000032
表示边界框回归损失,定义为SmoothL1(t-t*),其中,
Figure FDA0002981162870000033
式(6)式中,xg为基本GT边界框位置,xe是待估计的边界框位置,DKL是KL距离,PD是基本GT狄拉克函数,Pθ是预测的高斯分布,H(p)为信息熵。
10.如权利要求1所述的基于改进Mask R-CNN的自动驾驶目标识别方法,其特征在于,所述步骤S5定义边界回归损失为预测分布和真实标定框分布之间的KL距离,并且将边界框位置和边界框位置的标准差一起用于评估KLloss,并用于边界框的回归。
CN202110287700.3A 2021-03-17 2021-03-17 基于改进Mask R-CNN的自动驾驶目标识别方法 Pending CN113111722A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287700.3A CN113111722A (zh) 2021-03-17 2021-03-17 基于改进Mask R-CNN的自动驾驶目标识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287700.3A CN113111722A (zh) 2021-03-17 2021-03-17 基于改进Mask R-CNN的自动驾驶目标识别方法

Publications (1)

Publication Number Publication Date
CN113111722A true CN113111722A (zh) 2021-07-13

Family

ID=76711910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287700.3A Pending CN113111722A (zh) 2021-03-17 2021-03-17 基于改进Mask R-CNN的自动驾驶目标识别方法

Country Status (1)

Country Link
CN (1) CN113111722A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657174A (zh) * 2021-07-21 2021-11-16 北京中科慧眼科技有限公司 一种车辆伪3d信息检测方法、装置与自动驾驶***
CN113705387A (zh) * 2021-08-13 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种用于激光清除架空线路异物的干扰物检测和跟踪方法
CN115063594A (zh) * 2022-08-19 2022-09-16 清驰(济南)智能科技有限公司 一种基于自动驾驶的特征提取方法及装置
CN116106899A (zh) * 2023-04-14 2023-05-12 青岛杰瑞工控技术有限公司 一种基于机器学习的港口航道小目标识别方法
CN116469014A (zh) * 2023-01-10 2023-07-21 南京航空航天大学 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN112241950A (zh) * 2020-10-19 2021-01-19 福州大学 一种塔式起重机裂缝图像的检测方法
CN112508168A (zh) * 2020-09-25 2021-03-16 上海海事大学 基于预测框自动修正的边框回归神经网络构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447018A (zh) * 2018-11-08 2019-03-08 天津理工大学 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN111027547A (zh) * 2019-12-06 2020-04-17 南京大学 一种针对二维图像中的多尺度多形态目标的自动检测方法
CN111862119A (zh) * 2020-07-21 2020-10-30 武汉科技大学 基于Mask-RCNN的语义信息提取方法
CN112508168A (zh) * 2020-09-25 2021-03-16 上海海事大学 基于预测框自动修正的边框回归神经网络构建方法
CN112241950A (zh) * 2020-10-19 2021-01-19 福州大学 一种塔式起重机裂缝图像的检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Q. YANG 等: "An Instance Segmentation Algorithm Based on Improved Mask R-CNN", 《2020 CHINESE AUTOMATION CONGRESS (CAC)》, pages 4804 - 4809 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657174A (zh) * 2021-07-21 2021-11-16 北京中科慧眼科技有限公司 一种车辆伪3d信息检测方法、装置与自动驾驶***
CN113705387A (zh) * 2021-08-13 2021-11-26 国网江苏省电力有限公司电力科学研究院 一种用于激光清除架空线路异物的干扰物检测和跟踪方法
CN113705387B (zh) * 2021-08-13 2023-11-17 国网江苏省电力有限公司电力科学研究院 一种用于激光清除架空线路异物的干扰物检测和跟踪方法
CN115063594A (zh) * 2022-08-19 2022-09-16 清驰(济南)智能科技有限公司 一种基于自动驾驶的特征提取方法及装置
CN115063594B (zh) * 2022-08-19 2022-12-13 清驰(济南)智能科技有限公司 一种基于自动驾驶的特征提取方法及装置
CN116469014A (zh) * 2023-01-10 2023-07-21 南京航空航天大学 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法
CN116469014B (zh) * 2023-01-10 2024-04-30 南京航空航天大学 基于优化Mask R-CNN的小样本卫星雷达图像帆板识别和分割方法
CN116106899A (zh) * 2023-04-14 2023-05-12 青岛杰瑞工控技术有限公司 一种基于机器学习的港口航道小目标识别方法
CN116106899B (zh) * 2023-04-14 2023-06-23 青岛杰瑞工控技术有限公司 一种基于机器学习的港口航道小目标识别方法

Similar Documents

Publication Publication Date Title
CN111368687B (zh) 一种基于目标检测和语义分割的人行道车辆违停检测方法
CN109977812B (zh) 一种基于深度学习的车载视频目标检测方法
CN109447018B (zh) 一种基于改进Faster R-CNN的道路环境视觉感知方法
CN113111722A (zh) 基于改进Mask R-CNN的自动驾驶目标识别方法
CN109033950B (zh) 基于多特征融合级联深度模型的车辆违停检测方法
CN108596055B (zh) 一种复杂背景下高分辨遥感图像的机场目标检测方法
CN108305260B (zh) 一种图像中角点的检测方法、装置及设备
CN111709416A (zh) 车牌定位方法、装置、***及存储介质
CN111461039B (zh) 基于多尺度特征融合的地标识别方法
CN108804992B (zh) 一种基于深度学习的人群统计方法
CN114973002A (zh) 一种基于改进的YOLOv5的麦穗检测方法
CN106778633B (zh) 一种基于区域分割的行人识别方法
CN111274926B (zh) 图像数据筛选方法、装置、计算机设备和存储介质
CN113343985B (zh) 车牌识别方法和装置
CN117094914B (zh) 基于计算机视觉的智慧城市道路监控***
CN112861970B (zh) 一种基于特征融合的细粒度图像分类方法
KR101941043B1 (ko) 고화질 항공 이미지에서의 물체 검출 방법
CN111582339A (zh) 一种基于深度学习的车辆检测与识别的方法
CN104766065A (zh) 基于多视角学习的鲁棒性前景检测方法
CN112634368A (zh) 场景目标的空间与或图模型生成方法、装置及电子设备
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN112766273A (zh) 一种车牌识别方法
CN110176022B (zh) 一种基于视频检测的隧道全景监控***及方法
CN111553337A (zh) 一种基于改进锚框的高光谱多目标检测方法
CN110751670B (zh) 一种基于融合的目标跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination