CN116958927A - 一种基于bev图识别矮小柱状体的方法及装置 - Google Patents
一种基于bev图识别矮小柱状体的方法及装置 Download PDFInfo
- Publication number
- CN116958927A CN116958927A CN202311089079.5A CN202311089079A CN116958927A CN 116958927 A CN116958927 A CN 116958927A CN 202311089079 A CN202311089079 A CN 202311089079A CN 116958927 A CN116958927 A CN 116958927A
- Authority
- CN
- China
- Prior art keywords
- bev
- image
- mask
- original image
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000010586 diagram Methods 0.000 claims abstract description 19
- 238000013527 convolutional neural network Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 claims description 3
- 240000004050 Pentaglottis sempervirens Species 0.000 claims description 2
- 238000001514 detection method Methods 0.000 abstract description 20
- 230000011218 segmentation Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000007429 general method Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/588—Recognition of the road, e.g. of lane markings; Recognition of the vehicle driving pattern in relation to the road
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及矮小柱状体识别技术领域,解决了现有技术针对道路两侧矮小柱状体识别、检测难度较大的技术问题,尤其涉及一种基于BEV图识别矮小柱状体的方法及装置,该方法包括以下步骤:S1、获取相机拍摄当前任一段道路的图像作为原始图像;S2、在原始图像上确定目标空间范围,进而确定目标空间范围的地面表达,生成目标空间的BEV图。本发明解决了由于原始图像中的矮小柱状体或者在图像中呈现矮小所造成检测困难的问题,生成BEV图像后可以得到拉伸变长,所以在BEV图上的检测可以大幅度降低难度,同时提高对于矮小柱状体的识别精度。
Description
技术领域
本发明涉及矮小柱状体识别技术领域,尤其涉及一种基于BEV图识别矮小柱状体的方法及装置。
背景技术
在地图更新过程中,经常需要对道路信息进行更新。同样在自动驾驶领域,也需要实时获取道路状况信息。道路两侧通常存在一些路桩、里程碑等柱状体,是道路信息的重要组成元素,需要准确识别。目前这类柱状体的识别主要基于卷积神经网络CNN。
在现有技术中,对道路两侧柱状体的识别均直接输入原始图像进行识别,可能存在小物体识别困难问题,即当物体较小的时候,上述方案识别物体的AP(averageprecision)较低。主要原因是,物体的可视范围较小,在训练数据有限情况下,可能识别效果较差。透视图存在近大远小的问题,物理世界中,成像时距离相机较远的矮小柱状体呈现在图像上更为矮小,导致增加了检测难度。
发明内容
针对现有技术的不足,本发明提供了一种基于BEV图识别矮小柱状体的方法及装置,解决了现有技术针对道路两侧矮小柱状体识别、检测难度较大的技术问题。
为解决上述技术问题,本发明提供了如下技术方案:一种基于BEV图识别矮小柱状体的方法,该方法包括以下步骤:
S1、获取相机拍摄当前任一段道路的图像作为原始图像;
S2、在原始图像上确定目标空间范围,进而确定目标空间范围的地面表达,生成目标空间的BEV图,BEV图即鸟瞰图;
S3、采用识别模型对BEV图进行识别,并将矮小柱状体在BEV图中的顶点和底点以及准确边界掩码mask投影到原始图像上,得到原始图像中矮小柱状体的识别结果,识别模型包括Mask-R-CNN网络和DETR模型;
Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask;
DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点;
S4、输出图像中矮小柱状体的识别结果。
进一步地,在步骤S2中,具体过程包括以下步骤:
S21、以原始图像中所包含道路的两侧边界确定外扩边界,通常以道路边界为起点向外扩展1m-2m;
S22、以两侧外扩边界之间的距离作为BEV图的宽度范围w,以从当前相机位置向前延伸的距离h作为BEV图的高度范围,目标空间范围内所有像素点的Z坐标表示为地面表达-H,BEV图的分辨率,由前述宽度范围以及高度范围并结合每个像素表示的距离确定;
S23、定义BEV网格,BEV网格区域的宽和高分别为width、height;
S24、根据世界坐标系坐标与像素坐标的对应关系计算BEV图中每个点在原始图像的像素坐标,使用双线性内插方法进行采样,得到每个点的RGB彩色值,生成BEV图。
进一步地,在步骤S22中,确定地面表达包括两种方式,分别为:
假设道路的地面为平面,目标空间范围内所有点的Z坐标为-H,则地面表达为-H,H为相机高度;
使用地面提取算法得到精确的地面,目标空间范围内所有点的Z坐标为真实值。
进一步地,在步骤S3中,Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask,具体过程包括以下步骤:
S311、将BEV图输入到一个预训练好的神经网络中获得对应的特征图featuremap,预训练好的神经网络包括但不限于ResNet、RegNet、HRNet;
S312、对这个特征图feature map中的每一点设定预定的感兴趣区域ROI,即柱状体,从而获得多个候选感兴趣区域ROI;
S313、将多个候选感兴趣区域ROI送入RPN网络进行二值分类和BB回归,过滤掉一部分候选感兴趣区域ROI;
S314、对过滤后所剩下的bounding box回归结果的感兴趣区域ROI进行ROIAlign操作;
S315、对经过ROIAlign操作的候选感兴趣区域ROI进行N类别分类、BB回归和准确边界掩码mask生成。
进一步地,Mask-R-CNN网络的损失函数L表示为:
L=Lcls+Lbox+Lmask
上式中,Lcls为分类损失,Lbox为bounding box损失,Lmask为二值交叉熵损失。
进一步地,在步骤S3中,DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点,具体过程包括以下步骤:
S321、向DETR模型中输入矮小柱状体以及相对应的准确边界掩码mask,得到BEV图的特征矩阵;
S322、将包含特征矩阵的BEV图拉直并添加位置编码;
S323、将步骤S322得到的BEV图输入Transformer encoder中学习特征的相关性信息;
S324、将encoder输出以及object query作为decoder的输入得到解码后的信息;
S325、将解码后的信息传入前馈神经网络FFN得到预测信息;
S326、判断前馈神经网络FFN输出的预测信息中是否包含柱状体的目标对象;
如果有,则输出所有柱状体对象所对应的顶点和底点;
如果否,则输出no object类。
借由上述技术方案,本发明提供了一种基于BEV图识别矮小柱状体的方法及装置,至少具备以下有益效果:
1、本发明通过采用BEV图而区别于一般的直接使用原始图像进行目标检测的方式,先对原始图像进行变形生成BEV图像,解决了由于原始图像中的矮小柱状体或者在图像中呈现矮小所造成检测困难的问题,生成BEV图像后可以得到拉伸变长,所以在BEV图上的检测可以大幅度降低难度,同时提高对于矮小柱状体的识别精度。
2、本发明通过原始图像进行目标空间范围的定义,将道路边界两侧向外扩展,有效地包含道路两侧的所有目标柱状体,能够对实际的道路场景中所包含的路桩、里程碑等柱状体进行全范围覆盖,从而有效地对场景中的矮小柱状体进行识别。
3、本发明通过Mask-R-CNN网络提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask作为特征,随后采用DETR模型对特征中的顶点和底点进行识别,以柱状体结构简单,同时使用顶点和底点表示可以减少冗余信息,而且基于DETR算法,直接输出柱状体的顶点和底点,因此对于柱状体识别的表示方便简洁。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本发明识别矮小柱状体方法的流程图;
图2为本发明在原始图像中定义目标空间范围的示意图;
图3为本发明BEV图的宽度width和高度height示意图;
图4为本发明由原始图像中目标空间范围生成的BEV图;
图5为本发明Mask-R-CNN网络的网络架构图;
图6为本发明DETR模型的网络架构图;
图7为本发明BEV图中矮小柱状体的顶点和底点的识别结果图;
图8为本发明矮小柱状体的顶点和底点在原始图像中的识别结果图;
图9为本发明矮小柱状体识别装置的结构框图。
图中:10、原始图像获取模块;20、BEV图生成模块;30、识别模块;40、输出模块。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
在地图更新过程中,经常需要对道路信息进行更新。同样在自动驾驶领域,也需要实时获取道路状况信息。道路两侧通常存在一些路桩、里程碑等柱状体,是道路信息的重要组成元素,需要准确识别。目前这类柱状体的识别主要基于卷积神经网络CNN,通常有以下几种方案:
1、采用单阶段或者多阶段神经网络,如YOLO、Faster-R-CNN系列等模型,输出物体的包围框,即bounding box。
2、在1的基础上,增加对物体实例分割的能力,可以同时识别物体边界框并生成每个物体的准确边界掩码,即mask。
3、抽象物体的表达方式为多边形(polygon)或者点线形(polylines),以类DETR的方式,直接输出物体的表达。
上述所有的方案,均直接将原始图像(室外自动驾驶车、地图采集车采集的数据)直接输入网络对物体进行识别,可能存在小物体识别困难问题,即:当物体较小的时候,上述方案识别物体的AP(average precision)较低。主要原因是,物体的可视范围较小,在训练数据有限的情况下,可能识别效果较差;透视图存在近大远小的问题,物理世界中,成像时距离相机较远的矮小柱状体呈现在图像上更为矮小,导致增加了检测难度。
本方案针对距离相机较远的柱状体在原始图像上成像较小的问题,对原始图像进行有效变形,使其看起来被拉伸放大,从而便于网络的学习,提高物体的准召率。
请参照图1-图9,示出了本实施例的一种具体实施方式,本实施例通过先对原始图像进行目标空间范围定义,然后对目标空间范围所在的区域进行变形生成相对应的BEV图,用于将原始图像中距离相机较远的物体拉伸变大,便于对图中的柱状体进行识别,同时将物理大小一致的物体,在BEV图中也保持一致,不会产生近大远小的现象,并且在得到柱状体在BEV图中的识别结果后,通过BEV图与原始图像的对应关系,进而得到矮小柱状体在原始图像中的识别结果。
请参照图1,本实施例提出了一种基于BEV图识别矮小柱状体的方法,该方法包括以下步骤:
S1、获取相机拍摄当前任一段道路的图像作为原始图像,对于原始图像的获取可通过相机或其他拍摄设备对某一段道路进行拍摄,所拍摄的图像需要清晰可见,并且图像中应包含道路两侧以外的景象,如图2所示的图像。
S2、在原始图像上确定目标空间范围,进而确定目标空间范围的地面表达,生成目标空间的BEV图;BEV图的全称为Bird's-eye-view,即鸟瞰图视角,如图4所示。
如图2所示,在原始图像中所确定的目标空间范围为图中的矩形区域,在图2中,目标空间范围的边界是以道路两侧的边界向外侧扩展1m-2m的距离,对目标空间范围进行定义,将道路边界两侧向外扩展,有效地包含道路两侧的所有目标柱状体,能够对实际的道路场景中所包含的路桩、里程碑等柱状体进行全范围覆盖,从而有效地对场景中的矮小柱状体进行识别,在步骤S2中,具体过程包括以下步骤:
S21、以原始图像中所包含道路的两侧边界确定外扩边界,通常以道路边界为起点向外扩展1m-2m。
S22、以两侧外扩边界之间的距离作为BEV图的宽度范围w,以从当前相机位置向前延伸的距离h作为BEV图的高度范围。目标空间范围内所有像素点的Z坐标表示为-H,BEV图的分辨率,由前述宽度范围以及高度范围并结合每个像素表示的距离确定。
比如,以r表示每个像素的长度,则BEV图的width=w/r,height=h/r。对于BEV图上的每一个像素(u,v),其对应的空间坐标为(min_x+u*r,min_y+v*r,-H),min_x、min_y分别为目标空间范围x坐标和y坐标的最小值;确定地面表达包括两种方式,分别为:
假设道路的地面为平面,目标空间范围内所有点的Z坐标为-H,则地面表达为-H,H为相机高度;
使用地面提取算法得到精确的地面,目标空间范围内所有点的Z坐标为真实值Z=f(x,y),(x,y,f(x,y))为目标空间范围内所有点的坐标,基于地面提取算法所取得的坐标,不再是一个固定值,但是仍然以相机为中心,相对来说在条件满足的情况下,以真实值作为地面表达会更精确,因此两种地面表达方式可根据实际情况进行选择。
S23、定义BEV网格,BEV网格区域的宽和高分别为width、height,如图3所示。
S24、根据世界坐标系坐标与像素坐标的对应关系计算BEV图中每个点在原始图像的像素坐标,使用双线性内插方法进行采样,得到每个点的RGB彩色值,生成BEV图,在该步骤中,定义每一个BEV像素的表示的物理高度和宽度均为r(类似地理地图中的比例尺要素),则BEV图像对应的目标空间范围的宽度和高度分别为width/r,height/r。
在步骤S24中,三维空间点与二维图像像素的关系可以表述为:
其中,X表示世界坐标系坐标,R表示相机坐标系相对于世界坐标系的旋转矩阵,T表示相机坐标系相对于世界坐标系的平移向量,K表示相机内参,u、v表示像素坐标,z为三维点在相机坐标系下的z坐标。
需要说明的是,相机坐标系是指以相机摄影中心为原点,以光轴方向向前为Z轴,X轴、Y轴与图像平面平行,向右为X轴,向下为Y轴,遵循右手坐标系法则。
世界坐标系是指在三维空间中定义一个基准坐标系来描述摄像机及三维空间中其他物体的位置,通常使用右手坐标系,相机坐标系与世界坐标系之间的关系可以用旋转矩阵与平移向量来描述。
由于原始图像的像素物理坐标系x轴向右,y轴向下,z轴向前,而BEV图的像素物理坐标系x轴向右,y轴向前,z轴向上,两个坐标系原点相同,因此,只存在旋转R,不存在平移T,即,T=0,所以对应的R和T为:
需要说明的是,像素物理坐标系就是相机坐标系,世界坐标系就是BEV图的像素物理坐标系。
相机内参K为:其中,fx、fy为相机焦距,cx、cy为主点坐标,都以像素为单位。
根据世界坐标与像素坐标的对应关系,通过公式(1)计算出BEV网格中每个点在原始图像中的像素坐标,使用双线性内插法进行采样,得到每个网格点的RGB彩色值,生成BEV图。如图4所示,为图2中的目标空间范围经过上述方法而生成的BEV图,本实施例通过采用BEV图而区别于一般的直接使用原始图像进行目标检测的方式,先对原始图像进行变形生成BEV图像,由于原始图像中距离相机较远的柱状体在图像中呈现矮小,因此造成检测困难,生成BEV图像后可以得到拉伸变长,所以在BEV图上的检测可以降低难度,同时提高对于矮小柱状体的识别精度。
S3、采用识别模型对BEV图进行识别,并将矮小柱状体在BEV图中的顶点和底点以及准确边界掩码mask投影到原始图像上,得到原始图像中矮小柱状体的识别结果,识别模型包括Mask-R-CNN网络和DETR模型;Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask,如图5所示为Mask-R-CNN网络的网络架构图,Mask-R-CNN是一种实例分割算法,是对Faster-R-CNN的扩展,在检测目标的同时输出高质量的实例分割mask。Mask-R-CNN具有高速、高准确率、简单直观等优势,目前在目标检测、目标实例分割、目标关键点检测方面都取得很好效果。
Mask-R-CNN采用了和Faster-R-CNN相同的两步走策略,不同于Faster-R-CNN中使用分类和回归的多任务回归,Mask-R-CNN在其基础上并行添加了一个用于语义分割的Mask损失函数,所以Mask-R-CNN网络的损失函数L可以表示为:
L=Lcls+Lbox+Lmask
上式中,Lcls为分类损失,Lbox为bounding box损失,Lmask为二值交叉熵损失。Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask,具体过程包括以下步骤:
S311、将BEV图输入到一个预训练好的神经网络中获得对应的特征图featuremap,预训练好的神经网络包括但不限于ResNet、RegNet、HRNet;
S312、对这个特征图feature map中的每一点设定预定的感兴趣区域ROI,即柱状体,从而获得多个候选感兴趣区域ROI;
S313、将多个候选感兴趣区域ROI送入RPN网络进行二值分类(前景或背景)和BB回归,过滤掉一部分候选感兴趣区域ROI;
S314、对过滤后所剩下的bounding box回归结果的感兴趣区域ROI进行ROIAlign操作,即先将BEV图和特征图feature map的像素pixel对应起来,然后将特征图featuremap和固定的特征feature对应起来,ROIAlign操作是指在区域特征聚集操作,通过取消量化操作,使用双线性内插的方法获得坐标为浮点数的像素点上的图像数值,从而将整个特征聚集过程转化为一个连续的操作,并且引入了一个插值过程,先通过双线性插值到14*14,再pooling到7*7,很大程度上解决了仅通过Pooling直接采样带来的Misalignment问题,ROIAlign操作能将像素对齐,满足了图像语义分割的准确度要求,该方法为Mask-R-CNN网络中的常规技术手段,因此不再详细赘述。
S315、对经过ROIAlign操作的候选感兴趣区域ROI进行N类别分类、BB回归和准确边界掩码mask生成,具体为在每一个候选感兴趣区域ROI里面进行FCN操作,即通过全卷积神经网络FCN进行卷积操作,从而生成准确边界掩码mask。
Mask-R-CNN网络能够有效地检测BEV图中的感兴趣区域ROI,同时为每个感兴趣区域ROI生成高质量的准确边界掩码mask,不仅提高了对于矮小柱状体特征提取的精度和速度,并且生成的准确边界掩码mask与原始图像具有相同的尺寸和像素值范围,以便后续处理和分析。
Mask-R-CNN网络采用了FPN特征金字塔,在以往的检测中Fast-R-CNN和ROI的作用都在最后一层,这对于大目标检测没有什么问题,但是对于小目标的检测,精度系数不够。因为对于小目标而言,当进行卷积池化到最后一层的时候,实际上的语义信息已经没有了,因为ROI映射到某个feature map的方法就是将底层坐标除以stride,显然可以理解,映射到feature map后就很小甚至没有。所以为了解决多尺度检测问题,引入了特征金字塔网络。FPN是为了自然地利用CNN层,以融合具有高分辨率的浅层layer,来具备高语义特征。
Mask-R-CNN网络采用了ROIAlign,假定原图中有一region proposal,大小为665*665,这样,映射到特征图中的大小:665/32=20.78,即20.78*20.78,此时,没有像ROIPooling那样就行取整操作,而是保留浮点数。采用了双线性差值的方法,因为如果ROIPooling的输出大小是7x7上,如果RON网络输出的ROI大小是8*8的,那么无法保证输入像素和输出像素是一一对应,首先他们包含的信息量不同,有的是1对1,有的是1对2,其次他们的坐标无法和输入对应起来。
Mask-R-CNN网络引入了语义分割分支,实现了mask和class预测的关系的解耦,mask分支只做语义分割,类型预测的任务交给另一个分支。这与原本的FCN网络是不同的,原始的FCN在预测mask时还用同时预测mask所属的种类,即实现步骤S35中的N类别分类。
如图6所示,为DETR模型的网络架构图,DETR(DEtection TRansformer)是Facebook提出的基于Transformer的端到端目标检测网络,发表于ECCV2020。Transformer自2017年被提出以来,迅速得到了广泛应用,该模型是Transformer用在目标检测领域的开山之作。DETR去除了NMS、Anchor设计,极大地简化了目标检测的pipeline。
在本实施中使用DETR模型以顶点、底点进行表示柱状体而完成检测识别,在本实施例中,DETR模型用于匹配的损失函数是匈牙利算法,用于DETR模型训练的损失函数L表示为:
L=λLcls+αLP2P
其中,Lcls为分类损失,λ和α的取值为0.5。
其中,P表示polylines(点线形),每个柱状体用一条线段表示(顶底、底点两个端点及其连线),S表示N个柱状体,ci表示任一个柱状体,表示每个柱状体顶点或底点的预测值,vj表示每个柱状体顶点或底点得真实值,DManhattan表示曼哈顿距离。
采用DETR模型在BEV图中识别用于表示矮小柱状体的顶点和底点;具体过程包括以下步骤:
S321、向DETR模型中输入矮小柱状体以及相对应的准确边界掩码mask,得到BEV图的特征矩阵;
S322、将包含特征矩阵的BEV图拉直并添加位置编码;
S323、将步骤S322得到的BEV图输入Transformer encoder中学习特征的相关性信息;
S324、将encoder输出以及object query作为decoder的输入得到解码后的信息;
S325、将解码后的信息传入前馈神经网络FFN得到预测信息;
S326、判断前馈神经网络FFN输出的预测信息中是否包含柱状体的目标对象;
如果有,则输出所有柱状体对象所对应的顶点和底点;
如果否,则输出no object类。
如图7所示,为通过DETR模型对BEV图中矮小柱状体的顶点和底点的识别结果,以图4所示的BEV图为例,本实施例通过Mask-R-CNN网络提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask作为特征,随后采用DETR模型对特征中的顶点和底点进行识别,以柱状体结构简单,同时使用顶点和底点表示可以减少冗余信息,而且基于DETR算法,直接输出柱状体的顶点和底点,因此对于柱状体识别的表示方便简洁。
S5、将矮小柱状体在BEV图中的顶点和底点投影到原始图像上,得到在原始图像上的识别结果。在该步骤中,将BEV图中识别得到的矮小柱状体的顶点、底点相对应的坐标,通过公式(1)中描述的对应关系即可计算出矮小柱状体在原始图像中的顶点、底点坐标,从而得到柱状体在原始图像的识别结果,如图8所示,为矮小柱状体的顶点和底点在原始图像中的识别结果。
本实施例通过在原始图像中定义目标空间范围,生成BEV图,将原始图像中拍摄时距离相机较远的物体拉伸变大,便于对图中的柱状体进行识别,同时将物理大小一致的物体,在BEV图中也保持一致,不会产生近大远小的现象,并且在得到柱状体在BEV图中的识别结果后,通过BEV图与原始图像的对应关系,进而得到矮小柱状体在原始图像中的识别结果。
与上述实施例提供的矮小柱状体识别方法相对应,本实施例还提供矮小柱状体识别方法的装置,由于本实施例提供的矮小柱状体识别装置与上述实施例提供的矮小柱状体识别方法相对应,因此前述矮小柱状体识别方法的实施方式也适用于本实施例提供的矮小柱状体识别装置,在本实施例中不再详细描述。
请参阅图9,其所示为本实施例提供的矮小柱状体识别装置的结构框图,该矮小柱状体识别装置包括,原始图像获取模块10、BEV图生成模块20、识别模块30和输出模块40,其中:
原始图像获取模块10用于获取相机拍摄当前任一段道路的图像作为原始图像;BEV图生成模块20用于确定原始图像上的目标空间范围,以及对应目标空间范围的地面表达生成基于目标空间范围的BEV图;识别模块30用于采用识别模型对BEV图进行识别,并将矮小柱状体在BEV图中的顶点和底点投影到原始图像上,得到原始图像中矮小柱状体的识别结果,识别模型包括Mask-R-CNN网络和DETR模型;Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask;DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点;输出模块40用于输出图像中矮小柱状体的识别结果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (7)
1.一种基于BEV图识别矮小柱状体的方法,其特征在于,该方法包括以下步骤:
S1、获取相机拍摄当前任一段道路的图像作为原始图像;
S2、在原始图像上确定目标空间范围,进而确定目标空间范围的地面表达,生成目标空间的BEV图,BEV图即鸟瞰图;
S3、采用识别模型对BEV图进行识别,并将矮小柱状体在BEV图中的顶点和底点以及准确边界掩码mask投影到原始图像上,得到原始图像中矮小柱状体的识别结果,识别模型包括Mask-R-CNN网络和DETR模型;
Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask;
DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点;
S4、输出图像中矮小柱状体的识别结果。
2.根据权利要求1所述的识别矮小柱状体的方法,其特征在于,在步骤S2中,具体过程包括以下步骤:
S21、以原始图像中所包含道路的两侧边界确定外扩边界,通常以道路边界为起点向外扩展1m-2m;
S22、以两侧外扩边界之间的距离作为BEV图的宽度范围w,以从当前相机位置向前延伸的距离h作为BEV图的高度范围,目标空间范围内所有像素点的Z坐标表示为地面表达-H,BEV图的分辨率,由前述宽度范围以及高度范围并结合每个像素表示的距离确定;
S23、定义BEV网格,BEV网格区域的宽和高分别为width、height;
S24、根据世界坐标系坐标与像素坐标的对应关系计算BEV图中每个点在原始图像的像素坐标,使用双线性内插方法进行采样,得到每个点的RGB彩色值,生成BEV图。
3.根据权利要求1所述的识别矮小柱状体的方法,其特征在于,在步骤S22中,确定地面表达包括两种方式,分别为:
假设道路的地面为平面,目标空间范围内所有点的Z坐标为-H,则地面表达为-H,H为相机高度;
使用地面提取算法得到精确的地面,目标空间范围内所有点的Z坐标为真实值。
4.根据权利要求1所述的识别矮小柱状体的方法,其特征在于,在步骤S3中,Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask,具体过程包括以下步骤:
S311、将BEV图输入到一个预训练好的神经网络中获得对应的特征图feature map,预训练好的神经网络包括但不限于ResNet、RegNet、HRNet;
S312、对这个特征图feature map中的每一点设定预定的感兴趣区域ROI,即柱状体,从而获得多个候选感兴趣区域ROI;
S313、将多个候选感兴趣区域ROI送入RPN网络进行二值分类和BB回归,过滤掉一部分候选感兴趣区域ROI;
S314、对过滤后所剩下的bounding box回归结果的感兴趣区域ROI进行ROIAlign操作;
S315、对经过ROIAlign操作的候选感兴趣区域ROI进行N类别分类、BB回归和准确边界掩码mask生成。
5.根据权利要求1或4所述的识别矮小柱状体的方法,其特征在于,Mask-R-CNN网络的损失函数L表示为:
L=Lcls+Lbox+Lmask
上式中,Lcls为分类损失,Lbox为bounding box损失,Lmask为二值交叉熵损失。
6.根据权利要求1所述的识别矮小柱状体的方法,其特征在于,在步骤S3中,DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点,具体过程包括以下步骤:
S321、向DETR模型中输入矮小柱状体以及相对应的准确边界掩码mask,得到BEV图的特征矩阵;
S322、将包含特征矩阵的BEV图拉直并添加位置编码;
S323、将步骤S322得到的BEV图输入Transformer encoder中学习特征的相关性信息;
S324、将encoder输出以及object query作为decoder的输入得到解码后的信息;
S325、将解码后的信息传入前馈神经网络FFN得到预测信息;
S326、判断前馈神经网络FFN输出的预测信息中是否包含柱状体的目标对象;
如果有,则输出所有柱状体对象所对应的顶点和底点;
如果否,则输出no object类。
7.一种用于实现上述权利要求1-6任一项所述的矮小柱状体识别方法的装置,其特征在于,该装置包括:
原始图像获取模块(10),所述原始图像获取模块(10)用于获取相机拍摄当前任一段道路的图像作为原始图像;
BEV图生成模块(20),所述BEV图生成模块(20)用于确定原始图像上的目标空间范围,以及对应目标空间范围的地面表达确定基于目标空间范围的BEV图;
识别模块(30),所述识别模块(30)用于采用识别模型对BEV图进行识别,并将矮小柱状体在BEV图中的顶点和底点投影到原始图像上,得到原始图像中矮小柱状体的识别结果,识别模型包括Mask-R-CNN网络和DETR模型;
Mask-R-CNN网络用于提取BEV图中的矮小柱状体以及相对应的准确边界掩码mask;
DETR模型用于在BEV图中识别表示矮小柱状体的顶点和底点;
输出模块(40),所述输出模块(40)用于输出图像中矮小柱状体的识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311089079.5A CN116958927A (zh) | 2023-08-28 | 2023-08-28 | 一种基于bev图识别矮小柱状体的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311089079.5A CN116958927A (zh) | 2023-08-28 | 2023-08-28 | 一种基于bev图识别矮小柱状体的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958927A true CN116958927A (zh) | 2023-10-27 |
Family
ID=88449321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311089079.5A Pending CN116958927A (zh) | 2023-08-28 | 2023-08-28 | 一种基于bev图识别矮小柱状体的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958927A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455923A (zh) * | 2023-12-26 | 2024-01-26 | 通达电磁能股份有限公司 | 一种基于yolo检测器的绝缘子缺陷检测方法及*** |
-
2023
- 2023-08-28 CN CN202311089079.5A patent/CN116958927A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117455923A (zh) * | 2023-12-26 | 2024-01-26 | 通达电磁能股份有限公司 | 一种基于yolo检测器的绝缘子缺陷检测方法及*** |
CN117455923B (zh) * | 2023-12-26 | 2024-03-15 | 通达电磁能股份有限公司 | 一种基于yolo检测器的绝缘子缺陷检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797716B (zh) | 一种基于Siamese网络的单目标跟踪方法 | |
CN110059558B (zh) | 一种基于改进ssd网络的果园障碍物实时检测方法 | |
CN109800689B (zh) | 一种基于时空特征融合学习的目标跟踪方法 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN110688905B (zh) | 一种基于关键帧的三维物体检测与跟踪方法 | |
CN113516664A (zh) | 一种基于语义分割动态点的视觉slam方法 | |
CN111998862B (zh) | 一种基于bnn的稠密双目slam方法 | |
US11790661B2 (en) | Image prediction system | |
CN111144213A (zh) | 一种对象检测方法和相关设备 | |
CN110516639B (zh) | 一种基于视频流自然场景的人物三维位置实时计算方法 | |
CN113139602A (zh) | 基于单目相机和激光雷达融合的3d目标检测方法及*** | |
CN116958927A (zh) | 一种基于bev图识别矮小柱状体的方法及装置 | |
CN108710879B (zh) | 一种基于网格聚类算法的行人候选区域生成方法 | |
CN111476089A (zh) | 一种图像中多模态信息融合的行人检测方法、***及终端 | |
CN104463962B (zh) | 基于gps信息视频的三维场景重建方法 | |
CN111626241A (zh) | 一种人脸检测方法及装置 | |
CN113065506B (zh) | 一种人体姿态识别方法及*** | |
CN111198563B (zh) | 一种用于足式机器人动态运动的地形识别方法及*** | |
Chen et al. | Stingray detection of aerial images with region-based convolution neural network | |
CN112529917A (zh) | 一种三维目标分割方法、装置、设备和存储介质 | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
CN111738061A (zh) | 基于区域特征提取的双目视觉立体匹配方法及存储介质 | |
CN116758148A (zh) | 动态环境下的slam方法和*** | |
CN113920254B (zh) | 一种基于单目rgb的室内三维重建方法及其*** | |
Han et al. | GardenMap: Static point cloud mapping for Garden environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |