CN115346194A - 一种三维检测方法、装置、电子设备及存储介质 - Google Patents

一种三维检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115346194A
CN115346194A CN202211023285.1A CN202211023285A CN115346194A CN 115346194 A CN115346194 A CN 115346194A CN 202211023285 A CN202211023285 A CN 202211023285A CN 115346194 A CN115346194 A CN 115346194A
Authority
CN
China
Prior art keywords
target object
depth
target
original image
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211023285.1A
Other languages
English (en)
Inventor
段由
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Elite Road Technology Co ltd
Original Assignee
Beijing Elite Road Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Elite Road Technology Co ltd filed Critical Beijing Elite Road Technology Co ltd
Priority to CN202211023285.1A priority Critical patent/CN115346194A/zh
Publication of CN115346194A publication Critical patent/CN115346194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供了一种三维检测方法、装置、电子设备及存储介质,涉及人工智能领域,尤其涉及智能交通领域、自动驾驶领域、智慧停车领域等。具体实现方案为:对原始图像进行目标检测,得到目标物体的第一参数集合,该第一参数集合中包括该目标物体的类别、该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值、该目标物体的尺寸和该目标物体的角度中的至少之一;对该原始图像进行深度检测,得到该原始图像中各个像素的深度;利用该原始图像中各个像素的深度,确定该目标物体的深度;以及,将该第一参数集合和该目标物体的深度进行组合,以得到该目标物体的三维检测参数。本公开可以对物体进行三维检测。

Description

一种三维检测方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能领域,尤其涉及智能交通领域、自动驾驶领域、智慧停车领域等。
背景技术
三维检测又称为3D(Three Dimensional)检测,能够反映场景中物体的立体形状。三维检测是自动驾驶、智慧交通、智慧停车等领域必不可少的技术。
发明内容
本公开提供了一种三维检测方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种三维检测方法,包括:
对原始图像进行目标检测,得到目标物体的第一参数集合,该第一参数集合中包括该目标物体的类别、该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值、该目标物体的尺寸和该目标物体的角度中的至少之一;
对该原始图像进行深度检测,得到该原始图像中各个像素的深度;利用该原始图像中各个像素的深度,确定该目标物体的深度;以及,
将该第一参数集合和该目标物体的深度进行组合,以得到该目标物体的三维检测参数。
根据本公开的另一方面,提供了一种三维检测装置,包括:
目标检测模块,用于对原始图像进行目标检测,得到目标物体的第一参数集合,该第一参数集合中包括该目标物体的类别、该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值、该目标物体的尺寸和该目标物体的角度中的至少之一;
深度检测模块,用于对该原始图像进行深度检测,得到该原始图像中各个像素的深度;利用该原始图像中各个像素的深度,确定该目标物体的深度;以及,
组合模块,用于将该第一参数集合和该目标物体的深度进行组合,以得到该目标物体的三维检测参数。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
本公开通过结合目标检测和深度检测的结果,可以得到原始图像中目标物体的三维检测参数。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是是可以应用本公开实施例的三维检测方法的一种***100架构示意图;
图2是根据本公开实施例的一种三维检测方法200的实现流程图;
图3是根据本公开一实施例的三维坐标系示意图;
图4是根据本公开一实施例的目标检测模型400的示意图;
图5是根据本公开一实施例的深度检测模型500的示意图;
图6是根据本公开一实施例的三维检测方法的整体流程图;
图7A是本公开一实施例中第一区域的示意图一;
图7B是本公开一实施例中第一区域的示意图二;
图7C是本公开一实施例中第一区域的示意图三;
图7D是本公开一实施例中第一区域的示意图四;
图8是根据本公开一实施例的三维检测装置800的结构示意图;
图9是根据本公开一实施例的三维检测装置900的结构示意图;
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,为了更好地说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,三维检测有广泛的应用需求。三维检测用于检测场景中物体的立体形状。例如,在自动驾驶、智能交通、智慧停车等场景中,需要确定目标物体(如车辆、行人等)的立体形状和位置等信息。
目前已有的三维(3D)检测方法主要有:
1、采用激光雷达得到点云,之后利用点云数据进行3D目标检测。具体地,由激光器发射一个激光脉冲,并由计时器记录下出发射的时间,返回的激光脉冲由接收器接收,并由计时器记录下返回的时间。两个时间相减即得到了光的“飞行时间”,而光速是一定的,因此在已知速度和时间后就可以计算出距离。
2、采用双目相机进行3D检测。此方案需要对相机进行标定,得到相机的内外参。通过对两幅图像视差的计算,直接对前方景物(图像所拍摄到的范围)进行距离测量,而无需判断前方出现的是什么类型的障碍物。双目摄像头的原理与人眼相似。人眼能够感知物体的远近,是由于两只眼睛对同一个物体呈现的图像存在差异,也称“视差”。物体距离越远,视差越小;反之,视差越大。
3、采用单目相机和深度学习算法进行3D检测。单目相机是日常常见的相机,只有一个摄像头。从原理上看,单目相机得到的是二维(Two Dimensional,2D)图像,无法得到3D视角。但是,通过有监督的深度学习算法,将单目相机拍摄的图像作为训练数据,将目标物体的三维检测参数(如3D框信息)作为标注信息,利用训练数据和标注信息对深度学习模型进行训练,可以在特定场景实现单目3D检测。当模型训练过程顺利时,理论上单目3D检测结果能无限接近激光雷达检测结果。
上述方式各有缺点:第一种方式中,激光雷达的成本高、功耗高、且故障率高。第二种方式中,需要对双目相机做大量的参数标定工作,因此需要大量的运维人员。第三种方式中,需要对用于实现3D检测的深度学习模型进行训练,训练过程复杂、需要人工标准训练样本、并且3D检测模型的运行也需要较高的时间和功耗成本。
本公开实施例提出一种三维检测方法。图1是可以应用本公开实施例的三维检测方法的一种***100架构示意图。如图1所示,该***架构中包括:图像采集装置110、网络120和三维检测装置130。图像采集装置110和三维检测装置130可以通过网络120建立通信连接图像。图像采集装置110通过网络120向三维检测装置130发送原始图像,三维检测装置130响应于接收到的原始图像,对原始图像进行三维检测。最后,三维检测装置130将三维检测结果返回至图像采集装置,或者发送至其他服务器或终端设备。三维检测装置130可以包括视觉处理设备或远程服务器。网络120可以采用有线或无线连接方式。其中,当三维检测装置130为视觉处理设备时,图像采集装置110可以通过有线连接的方式与视觉处理设备通信连接,例如通过总线进行数据通信;当三维检测装置130为远程服务器时,图像采集装置110可以通过无线网络与远程服务器进行数据交互。另外,图像采集装置110可以是车载摄像装置、智能交通摄像装置等。
图2是根据本公开实施例的一种三维检测方法200的实现流程图。在本公开的一些实施例中,三维检测方法可以由终端设备、服务器或其它处理设备执行。本公开的一些实施例中,三维检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图2所示,三维检测方法包括以下步骤:
S210:对原始图像进行目标检测,得到目标物体的第一参数集合,该第一参数集合中包括该目标物体的类别、该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值、该目标物体的尺寸和该目标物体的角度中的至少之一;
S220:对该原始图像进行深度检测,得到该原始图像中各个像素的深度;利用该原始图像中各个像素的深度,确定该目标物体的深度;以及,
S230:将该第一参数集合和该目标物体的深度进行组合,以得到该目标物体的三维检测参数。
其中,步骤S210和步骤S220为分别执行的步骤,二者之间不存在前后顺序的限制。例如,可以同步执行步骤S210和步骤S220,或者先执行步骤S210、后执行步骤S220,或者先执行步骤S220、后执行步骤S210;或者在任意时间开始执行步骤S210或步骤S220,等等。只需要满足步骤S210和步骤S220都在步骤S230之前执行即可。
本公开采用目标检测和深度检测结合的方式,实现对物体的三维检测;将三维检测划分为两个独立且简便的检测过程,能够降低三维检测的难度,减少三维检测对时间和计算资源的消耗。
本公开实施例可以应用于多种场景,例如,可以适用于停车场景。在停车场景中,由于车辆一般处于静止状态、并且通常位于固定车位,相较于自动驾驶场景或行车场景,这种场景并不需要对目标物体(如车辆)进行精确的三维检测,对三维检测的精度要求不高。并且,停车场景中,停车场内的图像采集装置(如摄像头)的位置和角度固定,因此仅需要对摄像头做一次调参,后续进行三维检测时,可以将摄像头的参数作为一个常数计算,而不需要每次三维检测之前都重新输入标定参数,因此检测过程简单且稳定。另外,停车场景中的图像采集装置一般设置于较高的位置,其采集到的原始图像更便于确定目标物体的深度(原因将在后续具体实施方式中详细介绍)。
需要说明的是,上述停车场景是广义的名称,包括停车场、道路边的临时停车区域、展厅内停放车辆的场景、交通灯附近趋于静止的车辆等。并且,本公开实施例的应用场景也不仅限于停车场景,只要采用本公开提出方法进行三维检测的精度符合场景要求,则可以适用于该场景。例如,本公开实施例还可以应用于仓储、码头等场景,用于对货物进行三维检测,等等。
在一些实施方式中,可以采用预先训练的目标检测模型对原始图像进行目标检测,例如,将原始图像输入预先训练的目标检测模型,得到该目标检测模型输出的目标物体的第一参数集合。第一参数集合包括以下至少之一:
(1)目标物体的类别(记为cls)。例如,目标检测模型可以输出多个类别对应的置信度,置信度最大的类别即为该目标检测模型预测出的目标物体的类别。
(2)目标物体在三维坐标系中的第一坐标轴上的坐标值、目标物体在三维坐标系中的第二坐标轴上的坐标值。
图3是根据本公开一实施例的三维坐标系示意图。如图3所示,在一些示例中,可以以图像采集装置镜头的位置为原点,以垂直镜头方向为第一坐标轴(记为X轴)、以垂直地平面方向为第二坐标轴(记为Y轴)、以平行镜头方向为第三坐标轴(记为Z轴)。目标检测模型可以检测出目标物体的2个坐标值,记为(x,y)。
(3)目标物体的尺寸。例如,目标物体的长度(记为L)、宽度(记为W)和高度(记为H)。目标物体的尺寸记为(W,H,L)。
(4)目标物体的角度。例如,目标物体的偏航角(Yaw),记为θ。
图4是根据本公开一实施例的目标检测模型400的示意图。如图4所示,该目标检测模型400包括主干网络(BackBone)410和多个分支网络420;多个分支网络420中可以包括目标物体的类别对应的分支网络421,目标物体的部分坐标(即目标物体在三维坐标系中的第一坐标轴上的坐标值、以及目标物体在三维坐标系中的第二坐标轴上的坐标值)对应的分支网络422,目标物体的尺寸对应的分支网络423,目标物体的角度对应的分支网络424。分支网络420可以利用主干网络410提取的原始图像的图像特征,预测目标物体对应的第一参数集合。输入主干网络410的原始图像可以是单目摄像机拍摄的图像,简称单目图像(Monocular Image)。
分析第一参数集合,可以看到第一参数集合中包含了三维检测所需检测的大部分信息,再结合目标物体的深度,即可以确定出目标物体的三维检测数据。本公开实施例提出的目标检测模型,对普通的二维检测模型进行较小的改动;保留用于获取图像特征数据的主干网络,在主干网络后增加几个分支,用于确定第一参数集合中的参数。相比相关技术中的三维检测模型,能够降低模型复杂度,减少对时间和算力的消耗,并且模型的训练过程也更为简便。
在一些示例中,本公开实施例采用预先训练的深度检测模型,确定原始图像中各个像素的深度;例如,将原始图像输入预先训练的深度检测模型,可以得到深度检测模型输出的原始图像中各个像素的深度。再利用原始图像中各个像素的深度,确定目标物体的深度。目标物体的深度可以认为是目标物体在三维坐标系中的第三坐标轴(Z轴)上的坐标值(z),再与上述第一参数集合中的坐标值(x,y)组合,即得到目标物体在三维坐标系中的位置(x,y,z)。
即,将目标物体在三维坐标系中的第一坐标轴上的坐标值、目标物体在三维坐标系中的第二坐标轴上的坐标值以及目标物体的深度进行组合,以得到目标物体在三维空间中的位置;
将目标物体在三维空间中的位置、目标物体的类别、目标物体的尺寸和目标物体的角度中的至少之一进行组合,以得到目标物体的三维检测参数。
本公开实施例将三维检测划分为两个独立且简便的检测过程,利用目标检测过程得到目标物体的部分三维数据(如第一参数集合),利用深度检测得到目标物体的另外一部分三维数据(如目标物体的深度),将目标物体的深度与第一参数集合结合,得到目标物体的三维检测参数。通过这种方式可以降低三维检测的难度,降低对时间和算力的消耗,并简化相关模型的训练过程。
图5是根据本公开一实施例的深度检测模型500的示意图。如图5所示,该深度检测模型500包括主干网络(BackBone)510和深度检测网络520;主干网络510提取原始图像(如单目图像)的图像特征,深度检测网络520利用该图像特征预测原始图像中各个像素的深度。
图6是根据本公开一实施例的三维检测方法的整体流程图。如图6所示,将原始图像分别输入目标检测模型400和深度检测模型500;目标检测模型400输出目标物体的第一参数集合,深度检测模型500输出原始图像中各个像素的深度。利用原始图像中各个像素的深度,确定目标物体的深度。将目标物体的深度与第一参数集合组合,得到目标物体的三维检测参数。目标物体的三维检测参数包括以下至少之一:
(1)目标物体的类别(记为cls)。
(2)目标物体在三维坐标系中的位置(x,y,z)。
(3)目标物体的尺寸(W,H,L)。
(4)目标物体的θ。
其中,上述(1)、(3)、(4)由目标检测模型400确定,(2)由目标物体的深度和目标检测模型400确定的坐标(x,y)组合而成。
本公开实施例可以采用YOLO(You Only Look Once,只看一次)模型作为目标检测模型,可以采用单目深度估计模型进行深度检测。本公开对于模型的结构等不做限制。
以下介绍如何根据原始图像中各个像素的深度,确定目标物体的深度。
本公开实施例至少可以采用以下三种方式确定目标物体的深度:
第一种,利用目标检测框中各个元素的深度,确定目标物体的深度。
例如,确定原始图像中该目标物体的目标检测框;
利用原始图像中各个像素的深度、以及该目标检测框,确定目标检测框中各个像素的深度;
计算目标检测框中所有像素的深度平均值,将该平均值作为该目标物体的深度。
目标检测框是原始图像中限定目标物体的矩形框,目标检测框中大部分像素是目标物体的像素,因此目标检测框中所有像素的深度的平均值可以粗略代表目标物体的深度。当然,由于目标检测框中除了包含目标物体的像素之外、还包含其他物体的像素,这种方式确定的目标物体的深度并不精确;但是,由于确定目标检测框比较容易,这种方式具有运算速度快的优点。
第二种,利用目标物体的边界划定的区域内各个像素的深度,确定目标物体的深度。
例如,确定原始图像中的目标物体的边界;
利用原始图像中各个像素的深度、以及该目标物体的边界,确定该边界限定范围内各个像素的深度;
计算该边界限定范围内所有像素的深度平均值,将该平均值作为该目标物体的深度。
由于目标物体的边界划定的区域中包含目标物体的所有像素、并且不包含其他任何物体的像素;因此,采用目标物体的边界划定的区域中各个像素的深度值来确定目标物体的深度值,显然是准确的。本公开实施例可以采用掩码图方式确定的目标物体的。除了掩码图方式以外,还有其他方式可以确定目标物体的轮廓,例如采用实例分割方式等。
第三种,确定目标检测框内的第一区域,利用第一区域中各个像素的深度确定目标物体的深度。
由于采用多个像素的深度来确定目标物体的整体深度,因此对单个像素深度的精度要求不高,能够以较低成本和功耗确认目标物体的深度。例如,在单个像素深度精度不高的情况下,在深度检测结果中,一些像素的深度相较实际深度偏高、一些像素的深度相较实际深度偏低,并且偏高和偏低的概率和/或偏差程度呈现随机分布的形式;那么,如果将多个像素的平均值作为目标物体的深度,根据数学原理,在求平均值时,大量偏高或偏低的像素偏差会被抵消,最终求得的深度平均值(即目标物体深度)的准确性能够得到保证。因此,在本公开实施例中,可以利用目标检测框内第一区域的各个像素的深度确定目标物体的深度。需要说明的是,本公开实施例还可以采用其他方式,利用第一区域中各个像素的深度,确定目标物体的深度。例如,将第一区域中各个像素的中位数,作为该目标物体的深度。
鉴于以上分析,本公开实施例提出的用于确定目标物体深度的第一区域具备以下特点:
1、在目标检测框中确定第一区域,即第一区域在目标检测框的内部。这是由于目标物体的所有像素都在目标检测框内。
2、第一区域的中心点与目标检测框的中心点重合。这是由于目标物***于目标检测框的中部,将第一区域的中心点与目标检测框的中心点重合,则可以保证目标物体也位于第一区域的中部,从而使第一区域中的大部分像素都是目标物体的像素。
3、第一区域的面积与目标检测框的面积的比值大于或等于预设阈值。这是为了保证第一区域能够包含目标物体的大部分像素。该预设阈值可以根据实际情况设定,例如设定为50%。
具备上述特点,则可以保证采用第一区域中各个像素的深度能够比较准确地确定目标物体的深度。并且,由于第一区域是固定形状、并且处于目标检测框中的固定位置,因此能够方便地确定出第一区域中所包含的像素。可见,本公开实施例提出方式既能够保证准确估计目标物体的深度,又能够降低对时间和计算成本的消耗,提高速度。
本公开实施例中,利用原始图像中各个像素的深度确定该目标物体的深度的方法,可以包括:
确定原始图像中该目标物体的目标检测框;
确定第一区域,其中,该第一区域的中心点与该目标检测框的中心点重合,并且该第一区域的面积与该目标物体的目标检测框的面积的比值大于或等于预设阈值;
利用该原始图像中各个像素的深度、目标检测框以及第一区域,确定该第一区域中各个像素的深度;
利用该第一区域中所有像素的深度,确定目标物体的深度。
例如,可以计算第一区域中所有像素的深度平均值,将该平均值作为目标物体的深度。或者,将第一区域中所有像素深度的中位数,作为目标物体的深度;等等。
在确定第一区域的上述特点之后,再来分析哪些区域适合作为第一区域。
图7A-7D是本公开一实施例中第一区域的示意图。需要注意的是,图7A-7D所示的图像是原始图像中的目标检测框内的图像,而不是原始图像。
如图7A所示,目标检测框的形状为矩形;
第一区域的形状可以为菱形或正方形,并且第一区域的4个顶点分别位于目标检测框的4个边的中点。第一区域面积与目标检测框面积的比值为50%。
以图7A为例,在目标检测框为长方形的情况下,第一区域的形状为菱形。在目标检测框为正方形的情况下,第一区域的形状正方形。
由图7A可见,第一区域内部大部分像素属于目标物体(如图7A中的车辆),并且,目标物体中的大部分像素在第一区域内。经实验统计,7A所示的第一区域中,目标物体的像素占所有像素的83%,因此,第一区域内的像素可以很大程度上反映目标物体的深度情况。
如图7B所示,目标检测框的形状为矩形;
第一区域的形状可以为圆形或椭圆形。
以图7B为例,在目标检测框为长方形的情况下,第一区域的形状为椭圆形,并且第一区域的4个顶点分别位于目标检测框的4个边的中点。在目标检测框为正方形的情况下,并且目标检测框的4个边均是第一区域的切线。在图7B的示例中,第一区域的面积与目标检测框面积的比值近似于80%。
由图7B可见,第一区域内大部分像素属于目标物体(如图7B的车辆),并且,目标物体中的大部分像素在第一区域内。经实验统计,图7B所示的第一区域中,目标物体的像素占所有像素的79%,因此,第一区域内的像素可以很大程度上反映目标物体的深度情况。
如图7C所示,目标检测框的形状为矩形;
第一区域的形状可以为多边形,并且第一区域的各个顶点均位于目标检测框的边上。
以图7C为例,在目标检测框为长方形的情况下,第一区域的形状为正六边形。在图7C的示例中,第一区域的面积与目标检测框面积的比值近似于75%。
由图7C可见,第一区域内大部分像素属于目标物体(如图7C的车辆),并且,目标物体中的大部分像素在第一区域内。经实验统计,图7C所示的第一区域中,目标物体的像素占所有像素的76%,因此,第一区域内的像素可以很大程度上反映目标物体的深度情况。
如图7D所示,目标检测框的形状为矩形;
第一区域的形状可以为不规则图形,并且第一区域包含目标检测框的各个边的中点。
以图7D为例,在目标检测框为长方形的情况下,第一区域的形状为十字形。如图7D所示,目标检测框的4个边分别与该十字形12个边中的4个边重合,并且这4个边的宽度均为相对应的目标检测框的边的三分之一长度。在图7D的示例中,第一区域面积与目标检测框面积的比值为5/9。
由图7D可见,第一区域内大部分像素属于目标物体(如图7D的车辆),并且,目标物体中的大部分像素在第一区域内。经实验统计,图7D所示的第一区域中,目标物体的像素占所有像素的77%,因此,第一区域内的像素可以很大程度上反映目标物体的深度情况。
本公开实施例特别适用于高位摄像场景。在这类场景中,图像采集装置的高度比目标物体(如车辆)高。以高位停车场景为例,如图7A-7D,图像中大部分车辆的朝向偏左或偏右一定的角度,并且包含了车顶、车头、车身等各个区域,采用这些位置的像素深度,能够更准确地确定整体车身的深度。
在本公开实施例中,基于目标检测框的中心点确定的第一区域能够涵盖目标物体的全部或大部分。利用第一区域内各个像素的深度确定目标物体的深度,能够以较小的算力和较快的速度,最大程度的反映真实目标物体的深度。本公开实施例提出的利用第一区域内各个像素的深度确定目标物体深度的过程也能摒除大量背景的影响。
本公开实施例还提出一种三维检测装置,图8是根据本公开一实施例的三维检测装置800的结构示意图,包括:
目标检测模块810,用于对原始图像进行目标检测,得到目标物体的第一参数集合,该第一参数集合中包括该目标物体的类别、该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值、该目标物体的尺寸和该目标物体的角度中的至少之一;
深度检测模块820,用于对该原始图像进行深度检测,得到该原始图像中各个像素的深度;利用该原始图像中各个像素的深度,确定该目标物体的深度;以及,
组合模块830,用于将该第一参数集合和该目标物体的深度进行组合,以得到该目标物体的三维检测参数。
图9是根据本公开一实施例的三维检测装置900的结构示意图,如图9所示,三维检测装置900包括目标检测模块910、深度检测模块920和组合模块930。在一些实施方式中,该组合模块930包括:
第一组合子模块931,用于将该目标物体在三维坐标系中的第一坐标轴上的坐标值、该目标物体在三维坐标系中的第二坐标轴上的坐标值以及该目标物体的深度进行组合,以得到该目标物体在三维空间中的位置;
第二组合子模块932,用于将该目标物体在三维空间中的位置、该目标物体的类别、该目标物体的尺寸和该目标物体的角度中的至少之一进行组合,以得到该目标物体的三维检测参数。
在一些实施方式中,该目标物体的深度对应该目标物体在三维坐标系中的第三坐标轴上的坐标值。
在一些实施方式中,该深度检测模块920用于:
确定该原始图像中该目标物体的目标检测框;
利用该原始图像中各个像素的深度、以及该目标检测框,确定该目标检测框中各个像素的深度;
计算该目标检测框中所有像素的深度平均值,将该平均值作为该目标物体的深度。
在一些实施方式中,该深度检测模块920用于:
确定该原始图像中该目标物体的边界;
利用该原始图像中各个像素的深度、以及该目标物体的边界,确定该边界限定范围内各个像素的深度;
计算该边界限定范围内所有像素的深度平均值,将该平均值作为该目标物体的深度。
在一些实施方式中,深度检测模块920,包括:
第一区域确定子模块921,用于确定该原始图像中该目标物体的目标检测框,确定第一区域,其中,该第一区域的中心点与该目标检测框的中心点重合,并且该第一区域的面积与该目标物体的目标检测框的面积的比值大于或等于预设阈值;
第一区域深度确定子模块922,利用该原始图像中各个像素的深度、该目标检测框以及该第一区域,确定该第一区域中各个像素的深度;
目标物体深度确定子模块923,利用该第一区域中所有像素的深度,确定该目标物体的深度。
在一些实施方式中,目标物体深度确定子模块923,用于计算该第一区域中所有像素的深度的平均值,将该平均值作为该目标物体的深度。
在一些实施方式中,该目标检测框的形状为矩形;
该第一区域的形状为菱形或正方形,并且该第一区域的4个顶点分别位于该目标检测框的4个边的中点。
在一些实施方式中,该目标检测框的形状为长方形;
该第一区域的形状为椭圆形,并且该第一区域的4个顶点分别位于该目标检测框的4个边的中点。
在一些实施方式中,该目标检测框的形状为正方形;
该第一区域的形状为圆形,并且该目标检测框的4个边均是该第一区域的切线。
在一些实施方式中,该对原始图像进行目标检测,得到目标物体的第一参数集合,包括:
将该原始图像输入预先训练的目标检测模型,得到该目标检测模型输出的该目标物体的第一参数集合。
在一些实施方式中,该对该原始图像进行深度检测,得到该原始图像中各个像素的深度,包括:
将该原始图像输入预先训练的深度检测模型,得到该深度检测模型输出的该原始图像中各个像素的深度。
本公开实施例的装置的各模块、子模块的具体功能和示例的描述,可以参见上述方法实施例中对应步骤的相关描述,在此不再赘述。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如三维检测方法。例如,在一些实施例中,三维检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的三维检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行三维检测方法。
本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的***和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。
可以将此处描述的***和技术实施在包括后台部件的计算***(例如,作为数据服务器)、或者包括中间件部件的计算***(例如,应用服务器)、或者包括前端部件的计算***(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将***的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式***的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种三维检测方法,包括:
对原始图像进行目标检测,得到目标物体的第一参数集合,所述第一参数集合中包括所述目标物体的类别、所述目标物体在三维坐标系中的第一坐标轴上的坐标值、所述目标物体在三维坐标系中的第二坐标轴上的坐标值、所述目标物体的尺寸和所述目标物体的角度中的至少之一;
对所述原始图像进行深度检测,得到所述原始图像中各个像素的深度;利用所述原始图像中各个像素的深度,确定所述目标物体的深度;以及,
将所述第一参数集合和所述目标物体的深度进行组合,以得到所述目标物体的三维检测参数。
2.根据权利要求1所述的方法,其中,所述将所述第一参数集合和所述目标物体的深度进行组合,以得到所述目标物体的三维检测参数,包括:
将所述目标物体在三维坐标系中的第一坐标轴上的坐标值、所述目标物体在三维坐标系中的第二坐标轴上的坐标值以及所述目标物体的深度进行组合,以得到所述目标物体在三维空间中的位置;
将所述目标物体在三维空间中的位置、所述目标物体的类别、所述目标物体的尺寸和所述目标物体的角度中的至少之一进行组合,以得到所述目标物体的三维检测参数。
3.根据权利要求1或2所述的方法,其中,所述目标物体的深度对应所述目标物体在三维坐标系中的第三坐标轴上的坐标值。
4.根据权利要求1-3中任一所述的方法,其中,所述利用所述原始图像中各个像素的深度,确定所述目标物体的深度,包括:
确定所述原始图像中所述目标物体的目标检测框;
利用所述原始图像中各个像素的深度、以及所述目标检测框,确定所述目标检测框中各个像素的深度;
计算所述目标检测框中所有像素的深度平均值,将所述平均值作为所述目标物体的深度。
5.根据权利要求1-3中任一所述的方法,其中,所述利用所述原始图像中各个像素的深度,确定所述目标物体的深度,包括:
确定所述原始图像中所述目标物体的边界;
利用所述原始图像中各个像素的深度、以及所述目标物体的边界,确定所述边界限定范围内各个像素的深度;
计算所述边界限定范围内所有像素的深度平均值,将所述平均值作为所述目标物体的深度。
6.根据权利要求1-3中任一所述的方法,其中,所述利用所述原始图像中各个像素的深度,确定所述目标物体的深度,包括:
确定所述原始图像中所述目标物体的目标检测框,确定第一区域,其中,所述第一区域的中心点与所述目标检测框的中心点重合,并且所述第一区域的面积与所述目标物体的目标检测框的面积的比值大于或等于预设阈值;
利用所述原始图像中各个像素的深度、所述目标检测框以及所述第一区域,确定所述第一区域中各个像素的深度;
利用所述第一区域中所有像素的深度,确定所述目标物体的深度。
7.根据权利要求6所述的方法,其中,所述利用所述第一区域中所有像素的深度,确定所述目标物体的深度,包括:
计算所述第一区域中所有像素的深度的平均值,将所述平均值作为所述目标物体的深度。
8.根据权利要求6或7所述的方法,其中,所述目标检测框的形状为矩形;
所述第一区域的形状为菱形或正方形,并且所述第一区域的4个顶点分别位于所述目标检测框的4个边的中点。
9.根据权利要求6或7所述的方法,其中,所述目标检测框的形状为长方形;
所述第一区域的形状为椭圆形,并且所述第一区域的4个顶点分别位于所述目标检测框的4个边的中点。
10.根据权利要求6或7所述的方法,其中,所述目标检测框的形状为正方形;
所述第一区域的形状为圆形,并且所述目标检测框的4个边均是所述第一区域的切线。
11.根据权利要求1-10中任一所述的方法,其中,所述对原始图像进行目标检测,得到目标物体的第一参数集合,包括:
将所述原始图像输入预先训练的目标检测模型,得到所述目标检测模型输出的所述目标物体的第一参数集合。
12.根据权利要求1-11中任一所述的方法,其中,所述对所述原始图像进行深度检测,得到所述原始图像中各个像素的深度,包括:
将所述原始图像输入预先训练的深度检测模型,得到所述深度检测模型输出的所述原始图像中各个像素的深度。
13.一种三维检测装置,包括:
目标检测模块,用于对原始图像进行目标检测,得到目标物体的第一参数集合,所述第一参数集合中包括所述目标物体的类别、所述目标物体在三维坐标系中的第一坐标轴上的坐标值、所述目标物体在三维坐标系中的第二坐标轴上的坐标值、所述目标物体的尺寸和所述目标物体的角度中的至少之一;
深度检测模块,用于对所述原始图像进行深度检测,得到所述原始图像中各个像素的深度;利用所述原始图像中各个像素的深度,确定所述目标物体的深度;以及,
组合模块,用于将所述第一参数集合和所述目标物体的深度进行组合,以得到所述目标物体的三维检测参数。
14.根据权利要求13所述的装置,其中,所述组合模块包括:
第一组合子模块,用于将所述目标物体在三维坐标系中的第一坐标轴上的坐标值、所述目标物体在三维坐标系中的第二坐标轴上的坐标值以及所述目标物体的深度进行组合,以得到所述目标物体在三维空间中的位置;
第二组合子模块,用于将所述目标物体在三维空间中的位置、所述目标物体的类别、所述目标物体的尺寸和所述目标物体的角度中的至少之一进行组合,以得到所述目标物体的三维检测参数。
15.根据权利要求13或14所述的装置,其中,所述目标物体的深度对应所述目标物体在三维坐标系中的第三坐标轴上的坐标值。
16.根据权利要求13-15中任一所述的装置,其中,所述深度检测模块用于:
确定所述原始图像中所述目标物体的目标检测框;
利用所述原始图像中各个像素的深度、以及所述目标检测框,确定所述目标检测框中各个像素的深度;
计算所述目标检测框中所有像素的深度平均值,将所述平均值作为所述目标物体的深度。
17.根据权利要求13-15中任一所述的装置,其中,所述深度检测模块用于:
确定所述原始图像中所述目标物体的边界;
利用所述原始图像中各个像素的深度、以及所述目标物体的边界,确定所述边界限定范围内各个像素的深度;
计算所述边界限定范围内所有像素的深度平均值,将所述平均值作为所述目标物体的深度。
18.根据权利要求13-15中任一所述的装置,其中,所述深度检测模块,包括:
第一区域确定子模块,用于确定所述原始图像中所述目标物体的目标检测框,确定第一区域,其中,所述第一区域的中心点与所述目标检测框的中心点重合,并且所述第一区域的面积与所述目标物体的目标检测框的面积的比值大于或等于预设阈值;
第一区域深度确定子模块,利用所述原始图像中各个像素的深度、所述目标检测框以及所述第一区域,确定所述第一区域中各个像素的深度;
目标物体深度确定子模块,利用所述第一区域中所有像素的深度,确定所述目标物体的深度。
19.根据权利要求18所述的装置,其中,目标物体深度确定子模块,用于计算所述第一区域中所有像素的深度的平均值,将所述平均值作为所述目标物体的深度。
20.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-12中任一项所述的方法。
21.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。
22.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。
CN202211023285.1A 2022-08-25 2022-08-25 一种三维检测方法、装置、电子设备及存储介质 Pending CN115346194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211023285.1A CN115346194A (zh) 2022-08-25 2022-08-25 一种三维检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211023285.1A CN115346194A (zh) 2022-08-25 2022-08-25 一种三维检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115346194A true CN115346194A (zh) 2022-11-15

Family

ID=83954565

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211023285.1A Pending CN115346194A (zh) 2022-08-25 2022-08-25 一种三维检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115346194A (zh)

Similar Documents

Publication Publication Date Title
CN113902897B (zh) 目标检测模型的训练、目标检测方法、装置、设备和介质
CN113378760A (zh) 训练目标检测模型和检测目标的方法及装置
CN112947419B (zh) 避障方法、装置及设备
CN111213153A (zh) 目标物体运动状态检测方法、设备及存储介质
CN112509126B (zh) 三维物体检测的方法、装置、设备及存储介质
CN112863187B (zh) 感知模型的检测方法、电子设备、路侧设备和云控平台
CN112560684A (zh) 车道线检测方法、装置、电子设备、存储介质以及车辆
CN112683228A (zh) 单目相机测距方法及装置
CN114494075A (zh) 基于三维点云的障碍物识别方法、电子设备和存储介质
CN115147809B (zh) 一种障碍物检测方法、装置、设备以及存储介质
CN116993817B (zh) 目标车辆的位姿确定方法、装置、计算机设备及存储介质
CN113806464A (zh) 路牙确定方法、装置、设备以及存储介质
CN117612132A (zh) 鸟瞰视角bev俯视图的补全方法、装置和电子设备
CN112733678A (zh) 测距方法、装置、计算机设备和存储介质
Oniga et al. A fast ransac based approach for computing the orientation of obstacles in traffic scenes
CN116129422A (zh) 单目3d目标检测方法、装置、电子设备和存储介质
CN115346194A (zh) 一种三维检测方法、装置、电子设备及存储介质
CN115345919B (zh) 一种深度确定方法、装置、电子设备以及存储介质
CN117408935A (zh) 障碍物检测方法、电子设备和存储介质
CN113554882A (zh) 用于输出信息的方法、装置、设备以及存储介质
CN115431968B (zh) 车辆控制器、车辆及车辆控制方法
CN117392000B (zh) 一种噪点去除方法、装置、电子设备及存储介质
CN114612544B (zh) 图像处理方法、装置、设备和存储介质
CN117372988B (zh) 道路边界检测方法、装置、电子设备及存储介质
CN117647852B (zh) 天气状态检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination