CN111627001A - 图像检测方法及装置 - Google Patents

图像检测方法及装置 Download PDF

Info

Publication number
CN111627001A
CN111627001A CN202010449279.7A CN202010449279A CN111627001A CN 111627001 A CN111627001 A CN 111627001A CN 202010449279 A CN202010449279 A CN 202010449279A CN 111627001 A CN111627001 A CN 111627001A
Authority
CN
China
Prior art keywords
target
dimensional
image
shape data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010449279.7A
Other languages
English (en)
Other versions
CN111627001B (zh
Inventor
刘配
杨国润
王哲
石建萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN202010449279.7A priority Critical patent/CN111627001B/zh
Publication of CN111627001A publication Critical patent/CN111627001A/zh
Application granted granted Critical
Publication of CN111627001B publication Critical patent/CN111627001B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • G06V20/584Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads of vehicle lights or traffic lights
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

本公开提供了一种图像检测方法、行驶控制方法、装置、电子设备及存储介质,该方法包括:获取待检测图像;对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据,并确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。

Description

图像检测方法及装置
技术领域
本公开涉及图像检测技术领域,具体而言,涉及一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。
背景技术
单目三维3D目标检测是计算机视觉领域中最基础的问题之一,对于单个视角的目标图像,单目3D检测的任务是从目标图像中检测出目标对象的3D位姿信息。单目3D目标检测可以应用于位置估计、场景建模等任务,因此,设计一种准确度较高的单目3D检测方法至关重要。
单目3D检测方法的关键在于3D候选框的生成,一般的,可以根据二维2D检测结果生成3D候选框,但是在具体实施时,2D检测结果存在对应二维检测框被遮挡、被截断、模糊的情况,使得基于2D检测结果得到的3D候选框的准确度较低。
发明内容
有鉴于此,本公开至少提供一种图像检测方法、行驶控制方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种图像检测方法,包括:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;
确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
由于多种平均形状数据能够更全面地表征待检测图像,在基于待检测图像和多种平均形状数据,确定目标对象对应的目标三维位姿数据时,可以较准确的确定目标对象对应的三维检测数据,提高图像检测的精确度。
一种可能的实施方式中,所述基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
上述实施方式下,通过从特征图中截取得到目标特征图,可以将特征图中的背景部分筛除,保留目标对象的特征图,从而基于目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据时,可以提高得到的三维检测数据的精确度。
一种可能的实施方式中,确定与所述二维检测数据对应的形状数据集,包括:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
上述实施方式中,预先确定不同对象类别分别对应的形状数据集,形状数据集中包括多种平均形状数据,在得到二维检测数据后,可以基于二维检测数据指示的对象类别,从预先确定的不同对象类别对应的形状数据集中,选择目标对象类别对应的形状数据集,进而较快地得到二维检测数据对应的形状数据集。
一种可能的实施方式中,根据以下步骤预先确定不同对象类别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
上述实施方式下,通过基于目标对象的真实高度,得到对象类别下的多个图像集合,进而基于该对象类别下的各个图像集合对应的平均形状数据,确定该对象类别对应的形状数据集,为后续确定目标对象的三维检测数据提供了数据支持。
一种可能的实施方式中,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
这里,每个对象类别下多个图像集合中,将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据,这样,通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像,确定三维检测数据时,可以提高三维检测数据的准确度。
一种可能的实施方式中,基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
在上述实施方式中,可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象的三维检测数据,由于考虑了不同平均形状数据所对应的残差信息的置信度,可以提高得到的三维检测数据的准确度。
一种可能的实施方式中,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
上述实施方式下,可以先通过残差信息对对应的平均形状数据进行调整,在根据残差信息的置信度,确定三维检测数据,或者,也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据,在利用目标残差信息对目标平均形状数据进行调整,得到三维检测数据,可以减少形状调整过程的运算量。
一种可能的实施方式中,基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据,包括:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
第二方面,本公开提供了一种行驶控制方法,包括:
获取行驶装置在行驶过程中采集的道路图像;
利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
以下装置、电子设备等的效果描述参见上述方法的说明,这里不再赘述。
第三方面,本公开提供了一种图像检测装置,包括:
图像获取模块,用于获取待检测图像;
目标检测模块,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
一种可能的实施方式中,所述三维检测数据确定模块,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述目标检测模块,在确定与所述二维检测数据对应的形状数据集时,用于:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
一种可能的实施方式中,所述装置还包括形状数据集确定模块,所述形状数据集确定模块,用于根据以下步骤预先确定不同对象类别分别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
一种可能的实施方式中,所述形状数据集确定模块,在基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据时,用于:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
一种可能的实施方式中,所述三维检测数据确定模块,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维位姿数据确定模块,在基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据时,用于:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
第四方面,本公开提供了一种行驶控制装置,包括:
道路图像获取模块,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块,用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
第五方面,本公开提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤,或执行如第二方面所述的行驶控制方法的步骤。
第六方面,本公开提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述第一方面或任一实施方式所述的图像检测方法的步骤,或执行如第二方面所述的行驶控制方法的步骤。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种图像检测方法的流程示意图;
图2示出了本公开实施例所提供的一种图像检测方法中,预先确定不同对象类别分别对应的形状数据集的方式的流程示意图;
图3示出了本公开实施例所提供的一种行驶控制方法的流程示意图;
图4示出了本公开实施例所提供的一种图像检测装置的架构示意图;
图5示出了本公开实施例所提供的一种行驶控制装置的架构示意图;
图6示出了本公开实施例所提供的一种电子设备600的结构示意图;
图7示出了本公开实施例所提供的另一种电子设备700的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
一般的,可以将根据二维2D检测结果和目标先验信息,生成3D候选框;比如,可以根据2D检测结果中包括的二维检测框的尺寸、位置信息以及预设的三维检测框的形状,生成对应的3D候选框,使得生成的3D候选框的尺寸与2D检测框的尺寸相匹配。但是,得到的二维检测框存在被遮挡、被截断、或者模糊的情况,使得基于2D检测结果和目标先验信息得到的3D候选框的准确度较低。
为了提高目标对象的三维位姿数据的准确度,本公开实施例提供了一种图像检测方法。
其中,本公开实施例提供的一种图像检测方法可以应用于终端设备、服务器中等。服务器可以是本地服务器也可以是云端服务器等,终端设备可以是智能手机、平板电脑、车载***等,本公开对此并不限定。下述以该方法应用于服务器为例进行说明。
为便于对本公开实施例进行理解,首先对本公开实施例所公开的一种图像检测方法进行详细介绍。
参见图1所示,为本公开实施例所提供的一种图像检测方法的流程示意图,该方法包括S101-S104,其中:
S101,获取待检测图像;
S102,对待检测图像进行目标检测,确定待检测图像中目标对象的二维检测数据;确定与二维检测数据对应的形状数据集;形状数据集中包括目标对象所属对象类别下的多种平均形状数据;
S103,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据;
S104,基于三维检测数据以及二维检测数据,确定目标对象对应的目标三维位姿数据。
上述方法中,由于多种平均形状数据能够更全面地表征待检测图像,在基于待检测图像和多种平均形状数据,确定目标对象对应的目标三维位姿数据时,可以较准确的确定目标对象对应的三维检测数据,提高图像检测的精确度。
下述对S101-S104进行详细说明。
针对S101:
待检测图像可以为包括目标对象的任一图像,目标对象可以为行人、自行车、摩托车、汽车、宠物等。待检测图像可以为图像获取装置实时获取到的图像,也可以为存储装置中存储的图像。
针对S102:
可以对待检测图像进行目标检测,确定待检测图像中包括的每个目标对象的二维检测数据,其中,二维检测数据可以包括目标对象对应的二维检测框的长度和宽度、二维检测框的中心点的坐标信息、目标对象的目标对象类别、三维检测框中心点在二维平面上的投影点的坐标信息、目标对象的朝向角(即目标对象的三维检测框的基准面与设置的基准线的夹角)。
一种可选实施方式中,确定与二维检测数据对应的形状数据集,可以包括:
基于二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定二维检测数据对应的形状数据集。
预先确定的不同对象类别分别对应的形状数据集可以包括汽车类别对应的形状数据集、行人类别对应的形状数据集、宠物类别对应的形状数据集、自行车类别对应的形状数据集等,其中,不同对象类别对应的类别种类以及类别数量可以根据实际情况进行设置,此处仅为示例性说明。
比如,若目标对象的目标对象类别为汽车类别,则可以从预先确定的不同对象类别对应的形状数据集中确定汽车类别对应的形状数据集,其中,形状数据集中包括汽车对应的多种平均形状数据,每种平均形状数据对应汽车的三维检测框的一个平均形状。
上述实施方式中,预先确定不同对象类别对应的形状数据集,形状数据集中包括多种平均形状数据,在得到二维检测数据后,可以基于二维检测数据指示的目标对象的目标对象类别,从预先确定的不同对象类别对应的形状数据集中,选择目标对象类别对应的形状数据集进而较快的得到二维检测数据对应的形状数据集。
一种可选实施方式中,参见图2所示,可以根据以下步骤预先确定不同对象类别分别对应的形状数据集:
S201,针对每种对象类别,获取该对象类别下的多个图像。
S202,基于多个图像中目标对象的真实高度,将多个图像划分为多个图像集合。
S203,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成对象类别下的形状数据集。
对S201进行说明,比如,对象类别为汽车时,则获取包括不同汽车类型的多个图像,每个图像中标注有对应汽车的真实尺寸,即包括汽车对应的三维检测框的长度、宽度以及高度。
对S202进行说明,可以使用聚类分析算法,基于多个图像中目标对象的真实高度,将多个图像划分为多个图像集合。比如,可以设置划分的图像集合的数量,假设设置的图像集合的数量为7个,基于多个图像中目标对象的真实高度,将包含的目标对象的真实高度之间的差值小于设置的差值阈值的图像划分在一个图像集合中,得到7个图像集合。可以为不同的对象类别设置不同的图像集合的数量,比如,汽车类别对应的图像集合的数量可以为7个,行人类别对应的图像集合的数量可以为10个等,或者,也可以为不同的对象类别设置相同的图像集合的数量,比如,汽车类别和行人类别对应的图像集合的数量可以均为7。这里,得到多个图像集合的方式有多种,此处仅为示例性说明。
这里,可以为每个图像集合设置一个形状类别,比如,汽车类别下有6个图像集合,基于每个图像集合中汽车的真实尺寸信息,6个图像集合的形状类别可以为微型车、小型车、紧凑型车、中型车、中大型车、大型车。或者,6个图像集合的形状类别可以为第一类别、第二类别、第三类别、第四类别、第五类别、第六类别。其中,每个对象类别对应的形状类别可以根据实际情况进行设置,此处仅为示例性说明。
对S203进行说明,针对每个图像集合,基于该图像集合中每个图像中的目标对象的形状数据,确定该图像集合对应的平均形状数据。并将各个图像集合对应的平均形状数据,组成对象类别下的形状数据集。
上述实施方式中,通过基于目标对象的真实高度,得到对象类别下的多个图像集合,进而基于该对象类别对应的各个图像集合对应的形状数据,确定该对象类别对应的形状数据集,为后续确定目标对象的三维检测数据提供了数据支持。
一种可选实施方式中,S203中,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象对应的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,分别得到该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立得到的宽度信息与对应的深度信息之间的映射关系;
将平均三维尺寸以及映射关系,作为图像集合对应的平均形状数据。
这里,目标对象的形状数据包括目标对象的三维检测框的真实三维尺寸,真实三维尺寸包括真实长度、真实宽度、以及真实高度。图像集合对应的平均形状数据包括该图像集合对应的平均三维尺寸、以及宽度信息与对应的深度信息之间的映射关系,平均三维尺寸包括平均长度、平均宽度、以及平均高度。
将该图像集合内各个图像中目标对象的真实高度求平均,得到平均高度;将该图像集合内各个图像中目标对象的真实长度求平均,得到平均长度;将该图像集合内各个图像中目标对象的真实宽度求平均,得到平均宽度,即得到该图像集合对应的目标对象的平均三维尺寸。
在得到该图像集合对应的目标对象的平均三维尺寸之后,将平均三维尺寸下的目标对象置于不同深度信息指示的深度位置后,可以根据固定位置处的摄像设备获取的二维图像,确定每个深度位置处目标对象的三维框(该三维框可以为由平均三维尺寸构成的检测框)在二维图像平面的投影包围框的宽度信息,进而可以通过拟合的方式得到宽度信息与对应的深度信息之间的映射关系,其中,该宽度信息为目标对象的三维框(可以由平均三维尺寸构成)在二维图像平面的投影包围框的宽度,深度信息为该目标对象在真实场景中距离摄像设备的深度。比如,宽度信息与对应的深度信息之间的映射关系可以为:
Figure BDA0002506934010000131
其中,z3d为深度信息,h2d为宽度信息,a、b为参数信息。
将平均三维尺寸以及映射关系确定为该图像集合对应的平均形状数据,进而,根据各个图像集合分别对应的平均形状数据,得到对象类别下的形状数据集。
上述实施方式中,每个对象类别下多个图像集合中,将每个图像集合对应的平均三维尺寸、以及宽度信息与深度信息之间的映射关系作为该图像集合对应的平均形状数据,这样,通过基于设置的同一对象类别下多种先验形状信息(即设置的多种平均形状数据)以及待检测图像,确定三维检测数据时,可以提高三维检测数据的准确度。
在具体实施时,基于二维检测数据指示的目标对象的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定二维检测数据对应的形状数据集,可以包括:一、基于二维检测数据指示的目标对象的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定与目标对象类别对应的目标形状数据集;目标形状数据集中包括多种平均三维尺寸和对应的映射关系;二、针对每种平均三维尺寸对应的映射关系,以及二维检测数据指示的二维检测框的宽度信息,确定与每种平均三维尺寸对应的深度信息;三、将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。
可以基于二维检测数据中的目标对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定目标对象类别对应的目标形状数据集,目标形状数据集中包括多种平均形状数据,每种平均形状数据包括平均三维尺寸以及对应的映射关系。比如,若目标对象类别可以为汽车,则从预先确定的不同对象类别分别对应的形状数据集中,确定汽车类别对应的目标形状数据集,目标形状数据集中包括多种平均形状数据,每种平均形状数据包括汽车类别对应的平均三维尺寸以及对应的映射关系。
将二维检测数据指示的二维检测框的宽度信息输入至每种平均三维尺寸对应的映射关系中,得到每种平均三维尺寸对应的深度信息。再将多种平均三维尺寸和对应的深度信息作为二维检测数据对应的形状数据集。
上述实施方式中,可以基于二维检测数据指示的目标对象的目标对象类别,确定平均三维尺寸以及映射关系,并根据映射关系以及二维检测框的宽度,可以得到目标对象对应的深度信息,进而得到二维检测数据对应的形状数据集,为后续得到三维检测数据提供了数据支持。
针对S103:
这里,可以基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,其中,三维检测数据可以包括目标对象的三维检测框的长度、宽度以及高度、三维检测框的目标形状类别、以及三维检测框的深度,三维检测框的深度可以为三维检测框的中心点对应的深度,即三维检测框的深度可以为三维检测框的中心点在相机坐标系中Z轴(相机光轴)方向对应的坐标值。
一种可选实施方式中,对待检测图像进行目标检测,确定待检测图像中目标对象的二维检测数据,可以包括:对待检测图像进行特征提取,生成待检测图像的特征图;基于待检测图像的特征图,确定待检测图像中目标对象的二维检测数据。
这里,可以利用至少一层卷积层对待检测图像进行特征提取,得到待检测图像的特征图,进而可以基于待检测图像的特征图,确定待检测图像中目标对象的二维检测数据。
一种可选实施方式中,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,可以包括:
基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像对应的特征图中截取目标对象对应的目标特征图;
基于目标对象对应的目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据。
这里,可以先基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像的特征图中截取目标对象对应的目标特征图,其中,目标特征图的中心点与二维检测框中心点相匹配,目标特征图的尺寸与二维检测框的尺寸(二维检测框的长度和宽度)相匹配。进而可以基于目标对象对应的目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据。
示例性的,可以先将待检测图像对应的特征图进行标准卷积处理,得到第一中间特征图,以及将待检测图像对应的特征图进行深度感知卷积处理,得到第二中间特征图,将第一中间特征图和第二中间特征图进行卷积处理或者级联处理,得到待检测图像对应的处理后的特征图;在基于二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从处理后的特征图中截取目标对象对应的目标特征图。
上述实施方式中,通过从特征图中截取得到目标特征图,可以将特征图中的背景部分筛除,保留目标对象的特征图,使得基于目标特征图和多种平均形状数据,确定目标对象对应的三维检测数据时,可以提高得到的三维检测数据的精确度。
一种可选实施方式中,基于待检测图像和多种平均形状数据,确定目标对象对应的三维检测数据,包括:
基于待检测图像和多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据。
这里,还可以基于待检测图像中目标对象对应的目标特征图和多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;其中,多种平均形状数据中各种平均形状数据对应的残差信息的置信度之和可以为1。进而根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据。
上述实施方式中,可以基于得到的每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象的三维检测数据,由于考虑了不同平均形状数据所对应的残差信息的置信度,可以提高得到的三维检测数据的准确度。
一种可选实施方式中,根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定目标对象对应的三维检测数据,可以包括:
方式一、针对每种平均形状数据,利用该平均形状数据对应的残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度。
根据每种平均形状数据对应的残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别。
将目标三维尺寸、目标深度以及目标形状类别确定为目标对象对应的三维检测数据。
方式二、从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定目标残差信息对应的目标平均形状数据,并将目标平均形状数据的形状类别作为目标对象的目标形状类别。
利用目标残差信息指示的尺寸调整值对目标平均形状数据中的平均三维尺寸进行调整,得到目标平均形状数据对应的调整后的目标三维尺寸,以及利用目标残差信息指示的深度调整值对目标平均形状数据中的深度信息进行调整,得到目标平均形状数据对应的调整后的目标深度。
将目标三维尺寸、目标深度以及目标形状类别确定为目标对象对应的三维检测数据。
方式一中,可以先根据每种平均形状数据对应的残差信息,对该平均形状数据中的平均三维尺寸以及深度信息进行调整,得到每种平均形状数据对应的候选三维尺寸以及候选深度。再根据每种平均形状数据对应的残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为目标对象的目标形状类别,进而得到目标对象对应的三维检测数据。
方式二中,可以先从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定目标残差信息对应的目标平均形状数据,并将目标平均形状数据的形状类别作为目标对象的目标形状类别。再利用目标残差信息对目标平均形状数据进行调整,得到目标三维尺寸以及目标深度,进而得到目标对象对应的三维检测数据。
上述实施方式中,可以先通过残差信息对对应的平均形状数据进行调整,再根据残差信息的置信度,确定三维检测数据,或者,也可以先根据残差信息的置信度确定目标残差信息以及目标平均形状数据,在利用目标残差信息对目标平均形状数据进行调整,得到三维检测数据,可以减少形状调整过程的运算量。
针对S104:
这里可以将二维检测数据以及三维检测数据,确定为目标对象对应的目标三维位姿数据。也可以从二维检测数据中获取目标数据,将获取的目标数据以及三维检测数据,确定为目标对象对应的目标三维位姿数据。目标数据可以包括三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。
一种可选实施方式中,基于三维检测数据以及二维检测数据,确定目标对象对应的目标三维位姿数据,包括:
从二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别;
将三维检测数据中的目标三维尺寸、目标深度、和目标形状类别,以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别,确定为目标对象对应的目标三维位姿数据。
这里,目标三维位姿数据包括目标三维尺寸(目标对象的三维检测框的长度、宽度以及高度)、目标深度(可以为三维检测框的中心点在相机坐标系中Z轴方向对应的坐标值)、和目标形状类别,以及从二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、三维检测框的基准面与设置的基准线的夹角、和目标对象的对象类别。
示例性的,可以使用图像检测神经网络对待检测图像进行检测,得到目标对象对应的目标三维位姿数据。图像检测神经网络可以包括特征提取器、二维检测器、三维候选检测框生成器、三维回归器。
具体实施时,将待检测图像输入至图像检测神经网络中,特征提取器可以对待检测图像进行特征提取,生成待检测图像对应的特征图;二维检测器对待检测图像对应的特征图进行检测,得到待检测图像中目标对象的二维检测数据;将二维检测数据中的目标对象类别以及二维检测框的宽度输入至三维候选检测框生成器中,确定二维检测数据对应的形状数据集,并将二维检测数据对应的形状数据集输入至三维回归器中;同时,可以根据二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从待检测图像的特征图中截取得到目标对象对应的目标特征图,将得到的目标特征图输入至三维回归器中,三维回归器根据目标特征图、以及二维检测数据对应的形状数据集,确定目标对象对应的三维检测数据,最后得到目标对象对应的目标三维位姿数据。
通过将待检测图像输入至图像检测神经网络中,得到待检测图像中每个目标对象对应的目标三维位姿数据,由于图像检测神经网络为端到端的双阶段网络模型,图像检测神经网络对应的损失较少,相比于单阶段的网络模型和/或非端对端的网络模型,能够较为准确的得到目标对象对应的目标三维位姿数据。
基于相同的构思,本公开实施例还提供了一种行驶控制方法,参见图3所示,为本公开实施例所提供的行驶控制方法的流程示意图,该方法包括S301-S303,其中:
S301,获取行驶装置在行驶过程中采集的道路图像;
S302,利用上述实施例所述的图像检测方法对道路图像进行检测,得到道路图像中包括的目标对象的目标三维位姿数据;
S303,基于道路图像中包括的目标对象的目标三维位姿数据,控制行驶装置。
示例性的,行驶装置可以为自动驾驶车辆、装有高级驾驶辅助***(AdvancedDriving Assistance System,ADAS)的车辆、或者机器人等。道路图像可以为行驶装置在行驶过程中实时采集到的图像。目标对象可以为道路中可以能出现的任一物体和/或、任一对象。比如,目标对象可以为出现在道路上的动物、行人等,也可以为道路上的其他车辆(包括机动车辆和非机动车辆)等。
其中,在控制行驶装置时,可以控制行驶装置加速、减速、转向、制动等,或者可以播放语音提示信息,以提示驾驶员控制行驶装置加速、减速、转向、制动等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于相同的构思,本公开实施例还提供了一种图像检测装置,参见图4所示,为本公开实施例提供的图像检测装置的架构示意图,包括图像获取模块401、目标检测模块402、三维检测数据确定模块403、三维位姿数据确定模块404、以及形状数据集确定模块405,具体的:
图像获取模块401,用于获取待检测图像;
目标检测模块402,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块403,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块404,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述目标检测模块402,在确定与所述二维检测数据对应的形状数据集时,用于:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别分别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
一种可能的实施方式中,所述装置还包括形状数据集确定模块405,所述形状数据集确定模块405,用于根据以下步骤预先确定不同对象类别分别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
一种可能的实施方式中,所述形状数据集确定模块405,在基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据时,用于:
基于该图像集合内各个图像中目标对象对应的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据时,用于:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块403,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维检测数据确定模块,在根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据时,用于:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
一种可能的实施方式中,所述三维位姿数据确定模块404,在基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据时,用于:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
基于相同的构思,本公开实施例还提供了一种行驶控制装置,参见图5所示,为本公开实施例提供的行驶控制装置的架构示意图,包括道路图像获取模块501、图像检测模块502、控制模块503,具体的:
道路图像获取模块501,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块502,用于利用第一方面或第一方面任一实施方式所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块503,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模板可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
基于同一技术构思,本公开实施例还提供了一种电子设备。参照图6所示,为本公开实施例提供的电子设备600的结构示意图,包括处理器601、存储器602、和总线603。其中,存储器602用于存储执行指令,包括内存6021和外部存储器6022;这里的内存6021也称内存储器,用于暂时存放处理器601中的运算数据,以及与硬盘等外部存储器6022交换的数据,处理器601通过内存6021与外部存储器6022进行数据交换,当电子设备600运行时,处理器601与存储器602之间通过总线603通信,使得处理器601在执行以下指令:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
基于同一技术构思,本公开实施例还提供了另一种电子设备。参照图7所示,为本公开实施例提供的电子设备700的结构示意图,包括处理器701、存储器702、和总线703。其中,存储器702用于存储执行指令,包括内存7021和外部存储器7022;这里的内存7021也称内存储器,用于暂时存放处理器701中的运算数据,以及与硬盘等外部存储器7022交换的数据,处理器701通过内存7021与外部存储器7022进行数据交换,当电子设备700运行时,处理器701与存储器702之间通过总线703通信,使得处理器701在执行以下指令:
获取行驶装置在行驶过程中采集的道路图像;
利用上述实施例所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
此外,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的图像检测方法的步骤,或执行上述方法实施例中所述的行驶控制方法的步骤。
本公开实施例所提供的图像检测方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的图像检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
本公开实施例所提供的行驶控制方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的行驶控制方法的步骤,具体可参见上述方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本公开所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种图像检测方法,其特征在于,包括:
获取待检测图像;
对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;
确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述二维检测数据指示的二维检测框的长度和宽度、以及二维检测框中心点的坐标信息,从所述待检测图像对应的特征图中截取所述目标对象对应的目标特征图;
基于所述目标对象对应的所述目标特征图和所述多种平均形状数据,确定所述目标对象对应的三维检测数据。
3.根据权利要求1所述的方法,其特征在于,确定与所述二维检测数据对应的形状数据集,包括:
基于所述二维检测数据指示的对象类别,以及预先确定的不同对象类别对应的形状数据集,确定所述二维检测数据对应的形状数据集。
4.根据权利要求3所述的方法,其特征在于,根据以下步骤预先确定不同对象类别对应的形状数据集:
针对每种对象类别,获取该对象类别下的多个图像;
基于所述多个图像中目标对象的真实高度,将所述多个图像划分为多个图像集合;
基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,将各个图像集合对应的平均形状数据,组成所述对象类别下的所述形状数据集。
5.根据权利要求4所述的方法,其特征在于,基于每个图像集合内各个图像中目标对象的形状数据,确定该图像集合对应的平均形状数据,包括:
基于该图像集合内各个图像中目标对象的真实三维尺寸,确定该图像集合对应的目标对象的平均三维尺寸;
基于该图像集合对应的目标对象的平均三维尺寸,确定将所述平均三维尺寸下的目标对象置于不同深度信息指示的深度位置处后,该目标对象的三维框在二维图像平面的投影包围框的宽度信息,并建立的宽度信息与对应的深度信息之间的映射关系;
将所述平均三维尺寸以及所述映射关系,作为所述图像集合对应的所述平均形状数据。
6.根据权利要求1-5任一所述的方法,其特征在于,基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据,包括:
基于所述待检测图像和所述多种平均形状数据,确定每种平均形状数据对应的残差信息以及该残差信息的置信度;
根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据。
7.根据权利要求6所述的方法,其特征在于,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
针对每种平均形状数据,利用该平均形状数据对应的所述残差信息指示的尺寸调整值对该平均形状数据中的平均三维尺寸进行调整,得到该平均形状数据对应的调整后的候选三维尺寸,以及利用该平均形状数据对应的所述残差信息指示的深度调整值对该平均形状数据中的深度信息进行调整,得到该平均形状数据对应的调整后的候选深度;
根据每种平均形状数据对应的所述残差信息的置信度,从调整后的多种候选三维尺寸和对应的候选深度中,选择对应最大置信度的目标三维尺寸和目标深度,以及将对应最大置信度的平均形状数据的形状类别作为所述目标对象的目标形状类别;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
8.根据权利要求6所述的方法,其特征在于,所述根据每种平均形状数据对应的残差信息以及该残差信息的置信度,确定所述目标对象对应的所述三维检测数据,包括:
从每种平均形状数据对应的残差信息中,选择置信度最大的残差信息作为目标残差信息,确定所述目标残差信息对应的目标平均形状数据,并将所述目标平均形状数据的形状类别作为所述目标对象的目标形状类别;
利用所述目标残差信息指示的尺寸调整值对所述目标平均形状数据中的平均三维尺寸进行调整,得到所述目标平均形状数据对应的调整后的目标三维尺寸,以及利用所述目标残差信息指示的深度调整值对所述目标平均形状数据中的深度信息进行调整,得到所述目标平均形状数据对应的调整后的目标深度;
将所述目标三维尺寸、所述目标深度以及所述目标形状类别确定为所述目标对象对应的三维检测数据。
9.根据权利要求8所述的方法,其特征在于,基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据,包括:
从所述二维检测数据中,获取三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别;
将所述三维检测数据中的所述目标三维尺寸、所述目标深度、和所述目标形状类别,以及从所述二维检测数据中获取的三维检测框的中心点在二维图像上的投影点的坐标信息、所述三维检测框的基准面与设置的基准线的夹角、和所述目标对象的对象类别,确定为所述目标对象对应的目标三维位姿数据。
10.一种行驶控制方法,其特征在于,包括:
获取行驶装置在行驶过程中采集的道路图像;
利用权利要求1至9任一项所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
11.一种图像检测装置,其特征在于,包括:
图像获取模块,用于获取待检测图像;
目标检测模块,用于对所述待检测图像进行目标检测,确定所述待检测图像中目标对象的二维检测数据;确定与所述二维检测数据对应的形状数据集;所述形状数据集中包括所述目标对象所属对象类别下的多种平均形状数据;
三维检测数据确定模块,用于基于所述待检测图像和所述多种平均形状数据,确定所述目标对象对应的三维检测数据;
三维位姿数据确定模块,用于基于所述三维检测数据以及所述二维检测数据,确定所述目标对象对应的目标三维位姿数据。
12.一种行驶控制装置,其特征在于,包括:
道路图像获取模块,用于获取行驶装置在行驶过程中采集的道路图像;
图像检测模块,用于利用权利要求1至9任一项所述的图像检测方法对所述道路图像进行检测,得到所述道路图像中包括的目标对象的目标三维位姿数据;
控制模块,用于基于所述道路图像中包括的目标对象的目标三维位姿数据,控制所述行驶装置。
13.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的图像检测方法的步骤,或执行如权利要求10所述的行驶控制方法的步骤。
14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的图像检测方法的步骤,或执行如权利要求10所述的行驶控制方法的步骤。
CN202010449279.7A 2020-05-25 2020-05-25 图像检测方法及装置 Active CN111627001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010449279.7A CN111627001B (zh) 2020-05-25 2020-05-25 图像检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010449279.7A CN111627001B (zh) 2020-05-25 2020-05-25 图像检测方法及装置

Publications (2)

Publication Number Publication Date
CN111627001A true CN111627001A (zh) 2020-09-04
CN111627001B CN111627001B (zh) 2024-05-17

Family

ID=72259103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010449279.7A Active CN111627001B (zh) 2020-05-25 2020-05-25 图像检测方法及装置

Country Status (1)

Country Link
CN (1) CN111627001B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418243A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 特征提取方法、装置及电子设备
CN112818845A (zh) * 2021-01-29 2021-05-18 深圳市商汤科技有限公司 测试方法、目标对象检测方法、行驶控制方法及装置
CN112926395A (zh) * 2021-01-27 2021-06-08 上海商汤临港智能科技有限公司 目标检测方法、装置、计算机设备及存储介质
CN113012227A (zh) * 2021-03-23 2021-06-22 华南理工大学 基于深度估计与类内平均形状的室内物***姿估计方法
CN113095184A (zh) * 2021-03-31 2021-07-09 上海商汤临港智能科技有限公司 定位方法、行驶控制方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379371A1 (en) * 2014-06-30 2015-12-31 Microsoft Corporation Object Detection Utilizing Geometric Information Fused With Image Data
CN109214980A (zh) * 2017-07-04 2019-01-15 百度在线网络技术(北京)有限公司 一种三维姿态估计方法、装置、设备和计算机存储介质
CN109872366A (zh) * 2019-02-25 2019-06-11 清华大学 基于深度拟合程度评估网络的物体三维位置检测方法和装置
CN110826499A (zh) * 2019-11-08 2020-02-21 上海眼控科技股份有限公司 物体空间参数检测方法、装置、电子设备及存储介质
US20200143563A1 (en) * 2017-11-22 2020-05-07 Beijing Sensetime Technology Development Co., Ltd. Methods and apparatuses for object detection, and devices
US20200160616A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Method and apparatus for aligning 3d model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150379371A1 (en) * 2014-06-30 2015-12-31 Microsoft Corporation Object Detection Utilizing Geometric Information Fused With Image Data
CN109214980A (zh) * 2017-07-04 2019-01-15 百度在线网络技术(北京)有限公司 一种三维姿态估计方法、装置、设备和计算机存储介质
US20200143563A1 (en) * 2017-11-22 2020-05-07 Beijing Sensetime Technology Development Co., Ltd. Methods and apparatuses for object detection, and devices
US20200160616A1 (en) * 2018-11-15 2020-05-21 Samsung Electronics Co., Ltd. Method and apparatus for aligning 3d model
CN109872366A (zh) * 2019-02-25 2019-06-11 清华大学 基于深度拟合程度评估网络的物体三维位置检测方法和装置
CN110826499A (zh) * 2019-11-08 2020-02-21 上海眼控科技股份有限公司 物体空间参数检测方法、装置、电子设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418243A (zh) * 2020-10-28 2021-02-26 北京迈格威科技有限公司 特征提取方法、装置及电子设备
CN112926395A (zh) * 2021-01-27 2021-06-08 上海商汤临港智能科技有限公司 目标检测方法、装置、计算机设备及存储介质
WO2022161140A1 (zh) * 2021-01-27 2022-08-04 上海商汤智能科技有限公司 目标检测方法、装置、计算机设备及存储介质
CN112818845A (zh) * 2021-01-29 2021-05-18 深圳市商汤科技有限公司 测试方法、目标对象检测方法、行驶控制方法及装置
CN113012227A (zh) * 2021-03-23 2021-06-22 华南理工大学 基于深度估计与类内平均形状的室内物***姿估计方法
CN113012227B (zh) * 2021-03-23 2022-09-20 华南理工大学 基于深度估计与类内平均形状的室内物***姿估计方法
CN113095184A (zh) * 2021-03-31 2021-07-09 上海商汤临港智能科技有限公司 定位方法、行驶控制方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111627001B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN110163930B (zh) 车道线生成方法、装置、设备、***及可读存储介质
CN111627001A (zh) 图像检测方法及装置
EP3627180B1 (en) Sensor calibration method and device, computer device, medium, and vehicle
CN104833370B (zh) 用于映射、定位和位姿校正的***和方法
CN111209770B (zh) 一种车道线识别方法及装置
CN111462096A (zh) 三维目标检测方法及装置
CN111582054B (zh) 点云数据处理方法及装置、障碍物检测方法及装置
CN110879994A (zh) 基于形状注意力机制的三维目测检测方法、***、装置
US20230108621A1 (en) Method and system for generating visual feature map
CN111539484A (zh) 训练神经网络的方法及装置
US20150003669A1 (en) 3d object shape and pose estimation and tracking method and apparatus
CN111928842B (zh) 一种基于单目视觉实现slam定位的方法及相关装置
CN113011364B (zh) 神经网络训练、目标对象检测、行驶控制方法及装置
CN112154448A (zh) 目标检测方法、设备及可移动平台
CN113793413A (zh) 三维重建方法、装置、电子设备及存储介质
KR20190060679A (ko) 이동 객체의 자세 학습 방법 및 장치
CN114179788A (zh) 自动泊车方法、***、计算机可读存储介质及车机端
CN110673607A (zh) 动态场景下的特征点提取方法、装置、及终端设备
KR100691855B1 (ko) 영상정보의 특징 추출장치 및 그 방법
EP3410345A1 (en) Information processing apparatus and non-transitory recording medium storing thereon a computer program
CN113011517A (zh) 定位结果检测方法、装置、电子设备及存储介质
CN109544648B (zh) 一种标定方法及装置
CN116703979A (zh) 目标跟踪方法、装置、终端及存储介质
CN110827337B (zh) 确定车载相机的姿态的方法、装置和电子设备
US20240160222A1 (en) Method and system for localizing a mobile robot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant