CN116343143A

CN116343143A - 目标检测方法、存储介质、路侧设备及自动驾驶***

Info

Publication number: CN116343143A
Application number: CN202310331663.0A
Authority: CN
Inventors: 黄德璐; 文峰
Original assignee: Continental Software System Development Center Chongqing Co ltd
Current assignee: Continental Software System Development Center Chongqing Co ltd
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-06-27

Abstract

本发明涉及一种基于深度学习网络的目标检测方法，包括：获取由图像传感器采集的原始图像；将所述原始图像输入到具有预先训练好的模型参数的深度学习网络中，以得到目标物体的预测结果；在所述原始图像中的所有预测框之间求损失，其中将求损失结果小于设定阈值的预测框归属为同一目标物体；以及从归属为同一目标物体的预测框中选取类别置信度最高的类别和所对应的预测框作为该目标物体的最终检测结果，其中，所述预先训练好的模型参数通过在所述深度学习网络的训练过程中使用目标物体的人工标注的真实框进行训练来确定。本发明还涉及一种计算机可读存储介质，一种包括该计算机可读存储介质的路侧设备，以及一种自动驾驶***。

Description

目标检测方法、存储介质、路侧设备及自动驾驶***

技术领域

本发明涉及图像目标检测领域，更具体而言，本发明涉及一种基于深度学习网络的目标检测方法，一种计算机可读存储介质，一种包括该计算机可读存储介质的路侧设备，以及一种自动驾驶***。

背景技术

在自动驾驶和V2X技术中，摄像头起到了至关重要的作用。摄像头连同基于深度学习的目标检测算法一起能有效识别出目标的大小、位置、类别等信息。这使得自动驾驶车辆和路侧端的设备对于周围的交通环境拥有很强的感知能力。在基于深度学习网络的目标检测算法中，单目摄像头的目标检测算法由于成本低、延时低、部署容易等优点被广泛应用。

目前，基于深度学习网络的单目摄像头目标检测算法大多为2D检测算法，其只能识别物体的大小，而无法识别物体的形状。这对于准确识别物***置及不同物体之间的相对位置造成很大困难。例如，在利用路侧端的摄像头检测道路上的行驶车辆的过程中，在遇到上下班高峰期或堵车时，各个车辆在三维世界中彼此距离较近，此时用2D目标检测算法检测出来的结果很有可能是两辆车已经撞上了，这显然是不准确的。

3D目标检测算法能检测出车辆更加准确的位置信息，因此能有效避免上述问题。然而，目前的3D目标检测算法需要大量的摄像头内外参数数据作为训练集，才能输出物体在世界坐标系下的三维信息，不仅运算过程复杂，而且使得最终的检测结果不准确。

发明内容

为了解决现有的单目摄像头目标检测算法不够准确且应用场景有限的问题，本发明提出一种新的基于深度学习网络的目标检测方法。该方法是基于先验框的目标检测算法，不同于传统的基于先验框的目标检测算法，本发明的目标检测算法中所使用到的先验框是像素层面的3D先验框，并且本发明还设计了一套与之对应的匹配学习算法来进行模型训练。

根据本发明的第一方面，提供了一种基于深度学习网络的目标检测方法，该目标检测方法包括以下步骤：

获取由图像传感器采集的原始图像，所述原始图像包括至少一个目标物体；

将所述原始图像输入到具有预先训练好的模型参数的深度学习网络中，以得到所述至少一个目标物体的预测结果，所述预测结果包括所述原始图像中的多个预测框，每个预测框具有对应的物体类别和类别置信度；

在所述原始图像中的所有预测框之间求损失，其中将求损失结果小于设定阈值的预测框归属为同一目标物体；以及

从归属为同一目标物体的预测框中选取类别置信度最高的类别和所对应的预测框作为该目标物体的最终检测结果，

其中，所述预先训练好的模型参数通过在所述深度学习网络的训练过程中使用所述至少一个目标物体的人工标注的真实框进行训练来确定。

根据一个可选的实施例，所述深度学习网络的训练过程包括以下步骤：

创建待用于进行训练的图像数据，所述图像数据包括至少一个目标物体的人工标注的真实框和对应的物体类别；

针对每个目标物体利用聚类算法基于所述人工标注的真实框生成多个先验框；

利用损失函数计算每个先验框与所述人工标注的真实框之间的损失值，并将损失值小于设定值的先验框确定为正样本；

利用梯度下降算法对所有正样本进行优化，以使相应的损失函数收敛至最小值，从而得到训练后的模型参数；以及

将所得到的模型参数加载到待用于图像目标检测的所述深度学习网络中。

根据一个可选的实施例，所述深度学习网络的训练过程还包括如下步骤：

获取图像数据上的所有真实框的中心点坐标和角点坐标；

利用聚类算法将所获取的中心点坐标和角点坐标聚类为多个坐标集，每个坐标集合对应于一种物体类别；以及

将所述多个坐标集转换为相应的物体类别的先验框。

根据一个可选的实施例，所述损失函数由下述公式确定：

L＝k*Lc+Lr，

其中，k为比例系数，Lc代表分类损失，Lr代表所述正样本的角点回归损失。

根据一个可选的实施例，所述深度学习网络包括：

第一部分，用于从原始图像中提取出与所述至少一个目标物体有关的多个不同层级的原始特征图；

第二部分，用于对所述多个不同层级的原始特征图进行信息融合，以生成待进一步用于特征检测的多层特征图；以及

第三部分，用于基于所述多层特征图生成并输出所述至少一个目标物体的预测结果。

根据一个可选的实施例，所述深度学习网络为卷积神经网络，并且第一部分为主干部分，所述第二部分为脖颈部分，所述第三部分为检测头部分。

根据一个可选的实施例，在所述深度学习网络的训练过程中在由所述第二部分提供的每层特征图上生成相同数量、不同大小和不同形状的多个先验框。

根据一个可选的实施例，通过对所述图像数据进行数据增强处理，以增加待用于训练的数据集。

根据一个可选的实施例，所述数据增强处理包括图像反转、图像亮度和对比度调整、马赛克数据增强、随机裁剪以及随机缩放中的至少一种。

根据一个可选的实施例，所述图像传感器为单目摄像头。

根据一个可选的实施例，该目标检测方法还包括：

确定所述单目摄像头的标定参数；

基于所述单目摄像头的标定参数将所述至少一个目标物体的预测框变换为在世界坐标系下的尺寸和位置信息。

根据本发明的第二方面，还提供了一种计算机可读存储介质，在该计算机可读存储介质上存储有计算机程序，其包括程序指令，所述程序指令在被处理器执行时实施如上所述的目标检测方法的各个步骤。

根据本发明的第三方面，还提供了一种路侧设备，包括：

路侧端摄像头，用于采集路侧端的图像；

如上所述的计算机可读存储介质；以及

处理器，所述处理器配置为基于由所述路侧端摄像头采集的图像执行所述计算机可读存储介质中的所述程序指令，以检测图像中的目标对象。

根据本发明的第三方面，还提供了一种自动驾驶***，该自动驾驶***包括：

车载摄像头，用于采集车辆周围的道路图像；

道路环境监测单元，该道路环境监测单元配置为基于由所述车载摄像头获取的道路图像利用如上所述的目标检测方法来确定车辆周围的道路状况；以及

车辆控制单元，所述车辆控制单元配置为根据由所述道路环境监测单元确定的道路状况控制车辆执行相应的自动驾驶操作。

利用根据本发明的深度学习网络所获得的目标检测方法可同时适用于路侧端摄像头和车载摄像头，并且可将检测结果应用至V2X算法或车辆自动驾驶算法中，从而提高V2X***或自动驾驶***的道路环境感知能力。与现有的单目摄像头目标检测算法相比，根据本发明的基于深度学习网络的目标检测方法不仅训练数据的采集更方便，而且检测结果也更准确。

附图说明

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的具体实施方式，本发明的方法所具有的其它特征和优点将变得清楚或更为具体地得以说明。

图1示出了根据本发明的目标检测方法中所使用的深度学习网络的训练过程的流程图。

图2示出了根据本发明一个示例性实施例的、利用图1中的训练结果执行图像目标的在线检测过程的流程图。

具体实施方式

下面将参照附图并通过实施例来描述根据本发明的基于深度学习网络的目标检测方法。在下面的描述中，阐述了许多具体细节以便使所属技术领域的技术人员更全面地了解本发明。但是，对于所属技术领域内的技术人员明显的是，本发明的实现可不具有这些具体细节中的一些。相反，可以考虑用下面的特征和要素的任意组合来实施本发明，而无论它们是否涉及不同的实施例。因此，下面的各个方面、特征、实施例和优点仅作说明之用而不应被看作是权利要求的要素或限定。

现有的基于深度学习网络的单目摄像头目标检测算法主要包括2D目标检测算法和3D目标检测算法。其中，2D目标检测算法只能识别物体的大小，无法识别物体的形状和朝向，并且对于物***置的识别结果也不够准确。这会使得自动驾驶***或路侧设备对整个交通状况的感知不够准确。

3D目标检测算法能够检测出车辆更加准确的位置信息，包括车辆朝向、车辆尺寸(长、宽、高等)信息。然而，现有的单目摄像头3D目标检测算法主要用于车端，需要使用大量的摄像头内外参数和用激光雷达标定的距离数据作为训练集来检测与输出物体在世界坐标下的尺寸和位置信息。该检测过程强依赖于训练数据的相机内外参数，如果测试数据的内外参数和训练数据的内外参数之间存在较大出入，或者训练数据的相机内外参数标定不够准确，则很难保证输出结果的准确性。

此外，在某些特定场景下，例如对于路侧设备，数据采集变得十分困难。为了采集不同种类的图像数据，可能需要在几百个路口实施数据采集，与此相关联的对所有路口的摄像头进行标定和安装激光雷达所需的投入都是十分巨大的，因此，现有的单目摄像头3D目标检测算法在这种路侧设备场景下可实施性很差。

基于上述背景，为了解决现有的单目摄像头目标检测算法不够准确且应用场景有限的问题，本发明提出一种新的基于深度学习网络的目标检测方法。该方法是基于先验框的目标检测算法，不同于传统的基于先验框的目标检测算法，本发明的目标检测算法中所使用到的先验框是像素层面的3D先验框，并且本发明还设计了一套与之对应的匹配学习算法来进行模型训练。

根据本发明的目标检测方法的训练数据不需要用到摄像头的内外参数。在获得摄像头的图像数据后，通过在图像的像素平面上手动标注/绘制各个物体的3D框作为训练的正样本，该3D框不需要是物体在世界坐标下的3D轮廓投影到图像上结果，而是只要满足基本的近大远小的透视关系且贴合物体的外部轮廓即可，并且同一张图片上的不同3D框之间也不需要满足同一透视关系。

根据本发明的基于深度学习网络的目标检测方法主要使用深度学习网络来获取物体在图像上的各个物体的3D框角点坐标(例如，8个角点，共计16个坐标值)和类别信息。通过这些角点坐标，结合摄像头的标定参数，就能计算出目标物体的尺寸(长、宽、高等)、方向角以及位置等信息。该深度学习网络的模型参数需要在通过在该网络的训练过程中使用目标物体的人工标注的真实框进行训练来预先确定。

深度学习网络的训练过程主要包括数据创建和标定、数据增强、深度学习网络、先验框的生成与匹配、损失函数与训练等步骤。图1示出了根据本发明的目标检测方法中所使用的深度学习网络的训练过程的流程图。

下文结合图1来详细描述根据本发明的目标检测方法中的深度学习网络的训练过程。

1、图像数据的创建与标定

该步骤涉及创建待用于进行训练的图像数据，该图像数据可以是从图像传感器(例如单目摄像头)中获取的原始图片，其中包括至少一个目标物体的人工标注的3D框(本文也称之为“真实框”)和对应的物体类别。

需要详细说明的是，根据本发明的目标检测方法中的深度学习网络的训练过程不需要用到摄像头的内外参数，而是在获取摄像头的原始图片之后，在图片上人工手动标注各个目标物体的3D框数据。标注方法可以是在图像上手动绘制3D框，所绘制的3D框只需要满足近大远小的基本规律，且能贴合物体(例如车辆)的轮廓，并且不要求同一张图片上所有物体的3D框都满足相同的透视关系。

2、数据增强

该步骤涉及通过对所创建的图像数据进行数据增强处理，以增加待用于进行训练的数据集。

具体的数据增强方法的使用可以根据训练集数据的实际情况来确定。例如，数据增强处理可选自图像反转、图像亮度和对比度调整、马赛克数据增强、随机裁剪以及随机缩放中的至少一种。其中，图像反转能平衡物体的旋转角度。图像亮度和对比度调整可使学习网络能够适应不同的光照强度。马赛克数据增强即将多张不同的图片拼接成一张大图，从而能够有效增加小目标的数量。随机裁剪能增加被遮挡物体的检测精度。随机缩放能增加大目标和小目标样本的数量。

3、深度学习网络的使用

本发明所使用的深度学习网络例如可以是卷积神经网络(CNN)，该卷积神经网络可以大体分为主干、脖颈以及检测头三个部分。

主干部分是整个深度学习网络的核心，其由Cn个的卷积块组成，每个卷积块由1个或多个卷积层组合而成，用于从所创建的图像数据中提取图像特征，这里提取出来的特征是与至少一个目标物体有关的多个不同层级上的原始特征。例如利用主干部分可生成Ln层原始特征图，这Ln层原始特征图经过网络的脖颈重新获得Ln个新的特征图再输入到检测头中。

脖颈部分是在主干与检测头之间建立连接的网络，其由卷积层和上、下采样构成，用于对由主干部分提取的多个不同层级的原始特征进行信息融合，以生成待进一步用于检测的新的多层特征图。该部分可提高深度学习网络对于不同大小的物体的分类和回归精度。

检测头由卷积层或全连接层构成，用于输出物体的类别以及回归出物体的矩形框信息，例如，其可在多层特征图上分别生成至少一个目标物体的类别信息、类别置信度和角点坐标，基于这些角点坐标可进一步确定相应物体的预测3D框。

4、深度学习网络中先验框的生成与训练

假设深度学习网络的脖颈部分输出Ln层特征图，在每层特征图上都具有相同数量、不同大小和不同形状的多个先验框。每层特征图上的先验框可使用K-Means聚类算法来生成。

记每个特征图上先验框的数量为Na，该Na的取值范围一般为12～36。获得图像数据集中所有目标物体的人工标注的3D框。将所有的3D框中心化，记正样本在图像上的角点为(xv_n，yv_n)，在图像上的中心点为(xC，yc)，n的取值范围为0到15。3D框中心化后的角点坐标为(xct_n，yct_n)，xct_n＝xv_n-xc，yct_n＝yv_n-yc。将所有中心化的样本通过K-Means聚类算法聚类成Ln＊Na个类别，每个类别的聚类结果即为所需的先验框。将聚类成的所有先验框按照从大到小的次序排列并分成Ln等份，将每一份的先验框分别在每一层的特征图上进行传播。

利用下列公式计算各个先验框的损失值：

其中，xa_n是先验框的角点坐标的像素值，ha是先验框的高度，xg_n是人工标注的3D框的角点坐标的像素值。

如果所得到的先验框和真实框之间的损失值ls小于设定阈值，则将该先验框确定为正样本，剩下的先验框则选取一部分作为负样本。

5、损失函数的收敛与优化

该过程涉及利用例如梯度下降算法对所有正样本的先验框进行优化，以使相应的损失函数收敛至最小值，从而得到训练后的模型参数。具体过程如下：

将所有正样本的角点坐标做变换xat_n＝(xa_n-xg_n)/ha，其中xa_n和xg_n为匹配上的先验框角点坐标和人工标注的真实框角点坐标，ha为先验框的高度，xat_n为转换后的值，n的取值范围为0到15。

损失函数主要有两部分组成：第一部分是分类损失，记为Lc＝loss_fun(plc，glc)，其中loss_fun是具体函数，一般可选用交叉熵损失函数，plc是利用学习网络预测的分类结果，glc是人工标注的实际类别；第二部分为正样本的角点回归损失，记为Lr＝loss_fun(xat，pre)，loss_fun一般选用L1或L2损失函数，xat为相应的正样本角点转换后的值，pre为由学习网络输出的角点转换值。因此，总的损失函数可记为L＝k*Lc+Lr，其中k为比例系数。

最后，使用例如随机梯度下降等算法对网络进行训练，即能得到训练后的模型参数。

图2示出了根据本发明一个示例性实施例的、利用图1中的训练结果执行图像目标的在线检测过程的流程图。下文结合图2来详细描述根据本发明的目标检测方法的在线检测过程。

图像目标的在线检测

当在上述训练过程中(参考图1)得到了模型参数之后，将其加载到搭建好的深度学习网络中，即可进行图像目标的在线检测。该模型参数是通过在深度学习网络的训练过程中使用至少一个目标物体的人工标注的真实框进行训练来确定的。

首先，获取由图像传感器(例如，单目摄像头)采集的原始图像，该原始图像可包括至少一个目标物体(例如，车辆)。

将获取到的原始图像输入到具有预先训练好的模型参数的深度学习网络中，便可得到图像中至少一个目标物体的预测结果，该预测结果例如可包括原始图像中的多个预测框的角点坐标，每个预测框具有对应的物体类别和类别置信度。将预测框的角点坐标做反变换，便可得到预测的3D框。即，xpr_n＝xa_n-xout_n*ha，其中xpr_n为预测的3D框的角点坐标，xa_n、ha分别为该预测框所对应的先验框的角点坐标和高度，xout_n为预测的3D框的转换后的角点坐标，其中n的取值范围为0到15。

在生成了原始图像中的所有预测框之后，在所有预测框之间求损失，并且将求损失结果小于设定阈值的预测框归属为同一目标物体。然后，从归属为同一目标物体的预测框中选取类别置信度最高的类别和所对应的预测框作为该目标物体的最终检测结果。此时得到的检测结果是各个目标物体的像素层面的3D框，如果能够确定相机的标定参数，就可以将预测3D框的像素层面的角点坐标变换到世界坐标系下，由此可得到目标物体在世界坐标系下的尺寸(长、宽、高)和位置信息。

在本申请的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序包括可执行的程序指令，该可执行的程序指令在被例如处理器执行时可以实施本文任意一个实施例中所述的目标检测方法的各个步骤。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本发明的目标检测方法中所描述的示例性步骤。

根据本申请的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

在本申请的示例性实施例中，还提供了一种路侧设备，该路侧设备可包括路侧端摄像头，用于采集路侧端的图像；如上所述的计算机可读存储介质；以及处理器，所述处理器配置为基于由所述路侧端摄像头采集的图像执行所述计算机可读存储介质中的各个程序指令，以检测图像中的目标对象。

在本申请的示例性实施例中，还提供了一种自动驾驶***，该自动驾驶***包括：车载摄像头；道路环境监测单元，该道路环境监测单元配置为基于由所述车载摄像头所采集的图像利用本文所述的目标检测方法来确定车辆周围的道路状况；以及车辆控制单元，所述车辆控制单元配置为根据由所述道路环境监测单元确定的道路状况控制车辆执行相应的自动驾驶操作。

通过以上的实施方式的描述可以了解的是，根据本发明的基于深度学习网络的目标检测方法主要使用深度学习网络来获取物体在图像上的各个物体的3D框角点坐标(例如，8个角点，共计16个坐标值)和类别信息。通过这些角点坐标，结合摄像头的标定参数，就能计算出目标物体的尺寸(长、宽、高等)、方向角以及位置等信息。该深度学习网络的模型参数需要在通过在该网络的训练过程中使用目标物体的人工标注的真实框进行训练来预先确定。

利用该深度学习网络所获得的目标检测方法可同时适用于路侧端摄像头和车载摄像头，并且可将检测结果应用至V2X算法或车辆自动驾驶算法中，从而提高V2X***或自动驾驶***的道路环境感知能力。与现有的单目摄像头目标检测算法相比，根据本发明的基于深度学习网络的目标检测方法不仅训练数据的采集更方便，而且检测结果也更准确。

本领域的技术人员可以理解的是，本文的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本申请的实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请的实施方式的使用路侧设备检测道路中的目标的方法。

虽然本发明已以较佳实施例披露如上，但本发明并非限于此。任何本领域技术人员，在不脱离本发明的精神和范围内所作的各种更动与修改，均应纳入本发明的保护范围内，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种基于深度学习网络的目标检测方法，其特征在于，该目标检测方法包括以下步骤：

2.根据权利要求1所述的目标检测方法，其特征在于，所述深度学习网络的训练过程包括以下步骤：

3.根据权利要求2所述的目标检测方法，其特征在于，所述深度学习网络的训练过程还包括如下步骤：

获取图像数据上的所有真实框的中心点坐标和角点坐标；

将所述多个坐标集转换为相应的物体类别的先验框。

4.根据权利要求2或3所述的目标检测方法，其特征在于，所述损失函数由下述公式确定：

L＝k*Lc+Lr，

5.根据权利要求1至3中任一项所述的目标检测方法，其特征在于，所述深度学习网络包括：

6.根据权利要求5所述的目标检测方法，其特征在于，所述深度学习网络为卷积神经网络，并且第一部分为主干部分，所述第二部分为脖颈部分，所述第三部分为检测头部分。

7.根据权利要求5所述的目标检测方法，其特征在于，在所述深度学习网络的训练过程中在由所述第二部分提供的每层特征图上生成相同数量、不同大小和不同形状的多个先验框。

8.根据权利要求2或3所述的目标检测方法，其特征在于，通过对所述图像数据进行数据增强处理，以增加待用于训练的数据集。

9.根据权利要求8所述的目标检测方法，其特征在于，所述数据增强处理包括图像反转、图像亮度和对比度调整、马赛克数据增强、随机裁剪以及随机缩放中的至少一种。

10.根据权利要求1至3中任一项所述的目标检测方法，其特征在于，

所述图像传感器为单目摄像头。

11.根据权利要求10所述的目标检测方法，其特征在于，该目标检测方法还包括：

确定所述单目摄像头的标定参数；

12.一种计算机可读存储介质，在该计算机可读存储介质上存储有计算机程序，该计算机程序包括程序指令，其特征在于，所述程序指令在被处理器执行时实施根据权利要求1至11中任一项所述的目标检测方法的各个步骤。

13.一种路侧设备，其特征在于，包括：

路侧端摄像头，用于采集路侧端的图像；

根据权利要求12所述的计算机可读存储介质；以及

14.一种自动驾驶***，其特征在于，该自动驾驶***包括：

车载摄像头，用于采集车辆周围的道路图像；

道路环境监测单元，该道路环境监测单元配置为基于由所述车载摄像头获取的道路图像利用根据权利要求1至11中任一项所述的目标检测方法来确定车辆周围的道路状况；以及