CN113743171A

CN113743171A - 目标检测方法及装置

Info

Publication number: CN113743171A
Application number: CN202010480847.XA
Authority: CN
Inventors: 李志刚; 杨臻; 刘冰冰; 张维
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-05-30
Filing date: 2020-05-30
Publication date: 2021-12-03

Abstract

本申请公开了目标检测方法及装置，涉及信息处理技术领域，尤其涉及自动驾驶或智能交通领域，本申请通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。具体的，通过初步聚类的三维点云与图像检测后的目标检测框的重合度，可以识别初步聚类过程中的欠分割问题；通过综合分析初步聚类的三维点云与图像检测后的目标检测框的重合度，以及每个目标检测框对应的目标预设尺寸，可以识别初步聚类过程中的过分割问题并更正该结果。

Description

目标检测方法及装置

技术领域

本申请实施例涉及信息处理技术领域，尤其涉及自动驾驶或智能交通领域的目标检测方法及装置。

背景技术

在先进驾驶辅助***(advanced driver assistant system，ADAS)或者自动驾驶(autonomous driving，AD)***中通常配置多种三维点感知模块，例如激光传感器、雷达、声纳或超声波传感器等，用于感知周边环境及目标信息。通过感知周围环境及目标，可以完成目标识别，从而有效规避障碍物，增加自动驾驶的舒适性和安全性。其中，上述目标如车辆、行人、护栏、路桩、灌木丛、灯杆、车辆通行杆/拦车杆、立交桥涵洞或建筑物等。通常，上述三维点感知模块基于获取的三维点云，通过聚类得到一个或多个目标的位置、朝向、运动速度和外形等信息。

但是，对于多个不同目标互相遮挡的场景，三维点感知模块无法准确区分不同目标，造成欠分割。以及，对于同一目标，由于三维点感知模块获取的数据的不连续性，可能会造成过分割。其中，欠分割是指多个目标被误认为一个目标，过分割是指一个目标被误认为多个目标。例如，假设三维点感知模块是激光传感器，在图1中的(a)所示的场景左侧，由于灌木丛与灌木丛旁边的汽车相互遮挡，因此激光传感器发出的激光在灌木丛和灌木丛旁边的汽车上的反射光很难被激光传感器区分。在这种情况下，激光传感器会错误地将灌木丛和灌木丛旁边的汽车当成一个目标1，造成欠分割。同样的，在图1中的(a)所示的场景右侧，由于人与人旁边的车辆相互遮挡，因此激光传感器发出的激光在人和人旁边的车辆上的反射光很难被激光传感器区分。在这种情况下，激光传感器会错误地将人和人旁边的车辆当成一个目标2，造成欠分割。在图1中的(b)所示的场景中，卡车和卡车上的货物的位置、运动速度等都是同步的，对于ADAS或者AD***来说是一个整体。但是由于激光传感器发出的激光在卡车和货物上的反射光的不连续性，因此，激光传感器会错误地将其区分为多个目标(如图1中的(b)所示的目标3-目标9)，造成过分割。上述欠分割和过分割现象过会引起目标识别不准确，进而造成障碍物的判断失误，影响自动驾驶的安全性。另外，过分割还会增加不必要的计算量。

发明内容

本申请提供目标检测方法及装置，可以解决在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，提供一种目标检测方法，该方法包括：获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；其中，图像检测信息包括：多个目标检测框的位置、尺寸、上述多个目标检测框对应的目标类别和标识信息；三维点云的聚类信息包括至少一个第一聚类目标和该至少一个第一聚类目标对应的三维点；根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息；其中图像坐标系为目标场景图像的坐标系；其中，更新后的三维点云的聚类信息包括至少一个第二聚类目标和该至少一个第二聚类目标对应的三维点；第二聚类目标的数量小于或等于第一聚类目标的数量。

上述第一方面提供的技术方案，通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。具体的，通过初步聚类的三维点云与图像检测后的目标检测框的重合度，可以识别初步聚类过程中的欠分割问题；通过综合分析初步聚类的三维点云与图像检测后的目标检测框的重合度，以及每个目标检测框对应的目标预设尺寸，可以识别初步聚类过程中的过分割问题并更正该结果。

在一种可能的实现方式中，上述获取目标场景的三维点云的聚类信息，包括：将上述三维点云投影到二维栅格图，得到多个二维点和上述三维点云与该多个二维点之间的对应关系；将上述多个二维点聚类为至少一个第一聚类目标；根据上述三维点云与多个二维点之间的对应关系，确定至少一个第一聚类目标对应的三维点。通过上述过程，可以初步对三维点云进行聚类，得到初步的目标识别结果。

在一种可能的实现方式中，上述根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新上述三维点云的聚类信息，包括：将三维点云投影到图像坐标系；根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，确定多个目标检测框中每个目标检测框与三维点的对应关系；根据多个目标检测框中每个目标检测框与三维点的对应关系，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息。通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。

在一种可能的实现方式中，上述根据所述至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，确定多个目标检测框中每个目标检测框与三维点的对应关系，包括：判断第一投影点是否在第一目标检测框中；若第一投影点在第一目标检测框中，则确定该第一投影点对应的三维点与第一目标检测框匹配；该第一投影点是上述至少一个第一聚类目标对应的三维点中的任意一个三维点在图像坐标系中的投影点，第一目标检测框是上述多个目标检测框中的任意一个。通过上述方法对三维点与目标检测框进行匹配，可以得到较高的匹配精度。

在一种可能的实现方式中，上述方法还包括：若第一投影点在第一目标检测框和第二目标检测框中，则计算得到d₁和d₂；其中，第二目标检测框是上述多个目标检测框中的一个，第二目标检测框与该第一目标检测框有交叠区域；d₁是第一投影点对应的三维点和第一目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；d₂是第一投影点对应的三维点和第二目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；若d₂小于d₁，则确定第一投影点对应的三维点与第二目标检测框匹配；若d₂大于或等于d₁，则确定第一投影点对应的三维点与第一目标检测框匹配。通过上述方法，可以对容易出现目标分类误判的区域进行重点分析，以得到更加准确的目标识别结果。

在一种可能的实现方式中，上述根据多个目标检测框中每个目标检测框与三维点的对应关系，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息，包括：确定与每个目标检测框匹配的第一聚类目标数量；若第一检测框与上述至少一个第一聚类目标中的多个第一聚类目标匹配，且该多个第一聚类目标两两之间的最大距离小于预设距离，则根据第一检测框对应的目标预设尺寸，判断是否合并该多个第一聚类目标；具体包括：若多个第一聚类目标的整体的尺寸，与上述多个第一聚类目标中预设类别的第一聚类目标预设尺寸的差值小于预设阈值，则合并上述多个第一聚类目标为一个第二聚类目标。通过上述方法，可以对容易出现过分割的区域进行重点分析，在有必要时，合并临近的多个第一聚类目标为第二聚类目标，得到更加准确的目标识别结果。

在一种可能的实现方式中，上述图像检测信息还包括：上述多个目标检测框中每个目标检测框对应的目标类别的置信度，置信度用于表征目标类别的可信程度；上述方法还包括：采用第三目标检测框对应的目标类别的置信度标记第一三维点；该第一三维点是投影点在第三目标检测框中的三维点；第三目标检测框是上述多个目标检测框中的任意一个；采用预设置信度标记第二三维点；该第二三维点是投影点不在上述多个目标检测框中任一个目标检测框中的三维点。通过对三维点进行置信度标记，以便后续参考。例如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度采取控制车辆刹车、减速或变道等措施。又如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度决定是否对目标进行跟踪，例如进一步确定目标类别等。

在一种可能的实现方式中，上述获取目标场景图像的图像检测信息，包括：对目标场景图像进行特征识别和特征分析，获取上述图像检测信息。

在一种可能的实现方式中，上述目标场景图像和目标场景的三维点云是同步获取的。通过同步获取上述目标场景图像和目标场景的三维点云，可以保证基于两者得到的第二聚类目标的准确性。

第二方面，提供一种目标检测装置，该目标检测装置包括：处理单元，用于获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；其中，图像检测信息包括：多个目标检测框的位置、尺寸、上述多个目标检测框对应的目标类别和标识信息；三维点云的聚类信息包括至少一个第一聚类目标和该至少一个第一聚类目标对应的三维点；以及，根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息；其中图像坐标系为目标场景图像的坐标系；其中，更新后的三维点云的聚类信息包括至少一个第二聚类目标和该至少一个第二聚类目标对应的三维点；第二聚类目标的数量小于或等于第一聚类目标的数量。

上述第二方面提供的技术方案，通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。具体的，通过初步聚类的三维点云与图像检测后的目标检测框的重合度，可以识别初步聚类过程中的欠分割问题；通过综合分析初步聚类的三维点云与图像检测后的目标检测框的重合度，以及每个目标检测框对应的目标预设尺寸，可以识别初步聚类过程中的过分割问题并更正该结果。

在一种可能的实现方式中，上述处理单元获取目标场景的三维点云的聚类信息，包括：处理单元将上述三维点云投影到二维栅格图，得到多个二维点和上述三维点云与该多个二维点之间的对应关系；将上述多个二维点聚类为至少一个第一聚类目标；以及根据上述三维点云与多个二维点之间的对应关系，确定至少一个第一聚类目标对应的三维点。通过上述过程，可以初步对三维点云进行聚类，得到初步的目标识别结果。

在一种可能的实现方式中，上述处理单元根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新上述三维点云的聚类信息，包括：处理单元将三维点云投影到图像坐标系；根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，确定多个目标检测框中每个目标检测框与三维点的对应关系；以及根据多个目标检测框中每个目标检测框与三维点的对应关系，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息。通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。

在一种可能的实现方式中，上述处理单元根据所述至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，确定多个目标检测框中每个目标检测框与三维点的对应关系，包括：处理单元判断第一投影点是否在第一目标检测框中；若第一投影点在第一目标检测框中，则确定该第一投影点对应的三维点与第一目标检测框匹配；该第一投影点是上述至少一个第一聚类目标对应的三维点中的任意一个三维点在图像坐标系中的投影点，第一目标检测框是上述多个目标检测框中的任意一个。通过上述方法对三维点与目标检测框进行匹配，可以得到较高的匹配精度。

在一种可能的实现方式中，上述处理单元还用于，若第一投影点在第一目标检测框和第二目标检测框中，则计算得到d₁和d₂；其中，第二目标检测框是上述多个目标检测框中的一个，第二目标检测框与该第一目标检测框有交叠区域；d₁是第一投影点对应的三维点和第一目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；d₂是第一投影点对应的三维点和第二目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；若d₂小于d₁，则确定第一投影点对应的三维点与第二目标检测框匹配；若d₂大于或等于d₁，则确定第一投影点对应的三维点与第一目标检测框匹配。通过上述方法，可以对容易出现目标分类误判的区域进行重点分析，以得到更加准确的目标识别结果。

在一种可能的实现方式中，上述处理单元根据多个目标检测框中每个目标检测框与三维点的对应关系，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息，包括：处理单元确定与每个目标检测框匹配的第一聚类目标数量；若第一检测框与上述至少一个第一聚类目标中的多个第一聚类目标匹配，且该多个第一聚类目标两两之间的最大距离小于预设距离，则根据第一检测框对应的目标预设尺寸，判断是否合并该多个第一聚类目标；具体包括：若多个第一聚类目标的整体的尺寸，与上述多个第一聚类目标中预设类别的第一聚类目标预设尺寸的差值小于预设阈值，则合并上述多个第一聚类目标为一个第二聚类目标。通过上述方法，可以对容易出现过分割的区域进行重点分析，在有必要时，合并临近的多个第一聚类目标为第二聚类目标，得到更加准确的目标识别结果。

在一种可能的实现方式中，上述图像检测信息还包括：上述多个目标检测框中每个目标检测框对应的目标类别的置信度，置信度用于表征目标类别的可信程度；上述处理单元还用于，采用第三目标检测框对应的目标类别的置信度标记第一三维点；该第一三维点是投影点在第三目标检测框中的三维点；第三目标检测框是上述多个目标检测框中的任意一个；采用预设置信度标记第二三维点；该第二三维点是投影点不在上述多个目标检测框中任一个目标检测框中的三维点。通过对三维点进行置信度标记，以便后续参考。例如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度采取控制车辆刹车、减速或变道等措施。又如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度决定是否对目标进行跟踪，例如进一步确定目标类别等。

在一种可能的实现方式中，上述目标检测装置还包括：数据采集单元，用于同步获取目标场景图像和所述目标场景的三维点云。通过同步获取上述目标场景图像和目标场景的三维点云，可以保证基于两者得到的第二聚类目标的准确性。

第三方面，提供一种目标检测装置，该目标检测装置包括：存储器，用于存储计算机程序；处理器，用于执行所述计算机程序，以支持所述目标检测装置获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；其中，图像检测信息包括：多个目标检测框的位置、尺寸、上述多个目标检测框对应的目标类别和标识信息；三维点云的聚类信息包括至少一个第一聚类目标和该至少一个第一聚类目标对应的三维点；以及，根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息；其中图像坐标系为目标场景图像的坐标系；其中，更新后的三维点云的聚类信息包括至少一个第二聚类目标和该至少一个第二聚类目标对应的三维点；第二聚类目标的数量小于或等于第一聚类目标的数量。

上述第三方面提供的技术方案，通过结合对目标场景图像的图像检测信息，对三维点云的聚类结果进行优化和更新，以避免在目标识别过程中的欠分割和过分割问题，提高目标识别的准确性。具体的，通过初步聚类的三维点云与图像检测后的目标检测框的重合度，可以识别初步聚类过程中的欠分割问题；通过综合分析初步聚类的三维点云与图像检测后的目标检测框的重合度，以及每个目标检测框对应的目标预设尺寸，可以识别初步聚类过程中的过分割问题并更正该结果。

在一种可能的实现方式中，上述处理器还用于，执行所述计算机程序，以支持所述目标检测装置在第一投影点在第一目标检测框和第二目标检测框中时，计算得到d₁和d₂；其中，第二目标检测框是上述多个目标检测框中的一个，第二目标检测框与该第一目标检测框有交叠区域；d₁是第一投影点对应的三维点和第一目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；d₂是第一投影点对应的三维点和第二目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离；若d₂小于d₁，则确定第一投影点对应的三维点与第二目标检测框匹配；若d₂大于或等于d₁，则确定第一投影点对应的三维点与第一目标检测框匹配。通过上述方法，可以对容易出现目标分类误判的区域进行重点分析，以得到更加准确的目标识别结果。

在一种可能的实现方式中，上述图像检测信息还包括：上述多个目标检测框中每个目标检测框对应的目标类别的置信度，置信度用于表征目标类别的可信程度；上述处理器还用于，执行所述计算机程序，以支持所述目标检测装置采用第三目标检测框对应的目标类别的置信度标记第一三维点；该第一三维点是投影点在第三目标检测框中的三维点；第三目标检测框是上述多个目标检测框中的任意一个；采用预设置信度标记第二三维点；该第二三维点是投影点不在上述多个目标检测框中任一个目标检测框中的三维点。通过对三维点进行置信度标记，以便后续参考。例如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度采取控制车辆刹车、减速或变道等措施。又如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度决定是否对目标进行跟踪，例如进一步确定目标类别等。

在一种可能的实现方式中，上述目标检测装置还包括：视觉感知模块和三维点感知模块，用于同步获取目标场景图像和所述目标场景的三维点云。通过同步获取上述目标场景图像和目标场景的三维点云，可以保证基于两者得到的第二聚类目标的准确性。

第四方面，提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序代码，该计算机程序代码被处理器执行时实现如第一方面任一种可能的实现方式中的方法。

第五方面，提供一种芯片***，该芯片***包括处理器、存储器，存储器中存储有计算机程序代码；所述计算机程序代码被所述处理器执行时，实现如第一方面任一种可能的实现方式中的方法。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

第六方面，提供一种计算机程序产品，当其在计算机上运行时，使得实现如第一方面任一种可能的实现方式中的方法。

附图说明

图1为常规的两种目标识别示例图；

图2为本申请实施例提供的两种***架构示意图；

图3为本申请实施例提供的一种目标检测装置的硬件结构示意图；

图4为本申请实施例提供的一种目标检测方法的流程示意图；

图5为本申请实施例提供的一种对目标场景图像进行图像检测得到目标检测框的示例图；

图6为本申请实施例提供的一种将三维点云投影到二维栅格图的示例图；

图7为本申请实施例提供的一种基于DFS算法的聚类结果示例图；

图8为本申请实施例提供的一种目标场景的三维点云投影到目标场景的图像坐标系的示例图；

图9为本申请实施例提供的一种确定三维点与目标检测框对应关系的流程图；

图10为本申请实施例提供的一种三维点与多个目标检测框匹配的示例图；

图11为本申请实施例提供的两种目标识别示例图；

图12为本申请实施例提供的一种识别过分割问题的示意图；

图13为本申请实施例提供的一种基于L-shape算法计算目标尺寸的示意图；

图14为本申请实施例提供的一种目标检测装置的结构框图；

图15为本申请实施例提供的另一种目标检测装置的结构框图。

具体实施方式

下面结合附图对本申请具体实施例作进一步的详细描述。

本申请实施例提供一种目标检测方法及装置，能够应用于三维(3dimensions，3D)环境感知的场景中。例如，上述方法可以应用于汽车、无人机或卫星等的ADAS。通过本申请实施例提供的一种目标检测方法，可以解决目标检测中的欠分割和过分割现象，提高目标检测的准确性。

为了能够更好地理解本申请实施例，下面对本申请实施例可应用的***架构进行说明。

本申请实施例可应用的***架构中可以包括目标检测装置。其中，目标检测装置中部署有感知模块。其中，感知模块可以包括视觉感知模块和三维点感知模块。例如，视觉感知模块可以包括但不限于图像传感器或成像传感器，如摄像头、摄像机或者成像雷达(如合成孔径雷达)等。三维点感知模块可以包括但不限于激光传感器(如激光雷达或激光雷达扫描仪)、毫米波雷达、声纳或超声波传感器等。关于图像传感器、成像传感器、激光传感器、毫米波雷达、声纳或超声波传感器等的具体介绍，可以参考常规技术中的解释和说明，本申请不做赘述。

在本申请中，目标检测装置用于通过感知模块对周围环境进行测量，得到周围环境的测量数据。例如，该测量数据可以是周围环境的图像(例如目标场景图像)和周围环境的三维点云(例如目标场景的三维点云)。以及，目标检测装置还用于根据上述测量数据识别周围环境中的目标。例如，该目标可以是车辆、行人、护栏、路桩、灌木丛、灯杆、车辆通行杆/拦车杆、立交桥涵洞或建筑物等。

例如，在应用于汽车、无人机或卫星等的ADAS时，目标检测装置可通过视觉感知模块和三维点感知模块等在汽车、无人机或卫星运动的过程中感应周围环境。然后，通过感知周围环境，以完成目标识别，从而有效规避障碍物，增加自动驾驶的舒适性和安全性。

或者，本申请实施例可应用的***架构中可以包括目标检测装置和感知模块。其中，感知模块独立于目标检测装置。感知模块可以包括视觉感知模块和三维点感知模块。感知模块用于对周围环境进行测量，得到周围环境的测量数据。目标检测装置用于根据感知模块得到的测量数据识别周围环境中的目标。其中，感知模块可以通过无线网络或者有线网络等通信方式与目标检测装置通信。

请参考图2，图2示出了本申请实施例提供的两种***架构示意图。如图2中的(a)所示，该***架构20中包括目标检测装置200。其中，目标检测装置200中部署有感知模块210。感知模块210包括视觉感知模块211和三维点感知模块212。如图2中的(b)所示，该***架构20中包括目标检测装置200和感知模块210。其中，感知模块210部署于目标检测装置200之外，独立于目标检测装置200。感知模块210包括视觉感知模块211和三维点感知模块212。

其中，图2所示的感知模块210可以为可移动的设备。例如，感知模块210可以为车载平台，如设置在汽车、摩托车或者自行车等上面。或者，感知模块210可以为舰载平台，如设置在船只、轮船或汽艇等上面。或者，感知模块210可以为机载平台，如设置在无人机、直升机、喷气式飞机或气球等上面。或者，感知模块210可以为星载平台，如设置在卫星等上面。或者，感知模块210可以为智能体设备，如设置在各种应用场景的机器人，如家用机器人，工业场景机器人等上面。

请参考图3，图3示出了本申请实施例提供的一种目标检测装置的硬件结构示意图。如图3所示，目标检测装置200可以包括：处理器301、探测装置302、存储器303、显示器304、通信装置305、定位装置306、外设接口307、电源装置308等部件。这些部件可通过一根或多根通信总线或信号线进行通信，如控制器局域网络(controller area network，CAN)总线(图3中未示出)。本领域技术人员可以理解，图3中示出的硬件结构并不构成对目标检测装置的限定，目标检测装置可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在一些实施例中，例如对于图2中的(a)所示***架构中的目标检测装置200，探测装置302可以包括但不限于上述视觉感知模块211和三维点感知模块212。探测装置302用于对目标场景进行测量，得到目标场景的测量数据。目标场景的测量数据包括目标场景图像和目标场景中至少一个目标的多个点相对于目标检测装置200(或者更为具体的，相对于三维点感知模块212)的位置、方位角或速度等信息。

例如，探测装置302可以包括雷达。目标检测装置200可以通过雷达发射雷达波(或者称为雷达探测信号)，并接收雷达信号经过目标反射的反射波，以探测目标的位置或结构等信息。例如，雷达可以是激光雷达或毫米波雷达等。

通信装置305可以包括射频电路、蓝牙或无线保真(wireless fidelity，Wi-Fi)等。其中，射频电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。在一些实施例中，例如，对于图2中的(b)所示***架构中的目标检测装置200，通信装置305可以用于从感知模块210接收目标场景的测量数据。

存储器303用于存储计算机程序或数据等。

处理器301可以通过运行存储器303存储的计算机程序，执行各种功能以及数据处理。例如，根据感知模块210获取的目标场景的测量数据得到至少一个目标相对于目标检测装置200(或者更为具体的，相对于传感器平台110)的位置、方位角或径向速度等信息。

传感器平台获取的周围目标的测量数据得到目标场景图像的图像检测信息，得到至少一个目标相对于目标检测装置或者模块100(或者更为具体的，相对于三维点感知模块212)的位置、方位角或速度等信息，进而得到目标场景的三维点云。以及，根据目标场景图像的图像检测信息和目标场景的三维点云准确识别目标场景中的目标。

应理解，上述图3所示目标检测装置200包括的硬件模块只是示例性地描述，并不对本申请构成限定。

本申请提供的一种目标检测方法可以应用于具有图3结构或者类似结构的目标检测装置中。或者还可以应用于其他结构的目标检测装置中，本申请不限定。

以下进一步对本申请实施例提供的一种目标检测方法进行具体介绍。

需要说明的是，本申请实施例中的目标场景图像是由视觉感知模块获取的。例如，目标场景图像是由图2中的(a)或图2中的(b)所示的视觉感知模块211获取的。示例性的，视觉感知模块可以是摄像头、摄像机或者成像雷达(如合成孔径雷达)等。例如，自动驾驶车辆的顶部可以安装有多个摄像头，该多个摄像头以30FPS的频率多方位、周期性采集得到目标场景图像。多个摄像头，多方位拍摄行使路面。目标场景的三维点云是由三维点感知模块获取的。示例性的，目标场景的三维点云是图2中的(a)或图2中的(b)所示的三维点感知模块212(例如激光传感器、毫米波雷达、声纳或超声波传感器等)获取的。例如，自动驾驶车辆的顶部可以安装有激光传感器，该激光传感器以10Hz的频率采集目标场景返回的信息。

另外，在本申请实施例中，上述目标场景图像和目标场景的三维点云是同步获取的。以图2中的(a)所示的***架构为例，目标检测装置200可以在第一时刻调用视觉感知模块211，获取目标场景图像。例如，视觉感知模块211包括摄像头，目标检测装置200可以在第一时刻调用相机应用，从而调用视觉感知模块211的摄像头，获取目标场景图像。同时，目标检测装置200可以第一时刻调用三维点感知模块212，获取目标场景的三维点云。

其中，视觉感知模块211和三维点感知模块212可以接受同步开关的控制同步获取目标场景图像和目标场景的三维点云。或者，视觉感知模块211和三维点感知模块212可以基于相同的时间戳(timestamp)同步获取目标场景图像和目标场景的三维点云。其中，时间戳通常是一个字符序列。时间戳可以唯一地标识某一时刻。示例性的，时间戳可以由数字时间戳服务(digita1 time stamp service，DTS)模块生成。例如，DTS模块可以设置在处理器301中。或者，视觉感知模块211和三维点感知模块212可以基于相同的随机数同步获取目标场景图像和目标场景的三维点云。其中，随机数可以唯一地标识某一时刻。本申请实施例不限定同步方式。

请参考图4，图4是本申请实施例提供的一种目标检测方法的流程示意图。该方法的执行主体可以是感知***或者融合感知***或者集成上述***的规划/控制***如辅助驾驶或者自动驾驶***等。或者，该方法的执行主体也可以是软件或者硬件(如与相应感知模块通过无线或者有线连接或者集成在一起的目标检测装置)。以下不同的执行步骤可以集中式也可以分布式实现。

如图4所示，本申请实施例提供的一种目标检测方法包括以下步骤S401-S403：

S401、获取目标场景图像的图像检测信息。

其中，图像检测信息包括但不限于：多个目标检测框的位置、尺寸、多个目标检测框对应的目标类别和标识信息。每个目标检测框中包括目标检测装置200识别出的一个目标图像。每个目标检测框的位置用于表示其中的目标图像所处的位置。每个目标检测框的尺寸用于表示其中的目标图像的尺寸。每个目标检测框对应的目标类别用于表示其中的目标图像对应的目标类别，例如车辆、行人、车道线、斑马线、红绿灯、路灯杆、护栏、路桩、灌木丛、灯杆、车辆通行杆/拦车杆、立交桥涵洞或建筑物等。每个目标检测框的标识信息用于唯一地标识其中的目标图像。例如，该标识信息可以是ID(identification)。

示例性的，图像检测信息可以用{R₁，…，R_s，…，R_k}表示。其中，R_s＝{x_s，y_s，w_s，h_s，cls_s}，K是目标检测装置200得到的目标检测框数量，s∈(1，K)。x_s和y_s分别是第s个目标检测框的左下角、左上角、右下角或右上角的坐标；w_s是第s个目标检测框的宽度；h_s是第s个目标检测框的高度；cls_s是第s个目标检测框中目标图像对应的目标类别。

其中，x_s和y_s是第s个目标检测框的左下角、左上角、右下角还是右上角的坐标，取决于目标场景图像的图像坐标系的设置。例如，若图像坐标系的坐标原点在目标场景图像的左下角，x轴向右，y轴垂直于x轴向上，则x_s和y_s分别是第s个目标检测框的左下角的坐标。若图像坐标系的坐标原点在目标场景图像的左上角，x轴向右，y轴垂直于x轴向下，则x_s和y_s分别是第s个目标检测框的左上角的坐标。若图像坐标系的坐标原点在目标场景图像的右下角，x轴向左，y轴垂直于x轴向上，则x_s和y_s分别是第s个目标检测框的右下角的坐标。若图像坐标系的坐标原点在目标场景图像的右上角，x轴向左，y轴垂直于x轴向下，则x_s和y_s分别是第s个目标检测框的右上角的坐标。本申请不限定目标场景图像的图像坐标系的设置。

在一些实施例中，目标检测装置200可以通过识别目标场景图像中的预设特征，得到上述图像检测信息。其中，预设特征是有可能影响视觉感知模块载体(如车辆)通行的目标的图像特征。可以理解，对于自动驾驶车辆来说，其视线现范围内的，或者更进一步，在其视线现范围内且距离其比较近的有可能影响其通行的目标往往是该车辆比较关注的目标。例如，车辆、行人、护栏、路桩、灯杆、车辆通行杆/拦车杆、立交桥涵洞或距离较近的建筑物等目标受关注的程度较高。而马路等目标不会影响车辆的通行，因此，受关注的程度较低。

例如，图5示出了一种对目标场景图像进行图像检测得到的目标检测框示例。如图5所示，目标检测装置200为车载装置。该目标检测装置200通过对获取的目标场景图像进行特征识别和分析，得到多个目标检测框。如图5所示的ID分别为1、2、3、…、16的目标检测框。其中，图5所示ID为1的目标检测框对应的目标类别为电动车，ID为2和5的目标检测框对应的目标类别为公交车，ID为3、4、6、…、13的目标检测框对应的目标类别为小轿车，ID为14和15的目标检测框对应的目标类别为路桩，ID为16的目标检测框对应的目标类别为路灯杆，ID为17的目标检测框对应的目标类别为红灯，ID为18的目标检测框对应的目标类别为斑马线。对于图5所示的载体车辆，上述ID分别为1、2、3、…、18的目标检测框对应的目标受车辆关注的程度较高。

在一些实施例中，目标检测装置200可以采用神经网络算法对目标场景图像进行图像检测，包括进行特征识别和特征分析，得到上述图像检测信息。例如，上述处理器301中可以包括网络处理单元(network processing unit，NPU)芯片，NPU芯片中可以集成有卷积神经网络算法。目标检测装置200可以通过NPU芯片对目标场景图像进行图像检测，得到上述图像检测信息。关于采用神经网络算法进行图像检测的方法和过程，可以参考常规技术中的介绍，这里不做赘述。

在一些实施例中，为了提高NPU芯片进行图像检测的速度，还可以采用轻量化神经网络(例如，MobileNets或者MobileNets V2)。或者，还可以在NPU芯片中集成加速器，例如寒武纪DianNao加速器等。

在另一些实施例中，目标检测装置200也可以基于常规算法对目标场景图像进行图像检测。例如，基于传统SIFT特征或haar特征的算法等。本申请实施例不限定图像检测的具体方法。

S402、获取目标场景的三维点云的聚类信息。

其中，三维点云的聚类信息包括至少一个第一聚类目标和该至少一个第一聚类目标对应的三维点。

在一些实施例中，可以通过聚类算法，将目标场景的三维点云聚类，得到至少一个第一聚类目标以及每个第一聚类目标对应的三维点。

在本申请中，聚类的目的在于从目标场景的三维点云中，确定出不同类别的目标对应的三维点。例如，从图1中的(a)所示的目标场景的三维点云中，分别确定出灌木丛、车辆和人对应的三维点。从图1中的(b)所示的目标场景的三维点云中，确定出卡车和货物对应的三维点。

例如，上述聚类算法可以是深度优先搜索(depth first search，DFS)算法。或者，上述聚类算法可以是基于密度的聚类算法，例如具有噪声的基于密度的聚类(density-based spatial clustering of applications with noise，DBSCAN)算法或者其扩展，例如分级DBSCAN(hierarchical DBSCAN，HDBSCAN)算法。又如排序点识别聚类结构(orderingpoints to identify the clustering structure，OPTICS)算法。可以理解，通过DFS、DBSCAN、HDBSCAN或OPTICs等聚类算法，可以从目标场景的三维点云中分离出不同的目标或者不同目标对应的三维点。

其中，DFS算法是一种用于遍历或搜索树或图的算法。该方法通过沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当某一节点的所在边都己被探寻过，搜索将回溯到发现该节点的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。关于DFS、DBSCAN、HDBSCAN或者OPTICS等聚类算法的具体介绍，可以参考常规技术中的解释和说明，这里不做赘述。

在一种可能的实现方式中，上述步骤S402可以包括以下步骤1、步骤2和步骤3：

步骤1、将目标场景的三维点云投影到二维栅格图，得到多个二维点，以及上述三维点云与该多个二维点之间的对应关系。

其中，上述二维栅格图可以是占据栅格地图(occupation grid map，OGM)，例如，图6中的(b)所示的OGM。或者还可以是与地面平行的二维栅格图或者其他二维栅格图。以下以将目标场景的三维点云投影到OGM为例，具体举例介绍上述步骤1的一种实现方式：

假设目标场景的三维点云用{p₁，…，p_i，…，p_N}表示。其中，p_i＝{x_wi，y_wi，z_wi}，N是目标场景的三维点云中三维点的数量，p_i是目标场景的三维点云中第i个三维点，i∈(1，N)，x_wi，y_wi和z_wi分别是第i个三维点在预设坐标系(例如三维点感知模块的载体坐标系)中的x轴、y轴和z轴坐标。在得到目标场景的三维点云之后，将目标场景的三维点云俯视投影到OGM中。也就是忽略每个三维点的高度信息(例如在预设坐标系中z轴方向的信息)，将其他两个维度的信息(例如在预设坐标系中x轴和y轴方向的信息)按照一定比例缩放到OGM中。得到N个二维点，该N个二维点用{p₁′，…，p_i′，…，p_N′}表示。其中，第i个三维点p_i＝{x_wi，y_wi，z_wi}对应第i个二维点p_i′＝{x_i，y_i}，x_i和y_i分别是第i个二维点在OGM中的x轴和y轴坐标。

如图6所示，图6中的(a)示出了一种目标场景的三维点云的俯视图。其中，图6中的(a)所示的白色点为激光传感器采集到的目标场景的激光点。按照设定的分辨率(如300x300)可以将目标场景的激光点映射到图6中的(b)所示的OGM中。具体的，以三维点感知模块的载体坐标系的坐标原点对应OGM中的网格框为基准，将目标场景的激光点映射到图6中的(b)所示的OGM中。

步骤2、通过聚类，将得到的多个二维点聚类为至少一个第一聚类目标。

例如，通过DFS、DBSCAN、HDBSCAN或OPTICs等聚类算法，可以从多个二维点中分离出不同的目标，即得到至少一个第一聚类目标。其中，聚类结果可以用{V₁，…，V_j，…，V_m}表示。其中，m是得到的第一聚类目标的数量，V_j是得到的第j个第一聚类目标，j∈(1，m)。每个第一聚类目标对应一个或多个二维点。例如，V_j＝{p_j′}，p_j′是第j个第一聚类目标对应的二维点。

步骤3、根据得到的三维点云与多个二维点之间的对应关系，确定上述至少一个第一聚类目标对应的三维点。

如上文所述，三维点云与二维点是一一对应的，两者的对应关系是已知的，那么根据三维点云与多个二维点之间的对应关系，则可以确定上述步骤2得到的至少一个第一聚类目标中，每个第一聚类目标对应的三维点。

如图7所示，示出了一种基于DFS算法的聚类结果示例图。更为具体的，图7示出了对图6中的(a)所示的俯视图对应的三维点云的聚类结果示例图。其中，图7中的目标框a、目标框b、…、目标框y分别对应了目标场景中的y个第一聚类目标，每个目标框中的三维点为其中的第一聚类目标对应的三维点。

S403、根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息。

具体的，上述步骤S403可以包括以下步骤A、步骤B和步骤C：

步骤A：将目标场景的三维点云投影到目标场景的图像坐标系。

具体的，可以使用三维点感知模块载体坐标系(如车身坐标系)到目标场景的图像坐标系的转换矩阵，将目标场景的三维点云投影到目标场景的图像坐标系。

例如，假设车身坐标系到图像坐标系的转换矩阵为R_3×4，则可以根据以下公式1和公式2得到目标场景的三维点云在目标场景的图像坐标系中的坐标：

其中，x_wi，y_wi和z_wi分别是三维点p_i在车体坐标系中的x轴、y轴和z轴坐标。x_ci和y_ci分别是三维点p_i在图像坐标系中的投影点的x轴和y轴的坐标。也就是说，第i个三维点p_i＝{x_wi，y_wi，z_wi}在图像坐标系中的投影点是二维点p_i ^2D＝{x_ci，y_ci}。对于其他N-1个三维点，采用同样的方法对应到图像坐标系中的其他N-1个投影点。请参考图8，图8示出了一种目标场景的三维点云投影到目标场景的图像坐标系的示例图。如图8所示，三维点感知装置采集到的马路、面包车、龙门架、灌木丛、数目和路灯杆等目标对应的三维点可以分别准确投影到视觉感知模块采集的目标场景图像中的马路、面包车、龙门架、灌木丛、数目和路灯杆等目标。

例如，以下表1示出了一组目标场景的三维点云投影到目标场景的图像坐标系的误差实验数据：

表1

其中，ID是目标场景图像中的目标检测框的标识信息，Delta_U是横向像素误差，Delta_V是纵向像素误差。如表1所示，目标场景的三维点云投影到目标场景的图像坐标系的像素误差平均值在1个像素左右，误差较小。

步骤B：根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度，确定多个目标检测框中与三维点的对应关系。

可以理解，每个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框分别对应的重合度可以通过每个第一聚类目标对应的三维点在图像坐标系中的投影点与多个目标检测框中每个目标检测框的位置关系来体现。上述步骤A中，在目标场景的三维点云投影到目标场景的图像坐标系之后，可以知道至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与目标检测框中每个目标检测框之间的位置关系。

作为一种实现方式，可以通过判断第一投影点是否在第一目标检测框中，来确定多个目标检测框中每个目标检测框与三维点的对应关系。具体的，若第一投影点在第一目标检测框中，则确定该第一投影点对应的三维点与第一目标检测框对应。其中，第一投影点是上述至少一个第一聚类目标对应的三维点中的任意一个三维点在图像坐标系中的投影点。第一目标检测框是所上述多个目标检测框中的任意一个。

例如，如图9所示，若三维点p_i的投影点落在第一目标检测框内，则三维点p_i与该第一目标检测框匹配；可以认为三维点p_i是该第一目标检测框内目标对应的三维点。若三维点p_i的投影点未落在任何目标检测框内，则与每个目标检测框均不匹配；可以认为三维点p_i受关注的可能性比较小，例如该三维点是马路对应的三维点。

例如，对每个第一聚类目标的每个三维点通过判断其投影到图像坐标系下的坐标是否在目标检测框中来判断该三维点是否与图像检测结果匹配，具体判断标准如下：

其中，p_i ^2D＝{x_ci，y_ci}，是目标场景的三维点云中第i个三维点p_i(p_i＝{x_wi，y_wi，z_wi})在图像坐标系中的投影点。i∈(1，N)。R_s＝{x_s，y_s，w_s，h_s，cls_s}是第s个目标检测框对应的图像检测信息，s∈(1，K)。

在一些实施例中，一个三维点可能会与多个目标检测框匹配。例如，若第一投影点在第一目标检测框和第二目标检测框中。其中，第二目标检测框是多个目标检测框中的一个，第二目标检测框与第一目标检测框有交叠区域。

如图10所示，落在区域A中的投影点从几何意义上来说既与目标检测框B匹配，又与目标检测框C匹配。落在区域D中的投影点从几何意义上来说既与目标检测框C匹配，又与目标检测框E匹配。在这种情况下，就需要进一步确定落在区域A和区域D中的投影点对应的三维点与哪一个目标检测框匹配。

在这种情况下，本申请实施例提供的目标检测方法还包括：计算得到d₁和d₂。其中，d₁是第一投影点对应的三维点与第一目标检测框除上述交叠区域以外区域对应的三维点的最近距离；d₂是第一投影点对应的三维点和第二目标检测框除上述交叠区域以外区域中，与第一投影点对应的三维点最近的三维点之间的距离。

若d₂小于所d₁，则确定第一投影点对应的三维点与第二目标检测框匹配；若d₂大于或等于d₁，则确定第一投影点对应的三维点与第一目标检测框匹配。或者，若d₂大于所d₁，则确定第一投影点对应的三维点与第一目标检测框匹配；若d₂小于或等于d₁，则确定第一投影点对应的三维点与第二目标检测框匹配。本申请不限定。

如图9所示，若三维点p_i的投影点落在第一目标检测框和第二目标检测框内，则计算三维点p_i和第一目标检测框除上述交叠区域以外区域中，与三维点p_i最近的三维点之间的距离d₁；以及三维点p_i和第二目标检测框除上述交叠区域以外区域中，与三维点p_i最近的三维点之间的距离d₂，然后根据d₁和d₂的大小关系，确定三维点p_i与哪一个目标检测框匹配。如图9所示，假设d₂＜d₁，则确定三维点p_i与第二目标检测框匹配。

在一种可能的实现方式中，上述d₁可以是三维点p_i和第一目标检测框除上述交叠区域以外区域中，与三维点p_i的欧拉距离最近的三维点之间的欧拉距离，d₂可以是三维点p_i和第二目标检测框除上述交叠区域以外区域中，与三维点p_i的欧拉距离最近的三维点之间的欧拉距离。

例如，可以根据以下计算式得到三维点p_i和第一目标检测框除上述交叠区域以外区域中，与三维点p_i的欧拉距离最近的三维点之间的欧拉距离；以及三维点p_i和第二目标检测框除上述交叠区域以外区域中，与三维点p_i的欧拉距离最近的三维点之间的欧拉距离：

d₁＝min_0＜s＜u(p_k1-p_s)²；

d₂＝min_0＜s＜u(p_k2-p_s)²。

其中，u是投影点在第一目标检测框和第二目标检测框交叠区域的三维点的数量。p_s是投影点在第一目标检测框和第二目标检测框交叠区域内的任意三维点的坐标。p_k1是投影点在第一目标检测框除上述交叠区域以外区域内的任意三维点的坐标。p_k2是投影点在第二目标检测框除上述交叠区域以外区域内的任意三维点的坐标

通过上述步骤B，可以避免由于目标的互相遮挡导致的激光传感器发出的激光在多个目标上的反射光很难被激光传感器区分，激光传感器错误地将多个目标当成一个目标，造成的欠分割，如图11中的(a)所示。

步骤C：根据多个目标检测框中每个目标检测框与三维点的对应关系，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息。

其中，更新后的三维点云的聚类信息包括至少一个第二聚类目标和该至少一个第二聚类目标对应的三维点。第二聚类目标的数量小于或等于第一聚类目标的数量。

作为一种实现方式，上述步骤C可以包括，对于每个目标检测框执行以下步骤：

步骤a：确定与每个目标检测框匹配的第一聚类目标数量。若第一检测框与上述至少一个第一聚类目标中的多个第一聚类目标匹配，且该多个第一聚类目标两两之间的最大距离小于预设距离，则执行步骤b。

可以理解，对于过分割现象，通常主要针对距离比较近的、有依赖关系的两个聚类目标。例如，图1中的(b)所示的场景中，货物(如图1中的(b)所示的目标4-目标9)的运动依赖于目标3(即卡车)。具体的，目标4-目标9依赖于目标3的动力，与目标3保持同步的运动方位和运动速度等。但是，对于ADAS或者AD***来说，可以将目标3-目标9作为一个整体，如图11所示，将卡车和卡车上的货物作为一个整体目标(如图11中的(b)所示的目标5)，获取该整体目标的位置、朝向、运动速度和外形等信息。

因此，上述步骤C主要用于目标检测过程中的过切分现象。首先，则需要确定有可能出现上述现象的场景目标。也就是与同一个目标检测框(例如目标检测框K)匹配的多个第一聚类目标(例如图1中的(b)所示的目标3-目标9)。

在一些实施例中，可以以每个第一聚类目标为圆心，以预设距离为半径r，寻找与其距离较近的第一聚类目标。如图12所示，以聚类目标1201为圆心，以预设距离为半径r，寻找与其距离较近的第一聚类目标。可以看出，与聚类目标1201可能有依赖关系的是聚类目标1202，而聚类目标1203、1204、1205和1206与聚类目标1201有依赖关系的可能性很小。其中，r可以根据经验值设定。例如，可以选择一批训练数据，对每个类别的目标计算其目标长宽高的平均值，将长度平均值作为半径r。

例如，可以基于L-shape算法计算目标的尺寸，例如，图13示出了一种基于L-shape算法计算目标尺寸的示意图。如图13所示，对于每个目标，激光打在车上的点呈现L形。L-shape算法是用一个带有朝向、尺寸的矩形(如图13所示的矩形框r1、r2、r3和r4)与三维点进行匹配。匹配标准为各三维点到矩形最近边的距离和最小。根据该标准匹配得到的矩形的朝向认为是三维点对应目标的朝向，矩形的尺寸认为是三维点对应目标的尺寸。或者，可以采用其他尺寸估计算法，具体可以参考常规技术，本申请不做赘述。

需要说明的是，图12仅作为一种示例，搜索区域不仅仅限制于圆形区域，也可以是长方形或者正方形等，不申请不限定。

步骤b：根据第一检测框对应的目标预设尺寸，判断是否合并与第一检测框对应的多个第一聚类目标。

具体的，若上述多个第一聚类目标的整体的尺寸，与上述多个第一聚类目标中预设类别的第一聚类目标预设尺寸的差值小于预设阈值，则合并上述多个第一聚类目标为一个第二聚类目标。

假设预先设置的卡车对应的车长是8米，高是3米。在图11中的(b)所示的场景中，则根据w_cls＝8，h_cls＝3判断是否合并卡车和卡车上的货物。例如，若0＜w_Kmax＜w_cls，且0＜h_Kmax＜h_cls，确定合并卡车和卡车上的货物。其中，w_Kmax是图11中的(b)所示的目标检测框K中卡车和卡车上的货物的整体长度，h_Kmax是图11中的(b)所示的目标检测框K中卡车和卡车上的货物的整体高度。

在一些实施例中，上述步骤S401中得到的图像检测信息还包括：多个目标检测框对应的目标类别的置信度。例如，图像检测信息可以用{R₁，…，R_s，…，R_k}表示。其中，R_s＝{x_s，y_s，w_s，h_s，cls_s，score_s}，score_s是第s个目标检测框中目标图像对应的目标类别的置信度。

score_s用于表示第s个目标检测框中目标对应的类别的可靠性。例如，score_s∈[0，1]。其中，score_s越高，则第s个目标检测框中目标是cls_s对应的类别的可能性越大，目标检测装置200误检(也称“虚检”)的可能性越小。score_s越低，则第s个目标检测框中目标是cls_s对应的类别的可能性越小，目标检测装置200误检的可能性越大。例如，目标匹配到类别的置信度在0.3以下时，可以认为可能是误检。

在一些实施例中，本申请实施例提供的目标检测方法还可以包括：标记每个三维点对应的目标类别的置信度。

作为一种实现方式，可以采用第三目标检测框对应的目标类别的置信度，标记第一三维点。其中，第一三维点是投影点在第三目标检测框中的三维点，第三目标检测框是上述多个目标检测框中的任意一个。例如，第s个目标检测框中目标图像对应的目标类别的置信度是score_s，则第s个目标检测框中的投影点对应的三维点的置信度是score_s。

作为一种实现方式，第二三维点是投影点均不在上述多个目标检测框中的任一个目标检测框中的三维点，则采用预设置信度标记第二三维点。例如，第二三维点对应的投影点不在图像检测信息对应的任一个目标检测框中，则采用置信度值0.01标记第二三维点对应的三维点的置信度。

通过标记三维点的置信度，可以对目标检测结果的可靠性作标记，以便后续参考。例如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度采取控制车辆刹车、减速或变道等措施。又如，辅助驾驶***或者自动驾驶***等根据目标类别的置信度决定是否对目标进行跟踪，例如进一步确定目标类别等。或者，决定是否融合其他感知装置采集的数据，进一步确定目标类别等不申请不限定。

应理解，本申请实施例的各个方案可以进行合理的组合使用，并且实施例中出现的各个术语的解释或说明可以在各个实施例中互相参考或解释，对此不作限定。

还应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

可以理解的是，目标检测装置200为了实现上述任一个实施例的功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以对目标检测装置200进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

比如，以采用集成的方式划分各个功能模块的情况下，如图14所示，为本申请实施例提供的一种目标检测装置的结构框图。目标检测装置200可以包括处理单元1410。

其中，处理单元200用于支持目标检测装置200执行上述步骤S401、S402和S403，获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；以及，根据至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与上述多个目标检测框的重合度，结合每个目标检测框对应的目标预设尺寸，更新三维点云的聚类信息。和/或，用于本文所描述的技术的其他过程。

在一种可能的结构中，如图15所示，目标检测装置200还可以包括数据采集单元1420，用于同步获取目标场景图像和目标场景的三维点云。

在一种可选的方式中，当使用软件实现数据传输时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地实现本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线((digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如软盘、硬盘、磁带)、光介质(例如数字化视频光盘(digital video disk，DVD))、或者半导体介质(例如固态硬盘solid state disk(SSD))等。

结合本申请实施例所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于探测装置中。当然，处理器和存储介质也可以作为分立组件存在于探测装置中。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在一种可选的方式中，本申请提供一种芯片***，该芯片***包括处理器、存储器，存储器中存储有计算机程序代码；当计算机程序代码被处理器执行时，实现本申请提供的任一种可能的实现方式中的方法。该芯片***可以由芯片构成，也可以包含芯片和其他分立器件。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；所述图像检测信息包括：多个目标检测框的位置、尺寸、所述多个目标检测框对应的目标类别和标识信息；所述三维点云的聚类信息包括至少一个第一聚类目标和所述至少一个第一聚类目标对应的三维点；

根据所述至少一个第一聚类目标对应的三维点在图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息；其中所述图像坐标系为所述目标场景图像的坐标系；

其中，更新后的所述三维点云的聚类信息包括至少一个第二聚类目标和所述至少一个第二聚类目标对应的三维点；所述第二聚类目标的数量小于或等于所述第一聚类目标的数量。

2.根据权利要求1所述的方法，其特征在于，所述获取所述目标场景的三维点云的聚类信息，包括：

将所述三维点云投影到二维栅格图，得到多个二维点，以及所述三维点云与所述多个二维点之间的对应关系；

将所述多个二维点聚类为至少一个第一聚类目标；

根据所述三维点云与所述多个二维点之间的对应关系，确定所述至少一个第一聚类目标对应的三维点。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息，包括：

将所述三维点云投影到所述图像坐标系；

根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，确定所述每个目标检测框与三维点的对应关系；

根据所述每个目标检测框与三维点的对应关系，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息。

4.根据权利要求3所述的方法，其特征在于，所述根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，确定所述每个目标检测框与三维点的对应关系，包括：

判断第一投影点是否在第一目标检测框中；

若所述第一投影点在所述第一目标检测框中，则确定所述第一投影点对应的三维点与所述第一目标检测框匹配；所述第一投影点是所述至少一个第一聚类目标对应的三维点中的任意一个三维点在所述图像坐标系中的投影点，所述第一目标检测框是所述多个目标检测框中的任意一个。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

若所述第一投影点在所述第一目标检测框和第二目标检测框中，则计算得到d₁和d₂；其中，所述第二目标检测框是所述多个目标检测框中的一个，所述第二目标检测框与所述第一目标检测框有交叠区域；所述d₁是所述第一投影点对应的三维点和所述第一目标检测框除所述交叠区域以外区域中，与所述第一投影点对应的三维点最近的三维点之间的距离；所述d₂是所述第一投影点对应的三维点和所述第二目标检测框除所述交叠区域以外区域中，与所述第一投影点对应的三维点最近的三维点之间的距离；

若所述d₂小于所述d₁，则确定所述第一投影点对应的三维点与所述第二目标检测框匹配；

若所述d₂大于或等于所述d₁，则确定所述第一投影点对应的三维点与所述第一目标检测框匹配。

6.根据权利要求3-5中任一项所述的方法，其特征在于，所述根据所述每个目标检测框与三维点的对应关系，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息，包括：

确定与所述每个目标检测框匹配的第一聚类目标数量；

若所述第一检测框与所述至少一个第一聚类目标中的多个第一聚类目标匹配，且所述多个第一聚类目标两两之间的最大距离小于预设距离，则根据所述第一检测框对应的目标预设尺寸，判断是否合并所述多个第一聚类目标；具体包括：

若所述多个第一聚类目标的整体的尺寸，与所述多个第一聚类目标中预设类别的第一聚类目标预设尺寸的差值小于预设阈值，则合并所述多个第一聚类目标为一个第二聚类目标。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述图像检测信息还包括：所述多个目标检测框中每个目标检测框对应的目标类别的置信度，所述置信度用于表征目标类别的可信程度；所述方法还包括：

采用第三目标检测框对应的目标类别的置信度标记第一三维点；所述第一三维点是投影点在第三目标检测框中的三维点；所述第三目标检测框是所述多个目标检测框中的任意一个；

采用预设置信度标记第二三维点；所述第二三维点是投影点不在所述多个目标检测框中任一个目标检测框中的三维点。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述获取目标场景图像的图像检测信息，包括：

对所述目标场景图像进行特征识别和特征分析，获取所述图像检测信息。

9.根据权利要求1-8中任一项所述的方法，其特征在于，所述目标场景图像和所述目标场景的三维点云是同步获取的。

10.一种目标检测装置，其特征在于，所述目标检测装置包括：

处理单元，用于获取目标场景图像的图像检测信息和目标场景的三维点云的聚类信息；所述图像检测信息包括：多个目标检测框的位置、尺寸、所述多个目标检测框对应的目标类别和标识信息；所述三维点云的聚类信息包括至少一个第一聚类目标和所述至少一个第一聚类目标对应的三维点；以及，

根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息；其中所述图像坐标系为所述目标场景图像的坐标系；

11.根据权利要求10所述的装置，其特征在于，所述处理单元获取所述目标场景的三维点云的聚类信息，包括：

所述处理单元将所述三维点云投影到二维栅格图，得到多个二维点，以及所述三维点云与所述多个二维点之间的对应关系；将所述多个二维点聚类为至少一个第一聚类目标；以及根据所述三维点云与所述多个二维点之间的对应关系，确定所述至少一个第一聚类目标对应的三维点。

12.根据权利要求10或11所述的装置，其特征在于，所述处理单元根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息，包括：

所述处理单元将所述三维点云投影到所述图像坐标系；根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，确定所述每个目标检测框与三维点的对应关系；以及根据所述每个目标检测框中与三维点的对应关系，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息。

13.根据权利要求12所述的装置，其特征在于，所述处理单元根据所述至少一个第一聚类目标对应的三维点在所述图像坐标系中的投影点与所述多个目标检测框中每个目标检测框分别对应的重合度，确定所述每个目标检测框与三维点的对应关系，包括：

所述处理单元判断第一投影点是否在第一目标检测框中；

14.根据权利要求13所述的装置，其特征在于，所述处理单元还用于，

15.根据权利要求12-14中任一项所述的装置，其特征在于，所述处理单元根据所述每个目标检测框与三维点的对应关系，结合所述每个目标检测框对应的目标预设尺寸，更新所述三维点云的聚类信息，包括：

所述处理单元确定与所述每个目标检测框匹配的第一聚类目标数量；

16.根据权利要求10-15中任一项所述的装置，其特征在于，所述图像检测信息还包括：所述多个目标检测框中每个目标检测框对应的目标类别的置信度，所述置信度用于表征目标类别的可信程度；

所述处理单元还用于，采用第三目标检测框对应的目标类别的置信度标记第一三维点；所述第一三维点是投影点在所述第三目标检测框中的三维点；所述第三目标检测框是所述多个目标检测框中的任意一个；以及，

17.根据权利要求10-16中任一项所述的装置，其特征在于，所述处理单元获取目标场景图像的图像检测信息，包括：

所述处理单元对所述目标场景图像进行特征识别和特征分析，获取所述图像检测信息。

18.根据权利要求10-17中任一项所述的装置，其特征在于，所述目标检测装置还包括：

数据采集单元，用于同步获取所述目标场景图像和所述目标场景的三维点云。

19.一种目标检测装置，其特征在于，所述目标检测装置包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1-9中任一项所述的目标检测方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序代码，所述计算机程序代码被处理电路执行时实现如权利要求1-9中任一项所述的目标检测方法。

21.一种芯片***，其特征在于，所述芯片***包括处理电路、存储介质，所述存储介质中存储有计算机程序代码；所述计算机程序代码被所述处理电路执行时实现如权利要求1-9中任一项所述的目标检测方法。