CN110059608A

CN110059608A - 一种物体检测方法、装置、电子设备和存储介质

Info

Publication number: CN110059608A
Application number: CN201910290188.0A
Authority: CN
Inventors: 陈逸伦; 刘枢; 沈小勇; 戴宇榮; 賈佳亞
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2019-07-26
Anticipated expiration: 2039-04-11
Also published as: JP7179186B2; JP2022514974A; CN110059608B; KR102629928B1; WO2020207166A1; EP3955158A4; EP3955158A1; EP3955158B1; US20210287037A1; US11915501B2; KR20210107119A

Abstract

本发明实施例公开了一种物体检测方法、装置、电子设备和存储介质；本发明实施例可以获取场景的点云，该点云包括点的位置信息；将点云映射到三维体素表示，得到三维体素的特征信息；对三维体素的特征信息进行卷积操作，得到卷积特征集；基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从点云中选择位于候选物体区域内的目标点；基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的卷积特征信息。该方案可以提升物体检测的精确性。

Description

一种物体检测方法、装置、电子设备和存储介质

技术领域

本发明涉及图像技术领域，具体涉及一种物体检测方法、装置、电子设备和存储介质。

背景技术

物体检测是指的确定某个场景中物体的位置、类别等。目前物体检测技术已经广泛应用到各种场景中，比如，自动驾驶、无人机等场景。

目前的物体检测方案均是采集场景图像，从场景图像中提取特征，然后，基于提取的特征确定出场景中的位置和类别。然而，目前经过实践目标物体检测方案存在物体检测的精确性较低等问题，尤其在3D物体检测场景。

发明内容

本发明实施例提供一种物体检测方法、装置、电子设备和存储介质，可以提升物体检测的精确性。

本发明实施例提供一种物体检测方法，包括：

获取场景的点云，所述点云包括点的位置信息；

将所述点云映射到三维体素表示，得到三维体素的特征信息；

对所述三维体素的特征信息进行卷积操作，得到卷积特征集；

基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；

从所述点云中选择位于候选物体区域内的目标点；

基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。

相应的，本发明实施例还提供一种物体检测装置，包括：

点云获取单元，用于获取场景的点云，所述点云包括点的位置信息；

体素映射单元，用于将所述点云映射到三维体素表示，得到三维体素的特征信息；

卷积单元，用于对所述三维体素的特征信息进行卷积操作，得到卷积特征集；

候选区域获取单元，用于基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；

选择单元，用于从所述点云中选择位于候选物体区域内的目标点；

调整单元，用于基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。

在一实施例中，所述调整单元，可以包括：

融合子单元，用于对所述目标点的位置信息、以及目标卷积特征信息进行融合，得到候选物体区域的区域特征信息；

第一预测子单元，用于基于所述区域特征信息预测所述候选物体区域相对于真实物体区域的定位偏移信息，得到预测定位偏移信息；

修正子单元，用于基于所述预测定位偏移信息对所述候选物体区域的初始定位信息进行修正，得到调整后物体区域的定位信息。

在一实施例中，所述融合子单元，用于：

对所述目标点的位置信息、以及目标卷积特征信息进行融合，得到融合特征信息；

对所述目标点的目标卷积特征信息进行降维处理，得到目标点的特征权重；

基于所述特征权重对所述融合特征信息进行特征运算，得到运算后特征信息；

对所述运算后特征信息进行下采样操作，得到候选物体区域的区域特征信息。

在一实施例中，所述融合子单元，用于：对所述融合特征信息的特征维度进行升维处理，得到处理后特征信息；基于所述特征权重对所述处理后特征信息进行特征运算，得到运算后特征信息。

在一实施例中，所述融合子单元，用于：对所述目标点的目标卷积特征信息进行降维处理，得到目标点的初始特征权重；基于激活函数对所述初始特征权重进行处理，得到目标点的特征权重。

在一实施例中，所述卷积单元，可以包括：

三维卷积子单元，用于对所述三维体素的特征信息进行三维卷积运算，得到三维体素的三维卷积特征信息；

二维卷积子单元，用于对所述三维体素的三维卷积特征进行二维卷积运算，得到卷积特征集。

在一实施例中，三维卷积子单元，用于：采用候选区域网络中的三维卷积网络对所述三维体素的特征信息进行三维卷积运算；其中，所述候选区域网络还包括与所述三维卷积网络连接的二维卷积网络，所述二维卷积网络包括多个依次连接的卷积块；

所述二维卷积子单元，用于采用所述卷积块依次对所述三维卷积特征进行二维卷积运算；将每个卷积块输出的卷积特征进行融合，得到卷积特征集。

在一实施例中，二维卷积子单元，用于采用所述卷积块依次对所述三维卷积特征进行二维卷积运算；对所述二维卷积网络中其他卷积块输出的卷积特征进行反卷积处理，得到反卷积特征，所述反卷积特征与第一个卷积块输出的卷积特征的尺寸相同，其中，卷积块为所述二维卷积网络中除第一个卷积块之外的其他卷积块；将第一个卷积块输出的卷积特征与其他卷积块的反卷积特征进行融合，得到卷积特征集。

在一实施例中，所述候选区域获取单元，可以包括：

第二预测子单元，用于基于所述卷积特征集预测三维体素对应的定位偏移信息和物体类型，其中，所述定位偏移信息为所述三维体素对应的参考物体区域相对于真实物体区域的初始定位偏移信息；

调整子单元，用于基于所述初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息。

在一实施例中，所述调整子单元，用于：

根据所述物体类型对参考物体区域进行筛选，得到筛选后物体区域；

基于筛选后物体区域的初始定位偏移信息对所述筛选后物体区域的定位信息进行修正，得到候选物体区域、以及候选物体区域的初始定位信息。

在一实施例中，所述卷积单元，具体用于：

采用候选区域网络中的三维卷积网络对所述三维体素的特征信息进行三维卷积运算；其中，所述候选区域网络还包括与所述三维卷积网络连接的二维卷积网络、融合模块、分别与融合模块连接的分类网络和回归网络，所述二维卷积网络包括多个依次连接的卷积块，

采用所述卷积块依次对所述三维卷积特征进行二维卷积运算；

采用所述融合模块将每个卷积块输出的卷积特征进行融合，得到卷积特征集；

所述第二预测子单元，用于：基于所述分类网络和所述卷积特征集，对三维体素进行物体分类，得到三维体素对应的物体类型；基于所述回归网络和所述卷积特征集，预测三维体素对应的定位偏移信息。

在一实施例中，物体检测装置还可以包括：训练单元；所述训练单元，可以具体用于：

获取训练样本集，所述训练样本集包括样本场景的样本点云；

将样本点云中点的位置信息三维体素表示，得到样本三维体素的样本特征信息；

基于预设的候选区域网络和所述样本特征信息预测样本三维体素对应的偏移信息和物体类型，得到预测定位偏移信息和预测类型；

计算预测定位偏移信息相对于真实偏移信息的定位偏移损失；

计算预测物体类型相对于真实物体类型的类型损失；

结合所述定位偏移损失和类型损失对预设的候选区域网络进行训练，得到训练后的候选区域网络。

此外，本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种物体检测方法中的步骤。

本发明实施例可以获取场景的点云，该点云包括点的位置信息；将点云映射到三维体素表示，得到三维体素的特征信息；对三维体素的特征信息进行卷积操作，得到卷积特征集；基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从点云中选择位于候选物体区域内的目标点；基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的卷积特征信息。由于该方案可以采用场景的点云数据进行物体检测，并且融合了点云的位置信息以及卷积特征，使得定位信息丢失尽可能少，从而有效提升物体检测的准确度；尤其适用于3D物体检测。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的物体检测方法的场景示意图；

图1b是本发明实施例提供的物体检测方法的流程图；

图1c是本发明实施例提供的VoxelRPN网络的结构示意图；

图1d是本发明实施例提供的RefinerNet网络结构示意图；

图2a是本发明实施例提供的物体检测的另一流程示意图；

图2b是本发明实施例提供的物体检测的架构图；

图2c是本发明实施例提供的自动驾驶场景中物体检测示意图；

图3a是本发明实施例提供的物体检测装置的结构示意图；

图3b是本发明实施例提供的物体检测装置的另一结构示意图；

图3c是本发明实施例提供的物体检测装置的另一结构示意图；

图3d是本发明实施例提供的物体检测装置的另一结构示意图；

图3e是本发明实施例提供的物体检测装置的另一结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种物体检测方法、装置和存储介质。其中，该物体检测装置可以集成在电子设备如网络设备等中，该电子设备可以是服务器，也可以是终端等设备；比如，网络设备可以包括、车载设备、微型处理盒子等设备。

所谓物体检测，可以指的是指的确定或识别某个场景中物体的位置、类别等，比如，识别某个道路场景中物体的类别和位置，如路灯、车辆及其位置等。

参考图1a，本发明实施例提供了物体检测***包括电子设备和采集设备等；电子设备与采集设备之间连接，比如，通过有线或无线网络连接等。在一实施例中，电子设备与采集设备可以集成在一台设备。

其中，采集设备，可以用于采集场景的点云数据或者图像数据等，在一实时汇率中采集设备可以将采集到的点云数据上传给网络设备进行处理，其中，点云(Point Cloud)数据可以包括点的位置信息等。

电子设备，可以用于物体检测，具体地，可以获取场景的点云，点云包括点的位置信息；将电压映射到三维体素表示，得到三维体素(Voxel)的特征信息；对三维体素的特征信息进行卷积操作，得到卷积特征集；基于卷积特征集获取选物体区域、以及候选物体区域的初始定位信息；从点云中确定位于候选物体区域内的目标点；基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的目标卷积特征。

实际应用中，在得到调整后物体检测区域的定位信息之后，可以根据定位信息在场景图像中标识检测到的物体，比如，以检测框的方式在图像中框选检测到的物体，在一实施例中，还可以在场景图像中标识检测到的物体的类型。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从物体检测装置的角度进行描述，该物体检测装置具体可以集成在电子设备如网络设备中，该网络设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(PC，Personal Computer)、车载设备、微型处理终端等设备。

本发明实施例提供的一种物体检测方法，该方法可以由电子设备的处理器执行，如图1b所示，该物体检测方法的具体流程可以如下：

101、获取场景的点云，该点云包括点的位置信息。

其中，点云为场景或目标表面特性的点集合，点云中的点可以包含点的位置信息如三维坐标，此外，还可以包括颜色信息(RGB)或反射强度信息(Intensity)。

比如，在一实施例中，点云可以包括点的位置信息和该点的反射度，其中，位置信息可以包括点在三维空间坐标系中的三维坐标(xyz)等。譬如，在实际应用中，点云可以包括点的的三维坐标和反射度，该点云可以用一个nx4的向量表示，其中，n为点云中点的数量，每个点对应一个1*4的4维向量，该向量的维度为4与三维坐标和反射度对应。

点云可以通过激光测量原理或者摄影测量原理检测得到，比如，可以通过激光扫描仪、或者照相式扫描仪扫描得到物体的点云。激光检测点云的原理为：当一束激光照射到物体表面时，所反射的激光会携带方位、距离等信息。若将激光束按照某种轨迹进行扫描，便会边扫描边记录到反射的激光点信息，由于扫描极为精细，则能够得到大量的激光点，因而就可形成激光点云。点云格式有*.las；*.pcd；*.txt等。

比如，可以采用LiDAR(Light Detection And Ranging，激光雷达探测与测量)采集场景的点云数据。LiDAR是利用GPS(Global Position System)和IMU(InertialMeasurement Unit，惯性测量装置)机载激光扫描。其所测得的数据为数字表面模型(Digital Surface Model,DSM)的离散点表示，数据中含有空间三维信息和激光强度信息。应用分类(Classification)技术在这些原始数字表面模型中移除建筑物、人造物、覆盖植物等测点，即可获得数字高程模型(Digital Elevation Model,DEM)，并同时得到地面覆盖物的高度。

本发明实施例中，场景的点云数据可以由电子设备自己采集，比如，电子设备自己通过激光检测和测量；该场景的点云数据也可以由其他设备采集，电子设备从其他设备获取，或者，从网络数据库中搜索等等，比如，LiDAR传感器采集点云数据，电子设备从该传感器获取等。

其中，场景可以为多种，比如，可以自动驾驶中的道路场景、无人机飞行中的航空场景等等。

102、将点云映射到三维体素表示，得到三维体素的特征信息。

在获取点云可以将整个场景的点云(如nx4的向量)映射到3D体素(Voxel)表示，即体素化(Voxelize)处理。

其中，三维体素表示的过程可以包括：基于场景点云的范围构建相应尺寸的体素块(如立方体的体素块)；对体素块进行划分，得到多个三维体素；将场景的点云映射到三维体素；基于三维体素中映射点的位置信息构建三维体素的特征信息。

其中，场景点云的范围可以包括点云的范围、或者点云的采集范围(如传感器采集场景点云的采集范围)，该点云的范围或者采集范围均可以用尺寸标识，比如，前后5米，左右4米、上下3米等等。比如，可以基于场景点云的尺寸构建相同尺寸的体素块。场景点云的尺寸可以包括点云的长宽高等。

其中，对体素块的划分方式可以有多种，比如，可以按照预定尺寸对体素块进行划分，比如，其中，预定尺寸为需要划分得到的三维体素的尺寸，该尺寸可以根据实际需求设定，体素的尺寸可以包括L(长)xW(宽)xH(高)如，预定体素的尺寸可以包括比如0.2*0.2*0.1毫米等。

在划分得到三维体素之后，可以根据点云中点的位置信息将点映射到相应的三维体素。

在完成点云映射后，3D体素(Voxel)的特征信息可以基于映射到3D体素中的点的位置信息得到，也即3D体素内点的位置信息得到。比如，步骤“基于三维体素中映射点的位置信息构建三维体素的特征信息”，可以包括：

当三维体素中存在映射点时，可以从映射点中选择目标映射点的位置信息作为三维体素的特征信息；

当三维体素中不存在映射点时，可以将三维体素的特征信息设置为零。

比如，以点云为nx4(n个点的三维坐标加反射度)的向量为例，在点云映射后，对于有点的Voxel直接取其中的某个点的4维向量作为特征，对于没有点的Voxel特征均为0。

经过上述步骤可以将点云映射到三维体素表示，构建出三维体素的特征信息，其中，三维体素的特征信息可以包括体素内某个映射点的位置信息等信息，或者为零。

103、对三维体素的特征信息进行卷积操作，得到卷积特征集。

其中，卷积特征集包括所有三维体素的提取特征，实际应用中可以为为所有三维体素的特征图(feature map)。

比如，为了提升三维体素的特征提取准确性，可以对三维提升的特征进行3D卷积和2D卷积运算，以提取特征。

比如，步骤“对三维体素的特征信息进行卷积操作，得到卷积特征集”，可以包括：

对三维体素的特征信息进行三维卷积运算，得到三维体素的三维卷积特征信息；

对三维体素的三维卷积特征进行二维卷积运算，得到卷积特征集。

在一实施例中，可以采用神经网络如基于神经网络的候选区域网络从三维体素的特征中提取卷积特征集。参考图1c，候选区域网络(RPN)可以包括：三维(3D)卷积网络、二维(2D)卷积网络、融合模块、回归网络、和分类网络；

三维卷积网络与二维卷积网络连接，融合模块与二维卷积网络连接，回归网络、分类网络分别与融合模块连接。

在得到三维体素的特征信息之后，本发明实施例中可以通过候选区域网络中的三维卷积网络对三维体素的特征信息进行三维卷积运算。其中，参考图1c，三维卷积网络可以包括一个或者多个三维卷积层；每个三维卷积层(Conv3D)对应一个三维卷积核如3×3×2(通道数)、3×3×2(通道数)。具体地，可以通过三维卷积网络中的三维卷积层依次对三维体素的特征信息进行三维卷积运算。比如参考图1c，可以将三维体素的特征信息作为网络的输入(Voxel input)输入至网络。第一个三维卷积层采用3×3×2(8)的3D卷积核对三维体素的特征信息进行三维卷积运算，并将卷积运算结果输入至第二个三维卷积层进行3D卷积核为3×3×2(8)的三维卷运算，依次类推直到三维卷积网络中的最后一个三维卷积层采用3×3×2(128)的卷积核对输入的特征进行三维卷积运算。

在采用三维卷积网络对三维体素的特征信息进行三维特征提取，得到三维卷积特征信息之后，可以采用候选区域网络中的二维卷积网络对三维卷积特征信息进行二维卷积运算，以提取二维卷积特征，从而得到卷积特征集。

比如，参考图1c，二维卷积网络可以包括多个依次连接的卷积块，每个卷积块包括一个或者多个二维卷积层(Conv2D)。在三维卷积网络完成三维卷积之，可以采用卷积块依次对三维卷积特征进行二维卷积运算；通过融合模块对每个卷积块输出的卷积特征进行融合，得到卷积特征集。

参考图1c，以三个卷积块为例，每个二维卷积块如BLOCK2、BLOCK3、BLOCK4可以包括一个或者多个二维卷积层；比如，BLOCK2包括3个卷积核为3×3(256)的二维卷积层。具体地，在三维卷积网络完成三维卷积特征提取之后，可以将提取的三维卷积特征信息输入至二维卷积网络中的BLOCK2，BLOCK2中可以通过多个二维卷积层(卷积核为3×3)对输入的特征信息进行二维卷积运算，并将输出卷积特征至下一个BLOCK3，同样在BLOCK3中可以通过多个二维卷积层(卷积核为3×3)对输入的特征信息二维卷积运算，并将输出卷积特征至下一个BLOCK4在BLOCK3中可以通过多个二维卷积层(卷积核为3×3)对输入的特征信息二维卷积运算，并输出卷积特征。

本发明实施例中，在经过二维卷积网络中的卷积块依次对三维卷积特征信息进行二维卷积运算后，可以对每个卷积块输出的卷积特征进行融合，得到所有三维体素对应的卷积特征集。

在一实施例中，为了提升特征融合效率和准确性，还可以将二维卷积网络中除第一个卷积块外的卷积块输出的卷积特征进行反卷积处理，使得其他卷积块输出的特征与第一个卷积块输出的卷积特征的尺寸相同，以便于融合和提升融合后特征的准确性。

比如，步骤“将每个卷积块输出的卷积特征进行融合，得到卷积特征集”，可以包括：

对二维卷积网络中其他卷积块输出的卷积特征进行反卷积处理，得到反卷积特征，反卷积特征与第一个卷积块输出的卷积特征的尺寸相同，其中，卷积块为二维卷积网络中除第一个卷积块之外的其他卷积块；

将第一个卷积块输出的卷积特征与其他卷积块的反卷积特征进行融合，得到卷积特征集。

例如，参考图1c，可以对BLOCK4和BLOCK3输出的卷积特征进行反卷积运算(Deconv)，使得BLOCK4和BLOCK3输出的特征与BLOCK2输出的特征尺寸相同，采用融合模块对BLOCK2、BLOCK3BLOCK4输出的特征进行融合。

其中，卷积特征融合的方式可以有多种，比如，可以采用特征连接(Concatenation)的方式融合。参考图1c，可以BLOCK2、BLOCK3BLOCK4输出的特征进行连接，得到卷积特征集(如feature map)。

通过上述步骤在得到三维体素的特征信息之后，可以对三维体素的特征信息进行三维卷积、二维卷积运算，提取出所有三维体素对应的卷积特征集。

104、基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息。

其中，物体区域可以为二维区域即2D区域，也可以为三维区域即3D区域，具体可以根据实际需求来定。实际应用中，在采用框的形式标识区域时，可以称为物体框、框或者检测框等等。

其中，候选物体区域可的定位信息可以包括候选物体区域的位置信息，位置信息可以由区域中参考点的位置信息表示，也即候选物体区域的位置信息可以包括候选物体区域中参考点的位置信息，该参考点可以根据实际需求设定，比如，可以候选物体区域的中心点的位置信息。例如，以三维候选物体区域为例，候选物体区域的位置信息可以包括区域中心点的3D坐标如(x、y、z)。

其中，候选物体区域的尺寸信息可以包括区域的尺寸参数，比如，候选区域为2D区域中包括长l*宽W，候选区域为3D区域中包括长l*宽W*高h等。

此外，在一些场景中，物体的朝向也是比较重要的参考信息，因此，在一些实施例中候选物体区域的定位信息还可以包括候选物体区域的朝向，如向前、向后、向下、向上等，该候选物体区域的朝向表明了场景中的物体的朝向，在一些场景中，物体的朝向也是比较重要的信息。实际应用中，区域的朝向可以基于角度来表示，比如，可以定义两个朝向，分别为0°和90°。

在一实施例中，可以采用旋转角度来表示物体的朝向，该旋转角度为绕着Z轴(竖直方向上)的旋转角度。

比如，以三维候选物体区域为例，候选物体区域的定位信息可以包括7个即7维参数(也可以称为回归参数)，具体地包括区域中心点的坐标(xyz)，区域的尺寸(长宽高lwh)，绕着Z轴(竖直方向上)的旋转角度(theta))。

本发明实施例中，基于卷积特征集获取候选物体区域的方式有多种，比如，可以基于三维体素的卷积特征集预测候选物体区域及其初始定位信息，譬如，可以基于候选区域网络来预测候选物体区域及其初始定位信息。

在一实施例中，为了提升提候选区域如候选框生成的精确性，进而提升物体检测的准确性，还可以先针对每个三维体素或者点云中的点预先设置一个参考物体区域，该参考物体区域也可以称为锚(anchor)物体区域，在实际应用中，采用可以采用框表示区域的情况下，可以称为锚框(anchor)或者参考框。然后，基于卷积特征集预测参考物体区域相对于真实物体区域的定位偏移信息、以及三维体素对应的物体类型，基于这两个信息对参考物体区域如参考框进行调整如优化处理，得到候选物体区域及其定位信息。

具体地，步骤“基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息”，可以包括：

基于卷积特征集预测三维体素对应的定位偏移信息和物体类型，其中，定位偏移信息为三维体素对应的参考物体区域相对于真实物体区域的初始定位偏移信息；

基于初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息。

其中，初始定位偏移信息为参考物体区域相对于真实物体区域的初始定位偏移信息，比如，参考框相对于真实框的定位偏移信息。其中，定位偏移信息可以包括：位置偏移信息(三维坐标xyz的坐标偏移)、尺寸偏移信息(长宽高的尺寸偏移)、角度偏移信息(如旋转角度的角度偏移)等，如7维参数(x,y,z,h,w,l,theta)的偏移。

比如，定位偏移信息可以包括7维参数(也可以称为回归参数)，具体地包括参考物体区域与真实物体区域中心点之间的坐标(xyz)偏移，区域的尺寸之间的偏移(长宽高lwh)，绕着Z轴(竖直方向上)旋转角度的角度偏移。

其中，三维体素对应的参考物体区域可以为预先设定的物体区域，比如，预选为三维体素建立的物体区域，又比如，可以针对每个点预先建立参考物体区域，在将点映射到三维体素后，三维体素对应的参考物体区域可以为体素内映射点的参考物体区域，比如，可以为三维体素内作为特征点的参考物体区域。

其中，参考物体区域的尺寸等信息可以在预先设定的时候根据实际需求设定。

本发明实施例中，为提升候选区域生成的准确性，还可以采用深度学习网络来预测偏移信息和物体类型；比如，可以采用基于深度学习的分类网络和回归网络，分别预测类型和偏移信息。

在一实施例中，为了提升效率，还可以将分类网络和回归网络集成在候选区域网络中，也即，候选区域网络还可以包括分类网络和回归网络。比如，在候选区域网络中融合模块将每个卷积块输出的卷积特征进行融合得到卷积特征集之后，可以基于分类网络和卷积特征集，对三维体素进行物体分类，得到三维体素对应的物体类型；基于回归网络和卷积特征集，预测三维体素对应的偏移信息。

比如，参考图1c，在融合模块将每个卷积输出的卷积特征融合后得到卷积特征集，然后，将卷积特征集分别输入至回归网络(reg)、以及分类网络(cls)，回归网络可以基于卷积特征集预测三维体素对应的参考物体区域相对于真实物体区域的定位偏移信息；分类网络可以基于卷积特征集预测三维体素对应的物体类型。

其中，回归网络(reg)、以及分类网络(cls)可以由一个或者多个全连接层(FC)构成。

本发明实施例在预测偏移信息和物体类型后，可以基于预测的偏移信息和物体类型对参考物体区域进行优化调整，比如，可以基于物体类型从三维体素对应的参考物体区域进行筛选，然后，基于定位偏移信息对筛选后区域进行修正。

例如，步骤“基于初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息”，可以包括：

根据物体类型对参考物体区域进行筛选，得到筛选后物体区域；

基于筛选后物体区域的初始定位偏移信息对筛选后物体区域的定位信息进行修正，得到候选物体区域、以及候选物体区域的初始定位信息。

比如，可以从参考物体区域中选择物体类型为预设类型的区域，或者过滤掉预设类型的区域等等。

其中，定位信息修正的方式可以有多种，比如，当筛选后物体区域的定位信息包括7维回归参数如(x,y,z,h,w,l,theta)，可以将参考物体区域原本的7维回归参数与各参数的偏移相加，将相加后的7维回归参数作为候选物体区域的初始7维回归参数。

本发明实施例通过上述方式可以得到或预测出候选物体区域以及候选物体区域的初始定位信息如7维回归参数(x,y,z,h,w,l,theta)。

105、从点云中选择位于候选物体区域内的目标点。

在确定物体区域之后，可以从点云中选择位于候选物体区域内的目标点，具体地，可以根据点云中点的位置信息(如三维坐标)、以及候选物体区域的初始定位信息(如三维坐标、尺寸等)来确定位于候选物体区域内的目标点。

实际应用中，可以从点云中裁剪出候选物体区域如候选框内的点。

106、基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的目标卷积特征。

在选择候选物体区域内的目标点之后，可以获取目标点的位置信息，以及从卷积特征集中获取与目标点位置对应的卷积特征信息，比如，由于之前将点云中点映射到三维体素，因此，可以根据目标点的位置信息确定其映射到的三维体素，从而从卷积特征集中提取该三维体素对应的卷积特征信息。本发明实施例可以将这两部分信息作为特征信息来对候选区域的定位信息进行修正。

其中，基于目标点的位置信息和目标卷积特征信息调整候选区域的方式可以有多种，比如，基于这两种信息预测候选物体区域的定位偏移，然后，基于定位偏移修正候选区域；或者，直接基于这两种信息预测候选物体区域的定位信息即可。

其中，物体区域为最终输出的物体区域，可以为定位信息调整后的候选物体区域。

在一实施例中，步骤“基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息”，包括：

(1)、对目标点的位置信息、以及目标卷积特征信息进行融合，得到候选物体区域的区域特征信息。

其中，位置信息和卷积特征的融合方式可以有多种，比如，在一实施例中，考虑到避免特征丢失，可以基于目标卷积特征信息计算出目标点的特征权重，然后，基于权重来对目标点的位置特征进行调整，从而得到候选区域的区域特征。

具体地，步骤“对目标点的位置信息、以及目标卷积特征进行融合，得到候选物体区域的区域特征信息”，可以包括：

对目标点的位置信息、以及目标卷积特征信息进行融合，得到融合特征信息；

对目标点的目标卷积特征信息进行降维处理，得到目标点的特征权重；

基于特征权重对融合特征信息进行特征运算，得到运算后特征信息，比如，特征权重为nx1的特征权重向量，此处n为目标点的数量，融合特征信息包括融合特征向量nx256时，可以将nx1特征权重向量与融合特征向量nx256相乘，即采用向量乘法(Element-wisemultiplication)进行特征运算；

对运算后特征信息进行下采样操作，得到候选物体区域的区域特征信息，比如，采用maxpooling操作等。

比如，可以对目标点的位置信息与卷积特征信息进行连接(Concatenation)，得到融合特征信息。

在一实施例中，为便于融合和提升特征的准确性，还可以升高融合特征信息的特征维度，然后，在基于特征权限对其处理。比如，步骤“基于特征权重对融合特征信息进行特征运算，得到运算后特征信息”，可以包括：

对融合特征信息的特征维度进行升维处理，得到处理后特征信息；

基于特征权重对处理后特征信息进行特征运算，得到运算后特征信息。

在一实施例中，为增加特征的非线性性，还可以在特征权重运算过程中加入激活函数，比如，步骤“对目标点的目标卷积特征信息进行降维处理，得到目标点的特征权重”，可以包括：

对目标点的目标卷积特征信息进行降维处理，得到目标点的初始特征权重；

基于激活函数对初始特征权重进行处理，得到目标点的特征权重。

其中，激活函数可以采用sigmoid等函数。

为了提升物体检测的效率和精确性，还可以采用深度学习网络来实现目标点的位置信息和卷积特征融合，从而构建候选区域的区域特征。其中，上述的特征维度的升降都是可以采用全连接层实现。比如，可以采用全卷积网络(FCN)来实现。

比如，参考图1d，提供了一种区域精炼网络(RefinerNet)，包括若干全连接层和融合模块(Fusion module)、下采样模块；该融合模块包括：特征连接模块(Concatenation)，即图中的“C”模块、并联的全连接层组、激活处理模块以及向量相乘模块“M”模块。

在得到候选物体区域及其定位信息之后，可以从点云中裁剪中区域内的目标点，将目标点的位置信息作为位置特征(nx4，该n为目标点数量此处)，如Coordinat(坐标)。以及从卷积特征集如featuremap中提取目标点位置对应的卷积特征信息(ConvolutionFeature)，如特征向量nxC，然后，将位置特征和卷积特征分别输入至区域精炼网络(RefinerNet)。

区域精炼网络(RefinerNet)中的全连接层将位置特征向量nx4映射成nx128的位置特征向量输入至融合模块(Fusion module)。融合模块(Fusion module)中特征连接模块，即“C”模块可以将卷积特征向量nxC与映射后的nx128位置特征向量进行连接，并通过两个全连接层将融合后特征向量映射成nx256的融合特征向量；同时，融合模块(Fusionmodule)通过nx128、nx1的全连接层将nxC卷积特征向量映射成nx1的卷积特征向量(即目标点的特征权重向量)。并且，通过激活处理模块采用激活函数如sigmoid对nx1的卷积特征向量进行激活处理，通过向量相乘模块即“M”模块将激活处理后的nx1卷积特征向量、与nx256的融合特征向量向量相乘，输出相乘后特征向量。

接着，将相乘后特征向量通过两个全连接层先依次将特征向量映射成nx256、然后再映射成nx512的特征向量。然后，采用下采样模块对nx512的特征向量进行下采样操作，得到512个特征，该512个特征即为候选区域的区域特征。

(2)、基于区域特征信息预测候选物体区域相对于真实物体区域的定位偏移信息，得到预测定位偏移信息。

比如，可以通过回归网络来基于区域特征信息预测定位偏移信息，在一实施例中，为提升效率该回归网络可以集成在区域精炼网络中，比如，参考图1d，区域精炼网络(RefinerNet)还可以包括回归网络(reg)；在下采样操作，得到512个特征集区域特征后，可以基于回归网络(reg)进行定位偏移预测，得到定位偏移信息，比如可以包括：位置偏移信息(三维坐标xyz的坐标偏移)、尺寸偏移信息(长宽高的尺寸偏移)、角度偏移信息(如旋转角度的角度偏移)等，如7维参数(x,y,z,h,w,l,theta)的偏移offset。

(3)、基于预测定位偏移信息对候选物体区域的初始定位信息进行修正，得到调整后物体区域的定位信息。

在得到候选区域的定位偏移信息之后，可以基于该定位偏移信息对候选物体区域的定位信息进行修正，得到调整后物体区域的定位信息。

其中，定位信息修正的方式可以有多种，比如，当候选物体区域的定位信息包括7维回归参数如(x,y,z,h,w,l,theta)，可以将候选物体区域原本的7维回归参数与各参数的偏移相加，将相加后的7维回归参数作为候选物体区域的优化后7维回归参数，便可以得到最终物体区域的优化后7维回归参数。

下面将介绍候选区域网络和区域精炼网络的训练：

对于候选区域网络的训练，本发明实施例可以采用类型损失和定位偏移损失来训练，具体如下：

(1)、获取训练样本集，训练样本集包括样本场景的样本点云。

其中，训练样本集可以包括多个样本场景的样本点云，样本点云包括点的位置信息，此外还可以包括点的反射度信息等。

在实际训练过程中，样本场景还已知或标注有样本物体类型、真实物体区域的定位信息，或者，在一实施例中还可以标注真实物体区域与样本参考物体区域的样本偏移信息，该样本参考物体区域可以为点云中点对应的预定物体区域；比如，在样本场景的空间坐标系中为每个样本点建立的参考区域如参考框(anchor)等等。

(2)、将样本点云中点的位置信息三维体素表示，得到样本三维体素的样本特征信息。

具体地的三维体素表示方式可以参考上述实施例的描述。

(3)、基于预设的候选区域网络和样本特征信息预测样本三维体素对应的偏移信息和物体类型，得到预测定位偏移信息和预测类型。

具体地候选区域网络的预测过程可以参考上述实施例和图1c的描述。

(4)、计算预测定位偏移信息相对于真实偏移信息的定位偏移损失、预测物体类型相对于真实物体类型的类型损失。

其中，真实偏移信息可以通过真实候选区域的定位信息与参考区域的定位信息计算得到，如计算真实候选区域与参考区域的7维回归参数(x,y,z,h,w,l,theta)的偏移值(△x,△y,△z,△h,△w,△l,△theta)等。

其中，定位偏移损失为预测定位偏移信息相对于真实偏移信息的偏移损失也即误差，在一实施例中，定位信息包括区域的回归参数时，该定位偏移损失可以称为回归参数损失Lreg。

例如，对于候选区域网络的训练可以如下损失：

Loss＝Lcls+αLreg，其中，Lcls为类型损失、Lreg为回归参数损失。如下：

L_cls(p,t)＝-(tlog(p)+(1-t)log(1-p))

比如，在以框表示区域的情况下，其中对于regression loss(回归损失)，其中要预测的偏移(offset)为参考框相对于真实框的偏移，包括坐标偏移(xyz偏移，△₁x、△₁y、△₁z)；长宽高偏移(lwh偏移，△₁h,△₁w,△₁l)；角度偏移(θ偏移，△₁θ)，计算方式如下：

Δ₁θ＝θ_g-θ_a

其中下标为g的是代表真实框(groud truth)的值，而下标为a的代表锚(anchor)框的值。

(5)、结合定位偏移损失和类型损失对预设的候选区域网络进行训练，得到训练后的候选区域网络。

具体地，可以根据定位偏移损失和类型损失对候选区域网络中网络参数进行调整，如对参数的权重等调整。

通过上述过程可以采用大量的样本场景的点云数据对候选区域网络进行训练，通过不断调整网络参数，可以得到准确性较高的候选区域网络。

对于区域精炼网络的训练：

该区域精炼网络可以是对第一个阶段采用候选区域网络预测的候选区域进行进一步的精准预测，因此，在训练时可以利用候选区域网络的训练使用的定位偏移损失可以称为回归参数损失(regression loss)。

本发明实施例中，可以采用与候选区域网络联合训练的方式对区域精炼网络训练。比如，在获取样本场景的点云数据后，可以进行三维体素表示，并输入至候选区域网络，按照上述介绍的候选区域网络的训练方式预测出候选区域相对于参考区域(anchor区域)的定位偏移，基于定位偏移对参考区域(anchor区域)的定位信息进行修正，得到候选区域和定位信息，然后，按照上述介绍的区域特征构成方式提取候选区域的区域特征输入至区域精炼网络，基于区域精炼网络预测候选区域的偏移信息，得到候选区域的预测偏移信息，计算预测偏移信息相对于真实偏移信息的偏移损失，基于该偏移损失对区域精炼网络进行训练

其中，定位偏移损失为预测定位偏移信息相对于真实偏移信息的偏移损失也即误差，在一实施例中，定位信息包括区域的回归参数时，该定位偏移损失可以称为回归参数损失(如regression loss)。

其中，区域精炼网络预测的偏移信息(offset)为候选区域相对于真实区域的偏移，比如，以框标识区域为例，区域精炼网络预测的偏移可以包括：坐标偏移(xyz偏移，△₂x、△₂y、△₂z)；长宽高偏移(lwh偏移，△₂h,△₂w,△₂l)；角度偏移(θ偏移，△₂θ)，计算方式如下：

Δ₂x＝x_g-x_p,Δ₂y＝y_g-y_p,Δ₂z＝z_g-z_a,

Δ₂h＝h_g-h_a,Δ₂ω＝ω_g-ω_a,Δ₂l＝l_g-l_a,

Δ₂θ＝θ_g-θ_p

其中下标为g的是代表真实框(groud truth)的值，下标为a的代表锚框(anchor)的值，下标为p的代表经过候选区域网络预测出的候选框的值。

由上可知，获取场景的点云，点云包括点的位置信息；将点云映射到三维体素表示，得到三维体素的特征信息；对三维体素的特征信息进行卷积操作，得到卷积特征集；基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从点云中选择位于候选物体区域内的目标点；基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的卷积特征信息。由于该方案可以采用场景的点云数据进行物体检测，并且融合了点云的位置信息以及卷积特征，使得定位信息丢失尽可能少，从而有效提升物体检测的准确度和效率；尤其适用于3D物体检测。

此外，该方案还提供的候选区域网络和区域精炼网络具有极其高效的运行速度，能够极大地拓展其实用性。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该物体检测装置具体集成在电子设备为例进行说明。

如图2a所示，一种物体检测方法，具体流程可以如下：

201、电子设备获取场景的点云，点云包括点的位置信息。

比如，电子设备可以分别从点云采集设备获取场景的点云。该点的位置信息可以包括三维坐标xyz和旋转角度。

例如，参考图2b，可以获取nx4向量表示的点云，其中，n为点云中点的数量，每个点对应一个1x4的4维向量，该向量的维度为4与三维坐标和反射度对应。

202、电子设备将点云映射到三维体素表示，得到三维体素的特征信息。

比如，电子设备基于场景点云的范围构建相应尺寸的体素块(如立方体的体素块)；对体素块进行划分，得到多个三维体素；将场景的点云映射到三维体素；基于三维体素中映射点的位置信息构建三维体素的特征信息。

比如，参考图2a，可以对点云进行三维体素化处理(Voxelize)，将nx4的向量映射到3D体素(LxWxHx4)表示。具体地，确定3D场景的范围，构建体素块，并将其切成多个Voxel的表示，然后将每个点映射到Voxel当中，无需其他的繁琐操作，对于有点的Voxel直接取其中的某个点的4维向量作为特征，对于没有点的Voxel特征均为0。

203、电子设备对三维体素的特征信息依次进行三维卷积运算和二维卷积运算，得到卷积特征集。

比如，参考图2b，在得到三维体素的特征信息之后，可以将输入VoxelRPN(体素候选区域网络)即Voxel input(体素输入)。例如，参考图1c所示的候选区域网络，可以将800x704 x20 x4(即LxWxHx4)的三维特征信息输入至入VoxelRPN。

VoxelRPN包括多个BLOCK(执行卷积操作的卷积单元或卷积块)，参考图2b，VoxelRPN包括BLOCK1、BLOCK2、BLOCK3、BLOCK4；利用BLOCK1中的三维卷积层(Conv3D)对三维体素的特征信息进行三维卷积运算，将运算的三维卷积特征信息输入至BLOCK2，通过BLOCK2、BLOCK3、BLOCK4中二维卷积层(Conv3D)进行二维卷积运算，然后，以对BLOCK4和BLOCK3输出的卷积特征进行反卷积运算(Deconv)，使得BLOCK4和BLOCK3输出的特征与BLOCK2输出的特征尺寸相同，采用融合模块对BLOCK2、BLOCK3BLOCK4输出的特征进行融合，得到卷积特征集如featuremap。

具体地的，卷积特征集的运算可以参考上述实施例的介绍。

204、电子设备基于卷积特征集预测三维体素对应的定位偏移信息和物体类型，其中，定位偏移信息为三维体素对应的参考物体区域相对于真实物体区域的初始定位偏移信息。

比如，参考图2b和图1c，得到卷积特征图之后，可以通过VoxelRPN中回归网络(reg)、以及分类网络(cls)进行分类和回归。

其中，分类网络(cls)，用于基于卷积特征集预测出物体类；回归网络(reg)用于基于卷积特征集预测参考物体区域(anchor)相对于真实物体区域的定位偏移信息。比如，7维回归参数(x,y,z,h,w,l,theta)的偏移。

例如，通过分类网络和回归网络可以预测出锚框(即参考框)相对于真实框的参数偏移，比如7维回归参数(x,y,z,h,w,l,theta)的偏移。

205、电子设备基于初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息。

比如，电子设备根据物体类型对参考物体区域进行筛选，得到筛选后物体区域；基于筛选后物体区域的初始定位偏移信息对筛选后物体区域的定位信息进行修正，得到候选物体区域、以及候选物体区域的初始定位信息。

譬如，参考图2b，在通过VoxelRPN预测锚框的定位参数偏移和类型后，可以基于类型筛选锚框，并基于定位参数偏移对筛选的锚框进行修正，从而得到首次预测(InitialPrediction)的候选框。

206、电子设备从点云中选择位于候选物体区域内的目标点，以及从卷积特征集中选择目标点位置对应的目标卷积特征信息。

例如，参考图2b和图1d，在预测出候选的3D框后，可以利用这个3D框从点云当中进行剪切出框中的点云(nx4)，作为3D框的坐标特征(Coordinate Feature)。

另外，从之前的VoxelRPN网络输出的featuremap特征图中找出每个框内点对应位置的Convolution(卷积)的特征，作为3D框的卷积特征(Convolution Feature)。将这两部分特征作为输入，输入至RefinerNet结构。

207、电子设备对目标点的位置信息、以及目标卷积特征信息进行融合，得到候选物体区域的区域特征信息。

比如，参考图2b和图1d，在输入位置特征和卷积特征至RefinerNet网络后，RefinerNet网络可以对这两部特征进行融合，得到3D框的特征。具体方式可以参考上述实施例的介绍。

208、电子设备基于区域特征信息预测候选物体区域相对于真实物体区域的定位偏移信息，得到预测定位偏移信息。

比如，参考图2b和图1d，可以通过RefinerNet网络中的回归网络(reg)进行定位偏移预测，得到候选区域如候选框相对于真实区域如真框的定位偏移信息。

比如可以包括：位置偏移信息(三维坐标xyz的坐标偏移)、尺寸偏移信息(长宽高的尺寸偏移)、角度偏移信息(如旋转角度的角度偏移)等，如7维参数(x,y,z,h,w,l,theta)的偏移offset。

209、电子设备基于预测定位偏移信息对候选物体区域的初始定位信息进行修正，得到物体区域的最终定位信息。

在得到候选区域的定位偏移信息之后，可以基于该定位偏移信息对候选物体区域的定位信息进行修正，将修正定位信息后的候选区域作为最终物体区域，修正后的定位信息作为该区域的定位信息，也即本发明实施例最终要得到的物体区域和定位信息。

参考图2b在经过RefinerNet网络预测偏移后，可以基于预测偏移对3D框修正，得到最终精准的3D框，实现物体检测。

本发明实施例方案可以应用在自动驾驶领域，在自动驾驶过程中采用本发明实施例方法来实现物体检测，比如，参考图2c，采用本发明实施例提供物体检测可以检测自动驾驶场景下的车辆，行人等物体。

本发明实施例可以采用场景的点云数据进行物体检测，并且融合了点云的位置信息以及卷积特征，使得定位信息丢失尽可能少，从而有效提升物体检测的准确度和效率；尤其适用于3D物体检测。此外，该方案还利用候选区域网络和区域精炼网络进行物体检测，可以大大提升物体检测效率。

为了更好地实施以上方法，相应的，本发明实施例还提供一种物体检测装置，该物体检测装置具体可以集成在电子设备中，该电子设备可以为网络设备，其中，网络设备可以是服务器，也可以是终端、车载设备、无人机等设备，还可以为比如微型处理盒子等。

例如，如图3a所示，该物体检测装置可以包括点云获取单元301、体素映射单元302、卷积单元303、候选区域获取单元304、选择单元305和调整单元306，如下：

点云获取单元301，用于获取场景的点云，所述点云包括点的位置信息；

体素映射单元302，用于将所述点云映射到三维体素表示，得到三维体素的特征信息；

卷积单元303，用于对所述三维体素的特征信息进行卷积操作，得到卷积特征集；

候选区域获取单元304，用于基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；

选择单元305，用于从所述点云中选择位于候选物体区域内的目标点；

调整单元306，用于基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。

在一实施例中，参考图3b，所述调整单元306，可以包括：

融合子单元3061，用于对所述目标点的位置信息、以及目标卷积特征信息进行融合，得到候选物体区域的区域特征信息；

第一预测子单元3062，用于基于所述区域特征信息预测所述候选物体区域相对于真实物体区域的定位偏移信息，得到预测定位偏移信息；

修正子单元3063，用于基于所述预测定位偏移信息对所述候选物体区域的初始定位信息进行修正，得到调整后物体区域的定位信息。

在一实施例中，所述融合子单元3061，可以具体用于：

在一实施例中，所述融合子单元3061，可以具体用于：对所述融合特征信息的特征维度进行升维处理，得到处理后特征信息；基于所述特征权重对所述处理后特征信息进行特征运算，得到运算后特征信息。

在一实施例中，所述融合子单元3061，可以具体用于：对所述目标点的目标卷积特征信息进行降维处理，得到目标点的初始特征权重；基于激活函数对所述初始特征权重进行处理，得到目标点的特征权重。

在一实施例中，参考图3c，所述卷积单元303，可以包括：

三维卷积子单元3031，用于对所述三维体素的特征信息进行三维卷积运算，得到三维体素的三维卷积特征信息；

二维卷积子单元3032，用于对所述三维体素的三维卷积特征进行二维卷积运算，得到卷积特征集。

在一实施例中，三维卷积子单元3031，可以用于：采用候选区域网络中的三维卷积网络对所述三维体素的特征信息进行三维卷积运算；其中，所述候选区域网络还包括与所述三维卷积网络连接的二维卷积网络，所述二维卷积网络包括多个依次连接的卷积块；

所述二维卷积子单元3032，可以用于采用所述卷积块依次对所述三维卷积特征进行二维卷积运算；将每个卷积块输出的卷积特征进行融合，得到卷积特征集。

在一实施例中，二维卷积子单元3032，用于采用所述卷积块依次对所述三维卷积特征进行二维卷积运算；对所述二维卷积网络中其他卷积块输出的卷积特征进行反卷积处理，得到反卷积特征，所述反卷积特征与第一个卷积块输出的卷积特征的尺寸相同，其中，卷积块为所述二维卷积网络中除第一个卷积块之外的其他卷积块；将第一个卷积块输出的卷积特征与其他卷积块的反卷积特征进行融合，得到卷积特征集。

在一实施例中，参考图3d，所述候选区域获取单元304，可以包括：

第二预测子单元3041，用于基于所述卷积特征集预测三维体素对应的定位偏移信息和物体类型，其中，所述定位偏移信息为所述三维体素对应的参考物体区域相对于真实物体区域的初始定位偏移信息；

调整子单元3042，用于基于所述初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息。

在一实施例中，所述调整子单元3042，可以具体用于：

在一实施例中，所述卷积单元303，具体用于：

所述第二预测子单元3041，用于：基于所述分类网络和所述卷积特征集，对三维体素进行物体分类，得到三维体素对应的物体类型；基于所述回归网络和所述卷积特征集，预测三维体素对应的定位偏移信息。

在一实施例中，参考图3e，物体检测装置还可以包括：训练单元307；所述训练单元307，可以具体用于：

计算预测物体类型相对于真实物体类型的类型损失；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的物体检测装置可以通过点云获取单元301获取场景的点云，所述点云包括点的位置信息；由体素映射单元302将所述点云映射到三维体素表示，得到三维体素的特征信息；由卷积单元303对所述三维体素的特征信息进行卷积操作，得到卷积特征集；由候选区域获取单元304基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；选择单元305，用于从所述点云中选择位于候选物体区域内的目标点；由调整单元306基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。由于该方案可以采用场景的点云数据进行物体检测，并且融合了点云的位置信息以及卷积特征，使得定位信息丢失尽可能少，从而有效提升物体检测的准确度；尤其适用于3D物体检测。

此外，本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理***与处理器401逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取场景的点云，该点云包括点的位置信息；将点云映射到三维体素表示，得到三维体素的特征信息；对三维体素的特征信息进行卷积操作，得到卷积特征集；基于卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从点云中选择位于候选物体区域内的目标点；基于目标点的位置信息和目标卷积特征信息，对候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，目标卷积特征信息为卷积特征集中与目标点位置对应的卷积特征信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的电子设备获取场景的点云，所述点云包括点的位置信息；将所述点云映射到三维体素表示，得到三维体素的特征信息；对所述三维体素的特征信息进行卷积操作，得到卷积特征集；基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从所述点云中选择位于候选物体区域内的目标点；基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。由于该方案可以采用场景的点云数据进行物体检测，并且融合了点云的位置信息以及卷积特征，使得定位信息丢失尽可能少，从而有效提升物体检测的准确度；尤其适用于3D物体检测

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种物体检测方法中的步骤。例如，该指令可以执行如下步骤：

获取场景的点云，所述点云包括点的位置信息；将所述点云映射到三维体素表示，得到三维体素的特征信息；对所述三维体素的特征信息进行卷积操作，得到卷积特征集；基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息；从所述点云中选择位于候选物体区域内的目标点；基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，其中，所述目标卷积特征信息为所述卷积特征集中与目标点位置对应的卷积特征信息。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种物体检测方法中的步骤，因此，可以实现本发明实施例所提供的任一种物体检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种物体检测方法、装置、电子设备和存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种物体检测方法，其特征在于，包括：

获取场景的点云，所述点云包括点的位置信息；

从所述点云中选择位于候选物体区域内的目标点；

2.如权利要求1所述的物体检测方法，其特征在于，基于所述目标点的位置信息和目标卷积特征信息，对所述候选物体区域的初始定位信息进行调整，得到调整后物体区域的定位信息，包括：

对所述目标点的位置信息、以及目标卷积特征信息进行融合，得到候选物体区域的区域特征信息；

基于所述区域特征信息预测所述候选物体区域相对于真实物体区域的定位偏移信息，得到预测定位偏移信息；

基于所述预测定位偏移信息对所述候选物体区域的初始定位信息进行修正，得到调整后物体区域的定位信息。

3.如权利要求2所述的物体检测方法，其特征在于，对所述目标点的位置信息、以及目标卷积特征进行融合，得到候选物体区域的区域特征信息，包括：

4.如权利要求3所述的物体检测方法，其特征在于，基于所述特征权重对所述融合特征信息进行特征运算，得到运算后特征信息，包括：

对所述融合特征信息的特征维度进行升维处理，得到处理后特征信息；

基于所述特征权重对所述处理后特征信息进行特征运算，得到运算后特征信息。

5.如权利要求3所述的物体检测方法，其特征在于，对所述目标点的目标卷积特征信息进行降维处理，得到目标点的特征权重，包括：

对所述目标点的目标卷积特征信息进行降维处理，得到目标点的初始特征权重；

基于激活函数对所述初始特征权重进行处理，得到目标点的特征权重。

6.如权利要求1所述的物体检测方法，其特征在于，对所述三维体素的特征信息进行卷积操作，得到卷积特征集，包括：

对所述三维体素的特征信息进行三维卷积运算，得到三维体素的三维卷积特征信息；

对所述三维体素的三维卷积特征进行二维卷积运算，得到卷积特征集。

7.如权利要求6所述的物体检测方法，其特征在于，对所述三维体素的特征信息进行三维卷积运算，包括：采用候选区域网络中的三维卷积网络对所述三维体素的特征信息进行三维卷积运算；其中，所述候选区域网络还包括与所述三维卷积网络连接的二维卷积网络，所述二维卷积网络包括多个依次连接的卷积块；

对所述三维体素的三维卷积特征进行二维卷积运算，得到卷积特征集，包括：

将每个卷积块输出的卷积特征进行融合，得到卷积特征集。

8.如权利要求7所述的物体检测方法，其特征在于，将每个卷积块输出的卷积特征进行融合，得到卷积特征集，包括：

对所述二维卷积网络中其他卷积块输出的卷积特征进行反卷积处理，得到反卷积特征，所述反卷积特征与第一个卷积块输出的卷积特征的尺寸相同，其中，卷积块为所述二维卷积网络中除第一个卷积块之外的其他卷积块；

9.如权利要求1所述的物体检测方法，其特征在于，基于所述卷积特征集获取候选物体区域、以及候选物体区域的初始定位信息，包括：

基于所述卷积特征集预测三维体素对应的定位偏移信息和物体类型，其中，所述定位偏移信息为所述三维体素对应的参考物体区域相对于真实物体区域的初始定位偏移信息；

基于所述初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息。

10.如权利要求9所述的物体检测方法，其特征在于，基于所述初始定位偏移信息和物体类型对参考物体区域进行调整，得到候选物体区域、以及候选物体区域的初始定位信息，包括：

11.如权利要求10所述的物体检测方法，其特征在于，对所述三维体素的特征信息进行卷积操作，得到卷积特征集，包括：

基于所述卷积特征集预测三维体素对应的定位偏移信息和物体类型，包括：

基于所述分类网络和所述卷积特征集，对三维体素进行物体分类，得到三维体素对应的物体类型；

基于所述回归网络和所述卷积特征集，预测三维体素对应的定位偏移信息。

12.如权利要求11所述的物体检测方法，其特征在于，还包括：

计算预测物体类型相对于真实物体类型的类型损失；

13.一种物体检测装置，其特征在于，包括：

14.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至12任一项所述的物体检测方法中的步骤。

15.一种电子设备，其特征在于，包括存储器和处理器；所述存储器存储有多条指令，所述处理器加载所述存储器内的指令，以执行权利要求1至12任一项所述的物体检测方法中的步骤。