WO2020199834A1

WO2020199834A1 - 一种物体检测方法、装置、网络设备和存储介质

Info

Publication number: WO2020199834A1
Application number: PCT/CN2020/077721
Authority: WO
Inventors: 杨泽同; 孙亚楠; 贾佳亚; 戴宇荣; 沈小勇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2019-04-03
Filing date: 2020-03-04
Publication date: 2020-10-08
Also published as: CN110032962B; CN110032962A

Abstract

本申请实施例公开了一种物体检测方法、装置、网络设备和存储介质；本申请实施例可以从场景的点云中检测出前景点；基于前景点和预定尺寸构建前景点对应的候选物体区域，得到候选物体区域的初始定位信息；基于点云网络对点云中的所有点进行特征提取，得到点云对应的特征集；基于特征集构建候选物体区域的区域特征信息；基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息。该方案可以提升物体检测的精确性。

Description

一种物体检测方法、装置、网络设备和存储介质

本申请要求于2019年04月03日提交中国专利局、申请号为201910267019.5、申请名称为“一种物体检测方法、装置、网络设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及物体检测技术。

背景技术

物体检测是指在某个场景中确定物体的位置、类别等。目前物体检测技术已经广泛应用到各种场景中，比如，自动驾驶、无人机等场景。

目前的物体检测方案普遍是采集场景图像，从场景图像中提取特征，然后，基于提取的特征确定出物体在该场景图像中的位置和类别。然而，经过实践发现，目前的物体检测方案存在物体检测精确度较低等问题，尤其在3D物体检测场景。

发明内容

本申请实施例提供一种物体检测方法、装置、网络设备和存储介质，可以提升物体检测的精确性。

本申请实施例提供一种物体检测方法，由网络设备执行，包括：

从场景的点云中检测出前景点；

基于前景点和预定尺寸构建所述前景点对应的候选物体区域，确定候选物体区域的初始定位信息；

基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；

基于所述特征集构建所述候选物体区域的区域特征信息；

基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；

基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息。

相应的，本申请实施例还提供一种物体检测装置，包括：

检测单元，用于从场景的点云中检测出前景点；

区域构建单元，用于基于前景点和预定尺寸构建所述前景点对应的候选物体区域，得到候选物体区域的初始定位信息；

特征提取单元，用于基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；

特征构建单元，用于基于所述特征集构建所述候选物体区域的区域特征信息；

预测单元，用于基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；

优化单元，用于基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息。

本申请实施例还提供了一种网络设备，包括存储器和处理器；所述存储器存储有多条指令，所述处理器加载所述存储器内的指令，以执行本申请实施例提供的任一种物体检测方法中的步骤。

此外，本申请实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本申请实施例提供的任一种物体检测方法中的步骤。

此外，本申请实施例还提供了一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行本申请实施例提供的任一种物体检测方法中的步骤。

本申请实施例可以从场景的点云中检测出前景点；基于前景点和预定尺寸构建所述前景点对应的候选物体区域，并确定该候选物体区域的初始定位信息；基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；基于所述特征集构建所述候选物体区域的区域特征信息；基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息。由于该方案可以采用场景的点云数据进行物体检测，并且还可以针对点云中的每个前景点生成候选物体区域，基于候选物体区域的区域特征对候选物体区域进行优化处理；因此，可以大大提升物体检测的精确性，尤其对于3D物体检测来说检测效果提升得格外明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的物体检测方法的场景示意图；

图1b是本申请实施例提供的物体检测方法的流程图；

图1c是本申请实施例提供的点云网络的结构示意图；

图1d是本申请实施例提供的PointNet++网络结构示意图；

图1e是本申请实施例提供的自动驾驶场景中物体检测效果示意图；

图2a是本申请实施例提供的图像语义分割示意图；

图2b是本申请实施例提供的点云分割示意图；

图2c是本申请实施例提供的候选区域生成示意图；

图3是本申请实施例提供的候选区域特征构建示意图；

图4a是本申请实施例提供的区域预测网络的结构示意图

图4b是本申请实施例提供的区域预测网络的另一结构示意图；

图5a是本申请实施例提供的物体检测的另一流程示意图；

图5b是本申请实施例提供的物体检测的架构图；

图5c是本申请实施例提供的测试实验结果示意图；

图6a是本申请实施例提供的物体检测装置的结构示意图；

图6b是本申请实施例提供的物体检测装置的另一结构示意图；

图6c是本申请实施例提供的物体检测装置的另一结构示意图；

图6d是本申请实施例提供的物体检测装置的另一结构示意图；

图6e是本申请实施例提供的物体检测装置的另一结构示意图；

图7是本申请实施例提供的网络设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种物体检测方法、装置、网络设备和存储介质。其中，该物体检测装置可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备；比如，网络设备可以包括、车载设备、微型处理盒子等设备。

所谓物体检测，是指确定或识别某个场景中物体的位置、类别等，比如，识别某个道路场景中物体的类别和位置，如路灯、车辆及其位置等。

参考图1a，本申请实施例提供了物体检测***包括网络设备和采集设备等；网络设备与采集设备之间通讯连接，比如，通过有线或无线网络连接等。在一实施例中，网络设备与采集设备可以集成在一台设备。

其中，采集设备，可以用于采集场景的点云数据或者图像数据等，在一实施例中采集设备可以将采集到的点云数据上传给网络设备进行处理。

网络设备，可以用于物体检测，具体地，可以从场景的点云中检测出前景点；基于前景点和预定尺寸构建前景点对应的候选物体区域，得到候选物体区域的初始定位信息；基于点云网络对点云中的所有点进行特征提取，得到点云对应的特征集；基于特征集构建候选物体区域的区域特征信息；基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及其定位信息。实际应用中，在得到目标物体检测区域的定位信息之后，可以根据定位信息在场景图像中标识检测到的物体，比如，以检测框的方式在场景图像中框选出检测到的物体，在一实施例中，还可以在场景图像中标识检测到的物体的类型。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从物体检测装置的角度进行描述，该物体检测装置具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端等设备；其中，该终端可以包括手机、平板电脑、笔记本电脑、以及个人计算(PC，Personal Computer)、微型处理终端等设备。

本申请实施例提供的一种物体检测方法，该方法可以由网络设备的处理器执行，如图1b所示，该物体检测方法的具体流程可以如下：

101、从场景的点云中检测出前景点。

其中，点云为场景或目标表面特性的点集合，点云中的点可以包含点的位置信息如三维坐标，此外，还可以包括颜色信息(RGB)或反射强度信息(Intensity)。

点云可以通过激光测量原理或者摄影测量原理检测得到，比如，可以通过激光扫描仪、或者照相式扫描仪扫描得到物体的点云。激光检测点云的原理为：当一束激光照射到物体表面时，所反射的激光会携带方位、距离等信息。若将激光束按照某种轨迹进行扫描，便会边扫描边记录到反射的激光点信息，由于扫描极为精细，则能够得到大量的激光点，因而就可形成激光点云。点云格式有*.las；*.pcd；*.txt等。

本申请实施例中，场景的点云数据可以由网络设备自己采集，也可以由其他设备采集，网络设备从其他设备获取，或者，从网络数据库中搜索等等。

其中，场景可以为多种，比如，可以自动驾驶中的道路场景、无人机飞行中的航空场景等等。

其中，前景点是相对于背景点而言的，一个场景可以划分为背景和前景，背景中的点可以称为背景点、前景中的点可以称为前景点。本申请实施例可以通过对场景的点云进行语义分割，识别场景点云中的前景点。

本申请实施例中，从点云中检测出前景点的方式有多种，比如，可以直接对场景的点云进行语义分割，得到点云中的前景点。语义分割(Semantic Segmentation)是指对一个场景的点云中的每个点进行分类，从而识别出属于某个类型的点。语义分割的方式可以有多种，比如，可以采用2D语义分割或者3D语义分割对点云进行语义分割。

又比如，为了能够检测到更多的前景点、提升前景点的检测可信度和准确性，在一实施例中，可以先对场景的图像进行语义分割，得到前景像素，然后，将前景像素映射到点云中，得到前景点。具体地，步骤“从场景的点云中检测出前景点”，可以包括：

对场景的图像进行语义分割，得到前景像素；

将场景的点云中与前景像素对应的点确定为前景点。

在一实施例中，可以将前景像素映射到场景的点云中，得到点云中与前景像素对应的目标点，譬如，可以基于图像中像素与点云中的点之间的映射关系(如位置映射关系等)实现映射，将与前景像素具有映射关系的目标点确定为前景点。

在另一实施例中，可以将点云中的点投影到场景的图像中，如通过点云与像素之间的映射关系矩阵或变换矩阵，将点云中的点投影到场景的图像中，然后，将点在图像中对应的分割结果(如前景像素、背景像素等)作为点的分割结果，基于点的分割结果确定该点是否为前景点，由此从点云中确定各个前景点，具体地，当点的分割结果为前景像素时，确定该点为前景点。

为了提升语义分割的精确性，本申请实施例的语义分割可以通过基于深度学习的分割网络来实现，比如，可以了基于X-ception的DeepLabV3作为的分割网络，通过该分割网络对场景的图像进行分割，得到前景像素如自动驾驶中的车、行人、骑行的人的前景像素点。然后，将点云中的点投影到场景的图像中，然后将其在图片中对应的分割结果，作为这个点的分割结果，由此确定点云中的前景点。该方式可以精确地检测出点云中的前景点。

102、基于前景点和预定尺寸构建前景点对应的候选物体区域，确定候选物体区域的初始定位信息。

在得到前景点之后，本申请实施例可以基于前景点和预定尺寸构建每个前景点对应的物体区域，将前景点对应的物体区域作为候选物体区域。

其中，候选物体区域可以为二维区域即2D区域，也可以为三维区域即3D区域，具体可以根据实际需求来定。其中，预定尺寸可以根据实际需求设定，预定尺寸可以包括预定的尺寸参数，比如，在2D区域中包括长l*宽w，在3D区域中包括长l*宽w*高h。

比如，为了提升物体检测的准确性，可以以前景点为中心点，按照预定尺寸生成前景点对应的候选物体区域。

其中，候选物体区域的定位信息可以包括候选物体区域的位置信息、尺寸信息等等。

比如，在一实施例中，为了便于物体检测过程中的后续计算，候选物体区域的位置信息可以由候选物体区域中参考点的位置信息表示，该参考点可以根据实际需求设定，比如，可以将候选物体区域的中心点作为参考点。例如，以三维区域为例，候选物体区域的位置信息可以包括中心点的3D坐标如(x、y、z)。

其中，候选物体区域的尺寸信息可以包括区域的尺寸参数，比如，候选物体区域为2D区域时，候选物体区域的尺寸信息可以包括长l*宽w，候选物体区域为3D区域时，候选物体区域的尺寸信息可以包括长l*宽w*高h等。

此外，在一些场景中，物体的朝向也是比较重要的参考信息，因此，在一些实施例中，候选物体区域的定位信息还可以包括候选物体区域的朝向，如向前、向后、向下、向上等，该候选物体区域的朝向能够表明场景中的物体的朝向。实际应用中，候选物体区域的朝向可以基于角度来表示，比如，可以定义两个朝向，分别为0°和90°。

在实际应用中，为了便于物体检测和用户观察，候选物体区域可以以检测框的形式标识，比如，2D检测框、3D检测框标识。

譬如，以行驶道路场景为例，参考图2a可以采用2D分割网络对图像进行语义分割，得到图像分割结果(包括前景像素等)；然后，参考图2b，将图像分割结果映射到点云中，得到点云分割结果(包含前景点)。接着，以每个前景点为中心，产生候选物体区域。候选物体区域生成示意图如图2c。以每个前景点为中心，生成一个人为规定大小的3D检测框，作为候选物体区域。候选物体区域以(x,y,z,l,h,w,angle)作为表示，其中x,y,z表示中心点的3D坐标，而l,h,w为我们设定的候选区域的长高宽。在实际实验中l＝3.8,h＝1.6,w＝1.5。angle表示3D候选区域的朝向，当生成候选物体区域的时候，本申请实施例采用了两个朝向，分别是0°和90°。

通过上述步骤本申请实施例可以针对每个前景点生成一个候选物体区域，如3D候选物体检测框。

103、基于点云网络对点云中的所有点进行特征提取，得到点云对应的特征集。

其中，点云网络可以为基于深度学习的网络，比如，可以为PointNet、PointNet++等点云网络。本申请实施例中步骤103与步骤102之间的时序不受序号限制，可以是步骤102执行在步骤103之前，也可以是步骤103执行在步骤102之前，也可以同时执行。

具体地，可以将点云中所有的点输入至点云网络，点云网络对输入的点进行特征提取，以得到点云对应的特征集。

下面以PointNet++为例来介绍点云网络，如图1c所示，点云网络可以包括第一采样网络和第二采样网络；其中，第一采样网络与第二采样网络连接。在实际应用中，第一采样网络可以称为编码器，第二采样网络可以成为解码器。具体地，通过第一采样网络对点云中的所有点进行特征降采样处理，得到点云的初始特征；通过第二采样网络对初始特征进行上采样处理，得到点云的特征集。

参考图1d，第一采样网络包括多个依次连接的集合抽象层(SA，set abstraction)，第二采样网络包括多个依次连接、且与第一采样网络中各集合抽象层(SA)一一对应的特征传播层(FP，feature propagation)。第一采样网络中的SA和第二采样网络中的FP相对应，数量可以根据实际需求设定，比如，第一采样网络和第二采样网络分别包括三层SA、FP。

参考图1d，第一采样网络可以包括三次降采样处理(也即编码阶段包括三步降采样处理)，点的数量分别为1024，256，64；第二采样网络可以包括三次上采样处理(也即解码阶段包括三步上采样处理)，三步的点数为256，1024，N。点云网络提取特征过程如下：

将点云的所有点输入至第一采样网络，通过第一采样网络中各集合抽象层(SA)依次对点云中的点进行局部区域划分，并提取局部区域中心点的特征，得到点云的初始特征；比如，参考图1d，通过输入为点云N×4经过三层SA降采样处理后，输出点云的特征为64×1024特征。

本申请实施例中，pointnet++使用了分层抽取特征的思想，把每一次叫做set abstraction。分为三部分：采样层、分组层、特征提取层。首先来看采样层，为了从稠密的点云中抽取出一些相对较为重要的中心点，采用最远点采样法(farthest point sampling，FPS)，当然也可以随机采样。然后是分组层，在上一层提取出的中心点的某个范围内寻找最近的k个近邻点组成patch。特征提取层是将这k个点通过小型pointnet网络进行卷积和pooling处理，得到的特征作为此中心点的特征，再送入下一个分层继续。这样每一层得到的中心点都是上一层中心点的子集，并且随着层数加深，中心点的个数越来越少，但是每一个中心点包含的信息越来越多。

根据上述描述，本申请实施例中第一采样网络由多个SA层组成，在每个层次上，处理和抽象一组点以产生具有较少元素的新集合。集合抽象层由三个关键层组成：采样层(Sampling layer)、分组层(Grouping layer)、点云网络层(PointNet layer)。采样层从输入点选择一组点，这些点定义局部区域的质心。分组层通过找到质心周围的“相邻”点来构造局部区域集合。点云网络层使用一个微型点网将局部区域集合编码成特征向量。

在一实施例中，考虑到实际点云很少是均匀分布的，在采样的时候，对于密集的区域，应该使用小尺度采样，以得到深入细致的特征(finest details)，但在稀疏区域，应该使用大尺度采样，因为过小的尺度会导致稀疏处的采样不足。因此，本申请实施例提出了改良的SA层。具体地，在SA层中的分组层(Grouping layer)可以使用Multi-scale grouping(MSG，多尺度分组)，具体地，在分组时把每种半径下的局部特征都提取出来，然后组合到一起。其思想是在grouping layer中，采样多尺度的特征，concat(连接)起来。比如，参考图1d，在第一、二层SA层中使用MSG分组。

此外，在一实施例中，为了提升采样密度变化的稳健性，在SA中还可以采用单一尺度分组(SSG)，比如，在作为输出的SA层使用单一尺度分组(SSG)。

在第一采样网络输出点云的初始特征之后，可以将点云的初始特征输入至第二采样网络，通过第二采样网络对初始特征进行上采样处理如残差上采样处理。比如，参考图1d，经过第二采样网络的三层FP对64×1024特征进行上采样处理后，输出N×128的特征。

在一实施中，为了提升防止特征梯度变化、或者丢失，在第二采样网络进行上采样处理时还需要考虑到第一采样网络中各SA层输出的特征。具体地，步骤“通过第二采样网络对初始特征进行上采样处理，得到点云的特征集”，包括：

将上一层的输出特征、以及当前特征传播层对应的集合抽象层的输入特征，确定为当前特征传播层的当前输入特征；

通过当前特征传播层对当前输入特征进行上采样处理，得到点云的特征集。

其中，上一层的输出特征可以包括当前FP层上一层的SA层或FP层，比如，参考图1d，在输入64*1024点云特征至第一个FP层，第一个FP层将64*1024点云特征、以及输入第三个SA层的256*256特征确定为当前输入特征，对该特征进行上采样处理，将得到的特征输出至第二个FP层。第二个FP层将上一FP层的输出特征256*128特征、与输入第二个SA层的1024*128特征作为当前层输入特征，并对该特征进行上采样处理，得到1024*128特征输入值第三个FP层。第三个FP层将第二个FP层输出的1024*128特征、与输入第一个SA层的N*4特征作为当前层输入特征，并进行上采样处理，输出点云的最终特征。

通过上述步骤可以对点云中所有点进行特征提取，得到点云的特征集，防止信息丢失，提升了物体检测的准确性。

104、基于特征集构建候选物体区域的区域特征信息。

本申请实施例基于点云的特征集构建候选物体区域的特征信息的方式可以有多种，比如，可以从特征集中选择一些点的特征作为其所属的候选物体区域的特征信息；又比如，还可以从特征集中选择一些点的位置信息作为其所属的候选物体区域的特征信息。

又比如，为提升区域特征的提取精确性，还可以集合一些点的特征和位置信息来构建区域特征信息。具体地，步骤“基于特征集构建候选物体区域的区域特征信息”，可以包括：

在候选物体区域中选择多个目标点；

从特征集中提取目标点的特征，得到候选物体区域的第一部分特征信息；

基于目标点的位置信息，构建候选物体区域的第二部分特征；

对第一部分特征信息与第二部分特征信息进行融合，得到候选物体区域的区域特征。

其中，目标点的数量和选择方式可以根据实际需求设定，比如，可以在候选物体区域中随机或者按照一定选择方式(如基于离中心点的距离来选择等)选择一定数量的点，如选择512个点。

在从候选物体区域中选择目标点之后，可以从点云的特征集中提取目标点的特征，提取的目标点的特征作为候选物体区域的第一部分特征信息(可以用F1表示)。比如，在随机选择512个点后，可以从点云的特征集(即特征集)中提取这512个点的特征组成第一部分特征信息F1。

譬如，参考图3，可以从点云的特征集(B、N、C)中crop(裁剪)候选物体区域内512个目标点的特征组成F1(B、M、C)，M为目标点数量，如M＝512，其中，N为点云中点的数量。

其中，基于目标点的位置信息构建候选物体区域的第二部分特征的方式可以有多种，比如，可以将目标点的位置信息直接作为候选物体区域的第二部分特征信息(可以用F2表示)。

又比如，为了提升位置特征的提取精确性，还可以在对位置信息做一些变换后构建候选物体区域的第二部分特征。比如，步骤“基于目标点的位置信息构建候选物体区域的第二部分特征信息”，可以包括：

(1)、对目标点的位置信息进行标准化处理，得到目标点的标准化位置信息。

其中，目标点的位置信息可以包括目标点的坐标信息如3D坐标xyz，位置信息的标准化处理(Normalize)可以根据实际需求设定，比如，可以基于候选物体区域的中心点位置信息对目标点的位置信息进行调整。譬如，将目标点的3D坐标减去候选物体区域中心的3D坐标等。

(2)、对第一部分特征信息和标准化位置信息进行融合，得到目标点的融合后特征信息。

比如，参考图3，可以将M＝512个点的标准化位置信息(如3D坐标xyz)与第一部分特征F1进行融合，具体地，可以采用Concat(连接)方式对二者进行融合，得到融合后特征(B、N、C+3)。

(3)对目标点的融合后特征信息进行空间变换，得到目标点的变换后位置信息。

为了进一步提升第二部分特征的提取准确性，还可以对融合后特征进行空间变换。

比如，在一实施例中，可以采用空间变换网络(STN)进行变换，譬如，可以采用受监督的空间变换网络如T-Net。参考图3，可以通过T-Net对融合后特征(B、N、C+3)进行空间变换，得到变换后坐标(B、3)。

(4)、基于变换后位置信息，对目标点的标准化位置信息进行调整，得到候选物体区域的第二部分特征信息。

比如，可以将目标点的标准化位置值减去变换位置值，得到候选物体区域的第二部分特征F2。参考图3，可以将标准化处理(Normalize)的目标点3D坐标(B、N、3)减去变换后3D坐标(B、3)得到第二部分特征F2。

由于对特征进行空间变换，将位置特征减去变换后位置后，可以提升位置特征的几何稳定性或者空间不变性，从而提升特征提取的精确性。

通过上述方式可以得到每个候选物体区域的第一部分特征信息和第二部分特征信息，然后，将这两部分特征进行融合便可以得到每个候选物体区域的区域特征信息。比如，参考图3，可以将F1与F2连接(Concat)得到候选物体区域的连接后特征(B、N、C+3)，将该特征作为候选物体区域的区域特征。

105、基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息。

其中，区域预测网络，可以用于预测候选物体区域的类型和定位信息，比如，可以对候选物体区域进行分类和定位，得到候选预测区域的预测类型和预测定位信息，该网络可以为基于深度学习的区域预测网络，可以由样本物体的点云或图像训练而成。

其中，预测定位信息可以包括预测的位置信息如2D或3D坐标、尺寸如长宽高等，此外在一实施例中，还可以包括预测的朝向信息如0°或90°。

下面介绍区域预测网络的结构，参考图4a，区域预测网络可以包括特征提取网络、分类网络以及回归网络，分类网络与回归网络分别与特征提取网络连接。如下：

其中，特征提取网络，用于对输入信息进行特征提取，比如，对候选物体区域的区域特征信息进行特征提取，得到候选物体区域的全局特征信息。

分类网络，用于对区域进行分类，比如，可以基于候选物体区域的全局特征信息对候选物体区域进行分类，得到候选物体区域的预测类型。

回归网络，用于对区域进行定位，比如，对候选物体区域进行定位，得到候选物体区域的预测定位信息。由于用回归网络预测定位，因此输出的预测定位信息也可以称为回归信息，如预测回归信息。

比如，步骤“基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息”，可以包括：

通过特征提取网络对区域特征信息进行特征提取，得到候选物体区域的全局特征信息；

基于分类网络和全局特征信息，对候选物体区域进行分类，得到候选物体区域的预测类型；

基于回归网络和全局特征信息，对候选物体区域的进行定位，得到候选物体区域的预测定位信息。

为了提升预测的准确性，参考图4b，本申请实施例中特征提取网络可以包括：多个依次连接的集合抽象层即SA层；分类网络可以包括多个依次连接的全连接层(fc)，如图4b所示，包括用于分类的多个fc，如cls-fc1、cls-fc2、cls-pred。其中，回归网络包括多个依次连接的全连接层，如图4b所示，包括多个用于回归的fc，如reg-fc1、reg-fc2、reg-pred。本申请实施例中，SA层和fc层的数量可以根据实际需求设定。

本申请实施例中，区域的全局特征信息提取过程可以包括：通过特征提取网络中各个集合抽象层依次对区域特征信息进行特征提取，得到候选物体区域的全局特征信息。

其中，集合抽象层的结构可以参考上述的介绍，在一实施例中，SA层中分组可以采用单一尺度的方式分组，即采用SSG分组，提升全局特征提取的准确性和效率。

参考图4b，区域预测网络可以通过三个SA层依次对区域特征信息进行特征提取，如当输入特征input为M×131特征时，经过三个SA层特征提取，分别得到128×128、32×256等特征。在经过SA层特征提取后，得到全局特征信息，此时，可以将全局特征信息分别输入至分类网络和回归网络。

分类网络通过前两个cls-fc1、cls-fc2对全局特征信息进行降维处理，并通过最后一个cls-pred层进行分类预测，输出候选物体区域的预测类型。

回归网络通过前两个reg-fc1、reg-fc2对全局特征信息进行降维处理，并通过最后一个reg-pred层进行回归预测，得到候选物体区域的预测定位信息。

其中，候选物体区域的类型可以根据实际需求设定，比如，按区域内是否有物体可以划分为有物体、没有物体；或者按质量划分还可以划分为质量高、中、低。

通过上述步骤可以预测出每个候选物体区域的类型和定位信息。

106、基于初始定位信息、预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域、以及目标物体检测区域的定位信息。

其中，优化方式可以多种，比如，可以先基于预测定位信息对候选物体区域的定位信息进行调整，然后，再基于预测类型筛选候选物体区域。又比如，在一实施例中，可以先基于预测类型筛选候选物体区域，然后，调整定位信息。

例如，步骤“基于初始定位信息、预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及目标物体检测区域的定位信息”，可以包括：

基于候选物体区域的预测类型对候选物体区域进行筛选，得到筛选后物体区域；

根据筛选后物体区域的预测定位信息，对筛选后物体区域的初始定位信息进行优化调整，得到目标物体检测区域及目标物体检测区域的定位信息。

例如，当预测类型包括有物体区域、空区域的情况下，可以将预测类型为空区域的候选物体区域过滤掉，然后，基于过滤处理后剩余的候选物体区域的预测定位信息，对其初始定位信息进行优化调整。

具体地，定位信息优化调整方式，比如，可以基于预测定位信息与初始定位信息之间的差异信息进行调整，譬如，区域3D坐标的差值、尺寸差值等。

又比如，还可以基于预测定位信息和初始定位信息确定一个最优的定位信息，然后，将候选物体区域的定位信息调整为该最优的定位信息。譬如，确定一个最优区域3d坐标和长宽高等。

在实际应用中，还可以基于目标物体检测区域的定位信息在场景图像中标识出物体检测区域，比如，参考图1e，采用本申请实施例提供的物体检测方法可以在自动驾驶场景中准确地检测当前道路上的物体的位置、大小、以及方向，有利于自动驾驶的决策和判断。

本申请实施例提供的物体检测可以适用于各种场景，比如，自动驾驶、无人机、安全监控等场景。

由上可知，本申请实施例可以从场景的点云中检测出前景点；基于前景点和预定尺寸构建前景点对应的物体区域，得到候选物体区域的初始定位信息；基于点云网络对点云中的所有点进行特征提取，得到点云对应的特征集；基于特征集构建候选物体区域的区域特征信息；基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息该方案采用场景的点云数据进行物体检测，可以提升物体检测的准确性。

并且该方案还可以针对点云中的每个前景点生成候选物体区域，可以避免信息丢失，同时针对每个前景点生成候选物体区域，也即对于任意一个物体，都会产生其对应的候选区域，因此，不会受到物体尺度变化以及严重遮挡的影响，提升了物体检测的有效性和成功率。

此外，该方案还可以基于候选物体区域的区域特征对候选物体区域进行优化处理；因此，可以进一步提升物体检测的精确性和质量。

根据上面实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该物体检测装置具体集成在网络设备为例进行说明。

(一)分别对语义分割网络、点云网络以及区域预测网络进行训练，具体可以如下：

1、语义分割网络的训练。

首先，网络设备可以获取语义分割网络的训练集，该训练集包括标注了像素类型(如前景像素、背景像素等)的样本图像。

其中，网络设备可以基于该训练集、损失函数对语义分割进行训练。具体地，可以通过语义分割网络对样本图像进行语义分割，得到样本图像的前景像素，然后，基于损失函数对分割得到的像素类型与标注的像素类型进行收敛，得到训练后的语义分割网络。

2、点云网络的训练。

网络设备获取点云网络的训练集，该训练集包括样本物体或场景的样本点云。网络设备可以基于样本点云训练集对点云网络进行训练。

3、区域预测网络

网络设备获取区域预测网络的训练集，该训练集可以包括标注了物体区域类型和定位信息的样本点云；通过该训练集对区域预测网络进行训练，具体地，预测样本点云的物体区域类型和的定位信息，将预测类型与真实类型进行收敛，将预测定位信息与真实定位信息进行收敛，得到训练后的区域预测网络。

上述网络训练可以由网络设备自己执行，也可以由其他设备训练完成后，网络设备获取应用。应当理解的是本申请实施例应用的网络不仅限于上述方式来训练，还可以通过其他方式来训练。

(二)通过该训练好的语义分割网络、点云网络以及区域预测网络，便可以基于点云进行物体检测，具体可参见图5a和图5b。

如图5a所示，一种物体检测方法，具体流程可以如下：

501、网络设备获取场景的图像和点云。

比如，网络设备可以分别从图像采集设备和点云采集设备获取场景的图像和点云

502、网络设备采用语义分割网络对场景的图像进行语义分割，得到前景像素。

参考图5b，以自动驾驶场景为例，可以先采集道路场景图像，可以采用2D语义分割网络对场景的图像进行分割，得到分割结果，包括前景像素、背景像素等。

503、网络设备将前景像素点映射到场景的点云中，得到点云中的前景点。

比如，可以将基于X-ception的DeepLabV3作为的分割网络，通过该分割网络对场景的图像进行分割，得到前景像素如自动驾驶中的车、行人、骑行的人的前景像素点。然后，将点云中的点投影到场景的图像中，然后将其对应的图片中的分割结果，作为这个点的分割结果，进而产生点云中的前景点。该方式可以精确地检测出点云中的前景点。

504、网络设备基于每个前景点和预定尺寸构建每个前景点对应的三维候选物体区域，得到候选物体区域的初始定位信息。

比如，以前景点为中心点并按照预定尺寸生成前景点对应的三维候选物体区域。

比如，参考图5b，可以在得到前景点后，通过以前景点为中心点并按照预定尺寸生成前景点对应的候选物体区域，即生成基于点的候选物体区域(Piont-Based Proposal Generation)。

详细的候选物体区域可以参考图2a至图2b，以及上述的相关介绍。

505、网络设备通过点云网络对点云中的所有点进行特征提取，得到点云对应的特征集。

参考图5b，可以将点云(B，N，4)中所有点输入到PointNet++，通过PointNet++提取点云的特征，得到(B，N，C)。

具体的点云网络结构和特征提取过程可以参考上述实施例的描述。

506、网络设备基于特征集构建候选物体区域的区域特征信息。

参考图5b，在得到候选物体区域的初始定位信息、以及点云的特征集后，网络设备可以基于点云的特征集生成候选物体区域的区域特征信息(即Proposal Feature Generation)。

比如，网络设备在候选物体区域中选择多个目标点；从特征集中提取目标点的特征，得到候选物体区域的第一部分特征信息；对目标点的位置信息进行标准化处理，得到目标点的标准化位置信息；对第一部分特征信息和标准化位置信息进行融合，得到目标点的融合后特征信息；对目标的融合后特征信息进行空间变换，得到目标点的变换后位置信息；基于变换后位置信息，对目标点的标准化位置信息进行调整，得到候选物体区域的第二部分特征信息；对第一部分特征信息与第二部分特征信息进行融合，得到候选区域的区域特征。

具体地，区域特征生成可以参考上述实施例和图3的描述。

507、网络设备基于区域预测网络和区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息。

比如，参考图5b，可以通过边界预测网络(Box Prediction Net)对候选区域进行分类(cls)以及回归(reg)，从而预测候选物体区域的类型和回归参数，该回归参数即为预测定位信息，包括三维坐标、长宽高、朝向等参数如(x,y,z,l,h,w,angle)。

508、网络设备基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域以及目标物体检测区域的定位信息。

比如，网络设备可以基于候选物体区域的预测类型对候选物体区域进行筛选，得到筛选后物体区域；根据筛选后物体区域的预测定位信息，对筛选后物体区域的初始定位信息进行优化调整，得到优化后物体检测区域及其定位信息。

本申请实施例可以将全部的点云作为输入，然后使用一个PointNet++的结构为点云中的每一个点产生特征。然后以点云中的每一个点为锚点生成候选区域。之后，以每一个点的特征作为输入，优化候选区域，从而生成最后的检测结果。

并且，在一些数据集中测试了本申请实施例提供的算法能力，比如，在开源的自动驾驶数据集如KITTI数据集上测试了本申请实施例提供的算法的能力，其中KITTI数据集是一个自动驾驶数据集，同时拥有多种大小和距离的物体，非常具有挑战性。本申请实施例的算法在KITTI上超过了所有的现有的3D物体检测的算法，达到了一个全新的state-of-the-art，同时在其中的困难集上更是远超之前最好的算法。

在KITTI数据集上，测试了三类(汽车、行人和骑自行车)的7481训练图像的点云和7518的测试图像的点云。并采用最广泛实验的平均精度(AP)与其他方法进行度量比较，其他方法包括MV3D(Multi-View 3D object detection，多模态3D物体检测)、AVOD(Aggregate View Object Detection，多视图物体检测)、VoxelNet(3D像素网络)、F-PointNet(Frustum-PointNet，视锥点云网络)、AVOD-FPN(多视图物体检测-视锥点云网络)。如图5c所示为测试结果。从而结果来看本申请实施例提供的物体检测方法(图5c中的Ours)的精度明显高于其他方法。

为了更好地实施以上方法，相应的，本申请实施例还提供一种物体检测装置，该物体检测装置具体可以集成在网络设备中，该网络设备可以是服务器，也可以是终端、车载设备、无人机等设备，还可以为比如微型处理盒子等。

例如，如图6a所示，该物体检测装置可以包括检测单元601、区域构建单元602、特征提取单元603、特征构建单元604、预测单元605和优化单元606，如下：

检测单元601，用于从场景的点云中检测出前景点；

区域构建单元602，用于基于前景点和预定尺寸构建所述前景点对应的候选物体区域，确定候选物体区域的初始定位信息；

特征提取单元603，用于基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；

特征构建单元604，用于基于所述特征集构建所述候选物体区域的区域特征信息；

预测单元605，用于基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；

优化单元606，用于基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及目标物体检测区域的定位信息。

在一实施例中，检测单元601，具体用于：

对场景的图像进行语义分割，得到前景像素；

将场景的点云中与前景像素对应的点确定为前景点。

在一实施例中，区域构建单元602，具体用于：

以前景点为中心点，按照预定尺寸生成所述前景点对应的候选物体区域。

在一实施例中，参考图6b，特征构建单元604，具体包括：

选择子单元6041，用于在所述候选物体区域中选择多个目标点；

提取子单元6042，用于从所述特征集中提取所述目标点的特征，得到所述候选物体区域的第一部分特征信息；

构建子单元6043，用于基于所述目标点的位置信息构建所述候选物体区域的第二部分特征信息；

融合子单元6045，用于对所述第一部分特征信息与所述第二部分特征信息进行融合，得到所述候选物体区域的区域特征信息。

在一实施例中，构建子单元6043，具体用于：

对所述目标点的位置信息进行标准化处理，得到目标点的标准化位置信息；

对所述第一部分特征信息和所述标准化位置信息进行融合，得到目标点的融合后特征信息；

对所述目标的融合后特征信息进行空间变换，得到变换后位置信息；

基于所述变换后位置信息，对所述目标点的标准化位置信息进行调整，得到候选物体区域的第二部分特征信息。

在一实施例中，参考图6c，所述点云网络包括：第一采样网络、与所第一采样网络连接的第二采样网络；所述特征提取单元603，具体包括：

降采样子单元6031，用于通过所述第一采样网络对所述点云中的所有点进行特征降采样处理，得到点云的初始特征；

上采样子单元6032，用于通过所述第二采样网络对所述初始特征进行上采样处理，得到点云的特征集。

在一实施例中，所述第一采样网络包括多个依次连接的集合抽象层，所述第二采样网络包括多个依次连接且与所述第一采样网络中各集合抽象层一一对应的特征传播层；

降采样子单元6031，具体用于：

通过所述集合抽象层依次对点云中的点进行局部区域划分，并提取局部区域中心点的特征，得到点云的初始特征；

将所述点云的初始特征输入至第二采样网络；

上采样子单元6032，具体用于：

将上一层的输出特征、以及当前特征传播层对应的集合抽象层的输出特征，确定为当前特征传播层的当前输入特征；

在一实施例中，所述区域预测网络包括特征提取网络、与特征提取网络连接的分类网络、以及与特征提取网络连接的回归网络；参考图6d，预测单元605，具体包括：

全局特征提取子单元6051，用于通过所述特征提取网络对所述区域特征信息进行特征提取，得到候选物体区域的全局特征信息；

分类子单元6052，用于基于所述分类网络和所述全局特征信息，对所述候选物体区域进行分类，得到候选区域的预测类型；

回归子单元6053，用于基于所述回归网络和所述全局特征信息，对所述候选物体区域的进行定位，得到候选物体区域的预测定位信息。

在一实施例中，所述特征提取网络包括多个依次连接的集合抽象层，所述分类网络包括多个依次连接的全连接层，所述回归网络包括多个依次连接的全连接层；

所述全局特征提取子单元6051，具体用于通过特征提取网络中集合抽象层依次对区域特征信息进行特征提取，得到候选物体区域的全局特征信息。

在一实施例中，参考图6e，优化单元606，具体包括：

筛选子单元6061，用于基于候选物体区域的预测类型对候选物体区域进行筛选，得到筛选后物体区域；

优化子单元6062，用于根据筛选后物体区域的预测定位信息，对筛选后物体区域的初始定位信息进行优化调整，得到目标物体检测区域及目标物体检测区域的定位信息。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的物体检测装置可以通过检测单元601从场景的点云中检测出前景点；然后由区域构建单元602基于前景点和预定尺寸构建所述前景点对应的候选物体区域，得到候选物体区域的初始定位信息；由特征提取单元603基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；由特征构建单元604基于所述特征集构建所述候选物体区域的区域特征信息；由预测单元605基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；由优化单元606基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及其定位信息。由于该方案可以采用场景的点云数据进行物体检测，并且还可以针对每个前景点生成候选物体区域，基于候选物体区域的区域特征对候选物体区域进行优化处理；因此，可以大大提升物体检测的精确性，尤其适用于3D物体检测。

此外，本申请实施例还提供一种网络设备，如图7所示，其示出了本申请实施例所涉及的网络设备的结构示意图，具体来讲：

该网络设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器702、电源703和输入单元704等部件。本领域技术人员可以理解，图7中示出的网络设备结构并不构成对网络设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器701是该网络设备的控制中心，利用各种接口和线路连接整个网络设备的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行网络设备的各种功能和处理数据，从而对网络设备进行整体监控。可选的，处理器701可包括一个或多个处理核心；优选的，处理器701可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器701中。

存储器702可用于存储软件程序以及模块，处理器701通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据网络设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器701对存储器702的访问。

网络设备还包括给各个部件供电的电源703，优选的，电源703可以通过电源管理***与处理器701逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源703还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该网络设备还可包括输入单元704，该输入单元704可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，网络设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，网络设备中的处理器701会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器702中，并由处理器701来运行存储在存储器702中的应用程序，从而实现各种功能，如下：

从场景的点云中检测出前景点；基于前景点和预定尺寸构建所述前景点对应的候选物体区域，得到候选物体区域的初始定位信息；基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；基于所述特征集构建所述候选物体区域的区域特征信息；基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及目标物体检测区域的定位信息。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的网络设备从场景的点云中检测出前景点；基于前景点和预定尺寸构建所述前景点对应的候选物体区域，得到候选物体区域的初始定位信息；基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；基于所述特征集构建所述候选物体区域的区域特征信息；基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及其定位信息。由于该方案可以采用场景的点云数据进行物体检测，并且还可以针对每个前景点生成候选物体区域，基于候选物体区域的区域特征对候选物体区域进行优化处理；因此，可以大大提升物体检测的精确性，尤其适用于3D物体检测。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例还提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种物体检测方法中的步骤。例如，该指令可以执行如下步骤：

从场景的点云中检测出前景点；基于前景点和预定尺寸构建所述前景点对应的候选物体区域，得到候选物体区域的初始定位信息；基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；基于所述特征集构建所述候选物体区域的区域特征信息；基于区域预测网络和所述区域特征信息，预测候选物体区域的类型和定位信息，得到候选物体区域的预测类型和预测定位信息；基于候选物体区域的初始定位信息、候选物体区域的预测类型和预测定位信息对候选物体区域进行优化处理，得到目标物体检测区域及目标物体检测区域定位信息。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种物体检测方法中的步骤，因此，可以实现本申请实施例所提供的任一种物体检测方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种物体检测方法、装置、网络设备和存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种物体检测方法，由网络设备执行，所述方法包括：

从场景的点云中检测出前景点；

基于所述前景点和预定尺寸构建所述前景点对应的候选物体区域，确定所述候选物体区域的初始定位信息；

基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；

基于所述特征集构建所述候选物体区域的区域特征信息；

基于区域预测网络和所述区域特征信息，预测所述候选物体区域的类型和定位信息，得到所述候选物体区域的预测类型和预测定位信息；

基于所述初始定位信息、所述预测类型和所述预测定位信息对所述候选物体区域进行优化处理，得到目标物体检测区域以及所述目标物体检测区域的定位信息。
如权利要求1所述的物体检测方法，所述从场景的点云中检测出前景点，包括：

对所述场景的图像进行语义分割，得到前景像素；

将所述场景的点云中与所述前景像素对应的点确定为所述前景点。
如权利要求1所述的物体检测方法，所述基于所述前景点和预定尺寸构建所述前景点对应的候选物体区域，包括：

以所述前景点为中心点，按照所述预定尺寸生成所述前景点对应的候选物体区域。
如权利要求1所述的物体检测方法，所述基于所述特征集构建所述候选物体区域的区域特征信息，包括：

在所述候选物体区域中选择多个目标点；

从所述特征集中提取所述目标点的特征，得到所述候选物体区域的第一部分特征信息；

基于所述目标点的位置信息构建所述候选物体区域的第二部分特征信息；

对所述第一部分特征信息与所述第二部分特征信息进行融合，得到所述候选物体区域的区域特征信息。
如权利要求4所述的物体检测方法，所述基于所述目标点的位置信息构建所述候选物体区域的第二部分特征信息，包括：

对所述目标点的位置信息进行标准化处理，得到所述目标点的标准化位置信息；

对所述第一部分特征信息和所述标准化位置信息进行融合，得到所述目标点的融合后特征信息；

对所述目标点的融合后特征信息进行空间变换，得到变换后位置信息；

基于所述变换后位置信息，对所述目标点的标准化位置信息进行调整，得到所述候选物体区域的第二部分特征信息。
如权利要求1所述的物体检测方法，所述点云网络包括：第一采样网络、与所述第一采样网络连接的第二采样网络；所述基于点云网络对所述点云中的所有点进行特征提取，得到所述点云的特征集，包括：

通过所述第一采样网络对所述点云中的所有点进行特征降采样处理，得到所述点云的初始特征；

通过所述第二采样网络对所述初始特征进行上采样处理，得到所述点云的特征集。
如权利要求6所述的物体检测方法，所述第一采样网络包括多个依次连接的集合抽象层，所述第二采样网络包括多个依次连接且与所述第一采样网络中各集合抽象层一一对应的特征传播层；

所述通过所述第一采样网络对所述点云中的所有点进行特征降采样处理，得到所述点云的初始特征，包括：

通过多个所述集合抽象层依次对所述点云中的点进行局部区域划分，并提取局部区域中心点的特征，得到所述点云的初始特征；

将所述点云的初始特征输入至所述第二采样网络；

所述通过所述第二采样网络对所述初始特征进行上采样处理，得到所述点云的特征集，包括：

将上一层的输出特征、以及当前特征传播层对应的集合抽象层的输入特征，确定为当前特征传播层的当前输入特征；

通过所述当前特征传播层对所述当前输入特征进行上采样处理，得到所述点云的特征集。
如权利要求1所述的物体检测方法，所述区域预测网络包括特征提取网络、与所述特征提取网络连接的分类网络、以及与所述特征提取网络连接的回归网络；

所述基于区域预测网络和所述区域特征信息，预测所述候选物体区域的类型和定位信息，得到所述候选物体区域的预测类型和预测定位信息，包括：

通过所述特征提取网络对所述区域特征信息进行特征提取，得到所述候选物体区域的全局特征信息；

基于所述分类网络和所述全局特征信息，对所述候选物体区域进行分类，得到所述候选物体区域的预测类型；

基于所述回归网络和所述全局特征信息，对所述候选物体区域的进行定位，得到所述候选物体区域的预测定位信息。
如权利要求8所述的物体检测方法，所述特征提取网络包括多个依次连接的集合抽象层，所述分类网络包括多个依次连接的全连接层，所述回归网络包括多个依次连接的全连接层；

所述通过所述特征提取网络对所述区域特征信息进行特征提取，得到所述候选物体区域的全局特征信息，包括：

通过所述特征提取网络中各个集合抽象层依次对区域特征信息进行特征提取，得到所述候选物体区域的全局特征信息。
如权利要求1所述的物体检测方法，所述基于所述初始定位信息、所述预测类型和所述预测定位信息对所述候选物体区域进行优化处理，得到目标物体检测区域及所述目标物体检测区域的定位信息，包括：

基于所述预测类型对所述候选物体区域进行筛选，得到筛选后物体区域；

根据所述筛选后物体区域的预测定位信息，对所述筛选后物体区域的初始定位信息进行优化调整，得到所述目标物体检测区域及所述目标物体检测区域定位信息。
一种物体检测装置，包括：

检测单元，用于从场景的点云中检测出前景点；

区域构建单元，用于基于所述前景点和预定尺寸构建所述前景点对应的候选物体区域，确定所述候选物体区域的初始定位信息；

特征提取单元，用于基于点云网络对所述点云中的所有点进行特征提取，得到所述点云对应的特征集；

特征构建单元，用于基于所述特征集构建所述候选物体区域的区域特征信息；

预测单元，用于基于区域预测网络和所述区域特征信息，预测所述候选物体区域的类型和定位信息，得到所述候选物体区域的预测类型和预测定位信息；

优化单元，用于基于所述初始定位信息、所述预测类型和所述预测定位信息对所述候选物体区域进行优化处理，得到目标物体检测区域以及所述目标物体检测区域的定位信息。
如权利要求11所述的物体检测装置，所述检测单元，具体用于：

对所述场景的图像进行语义分割，得到前景像素；

将所述场景的点云中与所述前景像素对应的点确定为所述前景点。
如权利要求11所述的物体检测装置，所述区域构建单元，具体用于：

以所述前景点为中心点，按照所述预定尺寸生成所述前景点对应的候选物体区域。
如权利要求11所述的物体检测装置，所述特征构建单元，具体包括：

选择子单元，用于在所述候选物体区域中选择多个目标点；

提取子单元，用于从所述特征集中提取所述目标点的特征，得到所述候选物体区域的第一部分特征信息；

构建子单元，用于基于所述目标点的位置信息构建所述候选物体区域的第二部分特征信息；

融合子单元，用于对所述第一部分特征信息与所述第二部分特征信息进行融合，得到所述候选物体区域的区域特征信息。
如权利要求14所述的物体检测装置，所述构建子单元，具体用于：

对所述目标点的位置信息进行标准化处理，得到所述目标点的标准化位置信息；

对所述第一部分特征信息和所述标准化位置信息进行融合，得到所述目标点的融合后特征信息；

对所述目标点的融合后特征信息进行空间变换，得到变换后位置信息；

基于所述变换后位置信息，对所述目标点的标准化位置信息进行调整，得到所述候选物体区域的第二部分特征信息。
如权利要求11所述的物体检测装置，所述点云网络包括：第一采样网络、与所述第一采样网络连接的第二采样网络；所述特征提取单元，具体包括：

降采样子单元，用于通过所述第一采样网络对所述点云中的所有点进行特征降采样处理，得到所述点云的初始特征；

上采样子单元，用于通过所述第二采样网络对所述初始特征进行上采样处理，得到所述点云的特征集。
如权利要求16所述的物体检测装置，所述第一采样网络包括多个依次连接的集合抽象层，所述第二采样网络包括多个依次连接且与所述第一采样网络中各集合抽象层一一对应的特征传播层；

所述降采样子单元，具体用于：

通过所述集合抽象层依次对所述点云中的点进行局部区域划分，并提取局部区域中心点的特征，得到所述点云的初始特征；

将所述点云的初始特征输入至所述第二采样网络；

所述上采样子单元，具体用于：

将上一层的输出特征、以及当前特征传播层对应的集合抽象层的输入特征，确定为当前特征传播层的当前输入特征；

通过所述当前特征传播层对所述当前输入特征进行上采样处理，得到所述点云的特征集。
如权利要求11所述的物体检测装置，所述区域预测网络包括特征提取网络、与所述特征提取网络网络连接的分类网络、以及与所述特征提取网络连接的回归网络；所述预测单元，具体包括：

全局特征提取子单元，用于通过所述特征提取网络对所述区域特征信息进行特征提取，得到所述候选物体区域的全局特征信息；

分类子单元，用于基于所述分类网络和所述全局特征信息，对所述候选物体区域进行分类，得到所述候选物体区域的预测类型；

回归子单元，用于基于所述回归网络和所述全局特征信息，对所述候选物体区域的进行定位，得到所述候选物体区域的预测定位信息。
如权利要求18所述的物体检测装置，所述特征提取网络包括多个依次连接的集合抽象层，所述分类网络包括多个依次连接的全连接层，所述回归网络包括多个依次连接的全连接层；

所述全局特征提取子单元，具体用于通过所述特征提取网络中各个集合抽象层依次对所述区域特征信息进行特征提取，得到所述候选物体区域的全局特征信息。
如权利要求11所述的物体检测装置，所述优化单元，具体包括：

筛选子单元，用于基于候选物体区域的预测类型对所述候选物体区域进行筛选，得到筛选后物体区域；

优化子单元，用于根据所述筛选后物体区域的预测定位信息，对所述筛选后物体区域的初始定位信息进行优化调整，得到所述目标物体检测区域及所述目标物体检测区域的定位信息。
一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至10任一项所述的物体检测方法中的步骤。
一种网络设备，其特征在于，包括存储器和处理器；所述存储器存储有多条指令，所述处理器加载所述存储器内的指令，以执行权利要求1至10任一项所述的物体检测方法中的步骤。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行权利要求1至10任一项中所述的物体检测方法的步骤。