CN116052159A

CN116052159A - 基于深度霍夫投票的3d物体识别***及其识别方法

Info

Publication number: CN116052159A
Application number: CN202310128740.2A
Authority: CN
Inventors: 谢世朋; 黄岩
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2023-02-17
Filing date: 2023-02-17
Publication date: 2023-05-02

Abstract

本发明提出了一种基于深度霍夫投票的3D物体识别***及其识别方法，识别***包括：votenet检测模块，用于输入N个点云，并基于pointnet++骨干网络学习点云特征和从种子点学习霍夫投票生成M个投票；RGB模块，与种子点相连，用于2D图像上的对象检测和点云上的点云特征提取，之后再将2D图像投票以及语义和纹理提示提升到3D种子点；PPC模块，与种子点相连，用于对种子点云携带的特征信息进行分析；OOC模块，当点云经过初始处理、霍夫投票、采样聚类之后形成簇群；以及GSC模块，与种子点和簇群相连，以应用MLP层来进一步聚合全局信息，并且输出随后被扩展并与OOC模块的输出特征地图相结合。相较于现有技术，本发明能够直接处理原始数据，不依赖于任何2D检测器。

Description

基于深度霍夫投票的3D物体识别***及其识别方法

技术领域

本发明涉及一种基于深度霍夫投票的3D物体识别***及其识别方法。

背景技术

当前的3D对象检测方法受到2D检测器的严重影响，为了利用2D检测器中的架构，他们通常将3D点云转换为规则网格(即，转换为体素网格或鸟瞰图像)，或者依赖于2D图像中的检测来提出3D框。

为了避免处理不规则的点云，当前的3D检测方法在各个方面严重依赖基于2D的检测器。例如，“Deep sliding shapes for amodal 3dobject detection in rgb-d images”将2D检测框架，如fast/Mask R-CNN扩展到3D。他们将不规则的点云体素化为规则的3D网格，并应用3D CNN检测器，这无法利用数据中的稀疏性，并且由于昂贵的3D卷积而遭受高计算成本。或者，“Multi-view 3d object detection network for autonomous driving”将点投影到常规的2D鸟瞰图像，然后应用2D检测器来定位对象。然而，这牺牲了在杂乱的室内环境中可能至关重要的几何细节。最近，“2d-driven 3d object detection in rgb-dimages”提出了一种级联的两步流水线，首先检测前视图图像中的对象，然后定位从2D盒中挤出的平截头体点云中的对象，然而，这严格依赖于2D检测器，如果在2D中未检测到对象，则会完全错过对象。

霍夫投票最初引入于20世纪50年代末，霍夫变换将检测点样本中的简单模式的问题转化为检测参数空间中的峰值。广义霍夫变换进一步将该技术扩展到图像块，作为复杂对象存在的指示器。使用霍夫投票的例子包括“Robust object detection withinterleaved categorization and segmentation”的开创性工作，该工作引入了隐式形状模型，从3D点云中提取平面，以及6D姿态估计等。霍夫投票以前也与先进的学习技术相结合，在“Object detection using amax-margin hough transform”中，投票分配了权重，表明其重要性，这些权重是使用最大边际框架学习的。“Hough forests for objectdetection,tracking,and action recognition”中介绍了用于对象检测的霍夫森林。

最近，“Deep learning of local rgb-d patches for 3d object detectionand 6d pose estimation”通过使用提取的深度特征来构建码本，证明了改进的基于投票的6D姿态估计。经典的霍夫算法被用于提取车标中的圆形图案，然后将其输入到深度分类网络中，也有使用霍夫投票进行3D物体检测的工作，如“Implicit shape models forobject detection in 3d point clouds”采用了与2D检测器类似的管道。

最近，还可以看到对设计适合点云的深度网络架构的兴趣激增，这在3D对象分类、对象部分分割以及场景分割方面表现出显著的性能。在3D对象检测的上下文中，VoxelNet从体素中的点学习体素特征嵌入，而PointNets用于定位从2D边界框挤出的截头体点云中的对象。然而，很少有方法研究如何在原始点云表示中直接提出和检测3D对象。

发明内容

本发明的主要目的是：提出一种基于深度霍夫投票的3D物体识别***及其识别方法，能够利用一个点云聚焦的三维检测框架，直接处理原始数据，不依赖于任何2D检测器。

为实现以上目的，本发明提供了一种基于深度霍夫投票的3D物体识别***，包括：

votenet检测模块，用于输入N个点云，并基于pointnet++骨干网络学习点云特征和从种子点学习霍夫投票生成M个投票，每个投票都具有3D坐标和高维特征向量；

RGB模块，与种子点相连，用于2D图像上的对象检测和点云上的点云特征提取，之后再将2D图像投票以及语义和纹理提示提升到3D种子点，具有串联图像和点云特征的种子点将生成对3D对象中心的投票；

PPC模块，与种子点相连，用于对种子点云携带的特征信息进行分析；

OOC模块，当点云经过初始处理、霍夫投票、采样聚类之后形成簇群，此时存在K个物体中心，在建议和分类之前、最大池化之后，通过OOC模块使用CGNL的自我注意力模块，以生成新的特征图来记录所有簇群之间的亲和力，即物体与物体之间的关系；以及

GSC模块，与种子点和簇群相连，以应用MLP层来进一步聚合全局信息，并且输出随后被扩展并与OOC模块的输出特征地图相结合。

优选的，所述霍夫投票通过在预先计算的代码本中查找确定，并使用基于投票模块的深度网络生成投票。

优选的，所述投票模块通过多层感知器MLP网络实现，该多层感知器MLP网络具有全连接层、ReLU和批量规范化。

优选的，所述多层感知器MLP网络用于获取种子特征f_i并输出欧几里得空间偏移量Δx_i∈R³和特征偏移量Δf_i∈R^C，使得从种子点s_i生成的投票v_i＝[y_i；g_i]具有y_i＝x_i+Δx_i和g_i＝f_i+Δf_i，其中，种子点

s_i＝[x_i；f_i]，x_i∈R³，f_i∈R^C，R³表示空间偏移量是三维向量，每个分量是实数，R^C表示特征偏移量是C维向量，每个分量是实数；

预测的欧几里得空间偏移量Δx_i由回归损失函数计算获得：

其中1[s_i on object]指示种子点s_i是否位于对象表面上，M_pos是对象表面上的种子点，

是从种子位置x_i到它所属对象的边界框中心的地面实位移。

优选的，所述PPC模块中，将点补丁之间的关系视为第一级上下文，即补丁-补丁上下文，且对于每个点补丁，在将它发送到投票阶段之前，使用一个自我关注模块来聚集来自所有其他补片的信息。

优选的，所述OOC模块中，将对象之间的关系视为第二级上下文，即对象-对象上下文。

优选的，所述GSC模块中，将关于整个场景的信息视为第三级上下文，即全局场景上下文，以利用全局场景上下文信息来改进3D边界框提议和对象分类的特征表示，而无需场景的明确监督。

优选的，所述GSC模块中，使用来自种子点和簇群的输入创建了一个新的分支，利用补丁向量和簇向量，组合来自所有补丁和候选对象的信息，遵循2D检测器的上下文建模策略中的多尺度特征融合，将补丁向量和簇向量连接，以形成全局特征向量。

优选的，所述多尺度特征融合过程可以概括为:

C_new＝MLP([max(C)；max(P)])+C_OOC，其中，max(C)表示对OOC模块的结果做最大池化，max(P)表示对PPC模块的结果做最大池化，MLP表示对max(C)和max(P)二者做MLP，C_OOC表示对PPC-OOC运算之后的结果进行相加。

为实现以上目的，本发明还提供了一种基于深度霍夫投票的3D物体识别方法，应用于前述的识别***，主要包括以下步骤：

步骤一、部署好代码，包括所需环境，pointnet++的编译以及数据集的准备；

步骤二、运行train.py，训练数据集，训练数据集时有部分选项可选，如batch-size，epoch，learn-rate，能够在执行train.py时附加代码实现；

步骤三、待训练完成后，在log文件夹下会有训练权重，此时选择运行eval.py验证网络性能，也可通过将数据集按照指定格式放置后，运行demo.py，并生成几个预测文件，包括种子点云文件，投票点云文件及聚类文件；

步骤四、通过meshlab程序在3D视角上查看步骤三中产生的ply文件。

与现有技术相比，本发明的有益效果为：本发明的基于深度霍夫投票的3D物体识别***，直接处理原始数据，不依赖于任何2D检测器，能够精确的进行识别。

附图说明

图1是本发明基于深度霍夫投票的3D物体识别***的结构框图。

图2(a)是原始点云的示意图。

图2(b)是种子点的示意图。

图2(c)是投票之后的物体中心点示意图。

图2(d)是根据物体中心点得出的3d框示意图。

图3(a)是整个场景的结构图。

图3(b)是应用本发明的识别***对图3(a)进行识别后的结果图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

需要强调的是，在描述本发明过程中，各种公式和约束条件分别使用前后一致的标号进行区分，但也不排除使用不同的标号标志相同的公式和/或约束条件，这样设置的目的是为了更清楚的说明本发明特征所在。

本发明提出了一个点云聚焦的三维检测框架，能够直接处理原始数据，不依赖于任何2D检测器，无论是在架构还是在对象的建议。检测网络VoteNet基于点云的3D深度学习模型的最新进展，并受到对象检测的广义霍夫投票过程的启发，利用PointNet++-一种用于点云学习的分层深度网络，来减轻将点云转换为规则结构的需要，通过直接处理点云，不仅避免了量化过程中的信息损失，而且还通过仅对感测点进行计算来利用点云中的稀疏性。

在图像中，物体中心附近通常存在一个像素，但在点云中通常不是这样。由于深度传感器仅捕捉物体的表面，3D物体中心很可能在远离任何点的空白空间中。因此，基于点的网络很难在对象中心附近聚集场景上下文，简单地增加感受域并不能解决问题，因为随着网络捕捉更大的上下文，它还会导致更多的附近物体和混乱。为此，本发明提出了赋予点云深度网络一种类似于经典霍夫投票的投票机制，通过投票，基本上生成了位于对象中心附近的新点，这些新点可以被分组和聚合以生成箱式提议。

与难以联合优化的具有多个独立模块的传统霍夫投票相比，VoteNet网络是端到端可优化的。具体来说，在将输入点云通过主干网络后，对一组种子点进行采样，并根据它们的特征生成投票，投票有针对性地到达对象中心。因此，投票群集出现在对象中心附近，并且反过来可以通过学习模块聚集以生成箱式提议，结果是一个强大的3D对象检测器，它是纯几何的，可以直接应用于点云。

RGB影像的分辨率高于深度影像或激光雷达点云，并且包含丰富的纹理，这些纹理在点域中不可用。此外，图像可以覆盖主动深度传感器的“盲区”，这通常是由于反射表面而出现的。另一方面，图像在3D检测任务中受到限制，因为它们缺乏对物体深度和比例的绝对测量，而这正是3D点云所能提供的。因此本发明提出在votenet基础上加入RGB信息。

此外，由于votenet对每个点和物体都是独立处理的，没有考虑不同物体之间以及物体与其所处场景之间的关系，这限制了检测精度。因此，我们加入了PPC模块、OOC模块及GSC模块。

具体地，如图1所示，本发明提出了一种基于深度霍夫投票的3D物体识别***，包括：

结合图2(a)～图2(d)所示，对于votenet检测模块而言：首先，从输入的N个点云中，我们的目标是生成M个投票，每个投票都具有3D坐标和高维特征向量。有两个主要步骤：通过骨干网络学习点云特征和从种子点学习霍夫投票。这里采用成熟的pointnet++网络来实现。与传统的Hough投票相比，所述霍夫投票(来自本地关键点的偏移量)通过在预先计算的代码本中查找确定，并使用基于投票模块的深度网络生成投票，它既高效，也更准确，因为它与管道的其余部分联合训练。

然后，给定一组种子点

s_i＝[x_i；f_i]，x_i∈R³，f_i∈R^C，R³表示空间偏移量是三维向量，每个分量是实数，R^C表示特征偏移量是C维向量，每个分量是实数，共享投票模块从每个种子独立生成投票。具体来说：投票模块通过多层感知器MLP网络实现，该多层感知器MLP网络具有全连接层、ReLU和批量规范化。所述多层感知器MLP网络用于获取种子特征f_i并输出欧几里得空间偏移量Δx_i∈R³和特征偏移量Δf_i∈R^C，使得从种子点s_i生成的投票v_i＝[y_i；g_i]具有y_i＝x_i+Δx_i和g_i＝f_i+Δf_i。

预测的欧几里得空间偏移量Δx_i由回归损失函数计算获得：

是从种子位置x_i到它所属对象的边界框中心的地面实位移。

对于RGB模块而言，给定RGB-D输入(深度图像转换为点云)，该模块最初有两个独立的分支：一个用于图像上的2D对象检测，另一个用于点云上的点云特征提取(使用PointNet++骨干)；然后，将2D图像投票以及语义和纹理提示提升到3D种子点(融合部分)；最后，具有串联图像和点云特征的种子点将生成对3D对象中心的投票。

本发明基于来自2D检测器的一组候选框生成图像投票。图像投票，就其几何部分而言，只是一个连接图像像素和该像素所属的2D对象边界框中心的向量。每个图像投票还用来自其源像素特征的语义和纹理线索来增强，使得每个图像投票总共具有F′维。为了形成给定RGB图像的盒子组，本发明应用现成的2D检测器(例如，R-CNN)，其在RGB-D数据集的颜色通道上进行预训练，2D检测器输出M个最有把握的包围盒及其相应的类别，为检测到的盒子中的每个像素分配一个对盒子中心的投票，多个框内的像素被给予多次投票(对应的3D种子点被复制给它们中的每一个)，而任何框外的像素用零填充。

所述PPC模块中，将点补丁之间的关系视为第一级上下文，即补丁-补丁上下文，且对于每个点补丁，基本思想是在将它发送到投票阶段之前，使用一个自我关注模块来聚集来自所有其他补片的信息。在初始点云经过pointnet++处理后，得到一组种子点云，见图1中PPC模块部分，本模块通过对该组种子点云携带的特征信息进行分析，在这个层次上，点补丁之间的上下文信息一方面通过从相似补丁收集补充信息来帮助缓解数据丢失问题；另一方面，通过聚集来自当前点块和所有其他块的投票信息来考虑用于投票的块之间的相互关系。

所述OOC模块中，大多数现有的对象检测框架单独检测每个对象。VoteNet也不例外，其中每个集群都被独立地输入到多层感知器MLP网络，以回归其对象类和边界框。然而，组合来自其他对象的特征给出了关于对象关系的更多信息，这已被证明在图像对象检测中是有帮助的。直观上，对象将从那些高度相关的对象获得加权的消息，以这种方式，最终的预测对象结果不仅由其自身的单独特征向量确定，而且还受对象关系的影响。因此，本发明将对象之间的关系视为第二级上下文，即对象-对象上下文。

如图1中OOC模块所示，当点云经过初始处理、霍夫投票、采样聚类之后形成簇群，此时存在K个物体中心，在建议和分类之前、最大池化之后，通过OOC模块，使用CGNL的自我注意力模块，以生成新的特征图来记录所有簇群之间的亲和力，即物体与物体之间的关系。

所述GSC模块中，整个点云通常包含丰富的场景上下文信息，有助于提高目标检测的准确性。例如，当整个场景是餐厅而不是浴室时，很可能识别出的是椅子而不是马桶。因此，本发明将关于整个场景的信息视为第三级上下文，即全局场景上下文(GSC)，以利用全局场景上下文信息来改进3D边界框提议和对象分类的特征表示，而无需场景的明确监督。

所述GSC模块中，使用来自种子点和簇群的输入创建了一个新的分支，利用补丁向量和簇向量，组合来自所有补丁和候选对象的信息，遵循2D检测器的上下文建模策略中的多尺度特征融合，将补丁向量和簇向量连接，以形成全局特征向量。然后，应用多层感知器MLP网络来进一步聚合全局信息，并且输出随后被扩展并与OOC模块的输出特征地图相结合。

所述多尺度特征融合过程可以概括为:

C_new＝MLP([max(C)；max(P)])+C_OOC

其中，max(C)表示对OOC模块的结果做最大池化，max(P)表示对PPC模块的结果做最大池化，MLP表示对max(C)和max(P)二者做MLP，C_OOC表示对PPC-OOC运算之后的结果进行相加。

参考图1所示的整体框架图，最终结果由两条分支在最后进行相加运算而获得：一条分支是max(C)表示对OOC模块的结果做最大池化(max pool)，max(P)表示对PPC模块的结果做最大池化，MLP表示对max(P)和max(C)二者做MLP；另一条分支是直接通过PPC-OOC运算之后的结果，即C_OOC将二者相加。

结合图3(a)和图3(b)所示，物体与物体之间、物体与场景之间总是有所关联的，因此，当物体独立出现时很难分辨出是什么东西，但是如果加上全局场景信息，例如：当知道场景是餐厅时，猜测检测物体为椅子的概率达到60％，如果加上物体与物体之间的关联信息，当知道周围物体是桌子和椅子时，猜测检测物体为椅子的概率达到85％，将二者结合，多层级的信息将使准确率达到90％以上，这就是本发明的意义所在。从图3(a)和图3(b)可以看出，可以识别出几乎全部的桌子、椅子以及书架，效果非常好。

本发明还提出了一种基于深度霍夫投票的3D物体识别方法，应用于前述的识别***，主要包括以下步骤：

步骤一、部署好代码，包括所需环境，pointnet++的编译以及数据集的准备等；

步骤三、待训练完成后，在log文件夹下会有训练权重，此时可选择运行eval.py验证网络性能，也可通过将数据集按照指定格式放置后，运行demo.py，并生成几个预测文件，包括种子点云文件，投票点云文件及聚类文件；

此外，本发明还能够应用在扫地机器人上，主要由扫地机器人配置的双目相机获取的点云数据，通过采样、霍夫投票、聚类、识别获知障碍物；同时利用自带的RGB相机所获取的2d图像，辅助3D识别，并在霍夫投票前增加了patch-patch，object-object，global-scene等相关模块，以提高识别准确率。

这是因为：随着时代的不断发展，技术的不断提升，人们的生活也变得越来越好，大型扫地机器人成为商场、交通枢纽等必备产品。然而，目前市面上多见人工操作的扫地机器人，在清扫整个大面积区域时需要花费很多时间，浪费人力。基于此思想，开发出一款智能扫地机器人，该智能扫地机器人的避障用雷达置于底部，因为机器人需要包含水箱等设备，自身限制导致机身过高，当障碍物下方为空，而障碍位置在机器人顶端时(如桌子椅子等)，会出现雷达无法成功避障的情况。基于此问题，有两种解决办法：一是在顶端再安装一个雷达，二是应用本发明的识别***，仅需要一个双目相机即可。目前，市面上大多采用第一种方法，而基于性价比考虑，本发明的识别***可以显著降低成本，因为双目相机比雷达要便宜得多，所以本发明的识别***和识别方法结构更简单、应用场景更广泛。

综上所述，本发明的基于深度霍夫投票的3D物体识别***，直接处理原始数据，不依赖于任何2D检测器，能够精确的进行识别。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于深度霍夫投票的3D物体识别***，其特征在于，包括：

2.根据权利要求1所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述霍夫投票通过在预先计算的代码本中查找确定，并使用基于投票模块的深度网络生成投票。

3.根据权利要求2所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述投票模块通过多层感知器MLP网络实现，该多层感知器MLP网络具有全连接层、ReLU和批量规范化。

4.根据权利要求3所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述多层感知器MLP网络用于获取种子特征f_i并输出欧几里得空间偏移量Δx_i∈R³和特征偏移量Δf_i∈R^C，使得从种子点s_i生成的投票v_i＝[y_i；g_i]具有y_i＝x_i+Δx_i和g_i＝f_i+Δf_i，其中，种子点

预测的欧几里得空间偏移量Δx_i由回归损失函数计算获得：

是从种子位置x_i到它所属对象的边界框中心的地面实位移。

5.根据权利要求1所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述PPC模块中，将点补丁之间的关系视为第一级上下文，即补丁-补丁上下文，且对于每个点补丁，在将它发送到投票阶段之前，使用一个自我关注模块来聚集来自所有其他补片的信息。

6.根据权利要求1所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述OOC模块中，将对象之间的关系视为第二级上下文，即对象-对象上下文。

7.根据权利要求1所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述GSC模块中，将关于整个场景的信息视为第三级上下文，即全局场景上下文，以利用全局场景上下文信息来改进3D边界框提议和对象分类的特征表示，而无需场景的明确监督。

8.根据权利要求1所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述GSC模块中，使用来自种子点和簇群的输入创建了一个新的分支，利用补丁向量和簇向量，组合来自所有补丁和候选对象的信息，遵循2D检测器的上下文建模策略中的多尺度特征融合，将补丁向量和簇向量连接，以形成全局特征向量。

9.根据权利要求8所述的基于深度霍夫投票的3D物体识别***，其特征在于：所述多尺度特征融合过程可以概括为：

C_new＝MLP([max(C)；max(P)])+C_OOC

10.一种基于深度霍夫投票的3D物体识别方法，其特征在于：应用于权利要求1-9任一项所述的识别***，主要包括以下步骤：

步骤一、部署好代码，包括所需环境，poinmet++的编译以及数据集的准备；