CN114267041B

CN114267041B - 场景中对象的识别方法及装置

Info

Publication number: CN114267041B
Application number: CN202210191199.5A
Authority: CN
Inventors: 王啸峰; 叶云; 黄冠; 都大龙
Original assignee: Beijing Jianzhi Technology Co ltd
Current assignee: Beijing Jianzhi Technology Co ltd
Priority date: 2022-03-01
Filing date: 2022-03-01
Publication date: 2022-05-13
Anticipated expiration: 2042-03-01
Also published as: CN114267041A

Abstract

本发明提供了一种场景中对象的识别方法及装置，方法包括：获取在检测场景下采集的点云数据和场景图像；提取点云数据的三维特征，并根据三维特征，确定场景图像中包含待检测对象的图像区块；提取图像区块的二维特征，并将二维特征与三维特征进行特征融合操作，得到融合特征；根据融合特征，确定待检测对象在检测场景中的位置，以及待检测对象的类别。本发明将三维特征和二维特征进行特征融合操作，得到包括更丰富语义和结构信息的融合特征，提高了后续基于融合特征识别的精度，并且，通过引入二维模态下的二维特征，也弥补了三维特征由于噪声点云的影响而损失的信息，也进一步提高了后续识别精度。

Description

场景中对象的识别方法及装置

技术领域

本发明属于计算机技术领域，特别是涉及一种场景中对象的识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着自动驾驶技术的不断发展，越来越多的车辆配备了自动驾驶功能，自动驾驶场景下通常具有对车辆所处环境中的物体的识别需求。

在目前，可以利用激光雷达采集的点云数据，对自动驾驶场景进行三维建模，并识别其中存在的物体以及物体的类别，从而提高自动驾驶功能的精度。

但是，发明人在研究过程中发现，目前方案中，激光雷达易受到外部环境的影响从而产生大量的噪声点云，这会大大影响物体的识别精度。

发明内容

基于此，本发明提供了一种场景中对象的识别方案，以解决相关技术中激光雷达产生大量的噪声点云从而影响物体的识别精度的问题。

本发明还提供了一种场景中对象的识别装置，用以保证上述方法在实际中的实现及应用。

本发明实施例提供了一种场景中对象的识别方法，该方法包括：

获取在检测场景下采集的点云数据和场景图像；

提取所述点云数据的三维特征，并根据所述三维特征，确定所述场景图像中包含待检测对象的图像区块；

提取所述图像区块的二维特征，并将所述二维特征与所述三维特征进行特征融合操作，得到融合特征；

根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

本发明实施例还提供了一种场景中对象的识别装置，该装置包括：

获取模块，用于获取在检测场景下采集的点云数据和场景图像；

提取模块，用于提取所述点云数据的三维特征，并根据所述三维特征，确定所述场景图像中包含待检测对象的图像区块；

融合模块，用于提取所述图像区块的二维特征，并将所述二维特征与所述三维特征进行特征融合操作，得到融合特征；

识别模块，用于根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

本发明实施例还提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现所述的场景中对象的识别方法。

本发明实施例还提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行所述的场景中对象的识别方法。

本发明实施例还提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的场景中对象的识别方法。

在本发明实施例中，通过基于三维模态和二维模态的多模态融合，将检测场景下采集的点云数据的三维特征和场景图像中包含待检测对象的图像区块的二维特征，进行特征融合操作，得到包括更丰富语义和结构信息的融合特征，再基于融合特征进行后续的识别操作，可以提升待检测对象识别精度，并且，本发明在融合过程中通过引入二维模态下的二维特征，也弥补了三维特征由于噪声点云的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，进而提高了后续识别精度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种场景中对象的识别方法的步骤流程图；

图2是本发明实施例提供的一种场景示意图；

图3是本发明实施例提供的一种场景中对象的识别方法的具体步骤流程图；

图4是本发明实施例提供的一种场景中对象的识别方法的架构图；

图5是本发明实施例提供的另一种场景示意图；

图6是本发明实施例提供的另一种场景示意图；

图7是本发明实施例提供的一种模型效果对比示意图；

图8是本发明实施例提供的一种场景中对象的识别装置的框图；

图9是本发明一个实施例的电子设备的逻辑框图；

图10是本发明另一个实施例的电子设备的逻辑框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本发明实施例提供的一种场景中对象的识别方法的步骤流程图，如图1所示，该方法可以包括：

步骤101、获取在检测场景下采集的点云数据和场景图像。

本发明实施例提供的场景中对象的识别方法具体可以应用于自动驾驶场景，即通过车辆上安装的三维扫描仪和相机采集多模态的数据，并基于多模态的数据识别车辆所处场景中的待检测对象的准确位置和对象类别，这种识别结果有助于自动驾驶做出更精确的控制，提高自动驾驶的体验度。当然，本发明实施例提供的场景中对象的识别方法还可以应用于其他识别场景，如人脸识别、障碍物识别等场景，本发明实施例对此不做限定。

在本发明实施例中，多模态的数据包括场景图像和点云（point cloud）数据，场景图像可以是由相机拍摄针对检测场景拍摄的二维照片；点云数据是一种由三维扫描仪针对检测场景采集的数据，具体为落在物体的几何表面上各个点的点数据集，点数据集的形式为一个三维坐标***中的一组向量的集合，点云数据可用来插补成物体的表面形状，越密集的点云数据集可以创建更精确的建模，这个过程可以用于表征三维物体以及三维物体所处的三维场景。三维扫描仪可以为激光雷达、三维激光扫描仪、三维照相式扫描仪等，本发明实施例对此不作限定。

步骤102、提取所述点云数据的三维特征，并根据所述三维特征，确定所述场景图像中包含待检测对象的图像区块。

在本发明实施例中，特征是某一类对象区别于其他类对象的相应特点或特性，或是这些特点和特性的集合，特征是通过测量或处理能够抽取的数据，特征提取的主要目的是降维，且其主要思想是将点云数据投影到一个低维特征空间，得到最能反映点云数据本质或进行点云数据区分的低维特征。

对于较高维度的点云数据，可以提取其三维特征，从而达到在保留点云数据的特性的基础上，对其降维至计算机可以处理的程度，具体的，可以通过对点云数据进行卷积处理，从而提取得到三维特征。

进一步的，本发明实施例的多模态识别方案，旨在融合三维模态的点云数据和二维模态的场景图像，达到多模态融合的目的，由于融合后的结果具有更丰富的语义和结构信息，因此在基于融合结果识别待检测对象时具有更准确的识别结果。

在得到点云数据可以被处理的三维特征后，可以基于三维特征进行识别分析，确定点云数据表征的三维检测场景中的待检测对象所处的位置，进而将三维检测场景中的待检测对象所处的位置投影至场景图像所在的二维平面，确定场景图像中包含待检测对象的图像区块，其中，图像区块可以用于反映待检测对象在二维模态下的特性和细节，基于图像区块进行后续多模态的特征融合，可以剔除场景图像中图像区块之外不相关区域带来的干扰，提升融合精度。另外，在本发明实施例中，三维检测场景中的待检测对象所处的位置可以通过三维检测框来表示，场景图像中的待检测对象所处的位置可以通过二维检测框来表示，三维检测框具体可以为具有8个顶点的长方体结构，二维检测框具体可以为具有4个顶点的矩形。

例如，参照图2，其示出了本发明实施例提供的一种场景示意图，包括点云数据反映的三维检测场景11和针对三维检测场景11拍摄的场景图像12，场景中包含待检测对象树和汽车，本发明实施例通过对点云数据的三维特征的识别，可以确定三维检测场景11中待检测对象树的三维检测框31和待检测对象汽车的三维检测框21，再将三维检测框31和待检测对象汽车的三维检测框21分别映射至场景图像12所处的二维平面，则可以得到场景图像12中待检测对象树的二维检测框32和待检测对象汽车的二维检测框22，二维检测框32和二维检测框22进行分割后，可以得到包含待检测对象树的图像区块，以及包含待检测对象汽车的图像区块。

步骤103，提取所述图像区块的二维特征，并将所述二维特征与所述三维特征进行特征融合操作，得到融合特征。

在本发明实施例中，对于较高维度的图像区块，可以提取其二维特征，从而达到在保留点图像区块的特性的基础上，对其降维至计算机可以处理的程度，具体的，可以通过对点图像区块进行卷积处理，从而提取得到二维特征。

需要说明的是，相较于相关技术中先提取整个场景图像的二维特征图（特征的提取会损失一些语义细节），再在损失了细节的二维特征图中确定包含待检测对象的图像区块，作为后续融合操作中所需的二维模态数据，本发明实施例直接通过提取图像区块的二维特征，作为后续融合操作中所需的二维模态数据，可以更多的保留原图的细节，提升特征的语义丰富性，从而提高后续识别的精度。

进一步的，二维特征与三维特征进行的特征融合操作具体可以为基于注意力（Attention）机制的特征融合操作，注意力机制的本质来自于人类视觉注意力机制，视觉注意力机制是人类视觉所特有的大脑信号处理机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是一般所说的注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，而抑制其他无用信息。

因此，注意力机制可以是基于模拟人类注意力机制而建立的一种机制，可以捕捉二维特征与三维特征之间的关联性，该关联性可以为注意力权重，通过将注意力权重分配到对应的特征上，即得到了应用了注意力机制的融合特征，由于该融合特征包括了二维特征与三维特征之间的关联性，因此，后续在利用该融合特征进行如识别、分类等场景的应用时，使得处理结果更加准确。并且，本发明实施例在融合过程中通过引入二维模态下的二维特征，弥补了三维特征由于噪声点云的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，而且多模态的融合时融合了整个图像区块而非单个的点，所以针对点云数据的噪声具有更强的鲁棒性。

需要说明的是，本发明实施例的注意力机制融合可以基于注意力机制模型实现，该模型可以是基于一个端到端的注意力机制模型，减少了应用场景对多模型的依赖。

步骤104，根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

在本发明实施例中，可以基于全连接层对融合特征进行处理，并在结合了目标检测算法和重叠度算法后，确定待检测对象在检测场景中最终的三维检测框来反映待检测对象的位置，以及确定待检测对象的类别，完成待检测对象的精准识别。

其中，全连接层起到“分类器”的作用，具体可以通过激活函数和逻辑回归算法的帮助实现分类任务，这种实现方式也称作多层感知机（MLP，Multilayer Perceptron）的机制，可以实现将学习到的“分布式特征表示”映射到样本标记空间的目的。另外，目标检测算法用于在深度学习下基于对特征的分析，确定用于反映对象的位置的检测框，而重叠度（IOU，Intersection over Union）算法则用于通过重叠度反映在特定数据集中检测相应物体的准确度，具体为确定目标检测算法初始检测得到的多个候选检测框各自的置信度，并基于置信度从候选检测框中确定对象最终的检测框。

综上，本发明实施例提供的一种场景中对象的识别方法，通过基于三维模态和二维模态的多模态融合，将检测场景下采集的点云数据的三维特征和场景图像中包含待检测对象的图像区块的二维特征，进行特征融合操作，得到包括更丰富语义和结构信息的融合特征，再基于融合特征进行后续的识别操作，可以提升待检测对象识别精度，并且，本发明在融合过程中通过引入二维模态下的二维特征，也弥补了三维特征由于噪声点云的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，进而提高了后续识别精度。

图3是本发明实施例提供的一种场景中对象的识别方法的具体步骤流程图，如图3所示，该方法可以包括：

步骤201、获取在检测场景下采集的点云数据和场景图像。

该步骤具体可以参照上述步骤101的相关描述，此处不再赘述。

步骤202、将所述检测场景划分为多个等间距排布的体素单元，并确定所述体素单元中落入的点云。

在本发明实施例中，体素单元（也称为体积元素）是三维空间分割得到的最小单位，其在三维空间的意义等同于像素单元在二维平面的意义。由于点云数据的维度较高计算机难以直接处理，因此可以先将检测场景体素化处理，即将检测场景划分为多个等间距排布的体素单元，并确定体素单元中落入的点云。

步骤203、将所述体素单元中落入的点云的特征平均值，作为所述体素单元的特征。

进一步的，本发明实施例可以将体素单元中落入的点云的特征平均值，作为体素单元的特征，以使得体素单元具有特征表达。

步骤204、将所述体素单元的特征输入稀疏三维卷积层进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的三维特征。

在本发明实施例中，参照图4，其示出了本发明实施例提供的一种场景中对象的识别方法的架构图，其示出了基于场景中对象的识别方法对输入的点云数据和场景图像的处理流程，以及涉及的处理模块，针对检测场景中包含待检测对象树和汽车，则在检测场景下采集的点云数据体素化之后，可以将体素单元的特征输入生成候选区域网络（RPN，RegionProposal Network）的3D backbone模块进行聚合处理，得到点云数据的三维特征。

其中，RPN用于基于特征生成检测场景中待检测对象的三维检测框，为了生成三维检测框，RPN首先需要提取点云数据的三维特征，这个过程可以由3D backbone模块实现，3Dbackbone模块是一种主干网络模块，用于在前端提取特征片段信息，并将提取的特征片段信息聚合得到特征，在一种实现方式中，3D backbone模块可以为RPN中的稀疏三维卷积层，其可以对各个体素单元的特征进行特征聚合，从而得到点云数据的三维特征。

可选的，步骤204具体可以包括：

子步骤2041、将所述体素单元的特征输入稀疏三维卷积层，并按照不同的尺度分别进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的多个三维特征，所述尺度用于表征三维特征的尺寸。

具体的，本发明实施例可以在特征聚合的过程中，设定多个不同的尺度，并分别按照不同的尺度聚合特征，从而得到多个三维特征。例如，假设设定了尺寸为10×10的尺度1；尺寸为20×20的尺度2；尺寸为30×30的尺度3，则可以分别按照这三个尺寸进行特征聚合，得到尺度1对应的三维特征1；尺度2对应的三维特征2；尺度3对应的三维特征3；通过多尺度的特征聚合，可以在不同的区域范围中捕捉特征更加丰富的语义和结构信息，提升特征的质量。

步骤205、将所述三维特征投影至所述检测场景的鸟瞰图二维平面，得到特征图。

在本发明实施例中，参照图4，由于RPN具体需要通过对特征图进行分析来得出三维检测框，则可以通过RPN的2D backbone模块将三维特征投影至检测场景的鸟瞰图二维平面，得到鸟瞰图二维平面下的特征图，从而得到RPN可以直接分析的特征图。

步骤206、识别所述特征图中包含所述待检测对象的三维检测框。

在本发明实施例中，参照图4，可以基于PRN的2D检测头对特征图进行识别，得到待检测对象的候选检测框，以及候选检测框的置信度，并将置信度最大的后续检测框作为待检测对象的三维检测框，该三维检测框具体为具有8个顶点的长方体。需要说明的是，在输出待检测对象的三维检测框的同时，还可以输出待检测对象的类别。

步骤207、根据所述三维检测框，从所述场景图像中提取图像区块。

在本发明实施例中，在得到了三维场景下的待检测对象的三维检测框后，可以将三维检测框映射至场景图像的二维平面中，从而从场景图像中提取包含待检测对象的图像区块。例如，参照图4，RPN可以输出待检测对象树和汽车各自对应的三维检测框，再将三维检测框映射至场景图像的二维平面后，可以得到场景图像中待检测对象树的二维检测框32以及待检测对象汽车的二维检测框22，将二维检测框32和二维检测框22所处区域分割后，得到包含待检测对象树的图像区块，以及包含待检测对象汽车的图像区块。

可选的，步骤207具体可以包括：

子步骤2071、将所述三维检测框投影至所述场景图像的二维平面中，得到所述场景图像中的二维检测框。

子步骤2072、将所述场景图像中所述二维检测框的区域分割后，得到所述图像区块。

在本发明实施例中，在将三维检测框投影至场景图像的二维平面中的过程中，可以基于拍摄场景图像的相机的内参数和外参数来实现投影操作，其中，内参数是与相机自身特性相关的参数，比如相机的焦距、像素大小等；外参数是相机在世界坐标系中的参数，比如相机的位置、旋转方向等，基于内参数和外参数，可以实现三维世界坐标到二维像素坐标的映射，从而完成三维检测框到二维检测框的投影。

步骤208、将所述图像区块的尺寸缩放至预设尺寸。

其中，为了满足后续对比语言图像预训练模型的针对输入内容的尺寸要求，可以将图像区块的尺寸缩放至预设尺寸，在降低后续数据计算量的基础上，满足后续对比语言图像预训练模型的针对输入内容的尺寸要求，优选的，预设尺寸可以为224×224×3。

步骤209、将所述图像区块输入对比语言图像预训练模型，得到所述对比语言图像预训练模型输出的所述图像区块的二维特征。

在本发明实施例中，首先针对三维场景下待检测对象的识别过程中常出现的问题进行描述，在进行多模态点融合时，可以利用点云数据，在二维的场景图像中去确定点云落入的图像区块，并通过将图像区块的特征与点云融合，最后对融合特征进行处理得到识别结构。一种情况下，由于点云数据的采集设备易受外部环境的影响，点云数据中常出现点云噪声，点云出现噪声会使得后续点云无法正确投影到场景图像上，这种偏差影响了截取的包含待检测对象的图像区块的精确度，造成图像区块中待检测对象不完整的几率大大提升，进而影响后续特征融合的准确性。

例如，参照图5，其示出了本发明实施例提供的另一种场景示意图，针对待检测对象汽车，受检测环境的影响，点云数据中存在较多的噪声点云，将点云数据投影至场景图像后，从区域A可以看出，很多噪声点云落在了待检测对象汽车之外的区域，这会导致从场景图像中提取的包含待检测对象汽车的图像区块的边界不准确，影响了图像区块的精确度。

在另一种情况下，由于拍摄场景图像的相机的内参数和外参数的标定精度通常具有一定误差，使得相机的内参数和外参数不准确，在一个待检测对象被另一个对象遮挡的情况下，不准确的内参数和外参数会影响待检测对象的点云数据投影至场景图像的准确度，使得本该落入该待检测对象区域的点云落入了遮挡对象的区域，这种偏差影响了截取的包含待检测对象的图像区块的精确度，造成图像区块中待检测对象不完整的几率大大提升。

例如，参照图6，其示出了本发明实施例提供的另一种场景示意图，针对待检测对象人34被对象汽车24遮挡的情况，将点云数据投影至场景图像后，从区域B可以看出，由于内参数和外参数的不准确性，很多待检测对象人34的点云落在了对象汽车24所处的区域，这会导致从场景图像中提取的包含待检测对象人34的图像区块的边界不准确，影响了图像区块的精确度。

为了解决上述问题，本发明实施例首先引入多模态块融合的方式，即将点云数据的三维特征和场景图像中包含待检测对象的图像区块的二维特征，进行基于注意力机制的融合，融合过程中通过引入二维模态下的二维特征，弥补了三维特征由于噪声点云、不准确的内参数和外参数的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，进而提高了后续识别精度。

进一步的，参照图4，本发明实施例还引入了对比语言图像预训练（CLIP，Contrastive Language–Image Pre-training）模型来解决数据噪声和内外参数不准确导致的遮挡问题，具体的，CLIP模型是在使用大量互联网图像数据作为训练数据的基础上，利用文本监督信号训练得到的模型，该模型比传统的模型含有更多的语意先验信息，其在图文识别和融合上具有强大的表现力，在本发明实施例中，CLIP模型可以用来提取图像区块的二维特征。

参照图7，其示出了本发明实施例提供的一种模型效果对比示意图，示出了本发明实施例的CLIP模型与相关的ResNet(Residual Neural Network，残差网络)在待检测对象分别为车（a）、行人（b）、自行车（c）时的特征一致性对比，其中，横坐标代表因待检测对象的检测框被其他检测框覆盖而产生的遮挡程度，反映了待检测对象的被遮挡程度，该遮挡程度可以由检测框之间的重叠度来计算得到；纵坐标代表特征一致性程度，由图中CLIP的特征一致性分布范围41和ResNet的特征一致性分布范围42看出，无论待检测对象是什么，CLIP都具备相较ResNet更强的语义一致性，尤其是当横坐标的遮挡程度增加时，CLIP的特征也能较好的保持一致，这让CLIP模型的引入针对遮挡物体有更鲁棒的检测效果。

可选的，在训练所述对比语言图像预训练模型的过程中，停止进行所述对比语言图像预训练模型的参数的梯度更新操作。

进一步的，CLIP模型在联合训练时，可以保持参数的梯度不再更新，这能够防止CLIP模型过拟合到数据集上，并且这种训练策略类似于蒸馏技术，可以更好的学习先验信息。

具体的，在训练过程中可以使用pytorch的freeze函数实现CLIP模型的参数的梯度不再更新，即将CLIP模型部分的参数冻结住，不通过损失函数计算反向梯度，在梯度不更新的情况下，CLIP模型的参数不会受到数据集的影响，依旧会保持CLIP自己的先验信息，所以不会过拟合到数据集上。

步骤210、将所述二维特征与所述三维特征进行特征融合操作，得到融合特征。

该步骤具体可以参照上述步骤103，此处不再赘述。

步骤211、将所述融合特征输入全连接层，得到所述全连接层输出的所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

参照图4，在得到基于注意力机制融合的融合特征后，本发明实施例还可以引入MLP的机制，在结合了目标检测算法和重叠度（IOU confidence）算法后，实现全连接层的功能，输出待检测对象在检测场景中最终的位置，以及所述待检测对象的类别，如图4，输出了三维场景图13中待检测对象汽车的检测框23和类别，以及待检测对象树的检测框33和类别。其中，MLP可以通过激活函数和逻辑回归算法的帮助实现分类任务，目标检测算法用于在深度学习下基于对特征的分析，确定用于反映对象的位置的检测框，而IOU confidence则用于通过重叠度反映在特定数据集中检测相应物体的准确度，具体为确定目标检测算法初始检测得到的多个候选检测框各自的置信度，并基于置信度从候选检测框中确定对象最终的检测框。

综上所述，本发明实施例提供的一种场景中对象的识别方法，通过基于三维模态和二维模态的多模态融合，将检测场景下采集的点云数据的三维特征和场景图像中包含待检测对象的图像区块的二维特征，进行特征融合操作，得到包括更丰富语义和结构信息的融合特征，再基于融合特征进行后续的识别操作，可以提升待检测对象识别精度，并且，本发明在融合过程中通过引入二维模态下的二维特征，也弥补了三维特征由于噪声点云的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，进而提高了后续识别精度。

图8是本发明实施例提供的一种场景中对象的识别装置的框图，如图8所示，该装置可以包括：

获取模块301，用于获取在检测场景下采集的点云数据和场景图像；

提取模块302，用于提取所述点云数据的三维特征，并根据所述三维特征，确定所述场景图像中包含待检测对象的图像区块；

融合模块303，用于提取所述图像区块的二维特征，并将所述二维特征与所述三维特征进行特征融合操作，得到融合特征；

识别模块304，用于根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

可选的，所述融合模块包括：

第一输入子模块，用于将所述图像区块输入对比语言图像预训练模型，得到所述对比语言图像预训练模型输出的所述图像区块的二维特征。

可选的，所述融合模块还包括：

停止更新子模块，用于在训练所述对比语言图像预训练模型的过程中，停止进行所述对比语言图像预训练模型的参数的梯度更新操作。

可选的，所述融合模块还包括：

缩放子模块，用于将所述图像区块的尺寸缩放至预设尺寸。

可选的，所述提取模块包括：

投影子模块，用于将所述三维特征投影至所述检测场景的鸟瞰图二维平面，得到特征图；

识别子模块，用于识别所述特征图中包含所述待检测对象的三维检测框；

提取子模块，用于根据所述三维检测框，从所述场景图像中提取图像区块。

可选的，所述提取子模块包括：

投影单元，用于将所述三维检测框投影至所述场景图像的二维平面中，得到所述场景图像中的二维检测框；

分割单元，用于将所述场景图像中所述二维检测框的区域分割后，得到所述图像区块。

可选的，所述提取模块包括：

划分子模块，用于将所述检测场景划分为多个等间距排布的体素单元，并确定所述体素单元中落入的点云；

计算子模块，用于将所述体素单元中落入的点云的特征平均值，作为所述体素单元的特征；

聚合子模块，用于将所述体素单元的特征输入稀疏三维卷积层进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的三维特征。

可选的，所述聚合子模块包括：

多尺度聚合单元，用于将所述体素单元的特征输入稀疏三维卷积层，并按照不同的尺度分别进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的多个三维特征，所述尺度用于表征三维特征的尺寸。

可选的，所述识别模块包括：

第二输入子模块，用于将所述融合特征输入全连接层，得到所述全连接层输出的所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

综上所述，本发明实施例提供的一种场景中对象的识别装置，通过基于三维模态和二维模态的多模态融合，将检测场景下采集的点云数据的三维特征和场景图像中包含待检测对象的图像区块的二维特征，进行特征融合操作，得到包括更丰富语义和结构信息的融合特征，再基于融合特征进行后续的识别操作，可以提升待检测对象识别精度，并且，本发明在融合过程中通过引入二维模态下的二维特征，也弥补了三维特征由于噪声点云的影响而损失的语义、结构信息，也进一步提高了融合特征的质量，进而提高了后续识别精度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种电子设备600的框图。例如，电子设备600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图9，电子设备600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出（I/ O）的接口612，传感器组件614，以及通信组件616。

处理组件602通常控制电子设备600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理组件602可以包括多媒体模块，以方便多媒体组件608和处理组件602之间的交互。

存储器604用于存储各种类型的数据以支持在电子设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，多媒体等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电源组件606为电子设备600的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为电子设备600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器不仅可以感测触摸或滑动动作的分界，而且还可以检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式，如拍摄模式或多媒体模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610用于输出和/或输入音频信号。例如，音频组件610包括一个麦克风（MIC），当电子设备600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/ O接口612为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为电子设备600提供各个方面的状态评估。例如，传感器组件614可以检测到电子设备600的打开/关闭状态，组件的相对定位，例如所述组件为电子设备600的显示器和小键盘，传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变，用户与电子设备600接触的存在或不存在，电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616用于便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络，如WiFi，运营商网络（如2G、3G、4G或5G），或它们的组合。在一个示例性实施例中，通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件616还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备600可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于实现本发明实施例提供的一种场景中对象的识别方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器604，上述指令可由电子设备600的处理器620执行以完成上述方法。例如，所述非临时性存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

图10是根据一示例性实施例示出的一种电子设备700的框图。例如，电子设备700可以为服务器。参照图10，电子设备700包括处理组件722，其进一步包括一个或多个处理器，以及由存储器732所代表的存储器资源，用于存储可由处理组件722的执行的指令，例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件722被配置为执行指令，以执行本发明实施例提供的一种场景中对象的识别方法。

电子设备700还可以包括一个电源组件726被配置为执行电子设备700的电源管理，一个有线或无线网络接口750被配置为将电子设备700连接到网络，和一个输入输出（I/O）接口758。电子设备700可以操作基于存储在存储器732的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现所述的场景中对象的识别方法。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种场景中对象的识别方法、装置、电子设备、计算机可读存储介质及计算机程序产品，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种场景中对象的识别方法，其特征在于，该方法包括：

获取在检测场景下采集的点云数据和场景图像；

根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别；

所述提取所述图像区块的二维特征，包括：

将所述图像区块输入对比语言图像预训练模型，得到所述对比语言图像预训练模型输出的所述图像区块的二维特征；

所述根据所述三维特征，确定所述场景图像中包含待检测对象的图像区块，包括：

将所述三维特征投影至所述检测场景的鸟瞰图二维平面，得到特征图；识别所述特征图中包含所述待检测对象的三维检测框；将所述三维检测框投影至所述场景图像的二维平面中，得到所述场景图像中的二维检测框；将所述场景图像中所述二维检测框的区域分割后，得到所述图像区块。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在训练所述对比语言图像预训练模型的过程中，停止进行所述对比语言图像预训练模型的参数的梯度更新操作。

3.根据权利要求1所述的方法，其特征在于，在所述将所述图像区块输入对比语言图像预训练模型，得到所述对比语言图像预训练模型输出的所述图像区块的二维特征之前，所述方法还包括：

将所述图像区块的尺寸缩放至预设尺寸。

4.根据权利要求1所述的方法，其特征在于，所述提取所述点云数据的三维特征，包括：

将所述检测场景划分为多个等间距排布的体素单元，并确定所述体素单元中落入的点云；

将所述体素单元中落入的点云的特征平均值，作为所述体素单元的特征；

将所述体素单元的特征输入稀疏三维卷积层进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的三维特征。

5.根据权利要求4所述的方法，其特征在于，所述将所述体素单元的特征输入稀疏三维卷积层进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的三维特征，包括：

将所述体素单元的特征输入稀疏三维卷积层，并按照不同的尺度分别进行聚合，得到所述稀疏三维卷积层输出的所述点云数据的多个三维特征，所述尺度用于表征三维特征的尺寸。

6.根据权利要求1所述的方法，其特征在于，所述根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别，包括：

将所述融合特征输入全连接层，得到所述全连接层输出的所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别。

7.一种场景中对象的识别装置，其特征在于，该装置包括：

识别模块，用于根据所述融合特征，确定所述待检测对象在所述检测场景中的位置，以及所述待检测对象的类别，所述融合模块包括：

第一输入子模块，用于将所述图像区块输入对比语言图像预训练模型，得到所述对比语言图像预训练模型输出的所述图像区块的二维特征；

所述提取模块包括：

提取子模块，用于根据所述三维检测框，从所述场景图像中提取图像区块；

所述提取子模块包括：

8.根据权利要求7所述的装置，其特征在于，所述融合模块还包括：

9.根据权利要求7所述的装置，其特征在于，所述融合模块还包括：

缩放子模块，用于将所述图像区块的尺寸缩放至预设尺寸。

10.根据权利要求7所述的装置，其特征在于，所述提取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述聚合子模块包括：

12.根据权利要求7所述的装置，其特征在于，所述识别模块包括：

13.一种电子设备，其特征在于，包括：处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任意一项所述的方法。