CN113065521A

CN113065521A - 物体识别方法、装置、设备及介质

Info

Publication number: CN113065521A
Application number: CN202110452368.1A
Authority: CN
Inventors: 陈探鸿; 牛建伟; 任涛; 李青锋; 于晓龙; 谷宁波
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2021-07-02
Anticipated expiration: 2041-04-26
Also published as: CN113065521B

Abstract

本申请提供的物体识别方法、装置、设备及介质中，正是考虑到深度图像具有待识别物体的形状信息以及空间信息，因此，电子设备将色彩图像与深度图像相互融合后所得到的融合特征，能够从视觉层面与空间层面对待识别物体的形状形成互补。继而，该电子设备通过融合特征，能够确定出待识别物体更为准确的立体形状以及空间姿态。

Description

物体识别方法、装置、设备及介质

技术领域

本申请涉及图像识别领域，具体而言，涉及一种物体识别方法、装置、设备及介质。

背景技术

在一些使用场景下，需要获得待识别物体的形状以及空间姿态，然后，利用待识别物体的形状以及空间姿态对待识别物体做进一步地操作。

例如，在生产车间中，机器人需要根据目标对象的形状以及空间姿态实现拆码垛、上下料和快递包裹供包等操作。

然而，发明人研究发现，现有的相关技术在检测待识别物体形状以及空间姿态时，存在精度欠佳的问题。

发明内容

为了克服现有技术中的至少一个不足，第一方面，本申请实施例提供一种物体识别方法，应用于电子设备，所述方法包括：

获取待识别物体的色彩图像以及深度图像，其中，所述色彩图像具有所述待识别物体的色彩信息，所述深度图像具有所述待识别物体的形状信息；

根据所述色彩图像与所述深度图像的融合特征，确定所述待识别物体的立体形状以及空间姿态。

第二方面，本申请实施例提供一种物体识别装置，应用于电子设备，所述物体识别装置包括：

图像获取模块，用于获取待识别物体的色彩图像以及深度图像，其中，所述色彩图像具有所述待识别物体的色彩信息，所述深度图像具有所述待识别物体的形状信息；

图像识别模块，用于根据所述色彩图像与所述深度图像的融合特征，确定所述待识别物体的立体形状以及空间姿态。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的物体识别方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的物体识别方法。

相对于现有技术而言，本申请具有以下有益效果：

本申请实施例提供的物体识别方法、装置、设备及介质中，正是考虑到深度图像具有待识别物体的形状信息以及空间信息，因此，电子设备将色彩图像与深度图像相互融合后所得到的融合特征，能够从视觉层面与空间层面对待识别物体的形状形成互补。继而，该电子设备通过融合特征，能够确定出待识别物体更为准确的立体形状以及空间姿态。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备结构示意图；

图2为本申请实施例提供的物体识别方法步骤流程示意图；

图3为本申请实施例提供的图像识别模型结构示意图；

图4为本申请实施例提供的残差单元结构示意图；

图5为本申请实施例提供的特征融合网络结构示意图；

图6为本申请实施例提供的物体识别装置结构示意图。

图标：120-存储器；130-处理器；140-通信装置；201-图像获取模块；202-图像识别模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本申请的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

在一些使用场景下，需要获得待识别物体的形状以及空间姿态，发明人研究发现，现有的相关技术在检测待识别物体形状以及空间姿态时，存在精度欠佳的问题。值得说明的是，本申请实施例中的形状为立体形状。

示例性的，相关技术中，识别待识别物体的色彩图像(RGB图像)，获得待识别物体的形状；然后，通过特定的传感器检测待识别物体的空间姿态，例如，双目摄像头，激光雷达等。

然而，发明人研究发现，待识别物体的空间姿态在一定程度上能够反映待识别物体的形状，因此，通过单一色彩图像检测待识别物体的形状，以及通过特定的传感器检测待识别物体的空间姿态均存在一定的局限性，继而现有的相关技术在检测待识别物体形状以及空间姿态时，存在精度欠佳的问题。

鉴于此，本申请实施例提供一种应用于电子设备的物体识别方法，用于提高对待识别物体形状以及空间姿态的检测精度。

在一些应用场景下，该电子设备可以是服务器或者用户终端。其中，该服务器可以是，但不限于，Web(网站)服务器、FTP(File Transfer Protocol，文件传输协议)服务器、数据服务器等。该用户终端，该电子设备可以是智能手机、个人电脑(Personal Computer，PC)、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、移动上网设备(MobileInternet Device，MID)等。

在另外一些应用场景下，该电子设备还可以是机器人，例如，搬运机器人、装配机器人等。

本申请实施例还提供一种该电子设备的结构示意图。如图1所示，该电子设备包括存储器120、处理器130以及通信装置140。

该存储器120、处理器130以及通信装置140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

其中，该存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储计算机程序，该处理器130在接收到执行指令后，执行该计算机程序，从而实现本申请实施例提供的物体识别方法。

该通信装置140用于通过网络与其他设备通信连接，并用于通过网络收发数据。其中，该网络可以是有线网络或者无线网络。

该处理器130可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

结合上述电子设备的结构，下面对本申请实施例提供的物体识别方法记性详细阐述。如图2所示，该物体识别方法包括：

步骤S101，获取待识别物体的色彩图像以及深度图像。

其中，色彩图像具有待识别物体的色彩信息，深度图像具有待识别物体的形状信息。

应理解的是，色彩图像与深度图像统称为RGB-D图像，其中，“RGB”代表色彩图像，能够从视觉层面反应待识别物体的形状；“D”代表深度图像(即Depth Map)，类似于灰度图像。深度图像中的每个像素值为待识别物体距离传感器的距离，颜色越深代表距离越远。因此，深度图像具有待待识别物体的形状信息以及空间信息。

步骤S102，根据色彩图像与深度图像的融合特征，确定待识别物体的立体形状以及空间姿态。

正是考虑到深度图像具有待识别物体的形状信息以及空间信息，因此，本申请实施例中，将色彩图像与深度图像相互融合后所得到的融合特征，能够从视觉层面与空间层面对待识别物体的形状形成互补。继而，该电子设备通过融合特征，能够确定出待识别物体更为准确的立体形状以及空间姿态。

为了根据融合特征确定待识别物体的立体形状以及空间姿态。本申请实施例中，该电子设备配置有预训练的图像识别模型。下面结合图3对该图像识别模型的结构进行说明。

如图3所示，该图像识别模型包括图像识别网络、特征融合网络以及并列的第一ResNet网络、第二ResNet网络，第一ResNet网络与第二ResNet网络之间位于相同位置的残差单元连接有同一特征融合网络。

该特征融合网络用于将上述位于相同位置的残差单元输出的特征数据进行融合，然后将融合特征输入第一ResNet网络以及第二ResNet网络。当然，考虑到第一ResNet网络以及第二ResNet网络本身的网络结构；还需要将特征融合网络输出的融合特征与残差单元输出的特征进行通道维度的相加。

示例性的，假定残差单元A与残差单元B分别为第一ResNet网络以及第二ResNet网络中，位于相同位置的残差单元。假定残差单元A输出的特征数据为特征数据A，残差单元B输出的特征数据为特征数据B。

该电子设备将特征数据A与特征数据B输入特征融合网络，获得融合特征C，然后，再将融合特征C与特征数据A进行通道维度的相加，输入第一ResNet网络下一个残差单元；将融合特征C与特征数据B进行通道维度的相加，输入第二ResNet网络下一个残差单元。具体详情可以参见图3中的数据流转方式。

考虑到ResNet网络(又名残差网络)存在多种衍生结构，经过发明人研究发现，ResNet[101]在本申请实施例中能够取得较好的识别结果，因此，上述第一ResNet网络以及第二ResNet网络可以选取ResNet[101]。当然，本领域技术人员还可以根据实际应用场景，选取其他衍生结构的ResNet网络。

由于本申请实施例涉及ResNet网络，因此，为了便于阐述本申请实施例提供的技术方案，下面先对ResNet网络进行介绍。

应理解的是，虽然深度神经网络模型能够提供更好的表达能力，然而，随着网络层数的增加，会出现计算资源需求量增加、模型容易过拟合、梯度消失/梯度***等问题。

上述问题中的计算资源需求量增加，可以通过增加GPU集群解决；模型容易过拟合，可以通过增加样本数量并配合正则化手段解决。梯度消失/梯度***，则可以通过BatchNormalization在一定程度上进行缓解。

然而，随着网络层数的继续增加，深度神经网络模型会出现网络退化的现象。具体表现为，假定针对目标问题，解决该问题实际只需要18层的网络结构，然而，在设计深度神经网络时，具体需要多少个网络层是未知的，若设计的深度神经网络模型包括34层，则意味着多出来的16层为冗余的网络层。

对深度神经网络模型进行训练过程中，希望冗余的网络层能够进行恒等映射，即冗余的网络层的输入与输出完全一样，但是往往很难达到这样的训练效果。鉴于此，想到了将浅层网络的特征数据通过直连通道输出到深层网络，以克服网络退化的现象。受到该思想的启发，设计出了ResNet网络。

如图4所示，为本申请实施提供的残差单元的结构示意图。ResNet网络通常由多个类似的残差单元构成。如图4所示，该残差单元包括直连通道与残差通道，其中，残差通道通常包括多个卷积层。

再次参见图3，本申请实施例在第一ResNet网络以及第二ResNet网络的基础上，引入了特征融合网络，用于将第一ResNet网络中残差单元输出的特征数据与第二ResNet网络中残差单元输出的特征数据融合后，再输入第一ResNet网络以及第二ResNet网络。

示例性的，第一ResNet网络与第二ResNet网络可以为ResNet[101]网络，其中，ResNet[101]包括4个类似上述残差单元的结构，则针对每个残差单元均设置一特征融合网络，用于融合直连通道输出的特征数据。

如此，电子设备将色彩图像输入第一ResNet网络，深度图像输入第二ResNet网络；将最后一个特征融合网络输出的融合特征输入图像识别网络，获得待识别物体的立体形状以及空间姿态。

其中，为了便于对深度图像进行卷积处理以及与色彩图像进行融合，将单通道的深度图像转换成3通道图像，各通道的像素分别为水平视差，对地高度以及物体表面法向量的角度。本申请实施例中，将转换的3通道图像称为HHA，具体转换方式为现有技术，本申请实施例不再赘述。

本申请实施例中，通过将色彩图像与深度图像相互融合，以达到从视觉层面与空间层面对待识别物体的形状形成互补的目的。特征融合的深度与最终识别结果的精度成正相关，为了使得色彩图像与深度图像进行充分的融合，发明人涉及了如图5所示的特征融合网络。

为了便于阐述特征融合网络中的数据流转关系，下面将第一ResNet网络的直连通道所输出的特征称为第一待融合特征，第二ResNet网络的直连通道所输出的特征称为第二待融合特征。

针对每个特征融合网络，电子设备将第一待融合特征与第二待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第一提取特征。

下面结合图5进行示例性说明。为了便于描述，将第一待融合特征表示为RGB_origin；将第二待融合特征表示为HHA_origin；将第一提取特征表示为Union；则对应的数学表达式为：

Union＝F_conv1*1(RGB_origin|HHA_origin)

式中，“|”表示从通道维度进行拼接(图5中的符号“C”)，“F_conv1*1”表示通过1*1的卷积核进行卷积处理。需要说明的是，下文中相同符号的含义与该数学表达式中的含义相同。

假定RGB_origin与HHA_origin分别为3个通道，RGB_origin三个通道的图像特征依次为a，b，c；HHA_origin三个通道的图像特征依次为e，f，g；则从通道维进行拼接后的特征为a，b，c，e，f，g。

然后，该电子设备将第一提取特征与第一待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第二提取特征；将第一提取特征与第二待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第三提取特征。

再次参见图5，为了便于描述，将第二提取特征表示为RGB_alter，将第三提取特征标示为HHA_alter；相应的数学表达式为：

RGB_alter＝F_conv1*1(Union|HHA_origin)

HHA_alter＝F_conv1*1(RGB_origin|Union)

进一步地，该电子设备将第二提取特征与第一待融合特征从通道维度相加(图5中的符号“+”)，获得第四提取特征；该电子设备将第三提取特征与第二待融合特征从通道维度相加(图5中的符号“+”)，获得第五提取特征。

再次参见图5，为了便于描述，将第四提取特征表示为RGB_rec，将第五提取特征表示为HHA_rec。相应的数学表达式为：

RGB_rec＝RGB_origin+RGB_alter

HHA_rec＝HHA_origin+HHA_alter

示例性的，假定RGB_origin与RGB_alter均为3通道，其中，RGB_origin的3个通道的图像特征依次为a，b，c；RGB_alter的3个通道图像特征依次为e，f，g；则从通道维度相加所获得的RGB_rec可以表示为a+e，b+f，c+g。

进一步地，该电子设备将第四提取特征与第五提取特征从通道维度进行拼接后的特征分别进行第一卷积处理以及第二卷积处理，获得第一权重图以及第二权重图；其中，第一权重图对应第一待融合特征，第二权重图对应第二待融合特征。

假定第四提取特征与第五提取特征从通道维度进行拼接(图5中的符号“C”)后，将拼接结果表示为F_rec，即：

F_rec＝RGB_rec|HHA_rec

可以理解为，图5中存在未示出的两卷积通道，分别对应第一卷积处理以及第二卷积处理，用于将F_rec映射成单通道的特征图。该单通道的特征图即为上述第一权重图以及第二权重图。其中，该映射操作可以是通过1*1的卷积核进行卷积操作。

再次参见图5，假定F_rec的特征维度表示为:

F_rec∈R^2C*H*W

式中，“C”表示RGB_rec以及HHA_rec的通道数量，“H*W”表示RGB_rec、HHA_rec以及F_rec中各通道特征图的尺寸。

假定将第一权重图表示为W_rgb；将第二权重图表示为W_hha。其中，W_rgb的特征维度为：

W_rgb∈R^1*H*W

式中，“1”表示W_rgb的通道数量，“H*W”表示W_rgb的尺寸。

W_hha的特征维度为：

W_hha∈R^1*H*W

是中，“1”表示W_hha的通道数量，“H*W”表示W_hha的尺寸。

可以理解为，第一权重图与第二权重图具有相同的尺寸，并且，与第四提取特征、第五提取特征中各通道特征图的尺寸相同。

最后，该电子设备根据第一权重图以及第二权重图，将第四提取特征与第五提取特征进行加权求和，获得融合特征。

示例性的，电子设备可以使用SoftMax函数将第一权重图与第二权重图进行归一化处理。对应数学表达式为：

式中，

标识第一权重图中，第(i,j)个权重元素，

表示第二权重图中，第(i,j)个权重元素；

表示RGB_origin的第(i,j)个元素的归一化权重，

表示HHA_origin的第(i,j)个元素的归一化权重。

将融合特征表示为Merge，则融合特征的计算方式如下：

式中，Merge_(i,j)表示融合特征中的第(i,j)个元素，

表示第一待融合特征中第(i,j)个元素，

表示第二待融合特征中第(i,j)个元素。值得说明的是，

以及Merge_(i,j)属于同一通道。

由此，基于反复融合后的第四提取特征与第五提取特征，确定出的融合权重，能够为第一待融合特征与第二待融合特征提供更佳的融合效果。

请再次参见图3，本申请实施例提供的图像识别网络包括形状识别网络以及姿态识别网络。

如图3所示，电子设备将最后一个特征融合网络输出的融合特征，输入形状识别网络，获得待识别物体的立体形状；将最后一个特征融合网络输出的融合特征输入姿态识别网络，获得待识别物体的空间姿态。

如此，形状识别网络与姿态识别网络基于充分融合后的融合特征，分别就各自的识别目的提取中有用的特征信息且互不干扰，以达到提高检测精度的目的。

此外，基于图3所示的模型结构，本申请实施例还提供相应的训练方法。具体地，该电子设备获取样本图像；将样本图像输入待训练的图像识别模型；迭代调整待训练的图像识别模型的模型参数，获得预训练的图像识别模型。

其中，受限于数据采集条件的限制，本申请实施例中样本图像基于图形引擎生成。

示例性的，可以使用英伟达在虚幻4引擎中开发的NDDS(NVIDIA Deep learningDataset Synthesizer)插件作为合成数据集的软件。最终生成的数据集全部由虚拟图像数据及其标注数据组成。

应理解的是，对于深度神经网络来说，数据集的质量和大小直接影响着模型的鲁棒性和准确性。为了尽可能让图像识别模型学习到目标物体的形状特征，而对颜色和纹理特征具有不变性，在数据集中引入了深度图像。

并且，考虑到虚拟图像数据可以在游戏渲染引擎中大批量快速生成且能被自动标注，采用游戏引擎中合成数据的方式来构建样本图像。可以节省大量的人工标注时间，避免人工标注造成的偶然误差并且生成足够多的训练数据。具体流程如下：

1、搭建采集数据环境

在Windows操作***平台下载Epic启动器，然后安装图形引擎，该图形引擎可以是Unreal4(虚幻4)游戏引擎；然后，下载上文中提到的NDDS插件并运行。

2、导入样本物体模型

该样本物体模型的形状可以是长方体、正方体、圆柱体、纺锤体等。本领域技术人员可以根据实际需求适应性增加或者减少。可以在发布3D模型的网站下载样本物体模型各10个，将模型通过3D模型编辑软件SketchUp另存为fbx文件，然后导入到Unreal4引擎中。

3、设置样本物体随机属性

为了突出训练数据中样本物体的几何形状特性，可以采用随机化的数据生成策略。主要包括：相机的平移与旋转；感兴趣样本物体的纹理、位置；干扰物的纹理、数量，图像背景的材质等。

唯一没有随机化的属性是样本物体的形状。如此，可以弥补合成数据与现实世界图像的差距。

4、配置数据采集方式

在软件编辑界面选择虚拟摄像机采集数据的类型：RGB图像、深度图像和json标注文件。在摄像机(该摄像机为虚拟摄像机，调整摄像机的位置即等同于调整虚幻4引擎中的视角)采集图像时，需遵循以下原则：

(1)保证至少一类形状的样本物体在摄像机视野中，即在一张图像中会出现样本物体，最好三类样本物体同时出现。

(2)每类一共采集10个模型，每个模型采集2000张图片，此为数据采集的一个轮次。

(3)每个轮次过后，变换摄像机姿态，持续9次。

如此，可得到180000张色彩图像、与之对齐的180000张深度图像和180000个JSON(JavaScript Object Notation,JS对象简谱)标注文件。

其中，上述调整待训练的图像识别模型的模型参数，包括：

电子设备通过待训练的图像识别模型，获得样本图像中样本物体的立体形状以及空间姿态；根据样本物体的立体形状以及空间姿态，获得样本物体的形状误差以及空间误差。

然后，该电子设备将样本物体的形状误差以及空间误差的加权求和结果，作为待训练的图像识别模型的模型误差；根据模型误差调整待训练的图像识别模型。

本申请实施例中，用于衡量样本物体的空间误差MSE的数学表达式如下：

式中，n表示样本物体边界框在二维投影中的8个点，示例性的，假定该样本物体为正方体，该样本物体边界框在二维投影中的8个点即为正方体的8个顶点在二维平面中的投影点；y_i表示第i个投影点的真实值，

表示第i个投影点的预测值。

用于衡量样本物体的形状误差j的数学表达式如下：

是中，其中n表示样本物体所有的类别，y_i表示第i样本物体属于第i类形状的真实概率，p_i表示预测第i样本物体属于第i类的概率。

由此，结合样本物体的形状误差以及空间误差，调整图像识别模型的模型参数，最终获得预训练的图像识别模型。

本申请实施例中，该电子设备还根据待识别物体的立体形状以及空间姿态，控制抓取装置抓取待识别物体。其中，该抓取装置可以是机械臂。

值得说明的是，相关技术中，构建特定物品的数据集，训练卷积神经网络，用于识别特定物体。然而，当遇到数据集中没有的物品时，则无法检测；继而导致上述相关技术泛化性不足。

发明人研究发现，人造物体多为正方体、长方体以及圆柱体，或者由这些立体形状组合构成。并且，针对抓取装置在抓取物品动作的过程中是否稳定，与物品形状具有强相关性，而与物体的色彩、纹理等相关性不大。

本申请实施例正是基于这一发现，使得电子设备根据待识别物体的立体形状以及空间姿态，控制抓取装置抓取待识别物体。

请参照图6，基于与物体识别方法相同的发明构思，本实施例还提供一种物体识别装置，物体识别装置包括至少一个可以软件形式存储于存储器中的功能模块。从功能上划分，物体识别装置可以包括：

图像获取模块201，用于获取待识别物体的色彩图像以及深度图像，其中，色彩图像具有待识别物体的色彩信息，深度图像具有待识别物体的形状信息以及空间信息。

在本申请实施例中，该图像获取模块201用于实现图2中的步骤S101，关于该图像获取模块201的详细描述可以参见步骤S101的详细描述。

图像识别模块202，用于根据色彩图像与深度图像的融合特征，确定待识别物体的立体形状以及空间姿态。

在本申请实施例中，该图像识别模块202用于实现图2中的步骤S102，关于该图像识别模块202的详细描述可以参见步骤S102的详细描述。

另外，值得说明的是，该物体识别装置还可以包括其他模块，用于实现物体识别方法的其他步骤或者子步骤。当然，上述图像获取模块201以及图像处理模块同样可以用于实现物体识别方法的其他步骤或者子步骤。本申请实施例不对此做具体的限定。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，实现所述的物体识别方法。

综上所述，本申请实施例提供的物体识别方法、装置、设备及介质中，正是考虑到深度图像具有待识别物体的形状信息以及空间信息，因此，电子设备将色彩图像与深度图像相互融合后所得到的融合特征，能够从视觉层面与空间层面对待识别物体的形状形成互补。继而，该电子设备通过融合特征，能够确定出待识别物体更为准确的立体形状以及空间姿态。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种物体识别方法，其特征在于，应用于电子设备，所述方法包括：

获取待识别物体的色彩图像以及深度图像，其中，所述色彩图像具有所述待识别物体的色彩信息，所述深度图像具有所述待识别物体的形状信息以及空间信息；

2.根据权利要求1所述的物体识别方法，其特征在于，所述电子设备配置有预训练的图像识别模型，其中，所述图像识别模型包括图像识别网络、特征融合网络以及并列的第一ResNet网络、第二ResNet网络，所述第一ResNet网络与所述第二ResNet网络之间位于相同位置的残差单元连接有同一特征融合网络，所述特征融合网络用于将所述位于相同位置的残差单元输出的特征数据进行融合；

所述根据所述色彩图像与所述深度图像的融合特征，确定所述待识别物体的立体形状以及空间姿态，包括：

将所述色彩图像输入所述第一ResNet网络，所述深度图像输入所述第二ResNet网络；

将最后一个特征融合网络输出的融合特征输入所述图像识别网络，获得所述待识别物体的立体形状以及空间姿态。

3.根据权利要求2所述的物体识别方法，其特征在于，所述第一ResNet网络的直连通道输出第一待融合特征，所述第二ResNet网络的直连通道输出第二待融合特征；

针对每个所述特征融合网络，将所述第一待融合特征与所述第二待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第一提取特征；

将所述第一提取特征与所述第一待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第二提取特征；

将所述第一提取特征与所述第二待融合特征从通道维度进行拼接后的特征进行卷积处理，获得第三提取特征；

将所述第二提取特征与所述第一待融合特征从通道维度相加，获得第四提取特征；

将所述第三提取特征与所述第二待融合特征从通道维度相加，获得第五提取特征；

将所述第四提取特征与所述第五提取特征从通道维度进行拼接后的特征分别进行第一卷积处理以及第二卷积处理，获得第一权重图以及第二权重图；其中，所述第一权重图对应所述第一待融合特征，所述第二权重图对应所述第二待融合特征；

根据所述第一权重图以及所述第二权重图，将所述第一待融合特征与所述第二待融合特征进行加权求和，获得所述融合特征。

4.根据权利要求2所述的物体识别方法，其特征在于，所述图像识别网络包括形状识别网络以及姿态识别网络，所述将最后一个特征融合网络输出的融合特征输入所述图像识别网络，获得所述待识别物体的立体形状以及空间姿态，包括：

将所述融合特征输入所述形状识别网络，获得所述待识别物体的立体形状；

将所述融合特征输入所述姿态识别网络，获得所述待识别物体的空间姿态。

5.根据权利要求2所述的物体识别方法，其特征在于，所述方法还包括：

获取样本图像；

将所述样本图像输入待训练的图像识别模型；

迭代调整所述待训练的图像识别模型的模型参数，获得所述预训练的图像识别模型，其中，所述调整所述待训练的图像识别模型的模型参数，包括：

通过所述待训练的图像识别模型，获得所述样本图像中样本物体的立体形状以及空间姿态；

根据所述样本物体的立体形状以及空间姿态，获得所述样本物体的形状误差以及空间误差；

将所述样本物体的形状误差以及空间误差的加权求和结果，作为所述待训练的图像识别模型的模型误差；

根据所述模型误差调整所述待训练的图像识别模型。

6.根据权利要求5所述的物体识别方法，其特征在于，所述样本图像基于图形引擎生成。

7.根据权利要求1所述的物体识别方法，其特征在于，所述方法还包括：

根据所述待识别物体的立体形状以及空间姿态，控制抓取装置抓取所述待识别物体。

8.一种物体识别装置，其特征在于，应用于电子设备，所述物体识别装置包括：

图像获取模块，用于获取待识别物体的色彩图像以及深度图像，其中，所述色彩图像具有所述待识别物体的色彩信息，所述深度图像具有所述待识别物体的形状信息以及空间信息；

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7中任意一项所述的物体识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-7中任意一项所述的物体识别方法。