CN114663502A

CN114663502A - 物体姿态估计、图像处理方法及相关设备

Info

Publication number: CN114663502A
Application number: CN202011446331.XA
Authority: CN
Inventors: 考月英; 李炜明; 金知姸; 张现盛; 洪性勋; 王强; 刘洋; 汪昊
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2022-06-24
Also published as: KR20220081261A

Abstract

本申请提供了物体姿态估计、图像处理方法及相关设备，属于图像处理及人工智能技术领域。其中，物体姿态估计方法包括：获取输入图像的点云对应的图像特征；基于图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息；基于语义分割信息、实例掩模信息与关键点信息进行物体姿态估计。基于本申请提供的方法，能够有效减少物体姿态估计所需的时间。同时，由电子设备执行的上述物体姿态估计、图像处理方法方法可以使用人工智能模型来执行。

Description

物体姿态估计、图像处理方法及相关设备

技术领域

本申请涉及人工智能技术领域，具体而言，本申请涉及物体姿态估计、图像处理方法及相关设备。

背景技术

随着人工智能技术的发展，增强现实、计算机视觉、地图导航等技术在人们的生活工作中越来越重要。其中，姿态估计可以对摄像机所摄图像进行物体的姿态估计，在多项人工智能技术中均有应用。

姿态估计涉及实例分割任务和关键点检测任务，现有技术中，一般采用聚类的方式进行各项任务，然而聚类非常耗时，无法满足一些对实时性要求非常高的场景的需求。

发明内容

本申请的目的旨在提供一种物体姿态估计、图像处理方法及相关设备，以减少进行图像处理所需的时间。本申请实施例所提供的方案具体如下：

第一方面，本申请提供了一种物体姿态估计方法，包括：

获取输入图像的点云对应的图像特征；

基于所述图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息；

基于所述语义分割信息、实例掩模信息与关键点信息进行物体姿态估计。

第二方面，本申请提供了一种图像处理方法，包括：

获取输入图像的点云对应的图像特征；

基于所述图像特征，通过实例掩模分割的多层感知机网络以物体中心对应的点云为基准确定图像的实例掩模信息；

基于所述实例掩模信息进行图像处理。

第三方面，本申请提供了一种物体姿态估计装置，包括：

第一获取模块，用于获取输入图像的点云对应的图像特征；

第一确定模块，用于基于所述图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息；

姿态估计模块，用于基于所述语义分割信息、实例掩模信息与关键点信息进行物体姿态估计。

第四方面，本申请提供了一种图像处理装置，包括：

第二获取模块，用于获取输入图像的点云对应的图像特征；

第二确定模块，用于基于所述图像特征，通过实例掩模分割的多层感知机网络以物体中心对应的点云为基准确定图像的实例掩模信息；

处理模块，用于基于所述实例掩模信息进行图像处理。

第五方面，本申请提供了一种电子设备，该电子设备包括存储器和处理器；存储器中存储有计算机程序；处理器，用于在运行计算机程序时，执行本申请实施例所提供的物体姿态估计方法或图像处理方法。

第六方面，本申请提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序在被处理器运行时，执行本申请实施例所提供的物体姿态估计方法或图像处理方法。

本申请实施例提供的技术方案带来的有益效果将在下文具体实施方式部分的描述中结合各可选实施例进行详细描述，在此不再展开说明。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请一种实施例提供的物体姿态估计方法的流程图；

图2为本申请一示例中进行物体姿态估计的流程图；

图3为本申请一示例中用于进行物体的姿态估计的网络结构图；

图4为本申请一示例中进行物体姿态估计的流程图；

图5为本申请一示例中用于进行物体的姿态估计的网络结构图；

图6为本申请一示例中进行物体姿态估计的流程图；

图7为本申请一示例中进行物体姿态估计的流程图；

图8示出了本申请一种基于位置感知的实例掩模分割示意图；

图9示出了本申请另一种基于位置感知的实例掩模分割示意图；

图10为本申请一示例中用于进行物体的姿态估计的网络结构图；

图11为本申请一示例中进行物体姿态估计的流程图；

图12示出了本申请一种应用场景的示意图；

图13为本申请一种实施例提供的图像处理方法的流程图；

图14为本申请的一种实施例提供的物体姿态估计装置的结构示意图；

图15为本申请的一种实施例提供的图像处理装置的结构示意图；

图16为本申请提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为了更好的理解及说明本申请实施例所提供的方案，下面首先对本申请所涉及的相关技术进行说明。

本申请技术领域属于增强现实技术领域，具体涉及基于学习算法的多模态(彩色和深度)图像处理和识别技术，物体的识别，实例分割，6自由度物体姿态估计技术。

增强现实(Augmented Reality，AR)是一种实时地计算摄影机影像的位置及角度并加上相应图像的技术，将计算机生成的虚拟物体或关于真实物体的信息叠加到真实世界的场景之上，实现对真实世界的增强。增强现实技术通过在用户面前的现实场景中添加虚拟内容来为用户提供真实的信息体验。在三维空间中，增强现实***需要对周围物体的三维状态具有高精度的实时处理和理解，以完成在用户面前呈现高质量的虚实融合效果。

姿态估计，利用几何模型或结构来表示物体的结构和形状，并通过提取物体的特征，在几何模型和图像之间建立起对应关系，然后通过几何或其他方法实现物体空间姿态的估计，这里所使用的几何模型既可以是简单的几何形体，如平面、圆柱，也可以是某种几何结构，还可以是通过激光扫描或其他方法获得的三维模型。姿态估计技术可以包括实例分割任务和关键点检测任务，其中，实例分割任务包括用于将目标物体从背景中分离出来确定目标物体的类别的语义分割任务和用于确定属于每个目标物体的像素点的实例掩模分割任务；而关键点检测任务用于确定目标物体在图像中的位置。本申请实施例提供的姿态估计方法可应用于增强现实技术领域。

图像的6DoF姿态估计：对于给定包含颜色和深度信息的图像，估计图像中包含目标物体的6DoF姿态，6DoF姿态又称为6维自由度姿态，包括3维位置和3维空间方向。

现有技术中，针对物体的姿态估计提出了一种基于RGBD(Red+Green+Blue+depth，包含红绿蓝三原色及深度信息的图像)的物体6DoF姿态估计方法。该方法基于物体的关键点，使用一种深度Hough投票网络预测投票信息，最后采用聚类的方法确定物体的3D关键点并使用最小二乘拟合来估计物体姿态。该方法是2D关键点方法的扩充，可以充分利用深度图像中的深度信息。然而该方法需要通过聚类的方法进行物体实例分割和关键点检测，其中，聚类是一种非常耗时的方法。

现有技术中，物体实例分割方法一般采用检测分支来提取物体或者依靠分组或聚集(grouping)方式来聚集相同实例点来找出物体。然而，基于检测分支的方法不能确保每个点的实例标签一致，而分组方式需要参数调整并且计算量非常大。目前，在物体实例分割方法中耗时较短方案是依赖二维图像进行的，然而二维投影成为图像中可能会存在伪影，如在多个物体的图像区域之间存在遮挡和重叠等。

为了解决上述问题中的至少一个，本申请提供了一种物体姿态估计方法，基于三维空间中的位置信息进行物体的实例分割和关键点回归，有效避免采用聚类的方法，减少了进行物体姿态估计的耗时。本申请还提供了一种图像处理方法，采用物体实例掩模分割的多层感知机网络基于物体中心对应的点云为基准确定物体的实例掩模信息，在避免采用聚类方法的同时，减少了处理图像所需的耗时。

为使本申请的目的、技术方案和优点更加清楚，下面将结合具体地实施例和附图对本申请的各可选的实施方式及本申请实施例的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。图1中示出了本申请实施例提供的一种物体姿态估计方法，该方法包括以下步骤S101-S103：

步骤S101：获取输入图像的点云对应的图像特征。

具体地，物体为在三维空间中有六个自由度的对象，也称为6维自由度的对象；物体是属于真实世界中的对象，如：鼠标、风扇、书桌等。

其中，输入的物体的图像可以是通过图像采集设备采集的RGBD图像(Red+Green+Blue+depth，包含红绿蓝三原色及深度信息的图像)，包括颜色图像和深度图像，在一些实施例中，物体的图像还可以是灰度图像。可选地，物体的图像可以是仅包括深度图像，也可以是包括彩色图像或灰度图像、和深度图像。彩色图像、灰度图像和深度图像为对应于同一场景下包含相同物体的图像，同一图像中可以包括多种不同类别的物体，物体的种类、数量在此不做限制。彩色图像、灰度图像及对应的深度图像的获取方式本申请实施例不做限定，如可以是通过普通图像采集设备和深度图像采集设备同时采集的彩色图像、灰度图像和深度图像，也可以是通过同时具备深度图像、彩色图像和灰度图像采集功能的一个图像采集设备或视频采集设备采集的。

具体可以根据实际应用需求配置和选择采用彩色图像或灰度图像，例如，为了获取更好的姿态估计效果，可以采用彩色图像，如果对于姿态估计的效率要求较高，可以采用灰度图像。灰度图像是每个像素只有一个采样颜色的图像，灰度图像在黑色与白色之间还有许多级的颜色深度。

在实际应用中，很多应用场景下都需要进行连续实时的物体姿态估计，此时，可选的，可以通过视频采集设备采集物体的RGBD视频，该视频中的每一帧图像都是RGBD图像，物体的颜色图像及深度图像则可以从同一视频帧中提取获得，对于每一视频帧，都可以得到对应的彩色图像和深度图像，同一视频帧对应的彩色图像与深度图像中的物体一致，物体可以为一个或多个。对采集得到的每一视频帧对应的彩色图像和深度图像，可以基于本申请实施例所提供的方案，实现对物体姿态的实时估计。

其中，点云可以是在体现物体表面特性的海量点集合。点云可以根据激光测量原理和摄影测量原理得到，其中，根据激光测量原理得到的点云，包括三维坐标(XYZ)和激光反射强度(Intensity)；根据摄影测量原理得到的点云，包括三维坐标(XYZ)和颜色信息(RGB)；结合激光测量和摄影测量原理得到点云，包括三维坐标(XYZ)、激光反射强度(Intensity)和颜色信息(RGB)。在获取物体表面每个采样点的空间坐标信息后，得到的是一个点的集合，在本申请中称为“点云”(Point Cloud)。

步骤S102：基于图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息。

具体地，语义分割任务是指：将物体和背景分离进行分离，通过输入图像特征可以获得语义分割的概率图；基于语义分割的概率图可以确定每个点云的预测类别。

实例掩模分割(对象检测)是指：确定每个物体在图像中的位置，通过输入图像特征可以获得实例分割的不同位置的概率图，基于概率图可以确定每个点云对应的物***置。

可选地，由于实例掩模分割任务涉及对物***置的处理，在本申请中主要基于图像特征中提供的点云信息为基础结合其他图像特征信息进行实例掩模分割。点云信息可以包括表征点云空间坐标值的信息。

具体地，可以基于物体的实例掩模信息确定关键点信息，也可以基于物体的语义分割信息和实例掩模信息确定关键点信息；可选地，步骤S102中得到的是关键点的空间坐标值。

其中，物体的关键点可以是人为定义的关键点，也可以是采用最远点采样的方法(farthestpoint sampling，FPS)计算而得的关键点。

步骤S103：基于语义分割信息、实例掩模信息与关键点信息进行物体姿态估计。

具体的，可以基于语义分割信息、实例掩模信息与关键点信息，以及相同物体几何模型(可以是计算机辅助设计ComputerAided Design，CAD模型)，通过最小二乘拟合的方法，计算两组三维关键点之间的三维旋转和三维平移变换所得的物体的六自由度姿态。

可选地，上述步骤S101-S103可以通过图2所示的网络进行实施。如图2所示，包括特征提取模块，语义分割模块、实例掩模分割模块、关键点检测模块和姿态估计模块。其中，将物体的图像输入特征提取模块提取得到点云对应的图像特征；将图像特征分别输入语义分割模块和实例掩模分割模块确定出物体的语义分割信息(如点云的语义类别)和实例掩模信息；将图像特征输入关键点检测模块并结合实例掩模信息或(实例掩模信息和语义分割信息)得到关键点(如关键点的空间坐标信息)；进而将关键点或关键点和语义分割信息输入姿态估计模块，确定物体及物体对应的姿态信息。其中，语义分割模块、实例掩模分割模块和关键点检测模块可以基于位置感知网络(Multi-LayerPerceptron，MLP)，分别形成位置感知的语义分割网络、实例掩模分割网络和位置感知的3D关键点回归网络。

本申请在物体的图像中可以提取出点云对应的图像特征(可以包括点云信息)，由于在3D空间中物体上的点和表面是不会存在相互重叠和遮挡的，因此利用3D位置信息去感知物体的位置和整体性具有很重要的作用。本申请实施例根据基于3D位置信息所感知物体的语义分割信息和实例掩模分割信息，可以将每个物体的关键点信息以回归的方式快速计算出来，而不需要复杂的聚类的方式，从而减少了计算时间，提高了关键点检测的效率；可以利用预测出的关键点信息和物体三维模型的关键点信息通过最小二乘拟合的方法计算出物体的六自由度的姿态。另，本申请提供的物体姿态估计方法还有利于提高增强现实应用中***的效率、精度和鲁棒性；实例分割和3D关键点回归网络可以连接形成端到端的可训练网络，从而避免了在多个后处理(投票聚类)步骤中繁琐的参数调整。

下面对本申请提供的各可选实施例进行详细说明。

本申请的一种可选实施例中，步骤S101基于物体的图像，提取包括点云信息的图像特征，包括以下步骤A1-A2中的至少一项：

步骤A1：基于输入的深度图像提取点云特征，将提取的点云特征确认为点云对应的图像特征。

步骤A2：基于输入的彩色图像和/或灰度图像提取第一图像特征；基于输入的深度图像提取点云特征；融合第一图像特征与点云特征，得到点云对应的图像特征。

本实施例提供的方案可以基于深度图像提取图像特征，也可以基于彩色图像和/或灰度图像以及深度图像进行图像特征的提取，其中，图像特征的提取可以通过图像特征提取网络，图像特征提取算法等方式进行。

本申请一种可选实施例提供的方案，该方案中，基于彩色图像和/或灰度图像以及深度图像进行特征提取，通过图像特征提取网络进行图像特征提取，也就是，将彩色图像和/或灰度图像以及深度图像输入到图像特征提取网络，当输入图像为彩色图像时，图像特征提取网络的输入是彩色图像和深度图像逐像素拼接得到的H*W的4通道图像，其中，H为图像高度，W为图像宽度，4个通道分别是彩色图像的RGB数据对应的三个通道和深度图像的深度数据对应的通道，图像特征提取网络的输出包括每个像素的图像特征向量。

可选地，根据深度图像提取点云特征，可以首先对深度图像进行点云转换，获得深度图像对应的点云数据(如二维图像转换为三维图像)，再基于点云数据进行点云特征提取，获得深度图像对应的点云特征。其中，点云特征提取可以通过点云特征提取网络进行，点云特征提取网络的输入是点云数据，点云特征提取网络的输出包括每个三维点的点云特征向量，进而获得每个像素的点云特征向量。

在一实施例中，可以采用如图3所示的网络结构和图4所示的流程图实施步骤A2。特征提取网络层中包括图像卷积网络(Convolutional Neural Networks,CNN)、点云特征提取网络、和融合网络。图4中虚线所示为其他可行的网络结构，如实例位置概率图还可以作为3D关键点偏移的输入数据。具体地，步骤A2中基于输入的彩色图像和/或灰度图像提取第一图像特征，包括：步骤A21：基于输入的彩色图像和/或灰度图像，通过卷积神经网络提取第一图像特征。

可选地，图像卷积网络可以是基于卷积神经元的深度学习网络，该网络的输入数据可以是大小为H乘以W的3通道彩色图像I，其中，H为图像高度、W为图像宽度、3通道分别是彩色图像中RGB三个颜色通道；该网络的输出数据可以包括每个像素的图像特征向量图(第一图像特征)，大小为H*W*F1。在一实施例中，该网络结构可以是根据实际场景需求搭建的多层卷积神经网络，也可以是采用如AlexNet,VGG net(Visual Geometry Group net),ResNet(深度残差网络)等神经网络全连接层前面的网络部分。

具体地，步骤A2中基于输入的深度图像提取点云特征，包括：步骤A22：基于输入的深度图像，通过多层感知机网络提取点云特征。

可选地，点云特征提取网络可以是一个多层感知机(MLP)网络，例如为PointNet++(分割算法网络)。该网络的输入数据可以是将深度图像经过二维至三维投影得到的点云或包含每个点云的其他特征，例如RGB颜色，法向量等特征，输入大小为N*M，N为点云的个数，M为每个点云的特征的长度。该网络的输出数据可以包括每个三维点的点云特征向量，大小为N*F2。

在一实施例中，步骤A2中融合第一图像特征与点云特征，得到点云对应的图像特征，包括：步骤A23：将:第一图像特征和点云特征进行逐像素融合，得到点云对应的图像特征。

可选地，根据深度图像到三维点云投影之间的一一对应关系，可以得知每个三维点对应的图像像素。对于图像中的每个像素点，将该像素经过图像卷积网络得到图像像素特征向量(第一图像特征)和该像素经过点云特征提取网络得到的点云特征向量(点云特征)经融合网络进行逐像素的稠密融合。作为一个实施例子，该融合可以是将图像像素特征向量和点云特征向量进行拼接，融合后的特征(点云对应的图像特征)大小为N*(F1+F2)＝N*F。

在本申请实施例中，基于稠密融合得到的包括点云信息的图像特征，将被送入多个平行的多层感知机(位置感知网络，MLP)网络结构提取表达能力更强的特征后进行如图3中所示的任务(可以采用如图4所示的网络结构实施)，包括：物体的语义分割估计、实例掩模分割估计，物体三维关键点的偏移量估计，物体三维关键点的坐标预测(关键点回归)；上述四个任务在训练时分别具有各自对应的损失函数；且语义分割任务、实例掩模分割任务、关键点检测(包括偏移量估计和关键点回归)属于并行任务。下面针对基于步骤S101获取的点云对应的图像特征执行各项任务的实施例进行说明。

在一实施例中，步骤S102基于图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息，包括以下步骤B1-B3：

步骤B1：基于图像特征，确定点云对应的语义分割信息。

具体地，可以基于多层感知机1进行语义分割任务，物体的语义分割任务用于估计每个点云的语义类别。作为一个实施例，假设语义类别(预设物体类别)有C类，或者是有C个物体，该任务的目标是输出一个语义分割的概率图，大小为N*C，每个值代表了第n个点云属于第c类的概率大小。在网络训练时，通过真实的语义标注信息构造一个真实的groundtruth(即每个点云真实的语义信息),然后基于网络输出和标注信息确定预设的损失函数(可以为dice loss-用于评估两个样本的相似性的度量函数,softmax loss等)的值，以基于损失函数更新网络参数。通过带有真实标注信息的数据不断的监督，网络收敛时即学习到语义分割的网络参数。在测试使用时，可以将RGBD图像送入卷积神经网络和点云特征提取网络后获得对应的图像特征后输入多层感知机1，即可得到语义分割的概率图。最后取该概率图的每个点云最大概率对应的类别即为该点云的预测语义类别作为点云对应的语义分割信息。

步骤B2：基于输入图像对应的点云信息创建三维网格，并基于三维网格确定物体的实例掩模信息。

其中，三维网格的创建可以理解为将物体所在的三维空间划分为很小的三维空间单元格，如图8所示。如果物体的中心落在三维网格的某个单元格中，则对应的单元格所得的相关信息进行物体的实例分割和三维关键点检测。

具体地，可以采用多层感知机2进行实例掩模分割任务，是通过3D位置信息感知预测每个实例的位置。作为一个实施例，如图3所示首先根据所有输入点云(大小为N*3，N为点云的个数，3表示每个点云的水平方向x，垂直方向y，深度方向z，三维空间坐标)的位置创建一个三维空间，采用预设的三维网格划分策略划分对应的三维空间获得三维网格。如采用等间距划分单支方法的三维网格划分策略时，在网络训练的过程中，将物体中心所在的单元格对应的网络节点设为1，其余为0，然后基于网络输出和标注信息确定损失函数(可以为dice loss-用于评估两个样本的相似性的度量函数,softmax loss等)的值，以通过损失函数更新网络参数。通过带有真实标注信息的数据不断的监督，最后网络收敛时即学习到实例分割的网络参数。在测试使用时，将RGBD图像输入后获得的图像特征输入网络，即可得到实例分割的不同位置的概率图，即实例位置概率图。最后取该概率图的每个点云最大概率对应的位置确定为该点云所在的物***置作为实例掩模信息。其中，可以视每个单元格位置上的所有点云为同一个实例物体。

在一实施例中，实例掩模信息表征了点云在三维网格中对应的网格信息；其中，物体的各点云对应的网络信息是基于物体中心的点云对应的网格信息确定得到的。

具体地，在基于点云信息划分的三维网格中，可以知悉物体的各个点云在三维网格中对应的网格信息(物体的各个点云可能分散在三维网格的多个单元格中)。在本申请实施例中，首先确定物体中心对应的点云所在的目标单元格，进而将物体的各个点云统一视为对应于目标单元格。举例说明：在三维网格(水平方向x、垂直方向y、深度方向z)中，物体对应包括3个点云(实际点云数量可能较多，在此仅作为示例说明)，点云1、点云2和点云3；点云1对应于单元格(1,3,5)，点云2对应于单元格(6,7,8)，点云3对应于单元格(2,4,7)。其中，当前物体中心对应点云2，则将单元格(6,7,8)视为3个点云对应的单元格(该单元格对应的通道用于预测物体的位置)。

步骤B3：基于实例掩模信息，或基于语义分割信息和实例掩模信息确定关键点信息。

具体地，在基于步骤B1和步骤B2获得对应的语义分割信息(每个点云对应的预测语义类别)和实例掩模信息(每个点云所在的物***置)后，可以通过图像特征与实例掩模信息确定关键点信息，也可以通过图像特征结合语义分割信息和实例掩模信息确定关键点信息。确定关键点信息的具体过程将在下述实施例说明。

在一实施例中，如图9所示，预设的三维网格划分策略包括等间距划分的单支方法、单元格尺寸变化的多支方法、起始位置变化的多支方法。具体地，步骤B2中基于输入图像对应的点云信息创建三维网格，可以包括以下步骤B21-B23中的至少一项：

步骤B21：等间距划分点云信息对应的三维空间，获得三维网格。

也可以称为单支方法，具体地，点云信息对应的三维空间可以理解为物体所在的三维物理空间，在进行对空间的划分时，将三维空间在每个方向上等间距划分为D等份，进而将三维空间划分为D*D*D个单元格。此时，在多层感知机2的网络中该层网络的节点数为N*D³，其中，N为点云的个数。如果物体的中心落在单元格(i,j,k)位置处时，这个物体就对应在该层神经网络的第i*D*D+j*D+k个节点(idx＝i*D*D+j*D+k)。在该划分方法中，如果想要任意两个物体都不落入同一个单元格中，就要使得所划分的单元格的尺寸小于任意一个物体的尺寸，如果物体非常小，会导致D的数值很大，从而增加了网络参数。因此本申请为了解决这个问题，还提出了以下步骤B22和B23实施的两种方法。

步骤B22：分别基于多个预设间距划分点云信息对应的三维空间，获得多个三维网格。

也可以称为单元格尺寸变化的多支方法，具体地，步骤22中针对每个支路设置不同的间隔，即可以得到不同的份数D。作为一个实施例，如图9所示，设置了两个支路(也可以设置多个)，对应两层平行位置感知层，每一层的间距设置不同，即得到的D不同，这两层的网络节点数分别为N*D1³，N*D2³。其中，N为点云的个数。结合图9可见，所形成的第一个三维网格中包括基于预设间距1等间距划分成的D1*D1*D1个单元格；所形成的第二个三维网格中包括基于预设间距2等间距划分成的D2*D2*D2个单元格。

步骤B23：基于相同的间距不同的划分起始点，划分点云信息对应的三维空间获得多个三维网格。

也可以称为起始位置变化的多支方法，具体地，步骤B23中针对每个支路在划分间隔时设置不同的起始点。作为一个实施例，如图9所示，设置了两个支路(也可以设置多个)，对应两层平行位置感知层，设置每一层起始点不同而间距相同，这两层的网络节点数均为N*D³。结合图9可见，所形成的第一个和第二个三维网格中基于预设间距均划分成多个单元格，对比可见两个三维网格所划分形成的单元格不同。

在一实施例中，在进行关键点回归之前，包括关键点偏移量估计任务，进而基于估计的偏移量结合点云信息即可获得用于进行关键点回归的预测值。其中，关键点偏移量估计任务是估计每个点云相对于物体中每个三维关键点的偏移量；物体中的三维关键点可以是基于经验值定义的，也可以是基于相关采样算法计算而得。在下述实施例中，以图像中每个物体具有K个关键点为例进行说明。

具体地，步骤B3中基于实例掩模信息确定关键点信息，包括以下步骤C1-C2中的至少一项：

步骤C1：基于图像特征估计各点云对应关键点的第一偏移量；基于第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息。

具体地，如图3和4所示，在本申请实施例中，在图像中每个物体对应有K个关键点时，用于执行三维关键点偏移量估计任务对应的网络层大小为N*K*3，其中，N表示点云个数、K表示关键点个数、3表示三维空间的三个坐标。在网络(对应图4中的多层感知机3)训练的过程中，将关键点的预设空间坐标信息和每个点云的空间坐标值的差作为偏移量的真实标注，进而基于网络执行任务所得偏移量的预测标注与真实标注确定损失函数(可以采用欧式距离损失函数)，以基于损失函数更新网络参数。

可选地，步骤C1中基于第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息，包括：基于第一偏移量与点云信息，确定以点云为基准预测得到关键点的初始预测值；基于初始预测值与实例掩模信息确定在三维网格中关键点对应的目标预测值，基于目标预测值，通过回归的方式确定物体的关键点信息。

其中，将每个点云对于每个关键点(本申请实施例所指关键点均为三维关键点，3D关键点)所预测的第一偏移量加上每个点云的原始坐标信息(从点云信息中可知)即可知悉基于每个点云预测的每个关键点的坐标信息(初始预测值)。即第一偏移量+点云信息＝初始预测值。

具体地，由于在步骤C1中是针对整个三维空间进行偏移量估计任务的，因此需要在关键点回归的步骤中，加入实例掩模信息，以将每个单元格中物体的关键点的空间坐标信息计算出来。结合图3和图4所示，在流程图中体现为将实例掩模分割结果与偏移量估计结果一并作为回归器的输入数据，在网络结构图中体现为回归器与多层感知机3、以及多层感知机1和2连接。可选地，基于初始预测值与实例掩模信息可以确定出每个单元格中点云预测的每个关键点的目标预测值。

步骤C2：基于图像特征与实例掩模信息，在三维网格的各单元格中估计各点云对应关键点的第二偏移量；基于第二偏移量，通过回归的方式确定物体的关键点信息。

具体地，如图3和图4所示，在本申请实施例中，在图像中每个物体对应有K个关键点时，用于执行三维关键点偏移量估计任务对应的网络层大小为N*D³*K*3(对应为在每个单元格计算每个点云对应的每个关键点的偏移量)，其中，N表示点云个数、K表示关键点个数、3表示三维空间的三个坐标。在网络(对应图4中的多层感知机3)训练的过程中，将关键点的预设空间坐标信息和每个点云的空间坐标值的差作为偏移量的真实标注，进而基于网络执行任务所得偏移量的预测标注与真实标注确定损失函数(可以采用欧式距离损失函数)，以基于损失函数更新网络参数。

与步骤C1不同的是，步骤C2中是基于每个单元格中包括的每个点云进行偏移量估计，而步骤C1是基于物体所在的三维空间整体针对所有的点云进行偏移量估计。

可选地，步骤C2中基于第二偏移量，通过回归的方式确定物体的关键点信息，包括：基于第二偏移量与点云信息，确定以点云为基准预测得到的关键点的目标预测值；基于目标预测值，通过回归的方式确定物体的关键点信息(如空间坐标值)。

其中，针对每个单元格，将每个点云对于每个关键点(本申请实施例所指关键点均为三维关键点，3D关键点)所预测的第二偏移量加上每个点云的原始坐标信息(从点云信息中可知)即可知悉基于每个点云预测的每个关键点的坐标信息(目标预测值)。即第二偏移量+点云信息＝目标预测值。

对比步骤C1和C2可见，第一偏移量与第二偏移量所指的信息均为每个点云对于每个关键点所预测的偏移量，区别在于步骤C1是针对三维空间中的所有点云进行处理，步骤C2是针对三维空间中每个单元格中的点云进行处理；即步骤C2在进行偏移量估计时已加入了位置感知信息(实例掩模信息)，因此在关键点回归时，可以直接基于第二偏移量与点云信息确定的目标预测值进行处理。

具体地，由于在步骤C2中是针对三维空间中每个单元格进行偏移量估计任务的，因此无需在关键点回归的步骤中加入实例掩模信息。结合图4虚线所示内容，在流程图中体现为将3D关键点偏移量估计的结果作为回归器的输入数据，在网络结构图中体现为回归器与多层感知机3连接。

在一实施例中，如图5、6和7所示，步骤B3中基于语义分割信息和实例掩模信息确定关键点信息，包括以下步骤C3：基于语义分割信息与实例掩模信息确定实例分割信息；基于图像特征估计各点云对应关键点的第一偏移量；基于第一偏移量与实例分割信息，通过回归的方式确定物体的关键点信息。

具体地，语义分割信息表征每个点云对应的类别，实例掩模信息可以表征每个点云在三维网格中对应的单元格(物体对应的单元格)；基于语义分割信息和实例掩模信息确定出的实例分割信息可以用于表征物体的类别和物体的位置信息。其中，语义分割信息可以采用图7所示的语义分割计算的多层感知机对融合后的图像特征进行处理得到；实例掩模信息可以采用图7所示的位置感知的3D实例分割的多层感知机对融合后的图像特征进行处理得到。

可选地，基于语义分割信息和实例掩模信息确定实例分割信息的过程可以理解为排除冗余信息的过程，通过借助语义分割信息排除实例掩模信息中的杂乱信息。具体地，语义分割信息对应的结果可以是大小为N*C的矩阵，实例掩模信息对应的结果可以是大小为N*D³的矩阵，两者结合的过程可以理解为矩阵相乘的过程，处理所得结果为实例分割信息。

可选地，确定第一偏移量的具体过程可以参考上述步骤C1所示内容。其中，第一偏移量可以采用图7所示的3D关键点偏移量计算的多层感知机对融合后的图像特征进行处理得到。

在一实施例中，步骤C3中基于第一偏移量与实例分割信息通过回归的方式确定物体的关键点信息，可以包括下述步骤：基于第一偏移量与点云信息，确定以点云为基准预测得到的关键点的初始预测值；基于初始预测值与实例分割信息确定在三维网格中关键点的目标预测值；基于目标预测值，通过回归的方式确定物体的关键点信息。

具体地，通过回归的方式确定物体的关键点信息可以采用图7所示的位置感知的3D关键点回归的多层感知机对第一偏移量和实例分割信息进行处理得到。

具体地，确定初始预测值与目标预测值的具体过程可以参考上述步骤C1所示内容。而本步骤C3与步骤C1的区别在于：步骤C1是基于初始预测值与实例掩模信息确定的目标预测值；步骤C3是基于初始预测值与实例分割信息确定的目标预测值。相对而言，由于实例分割信息已有效排除部分冗余的信息，采用步骤C3所确定的目标预测值的准确度较高。

在一实施例中，步骤C1-C2中基于目标预测值，通过回归的方式确定物体的关键点信息，包括以下步骤C01-C04中的至少一项：

步骤C01：针对物体的每一关键点，将该关键点与每个点云分别对应的目标预测值的均值，确定为关键点信息。

其中，针对于每个位置(可以理解为每个单元格)，目标预测值表征基于每个点云预测的每个关键点的坐标信息(预测坐标值)。结合下述表1，举例说明(假设当前具有3个点云，2个关键点)：

表1(目标预测值)

点云/关键点	1	2
			1	(a1，b1，c1)	(d1，e1，f1)
2	(a2，b2，c2)	(d2，e2，f2)
			3	(a3，b3，c3)	(d3，e3，f3)

结合上述表1，可见，每个点云对应每个关键点均有对应的预测坐标值(目标预测值)。

在一实施例中，步骤C01可以采用下述公式(1)进行表示：

y=Σx_i/N

......(1)

其中，i＝1,...,N；i表示第i个点云，一共N个点云；x为目标预测值；y为关键点信息(如关键点的空间坐标值)。

其中，关键点1的空间坐标信息为计算[(a1，b1，c1)+(a2，b2，c2)+(a3，b3，c3)]/3所得的坐标值。

步骤C02：针对物体的每一关键点，将该关键点与每个点云分别对应的目标预测值，与实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息。

可选地，步骤C02可以理解为一种加权回归方法，利用位置感知的实例掩模分割置信度M作为权重(若掩模预测的置信度贡献很小，则对关键点预测贡献很小)。

在一实施例中，步骤C02可以采用下述公式(2)进行表示：

y=Σw_ix_i/Σw_i

......(2)

其中，i＝1,...,N；i表示第i个点云，一共N个点云；x为目标预测值；w为每个单元格的掩码置信度(每个点云对应每个单元格的概率值)，w=W_ins_idx；idx＝1,...,D³,W_ins为实例掩模分割的网络输出概率图,idx为物体所在单元格空间位置的标号。可选地，w还可以表示为w＝M_idx。

具体地，目标预测值表示可以参考上述步骤C01中表1所示例子。实例掩模信息中每个点云分别对应的概率值为每个点云对应当前位置(单元格)的概率值(三维网格中具有多个单元格，在实例掩模分割时，可以预测出每个点云对应每个单元格的概率值)。

其中，关键点1的空间坐标信息为[w1*(a1，b1，c1)+w2*(a2，b2，c2)+w3*(a3，b3，c3)]/[w1+w2+w3]所得的坐标值。

步骤C03：针对物体的每一关键点，将该关键点与物体中心点最接近的预设数值个点云分别对应的目标预测值，与实例掩模信息中预设数值个点云分别对应的概率值的加权均值，确定物体的关键点信息。

在一实施例中，步骤C03可以采用下述公式(3)进行表示：

y=Σw_ix_i/Σw_i

......(3)

其中，i＝1,…T；i表示第i个点云，一共T个点云。其中，T个点云的确定方式是将所有点云对物体中心(关键点)的偏移量预测值,即

其中dx,dy,dz分别是xyz三个方向上的偏移量预测值，(也可以是目标预测值)进行升序排序，取排序在前的T个点云作为步骤C03中计算关键点信息的点云。x为目标预测值；w为每个单元格的掩码置信度(每个点云对应每个单元格的概率值)，w=W_ins_idx；idx＝1,...,D³,W_ins为实例掩模分割的网络输出概率图,idx为物体所在单元格空间位置的标号。可选地，w还可以表示为w＝M_idx。

可选地，目标预测值的表示可以参考上述步骤C01中表1所示例子。假设当前3个点云中前T个点云(T为2)为点云1和点云3。则，关键点1的空间坐标信息为[w1*(a1，b1，c1)+w3*(a3，b3，c3)]/[w1+w3]所得的坐标值。

步骤C04：针对物体的每一关键点，将该关键点与每个点云分别对应的距离接近程度值、该关键点与每个点云分别对应的目标预测值、与实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息。

具体地，关键点与点云的距离接近程度值所表征的物理意义是将每个点云与物体关键点的距离进行量化(量化所得在[0,1]之间)，具体可以采用下述公式(4)进行表示：

p＝(d_max-offset)/d_max

......(4)

其中，d_max可以为关键点与物体上所有点云的最远欧式距离(可以通过目标预测值与点云空间坐标值进行计算，也可以为设定的阈值常数)；offset为预测的偏移量(执行偏移量估计任务所得)，即

其中dx,dy,dz分别是xyz三个方向上的偏移量预测值。

基于上述公式(4)所示的距离接近程度值，可以确定当距离接近程度值p越大时，点云越接近关键点。

在一实施例中，步骤C04可以采用下述公式(5)进行表示：

y＝Σw_ip_ix_i/Σw_ip_i

......(5)

其中，i＝1,…N；i表示第i个点云，共N个点云；x为目标预测值；p为公式(4)所示的距离接近程度值；w为每个单元格的掩码置信度(每个点云对应每个单元格的概率值)，w=W_ins_idx；idx＝1,...,D³,W_ins为实例掩模分割的网络输出概率图,idx为物体所在单元格空间位置的标号。可选地，w还可以表示为w＝M_idx。

具体地，目标预测值表示可以参考上述步骤C01中表1所示例子。

其中，关键点1的空间坐标信息为[w1*p1*(a1，b1，c1)+w2*p2*(a2，b2，c2)+w3*p3*(a3，b3，c3)]/[w1*p1+w2*p2+w3*p3]所得的坐标值。

通过上述步骤C04的实施，相对于步骤C01而言，可以进一步去除由执行偏移量估计任务预测所得偏移量的异常值带来的影响。在一可行的实施例中，可以在网络的回归器之前添加一个用于输出距离接近程度值p的模块(该模块的输出值为预测值)，以减少回归计算中的计算量。

在一实施例中，网络结构中的回归器进行关键点回归任务，具体执行上述步骤C01-C04所示的步骤，在网络训练时，可以将回归器一并加入整体的网络结构中进行训练，也可以将回归器放在网络训练之外，即网络训练时只训练更新包含特征提取、语义分割、实例掩模分割、关键点偏移量估计各任务的网络参数。

可选地，考虑到若基于深度图像进行点云特征提取时，仅提取包括空间坐标信息的点云特征所带来的表达有限，因此一般会加入其他特征如RGB颜色、法向量等特征信息。但是计算其他特征信息的耗时较长，为了在加入其他特征信息提高网络进行姿态估计的准确率的同时保证时效性，本申请提供的实施网络中还加入了特征映射模块，如图10或图11所示(也可以在图3和图4中加入特征映射模块；图11中彩色图像也可以替换为灰度图像)，步骤A1和A2中基于输入的深度图像提取点云特征，还可以包括以下步骤A11-A12：

步骤A11：基于输入的深度图像获取对应的点云信息；

步骤A12：基于点云信息以及颜色特征和法向特征中的至少一项提取点云特征。

具体地，在网络训练过程中，进行点云特征提取时，可以首先是将基于输入的深度图像获取对应的点云信息输入点云特征提取网络进行特征提取的训练；进而将点云信息和包括更多其他特征信息(如RGB颜色、法向量等)输入点云特征提取网络，并针对处理所得的特征信息进行最小化欧式距离(也可以采用其他的距离度量方式)处理，使得网络在测试使用时，所提取的点云对应的图像特征可以具有更多其他的特征表达方式，实现减少提取其他特征信息的时间的效果。

在上述实施例中提及的图4、图6及图11中，尖锐角对应的模块框表征操作步骤或网络结构，圆润角对应的模块框表征处理结果。如图4所示，稠密融合对应的模块框图表征将图像像素特征与点云特征进行融合，语义分割概率图表征多层感知机1的输出数据。

为进一步说明本申请实施例提供的物体姿态估计方法在实际场景中的应用，结合图12对应的增强现实进行说明。

图12所示为将本申请实施例提供的物体姿态估计方法应用于增强现实***中的场景。其中，物体的图像由用户佩戴的AR眼镜实时拍摄，所拍摄内容为用户使用该增强现实***时眼前三维空间对应的视频数据，在进行物体姿态估计时，可以理解为针对视频数据中的每一帧图像数据进行处理。结合图12可见，黑色表示真实存在的物体，白色表示虚拟物体，通过执行本申请实施例提供的方法，可以将虚拟内容实时地对齐到具有正确姿态的真实物体上；对于真实场景中运动的物体，实时的姿态估计可以确保增强现实***中具有很少真实场景中没有延时伪影的虚拟物体及时更新。如图12，用户可以感知虚拟物体实时地对齐到真实物体中进行显示。

为更好地表示本申请实施例提供的网络在实施物体姿态估计方法时的效果，给出下述表2所示的实验数据：

表2

如表2所示的实验数据，本申请实施例采用YCB视频数据集(位姿估计数据集)在服务器上计算PVN3D(基于霍夫投票(Hough voting)的3D关键点检测神经网络)及其各个模型的推断时间(采用后处理聚类的方式进行物体实例分割和物体关键点检测)。在本申请提供的方法中，将等间距划分的单支方法用于位置感知网络(此处，将D设置为10)。其中，拟合(LS fitting)为最小二乘法拟合，用于计算物体的6自由度姿态。实验测试表明，与PVN3D方法相比，本申请提供的方法在不同类型的GPU上均实现了物体姿态估计的加速。

基于同一发明构思，本申请实施例还提供一种图像处理方法，如图13所示，包括以下步骤S1-S3：

步骤S1：获取输入图像的点云对应的图像特征。

具体地，步骤S1中获取输入图像的点云对应的图像特征可以参考上述实施例中步骤S101所示内容。图像也可以是深度图像、彩色图像和灰度图像。

步骤S2：基于图像特征，通过实例掩模分割的多层感知机网络以物体中心对应的点云为基准确定图像的实例掩模信息。

具体地，图像中可能包括一个或多个物体，每一个物体可以对应有一个或多个点云。在本申请实施例中，实例掩模分割任务采用多层感知机网络完成，在该网络对图像特征进行处理的过程，可以参考上述实施例中步骤B1和B2所示的内容。

下述对完成实例掩模分割任务的多层感知机网络训练的具体过程进行说明，具体地，实例掩模分割的多层感知机网络的训练步骤包括下述步骤S21-S23：

步骤S21：获取训练数据集；所述训练数据集包括多个训练图像以及各训练图像对应的物体标注信息。

步骤S22：将所述训练图像输入实例掩模分割的多层感知机网络，以使该网络基于输入的训练图像对应的三维网络，以物体中心对应的点云所在单元格为基准，输出物体的各点云对应的预测网格信息。

步骤S23：基于所述预测网络信息与物体标注信息，确定所述实例掩模分割的多层感知机网络的参数。

可选地，网络的训练方法可以包括如下两种方式：

(1)物体标注信息可以表征物体各个点云在三维空间中真实对应的位置(网格)。一个训练图像中可以包括多个物体，各个物体分别对应各自的标注信息。实例掩模分割的多层感知机网络可以输出物体的各点云对应的初始网格信息，进而基于初始网格信息，结合物体中心对应点云所在的网格信息，最终以物体中心对应点云的初始网格信息作为物体各点云对应的预测网格信息。在确定网络参数时，基于初始网格信息和标注信息进行网络参数的更新。可选地，可以基于预设的损失函数dice loss，softmax loss等确定网络每次迭代的损失值，进而基于损失值更新网络参数。

(2)物体标注信息可以表征物体中心对应点云在三维空间中真实对应的位置(网格)。实例掩模分割的多层感知机网络可以输出物体中心对应点云所在的网格信息(预测网格信息)；进而基于预测网格信息和标注信息更新网络参数。

即，网络训练时可以仅针对物体中心对应的点云相应的网格信息进行训练，并将物体的其他点云相应的网格信息视为与物体中心对应的点云相应的网格信息一致。

步骤S3：基于所述实例掩模信息进行图像处理。

在一实施例中，上述图像处理方法还包括步骤S4：基于所述图像特征，确定图像的语义分割信息。

具体地，步骤S4基于图像特征确定图像的语义分割信息的具体过程可以参考上述实施例中步骤S102所示内容。

步骤S3所述基于所述实例掩模信息进行图像处理，包括下述步骤S31-S32：

步骤S31：基于所述语义分割信息与实例掩模信息确定物体的实例分割信息。

具体地，步骤S31基于语义分割信息与实例掩模信息确定物体的实例分割信息的具体过程可以参考上述实施例中步骤C3所示内容。

步骤S32：基于所述实例分割信息进行图像处理。

在一实施例中，上述图像处理方法可以应用于物体姿态估计方法中进行物体姿态估计。

对应于本申请所提供的物体姿态估计方法，本申请实施例还提供了一种物体姿态估计装置1400，其结构示意图如图14中所示，该物体姿态估计装置1400包括：第一获取模块1401、第一确定模块1402、姿态估计模块1403。

其中，第一获取模块1401，用于获取输入图像的点云对应的图像特征；第一确定模块1402，用于基于图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息；姿态估计模块1403，用于基于语义分割信息、实例掩模信息与关键点信息进行物体姿态估计。

可选地，第一获取模块1401，用于执行以下至少一项：

基于输入的深度图像提取点云特征，将提取的点云特征确认为点云对应的图像特征；

基于输入的彩色图像和/或灰度图像提取第一图像特征；基于输入的深度图像提取点云特征；融合第一图像特征与点云特征，得到点云对应的图像特征。

可选地，第一获取模块1401用于执行基于输入的深度图像提取点云特征时，还用于执行：

基于输入的深度图像获取对应的点云信息；

基于点云信息以及下述至少一项提取点云特征；

颜色特征和法向特征。

可选地，第一获取模块1401用于融合第一图像特征与点云特征，得到点云对应的图像特征时，还用于执行：

将第一图像特征和点云特征进行逐像素融合，得到点云对应的图像特征。

可选地，第一获取模块1401用于执行基于输入的彩色图像和/或灰度图像提取第一图像特征时，还用于执行：基于输入的彩色图像和/或灰度图像，通过卷积神经网络提取第一图像特征；和/或

第一获取模块1401用于执行基于输入的深度图像提取点云特征时，还用于执行：基于输入的深度图像，通过多层感知机网络提取点云特征。

可选地，第一确定模块1402用于执行基于图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息时，还用于执行：

基于图像特征，确定点云对应的语义分割信息；

基于输入图像对应的点云信息创建三维网格，并基于三维网格确定物体的实例掩模信息；

基于实例掩模信息，或基于语义分割信息和实例掩模信息确定关键点信息。

可选地，实例掩模信息表征了点云在三维网格中对应的网格信息，其中，物体的各点云对应的网络信息是基于物体中心的点云对应的网格信息确定得到的。

可选地，第一确定模块1402用于执行基于输入图像对应的点云信息创建三维网格时，还用于执行以下至少一项：

等间距划分点云信息对应的三维空间，获得三维网格；

分别基于多个预设间距划分点云信息对应的三维空间，获得多个三维网格；

基于相同的间距不同的划分起始点，划分点云信息对应的三维空间获得多个三维网格。

可选地，第一确定模块1402用于执行基于实例掩模信息确定关键点信息时，还用于执行以下至少一项：

基于图像特征估计各点云对应关键点的第一偏移量；基于第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息；

基于图像特征与实例掩模信息，在三维网格的各单元格中估计各点云对应关键点的第二偏移量；基于第二偏移量，通过回归的方式确定物体的关键点信息；

可选地，第一确定模块1402用于执行基于语义分割信息和实例掩模信息确定关键点信息时，还用于执行：

基于语义分割信息与实例掩模信息确定实例分割信息；

基于图像特征估计各点云对应关键点的第一偏移量；

基于第一偏移量与实例分割信息，通过回归的方式确定物体的关键点信息。

可选地，第一确定模块1402用于执行基于第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息时，还用于执行：基于第一偏移量与点云信息，确定以点云为基准预测得到的关键点的初始预测值；基于初始预测值与实例掩模信息确定在三维网格中关键点的目标预测值；基于目标预测值，通过回归的方式确定物体的关键点信息。

可选地，第一确定模块1402用于执行基于第二偏移量，通过回归的方式确定物体的关键点信息时，还用于执行：基于第二偏移量与点云信息，确定以点云为基准预测得到的关键点的目标预测值；基于目标预测值，通过回归的方式确定物体的关键点信息；

可选地，第一确定模块1402用于执行基于第一偏移量与实例分割信息，通过回归的方式确定物体的关键点信息时，还用于执行：基于第一偏移量与点云信息，确定以点云为基准预测得到的关键点的初始预测值；基于初始预测值与实例分割信息确定在三维网格中关键点的目标预测值；基于目标预测值，通过回归的方式确定物体的关键点信息。

可选地，第一确定模块1402用于执行基于目标预测值，通过回归的方式确定物体的关键点信息时，还用于以下至少一项：

针对物体的每一关键点，将该关键点与每个点云分别对应的目标预测值的均值，确定为关键点信息；

针对物体的每一关键点，将该关键点与每个点云分别对应的目标预测值，与实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息；

针对物体的每一关键点，将该关键点与物体中心点最接近的预设数值个点云分别对应的目标预测值，与实例掩模信息中预设数值个点云分别对应的概率值的加权均值，确定为关键点信息；

针对物体的每一关键点，将该关键点与每个点云分别对应的距离接近程度值、该关键点与每个点云分别对应的目标预测值、与实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息。

对应于本申请所提供的图像处理方法，本申请实施例还提供了一种图像处理装置1500，其结构示意图如图15中所示，该图像处理装置1500包括：第二获取模块1501、第二确定模块1502、处理模块1503。

其中，第二获取模块1501用于获取输入图像的点云对应的图像特征；第二确定模块1502用于基于图像特征，通过实例掩模分割的多层感知机网络以物体中心对应的点云为基准确定图像的实例掩模信息；第三处理模块1503用于基于实例掩模信息进行图像处理。

可选地，实例掩模分割的多层感知机网络的训练步骤包括：

获取训练数据集；训练数据集包括多个训练图像以及各训练图像对应的物体标注信息；

将训练图像输入实例掩模分割的多层感知机网络，以使该网络基于输入的训练图像对应的三维网络，以物体中心对应的点云所在单元格为基准，输出物体的各点云对应的预测网格信息；

基于预测网络信息与物体标注信息，确定实例掩模分割的多层感知机网络的参数。

可选地，装置1500，还包括第三确定模块，用于基于图像特征，确定图像的语义分割信息。

可选地，处理模块1503还用于：基于语义分割信息与实例掩模信息确定物体的实例分割信息；基于实例分割信息进行图像处理。

本申请实施例的装置可执行本申请的实施例所提供的方法，其实现原理相类似，本申请各实施例中的装置中的各模块所执行的动作是与本申请各实施例中的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应的方法中的描述，此处不再赘述。

本申请还提供了一种电子设备，该电子设备包括存储器和处理器；其中，存储器中存储有计算机程序；处理器用于在运行计算机程序时，执行本申请任一可选实施例中所提供的方法。

本申请还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，计算机程序在被处理器运行时，执行本申请任一可选实施例中所提供的方法。

作为一可选方案，图16示出了本申请实施例适用的一种电子设备的结构示意图，如图16所示，该电子设备1600可以包括处理器1601和存储器1603。其中，处理器1601和存储器1603相连，如通过总线1602相连。可选地，电子设备1600还可以包括收发器1604。需要说明的是，实际应用中收发器1604不限于一个，该电子设备1600的结构并不构成对本申请实施例的限定。

处理器1601可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1601也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1602可包括一通路，在上述组件之间传送信息。总线1602可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1602可以分为地址总线、数据总线、控制总线等。为便于表示，图16中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1603可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器1603用于存储执行本申请方案的应用程序代码，并由处理器1601来控制执行。处理器1601用于执行存储器1603中存储的应用程序代码(计算机程序)，以实现前述任一方法实施例所示的内容。

本申请所提供的实施例中，由电子设备执行的上述物体姿态估计方法可以使用人工智能模型来执行。

根据本申请的实施例，在电子设备中执行的该方法可以通过使用图像数据或视频数据作为人工智能模型的输入数据来获得识别图像或图像中的图像特征的输出数据。人工智能模型可以通过训练获得。这里，“通过训练获得”意味着通过训练算法用多条训练数据训练基本人工智能模型来获得被配置成执行期望特征(或目的)的预定义操作规则或人工智能模型。人工智能模型可以包括多个神经网络层。多个神经网络层中的每一层包括多个权重值，并且通过在前一层的计算结果与多个权重值之间的计算来执行神经网络计算。

视觉理解是一种用于像人类视觉一样识别和处理事物的技术，并且包括例如对象识别、对象跟踪、图像检索、人类识别、场景识别、3D重建/定位或图像增强。

本申请所提供的物体姿态估计装置，可以通过AI模型来实现多个模块中的至少一个模块。可以通过非易失性存储器、易失性存储器和处理器来执行与AI相关联的功能。

该处理器可以包括一个或多个处理器。此时，该一个或多个处理器可以是通用处理器，(例如中央处理单元(CPU)、应用处理器(AP)等)、或者是纯图形处理单元，(例如，图形处理单元(GPU)、视觉处理单元(VPU)、和/或AI专用处理器，(例如，神经处理单元(NPU))。

该一个或多个处理器根据存储在非易失性存储器和易失性存储器中的预定义的操作规则或人工智能(AI)模型来控制对输入数据的处理。通过训练或学习来提供预定义的操作规则或人工智能模型。

这里，通过学习来提供指的是通过将学习算法应用于多个学习数据来得到预定义的操作规则或具有期望特性的AI模型。该学习可以在其中执行根据实施例的AI的装置本身中执行，和/或可以通过单独的服务器/***来实现。

该AI模型可以由包含多个神经网络层组成。每一层具有多个权重值，一个层的计算是通过前一层的计算结果和当前层的多个权重来执行的。神经网络的示例包括但不限于卷积神经网络(CNN)、深度神经网络(DNN)、循环神经网络(RNN)、受限玻尔兹曼机(RBM)、深度信念网络(DBN)、双向循环深度神经网络(BRDNN)、生成对抗网络(GAN)、以及深度Q网络。

学习算法是一种使用多个学习数据训练预定目标装置(例如，机器人)以使得、允许或控制目标装置进行确定或预测的方法。该学习算法的示例包括但不限于监督学习、无监督学习、半监督学习、或强化学习。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种物体姿态估计方法，其特征在于，包括：

获取输入图像的点云对应的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述获取输入图像的点云对应的图像特征，包括以下至少一项：

基于输入的彩色图像和/或灰度图像提取第一图像特征；基于输入的深度图像提取点云特征；融合所述第一图像特征与点云特征，得到点云对应的图像特征。

3.根据权利要求2所述的方法，其特征在于，所述基于输入的深度图像提取点云特征，包括：

基于输入的深度图像获取对应的点云信息；

基于所述点云信息以及下述至少一项提取点云特征；

颜色特征和法向特征。

4.根据权利要求2所述的方法，其特征在于，所述融合所述第一图像特征与点云特征，得到点云对应的图像特征，包括：

将所述第一图像特征和所述点云特征进行逐像素融合，得到点云对应的图像特征。

5.根据权利要求1所述的方法，其特征在于，所述基于所述图像特征，确定物体的语义分割信息、实例掩模信息以及关键点信息，包括：

基于所述图像特征，确定点云对应的语义分割信息；

基于输入图像对应的点云信息创建三维网格，并基于所述三维网格确定物体的实例掩模信息；

基于所述实例掩模信息，或基于所述语义分割信息和实例掩模信息确定关键点信息。

6.根据权利要求5所述的方法，其特征在于，所述实例掩模信息表征了点云在所述三维网格中对应的网格信息，其中，物体的各点云对应的网络信息是基于物体中心的点云对应的网格信息确定得到的。

7.根据权利要求5所述的方法，其特征在于，所述基于输入图像对应的点云信息创建三维网格，包括以下至少一项：

等间距划分所述点云信息对应的三维空间，获得三维网格；

分别基于多个预设间距划分所述点云信息对应的三维空间，获得多个三维网格；

基于相同的间距不同的划分起始点，划分所述点云信息对应的三维空间获得多个三维网格。

8.根据权利要求5所述的方法，其特征在于，

基于所述实例掩模信息确定关键点信息，包括以下至少一项：

基于所述图像特征估计各点云对应关键点的第一偏移量；基于所述第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息；

基于所述图像特征与实例掩模信息，在所述三维网格的各单元格中估计各点云对应关键点的第二偏移量；基于所述第二偏移量，通过回归的方式确定物体的关键点信息；

基于所述语义分割信息和实例掩模信息确定关键点信息，包括：

基于所述语义分割信息与所述实例掩模信息确定实例分割信息；

基于所述图像特征估计各点云对应关键点的第一偏移量；

基于所述第一偏移量与所述实例分割信息，通过回归的方式确定物体的关键点信息。

9.根据权利要求8所述的方法，其特征在于，

所述基于所述第一偏移量与实例掩模信息，通过回归的方式确定物体的关键点信息，包括：

基于所述第一偏移量与点云信息，确定以点云为基准预测得到的关键点的初始预测值；基于所述初始预测值与实例掩模信息确定在所述三维网格中关键点的目标预测值；基于所述目标预测值，通过回归的方式确定物体的关键点信息；

所述基于所述第二偏移量，通过回归的方式确定物体的关键点信息，包括：

基于所述第二偏移量与点云信息，确定以点云为基准预测得到的关键点的目标预测值；基于所述目标预测值，通过回归的方式确定物体的关键点信息；

所述基于所述第一偏移量与所述实例分割信息，通过回归的方式确定物体的关键点信息，包括：

基于所述第一偏移量与点云信息，确定以点云为基准预测得到的关键点的初始预测值；基于所述初始预测值与实例分割信息确定在所述三维网格中关键点的目标预测值；基于所述目标预测值，通过回归的方式确定物体的关键点信息。

10.根据权利要求9所述的方法，其特征在于，所述基于所述目标预测值，通过回归的方式确定物体的关键点信息，包括以下至少一项：

针对物体的每一关键点，将该关键点与每个点云分别对应的目标预测值，与所述实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息；

针对物体的每一关键点，将该关键点与物体中心点最接近的预设数值个点云分别对应的目标预测值，与所述实例掩模信息中所述预设数值个点云分别对应的概率值的加权均值，确定为关键点信息；

针对物体的每一关键点，将该关键点与每个点云分别对应的距离接近程度值、该关键点与每个点云分别对应的目标预测值、与所述实例掩模信息中每个点云分别对应的概率值的加权均值，确定为关键点信息。

11.一种图像处理方法，其特征在于，包括：

获取输入图像的点云对应的图像特征；

基于所述实例掩模信息进行图像处理。

12.根据权利要求11所述的方法，其特征在于，还包括步骤：基于所述图像特征，确定图像的语义分割信息；

所述基于所述实例掩模信息进行图像处理，包括：

基于所述语义分割信息与实例掩模信息确定物体的实例分割信息；

基于所述实例分割信息进行图像处理。

13.一种电子设备，其特征在于，包括存储器和处理器；

所述存储器中存储有计算机程序；

所述处理器，用于在运行所述计算机程序时，执行权利要求1至10或11至12中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序在被处理器运行时，执行权利要求1至10或11至12中任一项所述的方法。