CN110298370A

CN110298370A - 网络模型训练方法、装置及物***姿确定方法、装置

Info

Publication number: CN110298370A
Application number: CN201810236244.8A
Authority: CN
Inventors: 赵哲
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-03-21
Filing date: 2018-03-21
Publication date: 2019-10-01

Abstract

本发明实施例提供了一种深度神经网络模型训练方法及一种物体三维位姿确定方法，该深度神经网络模型训练方法包括：获取具有标注数据的多个图像样本；基于图像样本对预先构建的初始深度神经网络进行训练，得到深度神经网络模型。该物体三维位姿确定方法包括：获取摄像机采集的包含目标物体的目标图像；将目标图像输入上述方法中训练得到的深度神经网络模型中进行检测，获得目标顶点坐标；根据目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿。可见，本发明实施例提供的方法，可以提高训练得到的深度神经网络模型的检测准确性，进而可以提高基于该神经网络模型确定的物体三维位姿的准确性。

Description

网络模型训练方法、装置及物***姿确定方法、装置

技术领域

本发明涉及人工智能技术领域，特别是涉及一种深度神经网络模型训练方法、装置及一种物体三维位姿的确定方法、装置。

背景技术

随着计算机计算能力的不断提高，各种深度学习模型的应用越来越广泛。用于图像处理的深度学习模型是具有重要作用的深度学习模型之一，例如，在机械臂抓取物体、车牌识别、监控录像中的目标检测等领域，用于图像处理的深度学习模型具有非常重要的地位。

在训练这些深度学习模型时，需要采集大量的图像样本，即对目标物体进行各种角度、位置地拍摄，进而采集大量图像，其中，目标物体即为实际需要检测的物体，例如，机械臂需要抓取的物体、车辆的车牌等。而在这些图像中，需要标注出目标物体的位置，标注后的图像作为图像样本，用于训练深度学习模型。

标注目标物***置的方式一般为人工标注，即在采集的图像中，通过人眼确定目标物体的位置，进而进行标注，获得图像样本。由于人眼在对目标物***置进行标注的过程中存在误差，且认为无法标注图像中目标物体的三维边框，人工标注的目标物***置的准确性较低，所以这种方式会导致训练得到的深度学习模型的准确性较低，且不能检测出物体的三维边框。

发明内容

本发明实施例提供了深度神经网络模型训练方法、装置及一种物体三维位姿的确定方法、装置，以通过深度神经网络模型检测出物体的三维边框，进而准确确定物体三维位姿。具体技术方案如下：

第一方面，本发明实施例提供了一种深度神经网络模型训练方法，所述方法包括：

获取具有标注数据的多个图像样本，其中，所述图像样本包括训练物体，所述标注数据包括基于视觉定位标识获取的所述训练物体在图像样本中的三维边框的顶点坐标，所述视觉定位标识为带有特定图案的平板；

基于所述图像样本对预先构建的初始深度神经网络进行训练，得到所述深度神经网络模型，其中，所述深度神经网络模型用于对包含物体的图像进行检测并输出所述物体在所述图像中的三维边框的顶点坐标。

可选的，所述标注数据还包括物体类别标签；

所述深度神经网络模型还用于对包含物体的图像进行检测，并输出所述图像中的所述物体的类别。

可选的，获取所述标注数据包括的所述训练物体在图像样本中的三维边框的顶点坐标的方式，包括：

确定所述训练物体与所述视觉定位标识的相对位置关系；

根据所述训练物体的几何参数及所述相对位置关系，确定所述训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，作为标识顶点坐标；

根据所述视觉定位标识的图案信息确定所述视觉定位标识坐标系相对于摄像机坐标系的转换矩阵；

根据所述转换矩阵和采集所述图像样本的摄像机的内参矩阵，确定所述标识顶点坐标投影在所述训练图像中的三维边框的顶点坐标。

第二方面，本发明实施例提供了一种物体三维位姿确定方法，所述方法包括：

获取摄像机采集的包含目标物体的目标图像；

将所述目标图像输入深度神经网络模型中进行检测，获得目标顶点坐标，其中，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，所述深度神经网络模型通过上述任一深度神经网络模型训练方法训练得到；

根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿。

可选的，所述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿，包括：

根据所述目标物体的目标几何参数确定所述目标物体在世界坐标系中的三维边框的顶点坐标，作为参考顶点坐标；

根据所述目标顶点坐标与所述参考顶点坐标的投影关系，计算所述目标物体相对于所述摄像机坐标系的三维位姿。

可选的，当所述深度神经网络模型输出所述目标物体的目标类别时，在所述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿的步骤之前，还包括；

根据所述深度神经网络模型输出的所述目标物体的目标类别，以及预先建立的类别与几何参数的对应关系，确定所述目标物体的目标几何参数。

第三方面，本发明实施例提供了一种深度神经网络模型训练装置，所述装置包括：

图像样本获取模块，用于获取具有标注数据的多个图像样本，其中，所述图像样本包括训练物体，所述标注数据包括基于视觉定位标识获取的所述训练物体在图像样本中的三维边框的顶点坐标，所述视觉定位标识为带有特定图案的平板；

模型训练模块，用于基于所述图像样本对预先构建的初始深度神经网络进行训练，得到所述深度神经网络模型，其中，所述深度神经网络模型用于对包含物体的图像进行检测并输出所述物体在所述图像中的三维边框的顶点坐标。

可选的，所述标注数据还包括物体类别标签；

可选的，所述图像样本获取模块包括：

标注数据获取子模块，用于获取所述标注数据包括的所述训练物体在图像样本中的三维边框的顶点坐标；

所述标注数据获取子模块，包括：

相对位置关系确定单元，用于确定所述训练物体与所述视觉定位标识的相对位置关系；

顶点坐标确定单元，用于根据所述训练物体的几何参数及所述相对位置关系，确定所述训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，作为标识顶点坐标；

转换矩阵确定单元，用于根据所述视觉定位标识的图案信息确定所述视觉定位标识坐标系相对于摄像机坐标系的转换矩阵；

标注数据获取单元，用于根据所述转换矩阵和采集所述图像样本的摄像机的内参矩阵，确定所述标识顶点坐标投影在所述训练图像中的三维边框的顶点坐标。

第四方面，本发明实施例提供了一种物体三维位姿确定装置，所述装置包括：

目标图像获取模块，用于获取摄像机采集的包含目标物体的目标图像；

顶点坐标获取模块，用于将所述目标图像输入深度神经网络模型中进行检测，获得目标顶点坐标，其中，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，所述深度神经网络模型通过上述任一深度神经网络模型训练方法训练得到；

三维位姿确定模块，用于根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿。

可选的，所述三维位姿确定模块包括：

顶点坐标确定子模块，用于根据所述目标物体的目标几何参数确定所述目标物体在世界坐标系中的三维边框的顶点坐标，作为参考顶点坐标；

三维位姿计算子模块，用于根据所述目标顶点坐标与所述参考顶点坐标的投影关系，计算所述目标物体相对于所述摄像机坐标系的三维位姿。

可选的，所述装置还包括；

目标几何参数确定模块，用于当所述深度神经网络模型输出所述目标物体的目标类别时，在所述三维位姿确定模块根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿之前，根据所述深度神经网络模型输出的所述目标物体的目标类别，以及预先建立的类别与几何参数的对应关系，确定所述目标物体的目标几何参数。

第五方面，本发明实施例提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的深度网络模型训练方法步骤。

第六方面，本发明实施例提供了另一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述的物体三维位姿确定方法步骤。

第七方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一的深度网络模型训练方法步骤。

第八方面，本发明实施例提供了另一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一的物体三维位姿确定方法步骤。

本发明实施例所提供的方案中，首先基于视觉定位标识获取训练物体在图像样本中的三维边框的顶点坐标，作为标注数据，然后基于具有标注数据的样本图像对预先构建的初始深度神经网络进行训练，得到深度神经网络模型。由于，图像样本中的标注数据是基于视觉定位标识获取的，因此标注数据的准确性高，且能够标注图像样本中训练物体的三维边框的顶点坐标，进而训练得到的深度神经网络模型的能够检测图像中物体的三维边框的顶点坐标，且准确性较高。利用该深度神经网络模型输出的物体的三维边框的顶点坐标可以准确地确定物体的三维位姿。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种深度神经网络模型训练方法的流程示意图；

图2为图1所示实施例中一种图像样本的示意图；

图3为图1所示实施例中获取标注数据包括的训练物体在图像样本中的三维边框的顶点坐标的方式的流程示意图；

图4为本发明实施例提供的一种物体三维位姿确定方法的流程示意图；

图5为图4所示实施例中步骤S403的具体流程示意图；

图6为本发明实施例提供的一种深度神经网络模型训练装置的结构示意图；

图7为本发明实施例提供的一种物体三维位姿确定装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图；

图9为本发明实施例提供的另一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了训练得到的深度神经网络模型的能够检测图像中物体的三维边框的顶点坐标，并提升其检测准确性，本发明实施例提供了一种深度神经网络模型训练方法、装置、电子设备及计算机可读存储介质。

下面首先对本发明实施例所提供的一种深度神经网络模型训练方法进行介绍。

本发明实施例所提供的一种深度神经网络模型训练方法可以应用于任意电子设备，例如，可以手机、平板电脑、电脑等，在此不做具体限定。

如图1所示，一种深度神经网络模型训练方法，所述方法包括：

S101，获取具有标注数据的多个图像样本；

其中，所述图像样本包括训练物体，所述标注数据包括基于视觉定位标识获取的所述训练物体在图像样本中的三维边框的顶点坐标，所述视觉定位标识为带有特定间距图案的平板。

S102，基于所述图像样本对预先构建的初始深度神经网络进行训练，得到所述深度神经网络模型。

其中，所述深度神经网络模型用于对包含物体的图像进行检测并输出所述物体在所述图像中的三维边框的顶点坐标。

可见，本发明实施例所提供的方案中，电子设备首先基于视觉定位标识获取训练物体在图像样本中的三维边框的顶点坐标，作为标注数据，然后基于具有标注数据的样本图像对预先构建的初始深度神经网络进行训练，得到深度神经网络模型。由于，图像样本中的标注数据是基于视觉定位标识获取的，因此标注数据的准确性高，且能够标注图像样本中训练物体的三维边框的顶点坐标，进而训练得到的深度神经网络模型的能够检测图像中物体的三维边框的顶点坐标，且准确性较高。利用该深度神经网络模型输出的物体的三维边框的顶点坐标可以准确地确定物体的三维位姿。

上述步骤S101中，摄像机可以以不同位置和角度采集包括训练物体的图像，电子设备可以获取摄像机采集的这些图像，进而基于预先放置于训练物体某个位置的视觉定位标识，确定训练物体在每个图像中的三维边框的顶点坐标，接下来，电子设备便可以在每个图像中标注训练物体的三维边框的顶点坐标，也就获得了上述图像样本。

上述视觉定位标识是带有特定图案的平板，视觉定位标识具有准确的图案尺寸及边框，且其包括的图案一般是左右不对称的，且其上每个点的坐标是可以准确确定的。因此，电子设备也就可以基于预先放置于训练物体某个位置的视觉定位标识，准确确定训练物体在每个图像中的三维边框的顶点坐标。为了方案清楚及布局清晰，后续会对确定每个图像中训练物体的三维边框的顶点坐标的具体方式进行举例介绍。

如图2所示为一种图像样本的示意图，其中，视觉定位标识201放置于训练物体202的预设位置，图像样本中标注有训练物体202三维边框203。图2仅是本发明实施例提供的一种图像样本的示意图，不具有任何限定意义。

在上述步骤S102中，电子设备可以预先构建初始深度神经网络，然后将上述图像样本输入到该初始深度神经网络模型中进行训练，进而，得到深度神经网络模型。在训练过程中，初始深度神经网络模型可以学习图像样本中包括训练物体的图像特征，输出图像样本对应的三维边框的顶点坐标，经过对大量图像样本的学习，初始深度神经网络模型逐步建立训练物体的图像特征与三维边框的顶点坐标的对应关系，进而得到深度神经网络模型。

进而，训练得到的深度神经网络模型也就可以用于对包含训练物体的图像进行检测，输出训练物体在该图像中的三维边框的顶点坐标。

为了使训练得到的深度神经网络模型可以进行物体类别的检测，作为本发明实施例的一种实施方式，上述标注数据还可以包括物体类别标签，也就是所述训练物体的类别标签。

相应的，上述深度神经网络模型还可以用于对包含物体的图像进行检测，并输出所述图像中的所述物体的类别。

一般对包括物体的图像进行检测时，需要得到该物体的类别，以便确定该物体的种类，便于后续步骤的进行，例如，在机械臂抓取物体过程中，可以通过深度神经网络模型检测图像中物体的类别，进而，对物体进行准确的抓取。

因此，为了使训练得到的深度神经网络模型可以进行物体类别的检测，上述标注数据中还可以包括物体类别标签，这样，在基于图像样本对预先构建的初始深度神经网络进行训练时，初始深度神经网络模型可以学习图像样本中包括训练物体的图像特征，输出图像样本对应的物体类别标签，经过对大量图像样本的学习，初始深度神经网络模型逐步建立训练物体的图像特征与物体类别标签的对应关系，在这种情况下，训练得到的深度神经网络模型便还可以用于对包含物体的图像进行检测并输出图像中物体的类别。

对于物体类别标签的具体形式本发明实施例在此不做具体限定，只要可以表示物体类别即可，可以采用字母、数字、符号或者其组合的形式，这都是合理的。例如，可以为物体类别标签A、物体类别标签B、物体类别标签C、物体类别标签D对应物体类别杯子、玩具、钢笔、盒子，那么当深度神经网络模型输出的物体类别标签为A时，那么图像中所包括的物体的类别即为杯子。

可见，在本实施例中，上述标注数据还可以包括物体类别标签，这样，训练得到的深度神经网络模型还可以用于对包含物体的图像进行检测，并输出所述图像中的所述物体的类别，可以便于后续基于深度神经网络模型输出结果的操作。

作为本发明实施例的一种实施方式，如图3所示，获取上述标注数据包括的训练物体在图像样本中的三维边框的顶点坐标的方式，可以包括：

S301，确定所述训练物体与所述视觉定位标识的相对位置关系；

视觉定位标识可以放置于训练物体的某一位置，该位置是可以通过测量等方式获得的，电子设备也就可以确定训练物体与视觉定位标识的相对位置关系。

例如，视觉定位标识和训练物体可以放置于一操作平台上，视觉定位标识的与训练物体的位置固定，训练物体与视觉定位标识的相对位置关系也就可以确定。

S302，根据所述训练物体的几何参数及所述相对位置关系和所述相对位置关系，确定所述训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，作为标识顶点坐标；

确定了训练物体与视觉定位标识的相对位置关系后，电子设备可以根据训练物体的几何参数及所确定训练物体与视觉定位标识的相对位置关系，确定训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，为了描述方便，后续将训练物体在视觉定位标识坐标系中的三维边框的顶点坐标称为标识顶点坐标。

其中，训练物体的几何参数可以是能够表示物体大小的参数，例如，训练物体为一圆柱形杯子，那么训练物体的几何参数可以为杯子底部圆形的直径、圆心坐标以及杯子的高度等；又例如，训练物体为一长方形的盒子，那么训练物体的几何参数为盒子的长、宽和高等。

在一种实施方式中，上述视觉定位标识坐标系可以是基于视觉定位标识中某个点建立的坐标系。例如，可以以视觉定位标识的中心点为原点，该中心点的正右方向为X轴，将X轴逆时针转动90度的方向为Y轴，垂直于该视觉定位标识且向上的方向为Z轴，进而建立视觉定位标识坐标系。

例如，基于上述视觉定位标识坐标系的示例，假如训练物体为一正方体盒子，其棱长为8厘米，其放置于视觉定位标识坐标系的原点的正右方向，其底面中心在X轴上，距离原点5厘米的位置，那么也就可以确定该训练物体在视觉定位标识坐标系中的三维边框的顶点坐标为(1，-4，0)、(9，-4，0)、(1，4，0)、(9，4，0)、(1，-4，8)、(9，-4，8)、(1，4，8)及(9，4，8)。

S303，根据所述视觉定位标识的图案信息确定所述视觉定位标识坐标系相对于摄像机坐标系的转换矩阵；

由于视觉定位标识是带有特定图案的平板，其上每个点的坐标是可以准确确定的，因此，电子设备可以根据视觉定位标识的图案信息确定上述视觉定位标识坐标系相对于摄像机坐标系的转换矩阵。

其中，电子设备可以根据视觉定位标识的图案信息、摄像机的内参矩阵以及摄像机成像原理，计算出图像样本中视觉定位标识的特征点在摄像机坐标系中的坐标，由于视觉定位标识坐标系是基于视觉定位标识中的某个点建立的，因此，电子设备也可以确定视觉定位标识的特征点在视觉定位标识坐标系中的坐标。

进而，电子设备便可以根据视觉定位标识的特征点在摄像机坐标系中的坐标及视觉定位标识的特征点在视觉定位标识坐标系中的坐标，计算得到视觉定位标识的特征点在摄像机坐标系与视觉定位标识坐标系之间的转换坐标，也就是视觉定位标识坐标系与摄像机坐标系的转换矩阵。

S304，根据所述转换矩阵和采集所述图像样本的摄像机的内参矩阵，确定所述标识顶点坐标投影在所述训练图像中的三维边框的顶点坐标。

可以理解的是，上述步骤S101中，训练物体在图像样本中的三维边框的顶点坐标，就是训练物体在采集图像样本的摄像机对应的平面成像坐标系中的八个点的坐标。

摄像机内参矩阵可以预先标定好，摄像机的内参矩阵的作用是在摄像机坐标系和平面成像坐标系这两个坐标系之间进行线性的变化。因此，从摄像机坐标系到图像样本所在的平面成像坐标系的变换利用摄像机内参数矩阵来计算。而从视觉定位标识坐标系到摄像机坐标系的转换，需要上述确定的视觉定位标识坐标系与摄像机坐标系的转换矩阵。

如果训练物体在视觉定位标识坐标系中的坐标为X，训练物体在摄像机坐标系中的坐标为X'，那么X'＝E*X，其中，E为视觉定位标识坐标系与摄像机坐标系的转换矩阵，那么训练物体在采集图像样本的摄像机对应的平面成像坐标系中的坐标L＝C*E*X，其中，C为摄像机内参数矩阵。

那么，电子设备可以根据视觉定位标识坐标系与摄像机坐标系的转换矩阵、采集图像样本的摄像机的内参矩阵，确定训练物体在视觉定位标识坐标系中的三维边框的顶点坐标投影在训练图像中的三维边框的顶点坐标，也就是确定样本图像的标注数据中包括的训练物体在图像样本中的三维边框的顶点坐标。

相应于上述深度神经网络模型训练方法，本发明实施例还提供了一种物体三维位姿确定方法。

下面对本发明实施例所提供的一种物体三维位姿确定方法进行介绍。

本发明实施例所提供的一种物体三维位姿确定方法可以应用于能够需要确定物体三维位姿的任意电子设备，例如，可以为手机、平板电脑、电脑等，在此不做具体限定，以下简称电子设备。

如图4所示，一种物体三维位姿的确定方法，所述方法包括：

S401，获取摄像机采集的包含目标物体的目标图像；

S402，将所述目标图像输入预先训练完成的深度神经网络模型中进行检测，获得目标顶点坐标；

其中，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，深度神经网络模型通过上述一种深度神经网络模型训练方法训练得到。

S403，根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿。

可见，在本发明实施例提供的方案中，电子设备首先获取摄像机采集的包含目标物体的目标图像，然后将目标图像输入采用上述深度神经网络模型训练方法训练得到的深度神经网络模型中进行检测，可以获得目标物体在目标图像中的三维边框的顶点坐标，即可以获得目标顶点坐标。电子设备可以根据获得的目标顶点坐标以及目标物体的目标几何参数，确定目标物体相对于采集该目标图像的摄像机的坐标系的三维位姿。由于该深度神经网络模型可以检测出物体的三维边框的顶点坐标，且检测准确性较高，因此，本发明实施例提供的一种物体三维位姿确定方法可以准确确定物体三维位姿。

上述步骤S401中，电子设备首先可以获取摄像机采集的包括目标物体的目标图像，其中，目标物体所指代的是需要确定其三维位姿的物体，并不具有任何其他限定意义。例如，目标物体可以是杯子、盒子、钢笔等任意需要确定其三维位姿的物体。目标图像指代的是摄像机采集的包含目标物体的图像，并不具有任何其他限定意义。

接下来，在上述步骤S402中，电子设备可以将目标图像输入深度神经网络模型中进行检测，深度神经网络模型进而输出目标顶点坐标。由于上述深度神经网络模型是通过上述深度神经网络模型训练方法训练得到的，也就是基于具有标注数据的图像样本对预先构建的初始深度神经网络模型进行训练，在训练过程中，该初始深度神经网络模型可以学习图像样本中包括训练物体的图像特征，逐步建立训练物体的图像特征与三维边框的顶点坐标的对应关系，进而得到深度神经网络模型。因此，训练得到的深度神经网络模型也就可以用于对包含训练物体的图像进行检测，输出的目标顶点坐标也就是训练物体在该图像中的三维边框的顶点坐标。

也就是在上述步骤S402中，深度神经网络模型在对目标图像进行检测时，根据目标物体的图像特征，根据已建立的目标物体的图像特征与三维边框的顶点坐标的对应关系，确定目标物体在目标图像中的三维边框的顶点坐标并输出，电子设备也就可以获得目标物体在目标图像中的三维边框的顶点坐标。

电子设备获得上述目标顶点坐标后，可以执行上述步骤S403，即根据该目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿。其中，目标物体的目标几何参数是能够表示物体大小的参数，例如，目标物体为一圆柱形杯子，那么目标物体的目标几何参数可以为杯子底部圆形的直径、圆心坐标以及杯子的高度等；又例如，目标物体为已长方形的盒子，那么目标物体的几何参数为盒子的长、宽和高等。

目标物体相对于摄像机坐标系的三维位姿可以采用目标物体所在的世界坐标系与采集目标图像的摄像机对应的摄像机坐标系之间的转换矩阵来表示。该转换矩阵确定，目标物体相对于摄像机坐标系的三维位姿也就确定。为了方案清楚及描述清晰，后续将会对电子设备根据目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿的具体方式进行举例介绍。

作为本发明实施例的一种实施方式，如图5所示，上述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿的步骤，可以包括：

S501，根据所述目标物体的目标几何参数确定所述目标物体在世界坐标系中的三维边框的顶点坐标，作为参考顶点坐标；

电子设备可以根据目标物体的目标几何参数确定目标物体在世界坐标系中的三维边框的顶点坐标，也就是目标物体在世界坐标系中的八个顶点的坐标，为了描述方便，后续将目标物体在世界坐标系中的八个顶点的坐标称为参考顶点坐标。

在一种实施方式中，世界坐标系可以是预先建立的用于标识目标物体在空间中的位姿的坐标系，例如，可以是以物体的底面中心为原点，该中心点的正东方向为X轴，该中心点的正北方向为Y轴，垂直于XY平面且向上的方向为Z轴，建立世界坐标系。

例如，基于上述世界坐标系，假如目标物体为一正方体盒子，其棱长为6厘米，那么也就可以确定该目标物体在世界坐标系中的三维边框的顶点坐标为(-3，-3，0)、(3，-3，0)、(3，3，0)、(-3，3，0)、(-3，-3，6)、(3，-3，6)、(3，3，6)及(-3，3，6)。

S502，根据所述目标顶点坐标与所述参考顶点坐标的投影关系，计算所述目标物体相对于所述摄像机坐标系的三维位姿。

可以理解的是，目标物体在目标图像中的三维边框的顶点坐标，就是目标物体在采集目标图像的摄像机对应的平面成像坐标系中的八个顶点的坐标。

摄像机一旦确定，其内参矩阵便是已知的，摄像机的内参矩阵的作用是在摄像机坐标系和平面成像坐标系这两个坐标系之间进行线性的变化。因此，从摄像机坐标系到目标图像所在的平面成像坐标系的变换利用摄像机内参数矩阵来计算。而从世界坐标系到摄像机坐标系的转换，需要通过上述确定的世界坐标系与摄像机坐标系的转换矩阵来确定。

如果目标物体在世界坐标系中的坐标为Y，目标物体在摄像机坐标系中的坐标为Y'，那么Y'＝P*Y，其中，P为世界坐标系与摄像机坐标系的转换矩阵，那么目标物体在采集目标图像的摄像机对应的平面成像坐标系中的坐标Z＝C*P*Y，其中，C为摄像机内参数矩阵。

那么，电子设备在获取目标物体在采集目标图像的摄像机对应的平面成像坐标系中的坐标Z、目标物体在世界坐标系中的坐标为Y及摄像机内参数矩阵C时，就可以根据Z＝C*P*Y，确定世界坐标系与摄像机坐标系的转换矩阵P。

可见，在本实施例中，电子设备可以根据目标物体的目标几何参数确定目标物体在世界坐标系中的三维边框的顶点坐标，作为参考顶点坐标，进而，根据目标顶点坐标与参考顶点坐标的投影关系，计算目标物体相对于摄像机坐标系的三维位姿，可以准确快速地确定目标物体相对于摄像机坐标系的三维位姿，便于利用目标物体相对于摄像机坐标系的三维位姿进行后续操作。

当上述深度神经网络模型可以输出目标物体的目标类别时，作为本发明实施例的一种实施方式，在上述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿的步骤之前，上述方法还可以包括；

为了使训练得到的深度神经网络模型可以进行物体类别的检测，上述深度神经网络模型训练方法中，图像样本中的标注数据还可以包括物体类别标签，这样，在基于图像样本对预先构建的初始深度神经网络进行训练时，初始深度神经网络模型可以学习图像样本中包括训练物体的图像特征，输出图像样本对应的物体类别标签，经过对大量图像样本的学习，初始深度神经网络模型逐步建立训练物体的图像特征与物体类别标签的对应关系，在这种情况下，训练得到的深度神经网络模型便还可以用于对包含物体的图像进行检测并输出图像中物体的类别。

这样，当上述深度神经网络模型可以输出检测目标物体的目标类别时，电子设备根据获取的深度神经网络模型通过对目标图像检测输出的物体类别标签，确定目标物体的物体类别，再根据预先构建的物体类别与几何参数的对应关系，获取目标物体的目标几何参数。

为了可以快速确定目标物体的目标几何参数，电子设备可以预先建立物体的类别与几何参数的对应关系，这样，当深度神经网络模型输出目标物体的目标类别时，电子设备便可以获取目标物体的目标类别，进而，可以通过预先建立的物体的类别与几何参数的对应关系，查找与目标物体的目标类别对应的目标几何参数。

在一种实施方式中，物体的类别与几何参数的对应关系可以采用表格形式记录，电子设备可以存储该表格，在需要确定目标物体的目标几何参数时，通过查找该表格来确定目标物体的目标类别对应的目标几何参数。

例如，物体类别“盒子”对应的几何参数为：三条棱长分别为8厘米、6厘米及4厘米，物体类别“杯子”对应的几何参数为：底面圆形的直径为5厘米，高为10厘米，目标物体类别“笔”对应的几何参数为：直径为1厘米，长为15厘米。那么，如果目标物体的目标类别为“杯子”，那么便可以确定目标几何参数为底面圆形的直径为5厘米，高为10厘米。

可见，本实施例中，当上述深度神经网络模型可以输出检测目标物体的目标类别时，电子设备在根据目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿之前，可以根据深度神经网络模型输出的目标物体的目标类别，以及预先建立的类别与几何参数的对应关系，确定目标物体的目标几何参数。这样，可以快速准确地确定目标物体的目标几何参数，进一步提高后续步骤确定的目标物体相对于摄像机坐标系的三维位姿的速度及准确率。

相应于上述一种深度神经网络模型训练方法，本发明实施例还提供了一种深度神经网络模型训练装置。

下面对本发明实施例提供的一种深度神经网络模型训练装置进行介绍。

如图6所示，一种深度神经网络模型训练装置，该装置包括：

图像样本获取模块610，用于获取具有标注数据的多个图像样本；

其中，图像样本包括训练物体，标注数据包括基于视觉定位标识获取的训练物体在图像样本中的三维边框的顶点坐标，视觉定位标识为带有特定间距图案的平板。

模型训练模块620，用于基于图像样本对预先构建的初始深度神经网络进行训练，得到深度神经网络模型；

其中，深度神经网络模型用于对包含物体的图像进行检测并输出物体在图像中的三维边框的顶点坐标。

作为本发明实施例的一种实施方式，上述标注数据还可以包括所述训练物体类别标签；

上述深度神经网络模型还可以用于对包含物体的图像进行检测，并输出图像中的物体的类别。

作为本发明实施例的一种实施方式，上述图像样本获取模块610可以包括：

标注数据获取子模块(图6中未标出)，用于获取所述标注数据包括的所述训练物体在图像样本中的三维边框的顶点坐标；

标注数据获取子模块，可以包括：

相对位置关系确定单元(图6中未标出)，用于确定训练物体与视觉定位标识的相对位置关系；

标识顶点坐标确定单元(图6中未标出)，用于根据训练物体的几何参数及所述相对位置关系，确定训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，作为标识顶点坐标；

转换矩阵确定单元(图6中未标出)，用于根据视觉定位标识的图案信息确定视觉定位标识坐标系相对于摄像机坐标系的转换矩阵；

标注数据获取单元(图6中未标出)，用于根据转换矩阵和采集图像样本的摄像机的内参矩阵，确定标识顶点坐标投影在训练图像中的三维边框的顶点坐标。

相应于上述一种物体三维位姿的确定方法，本发明实施例还提供了一种物体三维位姿确定装置。

下面对本发明实施例所提供的一种物体三维位姿确定装置进行介绍。

如图7所示，一种物体三维位姿确定装置，该装置包括：

目标图像获取模块710，用于获取摄像机采集的包含目标物体的目标图像；

顶点坐标获取模块720，用于将目标图像输入预先训练完成的深度神经网络模型中进行检测，获得目标顶点坐标；

其中，目标顶点坐标为：目标物体在目标图像中的三维边框的顶点坐标，深度神经网络模型是上述一种深度神经网络模型训练方法中训练得到的。

三维位姿确定模块730，用于根据目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿。

作为本发明实施例的一种实施方式，上述三维位姿确定模块730，可以包括：

顶点坐标确定子模块(图7中未示出)，用于根据目标物体的目标几何参数确定目标物体在世界坐标系中的三维边框的顶点坐标，作为参考顶点坐标；

三维位姿计算子模块(图7中未示出)，用于根据目标顶点坐标与参考顶点坐标的投影关系，计算目标物体相对于摄像机坐标系的三维位姿。。

作为本发明实施例的一种实施方式，上述装置还可以包括；

几何参数确定模块(图3中未示出)，用于当上述深度神经网络模型输出目标物体的目标类别时，在三维位姿确定模块730根据目标顶点坐标及目标物体的目标几何参数，确定目标物体相对于摄像机坐标系的三维位姿之前，根据深度神经网络模型输出的目标物体的目标类别，以及预先建立的类别与几何参数的对应关系，确定目标物体的目标几何参数。

本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信，

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

其中，上述标注数据还可以包括所述训练物体类别标签；上述深度神经网络模型还用于对包含物体的图像进行检测，并输出所述图像中的所述物体的类别。

上述获取所述标注数据包括的所述训练物体在图像样本中的三维边框的顶点坐标的方式，包括：

确定所述训练物体与所述视觉定位标识的相对位置关系；

根据所述训练物体的几何参数及所述相对位置关系确定所述训练物体在视觉定位标识坐标系中的三维边框的顶点坐标，作为标识顶点坐标；

本发明实施例还提供了另一种电子设备，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

获取摄像机采集的包含目标物体的目标图像；

将所述目标图像输入预先训练完成的深度神经网络模型中进行检测，获得目标顶点坐标，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，所述深度神经网络模型是上述一种深度神经网络模型训练方法中训练得到的；

其中，上述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿，可以包括：

根据所述目标顶点坐标与所述参考顶点坐标的投影关系，计算所述目标物体相对于所述摄像机坐标系的三维位姿。。

当上述深度神经网络模型输出所述目标物体的目标类别时，在所述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿的步骤之前，还可以包括；根据所述深度神经网络模型输出的所述目标物体的目标类别，以及预先建立的类别与几何参数的对应关系，确定所述目标物体的目标几何参数。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

可见，本发明实施例所提供的方案中，计算机程序被执行时，首先基于视觉定位标识获取训练物体在图像样本中的三维边框的顶点坐标，作为标注数据，然后基于具有标注数据的样本图像对预先构建的初始深度神经网络进行训练，得到深度神经网络模型。由于，图像样本中的标注数据是基于视觉定位标识获取的，因此标注数据的准确性高，且能够标注图像样本中训练物体的三维边框的顶点坐标，进而训练得到的深度神经网络模型的能够检测图像中物体的三维边框的顶点坐标，且准确性较高。利用该深度神经网络模型输出的物体的三维边框的顶点坐标可以准确地确定物体的三维位姿。

其中，上述标注数据还包括所述训练物体类别标签；上述深度神经网络模型还用于对包含物体的图像进行检测，并输出所述图像中的所述物体的类别。

确定所述训练物体与所述视觉定位标识的相对位置关系；

本发明实施例还提供了另一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取摄像机采集的包含目标物体的目标图像；

将所述目标图像输入预先训练完成的深度神经网络模型中进行检测，获得目标顶点坐标，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，深度神经网络模型是通过上述一种深度神经网络模型训练方法中训练得到的；

可见，在本发明实施例提供的方案中，计算机程序被执行时，电子设备首先获取摄像机采集的包含目标物体的目标图像，然后将目标图像输入采用上述深度神经网络模型训练方法训练得到的深度神经网络模型中进行检测，可以获得目标物体在目标图像中的三维边框的顶点坐标，即可以获得目标顶点坐标。电子设备可以根据获得的目标顶点坐标以及目标物体的目标几何参数，确定目标物体相对于采集该目标图像的摄像机的坐标系的三维位姿。由于该深度神经网络模型可以检测出物体的三维边框的顶点坐标，且检测准确性较高，因此，本发明实施例提供的一种物体三维位姿确定方法可以准确确定物体三维位姿。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例、电子设备实施例、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种深度神经网络模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述标注数据还包括物体类别标签；

3.根据权利要求1所述的方法，其特征在于，获取所述标注数据包括的所述训练物体在图像样本中的三维边框的顶点坐标的方式，包括：

确定所述训练物体与所述视觉定位标识的相对位置关系；

4.一种物体三维位姿确定方法，其特征在于，所述方法包括：

获取摄像机采集的包含目标物体的目标图像；

将所述目标图像输入深度神经网络模型中进行检测，获得目标顶点坐标，其中，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，所述深度神经网络模型通过权利要求1-3任一项所述的方法训练得到；

5.根据权利要求4所述的方法，其特征在于，所述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿，包括：

6.根据权利要求4所述的方法，其特征在于，当所述深度神经网络模型输出所述目标物体的目标类别时，在所述根据所述目标顶点坐标及所述目标物体的目标几何参数，确定所述目标物体相对于摄像机坐标系的三维位姿的步骤之前，还包括：

7.一种深度神经网络模型训练装置，其特征在于，所述装置包括：

8.一种物体三维位姿确定装置，其特征在于，所述装置包括：

顶点坐标获取模块，用于将所述目标图像输入深度神经网络模型中进行检测，获得目标顶点坐标，其中，所述目标顶点坐标为：所述目标物体在所述目标图像中的三维边框的顶点坐标，所述深度神经网络模型通过权利要求1-3任一项所述的装置训练得到；

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-3任一所述的方法步骤。

10.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求4-6任一所述的方法步骤。