CN110807431A

CN110807431A - 对象定位方法、装置、电子设备及存储介质

Info

Publication number: CN110807431A
Application number: CN201911077837.5A
Authority: CN
Inventors: 周康明; 俞云杰
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-02-18

Abstract

本申请提供一种对象定位方法、装置、电子设备及存储介质。本申请提供的对象定位方法应用于终端设备，终端设备包括摄像头，首先通过摄像头获取待测图像，然后根据待测图像以及预设检测模型确定目标检测信息，所确定的目标检测信息包括待测对象在预设相机坐标系中三维位置信息，最后根据三维位置信息确定待测对象与终端设备之间的相对位置数据，以使终端设备根据相对位置数据对待测对象进行定位。本申请提供的对象定位方法能够对待测对象三维检测的同时实现定位，通过对待测对象实现定位，能够为数字测图技术应用于自动化和智能化技术领域提供重要的技术支持，例如，为智能化驾驶、增强现实等领域提供关键的技术支持。

Description

对象定位方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种对象定位方法、装置、电子设备及存储介质。

背景技术

随着计算机视觉技术的快速发展与广泛应用，目标检测成为一个较为活跃的研究领域。对于目标的检测通常分为航拍图像与地拍图像的目标对象检测。

对于地拍图像的目标检测来说，目前大都集中于图像检索与场景分析，其关注点在于针对目标对象的结构特征的提取以及表示，而少有技术对地拍图像的目标对象实现三维检测及定位。

然而，对地拍图像的目标对象进行检测及定位是将数字测图技术应用于目前快速发展的自动化及智能化技术领域过程中亟需解决的技术问题。

发明内容

本申请提供一种对象定位方法、装置、电子设备及存储介质，用以解决现有技术中无法实现三维目标检测以及定位的技术问题。

第一方面，本申请提供一种对象定位方法，应用于终端设备，所述终端设备包括摄像头，所述方法包括：

获取待测图像，所述待测图像包括目标图像，所述目标图像为待测对象所对应的图像，所述摄像头用于获取所述待测图像；

根据所述待测图像以及预设检测模型确定目标检测信息，所述目标检测信息包括所述待测对象在预设相机坐标系中三维位置信息，所述预设相机坐标系为所述摄像头对应的坐标系；

根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据，以使所述终端设备根据所述相对位置数据对所述待测对象进行定位。

一种可能的设计中，在所述根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据之后，还包括：

根据所述相对位置数据确定车辆的行驶路线，以使所述车辆避让所述待测对象，所述终端设备为所述车辆。

可选地，在所述根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据之后，还包括：

根据所述相对位置数据确定增强现实内容的叠加位置信息，以根据所述增强现实内容、现实场景图像以及所述叠加位置信息显示增强现实场景图像，所述现实场景图像为所述摄像头拍摄的图像，所述现实场景图像中包括所述目标图像。

一种可能的设计中，所述根据所述待测图像以及预设检测模型确定目标检测信息，包括：

根据所述待测图像以及预设检测模型确定所述目标图像在预设图像坐标系中的二维信息，所述二维信息用于表征所述目标图像在所述待测图像中的相对位置；

根据所述二维信息以及预设相机坐标系与所述预设图像坐标系之间的映射关系确定所述三维位置信息。

一种可能的设计中，在所述根据所述待测图像以及预设检测模型确定目标检测信息之前，还包括：

利用标注数据训练集对预设卷积神经网络进行训练以生成所述预设检测模型，其中，所述标注数据训练集包括多个训练图像以及标注标示框信息，所述标注标示框信息包括标注标示框位置信息、标注标示框大小信息以及标注观察角信息，所述标注标示框信息用于标记目标图像在所述训练图像中的位置。

一种可能的设计中，所述利用标注数据训练集对预设卷积神经网络进行训练以生成所述预设检测模型，包括：

根据所述预设卷积神经网络确定预测标示框信息，所述预测标示框信息用于表征所述目标图像在所述训练图像中的位置，所述预测标示框信息包括预测标示框的位置信息、预测标示框的大小信息以及预测观察角信息；

根据所述预测标示框信息以及所述标注标示框信息确定标示框匹配值；

选取所述标示框匹配值大于预设匹配值的预测标示框信息对应的预测观察角信息进行离散化处理，以生成多个离散观察角信息；

根据所述标注观察角信息与所述离散观察角信息确定标签观察角信息；

根据所述标签观察角信息以及预设损失函数确定所述预测观察角信息与所述标签观察角信息之间的损失值；

根据所述损失值对所述预设卷积神经网络进行参数更新，以生成所述预设检测模型。

一种可能的设计中，所述根据所述待测图像以及预设检测模型确定所述目标图像在预设图像坐标系中的二维信息，包括：

根据所述待测图像以及预设检测模型确定所述二维信息，所述二维信息包括目标标示框的坐标信息、目标标示框的大小信息以及目标观察角的角度信息。

第二方面，本申请提供一种对象定位装置，应用于终端设备，所述终端设备包括摄像头，所述装置包括：

获取模块，用于获取待测图像，所述待测图像包括目标图像，所述目标图像为待测对象所对应的图像，所述摄像头用于获取所述待测图像；

第一确定模块，用于根据所述待测图像以及预设检测模型确定目标检测信息，所述目标检测信息包括所述待测对象在预设相机坐标系中三维位置信息，所述预设相机坐标系为所述摄像头对应的坐标系；

第二确定模块，用于根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据，以使所述终端设备根据所述相对位置数据对所述待测对象进行定位。

一种可能的设计中，所述对象定位装置，还包括：

第三确定模块，用于根据所述相对位置数据确定车辆的行驶路线，以使所述车辆避让所述待测对象，所述终端设备为所述车辆。

可选地，所述对象定位装置，还包括：

第四确定模块，用于根据所述相对位置数据确定增强现实内容的叠加位置信息，以根据所述增强现实内容、现实场景图像以及所述叠加位置信息显示增强现实场景图像，所述现实场景图像为所述摄像头拍摄的图像，所述现实场景图像中包括所述目标图像。

一种可能的设计中，所述第一确定模块，包括：

第一确定子模块，用于根据所述待测图像以及预设检测模型确定所述目标图像在预设图像坐标系中的二维信息，所述二维信息用于表征所述目标图像在所述待测图像中的相对位置；

第二确定子模块，用于根据所述二维信息以及预设相机坐标系与所述预设图像坐标系之间的映射关系确定所述三维位置信息。

一种可能的设计中，所述对象定位装置，还包括：

训练模块，用于利用标注数据训练集对预设卷积神经网络进行训练以生成所述预设检测模型，其中，所述标注数据训练集包括多个训练图像以及标注标示框信息，所述标注标示框信息包括标注标示框位置信息、标注标示框大小信息以及标注观察角信息，所述标注标示框信息用于标记目标图像在所述训练图像中的位置。

一种可能的设计中，所述训练模块，具体用于：

一种可能的设计中，所述第一确定子模块，具体用于：

第三方面，本申请提供一种电子设备，包括：

摄像头；

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面及可选的方案涉及的对象定位方法。

第四方面，本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面及可选的方案涉及的对象定位方法。

本申请提供一种对象定位方法、装置、电子设备及存储介质，应用于终端设备，该终端设备包括摄像头。首先获取待测图像，其中，待测图像中包括有目标图像，该目标图像即为待测对象所对应的图像，然后根据该待测图像以及预设检测模型确定目标检测信息，其中，目标检测信息包括待测对象在预设相机坐标系中三维位置信息，摄像头用于获取待测图像，预设相机坐标系为摄像头对应的坐标系，最后再根据待测对象在预设相机坐标系中的三维位置信息确定该待测对象与终端设备之间的相对位置数据，以使终端设备能够根据所获得的相对位置数据对待测对象进行定位。从而实现对待测对象的检测及定位，为数字测图技术应用于自动化和智能化技术领域提供重要的技术支持，例如，为智能化驾驶、增强现实等领域提供关键的技术支持。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种对象定位方法的流程示意图；

图2为本申请实施例提供的相机坐标系与图像坐标系的关系示意图；

图3为本申请实施例提供的对象定位方法的一种应用场景示意图；

图4为本申请实施例提供的对象定位方法的另一种应用场景示意图；

图5为本申请实施例提供的一种确定目标检测信息的流程示意图；

图6为本申请实施例提供的待测对象的观察角示意图；

图7为本申请实施例提供的一种生成预设检测模型的流程示意图；

图8为本申请实施例提供的一种对象定位装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法和装置的例子。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本申请实施例提供的一种对象定位方法的流程示意图，该对象定位方法可以应用于终端设备，终端设备包括摄像头，其中，终端设备可以为车辆、增强现实(AugmentedReality，以下简称AR)装置、手机、计算机、智能手表、平板电脑等，车辆可以为智能驾驶车辆，例如无人驾驶；AR装置可以为AR眼镜、穿戴式的AR设备等。终端设备可以是无线终端也可以是有线终端。凡是有摄像头的终端设备皆可以，对此，本申请实施例不作限定。

如图1所示，本实施例提供的对象定位方法，包括如下步骤；

S11：获取待测图像。

待测图像包括目标图像，目标图像为待测对象所对应的图像，摄像头用于获取待测图像。

本实施例提供的对象定位方法，应用于终端设备，其中，该终端设备包括摄像头，采用该摄像头获取待测图像，待测图像中包括有目标图像，目标图像为待测对象所对应的图像，其中，待测对象可以为具有规则形状的物体。具体地，例如，采用终端设备的摄像头拍摄一张包含有待测对象的照片，假设待测对象为建筑物，所拍摄的这张照片则为待测图像，该建筑物在这张照片中的图像即为目标图像。

可选地，本申请实施例所获取的待测图像可以为彩色图像，也可以为灰度图像，也可以为黑白图像，对此，本申请实施例不作限定。

S12：根据待测图像以及预设检测模型确定目标检测信息。

其中，目标检测信息包括待测对象在预设相机坐标系中三维位置信息，预设相机坐标系为摄像头对应的坐标系。

值得理解的是，预设相机坐标系为摄像头对应的坐标系。因为，相机坐标系的概念是以相机的聚焦中心为原点，以光轴为Z轴建立的三维直角坐标系，此处的相机则为本申请实施例中终端设备上的摄像头。此外，相机坐标系也称观察坐标系，相机坐标系的原点为相机的光心，X轴与Y轴与图像的X轴和Y轴分别平行，Z轴为相机光轴，它与图形平面垂直。光轴与图像平面的交点，即为图像坐标系的原点，图像坐标系为二维直角坐标系。

图2为本申请实施例提供的相机坐标系与图像坐标系的关系示意图，如图2所示，预设相机坐标系为X_CY_CZ_C，其中，摄像头的光心为该预设相机坐标系的原点O_C，X轴为X_C，Y轴为Y_C，Z轴为Z_C，P为待测对象的顶点，AB为待测对象的最长底边，假设待测对象为建筑物，该建筑物为一长方体，则P为该建筑物的顶点，AB为该建筑物的长，该待测对象建筑物的顶点P在预设相机坐标系中的坐标为(X_C，Y_C，Z_C)。

在进行拍摄时，与预设相机坐标系对应的预设图像坐标系，则为如图2所示的x-y坐标系，其中，该图像坐标系是以图像中心点建立的以像素为单位的直角坐标系，o为该图像坐标系的原点，横坐标轴为x轴，纵坐标轴为y轴。如上所描述，若P为待测对象的顶点，则p为顶点P在图像坐标系中的对应点，即顶点P在预设图像坐标系中p点的坐标为(x，y)。可以理解的是，在图2中，f为拍摄所用摄像头的焦距。

在获取到包括有目标图像的待测图像之后，根据该待测图像以及预设检测模型可以确定目标检测信息。其中，目标检测信息包括待测对象在预设相机坐标系中的三维位置信息。可以理解为，将待测对象的形状近似于一长方体，确定该长方体的上、下表面的中心点在预设相机坐标系中的坐标，即为确定待测对象在预设相机坐标系中的三维位置信息。

值得理解的是，预设检测模型可以为根据图像信息输出图片数据信息的模型。

S13：根据三维位置信息确定待测对象与终端设备之间的相对位置数据，以使终端设备根据相对位置数据对待测对象进行定位。

在根据待测图像以及预设检测模型确定了目标检测信息之后，该目标检测信息包括待测对象在预设相机坐标系中的三维位置信息，具体地，假设待测对象为建筑物，该建筑物的形状可以近似于长方体，该长方体的上、下表面中心点在预设相机坐标系中的坐标，就为待测对象在预设相机坐标系中的三维位置信息。根据该三维位置信息可以确定待测对象与终端设备之间的相对位置数据，可以理解为，因预设相机坐标系为摄像头对应的坐标系，即该预设相机坐标系为终端设备上的摄像头在获取待测图像时的位置所决定，因此，根据该三维位置信息可以确定待测对象与终端设备之间的相对位置数据，该相对位置数据可以表明终端设备在获取待测图像时的摄像头所在的位置与待测对象在实际三维空间中的实际位置之间的相对数据，例如，该相对位置数据为距离终端设备正前方200米，或者左前方45度300米等等。

当获知待测对象与终端设备之间的相对位置数据之后，以终端设备为参考点，则可以使得终端设备根据该相对位置数据对待测对象实现定位。

可选地，本申请实施例提供的对象定位方法可以实时实现，可以理解为，终端设备通过摄像头实时获取待测图像，终端设备根据相对位置数据对待测对象进行实时定位。

本实施例提供的对象定位方法，应用于终端设备，该终端设备包括摄像头，首先通过摄像头获取待测图像，其中，待测图像包括目标图像，目标图像即为待测对象所对应的图像，然后根据待测图像以及预设检测模型确定目标检测信息，所确定的目标检测信息包括待测对象在预设相机坐标系中三维位置信息，而预设相机坐标系为摄像头对应的坐标系，最后根据该三维位置信息确定待测对象与终端设备之间的相对位置数据，以使终端设备根据相对位置数据对待测对象进行定位。本实施例提供的对象定位方法能够对待测对象检测的同时实现定位，通过对待测对象实现定位，能够为数字测图技术应用于自动化和智能化技术领域提供重要的技术支持，例如，为智能化驾驶、增强现实等领域提供关键的技术支持。

可选地，在图1所示实施例的基础上，本申请实施例提供的对象定位方法在根据三维位置信息确定待测对象与终端设备之间的相对位置数据之后，还包括：

根据相对位置数据确定车辆的行驶路线，以使车辆避让待测对象，终端设备为车辆。

图3为本申请实施例提供的对象定位方法的一种应用场景示意图，如图3所示，本实施例中终端设备为车辆1，待测对象为建筑物2。当该车辆1行驶在包含有建筑物2的行驶路线上时，车辆1通过其上设置的摄像头，获取包含有该建筑物2的图像，对建筑物2实现定位，即获得建筑物2的三维位置信息。当确定该三维位置信息，即可获知建筑物2与车辆1之间的相对位置数据，例如，建筑物2位于车辆1当前位置的正前方200米处，或者左前方45度方向距离车辆当前位置300米处等。从而可以使得，车辆1根据所获得的相对位置数据更准确的规划车辆1的行驶路线，以使车辆1避让建筑物2。

本实施例提供的对象定位方法，可以根据相对位置数据确定车辆的行驶路线，以使车辆避让待测对象，保障车辆的安全行驶，尤其是在智能化驾驶领域，例如无人驾驶领域，本实施例提供的对象定位方法可以为无人驾驶技术提供重要的技术支持。

可选地，图4为本申请实施例提供的对象定位方法的另一种应用场景示意图，如图4所示，本实施例提供的根据三维位置信息确定待测对象与终端设备之间的相对位置数据之后，还包括：

根据相对位置数据确定增强现实内容的叠加位置信息，以根据增强现实内容、现实场景图像以及叠加位置信息显示增强现实场景图像，现实场景图像为摄像头拍摄的图像，现实场景图像中包括目标图像。

如图4所示，本实施例中的终端设备为AR眼镜3，待测对象为建筑物4。在通过AR眼镜3确定了建筑物4的三维位置信息之后，通过该三维位置信息可以确定AR眼镜3与建筑物4之间的相对位置数据，根据该相对位置数据可以确定增强现实内容的叠加位置信息，以根据增强现实内容、现实场景图像以及叠加位置信息显示增强现实场景图像，可以理解为，AR眼镜3将获得的虚拟物体按照正确的空间透视关系叠加到真实场景中时，AR眼镜3可以根据其与建筑物4之间的相对位置数据明确虚拟物体叠加到真实场景中的确切位置，在明确了虚拟物体在真实场景中的正确放置位置后，AR眼镜3的虚拟信息渲染***对虚拟物体进行渲染，最后虚实融合显示***将虚拟物体叠加到真实场景中的内容进行显示，也就是将增强现实场景图像进行显示。其中，增强现实内容为虚拟物体，现实场景图像为摄像头拍摄的包含有建筑物4的图像。

本实施例提供的对象定位方法，可以根据相对位置数据确定增强现实内容的叠加位置信息，以根据增强现实内容、现实场景图像以及叠加位置信息显示增强现实场景图像，从而使得，所显示的增强现实场景图像更加切合实际场景，提高了使用增强现实设备的用户体验。

一种可能的设计中，步骤S12可以通过图5所示的步骤实现，图5为本申请实施例提供的一种确定目标检测信息的流程示意图，如图5所示，包括如下步骤：

S121：根据待测图像以及预设检测模型确定目标图像在预设图像坐标系中的二维信息，二维信息用于表征目标图像在待测图像中的相对位置。

根据待测图像以及预设检测模型确定目标图像在预设图像坐标系中的二维信息，可以理解为，根据待测图像以及预设检测模型确定待测图像中的目标图像在预设图像坐标系中的二维信息，该二维信息可以包括目标图像的坐标信息、大小信息以及观察角信息等可以明确目标图像在待测图像中的位置关系的信息。其中，该二维信息是为了表征目标图像在待测图像中的相对位置。

进一步地，为了更加明确待测图像中目标图像的二维信息，可选地，根据待测图像以及预设检测模型确定目标图像在预设图像坐标系中的二维信息，包括：

根据待测图像以及预设检测模型确定二维信息，二维信息包括目标标示框的坐标信息、目标标示框的大小信息以及目标观察角的角度信息。

可以理解的是，将目标图像采用标注框进行标记，则标记目标图像的标注框为目标标示框。换言之，该目标标示框所标记的为待测对象在待测图像中所对应的图像，即目标图像。而观察角为拍摄所用摄像头的光心与待测对象中心点的连线与待测对象所在平面的夹角，如图6所示，图6为本申请实施例提供的待测对象的观察角示意图。图6中的相机位置即为终端设备摄像头的位置，待测对象以建筑物为例示出。因此，根据待测图像以及预设检测模型可以确定目标图像在预设图像坐标系中的二维信息，也就是根据待测图像以及预设检测模型确定出目标标示框的坐标信息、目标标示框的大小信息以及目标观察角的角度信息。换言之，确定了目标图像在预设图像坐标系中的二维信息，该二维信息包括有目标标示框的坐标信息、目标标示框的大小信息以及目标观察角的角度信息。例如，目标标示框以B^2d来表示，该目标标示框B^2d的中心点在预设图像坐标系中的坐标信息为(x^2d,y^2d)，大小信息h^2d和w^2d分别表示目标标示框的高和宽，目标观察角的角度信息为α。

S122：根据二维信息以及预设相机坐标系与预设图像坐标系之间的映射关系确定三维位置信息。

如前所描述的预设相机坐标系和预设图像坐标系的概念，可知，预设相机坐标系和预设图像坐标系之间存在着下列映射关系：

可以继续参照图2进行描述，在图2中，将点B、点P分别与预设相机坐标系的原点O_C连接，其中直线O_CB与图像坐标系x轴的交点为点C，在这几点之间构成了几个三角形(三角形以Δ表示)分别为：ΔABO_C、ΔoCO_C、ΔPBO_C以及ΔpCO_C，并且，根据三角形相似原理，上述三角形之间存在如下的相似关系：

ΔABO_C～ΔoCO_C (1)

ΔPBO_C～ΔpCO_C (2)

根据上述相似关系，三角形的各边之间可以得到如下关系：

则

以及

此外，假设待测对象的形状可以近似于一长方体，该长方体的尺寸可以表示为L＝(w，h，l)，其中，w，h，l分别为该长方体的宽度、高度以及长度。其在预设图像坐标系的投影即为长方形。本申请实施例提供的对象定位方法，在对该方法实施中所获取的大量数据进行统计时发现，长方体的上表面中心点在预设图像坐标系中存在一个稳定的、接近于长方形上边中点的投影，长方体的下表面中心点在预设图像坐标系中存在一个相似地、接近于长方形下边中点的投影。当待测对象距离终端设备的摄像头越来越远时，待测对象所近似于的长方体的上、下表面中心点的投影会更加接近于长方形上、下边的中点；当待测对象相对于摄像头的观察角a越来越小时，待测对象所近似于的长方体的上、下表面中心点的投影也会更接近于长方形上、下边的中点。

据此，可以定义参数λ，该参数与长方形的宽度以及观察角α之间可以存着如下关系：

其中，h₀与α₀是从大量数据构成的数据集中估算的统计量，w₁与w₂是权重参数。

值得理解的是，因为投影关系，长方形的宽度h^2d即为上述描述中目标标示框的高度值，观察角α也即为目标观察角的角度。若目标标示框B^2d的中心点坐标为(x^2d,y^2d)，高和宽分别为h^2d和w^2d，结合公式(1)-(6)，则可以得到该目标标示框所对应的长方体的上表面中心点在预设图像坐标系中的坐标为

长方体的下表面中心点在预设图像坐标系中的坐标为

该长方体的上、下表面中心点在预设图像坐标系中的坐标也就是待测对象的上、下表面中心点在预设图像坐标系中的坐标。

将该待测对象的上、下表面中心点的坐标进行均匀化，则得到待测对象上表面中心点的均匀化坐标

类似地，待测对象下表面中心点的均匀化坐标

得到待测对象上、下表面中心点的均匀化坐标之后，利用终端设备摄像头的内参矩阵K，则可获得待测对象上、下表面中心点的归一化坐标：

从而，可得到待测对象的归一化后的高度

即：

假设将终端设备的摄像头的平面与待测对象的距离用z来表示，则存在关系：

其中h为待测对象的实际高度。

综上，可以得到待测对象的上、下表面中心点在预设相机坐标系中的坐标分别表示为：

结合公式(7)-(11)，则可以将待测对象的上、下表面中心点在预设相机坐标系中的坐标通过目标标示框的坐标信息进行数学关系的表示，也就是获得待测对象的上、下表面中心点在预设相机坐标系中的坐标。当获知待测对象的上、下表面在预设相机坐标系中的坐标，对于其形状近似于长方体的待测对象而言，相当于固定了待测对象在预设相机坐标系中的位置，即得到待测对象在预设相机坐标系中的三维位置信息。

值得说明的是，为了描述方便，本申请实施例中将待测对象的形状近似于长方体，而对于形状近似于正方体的待测对象本申请实施例提供的对象定位方法同样适用。若待测对象的形状近似于其他六面体，例如，四棱台，则以摄像头为参考点所投影的六面体的长方形或正方形即为梯形，本申请实施例提供的对象定位方法同样适用。对此，本申请实施例不作限定。

本实施例提供根据待测图像以及预设检测模型确定目标检测信息的方法，首先根据待测图像以及预设检测模型确定目标图像在预设图像坐标系中的二维信息，然后根据该二维信息以及预设相机坐标系与预设图像坐标系之间的映射关系，确定待测对象在预设相机坐标系中的三维位置信息。从而，实现对待测对象的检测以及定位，通过对待测对象实现定位，能够为数字测图技术应用于自动化和智能化技术领域提供重要的技术支持，例如，为智能化驾驶、增强现实等领域提供关键的技术支持。

在上述实施例的基础上，可选地，在根据待测图像以及预设检测模型确定目标检测信息之前，还包括：

利用标注数据训练集对预设卷积神经网络进行训练以生成预设检测模型，其中，标注数据训练集包括多个训练图像以及标注标示框信息，标注标示框信息包括标注标示框位置信息、标注标示框大小信息以及标注观察角信息，标注标示框信息用于标记目标图像在训练图像中的位置。

在根据待测图像以及预设检测模型确定目标检测信息之前，可以利用标注数据训练集对预设卷积神经网络进行训练以生成预设检测模型。标注数据训练集包括多个训练图像以及标记标示框信息，可以理解为，获取多个训练图像，也就是拍摄多个包含有待测对象的图像，例如，从不同角度拍摄包含有待测对象的图像，如正面、侧面、背面进行拍摄，又或是距离待测对象不同的距离进行拍摄等等。

将获取的多个图像作为训练图像，并且，于训练图像上将待测对象对应的图像采用标示框进行标识，即获得标注标示框。当确定了标注标示框之后，即可获知标注标示框信息，标注标示框信息包括标注标示框位置信息、标注标示框大小信息以及标注观察角信息，标注标示框位置信息为标示框的左上角以及右下角在预设图像坐标系中的坐标，标注观察角信息为在进行拍摄获得训练图像时，拍摄的光心与待测对象的中心点的连线与待测对象所在平面的夹角。对训练图像进行标注标示框信息标识是为了标记目标图像在训练图像中的位置。

本实施例提供的对象定位方法，在进行根据待测图像以及预设检测模型确定目标检测信息之前，利用标注数据训练集对预设卷积神经网络进行训练，以生成预设检测模型，从而实现对预设卷积神经网络的改进，以使生成的预设检测模型能够对目标图像的目标观察角信息进行准确预测。

可选地，图7为本申请实施例提供的一种生成预设检测模型的流程示意图，如图7所示，本实施例提供一种利用标注图像训练集对预设卷积神经网络进行训练以生成预设检测模型，包括：

S401：根据预设卷积神经网络确定预测标示框信息。

其中，预测标示框信息用于表征目标图像在训练图像中的位置，预测标示框信息包括预测标示框的位置信息、预测标示框的大小信息以及预测观察角信息。

根据预设卷积神经网络确定预测标示框信息，可以理解为，将获得的任意包含有待测对象的训练图像通过预设卷积神经网络进行对象检测，其可以对训练图像中的目标图像进行检测，以得到预测标示框信息，所得到的预测标示框信息可以表征目标图像在训练图像中的位置，例如，利用预测标示框的左上角以及右下角在预设图像坐标系中的坐标信息来表示目标图像的位置。该预测标示框信息包括预测标示框的位置信息、预测标示框的大小信息以及预测观察角。

S402：根据预测标示框信息以及标注标示框信息确定标示框匹配值。

目标检测技术领域中通常使用交并比(Intersection-Over-Union，简称IOU)来表征在进行目标检测时产生的候选框(Candidate Box)与原标记框(Ground Truth Box)的交叠率，即它们的交集与并集的比值。最理想情况是完全重叠，即比值为1。

具体地，在本申请实施例中，标注标示框信息即为原标记框信息，预测标示框信息为进行目标检测时产生的候选框信息。根据预测标示框信息以及标注标示框信息确定标示框匹配值，可以理解为，在预设卷积神经网络对训练图像进行目标检测，得到标示框信息的同时，会得到交叠率，即本实施中的标示框匹配值，其中交叠率越高说明预测标示框信息与标注标示框信息匹配度越高。

S403：选取标示框匹配值大于预设匹配值的预测标示框信息对应的预测观察角信息进行离散化处理，以生成多个离散观察角信息。

根据预测标示框信息以及标注标示框信息确定标示框匹配值之后，选取标示框匹配值大于预设匹配值的预测标示框信息，对所选取的预测标示框信息中对应的预测观察角信息进行离散化处理，以生成多个离散观察角信息。其中，离散化的区间可以为[-π,π]，经过离散化后，则可以将观察角信息离散为多个观察角信息，即得到多个离散观察角信息。

S404：根据标注观察角信息与离散观察角信息确定标签观察角信息。

在得到多个离散观察角信息之后，将标注观察角信息与离散观察角信息分别做差，所得到的差值为标签观察角信息，可以用Δα_g进行表示。

S405：根据标签观察角信息以及预设损失函数确定预测观察角信息与标签观察角信息之间的损失值。

在得到标签观察角信息之后，利用预设损失函数确定预测观察角信息与该标签观察角信息之间的损失值。可选地，预设损失函数可以为平滑版本L1损失函数。

S406：根据损失值对预设卷积神经网络进行参数更新，以生成预设检测模型。

在获得预测观察角信息与标签观察角信息之间的损失值之后，利用该损失值对预设卷积神经网络进行参数更新，以生成预设检测模型。该预设检测模型在生成过程中添加了预测观察角信息的支路，使得该预设检测模型能够对观察角实现准确预测。其中，可以通过不间断的参数更新，以使得生成的预设检测模型对待测图像的目标检测达到预期的精度。

本实施例提供的利用标注图像训练集对预设卷积神经网络进行训练以生成预设检测模型的方法，首先通过预设卷积神经网络确定预测标示框信息，预测标示框信息可以表征目标图像在训练图像中的位置，并且预测标示框信息中包括预测标示框的位置信息、预测标示框的大小信息以及预测观察角信息，然后根据预测标示框信息以及标注标示框信息确定标示框匹配值，并选取标示框匹配值大于预设匹配值的预测标示框，对该预测标示框信息对应的预测观察角信息进行离散化处理，则生成多个离散观察角信息，再根据标注观察角信息与离散观察角信息确定标签观察角信息，再利用预设损失函数，确定预测观察角信息与标签观察角信息之间的损失值，最后根据所获得的损失值对预设卷积神经网络进行参数更新，生成预设检测模型。本实施例提供的预设检测模型通过添加一个新的支路的标示框信息，即预测观察角信息，使得通过该预设检测模型对待测图像进行目标检测时，能够获得目标图像的目标观察角的准确信息。

图8为本申请实施例提供的一种对象定位装置的结构示意图，如图8所示，本实施例提供的对象定位装置80，包括：

获取模块81，用于获取待测图像，待测图像包括目标图像，目标图像为待测对象所对应的图像，摄像头用于获取待测图像；

第一确定模块82，用于根据待测图像以及预设检测模型确定目标检测信息，目标检测信息包括待测对象在预设相机坐标系中三维位置信息，预设相机坐标系为摄像头对应的坐标系。

第二确定模块83，用于根据三维位置信息确定待测对象与终端设备之间的相对位置数据，以使终端设备根据相对位置数据对待测对象进行定位。

本实施提供的对象定位装置的实现原理以及技术效果与图1所示实施例类似，在此不再赘述。

一种可能的设计中，本申请实施例提供的对象定位装置80，还包括：

第三确定模块84，用于根据相对位置数据确定车辆的行驶路线，以使车辆避让待测对象，终端设备为车辆。

本实施提供的对象定位装置的实现原理以及技术效果与图3所示实施例类似，在此不再赘述。

可选地，本申请实施例提供的对象定位装置80，还包括：

第四确定模块85，用于根据相对位置数据确定增强现实内容的叠加位置信息，以根据增强现实内容、现实场景图像以及叠加位置信息显示增强现实场景图像，现实场景图像为摄像头拍摄的图像，现实场景图像中包括目标图像。

本实施提供的对象定位装置的实现原理以及技术效果与图4所示实施例类似，在此不再赘述。

一种可能的设计中，本申请实施例提供的第一确定模块82，包括：

第一确定子模块821，用于根据待测图像以及预设检测模型确定目标图像在预设图像坐标系中的二维信息，二维信息用于表征目标图像在待测图像中的相对位置。

第二确定子模块822，用于根据二维信息以及预设相机坐标系与预设图像坐标系之间的映射关系确定三维位置信息。

可选地，本申请实施例提供的第一确定子模块821，具体用于：

训练模块86，用于利用标注数据训练集对预设卷积神经网络进行训练以生成预设检测模型，其中，标注数据训练集包括多个训练图像以及标注标示框信息，标注标示框信息包括标注标示框位置信息、标注标示框大小信息以及标注观察角信息，标注标示框信息用于标记目标图像在训练图像中的位置。

可选地，本申请实施例提供的训练模块86，具体用于：

根据预设卷积神经网络确定预测标示框信息，预测标示框信息用于表征目标图像在训练图像中的位置，预测标示框信息包括预测标示框的位置信息、预测标示框的大小信息以及预测观察角信息；

根据预测标示框信息以及标注标示框信息确定标示框匹配值；

选取标示框匹配值大于预设匹配值的预测标示框信息对应的预测观察角信息进行离散化处理，以生成多个离散观察角信息；

根据标注观察角信息与离散观察角信息确定标签观察角信息；

根据标签观察角信息以及预设损失函数确定预测观察角信息与标签观察角信息之间的损失值；

根据损失值对预设卷积神经网络进行参数更新，以生成预设检测模型。

本实施提供的对象定位装置中训练模块的实现原理以及技术效果与图7所示实施例类似，在此不再赘述。

图9为本申请实施例提供的一种电子设备的结构示意图，本实施例提供的电子设备可以用于执行方法实施例中提供的对象定位方法，如图9所示(以一个处理器为例示出)，本实施例提供的电子设备500包括摄像头501；至少一个处理器502；以及与至少一个处理器502通信连接的存储器503；其中，存储器503存储有可被至少一个处理器502执行的指令，该指令被至少一个处理器502执行，以使至少一个处理器502能够执行上述各实施例中对象定位方法的各个步骤，具体可以参见前述方法实施例中的相关描述。

在示例性实施例中，本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述各实施例中对象定位方法的各个步骤。例如，可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种对象定位方法，其特征在于，应用于终端设备，所述终端设备包括摄像头，所述方法包括：

2.根据权利要求1所述的对象定位方法，其特征在于，在所述根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据之后，还包括：

3.根据权利要求1所述的对象定位方法，其特征在于，在所述根据所述三维位置信息确定所述待测对象与所述终端设备之间的相对位置数据之后，还包括：

4.根据权利要求1-3中任意一项所述的对象定位方法，其特征在于，所述根据所述待测图像以及预设检测模型确定目标检测信息，包括：

5.根据权利要求4所述的对象定位方法，其特征在于，在所述根据所述待测图像以及预设检测模型确定目标检测信息之前，还包括：

6.根据权利要求5所述的对象定位方法，其特征在于，所述利用标注数据训练集对预设卷积神经网络进行训练以生成所述预设检测模型，包括：

7.根据权利要求6所述的对象定位方法，其特征在于，所述根据所述待测图像以及预设检测模型确定所述目标图像在预设图像坐标系中的二维信息，包括：

8.一种对象定位装置，其特征在于，应用于终端设备，所述终端设备包括摄像头，所述装置包括：

9.一种电子设备，其特征在于，包括：

摄像头；

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的对象定位方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的对象定位方法。