WO2020024845A1

WO2020024845A1 - 定位方法和装置

Info

Publication number: WO2020024845A1
Application number: PCT/CN2019/097248
Authority: WO
Inventors: 李月; 许景涛; 刘童
Original assignee: 京东方科技集团股份有限公司
Priority date: 2018-08-01
Filing date: 2019-07-23
Publication date: 2020-02-06
Also published as: CN110163914A; CN110163914B; US20200380717A1; US11100670B2

Abstract

本公开实施例提供了一种定位方法和装置。该方法可以包括：获取相机所捕获的图像；基于深度学习模型从所述图像获得相机在世界坐标系下的第一坐标，基于所述第一坐标获得相机在世界坐标系下的初始坐标；以及基于相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标。

Description

定位方法和装置

相关申请的交叉引用

本申请要求2018年8月1日递交的中国申请CN201810862721.1的优先权，其全部公开内容通过引用合并于此。

技术领域

本公开涉及定位技术领域，尤其涉及一种定位方法、装置和设备以及计算机可读存储介质。

背景技术

目前，用于室内定位的方法主要包括基于视觉的定位方法，而基于视觉的定位方法又主要包括基于SLAM(simultaneous localization and mapping)的定位方法以及基于深度学习的定位方法。

基于视觉里程计的定位方法是一种基于SLAM的定位方法。在基于视觉里程计的定位方法中，需要预先确定相机在世界坐标系下的初始坐标，然后再基于该初始坐标以及连续的图像序列通过帧间匹配进行定位。此外，该基于视觉里程计的定位方法还需要每间隔一段预设时间就进行累计误差的消除。

基于场景的端到端定位方法是一种基于深度学习的定位方法。该基于场景的定位方法基于相机所拍摄的图像的场景直接得到相机在世界坐标系下的三维相姿。

发明内容

根据本公开的一个方面，提供了一种定位方法，包括：

获取相机所捕获的图像；

基于深度学习模型从所述图像获得所述相机在世界坐标系下的第一坐标，

基于所述第一坐标获得所述相机在世界坐标系下的初始坐标；以及

基于所述相机在世界坐标系下的初始坐标，通过帧间匹配确定所述相机在世界坐标系下的实时坐标。

在实施例中，所述方法还包括：

检测所述图像中是否包括标志物，其中所述标志物具有至少3个顶点，

其中，所述基于所述第一坐标获得所述相机在世界坐标系下的初始坐标包括：

响应于所述图像中不包括所述标志物，将所述第一坐标用作所述相机在世界坐标系下的初始坐标。

在实施例中，所述方法还包括：

检测所述图像是否包括标志物，其中所述标志物具有至少3个顶点；

响应于所述图像中包括所述标志物，基于所述标志物和所述第一坐标获得所述相机在世界坐标系下的第二坐标；以及

将所述第二坐标用作所述相机在世界坐标系下的初始坐标。

在实施例中，所述基于所述标志物和所述第一坐标获得相机在世界坐标系下的第二坐标包括：

基于所述图像获得所述标志物的顶点在相机坐标系下的坐标；

基于所述第一坐标从预先存储的多个标志物的顶点在世界坐标系下的坐标，确定所述图像中包括的所述标志物的顶点在世界坐标系下的坐标；

基于所述图像中包括的所述标志物的顶点在相机坐标系下的坐标以及所述图像中包括的所述标志物的顶点在世界坐标系下的坐标，获得相机坐标系相对于世界坐标系的旋转矩阵和平移矩阵；以及

基于所述旋转矩阵和所述平移矩阵确定所述相机在世界坐标系下的第二坐标。

在实施例中，所述检测所述图像中是否包括标志物包括：

基于单次多框检测器算法检测所述图像中是否包括标志物。

在实施例中，所述方法还包括，

以预设的时间间隔更新所述相机在世界坐标系下的初始坐标；以及

基于更新的相机在世界坐标系下的初始坐标，通过帧间匹配确定相机在世界坐标系下的实时坐标。

在实施例中，所述更新所述相机在世界坐标系下的初始坐标包括：

基于实时获取的图像中包括的场景和标志物中的至少一个，获得相机在世界坐标系下的初始坐标。

在实施例中，所述深度学习模型包括基于PoseNet网络的深度学习模型。

本公开的另一方面，提供了一种定位装置，包括：

图像获取器，被配置成获取相机所捕获的图像；

初始坐标确定器，与所述图像获取器相耦接且被配置成：基于深度学习模型从所述图像获得所述相机在世界坐标系下的第一坐标，基于所述第一坐标获得所述相机在世界坐标系下的初始坐标；以及

实时位置确定器，与图像获取器和所述初始坐标确定器相耦接，且被配置成：基于所述相机在世界坐标系下的初始坐标，通过帧间匹配确定所述相机在世界坐标系下的实时坐标。

在实施例中，所述初始坐标确定器还被配置成：检测所述图像中是否包括标志物，其中所述标志物具有至少3个顶点；以及

在实施例中，所述初始坐标确定器还被配置成：检测所述图像是否包括标志物，其中所述标志物具有至少3个顶点；

响应于所述图像中包括所述标志物，基于所述标志物和所述第一坐标获得所述相机在世界坐标系下的第二坐标，以及

将所述第二坐标用作所述相机在世界坐标系下的初始坐标。

在实施例中，所述初始坐标确定器还被配置成：

在实施例中，所述初始坐标确定器还被配置成：基于单次多框检测器算法检测所述图像中是否包括标志物。

在实施例中，所述初始坐标确定器还被配置成：

基于由图像获取器实时获取的图像中包括的场景和标志物中的至少一个，获得所述相机在世界坐标系下的初始坐标。

根据本公开的再一方面，提供了一种定位设备，包括：

一个或多个处理器；以及

存储器，与所述一个或多个处理器相耦接，并存储有计算机可执行指令，所述计算机可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行所述方法。

根据本公开的再一方面，提供了一种计算机可读存储介质，其上存储了计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使所述一个或多个处理器执行所述方法。

附图说明

为了更清楚地说明本公开实施例，下面通过参考附图详细描述本公开的实施例。本公开实施例旨在用于解释本公开，而不应理解为对本公开的限制。在附图中，

图1示出了根据本公开的实施例的定位装置的示意图；

图2示出了根据本公开的实施例的定位方法的流程的示意图；

图3示出了根据本公开的实施例的的定位方法的流程的示意图；以及

图4示出了根据本公开的实施例的定位设备的示意图。

贯穿附图，相同或类似的标号表示相同或类似的元件。

具体实施方式

基于视觉里程计的定位方法几乎不受环境变化的影响。但是，基于视觉里程计的定位方法需要获取相机在世界坐标系下的初始坐标，并且每间隔一段时间就进行累积误差的消除。然而，相机在世界坐标系下的初始坐标的获取以及累积误差的消除都需要借助于WIFI模块或者蓝牙之类的硬件设备，这增加了额外的硬件成本。基于场景的端到端定位方法对环境变化具有一定的鲁棒性，但是它的定位精度相对较低。

本公开的实施例的目的之一在于提供一种满足需要的定位精度的定位方法。

以下将结合附图对根据本公开的实施例进行说明。需要注意的是，尽管以下描述基于环境变化较大的商场进行说明，但是根据本公开的实施例可以应用于环境变化较大的任何其他现实应用情形。

图1示出了根据本公开的实施例的定位装置110的示意图。该装置110可以与相机120彼此耦接。它们通过诸如WIFI、蓝牙等无线技术进行通信。尽管在图1中，定位装置110和相机120被示为分离的设备，但是根据本公开的实施例不限于此，定位装置110和相机120可以被集成在一起。

相机120被配置成捕获图像并将所捕获的图像发送给定位装置110。相机120可以实时地，或者以预设的时间间隔捕获和发送图像。相机120可以是任何一种能够捕获到图像的设备。在现实的应用中，例如相机120可以被固定在购物车上，并随着购物车移动从而捕获到现实场景中的多个图像。相机120的位置实质上就是购物车或者用户的位置。

定位装置110与相机120相耦接并且被配置成从相机120获取或接收图像。定位装置110可以是移动电话、计算机、服务器、上网本等任何定位设备。

定位装置110可以包括图像获取器101、存在性确定器102、初始坐标确定器103以及实时位置确定器104。

图像获取器101可以被配置成例如从相机120实时地获取或接收图像，并将所获取或所接收的图像发送至存在性确定器102和/或初始坐标确定器103和/或实时位置确定器104。

存在性确定器102可以与图像获取器101相耦接，并且可以被配置成基于相机120所捕获的图像确定例如存储器中是否包括相机120在世界坐标系下的初始坐标，并将确定的结果发送给初始坐标确定器103。

初始坐标确定器103可以与图像获取器101和存在性确定器102相耦接。初始坐标确定器103可以从图像获取器101获得或接收图像，以及从存在性确定器102获得或接收所述确定的结果。初始坐标确定器103可以被配置成，例如响应于确定存储器中不包括相机在世界坐标系下的初始坐标，基于深度学习模型从所获取的当前图像获得相机120在世界坐标系下的当前坐标，并基于所述当前坐标获得相机120在世界坐标系下的初始坐标。在一个实施例中，所述当前坐标就可以用作相机120在世界坐标系下的初始坐标，也可以用作相机120的当前位置。所述深度学习模型可以包括基于PoseNet网络的深度学习模型。PoseNet网络的输入可以是RGB图像，输出可以是相机的三维位姿。为了提高所述深度学习模型的准确度，可以根据需要不断地采集现实场景进行学习。

在初始坐标确定器103确定了相机120在世界坐标系下的初始坐标之后，初始坐标确定器103可以被配置成保存相机120在世界坐标系下的该初始坐标保存到存储器，以及将该初始坐标发送给实时位置确定器104。

实时位置确定器104可以与图像获取器101和初始坐标确定器103相耦接。实时位置确定器104可以从图像获取器101获得或接收图像，以及从初始坐标确定器103获得或接收所保存的初始坐标。在一个实施例中，实时位置确定器104可以基于从初始坐标确定器103获得或接收的相机在世界坐标系下的当前初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标。具体地，实时位置确定器104可以被配置成持续地从图像获取器101接收图像序列，并且基于从初始坐标确定器103获得或接收的所述初始坐标通过帧间匹配来确定相机在世界坐标下的实时坐标。在此过程中，可以将相机的所述初始坐标和实时获得的坐标进行卡尔曼滤波融合，融合后的坐标结果可优于所述初始坐标和实时获得的坐标。需要注意的是，基于深度学习模型从图像获得相机在世界坐标系下的坐标以及基于相机在世界坐标系下的该初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标的实施方式可从相关技术中获知，在此不再详述。

根据本公开的实施例的定位方法完全基于视觉而不需要诸如WiFi和蓝牙之类的任何额外的硬件设备，从而节约了硬件成本。此外，根据本公开的实施例的部分是基于视觉里程计的，因而可以满足相对高的定位精度。

在一个实施例中，所述初始坐标确定器103还可以被配置成：检测所述图像是否包括标志物，其中，所述标志物具有至少三个顶点。在这样的情况下，所述初始坐标确定器103还可以被配置为，响应于所述图像中不包括所述标志物，将从图像的场景获得的相机在世界坐标系下的当前坐标用作相机在世界坐标系下的初始坐标；以及响应于检测到所述图像包括所述标志物，基于所述标志物和从图像的场景获得的相机在世界坐标系下的当前坐标获得相机在世界坐标系下的另一坐标；以及将所述另一坐标用作相机在世界坐标系下的初始坐标。

在一个实施例中，基于所述标志物和从图像的场景获得的相机在世界坐标系下的当前坐标获得相机在世界坐标系下的另一坐标可以包括：基于图像获得标志物的顶点在相机坐标系下的坐标；基于从图像的场景获得的相机在世界坐标系下的当前坐标从预先存储的多个标志物的顶点在世界坐标系下的坐标确定出所述图像中包括的所述标志物的顶点在世界坐标系下的坐标；基于所述图像中包括的所述标志物的顶点在相机坐标系下的坐标以及所述图像中包括的所述标志物的顶点在世界坐标系下的坐标获得相机坐标系相对于世界坐标系的旋转矩阵和平移矩阵；以及基于所述旋转矩阵和平移矩阵确定相机在世界坐标系下的坐标。

在实践中，标志物可以以一定的空间间隔布置在商场的各处，以便相机在行进中能够不定时地拍摄到所述标志物。在一个实施例中，标志物可以是具有至少三个顶点的任何形状，例如三角形、矩形、梯形、菱形、五边形等等。因为标志物是预先布置的，所以可以预先确定标志物的各个顶点在世界坐标系下的坐标，并将这些坐标存储在存储器中以便确定相机在世界坐标系下的实时位置。

为了说明如何基于标志物获得相机在世界坐标系下的坐标，假设一个物体在像素平面坐标系下的坐标为(u，v)，在相机坐标系中的坐标为(Xc，Yc，Zc)、在世界坐标系中的坐标为(X，Y，Z)，则相机坐标系与世界坐标系的转换关系为：

其中，R为旋转矩阵，R＝R _z(α)R _y(β)R _x(γ)，

t为三维平移矩阵，t＝[ΔX，ΔY，ΔZ]；以及0＝(0，0，0)。具体地，R为相机相对于世界坐标系的旋转矩阵，α为相机绕着世界坐标系的Z轴旋转的偏航角，β为相机绕着世界坐标系的Y轴旋转的俯仰角，γ为相机绕着世界坐标系的X轴旋转的横滚角，t为相机相对于世界坐标系的平移，ΔZ是相机在世界坐标系的Z轴上的坐标，ΔX是在世界坐标系的X轴上的坐标，ΔY是在世界坐标系的Y轴上的坐标。

在根据本公开的一个实施例中，例如，可以基于单次多框检测器(SSD：Single Shot MultiBox Detector)深度学习算法来检测图像中是否包括标志物。这种算法的输入是RGB图像，而输出则是检测出的标志物的检测框。可以通过不断地模型训练而提高这种检测的精度。基于SSD的目标检测方法可以较快地检测到标志物。

在检测到图像中包括标志物时，从图像中去掉背景，裁剪出检测到的标志物，对其进行线特征提取，得到标志物的各个顶点，从而可以求出标志物的各个顶点的像素坐标(ui，vi)，i≥3。进一步地，可以通过相机(例如双目相机或者深度相机)本身(相机的内部参数)直接得到各个顶点的对应深度数据，进而根据针孔相机模型确定所检测到的标志物的各个顶点在相机坐标系下的坐标Pc＝(Xc _i，Yc _i，Zc _i)，i≥3等等。由此，可以得到标志物的各个顶点在相机坐标系下的坐标集合(其中，由于标志物至少包括三个顶点，因此，该坐标集合至少包括3个坐标)。如前所述，所检测到的标志物的各个顶点在世界坐标系下的对应坐标 (P＝(X _i，Y _i，Z _i)，i≥3)预先被存储在了存储器中，因此它们是已知的。此外，由于相机被固定于购物车上，所以相机的高度ΔZ、β俯仰角和横滚角γ也是已知的。在这种情况下，旋转矩阵R和平移矩阵T中仅仅偏航角α，ΔX和ΔY这三个参数是未知的。如前所述，已经获得了标志物的各个顶点在相机坐标系下的坐标以及其在世界坐标系下的对应坐标，并且顶点的数目至少为3个，所以可以根据公式(1)求出偏航角α，ΔX和ΔY。在这种情况下，可以得到旋转矩阵R和平移矩阵T，从而获得相机在世界坐标系下的当前坐标。

如前所述，在存储器中预先存储了多个标志物及其对应的顶点的坐标。因此，在从当前图像中检测出标志物时，需要从存储器中存储的多个标志物中找到所检测出的标志物，进而找出其对应的顶点在世界坐标系下的坐标。在一个实施例中，可以首先基于深度学习模型(例如PoseNet网络)通过基于场景定位而从当前的图像获得相机在世界坐标系下的当前坐标(Xs，Ys，Zs)。然后基于相机在世界坐标系下的该坐标(Xs，Ys，Zs)从存储器中搜索距离该坐标最近的标志物。由于标志物的分布位置比较分散，如几十米布置一个，在检测出标志物的相机位置处，距离该相机最近的标志物为唯一的(即不存在检测出标志物、并且有两个同等距离的标志物)，进而找出预先存储的该标志物的各个顶点在世界坐标系下的坐标。由于基于场景定位存在一定的误差(假设最大定位误差是d)，所以基于场景定位获得的相机的坐标范围可能是(Xs±d，Ys±d，Zs±d)。在这种情况下，基于相机的坐标范围(Xs±d，Ys±d，Zs±d)从存储器中搜索当前的图像中的标志物，进而找出预先存储的该标志物的各个顶点在世界坐标系下的坐标。

根据本公开的实施例，基于标志物进行定位进而确定相机在世界坐标系下的初始位置。这可以进一步提高定位的精度。

在一个实施例中，所述初始坐标确定器103还可以被配置成：以预设的时间间隔更新相机120在世界坐标系下的初始坐标。在这种情况下，实时位置确定器104可以被配置为，基于更新的相机在世界坐标系下的初始坐标，通过帧间匹配确定相机在世界坐标系下的实时坐标。根据本公开的实施例，更新所述相机在世界坐标系下的初始坐标可以包括初始坐标确定器103重新基于从图像获取器101实时获得的图像中包括的场景和标志物中的至少一个获得相机在世界坐标系下的初始坐标。具体地，在根据本公开的实施例中，在获得相机在世界坐标系下的当前初始坐标的同时，可以为该初始坐标设置一个定时器。该定时器(预设的时间间隔)可以例如是30秒，或者任何其他适当的时间。当该初始坐标没有经历定时器所设定的时间段时，保持所存储的相机在世界坐标系下的该初始坐标不变，并且继续基于所存储的该初始坐标从图像序列通过帧间匹配获得相机在世界坐标系下的实时坐标。当该初始坐标经历了定时器所设定的时间段时，可以再一次触发根据本公开实施例的对于相机在世界坐标系下的初始坐标的获取。在一个实施例中，可以触发对于当前图像的获取、对于所捕获的当前图像中的标志物的检测，进而如前所述那样基于所述当前图像的场景或所述当前图像的标志物确定相机在世界坐标系下的当前坐标，并用所确定的相机在世界坐标系下的当前坐标更新或者替换先前存储的相机在世界坐标系下的初始坐标，以便将所确定的相机在世界坐标系下的当前坐标用作相机在世界坐标系下的新的初始坐标，进而继续基于所更新的相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标。在将所确定的相机在世界坐标系下的当前坐标用作相机在世界坐标系下的新的初始坐标的同时，再一次设置定时器，以此类推。

根据本公开实施例，由于以预设的时间间隔更新所存储的相机在世界坐标系下的初始坐标，所以可以消除累积定位误差，从而进一步提高定位精度。

图2示出了根据本公开的实施例的定位方法200的流程的示意图。该方法200例如可以由如图1中所示的定位装置110执行。

如图2中所示，在步骤201中，可以获取相机所捕获的图像，例如，从相机120接收相机120所捕获的当前图像。

在步骤202中，基于深度学习模型从所述图像(当前图像)获得相机在世界坐标系下的第一坐标(即当前坐标)。在一个实施例中，所述深度学习模型包括基于PoseNet网络的深度学习模型。

在步骤203中，基于所述相机在世界坐标系下的第一坐标(当前坐标)获得相机在世界坐标系下的初始坐标。在一个实施例中，所述相机在世界坐标系下的第一坐标(当前坐标)就可以用作相机在世界坐标系下的初始坐标。

在步骤204中，基于相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的当前(实时)坐标。自此以后，反复地接收图像，并基于所存储的相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的当前(实时)坐标。通过帧间匹配获得相机在世界坐标系下的坐标可以从基于视觉里程计定位方法中获知，在此不再详述。

在实施例中，在步骤202之前，图2中的方法200还可以包括确定在存储器中是否包括相机在世界坐标系下的初始坐标的步骤。响应于确定存储器中已经包括相机在世界坐标系下的初始坐标，直接前进到步骤203。

图3示出了根据本公开的实施例的定位方法300的流程的示意图。该方法300例如可以由如图1中所示的定位装置110执行。

如图3中所示，在步骤301中，可以获取相机所捕获的图像，例如，从相机120接收相机120所捕获的当前图像。

在步骤302中，基于深度学习模型从所述图像(当前图像)获得相机在世界坐标系下的第一坐标(即当前坐标)。在一个实施例中，所述深度学习模型包括基于PoseNet网络的深度学习模型。

在步骤303中，可以检测所获取的图像是否包括标志物。在一个实施例中，所述标志物具有至少3个顶点。在一个实施例中，响应于检测到所述图像包括所述标志物，执行步骤304。

在步骤304中，基于所述标志物以及在步骤302中确定的相机在世界坐标系下的第一坐标(当前坐标)获得相机在世界坐标系下的第二坐标，作为相机在世界坐标系下的初始坐标。在一个实施例中，基于所述图像获得所述标志物的顶点在相机坐标系下的坐标。基于所述第一坐标从预先存储的多个标志物的顶点在世界坐标系下的坐标，确定所述图像中包括的所述标志物的顶点在世界坐标系下的坐标。基于所述图像中包括的所述标志物的顶点在相机坐标系下的坐标以及所述图像中包括的所述标志物的顶点在世界坐标系下的坐标，获得相机坐标系相对于世界坐标系的旋转矩阵和平移矩阵。基于所述旋转矩阵和所述平移矩阵确定所述相机在世界坐标系下的第二坐标。

在一个实施例中，响应于检测到所述图像不包括所述标志物，执行步骤305。在步骤305中将从所获取的图像获得的相机在世界坐标系下的第一坐标(当前坐标)直接作为相机在世界坐标系下的初始坐标。

在步骤306中，基于相机在世界坐标系下的初始坐标，通过帧间匹配确定所述相机在世界坐标系下的实时坐标。在实施例中，方法300还可以包括响应于确定存储器中包括相机在世界坐标系下的初始坐标，确定该初始坐标是否经历了预设的时间段。进一步地，响应于确定该初始坐标没有经历所述预设的时间段，基于当前的初始坐标通过帧间匹配从确定相机实时坐标。响应于确定该初始坐标经历了所述预设的时间段，执行步骤301。也就是，通过确定图像中是否包括标志物而基于所述图像的场景或所述图像的标志物更新相机在世界坐标系下的初始坐标，从而基于更新的相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标。以预设的时间间隔不断地更新相机在世界坐标系下的初始坐标，并且基于更新的相机在世界坐标系下的初始坐标通过帧间匹配确定相机在世界坐标系下的实时坐标。更新所述相机在世界坐标系下的初始坐标可以包括执行一次方法300。

图4示出了根据本公开的实施例的定位设备400的示意图。

参考图4，定位设备400可以用于实施图2或图3的方法。定位设备400仅仅是合适的定位设备的一个示例，并且不旨在关于当前所公开的主题的用途或者功能性的范围建议任何限制。

定位设备400的部件可以包括但不限于处理器401、存储器402和将包括存储器的各种***部件耦接到处理器401的总线403。总线403可以是使用各种各样总线架构中的任一种总线架构的包括存储器总线或者存储器控制器、***总线和本地总线的几种类型的总线结构中的任一种总线结构。作为示例而非限制，这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和也被称为夹层总线的***部件互连(PCI)总线。

定位设备400可以包括各种各样的计算机可读介质。计算机可读介质可以是可以被定位设备400访问的任何可用介质，并且包括易失性和非易失性介质、可移除和非可移除介质两者。作为示例而非限制，计算机可读介质可以包括计算机可读存储介质和通信介质。计算机可读存储介质包括使用任何用于存储诸如是计算机可读指令、数据结构、程序模块或者其他数据之类的信息的方法或者技术实施的易失性和非易失性以及可移除和非可移除介质。计算机可读存储介质包括但不限于：随机存取存储器(RAM)、只读存储器(ROM)、EEPROM、闪存或者其他存储器技术、CD-ROM、数字多功能盘(DVD)或者其他光盘存储器、盒式磁带、磁带、磁盘存储装置或者其他磁存储设备、或者任何其他可以用于存储期望的信息并且可以被定位设备400访问的介质。通信介质通常将计算机可读指令、数据结构、程序模块或者其他数据体现在诸如是载波或者其他传输机制之类的已调制数据信号中，并且包括任何信息递送介质。术语“已调制数据信号”表示使其特性中的一个或多个特性以使得将信息编码在该信号中的方式被设置或者改变的信号。作为示例而非限制，通信介质包括：诸如是有线网络或者直接有线连接之类的有线介质；以及诸如是RF和其他无线介质之类的无线介质。以上各项中的任何项的组合也被包括在计算机可读介质的范围内。

存储器402可以包括采用诸如ROM和RAM之类的易失性和/或非易失性存储器的形式的计算机存储介质。包含诸如在启动期间帮助在定位设备400内的元件之间传输信息的基本例程的基本输入/输出***(BIOS)通常被存储在ROM中。RAM通常包含对于处理器401来说可立即访问和/或当前正被处理器401操作的数据和/或程序模块。作为示例而非限制，图4所示的存储器402中可以存储的数据可以包括BIOS、操作***、应用程序、其他程序模块和程序数据。

定位设备400还可以包括其他可移除/非可移除、易失性/非易失性计算机存储介质。

可以在示例性操作环境中使用的其他可移除/非可移除、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪存卡、DVD、数字视频磁带、固态RAM、固态ROM等。

上面所讨论的计算机存储介质为定位设备400提供对计算机可执行指令、数据结构、程序模块和其他数据的存储。

用户可以通过诸如键盘和通常被称为鼠标、轨迹球或者触摸板的指向设备之类的输入设备向定位设备400输进命令和信息。其他输入设备可以包括麦克风、操纵杆、游戏板、碟形卫星天线、扫描仪等。这些和其他输入设备通常通过耦接到总线403的用户输入输出(I/O)接口14连接到处理器401。监视器或者其他类型的显示设备可以经由诸如是视频接口之类的用户输入输出(I/O)接口14连接到总线403。除监视器之外，定位设备400还可以通过用户输入输出(I/O)接口14连接到其他***输出设备，诸如是扬声器和打印机。

定位设备400可以通过网络接口15与一个或多个远程计算机连接。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或者其他常见网络节点，并且通常包括上面关于定位设备400所描述元件中的许多或者全部单元。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机指令在一个或多个处理器上运行时，使得所述一个或多个处理器执行根据本公开实施例的方法和功能。所述计算机可读介质可以包括以上所述的任何一种计算机可读介质。

本公开实施例还提供一种计算机程序产品，当上述计算机程序产品中的指令由处理器执行时，可以实现根据本公开实施例的方法。

在本说明书的描述中，术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点被包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个、三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序(包括根据所涉及的功能按基本同时的方式或按相反的顺序)来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行系统、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例可以例如包括以下各项：具有一个或多个布线的电连接部(电子装置)、便携式计算机盘盒(磁装置)、随机存取存储器(Random Access Memory)、只读存储器(Read Only Memory)，可擦除可编辑只读存储器(Erasable Programmable Read Only Memory)或闪速存储器、光纤装置、以及便携式光盘只读存储器(Compact Disc Read Only Memory)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，则可用本领域公知的下列技术中的任一项或它们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路、具有合适的组合逻辑门电路的专用集成电路、可编程门阵列(Programmable Gate Array)、现场可编程门阵列(Field Programmable Gate Array)等。

本技术领域的普通技术人员可以理解上述实施例方法的全部或部分步骤可以通过程序指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括执行方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

尽管上面已经示出和描述了本公开的实施例，但是可以理解的是，上述实施例是示例性的，不应理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改和替换。

Claims

一种定位方法，包括：

获取相机所捕获的图像；

基于深度学习模型从所述图像获得所述相机在世界坐标系下的第一坐标，

基于所述第一坐标获得所述相机在世界坐标系下的初始坐标；以及

基于所述相机在世界坐标系下的初始坐标，通过帧间匹配确定所述相机在世界坐标系下的实时坐标。
根据权利要求1所述的方法，还包括：

检测所述图像中是否包括标志物，其中所述标志物具有至少3个顶点，

其中，所述基于所述第一坐标获得所述相机在世界坐标系下的初始坐标包括：

响应于所述图像中不包括所述标志物，将所述第一坐标用作所述相机在世界坐标系下的初始坐标。
根据权利要求1所述的方法，还包括：

检测所述图像是否包括标志物，其中所述标志物具有至少3个顶点；

其中，所述基于所述第一坐标获得所述相机在世界坐标系下的初始坐标包括：

响应于所述图像中包括所述标志物，基于所述标志物和所述第一坐标获得所述相机在世界坐标系下的第二坐标；以及

将所述第二坐标用作所述相机在世界坐标系下的初始坐标。
根据权利要求3所述的方法，其中，所述基于所述标志物和所述第一坐标获得相机在世界坐标系下的第二坐标包括：

基于所述图像获得所述标志物的顶点在相机坐标系下的坐标；

基于所述第一坐标从预先存储的多个标志物的顶点在世界坐标系下的坐标，确定所述图像中包括的所述标志物的顶点在世界坐标系下的坐标；

基于所述图像中包括的所述标志物的顶点在相机坐标系下的坐标以及所述图像中包括的所述标志物的顶点在世界坐标系下的坐标，获得相机坐标系相对于世界坐标系的旋转矩阵和平移矩阵；以及

基于所述旋转矩阵和所述平移矩阵确定所述相机在世界坐标系下的第二坐标。
根据权利要求2或3所述的方法，其中，所述检测所述图像中是否包括标志物包括：

基于单次多框检测器算法检测所述图像中是否包括标志物。
根据权利要求2或3所述的方法，还包括，

以预设的时间间隔更新所述相机在世界坐标系下的初始坐标；以及

基于更新的相机在世界坐标系下的初始坐标，通过帧间匹配确定相机在世界坐标系下的实时坐标。
根据权利要求6所述的方法，其中所述更新所述相机在世界坐标系下的初始坐标包括：

基于实时获取的图像中包括的场景和标志物中的至少一个，获得相机在世界坐标系下的初始坐标。
根据权利要求1所述的方法，其中，所述深度学习模型包括基于PoseNet网络的深度学习模型。
一种基于定位装置，包括：

图像获取器，被配置成获取相机所捕获的图像；

初始坐标确定器，与所述图像获取器相耦接且被配置成：基于深度学习模型从所述图像获得所述相机在世界坐标系下的第一坐标，基于所述第一坐标获得所述相机在世界坐标系下的初始坐标：以及

实时位置确定器，与图像获取器和所述初始坐标确定器相耦接，且被配置成：基于所述相机在世界坐标系下的初始坐标，通过帧间匹配确定所述相机在世界坐标系下的实时坐标。
根据权利要求9所述的装置，其中，所述初始坐标确定器还被配置成：检测所述图像中是否包括标志物，其中所述标志物具有至少3个顶点；以及

响应于所述图像中不包括所述标志物，将所述第一坐标用作所述相机在世界坐标系下的初始坐标。
根据权利要求9所述的装置，其中，所述初始坐标确定器还被配置成：检测所述图像是否包括标志物，其中所述标志物具有至少3个顶点；

响应于所述图像中包括所述标志物，基于所述标志物和所述第一坐标获得所述相机在世界坐标系下的第二坐标，以及

将所述第二坐标用作所述相机在世界坐标系下的初始坐标。
根据权利要求11所述的装置，其中，所述初始坐标确定器还被配置成：

基于所述图像获得所述标志物的顶点在相机坐标系下的坐标；

基于所述第一坐标从预先存储的多个标志物的顶点在世界坐标系下的坐标，确定所述图像中包括的所述标志物的顶点在世界坐标系下的坐标；

基于所述图像中包括的所述标志物的顶点在相机坐标系下的坐标以及所述图像中包括的所述标志物的顶点在世界坐标系下的坐标，获得相机坐标系相对于世界坐标系的旋转矩阵和平移矩阵；以及

基于所述旋转矩阵和所述平移矩阵确定所述相机在世界坐标系下的第二坐标。
根据权利要求10或11所述的装置，其中，所述初始坐标确定器还被配置成：基于单次多框检测器算法检测所述图像中是否包括标志物。
根据权利要求10或11所述的装置，其中，所述初始坐标确定器还被配置成：

以预设的时间间隔更新所述相机在世界坐标系下的初始坐标；以及

基于更新的相机在世界坐标系下的初始坐标，通过帧间匹配确定相机在世界坐标系下的实时坐标。
根据权利要求14所述的装置，其中所述初始坐标确定器还被配置成：

基于由图像获取器实时获取的图像中包括的场景和标志物中的至少一个，获得所述相机在世界坐标系下的初始坐标。
根据权利要求9所述的装置，其中，所述深度学习模型包括基于PoseNet网络的深度学习模型。
一种定位设备，包括：

一个或多个处理器；以及

存储器，与所述一个或多个处理器相耦接，并存储有计算机可执行指令，所述计算机可执行指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。
一种计算机可读存储介质，其上存储了计算机可执行指令，所述计算机可执行指令在由一个或多个处理器执行时，使所述一个或多个处理器执行如权利要求1-8中任一项所述的方法。