CN112686962A

CN112686962A - 室内视觉定位方法、装置及电子设备

Info

Publication number: CN112686962A
Application number: CN202110081987.4A
Authority: CN
Inventors: 万文辉; 王润之; 邸凯昌; 刘召芹; 彭嫚
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-04-20

Abstract

本发明涉及视觉定位技术领域，具体涉及室内视觉定位方法、装置及电子设备，所述方法包括获取当前影像对应的影像特征；利用影像特征匹配出与当前影像对应的目标影像，并获取目标影像的属性信息，所述属性信息包括所述目标影像的深度距离信息；对当前影像以及目标影像进行特征点匹配，以得到同名特征点；基于同名特征点以及深度距离信息，确定当前影像的位姿。利用目标影像的深度距离信息以及同名特征点就可以确定出三维坐标点，从而可以解算出当前影像的位姿；即由于在目标影像的属性信息中包括有深度距离信息，避免了采用影像特征点匹配的方式确定三维坐标点，减少了一次特征点匹配的过程，提高了室内定位的效率。

Description

室内视觉定位方法、装置及电子设备

技术领域

本发明涉及视觉定位技术领域，具体涉及室内视觉定位方法、装置及电子设备。

背景技术

定位是一些基于位置进行服务(Location Based Services,LBS)应用的首要前提，室内定位方法中常见的主要是基于视觉地标的定位方法，所述的视觉地标分为人工地标和自然地标。

在基于人工地标的室内视觉定位方法中，需要在室内环境中人工添加一些地标物进行辅助定位。当相机视场角中不存在人工地标物时，该方法将失效。在基于视觉地标的室内视觉定位方法中，分为两个部分，分别为场景识别部分和视觉定位部分。其中，场景识别部分一般是获取一张当前影像并计算该影像的特征，利用计算得到的特征在定位数据库中进行检索以得到与该特征最相近的两张影像及其位姿；视觉定位部分是指利用检索出的两张影像及其位姿，计算得到当前影像的位姿。

然而，在这种视觉定位部分中，需要利用检索出两张影像分别与当前影像之间的特征点匹配来完成对当前影像的定位解算。具体地，利用检索到的两张影像进行特征点提取以及匹配，以确定三维点信息；再利用当前影像与确定出的三维点信息进行匹配，从而完成对当前影像的定位解算。由于影像之间的特征点匹配需要大量的时间，这种定位方式将会导致视觉定位时间长，定位效率较低。

发明内容

有鉴于此，本发明实施例提供了一种室内视觉定位方法、装置及电子设备，以解决室内视觉定位效率低的问题。

根据第一方面，本发明实施例提供了一种室内视觉定位方法，所述方法包括：

获取当前影像对应的影像特征；

利用所述影像特征匹配出与所述当前影像对应的目标影像，并获取所述目标影像的属性信息，所述属性信息包括所述目标影像的深度距离信息；

对所述当前影像以及所述目标影像进行特征点匹配，以得到同名特征点；

基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿。

本发明实施例所述的室内视觉定位方法，利用目标影像的深度距离信息以及同名特征点就可以确定出三维坐标点，从而可以解算出当前影像的位姿；即由于在目标影像的属性信息中包括有深度距离信息，避免了采用影像特征点匹配的方式确定三维坐标点，减少了一次特征点匹配的过程，提高了室内定位的效率。

结合第一方面，在第一方面第一实施方式中，所述对所述当前影像以及所述目标影像进行特征点匹配，以得到同名特征点，包括：

分别提取所述当前影像以及所述目标影像的特征点，得到第一特征点以及第二特征点；

对所述第一特征点进行筛选，得到筛选后的第一特征点；

将筛选后的第一特征点与所述第二特征点进行匹配，得到所述同名特征点。

本发明实施例所述的室内视觉定位方法，通过对当前影像的第一特征点进行筛选之后再进行特征点的匹配，可以保证所得到的同名特征点的准确性，提高了室内视觉定位的精度。

结合第一方面第一实施方式，在第一方面第二实施方式中，所述对所述第一特征点进行筛选，得到筛选后的第一特征点，包括：

识别所述当前影像中运动目标的区域；

从所述第一特征点中筛选出落入所述运动目标的区域的特征点；

将筛选出的特征点从所述第一特征点中删除，得到所述筛选后的第一特征点。

本发明实施例所述的室内视觉定位方法，由于运动目标是变化的，将属于运动目标区域的特征点从第一特征点中删除，可以提高筛选后的第一特征点的准确性，从而可以得到一组正确的且鲁棒的同名特征点。

结合第一方面，在第一方面第三实施方式中，所述基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿，包括：

利用所述深度距离信息，计算所述同名特征点在相机坐标系下的三维坐标；

提取所述目标影像的属性信息中所述相机坐标系到世界坐标系的第一转换矩阵；

利用所述同名特征点在所述相机坐标系下的三维坐标以及所述第一转换矩阵，确定所述同名特征点在所述世界坐标系下的三维坐标；

基于所述同名特征点中所述当前影像的特征点坐标与所述世界坐标系下的三维坐标，确定所述当前影像的位姿。

结合第一方面第三实施方式，在第一方面第四实施方式中，所述基于所述同名特征点中所述当前影像的特征点坐标与所述世界坐标系下的三维坐标，确定所述当前影像的位姿，包括：

利用所述同名特征点中所述当前影像的特征点坐标与所述世界坐标系下的三维坐标，计算所述世界坐标系到所述当前影像的相机坐标系的第二转换矩阵；

对所述第二转换矩阵求逆，分解出所述当前影像的位姿。

本发明实施例所述的室内视觉定位方法，通过对第二转换矩阵求逆就可以直接提取出当前影像的位姿，提高了位姿确定的效率。

结合第一方面，或第一方面第一实施方式至第四实施方式中任一项，在第一方面第五实施方式中，所述基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿，还包括：

判断所述同名特征点的数量是否满足预设条件；

当所述同名特征点的数量不满足所述预设条件时，将所述目标影像的位姿确定为所述当前影像的位姿。

本发明实施例所述的室内视觉定位方法，在同名特征点的数量不满足预设条件时，表示此时光照条件不佳，在这种情况下通过结合自然地标和深度学习影像检索的优点，解决了因光线环境引起的影像匹配检索失败和定位失败的问题，具有更好的适应性，得到的室内定位结果精度更高、可靠性更好。

结合第一方面，在第一方面第六实施方式中，所述获取当前影像对应的影像特征的步骤之前还包括：

检测所述当前影像中是否包含人工地标；

当所述当前影像中包含有所述人工地标时，基于所述人工地标确定所述当前影像的位姿。

本发明实施例所述的室内视觉定位方法，基于人工地标的视觉定位、基于深度学习影像检索的自然地标影像几何匹配定位以及深度学习影像检索的近似定位方法结合在一起，结合了三种定位方式的优点，提升定位的精度和鲁棒性。

根据第二方面，本发明实施例还提供了一种室内视觉定位装置，所述装置包括：

获取模块，用于获取当前影像对应的影像特征；

影像匹配模块，用于利用所述影像特征匹配出与所述当前影像对应的目标影像，并获取所述目标影像的属性信息，所述属性信息包括所述目标影像的深度距离信息；

特征点匹配模块，用于对所述当前影像以及所述目标影像进行特征点匹配，以得到同名特征点；

位姿确定模块，用于基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿。

本发明实施例所述的室内视觉定位装置，利用目标影像的深度距离信息以及同名特征点就可以确定出三维坐标点，从而可以解算出当前影像的位姿；即由于在目标影像的属性信息中包括有深度距离信息，避免了采用影像特征点匹配的方式确定三维坐标点，减少了一次特征点匹配的过程，提高了室内定位的效率。

根据第三方面，本发明实施例提供了一种电子设备，包括：存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行第一方面或者第一方面的任意一种实施方式中所述的室内视觉定位方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的室内视觉定位方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的室内视觉定位方法的流程图；

图2是根据本发明实施例的室内视觉定位方法的流程图；

图3是根据本发明实施例的室内视觉定位方法的流程图；

图4是根据本发明实施例的定位数据库构建的示意图；

图5是根据本发明实施例的室内视觉定位方法的流程图；

图6是根据本发明实施例的室内视觉定位装置的结构框图；

图7是本发明实施例提供的电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所述的室内视觉定位方法，可以是应用于扫地机器人，或移动终端等等，在此对其应用场景并不做任何限制，在下文的描述中将其统称为电子设备。

电子设备实时采集当前场景的影像，利用该影像确定电子设备当前的位姿。其中，电子设备可以将采集到的当前场景的影像发送给云端进行处理，云端处理后将得到的当前场景的影像的位姿反馈给电子设备。因此，电子设备与云端的组合用于进行室内定位可以称之为“终端-云端”协同室内定位方法。可选地，各个电子设备也可以执行相应的室内视觉定位方法，整个过程不需要云端的参与，以及减少数据的传输时间。在实际应用场景中，可以根据实际情况选择合适的***组合方式，在此对其并不做任何限制。

在下文的描述中，以“终端-云端”协同室内定位为例进行描述，电子设备采集当前影像，并将当前影像发送给云端，云端执行室内视觉定位方法，以得到当前影像的位姿，并将当前影像的位姿返回给电子设备进行后续处理。

根据本发明实施例，提供了一种室内视觉定位方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种室内视觉定位方法，可用于电子设备，如服务器等，图1是根据本发明实施例的室内视觉定位方法的流程图，如图1所示，该流程包括如下步骤：

S11，获取当前影像对应的影像特征。

室内终端实时采集当前影像I_c，并将当前影像I_c发送给电子设备，电子设备在接收到当前影像I_c之后，对其进行特征提取，得到当前影像I_c对应的影像特征。其中，所述的特征提取方式可以采用特征提取网络实现，以得到当前影像的深度学习特征；也可以采用其他方式提取当前影像对应的影像特征。在此对其具体方式并不做任何限制，具体可以根据实际情况进行相应的设置即可。

在下文的描述中，以影像特征为深度学习特征为例进行详细描述。

S12，利用影像特征匹配出与当前影像对应的目标影像，并获取目标影像的属性信息。

其中，所述属性信息包括目标影像的深度距离信息。

在电子设备中建立有室内场景数据库，在室内场景数据库中存储有若干室内场景影像，以及各个室内场景影像对应的影像特征及属性信息。其中，所述的属性信息包括各个室内场景影像的深度距离信息。当然，属性信息也可以包括其他信息，例如，位姿等，具体包括哪些信息可以根据实际情况进行相应的设置，在此对其并不做任何限制。例如，在建立室内场景数据库时，可以利用RGBD相机采集室内场景的影像，在采集室内场景影像的同时就可以得到该室内场景影像的深度距离信息。

具体地，如图4所示，可以采用如下方式构建室内场景数据库：利用可以获取深度信息的深度相机，例如Kinect相机，对需要进行定位的室内场景环境进行影像的采集，为了建立能够覆盖整个定位场景的影像，需要对室内场景环境中的各个部分进行影像采集。目前大部分的深度相机都可以快速精准地同时采集影像和深度信息。

采集的影像的可以使用高精度运动捕捉***获取每张影像的位置和姿态，也可以在获取完所有影像后利用运动恢复结构方法(Structure-from-Motion，SfM)或者是同时定位与建图方法(Simultaneous Localization and Mapping，SLAM)计算得到每张影像的位置和姿态，位置和姿态可以用世界坐标系到影像的相机坐标系转换矩阵表示。

将每张影像输入已经建立好的深度学习模型中计算深度学习特征，最后建立一个云端的自然地标和深度学习特征数据库D，包含影像、深度距离信息、影像的位姿以及影像的深度学习特征，供后续定位时使用。

为了能够获取高精度的定位结果，需要事先对移动端使用的相机进行参数标定。使用移动端的相机在多个距离和角度拍摄多张标定板的影像，再利用相机标定程序处理这些影像，从而获得相机的内参数矩阵K，形式如公式(1)所示：

电子设备利用上述S11中获取到的当前影像的影像特征在室内场景数据库中进行匹配，找到室内场景数据库中与当前影像的影像特征最相似的目标影像I_r。例如，电子设备可以依次计算当前影像的影像特征与室内场景数据库中的各个影像特征的相似度，将相似度最高的影像特征对应的影像作为目标影像。电子设备在匹配出目标影像之后，就可以提取得到该目标影像的属性信息。此处得到的目标影像是与当前影像最相似的一张影像。

S13，对当前影像以及目标影像进行特征点匹配，以得到同名特征点。

电子设备通过对当前影像I_c与目标影像I_r进行特征点提取及匹配，得到同名特征点。例如，电子设备采用相同的方式分别提取当前影像I_c与目标影像I_r的N个特征点，并对提取出的N个特征点进行匹配，以得到一组正确的同名特征点，例如，可以表示为p_r(u_r,v_r,1)^T和p_c(u_c,v_c,1)^T。其中，p_r(u_r,v_r,1)^T与目标影像I_r对应，(u_r,v_r)为像素点坐标；p_c(u_c,v_c,1)^T与当前影像I_c对应，(u_c,v_c)为像素点坐标。

S14，基于同名特征点以及深度距离信息，确定当前影像的位姿。

电子设备在确定出一组同名特征点之后，由于同名特征点中的坐标为相机坐标系下的二维坐标，深度距离信息用于表示目标影像的三维信息。电子设备利用目标影像在相机坐标系下的二维坐标以及深度距离信息，就可以确定目标影像在相机坐标系下的三维坐标。由于目标影像的二维坐标点与当前影像的二维坐标点为同名特征点，那么目标影像在相机坐标系下的三维坐标即为当前影像在相机坐标系下的三维坐标。

在确定出当前影像在相机坐标系下的三维坐标之后，利用相机坐标系与世界坐标系之间的坐标系转换，就可以确定当前影像的位姿。

关于该步骤具体将在下文中进行详细描述。

本实施例提供的室内视觉定位方法，利用目标影像的深度距离信息以及同名特征点就可以确定出三维坐标点，从而可以解算出当前影像的位姿；即由于在目标影像的属性信息中包括有深度距离信息，避免了采用影像特征点匹配的方式确定三维坐标点，减少了一次特征点匹配的过程，提高了室内定位的效率。

在本实施例中提供了一种室内视觉定位方法，可用于电子设备，如扫地机器人、商场导航等，图2是根据本发明实施例的室内视觉定位方法的流程图，如图2所示，该流程包括如下步骤：

S21，获取当前影像对应的影像特征。

详细请参见图1所示实施例的S11，在此不再赘述。

S22，利用影像特征匹配出与当前影像对应的目标影像，并获取目标影像的属性信息。

其中，所述属性信息包括目标影像的深度距离信息以及目标影像的相机坐标系到世界坐标系的第一转换矩阵T_wr。

其余详细请参见图1所示实施例的S12，在此不再赘述。

S23，对当前影像以及目标影像进行特征点匹配，以得到同名特征点。

具体地，上述S23可以包括如下步骤：

S231，分别提取当前影像以及目标影像的特征点，得到第一特征点以及第二特征点。

电子设备分别对当前影像以及目标影像进行特征点的提取，得到对应于当前影像的第一特征点，以及对应于目标影像的第二特征点。其中，此处的特征点的提取可以采用SOFT特征提取方式，也可以采用其他方式提取特征点等等。

S232，对第一特征点进行筛选，得到筛选后的第一特征点。

电子设备在提取得到第一特征点之后，对第一特征点进行筛选。例如，提取第一特征点中属于运动目标的特征点，或者第一特征点中的动态环境特征点等等。将属于运动目标的特征点或动态环境特征点从第一特征点中删除，得到筛选后的第一特征点。

在本实施例的一种可选实施方式中，上述S232可以包括如下步骤：

(1)识别当前影像中运动目标的区域。

在本实施例中将行人认定为运动目标，因此，可以对当前影像进行行人识别，确定出当前影像中运动目标的区域。当然，电子设备也可以根据实际需求将其他目标认定为运动目标，例如，商户的滚动字幕屏等等。

(2)从第一特征点中筛选出落入运动目标的区域的特征点。

电子设备在识别出当前影像中运动目标的区域之后，将第一特征点与运动目标的区域进行比较，确定各个第一特征点是否落入运动目标的区域内。例如，可以将第一特征点的坐标与运动目标的区域进行比较，即可确定第一特征点是否落入运动目标的区域内。

(3)将筛选出的特征点从第一特征点中删除，得到筛选后的第一特征点。

当确定某特征点落入运动目标的区域内时，表示该特征点为属于运动目标的特征点，即可将该特征点从第一特征点中删除，得到筛选后的第一特征点。

由于运动目标是变化的，将属于运动目标区域的特征点从第一特征点中删除，可以提高筛选后的第一特征点的准确性，从而可以得到一组正确的且鲁棒的同名特征点，更好地剔除误匹配点和运动目标区域上的特征点，从而获得质量更高、鲁棒性更好的特征匹配点，最终提升定位的精度。。

S233，将筛选后的第一特征点与第二特征点进行匹配，得到同名特征点。

电子设备在将属于运动目标的特征点从第一特征点中删除后，得到筛选后的第一特征点，此时就可以将筛选后的第一特征点与第二特征点进行匹配，可以通过随机采样一致性算法(Random Sample Consensus，简称为RANSC)对匹配的点进行筛选，提出误匹配点，由此可以得到一组正确的同名特征点，p_r(u_r,v_r,1)^T和p_c(u_c,v_c,1)^T。其中，p_r(u_r,v_r,1)^T与目标影像I_r对应，(u_r,v_r)为像素点坐标；p_c(u_c,v_c,1)^T与当前影像I_c对应，(u_c,v_c)为像素点坐标。

S24，基于同名特征点以及深度距离信息，确定当前影像的位姿。

具体地，上述S24可以包括如下步骤：

S241，利用深度距离信息，计算同名特征点在相机坐标系下的三维坐标。

电子设备可以通过下述公式(2)获得I_r上的特征点p_r(u_r,v_r,1)^T在相机坐标系下的三维坐标P'(X',Y',Z',1)^T：

其中，depth_scale为深度距离信息的拉伸尺寸，d_r(u_r,v_r)为深度距离信息位于(u_r,v_r)位置处的像素值。(c_x，c_y，f_x，f_y)为相机内参数，详细请参见图1所示实施例的S12中的相机内参数矩阵K。

S242，提取目标影像的属性信息中相机坐标系到世界坐标系的第一转换矩阵。

目标影像的属性信息中还包括有目标影像的相机坐标系到世界坐标系的第一转换矩阵T_wr，电子设备在匹配出目标影像后，直接从室内场景数据库中就可以提取出第一转换矩阵。

S243，利用同名特征点在相机坐标系下的三维坐标以及第一转换矩阵，确定同名特征点在世界坐标系下的三维坐标。

电子设备通过下述公式(3)就可以将目标影像在相机坐标系下的三维坐标P'(X',Y',Z',1)^T转换为世界坐标系下的三维坐标P(X,Y,Z,1)^T：

S244，基于同名特征点中当前影像的特征点坐标与世界坐标系下的三维坐标，确定当前影像的位姿。

当前影像的特征点坐标即为当前影像在相机坐标系下的二维坐标，而同名特征点的三维坐标为世界坐标系下的三维坐标，因此，利用这两者进行坐标转换，就可以确定出当前影像的位姿。

在本实施例的一种可选实施方式中，上述S244可以包括如下步骤：

(1)利用同名特征点中当前影像的特征点坐标与世界坐标系下的三维坐标，计算世界坐标系到当前影像的相机坐标系的第二转换矩阵。

在上述S23中得到了一组同名特征点p_r(u_r,v_r,1)^T和p_c(u_c,v_c,1)^T，因此上述S243中得到的p_r(u_r,v_r,1)^T对应的世界坐标系下的三维点坐标P(X,Y,Z,1)^T也是p_c(u_c,v_c,1)^T对应的世界坐标系下的三维点坐标。此时，电子设备已经获得了一组当前位置影像I_c的像素坐标点p_c(u_c,v_c,1)^T和其对应的一组三维点P(X,Y,Z,1)^T，可以利用世界坐标系下的一个三维特征点和影像平面上二维特征点之间的关系，并通过高效n点透视方法(EfficientPerspective-n-Point，简称为EPnP)求解世界坐标系到当前影像I_c相机坐标系转换矩阵T_cw。

(2)对第二转换矩阵求逆，分解出当前影像的位姿。

电子设备在得到第二转换矩阵之后，对第二转换矩阵求逆，就可以获得逆矩阵T_wc。从T_wc中可以直接分解得到当前影像I_c的位置和姿态，具体地，T_wc为4阶矩阵，前3行前3列为当前影像的姿态，前3行第4列为当前影像的位置。电子设备就可以将分解出的位置和姿态从云端返回至各个终端，由此可以完成各个终端的室内定位。

进一步地，室内的各个终端通过连续的拍照，获取室内场景中连续的序列影像，利用上述的室内视觉定位方法就可以获取每张影像的位置和姿态，从而即可完成各个终端的连续室内定位。

通过对第二转换矩阵求逆就可以直接提取出当前影像的位姿，提高了位姿确定的效率。

本实施例提供的室内视觉定位方法，通过对当前影像的第一特征点进行筛选之后再进行特征点的匹配，可以保证所得到的同名特征点的准确性，提高了室内视觉定位的精度；

在本实施例中提供了一种室内视觉定位方法，可用于电子设备，如扫地机器人、商场导航等，图3是根据本发明实施例的室内视觉定位方法的流程图，如图3所示，该流程包括如下步骤：

S31，获取当前影像，并检测当前影像中是否包含人工地标。

人工地标主要是ARToolKit的标志板，在需要进行定位的室内场景中的部分区域布置标志板。根据标志板需要覆盖的定位范围设置标志板的宽度，一般设置30至50厘米的宽度。由于标志板中间的图案对室内场景的环境美观影响较大，因此本发明采用根据室内的环境来设计标志板中间的图案，例如标志板布设在机场的肯德基店铺附近，则中间的图案为结合肯德基标志的图标，如果布设在机场的休息区附近，则图案为结合休息区标志的图标，这样每个标志板中间的图案具有唯一性，且可以很好地融入室内的环境中，从而极大地降低对环境美观的影响程度。

设置室内场景中标志板坐标系的原点为它的中心，Z轴垂直于板面指向观测者，X轴向右，Y轴向上，构成右手直角坐标系。每个标志板的宽度已知，则标志板四个角点在标志板坐标系下的三维坐标已知。

在进行定位时，终端拍摄当前位置的影像，得到当前影像，并将当前影像发送给电子设备，电子设备可以利用标志板检测程序检测出当前影像中是否包含人工地标。当当前影像中包含有人工地标时，执行S32；否则，执行S33。

S32，基于人工地标确定当前影像的位姿。

在当前影像中包含人工地标时，电子设备利用标志板检测程序检测出四个角点在拍摄影像I_c的二维坐标，并从电子设备的人工地标定位数据库中找到对应的标志板图像及其位姿。由此获得4组二维/三维点对，然后利用EPnP方法求解出相机在人工地标坐标系下的位姿T_cm。通过人工地标数据库构建步骤，电子设备已经获取了世界坐标系到人工地标坐标系的转换矩阵T_mw，所以世界坐标系到相机坐标系的转换矩阵T_cw可以通过T_cm和T_mw相乘得到。对T_cw求逆得到T_wc，从T_wc中可以直接得到相机的位置和姿态。

其中，如图4所示，人工地标定位数据库可以采用如下方式构建得到：在需要进行定位的室内场景中的部分区域布置人工地标，布置完成后利用全站仪等测绘手段获取世界坐标系到每个人工地标坐标系的转换矩阵并记录，将人工地标的影像及其对应的转换矩阵保存在云端的人工地标数据库。

S33，获取当前影像对应的影像特征。

当当前影像中不包含人工地标时，电子设备获取当前影像对应的影像特征。具体可以参见图2所示实施例的S21，在此不再赘述。

S34，利用影像特征匹配出与当前影像对应的目标影像，并获取目标影像的属性信息。

其中，所述属性信息包括目标影像的深度距离信息。

详细请参见图2所示实施例的S22，在此不再赘述。

S35，对当前影像以及目标影像进行特征点匹配，以得到同名特征点。

详细请参见图2所示实施例的S23，在此不再赘述。

S36，基于同名特征点以及深度距离信息，确定当前影像的位姿。

具体地，上述S36可以包括如下步骤：

S361，判断同名特征点的数量是否满足预设条件。

电子设备在上述S36中得到同名特征点之后，就可以确定同名特征点的数量。将同名特征点的数量与预设值进行比较，判断其是否大于预设值。

当所述同名特征点的数量不满足所述预设条件时，执行S362；否则，执行S363。

S362，将目标影像的位姿确定为当前影像的位姿。

在同名特征点的数量不满足预设条件，即同名特征点的数量小于或等于预设值时，表示此时室内光照条件不满足当前影像与目标影像之间的几何匹配，将上述S34中匹配出的目标影像的位姿确定为当前影像的位姿。

当光照条件差时，几何匹配得到的特征点数量会大大减少，从而影响后续的定位。但是目标影像是通过深度学习模型计算当前影像的深度学习特征来从云端的定位数据库中检索得到的，这个过程在几何匹配定位之前进行，且深度学习特征基本不受光照条件的影响。光照条件影响的是后续的几何匹配定位。也就是说，特征点数量不满足匹配定位不会影响影像的检索。

S363，利用同名特征点以及深度距离信息，确定当前影像的位姿。

在同名特征点的数量满足预设条件，即同名特征点的数量大于预设值时，表示此时室内光照条件能够满足当前影像与目标影像之间的几何匹配。此时，可以采用图2所示实施例的S24确定当前影像的位姿。

本实施例提供的室内视觉定位方法，在同名特征点的数量不满足预设条件时，表示此时光照条件不佳，在这种情况下通过结合自然地标和深度学习影像检索的优点，解决了因光线环境引起的影像匹配检索失败和定位失败的问题，具有更好的适应性，得到的室内定位结果精度更高、可靠性更好。同时，基于人工地标的视觉定位、基于深度学习影像检索的自然地标影像几何匹配定位以及深度学习影像检索的近似定位方法结合在一起，结合了三种定位方式的优点，提升定位的精度和鲁棒性。

作为本实施例的一种具体实施方式，本实施例提供的室内视觉定位方法的目的在于解决现有室内定位技术的不足，如图5所示，提出一种结合视觉地标和深度学习的“终端-云端”协同室内定位方法。鉴于人工地标定位精度高的优势，当场景中存在人工地标时，该方法能够识别人工地标物并计算得到当前位置；鉴于在大型商场等不便于布置人工地标或者人工地标较少的定位场景中，该方法则可以通过深度学习模型计算当前影像的深度学习特征，并在室内场景数据库中检索出深度学习特征最相近的影像及其对应的位姿，然后通过影像间的几何匹配完成定位的解算；而在有运动目标的复杂定位场景中，该方法通过深度学习算法得到当前位置影像中的运动目标区域，并将位于运动目标区域的特征点剔除，从而得到鲁棒性较高的特征点；在光线条件变化的定位场景中，人工地标的识别和室内场景影像间的几何匹配将难以完成，如果定位失败，该方法则通过深度学习模型计算当前影像的深度学习特征，并在室内场景数据库中检索出深度学习特征最相近的影像，并将检索出的影像的位置信息作为当前移动端的近似位置。因此，该方法能够有效解决由于光照条件变化和少量运动物体存在而引起的定位失败问题，并兼顾基于视觉地标的几何匹配定位方法的高精度优势，使得最终的定位结果具有更好的鲁棒性和精度。

在本实施例中还提供了一种室内视觉定位装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种室内视觉定位装置，如图6所示，包括：

获取模块41，用于获取当前影像对应的影像特征；

影像匹配模块42，用于利用所述影像特征匹配出与所述当前影像对应的目标影像，并获取所述目标影像的属性信息，所述属性信息包括所述目标影像的深度距离信息；

特征点匹配模块43，用于对所述当前影像以及所述目标影像进行特征点匹配，以得到同名特征点；

位姿确定模块44，用于基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿。

本实施例提供的室内视觉定位装置，利用目标影像的深度距离信息以及同名特征点就可以确定出三维坐标点，从而可以解算出当前影像的位姿；即由于在目标影像的属性信息中包括有深度距离信息，避免了采用影像特征点匹配的方式确定三维坐标点，减少了一次特征点匹配的过程，提高了室内定位的效率。

本实施例中的室内视觉定位装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供一种电子设备，具有上述图6所示的室内视觉定位装置。

请参阅图7，图7是本发明可选实施例提供的一种电子设备的结构示意图，如图7所示，该电子设备可以包括：至少一个处理器51，例如CPU(Central Processing Unit，中央处理器)，至少一个通信接口53，存储器54，至少一个通信总线52。其中，通信总线52用于实现这些组件之间的连接通信。其中，通信接口53可以包括显示屏(Display)、键盘(Keyboard)，可选通信接口53还可以包括标准的有线接口、无线接口。存储器54可以是高速RAM存储器(Random Access Memory，易挥发性随机存取存储器)，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器54可选的还可以是至少一个位于远离前述处理器51的存储装置。其中处理器51可以结合图6所描述的装置，存储器54中存储应用程序，且处理器51调用存储器54中存储的程序代码，以用于执行上述任一方法步骤。

其中，通信总线52可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。通信总线52可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器54可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)，硬盘(英文：hard diskdrive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器54还可以包括上述种类的存储器的组合。

其中，处理器51可以是中央处理器(英文：central processing unit，缩写：CPU)，网络处理器(英文：network processor，缩写：NP)或者CPU和NP的组合。

其中，处理器51还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)，可编程逻辑器件(英文：programmable logic device，缩写：PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，缩写：CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，缩写：FPGA)，通用阵列逻辑(英文：generic arraylogic,缩写：GAL)或其任意组合。

可选地，存储器54还用于存储程序指令。处理器51可以调用程序指令，实现如本申请图1至3实施例中所示的室内视觉定位方法。

本发明实施例还提供了一种非暂态计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的室内视觉定位方法。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种室内视觉定位方法，其特征在于，所述方法包括：

获取当前影像对应的影像特征；

2.根据权利要求1所述的定位方法，其特征在于，所述对所述当前影像以及所述目标影像进行特征点匹配，以得到同名特征点，包括：

对所述第一特征点进行筛选，得到筛选后的第一特征点；

3.根据权利要求2所述的定位方法，其特征在于，所述对所述第一特征点进行筛选，得到筛选后的第一特征点，包括：

识别所述当前影像中运动目标的区域；

4.根据权利要求1所述的定位方法，其特征在于，所述基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿，包括：

5.根据权利要求4所述的定位方法，其特征在于，所述基于所述同名特征点中所述当前影像的特征点坐标与所述世界坐标系下的三维坐标，确定所述当前影像的位姿，包括：

对所述第二转换矩阵求逆，分解出所述当前影像的位姿。

6.根据权利要求1-5中任一项所述的定位方法，其特征在于，所述基于所述同名特征点以及所述深度距离信息，确定所述当前影像的位姿，还包括：

判断所述同名特征点的数量是否满足预设条件；

7.根据权利要求1所述的定位方法，其特征在于，所述获取当前影像对应的影像特征的步骤之前还包括：

检测所述当前影像中是否包含人工地标；

8.一种室内视觉定位装置，其特征在于，所述装置包括：

获取模块，用于获取当前影像对应的影像特征；

9.一种电子设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1-7中任一项所述的室内视觉定位方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的室内视觉定位方法。