CN110298320A

CN110298320A - 一种视觉定位方法、装置及存储介质

Info

Publication number: CN110298320A
Application number: CN201910586511.9A
Authority: CN
Inventors: 李照虎; 张永杰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-07-01
Filing date: 2019-07-01
Publication date: 2019-10-01
Anticipated expiration: 2039-07-01
Also published as: CN110298320B

Abstract

本发明实施例提出视觉定位方法、装置及存储介质，其中，所述方法包括：采集全景数据；将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果；根据所述分类结果得到基于语义特征的定位地图；将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。采用本发明实施例，用现有的磁力计就可以实现准确的方向定位，同时降低了升级磁力计的硬件成本。

Description

一种视觉定位方法、装置及存储介质

技术领域

本发明涉及计算机视觉的技术领域，尤其涉及一种视觉定位方法、装置及存储介质。

背景技术

视觉定位处理的一种应用场景是：从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)看同一个目标对象(如建筑物、车辆、手机终端、周边环境中的一颗树或街边的路灯等等)，如果查看结果比较类似，难以确定该目标对象的方向(或称朝向)，需要对该目标对象进行定位。比如，当前在十字路口的场景下，可以通过磁力计来查看某目标对象的朝向。可由于十字路口车辆较多，红绿灯等设施也多，而这些都会带来很大的电磁干扰，使得用于检测目标对象方向的磁力计在电磁干扰后会带来较大的误差，从而导致目标对象的方向无法准确的被确定。目前如果想要在这个场景下准确地确定方向，只能用更高级的磁力计，这势必增加成本。然而，该问题并未得到有效的解决。

发明内容

本发明实施例提供一种视觉定位方法，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种视觉定位方法，所述方法包括：

采集全景数据；

将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果；

根据所述分类结果得到基于语义特征的定位地图；

将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。

一实施方式中，所述将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果，包括：

在所述分类模型中，根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，所述预处理结果为所述至少一个图像数据中的部分图像区域；

对所述预处理结果进行分类，得到对应所述部分图像区域的语义特征和对应所述部分图像区域的坐标信息；

将所述语义特征和所述坐标信息确定为所述分类结果。

一实施方式中，所述根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，包括：

从所述至少一个图像数据中，识别出在指定时间段内处于静止状态的物体；

将所述物体对应的图像区域作为静态信息；

将所述静态信息作为所述预处理结果。

一实施方式中，所述根据所述分类结果得到基于语义特征的定位地图，包括：

获取所述语义特征和所述坐标信息；

根据所述语义特征和所述坐标信息，对应描述地图中的语义块区域；

根据所述坐标信息，配置针对所述语义块区域的观察视角；

根据所述语义特征、所述坐标信息和所述观察视角，得到由多个语义块区域构成的所述定位地图。

一实施方式中，所述配置针对所述语义块区域的观察视角，包括：

根据所述全景数据中不同物体观察方向对应的不同定位精度，配置不同的观察视角；

所述观察视角至少包括：东、南、西、北中的至少两个方向的视角。

一实施方式中，所述方法还包括：针对所述全景数据，在水平方向上划分所述观察方向；或者，

针对所述全景数据，在俯仰方向上划分所述观察方向。

一实施方式中，所述将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向，包括：

在所述分类模型中，根据语义分割策略对至少一个待处理图像数据进行图像预处理，保留所述至少一个待处理图像数据中的静态信息；

根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向。

一实施方式中，所述根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向，包括：

将所述静态信息与所述定位地图中的语义块区域进行图像匹配，得到与所述静态信息具备图像相似度的至少一个目标语义块区域，所述至少一个目标语义块区域对应同一个坐标信息；

当所述至少一个目标语义块区域存在多个观察视角的重叠时，根据多视角重叠区域得到定位参数；

根据所述定位参数，定位得到所述目标对象的方向。

第二方面，本发明实施例提供了一种视觉定位装置，所述装置包括：

采集单元，用于采集全景数据；

分类单元，用于将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果；

地图生成单元，用于根据所述分类结果得到基于语义特征的定位地图；

定位单元，用于将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。

一实施方式中，所述分类单元，进一步包括：

预处理子单元，用于在所述分类模型中，根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，所述预处理结果为所述至少一个图像数据中的部分图像区域；

分类子单元，用于对所述预处理结果进行分类，得到对应所述部分图像区域的语义特征和对应所述部分图像区域的坐标信息；

将所述语义特征和所述坐标信息确定为所述分类结果。

一实施方式中，所述预处理子单元，进一步用于：

将所述物体对应的图像区域作为静态信息；

将所述静态信息作为所述预处理结果。

一实施方式中，所述地图生成单元，进一步包括：

信息获取子单元，用于获取所述语义特征和所述坐标信息；

区域描述子单元，用于根据所述语义特征和所述坐标信息，对应描述地图中的语义块区域；

视角配置子单元，用于根据所述坐标信息，配置针对所述语义块区域的观察视角；

地图生成子单元，用于根据所述语义特征、所述坐标信息和所述观察视角，得到由多个语义块区域构成的所述定位地图。

一实施方式中，所述视角配置子单元，进一步用于：

一实施方式中，所述装置还包括方向划分单元，用于：

针对所述全景数据，在水平方向上划分所述观察方向；或者，

针对所述全景数据，在俯仰方向上划分所述观察方向。

一实施方式中，所述定位单元，进一步包括：

图像预处理子单元，用于在所述分类模型中，根据语义分割策略对至少一个待处理图像数据进行图像预处理，保留所述至少一个待处理图像数据中的静态信息；

对象定位子单元，用于根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向。

一实施方式中，所述对象定位子单元，用于：

根据所述定位参数，定位得到所述目标对象的方向。

第三方面，本发明实施例提供了一种视觉定位装置，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括处理器和存储器，所述存储器用于存储支持所述装置执行任一上述视觉定位方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述装置还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储信息处理装置所用的计算机软件指令，其包括用于执行任一上述视觉定位方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明实施例中，采集全景数据；将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果；根据所述分类结果得到基于语义特征的定位地图；将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。采用本发明实施例，对于难以确定目标对象的方向(或称朝向)的情况，通过将提取的全景数据作为训练样本输入分类模型中进行分类，根据分类结果得到基于语义特征的定位地图，然后应用该分类模型及定位地图，可以定位出当前目标对象的方向。由于借助分类模型和定位地图就可以定位出目标对象的方向，不需要改变目前的硬件，因此，用现有的磁力计就可以实现准确的方向定位，同时降低了升级磁力计的硬件成本。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的视觉定位方法的流程图。

图2示出根据本发明实施例的视觉定位方法的流程图。

图3示出根据本发明实施例的视觉定位场景示意图。

图4示出根据本发明实施例的视觉定位装置的结构框图。

图5示出根据本发明实施例的视觉定位装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

相关技术中，一个应用场景中，从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)看同一个目标对象(如建筑物、车辆、手机终端、周边环境中的一颗树或街边的路灯等等)，如果查看结果比较类似，难以确定该目标对象的方向(或称朝向)，需要对该目标对象进行定位。方向通常是利用磁力计来确定的。但是在十字路口等场景处，由于周围存在各种干扰，例如大量路过的车辆(金属外壳会影响磁力计)、电线杆和栏杆(金属材料会影响磁力计)，这些都会带来很大的电磁干扰，使得用于检测目标对象方向的磁力计在电磁干扰后会带来较大的误差，导致方向无法准确确定。

磁力计也叫地磁、磁感器，可用于测试磁场强度和方向，定位目标对象(如当前设备)的方位。磁力计的原理跟指南针原理类似，可以测量出目标对象与东西南北四个方向上的夹角，所以，陀螺仪知道“目标对象转了个身”，加速计知道“目标对象又向前走了几米”，而磁力计则知道“目标对象是向西方向”的。在实际应用中，由于误差修改及补偿需要，除了磁力计，还可以结合陀螺仪和加速计一起定位，利用每种传感器的特长，让最终的定位结果更准确，比如同时结合磁场方向和方向运动情况得到定位结果。

然而，由于电磁干扰，如果要在上述场景中准确地确定目标对象的方向，只能用更高级的磁力计，这势必增加硬件成本。对此，需要实现准确定位的同时，降低硬件成本，具体是提出本发明实施例的视觉定位处理。

图1示出根据本发明实施例的视觉定位方法的流程图。如图1所示，该流程包括：

步骤101、采集全景数据。

步骤102、将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果。

一示例中，全景数据可以是在十字路口采集的图像数据，包括十字路口行走的行人，车辆、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等。采集全景数据时，可以从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)采集同一个目标对象(如车辆、行人、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等)，也可以从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)采集不同目标对象。

将用上述采集方式得到的这些全景数据作为训练样本，将训练样本输入分类模型中进行分类，得到分类结果，分类结果可以是全景数据的任一图像数据中区分各个目标对象所在的图像区域，该图像区域具备语义特征和相应的坐标信息。比如，可以通过语义分类，获知图像数据中哪个区域是车辆，哪个区域是行人，哪个区域是建筑物，哪个区域是手机终端，周边环境中哪个区域是一颗树或哪个区域是街边的路灯等等。

步骤103、根据所述分类结果得到基于语义特征的定位地图。

一示例中，分类结果包含全景数据的任一图像数据中用于区分各个目标对象所在的图像区域，该图像区域具备语义特征和相应的坐标信息。根据相应的坐标信息为该图像区域赋值观察视角，对于同一个目标对象，可以对应至少两个观察视角。目标对象在三维空间中是一个六面体，相应的，观察视角可以在三维空间进行划分，当然不限于此，还可以在二维空间划分，还可以在二维空间划分后映射到三维空间等等。观察视角的例子，比如，从左到右的视角、从右到左的视角、从上到下俯视的视角等等。

步骤104、将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。

一示例中，目标对象可以包括：车辆、行人、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等。比如，目标对象为手机终端，用户利用该手机终端拍了一张当前位置下的场景图像(场景图像可以是不同视角下的采集图像)，该场景图像可以为该待处理图像数据。由于通过上述步骤101-104，通过输入全景数据所构成的训练样本，已经训练得到可以分类的分类模型，并可以得到对应的分类结果。那么，在实际应用中，仍然输入图像数据(如该待处理图像数据)到已有分类模型中，结合已得到的定位地图，即利用与步骤101-104中一样的处理逻辑，直接定位得到手机终端的方向，当然也可以采用同样的处理逻辑定位得到手持该手机终端的人的位姿等等，也可以通过定位得到手机终端的方向后进行位置相对变换而推导出该位姿。

采用本发明实施例，上述处理逻辑可以位于终端采集侧，也可以位于后台的服务器侧，即：在前端(目标对象如手机终端或车辆终端等)采用该处理逻辑进行方向定位的优化，及在后台服务器，如由服务器集群构成的集群中采用该处理逻辑进行方向定位的优化。对于难以确定目标对象的方向(或称朝向)的情况，本发明实施例通过将全景数据作为训练样本并输入分类模型中进行分类，得到基于语义特征的定位地图，然后应用该分类模型和定位地图，定位出当前目标对象对应的方向(或称朝向)。由于借助分类模型和定位地图就可以定位出目标对象的方向，不需要改变目前的硬件，因此，用现有的磁力计就可以实现准确的方向定位，同时降低了升级磁力计的硬件成本。

图2示出根据本发明实施例的视觉定位方法的流程图。如图2所示，该流程包括：

步骤201、采集全景数据。

步骤202、将全景数据作为训练样本输入分类模型中，在分类模型中根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，所述预处理结果为所述至少一个图像数据中的部分图像区域。

步骤203、对所述预处理结果进行分类，得到对应所述部分图像区域的语义特征和对应所述部分图像区域的坐标信息，将所述语义特征和所述坐标信息确定为所述分类结果。

通过上述步骤202-203，可以实现将全景数据作为训练样本输入分类模型中的分类，得到的分类结果包括：至少一个图像数据中，部分图像区域的语义特征和相应的坐标信息。部分图像区域可以是使用语义分割提取图像中的静态信息(比如建筑物、牌匾等长时间不会变的图像区域)，由于静态信息是长时间不会变的图像区域，对于分类运算来说具备数据稳定性和运算可靠性，因此，将静态信息提取出来进行分类，可以达到准确的分类结果，则后续通过该分类结果得到定位地图后，可以得到准确的方向定位效果。其中，该部分图像区域可以为定位地图中的语义块区域，或者对应定位地图中的语义块区域。

步骤204、根据所述分类结果得到基于语义特征的定位地图。

步骤205、将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。

一示例中，目标对象可以包括：车辆、行人、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等。比如，目标对象为手机终端，用户利用该手机终端拍了一张当前位置下的场景图像(场景图像可以是不同视角下的采集图像)，该场景图像可以为该待处理图像数据。由于通过上述步骤201-205，通过输入全景数据所构成的训练样本，已经训练得到可以分类的分类模型，并可以得到对应的分类结果。那么，在实际应用中，仍然输入图像数据(如该待处理图像数据)到已有分类模型中，结合已得到的定位地图，即利用与步骤201-205中一样的处理逻辑，直接定位得到手机终端的方向，当然也可以采用同样的处理逻辑定位得到手持该手机终端的人的位姿等等，也可以通过定位得到手机终端的方向后进行位置相对变换而推导出该位姿。

一实施方式中，根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，包括：从所述至少一个图像数据中，识别出在指定时间段内处于静止状态的物体(如建筑物，牌匾等长时间不会动的物体)，将所述物体对应的图像区域作为静态信息，将所述静态信息作为所述预处理结果。

一实施方式中，所述根据所述分类结果得到基于语义特征的定位地图，包括：获取所述语义特征和所述坐标信息；根据所述语义特征和所述坐标信息，对应描述地图中的语义块区域；根据所述坐标信息，配置针对所述语义块区域的观察视角；根据所述语义特征、所述坐标信息和所述观察视角，得到由多个语义块区域构成的所述定位地图。

一示例中，使用地图采集的全景数据，构建携带语义特征和惯性测量单元(IMU，Inertial measurement unit)信息的地图，也就是说，是通过全景数据来构建的基于语义特征的定位地图，可以解决对目标对象的方向定位问题。包括如下内容，即如何构建该基于语义特征的定位地图，和根据目标对象上传的图像进行视觉定位。

针对构建语义地图而言，详述如下：

1、一般地图采集的全景数据都有相对比较准确的GPS、IMU、磁力计等与位置和方向有关的定位信息，因此每张全景图的拍摄位置的坐标、朝向(针对全景图各不同部分的拍摄朝向)都是已有的且较为精确。

2、使用语义分割提取图像中的静态信息(比如建筑物、牌匾等长时间不会变的图像区域)并且进行分类。这样图像的每个区域都有语义信息和坐标信息。

3、数据库(database)如地图数据库中每个语义块区域都赋值一个观察视角或称观察方向(例如东南西北，也可以是具体的观测角)，最后将观察视角入库，以构建基于语义特征的定位地图(简称语义地图)。基于语义特征的定位地图中包括多个语义区域，及对应每个语义区域的语义特征、坐标信息及用于定位的方向信息。

一实施方式中，配置针对所述语义块区域的观察视角，包括：根据所述全景数据中不同物体观察方向对应的不同定位精度，配置不同的观察视角。其中，所述观察视角至少包括：东、南、西、北中的至少两个方向的视角。针对所述全景数据，在水平方向上划分所述观察方向；或者，针对所述全景数据，在俯仰方向上划分所述观察方向。比如，如果仅仅为了满足较低精度的定向需求(例如确定东南西北四个方向)，可以用较低粒度的定位精度对于观察方向进行划分，例如将360度的全景数据划分为上述东南西北四个观察视角，以便为各个方向所对应的语义块区域赋值对应的观察视角。当然，也可以为了实现更高的定位精度，可以将全景数据划分为更多的观察视角。此外，全景数据也可以不仅仅在水平方向上划分观察方向，还可以在俯仰方向上进行划分。

一实施方式中，所述将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向，包括：在所述分类模型中，根据语义分割策略对至少一个待处理图像数据进行图像预处理，保留所述至少一个待处理图像数据中的静态信息；根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向。

一实施方式中，利用上述分类模型和上述定位地图实现对目标对象方向的定位，简单来说，可以是查看重叠的扇形区域。扇形区域是本发明实施例中语义区域中定位区域的一个例子，不限定区域的具体形状。根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向，包括：将所述静态信息与所述定位地图中的语义块区域进行图像匹配，得到与所述静态信息具备图像相似度的至少一个目标语义块区域，所述至少一个目标语义块区域对应同一个坐标信息；当所述至少一个目标语义块区域存在多个观察视角的重叠时，根据多视角重叠区域得到定位参数；根据所述定位参数，定位得到所述目标对象的方向。

如何构建该基于语义特征的定位地图，本文之前已经介绍过，现就如何根据目标对象上传的图像进行视觉定位，即如何应用上述分类模型和上述定位地图实现对目标对象方向的定位，详述如下：

1、对上传的待处理采集图像进行语义分割，保留图像中的静态信息。

2、将采集图像中每一个语义区域和地图数据库中图像语义区域进行匹配，这样就得到了很多语义级别的匹配。其中，语义区域还可以称为语义块。

3、由于在构建定位地图时，每个语义区域都有观测范围(如对应一个或多个观察视角)，这样每个匹配都将会在2D平面上产生一块扇形区域，交集最密集的区域即可得到粗略的方向或位姿(pose)，以及采集图像的观察视角。如果观察视角还包括俯仰角度，则扇形区域是在3D空间中的，而非2D平面上的扇形区域。

4、如果想要得到更加精准的方向或称朝向(pose)，则需要使用SFM技术将定位地图构建成点云数据。然后在上述匹配中继续执行2D到3D映射的匹配即可。

针对SFM而言，至少包括：特征提取(一般采用SIFT算子,因其具有尺度和旋转不变性)的步骤；匹配和建立跟踪图像(如track列表)的步骤，如通过欧式距离对图像对两两匹配；初始化图像对的步骤，以找到相对采集设备(如相机)基线最大的图像对；初始化图像对的相对定向的步骤；稀疏重建SFM的步骤等待。需要指出的是，在得到目标对象的pose信息之外，还可以利用上述定位处理中多个观察视角的重叠来反推观察者(用户)所在位置，从而，可以进一步得到用户在拍摄图像时所处的位置，而不仅仅是目标对象(当前设备)的pose信息。需要指出的是，本发明实施例中的全景数据还可以是点云地图，以便可以得到更精确的pose信息和位置。采用本发明实施例，可以不采用更高硬件成本磁力计情况下，确定手机终端等当前设备在难以确定方向的场景如十字路口中的朝向，甚至可以确定具***置。

应用示例：

图3示出根据本发明实施例的视觉定位场景示意图，如图3所示，采集全景数据(采集图像)，输入该采集图像到分类模型中，在输入之前可以将图像进行数字化处理。将该采集图像作为训练样本输入分类模型中进行分类的过程中，先对该采集图像进行预处理，以保留图像中的静态信息(建筑物、牌匾等)，在分类模型中基于语义特征进行分类，得到静态信息所在图像区域的语义特征和坐标信息，将该图像区域对应的语义特征和坐标信息作为分类结果输出。采集图像可以是在十字路口采集的图像数据，包括十字路口行走的行人，车辆、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等，对于该采集图像而言，可以从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)采集同一个目标对象(如车辆、行人、建筑物、手机终端、周边环境中的一颗树或街边的路灯等等)，也可以从不同视角(如从左到右的视角、从右到左的视角、从上到下俯视的视角等等)采集不同目标对象。通过语义分类，可以获知图像数据中哪个区域是车辆，哪个区域是行人，哪个区域是建筑物，哪个区域是手机终端，周边环境中哪个区域是一颗树或哪个区域是街边的路灯等等。根据语义特征、坐标信息和赋值的至少一个观察视角得到基于语义特征的定位地图。其中，可以根据该坐标信息为该图像区域赋值对应观察视角，对于同一个目标对象，可以对应至少两个观察视角。目标对象在三维空间中是一个六面体，相应的，观察视角可以在三维空间进行划分，当然不限于此，还可以在二维空间划分，还可以在二维空间划分后映射到三维空间等等。观察视角的例子，比如，从左到右的视角、从右到左的视角、从上到下俯视的视角等等。最终，基于语义特征的定位地图和分类模型，对目标对象进行方向定位。

图4示出本发明实施例视觉定位装置的结构框图，所述装置包括：采集单元31，用于采集全景数据；分类单元32，用于将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果；地图生成单元33，用于根据所述分类结果得到基于语义特征的定位地图；定位单元34，用于将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向。

一实施方式中，所述分类单元，进一步包括：预处理子单元，用于在所述分类模型中，根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，所述预处理结果为所述至少一个图像数据中的部分图像区域；

分类子单元，用于对所述预处理结果进行分类，得到对应所述部分图像区域的语义特征和对应所述部分图像区域的坐标信息；将所述语义特征和所述坐标信息确定为所述分类结果。

一实施方式中，所述预处理子单元，进一步用于：从所述至少一个图像数据中，识别出在指定时间段内处于静止状态的物体；将所述物体对应的图像区域作为静态信息；将所述静态信息作为所述预处理结果。

一实施方式中，所述地图生成单元，进一步包括：信息获取子单元，用于获取所述语义特征和所述坐标信息；区域描述子单元，用于根据所述语义特征和所述坐标信息，对应描述地图中的语义块区域；视角配置子单元，用于根据所述坐标信息，配置针对所述语义块区域的观察视角；地图生成子单元，用于根据所述语义特征、所述坐标信息和所述观察视角，得到由多个语义块区域构成的所述定位地图。

一实施方式中，所述视角配置子单元，进一步用于：根据所述全景数据中不同物体观察方向对应的不同定位精度，配置不同的观察视角；所述观察视角至少包括：东、南、西、北中的至少两个方向的视角。

一实施方式中，所述装置还包括方向划分单元，用于：针对所述全景数据，在水平方向上划分所述观察方向；或者，针对所述全景数据，在俯仰方向上划分所述观察方向。

一实施方式中，所述定位单元，进一步包括：图像预处理子单元，用于在所述分类模型中，根据语义分割策略对至少一个待处理图像数据进行图像预处理，保留所述至少一个待处理图像数据中的静态信息；对象定位子单元，用于根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向。

一实施方式中，所述对象定位子单元，用于：将所述静态信息与所述定位地图中的语义块区域进行图像匹配，得到与所述静态信息具备图像相似度的至少一个目标语义块区域，所述至少一个目标语义块区域对应同一个坐标信息；当所述至少一个目标语义块区域存在多个观察视角的重叠时，根据多视角重叠区域得到定位参数；根据所述定位参数，定位得到所述目标对象的方向。

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图5示出根据本发明实施例的信息处理装置的结构框图。如图5所示，该装置包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行计算机程序时实现上述实施例中的自动驾驶方法。存储器910和处理器920的数量可以为一个或多个。

该装置还包括：通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent)总线或扩展工业标准体系结构(EISA，Extended Industry StandardComponent)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视觉定位方法，其特征在于，所述方法包括：

采集全景数据；

根据所述分类结果得到基于语义特征的定位地图；

2.根据权利要求1所述的方法，其特征在于，所述将所述全景数据作为训练样本输入分类模型中进行分类，得到分类结果，包括：

将所述语义特征和所述坐标信息确定为所述分类结果。

3.根据权利要求2所述的方法，其特征在于，所述根据语义分割策略对所述全景数据中的至少一个图像数据进行图像预处理，得到预处理结果，包括：

将所述物体对应的图像区域作为静态信息；

将所述静态信息作为所述预处理结果。

4.根据权利要求2所述的方法，其特征在于，所述根据所述分类结果得到基于语义特征的定位地图，包括：

获取所述语义特征和所述坐标信息；

根据所述坐标信息，配置针对所述语义块区域的观察视角；

5.根据权利要求4所述的方法，其特征在于，所述配置针对所述语义块区域的观察视角，包括：

6.根据权利要求5所述的方向，其特征在于，所述方法还包括：针对所述全景数据，在水平方向上划分所述观察方向；或者，

针对所述全景数据，在俯仰方向上划分所述观察方向。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述将当前目标对象采集的至少一个待处理图像数据输入所述分类模型，结合所述定位地图，定位得到所述目标对象的方向，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述静态信息对应的语义特征、坐标信息和观察视角，通过所述定位地图定位得到所述目标对象的方向，包括：

根据所述定位参数，定位得到所述目标对象的方向。

9.一种视觉定位装置，其特征在于，所述装置包括：

采集单元，用于采集全景数据；

10.根据权利要求9所述的装置，其特征在于，所述分类单元，进一步包括：

将所述语义特征和所述坐标信息确定为所述分类结果。

11.根据权利要求10所述的装置，其特征在于，所述预处理子单元，进一步用于：

将所述物体对应的图像区域作为静态信息；

将所述静态信息作为所述预处理结果。

12.根据权利要求10所述的装置，其特征在于，所述地图生成单元，进一步包括：

信息获取子单元，用于获取所述语义特征和所述坐标信息；

13.根据权利要求12所述的装置，其特征在于，所述视角配置子单元，进一步用于：

14.根据权利要求13所述的装置，其特征在于，所述装置还包括方向划分单元，用于：

针对所述全景数据，在俯仰方向上划分所述观察方向。

15.根据权利要求9-14中任一项所述的装置，其特征在于，所述定位单元，进一步包括：

16.根据权利要求15所述的装置，其特征在于，所述对象定位子单元，用于：

根据所述定位参数，定位得到所述目标对象的方向。

17.一种视觉定位装置，其特征在于，所述装置包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任一项所述的方法。