CN116030335A

CN116030335A - 基于室内建筑框架约束的视觉定位方法及***

Info

Publication number: CN116030335A
Application number: CN202211559144.1A
Authority: CN
Inventors: 王程; 胡倩; 刘伟权
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-04-28

Abstract

本发明提供基于室内建筑框架约束的视觉定位方法及***，方法包括获取待处理图像，待处理图像包括第一相机图像和第二相机图像；对待处理图像进行建筑框架提取，以得到语义平面图；同时对待处理图像进行特征点和特征描述子提取，以得到特征点及其对应的特征描述子；构建特征点匹配模型，并将第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对特征点匹配模型进行训练；基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到待匹配的相机图像的对应点，以便根据待匹配的相机图像的对应点进行相机位姿估计；从而降低动态物体的干扰，提高定位效果。

Description

基于室内建筑框架约束的视觉定位方法及***

技术领域

本发明涉及定位技术领域，特别涉及基于室内建筑框架约束的视觉定位方法及***。

背景技术

相关技术中，随着智能机器人的高速发展，智能服务业快速兴起，机器人可在服务领域代替人类完成特定任务，如无人快递小车、扫地机器人等；这些智能机器人需要感知周围环境，实现自主导航和定位功能，才能完成任务；目前，室内移动机器人在商场、安防等领域兴起，室内视觉定位也成为热门研究方向。

视觉定位也叫相机定位，是求解基于世界坐标系下的相机6DoF姿态的问题，依据任务的不同可划分为求解相对相机位姿和绝对相机位姿，本发明主要研究相对位姿估计方法，由于相机成本低廉，装载方便，视觉定位常常以相机作为视觉传感器；相对位姿估计的主流方法是提取两帧图像上比较明显的，可重复检测的特征点，通过特征匹配找到两帧图像之间的特征点的初始对应关系，并消除异常匹配，最后估计相机位姿；但是当前基于特征匹配的相对位姿方法都是假设环境中的物体是静止不动的，只有相机在运动；但实际场景中存在大量的运动物体，比如反复开关的门窗，常常移动的桌椅，走动的人，这些动态物体会给***带来错误的观测数据，降低***的鲁棒性；虽然RANSAC算法能够滤除部分异常匹配，但当动态物体占据大部分图像区域时，暴力去除这些物体可能会破坏特征匹配的数量和质量，尤其是当场景中其他静态区域无法提供足够的特征时，依然会严重影响定位的效果。

发明内容

本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此，本发明的一个目的在于提出一种基于室内建筑框架约束的视觉定位方法，能够利用建筑框架的不变性，引导网络聚焦于静态物体上的特征点，降低动态物体的干扰，从而提高定位效果。

本发明的第二个目的在于提出一种基于室内建筑框架约束的视觉定位***。

为达到上述目的，本发明第一方面实施例提出了一种基于室内建筑框架约束的视觉定位方法，包括获取待处理图像，其中，所述待处理图像包括第一相机图像和第二相机图像；然后，对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图；同时对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子；构建特征点匹配模型，并将所述第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和所述第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对所述特征点匹配模型进行训练；基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到所述待匹配的相机图像的对应点，以便根据所述待匹配的相机图像的对应点进行相机位姿估计。

根据本发明实施例的基于室内建筑框架约束的视觉定位方法，首先，获取待处理图像，其中，待处理图像包括第一相机图像和第二相机图像；然后，对待处理图像进行建筑框架提取，以得到与待处理图像大小一致的语义平面图；同时对待处理图像进行特征点和特征描述子提取，以得到待处理图像中的每个特征点及其对应的特征描述子；接着，构建特征点匹配模型，并将第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对特征点匹配模型进行训练；最后，基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到待匹配的相机图像的对应点，以便根据待匹配的相机图像的对应点进行相机位姿估计；由此，能够利用建筑框架的不变性，引导网络聚焦于静态物体上的特征点，降低动态物体的干扰，从而提高定位效果。

另外，根据本发明上述实施例提出的一种基于室内建筑框架约束的视觉定位方法，还可以具有如下附加的技术特征：

优选地，对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图，包括：基于改进的ResNet101网络对所述待处理图像进行建筑框架提取，以便将所述待处理图像根据不同建筑内饰面分割为由多个小语义平面组成的语义平面图。

优选地，对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子，包括：采用训练好的SuperPoint模型中的特征点解码器进行特征点位置检测，并采用子像素卷积降低计算量，以便提取特征点；采用训练好的SuperPoint模型中的特征描述符解码器生成所述待处理图像中的每个特征点对应的特征描述子。

优选地，在对所述特征点匹配模型进行训练时，包括：采用位置编码将每个特征点的位置信息映射到高维向量中，以便将所述位置信息与其对应的特征描述子融合；通过注意力机制提升融合后的特征描述子的感受野，以便增强第一相机图像和第二相机图像的特征交流；构建特征描述子的相似度矩阵，以得到所述第一相机图像和所述第二相机图像的对应点集；根据所述对应点集得到所述第一相机图像和所述第二相机图像对应的所述语义平面图的置信度；根据每一对对应点的真实值构建第一损失函数，以及根据所述第一相机图像和所述第二相机图像的对应点集和所述语义平面图的置信度构建第二损失函数，以便根据所述第一损失函数和所述第二损失函数得到最终的损失函数。

优选地，在得到所述待匹配的相机图像的对应点后还经过RANSAC算法滤除异常匹配的数据。

优选地，根据所述待匹配的相机图像的对应点进行相机位姿估计，包括：对滤除异常匹配数据后的所述待匹配的相机图像的对应点，采用OPENCV库求解出本质矩阵，以便估计出所述待匹配的相机图像的旋转量和平移量。

为达到上述目的，本发明第二方面实施例提供一种基于室内建筑框架约束的视觉定位***，包括：获取模块，用于获取待处理图像，其中，所述待处理图像包括第一相机图像和第二相机图像；第一提取模块，用于对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图；第二提取模块，用于对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子；训练模块，用于构建特征点匹配模型，并将所述第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和所述第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对所述特征点匹配模型进行训练；估计定位模块，用于基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到所述待匹配的相机图像的对应点，以便根据所述待匹配的相机图像的对应点进行相机位姿估计。

根据本发明实施例提供的基于室内建筑框架约束的视觉定位***，能够利用建筑框架的不变性，引导网络聚焦于静态物体上的特征点，降低动态物体的干扰，从而提高定位效果。

另外，根据本发明上述实施例提出的基于室内建筑框架约束的视觉定位***，还可以具有如下附加的技术特征：

优选地，所述第一提取模块还用于，基于改进的ResNet101网络对所述待处理图像进行建筑框架提取，以便将所述待处理图像根据不同建筑内饰面分割为由多个小语义平面组成的语义平面图。

优选地，所述第二提取模块还用于，采用训练好的SuperPoint模型中的特征点解码器进行特征点位置检测，并采用子像素卷积降低计算量，以便提取特征点；采用训练好的SuperPoint模型中的特征描述符解码器生成所述待处理图像中的每个特征点对应的特征描述子。

优选地，所述训练模块还用于，采用位置编码将每个特征点的位置信息映射到高维向量中，以便将所述位置信息与其对应的特征描述子融合；通过注意力机制提升融合后的特征描述子的感受野，以便增强第一相机图像和第二相机图像的特征交流；构建特征描述子的相似度矩阵，以得到所述第一相机图像和所述第二相机图像的对应点集；根据所述对应点集得到所述第一相机图像和所述第二相机图像对应的所述语义平面图的置信度；根据每一对对应点的真实值构建第一损失函数，以及根据所述第一相机图像和所述第二相机图像的对应点集和所述语义平面图的置信度构建第二损失函数，以便根据所述第一损失函数和所述第二损失函数得到最终的损失函数。

附图说明

图1为根据本发明实施例的基于室内建筑框架约束的视觉定位方法的流程示意图；

图2为根据本发明实施例的提取建筑框架的示意图；

图3为根据本发明实施例的提取特征点和特征描述子的示意图；

图4为根据本发明实施例的特征匹配的示意框图；

图5为根据本发明实施例的基于室内建筑框架约束的视觉定位***的方框示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

本发明实施例针对动态场景下的室内视觉定位任务提出了一种基于室内建筑框架约束的视觉定位方法，由于室内建筑框架静止不动，这为两帧图像中物体是否移动提供了参考，通过加入建筑框架约束，使得网络在训练过程中更好地聚焦到静态物体上的特征点，从而降低动态物体所带来的干扰。

图1为根据本发明实施例的基于室内建筑框架约束的视觉定位方法的流程示意图。如图1所示，本发明实施例的基于室内建筑框架约束的视觉定位方法包括以下步骤：

S101，获取待处理图像，其中，待处理图像包括第一相机图像和第二相机图像。

也就是说，通过相机连续获取两帧的图像，两帧图像为第一相机图像和第二相机图像。

S102，对待处理图像进行建筑框架提取，以得到与待处理图像大小一致的语义平面图。

作为一个实施例，对待处理图像进行建筑框架提取，以得到与待处理图像大小一致的语义平面图，包括：基于改进的ResNet101网络对待处理图像进行建筑框架提取，以便将待处理图像根据不同建筑内饰面分割为由多个小语义平面组成的语义平面图。

需要说明的是，不同建筑内饰面指的是墙面、天花板和地板，即言，将第一相机图像和第二相机图像分别根据墙面、天花板和地板分割为几个语义平面。

也就是说，对ResNet101网络进行改进，其中，将ResNet的最后一个average-pooling替换为max-pooling,并把1×1的卷积层改为全连接层对像素进行分类，以便通过三个反卷积层对特征图进行上采样，最后得到与原图大小一致的语义平面图，即用不同颜色表示天花板、地板和墙面；其中，网络结构请参阅图2。

S103，对待处理图像进行特征点和特征描述子提取，以得到待处理图像中的每个特征点及其对应的特征描述子。

作为一个实施例，对待处理图像进行特征点和特征描述子提取，以得到待处理图像中的每个特征点及其对应的特征描述子，包括：采用训练好的SuperPoint模型中的特征点解码器进行特征点位置检测，并采用子像素卷积降低计算量，以便提取特征点；采用训练好的SuperPoint模型中的特征描述符解码器生成待处理图像中的每个特征点对应的特征描述子。

也就是说，如图3所示，采用预训练好的SuperPoint模型提取特征点和特征描述子，其中，SuperPoint模型包括一个Encoder和两个Decoder，Encoder部分采用VGG结构进行特征编码，Decoder部分又分为Interest Point Decoder和Descriptor Decoder，InterestPoint Decoder用于特征点位置检测，Descriptor Decoder用于生成特征描述子；其中，采用Interest Point Decoder计算图像中每个像素点是特征点的概率，同时采用子像素卷积的方法降低计算量；先学习半稠密的特征描述子，然后进行双三次插值算法得到完整的描述子，最后对特征描述子采用L2正则化得到最终的描述子。

S104，构建特征点匹配模型，并将第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对特征点匹配模型进行训练。

作为一个实施例，如图4所示，在对特征点匹配模型进行训练时，包括：采用位置编码将每个特征点的位置信息映射到高维向量中，以便将位置信息与其对应的特征描述子融合；通过注意力机制提升融合后的特征描述子的感受野，以便增强第一相机图像和第二相机图像的特征交流；构建特征描述子的相似度矩阵，以得到第一相机图像和第二相机图像的对应点集；根据对应点集得到第一相机图像和第二相机图像对应的语义平面图的置信度；根据每一对对应点的真实值构建第一损失函数，以及根据第一相机图像和第二相机图像的对应点集和语义平面图的置信度构建第二损失函数，以便根据第一损失函数和第二损失函数得到最终的损失函数。

作为一个实施例，根据以下公式构建特征描述子的相似度矩阵，即获取特征点匹配的代价矩阵：

其中，i表示第一相机图像中的特征点，j表示第二相机图像中的特征点，I表示第一相机图像中的特征点集，J表示第二相机图像中的特征点集，-f_i表示特征点i的特征向量，f_j表示特征点j的特征向量，“<>”表示求内积；通过Sinkhorn Algorithm对SC矩阵不停地缩放更新，得到两幅图像特征点匹配的代价矩阵P。

作为一个实施例，由于缺少真实的关于建筑框架的语义标签，所以采用以下方法衡量提取的建筑框架的置信度：

首先分别提取第一相机图像和第二相机图像的建筑框架，输入到特征点匹配模型中，依据得到的匹配对确定两张图像的建筑框架对应关系。

对于匹配网络输出的对应点集M_pre＝{(i′，j′)|}，第一相机图像的平面集合L_A＝{L_l1，L_l2，L_l3，L_l4，L_l5}和第二相机图像的平面集合L_B＝{L_r1，L_r2，L_r3，L_r4，L_r5}，若i′在平面L_lm(L_lm∈L_A)中，j′在平面L_rn(L_rn∈L_B)中，那么则认为该对应点支持平面L_lm与L_rn在三维空间里是同一平面这一观点；由此可得到第一相机图像平面与第二相机图像平面的对应关系；若有K对对应点支持L_lm与L_rn是同一平面，则L_lm与L_rn是同一平面的支持度S_(lm，rn)＝K；其中，i′表示第一相机图像中的特征点，j′表示第二相机图像中的特征点，I表示第一相机图像的特征点集，J表示第二相机图像的特征点集，M表示第一相机图像共有M个特征点，N表示第二相机图像共有N个特征点，(i′，j′)表示第一相机图像中的特征点i′与第二相机图像中的特征点j′构成一对正确的对应点，i′∈I，j′∈J；M_pre＝(i′，j′)表示一对图像中网络所预测得到的对应点。

支持度矩阵S是个5×5的矩阵，用函数F表示则两张图像建筑框架的对应关系，F(S)表示对于对矩阵S按行取最大值的索引，表示L_lm与L_rn是同一平面；从而得到第一相机图像平面与第二相机图像平面的对应关系，但是由于这种对应关系可能是错误的，因而要评估平面对应关系的置信度，计算公式如下所示：

其中，LC表示平面匹配的置信度，NT表示满足平面匹配关系的对应点的数量，NA表示所有对应点的数量。

作为一个实施例，对一对对应点的真值M_gt＝{(i，j)}，构建损失函数

其中，i表示第一相机图像中第i个特征点，j表示第二相机图像中第j个特征点，I表示第一相机图像的特征点集，J表示第二相机图像的特征点集，M表示第一相机图像共有M个特征点，N表示第二相机图像共有N个特征点，(i，j)表示第一相机图像中的第i个特征点与第二相机图像中的第j个特征点是构成一对正确的对应点，i∈I，j∈J。M_gt＝(i，j)表示一对图像中所有正确的对应点。

对于网络预测得到的匹配M_pre＝{(i′，j′)}构建损失函数

其中，L_j表示第一相机图像的第i个特征点的所属的平面，L_j表示第二相机图像的第j个特征点所属的平面；LC表示的是从图像中提取的建筑框架的置信度；如果i和j属于相同的平面，则说明网络预测的对应点可能是对的，不施加惩罚，若i和j是属于相同的平面，则说明网络预测的对应点可能是是错的，则施加惩罚。

最终的损失函数公式如下：

Loss＝Loss1+Loss2

整个网络通过反向传播算法进行优化，使得网络更聚焦于那些静态物体上的特征点。

S105，基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到待匹配的相机图像的对应点，以便根据待匹配的相机图像的对应点进行相机位姿估计。

作为一个实施例，在得到待匹配的相机图像的对应点后还经过RANSAC算法滤除异常匹配的数据。

需要说明的是，随机抽样一致算法(RANdom SAmple Consensus，RANSAC)是常用的异常匹配滤除方法，在一定程度上，该方法可以有效地滤除部分异常匹配，从而解算出更准确的相机位姿。

作为一个实施例，根据待匹配的相机图像的对应点进行相机位姿估计，包括：对滤除异常匹配数据后的待匹配的相机图像的对应点，采用OPENCV库求解出本质矩阵，以便估计出待匹配的相机图像的旋转量和平移量。

需要说明的是，各方法实验结果对比表格如下表所示：

	AUC5°	AUC10°	AUC20°	Precision
					MNN	6.07％	9.17％	13.71％	25.12％
Superglue	21.83％	30.11％	36.85％	82.67％
					Ours	27.35％	36.27％	44.21％	85.84％

综上所述，根据本发明实施例的基于室内建筑框架约束的视觉定位方法，首先，获取待处理图像，其中，待处理图像包括第一相机图像和第二相机图像；然后，对待处理图像进行建筑框架提取，以得到与待处理图像大小一致的语义平面图；同时对待处理图像进行特征点和特征描述子提取，以得到待处理图像中的每个特征点及其对应的特征描述子；接着，构建特征点匹配模型，并将第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对特征点匹配模型进行训练；最后，基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到待匹配的相机图像的对应点，以便根据待匹配的相机图像的对应点进行相机位姿估计；由此，能够利用建筑框架的不变性，引导网络聚焦于静态物体上的特征点，降低动态物体的干扰，从而提高定位效果。

在另一具体实施例中，基于上述具体实施例提供的基于室内建筑框架约束的视觉定位方法，本具体实施例提供一种基于室内建筑框架约束的视觉定位***。

本具体实施例提供的定位***，请参阅图5，包括获取模块10、第一提取模块20、第二提取模块30、训练模块40和估计定位模块50。

其中，获取模块10用于获取待处理图像，待处理图像包括第一相机图像和第二相机图像；第一提取模块20用于对待处理图像进行建筑框架提取，以得到与待处理图像大小一致的语义平面图；第二提取模块30用于对待处理图像进行特征点和特征描述子提取，以得到待处理图像中的每个特征点及其对应的特征描述子；训练模块40用于构建特征点匹配模型，并将第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对特征点匹配模型进行训练；估计定位模块50用于基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到待匹配的相机图像的对应点，以便根据待匹配的相机图像的对应点进行相机位姿估计。

作为一个实施例，第一提取模块20还用于，基于改进的ResNet101网络对待处理图像进行建筑框架提取，以便将待处理图像根据不同建筑内饰面分割为由多个小语义平面组成的语义平面图。

作为一个实施例，第二提取模块30还用于，采用训练好的SuperPoint模型中的特征点解码器进行特征点位置检测，并采用子像素卷积降低计算量，以便提取特征点；采用训练好的SuperPoint模型中的特征描述符解码器生成待处理图像中的每个特征点对应的特征描述子。

作为一个实施例，训练模块40还用于，采用位置编码将每个特征点的位置信息映射到高维向量中，以便将位置信息与其对应的特征描述子融合；通过注意力机制提升融合后的特征描述子的感受野，以便增强第一相机图像和第二相机图像的特征交流；构建特征描述子的相似度矩阵，以得到第一相机图像和第二相机图像的对应点集；根据对应点集得到第一相机图像和第二相机图像对应的语义平面图的置信度；根据每一对对应点的真实值构建第一损失函数，以及根据第一相机图像和第二相机图像的对应点集和语义平面图的置信度构建第二损失函数，以便根据第一损失函数和第二损失函数得到最终的损失函数。

需要说明的是，上述关于基于室内建筑框架约束的视觉定位方法的描述及举例说明同样适用于本实施例的基于室内建筑框架约束的视觉定位***，在此不做赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

应当注意的是，在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触，或第一和第二特征通过中间媒介间接接触。而且，第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方，或仅仅表示第一特征水平高度小于第二特征。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于室内建筑框架约束的视觉定位方法，其特征在于，包括以下步骤：

获取待处理图像，其中，所述待处理图像包括第一相机图像和第二相机图像；

对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图；

对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子；

构建特征点匹配模型，并将所述第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和所述第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对所述特征点匹配模型进行训练；

基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到所述待匹配的相机图像的对应点，以便根据所述待匹配的相机图像的对应点进行相机位姿估计。

2.如权利要求1所述的基于室内建筑框架约束的视觉定位方法，其特征在于，对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图，包括：

基于改进的ResNet101网络对所述待处理图像进行建筑框架提取，以便将所述待处理图像根据不同建筑内饰面分割为由多个小语义平面组成的语义平面图。

3.如权利要求1所述的基于室内建筑框架约束的视觉定位方法，其特征在于，对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子，包括：

采用训练好的SuperPoint模型中的特征点解码器进行特征点位置检测，并采用子像素卷积降低计算量，以便提取特征点；

采用训练好的SuperPoint模型中的特征描述符解码器生成所述待处理图像中的每个特征点对应的特征描述子。

4.如权利要求1所述的基于室内建筑框架约束的视觉定位方法，其特征在于，在对所述特征点匹配模型进行训练时，包括：

采用位置编码将每个特征点的位置信息映射到高维向量中，以便将所述位置信息与其对应的特征描述子融合；

通过注意力机制提升融合后的特征描述子的感受野，以便增强第一相机图像和第二相机图像的特征交流；

构建特征描述子的相似度矩阵，以得到所述第一相机图像和所述第二相机图像的对应点集；

根据所述对应点集得到所述第一相机图像和所述第二相机图像对应的所述语义平面图的置信度；

根据每一对对应点的真实值构建第一损失函数，以及根据所述第一相机图像和所述第二相机图像的对应点集和所述语义平面图的置信度构建第二损失函数，以便根据所述第一损失函数和所述第二损失函数得到最终的损失函数。

5.如权利要求1所述的基于室内建筑框架约束的视觉定位方法，其特征在于，在得到所述待匹配的相机图像的对应点后还经过RANSAC算法滤除异常匹配的数据。

6.如权利要求5所述的基于室内建筑框架约束的视觉定位方法，其特征在于，根据所述待匹配的相机图像的对应点进行相机位姿估计，包括：

对滤除异常匹配数据后的所述待匹配的相机图像的对应点，采用OPENCV库求解出本质矩阵，以便估计出所述待匹配的相机图像的旋转量和平移量。

7.一种基于室内建筑框架约束的视觉定位***，其特征在于，包括：

获取模块，用于获取待处理图像，其中，所述待处理图像包括第一相机图像和第二相机图像；

第一提取模块，用于对所述待处理图像进行建筑框架提取，以得到与所述待处理图像大小一致的语义平面图；

第二提取模块，用于对所述待处理图像进行特征点和特征描述子提取，以得到所述待处理图像中的每个特征点及其对应的特征描述子；

训练模块，用于构建特征点匹配模型，并将所述第一相机图像对应的语义平面图、每个特征点及其对应的特征描述子和所述第二相机图像对应的语义平面图、每个特征点及其对应的特征描述子作为数据集对所述特征点匹配模型进行训练；

估计定位模块，用于基于训练好的特征点匹配模型对待匹配的相机图像进行匹配，以得到所述待匹配的相机图像的对应点，以便根据所述待匹配的相机图像的对应点进行相机位姿估计。

8.如权利要求7所述的基于室内建筑框架约束的视觉定位***，其特征在于，所述第一提取模块还用于，

9.如权利要求7所述的基于室内建筑框架约束的视觉定位***，其特征在于，所述第二提取模块还用于，

10.如权利要求7所述的基于室内建筑框架约束的视觉定位***，其特征在于，所述训练模块还用于，