CN114066987A

CN114066987A - 一种相机位姿估计方法、装置、设备及存储介质

Info

Publication number: CN114066987A
Application number: CN202210029300.7A
Authority: CN
Inventors: 程飞洋; 刘国清; 杨广; 王启程; 郑伟
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Youjia Innovation Technology Co.,Ltd.
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-02-18
Anticipated expiration: 2042-01-12
Also published as: CN114066987B

Abstract

本发明公开了一种相机位姿估计方法、装置、设备及存储介质，通过获取相邻的两帧图像，提取两帧图像中的特征点，以使对两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；将图像块序列输入到训练完成的神经网络模型中，以使神经网络模型输出估计的基础矩阵，并对基础矩阵进行分解处理，得到相机位姿估计结果。与现有技术相比，通过训练一个神经网络模型进行位姿求解，将相机位姿求解问题统一为一个联合优化问题，避免了传统方法中复杂的计算流程，减少了模型的计算量，提高了相机位姿的获取效率，具有较强的实用性。

Description

一种相机位姿估计方法、装置、设备及存储介质

技术领域

本发明涉及计算机视觉的技术领域，特别是涉及一种相机位姿估计方法、装置、设备及存储介质。

背景技术

相机位姿估计是指计算相机的运动参数，包括仅依赖序列图像数据的视觉方法、依赖激光雷达点云的融合方法和依赖高精度位姿测量传感器的直接测量方法等，传统的相机位姿估计一般分为四个步骤，主要包括特征点检测、特征点匹配、筛选可信匹配点对和相机位姿的优化估计。传统方法存在特征点定义难，特征点检测重复性无法保证，且匹配特征点需要较强的匹配特征，容易导致误匹配较多等问题。

现有中，基于深度学习的方法在特征点检测，特征点特征学习以及特征点筛选位姿优化求解等方面取得了一些进展，但是这些方法依然遵循传统的相机位姿估计流程，只解决了某一步骤或者某些步骤的精度提升问题，没能将相机位姿求解问题作为一个整体的联合优化问题进行求解。

发明内容

本发明要解决的技术问题是：提供一种相机位姿估计方法、装置、设备及存储介质，通过训练一个神经网络模型进行位姿求解，将相机位姿求解问题统一为一个联合优化问题，避免了传统方法中复杂的计算流程，减少了模型的计算量，提高了相机位姿的获取效率，具有较强的实用性。

为了解决上述技术问题，本发明提供了一种相机位姿估计方法，包括：

获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；

将所述图像块序列输入到训练完成的神经网络模型中，以使所述神经网络模型输出估计的基础矩阵，并对所述基础矩阵进行分解处理，得到相机位姿估计结果；

其中，所述神经网络模型，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量，同时按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征；

将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；

将所述全局编码特征输入到匹配分类器中，获取并根据所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，并根据所述匹配点对及匹配概率，对基础矩阵进行优化求解。

进一步地，所述获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列，具体为：

获取相邻的两帧图像，并对所述两帧图像进行特征点检测，生成所述两帧图像对应的特征点集；

以所述特征点集中的每一个特征点为中心，分别对所述两帧图像进行图像块划分，生成所述两帧图像对应的图像块序列。

进一步地，所述并根据所述匹配点对及匹配概率，对基础矩阵进行优化求解，具体为：

根据所述匹配点对构建线性方程，生成线性方程组；

获取并根据所述匹配点对的匹配概率，求取所述线性方程的最优解，并将所述线性方程的最优解作为所述基础矩阵的最优解，以使对所述基础矩阵进行优化求解。

进一步地，将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；最后将所述全局编码特征输入到匹配分类器，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，具体为：

获取所述两帧图像对应的图像块序列的编码特征，并将每一个图像块的编码特征输入到所述全局编码模块中，以使所述每一个图像块的编码特征遍历所有图像块的编码特征，获取该所述每一个图像块对应的全局编码特征；

将所述每一个图像块对应的全局编码特征输入到匹配分类器中，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率。

进一步地，本发明还提供了一种相机位姿估计装置，包括：提取模块、相机位姿获取模块和神经网络训练模块；

其中，所述提取模块，用于获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；

所述相机位姿获取模块，用于将所述图像块序列输入到训练完成的神经网络模型中，以使所述神经网络模型输出估计的基础矩阵，并对所述基础矩阵进行分解处理，得到相机位姿估计结果；

所述神经网络训练模块，用于对所述神经网络模型进行预训练，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量，同时按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征；

进一步地，所述提取模块用于获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列，具体为：

进一步地，所述神经网络训练模块用于根据所述匹配点对及匹配概率，对基础矩阵进行优化求解，具体为：

根据所述匹配点对构建线性方程，生成线性方程组；

进一步地，所述神经网络训练模块用于将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；最后将所述全局编码特征输入到匹配分类器，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，具体为：获取所述两帧图像对应的图像块序列的编码特征，并将每一个图像块的编码特征输入到所述全局编码模块中，以使所述每一个图像块的编码特征遍历所有图像块的编码特征，获取该所述每一个图像块对应的全局编码特征；

进一步地，本发明还提供了一种终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如上述任意一项所述的相机位姿估计方法。

进一步地，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任意一项所述的相机位姿估计方法。

本发明实施例一种相机位姿估计方法、装置、设备及存储介质，与现有技术相比，具有如下有益效果：

通过将获取的两帧图像进行图像块划分，并以图像块序列作为预训练的神经网络模型的输入，避免了编码整个图像的计算量过大问题，能够保证模型的轻量性，并直接基于训练的神经网络模型输出的估计的基础矩阵，进行位姿求解，将相机位姿求解问题统一为一个联合优化问题，避免了传统方法中复杂的计算流程。且对神经网络模型进行预训练，基于集成神经网络编码器和匹配分类器，能够利用大量图像数据训练神经网络模型，保证了模型训练的收敛性，以使输出优化的基础矩阵，提高了后续对相机位姿求解的精度。与现有技术相比，本发明通过训练一个神经网络模型进行位姿求解，将相机位姿求解问题统一为一个联合优化问题，避免了传统方法中复杂的计算流程，减少了模型的计算量，提高了相机位姿的获取效率，具有较强的实用性。

附图说明

图1是本发明提供的一种相机位姿估计方法的一种实施例的流程示意图；

图2是本发明一实施例提供的神经网络模型的结构示意图；

图3是本发明提供的一种相机位姿估计装置的一种实施例的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1，图1是本发明提供的相机位姿估计方法的一种实施例的流程示意图，如图1所示，该方法包括步骤101-步骤102，具体如下：

步骤101：获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列。

本实施例中，通过获取摄像机拍摄的相邻两帧的图像，并对所述两帧图像进行特征点检测。具体的，采用现存的任一特征点检测方法，对获取的相邻的两帧图像进行特征点检测，其中，现存的特征点检测方法包括但不限于传统的FAST、SIFT特征点检测方法和基于深度学习的特征点检测方法；同样的，本实施例中还可采用上述多个特征点检测方法对同一帧图像进行多次检测，用以获取更多的特征点，以提高检测的特征点在另一帧图像中存在匹配特征点的概率。

本实施例中，在进行特征点检测后，生成所述两帧图像对应的特征点集；具体的，所述两帧图像包括第一帧图像和第二帧图像，在通过上述特征点检测方法对两帧图像的特征点进行检测后，获取检测到的第一帧图像中的特征点，并将第一帧图像中的特征点进行集合，记为第一帧图像的特征点集P，其中，P=（p1, p2,...,pN1），共

个特征点，同理将获取的第二帧图像中的特征点进行集合，记为第二帧图像的特征点集Q=（q1,q2,...,qN2），共

个特征点。

本实施例中，以所述特征点集中的每一个特征点为中心，分别对所述两帧图像进行图像块划分，生成所述两帧图像对应的图像块序列。具体的，以第一帧图像的特征点集P和第二帧图像的特征点集Q中的每一个特征点为中心，在相应的帧图像中截取同等大小的图像块，作为本实施例中的一种举例，在相应的帧图像中截取同大小的16x16的图像块，对从相应帧图像中截取出来的图像块进行排序集合，可获得第一帧图像对应的图像块序列和第二帧图像对应的图像块序列，其中，第一帧图像和第二帧图像对应的图像块序列包括该帧图像划分出的所有图像块。

本实施例中，将获取的第一帧图像和第二帧图像对应的图像块序列中的所有图像块作为后续预训练的神经网络模型的输入数据。

步骤102：将所述图像块序列输入到训练完成的神经网络模型中，以使所述神经网络模型输出估计的基础矩阵，并对所述基础矩阵进行分解处理，得到相机位姿估计结果。

本实施例中，将步骤101中获取的第一帧图像和第二帧图像对应的图像块序列输入到训练完成的神经网络模型中，神经网络模型即可输出估计的基础矩阵，由于基础矩阵中包含相机位姿，其中，相机位姿包括获取的两帧图像之间的相机旋转矩阵和位移；基于对输出的基础矩阵进行分解处理，即可得到相机位姿估计结果。

本实施例以图像块序列作为神经网络模型的输入，避免了后续对整张图像进行编码，极大降低了模型的计算量，能够在嵌入式平台上运行，具备很高的实用性。

本实施例中，对于基础矩阵的分解，可直接采用比较成熟的方法，如通过基础矩阵计算本质矩阵，再通过OpenCV的decomposeEssentialMat函数分解本质矩阵即可求解相机的位姿参数。

作为本实施例中的一种优选方案，参见图2，图2为神经网络模型的结构示意图，预训练的神经网络模型中集成了神经网络编码器、Transformer全局编码模块、匹配分类器和基础矩阵计算模块，以使用训练的神经网络模型对两帧图像进行特征点匹配，对特征点匹配概率进行计算，以及对基础矩阵进行求解，能端到端的实现两帧图像之间相机位姿的直接计算，避免了传统方法中复杂的计算流程。

本实施例中，需要对神经网络模型中设计的神经网络编码器、Transformer全局编码模块、匹配分类器进行预训练。首先，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量。具体的，依据步骤101中的方法，提取两帧图像对应的图像块序列中的每一个图像块，作为神经网络模型的输入，经过相同的神经网络编码器，将每一个图像块编码成为一个d维的特征向量，则两帧图像共生成N个特征向量，其中，

，d维为预设维度数，如生成一个128维的特征向量。

本实施例中，还按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征。具体的，预设的位置编码规则为通过针对[0, 1, ...,N-1]个一维坐标，生成对应的N个位置编码；其中，位置编码的定义如下：

；

其中，d为输入特征维度，

为第t个输入的位置编码，i为特征维度的索引。

将N个位置编码分别和输入的N个图像块对应的特征向量相加，作为每个图像块的编码特征，以使每个编码特征中包含该图像块的索引信息，同时构成后续Transformer全局编码模块的输入特征。

本实施例中，将两个图像块序列中所有图像块的编码特征输入到Transformer全局编码模块后，Transformer全局编码模块通过多重注意力机制，完成两帧图像对应的图像块序列之间的全局信息传递，使最后输出对应于每一个图像块输入的全局编码特征包含所需的全局信息；其中，Transformer全局编码模块的输入编码特征数量和输出全局编码特征数量与两帧图像划分成的图像块数量N相同，即每一个图像块对应一个全局编码特征。

本实施例中，将所述Transformer全局编码模块输出的全局编码特征输入到匹配分类器中，以获取所述每一个图像块对应的编码特征对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率。具体的，将Transformer全局编码模块输出的每一个图像块的对应的全局编码特征作为匹配分类器的输入，以使每一个图像块对应的全局编码特征经过分类器计算得到一个匹配概率向量，作为该全局编码特征所代表的特征点和其它特征点的匹配度，根据匹配度最大值，获取与该全局特征所代表的特征点最匹配的特征点，两个匹配的特征点即构成两帧图像之间的一个匹配点对。作为本实施例中的一种举例，对于第一帧图像，每一个特征点对应一个

维的分类概率，代表了特征点和第二帧图像中的

个特征点匹配的概率以及无匹配点的概率。同理，对于第二帧图像，每一个特征点对应一个

维的分类概率，代表了特征点和第一帧图像中的

个特征点匹配的概率以及无匹配点的概率。

作为本实施例中的一种优选方案，获取预训练所需的匹配点对，可选用直接匹配SIFT特征描述子的方法，能帮助预训练的神经网络编码器、Transformer模块和匹配分类器的参数收敛到优化值附近，降低后续对神经网络模型进行监督训练的训练时间和难度。本实施例中，在预训练过程中，无需对图像及划分的图像块进行数据标注，可以利用大量的图像数据直接进行训练，不存在数据瓶颈，提高神经网络模型输出的精度，保证了后续对模型进行联合优化训练的收敛速度。

本实施例中，根据所述匹配点对，对基础矩阵进优化求解。具体的，基于上述得到的第一帧图像和第二帧图像的匹配点对，基于匹配点对和相机位姿参数的关系，生成基础矩阵F，其中，基础矩阵F满足一下公式：

；

；

式中，K为已知相机内参数，R为相机位姿参数中的相机旋转矩阵，t为相机位姿参数中的位移，

为第一帧图像中的匹配点，

为第二帧图像中的匹配点，其中，

和

为两帧图像的一对匹配点对。且式中描述了基础矩阵F和相机位姿参数的R、t的关系，因此，估计的相机位姿具体化为通过匹配的特征点对求解基础矩阵F的问题。

本实施例中，F为自由度8的3x3矩阵，因此获取8个以上的匹配点对即可求解计算F，但由于通过匹配的特征点对来求解基础矩阵F，基于可能存在的匹配点对错误，容易导致求解的基础矩阵F不够精确。因此，本实施例通过基础矩阵计算模块，构建一个端到端的神经网络模型，将匹配点对、匹配概率以及求解基础矩阵F作为一个联合优化的过程，进行联合优化训练。其中，基础矩阵F的训练真值可以通过高精度的位姿传感器或者经过全局优化的运动重建软件计算得到，其获取难度相对较小，避免了获取特征点匹配训练真值较难的问题。

本实施例中，基于得到的匹配点对及其匹配概率，再通过基础矩阵计算模块即可得到优化求解的F。具体的，将3x3的基础矩阵F的参数展开为参数向量θ，匹配点对p=(u’,v’)和q=(u, v), 满足以下方程：

;

因此，N个匹配点对构成N个线性方程，可组成线性方程组：

;

式中，W为对角矩阵，每一个对角元素表示每一对匹配点对的匹配概率。将上述线性方程组的最优解作为基础矩阵F的最优解，其中，获取线性方程组的最优解可通过奇异值分解算法来求取。

作为本实施例中的一种优选方案，由于整个神经网络模型中的神经网络编码器、Transformer全局编码模块、匹配分类器和基础矩阵计算模块都是可导的，因此还可以基于梯度下降的优化算法对所有参数进行联合优化，即通过真实位姿进行有监督训练。具体的，通过计算应用于训练和评估基础矩阵F精度的损失函数，其中，该损失函数为对称极限距离，该定义如下所示：

;

式中，p*和q*是通过真实的基础矩阵

成的虚拟匹配点对，即满足以下真实极限几何约束的点对：

;

参见3，图3是本发明提供的相机位姿估计装置的一种实施例的结构示意图，如图3所示，该装置包括提取模块301、相机位姿获取模块302和神经网络训练模块3021，具体如下：

提取模块301，用于获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；

相机位姿获取模块302，用于将所述图像块序列输入到训练完成的神经网络模型中，以使所述神经网络模型输出估计的基础矩阵，并对所述基础矩阵进行分解处理，得到相机位姿估计结果；

神经网络训练模块3021，用于对所述神经网络模型进行预训练，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量，同时按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征；将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；将所述全局编码特征输入到匹配分类器中，获取并根据所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，并根据所述匹配点对及匹配概率，对基础矩阵进行优化求解。

本实施例中，提取模块301用于获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；具体的，通过获取相邻的两帧图像，并对所述两帧图像进行特征点检测，生成所述两帧图像对应的特征点集；以所述特征点集中的每一个特征点为中心，分别对所述两帧图像进行图像块划分，生成所述两帧图像对应的图像块序列。

本实施例中，神经网络训练模块3021用于根据所述匹配点对及匹配概率，对基础矩阵进行优化求解；具体的，根据所述匹配点对构建线性方程，生成线性方程组；获取并根据所述匹配点对的匹配概率，求取所述线性方程的最优解，并将所述线性方程的最优解作为所述基础矩阵的最优解，以使对所述基础矩阵进行优化求解。

本实施例中，神经网络训练模块3021用于将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；最后将所述全局编码特征输入到匹配分类器，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率；具体的，通过获取所述两帧图像对应的图像块序列的编码特征，并将每一个图像块的编码特征输入到所述全局编码模块中，以使所述每一个图像块的编码特征遍历所有图像块的编码特征，获取该所述每一个图像块对应的全局编码特征；将所述每一个图像块对应的全局编码特征输入到匹配分类器中，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率。

所属领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不在赘述。

需要说明的是，上述相机位姿估计装置的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

在上述的相机位姿估计方法的实施例的基础上，本发明另一实施例提供了一种相机位姿估计终端设备，该相机位姿估计终端设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现本发明任意一实施例的相机位姿估计方法。

示例性的，在这一实施例中所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述相机位姿估计终端设备中的执行过程。

所述相机位姿估计终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述相机位姿估计终端设备可包括，但不仅限于，处理器、存储器。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列 (Field-Programmable Gate Array，FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述相机位姿估计终端设备的控制中心，利用各种接口和线路连接整个相机位姿估计终端设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述相机位姿估计终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在上述相机位姿估计方法的实施例的基础上，本发明另一实施例提供了一种存储介质，所述存储介质包括存储的计算机程序，其中，在所述计算机程序运行时，控制所述存储介质所在的设备执行本发明任意一实施例的相机位姿估计方法。

在这一实施例中，上述存储介质为计算机可读存储介质，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

综上，本发明提供的一种相机位姿估计方法、装置、设备及存储介质，通过获取相邻的两帧图像，提取两帧图像中的特征点，以使对两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列；将图像块序列输入到训练完成的神经网络模型中，以使神经网络模型输出估计的基础矩阵，并对基础矩阵进行分解处理，得到相机位姿估计结果；其中，所述神经网络模型，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量，同时按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征；将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；将所述全局编码特征输入到匹配分类器中，获取并根据所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，并根据所述匹配点对及匹配概率，对基础矩阵进行优化求解。与现有技术相比，通过训练一个神经网络模型进行位姿求解，将相机位姿求解问题统一为一个联合优化问题，避免了传统方法中复杂的计算流程，减少了模型的计算量，提高了相机位姿的获取效率，具有较强的实用性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种相机位姿估计方法，其特征在于，包括：

2.如权利要求1所述的一种相机位姿估计方法，其特征在于，所述获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列，具体为：

3.如权利要求1所述的一种相机位姿估计方法，其特征在于，所述并根据所述匹配点对及匹配概率，对基础矩阵进行优化求解，具体为：

根据所述匹配点对构建线性方程，生成线性方程组；

4.如权利要求1所述的一种相机位姿估计方法，其特征在于，将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；最后将所述全局编码特征输入到匹配分类器，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，具体为：

5.一种相机位姿估计装置，其特征在于，包括：提取模块、相机位姿获取模块和神经网络训练模块；

所述神经网络训练模块，用于对所述神经网络模型进行预训练，通过神经网络编码器，获取所述图像块序列中每一个图像块的特征向量，同时按预设的位置编码规则，获取所述每一个图像块的位置编码，结合所述特征向量和所述位置编码，得到所述每一个图像块的编码特征；将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；

6.如权利要求5所述的一种相机位姿估计装置，其特征在于，所述提取模块用于获取相邻的两帧图像，提取所述两帧图像中的特征点，以使对所述两帧图像进行图像块划分，生成并提取每帧图像对应的图像块序列，具体为：

7.如权利要求5所述的一种相机位姿估计装置，其特征在于，所述神经网络训练模块用于根据所述匹配点对及匹配概率，对基础矩阵进行优化求解，具体为：

根据所述匹配点对构建线性方程，生成线性方程组；

8.如权利要求5所述的一种相机位姿估计装置，其特征在于，所述神经网络训练模块用于将所述编码特征输入到全局编码模块中，得到每一个图像块的全局编码特征；最后将所述全局编码特征输入到匹配分类器，获取所述每一个图像块对应的匹配图像块索引，得到所述两帧图像之间的匹配点对及匹配概率，具体为：

9.一种终端设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至4任意一项所述的相机位姿估计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至4中任意一项所述的相机位姿估计方法。