WO2015135323A1

WO2015135323A1 - 一种摄像机跟踪方法及装置

Info

Publication number: WO2015135323A1
Application number: PCT/CN2014/089389
Authority: WO
Inventors: 鲁亚东; 章国锋; 鲍虎军
Original assignee: 华为技术有限公司
Priority date: 2014-03-14
Filing date: 2014-10-24
Publication date: 2015-09-17
Also published as: US20160379375A1; CN104915965A

Abstract

本发明实施例提供了一种摄像机跟踪方法及装置，采用双目视频图像进行摄像机跟踪，提高了跟踪精度。本发明实施例提供的摄像机跟踪方法包括：获取当前帧的图像集；分别提取所述当前帧的图像集中每个图像的特征点；根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集的匹配特征点集；根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数，并优化双目相机在下一帧的运动参数。

Description

一种摄像机跟踪方法及装置

本申请要求于2014年03月14日提交中国专利局、申请号为201410096332.4、发明名称为“一种摄像机跟踪方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及计算机视觉领域，尤其涉及一种摄像机跟踪方法及装置。

背景技术

摄像机跟踪(Camera tracking)是计算机视觉领域中的最基本的问题之一，根据摄像机拍摄的视频序列，估计拍摄场景中特征点的三维位置及每帧图像对应的相机运动参数；随着科技的快速进步，摄像机跟踪技术的应用领域十分广泛，如机器人导航、智能定位、虚实结合、增强现实、三维场景浏览等；为了适应摄像机跟踪在各个领域中的应用，经过几十年的努力研究，一些摄像机跟踪***也相继推出，如PTAM(Parallel Tracking and Mapping)、ACTS(Automatic Camera Tracking System)等。

在实际应用中，PTAM、ACTS***针对单目视频序列进行摄像机跟踪，在摄像机跟踪的过程中需要选取两帧作为初始帧，图1为现有技术中基于单目视频序列的摄像机跟踪示意图，如图1所示，利用初始帧1图像和初始帧2图像的匹配点(x_1，1，x_1，2)估计两初始帧图像对应相机间的相对位置(R₁₂，t₁₂)；通过三角化初始化匹配点(x_1，1，x_1，2)对应场景点X₁的三维位置；在跟踪后续帧时，利用已知的三维点位置与后续帧图像中二维点的对应关系求解后续帧的相机运动参数；但是，基于单目视频序列的摄像机跟踪中初始化的相机间的相对位置(R_12，t₁₂)估计存在误差，这些误差经由场景的不确定性传递至后续帧的估计中，使得误差在后续帧的跟踪中不断积累，难以消除，跟踪精度较低。

发明内容

本发明实施例提供一种摄像机跟踪方法及装置，采用双目视频图像进行摄像机跟踪，提高了跟踪精度。

为达到上述目的，本发明采用的技术方案是，

第一方面，本发明实施例提供一种摄像机跟踪方法，包括：

获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

分别提取所述当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。

在第一方面的第一种可能的实现方式中，结合第一方面，所述根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集，包括：

获取所述第一图像与所述第二图像之间的候选匹配特征点集；

对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化；

遍历每个高与底边之比小于第一预设阈值的三角形的每条边，若存在第一条边，其连接的两个特征点(x₁，x₂)的视差之差|d(x₁)-d(x₂)|小于第二预设阈值，则为所述第一条边增加一票；否则减少一票；其中，所述特征点x的视差为：d(x)＝u_left-u_right，u_left为特征点x在所述第一图像的平面坐标系中的横坐标，u_right为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标；

统计每条边对应的票数，将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。

在第一方面的第二种可能的实现方式中，结合第一方面的第一种可能的实现方式，所述获取所述第一图像与所述第二图像之间的候选匹配特征点集，包括：

遍历所述第一图像中的特征点，根据所述第一图像中的特征点在二维平面坐标系中的位置x_left＝(u_left，v_left)^T，在所述第二图像u∈[u_left-a，u_left]，v∈[v_left-b，v_left+b]的区域内，搜索使

最小的点x_right＝(u_right，v_rightt)^T；以及，根据所述第二图像中的特征点在二维平面坐标系中的位置x_right＝(u_right，v_right)^T，在所述第一图像u∈[u_right，u_right+a]，v∈[v_right-b，v_right+b]的区域内，搜索使

最小的点x′_left；若x′_left＝x_left，则将(x_left，x_right)作为一对匹配特征点；其中，所述χ_left为所述第一图像中的特征点x_left的描述量，所述χ_right为所述第二图像中的特征点x_right的描述量；a和b为预设常数，

将使x′_left＝x_left的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。

在第一方面的第三种可能的实现方式中，结合第一方面，所述根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，包括：

根据所述匹配特征点(x_t，left，x_t，right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置X_t之间的对应关系：

获取所述匹配特征点(x_t，left，x_t，right)对应的场景点在当前帧局部坐标系的三维位置X_t；其中，所述当前帧为t帧，f_x、f_y、(c_x，c_y)^T、b为所述双目相机的属性参数，f_x和f_y分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距，(c_x，c_y)^T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置，b为所述双目相机的第一相机与第二相机的中心距离；X_t为三维分量，X_t[k]表示X_t的第k维分量；

初始化X_t+1＝X_t，根据优化公式：

计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；其中，I_t，left(x)、I_t，right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值，W为预设常数，用于表示局部窗口尺寸。

在第一方面的第四种可能的实现方式中，结合第一方面，所述根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数，包括：

将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示：

计算出Xⁱ的质心坐标 (α_i1，α_i2，α_i3，α_i4)^T；其中，C^j(j＝1，Λ，4)为世界坐标系内任意四个不同面的控制点；

用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置：

其中，

为所述控制点在下一帧局部坐标系内坐标；

根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系：

求解所述控制点在下一帧局部坐标系内坐标

获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；

根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系：X_t＝R_tX+T_t，估计所述双目相机在下一帧的运动参数(R_t，T_t)；其中R_t为一个3x3的旋转矩阵，T_t为一个3维向量。

在第一方面的第五种可能的实现方式中，结合第一方面，所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数，包括：

根据匹配特征点在前后两帧局部图像窗口间的相似度，对所述匹配特征点集中包含的匹配特征点进行排序；

按照相似度从大到小的顺序依次采样四对匹配特征点，估计所述双目相机在下一帧的运动参数(R_t，T_t)；

用估计的所述双目相机在下一帧的运动参数，分别计算所述匹配特征点集中每对匹配特征点的投影误差，将投影误差小于第二预设阈值的匹配特征点作为内点；

将上述过程重复k次，选择内点数量最多对应的四对匹配特征点，重新计算所述双目相机在下一帧的运动参数；

将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)。

第二方面，本发明实施例提供一种摄像机跟踪方法，其特征在于，包括：

获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

根据第一方面的第三种可能的实现方式所述的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；

根据第一方面至第一方面的第五种可能的实现方式中任一种实现方式所述的方法分别估计所述双目相机在每帧的运动参数；

根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。

在第二方面的第一种可能的实现方式中，结合第二方面，所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数，包括：

根据优化公式：

优化相机在每帧的运动参数；其中，N为匹配特征点集中包含的匹配特征点对应的场景点的个数， M为帧数，

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

第三方面，本发明实施例提供一种摄像机跟踪装置，包括：

第一获取模块：用于获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

提取模块：用于分别提取所述第一获取模块获取的当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

第二获取模块：用于根据图像上相邻区域场景深度相近的原则，从所述提取模块提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

第一估计模块：用于根据所述双目相机的属性参数以及预设模型，分别估计所述第二获取模块获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

第二估计模块：用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

优化模块：用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。

在第三方面的第一种可能的实现方式中，结合第三方面，所述第二获取模块具体用于：

在第三方面的第二种可能的实现方式中，结合第三方面的第一种可能的实现方式，所述第二获取模块具体用于：

将使x′_reft＝x_left的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。

在第三方面的第三种可能的实现方式中，结合第三方面，所述第一估计模块具体用于：

初始化X_t+1＝X_t，根据优化公式：

在第三方面的第四种可能的实现方式中，结合第三方面，所述第二估计模块具体用于：

计算出Xⁱ的质心坐标(α_i1，α_i2，α_i3，α_i4)^T；其中，C^j(j＝1，Λ，4)为世界坐标系内任意四个不同面的控制点；

其中，

为所述控制点在下一帧局部坐标系内坐标；

求解所述控制点在下一帧局部坐标系内坐标

在第三方面的第五种可能的实现方式中，结合第三方面，所述优化模块具体用于：

将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)。

第四方面，本发明实施例提供一种摄像机跟踪装置，包括：

第一获取模块：用于获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

第二获取模块：用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

第一估计模块：用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；

第二估计模块：用于分别估计所述双目相机在每帧的运动参数；

优化模块：用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。

在第四方面的第一种可能的实现方式中，结合第四方面，所述优化模块具体用于：

根据优化公式：

优化相机在每帧的运动参数；其中，N为匹配特征点集中包含的匹配特征点对应的场景点的个数，M为帧数，

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

第五方面，本发明实施例提供一种摄像机跟踪装置，包括：

双目相机：用于获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

处理器：用于分别提取所述双目相机获取的当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

根据图像上相邻区域场景深度相近的原则，从所述处理器提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

根据所述双目相机的属性参数以及预设模型，分别估计所述处理器获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

根据所述处理器估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

采用随机采样一致性算法RANSAC以及LM算法优化所述处理器估计的所述相机在下一帧的运动参数。

在第五方面的第一种可能的实现方式中，结合第五方面，所述处理器具体用于：

在第五方面的第二种可能的实现方式中，结合第五方面的第一种可能的实现方式，所述处理器具体用于：

最小的点x_right＝(u_right，v_rightt)T；以及，根据所述第二图像中的特征点在二维平面坐标系中的位置x_right＝(u_right，v_right)^T，在所述第一图像u∈[u_right，u_right+a]，v∈[v_right-b，v_right+b]的区域内，搜索使

在第五方面的第三种可能的实现方式中，结合第五方面，所述处理器具体用于：

初始化X_t+1＝X_t，根据优化公式：

计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；其中，I_t，ieft(x)、I_t，right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值，W为预设常数，用于表示局部窗口尺寸。

在第五方面的第四种可能的实现方式中，结合第五方面，所述处理器具体用于：

其中，

为所述控制点在下一帧局部坐标系内坐标；

求解所述控制点在下一帧局部坐标系内坐标

在第五方面的第五种可能的实现方式中，结合第五方面，所述处理器具体用于：

将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)。

第六方面，本发明实施例提供一种摄像机跟踪装置，包括：

双目相机：用于获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

处理器：用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；

分别估计所述双目相机在每帧的运动参数；

在第六方面的第一种可能的实现方式中，结合第六方面，所述处理器具体用于：

根据优化公式：

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

由上可知，本发明实施例提供一种摄像机跟踪方法及装置，获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别提取所述当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为有技术中基于单目视频序列的摄像机跟踪示意图；

图2为本发明实施例提供的一种摄像机跟踪方法的流程图；

图3为本发明实施例提供的一种摄像机跟踪方法的流程图；

图4为本发明实施例提供的一种摄像机跟踪装置的结构图；

图5为本发明实施例提供的一种摄像机跟踪装置的结构图；

图6为本发明实施例提供的一种摄像机跟踪装置的结构图；

图7为本发明实施例提供的一种摄像机跟踪装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1为本发明实施例提供的一种摄像机跟踪方法的流程图，如图2所示，可以包括以下步骤：

201：获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

其中，所述当前帧的图像集属于所述双目相机拍摄的视频序列；所述视频序列为双目相机在一段时间内拍摄的图像集的集合。

202：分别提取所述当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等。

其中，所述特征点通常指图像中灰度变化剧烈的点，包括物体轮廓上的曲率变化最大点、直线的交点、单调背景上的孤点等；

优选的，可以采用STFI(Scale-invariant feature transform)算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点，下面以提取所述第一图像中的特征点的过程为例进行说明：

1)检测尺度空间极值，获取候选特征点。通过高斯差分(DoG)算子在全尺度和图像位置上搜索以初步确定关键点位置和所在尺度，所述第一图像在不同尺度下的尺度空间定义为图像I(x，y)与高斯核G(x，y，σ)的卷积：

L(x，y，σ)＝G(x，y，σ)×I(x，y)

其中，σ是尺度坐标，大尺度对应图像的概貌特征，小尺度对应于图像的细节特征；DoG算子定义为两个不同尺度的高斯核的差分：

D(x，y，σ)＝(G(x，y，kσ)-G(x，y，σ))*I(x，y)＝L(x，y，kσ)-L(x，y，σ)在图像的尺度空间内遍历所有的点，判断其与领域内点的大小关系，若存在第一点的值大于或小于领域内所有点的值，则所述第一点为候选特征点。

2)对所有候选特征点进行筛选，获取所述第一图像中的特征点。

优选的，去除所有候选特征点中的边缘响应点以及对比度和稳定性差的特征点，将剩余的特征点作为所述第一图像的特征点。

3)分别对所述第一图像中的每个特征点进行方向分配。

优选的，利用特征点领域像素的梯度方向分布特性为每个特征点指定一个尺度因子m和主旋转方向θ，以使得算子具备尺度和旋转不变性；其中，

4)对所述第一图像中的每个特征点进行特征描述。

优选的，将平面坐标系的坐标轴旋转到特征点的主方向，以特征点x为中心，采样一个边长20s、与θ对齐的方形图像区域，并将该区域平均划分为16个4×4的子区域，为每个区域计算∑dx、∑|dx|、∑dy、∑|dy|四个分量，则所述特征点x对应一个16×4＝64维的描述量χ；其中，dx、dy分别表示x、y方向上的Haar小波相应(滤波器宽为2s)。

203：根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集。

示例性的，所述根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集，可以包括：

(1)获取所述第一图像与所述第二图像之间的候选匹配特征点集。

(2)对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化。

例如，若候选特征点集中有100对匹配特征点(x_left，1，x_right，1)～(x_left，100，x_right，100)，则将所述候选特征点集对应的第一图像中的100个特征点x_left，1～x_left，100中任意三个特征点连接成一个三角形，且在连接的过程中每条连线之间不能相互交叉，形成有多个三角形组成的网格图。

(3)遍历每个高与底边之比小于第一预设阈值的三角形的每条边，若存在第一条边，其连接的两个特征点(x₁，x₂)的视差之差|d(x₁)-d(x₂)|小于第二预设阈值，则为所述第一条边增加一票；否则减少一票；其中，所述特征点x的视差为：d(x)＝u_left-u_right，u_left为特征点x在所述第一图像的平面坐标系中的横坐标，u_right为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标。

其中，所述第一预设阈值根据实验经验进行设置，本发明对此不进行限定；若三角形的高与底边之比小于第一预设阈值，则表示所述三角形顶点对应的场景点深度变化不大，可能符合图像上相邻区域场景深度相近的原则；若三角形的高与底边之比大于或等于第一预设阈值，则表示所述三角形顶点对应的场景深度变化较大，可能不符合图像上相邻区域场景深度相近的原则，不能根据该原则进行匹配特征点的选取。

同样，所述第二预设阈值也根据实验经验进行设置，本发明对此不进行限定；若两个特征点之间的视差之差小于第二预设阈值，则表示两个特征点之间的场景深度相近；若两个特征点之间的视差之差大于或等于第二预设阈值，则表示两个特征点之间的场景深度变化较大，存在误匹配。

(4)统计每条边对应的票数，将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。

例如，所有票数为正的边连接的特征点为：x_left，20～x_left，80，则将匹配特征点(x_left，20，x_right，20)～(x_left，80，x_right，80)的集合作为所述第一图像与所述第二图像之间的匹配特征点集。

其中，所述获取所述第一图像与所述第二图像之间的候选匹配特征点集，包括：

最小的点x′_left；若x′_left＝x_left，则将(x_left，x_right)作为一对匹配特征点；其中，所述χ_left为所述第一图像中的特征点x_left的描述量，所述χ_right为所述第二图像中的特征点x_right的描述量；a和b为预设常数，实验中a＝200，b＝5；

204：根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置。

示例性的，所述根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，包括：

1)根据所述匹配特征点(x_t，left，x_t，right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置X_t之间的对应关系：

公式1

2)初始化X_t+1＝X_t，根据优化公式：

公式2

优选的，采用迭代算法求解优化公式2，其具体过程如下所示：

1)初始迭代时令X_t+1＝X_t，后续每次迭代时，求解方程：

其中，

2)用解得的δ_X更新X_t+1：X_t+1＝X_t+1+δ_X，将更新后的X_t+1代入公式2进入下一轮迭代，直至获得的X_t+1满足下述收敛：

则此时的X_t+1为所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。

其中，求解公式

获得δ_X的过程为：

1)将f_left(δ_X)、f_right(δ_X)在0处一阶泰勒展开：

f_left(δ_X)≈I_t，left(x_t，left+y)-I_t+1，left(x_t+1，left+y)-J_t+1，left(X_t+1)δ_X

f_rightt(δ_X)≈I_t，right(x_t，right+y)-I_t+1，right(x_t+1，right+y)-J_t+1，right(X_t+1)δ_X

公式3

其中，g_t+1，left(x)、g_t+1，right(x)分别为t+1帧的左、右图像在x处的图像梯度。

2)对f(δ_X)进行求导，使f(δ_X)在一阶导数为0处取得极值，即

公式4

3)将公式3代入公式4，得到一个3x3的线性***方程：A·δ_X＝b，求解方程A·δ_X＝b获得δ_X。

其中，

需要说明的是，为进一步加快收敛效率，提高计算速率，使用图形处理器(Graphic Processing Unit，GPU)对图像建立高斯金字塔，先在低分辨率图像上求解公式

再在高分辨率图像上进一步优化；实验中将金字塔层数设置为2。

205：根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数。

示例性的，所述根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数，可以包括：

1)将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示：

计算出Xⁱ的质心坐标(α_i1，α_i2，α_i3，α_i4)^T；其中，C^j(j＝1，Λ，4)为世界坐标系内任意四个不同面的控制点。

2)用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置：

其中，

为所述控制点在下一帧局部坐标系内坐标。

3)根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系：

求解所述控制点在下一帧局部坐标系内坐标

获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置。

4)根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系：X_t＝R_tX+T_t，估计所述双目相机在下一帧的运动参数(R_t，T_t)；其中R_t为一个3x3的旋转矩阵，T_t为一个3维向量。

其中，在求解所述控制点在下一帧局部坐标系内坐标

时，将

经过直接线性变换(Direct Linear Transformation，简称DLT)，转化成为关于

12 个变量的3个线性方程：

利用至少4对匹配特征求解这三个方程得出所述控制点在下一帧局部坐标系内坐标

206：采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。

示例性的，所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数，可以包括：

1)根据匹配特征点在前后两帧局部图像窗口间的相似度，对所述匹配特征点集中包含的匹配特征点进行排序。

2)按照相似度从大到小的顺序依次采样四对匹配特征点，估计所述双目相机在下一帧的运动参数(R_t，T_t)。

3)用估计的所述双目相机在下一帧的运动参数，分别计算所述匹配特征点集中每对匹配特征点的投影误差，将投影误差小于第二预设阈值的匹配特征点作为内点。

4)将上述过程重复k次，选择内点数量最多对应的四对匹配特征点，重新计算所述双目相机在下一帧的运动参数。

5)将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)；其中，n′为通过RANSAC算法得到的内点个数。

由上可知，本发明实施例提供一种摄像机跟踪方法，获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别提取所述当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

实施例二

图3为本发明实施例提供的一种摄像机跟踪方法的流程图，如图3所示，可以包括以下步骤：

301：获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

302：分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集。

需要说明的是，获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同，在此不再赘述。

303：分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置。

需要说明的是，估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置的方法与实施例一中步骤204相同，在此不再赘述。

304：分别估计所述双目相机在每帧的运动参数。

需要说明的是，估计所述双目相机在每帧的运动参数的方法与实施例一中计算所述双目相机在下一帧的运动参数的方法相同，在此不再赘述。

305：根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。

示例性的，所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数，包括：根据优化公式：

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

由上可知，本发明实施例提供一种摄像机跟踪方法，获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；分别估计所述双目相机在每帧的运动参数；根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

实施例三

图4为本发明实施例提供的一种摄像机跟踪装置40的结构图，如图4所示，包括：

第一获取模块401：用于获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

提取模块402：用于分别提取所述第一获取模块401获取的当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等。

其中，所述特征点通常指图像中灰度变化剧烈的点，包括物体轮廓上的曲率变化最大点、直线的交点、单调背景上的孤点等。

第二获取模块403：用于根据图像上相邻区域场景深度相近的原则，从所述提取模块402提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集。

第一估计模块404：用于根据所述双目相机的属性参数以及预设模型，分别估计所述第二获取模块403获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置。

第二估计模块405：用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数。

优化模块406：用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。

进一步的，提取模块402具体用于：采用STFI算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点，下面以提取所述第一图像中的特征点的过程为例进行说明：

L(x，y，σ)＝G(x，y，σ)×I(x，y)

3)分别对所述第一图像中的每个特征点进行方向分配。

4)对所述第一图像中的每个特征点进行特征描述。

优选的，将平面坐标系的坐标轴旋转到特征点的主方向，以特征点x为中心，采样一个边长20s、与θ对齐的方形图像区域，并将该区域平均划分为16个4×4的子区域，为每个区域计算∑dx、∑|dx|、 ∑dy、∑|dy|四个分量，则所述特征点x对应一个16×4＝64维的描述量χ；其中，dx、dy分别表示x、y方向上的Haar小波相应(滤波器宽为2s)。

进一步的，所述第二获取模块403具体用于：

进一步的，所述第一估计模块404具体用于：

公式1

2)初始化X_t+1＝X_t，根据优化公式：

公式2

1)初始迭代时令X_t+1＝X_t，后续每次迭代时，求解方程：

其中，

其中，求解公式

获得δ_X的过程为：

1)将f_left(δ_X)、f_right(δ_X)在0处一阶泰勒展开：

公式3

2)对f(δ_X)进行求导，使f(δ_X)在一阶导数为0处取得极值，即

公式4

其中，

再在高分辨率图像上进一步优化，实验中将金字塔层数设置为2。

进一步的，所述第二估计模块405具体用于：

其中，

为所述控制点在下一帧局部坐标系内坐标。

求解所述控制点在下一帧局部坐标系内坐标

其中，在求解所述控制点在下一帧局部坐标系内坐标

时，将

12个变量的3个线性方程：

进一步的，所述优化模块406具体用于：

5)将重新计算出的运动参数作为初始值，根据优化公式：

由上可知，本发明实施例提供一种摄像机跟踪装置40，获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；分别估计所述双目相机在每帧的运动参数；根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

实施例四

图5为本发明实施例提供的一种摄像机跟踪装置50的结构图，如图5所示，包括：

第一获取模块501：用于获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

第二获取模块502：用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集。

第一估计模块503：用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置。

第二估计模块504：用于分别估计所述双目相机在每帧的运动参数。

优化模块505：用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。

其中，需要说明的是，第二获取模块502具体用于，采用与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同的方法获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法，在此不再赘述

所述第一估计模块503具体用于，采用与实施例一中步骤204相同的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置，在此不再赘述。

所述第二估计模块504具体用于，采用与实施例一中计算所述双目相机在下一帧的运动参数的方法相同的方法估计所述双目相机在每帧的运动参数，在此不再赘述。

进一步的，所述优化模块505具体用于：

根据优化公式：

优化相机在每帧的运动参数；其中，N为匹配特征点集包含的匹配特征点对应的场景点的个数，M为帧数，

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

由上可知，本发明实施例提供一种摄像机跟踪装置50，获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；分别估计所述双目相机在每帧的运动参数；根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

实施例五

图6为本发明实施例提供的一种摄像机跟踪装置60的结构图，如图6所示，该摄像机跟踪装置60可以包括：处理器601、存储器602、双目相机603，至少一个通信总线604，用于实现这些装置之间的连接和相互通信；

处理器601可能是一个中央处理器(英文：central processing unit，简称为CPU)。

存储器602，可以是易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；或者非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文： flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；或者上述种类的存储器的组合，并向处理器1001提供指令和数据。

双目相机603：用于获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

处理器601：用于分别提取所述双目相机603获取的当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

根据图像上相邻区域场景深度相近的原则，从所述处理器601提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

根据所述双目相机的属性参数以及预设模型，分别估计所述处理器601获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。

进一步的，处理器601具体用于：采用STFI算法分别提取所述当前帧的图像集中的第一图像和第二图像的特征点，下面以提取所述第一图像中的特征点的过程为例进行说明：

1)检测尺度空间极值，获取候选特征点。通过高斯差分(DoG) 算子在全尺度和图像位置上搜索以初步确定关键点位置和所在尺度，所述第一图像在不同尺度下的尺度空间定义为图像I(x，y)与高斯核G(x，y，σ)的卷积：

L(x，y，σ)＝G(x，y，σ)×I(x，y)

3)分别对所述第一图像中的每个特征点进行方向分配。

4)对所述第一图像中的每个特征点进行特征描述。

进一步的，所述处理器601具体用于：

公式1

2)初始化X_t+1＝X_t，根据优化公式：

公式2

1)初始迭代时令X_t+1＝X_t，后续每次迭代时，求解方程：

其中，

2)用解得的δ_X更新X_t+1：X_t+1＝X_t+1+δ_X，将更新后的X_t+1代入公式2 进入下一轮迭代，直至获得的X_t+1满足下述收敛：

其中，求解公式

获得δ_X的过程为：

1)将f_left(δ_X)、f_right(δ_X)在0处一阶泰勒展开：

公式3

2)对f(δ_X)进行求导，使f(δ_X)在一阶导数为0处取得极值，即

公式4

其中，

进一步的，所述处理器601具体用于：

其中，

为所述控制点在下一帧局部坐标系内坐标。

求解所述控制点在下一帧局部坐标系内坐标

其中，在求解所述控制点在下一帧局部坐标系内坐标

时，将

12个变量的3个线性方程：

进一步的，所述处理器601具体用于：

5)将重新计算出的运动参数作为初始值，根据优化公式：

由上可知，本发明实施例提供一种摄像机跟踪装置60，获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；分别估计所述双目相机在每帧的运动参数；根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

实施例六

图7为本发明实施例提供的一种摄像机跟踪装置70的结构图，如图7所示，该摄像机跟踪装置可以包括：处理器701、存储器702、双目相机703，至少一个通信总线704，用于实现这些装置之间的连接和相互通信；

处理器701可能是一个中央处理器(英文：central processing unit，简称为CPU)；

存储器702，可以是易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；或者非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；或者上述种类的存储器的组合，并向处理器1001提供指令和数据；

双目相机703：用于获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像。

处理器701：用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

分别估计所述双目相机在每帧的运动参数；

其中，需要说明的是，处理器701具体用于，采用与实施例一中获取当前帧图像集中的第一图像与第二图像之间的匹配特征点集的方法相同的方法获取每帧图像集中的第一图像与第二图像之间的匹配特征点集的方法，在此不再赘述

所述处理器701具体用于，采用与实施例一中步骤204相同的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置，在此不再赘述。

所述处理器701具体用于，采用与实施例一中计算所述双目相机在下一帧的运动参数的方法相同的方法估计所述双目相机在每帧的运动参数，在此不再赘述。

进一步的，所述处理器701具体用于：

根据优化公式：

π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。

由上可知，本发明实施例提供一种摄像机跟踪装置70，获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；分别估计所述双目相机在每帧的运动参数；根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。如此，采用双目视频图像进行摄像机跟踪，提高了跟踪精度；避免现有技术基于单目视频序列的摄像机跟踪中跟踪精度较低的缺陷。

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

一种摄像机跟踪方法，其特征在于，包括：

获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

分别提取所述当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数。
根据权利要求1所述的方法，其特征在于，所述根据图像上相邻区域场景深度相近的原则，获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集，包括：

获取所述第一图像与所述第二图像之间的候选匹配特征点集；

对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化；

遍历每个高与底边之比小于第一预设阈值的三角形的每条边，若存在第一条边，其连接的两个特征点(x₁，x₂)的视差之差|d(x₁)-d(x₂)|小于第二预设阈值，则为所述第一条边增加一票；否则减少一票；其中，所述特征点x的视差为：d(x)＝u_left-u_right，u_left为特征点x在所述第一图像的平面坐标系中的横坐标，u_right为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标；

统计每条边对应的票数，将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
根据权利要求2所述的方法，其特征在于，所述获取所述第一图像与所述第二图像之间的候选匹配特征点集，包括：

遍历所述第一图像中的特征点，根据所述第一图像中的特征点在二维平面坐标系中的位置x_left＝(u_left，v_left)^T，在所述第二图像u∈[u_left-a，u_left]，v∈[v_left-b，v_left+b]的区域内，搜索使
最小的点x_right＝(u_right，v_rightt)^T；以及，根据所述第二图像中的特征点在二维平面坐标系中的位置x_right＝(u_right，v_right)^T，在所述第一图像u∈[u_right，u_right+a]，v∈[v_right-b，v_right+b]的区域内，搜索使
最小的点x′_feft；若x′_left＝x_left，则将(x_left，x_right)作为一对匹配特征点；其中，所述χ_left为所述第一图像中的特征点x_left的描述量，所述χ_right为所述第二图像中的特征点x_right的描述量，a和b为预设常数；

将使x′_left＝x_left的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
根据权利要求1所述的方法，其特征在于，所述根据所述双目相机的属性参数以及预设模型，分别估计每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，包括：

根据所述匹配特征点(x_t，left，x_t，right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置X_t之间的对应关系：

获取所述匹配特征点(x_t，left，x_t，right)对应的场景点在当前帧局部坐标系的三维位置X_t；其中，所述当前帧为t帧，f_x、f_y、(c_x，c_y)^T、b为所述双目相机的属性参数，f_x和f_y分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距，(c_x，c_y)^T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置，b为所述双目相机的第一相机与第二相机的中心距离；X_t为三维分量，X_t[k]表示X_t的第k维分量；

初始化X_t+1＝X_t，根据优化公式：

计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；其中，I_t，left(x)、I_t，right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值，W为预设常数，用于表示局部窗口尺寸。
根据权利要求1所述的方法，其特征在于，所述根据所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数，包括：

将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示：
计算出Xⁱ的质心坐标(α_i1，α_i2，α_i3，α_i4)^T；其中，C^j(j＝1，Λ，4)为世界坐标系内任意四个不同面的控制点；

用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置：
其中，
为所述控制点在下一帧局部坐标系内坐标；

根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系：
求解所述控制点在下一帧局部坐标系内坐标
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；

根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系：X_t＝R_tX+T_t，估计所述双目相机在下一帧的运动参数(R_t，T_t)；其中，R_t为一个3x3的旋转矩阵，T_t为一个3维向量。
根据权利要求1所述的方法，其特征在于，所述采用随机采样一致性算法RANSAC以及LM算法优化所述双目相机在下一帧的运动参数，包括：

根据匹配特征点在前后两帧局部图像窗口间的相似度，对所述匹配特征点集中包含的匹配特征点进行排序；

按照相似度从大到小的顺序依次采样四对匹配特征点，估计所述双目相机在下一帧的运动参数(R_t，T_t)；

用估计的所述双目相机在下一帧的运动参数，分别计算所述匹配特征点集中每对匹配特征点的投影误差，将投影误差小于第二预设阈值的匹配特征点作为内点；

将上述过程重复k次，选择内点数量最多对应的四对匹配特征点，重新计算所述双目相机在下一帧的运动参数；

将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)。
一种摄像机跟踪方法，其特征在于，包括：

获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

根据权利要求4所述的方法分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；

根据权利要求1-6任一项所述的方法分别估计所述双目相机在每帧的运动参数；

根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。
根据权利要求7所述的方法，其特征在于，所述根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数，包括：

根据优化公式：
优化相机在每帧的运动参数；其中，N为匹配特征点集中包含的匹配特征点对应的场景点的个数，M为帧数，
π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。
一种摄像机跟踪装置，其特征在于，包括：

第一获取模块：用于获取当前帧的图像集；其中，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

提取模块：用于分别提取所述第一获取模块获取的当前帧的图像集中的第一图像和第二图像的特征点；其中，所述第一图像的特征点的数量和所述第二图像的特征点的数量相等；

第二获取模块：用于根据图像上相邻区域场景深度相近的原则，从所述提取模块提取的特征点中获取所述当前帧的图像集中的第一图像与第二图像之间的匹配特征点集；

第一估计模块：用于根据所述双目相机的属性参数以及预设模型，分别估计所述第二获取模块获取的匹配特征点集中每对匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置；

第二估计模块：用于根据所述第一估计模块估计的匹配特征点对应的场景点在当前帧局部坐标系的三维位置以及下一帧局部坐标系的三维位置，利用质心坐标对于刚性变换的不变性估计所述双目相机在下一帧的运动参数；

优化模块：用于采用随机采样一致性算法RANSAC以及LM算法优化所述第二估计模块估计的所述相机在下一帧的运动参数。
根据权利要求9所述的摄像机装置，其特征在于，所述第二获取模块具体用于：

获取所述第一图像与所述第二图像之间的候选匹配特征点集；

对所述候选匹配特征点集中对应的所述第一图像中的特征点作Delaunay三角化；

遍历每个高与底边之比小于第一预设阈值的三角形的每条边，若存在第一条边，其连接的两个特征点(x₁，x₂)的视差之差|d(x₁)-d(x₂)|小于第二预设阈值，则为所述第一条边增加一票；否则减少一票；其中，所述特征点x的视差为：d(x)＝u_left-u_right，u_left为特征点x在所述第一图像的平面坐标系中的横坐标，u_right为所述第二图像中与特征点x匹配的特征点在第二图像的平面坐标系中的横坐标；

统计每条边对应的票数，将票数为正的边连接的特征点对应的匹配特征点的集合作为所述第一图像与所述第二图像之间的匹配特征点集。
根据权利要求10所述的摄像机装置，其特征在于，所述第二获取模块具体用于：

遍历所述第一图像中的特征点，根据所述第一图像中的特征点在二维平面坐标系中的位置x_left＝(u_left，v_left)^T，在所述第二图像u∈[u_left-a，u_left]，v∈[v_left-b，v_left+b]的区域内，搜索使
最小的点x_right＝(u_right，v_rightt)^T；以及，根据所述第二图像中的特征点在二维平面坐标系中的位置x_right＝(u_right，v_right)^T，在所述第一图像u∈[u_right，u_right+a]， v∈[v_right-b，v_right+b]的区域内，搜索使
最小的点x′_left；若x′_left＝x_left，则将(x_left，x_right)作为一对匹配特征点；其中，所述χ_left为所述第一图像中的特征点x_left的描述量，所述χ_right为所述第二图像中的特征点x_right的描述量，a和b为预设常数；

将使x′_left＝x_left的所有匹配特征点组成的集合作为所述第一图像与所述第二图像之间的候选匹配特征点集。
根据权利要求9所述的摄像机装置，其特征在于，所述第一估计模块具体用于：

根据所述匹配特征点(x_t，left，x_t，right)与所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置X_t之间的对应关系：

获取所述匹配特征点(x_t，left，x_t，right)对应的场景点在当前帧局部坐标系的三维位置X_t；其中，所述当前帧为t帧，f_x、f_y、(c_x，c_y)^T、b为所述双目相机的属性参数，f_x和f_y分别为沿图像二维平面坐标系的x、y方向以像素为单位的焦距，(c_x，c_y)^T为所述双目相机中心在所述第一图像对应的二维平面坐标系中的投影位置，b为所述双目相机的第一相机与第二相机的中心距离；X_t为三维分量，X_t[k]表示X_t的第k维分量；

初始化X_t+1＝X_t，根据优化公式：

计算所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；其中，I_t，left(x)、I_t，right(x)分别为所述当前帧图像集合中的第一图像和第二图像分别在x处的亮度值，W为预设常数，用于表示局部窗口尺寸。
根据权利要求9所述的摄像机装置，其特征在于，所述第二估计模块具体用于：

将所述匹配特征点对应的场景点在当前帧局部坐标系的三维位置在世界坐标系内表示：
计算出Xⁱ的质心坐标(α_i1，α_i2，α_i3，α_i4)^T；其中，C^j(j＝1，Λ，4)为世界坐标系内任意四个不同面的控制点；

用所述质心坐标表示所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置：
其中，
为所述控制点在下一帧局部坐标系内坐标；

根据匹配特征点与匹配特征点对应的场景点在当前帧局部坐标系的三维位置之间的对应关系：
求解所述控制点在下一帧局部坐标系内坐标
获取所述匹配特征点对应的场景点在下一帧局部坐标系的三维位置；

根据所述匹配特征点对应的场景点在当前帧世界坐标系内的三维位置与所述匹配点对应的场景点在下一帧局部坐标系的三维位置之间的对应关系：X_t＝R_tX+T_t，估计所述双目相机在下一帧的运动参数(R_t，T_t)；其中R_t为一个3x3的旋转矩阵，T_t为一个3维向量。
根据权利要求9所述的摄像机装置，其特征在于，所述优化模块具体用于：

根据匹配特征点在前后两帧局部图像窗口间的相似度，对所述匹配特征点集中包含的匹配特征点进行排序；

按照相似度从大到小的顺序依次采样四对匹配特征点，估计所述双目相机在下一帧的运动参数(R_t，T_t)；

用估计的所述双目相机在下一帧的运动参数，分别计算所述匹配特征点集中每对匹配特征点的投影误差，将投影误差小于第二预设阈值的匹配特征点作为内点；

将上述过程重复k次，选择内点数量最多对应的四对匹配特征点，重新计算所述双目相机在下一帧的运动参数；

将重新计算出的运动参数作为初始值，根据优化公式：

计算出所述双目相机在下一帧的运动参数(R_t，T_t)。
一种摄像机跟踪装置，其特征在于，包括：

第一获取模块：用于获取视频序列；其中，所述视频序列包含至少两帧图像集，所述图像集包含第一图像和第二图像，所述第一图像和所述第二图像分别为由双目相机的第一相机和第二相机在同一时刻拍摄的图像；

第二获取模块：用于分别获取每帧图像集中的第一图像与第二图像之间的匹配特征点集；

第一估计模块：用于分别估计每对匹配特征点对应的场景点在每帧局部坐标系的三维位置；

第二估计模块：用于分别估计所述双目相机在每帧的运动参数；

优化模块：用于根据每对匹配特征点对应的场景点在每帧局部坐标系的三维位置以及所述双目相机在每帧的运动参数，优化相机在每帧的运动参数。
根据权利要求15所述的摄像机装置，其特征在于，所述优化模块具体用于：

根据优化公式：
优化相机在每帧的运动参数；其中，N为匹配特征点集中包含的匹配特征点对应的场景点的个数，M为帧数，
π(X)＝(π_left(X)[1]，π_left(X)[2]，π_right(X)[1])^T。