CN101350920A

CN101350920A - 一种面向全景视频的全局运动估计方法

Info

Publication number: CN101350920A
Application number: CN 200710130318
Authority: CN
Inventors: 张晨
Original assignee: Beijing Huachen Guangzheng Technology Development Co Ltd
Current assignee: Beijing Huachen Guangzheng Technology Development Co Ltd
Priority date: 2007-07-17
Filing date: 2007-07-17
Publication date: 2009-01-21

Abstract

本发明公开了一种面向全景视频的全局运动估计方法，包括以下步骤：(1)把每一帧全景视频分割成互不重叠的16×16块；(2)使用一种快速运动估计方法对全景视频帧里的16×16宏块分别做局部运动估计，得到面向宏块的运动矢量；(3)建立全局运动估计参数模型；(4)使用高斯牛顿迭代方法得到全局运动估计的运动参数；(5)传输当前帧的全局运动参数，在解码端对当前帧做全局运动补偿。本发明的优点在于：针对全景视频的特点，设计了一种适合全景视频编码的全局运动估计参数模型，比传统的平移运动模型节省更多的码率，同时主观编码质量更好。

Description

一种面向全景视频的全局运动估计方法

技术领域

本发明涉及图象视频压缩技术，特别涉及全景视频的全局运动估计方法。

背景技术

全景视频(panoramic video)也称为沉浸式视频(immersive video)。观察者视点不能随意变，改变观察方向能够观察到周围的全部场景。普通的二维视频只反应了全方位视频的某个局部，难以使人产生身临其境的沉浸感，利用全景视频可以建立起供用户观察的虚拟环境。用户通过在其中的漫游，能够交互地从不同观察点和方向了解环境。全景视频摄像机的示意图如图1所示，由多个摄像机对同一视点周围的场景进行采集处理。任何一个视角的二维场景都可以由这些采集的图像绘制出来。全景视频可以应用于广播、存储和交互式的在线应用等。

全景视频的生成是面向一种图象拼接技术。首先用若干个摄像机采集不同角度的实时图像(需要的摄像机个数与采集的角度有关)，然后把同一时间内采集到的不同角度的图象用一种无缝的图像拼接技术缝合成一幅360度的全景图。然后再把这幅全景图用柱面或者球面算法映射到一个二维的平面上。由于全景视频图像是由多幅采集图像缝合而成，因此，一般来说，全景图像的分辨率非常大，譬如说，2048×768。考虑一个每秒25帧的全景视频序列，则一秒的数据量达到112M。如此庞大的数据，不经过有效压缩，是无法进行存储，更不用说实时传输。因此，研究研究全景视频的压缩技术，尤其具有理论和现实意义。

目前在大多数视频编码标准中，采用的传统的运动补偿估计方法是面向平移运动参数模型的。该模型假设刚性物体只在二维空间里的水平和垂直方向上做平移运动，并没有充分考虑摄像机的旋转和缩放运动。而在全景视频里，摄像机的旋转和缩放运动是占有很重要位置的视觉流运动。采用传统的平移运动参数模型，无法有效的精确估计物体的实际运动，必将使得运动补偿后的图像残差大大增加，从而达不到有效压缩全景视频的目的。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于仿射运动模型的运动估计方法，用于有效压缩全景视频

为了达到上述目的，本发明采取如下技术方案：

一种面向全景视频的运动估计方法，包括以下步骤：

(1)把每一帧全景视频分割成互不重叠的16×16宏块；

(2)使用一种快速运动估计方法对全景视频帧里的16×16宏块分别做局部运动估计，得到面向宏块的运动矢量；

(3)建立全局运动估计参数模型；

(4)使用高斯牛顿迭代方法得到全局运动估计的运动参数；

(5)传输当前帧的全局运动参数，在解码端对当前帧做全局运动补偿。

进一步地，步骤(1)中，块的划分大小为16×16。

进一步地，步骤(2)中，所使用的快速运动估计方法是三步快速运动估计算法。

进一步地，搜索范围是64×64，半像素精度搜索。

进一步地，步骤(3)中，全局运动估计参数模型是仿射运动参数模型。

进一步地，该仿射运动参数模型是模拟全景视频中的平移、旋转和缩放运动。

进一步地，所述步骤(4)中，运动参数估计算法是基于高斯牛顿迭代算法。

进一步地，该高斯牛顿算法是基于最小化预测残差迭代计算的，预测残差是指原始帧和预测帧之间的差。

进一步地，所述步骤(5)中，全局运动参数的编码是基于三维VLC变长编码。

进一步地，该三维VLC变长编码使用的是36个码本。

本发明方法的优点在于：

(1)针对全景视频的特点，设计了一种有效的全局运动估计方法，相对传统的运动补偿估计方法，编码码率大大降低，主观重构视频质量得到提高；

(2)在估计全局运动参数时，使用高斯牛顿迭代算法，有效节省运算时间。

附图说明

图1是本发明实施例中由多个摄像机对同一视点周围场景进行采集处理的示意图；

图2是本发明实施例中基于菱形算法的大小搜索模板示意图；

图3是本发明实施例中基于菱形算法的快速运动搜索示意图；

图4是本发明实施例中面向全景视频的全局运动估计***流程图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述：

如图4所示，为本发明的一种面向全景视频的全局运动估计方法的操作流程图。该方法的操作步骤包括：

步骤10中，划分每一帧图像为若干个16×16的宏块。若亮度的预测值和原始值的差，即亮度残差大于一个设定的阀值MSE_splitThr，见以下公式，则16×16块再度划分为8×8块：

{MSE}_{splitThr} = \frac{5 λ}{256} + \frac{{QP}^{2}}{12}

步骤20，在该步骤中，使用了一种快速运动估计方法，称为菱形搜索法。菱形搜索法使用两种搜索模板，分别是9个检测点的大模板和5个检测点的小模板，两种模板如图2所示。开始搜索时使用大模板，当最佳点位于中心点时，再使用小模板。搜索过程如图2所示。

步骤30，建立一种适合全景视频的运动估计模型。该模型公式如下所示：

Δx(x^l，y^l)＝a₀f₀(x^l，y^l)+a₁f₁(x^l，y^l)+a₂f₂(x^l，y^l)

Δy(x^l，y^l)＝a₃f₀(x^l，y^l)+a₄f₁(x^l，y^l)+a₅f₂(x^l，y^l)

同时可用率失真优化算法在四参数、八参数中选取一种运动模型代替以上运动模型。

步骤40，计算运动模型参数。先估计平移运动参数，然后再估计旋转和缩放运动参数。根据以下公式进行计算：

[\begin{matrix} r_{1,1}^{i} & r_{1,2}^{i} & r_{1,3}^{i} & Λ & r_{1, n - 1}^{i} \\ 0 & r_{2,2}^{i} & r_{2,3}^{i} & Λ & r_{2, n - 1}^{i} \\ 0 & 0 & r_{3,3}^{i} & Λ & r_{3, n - 1}^{i} \\ 0 & 0 & 0 & O & M \\ 0 & 0 & 0 & Λ & r_{n - 1, n - 1}^{i} \\ 0 & 0 & 0 & Λ & 0 \end{matrix}] [\begin{matrix} c_{1}^{i} \\ c_{2}^{i} \\ c_{3}^{i} \\ M \\ c_{n - 1}^{i} \end{matrix}] = [\begin{matrix} z_{1}^{i} \\ z_{2}^{i} \\ z_{3}^{i} \\ M \\ z_{n - 1}^{i} \\ q_{i} \end{matrix}], i = 1, . . ., n

步骤50，编码传送运动参数。使用3维VLC游程编码，具体的编码方法是对出现概率多的码字分配短的符号，对出现概率少的码字分配长的符号。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种面向全景视频的全局运动估计方法，包括以下步骤：

(1)把每一帧全景视频分割成互不重叠的16×16块；

(3)建立全局运动估计参数模型；

(4)使用高斯牛顿迭代方法得到全局运动估计的运动参数；

2、根据权利要求1所述面向全景视频的全局运动估计方法，其特征是，步骤(1)中，块大小的划分为16×16。

3、根据权利要求1所述面向全景视频的全局运动估计方法，其特征是，步骤(2)中，使用三步快速运动估计算法。

4、根据权利要求1所述面向全景视频的全局运动估计方法，其特征是，步骤(3)中，全局运动估计参数模型是仿射运动参数模型。

5、根据权利要求1所述面向全景视频的全局运动估计方法，其特征是，步骤(4)中，运动参数估计算法是基于高斯牛顿迭代算法。

6、根据权利要求1所述面向全景视频的全局运动估计方法，其特征是，步骤(5)中，全局运动参数的编码是基于三维VLC变长编码。