CN100588257C

CN100588257C - 采用栅格运动估计和补偿的可扩展视频编码

Info

Publication number: CN100588257C
Application number: CN200580025854A
Authority: CN
Inventors: 李正国; 杨小康; 林庆帆; 林晓; S·拉哈尔贾; 潘峰
Original assignee: Agency for Science Technology and Research Singapore
Current assignee: Agency for Science Technology and Research Singapore
Priority date: 2004-06-23
Filing date: 2005-06-23
Publication date: 2010-02-03
Anticipated expiration: 2025-06-23
Also published as: EP1774793A1; JP2008503981A; JP4891234B2; US20080013630A1; KR20070039552A; WO2006001777A1; EP1774793A4; CN101049026A; US8249159B2

Abstract

一种可扩展编码器，其具有栅格运动估计和补偿模块(110)、运动补偿时间滤波模块(105)、可扩展编码模块(115)、离散变换模块(120)和分组模块(135)。栅格运动估计和补偿模块(110)输出根据源视频数据、所提供的分辨率和比特速率参数来计算的可扩展运动矢量。运动补偿时间滤波模块(105)根据源视频数据和可扩展运动矢量来产生对应于当前帧和先前帧之间差异的残差图像。可扩展编码模块(115)被耦合成接收可扩展运动矢量并对其进行编码。离散变换模块(120)配置为接收所提供的视频数据并将其域变换为系数序列。分组模块耦合至可扩展编码模块(115)和离散变换模块(120)，并且可将经编码的可扩展运动矢量和系数序列组合为包。

Description

采用栅格运动估计和补偿的可扩展视频编码

相关申请的交叉引用

本申请要求2004年6月23日提交的美国临时申请60/582,444的权益，通过引用将其全部内容合并于此以用于任何目的。

技术领域

本发明涉及视频编码，具体地说涉及可扩展视频编码，其中可以将运动估计和补偿优化为期望比特速率范围、帧速率和分辨率的函数。

背景技术

三维子带小波编码已被提议为高效率的可扩展视频编码(SVC)技术，在J.Ohm的“Three Dimensional Sub-band Coding with MotionCompensation”，IEEE Trans.on Image Processing，Vol.3，No.9，pp559-571，Sept 1994中描述了其发展。在这种方案中，消除了4种冗余：时间的、空间的、感知的和统计的。

时间冗余可以通过执行基于open look的运动补偿来消除，由此在诸如MPEG1/2/4压缩标准和H.263/4的现有标准中，用于运动补偿的参考帧是原始帧而不是重建帧。基于open look的运动补偿技术在此称为“运动补偿时间滤波”或MCTF，上述J.Ohm的参考文献中描述了其发展。MCTF的进一步细化由S.Choi和J.Woods在“Motion Compensated 3-DSub-band Coding of Video”，IEEE Trans.on Image Processing，Vol.8，No.2，pp.155-167，Feb.1999中描述。在该后一文献中，通过使运动估计的方向与运动补偿的方向一致来改善MCTF。在该技术中，执行几轮MCTF，以提供期望的时间可扩展性并消除不需要的时间冗余。在每一轮MCTF中，利用采用拉格朗日乘数(λ)的速率失真优化为每个运动补偿对产生高和低的子带系数，其中λ对应于比特速率范围和运动信息与残差数据(residual data)之间的平衡。所发送的运动信息量与残差数据之间的平衡是可扩展视频***中的重要特征，由此大的λ对应于低比特速率和少量的所发送的运动信息，而小的λ对应于高比特速率和大量的所发送的运动信息。通常，SVC***的最佳点是为每个运动补偿对产生第一残差图像(residual image)的点，而且通常只存在一个这样的点。

一旦已经执行了所有必要的MCTF操作，则对每个子带典型地执行空间变换，以消除空间冗余。最典型的是，用于这种操作的空间变换是离散余弦变换(DCT)或离散小波变换(DWT)。

感知冗余典型地通过量化频域残差数据-一般使用量化矩阵-来消除。量化矩阵是根据人类视觉***(HVS)的重要特性来设计的，即人眼对低频分量更敏感，而对高频分量不太敏感。因此，为低频残差数据选择小元素，而为高频数据选择大元素。该量化过程通常是有损的，而通过适当选择不同传输比特速率的量化步长来实现SNR可扩展性。

在消除时间、空间和感知冗余时，为用于消除统计冗余的熵编码产生残差数据和运动信息。在该过程中，使用短符号来表示较频繁出现的值，用长符号表示较少出现的值。可变长度编码和算术编码是用于该过程的典型编码类型。

传统可扩展视频编码***典型地采用小拉格朗日乘数λ，以便以最高比特速率获得最佳***性能。但是，在这种***中较低比特速率流时的视觉质量相对差，因为截去的比特包含太多的运动信息而没有足够的残差数据。在H.Hang，S.Tsai和T.Chiang的“Motion Information Scalability forMC-EZBC：Response to Call for Evidence of Scalable Video Coding”，ISO/IEC JTC1/Sc29/WG11，MPEG200/m9756，July，2003Tronheim中的描述试图改善较低比特速率时的编码效率。在此，时间分解中的运动信息被分为基层和增强层。基层由从64×64到16×16的运动信息形式组成，而增强层由8×8到4×4的信息形式组成，其中只有来自基层的运动信息以低比特速率发送到解码器。但是，以高比特速率获得残差数据，因此产生运动不匹配。如果该区域相对平滑，则所获得的运动信息中的差异不是很明显。但是如果该区域非常粗糙，则运动信息中的差异会导致显著的失真。因此使用所建议的方案，可能会导致编码效率在低比特速率传输时较低。

此外不利的是，所建议的技术从实施观点或商业观点来看不是最佳的，因为该技术不考虑不同的供应商会有变化的顾客组成并因此具有变化的比特速率、帧速率和分辨率要求。表1示出这样的实例。

公司	QCIF7.5f/s64kbs	CIF15f/s512kbs	4CIF60f/s2Mb/s
公司	QCIF7.5f/s64kbs	CIF15f/s512kbs	4CIF60f/s2Mb/s	A	2M	100K	10K
B	10K	100K	1.5M	A	2M	100K	10K

表1.

公司A和B的顾客组成

假设公司A和B具有示出的顾客组成。很明显，公司A的最佳运行条件是QCIF、7.5f/s和64kbs，而公司B在条件4CIF、60f/s和2Mb/s的比特速率下运行。在这种实例中，为最高比特速率时的最佳性能而设计的传统视频编码***对公司A不是最佳的，因为其大部分顾客都使用较低的比特速率服务。

因此需要一种改善的、可以提供在任意比特速率、帧速率和分辨率时的最佳性能的视频编码***。

发明内容

本发明提供一种可扩展视频编码器，其具有栅格运动估计和补偿模块、运动补偿时间滤波模块、可扩展编码模块、离散变换模块和分组模块(packetization module)。栅格运动估计和补偿模块包括用于接收源视频数据的第一输入、用于接收期望比特速率和分辨率参数的第二输入、以及输出，并可操作以输出根据源视频数据、所提供的分辨率和比特速率参数计算出的可扩展运动矢量。运动补偿时间滤波模块包括接收源视频数据的第一输入、用于接收可扩展运动矢量的第二输入以及输出，该运动补偿时间滤波模块可操作以产生与当前帧和先前帧的图像之间差异对应的残差图像。可扩展编码模块被耦合成接收可扩展运动矢量并对其进行编码。离散变换模块具有配置为接收所提供的视频数据，并将其进行域变换，将其变换系数序列。分组模块耦合至可扩展编码模块和离散变换模块，并且可操作以将所编码的可扩展运动矢量和系数序列组合为包。所述栅格运动估计和补偿模块可操作以使用两个参数λ_opt和λ_high来产生所述可扩展运动矢量，其中λ_opt包括与预定最佳比特速率对应的拉格朗日乘数，而λ_high包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数。所述栅格运动估计和补偿模块可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。

本发明还提供了一种可扩展视频编码器，其包括：栅格运动估计和补偿装置，其具有用于接收源视频数据、期望比特速率和分辨率参数的装置，所述栅格运动估计和补偿装置可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量；运动补偿时间滤波装置，其具有接收所述源视频数据和所述可扩展运动矢量的装置，所述运动补偿时间滤波装置可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像；可扩展编码装置，其被耦合成接收所述可扩展运动矢量并对其进行编码；离散变换装置，其具有配置为接收所述残差图像的输入、及输出，所述离散变换装置可操作以对所提供的视频数据进行域变换，使其成为系数序列；分组装置，其耦合至所述可扩展编码装置和所述离散变换装置，所述分组装置可操作以将经编码的可扩展运动矢量和所述系数序列组合为包；其中所述栅格运动估计和补偿装置可操作以使用两个参数λ_opt和λ_high来产生所述可扩展运动矢量，其中λ_opt包括与预定最佳比特速率对应的拉格朗日乘数，而λ_high包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数；及其中所述栅格运动估计和补偿装置可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。

在结合附图和详细描述考虑时会更好地理解本发明的上述和其他特征。

附图说明

图1示出根据本发明一个实施例的使用栅格运动估计和补偿的可扩展视频编码器。

图2示出根据本发明一个实施例的栅格运动估计和补偿过程的功能表示。

图3示出根据本发明一个实施例的用于消除低比特速率数据和高比特速率数据之间的编码冗余的过程。

图4示出根据本发明一个实施例的与无约束运动补偿时间滤波过程(或基于闭环的运动补偿方案)集成的运动补偿时间滤波过程。

具体实施方式

图1示出根据本发明的使用栅格运动估计和补偿(栅格ME/MC)的可扩展视频编码器100。编码器100包括经过运动补偿的时间滤波(MCTF)模块105、栅格ME/MC模块110、可扩展运动矢量编码模块115、离散变换模块(DTM)120、帧层移位模块、嵌入式零块编码(EZBC)模块130和分组模块135。

在操作过程中，将视频信息102提供给MCTF模块105。MCTF模块105将该视频信息转发给栅格ME/MC模块110。响应于对该视频信息102的接收以及另外提供的包括最佳分辨率水平、帧速率和比特速率的用户参数，栅格ME/MC模块计算提供给MCTF模块和编码模块115的可扩展运动矢量113。

接收到可扩展运动矢量时，MCTF模块105产生与当前帧中图像与前帧中图像之间差异对应的残差图像。从MCTF模块105输出该残差图像，作为包含Y平面高和低子带数据的亮度信息、以及饱含U和V平面数据的色度信息。利用输出对应系数的离散变换模块120来变换所提供的Y、U和V数据。在本发明的特定实施例中，离散变换模块120使用二维离散小波变换。在可替换实施例中采用二维离散余弦变换。随后将系数提供给帧层移位模块125。EZBC模块按照位平面方式对残差数据进行编码，并实现SNR精细粒度可扩展性。编码模块115对可扩展运动矢量进行编码以便与编码的残差数据一起分组。分组模块135将编码的可扩展运动矢量和来自模块130的残差数据组合在一起，以通过诸如互联网的通信介质传送到目的地接收器。

所描述的体系结构只是示例性的，本领域的技术人员将意识到很多修改都是可能的。在本发明的示例性实施例中，该体系结构可用于改善现有精细粒度可扩展性(FGS)编码的编码效率。在本发明的优选实施例中，使用传统过程实施由可扩展运动矢量编码模决115、DWT模块120、帧层移位模块125、EZBC模块130和分组模块135执行的过程。由MCTF模块实施的过程总的来说如现有技术中所述的一样，还包括在此所述的细化。栅格ME/MC模块110的操作是本发明的主题之一，并且详细描述如下。

图2示出根据本发明一实施例的栅格ME/MC过程的功能表示。根据沿着一个轴(x)的比特速率范围和沿着第二轴(y)的分辨率水平来定义栅格。选择与期望比特速率范围和分辨率水平对应的点为最佳点210。可以选择位于最佳点周围的次佳点215和220，每个次佳点对应于期望但不太重要的比特速率范围和/或分辨率水平。在最佳点210周围优化编码效率，然后基于该点的相对重要性扩展到次佳点215和220。

图2进一步示出表明特定栅格ME/MC过程的有环数字1-5。从最佳点210开始执行基本ME/MC，其导致运动矢量和对应于该运动矢量的残差图像的产生。移到在相同、更高或更低分辨率水平时的较低比特速率(数字4)，栅格ME/MC过程包括截取比特速率数据。从最佳点210移到相同比特速率的更低分辨率(数字3)，栅格ME/MC过程包括截取分辨率数据。移到相同比特速率的更高分辨率(数字5)，通过栅格ME/MC过程改善分辨率。移向相同比特速率、更高比特速率或更低比特速率时的更高数据速率(数字2)，通过递归ME/MC过程改善比特速率。

下面进一步描述每一个过程。

根据本发明，在第l时间级为对应于不同比特速率范围的运动估计预先定义两个或更多参数。将这些参数分别定义为：λ_low(l)、λ_opt(l)和λ_high(l)，并满足等式(1)：

λ_low(l)≥λ_opt(l)≥λ_high(l) (1)；

λ_low(l)对应于最低比特速率，λ_opt(l)对应于所选择的最佳比特速率范围，λ_high(l)对应于最高比特速率范围。

在本发明的特定实施例中，用两个参数λ_opt(l)和λ_high(l)执行栅格ME/MC。在该实施例中，以每个分辨率、为每个运动补偿对产生两组运动信息和两个残差图像。它们用于产生将在每个范围内编码的运动信息和残差数据。

在传统***中，以最大比特速率和最高分辨率来优化ME/MC。在这种***中，为每个运动对(前面的两个视频帧)只产生一个残差图像和对应的运动矢量。

在本发明中，采用以下5种途径之一来实现栅格ME/MC：(i)通过基本ME/MC，其中为每个运动补偿对产生基本残差图像和对应的运动矢量；(ii)通过改善了分辨率的ME/MC，其中为每个运动补偿对产生改善了分辨率的残差图像和对应的运动矢量；(iii)通过在较低分辨率时改善了信噪比(SNR)的ME/MC，其中以较低分辨率为每个运动补偿对产生改善了SNR的残差图像和对应的运动矢量；(iv)通过在最重要分辨率中改善了SNR的ME/MC，其中以最重要分辨率为每个运动补偿对产生改善了SNR的残差图像和对应的运动矢量；(v)通过改善了SNR和分辨率的ME/MC，其中为每个运动补偿对产生改善了SNR和分辨率的残差信息和对应的运动矢量。

在每个时间级的基本运动估计

在示例性实施例中，时间级的总数是L，最重要的点选择在第l0时间级。最佳拉格朗日乘数

定义如下：

{\hat{λ}}_{opt} (l) = \{\begin{matrix} λ_{high} (l) & l < l_{0} \\ λ_{opt} (l) & l &GreaterEqual; l_{0} \end{matrix} - - - (2)

在时间级l(l＝1，2，3，...，L)，用户根据顾客组成选择分辨率

作为最重要的分辨率。运动补偿在第l时间级用参数

从分辨率

开始，并且称为第l时间级的基本运动补偿。

为了提供最佳点的性能，根据以下两种情况来产生残差图像：

情况1：l＜l₀，只使用λ_high(l)来产生残差图像；

情况2：l≥l₀，用λ_opt(l)和λ_high(l)来执行运动估计和补偿。

因此在时间级l(l≥l₀)存在为每个分辨率中的每个运动补偿对产生的两个残差图像。使用所述残差图像产生将在每个范围内编码的运动信息和残差图像。

为了提供在最佳比特速率范围上的编码效率，从通过基本运动估计获得的运动信息中截取用于低于最佳范围的比特速率范围的运动信息。同样，以低于

的分辨率，缩减用于与

和低于

的对应的比特速率范围的运动信息，并从基本运动信息中截取。

运动信息和残差数据的SNR可扩展性

栅格ME/MC从对应于参数λ_mv，opt的比特速率范围开始。

在本发明的特定实施例中，使用(i)用于栅格ME/MC的自适应精度，(ii)通过递归运动补偿的细化；(iii)在同一分辨率的不同比特速率范围之间共享的信息；(iv)在低比特速率范围的运动信息截取；和(v)在低比特速率范围和高比特速率范围中的冗余消除来实现运动信息和纹理的SNR可扩展性。现在描述每个过程。

用于栅格运动估计和补偿的自适应精度

最初在执行栅格运动估计和补偿之前选择运动矢量的精度。在特定实施例中，精度适应于比特速率范围。通常在比特速率增加时，运动信息的精度也提高。例如，可以在低比特速率时选择一半像素，而在中等比特速率和高比特速率时选择1/4像素。此外，块大小是从32×32到8×8，而不是H.264中的16×16到4×4。

通过沿着时间级的递归运动补偿产生的改善

在这种过程中，(dx₀，dy₀)表示由栅格ME/MC用λ_opt(l)获得的运动矢量。(dx，dy)是位于(dx₀，dy₀)周围的运动矢量，并且是要改善的候选。为第l₀轮MCTF定义第一递归运动改善失真准则如下：

D_{{cl}_{0}} (dx, dy, {dx}_{0}, {dy}_{0}) = \underset{x, y}{Σ} | A (x, y) - B (x - dx, y - dy) - IQ (Q (A (x, y) - B (x - {dx}_{0}, y - {dy}_{0})) |

(3)

其中IQ()和Q()是量化运算和对应的逆量化运算，A(x，y)和B(x，y)分别是预测帧和参考帧。

是要进行运动估计和补偿的通用失真准则。通过将时间H子带的信号能量最小化来近似达到最大编码增益，因为时间L子带的能量相对来说是恒定的。

此外，R_mv(dx-dx₀，dy-dy₀)代表用于对运动矢量(dx-dx₀，dy-dy₀)进行编码的比特数。如果满足以下不等式则在第一轮MCTF进一步执行运动估计(dx，dy)：

D_{{cl}_{0}} (dx, dy, {dx}_{0}, {dy}_{0}) + λ_{high} (l) R_{mv} (dx - {dx}_{0}, {dy - dy}_{0}) \leq D_{{cl}_{0}} ({dx}_{0}, {dy}_{0}, {dx}_{0}, {dy}_{0}) - - - (4)

相同分辨率的不同比特速率范围之间共享的信息

为了加速在同一时间级的相同分辨率的运动估计(例如沿着图3中的水平方向，如下所示)，可以在不同比特速率由运动估计共享块划分信息和对应的运动信息。在使用时，该共享信息取决于用户的选择。例如用户可以固定最终的块划分模型。在这种情况下，共享最终的块划分模式和对应的运动信息，而且运动信息的数量在不同比特速率时是相同的。用户还可以固定在运动估计过程中获得的初始全运动矢量树。共享该初始全运动矢量树和对应的运动信息。使用λ_opt(l)和λ_high(l)从相同的初始全运动矢量树开始执行树修剪过程。此外，运动信息量在不同比特速率时可能不同。用户可以选择在一个分辨率中固定最终块划分模式，而同时在另一分辨率中修剪初始全运动矢量树。

在低比特速率范围的运动信息截取

在每个分辨率中，从利用速率失真优化进行的基本运动估计所获得的运动信息中截取低比特速率的运动信息，该速率失真优化使用对应于该低范围的参数λ_low(l)。

在该过程中，B(x，y)是参照画面。矢量(dx，dy)和(dx₀，dy₀)是两个运动矢量，其中(dx₀，dy₀)通过使用

获得，而(dx，dy)是(dx₀，dy₀)的截取运动矢量。截取失真准则定义如下：

D_{t} (dx, dy, {dx}_{0}, {dy}_{0}) = \underset{x, y}{Σ} | B (x - dx, y) - B (x - {dx}_{0}, y - {dy}_{0}) | - - - (5)

如果满足下面的不等式，则运动矢量(dx₀，dy₀)被截取为(dx，dy)：

λ_low(l)R_mv(dx，dy)+D_t(dx，dy，dx₀，dy₀)＜λ_low(l)R_mv(dx₀，dy₀) (6)

对于两个拉格朗日乘数λ₁＞λ₂，如果运动矢量(dx₀，dy₀)被截取为具有λ₁的(dx，dy)，则该运动矢量还将被截取为具有λ₂的(dx，dy)。换句话说，在一比特速率时的运动矢量的集合是在较高比特速率时的运动矢量的子集。

接着，预测失真准则定义如下：

D_{p} (dx, dy) = \underset{x, y}{Σ} | A (x, y) - B (x - dx, y - dy) | - - - (7)

可以从等式(6)确定：

λ_low(l)R_mv(dx，dy)+D_t(dx，dy，dx₀，dy₀)+D_p(dx₀，dy₀)＜λ_low(l)R_mv(dx₀，dy₀)+D_p(dx₀，dy₀)

(8)

即：

λ_low(l)R_mv(dx，dy)+D_p(dx，dy)＜λ_low(l)R_mv(dx₀，dy₀)+D_p(dx₀，dy₀) (9)

可以看到，低比特速率时的运动矢量通过使用等式(9)来获得，而在现有方案中运动信息的加强层对应于高比特速率，并且是采用相对小的λs集合来产生的。如果采用本发明的栅格ME/MC过程来截取运动矢量，则在传统过程中还对该运动矢量进行修剪，反之则不然。如果要以低比特速率编码的残差图像是使用λ_low(l)产生的残差图像，则按照传统ME/MC方法的过程是最佳的。但是，该残差图像是使用参数λ_opt(l)而不是λ_low(l)产生的。这意味着运动信息就低比特速率时的RDO来说是不足的。因此传统***中的运动不匹配可能很严重，并且编码效率在低比特速率时会非常低。

为了保证在最佳比特速率范围内的编码效率，(dx，dy)优选满足以下条件：

{\hat{λ}}_{opt} (l) \underset{dx, dy}{Σ} R_{mv} (dx - {dx}_{0}, dy - {dy}_{0}) \leq θ_{1} - - - (10)

其中θ₁是由用户选择的用于对可扩展运动矢量编码导致的冗余进行编码的比特数的阈值。

在这种实例中，切换点(switching point)通过下式来计算：

\max_{λ} {R (λ)} - - - (11)

使得对于当前文件组(GOF)中的所有运动补偿，都得到

λR_mv(dx，dy)+D_t(dx，dy，dx₀，dy₀)＜λR_mv(dx₀，dy₀) (12)

要注意，只切换要编码的运动信息，而要编码的残差图像在截取时不变。

消除低比特速率和高比特速率之间的冗余

优选的是删除冗余编码信息，以提高编码效率。图3示出该过程，其中利用λ_opt(l)和λ_high(l)的运动补偿之后的3个分辨率的残差图像分别表示为E11、E21、E31、FI、F2、F3。优选的是删除IQ(Q((E11))与F1之间的冗余、IQ(Q((E21))与F2之间的冗余、IQ(Q((E31))与F3之间的冗余。因此通过以下等式计算用于在高比特速率时编码的残差图像E12、E22和E32：

E12＝F1-IQ(Q((E1I)) (13)

E22＝F 2一IQ(Q((E21)) (14)

E32＝F3-IQ(Q((E31)) (15)

运动信息和残差数据的时间可扩展性

在本发明的示例性实施例中，通过将运动信息与同一级的时间高子带残差数据系数捆绑在一起，并在需要时将它们一起减少，实现了运动信息和残差数据的时间可扩展性。

对应于时间级l(l＞l₀)的两个常数来产生两个时间低子带和高子带。使用对应的低子带来执行在这些级的剩余MCTF。

在本发明的示例性实施例中，L_r，1(x，y)和L_o，1(x，y)分别是通过细化和原始最佳方案获得的预测低子带，L_r，2(x，y)和L_o，2(x，y)分别是通过细化和原始最佳方案获得的参考低子带。

用λ_opt(l)、L_o，1(x，y)和L_o，2(x，y)开始运动补偿。在使用λ_high(l)、L_r，1(x，y)和L_r，2(x，y)执行运动补偿时，应当充分利用用λ_opt(l)获得的决划分模式和运动矢量(MV)。前一层中的块的编码MV可用作预测MV的候选，而从前一层获得的块划分模式可以看作是划分共同定位块的初始状态。同样，可以为另一轮MCTF定义第二递归运动细化失真准则如下：

D_{cl} ({dx}_{0}, {dy}_{0}) = \underset{x, y}{Σ} | L_{o, 1} (x, y) - L_{o, 2} (x - {dx}_{0}, y - {dy}_{0}) - IQ (Q (L_{o, 1} (x, y) - L_{o, 2} (x - {dx}_{0}, y - {dy}_{0}))) |

(16)

{\hat{D}}_{cl} ({dx, dy, dx}_{0}, {dy}_{0}) = \underset{x, y}{Σ} | L_{r, 1} (x, y) - L_{r, 2} (x - {dx}_{0}, y - {dy}_{0}) - IQ (Q (L_{o, 1} (x, y) - L_{o, 2} (x - {dx}_{0}, y - {dy}_{0}))) |

(17)

如果满足以下不等式则在第i轮MCTF时执行进一步的运动估计(dx，dy)：

{\hat{D}}_{cl} (dx, dy, {dx}_{0}, {dy}_{0}) + λ_{high} (l) R_{mv} (dx - {dx}_{0}, dy - {dy}_{0}) < D_{cl} ({dx}_{0}, {dy}_{0}) - - - (18)

上述过程称为通过递归运动补偿的细化。切换点通过以下等式来计算：

\max_{λ} {R (λ)} - - - (19)

使得对于当前文件组(GOF)中的所有运动补偿都得到

{\hat{D}}_{cl} (dx, dy, {dx}_{0}, {dy}_{0}) + λ R_{mv} (dx - {dx}_{0}, dy - {dy}_{0}) < D_{cl} ({dx}_{0}, {dy}_{0}) - - - (20)

其中R(λ)是对应于参数λ的比特速率范围。

要注意，在使用递归运动细化方法时，要切换待编码的运动信息和残差图像。

在低于

的分辨率下，只用参数λ_high(l)执行一次运动补偿。在分辨率

下，还用参数λhigh(l)执行另一运动补偿以改进残差图像。在高于的分辨率下，用λ_opt(l)执行一次运动补偿，用λ_high(l)执行另一运动补偿，用以为对应的比特速率范围产生最佳运动信息和最佳残差图像。在每次细化时，在对应的比特速率范围为剩余的编码过程产生对应的残差图像和运动信息。

运动信息和残差数据的空间可扩展性

时间滤波从最重要(最佳)的分辨率开始并在最重要(最佳)的分辨率下优化。可以为高于最重要分辨率的分辨率执行独立和细化的运动估计和补偿。截取最重要分辨率的运动信息，以产生低于该最重要分辨率的分辨率的运动信息。将产生的对应于该分辨率和高分辨率的残差图像合并为一幅残差图像。为简便起见，假定总共有3个分辨率而且

通过以下过程实现运动信息和纹理的空间可扩展性：(i)中等分辨率下的运动信息和残差图像；(ii)高分辨率下的运动信息和残差图像；(iii)在低于最佳分辨率的分辨率下的运动信息截取。下面详细描述每个过程。

中等分辨率下的运动信息和残差图像

假定中等和最高分辨率下的参考帧是

和B(x，y)。

可以是S_D(B(x，y))，其中参数S_D()表示下采样操作，如W.Han在“Response of Callfor Proposal for Scalable Video Coding”，ISO/IEC JTC1/SC29 WG 11MPEG2004/M10569/S7，Müenchen，Germany，March 2004中描述的。和B(x，y)也可以是独立的。使用、S_D(B(x，y))之间的运动估计和补偿和以下失真准则来产生运动信息和残差图像：

D_{S_{D} p} (dx, dy) = \underset{x, y}{Σ} | S_{D} (A) (x, y) - \tilde{B} (x - dx, ydy) | - - - (21)

高分辨率下的运动信息和残差图像

为了实现最高分辨率下的快速和高效估计和编码，利用已经在中等分辨率下编码的MV和块划分模式。所有MV优选首先放大两倍，然后作为预测MV的候选，从前一层获得的块划分模式可以认为是在最高分辨率下划分共同定位块的初始状态。

使用B(x，y)、A(x，y)之间的运动估计和补偿和以下失真准则来产生运动信息和残差图像：

D_{S_{D} S_{U} p} (dx, dy) = \underset{x, y}{Σ} | A (x, y) - S_{U} (S_{D} (A)) (x, y) - (B (x - dx, y - dy) - S_{U} (\tilde{B}) (x - dx, y - dy)) |

(22)

其中S_u表示上采样操作，如W.Han在上述参考文献中描述的。

在图3中的编码残差图像IQ(Q(E31))通过以下由W.Han在上述参考文献中描述的等式来计算：

IQ (Q (E 31)) = S_{U} (IQ (Q (E 21)) + \tilde{B} - S_{D} (B)) + IQ (Q (E 31 - S_{U} (S_{D} (E 31)))) - - - (23)

对应的残差图像和运动信息是为对应分辨率下的其余编码过程产生的。

低分辨率下的运动信息截取

在最低分辨率下，缩小对应于

的比特速率范围的所有MV并从中等分辨率下的MV中截取出来。在下降一个分辨率之后所有MV首先缩小一半。分辨率下的最终块划分模式用作低于

的下一分辨率中的初始全运动矢量树。使用

执行树修剪过程，以产生最终块划分模式。同样，可以获得在其它低分辨率下的运动信息和最终块划分模式。

矢量(dx，dy)和(dx₀，dy₀)是两个运动矢量，其中(2dx₀，2dy₀)是通过使用图3的基本ME/MC获得的，(dx，dy)是(dx₀，dy₀)的截取矢量。另一个截取失真准则定义如下：

D_{rt} (dx, dy, {dx}_{0}, {dy}_{0}) = \underset{x, y}{Σ} | S_{D} (\tilde{B} (x - 2 dx, y - 2 dy)) - S_{D} (\tilde{B} (x - 2 {dx}_{0}, y - 2 {dy}_{0})) | - - - (24)

如果满足以下不等式，则将运动矢量(dx₀，dy₀)截取为(dx，dy)：

{\hat{λ}}_{opt} (l) R_{mv} (dx, xy) + D_{rt} (dx, dy, {dx}_{0}, {dy}_{0}) < {\hat{λ}}_{opt} (l) R_{mv} ({dx}_{0}, {dy}_{0}) - - - (25)

同样，为了保证最佳比特速率范围的编码效率，(dx，dy)优选满足以下不等式：

{\hat{λ}}_{opt} (l) \underset{dx, dy}{Σ} R_{mv} ({dx}_{0} - dx, {dy}_{0} - dy) \leq θ_{2} - - - (26)

其中θ₂是由用户选择的另一个比特数阈值。

在本发明的另一实施例中，使用一个比特向用户提供判断是否切换为现有视频编码标准的灵活性。例如，如果将该比特设置为1，则切换为现有视频编码标准，整个比特流或者由两个子比特流组成，一个与现有视频编码标准兼容，另一个以MCTF为基础，或者由与现有视频编码标准兼容的一个比特流组成。否则，整个比特流全部以MCTF为基础。

本领域的技术人员很容易理解，所描述的过程可以适当地用硬件、软件、固件或这些实施方式的组合来实施。此外，一些或所有上述过程可以实施为驻留在计算机可读介质(可移动盘、易失性或非易失性存储器、嵌入式处理器等)上的计算机可读指令代码，该指令代码可以对其它可编程设备的计算机编程以执行想要的功能。

实例

下面描述上述过程对低延迟情况的一般应用。开始时，通过运动补偿预测和MCTF的无缝集成来最佳地产生低延迟情况的比特流。接着在一个实施例中通过使用具有最佳参数

的MCTF来产生低延迟情况的期望视频序列。

例如，输入帧速率是30HZ，帧大小是4CIF。用户希望为低延迟来优化针对频率为7.5HZ的QCIF大小视频序列的操作。在这种实例中，编码器为低延迟的编码来产生期望的画面：对4个连续的原始画面执行两轮时间小波变换，以产生具有4CIF大小和7.5HZ的视频序列。接着执行两轮二维空间小波变换，以产生期望的视频序列。随后使用例如H.264编码器对视频序列进行编码。

接着产生增强层比特流。此后，对在每个GOF中具有4CIF大小和预定参数的原始图像执行所有必需的MCTF，以产生低的和高子带。使用在H.264编码过程中重建的画面来执行更多轮的MCTF，以产生对应的低和高子带。它们之间的冗余将通过使用上述过程来消除。接着通过使用针对MCTF的现有方法对其余的信息进行编码。

设计运动补偿方案的示例性实施例如下所示。开始时，为低延迟比特流将GOF的大小选择为32，原始帧用Fi表示(1≤i≤32)。针对低延迟的期望时间可扩展性分别是30Hz、15Hz和7.5Hz。所容许的延迟是2/15s。假定运动补偿之后产生的帧用Pi表示(1≤i≤32)。运动补偿方案通过

来表示，其中A_ij∈R^4×4。

要注意，还不存在与MCTF关联的漂移问题，而延迟可以如W.Han的上述参考文献所述通过无约束的MCTF来控制。因此希望在提供低延迟比特流时尽可能地使用MCTF并将MCTF与无约束的MCTF无缝集成。可以使用下面的方法来达到这一目的：

1.由MCTF确定所有A_ij(1≤i≤8)；

2.由MCTF和无约束的MCTF/或基于闭环的运动补偿来确定其它所有A_ij。

假定

完美重建的充要条件是所有矩阵A_ij(1≤i≤8)是非奇异的。由

F＝A^-1P (29)

来重建视频序列。有趣的情况是所有A_ij(2≤i≤8)都相同。图4示出一个实例。

在MCTF中选择5/3变换。所有A_ij等于0，除了下面给定的矩阵：

A_{11} = [\begin{matrix} 1 & - 1 & 0 & 0 \\ 0 & - \frac{1}{2} & 0 & - \frac{1}{2} \\ \frac{1}{4} & \frac{7}{8} & - \frac{1}{4} & - \frac{1}{8} \\ \frac{1}{8} & \frac{3}{16} & \frac{3}{8} & \frac{5}{16} \end{matrix}]

A_{i 1} = [\begin{matrix} 1 & - & 0 & 0 \\ 0 & - & 1 & - \frac{1}{2} \\ \frac{1}{4} & 1 & - \frac{1}{4} & - \frac{1}{8} \\ \frac{1}{8} & \frac{1}{4} & \frac{3}{8} & \frac{5}{16} \end{matrix}]; 2 \leq i \leq 8

A_{i (i - 1)} = [\begin{matrix} 0 & 0 & 0 & - \frac{1}{2} \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & - \frac{1}{8} \\ - \frac{1}{8} & - \frac{3}{16} & - \frac{3}{8} & - \frac{3}{8} \end{matrix}]; i = 2,3,4,6,7,8

A_{54} = [\begin{matrix} 0 & 0 & 0 & - \frac{1}{2} \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & - \frac{1}{8} \\ 0 & 0 & 0 & - \frac{1}{16} \end{matrix}]

A_{53} = [\begin{matrix} 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 \\ - \frac{1}{8} & - \frac{1}{4} & - \frac{3}{8} & - \frac{5}{16} \end{matrix}]

可以看到存在与无约束的MCTF关联的漂移问题，这可以通过控制漂移长度来改善。在上述实例中，长度设置为4。

在第二个实例中，实验是基于MC-EZBC帧间小波编码器的，该编码器可在ftp://ftp.cipr.rpi.edu/personal/chen/的MCEZBC软件包中得到。在将本发明的方案与Choi和Woods的上述参考文献中公开的方案进行比较的测试中，使用4个标准视频序列，即具有SIF大小(352×240)的花园和足球、具有CIF大小(352×288)的汽车和领班(Foreman)。这些序列的帧速率设置为30f/s。比特速率是1024kb/s。用设置为1个像素的、分层运动估计中最低分辨率的最大搜索宽度/高度，使用在Choi和Woods的上述参考文献中描述的分层可变大小块匹配(HVSBM)算法。在我们的实验中，还使用了具有重叠的1/8块的重叠块运动补偿(OBMC)方案，以给予运动信息字段中更好的平滑性。运动信息的精度是半个像素。用于修剪过程的λ_opt(l)选择为224。假定根据顾客组成在低比特速率来选择最佳点。

实验结果在表2-5中示出，其中连字符“-”表示不足以表示运动信息的比特速率。可以看出我们的方案可用于将PSNR最大改善4.5dB。

比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNRR)	本发明的Y(PSNR)
比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNRR)	本发明的Y(PSNR)	320	24.69	24.69	25.31
280	23.72	23.72	24.83	320	24.69	24.69	25.31
280	23.72	23.72	24.83	256	23.19	23.19	24.54
190	-	18.84	23.76	256	23.19	23.19	24.54
190	-	18.84	23.76	170	-	18.82	23.49

表2

利用不同方案的足球序列的平均PSNR的比较，GOF大小＝16

比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNR)	本发明的Y(PSNR)
比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNR)	本发明的Y(PSNR)	256	22.36	22.36	23.05
192	20.50	20.50	22.12	256	22.36	22.36	23.05
192	20.50	20.50	22.12	160	18.46	18.46	21.53
140	-	18.07	21.01	160	18.46	18.46	21.53
140	-	18.07	21.01	128	-	17.86	20.87

表3

利用不同方案的花园的平均PSNR的比较，GOF大小＝16

比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNR)	本发明的Y(PSNR)
比特速率(kb/s)	[2]的Y(PSNR)	[4]的Y(PSNR)	本发明的Y(PSNR)	96	18.01	19.53	20.43
80	16.03	19.04	19.84	96	18.01	19.53	20.43
80	16.03	19.04	19.84	70	-	18.62	19.46
64	-	18.40	19.18	70	-	18.62	19.46

表4

利用不同方案的领班的平均PSNR的比较，GOF大小＝16

表5

利用不同方案的汽车的平均PSNR的比较，GOF大小＝16

合并的参考文献：

通过引用合并下面的文献：

[1]J.Ohm的“Three Dimensional Sub-band Coding with MotionCompensation”，IEEE Trans.on Image Processing，Vol.3，No.9，pp559-571，Sept 1994。

[2]S.Choi和J.Woods，“Motion Compensated 3-D Sub-bandCoding of Video”，IEEE Trans.on Image Processing，Vol.8，No.2，pp.155-167，Feb.1999。

[3]MCEZBC软件包，ftp://ftp.cipr.rpi.edu/personal/chen/

[4]H.Hang，S.Tsai和T.Chiang的“Motion Information Scalabilityfor MCEZBC：Response to Call for Evidence of Scalable Video Coding”，ISO/IEC JTC1/Sc29/WG11，MPEG2003/m9756，July 2003，Tronheim。

[5]W.Han的“Response of Call for Proposal for Scalable VideoCoding”，ISO/IEC JTC1/SC29WG 11MPEG2004/M10569/S7，Müenchen，Germany，March 2004。

尽管已示出和描述了本发明的优选实施例，但这只是示例性的，可对在此所描述的各种装置和过程中进行各种修改、变更和等同替换。因此本发明的范围由所附权利要求的范围来限定。

Claims

1.一种可扩展视频编码器，其包括：

栅格运动估计和补偿模块，其具有用于接收源视频数据的第一输入、用于接收期望比特速率和分辨率参数的第二输入、及输出，所述栅格运动估计和补偿模块可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量；

运动补偿时间滤波模块，其具有用于接收所述源视频数据的第一输入、用于接收所述可扩展运动矢量的第二输入、及输出，所述运动补偿时间滤波模块可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像；

可扩展编码模块，其被耦合成接收所述可扩展运动矢量并对其进行编码；

离散变换模块，其具有配置为接收所述残差图像的输入、及输出，所述离散变换模块可操作以对所提供的视频数据进行域变换，使其成为系数序列；及

分组模块，其耦合至所述可扩展编码模块和所述离散变换模块，所述分组模块可操作以将经编码的可扩展运动矢量和所述系数序列组合为包；

其中所述栅格运动估计和补偿模块可操作以使用两个参数λ_opt和λ_high来产生所述可扩展运动矢量，其中λ_opt包括与预定最佳比特速率对应的拉格朗日乘数，而λ_high包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数；

其中所述栅格运动估计和补偿模块可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。

2.根据权利要求1所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定比特速率，所述栅格运动估计和补偿模块还可操作以截取比特速率数据，以产生比特速率低于所述预定比特速率的可扩展运动矢量。

3.根据权利要求1所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定比特速率，所述栅格运动估计和补偿模块还可操作以使用递归过程来细化比特速率数据，以产生比特速率高于所述预定比特速率的可扩展运动矢量。

4.根据权利要求1至3中任一项所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定分辨率水平，所述栅格运动估计和补偿模块还可操作以截取数据，以产生分辨率水平比所述预定分辨率水平低的可扩展运动矢量。

5.根据权利要求1至3中任一项所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定分辨率水平，所述栅格运动估计和补偿模块还可操作以使用递归过程来细化分辨率数据，以产生分辨率水平高于所述预定分辨率水平的可扩展运动矢量。

6.根据权利要求1至3中任一项所述的可扩展视频编码器，其中所述离散变换模块包括离散小波变换模块。

7.根据权利要求1至3中任一项所述的可扩展视频编码器，其中所述离散变换模块包括离散余弦变换模块。

8.根据权利要求1至3中任一项所述的可扩展视频编码器，其中所述栅格运动估计和补偿模块可操作以借助信噪比改善的运动估计和补偿过程来执行栅格运动估计和补偿，以产生信噪比改善的残差图像和对应的运动矢量。

9.根据权利要求8所述的可扩展视频编码器，其中所述栅格运动估计和补偿模块可在预定分辨率水平下操作，并且其中所述栅格运动估计和补偿模块针对比所述预定分辨率水平低的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。

10.根据权利要求8所述的可扩展视频编码器，其中所述栅格运动估计和补偿模块可在预定分辨率水平下操作，并且其中所述栅格运动估计和补偿模块针对处于不同于所述预定分辨率水平的第二分辨率水平的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。

11.根据权利要求8所述的可扩展视频编码器，其中所述栅格运动估计和补偿模块可操作以可变地选择运动信息的精度。

12.根据权利要求11所述的可扩展视频编码器，其中对运动信息精度的可变选择与所述期望比特速率有关。

13.根据权利要求1所述的可扩展视频编码器，其中所述可扩展视频编码器可操作以根据已经以低比特速率来编码的残差图像来预测将以高比特速率来编码的残差图像。

14.一种可扩展视频编码器，其包括：

栅格运动估计和补偿装置，其具有用于接收源视频数据、期望比特速率和分辨率参数的装置，所述栅格运动估计和补偿装置可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量；

运动补偿时间滤波装置，其具有接收所述源视频数据和所述可扩展运动矢量的装置，所述运动补偿时间滤波装置可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像；

可扩展编码装置，其被耦合成接收所述可扩展运动矢量并对其进行编码；

离散变换装置，其具有配置为接收所述残差图像的输入、及输出，所述离散变换装置可操作以对所提供的视频数据进行域变换，使其成为系数序列；

分组装置，其耦合至所述可扩展编码装置和所述离散变换装置，所述分组装置可操作以将经编码的可扩展运动矢量和所述系数序列组合为包；

其中所述栅格运动估计和补偿装置可操作以使用两个参数λ_opt和λ_high来产生所述可扩展运动矢量，其中λ_opt包括与预定最佳比特速率对应的拉格朗日乘数，而λ_high包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数；及

其中所述栅格运动估计和补偿装置可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。

15.根据权利要求14所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定比特速率，所述栅格运动估计和补偿装置还可操作以截取比特速率数据，以产生比特速率低于所述预定比特速率的可扩展运动矢量。

16.根据权利要求14所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定比特速率，所述栅格运动估计和补偿装置还可操作以使用递归过程来细化比特速率数据，以产生比特速率高于所述预定比特速率的可扩展运动矢量。

17.根据权利要求14至16中任一项所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定分辨率水平，所述栅格运动估计和补偿装置还可操作以截取数据，以产生分辨率水平比所述预定分辨率水平低的可扩展运动矢量。

18.根据权利要求14至16中任一项所述的可扩展视频编码器，其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定分辨率水平，所述栅格运动估计和补偿装置还可操作以使用递归过程来细化分辨率数据，以产生分辨率水平高于所述预定分辨率水平的可扩展运动矢量。

19.根据权利要求14至16中任一项所述的可扩展视频编码器，其中所述栅格运动估计和补偿装置可操作以借助信噪比改善的运动估计和补偿过程来执行栅格运动估计和补偿，以产生信噪比改善的残差图像和对应的运动矢量。

20.根据权利要求19所述的可扩展视频编码器，其中所述栅格运动估计和补偿装置可在预定分辨率水平下操作，并且其中所述栅格运动估计和补偿装置针对比所述预定分辨率水平低的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。

21.根据权利要求19所述的可扩展视频编码器，其中所述栅格运动估计和补偿装置可在预定分辨率水平下操作，并且其中所述栅格运动估计和补偿装置针对处于不同于所述预定分辨率水平的第二分辨率水平的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。

22.根据权利要求14所述的可扩展视频编码器，其中所述可扩展视频编码器可操作以根据已经以低比特速率来编码的残差图像来预测将以高比特速率来编码的残差图像。