CN100588257C - 采用栅格运动估计和补偿的可扩展视频编码 - Google Patents

采用栅格运动估计和补偿的可扩展视频编码 Download PDF

Info

Publication number
CN100588257C
CN100588257C CN200580025854A CN200580025854A CN100588257C CN 100588257 C CN100588257 C CN 100588257C CN 200580025854 A CN200580025854 A CN 200580025854A CN 200580025854 A CN200580025854 A CN 200580025854A CN 100588257 C CN100588257 C CN 100588257C
Authority
CN
China
Prior art keywords
grid
motion estimation
resolution
module
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200580025854A
Other languages
English (en)
Other versions
CN101049026A (zh
Inventor
李正国
杨小康
林庆帆
林晓
S·拉哈尔贾
潘峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agency for Science Technology and Research Singapore
Original Assignee
Agency for Science Technology and Research Singapore
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agency for Science Technology and Research Singapore filed Critical Agency for Science Technology and Research Singapore
Publication of CN101049026A publication Critical patent/CN101049026A/zh
Application granted granted Critical
Publication of CN100588257C publication Critical patent/CN100588257C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • H04N19/615Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding using motion compensated temporal filtering [MCTF]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/523Motion estimation or motion compensation with sub-pixel accuracy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/503Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
    • H04N19/51Motion estimation or motion compensation
    • H04N19/57Motion estimation characterised by a search window with variable size or shape
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/61Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding in combination with predictive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/13Adaptive entropy coding, e.g. adaptive variable length coding [AVLC] or context adaptive binary arithmetic coding [CABAC]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种可扩展编码器,其具有栅格运动估计和补偿模块(110)、运动补偿时间滤波模块(105)、可扩展编码模块(115)、离散变换模块(120)和分组模块(135)。栅格运动估计和补偿模块(110)输出根据源视频数据、所提供的分辨率和比特速率参数来计算的可扩展运动矢量。运动补偿时间滤波模块(105)根据源视频数据和可扩展运动矢量来产生对应于当前帧和先前帧之间差异的残差图像。可扩展编码模块(115)被耦合成接收可扩展运动矢量并对其进行编码。离散变换模块(120)配置为接收所提供的视频数据并将其域变换为系数序列。分组模块耦合至可扩展编码模块(115)和离散变换模块(120),并且可将经编码的可扩展运动矢量和系数序列组合为包。

Description

采用栅格运动估计和补偿的可扩展视频编码
相关申请的交叉引用
本申请要求2004年6月23日提交的美国临时申请60/582,444的权益,通过引用将其全部内容合并于此以用于任何目的。
技术领域
本发明涉及视频编码,具体地说涉及可扩展视频编码,其中可以将运动估计和补偿优化为期望比特速率范围、帧速率和分辨率的函数。
背景技术
三维子带小波编码已被提议为高效率的可扩展视频编码(SVC)技术,在J.Ohm的“Three Dimensional Sub-band Coding with MotionCompensation”,IEEE Trans.on Image Processing,Vol.3,No.9,pp559-571,Sept 1994中描述了其发展。在这种方案中,消除了4种冗余:时间的、空间的、感知的和统计的。
时间冗余可以通过执行基于open look的运动补偿来消除,由此在诸如MPEG1/2/4压缩标准和H.263/4的现有标准中,用于运动补偿的参考帧是原始帧而不是重建帧。基于open look的运动补偿技术在此称为“运动补偿时间滤波”或MCTF,上述J.Ohm的参考文献中描述了其发展。MCTF的进一步细化由S.Choi和J.Woods在“Motion Compensated 3-DSub-band Coding of Video”,IEEE Trans.on Image Processing,Vol.8,No.2,pp.155-167,Feb.1999中描述。在该后一文献中,通过使运动估计的方向与运动补偿的方向一致来改善MCTF。在该技术中,执行几轮MCTF,以提供期望的时间可扩展性并消除不需要的时间冗余。在每一轮MCTF中,利用采用拉格朗日乘数(λ)的速率失真优化为每个运动补偿对产生高和低的子带系数,其中λ对应于比特速率范围和运动信息与残差数据(residual data)之间的平衡。所发送的运动信息量与残差数据之间的平衡是可扩展视频***中的重要特征,由此大的λ对应于低比特速率和少量的所发送的运动信息,而小的λ对应于高比特速率和大量的所发送的运动信息。通常,SVC***的最佳点是为每个运动补偿对产生第一残差图像(residual image)的点,而且通常只存在一个这样的点。
一旦已经执行了所有必要的MCTF操作,则对每个子带典型地执行空间变换,以消除空间冗余。最典型的是,用于这种操作的空间变换是离散余弦变换(DCT)或离散小波变换(DWT)。
感知冗余典型地通过量化频域残差数据-一般使用量化矩阵-来消除。量化矩阵是根据人类视觉***(HVS)的重要特性来设计的,即人眼对低频分量更敏感,而对高频分量不太敏感。因此,为低频残差数据选择小元素,而为高频数据选择大元素。该量化过程通常是有损的,而通过适当选择不同传输比特速率的量化步长来实现SNR可扩展性。
在消除时间、空间和感知冗余时,为用于消除统计冗余的熵编码产生残差数据和运动信息。在该过程中,使用短符号来表示较频繁出现的值,用长符号表示较少出现的值。可变长度编码和算术编码是用于该过程的典型编码类型。
传统可扩展视频编码***典型地采用小拉格朗日乘数λ,以便以最高比特速率获得最佳***性能。但是,在这种***中较低比特速率流时的视觉质量相对差,因为截去的比特包含太多的运动信息而没有足够的残差数据。在H.Hang,S.Tsai和T.Chiang的“Motion Information Scalability forMC-EZBC:Response to Call for Evidence of Scalable Video Coding”,ISO/IEC JTC1/Sc29/WG11,MPEG200/m9756,July,2003Tronheim中的描述试图改善较低比特速率时的编码效率。在此,时间分解中的运动信息被分为基层和增强层。基层由从64×64到16×16的运动信息形式组成,而增强层由8×8到4×4的信息形式组成,其中只有来自基层的运动信息以低比特速率发送到解码器。但是,以高比特速率获得残差数据,因此产生运动不匹配。如果该区域相对平滑,则所获得的运动信息中的差异不是很明显。但是如果该区域非常粗糙,则运动信息中的差异会导致显著的失真。因此使用所建议的方案,可能会导致编码效率在低比特速率传输时较低。
此外不利的是,所建议的技术从实施观点或商业观点来看不是最佳的,因为该技术不考虑不同的供应商会有变化的顾客组成并因此具有变化的比特速率、帧速率和分辨率要求。表1示出这样的实例。
  公司   QCIF7.5f/s64kbs   CIF15f/s512kbs   4CIF60f/s2Mb/s
  A   2M   100K   10K
  B   10K   100K   1.5M
表1.
公司A和B的顾客组成
假设公司A和B具有示出的顾客组成。很明显,公司A的最佳运行条件是QCIF、7.5f/s和64kbs,而公司B在条件4CIF、60f/s和2Mb/s的比特速率下运行。在这种实例中,为最高比特速率时的最佳性能而设计的传统视频编码***对公司A不是最佳的,因为其大部分顾客都使用较低的比特速率服务。
因此需要一种改善的、可以提供在任意比特速率、帧速率和分辨率时的最佳性能的视频编码***。
发明内容
本发明提供一种可扩展视频编码器,其具有栅格运动估计和补偿模块、运动补偿时间滤波模块、可扩展编码模块、离散变换模块和分组模块(packetization module)。栅格运动估计和补偿模块包括用于接收源视频数据的第一输入、用于接收期望比特速率和分辨率参数的第二输入、以及输出,并可操作以输出根据源视频数据、所提供的分辨率和比特速率参数计算出的可扩展运动矢量。运动补偿时间滤波模块包括接收源视频数据的第一输入、用于接收可扩展运动矢量的第二输入以及输出,该运动补偿时间滤波模块可操作以产生与当前帧和先前帧的图像之间差异对应的残差图像。可扩展编码模块被耦合成接收可扩展运动矢量并对其进行编码。离散变换模块具有配置为接收所提供的视频数据,并将其进行域变换,将其变换系数序列。分组模块耦合至可扩展编码模块和离散变换模块,并且可操作以将所编码的可扩展运动矢量和系数序列组合为包。所述栅格运动估计和补偿模块可操作以使用两个参数λopt和λhigh来产生所述可扩展运动矢量,其中λopt包括与预定最佳比特速率对应的拉格朗日乘数,而λhigh包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数。所述栅格运动估计和补偿模块可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。
本发明还提供了一种可扩展视频编码器,其包括:栅格运动估计和补偿装置,其具有用于接收源视频数据、期望比特速率和分辨率参数的装置,所述栅格运动估计和补偿装置可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量;运动补偿时间滤波装置,其具有接收所述源视频数据和所述可扩展运动矢量的装置,所述运动补偿时间滤波装置可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像;可扩展编码装置,其被耦合成接收所述可扩展运动矢量并对其进行编码;离散变换装置,其具有配置为接收所述残差图像的输入、及输出,所述离散变换装置可操作以对所提供的视频数据进行域变换,使其成为系数序列;分组装置,其耦合至所述可扩展编码装置和所述离散变换装置,所述分组装置可操作以将经编码的可扩展运动矢量和所述系数序列组合为包;其中所述栅格运动估计和补偿装置可操作以使用两个参数λopt和λhigh来产生所述可扩展运动矢量,其中λopt包括与预定最佳比特速率对应的拉格朗日乘数,而λhigh包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数;及其中所述栅格运动估计和补偿装置可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。
在结合附图和详细描述考虑时会更好地理解本发明的上述和其他特征。
附图说明
图1示出根据本发明一个实施例的使用栅格运动估计和补偿的可扩展视频编码器。
图2示出根据本发明一个实施例的栅格运动估计和补偿过程的功能表示。
图3示出根据本发明一个实施例的用于消除低比特速率数据和高比特速率数据之间的编码冗余的过程。
图4示出根据本发明一个实施例的与无约束运动补偿时间滤波过程(或基于闭环的运动补偿方案)集成的运动补偿时间滤波过程。
具体实施方式
图1示出根据本发明的使用栅格运动估计和补偿(栅格ME/MC)的可扩展视频编码器100。编码器100包括经过运动补偿的时间滤波(MCTF)模块105、栅格ME/MC模块110、可扩展运动矢量编码模块115、离散变换模块(DTM)120、帧层移位模块、嵌入式零块编码(EZBC)模块130和分组模块135。
在操作过程中,将视频信息102提供给MCTF模块105。MCTF模块105将该视频信息转发给栅格ME/MC模块110。响应于对该视频信息102的接收以及另外提供的包括最佳分辨率水平、帧速率和比特速率的用户参数,栅格ME/MC模块计算提供给MCTF模块和编码模块115的可扩展运动矢量113。
接收到可扩展运动矢量时,MCTF模块105产生与当前帧中图像与前帧中图像之间差异对应的残差图像。从MCTF模块105输出该残差图像,作为包含Y平面高和低子带数据的亮度信息、以及饱含U和V平面数据的色度信息。利用输出对应系数的离散变换模块120来变换所提供的Y、U和V数据。在本发明的特定实施例中,离散变换模块120使用二维离散小波变换。在可替换实施例中采用二维离散余弦变换。随后将系数提供给帧层移位模块125。EZBC模块按照位平面方式对残差数据进行编码,并实现SNR精细粒度可扩展性。编码模块115对可扩展运动矢量进行编码以便与编码的残差数据一起分组。分组模块135将编码的可扩展运动矢量和来自模块130的残差数据组合在一起,以通过诸如互联网的通信介质传送到目的地接收器。
所描述的体系结构只是示例性的,本领域的技术人员将意识到很多修改都是可能的。在本发明的示例性实施例中,该体系结构可用于改善现有精细粒度可扩展性(FGS)编码的编码效率。在本发明的优选实施例中,使用传统过程实施由可扩展运动矢量编码模决115、DWT模块120、帧层移位模块125、EZBC模块130和分组模块135执行的过程。由MCTF模块实施的过程总的来说如现有技术中所述的一样,还包括在此所述的细化。栅格ME/MC模块110的操作是本发明的主题之一,并且详细描述如下。
图2示出根据本发明一实施例的栅格ME/MC过程的功能表示。根据沿着一个轴(x)的比特速率范围和沿着第二轴(y)的分辨率水平来定义栅格。选择与期望比特速率范围和分辨率水平对应的点为最佳点210。可以选择位于最佳点周围的次佳点215和220,每个次佳点对应于期望但不太重要的比特速率范围和/或分辨率水平。在最佳点210周围优化编码效率,然后基于该点的相对重要性扩展到次佳点215和220。
图2进一步示出表明特定栅格ME/MC过程的有环数字1-5。从最佳点210开始执行基本ME/MC,其导致运动矢量和对应于该运动矢量的残差图像的产生。移到在相同、更高或更低分辨率水平时的较低比特速率(数字4),栅格ME/MC过程包括截取比特速率数据。从最佳点210移到相同比特速率的更低分辨率(数字3),栅格ME/MC过程包括截取分辨率数据。移到相同比特速率的更高分辨率(数字5),通过栅格ME/MC过程改善分辨率。移向相同比特速率、更高比特速率或更低比特速率时的更高数据速率(数字2),通过递归ME/MC过程改善比特速率。
下面进一步描述每一个过程。
根据本发明,在第l时间级为对应于不同比特速率范围的运动估计预先定义两个或更多参数。将这些参数分别定义为:λlow(l)、λopt(l)和λhigh(l),并满足等式(1):
λlow(l)≥λopt(l)≥λhigh(l)          (1);
λlow(l)对应于最低比特速率,λopt(l)对应于所选择的最佳比特速率范围,λhigh(l)对应于最高比特速率范围。
在本发明的特定实施例中,用两个参数λopt(l)和λhigh(l)执行栅格ME/MC。在该实施例中,以每个分辨率、为每个运动补偿对产生两组运动信息和两个残差图像。它们用于产生将在每个范围内编码的运动信息和残差数据。
在传统***中,以最大比特速率和最高分辨率来优化ME/MC。在这种***中,为每个运动对(前面的两个视频帧)只产生一个残差图像和对应的运动矢量。
在本发明中,采用以下5种途径之一来实现栅格ME/MC:(i)通过基本ME/MC,其中为每个运动补偿对产生基本残差图像和对应的运动矢量;(ii)通过改善了分辨率的ME/MC,其中为每个运动补偿对产生改善了分辨率的残差图像和对应的运动矢量;(iii)通过在较低分辨率时改善了信噪比(SNR)的ME/MC,其中以较低分辨率为每个运动补偿对产生改善了SNR的残差图像和对应的运动矢量;(iv)通过在最重要分辨率中改善了SNR的ME/MC,其中以最重要分辨率为每个运动补偿对产生改善了SNR的残差图像和对应的运动矢量;(v)通过改善了SNR和分辨率的ME/MC,其中为每个运动补偿对产生改善了SNR和分辨率的残差信息和对应的运动矢量。
在每个时间级的基本运动估计
在示例性实施例中,时间级的总数是L,最重要的点选择在第l0时间级。最佳拉格朗日乘数
Figure C20058002585400121
定义如下:
&lambda; ^ opt ( l ) = &lambda; high ( l ) l < l 0 &lambda; opt ( l ) l &GreaterEqual; l 0 - - - ( 2 )
在时间级l(l=1,2,3,...,L),用户根据顾客组成选择分辨率
Figure C20058002585400123
作为最重要的分辨率。运动补偿在第l时间级用参数
Figure C20058002585400124
从分辨率
Figure C20058002585400125
开始,并且称为第l时间级的基本运动补偿。
为了提供最佳点的性能,根据以下两种情况来产生残差图像:
情况1:l<l0,只使用λhigh(l)来产生残差图像;
情况2:l≥l0,用λopt(l)和λhigh(l)来执行运动估计和补偿。
因此在时间级l(l≥l0)存在为每个分辨率中的每个运动补偿对产生的两个残差图像。使用所述残差图像产生将在每个范围内编码的运动信息和残差图像。
为了提供在最佳比特速率范围上的编码效率,从通过基本运动估计获得的运动信息中截取用于低于最佳范围的比特速率范围的运动信息。同样,以低于
Figure C20058002585400131
的分辨率,缩减用于与
Figure C20058002585400132
和低于
Figure C20058002585400133
的对应的比特速率范围的运动信息,并从基本运动信息中截取。
运动信息和残差数据的SNR可扩展性
栅格ME/MC从对应于参数λmv,opt的比特速率范围开始。
在本发明的特定实施例中,使用(i)用于栅格ME/MC的自适应精度,(ii)通过递归运动补偿的细化;(iii)在同一分辨率的不同比特速率范围之间共享的信息;(iv)在低比特速率范围的运动信息截取;和(v)在低比特速率范围和高比特速率范围中的冗余消除来实现运动信息和纹理的SNR可扩展性。现在描述每个过程。
用于栅格运动估计和补偿的自适应精度
最初在执行栅格运动估计和补偿之前选择运动矢量的精度。在特定实施例中,精度适应于比特速率范围。通常在比特速率增加时,运动信息的精度也提高。例如,可以在低比特速率时选择一半像素,而在中等比特速率和高比特速率时选择1/4像素。此外,块大小是从32×32到8×8,而不是H.264中的16×16到4×4。
通过沿着时间级的递归运动补偿产生的改善
在这种过程中,(dx0,dy0)表示由栅格ME/MC用λopt(l)获得的运动矢量。(dx,dy)是位于(dx0,dy0)周围的运动矢量,并且是要改善的候选。为第l0轮MCTF定义第一递归运动改善失真准则如下:
D cl 0 ( dx , dy , dx 0 , dy 0 ) = &Sigma; x , y | A ( x , y ) - B ( x - dx , y - dy ) - IQ ( Q ( A ( x , y ) - B ( x - dx 0 , y - dy 0 ) ) |
                              (3)
其中IQ()和Q()是量化运算和对应的逆量化运算,A(x,y)和B(x,y)分别是预测帧和参考帧。
Figure C20058002585400141
是要进行运动估计和补偿的通用失真准则。通过将时间H子带的信号能量最小化来近似达到最大编码增益,因为时间L子带的能量相对来说是恒定的。
此外,Rmv(dx-dx0,dy-dy0)代表用于对运动矢量(dx-dx0,dy-dy0)进行编码的比特数。如果满足以下不等式则在第一轮MCTF进一步执行运动估计(dx,dy):
D cl 0 ( dx , dy , dx 0 , dy 0 ) + &lambda; high ( l ) R mv ( dx - dx 0 , dy - dy 0 ) &le; D cl 0 ( dx 0 , dy 0 , dx 0 , dy 0 ) - - - ( 4 )
相同分辨率的不同比特速率范围之间共享的信息
为了加速在同一时间级的相同分辨率的运动估计(例如沿着图3中的水平方向,如下所示),可以在不同比特速率由运动估计共享块划分信息和对应的运动信息。在使用时,该共享信息取决于用户的选择。例如用户可以固定最终的块划分模型。在这种情况下,共享最终的块划分模式和对应的运动信息,而且运动信息的数量在不同比特速率时是相同的。用户还可以固定在运动估计过程中获得的初始全运动矢量树。共享该初始全运动矢量树和对应的运动信息。使用λopt(l)和λhigh(l)从相同的初始全运动矢量树开始执行树修剪过程。此外,运动信息量在不同比特速率时可能不同。用户可以选择在一个分辨率中固定最终块划分模式,而同时在另一分辨率中修剪初始全运动矢量树。
在低比特速率范围的运动信息截取
在每个分辨率中,从利用速率失真优化进行的基本运动估计所获得的运动信息中截取低比特速率的运动信息,该速率失真优化使用对应于该低范围的参数λlow(l)。
在该过程中,B(x,y)是参照画面。矢量(dx,dy)和(dx0,dy0)是两个运动矢量,其中(dx0,dy0)通过使用
Figure C20058002585400143
获得,而(dx,dy)是(dx0,dy0)的截取运动矢量。截取失真准则定义如下:
D t ( dx , dy , dx 0 , dy 0 ) = &Sigma; x , y | B ( x - dx , y ) - B ( x - dx 0 , y - dy 0 ) | - - - ( 5 )
如果满足下面的不等式,则运动矢量(dx0,dy0)被截取为(dx,dy):
λlow(l)Rmv(dx,dy)+Dt(dx,dy,dx0,dy0)<λlow(l)Rmv(dx0,dy0)            (6)
对于两个拉格朗日乘数λ1>λ2,如果运动矢量(dx0,dy0)被截取为具有λ1的(dx,dy),则该运动矢量还将被截取为具有λ2的(dx,dy)。换句话说,在一比特速率时的运动矢量的集合是在较高比特速率时的运动矢量的子集。
接着,预测失真准则定义如下:
D p ( dx , dy ) = &Sigma; x , y | A ( x , y ) - B ( x - dx , y - dy ) | - - - ( 7 )
可以从等式(6)确定:
λlow(l)Rmv(dx,dy)+Dt(dx,dy,dx0,dy0)+Dp(dx0,dy0)<λlow(l)Rmv(dx0,dy0)+Dp(dx0,dy0)
                                                                           (8)
即:
λlow(l)Rmv(dx,dy)+Dp(dx,dy)<λlow(l)Rmv(dx0,dy0)+Dp(dx0,dy0)         (9)
可以看到,低比特速率时的运动矢量通过使用等式(9)来获得,而在现有方案中运动信息的加强层对应于高比特速率,并且是采用相对小的λs集合来产生的。如果采用本发明的栅格ME/MC过程来截取运动矢量,则在传统过程中还对该运动矢量进行修剪,反之则不然。如果要以低比特速率编码的残差图像是使用λlow(l)产生的残差图像,则按照传统ME/MC方法的过程是最佳的。但是,该残差图像是使用参数λopt(l)而不是λlow(l)产生的。这意味着运动信息就低比特速率时的RDO来说是不足的。因此传统***中的运动不匹配可能很严重,并且编码效率在低比特速率时会非常低。
为了保证在最佳比特速率范围内的编码效率,(dx,dy)优选满足以下条件:
&lambda; ^ opt ( l ) &Sigma; dx , dy R mv ( dx - dx 0 , dy - dy 0 ) &le; &theta; 1 - - - ( 10 )
其中θ1是由用户选择的用于对可扩展运动矢量编码导致的冗余进行编码的比特数的阈值。
在这种实例中,切换点(switching point)通过下式来计算:
max &lambda; { R ( &lambda; ) } - - - ( 11 )
使得对于当前文件组(GOF)中的所有运动补偿,都得到
λRmv(dx,dy)+Dt(dx,dy,dx0,dy0)<λRmv(dx0,dy0)           (12)
要注意,只切换要编码的运动信息,而要编码的残差图像在截取时不变。
消除低比特速率和高比特速率之间的冗余
优选的是删除冗余编码信息,以提高编码效率。图3示出该过程,其中利用λopt(l)和λhigh(l)的运动补偿之后的3个分辨率的残差图像分别表示为E11、E21、E31、FI、F2、F3。优选的是删除IQ(Q((E11))与F1之间的冗余、IQ(Q((E21))与F2之间的冗余、IQ(Q((E31))与F3之间的冗余。因此通过以下等式计算用于在高比特速率时编码的残差图像E12、E22和E32:
E12=F1-IQ(Q((E1I))                                           (13)
E22=F 2一IQ(Q((E21))                                         (14)
E32=F3-IQ(Q((E31))                                           (15)
运动信息和残差数据的时间可扩展性
在本发明的示例性实施例中,通过将运动信息与同一级的时间高子带残差数据系数捆绑在一起,并在需要时将它们一起减少,实现了运动信息和残差数据的时间可扩展性。
对应于时间级l(l>l0)的两个常数来产生两个时间低子带和高子带。使用对应的低子带来执行在这些级的剩余MCTF。
在本发明的示例性实施例中,Lr,1(x,y)和Lo,1(x,y)分别是通过细化和原始最佳方案获得的预测低子带,Lr,2(x,y)和Lo,2(x,y)分别是通过细化和原始最佳方案获得的参考低子带。
用λopt(l)、Lo,1(x,y)和Lo,2(x,y)开始运动补偿。在使用λhigh(l)、Lr,1(x,y)和Lr,2(x,y)执行运动补偿时,应当充分利用用λopt(l)获得的决划分模式和运动矢量(MV)。前一层中的块的编码MV可用作预测MV的候选,而从前一层获得的块划分模式可以看作是划分共同定位块的初始状态。同样,可以为另一轮MCTF定义第二递归运动细化失真准则如下:
D cl ( dx 0 , dy 0 ) = &Sigma; x , y | L o , 1 ( x , y ) - L o , 2 ( x - dx 0 , y - dy 0 ) - IQ ( Q ( L o , 1 ( x , y ) - L o , 2 ( x - dx 0 , y - dy 0 ) ) ) |
                                              (16)
D ^ cl ( dx , dy , dx 0 , dy 0 ) = &Sigma; x , y | L r , 1 ( x , y ) - L r , 2 ( x - dx 0 , y - dy 0 ) - IQ ( Q ( L o , 1 ( x , y ) - L o , 2 ( x - dx 0 , y - dy 0 ) ) ) |
                                              (17)
如果满足以下不等式则在第i轮MCTF时执行进一步的运动估计(dx,dy):
D ^ cl ( dx , dy , dx 0 , dy 0 ) + &lambda; high ( l ) R mv ( dx - dx 0 , dy - dy 0 ) < D cl ( dx 0 , dy 0 ) - - - ( 18 )
上述过程称为通过递归运动补偿的细化。切换点通过以下等式来计算:
max &lambda; { R ( &lambda; ) } - - - ( 19 )
使得对于当前文件组(GOF)中的所有运动补偿都得到
D ^ cl ( dx , dy , dx 0 , dy 0 ) + &lambda; R mv ( dx - dx 0 , dy - dy 0 ) < D cl ( dx 0 , dy 0 ) - - - ( 20 )
其中R(λ)是对应于参数λ的比特速率范围。
要注意,在使用递归运动细化方法时,要切换待编码的运动信息和残差图像。
在低于
Figure C20058002585400181
的分辨率下,只用参数λhigh(l)执行一次运动补偿。在分辨率
Figure C20058002585400182
下,还用参数λhigh(l)执行另一运动补偿以改进残差图像。在高于的分辨率下,用λopt(l)执行一次运动补偿,用λhigh(l)执行另一运动补偿,用以为对应的比特速率范围产生最佳运动信息和最佳残差图像。在每次细化时,在对应的比特速率范围为剩余的编码过程产生对应的残差图像和运动信息。
运动信息和残差数据的空间可扩展性
时间滤波从最重要(最佳)的分辨率开始并在最重要(最佳)的分辨率下优化。可以为高于最重要分辨率的分辨率执行独立和细化的运动估计和补偿。截取最重要分辨率的运动信息,以产生低于该最重要分辨率的分辨率的运动信息。将产生的对应于该分辨率和高分辨率的残差图像合并为一幅残差图像。为简便起见,假定总共有3个分辨率而且
Figure C20058002585400184
通过以下过程实现运动信息和纹理的空间可扩展性:(i)中等分辨率下的运动信息和残差图像;(ii)高分辨率下的运动信息和残差图像;(iii)在低于最佳分辨率的分辨率下的运动信息截取。下面详细描述每个过程。
中等分辨率下的运动信息和残差图像
假定中等和最高分辨率下的参考帧是
Figure C20058002585400185
和B(x,y)。
Figure C20058002585400186
可以是SD(B(x,y)),其中参数SD()表示下采样操作,如W.Han在“Response of Callfor Proposal for Scalable Video Coding”,ISO/IEC JTC1/SC29 WG 11MPEG2004/M10569/S7,Müenchen,Germany,March 2004中描述的。和B(x,y)也可以是独立的。使用、SD(B(x,y))之间的运动估计和补偿和以下失真准则来产生运动信息和残差图像:
D S D p ( dx , dy ) = &Sigma; x , y | S D ( A ) ( x , y ) - B ~ ( x - dx , ydy ) | - - - ( 21 )
高分辨率下的运动信息和残差图像
为了实现最高分辨率下的快速和高效估计和编码,利用已经在中等分辨率下编码的MV和块划分模式。所有MV优选首先放大两倍,然后作为预测MV的候选,从前一层获得的块划分模式可以认为是在最高分辨率下划分共同定位块的初始状态。
使用B(x,y)、A(x,y)之间的运动估计和补偿和以下失真准则来产生运动信息和残差图像:
D S D S U p ( dx , dy ) = &Sigma; x , y | A ( x , y ) - S U ( S D ( A ) ) ( x , y ) - ( B ( x - dx , y - dy ) - S U ( B ~ ) ( x - dx , y - dy ) ) |
                                          (22)
其中Su表示上采样操作,如W.Han在上述参考文献中描述的。
在图3中的编码残差图像IQ(Q(E31))通过以下由W.Han在上述参考文献中描述的等式来计算:
IQ ( Q ( E 31 ) ) = S U ( IQ ( Q ( E 21 ) ) + B ~ - S D ( B ) ) + IQ ( Q ( E 31 - S U ( S D ( E 31 ) ) ) ) - - - ( 23 )
对应的残差图像和运动信息是为对应分辨率下的其余编码过程产生的。
低分辨率下的运动信息截取
在最低分辨率下,缩小对应于
Figure C20058002585400193
的比特速率范围的所有MV并从中等分辨率下的MV中截取出来。在下降一个分辨率之后所有MV首先缩小一半。分辨率下的最终块划分模式用作低于
Figure C20058002585400195
的下一分辨率中的初始全运动矢量树。使用
Figure C20058002585400196
执行树修剪过程,以产生最终块划分模式。同样,可以获得在其它低分辨率下的运动信息和最终块划分模式。
矢量(dx,dy)和(dx0,dy0)是两个运动矢量,其中(2dx0,2dy0)是通过使用图3的基本ME/MC获得的,(dx,dy)是(dx0,dy0)的截取矢量。另一个截取失真准则定义如下:
D rt ( dx , dy , dx 0 , dy 0 ) = &Sigma; x , y | S D ( B ~ ( x - 2 dx , y - 2 dy ) ) - S D ( B ~ ( x - 2 dx 0 , y - 2 dy 0 ) ) | - - - ( 24 )
如果满足以下不等式,则将运动矢量(dx0,dy0)截取为(dx,dy):
&lambda; ^ opt ( l ) R mv ( dx , xy ) + D rt ( dx , dy , dx 0 , dy 0 ) < &lambda; ^ opt ( l ) R mv ( dx 0 , dy 0 ) - - - ( 25 )
同样,为了保证最佳比特速率范围的编码效率,(dx,dy)优选满足以下不等式:
&lambda; ^ opt ( l ) &Sigma; dx , dy R mv ( dx 0 - dx , dy 0 - dy ) &le; &theta; 2 - - - ( 26 )
其中θ2是由用户选择的另一个比特数阈值。
在本发明的另一实施例中,使用一个比特向用户提供判断是否切换为现有视频编码标准的灵活性。例如,如果将该比特设置为1,则切换为现有视频编码标准,整个比特流或者由两个子比特流组成,一个与现有视频编码标准兼容,另一个以MCTF为基础,或者由与现有视频编码标准兼容的一个比特流组成。否则,整个比特流全部以MCTF为基础。
本领域的技术人员很容易理解,所描述的过程可以适当地用硬件、软件、固件或这些实施方式的组合来实施。此外,一些或所有上述过程可以实施为驻留在计算机可读介质(可移动盘、易失性或非易失性存储器、嵌入式处理器等)上的计算机可读指令代码,该指令代码可以对其它可编程设备的计算机编程以执行想要的功能。
实例
下面描述上述过程对低延迟情况的一般应用。开始时,通过运动补偿预测和MCTF的无缝集成来最佳地产生低延迟情况的比特流。接着在一个实施例中通过使用具有最佳参数
Figure C20058002585400202
的MCTF来产生低延迟情况的期望视频序列。
例如,输入帧速率是30HZ,帧大小是4CIF。用户希望为低延迟来优化针对频率为7.5HZ的QCIF大小视频序列的操作。在这种实例中,编码器为低延迟的编码来产生期望的画面:对4个连续的原始画面执行两轮时间小波变换,以产生具有4CIF大小和7.5HZ的视频序列。接着执行两轮二维空间小波变换,以产生期望的视频序列。随后使用例如H.264编码器对视频序列进行编码。
接着产生增强层比特流。此后,对在每个GOF中具有4CIF大小和预定参数的原始图像执行所有必需的MCTF,以产生低的和高子带。使用在H.264编码过程中重建的画面来执行更多轮的MCTF,以产生对应的低和高子带。它们之间的冗余将通过使用上述过程来消除。接着通过使用针对MCTF的现有方法对其余的信息进行编码。
设计运动补偿方案的示例性实施例如下所示。开始时,为低延迟比特流将GOF的大小选择为32,原始帧用Fi表示(1≤i≤32)。针对低延迟的期望时间可扩展性分别是30Hz、15Hz和7.5Hz。所容许的延迟是2/15s。假定运动补偿之后产生的帧用Pi表示(1≤i≤32)。运动补偿方案通过
Figure C20058002585400211
来表示,其中Aij∈R4×4
要注意,还不存在与MCTF关联的漂移问题,而延迟可以如W.Han的上述参考文献所述通过无约束的MCTF来控制。因此希望在提供低延迟比特流时尽可能地使用MCTF并将MCTF与无约束的MCTF无缝集成。可以使用下面的方法来达到这一目的:
1.由MCTF确定所有Aij(1≤i≤8);
2.由MCTF和无约束的MCTF/或基于闭环的运动补偿来确定其它所有Aij
假定
Figure C20058002585400212
完美重建的充要条件是所有矩阵Aij(1≤i≤8)是非奇异的。由
F=A-1P                 (29)
来重建视频序列。有趣的情况是所有Aij(2≤i≤8)都相同。图4示出一个实例。
在MCTF中选择5/3变换。所有Aij等于0,除了下面给定的矩阵:
A 11 = 1 - 1 0 0 0 - 1 2 0 - 1 2 1 4 7 8 - 1 4 - 1 8 1 8 3 16 3 8 5 16
A i 1 = 1 - 0 0 0 - 1 - 1 2 1 4 1 - 1 4 - 1 8 1 8 1 4 3 8 5 16 ; 2 &le; i &le; 8
A i ( i - 1 ) = 0 0 0 - 1 2 0 0 0 0 0 0 0 - 1 8 - 1 8 - 3 16 - 3 8 - 3 8 ; i = 2,3,4,6,7,8
A 54 = 0 0 0 - 1 2 0 0 0 0 0 0 0 - 1 8 0 0 0 - 1 16
A 53 = 0 0 0 0 0 0 0 0 0 0 0 0 - 1 8 - 1 4 - 3 8 - 5 16
可以看到存在与无约束的MCTF关联的漂移问题,这可以通过控制漂移长度来改善。在上述实例中,长度设置为4。
在第二个实例中,实验是基于MC-EZBC帧间小波编码器的,该编码器可在ftp://ftp.cipr.rpi.edu/personal/chen/的MCEZBC软件包中得到。在将本发明的方案与Choi和Woods的上述参考文献中公开的方案进行比较的测试中,使用4个标准视频序列,即具有SIF大小(352×240)的花园和足球、具有CIF大小(352×288)的汽车和领班(Foreman)。这些序列的帧速率设置为30f/s。比特速率是1024kb/s。用设置为1个像素的、分层运动估计中最低分辨率的最大搜索宽度/高度,使用在Choi和Woods的上述参考文献中描述的分层可变大小块匹配(HVSBM)算法。在我们的实验中,还使用了具有重叠的1/8块的重叠块运动补偿(OBMC)方案,以给予运动信息字段中更好的平滑性。运动信息的精度是半个像素。用于修剪过程的λopt(l)选择为224。假定根据顾客组成在低比特速率来选择最佳点。
实验结果在表2-5中示出,其中连字符“-”表示不足以表示运动信息的比特速率。可以看出我们的方案可用于将PSNR最大改善4.5dB。
  比特速率(kb/s)   [2]的Y(PSNR)   [4]的Y(PSNRR)   本发明的Y(PSNR)
  320   24.69   24.69   25.31
  280   23.72   23.72   24.83
  256   23.19   23.19   24.54
  190   -   18.84   23.76
  170   -   18.82   23.49
表2
利用不同方案的足球序列的平均PSNR的比较,GOF大小=16
  比特速率(kb/s)   [2]的Y(PSNR)   [4]的Y(PSNR)   本发明的Y(PSNR)
  256   22.36   22.36   23.05
  192   20.50   20.50   22.12
  160   18.46   18.46   21.53
  140   -   18.07   21.01
  128   -   17.86   20.87
表3
利用不同方案的花园的平均PSNR的比较,GOF大小=16
  比特速率(kb/s)   [2]的Y(PSNR)   [4]的Y(PSNR)   本发明的Y(PSNR)
  96   18.01   19.53   20.43
  80   16.03   19.04   19.84
  70   -   18.62   19.46
  64   -   18.40   19.18
表4
利用不同方案的领班的平均PSNR的比较,GOF大小=16
  比特速率(kb/s)   [2]的Y(PSNR)   [4]的Y(PSNR)   本发明的Y(PSNR)
  96   18.01   19.53   20.43
  80   16.03   19.04   19.84
  70   -   18.62   19.46
  64   -   18.40   19.18
表5
利用不同方案的汽车的平均PSNR的比较,GOF大小=16
合并的参考文献:
通过引用合并下面的文献:
[1]J.Ohm的“Three Dimensional Sub-band Coding with MotionCompensation”,IEEE Trans.on Image Processing,Vol.3,No.9,pp559-571,Sept 1994。
[2]S.Choi和J.Woods,“Motion Compensated 3-D Sub-bandCoding of Video”,IEEE Trans.on Image Processing,Vol.8,No.2,pp.155-167,Feb.1999。
[3]MCEZBC软件包,ftp://ftp.cipr.rpi.edu/personal/chen/
[4]H.Hang,S.Tsai和T.Chiang的“Motion Information Scalabilityfor MCEZBC:Response to Call for Evidence of Scalable Video Coding”,ISO/IEC JTC1/Sc29/WG11,MPEG2003/m9756,July 2003,Tronheim。
[5]W.Han的“Response of Call for Proposal for Scalable VideoCoding”,ISO/IEC JTC1/SC29WG 11MPEG2004/M10569/S7,Müenchen,Germany,March 2004。
尽管已示出和描述了本发明的优选实施例,但这只是示例性的,可对在此所描述的各种装置和过程中进行各种修改、变更和等同替换。因此本发明的范围由所附权利要求的范围来限定。

Claims (22)

1.一种可扩展视频编码器,其包括:
栅格运动估计和补偿模块,其具有用于接收源视频数据的第一输入、用于接收期望比特速率和分辨率参数的第二输入、及输出,所述栅格运动估计和补偿模块可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量;
运动补偿时间滤波模块,其具有用于接收所述源视频数据的第一输入、用于接收所述可扩展运动矢量的第二输入、及输出,所述运动补偿时间滤波模块可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像;
可扩展编码模块,其被耦合成接收所述可扩展运动矢量并对其进行编码;
离散变换模块,其具有配置为接收所述残差图像的输入、及输出,所述离散变换模块可操作以对所提供的视频数据进行域变换,使其成为系数序列;及
分组模块,其耦合至所述可扩展编码模块和所述离散变换模块,所述分组模块可操作以将经编码的可扩展运动矢量和所述系数序列组合为包;
其中所述栅格运动估计和补偿模块可操作以使用两个参数λopt和λhigh来产生所述可扩展运动矢量,其中λopt包括与预定最佳比特速率对应的拉格朗日乘数,而λhigh包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数;
其中所述栅格运动估计和补偿模块可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。
2.根据权利要求1所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定比特速率,所述栅格运动估计和补偿模块还可操作以截取比特速率数据,以产生比特速率低于所述预定比特速率的可扩展运动矢量。
3.根据权利要求1所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定比特速率,所述栅格运动估计和补偿模块还可操作以使用递归过程来细化比特速率数据,以产生比特速率高于所述预定比特速率的可扩展运动矢量。
4.根据权利要求1至3中任一项所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定分辨率水平,所述栅格运动估计和补偿模块还可操作以截取数据,以产生分辨率水平比所述预定分辨率水平低的可扩展运动矢量。
5.根据权利要求1至3中任一项所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿模块产生的所述可扩展运动矢量对应于预定分辨率水平,所述栅格运动估计和补偿模块还可操作以使用递归过程来细化分辨率数据,以产生分辨率水平高于所述预定分辨率水平的可扩展运动矢量。
6.根据权利要求1至3中任一项所述的可扩展视频编码器,其中所述离散变换模块包括离散小波变换模块。
7.根据权利要求1至3中任一项所述的可扩展视频编码器,其中所述离散变换模块包括离散余弦变换模块。
8.根据权利要求1至3中任一项所述的可扩展视频编码器,其中所述栅格运动估计和补偿模块可操作以借助信噪比改善的运动估计和补偿过程来执行栅格运动估计和补偿,以产生信噪比改善的残差图像和对应的运动矢量。
9.根据权利要求8所述的可扩展视频编码器,其中所述栅格运动估计和补偿模块可在预定分辨率水平下操作,并且其中所述栅格运动估计和补偿模块针对比所述预定分辨率水平低的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。
10.根据权利要求8所述的可扩展视频编码器,其中所述栅格运动估计和补偿模块可在预定分辨率水平下操作,并且其中所述栅格运动估计和补偿模块针对处于不同于所述预定分辨率水平的第二分辨率水平的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。
11.根据权利要求8所述的可扩展视频编码器,其中所述栅格运动估计和补偿模块可操作以可变地选择运动信息的精度。
12.根据权利要求11所述的可扩展视频编码器,其中对运动信息精度的可变选择与所述期望比特速率有关。
13.根据权利要求1所述的可扩展视频编码器,其中所述可扩展视频编码器可操作以根据已经以低比特速率来编码的残差图像来预测将以高比特速率来编码的残差图像。
14.一种可扩展视频编码器,其包括:
栅格运动估计和补偿装置,其具有用于接收源视频数据、期望比特速率和分辨率参数的装置,所述栅格运动估计和补偿装置可操作以输出根据所述源视频数据、以及所提供的分辨率和比特速率参数来计算的可扩展运动矢量;
运动补偿时间滤波装置,其具有接收所述源视频数据和所述可扩展运动矢量的装置,所述运动补偿时间滤波装置可操作以产生与当前帧和先前帧的图像之间的差异对应的残差图像;
可扩展编码装置,其被耦合成接收所述可扩展运动矢量并对其进行编码;
离散变换装置,其具有配置为接收所述残差图像的输入、及输出,所述离散变换装置可操作以对所提供的视频数据进行域变换,使其成为系数序列;
分组装置,其耦合至所述可扩展编码装置和所述离散变换装置,所述分组装置可操作以将经编码的可扩展运动矢量和所述系数序列组合为包;
其中所述栅格运动估计和补偿装置可操作以使用两个参数λopt和λhigh来产生所述可扩展运动矢量,其中λopt包括与预定最佳比特速率对应的拉格朗日乘数,而λhigh包括与高于所述预定最佳比特速率的比特速率对应的拉格朗日乘数;及
其中所述栅格运动估计和补偿装置可操作以在每个分辨率下为每个运动补偿对产生两组运动信息和两个残差图像。
15.根据权利要求14所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定比特速率,所述栅格运动估计和补偿装置还可操作以截取比特速率数据,以产生比特速率低于所述预定比特速率的可扩展运动矢量。
16.根据权利要求14所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定比特速率,所述栅格运动估计和补偿装置还可操作以使用递归过程来细化比特速率数据,以产生比特速率高于所述预定比特速率的可扩展运动矢量。
17.根据权利要求14至16中任一项所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定分辨率水平,所述栅格运动估计和补偿装置还可操作以截取数据,以产生分辨率水平比所述预定分辨率水平低的可扩展运动矢量。
18.根据权利要求14至16中任一项所述的可扩展视频编码器,其中通过所述栅格运动估计和补偿装置产生的所述可扩展运动矢量对应于预定分辨率水平,所述栅格运动估计和补偿装置还可操作以使用递归过程来细化分辨率数据,以产生分辨率水平高于所述预定分辨率水平的可扩展运动矢量。
19.根据权利要求14至16中任一项所述的可扩展视频编码器,其中所述栅格运动估计和补偿装置可操作以借助信噪比改善的运动估计和补偿过程来执行栅格运动估计和补偿,以产生信噪比改善的残差图像和对应的运动矢量。
20.根据权利要求19所述的可扩展视频编码器,其中所述栅格运动估计和补偿装置可在预定分辨率水平下操作,并且其中所述栅格运动估计和补偿装置针对比所述预定分辨率水平低的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。
21.根据权利要求19所述的可扩展视频编码器,其中所述栅格运动估计和补偿装置可在预定分辨率水平下操作,并且其中所述栅格运动估计和补偿装置针对处于不同于所述预定分辨率水平的第二分辨率水平的分辨率水平来产生所述信噪比改善的残差图像和对应的运动矢量。
22.根据权利要求14所述的可扩展视频编码器,其中所述可扩展视频编码器可操作以根据已经以低比特速率来编码的残差图像来预测将以高比特速率来编码的残差图像。
CN200580025854A 2004-06-23 2005-06-23 采用栅格运动估计和补偿的可扩展视频编码 Expired - Fee Related CN100588257C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US58244404P 2004-06-23 2004-06-23
US60/582,444 2004-06-23

Publications (2)

Publication Number Publication Date
CN101049026A CN101049026A (zh) 2007-10-03
CN100588257C true CN100588257C (zh) 2010-02-03

Family

ID=35782085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580025854A Expired - Fee Related CN100588257C (zh) 2004-06-23 2005-06-23 采用栅格运动估计和补偿的可扩展视频编码

Country Status (6)

Country Link
US (1) US8249159B2 (zh)
EP (1) EP1774793A4 (zh)
JP (1) JP4891234B2 (zh)
KR (1) KR20070039552A (zh)
CN (1) CN100588257C (zh)
WO (1) WO2006001777A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8442108B2 (en) * 2004-07-12 2013-05-14 Microsoft Corporation Adaptive updates in motion-compensated temporal filtering
US8340177B2 (en) * 2004-07-12 2012-12-25 Microsoft Corporation Embedded base layer codec for 3D sub-band coding
US8374238B2 (en) * 2004-07-13 2013-02-12 Microsoft Corporation Spatial scalability in 3D sub-band decoding of SDMCTF-encoded video
KR100878809B1 (ko) 2004-09-23 2009-01-14 엘지전자 주식회사 비디오 신호의 디코딩 방법 및 이의 장치
US7956930B2 (en) 2006-01-06 2011-06-07 Microsoft Corporation Resampling and picture resizing operations for multi-resolution video coding and decoding
US8711925B2 (en) 2006-05-05 2014-04-29 Microsoft Corporation Flexible quantization
US8238424B2 (en) * 2007-02-09 2012-08-07 Microsoft Corporation Complexity-based adaptive preprocessing for multiple-pass video compression
US8165209B2 (en) * 2007-09-24 2012-04-24 General Instrument Corporation Method and apparatus for providing a fast motion estimation process
US8750390B2 (en) * 2008-01-10 2014-06-10 Microsoft Corporation Filtering and dithering as pre-processing before encoding
US8160132B2 (en) 2008-02-15 2012-04-17 Microsoft Corporation Reducing key picture popping effects in video
US8953673B2 (en) * 2008-02-29 2015-02-10 Microsoft Corporation Scalable video coding and decoding with sample bit depth and chroma high-pass residual layers
US8711948B2 (en) 2008-03-21 2014-04-29 Microsoft Corporation Motion-compensated prediction of inter-layer residuals
US8897359B2 (en) 2008-06-03 2014-11-25 Microsoft Corporation Adaptive quantization for enhancement layer video coding
WO2012122423A1 (en) 2011-03-10 2012-09-13 Dolby Laboratories Licensing Corporation Pre-processing for bitdepth and color format scalable video coding
US9571856B2 (en) 2008-08-25 2017-02-14 Microsoft Technology Licensing, Llc Conversion operations in scalable video encoding and decoding
US8213503B2 (en) 2008-09-05 2012-07-03 Microsoft Corporation Skip modes for inter-layer residual video coding and decoding
KR101379190B1 (ko) * 2009-10-28 2014-03-31 에스케이 텔레콤주식회사 적응적인 해상도 기반의 영상 부호화/복호화 방법 및 장치
KR101040087B1 (ko) * 2010-01-13 2011-06-09 전자부품연구원 H.264 svc를 위한 효율적인 부호화 방법
US8908774B2 (en) * 2010-02-11 2014-12-09 Mediatek Inc. Method and video receiving system for adaptively decoding embedded video bitstream
TWI399083B (zh) * 2010-07-28 2013-06-11 Compal Communication Inc 具遙控功能之無線通訊系統及其無線通訊模組
JP2012142864A (ja) * 2011-01-05 2012-07-26 Sony Corp 画像処理装置及び画像処理方法
EP2684365A1 (en) * 2011-03-10 2014-01-15 Dolby Laboratories Licensing Corporation Bitdepth and color scalable video coding
TWI482502B (zh) * 2011-04-19 2015-04-21 Etron Technology Inc 影像互動裝置、互動式影像操作系統、及相關互動式影像操作方法
TWI482494B (zh) * 2012-07-09 2015-04-21 Wistron Corp 頻道資訊提示方法及系統以及電腦可讀取儲存媒體
US9332276B1 (en) 2012-08-09 2016-05-03 Google Inc. Variable-sized super block based direct prediction mode
WO2014043076A1 (en) * 2012-09-11 2014-03-20 Raytheon Company Multi-source sensor stream virtualization
US10142647B2 (en) 2014-11-13 2018-11-27 Google Llc Alternating block constrained decision mode coding
CN114615493A (zh) * 2016-03-24 2022-06-10 英迪股份有限公司 视频解码方法、视频编码方法和可读记录介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9519923D0 (en) * 1995-09-29 1995-11-29 Philips Electronics Nv Motion estimation for predictive image coding
US6018368A (en) * 1997-07-11 2000-01-25 Samsung Electro-Mechanics Co., Ltd. Scalable encoding apparatus and method with improved function of scaling motion vector
KR20010105361A (ko) * 1999-12-28 2001-11-28 요트.게.아. 롤페즈 Snr 스케일가능 비디오 엔코딩 방법 및 대응 디코딩 방법
DE10022520A1 (de) 2000-05-10 2001-11-15 Bosch Gmbh Robert Verfahren zur örtlichen skalierbaren Bewegtbildcodierung
WO2002001881A2 (en) * 2000-06-30 2002-01-03 Koninklijke Philips Electronics N.V. Encoding method for the compression of a video sequence
US7912124B2 (en) * 2001-06-11 2011-03-22 Thomson Licensing Motion compensation for fine-grain scalable video
CN1253008C (zh) * 2001-10-26 2006-04-19 皇家飞利浦电子股份有限公司 空间可分级压缩的方法和设备
US7321625B2 (en) * 2002-12-13 2008-01-22 Ntt Docomo, Inc. Wavelet based multiresolution video representation with spatially scalable motion vectors
US6957911B2 (en) * 2003-06-24 2005-10-25 Cosco Management, Inc. Infant thermometer
US7369610B2 (en) * 2003-12-01 2008-05-06 Microsoft Corporation Enhancement layer switching for scalable video coding
US20050201468A1 (en) * 2004-03-11 2005-09-15 National Chiao Tung University Method and apparatus for interframe wavelet video coding

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
A Fully Scalable 3D Subband Video Codec. BOTTREAU,V.,et,al.2001 IEEE. 2001 *

Also Published As

Publication number Publication date
EP1774793A1 (en) 2007-04-18
JP2008503981A (ja) 2008-02-07
JP4891234B2 (ja) 2012-03-07
US20080013630A1 (en) 2008-01-17
KR20070039552A (ko) 2007-04-12
WO2006001777A1 (en) 2006-01-05
EP1774793A4 (en) 2010-08-25
CN101049026A (zh) 2007-10-03
US8249159B2 (en) 2012-08-21

Similar Documents

Publication Publication Date Title
CN100588257C (zh) 采用栅格运动估计和补偿的可扩展视频编码
CN1735208B (zh) 在运动补偿的时间滤波中的自适应更新
CN101185334B (zh) 利用加权预测编码/解码多层视频的方法和装置
KR100781525B1 (ko) 가중 평균합을 이용하여 fgs 계층을 인코딩 및디코딩하는 방법 및 장치
KR100654436B1 (ko) 비디오 코딩 방법과 디코딩 방법, 및 비디오 인코더와디코더
CN101208958B (zh) 使用基于多层的加权预测的视频编码方法和装置
US7027512B2 (en) Spatio-temporal hybrid scalable video coding apparatus using subband decomposition and method
CN1738435B (zh) 空间域运动补偿时间滤波编码的视频的3d子带解码中的空间可伸缩性
US8873623B2 (en) Apparatus and method for generating a coded video sequence and for decoding a coded video sequence by using an intermediate layer residual value prediction
CN1640145B (zh) 视频编码方法和装置,数据流解码方法和装置
EP1606950B1 (en) Scalable encoding and decoding of interlaced digital video data
US20070047644A1 (en) Method for enhancing performance of residual prediction and video encoder and decoder using the same
CN100387063C (zh) 可伸缩视频编码中的三维码率控制方法
US20060120450A1 (en) Method and apparatus for multi-layered video encoding and decoding
US20060088102A1 (en) Method and apparatus for effectively encoding multi-layered motion vectors
US8175153B2 (en) Method of encoding and decoding an image sequence by means of hierarchical temporal analysis
WO2006006777A1 (en) Method and apparatus for predecoding and decoding bitstream including base layer
CN101601296A (zh) 使用套叠式模式标记的用于可分级视频编码的***和方法
US20070171971A1 (en) Method for coding and decoding an image sequence encoded with spatial and temporal scalability
CN1319382C (zh) 可伸缩视频编解码器体系结构设计方法
JP2006500849A (ja) スケーラブルなビデオエンコード
EP1817911A1 (en) Method and apparatus for multi-layered video encoding and decoding
CN100466735C (zh) 视频编码和解码方法以及视频编码器和解码器
WO2007024106A1 (en) Method for enhancing performance of residual prediction and video encoder and decoder using the same
JP2006180173A (ja) 動画像符号化装置、動画像符号化方法、動画像復号化装置及び動画像復号化方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100203

Termination date: 20150623

EXPY Termination of patent right or utility model