背景技术
视频编码标准H.264/AVC根据率失真优化(RDO)提供不同视频编码模式及它们之间的动态选择。该标准为可分级视频编码(SVC)的扩展提供不同层并支持增强层(EL)的直接编码或层间预测的空间可分级性。在直接编码EL中,称为I_N×N的模式,不使用层间冗余:EL被纯帧内编码。
层间预测被用于两种编码模式中,即I_BL和残差预测,如果基本层(BL)被帧内编码则为I_BL,如果BL被帧间编码从而生成BL残差和EL残差则为残差预测。借助残差预测,EL残差是由BL残差预测得来的。
对于帧内编码的EL宏块(MB),SVC支持两种类型的编码模式,即原始的H.264/AVC I_N×N编码(空间预测,base_mode_flag=0)和I_BL,用于可分级性的特殊SVC编码模式,其中EL MB是由配置的(collocated)BL MB预测得来的。
对于帧间编码,第一步是生成BL和EL差分图像(differentialimage),称为残差。为对BL残差和EL残差之间的差进行编码而执行残差层间预测。
近年来,在诸如科学成像、数字影院、可放映高质量视频的计算机游戏以及专业工作室和家庭影院的相关应用的许多领域,越来越需要较高的位色彩深度,而非传统的8位色彩深度。因此,现有技术的视频编码标准——H.264/AVC——已经包括保真度范围扩展(Fidelity Range Extensions,FRExt),其支持可达14位的样本和可达4:4:4的色度采样。
对于具有两个不同解码器的情景,或对位深度具有不同要求的客户,例如对同一原始视频(raw video)要求8位和12位位深度,现有的H.264/AVC解决方案将对12位的原始视频进行编码以产生第一比特流,然后将12位的原始视频转换为8位的原始视频并对8位的副本(counterpart)进行编码以产生第二比特流。如果我们想将视频传送到要求不同位深度的不同客户,我们必须将其传送两次,例如将2个比特流一起放入一张磁盘。压缩率和运算复杂度两者的效率都很低。
欧洲专利申请EP06291041公开了一种可分级解决方案,该方案一次对整个12位原始视频进行编码从而生成一个比特流,该比特流包含H.264/AVC兼容的BL和可分级EL。由于冗余减小,与附加的第二比特流相比上述第一比特流上的全部可分级比特流的开销小。如果H.264/AVC解码器在接收端可用,则仅对BL子比特流(sub-bitstream)解码,且经解码的8位视频可在传统的8位显示装置上观看;如果位深度可分级解码器在接收端可用,则BL子比特流和EL子比特流都可以被解码,从而获得12位视频,且其可在支持8位以上的色彩深度的高质量显示装置上观看。
发明内容
考虑到特殊编码模式的效率取决于图像内容,上述冗余减小的几率不是非常灵活。不同编码模式可为不同序列优化。如果可减少更多冗余,且最终比特流更小,则编码模式效率更高。本发明为位深度可分级性情况下的该问题提供解决方案。
权利要求1公开了一种对可分级视频数据进行编码方法,该方法允许改进的冗余减小和动态自适应选择最有效编码模式。权利要求5公开了相应的解码方法。
权利要求8中公开了用于编码的相应设备,权利要求9中公开了用于解码的相应设备。
用于CBDS的EL的三种新SVC兼容编码模式被公开:一种用于帧内编码,两种用于帧间编码。已经发现直接对层间残差进行编码对位深度可分级编码更有效。新帧内编码模式使用增采样的重构的BL和原始EL间的残差(ELorg-BLrec,up)编码,其中使用模式选择。大体上,层间残差被作为N位视频取代原始N位EL视频。两种可能的模式是:
1.由BL预测的残差被变换、量化、和熵编码,以及
2.该残差被附加地帧内编码(I_N×N)。
传统上,帧内MB的最佳模式是用RDO在原始EL N位视频的I_BL模式和I_N×N模式间选择的。借助本发明新帧内模式,帧内MB最佳模式是在N位层间残差的I_BL模式和I_N×N模式间选择的。
新帧间编码模式使用来自增采样重构的BL的EL预测(类似于新帧内模式),而非BL残差。两种可能的帧间编码模式(通过标记切换)是:
1.使用基于残差(ELorg-BLrec,up)的运动估计对该残差进行编码的;以及
2.使用BL的运动信息对残差(ELorg-BLrec,up)进行编码,因而省略EL上的运动估计。
根据本发明,使用位深度增采样对重构的BL信息单元(而非原始BL信息单元或BL残差)进行增采样,且增采样的重构的BL信息单元被用来预测配置的BL信息单元。这具有这样的优点,即编码器中的预测是基于在解码器可用的相同数据。因此,在编码器中生成的差分信息(differential information)或残差与解码器中位深度增采样解码的BL图像和原始EL图像之间的差匹配的更好,因此,在解码器重构的EL图像与原始EL图像更接近。
信息单元可具有任意粒度,如单像素单元,像素块,MB或其组。位深度增采样是增加每个像素可具有的值的数目的过程。该值通常相应于像素的色彩强度。因此,微调的色彩复制几率得以增强,且原始场景(scene)的渐变色差(gradual color difference)可更好地编码和解码以便被复制。有利地,与当前的编码方法相比,视频数据率可以减小。
编码器由原始EL视频数据和位深度增采样重构的BL数据生成残差,该残差被熵编码并被传输。重构的BL信息在编码器侧被与解码器侧相同的方式增采样,其中,增采样至少涉及位深度。
进一步,可对帧内编码图像、帧间编码图像或MB执行增采样。然而,对帧内和帧间编码的图像可用不同模式。与帧内编码图像或I帧不同,帧间编码图像,也称为P帧或B帧,需要它们重构其他图像,即,具有其他图像序列号(POC)的图像。
根据本发明一个方面,编码器可以在EL的至少两个不同的帧内编码模式间选择:第一帧内编码模式包括生成增采样重构的BL和原始EL间的残差,第二帧内编码模式又包括该残差的帧内编码。大体上,层间残差被当作EL分支(EL branch)中较高位深度视频,取代传统的较高位深度视频。然后该残差或其帧内编码形式被变换、量化和熵编码。传统上,帧内MB的最佳模式是用RDO在原始EL视频的I_BL模式和I_N×N模式间选择的。借助本公开的新帧内模式,最佳帧内MB模式是用RDO在高位深度层间残差的I_BL模式和I_N×N模式间选择的。
根据本发明另一个方面,编码器可采用帧间编码模式,其包括生成位深度增采样重构的BL和原始EL之间的残差。此外,编码器可在从BL增采样的运动矢量和基于增采样重构的BL和原始EL之间的残差生成的运动矢量间选择EL。可基于经编码的EL数据的RDO选择。
根据本发明的一个方面,对具有BL和EL的视频数据进行编码的方法,其中BL的像素具有比增强层像素少的位深度,该方法包括以下步骤:
对BL数据进行变换和量化;
对经变换和量化的基本层数据进行逆变换和逆量化,其中,获得重构的基本层数据;
对重构的基本层数据进行增采样,其中,增采样至少涉及位深度,其中,获得EL数据的预测形式;
生成原始EL数据和EL数据的预测形式之间的残差;
在至少两个不同的帧间编码模式之间选择帧间编码的EL的情形,其中,第一帧间编码模式包括使用增采样的BL运动信息,第二帧间编码模式包括使用由EL数据生成的运动信息;
对所述经变换和量化的BL数据进行编码;以及
用所选EL编码模式对EL残差进行编码,并对指示编码模式的指令进行编码。
根据本发明一个方面,该编码方法进一步包括以下步骤:在至少两种不同的帧内编码模式之间选择帧内编码EL数据的情形,其中,至少一种而非全部帧内编码模式包括原始EL数据和EL数据的预测形式之间的残差的附加帧内编码。
有利地,两种提及的编码器实施例可组合到一个组合编码器中,该组合编码器可以使用用于检测编码视频数据被帧间编码还示被帧内编码(根据指令)的装置自适应地对帧内编码视频数据和帧间编码视频数据进行编码。
根据本发明一个方面,对具有BL和EL的可分级视频数据进行解码的方法,其中,BL的像素具有比增强层像素小的位深度,该方法包括以下步骤:
接收经量化和(例如,DCT-)变换的增强层信息和基本层信息以及解码模式指令;
对所接收的EL信息和BL信息执行逆量化和逆变换;
对经逆量化和逆变换的BL信息进行增采样,其中,每个值的位深度增加,且其中,获得预测的EL信息;以及
从预测的EL信息和经逆量化和逆变换的EL信息重构EL视频信息,其中,根据解码模式指令选择解码模式,其中,可能的解码模式包括:
第一模式,其中,在帧间编码的EL信息的情况下,使用从EL信息提取的运动信息对经逆量化和逆变换的EL信息解码;以及
第二模式,其中,在帧间编码的EL信息的情况下,使用从所述BL信息提取的运动信息对经逆量化和逆变换的EL信息解码。
根据本发明一个方面,解码方法被进一步说明,其中可能的解码模式进一步包括:
第三模式,其中,在帧内编码的EL信息的情况下,经逆量化和逆变换的EL信息生成EL残差;以及
第四模式,其中,在帧内编码的EL信息的情况下,经逆量化和逆变换的EL信息被帧内解码(使用I_N×N)以获得EL残差。
有利地,两种提及的解码器实施例可组合到一个组合解码器中,该组合解码器可自适应地对帧内编码视频数据和帧间编码视频数据进行解码。
根据本发明的另一个方面,经编码的可分级视频信号包括经编码的BL数据、经编码的EL数据和预测型指令,其中,经编码的EL数据包括为位深度增采样的BL图像和EL图像之间差的残差,残差包括差分位深度信息(differential bit depth information),其中,预测型指令指示是否解码器必须对EL数据执行空间帧内解码(I_N×N)以再获得涉及位深度增采样的BL图像的残差。
根据本发明另一个方面,用于对具有基本层和增强层视频数据进行编码的设备,其中,基本层具有比增强层低的色彩分辨率和空间分辨率,该设备包括:用于对基本层数据进行变换的装置和进行量化的装置;
用于对经变换和量化的基本层数据进行逆变换的装置和进行逆量化的装置,其中,获得重构的基本层数据;
用于对重构的基本层数据进行增采样的装置,其中,增采样至少涉及位深度,且其中,获得增强层信息的预测形式;
用于生成原始增强层数据和增强层数据的预测形式之间的残差的装置;
用于对帧间编码的增强层的情况在至少两个不同的帧间编码模式之间进行选择的装置,其中,第一帧间编码模式包括使用增采样的基本层运动信息,第二帧间编码模式包括使用由所述增强层数据生成的运动信息;
用于对经变换和量化的基本层数据进行编码的装置;以及用于使用所选的增强层编码模式对增强层残差进行编码的装置。
根据本发明另一个方面,用于对具有BL和EL的视频数据进行解码的设备,其中BL具有比EL低的色彩分辨率和空间分辨率,所述设备包括:用于对BL数据进行变换的装置和用于对BL数据进行量化的装置;用于对经变换和量化的基本层数据进行逆变换的装置和进行逆量化的装置,其中,获得重构的基本层数据;用于对重构的BL数据进行增采样的装置,其中,增采样至少涉及位深度,且其中,获得EL信息的预测形式;用于生成原始EL数据和EL数据的预测形式之间的残差的装置;用于对帧间编码的EL的情况在至少两个不同的帧间编码模式之间进行选择的装置,其中,第一帧间编码模式包括使用增采样的BL运动信息,第二帧间编码模式包括使用由所述EL数据生成的运动信息;用于对经变换和量化的BL数据进行编码的装置;以及用于使用所选的EL编码模式对EL残差进行编码的装置。
本发明提供的不同实施例的编码解决方案可兼容H.264/AVC和目前在H.264/AVC可分级扩展(SVC)中定义的所有类型的可分级性。
本发明有利的实施例在所附的权利要求、下面的说明书和附图中公开。
具体实施方式
如图1所示,两个视频用作视频编码器的输入:N位原始视频和M位(M<N,通常M=8)视频。M位视频可由N位原始视频分解获得或由其他方式提供。通过利用BL图像,可分级解决方案可减少两层之间的冗余。一个具有8位色彩,另一个具有N位色彩(N>8)的两个视频流输入到编码器,且输出是可分级的比特流。仅输入一个N位色彩数据流也是可能的,从该N位色彩数据流为BL内部生成M位(M<N)色彩数据流。用所包括的H.264/AVC编码器将M位视频编码为BL。BL的信息可用来改善EL的编码效率。这就是本文中所谓的层间预测。每个画面——一组MB——具有两个接入单元(access unit),一个用于BL,另一个用于EL。经编码的比特流是多路的,以形成可分级的比特流。BL编码器包括例如H.264/AVC编码器,重构用于预测N位色彩视频,该N位色彩视频将用于EL编码。
如图1所示,可分级比特流示例性包含AVC兼容的BL比特流,其可由BL解码器(传统AVC解码器)解码。然后将在解码器侧执行与在编码器中同样的预测(在评估各指令后),从而得到预测的N位视频。借助N位预测的视频,EL解码器将使用该N位预测为高质量显示HQ生成最终的N位视频。
下面,当使用术语色彩位深度时,其意味着位深度,即每个值的比特数。这通常相应于色彩强度(color intensity)。
在一个实施例中,本发明基于SVC空间、时间和质量可分级性的当前结构,并被用于增强的色彩位深度的位深度可分级性增强。因此,该实施例完全兼容当前的SVC标准。然而,本领域技术人员易于使其适应其他标准。
在本发明一个实施例中,可使用三种新型编码模式,其都基于位深度可分级性的位深度预测。这些新型编码模式被设计来解决如何更有效、更灵活地编码层间残差的问题。当前的SVC标准仅支持在I_BL模式中对层间残差编码,而不选择任何预测模式。对于帧间编码,当前的SVC标准不支持直接对层间残差进行编码。而是,残差层间预测是为对BL残差和EL残差之间的差进行编码而执行的。换句话说,层间预测模块的输入是帧间编码中BL的残差,而非本文中所用的重构的BL。公开的三种新型编码模式中,一种指帧内编码,其他两种指用于基于H.264/AVC编码层间残差的帧间编码。
帧内编码模式
当前的SVC标准支持两类增强层帧内MB的编码模式,一种是原始H.264/AVC I_N×N编码模式,另一种是SVC特殊编码模式I_BL。在当前的SVC中,I_N×N模式对原始EL N比特视频编码,而I_BL模式直接对层间残差编码,而不选择预测模式。本发明通过将层间残差当作N位视频,并以层间残差取代原始N位视频,为编码帧内MB增加了新模式。借助本发明的新帧内模式,在N位层间残差的编码形式I_N×N和I_BL模式之间选择帧内MB最佳模式。具有帧内编码模式的色彩位深度可分级编解码器的帧内编码框架在图2中示出。
根据模式选择开关MSS,EL残差在变换T、量化Q和熵编码ECEL前经I_N×N编码或不经I_N×N编码。编码器具有基于RDO判定编码模式的装置,该装置提供控制信号EL_intra_flag,该信号还被输出用于相应地控制解码器。为此,该判定装置实际上可以执行编码,或者仅按照定义的参数对输入图像数据进行分析,例如色彩或纹理平滑度。
相应的解码器在图5中示出。其在输入数据中检测指令EL_intra_flag,并响应于该指令在其EL分支中设定相应的解码模式MCC’。对于指令EL_intra_flag的一个值,经逆量化和逆变换的EL残差EL’res将被如同其用于解码那样使用,而对于指令EL_intra_flag的另一个值,空间预测I_N×N将在之前执行。指令可包含在,如宏块条头部信息(slice header information)中,并对整个宏块条有效。
帧间编码模式
对于帧间编码,当前的SVC标准不支持使用重构的基本层画面的层间预测,但支持基于基本层残差的层间预测,该基本层残差也就是原始BL M位视频和BL编码器生成的重构的M位副本间的差。通过对EL利用新帧间编码模式,层间预测是使用经重构和增采样的M位BL信息Prec{BLrec}执行的,如图3所示。在编码器的EL分支中,该层间残差是用至少两种编码模式中的一种编码的。
第一新EL帧间编码模式包括以通过运动估计(ME)从EL数据特别是从当前和在前的EL残差获取的运动矢量MVEL对层间残差MB进行编码,而非对EL原始N位MB进行编码。
在第二EL帧间编码模式中,EL的运动矢量是从BL分享的。ME和运动补偿(MC)计算上复杂,因此该编码方法节省EL编码器中大量处理功率。通过共享BL运动矢量,编码器的运行时间和所生成的比特率都可减少。BL运动数据被增采样MVBLUp并用于该模式中的BL MC MCPred。
标记base_mode_flag是两种新EL帧间编码模式之间的切换,该标记也与经编码的BL和EL数据一起输出,用于相应地控制解码器。
相应的解码器在图4中示出。在图4的具体实施例中,BL残差在位深度增采样BDUp前,还用残差增采样RUp空间增采样。标记base_mode_flag在输入数据流中被检测并用来控制解码模式:如果标记具有第一值,则从输入EL数据流ELMI提取的运动信息被用于EL分支。如果标记具有不同的第二值,则来自BL的经增采样的MUp运动信息被用于EL分支,该信息是从输入数据BL流中提取的并且随后被增采样。输入BL数据流的其他部分(图像数据)被逆量化和逆变换,且最终生成的残差BLres,k被用来构造BL视频(如果需要)并用于增采样(如果需要EL视频)。大体上,如果可分级解码器根据用户定义的要求生成BL视频或EL视频是充分的。
本发明为色彩位深度可分级编码提供的EL新编码模式的两个主要优点是:首先,新编码模式为编码器提供了更多模式选项,其尤其对RDO有用,因为RDO因而具有更多选项,更好的最优化是可能的。其次,借助这些新模式,层间残差被直接编码,且可实现更高的编码效率。
因此,本发明可用于可分级编码器,可分级解码器,和可分级信号,特别是用于视频信号或者具有不同质量层和高层间冗余的其他类型的信号。
可以理解本发明仅是通过例子说明的,可以在不偏离本发明范围的情况下对细节进行修改。在说明书和(适当处)权利要求及附图中公开的每个特征可以独立地或以任何合适的组合方式提供。这些特征可(适当处)以硬件、软件或这两者的组合实现。权利要求中出现的标识号仅为了说明而不能对权利要求的范围有限制性效果。