CN1593065A

CN1593065A - 其中图像被分成条带的前景和背景的视频编码与解码

Info

Publication number: CN1593065A
Application number: CN02823406.5A
Authority: CN
Inventors: M·汉努克塞拉; 王业奎
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2001-11-27
Filing date: 2002-11-22
Publication date: 2005-03-09
Anticipated expiration: 2022-11-22
Also published as: GB2382940A; US20030112867A1; EP1452037B1; EP1452037A1; BRPI0214410B1; CN1593065B; ES2347537T3; US20070183676A1; MXPA04004422A; JP4485796B2; GB0128359D0; AU2002347489A1; US7206456B2; DE60237028D1; WO2003047266A1; HUP0402623A2; BR0214410A; ATE474421T1; JP2005510982A; HU229462B1

Abstract

一种视频编码和解码方法，其中图像首先被分成子图像，这些子图像与一个或多个主观上重要的图像区域以及与从图像中移去其它子图像后剩余的背景区域子图像对应。形成子图像以便符合视频编码宏块(MB)的预定允许分组。MB的允许分组可以例如是矩形的。然后，图像被分为若干条带，使得除背景区域子图像以外的每个子图像被独立于其它子图像进行编码，而背景区域子图像可利用其它子图像来编码。背景子图像的条带按扫描顺序形成，其中省略属于另一个子图像的MB。只有对图像解码时能够重构其它所有子图像的全部位置和大小，才对背景子图像进行解码。

Description

其中图像被分成条带的前景和背景的视频编码与解码

本发明涉及视频编码和解码。本发明具体而非唯一地涉及视频编码以及在易出错数据连接上的传输。

视频传输要求将视频编码为一种允许其传输的形式。这通常涉及有效的压缩，因为大量信息包含在构成要传送的视频的图像流中。

ITU-T H.263是国际电信联盟(ITU)视频编码建议，其中指定了比特流语法以及比特流的解码。在这个标准中，利用亮度和两个色差(色度)分量(Y、CB和CR)对图像进行编码。沿两个坐标轴以与亮度分量相比一半的分辨率对各色度分量抽样。

各编码图像以及相应的编码比特流以分层结构来设置，其中四层从上到下为图像层、图像段层、宏块(MB)层以及块层。图像段层可以是一组块层或一个条带(slice)层。

图像层数据包含影响整个图像区和图像数据解码的参数。缺省情况下，各图像被分成若干块组。一个块组(GOB)通常包括一行或多行宏块(16个连续像素行)。各GOB的数据由可选的GOB标题及其后面的MB数据组成。或者对于GOB，可使用所谓的条带，从而各图像被分为若干条带而不是若干GOB。各条带的数据由条带标题及其后面的MB数据组成。

条带定义编码图像内的区域。每个区域是依照正常扫描顺序的多个MB。没有预测相关性跨过同一个编码图像中的条带边界。但是，时间预测一般能够跨过条带边界，除非使用了ITU-T H.263附录R(独立段解码)。可独立于其余的图像数据(除图像标题之外)对条带解码。因此，条带改善了分组有损网络中的差错恢复力。

各GOB或条带被分为若干MB。一个MB涉及亮度数据的16×16个像素以及空间上对应的色度数据的8×8个像素。换句话说，MB由四个8×8亮度块和两个空间对应的8×8色度块组成。

不采用由多个按照正常扫描顺序的MB形成的区域，Sen-chingCheung的“关于在H.263+中采用区域层的建议”(ITU-T SG15 WP1文件LBC-96-213，1996年7月)向ITU-T H.263提出了由N×M宏块(N、M大于或等于一)组成的、取代条带和GOB结构的矩形区域。但是，H.263没有采纳该建议。

在ITU-T H.263独立段解码模式(ITU-T H.263附录R)中，以类似于图像边界的方式处理段边界(如条带边界或为其发送GOB标题的GOB的上边界、或者图像边界所定义的，无论哪一个边界均以最小方式限定一个区域)，这消除了来自相邻条带的所有差错传播。例如，差错因运动补偿或分块环路滤波而无法从相邻条带传播。段边界只能在帧内图像中、即不要求帧间编码时才能被改变。

称作MPEG-4视频的ISO/IEC标准草案14496-2：1999(E)是一种标准草案，其设计以称作视听对象(AVO)的内容的基本单元为中心。AVO的实例是乐队中的音乐家(在运动中)、音乐家所产生的音响、所坐的椅子、乐队后面的(可能正在移动的)背景以及当前段落的说明文本。在MPEG-4视频中，各个AVO是分开表示的，并且成为独立流的基础。

自然的二维运动视频的编码是MPEG-4视频的组成部分。MPEG-4视频能够对传统的矩形视频对象以及任意形状的二维视频对象进行编码。基本视频AVO称作视频对象(VO)。VO可以是可缩放的，即它们可被分割在两个或两个以上视频对象层(VOL)中进行编码和发送。这些VOL其中之一称作基础层，所有终端必须接收它，以便显示任何种类的视频。其余VOL称作增强层，在有传输差错或传输容量受限的情况下，该层可以是可消耗的。在不可缩放的视频编码中，对每个VO的一个VOL进行编码。

在视频对象层场合的瞬像称作视频对象平面(VOP)。对于矩形视频，这对应于一个图像或帧。但是，一般来讲，VOP可具有任意形状。每个VOP可分为视频数据包。每个VOP和视频数据包还分为类似于ITU-T H.263的宏块。宏块的颜色(YUV)信息以类似于ITU-TH.263的方式编码，即宏块还被分为8×8块。另外，如果VOP具有任意形状，则宏块的形状被编码，如下一段文字中所述。

MPEG-4视频VO可以是任何形状的，此外，对象的形状、大小和位置对于不同帧可能不同。依照一般表示，视频对象由三种颜色分量(YUV)和一个α分量组成。α分量逐个图像地定义对象的形状。二进制对象构成对象的最简单类。它们由二进制α映射表、即2维图像的序列来表示，其中各像素为黑色或白色。MPEG-4视频为二进制形状仅提供了用于压缩这些对象的模式。压缩过程由用于对α映射表序列编码的二进制形状编码器唯一地定义。除了二进制对象之外，灰度级α映射表还可用来定义对象的不透明度。利用二进制α映射表将对象边界编码，同时利用DCT变换、以类似于纹理编码的方式对灰度级α信息编码。除了对象形状和不透明度定义的序列之外，该表示还包括对象形状内部所有像素的颜色。MPEG-4视频利用二进制形状编码器、然后再利用内部纹理编码所用的基于经过运动补偿的离散余弦变换(DCT)的算法，对这些对象进行编码。

另外，例如，通过上述可缩放视频编码、数据分区或基于区域的编码，把视频比特流分割为不同优先级的若干部分，大家也知道是有利的。

但是，可缩放视频编码和数据分区受到不同编码元素之间相关性的影响。例如，如果没有正确地收到基础层，则无法正确地对增强层解码。因此，如果没有接收到相应的高优先级分区，则低优先级分区没有用。这使得在某些情况下使用可缩放视频编码和数据分区是不利的。可缩放编码和数据分区未提供以不同方式处理所关注空间区域和主观上认为不太重要的区域的方法。此外，与非缩放编码相比，许多可缩放编码形式、如传统的信噪比(SNR)和空间缩放性遭受了更差的压缩效率。另一方面，在基于区域的视频编码中，GOB或条带可包含不同主观重要性的宏块。这样，GOB和条带中没有优先次序是可能的。

目前认为任意形状的对象的编码对手持装置而言太复杂。以下事实进一步证明这一点：通常从计划的第三代移动电话的移动视频通信业务中排除了MPEG-4视频形状编码工具。

本发明的一个目的是提供一种适合移动通信的备选方案，该方案仍然提供类似于MPEG-4视频所提供的优点中的至少一部分。

根据本发明的第一方面，提供一种视频编码方法，所述方法包括以下步骤：

把图像分为相对于图像区具有预定排列的一组规则形状的编码块，各个编码块对应于至少一组基本编码元素；

确定图像中的至少一个形状；

选择定义覆盖至少一个所确定形状的至少一个区域的编码块的至少一个子集；

确定所选的编码块的至少一个子集，作为至少一个独立编码对象；

确定图像中排除了至少一个独立编码对象的部分，作为背景对象；

对至少一个独立编码对象进行编码；以及

作为一个编码对象对背景对象进行编码。

本发明的一个优点是，背景编码对象可被确定为单一编码对象，它被定义为图像中不属于任何独立编码对象的部分，而且独立编码对象不需要与它们所覆盖的形状一致。

最好是采用至少一个独立编码对象对背景编码对象进行编码。

没有确定各个独立编码对象的位置、形状和大小，则无法重构背景对象。如果携带独立编码对象的任何数据包丢失，则绝不可能对背景编码对象进行解码。至少一个独立编码对象的位置和大小的确定表明存在至少一个独立编码对象的视频数据。因此，存在利用至少一个独立编码对象成功地预测背景编码对象的极大可能性，所以采用至少一个独立编码对象对背景编码对象进行编码通常是合理的。

对背景编码对象进行视频编码最好是还包括以下子步骤：按扫描顺序定义编码条带，使得条带由连续的编码块组成，而这些编码块省略了那些包含在至少一个独立编码对象中的基本编码对象。

扫描顺序最好是首先扫描一条水平线，然后沿垂直方向进行到下一条水平线。或者，扫描顺序是首先扫描一条垂直线，然后沿水平方向进行到下一条垂直线。又或者可使用其它任何扫描顺序。

对至少一个独立编码对象进行视频编码最好是还包括以下子步骤：在各个独立编码对象中按扫描顺序定义编码条带，使得条带由包含在至少一个独立编码对象中的编码块按扫描顺序组成。

本发明的一个优点是，主观上重视的对象可与背景分开进行视频编码，同时降低了计算要求，因为对形状定义的区域与编码块的预定排列一致。

编码块最好是宏块。

覆盖至少一个所确定形状的区域最好是矩形区域，从而正方形是矩形的一个子集。

独立编码对象最好是按主观重要性的降序来定义。

主观上不太重要的独立编码对象最好是完全排除定义覆盖与主观上更重要的独立编码对象对应的至少一个所确定形状的区域的编码块。这允许自动剪切由主观上不太重要的编码对象所定义的矩形区域的重叠角，以免它们与主观上更重要的区域所定义的任何区域重叠。

最好是，至少一个独立编码对象的视频编码与背景对象的视频编码无关，以便禁止差错传播到至少一个独立编码对象中。

至少一个独立编码对象的与使用无关的视频编码增强了视频编码的健壮性，但是在不发送不是基于先前图像的帧内图像时无法改变所述至少一个独立编码对象的位置。

或者，允许至少一个独立编码对象的视频编码与背景对象的视频编码以及任何其它的至少一个独立编码对象相关。

这个实施例主要使至少一个独立编码对象的子图像边界被看作是条带边界。至少一个独立编码对象的位置和大小可被改变，即使至少一个独立编码对象是帧间编码的。

最好是，允许背景对象的视频编码采用至少一个独立编码对象，以便提高视频压缩效率。

最好是，该方法还包括以下步骤：确定表征至少一个独立编码对象的位置和大小的信息，用于对该图像解码。

最好是，确定表征至少一个独立编码对象的大小的信息的步骤包括以下子步骤：根据图像宽度计算参考宽度，并采用参考宽度来表示至少一个独立编码对象的宽度。

最好是，确定表征至少一个独立编码对象的大小的信息的步骤包括以下子步骤：根据图像高度计算参考高度，并采用参考高度来表示至少一个独立编码对象的高度。

最好是，该方法还包括以下步骤：表征至少一个独立编码对象中每一个的类型，用于对该图像解码。

最好是，该方法还包括以下步骤：把不同标识符分配给至少一个独立编码对象，用于把至少一个独立编码对象中每一个与相应的特征相关。

最好是，至少一个独立编码对象的视频编码采用高于背景对象的视频编码的量化步骤密度。

最好是，该方法还包括以下步骤：对至少一个独立编码对象进行差错保护以防止数据损坏。

最好是，该方法还包括以下步骤：对背景对象进行差错保护以防止数据损坏。

最好是，对至少一个独立编码对象进行比背景对象更多的差错保护以防止数据损坏。

最好是，采用不相等的差错保护来区分包含有关至少一个独立编码对象的信息的数据包的优先次序。

最好是，确定图像中至少一种形状是基于其外观。

或者，确定图像中至少一种形状是基于选择统一运动场。

根据本发明的第二方面，提供一种对由一组编码块所编码的图像进行视频解码的方法，各编码块对应于至少一组基本编码元素，以及编码块相对于图像区具有预定排列，所述方法包括以下步骤：

确定与定义被解码图像的至少一部分的编码块的至少一个子集对应的至少一个独立编码对象；

确定与图像中排除了至少一个独立编码对象的部分对应的编码块子集，作为背景对象；

对至少一个独立编码对象进行解码；以及

对背景对象进行解码。

最好是，该方法还包括确定用于背景对象的视频解码条带，包括以下子步骤：形成连续编码块的解码条带，并忽略属于至少一个独立编码对象的编码块。

最好是，编码块的至少一个子集其中每一个定义矩形子图像，从而正方形为矩形的子集。

编码块最好是宏块。

最好是，至少一个独立编码对象的视频解码与背景对象的视频解码无关。

该方法的一个优点是，它可用于各种应用，例如用于确定主观上重要的区域的传输的优先次序。另外，它通过仅对适当大小的独立编码对象进行解码，允许“图像分辨率缩放性”，即图像可缩放到适合对于全图像具有太小分辨率的显示器。

最好是，允许背景对象的视频解码采用至少一个独立编码对象。更适宜的是，根据至少一个独立对象在空间、参数和/或时间上预测背景对象，使处理更简单。

最好是，至少一个独立对象对应于至少一个前景区域子图像。

基于至少一个独立对象的预测的一个优点在于，背景对象通常在主观上其重要性有限。因此，可采用至少一个独立对象的信息，以便进一步增强视频压缩，因为从前景区域子图像到背景对象的可能差错传播不会过度降低主观图像质量。

最好是，该方法还包括以下步骤：确定至少一个独立编码对象的位置和大小。

最好是，确定至少一个独立编码对象的大小的步骤包括以下子步骤：根据图像宽度计算参考宽度，并采用参考宽度来确定至少一个独立编码对象的宽度。

最好是，确定至少一个独立编码对象的大小的步骤包括以下子步骤：根据图像高度计算参考高度，并采用参考高度来确定至少一个独立编码对象的高度。

最好是，该方法还包括以下步骤：确定至少一个独立编码对象中每一个的类型。

最好是，至少一个独立编码对象的视频解码采用高于背景对象的视频解码的量化步骤密度。

最好是，该方法还包括以下步骤：检测至少一个独立编码对象的丢失。

最好是，检测至少一个独立编码对象的丢失的方法是基于通过用于第一个至少一个独立编码对象的预定值以及通过从一个独立编码对象到另一个的预定增量或减量对独立编码对象的枚举。

任何预期的对象编号的缺少使解码器可以检测相应的独立编码对象的丢失。

最好是，该方法还包括与其它编码对象分开对至少一个独立编码对象进行解码。

最好是，该方法还包括以下步骤：对至少一个独立编码对象进行纠错解码。

最好是，该方法还包括以下步骤：对背景对象进行纠错解码。

区分视频比特流的主观最重要部分的优先次序的一个优点在于，与比特流的所有部分的同样传输和差错保护相比，能够实现更好的主观图像质量。

根据本发明的第三方面，提供一种视频编码器，包括：

用于把图像分为相对于图像区具有预定排列的一组规则形状的编码块的部件，各编码块对应于至少一组基本编码元素；

用于确定图像中的至少一个形状的部件；

用于选择定义覆盖至少一个所确定形状的至少一个区域的编码块的至少一个子集的部件；

用于确定所选的编码块的至少一个子集作为至少一个独立编码对象的部件；

用于确定图像中排除了至少一个独立编码对象的部分作为背景对象的部件；

用于对至少一个独立编码对象编码的部件；以及

用于作为一个编码对象对背景对象编码的部件。

根据本发明的第四方面，提供一种对一组编码块所编码的图像进行视频解码的视频解码器，各编码块对应于至少一组基本编码元素，以及编码块相对于图像区具有预定排列，所述解码器包括：

用于确定与定义被解码图像的至少一部分的编码块的至少一个子集对应的至少一个独立编码对象的部件；

用于对至少一个独立编码对象解码的部件；

用于对背景对象解码的部件。

根据本发明的第五方面，提供一种计算机程序产品，它包括计算机可执行程序部件，用于使装置实现第一方面的方法。

根据本发明的第六方面，提供一种计算机程序产品，它包括计算机可执行程序部件，用于使装置实现第二方面的方法。

根据本发明的第七方面，提供一种包括第三方面的视频编码器的装置。

根据本发明的第八方面，提供一种包括第四方面的视频解码器的装置。

第三至第八方面的装置最好是从由下列装置构成的组中选取：移动通信装置、无线通信装置、游戏装置、视频记录装置、视频输出装置、通信网络服务器、通信网络网关、个人计算机、便携式计算机以及个人数字助理装置。

根据本发明的第九方面，提供一种视频信号，包括：

多个压缩的视频编码块，对应于与视频编码图像的一部分对应的至少一个独立编码对象，视频编码图像的所述部分具有可变大小和位置；

至少一个标识符，对应于至少一个独立编码对象；

至少一个位置和大小信息，对应于至少一个独立编码对象；以及

多个压缩的视频编码块，对应于与一组编码块对应的背景对象，所述一组编码块对应于排除了至少一个独立编码对象的视频编码图像。

为简洁起见，仅参照本发明的一个方面说明本发明的各种实施例，但应该理解，相应的实施例也可应用于其它方面。

现在仅通过举例并参照附图来说明本发明，附图中：

图1说明相对于为视频编码定义的宏块被编码的图像；

图2说明根据本发明的一个优选实施例、为图1的图像所形成的视频编码条带的原理图；

图3说明根据本发明的优选实施例的图像视频编码的流程图；

图4说明根据本发明的优选实施例的图像解码的流程图；

图5说明根据本发明的优选实施例、在没有正确地对全部前景区域子图像进行解码的情况下对背景区域解码的流程图；

图6说明根据本发明的优选实施例的移动通信装置的框图；以及

图7说明根据本发明的优选实施例的***。

通过在图像和条带层之间添加子图像编码层，本发明的优选实施例可视为对ITU-T H.26L的补充。子图像编码层将形成所谓的子图像(SP)，它通常是矩形(前景区域SP或FR SP)，除所谓的背景区域(BR)SP之外。BR SP由不在任何矩形SP范围内的图像区组成。首先按扫描顺序对所有SP编码，即条带从SP开始，通常按照主观优选级的顺序来选择条带，使得首先对主观最重要SP编码，而最后对BR SP编码。SP不重叠，即整个编码图像由所有SP组成。

图1说明相对于为视频编码定义的宏块(MB)被编码的图像100。该图像包括被视为主要关注的前景对象101的(绘制动画的)心形。已经沿MB边界在前景对象周围绘制了矩形前景区域子图像(FRSP)102。在前景对象101的周围，图像还具有背景。围绕FR SP 102的背景的部分称作背景区域子图像103(BR SP)。注意，在这里，背景的部分也属于FR SP 102。图1还说明按升序指定的编号为0至79的MB，其中第一MB(0)位于左上角，编号向右侧增加，并在各行之后从下一行的左侧继续增加。

图2说明根据本发明的一个优选实施例、为图1的图像所形成的视频编码条带的原理图。利用5个宏块的条带大小把该图像分割为视频编码条带。分割从最重要的FR SP开始，并在所有FR SP(在图1和图2中仅给出一个FR SP)之后把BR SP分割为若干条带。为这些条带提供从0开始的连续条带编号。注意，条带0占用FR SP中第一行的3个MB以及FR SP中第二行的2个MB，尤其要注意，FR SP的最后一个条带在对BR SP编码之前被闭合。然后，按扫描顺序把BR SP中的MB分割为若干条带，使得除最后一个以外的每个条带一般由对一个条带所允许的最大数量的MB所组成。条带仅忽略各FRSP。较大的条带一般得到对图像编码所需的较少冗余度。

图3说明根据本发明的优选实施例的视频编码过程的流程图。流程图从框310开始，在其中已经接收到视频编码图像。

开始之后，过程继续进行到框320，在其中尝试查找一个或多个前景对象101。然后，框330检查是否已经找到任何前景对象101。如果否，则框331把图像作为单个编码块进行编码，然后该过程结束。如果是，则框340挑选还未编码的最重要前景对象101。框350则确定覆盖所挑选的前景对象101的宏块的最小可能区域(FR SP102)。可能区域通常被限制于预定形状、如矩形(包括正方形)，因为这种形状提供极适合于便携式装置的简单视频编码和解码。在本发明的备选实施例中，可使用可能区域的其它不同的预定形状，只要协商一种机制使视频编码器将所用的形状通知解码器。

然后在框360中，对FR SP 102进行视频编码。此后，框370检查是否仍然存在未编码的前景对象101。如果是，则过程返回到框340，否则进行到框380。在框380，对不属于任何FR SP的BR SP、即MB进行视频编码。然后该过程在框390结束。

在一个备选实施例中，框350在一系列连续图像中确定覆盖所挑选的前景对象101的宏块的最小可能区域(FR SP 102)。在又一个备选实施例中，框350确定宏块的最小可能区域，使其在所挑选的前景对象周围保留一些空间。在另一个备选实施例中，宏块的可能区域具有预定的大小和/或形状。

图4说明根据本发明的优选实施例的解码过程的流程图。该过程从框410开始，在其中已经接收到对应于视频编码图像的编码视频信息。然后在框420，解码器尝试查找任何已编码FR SP。在框430，检查是否找到任何FR SP。如果否，则在框431中尝试把图像作为单个编码对象进行解码，否则，该过程继续进行到框440。框440挑选还未解码的最重要FR SP。然后在框450，对所挑选的FR SP进行解码，框460检查是否仍然存在未解码的FR SP。如果是，则过程返回到框440，否则进行到框470。在框470，检查是否已经正确地对所有FR SP进行了解码。如果否，则过程从图5所示的框A继续进行。如果是，则过程进行到框480，在其中对BR SP解码。此后，该过程在框490结束。

图5说明根据本发明的优选实施例、在没有正确地对全部FR SP进行解码的情况下对BR SP解码的流程图。解码从框510开始。然后在框520，检查是否已知各个FR SP的位置和大小。在独立子图像解码模式中，子图像的位置和大小仅在帧内图像中才能被改变(与H.263独立段解码相似)。这个事实可用于实际实现中。对各个FR SP的位置和大小的了解对于BR SP解码是重要的，因为只有已知每个FR SP的位置和大小，才能确定BR SP。如果否，则解码器根本无法对BR SP解码且过程结束，否则解码器进行到框530。在框530，检查是否已经采用任何已损坏FR SP对BR SP进行了编码。可能已经对BR SP进行了编码而没有引用FR SP的MB，在这种情况下，答案肯定为否，该过程继续进行到框550。在框550，对BR SP解码。但是，如果已经采用任何已损坏FR SP对BR SP进行了编码，则过程从框530继续进行到框540，对BR SP进行差错隐藏。基本上，当各FR SP的位置和大小已知时，可采用先前BR SP和/或当前FR SP来估算BR SP。最简单的是，可照样使用正好前一个BR SP，只要所有的FR SP在其大小和位置方面与前一个图像相同。在视频编码中，通常存在许多时间冗余度，允许这种差错隐藏。此外，对BR SP的差错隐藏通常可利用要恢复的BR SP的编码表示。

接下来将更详细地描述编码过程。在优选实施例中，两个不同的编码模式可用于对FR SP编码：独立SP编码和常规预测模式。在独立SP编码中，FR SP的边界被视为图像边界。SP分割在一组图像(或任何类似的图像分组)上是静态的。对FR SP进行编码时，防止越过SP边界的时间和空间预测，从而限制差错传播。但是，可对BR SP进行编码，允许越过BR SP边界的时间和空间预测，因为BR SP被认为具有较低主观重要性，并且不需要防止差错传播。例如，当用于运动补偿视频编码中的运动矢量不指向FR SP之外时。既不允许空间预测也不允许环路滤波跨过FR SP边界。

因此，可采用FR SP来预测BR SP，如果解码器没有收到表征FR SP的任何数据包，则根本无法确定BR SP。因此，当任何FR SP的大小和位置无法确定时，甚至不需要尝试对BR SP解码，这降低了解码器的功耗。此外，由于FR SP的大小和位置在对BR SP解码之前始终是已知的，因此它们完全可以用作对BR SP编码的基础。

接下来描述根据优选实施例的比特流语法。

FR SP的使用以图像和序列层数据的参数列表发出信号通知，如ITU-T VCEG文献VCEG-N72R1(2001年9月26日)中所建议的那样。子图像特征可能超出基线轮廓的范围，且仅属于易出错环境的轮廓。

当子图像在使用中时，条带标题如下所述：

图像ID 如上述VCEG-N72-R1所定义。

条带类型如上述VCEG-N72-R1所定义。

条带中第一MB的X 条带中第一宏块相对于子图像的水

平位置(列)。

条带中第一MB的Y 条带中第一宏块相对于子图像的垂

直位置(行)。

初始QP 如上述VCEG-N72-R1所定义。

子图像ID 子图像的唯一标识符。按编码顺序对各子图像

分配一个从零开始且按一递增的ID。对各图

像重置计数。如果独立子图像编码正在使用，

则子图像ID对一组图像上的空间匹配子图

像保持不变。

子图像信息 0：子图像属性与前一个图像中具有相同ID

的子图像的属性相同。这个值在独立子图像

编码模式中极为有用。

1：子图像属性与同一个图像中具有相同ID

的子图像的属性相同。这个值在子图像包含

多个条带时有用。

2：子图像位置和大小按照以下四个码字来

定义。如果独立子图像编码正在使用，则以

下四个码字在一组块中保持不变。为了差错

恢复而允许码字重复。

3：背景子图像。如果同一个图像的先前子图像之一丢失而且其位置和大小没有向外部发出通知(在常规预测模式下是常见的)，则解码器不对背景子图像解码，因为其形状是未知的。

左子图像中(宏块中)最左侧宏块的坐标。对图像的最左侧

宏块列分配零值。

顶部子图像中(宏块中)最顶部宏块的坐标。对图像的最顶部

宏块行分配零值。

宽子图像的宽度。码字分配如下：

符号编号	UVLC代码	说明
符号编号	UVLC代码	说明	0	1	推测＝(最右-左)/2+1，其中“最右”是图像最右侧宏块的列地址，以及“/”表示通过截取相除。例如，对于QCIF图像且Left等于3，宽度则为(10-3)/2+1＝4。
1	001	推测+1	0	1
1	001	推测+1	2	011	推测-1
3	00001	推测+2	2	011	推测-1
3	00001	推测+2	4	00011	推测-2
…	…	…	4	00011	推测-2

高度子图像的高度。以类似于宽度的方式分配码字。

源编码方法的应用

优选实施例的视频编码和解码方法的主要应用之一是主观上重要的子图像的传输优选级区分。

与常见的、即固定分配的条带的编码相比，所建议的方法可提高压缩效率。矩形子图像通常具有平滑的运动场或一致的纹理，因此运动矢量和帧内编码在用于比较均匀的子图像时会更好地工作。

独立子图像也可用于图像分辨率缩放性。假定相同的QCIF比特流、如多媒体消息被传递给具有不同屏幕大小的两个手持装置。其中一个支持达到QCIF(176×144)的大小，另一个支持达到QQVGA(160×120)的大小。使QCIF图像适合于QQVGA显示矩形存在两种传统的可能性：第一，图像可以缩小，但这可能计算成本高。第二，图像可以被裁剪(从左到右8像素，从上到下12像素)，但是裁剪后的像素无论如何必须被解码。独立子图像提供另一种解决方案：比特流能够被编码，使得有一个144×112大小的子图像集中在QCIF图像中。可以为了QQVGA显示矩形对比特流进行解码，使得仅有子图像被解码。因此，每个图像的原始99个宏块其中的36个不需要被解码。

下面描述利用本优选实施例的因特网流式传输的一个实例。

多播因特网流式传输被选作目标应用。选择的基础是，低延迟因特网应用(VCEG-N79R1)的共同条件也可容易地应用于多播流式传输。

由于交互式差错隐藏无法大规模地与IP多播配合使用，因此采用前向差错控制方法。这些方法可应用于传输编码级(FEC数据包、数据包复制)或者源编码级(帧内宏块更新)。考虑三种情况：

1.在客户机中开始重放之前较长的(1秒或者按照10帧/秒的帧频有10帧)初始缓冲。采用里德-索罗蒙前向纠错编码。

2.在客户机中开始重放之前的中等数量(2帧)的初始缓冲。采用根据RFC 2733的奇偶前向纠错编码。

3.在客户机中开始重放之前的中等数量(2帧)的初始缓冲。无传输级前向纠错编码。

虽然情况1能够获得最佳结果，但客户机可能缺少所需的缓冲能力。此外，里德-索罗蒙FEC数据包没有被标准化(所我们所知)。因此，结果还是提供基于简单奇偶FEC的方案(情况2)，这在大部分实际***中极易实现。但是，一些***、如3GPP分组交换流式业务(版本4)未包括对奇偶FEC的支持，因此情况3也被添加到测试集。

测试条件

编解码器：

根据TML-8.6、TML-8.5的临时版本加上差错隐藏实现(VCEG-N62)来实现本发明的优选实施例的编码方法。它被称作矩形子图像(RSP)编解码器。RSP编解码器的性能与传统的编解码器1(TML-86加上所关注区域量化)以及传统的编解码器2(TML-86，没有所关注区域量化)相比。

编解码器参数：

-运动矢量分辨率：1/8像素

-Hadamard变换：已使用

-最大搜索范围：16

-用于运动间搜索的先前帧的数量：5

-所有块类型已启用。

-条带模式：每条带固定数量的MB

-B帧和SP帧：未使用

-符号模式：CABAC

-数据分区：每条带1分区

-序列标题：无序列标题

-搜索范围限制：无

-速率失真优化模式判定：开启

-受限帧内预测：未使用

-改变QP：未使用

-附加参考帧：未使用

其他条件：

-不是如VCEG-N79R1所规定的那样对4000帧进行编码，而是对10次循环的每次来计算解码视频的PSNR，给出平均PSNR加上10次循环的最好和最坏情况，如VCEG-M77所建议的那样。这种方法用来表示PSNR根据丢失模式文件的位置的变化。在模拟中，第n+1次的循环的开始丢失位置连续跟随第n个循环的结束丢失位置。

-如VCEG-N79R1中那样，假定恒定的分包开销(40字节/包)。从可用总比特率中减去所有数据包、包括FEC数据包的分包开销，从而计算可用视频比特率。

-由于在当前TML软件中没有实现任何速率控制策略，因此按照章节4.4中所述的比特分配方法获得所需的比特率。

-如VCEG-N79R1中所规定的，在源序列的各个帧(以全帧频)和相应的重构帧之间计算PSNR。

-采用帧内GOB更新来代替宏块模式选择机制。

测试序列和分割

采用汽车电话序列来进行实验。采用序列的QCIF形式。按10帧/秒的帧频对它进行编码。目标总比特率为64kbps。编码帧的数量为101(汽车电话序列的303帧，按2跳过)。

前景子图像被手动选择，并覆盖依次出现在视频剪辑的全部图像中的人的头部。在传统编解码器1中，前景子图像的区域被选作比图像的其余部分更细地量化的所关注区域。在整个序列中采用恒定的64×64前景子图像。独立子图像编码模式正在使用。

分包和前向纠错

在所有情况中，假定RS FEC数据包的大小等于通过RS FEC数据包来保护的数据包的最大尺寸。如果为n个视频数据包的每个块编码m个FEC数据包，则编码方案表示为RS(n，m)。FEC方案能够纠正多达每个块m个数据包(视频数据包和FEC数据包的任何组合)的丢失。

情况1：具有RS FEC的条件下缓冲的10帧

RSP编解码器(仅一个前景子图像)：

-对于帧内图像，有4个数据包：2个数据包用于前景子图像(应用了GOB交织)，1个RS(2，1)数据包用于2个前景数据包，以及1个数据包用于背景子图像。

-对于帧间图像，10帧构成一组。对于各组，有10个前景子图像数据包，用于前景数据包的m(m为变量)个RS(10，m)数据包，以及10个背景子图像数据包。注意，前景和背景的分包方法是交织法：帧n的偶数GOB和帧n+1的奇数GOB在一个数据包中，反之亦然。

传统的编解码器：

-对于帧内图像，有3个数据包：2个GOB交织数据包用于整个图像，以及1个RS(2，1)数据包。

-对于帧间图像，10帧构成一组。对于各组，有20个数据包，其中每一个包含特定帧的每隔一个GOB，以及m(m为变量)个RS(20，m)数据包。

情况2：具有奇偶FEC的条件下缓冲的2帧

注意，2个数据包的奇偶FEC的结果与RS(2，1)的结果相同。因此，为简化文件说明，奇偶FEC被认为与RS(2，1)相同。

RSP编解码器(仅一个前景子图像)：

-对于帧内图像，与情况1相同。

-对于帧间图像，2帧构成一组。对于各组，有2个前景子图像数据包，用于前景数据包的1个RS(2，1)数据包，以及1个背景子图像数据包。前景和背景的分包方法与情况1相同。

传统的编解码器：

-对于帧内图像，与情况1相同。

-对于帧间图像，每帧具有3个数据包：2个GOB交织数据包，以及1个RS(2，1)数据包。

情况3：在没有FEC的条件下缓冲的2帧

所有编解码器采用与情况2中相同的分包方法。唯一的差别在于没有FEC数据包。

比特分配

比特率由几个因素来决定：帧内GOB更新(IGU)速率、FEC速率、分割条带的方法以及QP。(注意，当采用非GOB形状的条带时应该防止来自帧内更新GOB外部的预测。对于GOB形状的条带，通过条带预测限制来进行预测防止。)在模拟中，前3个因素在可用时通过试错法来优化。在其它因素固定时调整QP，如下所述：

对于整个序列，所关注区域(ROI)编码的QP或QP对是固定的。

对于没有ROI编码的传统编解码器，QP被直接调整为尽可能匹配可用的视频比特率。

对于RSP编解码器或者具有ROI编码的传统编解码器，QP对按照以下方式调整(QPf用于前景，QPb用于背景)：

首先决定QPf。把QPb设置为最大(31)，把QPf调整为尽可能匹配可用的视频比特率。

然后进一步调节QPb。让QPf固定在如上所述的值，把QPb调整为尽可能匹配可用的视频比特率。

结果

主观结果

这里只提供优化结果。当优化IGU速率、FEC速率和分割条带的方法时，没有对它们加以任何范围限制。采用由编解码器所决定的最大范围。也就是说，IGU速率范围是从0到1GOB/帧，FEC速率(RS(n，m)中的m)是从0开始(没有上限)，以及分割条带是从1至9(QCIF序列的最大值)GOB/条带。

得到三种情况的结果。在以下论述中，PLR表示数据包丢失率，IGUf和IGUb分别是前景和背景子图像的IGU。IGU速率的单位是GOB/帧。

结果表明：

-在每一种情况下，所建议的RSP编解码器对于前景区域具有最佳PSNR，而具有ROI编码的传统编解码器比没有ROI的传统编解码器要好。在情况1中，RSP编解码器的平均PSNR比具有ROI编码的传统编解码器高0.78dB至0.96dB，比没有ROI编码的传统编解码器高1.94dB至2.40dB；在情况2中，分别提高了1.09dB至1.59dB以及2.04dB至2.38dB；在情况3中，当PLR非零时分别提高了0.28dB至1.52dB以及1.28dB至1.86dB。

-如果较长序列被缓冲(情况1)，则适当的RS FEC能够在PLR为3％、5％和10％时恢复所有数据包丢失，以及在PLR为20％时恢复大多数数据包丢失。

-在情况3中，RSP编解码器优于传统的编解码器。一个原因在于，采用RSP编解码器的前景区域具有较大的IGU速率。对于QCIF序列，每帧有9个GOB。因此，IGU＝1意味着实际IGU速率为1/9。对于前景子图像(假定它具有6行MB)，IGU＝1意味着实际IGU速率为1/6。在当前的TML软件中，最大IGU为1。但是，根据所提供的结果可以推断，应当开发较大的IGU速率或其它帧内更新方法。

主观结果

对于每种情况，选择具有最接***均值的PSNR值的序列，作为最接近主观评估的典型序列。

即使瞬像没有提供不同方案的表现的完整概念，但它们捕捉到某些方面。检查对于0％、5％和20％的包丢失率以及对于所建议编码方案的最终解码图像的瞬像。

瞬像表明，具有恒定QP的传统编码方案在所有情况中明显是最差的。它们还表明，所建议的编码方案中的所关注画面在主观上优于其它方案。这在丢失率为20％的情况下未采用FEC数据包时可以极清楚地看到。

一般来讲，所提供的瞬像符合以下事实：通过FEC数据包恢复了丢失数据包并且帧内GOB更新较快(因为在瞬像中几乎看不到任何差错)。

图6说明根据本发明的优选实施例的移动通信装置MS的框图。在移动通信装置中，主控制单元MCU控制负责移动通信装置的各种功能的模块：随机存取存储器RAM，射频部分RF，只读存储器ROM，视频编解码器CODEC以及用户界面UI。用户界面包括键盘KB、显示器DP、喇叭SP以及话筒MF。MCU是微处理器，或者在备选实施例中为另外某种处理器，例如数字信号处理器。有利的是，MCU的工作指令已经预先存储在ROM存储器中。根据其指令(即计算机程序)，MCU采用RF模块通过无线电路径发送和接收数据。视频编解码器可以基于硬件或者完全或部分基于软件，在该情况下，编解码器包括计算机程序，用于控制MCU根据需要来执行视频编码和解码功能。MCU采用RAM作为其工作存储器。移动通信装置能够通过摄像机捕捉运动视频，采用MCU、RAM和基于软件的编解码器对运动视频进行编码和分包。然后，RF块用来与其它各方交换编码视频。

图7说明视频通信***70，其中包括多个移动通信装置MS、移动电信网71、因特网72、视频服务器73以及连接到因特网的固定PC。视频服务器具有视频编码器，能够提供点播视频流、如天气预报或新闻。

本发明的优选实施例是以基于区域的编码方案为基础的。与MPEG-4视频不同，它在视频编码和解码中不需要对任意形状的区域进行任何复杂处理，因此很适合用于手持装置。本发明的优选实施例提供了健壮的视频编码和解码工具，能够区分传输优选次序，而且在易出错的视频通信***中获得主观上更好的图像质量。

优选实施例可应用于各种环境，例如ITU-T H.26L视频编码标准的环境中。已经描述了本发明的特定实现和实施例。本领域的技术人员十分清楚，本发明不限于以上提供的实施例的具体情况，本发明还可在采用等效方式的其它实施例中实现，只要没有背离本发明的特征。本发明的范围仅受所附权利要求书的限定。

缩写：

AVO 视听对象

BR 背景区域

CABAC 基于上下文的自适应二进制算术编码

DCT 离散余弦变换

DPL 数据分割层

FEC 前向纠错

FR 前景区域

GOB 块组

IGU 帧内GOB更新

ITU 国际电信联盟

MB 宏块

MPEG 运动图像专家组

NAL 网络适配层

QCIF 四分之一公共中间格式

QP 量化参数

QPb 背景的量化参数

QPf 前景的量化参数

QQVGA 具有160×120像素的视频格式

ROI 所关注区域

RS 里德-索罗蒙

RSP 矩形子图像

RTP 实时传输协议

SEI 补充增强信息

SP 子图像

TML 测试模型长期

UVLC 通用变长码

VCL 视频编码层

VO 视频对象

VOL 视频对象层

VOP 视频对象平面

YUV 三色分量

Claims

1.一种视频编码方法，包括以下步骤：

把图像分为相对于所述图像区具有预定排列的一组规则形状的编码块，各编码块对应于至少一组基本编码元素；

确定图像内的至少一个形状；

选择定义覆盖所述至少一个所确定形状的至少一个区域的所述编码块的至少一个子集；

确定所选的所述编码块的至少一个子集，作为至少一个独立编码对象；

确定与所述图像中排除了所述至少一个独立编码对象的部分对应的所述编码块的子集，作为背景对象；

对所述至少一个独立编码对象编码；以及

作为一个编码对象对所述背景对象编码。

2.如权利要求1所述的方法，其特征在于，采用所述至少一个独立编码对象对所述背景编码对象进行编码。

3.如权利要求1或2所述的方法，其特征在于，对所述背景编码对象进行视频编码还包括以下子步骤：按扫描顺序定义编码条带，使得所述条带由忽略了那些包含在所述至少一个独立编码对象中的基本编码对象的连续编码块组成。

4.如以上权利要求中任一项所述的方法，其特征在于，对所述至少一个独立编码对象进行视频编码还包括以下子步骤：在各个独立编码对象中按扫描顺序定义编码条带，使得所述条带由包含在所述至少一个独立编码对象中的编码块按所述扫描顺序组成。

5.如以上权利要求中任一项所述的方法，其特征在于，覆盖所述至少一个所确定形状的所述区域是矩形区域，从而正方形是矩形的一个子集。

6.如以上权利要求中任一项所述的方法，其特征在于，所述独立编码对象是以主观重要性的降序来定义的。

7.如以上权利要求中任一项所述的方法，其特征在于，所述至少一个独立编码对象的视频编码与所述背景对象的视频编码无关，以便禁止差错传播到所述至少一个独立编码对象中。

8.如以上权利要求中任一项所述的方法，其特征在于，所述方法还包括以下步骤：把不同标识符分配给所述至少一个独立编码对象，用于使所述至少一个独立编码对象中每一个与相应的特征相关。

9.一种对一组编码块所编码的图像进行视频解码的方法，各个编码块对应于至少一组基本编码元素，而且所述编码块相对于所述图像区具有预定排列，所述方法包括以下步骤：

确定与定义被解码图像的至少一部分的所述编码块的至少一个子集对应的至少一个独立编码对象；

对所述至少一个独立编码对象解码；以及

对所述背景对象解码。

10.如权利要求9所述的方法，其特征在于还包括确定用于所述背景对象的视频解码条带，包括以下子步骤：形成连续编码块的解码条带，并忽略属于任何所述独立编码对象的编码块。

11.如权利要求9或10所述的方法，其特征在于，所述至少一个独立编码对象的视频解码与所述背景对象的视频解码无关。

12.如权利要求9至11中任一项所述的方法，其特征在于，所述至少一个独立对象与至少一个前景区域对应。

13.一种视频编码器，包括：

用于把图像分为相对于所述图像区具有预定排列的一组规则形状的编码块的部件，各编码块对应于至少一组基本编码元素；

用于确定图像中的至少一个形状的部件；

用于选择定义覆盖所述至少一个所确定形状的至少一个区域的所述编码块的至少一个子集的部件；

用于确定所选的所述编码块的至少一个子集作为至少一个独立编码对象的部件；

用于确定与所述图像中排除了所述至少一个独立编码对象的部分对应的所述编码块的子集作为背景对象的部件；

用于对所述至少一个独立编码对象编码的部件；以及

用于作为一个编码对象对所述背景对象编码的部件。

14.一种对一组编码块所编码的图像进行视频解码的视频解码器，各编码块对应于至少一组基本编码元素，而且所述编码块相对于所述图像区具有预定排列，所述视频解码器包括：

用于确定与定义被解码图像的至少一部分的所述编码块的至少一个子集对应的至少一个独立编码对象的部件；

用于对所述至少一个独立编码对象解码的部件；以及

用于作为一个编码对象对所述背景对象解码的部件。

15.一种计算机程序产品，包括用于使装置对图像进行视频编码的计算机可执行程序部件，所述程序产品包括：

计算机可执行程序代码，用于使所述装置把图像分为相对于所述图像区具有预定排列的一组规则形状的编码块，各编码块对应于至少一组基本编码元素；

计算机可执行程序代码，用于使所述装置确定图像中的至少一个形状；

计算机可执行程序代码，用于使所述装置选择定义覆盖所述至少一个所确定形状的至少一个区域的所述编码块的至少一个子集；

计算机可执行程序代码，用于使所述装置确定所选的所述编码块的至少一个子集作为至少一个独立编码对象；

计算机可执行程序代码，用于使所述装置确定与所述图像中排除了所述至少一个独立编码对象的部分对应的所述编码块的子集作为背景对象；

计算机可执行程序代码，用于使所述装置对所述至少一个独立编码对象进行编码；以及

计算机可执行程序代码，用于使所述装置作为一个编码对象对所述背景对象进行编码。

16.一种计算机程序产品，包括用于使装置对一组编码块所编码的图像进行视频解码的计算机可执行程序部件，各编码块对应于至少一组基本编码元素，以及所述编码块相对于所述图像区具有预定排列，所述程序产品包括：

计算机可执行程序代码，用于使所述装置确定与定义被解码图像的至少一部分的所述编码块的至少一个子集对应的至少一个独立编码对象；

计算机可执行程序代码，用于使所述装置对所述至少一个独立编码对象进行解码；以及

计算机可执行程序代码，用于使所述装置作为一个编码对象对所述背景对象进行解码。

17.一种视频信号，包括：

多个压缩视频编码块，对应于与视频编码图像的一部分对应的至少一个独立编码对象，所述视频编码图像的所述部分具有可变大小和位置；

所述至少一个独立编码对象中每一个的标识符；

所述至少一个独立编码对象的位置和大小信息；以及

多个压缩视频编码块，对应于与一组编码块对应的背景对象，其中所述一组编码块对应于排除了所述至少一个独立编码对象的所述视频编码图像。