CN1605210A

CN1605210A - 用于视频序列压缩的编码方法

Info

Publication number: CN1605210A
Application number: CNA02825340XA
Authority: CN
Inventors: V·博特雷奥; M·贝内蒂雷
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2001-12-20
Filing date: 2002-12-05
Publication date: 2005-04-06
Also published as: AU2002366824A1; KR20040068302A; EP1459558A2; WO2003055223A3; US20050063470A1; WO2003055223A2; JP2005535155A

Abstract

本发明涉及一种借助三维小波变换压缩视频序列的编码方法。这一方法基于分层子带编码处理，该处理导向变换组成分层金字塔的系数。一个空间－时间定向树定义在所述金字塔内的空间－时间关系，在所述空间－时间定向树中，根用近似子带的像素形成，每一这些像素的子孙用更高子带的像素形成。在所述编码处理中，小波变换的初始子带结构通过一个接一个扫描子带保存，其顺序遵守在所述树内形成的父－子关系，考虑到该树的每一系数的最高有效位的渐进传输，把“off/on”标志加在这些系数上。根据本发明，一个附加的、特定的一位标志被添加在每一子带上，用于给出关于该子带的系数的总的状态的信息，然后使用关于每一子带的父子关系的所述附加信息要么处理子带－如果所述标志具有它的两个可能的值中的第一值的话，或者跳过它－如果所述标志具有所述两个可能的值中的第二值的话。

Description

用于视频序列压缩的编码方法

本发明涉及一种用于压缩视频序列的编码方法，所述视频序列被分成帧组(groups of frames：GOF)，所述GOF借助三维(3D)小波变换被分解，导致给定数目的连续分辨率级，其相应于所述变换的分解级，所述方法基于分层子带编码处理，该处理从每一GOF的原来一组图像元素(像素)导致变换组成分层金字塔的系数，一个空间时间定向树定义在所述分层金字塔内的空间-时间关系(在所述空间时间定向树中，根用从3D小波变换产生的近似子带的像素形成，每一这些像素的子孙用更高子带的像素形成，这些更高的子带相应于由这些根像素定义的图像卷)，3D小波变换的初始子带结构通过一个接一个扫描子带保存，其顺序遵守在所述空间-时间树内形成的父-子关系，并且特定的一位标志被加在空间-时间树的每一系数上，考虑到所述系数的最高有效位的渐进传输，这些标志是这样的，即它们中的至少一个说明一组像素的状态，和至少另一个说明一个单一像素的状态。

在异类网络上的视频流需要高可扩展性能力，亦即部分位流可以不要完全解码序列而被解码，并可以被组合而以较低的空间或时间分辨率(空间可扩展性，时间可扩展性)或者以较低的质量(SNR或比特率可扩展性)重构原来的视频信息。一种实现所有这三类可扩展性(空间的，时间的，SNR)的方便的方式是在对输入视频序列进行运动补偿后的对该序列的三维(3D，或2D+t)小波分解。文献WO 01/84847(PHFR000044)说明了视频编码的一种完全可扩展的方法，根据该方法，通过在每一时间分辨率级(相对于在最高空间分辨率级)执行运动估计得到时间(相对于空间)可扩展性。产生的空间-时间树的分层编码借助基于称为“Fully Scalable Zerotree(完全可扩展零树(FSZ)”的技术的新编码模块执行。这一完全可扩展编码方法的概略也可以在下述文献中找到，由V.Bottreau，M.Bénetière，B.Felts和B.Pesquet-Popescu发表的“A Full Scalable 3D Subband VideoCodec”，Proceedings of IEEE Signal Processing Society，2001International Conferenceon Image Processing，Thessaloniki，希腊，2001年10月7-10日，第1017-1020页。

这一在先技术受到了所谓的在分层树中设定分区算法(SetPartitioning In Hierarchical Tree algorithm)(SPIHT)的启发，必须首先回忆它的原理。原来的SPIHT算法例如在下面的文献中说明，A.Said和W.A.Pearlman所著“A new，fast，and efficientimage codec based on setpartitioning in hierarchical trees”，IEEE Transactions on Circuits and Systems for Video Technology，vol.6，n°3 1996年6月，第243-250页，和对于它到3D情形的扩展，例如有B.J.Kim和W.A.Pearlman所著“An embedded waveletvideo coder using three-dimensional set partitioning inhierarchical trees(SPIHT)”，Proceedings of Data CompressionConference，1997年3月25-27日，Snowbird，犹他州，美国，第251-260页，所述算法基于一个关键的概念：系数的部分排序按照大小递减进行，和通过利用在自然图像中固有的自相似性在小波分解的各尺度(scales)上重要信息不存在的预测。这意味着，如果一个系数在小波分解的最低尺度中是不重要的，则在其它尺度中相应于同一区域的系数不重要的概率也很高。基本上，SPIHT是一个迭代算法，它在于比较一组像素与一个称为“重要性级(level of significance)”的值，所述比较从在空间-时间分解树中找到的最高重要性级开始到0，所述一组像素相应于在不同分辨率的同一图像区域。对于一个给定的级，或一个位平面，要执行两趟(pass)：排序趟，这一趟寻找零树或子树并排序不重要和重要性系数；精化(refinement)趟，这一趟发送重要性系数的精确的位。SPIHT算法从分解的最高级到最低级检查小波系数。这相应于首先考虑相应于位于最小尺度子带中的重要细节的系数，然后检查相应于更精细的细节的最小系数。这说明算法的“分层”指定是合理的：位以它们所表示的递降的重要性发送，这样形成渐进的位流。

树结构，称为空间(或者在3D的场合称为空间-时间)定向树，定义在小波系数的分层金字塔内的空间(或空间-时间)关系。该树的根用在最低分辨率处的近似子带(“根”子带)的像素形成，而相应于由根像素定义的图像区域(在3D的场合，图像卷)的较高子带的像素形成该像素的子孙。在SPIHT算法的3D版本中，除叶子外的任何子带的每一像素都有8个子孙像素，而每一像素只有一个父(母)(这一规则的一个例外是：在根的场合，8个像素中的一个像素没有子孙)。下面的记号说明父子关系。

O(x，y，z)：节点(x，y，z)的直接子孙的坐标组；

D(x，y，z)：节点(x，y，z)的所有后代的坐标组；

H(x，y，z)：所有空间-时间定向树根(在最高金字塔级的节点：空间-时间近似子带)的坐标组；

L(x，y，z)＝D(x，y，z)-O(x，y，z)

(这些依赖关系的图示在图1中的三维场合中给出，其中记号如下：TF＝时间帧，TAS＝时间近似子带，CFTS＝在空间-时间近似子带中的系数(或根系数)，TDS.LRL＝在分解的最后分辨率级的时间细节子带，和TDS.HR＝在最高分辨率的时间细节子带)。

SPIHT算法使用三种列表：LIS(不重要集列表)、LIP(不重要像素列表)、和LSP(重要像素列表)。在所有这三种表中，每一条目由坐标组(x，y，z)标识。在LIP和LIS中，(x，y，z)表示一个唯一的系数，而在LIS中它表示一组系数D(x，y，z)或L(x，y，z)，它们是空间-时间树的子-树。为区分它们，如果(x，y，z)表示D(x，y，z)则LIS条目为A类，如果它表示L(x，y，z)则LIS条目为B类。在第一趟(排序趟)期间，测试LIP的所有像素，把成为重要的那些移动到列表LSP。相似地，成为重要的LIS集合从列表LIS中去除，并被分成子集放在该LIS的末尾，并且每一个都将被依次检查。LSP包含要被“精化”的重要像素的列表：该系数的第n位被发送，如果它相对于级别n是重要的话。

为改善视频编码***的全局压缩率，通常建议在零树编码模块上增加一个算术编码器。在其它的方法中，在大多数时间，分开考虑分层和算术编码模块。为把它们有效地组合在一个单一的编码***中，必须对原来的SPIHT算法进行一些修改。虽然在SPIHT中使用列表LIS、LIP和LSP方便了分类任务，但是这些列表对于系数的地理组织是一种障碍。当扫描查找零树时所执行的深入检索不使用子带内的冗余，而使决定用于算术编码的相关环境更加困难(环境是一种信息，它可能对当前像素有某些影响，其特别是与相邻像素有关的信息)。由一组逻辑条件执行的对列表LIS、LIP、LSP的操作使像素扫描的顺序很难预测。属于同一3D子孙树但是来自不同空间-时间子带的像素被编码，并且被一个接一个地放在列表中，其效果是混合外部子带的像素。这样，在同一子带的像素之间的地理相关性丧失。此外，因为空间-时间子带来自时间或空间滤波，因此该序列的帧连同给出细节的定向的特权级轴被滤波。当应用SPIHT算法时这一定向依赖性也丧失，因为扫描不按照地理顺序。

此外，从检查列表LIS、LIP、LSP产生的位和系数的符号具有相当不同的统计特性。用于一个列表的有关环境可以与另一个的全然不同。例如，当LIP表示不重要像素组时，一般考虑，如果一个像素被不重要像素围绕的话，则它有很大的机会是不重要的，但是对于LSP，如果被检查的像素的邻居的精化位在一定重要性级上是1(相对于0)的话，不能必然推断被检查的像素的精化位是1(相对于0)。

通过使用在已经引用的文献WO 01/84847中说明的技术，可以保存3D小波变换的初始子带结构，而加在每一系数上的标记或标志指示这些系数属于哪个列表LIS、LIP或LSP。更准确说，在所述专利申请中考虑的方法中，对于每一新的位平面完全扫描整个空间-时间树。在第一位平面的末尾，该3D卷的所有的子孙依赖关系已被评估(因此该第一次扫描至关重要，并且必须绝对遵守在图2中说明的子孙依赖关系的计算顺序，在该图中的记号如下：SA＝空间轴(s)，TA＝时间轴(t)，R＝根，FC＝第一孩子，SC＝第二孩子，TC＝第三孩子)。根据所述方法，以遵守父子关系的顺序一个接一个扫描子带，并且把至少两个优选4个不同的标志加在空间-时间树的系数上：

A)其中至少一个，优选两个说明一个集(树或子树)的状态：

-DIRECT_SET_INSIG(或FS1)，如果D(x，y，z)仍然不重要；

-INDIRECT_SET_INSIG(或FS2)，如果L(x，y，z)仍然不重要。

B)其中至少另一个，优选另两个说明一个单一像素的状态：

-SIG(或FP3)，如果当前像素是重要的；

-INSIG(或FP4)，如果它是不重要的，或如果它的重要性要被分析(缺省值设定为不在零树中包括的像素)。

该方法的主要步骤是：

1.初始化

-把最低空间-时间子带的所有系数设置标志FP4；

-在最低空间-时间子带的8个系数中的7个上设置标志FS1。

2.计算并输出MSL(在空间-时间分解树找到的最高重要性级)。

3.从n＝MSL向下到0，进行空间-时间树的完全探索(可使用两种主要的方法，其将在下一段说明：空间驱动的分辨率可扩展性，和时间驱动的分辨率可扩展性)，对于该空间-时间树的每一系数(x，y，z)，具有下面的动作：

a)设定重要性：

1)如果标志FS1为“on”，则输出＝S_n(D(x，y，z))。

如果S_n(D(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈0(x，y，z)，置标志FP4；

-从(x，y，z)中清除标志FS1；

-如果L(i，j)≠φ，则置标志FS2。

2)如果标志FS2为“on”，则输出＝S_n(L(x，y，z))。

如果S_n(L(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈0(x，y，z)，置标志FS1；

-从(x，y，z)中清除标志FS2。

b)像素重要性：

1)如果标志FP3为on，则输出＝(x，y，z)的第n位。

2)如果标志FP4为on，则输出＝S_n(x，y，z)。

如果S_n(x，y，z)＝1，则

使标志FP3为on；

输出sign(x，y，z)；

清除标志FP4。

各帧沿着给出细节的定向的特权级轴(空间或者时间)被滤波。通过沿相同方向扫描子带可以更好地考虑这些定向。使用所指示的方法，有两种主要的方式依靠所选择的有特权的定向探索空间-时间的系数卷(volume of coefficient)，所述定向可以是空间轴或者是时间轴。因此，可以得到两类“多可扩展(multi-scalable)”比特流，第一类由空间分辨率引导，第二类由时间分辨率引导。

(A)空间驱动的分辨率可扩展性

对于每一位平面，树扫描是空间定向的，因为如图3所示在这一方案中，空间分辨率一个接一个被完全探索，所有的时间分辨率在每一空间尺度内被连续扫描。换句话说，时间频率高于空间频率。为有可能跳过位流的某些部分，在位流中引入分辨率标志。扫描策略导致如在图4中指示的经组织的视频位流，其中行s和t分别相应于空间和时间分解级(SDL和TDL)，标志A是分开两个位平面的标志，标志B是分开两个空间分解级的标志。

(B)时间驱动的分辨率可扩展性

对于每一位平面，树扫描是时间定向的，因为如图5所示在这一方案中，时间分辨率一个接一个被完全探索，所有的空间分辨率在每一时间尺度内被连续扫描。与图4比较这一扫描策略导致如在图6中指示的经组织的视频位流，(标志B现在分开两个时间分解级)。在两种场合，得到三类可扩展性(时间、空间分辨率，SNR)：SNR可扩展性仍然可用，因为空间-时间扫描被***一个位平面迭代循环中，并且分别给时间可扩展性和空间可扩展性提供t_max的可能帧速率和s_max的可能显示大小(在所述例子中t＝1到4和s＝1到4)，t＝1相应于最小帧速率，s＝1相应于最小显示大小。

使用这一方法，由于固定的子带扫描(置换列表的扫描)和标志的识别，对于每一模型复原一致的地理环境：3D小波变换的初始子带结构被保留，加在每一系数上的标志指示该系数属于哪一个列表LIS、LIP或LSP。保留SPIHT的分层和逻辑组织，同时从一个列表向另一个移动系数通过改变它的标志“虚拟”进行，读的顺序现在不依赖于SPIHT算法的逻辑执行的改变。这一方法比组合经典SPIHT算法和熵编码(并导致一个“自然的”环境从变换的图像直接发布-这与位平面方法一致-而并不是来自在精化趟中从原来的SPIHT算法产生的位)的方法更好地利用了对当前像素的邻近影响，它改善了压缩率并因此改善了编码效率，因为上下文确实与正被编码的位相关。

然而，完全扫描所有空间-时间树子带会迅速导致下面的缺点：即使以低的解码比特率，仍然可以观察到高的计算负载，其与当今视频应用的需求相反。

因此，本发明的目的是提出一种避免这种缺点的编码方法。

为此目的，本发明涉及一种在本说明的引言部分中定义的编码方法，此外，它的特征在于，在空间-时间树的每一子带上添加一个附加的、特定的一位标志，以便给出关于它的系数的总状态的信息，然后为下列决定使用关于每一子带的父子关系的所述附加信息：

-当它的附加标志具有它的两个可能的值的称为“on”的第一个时，每一子带必须被处理，它的至少一个系数具有系数标志“on”；

-当它的附加标志具有它的两个可能的值的称为“off”的第二个时，每一子带必须被跳过，它的所有系数标志为“off”。

如此提出的技术解决方案允许在任何计算之前以这种方式为每一空间时间子带添加一个关于它的父子关系的信息(诸如标记或者标志)：如果根据这一标志发现一个特定的子带不与任何其它的子带相关，则跳过它的编码/解码处理，这样避免大量而又无用的计算。应该注意，所提出的发明不产生对FSZ输出位流的任何修改，因此，不会导致后来重构的视频的任何质量降低。

现在参考附图说明本发明，附图中，

图1给出在3D场合下在空间-时间定向树中的父子关系的例子；

图2表示在所述空间-时间树中的子带的分层；

图3表示空间-时间树的空间驱动的扫描；

图4表示由排序的3D SPIHT使之可能的位流组织；

图5表示空间-时间树的时间驱动的扫描；和

图6表示通过所述扫描得到的位流的结构。

如上所述，在FSZ技术中，从小波分解产生的整个空间-时间树被逐个位平面地(或者重要性级)扫描，并且在第一位平面处理期间建立所有的父子关系(图1中所示)。这一分层关系决定所有剩余的位平面都遵守的子带扫描顺序(在编码器和解码器两侧，下面的编码器和解码器之间没有区别，因为两者都严格地遵守同样的顺序)。如在上面文献WO 01/84847中提到的，FSZ算法的主要步骤如下：

(A)初始化步骤，其中只有最低的空间-时间子带系数由允许开始扫描处理的标志表征，所有其他子带系数被初始化为零；

(B)扫描步骤，其中，以严格遵守在所述空间-时间树中形成的父子关系的顺序对于每一位平面执行空间-时间树的全探索。

在这一深度扫描期间，空间-时间子带系数的状态通过打开或关闭它们的说明标志虚拟改变。空间-时间树的扫描是完全穷尽的：审查每一子带，对其系数的状态没有任何事先的假设，它意味着对于每一子带，分析每一系数。然而，当详细检查所述FSZ技术时，人们会评论，在4个可能的标志(用于直接子孙的不重要集的FS1＝DIRECT_SET_INSIG，用于间接子孙的不重要集的FS2＝INDIRECT_SET_INSIG，用于重要像素的FP3＝SIG，用于不重要像素的FP4＝INSIG)中没有一个为ON(等效为零)的特定场合，不仅在该位流中不输出任何信息，并且不改变任何系数状态。换句话说，这样的系数的处理是无用的，因为它不带来任何附加信息。当子带只包含这种系数时，这一计算负载开销特别重要。此外，这一情形对于第一位平面十分多见，因为除最低的一个外，每一子带均被初始化为零。

因此根据本发明，现提出在每一子带上添加一个标志SCAN，它给出子带系数的总状态的指示。当ON时(亦即该子带的至少一个系数具有不同于零的标志)，这一标志允许该子带的处理。当OFF时(亦即所有系数标志都等于零)，该子带被跳过，因为知道既不会输出任何位，也不改变任何标志。考虑原来的FSZ方法的两个主要步骤，根据本发明提出，为最低空间-时间子带(这一根子带在任何情况下都必须被扫描)初始化SCAN标志为ON，而对所有其他子带初始化为OFF。从根子带系数开始，然后该方法根据在FSZ中定义的规则更新子孙的标志。然后把包含这些子孙系数的子带的SCAN标志设定为ON，因为它们在进一步的排序趟(对于较低的位平面)期间将必须被分析。

简而言之，本发明提出以下述步骤修改FSZ方法(其原来在上述文献中说明)，增加的部分用斜体表示：

1.初始化：

-对于最低空间时间子带的所有系数置标志FP4；

-对于最低空间时间子带的8个系数中的7个置标志FS1；

-对于最低空间时间子带置标志SCAN为ON；

-对于所有其他空间时间子带置标志SCAN为OFF。

2.计算并输出MSL。

3.从n＝MSL向下到0，执行空间-时间树的全探索，对于每一子带：

A)如果标志SCAN为OFF，则跳过该子带，直接到该空间-时间树的下一子带；

B)如果标志SCAN为ON，则给该空间-时间树的每一系数(x，y，z)提供下面的动作：

a)设定重要性；

1)如果标志FS1为ON，则输出＝S_n(D(x，y，z))。

如果S_n(D(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈O(x，y，z)，置标志FP4；

-从(x，y，z)中清除标志FS1；

-如果L(i，j)≠0，则置标志FS2；

-分别对包含每一(x’，y’，z’)∈O(x，y，z)的每一子带置标志SCAN为ON。

2)如果标志FS2为ON，则输出＝S_n(L(x，y，z))。

如果S_n(L(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈O(x，y，z)，置标志FS1；

-从(x，y，z)中清除标志FS2；

b)像素重要性：

1)如果标志FP3为ON，则输出＝(x，y，z)的第n位。

2)如果标志FP4为ON，则输出＝S_n(x，y，z)。

如果S_n(x，y，z)＝1，则

置标志FP3为ON；

输出信号(x，y，z)；

清除标志FP4。

根据本发明的方法的实现的优点是FSZ方法明显的复杂性的化简，而无需修改最后的输出位流。在编码/解码比特率较低的情况下，复杂性的化简更为重要，其时只有最重要的位平面被处理，且许多子带尚未由任何父子关系被连接到其他子带，也就是说许多子带仍然使它们的标志SCAN被设定为OFF，并因此不被分析，这与在原来的FSZ算法中所执行的相反。

Claims

1.一种用于压缩视频序列的编码方法，所述视频序列被分成帧组(GOF)，所述帧组借助三维(3D)小波变换被分解成为给定数目的连续分辨率级，其相应于所述变换的分解级，所述方法基于分层子带编码处理，该处理导致从每一GOF的原来一组图像元素(像素)产生组成分层金字塔的变换系数，一个空间时间定向树定义在所述分层金字塔内的空间-时间关系，在所述空间时间定向树中，根用从3D小波变换产生的近似子带的像素形成，每一这些像素的子孙用更高子带的像素形成，这些更高的子带相应于由这些根像素定义的图像卷，3D小波变换的初始子带结构通过一个接一个地扫描子带保存，其顺序遵守在所述空间-时间树内形成的父-子关系，并且特定的一位标志被添加在空间-时间树的每一系数上，其中要考虑到系数的最高有效位的渐进传输，这些标志是这样的，即它们中的至少一个说明一组像素的状态，和至少另一个说明一个单一像素的状态，所述编码方法的进一步的特征在于，一个附加的、特定的一位标志被添加到空间-时间树的每一子带，用以给出关于该子带的系数的总状态的信息，然后把关于每一子带的父子关系的所述附加信息用于下述决定：

-当它的附加标志具有它的两个可能的值中称为“on”的第一个时，每一子带必须被处理，它的至少一个系数具有系数标志“on”；

-当它的附加标志具有它的两个可能的值中称为“off”的第二个时，每一子带必须被跳过，它的所有系数标志为“off”。

2.根据权利要求1所述的方法，其中，两个标志说明一组像素的状态，并且对于所述空间-时间树的每一系数(x，y，z)，如果D(x，y，z)仍是不重要的，则它们是FS1；而如果L(x，y，z)仍是不重要的，则它们是FS2，

-其中，D(x，y，z)是节点(x，y，z)的所有派生节点的坐标组，而L(x，y，z)＝D(x，y，z)-O(x，y，z)，O(x，y，z)是节点(x，y，z)的直接子孙的坐标组，和

-两个标志说明一个单一像素的状态，并且如果当前像素是重要的，则它们是FP3；而如果当前像素是不重要的或它的重要性待分析，则它们是FP4，所述编码方法的进一步的特征在于，在将最低空间-时间子带的所有系数置标志FP4和将所述最低空间-时间子带的8个系数中的7个置标志FS1的初始化步骤后，另外的标志对于最低空间-时间子带被置为它的两个值的第一个(“on”)上，对于所有其他的子带则被置为第二个(“off”)上，并计算最高重要性级MSL，根据所述扫描顺序实现的空间-时间树的探索包括下面的步骤：

从位平面n＝MSL向下到0，执行空间时间树的全探索，其中对于每一子带：

A)如果所述附加的标志具有它的第二个值，则跳过该子带，直接到该空间时间树中的下一子带；

B)如果所述附加的标志具有它的第一个值，则给该空间-时间树的每一系数(x，y，z)提供下面的动作：

a)设定重要性：

1)如果标志FS1为ON，则输出＝S_n(D(x，y，z))。

如果S_n(D(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈O(x，y，z)，置标志FP4；

-从(x，y，z)中清除标志FS1；

-如果L(i，j)≠0，则置标志FS2；

-分别对包含每一(x’，y’，z’)∈O(x，y，z)的每一子带置所述附加的标志为其第一值。

2)如果标志FS2为ON，则输出＝S_n(L(x，y，z))。

如果S_n(L(x，y，z))＝1，则：

-对于每一(x’，y’，z’)∈O(x，y，z)，置标志FS1；

-从(x，y，z)中清除标志FS2；

b)像素重要性：

1)如果标志FP3为ON，则输出＝(x，y，z)的第n位。

2)如果标志FP4为ON，则输出＝S_n(x，y，z)。

如果S_n(x，y，z)＝1，则：

置标志FP3为ON；

输出符号(x，y，z)；

清除标志FP4。