CN1764280A

CN1764280A - 基于多层在视频编码器中有效压缩运动矢量的方法和装置

Info

Publication number: CN1764280A
Application number: CNA2005101138931A
Authority: CN
Inventors: 韩宇镇; 李教爀; 李宰荣; 车尚昌; 李培根; 河昊振
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-10-21
Filing date: 2005-10-21
Publication date: 2006-04-26
Anticipated expiration: 2025-10-21
Also published as: KR20060035542A; KR100664929B1; US20060088101A1; US8116578B2; US20120189061A1; US20110110432A1; US7889793B2; CN1764280B; US8520962B2

Abstract

提供了一种方法和装置，其通过在使用多层的视频编码方法中、从基本层中的运动矢量有效预测增强层中的运动矢量，来提高运动矢量的压缩效率。该方法包括：从输入帧中获得具有第一帧速率的基本层帧中的运动矢量；从输入帧中获得具有第二帧速率的第一增强层帧中的运动矢量，该第二帧速率比第一帧速率大；如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生预测运动矢量；以及对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、以及所获得的基本层中的运动矢量进行编码。

Description

基于多层在视频编码器中有效压缩运动矢量的方法和装置

技术领域

本发明涉及一种视频压缩方法，并特别涉及这样的方法和装置，其在使用多层结构的视频编码方法中，通过从基本层中的运动矢量有效预测增强层中的运动矢量，来提高运动矢量的压缩效率。

背景技术

随着包括因特网的信息通信技术的发展，视频通信以及文本和语音通信急剧增加。传统的文本通信不能满足用户的各种需求，因此，可以提供诸如文本、画面和音乐的各种类型信息的多媒体服务增加了。然而，由于多媒体数据量通常较大，因此多媒体数据需要具有大容量的存储介质以及宽传输带宽。因此，对于传送包括文本、视频和音频的多媒体数据，压缩编码方法是必不可少的。

数据压缩的基本原理是消除数据冗余。通过消除在图像中重复相同颜色或对象的空间冗余、在运动图像中的相邻帧之间变化很小或者在音频中重复相同声音的时间冗余、或者考虑人类视觉及其有限的高频感知力的智力可视冗余(mental visual redundancy)，可以压缩数据。在通常的视频编码中，时间冗余是通过基于运动估计和补偿的运动补偿来消除的，而空间冗余是通过变换编码来消除的。

为了传送在消除数据冗余之后产生的多媒体，传输媒介是必需的。传输性能根据传输媒介而不同。目前使用的传输媒介具有各种传输速率。例如，超高速通信网络每秒可以传送几十兆比特的数据，而移动通信网络具有每秒384千比特的传输速率。因此，为了支持具有各种速度的传输媒介、或者以适于传输环境的数据速率来传送多媒体，诸如小波视频编码和分频段(subband)视频编码的具有可伸缩性(scalability)的数据编码方法可适合于多媒体环境。

可伸缩性是指解码器部件或预解码器部件根据诸如比特率、错误率、***资源等的条件对单个压缩比特流进行部分解码的能力。解码器或预解码器将通过可伸缩编码而编码的比特流的仅仅一部分解压缩，并重放这一部分，以将其恢复为具有不同视频质量/分辨率等级或帧速率的多媒体序列。

图1是典型的可伸缩视频编码***的示意图。首先，编码器50将输入视频51编码，从而产生比特流52。预解码器60可以通过根据诸如比特率、分辨率或帧速率并且与解码器70的通信环境或解码器70的机械性能相关的提取条件，不同地截取从编码器50接收的比特流52，来提取不同的比特流53。典型地，预解码器60被实现为被包括在视频流服务器中，所述视频流服务器在可变网络环境下向最终用户提供可变的视频流。

解码器70从所提取的比特流53重建输出视频54。根据提取条件进行的比特流提取可以由解码器70来代替预解码器60执行、或者可以由预解码器60和解码器70二者来执行。

用于可伸缩视频编码的MPEG-4(运动画面专家组4)部分13标准化正处于发展中。具体地说，人们正付出很多的努力来实现基于多层结构的可伸缩性。例如，比特流可以由多个层、即具有不同分辨率(QCIF、CIF和2CIF)或帧速率的基本层以及第一和第二增强层组成。

与把视频编码为单个层一样，当把视频编码为多个层时，获得所述多个层的每一个的运动矢量(MV)以消除时间冗余。可以为每层单独搜索运动矢量MV(前一方法)，或者将通过对一层的运动矢量搜索而获得的运动矢量用于另一层(不经上采样/下采样或者在上采样/下采样之后)(后一方法)。前一方法具有获得精确运动矢量的优点，但是承受了由于为每层产生的运动矢量而导致的开销。因此，有效减少每层的运动矢量之间的冗余是一项非常有挑战性的任务。

图2示出了使用多层结构的可伸缩视频编解码示例。参考图2，基本层具有四分之一公共中间格式(QCIF)分辨率和15Hz的帧速率，第一增强层具有公共中间格式(CIF)分辨率和30Hz的帧速率，而第二增强层具有标准清晰度(SD)分辨率和60Hz的帧速率。例如，为了获得CIF和0.5Mbps的流，可以截取CIF_30Hz_0.7M的增强层比特流，以满足0.5M的比特率。以这一方式，可以实现空间、时间和SNR可伸缩性。因为如图2所示、由于运动矢量数量的增加而导致出现了为单层比特流产生的开销大约两倍的开销，因此从基本层进行运动预测非常重要。当然，由于运动矢量仅用于通过参考相邻帧而被编码的内帧，因此它不会被用于未参考相邻帧而被编码的内帧。

如图2所示，具有相同时间位置的各层中的帧10、20和30可被估计为具有相似的图像，从而具有相似的运动矢量。因此，目前使用的用于有效表示运动矢量的方法之一包括：从较低层的运动矢量预测当前层的运动矢量，并对预测值和实际运动矢量之间的差进行编码。

图3是解释用于使用运动预测来有效表示运动矢量的传统方法的图。参考图3，通常，将具有与当前层相同的时间位置的较低层中的运动矢量用作用于当前层运动矢量的预测运动矢量。

编码器以预定的精度获得基本层、第一增强层和第二增强层的运动矢量MV₀、MV₁和MV₂，并使用运动矢量MV₀、MV₁和MV₂来进行时间变换，以消除各层中的时间冗余。然而，编码器将基本层运动矢量MV₀、第一增强层运动矢量分量D₁和第二增强层运动矢量分量D₂发送给预解码器(或视频流服务器)。预解码器可以向解码器传送仅基本层运动矢量、基本层运动矢量和第一增强层运动矢量分量D₁、或者基本层运动矢量、第一增强层运动矢量分量D₁和第二增强层运动矢量分量D₂，以适应网络状况。

然后，解码器使用所接收的数据来重建合适的层的运动矢量。例如，当解码器接收到基本层运动矢量和第一增强层运动矢量分量D₁时，将第一增强层运动矢量分量D₁加到基本层运动矢量MV₀上，以便重建第一增强层运动矢量MV₁。使用重建的运动矢量MV₁来重建第一增强层的特征(texture)数据。

然而，在如图2所示当前层具有与较低层不同的帧速率时，具有与当前帧相同的时间位置的较低层的帧可能不存在。例如，由于在帧40下面的层的帧不存在，因此不能进行通过较低层运动矢量进行的运动预测。也就是说，由于不能预测帧40中的运动矢量，因此第一增强层中的运动矢量被低效地表示为冗余运动矢量。

发明内容

本发明提供一种用于根据基本层中的运动矢量有效预测增强层中的运动矢量的方法。

本发明还提供一种即使在与当前层的帧相同的时间位置处不存在较低层的帧也有效预测运动矢量的方法。

根据本发明的一个方面，提供一种用于有效地压缩多层运动矢量的方法，该方法包括：(a)从输入帧中获得具有第一帧速率的基本层帧中的运动矢量，(b)从输入帧中获得具有第二帧速率的第一增强层帧中的运动矢量，该第二帧速率比第一帧速率大，(c)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生预测运动矢量，以及(d)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、以及所获得的基本层中的运动矢量进行编码。

根据本发明的另一方面，提供一种用于有效地对多层运动矢量进行编码的方法，该方法包括：(a)从输入帧中获得具有第一帧速率的基本层帧中的运动矢量，(b)从输入帧中获得具有第二帧速率的第一增强层帧中的运动矢量，该第二帧速率比第一帧速率大，(c)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生预测运动矢量，(d)使用基本层帧的运动矢量来对基本层帧的特征数据进行有损编码，(e)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、以及所获得的基本层中的运动矢量进行编码，以及(f)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、基本层帧中的运动矢量、步骤(d)的有损编码结果以及步骤(e)的有损编码结果进行无损编码。

根据本发明的另一方面，提供了一种多层视频编码方法，包括：(a)从输入帧中获得具有第一帧速率的基本层帧中的运动矢量，(b)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生运动矢量，(c)使用基本层帧的运动矢量来对基本层帧的特征数据进行有损编码，(d)使用第一增强层帧的运动矢量来对第一增强层帧的特征数据进行有损编码，以及(e)对基本层帧中的运动矢量、步骤(c)的有损编码结果以及步骤(d)的有损编码结果进行无损编码。

根据本发明的另一方面，提供一种多层视频解码方法，包括：(a)从输入比特流中提取基本层数据和增强层数据，(b)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生第一增强层帧的运动矢量，(c)使用所产生的预测运动矢量来重建增强层的运动矢量，以及(d)使用重建的增强层的运动矢量，从增强层的特征数据重建视频序列。

根据本发明的另一方面，提供一种多层视频解码方法，包括：(a)从输入比特流中提取基本层数据和增强层数据，(b)如果在与增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧，来重建增强层帧中的运动矢量，以及(c)使用重建的增强层的运动矢量，从增强层的特征数据重建视频序列。

附图说明

通过参考附图详细描述本发明的优选实施例，本发明的以上和其它特征及优点将变得更加清楚，在附图中：

图1示出一般的可伸缩视频编码***的整体配置；

图2是使用多层结构的视频编码的图；

图3是解释用于使用运动预测来有效地表示运动矢量的传统方法的图；

图4是解释根据本发明实施例的使用运动预测来有效地表示运动矢量的方法的图；

图5是解释本发明的思想的示意图；

图6是根据本发明示例实施例的视频编码器的方框图；

图7是解释本发明示例实施例的运动矢量估计单元的详细操作的流程图；

图8图示前一个和下一个帧的运动场的示例；

图9是解释本发明示例实施例的滤波处理的图；

图10是解释当基本层的分辨率和增强层的分辨率彼此不同时、获得滤波后的运动矢量的本发明示例实施例的方法的图；以及

图11是根据本发明实施例的视频解码器的方框图。

具体实施方式

现在将参考附图更充分地描述本发明，在附图中示出了本发明的示例实施例。通过参考对示例实施例和附图的以下详细描述，将更容易地理解本发明的优点和特征以及实现它们的方法。然而，本发明可以用很多不同的形式来实施，而不应被解释为限于在此阐述的实施例。更确切地说，提供这些实施例，使得本公开将详尽且完整，并将向本领域技术人员充分传达本发明的思想，并且，本发明将仅仅受到所附权利要求的限定。在本说明书中，相同的附图标记表示相同的元件。

运动预测进行得越精确，由于运动矢量而导致的开销就变得越少。与将较低层中的运动矢量即MV₀和MV₁用作估计运动矢量MV_1p和MV_2p的情况不同，在采用更精确的运动估计方法的情况中，如图4所示，运动矢量MV₀和MV₁显示出与矢量11和13相同的运动效果。也就是说，与传送当前层中的运动矢量和当前层的较低层中的运动矢量之间的差值12、以及第二增强层中的运动矢量和当前层中的运动矢量之间的差值14的传统技术不同，在将估计运动矢量MV_1p和MV_2p用于更精确的运动估计的情况下，仅仅必须存储较小的值D₁和D₂。因此，可以减少运动矢量所需的比特量，并且将对应于所减少的比特量的比特分配给特征，从而提高画面质量等级。

为了实现这一点，第一，应当仅通过读取较低层的运动信息而没有其它信息来进行产生估计运动矢量MV_1p和MV_2p的处理。第二，应当把所参考的运动矢量设置为基本上接近当前层中的运动矢量。

图5是解释本发明的基本思想的示意图。在此示例中，假设当前层L_n具有CIF分辨率和30Hz的帧速率，而较低层L_n-1具有QCIF分辨率和15Hz的帧速率。

在本发明中，如果在与当前层的帧相同的时间位置处存在基本层帧，则通过参考该基本层帧中的运动矢量来产生预测运动矢量。另一方面，如果不存在对应于当前层帧的基本层帧，则使用位置最接近该时间位置的基本层帧的至少一个中的运动矢量来产生预测运动矢量。参考图5，分别根据具有与当前层帧A₀和A₂相同的时间位置的较低层帧B₀和B₂中的运动矢量，预测当前层帧A₀和A₂中的运动矢量。这里，“所预测的运动”的含义基本上是正被产生的预测运动矢量。

另一方面，使用最接近该时间位置的帧B₀和B₂中的运动矢量，产生在相同时间位置处不具有对应的较低层帧的帧A₁的预测运动矢量。为了实现这一点，对帧B₀和B₂中的运动矢量进行插值，以产生与帧A₁相同的时间位置处的虚拟运动矢量(虚拟帧B₁中的运动矢量)，并使用该虚拟运动矢量来预测帧A₁的运动矢量。

例如，假设当前层的帧A1使用当前层帧A₀和A₂作为参考帧来进行双向预测，则正向和反向运动矢量可以分别使用较低层帧B₀和B₂来进行有效预测。

如果较低层帧B₀具有反向运动矢量(将B₂作为参考帧)，则较低层帧B₀的反向运动矢量的所参考(refer)的距离是当前层运动矢量的距离的两倍。因此，当考虑所参考的距离和方向时，可以通过将帧B₀的反向运动矢量乘以-1/2来计算帧A₁的正向运动矢量的预测运动矢量。此外，可以通过将帧B₀的反向运动矢量乘以1/2来计算帧A₁的反向运动矢量的预测运动矢量。为了减小计算误差，还可以将通过对帧B₀的反向运动矢量和所计算的帧A₁的正向运动矢量求和而获得的值用作帧A₁的反向运动矢量的预测运动矢量。

同时，如果较低层的帧B₂具有正向运动矢量(将B₀作为参考帧)，则较低层帧B₂的正向运动矢量的所参考的距离是当前层运动矢量的距离的两倍。因此，当考虑所参考的距离和方向时，可以通过将帧B₂的正向运动矢量乘以1/2来计算帧A₁的正向运动矢量的预测运动矢量。此外，可以通过将帧B₂的正向运动矢量乘以-1/2来计算帧A₁的反向运动矢量的预测运动矢量。为了减小计算误差，还可以将通过从所计算的帧A₁的正向运动矢量中减去帧B₂的正向运动矢量而获得的值用作帧A₁的反向运动矢量的预测运动矢量。

图6是根据本发明实施例的视频编码器100的方框图。尽管图6示出使用一个基本层和一个增强层，但是本领域技术人员将容易地明白：当使用两个或更多层时，可以在较低层和较高层之间应用本发明。

参考图6，视频编码器10包括：下采样单元110；运动估计单元121、131；有损编码器125、135；运动矢量估计单元140和熵编码器150。

下采样单元110将输入视频下采样为适合于每层的分辨率和帧速率。当如图5所示使用QCIF@15Hz的基本层和CIF@30Hz的增强层时，将原始输入视频下采样为CIF和QCIF分辨率，并随后将其下采样为15Hz和30Hz的帧速率。对分辨率进行下采样可以使用MPEG下采样单元或小波下采样器来进行。对帧速率进行下采样可以使用帧跳跃或帧插值来进行。

如上所述，对本领域技术人员来说，显然，增强层不同时具有比基本层更高的分辨率和更高的帧速率，而是具有比基本层高的分辨率和与基本层相同的帧速率、或者与基本层相同的分辨率和比基本层高的帧速率。

运动估计单元121对基本层帧进行运动估计，以获得基本层帧中的运动矢量。运动估计是寻找与当前帧中的块最接近的块、即具有最小误差的块的过程。在运动估计中可以使用各种技术，包括固定大小块匹配和分级可变大小块匹配(HVSBM)。以相同的方式，运动估计单元131对增强层的帧进行运动估计，以便获得增强层帧中的运动矢量。以这一方式获得基本层帧和增强层帧中的运动矢量，以便使用虚拟运动矢量来预测增强层帧中的运动矢量。

运动矢量预测单元140使用基本层帧中的运动矢量来产生增强层帧中的预测运动矢量，并获得所得到的运动矢量和增强层帧中的预测运动矢量之间的差(以下称为“运动矢量分量”)。

现在将参考图7更详细地描述由运动矢量预测单元140进行的操作。首先，在步骤S10确定在与增强层中的当前帧相同的时间位置处是否存在基本层帧。如果存在(步骤S10中的是)，则在步骤S20，对与当前帧具有空间相关性的基本层帧中的运动矢量进行滤波。作为结果，产生与当前帧中的一个运动矢量相对应的滤波后的运动矢量。步骤S20将在下面参考图9和10来进行描述。

在步骤S30，确定增强层和基本层的分辨率是否相同。如果相同(步骤S30中的是)，则在步骤S40中，将当前帧中的运动矢量和由滤波产生的运动矢量相减。这是因为在相同分辨率的情况下，由滤波产生的运动矢量对应预测运动矢量。如果不相同(步骤S30中的否)，则在步骤S45，以增强层的分辨率对由滤波产生的运动矢量进行上采样。例如，如果增强层的分辨率是基本层分辨率的两倍，则术语“采样”意思是将由滤波产生的运动矢量放大两倍。在此情况下，上采样后的运动矢量是预测运动矢量。因此，在步骤S50，获得当前帧和上采样后的运动矢量之间的差。

同时，如果在步骤S10确定在与增强层中的当前帧相同的时间位置处不存在基本层帧(步骤S10中的否)，则在步骤S55和S60中，对位置紧接在该时间位置之前和之后的基本层帧(即，该时间位置之前和之后的最近的帧)中的运动矢量进行滤波。例如，在图5中，位置紧接在与当前帧A₁相同的时间位置之前和之后的帧是B₀和B₂。换句话说，在步骤S55，在紧接在该时间位置之前而存在的帧例如B₀中的运动矢量中，对与当前帧中的运动矢量具有空间相关性的运动矢量进行滤波，以产生滤波后的运动矢量。然后，在步骤S60，在紧接在该时间位置之后而存在的帧例如B₂中的运动矢量中，对与当前帧中的运动矢量具有空间相关性的运动矢量进行滤波，以产生滤波后的运动矢量。这一滤波处理与步骤S20中的滤波处理相似，其将在后面在图9和10中描述。

接下来，使用在步骤S55的滤波之后产生的滤波后的运动矢量、以及在步骤S60的滤波之后产生的滤波后的运动矢量，对当前帧和该时间位置处的“虚拟运动矢量”进行插值。可用的插值示例包括简单的平均方法、双线性插值、双三次插值等。如果距紧接在该时间位置之前和之后而存在的帧的距离不同，则与图5不同的是，优选地进行插值，使得增大插值加权因子，以便与距离成反比。如上所述，如果所述距离不同，则可以只使用距当前帧最近的一个帧。

与上述简单插值方法不同的是，考虑到运动矢量场的特性，可以确定紧接着的前一个帧和下一个帧的加权因子。如图8所示，显示了紧接着的前一个帧和下一个帧中的运动矢量(白色块部分是运动矢量被跳过的部分)，具有与当前帧中的某个运动矢量相同的空间位置的块是块61和块62。在紧接着的前一个帧的情况中，块61附近的块中的运动矢量(可放大或缩小转换)基本上与块61的运动矢量相同。另一方面，在紧接着的下一个帧的情况中，块62附近的块中的运动矢量大部分与块62的运动矢量不同。因此，当产生当前帧的运动矢量的预测运动矢量时，为了更精确的运动估计而优选地增大紧接着的前一个帧中的运动矢量的加权因子。也就是说，计算块61的运动矢量与块61附近的每个运动矢量之间的差的和，并且计算块62的运动矢量和块62附近的每个运动矢量之间的差的和。每个帧中的运动矢量的加权因子与所述差的和数成反比。由于解码器侧从编码器侧接收运动矢量，因此可以按照与编码器侧相同的方式来计算加权因子，而无需从编码器侧告知这种信息。

接下来，如果增强层的分辨率和基本层的分辨率相同(步骤S70中的是)，则所内插的虚拟运动矢量是预测运动矢量。因此，为了有效压缩运动矢量，在步骤S75，对当前帧中的运动矢量和虚拟运动矢量进行减法。减法结果成为增强层中的运动矢量分量。

另一方面，如果增强层的分辨率与基本层的分辨率不相同(步骤S70中的否)，则在步骤S80将所内插的虚拟运动矢量上采样为与增强层中的运动矢量一样大。如上所述，由于上采样后的运动矢量是预测运动矢量，因此在步骤S85对当前帧中的运动矢量和上采样后的运动矢量进行减法。

图9是用于解释滤波处理的图。这里，“滤波”是指使用增强层帧的运动矢量和与该增强层帧具有空间相关性的运动矢量来获得滤波后的运动矢量的过程。这里，具有“空间相关性”的位置是指“直接对应的位置”(第一实施例)、或者直接对应的位置和包括从该位置起扩大的附近位置的区域(第二实施例)。

将首先描述第一实施例。参照图9，如果增强层的分辨率和基本层的分辨率相同，则与运动矢量65具有空间相关性(即，位置直接对应位置矢量65)的运动矢量是运动矢量63。在此情况下，运动矢量63是“滤波后的运动矢量”。

如果增强层的分辨率和基本层的分辨率不相同，则与运动矢量65具有空间相关性(即，位置直接对应运动矢量65)的运动矢量是运动矢量64。在此情况下，运动矢量64是“滤波后的运动矢量”。当然，运动矢量64与运动矢量66、67和68以及运动矢量65均具有空间相关性。

接下来，将描述第二实施例，其中，不仅考虑位置直接对应某个运动矢量的运动矢量、还考虑其附近的运动矢量来进行滤波。在此情况下，在这里使用的术语“具有空间相关性的位置”意欲包含直接对应的位置和包括其附近的区域。以这种方式扩大该区域的原因是运动矢量具有空间相似性，并且考虑相邻的运动矢量可有利于运动预测。

如果增强层的分辨率和基本层的分辨率相同，如图9所示，而运动矢量63直接对应运动矢量65，则不仅考虑运动矢量63还考虑运动矢量63附近的运动矢量来进行滤波。例如，假设运动矢量63的“附近”是指运动矢量63周围的8个运动矢量，则可以通过包括运动矢量63的9个运动矢量的线性组合来获得滤波后的运动矢量。在此情况下，对运动矢量63施加相对较大的系数(即，较大的加权因子)，而对相邻的运动矢量施加相对较小的系数。显然，根据旁边或边缘的位置，可以将不同的加权因子施加到相邻的运动矢量。为了使用多个运动矢量获得滤波后的运动矢量，可以使用中值滤波器、双三次滤波器、二次滤波器或其它滤波器。

同时，如果增强层的分辨率和基本层的分辨率不相同，而运动矢量64直接对应运动矢量65，则不仅考虑运动矢量64还考虑运动矢量64附近的运动矢量来进行滤波。在增强层的分辨率和基本层的分辨率不相同的情况下，将参考图10描述获得滤波后的运动矢量的过程。

首先，假设基本层中的块对应第一增强层中的4个固定块。例如，块f对应由块f5、f6、f7和f8组成的区域。为了应用预定的插值方法以获得参考运动矢量，有必要在基本层中确定具有空间相关性的区域范围，并随后确定该区域范围内的运动矢量的加权因子。

例如，块f5的运动矢量与块b、e和f具有高空间相关性。由于块f5占据了对应于块f的区域的四分之一，因此可以预测：块f5相当大地与基本层中的块b、块e和块f空间相关。

如上所述，在确定了具有空间相关性的区域范围之后，对存在于该区域中的运动矢量进行滤波。在此情况下，优选的是，块f的加权因子大于块b或块e的加权因子。此外，可以使用各种滤波器，例如中值滤波器、双三次滤波器或二次滤波器。可用的插值示例包括简单的平均方法、双线性插值、双三次插值等。

可替换地，不仅块b、块e和块f，而且块a均可被包括在参考块的范围内。此外，可以将不同的加权因子分配给各个块，例如，将25％分配给块b，将25％分配给块e，将10％分配给块a，或者将40％分配给块f。可替换地，可以将参考块的区域设置为不仅包括紧邻的块，还包括间隔的块。本领域技术人员将认识到，可以按照与在本申请中具体讨论的方式不同的方式来实现本发明。如果基本层的分辨率与增强层的分辨率不同，则滤波后的运动矢量的比例(scale)与增强层的运动矢量比例不同。这是因为滤波后的运动矢量仅使用基本层中的运动矢量来进行滤波。在本发明中，以单独的方式进行上采样。

尽管在本发明的第二实施例中使用了固定块，但是可以使用可变的块来充分地实现根据空间相关性程度的适当滤波。

再次参考图6，有损编码器125使用从运动估计单元121获得的运动矢量来对基本层帧进行无损编码。有损编码器125可以包括时间变换单元122、空间变换单元123和量化单元124。

时间变换单元122使用从运动估计单元121获得的运动矢量、以及位置在时间上与当前帧不同的帧，创建预测帧并对当前帧和预测帧进行减法，从而减少时间冗余。作为结果，产生剩余的帧。当然，如果在不参考另一帧的情况下对当前帧进行编码，也就是说，如果当前帧是内帧，则它不需要运动矢量，并且跳过使用预测帧的时间变换处理。在时间变换处理中，为了支持时间可伸缩性，可以使用MCTF(运动补偿时间滤波)或UMCTF(非强制MCTF)。

空间变换单元123对由时间变换单元122产生的剩余的帧、或者原始输入帧进行空间变换，并产生变换系数。对于空间变换，可以使用DCT(离散余弦变换)、小波变换等。在采用DCT的情况中，变换系数是DCT系数，而在采用小波变换的情况中，变换系数是小波系数。

量化单元124对由空间变换单元123产生的变换系数进行量化。量化是指这样的过程：将由任意实数值表示的DCT系数分为预定间隔、以便将其表示为离散值，并将这些离散值与来自预定量化表的索引相匹配。

另一方面，有损编码器135使用由运动估计单元131获得的增强层帧中的运动矢量对增强层帧进行有损编码。有损编码器135包括时间变换单元132、空间变换单元133和量化单元134。由于除了有损编码器135对增强层帧进行有损编码以外，它进行与有损编码器125相同的操作，因此将不会给出对其的详细解释。

熵编码器150对由量化单元124和134获得的基本层和增强层的量化系数、由运动估计单元121产生的基本层的基本层运动矢量、以及由运动矢量估计单元140产生的增强层运动矢量分量无损编码(或熵编码)为输出比特流。诸如霍夫曼(Huffman)编码、算术编码和可变长度编码的各种编码方案均可用于无损编码。

尽管图6示出用于基本层的有损解码器135和用于增强层的有损解码器135是相分离的，但对本领域技术人员来说，显然可以使用单个有损解码器来处理基本层和增强层二者。

图11是根据本发明实施例的视频解码器200的方框图。

参考图11，视频解码器200包括熵解码器210、有损解码器225、235、以及运动矢量重建单元240。

熵解码器210进行熵编码的逆操作，并从输入比特流中提取基本层帧中的运动矢量、增强层帧的运动矢量分量、以及来自基本层帧和增强层帧的特征数据。

运动矢量重建单元240使用基本层中的运动矢量和增强层帧中的运动矢量分量来重建增强层中的运动矢量，现在将对此更详细地进行描述。运动矢量重建处理包括：如果在与第一增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧中的运动矢量来产生预测运动矢量，如果不存在，则通过参考紧接在该时间位置之前和之后而存在的基本层帧中的至少一个帧中的运动矢量，来产生预测运动矢量，并且，通过将所产生的预测运动矢量和增强层的运动矢量分量相加来重建增强层中的运动矢量。

如图7所示，除了解码器200对预测运动矢量和当前帧(增强层帧)的运动矢量分量执行加法步骤而与编码器100不同以外，运动矢量重建处理与运动矢量估计处理基本相同(参见图7)，执行步骤S40、S50、S75和S85均为对预测运动矢量和当前帧中的运动矢量的减法步骤。然而，产生预测运动矢量的方法是相同的，并且将不会给出对其的重复解释。

有损解码器235执行有损编码器(图6的135)的逆操作，以便使用重建的增强层帧中的运动矢量来从增强层帧的特征数据重建视频序列。有损解码器235包括逆量化单元231、逆空间变换单元232和逆时间变换单元233。

逆量化单元231对从增强层帧提取的特征数据进行逆量化。逆量化是这样的处理：使用在量化处理期间采用的量化表，根据在量化处理期间创建的对应量化索引来重建值。

逆空间变换单元232对逆量化结果进行逆空间变换。逆空间变换是由编码器100中的空间变换单元133进行的空间变换的逆操作。逆DCT和逆小波变换均处于可用于逆空间变换的技术之中。

逆时间变换单元233对逆空间变换结果执行时间变换单元132的逆操作，以便重建视频序列。更具体地说，逆时间变换单元233使用由运动矢量重建单元240重建的运动矢量来产生预测帧，并将该预测帧加到逆空间变换结果上，以便重建视频序列。当然，在编码器处没有被时间变换的内帧也不需要进行逆时间变换。

编码器100可以在编码期间使用基本层来消除增强层特征中的冗余。在此情况中，由于解码器200重建基本层帧、并使用重建的基本层帧和从熵解码器210接收的增强层帧中的特征数据来重建增强层帧，因此使用用于基本层的有损解码器225。

在此情况下，逆时间变换单元233使用重建的增强层帧中的运动矢量，来从增强层帧中的特征数据(逆空间变换结果)和重建的基本层帧重建视频序列。

尽管图11示出用于基本层的有损解码器225与用于增强层的有损解码器235相分离，但对本领域技术人员来说，显然可以使用单个有损解码器来处理基本层和增强层二者。

已经基于在每层中获得的运动矢量描述了更有效的运动矢量压缩和传送方法。在另一实施例中，在从多层之一获得运动矢量并对其进行上/下采样之后，如果有必要，可以将上/下采样后的运动矢量用作另一层中的运动矢量。在此情况下，可以节省运动矢量，增强层中的运动矢量精度可能劣化。

在此情况下，视频编码处理包括：从输入帧中获得具有第一帧速率的基本层帧中的运动矢量；获得具有比第一帧速率大的第二帧速率的增强层帧中的运动矢量；使用基本层帧中的运动矢量对基本层帧的特征数据进行有损编码；使用第一增强层帧中的运动矢量对第一增强层帧的特征数据进行有损编码；以及对基本层帧中的运动矢量和有损编码结果进行无损编码。

这里，获得增强层帧中的运动矢量包括：(1)如果在与增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧中的运动矢量，产生增强层帧中的运动矢量，以及(2)如果不存在，则通过参考紧接在该时间位置之前和之后而存在的基本层帧中的至少一个中的运动矢量，产生增强层帧中的运动矢量。

步骤(1)包括：使用预定的滤波器，对与增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波，并且如果基本层帧的分辨率与增强层帧的分辨率不相同，则对由该滤波产生的运动矢量进行上采样，使得该运动矢量变得与增强层的运动矢量相同。将所得的运动矢量用作增强层中的运动矢量，而不是用作预测运动矢量。

步骤(2)包括：如果在与增强层帧相同的时间位置处存在基本层帧，则通过参考紧接在该时间位置之前和之后而存在的基本层帧中的运动矢量，内插基本层帧中的虚拟运动矢量，并且如果基本层帧的分辨率与增强层帧的分辨率不相同，则对内插的虚拟运动矢量进行上采样，使得它与增强层中的运动矢量一样大。将所得的运动矢量用作增强层中的运动矢量，而不是用作预测运动矢量。

滤波处理、上采样处理和内插处理与上面所述相同，并且将不会给出对其的详细解释。

现在将描述根据本发明实施例的视频解码方法，其中，在如上所述从多层之一中获得运动矢量并对其进行上/下采样之后，使用上/下采样后的运动矢量作为另一层中的运动矢量。

该视频解码处理包括：从输入帧提取基本层帧中的运动矢量和增强层帧的特征数据；使用所提取的基本层帧中的运动矢量重建增强层帧中的运动矢量；以及从基本层帧的特征数据和第一增强层帧的特征数据重建视频序列。

重建增强层中的运动矢量包括：如果在与增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧来重建增强层帧中的运动矢量，而如果不存在，则通过参考紧接在该时间位置之前和之后而存在的基本层中的至少一个帧中的运动矢量，重建增强层帧中的运动矢量。

如上所述，仅使用基本层中的运动矢量而进行的增强层帧中的运动矢量重建处理与使用基本层中的运动矢量来产生增强层帧中的运动矢量的运动矢量编码处理基本相同。

尽管作为示例而在一个基本层和一个增强层的情况下描述了上述实施例，但对于本领域技术人员来说，显然可以针对多层而容易地实现本发明。如果所述多层由基本层、第一增强层和第二增强层组成，则也可以将用于基本层和第一增强层的算法应用于第一增强层和第二增强层。

如图6和11所示的每个相应分量可以是、但不限于执行某些任务的软件或硬件组件，例如现场可编程门阵列(FPGA)或者特定用途集成电路(ASIC)。可以有利地将模块配置为存在于可寻址存储介质上，并且将其配置为在一个或多个处理器上执行。因此，作为示例，模块可包括：诸如软件组件、面向对象的软件组件、类组件和任务组件的组件、进程、函数、属性、过程、子例程、程序代码的段、驱动程序、固件、微码、电路、数据、数据库、数据结构、表、数组和变量。可以将在这些组件和模块中提供的功能性合并到较少的组件和模块中，或者将其进一步分离为另外的组件和模块。此外，可以实现这些组件和模块，使得它们运行通信***中的一台或多台计算机。

根据本发明，可以提高多层运动矢量的压缩效率。

此外，可以提高被分段为具有相同比特率的多个层的图像的质量。

尽管参考本发明的示例实施例具体示出和描述了本发明，但是本领域普通技术人员应当理解：在不背离由所附权利要求限定的本发明的精神和范围的情况下，可以在其中进行各种形式和细节的改变。因此，应当理解，仅仅是从说明的意义上而提供上述实施例，而不应将其解释为对本发明的范围施加任何限制。

Claims

1.一种用于有效压缩多层运动矢量的方法，该方法包括：

(a)从输入帧中获得具有第一帧速率的基本层帧中的运动矢量；

(b)从输入帧中获得具有第二帧速率的第一增强层帧中的运动矢量，该第二帧速率比第一帧速率大；

(c)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生预测运动矢量；以及

(d)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、以及所获得的基本层中的运动矢量进行编码。

2.如权利要求1所述的方法，其中，操作(c)包括：

(c1)如果在与第一增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧中的运动矢量来产生预测运动矢量。

3.如权利要求2所述的方法，还包括：

(e)从输入帧中获得具有第三帧速率的第二增强层帧中的运动矢量，该第三帧速率比第一帧速率大；

(f)产生第二增强层帧的预测运动矢量，包括：(f1)如果在与第二增强层帧相同的时间位置处存在第一增强层帧，则通过参考该第一增强层帧中的运动矢量来产生预测运动矢量，(f2)如果不存在，则通过参考紧接在与第二增强层帧相同的时间位置之前和之后而存在的第一增强层帧中的至少一个帧中的运动矢量，来产生第二增强层帧的预测运动矢量；以及

(g)对第二增强层帧中的运动矢量和所产生的第二增强层帧中的预测运动矢量之间的差进行编码。

4.如权利要求2所述的方法，其中，操作(c1)包括：

(c11)使用预定的滤波器，对与第一增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；以及

(c12)如果基本层帧的分辨率与第一增强层帧的分辨率不相同，则对由滤波得到的运动矢量进行上采样，使得该运动矢量变得与第一增强层中的运动矢量一样大。

5.如权利要求4所述的方法，其中，根据空间相关性，利用分配给各个运动矢量的不同加权因子来进行滤波。

6.如权利要求1所述的方法，其中，操作(c)包括：

(c21)通过参考紧接在所述时间位置之前和之后而存在的基本层帧中的运动矢量，内插基本层帧中的虚拟运动矢量；以及

(c22)如果基本层帧的分辨率与第一增强层的分辨率不相同，则通过将所内插的虚拟运动矢量上采样为与第一增强层中的运动矢量一样大，来产生预测运动矢量。

7.如权利要求6所述的方法，其中，操作(c21)包括：通过在紧接在所述时间位置之前和之后而存在的基本层帧中分配具有较大的运动矢量一致性的基本层帧的高参考比，内插基本层帧中的虚拟运动矢量。

8.如权利要求6所述的方法，其中，操作(c21)包括：

(c211)在紧接在与增强层帧相同的时间位置之前而存在的基本层帧中的运动矢量中，使用预定的滤波器对与该增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；

(c212)在紧接在与增强层帧相同的时间位置之后而存在的基本层帧中的运动矢量中，使用预定的滤波器对与该增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；以及

(c213)通过将预定算法应用于操作(c211)和(c212)的滤波结果，内插虚拟运动矢量。

9.一种用于有效地对多层运动矢量进行编码的方法，该方法包括：

(c)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生预测运动矢量；

(d)使用基本层帧的运动矢量来对基本层帧的特征数据进行有损编码；

(e)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、以及所获得的基本层中的运动矢量进行编码；以及

(f)对第一增强层帧中的运动矢量和所产生的预测运动矢量之间的差、基本层帧中的运动矢量、操作(d)的有损编码结果以及操作(e)的有损编码结果进行无损编码。

10.如权利要求9所述的方法，其中，操作(c)包括：

11.一种多层视频编码方法，包括：

(b)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生运动矢量；

(c)使用基本层帧的运动矢量来对基本层帧的特征数据进行有损编码；

(d)使用第一增强层帧的运动矢量来对第一增强层帧的特征数据进行有损编码；以及

(e)对基本层帧中的运动矢量、操作(c)的有损编码结果以及操作(d)的有损编码结果进行无损编码。

12.一种多层视频解码方法，包括：

(a)从输入比特流中提取基本层数据和增强层数据；

(b)如果在与第一增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧的运动矢量，来产生第一增强层帧的运动矢量；

(c)使用所产生的预测运动矢量来重建增强层的运动矢量；以及

(d)使用重建的增强层的运动矢量，从增强层的特征数据重建视频序列。

13.如权利要求12所述的方法，其中，操作(b)包括：

(b1)如果在与增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧的运动矢量来产生预测运动矢量。

14.如权利要求13所述的方法，其中，操作(b1)包括：

(b11)使用预定的滤波器，对与增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；以及

(b12)如果基本层帧的分辨率与第一增强层帧的分辨率不相同，则通过将由滤波所产生的运动矢量上采样为与增强层中的运动矢量一样大，产生预测运动矢量。

15.如权利要求12所述的方法，其中，根据空间相关性，利用分配给各个运动矢量的不同加权因子来进行滤波。

16.如权利要求12所述的方法，其中，操作(b)包括：

(b21)通过参考紧接在与第一增强层帧相同的时间位置之前和之后而存在的基本层帧中的运动矢量，内插基本层帧的虚拟运动矢量；以及

(b22)如果基本层帧的分辨率与第一增强层的分辨率不相同，则通过将所内插的虚拟运动矢量上采样为与增强层中的运动矢量一样大，来产生预测运动矢量。

17.如权利要求16所述的方法，其中，操作(b21)包括：通过在紧接在所述时间位置之前和之后而存在的基本层帧中分配具有较大的运动矢量一致性的基本层帧的高参考比，内插基本层帧中的虚拟运动矢量。

18.如权利要求16所述的方法，其中，操作(b21)包括：

(b211)在紧接在与增强层帧相同的时间位置之前而存在的基本层帧中的运动矢量中，使用预定的滤波器对与该增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；

(b212)在紧接在与增强层帧相同的时间位置之后而存在的基本层帧中的运动矢量中，使用预定的滤波器对与该增强层帧中的运动矢量具有空间相关性的基本层帧中的运动矢量进行滤波；以及

(b213)通过将预定算法应用于操作(b211)和(b212)的滤波结果来内插虚拟运动矢量。

19.一种多层视频解码方法，包括：

(a)从输入比特流中提取基本层数据和增强层数据；

(b)如果在与增强层帧相同的时间位置处不存在基本层帧，则通过参考紧接在与增强层帧相同的时间位置之前和之后而存在的基本层帧中的至少一个帧，来重建增强层帧中的运动矢量，以及

(c)使用重建的增强层的运动矢量，从增强层的特征数据重建视频序列。

20.如权利要求19所述的方法，其中，操作(b)包括：如果在与增强层帧相同的时间位置处存在基本层帧，则通过参考该基本层帧来重建增强层的运动矢量。

21.一种在其上记录了计算机可读程序的记录介质，该程序用于执行权利要求1的方法。