CN105052139B

CN105052139B - 用于shvc的多个基础层参考图片

Info

Publication number: CN105052139B
Application number: CN201480017427.0A
Authority: CN
Inventors: 濮伟; 陈建乐; 李想; 马尔塔·卡切维奇; 瓦迪姆·谢廖金
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-04-04
Filing date: 2014-04-03
Publication date: 2018-06-26
Anticipated expiration: 2034-04-03
Also published as: WO2014165671A2; KR20150138308A; US20140301457A1; CN105052139A; WO2014165671A3; JP2016518769A; JP6352391B2; US9648353B2; EP2982109A2

Abstract

一种译码视频数据的方法可包含：接收与参考层、增强层或两者相关联的视频信息；以及使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。可将所述所产生的多个层间参考图片***参考图片列表中。可使用所述参考图片列表来译码所述增强层中的当前图片。所述层间滤波器可包括默认层间滤波器，或序列参数集合、视频参数集合或切片标头中用信号通知的替代层间滤波器。

Description

用于SHVC的多个基础层参考图片

技术领域

本发明大体上涉及视频译码和压缩，且明确地说，涉及可缩放视频译码(SVC)，包含用于高效视频译码(HEVC)的SVC，有时称为可缩放HEVC(SHVC)。

背景技术

数字视频能力可并入到较宽范围的装置中，包括数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置等。数字视频装置实施视频译码技术，例如MPEG-2；MPEG-4；ITU-T H.263；ITU-T H.264/MPEG-4，第10部分；高级视频译码(AVC)；目前尚在开发的高效视频译码(HEVC) 标准，以及此类标准的扩展所定义的标准中描述的那些技术。视频装置可通过实施此类视频译码技术来发射、接收、编码、解码和/或存储数字视频信息。

视频译码技术包含空间(图片内)预测和/或时间(图片间)预测来减少或去除视频序列中固有的冗余。对于基于块的视频译码，可将视频切片(例如，视频帧或视频帧的一部分) 可分为若干视频块其也可称为树块、译码单元(CU)，和/或译码节点。相对于同一图片中的相邻块中的参考样本，使用空间预测来编码图片的经帧内译码(I)切片中的视频块。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测，且相对于其它参考图片中的参考样本使用时间预测。图片可称为帧，且参考图片可称为参考帧。

空间或时间预测产生待译码块的预测块。残余数据表示待译码的原始块与预测块之间的像素差。根据指向形成预测块的参考样本块的运动向量，以及指示经译码块与预测块之间的差异的残余数据来编码经帧间译码块。根据帧内译码模式和残余数据来编码经帧内译码的块。为了进一步压缩，可将残余数据从像素域变换到变换域，从而产生残余变换系数，其可量化。经量化的变换系数最初可布置成二维阵列，且经扫描以便产生变换系数的一维向量，且可应用熵译码来实现更多的压缩。

发明内容

根据一些实施方案，一种经配置以译码视频信息的设备包含处理器和存储器。所述存储器经配置以存储与参考层、增强层或两者相关联的视频信息。处理器与存储器通信。处理器经配置以使用多个层间滤波器和一或多个参考层图片，产生多个层间参考图片。

在一些实施方案中，处理器进一步经配置以将多个层间参考图片***参考图片列表中。处理器可进一步经配置以使用参考图片列表来译码增强层中的当前图片。

在一些实施方案中，层间滤波器包括上取样滤波器。层间滤波器中的一些或全部可为预定义的。可在序列参数集合或视频参数集合中用信号通知层间滤波器。可在切片标头中同信号通知层间滤波器。

在一些实施方案中，层间滤波器包括在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个默认层间滤波器和至少一个替代层间滤波器。处理器可进一步经配置以应用所述多个层间参考图片中的至多一个可供使用的限制。

在一些实施方案中，层间滤波器包括一或多个默认层间滤波器和一或多个替代层间滤波器。所述处理器可进一步经配置以在将使用一或多个替代层间滤波器产生的层间参考图片添加到层间参考图片集合之前，将使用一或多个默认层间滤波器产生的层间参考图片添加到层间参考图片集合。或者，所述处理器可进一步经配置以在将使用一或多个替代层间滤波器产生的层间参考图片添加到层间参考图片集合之后，将使用一或多个默认层间滤波器产生的层间参考图片添加到层间参考图片集合。

在一些实施方案中，所述设备包括编码器，且所述处理器进一步经配置以产生与层间滤波器相关联的语法元素。在一些实施方案中，所述设备包括解码器，且所述处理器进一步经配置以处理与层间滤波器相关联的语法元素。所述设备可包括以下各项中的至少一者：数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话，以及包括存储器和处理器的视频电话会议装置。

在另一实施方案中，一种译码视频信息的方法包含：接收与参考层、增强层或两者相关联的视频信息；以及使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。

在另一实施方案中，一种视频译码设备包含：用于接收与参考层、增强层或两者相关联的视频信息的装置；以及用于使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片的装置。

在另一实施方案中，一种非暂时性计算机可读媒体上面存储有代码，所述代码在被执行时，致使设备接收与参考层、增强层或两者相关联的视频信息；且使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。

附图说明

图1是说明可利用根据本发明中所描述的方面的技术的视频编码和解码***的实例的框图。

图2是可实施根据本发明中所描述的方面的技术的视频编码器的实例的框图。

图3是说明可实施根据本发明中所描述的方面的技术的视频解码器的实例的框图。

图4是说明根据本发明的方面的在三个不同维度中的可缩放性的框图。

图5是说明根据本发明的方面的可缩放视频译码(SVC)位流的实例结构的框图。

图6是说明根据本发明的方面的位流中的实例SVC存取单元的框图。

图7是说明根据一实施方案的对参考层图片进行上取样的实例的概念图。

图8说明根据一实施方案的用于译码视频数据的实例方法。

具体实施方式

本发明中所描述的技术通常与可缩放视频译码(SVC)和/或多视图/3D视频译码有关。举例来说，所述技术可与高效视频译码(HEVC)可缩放视频译码(SVC)扩展有关，且结合所述扩展或在所述扩展内使用。在SVC中，可存在多个视频信息层。处于视频信息的最底部等级或最低等级处的层可充当基础层(BL)或参考层(RL)，且处于视频信息的最顶部等级或最高等级的层可充当经增强层(EL)。“经增强层”可被视为与“增强层”同义，且这些术语可互换使用。BL与EL之间的层可充当EL和/或RL。举例来说，给定层可为所述给定层下方(例如，在前)的层的EL，所述层例如为基础层或任何介入增强层。另外，给定层也可充当给定层上方(例如，之后)的增强层的参考层。基础层(例如，最低层)与顶部层(或最高层)之间的任何给定层可用作相对于给定层较高的层的层间预测参考，且可通过将低于给定层的层用作层间预测的参考来确定。

仅出于说明目的，本发明中所描述的技术是结合仅包含两个层(例如，较低等级层，例如参考层；以及较高等级层，例如经增强层)的实例来描述。应理解，本发明中所描述的实例也可扩展到具有多个参考层和增强层的实例。另外，为了便于阐释，以下揭示内容主要使用术语“图片”。然而，这些术语无意为限制性的。举例来说，下文所描述的技术可结合与视频单元相关联的其它术语使用，例如块(例如，CU、PU、TU、宏块等)、切片、帧、块等。

在SHVC中，可对参考层图片，例如基础层图片进行滤波，并将其***到参考图片列表中。举例来说，可将上取样滤波器应用于参考层图片，以产生层间参考图片。由于有限的计算资源，上取样滤波器中的滤波器分接头的数目是有限的。举例来说，在实践中，上取样滤波器中所提供的滤波器分接头的数目可低至三个，且通常不超过八个。

取决于参考层图片与增强层图片之间的频率特性，具有有限数目的滤波器分接头的单个滤波器可能不能够准确地解决每个频率下参考层与增强层图片之间的差异。举例来说，平滑图片可集中在低频上，而具有尖锐边缘的图片可具有较高频率内容。然而，对于具有低频和高频内容两者的图片，具有有限数目个滤波器分接头的单个滤波器可能不能够提供对低频和高频两者的足够频率响应。

为了改进计算效率，在一些实施方案中，视频译码器或解码器经配置以接收与参考层、增强层或两者相关联的视频信息，可经配置以使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。举例来说，可将至少两个层间滤波器应用于参考层图片，以产生至少两个层间参考图片。明确地说，所述至少两个层间滤波器中的一者可为上取样滤波器，其经设计以提供对较低频率的足够频率响应，而所述至少两个层间滤波器中的另一者可为上取样滤波器，其经设计以提供对较高频率的足够频率响应。所述至少两个层间滤波器中的每一者可设计有有限数目的滤波器分接头。因此，所述至少两个层间参考图片一起提供所有频率上的足够频率响应，而所述至少两个层间滤波器中的每一者中的有限数目的滤波器分接头改进了计算效率。

视频译码标准

本文所述的某些实施方案涉及高级视频编解码器中的可缩放视频译码，例如HEVC(高效视频译码)的层间预测。更具体地说，本发明涉及用于HEVC的可缩放视频译码(SVC)扩展中的层间预测的改进性能的***和方法。在下文的描述中，描述与某些有关的H.264/AVC技术；还论述HEVC标准和相关技术。虽然本文在HEVC和/或H.264 标准的上下文中描述了某些，但所属领域的一般技术人员可了解，本文所揭示的***和方法可适用于任何合适的视频译码标准。举例来说，本文所揭示的可适用于以下标准中的一或多个：ITU-TH.261、ISO/IEC MPEG-1视觉、ITU-TH.262或ISO/IEC MPEG-2视觉、ITU-TH.263、ISO/IECMPEG-4视觉和ITU-TH.264(也称为ISO/IEC MPEG-4AVC)，包括其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。

可缩放视频译码(SVC)可用来提供品质(也称为信噪比(SNR))可缩放性、空间可缩放性和/或时间可缩放性。举例来说，在一个实施例中，参考层(例如，基础层)包含足以以第一品质等级显示视频的视频信息，且增强层相对于参考层额外的视频信息，使得参考层和增强层一起包含足以以高于第一等级的第二品质等级(例如，较少噪声、较大分辨率、较佳帧速率等)显示所述视频的视频信息。增强层可具有与基础层不同的空间分辨率。举例来说，EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说， EL的空间纵横可等于BL的空间纵横的1.0、1.5或2.0倍。在一些实例中，EL的缩放因子可大于BL。举例来说，EL中的图片的大小可大于BL中的图片的大小。以此方式，尽管不是限制，但有可能EL的空间分辨率大于BL的空间分辨率。

在用于H.264的SVC扩展中，可使用为SVC提供的不同层来执行当前块的预测。此预测可称为层间预测。SVC中可利用层间预测方法，以便减少层间冗余。层间预测的一些实例可包含层间帧内预测、层间运动预测、层间模式预测和层间残差预测。层间帧内预测使用基础层中经搭配块的重构来预测增强层中的当前块。层间运动预测使用基础层的运动来预测增强层中的运动。层间模式预测基于基础层中的模式来预测增强层中的模式。层间残差预测使用基础层的残差来预测增强层的残差。

下文参考附图更全面地描述新颖***、设备和方法的各种方面。然而，本发明可以许多不同形式体现，且不应被解释为限于贯穿本发明而呈现的任何特定结构或功能。相反，提供这些方面是为了使本发明将全面且完整，且将向所属领域的技术人员完整传达本发明的范围。基于本文的教示，所属领域的技术人员将了解，本发明的范围意在涵盖本文所揭示的新颖***、设备和方法的任何方面，不管是独立于本发明的任何其它方面实施，还是与本发明的任何其它方面组合实施。举例来说，可使用本文所陈述的任何数目的方面来实施设备或实践方法。另外，本发明的范围意在涵盖使用除本文所陈述的本发明的各个方面之外或不同于所述方面的其它结构、功能性或结构和功能性来实践的此设备或方法。应理解，本文所揭示的任何方面可由权利要求的一或多个元素来体现。

尽管本文描述特定方面，但这些方面的许多变化和排列属于本发明的范围内。尽管提到优选方面的一些益处和优点，但本发明的范围无意限于特定益处、使用或目标。相反，本发明的方面意在广泛适用于不同无线技术、***配置、网络和传输协议，其中的一些在图中且在优选方面的以下描述中借助于实例来说明。详细描述和图式仅说明本发明而不是限制本发明，本发明的范围由所附权利要求书及其均等物界定。

图1是说明可利用根据本发明中所描述的方面的技术的视频编码和解码***的实例的框图。如图1中所示，***10包含源装置12，其提供稍后时间将由目的地装置14解码的经编码的视频数据。明确地说，源装置12经由计算机可读媒体16将视频数据提供给目的地装置14。源装置12和目的地装置14可包括各种各样装置中的任何一种，包含桌上型计算机、笔记本型(例如，膝上型)计算机、平板计算机、机顶盒、电话手持机(例如所谓的“智能”电话，所谓的“智能”平板电脑)、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似装置。另外，在一些实施方案中，***10可在单个装置中实施。举例来说，任何此类单一装置，包含电话手持机，可包括源装置12和目的地装置14两者，以及计算机可读媒体16。在一些情况下，源装置 12和目的地装置14可配备用于无线通信。

目的地装置14可经由计算机可读媒体16接收将解码的经编码视频数据。计算机可读媒体16可包括任何种类型的能够将经编码的视频数据从源装置12移到目的地装置14 的媒体或装置。在一个实例中，计算机可读媒体16可包括通信媒体，以使源装置12能够将经编码的视频数据直接实时发射到目的地装置14。经编码的视频数据可根据通信标准(例如无线通信协议)来调制，并发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成基于包的网络的一部分，例如局域网、广域网或全局网络，例如因特网。通信媒体可包含路由器、交换机、基站，或可对促进从源装置12到目的地装置14的通信有用的任何其它设备。

在一些实例中，经编码数据可从输出接口22输出到存储装置。类似地，可通过输入接口从存储装置存取经编码数据。存储装置可包含多种分布式或本地存取数据存储媒体中的任何一种，例如硬盘驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或任何其它用于存储经编码的视频数据的合适数字存储媒体。在另一实例中存储装置可对应于可存储源装置12所产生的经编码视频的文件服务器或另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取所存储的视频数据。文件服务器可任何类型的能够存储经编码的视频数据并将所述经编码的视频数据发射到目的地装置14的服务器。实例文件服务器包含网络服务器(例如，用于网站)、FTP 服务器、网络附加存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过任何标准数据连接(包含因特网连接)来存取经编码的视频数据。这可包含无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等)，或适合存取存储在文件服务器上的经编码视频数据的两者的组合。经编码的视频数据从存储装置的传输可为流式传输、下载传输或其组合。

本发明的技术不一定限于无线应用或设定。所述技术可在多种多媒体应用的支持下应用于视频译码，所述多媒体应用例如为空中电视广播、电缆电视传输、***发射、因特网流式视频传输(例如HTTP上动态自适应流式传输(DASH))、编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，***10可经配置以支持单向或双向视频传输，以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。

在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口22。在一些实施例中，无线通信装置，例如蜂窝式电话，可包括源装置12，其包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。在一些实施例中，无线通信装置，例如蜂窝式电话，可包括目的地装置14，其包含输入接口28、视频解码器30和显示装置32。举例来说，在一些情况下，单个无线通信装置可包括源装置12和目的地装置14两者。根据本发明，源装置12的视频编码器20可经配置以应用所述技术来译码包括符合多个标准或标准扩展的视频数据的位流。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12 可接收来自外部视频源18，例如外部相机的视频数据。同样地，目的地装置14可与外部显示装置介接，而不是包含集成显示装置。

图1所说明的***10仅为一个实例。用于为当前块的运动向量预测符的候选者列表确定候选者的技术可由任何数字视频编码和/或解码装置执行。尽管本发明的技术通常由视频编码装置执行，但所述技术也可由视频编码器/解码器，通常称为“CODEC”执行。此外，本发明的技术也可由视频预处理器执行。源装置12和目的地装置14仅为此类译码装置的实例，其中源装置12产生经译码的视频数据，以供发射到目的地装置14。在一些实例中，装置12、14可以大体上对称的方式操作，使得装置12、14中的每一者包含视频编码和解码组件。因此，***10可支持视频装置12、14之间的单向或双向视频发射，例如用于视频流式传输、视频重放、视频广播或视频电话。

源装置12的视频源18可包含视频捕获装置，例如摄像机、含有先前捕获的视频的视频存档，和/或用以接收来自视频内容提供者的视频的视频馈送接口。作为另一替代方案，视频源18可产生基于计算机图形的数据作为源视频，或直播视频、存档视频以及计算机产生的视频的组合。在一些情况下，如果视频源18为摄像机，那么源装置12和目的地装置14可形成所谓的相机电话或视频电话。然而，如上文所提到，本发明中所描述的技术一般可适用于视频译码，且可应用于无线和/或有线应用。在每一情况下，所捕获的、预捕获的或计算机产生的视频可由视频编码器20编码。经编码的视频信息可接着由输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含暂时媒体，例如无线广播或有线网络传输；或存储媒体(即，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘，或其它计算机可读媒体。举例来说，在其中源装置12和目的地装置14实施为单个装置(例如无线手持机)的一些实施方案中，计算机可读媒体16可包含任何存储媒体。在一些实例中，网络服务器(未图示)可接收来自源装置12的经编码的视频数据，并将经编码的视频数据提供给目的地装置14，例如，经由网络传输、直接有线通信等。类似地，媒体生产设施，例如光盘冲压设施的计算装置可接收来自源装置12的经编码的视频数据，并生产含有所述经编码的视频数据的光盘。因此，在各种实例中，可将计算机可读媒体16理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28接收来自计算机可读媒体16的信息。计算机可读媒体16的信息可包含视频编码器20所定义的语法信息，其也由视频解码器30使用，所述语法信息包含描述块和其它译码单元(例如，GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码的视频数据，且可包含多种显示装置中的任何一种，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器，或另一类型的显示装置。

视频编码器20和视频解码器30可根据视频译码标准，例如目前正在开发的高效视频译码(HEVC)标准来操作，且可符合HEVC测试模型(HM)。或者，视频编码器20和视频解码器30可根据其它专有或产业标准，例如ITU-TH.264标准，或者称为MPEG 4，第10部分；高级视频译码(AVC)，此类标准的扩展来操作。然而，本发明的技术不限于任何特定译码标准，包含但不限于上文所列标准中的任何一者。视频译码标准的其它实例包含MPEG-2和ITU-TH.263。在一些方面中，视频编码器20和视频解码器30可各自与音频编码器和解码器集成，且可包含适当的MUX-DEMUX单元，或其它硬件和软件，来处置共用数据流或单独数据流中的音频和视频两者的编码。如果适用，那么 MUX-DEMUX单元可符合ITUH.223多路复用器协议，或其它协议，例如用户数据报协议(UDP)。

视频编码器20和视频解码器30各自可实施为多种合适的编码器电路中的任何一种，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当所述技术部分地在软件中实施时，装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中，且在硬件中使用一或多个处理器来执行所述指令，以实施本发明的技术。视频编码器20 和视频解码器30中的每一者可包含在一或多个编码器或解码器中，其中的任一者可集成为相应装置中的组合式编码器/解码器(编解码器)的一部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置，例如蜂窝式电话。

JCT-VC正致力于HEVC标准的开发。HEVC标准化工作是基于称为HEVC测试模型(HM)的视频译码装置的演进模型。HM根据例如ITU-T H.264/AVC，假定视频译码装置相对于现有装置的若干额外能力。举例来说，鉴于H.264提供九种帧内预测编码模式， HM可提供至多达三十三种帧内预测编码模式。

一般来说，HM的工作模式描述可将视频帧或图片分为包含亮度和色度样本两者的树块或最大译码单元(LCU)序列。位流内的语法数据可界定LCU的大小，LCU为在像素数目方面最大的译码单元。切片包含若干在译码次序上连续的树块。可将视频帧或图片分割成一或多个切片。每一树块可根据四叉树***成译码单元(CU)。一般来说，四叉树数据结构每CU包含一各节点，其中根节点对应于树块。如果CU***成四个子CU，那么对应于所述CU的节点包含四个叶节点，其中的每一者对应于所述子CU中的一个。

四叉树数据结构的每一节点可提供对应CU的语法数据。举例来说，四叉树中的节点可包含***旗标，其指示对应于所述节点的CU***成若干子CU。CU的语法元素可递归地定义，且可取决于CU是否***成若干子CU。如果CU不进一步***，那么其称为叶CU。在本发明中，叶CU的四个子CU也将称为叶CU，即使不存在原始叶CU的明确***也是如此。举例来说，如果16x16大小的CU不进一步***，那么四个8x8子 CU也将称为叶CU，但16x16CU从不***。

CU具有与H.264标准的宏块类似的目的，除了CU不具有大小差别。举例来说，树块可***成四个子节点(也称为子CU)，且每一子节点又可为母节点，且***成另外四个子节点。最后的不***子节点，称为四叉树的叶节点，包括译码节点，也称为叶CU。与经译码位流相关联的语法数据可界定树块可***的最大倍数，称为最大CU深度，且也可定义译码节点的最小大小。因此，位流也可定义最小译码单元(SCU)。本发明使用术语“块”来指代HEVC的上下文中的CU、PU或TU中的任何一者，或其它标准的上下文中的类似数据结构(例如，H.264/AVC中的宏块或其子块)。

CU包含译码节点和预测单元(PU)，以及与所述译码节点相关联的变换单元(TU)。CU的大小对应于译码节点的大小，且形状必须为正方形。CU的大小的范围可从8x8像素至多达具有最大64x64像素或以上的树块的大小。每一CU可含有一或多个PU以及一或多个TU。与CU相关联的语法数据可例如描述将CU分割成一或多个PU。分割模式可在CU是经跳过或直接模式编码、帧内预测模式编码还是帧间预测模式编码之间不同。可将PU分割为形状为非正方形。与CU相关联的语法数据也可例如描述根据四叉树将CU分割成一或多个TU。TU的形状可为正方形或非正方形(例如，矩形)。

HEVC标准允许根据TU的变换，TU可针对不同CU而不同。TU通常基于为经分割LCU界定的给定CU内的PU的大小而定大小，但可能不总是这种情况。TU通常为与PU相同大小或小于PU。在一些实例中，可使用称为“残差四叉树”(RQT)的四叉树结构，将对应于CU的残余样本再分为较小的单元。RQT的叶节点可称为变换单元(TU)。可变换与TU相关联的像素差异值，以产生变换系数，其可量化。

叶CU可包含一或多个预测单元(PU)。一般来说，PU表示对应于对应CU的全部或一部分的空间区域，且可包含用于为PU检索参考样本的数据。此外，PU包含与预测有关的数据。举例来说，当PU经模式内编码时，用于PU的数据可包含在残余四叉树(RQT) 中，残余四叉树可包含描述对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经模式间编码时，PU可包含为PU界定一或多个运动向量的数据。为PU界定运动向量的数据可例如描述运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，和/或运动向量的参考图片列表(例如，列表0、列表1或列表C)。

具有一或多个PU的叶CU也可包含一或多个变换单元(TU)。可使用RQT(也称为 TU四叉树结构)来指定变换单元，如上文所论述。举例来说，***旗标可指示叶CU是否***成四个变换单元。接着，每一变换单元可进一步***成进一步的子TU。当TU 不进一步***时，其可称为叶TU。通常，对于帧内译码，属于叶CU的所有叶TU共享同一帧内预测模式。就是说，通常应用同一帧内预测模式来计算叶CU的所有TU的预测值。对于帧内译码，视频编码器可使用帧内预测模式来计算每一叶TU的残值，作为 CU的对应于TU的部分与原始块之间的差。TU不一定限于PU的大小。因此，TU可大于或小于PU。对于帧内译码，PU可与同一CU的对应叶TU位于同一位置。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

此外，叶CU的TU也可与相应的四叉树数据结构(称为残余四叉树(RQT))相关联。就是说，叶CU可包含指示如何将叶CU分割成TU的四叉树。TU四叉树的根节点通常对应于叶CU，而CU四叉树的根节点通常对应于树块(或LCU)。RQT的未***的TU 称为叶TU。一般来说，本发明使用术语和TU来分别指代叶CU和叶TU，除非另有备注。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一或多个视频图片。GOP可在GOP的标头、所述图片中的一者或一者以上的标头中或别处包含语法数据，其描述包含在GOP中的若干图片。图片的每一切片可包含切片语法数据，其描述相应切片的编码模式。视频编码器20通常对个别视频切片内的视频块操作，以便编码所述视频数据。视频块可对应于CU内的译码节点。视频块可具有固定的或变化的大小，且可根据指定译码标准而大小不同。

举例来说，HM支持各种PU大小的预测。假定特定CU的大小为2Nx2N，那么HM 支持2Nx2N或NxN的PU大小的帧内预测，以及2Nx2N、2NxN、Nx2N或NxN的对称 PU大小的帧间预测。HM还支持用于2NxnU、2NxnD、nLx2N和nRx2N的PU大小的帧间预测的不对称分割。在不对称分割中，CU的一个方向未经分割，而另一方向分割成25％和75％。CU的对应于25％分区的部分由“n”接以“上”、“下”、“左”或“右”的指示来指示。因此，例如，“2NxnU”指代水平分割的2Nx2N CU，其中2Nx0.5N PU在上，且2Nx1.5N PU在下。

在本发明中，“NxN”和“N乘N”可互换使用，以依据垂直和水平尺寸来指代视频块的像素尺寸，例如，16x16像素或16乘16像素。一般来说，16x16块在垂直方向上将具有16个像素(y＝16)，且在水平方向上具有16个像素(x＝16)。同样地，NxN块通常在垂直方向上具有N个像素，且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可布置成行和列。此外，块可能不一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说，块可包括NxM个像素，其中M不一定等于N。

在使用CU的PU的帧内预测或帧间预测译码之后，视频编码器20可为CU的TU 计算残余数据。PU可包括描述在空间域(也称为像素域)中产生预测像素数据的方法或模式的语法数据，且TU可包括在对残余视频数据应用变换之后变换域中的系数，所述变换例如为离散余弦变换(DCT)、整数变换、小波变换或概念上类似的变换。残余数据可对应于未经编码的图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含CU的残余数据的TU，且接着变换所述TU以产生CU的变换系数。

在用以产生变换系数的任何变换之后，视频编码器20可执行变换系数的量化。量化是既定具有其最广一般意义的广义术语。在一个中，量化指代其中量化变换系数以尽可能减少用来表示所述系数的数据量，从而提供进一步压缩的过程。量化过程可减少与所述系数中的一些或全部相关联的位深度。举例来说，可在量化期间将n位值向下舍入到m位值，其中n大于m。

在量化之后，视频编码器可扫描变换系数，从而从包含经量化的变换系数的二维矩阵产生一维向量。所述扫描可被设计成将较高能量(且因此较低频率)系数放置在阵列前面，且将较低能量(且因此较高频率)系数放置在阵列后面。在一些实例中，视频编码器 20可利用预定义扫描次序，来扫描经量化的变换系数，以产生可经熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应扫描。在扫描经量化的变换系数以形成一维向量之后，视频编码器20可例如，根据上下文自适应变长译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法，来对一维向量进行熵编码。视频编码器20还可对与经编码的视频数据相关联的语法元素进行熵编码，以供视频解码器30用来解码视频数据。

为了执行CABAC，视频编码器20可将上下文模型内的上下文指派给待发射的符号。上下文可与例如所述符号的相邻值是非零还是零有关。为了执行CAVLC，视频编码器 20可为待发射的符号选择变长码。可构造VLC中的码字，使得相对较短的代码对应于较可能的符号，而较长的代码对应于较不可能的符号。以此方式，VLC的使用可例如比将等长码字用于待发射的每一符号实现位节省。概率确定可基于指派给所述符号的上下文。

视频编码器20可进一步将语法数据，例如基于块的语法数据、基于帧的语法数据以及基于GOP的语法数据发送到视频解码器30，例如在帧标头、块标头、切片标头或 GOP标头中。GOP语法数据可描述相应GOP中的若干帧，且帧语法数据可指示用于编码对应帧的编码/预测模式。

图2是可实施根据本发明中所描述的方面的技术的视频编码器的实例的框图。视频编码器20可经配置以执行本发明的所述技术中的任一者或全部。作为一个实例，模式选择单元40可经配置以执行本发明中所描述的技术中的任一者或全部。然而，本发明的方面不限于此。在一些实例中，本发明中所描述的技术，包含下文相对于图7到8所描述的方法，可在视频编码器20的各种组件之间共享。在一些实例中，另外或代替地，处理器(未图示)可经配置以执行本发明中所描述的技术中的任一者或全部。

视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依靠空间预测来减少或去除给定视频帧或图片内的视频中的空间冗余。帧间译码依靠时间预测来减少或去除视频序列的邻近帧或图片内的视频中的时间冗余。模式内(I模式)可指代若干基于空间的译码模式中的任何一者。帧间模式，例如单向预测(P模式)或双向预测(B模式)，可指代若干基于时间的译码模式中的任何一种。

如图2中所示，视频编码器20接收待编码的视频帧内的当前视频块。在图1的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。对于视频块重构，视频编码器20还包含逆量化单元58、逆变换单元60和求和器62。还可包含去块滤波器(图2中未展示)，来对块边界进行滤波，以将成块假影从经重构的视频去除。如果需要，那么去块滤波器将通常对求和器62的输出进行滤波。除去块滤波器之外，也可使用额外的滤波器(循环中或循环后)。为了简洁，未展示此类滤波器，但如果需要，那么此类滤波器可对求和器 50的输出进行滤波(作为循环中滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。所述帧或切片可分为多个视频块。运动估计单元42和运动补偿单元44相对于一或多个参考帧中的一或多个块执行接收到的视频块的帧间预测译码，以提供时间预测。帧内预测单元46可替代地相对于与待译码的块相同的帧或切片中的一或多个相邻块，执行接收到的视频块的帧内预测译码，以提供空间预测。视频编码器20可执行多个译码遍次，例如为视频数据的每一块选择适当的译码模式。

此外，分割单元48可基于先前译码遍次中的先前分割方案的评估，将视频数据块分割成若干子块。举例来说，分割单元48可最初将帧或切片分割成若干LCU，且基于速率失真分析(例如，速率失真优化)将所述LCU中的每一者分割成若干子CU。模式选择单元40可进一步产生指示将LCU分割成子CU的四叉树数据结构。四叉树的叶节点 CU可包含一或多个PU以及一或多个TU。

模式选择单元40可例如基于错误结果来选择译码模式中的一者，帧内或帧间，且将所得的经帧内或帧间译码的块提供给求和器50以产生残余块数据，且提供给求和器 62以重构经编码块来用作参考帧。模式选择单元40还将语法元素，例如运动向量、模式内指示符、分区信息以及其它此类语法信息提供给熵编码单元56。

运动估计单元42和运动补偿单元44可高度集成，但出于概念目的而分开说明。运动估计单元42所执行的运动估计是产生运动向量的过程，其估计视频块的运动。运动向量例如可指示当前视频帧或图片内的视频块的PU相对于参考帧(或其它经译码单元) 内的预测块，相对于当前帧(或其它经译码单元)内正译码的当前块的位移。预测块是在像素差方面被发现与待译码的块密切匹配的块，像素差可由绝对差和(SAD)、方差和 (SSD)或其它差量度决定。在一些实例中，视频编码器20可计算存储在参考帧存储器64 中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42 可相对于整个像素位置和分数像素位置执行运动搜索，且输出具有分数像素精度的运动向量。

运动估计单元42通过将PU的位置与参考图片的预测块的位置进行比较，来计算经帧间译码切片中的视频块的PU的运动向量。参考图片可选自第一参考图片列表(列表0) 或第二参考图片列表(列表1)，其中的每一者识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元 44。

运动补偿单元44所执行的运动补偿可涉及基于运动估计单元42所确定的运动向量来取或产生预测块。并且，在一些实例中，运动估计单元42和运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44可即刻在参考图片列表的一者中定位运动向量所指向的预测块。求和器50通过将预测块的像素值从正译码的当前视频块的像素值减去，从而形成像素差值来形成残余视频块，如下文所论述。一般来说，运动估计单元42执行相对于亮度分量的运动估计，且运动补偿单元44将基于亮度分量计算的运动向量用于色度分量和亮度分量两者。模式选择单元40也可产生与视频块和视频切片相关联的语法元素，以供视频解码器30用来解码视频切片的视频块。

帧内预测单元46可帧内预测或计算当前块，作为运动估计单元42和运动补偿单元44所执行的帧间预测的替代方案，如上文所述。明确地说，帧内预测单元46可确定用来编码当前块的帧内预测模式。在一些实例中，帧内预测单元46可使用各种帧内预测来编码当前块，例如，在单独的编码遍次期间，且帧内预测单元46(或在一些实例中，模式选择单元40)可从测试过的模式中选择适当的帧内预测模式来使用。

举例来说，帧内预测单元46可使用对各种测试过的帧内预测的速率失真分析来计算速率失真值，且在测试过的模式之中选择具有最佳速率失真特性的帧内预测模式。速率失真分析通常确定经编码块与经编码以产生经编码块的原始未经编码块之间的的失真量(或错误)，以及用来产生所述经编码块的位速率(即，位数)。帧内预测单元46可从各种经编码块的失真和速率计算比率，以确定哪一帧内预测模式对所述块展现最佳速率失真值。

在为块选择帧内预测模式之后，帧内预测单元46可向熵编码单元56提供指示为所述块选择的帧内预测模式的信息。熵编码单元56可对指示选定帧内预测模式的信息进行编码。视频编码器20可在所发射的位流配置数据(其可包含多个帧内预测模式索引表，以及多个经修改的帧内预测模式索引表(也称为码字映射表))中包含各种块的编码上下文的定义，以及将用于所述上下文中的每一者的最可能帧内预测模式的指示、帧内预测模式索引表，以及经修改的帧内预测模式索引表。

视频编码器20通过将来自模式选择单元40的预测数据从正译码的原始视频块减去来形成残余视频块。求和器50表示执行此减法操作的组件。变换处理单元52将例如离散余弦变换(DCT)或概念上类似的变换等变换应用于残余块，从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。在任一情况下，变换处理单元52将变换应用于残余块，从而产生残余变换系数块。所述变换可将来自像素值域的残余信息转换到变换域，例如频域。变换处理单元52可将所得的变换系数发送到量化单元54。量化单元54量化变换系数以进一步降低位速率。量化过程可减少与所述系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元 54可接着执行包含所述经量化变换系数的矩阵的扫描。或者，熵编码单元56可执行所述扫描。

在量化之后，熵编码单元56对经量化的变换系数进行熵编码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码 (CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE) 译码或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可基于相邻块。在熵编码单元56的熵译码之后，可将经编码的位流发射到另一装置(例如，视频解码器30)，或存档以供以后发射或检索。

逆量化单元58和逆变换单元60分别应用逆量化和逆变换，来重构像素域中的残余块，例如，供以后用作参考块。运动补偿单元44可通过将残余块添加到参考帧存储器 64的帧中的一者的预测块来计算参考块。运动补偿单元44还可将一或多个内插滤波器应用于经重构的残余块，以计算用于运动估计中的子整数像素值。求和器62将经重构的残余块与运动补偿单元44所产生的经运动补偿的预测块相加，以产生经重构的视频块，来存储在参考帧存储器64中。所述经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块来对后续视频帧中的块进行帧间译码。

图3是说明可实施根据本发明中所描述的方面的技术的视频解码器的实例的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部，包含下文相对于图7到8所描述的方法。作为一个实例，运动补偿单元72和/或帧内预测单元74可经配置以执行本发明中所描述的技术中的任一者或全部。然而，本发明的方面不限于此。在一些实例中，本发明中所描述的技术可在视频解码器30的各种组件之间共享。在一些实例中，另外或代替地，处理器(未图示)可经配置以执行本发明中所描述的技术中的任一者或全部。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、、逆量化单元76、逆变换单元78、参考帧存储器82和求和器80。在一些实例中，视频解码器30可执行大体上与相对于视频编码器20(图2)而描述的编码遍次互反的解码遍次。运动补偿单元72可基于从熵解码单元70接收到的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收到的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块以及相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵编码，以产生经量化系数、运动向量帧内预测模式指示符，以及其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片等级和/或视频块等级下接收语法元素。

当将视频切片译码为经帧内译码(I)切片时，帧内预测单元74可基于用信号通知的帧内预测模式以及来自当前帧或图片的先前经解码块的数据，产生当前视频切片的视频块的预测数据。当将视频帧译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元72基于从熵解码单元70接收到的运动向量和其它语法元素，产生当前视频切片的视频块的预测块。可从参考图片列表中的一者内的参考图片中的一者产生预测块。视频解码器30可使用默认建构技术，基于存储在参考帧存储器82 中的参考图片来建构参考帧列表，列表0和列表1。运动补偿单元72通过剖析运动向量和其它语法元素来确定当前视频切片的视频块的预测信息，且使用所述预测信息来产生正解码的当前视频块的预测块。举例来说，运动补偿单元72使用接收到的语法元素中的一些来确定用以对视频切片的视频块进行译码的预测模式(例如，帧内或帧间预测)、帧间预测切片类型(例如，B 切片，P切片，或GPB切片)、所述切片的参考图片列表中的一者或一者以上的构造信息、所述切片的每一经帧间编码的视频块的运动向量、所述切片的每一经帧间译码视频块的帧间预测状态，以及用以解码当前视频切片中的视频块的其它信息。

运动补偿单元72还可执行基于内插滤波器的内插。在视频块的编码期间，运动补偿单元72可使用如视频编码器20所使用的内插滤波器来计算参考块的子整数像素的经内插值。在此情况下，运动补偿单元72可从接收到的语法元素确定视频编码器20所使用的内插滤波器，且使用内插滤波器来产生预测块。

逆量化单元76对位流中所提供且由熵解码单元70 解码的经量化的变换系数进行逆量化，例如去量化。逆量化过程可包含将视频解码器30所计算的量化参数QP_Y用于视频切片中的每一视频块，以确定量化程度，且同样地，确定应应用的逆量化的程度。

逆变换单元78将逆变换，例如，逆DCT、逆整数变换或概念上类似的逆变换过程应用于变换系数，以便产生像素域中的残余块。

在运动补偿单元72 基于运动向量和其它语法元素产生当前视频块的预测块之后，视频解码器30通过将来自逆变换单元78的残余块与运动补偿单元72所产生的对应预测块求和来形成经解码的视频块。求和器80 表示执行此求和运算的组件。如果需要，那么也可应用去块滤波器来对经解码的块进行滤波，以便去除成块假影。还可使用其它环路滤波器(在译码循环中，或在译码循环之后)来平滑像素过渡，或以其它方式改进视频品质。接着将给定帧或图片中的经解码的视频块存储在参考帧存储器82 中，参考帧存储器82 存储用于后续运动补偿的参考图片。参考帧存储器82还将用于以后呈现的经解码的视频存储在显示装置上，例如图1的显示装置32上。

HEVC中的运动补偿

如上文所提到，HEVC为下一代视频译码标准。一般来说，HEVC遵循先前视频译码标准的框架。HEVC的运动补偿循环可保持与H.264/AVC中的相同，即，当前帧的重构等于经去量化的系数r加时间预测P：

其中P指示P帧或切片的单向预测，或B帧或切片的双向预测。

HEVC中的运动补偿单元可不同于先前视频译码标准中的运动补偿单元。事实上，先前视频译码标准中的宏块的概念在HEVC中不存在。代替的是，宏块概念由基于一般四叉树方案的高度灵活的分层结构代替。在此方案内，界定三种类型的块，即，译码单元(CU)、预测单元(PU)和变换单元(TU)。CU是区分割的基本单元。CU类似于宏块的概念，但其不限制最大大小，且其允许递归分割成四个相等大小的CU，以改进内容适应性。PU是帧间/帧内预测的基本单元，且其可在单个PU内含多个任意形状的分区，以有效地译码不规则图像图案。TU是变换的基本单元。TU可独立于PU来界定；然而，其大小限于TU所属的CU。此将块结构分为三个不同概念允许其各自根据其角色来优化，这产生改进的译码效率。

可缩放视频译码

图4中展示不同维度下的可缩放性400的实例。在所述实例中，在三个维度402、404、406中实现可缩放性。在时间维度402中，时间可缩放性(T)可支持例如具有7.5Hz、15Hz或30Hz的帧速率。当支持空间可缩放性(S)404时，实现不同的分辨率，例如QCIF、 CIF和4CIF。对于每一特定空间分辨率和帧速率，可添加SNR(Q)层406来改进图片品质。可将来自每一层402、404、406的位流一起多路复用到三个位流中。一旦已以此可缩放方式编码视频内容，就可使用提取器工具来根据应用要求调整实际递送的内容，所述应用要求例如取决于客户端或传输信道。在图4中所示的实例中，每一立方体408含有具有相同帧速率(时间等级)、空间分辨率和SNR层的图片。可通过在任何维度402、 404、406中添加那些立方体408(图片)来实现较好的表示。当存在两个、三个或更多个所实现的可缩放性时，支持组合可缩放性。

根据SVC规范，具有最低空间410和品质412层的图片与H.264/AVC兼容，且处于最低时间等级414处的图片形成时间基础层，其可用较高时间等级处的图片来加强。除H.264/AVC兼容层之外，可添加若干空间和/或SNR增强层来提供空间和/或品质可缩放性。SNR可缩放性406也称为品质可缩放性。每一空间404或SNR 406增强层本身可在时间上缩放，具有与H.264/AVC兼容层相同的时间可缩放性结构。对于一个空间或 SNR增强层，其所依赖的下层也称为特定空间或SNR增强层的基础层。

图5中展示SVC译码结构500的实例。具有最低空间和品质层的图片(层0502和层1504中的图片，具有QCIF分辨率)与H.264/AVC兼容。其中，最低时间等级的那些图片形成时间基础层，如图5的层0502中所示。此时间基础层(层0)502可用较高时间等级(层1)504的图片来增强。除H.264/AVC兼容层504之外，可添加若干空间和/或SNR 增强层506、508、510来提供空间和/或品质可缩放性。举例来说，增强层可为与层2506 具有相同分辨率的CIF表示。在所述实例中，层3508为SNR增强层。如所述实例中所示，每一空间或SNR增强层本身可为时间可缩放的，具有与H.264/AVC兼容层相同的时间可缩放性结构。并且，增强层可增强空间分辨率和帧速率两者。举例来说，层4510 提供4CIF增强层，其使帧速率从15Hz进一步增加到30Hz。

如图6中所示，同一时刻中的经译码切片在位流次序中连续，且在SVC的环境中形成一个存取单元600。那些SVC存取单元600接着遵循解码次序，其可不同于显示次序，且例如由时间预测关系决定。

图7说明概念图700，其说明根据一实施方案的对参考层图片进行上取样的实例。在一些实施方案中，经配置以接收与参考层、增强层或两者相关联的视频信息的视频译码器或解码器可经配置以使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。如图所示，可将第一上取样滤波器722应用于参考层图片710，以产生第一层间参考图片720。另外，可将第二上取样滤波器732应用于参考层图片710，以产生第二层间参考图片730。在一些实施方案中，可将第一上取样滤波器722设计成充分再现较低频率，而可将第二上取样滤波器732设计成充分再现较高频率。另外，可任选地将第三上取样滤波器742应用于参考层图片710，以产生第三层间参考图片740。举例来说，可将第三上取样滤波器742设计成充分地再现第一上取样滤波器722或第二上取样滤波器732未充分再现的任何频率。第一上取样滤波器722、第二上取样滤波器732 和第三上取样滤波器742中的每一者可使用有限数目的滤波器分接头来实施。在一些实施方案中，第一上取样滤波器722、第二上取样滤波器732和第三上取样滤波器742中的每一者可使用不多于八个滤波器分接头来实施。

在一些实施方案中，可将第一层间参考图片720、第二层间参考图片730和第三层间参考图片740***参考图片列表中。明确地说，可使用参考图片列表来译码增强层中的当前图片。

在一些实施方案中，第一上取样滤波器722、第二上取样滤波器732和第三上取样滤波器742可为预定义的。或者，第一上取样滤波器722、第二上取样滤波器732和第三上取样滤波器742中的至少一者可为预定义的，而其它可在序列参数集合、视频参数集合或切片标头中用信号通知。或者，第一上取样滤波器722、第二上取样滤波器732 和第三上取样滤波器742中的每一者可在序列参数集合、视频参数集合或切片标头中用信号通知。

在SHVC中，可使用旗标将基础层参考图片标记为长期参考图片。举例来说，序列参数集合(SPS)中的表1中所示的语言可用来用信号通知长期图片：

表1

表1中的变量可描述如下：

等于0的long_term_ref_pics_present_flag可指定无长期参考图片用于CVS中的任何经译码图片的帧间预测，而等于1的long_term_ref_pics_present_flag可指定长期参考图片可用于CVS中的一或多个经译码图片的帧间预测。

num_long_term_ref_pics_sps可指定SPS(序列参数集合)中所指定的候选长期参考图片的数目。Num_long_term_ref_pics_sps的值可在0到32的范围内，包括0和32。

lt_ref_pic_poc_lsb_sps[i]可指定SPS中所指定的第i个候选长期参考图片的图片次序计数模数MaxPicOrderCntLsb。用来表示lt_ref_pic_poc_lsb_sps[i]的位的数目可等于 log2_max_pic_order_cnt_lsb_minus4+4。

等于0的used_by_curr_pic_lt_sps_flag[i]可指定SPS中所指定的第i个候选长期参考图片不用于供在其长期RPS中包含SPS中所指定的第i个候选长期参考图片的图片参考。

在切片标头中，表中所说明的以下语法元素可用来用信号通知当前图片的长期参考图片集合(RPS)：

表2

表2中的变量可描述如下：

num_long_term_sps可指定基于活动SPS中所指定的候选长期参考图片而得出的当前图片的长期RPS中的条目的数目。num_long_term_sps的值可在0到num_long_term_ref_pics_sps的范围内，包含0和num_long_term_ref_pics_sps。当不存在时，可推断num_long_term_sps的值等于0。

num_long_term_pics可指定切片标头中直接用信号通知的当前图片的长期RPS中的条目的数目。当不存在时，可推断num_long_term_pics的值等于0。

lt_idx_sps[i]可指定到当前图片的长期RPS中的第i个条目的活动SPS中所指定的候选长期参考图片列表中的索引。用来表示lt_idx_sps[i]的位的数目可等于 Ceil(Log2(num_long_term_ref_pics_sps))。当不存在时，可推断lt_idx_sps[i]的值等于0。lt_idx_sps[i]的值可在0到num_long_term_ref_pics_sps-1的范围内，包含0和 num_long_term_ref_pics_sps-1。

poc_lsb_lt[i]可指定当前图片的长期RPS中的第i个条目的图片次序计数模数MaxPicOrderCntLsb的值。poc_lsb_lt[i]语法元素的长度可为 log2_max_pic_order_cnt_lsb_minus4+4个位。

等于0的used_by_curr_pic_lt_flag[i]可指定当前图片的长期RPS中的第i个条目不用于供当前图片参考。

等于1的delta_poc_msb_present_flag[i]可指定delta_poc_msb_cycle_lt[i]存在。等于0的delta_poc_msb_present_flag[i]可指定delta_poc_msb_cycle_lt[i]不存在。

可使用delta_poc_msb_cycle_lt[i]来确定当前图片的长期RPS中的第i个条目的图片次序计数值的最高有效位的值。当delta_poc_msb_cycle_lt[i]不存在时，可推断其等于0。

在本文所述的各种实施方案中，可使用多个上取样滤波器来产生多个层间参考图片。可设计不同的上取样滤波器来反映不同的频率响应。可将这些图片***参考图片列表中，且用作层间参考图片来译码当前图片。除此类上取样滤波器之外，本文所述的技术、方法和实施方案也适用于任何其它种类的层间滤波器。

在SPS或VPS中用信号通知替代滤波器集合

替代的层间滤波器可为预定义的，或在SPS或VPS中明确地用信号通知。举例来说，在一些实施方案中，层间滤波器中的一些或全部可为预定义的。也可在序列参数集合或视频参数集合中用信号通知层间滤波器。在一些实施方案中，层间滤波器包括在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个默认层间滤波器和至少一个替代层间滤波器。如果层间滤波器中的任一者在SPS中明确地用信号通知，那么可使用表3中所示的语法。

表3中的变量可描述如下：

num_alt_filter_sps可指定替代滤波器的数目。

num_alt_filter_tap_minus3_luma和num_alt_filter_tap_minus3_chroma可分别指定亮度和色度滤波器分接头减3。

luma_phase_flag[i][k]和chroma_phase_flag[i][k]可指示第i个滤波器的相位k的存在。1可表示存在。0可表示不存在。

filter_tap_luma[i][k][j]和filter_tap_chroma[i][k][j]可表示滤波器分接头值，其可经差分译码来减少位。这些滤波器可用来产生不同的基础层参考图片。当不存在语法时，可将所述值设定为等于预定义的默认滤波器中的一个。

表3

在另一实施方案中，可将亮度和色度滤波器配对。在此实施方案中，可使用表4中所示的语法。可将隐式预定义滤波器和明确用信号通知的滤波器进行排序，以形成两个列表。滤波器在所述列表中的相对位置可遵循特定规则。

表4

在切片标头中用信号通知替代滤波器

也可在切片标头中用信号通知替代层间滤波器。如果所述层间滤波器中的任一者在切片标头中用信号通知，那么可使用表5中所示的语法。

表5中的变量可描述如下：

num_ilr_picture_minus1可指定层间参考图片的数目减1。

alt_filter_idx_luma[i]和alt_filter_idx_chroma[i]可分别指定第i个替代亮度和色度滤波器的索引。

default_filter_idx[i]可指定第i个默认滤波器的索引。

num_default_filter_used可指定所使用的未用信号通知的预定义滤波器的数目。如果未指定，那么所述值可设定为1。

num_alt_filter可等于num_ilr_picture_minus1+1-num_default_filter_used。

表5

一般来说，通常存在至少一个可用的默认滤波器。对于特定i，如果alt_filter_idx_luma[i]和alt_filter_idx_chroma[i]中的一者不可用，那么可将第一默认滤波器用于所述不可用的一者，如表5中所示。表6中的值alt_filter_idx[i]可指定用信号通知的替代滤波器的滤波器索引。

表6

在另一实施方案中，可使用一个默认层间滤波器以及一个预定义(或用信号通知)的替代层间滤波器。举例来说，在SPS中，可用信号通知旗标sps_alt_filter_enable_flag，以控制用于选定层间滤波器的指示的切片等级语法的存在。当此旗标等于1时，可在切片标头中用信号通知有关语法。此旗标也可在VPS(视频参数集合)中用信号通知。

在切片标头中，作为一个实例，可用信号通知以下语法：

if(sps_alt_filter_enable_flag)
		alternative_filter_used_flag	u(1)

如果alternative_filter_used_flag等于0，那么可使用默认滤波器。如果alternative_filter_used_flag等于1，那么可使用替代滤波器。另外，经译码图片的所有切片的alternative_filter_used_flag可具有相同值。

在另一实施方案中，可在切片标头中用信号通知以下语法：

if(sps_alt_filter_enable_flag&&first_slice_segment_in_pic_flag)
		alternative_filter_used_flag	u(1)

同一图片中在第一切片之后的切片可与第一切片共享相同的滤波器。

作为另一实例，可在切片标头中用信号通知以下语法：

if(sps_alt_filter_enable_flag)
		alternative_filter_used_idc	ue(v)

如果alternative_filter_used_idc等于0，那么可仅使用默认滤波器，而如果alternative_filter_used_idc等于1，那么可仅使用替代滤波器。如果alternative_filter_used 等于2，那么可使用所述两个滤波器两者。当使用两个滤波器时，可用两个滤波器产生两个层间参考图片。另外，经译码图片的所有切片的alternative_filter_used_idc可具有相同值。

不管使用哪些滤波器，这些滤波器所得出的参考图片可共享相同的运动场(包含预测模式、运动向量、参考idx等)信息(如果在空间可缩放性情况下，那么经上取样)以及相同的POC。在一些实施方案中，当将这些层间参考图片添加到层间参考图片集合时，其全部可标记为长参考图片。

限制双向预测

为了降低上取样复杂性，当使用双向预测时，对于特定，可应用以下符合限制，允许使用可用的多个经滤波参考图片中的至多一个。举例来说，可应用多个层间参考图片中的至多一个可供用来译码当前图片的限制。

层间参考图片集合建构和参考图片列表初始化

当建构sm层间参考图片集合来编码和/或解码增强层图片时，可将用替代滤波器产生的层间参考图片添加在默认滤波器所产生的层间参考图片之后(或之前)。一般来说，可以上文所提到的滤波器索引的次序，将层间参考图片添加到层间参考图片集合。举例来说，当层间滤波器包括一或多个默认层间滤波器和一或多个替代层间滤波器时，在将使用一或多个替代层间滤波器产生的层间参考图片添加到层间参考图片集合之前，可将使用一或多个默认层间滤波器产生的层间参考图片添加到层间参考图片集合。

当为切片初始化参考图片列表时，可将来自层间参考图片集合的参考图片以相同次序添加到列表0和列表1。或者，当为切片初始化参考图片列表时，可以升序将来自层间参考图片集合的参考图片添加到列表0，且以逆次序添加到列表1。

对用信号通知的系数的限制

正和负层间滤波系数的求和确定滤波过程内的最坏情况内部像素值的位深度。对于固定层间滤波器，可根据预定义的滤波系数来得出中间数据的动态范围。然而，对于经自适应用信号通知的滤波器，此信息可为未知的。为了限制滤波过程内的中间数据的动态范围，可对正和负层间滤波系数的求和强加约束。变量positive_sum_bound和 negative_sum_bound的阈值可为预定义的，且在编解码器中硬译码。也可在位流中，例如在SPS或VPS中，用信号通知所述值。

if(sps_alt_filter_enable_flag){
		positive_sum_bound	ue(v)
negative_sum_bound	ue(v)
		}

可要求具有以下位流约束：用信号通知的正层间滤波系数的求和可不大于positive_sum_bound，且用信号通知的负层间滤波系数的求和可不小于 -negative_sum_bound。

在一个实施方案中，一个滤波器的系数的求和可限制为(1<<N)，其中N指示滤波系数的动态范围。N的典型值可为6，其与SHVC中所使用的当前固定滤波器相同。考虑滤波系数求和的限制等于(1<<N)，可从positive_sum_bound-(1<<N)得出 negative_sum_bound。因此，对于此实施方案，约束正滤波系数的求和可为足够的。

在另一实施方案中，可使用另一约束。举例来说，可约束一个特定滤波系数的绝对值，使得其将不大于某一阈值。此阈值的值可小于上文提到的positive_sum_bound的值的所述值。本文所描述的此标准约束机制也可应用于任何其它种类的自适应滤波器，其中在位流中用信号通知所述滤波系数。

译码视频数据的方法

图8说明根据一实施方案的用于译码视频数据的实例方法。举例来说，方法800可由视频编码器20或视频解码器30的一或多个组件执行。在一些实施方案中，可使用其它组件来实施本文所述的步骤中的一者或一者以上。

在框802处，可接收与参考层、增强层或两者相关联的视频信息。举例来说，可从存储器接收视频信息。

在框804处，可使用多个层间滤波器和一或多个参考层图片来产生多个层间参考图片。举例来说，可将至少两个层间滤波器应用于参考层图片，以产生至少两个层间参考图片。明确地说，所述至少两个层间滤波器中的一者可为经设计以提供对较低频率的足够频率响应的上取样滤波器，而所述至少两个层间滤波器中的另一者可为经设计以提供对较高频率的足够频率响应的上取样滤波器。

将认识到，取决于实例，本文所述的技术中的任何一者的某些动作或事件可以不同序列执行，可添加、合并或一起省略(例如，不是所有所描述的动作或事件均对于技术的实践是必要的)。此外，在某些实例中，可例如通过多线程处理、中断处理或多个处理器来同时执行动作或事件，而不是循序地处理所述动作或事件。

在一或多个实例中，所描述的功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施，那么所述功能可存储在计算机可读媒体上或作为一或多个指令或代码经由计算机可读媒体传输，且由基于硬件的处理单元来执行。计算机可读媒体可包含：计算机可读存储媒体，其对应于有形媒体，例如数据存储媒体；或通信媒体，其包含促进计算机程序从一处到另一处的传送(例如，根据通信协议)的任何媒体。以此方式，计算机可读媒体通常可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)通信媒体，例如信号或载波。数据存储媒体可为可由一或多个计算机或一或多个处理器存取已检索指令、代码和/或数据结构来实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

作为实例而非限制，此计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM 或其它光盘存储装置、磁盘存储装置、或其它磁性存储装置、快闪存储器，或可用来以指令或数据结构的形式存储所要的程序代码且可由计算机存取的任何其它媒体。并且，任何连接均可适当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术，从网站、服务器或其它远程来源发射指令，那么所述同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。然而，应理解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时媒体，而是针对非暂时性的有形存储媒体。磁盘和光盘，如本文所使用，包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘以及蓝光光盘，，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。

指令可由一或多个处理器执行，例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)，或其它等效集成或离散逻辑电路。因此，术语“处理器”在本文中使用时，可指代适合实施本文所描述的技术的前述结构或任何其它结构中的任一者。另外，在一些方面中，本文所述的功能性可在经配置以用于编码和解码，或并入到组合式编解码器中的专用硬件和/或软件模块内提供。并且，所述技术可完全在一或多个电路或逻辑元件中实施。

本发明的技术可在各种各样的装置或设备中实施，包括无线手持机、集成电路(IC) 或一组IC(例如，芯片组)。本发明中描述各种组件、模块或单元来强调经配置以执行所揭示技术的装置的功能方面，但不一定要求通过不同硬件单元来实现。相反，如上文所描述，各种单元可在编解码器硬件单元中组合，或由相互操作的硬件单元的集合(包括如上文所述的一或多个处理器)结合合适的软件和/或固件提供。已描述了各种实例。这些和其它实例在所附权利要求的范围内。

Claims

1.一种经配置以译码视频信息的设备，所述设备包括：

存储器，其经配置以存储与参考层RL和增强层EL相关联的视频数据，其中所述RL包含RL图片，且所述EL包含对应于所述RL图片的当前图片；以及

处理器，其与所述存储器通信，所述处理器经配置以：

通过对所述RL图片应用多个对应的层间滤波器，基于所述RL图片产生多个层间参考图片，其中所述多个层间滤波器包括一或多个默认层间滤波器和一或多个替代层间滤波器；

将基于所述RL图片产生的所述多个层间参考图片添加到与所述当前图片相关联的层间参考图片集合，使得在将使用所述一或多个替代层间滤波器所产生的所述多个层间参考图片的一或多个层间参考图片添加到所述层间参考图片集合之前，将使用所述一或多个默认层间滤波器所产生的所述多个层间参考图片的一或多个层间参考图片添加到所述层间参考图片集合；以及

基于所述层间参考图片集合中的所述多个层间参考图片中的至少一者，预测所述当前图片。

2.根据权利要求1所述的设备，其中所述层间滤波器包括(i)第一层间滤波器，其经配置以再现第一组频率，以及(ii)第二层间滤波器，其经配置以再现不同于所述第一组频率的第二组频率。

3.根据权利要求1所述的设备，其中所述层间滤波器经设计以提供不同的频率响应。

4.根据权利要求1所述的设备，其中所述层间滤波器包括上取样滤波器。

5.根据权利要求1所述的设备，其中所述层间滤波器是预定义的。

6.根据权利要求1所述的设备，其中在序列参数集合或视频参数集合中用信号通知所述层间滤波器。

7.根据权利要求1所述的设备，其中在切片标头中用信号通知所述层间滤波器。

8.根据权利要求1所述的设备，其中所述层间滤波器包括至少一个默认层间滤波器，以及在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个替代层间滤波器。

9.根据权利要求1所述的设备，其中所述处理器进一步经配置以应用以下限制：所述多个层间参考图片中的至多一个可供用来预测所述当前图片。

10.根据权利要求1所述的设备，其中所述设备包括编码器，且所述处理器进一步经配置以在位流中用信号通知与所述层间滤波器相关联的语法元素。

11.根据权利要求1所述的设备，其中所述设备包括解码器，且所述处理器进一步经配置以接收位流中与所述层间滤波器相关联的语法元素。

12.根据权利要求1所述的设备，其进一步包括选自以下各项之中的至少一个成员：数字电视、数字直播***、无线广播***、个人数字助理PDA、膝上型或桌上型计算机、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话，以及视频电话会议装置及其组合，其包括所述存储器和所述处理器。

13.一种译码视频信息的方法，其包括：

接收与参考层RL和增强层EL相关联的视频数据，其中所述RL包含RL图片，且所述EL包含对应于所述RL图片的当前图片；

14.根据权利要求13所述的方法，其中所述层间滤波器包括(i)第一层间滤波器，其经配置以再现第一组频率，以及(ii)第二层间滤波器，其经配置以再现不同于所述第一组频率的第二组频率。

15.根据权利要求13所述的方法，其中所述层间滤波器经设计以提供不同的频率响应。

16.根据权利要求13所述的方法，其中所述层间滤波器包括上取样滤波器。

17.根据权利要求13所述的方法，其中所述层间滤波器中的至少一者是预定义的。

18.根据权利要求13所述的方法，其中在序列参数集合或视频参数集合中用信号通知所述层间滤波器。

19.根据权利要求13所述的方法，其中在切片标头中用信号通知所述层间滤波器。

20.根据权利要求13所述的方法，其中所述层间滤波器包括至少一个默认层间滤波器，以及在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个替代层间滤波器。

21.根据权利要求13所述的方法，其进一步包括应用以下限制：所述多个层间参考图片中的至多一个可供用来预测所述当前图片。

22.根据权利要求13所述的方法，其进一步包括接收旗标，所述旗标指示是使用所述一或多个默认层间滤波器还是所述一或多个替代层间滤波器来产生所述多个层间参考图片。

23.根据权利要求13所述的方法，其进一步包括在位流中用信号通知与所述层间滤波器相关联的语法元素。

24.根据权利要求13所述的方法，其进一步包括接收位流中与所述层间滤波器相关联的语法元素。

25.一种视频译码设备，其包括：

用于接收与参考层RL和增强层EL相关联的视频数据的装置，其中所述RL包含RL图片，且所述EL包含对应于所述RL图片的当前图片；

用于通过对所述RL图片应用多个对应的层间滤波器，基于所述RL图片产生多个层间参考图片的装置，其中所述多个层间滤波器包括一或多个默认层间滤波器和一或多个替代层间滤波器；

用于将基于所述RL图片产生的所述多个层间参考图片添加到与所述当前图片相关联的层间参考图片集合的装置，使得在将使用所述一或多个替代层间滤波器所产生的所述多个层间参考图片的一或多个层间参考图片添加到所述层间参考图片集合之前，将使用所述一或多个默认层间滤波器所产生的所述多个层间参考图片的一或多个层间参考图片添加到所述层间参考图片集合；以及

用于基于所述层间参考图片集合中的所述多个层间参考图片中的至少一者来预测所述当前图片的装置。

26.根据权利要求25所述的视频译码设备，其中所述层间滤波器包括至少一个默认层间滤波器，以及在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个替代层间滤波器。

27.一种上面存储有代码的非暂时性计算机可读媒体，所述代码在被执行时，致使设备：

28.根据权利要求27所述的非暂时性计算机可读媒体，其中所述层间滤波器包括至少一个默认层间滤波器，以及在序列参数集合、视频参数集合或切片标头中用信号通知的至少一个替代层间滤波器。