CN104813662A

CN104813662A - 用于视频编码和解码的装置、方法和计算机程序

Info

Publication number: CN104813662A
Application number: CN201380061270.7A
Authority: CN
Inventors: J·莱内马; M·汉努卡塞拉; K·乌尔; M·O·比齐
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 2012-09-28
Filing date: 2013-09-27
Publication date: 2015-07-29
Also published as: EP2901690A1; KR20150063135A; WO2014049210A1; US20140092977A1; EP2901690A4

Abstract

在某些实施例中，提供一种装置、在其上存储代码以便由装置使用的计算机可读存储介质，以及用于对视频位流解码的视频解码器，以便使用增强层块和基础层参考图像的相同或相似运动向量，基于针对位于一起的基础层块的运动补偿过程，获得增强层块的运动补偿预测。在其它实施例中，提供一种方法、装置、在其上存储代码以便由装置使用的计算机可读存储介质，以及用于对视频位流编码的视频编码器，以便使用增强层块和基础层参考图像的相同或相似运动向量，基于针对位于一起的基础层块的运动补偿过程，获得增强层块的运动补偿预测。

Description

用于视频编码和解码的装置、方法和计算机程序

技术领域

本发明涉及一种用于视频编码和解码的装置、方法和计算机程序。

背景技术

视频编解码器可以包括编码器和解码器或者两者之一，编码器将输入视频变换为适合于存储和/或传输的压缩表示，解码器可以将压缩视频表示解压缩回到可查看形式。通常，编码器丢弃原始视频序列中的某些信息，以便以更紧凑的形式(例如在更低位速率下)表示视频。

可伸缩视频编码指这样的编码结构：其中一个位流可以包含在不同位速率、分辨率或帧速率下的内容的多个表示。可伸缩位流通常包括“基础层”和一个或多个增强层，基础层提供最低质量的可用视频，增强层与更低层一起在接收视频并对其解码时增强视频质量。为了改进增强层的编码效率，该层的编码表示通常取决于更低层。

用于质量可伸缩性(也被称为信噪比或SNR)和/或空间可伸缩性的可伸缩视频编解码器可以实现如下。对于基础层，使用常规不可伸缩的视频编码器和解码器。基础层的重构/解码图像被包括在增强层的参考图像缓冲器中。在使用参考图像列表(多个)进行帧间预测的编解码器中，基础层解码图像可以被***到参考图像列表(多个)中，以便对增强层图像编码/解码，这类似于增强层的解码参考图像。因此，编码器可以选择基础层参考图像作为帧间预测参考，并且指示其通常与编码位流中的参考图像索引一起使用。解码器从位流解码，例如从基础层图像被用作增强层的帧间预测参考的参考图像索引解码。

除了质量可伸缩性之外，可以通过以下各项实现可伸缩性：空间可伸缩性，其中在高于增强层图像的分辨率下对基础层图像编码；位深度可伸缩性，其中在低于增强层图像(例如10或12位)的位深度(例如8位)下对基础层图像编码；以及色度格式可伸缩性，其中基础层图像提供高于增强层图像(例如4:2:0格式)的色度保真(例如以4:4:4色度格式编码)。

在上面所有的可伸缩性情况下，可以使用基础层信息对增强层编码，以便最小化额外位速率开销。然而，用于可伸缩视频编码的现有解决方案在对增强层编码和解码时，没有充分利用可从基础层和增强层获得的信息。

发明内容

本发明首先考虑到为了改进增强层运动补偿预测的性能，将增强层运动补偿预测和差分信号添加在一起，由针对基础层的运动补偿过程使用增强层的相同或相似运动向量估计所述差分信号。

一种根据第一实施例的对增强层图像中的样本块编码的方法包括

标识增强层图像中要预测的样本块；

通过使用至少一个增强层参考图像和增强层运动信息针对所标识的样本块执行运动补偿预测来计算第一增强层预测块；

在与所述增强层图像中所述要预测的样本块位于一起的基础层图像中标识重构样本块；

通过使用所述增强层运动信息和至少一个基础层参考图像针对所标识的重构样本块执行运动补偿预测来计算基础层预测块；

基于所述基础层预测块、所标识的基础层重构样本和第一增强预测来计算第二增强层预测；以及

通过从所述第二增强层预测进行预测，对所述增强层图像中的所标识的样本块编码。

根据一个实施例，所述方法进一步包括

标识在原始图像中的样本块的值与所述第二增强层预测的值之间的残余信号；

将所述残余信号编码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

根据一个实施例，类似于HEVC，执行指示帧间预测模式以及对应的运动向量和参考帧索引。

根据一个实施例，通过对所述基础层图像的样本进行上采样来生成基础层中的块，以便具有与增强层预测块相同的空间分辨率。

根据一个实施例，执行基础层运动补偿预测和从所述基础层重构样本减去所述基础层运动补偿预测，然后对差异进行上采样并且将其添加到所述增强层预测。

根据一个实施例，使用上采样到与所述增强层预测块相同的空间分辨率的所述至少一个基础层参考图像，产生所述基础层中的所述运动补偿预测。

根据一个实施例，将基础层图像中的所述重构样本块和位于一起的基础层预测块的样本的差缩放至少一个缩放因数。

根据一个实施例，在位流中用信号通知所述缩放因数。

根据一个实施例，使用多个预定义缩放因数，并且在所述位流中指示所述缩放因数。

根据一个实施例，如果所述增强层图像和基础层图像的坐标系不同，则当定义所述基础层样本和增强层样本的坐标关系时，考虑所述基础层和增强层之间的空间可伸缩性的差异。

根据一个实施例，在执行所述基础层运动补偿预测之前，缩放所述增强层运动信息以便与所述基础层和增强层之间的空间可伸缩性的差异相匹配。

根据一个实施例，使用重构之前的中间样本，而不是重构基础层样本，以便获得差异值。

根据一个实施例，使用环路内滤波操作之前的基础层值，所述环路内滤波操作例如解块滤波或采样自适应偏移(SAO)和自适应环路滤波(ALF)。

根据一个实施例，所述方法被始终应用为默认设置。

根据一个实施例，通过向所述解码器用信号通知标志，选择性地启用所述方法。

根据一个实施例，通过在预测单元(PU)级别用信号通知一个二进制标识符，启用所述方法。

根据一个实施例，当满足预定条件时启用所述方法，例如：基于相邻块的模式；基于在对应于所述增强层块的位置的基础层块(多个)中预测误差编码的存在；基于所述增强层或基础层参考帧的样本值或重构基础层图像的样本值、基础层解码图像缓冲器中的基础层参考图像的可用性；或者它们的组合。

一种根据第二实施例的装置包括：

视频编码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流编码，其中所述视频编码器被进一步配置为

标识增强层图像中要预测的样本块；

根据第三实施例，提供一种计算机可读存储介质，在其上存储代码以便由装置使用，当所述代码由处理器执行时，导致所述装置执行：

标识增强层图像中要预测的样本块；

通过使用所述增强层运动信息和至少一个基础层参考图像针对所标识的重构样本块执行运动补偿预测来计算基础层预测块；以及

根据第四实施例，提供至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储代码，当所述代码由所述至少一个处理器执行时，导致装置执行：

标识增强层图像中要预测的样本块；

根据第五实施例的方法包括一种用于对包括基础层和至少一个增强层的可伸缩位流解码的方法，所述方法包括

标识增强层图像中要预测的样本块；

通过使用所述增强层运动信息和至少一个基础层参考图像以及增强层运动信息针对所标识的重构样本块执行运动补偿预测来计算基础层预测块；

通过从所述第二增强层预测进行预测，对所述增强层图像中的所标识的样本块解码。

根据一个实施例，所述方法进一步包括

将所述残余信号解码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

根据一个实施例，执行基础层运动补偿预测和从所述基础层重构样本减去所述基础层运动补偿预测，然后对所述差异进行上采样并且将其添加到所述增强层预测。

根据一个实施例，使用上采样到与所述增强层预测块相同的空间分辨率的至少一个基础层参考图像，产生所述基础层中的所述运动补偿预测。

根据一个实施例，在所述位流中用信号通知所述缩放因数。

根据一个实施例，所述方法被始终应用为默认设置。

根据一个实施例，在接收标志时，选择性地启用所述方法。

根据一个实施例，在预测单元(PU)级别接收一个二进制标识符时，启用所述方法。

一种根据第六实施例的装置包括：

视频解码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流解码，所述视频解码器被配置为

标识增强层图像中要预测的样本块；

根据第七实施例，提供一种视频编码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流编码，其中所述视频编码器被进一步配置为：

标识增强层图像中要预测的样本块；

根据第八实施例，提供一种视频解码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流解码，其中所述视频解码器被进一步配置为：

标识增强层图像中要预测的样本块；

附图说明

为了更好地理解本发明，现在将通过实例的方式参考附图，这些附图是：

图1示意性地示出采用本发明的某些实施例的电子设备；

图2示意性地示出适合于采用本发明的某些实施例的用户设备；

图3进一步示意性地示出采用本发明的实施例的电子设备，这些电子设备使用无线和有线网络连接进行连接；

图4示意性地示出适合于实现本发明的某些实施例的编码器；

图5示出包括两个图块的图像的一个实例；

图6示出根据本发明的某些实施例的编码/解码过程的流程图；

图7示出根据本发明的一个实施例的基础增强型运动补偿预测的一个实例；以及

图8示出根据本发明的某些实施例的解码器的示意图。

具体实施方式

下面进一步详细地描述合适的装置和可能的机制，以便在不明显牺牲编码效率的情况下对增强层子图像编码。在这点上，首先参考图1，其示出根据本发明的一个实施例的示例性装置或电子设备50的示意框图，示例性装置或电子设备50可以包括编解码器。

电子设备50例如可以是无线通信***的移动终端或用户设备。但是，应该了解，本发明的实施例可以在任何电子设备或装置中实现，该电子设备或装置可能需要编码和解码或者对视频图像编码或解码。

装置50可以包括外壳30以便包含和保护设备。装置50进一步可以包括显示器32，其采用液晶显示器的形式。在本发明的其它实施例中，显示器可以是适合于显示图像或视频的合适显示技术。装置50可以进一步包括小键盘34。在本发明的其它实施例中，可以采用任何合适的数据或用户接口机制。例如，用户接口可以被实现为作为触敏显示器的一部分的虚拟键盘或数据输入***。装置可以包括麦克风36或任何合适的音频输入，其可以是数字或模拟信号输入。装置50可以进一步包括音频输出设备，在本发明的实施例中，其可以是以下任何一个：耳机38、扬声器，或者模拟音频或数字音频输出连接。装置50还可以包括电池40(或者在本发明的其它实施例中，设备可以由诸如太阳能电池、燃料电池或发条发电机之类的任何合适的移动能量设备供电)。装置可以进一步包括红外端口42，用于到其它设备的视觉通信的短程线路。在其它实施例中，装置50可以进一步包括任何合适的短程通信解决方案，例如蓝牙无线连接或USB/火线有线连接。

装置50可以包括控制器56或处理器以便控制装置50。控制器56可以被连接到存储器58，在本发明的实施例中，存储器58可以存储图像和音频数据形式的数据和/或还可以存储指令以便在控制器56上实现。控制器56可以进一步被连接到编解码器电路54，编解码器电路54适合于执行音频和/或视频数据的编码和解码或者有助于控制器56执行的编码和解码。

装置50可以进一步包括读卡器48和智能卡46，例如UICC和UICC读取器，以提供用户信息并且适合于提供认证信息以便在网络处对用户进行认证和授权。

装置50可以包括无线电接口电路52，其连接到控制器并且适合于生成无线通信信号，例如以便与蜂窝通信网络、无线通信***或无线局域网通信。装置50可以进一步包括天线44，其连接到无线电接口电路52，以便将在无线电接口电路52处生成的射频信号发送到其它装置(多个)并且从其它装置(多个)接收射频信号。

在本发明的某些实施例中，装置50包括摄像机，其能够记录或检测个体帧，然后将这些帧传递到编解码器54或控制器以便处理。在本发明的其它实施例中，在发送和/或存储之前，装置可以从另一个设备接收视频图像数据以便处理。在本发明的其它实施例中，装置50可以以无线方式或者通过有线连接来接收图像以便编码/解码。

至于图3，示出其中可以使用本发明的实施例的***的一个实例。***10包括多个通信设备，它们可以通过一个或多个网络通信。***10可以包括有线或无线网络的任意组合，这些网络包括但不限于无线蜂窝电话网络(例如GSM、UMTS、CDMA网络等)、例如由任意IEEE 802.x标准定义的无线局域网(WLAN)、蓝牙个人区域网络、以太局域网、令牌环局域网、广域网以及因特网。

***10可以包括适合于实现本发明的实施例的有线和无线通信设备或装置50。

例如，图3中所示的***示出移动电话网络11和因特网28的表示。到因特网28的连接可以包括但不限于长距离无线连接、短距离无线连接和各种有线连接，这些有线连接包括但不限于电话线、电缆线、电源线和类似的通信路径。

***10中所示的实例通信设备可以包括但不限于电子设备或装置50、个人数字助理(PDA)和移动电话的组合14、PDA 16、集成消息传送设备(IMD)18、台式计算机20、笔记本计算机22。装置50当由正在移动的个体携带时，可以是静止或移动的。装置50还可以以运输模式定位，运输模式包括但不限于汽车、卡车、出租车、公共汽车、火车、轮船、飞机、自行车、摩托车或者任何类似的合适运输模式。

各实施例还可以以以下各项实现：机顶盒，即，数字电视接收器，其可以具有/可以没有显示器或无线能力；平板或(膝上型)个人计算机(PC)，其具有硬件或软件或编码器/解码器实现的组合；各种操作***；以及提供基于硬件/软件的编码的芯片组、处理器、DSP和/或嵌入式***。

某些或其它装置可以通过到基站24的无线连接25，发送和接收呼叫和消息并且与服务提供商通信。基站24可以被连接到网络服务器26，网络服务器26允许在移动电话网络11和因特网28之间通信。***可以包括其它通信设备和各种类型的通信设备。

通信设备可以使用各种传输技术通信，这些传输技术包括但不限于码分多址(CDMA)、全球移动通信***(GSM)、通用移动电信***(UMTS)、时分多址(TDMA)、频分多址(FDMA)、传输控制协议-网际协议(TCP-IP)、短消息传送服务(SMS)、多媒体消息传送服务(MMS)、电子邮件、即时消息传送服务(IMS)、蓝牙、IEEE 802.11以及任何类似的无线通信技术。参与实现本发明的不同实施例的通信设备可以使用各种介质通信，这些介质包括但不限于无线电、红外线、激光、电缆连接以及任何合适的连接。

视频编解码器包括编码器和解码器，编码器将输入视频变换为适合于存储和/或传输的压缩表示，解码器可以将压缩视频表示解压缩回到可查看形式。通常，编码器丢弃原始视频序列中的某些信息，以便以更紧凑的形式(例如在更低位速率下)表示视频。

典型的混合视频编解码器(例如ITU-T H.263和H.264)以两个阶段对视频信息编码。首先，例如通过运动补偿手段(在先前编码的一个视频帧中发现和指示一个区域，该区域密切对应于正在被编码的块)或者通过空间手段(以指定的方式使用要被编码的块周围的像素值)，预测某个图像区域(或“块”)中的像素值。其次，对预测误差编码，即对预测像素块和原始像素块之间的差编码。这通常通过以下操作完成：使用指定的变换(例如离散余弦变换(DCT)或其变体)变换像素值的差，量化系数并且对量化后的系数进行熵编码。通过改变量化过程的保真度，编码器可以控制像素表示的准确性(图像质量)和产生的编码视频表示的大小(文件大小或传输位速率)之间的平衡。

视频编码通常是一个两阶段过程：首先，基于先前的编码数据，生成视频信号预测。其次，对预测信号与源信号之间的残余信号编码。帧间预测(inter prediction，也可以被称为时间预测、运动补偿或运动补偿预测)减少时间冗余性。在帧间预测中，预测源是先前解码的图像。帧内预测(intra prediction)利用以下事实：同一图像中的相邻像素可能相关。可以在空间或变换域中执行帧内预测，即，可以预测样本值或变换系数。通常在不应用帧间预测的帧内编码中利用帧内预测。

编码过程的一个结果是一组编码参数，例如运动向量和量化变换系数。可以更有效地对许多参数进行熵编码，前提是首先从空间或时间相邻的参数预测这些参数。例如，可以从空间相邻的运动向量预测运动向量，并且可以仅对与运动向量预测器的差编码。编码参数预测和帧内预测可以被统称为图像内预测。

至于图4，示出适合于执行本发明的实施例的视频编码器的框图。图4将编码器示出为包括像素预测器302、预测误差编码器303和预测误差解码器304。图4还将像素预测器302的一个实施例示出为包括帧间预测器306、帧内预测器308、模式选择器310、滤波器316以及参考帧存储器318。像素预测器302接收图像300，图像300要在帧间预测器306(其确定图像和运动补偿参考帧318之间的差)和帧内预测器308(其仅基于当前帧或图像的已经处理的部分，确定图像块预测)两者处编码。将帧间预测器和帧内预测器两者的输出传递到模式选择器310。帧内预测器308可以具有多于一种的帧内预测模式。因此，每种模式可以执行帧内预测并且将预测信号提供给模式选择器310。模式选择器310还接收图像300的副本。

取决于选择哪种编码模式对当前块编码，将帧间预测器306的输出或者可选帧内预测器模式之一的输出或者模式选择器中的表面编码器的输出传递到模式选择器310的输出。将模式选择器的输出传递到第一求和设备321。第一求和设备可以从图像300减去像素预测器302的输出，以便产生第一预测误差信号320，将第一预测误差信号320输入到预测误差编码器303。

像素预测器302进一步从初级重构器339接收图像块312的预测表示和预测误差解码器304的输出338的组合。可以将初级重构图像314传递到帧内预测器308和滤波器316。接收初级表示的滤波器316可以对初级表示滤波并且输出最终重构图像340，可以将最终重构图像340保存在参考帧存储器318中。参考帧存储器318可以被连接到帧间预测器306以便用作参考图像，在帧间预测操作中，对照该参考图像来比较未来图像300。

像素预测器302的操作可以被配置为执行所属技术领域中公知的任何已知像素预测算法。

预测误差编码器303包括变换单元342和量化器344。变换单元342将第一预测误差信号320变换为变换域。变换例如是DCT变换。量化器344量化变换域信号(例如DCT系数)，以便形成量化系数。

预测误差解码器304从预测误差编码器303接收输出并且执行预测误差编码器303的相反过程，以便产生解码后的预测误差信号338，解码后的预测误差信号338当在第二求和设备339处与图像块312的预测表示相组合时，产生初级重构图像314。预测误差解码器可以被视为包括反量化器361和逆变换单元363，反量化器361对量化系数值(例如DCT系数)反量化以便重构变换信号，逆变换单元363执行到重构变换信号的逆变换，其中逆变换单元363的输出包含重构块(多个)。预测误差解码器还可以包括宏块滤波器，该宏块滤波器可以根据其它解码信息和滤波器参数，对重构宏块滤波。

熵编码器330接收预测误差编码器303的输出，并且可以针对信号执行合适的熵编码/变长编码，以便提供误差检测和纠正能力。

H.264/AVC标准由国际电信联盟的电信标准化部门(ITU-T)的视频编码专家组(VCEG)和国际标准化组织(ISO)/国际电工委员会(IEC)的移动图像专家组(MPEG)组成的联合视频组(JVT)开发。H.264/AVC标准由两个父标准化组织发布，并且被称为ITU-T建议H.264和ISO/IEC国际标准14496-10，也被称为MPEG-4部分10高级视频编码(AVC)。具有多个版本的H.264/AVC标准，每个版本将新扩展或特性集成到规范中。这些扩展包括可伸缩视频编码(SVC)和多视图视频编码(MVC)。VCEG和MPEG的联合协作组—视频编码(JCT-VC)目前正在进行高效视频编码(HEVC)的标准化项目。

在本部分中，将某些键定义、位流和编码结构以及H.264/AVC和HEVC的概念作为其中可以实现各实施例的视频编码器、解码器、编码方法、解码方法以及位流结构的一个实例进行描述。某些键定义、位流和编码结构以及H.264/AVC的概念与草案HEVC标准相同—因此，下面共同描述它们。本发明的各个方面并不限于H.264/AVC或HEVC，而是针对可以在其上部分或全部实现本发明的一个可能的基础给出描述。

类似于许多先前视频编码标准，在H.264/AVC和HEVC中指定位流语法和语义以及无错误位流的解码过程。未指定编码过程，但编码器必须生成一致的位流。可以使用假设参考解码器(HRD)检验位流和解码器一致性。所述标准包含编码工具，这些编码工具有助于处理传输误差和损耗，但在编码中使用工具是可选的，并且未针对错误位流指定解码过程。

在现有标准的描述中以及在实例实施例的描述中，可以将语法元素定义为在位流中表示的数据元素。可以以指定的顺序，将语法结构定义为共同存在于位流中的零个或更多语法元素。

可以将简档定义为由解码/编码标准或规范指定的整个位流语法的子集。在由给定简档的语法施加的界限中，仍然可能需要编码器和解码器的性能具有非常大的变化，具体取决于位流中的语法元素采取的值，例如解码图像的指定大小。在许多应用中，实现以下解码器可能既不实际又不经济：该解码器能够处理特定简档中的语法的所有假设使用。为了应对该问题，可以使用级别。可以将级别定义为指定的一组约束，将这些约束施加给位流中的语法元素的值和解码/编码标准或规范中指定的变量。这些约束可以是有关值的简单限制。备选地或此外，它们可以采取有关值的算术组合的约束的形式(例如，图像宽度乘以图像高度乘以每秒解码的图像数量)。还可以使用用于指定级别约束的其它手段。级别中指定的某些约束例如可以涉及就编码单元(例如宏块)、每个时间段(例如一秒)而言的最大图像大小、最大位速率和最大数据速率。可以针对所有简档定义相同的一组级别。可以例如优选地增加实现不同简档的终端的互操作性，使得每个级别的定义的大多数或所有方面可以跨不同简档通用。

分别用于到H.264/AVC或HEVC编码器的输入和H.264/AVC或HEVC解码器的输出的基本单位是图像。在H.264/AVC和HEVC中，图像可以是帧或字段。帧包括亮度样本和对应色度样本的矩阵。字段是帧的一组交替样本行，并且当源信号交错时，字段可以被用作编码器输入。当与亮度图像相比较时，可以对色度图像二次采样。例如，在4:2:0采样模式中，沿着两个坐标轴，色度图像的空间分辨率是亮度图像的空间分辨率的一半。

在H.264/AVC中，宏块是16×16亮度样本块和对应色度样本块。例如，在4:2:0采样模式中，宏块的每个色度分量包含一个8×8色度样本块。在H.264/AVC中，将图像分为一个或多个分片(slice)组，并且分片组包含一个或多个分片。在H.264/AVC中，分片包括整数个宏块，这些宏块在特定分片组内的光栅扫描中连续排序。

在某些视频编解码器(例如高效视频编码(HEVC)编解码器)中，将视频图像分成涵盖图像区域的编码单元(CU)。CU包括一个或多个预测单元(PU)和一个或多个变换单元(TU)，PU针对CU中的样本定义预测过程，TU针对所述CU中的样本定义预测误差编码过程。通常，CU包括方形样本块，该样本块具有可从预定义的一组可能CU大小中选择的大小。具有最大允许大小的CU通常被称为LCU(最大编码单元)，并且将视频图像分成非重叠LCU。可以例如通过递归地划分LCU和得到的CU，将LCU进一步分为更小CU的组合。每个得到的CU通常具有至少一个PU和与之关联的至少一个TU。可以将每个PU和TU进一步分为更小的PU和TU，以便分别增加预测和预测误差编码过程的粒度。每个PU具有与其关联的预测信息，该预测信息定义要针对该PU中的像素应用什么类型的预测(例如用于帧间预测PU的运动向量信息和用于帧内预测PU的帧内预测方向性信息)。

预测模式的方向性，即要在特定预测模式中应用的预测方向，可以是垂直、水平、对角。例如，在当前HEVC草案编解码器中，统一帧内预测根据PU的大小提供多达34种方向预测模式，并且每种帧内预测模式具有分配给它的预测方向。

同样，每个TU与以下信息关联：该信息描述用于所述TU中的样本的预测误差解码过程(例如包括DCT系数信息)。通常在CU级别用信号通知是否针对每个CU应用预测误差编码。如果没有与CU关联的预测误差残余，则可以认为所述CU没有TU。通常在位流中用信号通知将图像分成CU以及将CU分成PU和TU，从而允许解码器重现这些单元的预定结构。

在草案HEVC标准中，可以将图像划分为图块(tile)，这些图块是矩形并且包含整数个LCU。在草案HEVC标准中，分为图块将形成矩形网格，其中图块的高度和宽度不同于彼此，最多相差一个LCU。在草案HEVC中，分片包括整数个CU。如果图块未使用，则在图块或图像中，以LCU的光栅扫描顺序扫描CU。在LCU中，CU具有特定的扫描顺序。图5示出包括分成方形编码单元(实线)的两个图块的图像的一个实例，这些方形编码单元被进一步分成矩形预测单元(虚线)。

解码器通过应用类似于编码器的预测手段重构输出视频，以便形成像素块的预测表示(使用编码器产生的并且以压缩表示存储的运动或空间信息)和预测误差解码(预测误差编码的逆操作，其恢复空间像素域中的量化预测误差信号)。在应用预测和预测误差解码手段之后，解码器计算预测和预测误差信号(像素值)的总和，以便形成输出视频帧。解码器(和编码器)还可以应用其它滤波手段以便改进输出视频的质量，然后传递输出视频以便显示和/或存储输出视频作为视频序列中即将到来的帧的预测参考。

在典型的视频编解码器中，使用与每个运动补偿图像块关联的运动向量指示运动信息。这些运动向量的每一个表示要编码(在编码器侧)或解码(在解码器侧)的图像中的图像块和先前一个编码或解码图像中的预测源块的位移。为了有效地表示运动向量，通常相对于块特定的预测运动向量对这些运动向量差分地编码。在典型的视频编解码器中，以预定义方式(例如计算相邻块的编码或解码运动向量的中值)产生预测运动向量。产生运动向量预测的另一种方式是从时间参考图像中的相邻块和/或位于一起的块生成候选预测列表，并且用信号通知选择的候选者作为运动向量预测器。除了预测运动向量值之外，可以预测先前编码/解码的图像的参考索引。通常从时间参考图像中的相邻块和/或位于一起的块预测参考索引。此外，典型的高效视频编解码器采用其它运动信息编码/解码机制(通常被称为合并/合并模式)，其中在没有任何修改/纠正的情况下预测和使用所有运动字段信息，该信息包括每个可用参考图像列表的运动向量和对应的参考图像索引。同样，使用时间参考图像中的相邻块和/或位于一起的块的运动字段信息执行预测运动字段信息，并且在填充有可用相邻/位于一起的块的运动字段信息的一系列运动字段候选列表中，用信号通知已使用的运动字段信息。

在典型的视频编解码器中，首先使用变换核(如DCT)变换运动补偿之后的预测残余，然后对其编码。这是因为通常在残余中仍然存在某种关联，并且在许多情况下变换可以有助于减少这种关联并提供更有效的编码。

典型的视频编码器利用拉格朗日成本函数发现最佳编码模式(例如所需的宏块模式)和关联的运动向量。这种成本函数使用加权因子λ将由于有损编码方法产生的(确切或估计)图像失真以及表示图像区域中的像素值所需的(确切或估计)信息量联系在一起：

C＝D+λR， (1)

其中C是要最小化的拉格朗日成本，D是在考虑模式和运动向量的情况下的图像失真(例如均方误差)，并且R是表示所需数据需要的位数，所需数据用于在解码器中重构图像块(包括用于表示候选运动向量的数据量)。

视频编码标准和规范可以允许编码器将编码图像分为编码分片等。通常跨分片边界禁用图像内预测。因此，分片可以被视为一种用于将编码图像分为可单独解码的片的方式。在H.264/AVC和HEVC中，可以跨分片边界禁用图像内预测。因此，分片可以被视为一种用于将编码图像分为可单独解码的片的方式，并且分片因此通常被视为用于传输的基本单位。在许多情况下，编码器可以在位流中指示跨分片边界关闭哪些类型的图像内预测，并且解码器操作例如当断定哪些预测源可用时考虑该信息。例如，如果相邻宏块或CU位于不同分片中，则来自相邻宏块或CU的样本可以被视为不可用于帧内预测。

编码分片可以被分为三类：光栅扫描顺序分片、矩形分片和灵活分片。

光栅扫描顺序分片是包括采用光栅扫描顺序的连续宏块等的编码段。例如，MPEG-4部分2的视频分组以及H.263中以非空GOB标头开始的宏块组(GOB)是光栅扫描顺序分片的实例。

矩形分片是包括宏块等的矩形区域的编码段。矩形分片可以高于一个宏块或类似行，并且窄于整个图像宽度。H.263包括可选矩形分片子模式，并且H.261GOB也可以被视为矩形分片。

灵活分片可以包含任何预定义宏块(或类似)位置。H.264/AVC编解码器允许将宏块分组为多于一个分片组。分片组可以包含任何宏块位置，包括非相邻宏块位置。H.264/AVC的某些简档中的分片包括特定分片组中采用光栅扫描顺序的至少一个宏块。

用于H.264/AVC或HEVC编码器的输出和H.264/AVC或HEVC解码器的输入的基本单位分别是网络抽象层(NAL)单元。对于在面向分组的网络上的传输或者到结构化文件的存储，NAL单元可以被封装成分组或类似结构。针对不提供成帧结构的传输或存储环境，已经在H.264/AVC和HEVC中指定字节流格式。字节流格式通过在每个NAL单元的前面附加起始代码，将NAL单元彼此分离。为了避免错误检测NAL单元边界，编码器运行面向字节的起始代码仿真防止算法，如果另外出现起始代码，则该算法向NAL单元有效负载中添加仿真防止字节。为了在面向分组与面向流的***之间实现直接网关操作，可以始终执行起始代码仿真防止，而无论是否使用字节流格式。NAL单元可以被定义为以下语法结构：其包含要遵循的数据类型的指示和字节，这些字节包含采用RBSP形式的数据，必要时在RBSP中加入仿真防止字节。原始字节序列有效负载(RBSP)可以被定义为以下语法结构：其包含封装在NAL单元中的整数个字节。RBSP或者为空或者具有以下形式：包含语法元素的数据位串，后跟RBSP停止位，以及后跟零个或更多等于0的后续位。

NAL单元包括标头和有效负载。在H.264/AVC和HEVC中，NAL单元标头指示NAL单元的类型以及包含在NAL单元中的编码分片是参考图像还是非参考图像的一部分。

H.264/AVC NAL单元标头包括2位nal_ref_idc语法元素，该语法元素当等于0时，指示包含在NAL单元中的编码分片是非参考图像的一部分，并且当大于0时，指示包含在NAL单元中的编码分片是参考图像的一部分。草案HEVC标准包括1位nal_ref_idc语法元素(也被称为nal_ref_flag)，该语法元素当等于0时，指示包含在NAL单元中的编码分片是非参考图像的一部分，并且当等于1时，指示包含在NAL单元中的编码分片是参考图像的一部分。SVC和MVC NAL单元的标头可以附加地包含与可伸缩性和多视图层次结构相关的各种指示。

在草案HEVC标准中，针对所有指定的NAL单元类型使用两字节NAL单元标头。NAL单元标头的第一字节包含一个保留位、一位指示nal_ref_flag和六位NAL单元类型指示，一位指示nal_ref_flag主要指示该存取单元中承载的图像是参考图像还是非参考图像。NAL单元标头的第二字节包括用于时间级别的三位temporal_id指示，以及在草案HEVC标准中具有等于1的值所需的五位保留字段(被称为reserved_one_5bits)。temporal_id语法元素可以被视为NAL单元的时间标识符。

五位保留字段预计由诸如未来可伸缩和3D视频扩展之类的扩展使用。预计这五位将承载有关可伸缩性层次结构的信息，例如quality_id等、dependency_id等、任何其它类型的层标识符、视图顺序索引等、视图标识符、类似于SVC的priority_id的标识符(如果从位流删除大于特定标识符值的所有NAL单元，则指示有效子位流提取)。不失一般性地，在某些实例实施例中，从reserved_one_5bits的值获得变量LayerId，该变量也可以被称为layer_id_plus1，例如如下所示：LayerId＝reserved_one_5bits－1。

NAL单元可以被分类为视频编码层(VCL)NAL单元和非VCL NAL单元。VCL NAL单元通常是编码分片NAL单元。在H.264/AVC中，编码分片NAL单元包含表示一个或多个编码宏块的语法元素，每个编码宏块对应于未压缩图像中的一个样本块。在HEVC中，编码分片NAL单元包含表示一个或多个CU的语法元素。在H.264/AVC和HEVC中，编码分片NAL单元可以被指示为即时解码刷新(IDR)图像中的编码分片或者非IDR图像中的编码分片。在HEVC中，编码分片NAL单元可以被指示为洁净解码刷新(CDR)图像(其也可以被称为洁净随机存取图像或CRA图像)中的编码分片。

非VCL NAL单元例如可以是以下类型之一：序列参数集、图像参数集、补充增强信息(SEI)NAL单元、存取单元分隔符、序列NAL单元的结尾、流NAL单元的结尾，或者填充符数据NAL单元。可以需要参数集以便重构解码图像，而不必需要许多其它非VCL NAL单元来重构解码样本值。

在编码视频序列中保持不变的参数可以被包括在序列参数集中。除了解码过程可能需要的参数之外，序列参数集可以可选地包含视频可用性信息(VUI)，该信息包括可以对于缓冲、图像输出时序、呈现和资源保留很重要的参数。在H.264/AVC中指定三个NAL单元以便承载序列参数集：包含序列中H.264/AVC VCL NAL单元的所有数据的序列参数集NAL单元、包含辅助编码图像的数据的序列参数集扩展NAL单元，以及用于MVC和SVC VCL NAL单元的子集序列参数集。在草案HEVC标准中，序列参数集RBSP包括可以由以下各项引用的参数：一个或多个图像参数集RBSP，或者包含缓冲周期SEI消息的一个或多个SEI NAL单元。图像参数集包含这样的参数：这些参数可能在数个编码图像中不变。图像参数集RBSP可以包括这样的参数：这些参数可以由一个或多个编码图像的编码分片NAL单元引用。

在草案HEVC中，还有第三类型的参数集，在此被称为自适应参数集(APS)，其包括这样的参数：这些参数可能在数个编码分片中不变，但可能例如针对每个图像或每几个图像改变。在草案HEVC中，APS语法结构包括与以下各项相关的参数或语法元素：量化矩阵(QM)、自适应采样偏移(SAO)、自适应环路滤波(ALF)以及解块滤波。在草案HEVC中，APS是NAL单元，并且在没有来自任何其它NAL单元的引用或预测的情况下进行编码。标识符(被称为aps_id语法元素)被包括在APS NAL单元中，并且在分片标头中包括和使用以便引用特定APS。在另一个草案HEVC标准中，APS语法结构仅包含ALF参数。在草案HEVC标准中，自适应参数集RBSP包括这样的参数：当sapmle_adaptive_offset_enabled_flag或adaptive_loop_filter_enabled_flag中的至少一个等于1时，这些参数可以由一个或多个编码图像的编码分片NAL单元引用。

草案HEVC标准还包括第四类型的参数集，被称为视频参数集(VPS)，其例如在文档JCTVC-H0388(http://phenix.intevry.fr/jct/doc_end_user/documents/8_San％20Jose/wg11/JCTVC-H0388-v4.zip)中提出。视频参数集RBSP可以包括可由一个或多个序列参数集RBSP引用的参数。

视频参数集(VPS)、序列参数集(SPS)和图像参数集(PPS)之间的关系和层次结构可以被描述如下。在参数集层次结构中以及在可伸缩性和/或3DV的上下文中，VPS比SPS高一个级别。VPS可以包括这样的参数：这些参数通用于整个编码视频序列中跨所有(可伸缩性或视图)层的所有分片。SPS包括这样的参数：这些参数通用于整个编码视频序列中特定(可伸缩性或视图)层中的所有分片，并且可以由多个(可伸缩性或视图)层共享。PPS包括这样的参数：这些参数通用于特定层表示(一个存取单元中的一个可伸缩性或视图层的表示)中的所有分片，并且可能由多个层表示中的所有分片共享。

VPS可以提供有关位流中的层的依赖关系的信息，以及适用于整个编码视频序列中跨所有(可伸缩性或视图)层的所有分片的许多其它信息。在HEVC的可伸缩扩展中，VPS可以例如包括从NAL单元标头获得的LayerId值到一个或多个可伸缩性维度值的映射，例如对应于类似于SVC和MVC定义的层的dependency_id、quality_id、view_id以及depth_flag。VPS可以包括一个或多个层的简档和级别信息，以及层表示的一个或多个时间子层(包括等于和低于特定temporal_id值的VCL NAL单元)的简档和/或级别。

H.264/AVC和HEVC语法允许参数集的许多实例，并且使用唯一标识符标识每个实例。为了限制参数集需要的存储器使用，参数集标识符的值范围已经被限制。在H.264/AVC和草案HEVC标准中，每个分片标头包括针对对包含分片的图像解码而活动的图像参数集的标识符，并且每个图像参数集包含活动序列参数集的标识符。在HEVC标准中，分片标头附加地包含APS标识符。因此，图像和序列参数集的传输不必与分片的传输准确同步。相反，在活动序列和图像参数集被引用之前的任意时刻接收它们便已足够，这允许使用比用于分片数据的协议更可靠的传输机制来“带外”传输参数集。例如，参数集可以作为参数被包括在实时传输协议(RTP)会话的会话描述中。如果在带内传输参数集，则可以重复它们以便改进误差鲁棒性。

可以通过来自分片或来自另一个活动参数集，或者在某些情况下，来自诸如缓冲周期SEI消息之类的另一个语法结构的引用来激活参数集。

SEI NAL单元可以包含一个或多个SEI消息，对输出图像解码不需要它们，但它们可以有助于相关过程，例如图像输出时序、呈现、误差检测、误差隐藏以及资源保留。在H.264/AVC和HEVC中指定若干SEI消息，并且用户数据SEI消息使组织和公司能够指定SEI消息以便它们自己使用。H.264/AVC和HEVC包含指定SEI消息的语法和语义，但没有定义用于处理容器中的消息的过程。因此，需要编码器以便当编码器产生SEI消息时遵循H.264/AVC标准或HEVC标准，并且不需要分别符合H.264/AVC标准或HEVC标准的解码器来处理SEI消息以实现输出顺序一致性。在H.264/AVC和HEVC中包括SEI消息的语法和语义的一个原因是允许不同的***规范完全相同地解释辅助信息并且因此互操作。其意图是***规范可以要求在编码端和解码端两者中使用特定SEI消息，并且另外可以指定用于处理容器中的特定SEI消息的过程。

编码图像是图像的编码表示。H.264/AVC中的编码图像包括对图像解码需要的VCL NAL单元。在H.264/AVC中，编码图像可以是主要编码图像或冗余编码图像。主要编码图像用于有效位流的解码过程，而冗余编码图像是冗余表示，仅当主要编码图像不能被成功解码时，才应该对该冗余表示解码。在草案HEVC中，没有指定冗余编码图像。

在H.264/AVC和HEVC中，存取单元包括主要编码图像和与其关联的那些NAL单元。在H.264/AVC中，存取单元中的NAL单元的出现顺序被限制如下。可选存取单元分隔符NAL单元可以指示存取单元的开头。它后跟零个或更多SEI NAL单元。接下来出现主要编码图像的编码分片。在H.264/AVC中，主要编码图像的编码分片可以后跟零个或更多冗余编码图像的编码分片。冗余编码图像是图像或图像一部分的编码表示。如果例如由于传输丢失或者物理存储介质损坏，解码器未接收到主要编码图像，则可以对冗余编码图像解码。

在H.264/AVC中，存取单元还可以包括辅助编码图像，它是补充主要编码图像的图像，并且可以例如用于显示过程。辅助编码图像例如可以被用作指定解码图像中样本的透明度级别的阿尔法通道或阿尔法平面。阿尔法通道或平面可以用于分层组成或呈现***，其中输出图像由至少部分地在彼此之上透明的叠加图像形成。辅助编码图像具有与单色冗余编码图像相同的语法和语义限制。在H.264/AVC中，辅助编码图像包含的宏块数量与主要编码图像相同。

编码视频序列被定义为从IDR存取单元(包括该存取单元)到下一个IDR存取单元(不包括该存取单元)或到位流的结尾(无论哪个先出现)的采用解码顺序的一系列连续存取单元。

图像组(GOP)及其特征可以被定义如下。可以对GOP解码，而无论是否已对任何先前图像解码。开放式GOP是这样的图像组：其中当从开放式GOP的初始帧内图像开始解码时，在初始帧内图像之前采用输出顺序的图像可能不可正确地被解码。换言之，开放式GOP的图像可以(在帧间预测中)引用属于先前GOP的图像。H.264/AVC解码器可以从H.264/AVC位流中的恢复点SEI消息，识别开始开放式GOP的帧内图像。HEVC解码器可以识别开始开放式GOP的帧内图像，因为针对其编码分片使用特定NAL单元类型，即CRA NAL单元类型。封闭式GOP是这样的图像组：其中当从封闭式GOP的初始帧内图像开始解码时，所有图像都可以正确地被解码。换言之，封闭式GOP中的图像不引用先前GOP中的任何图像。在H.264/AVC和HEVC中，封闭式GOP从IDR存取单元开始。因此，与开放式GOP结构相比，封闭式GOP结构具有更多的误差恢复(error resilience)潜力，但以可能降低压缩效率为代价。开放式GOP编码结构可能在压缩方面更有效，这是由于在选择参考图像方面具有更大的灵活性所致。

H.264/AVC和HEVC的位流语法指示特定图像是否是用于任何其它图像的帧间预测的参考图像。在H.264/AVC和HEVC中，任何编码类型(I、P、B)的图像均可以是参考图像或非参考图像。NAL单元标头指示NAL单元的类型以及指示包含在NAL单元中的编码分片是参考图像还是非参考图像的一部分。

H.264/AVC指定用于解码参考图像标记的过程，以便控制解码器中的内存消耗。用于帧间预测的最大参考图像数量(被称为M)在序列参数集中确定。当对参考图像解码时，将其标记为“用于参考”。如果参考图像的解码导致多于M个图像被标记为“用于参考”，则将至少一个图像标记为“未用于参考”。两种类型的操作可用于解码参考图像标记：自适应存储器控制和滑动窗口。基于图像选择用于解码参考图像标记的操作模式。自适应存储器控制使能显式用信号通知哪些图像被标记为“未用于参考”，并且还可以将长期索引分配给短期参考图像。自适应存储器控制可能需要在位流中存在存储器管理控制操作(MMCO)参数。MMCO参数可以被包括在解码参考图像标记语法结构中。如果使用滑动窗口操作模式，并且M个图像被标记为“用于参考”，则将这样的短期参考图像标记为“未用于参考”：该短期参考图像是被标记为“用于参考”的这些短期参考图像中的第一个解码图像。换言之，滑动窗口操作模式在短期参考图像中导致先进先出缓冲操作。

H.264/AVC中的存储器管理控制操作之一导致所有参考图像(当前图像除外)都被标记为“未用于参考”。即时解码刷新(IDR)图像仅包含帧内编码分片，并且导致类似的参考图像“重置”。

在草案HEVC标准中，不使用参考图像标记语法结构和相关解码过程，而是改为使用参考图像集(RPS)语法结构和解码过程以实现类似目的。针对图像有效或活动的参考图像集包括被用作图像参考的所有参考图像，以及针对采用解码顺序的任何后续图像被保持标记为“用于参考”的所有参考图像。参考图像集具有六个子集，即被称为RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr以及RefPicSetLtFoll。六个子集的表示法如下。“Curr”指以下参考图像：它们包括在当前图像的参考图像列表中，并且因此可以被用作当前图像的帧间预测参考。“Foll”指以下参考图像：它们未包括在当前图像的参考图像列表中，但可以作为参考图像用于采用解码顺序的后续图像。“St”指短期参考图像，它们通常可以通过其POC值的某一数量的最低有效位来标识。“Lt”指长期参考图像，它们被具体地标识，并且相对于当前图像的POC值差异通常大于所提及的某一数量的最低有效位可以表示的POC值差异。“0”指POC值小于当前图像的POC值的那些参考图像。“1”指POC值大于当前图像的POC值的那些参考图像。RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0以及RefPicSetStFoll1被统称为参考图像集的短期子集。RefPicSetLtCurr和RefPicSetLtFoll被统称为参考图像集的长期子集。

在草案HEVC标准中，参考图像集可以在序列参数集中指定，并且通过指向参考图像集的索引用于分片标头。参考图像集还可以在分片标头中指定。参考图像集的长期子集通常仅在分片标头中指定，而同一参考图像集的短期子集可以在图像参数集或分片标头中指定。参考图像集可以单独编码，或者可以从另一个参考图像集来预测(被称为帧间RPS预测)。当单独对参考图像集编码时，语法结构包括多达三个在不同类型的参考图像内重复的循环；短期参考图像具有的POC值低于当前图像，短期参考图像具有的POC值高于当前图像和长期参考图像。每个循环条目指定要标记为“用于参考”的图像。一般而言，使用差分POC值指定图像。帧间RPS预测利用以下事实：当前图像的参考图像集可以从先前解码的图像的参考图像集来预测。这是因为当前图像的所有参考图像是先前图像的参考图像或先前解码的图像本身。只需指示其中哪些图像应该是参考图像并且用于当前图像的预测。在两种类型的参考图像集编码中，另外针对每个参考图像发送标志(used_by_curr_pic_X_flag)，该标志指示参考图像用于由当前图像参考(包括在*Curr列表中)还是不由当前图像参考(包括在*Foll列表中)。将包括在当前分片所使用的参考图像集中的图像标记为“用于参考”，并且将不包括在当前分片所使用的参考图像集中的图像标记为“未用于参考”。如果当前图像是IDR图像，则RefPicSetStCurr0、RefPicSetStCurr1、RefPicSetStFoll0、RefPicSetStFoll1、RefPicSetLtCurr以及RefPicSetLtFoll被全部设置为空。

可以在编码器和/或解码器中使用解码图像缓冲器(DPB)。缓冲解码图像有两个原因：用于帧间预测中的参考，以及用于将解码图像重新排序为输出顺序。因为H.264/AVC和HEVC为参考图像标记和输出重新排序两者提供很大的灵活性，所以用于参考图像缓冲和输出图像缓冲的单独缓冲器会浪费存储器资源。因此，DPB可以包括用于参考图像和输出重新排序的统一解码图像缓冲过程。当解码图像不再用作参考并且不需要用于输出时，可以从DPB删除该解码图像。

在H.264/AVC和HEVC的许多编码模式中，使用指向参考图像列表的索引指示用于帧间预测的参考图像。可以使用可变长度编码对索引编码，这通常导致更小索引针对对应的语法元素具有更短的值。在H.264/AVC和HEVC中，针对每个双预测(B)分片生成两个参考图像列表(参考图像列表0和参考图像列表1)，并且针对每个帧间编码(P)分片形成一个参考图像列表(参考图像列表0)。此外，对于草案HEVC标准中的B分片，在已构造最终参考图像列表(列表0和列表1)之后，构造组合列表(列表C)。组合列表可以用于B分片中的单预测(也被称为单向预测)。

通常以两个步骤构造参考图像列表(例如参考图像列表0和参考图像列表1)：首先，生成初始参考图像列表。可以例如基于frame_num、POC、temporal_id或有关预测层次结构(例如GOP结构)的信息或其任意组合，生成初始参考图像列表。其次，可以通过参考图像列表重新排序(RPLR)命令，对初始参考图像列表重新排序，这些命令也被称为参考图像列表修改语法结构，它们可以被包含在分片标头中。RPLR命令指示排序到相应参考图像列表的开头的图像。此第二步骤也可以被称为参考图像列表修改过程，并且RPLR命令可以被包括在参考图像列表修改语法结构中。如果使用参考图像集，则可以初始化参考图像列表0以便首先包含RefPicSetStCurr0，随后是RefPicSetStCurr1，随后是RefPicSetLtCurr。可以初始化参考图像列表1以便首先包含RefPicSetStCurr1、随后是RefPicSetStCurr0。可以通过参考图像列表修改语法结构，修改初始参考图像列表，其中可以通过指向初始参考图像列表的条目索引，标识该列表中的图像。

可伸缩视频编码指这样的编码结构：其中一个位流可以包含内容在不同位速率、分辨率或帧速率下的多个表示。在这些情况下，接收器可以根据其特征(例如与显示设备最佳匹配的分辨率)提取所需表示。备选地，服务器或网络元件可以例如根据网络特征或接收器的处理能力，提取要传输到接收器的位流部分。可伸缩位流通常包括一个“基础层”和一个或多个增强层，基础层提供最低质量的可用视频，增强层与更低层一起在接收视频并对其解码时增强视频质量。为了改进增强层的编码效率，该层的编码表示通常取决于更低层。例如，可以从更低层预测增强层的运动和模式信息。同样，更低层的像素数据可以用于产生针对增强层的预测。

在某些可伸缩视频编码方案中，可以将视频信号编码成基础层和一个或多个增强层。增强层可以增强时间分辨率(即，帧速率)、空间分辨率，或者仅增强另一个层或其一部分所表示的视频内容的质量。每个层连同其所有相关层一起是视频信号在某一空间分辨率、时间分辨率和质量级别的一个表示。在本文档中，我们将可伸缩层连同其所有相关层一起称为“可伸缩层表示”。可以提取可伸缩位流的与可伸缩层表示对应的部分并对其解码，以便产生原始信号在某一保真度下的表示。

某些编码标准允许产生可伸缩位流。可以通过仅对可伸缩位流的某些部分解码，产生有意义的解码表示。可伸缩位流可以例如用于流服务器中的预编码单播流的速率自适应，以及用于将单个位流传输到具有不同能力和/或不同网络条件的终端。可伸缩视频编码的某些其它用例列表可以在ISO/IEC JTC1 SC29 WG11(MPEG)输出文档N5540“Applications andRequirements for Scalable Video Coding(可伸缩视频编码的应用和要求)”(第64次MPEG会议，2003年3月10日至14日，泰国芭堤雅)中找到。

在某些情况下，可以在某一位置之后，或者甚至在任意位置处，截断增强层中的数据，其中每个截断位置可以包括表示不断增强的视觉质量的附近数据。这种可伸缩性被称为细粒度(粒度)可伸缩性(FGS)。

SVC使用层间预测机制，其中可以从当前重构的层或下一个更低层之外的层预测某些信息。可以被层间预测的信息包括帧内纹理、运动和残余数据。层间运动预测包括块编码模式、标头信息等的预测，其中来自更低层的运动可以用于更高层的预测。在帧内编码的情况下，预测可能来自周围宏块，或者来自更低层的位于一起的宏块。这些预测技术不采用来自先前编码存取单元的信息，并且因此被称为帧内预测技术。此外，还可以采用来自更低层的残余数据以便预测当前层。

SVC指定一种概念，其被称为单循环解码。通过使用受限帧内纹理预测模式启用单循环解码，由此可以将层间帧内纹理预测应用于以下宏块(MB)：对于这些宏块，基础层的对应块位于帧内MB内部。同时，基础层中的这些帧内MB使用受限帧内预测(例如，具有等于1的语法元素“constrained_intra_pred_flag”)。在单循环解码中，解码器仅针对回放需要的可伸缩层(被称为“所需层”或“目标层”)执行运动补偿和完全图像重构，从而大大降低解码复杂性。所需层之外的所有层不需要被完全解码，因为重构所需层不需要未用于层间预测(无论是层间帧内纹理预测、层间运动预测或层间残余预测)的MB的部分或全部数据。

对大多数图像解码需要单个解码循环，而选择性地应用第二解码循环以便重构基础表示，需要这些基础表示作为预测参考，但它们不用于输出或显示，并且仅针对所谓的关键图像(对于这些图像，“store_ref_base_pic_flag”等于1)重构它们。

FGS被包括在SVC标准的某些草案版本中，但它最后从最终SVC标准被排除。随后在SVC标准的某些草案版本的上下文中讨论FGS。不能被截断的这些增强层提供的可伸缩性被称为粗粒度(粒度)可伸缩性(CGS)。它总的来说包括传统质量(SNR)可伸缩性和空间可伸缩性。SVC标准支持所谓的中粒度可伸缩性(MGS)，其中质量增强图像类似于SNR可伸缩层图像进行编码，但类似于FGS层图像由高级语法元素来指示(通过具有大于0的quality_id语法元素来指示)。

SVC草案中的可伸缩性结构可以由三个语法元素来表征：“temporal_id”、“dependency_id”和“quality_id”。语法元素“temporal_id”用于指示时间可伸缩性层次结构，或者间接指示帧速率。与包括更大最大“temporal_id”的图像的可伸缩层表示相比，包括更小的最大“temporal_id”值的图像的可伸缩层表示具有更小的帧速率。给定的时间层通常取决于更低的时间层(即，具有更小“temporal_id”值的时间层)，而不取决于任何更高的时间层。语法元素“dependency_id”用于指示CGS层间编码相关性层次结构(如前面提及的，这包括SNR和空间可伸缩性两者)。在任何时间级别位置，可以使用更小“dependency_id”值的图像对具有更大“dependency_id”值的图像的编码进行层间预测。语法元素“quality_id”用于指示FGS或MGS层的质量级别层次结构。在任何时间位置并且对于相同的“dependency_id”值，“quality_id”等于QL的图像使用“quality_id”等于QL－1的图像进行层间预测。“quality_id”大于0的编码分片可以作为可截断FGS分片或不可截断MGS分片进行编码。

为了简单起见，一个存取单元中具有相同“dependency_id”值的所有数据单元(例如，SVC上下文中的网络抽象层单元或NAL单元)被称为相关单元或相关表示。在一个相关单元中，具有相同“quality_id”值的所有数据单元被称为质量单元或层表示。

基础表示(也被称为解码基础图像)是解码图像，其由对以下相关单元的视频编码层(VCL)NAL单元解码产生：该相关单元具有等于0的“quality_id”，并且针对该相关单元，将“store_ref_base_pic_flag”设置为等于1。增强表示(也被称为解码图像)由常规解码过程产生，其中对针对最高相关表示存在的所有层表示解码。

如前面提及的，CGS包括空间可伸缩性和SNR可伸缩性两者。空间可伸缩性最初被设计为支持具有不同分辨率的视频的表示。对于每个时间实例，在同一存取单元中对VCL NAL单元编码，并且这些VCL NAL单元可以对应于不同的分辨率。在解码期间，低分辨率VCL NAL单元提供运动字段和残余，它们可以可选地由高分辨率图像的最终解码和重构来继承。当与较旧的视频压缩标准比较时，SVC的空间可伸缩性已经被通用化以便使基础层能够成为增强层的裁剪和缩放版本。

类似于FGS质量层，使用“quality_id”指示MGS质量层。对于每个相关单元(具有相同的“dependency_id”)，存在一个“quality_id”等于0的层，并且可以存在“quality_id”大于0的其他层。“quality_id”大于0的这些层是MGS层或FGS层，具体取决于分片是否作为可截断分片进行编码。

在基本形式的FGS增强层中，仅使用层间预测。因此，FGS增强层可以被自由截断而不会在解码序列中导致任何错误传播。但是，基本形式的FGS压缩效率低下。出现该问题只是因为使用低质量图像作为帧间预测参考。因此，已建议使用FGS增强图像作为帧间预测参考。但是，当丢弃某些FGS数据时，这可能导致编码-解码不匹配(也被称为漂移)。

草案SVC标准的一个特性是FGS NAL单元可以被自由丢弃或截断，并且SVCV标准的一个特性是MGS NAL单元可以被自由丢弃(但不能被截断)而不会影响位流的一致性。如上面讨论的，当在编码期间使用这些FGS或MGS数据作为帧间预测参考时，丢弃或截断数据将导致解码器侧和编码器侧的解码图像之间的不匹配。这种不匹配也被称为漂移。

为了控制由于丢弃或截断FGS或MGS数据导致的漂移，SVC应用以下解决方案：在某一相关单元中，将基础表示(通过仅对以下CGS图像解码：该CGS图像具有等于0的“quality_id”和所有相关更低层数据)存储在解码图像缓冲器中。当对具有相同“dependency_id”值的后续相关单元编码时，所有NAL单元(包括FGS或MGS NAL单元)都使用基础表示作为帧间预测参考。因此，由于在先前存取单元中丢弃或截断FGS或MGS NAL单元导致的所有漂移都在该存取单元处被停止。对于具有相同“dependency_id”值的其它相关单元，所有NAL单元使用解码图像作为帧间预测参考，以便实现高编码效率。

每个NAL单元在NAL单元标头中包括语法元素“use_ref_base_pic_flag”。当该元素的值等于1时，NAL单元的解码在帧间预测过程中使用参考图像的基础表示。语法元素“store_ref_base_pic_flag”指定是(当等于1时)或否(当等于0时)针对未来图像存储当前图像的基础表示以便用于帧间预测。

“quality_id”大于0的NAL单元不包含与参考图像列表构造和加权预测相关的语法元素，即，不存在语法元素“num_ref_active_lx_minus1”(x＝0或1)、参考图像列表重新排序语法表以及加权预测语法表。因此，当需要时，MGS或FGS层必须从同一相关单元的“quality_id”等于0的NAL单元继承这些语法元素。

在SVC中，参考图像列表仅包括基础表示(当“use_ref_base_pic_flag”等于1时)或者仅包括未标记为“基础表示”的解码图像(当“use_ref_base_pic_flag”等于0时)，但从不同时包括这两者。

用于质量可伸缩性(也被称为信噪比或SNR)和/或空间可伸缩性的可伸缩视频编解码器可以实现如下。对于基础层，使用常规不可伸缩的视频编码器和解码器。基础层的重构/解码图像被包括在增强层的参考图像缓冲器中。在H.264/AVC、HEVC和使用参考图像列表(多个)进行帧间预测的类似编解码器中，基础层解码图像可以被***参考图像列表(多个)中，以便对增强层图像编码/解码，这类似于增强层的解码参考图像。因此，编码器可以选择基础层参考图像作为帧间预测参考，并且指示其通常与编码位流中的参考图像索引一起使用。解码器从位流来解码，例如从基础层图像被用作增强层的帧间预测参考的参考图像索引来解码。当解码后的基础层图像被用作增强层的预测参考时，该图像被称为层间参考图像。

除了质量可伸缩性之外，存在以下可伸缩性模式：

●空间可伸缩性：在高于增强层图像的分辨率下对基础层图像编码。

●位深度可伸缩性：在低于增强层图像(例如10或12位)的位深度(例如8位)下对基础层图像编码。

●色度格式可伸缩性：基础层图像提供高于增强层图像(例如4:2:0格式)的色度保真(例如以4:4:4色度格式编码)。

现在为了提高增强层运动补偿预测的性能，以下提出一种用于预测增强层样本的改进方法。

在所述方法中，标识增强层图像中要预测的样本块。通过使用至少一个增强层参考图像和增强层运动信息，针对所标识的样本块执行运动补偿预测，计算第一增强层预测块。针对基础层重复这些步骤；即，在与所述增强层图像中要预测的样本块位于一起的基础层图像中，标识重构样本块，并且通过使用至少一个基础层参考图像和针对所述增强层指示的运动信息，针对所标识的重构样本块执行运动补偿预测，计算基础层预测块。然后基于所述基础层预测块、所标识的基础层重构样本和所述第一增强预测，计算第二增强层预测。通过从所述第二增强层预测进行预测，对所述增强层图像中的所标识的样本块编码。

根据一个实施例，所述方法进一步包括：标识在原始图像中的样本块的值和位于一起的增强层预测块的值之间的残余信号；将所述残余信号编码成重构残余信号；以及将所述重构残余信号添加到所述位于一起的增强层预测块。

因此，通过将增强层运动补偿预测和由有关基础层的运动补偿过程使用增强层的相同或相似运动向量估计的差分信号相加在一起，改进了增强层运动补偿预测的性能。差分信号逼近基础层上的残余信号(即，在视频序列中出现或消失的对象)，并且可以明显减少对增强层上的残余预测误差编码的需要，因此导致可观的压缩效率增益。

所述方法可以被称为基础增强运动补偿预测(BEMCP)。

根据一个实施例，类似于HEVC，执行帧间预测模式以及对应运动向量和参考帧索引的指示。

根据一个实施例，通过一个二进制标识符(one-bin identifier)，在预测单元(PU)级别用信号通知BEMCP方法的使用。

根据一个实施例，通过对基础层图像的样本上采样，生成基础层中的块，以便与增强层预测块具有相同的空间分辨率。在这种情况下，P(x,y)和B(xb,yb)的坐标关系变得简单：xb＝x，yb＝y。

根据一个实施例，使用上采样到与增强层预测块相同的空间分辨率的至少一个基础层参考图像，产生基础层中的运动补偿预测。因此，增强层运动信息可以直接应用于基础层运动补偿。

图6的流程图中示出增强层中的像素块(增强层块)的编码或解码的一个实施例。首先，标识增强层图像中要预测的样本块P(x,y)(650)。然后使用增强层参考图像和在编码/解码过程中指示的增强层运动信息，针对所标识的样本块P(x,y)产生运动补偿预测，从而使能计算增强层预测块P’(x,y)(652)。在基础层中重复这些步骤包括在与样本块P(x,y)的位置对应的位置处标识重构基础层样本块B(xb,yb)(654)，并且使用基础层参考图像和所指示的增强层运动信息，针对所标识的样本块B(xb,yb)产生运动补偿预测，因此使能计算基础层预测块B’(xb,yb)(656)。然后通过将B(xb,yb)和B’(xb,yb)的差与P’(x,y)相加，计算所标识的增强层样本块P(x,y)的预测值(658)：即，P(x,y)＝Clip(P’(x,y)+B(xb,yb)－B’(xb,yb))，其中Clip()函数可以用于将产生的样本值限于视频材料的所需位深度(例如对于8位视频，在0和255之间(包括0和255))。最后，检查(660)是否剩下任何残余信号，即，原始图像块和增强层预测块之间的差异。如果是，则对残余信号编码并且将重构残余信号添加(662)到增强层预测块。

技术人员很容易地理解，上面步骤的顺序可以改变。例如，步骤500和502可以在步骤504和506之后执行。还可以使用不同方法执行步骤508中的计算预测值。例如，可以通过缩放因数缩放B(xb,yb)和B’(xb,yb)的差。

图7示出在单预测(使用具有单个参考帧的一个运动向量)的情况下的BEMCP过程的一个实例。增强层图像700中的要预测的样本块P(x,y)被示为阴影4×4块。使用增强层运动信息(即，运动向量(mvx,mvy))，从增强层参考图像704的对应块计算预测增强层图像702中的增强层预测块P’(x,y)。

在图6的实例中，对重构基础层图像和基础层参考图像上采样以便具有增强图像的空间分辨率。因此，当在基础层处执行运动补偿操作时，应用增强层运动向量(mvx,mvy)而不修改。

在重构基础层图像706中，标识与样本块P(x,y)的位置对应的位置处的重构基础层样本块B(x,y)。使用运动向量(mvx,mvy)，从基础层参考图像710的对应块计算预测基础层图像708中的基础层预测块B’(x,y)。

在已执行运动补偿预测之后，通过对以下方程求值获得增强层预测样本：

P(x,y)＝Clip(P’(x,y)+B(x,y)－B’(x,y))

各实施例可以作为计算机代码执行，该计算机代码例如存储在计算机可读存储介质上或存储器中，该代码当由处理器执行时，导致装置(例如移动电话)执行必要步骤。例如，计算所标识的增强层样本块的预测值可以作为C/C++代码实现，例如如下所示：

….

for(Int y＝0；y<iHeight；y++)

for(Int x＝0；x<iWidth；x++)

pEnh[y*iStrideEnh+x]＝Clip(pEnh[y*iStrideEnh+x]+pBaseThis[y*iStrideBaseThis+x]–pBase[y*iStrideBase+x])；

….

其中(iWidth,iHeight)定义增强层预测块的大小。pEnh是指向数组的指针，该数组包含增强层块的已生成运动补偿预测P’(x,y)作为输入，并且包含最终基础增强运动补偿预测P(x,y)作为输出。pBaseThis是指向数组的指针，该数组包含上采样的基础层重构图像B(x,y)，该图像与增强层图像具有相同的分辨率。bBase是指向运动补偿基础层块B’(x,y)的指针，该基础层块B’(x,y)通过使用增强层运动信息获得，这类似于P’(x,y)。iStrideEnh、iStrideBaseThis和iStrideBase分别指包含pEnh、pBaseThis和pBase的样本数据的缓冲器的宽度。

根据一个实施例，用信号通知使用BEMCP模式并不限于仅在预测单元(PU)级别用信号通知，而是可以在不同粒度执行，例如在编码单元(CU)、分片、图像或序列级别执行。

如上面提及的，可以通过缩放因数缩放B(x,y)和B’(x,y)的差。根据一个实施例，差分项B(x,y)－B’(x,y)的缩放可以改变，并且可以用信号通知指示选定缩放操作的缩放因数。例如，可以使用一个二进制标识符指示差分项是通过预定义系数缩放还是在不缩放的情况下使用。如果按如下给出两个备选预测P1(x,y)和P2(x,y)，则预定义系数例如可以是0.5：

-P1(x,y)＝Clip(P’(x,y)+B(x,y)－B’(x,y))；

-P2(x,y)＝Clip(P’(x,y)+((B(x,y)－B’(x,y))>>1)

根据一个实施例，可以使用多个缩放因数，并且从而还可以缩放差分项P’(x,y)－B’(x,y)。例如，允许以系数0.5缩放P’(x,y)－B’(x,y)和B(x,y)－B’(x,y)两者，可以生成三种BEMCP模式。在该实例中，一个二进制可以指示是否使用非缩放BEMCP，并且如果使用缩放BEMCP，则另一个二进制可以指示针对像素块启用两种缩放BEMCP模式中的哪一种：

-P1(x,y)＝Clip(P’(x,y)+B(x,y)－B’(x,y))；

-P2(x,y)＝Clip(P’(x,y)+((B(x,y)－B’(x,y))>>1)；

-P3(x,y)＝Clip(B(x,y)+((P’(x,y)－B’(x,y))>>1)

根据一个实施例，差分项P’(x,y)－B’(x,y)和B(x,y)－B’(x,y)的缩放因数可以用信号通知或者从可用信息暗示。缩放因数的值可以被限于0和1之间的范围(包括0和1)，或者可以具有该范围之外的值。

根据一个实施例，BEMCP模式的使用可以取决于块的类型(帧间、帧内、单预测、双预测等)或图像的类型(I、P、B图像、参考或非参考图像、图像在时间层次结构中的位置等)或块大小。

根据一个实施例，BEMCP模式的使用可以取决于当前图像或时间参考图像的基础层信息的可用性。

根据一个实施例，BEMCP模式的使用可以取决于位速率、用于块或块的色度的量化参数。

代替或者除了用信号通知BEMCP模式的使用之外，可以通过使用预定条件推断使用信息或者作为这些方法的组合，启用BEMCP模式。根据一个实施例，可以发生推断该模式的使用，例如基于相邻块的模式，基于在对应于增强层块的位置的基础层块(多个)中存在预测误差编码，基于增强层或基础层参考帧的样本值或重构基础层图像的样本值、基础层解码图像缓冲器中的基础层参考图像的可用性，或者上述各项的组合。

根据一个实施例，BEMCP模式的使用可以因运动编码机制的类型而不同。例如在HEVC中，可以针对AMVP编码块显式地用信号通知使用该模式，并且可以从合并编码块中的选定合并候选者的模式信息复制使用该模式。

在基础层的上采样中，可以使用不同的上采样滤波器。可以针对完整图像或者仅针对运动补偿/BEMCP过程需要的区域(或中间区域)，执行基础层的上采样。

根据一个实施例，增强层图像和基础层图像的坐标系可以不同。例如，如果基础层在处理之前未被上采样到与增强层相同的分辨率，但基础层和增强层之间的空间可伸缩性为2:1，则基础层样本和增强层样本P和B的坐标关系可以给出为xb＝x/2，yb＝y/2。

根据一个实施例，可以在基础层的原始分辨率下发生基础层中的运动补偿。可以将原始分辨率下的基础层差异信号Bd(xb,yb)＝B(xb,yb)－B’(xb,yb)上采样到与增强层块相同的分辨率，并且将其添加到增强层预测中：P(x,y)＝P’(x,y)+Bdupsampled(x,y)。在此，基础层运动补偿应该缩放增强层运动向量，以便与两个层的分辨率差异相匹配。

根据一个实施例，不是在基础层中应用运动补偿预测，而是可以对所指示的基础层预测误差信号上采样并且应用为增强层的估计预测误差信号：P(x,y)＝P’(x,y)+UpsampledBasePredictionError(x,y)。

根据一个实施例，不是利用重构基础层样本，而是可以使用重构之前的中间样本以便获得差异值。具体地说，可以使用任何环路内滤波操作之前的基础层值，这些环路内滤波操作例如包括HEVC的解块滤波或采样自适应偏移(SAO)和自适应环路滤波(ALF)。

根据一个实施例，可以限制基础层处的运动补偿过程，以便降低所述方法的存储带宽要求。例如，该过程可以被限于单预测(例如仅利用列表0增强层运动，或者从时间或图像顺序意义上说引用最近参考帧的增强层运动向量)，从而将基础层运动向量量化为全像素值，或者仅当增强层运动接近(例如在某一预定义或指示的水平和垂直范围内)已针对基础层运动补偿预测的基础层指示的运动时，才使用该模式。当增强层运动接近已针对基础层指示的运动时，解码器可以从基础层参考帧获得样本块，例如使用一个存储器取回操作，基于预定义或指示的水平和垂直范围，增加该样本块的大小。因此，可以减少来自解码图像缓冲器的存储器取回操作的数量。编码器可以例如在序列参数集中，指示增强层运动相对于基础层运动的水平和/或垂直范围。

根据一个实施例，代替或者除了增强层运动信息之外，基础层处的运动补偿过程可以利用被指示用于基础层重构过程的运动信息。

根据其它实施例，为了限制存储带宽要求，可以仅针对维度小于或大于预定值(例如4、8、16或32像素)的块应用所述方法。

根据一个实施例，可以通过分析P’(x,y)、B(x,y)和B’(x,y)的像素值，分别针对块中的每个像素决定使用BEMCP增强。在此，

-可以显式用信号通知针对每个像素的决定；

-可以针对分析/用信号通知使用不同的子块大小，而不是像素级别粒度；

-分析可以考虑P’(x,y)、B(x,y)和B’(x,y)中的任何两个块；

-分析可以基于设置P’(x,y)、B(x,y)和B’(x,y)中的任何两个块的绝对差异阈值。例如，可以针对位置x,y处的每个像素应用以下分析：

选取abs(P’(x,y)－B(x,y))<T的P’(x,y),

否则选取B(x,y)(或反之亦然),

其中T是预定或自适应阈值。

-分析可以如下：对于位置x,y处的每个像素：如果abs(B’(x,y)－B(x,y))<abs(B’(x,y)－P’(x,y)),则选取P’(x,y)，否则选取B(x,y),或反之亦然。

-在P(x,y)＝Clip(P’(x,y)+B(xb,yb)－B’(xb,yb))的求值期间，可以将B(xb,yb)－B’(xb,yb)的绝对值或P’(xb,yb)－B’(xb,yb)的绝对值裁剪为预定或自适应值。

在上面的各种备选方案中，BEMCP相关语法元素(多个)或语法元素值的使用和/或存在可以取决于与增强层参考图像(多个)对应的基础层参考图像(多个)的可用性(作为预测参考)。一般而言，编码器可以通过基础层的参考图像集(以及因此通过用于基础层的帧间预测的参考图像标记)和/或用于BEMCP或层间预测的特定参考图像标记控件，控制可用性。编码器和/或解码器可以当断定BL图像是或者可能被需要作为增强层(EL)图像的BEMCP参考或层间预测参考时，将基础层(BL)图像的层间标记状态设置为“用于BEMCP参考”或“用于层间参考”等，或者当断定不需要BL图像作为EL图像的BEMCP参考或层间预测参考时，设置为“未用于BEMCP参考”或“未用于层间参考”等。

编码器可以生成用于层间参考的特定参考图像集(RPS)语法结构，或者专用于层间参考的另一个RPS语法结构的一部分。可以附加层间RPS的语法结构以便支持RPS间预测。与其它RPS语法结构一样，每个层间RPS语法结构可以与索引关联，并且索引值可以例如被包括在编码分片中以便指示正在使用哪个层间RPS。层间RPS可以指示被标记为“用于层间参考”的基础层图像，而未在称为EL图像的层间RPS中的任何基础层图像可以被标记为“未用于层间参考”。

备选地或此外，可以具有其它手段以便指示BL图像是否用于层间参考，例如BL图像的编码分片的分片扩展或相应EL图像的编码分片中的标志。此外，可以具有一个或多个指示，它们指示将BL图像标记为“用于层间参考”的持久性，例如序列级别语法结构(例如视频参数集)和/或图像或分片级别结构(例如分片扩展)中的计数器语法元素。序列级别计数器语法元素例如可以指示使用BEMCP的任何EL运动向量的最大POC值差异和/或采用将BL图像标记为“用于层间参考”的解码顺序(通过编码和/或解码过程)的最大BL图像数量(这些BL图像可以在相同或更低的时间子层处)。图像级别计数器例如可以指示采用将BL图像标记为“用于层间参考”的解码顺序(通过编码和/或解码过程)的BL图像数量(这些BL图像可以在包括计数器语法元素的BL图像所在的相同或更低的时间子层处)。

备选地或此外，可以具有其它手段以便指示哪些BL图像用于或可以用于层间参考。例如，可以例如在视频参数集中具有序列级别指示，其指示基础层中的哪些temporal_id值和/或图像类型可以被用作层间参考，和/或基础层中的哪些temporal_id值和/或图像类型不被用作层间参考。

可以以这样的方式修改解码图像缓冲(DPB)过程：将“用于参考”(用于帧间预测)、输出所需或者“用于层间参考”的图像保存在DPB中，而可以从DPB删除“未用于参考”(用于帧间预测)、输出不需要(即，已经输出或起初未打算输出)以及“未用于层间参考”的图像。

仅对基础层解码的解码器可以省略与将图像标记为层间参考相关的过程(例如层间RPS的解码)，并且因此如同所有图像都是“未用于层间参考”那样对待这些图像。

可以将上述方法应用于包含多于一个内容表示的任何视频流。例如，它可以应用于多视图视频编码，该编码利用来自不同视图的可能已处理的图像作为基础图像。

本发明的另一个方面是解码器在接收基础层图像和至少一个增强层图像时的操作。图8示出适合于采用本发明的实施例的视频解码器的框图。

解码器包括熵解码器600，其针对接收的信号执行熵解码，作为上述编码器的熵编码器330的逆操作。熵解码器600将熵解码的结果输出到预测误差解码器602和像素预测器604。

像素预测器604接收熵解码器600的输出。像素预测器604中的预测选择器614确定要执行帧内预测、帧间预测还是插值运算。预测选择器此外可以将图像块的预测表示616输出到第一组合器613。图像块的预测表示616与重构预测误差信号612结合使用，以便生成初级重构图像618。初级重构图像618可以用于预测器614或者可以被传递到滤波器620。滤波器620应用输出最终重构信号622的滤波。最终重构信号622可以被存储在参考帧存储器624中，参考帧存储器624被进一步连接到预测器614以实现预测操作。

预测误差解码器602接收熵解码器600的输出。预测误差解码器602的反量化器692可以对熵解码器600的输出反量化，并且逆变换块693可以执行到反量化器692输出的反量化信号的逆变换操作。熵解码器600的输出还可以指示不应用预测误差信号，并且在这种情况下，预测误差解码器产生全部为0的输出信号。

各实施例的解码操作类似于例如图6中所示的编码操作。因此，在上面的过程中，解码器可以首先标识增强层图像中要预测的样本块。然后解码器可以通过使用从编码器获得的至少一个增强层参考图像和增强层运动信息，针对所标识的样本块执行运动补偿预测，来计算第一增强层预测块。解码器可以针对基础层重复这些步骤；即，在与增强层图像中要预测的样本块位于一起的基础层图像中，标识重构样本块；以及通过使用至少一个基础层参考图像和针对增强层指示的运动信息，针对所标识的重构样本块执行运动补偿预测，来计算基础层预测块。解码器然后基于基础层预测块、所标识的基础层重构样本和第一增强预测，计算第二增强层预测。通过从第二增强层预测进行预测，对增强层图像中的所标识的样本块解码。

如果存在由于对样本块解码产生的残余信号，则解码器然后将残余信号解码成重构残余信号，并且将重构残余信号添加到增强层图像内的解码块。

以上参考增强层和基础层描述了某些实施例。需要理解，基础层也可以是任何其它层，只要它是增强层的参考层。还需要理解，编码器可以在位流中生成两个以上的层，并且解码器可以从位流中对两个以上的层解码。可以使用增强层及其参考层的任意对实现各实施例。同样，可以在考虑两个以上的层的情况下实现许多实施例。

上述本发明实施例根据单独编码器和解码器装置描述编解码器，以便有助于理解所涉及的过程。但是，应该理解，所述装置、结构和操作可以被实现为单个编码器-解码器装置/结构/操作。此外，在本发明的某些实施例中，编码器和解码器可以共享部分或全部通用元件。

尽管上面的实例描述了在电子设备内的编解码器中操作的本发明实施例，但应该理解，如下面描述的本发明可以被实现为任何视频编解码器的一部分。因此，例如，本发明的实施例可以以视频编解码器实现，该视频编解码器可以通过固定或有线通信路径实现视频编码。

因此，用户设备可以包括视频编解码器，例如在上面的本发明实施例中描述的那些视频编解码器。应该理解，术语用户设备旨在包括任何合适类型的无线用户设备，例如移动电话、便携式数据处理设备或便携式Web浏览器。

此外，公共陆地移动网络(PLMN)的元件也可以包括如上所述的视频编解码器。

一般而言，本发明的不同实施例可以以硬件或专用电路、软件、逻辑或其任意组合实现。例如，某些方面可以以硬件实现，而其它方面可以以固件或软件实现，该固件或软件可以由控制器、微处理器或其它计算设备执行，然而本发明并不限于此。尽管本发明的不同方面可以作为框图、流程图或者使用某种其它图形表示被示出和描述，但应该很容易地理解，作为非限制性实例，在此描述的这些块、装置、***、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备或它们的某种组合实现。

本发明的实施例可以通过可由移动设备的数据处理器执行(例如在处理器实体中)的计算机软件、硬件或软件和硬件的组合实现。进一步，在这点上，应该注意，附图中的逻辑流程的任何方框可以表示程序步骤，或者互连逻辑电路、块和功能，或者程序步骤以及逻辑电路、块和功能的组合。软件可以被存储在诸如存储芯片之类的物理介质、或者在处理器中实现的存储块、诸如硬盘或软盘之类的磁介质，以及诸如DVD及其数据变体、CD之类的光介质上。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任意合适的数据存储技术实现，例如基于半导体的存储设备、磁存储设备和***、光存储设备和***、固定存储器以及可移动存储器。数据处理器可以具有适合于本地技术环境的任何类型，并且作为非限制性实例，可以包括以下一个或多个：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)以及基于多核处理器架构的处理器。

本发明的实施例可以在诸如集成电路模块之类的各种组件中实现。一般而言，集成电路的设计是高度自动化的过程。可以使用复杂并且强大的软件工具，将逻辑级别设计转换为可以在半导体衬底上蚀刻和形成的半导体电路设计。

程序(例如，位于加利福尼亚州山景城的Synopsys,Inc.以及位于加利福尼亚州圣何塞的Cadence Design提供的程序)使用完善的设计规则以及预先存储的设计模块库，自动路由导体并且在半导体芯片上定位组件。完成半导体电路设计之后，可以将标准化电子格式(例如，Opus、GDSII等)的结果设计传输到半导体制造设施或“工厂(fab)”以便制造。

上面的描述通过示例性和非限制性实例的方式，提供了本发明的示例性实施例的全面和信息性描述。但是，当结合附图和所附权利要求阅读时，鉴于上面的描述，各种修改和变化对于相关技术领域的技术人员来说可以变得显而易见。但是，对本发明教导的所有这些和类似的修改仍落入本发明的范围之内。

一种根据第一实施例的方法包括一种用于对增强层图像中的样本块编码的方法，所述方法包括

标识所述增强层图像中要预测的样本块；

根据一个实施例，所述方法进一步包括

将所述残余信号编码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

根据一个实施例，在位流中用信号通知所述缩放因数。

根据一个实施例，所述方法被始终应用为默认设置。

一种根据第二实施例的装置包括：

标识所述增强层图像中要预测的样本块；

标识增强层图像中要预测的样本块；

一种根据第五实施例的方法包括一种用于对包括基础层和至少一个增强层的可伸缩位流解码的方法，所述方法包括

标识增强层图像中要预测的样本块；

根据一个实施例，所述方法进一步包括

将所述残余信号解码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

根据一个实施例，在所述位流中用信号通知所述缩放因数。

根据一个实施例，所述方法被始终应用为默认设置。

根据一个实施例，在接收标志时，选择性地启用所述方法。

一种根据第六实施例的装置包括：

标识增强层图像中要预测的样本块；

Claims

1.一种方法，包括：

标识增强层图像中要预测的样本块；

2.根据权利要求1的方法，所述方法进一步包括

将所述残余信号解码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

3.根据任一上述权利要求的方法，所述方法进一步包括

通过对所述基础层图像的样本进行上采样来生成基础层块，以便具有与增强层预测块相同的空间分辨率。

4.根据权利要求3的方法，所述方法进一步包括

使用上采样到与所述增强层预测块相同的空间分辨率的所述至少一个基础层参考图像，产生所述基础层中的所述运动补偿预测。

5.根据权利要求4中的任一权利要求的方法，所述方法进一步包括

将基础层图像中的所述重构样本块和位于一起的基础层预测块的样本的差缩放至少一个缩放因数。

6.根据任一上述权利要求的方法，所述方法进一步包括

响应于增强和基础层图像的坐标系不同，定义基础和增强层样本的坐标关系，以便考虑所述基础层与增强层之间的空间可伸缩性的差异。

7.根据权利要求6的方法，所述方法进一步包括

在执行基础层运动补偿预测之前，缩放所述增强层运动信息以便与所述基础层和增强层之间的空间可伸缩性的差异相匹配。

8.一种装置，包括：

至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储代码，当所述代码由所述至少一个处理器执行时，导致所述装置执行：

标识增强层图像中要预测的样本块；

9.根据权利要求8的装置，所述装置被进一步配置为

将所述残余信号解码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

10.根据权利要求8-9中的任一权利要求的装置，所述装置被进一步配置为

11.根据权利要求10中的任一权利要求的装置，其中所述装置被配置为将基础层图像中的所述重构样本块和位于一起的基础层预测块的样本的差缩放至少一个缩放因数。

12.根据权利要求8-11中的任一权利要求的装置，其中所述装置被配置为，

13.根据权利要求12中的任一权利要求的装置，其中所述装置被配置为，

14.一种计算机可读存储介质，在其上存储代码以便由装置使用，当所述代码由处理器执行时，导致所述装置执行：

标识增强层图像中要预测的样本块；

15.一种方法，包括：

标识增强层图像中要预测的样本块；

16.根据权利要求15的方法，所述方法进一步包括

将所述残余信号编码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

17.根据权利要求15-16中的任一权利要求的方法，所述方法进一步包括

18.根据权利要求17的方法，所述方法进一步包括

19.根据权利要求18的方法，所述方法进一步包括

20.根据权利要求15-19中的任一权利要求的方法，所述方法进一步包括

21.根据权利要求20的方法，所述方法进一步包括

22.一种装置，包括：

标识增强层图像中要预测的样本块；

23.根据权利要求22的装置，所述装置被进一步配置为

将所述残余信号编码成重构残余信号；以及

将所述重构残余信号添加到所述第二增强层预测。

24.根据权利要求22-23中的任一权利要求的装置，所述装置被进一步配置为

25.根据权利要求24的装置，其中所述装置被配置为使用上采样到与所述增强层预测块相同的空间分辨率的所述至少一个基础层参考图像，产生所述基础层中的所述运动补偿预测。

26.根据权利要求25的装置，其中所述装置被配置为将基础层图像中的所述重构样本块和位于一起的基础层预测块的样本的差缩放至少一个缩放因数。

27.一种计算机可读存储介质，在其上存储代码以便由装置使用，当所述代码由处理器执行时，导致所述装置执行：

标识增强层图像中要预测的样本块；

28.至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储代码，当所述代码由所述至少一个处理器执行时，导致装置执行：

标识增强层图像中要预测的样本块；

29.一种视频编码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流编码，其中所述视频编码器被进一步配置为：

标识增强层图像中要预测的样本块；

30.一种视频解码器，其被配置为对包括基础层和至少一个增强层的可伸缩位流解码，其中所述视频解码器被进一步配置为：

标识增强层图像中要预测的样本块；