CN104429072B

CN104429072B - 自适应差域空间和时间参考重构及平滑

Info

Publication number: CN104429072B
Application number: CN201380036314.0A
Authority: CN
Inventors: K·拉帕卡; 陈建乐; 马尔塔·卡切维奇
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-09
Filing date: 2013-07-08
Publication date: 2019-03-15
Anticipated expiration: 2033-07-08
Also published as: CN104429072A; US20140010290A1; US9854259B2; JP2015527812A; JP6193370B2; EP2870756A1; WO2014011555A1; US20140010300A1; WO2014011559A1; US9516309B2

Abstract

根据某些方面的用于对视频信息进行译码的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息。所述处理器确定增强层权重和基础层权重，且确定基于所述差视频层的当前视频单元的值、以所述增强层权重加权的所述增强层中的视频单元的值，以及以所述基础层权重加权的所述基础层中的视频单元的值。

Description

自适应差域空间和时间参考重构及平滑

技术领域

本发明涉及视频译码。

背景技术

数字视频能力可并入到广泛范围的装置中，包含数字电视、数字直播***、无线广播***、个人数字助理(PDA)、膝上型或桌上型计算机、平板计算机、电子书阅读器、数码相机、数字记录装置、数字媒体播放器、视频游戏装置、视频游戏控制台、蜂窝式或卫星无线电电话、所谓的“智能电话”、视频电话会议装置、视频流式传输装置，及其类似物。数字视频装置实施视频译码技术，例如在由MPEG-2、MPEG-4、ITU-T H.263、ITU-T H.264/MPEG-4第10部分高级视频译码(AVC)、当前在开发的高效视频译码(HEVC)标准所定义的标准和这些标准的扩展中所描述的技术。视频装置可通过实施此类视频译码技术来更有效地发射、接收、编码、解码和/或存储数字视频信息。

视频译码技术包含空间(图片内)预测和/或时间(图片间)预测以减少或移除视频序列中固有的冗余。针对基于块的视频译码，视频切片(例如，视频帧或视频帧的一部分)可分割为若干视频块，所述视频块也可被称为树块、译码单元(CU)和/或译码节点。图片的经帧内译码(I)切片中的视频块是相对于同一图片中的相邻块中的参考样本使用空间预测来编码。图片的经帧间译码(P或B)切片中的视频块可相对于同一图片中的相邻块中的参考样本使用空间预测，或相对于其它参考图片中的参考样本使用时间预测。图片可称为帧，且参考图片可称为参考帧。

空间或时间预测针对待译码的块产生预测性块。残余数据表示在待译码的原始块与预测性块之间的像素差。经帧间译码块是根据指向形成预测性块的参考样本的块的运动向量及指示在经译码块与预测性块之间的差的残余数据来编码。经帧内译码块是根据帧内译码模式及残余数据来编码。为进行进一步压缩，可将残余数据从像素域变换到变换域，从而产生接着可被量化的残余变换系数。最初以二维阵列布置的经量化变换系数可经扫描，以便产生变换系数的一维向量，且可应用熵译码以实现甚至更多的压缩。

发明内容

大体上，本发明描述涉及可缩放视频译码(SVC)的技术。更具体来说，本发明的技术涉及差域译码中的帧内和帧间预测。在一些实例中，所述技术可将不同权重指派于来自增强层的参考帧以及来自经重构基础层的参考帧，以便产生用于差域的参考帧。在一些实例中，所述技术可将不同权重指派于来自增强层的空间相邻像素以及来自经重构基础层的空间相邻像素，以便产生用于帧内预测的差域的相邻像素。通过将权重值指派于EL和经重构BL，所述技术可考虑同一层中的帧之间的弱的空间和时间相关和/或EL与BL之间的弱相关。举例来说，EL和BL在其呈现的图片方面可能极为不同。在此情况下，在产生差域参考帧时可对EL参考帧给出较大权重。或者，可对经重构BL参考而非EL参考帧给出较大权重。

在一些实例中，所述技术也可将平滑滤波器或低通滤波器应用于差域中的参考帧以用于帧间预测，或将平滑滤波器或低通滤波器应用于差域中的空间相邻像素以便减少差域中可能存在的高频噪声。所述技术可应用简单的平滑滤波器，例如1∶2∶1滤波器，以便保持纹理而不增加计算复杂性。可应用任何平滑滤波器，只要应用滤波器的益处超过额外计算复杂性即可。

根据某些方面的用于对视频信息进行译码的设备包含存储器单元和与所述存储器单元通信的处理器。所述存储器单元存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息。所述处理器基于差视频层内的参考视频单元或空间相邻视频单元来确定视频单元的值，且将平滑滤波器应用于参考视频单元或空间相邻视频单元。

在附图和以下描述中陈述一或多个实例的细节。从描述和附图以及从权利要求书将明了其它特征、目标和优点。

附图说明

图1是说明可利用根据本发明中描述的方面的技术的实例性视频编码和解码***的框图。

图2是说明可实施根据本发明中描述的方面的技术的实例性视频编码器的框图。

图3是说明可实施根据本发明中描述的方面的技术的实例性视频解码器的框图。

图4是说明根据本发明的方面的自适应加权差域参考重构的概念图。

图4A是说明根据本发明的方面的自适应加权差域参考重构的概念图。

图5是说明根据本发明的方面的差域参考的平滑的概念图。

图5A是说明根据本发明的方面的差域参考的平滑的概念图。

图6是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的流程图。

图6A是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的流程图。

图6B是说明根据本发明的方面的用于自适应地产生差域参考的另一实例性方法的流程图。

图7是说明根据本发明的方面的用于平滑差域参考的实例性方法的流程图。

图7A是说明根据本发明的方面的用于平滑差域参考的另一实例性方法的流程图。

具体实施方式

本发明中描述的技术大体上涉及可缩放视频译码(SVC)。举例来说，所述技术可涉及高效视频译码(HEVC)可缩放视频译码(SVC)扩展且与其一起使用或在其内使用。在SVC扩展中，可存在多个视频信息层。在极底部层级处的层可用作基础层(BL)，且在极顶部处的层可用作经增强层(EL)。“经增强层”有时称为“增强层”，且这些术语可以可互换方式使用。中间的所有层可用作EL或BL中的任一者或两者。举例来说，中间的层可为用于其下方的层(例如基础层或任何介入的增强层)的EL，且同时用作用于其上方的增强层的BL。

仅为了说明目的，本发明中描述的技术是以包含仅两个层(例如，例如基础层的较低层级层，和例如经增强层的较高层级层)的实例来描述。应了解，本发明中描述的实例也可扩展到具有多个基础层和增强层的实例。

视频译码标准包含ITU-T H.261、ISO/IEC MPEG-1视觉、ITU-T H.262或ISO/IECMPEG-2视觉、ITU-T H.263、ISO/IEC MPEG-4视觉和ITU-T H.264(也称为ISO/IEC MPEG-4AVC)，包含其可缩放视频译码(SVC)和多视图视频译码(MVC)扩展。另外，新的视频译码标准，即高效视频译码(HEVC)，正在由ITU-T视频译码专家组(VCEG)和ISO/IEC动画专家组(MPEG)的视频译码联合合作组(JCT-VC)开发。HEVC的新近草案从2012年6月7日起可从http：//wg11.sc29.org/jct/doc end user/current document.php？id＝5885/JCTVC- I1003-v2得到。称为“HEVC工作草案7”的HEVC标准的另一新近草案从2012年6月7日起可从http：//phenix.it-sudparis.eu/jct/doc end user/documents/9_Geneva/wg11/JCTVC- I1003-v3.zip下载。HEVC工作草案7的完整引用是布罗斯(Bross)等人文献HCTVC-I1003，“高效视频译码(HEVC)文字规范草案7”(ITU-T SG16WP3和ISO/IEC JTC1/SC29/WG11的视频译码联合合作组(JCT-VC)，瑞士日内瓦第9次会议，2012年4月27日到2012年5月7日)。这些参考中的每一者以全文引用的方式并入本文。

可缩放视频译码(SVC)可用以提供质量(也称为信噪比(SNR))缩放、空间缩放和/或时间缩放。经增强层可具有与基础层不同的空间分辨率。举例来说，EL与BL之间的空间纵横比可为1.0、1.5、2.0或其它不同比率。换句话说，EL的空间方面可等于BL的空间方面的1.0、1.5或2.0倍。在一些实例中，EL的缩放因数可大于BL。举例来说，EL中的图片的大小可大于BL中的图片的大小。以此方式，EL的空间分辨率大于BL的空间分辨率可为可能的但不是限制。

在对增强层进行译码时，可使用像素域或差域执行帧间预测。帧间预测是基于在时间序列中两个帧或切片中的视频块之间的时间相关的预测。举例来说，正译码的当前视频块的值可使用运动向量来预测，所述运动向量指示从先前经译码帧或切片中的参考视频块的位移。在SVC中，视频信息可使用基础层和一或多个增强层来译码，且帧间预测可例如通过取增强层与经重构基础层之间的差而在差域中执行。差域可指代通过从增强层中的经重构像素减去经重构基础层像素形成的差像素集合，或反之亦然。差域中的帧间预测可利用帧之间的时间相关以及基础层与增强层之间的相关。类似地，帧内预测可利用帧之间的空间相关以及基础层与增强层之间的相关。

然而，差域中的差像素例如由于当重构基础层时来自量化的损失而大体上为高频分量。因此，在差域中使用参考帧的帧间预测和使用空间相邻像素的帧内预测可能不会得到良好的预测结果。另外，当前预测单元的空间和时间相关可能在增强层或经重构基础层中较强，或反之亦然。另外，将有利的是通过根据增强层和经重构基础层的特性对增强层和经重构基础层进行加权而在差域中产生时间参考帧和空间相邻像素。

另外，如上文阐释，差域可能含有高频分量，这对于帧内或帧间预测不太好。举例来说，此些高频分量可得自帧之间的弱的空间和时间相关。高频分量还可得自当增强层和经重构基础层正以不同量化操作或其具有不同空间分辨率时的大的量化损失。举例来说，增强层和基础层可在不同量化参数下操作，这可导致增强层与经重构基础层之间的差为高频的。因此，将有利的是减少差域像素的高频噪声。

本发明中描述的技术可解决与差域中的帧内和帧间预测相关的问题。所述技术可将不同权重指派于来自增强层的参考帧和空间相邻像素以及来自经重构基础层的参考帧和空间相邻像素，以便产生用于差域的参考帧和空间相邻像素。通过将权重值指派于EL和经重构BL，所述技术可考虑同一层中的帧之间的弱时间相关和/或EL与BL之间的弱相关。举例来说，EL可能具有比基础层好的质量。在此情况下，在产生差域参考帧时可对EL参考帧给出较大权重。或者，可对经重构BL参考而非EL参考帧给出较大权重。

所述技术也可将平滑滤波器应用于差域中的参考帧或空间相邻像素以便减少差域中可能存在的高频噪声。所述技术可应用简单的平滑滤波器，例如1∶2∶1滤波器，以便保持纹理而不增加计算复杂性。可应用任何平滑滤波器，只要应用滤波器的益处超过额外计算复杂性即可。

下文参考附图更完整描述新颖***、设备和方法的各种方面。然而，本发明可以许多不同形式体现，且不应解释为限于贯穿本发明呈现的任何特定结构或功能。而是，提供这些方面以使得本发明将为详尽且完整的，且将本发明的范围完全传达给所属领域的技术人员。基于本文的教示，所属领域的技术人员应了解，本发明的范围既定涵盖本文揭示的新颖***、设备和方法的任一方面，无论是独立于本发明的任一其它方面来实施还是与其组合地实施都是如此。举例来说，可使用任何数目的本文陈述的方面来实施设备或实践方法。另外，本发明的范围既定涵盖与本文陈述的本发明的各种方面一起或除了与本文陈述的本发明的各种方面之外使用其它结构、功能性或结构与功能性实践的此设备或方法。应了解，本文揭示的任一方面可由权利要求的一或多个元件体现。

虽然本文描述特定方面，但这些方面的许多变化和排列属于本发明的范围内。虽然提到优选方面的一些益处和优点，但本发明的范围既定不限于特定益处、用途或目的。而是，本发明的方面既定广泛地适用于不同的无线技术、***配置、网络和发射协议，其中的一些在图中和在优选方面的以下描述中举例说明。详细描述和附图仅说明本发明而不是限制性的，本发明的范围由所附权利要求书及其等效物界定。

图1是说明可利用根据本发明中描述的方面的技术的实例性视频编码和解码***的框图。如图1中所示，***10包含源装置12，其提供经编码视频数据以在较晚时间由目的地装置14解码。特定来说，源装置12经由计算机可读媒体16将视频数据提供到目的地装置14。源装置12和目的地装置14可包括广范围装置中的任一者，包含桌上型计算机、笔记本(例如，膝上型)计算机、平板计算机、机顶盒、例如所谓的“智能”电话的电话手持机、所谓的“智能”平板计算机、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台、视频流式传输装置或类似物。在一些情况下，源装置12和目的地装置14可经配备以用于无线通信。

目的地装置14可经由计算机可读媒体16接收待解码的经编码视频数据。计算机可读媒体16可包括能够将经编码视频数据从源装置12移动到目的地装置14的任一类型的媒体或装置。在一个实例中，计算机可读媒体16可包括用以使得源装置12能够实时地将经编码视频数据直接发射到目的地装置14的通信媒体。经编码视频数据可根据例如无线通信协议等通信标准来调制，且发射到目的地装置14。通信媒体可包括任何无线或有线通信媒体，例如射频(RF)频谱或一或多个物理传输线。通信媒体可形成例如局域网、广域网或全球网(例如，因特网)的基于包的网络的部分。通信媒体可包含路由器、交换器、基站，或可用以促进从源装置12到目的地装置14的通信的任何其它设备。

在一些实例中，经编码数据可从输出接口22输出到存储装置。类似地，经编码数据可由输入接口从存储装置存取。存储装置可包含多种分布式或局部存取的数据存储媒体中的任一者，例如硬驱动器、蓝光光盘、DVD、CD-ROM、快闪存储器、易失性或非易失性存储器，或用于存储经编码视频数据的任何其它合适数据存储媒体。在又一实例中，存储装置可对应于文件服务器或可存储由源装置12产生的经编码视频的另一中间存储装置。目的地装置14可经由流式传输或下载从存储装置存取存储的视频数据。文件服务器可为能够存储经编码视频数据且将所述经编码视频数据发射到目的地装置14的任一类型的服务器。实例性文件服务器包含网络服务器(例如，用于网站)、FTP服务器、网络附接存储(NAS)装置或本地磁盘驱动器。目的地装置14可通过包含因特网连接的任一标准数据连接来存取经编码视频数据。这可包含无线信道(例如，Wi-Fi连接)、有线连接(例如，DSL、电缆调制解调器等等)，或适合于存取存储在文件服务器上的经编码视频数据的两者的组合。经编码视频数据从存储装置的发射可为流式传输发射、下载发射或其组合。

本发明的技术不一定限于无线应用或设定。所述技术可应用于视频译码以支持多种多媒体应用中的任一者，例如空中电视广播、电缆电视发射、***发射、因特网流式传输视频发射(例如经由HTTP的动态自适应流式传输(DASH))、经编码到数据存储媒体上的数字视频、存储在数据存储媒体上的数字视频的解码，或其它应用。在一些实例中，***10可经配置以支持单向或双向视频发射以支持例如视频流式传输、视频重放、视频广播和/或视频电话等应用。

在图1的实例中，源装置12包含视频源18、视频编码器20和输出接口22。目的地装置14包含输入接口28、视频解码器30和显示装置32。根据本发明，源装置12的视频编码器20可经配置以应用用于对包含符合多个标准或标准扩展的视频数据的位流进行译码的技术。在其它实例中，源装置和目的地装置可包含其它组件或布置。举例来说，源装置12可从外部视频源18(例如，外部相机)接收视频数据。同样，目的地装置14可与外部显示装置介接，而非包含集成显示装置。

图1的所说明***10仅为一个实例。用于确定用于当前块的运动向量预测符的候选列表的候选的技术可由任一数字视频编码和/或解码装置执行。虽然通常本发明的技术由视频编码装置执行，但所述技术也可由通常称为“CODEC(编解码器)”的视频编码器/解码器执行。而且，也可通过视频预处理器来执行本发明的技术。源装置12和目的地装置14仅为这些译码装置的实例，其中源装置12产生经译码视频数据以供发射到目的地装置14。在一些实例中，装置12、14可以实质上对称的方式操作，使得装置12、14中的每一者包含视频编码和解码组件。因此，***10可支持视频装置12、14之间的单向或双向视频发射，例如，以用于视频流式传输、视频重放、视频广播，或视频电话。

源装置12的视频源18可包含例如摄像机的视频俘获装置、含有先前俘获的视频的视频存档，和/或用以从视频内容提供者接收视频的视频馈送接口。作为又一替代，视频源18可产生基于计算机图形的数据作为源视频，或直播视频、经存档视频与计算机产生的视频的组合。在一些情况下，如果视频源18为摄像机，那么源装置12和目的地装置14可形成所谓的像机电话或视频电话。然而，如上文所提及，本发明中所述的技术一般可适用于视频译码，且可应用于无线和/或有线应用。在每一情况下，可通过视频编码器20编码所俘获、预先俘获或计算机产生的视频。经编码视频信息可接着通过输出接口22输出到计算机可读媒体16上。

计算机可读媒体16可包含：暂时性媒体，例如无线广播或有线网络发射；或存储媒体(即，非暂时性存储媒体)，例如硬盘、快闪驱动器、压缩光盘、数字视频光盘、蓝光光盘或其它计算机可读媒体。在一些实例中，网络服务器(未图示)可从源装置12接收经编码视频数据，且(例如)经由网络发射、直接有线通信等等将经编码视频数据提供到目的地装置14。类似地，媒体生产设施(例如，光盘压印设施)的计算装置可从源装置12接收经编码视频数据且产生含有经编码视频数据的光盘。因此，在各种实例中，可将计算机可读媒体16理解为包含各种形式的一或多个计算机可读媒体。

目的地装置14的输入接口28从计算机可读媒体16接收信息。计算机可读媒体16的信息可包含由视频编码器20所定义的语法信息(其也由视频解码器30使用)，所述语法信息包含描述块和其它经译码单元(例如，GOP)的特性和/或处理的语法元素。显示装置32向用户显示经解码视频数据，且可包括多种显示装置中的任一者，例如阴极射线管(CRT)、液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器，或另一类型的显示装置。

视频编码器20和视频解码器30可根据视频译码标准操作，例如当前在开发的高效视频译码(HEVC)标准，且可符合HEVC测试模型(HM)。替代地，视频编码器20和视频解码器30可根据其它专门或行业标准来操作，例如ITU-T H.264标准，替代地称为MPEG4第10部分高级视频译码(AVC)，或此些标准的扩展。然而本发明的技术不限于任一特定译码标准，包含(但不限于)上文列出的标准中的任一者。视频译码标准的其它实例包含MPEG-2和ITU-TH.263。虽然图1中未图示，但在一些方面中，视频编码器20和视频解码器30可各自与音频编码器和解码器集成，且可包含适当的MUX-DEMUX单元或其它硬件和软件，以处置共同数据流或单独数据流中的音频和视频两者的编码。如果适用，那么MUX-DEMUX单元可符合ITUH.223多路复用器协议，或例如用户数据报协议(UDP)等其它协议。

可将视频编码器20和视频解码器30各自实施为多种合适的编码器电路中的任一者，例如一或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件，或其任何组合。当所述技术部分地以软件实施时，装置可将用于所述软件的指令存储在合适的非暂时性计算机可读媒体中，且使用一或多个处理器以硬件执行所述指令以执行本发明的技术。可将视频编码器20和视频解码器30中的每一者包含于一或多个编码器或解码器中，其中任一者可集成为相应装置中的组合式编码器/解码器(CODEC)的部分。包含视频编码器20和/或视频解码器30的装置可包括集成电路、微处理器和/或无线通信装置，例如蜂窝式电话。

JCT-VC正在致力于HEVC标准的开发。HEVC标准化努力是基于称为HEVC测试模型(HM)的视频译码装置的演进模型。HM假设视频译码装置相对于根据例如ITU-T H.264/AVC的现有装置的若干额外能力。举例来说，H.264提供九个帧内预测编码模式，而HM可提供多达三十三个帧内预测编码模式。

大体上，HM的工作模型描述了可将视频帧或图片划分为包含亮度和色度样本两者的树块或最大译码单元(LCU)的序列。位流内的语法数据可界定LCU的大小，其为在像素数目方面的最大译码单元。切片包含若干在译码次序上连续的树块。视频帧或图片可经分割为一或多个切片。每一树块可根据四叉树而***为若干译码单元(CU)。大体上，四叉树数据结构包含每CU一个节点，其中根节点对应于树块。如果CU经***为四个子CU，那么对应于CU的节点包含四个叶节点，所述叶节点中的每一者对应于子CU中的一者。

四叉树数据结构的每一节点可提供用于对应CU的语法数据。举例来说，四叉树中的节点可包含***旗标，其指示对应于所述节点的CU是否经***为若干子CU。用于CU的语法元素可以递归方式界定，且可取决于CU是否经***为若干子CU。如果CU并不进一步***，那么其被称为叶CU。在本发明中，叶CU的四个子CU也将被称为叶CU，即使不存在原始叶CU的明显***也是如此。举例来说，如果16x16大小的CU并不进一步***，那么四个8x8子CU也将被称为叶CU，但16x16CU从不***。

CU具有与H.264的宏块类似的目的，不同的是CU不具有大小区别。举例来说，树块可经***为四个子代节点(也被称为子CU)，且每一子代节点可又为父代节点且经***为另外四个子代节点。被称为四叉树的叶节点的最终的未***子代节点包括译码节点，所述译码节点也被称为叶CU。与经译码位流相关联的语法数据可界定可***树块的最大次数(其被称为最大CU深度)，且也可界定译码节点的最小大小。因此，位流也可界定最小译码单元(SCU)。本发明使用术语“块”指代在HEVC的上下文中的CU、PU或TU中的任一者，或在其它标准的上下文中的类似数据结构(例如，在H.264/AVC中的宏块及其子块)。

CU包含译码节点以及与译码节点相关联的预测单元(PU)和变换单元(TU)。CU的大小对应于译码节点的大小，且形状必须为正方形。CU的大小的范围可从8x8像素直到具有最大64x64像素更大的树块的大小。每一CU可含有一或多个PU及一或多个TU。与CU相关联的语法数据可描述(例如)CU到一或多个PU的分割。分割模式可在CU是否经跳过或直接模式编码、经帧内预测模式编码或经帧间预测模式编码之间不同。PU的形状可分割为非正方形。与CU相关联的语法数据也可描述(例如)CU根据四叉树到一或多个TU的分割。TU的形状可为正方形或非正方形(例如，矩形)。

HEVC标准允许根据TU的变换，所述变换针对不同的CU可为不同的。通常基于针对经分割LCU所界定的给定CU内的PU的大小而对TU定大小，但可能并非始终如此。TU通常具有与PU相同的大小，或小于PU。在一些实例中，可使用被称为“残余四叉树”(RQT)的四叉树结构将对应于CU的残余样本再分为若干较小单元。RQT的叶节点可被称为变换单元(TU)。可变换与TU相关联的像素差值以产生可量化的变换系数。

叶CU可包含一或多个预测单元(PU)。大体上，PU表示对应于对应CU的全部或一部分的空间区域，且可包含用于检索PU的参考样本的数据。而且，PU包含与预测相关的数据。举例来说，当PU经帧内模式编码时，用于PU的数据可包含于残余四叉树(RQT)中，残余四叉树可包含描述对应于PU的TU的帧内预测模式的数据。作为另一实例，当PU经帧间模式编码时，PU可包含界定所述PU的一或多个运动向量的数据。界定用于PU的运动向量的数据可描述(例如)运动向量的水平分量、运动向量的垂直分量、运动向量的分辨率(例如，四分之一像素精度或八分之一像素精度)、运动向量所指向的参考图片，和/或用于运动向量的参考图片列表(例如，列表0、列表1，或列表C)。

具有一或多个PU的叶CU也可包含一或多个变换单元(TU)。可使用RQT(也被称为TU四叉树结构)指定变换单元，如上文所论述。举例来说，***旗标可指示叶CU是否***为四个变换单元。接着，每一变换单元可进一步***为另外的子TU。当TU并不进一步***时，其可被称为叶TU。一般来说，针对帧内译码，属于一叶CU的所有叶TU共享相同帧内预测模式。也就是说，相同帧内预测模式大体应用于计算叶CU的所有TU的预测值。针对帧内译码，视频编码器可使用帧内预测模式计算用于每一叶TU的残余值，作为在对应于TU的CU的部分与原始块之间的差。TU不一定限于PU的大小。因此，TU可大于或小于PU。针对帧内译码，PU可与用于同一CU的对应叶TU位于同一地点。在一些实例中，叶TU的最大大小可对应于对应叶CU的大小。

而且，叶CU的TU也可与被称为残余四叉树(RQT)的相应四叉树数据结构相关联。也就是说，叶CU可包含指示叶CU分割为若干TU的方式的四叉树。TU四叉树的根节点一般对应于叶CU，而CU四叉树的根节点一般对应于树块(或LCU)。RQT的不***的TU被称为叶TU。一般来说，本发明分别使用术语CU及TU来指代叶CU及叶TU，除非另外注释。

视频序列通常包含一系列视频帧或图片。图片群组(GOP)通常包括一系列一或多个视频图片。GOP可在GOP的标头、图片中的一或多者的标头或别处包含描述GOP中包含的图片的数目的语法数据。图片的每一切片可包含描述相应切片的编码模式的切片语法数据。视频编码器20通常对个别视频切片内的视频块操作以便对视频数据进行编码。视频块可对应于CU内的译码节点。视频块可具有固定或变化的大小，且可根据指定译码标准而大小不同。

作为实例，HM支持以各种PU大小进行预测。假设特定CU的大小为2Nx2N，则HM支持以2Nx2N或NxN的PU大小进行帧内预测，及以2Nx2N、2NxN、Nx2N或NxN的对称PU大小进行帧间预测。HM也支持以2NxnU、2NxnD、nLx2N和nRx2N的PU大小进行帧间预测的非对称分割。在非对称分割中，CU的一个方向未分割，而另一方向分割为25％及75％。CU的对应于25％分割的部分是通过“n”跟随有“上”、“下”、“左”或“右”的指示来指示。因此，举例来说，“2NxnU”指代以顶部2Nx0.5N PU及底部2Nx1.5N PU水平分割的2Nx2N CU。

在本发明中，“NxN”和“N乘N”可以可互换地使用以在垂直和水平尺寸方面指代视频块的像素尺寸，例如16x16像素或16乘16像素。大体上，16x16块将在垂直方向上具有16个像素(y＝16)且在水平方向上具有16个像素(x＝16)。同样，NxN块通常在垂直方向上具有N个像素且在水平方向上具有N个像素，其中N表示非负整数值。块中的像素可以布置成行和列。而且，块不需要一定在水平方向上与在垂直方向上具有相同数目的像素。举例来说，块可包括NxM像素，其中M不一定等于N。

在使用CU的PU进行帧内预测性或帧间预测性译码之后，视频编码器20可计算用于CU的TU的残余数据。PU可包括描述在空间域(也被称为像素域)中产生预测性像素数据的方法或模式的语法数据，且TU可包括在对残余视频数据应用变换之后在变换域中的系数，所述变换例如离散余弦变换(DCT)、整数变换、小波变换，或概念上类似的变换。残余数据可对应于未经编码图片的像素与对应于PU的预测值之间的像素差。视频编码器20可形成包含用于CU的残余数据的TU，且接着变换所述TU以产生用于CU的变换系数。

在应用任何变换以产生变换系数之后，视频编码器20可执行变换系数的量化。量化一般指代其中对变换系数进行量化以可能减少用以表示系数的数据量从而提供进一步压缩的过程。量化过程可减少与系数中的一些或全部相关联的位深度。举例来说，n位值可在量化期间舍入到m位值，其中n大于m。

在量化之后，视频编码器可扫描变换系数，从而从包含经量化变换系数的二维矩阵产生一维向量。扫描可经设计以将较高能量(且因此较低频率)系数置于阵列的前部，且将较低能量(且因此较高频率)系数置于阵列的后部。在一些实例中，视频编码器20可利用预定义扫描次序来扫描经量化变换系数，以产生可经熵编码的串行化向量。在其它实例中，视频编码器20可执行自适应性扫描。在扫描经量化变换系数以形成一维向量之后，视频编码器20可(例如)根据上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码或另一熵编码方法来对所述一维向量进行熵编码。视频编码器20也可对与经编码视频数据相关联的语法元素进行熵编码，以供视频解码器30用于对视频数据进行解码。

为了执行CABAC，视频编码器20可将上下文模型内的上下文指派给待发射的符号。所述上下文可与(例如)符号的相邻值是否为非零相关。为了执行CAVLC，视频编码器20可针对待发射的符号选择可变长度码。可将VLC中的码字建构成使得相对较短码对应于更有可能的符号，而较长码对应于较不可能的符号。以此方式，与(例如)针对待发射的每一符号使用相等长度码字相比较，使用VLC可实现位节省。概率确定可基于指派给符号的上下文。

视频编码器20可(例如)在帧标头、块标头、切片标头或GOP标头中进一步将语法数据(例如，基于块的语法数据、基于帧的语法数据和基于GOP的语法数据)发送到视频解码器30。GOP语法数据可描述相应GOP中的帧的数目，且帧语法数据可指示用以对对应帧进行编码的编码/预测模式。

图2是说明可实施根据本发明中描述的方面的技术的实例性视频编码器的框图。视频编码器20可经配置以执行本发明的技术中的任一者或全部。作为一个实例，模式选择单元40可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面不受此限制。在一些实例中，本发明中描述的技术可在视频编码器20的各种组件之间共享。在一些实例中，作为添加或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

在一些实施例中，模式选择单元40、运动估计单元42、运动补偿单元44、帧内预测单元46(或模式选择单元40的另一组件，图示或未图示)或编码器20的另一组件(图示或未图示)可执行本发明的技术。举例来说，模式选择单元40可接收用于编码的视频数据，其可经编码为基础层和对应的一或多个增强层。模式选择单元40、运动估计单元42、运动补偿单元44、帧内预测单元46或编码器20的另一适当单元可确定增强层权重和基础层权重。编码器20的适当单元还可确定基于差视频层的当前视频单元的值、以增强层权重加权的增强层中的视频单元的值，以及以基础层权重加权的基础层中的视频单元的值。编码器20可对当前视频单元进行编码且在位流中用信号表示增强层权重和基础层权重。

视频编码器20可执行视频切片内的视频块的帧内和帧间译码。帧内译码依赖于空间预测来减少或移除给定视频帧或图片内的视频中的空间冗余。帧间译码依赖于时间预测来减少或移除视频序列的邻近帧或图片内的视频中的时间冗余。帧内模式(I模式)可涉及若干基于空间的译码模式中的任一者。例如单向预测(P模式)或双向预测(B模式)等帧间模式可涉及若干基于时间的译码模式中的任一者。

如图2中所示，视频编码器20接收待编码的视频帧内的当前视频块。在图1的实例中，视频编码器20包含模式选择单元40、参考帧存储器64、求和器50、变换处理单元52、量化单元54，和熵编码单元56。模式选择单元40又包含运动补偿单元44、运动估计单元42、帧内预测单元46和分割单元48。针对视频块重构，视频编码器20还包含逆量化单元58、逆变换单元60以及求和器62。还可包含解块滤波器(图2中未图示)以对块边界进行滤波以从经重构视频移除成块假象。如果需要，解块滤波器将通常对求和器62的输出进行滤波。除了解块滤波器之外还可使用额外滤波器(环路内或环路后)。为了简明而未图示此些滤波器，但如果需要，则可对求和器50的输出进行滤波(作为环路内滤波器)。

在编码过程期间，视频编码器20接收待译码的视频帧或切片。可将帧或切片划分为多个视频块。运动估计单元42及运动补偿单元44相对于一或多个参考帧中的一或多个块执行对所接收视频块的帧间预测性译码，以提供时间预测。帧内预测单元46或者可相对于与待译码的块相同的帧或切片中的一或多个相邻块执行对所接收视频块的帧内预测性译码，以提供空间预测。视频编码器20可执行多个译码遍次，(例如)以选择用于每一视频数据块的适当译码模式。

而且，分割单元48可基于先前译码遍次中的先前分割方案的评估而将视频数据块分割为若干子块。举例来说，分割单元48可最初将帧或切片分割为若干LCU，且基于速率-失真分析(例如，速率-失真优化)将所述LCU中的每一者分割为若干子CU。模式选择单元40可进一步产生指示LCU到子CU的分割的四叉树数据结构。四叉树的叶节点CU可包含一或多个PU和一或多个TU。

模式选择单元40可(例如)基于错误结果而选择译码模式(帧内或帧间)中的一者，且将所得的经帧内或帧间译码的块提供到求和器50以产生残余块数据，且提供到求和器62以重构经编码块以用作参考帧。模式选择单元40还将语法元素(例如，运动向量、帧内模式指示符、分割信息和其它此类语法信息)提供到熵编码单元56。

运动估计单元42与运动补偿单元44可为高度集成的，但为了概念性目的而单独说明。由运动估计单元42执行的运动估计是产生运动向量的过程，所述向量估计视频块的运动。举例来说，运动向量可指示当前视频帧或图片内的视频块的PU相对于参考帧内的预测性块(或其它译码单元)相对于在当前帧内正译码的当前块(或其它译码单元)的位移。预测性块为就像素差来说被发现紧密匹配待译码的块的块，所述像素差可通过绝对差和(SAD)、平方差和(SSD)或其它差量度来确定。在一些实例中，视频编码器20可计算存储在参考帧存储器64中的参考图片的子整数像素位置的值。举例来说，视频编码器20可内插参考图片的四分之一像素位置、八分之一像素位置或其它分数像素位置的值。因此，运动估计单元42可执行相对于全像素位置和分数像素位置的运动搜索，且输出具有分数像素精度的运动向量。

运动估计单元42通过将经帧间译码切片中的视频块的PU的位置与参考图片的预测性块的位置进行比较来计算所述PU的运动向量。参考图片可选自第一参考图片列表(列表0)或第二参考图片列表(列表1)，其各自识别存储在参考帧存储器64中的一或多个参考图片。运动估计单元42将所计算的运动向量发送到熵编码单元56和运动补偿单元44。

由运动补偿单元44执行的运动补偿可涉及基于由运动估计单元42确定的运动向量而取得或产生预测性块。再次，在一些实例中，运动估计单元42与运动补偿单元44可在功能上集成。在接收到当前视频块的PU的运动向量后，运动补偿单元44可即刻在参考图片列表中的一者中定位运动向量指向的预测性块。求和器50通过从正经译码的当前视频块的像素值减去预测性块的像素值从而形成像素差值，来形成残余视频块，如下文论述。大体上，运动估计单元42执行相对于亮度分量的运动估计，且运动补偿单元44使用基于亮度分量计算的运动向量用于色度分量和亮度分量两者。模式选择单元40还可产生与视频块和视频切片相关联的语法元素以由视频解码器30用于对视频切片的视频块进行解码。

作为对上述由运动估计单元42和运动补偿单元44执行的帧间预测的替代，帧内预测单元46可帧内预测当前块。特定来说，帧内预测单元46可确定使用帧内预测模式来编码当前块。在一些实例中，帧内预测单元46可(例如)在单独的编码遍次期间使用各种帧内预测模式来编码当前块，且帧内预测单元46(或在一些实例中，模式选择单元40)可从所测试的模式选择待使用的适当的帧内预测模式。

举例来说，帧内预测单元46可使用针对各种经测试的帧内预测模式的速率-失真分析计算速率-失真值，且在经测试模式当中选择具有最好的速率-失真特性的帧内预测模式。速率-失真分析一般确定经编码块与经编码以产生所述经编码块的原始未经编码块之间的失真(或错误)的量以及用以产生经编码块的位率(即，位的数目)。帧内预测单元46可从失真和速率计算各种经编码块的比率，以确定哪一帧内预测模式展现块的最好的速率-失真值。

在为块选择帧内预测模式之后，帧内预测单元46可将指示块的所选择帧内预测模式的信息提供到熵编码单元56。熵编码单元56可对指示选定帧内预测模式的信息进行编码。视频编码器20可在所发射位流中包含配置数据，其可包含多个帧内预测模式索引表和多个经修改帧内预测模式索引表(也称为码字映射表)、各种块的编码上下文的定义，以及将用于所述上下文中的每一者的最可能帧内预测模式、帧内预测模式索引表和经修改帧内预测模式索引表的指示。

视频编码器20通过从正译码的原始视频块减去来自模式选择单元40的预测数据而形成残余视频块。求和器50表示执行此减法运算的一或多个组件。变换处理单元52将变换(例如，离散余弦变换(DCT)或概念上类似的变换)应用于残余块，从而产生包括残余变换系数值的视频块。变换处理单元52可执行概念上类似于DCT的其它变换。也可使用小波变换、整数变换、子带变换或其它类型的变换。在任何状况下，变换处理单元52将变换应用于残余块，从而产生残余变换系数的块。变换可将残余信息从像素值域转换到变换域，例如频域。变换处理单元52可将所得变换系数发送到量化单元54。量化单元54量化变换系数以进一步减小位率。量化过程可减少与系数中的一些或全部相关联的位深度。可通过调整量化参数来修改量化程度。在一些实例中，量化单元54可随后执行对包含经量化变换系数的矩阵的扫描。替代地，熵编码单元56可执行扫描。

在量化之后，熵编码单元56对经量化变换系数进行熵译码。举例来说，熵编码单元56可执行上下文自适应可变长度译码(CAVLC)、上下文自适应二进制算术译码(CABAC)、基于语法的上下文自适应二进制算术译码(SBAC)、概率区间分割熵(PIPE)译码，或另一熵译码技术。在基于上下文的熵译码的情况下，上下文可基于相邻块。在通过熵编码单元56熵译码之后，可将经编码位流发射到另一装置(例如，视频解码器30)或加以存档以供稍后发射或检索。

逆量化单元58和逆变换单元60分别应用逆量化和逆变换，以在像素域中重构残余块(例如)以供稍后用作参考块。运动补偿单元44可通过将残余块加到参考帧存储器64的帧中的一者的预测性块而计算参考块。运动补偿单元44也可将一或多个内插滤波器应用于经重构的残余块，以计算用于运动估计中的子整数像素值。求和器62将经重构的残余块加到由运动补偿单元44产生的经运动补偿预测块，以产生经重构的视频块以用于存储在参考帧存储器64中。经重构的视频块可由运动估计单元42和运动补偿单元44用作参考块，以对后续视频帧中的块进行帧间译码。

图3是说明可实施根据本发明中描述的方面的技术的实例性视频解码器的框图。视频解码器30可经配置以执行本发明的技术中的任一者或全部。作为一个实例，运动补偿单元72和/或帧内预测单元74可经配置以执行本发明中描述的技术中的任一者或全部。然而，本发明的方面不受此限制。在一些实例中，本发明中描述的技术可在视频解码器30的各种组件之间共享。在一些实例中，作为添加或替代，处理器(未图示)可经配置以执行本发明中描述的技术中的任一者或全部。

在一些实施例中，熵解码单元70、运动补偿单元72、帧内预测单元74或解码器30的另一组件(图示或未图示)可执行本发明的技术。举例来说，熵解码单元70可接收经编码视频位流，其可对涉及基础层和对应的一或多个增强层的数据进行编码。运动补偿单元72、帧内预测单元74或解码器30的另一适当单元可确定增强层权重和基础层权重。解码器30的适当单元还可确定基于差视频层的当前视频单元的值、以增强层权重加权的增强层中的视频单元的值，以及以基础层权重加权的基础层中的视频单元的值。解码器30可对当前视频单元进行解码且在位流中接收增强层权重和基础层权重。解码器30还可至少部分地从位流中的信息导出增强层权重和基础层权重。

在图3的实例中，视频解码器30包含熵解码单元70、运动补偿单元72、帧内预测单元74、逆量化单元76、逆变换单元78、参考帧存储器82以及求和器80。在一些实例中，视频解码器30可执行与相对于视频编码器20(图2)所述的编码遍次大体上互逆的解码遍次。运动补偿单元72可基于从熵解码单元70接收的运动向量产生预测数据，而帧内预测单元74可基于从熵解码单元70接收的帧内预测模式指示符产生预测数据。

在解码过程期间，视频解码器30从视频编码器20接收表示经编码视频切片的视频块和相关联语法元素的经编码视频位流。视频解码器30的熵解码单元70对位流进行熵解码以产生经量化系数、运动向量或帧内预测模式指示符以及其它语法元素。熵解码单元70将运动向量和其它语法元素转发到运动补偿单元72。视频解码器30可在视频切片层级和/或视频块层级处接收语法元素。

当视频切片经译码为经帧内译码(I)切片时，帧内预测单元74可基于用信号发送的帧内预测模式和来自当前帧或图片的先前经解码块的数据而产生当前视频切片的视频块的预测数据。当视频帧经译码为经帧间译码(例如，B、P或GPB)切片时，运动补偿单元72基于运动向量和从熵解码单元70接收的其它语法元素而产生当前视频切片的视频块的预测性块。预测性块可从参考图片列表中的一者内的参考图片中的一者产生。视频解码器30可基于存储在参考帧存储器92中的参考图片使用默认构造技术来构造参考帧列表，列表0和列表1。运动补偿单元72通过剖析运动向量和其它语法元素来确定当前视频切片的视频块的预测信息，且使用所述预测信息产生正解码的当前视频块的预测性块。举例来说，运动补偿单元72使用所接收语法元素中的一些来确定用以对视频切片的视频块进行译码的预测模式(例如，帧内或帧间预测)、帧间预测切片类型(例如，B切片、P切片或GPB切片)、用于切片的参考图片列表中的一或多者的构造信息、切片的每一经帧间编码视频块的运动向量、切片的每一经帧间译码视频块的帧间预测状态，以及用以对当前视频切片中的视频块进行解码的其它信息。

运动补偿单元72也可执行基于内插滤波器的内插。运动补偿单元72可使用在视频块的编码期间由视频编码器20使用的内插滤波器来计算参考块的子整数像素的经内插值。在此情况下，运动补偿单元72可根据所接收语法元素确定由视频编码器20使用的内插滤波器且使用内插滤波器来产生预测性块。

逆量化单元76逆量化(例如，解量化)在位流中提供且由熵解码单元80解码的经量化变换系数。逆量化过程可包含针对视频切片中的每一视频块使用由视频解码器30计算出的量化参数QP_Y来确定量化程度和(同样)应应用的逆量化的程度。

逆变换单元78将逆变换(例如，逆DCT、逆整数变换或概念上类似的逆变换过程)应用于变换系数，以便在像素域中产生残余块。

在运动补偿单元82基于运动向量和其它语法元素而产生当前视频块的预测性块之后，视频解码器30通过将来自逆变换单元78的残余块与由运动补偿单元72产生的对应预测性块进行求和而形成经解码视频块。求和器90表示执行此求和运算的一或多个组件。如果需要，那么还可应用解块滤波器以对经解码块进行滤波以便移除成块假象。也可使用其它环路滤波器(译码环路中或在译码环路之后)来平滑像素转变或另外改善视频质量。随后将给定帧或图片中的经解码视频块存储在参考图片存储器92中，所述参考图片存储器存储用于后续运动补偿的参考图片。参考帧存储器82还存储经解码视频以用于稍后呈现在显示装置(例如图1的显示装置32)上。

图4和图4A是说明根据本发明的方面的自适应加权差域参考重构的概念图。如上文阐释，差域可包含许多高频分量。差域的高频性质可能是由于增强层(EL)和基础层(BL)在不同量化或空间分辨率下操作。在此情况下，取EL与经重构BL帧之间的差以获得差域帧将导致高频分量，且此些高频分量的译码不会带来良好的速率-失真折中。而且，EL和经重构BL帧可能在不同空间分辨率下操作，在此情况下对经重构BL进行上取样以匹配于EL的分辨率。此操作可减少其之间的相关且导致难以译码的高频差域分量。

因此，本发明的技术可将经加权值指派于EL中的参考帧和经重构BL中的参考帧以便产生差域的参考帧。类似地，本发明的技术可将经加权值指派于EL中的空间相邻像素和经重构BL中的空间相邻像素以便产生差域的空间相邻像素。实际经加权值可基于若干不同因数。此些因数可包含EL和BL的相似性。另一因数可为层是否具有强时间相关。如果EL具有比经重构BL强的时间相关，那么可对EL参考帧给出较大权重。第一权重值可指派于EL参考帧，且第二值可指派于经重构BL参考帧。EL的第一权重值可称为“EL权重”，且经重构BL层的第二权重值可称为“BL权重”。在图4中，EL权重由W₁指示，且BL权重由W₀指示。

EL和BL权重值已在上述参考帧方面阐释。然而，EL和BL权重值也可指派于当前帧。因此，在给定时间点的EL帧和对应经重构BL帧可各自具有EL权重和BL权重。举例来说，在时间T₁和时间T₂处的帧用于帧间预测。在T₁处的EL和经重构BL将具有对应W₁和W₀值，且在T₂处的EL和经重构BL也将具有可不同于T₁处的W₁和W₀的对应W₁和W₀值。每一时间点的差重构帧(或差域帧)可通过取由W₁加权的EL与由W₀加权的经重构BL之间的差来产生。差域中的帧间预测是通过取T₁处的差重构帧和T₂处的差重构帧且从彼此预测所述帧以产生差域残余来执行。因此，对EL和经重构BL进行加权可对差域中的帧间预测有影响。每一时间点的用于帧内预测的差空间相邻像素(或差域空间相邻像素)可通过取由W₁加权的EL与由W₀加权的经重构BL之间的差来产生。差域中的帧内预测是通过取T₁处的当前差重构预测单元和T₁处的差重构空间相邻像素且从彼此预测所述帧以产生差域残余来执行。因此，对EL和经重构BL进行加权可对差域中的帧内预测有影响。

现在将参见图4和图4A更详细阐释根据本发明的技术的自适应加权差域参考重构。在一些实施例中，自适应加权差域重构可根据以下等式计算：

差重构＝(W₁*EL重构-W₀*BL重构) (1)

在等式(1)中，差重构指代差域重构，EL重构指代增强层重构，且BL重构指代基础层重构。在一些实施例中，根据以下等式在计算经加权差域重构时可添加舍入值：

差重构＝(W₁*EL重构-W₀*BL重构+舍入) (2)

舍入值可经译码或假定为HEVC中支持的不同语法层级处的默认值。举例来说，舍入值可在序列标头、图片标头、切片标头、LCU标头和CU层级语法中支持。在一些实施例中，通过在不同粒度语法层级处的速率-失真(R-D)优化准则可选择较精细的舍入值。

在图4的实例中，在不同时间点(例如，T₁和T₂)将等式(2)应用于EL和经重构BL帧以将权重自适应地指派于来自层的帧。在T₁处，分别以W₁和W₀对增强层参考(ELR)和经重构基础层参考(BLR)进行加权，以便产生增强层差参考(ELDR)。ELDR参考差重构帧。ELDR可根据如下等式(2)计算：

ELDR＝(W₁*ELR-W₀*BLR+舍入)

类似地，在T₂处，分别以W₁和W₀对增强层当前(ELC)和经重构基础层当前(BLC)进行加权，以便产生增强层差当前(ELDC)。ELDC参考差重构帧。ELDC可根据如下等式(2)计算：

ELDC＝(W₁*ELC-W₀*BLC+舍入)

帧间预测可使用增强层差参考(ELDR)和增强层差当前(ELDC)来执行以便产生增强层差残余(ELDR)。ELDR可如下计算：

增强层差残余＝差当前(ELDC)-MC(ELDR)^{MVDifference_domain} (3)

以上表达式表示通过基于差域中的运动向量的运动补偿获得的ELDC与ELDR之间的差，其可称为增强层差残余。在一些实例中，为了编码器简化目的，编码器可选择使用非差域或像素域的运动向量而不是差域的运动向量。那么上述表达式变为：

增强层差残余＝差当前(ELDC)-MC(ELDR)^{MVPixel_domain}

这可为非标准化操作且直到编码器选择对差域进行运动估计以得到差域的运动向量或选择对像素域进行运动估计以得到像素域的运动向量。在一些实例中，如图4A中所示，帧内预测也可使用增强层差相邻像素(ELDNA和ELDNB)和增强层差当前PU(ELDC)来执行以便产生增强层差残余(ELDR)。ELDR可如下计算：

增强层差残余＝差当前(ELDC)-帧内模式(ELDN) (4)

以上表达式表示基于帧内模式获得的ELDC与ELDN之间的差，其可称为增强层差残余。

在自适应加权差域重构中，EL权重和BL权重可为任何数字组合。下文提供一些实例以用于说明目的。当W₁和W₀均等于1时，自适应差域重构与传统差域重构相同，其中整个经重构BL帧从EL帧间去。因此，传统差域重构可表达为差重构＝(EL重构-BL重构)。表1提供W₁和W₀的一些实例性组合以及等式(1)的对应形式。

表1

当W₀＝1且W₁＝0.25时，经重构BL帧以25％加权且从EL增强层帧减去以形成差域帧。等式(1)如表1中所示精简为差重构＝(EL重构-0.25*BL重构)。当W₀＝1且W₁＝0.5时，经重构BL帧以50％加权，且等式(1)精简为差重构＝(EL重构-0.5*BL重构)。当W₀＝1且W₁＝0.25时，经重构BL帧以75％加权，且等式(1)精简为差重构＝(EL重构-0.75*BL重构)。在一些实施例中，当使用等式(1)时W₁大于W₀，且W₁为2的幂。如上文阐释，可添加舍入因数。

EL和BL权重可在不同语法层级译码。举例来说，在HEVC中，自适应权重值可在序列标头、图片标头、切片标头和LCU标头以及CU层级语法中支持。在一些实施例中，通过在不同粒度语法层级处的速率-失真(R-D)优化准则可选择较精细的自适应权重。

在一些实施例中，EL和BL权重可使用旗标(例如，“weighted_difference_domain_recon_flag”)来用信号表示，所述旗标指示使用了用于EL和经重构BL层的自适应权重。所述旗标可添加在以下语法层级：序列标头、图片标头、切片标头和LCU标头，以及CU。EL和BL权重可经初始化为1。在一个实施例中，用信号表示用于W₀和W₁的变化量偏移。在另一实施例中，W₀和W₁值可预定义，且用信号表示指示预定义W₀和W₁值的特定集合的索引。

虽然图4和图4A已大部分在帧方面阐释，但根据本发明的方面的技术可在视频信息单元的各种层级处实施。举例来说，相对于图4和图4A描述的根据本发明的方面的技术可在帧、切片、块和像素层级实施。另外，相对于图4和图4A描述的所有实施例可单独地或彼此组合地实施。

图5和图5A是说明根据本发明的方面的差域参考的平滑的概念图。因为差域可能含有高频分量，所以当使用具有弱的时间/空间相关或在EL与经重构BL之间的弱相关的帧计算时间参考帧或空间相邻参考像素时，帧间或帧内预测不会带来良好的预测结果。因此，所述技术可将平滑滤波器或低通滤波器应用于差域中的参考帧以便减少差域中可能存在的高频噪声。所述技术可应用简单的平滑滤波器，以便保持纹理而不增加计算复杂性。平滑滤波器的一个实例是1∶2∶1滤波器，但可应用任何平滑滤波器。平滑滤波器的选择可取决于高频噪声的减少是否提供比额外计算复杂性的代价好的益处。

在一些实施例中，经平滑差域预测的使用可使用旗标(例如，“smoothed_difference_domain_prediction_flag”)来指示。在一个实施例中，针对经平滑差域预测可界定新预测模式(例如，“经平滑差域预测模式”)，且旗标可指示使用了此新预测模式。在某些实施例中，可基于速率-失真(R-D)优化准则自适应地选择新预测模式。所述旗标可添加在以下语法层级：序列标头、图片标头、切片标头和LCU标头，以及CU。相对于图5描述的所有实施例可单独地或彼此组合地实施。

图5A类似于图5，但图5A说明使用差域空间相邻者的帧内预测而非使用差域参考的帧间预测的上下文中的平滑。

虽然图5已大部分在帧方面阐释，但根据本发明的方面的技术可在视频信息单元的各种层级处实施。举例来说，相对于图5描述的根据本发明的方面的技术可在帧、切片、块和像素层级实施。另外，相对于图5和图5A描述的所有实施例可单独地或彼此组合地实施。

图6和6A是说明根据本发明的方面的用于自适应地产生差域参考的实例性方法的流程图。过程600可由编码器(例如，图2中所示的编码器等等)或解码器(例如，图3中所示的解码器等等)。过程600的块是相对于图2中的编码器20来描述，但过程600可由其它组件执行，例如上文提到的解码器。类似地，过程600A可由编码器或解码器执行。过程600A的块是相对于图2中的编码器20来描述，但过程600A可由其它组件执行，例如上文提到的解码器。

在框601处，编码器20确定EL权重和经重构BL权重。EL权重和BL权重可基于若干不同因数。一个此因数可为EL与经重构BL之间的相似性。相关因数的另一实例可为EL中的时间相关。经重构BL中的时间相关也可为相关因数。在一些实施例中，EL权重可大于BL权重。在其它实施例中，BL权重可大于EL权重。可在由编码标准(例如，HEVC)支持的各种语法层级处指派EL权重和BL权重。

在框602处，编码器20将经确定EL权重和BL权重应用于EL参考和经重构BL参考。在框603处，编码器20通过从经加权EL参考减去经加权重构BL参考来计算差域参考。在框604处，编码器20基于在不同时间点的经自适应加权差域参考来执行帧间预测。相对于图6描述的实例性方法可在各种语法层级处实施。

图6A中的过程600A类似于图6中的过程600，但过程600A执行使用差域空间相邻者的帧内预测而非使用差域参考的帧间预测。举例来说，在框604A处，编码器20执行相同时间点的经自适应加权差域空间相邻者的帧内预测。

图6B是说明根据本发明的方面的用于自适应地产生差域参考的另一实例性方法的流程图。过程600B可由编码器(例如，图2中所示的编码器等等)或解码器(例如，图3中所示的解码器等等)。过程600B的块是相对于图2中的编码器20来描述，但过程600B可由其它组件执行，例如上文提到的解码器。相对于图6B描述的所有实施例可单独地或彼此组合地实施。

在框601B处，编码器20确定增强层权重和基础层权重。在一些实施例中，来自增强层和基础层的视频单元可不同地加权，例如以便获得较好的预测结果或速率-失真折中。在一个实施例中，增强层权重和基础层权重可基于增强层与基础层之间的相似性来确定。举例来说，基础层权重与增强层权重相比在所述两个层不相似的情况下可减少。相似性可基于例如增强层与基础层之间的时间相关或空间相关。增强层权重应用于增强层中的视频单元，且基础层权重应用于基础层中的视频单元。

在框602B处，编码器20将增强层权重应用于增强层中的视频单元的值，且将基础层权重应用于基础层中的视频单元的值。增强层中的视频单元和基础层中的视频单元可为分别来自每一层的参考视频单元。增强层权重和基础层权重可在任一译码层级处应用，包含(但不限于)以下语法层级：帧、切片、最大译码单元(LCU)、译码单元(CU)、块、像素以及子像素。增强层权重和基础层权重可在位流中用信号表示，或可在位流中接收或至少部分地从位流中的信息导出。

在框603B处，编码器20确定基于差视频层的当前视频单元的值、以增强层权重加权的增强层中的视频单元的值，以及以基础层权重加权的基础层中的视频单元的值。差视频层可指代差域。视频单元可为任一视频数据单元，且可包含(但不限于)：帧、切片、最大译码单元(LCU)、译码单元(CU)、块、像素和子像素。当前视频单元的值可通过产生当前视频单元的预测单元(PU)来确定。在一些实施例中，当前视频单元是与差视频层相关联的差视频单元。当前视频单元的值可基于与差视频层相关联的差参考视频单元或差空间相邻视频单元来确定。差参考视频单元或差空间相邻视频单元可从经加权增强层视频单元和经加权基础层视频单元的差导出。

图7是说明根据本发明的方面的用于平滑差域参考的实例性方法的流程图。过程700可由编码器(例如，图2中所示的编码器等等)或解码器(例如，图3中所示的解码器等等)。过程700的块是相对于图2中的编码器20来描述，但过程700可由其它组件执行，例如上文提到的解码器。

在框701处，编码器20确定是否将平滑滤波器应用于差域参考或空间相邻像素。举例来说，编码器20可决定差域参考或空间相邻像素包含高频分量。编码器20还可选择应用平滑滤波器作为默认。编码器20还可基于平滑滤波器的应用所需要的计算复杂性来确定是否应用平滑滤波器。在框702处，编码器20将平滑滤波器应用于差域参考。在框703处，编码器20分别基于经平滑差域参考或相邻像素执行帧间预测或帧内预测。相对于图7描述的实例性方法可在各种语法层级处实施。

图7A是说明根据本发明的方面的用于平滑差域参考的另一实例性方法的流程图。过程700A可由编码器(例如，图2中所示的编码器等等)或解码器(例如，图3中所示的解码器等等)。过程700A的块是相对于图2中的编码器20来描述，但过程700A可由其它组件执行，例如上文提到的解码器。相对于图7A描述的所有实施例可单独地或彼此组合地实施。

在框701A处，编码器20将平滑滤波器应用于来自差视频层的参考视频单元或空间相邻视频单元。差视频层可参考差域。来自差视频层的参考视频单元可用于执行视频单元的帧间预测。来自差视频层的空间相邻视频单元可用于执行视频单元的帧内预测。平滑滤波器的实例可包含(但不限于)3分支滤波器、4分支滤波器、6分支滤波器等等。在一些实施例中，编码器20应用低通滤波器，例如1∶2∶1滤波器。在其它实施例中，编码器20可应用带通滤波器或高通滤波器。

编码器20可基于平滑视频单元的益处与来自应用平滑滤波器的增加计算复杂性的代价之间的折中来确定是否将平滑滤波器应用于参考视频单元或空间相邻视频单元。举例来说，编码器20可在视频单元的纹理可保持而不会增加很多计算复杂性的情况下决定应用平滑滤波器。

在框702A处，编码器20基于参考视频单元或空间相邻视频单元来确定视频单元的值。视频单元可为任一视频数据单元，且可包含(但不限于)：帧、切片、最大译码单元(LCU)、译码单元(CU)、块、像素和子像素。视频单元的值可通过产生视频单元的预测单元(PU)来确定。

在一些实施例中，编码器20可使用基于参考视频单元的帧间预测、使用基于空间相邻视频单元的帧内预测或两者来确定视频单元的值。在一个实施例中，参考视频单元是从增强层中的参考视频单元和基础层中的参考视频单元的差导出，且增强层中的参考视频单元以增强层权重加权，且基础层中的参考视频单元以基础层权重加权。在另一实施例中，空间相邻视频单元是从增强层中的空间相邻视频单元和基础层中的空间相邻视频单元的差导出，且增强层中的空间相邻视频单元以增强层权重加权，且基础层中的空间相邻视频单元以基础层权重加权。

在某些实施例中，编码器20可界定用于将平滑滤波器应用于参考视频单元或空间相邻视频单元的预测模式。编码器20可根据某一准则(例如，速率-失真优化准则)自适应地选择预测模式。在其它实施例中，编码器20可界定用于将平滑滤波器应用于参考视频单元或空间相邻视频单元的旗标。此旗标可在位流中用信号表示，或可在位流中接收或至少部分地从位流中的信息导出。

应认识到，取决于实例，本文描述的技术中的任一者的某些动作或事件可以不同顺序执行，可相加、合并或完全省去(例如，并非所有描述的动作或事件对于所述技术的实践都是必要的)。而且，在某些实例中，动作或事件可例如通过多线程处理、中断处理或多个处理器同时执行，而不是循序地执行。

在一或多个实例中，所描述功能可以硬件、软件、固件或其任一组合实施。如果以软件来实施，那么所述功能可作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体传输，且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体等有形媒体)或通信媒体，所述通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。以此方式，计算机可读媒体一般可对应于(1)非暂时性的有形计算机可读存储媒体，或(2)例如信号或载波等通信媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索指令、代码和/或数据结构以用于实施本发明中描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。

举例来说且并非限制，计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器，或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且，将任何连接恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源发射指令，那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包含于媒体的定义中。然而应了解，计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它暂时性媒体，而替代地针对非暂时性有形存储媒体。如本文所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。

可通过例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路等一或多个处理器来执行指令。因此，如本文使用的术语“处理器”可指代前述结构或适于实施本文所述的技术的任何其它结构中的任一者。另外，在一些方面中，可将本文描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内，或并入于组合式编解码器中。而且，可将所述技术完全实施于一或多个电路或逻辑元件中。

本发明的技术可在广泛多种装置或设备中实施，包含无线手持机、集成电路(IC)或一组IC(例如，芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面，但未必需要通过不同硬件单元来实现。而是如上文所述，各种单元可组合于编解码器硬件单元中，或通过互操作性硬件单元(包含如上文所述的一或多个处理器)的集合结合合适的软件和/或固件来提供。

已描述各种实例。这些和其它实例在所附权利要求书的范围内。

Claims

1.一种经配置以对视频信息进行译码的设备，所述设备包括：

存储器单元，其经配置以存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息；以及

处理器，其与所述存储器单元通信，所述处理器经配置以：

确定增强层权重和基础层权重；以及

使用与所述差视频层相关联的差参考视频单元产生与所述差视频层相关联的当前视频单元的预测单元，

其中所述差参考视频单元经确定为以所述增强层权重加权的所述增强层中的参考视频单元与以所述基础层权重加权的所述基础层中的参考视频单元之间的差。

2.根据权利要求1所述的设备，其中所述处理器经配置以基于所述增强层与所述基础层之间的时间相关或空间相关来确定增强层权重和基础层权重。

3.根据权利要求1所述的设备，其中所述增强层中的所述参考视频单元是所述增强层中的时间参考视频单元，且所述基础层中的所述参考视频单元是所述基础层中的时间参考视频单元。

4.根据权利要求1所述的设备，其中所述增强层中的所述参考视频单元是所述增强层中的空间相邻视频单元，且所述基础层中的所述参考视频单元是所述基础层中的空间相邻视频单元。

5.根据权利要求1所述的设备，其中所述处理器进一步经配置以基于所述当前视频单元的所述预测单元来重构所述当前视频单元。

6.根据权利要求1所述的设备，其中所述处理器进一步经配置以使用基于所述差视频层中的参考帧的帧间预测来产生所述当前视频单元的所述预测单元。

7.根据权利要求1所述的设备，其中所述处理器进一步经配置以使用基于所述差视频层中的空间相邻像素的帧内预测来产生所述当前视频单元的所述预测单元。

8.根据权利要求1所述的设备，其中所述增强层权重大于所述基础层权重，且所述增强层权重为2的幂。

9.根据权利要求1所述的设备，其中所述差参考视频单元经导出为W₁*所述增强层中的参考视频单元–W₀*所述基础层中的参考视频单元+舍入值，其中W₁为所述增强层权重且W₀为所述基础层权重。

10.根据权利要求9所述的设备，其中所述舍入值在位流中用信号表示或至少部分地从位流中的信息导出。

11.根据权利要求10所述的设备，其中所述舍入值是在选自包括以下各项的群组的语法层级处译码：帧、切片、最大译码单元LCU、译码单元CU、块、像素和子像素。

12.根据权利要求1所述的设备，其中所述增强层权重和所述基础层权重是在选自包括以下各项的群组的语法层级处译码：帧、切片、最大译码单元LCU、译码单元CU、预测单元PU、块、像素和子像素，且其中所述增强层权重和所述基础层权重是针对选自包括以下各项的群组的信号分量来译码：仅亮度分量、仅色度分量，以及亮度和色度分量的任一组合。

13.根据权利要求1所述的设备，其中所述当前视频单元选自包括以下各项的群组：帧、切片、最大译码单元LCU、译码单元CU、块、像素和子像素。

14.根据权利要求1所述的设备，其中所述基础层是经重构基础层。

15.根据权利要求1所述的设备，其中所述处理器进一步经配置以对所述当前视频单元进行编码且在位流中用信号表示所述增强层权重和所述基础层权重。

16.根据权利要求1所述的设备，其中所述处理器进一步经配置以对所述当前视频单元进行解码且在位流中接收所述增强层权重和所述基础层权重或至少部分地从位流中的信息导出所述增强层权重和所述基础层权重。

17.根据权利要求1所述的设备，其中所述设备选自由以下各项中的一或多者组成的群组：桌上型计算机、笔记本计算机、膝上型计算机、平板计算机、机顶盒、电话手持机、智能电话、智能板、电视机、相机、显示装置、数字媒体播放器、视频游戏控制台以及视频流式传输装置。

18.一种对视频信息进行译码的方法，其包括：

存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息；

确定增强层权重和基础层权重；以及

19.根据权利要求18所述的方法，其中所述确定增强层权重和基础层权重是基于所述增强层与所述基础层之间的时间相关或空间相关。

20.根据权利要求18所述的方法，其中所述增强层中的所述参考视频单元是所述增强层中的时间参考视频单元，且所述基础层中的所述参考视频单元是所述基础层中的时间参考视频单元。

21.根据权利要求18所述的方法，其中所述增强层中的所述参考视频单元是所述增强层中的空间相邻视频单元，且所述基础层中的所述参考视频单元是所述基础层中的空间相邻视频单元。

22.根据权利要求18所述的方法，其进一步包括基于所述当前视频单元的所述预测单元来重构所述当前视频单元。

23.根据权利要求18所述的方法，其中使用基于所述差视频层中的参考帧的帧间预测来产生所述当前视频单元的所述预测单元。

24.根据权利要求18所述的方法，其中使用基于所述差视频层中的空间相邻像素的帧内预测来产生所述当前视频单元的所述预测单元。

25.根据权利要求18所述的方法，其中所述增强层权重大于所述基础层权重，且所述增强层权重为2的幂。

26.根据权利要求18所述的方法，其中所述差参考视频单元经导出为W₁*所述增强层中的参考视频单元–W₀*所述基础层中的参考视频单元+舍入值，其中W₁为所述增强层权重且W₀为所述基础层权重。

27.根据权利要求26所述的方法，其中所述舍入值在位流中用信号表示或至少部分地从位流中的信息导出。

28.根据权利要求27所述的方法，其中所述舍入值是在选自包括以下各项的群组的语法层级处译码：帧、切片、最大译码单元LCU、译码单元CU、块、像素和子像素。

29.根据权利要求18所述的方法，其中所述增强层权重和所述基础层权重是在选自包括以下各项的群组的语法层级处译码：帧、切片、最大译码单元LCU、译码单元CU、预测单元PU、块、像素和子像素，且其中所述增强层权重和所述基础层权重是针对选自包括以下各项的群组的信号分量来译码：仅亮度分量、仅色度分量，以及亮度和色度分量的任一组合。

30.根据权利要求18所述的方法，其中所述当前视频单元选自包括以下各项的群组：帧、切片、最大译码单元LCU、译码单元CU、块、像素和子像素。

31.根据权利要求18所述的方法，其中所述基础层是经重构基础层。

32.根据权利要求18所述的方法，其进一步包括对所述当前视频单元进行编码且在位流中用信号表示所述增强层权重和所述基础层权重。

33.根据权利要求18所述的方法，其进一步包括对所述当前视频单元进行解码且在位流中接收所述增强层权重和所述基础层权重或至少部分地从位流中的信息导出所述增强层权重和所述基础层权重。

34.一种具有存储于其上的指令的计算机可读存储媒体，所述指令在执行时致使设备：

存储与从视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息；

确定增强层权重和基础层权重；以及

35.根据权利要求34所述的计算机可读存储媒体，其中所述确定增强层权重和基础层权重是基于所述增强层与所述基础层之间的时间相关或空间相关。

36.根据权利要求34所述的计算机可读存储媒体，其中所述增强层中的所述参考视频单元是所述增强层中的时间参考视频单元，且所述基础层中的所述参考视频单元是所述基础层中的时间参考视频单元。

37.根据权利要求34所述的计算机可读存储媒体，其中所述增强层中的所述参考视频单元是所述增强层中的空间相邻视频单元，且所述基础层中的所述参考视频单元是所述基础层中的空间相邻视频单元。

38.根据权利要求34所述的计算机可读存储媒体，其中所述增强层权重大于所述基础层权重，且所述增强层权重为2的幂。

39.根据权利要求34所述的计算机可读存储媒体，其中所述差参考视频单元经导出为W₁*所述增强层中的参考视频单元–W₀*所述基础层中的参考视频单元+舍入值，其中W₁为所述增强层权重且W₀为所述基础层权重。

40.一种经配置以对视频信息进行译码的设备，所述设备包括：

用于存储与从所述视频信息的增强层与对应基础层之间的差导出的像素信息的差视频层相关联的差视频信息的装置；

用于确定增强层权重和基础层权重的装置；以及

用于使用与所述差视频层相关联的差参考视频单元产生与所述差视频层相关联的当前视频单元的预测单元的装置，

41.根据权利要求40所述的设备，其中所述确定增强层权重和基础层权重是基于所述增强层与所述基础层之间的时间相关或空间相关。

42.根据权利要求40所述的设备，其中所述增强层中的所述参考视频单元是所述增强层中的时间参考视频单元，且所述基础层中的所述参考视频单元是所述基础层中的时间参考视频单元。

43.根据权利要求40所述的设备，其中所述增强层中的所述参考视频单元是所述增强层中的空间相邻视频单元，且所述基础层中的所述参考视频单元是所述基础层中的空间相邻视频单元。

44.根据权利要求40所述的设备，其中所述增强层权重大于所述基础层权重，且所述增强层权重为2的幂。

45.根据权利要求40所述的设备，其中所述差参考视频单元经导出为W₁*所述增强层中的参考视频单元–W₀*所述基础层中的参考视频单元+舍入值，其中W₁为所述增强层权重且W₀为所述基础层权重。