CN108353173A

CN108353173A - 用于高动态范围视频编码的分段线性层间预测器

Info

Publication number: CN108353173A
Application number: CN201680063350.XA
Authority: CN
Inventors: 纳瓦尼蒂·坎巴卢尔科塔伊尔; 苏冠铭
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2015-11-02
Filing date: 2016-10-26
Publication date: 2018-07-31
Anticipated expiration: 2036-10-26
Also published as: US10499084B2; CN108353173B; EP3371975A1; WO2017079007A1; EP3371975B1; US20180310027A1

Abstract

在使用增强层来增加高动态范围(HDR)信号的动态范围的方法中，应用了分段线性层间预测器和残差掩蔽运算。分段线性层间预测函数的生成基于所计算的场景重要度直方图，该场景重要度直方图基于指示最可能出现编码伪像的像素值的帧重要度直方图的平均。对于预测函数中的每个段，其斜率与在场景重要度直方图下段中的能量测量成反比。在确定分段线性预测函数时也将增强层的比特率约束考虑在内。

Description

用于高动态范围视频编码的分段线性层间预测器

相关申请的交叉引用

本申请要求于2015年11月2日提交的美国临时专利申请No.62/249,779以及于2015年12月4日提交的欧洲专利申请No.15198037.2的优先权，它们中的每一个通过引用以其全部内容并入本文中。

技术领域

本发明一般涉及图像。更具体地，本发明的实施方式涉及用于对具有高动态范围的图像和视频序列进行编码的分段线性层间预测器。

背景技术

如本文使用的，术语“动态范围”(DR)可以涉及人类视觉***(HVS)感知图像中的强度(例如，亮度、明度)范围(例如，从最暗的黑色(黑暗)到最亮的白色(明亮))的能力。在这个意义上，DR涉及“参考场景”强度。DR还可以涉及显示装置充分地或近似地呈现特定幅度的强度范围的能力。在这个意义上，DR涉及“参考显示”强度。除非在本文的描述中特定场景被明确地指定在任何时刻具有特定含义，否则应该推断该术语可以例如可交换地用于任一意义。

如本文所使用的，术语高动态范围(HDR)涉及跨越人类视觉***(HVS)的大约14至15个数量级的DR幅度。实际上，与HDR相比，人类可以同时感知强度范围上的宽广的幅度的DR可能在一定程度上被截断。如本文所使用的，术语增强动态范围(EDR)或视觉动态范围(VDR)可以单独地或可交换地涉及由包括允许跨越场景或图像的特定光适应改变的眼睛运动的人类视觉***(HVS)在场景或图像内可感知的DR。如本文所使用的，EDR可以涉及跨越5至6个数量级的DR。因此，虽然与真实场景参考HDR相比可能略窄，但是EDR表示宽的DR幅度并且也可以被称为HDR。

实际上，图像包括一个或更多个颜色分量(例如，亮度Y以及色度Cb和Cr)，其中每个颜色分量以每像素n位的精度表示(例如，n＝8)。使用线性亮度编码，n≤8的图像(例如，彩色24位JPEG图像)被认为是标准动态范围的图像，而n>8的图像可以被认为是增强动态范围的图像。EDR和HDR图像也可以使用高精度(例如，16位)浮点格式(如由工业光魔公司(Industrial Light and Magic)开发的OpenEXR文件格式)存储和分发。

如本文所使用的，术语“元数据”涉及作为编码比特流的一部分被发送并且帮助解码器呈现解码图像的任何辅助信息。如本文描述的那些，这样的元数据可以包括但不限于颜色空间或色域信息、参考显示参数及辅助信号参数。

大多数消费台式显示器目前支持200至300cd/m²或尼特的亮度。大多数消费HDTV的范围从300尼特到500尼特，其中新型号达到1000尼特(cd/m²)。因此，与HDR或EDR相比，这样的传统显示器代表较低的动态范围(LDR)，也被称为标准动态范围(SDR)。因为HDR内容的可用性由于捕获设备(例如，相机)和HDR显示器(例如，来自杜比实验室的PRM-4200专业参考监视器)两者的进步而增长，HDR内容可以被色彩分级并且在支持高动态范围(例如，从700尼特到5000尼特或更大)的HDR显示器上显示。正如发明人在此认识到的，期望用于高动态范围图像的编码和递送的改进技术。

本部分中描述的方法是可以探究的方法，但不一定是先前已经构思或探究的方法。因此，除非另有说明，否则不应该假定本部分中描述的任何方法仅仅由于其包括在本部分中而被认为是现有技术。类似地，除非另有说明，否则关于一个或更多个方法所确定的问题不应被假定为基于本部分在任何现有技术中被认知。

附图说明

本发明的实施方式在附图中以示例的方式而非以限制的方式示出，并且在附图中相同的附图标记指代相似的元件，并且在附图中：

图1描绘了用于使用基础层和增强层的HDR视频的视频递送的示例过程；

图2描绘了根据本发明的实施方式的用于HDR视频的编码和视频递送的示例过程；

图3描绘了根据本发明的实施方式的使用分段线性层间预测器对HDR图像序列进行编码的示例过程；

图4描绘了根据本发明的实施方式的层间预测器的示例场景重要度直方图函数和相关联的枢轴点；以及

图5描绘了根据本发明的实施方式的示例分段线性预测函数。

具体实施方式

本文中描述了高动态范围(HDR)图像的视频编码和递送。在以下描述中，出于说明目的，阐述了许多具体细节以提供对本发明的透彻理解。然而，将明显的是，可以在没有这些具体细节的情况下实践本发明。在其他情况下，没有详细描述公知的结构和装置以避免不必要地妨碍、模糊或混淆本发明。

概述

本文描述的示例实施方式涉及一种生成用于高动态范围图像的视频编码和递送的分段线性层间预测器的方法。在实施方式中，处理器访问具有第一位深度的第一组图像和具有第二位深度的对应的第二组图像，其中，第二位深度低于第一位深度，并且第一组图像和第二组图像表示同一场景。针对第二组中的至少一个图像，计算帧重要度像素图以识别由于减小的位深度而可能呈现编码伪像的像素。针对每个帧重要度像素图计算帧重要度直方图。给定计算的帧重要度直方图，针对整个第二组画面来计算场景重要度直方图。然后使用场景重要度直方图来生成分段线性预测函数，其中，预测函数中的每个段的斜率与场景重要度直方图下的段中的能量测量成反比。

在实施方式中，使用分段线性预测函数的斜率来确定掩蔽函数，该掩蔽函数用于对使用第一组图像中的图像生成的增强层的残差图像以及使用预测函数和第二组图像预测的图像的像素值进行掩蔽。

在实施方式中，还可以根据增强层中的比特率约束来调整分段线性预测函数的每个段的斜率。

在实施方式中，基于直方图的选择峰值来计算预测函数中每个段的枢轴点。

高动态范围(HDR)视频的视频递送

根据由蓝光光盘协会发布的题为“Audio Visual Application FormatSpecifications for BD-ROM Version 3.0”的新***、蓝光光盘协会在2015年7月发布的蓝光光盘只读格式(超高清蓝光)***，其通过引用以其全部内容并入本文中，所提出的超高清蓝光标准支持强制的单层(10位，YCbCr 4:2:0)蓝光光盘电影(BDMV)EDR格式(也被称为HDR10格式)和可选的杜比视界(Dolby Vision)双层HDR格式。杜比视界HDR流由基础层(BL)BDMV EDR视频流以及具有相关联的元数据的杜比视界增强层(EL)视频流构成。普通的蓝光解码器只能播放HDR10基础层；然而，启用杜比视界的播放器将能够将基础层和增强层结合，以生成具有比默认HDR10流的动态范围更好的动态范围的12位HDR视频输出。

杜比视界流的特征如下：

亮度不恒定的BT.2020原色

基于SMPTE 2084的EOTF(电光转换功能)

12位的组合的BL/EL位深度

图1描绘了根据示例实施方式的分层HDR编码器架构(100)。在实施方式中，可以在YCbCr 4:2:0颜色空间中执行基础编码层和增强编码层中的所有视频编码。HDR图像编码器(100)可以由一个或更多个计算装置实现。

HDR图像编码器(100)被配置成接收高分辨率(例如，UHD)输入HDR图像(102)。如本文所使用的，“输入HDR图像”是指可以用于得到输入图像的HDR版本的增强或高动态范围图像数据(例如，由高端图像获取装置等捕获的原始图像数据)。输入HDR图像(102)可以在支持高动态范围色域的任何颜色空间中。在实施方式中，输入HDR图像是最初在RGB空间中的12位或更高的YCbCr图像。如本文所使用的，对于具有多个颜色分量(例如，RGB或YCbCr)的图像，术语n位图像(例如，12位或8位图像)表示其每个像素的颜色分量的由n位像素表示的图像。例如，在8位RGB图像中，每个像素包括三个颜色分量，每个颜色分量(例如，R、G或B)由8位表示，每个颜色像素总共24位。

每个像素可以可选地和/或替选地包括颜色空间中一个或更多个通道的上采样或下采样像素值。应当注意的是，在一些实施方式中，除了诸如红色、绿色和蓝色的三原色以外，如本文中所述，可以在颜色空间中同时使用不同的原色，例如以支持宽色域；在那些实施方式中，如本文中描述的图像数据包括用于上述不同的原色的附加像素值，并且可以由本文中描述的技术同时处理。

HDR到HDR10(115)转换器将高位深度HDR输入(102)转换为较低深度的BL图像(117)(例如，10位图像)。通常，如何从原始HDR输入(102)生成10位HDR层(117)超出任何编码标准的范围。一些实施方式可以使用动态范围转换技术，如在于2013年12月4日提交的要被称为‘085申请的序列号为PCT/US2013/073085(也被公开为WO2014/107255)的PCT申请中描述的那些，该申请通过引用以其全部内容并入本文中。在一些实施方式中，在给定12位输入HDR(102)的情况下，可以通过简单截断两个最不重要的位来生成10位HDR10流(117)。

BL图像编码器(120)被配置成对BL图像(117)进行编码/格式化以生成编码的(或压缩的)BL图像(122)。BL编码器可以是已知视频编码器中的任意视频编码器，例如由ISO/IEC H.264或HEVC标准指定的那些视频编码器或者其他编码器例如Google的VP9等。

HDR图像编码器(100)中的BL解码器(130)将基础层图像容器中的图像数据解码为解码的基础层图像(135)。信号135表示将被兼容的接收器接收的解码BL。由于解码的基础层图像包括由BL编码器(120)和BL解码器(130)执行的编码和解码操作中引入的编码改变、舍入误差和近似，因此解码的基础层图像(135)与BL图像(117)不同。

预测器(140)基于解码的BL流(135)执行与预测HDR输入信号(102)有关的一个或更多个操作。预测器(140)试图实现HDR到HDR10转换器(115)执行的操作的逆过程。这样的预测器的示例实施方式在‘085PCT申请中描述。从HDR输入(102)减去预测器输出(142)以生成残差152。

在示例实施方式中，HDR图像编码器(100)中的增强层量化器(NLQ)(160)被配置成：使用由一个或更多个NLQ参数确定的NLQ函数将HDR残差值(152)从高位深度数字表示(例如，12位)量化为较低的数字表示(例如，10位或8位)。NLQ函数可以是线性的、分段线性的或非线性的。‘085PCT申请中描述了非线性NLQ设计的示例。

增强层(EL)编码器(170)被配置成：对增强层图像容器中的残差值进行编码，以生成编码的EL流(172)。EL编码器(170)可以是任何已知的视频编码器，如由ISO/IEC H.264或HEVC标准指定的那些视频编码器或者其他编码器(如Google的VP9)等。EL编码器和BL编码器可以不同或者可以相同。

可以将预测器(140)和NLQ(160)中使用的参数集作为补充增强信息(SEI)或可用于视频比特流(例如，在增强层中)的其他类似元数据载体的一部分发送至下游装置(例如，HDR解码器)作为元数据142。这样的元数据可以包括但不限于诸如以下信息：颜色空间或色域信息、动态范围信息、色调映射信息或其他预测器、向上扩展和量化器运算，如本文中描述的那些。

在生成分层HDR流的所有部分之后，对编码的EL流(172)、编码的BL流(122)和相关的元数据(142)进行多路复用和分组，使得它们可以存储在存储介质中和/或被发送至解码器。

在双层***(如图1中描绘的双层***)中，增强层的主要功能是补偿来自基础层的丢失信息。即使在采用增强层的情况下，生成基本层的位减少与SMPTE 2084或伽玛编码的特性结合可以导致编码伪像，如条带、块或渗色。本文提出的方法假定在HDR到HDR10转换中简单的LSB截断；然而，如本领域技术人员将理解的，无论基础层如何生成，这些技术都适用于所有双层编码方案。

本文中所使用的术语“PQ”是指感知量化。人类视觉***以非常非线性的方式响应于增加的光水平。人类看到刺激的能力受如下因素影响：刺激的亮度、刺激的大小、构成刺激的空间频率以及在观察刺激的特定时刻眼睛已经适应的亮度水平。在优选实施方式中，感知量化器函数将线性输入灰度级映射为更好地匹配人类视觉***中的对比敏感度阈值的输出灰度级。在SMPTE ST 2084规范中给出了PQ映射函数的示例，在给定的固定刺激大小的情况下，对于每个亮度水平(即，刺激水平)，根据最敏感适应水平和最敏感空间频率(根据HVS模型)来选择该亮度水平处的最小可见对比度步长(contrast step)。与表示物理阴极射线管(CRT)装置的响应曲线并且同时可以具有与人类视觉***响应的方式的大致相似性的传统伽玛曲线相比，如SMPTE ST 2084中描述的PQ曲线使用相对简单的函数模型模仿人类视觉***的真实视觉响应。

已经观察到PQ编码在暗区域比在明亮区域分配更多码字。因此，在低比特率编码期间，在明亮区域中出现条带伪像和块伪像或渗色的情况增多。本发明的目标是提供减少这种编码伪像的方法。

在本文描述的方法中，通过使用分段线性预测器作为预测器(140)来提高输出的视觉质量。在实施方式中，这样的预测器以如下步骤操作：a)当预测器的斜率更接近零(或更平坦)时，残差(152)的量值较大；然而，其表示更多图像类图像，因此更容易使用EL编码器(170)编码。b)当预测器的斜率更接近1(或更陡峭)时，残差具有较小的量值；然而，其更像噪声，因此更难压缩。通过以分段线性方式调整预测器的斜率并且通过掩蔽残差图像(152)，可以将残差的量控制成在EL层中编码，从而提高了整体质量，同时保持增强层的低比特率。所提出的方法与在解码期间支持分段线性或非线性预测的现有杜比视界解码器完全兼容。

图2描绘了根据实施方式的用于HDR内容的编码和分发的编码器的示例。与图1相比，预测器(240)现在是分段线性预测器。预测器(240)中的段的斜率用于在掩蔽单元(210)中掩蔽残差(152)。接下来描述用于生成预测函数(240)和掩蔽单元(210)的细节。

分段线性预测

图3描绘了根据实施方式的用于生成分段线性预测器并且生成双层HDR编码流的示例过程。如图3所示，过程可以分为三个阶段。在阶段1(300A)中，对于场景中的每个帧，首先构建表示要在EL中编码的感兴趣区域的帧重要度图(310)。根据该图，构建帧重要度直方图(315)。该直方图表示每个亮度码字的重要度值。在阶段2(300B)中，以场景水平执行处理。在步骤(320)中，基于整个场景的所有帧重要度直方图来生成场景重要度直方图。在步骤(325)中，使用该基于场景的重要度直方图来生成分段线性预测器，使得在场景重要度直方图中小斜率(接近于0)被分配给具有较大值的像素并且在场景重要度直方图中较大斜率(接近1)被分配给具有小值的像素。最后，在阶段3(300C)中，在给定在步骤325中生成的预测器的情况下，场景中的每个帧被编码以生成编码的BL流(122)和编码的EL流(172)。步骤(330)生成BL编码画面和相应的残差画面(152)。在步骤(335)中，使用来自预测生成步骤(325)的输入来掩蔽残差图像并且生成掩蔽的残差图像。最后，在步骤(340)中，基于步骤(335)的掩蔽残差图像来生成EL流(172)。

帧重要度像素图

在给定输入HDR流(102)中的帧序列中的第j帧(或画面)的情况下，令v_ji表示第i个像素，并且令表示BL解码器(130)的输出(135)中的相应解码像素。在实施方式中，在不失一般性的情况下，所有像素值可以被归一化成在[0 1)之间。将基础层(BL)中的位深度表示为b(例如，b＝10)，于是BL中的码字的总数为B＝2^b，并且每个非归一化码字值在[0，B-1]之间。

如本文所使用的，术语“帧重要度像素图”或“帧重要度图”表示帧中那些像素的图(或列表)，其中根据特定标准，由于HDR到HDR10截断而导致观察到错误的可能性高。在实施方式中，非限制性地，使用熵滤波来生成帧重要度图。熵滤波器测量每个像素的相对于其邻近的像素的局部熵。对于图像中具有位置x的任何像素，令x的邻域表示为N(x)，

则像素x的局部熵被计算为：

其中，p_i(x)表示N(x)中强度值i的概率并且可以被定义为：

即，集合N(x)中具有强度值i的像素的数量除以集合N(x)中像素的数量。

在实施方式中，对于KxK邻域，K＝(2^*m+1)，其中，m＝向上取整(图像的竖直分辨率的0.125％)。例如，对于1080p图像，K＝5。

令

表示在对原始画面和解码画面两者执行熵滤波之后的“熵差”。可以直接应用式(3)以生成帧重要度图；然而，由于量化误差，式(3)有时可能导致识别错误的画面区域。已经观察到，编码错误通常在明亮区域中更易观察到。该观察也与PQ曲线为较亮区域分配较少码字的事实相符。因此，在优选实施方式中，重要度图也应该将输入HDR画面的亮度考虑在内。作为示例，重要度图可以由下式给出：

I^s′ _ji＝δ^H _ji ^*v_ji ^*C (4)

其中，c表示加权因子(例如，c＝1.或c＝0.85)。

在实施方式中，可以将式(4)进一步归一化以输出在[0，1]之间的值，例如，如

其中，Δ是防止被零除的安全裕量(例如，Δ＝0.00000001)。

考虑到用于对增强层进行编码的比特率限制，在给定阈值T_s(例如，对于b＝10，T_s＝0.1)的情况下，最终的帧重要度图可以计算为：

I^s _ji＝(I^s″_ji＞T_s？I^s″ _ji：0) (6)

换言之，如果I^s″ _ji＞Ts，则I^s _ji＝I^s″ _ji；否则，I^s _ji＝0。

帧重要度直方图和场景重要度直方图

如图3所示，在步骤(310)中确定帧重要度图(比如，使用式(6))之后，下一个步骤(315)是生成帧重要度直方图。在实施方式中，这可以被计算为：

对于k＝0，...，B-1 (7)其中，表示解码帧j中具有等于k的值的一组像素。具有大的h_j(k)值的容器(Bins)表示更可能呈现较高的失真和伪像的亮度范围。

场景重要度直方图

如本文所使用的，术语“场景”或“镜头”表示可以共享相同的整体亮度特性的一系列连续捕获的帧。在给定具有N个帧的场景(比如，l)的情况下，并且在给定每个帧的帧重要度直方图的情况下，在实施方式中，可以将基于场景的重要度直方图确定为帧重要度直方图的加权平均。例如，如果所有权重都等于1/N，那么

对于k＝0,…,B-1 (8)

在一些实施方式中，代替针对场景中的所有帧计算式(8)，为了减小计算负荷，可以基于场景中的帧的较小子集(例如，每第n个帧等)来简单计算加权平均。

构造分段线性预测器

在一些实施方式中，在生成线性预测器之前，对场景重要度直方图进行滤波以使其在噪声下更鲁棒是有利的。例如，非限制性地，可以使用中值滤波器或低通滤波器。由于大多数误差都在明亮部中，因此也可以仅对高于阈值T_h(例如，对于b＝10，T_h＝400)的那些值进行滤波。作为示例，在给定窗口大小W_m(例如，W_m＝7)的情况下，经滤波的场景重要度直方图可以被生成为：

对于k>T_h (9)

图4描绘了典型的经平滑的场景重要度直方图的示例。令表示在k>T_h之后计数的M个最高峰值的集合，其中表示第p个峰值在原始顺序中的位置。可以通过对所有峰值位置进行排序并且选择第一M-1值来生成该集合。在实施方式中，最终峰值位置被手动添加为B-1处的最大码字值。令P表示确定分段线性预测器的段的最大数量，则枢轴点的最大数量为P+1。令起始枢轴点为0，最终枢轴点为B-1。在实施方式中，在EL阈值T_h处选择第二枢轴点。其余枢轴被确定为两个峰值之间的中点。因此，如果sV_l＝{sv_l，0，sv_l，1，...，sv_l，P-1，sv_l，P，sv_l，P+1}表示一组枢轴点，那么

sv_l，0＝0

SV_l，1＝T_h

对于p＝2，3，...，P， (10)

sv_l，P+1＝B-1

例如，在图4中，枢轴点SV₂位于峰与之间的中央，并且枢轴点SV₃位于峰值与之间的中央。如果例如因为图像大部分是黑色或者因为不存在强度高于我们的阈值的像素而没有找到峰值，那么可以均匀地划分空间。例如，如果

那么枢轴点是[0，T_h，T_h+Δ_h，T_h+2Δ_h，...，T_h+(P-1)Δ_h，B-1]。

在给定一组枢轴点的情况下，下一步是确定每个段的斜率。对于k＞0，令e_l(k)表示枢轴点(sv_l，k，sv_l，k+1)之间的斜率。对于k＝0(EL阈值以下的段)，e_l(0)＝1，否则，基于场景重要度直方图以如下步骤来计算e_l(k)：

令

对于k＝[0，..，P]， (12a)

为直方图的第k个段内的“能量”的测量。

令

则e^norml(k)将被归一化到0与1之间，并且

将在0.5到1之间。最后，作为该能量的测量的斜率

将小于1。直观地，在场景重要度直方图中较小的斜率(接近零)被分配给具有大值的像素，并且在重要度直方图中较大斜率(接近1)被分配给具有小值的像素值。

将斜率限制在(0,1)内的方法假定分段线性预测器的输入(135)和输出(142)也都被归一化在(0,1)内。因此，对于(0,1)内的归一化HDR输入(102)，无论编码器(200)支持什么位深度精度，残差(152)将在(-1,1)内。本领域技术人员将认识到，该方法可以容易地适用于支持输入和输出信号的替代数字表示。

式(12d)没有将增强层的任何比特率限制考虑在内。换言之，在给定由式(12d)限定的斜率的情况下，要在EL中编码的数据量可能超过可用比特率。因此，在一些实施方式中，可以根据比特率约束进一步调整这些斜率。

令φ表示EL数据比特率限制。如稍后将讨论的，如果预测器斜率e_l(k)＝1，那么这个分段内的那些码字将被掩蔽(它们的对应残差值将被设置为零)并且仅在基础层中被编码。因此，降低EL数据速率的一种方法是将段的斜率设置为1。在实施方式中，对于给定的段k，要在EL中编码的像素的数量的近似值可以计算为：

对于k＝[0,..,P]，

或者

C_EL(k)＝e′_l(k)·(sv_l，k+1-sv_l，k) (13)

在实施方式中，可以使用以下算法来识别哪些段可以使用原始斜率e_l(k)以及哪些段可能需要对其斜率进行调整。令(t＝0,1,…,P)表示排序后的斜率(其中，最小)，并且令G()为未排序的值与排序后的值之间的映射函数或者令表示增强层的最大比特率约束仍然满足的段的最大数量，或者

或者

于是，根据下式确定第k个段的最终斜率M_l(k)：

如图5所示，在许多情况下，直接应用式(16)可以在斜率小于1的段之间生成斜率为1的段，这导致不连续的预测函数。例如，枢轴sv₂与sv₃之间的段(505)具有小于1的斜率。现在假定sv₃与sv₄之间的段507的斜率需要为1，原因是这个段不能满足式(14)的比特率标准。这将迫使枢轴点sv₃上的不连续。在一些实施方式中，保持段之间的连续性并且从而将那些段与固定斜率sl>1(例如，sl＝1.2)的段连接可能是有利的。这允许增强层残差图像中的像素值之间的更平滑的过渡，从而提高EL流上的编码效率。例如，如图5所示，现在可以在枢轴点sv₃与sv₄之间***新枢轴点(502)，并且由固定斜率(sl)的新段(510)连接。

在最大数量的段(P)上存在硬约束的实施方式中，可以示出的是，在场景重要度直方图中需要检测的峰值的最大数量(M)受以下式约束：

例如，如果段的最大数量是P＝8(9个枢轴)，则M＝4。式(17)允许需要在使用M个峰值的原始集合生成的每个交替段(alternate segment)上***新枢轴(例如，502)的最坏情况的情形。

令pred(i)表示分段线性预测器针对输入i∈(0，B-1)的输出。在给定先前计算的枢轴点和斜率M_l(k)的情况下，表1以伪代码概括了生成预测函数的示例实施方式。

表1：用于生成分段线性预测函数的示例函数

在给定预测函数pred(i)的情况下，掩蔽函数(210)可以表达为如下：

该掩蔽函数从增强层消除了使用有效斜率1计算的所有预测值。

可替选地，在给定残差(152)的情况下，被表示为

所生成的预测器的特性可以被传送至接收器作为分段线性或非线性预测函数(例如，使用一阶多项式或二阶多项式)。

由根据本文中描述的实施方式的方法生成的预测器函数可以用于处理视频数据的一个或更多个颜色分量，优选地用于处理视频数据的每个颜色分量。例如，预测器函数可以用于处理视频数据的色度分量中的一个或两个和/或用于处理视频数据的亮度分量。例如，生成第一预测器函数以用于处理亮度分量，但是可选地生成第二预测器函数以用于处理一个或两个色度分量。在另外的示例中，生成第一预测器函数以用于处理亮度分量，生成第二预测器函数以用于处理第一色度分量，并且生成第三预测器函数以用于处理第二色度分量。

在前面的讨论中，分段线性预测器的生成基于生成帧重要度直方图的平均值(称为场景重要度直方图方法)。在替代实施方式中，可以根据如下步骤生成预测器：

a)对于场景中的每个帧，生成帧重要度直方图

b)使用如先前讨论的相同技术，基于每个所计算的帧重要度直方图生成基于帧的分段线性预测器

c)对于场景，对所有基于帧的分段线性预测器求平均以生成单个场景平均预测器。该预测器的特性可以被传送至接收器作为分段线性或非线性预测函数(例如，使用一阶多项式或二阶多项式)

d)最后，如先前讨论的，对于场景中的每个输入帧，应用场景平均预测函数来创建相应的掩蔽残差的图像和EL流。

该方法需要比场景重要度直方图方法多得多的计算，并且可能不适合实时广播应用。

示例计算机***实现

本发明的实施方式可以用计算机***、以电子电路和部件配置的***、诸如微控制器的集成电路(IC)器件、现场可编程门阵列(FPGA)或另一可配置或可编程的逻辑器件(PLD)、离散时间或数字信号处理器(DSP)、专用IC(ASIC)和/或包括一个或更多个这样的***、器件或部件的设备来实现。计算机和/或IC可以执行、控制或运行与如本文中描述的HDR视频的视频编码和递送有关的指令。计算机和/或IC可以计算与本文中描述的HDR视频处理的视频编码和递送有关的各种参数或值中的任意参数或值。图像和视频实施方式可以用硬件、软件、固件及其各种组合来实现。

本发明的某些实现包括运行使处理器执行本发明的方法的软件指令的计算机处理器。例如，显示器、编码器、机顶盒、代码转换器等中的一个或更多个处理器可以通过执行在能够由处理器访问的程序存储器中的软件指令来实现与如上所述的HDR视频的视频编码和递送有关的方法。本发明也可以以程序产品的形式来提供。程序产品可以包括携载包括指令的一组计算机可读信号的任何非暂态介质，所述指令在由数据处理器执行时使数据处理器运行本发明的方法。根据本发明的程序产品可以是多种形式中的任意形式。程序产品可以包括例如物理介质(如包括软盘的磁数据存储介质)，硬盘驱动器，包括CD ROM、DVD的光数据存储介质，包括ROM、闪速RAM的电子数据存储介质等。可选地，程序产品上的计算机可读信号可以被压缩或被加密。

在上面提到部件(例如，软件模块、处理器、组件、器件、电路等)的情况下，除非另有说明，否则对该部件的提及(包括对“装置”的提及)应该被理解为：包括与执行所描述的部件的功能的任何部件等同的部件(例如，其在功能上等同)，包括与执行本发明的示出的示例实施方式中的功能的所公开的结构在结构上不等同的部件。

等同物、扩展、替代及其他

因此描述了与HDR视频的有效视频编码和递送有关的示例实施方式。在前面的说明书中，已经参考可以随实现而变化的许多具体细节描述了本发明的实施方式。因此，本发明及申请人对本发明的意图的唯一和排外的指示是以这些权利要求发出的具体形式(包括任意随后的更正)从本申请中发出的一组权利要求。本文中针对包括在这样的权利要求中的术语明确阐述的任何定义将决定如权利要求中使用的这些术语的含义。因此，权利要求中未明确叙述的限制、要素、性质、特征、优点或属性不应以任何方式限制该权利要求的范围。因此，说明书和附图被认为是说明性的而非限制性的意义。

根据以下列举的示例实施方式(EEES)可以理解本发明的各个方面：EEE 1.一种设计分段线性预测函数的方法，所述方法包括：

使用处理器访问具有第一位深度的第一组图像(102)；

用处理器访问具有第二位深度的对应的第二组图像(135)，其中，第二位深度低于第一位深度，并且第一组图像和第二组图像表示同一场景；

针对第二组中的至少一个图像：

对第二组中的图像进行滤波以生成第一滤波图像；

对第一组中的对应图像进行滤波以生成第二滤波图像；

基于第一滤波图像和第二滤波图像来计算(310)帧重要度像素图；以及

基于帧重要度像素图来计算(315)帧重要度直方图；

基于第二组中的图像的一个或更多个计算的帧重要度直方图来生成场景重要度直方图(320)；

基于场景重要度直方图的明亮阈值和峰值位置来确定分段线性预测函数的枢轴点；以及

基于场景重要度直方图来确定分段线性预测函数的每个段的斜率，其中，分段线性预测函数中的段的斜率与在场景重要度直方图下段中的能量测量成反比。

EEE 2.根据EEE 1所述的方法，其中，第一位深度是12位或更高，以及第二位深度是10位。

EEE 3.根据EEE 2所述的方法，其中，在给定第一组图像中的图像的情况下，通过选择第一组中的图像的每个像素分量中的10个最高有效的位来生成第二组图像中的对应图像。

EEE 4.根据EEE 1所述的方法，其中，使用熵滤波器来计算第一滤波图像和第二滤波图像。

EEE 5.根据EEE 1所述的方法，其中，基于乘以第一组中的对应图像中的对应像素的亮度值的第一滤波图像和第二滤波图像中的对应像素值之间的绝对差来计算第二组中的图像中的像素的帧重要度像素图值。

EEE 6.根据EEE 1所述的方法，其中，场景重要度直方图被计算为针对第二组中的一个或更多个图像计算的帧重要度直方图的平均。

EEE 7.根据EEE 1所述的方法，其中，确定分段线性预测函数的枢轴点包括：

基于场景重要度直方图来确定两个或更多个选择的峰值位置；以及

将枢轴点选择为两个连续的选择的峰值位置之间的中点。

EEE 8.根据EEE 7所述的方法，其中，确定两个或更多个选择的峰值位置包括：

对场景重要度直方图进行滤波以生成滤波的直方图；

识别滤波的直方图中的在明亮阈值之后的一个或更多个峰值；以及

将所识别的一个或更多个峰值当中的M个最高的峰值确定为所选择的峰值位置。

EEE 9.根据EEE 7所述的方法，还包括：

将分段线性预测函数的第一枢轴点确定为像素值0；

将分段线性预测函数的第二点确定为等于明亮阈值的像素值；以及

将分段线性预测函数的最后枢轴点确定为像素值2^b-1，其中，b表示第二位深度。

EEE 10.根据EEE 1所述的方法，其中，基于被除以段的长度的所述段中场景重要度直方图值的总和来计算段中的能量测量。

EEE 11.根据EEE 1所述的方法，还包括：

针对第二组图像中的每个图像：

将分段线性预测函数应用于图像以生成预测图像；

基于预测图像和第一组图像中的对应图像来生成残差图像；

将掩蔽函数应用于残差图像以生成增强层图像，其中，掩蔽函数基于线性预测函数中的段的斜率；以及

压缩增强层图像以生成编码的增强层信号。

EEE 12.根据EEE 11所述的方法，其中，应用掩蔽函数包括：

针对残差图像中的每个像素值：

确定生成预测图像中的对应像素的段的斜率是否为1；以及

如果斜率为1，则将残差图像中的像素设置为0。

EEE 13.根据EEE 1所述的方法，还包括：

基于场景重要度直方图针对分段线性函数中的每个段计算增强层中的比特率测量；以及

基于比特率限制、段中的比特率测量以及段中的能量测量来确定每个段的斜率。

EEE 14.根据EEE 13所述的方法，其中，基于段内的场景重要度直方图值的总和来计算段的比特率测量。

EEE 15.一种设备，包括处理器并且被配置成执行根据EEE 1至EEE 14所述的方法中的任一方法。

EEE 16.一种非暂态计算机可读存储介质，其上存储有使用一个或更多个处理器用于执行根据EEE 1至EEE 14中任一项所述的方法的计算机可执行指令。

Claims

1.一种生成用于高动态范围视频数据的位深度可缩放编码的分段线性层间预测函数的方法，所述方法包括：

使用处理器访问具有第一位深度的第一组图像(102)；

使用所述处理器访问具有第二位深度的对应的第二组图像(135)，其中，所述第二位深度低于所述第一位深度，并且所述第一组图像和所述第二组图像表示同一场景；

针对所述第二组中的至少一个图像：

对所述第二组中的图像进行滤波以生成第一滤波图像；

对所述第一组中的对应图像进行滤波以生成第二滤波图像；

基于所述第一滤波图像和所述第二滤波图像计算(310)帧重要度像素图，其中，基于乘以所述第一组中的对应图像中的对应像素的亮度值的所述第一滤波图像和所述第二滤波图像中的对应的像素值之间的绝对差来计算所述第二组中的图像中的像素的帧重要度像素图值；以及

基于所述帧重要度像素图来计算(315)帧重要度直方图；

基于所述第二组中的图像的一个或更多个计算的帧重要度直方图来生成场景重要度直方图(320)；以及

基于所述场景重要度直方图来确定分段线性层间预测函数的段的斜率，其中，所述分段线性层间预测函数中的段的斜率与在所述场景重要度直方图下所述段中的能量测量成反比，其中基于所述段中的场景重要度直方图值的总和来计算所述能量测量。

2.根据权利要求1所述的方法，其中，所述第一位深度是12位或更高，并且/或者所述第二位深度是10位。

3.根据权利要求2所述的方法，其中，在给定所述第一组图像中的图像的情况下，通过选择所述第一组中的所述图像的每个像素分量中的10个最高有效位来生成所述第二组图像中的对应图像。

4.根据前述权利要求中任一项所述的方法，其中，使用熵滤波器来计算所述第一滤波图像和所述第二滤波图像。

5.根据前述权利要求中任一项所述的方法，其中，所述场景重要度直方图被计算成针对所述第二组中的一个或更多个图像计算的帧重要度直方图的平均。

6.根据前述权利要求中任一项所述的方法，包括：

基于所述场景重要度直方图的明亮阈值和峰值位置来确定所述分段线性层间预测函数的枢轴点。

7.根据权利要求6所述的方法，其中，确定所述分段线性层间预测函数的所述枢轴点包括：

基于所述场景重要度直方图来确定两个或更多个选择的峰值位置；以及

将枢轴点选择为两个连续的选择的峰值位置之间的中点。

8.根据权利要求7所述的方法，其中，确定两个或更多个选择的峰值位置包括：

对所述场景重要度直方图进行滤波以生成经滤波的直方图；

识别所述经滤波的直方图中的在所述明亮阈值之后的一个或更多个峰值；以及

将所识别的一个或更多个峰值中的M个最高的峰值确定为所选择的峰值位置。

9.根据权利要求7所述的方法，还包括：

将所述分段线性层间预测函数的第一枢轴点确定为像素值0；

将所述分段线性层间预测函数的第二点确定为等于所述明亮阈值的像素值；以及

将所述分段线性层间预测函数的最后枢轴点确定为像素值2^b-1，其中，b表示所述第二位深度。

10.根据前述权利要求中任一项所述的方法，其中，基于被除以段的长度的所述段中场景重要度直方图值的总和来计算所述段中的所述能量测量。

11.根据前述权利要求中任一项所述的方法，还包括：

基于所述场景重要度直方图针对所述分段线性函数中的每个段计算增强层中的比特率测量；以及

基于比特率限制、所述段中的所述比特率测量以及所述段中的所述能量测量来确定每个段的斜率。

12.根据权利要求11所述的方法，其中，基于所述段内的场景重要度直方图值的总和来计算所述段的所述比特率测量。

13.一种用于对高动态范围视频数据进行编码的方法，包括：

根据权利要求1至12所述的方法来生成分段线性层间预测函数。

14.根据权利要求13所述的方法，包括：

针对所述第二组图像中的每个图像：

将所述分段线性层间预测函数应用于所述图像以生成预测图像；

基于所述预测图像和所述第一组图像中的对应图像来生成残差图像；

将掩蔽函数应用于所述残差图像以生成增强层图像，其中，所述掩蔽函数基于所述分段线性层间预测函数中的所述段的斜率；以及

压缩所述增强层图像以生成编码的增强层信号。

15.根据权利要求14所述的方法，其中，应用所述掩蔽函数包括：

针对所述残差图像中的每个像素值：

确定生成所述预测图像中的对应像素的所述段的斜率是否为1；以及

如果所述斜率为1，则将所述残差图像中的像素设置为0。

16.一种设备，包括处理器并且被配置成执行根据权利要求1至15所述的方法中的任一方法。

17.一种编码器，被配置成执行根据权利要求1至15所述的方法。

18.一种非暂态计算机可读存储介质，其上存储有用于使用一个或更多个处理器执行根据权利要求1至15中任一项所述的方法的计算机可执行指令。

19.一种比特流，包括根据权利要求1至15中任一项所述的方法可缩放编码的高动态范围视频数据。

20.一种包括缓冲器的解码器，所述缓冲器包括根据权利要求19所述的可缩放编码的视频数据的比特流。