CN110717868B

CN110717868B - 视频高动态范围反色调映射模型构建、映射方法及装置

Info

Publication number: CN110717868B
Application number: CN201910840429.4A
Authority: CN
Inventors: 宋利; 徐宇澄; 解蓉; 张文军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2022-05-03
Anticipated expiration: 2039-09-06
Also published as: CN110717868A

Abstract

本发明提供一种视频高动态范围反色调映射模型构建方法，包括：将原始高动态范围视频剪切为多个高动态范围视频，频转化为标准动态范围视频，与高动态范围视频组成有监督的数据集，作为后续的训练数据集；建立基于三维卷积神经网络和跳跃式连接的视频生成网络；对所述视频生成网络建立由空间特征、时域特征、本征特征和感知特征综合的目标损失函数，采用所述训练数据集不断训练优化，得到最终网络模型。本发明还提供了对应的构建装置，以及视频高动态范围反色调映射方法。本发明改善视频闪烁问题，并考虑到高动态范围视频的空间特性，本征特性以及时域特性，更好地实现了对高动态范围视频的反色调映射。

Description

视频高动态范围反色调映射模型构建、映射方法及装置

技术领域

本发明涉及一种视频处理技术领域的方法，具体是一种视频高动态范围反色调映射模型构建方法及装置，以及利用构建的模型进行映射的方法。

背景技术

在当今的电视显示和拍摄技术领域里，高动态范围(HDR)无疑是一大趋势，超高清电视(UHD TV)标准也将高动态范围技术纳入其中。高动态范围技术从亮度和颜色两方面提升了图像与视频的观看体验。在高动态范围的作用下，图像与视频的全局与局部对比度相比传统图像与视频有很大程度的提升，在明亮区域以及阴暗区域的细节也能得到提升。与此同时，画面的颜色范围也会被扩大，由应用广泛的标准色域BT.709标准扩大至广色域BT.2020标准。亮度是高动态范围的关键：市面上大多数的电视亮度在400尼特左右，部分机型达到了750尼特。但高动态范围电视的最高亮度可达1000尼特，亮度的提升可让场面显得更加真实，特别是户外场景。由于高动态范围内容的拍摄要求和拍摄代价极高，很难通过直接拍摄制作大量的高动态范围内容，因此利用现有的标准动态范围内容制作高动态范围内容成为一个很有价值的方向，这种转换被成为反色调映射。

现有的基于学习的图像反色调映射方法应用到视频上面时会产生闪烁的现象，极大地影响了观看的体验。

本申请人之前申请的发明专利：基于生成对抗网络的高动态范围反色调映射方法及***，申请号：201810299749.9，通过采用基于卷积神经网络和跳跃式连接的生成对抗网络，改善了现有的非学习方法的非线性不足、参数调节复杂等问题，并考虑到高动态范围图像的一维特性和梯度特性。但是上述专利没有考虑闪烁现象等，需要通过对视频连续的帧之间进行时域约束来减小闪烁的现象。

发明内容

本发明针对现有的反色调映射技术的缺陷，提供一种基于三维卷积网络的视频高动态范围反色调映射方法，该方法通过三维卷积网络约束视频的时域信息，消除了闪烁现象，有更好的视觉效果。

本发明的第一目的是提供一种视频高动态范围反色调映射模型构建方法，包括：

将原始高动态范围视频剪切为多个高动态范围视频，将所述高动态范围视频转化为标准动态范围视频，所述标准动态范围视频与所述高动态范围视频组成有监督的数据集，作为后续的训练数据集；

建立基于三维卷积神经网络和跳跃式连接的视频生成网络；

对所述视频生成网络建立由空间特征、时域特征、本征特征和感知特征综合的目标损失函数，采用所述训练数据集不断训练优化，得到能完成反色调映射的网络模型。

优选地，所述数据集中部分还可以作为验证数据集，将所述验证数据集输入至所述能完成反色调映射的网络模型，映射得出高动态范围视频，用于评估。

优选地，所述有监督的数据集，建立时：

将所述原始高动态范围视频按场景截取为数个短的所述高动态范围视频；

将所述高动态范围视频分块切割成低分辨率的短视频，将高动态范围的所述短视频映射为标准动态范围视频，形成有监督训练对，用于后续训练或验证。

优选地，将高动态范围的所述短视频映射为标准动态范围视频，其中：使用Reinhard色调映射算法实现。

优选地，所述数据集包含多组标准动态范围和高动态范围对应的视频用于训练所述视频生成网络，在训练前，采用进行逆伽玛映射预处理输入的标准动态范围视频，形成线性亮度的标准动态范围视频后再输入所述视频生成网络进行训练。进一步的，所述逆伽玛映射预处理，其中：图像的伽玛值若已知，则使用已知的图像伽玛值，如果未知，则使用默认的γ＝2.2。

优选地，所述视频生成网络为带有跳跃链接的编码器-解码器形式，编码器与解码器之间是由残差块组成的瓶颈层；其中：

编码器每级包含依次连接的三维卷积层、三维批归一化层以及三维最大池化层；解码器每级包含依次连接的三维反卷积层，三维卷积层以及三维批归一化层；

编码器与解码器之间的瓶颈层，其中每个残差块包含依次连接的三维卷积层、三维批归一化层以及跳跃链接；其中，编码器的第i级与解码器的第i级有跳跃式连接，1i≤n，n为总级数。

优选地，所述由空间特征、时域特征、本征特征和感知特征综合的目标损失函数

为：

其中，V_H、

分别表示经过网络生成的高动态范围视频和对应的目标高动态范围视频输出，

表示视频整体的内容损失，其中包含了空间特征与时域特征，

表示本征损失，

为感知损失，α,β是超参数，控制三种损失的比重。

优选地，所述

通过整个视频序列的均方误差进行计算；

被写为：

I_ill,I_ref分别表示每一帧图像经过本征图分解后得到的照度图与反射图，i表示视频中的第i帧；V_H、

分别表示经过网络生成的高动态范围视频和对应的目标高动态范围视频输出。

本发明的第二目的是提供一种视频高动态范围反色调映射模型构建装置，包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器用于调取所述程序指令以执行上述任一项的视频高动态范围反色调映射模型构建方法。

本发明的第三目的是提供一种视频高动态范围反色调映射方法，采用上述的能完成反色调映射的网络模型；具体的，包括：

将待映射视频输入能完成反色调映射的网络模型；

所述能完成反色调映射的网络模型映射得出高动态范围视频。

本发明在考虑到图像空间特征的同时，还考虑到了视频连续帧之间的时域特征，同时使用三维卷积操作使得网络兼顾了相邻帧，约束了时域信息，消除了闪烁现象；通过对视频帧进行本征图分解，能够对帧的亮度信息与色度信息进行分别的约束，进而优化了亮度与颜色的准确性；感知特征的引入也使得视频看起来更加真实。

与现有技术相比，本发明具有如下至少一种有益效果：

本发明所述方法和装置在考虑了现有的基于学习方法的图像逆色调映射算法的同时，也兼顾了时域信息，生成的视频具有更好的时间连续性，消除了闪烁现象，提供了更好的视觉效果。

与非学习方法相比，本发明所述方法和有着更好的非线性性能和多尺度变换性能。在保证了反色调映射的理论完整同时，提高了映射结果的视觉效果和客观评价指标。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例视频高动态范围反色调映射模型构建方法的流程图；

图2是本发明一优选实施例的视频高动态范围反色调映射模型构建方法的流程图；

图3是本发明一实施例中三维卷积网络的网络结构框图；

图4是本发明一实施例中生成结果与现有方法的效果对比。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

图1为本发明一实施例的视频高动态范围反色调映射模型构建方法的流程图。参照图1所示，包括：

S1：将原始高动态范围视频剪切为多个高动态范围视频，将高动态范围视频转化为标准动态范围视频，标准动态范围视频与高动态范围视频组成有监督的数据集，作为后续的训练数据集；

S2：建立基于三维卷积神经网络和跳跃式连接的视频生成网络；

S3：对视频生成网络建立由空间特征、时域特征、本征特征和感知特征综合的目标损失函数，采用训练数据集不断训练优化，得到能完成反色调映射的网络模型。

参照图2所示，为本发明一优选实施例的视频高动态范围反色调映射模型构建方法的流程图，其设计思路为：

①读取原始高动态范围视频，剪切并转化为标准动态范围视频，与高动态范围视频组成有监督的数据集，用于③中训练和④中的验证；

②以三维卷积卷积神经网络为基础，建立网络模型，得到的网络经过③的训练即可完成视频反色调映射操作，以进行过逆伽玛变换的线性亮度标准动态范围视频为输入，在④中验证结果；

③建立由空间特征，本征特征，时域特征与感知特征综合的目标损失函数，采用①中建立的训练数据集，不断训练优化得到可以完成视频反色调映射的三维卷积网络模型；

④将①中建立的用于验证的数据集输入至经①-③建立的三维卷积网络模型，映射得出高动态范围视频，并对输出结果进行评价。

其中第①、②步建立数据集和三维卷积网络，第③步通过设定的目标损失函数训练得到能完成视频反色调映射的网络模型，第④步对训练得到的网络模型进行评估。

本发明上述实施例的视频高动态范围反色调映射模型构建方法中，在考虑到图像空间特征的同时，还考虑到了视频连续帧之间的时域特征，同时使用三维卷积操作使得网络兼顾了相邻帧，约束了时域信息，消除了闪烁现象；通过对视频帧进行本征图分解，能够对帧的亮度信息与色度信息进行分别的约束，进而优化了亮度与颜色的准确性；感知特征的引入也使得视频看起来更加真实。通过这些设定，在使用建立的训练数据集充分训练三维卷积网络之后，可以达到很好的视觉效果和评价得分，并且能够消除闪烁现象。进一步的，通过对映射模型的验证评估，能更好完善模型的训练效果。

为了更好地理解上述技术方案，以下通过具体实施例对上述视频高动态范围反色调映射网络模型的建立的各个步骤涉及的详细技术操作进行说明，应当理解的是，以下仅仅是本发明部分实施例。

1.数据集的建立

建立数据集时，将已有的HDR视频按场景，选择连续的一些帧构成短视频序列，并通过切割构成低分辨率视频；使用Reinhard色调映射算法，将高动态范围图像转化为标准动态范围图像，组成一一对应的数据集用于训练和验证。

比如，本发明部分实施例中，可以通过HDRTools将已有的HDR视频按场景分块切割成低分辨率的视频。从4K分辨率的视频中截取出多段长度为21帧，512×512分辨率的高动态范围视频作为数据集中的高动态范围数据，再使用Reinhard色调映射算法，将高动态范围视频转化为标准动态范围视频，组成一一对应的数据集用于训练和验证。

建立的数据集包含多组标准动态视频和高动态范围对应的视频，用于训练模型，或者，多组中一部分用于训练，另外一部分用于验证。

在本发明部分实施例中，为了能够得到高质量的高动态范围视频，选用现有的高质量高动态范围演示片，其具有如下特征：10bit量化的exr格式文件、1000尼特峰值亮度、色域符合BT.2020标准，PQ曲线处理、使用HEVCMain10编码，颜色空间为YUV，采样率为4:2:0。然后通过HDRTools工具箱将以上选用视频按场景剪切为单帧3840×2160的图像，并切割成512×512分辨率，颜色空间转化为RGB空间。通过提取连续帧得到数据集中的高动态范围视频。

进一步的，建立监督学习数据集中对应的标准动态范围视频时，标准动态范围内容使用Reinhard色调映射算子得到，映射得到的标准动态范围内容具有如下特征：连续的多帧8bit量化的png格式文件、100尼特峰值亮度、色域符合BT.709标准、颜色空间为RGB。

将得到的标准动态范围视频和高动态范围视频线性归一化到[0,1]之间，所得到的数据集中，训练数据集由360组视频构成，每组视频包含21帧，验证数据集由30组视频构成。

比如在一优选实施例中，高动态范围视频可以是21帧10比特量化的exr格式文件，使用BT.2020标准色域，最高亮度为1000尼特；标准动态范围视频可以是21帧8比特量化的png格式文件，使用BT.709标准色域，最高亮度为100尼特。

以上数据集为本发明部分实施例时使用，也可选取其他高动态范围视频与其对应的标准动态范围视频构成数据集，但是需要使用同样的量化位数、色域范围和最高亮度。

2.三维卷积网络的建立

三维卷积网络整体为带有跳跃链接的编码器-解码器形式，编码器与解码器之间是由残差块组成的瓶颈层。将线性亮度的标准动态范围视频输入网络，得到预测的高动态范围视频输出。

设计网络时，其主要目的是通过编码器提取标准动态范围视频的深层空间与时域特征来代表整个视频，然后再由解码器通过这些特征重构出高动态范围视频，跳跃链接将编码器对应级的特征传递到解码器，辅助重建过程。因此本发明实施例中的编码器-解码器结构，输入的标准动态范围视频通过连续的三维卷积层不断的提取特征，这之中卷积层的卷积核大小不变，其通道数不断增加，每个通道的大小逐渐缩小，从而达到特征提取的操作，其过程类似于视频信息的编码。随后，解码器使用得到的深层特征通过与卷积层对应的去卷积层，不断地还原高动态范围信息，图像通道还原为RGB三通道，其过程类似于视频信息的解码。

具体的，三维卷积网络的编码器有四级，每级包含两层三维卷积层，一层三维批归一化层以及一层三维最大池化层；解码器同样有四级，每级包含一层三维反卷积层，两层三维卷积层以及一层三维批归一化层；编码器与解码器之间的瓶颈层由五个残差块构成，每个残差块包含两个三维卷积层，一个三维批归一化层以及一个跳跃链接；其中，编码器的第i级与解码器的第i级有跳跃式连接，1≤i≤4。

参照图3所示，为一实施例的三维卷积网络的网络结构的示意图，图中conv表示卷积层，deconv表示去卷积层，k为卷积核大小，n表示通道数，s表示stride大小，FC表示全连接层。其中：编码器-解码器网络是一种U-NET结构，所述结构的编码器有四级，每级包含两层三维卷积层，一层三维批归一化层以及一层三维最大池化层，每级的卷积层的通道数分别为32、64、128、256；解码器同样有四级，每级包含一层三维反卷积层，两层三维卷积层以及一层三维批归一化层，每级的反卷积层和卷积层的通道数为256，128,64,32；编码器与解码器之间的瓶颈层由五个残差块构成，每个残差块包含两个三维卷积层，一个三维批归一化层以及一个跳跃链接，卷积层的通道数为512；其中，编码器的第i级与解码器的第i级有跳跃式连接，1≤i≤4。使用的所有三维卷积层和三维反卷积层的卷积核的大小都是3×3，stride为1，使用SAME padding，以RELU作为激活函数。

3.设定目标函数并训练网络，得到能完成视频反色调映射的网络模型

为了在S3所述训练中使用，连续的帧在训练前被读取，进行逆伽玛映射，构成线性亮度的视频序列后再输入网络进行训练。如果图像的伽玛值已知，则使用已知的图像伽玛值，如果未知，则使用默认的γ＝2.2。这样，通过采用消除伽玛曲线的方法预处理输入的标准动态范围视频，使得网络的输入近似符合线性场景亮度，进而提升了网络的准确性，使得网络生成的高动态范围视频的颜色更加准确。

网络的训练原理是通过训练优化，使得网络的输出能够与真实的视频更一致。在训练过程中，网络的输出与真实视频经过损失函数得到的误差，通过反向传播的方式，将梯度损失传递给网络的每一层，更新其中的参数。损失函数约束了生成的视频与真实视频之间的空间特征，时域特征，本征特征和感知特征。目标损失函数包含三部分，该损失函数如下所示：

其中，V_H、

表示本征损失，

为感知损失，α,β是超参数，控制三种损失的比重。在部分实施例中，α可以设置为10^-2，β可以设置为10^-1，在训练时进行微调，以保证

比

高一个数量级。

通过整个视频序列的均方误差进行计算。

被写为：

I_ill,I_ref分别表示每一帧图像经过本征图分解后得到的照度图与反射图。i表示视频中的第i帧。V_H、

比如在一实施例中，本征图分解是使用高斯低通滤波器在对数域对图像进行滤波，得到照度图；再与原图相减，得到对数域的反射图。

表示为：

其中φ₄表示在ImageNet数据集上预训练好的VGG-19网络第四层池化层的输出，H_i与

分别表示经过网络生成的高动态范围视频和对应的目标高动态范围视频的第i帧。当然，在其他实施例中，也可以采用其他的本征图分解技术。

通过将标准动态视频输入网络，得到生成的高动态范围视频，该视频与真实的高动态范围视频输入上述损失函数得到误差，使用该误差训练优化网络。

以上训练完成后，得到能完成视频反色调映射的网络模型。

在另一实施例中，还提供一种高动态范围反色调映射方法，即：得到上述能完成视频反色调映射的网络模型后，将待映射的视频输入该模型，即可完成能完成视频反色调映射。

在另一实施例中，还提供一种高动态范围反色调映射模型构建装置，包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器用于调取所述程序指令以执行图1、图2所述的基于三维卷积网络的视频高动态范围反色调映射方法。

反色调映射网络输出的高动态范围视频的像素点的取值不仅由当前位置的标准动态范围像素点和其周围的像素点的变化趋势相关，还与相邻帧之间对应区域的像素点的取值与变化趋势相关。因此使用对相邻的三帧对应区域计算像素之间的差异与梯度特征，上述优选实施例中使用的是2范数，同时使用三维卷积操作使得网络兼顾了相邻帧，约束了时域信息，进一步消除了闪烁现象。

4.实施条件与结果评估

在本发明部分实施例中，代码实现由Python完成，框架使用Pytorch。训练过程中，选取的每次迭代的批次大小为1，优化方法选择Adam，其学习率由10^-3起始，随着迭代次数的增加不断减小。目标函数中的参数设置，α设置为10^-2，β设置为10^-1。

高动态范围视频的评价指标与标准动态范围视频不同，一般采用HDR-VDP-2来进行客观评价，其质量分数反映的是生成的高动态范围视频相对于原生的高动态范围视频质量下降的程度，通过一个平均主观意见分得到对输出结果的客观评价指标。除此之外，评价指标也引入了mPSNR来评价像素级别的质量和SSIM来评价生成图像的结构相关性。

表1本发明实施例与现有方法的效果对比

表1中给出了本发明实施例得出的结果与现有方法的结果评价指标对比，其中Huo，Akyuz是非学习方法，其参数设定除图像属性外，均按照默认设定执行；DrTM与HDR-GAN为基于学习的方法，其代码实现来源于作者。从结果来看，本发明实施例的结果在三种评价指标中都具有最高的得分，可以认为本发明提出的方法相对于现有方法在生成质量上有提升，结果实例可以参照图4。

图4是本发明实施例的结果与现有方法的结果对比，可以看出本发明的结果有着更好的颜色表现，并且更接近原生的高动态范围视频。

本发明所述方法和装置改善了现有的图像反色调映射技术应用到视频时产生的闪烁现象，并考虑到高动态范围视频的空间特性，时域特性，本征特性以及感知特性，更好的实现了对高动态范围的反色调映射。

以上对本发明的具体实施例进行的描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种视频高动态范围反色调映射模型构建方法，其特征在于，包括：

建立基于三维卷积神经网络和跳跃式连接的视频生成网络；

2.根据权利要求1所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述有监督的数据集，建立时：

将所述高动态范围视频分块切割成低分辨率的短视频，将高动态范围的所述短视频映射为标准动态范围视频，形成有监督训练对。

3.根据权利要求2所述的视频高动态范围反色调映射模型构建方法，其特征在于：将高动态范围的所述短视频映射为标准动态范围视频，其中：使用Reinhard色调映射算法实现。

4.根据权利要求1所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述数据集包含多组标准动态范围和高动态范围对应的视频用于训练所述视频生成网络，在训练前，采用进行逆伽玛映射预处理输入的标准动态范围视频，形成线性亮度的标准动态范围视频后再输入所述视频生成网络进行训练。

5.根据权利要求4所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述逆伽玛映射预处理，其中：图像的伽玛值若已知，则使用已知的图像伽玛值，如果未知，则使用默认的γ＝2.2。

6.根据权利要求1所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述视频生成网络为带有跳跃链接的编码器-解码器形式，编码器与解码器之间是由残差块组成的瓶颈层；其中：

编码器与解码器之间的瓶颈层，其中每个残差块包含依次连接的三维卷积层、三维批归一化层以及跳跃链接；其中，编码器的第i级与解码器的第i级有跳跃式连接，1≤i≤n，n为总级数。

7.根据权利要求1所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述由空间特征、时域特征、本征特征和感知特征综合的目标损失函数

为：

其中，V_H、

表示本征损失，

为感知损失，α,β是超参数，控制三种损失的比重。

8.根据权利要求7所述的视频高动态范围反色调映射模型构建方法，其特征在于：所述

通过整个视频序列的均方误差进行计算；

被写为：

9.一种视频高动态范围反色调映射模型构建装置，包括：处理器和存储器，其特征在于：所述存储器中存储有程序指令，所述处理器用于调取所述程序指令以执行权利要求1-8中任一项所述的视频高动态范围反色调映射模型构建方法。

10.一种视频高动态范围反色调映射方法，采用上述权利要求1-8任一项所述方法得到的能完成反色调映射的网络模型。