CN112102166B

CN112102166B - 一种联合超分辨率、色域扩展和逆色调映射方法及设备

Info

Publication number: CN112102166B
Application number: CN202010871696.0A
Authority: CN
Inventors: 宋利; 甘文耀; 陈立; 解蓉
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-12-01
Anticipated expiration: 2040-08-26
Also published as: CN112102166A

Abstract

本发明提供一种联合超分辨率、色域扩展和逆色调映射方法及设备，其中：S1：将高分辨率、高色域和高动态范围的视频帧下转换为低分辨率、低色域和标准动态范围的视频帧，组成训练数据集和测试数据集；S2：基于局部残差学习和全局残差学习设计一个卷积神经网络；S3：使用所述训练数据集不断训练优化所述卷积神经网络，得到能完成联合超分辨率、色域扩展和逆色调映射的卷积神经网络；S4：将所述测试数据集中低分辨率、低色域和标准动态范围的视频帧输入至S3训练后得到的所述卷积神经网络，得到高分辨率、高色域和高动态范围的视频帧。本发明改善了现有方法的伪影问题，提高了主观和客观质量。

Description

一种联合超分辨率、色域扩展和逆色调映射方法及设备

技术领域

本发明涉及图像处理技术领域的方法，具体地说，涉及的是一种基于卷积神经网络的联合超分辨率、色域扩展和逆色调映射方法及设备。

背景技术

近年来，拍摄和显示技术迅速发展，市场上已经出现了大量消费级的高分辨率、高色域和高动态范围的摄像机和显示器。Recommendation ITU-R BT.2020标准对超高清电视的相关参数进行了定义，规定其分辨率为3840×2160或者7680×4320，量化位数为10比特或者12比特，而传统的符合Recommendation ITU-R BT.709标准的高清电视的分辨率为1920×1080，编码比特数为8比特或者10比特。Recommendation ITU-R BT.2020标准规定的色域大于Recommendation ITU-R BT.709规定的色域。Recommendation ITU-R BT.2100标准对高动态范围电视的相关参数进行了定义，规定了远大于标准动态范围电视的亮度显示范围。与传统的高清电视相比，高动态范围的超高清电视具有更高的分辨率、更高的动态范围、更宽的色域以及更高的量化位数，因此高动态范围的超高清电视相比于标准动态范围的高清电视，具有更清晰的画面、更多阴影和亮部的细节信息以及更加丰富的色彩。

虽然高分辨率、高色域和高动态范围的显示设备已经出现在消费市场，但是由于高分辨率、高色域和高动态范围的视频内容匮乏，需要将传统的低分辨率、低色域和标准动态范围视频上转换为高分辨率、高色域和高动态范围视频。

传统方法只是进行像素的一一映射，无法重建高频信息、纹理细节以及丰富的颜色。近几年出现的一些基于深度学习的方法存在伪影问题，因此主观质量不高。

发明内容

针对现有的联合超分辨率、色域扩展和逆色调映射方法的不足，本发明提供一种基于卷积神经网络的联合超分辨率、色域扩展和逆色调映射方法及设备，能够重建高频信息，恢复高光和阴影的细节，拓展色彩范围。

根据本发明的第一目的，提供一种联合超分辨率、色域扩展和逆色调映射方法，包括：

S1：将高分辨率、高色域和高动态范围的视频帧下转换为低分辨率、低色域和标准动态范围的视频帧，高分辨率、高色域和高动态范围的视频帧以及下转换后的低分辨率、低色域和标准动态范围的视频帧组成训练数据集和测试数据集；

S2：基于局部残差学习和全局残差学习设计一个卷积神经网络；

S3：使用所述训练数据集不断训练优化所述卷积神经网络，得到能完成联合超分辨率、色域扩展和逆色调映射的卷积神经网络；

S4：将所述测试数据集中低分辨率、低色域和标准动态范围的视频帧输入至S3训练后得到的所述卷积神经网络，得到高分辨率、高色域和高动态范围的视频帧。

可选地，所述S1中，建立数据集时：

从高分辨率、高色域和高动态范围视频帧中截取出多幅160×160分辨率的图像块作为训练数据，使用整个视频帧作为测试数据；

再将高分辨率、高色域和高动态范围的视频帧下转换为低分辨率、低色域和标准动态范围的视频帧，将得到的低分辨率、低色域和标准动态范围视频帧和高分辨率、高色域和高动态范围视频帧，组成对应的训练数据集和测试数据集。

可选地，所述下转换，其降采样方式为双三次插值，色调映射方式为Recommendation ITU-R BT.2390推荐的电电转换函数，色域转换方式为线性映射。

可选地，所述数据集包含多组低分辨率、低色域和标准动态范围视频帧以及对应的高分辨率、高色域和高动态范围视频帧用于训练模型，另外还有多组用于测试，其中高分辨率、高色域和高动态范围视频帧量化位数为10比特，分辨率为3840×2160，色域为BT.2020，电光转换函数为PQ；低分辨率、低色域和标准动态范围视频帧量化位数为8比特，分辨率为1920×1080，色域为BT.709，电光转换函数为BT.1886。

可选地，所述S2中，卷积神经网络同时利用了局部残差学习和全局残差学习。

可选地，所述S3中，使用所述训练数据集不断训练优化所述卷积神经网络，其中目标损失函数是L2损失函数。

根据本发明的第二目的，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行所述的联合超分辨率、色域扩展和逆色调映射方法。

与现有技术相比，本发明具有如下的有益效果：

本发明所述方法联合超分辨率、色域扩展和逆色调映射，相比于分别进行超分辨率、色域扩展和逆色调映射可以提高速度并减少多次操作造成的误差积累。

本发明所述方法同用卷积神经网络来弥补传统方法的不足，设计了一种基于局部残差学习和全局残差学习的卷积神经网络，从而达到了更好的主观和客观质量评价。

与广泛使用的非学习方法相比，本发明所述方法可以重建高频信息、纹理细节以及高饱和度的颜色，具有更好的主观和客观质量评价。

与近几年出现的一些基于深度学习的方法相比，本发明所述方可以减少伪影，因此主观质量较高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一实施例方法的流程图；

图2是本发明一实施例的下转换工作流；

图3是本发明一实施例中卷积神经网络的结构框图；

图4是本发明一实施例中生成结果与现有方法的效果对比。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

参照图1所示，本发明的基于卷积神经网络的联合超分辨率、色域扩展和逆色调映射方法的流程图，其设计思路为：

①读取原始高分辨率、高色域和高动态范围视频帧，剪切并下转换为低分辨率、低色域和标准动态范围视频帧组成有监督的数据集，用于③中训练和④中的测试；

②基于局部残差学习和全局残差学习设计一个卷积神经网络，经过③的训练即可完成联合超分辨率、色域扩展和逆色调映射操作，在④中测试结果；

③使用①中建立的训练数据集，根据目标损失函数进行训练优化得到能够进行联合超分辨率、色域扩展和逆色调映的卷积神经网络；

④将①中建立的用于测试的数据集输入至经①-③建立的卷积神经网络，得到上转换的高分辨率、高色域和高动态范围视频帧，并对输出结果进行评价。

其中第①、②步建立数据集和卷积神经网络，第③步通过设定的目标损失函数训练得到能完成联合超分辨率、色域扩展和逆色调映的卷积神经网络，第④步对训练得到的卷积神经网络进行评估。下面介绍联合超分辨率、色域扩展和逆色调映的卷积神经网络的建立过程。

以下通过具体实施例对上述各个步骤中涉及的详细技术操作进行说明，应当理解的是，以下仅仅是本发明部分实施例。

1.高分辨率、高色域和高动态范围视频帧以及对应低分辨率、低色域和标准动态范围视频帧的数据集的建立

数据集中已有的高分辨率、高色域和高动态范围视频的量化位数为10比特，分辨率为3840×2160，色域为BT.2020，电光转换函数为PQ；下转换后的低分辨率、低色域和标准动态范围图像的量化位数为8比特，分辨率为1920×1080，色域为BT.709，电光转换函数为BT.1886。参照图2所示，原始的高分辨率、高色域和高动态范围视频帧信号表示为[D′_Y,2020,D′_CB,2020,D′_CR,2020]，下转换后的低分辨率、低色域和标准动态范围视频帧信号表示为[d′_Y,709,DS,d′_CB,709,DS,d′_CR,709,DS]，具体的下转换工作流如下：

第一步，根据Recommendation ITU-R BT.2020，将10比特的数字亮度和色差信号[D′_Y,2020,D′_CB,2020,D′_CR,2020]反量化为归一化的亮度和色差信号[E′_Y,2020,E′_CB,2020,E′_CR,2020]：

E′_Y,2020＝(D′_Y,2020/4-16)/219 (1.1)

E′_CB,2020＝(D′_CB,2020/4-128)/224 (1.2)

E′_CR,2020＝(D′_CR,2020/4-128)/224 (1.3)

第二步，根据Recommendation ITU-R BT.2020，将亮度和色差信号[E′_Y,2020,E′_CB,2020,E′_CR,2020]转换为RGB信号[E′_R,2020,E′_G,2020,E′_B,2020]：

第三步，根据Recommendation ITU-R BT.2390推荐的电电转换函数(EETF)，将非线性的HDR RGB信号[E′_R,2020,E′_G,2020,E′_B,2020]进行色调映射为非线性的SDR RGB信号[e′_R,2020,e′_G,2020,e′_B,2020]：

e′_R,2020＝EETF(E′_R,2020) (3.1)

e′_G,2020＝EETF(E′_G,2020) (3.2)

e′_B,2020＝EETF(E′_B,2020) (3.3)

第四步，根据Recommendation ITU-R BT.2100，使用PQ电-光转换函数，将非线性的SDR RGB信号[e′_R,2020,e′_G,2020,e′_B,2020]转换为线性的SDR RGB信号[e_R,2020,e_G,2020,ex_,2020]：

e_R,2020＝EOTF_PQ(e′_R,2020) (4.1)

e_G,2020＝EOTF_PQ(e′_G,2020) (4.2)

e_B，2020＝EOTF_PQ(e′_B,2020) (4.3)

第五步，根据Recommendation ITU-R BT.709和Recommendation ITU-R BT.2020，将色域为BT.2020的RGB信号[e_R,2020,e_G,2020,e_B,2020]转换为色域为BT.709的RGB信号[e_R,709,e_G,709,e_B,709]：

第六步，根据Recommendation ITU-R BT.1886的电光转换函数的逆，将线性的RGB信号[e_R,709,e_G,709,e_B,709]转换为非线性RGB信号[e′_R,709,e′_G,709,e′_B,709]：

第七步，将分辨率为3840×2160的视频帧双三次插值降采样为分辨率为1920×1080的视频帧，[e′_R,709,DS,e′_G,709,DS,e′_B,709,DS]表示降采样后的信号。

第八步，根据Recommendation ITU-R BT.709，将RGB信号[e′_R,709,DS,e′_G,709,DS,e′_B,709,DS]转换为亮度和色差信号[e′_Y,709,DS,e′_CB,709,DS,e′_CR,709,DS]：

第九步，根据Recommendation ITU-R BT.709，将归一化的亮度和色差信号[e′_Y,709,DS,e′_CB,709,DS,e′_CR,709,DS]量化为8比特的数字亮度和色差信号[d′_Y,709,DS,d′_CB,709,DS,d′_CR,709,DS]：

d′_Y,709,DS＝round(219×e′_Y,709,DS+16) (8.1)

d′_CB,709,DS＝round(219×e′_CB,709,DS+128) (8.2)

d′_CR,709,DS＝round(219×e′_CR,709,DS+128) (8.3)

建立数据集时，通过FFmpeg从已有的高分辨率、高色域和高动态范围视频抽出单帧图像，从视频帧中截取出多幅160×160分辨率的图像块作为训练数据集，使用整个视频帧作为测试数据。然后使用本实施例上述的下转换工作流，将高分辨率、高色域和高动态范围的视频帧下转换为低分辨率、低色域和标准动态范围的视频帧，将得到的低分辨率、低色域和标准动态范围视频帧和高分辨率、高色域和高动态范围视频帧归一化为[0,1]之间的RGB信号，组成对应的训练数据集和测试数据集。

2.卷积神经网络的建立

卷积神经网络同时利用了局部残差学习和全局残差学习。

在一优选实施例中，网络结构如图3所示，其中Conv表示卷积层，卷积核大小是3×3，除了最后一个卷积层滤波器数量为3，其他的卷积层滤波器数量都为64；ReLU表示线性整流激活层；ResBlock表示残差块，一个ResBlock由两个Conv、一个Relu和一个局部跳跃连接构成；Shuffle表示元素重排层。

具体的，卷积神经网络由5个部分组成：浅层特征提取模块、深层特征提取模块、放大模块、全局跳跃连接模块和重建模块。

浅层特征提取模块由第一个卷积层构成，它可以提取输入视频帧的浅层特征；高层特征提取模块由16个残差块和一个卷积层构成。它可以进一步提取特征图的深层特征；放大模块由一个卷积层和一个元素重排层组成，它将输入的特征图放大到目标分辨率；全局跳跃连接模块为下转换工作流的逆，它可以保留输入视频帧的主体信息；重建模块由最后第一个卷积层构成，它可以从深层特征中重建输入视频帧丢失的高频、颜色和对比度信息。将全局跳跃连接模块的输出与重建模块的输出相加，就可以生成高分辨率、高色域和高动态范围视频帧。高层特征提取模块利用了局部残差学习，全局跳跃连接模块利用了全局残差学习，将局部残差学习和全局残差学习相结合，可以缓解深度卷积神经网络训练的困难。

3.设定目标损失函数并训练网络，得到能完成联合超分辨率、色域扩展和逆色调映射的卷积神经网络

目标损失函数为L2损失函数：

其中n表示训练样本数，f表示卷积神经网络的映射，x_i表示第i个输入视频帧，θ表示模型参数，y_i表示第i个原生高分辨率、高色域和高动态范围视频帧。

4.实施条件与结果评估

在本发明部分实施例中，代码实现由Python完成，框架使用PyTorch。在训练过程中，每次迭代的批次数量选取为16，一共迭代320次样本集，优化方法选择Adam，初始学习速率设置为10^-6，然后在迭代到第200和第300次样本集时，将学习速率除以10。

评价指标采用评价模型复杂度的参数量、评价图像像素差异的PSNR和评价图像结构差异的SSIM。参数量越低说明模型消耗的资源越少，PSNR和SSIM越高说明客观质量评价越高。

表1本发明实施例与现有方法的效果对比

表1中给出了本发明实施例得出的结果与现有方法的结果评价指标对比，其中原始Deep SR-ITM是原始模型，该模型的训练数据集与本发明实施例的训练数据集不同，重训练的Deep SR-ITM是使用Deep SR-ITM的源代码在本发明实施例的训练数据集上重新训练的模型。从结果来看，本发明实施例的结果在参数量最少的情况下具有最高的PSNR和SSIM，可以认为本发明提出的方法相对于现有方法在客观质量评价上有提升，结果实例可以参照图4。

图4是本发明实施例的结果与现有方法的结果对比，可以看出本发明生成的结果有着更少的伪影，更接近原生高分辨率、高色域和高动态范围视频帧。

在本发明另一实施例中，还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时可用于执行上述任一项实施例的联合超分辨率、色域扩展和逆色调映射方法。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种联合超分辨率、色域扩展和逆色调映射的方法，其特征在于，包括：

S4：将所述测试数据集中低分辨率、低色域和标准动态范围的视频帧输入至S3训练后得到的所述卷积神经网络，得到高分辨率、高色域和高动态范围的视频帧；

所述下转换，其降采样方式为双三次插值，色调映射方式为Recommendation ITU-RBT.2390推荐的电电转换函数，色域转换方式为线性映射；

所述下转换，工作流程包括：

S101，高分辨率、高色域和高动态范围视频的量化位数为10比特，根据RecommendationITU-R BT.2020，将10比特的数字亮度和色差信号反量化为归一化的亮度和色差信号；

S102，根据Recommendation ITU-R BT.2020，将S101得到的亮度和色差信号转换为非线性的RGB信号；

S103，根据Recommendation ITU-R BT.2390推荐的电电转换函数EETF，将非线性的HDRRGB信号进行色调映射为非线性的SDR RGB信号；

S104，根据Recommendation ITU-R BT.2100，使用PQ电-光转换函数，将S102得到的非线性的SDR RGB信号转换为线性的SDR RGB信号；

S105，根据Recommendation ITU-R BT.709和Recommendation ITU-R BT.2020，将色域为BT.2020的线性的RGB信号转换为色域为BT.709的RGB信号；

S106，根据Recommendation ITU-R BT.1886的电光转换函数的逆，将S105得到的线性的RGB信号转换为非线性RGB信号；

S107，将分辨率为3840×2160的视频帧双三次插值降采样为分辨率为1920×1080的视频帧，得到降采样后的RGB信号；

S108，根据Recommendation ITU-R BT.709，将S107得到的降采样后的RGB信号转换为亮度和色差信号；

S109，根据Recommendation ITU-R BT.709，将归一化的S108得到的亮度和色差信号量化为8比特的数字亮度和色差信号；

所述S2中，卷积神经网络同时利用了局部残差学习和全局残差学习；

所述卷积神经网络由浅层特征提取模块、深层特征提取模块、放大模块、全局跳跃连接模块和重建模块，其中，

浅层特征提取模块由第一个卷积层构成，用于提取输入视频帧的浅层特征；

高层特征提取模块由16个残差块和一个卷积层构成，进一步提取特征图的深层特征；

放大模块由一个卷积层和一个元素重排层组成，它将输入的特征图放大到目标分辨率；

全局跳跃连接模块为下转换工作流的逆，它保留输入视频帧的主体信息；

重建模块由最后第一个卷积层构成，它从深层特征中重建输入视频帧丢失的高频、颜色和对比度信息；

将全局跳跃连接模块的输出与重建模块的输出相加，生成高分辨率、高色域和高动态范围视频帧；

高层特征提取模块利用了部残差学习，全局跳跃连接模块利用全局残差学习，将局部残差学习和全局残差学习相结合，能缓解深度卷积神经网络训练的困难。

2.根据权利要求1所述的联合超分辨率、色域扩展和逆色调映射的方法，其特征在于：所述S1中，建立数据集时：

3.根据权利要求1所述的联合超分辨率、色域扩展和逆色调映射的方法，其特征在于：所述数据集包含多组低分辨率、低色域和标准动态范围视频帧以及对应的高分辨率、高色域和高动态范围视频帧用于训练模型，另外还有多组用于测试，其中：高分辨率、高色域和高动态范围视频帧量化位数为10比特，分辨率为3840×2160，色域为BT.2020，电光转换函数为PQ；低分辨率、低色域和标准动态范围视频帧量化位数为8比特，分辨率为1920×1080，色域为BT.709，电光转换函数为BT.1886。

4.根据权利要求1所述的联合超分辨率、色域扩展和逆色调映射的方法，其特征在于：将得到的低分辨率、低色域和标准动态范围视频帧和高分辨率、高色域和高动态范围视频帧归一化为[0,1]之间的RGB信号，组成对应的训练数据集和测试数据集。

5.根据权利要求1-4任一项所述的联合超分辨率、色域扩展和逆色调映射的方法，其特征在于：所述S3中，使用所述训练数据集不断训练优化所述卷积神经网络，其中目标损失函数是L2损失函数。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行权利要求1-4任一所述的方法。