CN115115516A

CN115115516A - 基于Raw域的真实世界视频超分辨率算法

Info

Publication number: CN115115516A
Application number: CN202210733861.5A
Authority: CN
Inventors: 岳焕景; 张芝铭; 杨敬钰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-27
Anticipated expiration: 2042-06-27
Also published as: CN115115516B

Abstract

本发明公开了基于Raw域的真实世界视频超分辨率算法，涉及视频信号处理技术领域。基于Raw域的真实世界视频超分辨率算法，包括如下步骤：S1、建立真实世界Raw视频超分辨率数据集；S2、基于S1设计真实世界Raw视频超分辨率算法；S3、训练模型；S4、将测试集中的低分辨率的Raw视频序列输入到模型中，得到相应的超分辨率的输入结果；本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集，它为真实原始VSR方法的训练和评估提供了基准数据集；本发明通过利用所提出的联合对齐交互模块，以及时间、通道融合模块，将真实LR视频超分辨率性能提升到了新的高度。

Description

基于Raw域的真实世界视频超分辨率算法

技术领域

本发明属于视频信号处理技术领域，涉及一种基于Raw域的真实世界视频超分辨率算法。

背景技术

用短焦镜头捕捉视频可以通过牺牲分辨率来扩大视角，而用长焦镜头捕捉可以通过牺牲视角来提高分辨率；视频超分辨率(VSR)是获取广角和高分辨率(HR)视频的有效方式；视频超分辨率通过探索输入序列的空间和时间相关性，从低分辨率(LR)输入重构高分辨率视频；近年来，视频超分辨率的发展已经从传统的模型驱动转向基于深度学习的方法。

这些基于深度学习的SR方法的性能在很大程度上取决于训练数据集，考虑到合成的LR-HR数据集，例如DIV2K和REDS，不能表示真实捕获的LR图像和HR图像之间的退化模型，因此构建了许多真实的SR数据集以提高现实世界的SR性能；然而，这些数据集大部分是针对静态LR-HR图像的，例如RealSR和ImagePairs。最近，有研究者通过使用iPhone11ProMax的多摄像头***进行捕获，提出了第一个真实世界的VSR数据集；然而，LR和HR相机之间的视差增加了对齐的难度，并且由于手机相机的焦距有限，该数据集中只有2倍的LR-HR序列对。

另一方面，利用Raw图像进行真实场景图像(视频)恢复的趋势，例如弱光增强，去噪，去模糊和超分辨率；主要原因是Raw图像具有较宽的位深度(12或14位)，即包含最原始的信息，并且其强度与光照呈线性关系；然而，探索Raw视频超分辨率的工作仍然很少；有研究者通过从捕获的HR原始帧中下采样来合成LR原始帧，提出了一个Raw视频超分辨率数据集；尽管如此，合成的LR原始帧与真实捕获的帧之间仍然存在差距，这使得在合成数据上训练的SR模型无法很好地泛化到真实场景。

发明内容

(一)本发明要解决的技术问题：

(1)本发明旨在建立一个真实世界的Raw视频超分辨率数据集，并在此基础上提出一个为Raw数据适配的视频超分辨率算法。

(二)为了实现上述目的，本发明采用了如下技术方案：

基于Raw域的真实世界视频超分辨率算法，包括如下步骤：

S1、建立真实世界Raw视频超分辨率数据集：所述数据集的建立过程主要包含以下3个步骤：

S101、硬件设计：通过分光镜将入射光分成两束亮度比为1：1的反射光束和透射光束；使用变焦镜头的DSLR相机，捕捉不同比例的LR-HR帧对；设计并打印一个3D模型盒子来固定分光镜，将DSLR相机和分光镜盒放在光学板上，并在其下方固定三角架；

S102、数据采集：采集MLV格式的Raw视频，然后使用MlRawViewer软件对所述MLV格式的Raw视频进行处理，得到对应的sRGB帧和DNG格式的Raw帧；

S103、数据处理：利用从粗到细的对齐策略，以生成对齐的LR-HR帧，包括sRGB帧对

和Raw帧对

S2、基于S1数据处理后的帧，采用LR的Raw帧和HR的sRGB帧

为训练对来设计真实世界Raw视频超分辨率算法；

S3、训练模型：基于S2所设计的算法搭建模型，并利用深度学***台训练模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭代直到损失收敛，得到最终模型；

S4、将测试集中的低分辨率的Raw视频序列输入到模型中，得到相应的超分辨率的输入结果。

优选的，S103中利用对齐策略对sRGB帧进行数据处理的步骤如下：

S1031、首先，使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间的单应矩阵H；

S1032、然后对齐HR帧

以粗略地裁剪出与HR帧匹配的LR帧中的对应区域；

S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐；

S1034、最后，裁剪中心区域以消除边界周围的对齐伪影，在RGB域中生成对齐的LR-HR帧，用

表示。

优选的，Raw帧应该通过与sRGB帧相同的对齐策略，然而，直接应用全局和局部对齐将破坏Raw输入的Bayer格式；对Raw帧采用对齐策略进行数据处理，先将原始帧重组成RGGB子格式，其大小是sRGB帧的一半，因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵；Deepflow也以相同的方式处理，并通过这种方式生成Raw帧对

优选的，S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤：

S201、双支路策略和特征提取：为了充分利用Raw数据的信息，输入的LR连续帧

以不同的形式送入网络的两个分支中；Bayer格式分支直接使用Raw连续帧本身作为输入；子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入；将Bayer格式分支的输入表示为

将子帧分支的输入表示为

其通道数是4倍关系；Bayer格式分支保持原始像素的原始顺序，有利于空间重建；虽然子帧格式分支不能保持原始像素顺序，它可以利用远邻相关性来生成细节；然后，两个输入分别经过特征提取模块，其中特征提取模块由五个残差块构成；

S202、联合对齐：由于相邻帧之间存在时间错位，需要将相邻帧扭曲到中心帧；在多级级联对齐策略的基础上进行对齐，即从子帧格式分支计算对齐偏移量，然后将计算出的偏移量直接复制到Bayer格式分支进行对齐，即两个分支是共同对齐的；子帧格式分支中的特征

和

通过卷积下采样L-1次，形成一个L级的金字塔；Bayer格式分支中的金字塔特征以相同的方式构建；第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏移量的上采样结果计算得到：

由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本，因此Bayer格式分支的偏移值应该是子帧格式分支的两倍；因此，可以通过对子帧格式分支中的偏移量

进行2倍上采样和2倍放大得到第l级的Bayer格式分支

的偏移量：

给定偏移量，两个分支的对齐特征可以表示为：

其中g表示由几个卷积层实现的映射函数，Dconv表示可变形卷积。两个分支的Dconv在相应级别共享相同的权重；

在L个级别对齐后，进一步使用

和

之间计算的偏移量

来优化

和

并为两个分支中的相邻特征生成最终的对齐结果

和

S203、交互模块：Bayer格式分支特征通过3×3卷积(stride＝2)和LeakyRelu层进行下采样，这些下采样特征与子帧格式分支中的特征聚合；类似地，子帧格式分支特征通过Pixelshuffle进行上采样，然后与Bayer格式分支中的特征聚合；

S204、时间融合：利用非局部时间注意模块来聚合远程特征，以增强沿时间维度的特征表示；然后利用基于时间空间注意(TSA)的融合将特征融合在一起；

S205、通道融合：利用通道融合将两个分支中的特征合并在一起，因为

和

的相同通道可能对最终的SR重建有不同的贡献；采用选择性核卷积(SKF)通过通道加权平均来融合两个分支特征；

S206、重建和上采样：将融合后的特征

输入到由10个ResNet块实现的重建模块中，用于SR重建；重建后，利用Pixelshuffle对其进行上采样，然后利用卷积层生成三通道输出；同时模块还利用了两个长跳跃连接，一个是用于LR的Bayer格式的输入，它首先由卷积层处理，然后通过Pixelshuffle上采样到三通道输出；另一个是用于LR子帧格式输入，由于其空间大小是原始输入的一半，因此对其进行了两次上采样，三个输出相加，生成最终的HR结果

S207、颜色校正和损失函数：实际拍摄数据的

和

在颜色和亮度上存在差异，直接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正，而不关注SR的任务；为了解决这个问题，在损失计算之前使用颜色校正，即分别对RGB通道使用基于通道的颜色校正，而不是计算3×3的颜色校正矩阵来同时校正它们：

其中α^c是通道c的缩放因子，它是通过最小化

和HR下采样的版本

对应像素之间的最小二乘损失来计算的。

S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络。

(三)本发明的有益效果包括以下三点：

(1)本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集，它为真实原始VSR方法的训练和评估提供了基准数据集。

(2)本发明基于S1中所获得的真实世界Raw视频超分辨率数据集，提出了一种Real-RawVSR方法，通过处理两个分支中的Raw数据输入，一个分支用于Bayer格式输入，另一个分支用于子帧格式输入；通过利用所提出的联合对齐、交互和时间、通道融合模块，很好地探索了两个分支的互补信息，并且将真实LR视频超分辨率性能提升到了新的高度。

(3)基于本发明所进行的实验表明，所提出的方法优于目前主流的Raw和sRGB的VSR方法；经过本发明的研究探索，希望能够启发更多基于Raw域的视频超分辨率方法的研究。

附图说明

图1为本发明采用的基于Raw域的真实世界视频超分辨率算法中的硬件平台和数据处理流程图；

图2为本发明采用的基于Raw域的真实世界视频超分辨率算法中的算法流程图；

图3为本发明采用的基于Raw域的真实世界视频超分辨率算法中的联合对齐模块结构图；

图4为本发明所采用的算法与其他视频超分辨率算法在测试集上的结果指标对比表。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

请参阅图1，基于Raw域的真实世界视频超分辨率算法，包括如下步骤：

S101、硬件设计：为了捕捉不同比例的LR-HR帧对，使用带有18-135mm变焦镜头的DSLR相机代替手机相机；为了避免来自其他方向的自然光的影响，通过设计并打印了一个3D模型盒子来固定分光镜；使两个摄像头可以从同一视点接收自然光，分光镜的尺寸为150×150×1(mm³)，足以覆盖相机镜头；本发明将相机和分光镜盒放在的光学板上，并在下方固定三脚架，以提高其稳定性；

S102、数据采集：本发明使用两台升级了第三方软件MagicLantern的佳能60D相机采集MagicLanternVideo(MLV)格式的Raw视频；为了使相机保持同步，本发明使用红外遥控器向两个相机发出信号以同时控制拍摄，在拍摄过程中，本发明将两台相机的ISO保持在100到1600的范围内以避免噪点，曝光时间范围从1/400秒到1/31秒，以捕捉慢动作和快动作；所有其他设置都设置为默认值以模拟真实的捕获场景；然后本发明使用MlRawViewer软件对MLV视频进行处理，得到对应的sRGB帧和DNG格式的Raw帧；对于每个场景，本发明捕获一个6秒的短视频，帧速率为25FPS，即每个视频包含大约150帧的Raw和sRGB格式图；

S103、数据处理：由于镜头畸变的存在，LR-HR对之间仍然存在错位；因此本发明利用从粗到细的对齐策略，以生成对齐的LR-HR帧，包括sRGB帧对

和Raw帧对

S103中利用对齐策略对sRGB帧进行数据处理的步骤如下：

S1032、然后对齐HR帧

以粗略地裁剪出与HR帧匹配的LR帧中的对应区域；

表示；

Raw帧应该通过与sRGB帧相同的对齐策略，然而，直接应用全局和局部对齐将破坏Raw输入的Bayer格式；对Raw帧采用对齐策略进行数据处理，先将原始帧重组成RGGB子格式，其大小是sRGB帧的一半，因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵；Deepflow也以相同的方式处理，并通过这种方式生成Raw帧对

S2、基于S1数据处理后的帧，采用LR的Raw帧和HR的sRGB帧

为训练对来设计真实世界Raw视频超分辨率算法；

S3、训练模型：本发明中的训练模型输入的连续帧数为5帧，所使用的优化器是Adam优化器，初始学***台训练模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭代直到损失收敛，得到最终模型；

利用深度学***台训练模型，在整个数据集上迭代300k次，随后减小学习率至0.00001，继续迭代直到损失收敛，得到最终模型；

S4、将测试集中的低分辨率的Raw视频序列输入到模型中，得到相应的超分辨率的输入结果；

本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集，它为真实原始VSR方法的训练和评估提供了基准数据集。

实施例2：

请参阅图2-4，基于实施例1又有所不同的是：

S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤：