CN115115516A - 基于Raw域的真实世界视频超分辨率算法 - Google Patents

基于Raw域的真实世界视频超分辨率算法 Download PDF

Info

Publication number
CN115115516A
CN115115516A CN202210733861.5A CN202210733861A CN115115516A CN 115115516 A CN115115516 A CN 115115516A CN 202210733861 A CN202210733861 A CN 202210733861A CN 115115516 A CN115115516 A CN 115115516A
Authority
CN
China
Prior art keywords
frame
raw
branch
format
real
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210733861.5A
Other languages
English (en)
Other versions
CN115115516B (zh
Inventor
岳焕景
张芝铭
杨敬钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210733861.5A priority Critical patent/CN115115516B/zh
Publication of CN115115516A publication Critical patent/CN115115516A/zh
Application granted granted Critical
Publication of CN115115516B publication Critical patent/CN115115516B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/35Determination of transform parameters for the alignment of images, i.e. image registration using statistical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/64Circuits for processing colour signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Television Systems (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

本发明公开了基于Raw域的真实世界视频超分辨率算法,涉及视频信号处理技术领域。基于Raw域的真实世界视频超分辨率算法,包括如下步骤:S1、建立真实世界Raw视频超分辨率数据集;S2、基于S1设计真实世界Raw视频超分辨率算法;S3、训练模型;S4、将测试集中的低分辨率的Raw视频序列输入到模型中,得到相应的超分辨率的输入结果;本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集,它为真实原始VSR方法的训练和评估提供了基准数据集;本发明通过利用所提出的联合对齐交互模块,以及时间、通道融合模块,将真实LR视频超分辨率性能提升到了新的高度。

Description

基于Raw域的真实世界视频超分辨率算法
技术领域
本发明属于视频信号处理技术领域,涉及一种基于Raw域的真实世界视频超分辨率算法。
背景技术
用短焦镜头捕捉视频可以通过牺牲分辨率来扩大视角,而用长焦镜头捕捉可以通过牺牲视角来提高分辨率;视频超分辨率(VSR)是获取广角和高分辨率(HR)视频的有效方式;视频超分辨率通过探索输入序列的空间和时间相关性,从低分辨率(LR)输入重构高分辨率视频;近年来,视频超分辨率的发展已经从传统的模型驱动转向基于深度学习的方法。
这些基于深度学习的SR方法的性能在很大程度上取决于训练数据集,考虑到合成的LR-HR数据集,例如DIV2K和REDS,不能表示真实捕获的LR图像和HR图像之间的退化模型,因此构建了许多真实的SR数据集以提高现实世界的SR性能;然而,这些数据集大部分是针对静态LR-HR图像的,例如RealSR和ImagePairs。最近,有研究者通过使用iPhone11ProMax的多摄像头***进行捕获,提出了第一个真实世界的VSR数据集;然而,LR和HR相机之间的视差增加了对齐的难度,并且由于手机相机的焦距有限,该数据集中只有2倍的LR-HR序列对。
另一方面,利用Raw图像进行真实场景图像(视频)恢复的趋势,例如弱光增强,去噪,去模糊和超分辨率;主要原因是Raw图像具有较宽的位深度(12或14位),即包含最原始的信息,并且其强度与光照呈线性关系;然而,探索Raw视频超分辨率的工作仍然很少;有研究者通过从捕获的HR原始帧中下采样来合成LR原始帧,提出了一个Raw视频超分辨率数据集;尽管如此,合成的LR原始帧与真实捕获的帧之间仍然存在差距,这使得在合成数据上训练的SR模型无法很好地泛化到真实场景。
发明内容
(一)本发明要解决的技术问题:
(1)本发明旨在建立一个真实世界的Raw视频超分辨率数据集,并在此基础上提出一个为Raw数据适配的视频超分辨率算法。
(二)为了实现上述目的,本发明采用了如下技术方案:
基于Raw域的真实世界视频超分辨率算法,包括如下步骤:
S1、建立真实世界Raw视频超分辨率数据集:所述数据集的建立过程主要包含以下3个步骤:
S101、硬件设计:通过分光镜将入射光分成两束亮度比为1:1的反射光束和透射光束;使用变焦镜头的DSLR相机,捕捉不同比例的LR-HR帧对;设计并打印一个3D模型盒子来固定分光镜,将DSLR相机和分光镜盒放在光学板上,并在其下方固定三角架;
S102、数据采集:采集MLV格式的Raw视频,然后使用MlRawViewer软件对所述MLV格式的Raw视频进行处理,得到对应的sRGB帧和DNG格式的Raw帧;
S103、数据处理:利用从粗到细的对齐策略,以生成对齐的LR-HR帧,包括sRGB帧对
Figure BDA0003714834410000031
和Raw帧对
Figure BDA0003714834410000032
S2、基于S1数据处理后的帧,采用LR的Raw帧和HR的sRGB帧
Figure BDA0003714834410000033
为训练对来设计真实世界Raw视频超分辨率算法;
S3、训练模型:基于S2所设计的算法搭建模型,并利用深度学***台训练模型,在整个数据集上迭代300k次,随后减小学习率至0.00001,继续迭代直到损失收敛,得到最终模型;
S4、将测试集中的低分辨率的Raw视频序列输入到模型中,得到相应的超分辨率的输入结果。
优选的,S103中利用对齐策略对sRGB帧进行数据处理的步骤如下:
S1031、首先,使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间的单应矩阵H;
S1032、然后对齐HR帧
Figure BDA0003714834410000041
以粗略地裁剪出与HR帧匹配的LR帧中的对应区域;
S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐;
S1034、最后,裁剪中心区域以消除边界周围的对齐伪影,在RGB域中生成对齐的LR-HR帧,用
Figure BDA0003714834410000042
表示。
优选的,Raw帧应该通过与sRGB帧相同的对齐策略,然而,直接应用全局和局部对齐将破坏Raw输入的Bayer格式;对Raw帧采用对齐策略进行数据处理,先将原始帧重组成RGGB子格式,其大小是sRGB帧的一半,因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵;Deepflow也以相同的方式处理,并通过这种方式生成Raw帧对
Figure BDA0003714834410000043
优选的,S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤:
S201、双支路策略和特征提取:为了充分利用Raw数据的信息,输入的LR连续帧
Figure BDA0003714834410000044
以不同的形式送入网络的两个分支中;Bayer格式分支直接使用Raw连续帧本身作为输入;子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入;将Bayer格式分支的输入表示为
Figure BDA0003714834410000045
将子帧分支的输入表示为
Figure BDA0003714834410000046
其通道数是4倍关系;Bayer格式分支保持原始像素的原始顺序,有利于空间重建;虽然子帧格式分支不能保持原始像素顺序,它可以利用远邻相关性来生成细节;然后,两个输入分别经过特征提取模块,其中特征提取模块由五个残差块构成;
S202、联合对齐:由于相邻帧之间存在时间错位,需要将相邻帧扭曲到中心帧;在多级级联对齐策略的基础上进行对齐,即从子帧格式分支计算对齐偏移量,然后将计算出的偏移量直接复制到Bayer格式分支进行对齐,即两个分支是共同对齐的;子帧格式分支中的特征
Figure BDA0003714834410000051
Figure BDA0003714834410000052
通过卷积下采样L-1次,形成一个L级的金字塔;Bayer格式分支中的金字塔特征以相同的方式构建;第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏移量的上采样结果计算得到:
Figure BDA0003714834410000053
由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本,因此Bayer格式分支的偏移值应该是子帧格式分支的两倍;因此,可以通过对子帧格式分支中的偏移量
Figure BDA0003714834410000054
进行2倍上采样和2倍放大得到第l级的Bayer格式分支
Figure BDA0003714834410000055
的偏移量:
Figure BDA0003714834410000056
给定偏移量,两个分支的对齐特征可以表示为:
Figure BDA0003714834410000057
Figure BDA0003714834410000061
其中g表示由几个卷积层实现的映射函数,Dconv表示可变形卷积。两个分支的Dconv在相应级别共享相同的权重;
在L个级别对齐后,进一步使用
Figure BDA0003714834410000062
Figure BDA0003714834410000063
之间计算的偏移量
Figure BDA0003714834410000064
来优化
Figure BDA0003714834410000065
Figure BDA0003714834410000066
并为两个分支中的相邻特征生成最终的对齐结果
Figure BDA0003714834410000067
Figure BDA0003714834410000068
S203、交互模块:Bayer格式分支特征通过3×3卷积(stride=2)和LeakyRelu层进行下采样,这些下采样特征与子帧格式分支中的特征聚合;类似地,子帧格式分支特征通过Pixelshuffle进行上采样,然后与Bayer格式分支中的特征聚合;
S204、时间融合:利用非局部时间注意模块来聚合远程特征,以增强沿时间维度的特征表示;然后利用基于时间空间注意(TSA)的融合将特征融合在一起;
S205、通道融合:利用通道融合将两个分支中的特征合并在一起,因为
Figure BDA0003714834410000069
Figure BDA00037148344100000610
的相同通道可能对最终的SR重建有不同的贡献;采用选择性核卷积(SKF)通过通道加权平均来融合两个分支特征;
S206、重建和上采样:将融合后的特征
Figure BDA00037148344100000611
输入到由10个ResNet块实现的重建模块中,用于SR重建;重建后,利用Pixelshuffle对其进行上采样,然后利用卷积层生成三通道输出;同时模块还利用了两个长跳跃连接,一个是用于LR的Bayer格式的输入,它首先由卷积层处理,然后通过Pixelshuffle上采样到三通道输出;另一个是用于LR子帧格式输入,由于其空间大小是原始输入的一半,因此对其进行了两次上采样,三个输出相加,生成最终的HR结果
Figure BDA0003714834410000071
S207、颜色校正和损失函数:实际拍摄数据的
Figure BDA0003714834410000072
Figure BDA0003714834410000073
在颜色和亮度上存在差异,直接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正,而不关注SR的任务;为了解决这个问题,在损失计算之前使用颜色校正,即分别对RGB通道使用基于通道的颜色校正,而不是计算3×3的颜色校正矩阵来同时校正它们:
Figure BDA0003714834410000074
其中αc是通道c的缩放因子,它是通过最小化
Figure BDA0003714834410000075
和HR下采样的版本
Figure BDA0003714834410000076
对应像素之间的最小二乘损失来计算的。
S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络。
(三)本发明的有益效果包括以下三点:
(1)本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集,它为真实原始VSR方法的训练和评估提供了基准数据集。
(2)本发明基于S1中所获得的真实世界Raw视频超分辨率数据集,提出了一种Real-RawVSR方法,通过处理两个分支中的Raw数据输入,一个分支用于Bayer格式输入,另一个分支用于子帧格式输入;通过利用所提出的联合对齐、交互和时间、通道融合模块,很好地探索了两个分支的互补信息,并且将真实LR视频超分辨率性能提升到了新的高度。
(3)基于本发明所进行的实验表明,所提出的方法优于目前主流的Raw和sRGB的VSR方法;经过本发明的研究探索,希望能够启发更多基于Raw域的视频超分辨率方法的研究。
附图说明
图1为本发明采用的基于Raw域的真实世界视频超分辨率算法中的硬件平台和数据处理流程图;
图2为本发明采用的基于Raw域的真实世界视频超分辨率算法中的算法流程图;
图3为本发明采用的基于Raw域的真实世界视频超分辨率算法中的联合对齐模块结构图;
图4为本发明所采用的算法与其他视频超分辨率算法在测试集上的结果指标对比表。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
请参阅图1,基于Raw域的真实世界视频超分辨率算法,包括如下步骤:
S1、建立真实世界Raw视频超分辨率数据集:所述数据集的建立过程主要包含以下3个步骤:
S101、硬件设计:为了捕捉不同比例的LR-HR帧对,使用带有18-135mm变焦镜头的DSLR相机代替手机相机;为了避免来自其他方向的自然光的影响,通过设计并打印了一个3D模型盒子来固定分光镜;使两个摄像头可以从同一视点接收自然光,分光镜的尺寸为150×150×1(mm3),足以覆盖相机镜头;本发明将相机和分光镜盒放在的光学板上,并在下方固定三脚架,以提高其稳定性;
S102、数据采集:本发明使用两台升级了第三方软件MagicLantern的佳能60D相机采集MagicLanternVideo(MLV)格式的Raw视频;为了使相机保持同步,本发明使用红外遥控器向两个相机发出信号以同时控制拍摄,在拍摄过程中,本发明将两台相机的ISO保持在100到1600的范围内以避免噪点,曝光时间范围从1/400秒到1/31秒,以捕捉慢动作和快动作;所有其他设置都设置为默认值以模拟真实的捕获场景;然后本发明使用MlRawViewer软件对MLV视频进行处理,得到对应的sRGB帧和DNG格式的Raw帧;对于每个场景,本发明捕获一个6秒的短视频,帧速率为25FPS,即每个视频包含大约150帧的Raw和sRGB格式图;
S103、数据处理:由于镜头畸变的存在,LR-HR对之间仍然存在错位;因此本发明利用从粗到细的对齐策略,以生成对齐的LR-HR帧,包括sRGB帧对
Figure BDA0003714834410000101
和Raw帧对
Figure BDA0003714834410000102
S103中利用对齐策略对sRGB帧进行数据处理的步骤如下:
S1031、首先,使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间的单应矩阵H;
S1032、然后对齐HR帧
Figure BDA0003714834410000103
以粗略地裁剪出与HR帧匹配的LR帧中的对应区域;
S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐;
S1034、最后,裁剪中心区域以消除边界周围的对齐伪影,在RGB域中生成对齐的LR-HR帧,用
Figure BDA0003714834410000104
表示;
Raw帧应该通过与sRGB帧相同的对齐策略,然而,直接应用全局和局部对齐将破坏Raw输入的Bayer格式;对Raw帧采用对齐策略进行数据处理,先将原始帧重组成RGGB子格式,其大小是sRGB帧的一半,因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵;Deepflow也以相同的方式处理,并通过这种方式生成Raw帧对
Figure BDA0003714834410000105
S2、基于S1数据处理后的帧,采用LR的Raw帧和HR的sRGB帧
Figure BDA0003714834410000106
为训练对来设计真实世界Raw视频超分辨率算法;
S3、训练模型:本发明中的训练模型输入的连续帧数为5帧,所使用的优化器是Adam优化器,初始学***台训练模型,在整个数据集上迭代300k次,随后减小学习率至0.00001,继续迭代直到损失收敛,得到最终模型;
利用深度学***台训练模型,在整个数据集上迭代300k次,随后减小学习率至0.00001,继续迭代直到损失收敛,得到最终模型;
S4、将测试集中的低分辨率的Raw视频序列输入到模型中,得到相应的超分辨率的输入结果;
本发明在Raw和sRGB域中构建了第一个具有三个倍率的真实世界的VSR数据集,它为真实原始VSR方法的训练和评估提供了基准数据集。
实施例2:
请参阅图2-4,基于实施例1又有所不同的是:
S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤:
S201、双支路策略和特征提取:为了充分利用Raw数据的信息,输入的LR连续帧
Figure BDA0003714834410000121
以不同的形式送入网络的两个分支中;Bayer格式分支直接使用Raw连续帧本身作为输入;子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入;将Bayer格式分支的输入表示为
Figure BDA0003714834410000122
将子帧分支的输入表示为
Figure BDA0003714834410000123
其通道数是4倍关系;Bayer格式分支保持原始像素的原始顺序,有利于空间重建;虽然子帧格式分支不能保持原始像素顺序,它可以利用远邻相关性来生成细节;然后,两个输入分别经过特征提取模块,其中特征提取模块由五个残差块构成;
S202、联合对齐:由于相邻帧之间存在时间错位,需要将相邻帧扭曲到中心帧;在多级级联对齐策略的基础上进行对齐,即从子帧格式分支计算对齐偏移量,然后将计算出的偏移量直接复制到Bayer格式分支进行对齐,即两个分支是共同对齐的;子帧格式分支中的特征
Figure BDA0003714834410000124
Figure BDA0003714834410000125
通过卷积下采样L-1次,形成一个L级的金字塔;Bayer格式分支中的金字塔特征以相同的方式构建;第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏移量的上采样结果计算得到:
Figure BDA0003714834410000126
由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本,因此Bayer格式分支的偏移值应该是子帧格式分支的两倍;因此,可以通过对子帧格式分支中的偏移量
Figure BDA0003714834410000127
进行2倍上采样和2倍放大得到第l级的Bayer格式分支
Figure BDA0003714834410000131
的偏移量:
Figure BDA0003714834410000132
给定偏移量,两个分支的对齐特征可以表示为:
Figure BDA0003714834410000133
Figure BDA0003714834410000134
其中g表示由几个卷积层实现的映射函数,Dconv表示可变形卷积。两个分支的Dconv在相应级别共享相同的权重;
在L个级别对齐后,进一步使用
Figure BDA0003714834410000135
Figure BDA0003714834410000136
之间计算的偏移量
Figure BDA0003714834410000137
来优化
Figure BDA0003714834410000138
Figure BDA0003714834410000139
并为两个分支中的相邻特征生成最终的对齐结果
Figure BDA00037148344100001310
Figure BDA00037148344100001311
S203、交互模块:Bayer格式分支特征通过3×3卷积(stride=2)和LeakyRelu层进行下采样,这些下采样特征与子帧格式分支中的特征聚合;类似地,子帧格式分支特征通过Pixelshuffle进行上采样,然后与Bayer格式分支中的特征聚合;
S204、时间融合:利用非局部时间注意模块来聚合远程特征,以增强沿时间维度的特征表示;然后利用基于时间空间注意(TSA)的融合将特征融合在一起;
S205、通道融合:利用通道融合将两个分支中的特征合并在一起,因为
Figure BDA00037148344100001312
Figure BDA00037148344100001313
的相同通道可能对最终的SR重建有不同的贡献;采用选择性核卷积(SKF)通过通道加权平均来融合两个分支特征;
S206、重建和上采样:将融合后的特征
Figure BDA0003714834410000141
输入到由10个ResNet块实现的重建模块中,用于SR重建;重建后,利用Pixelshuffle对其进行上采样,然后利用卷积层生成三通道输出;同时模块还利用了两个长跳跃连接,一个是用于LR的Bayer格式的输入,它首先由卷积层处理,然后通过Pixelshuffle上采样到三通道输出;另一个是用于LR子帧格式输入,由于其空间大小是原始输入的一半,因此对其进行了两次上采样,三个输出相加,生成最终的HR结果
Figure BDA0003714834410000142
S207、颜色校正和损失函数:实际拍摄数据的
Figure BDA0003714834410000143
Figure BDA0003714834410000144
在颜色和亮度上存在差异,直接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正,而不关注SR的任务;为了解决这个问题,在损失计算之前使用颜色校正,即分别对RGB通道使用基于通道的颜色校正,而不是计算3×3的颜色校正矩阵来同时校正它们:
Figure BDA0003714834410000145
其中αc是通道c的缩放因子,它是通过最小化
Figure BDA0003714834410000146
和HR下采样的版本
Figure BDA0003714834410000147
对应像素之间的最小二乘损失来计算的。
S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络;
基于这个数据集,本发明提出了一种Real-RawVSR方法,通过处理两个分支中的Raw数据输入,一个分支用于Bayer格式输入,另一个分支用于子帧格式输入;通过利用所提出的联合对齐、交互和时间、通道融合模块,很好地探索了两个分支的互补信息;实验表明,所提出的方法优于目前主流的Raw和sRGB的VSR方法;经过本发明的研究探索,希望能够启发更多基于Raw域的视频超分辨率方法的研究。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其改进构思加以等同替换或改变,都应涵盖在本发明的保护范围内。

Claims (4)

1.基于Raw域的真实世界视频超分辨率算法,其特征在于:包括如下步骤:
S1、建立真实世界Raw视频超分辨率数据集:所述数据集的建立过程主要包含以下3个步骤:
S101、硬件设计:通过分光镜将入射光分成两束亮度比为1:1的反射光束和透射光束;使用变焦镜头的DSLR相机,捕捉不同比例的LR-HR帧对;设计并打印一个3D模型盒子来固定分光镜,将DSLR相机和分光镜盒放在光学板上,并在其下方固定三角架;
S102、数据采集:采集MLV格式的Raw视频,然后使用MlRawViewer软件对所述MLV格式的Raw视频进行处理,得到对应的sRGB帧和DNG格式的Raw帧;
S103、数据处理:利用从粗到细的对齐策略,以生成对齐的LR-HR帧,包括sRGB帧对
Figure FDA0003714834400000011
和Raw帧对
Figure FDA0003714834400000012
S2、基于S1数据处理后的帧,采用LR的Raw帧和HR的sRGB帧
Figure FDA0003714834400000013
为训练对来设计真实世界Raw视频超分辨率算法;
S3、训练模型:基于S2所设计的算法搭建模型,并利用深度学***台训练模型,在整个数据集上迭代300k次,随后减小学习率至0.00001,继续迭代直到损失收敛,得到最终模型;
S4、将测试集中的低分辨率的Raw视频序列输入到S3中获取的模型中,得到相应的超分辨率的输入结果。
2.根据权利要求1所述的基于Raw域的真实世界视频超分辨率算法,其特征在于:S103中利用对齐策略对sRGB帧进行数据处理的步骤如下:
S1031、首先,使用由RANSAC算法选择后的SIFT关键点来估计上采样LR和HR帧之间的单应矩阵H;
S1032、然后对齐HR帧
Figure FDA0003714834400000022
以粗略地裁剪出与HR帧匹配的LR帧中的对应区域;
S1033、再利用传统的光流估计方法DeepFlow对匹配区域执行逐像素对齐;
S1034、最后,裁剪中心区域以消除边界周围的对齐伪影,在RGB域中生成对齐的LR-HR帧,用
Figure FDA0003714834400000021
表示。
3.根据权利要求2所述的基于Raw域的真实世界视频超分辨率算法,其特征在于:
对Raw帧采用对齐策略进行数据处理,先将原始帧重组成RGGB子格式,其大小是sRGB帧的一半,因此需要通过以0.5的比率重新调整平移参数来更改从sRGB帧计算的H矩阵;Deepflow也以相同的方式处理,并通过这种方式生成Raw帧对
Figure FDA0003714834400000031
4.根据权利要求1所述的基于Raw域的真实世界视频超分辨率算法,其特征在于:S2中所述的真实世界Raw视频超分辨率算法流程主要包含以下步骤:
S201、双支路策略和特征提取:为了充分利用Raw数据的信息,输入的LR连续帧
Figure FDA0003714834400000032
以不同的形式送入网络的两个分支中;Bayer格式分支直接使用Raw连续帧本身作为输入;子帧格式分支使用重组后的RGGB子格式形成一个新的序列作为输入;将Bayer格式分支的输入表示为
Figure FDA0003714834400000033
将子帧分支的输入表示为
Figure FDA0003714834400000034
其通道数是4倍关系;Bayer格式分支保持原始像素的原始顺序,有利于空间重建;虽然子帧格式分支不能保持原始像素顺序,它可以利用远邻相关性来生成细节;然后,两个输入分别经过特征提取模块,其中特征提取模块由五个残差块构成;
S202、联合对齐:由于相邻帧之间存在时间错位,需要将相邻帧扭曲到中心帧;在多级级联对齐策略的基础上进行对齐,即从子帧格式分支计算对齐偏移量,然后将计算出的偏移量直接复制到Bayer格式分支进行对齐,即两个分支是共同对齐的;子帧格式分支中的特征
Figure FDA0003714834400000035
Figure FDA0003714834400000036
通过卷积下采样L-1次,形成一个L级的金字塔;Bayer格式分支中的金字塔特征以相同的方式构建;第l级的偏移量是根据第l级的聚合特征和第(l+1)级的偏移量的上采样结果计算得到:
Figure FDA0003714834400000041
由于子帧格式分支的输入实际上是Bayer格式分支的下采样版本,因此Bayer格式分支的偏移值应该是子帧格式分支的两倍;因此,可以通过对子帧格式分支中的偏移量
Figure FDA0003714834400000042
进行2倍上采样和2倍放大得到第l级的Bayer格式分支
Figure FDA0003714834400000043
的偏移量:
Figure FDA0003714834400000044
给定偏移量,两个分支的对齐特征可以表示为:
Figure FDA0003714834400000045
Figure FDA0003714834400000046
其中g表示由几个卷积层实现的映射函数,Dconv表示可变形卷积。两个分支的Dconv在相应级别共享相同的权重;
在L个级别对齐后,进一步使用
Figure FDA0003714834400000047
Figure FDA0003714834400000048
之间计算的偏移量
Figure FDA0003714834400000049
来优化
Figure FDA00037148344000000413
Figure FDA00037148344000000410
并为两个分支中的相邻特征生成最终的对齐结果
Figure FDA00037148344000000411
Figure FDA00037148344000000412
S203、交互模块:Bayer格式分支特征通过3×3卷积(stride=2)和LeakyRelu层进行下采样,这些下采样特征与子帧格式分支中的特征聚合;类似地,子帧格式分支特征通过Pixelshuffle进行上采样,然后与Bayer格式分支中的特征聚合;
S204、时间融合:利用非局部时间注意模块来聚合远程特征,以增强沿时间维度的特征表示;然后利用基于时间空间注意(TSA)的融合将特征融合在一起;
S205、通道融合:利用通道融合将两个分支中的特征合并在一起,因为
Figure FDA0003714834400000051
Figure FDA0003714834400000052
的相同通道可能对最终的SR重建有不同的贡献;采用选择性核卷积(SKF)通过通道加权平均来融合两个分支特征;
S206、重建和上采样:将融合后的特征
Figure FDA0003714834400000053
输入到由10个ResNet块实现的重建模块中,用于SR重建;重建后,利用Pixelshuffle对其进行上采样,然后利用卷积层生成三通道输出;同时模块还利用了两个长跳跃连接,一个是用于LR的Bayer格式的输入,它首先由卷积层处理,然后通过Pixelshuffle上采样到三通道输出;另一个是用于LR子帧格式输入,由于其空间大小是原始输入的一半,因此对其进行了两次上采样,三个输出相加,生成最终的HR结果
Figure FDA0003714834400000054
S207、颜色校正和损失函数:实际拍摄数据的
Figure FDA0003714834400000055
Figure FDA0003714834400000056
在颜色和亮度上存在差异,直接利用输出和HR之间的像素损失可能会导致网络优化颜色和亮度校正,而不关注SR的任务;为了解决这个问题,在损失计算之前使用颜色校正,即分别对RGB通道使用基于通道的颜色校正,而不是计算3×3的颜色校正矩阵来同时校正它们:
Figure FDA0003714834400000061
其中αc是通道c的缩放因子,它是通过最小化
Figure FDA0003714834400000062
和HR下采样的版本
Figure FDA0003714834400000063
对应像素之间的最小二乘损失来计算的。
S208、使用校正后的输出和HR之间的Charbonnier损失来优化网络。
CN202210733861.5A 2022-06-27 2022-06-27 基于Raw域的真实世界视频超分辨率的构建方法 Active CN115115516B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210733861.5A CN115115516B (zh) 2022-06-27 2022-06-27 基于Raw域的真实世界视频超分辨率的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210733861.5A CN115115516B (zh) 2022-06-27 2022-06-27 基于Raw域的真实世界视频超分辨率的构建方法

Publications (2)

Publication Number Publication Date
CN115115516A true CN115115516A (zh) 2022-09-27
CN115115516B CN115115516B (zh) 2023-05-12

Family

ID=83329552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210733861.5A Active CN115115516B (zh) 2022-06-27 2022-06-27 基于Raw域的真实世界视频超分辨率的构建方法

Country Status (1)

Country Link
CN (1) CN115115516B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051380A (zh) * 2023-01-13 2023-05-02 深圳大学 一种视频超分辨率处理方法及电子设备
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100123792A1 (en) * 2008-11-20 2010-05-20 Takefumi Nagumo Image processing device, image processing method and program
US20160063316A1 (en) * 2014-08-29 2016-03-03 Motorola Solutions, Inc. Methods and systems for increasing facial recognition working rang through adaptive super-resolution
US20190206026A1 (en) * 2018-01-02 2019-07-04 Google Llc Frame-Recurrent Video Super-Resolution
CN111583112A (zh) * 2020-04-29 2020-08-25 华南理工大学 视频超分辨率的方法、***、装置和存储介质
CN112700392A (zh) * 2020-12-01 2021-04-23 华南理工大学 一种视频超分辨率处理方法、设备及存储介质
CN112991183A (zh) * 2021-04-09 2021-06-18 华南理工大学 一种基于多帧注意力机制渐进式融合的视频超分辨率方法
CN113240581A (zh) * 2021-04-09 2021-08-10 辽宁工程技术大学 一种针对未知模糊核的真实世界图像超分辨率方法
CN113469884A (zh) * 2021-07-15 2021-10-01 长视科技股份有限公司 基于数据仿真的视频超分辨方法、***、设备及存储介质
US20210312591A1 (en) * 2020-04-07 2021-10-07 Samsung Electronics Co., Ltd. Systems and method of training networks for real-world super resolution with unknown degradations
CN113538249A (zh) * 2021-09-03 2021-10-22 中国矿业大学 一种用于视频监控高清呈现的图像超分辨率重建方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100123792A1 (en) * 2008-11-20 2010-05-20 Takefumi Nagumo Image processing device, image processing method and program
US20160063316A1 (en) * 2014-08-29 2016-03-03 Motorola Solutions, Inc. Methods and systems for increasing facial recognition working rang through adaptive super-resolution
US20190206026A1 (en) * 2018-01-02 2019-07-04 Google Llc Frame-Recurrent Video Super-Resolution
US20210312591A1 (en) * 2020-04-07 2021-10-07 Samsung Electronics Co., Ltd. Systems and method of training networks for real-world super resolution with unknown degradations
CN111583112A (zh) * 2020-04-29 2020-08-25 华南理工大学 视频超分辨率的方法、***、装置和存储介质
CN112700392A (zh) * 2020-12-01 2021-04-23 华南理工大学 一种视频超分辨率处理方法、设备及存储介质
CN112991183A (zh) * 2021-04-09 2021-06-18 华南理工大学 一种基于多帧注意力机制渐进式融合的视频超分辨率方法
CN113240581A (zh) * 2021-04-09 2021-08-10 辽宁工程技术大学 一种针对未知模糊核的真实世界图像超分辨率方法
CN113469884A (zh) * 2021-07-15 2021-10-01 长视科技股份有限公司 基于数据仿真的视频超分辨方法、***、设备及存储介质
CN113538249A (zh) * 2021-09-03 2021-10-22 中国矿业大学 一种用于视频监控高清呈现的图像超分辨率重建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
X. YANG ET AL: "Real-world Video Super-resolution: A Benchmark Dataset and A Decomposition based Learning Scheme", 2021 IEEE/CVF INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV) *
詹克羽等: "一种多尺度三维卷积的视频超分辨率方法", 西安电子科技大学学报 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116051380A (zh) * 2023-01-13 2023-05-02 深圳大学 一种视频超分辨率处理方法及电子设备
CN116051380B (zh) * 2023-01-13 2023-08-22 深圳大学 一种视频超分辨率处理方法及电子设备
CN116596779A (zh) * 2023-04-24 2023-08-15 天津大学 基于Transformer的Raw视频去噪方法
CN116596779B (zh) * 2023-04-24 2023-12-01 天津大学 基于Transformer的Raw视频去噪方法

Also Published As

Publication number Publication date
CN115115516B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
Jiang et al. Learning to see moving objects in the dark
US11037278B2 (en) Systems and methods for transforming raw sensor data captured in low-light conditions to well-exposed images using neural network architectures
CN107123089B (zh) 基于深度卷积网络的遥感图像超分辨重建方法及***
Kalantari et al. Deep HDR video from sequences with alternating exposures
CN115115516B (zh) 基于Raw域的真实世界视频超分辨率的构建方法
CN113228094A (zh) 图像处理器
Liu et al. Exploit camera raw data for video super-resolution via hidden markov model inference
CN111986084A (zh) 一种基于多任务融合的多相机低光照图像质量增强方法
CN113850367B (zh) 网络模型的训练方法、图像处理方法及其相关设备
CN114972061B (zh) 一种暗光视频去噪增强方法及***
CN112508812A (zh) 图像色偏校正方法、模型训练方法、装置及设备
Yue et al. Real-rawvsr: Real-world raw video super-resolution with a benchmark dataset
CN111986106A (zh) 一种基于神经网络的高动态图像重建方法
Zhao et al. End-to-end denoising of dark burst images using recurrent fully convolutional networks
CN112750092A (zh) 训练数据获取方法、像质增强模型与方法及电子设备
CN113379609A (zh) 一种图像处理方法、存储介质及终端设备
CN114862735A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
Shen et al. Spatial temporal video enhancement using alternating exposures
CN117768774A (zh) 图像处理器、图像处理方法、拍摄装置和电子设备
Ye et al. LFIENet: light field image enhancement network by fusing exposures of LF-DSLR image pairs
WO2023110880A1 (en) Image processing methods and systems for low-light image enhancement using machine learning models
Guo et al. Low-light color imaging via cross-camera synthesis
CN114862707A (zh) 一种多尺度特征恢复图像增强方法、装置及存储介质
CN112991174A (zh) 一种提高单帧红外图像分辨率的方法与***
Guo et al. Low-light color imaging via dual camera acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant