CN111524068A

CN111524068A - 一种基于深度学习的变长输入超分辨率视频重建方法

Info

Publication number: CN111524068A
Application number: CN202010290657.1A
Authority: CN
Inventors: 任卫军; 丁国栋; 黄金文; 张力波
Original assignee: Changan University
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2020-08-11
Anticipated expiration: 2040-04-14
Also published as: CN111524068B

Abstract

本发明公开了本发明提供一种基于深度学习的变长输入超分辨率视频重建方法；包括以下步骤：构建随机长度的训练样本，获取训练集；建立超分辨率视频重建网络模型：包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块；采用训练集对超分辨率视频重建网络模型进行训练，得到训练后的超分辨率视频重建网络；将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建，得到对应的超分辨率重建视频。本发明采用渐对齐融合机制可以逐帧地对齐和融合，对齐操作只作用于相邻两帧图像，这使得模型能够处理更长的时序关系，使用更多相邻的视频帧，这意味着输入含有更多的场景信息，可以有效提高重建效果。

Description

一种基于深度学习的变长输入超分辨率视频重建方法

技术领域

本发明属于视频复原技术领域，尤其涉及一种基于深度学习的变长输入超分辨率视频重建方法。

背景技术

大部分基于图像和视频的应用，其效果都依赖于图像的质量。在一般情况下，一幅图像的质量与其所含的信息量有关，使用图像分辨率来衡量一幅图像所含信息量的多少，它是以单位面积上像素的数目来表示的，比如1024×768。由此可见，图像的分辨率代表了图像的质量，所以在现实生活和应用场景中，高分辨率就成为图像和视频的质量诉求。

然而，当视频包含遮挡、严重模糊和大偏移量的复杂运动时，就需要对视频进行重建以获得高质量的视频信息。为了有效融合多帧图像的互补信息，获得高质量的重建图像，必须将输入的视频帧序列中的所有帧进行对齐，并建立准确的对应关系，以进行后面的重建步骤。由于摄像机或对象的不断运动，目标帧和每个相邻帧之间均未对齐，因此，对齐对于视频超分辨率是一个具有挑战性但又十分重要的问题。目前大部分超分模型将所有相邻帧同等看待，使用同一个对齐网络对不同的相邻帧进行处理，没有考虑不同相邻帧与目标帧具有不同的间隔。理论上，不同的相邻帧相对于目标帧的运动偏移量是不同的，相对目标帧更远的相邻帧具有更大的偏移量，使用一个对齐网络同时学习不同相邻帧的对齐操作，这无疑是困难的。

目前极大部分多帧图像超分辨率模型都只能输入确定长度的图像序列，而且在这些模型的重建过程中，视频序列两端的图像无法得到正常的处理，这是由模型自身的结构局限造成的，只能通过镜像处理或复制目标帧来补全输入图像序列。如图1所示，如图1(a)为当输入长度为9(目标帧和左右各4帧图像)，而当前目标帧左侧剩余的视频帧数量不足时，定长输入模型必须通过复制其他图像帧进行补充，增加了人工的干预痕迹，引入了额外的噪声。如图1(b)变长输入则不需要其他处理，可以直接输入重建模型，更符合实际应用需求。另外，如果可以根据使用场景的不同，选择合适的输入序列长度(包括总长度和左右两侧相邻帧的长度)，那么多帧图像超分辨率重建模型的适用性将大大增强。

发明内容

针对现有设计方法的不足，本发明的目的是提供一种基于深度学习的变长输入超分辨率视频重建方法。采用变长输入序列，解决了视频超分辨率任务中长输入图像序列对齐不精确的问题；采用渐对齐融合网络能够对齐融合任意数量的相邻帧，而不影响后续的重建任务，实用性更强。

一种基于深度学习的变长输入超分辨率视频重建方法，包括以下步骤：

步骤1，构建随机长度的训练样本，获取训练集；

步骤2，建立超分辨率视频重建网络模型：包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块；

步骤3，采用训练集对超分辨率视频重建网络模型进行训练，得到训练后的超分辨率视频重建网络；

步骤4，将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建，得到对应的超分辨率重建视频；

其中，所述待处理视频的每次输入图像序列的长度为自定义。

进一步地，所述构建随机长度的训练样本为：

首先，给定输入序列长度K，K＞0；选取数据集；

其次，给定待重建的目标帧；

最后，选择目标帧左侧的x帧图像和目标帧右侧的K-1-x帧图像，按照从左到右顺序排列K帧图像，得到输入图像序列；

其中，x为通过均匀分布随机得到的整数，x＝0，1，…，K-1。

进一步地，所述获取训练集为：

首先，对每个原始训练样本使用随机水平翻转和旋转，得到空间变换训练样本；

其次，引入间隔变量T，T＞1，以T为采样间隔获取输入序列长度的输入图像序列，以模拟低采集帧率或移动快的运动目标，得到时间增强训练样本；

最后，由原始训练样本、空间变换训练样本和时间增强训练样本共同组成训练集。

进一步地，所述采用训练集对超分辨率视频重建网络模型进行训练，具体为：

3.1，给定最大训练次数，初始化超分辨率视频重建网络模型参数；

3.2，采用特征提取器对输入图像序列(I¹,…,I^t,…,I^k)中的每个图像进行特征提取，得到对应的特征图像序列(F¹,…,F^t,…,F^k)；

其中，t为目标帧，k为输入图像序列的长度；输入图像序列为训练样本；

3.3，采用渐对齐融合模块对特征图像序列进行渐对齐特征融合，得到对齐融合后的特征图像；

3.4，采用深度残差模块对对齐融合后的特征图像进行非线性映射，得到映射后的特征图像；

3.5，通过亚像素卷积将映射后的特征图像进行尺寸放大，得到目标尺寸的特征图像；

3.6，通过上采样将原始目标帧图像进行尺寸放大，得到目标尺寸的原始图像；

3.7，采用叠加模块将目标尺寸的特征图像与目标尺寸的原始图像进行叠加，得到目标帧的重建图像；

3.8，对超分辨率视频重建网络模型的参数进行优化更新；

对于每个输入图像序列，重复步骤3.2-3.8，直至达到最大训练次数。

更进一步地，所述采用渐对齐融合模块对特征图像序列进行渐对齐特征融合，具体为：

首先，对于目标帧左侧的特征图像序列：令F^l为目标帧左侧特征图像；从最左端特征图像F¹开始，将第一帧特征图像F¹对齐到第二帧特征图像F²，再将对齐后的第一帧特征图像和第二帧特征图像进行融合，得到融合后的特征图像F²′，令F^l＝F²′；将融合后的特征图像F²′对齐至第三帧特征图像F³，再融合，对应得到F³′，令F^l＝F³′；依次类推，直至F^t-1，则F^l＝F^t-1′；

其次，对于目标帧右侧的特征图像序列：令F^r为目标帧右侧特征图像；从最右端特征图像F^k开始，将最后一帧特征图像F^k对齐到倒数第二帧特征图像F^k-1，再将对齐后的两帧特征图像进行融合，得到融合后的特征图像F^k-1′，令F^r＝F^k-1′；将融合后的特征图像F^k-1′对齐至倒数第三帧特征图像F^k-2，再融合，对应得到F^k-2′，令F^r＝F^k-2′；依次类推，直至F^t+1，则F^r＝F^t+1′；

最后，使用将目标帧左侧特征图像F^l、目标帧特征图像F^t和目标帧右侧特征图像F^r进行融合，得到对齐融合后的特征图像。

更进一步地，所述将第一帧特征图像F¹对齐到第二帧特征图像F²，具体为：设定第一帧特征图像F¹与第二帧特征图像F²的尺寸分别为W×H×C，其中，W是特征图的宽度，H是特征图的高度，C是特征图的通道数；

首先，将第一帧特征图像F¹与第二帧特征图像F²在通道方向上进行连接，得到W×H×2C的连接矩阵；

其次，使用多个卷积层对连接矩阵进行映射处理和通道数变换，得到W×H×C的权重矩阵；

最后，将权重矩阵通过对位乘法加权到F¹，完成F¹对齐到F²的操作。

更进一步地，将多个特征图像进行融合，其具体为：

(a)将M个待融合特征图像通过对位元素相加进行初步融合，得到初步融合矩阵U，

其中，U_i表示第i个待融合特征图像；

(b)对初步融合矩阵U进行全局平均池化，得到池化后结果s，

其中，s_c表示池化后结果s的第c个通道的特征矩阵；U_c表示初步融合矩阵U的第c个通道的特征矩阵；U_c(m，n)表示矩阵U_c的任一像素点(m，n)处的像素值；

(c)使用两个全连接层建立特征图各通道间的相关性模型：

z＝W₂·(δ(W₁·U))

其中，W₁表示第一个全连接层的权重，W₂表示第二个全连接层的权重，δ表示ReLU激活函数；

(d)使用1×1的卷积层建立特征矩阵在空间维度上的内部相关性：

v_i＝CNN_1×1(W₃，U_i)

其中，CNN_1×1(·)表示卷积核为1×1的卷积层；W₃表示卷积层的权重矩阵，

(e)计算特征矩阵总的相关性{a_i}，

a_i＝v_i·z

(f)使用sigmoid函数对{a_i}进行重标定，得到总权重向量{b_i}：

其中，j＝1，2，...，M；(m，n，c)表示某一像素点的位置坐标；b_{i，m，n，c}表示第i个待融合特征图像的像素点(m，n，c)处的权重，

(g)将总权重向量{b_i}与对应的待融合特征图像{U_i}对位相乘后相加，得到融合后结果

其中，⊙表示对位元素相乘。

进一步地，所述深度残差模块采用多个改进的残差模块堆叠而成。

更进一步地，所述改进的残差模块包含四个卷积层，其中，输入通道数设定为C，第一个卷积层的卷积核大小为1×1，通道数为6×C；第二个卷积层的卷积核大小为1×1，通道数为C/2；第三个卷积层的卷积核大小为3×3，通道数为C/2；第四个卷积层的卷积核大小为1×1，通道数为C。

与现有技术相比，本发明的优点在于：

(1)本发明采用渐对齐融合机制可以逐帧地对齐和融合，对齐操作只作用于相邻两帧图像，这使得模型能够处理更长的时序关系，使用更多相邻的视频帧，这意味着输入含有更多的场景信息，可以有效提高重建效果。

(2)本发明选择不同长度的帧序列作为输入，实用性更强，渐对齐融合模块能够对齐融合任意数量的相邻帧，而不影响后续的重建任务。

(3)本发明的特征融合考虑了不同视频帧和不同位置对于重建效果具有不同的贡献度，能够更加有效地融合不同视频帧的特征。

(4)本发明使用改进的深度残差网络作为重建网络，学习映射能力更强。

附图说明

图1为传统的定长输入模型和本发明的变长输入模型对比示意图；其中，(a)为传统的定长输入模型示意图；(b)为本发明的变长输入模型对比示意图；

图2为本发明实施例的训练过程中的随机长度训练样本的示意图；

图3为本发明实施例的超分辨率视频重建网络结构示意图；

图4为本发明实施例中的传统残差模块和改进后的残差模块结构对比示意图；其中，(a)为传统残差模块处理结构示意图，(b)为本发明的改进后的残差模块处理结构示意图；

图5为本发明实施例的特征融合模块结构示意图。

具体实施方式

为详细说明本发明的技术内容、操作流程、所实现目的和效果，给出以下实施例说明。

步骤1，构建随机长度的训练样本，获取训练集；

示例性地，随机长度的训练样本的获取过程：

首先，给定输入序列长度K，K＞0；选取数据集；

其次，给定待重建的目标帧；

其中，x为通过均匀分布随机得到的整数，x＝0，1，...，K-1。

本发明中的输入序列长度根据需要可以固定，也可以变化。本实施例中，在训练时，使用REDS作为原始训练样本集，利用双三次插值方法获得低分辨率图像；将低分辨率图像中大小为64×64的RGB图像块与相应的高分辨率图像块组合为一个训练样本；同时使用随机的水平翻转和旋转进行数据增强，扩充训练样本数量。另外，将每个数据减去整个训练集的平均RGB值来对所有训练数据进行预处理。示例性地，构建训练样本：在训练阶段输入长度固定为15，在给定需要重建的目标帧时，首先通过均匀分布随机得到一个整数x(x＝0，1，...，K-1)，x代表着目标帧左侧输入序列的长度，而K-1-x是目标帧右侧输入序列的长度，然后将它们按照从左到右的顺序，组合成长度为K的输入序列，如图2所示。为了利用GPU加速矩阵运算的特点，在同一批次中不同训练样本的x值是相同的。

进一步地，在获取训练集时，本发明还可以为了创建更加符合实际应用场景的训练数据，在使用一般的空间数据增强方法(随机的水平翻转和旋转)的同时，也在时间上进行数据增强。引入一个间隔变量T，表示时间数据增强的采样间隔，当T＞1时，可以模拟更低的采集帧率或移动更快的运动目标。例如，当前需要重建的目标帧为第i帧图像，输入长度为7，T为2，那么输入图像序列可表示为：

i-6，i-4，i-2，i，i+2，i+4，i+6

使用各种大小的T，就可以创建更多具有复杂运动的训练数据。考虑到REDS数据集的特点，选择T＝1，2，3，共三种时间增强方式(T＝1时即是原图像序列)。时间增强可以增加训练数据在时域上的多样性和复杂度，提高复杂场景下超分辨率重建的性能。

参照图3，本发明的一个实施例，特征提取器使用5个去除掉批归一化层的残差模块(卷积层)组成。深度残差模块使用12个改进的残差模块进行堆叠构造深度残差模块，示例性地，改进的残差模块的结构如下：

输入通道数设定为C，共使用四个卷积层对输入进行映射学习：第一个卷积层的卷积核大小为1×1，通道数为6×C；第二个卷积层的卷积核大小为1×1，通道数为C/2；第三个卷积层的卷积核大小为3×3，通道数为C/2；第四个卷积层的卷积核大小为1×1，通道数为C。

原残差模块和改进后的残差模块结构对比如图4所示。输入通道数设定为128，改进后的残差模块共使用四个卷积层对输入进行映射学习：第一个卷积层的卷积核大小为1×1，通道数为768；第二个卷积层的卷积核大小为1×1，通道数为64；第三个卷积层的卷积核大小为3×3，通道数为64；第二个卷积层的卷积核大小为1×1，通道数为128。

叠加模块为加法器，将深度残差模块输出的映射后的特征与目标帧原始输入特征相加，得到最终输出结果。

具体地，采用训练集对超分辨率视频重建网络模型进行训练，具体步骤为：

本实施例中，设定批次大小为16，最大训练次数为600000，使用Adam作为优化器，网络的所有结构层的学习率均初始化为4e-4。使用L1距离作为损失函数，定义如下：

其中，I表示真实图像，

表示预测图像，h，w，c分别是图像的高度、宽度和通道数。为了保证训练过程中的数值稳定，在损失函数中加入了一个很小的常量∈，取1e-3。

3.2，采用特征提取器对输入图像序列(I¹，...，I^t，...，I^k)中的每个图像进行特征提取，得到对应的特征图像序列(F¹，...，F^t，...，F^k)；

3.3，采用渐对齐融合模块对特征图像序列进行渐对齐特征融合，得到对齐融合后的特征图像；参照图3，具体过程如下：

最后，使用将目标帧左侧特征图像F^l、目标帧特征图像F^t和目标帧右侧特征图像Fr进行融合，得到对齐融合后的特征图像。

上述过程中的相邻两个特征图像的对齐过程如下：

例如：将第一帧特征图像F¹对齐到第二帧特征图像F²，具体过程为：设定第一帧特征图像F¹与第二帧特征图像F²的尺寸分别为W×H×C，其中，W是特征图的宽度，H是特征图的高度，C是特征图的通道数；

3.6，通过上采样将原始目标帧图像进行尺寸放大，得到目标尺寸的原始图像；本实施例采用双线性插值方法进行上采样或者使用一个5×5的卷积层和一个亚像素卷积层进行上采样。

3.8，对超分辨率视频重建网络模型的参数进行优化更新；

进一步地，如图5所示，上述过程中的多个特征图像进行融合的具体过程为：

其中，U_i表示第i个待融合特征图像；

(b)对初步融合矩阵U进行全局平均池化，得到池化后结果s，

(c)使用两个全连接层建立特征图各通道间的相关性模型：

z＝W₂·(δ(W₁·U))

(d)使用1×1的卷积分别将{U_i}的尺寸变为W×H，学习每个输入特征矩阵在空间维度上的内部相关性CNN_1×1(U_i)：

v_i＝CNN_1×1(W₃，U_i)

(e)计算特征矩阵总的相关性{a_i}，

ai＝v_i·z

(f)使用sigmoid函数对{a_i}进行重标定，得到总权重向量{b_i}：

其中，j＝1，2，...，M；(m，n，c)表示某一像素点的位置坐标；b_i,m,n,c表示第i个待融合特征图像的像素点(m，n，c)处的权重，

以上过程是在特征图的每个位置上单独计算的。

其中，⊙表示对位元素相乘。对位元素就是对应位置的元素。

本发明方法中采用深度残差网络，通过改进残差模块的结构，降低参数量的的同时提高网络的学习能力。增加残差模块中间层的通道数增加有助于提高模型的重建质量，但若是直接增加通道数会造成计算量的巨大增加，所以通过引入了1×1的卷积来改变特征图的通道数。1×1的卷积被广泛用于ResNets，ResNeXt和MobileNetV2等模型，用于降低和增加特征图的通道数量。首先使用1×1卷积以减少通道数，然后使用一个3×3卷积用以特征的提取和映射，最后使用1×1卷积将通道数还原。与原残差模块相比，改进后的残差模块不仅降低了计算量，而且增强了对通道间关系的建模能力，更有助于提高模型的重建能力。

本发明采用渐对齐融合机制，逐渐地将相邻帧与目标帧对齐，并将它们进行逐帧融合，每次的对齐操作只是在相邻的两帧上进行的，与其他模型中所有相邻帧各自单独对齐到目标帧的方式相比，渐对齐融合机制极大提高了重建模型对复杂运动的鲁棒性。另外，在某些基于光流的对其方法中，是对原图像进行对齐的，这极易受到噪声或遮挡的影响，而渐对齐融合机制是对经过特征提取后的特征图进行对齐，不易受到原图像中遮挡、模糊和噪声的影响。所以渐对齐融合机制不但可以有效提高对齐的准确性，而且能够对齐融合更多数量的相邻帧，代表着可以使用更多的场景信息，有助于提高模型的重建效果。

本发明采用随机长度训练机制，变长输入是要求图像超分辨率重建模型能够在不影响重建效果的前提下，允许使用者输入不同长度的视频图像序列，可以根据真实数据的特点，自主选择合适的输入长度。当相邻图像之间不存在有用的互补信息，那么选择只输入目标帧图像，若相邻帧可以提供额外的有用特征，则选择合适的输入长度，这对图像超分辨率重建技术的应用有着重要意义。通过随机长度训练机制，虽然输入长度固定不变，但是在重建过程中，在当前帧的前后两个方向，渐对齐融合网络所对齐融合的视频帧数量是随机的。这样可以使得渐对齐融合网络学习到不同数量视频帧的特征融合映射，使得模型在测试时不受输入视频帧数量的影响，同时保证模型的重建效果。

综上，本发明通过渐对齐融合和随机长度训练两种创新机制，不但提高了视频超分辨率重建的效果，而且允许模型输入任何长度的图像序列，包括输入序列的总长度和单侧序列长度，大大提高了视频超分辨率重建的应用范围。

虽然，本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种基于深度学习的变长输入超分辨率视频重建方法，其特征在于，包括以下步骤：

步骤1，构建随机长度的训练样本，获取训练集；

2.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述构建随机长度的训练样本为：

首先，给定输入序列长度K，K＞0；选取数据集；

其次，给定待重建的目标帧；

其中，x为通过均匀分布随机得到的整数，x＝0，1，...，K-1。

3.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述获取训练集为：

4.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述采用训练集对超分辨率视频重建网络模型进行训练，具体步骤为：

3.8，对超分辨率视频重建网络模型的参数进行优化更新；

5.根据权利要求4所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述采用渐对齐融合模块对特征图像序列进行渐对齐特征融合，具体为：

首先，对于目标帧左侧的特征图像序列：令F^l为目标帧左侧特征图像；从最左端特征图像F¹开始，将第一帧特征图像F¹对齐到第二帧特征图像F²，再将对齐后的第一帧特征图像和第二帧特征图像进行融合，得到融合后的特征图像F^2′，令F^l＝F^2′；将融合后的特征图像F^2′对齐至第三帧特征图像F³，再融合，对应得到F^3′，令F^l＝F^3′；依次类推，直至F^t-1，则F^l＝F^t-1′；

其次，对于目标帧右侧的特征图像序列：令F^r为目标帧右侧特征图像；从最右端特征图像F^k开始，将最后一帧特征图像F^k对齐到倒数第二帧特征图像F^k-1，再将对齐后的两帧特征图像进行融合，得到融合后的特征图像F^k-1′，令F^r＝F^k-1′；将融合后的特征图像F^k-1′对齐至倒数第三帧特征图像F^k-2，再融合，对应得到F^k-2′，令F^r＝F^k-2′；依次类推，直至F^t+1，则F^r＝F^t ^+1′；

6.根据权利要求5所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述将第一帧特征图像F¹对齐到第二帧特征图像F²，具体为：设定第一帧特征图像F¹与第二帧特征图像F²的尺寸分别为W×H×C，其中，W是特征图的宽度，H是特征图的高度，C是特征图的通道数；

7.根据权利要求5所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，将多个特征图像进行融合，其具体为：

(a)将M个待融合特征图像通过对位元素相加进行初步融合，得到初步融合矩阵U：

其中，U_i表示第i个待融合特征图像；

(b)对初步融合矩阵U进行全局平均池化，得到池化后结果s，

(c)使用两个全连接层建立特征图各通道间的相关性模型：

z＝W₂·(δ(W₁·U))

v_i＝CNN_1×1(W₃，U_i)

其中，CNN_1×1(·)表示卷积核为1×1的卷积层；W₃表示卷积层的权重矩阵；

(e)计算特征矩阵总的相关性{a_i}：

a_i＝v_i·z

(f)使用sigmoid函数对{a_i}进行重标定，得到总权重向量{b_i}：

其中，j＝1，2，...，M；(m，n，c)表示某一像素点的位置坐标；b_{i，m，n，c}表示第i个待融合特征图像的像素点(m，n，c)处的权重；

其中，⊙表示对位元素相乘。

8.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述深度残差模块采用多个改进的残差模块堆叠而成。

9.根据权利要求8所述的基于深度学习的变长输入超分辨率视频重建方法，其特征在于，所述改进的残差模块包含四个卷积层，其中，输入通道数设定为C，第一个卷积层的卷积核大小为1×1，通道数为6×C；第二个卷积层的卷积核大小为1×1，通道数为C/2；第三个卷积层的卷积核大小为3×3，通道数为C/2；第四个卷积层的卷积核大小为1×1，通道数为C。