CN112365403A

CN112365403A - 一种基于深度学习和相邻帧的视频超分辨率恢复方法

Info

Publication number: CN112365403A
Application number: CN202011310786.9A
Authority: CN
Inventors: 杜晓炜; 周洪超; 段恩悦; 周斌
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-02-12
Anticipated expiration: 2040-11-20
Also published as: CN112365403B

Abstract

本发明涉及一种基于深度学习和相邻帧的视频超分辨率恢复方法，包括步骤如下：(1)数据预处理：(2)数据增强：(3)数据转换：(4)构建网络架构，网络包括帧对齐模块、帧融合模块、重建模块；(5)对每一个需要进行超分辨率恢复的当前视频图像帧，和它的前后n帧(共2n+1帧)图像输入步骤(4)构建好的网络架构中；输出恢复后的超分辨率视频。本发明使得到的图像有更好的效果。

Description

一种基于深度学习和相邻帧的视频超分辨率恢复方法

技术领域

本发明涉及一种基于深度学习和相邻帧的视频超分辨率恢复方法，属于计算机图像处理技术领域。

背景技术

超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题，在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。在实际工作生活中，由于设备限制等原因，获取到的视频可能会出现分辨率低的情况，导致诸多问题。针对这种情况，我们需要对这种视频进行超分辨率恢复，以得到更高质量的视频。随着深度学习技术的发展，基于深度学习的超分方法在多个测试任务上，取得了目前最优的性能和效果。

在视频超分辨率恢复领域，现有方法通常采用的方法是将超分辨率图片简单叠加。具体而言，就是将视频每一帧图片独立输入图片超分辨率网络，然后将得到的超分辨率图片作为视频的每一帧，组合恢复成超分辨率视频。现有技术存在一些缺点，比如，丢失了视频中非常丰富的相邻帧的时序信息和相关性信息。我们知道，视频中相邻帧通常具有相似信息，如果我们的网络可以充分利用这些信息，那么恢复出的图片无疑会得到更好的效果；而现有技术通常简单地将图片独立输入网络进行超分辨率恢复，就会丢失大量相邻帧之间的有意义的信息。除此之外，还有技术仅仅将相邻帧一起同时输入网络，也只是利用了相邻帧的相似性，并没有利用它们的时间顺序，这同样会导致一定的信息丢失。

中国专利文献CN110415173A公开了一种基于三维总变分的图像超分辨率方法，包括以下步骤：S1：输入低分辨率图像序列；S2：图像预处理步骤，对S1中的低分辨率图像进行插值预处理；S3：构建TV2++正则项；S4：构建指数型罚函数(Exponential-Type Penalty,ETP)非凸低秩正则项；S5：对所建算法模型进行优化求解，直到算法达到收敛阈值，输出高分辨率图像结果；S6：计算相关图像质量评价指标。但是,该专利技术方案采用的是机器学习，学习到的特征过于单一，不够丰富；构建的TV2++正则项仅仅将参考帧与相邻帧信息混合，并未对它们单独提取特征图，并未学习到它们本身的信息；未考虑到相邻帧图片仍存在局部的移动，所以仅仅将相邻帧融合在一起不能使相邻帧与参考帧进行图片中物体的对齐，这种偏差的存在使得恢复效果并不理想。

发明内容

针对现有技术的不足，本发明提供了一种基于深度学习和相邻帧的视频超分辨率恢复方法。

本发明旨在充分利用需要恢复的视频帧的相邻帧信息，和它们之间的关系，对视频进行更好得恢复。本发明采用的方法是将相邻帧按时间顺序一同输入设计的深度神经网络，且对于该神经网络，加入了一些新的设计，使这个神经网络不仅可以利用相邻帧之间的相似性，也可以利用到相邻帧的时间顺序，从而对视频进行更好的恢复。在超分辨率常用的指标PSNR上，取得了更好的效果。

术语解释：

1、全卷积：即在运算过程中全部采用卷积方式，没有采用全连接方式。

2、普通卷积：即CNN中最基础的操作，用卷积核在上一层得到的图上滑动，并计算结果。

3、可变形卷积：可变形卷积是指卷积核在每一个元素上额外增加了一个参数方向参数，这样卷积核就能在训练过程中扩展到很大的范围。这些参数是通过训练得到的。

4、下采样卷积：采用的卷积操作，使特征图通过这样的卷积操作之后，尺寸变小。

5、双线性插值：又称为双线性内插。在数学上，双线性插值是有两个变量的插值函数的线性插值扩展，其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法，广泛应用在信号处理，数字图像和视频处理等方面。

5、细胞：LSTM的关键是细胞状态。细胞状态像传送带一样，它贯穿整个链条，只有一些次要的线***互作用。因此，信息很容易以不变的方式流过。一个LSTM里面包含三个门来控制细胞状态。

6、像素重组：将一个(C×r²,H,W)大小的图转变为一个(C,r×H,r×W)大小的图。以C＝1,r＝2为例，具体方式为，将输入图中的像素(i,x,y),(i+1,x,y),(i+2,x,y),(i+3,x,y)分别对应到输出图的像素(i,x,y),(i,x+1,y),(i,x,y+1),(i,x+1,y+1)。

本发明的技术方案如下：

一种基于深度学习和相邻帧的视频超分辨率恢复方法，包括步骤如下：

(1)数据预处理：

对数据集进行预处理，将数据集划分为训练集和测试集；

对数据集进行预处理，所选数据集是用于视频超分辨率的数据集REDS。将数据集划分为训练集和测试集；训练集包括266个视频，测试集包括4个视频。其中每个视频都有100帧。低分辨率和高分辨率图像分辨率分别为320*180*3和1280*720*3。其中320*180和1280*720表示图像尺寸大小，3表示图像为三通道。

(2)数据增强：

将图像裁剪为小图片，以方便训练。并随机对图像进行翻转、旋转来增加数据；

(3)数据转换：

将所有视频帧转换成连续图像，将处理好的图像储存为lmdb格式；

(4)构建网络架构，网络包括帧对齐模块、帧融合模块、重建模块；

所述帧对齐模块用于将当前视频图像帧与它的前后各n帧相邻视频图像帧(共2n帧相邻帧)对齐；所述帧融合模块用于将所述帧对齐模块输出的对齐后的2n+1帧特征图融合，得到融合了2n+1帧信息的一张特征图；融合过程如图3；所述重建模块用于将所述帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合，以得到最终结果。

(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试；输入当前帧和相邻的前后各n帧，即每次输入图片2n+1张；在实验中我们选择n＝2，来兼顾训练时间和训练效果。

(6)将当前帧和相邻的前后各n帧输入训练好的网络中，得到的结果进行组合，转为视频，即为最终超分辨率恢复视频结果。

根据本发明优选的，所述帧对齐模块采用全卷积，卷积方式为普通卷积和可变形卷积，使用金字塔级联结构；金字塔级联结构包括三个层L1层、L2层、L3层，由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图，由L1的特征图下采样卷积得到L2的特征图，由L2的特征图下采样卷积得到L3的特征图；具体结构如图2。即为所述帧对齐模块输出的帧对齐特征图。

将参考帧即第t帧图像，与它的每个相邻帧即第t+i帧图像，分别共同输入帧对齐模块，|i|≤n,i∈N,经过一次卷积得到L1层两张L1的特征图，尺寸为(N,C,H,W)，N即batchsize，是指每个batch输入N张图片；C是指图片的通道数；H是指图片的高度；W是指图片的宽度。将两张L1的特征图分别进行下采样卷积，得到L2层两张尺寸为(N,C,H//2,W//2)的L2的特征图；将两张L2的特征图再次分别进行下采样卷积，得到L3层两张尺寸为(N,C,H//4,W//4)的L3的特征图；

将两张尺寸为(N,C,H//4,W//4)的L3的特征图按通道维进行组合，成为一张尺寸为(N,2C,H//4,W//4)的特征图，对这张特征图进行卷积，得到尺寸为(N,C,H//4,W//4)的偏差特征图3，将偏差特征图3和第t+i帧图像的L3的特征图组合，进行可变形卷积，得到对齐特征图3；

对两张尺寸为(N,C,H//2,W//2)的L2的特征图，首先，将这两张尺寸为(N,C,H//2,W//2)的L2的特征图按通道维进行组合，成为一张尺寸为(N,2C,H//2,W//2)的特征图，然后，对这张特征图进行卷积，得到尺寸为(N,C,H//2,W//2)的特征图；将偏差特征图3进行双线性差值，得到尺寸为(N,C,H//2,W//2)的特征图，与这张尺寸为(N,C,H//2,W//2)的特征图按通道维组合成为尺寸为(N,2C,H//2,W//2)的特征图后卷积，得到尺寸为(N,C,H//2,W//2)的偏差特征图2；将偏差特征图2与第t+i帧的L2的特征图按通道维组合，进行可变形卷积，得到尺寸为(N,C,H//2,W//2)的特征图；再次，将对齐特征图3双线性差值得到尺寸为(N,C,H//2,W//2)的特征图与这张特征图组合，得到尺寸为(N,2C,H//2,W//2)的特征图，对这张特征图进行卷积，得到对齐特征图2；

对两张L1的特征图，首先，将两张尺寸为(N,C,H,W)的特征图进行组合，成为一张尺寸为(N,2C,H,W)的特征图，然后，对这张特征图进行卷积，得到尺寸为(N,C,H,W)的特征图；将偏差特征图2进行双线性差值，得到尺寸为(N,C,H,W)的特征图，与这张特征图组合成为尺寸为(N,2C,H,W)的特征图后卷积，得到尺寸为(N,C,H,W)的偏差特征图1；将偏差特征图1与第t+i帧的L1特征图按通道维组合，进行可变形卷积，得到尺寸为(N,C,H,W)的特征图；再次，将对齐特征图2双线性差值得到尺寸为(N,C,H,W)的特征图与这张特征图组合，得到尺寸为(N,2C,H,W)的特征图，对这张特征图进行卷积，得到对齐特征图1；

将对齐特征图1与参考帧的L1特征图按通道维进行组合后卷积，得到尺寸为(N,C,H,W)的偏差特征图，将偏差特征图与对齐特征图1按通道维组合后进行可变形卷积，得到最终的对齐特征图，其尺寸为(N,C,H,W)，即为帧对齐结果；

对于每一帧参考帧图像，都按照上述过程进行(2n+1)次，输出(2n+1)张对齐特征图，送入帧融合模块。

根据本发明优选的，所述帧融合模块采用了两层双向conv-LSTM结构，包括第一层conv-LSTM及第二层conv-LSTM，第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞；

将所述帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM，分别对2n+1张特征图中的任一特征图x_i进行卷积运算，得到特征图x′_i；将特征图x′_i输入第二层conv-LSTM，分别对特征图x′_i进行卷积运算，得到特征图x′_i1，作为所述帧融合模块的输出；

图3以n＝2为例对第一层conv-LSTM进行解释，具体操作为：将所述帧对齐模块中得到的2n+1张特征图输入所述帧融合模块，x_i表示输入的2n+1张特征图，cell表示LSTM的4n+2个细胞，h表示LSTM的状态，conv表示卷积运算，x′_i表示经过第一层conv-LSTM后输出的每帧特征图；将这2n+1张特征图x′_i作为新的x_i输入第二层conv-LSTM，得到最终的x′_i。最后，我们只取x’作为帧融合模块的最终输出。经过帧对齐模块和帧融合模块，网络学习到了更多更丰富的图像信息，包括时间信息和空间信息。

根据本发明优选的，重建模块：如图4，将所述帧融合模块的输出输入所述重建模块，依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加，得到输出；

上采样采用的方式为卷积，即将(N,C,H/2,W/2)尺寸的图像上采样为(N,C,H,W)尺寸的图像；

经过重建模块，网络在没有丢失原有图像信息的情况下，加入了学习到的高频信息，使图像细节得到了更好的恢复。

根据本发明优选的，随机对图像进行0°、90°、180°、270°旋转和翻转。

本发明的有益效果在于：

1、帧对齐模块中的全卷积可以适应各种尺寸的输入图片；可变形卷积可以更好地采集不规则形状的前景物体信息。而金字塔级联结构可以充分利用图像的细节信息的同时，不丢失图像的高级语义信息。这使特征图拥有更多的高级语义信息。

2、帧融合模块中采用的双向卷积LSTM结构，可以充分利用相邻帧的时序信息，而不是简单地将相邻五张图像组合起来，从而导致丢失了它们之间时序上的关联信息。这种方法可以通过保留更多的时序信息使超分辨率恢复得到更好的效果。

3、重建模块中采用的，将帧融合模块得到的结果与原始图片双线性插值得到的特征图组合起来的操作，既保留了原图像中的低级语义信息和细节信息，又充分利用了前几个卷积模块处理得到的特征图。这一方法使得到的图像拥有更多的高频信息，从而使图像的细节得到更好的恢复。

4、本发明设计构思巧妙，效果显著，具有良好的经济价值和社会效益，值得推广应用。

附图说明

图1为本发明基于深度学习和相邻帧的视频超分辨率恢复方法的流程示意图。

图2为本发明帧对齐模块的结构示意图。

图3为本发明两层双向conv-LSTM结构示意图。

图4为本发明重建模块示意图。

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1：

(1)数据预处理：

对数据集进行预处理，将数据集划分为训练集和测试集；

(2)数据增强：

将图像裁剪为尺寸为64*64的小图片，以方便训练。随机对图像进行翻转、旋转(0°，90°，180°，270°)来增加数据。

(3)数据转换：

帧对齐模块用于将当前视频图像帧与它的前后各n帧相邻视频图像帧(共2n帧相邻帧)对齐；帧融合模块用于将帧对齐模块输出的对齐后的2n+1帧特征图融合，得到融合了2n+1帧信息的一张特征图；融合过程如图3；重建模块用于将帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合，以得到最终结果。

(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试；输入当前帧和相邻的前后各n帧，即每次输入图片2n+1张；在实验中我们选择n＝2，来兼顾训练时间和训练效果。n＝5。

(6)将对每一个需要进行高分辨率恢复的当前视频帧(裁剪后的低分辨率图像，64*64*3)，和它的前后n帧(共2n+1帧)图像输入训练好的网络中，得到的结果进行组合，转为视频，即为最终超分辨率恢复视频结果。

实施例2：

根据实施例1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其区别在于：

帧对齐模块采用全卷积，卷积方式为普通卷积和可变形卷积，使用金字塔级联结构；金字塔级联结构包括三个层L1层、L2层、L3层，由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图，由L1的特征图下采样卷积得到L2的特征图，由L2的特征图下采样卷积得到L3的特征图；具体结构如图2。即为帧对齐模块输出的帧对齐特征图。

将参考帧即第t帧图像，与它的每个相邻帧即第t+i帧图像，分别共同输入帧对齐模块，|i|≤n,i∈N,经过一次卷积得到L1层两张L1的特征图，尺寸为(N,C,H,W)；N即batchsize，是指每个batch输入N张图片；C是指图片的通道数；H是指图片的高度；W是指图片的宽度；将两张L1的特征图分别进行下采样卷积，得到L2层两张尺寸为(N,C,H//2,W//2)的L2的特征图；将两张L2的特征图再次分别进行下采样卷积，得到L3层两张尺寸为(N,C,H//4,W//4)的L3的特征图；

帧融合模块采用了两层双向conv-LSTM结构，包括第一层conv-LSTM及第二层conv-LSTM，第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞；

将帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM，分别对2n+1张特征图中的任一特征图x_i进行卷积运算，得到特征图x′_i；将特征图x′_i输入第二层conv-LSTM，分别对特征图x′_i进行卷积运算，得到特征图x′_i1，作为帧融合模块的输出；

图3以n＝2为例对第一层conv-LSTM进行解释，具体操作为：将帧对齐模块中得到的2n+1张特征图输入帧融合模块，x_i表示输入的2n+1张特征图，cell表示LSTM的4n+2个细胞，h表示LSTM的状态，conv表示卷积运算，x′_i表示经过第一层conv-LSTM后输出的每帧特征图；将这2n+1张特征图x′_i作为新的x_i输入第二层conv-LSTM，得到最终的x′_i。最后，只取x’作为帧融合模块的最终输出。经过帧对齐模块和帧融合模块，网络学习到了更多更丰富的图像信息，包括时间信息和空间信息。

重建模块：如图4，将帧融合模块的输出输入重建模块，依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加，得到输出；

下面按照本实施例的方法进行实验，说明本发明的效果。

测试环境：python3.7；pytorch框架；Ubuntu18.04***；NVIDIA GTX 2080tiGPU。

测试序列：用于视频超分辨率的数据集REDS。测试集包括4个视频，其中每个视频有100帧。

测试指标：本发明使用PSNR进行评测。

测试结果如下：表1是本发明与其他算法在测试数据集下的性能比较(峰值信噪比PSNR)：

表1

本发明使得到的图像拥有更多的高频信息，从而使图像的细节得到更好的恢复。

Claims

1.一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，包括步骤如下：

(1)数据预处理：

对数据集进行预处理，将数据集划分为训练集和测试集；

(2)数据增强：

将图像裁剪为小图片，并随机对图像进行翻转、旋转；

(3)数据转换：

所述帧对齐模块用于将当前视频图像帧与它的前后相邻视频图像帧对齐；所述帧融合模块用于将所述帧对齐模块输出的对齐后的2n+1帧特征图融合，得到融合了2n+1帧信息的一张特征图；所述重建模块用于将所述帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合，以得到最终结果；

(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试；输入当前帧和相邻的前后各n帧，即每次输入图片2n+1张；

2.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，所述帧对齐模块采用全卷积，卷积方式为普通卷积和可变形卷积，使用金字塔级联结构；金字塔级联结构包括三个层L1层、L2层、L3层，由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图，由L1的特征图下采样卷积得到L2的特征图，由L2的特征图下采样卷积得到L3的特征图；

3.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，所述帧融合模块采用了两层双向conv-LSTM结构，包括第一层conv-LSTM及第二层conv-LSTM，第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞；

将所述帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM，分别对2n+1张特征图中的任一特征图x_i进行卷积运算，得到特征图x′_i；将特征图x′_i输入第二层conv-LSTM，分别对特征图x′_i进行卷积运算，得到特征图x′_i1，作为所述帧融合模块的输出。

4.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，将所述帧融合模块的输出输入所述重建模块，依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加，得到输出。

5.根据权利要求4所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，上采样采用的方式为卷积，即将N/2*N/2*C尺寸的图像上采样为N*N*C尺寸的图像。

6.根据权利要求1-5任一所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法，其特征在于，随机对图像进行0°、90°、180°、270°翻转和旋转。