CN113610707B

CN113610707B - 一种基于时间注意力与循环反馈网络的视频超分辨率方法

Info

Publication number: CN113610707B
Application number: CN202110838280.3A
Authority: CN
Inventors: 张庆武; 朱鉴; 蔡金峰; 陈炳丰; 蔡瑞初; 郝志峰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-02-09
Anticipated expiration: 2041-07-23
Also published as: CN113610707A

Abstract

本发明提出一种基于时间注意力与循环反馈网络的视频超分辨率方法，将与目标帧距离不同的相邻帧所提供的视觉信息对超分重建效果的贡献度不同的特点、人类视觉***的反馈机制、以及人类学习新知识过程中的循环反馈指导特性运用到视频超分辨率技术中，采用时间注意力模块学习视频序列在时间轴上的注意力图，能有效区分不同时间度的相邻帧对最后重建效果贡献；将视频序列进行重新排列后由循环反馈模块进行循环反馈超分，最终得到超分辨率网络模型，该模型具有着重学习对超分重建贡献度大的信息的特性以及强大的高层特征学习能力，从而提高了视频超分辨率效果。

Description

一种基于时间注意力与循环反馈网络的视频超分辨率方法

技术领域

本发明涉及视频处理技术领域，特别是涉及一种基于时间注意力与循环反馈网络的视频超分辨率方法。

背景技术

视频超分辨率方法是从低分辨率视频中生成高分辨率视频的方法，作为一种典型的计算机视觉问题，几十年来得到了广泛的研究。不仅在理论上具有重要意义，而且在实际应用中也有迫切需求。例如在视频监控方面，银行、车站、机场、居民小区等都会设有多个监控摄像头，通过视频超分辨率技术，可以提高视频质量，方便观察人物及物品的细节信息；在交通管理方面，由于摄像头观测的场景较大，无法获取高速行驶的车辆及过往行人的细节信息，利用多视频超分辨率重建技术，可以对车辆违法或肇事过程进行更详细的重现，并有利于对大场景中的车牌或某个人物面部进行辨识等；在刑侦工作方面，对于案发现场获得的低分辨率视频(例如银行、街道等场合中摄像头拍摄到的视频)，利用视频超分辨率技术，则能提高视频质量；在体育运动方面，常常会有许多高速运动的物体需要捕捉(例如高速运动的网球、乒乓球等)，视频超分辨率重建可以帮助我们更清晰地观察这些动态事件的细节。随着视频超分辨率相关理论和技术的发展，视频超分辨率已成为计算机视觉领域的热点研究问题之一。

视频超分辨率任务和单帧图像超分辨率相比增加了时序信息。按照利用时序信息的不同方式，基于深度学习的视频超分辨率技术可以大致分为(1)基于多帧级联的方法；(2)基于3D卷积的方法；(3)基于循环结构的方法。

基于多帧级联的方法可以看作是单帧超分辨率换成多帧输入。这种方法如果想要利用好时序信息都离不开相邻帧向目标帧对齐，而帧对齐方式又可以分为光流法对齐和可变形卷积对齐。Wang等人提出的EDVR网络就是属于可变形卷积对齐方法中的一种[1]WangX,Chan K,Yu K,et al.EDVR:Video Restoration with Enhanced DeformableConvolutional Networks[C]//IEEE.IEEE,2019，EDVR通过多尺度的变形卷积将相临帧的特征向当前帧对齐，后续再进行多帧特征级联融合。RBPN网络[2]Haris M,ShakhnarovichG,Ukita N.Recurrent Back-Projection Network for Video Super-Resolution[C]//2019IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).IEEE,2019是属于这类方法中的光流法对齐，RBPN通过把SISR和MISR的思想结合起来利用相邻帧的信息，光流法常常因为在像素层面对齐而引入了过多的噪声从而影响最后的重建结果精度。基于多帧级联的方法很好的利用了多帧信息互补的优点，但只是把特征级联融合到了一起，并未真正的表示帧间的运动信息。

基于3D卷积的方法是利用3D卷积本身可以学习时间信息的特点来处理视频中的时序信息，Caballero等人首先提出3D卷积可以看作缓慢的帧间信息融合过程。Huang等人通过使用3D卷积结合RNN的思想提出BRCN这个模型[3]Y Huang,W Wang,LWang.Bidirectional Recurrent Convolutional Networks for Multi-Frame Super-Resolution[J].MIT Press,2015.，但他们的工作使用的网络仍然很浅层，能学习到的信息非常有限。因此Li等人提出的FSTRN[4]Li S,He F,Du B,et al.Fast Spatio-TemporalResidual Network for Video Super-Resolution[J].2019，采用了带跳跃连接的深层3D卷积网络，在网络中使用了可分离的3D卷积来减小3D卷积的计算量。

基于循环结构的方法通过RNN，LSTM等进行视频中的时序信息融合。这类方法中最早提出的是双向RNN，它的网络容量较小，也没有后续的帧间对齐步骤。Guo等人通过采用运动补偿模块和卷积LSTM层改进了双向RNN。视频超分辨率(VSR)的最新进展展现了深度学习的力量，可以实现更好的重建性能。然而，现有的基于深度学习的视频SR方法基本上都是逐渐融合输入的多帧时序信息，再经过一次重建后得到最终的结果。现存的方法中，(1)在时序信息利用方面尚未充分利用与目标帧距离不同的相邻帧所提供的视觉信息对超分重建效果的贡献度不同的特点；(2)尚未充分利用人类视觉***中常见的反馈机制，以及人类学习新知识过程中的循环反馈指导特性。

发明内容

本发明为克服以上至少一种技术问题，提供一种基于时间注意力与循环反馈网络的视频超分辨率方法，构建一种具有着重学习对超分重建贡献度大的信息的特性以及强大的高层特征学习能力的模型，有效提高视频超分辨率的效果。

为解决上述技术问题，本发明的技术方案如下：

一种基于时间注意力与循环反馈网络的视频超分辨率方法，包括以下步骤：

S1：构建超分辨率网络模型，包括时间注意力模块和循环反馈模块；

S2：从网络中获取公开的视频超分训练数据集并对数据集进行预处理，获取训练的低分辨率(LR)视频序列；

S3：确定需超分的目标帧，对其进行上采样，获取目标帧缺乏细节的初步超分结果；

S4：将LR视频序列、初步超分结果输入超分辨率网络模型中，提取LR视频序列的特征图，并对其采用可变形卷积向目标帧进行对齐操作，获得对齐LR特征图序列；

S5：将对齐LR特征图序列输入时间注意力模块中，得到经过时间维度注意后的LR特征图序列；

S6：对LR特征图序列顺序重排序后，输入循环反馈模块中进行循环反馈超分，获取目标帧的循环反馈超分结果序列；

S7：根据循环反馈超分结果序列设置损失函数，对超分辨率网络模型进行训练，获取训练好的超分辨率网络模型；

S8：利用训练好的超分辨率网络模型对待超分视频进行超分辨重建。

其中，所述视频超分训练数据集从现有公开的高分辨数据集Vimeo-90k中获取。

在所述步骤S2中，所述预处理过程具体为：

S21：对所有视频超分训练数据，在相同的位置截取同样帧数的原始视频帧；

S22：对原始视频帧进行下采样，得到LR视频帧；

S23：将所有LR视频帧转换成tensor数据结构，进行归一化处理；

S24：将归一化处理后的LR视频帧进行随机的数据增强操作。

其中，在所述步骤S22中，采用高斯核模糊下采样方法对原始视频帧进行下采样操作。

其中，在所述步骤S3中，采用双三次插值上采样方法对需超分的目标帧进行上采样操作，获取目标帧缺乏细节的初步超分结果。

其中，所述超分辨率网络模型还包括多尺度特征提取模块；在所述步骤S4中，将LR视频序列输入多尺度特征提取模块中，每种视频获得k种size的特征图，其中，k取正整数；

其中，所述采用可变形卷积向目标帧进行对齐操作具体采用EDVR模型前端的PCD特征对齐模块，将特征提取得到每种size的特征图输入特征对齐模块，根据size从小到大逐步向上进行可变形卷积对齐操作，获得向目标帧对齐后的对齐特征图序列(F₁,…,F_c,…,F_n)；其中，n表示输入的LR视频序列的帧数，F_n表示第n个视频帧LR特征图，F_c表示目标帧的LR特征图。

其中，所述步骤S5中，所述时间注意力模块由一个BN层和一个卷积层组成；具体实现过程为：

将对齐LR特征图(F₁,…,F_c,…,F_n)序列输入时间注意力模块中，先经过BN层后，再经过卷积层计算，得到一个单通道特征映射将其进一步级联；然后通过softmax函数，沿着时间维度计算权值得到注意力权重图(M₁,…,M_c,…,M_n)，其中，n个权重图的同一个位置累加和＝1；最后与对齐LR特征图相乘得到经过注意力后的LR特征图序列即：

其中，在所述步骤S6中，循环反馈超分处理过程具体为：

S61：将LR特征图序列顺序重排序后，将LR特征图序列对应的第一个特征图输入循环反馈模块中进行首次循环反馈超分，获得该次超分特征图；

S62：对该次超分得到的超分特征图进行重建，获得目标帧该次重建超分残差信息，并与目标帧初步超分结果相加，获取目标帧该次的超分结果；

S63：根据LR特征图序列顺序，依次将对应的特征图和目标帧前一次循环输出的超分特征图输入循环反馈模块中进行循环反馈超分，直至循环结果，获得目标帧多次的超分结果，得到目标帧的循环反馈超分结果序列。

其中，所述步骤S61具体为：

将LR特征图序列按距离目标帧的距离由近到远进行重排序，且在序列的中间，结尾位置重用目标帧的特征图用于指导循环反馈超分模块的残差信息提取，即：

将重排序的LR特征图序列输入循环反馈模块，按特征图顺序进行n+2次循环反馈超分，每次循环超分输入内容为该次循环对应的LR视频帧特征图和前一次循环结束输出的特征图，输出结果为该次循环超分的特征图，即：

其中，表示第n次循环反馈超分输出的目标帧的超分特征图，f_FB(*)表示循环反馈超分模块，/>表示第n-1次循环反馈超分输出的目标帧的超分特征图；首次循环时，即；/>

其中，所述步骤S62中，对每次循环反馈得到的超分特征图进行重建，获得目标帧的该次重建超分残差信息，并与目标帧初步超分结果相加，获得目标帧的该次超分结果；具体为：

将目标帧的该次超分特征图输入超分重建模块进行重建，获得目标帧的重建残差信息/>即：

其中，表示第n次循环的目标帧的超分重建残差信息，f_RB(*)表示重建模块；目标帧的超分重建残差信息与步骤S3中获得的目标帧的初步超分结果在像素级别对应像素位置相加，得到目标帧的该次循环超分视频帧，即：

其中，表示第n次循环的目标帧的该次超分视频帧，f_up(*)表示上采样操作，I_C表示目标帧。

其中，在所述步骤S7中，所述损失函数为L2范数损失函数，具体表示为：

其中，Wⁿ表示第n次循环所得目标帧超分结果所计算损失在总损失函数中所占的比列，I_HR表示目标帧的groundtruth；

接着，视频超分训练数据集对构建的超分辨率网络模型进行迭代训练，最终获得训练好的超分辨率网络模型。

上述方案中，本方案首先将视频序列中需超分的目标帧进行双三次插值上采样，获得目标帧缺乏细节的初步超分结果；再将训练视频数据集包含的视频帧序列经过高斯模糊核退化后的LR视频序列输入视频超分辨率网络模型进行特征图提取、特征图对齐的操作，获得对齐后的视频帧序列的LR特征图；所得LR特征图序列再经过时间注意力模块，学习视频序列在时间轴上的注意力图，从而区分不同时间跨度的相邻帧对最后重建效果的贡献度。

接着，对经过时间注意力后的视频帧序列的LR特征图按照距离目标帧从近到远进行重排列，并在视频序列的中间、结尾处重用目标帧特征图，用于循环反馈指导距离较远帧的特征学习；最后对重排后的视频帧序列的LR特征图进行逐步循环反馈超分操作，获得具有更高层特征的超分特征图；最后将目标帧的超分特征图进行重建，获得目标帧的重建超分残差信息，并与目标帧的初步超分结果帧相加，获得目标帧的最终超分视频帧；最后循环超分LR特征图序列，直至所有特征帧输入循环反馈模块获得目标帧的超分帧序列完成超分。通过设置损失函数，对视频超分辨率网络模型进行训练，获得训练好的超分辨率网络模型，利用训练好的超分辨率网络模型对待超分视频进行超分辨率重建；该方法有效提高了视频超分辨率效果，重建出来的视频帧的细节效果明显提高。

本方案提供的一种基于时间注意力与循环反馈网络的视频超分辨率方法，将与目标帧距离不同的相邻帧所提供的视觉信息对超分重建效果的贡献度不同的特点、人类视觉***的反馈机制、以及人类学习新知识过程中的循环反馈指导特性运用到视频超分辨率技术中，使得模型具有着重学习对超分重建贡献度大的信息的特性以及强大的高层特征学习能力，从而提高了视频超分辨率效果。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于时间注意力与循环反馈网络的视频超分辨率方法，采用时间注意力模块学习视频序列在时间轴上的注意力图，能有效区分不同时间度的相邻帧对最后重建效果贡献；将视频序列进行重新排列后由循环反馈模块进行循环反馈超分，最终得到超分辨率网络模型，明显提高了视频超分辨效果，重建出的视频帧，其细节重建效果更佳明显。

附图说明

图1为本发明一实施例所述方法流程示意图；

图2为本发明一实施例所述的循环反馈模块内部展开图；

图3为本发明一实施例所述***的数据流向图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于时间注意力与循环反馈网络的视频超分辨率方法，包括以下步骤：

在本实施例中，选取现有公开的高分辨率数据集Vimeo-90k数据集中的视频作为训练视频数据，对视频数据进行预处理。

在本实施例中，训练视频数据为5帧，选择中间帧作为需超分的目标帧，对目标帧进行双三次插值上采样操作，获得初步超分视频帧。

本实施例中，如图2所示，视频超分辨率网络模型包括多尺度特征提取模块、可变形卷积对齐模块、时间注意力模块、循环反馈模块和特征超分模块；将归一化的5帧视频帧序列输入视频超分辨率网络模型的多尺度特征提取模块，多尺度特征提取模块由5个基础残差块组成，通过卷积下采样获得多尺度特征组；可变形卷积对齐模块具体为现有的EDVR模型前端的PCD特征对齐模块；

将归一化后的5帧LR视频帧输入多尺度特征提取模块，每帧视频获得从大到小的3种尺寸的特征图；

将每种尺寸的特征图输入特征对齐模块进行从小到大的可变形卷积对齐、不同尺寸特征图的融合操作，获得5帧视频序列的对齐特征图。

S5：将对齐的5帧LR特征图序列输入时间注意力模块中，得到经过时间维度注意后的LR特征图序列，时间注意力模块由一个BN层和一个3x3卷积层组成；

把对齐后的特征图序列(F₁,F₂,F₃,F₄,F₅)，先经过BN层，然后经过一个3x3卷积计算一个单通道特征映射它们被进一步级联，然后通过softmax函数，沿着时间维度计算权值得到注意力权重图(M₁,M₂,M₃,M₄,M₅)，5个权重图时间轴上的同一个空间位置累加和＝1)，最后与对齐后的特征图序列相乘得到经过注意力后的LR特征图序列即：

更具体的，在所述步骤S2中，所述预处理过程具体为：

S21：对所有视频超分训练数据，在相同的位置截取长为448、宽为256的原始视频帧；

S22：高斯模糊核下采样方法对原始视频帧进行下采样，使其缩小4倍，得到长为112、宽为64的LR视频帧；

S24：将归一化处理后的LR视频帧进行随机的数据增强操作，所述数据增强操作包括翻转操作和镜像操作。

更具体的，在所述步骤S6中，循环反馈超分处理过程具体为：

更具体的，所述步骤S61具体为：

下标重新编号后变为

如图3所示，本实施例中，将7组LR特征图输入反馈模块，按特征图顺序进行循环反馈超分，每次循环超分输入内容为该次循环对应的LR视频帧特征图和前一次循环结束输出的目标帧的超分特征图，输出结果为该次循环超分的特征图；

第1次迭代，n＝1：

其中，表示第1次循环反馈超分输出的目标帧的超分特征图，f_FB(*)表示循环反馈超分模块，/>表示第0次循环反馈超分输出的目标帧的超分特征图；首次循环时，/>即；/>

其中，表示第1次循环的目标帧的超分重建残差信息，f_RB(*)表示重建模块；

目标帧的超分重建残差信息与步骤S4中获得的目标帧的初步超分结果在像素级别对应像素位置相加，得到目标帧的该次循环超分视频帧，即：

其中，表示第1次循环的目标帧的该次超分视频帧，f_up(*)表示上采样操作，I_C表示目标帧；

接着，把LR特征图序列输入循环反馈块直至循环结束，获得目标帧的7次循环反馈超分结果序列，即；

第2次迭代，n＝2：

其中，表示第2次循环反馈超分输出的目标帧的超分特征图，/>表示第2次循环的目标帧的超分重建残差信息，/>表示第2次循环的目标帧的超分视频帧；

…

第7次迭代，n＝7：

其中，表示第7次循环反馈超分输出的目标帧的超分特征图，/>表示第7次循环的目标帧的超分重建残差信息，/>表示第7次循环的目标帧的超分视频帧；

将目标帧的最终超分视频帧组成目标帧的最终超分视频帧序列

更具体的，在所述步骤S7中，所述损失函数为L2范数损失函数，具体表示为：

其中，Wⁿ表示第n次循环所得目标帧超分结果所计算损失在总损失函数中所占的比列，n＝7；I_HR表示目标帧的高分辨率原始帧g；本实施例中，Wⁿ取值都为1。

本实施例中，将7次循环反馈得到的目标帧的最终超分视频帧全部用于损失函数的计算，取最后一次循环反馈的目标帧的超分视频帧/>作为目标帧I_C的超分结果。

在具体实施过程中，采用本实施例提供的方法对待超分视频进行超分辨率重建，可以在更少参数量的情况下有效提高视频超分辨率效果，重建出来的视频帧的细节效果优秀，为卫星图像、视频监控、医学成像等技术领域提供有力支持。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于时间注意力与循环反馈网络的视频超分辨率方法，其特征在于，包括以下步骤：

S2：从网络中获取公开的视频超分训练数据集并对数据集进行预处理，获取训练的LR视频序列；

2.根据权利要求1所述的一种基于时间注意力与循环反馈网络的视频超分辨率方法，其特征在于，在所述步骤S2中，所述预处理具体为：

S22：对原始视频帧进行下采样，得到LR视频帧；

S24：将归一化处理后的LR视频帧进行随机的数据增强操作。

3.根据权利要求2所述的一种基于时间注意力与循环反馈网络的视频超分辨率方法，其特征在于，在所述步骤S22中，采用高斯核模糊下采样方法对原始视频帧进行下采样操作。

4.根据权利要求1所述的一种基于时间注意力与循环反馈网络的视频超分辨率方法，其特征在于，在所述步骤S3中，采用双三次插值上采样方法对需超分的目标帧进行上采样操作，获取目标帧缺乏细节的初步超分结果。

5.根据权利要求1所述的一种基于时间注意力与循环反馈网络的视频超分辨率方法，其特征在于，所述超分辨率网络模型还包括多尺度特征提取模块；在所述步骤S4中，将LR视频序列输入多尺度特征提取模块中，每种视频获得k种尺寸的特征图，其中，k取正整数；

其中，所述采用可变形卷积向目标帧进行对齐操作具体采用EDVR模型前端的PCD特征对齐模块，将特征提取得到每种尺寸的特征图输入特征对齐模块，根据尺寸从小到大逐步向上进行可变形卷积对齐操作，获得向目标帧对齐后的对齐特征图序列(F₁,…,F_c,…,F_n)；其中，F_n表示第n个视频帧LR特征图，F_c表示目标帧的LR特征图。