CN112365403A - 一种基于深度学习和相邻帧的视频超分辨率恢复方法 - Google Patents
一种基于深度学习和相邻帧的视频超分辨率恢复方法 Download PDFInfo
- Publication number
- CN112365403A CN112365403A CN202011310786.9A CN202011310786A CN112365403A CN 112365403 A CN112365403 A CN 112365403A CN 202011310786 A CN202011310786 A CN 202011310786A CN 112365403 A CN112365403 A CN 112365403A
- Authority
- CN
- China
- Prior art keywords
- feature map
- size
- frame
- convolution
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013135 deep learning Methods 0.000 title claims abstract description 16
- 238000011084 recovery Methods 0.000 title claims abstract description 13
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000006243 chemical reaction Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 17
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 claims description 15
- 101150064138 MAP1 gene Proteins 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 10
- 230000006798 recombination Effects 0.000 description 5
- 238000005215 recombination Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于深度学习和相邻帧的视频超分辨率恢复方法,包括步骤如下:(1)数据预处理:(2)数据增强:(3)数据转换:(4)构建网络架构,网络包括帧对齐模块、帧融合模块、重建模块;(5)对每一个需要进行超分辨率恢复的当前视频图像帧,和它的前后n帧(共2n+1帧)图像输入步骤(4)构建好的网络架构中;输出恢复后的超分辨率视频。本发明使得到的图像有更好的效果。
Description
技术领域
本发明涉及一种基于深度学习和相邻帧的视频超分辨率恢复方法,属于计算机图像处理技术领域。
背景技术
超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析、生物特征识别、视频监控与安全等实际场景中有着广泛的应用。在实际工作生活中,由于设备限制等原因,获取到的视频可能会出现分辨率低的情况,导致诸多问题。针对这种情况,我们需要对这种视频进行超分辨率恢复,以得到更高质量的视频。随着深度学习技术的发展,基于深度学习的超分方法在多个测试任务上,取得了目前最优的性能和效果。
在视频超分辨率恢复领域,现有方法通常采用的方法是将超分辨率图片简单叠加。具体而言,就是将视频每一帧图片独立输入图片超分辨率网络,然后将得到的超分辨率图片作为视频的每一帧,组合恢复成超分辨率视频。现有技术存在一些缺点,比如,丢失了视频中非常丰富的相邻帧的时序信息和相关性信息。我们知道,视频中相邻帧通常具有相似信息,如果我们的网络可以充分利用这些信息,那么恢复出的图片无疑会得到更好的效果;而现有技术通常简单地将图片独立输入网络进行超分辨率恢复,就会丢失大量相邻帧之间的有意义的信息。除此之外,还有技术仅仅将相邻帧一起同时输入网络,也只是利用了相邻帧的相似性,并没有利用它们的时间顺序,这同样会导致一定的信息丢失。
中国专利文献CN110415173A公开了一种基于三维总变分的图像超分辨率方法,包括以下步骤:S1:输入低分辨率图像序列;S2:图像预处理步骤,对S1中的低分辨率图像进行插值预处理;S3:构建TV2++正则项;S4:构建指数型罚函数(Exponential-Type Penalty,ETP)非凸低秩正则项;S5:对所建算法模型进行优化求解,直到算法达到收敛阈值,输出高分辨率图像结果;S6:计算相关图像质量评价指标。但是,该专利技术方案采用的是机器学习,学习到的特征过于单一,不够丰富;构建的TV2++正则项仅仅将参考帧与相邻帧信息混合,并未对它们单独提取特征图,并未学习到它们本身的信息;未考虑到相邻帧图片仍存在局部的移动,所以仅仅将相邻帧融合在一起不能使相邻帧与参考帧进行图片中物体的对齐,这种偏差的存在使得恢复效果并不理想。
发明内容
针对现有技术的不足,本发明提供了一种基于深度学习和相邻帧的视频超分辨率恢复方法。
本发明旨在充分利用需要恢复的视频帧的相邻帧信息,和它们之间的关系,对视频进行更好得恢复。本发明采用的方法是将相邻帧按时间顺序一同输入设计的深度神经网络,且对于该神经网络,加入了一些新的设计,使这个神经网络不仅可以利用相邻帧之间的相似性,也可以利用到相邻帧的时间顺序,从而对视频进行更好的恢复。在超分辨率常用的指标PSNR上,取得了更好的效果。
术语解释:
1、全卷积:即在运算过程中全部采用卷积方式,没有采用全连接方式。
2、普通卷积:即CNN中最基础的操作,用卷积核在上一层得到的图上滑动,并计算结果。
3、可变形卷积:可变形卷积是指卷积核在每一个元素上额外增加了一个参数方向参数,这样卷积核就能在训练过程中扩展到很大的范围。这些参数是通过训练得到的。
4、下采样卷积:采用的卷积操作,使特征图通过这样的卷积操作之后,尺寸变小。
5、双线性插值:又称为双线性内插。在数学上,双线性插值是有两个变量的插值函数的线性插值扩展,其核心思想是在两个方向分别进行一次线性插值。双线性插值作为数值分析中的一种插值算法,广泛应用在信号处理,数字图像和视频处理等方面。
5、细胞:LSTM的关键是细胞状态。细胞状态像传送带一样,它贯穿整个链条,只有一些次要的线***互作用。因此,信息很容易以不变的方式流过。一个LSTM里面包含三个门来控制细胞状态。
6、像素重组:将一个(C×r2,H,W)大小的图转变为一个(C,r×H,r×W)大小的图。以C=1,r=2为例,具体方式为,将输入图中的像素(i,x,y),(i+1,x,y),(i+2,x,y),(i+3,x,y)分别对应到输出图的像素(i,x,y),(i,x+1,y),(i,x,y+1),(i,x+1,y+1)。
本发明的技术方案如下:
一种基于深度学习和相邻帧的视频超分辨率恢复方法,包括步骤如下:
(1)数据预处理:
对数据集进行预处理,将数据集划分为训练集和测试集;
对数据集进行预处理,所选数据集是用于视频超分辨率的数据集REDS。将数据集划分为训练集和测试集;训练集包括266个视频,测试集包括4个视频。其中每个视频都有100帧。低分辨率和高分辨率图像分辨率分别为320*180*3和1280*720*3。其中320*180和1280*720表示图像尺寸大小,3表示图像为三通道。
(2)数据增强:
将图像裁剪为小图片,以方便训练。并随机对图像进行翻转、旋转来增加数据;
(3)数据转换:
将所有视频帧转换成连续图像,将处理好的图像储存为lmdb格式;
(4)构建网络架构,网络包括帧对齐模块、帧融合模块、重建模块;
所述帧对齐模块用于将当前视频图像帧与它的前后各n帧相邻视频图像帧(共2n帧相邻帧)对齐;所述帧融合模块用于将所述帧对齐模块输出的对齐后的2n+1帧特征图融合,得到融合了2n+1帧信息的一张特征图;融合过程如图3;所述重建模块用于将所述帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合,以得到最终结果。
(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试;输入当前帧和相邻的前后各n帧,即每次输入图片2n+1张;在实验中我们选择n=2,来兼顾训练时间和训练效果。
(6)将当前帧和相邻的前后各n帧输入训练好的网络中,得到的结果进行组合,转为视频,即为最终超分辨率恢复视频结果。
根据本发明优选的,所述帧对齐模块采用全卷积,卷积方式为普通卷积和可变形卷积,使用金字塔级联结构;金字塔级联结构包括三个层L1层、L2层、L3层,由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图,由L1的特征图下采样卷积得到L2的特征图,由L2的特征图下采样卷积得到L3的特征图;具体结构如图2。即为所述帧对齐模块输出的帧对齐特征图。
将参考帧即第t帧图像,与它的每个相邻帧即第t+i帧图像,分别共同输入帧对齐模块,|i|≤n,i∈N,经过一次卷积得到L1层两张L1的特征图,尺寸为(N,C,H,W),N即batchsize,是指每个batch输入N张图片;C是指图片的通道数;H是指图片的高度;W是指图片的宽度。将两张L1的特征图分别进行下采样卷积,得到L2层两张尺寸为(N,C,H//2,W//2)的L2的特征图;将两张L2的特征图再次分别进行下采样卷积,得到L3层两张尺寸为(N,C,H//4,W//4)的L3的特征图;
将两张尺寸为(N,C,H//4,W//4)的L3的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//4,W//4)的特征图,对这张特征图进行卷积,得到尺寸为(N,C,H//4,W//4)的偏差特征图3,将偏差特征图3和第t+i帧图像的L3的特征图组合,进行可变形卷积,得到对齐特征图3;
对两张尺寸为(N,C,H//2,W//2)的L2的特征图,首先,将这两张尺寸为(N,C,H//2,W//2)的L2的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//2,W//2)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H//2,W//2)的特征图;将偏差特征图3进行双线性差值,得到尺寸为(N,C,H//2,W//2)的特征图,与这张尺寸为(N,C,H//2,W//2)的特征图按通道维组合成为尺寸为(N,2C,H//2,W//2)的特征图后卷积,得到尺寸为(N,C,H//2,W//2)的偏差特征图2;将偏差特征图2与第t+i帧的L2的特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H//2,W//2)的特征图;再次,将对齐特征图3双线性差值得到尺寸为(N,C,H//2,W//2)的特征图与这张特征图组合,得到尺寸为(N,2C,H//2,W//2)的特征图,对这张特征图进行卷积,得到对齐特征图2;
对两张L1的特征图,首先,将两张尺寸为(N,C,H,W)的特征图进行组合,成为一张尺寸为(N,2C,H,W)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H,W)的特征图;将偏差特征图2进行双线性差值,得到尺寸为(N,C,H,W)的特征图,与这张特征图组合成为尺寸为(N,2C,H,W)的特征图后卷积,得到尺寸为(N,C,H,W)的偏差特征图1;将偏差特征图1与第t+i帧的L1特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H,W)的特征图;再次,将对齐特征图2双线性差值得到尺寸为(N,C,H,W)的特征图与这张特征图组合,得到尺寸为(N,2C,H,W)的特征图,对这张特征图进行卷积,得到对齐特征图1;
将对齐特征图1与参考帧的L1特征图按通道维进行组合后卷积,得到尺寸为(N,C,H,W)的偏差特征图,将偏差特征图与对齐特征图1按通道维组合后进行可变形卷积,得到最终的对齐特征图,其尺寸为(N,C,H,W),即为帧对齐结果;
对于每一帧参考帧图像,都按照上述过程进行(2n+1)次,输出(2n+1)张对齐特征图,送入帧融合模块。
根据本发明优选的,所述帧融合模块采用了两层双向conv-LSTM结构,包括第一层conv-LSTM及第二层conv-LSTM,第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞;
将所述帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM,分别对2n+1张特征图中的任一特征图xi进行卷积运算,得到特征图x′i;将特征图x′i输入第二层conv-LSTM,分别对特征图x′i进行卷积运算,得到特征图x′i1,作为所述帧融合模块的输出;
图3以n=2为例对第一层conv-LSTM进行解释,具体操作为:将所述帧对齐模块中得到的2n+1张特征图输入所述帧融合模块,xi表示输入的2n+1张特征图,cell表示LSTM的4n+2个细胞,h表示LSTM的状态,conv表示卷积运算,x′i表示经过第一层conv-LSTM后输出的每帧特征图;将这2n+1张特征图x′i作为新的xi输入第二层conv-LSTM,得到最终的x′i。最后,我们只取x’作为帧融合模块的最终输出。经过帧对齐模块和帧融合模块,网络学习到了更多更丰富的图像信息,包括时间信息和空间信息。
根据本发明优选的,重建模块:如图4,将所述帧融合模块的输出输入所述重建模块,依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加,得到输出;
上采样采用的方式为卷积,即将(N,C,H/2,W/2)尺寸的图像上采样为(N,C,H,W)尺寸的图像;
经过重建模块,网络在没有丢失原有图像信息的情况下,加入了学习到的高频信息,使图像细节得到了更好的恢复。
根据本发明优选的,随机对图像进行0°、90°、180°、270°旋转和翻转。
本发明的有益效果在于:
1、帧对齐模块中的全卷积可以适应各种尺寸的输入图片;可变形卷积可以更好地采集不规则形状的前景物体信息。而金字塔级联结构可以充分利用图像的细节信息的同时,不丢失图像的高级语义信息。这使特征图拥有更多的高级语义信息。
2、帧融合模块中采用的双向卷积LSTM结构,可以充分利用相邻帧的时序信息,而不是简单地将相邻五张图像组合起来,从而导致丢失了它们之间时序上的关联信息。这种方法可以通过保留更多的时序信息使超分辨率恢复得到更好的效果。
3、重建模块中采用的,将帧融合模块得到的结果与原始图片双线性插值得到的特征图组合起来的操作,既保留了原图像中的低级语义信息和细节信息,又充分利用了前几个卷积模块处理得到的特征图。这一方法使得到的图像拥有更多的高频信息,从而使图像的细节得到更好的恢复。
4、本发明设计构思巧妙,效果显著,具有良好的经济价值和社会效益,值得推广应用。
附图说明
图1为本发明基于深度学习和相邻帧的视频超分辨率恢复方法的流程示意图。
图2为本发明帧对齐模块的结构示意图。
图3为本发明两层双向conv-LSTM结构示意图。
图4为本发明重建模块示意图。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1:
一种基于深度学习和相邻帧的视频超分辨率恢复方法,包括步骤如下:
(1)数据预处理:
对数据集进行预处理,将数据集划分为训练集和测试集;
对数据集进行预处理,所选数据集是用于视频超分辨率的数据集REDS。将数据集划分为训练集和测试集;训练集包括266个视频,测试集包括4个视频。其中每个视频都有100帧。低分辨率和高分辨率图像分辨率分别为320*180*3和1280*720*3。其中320*180和1280*720表示图像尺寸大小,3表示图像为三通道。
(2)数据增强:
将图像裁剪为尺寸为64*64的小图片,以方便训练。随机对图像进行翻转、旋转(0°,90°,180°,270°)来增加数据。
(3)数据转换:
将所有视频帧转换成连续图像,将处理好的图像储存为lmdb格式;
(4)构建网络架构,网络包括帧对齐模块、帧融合模块、重建模块;
帧对齐模块用于将当前视频图像帧与它的前后各n帧相邻视频图像帧(共2n帧相邻帧)对齐;帧融合模块用于将帧对齐模块输出的对齐后的2n+1帧特征图融合,得到融合了2n+1帧信息的一张特征图;融合过程如图3;重建模块用于将帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合,以得到最终结果。
(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试;输入当前帧和相邻的前后各n帧,即每次输入图片2n+1张;在实验中我们选择n=2,来兼顾训练时间和训练效果。n=5。
(6)将对每一个需要进行高分辨率恢复的当前视频帧(裁剪后的低分辨率图像,64*64*3),和它的前后n帧(共2n+1帧)图像输入训练好的网络中,得到的结果进行组合,转为视频,即为最终超分辨率恢复视频结果。
实施例2:
根据实施例1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其区别在于:
帧对齐模块采用全卷积,卷积方式为普通卷积和可变形卷积,使用金字塔级联结构;金字塔级联结构包括三个层L1层、L2层、L3层,由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图,由L1的特征图下采样卷积得到L2的特征图,由L2的特征图下采样卷积得到L3的特征图;具体结构如图2。即为帧对齐模块输出的帧对齐特征图。
将参考帧即第t帧图像,与它的每个相邻帧即第t+i帧图像,分别共同输入帧对齐模块,|i|≤n,i∈N,经过一次卷积得到L1层两张L1的特征图,尺寸为(N,C,H,W);N即batchsize,是指每个batch输入N张图片;C是指图片的通道数;H是指图片的高度;W是指图片的宽度;将两张L1的特征图分别进行下采样卷积,得到L2层两张尺寸为(N,C,H//2,W//2)的L2的特征图;将两张L2的特征图再次分别进行下采样卷积,得到L3层两张尺寸为(N,C,H//4,W//4)的L3的特征图;
将两张尺寸为(N,C,H//4,W//4)的L3的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//4,W//4)的特征图,对这张特征图进行卷积,得到尺寸为(N,C,H//4,W//4)的偏差特征图3,将偏差特征图3和第t+i帧图像的L3的特征图组合,进行可变形卷积,得到对齐特征图3;
对两张尺寸为(N,C,H//2,W//2)的L2的特征图,首先,将这两张尺寸为(N,C,H//2,W//2)的L2的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//2,W//2)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H//2,W//2)的特征图;将偏差特征图3进行双线性差值,得到尺寸为(N,C,H//2,W//2)的特征图,与这张尺寸为(N,C,H//2,W//2)的特征图按通道维组合成为尺寸为(N,2C,H//2,W//2)的特征图后卷积,得到尺寸为(N,C,H//2,W//2)的偏差特征图2;将偏差特征图2与第t+i帧的L2的特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H//2,W//2)的特征图;再次,将对齐特征图3双线性差值得到尺寸为(N,C,H//2,W//2)的特征图与这张特征图组合,得到尺寸为(N,2C,H//2,W//2)的特征图,对这张特征图进行卷积,得到对齐特征图2;
对两张L1的特征图,首先,将两张尺寸为(N,C,H,W)的特征图进行组合,成为一张尺寸为(N,2C,H,W)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H,W)的特征图;将偏差特征图2进行双线性差值,得到尺寸为(N,C,H,W)的特征图,与这张特征图组合成为尺寸为(N,2C,H,W)的特征图后卷积,得到尺寸为(N,C,H,W)的偏差特征图1;将偏差特征图1与第t+i帧的L1特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H,W)的特征图;再次,将对齐特征图2双线性差值得到尺寸为(N,C,H,W)的特征图与这张特征图组合,得到尺寸为(N,2C,H,W)的特征图,对这张特征图进行卷积,得到对齐特征图1;
将对齐特征图1与参考帧的L1特征图按通道维进行组合后卷积,得到尺寸为(N,C,H,W)的偏差特征图,将偏差特征图与对齐特征图1按通道维组合后进行可变形卷积,得到最终的对齐特征图,其尺寸为(N,C,H,W),即为帧对齐结果;
对于每一帧参考帧图像,都按照上述过程进行(2n+1)次,输出(2n+1)张对齐特征图,送入帧融合模块。
帧融合模块采用了两层双向conv-LSTM结构,包括第一层conv-LSTM及第二层conv-LSTM,第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞;
将帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM,分别对2n+1张特征图中的任一特征图xi进行卷积运算,得到特征图x′i;将特征图x′i输入第二层conv-LSTM,分别对特征图x′i进行卷积运算,得到特征图x′i1,作为帧融合模块的输出;
图3以n=2为例对第一层conv-LSTM进行解释,具体操作为:将帧对齐模块中得到的2n+1张特征图输入帧融合模块,xi表示输入的2n+1张特征图,cell表示LSTM的4n+2个细胞,h表示LSTM的状态,conv表示卷积运算,x′i表示经过第一层conv-LSTM后输出的每帧特征图;将这2n+1张特征图x′i作为新的xi输入第二层conv-LSTM,得到最终的x′i。最后,只取x’作为帧融合模块的最终输出。经过帧对齐模块和帧融合模块,网络学习到了更多更丰富的图像信息,包括时间信息和空间信息。
重建模块:如图4,将帧融合模块的输出输入重建模块,依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加,得到输出;
上采样采用的方式为卷积,即将(N,C,H/2,W/2)尺寸的图像上采样为(N,C,H,W)尺寸的图像;
经过重建模块,网络在没有丢失原有图像信息的情况下,加入了学习到的高频信息,使图像细节得到了更好的恢复。
下面按照本实施例的方法进行实验,说明本发明的效果。
测试环境:python3.7;pytorch框架;Ubuntu18.04***;NVIDIA GTX 2080tiGPU。
测试序列:用于视频超分辨率的数据集REDS。测试集包括4个视频,其中每个视频有100帧。
测试指标:本发明使用PSNR进行评测。
测试结果如下:表1是本发明与其他算法在测试数据集下的性能比较(峰值信噪比PSNR):
表1
本发明使得到的图像拥有更多的高频信息,从而使图像的细节得到更好的恢复。
Claims (6)
1.一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,包括步骤如下:
(1)数据预处理:
对数据集进行预处理,将数据集划分为训练集和测试集;
(2)数据增强:
将图像裁剪为小图片,并随机对图像进行翻转、旋转;
(3)数据转换:
将所有视频帧转换成连续图像,将处理好的图像储存为lmdb格式;
(4)构建网络架构,网络包括帧对齐模块、帧融合模块、重建模块;
所述帧对齐模块用于将当前视频图像帧与它的前后相邻视频图像帧对齐;所述帧融合模块用于将所述帧对齐模块输出的对齐后的2n+1帧特征图融合,得到融合了2n+1帧信息的一张特征图;所述重建模块用于将所述帧融合模块融合得到的特征图和输入的当前帧的低分辨率视频图像进行上采样得到的特征图进行相加组合,以得到最终结果;
(5)使用步骤(3)处理后的数据对步骤(4)构建好网络的进行训练、测试;输入当前帧和相邻的前后各n帧,即每次输入图片2n+1张;
(6)将当前帧和相邻的前后各n帧输入训练好的网络中,得到的结果进行组合,转为视频,即为最终超分辨率恢复视频结果。
2.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,所述帧对齐模块采用全卷积,卷积方式为普通卷积和可变形卷积,使用金字塔级联结构;金字塔级联结构包括三个层L1层、L2层、L3层,由步骤(2)处理后得到的低分小图片通过普通卷积得到的L1的特征图,由L1的特征图下采样卷积得到L2的特征图,由L2的特征图下采样卷积得到L3的特征图;
将参考帧即第t帧图像,与它的每个相邻帧即第t+i帧图像,分别共同输入帧对齐模块,|i|≤n,i∈N,经过一次卷积得到L1层两张L1的特征图,尺寸为(N,C,H,W);N即batchsize,是指每个batch输入N张图片;C是指图片的通道数;H是指图片的高度;W是指图片的宽度;将两张L1的特征图分别进行下采样卷积,得到L2层两张尺寸为(N,C,H//2,W//2)的L2的特征图;将两张L2的特征图再次分别进行下采样卷积,得到L3层两张尺寸为(N,C,H//4,W//4)的L3的特征图;
将两张尺寸为(N,C,H//4,W//4)的L3的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//4,W//4)的特征图,对这张特征图进行卷积,得到尺寸为(N,C,H//4,W//4)的偏差特征图3,将偏差特征图3和第t+i帧图像的L3的特征图组合,进行可变形卷积,得到对齐特征图3;
对两张尺寸为(N,C,H//2,W//2)的L2的特征图,首先,将这两张尺寸为(N,C,H//2,W//2)的L2的特征图按通道维进行组合,成为一张尺寸为(N,2C,H//2,W//2)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H//2,W//2)的特征图;将偏差特征图3进行双线性差值,得到尺寸为(N,C,H//2,W//2)的特征图,与这张尺寸为(N,C,H//2,W//2)的特征图按通道维组合成为尺寸为(N,2C,H//2,W//2)的特征图后卷积,得到尺寸为(N,C,H//2,W//2)的偏差特征图2;将偏差特征图2与第t+i帧的L2的特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H//2,W//2)的特征图;再次,将对齐特征图3双线性差值得到尺寸为(N,C,H//2,W//2)的特征图与这张特征图组合,得到尺寸为(N,2C,H//2,W//2)的特征图,对这张特征图进行卷积,得到对齐特征图2;
对两张L1的特征图,首先,将两张尺寸为(N,C,H,W)的特征图进行组合,成为一张尺寸为(N,2C,H,W)的特征图,然后,对这张特征图进行卷积,得到尺寸为(N,C,H,W)的特征图;将偏差特征图2进行双线性差值,得到尺寸为(N,C,H,W)的特征图,与这张特征图组合成为尺寸为(N,2C,H,W)的特征图后卷积,得到尺寸为(N,C,H,W)的偏差特征图1;将偏差特征图1与第t+i帧的L1特征图按通道维组合,进行可变形卷积,得到尺寸为(N,C,H,W)的特征图;再次,将对齐特征图2双线性差值得到尺寸为(N,C,H,W)的特征图与这张特征图组合,得到尺寸为(N,2C,H,W)的特征图,对这张特征图进行卷积,得到对齐特征图1;
将对齐特征图1与参考帧的L1特征图按通道维进行组合后卷积,得到尺寸为(N,C,H,W)的偏差特征图,将偏差特征图与对齐特征图1按通道维组合后进行可变形卷积,得到最终的对齐特征图,其尺寸为(N,C,H,W),即为帧对齐结果;
对于每一帧参考帧图像,都按照上述过程进行(2n+1)次,输出(2n+1)张对齐特征图,送入帧融合模块。
3.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,所述帧融合模块采用了两层双向conv-LSTM结构,包括第一层conv-LSTM及第二层conv-LSTM,第一层conv-LSTM及第二层conv-LSTM均包括2n+1个细胞;
将所述帧对齐模块中得到的2n+1张特征图输入第一层conv-LSTM,分别对2n+1张特征图中的任一特征图xi进行卷积运算,得到特征图x′i;将特征图x′i输入第二层conv-LSTM,分别对特征图x′i进行卷积运算,得到特征图x′i1,作为所述帧融合模块的输出。
4.根据权利要求1所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,将所述帧融合模块的输出输入所述重建模块,依次进行第一次上采样、第一次像素重组、第二次上采样、第二次像素重组、卷积、与输入的当前帧的低分辨率视频图像相加,得到输出。
5.根据权利要求4所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,上采样采用的方式为卷积,即将N/2*N/2*C尺寸的图像上采样为N*N*C尺寸的图像。
6.根据权利要求1-5任一所述的一种基于深度学习和相邻帧的视频超分辨率恢复方法,其特征在于,随机对图像进行0°、90°、180°、270°翻转和旋转。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310786.9A CN112365403B (zh) | 2020-11-20 | 2020-11-20 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011310786.9A CN112365403B (zh) | 2020-11-20 | 2020-11-20 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112365403A true CN112365403A (zh) | 2021-02-12 |
CN112365403B CN112365403B (zh) | 2022-12-27 |
Family
ID=74534086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011310786.9A Active CN112365403B (zh) | 2020-11-20 | 2020-11-20 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112365403B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033616A (zh) * | 2021-03-02 | 2021-06-25 | 北京大学 | 高质量视频重建方法、装置、设备及存储介质 |
CN113592709A (zh) * | 2021-02-19 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 图像超分处理方法、装置、设备及存储介质 |
CN113592719A (zh) * | 2021-08-14 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113610713A (zh) * | 2021-08-13 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113706385A (zh) * | 2021-09-02 | 2021-11-26 | 北京字节跳动网络技术有限公司 | 一种视频超分辨率方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460981A (zh) * | 2020-03-30 | 2020-07-28 | 山东大学 | 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
CN111583112A (zh) * | 2020-04-29 | 2020-08-25 | 华南理工大学 | 视频超分辨率的方法、***、装置和存储介质 |
CN111784573A (zh) * | 2020-05-21 | 2020-10-16 | 昆明理工大学 | 一种基于迁移学习的被动太赫兹图像超分辨率重构方法 |
-
2020
- 2020-11-20 CN CN202011310786.9A patent/CN112365403B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460981A (zh) * | 2020-03-30 | 2020-07-28 | 山东大学 | 一种基于重构跨域视频生成对抗网络模型的微表情识别方法 |
CN111524068A (zh) * | 2020-04-14 | 2020-08-11 | 长安大学 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
CN111583112A (zh) * | 2020-04-29 | 2020-08-25 | 华南理工大学 | 视频超分辨率的方法、***、装置和存储介质 |
CN111784573A (zh) * | 2020-05-21 | 2020-10-16 | 昆明理工大学 | 一种基于迁移学习的被动太赫兹图像超分辨率重构方法 |
Non-Patent Citations (1)
Title |
---|
陈聪颖: "基于视频超分辨率的研究与应用", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113592709A (zh) * | 2021-02-19 | 2021-11-02 | 腾讯科技(深圳)有限公司 | 图像超分处理方法、装置、设备及存储介质 |
CN113592709B (zh) * | 2021-02-19 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 图像超分处理方法、装置、设备及存储介质 |
CN113033616A (zh) * | 2021-03-02 | 2021-06-25 | 北京大学 | 高质量视频重建方法、装置、设备及存储介质 |
CN113033616B (zh) * | 2021-03-02 | 2022-12-02 | 北京大学 | 高质量视频重建方法、装置、设备及存储介质 |
CN113610713A (zh) * | 2021-08-13 | 2021-11-05 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113610713B (zh) * | 2021-08-13 | 2023-11-28 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频超分辨方法及装置 |
CN113592719A (zh) * | 2021-08-14 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113592719B (zh) * | 2021-08-14 | 2023-11-28 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113706385A (zh) * | 2021-09-02 | 2021-11-26 | 北京字节跳动网络技术有限公司 | 一种视频超分辨率方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112365403B (zh) | 2022-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112365403B (zh) | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 | |
Fang et al. | A hybrid network of cnn and transformer for lightweight image super-resolution | |
CN110120011B (zh) | 一种基于卷积神经网络和混合分辨率的视频超分辨方法 | |
CN113362223B (zh) | 基于注意力机制和双通道网络的图像超分辨率重建方法 | |
CN112634276B (zh) | 一种基于多尺度视觉特征提取的轻量级语义分割方法 | |
CN111861961B (zh) | 单幅图像超分辨率的多尺度残差融合模型及其复原方法 | |
CN115222601A (zh) | 基于残差混合注意力网络的图像超分辨率重建模型及方法 | |
Luo et al. | Ebsr: Feature enhanced burst super-resolution with deformable alignment | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
CN111275618A (zh) | 一种基于双支感知的深度图超分辨率重建网络构建方法 | |
CN102243711B (zh) | 一种基于邻域嵌套的图像超分辨率重建方法 | |
CN110070489A (zh) | 一种基于视差注意力机制的双目图像超分辨方法 | |
CN111462013A (zh) | 一种基于结构化残差学习的单图去雨方法 | |
CN111640060A (zh) | 基于深度学习及多尺度残差稠密模块的单幅图像超分辨率重建方法 | |
CN111696035A (zh) | 一种基于光流运动估计算法的多帧图像超分辨率重建方法 | |
Wang et al. | Lightweight image super-resolution with multi-scale feature interaction network | |
CN113052764B (zh) | 一种基于残差连接的视频序列超分重建方法 | |
Zhou et al. | Image super-resolution based on dense convolutional auto-encoder blocks | |
CN109615576B (zh) | 基于级联回归基学习的单帧图像超分辨重建方法 | |
CN113610707A (zh) | 一种基于时间注意力与循环反馈网络的视频超分辨率方法 | |
CN113362239A (zh) | 一种基于特征交互的深度学习图像修复方法 | |
CN117078539A (zh) | 基于CNN-Transformer的局部全局交互式图像恢复方法 | |
CN116029905A (zh) | 一种基于渐进差值互补的人脸超分辨率重构方法及*** | |
CN114170079A (zh) | 基于引导注意力机制的深度图超分辨方法 | |
CN113362240A (zh) | 一种基于轻量级特征金字塔模型的图像修复方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhou Hongchao Inventor after: Du Xiaowei Inventor after: Duan Enyue Inventor after: Zhou Bin Inventor before: Du Xiaowei Inventor before: Zhou Hongchao Inventor before: Duan Enyue Inventor before: Zhou Bin |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |