CN111524068A - 一种基于深度学习的变长输入超分辨率视频重建方法 - Google Patents
一种基于深度学习的变长输入超分辨率视频重建方法 Download PDFInfo
- Publication number
- CN111524068A CN111524068A CN202010290657.1A CN202010290657A CN111524068A CN 111524068 A CN111524068 A CN 111524068A CN 202010290657 A CN202010290657 A CN 202010290657A CN 111524068 A CN111524068 A CN 111524068A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- frame
- super
- resolution video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013135 deep learning Methods 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 68
- 230000004927 fusion Effects 0.000 claims abstract description 42
- 239000011159 matrix material Substances 0.000 claims description 41
- 238000013507 mapping Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 14
- 230000007246 mechanism Effects 0.000 abstract description 9
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 9
- 230000000295 complement effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了本发明提供一种基于深度学习的变长输入超分辨率视频重建方法;包括以下步骤:构建随机长度的训练样本,获取训练集;建立超分辨率视频重建网络模型:包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块;采用训练集对超分辨率视频重建网络模型进行训练,得到训练后的超分辨率视频重建网络;将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建,得到对应的超分辨率重建视频。本发明采用渐对齐融合机制可以逐帧地对齐和融合,对齐操作只作用于相邻两帧图像,这使得模型能够处理更长的时序关系,使用更多相邻的视频帧,这意味着输入含有更多的场景信息,可以有效提高重建效果。
Description
技术领域
本发明属于视频复原技术领域,尤其涉及一种基于深度学习的变长输入超分辨率视频重建方法。
背景技术
大部分基于图像和视频的应用,其效果都依赖于图像的质量。在一般情况下,一幅图像的质量与其所含的信息量有关,使用图像分辨率来衡量一幅图像所含信息量的多少,它是以单位面积上像素的数目来表示的,比如1024×768。由此可见,图像的分辨率代表了图像的质量,所以在现实生活和应用场景中,高分辨率就成为图像和视频的质量诉求。
然而,当视频包含遮挡、严重模糊和大偏移量的复杂运动时,就需要对视频进行重建以获得高质量的视频信息。为了有效融合多帧图像的互补信息,获得高质量的重建图像,必须将输入的视频帧序列中的所有帧进行对齐,并建立准确的对应关系,以进行后面的重建步骤。由于摄像机或对象的不断运动,目标帧和每个相邻帧之间均未对齐,因此,对齐对于视频超分辨率是一个具有挑战性但又十分重要的问题。目前大部分超分模型将所有相邻帧同等看待,使用同一个对齐网络对不同的相邻帧进行处理,没有考虑不同相邻帧与目标帧具有不同的间隔。理论上,不同的相邻帧相对于目标帧的运动偏移量是不同的,相对目标帧更远的相邻帧具有更大的偏移量,使用一个对齐网络同时学习不同相邻帧的对齐操作,这无疑是困难的。
目前极大部分多帧图像超分辨率模型都只能输入确定长度的图像序列,而且在这些模型的重建过程中,视频序列两端的图像无法得到正常的处理,这是由模型自身的结构局限造成的,只能通过镜像处理或复制目标帧来补全输入图像序列。如图1所示,如图1(a)为当输入长度为9(目标帧和左右各4帧图像),而当前目标帧左侧剩余的视频帧数量不足时,定长输入模型必须通过复制其他图像帧进行补充,增加了人工的干预痕迹,引入了额外的噪声。如图1(b)变长输入则不需要其他处理,可以直接输入重建模型,更符合实际应用需求。另外,如果可以根据使用场景的不同,选择合适的输入序列长度(包括总长度和左右两侧相邻帧的长度),那么多帧图像超分辨率重建模型的适用性将大大增强。
发明内容
针对现有设计方法的不足,本发明的目的是提供一种基于深度学习的变长输入超分辨率视频重建方法。采用变长输入序列,解决了视频超分辨率任务中长输入图像序列对齐不精确的问题;采用渐对齐融合网络能够对齐融合任意数量的相邻帧,而不影响后续的重建任务,实用性更强。
一种基于深度学习的变长输入超分辨率视频重建方法,包括以下步骤:
步骤1,构建随机长度的训练样本,获取训练集;
步骤2,建立超分辨率视频重建网络模型:包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块;
步骤3,采用训练集对超分辨率视频重建网络模型进行训练,得到训练后的超分辨率视频重建网络;
步骤4,将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建,得到对应的超分辨率重建视频;
其中,所述待处理视频的每次输入图像序列的长度为自定义。
进一步地,所述构建随机长度的训练样本为:
首先,给定输入序列长度K,K>0;选取数据集;
其次,给定待重建的目标帧;
最后,选择目标帧左侧的x帧图像和目标帧右侧的K-1-x帧图像,按照从左到右顺序排列K帧图像,得到输入图像序列;
其中,x为通过均匀分布随机得到的整数,x=0,1,…,K-1。
进一步地,所述获取训练集为:
首先,对每个原始训练样本使用随机水平翻转和旋转,得到空间变换训练样本;
其次,引入间隔变量T,T>1,以T为采样间隔获取输入序列长度的输入图像序列,以模拟低采集帧率或移动快的运动目标,得到时间增强训练样本;
最后,由原始训练样本、空间变换训练样本和时间增强训练样本共同组成训练集。
进一步地,所述采用训练集对超分辨率视频重建网络模型进行训练,具体为:
3.1,给定最大训练次数,初始化超分辨率视频重建网络模型参数;
3.2,采用特征提取器对输入图像序列(I1,…,It,…,Ik)中的每个图像进行特征提取,得到对应的特征图像序列(F1,…,Ft,…,Fk);
其中,t为目标帧,k为输入图像序列的长度;输入图像序列为训练样本;
3.3,采用渐对齐融合模块对特征图像序列进行渐对齐特征融合,得到对齐融合后的特征图像;
3.4,采用深度残差模块对对齐融合后的特征图像进行非线性映射,得到映射后的特征图像;
3.5,通过亚像素卷积将映射后的特征图像进行尺寸放大,得到目标尺寸的特征图像;
3.6,通过上采样将原始目标帧图像进行尺寸放大,得到目标尺寸的原始图像;
3.7,采用叠加模块将目标尺寸的特征图像与目标尺寸的原始图像进行叠加,得到目标帧的重建图像;
3.8,对超分辨率视频重建网络模型的参数进行优化更新;
对于每个输入图像序列,重复步骤3.2-3.8,直至达到最大训练次数。
更进一步地,所述采用渐对齐融合模块对特征图像序列进行渐对齐特征融合,具体为:
首先,对于目标帧左侧的特征图像序列:令Fl为目标帧左侧特征图像;从最左端特征图像F1开始,将第一帧特征图像F1对齐到第二帧特征图像F2,再将对齐后的第一帧特征图像和第二帧特征图像进行融合,得到融合后的特征图像F2′,令Fl=F2′;将融合后的特征图像F2′对齐至第三帧特征图像F3,再融合,对应得到F3′,令Fl=F3′;依次类推,直至Ft-1,则Fl=Ft-1′;
其次,对于目标帧右侧的特征图像序列:令Fr为目标帧右侧特征图像;从最右端特征图像Fk开始,将最后一帧特征图像Fk对齐到倒数第二帧特征图像Fk-1,再将对齐后的两帧特征图像进行融合,得到融合后的特征图像Fk-1′,令Fr=Fk-1′;将融合后的特征图像Fk-1′对齐至倒数第三帧特征图像Fk-2,再融合,对应得到Fk-2′,令Fr=Fk-2′;依次类推,直至Ft+1,则Fr=Ft+1′;
最后,使用将目标帧左侧特征图像Fl、目标帧特征图像Ft和目标帧右侧特征图像Fr进行融合,得到对齐融合后的特征图像。
更进一步地,所述将第一帧特征图像F1对齐到第二帧特征图像F2,具体为:设定第一帧特征图像F1与第二帧特征图像F2的尺寸分别为W×H×C,其中,W是特征图的宽度,H是特征图的高度,C是特征图的通道数;
首先,将第一帧特征图像F1与第二帧特征图像F2在通道方向上进行连接,得到W×H×2C的连接矩阵;
其次,使用多个卷积层对连接矩阵进行映射处理和通道数变换,得到W×H×C的权重矩阵;
最后,将权重矩阵通过对位乘法加权到F1,完成F1对齐到F2的操作。
更进一步地,将多个特征图像进行融合,其具体为:
其中,Ui表示第i个待融合特征图像;
其中,sc表示池化后结果s的第c个通道的特征矩阵;Uc表示初步融合矩阵U的第c个通道的特征矩阵;Uc(m,n)表示矩阵Uc的任一像素点(m,n)处的像素值;
(c)使用两个全连接层建立特征图各通道间的相关性模型:
z=W2·(δ(W1·U))
其中,W1表示第一个全连接层的权重,W2表示第二个全连接层的权重,δ表示ReLU激活函数;
(d)使用1×1的卷积层建立特征矩阵在空间维度上的内部相关性:
vi=CNN1×1(W3,Ui)
ai=vi·z
(f)使用sigmoid函数对{ai}进行重标定,得到总权重向量{bi}:
其中,⊙表示对位元素相乘。
进一步地,所述深度残差模块采用多个改进的残差模块堆叠而成。
更进一步地,所述改进的残差模块包含四个卷积层,其中,输入通道数设定为C,第一个卷积层的卷积核大小为1×1,通道数为6×C;第二个卷积层的卷积核大小为1×1,通道数为C/2;第三个卷积层的卷积核大小为3×3,通道数为C/2;第四个卷积层的卷积核大小为1×1,通道数为C。
与现有技术相比,本发明的优点在于:
(1)本发明采用渐对齐融合机制可以逐帧地对齐和融合,对齐操作只作用于相邻两帧图像,这使得模型能够处理更长的时序关系,使用更多相邻的视频帧,这意味着输入含有更多的场景信息,可以有效提高重建效果。
(2)本发明选择不同长度的帧序列作为输入,实用性更强,渐对齐融合模块能够对齐融合任意数量的相邻帧,而不影响后续的重建任务。
(3)本发明的特征融合考虑了不同视频帧和不同位置对于重建效果具有不同的贡献度,能够更加有效地融合不同视频帧的特征。
(4)本发明使用改进的深度残差网络作为重建网络,学习映射能力更强。
附图说明
图1为传统的定长输入模型和本发明的变长输入模型对比示意图;其中,(a)为传统的定长输入模型示意图;(b)为本发明的变长输入模型对比示意图;
图2为本发明实施例的训练过程中的随机长度训练样本的示意图;
图3为本发明实施例的超分辨率视频重建网络结构示意图;
图4为本发明实施例中的传统残差模块和改进后的残差模块结构对比示意图;其中,(a)为传统残差模块处理结构示意图,(b)为本发明的改进后的残差模块处理结构示意图;
图5为本发明实施例的特征融合模块结构示意图。
具体实施方式
为详细说明本发明的技术内容、操作流程、所实现目的和效果,给出以下实施例说明。
一种基于深度学习的变长输入超分辨率视频重建方法,包括以下步骤:
步骤1,构建随机长度的训练样本,获取训练集;
示例性地,随机长度的训练样本的获取过程:
首先,给定输入序列长度K,K>0;选取数据集;
其次,给定待重建的目标帧;
最后,选择目标帧左侧的x帧图像和目标帧右侧的K-1-x帧图像,按照从左到右顺序排列K帧图像,得到输入图像序列;
其中,x为通过均匀分布随机得到的整数,x=0,1,...,K-1。
本发明中的输入序列长度根据需要可以固定,也可以变化。本实施例中,在训练时,使用REDS作为原始训练样本集,利用双三次插值方法获得低分辨率图像;将低分辨率图像中大小为64×64的RGB图像块与相应的高分辨率图像块组合为一个训练样本;同时使用随机的水平翻转和旋转进行数据增强,扩充训练样本数量。另外,将每个数据减去整个训练集的平均RGB值来对所有训练数据进行预处理。示例性地,构建训练样本:在训练阶段输入长度固定为15,在给定需要重建的目标帧时,首先通过均匀分布随机得到一个整数x(x=0,1,...,K-1),x代表着目标帧左侧输入序列的长度,而K-1-x是目标帧右侧输入序列的长度,然后将它们按照从左到右的顺序,组合成长度为K的输入序列,如图2所示。为了利用GPU加速矩阵运算的特点,在同一批次中不同训练样本的x值是相同的。
进一步地,在获取训练集时,本发明还可以为了创建更加符合实际应用场景的训练数据,在使用一般的空间数据增强方法(随机的水平翻转和旋转)的同时,也在时间上进行数据增强。引入一个间隔变量T,表示时间数据增强的采样间隔,当T>1时,可以模拟更低的采集帧率或移动更快的运动目标。例如,当前需要重建的目标帧为第i帧图像,输入长度为7,T为2,那么输入图像序列可表示为:
i-6,i-4,i-2,i,i+2,i+4,i+6
使用各种大小的T,就可以创建更多具有复杂运动的训练数据。考虑到REDS数据集的特点,选择T=1,2,3,共三种时间增强方式(T=1时即是原图像序列)。时间增强可以增加训练数据在时域上的多样性和复杂度,提高复杂场景下超分辨率重建的性能。
步骤2,建立超分辨率视频重建网络模型:包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块;
参照图3,本发明的一个实施例,特征提取器使用5个去除掉批归一化层的残差模块(卷积层)组成。深度残差模块使用12个改进的残差模块进行堆叠构造深度残差模块,示例性地,改进的残差模块的结构如下:
输入通道数设定为C,共使用四个卷积层对输入进行映射学习:第一个卷积层的卷积核大小为1×1,通道数为6×C;第二个卷积层的卷积核大小为1×1,通道数为C/2;第三个卷积层的卷积核大小为3×3,通道数为C/2;第四个卷积层的卷积核大小为1×1,通道数为C。
原残差模块和改进后的残差模块结构对比如图4所示。输入通道数设定为128,改进后的残差模块共使用四个卷积层对输入进行映射学习:第一个卷积层的卷积核大小为1×1,通道数为768;第二个卷积层的卷积核大小为1×1,通道数为64;第三个卷积层的卷积核大小为3×3,通道数为64;第二个卷积层的卷积核大小为1×1,通道数为128。
叠加模块为加法器,将深度残差模块输出的映射后的特征与目标帧原始输入特征相加,得到最终输出结果。
步骤3,采用训练集对超分辨率视频重建网络模型进行训练,得到训练后的超分辨率视频重建网络;
具体地,采用训练集对超分辨率视频重建网络模型进行训练,具体步骤为:
3.1,给定最大训练次数,初始化超分辨率视频重建网络模型参数;
本实施例中,设定批次大小为16,最大训练次数为600000,使用Adam作为优化器,网络的所有结构层的学习率均初始化为4e-4。使用L1距离作为损失函数,定义如下:
3.2,采用特征提取器对输入图像序列(I1,...,It,...,Ik)中的每个图像进行特征提取,得到对应的特征图像序列(F1,...,Ft,...,Fk);
其中,t为目标帧,k为输入图像序列的长度;输入图像序列为训练样本;
3.3,采用渐对齐融合模块对特征图像序列进行渐对齐特征融合,得到对齐融合后的特征图像;参照图3,具体过程如下:
首先,对于目标帧左侧的特征图像序列:令Fl为目标帧左侧特征图像;从最左端特征图像F1开始,将第一帧特征图像F1对齐到第二帧特征图像F2,再将对齐后的第一帧特征图像和第二帧特征图像进行融合,得到融合后的特征图像F2′,令Fl=F2′;将融合后的特征图像F2′对齐至第三帧特征图像F3,再融合,对应得到F3′,令Fl=F3′;依次类推,直至Ft-1,则Fl=Ft-1′;
其次,对于目标帧右侧的特征图像序列:令Fr为目标帧右侧特征图像;从最右端特征图像Fk开始,将最后一帧特征图像Fk对齐到倒数第二帧特征图像Fk-1,再将对齐后的两帧特征图像进行融合,得到融合后的特征图像Fk-1′,令Fr=Fk-1′;将融合后的特征图像Fk-1′对齐至倒数第三帧特征图像Fk-2,再融合,对应得到Fk-2′,令Fr=Fk-2′;依次类推,直至Ft+1,则Fr=Ft+1′;
最后,使用将目标帧左侧特征图像Fl、目标帧特征图像Ft和目标帧右侧特征图像Fr进行融合,得到对齐融合后的特征图像。
上述过程中的相邻两个特征图像的对齐过程如下:
例如:将第一帧特征图像F1对齐到第二帧特征图像F2,具体过程为:设定第一帧特征图像F1与第二帧特征图像F2的尺寸分别为W×H×C,其中,W是特征图的宽度,H是特征图的高度,C是特征图的通道数;
首先,将第一帧特征图像F1与第二帧特征图像F2在通道方向上进行连接,得到W×H×2C的连接矩阵;
其次,使用多个卷积层对连接矩阵进行映射处理和通道数变换,得到W×H×C的权重矩阵;
最后,将权重矩阵通过对位乘法加权到F1,完成F1对齐到F2的操作。
3.4,采用深度残差模块对对齐融合后的特征图像进行非线性映射,得到映射后的特征图像;
3.5,通过亚像素卷积将映射后的特征图像进行尺寸放大,得到目标尺寸的特征图像;
3.6,通过上采样将原始目标帧图像进行尺寸放大,得到目标尺寸的原始图像;本实施例采用双线性插值方法进行上采样或者使用一个5×5的卷积层和一个亚像素卷积层进行上采样。
3.7,采用叠加模块将目标尺寸的特征图像与目标尺寸的原始图像进行叠加,得到目标帧的重建图像;
3.8,对超分辨率视频重建网络模型的参数进行优化更新;
对于每个输入图像序列,重复步骤3.2-3.8,直至达到最大训练次数。
进一步地,如图5所示,上述过程中的多个特征图像进行融合的具体过程为:
其中,Ui表示第i个待融合特征图像;
其中,sc表示池化后结果s的第c个通道的特征矩阵;Uc表示初步融合矩阵U的第c个通道的特征矩阵;Uc(m,n)表示矩阵Uc的任一像素点(m,n)处的像素值;
(c)使用两个全连接层建立特征图各通道间的相关性模型:
z=W2·(δ(W1·U))
(d)使用1×1的卷积分别将{Ui}的尺寸变为W×H,学习每个输入特征矩阵在空间维度上的内部相关性CNN1×1(Ui):
vi=CNN1×1(W3,Ui)
ai=vi·z
(f)使用sigmoid函数对{ai}进行重标定,得到总权重向量{bi}:
其中,⊙表示对位元素相乘。对位元素就是对应位置的元素。
步骤4,将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建,得到对应的超分辨率重建视频;
其中,所述待处理视频的每次输入图像序列的长度为自定义。
本发明方法中采用深度残差网络,通过改进残差模块的结构,降低参数量的的同时提高网络的学习能力。增加残差模块中间层的通道数增加有助于提高模型的重建质量,但若是直接增加通道数会造成计算量的巨大增加,所以通过引入了1×1的卷积来改变特征图的通道数。1×1的卷积被广泛用于ResNets,ResNeXt和MobileNetV2等模型,用于降低和增加特征图的通道数量。首先使用1×1卷积以减少通道数,然后使用一个3×3卷积用以特征的提取和映射,最后使用1×1卷积将通道数还原。与原残差模块相比,改进后的残差模块不仅降低了计算量,而且增强了对通道间关系的建模能力,更有助于提高模型的重建能力。
本发明采用渐对齐融合机制,逐渐地将相邻帧与目标帧对齐,并将它们进行逐帧融合,每次的对齐操作只是在相邻的两帧上进行的,与其他模型中所有相邻帧各自单独对齐到目标帧的方式相比,渐对齐融合机制极大提高了重建模型对复杂运动的鲁棒性。另外,在某些基于光流的对其方法中,是对原图像进行对齐的,这极易受到噪声或遮挡的影响,而渐对齐融合机制是对经过特征提取后的特征图进行对齐,不易受到原图像中遮挡、模糊和噪声的影响。所以渐对齐融合机制不但可以有效提高对齐的准确性,而且能够对齐融合更多数量的相邻帧,代表着可以使用更多的场景信息,有助于提高模型的重建效果。
本发明采用随机长度训练机制,变长输入是要求图像超分辨率重建模型能够在不影响重建效果的前提下,允许使用者输入不同长度的视频图像序列,可以根据真实数据的特点,自主选择合适的输入长度。当相邻图像之间不存在有用的互补信息,那么选择只输入目标帧图像,若相邻帧可以提供额外的有用特征,则选择合适的输入长度,这对图像超分辨率重建技术的应用有着重要意义。通过随机长度训练机制,虽然输入长度固定不变,但是在重建过程中,在当前帧的前后两个方向,渐对齐融合网络所对齐融合的视频帧数量是随机的。这样可以使得渐对齐融合网络学习到不同数量视频帧的特征融合映射,使得模型在测试时不受输入视频帧数量的影响,同时保证模型的重建效果。
综上,本发明通过渐对齐融合和随机长度训练两种创新机制,不但提高了视频超分辨率重建的效果,而且允许模型输入任何长度的图像序列,包括输入序列的总长度和单侧序列长度,大大提高了视频超分辨率重建的应用范围。
虽然,本说明书中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (9)
1.一种基于深度学习的变长输入超分辨率视频重建方法,其特征在于,包括以下步骤:
步骤1,构建随机长度的训练样本,获取训练集;
步骤2,建立超分辨率视频重建网络模型:包含依次连接的特征提取器、渐对齐融合模块、深度残差模块和叠加模块;
步骤3,采用训练集对超分辨率视频重建网络模型进行训练,得到训练后的超分辨率视频重建网络;
步骤4,将待处理视频顺序输入训练后的超分辨率视频重建网络进行视频重建,得到对应的超分辨率重建视频;
其中,所述待处理视频的每次输入图像序列的长度为自定义。
2.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述构建随机长度的训练样本为:
首先,给定输入序列长度K,K>0;选取数据集;
其次,给定待重建的目标帧;
最后,选择目标帧左侧的x帧图像和目标帧右侧的K-1-x帧图像,按照从左到右顺序排列K帧图像,得到输入图像序列;
其中,x为通过均匀分布随机得到的整数,x=0,1,...,K-1。
3.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述获取训练集为:
首先,对每个原始训练样本使用随机水平翻转和旋转,得到空间变换训练样本;
其次,引入间隔变量T,T>1,以T为采样间隔获取输入序列长度的输入图像序列,以模拟低采集帧率或移动快的运动目标,得到时间增强训练样本;
最后,由原始训练样本、空间变换训练样本和时间增强训练样本共同组成训练集。
4.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述采用训练集对超分辨率视频重建网络模型进行训练,具体步骤为:
3.1,给定最大训练次数,初始化超分辨率视频重建网络模型参数;
3.2,采用特征提取器对输入图像序列(I1,...,It,...,Ik)中的每个图像进行特征提取,得到对应的特征图像序列(F1,...,Ft,...,Fk);
其中,t为目标帧,k为输入图像序列的长度;输入图像序列为训练样本;
3.3,采用渐对齐融合模块对特征图像序列进行渐对齐特征融合,得到对齐融合后的特征图像;
3.4,采用深度残差模块对对齐融合后的特征图像进行非线性映射,得到映射后的特征图像;
3.5,通过亚像素卷积将映射后的特征图像进行尺寸放大,得到目标尺寸的特征图像;
3.6,通过上采样将原始目标帧图像进行尺寸放大,得到目标尺寸的原始图像;
3.7,采用叠加模块将目标尺寸的特征图像与目标尺寸的原始图像进行叠加,得到目标帧的重建图像;
3.8,对超分辨率视频重建网络模型的参数进行优化更新;
对于每个输入图像序列,重复步骤3.2-3.8,直至达到最大训练次数。
5.根据权利要求4所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述采用渐对齐融合模块对特征图像序列进行渐对齐特征融合,具体为:
首先,对于目标帧左侧的特征图像序列:令Fl为目标帧左侧特征图像;从最左端特征图像F1开始,将第一帧特征图像F1对齐到第二帧特征图像F2,再将对齐后的第一帧特征图像和第二帧特征图像进行融合,得到融合后的特征图像F2′,令Fl=F2′;将融合后的特征图像F2′对齐至第三帧特征图像F3,再融合,对应得到F3′,令Fl=F3′;依次类推,直至Ft-1,则Fl=Ft-1′;
其次,对于目标帧右侧的特征图像序列:令Fr为目标帧右侧特征图像;从最右端特征图像Fk开始,将最后一帧特征图像Fk对齐到倒数第二帧特征图像Fk-1,再将对齐后的两帧特征图像进行融合,得到融合后的特征图像Fk-1′,令Fr=Fk-1′;将融合后的特征图像Fk-1′对齐至倒数第三帧特征图像Fk-2,再融合,对应得到Fk-2′,令Fr=Fk-2′;依次类推,直至Ft+1,则Fr=Ft +1′;
最后,使用将目标帧左侧特征图像Fl、目标帧特征图像Ft和目标帧右侧特征图像Fr进行融合,得到对齐融合后的特征图像。
6.根据权利要求5所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述将第一帧特征图像F1对齐到第二帧特征图像F2,具体为:设定第一帧特征图像F1与第二帧特征图像F2的尺寸分别为W×H×C,其中,W是特征图的宽度,H是特征图的高度,C是特征图的通道数;
首先,将第一帧特征图像F1与第二帧特征图像F2在通道方向上进行连接,得到W×H×2C的连接矩阵;
其次,使用多个卷积层对连接矩阵进行映射处理和通道数变换,得到W×H×C的权重矩阵;
最后,将权重矩阵通过对位乘法加权到F1,完成F1对齐到F2的操作。
7.根据权利要求5所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,将多个特征图像进行融合,其具体为:
(a)将M个待融合特征图像通过对位元素相加进行初步融合,得到初步融合矩阵U:
其中,Ui表示第i个待融合特征图像;
其中,sc表示池化后结果s的第c个通道的特征矩阵;Uc表示初步融合矩阵U的第c个通道的特征矩阵;Uc(m,n)表示矩阵Uc的任一像素点(m,n)处的像素值;
(c)使用两个全连接层建立特征图各通道间的相关性模型:
z=W2·(δ(W1·U))
其中,W1表示第一个全连接层的权重,W2表示第二个全连接层的权重,δ表示ReLU激活函数;
(d)使用1×1的卷积层建立特征矩阵在空间维度上的内部相关性:
vi=CNN1×1(W3,Ui)
其中,CNN1×1(·)表示卷积核为1×1的卷积层;W3表示卷积层的权重矩阵;
(e)计算特征矩阵总的相关性{ai}:
ai=vi·z
(f)使用sigmoid函数对{ai}进行重标定,得到总权重向量{bi}:
其中,j=1,2,...,M;(m,n,c)表示某一像素点的位置坐标;bi,m,n,c表示第i个待融合特征图像的像素点(m,n,c)处的权重;
其中,⊙表示对位元素相乘。
8.根据权利要求1所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述深度残差模块采用多个改进的残差模块堆叠而成。
9.根据权利要求8所述的基于深度学习的变长输入超分辨率视频重建方法,其特征在于,所述改进的残差模块包含四个卷积层,其中,输入通道数设定为C,第一个卷积层的卷积核大小为1×1,通道数为6×C;第二个卷积层的卷积核大小为1×1,通道数为C/2;第三个卷积层的卷积核大小为3×3,通道数为C/2;第四个卷积层的卷积核大小为1×1,通道数为C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290657.1A CN111524068B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010290657.1A CN111524068B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111524068A true CN111524068A (zh) | 2020-08-11 |
CN111524068B CN111524068B (zh) | 2023-06-02 |
Family
ID=71902261
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010290657.1A Active CN111524068B (zh) | 2020-04-14 | 2020-04-14 | 一种基于深度学习的变长输入超分辨率视频重建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111524068B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183353A (zh) * | 2020-09-28 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法、装置和相关设备 |
CN112365403A (zh) * | 2020-11-20 | 2021-02-12 | 山东大学 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
CN112580473A (zh) * | 2020-12-11 | 2021-03-30 | 北京工业大学 | 一种融合运动特征的视频超分辨率重构方法 |
CN112700392A (zh) * | 2020-12-01 | 2021-04-23 | 华南理工大学 | 一种视频超分辨率处理方法、设备及存储介质 |
CN112750094A (zh) * | 2020-12-30 | 2021-05-04 | 合肥工业大学 | 一种视频处理方法及*** |
CN112767247A (zh) * | 2021-01-13 | 2021-05-07 | 京东方科技集团股份有限公司 | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 |
CN112950470A (zh) * | 2021-02-26 | 2021-06-11 | 南开大学 | 基于时域特征融合的视频超分辨率重建方法及*** |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
CN113052764A (zh) * | 2021-04-19 | 2021-06-29 | 东南大学 | 一种基于残差连接的视频序列超分重建方法 |
CN113099038A (zh) * | 2021-03-08 | 2021-07-09 | 北京小米移动软件有限公司 | 图像超分处理方法、图像超分处理装置及存储介质 |
CN113507607A (zh) * | 2021-06-11 | 2021-10-15 | 电子科技大学 | 一种无需运动补偿的压缩视频多帧质量增强方法 |
CN113592719A (zh) * | 2021-08-14 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113888426A (zh) * | 2021-09-28 | 2022-01-04 | 国网安徽省电力有限公司电力科学研究院 | 一种基于深度可分离残差网络的电力监控视频去模糊方法 |
CN113902623A (zh) * | 2021-11-22 | 2022-01-07 | 天津大学 | 引入尺度信息的任意倍视频超分辨率方法 |
CN114529456A (zh) * | 2022-02-21 | 2022-05-24 | 深圳大学 | 一种视频的超分辨率处理方法、装置、设备及介质 |
CN114819109A (zh) * | 2022-06-22 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 双目图像的超分辨率处理方法、装置、设备及介质 |
CN115035230A (zh) * | 2022-08-12 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 视频渲染处理方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108961186A (zh) * | 2018-06-29 | 2018-12-07 | 赵岩 | 一种基于深度学习的老旧影片修复重制方法 |
WO2019120110A1 (zh) * | 2017-12-20 | 2019-06-27 | 华为技术有限公司 | 图像重建方法及设备 |
CN110136056A (zh) * | 2018-02-08 | 2019-08-16 | 华为技术有限公司 | 图像超分辨率重建的方法和装置 |
WO2020015167A1 (zh) * | 2018-07-17 | 2020-01-23 | 西安交通大学 | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 |
-
2020
- 2020-04-14 CN CN202010290657.1A patent/CN111524068B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019120110A1 (zh) * | 2017-12-20 | 2019-06-27 | 华为技术有限公司 | 图像重建方法及设备 |
CN110136056A (zh) * | 2018-02-08 | 2019-08-16 | 华为技术有限公司 | 图像超分辨率重建的方法和装置 |
CN108961186A (zh) * | 2018-06-29 | 2018-12-07 | 赵岩 | 一种基于深度学习的老旧影片修复重制方法 |
WO2020015167A1 (zh) * | 2018-07-17 | 2020-01-23 | 西安交通大学 | 一种基于融合网络的图像超分辨率及去非均匀模糊方法 |
Non-Patent Citations (2)
Title |
---|
林琦等: "基于多尺度特征残差学习卷积神经网络的视频超分辨率方法", 《信号处理》 * |
王春萌: "基于量化误差估计模型的视频超分辨率重建算法", 《金陵科技学院学报》 * |
Cited By (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183353B (zh) * | 2020-09-28 | 2022-09-20 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法、装置和相关设备 |
CN112183353A (zh) * | 2020-09-28 | 2021-01-05 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法、装置和相关设备 |
CN112365403A (zh) * | 2020-11-20 | 2021-02-12 | 山东大学 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
CN112365403B (zh) * | 2020-11-20 | 2022-12-27 | 山东大学 | 一种基于深度学习和相邻帧的视频超分辨率恢复方法 |
CN112700392A (zh) * | 2020-12-01 | 2021-04-23 | 华南理工大学 | 一种视频超分辨率处理方法、设备及存储介质 |
CN112580473A (zh) * | 2020-12-11 | 2021-03-30 | 北京工业大学 | 一种融合运动特征的视频超分辨率重构方法 |
CN112580473B (zh) * | 2020-12-11 | 2024-05-28 | 北京工业大学 | 一种融合运动特征的视频超分辨率重构方法 |
CN112750094A (zh) * | 2020-12-30 | 2021-05-04 | 合肥工业大学 | 一种视频处理方法及*** |
CN112750094B (zh) * | 2020-12-30 | 2022-12-09 | 合肥工业大学 | 一种视频处理方法及*** |
CN112767247A (zh) * | 2021-01-13 | 2021-05-07 | 京东方科技集团股份有限公司 | 图像超分辨率重建方法、模型蒸馏方法、装置及存储介质 |
CN112950470A (zh) * | 2021-02-26 | 2021-06-11 | 南开大学 | 基于时域特征融合的视频超分辨率重建方法及*** |
CN113099038B (zh) * | 2021-03-08 | 2022-11-22 | 北京小米移动软件有限公司 | 图像超分处理方法、图像超分处理装置及存储介质 |
CN113099038A (zh) * | 2021-03-08 | 2021-07-09 | 北京小米移动软件有限公司 | 图像超分处理方法、图像超分处理装置及存储介质 |
CN112991183A (zh) * | 2021-04-09 | 2021-06-18 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
CN112991183B (zh) * | 2021-04-09 | 2023-06-20 | 华南理工大学 | 一种基于多帧注意力机制渐进式融合的视频超分辨率方法 |
CN113052764A (zh) * | 2021-04-19 | 2021-06-29 | 东南大学 | 一种基于残差连接的视频序列超分重建方法 |
CN113507607B (zh) * | 2021-06-11 | 2023-05-26 | 电子科技大学 | 一种无需运动补偿的压缩视频多帧质量增强方法 |
CN113507607A (zh) * | 2021-06-11 | 2021-10-15 | 电子科技大学 | 一种无需运动补偿的压缩视频多帧质量增强方法 |
CN113592719A (zh) * | 2021-08-14 | 2021-11-02 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113592719B (zh) * | 2021-08-14 | 2023-11-28 | 北京达佳互联信息技术有限公司 | 视频超分辨模型的训练方法、视频处理方法及相应设备 |
CN113888426A (zh) * | 2021-09-28 | 2022-01-04 | 国网安徽省电力有限公司电力科学研究院 | 一种基于深度可分离残差网络的电力监控视频去模糊方法 |
CN113902623A (zh) * | 2021-11-22 | 2022-01-07 | 天津大学 | 引入尺度信息的任意倍视频超分辨率方法 |
CN114529456A (zh) * | 2022-02-21 | 2022-05-24 | 深圳大学 | 一种视频的超分辨率处理方法、装置、设备及介质 |
CN114819109B (zh) * | 2022-06-22 | 2022-09-16 | 腾讯科技(深圳)有限公司 | 双目图像的超分辨率处理方法、装置、设备及介质 |
CN114819109A (zh) * | 2022-06-22 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 双目图像的超分辨率处理方法、装置、设备及介质 |
CN115035230A (zh) * | 2022-08-12 | 2022-09-09 | 阿里巴巴(中国)有限公司 | 视频渲染处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111524068B (zh) | 2023-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111524068B (zh) | 一种基于深度学习的变长输入超分辨率视频重建方法 | |
CN110324664B (zh) | 一种基于神经网络的视频补帧方法及其模型的训练方法 | |
CN109903228B (zh) | 一种基于卷积神经网络的图像超分辨率重建方法 | |
CN109671023B (zh) | 一种人脸图像超分辨率二次重建方法 | |
KR102281017B1 (ko) | 이미지 처리를 위한 신경망 모델 훈련 방법, 장치 및 저장 매체 | |
CN109102462B (zh) | 一种基于深度学习的视频超分辨率重建方法 | |
CN111028150B (zh) | 一种快速时空残差注意力视频超分辨率重建方法 | |
CN110136062B (zh) | 一种联合语义分割的超分辨率重建方法 | |
Yang et al. | Coupled dictionary training for image super-resolution | |
Liu et al. | Exploit camera raw data for video super-resolution via hidden markov model inference | |
Dai et al. | Sparse representation-based multiple frame video super-resolution | |
CN111640060A (zh) | 基于深度学习及多尺度残差稠密模块的单幅图像超分辨率重建方法 | |
Cao et al. | Vdtr: Video deblurring with transformer | |
CN114418853B (zh) | 基于相似图像检索的图像超分辨率优化方法、介质及设备 | |
Niu et al. | Blind motion deblurring super-resolution: When dynamic spatio-temporal learning meets static image understanding | |
Guan et al. | Srdgan: learning the noise prior for super resolution with dual generative adversarial networks | |
CN112435165B (zh) | 基于生成对抗网络的两阶段视频超分辨率重建方法 | |
WO2023185284A1 (zh) | 视频处理方法和装置 | |
Ren et al. | Video deblurring by fitting to test data | |
CN116668738A (zh) | 一种视频时空超分辨率重构方法、装置及存储介质 | |
Yuan et al. | Unsupervised real image super-resolution via knowledge distillation network | |
Yang et al. | MCFD: A hardware-efficient noniterative multicue fusion demosaicing algorithm | |
Shi et al. | Deep residual architecture using pixel and feature cues for view synthesis and temporal interpolation | |
CN113538505A (zh) | 一种基于深度学习的单张图片的运动估计***及方法 | |
CN108665412B (zh) | 一种利用自然图像先验知识进行多帧图像超分辨重建的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240102 Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province Patentee after: Dragon totem Technology (Hefei) Co.,Ltd. Address before: 710061 No. 33, South Second Ring Road, Shaanxi, Xi'an Patentee before: CHANG'AN University |
|
TR01 | Transfer of patent right |