CN109636721B - 基于对抗学习和注意力机制的视频超分辨率方法 - Google Patents

基于对抗学习和注意力机制的视频超分辨率方法 Download PDF

Info

Publication number
CN109636721B
CN109636721B CN201811442708.7A CN201811442708A CN109636721B CN 109636721 B CN109636721 B CN 109636721B CN 201811442708 A CN201811442708 A CN 201811442708A CN 109636721 B CN109636721 B CN 109636721B
Authority
CN
China
Prior art keywords
network
video
frame
resolution
mask
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811442708.7A
Other languages
English (en)
Other versions
CN109636721A (zh
Inventor
王浩哲
陈艳姣
谈震威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201811442708.7A priority Critical patent/CN109636721B/zh
Publication of CN109636721A publication Critical patent/CN109636721A/zh
Application granted granted Critical
Publication of CN109636721B publication Critical patent/CN109636721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

针对视频分辨率传统方法中计算开销大、计算效率低、不能高效处理长序列的缺点,本发明公开了一种端到端的基于对抗学习和注意力机制的视频超分辨率方法。本发明采用临帧融合与注意力机制提取时空相关性,采用循环结构以一次性处理长序列,可以获得富于细节、时序连贯的高分辨率重建视频。本发明的有益效果为:1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法,提升了超分辨率的效果;2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好;3、本发明有助于视频超分辨率被应用于实际场景中,如应用于监控设备,卫星影像。

Description

基于对抗学习和注意力机制的视频超分辨率方法
技术领域
本发明属于计算机数字图像处理技术领域,具体涉及一种基于注意力模型和对抗学习模型的视频超分辨率方法。
背景技术
人类获取信息的主要途径是视觉,大部分基于视觉的应用效果取决于图像质量。然而通常由于硬件设备或者恶劣环境等因素,高分辨率视频图像难以获取。超分辨率技术对给定的低分辨率图像或视频帧序列处理,重建出富于细节的高分辨率图像或视频帧,而免去了升级成像***的成本。
早期的超分辨率技术在上世纪八十年代就已提出,最初采用数学方法进行重建,如迭代反复投影法,插值法,未能取得较好的效果。目前,获得较高重建质量的视频超分辨率方法是基于深度神经网络的模型。
目前的视频超分辨率方法为了利用视频中的时间相关性,建立了一个约束优化问题以估计相邻帧的运动位移,进而进行运动补偿,之后再利用基本对齐的相邻帧之间的亚像素进行单帧的重建。然而,这种方法存在两个问题。其一,运动补偿属于预处理,需要较大计算开销,而且在训练阶段需要额外训练。其二,运动估计使用的滑动窗口包含了大量的计算冗余,每次利用多帧仅能重建单帧,同一帧会参与计算数次,对于长序列的视频计算效率低。
本发明采用了对抗生成网络和注意力机制,设计了神经网络模型解决上述问题。
注意力机制源于生物感知过程,可以在长序列中根据每个元素在当前时刻的重要程度,从而动态地从不同信息源整合时序信息。多被用于自然语言处理任务中处理较长的序列数据,在本方法中用于提取视频的长时相关性。
对抗生成网络是目前主流的生成模型,它具有一个生成网络生成数据和一个判别网络判别数据的真实性。两个网络的目标相反,生成网络意图使生成的数据欺骗判别网络,判别网络意图正确区分出生成数据和真实数据,从而在生成网络和判别网络的博弈中,使生成网络拟合真实数据的分布以生成逼真的数据。在本方法中用于构造视频的感知损失函数和注意力模块的监督信号。
发明内容
本发明针对目前视频超分辨率方法中运动补偿的缺陷,提出了一种高效的视频超分辨率方法,可以重建出富于细节、时空连贯的高分辨率视频,其具体步骤如下:
一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:
步骤1、构建深度神经网络,包括构造生成网络、判别网络Dt以及判别网络 Da
步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;
步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的深度神经网络中,获得最终的结果。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,构造生成网络具体包括:
步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图(feature map);帧编码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络;
步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图(feature map)的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;
步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,所述进行时空域注意力,具体包括:
步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络;
步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;
步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层 (normalization)或循环神经单元(recurrent unit)的神经网络。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中所述构造损失函数具体包括:
步骤4.1、构造生成网络G损失函数Lg(G),其具体形式为
Figure BDA0001885040660000031
其中,Y与
Figure 1
分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,/>
Figure BDA0001885040660000033
表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数;
步骤4.2、构造判别网络Dt损失函数Lt(Dt),其具体形式为
Figure BDA0001885040660000034
其中,Y与
Figure 2
分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布;
步骤4.3、构造判别网络Da损失函数La(Da),其具体形式为
Figure BDA0001885040660000036
其中,A与
Figure BDA0001885040660000037
分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤2中训练神经网络具体包括:
步骤5.1、获取公开的、自然场景下的高分辨率视频数据集;
步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集;作为优选,所述的下采样包括高斯滤波、各类插值方法;
步骤5.3、对三个神经网络进行参数初始化
步骤5.4、训练判别网络Dt
步骤5.5、标注ka注意力掩膜对为负样本,加入样本池P
步骤5.6、训练生成网络G
步骤5.7、标注ka注意力掩膜对为正样本,加入样本池P
步骤5.8、训练判别网络Da
步骤5.9、不断重复步骤5.4至步骤5.8,直到模型收敛。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.4中所述训练判别网络Dt,其具体过程如下:
步骤5.41收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt的输入;
步骤5.42计算损失函数Lt(Dt)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.43将上述过程重复kt次,完成该轮迭代训练。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.6中所述训练生成网络G,其具体过程如下:
步骤5.61将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
步骤5.62计算损失函数Lg(G)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.63将上述过程重复kg次,完成该轮迭代训练。
在上述的基于对抗学习和注意力机制的视频超分辨率方法,步骤5.8中所述判别网络Da,其具体过程如下:
步骤5.81将当前样本池中的正负样本作为判别网络Da的输入;
步骤5.82计算损失函数La(Da)对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.83将上述过程重复ka次,完成该轮迭代训练。
与现有技术相比,本发明的有益效果为:1、本发明提出了一种新颖的基于注意力机制和对抗学习的视频超分辨率方法,提升了超分辨率的效果;2、本发明提出的基于注意力机制和对抗学习的视频超分辨率方法效果更好;3、本发明有助于视频超分辨率被应用于实际场景中,如应用于监控设备,卫星影像。
附图说明
图1是本发明的超分辨率模型模块及数据流概览。
图2是本发明的注意力模块内部结构概览。
图3是本发明实施例的超分辨率模型内部结构图。
图4是本发明实施例的注意力模块内部结构图。
图5是本发明的训练框架图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。本发明的具体步骤为:
(1)构建深度神经网络;
(2)训练深度神经网络;
(3)利用训练好的模型进行视频超分辨率。
步骤(1)所述的构建深度神经网络,具体过程如下:
(11)构造生成网络,如图1,其具体步骤如下:
(111)构造帧编码模块,其输入是原始视频的帧序列,输出是各帧的特征图(feature map)。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中,该模块包含两个残差密集块和融合网络,如图3。其具体实施过程定义如下:
(1111)构造两个相同结构的残差密集块,其具体步骤如下:
(11111)定义7个卷积层,前6层每个卷积核大小为3x3,步长为1,输出通道数32,最后一层卷积核大小为1x1,步长为1,输出通道数64,每个卷积层后是非线性激活层ReLU;
(11112)定义全连接,每层输入为其前面所有层输出的拼接;
(11113)将前6个卷积层按全连接方式连接,再连接最后一层;
(1112)构造融合网络,其具体步骤如下:
(11121)定义三个卷积层,第一个卷积核大小为1x1,步长为1,输出通道数 64,第二层卷积核大小为3x3,步长为1,输出通道数64,第三层卷积核大小为 1x1,步长为1,输出通道数64;每层后连接非线性激活层ReLU;
(11122)将当前帧与前一帧通过残差密集块后的输出拼接作为本网络的输入。
(1113)将上述(1111)与(1112)中模块顺序连接起来。
(112)构造时空域注意力模块,其输入为帧编码模块所得的各帧特征图(featuremap)的序列,输出为各帧特征图的序列。如图2,该模块包含掩膜生成网络和上下文特征融合网络,顺序连接。其具体步骤如下。
(1121)构造掩模生成网络,其输入为当前帧的特征图与上下文帧(帧序列中除了当前帧之外的帧)的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜。该网络是一个包含数个卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中,如图4,其具体实施过程定义如下:
(11211)构造残差单元,它由三个卷积层和一个批标准化层构成,第一个卷积层卷积核大小为1x1,特征映射通道数为c,第二个卷积层卷积核大小为3x3,特征映射通道数为c/2,第三个卷积层卷积核大小为1x1,特征映射通道数为c。卷积层步长均为1,将批标准化层***第二个卷积层之后,每个1x1的卷积层和批标准化层之后都有一个激励函数层;
(11212)构造最大池化层和双线性插值层;
(11213)定义Sigmoid激活函数层;
(11214)定义两种特征融合层,卷积核大小都为1x1,步长都为1,特征映射通道数分别为c*4和c;
(11215)令r=1,c=64,以如下顺序组合模块:1个池化层,r个残差单元, 1个池化层,2r个残差单元,1个插值层,r个残差单元,1个插值层,1个特征映射通道数为c*4的特征融合层,1个特征映射通道数为c的特征融合层,一个激励函数层。
(1122)将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图。
(1123)构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图。该网络是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中,其具体实施过程为:构造两个用于特征融合的卷积层,其卷积核大小分别为3x3和1x1,步长为1,输出通道数64;
(113)构造帧解码器模块,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列。该模块是一个包含数个卷积层(convolution)、非线性激活函数层(non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit) 的神经网络。在实施例中,如图3,其构造包含两个残差密集块、特征融合层、上采样层,其具体实施过程定义如下:
(1131)构造残差密集块,构造方法同步骤(1111);
(1132)构造特征融合层,构造方法同步骤(1112);
(1133)构造上采样层,具体步骤如下:
(11331)定义亚像素卷积层;
(11332)将帧编码器和帧解码器的输出拼接后作为输入。
(1134)将步骤(113)中的三个模块依次连接,完成构建。
(12)构造判别网络Dt,输入为一个帧序列,输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层(convolution)、非线性激活函数层 (non-linearity)、标准化层(normalization)或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程定义如下:
(121)定义卷积层,其结构均为卷积核为3x3,步长为2;
(122)定义批标准化层;
(123)定义Leaky-ReLU激活函数层;
(124)前12层是4组卷积层-批标准化层-激活层,其中卷积层输出通道数分别为64、128、256、512,最后连接1个步长为1卷积核3x3的卷积层和1个Sigmoid 激活层。
(13)构造判别网络Da,输入为一对特征图(当前帧、某上下文帧及其所得特征掩膜),输出为一个概率值或一个概率值的向量。该网络是一个包含卷积层 (convolution)、非线性激活函数层(non-linearity)、标准化层(normalization) 或循环神经单元(recurrent unit)的神经网络。在实施例中其具体实施过程与(12) 相同;
步骤2所述的训练深度神经网络,如图5,具体过程如下:
(21)构造损失函数,分别为生成网络G损失函数、判别网络Dt损失函数、构造判别网络Da损失函数,其具体内容为:
(211)构造生成网络G损失函数Lg(G),计算损失函数对网络参数的梯度,用 ADAM算法更新梯度,其具体形式为
Figure BDA0001885040660000081
其中,Y与
Figure BDA0001885040660000082
分别表示自然高分辨率视频与生成高分辨率视频,A为掩膜对正样本,Preal为真实高分辨率视频的概率分布,Ppos为掩模对正样本的概率分布,/>
Figure BDA0001885040660000083
表示计算L1距离,Dt和Da分别为两个判别网络,γ与δ为预设的超参数。
(212)构造判别网络Dt损失函数Lt(Dt),其具体形式为
Figure BDA0001885040660000084
其中,Y与
Figure BDA0001885040660000085
分别表示自然高分辨率视频与生成高分辨率视频,Preal为真实高分辨率视频的概率分布。
(213)构造判别网络Da损失函数La(Da),其具体形式为
Figure BDA0001885040660000086
其中,A与
Figure BDA0001885040660000087
分别表示掩膜对正样本与掩膜对负样本,Ppos为掩膜对正样本的概率分布,Pneg为掩膜对负样本的概率分布。
(22)使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,其具体过程如下
(221)获取公开的、自然场景下的高分辨率视频数据集;
(222)对高分辨率视频做双三次插值下采样到1/r分辨率的低分辨率数据集;
(223)对三个神经网络用Xavier方法进行参数初始化
(224)训练判别网络Dt,其具体步骤如下:
(2241)收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为Dt输入。
(2242)计算损失函数Lt(Dt)对网络参数的梯度,用Adam算法进行参数更新;
(2243)将上述过程重复kt次,完成该轮迭代训练。
(225)标注ka注意力掩膜对为负样本,加入样本池P;
(226)训练生成网络G,其具体步骤如下:
(2261)将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
(2262)计算损失函数Lg(G)对网络参数的梯度,用Adam算法进行参数更新;
(2263)将上述过程重复kg次,完成该轮迭代训练。
(227)标注ka注意力掩膜对为正样本,加入样本池P;
(228)训练判别网络Da,其具体步骤如下:
(2281)将当前样本池中的正负样本作为判别网络Da的输入;
(2282)计算损失函数La(Da)对网络参数的梯度,用Adam算法进行参数更新;
(2283)将上述过程重复ka次,完成该轮迭代训练。
(229)不断重复步骤(224)至(228),直到模型收敛。
步骤(3)所述的利用训练好的模型进行视频超分辨率,具体过程如下:
(31)获取需要进行超分辨率的视频集;
(32)直接将所要处理的视频作为输入,获得最终的结果。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (7)

1.一种基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,具体步骤如下:
步骤1、构建深度神经网络,包括构造生成网络、判别网络
Figure QLYQS_1
以及判别网络/>
Figure QLYQS_2
步骤2、训练深度神经网络,具体是基于损失函数,使用公开的、自然场景下的高分辨率视频数据集,训练构造好的神经网络,得到训练好的深度神经网络;
步骤3、利用训练好的模型进行视频超分辨率,具体是首先获取需要进行超分辨率的视频集,将所要处理的视频输入步骤2中训练好的的深度神经网络中,获得最终的结果;
步骤2中所述构造损失函数具体包括:
步骤4.1、构造生成网络
Figure QLYQS_3
损失函数/>
Figure QLYQS_4
,其具体形式为
Figure QLYQS_5
其中,
Figure QLYQS_7
与/>
Figure QLYQS_9
分别表示自然高分辨率视频与生成高分辨率视频,/>
Figure QLYQS_11
为掩膜对正样本,/>
Figure QLYQS_12
为真实高分辨率视频的概率分布,/>
Figure QLYQS_13
为掩模对正样本的概率分布,/>
Figure QLYQS_14
表示计算L1距离,/>
Figure QLYQS_15
和/>
Figure QLYQS_6
分别为两个判别网络,/>
Figure QLYQS_8
与/>
Figure QLYQS_10
为预设的超参数;
步骤4.2、构造判别网络
Figure QLYQS_16
损失函数/>
Figure QLYQS_17
,其具体形式为
Figure QLYQS_18
其中,
Figure QLYQS_19
与/>
Figure QLYQS_20
分别表示自然高分辨率视频与生成高分辨率视频,/>
Figure QLYQS_21
为真实高分辨率视频的概率分布;
步骤4.3、构造判别网络
Figure QLYQS_22
损失函数/>
Figure QLYQS_23
,其具体形式为
Figure QLYQS_24
其中,
Figure QLYQS_25
与/>
Figure QLYQS_26
分别表示掩膜对正样本与掩膜对负样本,/>
Figure QLYQS_27
为掩膜对正样本的概率分布,
Figure QLYQS_28
为掩膜对负样本的概率分布。
2.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,构造生成网络具体包括:
步骤2.1、进行帧编码,基于一个帧编码神经网络,输入是原始视频的帧序列,输出是各帧的特征图;帧编码神经网络是一个包含数个卷积层、非线性激活函数层、标准化层或循环神经单元的神经网络;
步骤2.2、进行时空域注意力,基于一个时空域注意力生成网络,输入为帧编码模块所得的各帧特征图的序列,输出为各帧特征图的序列;时空域注意力生成网络包含掩膜生成网络,和上下文特征融合网络;
步骤2.3、进行帧解码,基于一个帧解码神经网络,输入是各帧特征图的序列,输出是各帧重建所得高分辨率帧的序列;帧解码神经网络是一个包含数个卷积层、非线性激活函数层、标准化层或循环神经单元的神经网络。
3.根据权利要求1所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,所述进行时空域注意力,具体包括:
步骤3.1、构造掩模生成网络,其输入为当前帧的特征图与上下文帧的特征图,输出为一个表征上下文帧对当前帧关联性的特征掩膜;该网络是一个包含数个卷积层、非线性激活函数层、标准化层或循环神经单元的神经网络;
步骤3.2、将特征掩膜与上下文帧的特征图逐元素相乘得到加权特征图;
步骤3.3、构造上下文特征融合网络,其输入为当前帧的特征图与所有上下文帧的加权特征图的序列,其输出为当前帧的特征图;该网络是一个包含数个卷积层、非线性激活函数层、标准化层或循环神经单元的神经网络。
4.根据权利要求3所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤2中训练神经网络具体包括:
步骤5.1、获取公开的、自然场景下的高分辨率视频数据集;
步骤5.2、从高分辨率视频通过下采样获得的低分辨率数据集;所述的下采样包括高斯滤波、各类插值方法;
步骤5.3、对三个神经网络进行参数初始化
步骤5.4、训练判别网络
Figure QLYQS_29
步骤5.5、标注
Figure QLYQS_30
注意力掩膜对为负样本,加入样本池P
步骤5.6、训练生成网络
Figure QLYQS_31
步骤5.7、标注
Figure QLYQS_32
注意力掩膜对为正样本,加入样本池P
步骤5.8、训练判别网络
Figure QLYQS_33
步骤5.9、不断重复步骤5.4至步骤5.8,直到模型收敛。
5.根据权利要求4所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.4中所述训练判别网络
Figure QLYQS_34
,其具体过程如下:
步骤5.41收集原始高分辨率视频作为正样本,收集上一轮由生成器网络生成的高分辨率视频作为负样本,作为
Figure QLYQS_35
的输入;
步骤5.42计算损失函数
Figure QLYQS_36
对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.43将上述过程重复
Figure QLYQS_37
次,完成该轮迭代训练。
6.根据权利要求5所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.6中所述训练生成网络
Figure QLYQS_38
,其具体过程如下:
步骤5.61将视频序列顺次作为当前帧输入生成器,生成预测的高分辨率视频;
步骤5.62计算损失函数
Figure QLYQS_39
对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.63将上述过程重复
Figure QLYQS_40
次,完成该轮迭代训练。
7.根据权利要求6所述的基于对抗学习和注意力机制的视频超分辨率方法,其特征在于,步骤5.8中所述判别网络
Figure QLYQS_41
,其具体过程如下:
步骤5.81将当前样本池中的正负样本作为判别网络
Figure QLYQS_42
的输入;
步骤5.82计算损失函数
Figure QLYQS_43
对网络参数的梯度,基于梯度下降系算法进行参数更新;
步骤5.83将上述过程重复
Figure QLYQS_44
次,完成该轮迭代训练。
CN201811442708.7A 2018-11-29 2018-11-29 基于对抗学习和注意力机制的视频超分辨率方法 Active CN109636721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811442708.7A CN109636721B (zh) 2018-11-29 2018-11-29 基于对抗学习和注意力机制的视频超分辨率方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811442708.7A CN109636721B (zh) 2018-11-29 2018-11-29 基于对抗学习和注意力机制的视频超分辨率方法

Publications (2)

Publication Number Publication Date
CN109636721A CN109636721A (zh) 2019-04-16
CN109636721B true CN109636721B (zh) 2023-06-23

Family

ID=66069984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811442708.7A Active CN109636721B (zh) 2018-11-29 2018-11-29 基于对抗学习和注意力机制的视频超分辨率方法

Country Status (1)

Country Link
CN (1) CN109636721B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322402B (zh) * 2019-04-30 2023-07-25 武汉理工大学 基于稠密混合注意力网络的医学图像超分辨率重建方法
CN113892116A (zh) * 2019-06-21 2022-01-04 英特尔公司 用于噪声图像超分辨的自适应深度学习模型
CN110390308B (zh) * 2019-07-26 2022-09-30 华侨大学 一种基于时空对抗生成网络的视频行为识别方法
WO2021097594A1 (zh) * 2019-11-18 2021-05-27 中国科学院深圳先进技术研究院 快速成像模型的训练方法、装置及服务器
CN111091576B (zh) * 2020-03-19 2020-07-28 腾讯科技(深圳)有限公司 图像分割方法、装置、设备及存储介质
CN112019861B (zh) * 2020-07-20 2021-09-14 清华大学 基于关键帧指导超分辨率的视频压缩方法及装置
CN112712468B (zh) * 2021-03-26 2021-07-09 北京万里红科技股份有限公司 虹膜图像超分辨率重建方法及计算设备
CN114818989B (zh) * 2022-06-21 2022-11-08 中山大学深圳研究院 基于步态的行为识别方法、装置、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683048A (zh) * 2016-11-30 2017-05-17 浙江宇视科技有限公司 一种图像超分辨率方法及设备
CN107154023A (zh) * 2017-05-17 2017-09-12 电子科技大学 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CN107958246A (zh) * 2018-01-17 2018-04-24 深圳市唯特视科技有限公司 一种基于新型端到端人脸超分辨率网络的图像对齐方法
CN108805809A (zh) * 2018-05-28 2018-11-13 天津科技大学 一种基于生成对抗网络的红外人脸图像超分辨率重建方法
CA3004572A1 (en) * 2017-05-24 2018-11-24 General Electric Company Neural network point cloud generation system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10803378B2 (en) * 2017-03-15 2020-10-13 Samsung Electronics Co., Ltd System and method for designing efficient super resolution deep convolutional neural networks by cascade network training, cascade network trimming, and dilated convolutions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106683048A (zh) * 2016-11-30 2017-05-17 浙江宇视科技有限公司 一种图像超分辨率方法及设备
CN107154023A (zh) * 2017-05-17 2017-09-12 电子科技大学 基于生成对抗网络和亚像素卷积的人脸超分辨率重建方法
CA3004572A1 (en) * 2017-05-24 2018-11-24 General Electric Company Neural network point cloud generation system
CN107958246A (zh) * 2018-01-17 2018-04-24 深圳市唯特视科技有限公司 一种基于新型端到端人脸超分辨率网络的图像对齐方法
CN108805809A (zh) * 2018-05-28 2018-11-13 天津科技大学 一种基于生成对抗网络的红外人脸图像超分辨率重建方法

Also Published As

Publication number Publication date
CN109636721A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109636721B (zh) 基于对抗学习和注意力机制的视频超分辨率方法
CN111062872B (zh) 一种基于边缘检测的图像超分辨率重建方法及***
CN113658051B (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN110148085B (zh) 人脸图像超分辨率重建方法及计算机可读取的存储介质
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN109685716B (zh) 一种基于高斯编码反馈的生成对抗网络的图像超分辨率重建方法
CN112529776B (zh) 图像处理模型的训练方法、图像处理方法及装置
CN111861886B (zh) 一种基于多尺度反馈网络的图像超分辨率重建方法
CN105488759B (zh) 一种基于局部回归模型的图像超分辨率重建方法
CN116681584A (zh) 一种多级扩散图像超分辨算法
Guan et al. Srdgan: learning the noise prior for super resolution with dual generative adversarial networks
CN112085655A (zh) 一种基于密集残差注意面部先验网络的人脸超分辨率方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN115147426A (zh) 基于半监督学习的模型训练与图像分割方法和***
CN116524307A (zh) 一种基于扩散模型的自监督预训练方法
CN114782291A (zh) 图像生成器的训练方法、装置、电子设备和可读存储介质
CN114998667A (zh) 多光谱目标检测方法、***、计算机设备及存储介质
CN107729885B (zh) 一种基于多重残差学习的人脸增强方法
CN111275751A (zh) 一种无监督绝对尺度计算方法及***
CN114529794B (zh) 一种红外与可见光图像融合方法、***及介质
CN116563103A (zh) 一种基于自适应神经网络的遥感图像时空融合方法
CN116342385A (zh) 文本图像超分辨率网络的训练方法、装置以及存储介质
CN113658046B (zh) 基于特征分离的超分辨率图像生成方法、装置、设备和介质
CN115018726A (zh) 一种基于U-Net的图像非均匀模糊核的估计方法
CN115439397A (zh) 用于无卷积图像处理的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant