CN114598833A - 基于时空联合注意力的视频插帧方法 - Google Patents

基于时空联合注意力的视频插帧方法 Download PDF

Info

Publication number
CN114598833A
CN114598833A CN202210305381.9A CN202210305381A CN114598833A CN 114598833 A CN114598833 A CN 114598833A CN 202210305381 A CN202210305381 A CN 202210305381A CN 114598833 A CN114598833 A CN 114598833A
Authority
CN
China
Prior art keywords
video frame
convolutional
layer
attention
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210305381.9A
Other languages
English (en)
Other versions
CN114598833B (zh
Inventor
路文
张弘毅
冯姣姣
张立泽
胡健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202210305381.9A priority Critical patent/CN114598833B/zh
Publication of CN114598833A publication Critical patent/CN114598833A/zh
Application granted granted Critical
Publication of CN114598833B publication Critical patent/CN114598833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0135Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes
    • H04N7/014Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving interpolation processes involving the use of motion vectors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)

Abstract

本发明提出了一种基于时空联合注意力的视频插帧方法,实现步骤为:(1)获取训练数据集和数据集;(2)构建基于时空联合注意力的视频插帧网络;(3)对视频插帧网络模型迭代训练;(4)获取视频插帧结果。本发明所构建的基于时空联合注意力的视频插帧模型,利用时空注意力机制去捕获输入帧之间的时空关系,并对复杂运动进行建模,完成了高质量的视频插帧。与现有的大多数网络相比,本算法不使用额外的光流输入,避免了光流估计带来的额外误差,同时使得网络参数量低,有实际应用价值。

Description

基于时空联合注意力的视频插帧方法
技术领域
本发明属于视频处理技术领域,涉及一种视频插帧方法,具体涉及一种基于时空联合注意力的视频插帧方法,可用于慢动作生成、视频后处理等领域。
背景技术
低的时间分辨率会导致图像混叠,并产生伪影,降低视频质量,因此时间分辨率成为影响视频质量的重要因素。视频插帧方法在连续图像帧之间***一幅或多幅中间帧来提高时间分辨率,提高视频质量。
视频插帧方法通常由运动估计和像素合成两部分组成。运动估计是指通过计算前后两帧之间像素点的运动来预测中间帧所对应像素点的位置;运动估计分为前向估计与反向估计,像素合成就是将前向估计的中间帧与反向估计的中间帧进行融合,得到中间帧。早期视频插帧主要使用光流法,估计前后两帧的双向光流,利用前向扭曲或后向扭曲合成中间帧。随着深度学习的发展,在光流估计和视频插帧也有较好的效果。现有大多数插帧方法通过应用训练好的光流估计网络生成双边光流,进行从双边帧到中间帧的映射。首先这些方法非常依赖光流估计算法的可靠性,光流估计网络产生误差会随着插帧网络继续传播导致插帧结果的不准确。同时光流估计算法带来了额外的计算量,导致插帧效率较低。其次,这些网络对复杂运动的估计仅限于线性或者二次运动轨迹,对复杂的运动轨迹很难解释。因此,设计一种不依赖于光流估计且能准确估计复杂运动轨迹的插帧模型非常重要。
注意力机制在神经网络中的应用使得网络可以根据任务需求,自适应的校准输入,并重点关注对完成任务更有作用的部分。因此,利用注意力机制,可以捕捉并重建更为复杂的运动。同时,利用端到端的训练,可以摆脱光流估计模型带来的估计误差,降低模型的参数量,显著的提升插帧准确性和速度。
影响视频插帧的主要因素为预测中间帧的准确性,其客观评价指标为峰值信噪比PSNR与结构相似性SSIM;PSNR越高,表示图像质量越高;同样SSIM越高,表示图像质量越高。
Junheum Park等人在International Conference on Computer Vision中提出基于光流的ABME算法Asymmetric Bilateral Motion Estimation for Video FrameInterpolation,首先,计算输入帧的对称双边光流,根据对称双边光流计算锚帧,然后,计算锚帧与输入帧之间的非对称双边光流,接着,利用非对称双边光流计算得到初步的中间帧,最后,利用合成网络优化初步的中间帧,得到最终的插帧结果图像。
Choi等人提出CAIN算法Channel Attention Is All You Need for Video FrameInterpolation,将各帧的空间特征信息分布在网络通道中,使用通道注意力机制捕捉运动信息。但是这种算法并未能明确捕获输入帧之间的时间维度的依赖性,导致生成帧的运动边际出现严重的伪影,插帧结果不准确。
发明内容
本发明的目的在于针对上述现有技术存在的不足,提出一种基于时空联合注意力的视频插帧方法,旨在有效利用相邻帧的时间相关性和空间信息以及完成对复杂非线性运动的估计和生成,有效提高视频插帧算法的准确性,同时不引入过多的参数量,进一步提高了视频插帧算法的效率。
为实现上述目的,本发明采取的技术方案包括如下步骤:
(1)获取训练样本集和测试样本集:
对选取的每个包括L幅图像帧的V个原始视频进行预处理,并对预处理后的每个原始视频对应的视频帧序列中序号为奇数的图像帧和序号为偶数的图像帧分别进行标记,然后将R个图像帧带有标记的视频帧序列V1={V1 r|1≤r≤R}作为训练样本集,将其余S个图像帧带有标记的视频帧序列
Figure BDA0003564661830000021
作为测试样本集,其中,L>5,V>1000,
Figure BDA0003564661830000022
V1 r表示第r个视频帧序列,S=V-R,
Figure BDA0003564661830000023
表示第s个视频帧序列;
(2)构建基于时空联合注意力的视频插帧网络模型f:
构建包括顺次连接的特征提取网络、时空联合注意力网络和3D卷积网络的视频插帧网络模型f;其中,特征提取网络包括顺次连接的多个2D卷积层;时空注意力网络包含多个顺次连接的时空注意力模块;3D卷积网络包括多个顺次连接的3D卷积层;
(3)对视频插帧网络模型f进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥100,视频插帧网络模型f的权重参数为θ,并令i=0;
(3b)获取训练样本集V1中视频帧序列V1 p的奇数位上图像帧的中间帧:
(3b1)将训练样本集V1作为视频插帧网络模型f的输入,特征提取网络对每个视频帧序列V1 p中奇数位上的每个训练样本进行特征提取,得到V1 r包含E个奇数位上的训练样本的特征图集合
Figure BDA0003564661830000031
其中E≥2且为偶数,
Figure BDA0003564661830000032
表示第i次迭代第e个奇数位上的训练样本对应的特征图;
(3b2)时空联合注意力网络计算每个特征图
Figure BDA0003564661830000033
的时间和空间相关性,并利用特征图集合
Figure BDA0003564661830000034
对应的时间和空间相关性计算得到
Figure BDA0003564661830000035
的F个深度特征;
(3b3)3D卷积网络对
Figure BDA0003564661830000036
的F个深度特征进行重建每个视频帧序列V1 r奇数位上图像帧的中间帧图像
Figure BDA0003564661830000037
(3c)采用绝对值损失函数L1,通过
Figure BDA0003564661830000038
和每个视频帧序列中偶数位上的图像帧计算视频插帧网络模型的损失值L,然后采用梯度下降法,并通过L的偏导值对f的权重参数θ进行更新,得到本次迭代的视频插帧网络模型fi
(3d)判断i≥1是否成立,若是,得到训练好的视频插帧网络模型f*,否则,令i=i+1,fi=f,并执行步骤(3b);
(4)获取视频插帧结果:
在视频帧序列
Figure BDA0003564661830000039
作为训练好的视频插帧网络模型f*的输入进行前向传播,得到测试数据集中每个视频帧序列中所选图像帧的中间帧图像X2_s
本发明与现有技术相比,具有如下优点:
本发明基于时空联合注意力构建视频插帧网络包括的时空联合注意力网络,在视频插帧模型训练中能获取相邻输入图像帧之间的时空相关性,根据时空相关性对物体运动进行建模,最终合成中间帧,时空联合注意力网络在应对复杂非线性运动时视频插帧效果比现有技术好;本发明利用时空联合注意网络获取运动物体的特征信息,避免了计算光流而导致的计算结果的误差,有效提高了视频插帧的准确性,同时,利用注意力模型和3D卷积进行运动估计,使得网络参数量低,提高视频插帧速度,有实际应用价值。
附图说明
图1为本发明的实现流程图;
图2为本发明视频插帧网络结构示意图;
图3位本发明时空注意力块原理示意图
具体实施方式
以下结合附图和具体实施例,对本发明作进一步详细描述:
参照图1,本发明包括如下步骤:
步骤1)获取训练样本集和测试样本集:
对选取的每个包括L幅图像帧的V个原始视频通过大小为H×W的裁剪窗对每个帧图像进行裁剪,得到预处理后的每个原始视频对应的视频帧序列,其中H=448、W=256分别表示裁剪窗的长、宽,并对预处理后的每个原始视频对应的视频帧序列中序号为奇数的图像帧和序号为偶数的图像帧分别进行标记,然后将R个图像帧带有标记的视频帧V1={V1 r|1≤r≤R}作为训练样本集,将其余S个图像帧带有标记的视频帧序列
Figure BDA0003564661830000041
作为测试样本集,其中,L=7,V=7564,R=3782,S=3782,V1 r表示第r个视频帧序列,
Figure BDA0003564661830000042
表示第s个视频帧序列;
步骤2)构建时空联合注意力的视频插帧模型f,其结构如图2所示:
构建包括顺次连接的特征提取网络、时空联合注意力网络和3D卷积网络的视频插帧网络模型f;其中,特征提取网络包括顺次连接的4个2D卷积层;时空注意力网络包含7个顺次连接的时空注意力模块,时空注意力模块原理如图3所示;3D卷积网络包括3个顺次连接的3D卷积层;
其中,特征提取网络的4个2D卷积层每层均包含多个卷积核和一个激活函数,第一和第二2D卷积层中卷积核个数均为64,第三、第四2D卷积层中卷积核个数分别为128、256,该4个2D卷积层的卷积核的大小均为3×3,第一层和第三层的卷积核步长为2,第二层和第四层卷积核步长为1,4个2D卷积层均进行补1操作,该4个2D卷积层激活函数均采用ReLU函数;
时空注意力网络中的时空注意力模块包含4个分支,时空注意力模块采用多分支的形式沿时空维度对输入帧进行搜索,不同的分支的时空注意力模块会在不同的空间尺寸上计算注意力,可以使网络更容易捕获因复杂运动而引起的变化;和输入特征图同样尺寸的注意力块会在全局进行建模,主要完成对背景部分进行建模;较小的注意力块在局部进行建模,对复杂运动的前景进行建模,获取运动物体的特征信息;其中每个分支均包含4个2D卷积层和一个softmax层,其结构为:第一、第二和第三2D卷积层并行连接,第一和第二2D卷积层的输出相乘得到的结果作为softmax层的输入,第三2D卷积层输出与softmax层的输出相乘得到的结果作为每个通道的输入,各个通道的输出作为第四2D卷积层的输入,第四2D卷积层的输出为每个时空注意力模块所计算的深度特征;时空注意力网络包含时空注意力模块的个数为7,其中每个时空注意力模块包含的多个卷积层的个数为4,第一、第二和第三二维卷积层中卷积核个数均为64,第四二维卷积层中卷积核个数为256,第一、第二和第三二维卷积层中的卷积核大小均为1×1,卷积步长均为1,第四二维卷积层中的卷积核大小为3×3,卷积步长为1;
3D卷积网络包含的3D卷积层的个数为3,第一和第二3D卷积层卷积核个数分别为128、64,第三3D卷积层卷积核个数为64,第一和第二3D卷积层的卷积核的大小均为3×3×3,第三3D卷积层的卷积核的大小为2×3×3,卷积步长均为1×1×1,第三3D卷积层采用的激活函数为ReLU激活函数;
步骤3)对视频插帧网络模型f进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I=100,视频插帧网络模型f的权重参数为θ,并令i=0;
(3b)获取训练样本集V1中视频帧序列V1 r的奇数位上图像帧的中间帧:
(3b1)将训练样本集V1作为视频插帧网络模型f的输入,特征提取网络对每个视频帧序列V1 r中第1,3,5,7幅图像帧进行特征提取,得到V1 r包含E=4个奇数位上的训练样本的特征图集合
Figure BDA0003564661830000051
Figure BDA0003564661830000052
表示第i次迭代第e个奇数位上的训练样本对应的特征图;
(3b2)时空联合注意力网络计算得到
Figure BDA0003564661830000053
的F=4个深度特征:
(3b2i)将每个特征图
Figure BDA0003564661830000054
都进行卷积核大小为1×1卷积操作,得到键向量ke、查询向量qe、值向量ve
(3b2ii)对键向量ke、查询向量qe、值向量ve以大小为hi×wi×C进行分块,其中,h1=448,w1=256,h2=224,w2=128,h3=112,w3=64,h4=56,w4=32,C=256为所提取特征图的通道个数,将所提取特征图输入4个分支,其中第一分支将所提取的特征图以h1×w1×C进行分块,第二分支对提取的特征图以h2×w2×C进行分块,第三分支对提取的特征图以h3×w3×C进行分块,第四分支将提取的特征图以h4×w4×C进行分块,得到N=340个特征块,其中N=T×H/hi×W/wi,T=4为输入帧数;通过对qe和ke进行乘法运算得到不同特征块之间的相关性;分别将qe和ke的每个特征块转化为一维向量后,进行矩阵乘法,则查询向量块和键向量块之间的相关性可有下述公式计算:
Figure BDA0003564661830000061
其中,1≤m≤N,1≤n≤N,
Figure BDA0003564661830000062
表示第m个查询向量块,
Figure BDA0003564661830000063
表示第n个键向量块,x(m,n)表示
Figure BDA0003564661830000064
中第m个查询向量块和
Figure BDA0003564661830000065
中第n个键向量块进行归一化的相关性;进行分块后,可以有效减少矩阵操作带来的计算量;进行归一化操作缓解Softmax函数导致的梯度下降;对求得的相关性做Softmax操作得到注意力权重:
Figure BDA0003564661830000066
其中,exp表示指数运算,
Figure BDA0003564661830000067
表示
Figure BDA0003564661830000068
中第m个查询向量块和
Figure BDA0003564661830000069
中所有键向量块分别进行指数运算后并对结果加和,a(m,n)表示注意力权重;将表示获得的注意力权重与每个值向量相乘并将相乘结果相加得到输出:
Figure BDA00035646618300000610
其中,Om表示时空注意力模块每个块捕获的运动信息;对表示所有块进行合并,并重新转化为初始大小H×W×C,最后对不同分支的时空注意力模块在通道维度合并,得到
Figure BDA00035646618300000611
的4个时间维度的深度特征;
(3b3)3D卷积网络对
Figure BDA00035646618300000612
的4个时间维度的深度特征融合。第一层3D卷积核的输入和输出维度保持一致,对深度特征进行特征提取;第二层3D卷积层,卷积核大小设为3×3×3,使输出特征图时间维度降为2,对时间维度距离较近的深度特征进行解码和融合;第三层3D卷积层,卷积核大小设为2×3×3,将时间维度降为1,经过一个2D卷积层可以生成每个视频帧序列V1 p第1,3,5,7幅图像帧的第4幅中间帧图像
Figure BDA0003564661830000071
其中,该2D卷积层卷积核个数为1,卷积核大小为7×7,步长为1,卷积层进行补0操作;
(3c)采用绝对值损失函数L1,通过
Figure BDA0003564661830000072
和每个视频帧序列中的第4幅图像帧计算视频插帧网络模型的损失值L,然后将损失值L输入Adam优化器,对f的权重参数θ进行更新,得到本次迭代的视频插帧网络模型fi
(3d)判断i≥1是否成立,若是,得到训练好的视频插帧网络模型f*,否则,令i=i+1,fi=f,并执行步骤(3b);
步骤4)获取视频插帧结果:
在视频帧序列V2 s作为训练好的视频插帧网络模型f*的输入进行前向传播,得到测试数据集中每个视频帧序列中所选图像帧的中间帧图像X2_s
下面结合仿真实验,对本发明的技术效果作进一步的描述:
1.仿真条件和内容:
仿真在PyTorch框架下的两张NVIDIA TITAN RTX显卡上进行训练。使用Adam优化器训练模型,其中β1=0.9,β2=0.99,初始学习率设为10-4,学习率经过40个epoch下降为原来的0.4倍。
在训练视频插帧模型时,使用Vimeo90k数据集作为训练集,它包含3782个有连续帧的场景,每帧空间分辨率是448×256,在训练时,将Viemo90K进行裁块、翻转等方式对数据集进行扩充和增强;Vimeo90K数据集来自于Xue Tianfan等人在文献“VideoEnhancement with Task-Oriented Flow”,“International Journal of ComputerVision,vol.127,no.8,pp.1106-1125,2019.”;在测试时,使用目前广泛采用的测试集:Vimeo90K,UCF101。Ucf101数据集来自于K.Soomro等人在文献“UCF101:A dataset of101human cations classes from video in the wild”,“arXiv preprint arXiv:1212.0402,2012.”,UCF101数据集包含379组图片,每组图片包括连续的3帧图像;Vimeo90K数据集包含3782组图片,每组包含连续的3帧图像。
视频插帧实验结果:如表1所示,将本发明的算法的实验结果和现有ABME和CAIN的参数量、峰值信噪比和结果相似度进行对比仿真:
Figure BDA0003564661830000081
表1
如表1所示,ABME算法参数量为18.1M,模型输入需要RGB图像与图像的光流,在Vimeo90K数据集,峰值性噪比PSNR和结构相似度SSIM分别为35.84、0.973,在UCF101数据集,PSNR和SSIM分别为32.90、0.969;CAIN算法参数量为42、8M,模型输入只需要RGB图像,在Vimeo90K数据集,PSNR和SSIM分别为33.93、0.964,在UCF101数据集,PSNR和SSIM分别为32.28、0.965;本发明的参数量为14.4M,模型输入只需要RGB图像,在Vimeo90K数据集,PSNR和SSIM分别为36.40、0.976,在UCF101数据集,PSNR和SSIM分别为33.35、0.971;
由表1可知,本发明在两个测试集上,PSNR和SSIM都取得了最好的效果。同时,本发明在需要RGB图像输入的情况下,能优于只需要RGB图像输入的算法,也优于基于光流的插帧算法;本发明的参数量也远小于CAIN算法,使得所本发明的算法更容易实现工程应用。
仿真实验中的结果表明,本发明提出的方法利用时空注意力机制去捕获输入帧之间的时空关系,并对复杂运动进行建模,完成了准确的视频插帧。与ABME算法相比,本发明不使用光流估计,避免了光流估计带来的额外误差,与CAIN算法比较,增加时间维度信息,有效提高视频插帧准确性;同时本发明使得网络参数量低,有实际应用价值。

Claims (5)

1.一种基于时空联合注意力的视频插帧方法,其特征在于,包括如下步骤:
(1)获取训练样本集和测试样本集:
对选取的每个包括L幅图像帧的V个原始视频进行预处理,并对预处理后的每个原始视频对应的视频帧序列中序号为奇数的图像帧和序号为偶数的图像帧分别进行标记,然后将R个图像帧带有标记的视频帧序列V1={V1 r|1≤r≤R}作为训练样本集,将其余S个图像帧带有标记的视频帧序列
Figure FDA0003564661820000011
作为测试样本集,其中,L>5,V>1000,
Figure FDA0003564661820000012
V1 r表示第r个视频帧序列,S=V-R,
Figure FDA0003564661820000013
表示第s个视频帧序列;
(2)构建基于时空联合注意力的视频插帧网络模型f:
构建包括顺次连接的特征提取网络、时空联合注意力网络和3D卷积网络的视频插帧网络模型f;其中,特征提取网络包括顺次连接的多个2D卷积层;时空注意力网络包含多个顺次连接的时空注意力模块;3D卷积网络包括多个顺次连接的3D卷积层;
(3)对视频插帧网络模型f进行迭代训练:
(3a)初始化迭代次数为i,最大迭代次数为I,I≥100,视频插帧网络模型f的权重参数为θ,并令i=0;
(3b)获取训练样本集V1中视频帧序列V1 r的奇数位上图像帧的中间帧:
(3b1)将训练样本集V1作为视频插帧网络模型f的输入,特征提取网络对每个视频帧序列V1 r中奇数位上的每个训练样本进行特征提取,得到V1 r包含E个奇数位上的训练样本的特征图集合
Figure FDA0003564661820000014
其中E≥2且为偶数,
Figure FDA0003564661820000015
表示第i次迭代第e个奇数位上的训练样本对应的特征图;
(3b2)时空联合注意力网络计算每个特征图
Figure FDA0003564661820000021
的时间和空间相关性,并利用特征图集合
Figure FDA0003564661820000022
对应的时间和空间相关性计算
Figure FDA0003564661820000023
的F个深度特征;
(3b3)3D卷积网络对
Figure FDA0003564661820000024
的F个深度特征进行重建每个视频帧序列V1 r奇数位上图像帧的中间帧图像
Figure FDA0003564661820000025
(3c)采用绝对值损失函数L1,通过
Figure FDA0003564661820000026
和每个视频帧序列中偶数位上的图像帧计算视频插帧网络模型的损失值L,然后采用梯度下降法,并通过L的偏导值对f的权重参数θ进行更新,得到本次迭代的视频插帧网络模型fi
(3d)判断i≥1是否成立,若是,得到训练好的视频插帧网络模型f*,否则,令i=i+1,fi=f,并执行步骤(3b);
(4)获取视频插帧结果:
在视频帧序列
Figure FDA0003564661820000027
作为训练好的视频插帧网络模型f*的输入进行前向传播,得到测试数据集中每个视频帧序列中所选图像帧的中间帧图像X2_s
2.根据权利要求1所述的基于时空联合注意力的视频插帧方法,其特征在于,步骤(1a)中所述的对选取的V个原始视频进行预处理,实现步骤为:
将每个原始视频分解为L个帧图像,并通过大小为H×W的裁剪窗对每个帧图像进行裁剪,得到预处理后的每个原始视频对应的视频帧序列,其中H、W分别表示裁剪窗的长、宽。
3.根据权利要求1所述的基于时空联合注意力的视频插帧方法,其特征在于,步骤(2)中所述的视频插帧网络模型f,其中:
特征提取网络包含的2D卷积层的个数为4,4个2D卷积层均包含多个卷积核和一个激活函数,第一和第二2D卷积层中卷积核个数均为64,第三、第四2D卷积层中卷积核个数分别为128、256,该4个2D卷积层的卷积核的大小均为3×3,第一层和第三层的卷积核步长为2,第二层和第四层卷积核步长为1,该4个2D卷积层激活函数均采用ReLU函数;
时空注意力网络中的时空注意力模块包含4个分支,其中每个分支均包含4个2D卷积层和一个softmax层,其结构为:第一、第二和第三2D卷积层并行连接,第一和第二2D卷积层的输出相乘得到的结果作为softmax层的输入,第三2D卷积层输出与softmax层的输出相乘得到的结果作为每个分支的输入,各个分支的输出作为第四2D卷积层的输入,第四2D卷积层的输出为每个时空注意力块所计算的深度特征;时空注意力网络包含时空注意力模块的个数为7,其中每个时空注意力模块包含的多个卷积层的个数为4,第一、第二和第三二维卷积层中卷积核个数均为64,第四二维卷积层中卷积核个数为256,第一、第二和第三二维卷积层中的卷积核大小均为1×1,卷积步长均为1,第四二维卷积层中的卷积核大小为3×3,卷积步长为1;
3D卷积网络包含的3D卷积层的个数为3,第一和第二3D卷积层卷积核个数分别为128、64,第三3D卷积层卷积核个数为64,第一和第二3D卷积层的卷积核的大小均为3×3×3,第三3D卷积层的卷积核的大小为2×3×3,卷积步长均为1×1×1,第三3D卷积层采用的激活函数为ReLU激活函数。
4.根据权利要求1所述的基于时空联合注意力的视频插帧方法,其特征在于,步骤(3b2)中所述的时空联合注意力网络计算每个特征图
Figure FDA0003564661820000031
的时间和空间相关性,并利用F个
Figure FDA0003564661820000032
对应的时间和空间相关性得到
Figure FDA0003564661820000033
的F个深度特征,实现步骤为:
时空联合注意力网络对每个特征图
Figure FDA0003564661820000034
进行卷积得到键向量ke、查询向量qe、值向量ve,将向量ke与向量qe进行乘法运算得到每个特征图
Figure FDA0003564661820000035
对应的相关性,并将每个相关性与其值向量ve相乘并对相乘的结果求和得到每个特征图对应的深度特征。
5.根据权利要求1所述的基于时空联合注意力的视频插帧方法,其特征在于,步骤(3b3)中所述的重建每个视频帧序列V1 s奇数位上图像帧的中间帧图像
Figure FDA0003564661820000041
实现步骤为:
3D卷积网络的三层卷积层,第一层3D卷积层对深度特征进行特征提取,第二层3D卷积层将输出特征图时间维度降为2,最后一层3D卷积层,最终将时间维度降为1,得到中间帧图像
Figure FDA0003564661820000042
CN202210305381.9A 2022-03-25 2022-03-25 基于时空联合注意力的视频插帧方法 Active CN114598833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210305381.9A CN114598833B (zh) 2022-03-25 2022-03-25 基于时空联合注意力的视频插帧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210305381.9A CN114598833B (zh) 2022-03-25 2022-03-25 基于时空联合注意力的视频插帧方法

Publications (2)

Publication Number Publication Date
CN114598833A true CN114598833A (zh) 2022-06-07
CN114598833B CN114598833B (zh) 2023-02-10

Family

ID=81810400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210305381.9A Active CN114598833B (zh) 2022-03-25 2022-03-25 基于时空联合注意力的视频插帧方法

Country Status (1)

Country Link
CN (1) CN114598833B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243031A (zh) * 2022-06-17 2022-10-25 合肥工业大学智能制造技术研究院 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080174694A1 (en) * 2007-01-22 2008-07-24 Horizon Semiconductors Ltd. Method and apparatus for video pixel interpolation
CN101903828A (zh) * 2007-12-20 2010-12-01 汤姆森许可贸易公司 帮助捕获图像的设备
CN107133919A (zh) * 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
CN111915659A (zh) * 2019-05-10 2020-11-10 三星电子株式会社 用于视频帧内插的基于cnn的***和方法
CN112734696A (zh) * 2020-12-24 2021-04-30 华南理工大学 基于多域特征融合的换脸视频篡改检测方法及***
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN113132664A (zh) * 2021-04-19 2021-07-16 科大讯飞股份有限公司 一种插帧生成模型构建方法、视频插帧方法
US20210383169A1 (en) * 2019-03-01 2021-12-09 Peking University Shenzhen Graduate School Method, apparatus, and device for video frame interpolation
CN114125455A (zh) * 2021-11-23 2022-03-01 长沙理工大学 一种基于深度学习的双向编码视频插帧方法、***及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080174694A1 (en) * 2007-01-22 2008-07-24 Horizon Semiconductors Ltd. Method and apparatus for video pixel interpolation
CN101903828A (zh) * 2007-12-20 2010-12-01 汤姆森许可贸易公司 帮助捕获图像的设备
CN107133919A (zh) * 2017-05-16 2017-09-05 西安电子科技大学 基于深度学习的时间维视频超分辨率方法
US20210383169A1 (en) * 2019-03-01 2021-12-09 Peking University Shenzhen Graduate School Method, apparatus, and device for video frame interpolation
CN111915659A (zh) * 2019-05-10 2020-11-10 三星电子株式会社 用于视频帧内插的基于cnn的***和方法
CN112734696A (zh) * 2020-12-24 2021-04-30 华南理工大学 基于多域特征融合的换脸视频篡改检测方法及***
CN113034380A (zh) * 2021-02-09 2021-06-25 浙江大学 一种基于改进可变形卷积校正的视频时空超分辨率方法和装置
CN113132664A (zh) * 2021-04-19 2021-07-16 科大讯飞股份有限公司 一种插帧生成模型构建方法、视频插帧方法
CN114125455A (zh) * 2021-11-23 2022-03-01 长沙理工大学 一种基于深度学习的双向编码视频插帧方法、***及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JIAN XIA: "Multi-Scale Attention Generative Adversarial Networks for Video Frame Interpolation", 《IEEE ACCESS》 *
JUN LI: "Spatio-Temporal Attention Networks for Action Recognition and Detection", 《 IEEE TRANSACTIONS ON MULTIMEDIA》 *
ZHIHAO SHI: "video farmer interpolation via generalized deformable convolution", 《IEEE TRANSACTIONS ON MULTIMEDIA》 *
董猛等: "基于注意力残差卷积网络的视频超分辨率重构", 《长春理工大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115243031A (zh) * 2022-06-17 2022-10-25 合肥工业大学智能制造技术研究院 一种基于质量注意力机制的视频时空特征优化方法、***、电子设备及存储介质

Also Published As

Publication number Publication date
CN114598833B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
Zamir et al. Restormer: Efficient transformer for high-resolution image restoration
CN113673307B (zh) 一种轻量型的视频动作识别方法
Reda et al. Unsupervised video interpolation using cycle consistency
CN110782490B (zh) 一种具有时空一致性的视频深度图估计方法及装置
CN111709895A (zh) 基于注意力机制的图像盲去模糊方法及***
US11978146B2 (en) Apparatus and method for reconstructing three-dimensional image
CN111986105B (zh) 基于时域去噪掩码的视频时序一致性增强方法
CN112991450B (zh) 一种基于小波的细节增强无监督深度估计方法
CN107194948B (zh) 基于集成式预测与时空域传播的视频显著性检测方法
CN112422870B (zh) 一种基于知识蒸馏的深度学习视频插帧方法
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及***
CN108924528B (zh) 一种基于深度学习的双目风格化实时渲染方法
CN115953582B (zh) 一种图像语义分割方法及***
CN110956655A (zh) 一种基于单目图像的稠密深度估计方法
CN114598833B (zh) 基于时空联合注意力的视频插帧方法
CN115565039A (zh) 基于自注意力机制的单目输入动态场景新视图合成方法
Xiao et al. Progressive motion boosting for video frame interpolation
CN113096176B (zh) 一种语义分割辅助的双目视觉无监督深度估计方法
CN114820745A (zh) 单目视觉深度估计***、方法、计算机设备及计算机可读存储介质
KR102057395B1 (ko) 기계학습 기반 비디오 보외법을 이용한 영상 생성 방법
CN113160081A (zh) 一种基于感知去模糊的深度人脸图像修复方法
Tang et al. A constrained deformable convolutional network for efficient single image dynamic scene blind deblurring with spatially-variant motion blur kernels estimation
Wang et al. Local and nonlocal flow-guided video inpainting
CN110827238A (zh) 一种改进的全卷积神经网络的侧扫声纳图像特征提取方法
CN114463187B (zh) 基于聚合边缘特征的图像语义分割方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant