CN114598833A

CN114598833A - 基于时空联合注意力的视频插帧方法

Info

Publication number: CN114598833A
Application number: CN202210305381.9A
Authority: CN
Inventors: 路文; 张弘毅; 冯姣姣; 张立泽; 胡健
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-07
Anticipated expiration: 2042-03-25
Also published as: CN114598833B

Abstract

本发明提出了一种基于时空联合注意力的视频插帧方法，实现步骤为：(1)获取训练数据集和数据集；(2)构建基于时空联合注意力的视频插帧网络；(3)对视频插帧网络模型迭代训练；(4)获取视频插帧结果。本发明所构建的基于时空联合注意力的视频插帧模型，利用时空注意力机制去捕获输入帧之间的时空关系，并对复杂运动进行建模，完成了高质量的视频插帧。与现有的大多数网络相比，本算法不使用额外的光流输入，避免了光流估计带来的额外误差，同时使得网络参数量低，有实际应用价值。

Description

基于时空联合注意力的视频插帧方法

技术领域

本发明属于视频处理技术领域，涉及一种视频插帧方法，具体涉及一种基于时空联合注意力的视频插帧方法，可用于慢动作生成、视频后处理等领域。

背景技术

低的时间分辨率会导致图像混叠，并产生伪影，降低视频质量，因此时间分辨率成为影响视频质量的重要因素。视频插帧方法在连续图像帧之间***一幅或多幅中间帧来提高时间分辨率，提高视频质量。

视频插帧方法通常由运动估计和像素合成两部分组成。运动估计是指通过计算前后两帧之间像素点的运动来预测中间帧所对应像素点的位置；运动估计分为前向估计与反向估计，像素合成就是将前向估计的中间帧与反向估计的中间帧进行融合，得到中间帧。早期视频插帧主要使用光流法，估计前后两帧的双向光流，利用前向扭曲或后向扭曲合成中间帧。随着深度学习的发展，在光流估计和视频插帧也有较好的效果。现有大多数插帧方法通过应用训练好的光流估计网络生成双边光流，进行从双边帧到中间帧的映射。首先这些方法非常依赖光流估计算法的可靠性，光流估计网络产生误差会随着插帧网络继续传播导致插帧结果的不准确。同时光流估计算法带来了额外的计算量，导致插帧效率较低。其次，这些网络对复杂运动的估计仅限于线性或者二次运动轨迹，对复杂的运动轨迹很难解释。因此，设计一种不依赖于光流估计且能准确估计复杂运动轨迹的插帧模型非常重要。

注意力机制在神经网络中的应用使得网络可以根据任务需求，自适应的校准输入，并重点关注对完成任务更有作用的部分。因此，利用注意力机制，可以捕捉并重建更为复杂的运动。同时，利用端到端的训练，可以摆脱光流估计模型带来的估计误差，降低模型的参数量，显著的提升插帧准确性和速度。

影响视频插帧的主要因素为预测中间帧的准确性，其客观评价指标为峰值信噪比PSNR与结构相似性SSIM；PSNR越高，表示图像质量越高；同样SSIM越高，表示图像质量越高。

Junheum Park等人在International Conference on Computer Vision中提出基于光流的ABME算法Asymmetric Bilateral Motion Estimation for Video FrameInterpolation，首先，计算输入帧的对称双边光流，根据对称双边光流计算锚帧，然后，计算锚帧与输入帧之间的非对称双边光流，接着，利用非对称双边光流计算得到初步的中间帧，最后，利用合成网络优化初步的中间帧，得到最终的插帧结果图像。

Choi等人提出CAIN算法Channel Attention Is All You Need for Video FrameInterpolation，将各帧的空间特征信息分布在网络通道中，使用通道注意力机制捕捉运动信息。但是这种算法并未能明确捕获输入帧之间的时间维度的依赖性，导致生成帧的运动边际出现严重的伪影，插帧结果不准确。

发明内容

本发明的目的在于针对上述现有技术存在的不足，提出一种基于时空联合注意力的视频插帧方法，旨在有效利用相邻帧的时间相关性和空间信息以及完成对复杂非线性运动的估计和生成，有效提高视频插帧算法的准确性，同时不引入过多的参数量，进一步提高了视频插帧算法的效率。

为实现上述目的，本发明采取的技术方案包括如下步骤：

(1)获取训练样本集和测试样本集：

对选取的每个包括L幅图像帧的V个原始视频进行预处理，并对预处理后的每个原始视频对应的视频帧序列中序号为奇数的图像帧和序号为偶数的图像帧分别进行标记，然后将R个图像帧带有标记的视频帧序列V₁＝{V₁ ^r|1≤r≤R}作为训练样本集，将其余S个图像帧带有标记的视频帧序列

作为测试样本集，其中，L＞5，V＞1000,

V₁ ^r表示第r个视频帧序列，S＝V-R，

表示第s个视频帧序列；

(2)构建基于时空联合注意力的视频插帧网络模型f：

构建包括顺次连接的特征提取网络、时空联合注意力网络和3D卷积网络的视频插帧网络模型f；其中，特征提取网络包括顺次连接的多个2D卷积层；时空注意力网络包含多个顺次连接的时空注意力模块；3D卷积网络包括多个顺次连接的3D卷积层；

(3)对视频插帧网络模型f进行迭代训练：

(3a)初始化迭代次数为i，最大迭代次数为I,I≥100,视频插帧网络模型f的权重参数为θ，并令i＝0；

(3b)获取训练样本集V₁中视频帧序列V₁ ^p的奇数位上图像帧的中间帧：

(3b1)将训练样本集V₁作为视频插帧网络模型f的输入，特征提取网络对每个视频帧序列V₁ ^p中奇数位上的每个训练样本进行特征提取，得到V₁ ^r包含E个奇数位上的训练样本的特征图集合

其中E≥2且为偶数，

表示第i次迭代第e个奇数位上的训练样本对应的特征图；

(3b2)时空联合注意力网络计算每个特征图

的时间和空间相关性，并利用特征图集合

对应的时间和空间相关性计算得到

的F个深度特征；

(3b3)3D卷积网络对

的F个深度特征进行重建每个视频帧序列V₁ ^r奇数位上图像帧的中间帧图像

(3c)采用绝对值损失函数L1，通过

和每个视频帧序列中偶数位上的图像帧计算视频插帧网络模型的损失值L，然后采用梯度下降法，并通过L的偏导值对f的权重参数θ进行更新，得到本次迭代的视频插帧网络模型fⁱ；

(3d)判断i≥1是否成立，若是，得到训练好的视频插帧网络模型f^*，否则，令i＝i+1，fⁱ＝f，并执行步骤(3b)；

(4)获取视频插帧结果：

在视频帧序列

作为训练好的视频插帧网络模型f^*的输入进行前向传播，得到测试数据集中每个视频帧序列中所选图像帧的中间帧图像X_{2_s}。

本发明与现有技术相比，具有如下优点：

本发明基于时空联合注意力构建视频插帧网络包括的时空联合注意力网络，在视频插帧模型训练中能获取相邻输入图像帧之间的时空相关性，根据时空相关性对物体运动进行建模，最终合成中间帧，时空联合注意力网络在应对复杂非线性运动时视频插帧效果比现有技术好；本发明利用时空联合注意网络获取运动物体的特征信息，避免了计算光流而导致的计算结果的误差，有效提高了视频插帧的准确性，同时，利用注意力模型和3D卷积进行运动估计，使得网络参数量低，提高视频插帧速度，有实际应用价值。

附图说明

图1为本发明的实现流程图；

图2为本发明视频插帧网络结构示意图；

图3位本发明时空注意力块原理示意图

具体实施方式

以下结合附图和具体实施例，对本发明作进一步详细描述：

参照图1，本发明包括如下步骤：

步骤1)获取训练样本集和测试样本集：

对选取的每个包括L幅图像帧的V个原始视频通过大小为H×W的裁剪窗对每个帧图像进行裁剪，得到预处理后的每个原始视频对应的视频帧序列，其中H＝448、W＝256分别表示裁剪窗的长、宽，并对预处理后的每个原始视频对应的视频帧序列中序号为奇数的图像帧和序号为偶数的图像帧分别进行标记，然后将R个图像帧带有标记的视频帧V₁＝{V₁ ^r|1≤r≤R}作为训练样本集，将其余S个图像帧带有标记的视频帧序列

作为测试样本集，其中，L＝7，V＝7564,R＝3782，S＝3782，V₁ ^r表示第r个视频帧序列，

表示第s个视频帧序列；

步骤2)构建时空联合注意力的视频插帧模型f，其结构如图2所示：

构建包括顺次连接的特征提取网络、时空联合注意力网络和3D卷积网络的视频插帧网络模型f；其中，特征提取网络包括顺次连接的4个2D卷积层；时空注意力网络包含7个顺次连接的时空注意力模块，时空注意力模块原理如图3所示；3D卷积网络包括3个顺次连接的3D卷积层；

其中，特征提取网络的4个2D卷积层每层均包含多个卷积核和一个激活函数，第一和第二2D卷积层中卷积核个数均为64，第三、第四2D卷积层中卷积核个数分别为128、256，该4个2D卷积层的卷积核的大小均为3×3，第一层和第三层的卷积核步长为2，第二层和第四层卷积核步长为1,4个2D卷积层均进行补1操作，该4个2D卷积层激活函数均采用ReLU函数；

时空注意力网络中的时空注意力模块包含4个分支，时空注意力模块采用多分支的形式沿时空维度对输入帧进行搜索，不同的分支的时空注意力模块会在不同的空间尺寸上计算注意力，可以使网络更容易捕获因复杂运动而引起的变化；和输入特征图同样尺寸的注意力块会在全局进行建模，主要完成对背景部分进行建模；较小的注意力块在局部进行建模，对复杂运动的前景进行建模，获取运动物体的特征信息；其中每个分支均包含4个2D卷积层和一个softmax层，其结构为：第一、第二和第三2D卷积层并行连接，第一和第二2D卷积层的输出相乘得到的结果作为softmax层的输入，第三2D卷积层输出与softmax层的输出相乘得到的结果作为每个通道的输入，各个通道的输出作为第四2D卷积层的输入，第四2D卷积层的输出为每个时空注意力模块所计算的深度特征；时空注意力网络包含时空注意力模块的个数为7，其中每个时空注意力模块包含的多个卷积层的个数为4，第一、第二和第三二维卷积层中卷积核个数均为64，第四二维卷积层中卷积核个数为256，第一、第二和第三二维卷积层中的卷积核大小均为1×1，卷积步长均为1，第四二维卷积层中的卷积核大小为3×3，卷积步长为1；

3D卷积网络包含的3D卷积层的个数为3，第一和第二3D卷积层卷积核个数分别为128、64，第三3D卷积层卷积核个数为64，第一和第二3D卷积层的卷积核的大小均为3×3×3，第三3D卷积层的卷积核的大小为2×3×3，卷积步长均为1×1×1，第三3D卷积层采用的激活函数为ReLU激活函数；

步骤3)对视频插帧网络模型f进行迭代训练：

(3a)初始化迭代次数为i，最大迭代次数为I,I＝100,视频插帧网络模型f的权重参数为θ，并令i＝0；

(3b)获取训练样本集V₁中视频帧序列V₁ ^r的奇数位上图像帧的中间帧：

(3b1)将训练样本集V₁作为视频插帧网络模型f的输入，特征提取网络对每个视频帧序列V₁ ^r中第1，3，5，7幅图像帧进行特征提取，得到V₁ ^r包含E＝4个奇数位上的训练样本的特征图集合

表示第i次迭代第e个奇数位上的训练样本对应的特征图；

(3b2)时空联合注意力网络计算得到

的F＝4个深度特征：

(3b2i)将每个特征图

都进行卷积核大小为1×1卷积操作，得到键向量k_e、查询向量q_e、值向量v_e；

(3b2ii)对键向量k_e、查询向量q_e、值向量v_e以大小为h_i×w_i×C进行分块，其中，h₁＝448，w₁＝256，h₂＝224，w₂＝128，h₃＝112，w₃＝64，h₄＝56，w₄＝32，C＝256为所提取特征图的通道个数，将所提取特征图输入4个分支，其中第一分支将所提取的特征图以h₁×w₁×C进行分块，第二分支对提取的特征图以h₂×w₂×C进行分块，第三分支对提取的特征图以h₃×w₃×C进行分块，第四分支将提取的特征图以h₄×w₄×C进行分块，得到N＝340个特征块，其中N＝T×H/h_i×W/w_i，T＝4为输入帧数；通过对q_e和k_e进行乘法运算得到不同特征块之间的相关性；分别将q_e和k_e的每个特征块转化为一维向量后，进行矩阵乘法，则查询向量块和键向量块之间的相关性可有下述公式计算：

其中,1≤m≤N,1≤n≤N，

表示第m个查询向量块，

表示第n个键向量块，x(m,n)表示

中第m个查询向量块和

中第n个键向量块进行归一化的相关性；进行分块后，可以有效减少矩阵操作带来的计算量；进行归一化操作缓解Softmax函数导致的梯度下降；对求得的相关性做Softmax操作得到注意力权重：

其中，exp表示指数运算，

表示

中第m个查询向量块和

中所有键向量块分别进行指数运算后并对结果加和，a(m,n)表示注意力权重；将表示获得的注意力权重与每个值向量相乘并将相乘结果相加得到输出：

其中，O_m表示时空注意力模块每个块捕获的运动信息；对表示所有块进行合并，并重新转化为初始大小H×W×C，最后对不同分支的时空注意力模块在通道维度合并，得到

的4个时间维度的深度特征；

(3b3)3D卷积网络对

的4个时间维度的深度特征融合。第一层3D卷积核的输入和输出维度保持一致，对深度特征进行特征提取；第二层3D卷积层，卷积核大小设为3×3×3，使输出特征图时间维度降为2，对时间维度距离较近的深度特征进行解码和融合；第三层3D卷积层，卷积核大小设为2×3×3，将时间维度降为1，经过一个2D卷积层可以生成每个视频帧序列V₁ ^p第1，3，5，7幅图像帧的第4幅中间帧图像

其中，该2D卷积层卷积核个数为1，卷积核大小为7×7，步长为1，卷积层进行补0操作；

(3c)采用绝对值损失函数L1，通过

和每个视频帧序列中的第4幅图像帧计算视频插帧网络模型的损失值L，然后将损失值L输入Adam优化器，对f的权重参数θ进行更新，得到本次迭代的视频插帧网络模型fⁱ；

步骤4)获取视频插帧结果：

在视频帧序列V₂ ^s作为训练好的视频插帧网络模型f^*的输入进行前向传播，得到测试数据集中每个视频帧序列中所选图像帧的中间帧图像X_{2_s}。

下面结合仿真实验，对本发明的技术效果作进一步的描述：

1.仿真条件和内容：

仿真在PyTorch框架下的两张NVIDIA TITAN RTX显卡上进行训练。使用Adam优化器训练模型，其中β₁＝0.9，β₂＝0.99，初始学习率设为10^-4，学习率经过40个epoch下降为原来的0.4倍。

在训练视频插帧模型时，使用Vimeo90k数据集作为训练集，它包含3782个有连续帧的场景，每帧空间分辨率是448×256，在训练时，将Viemo90K进行裁块、翻转等方式对数据集进行扩充和增强；Vimeo90K数据集来自于Xue Tianfan等人在文献“VideoEnhancement with Task-Oriented Flow”，“International Journal of ComputerVision，vol.127,no.8，pp.1106-1125,2019.”；在测试时，使用目前广泛采用的测试集：Vimeo90K，UCF101。Ucf101数据集来自于K.Soomro等人在文献“UCF101:A dataset of101human cations classes from video in the wild”，“arXiv preprint arXiv:1212.0402,2012.”，UCF101数据集包含379组图片，每组图片包括连续的3帧图像；Vimeo90K数据集包含3782组图片，每组包含连续的3帧图像。

视频插帧实验结果：如表1所示，将本发明的算法的实验结果和现有ABME和CAIN的参数量、峰值信噪比和结果相似度进行对比仿真：

表1

如表1所示，ABME算法参数量为18.1M，模型输入需要RGB图像与图像的光流，在Vimeo90K数据集，峰值性噪比PSNR和结构相似度SSIM分别为35.84、0.973，在UCF101数据集，PSNR和SSIM分别为32.90、0.969；CAIN算法参数量为42、8M，模型输入只需要RGB图像，在Vimeo90K数据集，PSNR和SSIM分别为33.93、0.964，在UCF101数据集，PSNR和SSIM分别为32.28、0.965；本发明的参数量为14.4M，模型输入只需要RGB图像，在Vimeo90K数据集，PSNR和SSIM分别为36.40、0.976，在UCF101数据集，PSNR和SSIM分别为33.35、0.971；

由表1可知，本发明在两个测试集上，PSNR和SSIM都取得了最好的效果。同时，本发明在需要RGB图像输入的情况下，能优于只需要RGB图像输入的算法，也优于基于光流的插帧算法；本发明的参数量也远小于CAIN算法，使得所本发明的算法更容易实现工程应用。

仿真实验中的结果表明，本发明提出的方法利用时空注意力机制去捕获输入帧之间的时空关系，并对复杂运动进行建模，完成了准确的视频插帧。与ABME算法相比，本发明不使用光流估计，避免了光流估计带来的额外误差，与CAIN算法比较，增加时间维度信息，有效提高视频插帧准确性；同时本发明使得网络参数量低，有实际应用价值。

Claims

1.一种基于时空联合注意力的视频插帧方法，其特征在于，包括如下步骤：

(1)获取训练样本集和测试样本集：

作为测试样本集，其中，L＞5，V＞1000,

V₁ ^r表示第r个视频帧序列，S＝V-R，

表示第s个视频帧序列；

(2)构建基于时空联合注意力的视频插帧网络模型f：

(3)对视频插帧网络模型f进行迭代训练：

(3b1)将训练样本集V₁作为视频插帧网络模型f的输入，特征提取网络对每个视频帧序列V₁ ^r中奇数位上的每个训练样本进行特征提取，得到V₁ ^r包含E个奇数位上的训练样本的特征图集合

其中E≥2且为偶数，

表示第i次迭代第e个奇数位上的训练样本对应的特征图；

(3b2)时空联合注意力网络计算每个特征图

的时间和空间相关性，并利用特征图集合

对应的时间和空间相关性计算

的F个深度特征；

(3b3)3D卷积网络对

(3c)采用绝对值损失函数L1，通过

(4)获取视频插帧结果：

在视频帧序列

2.根据权利要求1所述的基于时空联合注意力的视频插帧方法，其特征在于，步骤(1a)中所述的对选取的V个原始视频进行预处理，实现步骤为：

将每个原始视频分解为L个帧图像，并通过大小为H×W的裁剪窗对每个帧图像进行裁剪，得到预处理后的每个原始视频对应的视频帧序列，其中H、W分别表示裁剪窗的长、宽。

3.根据权利要求1所述的基于时空联合注意力的视频插帧方法，其特征在于，步骤(2)中所述的视频插帧网络模型f，其中：

特征提取网络包含的2D卷积层的个数为4，4个2D卷积层均包含多个卷积核和一个激活函数，第一和第二2D卷积层中卷积核个数均为64，第三、第四2D卷积层中卷积核个数分别为128、256，该4个2D卷积层的卷积核的大小均为3×3，第一层和第三层的卷积核步长为2，第二层和第四层卷积核步长为1，该4个2D卷积层激活函数均采用ReLU函数；

时空注意力网络中的时空注意力模块包含4个分支，其中每个分支均包含4个2D卷积层和一个softmax层，其结构为：第一、第二和第三2D卷积层并行连接，第一和第二2D卷积层的输出相乘得到的结果作为softmax层的输入，第三2D卷积层输出与softmax层的输出相乘得到的结果作为每个分支的输入，各个分支的输出作为第四2D卷积层的输入，第四2D卷积层的输出为每个时空注意力块所计算的深度特征；时空注意力网络包含时空注意力模块的个数为7，其中每个时空注意力模块包含的多个卷积层的个数为4，第一、第二和第三二维卷积层中卷积核个数均为64，第四二维卷积层中卷积核个数为256，第一、第二和第三二维卷积层中的卷积核大小均为1×1，卷积步长均为1，第四二维卷积层中的卷积核大小为3×3，卷积步长为1；

3D卷积网络包含的3D卷积层的个数为3，第一和第二3D卷积层卷积核个数分别为128、64，第三3D卷积层卷积核个数为64，第一和第二3D卷积层的卷积核的大小均为3×3×3，第三3D卷积层的卷积核的大小为2×3×3，卷积步长均为1×1×1，第三3D卷积层采用的激活函数为ReLU激活函数。

4.根据权利要求1所述的基于时空联合注意力的视频插帧方法，其特征在于，步骤(3b2)中所述的时空联合注意力网络计算每个特征图

的时间和空间相关性，并利用F个

对应的时间和空间相关性得到

的F个深度特征，实现步骤为：

时空联合注意力网络对每个特征图

进行卷积得到键向量k_e、查询向量q_e、值向量v_e，将向量k_e与向量q_e进行乘法运算得到每个特征图

对应的相关性，并将每个相关性与其值向量v_e相乘并对相乘的结果求和得到每个特征图对应的深度特征。

5.根据权利要求1所述的基于时空联合注意力的视频插帧方法，其特征在于，步骤(3b3)中所述的重建每个视频帧序列V₁ ^s奇数位上图像帧的中间帧图像

实现步骤为：

3D卷积网络的三层卷积层，第一层3D卷积层对深度特征进行特征提取，第二层3D卷积层将输出特征图时间维度降为2，最后一层3D卷积层，最终将时间维度降为1，得到中间帧图像