CN116091868A

CN116091868A - 在线视频防抖设备、在线视频防抖方法及其学习方法

Info

Publication number: CN116091868A
Application number: CN202310102762.1A
Authority: CN
Inventors: 刘帅成; 张卓凡; 刘震; 曾兵
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-05-09

Abstract

本发明公开了一种在线视频防抖设备、在线视频防抖方法及其学习方法，属于视频处理技术领域，用于视频防抖的学习方法包括以下步骤：获取训练数据；基于训练数据，对神经网络模型进行训练；获取训练数据包括：获取抖动视频和稳定视频；提取抖动视频的第一帧间运动；基于抖动视频的第一帧间运动，对稳定视频的每一帧进行变换，得到处理视频；以稳定视频和处理视频为训练数据。该学习方法通过将一个抖动视频的运动迁移到一个稳定视频上，以合成得到一个与原稳定视频对其的不稳定视频，然后以原有的稳定视频及对应的不稳定视频，作为视频防抖方法所需要的训练数据。本发明不需要专门对稳定视频和抖动视频进行同步拍摄，画面内容也可以无关。

Description

在线视频防抖设备、在线视频防抖方法及其学习方法

技术领域

本发明属于视频处理技术领域，具体涉及一种在线视频防抖设备、在线视频防抖方法及其学习方法。

背景技术

视频防抖旨在通过平滑摄像机轨迹将一个抖动视频转换为令人满意的稳定视频，目前已广泛应用在智能手机，无人机和安防等领域。视频防抖目前可分为三大类:机械防抖、光学防抖和数字防抖。机械防抖通常使用传感器和机械结构来完成这项任务。光学防抖通过一组镜头和传感器检测运动的角度和速度，以实现视频稳定。数字防抖技术不使用特定的设备，只在软件中实现，因此可以把数字视频防抖看作是一个视频处理和计算机视觉领域的问题。因为数字防抖只依靠软件算法实现，所以除了节省成本和降低特定设备要求外，其也是唯一能够稳定已经录制视频的方法。

数字视频防抖可以考虑两种不同的环境：离线防抖和在线防抖。在离线情况下，来自视频的所有帧的信息都可以被使用，因此会产生更好的结果，在对已录制视频的后期处理中尤为重要。在线情况下，对视频的防抖不使用未来帧，可以在视频录制的过程中即时稳定，因此对实时流场图景很重要。

传统的数字防抖方法先对视频帧中的特征点进行检测，然后估计一个2D变换，例如单应性(Homography)、光流(Optical Flow)和网格流(MeshFlow)，或估计一个3D的相机位姿作为运动的表示，最后对运动构成的相机路径进行平滑处理，实现视频防抖。在传统方式中基于深度学习的防抖方法使用神经网络模型，如卷积神经网络模型(ConvolutionalNeural Networks)，直接学习从不稳定视频到稳定视频的映射关系。但是传统方式具有以下缺点：1.传统方法受制于特征算法，在低质量视频上可能出现特征检测和跟踪失效的情况，导致防抖失败。2.深度学习方法虽然在低质量视频上表现较好，但非常依赖训练数据的质量和数量，并且通常直接以视频帧作为输入，所以也会受到画面纹理的影响。3.用于视频防抖的深度学习训练数据都是采用双机拍摄，即两个型号一致的录像设备分别使用和不使用外部机械辅助防抖设备同步拍摄稳定和不稳定的视频对，这会有成本高、效率低和路径分歧等问题。

发明内容

本发明提供一种在线视频防抖设备、在线视频防抖方法及其学习方法，能够为视频防抖任务合成训练数据，不需要双机拍摄。

本发明通过下述技术方案实现：

一方面，本发明提供一种用于视频防抖的学习方法，包括以下步骤：获取训练数据；基于训练数据，对神经网络模型进行训练；获取训练数据包括：获取抖动视频和稳定视频；提取抖动视频的第一帧间运动；基于抖动视频的第一帧间运动，对稳定视频的每一帧进行变换，得到处理视频；以稳定视频和处理视频为训练数据。

在其中一些实施例中，待训练的神经网络模型的损失函数为：

L＝L_MC+αL_SC+βL_SP

其中，L_MC是运动一致性损失函数，L_SC是形状一致性损失函数，L_SP是尺度保持损失函数，α和β是平衡参数，用来平衡三个损失函数的贡献。

在其中一些实施例中，所述运动一致性损失函数为：

其中，B′_t和B′_t-1表示网络估计的相邻两帧的变换场图，

和

表示相邻两帧变换场图的真实值；

形状一致性损失函数为：

其中，v_i表示第i个网格顶点，N表示网格顶点的总数；

尺度保持损失函数为：

其中，s表示尺度因子。

另一方面，本申请提供一种最低延迟在线视频防抖方法，包括以下步骤：获取视频中的不稳定帧；通过预设神经网络模型提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动；基于第二帧间运动和训练之后的神经网络模型，对不稳定帧进行路径平滑，得到变换场图；通过变换场图将不稳定帧进行重置。

在其中一些实施例中，通过变换场图将不稳定帧进行重置包括以下步骤：根据变换场图提供的所有像素点的位移向量，对不稳定帧上所有像素的位置进行调整，得到稳定帧。

在其中一些实施例中，进行训练的神经网络模型为卷积神经网络模型。

在其中一些实施例中，第二帧间运动以稀疏网格的形式表示；在提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动之后，在基于第二帧间运动和训练之后的神经网络模型，对不稳定帧进行路径平滑，得到变换场图之前，包括以下步骤：对卷积神经网络模型的输入数据进行处理：通过第二帧间运动形成的稀疏网格进行插值得到流场图；流场图包括通道维、高维和宽维；使用滑动窗口按时序将流场图在通道维上拼接，形成卷积神经网络模型的输入数据。

本申请还提供一种最低延迟在线视频防抖设备，包括：运动提取装置，对视频的第二帧间运动进行提取；路径平滑装置，对视频进行路径平滑；存储器，其上存储有计算机程序；处理器，处理器执行计算机程序，以实现上述实施例中任一项的最低延迟在线视频防抖方法。

本发明与现有技术相比，具有以下优点及有益效果：

本发明提供的用于视频防抖的学习方法通过将一个抖动视频的运动迁移到一个稳定视频上，以合成得到一个与原稳定视频对其的不稳定视频，然后以原有的稳定视频及对应的不稳定视频，作为视频防抖方法所需要的训练数据。本发明不需要专门对稳定视频和抖动视频进行同步拍摄，画面内容也可以无关。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于深度学习方法的视频防抖方法中相邻两帧的运动与变换场图的关系示意图；

图2为本发明实施例提供的基于深度学习方法的视频防抖方法中处理视频的合成关系示意图；

图3为本发明实施例提供的基于深度学习方法的视频防抖方法的流程图；

图4为本发明实施例提供的损失函数中相邻两帧的运动与变换场图的关系示意图；

图5为本发明实施例提供的基于深度学习方法的视频防抖方法的效果对比图；

图6为现有双机拍摄视频的路径图；

图7为本发明实施例提供的基于深度学习方法的视频防抖方法的路径图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

在本发明的描述中，需要说明的是，所采用的术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，本发明的描述中若出现“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

一方面，本申请实施例提供一种用于视频防抖的学习方法，包括以下步骤：

S10、获取训练数据。在S10中，首先对一个抖动视频使用视频运动估计提取出其第一帧间运动，运动以网格流的形式表达，然后以这些第一帧间运动为基础，对一个稳定视频的每一帧进行变换，从而得到一个新的抖动视频。这李的第一帧间运动是为了和后文的第二帧间运动做区分，第一帧间运动是指在获取训练数据过程中，获取的已知抖动视频的帧间运动；第二帧间运动在视频防抖过程中，获取的需要处理的视频中的指定的连续帧的帧间运动。本方法不需要专门对稳定视频和抖动视频进行同步拍摄，画面内容也可以无关。

S10可具体包括以下步骤：

S101、获取抖动视频V_ust和稳定视频V_stb。其中，抖动视频V_ust和稳定视频V_stb可以是不相关的，即抖动视频V_ust的内容与稳定视频V_stb可以是不相同的。

S102、提取抖动视频的第一帧间运动。在S102中，可采用一个深度神经网络模型，比如Deep MeshFlow方法估计出抖动视频V_ust和稳定视频V_stb的第一帧间运动

和

S103、基于抖动视频的第一帧间运动，对稳定视频V_stb每一帧进行变换，得到一个新的处理视频V_syn。在S103中，通过将抖动视频的第一帧间运动迁移到一个稳定视频上，以此来合成一个具有抖动视频V_ust的抖动效果但画面和主要路径与稳定视频V_stb保持一致的新的处理视频V_syn，为方便进行说明，用

分别表示这三种视频的帧，通过S103中得到的

来对

进行变换来合成

通过上述设置，每一个稳定视频都可以合成一个新的处理视频，一组稳定视频及对应合成的新的处理视频可构成一个可用于网络训练的稳定/抖动视频对。请参阅图2，每一个视频都具备以下关系：

由于

和

已经被预先计算出来，所以

可以表示为：

在后续的训练中，路径平滑网络会以

为输入，输出以

为真值进行有监督训练。

S104、以稳定视频及其对应的处理视频作为训练数据。

S20、对训练数据进行训练，得到神经网络模型。

在深度学习方法中，待训练的神经网络模型所使用的损失函数主要如下：

运动一致性损失函数(Motion-consistency Loss)：

其中，B′_t和B′_t-1表示网络估计的相邻两帧的变换场图，

和

表示相邻两帧变换场图的真实值。运动一致性损失函数负责约束网络学习一个合理的防抖结果，同时保持帧间的连续性。

形状一致性损失函数(Shape-consistency Loss)：

其中，v_i表示第i个网格顶点，

表示不同的网格顶点，请参阅图4，N表示网格顶点的总数。形状一致性损失函数约束卷积神经网络模型的输出结果不能与一般的网格形状出现较大偏差，否则会使结果画面出现扭曲和失真。

尺度保持损失函数(Scale-preserving Loss)：

其中s表示尺度因子。因为我们是将网格形式的稀疏运动转化为一个稠密的流场图并且预测一个网格化的变换场图，所以需要引入一个尺度保持损失函数来确保网络能够在这种尺度变换中保证输出结果的一致性。

这样可以得到最后总的损失函数如下：

L＝L_MC+αL_SC+βL_SP

其中，α和β是平衡参数，用来平衡三个损失函数的贡献，此处取值可为0.01。

另一方面，本申请提供一种基于上述任意实施例中的深度学***滑，输出为滑动窗口最后一帧的变换场图，最后通过变换场图对窗口中最后一帧进行形状和位置变换实现防抖。不同的运动估计方法可能会以不同的方式对运动进行表达，因此我们设计将不同方法估计的运动，根据其作用到每一个像素位置产生的偏移，转换为一个统一的稠密流场图，以此解决运动表达方式不一致的问题，也天然适合作为卷积神经网络模型的输入。

具体的，视频防抖方法包括以下步骤：

T10、获取视频中的不稳定帧。在T10中，可通过现有软件直接捕获视频的不稳定帧，示例性的，录像设备可以捕获t时刻的不稳定帧I_t为例。

T20、通过预设神经网络模型提取包括捕获t时刻的不稳定帧I_t以及该不稳定帧之前的连续帧形成视频的第二帧间运动，预设神经网络模型可设置为与S102步骤中的深度神经网络模型相同，然后使用一个固定窗口来记录I_t过去的r个视频帧{I_t}_r＝<I_t,I_t-1,…,I_t-r>，并用它们来对I_t进行稳定。因为整个过程不需要使用I_t的任何未来帧，所以在I_t被捕获后即可对其进行稳定并输出结果，所以是一个最小延迟的方法。第二帧间运动{F_t}可由另一个深度神经网络模型负责，本申请的路径平滑网络只根据估计好的运动预测变换场图：

{B′_t}＝φ({F_t；θ})

其中φ(·)表示相机路径平滑网络，θ表示要被优化的网络参数。

T30、第二帧间运动以稀疏网格的形式表示。对卷积神经网络模型的输入数据进行处理：对卷积神经网络模型的输入数据进行处理：通过第二帧间运动形成的稀疏网格进行插值得到流场图；流场图包括通道维、高维和宽维；使用滑动窗口按时序将流场图在通道维上拼接，形成卷积神经网络模型的输入数据；

T40、基于第二帧间运动和在用于视频防抖的学***滑，得到变换场图。在T40中，可将滑动窗口内连续的流场图输入带有通道注意力机制的卷积神经网络模型，估计滑动窗口中最后一帧的变换场图。本申请所使用的卷积神经网络模型在UNet的结构基础上，在跳跃连接部分添加了通道注意力机制，使网络可以根据输入序列的运动模式为不同时序位置的流场图设置权重，提高防抖效果。

T50、通过变换场图将不稳定帧进行重置。在T50中，将T40中估计出的变换场图中的元素与原始帧中相同位置处的像素点一一对应，表示该像素从原始帧上位置到稳定帧上位置的位移向量。根据变换场图提供的所有像素点的位移向量，即可对原始帧上所有像素的位置进行调整，合成出稳定帧I_t′。

本申请实施例还提供一种一种最低延迟在线视频防抖设备，包括：

运动提取装置，对视频的第二帧间运动进行提取；

路径平滑装置，对视频进行路径平滑；

存储器，其上存储有计算机程序；

处理器，处理器执行计算机程序，以实现上述实施例中任一项的最低延迟在线视频防抖方法。

在上述实施例中，通过设置专门的装置负责对运动进行提取，然另外的装置的神经网络模型专注于对路径进行平滑，可以提高处理效率。

在具体的示例中，训练是有监督的，需要真实的变换场图。在训练阶段，需要将连续两个窗口的流场图序列一起输入，因为运动一致性损失函数是一个时序性损失函数，其计算需要连续两帧的变换场图估计结果。形状一致性损失函数和尺度保持损失函数是约束单次估计结果质量的，不需要特殊处理。在推理阶段，不需要计算损失函数，按窗口滑动顺序依次将窗口内的流场图序列送入卷积网络即可。

训练过程采用Adam为优化器，将初始学习率设为1e-4，不使用权重衰减策略。我们设置优化器的3个参数β₁，β₂和∈分别为0.9，0.999和1e-8，训练共迭代10万次，在2张NVIDIA1080Ti显卡上共耗时约20小时。

效果展示：

请参阅图5，图5展示了本申请提出方法与现有的两种在线防抖方法的对比(第1，2列：另外两种方法；第3列：本方法；第4列原始帧)。可以看到本方法在不同场景中(旋转、缩放等)均能获得良好的防抖效果，同时又能避免出现结果过度裁剪和扭曲失真等问题。

请参阅图6和图7，图6和图7展示了本专利提出方法在抖动视频合成上的效果，图6为双机位拍摄的视频对的路径对比，图7为本申请方法合成的视频对的路径对比，虚线为抖动视频路径，实线为稳定视频路径。可以看到本申请提出的方法可以合成出高质量的训练数据样本，不会与原始的稳定视频在路径上产生分歧。

本申请实施例还提供一种计算机存储介质，其上存储有计算机程序，计算机程序被处理器进行加载，以执行上述实施例中任一项的基于上述任意实施例中的深度学习方法的视频防抖方法。

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.一种用于视频防抖的学习方法，其特征在于，包括以下步骤：

获取训练数据；

基于所述训练数据，对神经网络模型进行训练；

所述获取训练数据包括：

获取抖动视频和稳定视频；

提取所述抖动视频的第一帧间运动；

基于所述抖动视频的第一帧间运动，对所述稳定视频的每一帧进行变换，得到处理视频；

以所述稳定视频和所述处理视频为训练数据。

2.根据权利要求1所述的用于视频防抖的学习方法，其特征在于，在对神经网络模型进行训练时，采用损失函数对训练过程进行约束，所述待训练的神经网络模型的损失函数为：

L＝L_MC+αL_SC+βL_SP

3.根据权利要求2所述的用于视频防抖的学习方法，其特征在于，所述运动一致性损失函数为：

其中，B_t′和B_t′_-1表示网络估计的相邻两帧的变换场图，

和

表示相邻两帧变换场图的真实值；

所述形状一致性损失函数为：

其中，v_i表示第i个网格顶点，N表示网格顶点的总数；

所述尺度保持损失函数为：

其中，s表示尺度因子。

4.一种最低延迟在线视频防抖方法，其特征在于，包括以下步骤：

获取视频中的不稳定帧；

通过预设神经网络模型提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动；

基于所述第二帧间运动和训练之后的所述神经网络模型，对不稳定帧进行路径平滑，得到变换场图；

通过所述变换场图将所述不稳定帧进行重置。

5.根据权利要求4所述的最低延迟在线视频防抖方法，其特征在于，所述通过所述变换场图将所述不稳定帧进行重置包括以下步骤：

根据所述变换场图提供的所有像素点的位移向量，对所述不稳定帧上所有像素的位置进行调整，得到稳定帧。

6.根据权利要求4所述的最低延迟在线视频防抖方法，其特征在于，进行训练的所述神经网络模型为卷积神经网络模型。

7.根据权利要求6所述的最低延迟在线视频防抖方法，其特征在于，所述第二帧间运动以稀疏网格的形式表示；

在所述提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动之后，在所述基于所述第二帧间运动和训练之后的所述神经网络模型，对不稳定帧进行路径平滑，得到变换场图之前，包括以下步骤：

对卷积神经网络模型的输入数据进行处理：

通过所述第二帧间运动形成的所述稀疏网格进行插值得到流场图；所述流场图包括通道维、高维和宽维；

使用滑动窗口按时序将流场图在所述通道维上拼接，形成所述卷积神经网络模型的输入数据。

8.一种最低延迟在线视频防抖设备，其特征在于，包括：

运动提取装置，对视频的第二帧间运动进行提取；

路径平滑装置，对视频进行路径平滑；

存储器，其上存储有计算机程序；

处理器，所述处理器执行所述计算机程序，以实现权利要求4或7任一项所述的最低延迟在线视频防抖方法。