CN116091868A - 在线视频防抖设备、在线视频防抖方法及其学习方法 - Google Patents

在线视频防抖设备、在线视频防抖方法及其学习方法 Download PDF

Info

Publication number
CN116091868A
CN116091868A CN202310102762.1A CN202310102762A CN116091868A CN 116091868 A CN116091868 A CN 116091868A CN 202310102762 A CN202310102762 A CN 202310102762A CN 116091868 A CN116091868 A CN 116091868A
Authority
CN
China
Prior art keywords
video
frame
shake
motion
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310102762.1A
Other languages
English (en)
Inventor
刘帅成
张卓凡
刘震
曾兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202310102762.1A priority Critical patent/CN116091868A/zh
Publication of CN116091868A publication Critical patent/CN116091868A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种在线视频防抖设备、在线视频防抖方法及其学习方法,属于视频处理技术领域,用于视频防抖的学习方法包括以下步骤:获取训练数据;基于训练数据,对神经网络模型进行训练;获取训练数据包括:获取抖动视频和稳定视频;提取抖动视频的第一帧间运动;基于抖动视频的第一帧间运动,对稳定视频的每一帧进行变换,得到处理视频;以稳定视频和处理视频为训练数据。该学习方法通过将一个抖动视频的运动迁移到一个稳定视频上,以合成得到一个与原稳定视频对其的不稳定视频,然后以原有的稳定视频及对应的不稳定视频,作为视频防抖方法所需要的训练数据。本发明不需要专门对稳定视频和抖动视频进行同步拍摄,画面内容也可以无关。

Description

在线视频防抖设备、在线视频防抖方法及其学习方法
技术领域
本发明属于视频处理技术领域,具体涉及一种在线视频防抖设备、在线视频防抖方法及其学习方法。
背景技术
视频防抖旨在通过平滑摄像机轨迹将一个抖动视频转换为令人满意的稳定视频,目前已广泛应用在智能手机,无人机和安防等领域。视频防抖目前可分为三大类:机械防抖、光学防抖和数字防抖。机械防抖通常使用传感器和机械结构来完成这项任务。光学防抖通过一组镜头和传感器检测运动的角度和速度,以实现视频稳定。数字防抖技术不使用特定的设备,只在软件中实现,因此可以把数字视频防抖看作是一个视频处理和计算机视觉领域的问题。因为数字防抖只依靠软件算法实现,所以除了节省成本和降低特定设备要求外,其也是唯一能够稳定已经录制视频的方法。
数字视频防抖可以考虑两种不同的环境:离线防抖和在线防抖。在离线情况下,来自视频的所有帧的信息都可以被使用,因此会产生更好的结果,在对已录制视频的后期处理中尤为重要。在线情况下,对视频的防抖不使用未来帧,可以在视频录制的过程中即时稳定,因此对实时流场图景很重要。
传统的数字防抖方法先对视频帧中的特征点进行检测,然后估计一个2D变换,例如单应性(Homography)、光流(Optical Flow)和网格流(MeshFlow),或估计一个3D的相机位姿作为运动的表示,最后对运动构成的相机路径进行平滑处理,实现视频防抖。在传统方式中基于深度学习的防抖方法使用神经网络模型,如卷积神经网络模型(ConvolutionalNeural Networks),直接学习从不稳定视频到稳定视频的映射关系。但是传统方式具有以下缺点:1.传统方法受制于特征算法,在低质量视频上可能出现特征检测和跟踪失效的情况,导致防抖失败。2.深度学习方法虽然在低质量视频上表现较好,但非常依赖训练数据的质量和数量,并且通常直接以视频帧作为输入,所以也会受到画面纹理的影响。3.用于视频防抖的深度学习训练数据都是采用双机拍摄,即两个型号一致的录像设备分别使用和不使用外部机械辅助防抖设备同步拍摄稳定和不稳定的视频对,这会有成本高、效率低和路径分歧等问题。
发明内容
本发明提供一种在线视频防抖设备、在线视频防抖方法及其学习方法,能够为视频防抖任务合成训练数据,不需要双机拍摄。
本发明通过下述技术方案实现:
一方面,本发明提供一种用于视频防抖的学习方法,包括以下步骤:获取训练数据;基于训练数据,对神经网络模型进行训练;获取训练数据包括:获取抖动视频和稳定视频;提取抖动视频的第一帧间运动;基于抖动视频的第一帧间运动,对稳定视频的每一帧进行变换,得到处理视频;以稳定视频和处理视频为训练数据。
在其中一些实施例中,待训练的神经网络模型的损失函数为:
L=LMC+αLSC+βLSP
其中,LMC是运动一致性损失函数,LSC是形状一致性损失函数,LSP是尺度保持损失函数,α和β是平衡参数,用来平衡三个损失函数的贡献。
在其中一些实施例中,所述运动一致性损失函数为:
Figure BDA0004073734850000021
其中,B′t和B′t-1表示网络估计的相邻两帧的变换场图,
Figure BDA0004073734850000022
Figure BDA0004073734850000023
表示相邻两帧变换场图的真实值;
形状一致性损失函数为:
Figure BDA0004073734850000031
其中,vi表示第i个网格顶点,N表示网格顶点的总数;
尺度保持损失函数为:
Figure BDA0004073734850000032
其中,s表示尺度因子。
另一方面,本申请提供一种最低延迟在线视频防抖方法,包括以下步骤:获取视频中的不稳定帧;通过预设神经网络模型提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动;基于第二帧间运动和训练之后的神经网络模型,对不稳定帧进行路径平滑,得到变换场图;通过变换场图将不稳定帧进行重置。
在其中一些实施例中,通过变换场图将不稳定帧进行重置包括以下步骤:根据变换场图提供的所有像素点的位移向量,对不稳定帧上所有像素的位置进行调整,得到稳定帧。
在其中一些实施例中,进行训练的神经网络模型为卷积神经网络模型。
在其中一些实施例中,第二帧间运动以稀疏网格的形式表示;在提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动之后,在基于第二帧间运动和训练之后的神经网络模型,对不稳定帧进行路径平滑,得到变换场图之前,包括以下步骤:对卷积神经网络模型的输入数据进行处理:通过第二帧间运动形成的稀疏网格进行插值得到流场图;流场图包括通道维、高维和宽维;使用滑动窗口按时序将流场图在通道维上拼接,形成卷积神经网络模型的输入数据。
本申请还提供一种最低延迟在线视频防抖设备,包括:运动提取装置,对视频的第二帧间运动进行提取;路径平滑装置,对视频进行路径平滑;存储器,其上存储有计算机程序;处理器,处理器执行计算机程序,以实现上述实施例中任一项的最低延迟在线视频防抖方法。
本发明与现有技术相比,具有以下优点及有益效果:
本发明提供的用于视频防抖的学习方法通过将一个抖动视频的运动迁移到一个稳定视频上,以合成得到一个与原稳定视频对其的不稳定视频,然后以原有的稳定视频及对应的不稳定视频,作为视频防抖方法所需要的训练数据。本发明不需要专门对稳定视频和抖动视频进行同步拍摄,画面内容也可以无关。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的基于深度学习方法的视频防抖方法中相邻两帧的运动与变换场图的关系示意图;
图2为本发明实施例提供的基于深度学习方法的视频防抖方法中处理视频的合成关系示意图;
图3为本发明实施例提供的基于深度学习方法的视频防抖方法的流程图;
图4为本发明实施例提供的损失函数中相邻两帧的运动与变换场图的关系示意图;
图5为本发明实施例提供的基于深度学习方法的视频防抖方法的效果对比图;
图6为现有双机拍摄视频的路径图;
图7为本发明实施例提供的基于深度学习方法的视频防抖方法的路径图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
在本发明的描述中,需要说明的是,所采用的术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,本发明的描述中若出现“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、***、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
一方面,本申请实施例提供一种用于视频防抖的学习方法,包括以下步骤:
S10、获取训练数据。在S10中,首先对一个抖动视频使用视频运动估计提取出其第一帧间运动,运动以网格流的形式表达,然后以这些第一帧间运动为基础,对一个稳定视频的每一帧进行变换,从而得到一个新的抖动视频。这李的第一帧间运动是为了和后文的第二帧间运动做区分,第一帧间运动是指在获取训练数据过程中,获取的已知抖动视频的帧间运动;第二帧间运动在视频防抖过程中,获取的需要处理的视频中的指定的连续帧的帧间运动。本方法不需要专门对稳定视频和抖动视频进行同步拍摄,画面内容也可以无关。
S10可具体包括以下步骤:
S101、获取抖动视频Vust和稳定视频Vstb。其中,抖动视频Vust和稳定视频Vstb可以是不相关的,即抖动视频Vust的内容与稳定视频Vstb可以是不相同的。
S102、提取抖动视频的第一帧间运动。在S102中,可采用一个深度神经网络模型,比如Deep MeshFlow方法估计出抖动视频Vust和稳定视频Vstb的第一帧间运动
Figure BDA0004073734850000061
Figure BDA0004073734850000062
S103、基于抖动视频的第一帧间运动,对稳定视频Vstb每一帧进行变换,得到一个新的处理视频Vsyn。在S103中,通过将抖动视频的第一帧间运动迁移到一个稳定视频上,以此来合成一个具有抖动视频Vust的抖动效果但画面和主要路径与稳定视频Vstb保持一致的新的处理视频Vsyn,为方便进行说明,用
Figure BDA0004073734850000063
Figure BDA0004073734850000064
分别表示这三种视频的帧,通过S103中得到的
Figure BDA0004073734850000065
来对
Figure BDA0004073734850000066
进行变换来合成
Figure BDA0004073734850000067
Figure BDA0004073734850000068
通过上述设置,每一个稳定视频都可以合成一个新的处理视频,一组稳定视频及对应合成的新的处理视频可构成一个可用于网络训练的稳定/抖动视频对。请参阅图2,每一个视频都具备以下关系:
Figure BDA0004073734850000071
由于
Figure BDA0004073734850000072
Figure BDA0004073734850000073
已经被预先计算出来,所以
Figure BDA0004073734850000074
可以表示为:
Figure BDA0004073734850000075
在后续的训练中,路径平滑网络会以
Figure BDA0004073734850000076
为输入,输出以
Figure BDA0004073734850000077
为真值进行有监督训练。
S104、以稳定视频及其对应的处理视频作为训练数据。
S20、对训练数据进行训练,得到神经网络模型。
在深度学习方法中,待训练的神经网络模型所使用的损失函数主要如下:
运动一致性损失函数(Motion-consistency Loss):
Figure BDA0004073734850000078
其中,B′t和B′t-1表示网络估计的相邻两帧的变换场图,
Figure BDA0004073734850000079
Figure BDA00040737348500000710
表示相邻两帧变换场图的真实值。运动一致性损失函数负责约束网络学习一个合理的防抖结果,同时保持帧间的连续性。
形状一致性损失函数(Shape-consistency Loss):
Figure BDA00040737348500000711
其中,vi表示第i个网格顶点,
Figure BDA00040737348500000712
表示不同的网格顶点,请参阅图4,N表示网格顶点的总数。形状一致性损失函数约束卷积神经网络模型的输出结果不能与一般的网格形状出现较大偏差,否则会使结果画面出现扭曲和失真。
尺度保持损失函数(Scale-preserving Loss):
Figure BDA0004073734850000081
其中s表示尺度因子。因为我们是将网格形式的稀疏运动转化为一个稠密的流场图并且预测一个网格化的变换场图,所以需要引入一个尺度保持损失函数来确保网络能够在这种尺度变换中保证输出结果的一致性。
这样可以得到最后总的损失函数如下:
L=LMC+αLSC+βLSP
其中,α和β是平衡参数,用来平衡三个损失函数的贡献,此处取值可为0.01。
另一方面,本申请提供一种基于上述任意实施例中的深度学***滑,输出为滑动窗口最后一帧的变换场图,最后通过变换场图对窗口中最后一帧进行形状和位置变换实现防抖。不同的运动估计方法可能会以不同的方式对运动进行表达,因此我们设计将不同方法估计的运动,根据其作用到每一个像素位置产生的偏移,转换为一个统一的稠密流场图,以此解决运动表达方式不一致的问题,也天然适合作为卷积神经网络模型的输入。
具体的,视频防抖方法包括以下步骤:
T10、获取视频中的不稳定帧。在T10中,可通过现有软件直接捕获视频的不稳定帧,示例性的,录像设备可以捕获t时刻的不稳定帧It为例。
T20、通过预设神经网络模型提取包括捕获t时刻的不稳定帧It以及该不稳定帧之前的连续帧形成视频的第二帧间运动,预设神经网络模型可设置为与S102步骤中的深度神经网络模型相同,然后使用一个固定窗口来记录It过去的r个视频帧{It}r=<It,It-1,…,It-r>,并用它们来对It进行稳定。因为整个过程不需要使用It的任何未来帧,所以在It被捕获后即可对其进行稳定并输出结果,所以是一个最小延迟的方法。第二帧间运动{Ft}可由另一个深度神经网络模型负责,本申请的路径平滑网络只根据估计好的运动预测变换场图:
{B′t}=φ({Ft;θ})
其中φ(·)表示相机路径平滑网络,θ表示要被优化的网络参数。
T30、第二帧间运动以稀疏网格的形式表示。对卷积神经网络模型的输入数据进行处理:对卷积神经网络模型的输入数据进行处理:通过第二帧间运动形成的稀疏网格进行插值得到流场图;流场图包括通道维、高维和宽维;使用滑动窗口按时序将流场图在通道维上拼接,形成卷积神经网络模型的输入数据;
T40、基于第二帧间运动和在用于视频防抖的学***滑,得到变换场图。在T40中,可将滑动窗口内连续的流场图输入带有通道注意力机制的卷积神经网络模型,估计滑动窗口中最后一帧的变换场图。本申请所使用的卷积神经网络模型在UNet的结构基础上,在跳跃连接部分添加了通道注意力机制,使网络可以根据输入序列的运动模式为不同时序位置的流场图设置权重,提高防抖效果。
T50、通过变换场图将不稳定帧进行重置。在T50中,将T40中估计出的变换场图中的元素与原始帧中相同位置处的像素点一一对应,表示该像素从原始帧上位置到稳定帧上位置的位移向量。根据变换场图提供的所有像素点的位移向量,即可对原始帧上所有像素的位置进行调整,合成出稳定帧It′。
本申请实施例还提供一种一种最低延迟在线视频防抖设备,包括:
运动提取装置,对视频的第二帧间运动进行提取;
路径平滑装置,对视频进行路径平滑;
存储器,其上存储有计算机程序;
处理器,处理器执行计算机程序,以实现上述实施例中任一项的最低延迟在线视频防抖方法。
在上述实施例中,通过设置专门的装置负责对运动进行提取,然另外的装置的神经网络模型专注于对路径进行平滑,可以提高处理效率。
在具体的示例中,训练是有监督的,需要真实的变换场图。在训练阶段,需要将连续两个窗口的流场图序列一起输入,因为运动一致性损失函数是一个时序性损失函数,其计算需要连续两帧的变换场图估计结果。形状一致性损失函数和尺度保持损失函数是约束单次估计结果质量的,不需要特殊处理。在推理阶段,不需要计算损失函数,按窗口滑动顺序依次将窗口内的流场图序列送入卷积网络即可。
训练过程采用Adam为优化器,将初始学习率设为1e-4,不使用权重衰减策略。我们设置优化器的3个参数β1,β2和∈分别为0.9,0.999和1e-8,训练共迭代10万次,在2张NVIDIA1080Ti显卡上共耗时约20小时。
效果展示:
请参阅图5,图5展示了本申请提出方法与现有的两种在线防抖方法的对比(第1,2列:另外两种方法;第3列:本方法;第4列原始帧)。可以看到本方法在不同场景中(旋转、缩放等)均能获得良好的防抖效果,同时又能避免出现结果过度裁剪和扭曲失真等问题。
请参阅图6和图7,图6和图7展示了本专利提出方法在抖动视频合成上的效果,图6为双机位拍摄的视频对的路径对比,图7为本申请方法合成的视频对的路径对比,虚线为抖动视频路径,实线为稳定视频路径。可以看到本申请提出的方法可以合成出高质量的训练数据样本,不会与原始的稳定视频在路径上产生分歧。
本申请实施例还提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器进行加载,以执行上述实施例中任一项的基于上述任意实施例中的深度学习方法的视频防抖方法。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (8)

1.一种用于视频防抖的学习方法,其特征在于,包括以下步骤:
获取训练数据;
基于所述训练数据,对神经网络模型进行训练;
所述获取训练数据包括:
获取抖动视频和稳定视频;
提取所述抖动视频的第一帧间运动;
基于所述抖动视频的第一帧间运动,对所述稳定视频的每一帧进行变换,得到处理视频;
以所述稳定视频和所述处理视频为训练数据。
2.根据权利要求1所述的用于视频防抖的学习方法,其特征在于,在对神经网络模型进行训练时,采用损失函数对训练过程进行约束,所述待训练的神经网络模型的损失函数为:
L=LMC+αLSC+βLSP
其中,LMC是运动一致性损失函数,LSC是形状一致性损失函数,LSP是尺度保持损失函数,α和β是平衡参数,用来平衡三个损失函数的贡献。
3.根据权利要求2所述的用于视频防抖的学习方法,其特征在于,所述运动一致性损失函数为:
Figure FDA0004073734830000011
其中,Bt′和Bt-1表示网络估计的相邻两帧的变换场图,
Figure FDA0004073734830000012
Figure FDA0004073734830000013
表示相邻两帧变换场图的真实值;
所述形状一致性损失函数为:
Figure FDA0004073734830000014
其中,vi表示第i个网格顶点,N表示网格顶点的总数;
所述尺度保持损失函数为:
Figure FDA0004073734830000021
其中,s表示尺度因子。
4.一种最低延迟在线视频防抖方法,其特征在于,包括以下步骤:
获取视频中的不稳定帧;
通过预设神经网络模型提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动;
基于所述第二帧间运动和训练之后的所述神经网络模型,对不稳定帧进行路径平滑,得到变换场图;
通过所述变换场图将所述不稳定帧进行重置。
5.根据权利要求4所述的最低延迟在线视频防抖方法,其特征在于,所述通过所述变换场图将所述不稳定帧进行重置包括以下步骤:
根据所述变换场图提供的所有像素点的位移向量,对所述不稳定帧上所有像素的位置进行调整,得到稳定帧。
6.根据权利要求4所述的最低延迟在线视频防抖方法,其特征在于,进行训练的所述神经网络模型为卷积神经网络模型。
7.根据权利要求6所述的最低延迟在线视频防抖方法,其特征在于,所述第二帧间运动以稀疏网格的形式表示;
在所述提取包括不稳定帧以及其之前的连续帧形成的视频的第二帧间运动之后,在所述基于所述第二帧间运动和训练之后的所述神经网络模型,对不稳定帧进行路径平滑,得到变换场图之前,包括以下步骤:
对卷积神经网络模型的输入数据进行处理:
通过所述第二帧间运动形成的所述稀疏网格进行插值得到流场图;所述流场图包括通道维、高维和宽维;
使用滑动窗口按时序将流场图在所述通道维上拼接,形成所述卷积神经网络模型的输入数据。
8.一种最低延迟在线视频防抖设备,其特征在于,包括:
运动提取装置,对视频的第二帧间运动进行提取;
路径平滑装置,对视频进行路径平滑;
存储器,其上存储有计算机程序;
处理器,所述处理器执行所述计算机程序,以实现权利要求4或7任一项所述的最低延迟在线视频防抖方法。
CN202310102762.1A 2023-01-17 2023-01-17 在线视频防抖设备、在线视频防抖方法及其学习方法 Pending CN116091868A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310102762.1A CN116091868A (zh) 2023-01-17 2023-01-17 在线视频防抖设备、在线视频防抖方法及其学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310102762.1A CN116091868A (zh) 2023-01-17 2023-01-17 在线视频防抖设备、在线视频防抖方法及其学习方法

Publications (1)

Publication Number Publication Date
CN116091868A true CN116091868A (zh) 2023-05-09

Family

ID=86211852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310102762.1A Pending CN116091868A (zh) 2023-01-17 2023-01-17 在线视频防抖设备、在线视频防抖方法及其学习方法

Country Status (1)

Country Link
CN (1) CN116091868A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291252A (zh) * 2023-11-27 2023-12-26 浙江华创视讯科技有限公司 稳定视频生成模型训练方法、生成方法、设备及存储介质
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117291252A (zh) * 2023-11-27 2023-12-26 浙江华创视讯科技有限公司 稳定视频生成模型训练方法、生成方法、设备及存储介质
CN117291252B (zh) * 2023-11-27 2024-02-20 浙江华创视讯科技有限公司 稳定视频生成模型训练方法、生成方法、设备及存储介质
CN117714875A (zh) * 2024-02-06 2024-03-15 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法
CN117714875B (zh) * 2024-02-06 2024-04-30 博大视野(厦门)科技有限公司 一种基于深度神经网络的端到端视频防抖方法

Similar Documents

Publication Publication Date Title
WO2021208122A1 (zh) 基于深度学习的视频盲去噪方法及装置
Liang et al. Vrt: A video restoration transformer
CN116091868A (zh) 在线视频防抖设备、在线视频防抖方法及其学习方法
CN106331480B (zh) 基于图像拼接的视频稳像方法
Hu et al. Video stabilization using scale-invariant features
EP2534828B1 (en) Generic platform for video image stabilization
EP3800878B1 (en) Cascaded camera motion estimation, rolling shutter detection, and camera shake detection for video stabilization
CN103139568B (zh) 基于稀疏度和保真度约束的视频稳像方法
CN101854465B (zh) 基于光流算法的图像处理方法及装置
JP6202879B2 (ja) ローリングシャッタ歪み補正と映像安定化処理方法
CN105611116B (zh) 一种全局运动矢量估计方法及监控视频稳像方法及装置
CN114339030B (zh) 一种基于自适应可分离卷积的网络直播视频稳像方法
CN111614965B (zh) 基于图像网格光流滤波的无人机视频稳像方法及***
CN102685371B (zh) 基于多分辨率块匹配和pi控制的数字视频稳像方法
JP5313326B2 (ja) 画像復号装置、方法およびプログラム、並びに、画像符号化装置、方法およびプログラム
CN115760590A (zh) 一种视频稳像方法及***
CN114429191A (zh) 基于深度学习的电子防抖方法、***及存储介质
Chen et al. Pixstabnet: Fast multi-scale deep online video stabilization with pixel-based warping
CN114066761A (zh) 基于光流估计与前景检测的运动视频帧率增强方法及***
Zhang et al. Minimum latency deep online video stabilization
Mathew et al. Self-attention dense depth estimation network for unrectified video sequences
JP6505501B2 (ja) ローリングシャッタ回転歪み補正と映像安定化処理方法
Rawat et al. Adaptive motion smoothening for video stabilization
WO2023045627A1 (zh) 图像超分方法、装置、设备及存储介质
CN113709483B (zh) 一种插值滤波器系数自适应生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination