CN115174817A - 一种基于深度学习的混合防抖方法及*** - Google Patents

一种基于深度学习的混合防抖方法及*** Download PDF

Info

Publication number
CN115174817A
CN115174817A CN202211077092.4A CN202211077092A CN115174817A CN 115174817 A CN115174817 A CN 115174817A CN 202211077092 A CN202211077092 A CN 202211077092A CN 115174817 A CN115174817 A CN 115174817A
Authority
CN
China
Prior art keywords
optical flow
network
acquiring
camera
bidirectional optical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211077092.4A
Other languages
English (en)
Inventor
高歌
王保耀
郭奇锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shenzhi Future Intelligence Co ltd
Original Assignee
Shenzhen Shenzhi Future Intelligence Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shenzhi Future Intelligence Co ltd filed Critical Shenzhen Shenzhi Future Intelligence Co ltd
Priority to CN202211077092.4A priority Critical patent/CN115174817A/zh
Publication of CN115174817A publication Critical patent/CN115174817A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Studio Devices (AREA)

Abstract

本发明公开了一种基于深度学习的混合防抖方法及***,方法包括:获取相机拍摄的视频,基于所述视频获取连续N帧图像;将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;获取相机的位姿数据;将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。本发明实施例使用深度学习端对端的神经网络的方法计算稠密光流,比传统算法更鲁棒,得到的光流结果精度更高,在时域上对于历史上和未来的相机位姿数据进行选择。并在空域上对于位姿数据进行融合矫正,减少了防抖,提高了视频图像质量。

Description

一种基于深度学习的混合防抖方法及***
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于深度学习的混合防抖方法及***。
背景技术
随着智能相机的不断发展,视频防抖技术在无人机、无人船、城市安防、高点监控、机器人、航空航天等领域的产品中的显得越来越重要。
视频防抖技术大致可分为光学防抖(Optical image stabilization:OIS)、电子防抖(Electric Image Stabilization:EIS)以及混合防抖(Hybrid ImageStabilization: HIS)。
OIS是一种硬件解决方案,它使用微机电*** (MEMS) 陀螺仪来检测运动并相应地调整摄像头***。
EIS是从软件算法角度,不必有额外的硬件支持,对视频的低频抖动和大幅运动稳像。相对于OIS,具有嵌入软件中,易于升级,低功耗,低成本等优点。HIS则是对OIS和EIS的融合方案。HIS融合方案的优势在于可以各取所长将多个传感器的信息集中在一起,综合分析从而提高相机防抖***决策的正确性。
现今市场上大部分设备的防抖算法都是基于图像的方法来平滑相机路径。算法灵活度适用于非线性的运动补偿。在没有刚性约束的情况下,截图比大、非刚性扭曲和拖影也会出现,运动补偿效果较差。
因此现有技术还有待于进一步发展。
发明内容
针对上述技术问题,本发明实施例提供了一种基于深度学***移,在没有刚性结束的情况下,截图比大、非刚性扭曲和拖影也会出现,运动补偿效果较左,影响视频拍摄质量的技术问题。
本发明实施例的第一方面提供一种基于深度学习的混合防抖方法,包括:
获取相机拍摄的视频,基于所述视频获取连续N帧图像;
将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
获取相机的位姿数据;
将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
可选地,获取相机拍摄的视频,基于所述视频获取连续N帧图像,包括:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
可选地,将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果,包括:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
可选地,获取相机的位姿数据,包括:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
可选地,所述将所述双向光流网络的输出结果及所述位姿数据输入对齐网络,包括:
将所述三轴角速度数据与视频数据进行同步处理,生成同步后的三轴角速度数据,得到三轴角速度数据对应的相对旋转矩阵;
将同步后的三轴角速度数据及双向光流网络的输出结果输入对齐网络,所述对齐网络为RNN网络,所述RNN网络包括忘记阶段、选择记忆阶段及输出阶段。
本发明实施例第二方面提供了一种基于深度学习的混合防抖***,所述***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续N帧图像;
将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
获取相机的位姿数据;
将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
可选地,所述计算机程序被所述处理器执行时还实现以下步骤:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
本发明实施例第三方面提供了一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于深度学习的混合防抖方法。
本发明实施例提供的技术方案中,获取相机拍摄的视频,基于所述视频获取连续N帧图像;将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;获取相机的位姿数据;将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。本发明实施例使用深度学习端对端的神经网络的方法计算稠密光流,比传统算法更鲁棒,得到的光流结果精度更高,在时域上对于历史上和未来的相机位姿数据进行选择。并在空域上对于位姿数据进行融合矫正,减少了防抖,提高了视频图像质量。
附图说明
图1为本发明实施例中一种基于深度学习的混合防抖方法的一实施例的流程示意图;
图2为本发明实施例中一种基于深度学习的混合防抖***的另一实施例的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合附图对本发明实施例进行详细的描述。
请参阅图1,图1为本发明实施例中一种基于深度学习的混合防抖方法的一个实施例的流程示意图。如图1所示,包括:
步骤S100、获取相机拍摄的视频,基于所述视频获取连续N帧图像;
步骤S200、将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
步骤S300、获取相机的位姿数据;
步骤S400、将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
步骤S500、获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
具体实施时,本发明实施例采用相机拍摄视频,拍摄后的视频数据转换为图像,转换为的原始图像格式包括但不限于RGB、dng、RAW等原始图像格式,或者HSV、YUV等其他色彩空间图片。
获取转换的图像中的连续N帧图像,将连续帧图像输入双向光流网络,获取双向光流网络的输出结果。采用双向光流网络对图像进行处理,其中光流算法是基于三个假设:相邻帧之间的亮度恒定;相邻帧之间物体的运动比较“微小”;保持空间一致性;即,相邻像素点具有相同的运动。
双向光流,就是对于正向和逆向时间维度都计算光流结果,这对于推断帧间的遮挡区域有很重要的作用。双向光流网络训练时采用的训练数据为720P分辨率的图片,当然也可以被其他分辨率的图片结合上下采样等数据预处理所代替。
基于能够获取相机位姿信息的传感器或传感***获取相机的角速度数据,传感器可采用OIS、陀螺仪、加速度计或磁力计等其他能获得相机位姿信息的传感器,传感器***可采用MEMS***(Micro-Electro-Mechanical System,微机电***),也叫做微电子机械***、微***、微机械等,指尺寸在几毫米乃至更小的装置,MEMS***具备获取相机位姿信息,相机位姿信息主要包括相机的三轴角速度数据。微机电***其内部结构一般在微米甚至纳米量级,是一个独立的智能***。
将光流网络的输出结果及相机的位姿信息对应的三轴角速度传感器输入训练好的对齐网络,进行对齐操作,获取对齐网络的输出结果;将对齐网络的输出结果进行翘曲至相机对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
进一步地,获取相机拍摄的视频,基于所述视频获取连续N帧图像,包括:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
具体实施时,获取相机拍摄的视频,从视频中获取连续5帧RGB图像,连续的五帧 RGB颜色空间数据对
Figure 524914DEST_PATH_IMAGE001
Figure 973213DEST_PATH_IMAGE002
Figure 116399DEST_PATH_IMAGE003
Figure 573925DEST_PATH_IMAGE004
(每一帧维度为H x W x 3)作为输入的被用来寻找帧间运动所广泛应用。
进一步地,将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果,包括:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
具体地,双向光流网络是符合UNet结构的CNN网络,输出结果为4对光流正逆光流 结果:
Figure 857139DEST_PATH_IMAGE005
Figure 476339DEST_PATH_IMAGE006
Figure 805689DEST_PATH_IMAGE007
Figure 365109DEST_PATH_IMAGE008
每 一个都是H x W x 2的数据格式。
基于OpenCV的Farneback算法是传统最经典的稠密光流算法,及基于深度学习的FlowNet I, II, III,PWC Net以及后续更新的最新的光流网络配合一个反转光流层直接得到双向光流。也包括基于插帧应用的双向光流网络等可直接获得双向光流结果。
进一步地,获取相机的位姿数据并与视频时间戳进行同步操作,包括:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
具体实施时,MEMS陀螺仪数据三轴角速度
Figure 830725DEST_PATH_IMAGE009
的功能。首先对陀螺仪数 据进行互补滤波和卡尔曼滤波的数据预处理操作,即在短时间内采用陀螺仪得到的角度做 为最优值,定时对加速度采样来的加速度值进行取平均值来校正陀螺仪的得到的角度。然 后,卡尔曼则是利用前一时刻的状态估计值和当前时刻的观测值来获得动态***当前时刻 状态变量的最优估计。
进一步地,将所述双向光流网络的输出结果及上述相机位姿数据输入对齐网络,包括:
将所述三轴角速度数据与所述视频数据进行同步处理,生成同步后的三轴角速度数据,得到三轴角速度数据对应的相对旋转矩阵;
将同步后的三轴角速度数据及双向光流网络的输出结果输入对齐网络,所述对齐网络为RNN网络,所述RNN网络包括忘记阶段、选择记忆阶段及输出阶段。
具体实施时,对齐网络: 此网络将双向光流结果
Figure 558510DEST_PATH_IMAGE005
Figure 906315DEST_PATH_IMAGE006
Figure 440064DEST_PATH_IMAGE007
Figure 697870DEST_PATH_IMAGE008
作为输入,经过多个2D卷积层 和激活函数。此编码器的作用就是把高维度的
Figure 422987DEST_PATH_IMAGE010
编码成为低维度的隐变量从而 强迫神经网络学习最有信息量的特征,图像的运动参数用旋转矩阵
Figure 258088DEST_PATH_IMAGE011
表示,此矩阵包括 三轴的旋转参数和平移参数。当前帧
Figure 267632DEST_PATH_IMAGE012
的元素要经过相邻四帧变换参数
Figure 301316DEST_PATH_IMAGE013
的均值求 得:
Figure 465844DEST_PATH_IMAGE014
(公式1)
在时序上得到这些运动参数后送入RNN网络用来学习长期依赖信息,允许信息持久化。防抖算法中需要通过前一时间段的运动信息持久性,来推断下一时刻的,但又要避免过度的长期依赖。所以此发明的RNN网络需要被设计为三个内部阶段来达到在时序上过滤有效信息作用:
忘记阶段:这个阶段主要是对上一个节点传进来的输入进行选择性忘记。
选择记忆阶段:这个阶段将这个阶段的输入有选择性地进行记忆。哪些重要则着重记录下来,哪些不重要,则少记一些。将上面两步得到的结果相加,即可得到传输给下一个状态的。
输出阶段。这个阶段将决定哪些将会被当成当前状态的输出。并且还对上一阶段得到结果通过tanh激活函数进行放缩,输出最终结果。
RNN网络需要接收的输入除了上一步的隐式运动参数在时序上进行记忆和选择以外, 还兼具融合和过滤上述预处理并同步过的MEMS相机位姿的作用;由于陀螺仪数据有更高的采 样频率,所以针对采样时间,需要给陀螺仪和视频数据进行同步处理,此发明使用了球面线性 插值公式,当时间戳符合在
Figure 991503DEST_PATH_IMAGE015
的情况下:
Figure 804738DEST_PATH_IMAGE016
, 其中关于Slerp公式的定义为:
Figure 99453DEST_PATH_IMAGE017
(公式2)
其中
Figure 464576DEST_PATH_IMAGE018
代表从
Figure 439048DEST_PATH_IMAGE019
旋转到
Figure 383871DEST_PATH_IMAGE020
弧度。这样可以通过计算得出与相机视频时间 戳相同
Figure 798671DEST_PATH_IMAGE021
时刻下的
Figure 600274DEST_PATH_IMAGE022
。由于陀螺仪数据是在3D世界坐标系中采集的,所以需要 将外参结合相机内参映射到的2D图像坐标中得到相机姿态:
Figure 336411DEST_PATH_IMAGE023
(公式3)
Figure 491449DEST_PATH_IMAGE024
(公式4)
Figure 760756DEST_PATH_IMAGE025
代表相机内参矩阵,
Figure 936523DEST_PATH_IMAGE026
是相机旋转矩阵,
Figure 455229DEST_PATH_IMAGE027
代表焦距长度。由于RNN网络需要的 是历史位姿队列,而上一步计算得出的是绝对位姿信息。但是在位姿与位姿旋转变换之间 和网络学习过程中,都需要的是相对旋转矩阵,所以还需要进行将陀螺仪数据求得的相对 旋转矩阵。这样设计的好处在于网络模型只需要去学习初始的变化即可,但对于绝对位姿 是具有不变形的。在训练过程中也可以发现,使用相对信息可以获得更稳定的视觉效果和 更强的泛化能力。经过对齐网络的位姿信息在MEMS相对位姿的辅助下,更好的学习了旋转 信息,并在时域上过滤掉了高频抖动。
进一步地,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
具体实施时,对齐网络输出的稳定后的变换矩阵结果,将抖动的初始RGB颜色空间 数据
Figure 413958DEST_PATH_IMAGE028
翘曲到旋转矩阵结果对应的位姿上,即当前帧的稳像结果。这里的翘曲过程是将画 面分为12 x12的网格进行的。将每个网格内的图像分别扭曲到稳像后的位姿处。这样做的 稳像结果具有良好的均匀性、稳定性和保持原有的视差性质。
进一步地,本发明实施例中的损失函数计算方式如下:
变换损失:此损失有两部分,在初始阶段为了让网络先学好运动参数可以跟踪相 机的运动。一部分对于旋转矩阵计算出的参数
Figure 770727DEST_PATH_IMAGE029
和真值
Figure 914133DEST_PATH_IMAGE030
求L1损失,另一部分是将图像变 换前
Figure 123397DEST_PATH_IMAGE031
和经网络学出来的参数变换后的图像
Figure 620238DEST_PATH_IMAGE032
求L1损失。
Figure 660875DEST_PATH_IMAGE033
(公式5)
平滑损失:基于采样时间时间间隔,此发明在平滑损失部分设计了两个部分来约束相机轨迹。一个用来直接约束帧间位移,另一个扩大时间间隔来约束当前帧更贴合全局位移:
Figure 414329DEST_PATH_IMAGE034
(公式6)
Figure 110890DEST_PATH_IMAGE035
(公式7)
出画损失:网络的平滑作用往往带来导致画面越出实际画面边界的副作用,这里 此发明设计了出画损失直接进行惩罚。其中结合了符合高斯分布的权重参数
Figure 145842DEST_PATH_IMAGE036
,标准差 为预设值。
Figure 306565DEST_PATH_IMAGE037
是可以控制出画容忍度的参数。
Figure 463877DEST_PATH_IMAGE038
代表可以融入计算的未来帧数目。对于函数 的定义,会评估稳像后位姿四角
Figure 585417DEST_PATH_IMAGE039
投影到实际相机空间
Figure 256350DEST_PATH_IMAGE040
的时候,将扭曲角和帧边距离的 最大值来进行归一化,并计算这个相对距离。这个损失的设计可以控制算法对相机运动的 敏感度。
Figure 22312DEST_PATH_IMAGE041
(公式8)
变形损失:防抖算法评判指标最重要之一的就是变形, 因为这会大幅度降低原有 画质。
Figure 708115DEST_PATH_IMAGE042
是当前图像空间和真实相机位姿之间的球面角,
Figure 333263DEST_PATH_IMAGE043
是阈值,
Figure 631389DEST_PATH_IMAGE044
是控制逻 辑函数斜率的参数。变形损失只有在角度偏差大于阈值
Figure 376491DEST_PATH_IMAGE043
时才有效。
Figure 937922DEST_PATH_IMAGE045
(公式9)
光流损失:其他的损失函数都是给予图像整体层面来进行计算。光流损失的应用 是为了减小运动中像素间的运动范围。计算中,会将实际相机空间的点
Figure 346905DEST_PATH_IMAGE046
Figure 792930DEST_PATH_IMAGE047
转换到 虚拟空间
Figure 454855DEST_PATH_IMAGE048
,并保证在稳像时翘曲操作后像素点之间对应关系依旧紧密。这样也 避免了翘曲后出现空洞像素点,又要插值的操作。
Figure 452767DEST_PATH_IMAGE049
(公式10)
Figure 832933DEST_PATH_IMAGE050
(公式11)
Figure 551490DEST_PATH_IMAGE052
(公式12)
总损失:由于此发明是分阶段训练的,所以在每个阶段,各个损失函数各自的权重都需要被调参,来达到该阶段训练的目的。
Figure 897283DEST_PATH_IMAGE053
(公式13)
此发明吸取并融合相机硬件***和深度学习算法的优势在日常,视差, 跑步,快速旋转和人群场景中可以提供优秀的视频稳像效果,在像素层面对于图像进行矫正。并尽最大可能去还原原有的视野角,保持高稳定性,低截屏比和低扭曲变形的高质量视频。
本发明实施例具有以下技术好处:
使用了深度学习端对端的CNN网络的方法计算稠密光流,比传统算法更鲁棒,得到的光流结果精度(EPE)更高。
初次使用了RNN网络,在时域上对于历史上和未来的相机位姿数据进行选择。并在空域上对于位姿数据进行融合矫正。
MEMS陀螺仪数据在已有的3DOF基础上,为相机提供了更精准的旋转参数,实现了6DOF的防抖算法。这样可以更贴近相机的真是移动,并和相机数据起到了相辅相成的作用。
首次在损失函数中融合了指标因素,将轨迹平滑,变形,出画这三个防抖最关注的硬性指标直接融入训练。并加入控制参数,约束但不过分更改实际场景。
之前的防抖算法只关注与人为运动相关的抖动模式。但对于卷帘现象这种相机本身设计导致的抖动并没有纳入考虑。而此发明有在光流结果的部分有对卷帘现象进行矫正操作。
出画损失函数的设计不光直接控制截屏比,另一方面相对比其他算法,可以更好的还原原视频的视野角度。这是之前的其他防抖算法所没有关注的。
利用了旋转矩阵来代表位姿,大大减少了参数量和计算量。并使用Slerp球面线性插值来解决多传感器时间同步的问题。
需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
上面对本发明实施例中的基于深度学习的混合防抖方法进行了描述,下面对本发明实施例中的基于深度学习的混合防抖***进行描述,请参阅图2,图2是本发明实施例中一种基于深度学习的混合防抖***的另一实施例的硬件结构示意图,如图2所示,***10包括:存储器101、处理器102及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器101执行时实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续N帧图像;
将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
获取相机的位姿数据;
将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
具体的实施步骤与方法实施例相同,此处不再赘述。
可选地,计算机程序被处理器101执行时还实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
具体的实施步骤与方法实施例相同,此处不再赘述。
可选地,计算机程序被处理器101执行时还实现以下步骤:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
具体的实施步骤与方法实施例相同,此处不再赘述。
可选地,计算机程序被处理器101执行时还实现以下步骤:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
具体的实施步骤与方法实施例相同,此处不再赘述。
可选地,计算机程序被处理器101执行时还实现以下步骤:
将所述三轴角速度数据与所述视频数据进行同步处理,生成同步后的三轴角速度数据,得到三轴角速度数据对应的相对旋转矩阵;
将同步后的三轴角速度数据及双向光流网络的输出结果输入对齐网络,所述对齐网络为RNN网络,所述RNN网络包括忘记阶段、选择记忆阶段及输出阶段。
具体的实施步骤与方法实施例相同,此处不再赘述。
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S500。
作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器 (RAM) 。通过说明并非限制,RAM可以以诸如同步 RAM(SRAM)、动态 RAM 、(DRAM)、同步DRAM (SDRAM)、双数据速率SDRAM (DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM (SLDRAM) 以及直接Rambus(兰巴斯) RAM (DRRAM) 之类的许多形式得到。本发明实施例中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度学习的混合防抖方法,其特征在于,包括:
获取相机拍摄的视频,基于所述视频获取连续N帧图像;
将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
获取相机的位姿数据;
将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
2.根据权利要求1所述的基于深度学习的混合防抖方法,其特征在于,所述获取相机拍摄的视频,基于所述视频获取连续N帧图像,包括:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
3.根据权利要求2所述的基于深度学习的混合防抖方法,其特征在于,所述将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果,包括:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
4.根据权利要求3所述的基于深度学习的混合防抖方法,其特征在于,所述获取相机的位姿数据,包括:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
5.根据权利要求4所述的基于深度学习的混合防抖方法,其特征在于,所述将所述双向光流网络的输出结果及所述位姿数据输入对齐网络,包括:
将所述三轴角速度数据与视频数据进行同步处理,生成同步后的三轴角速度数据,得到三轴角速度数据对应的相对旋转矩阵;
将同步后的三轴角速度数据及双向光流网络的输出结果输入对齐网络,所述对齐网络为RNN网络,所述RNN网络包括忘记阶段、选择记忆阶段及输出阶段。
6.一种基于深度学习的混合防抖***,其特征在于,所述***包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续N帧图像;
将连续N帧图像输入双向光流网络,获取双向光流网络的输出结果;
获取相机的位姿数据;
将所述双向光流网络的输出结果及所述位姿数据输入对齐网络;
获取对齐网络的输出结果,将所述对齐网络的输出结果进行翘曲至对应的位姿上,得到当前图像帧的稳像结果,完成防抖操作。
7.根据权利要求6所述的基于深度学习的混合防抖***,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
获取相机拍摄的视频,基于所述视频获取连续5帧RGB图像;
基于所述5帧RGB图像生成4对RGB颜色空间数据对。
8.根据权利要求7所述的基于深度学习的混合防抖***,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
将4对RGB颜色空间数据对输入双向光流网络,所述双向光流网络为符合UNet结构的CNN网络;
获取所述双向光流网络输出的4对正逆光流结果。
9.根据权利要求8所述的基于深度学习的混合防抖***,其特征在于,所述计算机程序被所述处理器执行时还实现以下步骤:
基于MEMS陀螺仪获取相机的初始三轴角速度数据;
基于互补滤波和卡尔曼滤波对所述初始三轴角速度数据进行滤波,生成相机的位姿数据。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-5任一项所述的基于深度学习的混合防抖方法。
CN202211077092.4A 2022-09-05 2022-09-05 一种基于深度学习的混合防抖方法及*** Pending CN115174817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211077092.4A CN115174817A (zh) 2022-09-05 2022-09-05 一种基于深度学习的混合防抖方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211077092.4A CN115174817A (zh) 2022-09-05 2022-09-05 一种基于深度学习的混合防抖方法及***

Publications (1)

Publication Number Publication Date
CN115174817A true CN115174817A (zh) 2022-10-11

Family

ID=83481881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211077092.4A Pending CN115174817A (zh) 2022-09-05 2022-09-05 一种基于深度学习的混合防抖方法及***

Country Status (1)

Country Link
CN (1) CN115174817A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164303A (ja) * 2010-12-23 2012-08-30 Samsung Electronics Co Ltd 適応フィルタリングを利用したデジタルイメージ安定化方法
CN109729263A (zh) * 2018-12-07 2019-05-07 苏州中科广视文化科技有限公司 基于融合运动模型的视频除抖方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
CN112967341A (zh) * 2021-02-23 2021-06-15 湖北枫丹白露智慧标识科技有限公司 基于实景图像的室内视觉定位方法、***、设备及存储介质
CN114429191A (zh) * 2022-04-02 2022-05-03 深圳深知未来智能有限公司 基于深度学习的电子防抖方法、***及存储介质
WO2022125090A1 (en) * 2020-12-10 2022-06-16 Google Llc Enhanced video stabilization based on machine learning models

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012164303A (ja) * 2010-12-23 2012-08-30 Samsung Electronics Co Ltd 適応フィルタリングを利用したデジタルイメージ安定化方法
CN109729263A (zh) * 2018-12-07 2019-05-07 苏州中科广视文化科技有限公司 基于融合运动模型的视频除抖方法
CN110490928A (zh) * 2019-07-05 2019-11-22 天津大学 一种基于深度神经网络的相机姿态估计方法
WO2022125090A1 (en) * 2020-12-10 2022-06-16 Google Llc Enhanced video stabilization based on machine learning models
CN112967341A (zh) * 2021-02-23 2021-06-15 湖北枫丹白露智慧标识科技有限公司 基于实景图像的室内视觉定位方法、***、设备及存储介质
CN114429191A (zh) * 2022-04-02 2022-05-03 深圳深知未来智能有限公司 基于深度学习的电子防抖方法、***及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘煦: "先进视频稳像技术研究", 《上海交通大学硕士论文》 *

Similar Documents

Publication Publication Date Title
CN111133747B (zh) 一种视频稳定的方法及装置
CN110493525B (zh) 变焦图像确定方法及装置、存储介质、终端
US10764496B2 (en) Fast scan-type panoramic image synthesis method and device
CN101616310B (zh) 可变视角及分辨率的双目视觉***目标图像稳定化方法
CN107566688B (zh) 一种基于卷积神经网络的视频防抖方法、装置及图像对齐装置
CN105611116B (zh) 一种全局运动矢量估计方法及监控视频稳像方法及装置
JP6087671B2 (ja) 撮像装置およびその制御方法
KR101071352B1 (ko) 좌표맵을 이용한 팬틸트줌 카메라 기반의 객체 추적 장치 및 방법
CN110520694A (zh) 一种视觉里程计及其实现方法
CN107564063B (zh) 一种基于卷积神经网络的虚拟物显示方法及装置
CN114175091A (zh) 利用基于上下文分割层的自适应去扭曲的最优身体或面部保护的方法
JP6202879B2 (ja) ローリングシャッタ歪み補正と映像安定化処理方法
CN112585644A (zh) 在相机摇摄或运动中创建背景模糊的***及方法
WO2010151215A1 (en) Real time video stabilization
US10764500B2 (en) Image blur correction device and control method
Wang et al. Video stabilization: A comprehensive survey
CN108900775A (zh) 一种水下机器人实时电子稳像方法
WO2020085028A1 (ja) 画像認識装置および画像認識方法
Wang et al. Automated camera-exposure control for robust localization in varying illumination environments
US11531211B2 (en) Method for stabilizing a camera frame of a video sequence
CN111712857A (zh) 图像处理方法、装置、云台和存储介质
CN116152121B (zh) 基于畸变参数的曲面屏生成方法、矫正方法
CN115174817A (zh) 一种基于深度学习的混合防抖方法及***
JP2016110312A (ja) 画像処理方法、画像処理装置及びプログラム
CN117058183A (zh) 一种基于双摄像头的图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20221011