CN114429191B

CN114429191B - 基于深度学习的电子防抖方法、***及存储介质

Info

Publication number: CN114429191B
Application number: CN202210340322.5A
Authority: CN
Inventors: 高歌; 王保耀; 郭奇锋
Original assignee: Shenzhen Shenzhi Future Intelligence Co ltd
Current assignee: Shenzhen Shenzhi Future Intelligence Co ltd
Priority date: 2022-04-02
Filing date: 2022-04-02
Publication date: 2023-03-28
Anticipated expiration: 2042-04-02
Also published as: CN114429191A

Abstract

本发明公开了一种基于深度学***位移和竖直位移；在所述水平位移和竖直位移的基础上，剔除异常位移向量，得到时域轨迹信息；对所述时域轨迹信息进行轨迹校正，得到平稳轨迹；把所述原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像。本发明可以在无硬件支持的情况下，以低廉的计算成本快速匹配多场景抖动视频进行稳像操作，最大限度保证原视频质量的情况下，给观看者提供更好的视觉体验。

Description

基于深度学习的电子防抖方法、***及存储介质

技术领域

本发明涉及电子防抖技术领域，更具体的说是涉及一种基于深度学习的电子防抖方法、***及存储介质。

背景技术

随着智能相机的不断发展，视频防抖技术在无人机、无人船、城市安防、高点监控、机器人、航空航天等领域的产品中的显得越来越重要。视频防抖技术大致可分为光学防抖（Optical image stabilization：OIS）、电子防抖（Electric Image Stabilization：EIS）以及混合防抖（Hybrid Image Stabilization：HIS）。OIS是一种硬件解决方案，它使用微机电***(MEMS)陀螺仪来检测运动并相应地调整摄像头***；EIS是从软件算法角度，不必有额外的硬件支持，对视频的低频抖动和大幅运动稳像。相对于OIS，具有嵌入软件中，易于升级，低功耗，低成本等优点；HIS则是对OIS和EIS的融合方案。现今市场上大部分设备的电子防抖算法都是基于传统的防抖算法进行特征提取，轨迹滤波并结合来达到稳像的效果，适配场景较少，稳像后截图比小，损失大量原始信息。因此，对本领域技术人员来说，如何以低廉的计算成本快速匹配多场景抖动视频进行稳像操作，是亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种基于深度学习的电子防抖方法、***及存储介质，以解决背景技术中提出的问题。

为了实现上述目的，本发明采用如下技术方案：一种基于深度学习的电子防抖方法，具体步骤包括如下：

获取原始图像；

对所述原始图像进行特征点匹配，得到特征点匹配信息；

根据所述特征点匹配信息，计算出每个特征点位移向量的水平位移和竖直位移；

在所述水平位移和竖直位移的基础上，剔除异常位移向量，得到时域轨迹信息；

对所述时域轨迹信息进行轨迹校正，得到平稳轨迹；

把所述原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像。

可选的，利用深度学习CNN网络对所述原始图像进行特征点匹配。

通过采用上述技术方案，具有以下有益的技术效果：可以高效的产生高分辨率的映射响应图，端对端的稀疏匹配训练是联合检测网络和描述子网络来进行的；相比较于传统的特征点提取和匹配算法，本发明不必介入手工构建的特征，可以有效节约人力成本，并自动匹配更多不同的任务所需要的特征点。

可选的，采用卡尔曼滤波，结合前一帧轨迹和当前帧抖动轨迹，通过自适应调整卡尔曼增益来平滑当前帧的位置，进行轨迹校正。

可选的，在图像上分配一个规则的网格，将特征点的运动复制到网格顶点并结合RANSAC算法剔除个别异常点，得到所述时域轨迹信息。

通过采用上述技术方案，具有以下有益的技术效果：这样做可以筛选出每个格点中可以代表整***移的向量，并传播到图像网格的顶点得到一个稠密并且均匀的位移网格矩阵，可以提供良好的运动连续性来给后续的图像处理。

另一方面，提供一种基于深度学习的电子防抖***，包括依次相连的数据获取模块、特征点匹配模块、运动估计模块、运动传播模块、轨迹校正模块、视点合成模块；其中，

所述数据获取模块，用于获取原始图像；

所述特征点匹配模块，用于对所述原始图像进行特征点匹配，得到特征点匹配信息；

所述运动估计模块，用于根据所述特征点匹配信息，计算出每个特征点位移向量的水平位移和竖直位移；

所述运动传播模块，用于在所述水平位移和竖直位移的基础上，剔除异常位移向量，得到时域轨迹信息；

所述轨迹校正模块，用于对所述时域轨迹信息进行轨迹校正，得到平稳轨迹；

所述视点合成模块，用于把所述原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像。

可选的，还包括深度学习CNN网络模块，与所述数据获取模块相连，用于进行特征点匹配。

最后，提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种基于深度学习的电子防抖方法的步骤

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于深度学习的电子防抖方法、***及存储介质，具有以下有益的技术效果：

（1）吸取并融合传统算法和深度学习的优势，在日常，视差，跑步，快速旋转和人群场景中可以提供优秀的视频稳像效果，并尽最大可能去保持高稳定性，低截屏比和低扭曲变形的高质量视频；

（2）可以在无硬件支持（包括但不限于陀螺仪，加速度计，磁悬浮OIS镜头防抖模块）的情况下，以低廉的计算成本快速匹配多场景抖动视频进行稳像操作。最大限度保证原视频质量的情况下，给观看者提供更好的视觉体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明的方法流程图；

图2为本发明的深度学习CNN网络结构图；

图3为本发明的剔除异常位移向量示意图；

图4为本发明的卡尔曼滤波图；

图5为本发明的***结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于深度学习的电子防抖方法，如图1所示，具体步骤包括如下：

S1、获取原始图像；

以相机的sRBG数据作为输入，输入的sRBG数据也可替换为dng、RAW等原始图像格式，或者HSV、YUV等其他色彩空间图片。

S2、对原始图像进行特征点匹配，得到特征点匹配信息；

特征点在计算机视觉领域，被广泛应用在高效并准确的找出不同视角的图像中的同一物体，从而计算出相机的位移信息。特征点需要具有不变形，鲁棒性和可区分性。特征点匹配通常需要三个步骤：

a、提取特征点：指在帧间图像中找到一些鲁棒的点的位置，方向和尺度信息；

b、计算特征点的描述子：通常是一个向量，描述关键点周围像素的信息；c、根据描述子进行匹配：匹配向量空间距离相近的描述子。

在本实施例中使用了深度学习CNN网络来进行特征点匹配，此网络由特检测网络和描述网络组成。CNN网络由于采用了多尺度浅层网络结构，可高效的产生高分辨率的映射响应图。端对端的稀疏匹配训练是联合检测网络和描述子网络来进行的。相比较于传统的特征点提取和匹配算法，本发明不必介入手工构建的特征，可以有效节约人力成本，并自动匹配更多不同的任务所需要的特征点。此网络的特征点匹配也相较于常见的暴力匹配搜索提供更为鲁棒的结果。主网络输出的结果是已经匹配好的512组帧间点对：前一帧

时刻的/>

…/>

对应当前帧/>

时刻的/>

… />

。

深度学习CNN网络流程如图2所示，网络输入是sRBG色域空间的相邻帧图像。网络中涉及变量，

：得分映射、/>

：方向映射、/>

：尺度映射、/>

：真值干净的得分映射、/>

：图片的分块、其中损失函数的计算如下：

Score得分损失：是

和/>

的/>

损失、/>

；

Des（描述）损失：硬损失最大化批次中最接近的正例和最接近的负例之间的距离。

，其中，K：来自/>

的前K个特征点、/>

：正样本描述子、/>

：负样本描述子；

Patch（分块）损失：这个损失来优化检测器以检测更一致的关键点，使得从对应位置裁剪的分块的描述子尽可能相似。

，其中，K来自/>

的前K个特征点、/>

：来自分块/>

的描述子、/>

：来自分块/>

的描述子、/>

定义为函数

。

S3、根据特征点匹配信息，计算出每个特征点位移向量的水平位移和竖直位移；

基于上一步的特征点匹配得到的512组点对，计算出每个特征点的位移向量在水平和竖直方向的分量。例如，前一帧

时刻的一组特征点在图像中位置为/>

，当前帧/>

时刻特征点在图像中位置为/>

，那么在图像坐标系中：水平位移/>

、竖直位移/>

。

S4、在水平位移和竖直位移的基础上，剔除异常位移向量，得到时域轨迹信息；

帧间匹配的512组位移向量可能并不会很均匀地分布在图像中，并且会有少量异常位移向量。这就需要在当前帧上放置一个规则的网格(Mesh Grid)，将特征点的运动复制到附近的网格顶点并结合RANSAC算法剔除个别异常点。

RANSAC算法一般是用来区分内点群和外点群的。内点群在这里就是可以代表相机整***移的大部分点，外点群则是需要剔除的异常点。具体定义这两个点群的是根据假设每个已知点落在内点群的概率为：

，那么有/>

个点时，这/>

个点都是内点群的概率就是/>

。那么再迭代/>

次时，/>

个点都是内点群的概率可以通过/>

来得到，即/>

。512组位移向量在拟合到合适的内点群模型后，多数被留下的位移方向大体是一致的。

如图3，因为一个网格顶点可能接收不止一个特征点带来的位移向量，两次的中值滤波的设置就在这里起到了重要的作用防止最终稳像结果的扭曲变形。这样做不光可以筛选出每个格点中可以代表整***移的向量，还可以得到一个稠密并且均匀的位移网格矩阵。这样做可以提供良好的运动连续性来给后续的图像处理。

S5、对时域轨迹信息进行轨迹校正，得到平稳轨迹；

由于位移信息关于时间积分得到的时域轨迹信息是抖动的，滤波器便成为了调整稳定性的核心。如图4，本实施例中采用卡尔曼滤波结合图像格点，通过自适应调整卡尔曼增益来平滑当前帧的位置。以图像格点的一个顶点为例，初始状态使用第一帧数据的位移信息

用来储存稠密网格矩阵结果，协方差矩阵/>

可以初始化为一个单位矩阵，后续在更新过程中会快速收敛，所以初始值影响不会很大。当数据接收到第二帧（即当前帧）在/>

时刻，通过状态转移矩阵/>

和/>

输入控制矩阵来过滤当前状态变量/>

和/>

。其中状态转移矩阵/>

依据所处的运动***是线性或非线性来配置、/>

控制矩阵是外界的影响转化为对状态的影响、/>

是当前/>

时刻外界对***的作用、/>

是预测状态噪声矩阵、/>

为预测噪声协方差矩阵。/>

和/>

可以将当前的预测状态/>

和/>

计算得出。卡尔曼滤波之所以可以滤波的核心在于卡尔曼增益/>

来调节测量到的状态变量/>

和预测的状态变量/>

的占比来达到滤波的目的。具体在矩阵形式的计算如下：

,其中/>

为测量协方差矩阵。随着时间增加到/>

时刻，当前的/>

时刻会替换掉下一次迭代中的前一时刻的状态变量和协方差矩阵：/>

，

。同理，将每个格点顶点轨迹信息进行滤波，就会得到网格在时域上的平滑轨迹。

S6、把原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像。

视点合成是将原始图像移动到稳定过后的轨迹处。通过上一步稳定的网格位移信息，结合多个单应性矩阵，把图像分区域翘曲到渲染过后的位置上。翘曲就是将一个平面中的点映射到另一个平面中的对应点的变换关系。当已知翘曲前某一点的坐标为

，因为是2D平面所以/>

在这里取1，那么通过单应矩阵进行的透视变换就是：/>

，其中/>

，/>

代表对于图像的旋转和缩放操作。/>

，/>

代表平移操作，/>

，/>

是透视操作，/>

在这里取值为1。

这步基于透视变化或仿射变换的操作会导致部分图像跑出画幅或出现黑边。这种情况就需要居中截取有效信息或根据前后帧来推断黑边信息。

本发明实施例2公开了一种基于深度学习的电子防抖***，如图5所示，包括依次相连的数据获取模块、特征点匹配模块、运动估计模块、运动传播模块、轨迹校正模块、视点合成模块；其中，

数据获取模块，用于获取原始图像；

特征点匹配模块，用于对原始图像进行特征点匹配，得到特征点匹配信息；

运动估计模块，用于根据特征点匹配信息，计算出每个特征点位移向量的水平位移和竖直位移；

运动传播模块，用于在水平位移和竖直位移的基础上，剔除异常位移向量，得到时域轨迹信息；

轨迹校正模块，用于对时域的格点轨迹信息进行轨迹校正，得到平稳轨迹；

视点合成模块，用于把原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像。

进一步的，还包括深度学习CNN网络模块，与数据获取模块相连，用于进行特征点匹配。

最后，提供一种计算机存储介质，计算机存储介质上存储有计算机程序，计算机程序被处理器执行时实现一种基于深度学习的电子防抖方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度学习的电子防抖方法，其特征在于，具体步骤包括如下：

获取原始图像；

对所述原始图像进行特征点匹配，得到特征点匹配信息；

对所述时域轨迹信息进行轨迹校正，得到平稳轨迹；

把所述原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像；

利用深度学习CNN网络对所述原始图像进行特征点匹配；

所述CNN网络由特检测网络和描述网络组成，端对端的稀疏匹配训练是联合检测网络和描述子网络来进行的；

在当前帧上放置一个规则的网格，将特征点的运动复制到网格顶点并结合RANSAC算法剔除个别异常点，得到所述时域轨迹信息；

所述RANSAC算法具体为：

RANSAC算法用来区分内点群和外点群，内点群代表相机整***移的大部分点，外点群则是需要剔除的异常点；

定义两个点群的是根据假设每个已知点落在内点群的概率为：

那么有n个点时，这n个点都是内点群的概率就是w_n；那么再迭代i次时，n个点都是内点群的概率可以通过1-p＝1-w_n ⁱ得到，为p＝1-1-w_n ⁱ；位移向量在拟合到合适的内点群模型后，多数被留下的位移方向大体是一致的；

在RANSAC算法剔除个别异常点过程中进行两次中值滤波。

2.根据权利要求1所述的一种基于深度学***滑当前帧的位置，进行轨迹校正。

3.一种基于深度学习的电子防抖***，其特征在于，包括依次相连的数据获取模块、特征点匹配模块、运动估计模块、运动传播模块、轨迹校正模块、视点合成模块；其中，

所述数据获取模块，用于获取原始图像；

所述视点合成模块，用于把所述原始图像分区域翘曲到所述平稳轨迹上，得到稳定图像；

还包括深度学习CNN网络模块，与所述数据获取模块相连，用于进行特征点匹配；

所述RANSAC算法具体为：

在RANSAC算法剔除个别异常点过程中进行两次中值滤波。

4.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-2中任意一项所述的一种基于深度学习的电子防抖方法的步骤。