CN112788236A

CN112788236A - 视频帧处理方法、装置、电子设备和可读存储介质

Info

Publication number: CN112788236A
Application number: CN202011643661.8A
Authority: CN
Inventors: 李仕康
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-05-11
Anticipated expiration: 2040-12-31
Also published as: CN112788236B

Abstract

本申请公开了一种视频帧处理方法、装置、电子设备和可读存储介质，属于图像处理领域。其中的方法包括：获取初始视频帧以及当前视频帧；获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。本申请解决了现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

Description

视频帧处理方法、装置、电子设备和可读存储介质

技术领域

本申请属于图像处理领域，具体涉及一种视频帧处理方法、装置、电子设备和可读存储介质。

背景技术

现有手机的EIS(Electric Image Stabilization，电子防抖)防抖技术通常需要做大量的前期标定工作，确定出相机的焦距、陀螺仪的漂移和延迟等参数，配合陀螺仪输出的数据计算出标准帧的像素点对于当前帧的变化矩阵。即EIS是通过将当前像素点位置左乘以变化矩阵转变成标准帧的像素点位置，并截取掉一定的图像边缘完成最终的防抖效果。

在实现本申请过程中，发明人发现现有技术中至少存在如下问题：

从目前的EIS技术来说，裁剪图像是必须的，这会导致图像视角变小，而且如果没有OIS(Optical Image Stabilization)的帮助，对于平移补偿效果也不够理想。同时卷帘快门Rolling Shutter Door的曝光时间不定也给防抖效果带来负面的影响，且整个EIS流程比较繁杂，过多的环节需要人为的干预和调整，从维护和问题排查以及效果增强来说略显繁琐和困难。

针对上述的问题，目前尚未提出有效的解决方案。

申请内容

本申请实施例的目的是提供一种视频帧处理方法、装置、电子设备和可读存储介质，能够解决现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频帧处理方法，所述方法包括：获取初始视频帧以及当前视频帧；获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

第二方面，本申请实施例提供了一种视频帧处理装置，所述装置包括：第一图像采集单元，用于获取初始视频帧以及当前视频帧；第一获取单元，用于获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；第一处理单元，用于将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，通过获取初始视频帧以及当前视频帧；获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。通过多模数据实现对视频帧进行图像处理，综合了图像拍摄过程中的多种因素，实现了对视频帧的有效增强。进而解决了现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可一照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1是本申请实施例中一种可选的视频帧处理方法的流程示意图；

图2a是本申请实施例中一种可选的分量矩阵的前四通道示意图；

图2b是本申请实施例中一种可选的分量矩阵的后四通道示意图；

图2c是本申请实施例中一种可选的分量矩阵的示意图；

图3是本申请实施例中一种可选的图像处理模型的结构示意图；

图4是本申请实施例中一种可选的编码模块的结构示意图；

图5是本申请实施例中一种可选的对分量矩阵进行偏置处理的示意图；

图6是本申请实施例中一种可选的编码卷积层的结构示意图；

图7是本申请实施例中一种可选的解码模块的结构示意图；

图8是本申请实施例中又一种可选的图像处理模型的结构示意图；

图9是本申请实施例中一种图像处理模型训练场景的示意图；

图10是本申请实施例中一种可选的视频帧处理装置的结构示意图；

图11是本申请实施例中一种可选的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的图像帧处理方法进行详细地说明。

本申请实施例中提出了一种视频帧处理方法，参照附图1，示出了本申请的一种视频帧处理方法的流程示意图，具体可以包括以下步骤：

S102，获取初始视频帧以及当前视频帧；

具体地，通过电子终端的摄像头或其他图像采集部件获取视频帧，在本实施例中，视频帧的获取方式包括但不限于视频拍摄以及照片拍摄。在一个例子中，在通过手机拍摄视频时，获取各个视频帧或者按照预设间隔采集视频帧，以得到初始视频帧以及当前视频帧；而在另一个例子中，在通过手机拍摄照片的情况下，在手机相机的拍照预览界面展示拍摄目标的预览视频，采集预览视频的视频帧，以得到初始视频帧以及当前视频帧。

S104，获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；

具体地，多模数据包括但不限于视频帧的图像数据、卷帘快门的行曝光时间信息、陀螺仪信息以及拍摄时间节点等多维数据。以适应各行曝光时间不同的且减少动态模糊motion blur的影响，充分考虑视频帧的像素空间随着图像抖动的不确定变化性。

在实际的应用场景中，电子终端的处理器获取各个传感器的数据，例如获取摄像头中的光学传感器中的图像数据以及行曝光时间数据，以及陀螺仪的方向偏置数据，或者获取每个视频帧对应的时间数据。在另一个例子中，可以将多模数据关联视频帧对应的图像数据，通过电子终端的处理器在获取图像数据的同时，可以直接获取视频帧对应的多模数据。

S106，将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。

具体地，在本实施例中，将初始视频帧以及当前视频帧的图像数据以及分别对应的多模数据输入至预先训练得到的图像处理模型，由该图像处理模型根据初始视频帧以及当前视频帧分别对应的图像数据以及多模数据，对当前视频帧进行图像增强，以得到目标视频帧。

本申请具体实施时，首先需要训练图像处理模型。

本申请的一些实施例中，根据相机拍照或摄像过程中产生的视频帧，构建训练样本集，该训练样本集中的每条训练样本包括：初始视频帧、当前视频帧、初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据以及目标视频帧。在一个例子中，训练样本包括初始视频帧以及当前视频帧分别对应的图像像素信息、行曝光时间、陀螺仪偏置数据以及图像采集时间。

可选地，在本实施例中，获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据，包括但不限于：获取初始视频帧与当前视频帧分别对应的图像数据、行曝光时间、图像偏置数据以及采集时间；根据图像数据、行曝光时间、图像偏置数据以及采集时间，确定初始视频帧对应的第一分量矩阵以及当前视频帧对应的第二分量矩阵。

在具体地应用场景中，例如在手机中从传感器中获取到初始视频帧以及当前视频帧分别对应的图像像素信息以及卷帘快门的行曝光时间，从陀螺仪中获取当前视频帧分别对应的陀螺仪数据，即空间坐标中XYZ轴方向的角速度以及采集时间，需要说明的是，此处的采集时间为图像视频帧的采集时间，而并非是陀螺仪数据的采集时间。

通过上述实施例，根据初始视频帧与当前视频帧分别对应的图像数据、行曝光时间、图像偏置数据以及采集时间，确定初始视频帧对应的第一分量矩阵以及当前视频帧对应的第二分量矩阵。通过融合多模数据得到分量矩阵对目标视频帧进行处理，使得视频帧的处理具有旋转、平移等各个层面上的防抖效果。

可选地，在本实施例中，根据图像数据、行曝光时间、图像偏置数据以及采集时间，确定初始视频帧对应的第一分量矩阵以及当前视频帧对应的第二分量矩阵，包括但不限于：对图像数据转换进行BGR转换，以得到图像数据对应的图像矩阵；根据图像矩阵以及行曝光时间确定第一矩阵；根据图像偏置数据以及采集时间确定第二矩阵；对第一矩阵以及第二矩阵进行合并，以得到第一分量矩阵以及第二分量矩阵。

在一个例子中，如图2a所示的分量矩阵的前四通道示意图，将图像像素信息转换成BGR空间域，并把行曝光信息作为BGR图像的第四通道，成为矩阵BGR-E；如图2b所示的分量矩阵的后四通道示意图，将陀螺仪XYZ轴数据和采集时间的时间戳数据展开成和BGR-E相同的分量矩阵的后四通道，该时间戳数据为当前帧的时间戳减去标准帧的时间戳；最后分别将这两部分分量矩阵组成为一个如图2c所示的分量矩阵。

通过上述实施例，将根据图像矩阵以及行曝光时间确定的第一矩阵以及根据图像偏置数据以及采集时间确定第二矩阵进行合并，得到对应的分量矩阵，实现了对多模数据的融合，能够使得视频帧处理模型的整个网络变得鲁棒。

首先，获取预设数据库中存储的视频帧以及对应的多模数据。通常，可以基于相机运动状态下的产生的多个视频帧中，选取任意两个视频帧，获取任意两个视频帧的图像数据以及对应的多模数据生成训练样本。每个训练样本包括初始视频帧以及当前视频帧分别对应的图像像素信息、行曝光时间、陀螺仪偏置数据以及图像采集时间等信息。本申请的一些实施例中，将每一个训练样本表示为一个二元组，包括<初始视频帧对应的图像像素信息、行曝光时间、陀螺仪偏置数据以及图像采集时间；当前视频帧对应的图像像素信息、行曝光时间、陀螺仪偏置数据以及图像采集时间>，进一步地，对训练样本进行数据处理，以得到数据类型为分量矩阵的二元组，<初始视频帧对应的第一分量矩阵，当前视频帧对应的第二分量矩阵>。

接下来，基于构建的训练样本集训练所述图像处理模型。以训练样本中的初始视频帧对应的第一分量矩阵以及当前视频帧对应的第二分量矩阵作为模型输入，以参照图像为模型目标，训练图像处理模型。

可选地，在本实施例中，图像处理模型包括编码模块以及解码模块，其中，将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧，包括但不限于：将第一分量矩阵以及第二分量矩阵输入至图像处理模型的编码模块中，以得到第一目标分量矩阵；将第一目标分量矩阵输入至图像处理模型的解码模块中，以得到目标视频帧。

具体地，如图3所示图像处理模型的结构示意图，本实施例中的图像处理模型30中包括依次设置的编码器310和解码器320，编码器310的输出端与解码器320的输入端连接。将第一分量矩阵A300以及第二分量矩阵B300输入至编码器310，以得到第一目标分量矩阵C300，将目标分量矩阵输入至解码器320中，以得到目标视频帧对应的分量矩阵，然后通过对目标视频帧对应的分量矩阵进行图像转换，以得到目标视频帧D300。

通过上述实施例，将第一分量矩阵以及第二分量矩阵输入编码模块中得到的第一目标分量矩阵；输入至编码模块中以得到目标视频帧，使得目标视频帧能够结合初始视频帧以及当前视频帧各种模态之间的相互关系，以提升对目标视频帧的增强效果。

可选地，在本实施例中，编码模块包括至少一个编码卷积层以及第一预设卷积层，至少一个编码卷积层与第一预设卷积层串联，其中，将第一分量矩阵以及第二分量矩阵输入至图像处理模型的编码模块中，以得到第一目标分量矩阵，包括但不限于：将第一分量矩阵以及第二分量矩阵输入至至少一个编码卷积层，以得到第一分量矩阵对应的第一输出，第二分量矩阵对应的第二输出；将第一输出以及第二输出输入至第一预设卷积层，以得到第一目标分量矩阵。

在一个例子中，如图4所示的编码模块示意图，本实施例中的编码模块40中包括2个编码卷积层410以及1个第一预设卷积层420，其中，编码卷积层410-1、编码卷积层410-2以及第一预设卷积层420串联，编码卷积层410-1的输出端与编码卷积层410-2的输入端连接，码卷积层410-2的输出端与第一预设卷积层420的输入端连接。将第一目标分量矩阵A40以及第二分量矩阵A42输入编码卷积层410-1以及编码卷积层410-2，以得到第一输出B40以及第二输出B42，将第一输出B40以及第二输出B42输入至第一预设卷积层420，以得到第一目标分量矩阵C40。

可选地，在本实施例中，编码卷积层包括与第一分量矩阵对应的第一偏置层、与第二分量矩阵对应的第二偏置层以及共享卷积层，其中，将第一分量矩阵以及第二分量矩阵输入至至少一个编码卷积层，包括但不限于：将第一分量矩阵输入至第一偏置层，以得到第三分量矩阵；将第二分量矩阵输入至第二偏置层，以得到第四分量矩阵；将第三分量矩阵以及第四分量矩阵分别输入至共享卷积层，以得到与第一输出，以及与第二输出。

具体地，在本实施例中，编码卷积层中包括三个通道，分别为卷积核权重、x分量偏置、y分量偏置。其中，通过基于不同的x分量偏置与y分量偏置，以及相同的卷积核权重分别对第一分量矩阵以及第二分量矩阵进行处理，以适应不同的抖动幅度和动态模糊motionblur影响范围。如图5所示，通过不同的X分量偏置以及y分量偏置对初始视频帧以及当前视频帧分别对应的分量矩阵索引进行偏置处理，然后基于相同的共享卷积核对初始视频帧以及当前视频帧的输入进行卷积处理，以得到初始视频帧对应的第一输出以及当前视频帧对应的第二输出。

进一步地，通过以下公式对分量矩阵索引进行偏置处理：

其中，在上述公式(1)中，S为标准卷积范围内的索引值，a_ij为对应索引的输入值，k_mn卷积核参数。

在一个例子中，如图6所示，编码卷积层60包括第一分量矩阵对应的第一偏置层610、与第二分量矩阵对应的第二偏置层620以及共享卷积层630，将第一分量矩阵A60输入至第一偏置层610，以得到第三分量矩阵B60，将第二分量矩阵A62输入至第二偏置层620，以得到第四分量矩阵B62。将第三分量矩阵B60以及第四分量矩阵B62输入至共享卷积层630，以得到第一分量矩阵A60对应的第一输出C60以及第二分量矩阵A62对应的第二输出C62。

可选地，在本实施例中，将第一输出以及第二输出输入至第一预设卷积层，以得到第一目标分量矩阵，包括但不限于：将第一输出以及第二输出分别输入至第一预设卷积层；通过第一预设卷积层分别对第一输出以及第二输出进行卷积操作，以得到第一目标分量矩阵。

具体地，在本实施例中，通过第一预设卷积层对进行x、y偏置处理后的初始视频帧以及当前视频帧的特征进行卷积，以得到初始视频帧以及当前视频帧的抽象的语义信息，该语音信息中包括多模数据以及视频帧图像之间的相互关系。

在一个例子中，仍以图4所示的编码模块为例进行说明，编码卷积层410-1以及编码卷积层410-2，以得到第一输出B40以及第二输出B42，将第一输出B40以及第二输出B42输入至第一预设卷积层420，以得到第一目标分量矩阵。

可选地，在本实施例中，解码模块包括串联的至少一个解码卷积层以及一个第二预设卷积层，其中，将第一目标分量矩阵输入至图像处理模型的解码模块中，以得到目标视频帧，包括但不限于：将第一目标分量矩阵输入至至少一个解码卷积层中，以得到第二目标分量矩阵；将第二目标分量矩阵输入至第二预设卷积层中，以得到目标视频帧。

具体地，在本实施例中，通过获取图像处理模型中编码模块输出的高层抽象的语义信息，在语义信息的基础上对应融合当前输入的编码信息进行解码，最终输出目标视频帧。

在一个例子中，如图7所示的解码模块70中，包括解码卷积层710-1、解码卷积层710-2以及一个第二预设卷积层720，解码卷积层710-1的输出端与解码卷积层710-2的输入端连接，解码卷积层710-2的输出端与一个第二预设卷积层720的输入端连接。将第一目标分量矩阵输入至解码卷积层710-1中，在第二预设卷积层720中输出目标视频帧。

可选地，在本实施例中，解码模块中的解码卷积层的数量与编码模块中编码卷积层的数量相同，且解码卷积层与编码卷积层的层级一一对应，其中，将第一目标分量矩阵输入至至少一个解码卷积层中，以得到第二目标分量矩阵，包括但不限于：获取当前解码卷积层对应的编码卷积层输出的第三输出以及第四输出；以及，获取与当前解码卷积层相邻的上一个解码卷积层的第五输出；根据第三输出、第四输出以及第五输出确定当前解码卷积层对应的第一输入；将第一输入输入至当前解码卷积层。

具体地，在一个例子中，如图8所示的图像处理模型中，包括编码模块80以及解码模块82，其中，编码模块80包括3个编码卷积层810以及1个第一预设卷积层820，解码模块82包括解码卷积层830-1、解码卷积层830-2、解码卷积层830-3以及1个第二预设卷积层840。其中，在每个编码卷积层中，包括第一偏置层8102、第二偏置层8104以及共享卷积层8106。以解码卷积层830-1与解码卷积层830-2为例进行说明，解码卷积层830-1对应的编码卷积层810中第三输出为分量矩阵A80，第四输出为分量矩阵A82，第一预设卷积层820的输出为第一目标分量矩阵B80，对分量矩阵A80、分量矩阵A82以及第一目标分量矩阵B80进行分量矩阵拼接或矩阵点加得到第一输入C80，将第一输入输入至解码卷积层830-1，得到分量矩阵B82。接下来对于解码卷积层830-2，则基于对应的编码卷积层810的第三输出为分量矩阵A84，第四输出为分量矩阵A86，则对分量矩阵A84、分量矩阵A86以及分量矩阵B82进行分量矩阵拼接或矩阵点加得到第一输入C82，将C82输入至解码卷积层830-2。

通过上述实施例，在高层的语义信息的基础上融入当前输入真的编码信息进行解码，最终输出目标图像帧，以实现对图像帧的图像增强，提升了图像增强效果。

可选地，在本实施例中，在将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中之前，还包括但不限于：采集参照图像以及预设数量的训练图像；获取参照图像以及预设数量的训练图像分别对应的多模数据；构建图像处理模型对应的参照数据以及训练数据集；基于损失函数、训练数据集以及参照数据对图像处理模型进行训练，以使图像处理模型的拟合度达到预设阈值；其中，损失函数如下所示：

其中，X_predict为网络输出图像，X_Target为参照图像，即标准防抖图，N为像素数量。

具体地，在一个例子中，如图9所示的图像处理模型训练场景，训练图像素材的采集可以将两台手机通过支架放在同一个地点，其中一台手机开启震动马达，震动马达的震动频率可适当变化以模拟真实抖动场景，而另一台手机保持静止充当训练参照图像，训练完毕后网络即可使用。训练所用到的损失函数如上述公式(2)。

在上述实施例中，通过构建图像处理模型对应的参照数据以及训练数据集；基于损失函数、训练数据集以及参照数据对图像处理模型进行训练，以实现对图像处理模型的快速训练，并有效降低图像处理模型的拟合度。

通过本申请实施例，获取初始视频帧以及当前视频帧；获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。通过多模数据实现对视频帧进行图像处理，综合了图像拍摄过程中的多种因素，实现了对视频帧的有效增强。进而解决了现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

需要说明的是，本申请实施例提供的视频帧处理方法，执行主体可以为视频帧处理装置，或者该视频帧处理装置中的用于执行加载视频帧处理方法的控制模块。本申请实施例中以视频帧处理装置执行加载视频帧处理方法为例，说明本申请实施例提供的视频帧处理方法。

根据本申请的另一方面，还提供了一种视频帧处理装置，如图10所示，该装置包括：

1)第一图像采集单元100，用于获取初始视频帧以及当前视频帧；

2)第一获取单元102，用于获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；

3)第一处理单元104，用于将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

可选地，在本实施例中，所述第一获取单元102包括：

1)获取模块，用于获取所述初始视频帧与所述当前视频帧分别对应的图像数据、行曝光时间、图像偏置数据以及采集时间；

2)确定模块，用于根据所述图像数据、所述行曝光时间、所述图像偏置数据以及所述采集时间，确定所述初始视频帧对应的第一分量矩阵以及所述当前视频帧对应的第二分量矩阵。

可选地，在本实施例中，所述确定模块包括：

1)转换子模块，用于在根据所述图像数据、所述行曝光时间、所述图像偏置数据以及所述采集时间，确定所述初始视频帧对应的第一分量矩阵以及所述当前视频帧对应的第二分量矩阵之前，对所述图像数据进行BGR转换，以得到所述图像数据对应的图像矩阵；

2)第一确定子模块，用于根据所述图像矩阵以及所述行曝光时间确定第一矩阵；

3)第二确定子模块，用于根据所述图像偏置数据以及所述采集时间确定第二矩阵；

4)第一处理子模块，用于对所述第一矩阵以及所述第二矩阵进行合并，以得到所述第一分量矩阵以及第二分量矩阵。

可选地，在本实施例中，所述图像处理模型包括编码模块以及解码模块，其中，所述第一处理单元104包括：

1)第一处理模块，用于将所述第一分量矩阵以及所述第二分量矩阵输入至所述图像处理模型的编码模块中，以得到第一目标分量矩阵；

2)第二处理模块，用于将所述第一目标分量矩阵输入至所述图像处理模型的解码模块中，以得到所述目标视频帧。

可选地，在本实施例中，所述编码模块包括至少一个编码卷积层以及第一预设卷积层，所述至少一个编码卷积层与所述第一预设卷积层串联，其中，所述第一处理模块包括：

1)第二处理子模块，用于将所述第一分量矩阵以及所述第二分量矩阵输入至所述至少一个编码卷积层，以得到所述第一分量矩阵对应的第一输出，所述第二分量矩阵对应的第二输出；

2)第三处理子模块，用于将所述第一输出以及所述第二输出输入至所述第一预设卷积层，以得到所述第一目标分量矩阵。

可选地，在本实施例中，所述编码卷积层包括与所述第一分量矩阵对应的第一偏置层、与所述第二分量矩阵对应的第二偏置层以及共享卷积层，其中，所述第二处理子模块还用于：

S1，将所述第一分量矩阵输入至所述第一偏置层，以得到第三分量矩阵；

S2，将所述第二分量矩阵输入至所述第二偏置层，以得到第四分量矩阵；

S3，将所述第三输出以及所述第四输出分别输入至所述共享卷积层，以得到与所述第一输出，以及与所述第二输出。

可选地，在本实施例中，所述第三处理子模块还用于：

S1，将所述第一输出以及所述第二输出分别输入至所述第一预设卷积层；

S2，通过所述第一预设卷积层分别对所述第一输出以及所述第二输出进行卷积操作，以得到所述第一目标分量矩阵。

可选地，在本实施例中，所述解码模块包括串联的至少一个解码卷积层以及一个第二预设卷积层，其中，所述第二处理模块包括：

1)第四处理子模块，用于将所述第一目标分量矩阵输入至所述至少一个解码卷积层中，以得到第二目标分量矩阵；

2)第五处理子模块，用于将所述第二目标分量矩阵输入至所述第二预设卷积层中，以得到所述目标视频帧。

可选地，在本实施例中，所述解码模块中的解码卷积层的数量与所述编码模块中编码卷积层的数量相同，且所述解码卷积层与所述编码卷积层的层级一一对应，其中，所述第四处理子模块还用于：

S1，获取当前解码卷积层对应的编码卷积层输出的第三输出以及第四输出；以及，

S2，获取与所述当前解码卷积层相邻的上一个解码卷积层的第五输出；

S3，根据所述第三输出、所述第四输出以及所述第五输出确定所述当前解码卷积层对应的第一输入；

S4，将所述第一输入输入至所述当前解码卷积层。

可选地，在本实施例中，还包括：

1)第二图像采集单元，用于在将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中之前，采集训练图像以及预设数量的参照图像；

2)第二获取单元，用于获取所述参照图像以及所述预设数量的训练图像分别对应的多模数据；

3)第二处理单元，用于构建所述图像处理模型对应的参照数据以及训练数据集；

4)训练单元，用于基于损失函数、所述训练数据集以及所述参照数据对所述图像处理模型进行训练，以使所述图像处理模型的拟合度达到预设阈值；

其中，损失函数如下所示：

其中，X_predict为所述图像处理模型的输出图像，X_Target为所述参照图像，N为像素数量。

本申请实施例中的视频帧处理装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频帧处理装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为ios操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的视频帧处理装置能够实现图1至图10的方法实施例中视频帧处理装置实现的各个过程，为避免重复，这里不再赘述。

通过本申请实施例提出的视频帧处理装置，获取初始视频帧以及当前视频帧；获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。通过多模数据实现对视频帧进行图像处理，综合了图像拍摄过程中的多种因素，实现了对视频帧的有效增强。进而解决了现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

可选的，本申请实施例还提供一种电子设备，包括处理器1110，存储器1109，存储在存储器1109上并可在所述处理器1110上运行的程序或指令，该程序或指令被处理器1110执行时实现上述视频帧处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图11为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、以及处理器1110等部件。

本领域技术人员可以理解，电子设备1100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器1110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图11中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元1104，在本申请实施例中为摄像头，用于采集初始视频帧以及当前视频帧；

传感器1105，用于获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；

处理器1110，用于将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

应理解的是，本申请实施例中，输入单元1104可以包括图形处理器(GraphicsProcessing Unit，GPU)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071，也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器1109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作***。处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

通过本申请实施例中的电子设备，获取初始视频帧以及当前视频帧；获取初始视频帧对应的第一多模数据以及当前视频帧对应的第二多模数据；将初始视频帧、当前视频帧、第一多模数据以及第二多模数据输入至预先训练得到的图像处理模型中，以得到当前视频帧对应的目标视频帧。通过多模数据实现对视频帧进行图像处理，综合了图像拍摄过程中的多种因素，实现了对视频帧的有效增强。进而解决了现有技术中由于相机拍摄过程中的电子防抖需要人为过多的干预和调整，而导致图像增强效果差的问题。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频帧处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频帧处理方法的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频帧处理方法，其特征在于，所述方法包括：

获取初始视频帧以及当前视频帧；

获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；

将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

2.根据权利要求1所述的方法，其特征在于，获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据，包括：

获取所述初始视频帧与所述当前视频帧分别对应的图像数据、行曝光时间、图像偏置数据以及采集时间；

根据所述图像数据、所述行曝光时间、所述图像偏置数据以及所述采集时间，确定所述初始视频帧对应的第一分量矩阵以及所述当前视频帧对应的第二分量矩阵。

3.根据权利要求2所述的方法，其特征在于，根据所述图像数据、所述行曝光时间、所述图像偏置数据以及所述采集时间，确定所述初始视频帧对应的第一分量矩阵以及所述当前视频帧对应的第二分量矩阵，包括：

对所述图像数据进行BGR转换，以得到所述图像数据对应的图像矩阵；

根据所述图像矩阵以及所述行曝光时间确定第一矩阵；

根据所述图像偏置数据以及所述采集时间确定第二矩阵；

对所述第一矩阵以及所述第二矩阵进行合并，以得到所述第一分量矩阵以及第二分量矩阵。

4.根据权利要求2所述的方法，其特征在于，所述图像处理模型包括编码模块以及解码模块，其中，

将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧，包括：

将所述第一分量矩阵以及所述第二分量矩阵输入至所述图像处理模型的编码模块中，以得到第一目标分量矩阵；

将所述第一目标分量矩阵输入至所述图像处理模型的解码模块中，以得到所述目标视频帧。

5.根据权利要求4所述的方法，其特征在于，所述编码模块包括至少一个编码卷积层以及第一预设卷积层，所述至少一个编码卷积层与所述第一预设卷积层串联，其中，

将所述第一分量矩阵以及所述第二分量矩阵输入至所述图像处理模型的编码模块中，以得到所述第一目标分量矩阵，包括：

将所述第一分量矩阵以及所述第二分量矩阵输入至所述至少一个编码卷积层，以得到所述第一分量矩阵对应的第一输出，所述第二分量矩阵对应的第二输出；

将所述第一输出以及所述第二输出输入至所述第一预设卷积层，以得到所述第一目标分量矩阵。

6.根据权利要求5所述的方法，其特征在于，所述编码卷积层包括与所述第一分量矩阵对应的第一偏置层、与所述第二分量矩阵对应的第二偏置层以及共享卷积层，其中，

将所述第一分量矩阵以及所述第二分量矩阵输入至所述至少一个编码卷积层，包括：

将所述第一分量矩阵输入至所述第一偏置层，以得到第三分量矩阵；

将所述第二分量矩阵输入至所述第二偏置层，以得到第四分量矩阵；

将所述第三输出以及所述第四输出分别输入至所述共享卷积层，以得到与所述第一输出，以及与所述第二输出。

7.根据权利要求5所述的方法，其特征在于，将所述第一输出以及所述第二输出输入至所述第一预设卷积层，以得到所述第一目标分量矩阵，包括：

将所述第一输出以及所述第二输出分别输入至所述第一预设卷积层；

通过所述第一预设卷积层分别对所述第一输出以及所述第二输出进行卷积操作，以得到所述第一目标分量矩阵。

8.根据权利要求4所述的方法，其特征在于，所述解码模块包括串联的至少一个解码卷积层以及一个第二预设卷积层，其中，

将所述第一目标分量矩阵输入至所述图像处理模型的解码模块中，以得到所述目标视频帧，包括：

将所述第一目标分量矩阵输入至所述至少一个解码卷积层中，以得到第二目标分量矩阵；

将所述第二目标分量矩阵输入至所述第二预设卷积层中，以得到所述目标视频帧。

9.根据权利要求8所述的方法，其特征在于，所述解码模块中的解码卷积层的数量与所述编码模块中编码卷积层的数量相同，且所述解码卷积层与所述编码卷积层的层级一一对应，其中，

将所述第一目标分量矩阵输入至所述至少一个解码卷积层中，以得到第二目标分量矩阵，包括：

获取当前解码卷积层对应的编码卷积层输出的第三输出以及第四输出；以及，

获取与所述当前解码卷积层相邻的上一个解码卷积层的第五输出；

根据所述第三输出、所述第四输出以及所述第五输出确定所述当前解码卷积层对应的第一输入；

将所述第一输入输入至所述当前解码卷积层。

10.根据权利要求1所述的方法，其特征在于，在将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中之前，还包括：

采集参照图像以及预设数量的训练图像；

获取所述参照图像以及所述预设数量的训练图像分别对应的多模数据；

构建所述图像处理模型对应的参照数据以及训练数据集；

基于损失函数、所述训练数据集以及所述参照数据对所述图像处理模型进行训练，以使所述图像处理模型的拟合度达到预设阈值；

其中，损失函数如下所示：

11.一种视频帧处理装置，其特征在于，所述装置包括：

第一图像采集单元，用于获取初始视频帧以及当前视频帧；

第一获取单元，用于获取所述初始视频帧对应的第一多模数据以及所述当前视频帧对应的第二多模数据；

第一处理单元，用于将所述初始视频帧、所述当前视频帧、所述第一多模数据以及所述第二多模数据输入至预先训练得到的图像处理模型中，以得到所述当前视频帧对应的目标视频帧。

12.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-10中任一项所述的视频帧处理方法的步骤。

13.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-10中任一项所述的视频帧处理方法的步骤。