CN108805898B

CN108805898B - 视频图像处理方法和装置

Info

Publication number: CN108805898B
Application number: CN201810551722.4A
Authority: CN
Inventors: 吴兴龙
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Douyin Vision Co Ltd; Beijing Volcano Engine Technology Co Ltd; Douyin Vision Beijing Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2020-10-16
Anticipated expiration: 2038-05-31
Also published as: CN108805898A

Abstract

本申请提供了一种视频图像处理方法和装置，其中，上述方法包括如下步骤：获取当前帧视频图像；对当前帧视频图像进行图像分割，获得当前帧视频图像对应的第一掩膜图像；根据当前帧视频图像和上一帧视频图像确定当前帧视频图像的历史运动信息，并根据上一帧视频图像对应的第二掩膜图像和历史运动信息，获得当前帧视频图像对应的第三掩膜图像；根据历史运动信息计算获得融合权重，并根据融合权重对第一掩膜图像和第三掩膜图像进行加权融合，获得当前帧视频图像的融合掩膜图像。上述视频图像处理方法和装置，可以避免抖动及延迟问题，提高视频的稳定性和流畅性，提高运动跟踪的准确性。

Description

视频图像处理方法和装置

技术领域

本申请涉及计算机视觉技术领域，特别是涉及一种视频图像处理方法和装置。

背景技术

随着各种视频软件应用的普及和发展，各种视频处理算法广泛地应用于各种视频图像的处理。其中，视频分割技术作为一种基础的视频处理手段，也得到了广泛的应用。

传统的视频分割技术通常采用图像分割的方法，即每张图像得到一个分割的掩膜。但由于图像前后帧可能不一致，这种分割方法往往会产生明显的抖动，导致视频的稳定性较差。

发明内容

基于此，有必要针对上述技术问题，提供一种视频图像处理方法和装置，以提高视频的稳定性及流畅性。

一种视频图像处理方法，所述方法包括如下步骤：

获取当前帧视频图像；

采用卷积神经网络对所述当前帧视频图像进行图像分割，获得所述当前帧视频图像对应的第一掩膜图像；

根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息，并根据所述上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的历史运动信息，获得所述当前帧视频图像对应的第三掩膜图像；

根据所述当前帧视频图像的历史运动信息计算获得融合权重，并根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像。

在一个实施例中，所述的根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息的步骤包括：

根据所述当前帧视频图像和所述当前视频图像的上一帧视频图像确定所述当前帧视频图像的光流信息，其中，所述光流信息用于表征所述当前帧视频图像的历史运动信息，所述光流信息包括所述当前帧视频图像中每个像素的水平像素偏移量和垂直像素偏移量。

在一个实施例中，所述的根据所述上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的历史运动信息获得所述当前帧视频图像对应的第三掩膜图像的步骤包括：

分别将所述当前帧视频图像的每个像素的水平像素偏移量与所述第二掩膜图像的水平像素进行叠加，计算获得所述第三掩膜图像的水平像素；

分别将所述当前帧视频图像的每个像素的垂直像素偏移量和所述第二掩膜图像的垂直像素进行叠加，计算获得所述第三掩膜图像的垂直像素。

在一个实施例中，所述的根据所述当前帧视频图像的历史运动信息计算获得融合权重的步骤包括：

根据所述当前帧视频图像的光流信息、预设的第一参数和第二参数计算获得第一参考值；

将所述第一参考值和预设的第二参考值进行比较，将所述第一参考值和所述第二参考值中的最小值作为所述融合权重；

其中，所述第一参数和所述第二参数为常量，所述第一参考值和所述第二参考值均大于零，且小于1。

在一个实施例中，根据所述当前帧视频图像的光流信息、预设的第一参数和第二参数计算获得第一参考值的步骤包括：

将自然常数e作为底数，将所述当前帧视频图像的光流信息和所述预设的第一参数的乘积作为指数进行指数运算，获得第三参数；

根据所述第三参数和预设的所述第二参数计算获得所述第一参考值。

在一个实施例中，所述第二参考值的取值范围为[0.8,0.95]，所述第一参数的取值范围为[4,6]，所述第二参数的取值范围为[0.6,0.9]。

在一个实施例中，所述的根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像的步骤包括：

将所述融合权重作为所述第一掩膜图像对应的第一权重，将预设总权重与所述融合权重之差作为所述第三掩膜图像对应的第二权重，根据所述第一权重和所述第二权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合。

在一个实施例中，本发明还提供了一种视频图像处理装置，所述装置包括：

获取模块，用于获取当前帧视频图像；

第一分割模块，用于对所述当前帧视频图像进行图像分割，获得所述当前帧视频图像对应的第一掩膜图像；

平滑模块，用于根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息，并根据所述上一帧视频图像对应的第二掩膜图像和所述历史运动信息获得所述当前帧视频图像对应的第三掩膜图像；

融合模块，用于根据所述当前帧视频图像的历史运动信息计算获得融合权重，并根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像。

在一个实施例中，本发明还提供了一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

此外，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述视频图像处理方法和装置，通过对当前视频图像进行分割，获得当前帧视频图像的第一掩膜图像，根据上一帧视频图像对应的第二掩膜图像和当前帧视频图像的历史运动信息获得当前帧视频图像对应的第三掩膜图像，并根据当前帧视频图像的历史运动信息计算获得当前帧视频图像中各个像素的融合权重，从而根据该融合权重对第一掩膜图像和第三掩膜图像进行融合，获得当前帧视频图像的融合掩膜图像。本申请的视频图像处理方法和装置，通过当前帧视频图像的历史运动信息计算获得融合权重，并将第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。同时，通过采用视频图像分割及融合方法，可以准确的识别出视频图像中的特定特征，从而可以提高特定特征的运动跟踪的准确性。

附图说明

图1为一实施例中视频图像处理方法的应用场景图；

图2为一个实施例中视频图像处理方法的流程示意图；

图3为一个实施例中根据历史运动信息获得当前帧视频图像对应的第三掩膜图像步骤的流程示意图；

图4为一个实施例中的根据第二掩膜图像和历史运动信息获得当前帧视频图像对应的第三掩膜图像的流程示意图；

图5为一个实施例中根据计算获得的融合权重对第一掩膜图像和第三掩膜图像进行加权融合的步骤；

图6为一个实施例中视频图像处理装置的结构框图；

图7为另一实施例中视频图像处理装置的结构框图；

图8为一个实施例中电子设备的内部结构图；

图9为一个实施例中采用卷积神经网络对图像进行分割前后的图像示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的视频图像处理方法，可以应用于如图1所示的应用环境中。其中，终端101通过网络与服务器102通过网络进行通信。具体地，该视频图像处理方法可以应用于上述服务器102上，或者终端101上(如应用于终端101上安装的视频软件应用中)。其中，终端101可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器102可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面以上述方法应用于终端101上安装的视频软件应用时举例说明：

例如，终端101上的视频软件可以通过网络从服务器102获取某一视频文件进行播放，在该视频文件的过程中，该终端可以实时获取当前帧的视频图像，并通过对当前帧视频图像进行视频图像进行图像分割，获得当前视频帧图像对应的第一掩膜图像，并对应存储第一掩膜图像。同时，终端可以根据当前帧视频图像和当前帧视频图像的上一帧视频图像确定当前帧视频图像的历史运动信息，例如，该当前帧视频图像的历史运动信息可以是光流信息。之后，终端可以根据上一帧视频图像对应的第二掩膜图像和当前帧视频图像的历史运动信息，获得当前帧视频图像的第三掩膜图像。

进一步地，该终端还可以根据当前帧视频图像的历史运动信息计算获得融合权重，并根据融合权重对第一掩膜图像和第三掩膜图像进行加权融合，获得当前帧视频图像的融合掩膜图像，从而实现当前帧视频图像的图像分割。本申请实施例中的视频图像处理方法，通过当前帧视频图像的历史运动信息计算获得融合权重，并将第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。同时，通过采用视频图像分割及融合方法，可以准确的识别出视频图像中的特定特征，从而可以提高特定特征的运动跟踪的准确性。

在一个实施例中，如图2所示，本申请实施例的视频图像处理方法，用于对视频图像进行分割及融合，以提高视频的稳定性和流畅性。上述方法包括如下步骤：

S100、获取当前帧视频图像；具体地，该当前帧视频图像可以是正在播放的视频文件的当前帧。进一步地，该视频文件可以是存储于终端上的存储器内的离线视频文件，也可以是终端从服务器获取的在线视频文件。例如，视频文件可以是终端(如手机)从服务器获取的在线视频文件，此时，当用户通过手机上的视频软件请求播放指定视频文件时，终端可以通过网络将该视频播放请求传送至服务器，服务器可以返回指定视频文件的播放地址等，从而可以在手机上播放该指定的视频文件。在视频文件的播放过程中，终端可以实时获取当前该指定视频文件的当前帧视频图像。

S200、对当前帧视频图像进行图像分割，获得当前帧视频图像对应的第一掩膜图像；具体地，可以采用卷积神经网络对当前帧视频图像进行图像分割。进一步地，本申请实施例中卷积神经网络可以采用传统的CNN(Convolutional Neural Networks，卷积神经网络)，即为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入用于训练和预测。可选地，采用卷积神经网络的对当前帧视频图像进行图像分割的过程为，首先通过该卷积神经网络识别出当前图像中的各个对象，并对识别出的对象进行分类，最后通过对目标对象的边缘进行检测及池化等一系列操作，获得目标对象的掩膜图像，从而将目标对象与当前帧视频图像中的其他对象区分开。可选地，本申请实施例中的卷积神经网络还可以采用FCN(Fully Convolutional Networks，全卷积神经网络)。当前帧视频图像的图像分割前及图像分割后获得第一掩膜图像可参见图9所示。

S300、根据当前帧视频图像和当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息，并根据上一帧视频图像对应的第二掩膜图像和当前帧视频图像的历史运动信息，获得当前帧视频图像对应的第三掩膜图像。具体地，本申请实施例中上一视频图像对应的第二掩膜图像可以是根据卷积神经网络计算获得的掩膜图像，也可以是卷积神经网络计算获得的掩膜图像及历史运动信息获得的掩膜图像相互融合之后获得融合掩膜图像。进一步地，上述当前帧视频图像的历史运动信息用于表示当前帧视频图像和上一帧视频图像的差异，即用于表征当前帧视频图像中各个像素的偏移量，从而通过当前帧视频图像的历史运动信息和上一帧视频图像对应的第二掩膜图像结合的方式，可以避免前后帧视频图像不一致的问题，进而避免图像的抖动问题。可选地，上述历史运动信息可采用光流信息进行表示。

S400、根据当前帧视频图像的历史运动信息计算获得融合权重，并根据融合权重对第一掩膜图像和第三掩膜图像进行融合，获得当前帧视频图像的融合掩膜图像。可选地，可以根据融合权重确定第一掩膜图像对应的第一权重及第三掩膜图像对应的第二权重，从而可以根据第一权重、第二权重对第一掩膜图像和第三掩膜图像进行加权融合，计算获得当前帧视频图像的融合掩膜图像，从而实现当前帧视频图像的图像分割。

本申请实施例中的视频图像处理方法，通过当前帧视频图像的历史运动信息计算获得融合权重，并将第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。同时，通过采用视频图像分割及融合方法，可以准确的识别出视频图像中的特定特征，从而可以提高特定特征的运动跟踪的准确性。

在一个实施例中，如图3所示，上述步骤S300可以包括：

S310、根据当前帧视频图像和当前视频图像的上一帧视频图像确定当前帧视频图像的光流信息，其中，光流信息用于表征当前帧视频图像的历史运动信息，当前帧视频图像的光流信息包括当前帧视频图像中每个像素的水平像素偏移量和垂直像素偏移量。具体地，光流信息用于表征当前帧视频图像与上一帧视频图像之间存在的对应关系，即本申请实施例中的当前帧视频图像的历史运动信息采用光流法计算获得。其中，光流是空间运动物体在观测成像平面上的像素运动的“瞬时速度”。光流法是指利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性，找到当前帧视频图像与上一帧视频图像之间存在的对应关系，并计算相邻帧之间物体的运动信息的方法。上述的水平像素偏移量可以是像素的水平运动速度值，上述的垂直像素偏移量可以是像素的垂直运动速度值。可选地，本申请实施例中可以采用稀疏光流法或稠密光流法。本申请实施例中，可以采用Opencv(OpenCV是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS操作***上)提供的接口calcOpticalFlowFarneback计算获得光流信息。

S320、根据上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的光流信息，获得当前帧视频图像对应的第三掩膜图像。即利用图像中像素的历史运动信息获得当前帧视频图像对应的第三掩膜图像，通过考虑图像中像素的动态运动特性，可以避免前后帧不一致导致的视频抖动问题。

在一个实施例中，如图4所示，上述步骤S320还可以包括：

S321、分别将当前帧视频图像的每个像素的水平像素偏移量与第二掩膜图像的水平像素进行叠加，计算获得第三掩膜图像的水平像素；

S322、分别将当前帧视频图像的每个像素的垂直像素偏移量和第二掩膜图像的垂直像素进行叠加，计算获得第三掩膜图像的垂直像素。

具体地，第三掩膜图像M_t2(i，j)＝M_t-1(i+F(i，j，0)，j+F(i，j，1))，其中，M_t2(i，j)表示当前帧视频图像对应的第三掩膜图像的像素，M_t-1(i，j)表示上一帧视频图像对应的第二掩膜图像的像素，F(i,j,0)表示像素的水平像素偏移量，F(i,j,1)表示像素的垂直像素偏移量，i表示水平像素，j表示垂直像素。

在一个实施例中，如图5所示，上述步骤S400可以包括：

S410、根据当前帧视频图像的光流信息、预设的第一参数和第二参数计算获得第一参考值；具体地，首先根据各个像素的水平像素偏移量和垂直像素偏移量，获得当前帧视频图像的光流信息，之后，再根据当前帧视频图像的光流信息、预设的第一参数和第二参数极端获得第一参考值。可选地，当前帧视频图像的光流信息F(i,j)＝F(i,j,0)*F(i,j,0)+F(i,j,1)*F(i,j,1)，其中，F(i,j,0)表示当前像素的水平像素偏移量，F(i,j,1)表示当前像素的垂直像素偏移量，i表示水平像素，j表示垂直像素。上述的水平像素偏移量可以是像素的水平运动速度值，上述的垂直像素偏移量可以是像素的垂直运动速度值。

进一步地，可以根据当前帧视频图像的光流信息以及所述第一参数进行乘法运算获得两者的乘积，之后，将自然常数e作为底数，将该乘积作为指数进行指数运算获得第三参数，并根据该第三参数和预设的第二参数计算获得第一参考值。更进一步地，将该指数运算结果的倒数和预设的第二参数进行乘法运算计算获得第一参考值。

S420、将第一参考值和预设的第二参考值进行比较，将第一参考值和第二参考值中的最小值作为当前像素的融合权重，其中，第一参数和第二参数为常量，第一参考值和第二参考值均大于零，且小于1。本申请实施例中的视频图像处理方法，通过历史运动信息计算获得融合权重，并使用该融合权重对第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。同时，通过采用视频图像分割及融合方法，可以准确的识别出视频图像中的特定特征，从而可以提高特定特征的运动跟踪的准确性。

可选地，融合权重W(i，j)＝min(r1，1-1/e^((r2*F(i，j)))*r3)，r1表示第二参考值，r2表示第一参数，r3表示第二参数,(1-1/e^((r2*F(i，j)))*r3)表示第一参考值，其中，F(i,j)表示光流信息，即像素的运动速度。进一步地，第二参考值的取值范围可以为[0.8,0.95]，第一参数的取值范围可以为[4,6]，第二参数的取值范围可以为[0.6,0.9]。

在一个实施例中，上述步骤S400还可以包括：

将融合权重作为第一掩膜图像对应的第一权重，将预设总权重与融合权重之差作为第三掩膜图像对应的第二权重，根据第一权重和第二权重对第一掩膜图像和第三掩膜图像进行加权融合。具体地，第一权重等于融合权重W(i,j)，第二权重为(1-W(i,j))。

此时，融合掩膜图像M(i，j)＝W(i，j)*M_t1(i，j)+(1-W(i，j))*M_t2(i，j)，其中，M_t1(i，j)表示当前帧视频图像对应的第一掩膜图像；M_t2(i，j)表示当前帧视频图像对应的第三掩膜图像。

例如，当第二参考值r1＝0.9，第一参数r2＝5，第二参数r3＝0.8时，第一参考值为(1-1/e^((r2*F(i，j)))*r3)，此时，需要比较第一参考值是否小于第二参考值0.9，若第一参考值小于0.9，则将第一参考值作为融合权重，并根据上述的加权计算方式计算获得融合掩膜图像。

若第一参考值大于0.9，则将第二参考值作为融合权重，并根据上述的加权计算方式计算获得融合掩膜图像。此时，第一掩膜图像对应的第一权重为0.9，第三掩膜图像对应的第二权重为0.1，融合掩膜图像M(i,j)＝0.9*M_t1(i,j)+0.1*M_t2(i,j)。

当第二参考值r1＝1，第二参数r3＝0时，第一参考值1-1/e^((r2*F(i，j)))*r3等于1，此时，融合权重W(i,j)等于1，此时，融合掩膜图像即为第一掩膜图像，相当于对卷积计算获得第一掩膜图像不做平滑处理。

当第二参考值r1＝0.5，第一参数r2＝0，第二参数r3＝0.5时，第一参考值1-1/e^((r2*F(i，j)))*r3等于0.5，此时，融合权重W(i,j)等于0.5，融合掩膜图像M(i，j)＝0.5*M_t1(i，j)+0.5*M_t2(i，j)，相当于平均平滑。

应该理解的是，虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，本申请实施例还提供了一种视频图像处理装置，装置包括获取模块100、第一分割模块200、平滑模块300以及融合模块400。其中，获取模块100用于获取当前帧视频图像；第一分割模块200用于对当前帧视频图像进行图像分割，获得当前帧视频图像对应的第一掩膜图像；具体地，本申请实施例中卷积神经网络可以采用传统的CNN(Convolutional Neural Networks，卷积神经网络)，即为了对一个像素分类，使用该像素周围的一个图像块作为CNN的输入用于训练和预测，具体实现方式可参见传统CNN实现图像分割的方法。可选地，本申请实施例中的卷积神经网络还可以采用FCN(FullyConvolutional Networks，全卷积神经网络)。当前帧视频图像的图像分割前及图像分割后获得第一掩膜图像可参见图9所示。

平滑模块300用于根据当前帧视频图像和当前帧视频图像的上一帧视频图像确定当前帧视频图像的历史运动信息，并根据上一帧视频图像对应的第二掩膜图像和当前帧视频图像的历史运动信息获得当前帧视频图像对应的第三掩膜图像；具体地，本申请实施例中上一视频图像对应的第二掩膜图像可以是根据卷积神经网络计算获得的掩膜图像，也可以是卷积神经网络计算获得的掩膜图像及历史运动信息获得的掩膜图像相互融合之后获得融合掩膜图像。进一步地，上述当前帧视频图像的历史运动信息用于表示当前帧视频图像和上一帧视频图像的差异，从而通过当前帧视频图像的历史运动信息和上一帧视频图像对应的第二掩膜图像结合的方式，可以避免前后帧视频图像不一致的问题，进而避免图像的抖动问题。可选地，上述历史运动信息可采用光流信息进行表示。

融合模块400用于根据历史运动信息计算获得融合权重，并根据融合权重对第一掩膜图像和第三掩膜图像进行融合，获得当前帧视频图像的融合掩膜图像。本申请实施例中，可以根据融合权重确定第一掩膜图像对应的第一权重，及第三掩膜图像对应的第二权重，从而可以根据第一权重、第二权重对第一掩膜图像和第三掩膜图像进行加权融合，计算获得当前帧视频图像的融合掩膜图像，从而实现当前帧视频图像的图像分割。

本申请实施例中的视频图像处理装置，通过当前帧视频图像的历史运动信息计算获得融合权重，并将第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。同时，通过采用视频图像分割及融合方法，可以准确的识别出视频图像中的特定特征，从而可以提高特定特征的运动跟踪的准确性。

在一个实施例中，如图7所示，上述平滑模块300可以包括速度计算单元310和平滑单元320。其中，速度计算单元310用于根据所述当前帧视频图像和所述当前视频图像的上一帧视频图像计算获得光流信息，其中，所述光流信息用于表征所述当前帧视频图像的历史运动信息，所述光流信息包括所述当前帧视频图像中每个像素的水平像素偏移量和垂直像素偏移量。

在一个实施例中，平滑单元320用于分别将所述当前帧视频图像的每个像素的水平像素偏移量与所述第二掩膜图像的水平像素进行叠加，计算获得所述第三掩膜图像的水平像素；分别将所述当前帧视频图像的每个像素的垂直像素偏移量和所述第二掩膜图像的垂直像素进行叠加，计算获得所述第三掩膜图像的垂直像素。

在一个实施例中，如图7所示，所述融合模块400还包括权重计算单元410和融合单元420。其中，权重计算单元410用于根据所述光流信息、预设的第一参数和第二参数计算获得第一参考值；将所述第一参考值和预设的第二参考值进行比较，将所述第一参考值和所述第二参考值中的最小值作为融合权重，其中，所述第一参数和所述第二参数为常量，所述第一参考值和所述第二参考值均大于零，且小于1。融合单元420用于将所述融合权重作为所述第一掩膜图像对应的第一权重，将预设总权重与所述融合权重之差作为所述第三掩膜图像对应的第二权重，根据所述第一权重和所述第二权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合。

在一个实施例中，权重计算单元410具体用于将自然常数e作为底数，将所述当前帧视频图像的光流信息和所述预设的第一参数的乘积作为指数进行指数运算，获得第三参数；

可选地，融合权重W(i，j)＝min(r1，1-1/e^((r2*F(i，j)))*r3)；

其中，r1表示所述第二参考值，r2表示所述第一参数，r3表示所述第二参数，(1-1/e^((r2*F(i，j)))*r3)表示第一参考值，F(i,j)表示光流信息。

关于视频图像处理装置的具体限定可以参见上文中对于视频图像处理方法的限定，在此不再赘述。上述视频图像处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备，该电子设备可以是终端，其内部结构图可以如图8所示。该电子设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频处理方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

具体地，上述电子设备可以包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取当前帧视频图像；

对所述当前帧视频图像进行图像分割，获得所述当前帧视频图像对应的第一掩膜图像；

根据所述当前帧视频图像的历史运动信息计算获得融合权重，并根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行融合，获得所述当前帧视频图像的融合掩膜图像。

在一个实施例中，当处理器执行所述的根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息的步骤时，具体执行如下步骤：

在一个实施例中，当处理器执行所述的根据所述上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的历史运动信息获得所述当前帧视频图像对应的第三掩膜图像的步骤时，具体执行如下步骤：

在一个实施例中，当处理器执行所述的根据所述当前帧视频图像的历史运动信息计算获得融合权重的步骤时，具体执行如下步骤：

根据所述光流信息、预设的第一参数和第二参数计算获得第一参考值；

将所述第一参考值和预设的第二参考值进行比较，将所述第一参考值和所述第二参考值中的最小值作为所述融合权重，其中，所述第一参数和所述第二参数为常量，所述第一参考值和所述第二参考值均大于零，且小于1。

在一个实施例中，融合权重W(i，j)＝min(r1，1-1/e^((r2*F(i，j)))*r3)；

其中，r1表示所述第二参考值，r2表示所述第一参数，r3表示所述第二参数，(1-1/e^((r2*F(i，j)))*r3)表示第一参考值；F(i,j)表示光流信息。

在一个实施例中，当处理器执行所述的根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像的步骤时，具体执行如下步骤：

应当清楚的是，本申请实施例中电子设备实现视频图像分割及平滑处理的过程，与上述视频图像处理方法的执行过程一致，具体可参见上文中的描述。

此外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下步骤：

获取当前帧视频图像；

在一个实施例中，计算机程序被处理器执行以实现根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息的步骤时，具体实现如下步骤：

在一个实施例中，计算机程序被处理器执行以实现根据所述上一帧视频图像对应的第二掩膜图像和所述历史运动信息获得所述当前帧视频图像对应的第三掩膜图像的步骤时，具体实现如下步骤：

在一个实施例中，计算机程序被处理器执行以实现根据所述历史运动信息计算获得融合权重的步骤时，具体实现如下步骤：

在一个实施例中，计算机程序被处理器执行以实现根据所述当前帧视频图像的光流信息、预设的第一参数和第二参数计算获得第一参考值时，具体实现如下步骤：

在一个实施例中，计算机程序被处理器执行以实现根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像的步骤时，具体实现如下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述视频图像处理方法和装置，通过对当前视频图像进行分割，获得当前帧视频图像的第一掩膜图像，根据上一帧视频图像对应的第二掩膜图像和当前帧视频图像的历史运动信息获得当前帧视频图像对应的第三掩膜图像，并根据当前帧视频图像的历史运动信息计算获得当前帧视频图像中各个像素的融合权重，从而根据该融合权重对第一掩膜图像和第三掩膜图像进行融合，获得当前帧视频图像的融合掩膜图像。本申请的视频图像处理方法和装置，通过当前帧视频图像的历史运动信息计算获得融合权重，并将第一掩膜图像和第三掩膜图像进行融合，可以避免视频图像前后帧不一致的现象导致的抖动问题及延迟问题，提高了视频的稳定性和流畅性。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种视频图像处理方法，其特征在于，所述方法包括如下步骤：

获取当前帧视频图像；

根据所述当前帧视频图像的历史运动信息计算获得融合权重，并根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行融合，获得所述当前帧视频图像的融合掩膜图像；

其中，所述的根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述的根据所述上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的历史运动信息获得所述当前帧视频图像对应的第三掩膜图像的步骤包括：

将所述当前帧视频图像的每个像素的水平像素偏移量与所述第二掩膜图像的水平像素进行叠加，计算获得所述第三掩膜图像的水平像素；

将所述当前帧视频图像的每个像素的垂直像素偏移量和所述第二掩膜图像的垂直像素进行叠加，计算获得所述第三掩膜图像的垂直像素。

3.根据权利要求1所述的方法，其特征在于，所述的根据所述当前帧视频图像的历史运动信息计算获得融合权重的步骤包括：

4.根据权利要求3所述的方法，其特征在于，根据所述当前帧视频图像的光流信息、预设的第一参数和第二参数计算获得第一参考值的步骤包括：

5.根据权利要求3或4所述的方法，其特征在于，所述第二参考值的取值范围为[0.8,0.95]，所述第一参数的取值范围为[4,6]，所述第二参数的取值范围为[0.6,0.9]。

6.根据权利要求1所述的方法，其特征在于，所述的根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像的步骤包括：

7.一种视频图像处理装置，其特征在于，所述装置包括：

获取模块，用于获取当前帧视频图像；

平滑模块，用于根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息，并根据所述上一帧视频图像对应的第二掩膜图像和所述当前帧视频图像的历史运动信息获得所述当前帧视频图像对应的第三掩膜图像；

融合模块，用于根据所述当前帧视频图像的历史运动信息计算获得融合权重，并根据所述融合权重对所述第一掩膜图像和所述第三掩膜图像进行加权融合，获得所述当前帧视频图像的融合掩膜图像；

其中，所述的根据所述当前帧视频图像和所述当前帧视频图像的上一帧视频图像确定所述当前帧视频图像的历史运动信息包括：

8.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。