CN111882578A

CN111882578A - 前景图像获取方法、前景图像获取装置和电子设备

Info

Publication number: CN111882578A
Application number: CN201910654642.6A
Authority: CN
Inventors: 李益永; 何帅; 王文斓
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2020-11-03
Also published as: WO2021013049A1; US20220270266A1

Abstract

本申请提供的前景图像获取方法、前景图像获取装置和电子设备，涉及图像处理技术领域。其中，前景图像获取方法包括：对获得的当前视频帧进行帧间运动检测得到第一掩模图像；通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像；基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像。通过上述方法，可以改善采用现有的前景提取技术难以准确、有效地对视频帧进行前景图像提取的问题。

Description

前景图像获取方法、前景图像获取装置和电子设备

技术领域

本申请涉及图像处理技术领域，具体而言，涉及一种前景图像获取方法、前景图像获取装置和电子设备。

背景技术

在图像处理的一些应用中，需要进行前景图像的提取。其中，常见的一些前景图像提取技术包括帧间差分法、背景差分法、ViBe算法等。经发明人研究发现，上述的前景图像提取技术难以准确、有效地对视频帧进行前景图像提取。

发明内容

有鉴于此，本申请的目的在于提供一种前景图像获取方法、前景图像获取装置和电子设备，以改善采用现有的前景提取技术难以准确、有效地对视频帧进行前景图像提取的问题。

为实现上述目的，本申请实施例采用如下技术方案：

一种前景图像获取方法，包括：

对获得的当前视频帧进行帧间运动检测得到第一掩模图像；

通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像；

基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述对获得的当前视频帧进行帧间运动检测得到第一掩模图像的步骤，包括：

根据获得的当前视频帧中各个像素点的像素值计算各个像素点在该当前视频帧中的边界信息；

根据每个像素点的边界信息判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的掩模值得到第一掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述根据每个像素点的边界信息判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的掩模值得到第一掩模图像的步骤，包括：

针对每一个像素点，根据该像素点在当前视频帧中的边界信息、在前N帧视频帧中的边界信息和在前M帧视频帧中的边界信息，确定该像素点的当前掩模值和当前频数值，其中，N不等于M；

针对每一个像素点，根据所述当前掩模值和所述当前频数值判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的当前掩模值得到第一掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述神经网络模型包括第一网络子模型、第二网络子模型和第三网络子模型；

所述通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像的步骤，包括：

通过所述第一网络子模型对所述当前视频帧进行语义信息提取处理得到第一输出值；

通过所述第二网络子模型对所述第一输出值进行尺寸调整处理得到第二输出值；

通过所述第三网络子模型对所述第二输出值进行掩模图像提取处理得到第二掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，该方法还包括预先构建所述第一网络子模型、所述第二网络子模型和所述第三网络子模型的步骤，该步骤包括：

通过第一卷积层、多个第二卷积层和多个第三卷积层构建所述第一网络子模型，其中，所述第一卷积层用于执行一次卷积操作，所述第二卷积层用于执行两次卷积操作、一次深度可分离卷积操作和两次激活操作，所述第三卷积层用于执行两次卷积操作、一次深度可分离卷积操作和两次激活操作，并将进行操作得到的值与输入值一并输出；

通过所述第一卷积层和多个第四卷积层构建所述第二网络子模型，其中，所述第四卷积层用于执行一次卷积操作、一次深度可分离卷积操作和两次激活操作；

通过多个所述第四卷积层和多个上采样层构建所述第三网络子模型，其中，所述上采样层用于执行双线性差值上采样操作。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像的步骤，包括：

根据预设的第一加权系数和第二加权系数对所述第一掩模图像和所述第二掩模图像进行加权求和处理；

将进行加权求和处理得到的结果与预先确定的参数进行求和处理，得到所述当前视频帧中的前景图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，在执行所述基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像的步骤之前，所述方法还包括：

计算所述当前视频帧的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算该当前视频帧的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值；

若所述第一差值小于预设差值，则将所述当前视频帧的第一掩模图像更新为所述前一帧视频帧的第一掩模图像；

若所述第二差值小于预设差值，则将所述当前视频帧的第二掩模图像更新为所述前一帧视频帧的第二掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述计算所述当前视频帧的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算该当前视频帧的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值的步骤，包括：

对所述当前视频帧的第一掩模图像进行帧间平滑处理得到新的第一掩模图像，并对该当前视频帧的第二掩模图像进行帧间平滑处理得到新的第二掩模图像；

计算所述新的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算所述新的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值；

所述前景图像获取方法还包括：

若所述第一差值大于或等于预设差值，则将所述当前视频帧的第一掩模图像更新为所述新的第一掩模图像；

若所述第二差值大于或等于预设差值，则将所述当前视频帧的第二掩模图像更新为所述新的第二掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述对所述当前视频帧的第一掩模图像进行帧间平滑处理得到新的第一掩模图像，并对该当前视频帧的第二掩模图像进行帧间平滑处理得到新的第二掩模图像的步骤，包括：

计算所述当前视频帧之前的所有视频帧的第一掩模图像的第一均值，并计算该所有视频帧的第二掩模图像的第二均值；

根据所述第一均值和所述当前视频帧的第一掩模图像计算得到新的第一掩模图像，并根据所述第二均值和所述当前视频帧的第二掩模图像计算得到新的第二掩模图像。

在本申请实施例较佳的选择中，在上述前景图像获取方法中，所述计算所述新的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算所述新的第二掩模图像与前一帧视频帧的第二掩模图像之间的第二差值的步骤，包括：

根据所述新的第一掩模图像中各个连通区域的面积判断该连通区域是否属于第一目标区域，并根据所述新的第二掩模图像中各个连通区域的面积判断该连通区域是否属于第二目标区域；

计算属于所述第一目标区域的连通区域的第一重心坐标，并将所述新的第一掩模图像的重心坐标更新为所述第一重心坐标；

计算属于所述第二目标区域的连通区域的第二重心坐标，并将所述新的第二掩模图像的重心坐标更新为所述第二重心坐标；

计算所述第一重心坐标与前一帧视频帧的第一掩模图像的重心坐标之间的第一差值，并计算所述第二重心坐标与该前一帧视频帧的第二掩模图像的重心坐标之间的第二差值。

本申请实施例还提供了一种前景图像获取装置，包括：

第一掩模图像获取模块，用于对获得的当前视频帧进行帧间运动检测得到第一掩模图像；

第二掩模图像获取模块，用于通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像；

前景图像获取模块，用于根据预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像。

在上述基础上，本申请实施例还提供了一种电子设备，包括存储器、处理器和存储于该存储器并能够在该处理器上运行的计算机程序，该计算机程序在该处理器上运行时实现上述的前景图像获取方法。

在上述基础上，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被执行时实现上述的前景图像获取方法。

本申请提供的前景图像获取方法、前景图像获取装置和电子设备，通过对同一视频帧分别进行帧间运动检测和神经网络识别，并根据得到的第一掩模图像和第二掩模图像计算得到该视频帧中的前景图像。如此，使得计算前景图像时依据增加，从而提高计算结果的准确性和有效性，进而改善采用现有的前景提取技术难以准确、有效地对视频帧进行前景图像提取的问题，具有较高的实用价值。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本申请实施例提供的电子设备的方框示意图。

图2为本申请实施例提供的电子设备的应用交互示意图。

图3为本申请实施例提供的前景图像获取方法的流程示意图。

图4为图3中的步骤S110的流程示意图。

图5为本申请实施例提供的神经网络模型的结构框图。

图6为本申请实施例提供的第二卷积层的结构框图。

图7为本申请实施例提供的第三卷积层的结构框图。

图8为本申请实施例提供的第四卷积层的结构框图。

图9为本申请实施例提供的前景图像获取方法包括的其它步骤的流程示意图。

图10为图9中的步骤S140的流程示意图。

图11为本申请实施例提供的计算面积占比的效果示意图。

图12为本申请实施例提供的前景图像获取装置包括的功能模块的方框示意图。

图标：10-电子设备；12-存储器；14-处理器；100-前景图像获取装置；110-第一掩模图像获取模块；120-第二掩模图像获取模块；130-前景图像获取模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本申请的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种电子设备10，可以包括存储器12、处理器14和前景图像获取装置100。

详细地，所述存储器12和处理器14之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述前景图像获取装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序，例如，所述前景图像获取装置100所包括的软件功能模块及计算机程序等，以实现本申请实施例提供的前景图像获取方法。

其中，所述存储器12可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

所述处理器14可以是一种通用处理器，包括中央处理器(Central ProcessingUnit，CPU)、网络处理器(Network Processor，NP)、片上***(System on Chip,SoC)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图1所示的结构仅为示意，所述电子设备10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置，例如，还可以包括用于与其它设备进行信息交互的通信单元。

其中，所述电子设备10的具体类型不受限制，例如，既可以是具有较佳数据处理性能的终端设备，也可以是服务器。

在一种可以替代的示例中，所述电子设备10可以作为一种直播设备，例如，可以是主播直播时使用的终端设备，也可以是与主播在直播时使用的终端设备通信连接的后台服务器。

在所述电子设备10作为后台服务器时，如图2所示，图像采集设备可以将采集主播得到的视频帧发送至该主播的终端设备，该终端设备可以将该视频帧发送至后台服务器进行处理。

结合图3，本申请实施例还提供一种可应用于上述电子设备10的前景图像获取方法。其中，所述前景图像获取方法有关的流程所定义的方法步骤可以由所述电子设备10实现。下面将对图3所示的具体流程进行详细阐述。

步骤S110，对获得的当前视频帧进行帧间运动检测得到第一掩模图像。

步骤S120，通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像。

步骤S130，基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像。

通过上述方法，基于执行步骤S110和步骤S120得到的第一掩模图像和第二掩模图像，可以使得在执行步骤S130计算前景图像时计算依据增加，从而使得计算结果的准确性和有效性得到提高，进而改善采用现有的前景提取技术难以准确、有效地对视频帧进行前景图像获取的问题。经本申请的发明人研究发现，特别是在一些情况下(如在获取视频帧时，如果存在灯光闪烁、镜头抖动、镜头缩放、拍摄对象静止等情况)，相较于现有的一些前景图像技术，采用本申请实施例提高的前景图像获取方法具有较佳的效果。

需要说明的是，上述的步骤S110和步骤S120的先后顺序不受限制，例如，既可以先执行步骤S110，也可以先执行步骤S120，还可以同时执行步骤S110和步骤S120。

可选地，执行步骤S110基于所述当前视频帧得到第一掩模图像的方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以根据所述当前视频帧中各个像素点的像素值计算得到所述第一掩模图像。详细地，结合图4，步骤S110可以包括步骤S111和步骤S113，具体内容如下所述。

步骤S111，根据获得的当前视频帧中各个像素点的像素值计算各个像素点在该当前视频帧中的边界信息。

在本实施例中，在通过图像采集设备直接获取到采集的当前视频帧或通过连接的终端设备获取到转发的当前视频帧之后，可以对该当前视频帧进行检测，得到各个像素点的像素值。然后，在基于获取到的像素值计算各个像素点在该当前视频帧中的边界信息。

需要说明的是，在对所述当前视频帧进行检测得到像素值之前，还可以先将该当前视频帧转化为灰度图。在一种可以替代的示例中，还可以根据需要进行大小调整，例如，可以缩放为256*256的尺寸。

步骤S113，根据每个像素点的边界信息判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的掩模值得到第一掩模图像。

在本实施例中，在通过步骤S111得到各个像素点在当前视频帧中的边界信息之后，可以根据得到的边界信息判断各像素点是否属于前景边界点。然后，获取属于前景边界点的各个像素点的掩模值，从而基于得到的各个掩模值得到所述第一掩模图像。

可选地，执行步骤S111计算边界信息的方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，针对每一个像素点，可以基于与该像素点相邻的多个像素点的像素值计算得到该像素点的边界信息。

详细地，可以通过以下计算公式计算各个像素点的边界信息：

Gx＝(fr_BW(i+1,j-1)+2*fr_BW(i+1,j)+fr_BW(i+1,j+1))_(fr_BW(i-1,j-1)+2*fr_BW(i-1,j)+fr_BW(i-1,j+1))；

Gy＝(fr_BW(i-1,j+1)+2*fr_BW(i,j+1)+fr_BW(i+1,j+1))-(fr_BW(i-1,j-1)+2*fr_BW(i,j-1)+fr_BW(i+1,j-1))；

fr_gray(i,j)＝sqrt(Gx^2+Gy^2)；

其中，fr_BW()是指像素值，fr_gray()是指边界信息。

可选地，执行步骤S113根据边界信息得到第一掩模图像的方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，可以将当前视频帧与之前获取的视频帧进行对比，以得到第一掩模图像。

详细地，步骤S113可以包括以下步骤：

首先，针对每一个像素点，根据该像素点在当前视频帧中的边界信息、在前N帧视频帧中的边界信息和在前M帧视频帧中的边界信息，确定该像素点的当前掩模值和当前频数值。然后，针对每一个像素点，根据所述当前掩模值和所述当前频数值判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的当前掩模值得到第一掩模图像。

其中，在一种可以替代的示例中，可以按照以下方式确定像素点的当前掩模值和当前频数值：

首先，若一个像素点的边界信息满足第一条件，可以将该像素点的当前掩模值更新为255、当前频数值加1。其中，该第一条件可以包括：像素点在当前视频帧中边界信息大于A1，且该像素点在当前视频帧中的边界信息与在前N帧视频帧中的边界信息的差值或与在前M帧视频帧中的边界信息的差值，大于B1；

其次，若一个像素点的边界信息不满足上述第一条件，但满足第二条件，可以将该像素点的当前掩模值更新为180、当前频数值加1。其中，该第二条件可以包括：像素点在当前视频帧中边界信息大于A2，且该像素点在当前视频帧中的边界信息与在前N帧视频帧中的边界信息的差值或与在前M帧视频帧中的边界信息的差值，大于B2；

然后，若一个像素点的边界信息不满足上述的第一条件和第二条件，但满足第三条件，可以将该像素点的当前掩模值更新为0、当前频数值加1。其中，该第三条件可以包括：像素点在当前视频帧中边界信息大于A2；

最后，针对不满足上述第一条件、第二条件和第三条件的像素点，可以将该像素点的当前掩模值更新为0。

需要说明的是，上述的当前频数值是指，像素点在各视频帧中被认为属于是前景边界点的次数。例如，针对像素点(i，j)，若在第一帧视频帧中被认为属于前景边界点，则当前频数值为1；若在第二帧视频帧中也被认为属于前景边界点，则当前频数值为2；若在第三帧视频帧中也被认为属于前景边界点，则当前频数值为3。

其中，N和M的数值不受限制，只要满足N不等于M即可。例如，在一种可以替代的示例中，N可以为1，M可以为3。也就是说，针对每一个像素点，可以根据该像素点在当前视频帧中的边界信息、在前1帧视频帧中的边界信息和在前3帧视频帧中的边界信息，确定该像素点的当前掩模值和当前频数值。

对应的，上述的A1、A2、B1和B2的具体数值也不受限制，例如，在一种可以替代的示例中，A1可以为30，A2可以为20，B1可以为12，B2可以为8。

进一步地，在通过上述方式得到像素点的当前掩模值和当前频数值之后，可以将当前掩模值大于0的像素点确定为前景边界点，将当前掩模值等于0的像素点确定为背景边界点。

并且，为进一步提高确定前景边界点和背景边界点的准确性，还可以基于以下方式进一步判断像素点是否属于前景边界点，该方式可以包括：

首先，针对当前掩模值大于0的像素点，若该像素点的当前频数值与当前帧数的比值大于0.6，且在当前视频帧中的边界信息与在前一帧视频帧中的边界信息的差值、与前三帧视频帧中的边界信息的差值，都小于10，可以将该像素点重新确定为背景边界点；

其次，针对当前掩模值等于0的像素点，若该像素点的当前频数值与当前帧数的比值小于0.5，且在当前视频帧中的边界信息大于60，可以将该像素点重新确定为前景边界点，并将该像素点的当前掩模值更新为180；

最后，为了提高对之后的视频帧的前景图像提取的准确性，针对不满足上述两个条件的像素点，可以将该像素点的当前频数值减1。

可选地，执行步骤S120基于所述当前视频帧得到第二掩模图像的方式不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，所述神经网络模型模型可以包括多个网络子模型以进行不同的处理，从而得到所述第二掩模图像。

详细地，结合图5，所述神经网络模型可以包括第一网络子模型、第二网络子模型和第三网络子模型。步骤S120可以包括以下步骤：

首先，通过所述第一网络子模型对所述当前视频帧进行语义信息提取处理得到第一输出值。其次，通过所述第二网络子模型对所述第一输出值进行尺寸调整处理得到第二输出值。然后，通过所述第三网络子模型对所述第二输出值进行掩模图像提取处理得到第二掩模图像。

其中，所述第一网络子模型可以通过第一卷积层、多个第二卷积层和多个第三卷积层构建。所述第二网络子模型可以通过所述第一卷积层和多个第四卷积层构建。所述第三网络子模型可以通过多个所述第四卷积层和多个上采样层构建。

需要说明的是，所述第一卷积层可以用于执行一次卷积操作(卷积核大小为3*3的操作)。所述第二卷积层可以用于执行两次卷积操作、一次深度可分离卷积操作和两次激活操作(如图6所示)。所述第三卷积层可以用于执行两次卷积操作、一次深度可分离卷积操作和两次激活操作，并将进行操作得到的值与输入值一并输出(如图7所示)。所述第四卷积层可以用于执行一次卷积操作、一次深度可分离卷积操作和两次激活操作(如图8所示)。所述上采样层可以用于执行双线性差值上采样操作(如上采样4倍的操作)。

其中，为了便于所述神经网络模型对所述当前视频帧进行识别处理，还可以预先将该当前视频帧缩放为256*256*3的数组P，然后，通过归一化计算公式(如(P/128)-1)进行归一化处理(得到属于-1到1的值)，并将处理得到的结果输入至所述神经网络模型进行识别处理。

可选地，执行步骤S130基于预设的计算模型计算所述前景图像的方式也不受限制，可以根据实际应用需求进行选择。

例如，在一种可以替代的示例中，步骤S130可以包括以下步骤：

首先，根据预设的第一加权系数和第二加权系数对所述第一掩模图像和所述第二掩模图像进行加权求和处理。然后，将进行加权求和处理得到的结果与预先确定的参数进行求和处理，得到所述当前视频帧中的前景图像。

也就是说，所述计算模型可以包括：

M_fi＝a1*M_fg+a2*M_c+b；

其中，a1为所述第一加权系数，a2为所述第二加权系数，b为所述参数，M_fg为所述第一掩模图像，M_c为所述第二掩模图像，M_fi为所述前景图像。

需要说明的是，上述的a1、a2和b，可以根据具体的前景图像的类型进行确定。例如，在前景图像为人像时，可以通过采集多张样本人像进行拟合得到。

进一步地，考虑到在一些示例中，确定上述前景图像是为了进行一些特定的显示或播放控制。例如，在直播领域中，为了避免显示或播放的弹幕对主播人像的遮挡，需要先确定主播人像在视频帧中的位置，并在弹幕播放至该位置时，进行透明或隐藏处理，从而提高用户体验。

也就是说，在一些示例中，还需要对上述前景图像进行显示或播放处理。为了避免在显示或播放时，出现人像抖动的情形，还可以进行抖动消除处理。

详细地，在一种可以替代的示例中，结合图9，在执行步骤S130之前，所述前景图像获取方法还可以包括步骤S140和步骤S150。

步骤S140，计算所述当前视频帧的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算该当前视频帧的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值。

步骤S150，若所述第一差值小于预设差值，则将所述当前视频帧的第一掩模图像更新为所述前一帧视频帧的第一掩模图像；若所述第二差值小于预设差值，则将所述当前视频帧的第二掩模图像更新为所述前一帧视频帧的第二掩模图像。

在本实施例中，可以通过计算第一掩模图像和第二掩模图像在当前视频帧和前一帧视频帧之间的变化量，来判断前景图像是否有发生较大的变化。并且，可以在判断出前景图像在相邻两帧(当前帧和前一帧)之间未发生较大变化时，用前一帧的前景图像来代替当前帧的前景图像(即用前一帧的第一掩模图像来代替当前帧的第一掩模图像，用前一帧的第二掩模图像来代替当前帧的第二掩模图像)，从而避免帧间抖动的问题。

如此，在前景图像(如人像)发生的变化较小时，可以使得当前帧获取到的前景图像与前一帧获取到的前景图像相同，从而实现了帧间的稳定，避免了帧间抖动而导致用户体验较差的问题。

也就是说，在执行步骤S150对当前视频帧的第一掩模图像和第二掩模图像进行更新之后，在执行步骤S130时，可以基于该更新之后的一掩模图像和第二掩模图像计算前景图像。

对应地，若所述第一差值大于或等于预设差值，所述第二差值大于或等于预设差值，表明前景图像变化较大。为了使得直播观众可以有效地看到主播的动作，在执行步骤S130时，需要根据执行步骤S110得到第一掩模图像和执行步骤S120得到的第二掩模图像计算前景图像，使得该前景图像与前一帧的前景图像不同，从而在前景图像的播放时反映出主播的动作。

其中，执行步骤S140计算第一差值和第二差值的方式不受限制，可以根据实际应用需求进行选择。

经本申请发明人的研究发现，由于通过步骤S150会使得主播的较小动作被消除，从而导致前景图像在播放时出现跳跃。

例如，第一帧视频帧中主播的眼睛闭合，第二帧视频帧中主播的眼睛挣开0.1cm，第三帧视频帧中主播的眼睛睁开0.3cm。由于从第一帧视频帧到第二帧视频帧，主播的眼睛变化较小，为了避免帧间抖动，获取到第二帧视频帧的前景图像和第一帧视频帧的前景图像会保持一致，使得在获得的第二帧视频帧的前景图像中的主播的眼睛也是闭合。然而，由于从第二帧视频帧到第三帧视频帧，主播的眼睛变化较大，此时在获取到的第三帧视频帧的前景图像中主播的眼睛会睁开0.3cm。如此，会使得观众观看到主播的眼睛从闭合直接变到睁开0.3cm，也就是出现帧间(第二帧和第三帧之间)的跳跃。

考虑到部分观众可能会不适应上述的帧间跳跃的情形，因而，为了避免该情形的出现，在一种可以替代的示例中，结合图10，步骤S140可以包括步骤S141和步骤S143，以进行第一差值和第二差值的计算。

步骤S141，对所述当前视频帧的第一掩模图像进行帧间平滑处理得到新的第一掩模图像，并对该当前视频帧的第二掩模图像进行帧间平滑处理得到新的第二掩模图像。

步骤S143，计算所述新的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算所述新的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值。

并且，若所述第一差值大于或等于预设差值，则将所述当前视频帧的第一掩模图像更新为所述新的第一掩模图像，使得执行步骤S150时可以基于该新的第一掩模图像进行计算。若所述第二差值大于或等于预设差值，则将所述当前视频帧的第二掩模图像更新为所述新的第二掩模图像，使得执行步骤S150时可以基于该新的第二掩模图像进行计算。

其中，执行步骤S141进行帧间平滑处理的方式不受限制，例如，在一种可以替代的示例中，步骤S141可以包括以下步骤：

首先，计算所述当前视频帧之前的所有视频帧的第一掩模图像的第一均值，并计算该所有视频帧的第二掩模图像的第二均值。然后，根据所述第一均值和所述当前视频帧的第一掩模图像计算得到新的第一掩模图像，并根据所述第二均值和所述当前视频帧的第二掩模图像计算得到新的第二掩模图像。

其中，根据所述第一均值和所述第二均值计算新的第一掩模图像和新的第二掩模图像时，具体的计算方式不受限制。

在一种可以替代的示例中，可以基于加权求和的方式计算新的第一掩模图像。例如，可以根据以下公式计算新的第一掩模图像：

M_k1＝α1*M_k2+β1*A_k-1

A_k-1＝α2*A_k-2+β2*M_k2-1

α1+β1＝1，α2+β2＝1；

其中，M_k₁为新的第一掩模图像，M_k₂为通过步骤S110得到的第一掩模图像，A_k-1为当前视频帧之前所有视频帧计算得到的第一均值，A_k-2为前一帧视频帧之前所有视频帧计算得到的第一均值，M_k₂-1为前一视频帧对应的第一掩模图像，α1可以属于[0.1，0.9]，α2可以属于[0.125，0.875]。

同理，也可以基于加权求和的方式计算新的第二掩模图像，具体的计算公式可以参照上述公式，在此不再一一赘述。

需要说明的是，在通过上述方法进行帧间平滑处理，得到新的第一掩模图像和新的第二掩模图像之后，还可以对该新的第一掩模图像和该新的第二掩模图像进行二值化处理，并在后续的步骤中基于该二值化处理的结果进行相应的计算。

其中，进行二值化处理的方式不受限制，例如，在一种可以替代的示例中可以采用大津算法进行二值化处理。

需要说明的是，执行步骤S143进计算第一差值和第二差值的方式不受限制，例如，在一种可以替代的示例中，步骤S143可以包括以下步骤：

首先，根据所述新的第一掩模图像中各个连通区域的面积判断该连通区域是否属于第一目标区域，并根据所述新的第二掩模图像中各个连通区域的面积判断该连通区域是否属于第二目标区域。

其次，计算属于所述第一目标区域的连通区域的第一重心坐标，并将所述新的第一掩模图像的重心坐标更新为所述第一重心坐标；计算属于所述第二目标区域的连通区域的第二重心坐标，并将所述新的第二掩模图像的重心坐标更新为所述第二重心坐标。

然后，计算所述第一重心坐标与前一帧视频帧的第一掩模图像的重心坐标之间的第一差值，并计算所述第二重心坐标与该前一帧视频帧的第二掩模图像的重心坐标之间的第二差值。

需要说明的是，在一种可以替代的示例中，可以基于以下方式判断所述新的第一掩模图像中每个连通区域是否属于第一目标区域：

首先，可以先计算所述新的第一掩模图像中每个连通区域的面积，并确定最大面积。其次，针对所述新的第一掩模图像中的每个连通区域，判断该连通区域的面积是否大于所述最大面积的三分之一(也可以是其它比例，根据实际应用需求进行确定即可)。然后，将面积大于所述最大面积的三分之一的连通区域确定为所述第一目标区域。

其中，判断所述新的第二掩模图像中每个连通区域是否属于第二目标区域的方式可以参照上述方式，在此不再一一赘述。

需要说明的是，在一种可以替代的示例中，可以基于以下方式计算属于所述第一目标区域的连通区域的第一重心坐标：

首先，判断属于所述第一目标区域的连通区域的数量是否大于2(也可以是其它的数值，根据实际应用需求进行确定即可)。其次，若该数量大于2，则根据其中面积最大的两个属于所述第一目标区域的连通区域的重心坐标，计算所述第一重心坐标。若该数量不大于2，则直接基于属于所述第一目标区域的连通区域的重心坐标计算所述第一重心坐标。

其中，计算属于所述第二目标区域的连通区域的第二重心坐标的方式可以参照上述方式，在此不再一一赘述。

需要说明的是，在通过所述第一均值和所述第二均值计算得到新的第一掩模图像和新的第二掩模图像之后，可以将通过步骤S110得到的第一掩模图像更新为根据该新的第一掩模图像，并将通过步骤S120得到的第二掩模图像更新为该新的第二掩模图像。

其中，在上述各个步骤中，存在着对第一掩模图像和第二掩模图像的更新处理，因此，在执行各步骤时，若该步骤之前有进行更新处理，那么，执行该步骤时可以根据最近一次的更新处理后的第一掩模图像和第二掩模图像进行处理。

进一步地，为了避免对所述电子设备10的处理器14的计算资源的浪费，在执行步骤S140之前，还可以对通过步骤S110得到的第一掩模图像和通过步骤S120得到的第二掩模图像进行区域特征计算处理。

其中，可以通过计算在第一掩模图像中有效区域的面积占比和在第二掩模图像中有效区域的面积占比，并在该面积占比都未达到预设占比时，判定所述当前视频帧中不存在前景图像，因而，可以选择不执行后续的步骤，从而降低所述电子设备10的处理器14的数据计算量。

结合图11，在一种可以替代的示例中，可以先计算由各个前景边界点围合形成的连通区域的面积。其次，将面积最大的连通区域作为所述有效区域。然后，可以计算该有效区域的面积与涵盖该有效区域的最小方框的面积的比值，从而得到所述面积占比。

结合图12，本申请实施例还提供一种前景图像获取装置100，可以包括第一掩模图像获取模块110、第二掩模图像获取模块120和前景图像获取模块130。

所述第一掩模图像获取模块110，用于对获得的当前视频帧进行帧间运动检测得到第一掩模图像。在本实施例中，所述第一掩模图像获取模块110可用于执行图3所示的步骤S110，关于所述第一掩模图像获取模块110的相关内容可以参照前文对步骤S110的描述。

所述第二掩模图像获取模块120，用于通过神经网络模型对所述当前视频帧进行识别得到第二掩模图像。在本实施例中，所述第二掩模图像获取模块120可用于执行图3所示的步骤S120，关于所述第二掩模图像获取模块120的相关内容可以参照前文对步骤S120的描述。

所述前景图像获取模块130，用于根据预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像。在本实施例中，所述前景图像获取模块130可用于执行图3所示的步骤S130，关于所述前景图像获取模块130的相关内容可以参照前文对步骤S130的描述。

在本申请实施例中，对应于上述的前景图像获取方法，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，该计算机程序运行时执行上述前景图像获取方法的各个步骤。

其中，前述计算机程序运行时执行的各步骤，在此不再一一赘述，可参考前文对所述前景图像获取方法的解释说明。

综上所述，本申请提供的前景图像获取方法、前景图像获取装置100和电子设备10，通过对同一视频帧分别进行帧间运动检测和神经网络识别，并根据得到的第一掩模图像和第二掩模图像计算得到该视频帧中的前景图像。如此，使得计算前景图像时依据增加，从而提高计算结果的准确性和有效性，进而改善采用现有的前景提取技术难以准确、有效地对视频帧进行前景图像提取的问题，具有较高的实用价值。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种前景图像获取方法，其特征在于，包括：

对获得的当前视频帧进行帧间运动检测得到第一掩模图像；

2.根据权利要求1所述的前景图像获取方法，其特征在于，所述对获得的当前视频帧进行帧间运动检测得到第一掩模图像的步骤，包括：

3.根据权利要求2所述的前景图像获取方法，其特征在于，所述根据每个像素点的边界信息判断该像素点是否属于前景边界点，并根据属于前景边界点的各像素点的掩模值得到第一掩模图像的步骤，包括：

4.根据权利要求1所述的前景图像获取方法，其特征在于，所述神经网络模型包括第一网络子模型、第二网络子模型和第三网络子模型；

5.根据权利要求4所述的前景图像获取方法，其特征在于，该方法还包括预先构建所述第一网络子模型、所述第二网络子模型和所述第三网络子模型的步骤，该步骤包括：

6.根据权利要求1所述的前景图像获取方法，其特征在于，所述基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像的步骤，包括：

7.根据权利要求1-6任意一项所述的前景图像获取方法，其特征在于，在执行所述基于预设的计算模型、所述第一掩模图像和所述第二掩模图像计算得到所述当前视频帧中的前景图像的步骤之前，所述方法还包括：

8.根据权利要求7所述的前景图像获取方法，其特征在于，所述计算所述当前视频帧的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算该当前视频帧的第二掩模图像与该前一帧视频帧的第二掩模图像之间的第二差值的步骤，包括：

所述前景图像获取方法还包括：

9.根据权利要求8所述的前景图像获取方法，其特征在于，所述对所述当前视频帧的第一掩模图像进行帧间平滑处理得到新的第一掩模图像，并对该当前视频帧的第二掩模图像进行帧间平滑处理得到新的第二掩模图像的步骤，包括：

10.根据权利要求8所述的前景图像获取方法，其特征在于，所述计算所述新的第一掩模图像与前一帧视频帧的第一掩模图像之间的第一差值，并计算所述新的第二掩模图像与前一帧视频帧的第二掩模图像之间的第二差值的步骤，包括：

11.一种前景图像获取装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括存储器、处理器和存储于该存储器并能够在该处理器上运行的计算机程序，该计算机程序在该处理器上运行时实现权利要求1-10任意一项所述的前景图像获取方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被执行时实现权利要求1-10任意一项所述的前景图像获取方法。