CN113505737A

CN113505737A - 前景图像的确定方法及装置、存储介质、电子装置

Info

Publication number: CN113505737A
Application number: CN202110846878.7A
Authority: CN
Inventors: 邬国栋; 周祥明; 郑春煌
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2021-10-15
Anticipated expiration: 2041-07-26

Abstract

本发明公开了一种前景图像的确定方法及装置、存储介质、电子装置，其中，上述方法包括：将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态；利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像，采用上述技术方案，解决了相关技术中，在光照变化或树叶抖动等背景变化的情况下，视频帧中的目标前景的检测和分割精度较低等问题。

Description

前景图像的确定方法及装置、存储介质、电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种前景图像的确定方法及装置、存储介质、电子装置。

背景技术

随着社会的发展和进步，智能视频监控设备越来越多的出现在安防及人们的工作和生活中。其中，运动目标前景分割是智能视频分析算法中最重要的技术，同时也是进行目标跟踪和目标识别的基础技术。运动目标前景分割是检测视频或图像序列中发生空间位置变化的目标的技术。不同于静态视频目标分割，运动目标前景分割通常会利用视频连续帧间的上下文来对感兴趣区域进行定位。运动目标前景分割技术广泛应用于人员计数，动作识别，异常检测，跌倒检测，停车检测，目标定位和跟踪等任务中。因此运动目标的前景分割效果对后续任务的精度及性能有至关重要的作用。

相关技术中，训练深度学习神经网络的过程中采用邻近两帧作为样本对进行目标前景的检测，仅采用相邻两帧的信息无法避免噪声的影响以及一些光照变化，树叶抖动带来的误检，从而降低了视频帧中的目标前景的检测和分割精度。

针对相关技术中，在光照变化或树叶抖动等背景变化的情况下，视频帧中的目标前景的检测和分割精度较低等问题，尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种前景图像的确定方法及装置、存储介质、电子装置，以至少解决相关技术中，在光照变化或树叶抖动等背景变化的情况下，视频帧中的目标前景的检测和分割精度较低等问题。

根据本发明的一个实施例，提供了一种前景图像的确定方法，包括：将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

在一个示例性的实施例中，将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，包括：将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：循环门单元(GateRecurrent Unit，简称为GRU)GRU算法，长短期记忆网络(Long Short-Term Memory，简称为LSTM)算法。

在一个示例性的实施例中，根据所述第二中间状态建立背景模型之后，所述方法还包括：将第二视频帧输入到所述卷积神经网络，获得所述第二视频帧对应的第二特征图像中像素点的向量，其中，所述第二视频帧与所述第一视频帧对应同一场景；将所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态输入到时序网络，其中，所述第三中间状态用于指示第二视频帧序列中第二视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息；通过所述时序网络中的背景模型获取前景分割结果，其中，所述前景分割结果用于指示当前场景图像中的前景图像。

在一个示例性的实施例中，通过所述时序网络中的背景模型获取前景分割结果之后，所述方法还包括：根据预设方式计算所述前景分割结果与标签结果的损失函数，其中，所述标签结果用于指示所述第二视频帧的目标前景分割结果；根据所述损失函数计算所述损失函数对应的梯度，并根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数，其中，所述第一网络参数用于指示第一映射函数的参数，其中，所述第一映射函数用于根据所述第二视频帧获取所述第二特征图像中像素点的向量，第二网络参数用于指示第二映射函数的参数，其中，所述第二映射函数用于根据所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态确定第二视频帧的第四中间状态，其中，所述第四中间状态用于指示所述第二视频帧序列中所述第二视频帧以及所述第二视频帧的之前的所有视频帧的第二特征信息。

在一个示例性的实施例中，根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数之后，所述方法还包括：确定已更新第一网络参数的目标卷积神经网络和已更新第二网络参数的目标时序网络；将第三视频帧输入到所述目标卷积神经网络，获得第三特征图像中像素点的向量，其中，所述第三视频帧与所述第一视频帧对应同一场景；将所述第三特征图像中像素点的向量以及所述第三视频帧的上一视频帧的第五中间状态输入到所述目标时序网络；根据所述目标时序网络中的目标背景模型获取所述第三视频帧的第六中间状态和所述第三视频帧对应的目标前景分割结果。

在一个示例性的实施例中，将第一视频帧输入到卷积神经网络，并获取第一特征图像中像素点的向量，包括：获取第一视频帧的所述视频帧序列对应的当前场景；根据所述当前场景对卷积神经网络的网络层的参数要求确定目标网络层；将所述第一视频帧输入到所述卷积神经网络的目标网络层，获得第一特征图像中像素点的向量。

根据本发明的另一个实施例，还提供了一种前景图像的确定装置，包括：第一获取模块，用于将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；第二获取模块，用于将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；确定模块，用于利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

在一个示例性实施例中，第二获取模块，还用于将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：循环门单元GRU算法，长短期记忆网络LSTM算法。

根据本发明的又一个实施例，还提供了一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像，即通过第一视频帧序列中的所有视频帧的特征信息建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。采用上述技术方案，解决了相关技术中，在光照变化或树叶抖动等背景变化的情况下，视频帧中的目标前景的检测和分割精度较低等问题，进而保证了更好的目标前景的分割性能。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种前景图像的确定方法的移动终端的硬件结构框图；

图2是根据本发明实施例的前景图像的确定方法的流程图；

图3为根据本发明可选实施例的前景图像的确定方法示意图；

图4为根据本发明可选实施例的前景图像的确定方法中的算法网络结构图；

图5是根据本发明实施例的一种前景图像的确定装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在移动终端，或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种前景图像的确定方法的移动终端的硬件结构框图。如图1所示，移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端还可包括比图1中所示更多或者更少的组件，或者具有与图1所示等同功能或比图1所示功能更多的不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的移动终端的前景图像的确定方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种前景图像的确定方法，应用于上述移动终端，图2是根据本发明实施例的前景图像的确定方法的流程图，该流程包括如下步骤：

步骤S202，将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；

步骤S204，将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；

步骤S206，利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

需要说明的是，第一视频帧输入卷积神经网络中，提取出第一视频帧的第一特征图像，其中，第一特征图像的维度为h*w*c，其中，h，w是第一特征图像的宽和高，c是第一视频帧对应的网络层的通道数。将第一特征图像上的像素点输入到时序网络中进行处理，即输出特征为h*w个c维的向量，其中，卷积神经网络至少包括以下至少之一：ResNet、DenseNet、UNet、EfficientNet系列。

上述步骤S204的实现方式有很多种，本发明实施例给出了一种实现方式，具体的，将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：GRU算法，LSTM算法。

以GRU算法为例，GRU算法有两个输入和两个输出，两个输入分别是第一视频帧的上一视频帧的第一中间状态以及第一视频帧中像素点的向量，两个输出分别是第一视频帧通过GRU算法计算后的第二中间状态以及第一视频帧的前景分割结果，其中，中间状态存储了历史视频帧的特征信息和当前视频帧的特征信息，在当前视频帧为第一视频帧的情况下，中间状态存储了视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的特征信息。采用时序网络对视频帧序列中的视频帧进行时间维度上的建模，将历史视频帧的特征信息和当前视频帧的特征信息融合起来，计算当前视频帧的前景分割结果。

建立好背景模型之后，还需要对卷积神经网络和时序网络的网络参数进行调整，在一个示例性的实施例中，根据所述第二中间状态建立背景模型之后，将第二视频帧输入到所述卷积神经网络，以获取所述第二视频帧对应的第二特征图像中像素点的向量，其中，所述第二视频帧与所述第一视频帧对应同一场景；将所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态输入到时序网络，其中，所述第三中间状态用于指示第二视频帧序列中第二视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息；通过所述时序网络中的背景模型获取前景分割结果，其中，所述前景分割结果用于指示当前场景图像中的前景图像。

也就是说，在对卷积神经网络和时序网络的网络参数进行调整的情况下，首先要获取在第二视频帧序列中提取第二视频帧，并输入到卷积神经网络得到第二特征图像，其中，第二特征图像用于指示第二特征图像中所有像素点的向量，将第二特征图像的每个向量输入到时序网络中，时序网络计算第二视频帧的第四中间状态，以及通过背景模型获取第二视频帧的前景分割结果。

在一个示例性的实施例中，通过所述时序网络中的背景模型获取前景分割结果之后，根据预设方式计算所述前景分割结果与标签结果的损失函数，其中，所述标签结果用于指示所述第二视频帧的目标前景分割结果；根据所述损失函数计算所述损失函数对应的梯度，并根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数，其中，所述第一网络参数用于指示第一映射函数的参数，其中，所述第一映射函数用于根据所述第二视频帧获取所述第二特征图像中像素点的向量，第二网络参数用于指示第二映射函数的参数，其中，所述第二映射函数用于根据所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态确定第二视频帧的第四中间状态，其中，所述第四中间状态用于指示所述第二视频帧序列中所述第二视频帧以及所述第二视频帧的之前的所有视频帧的第二特征信息。

也就是说，将通过背景模型获取第二视频帧的前景分割结果，与第二视频帧的标签结果进行计算，获取前景分割结果与标签结果的损失函数，计算损失函数对应的梯度并对卷积神经网络的第一网络参数和所述时序网络的第二网络参数进行更新，其中，第一网络参数为第一映射函数中的函数，卷积神经网络通过第一映射函数获取视频帧对应的特征图像；第一网络参数为第二映射函数中的函数，时序网络通过第二映射函数获取视频帧的中间状态。

需要说明的是，由于上述实施例用于更新卷积神经网络和时序网络的网络参数，因此，对于视频帧序列中的任一视频帧重复上述实施例，直至视频帧序列结束，此时确定卷积神经网络和时序网络的网络参数更新完成。

在一个示例性的实施例中，根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数之后，确定已更新第一网络参数的目标卷积神经网络和已更新第二网络参数的目标时序网络；将第三视频帧输入到所述目标卷积神经网络，获得第三特征图像中像素点的向量，其中，所述第三视频帧与所述第一视频帧对应同一场景；将所述第三特征图像中像素点的向量以及所述第三视频帧的上一视频帧的第五中间状态输入到所述目标时序网络；根据所述目标时序网络中的目标背景模型获取所述第三视频帧的第六中间状态和所述第三视频帧对应的目标前景分割结果。

也就是说，根据建立的背景模型和已更新第一网络参数的目标卷积神经网络和已更新第二网络参数的目标时序网络，获取第三视频帧的得到第三特征图像中像素的向量，将第三特征图像的每个向量输入其对应的时序网络输出第三视频帧的第六中间状态及目标前景分割结果。

在一个示例性的实施例中，获取第一视频帧的所述视频帧序列对应的当前场景；根据所述当前场景对卷积神经网络的网络层的参数要求确定目标网络层；将所述第一视频帧输入到所述卷积神经网络的目标网络层，获得第一视频帧对应的第一特征图像中像素点的向量。

也就是说，在不同的场景下，场景对卷积神经网络的网络层的参数要求不同，其中，参数包括：性能和耗时，根据场景自动选择与场景对应的目标网络层，将第一视频帧输入到所述卷积神经网络的目标网络层，获取第一特征图像中像素点的向量。

为了更好的理解上述前景图像的确定方法的过程，以下结合可选实施例对上述前景图像的确定方法流程进行说明，但不用于限定本发明实施例的技术方案。

图3为根据本发明可选实施例的前景图像的确定方法示意图，如图3所示，具体实现流程如下：

步骤1：通过图像采集装置采集并提取目标场景的视频帧序列；

步骤2：获取目标场景的视频帧序列的第一视频帧序列，根据第一视频帧序列进行背景建模；具体的步骤如下：

步骤S21：在第一视频帧序列提取第一视频帧，其中，第一视频帧宽为H，高为W；

步骤S22：将第一视频帧输入CNN基础网络(相当于上述实施例中的卷积神经网络)，其中，CNN基础网络至少包括以下之一：ResNet，DenseNet，UNet，EfficientNet系列，根据目标场景对网络层的性能和耗时等参数要求确定目标网络层，提取第一视频帧的第一特征图像，特征图像的维度为h*w*c，其中h，w是第一特征图像的宽和高，c是目标网络层的通道数，将第一特征图像上的像素点当作后续算法处理对象，即输出特征为h*w个c维的向量；

步骤S23：将第一特征图像的像素点的向量输入到RNN时序网络中，RNN时序网络通过GRU算法，LSTM算法等算法在RNN时序网络中建立背景模型；

以GRU算法为例，GRU算法的网络结构如图4所示，GRU算法有两个输入两个输出，两个输入分别是第一视频帧的上一视频帧的中间状态St-1以及第一视频帧的第一特征图像Ft，两个输出分别是第一视频帧计算后的中间状态St以及第一视频帧的运动目标检测结果Yt(相当于上述实施例中的前景分割结果)。中间状态S存储了历史视频帧的特征信息，在计算第一视频帧的中间状态St时，循环门单元GRU算法综合考虑历史视频帧的特征信息及第一视频帧的特征信息。

步骤S24：对第一视频帧序列中的初始视频帧的中间状态进行初始化，在接下来的N帧中不断计算并更新中间状态，完成背景模型的建模，建模过程中，CNN基础网络和RNN时序网络的网络参数不进行更新。

步骤3：完成第一视频帧序列的背景建模后，采用第二视频帧进行CNN基础网络和RNN时序网络的网络参数的训练；具体流程如下：

步骤S31：在第二视频帧序列提取第二视频帧，其中，第二视频帧宽为H，高为W；

步骤S32：将第二视频帧输入CNN基础网络，提取第二视频帧的第二特征图像，第二特征图像的维度为h*w*c，其中h，w是第二特征图像的宽和高，c是目标网络层的通道数，将第二特征图像上的像素点当作后续算法处理对象，即输出特征为h*w个c维的向量；

步骤S33：将第二特征图像的像素点的向量输入到RNN时序网络中，RNN时序网络通过GRU算法，LSTM算法等算法计算第二视频帧的中间状态，并根据背景模型获取运动目标前景分割结果；

步骤S34：计算运动目标前景分割结果与标签结果的损失函数，例如采用二分类损失；

步骤S35：将损失函数回传并计算损失函数对应的梯度，对CNN基础网络及RNN时序网络的第一网络参数和第二网络参数进行更新；其中，第一网络参数用于指示第一映射函数的参数，其中所述第一映射函数用于所述第二视频帧所述第二特征图像中像素点的向量，第二网络参数用于指示第二映射函数的参数，第二映射函数用于根据第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的中间状态确定第二视频帧的中间状态；

步骤S36：对于第二视频帧序列中的任一视频帧重复上述实施例，直至第二视频帧序列结束。

步骤4：对第三视频帧进行目标前景分割；具体流程如下：

步骤S41：在第三视频帧序列提取第三视频帧，其中，第三视频帧宽为H，高为W；

步骤S42：将第三视频帧输入CNN基础网络，提取第三视频帧的第三特征图像，第二特征图像的维度为h*w*c，其中h，w是第三特征图像的宽和高，c是目标网络层的通道数，将第三特征图像上的像素点当作后续算法处理对象，即输出特征为h*w个c维的向量；

步骤S43：将第三特征图像的像素点的向量输入到RNN时序网络中，RNN时序网络通过GRU算法，LSTM算法等算法计算第三视频帧的中间状态，并根据背景模型获取运动目标前景分割结果。

本发明将深度学***台下的需求，灵活配置。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种前景图像的确定装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本发明实施例的一种前景图像的确定装置的结构框图；如图5所示，包括：

第一获取模块52，用于将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；

第二获取模块54，用于将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；

确定模块56，用于利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

具体的，第二获取模块，还用于将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：GRU算法，LSTM算法。

建立好背景模型之后，还需要对卷积神经网络和时序网络的网络参数进行调整，在一个示例性的实施例中，上述装置还包括：更新模块，用于将第二视频帧输入到所述卷积神经网络，获得所述第二视频帧对应的第二特征图像中像素点的向量，其中，所述第二视频帧与所述第一视频帧对应同一场景；将所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态输入到时序网络，其中，所述第三中间状态用于指示第二视频帧序列中第二视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息；通过所述时序网络中的背景模型获取前景分割结果，其中，所述前景分割结果用于指示当前场景图像中的前景图像。

在一个示例性的实施例中，更新模块，还用于根据预设方式计算所述前景分割结果与标签结果的损失函数，其中，所述标签结果用于指示所述第二视频帧的目标前景分割结果；根据所述损失函数计算所述损失函数对应的梯度，并根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数，其中，所述第一网络参数用于指示第一映射函数的参数，其中，所述第一映射函数用于根据所述第二视频帧获取所述第二特征图像中像素点的向量，第二网络参数用于指示第二映射函数的参数，其中，所述第二映射函数用于根据所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态确定第二视频帧的第四中间状态，其中，所述第四中间状态用于指示所述第二视频帧序列中所述第二视频帧以及所述第二视频帧的之前的所有视频帧的第二特征信息。

在一个示例性的实施例中，确定模块，用于确定已更新第一网络参数的目标卷积神经网络和已更新第二网络参数的目标时序网络；将第三视频帧输入到所述目标卷积神经网络，获得第三特征图像中像素点的向量，其中，所述第三视频帧与所述第一视频帧对应同一场景；将所述第三特征图像中像素点的向量以及所述第三视频帧的上一视频帧的第五中间状态输入到所述目标时序网络；根据所述目标时序网络中的目标背景模型获取所述第三视频帧的第六中间状态和所述第三视频帧对应的目标前景分割结果。

在一个示例性的实施例中，第一获取模块，用于获取第一视频帧的所述视频帧序列对应的当前场景；根据所述当前场景对卷积神经网络的网络层的参数要求确定目标网络层；将所述第一视频帧输入到所述卷积神经网络的目标网络层，获得第一视频帧对应的第一特征图像中像素点的向量。

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；

S2，将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；

S3，利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

在一个示例性实施例中，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

在一个示例性实施例中，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，在一个示例性实施例中，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种前景图像的确定方法，其特征在于，包括：

将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；

将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；

利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

2.根据权利要求1所述的前景图像的确定方法，其特征在于，将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，包括：

将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：循环门单元GRU算法，长短期记忆网络LSTM算法。

3.根据权利要求1所述的前景图像的确定方法，其特征在于，根据所述第二中间状态建立背景模型之后，所述方法还包括：

将第二视频帧输入到所述卷积神经网络，获得所述第二视频帧对应的第二特征图像中像素点的向量，其中，所述第二视频帧与所述第一视频帧对应同一场景；

将所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态输入到时序网络，其中，所述第三中间状态用于指示第二视频帧序列中第二视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息；

通过所述时序网络中的背景模型获取前景分割结果，其中，所述前景分割结果用于指示当前场景图像中的前景图像。

4.根据权利要求3所述的前景图像的确定方法，其特征在于，通过所述时序网络中的背景模型获取前景分割结果之后，所述方法还包括：

根据预设方式计算所述前景分割结果与标签结果的损失函数，其中，所述标签结果用于指示所述第二视频帧的目标前景分割结果；

根据所述损失函数计算所述损失函数对应的梯度，并根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数，其中，所述第一网络参数用于指示第一映射函数的参数，其中，所述第一映射函数用于根据所述第二视频帧获取所述第二特征图像中像素点的向量，第二网络参数用于指示第二映射函数的参数，其中，所述第二映射函数用于根据所述第二特征图像中像素点的向量以及所述第二视频帧的上一视频帧的第三中间状态确定第二视频帧的第四中间状态，其中，所述第四中间状态用于指示所述第二视频帧序列中所述第二视频帧以及所述第二视频帧的之前的所有视频帧的第二特征信息。

5.根据权利要求4所述的前景图像的确定方法，其特征在于，根据所述梯度更新所述卷积神经网络的第一网络参数和所述时序网络的第二网络参数之后，所述方法还包括：

确定已更新第一网络参数的目标卷积神经网络和已更新第二网络参数的目标时序网络；

将第三视频帧输入到所述目标卷积神经网络，获得第三视频帧对应的第三特征图像中像素点的向量，其中，所述第三视频帧与所述第一视频帧对应同一场景；

将所述第三特征图像中像素点的向量以及所述第三视频帧的上一视频帧的第五中间状态输入到所述目标时序网络；

根据所述目标时序网络中的目标背景模型获取所述第三视频帧的第六中间状态和所述第三视频帧对应的目标前景分割结果。

6.根据权利要求1所述的前景图像的确定方法，其特征在于，将第一视频帧输入到卷积神经网络，获得第一视频帧对应的第一特征图像中像素点的向量，包括：

获取第一视频帧的所述视频帧序列对应的当前场景；

根据所述当前场景对卷积神经网络的网络层的参数要求确定目标网络层；

将所述第一视频帧输入到所述卷积神经网络的目标网络层，获得第一视频帧对应的第一特征图像中像素点的向量。

7.一种前景图像的确定装置，其特征在于，包括：

第一获取模块，用于将第一视频帧输入到卷积神经网络，获得所述第一视频帧对应的第一特征图像中像素点的向量；

第二获取模块，用于将所述第一特征图像中像素点的向量以及第一中间状态输入到时序网络中，获得第二中间状态，其中，所述第一中间状态用于指示视频帧序列中第一视频帧的上一视频帧以及所述上一视频帧之前的所有视频帧的第一特征信息，所述第二中间状态用于指示所述视频帧序列中第一视频帧以及第一视频帧之前的所有视频帧的第二特征信息，所述上一视频帧与第一视频帧为第一视频帧序列中相邻的两个视频帧；

确定模块，用于利用所述时序网络，根据所述第二中间状态建立背景模型，并根据所述背景模型从所述第一视频帧序列对应的当前场景图像中分割出前景图像。

8.根据权利要求7所述的前景图像的确定装置，其特征在于，包括：

第二获取模块，还用于将所述第一特征图像中像素点的向量以及所述第一视频帧的上一视频帧的第一中间状态输入到时序网络中，通过预设算法获取所述第一视频帧的第二中间状态，其中，所述预设算法至少包括以下之一：循环门单元GRU算法，长短期记忆网络LSTM算法。

9.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。