CN114359333A

CN114359333A - 运动目标提取方法、装置、计算机设备和存储介质

Info

Publication number: CN114359333A
Application number: CN202111671998.4A
Authority: CN
Inventors: 沈丰毅; 肖春林
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15

Abstract

本发明属于视频处理领域，具体提供一种运动目标提取方法、装置、计算机设备和存储介质，旨在解决如何将运动目标从图像中分割出来，并精确地获取运动目标轮廓和该运动目标的运动轨迹的问题。为此目的，本发明的方法包括：通过跳帧的方式选取视频图像；将待处理图像和背景图像送入训练好的前景提取网络进行语义分割，从而获取包含有前景目标的掩膜图；融合多张掩膜图的信息提取运动目标。应用本发明的方法，通过采用基于义分割卷积神经网络，提高了运动目标识别的速度；通过跳帧策略进一步加快了视频处理速度；并且通过将待处理图像和背景图像同时送入卷积神经网络，在提高前景目标分割准确性同时，大大提高了网络的抗干扰能力。

Description

运动目标提取方法、装置、计算机设备和存储介质

技术领域

本发明属于视频处理领域，具体提供一种运动目标提取方法、装置、计算机设备和存储介质。

背景技术

视频浓缩是对视频内容的一个简单概括，通过对视频中的运动目标进行算法分析，提取运动目标，然后对各个目标的运动轨迹进行分析，将不同的目标拼接到一个共同的背景场景中，并将它们以某种方式进行组合，同时展示不同时间出现的多个对象和活动，从而让观看视频的人员能在短短几分钟内看完数个甚至数十个小时的视频。其中，视频浓缩最关键的一个步骤为提取视频中的运动目标，这直接关系到了最终合成视频的质量和准确度。

当前运动目标提取主要面临以下困难，一是运动目标的类别不确定，一些常见目标提取算法，如目标检测或实例分割算法，往往只能提取固定类别的目标，对于在其训练集内不存在的类别，召回率很低，因此对于视频浓缩来说不够通用。二是存在一定时间内相对静止的目标，一些算法可以通过分析前后多帧的信息，提取出视频中的运动目标，但是往往存在准确率往往不高的问题，并且由于需要分析多帧图像，视频速度较慢。三是视频中的一些微小扰动，一些比较传统的图像处理算法，如帧差法等方法虽然可以得到运动目标，但准确率较低，并且容易出现误检；而光流法等方法虽然准确率较高，但视频处理速度慢，难以满足实时检测的需求。因此，如何将运动目标从背景图像中分割出来，并精确地获取运动目标轮廓和该运动目标的运动轨迹，已成为亟待解决的问题。

相应地，本领域需要一种新的方案来解决上述问题。

发明内容

本发明旨在解决上述技术问题，即如何将运动目标从背景图像中分割出来，并精确地获取运动目标轮廓和该运动目标的运动轨迹的问题。

在第一方面，本发明提供一种运动目标提取方法，所述方法包括：

获取背景图像；

根据第一跳帧规则，从第一待处理视频中获取第一图像；

基于所述第一图像和所述背景图像，得到第一掩模图序列；

根据所述第一掩膜图序列，从所述第一待处理视频中获取第二待处理视频；

根据第二跳帧规则，从所述第二待处理视频中获取第二图像；

基于所述第二图像和所述背景图像，得到第二掩模图序列；

基于所述第二掩膜图序列，获取所述运动目标的运动轨迹。

在上述运动目标提取方法的一个实施方式中，“基于所述第一图像和所述背景图像，得到第一掩模图序列”的步骤具体包括，依次将所述第一图像和所述背景图像送入训练好的前景提取网络进行语义分割，得到所述第一掩膜图序列，所述第一掩膜图序列包含多张第一掩膜图；

“基于所述第二图像和所述背景图像，得到第二掩模图序列”的步骤具体包括，依次将所述第二图像和所述背景图像送入所述训练好的前景提取网络进行语义分割，得到所述第二掩膜图序列，所述第二掩膜图序列包含多张第二掩膜图；

所述前景提取网络为卷积神经网络；

所述第一掩膜图和所述第二掩膜图的语义信息相同，所述语义信息包括，像素值为1的位置表示存在前景目标，所述像素值为0的位置表示不存在所述前景目标。

在上述运动目标提取方法的一个实施方式中，所述方法还包括：

标记所述第二掩膜图中像素值为1的连通域；

根据所述连通域，获取所述前景目标在所述第二掩膜图中的位置信息，所述位置信息包括前景目标ID和所述前景目标ID所对应的矩形框，所述前景目标ID的数量为一个或多个。

在上述运动目标提取方法的一个实施方式中，所述前景目标包括第一前景目标和第二前景目标，所述第一前景目标为第一结果图像中的所述前景目标，所述第二前景目标为第二结果图像中的所述前景目标，所述第一结果图像和所述第二结果图像为所述第二掩膜图序列中相邻的两张所述第二掩膜图，所述第二结果图像为所述第一结果图像前一帧的所述第二掩膜图，所述位置信息包括第一位置信息、第二位置信息和预测位置信息，所述第一位置信息、所述第二位置信息和所述预测位置信息均包括各自的所述前景目标ID和所述各自的所述前景目标ID所对应的矩形框；

“基于所述第二掩膜图序列，获取所述运动目标的运动轨迹”的步骤具体包括：

获取所述第一前景目标的所述第一位置信息；

获取所述第二前景目标在所述第一结果图像所对应时刻的所述预测位置信息；

获取所述第一位置信息中的矩形框和所述预测位置信息中的矩形框的IoU值；

根据所述IoU值，获取所述运动目标的所述运动轨迹。

在上述运动目标提取方法的一个实施方式中，“根据所述IoU值，获取所述运动目标的所述运动轨迹”的步骤具体包括：

获取所述第二前景目标的所述第二位置信息；

将所述IoU值作为KM算法的权值，通过所述KM算法得到所述第一前景目标和所述第二前景目标的运动目标匹配度；

当所述运动目标匹配度大于或等于运动目标匹配度阈值时，则判定所述第一前景目标和所述第二前景目标为同一个所述运动目标；

根据所述第一位置信息和所述第二位置信息，获取所述运动目标的所述运动轨迹。

在上述运动目标提取方法的一个实施方式中，所述前景目标还包括第三前景目标，所述第三前景目标为第三结果图像中的所述前景目标，所述第三结果图像为所述第二掩膜图序列中所述第二结果图像第前M帧的所述第二掩膜图，M为大于或等于1的整数；

“获取所述第二前景目标在所述第一结果图像所对应时刻的所述预测位置信息”的步骤具体包括：

获取所述第二前景目标的当前速度；

获取所述第三前景目标的历史速度，其中，所述第三前景目标和所述第二前景目标对应的所述运动目标相同；

根据所述当前速度和所述历史速度，获取所述第二前景目标的预测速度；

根据所述预测速度，以及所述第二结果图像和所述第一结果图像之间的时间差，得到所述预测位置信息的矩形框的中心点；

根据所述预测位置信息的矩形框的中心点，获取所述预测位置信息。

在上述运动目标提取方法的一个实施方式中，“根据所述预测位置信息的矩形框的中心点，获取所述预测位置信息”的步骤具体包括：

所述预测位置信息的矩形框的宽度和高度分别为所述第二结果图像，以及所述第二结果图像前N帧的所述第二掩膜图中的同一所述运动目标所对应的各所述前景目标的位置信息中的矩形框的宽度和高度的平均值，其中，N为大于或等于1的整数。

在上述运动目标提取方法的一个实施方式中，“获取背景图像”的方法包括：

获取初始的所述背景图像；

“获取初始的所述背景图像”的步骤具体包括：

根据第三跳帧规则，从所述第一待处理视频的起始阶段指定的时间范围内获取第三图像；

基于所述第三图像，通过中值滤波算法得到所述初始的所述背景图像。

在上述运动目标提取方法的一个实施方式中，“获取背景图像”的方法还包括：

维护所述背景图像；

“维护所述背景图像”的步骤具体包括：

根据第四跳帧规则，从所述第一待处理视频中获取第四图像；

将所述第四图像和历史背景图像送入所述训练好的前景提取网络，得到第三掩膜图，其中，所述历史背景图像为所述第四图像所对应时刻之前的所述背景图像；

根据所述第四图像、所述第三掩膜图和所述历史背景图像，更新所述背景图像。

在上述运动目标提取方法的一个实施方式中，在获取所述第一掩膜图序列过程中，维护所述背景图像；

并且/或者，在获取所述第二掩膜图序列过程中，维护所述背景图像。

在上述运动目标提取方法的一个实施方式中，“根据所述第一掩膜图序列，从所述第一待处理视频中获取第二待处理视频”的步骤具体包括：

根据所述第一掩膜图中像素为1的像素数量，得到所述第一掩膜图的前景目标占比值；

当所述前景目标占比值大于或等于前景目标占比阈值时，则判定所述第一掩膜图中存在所述前景目标；

逐一检查所述第一掩膜图序列中的所述第一掩膜图是否存在所述前景目标；

当相邻的两张所述第一掩膜图都存在所述前景目标时，获取所述相邻的两张所述第一掩膜图对应的时间范围内的所述第一待处理视频，得到所述第二待处理视频。

在第二方面，本发明提出了一种运动目标提取装置，所述装置包括：

背景获取模块，所述背景获取模块被配置成执行以下操作：

获取初始的所述背景图像，

维护所述背景图像；

图像获取模块，所述图像获取模块被配置成执行以下操作：

根据第一跳帧规则，从第一待处理视频中获取第一图像，

根据第一掩膜图序列，从所述第一待处理视频中获取第二待处理视频，

前景目标分割模块，所述前景目标分割模块被配置成执行以下操作：

基于所述第一图像和所述背景图像，得到第一掩模图序列，

基于所述第二图像和所述背景图像，得到第二掩模图序列；

运动目标提取模块，所述运动目标提取模块被配置成根据所述第二掩膜图序列，获取所述运动目标的运动轨迹。

在上述运动目标提取装置的一个实施方式中，所述前景目标分割模块被配置成执行以下具体操作：

依次将所述第一图像和所述背景图像送入训练好的前景提取网络进行语义分割，得到所述第一掩膜图序列，所述第一掩膜图序列包含多张第一掩膜图；

依次将所述第二图像和所述背景图像送入所述训练好的前景提取网络进行语义分割，得到所述第二掩膜图序列，所述第二掩膜图序列包含多张第二掩膜图；

所述前景提取网络为卷积神经网络；

在第三方面，本发明提出了一种计算机设备，所述设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项方案所述的运动目标提取方法。

在第四方面，本发明提出了一种存储介质，所述存储介质适于存储多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项方案所述的运动目标提取方法。

在采用上述技术方案的情况下，本发明采用语义分割卷积神经网络，提高了运动目标识别的速度，通过跳帧策略进一步加快了视频处理速度。并且通过将视频当前帧的图像和背景图像同时送入卷积神经网络，能够分割出任一类别的不存在于背景的物体，并通过神经网络强大的学习能力，可以排除视频中一些微小的扰动，提高了网络的抗干扰能力。

附图说明

下面结合附图来描述本发明的优选实施方式，附图中：

图1是本发明实施例的运动目标提取方法的主要步骤流程图。

图2是本发明实施例的前景提取网络的语义分割的示意图。

图3是图1中的步骤S107的具体实现流程图。

图4是图3中的步骤S1072的具体实现流程图。

图5是本发明实施例的运动目标提取装置组成结构的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将参照附图，对本发明实施例的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。本领域技术人员可以根据需要对其作出调整，以便适应具体的应用场合。

首先阅读图1，图1是本发明实施例的运动目标提取方法的主要步骤流程图。如图1所示，本发明实施例的运动目标提取方法包括：

步骤S101：获取背景图像；

步骤S102：根据第一跳帧规则，从第一待处理视频中获取第一图像；

步骤S103：基于第一图像和背景图像，得到第一掩模图序列；

步骤S104：根据第一掩膜图序列，从第一待处理视频中获取第二待处理视频；

步骤S105：根据第二跳帧规则，从第二待处理视频中获取第二图像；

步骤S106：基于第二图像和背景图像，得到第二掩模图序列；

步骤S107：基于第二掩膜图序列，获取运动目标的运动轨迹。

在本实施例中，视频采集设备为位置、角度固定的摄像机，作为示例，如超市中的安防摄像机、道路上的安防摄像机等，摄像机所拍摄场景在一定时间范围内相对固定，也就是说，视频中具有相对固定的背景图像。

当需要对某一时间段内的历史视频进行视频浓缩时，在步骤S101中，首先需要获取待处理视频的工作场景的初始背景图像。优选地，根据第三跳帧规则，截取第一待处理视频的起始阶段的指定时间范围内的图像，得到第三图像，其中，第一待处理视频为需要进行视频浓缩的视频文件。作为示例，第三跳帧规则可以设置为每100帧截取一帧图像，指定的时间范围为视频文件前30秒的视频，当第一待处理视频每秒包括25帧时，从第一帧图像开始截取第一待处理视频中的图像，得到8张尺寸相同的第三图像。

优选地，通过中值滤波算法将这8张第三图像进行融合，得到初始的背景图像。作为示例，当第三图像为RGB格式时，可将8张第三图像中同一位置的像素的颜色数据看做3组(R、G、B)具有8个数据的一维数列，分别对8张第三图像中同一位置的像素的8个R数值、8个G数值、8个B数值进行一维中值滤波，得到更能反映真实背景的、融合了8张第三图像信息的初始的背景图像。

在另一实施例中，首先对8张第三图像分别进行二维图像矩阵的中值滤波处理，二维中值滤波的子矩阵窗口的大小和/或形状可根据实际情况选择，作为示例，如选择3*3的矩形窗口。再根据前述的方法，对8张经二维中值滤波处理的第三图像的同一位置的像素进行一维中值滤波处理，从而得到初始的背景图像。一维或二维中值滤波算法可使用C语言、OpenCV软件库或是其他计算机工具实现。

在本实施例中，为了加快视频处理速度，采用跳帧的方式，检测第一待处理视频中是否存在前景目标。在步骤S102中，根据第一跳帧规则，从第一待处理视频中获取第一图像。第一跳帧规则所跳过的帧数越多，检测的速度就越快，但是，当间隔太大时，漏检的概率会大大增加，因此需要合理选择第一跳帧规则，以兼顾效率和效果。作为示例，视频文件采用H.264标准压缩时，第一跳帧规则可设置为截取解码后视频的I帧。之所以选择I帧作为第一跳帧规则，是因为I帧也被称为关键帧，它是帧间压缩编码里的重要帧，是一个全帧压缩的编码帧，解码时仅用I帧的数据就可重构完整图像。

在步骤S103中，按照视频的时间顺序，依次将第一图像和背景图像同时送入已经训练好的前景提取网络进行语义分割，得到由多张第一掩膜图组成的第一掩膜图序列。优选地，前景提取网络选用卷积神经网络中的BiSeNet v2网络。BiSeNet v2网络是一种实时语义分割网络，它将空间细节和分类语义分开处理，从而实现高精度和高效率的实时语义分割。

如图2所述，BiSeNet v2网络的输出为二值化后的掩膜图，在本实施例中，掩膜图的语义信息为：像素值为1的位置(掩膜图中白色的部分)表示存在前景目标，像素值为0的位置(掩膜图中黑色的部分)表示不存在前景目标，为背景图像部分，即掩膜图中像素值为1的区域为待处理图像中可能是运动目标的区域。在本实施例中的掩模图，包括步骤S103中的第一掩模图、步骤S106中的第二掩模图以及第三掩模图。

在步骤S104中，计算第一掩膜图序列中每张第一掩膜图中像素值为1的像素数量在该第一掩膜图中所占的比例，得到前景目标占比值，当前景目标占比值大于或等于预先设定的前景目标占比阈值时，则判定该第一掩膜图中存在前景目标。作为示例，可根据场景中通常出现的运动目标的类型，运动目标在摄像机视野范围内的大小等来设置，例如可将前景目标占比阈值设置为5％，当第一掩膜图中像素值为1的像素在该第一掩膜图中所占的比例超过5％时，则判定该第一掩膜图中包含前景目标。

逐一检查第一掩膜图序列中相邻的两张第一掩膜图是否均包含前景目标。当相邻的两张第一掩膜图都包含前景目标时，则选取这两张第一掩膜图所对应的时间范围内的第一待处理视频作为第二待处理视频。

从上述获取第二待处理视频的方法可以得知，第二待处理视频为包含有前景目标的视频，这样在后续的数据处理中，只需对包含有前景目标的第一待处理视频进行处理，而不需处理只有背景的待处理视频，这大大提高了图像处理的速度。

在步骤S105中，根据第二跳帧规则，从第二待处理视频中获取第二图像。为了获取更准确地提取运动目标，第二跳帧规则可以设置为逐帧。在其它一些实施例中，为了获取更快的处理速度，也可将第二跳帧规则设置每隔一帧或多帧，但是这会降低运动目标提取的准确性。

在步骤S106中，同样地，按照视频的时间顺序，依次将步骤S105中获取的第二图像和背景图像同时送入与步骤S103为同一个的已经训练好的前景提取网络进行语义分割，得到由多张第二掩膜图组成的第二掩膜图序列。同样，第二掩膜图为二值化后的掩膜图，像素值为1的位置表示存在前景目标，像素值为0的位置表示不存在前景目标。

在执行步骤S107前，需要获取每个第二前景目标在第二掩膜图中的位置信息。首先标记第二掩膜图中像素值为1的连通域，连通域的标记方法本发明不做限定，作为示例，可通过OpenCV中的connectedComponentsWithStats函数实现，并且该函数可以区分不同的连通域，从而区分出不同的前景目标。

再根据连通域，绘制该连通域的在第二掩膜图中的矩形框，矩形框的绘制方法本发明不做限定，作为示例，可通过OpenCV中的BoundingRect函数获取连通域的矩形轮廓。

当视频中有多个运动目标时，相应地，第二掩膜图中会包含多个矩形框，逐一对每个矩形框进行编号，得到前景目标在第二掩膜图中的位置信息，位置信息包括前景目标ID和前景目标ID所对应的矩形框，并且前景目标ID可以是一个也可以是多个。在本实施例中，选取第二掩膜图左上顶点为像素坐标系的原点，矩形框可以表示为S_n(u,v,w,h)，其中，u和v为矩形框的中心点在像素坐标系中的行坐标值和列坐标值，w为矩形框的宽度值，h为矩形框的高度值，n为前景目标ID的编号。

需要说明的是，在本实施例的步骤S104中，只对第一掩膜图中的0和1的像素数量进行了统计，通过第一掩膜图中的0和1的像素数量即可进行前景目标有无的判断，并未进行连通域、矩形框的处理，这可以进一步提高视频处理的速度。同样地，步骤S104也可参照步骤S107中的方法标记连通域，获取矩形框，通过连通域或矩形框的比例来判断第一掩膜图中是否存在前景目标。

接下来结合图3，说明步骤S107的具体实现方法。

根据时间顺序，选择相邻的两张第二掩膜图，即第一结果图像和第二结果图像，并且第二结果图像为第一结果图像前一帧的第二掩膜图，第一结果图像所对应的时刻为A，第二结果图像所对应的时刻为B。

需要说明的是，在步骤S107中，前景目标包括第一前景目标和第二前景目标，第一前景目标为第一结果图像中的前景目标，第二前景目标为第二结果图像中的前景目标。在本实施例中，对于不同图像中或不同用途的位置信息，位置信息又进一步包括第一位置信息、第二位置信息、第三位置信息、预测位置信息等，它们都具有共同的技术特征，即均包含各自的前景目标ID及各自的前景目标ID所对应的矩形框。

在步骤S1071中，获取第一结果图像中的第一前景目标的第一位置信息，第一结果图像所对应的时刻为A，在第一结果图像中包含n个第一前景目标，第一前景目标的第一位置信息可以表示为

S(A)_n(u1,v1,w1,h1)。

在步骤S1072中，获取第二结果图像中的第二前景目标在第一结果图像所对应时刻的预测位置信息，该预测位置信息的内容为：根据第二结果图像以及第二结果图像所对应的B时刻之前的指定时间范围内的第二掩膜图的位置信息，预测第二前景目标在A时刻将会位于第二掩模图的预测位置信息，预测位置信息可表示为S′(A)_n(u′,v′,w′,h′)。

接下来结合图4说明步骤S1072的具体实现方法。在步骤S401中，获取第二前景目标的当前速度。为此目的，还需要用到第三结果图像的信息，第三结果图像为第二掩膜图序列中第二结果图像之前第M帧的第二掩膜图，第三结果图像所对应的时刻为C，M为大于或等于1的整数，作为示例，M可设置为1。

前景目标还包括第三前景目标，第三前景目标为第三结果图像中的前景目标。由前述可知，位置信息还包括第二位置信息和第三位置信息，第二位置信息为第二前景目标的位置信息，第三位置信息为第三前景目标的位置信息。第二位置信息可以表示为S(B)_n(u2,v2,w2,h2)，第三位置信息可以表示为S(C)_n(u3,v3,w3,h3)。

第二位置信息中的矩形框的中心点(u2,v2)和第三位置信息中的矩形框的中心点(u3,v3)之间的U轴和V轴的位置差，除以第二结果图像和第三结果图像之间的时间差，即可得到第二前景目标

在U轴的当前速度为：vU(B)_n＝(u2-u3)/|B-C|，

在V轴的当前速度为：vV(B)_n＝(v2-v3)/|B-C|，

其中，速度的正负号表示运动目标在U轴或V轴的运动方向。

同样方法，根据第三结果图像之前第W帧的第二掩膜图的信息，W为大于或等于1的整数。在步骤S402中获取第三前景目标的历史速度，得到第三前景目标U轴的历史速度vU(C)_n和V轴的历史速度vV(C)_n，作为示例，W可设置为10。

在步骤S403中，融合当前速度和历史速度得到第二前景目标的预测速度。作为示例，U轴的预测速度获取方法为：

v′U(B)_n＝α*vU(B)_n+(1-α)*vU(C)_n；

V轴的预测速度获取方法为：

v′V(B)_n＝β*vV(B)_n+(1-β)*vV(C)_n；

其中，α和β为预先设定的0～1之间的系数，所为示例，α＝0.1，β＝0.1。

获取预测速度后，在步骤S404中，根据第二结果图像和第一结果图像之间的时间差，以及第二前景目标在第二结果图像中的位置信息，得到预测位置信息的矩形框的预测中心点，具体方法为：

u′＝u2+v′U(B)_n*|A-B|，

v′＝v2+v′V(B)_n*|A-B|。

在步骤S405中，得到预测位置信息的矩形框的预测中心点后，将第二结果图像，以及第二结果图像前N帧的第二掩膜图中的运动目标所对应的各前景目标的位置信息中的矩形框的长度和宽度计算平均值，得到w′,h′的值，从而得到预测位置信息S′(A)_n(u′,v′,w′,h′)。

继续阅读步骤S1073，计算第一位置信息中的矩形框和预测位置信息中的矩形框的IoU值(Intersection-over-Union，交并比)。IoU的计算方法，本发明不做限定，作为示例，可通过OpevCV的Rect函数来进行IoU的计算。

在步骤S1074中，将步骤S1073得到的IoU值作为KM算法的权值，得到第一结果图像中的第一前景目标和第二结果图像中第二前景目标的运动目标匹配度。KM算法为带权二分图最佳匹配的算法，KM算法为本领域公知技术，具体实现方法在此不再赘述。

当运动目标匹配度大于或等于运动目标匹配度阈值时，则判定第一前景目标和第二前景目标为同一个运动目标，将第一前景目标的前景目标ID和第二前景目标的前景目标ID对应到同一个运动目标(该运动目标具有唯一的运动目标ID)，并在数据库中记录该运动目标ID及其在不同第二掩膜图中的矩形框的中心点位置，从而得到运动目标ID、待处理视频中的位置、该运动目标在图像中位置的对应关系数据。作为示例，运动目标匹配度阈值可以设置为0.3，或是根据实际情况设置为其他数值。

依照时间顺序，将第二掩膜图中的相邻帧的图像按照上述方法进行匹配，并记录每个运动目标的运动目标ID及其在待视频中的每帧图像中的位置，从而在待处理视频中提取全部的运动目标。

需要说明的是，KM算法可以实现多目标匹配，也就是说，当有多个第一前景目标和多个第二前景目标时，通过KM算法可以实现多目标的运动轨迹提取。

为了解决由于遮挡、部分帧漏检造成的前景目标不连续的情况，可设置，当第二前景目标在第一结果图像中没有匹配的第一前景目标时，该第二前景目标也将会保留一定时间，并继续参与运动目标的匹配。作为示例，第二前景目标保留的最大后续帧数为K帧，K的值可设置为50帧。也就是说，在后续的最大50帧范围内，该第二前景目标都将参与匹配，如果在后续的50帧范围内能够匹配成功，则仍然认为是同一个运动目标，并记录该运动目标的轨迹；如果超过50帧还没有匹配成功，则终止该第二前景目标所对应的运动目标的轨迹记录。这样，即使出现遮挡、部分帧漏检等情况，通过本发明的方法，也能够持续跟踪运动目标而不让运动轨迹变为两段。

在前景目标分割的处理过程中，首先送入前景提取网络的是通过中值滤波算法获取的待处理视频中开始阶段的初始的背景图像，为了在整个视频浓缩过程中获取更准确的背景图像，通常需要定时地更新背景图像。用户可以选择，只在获取第一掩膜图序列过程中更新背景图像，或者只在获取第二掩膜图序列过程中更新背景图像。也可以选择在获取第一掩膜图序列过程中和获取第二掩膜图序列过程中都更新背景图像，此时，将会获得更准确的目标分割效果。

接下来说明维护背景图像的方法。根据第四跳帧规则，首先从第一待处理视频中获取第四图像，再将第四图像和历史背景图像送入与步骤S103中为同一个的训练好的前景提取网络，得到第三掩膜图。第三掩膜图和第一掩模图、第二掩模图的语义信息相同，同样为像素值为1的位置表示存在前景目标，像素值为0的位置表示不存在前景目标。历史背景图像为第四图像所对应时刻之前的背景图像。

融合第四图像、第三掩膜图和历史背景图像得到新的背景图像，具体方法为，如果第三掩模图中对应第四图像的位置的像素值为1(有运动目标)，则第四图像该位置不参与背景图像的融合，该位置像素值乘以0；如果第三掩模图的像素值为0(没有运动目标)，则第四图像该位置像素值乘以系数θ，得到第一融合背景图像。

如果第三掩模图中对应历史背景图像的位置的像素值为1(有运动目标)，则历史背景图像该位置不参与背景图像的融合，该位置像素值乘以0；如果第三掩模图的像素值为0(没有运动目标)，则历史背景图像该位置像素值乘以系数1-θ，得到第二融合背景图像。

将第一融合背景图像和第二融合背景图像对应位置的像素值相加，得到新的背景图像，并用新的背景图像更新历史背景图像。θ为预先设定的0～1之间的系数，作为示例，θ可以设置为0.5。

需要说明的是，背景图像的维护，也可以结合第一掩膜图序列的第一掩膜图中是否存在前景目标来确定第四跳帧规则，尽量选取没有前景目标的视频帧来更新背景图像，以获取效果更好的背景图像，这将有助于提高的语义分割的准确性。

需要说明的是，送入前景提取网络的背景图像、第一图像、第二图像、第三图像等，均需要根据前景提取网络的输入要求进行图像预处理。图像预处理的方法包括且不限于图像缩放、图像填充、图像存储格式转换、归一化等。

在本实施例中，前景提取网络需要同时输入背景图像和视频中截取的待处理图像，因此本发明的网络具有两路输入，每路输入的要求均相同，如图像分辨率为512*288，输入的通道数为3。因此，首先通过比例缩放、填充等方法，将截取的视频图像的尺寸转换成分辨率为512*288的第一中间图像；再将第一中间图像的格式转换成RGB格式，得到第二中间图像；为了加快图像处理速度，将第二中间图像的每个像素的R、G、B的值进行归一化处理，例如，将R、G、B的值从0-255归一化到0-1，得到符合前景提取网络输入要求的图像。

需要说明的是，卷积神经网络的训练方法，本发明不做限定，作为示例，可选用CDNet 2014数据集或自建的数据集训练卷积神经网络。

需要说明的是，设置跳帧规则的原因是在保证视频处理效果的前提下，以便获得更快的视频处理速度。尽管这里列举了几种跳帧规则的示例，但是，本领域技术人员能够理解的是，这些例子不应对本发明的保护范围构成任何限制。在不改变本发明的基本原理的前提下，本领域技术人员可以根据视频中运动目标的实际情况设置第一跳帧规则、第二跳帧规则、第三跳帧规则和第四跳帧规则。

需要说明的是，本发明的目标提取方法包括且不限于视频浓缩的应用场景。同样也适用于其他需要提取运动目标的应用场景，如视频摘要、运动目标跟踪、运动目标识别等。

进一步，本发明还提供了一种目标提取装置。如图5所示，本发明实施例的目标提取装置5主要包括：背景获取模块51、图像获取模块52、前景目标分割模块53和运动目标提取模块54。

作为示例，背景获取模块51被配置成执行步骤S101中的操作。图像获取模块52被配置成执行步骤S102、步骤S104、步骤S105中的操作。前景目标分割模块53被配置成执行步骤S103、步骤S106中的操作。运动目标提取模块54被配置成执行步骤S107、步骤S1071～步骤S1074以及步骤S401～步骤S405的操作。

进一步，本发明还提供了一种计算机设备，该计算机设备包括处理器和存储装置，存储装置可以被配置成存储并执行上述方法实施例的运动目标提取方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的运动目标提取方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该运动目标提取设备可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种存储介质，该存储介质可以被配置成存储执行上述方法实施例的运动目标提取方法的程序，该程序可以由处理器加载并运行来实现上述运动目标提取方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该存储介质可以是包括各种电子设备形成的存储装置设备，可选地，本发明实施例中存储介质是非暂时性的可读写存储介质。

本领域技术人员应该能够意识到，结合本文中所公开的实施例描述的各示例的方法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明电子硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

需要说明的是，在本申请的描述中，术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等序数词仅用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种运动目标提取方法，其特征在于，所述方法包括：

获取背景图像；

根据第一跳帧规则，从第一待处理视频中获取第一图像；

基于所述第一图像和所述背景图像，得到第一掩模图序列；

基于所述第二图像和所述背景图像，得到第二掩模图序列；

基于所述第二掩膜图序列，获取所述运动目标的运动轨迹。

2.根据权利要求1所述的运动目标提取方法，其特征在于，

“基于所述第一图像和所述背景图像，得到第一掩模图序列”的步骤具体包括，依次将所述第一图像和所述背景图像送入训练好的前景提取网络进行语义分割，得到所述第一掩膜图序列，所述第一掩膜图序列包含多张第一掩膜图；

所述前景提取网络为卷积神经网络；

3.根据权利要求2所述的运动目标提取方法，其特征在于，所述方法还包括：

标记所述第二掩膜图中像素值为1的连通域；

4.根据权利要求3所述的运动目标提取方法，其特征在于，所述前景目标包括第一前景目标和第二前景目标，所述第一前景目标为第一结果图像中的所述前景目标，所述第二前景目标为第二结果图像中的所述前景目标，所述第一结果图像和所述第二结果图像为所述第二掩膜图序列中相邻的两张所述第二掩膜图，所述第二结果图像为所述第一结果图像前一帧的所述第二掩膜图，所述位置信息包括第一位置信息、第二位置信息和预测位置信息，所述第一位置信息、所述第二位置信息和所述预测位置信息均包括各自的所述前景目标ID和所述各自的所述前景目标ID所对应的矩形框；

获取所述第一前景目标的所述第一位置信息；

根据所述IoU值，获取所述运动目标的所述运动轨迹。

5.根据权利要求4所述的运动目标提取方法，其特征在于，“根据所述IoU值，获取所述运动目标的所述运动轨迹”的步骤具体包括：

获取所述第二前景目标的所述第二位置信息；

6.根据权利要求4所述的运动目标提取方法，其特征在于，所述前景目标还包括第三前景目标，所述第三前景目标为第三结果图像中的所述前景目标，所述第三结果图像为所述第二掩膜图序列中所述第二结果图像第前M帧的所述第二掩膜图，M为大于或等于1的整数；

获取所述第二前景目标的当前速度；

7.根据权利要求6所述的运动目标提取方法，其特征在于，“根据所述预测位置信息的矩形框的中心点，获取所述预测位置信息”的步骤具体包括：

8.根据权利要求1所述的运动目标提取方法，其特征在于，“获取背景图像”的方法包括：

获取初始的所述背景图像；

“获取初始的所述背景图像”的步骤具体包括：

9.根据权利要求1所述的运动目标提取方法，其特征在于，“获取背景图像”的方法还包括：

维护所述背景图像；

“维护所述背景图像”的步骤具体包括：

10.根据权利要求9所述的运动目标提取方法，其特征在于，

在获取所述第一掩膜图序列过程中，维护所述背景图像；

11.根据权利要求2所述的运动目标提取方法，其特征在于，“根据所述第一掩膜图序列，从所述第一待处理视频中获取第二待处理视频”的步骤具体包括：

12.一种运动目标提取装置，其特征在于，所述装置包括：

背景获取模块，所述背景获取模块被配置成执行以下操作：

获取初始的所述背景图像，

维护所述背景图像；

图像获取模块，所述图像获取模块被配置成执行以下操作：

根据第一跳帧规则，从第一待处理视频中获取第一图像，

基于所述第一图像和所述背景图像，得到第一掩模图序列，

基于所述第二图像和所述背景图像，得到第二掩模图序列；

13.根据权利要求12所述的运动目标提取装置，其特征在于，所述前景目标分割模块被配置成执行以下具体操作：

所述前景提取网络为卷积神经网络；

14.一种计算机设备，所述设备包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至11中任一项所述的运动目标提取方法。

15.一种存储介质，所述存储介质适于存储多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至11中任一项所述的运动目标提取方法。