CN112529931A

CN112529931A - 一种前景分割的方法及***

Info

Publication number: CN112529931A
Application number: CN202011539304.7A
Authority: CN
Inventors: 梁栋; 魏宗琪; 耿其祥; 孙涵; 张立言; 刘宁钟
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-03-19
Anticipated expiration: 2040-12-23
Also published as: CN112529931B

Abstract

本发明公开了一种前景分割的方法及***。该方法包括：获取当前视频帧；获取当前时刻前的第一视频帧、第二视频帧和第三视频帧；根据当前视频帧、第一视频帧、第二视频帧和第三视频帧，生成分层光流图；向分层光流注意力模型输入当前视频帧和分层光流，得到前景分割矩阵；将前景分割矩阵进行可视化处理，得到分割结果。采用本发明的方法及***，能够在实现跨场景前景分割的同时，保证分割的精度。

Description

一种前景分割的方法及***

技术领域

本发明涉及场景分割技术领域，特别是涉及一种前景分割的方法及***。

背景技术

监控***通常与对象跟踪、重新识别和异常事件警报等多种任务集成在一起，而这些任务通常包括分割任务。视频前景分割算法是分割任务中的子任务，目的是识别场景中的运动目标(即前景)，在监控***中起着重要作用。目前，前景分割的模型包括传统的背景差分模型和基于深度学***德斯)背景重构、使用KDE(Kernel Density Estimate，核密度估计)的前景分割和ViBe(visualbackground extractor，视频背景提取算法)模型，传统背景差分模型通过学习视频场景中的背景，然后通过差分的方式得到场景中的运动目标。这种方法无法获取未训练场景中背景，所以在跨场景前景分割任务中不能有很好的表现。

基于深度学习的分割模型包括DeepLabV3+(Deep Labelling V3+Model，深度标记模型V3+版)、PSPNet(Pyramid scene parsing network，金字塔场景解析网络)和STAM(Spatio-TemporalAttentionModel，时空注意力模型)。现代的语义或实例分割方法(即DeepLabV3+和PSPNet)通过为整个场景提供语义注释来进行前景分割。但是这种方法在跨场景前景分割任务中，为适应不同的场景需要进行大量的注释，而且需要对神经网络进行重新训练，否则前景(尤其是微小的前景)将被错误地分割。

另外，这种方法忽略了前景的运动属性，因此很难区分运动的前景。对此，STAM融合了光流信息，根据相邻视频帧的光流信息，使用端到端的模型直接得到前景的分割结果。然而，STAM虽然对前景的分割效果有了较大的提升，但模型的分割结果仅依赖于瞬时运动反映运动目标整体，分割后的结果存在孔洞问题，在指导跨场景前景分割时同样表现不足。

因此，如何提高跨场景前景分割的分割精度，是本领域技术人员亟待解决的问题。

发明内容

本发明的目的是提供一种前景分割的方法及***，能够在实现跨场景前景分割的同时，保证分割的精度。

为实现上述目的，本发明提供了如下方案：

一种前景分割的方法，包括：

获取当前视频帧；

获取当前时刻前的第一视频帧、第二视频帧和第三视频帧；

根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧，生成分层光流图；

向分层光流注意力模型输入所述当前视频帧和所述分层光流，得到前景分割矩阵；所述分层光流注意力模型是利用类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练得到的；所述类内尺度损失函数是在焦点损失函数的基础上，乘以基于目标面积的损失调整参数得到的；

将所述前景分割矩阵进行可视化处理，得到分割结果。

可选的，所述根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧，生成分层光流图，具体包括：

确定所述当前视频帧相对于所述第一视频帧的光流，得到第一光流信息；

确定所述当前视频帧相对于所述第二视频帧的光流，得到第二光流信息；

确定所述当前视频帧相对于所述第三视频帧的光流，得到第三光流信息；

将所述第一光流信息输入空白图片的R通道，将所述第二光流信息输入空白图片的G通道，将所述第一光流信息输入空白图片的B通道，生成分层光流图。

可选的，在所述向分层光流注意力模型输入所述当前视频帧和所述分层光流，得到前景分割矩阵，之前还包括：

将所述当前视频帧和所述分层光流进行归一化处理。

可选的，所述分层光流注意力模型的训练步骤，具体包括：

将CDNet2014数据集作为训练集，利用所述类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练，得到所述分层光流注意力模型。

可选的，对视频帧编码器、光流解码器和解码器进行一次训练的过程，包括：

在所述CDNet2014数据集中选取一组训练数据，所述训练数据包括视频帧，以及与所述视频帧对应的分层光流图和真值；

将选取的视频帧输入视频帧编码器，得到视频帧特征；

将选取的分层光流图输入光流编码器，得到分层光流特征；

将视频帧特征和所述分层光流特征输入所述解码器进行训练，得到前景分割矩阵；

根据所述真值和所述类内尺度损失函数，计算所述前景分割矩阵的损失并更新所述视频帧编码器、所述光流解码器和所述解码器的参数。

可选的，所述类内尺度损失的公式为：

式中，

其中，Loss_CIS为类内尺度损失函数，α为平衡因子，γ为难易因子，p为模型预测结果的概率值，y为真值，y＝1表示前景，y＝0表示背景，β为基于目标面积的损失调整参数，t为权重系数，fg为运动目标，s(fg)为场景真值中运动目标在场景中所占的比值。

可选的，所述将所述前景分割矩阵进行可视化处理，得到分割结果，具体包括：

将所述前景分割矩阵乘以255，得到扩展后的前景分割矩阵；

根据分割像素阈值，将所述扩展后的前景分割矩阵进行二值化处理，得到分割结果。

可选的，所述根据分割像素阈值，将所述扩展后的前景分割矩阵进行二值化处理，得到分割结果，具体包括：

将所述扩展后的前景分割矩阵中大于所述分割像素阈值的元素均更新为255，得到第一次更新后的前景分割矩阵；

将所述第一次更新后的前景分割矩阵中小于或者等于所述分割像素阈值的元素均更新为0，得到第二次更新后的前景分割矩阵；

将所述得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景，将所述得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景，得到分割结果。

可选的，所述分割像素阈值为15。

一种前景分割的***，所述***包括：

当前视频帧获取模块，用于获取当前视频帧；

第二视频帧获取模块，用于获取当前时刻前的第一视频帧、第二视频帧和第三视频帧；

分层光流图生成模块，用于根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧，生成分层光流图；

前景分割矩阵确定模块，用于向分层光流注意力模型输入所述当前视频帧和所述分层光流，得到前景分割矩阵；所述分层光流注意力模型是利用类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练得到的；所述类内尺度损失函数是在焦点损失函数的基础上，乘以基于目标面积的损失调整参数得到的；

可视化处理模块，用于将所述前景分割矩阵进行可视化处理，得到分割结果。

与现有技术相比，本发明的有益效果是：

本发明提出了一种前景分割的方法及***，该方法在焦点损失函数的基础上，乘以基于目标面积的损失调整参数得到类内尺度损失函数，使用CDNet2014数据集和类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练，得到分层光流注意力模型(Hierarchical Optical Flow Attention Model，HOFAM)，向分层光流注意力模型中输入当前视频帧和分层光流，得到前景分割矩阵，对前景分割矩阵进行可视化处理，得到分割结果。本发明通过获取当前时刻前的多帧视频帧的光流信息，将视频信息的运动目标作为前景分割的关注点，在提高了小面积前景分割的精度的基础上，还简化了跨场景前景分割的步骤，改善了跨场景分割中存在的孔洞问题，提高了跨场景前景分割的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中所提供的前景分割的方流程图；

图2为本发明实施例中所提供中的运用分层光流信息与运用单层光流、双层光流的分割结果对比图；

图3为本发明实施例中所提供的不同场景下分层光流注意力模型与现有模型的可视化分割结果对比图；

图4为本发明实施例中所提供的不同场景下分层光流注意力模型与现有模型的可视化分割结果对比图；

图5为本发明实施例中所提供的使用焦点损失与回归损失函数的可视化结果对比图；

图6为本发明实施例中所提供的分层光流注意力模型结构示意图；

图7为本发明实施例中所提供的分层光流注意力模型训练流程图；

图8为本发明实施例中所提供的前景分割的***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例

图1为本发明实施例中所提供的前景分割的方流程图，如图1所示，本发明提供了一种前景分割的方法，方法包括：

步骤101：获取当前视频帧。

步骤102：获取当前时刻前的第一视频帧、第二视频帧和第三视频帧。

步骤103：根据当前视频帧、第一视频帧、第二视频帧和第三视频帧，生成分层光流图。运用分层光流、单层光流、双层光流的分割结果对比如图2所示。具体的，将当前视频帧、第一视频帧、第二视频帧和第三视频帧输入selflow模型，得到分层光流图。

步骤103，具体包括：

确定当前视频帧相对于第一视频帧的光流，得到第一光流信息。

确定当前视频帧相对于第二视频帧的光流，得到第二光流信息。

确定当前视频帧相对于第三视频帧的光流，得到第三光流信息。

将第一光流信息输入空白图片的R通道，将第二光流信息输入空白图片的G通道，将第一光流信息输入空白图片的B通道，生成分层光流图。

步骤104：向分层光流注意力模型输入当前视频帧和分层光流，得到前景分割矩阵；分层光流注意力模型是利用类内尺度(Class-In Scale，CIS)损失函数，对视频帧编码器、光流解码器和解码器进行训练得到的；类内尺度损失函数是在焦点损失函数的基础上，乘以基于目标面积的损失调整参数得到的。不同场景下分层光流注意力模型与现有模型的可视化分割结果对比如图3-4所示。在步骤104之前还包括：将当前视频帧和分层光流图进行归一化处理。

分层光流注意力模型的训练步骤，具体包括：

将CDNet2014数据集作为训练集，利用类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练，得到分层光流注意力模型。其中，CDNet2014数据集不仅是车辆相关的数据集，它还包含监控视频的多种场景(包括如场景抖动、动态背景和红外等多种场景)，是前景分割中的主流数据集。CDNet2014数据集包括视频帧集、分层光流图集和真值集。

对视频帧编码器、光流解码器和解码器进行一次训练的过程，包括：在CDNet2014数据集中选取一组训练数据，训练数据包括视频帧，以及与视频帧对应的分层光流图和真值；将选取的视频帧输入视频帧编码器，得到视频帧特征；将选取的分层光流图输入光流编码器，得到分层光流特征；将视频帧特征和分层光流特征输入解码器进行训练，得到前景分割矩阵；根据真值和类内尺度损失函数，计算前景分割矩阵的损失并更新视频帧编码器、光流解码器和解码器的参数。

当迭代达到预设次数时停止训练，得到分层光流注意力模型。

在现有的前景分割的技术中，多使用回归损失(L1 Loss)和焦点损失(focalloss)函数对模型进行训练，使用焦点损失与回归损失函数的可视化结果对比如图5所示，在前景分割的技术中，使用焦点损失训练后的模型处理前景和背景类别之间的不平衡问题时的效果更好，焦点损失函数如下：

式中，Loss_focal表示焦点损失。

但是，使用焦点损失训练后的模型仅对于大目标对象(面积大的前景)的分割有很好的效果，而对小目标对象(面积小的前景)进行分割时会存在缺陷，甚至导致小目标对象完全缺失。对此本发明提出了类内尺度损失，在训练过程中使用类内尺度损失作为指导真值图像和预测结果的损失函数，然后反向传播网络来训练模型。

具体的，所述类内尺度损失的公式为：

式中，

其中，Loss_CIS为类内尺度损失函数，α为平衡因子，γ为难易因子，p为模型预测结果的概率值，y为真值，y＝1表示前景，y＝0表示背景，β为基于目标面积的损失调整参数，t为权重系数，fg为运动目标，s(fg)为场景真值中运动目标在场景中所占的比值。前景目标面积越大，β越小，使得大目标的损失下调；前景目标面积越小，β越大，使得小目标的损失上调。

类内尺度损失函数以目标的尺度作为调节的参考，取调节的指数

和50(50是对训练场景中进行多次采样获得的参数)的最小值，考虑了场景中无目标的情况。

图6为本发明实施例中所提供的分层光流注意力模型结构示意图，图7为本发明实施例中所提供的分层光流注意力模型训练流程图，如图6-7所示，分层光流求解过程如下：首先提取相对当前时刻T之前的第1帧τ₁、第5帧τ₂和第10帧τ₃三帧视频帧，将视频帧分别与当前时刻T的视频帧(当前视频帧)求光流，得到具有不同运动特征的长短光流Op(τ₁)、Op(τ₂)和Op(τ₃)，然后将长短光流Op(τ₁)、Op(τ₂)和Op(τ₃)对应输入同一张空白图片中的R通道、G和通道B中，得到分层光流图。

分层光流注意力模型(包括训练好的视频帧编码器、光流编码器和解码器)将归一化的当前视频帧输入到视频帧编码器，视频帧编码器对当前视频帧矩阵进行一系列卷积操作提取视频帧特征，然后将归一化的分层光流图输入到光流编码器，光流编码器对分层光流矩阵进行一系列的卷积运算提取需要的光流特征，将提取到视频帧特征和光流特征输入到解码器，解码器对视频帧特征和光流特征的进行解码卷积操作，解码器中的注意力模块将光流特征和视频帧特征结合得到的运动信息(即前景)，并将运动信息在视频帧部分进行突出处理，输出视频帧端到端的前景分割的特征结果(前景分割矩阵)。前景分割矩阵为归一化的矩阵，前景分割结果为单通道图片(尺寸为256*256像素)，从模型直接输出的特征结果到最后的分割结果(图片)还需要进行可视化处理。

步骤105：将前景分割矩阵进行可视化处理，得到分割结果。

步骤105，具体包括：将前景分割矩阵乘以255，得到扩展后的前景分割矩阵；根据分割像素阈值，将扩展后的前景分割矩阵进行二值化处理，得到分割结果。

其中，根据分割像素阈值，将扩展后的前景分割矩阵进行二值化处理，得到分割结果，具体包括：将扩展后的前景分割矩阵中大于分割像素阈值的元素均更新为255，得到第一次更新后的前景分割矩阵；将第一次更新后的前景分割矩阵中小于或者等于分割像素阈值的元素均更新为0，得到第二次更新后的前景分割矩阵；将得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景，将得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景，得到分割结果。分割像素阈值为15。

图8为本发明实施例中所提供的前景分割的***的结构示意图，如图8所示，本发明提供的前景分割的***，包括：

当前视频帧获取模块201，用于获取当前视频帧。

第二视频帧获取模块202，用于获取当前时刻前的第一视频帧、第二视频帧和第三视频帧。

分层光流图生成模块203，用于当前视频帧、第一视频帧、第二视频帧和第三视频帧，生成分层光流图。

分层光流图生成模块203，具体包括：

第一光流信息确定单元，用于确定当前视频帧相对于第一视频帧的光流，得到第一光流信息。

第二光流信息确定单元，用于确定当前视频帧相对于第二视频帧的光流，得到第二光流信息。

第三光流信息确定单元，用于确定当前视频帧相对于第三视频帧的光流，得到第三光流信息。

分层光流图生成单元，用于将第一光流信息输入空白图片的R通道，将第二光流信息输入空白图片的G通道，将第一光流信息输入空白图片的B通道，生成分层光流图。

前景分割矩阵确定模块204，用于向分层光流注意力模型输入当前视频帧和分层光流图，得到前景分割矩阵；分层光流注意力模型是利用类内尺度损失函数，对视频帧编码器、光流编码器和解码器训练得到的；类内尺度损失函数是在焦点损失函数的基础上，乘以基于目标面积的损失调整参数得到的。

前景分割矩阵确定模块204，具体包括，分层光流注意力模型的训练单元，用于将CDNet2014数据集作为训练集，利用类内尺度损失函数，对视频帧编码器、光流解码器和解码器进行训练，得到分层光流注意力模型。

分层光流注意力模型的训练单元对视频帧编码器、光流解码器和解码器进行一次训练的过程为：在CDNet2014数据集中选取一组训练数据，训练数据包括视频帧，以及与视频帧对应的分层光流图和真值；将选取的视频帧输入视频帧编码器，得到视频帧特征；将选取的分层光流图输入光流编码器，得到分层光流特征；将视频帧特征和分层光流特征输入解码器进行训练，得到前景分割矩阵；根据真值和类内尺度损失函数，计算前景分割矩阵的损失并更新视频帧编码器、光流解码器和解码器的参数。

采用如下公式计算类内尺度损失：

式中，

可视化处理模块205，用于将前景分割矩阵进行可视化处理，得到分割结果。

可视化处理模块205，具体包括：

前景分割矩阵扩展单元，用于将前景分割矩阵乘以255，得到扩展后的前景分割矩阵。

二值化处理单元，用于根据分割像素阈值，将扩展后的前景分割矩阵进行二值化处理，得到分割结果。

二值化处理单元，具体包括：

前景分割矩阵第一更新子单元，用于将扩展后的前景分割矩阵中大于分割像素阈值的元素均更新为255，得到第一次更新后的前景分割矩阵。

前景分割矩阵第二更新子单元，用于将第一次更新后的前景分割矩阵中小于或者等于分割像素阈值的元素均更新为0，得到第二次更新后的前景分割矩阵。

分割子单元，用于将得到第二次更新后的前景分割矩阵中等于255的元素均识别为前景，将得到第二次更新后的前景分割矩阵中等于0的元素均识别为背景，得到分割结果。其中，分割像素阈值为15。

此外，本发明提供的前景分割的***还包括：归一化处理模块，用于将当前视频帧和分层光流图进行归一化处理。

本发明提供的前景分割的方法及***，提出了类内尺度损失函数和分层光流注意力模型。第一，使用分层光流信息进行前景分割能够明显改善孔洞问题(由图2可知)；第二，分层光流注意力模型在进行跨场景分割时，分割结果几乎接近于真值，与DeepLabV3+、PSPNet和STAM相比，表现出了良好的分割效果(由图3-4可知)；第三，使用类内尺度损失函数训练模型，解决了现有技术中无法对小目标进行分割的问题，能够在实现跨场景前景分割的同时，保证分割的精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种前景分割的方法，其特征在于，所述方法包括：

获取当前视频帧；

获取当前时刻前的第一视频帧、第二视频帧和第三视频帧；

将所述前景分割矩阵进行可视化处理，得到分割结果。

2.根据权利要求1所述的前景分割的方法，其特征在于，所述根据所述当前视频帧、所述第一视频帧、所述第二视频帧和所述第三视频帧，生成分层光流图，具体包括：

3.根据权利要求1所述的前景分割的方法，其特征在于，在所述向分层光流注意力模型输入所述当前视频帧和所述分层光流，得到前景分割矩阵，之前还包括：

将所述当前视频帧和所述分层光流图进行归一化处理。

4.根据权利要求1所述的前景分割的方法，其特征在于，所述分层光流注意力模型的训练步骤，具体包括：

5.根据权利要求4所述的前景分割的方法，其特征在于，对视频帧编码器、光流解码器和解码器进行一次训练的过程，包括：

将选取的视频帧输入视频帧编码器，得到视频帧特征；

将选取的分层光流图输入光流编码器，得到分层光流特征；

6.根据权利要求4所述的前景分割的方法，其特征在于，所述类内尺度损失的公式为：

式中，

7.根据权利要求3所述的前景分割的方法，其特征在于，所述将所述前景分割矩阵进行可视化处理，得到分割结果，具体包括：

将所述前景分割矩阵乘以255，得到扩展后的前景分割矩阵；

8.根据权利要求6所述的前景分割的方法，其特征在于，所述根据分割像素阈值，将所述扩展后的前景分割矩阵进行二值化处理，得到分割结果，具体包括：

9.根据权利要求7所述的前景分割的方法，其特征在于，所述分割像素阈值为15。

10.一种前景分割的***，其特征在于，所述***包括：

当前视频帧获取模块，用于获取当前视频帧；