CN112489073B

CN112489073B - 基于帧间高级特征差分的零样本视频前景分割方法

Info

Publication number: CN112489073B
Application number: CN202011292935.3A
Authority: CN
Inventors: 张锦; 聂伟; 沈军
Original assignee: Army Military Transportation University of PLA Zhenjiang
Current assignee: Army Military Transportation University of PLA Zhenjiang
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-07-06
Anticipated expiration: 2040-11-18
Also published as: CN112489073A

Abstract

本发明公开了基于帧间高级特征差分的零样本视频前景分割方法，所述方法包括步骤：将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码，获取两组对应的高级特征映射；所述特征解码是特征编码的逆操作；将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征；解码器对高级时域对比特征进行特征解码得到前景mask；本发明无需人工对算法待部署的场景进行费时费力的标注，仅利用其它现有数据集的监督信息就行进行模型训练，并达到较高精度。

Description

基于帧间高级特征差分的零样本视频前景分割方法

技术领域

本发明涉及基于帧间高级特征差分的零样本视频前景分割方法，属于视频智能处理技术领域。

背景技术

视频前景分割是计算机视觉和视频处理中的一项基础性、底层的任务。视频前景分割的目的是将输入视频帧分割成与前景或背景相关的区域。它经常被用作高层级任务的预处理步骤，如目标跟踪、行人和机动车识别等，在智慧交通、智能安防等领域应用广泛。由于视频场景往往存在动态背景、硬阴影、光照变化、摄像机抖动等诸多干扰，获取一个鲁棒的时域—空域特征表示是前景分割方法的关键。

深度卷积神经网络具有强大的特征提取能力，能够从数据中学习语义表示。特别是，基于迁移学习的全卷积神经网络在前景分割、语义分割等像素级任务中大幅超越传统无监督算法。然而，当前基于深度学习的前景分割方法(Deep-learning-based ForegroundSegmentation，DFG)普遍依赖大量待分割场景的监督信息。而在现实中，待分割场景通常是无标注信息且无法提前预知的。获取待分割场景的标注信息需要耗费大量的人力和时间成本。此外，实验表明，当前高性能DFG在不使用待分割场景监督信息(仅使用非待分割场景监督信息)的情况下，性能大幅下降，甚至低于一些高性能的传统无监督算法。本发现考虑解决的问题是，在不使用待分割场景标注信息的前提下，获得一个面向待分割场景的DFG，并且精度接近或超越最佳无监督算法。根据使用待分割场景标注信息的数量，不使用待分割场景标注信息的问题为零样本视频前景分割(Zero-Shot DFG，ZS-DFG)。

本质上讲，零样本学习属于迁移学习的范畴，跨场景视频序列之间存在大量的共性知识，为零样本迁移提供了重要的前提和基础。ZS-DFG能够从大量有标注信息的有标注场景中学到有效的特征表示，以辅助模型在待分割场景进行前景/背景语义推断。归纳起来，跨场景视频序列之间通常存在以下几个方面的共性知识：

(1)前景共性知识。视频场景中的前景目标主要由人、车、船等运动目标组成，不同场景中的前景目标具有较强的特征相关性。

(2)背景共性知识。不同视频场景中的背景类往往由具有较高相似性的房屋、道路等固定物组成。

(3)噪声和干扰共性知识。不同视频场景中的阴影、运动背景(晃动的水面、摇动的树枝)等干扰同样具有相似的特点。

(4)帧间时域变化共性知识。这具体表现为视频中前后帧(不必相邻)中存在前景目标的对应区域会发生改变，比如前景目标移动位置、改变姿态等，而没有变化的区域一般为背景。时域变化提供了十分重要的先验信息：两帧之间保持时域稳定的区域一般为背景，发生变化的区域至少某一帧在该区域有前景目标。这对于算法性能提升效益明显。

大部分DFG算法忽略了跨场景共性知识，有的DFG虽然利用了跨场景共性知识，但是仅利用了前3项共性知识，且未探讨零样本条件下的算法性能。然而，试验表明(见4.2.1)，仅对前三项共性知识进行迁移，在零样本条件下难以超越先进的无监督算法。

发明内容

本发明的目的在于提供基于帧间高级特征差分的零样本视频前景分割方法，以解决现有技术获取待分割场景的标注信息需要耗费大量的人力和时间成本的缺陷。

基于帧间高级特征差分的零样本视频前景分割方法，所述方法包括步骤：

将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码，获取两组对应的高级特征映射；所述特征解码是特征编码的逆操作；

将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征；

解码器对高级时域对比特征进行特征解码得到前景mask。

进一步地，所述差分对比模块用于显示利用时域变化特征；所述差分对比模块计算公式为：

其中，

表示特征沿通道维度聚合；差分对比模式使用F1和F2的差分作为对比特征；F1和F2表示高级特征映射。

进一步地，高级特征差分对比网络模型训练方法包括步骤：

基于keras深度学习框架，采用Adam优化器开展模型训练，进行批次梯度更新；

训练时按照[0.5G，1.5G]之间随机确定帧间隔来挑选一对训练帧；

基于动态学习率策略，通过梯度下降算法进行反复迭代输出两帧的前景mask。

进一步地，高级特征差分对比网络模型在训练时采用Focal loss作为损失函数，具体定义如下：

其中，CE表示交叉熵损失，P是有效像素i的集合，大小为N；y_i表示像素i的类别，前/背景分别用1/0表示；

为像素属于前景的预测概率。

进一步地，迭代后的学习率按以下规律衰减：

lr＝0.001×0.95^epoch/10 (7)。

进一步地，所述高级特征差分对比网络模型为双流架构，包括两条分支，每条分支由编码器、解码器和差分对比模块组成，不同分支的编码器、解码器采用孪生结构，即网络结构相同、参数共享。

进一步地，所述编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块组成，所述特征金字塔模块采用不同膨胀率的空洞卷积提取多尺度特征。

进一步地，所述解码器由反卷积层和二值化操作层组成，所述编码过程中通过不断降低分辨率，同时增加特征映射的数量来实现高等级语义编码；解码器通过不断的减小特征映射的数量，同时提升分辨率来实现前景、背景语义解码。

进一步地，所述解码器的最后输出层采用Sigmoid激活函数将特征映射到0到1之间，用于估计对应位置像素属于前景的概率值；最后经二值化操作得到前景mask。

进一步地，所述经二值化操作阈值为0.5。

与现有技术相比，本发明所达到的有益效果：

1.本发明无需人工对算法待部署的场景进行费时费力的标注，仅利用其它现有数据集的监督信息就行进行模型训练，并达到较高精度；

2.本发明采用差分对比模块用于编码帧间时域变化共性知识，该知识对于性能提升效用明显；

3.本发明差分对比模块算法多种不同困难模式场景下的总体性能超越最先进的无监督算法和零样本条件下的最佳有监督方法，精度高；该算法能达到35帧每秒的处理速度，超过大多数高精度算法。

附图说明

图1是本发明基于高级特征差分的ZS-DFG架构示意图；

图2是本发明ZS-DFG网络实例化基准图；

图3是本发明高性能无监督算法的前景分割视觉效果图；

图4是本发明帧间隔对算法性能影响示意图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

为了更好的利用帧间时域变化共性知识，本发明提出了高级特征差分对比架构能够显式利用帧间时域变化共性知识，因而在多种不同困难模式场景下的总体性能超越最先进的无监督算法和零样本条件下的最佳有监督方法。如图1-3所示，本发明公开了基于帧间高级特征差分的零样本视频前景分割方法，所述方法包括以下步骤：

第一步：将两组视频帧frame1和视频帧frame2输入到预先训练好的高级特征差分对比模型进行特征编码，得到两组对应的高级特征映射F1和高级特征映射F2；所述特征解码是特征编码的逆操作；

1.网络架构

高级特征差分对比模块为为双流架构，包括2条分支，由编码器、解码器和差分对比模块组成(图1)。不同分支的编码器/解码器采用孪生结构，即网络结构相同、参数共享，以此降低一半网络参数，防止过拟合。

下面以分支1为例进行介绍。编码器对视频帧frame1进行特征编码，获取高级特征映射F1。差分对比模块用于产生高级时域对比特征。在有“对比”的情况下更容易获取有鉴别力的特征表示，提升解码精准度。

第二步：获取两组高级特征映射输入到差分对比模块中进行差分对比得到高级时域对比特征；本步骤中采用差分对比模式来显式利用时域变化特征。

其中，

表示特征沿通道维度聚合；差分对比模式使用F1和F2的差分作为对比特征，见公式(1)。不同于使用低级像素特征的FD算法，本文算法使用的是高级特征。高维的高级特征能够更有利于表征前/背景目标的本质，不易受噪声干扰，因而性能更鲁棒。

第三步：对所述高级时域对比特征进行特征解码得到前景mask1，具体步骤如下：

2.网络实例化

本发明提出的架构，能够较容易地与当前高性能的DFG网络进行适配，实例化为具体的ZS-DFG网络。

本文发明选择结构简洁、单流且无分支的FgSegNet_S作为实例化基准。

它由编码器和解码器组成，一次处理单帧图像并生成前景mask(图2)。

实例化网络(ZS-DFG)的每条分支相比原始FgSegNet_S增加了差分对比模块，其他层(包括输入输出层)完全一致。

FgSegNet_S是单流网络，每次只对单帧进行分割，具体结构如下(图2)：编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块(FPM)组成。其中，FPM中采用不同膨胀率的空洞卷积来提取多尺度特征。解码器主要由反卷积层和二值化操作层等组成。图2中矩形块表示特征映射，数字代表特征通道的数量。编码过程中通过不断降低分辨率，同时增加特征映射的数量来实现高等级语义编码。解码是编码的逆操作，解码器通过不断的减小特征映射的数量，同时提升分辨率来实现前景/背景语义解码。解码器最后的输出层采用Sigmoid激活函数将特征映射到0到1之间，用于估计对应位置像素属于前景的概率值。最后，经二值化操作(阈值0.5)得到前景mask。

总体而言，在实例化ZS-DFG网络工作流程如下：编码器只对单帧的空域信息进行编码，然后通过显式地产生对比特征的方式来聚合时域信息，最后在解码器中进行时域-空域特征融合并解码。

3.网络训练

现实场景往往存在严重的前景/背景分布不均衡问题。这容易导致模型在训练时过多的“关注”数量上占主导的背景像素，而忽视前景特征的学习。为抑制大量易学习的背景样本产生的损失，防止其误导分类器，本文采用Focal loss作为损失函数，具体定义如下：

为像素属于前景的预测概率。ω为调节因子，当预测误差较大，即预测值

远离真实值y_i时，ω接近1，focal loss退化为标准的交叉熵损失，反传的梯度几乎不受影响；当预测误差较小时，ω趋向于0，易学习的背景样本的损失被大大降低。通过这一损失调节机制，防止大量背景像素产生的小梯度的累积误导分类器。

本文基于keras深度学习框架，采用Adam优化器开展模型训练，进行批次梯度更新，批量大小设为10。初始学习率设为1e-4，基于动态学习率策略，每轮(epoch)迭代后，学习率按以下规律衰减：

lr＝0.001×0.95^epoch/10 (7)

需要强调的是，模型训练时只对感兴趣区域(Region Of Interest,ROI)的有效像素产生的损失进行梯度反传。另外，通过增加L2正则化项(系数为5e-4)来降低模型的结构性风险。作为双帧输入型网络，帧间间隔G对时域变化共性知识的学习影响较大。训练时按照[0.5G，1.5G]之间随机确定帧间隔来挑选一对训练帧，测试时G保持不变，一次输出两帧的前景mask。

4实验及结果分析

选取5种不同类型的典型复杂场景对算法性能进行综合评估，通过消融实验以及对比试验，验证本发明的有效性和先进性。

4.1实验说明

4.1.1数据集构建

对ZS-DFG进行训练需要用到大量有标注场景视频序列。通过融合2个大规模前景分割数据集来构建一个综合的训练、测试环境。CDnet数据集为是当前规模最大、困难模式最全的前景分割数据集之一，共计53个场景。从中挑选其中5个不同困难模式的场景作为测试集(见表1)，其余48个场景加上SBI2015数据集中的14个场景，共计62个有标注场景视频序列作为训练集。为统一不同场景的视频尺度，通过补零和随机采样，统一为320×240分辨率。模型训练迭代1000轮，每轮迭代在每个训练场景中随机选择5对视频帧。为进一步提升模型的泛化性，本文通过仿射变换、饱和度和亮度调整以及添加高斯噪声等方式进行数据增广。

表1实验场景说明

4.1.2评价指标

在前景分割领域，常用的评价指标有召回率(R)、准确率(P)、特异度(Sp)、假阳率(FPR)、假阴率(FNR)、误检率(PWC)和F-Measure(F值)。考虑到F值能综合评估模型的总体性能，并且与CDnet数据集算法官方排名相关度最高，常被用作算法性能比较最重要的指标之一。因此，本文主要根据F值对不同算法的性能进行比较。

F＝2RP/(R+P) (8)

R＝TP/(TP+FN) (9)

P＝TP/(TP+FP) (10)

其中，TP和FP分别表示正确的正样本和错误的正样本，FN表示错误的负样本。

4.2实验结果及分析

4.2.1对比实验

本实验对我们提出的架构进行效果验证。所有实验在相同的设置环境下进行，实验结果见表2。当前有监督DFG算法大都使用了待分割场景的监督信息。为了比较的公平性，本文将CDnet数据集排名第1的算法FgSegNet_v2在相同的零样本条件下开展实验。FgSegNet_v2为单流单帧型结构，无法利用时域变化共性知识，其综合性能仅为0.7010，远低于本文算法ZS-DFG，这表明时域变化共性知识对于算法性能提升的巨大效用。不过，FgSegNet_v2在5个场景的平均F值也达到了0.7010，特别是在光照条件较好、前景/背景区分度明显的PETS.场景，较好的克服弱阴影的干扰，获得了0.8833的F值。这也表明前景、背景、干扰3方面共性知识能够提供重要的前/背景预测先验知识。

SemanticBS、IURIS-5、PAWCS、STBM和MBS是CDnet数据集排名最优的无监督算法。图3中的效果图展示了本文算法和这些最先进的无监督算法在5个场景上的前景分割的视觉效果。在PETS.场景，ZS-DFG是唯一检测出有前景目标即将从左侧进入画面的算法。在bungal.场景中，本文算法和SemanticBS能够较好的排除硬阴影的干扰，其他算法受硬阴影影响严重。在boulev.场景中，本文算法的漏检和错检相对较少。在park场景中，本文算法比其他算法能够更清晰的检测出人物轮廓。总体而言，本文算法在5个场景上取得了最佳的检测效果，总体性能略高于排名第1的无监督算法(SemanticBS)，具体指标见表2。

速度方面，DFG类算法可以通过GPU并行计算，因而其运行速度通常高于无监督算法。基于Nvidia Titan XP GPU，ZS-DFG算法对320×240分辨率的视频的处理速度能达到35帧/秒，实时性能较好。

表2不同网络架构的性能对比

4.2.2帧间间隔试验

ZS-DFG作为成对输入网络，两帧间间隔决定了前景运动目标的变化程度，是关乎时域变化共性知识学习的关键性指标。如图4-a所示，在训练帧间隔Gtrain等于测试帧间隔Gtest的情况下，间隔越大模型的精度越高。当G＝2时，由于间隔太小导致前后帧变化不明显，因而难以有效学习时域变化共性知识。此时ZS-DFG的F值降为0.6712，与未利用时域变化信息的算法(ZS-DFG0)接近。

如图4-b所示，当Gtrain＝300时，减少Gtest会导致模型性能下降。同样，当Gtrain＝5时，Gtest太大或太小都会造成网络性能下降，只有二者接近时性能最优。这是因为当测试帧间隔和训练帧间隔接近时，两种情况下的时域变化特征分布相同，有助于模型泛化性能的提升。

以上试验均采用一次输出2帧的“对比”工作模式。除此之外，本文还尝试了每次只输出1帧的“背景减除”工作模式，具体做法如下：首先对待分割视频前500帧做时域中值滤波得到“纯净”的背景帧，然后固定frame1(图1)为该背景帧，frame2则每次输入待分割视频帧。在此情况下，ZS-DFG平均F值提升为0.8765。尽管精度有了微小提升，带来的缺点是运行效率低半。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述方法包括步骤：

将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码，获取两组对应的高级特征映射；特征解码是特征编码的逆操作；高级特征差分对比网络模型训练方法包括步骤：

基于动态学习率策略，通过梯度下降算法进行反复迭代输出两帧的前景mask；

将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征；所述差分对比模块用于显示利用时域变化特征；所述差分对比模块计算公式为：

其中，

表示特征沿通道维度聚合；差分对比模块使用F1和F2的差分作为对比特征；F1和F2表示高级特征映射；

解码器对高级时域对比特征进行特征解码得到前景mask。

2.根据权利要求1所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，高级特征差分对比网络模型在训练时采用Focal loss作为损失函数，具体定义如下：

为像素属于前景的预测概率。

3.根据权利要求1所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，迭代后的学习率按以下规律衰减：

lr＝0.001×0.95^epoch/10 (7)。

4.根据权利要求1所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述高级特征差分对比网络模型为双流架构，包括两条分支，每条分支由编码器、解码器和差分对比模块组成，不同分支的编码器、解码器采用孪生结构，即网络结构相同、参数共享。

5.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块组成，所述特征金字塔模块采用不同膨胀率的空洞卷积提取多尺度特征。

6.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述解码器由反卷积层和二值化操作层组成，所述编码过程中通过不断降低分辨率，同时增加特征映射的数量来实现高等级语义编码；解码器通过不断的减小特征映射的数量，同时提升分辨率来实现前景、背景语义解码。

7.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述解码器的最后输出层采用Sigmoid激活函数将特征映射到0到1之间，用于估计对应位置像素属于前景的概率值；最后经二值化操作得到前景mask。

8.根据权利要求7所述的基于帧间高级特征差分的零样本视频前景分割方法，其特征在于，所述经二值化操作阈值为0.5。