CN113592878A

CN113592878A - 一种紧致的多尺度视频前景分割方法

Info

Publication number: CN113592878A
Application number: CN202110729146.XA
Authority: CN
Inventors: 潘志松; 张锦; 李阳; 潘欣冉; 周星宇; 贺正芸
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-11-02

Abstract

一种紧致的多尺度视频前景分割方法，涉及计算机视觉的技术领域，为了从高等级(即大尺度)和多尺度特征编码的视角，改进深度网络对场景空域特征的编码，提出了多尺度紧致采样模块。该模块由一系列平行的有着不同感受野的紧致空洞卷积组成。多尺度紧致采样模块能够以一种紧致的方式来捕获多尺度特征，以应对核退化问题。具体而言，紧致空洞卷积被精心设计成一种级联的结构，感受野内的所有输入神经元正好被全部覆盖，而不会留下“孔”或者“重叠”，本发明提出的多尺度紧致采样模块能够在不同感受野内感知更完整的多尺度信息，而不会造成模型参数显著增加。因此，多尺度紧致采样模块能够在维持运行高效的基础上避免核退化问题。

Description

一种紧致的多尺度视频前景分割方法

技术领域

本发明涉及计算机视觉的技术领域，尤其涉及计算机视觉领域的像素级二分类任务-- 视频前景分割。

背景技术

视频前景分割是计算机视觉领域一项基础性的像素级二分类任务。给定场景S，前景分割算法学习S的表示将视频序列中的背景和前景运动目标相分离。被提取的前景可为复杂的视觉应用在检测质量和计算时间之间提供一个良好的折中。因此，视频前景分割作为高等级任务的预处理步骤，在现实世界中有着广泛的应用价值，包括异常检测(如遗留物检测、产品缺陷检测、火情发现)、车辆统计跟踪及事故检测、船舶与海洋交通监控、动物行为视觉观察、自然环境视觉监控(如漂浮物检测)、人的行为分析、背景替换等。由于预处理步骤的精度对后续任务性能和效率影响较大，学习有效的场景表示来提取出精确的前景目标至关重要。

视频前景分割需要从背景中提取大小不一的前景运动目标。并且，当前景目标由远及近靠近镜头时，其在场景画面中的尺度会“由小变大”。因此，鲁棒的方法需要对不同尺度的情景目标均具有准确的分割效果。编码场景的多尺度空域特征表示是前景分割网络设计的重要内容，有助于模型依据不同尺度的上下文信息进行综合推断。在多尺度空域特征的编码过程中，难点在于对大尺度空域特征编码。

基于全卷积(Fully Convolutional Networks，FCNs)网络的方法通过使用下采样层 (步长大于1的卷积或池化操作)，增加神经元的感受野(Receptive Fields)来编码大尺度空域特征。大尺度上下文有助于从物体的全貌来进行语义推断，避免“盲人摸象”型的局部推断。然而，不断增加的下采样层会造成空间信息损失，从而阻碍解码过程对空间信息的恢复。尽管如此，在分辨率较高的早期编码阶段就进行解码也并不是一个好的策略，因为这样就无法利用更级的语义进行更好的推理。总之，网络设计需要在保留完整的空间信息和编码更高级的特征之间进行平衡。

近年来，空洞卷积(Atrou Convolution)作为一种有效的策略，被用于解决高分辨率和大尺度特征编码之间的矛盾。由于空洞卷积的核通过膨胀策略在参数之间***“孔”(hole) 来增大感受野，因此，在不过度下采样的情况下，空洞卷积也能感知大尺度的上下文信息。然而，空洞卷积仍然存在两方面限制。一是核退化问题。随着膨胀率的增加，卷积核在感受野内的采样将变得越来越稀疏，导致卷积核性能衰退。二是单尺度问题。对于空洞卷积产生的特征映射，由于该映射中所有神经元的信息都来源于相同的感受野，因此这一语义编码过程可以认为只局限于某单一尺度，而场景中的前景目标往往以多尺度方式存在。

为了获取多尺度的场景表示，特征金字塔策略(比如，ASPP)采用多组平行的空洞卷积并联的方式来提取多尺度特征，但由于内部通常包含大膨胀率的空洞卷积，因而同样受到核退化问题的制约。

发明内容

本发明目的是提供一种紧致的多尺度视频前景分割方法，设计了一种新的卷积模块，并提出了构造卷积模块的两种策略，即放大聚焦策略(Zoom-out)和缩小聚焦策略(Zoom-in)；能够紧致地编码多尺度特征，来解决核退化问题，提升分割精度。

一种紧致的多尺度视频前景分割方法，令x[i]和y[i]分别表示输入信号和输出信号，空洞卷积操作定义如下：

其中，f[k^idx]是长度为K的滤波器，膨胀率r表示相应的采样步长；当r＝1时，空洞卷积退化为标准的卷积操作；当一个核为k×k的2D空洞卷积能够对输入特征x中大小为k_a×k_a的区域进行采样/卷积时，则称该空洞卷积的感受野为k_a；

k_a＝k+(r-1)·(k-1) (3-2)

膨胀率越大意味着感受野越大；为了获取更广的感受野和更丰富的上下文信息，多个空洞卷积以平行或者级联的方式作用于已经历了一系列卷积和下采样操作的高级特征映射；

假设CACⁿ表示由n个级联的空洞卷积层构成，各层的卷积核大小及膨胀率分别为，{k₁，k₂，…，k_n}和{r₁，r₂，…，r_n}；CACⁿ输出特征映射中的任一神经元的信息都源自其对应感受野内的输入特征映射，并且既没有信息遗漏也没有“重叠采样”；

将紧致空洞卷积层的感受野记为RFC，在没有信息遗漏和“重叠采样”的情况下，RFC 与各层卷积核的关系满足式3-3和3-4。

RFC＝k₁k₂…k_n (3-3)

根据RFC的大小，对CACⁿ进行设计，以确定卷积层数n、各层卷积核大小k及其膨胀率r。

当RFC≤5时，单层卷积就能满足感受野要求。在此情况下，k₁＝RFC，r₁＝1，此时的第一紧致空洞卷积层退化为标准卷积层。随着RFC增加，紧致空洞卷积层将不可避免使用多层级联的形式；为了确保输出神经元位于感受野的中心位置，核的大小始终选取奇数。

当5<RFC≤25时，需要使用2个满足k₁×k₂＝RFC的卷积层进行级联；

1)r₁＝k₂，r₂＝1，由于该过程采用不断减小的膨胀率，卷积感受到的区域在逐步收缩，即“缩小聚焦”策略，输入特征映射在RFC范围内的信息先被“挤压”至一个k₂×k₂的区域，然后再进一步聚焦至中心神经元；

2)r₁＝1，r₂＝k₁，由于该过程使用不断增加的膨胀率，神经元感受到的区域在逐步扩张，即“放大聚焦”策略；首先搜集k₁×k₁区域内的本地局部信息，然后将整个RFC内部不同位置的k₁×k₁区域的信息集中至中心神经元。

当RFC＞25时，采用递推的方式构建CACⁿ，其中，n≥3；CACⁿ可视为由第n个(或第1个)空洞卷积层和前n-1层(或后n-1层)卷积CAC^n-1两部分组成；其中，CAC^n-1被视为一个普通空洞卷积，所述普通空洞卷积为卷积核为k^n-1＝k₁k₂…k_n-1，膨胀率为 r^n-1＝1；在此情况下，第n个(或第1个)空洞卷积层和前n-1层(或后n-1层)卷积CAC^n-1基于“放大聚焦”(或“缩小聚焦”)策略进行级联；两级空洞卷积级联，CACⁿ的感受野RFC＝k₁k₂…k_n；基于上述递推方式，n级空洞卷积级联构成的CACⁿ作为一个整体实现对感受野内特征的紧致采样；将CACⁿ记为CAC(k₁，k₂，…，k_n；c₁，c₂，…，c_n)，r＝(r₁，r₂，…，r_n)，其中，k_i、c_i和r_i分别表示第i层的卷积核大小、输出通道数和膨胀率。

优选的是，本发明将紧致空洞卷积层拓展到多尺度空间采用多尺度紧致采样模块，多尺度紧致采样模块由5组平行的具有不同感受野的紧致空洞卷积组成；紧致空洞卷积分为 CompactASPP_i和CompactASPP_o；CompactASPP_i基于缩小聚焦策略，紧致空洞卷积的膨胀率均按递减方式分布；CompactASPP_o基于放大聚焦策略，紧致空洞卷积的膨胀率按递增方式排列。

优选的是，本发明紧致空洞卷积的输入特征映射的通道数量大，而输出特征通道的数量小，为了控制模块大小确保计算的高效性，小尺度卷积核优先配置于紧致空洞卷积的底层；紧致空洞卷积层中每层卷积的输出通道数量均应与最末层卷积的输出通道数量保持一致。

本发明为了从高等级(即大尺度)和多尺度特征编码的视角，改进深度网络对场景空域特征的编码，提出了一种更有效的模块：多尺度紧致采样模块CompactASPP。该模块由一系列平行的有着不同感受野的紧致空洞卷积(Compact Atrous Convolutions，CACs)组成。 CompactASPP能够以一种紧致的方式来捕获多尺度特征，以应对核退化问题。具体而言，卷积模块被精心设计成一种级联的结构，感受野内的所有输入神经元正好被全部覆盖，而不会留下“孔”或者“重叠”(overlap)，本发明提出的CompactASPP能够在不同感受野内感知更完整的多尺度信息，而不会造成模型参数显著增加。因此，CompactASPP能够在维持运行高效的基础上避免核退化问题。

基于CompactASPP设计了一种Fast X-Net网络，对X-Net进行改进。X-Net所采用的多输入-多输出架构能够有效利用时域信息，但其基于图像金字塔策略来提取多尺度空域特征造成了计算复杂度偏高的缺点。为了追求更高效的分割速度，本发明将CompactASPP模块嵌入到X-Net架构中，并去除其原有的图像金字塔策略，使得处理速度提升了63.6％。并且，Fast X-Net具有更高的分割精度。

本发明引入紧致采样的思想设计了一种新的卷积模块，并提出了构造新的卷积模块的两种策略，即放大聚焦策略(Zoom-out)和缩小聚焦策略(Zoom-in)；

本发明基于新的卷积模块设计了一种新的多尺度模块——CompactASPP，该模块能够紧致地编码多尺度特征，来解决核退化问题，提升分割精度；

本发明提出了基于CompactASPP的Fast X-Net方法，在CDnet 2014、SBI2015和UCSD 三个数据集上达到了领先水平。

附图说明

图1a是膨胀率r＝1的卷积标准卷积的采样示意图。

图1b是膨胀率r＝4时紧致空洞卷积的采样示意图。

图2是空洞空间金字塔池化的结构示意图。

图3是级联空洞卷积的“棋盘效应”和“重叠采样”现象的示意图。

图4是级联空洞卷积的紧致采样示意图。

图5是基于CAC^n-1和第n级卷积层构建CACⁿ原理图。

图6是构建CompactASPP的示意图。

图7是Fast X-Net框架图。

图8是CDnet 2014数据集上的20-帧实验的可视化结果。

图9是多尺度模块在CDnet 2014测试帧上的可视化结果。

图10是Fast X-Net在Toscana场景的可视化结果。

具体实施方式

利用空洞卷积得到紧致空洞卷积，在紧致空洞卷积的基础上提出一种紧致的多尺度特征融合模块，即CompactASPP。

空洞卷积

空洞卷积(Atrous Convolution，AC)又称膨胀卷积(Dilate Convolution)，最初是在小波分解算法àtrous中发展起来的。DeepLab v1首次将空洞卷积部署于FCN架构中，实现在减少下采样、保持特征映射高分辨率的前提下增大感受野、捕获更大范围的上下文依赖。下面以一维空洞卷积为例进行说明。令x[i]和y[i]分别表示输入信号和输出信号，空洞卷积操作可定义如下：

其中，f[k^idx]是长度为k的滤波器，膨胀率r表示相应的采样步长。当r＝1时，空洞卷积退化为标准的卷积操作。当一个核为k×k的2D空洞卷积能够对输入特征x中大小为k_a×k_a的区域进行采样/卷积时，则称该空洞卷积的感受野为k_a。根据式3-2不难发现，膨胀率越大意味着感受野越大。为了获取更广的感受野和更丰富的上下文信息，多个空洞卷积通常以平行或者级联的方式作用于已经历了一系列卷积和下采样操作的高级特征映射。

k_a＝k+(r-1)·(k-1) (3-2)

在平行模式下，多个空洞卷积层以各自不同的膨胀率对相同的输入特征映射进行采样，以获取不同尺度的感受野。这种模式通常被称为空洞空间金字塔池化(AtrousSpatial Pyramid Pooling，ASPP)。然而，由于其中通常存在膨胀率过大的空洞核(如图2中r＝ 6&12&18)，因而会面临核退化问题。具体而言，第l层的神经元p的信息来源于第l-1 层以p为中心，大小为k_a×k_a的区域的神经元(区域内神经元个数为k_a×k_a)，但是实际上真正用到的神经元数量仅为k×k。例如，当k＝3，r＝6时，感受野区域内仅9/169 的神经元参与了计算。相关研究表明，随着膨胀率r的增加，空洞核(如3×3)在感受野内的采样越来越稀疏，其特征编码能力也越来越弱，直至退化为1×1的卷积核。也就是说，除中心位置外，其余位置的核的权重接近于0。

如图3所示，在级联模式下，多个膨胀率较小的空洞卷积层以堆叠的形式产生大感受野效应，以此减轻核退化问题。然而，当所有层采用相同的膨胀率r时，最顶层的输出神经元是以“棋盘效应”的方式进行采样，损失了大部分的信息。图3a是级联空洞卷积的“棋盘效应”，图3b是级联空洞卷积的“重叠采样”现象。图3a展示了k＝3，r＝2的两个空洞卷积层级联产生的“棋盘效应”。具体而言，第l层卷积在星星位置的输出神经元的信息来源于输入特征映射在9个深色圆圈位置的信息。同理向前递推可知，第l-1层卷积在 9个深色圆圈位置的输出神经元的信息，来源于输入特征映射在深色格子位置的信息，且深色格子颜色越深表示采样次数越多。将2级级联卷积看成一个整体，其在星星位置输出神经元的信息来源于深色格子位置的输入信息。作为改进，混合空洞卷积(Hybrid Atrous Convolution，HAC)在级联过程中采用逐渐增大的膨胀率。在此情况下，位于上层的输出神经元能够对一个方形区域进行覆盖(如图3b)，以消除“棋盘效应”中的“孔”。然而， HAC中存在的重叠采样现象会限制感受野的进一步提升，同时也带来冗余计算。能否消除重叠采样，并进一步扩大感受野？为了探索这一问题，本发明从合理配置级联空洞卷积的膨胀率的视角开展研究，提出了具有紧致采样特性的卷积，并将其命名为紧致空洞卷积 (Compact Atrous Convolution，CAC)。图3a：r_l-1＝r_l＝2，b：r_l-1＝1，r_l＝2；星星表示第l层卷积的输出神经元，其信息来源于红圈，即第l-1层卷积的输出神经元；深色圆圈神经元的信息来源于深色格子位置的第l-1层卷积的输入神经元，且颜色越深表示采样次数越多。

紧致空洞卷积

由于空间邻域之间的相关性，前景/背景语义推断能够在丰富的上下文依赖中获益。理论上，可以直接利用标准卷积来紧致地编码不同尺度的上下文。然而，在大感受野情况下，直接使用大卷积核来提取长程依赖并不是一种明智的选择，因为这很可能会导致严重的过拟合。为此，本节使用基于小尺度卷积核(不大于5×5)来构建CAC以编码不同尺度的上下文依赖。

假设CACⁿ表示由n个级联的空洞卷积层构成，各层的卷积核大小及膨胀率分别为，{k₁，k₂，…，k_n}和{r₁，r₂，…，r_n}。理想情况下，本发明希望CACⁿ输出特征映射中的任一神经元的信息都源自其对应感受野内的输入特征映射，并且既没有信息遗漏(“孔”)也没有“重叠采样”。为便于描述，将CAC的感受野记为RFC(Receptive Field of CAC)。不难发现，在没有“孔”和“重叠采样”的情况下，RFC与各层卷积核的关系满足式3-3和3-4。下面根据RFC的大小，对CACⁿ进行设计，以确定卷积层数n、各层卷积核大小k及其膨胀率r。

RFC＝k₁k₂…k_n (3-3)

(1)当RFC≤5时，单层卷积就能满足感受野要求。在此情况下，k₁＝RFC，r₁＝1，此时的CAC¹退化为标准卷积层。随着RFC增加，CAC将不可避免使用多层级联的形式。为了确保输出神经元位于感受野的中心位置，核的大小始终选取奇数；

表变量说明

(2)当5<RFC≤25时，需要使用2个满足k₁×k₂＝RFC的卷积层进行级联。具体而言，本发明提出了两种策略构建紧致空洞卷积：1)r₁＝k₂，r₂＝1，由于该过程采用不断减小的膨胀率，卷积感受到的区域在逐步收缩，故将其命名为“缩小聚焦”策略(Zoom-in)。具体而言，输入特征映射在RFC范围内的信息先被“挤压”至一个k₂×k₂的区域，然后再进一步聚焦至中心神经元。下面以图4a为例进行具体说明：感受野内(9×9)的输入特征首先被第l-1层卷积压缩至深色圆圈位置，然后再被第l层卷积聚焦于星星位置。2)r₁＝ 1，r₂＝k₁，由于该过程使用不断增加的膨胀率，神经元感受到的区域在逐步扩张，故命名为“放大聚焦”策略(Zoom-out)。该策略首先搜集k₁×k₁区域内的本地局部信息，然后将整个RFC内部不同位置的k₁×k₁区域的信息集中至中心神经元。

(3)当RFC＞25时，采用递推的方式构建CACⁿ，其中，n≥3；CACⁿ可视为由第n 个(或第1个)空洞卷积层和前n-1层(或后n-1层)卷积CAC^n-1两部分组成；其中， cAc^n-1被视为一个普通空洞卷积，所述普通空洞卷积为卷积核为k^n-1＝k₁k₂…k_n-1，膨胀率为r^n-1＝1；在此情况下，第n个(或第1个)空洞卷积层和前n-1层(或后n-1层) 卷积CAC^n-1基于“放大聚焦”(或“缩小聚焦”)策略进行级联(见图5)。类似于两级空洞卷积级联，CACⁿ的感受野RFC＝k₁k₂…k_n。基于上述递推方式，n级空洞卷积级联构成的CACⁿ作为一个整体实现对感受野内特征的紧致采样。正式的，本发明将CACⁿ记为 CAC(k₁，k₂，…，k_n；c₁，c₂，…，c_n)，r＝(r₁，r₂，…，r_n)。其中，k_i、c_i和r_i分别表示第i层的卷积核大小、输出通道数和膨胀率。需要强调的是，在卷积层之间额外加入了批归一化层(Batch Normalization，BN)来减小协方差偏移，减低训练难度。

由于卷积核k的取值面临一定的约束(式3-4)，CAC的感受野RFC也受到了相应的制约。例如，无法设计一个RFC₀＝13的CAC。这种情况下，可选用近似的感受野进行替代，如RFC₁＝3×4≈RFC₀，即k₁＝3，k₂＝4。

2.3 CompactASPP

为了克服ASPP、FPM等多尺度模块中普遍存在的核退化问题，本发明将CAC拓展到多尺度空间提出一种多尺度紧致采样模块——CompactASPP(Compact Atrous SpatialPyramid Pooling)。CompactASPP由5组平行的具有不同感受野的CACs组成。根据信息汇聚方式的不同，CompactASPP又具体分为CompactASPP_i和CompactASPP_o。CompactASPP_i基于缩小聚焦策略，其中CACs的膨胀率均按递减方式分布(见图6中r_i)；CompactASPP_o基于放大聚焦策略，其CACs的膨胀率按递增方式排列(见图6中r_o)。为了公允比较，本发明依据FPM 的多尺度感受野来确定CompactASPP中CACs的感受野，使二者的感受野相对应。如图6所示，5组CAC产生的5种不同尺度的特征沿通道维度聚合后，送入BN层和2D Dropout层来提升泛化能力。

参数控制原则。考虑到CACs的输入特征映射的通道数量一般较大(例如512)，而其输出特征通道的数量一般较小(如64)，为了控制模块大小确保计算的高效性，CACs设计时需要遵循以下2条原则：(1)小尺度卷积核优先配置于CACs的底层；(2)CAC中每层卷积的输出通道数量均应与最末层卷积的输出通道数量保持一致。例如，当输入/输出通道分别为512/64，RFC＝15时，CAC被设计成2层空洞卷积的级联。按照上述原则，每一层卷积的输出通道数均为64，且底层卷积核的大小为3×3，而顶层卷积核大小为5×5，记为 CAC(3；5；64；64)。其参数量约为388k(512×3×3×64+64×5×5×64)，远远小于相同感受野的标准卷积的参数量，约7M(512×15×15×64)。

3 Fast X-Net

【总述】如图7所示，Fast X-Net同样是由编码子网络、解码子网络和融合子网络构成的X-型架构来整合时域特征。网络基本单元包括：核为3×3卷积层(conv)、核为2×2 的最大池化层(max pooling)、核为1×1、3×3和5×5的反卷积层(Tconv)、随机丢弃层(dropout)，relu和sigmoid激活函数，以及CompactASPP多尺度特征编码模块。

【编码子网络】Fast X-Net去除了X-Net编码子网络使用的图像金字塔策略，并将CompactASPP嵌入编码子网络顶部。在这种情况下，只需运行编码子网络一次，就可以从单幅图像中高效提取多尺度空域特征，而图像金字塔策略需要多次运行编码器才能完成同样的任务。如图7，Fast X-Net的编码子网络(包括CompactASPP模块)由2条结构相同、权重共享的孪生分支组成。因此它们可以从两个相似帧中提取模式相同的特征。然后，从两个连续帧中提取的多尺度特征表示在沿通道维度聚合后送入融合子网络。

【融合子网络】融合子网络是一种单流结构的网络。它对从2帧中提取的多尺度空域特征进行融合，实现时域-空域特征编码。生成的时空多尺度特征再进入解码子网络进行解码。

【解码子网络】解码子网络由两个结构相同，但相互独立的分支构成。每条分支每次各产生一个前景掩膜(图7中右侧的视图)。需要说明的是，Fast X-Net还去掉了X-Net的编码器和解码器之间的跨层连接，以进一步提高计算效率。

实验分析

为验证多尺度特征编码模块CompactASPP的性能，本发明在多个数据集上进行了实验。本发明先对实验设置进行介绍，然后基于CDnet 2014数据集开展消融实验，验证本发明算法的有效性和先进性，最后在进一步在SBI2015数据集上进行了补充实验。

实验设置

模型训练与优化。本发明基于图7所示的Fast X-Net网络开展端到端训练。为了利用高等级语义知识，提升训练效率，使用在ImageNet上预训练的VGG-16对编码子网络进行初始化。本实验采用以Tensorflow为后端的Keras架构为深度学习平台，基于SFL进行模型优化。采用RMSProp优化器进行参数更新，其中，epsilon和初始学习率分别设为1e-8 和1e-4，batch size设为1。每个场景的最大训练次数设为60轮(epoch)，并且将早停(EarlyStop)阈值设为10。需要强调的是，对于不感兴趣区域(NON-ROI)和不确定的边界区域不进行梯度反传。

训练样本选择。针对CDnet 2014数据集，本发明在50-帧样本(m＝50)和20-帧样本(m＝20)两种设置下进行模型性能评估。其中，50-帧样本采用FgSegNet提供的数据，本发明随机选取其中的80％构建训练集(40帧)，20％用于模型验证(10帧)，整段视频中剩余的样本作为测试样本。需要强调的是，训练数据(和验证数据)从整段视频序列中进行人工随机挑选是学术界一种普遍存在的做法。然而，这种“以整个视频序列为采样域”的做法存在一定的不合理之处：测试样本中大量的前景实例(instance)可能在训练样本中“出现过”，这会导致对模型性能的高估。相反，在实际部署时，视频中的前景实例一般都是“未曾出现过的”实例，这种情况下，模型性能自然会大打折扣。为了避免对模型性能的“过高”估计，在20-帧实验中，本发明考虑更困难的一种设置：以整个视频序列中尽量选取靠近开始或结束位置的子序列为采样域。并且，为了降低人为因素的影响，以等间隔的方式进行采样。比如，highway场景的完整视频序列为[470，1700](其余序列不考虑，因为数据集未提供Groundtruth)，20-帧实验则是在[1424，1436，1448，…，1700]之间，以 12为间隔进行样本选择，具体样本序列为[1424，1436，1448，…，1652]。

训练集构建。与单帧输入模型不同，Fast X-Net作为“成对输入”网络需要选择成对帧构建训练集。给定m帧，本发明基于如下策略构建训练集：

a.根据帧序由小至大对m帧进行排序，并将其重新编号为1，2，…，m。

b.为生成“帧对”，在长度为2*interval的窗口内，对任意帧和其相邻帧进行匹配，以所有满足条件的“帧对”构成训练集。

针对带标签样本较少的情况，增大将interval设置为6，以增大训练集规模。在此情况下，前三帧和后三帧能够匹配的“帧对”数量为4、5、6，而中间帧能匹配的“帧对”数量为7。当m＝20时，训练集规模为128“帧对”(4+5+6+14×7+6+5+4)。

实验结果及分析

CDnet 2014数据集实验。表1所示，Fast X-Net在50帧实验中的平均召回率(Re)和平均准确率(Pr)都超过了97％，综合性能(F值)达到了0.976。其中，BL类场景的平均F值是所有类别中最高的，达到了0.995；而LF类场景的平均F值最低，但也超过了0.9。主要原因在于LF中存在一个极具挑战的场景，该场景中的前景目标非常少、尺度非常小，而且动态变化的背景和前景特征具有较高的相似性，这些因素都会带来严重干扰。需要强调的是，表3-1给出的模型性能评估指标是仅基于测试样本得到的，即用于训练和验证的 50帧，不再用于性能评估。

表1 Fast X-Net在CDnet 2014数据集上基于50-帧样本的测试结果

与先进算法比较。本发明将Fast X-Net与其他7种高性能方法进行比较。如表2所示， X-Net、FgSegNet_M和Cascade CNN采用图像金字塔策略来提取多尺度信息；FgSegNet_S 和FgSegNet_v2基于类似于ASPP的特征金字塔模块实现多尺度特征编码；3D SegNet利用3D时空滤波来提取时空特征；IUTIS-5是一种基于集成技术的传统无监督方法，该方法通过遗传算法对多个高性能传统背景建模方法的输出结果进行整合。需要强调的是，3D SegNet使用了70％样本作为训练集，其余有监督方法均使用相同的50帧样本作为训练集。

表2 Fast X-Net与其他高性能方法F值性能比较

其中Cascade CNN、FgSegNet_M、X-Net(ours)为使用了图像金字塔策略，FgSegNet_S、 FgSegNet_v2、Fast X-Net(ours)为使用了特征金字塔策略。

对于50-帧实验，基于深度网络的有监督方法明显优于基于低级特征的传统无监督方法(IUTIS-5)，特别是在PTZ、NV、LF等极具挑战的场景。此外，本发明提出的Fast X-Net以较大优势超越现有其他方法。需要强调的是，FgSegNet_S是本发明的baseline对比方法，它与Fast X-Net均采用特征金字塔策略来建模多尺度特征，并且，多尺度感受野基本相同。对于20-帧实验，Fast X-Net的性能优势进一步扩大。如表3所示，相比于X-Net、FgSegNet_S和FgSegNet_v2，Fast X-Net的F值分别提升了2.3％、2.3％、和1.5％。速度方面，基于CompactASPP的Fast X-Net的前景分割速度明显优于图像金字塔方法，比X-Net和FgSegNet_M提升了63.6％和50％。

表3 Fast X-Net和4种高性能方法的综合性能比较(20-帧) (速度测试基于英伟达1080Ti GPU和分辨率为320*240的视频)

可视化效果。为了更直观地展示Fast X-Net及其模块CompactASPP的性能，本发明提供了一些定性的可视化结果。如图8所示，本发明方法对于前景尺度变化具有较好的鲁棒性，并且在大、中、小不同尺度前景条件下均表现出较高的召回率。在nightV.场景中，由于避免了核退化问题，Fast X-Net比FgSegNet_S能够更好的克服光照突变带来的挑战，因而产生的错误正样本也更少。其中a：输入帧，b：Ground truths，c：Fast X-Net，d： FgSegNet_v2，e：FgSegNet_S，f：X-Net。

CompactASPP消融实验。本发明设计了两组对比实验来进一步验证CompactASPP模块的性能。在第一个对比实验中，本发明从Fast X-Net中移除整个多尺度模块，并将这个修改后的网络称为Fast X-Net_baseline，该实验用于测试在没有多尺度模型情况下网络的性能。在第二个对比实验中，本发明用ASPP模块替换CompactASPP模块(二者具有相同大小的感受野)，修改后的网络称为Fast X-Net_aspp。如表3-4所示，ASPP模块在50帧实验中产生的平均F值为0.974。这比不使用多尺度的Fast X-Net_n提升了0.5％，而CompactASPP能够在此基础上进一步带来0.2％的提升。在20帧实验中则相应提升更加明显。CompactASPP模块比ASPP模块给网络带来的增益为0.4％。图9展示的可视化结果表明，紧致地采样模式有助于将原本错误分类的正样本进行纠正。其中a：输入帧，b：Ground truth，c：Fast X-Net_baseline， d：Fast X-Net_aspp，e：Fast X-Net_i.。此外，CompactASPP_i和CompactASPP_o表现出了相近的性能，这意味着可以利用本发明提出的两种紧致采样策略中的任意一种来有效提取多尺度特征。需要说明的是，在不明确的情况下，本发明有关Fast X-Net的实验结果主要是基于CompactASPP_i。

表3-4多尺度模块对比实验

SBI2015数据集实验。为了进一步验证Fast X-Net算法的先进性，本发明在SBI2015 和UCSD两个数据集上进行了补充实验。SBI2015包含了14段视频，并提供了全部视频的 Ground truth。为了便于比较，采用和FgSegNet相同的训练设置和训练样本。具体而言，将所有样本中的16％用于模型训练，4％作为模型验证，余下80％构建测试集。如表3-5所示， Fast X-Net击败了其他4个高性能算法，获得了最佳性能。值得强调的是，FgSegNet_v2 已经获得了非常高的F值(0.984)，本发明方法在此基础上进一步提升了0.5％。在所有场景中，Toscana的性能最低(0.962)。主要是因为该视频只包括了6帧图像，而Fast X-Net只利用了其中2帧进行模型训练。由于训练样本数量太少，模型难免出现过拟合的情况。尽管如此，0.962依然是一个可接受的性能，这也显示了Fast X-Net在小样本学习情况下的鲁棒性。

表3-5 Fast X-Net在SBI2015数据集测试结果以及与高性能方法对比

本发明在图10中显示了所有训练帧(a列)和典型测试帧(b列)。其中a：所有的训练帧，b：典型的测试帧，c：Ground truths，d：前景Mas。在d列的红圈内出现了大量错误的正样本，这是因为a列的这个区域内所有训练帧均为前景，因而模型“未见过”该区域对应的背景信息，因而发生误判。

Claims

1.一种紧致的多尺度视频前景分割方法，其特征在于：

令x[i]和y[i]分别表示输入信号和输出信号，空洞卷积操作定义如下：

k_a＝k+(r-1)·(k-1) (32)

将紧致空洞卷积层的感受野记为RFC，在没有信息遗漏和“重叠采样”的情况下，RFC与各层卷积核的关系满足式3-3和3-4。

RFC＝k₁k₂…k_n (33)

2.根据权利要求1所述的紧致的多尺度视频前景分割方法，其特征在于：当RFC≤5时，单层卷积就能满足感受野要求。在此情况下，k₁＝RFC，r₁＝1，此时的紧致空洞卷积层退化为标准卷积层。随着RFC增加，紧致空洞卷积层将不可避免使用多层级联的形式；为了确保输出神经元位于感受野的中心位置，核的大小始终选取奇数。

3.根据权利要求1所述的紧致的多尺度视频前景分割方法，其特征在于：当5＜RFC≤25时，需要使用2个满足k₁×k₂＝RFC的卷积层进行级联；

4.根据权利要求3所述的紧致的多尺度视频前景分割方法，其特征在于：当RFC＞25时，采用递推的方式构建CACn，其中，n≥3；CACⁿ可视为由第n个或第1个空洞卷积层和前n-1层或后n-1层卷积CAC^n-1两部分组成；其中，CAC^n-1被视为一个普通空洞卷积，所述普通空洞卷积为卷积核为k^n-1＝k₁k₂…k_n-1，膨胀率为r^n-1＝1；在此情况下，第n个或第1个空洞卷积层和前n-1层或后n-1层卷积CAC^n-1基于“放大聚焦”或“缩小聚焦”策略进行级联；两级空洞卷积级联，CACⁿ的感受野RFC＝k₁k₂…k_n；基于上述递推方式，n级空洞卷积级联构成的CACⁿ作为一个整体实现对感受野内特征的紧致采样；将CACⁿ记为CAC(k₁，k₂，…，k_n；c₁，c₂，…，c_n)，r＝(r₁，r₂，…，r_n)，其中，k_i、c_i和r_i分别表示第i层的卷积核大小、输出通道数和膨胀率。

5.根据权利要求4所述的紧致的多尺度视频前景分割方法，其特征在于：将紧致空洞卷积层拓展到多尺度空间采用多尺度紧致采样模块，多尺度紧致采样模块由5组平行的具有不同感受野的紧致空洞卷积组成；紧致空洞卷积分为CompactASPP_i和CompactASPP_o；CompactASPP_i基于缩小聚焦策略，紧致空洞卷积的膨胀率均按递减方式分布；CompactASPP_o基于放大聚焦策略，紧致空洞卷积的膨胀率按递增方式排列。

6.根据权利要求5所述的紧致的多尺度视频前景分割方法，其特征在于：CACs的输入特征映射的通道数量大，而输出特征通道的数量小，为了控制模块大小确保计算的高效性，小尺度卷积核优先配置于紧致空洞卷积的底层；紧致空洞卷积层中每层卷积的输出通道数量均应与最末层卷积的输出通道数量保持一致。

7.根据权利要求1所述的紧致的多尺度视频前景分割方法，其特征在于：Fast X-Net由编码子网络、解码子网络和融合子网络构成的X型架构来整合时域特征，网络基本单元包括：核为3×3卷积层、核为2×2的最大池化层、核为1×1、3×3和5×5的反卷积层(Tconv)、随机丢弃层，relu和sigmoid激活函数，以及多尺度特征编码模块。

8.根据权利要求7所述的紧致的多尺度视频前景分割方法，其特征在于：Fast X-Net去除了X-Net编码子网络使用的图像金字塔策略，并将多尺度紧致采样模块嵌入编码子网络顶部；只需运行编码子网络一次，就能够从单幅图像中高效提取多尺度空域特征；Fast X-Net的编码子网络由2条结构相同、权重共享的孪生分支组成，从两个相似帧中提取模式相同的特征，并从两个连续帧中提取的多尺度特征表示在沿通道维度聚合后送入融合子网络。

9.根据权利要求7所述的紧致的多尺度视频前景分割方法，其特征在于：融合子网络为单流结构的网络，对从2帧中提取的多尺度空域特征进行融合，实现时域-空域特征编码；生成的时空多尺度特征再进入解码子网络进行解码。

10.根据权利要求7所述的紧致的多尺度视频前景分割方法，其特征在于：解码子网络由两个结构相同、相互独立的分支构成，每条分支每次各产生一个前景掩膜。