CN106529419B

CN106529419B - 视频显著性堆栈式聚合的对象自动检测方法

Info

Publication number: CN106529419B
Application number: CN201610915190.9A
Authority: CN
Inventors: 陈小武; 郑安林; 李甲; 夏长群; 赵沁平
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2019-07-26
Anticipated expiration: 2036-10-20
Also published as: CN106529419A

Abstract

本发明提供了视频显著性堆栈式聚合的对象自动检测方法。对于视频中显著性对象的检测，本发明从像素、超像素和对象三个级别分别提取空域和时域显著性特征描述子，再利用这些显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器。这一自动编码器能够对视频图像中的像素点提取的显著特征描述子进行自主编码学习，从而可以结合视频像素点的显著特征描述子检测视频中的显著对象。一方面，本发明提供的***可以有效地检测视频中的显著性对象，另一方面，本发明也提供了一种视频显著性对象的参考方法。

Description

视频显著性堆栈式聚合的对象自动检测方法

技术领域

本发明涉及计算机视觉和图像理解领域，具体地说是视频显著性堆栈式聚合的对象自动检测方法。

背景技术

视频中显著性对象的检测和描述是计算机视觉领域和信息检索领域的基本问题。在过去的几十年里面，研究者们相继提出了很多针对图像中显著性对象检测的方法，这些方法主要针对于单张图像中的显著性对象的检测和描述，在视频领域中，针对显著性对象的检测和描述的算法却很少有人提出。其中一项主要因素是大量具有无歧义并精确标注的显著性对象的视频数量不足。然而，相比于图像中显著性对象的检测，视频中显著性对象的检测具有重要意义。如把针对视频的显著性对象检测算法应用在无人机上，可以很容易的发现无人机捕捉到视频内容中显著对象，帮助分析人员进行下一步的处理。在安全领域，从监控视频中快速发现显著性目标可以帮助监控人员迅速应对突发事件，减少安全事件的发生。

研究者们提出的针对图像的显著性对象检测的方法主要使用图像中的颜色、纹理、对比度等特征描述子能够表征图像中的显著性对象，然后通过机器学习或者统计学规律得到图像中的显著性对象。但这些算法在视频中的应用效果却差强人意。主要原因是视频中的连续图像之间存在着时空相关性，针对图像中显著性对象检测的算法仅仅考虑了单张图像空间之间的关系，同时由于单张图像之间不存在时域关系，这些算法也无法引入针对时域的显著性特征描述子。

发明内容

本发明技术解决问题：为了克服现有技术的不足，提供一种视频显著性堆栈式聚合的对象自动检测方法，提高在视频显著性数据集上的测试性能，能够很好地检测视频中的显著性对象。

本发明技术解决方案：视频显著性堆栈式聚合的对象自动检测方法，通过引入空域和时域显著性特征描述子，对视频图像从像素、超像素和对象三个级别分别提取显著特征图，把视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。再从视频中随机采样500，000个像素点，利用这些像素的显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器，利用这一堆栈式自动编码器结合视频图像中像素点的显著特征描述子可以预测对应像素点的显著程度值，从而可以检测出视频图像中的显著性对象。

主要步骤有：

步骤(1)、把视频图像转换到Lab和HSV颜色空间中，同时计算相邻帧之间的光流信息以及相邻帧之间的闪烁，供步骤(2)和步骤(4)使用。

步骤(2)、根据步骤(1)中的结果，对视频中的图像，分别从像素、超像素和对象块三个级别中提取显著特征图。视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。这些显著特征描述子能够从不同的角度表征显著性对象的属性；

步骤(3)、从视频中随机采样像素点，利用步骤(2)中的方法提取这些随机采样像素点的特征描述子，通过无监督学习的方法训练一个隐藏层中最后编码层只有一个节点的堆栈式自动编码器。最终能够得到一个利用像素的显著特征描述子来预测其显著程度得分的堆栈式自动编码器。

步骤(4)、对视频图像中的像素点，利用步骤(2)中的方法提取像素点的显著特征描述子，根据步骤(3)中得到的堆栈式自动编码器，两者之间通过计算可以预测视频中像素的显著程度得分。

步骤(5)、对步骤(4)得到的结果进行后处理，得到最终的显著性图。

进一步说，步骤(1)中，对于视频图像，将其图像尺寸大小调整为最长边为300个像素点，随后将其分别转换到Lab和HSV颜色空间，同时计算当前帧和后一帧之间的光流信息以及相邻帧之间的闪烁，把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差。用XYT来描述视频图像在时域空间中的信息，其中X表示光流在水平方向的投影变量，Y表示光流在垂直方向的投影变量，T表示相邻帧之间的闪烁在时域中的变量。

在完成步骤(1)颜色空间的转换和光流信息及帧间闪烁的计算后，计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图。

首先，对视频中像素提取显著特征图的过程如下：分别独立地计算视频图像I_t中像素点在颜色空间Lab和S(因为HVS颜色空间中Hue通道中的值并不总是反映颜色对比度，V通道对于其他颜色空间通道显得多余，因此忽略HV通道的特征描述子)通道的最短栅格距离，得到视频图像在空域的显著特征图此后，计算像素点在XYT时域空间中的最短栅格距离，得到视频图像在时域的显著特征图同时，计算视频图像的背景先验图将和按照通道相加，再和相乘以去除背景干扰，得到视频图像在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息。

其次，对视频图像中超像素块提取显著特征图的过程如下：将视频图像I_t分解成超像素块，随后提取超像素块的显著性特征。这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验描述子，随后，使用在图像数据集上训练得到的随机森林回归模型对超像素块对应的特征进行回归计算，借此预测超像素块的显著程度得分。由此可以得到视频图像的显著特征图

随后，对视频图像中对象块提取显著特征图的过程如下：首先，从视频图像I_t中提取对象块，并按照对象块的完整程度进行降序排序，随后在Lab和HSV颜色空间分别得到对应的注视点密度图和同时，在XYT时域空间计算得到注视点密度图通过对象块对应的视点密度图和以及的映射融合，得到视频图像I_t在对象块级别的显著特征图

在得到视频图像对应与像素、超像素块和对象块三个级别的显著特征图后，视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。确切的说，把视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子(具体细节参见图2提取视频图像特征描述子的流程图)。

随后，从所有视频图像中随机选取500，000个像素点，利用步骤(2)中的方法提取像素点的显著特征描述子来训练堆栈式自动编码器。在训练过程中，对上一层的输入进行归一化处理，使每一层输入向量的元素都在[-1,1]区间内。通过无监督的方法训练后，可以得到一个能够结合视频图像中像素的显著特征描述子来预测其显著预测其显著程度得分的自动编码器。

在完成堆栈式自动编码器的训练之后，对于视频中图像的像素点，利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子，随后利用步骤(3)中训练得到的堆栈式自动编码器对视频图像中的所有像素点进行计算以预测像素的显著程度值，进而得到视频图像对应的初始显著图。

在得到视频中的图像的初始显著图后，对其进行后处理。首先，对相邻的两帧显著图进行时域高斯平滑处理以减小相邻帧之间的闪烁；其次使用sigmoid函数来增强前景和背景之间的对比度；之后，二值化显著图：首先计算显著图的均值，将此均值设定为阈值，把不低于阈值的像素设为1，反之则设为0，同时合并不足512个像素点的显著区域，从而得到视频图像最终的显著图。

与现有的技术相比，本发明有益的特点是：

(1)本发明提出了视频显著性堆栈式聚合的对象自动检测方法，通过引入空域和时域显著性特征描述子，对视频图像从像素、超像素和对象三个级别分别提取显著特征图，把视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。再从视频中随机采样500，000个像素点，利用这些像素的显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器，利用这一堆栈式自动编码器结合视频图像中像素点的显著特征描述子可以预测对应像素点的显著程度得分，从而可以检测出视频图像中的显著性对象。相比于前人提出的方法，本发明能够超过他们在视频显著性数据集上的测试性能，很好地检测视频中的显著性对象；

(2)相比于前人提出的显著性对象检测的方法，本发明提出的方法能够超过前人在相同数据集上的评测结果。

附图说明

图1是本发明提出的算法流程图；

图2是本发明提取视频图像特征描述子的流程图；

图3是本发明提出的堆栈式自动编码器的具体细节；

图4本发明(SSA)在显著性对象检测视频数据集VOS及其子数据集上的评测结果。

具体实施方式

下面结合附图对本发明做详细说明。

如图1所示，本发明提出了视频显著性堆栈式聚合的对象自动检测方法，利用这一方法来检测视频中的显著对象。具体的说，从视频中随机选择500，000个像素点并提取它们的显著特征描述子，通过无监督的学习方法训练一个堆栈式自动编码器，最后，利用训练好的堆栈式自动编码器结合视频像素点的显著特征描述子对其进行预测，最终可以检测出视频中的显著性对象。

在提取视频像素的特征描述子的过程中，首先，对数据集中视频图像进行颜色空间转换，把视频图像的尺寸按照长宽比调整为最长边为300个像素点，随后使用现有的颜色空间转换算法将图像分别转换到Lab和HSV颜色空间。同时计算相邻帧之间的光流信息和帧间闪烁。把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差。用XYT来描述视频图像在时域空间中的信息，其中X表示光流在水平方向的投影变量，Y表示光流在垂直方向的投影变量，T表示相邻帧之间的帧间闪烁在时域中的变量。

在完成视频图像的颜色空间转换和光流以及帧间闪烁的计算后，计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图，从而得到视频图像中像素点的显著特征描述子。

首先，对视频中像素提取显著特征图的过程如下：分别独立地计算视频图像I_t中像素在颜色空间Lab和S(因为HSV颜色空间中Hue通道中的值并不总是反映颜色对比度，V通道对于其他颜色空间通道显得多余，因此忽略HV通道的特征描述子)通道的最短栅格距离，得到视频图像在空域的显著特征图随后，计算像素点在XYT时域空间中的最短栅格距离，得到视频图像在时域的显著特征图同时，计算视频图像的背景先验图将和按照通道相加，再和相乘以去除背景干扰，得到视频图像I_t在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息；

其次，对视频图像中超像素块提取显著特征图的过程如下：将视频图像I_t分解成超像素块，随后提取超像素块的显著性特征。这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验特征描述子。随后，使用在图像数据集上训练得到的随机森林回归模型对超像素块对应的特征进行回归计算，借此预测超像素块的显著程度得分。由此可以得到视频图像的显著特征图

随后，对视频图像中对象块提取显著特征图的过程如下：首先，从视频图像I_t中提取对象块，并按照对象块的完整程度进行降序排序，随后在Lab和HSV颜色空间分别得到对应的注视点密度图和同时，在XYT时域空间计算得到注视点密度图利用公式(1)计算视频图像中像素点p的显著程度值，最终可以合成对象块级别的显著图其中，示性函数，如果值为1，反之值为0。表示用来计算显著图的对象块，设定即对于视频图像，选取其中的前50个对象块用来计算显著图或)表示的是对象对应于注视点密度图位置F_lab获得的注视点的密度的比率。利用公式(2)计算(或)。

在得到对应于像素、超像素块和对象块三个级别的显著特征图和后，视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子，如图2所示。确切的说，把视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子。

考虑到显著性对象的空域平滑性和时域一致性，从视频中随机选取500，000个像素点，利用这些随机采样像素点的显著特征描述子通过无监督学习的方法训练堆栈式自动编码器。训练得到的堆栈式自动编码器能够结合视频图像中像素点的显著特征描述子来预测像素的显著程度值，从而得到视频图像对应的初始显著图。

在利用这些随机采样像素点的显著特征描述子训练堆栈式自动编码器的过程中，使用最后一层编码层的输出作为对应像素点的显著程度值。如图3所示，设计的堆栈式自动编码器由4层编码层和4层解码层组成，其中，编码器隐藏层中的前4层是编码层，每层中的节点个数分别是15，7，3，1，后四层为解码层，每层中的节点个数分别是1，3，7，15。选用logistic sigmoid函数作为每一层节点的激活函数。训练自动编码器的目的是优化损失函数(3)，使得损失函数的值尽可能的小。其中，和ε_t分别是自动编码器中的编码层和解码层，t∈{1，2，...，T}，是自动编码器中所有权值的L-2范数约束项，可以利用公式(4)计算得到，表示编码器中某一层节点的权值，设置的值为0.001。

对于自动编码器中任意一层的一个节点公式(5)和(6)定义稀疏参数约束项Ω_s(又称为相对熵)。是节点在所有样本上的响应均值。其中，是节点的激活函数。s₂是编码器隐藏层中所有的节点。在本方法中，设定ρ＝0.05，λ_s＝1.0。

同时，在训练自动编码器的过程中，利用公式(7)对当前层t(编码层/解码层)的输入进行归一化处理，使得当前层的输入都在[-1，1]区间内变化。其中，T表示编码层和解码层的层数(在自动编码器中，编码层和解码层的层数是相同的)，在本发明中，T＝4。同时编码层的节点数量分别是15，7，3，1，解码层的节点数量分别是3，7，15，30。堆栈式自动编码器的具体细节如图3所示。

在完成堆栈式自动编码器的训练之后，对于视频图像中像素点p的显著特征描述子v_p，利用自动编码器最后一层编码层(只有一个节点)的输出作为该像素点的显著值。利用公式(8)计算视频图像中像素点的显著值，相关程度值c是通过最后一层编码层的输出和第一层编码层的输出在每一维度计算线性相关系数得到的平均值。符号函数sign(x)如公式(9)所示。至此，可得到视频中图像的显著图。

利用公式(8)可以得到视频图像对应的显著图，之后对初始显著图进行后处理：首先，利用卷积核大小为3，σ＝0.75的高斯核函数对相邻帧视频图像间的显著图进行时域高斯平滑处理；随后利用对比度增强函数(10)增强前景和背景之间的对比度，其中b的取值是0.5；之后，二值化显著图：首先计算显著图的均值并设定其为阈值，把不低于阈值的像素设为1，反之则设为0，同时合并不足512个像素点的显著区域，利用这种后处理方法得到视频图像最终的显著图。

利用对本发明提供的方法的流程，可以得到视频中显著性对象对应的掩模图。

相比于前人提出的方法，本发明能够超过他们在视频显著性数据集VOS上的性能，很好地检测视频中的显著性对象。与前人提出的方法的比较如图4所示。黑体和下划线的数据分别表示一种方法在VOS数据集上的评测结果分别处于第一位和第二位。从图4中可以看出，在显著性对象检测视频数据集VOS及其子数据集VOS-N和VOS-E上，本发明提供的方法在MAP、F_β和MAE的评测结果上均超过了前人所提出的方法。

现在，对评测中使用的评测指标进行详细说明：本发明利用公式(11)和(12)分别得到一个显著性对象检测方法在视频v_i上的召回率和精确度随后，利用公式(13)和(14)得到其在视频数据集上的平均召回率MAR(Mean Average Recall)和平均精度MAP(Mean Average Precision)。其中G表示视频关键帧对应的显著图的二值掩模图像，M表示通过显著性检测方法预测的关键帧对应的二值掩模图像，#(·)计算集合中元素的数量。MAP和MAR的值越大，表示方法的显著性检测效果越好。为了直接反映预测得到的二值掩模图像和关键帧对应的掩模图像之间的差别，利用公式(15)计算在视频v_i中两者之间的平均绝对误差，集中(i，j)表示二值掩模图像中的像素点点的位置坐标，Mv_i、Nv_i分别表示视频图像的长和宽，#v_i表示视频图像中关键帧的数量。同样，利用MAE(Mean AbsoluteError)来评估一种显著性检测方法在整个数据集上的整体性能。利用公式(16)可以计算得到其结果，其中，N表示视频数据集中的视频总数。另外，MAE的值越小，表示显著性对象检测的方法性能越好。

为了量化显著性检测方法的整体性能，利用公式(17)对MAR(Mean AverageRecall)和MA P(Mean Average Precision)进行融合，得到F_β，设定β²的值是0.3，F_β越大说明方法的性能越好。

提供以上实施例仅仅是为了描述本发明的目的，而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改，均应涵盖在本发明的范围之内。

Claims

1.视频显著性堆栈式聚合的对象自动检测方法，其特征在于包括以下步骤：

步骤(1)、把视频图像转换到Lab和HSV颜色空间中，同时计算相邻帧之间的光流信息以及相邻帧之间的帧间闪烁，供步骤(2)和步骤(4)使用；

步骤(2)、根据步骤(1)中的结果，对视频中的图像，分别从像素、超像素和对象块三个级别中提取显著特征图；视频图像中像素特定位置对应于这些显著特征图的值构成了像素的显著特征描述子；这些显著特征描述子能够从不同的角度表征显著性对象的属性；

步骤(3)、从视频中随机采样像素点，利用步骤(2)中的方法提取这些随机采样像素点的特征描述子，通过无监督学习的方法训练一个隐藏层中最后编码层只有一个节点的堆栈式自动编码器，最终能够得到一个利用像素的显著特征描述子来预测其显著程度得分的堆栈式自动编码器；

步骤(4)、利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子，步骤(3)中训练得到的堆栈式自动编码器，并结合视频图像中的所有像素点的显著特征描述子来预测像素的显著程度得分，得到视频图像对应的初始显著图；

步骤(5)、对步骤(4)得到初始显著图进行后处理，得到最终的显著性图。

2.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法，其特征在于：步骤(1)中，对于视频图像，将视频图像尺寸按照长宽比缩放为最长边为300个像素点，随后将视频图像分别转换到Lab和HSV颜色空间，同时计算当前帧和后一帧之间的光流信息以及相邻帧之间的闪烁，把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差，用XYT来描述视频图像在时域空间中的信息，其中X表示光流在水平方向的投影变量，Y表示光流在垂直方向的投影变量，T表示相邻帧之间的闪烁在时域中的变量。

3.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法，其特征在于：所述步骤(2)中，根据步骤(1)中的结果，计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图步骤如下：

首先，对视频中像素提取显著特征图的过程如下：分别独立地计算视频图像I_t中像素点在颜色空间Lab和S通道的最短栅格距离，得到视频图像在空域的显著特征图此后，计算像素点在XYT时域空间中的最短栅格距离，得到视频图像在时域的显著特征图其中X表示光流在水平方向的投影变量，Y表示光流在垂直方向的投影变量，T表示相邻帧之间的闪烁在时域中的变量；同时计算视频图像的背景先验图将和按照通道相加，再和相乘以去除背景干扰，得到视频图像在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息；

其次，对视频图像中超像素块提取显著特征图的过程如下：首先，将视频图像I_t分解成超像素块，随后提取超像素块的显著性特征；这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验特征描述子，随后，使用在图像数据集上训练得到的随机森林回归模型对超像素块的特征描述子进行回归计算，借此预测超像素块的显著程度得分，由此得到视频图像的显著特征图

在得到视频图像对应与像素、超像素块和对象块三个级别的显著特征图后，视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子，即视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子。

4.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法，其特征在于：步骤(3)的具体过程如下：从所有视频中随机采样500，000个像素点，利用步骤(2)中的方法提取像素点的显著特征描述子来训练堆栈式自动编码器；在训练过程中，对上一层的输入进行归一化处理，使每一层输入向量的元素都在[-1,1]区间内；通过无监督的方法训练后，得到一个能够利用像素的显著特征描述子来预测其显著预测其显著程度得分的自动编码器。

5.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法，其特征在于：步骤(4)中利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子，随后利用步骤(3)中训练得到的堆栈式自动编码器结合视频图像中像素点的显著特征描述子来预测像素的显著程度值，得到视频图像初始的显著图。

6.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法，其特征在于：步骤(5)中，对步骤(4)中得到的初始显著图的后处理过程如下：首先，对相邻的两帧显著图进行时域高斯平滑处理以减小相邻帧之间的闪烁；随后，使用sigmoid函数来增强显著图中前景和背景之间的对比度；之后二值化显著图：计算显著图的均值并设定其为均值，把不低于阈值的像素设为1，反之则设为0，同时合并不足512个像素点的显著区域，从而得到最终的视频显著图。