CN110097115A

CN110097115A - 一种基于注意力转移机制的视频显著性物体检测方法

Info

Publication number: CN110097115A
Application number: CN201910347420.XA
Authority: CN
Inventors: 程明明; 范登平; 林铮; 吴文海
Original assignee: Huawei Device Co Ltd; Nankai University
Current assignee: Huawei Device Co Ltd; Nankai University
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-06
Anticipated expiration: 2039-04-28
Also published as: CN110097115B

Abstract

一种基于注意力转移机制的视频显著性物体检测方法。注意力转移机制是人类视觉***中特有的功能，但是，当前的方法忽视了这一重要的机制。本发明方法设计了一种新的卷积神经网络架构，它有效地利用了静态卷积网络、金字塔扩展卷积网络、长短期记忆网络和注意力转移感知模块的特点，从而充分体现了人类视觉***中的注意力转移机制，对于真实的应用场景更具实际意义，并且能得到更好的显著性物体检测效果。相对于当前的所有视频显著性物体检测方法，本发明方法达到了国际领先水平，在主流的公开数据集的性能评测上，超越了当前最好的视频显著性物体检测方法。

Description

一种基于注意力转移机制的视频显著性物体检测方法

技术领域

本发明属于图像处理技术领域，特别涉及到一种基于注意力转移机制的视频显著性物体检测方法。

背景技术

视频显著性物体检测(VSOD)旨在从动态的视频中提取引人注目的物体。这项任务来自于研究人类的视觉注意行为，即人类视觉***快速定位(视觉注意力机制)场景中的重要信息这一强大能力。早期生理学研究定量证实存在这种明确的、对象之间的强相关性的显著性判断和隐含视觉注意力分配行为。由于我们生活在一个动态变化的世界中，因此视频显著性物体检测具有重要意义。并且，它有着广泛的实际应用，例如视频分割，视频提取，视频压缩，自动驾驶，机器交互等。由于存在大量的不同类型的视频数据(例如，不同的运动模式，遮挡，模糊，物体变形等)和复杂的人类视觉注意行为(即选择性注意力动态分配，注意力转移等)，因此，视频显著性检测面临极大的挑战，并且引起了高度关注，具有重要的学术价值。

早期的VSOD模型基于一些简单的特征(例如，颜色，运动等)，并在很大程度上依赖于图像中的经典的显著性物体检测算法(例如，中心-周边对比，背景优先等)和视觉注意力的认知理论(例如，特征整合理论，指导搜索等)。他们探讨研究了对空间域和时间域显著性特征的整合的方式，如梯度流场，测地距离，随机游走和图谱结构等。传统的VSOD模型受限于有限的特征表达能力。然而，最近基于深度学习的VSOD模型受到了更多的关注，通过在图像上应用深度神经网络，成功实现了静态图像的显著性检测。更具体地来说，王等人在IEEETIP期刊(27(1):38–49,2018)上发表题为“Video salient object detection via fullyconvolutional networks”的论文。该论文中实现了对于VSOD搭建一个完全卷积的神经网络。另一项同时期发表在BMVC上的论文题为“Deeply supervised 3d recurrent fcn forsalient object detection in videos”。该工作使用3D滤波器将空间和时间信息结合在一起来搭建条件随机场框架。随后，时空深度特征，循环神经网络等被提议用于更好地捕获空间和时间的显著性特征。总的来说，基于深度网络的VSOD模型，由于利用了神经网络来提取特征，从而拥有强大的学习能力。由于文献太多，在此就不再一一赘述。但是，这些模型忽略人类视觉注意机制中非常重要的注意力转移机制。例如：视频场景中有一只静止的黑猫和运动的白猫，一开始人的注意力会集中在运动的白猫上。过了几秒钟，当那只静止的黑猫突然和原先运动的白猫打闹起来时，人就会将注意力转移到黑猫和白猫身上。由于当前国际上现有的模型大多集中考虑运动的物体，或者是纯粹静止的物体的显著性检测技术。因此，在这样一个需要更加全面理解人的注意力转移机制的场景中，这些模型的性能将显著下降，检测效果不尽人意。

发明内容

本发明目的是解决已有的视频显著性物体检测方法中未能考虑到显著性物体转移的问题，从而提出一种基于注意力转移机制的视频显著性物体检测方法。

本发明方法称为Saliency-Shift Aware Video salient object detection(SSAV)，由两个基本模块构成：金字塔扩张卷积模块(PDC)和显著性物体转移感知模块(SSLSTM)。前者使用强有力的静态图像显著性物体学习方法进行训练，后者扩展了传统的长短时记忆卷积网络(convLSTM)，使其具有显著性物体转移感知机制。本发明从PDC模块获取静态特征序列作为输入并产生相应的带有动态表示和注意力转移的VSOD结果。

本发明的技术方案

一种基于注意力转移机制的视频显著性物体检测方法，该方法包括如下步骤：

a.静态卷积网络模块：利用多层卷积神经网络，对多帧静态图像进行特征提取，得到一组特征其中，T表示输入视频的帧总数，t表示其中一帧；其中的多层卷积神经网络由不同基础卷积神经网络组成，所述的基础卷积神经网络包括VGG-16网络、ResNet-50网络、ResNet-101网络和SE网络。

b.金字塔扩张卷积PDC模块：将步骤a中提取的特征作为该模块的输入，利用金字塔扩张卷积模块获得多尺度特征。具体而言，PDC模块由K层空洞卷积层组成每层空洞卷积分别对应不同扩张比例从而提取出多尺度特征向量

c.注意力转移感知A_t模块：以长短期记忆网络convLSTM为基础，在该网络基础上添加权重F^A模块；该权重F^A模块由本发明专门设计，具体由一组简单的卷积层堆叠构成，利用该权重F^A模块对步骤b提取出的多尺度特征进行权重分配，从而实现注意力转移感知：

上述注意力转移感知A_t模块的输入为经过PDC模块后的多尺度特征向量输出为二维映射图S_t∈[0，1]^W×H；其中，注意力转移感知A_t模块的处理如下：

隐藏状态H_t＝convLSTM(X_t，H_t-1)

注意力转移感知A_t＝F^A({X₁，...，X_t})

感知转换G_m，t＝A_t⊙H_m，t

显著性物体预测

假设输入视频的总长度为T帧，下标t表示当前帧，t-1表示上一帧。H_t为3D张量当前时刻的隐藏状态，它由长短期记忆网络convLSTM(·)通过当前输入特征X_t和上一时刻张量状态得到。权重F^A(·)模块由本发明专门设计，它由一组简单卷积层堆叠组成，利用它来对步骤b提取出的一组特征{X₁，...，X_t}进行权重分配；G_m，t表示感知转换，m∈M为通道索引，M为通道总数，⊙符号为矩阵元素乘法，H_m，t表示3D张量当前时刻的第m通道的隐藏状态。w^S为一个1×1×M的卷积核，为卷积操作，σ是一个激活函数。

d.生成图像结果：利用一个1*1的卷积层对步骤c输出的特征进行卷积，再利用激活函数来判断哪些神经元得以激活，从而生成视频每帧的显著性物体图像；

e.更新网络：利用交叉熵损失函数计算步骤d生成的显著性物体图像与人工标注的参考图像的损失值，进行梯度回传、更新网络。

所述的与人工标注的参考图像计算损失值的函数如下：

其中L^Att和L^VSOD为交叉熵损失；l(·)为是否存在注视点显著图F_t；M_t为人工标注参考图像。

本发明的优点和有益效果为：

本发明的视频显著性检测方法考虑了注意力转移机制，此机制并非现有技术，它是人类视觉***中天然存在的但长期被研究人员所忽视。在网络中引入该机制具有创造性并具有一定难度，相比于当前的其他模型只从单帧视频图像上检测显著性，本发明方法考虑了视频中帧间的空间联系，并根据注意视点转换考虑了显著性的转移机制，对于应用更加具有实际意义，能得到更好的实际效果，在国际上达到领先水平。

附图说明

图1为本发明SSAV方法的流程图。

图2为本发明SSAV方法的具体实施框架图。其中，图像上的数字473×473×3表示输入图像的长×宽×通道数。

图3为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在ViSal的完整数据集上得到的显著图示例(17个对比方法依次为PDBM、MBNM、FGRN、DLVS、SCNN、SCOM、SFLR、SGSP、STBP、MSTM、GFVM、SAGM、MB+M、RWRV、SPVM、TIMP、SIVM)：

图4为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在FBMS的测试数据集上得到的显著图示例(17个对比方法同图3)；

图5为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在DAVIS的测试数据集上得到的显著图示例(17个对比方法同图3)；

图6为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在DAVSOD的测试数据集上得到的显著图示例(17个对比方法同图3)；

图7为本发明SSAAV方法和其他5个现在最好的深度学习方法以及传统方法在DAVSOD的测试数据集上得到具有显著性物体转移的显著图示例。其中列(a)是视频输入帧Frame，(b)是相应的人类观察输入帧留下的注意力视点Fixation，(c)是手工标注的参考图像帧，(d)是本发明方法SSAV得到的显著图，(e)-(i)依次为对比的5个方法得到的显著图：MBNM、FGRN、PDBM、SFLR、SAGM。

具体实施方式

参考图1和图2，本发明的具体实施步骤如下：

a.静态卷积网络模块：利用ResNet-50神经网络，对多帧静态图像进行特征提取得到一组特征其中，T表示输入视频的帧总数，t表示其中一帧。图2中的例子展示了3帧输入图像分别是：I_t-1、I_t、I_t+1。经过ResNet-50网络后得到一组特征为：Q_t-1、Q_t、Q_t+1。

b.金字塔扩张卷积PDC模块：将步骤a中提取的特征作为该模块的输入，利用金字塔扩张卷积模块获得多尺度特征。具体而言，PDC模块由K层平行的空洞卷积层组成每层空洞卷积分别对应不同扩张比例从而提取出多尺度特征向量本实施例中采用4层空洞卷积，每层对应的扩张比例分别为：2、4、8、16。例如，通过a步骤得到的特征Q将参与金字塔卷积运算得到一组特征{P₁，...，P_k，...，P_K}，然后再次与Q合并得到一组多尺度特征：

X＝[Q，P₁，...，P_k，...，P_K]，

其中，X为提取出的强化特征，Q为一个视频中第I帧的3D特征张量，代表并列操作。利用金字塔扩张卷积模块可以获得多尺度信息，提取出更加鲁棒的特征。

c.注意力转移感知A_t模块：以长短期记忆网络convLSTM为基础，在该网络基础上添加权重F^A模块；该F^A模块由本发明专门设计，由一组简单的卷积层堆叠构成，利用它对步骤b提取出的多尺度特征进行权重分配，从而实现注意力转移机制。

隐藏状态H_t＝convLSTM(X_t，H_t-1)

注意力转移感知A_t＝F^A({X₁，...，X_t})

感知转换G_m，t＝A_t⊙H_m，t

显著性物体预测

假设输入视频的总长度为T帧，下标t表示当前帧，t-1表示上一帧。H_t为3D张量当前时刻的隐藏状态，它由长短期记忆网络convLSTM(·)通过当前输入特征X_t和上一时刻张量状态得到。权重F^A(·)模块由本发明专门设计，它由一组简单卷积层堆叠组成，利用它来对步骤b提取出的一组特征{X₁，...，X_t}进行权重分配；G_m，t表示感知转换，m∈M为通道索引，M为通道总数，⊙符号为矩阵元素乘法，H_m，t表示3D张量当前时刻的第m通道的隐藏状态。w^S为一个1×1×M的卷积核，为卷积操作，σ是一个Sigmoid激活函数。如图2中所示，convLSTM网络采用的是一个3×3×32的卷积核。

e.更新网络：利用交叉熵cross entropy损失函数计算步骤d生成的显著性物体图像与人工标注的参考图像的损失值，进行梯度回传、更新网络。

最后得到的模型可以用来提取任意视频中的带有注意力转移机制的显著物体。所述的与人工标注的参考图像计算损失函数如下：

本发明的效果通过以下仿真实验进一步说明：

(1)实验数据集和仿真条件

本实验所采用的测试图像包括了王文冠等人于2015年构建的ViSal数据集、2014年美国伯克利加州大学的Jitendar Malik教授组内构建的FBMS，2016年Adobe公司的科学家Perazzi发表于著名的国际计算机视觉与模式识别会议(CVPR)的DAVIS，北京航天航空科技大学李甲组内于2018年构建的VOS数据集以及范登平等人在2019年公布的DAVSOD数据集。其中，ViSal数据集是第一个专门为视频显著性物体检测任务设计的数据集，它包含了17个视频序列总计193张标注图像帧。FBMS数据集是较早的一个经典数据集，为物体分割任务设计的，有59个视频合计720张标注帧，现被广泛用于视频显著性物体检测任务。DAVIS是当前第一个高质量标注的数据集，总计3455张稠密标注的图像帧，有50个视频。短短2年的时间，该数据集已经被广泛使用。至于VOS数据集，则是当前数据集中数量最大的一个，它由200个视频组成，标注了7467张图像帧。2018年南开大学媒体计算实验室构建了一个当前世界上视频规模最大的DAVSOD数据集，视频总数超过200个，标注的图像帧数目超过了当前所有数据集标注帧的总和达到了23938张。本实验平台是Inter[email protected]×24，显卡为GTX TITAN XP。采用Python Caffe进行仿真。

(2)视频显著性物体检测性能评价标准

我们采用最大F值(max F)、结构度量值(S)和平均误差(M)这三个黄金指标来度量视频显著性物体检测的结果。

在数学上F值是精度和召回率的调和平均值，可以实现综合的评价，其计算公式如下所示：

β是对Precision所加的权重，赋予了正确率更高的地位。当前文献普遍的做法是设置β²＝0.3。其中，Precision和Recall的计算公式如下：

精度Precision和召回率Recall又是由一个混淆矩阵构成，其中，在二值决策问题中，TP表示预测为正样本实际参考也为正样本，FP表示预测为正样本实际参考为负样本，FN表示预测为负样本实际参考也为负样本。我们对检测出来的结果图用256个不同阈值进行二值化，每个阈值化都能计算出一个F值，最大F值是256个阈值化之后的F值中最大的一个F值。

结构度量值(S)由范登平等人在2017年提出的，用来度量预测结果与参考结果的结构差异度。它将面向区域S_r和面向对象S_o两个层次结合起来度量：

S＝α*S_o+(1-α)*S_r

其中，设置α＝0.5将区域度量和对象度量设置相同的权重。具体计算公式可以参考原文：“Structure-measure：A New Way to Evaluate Foreground Maps.ICCV2017”。

平均度量误差(Mae)用来度量预测结果与参考结果之间的平均绝对误差，假设二进制的参考结果为一个二维矩阵G，预测结果也为一个二维矩阵S：

其中，N是图像中总像素个数。平均度量误差用于估计像素级的正确率，是使用最广泛的一个评价指标。

以下表1给出了本发明和当前经典的、国际上最先进的17个对比方法在5个最具挑战的公开测试数据集(ViSal、FBMS-T、DAVIS-T、VOS-T、DAVSOD-T)上得到的最大F值(maxF)，结构度量值(S)，平均误差(M)。

表1

(3)实验内容

实验一

从以上表1可以看出，本发明的SSAV方法同当前的17种方法对比具有明显的优势，在5个数据集，如ViSal、FBMS、DAVIS、VOS和DAVSOD中的3个指标都达到了最高的精度。这充分说明了本发明SSAV方法的有效性和鲁棒性。以上客观的评价结果定量地说明了本发明在各种场景下检测视频显著性物体的优势，除了数值结果外也需要通过视觉结果的主观评价。

实验二

在本次实验中，我们进一步展示了4个数据集上具有代表性的测试结果来说明本发明方法的性能。其中图3-图6中的(a)是输入的视频的3帧不同图像，(b)是手工标注的参考图像帧，(c)是本发明方法SSAV得到的显著图，(d)是PDBM方法得到的显著图，(e)是MBNM方法得到的显著图，(f)是FGRN方法得到的显著图，(g)是DLVS方法得到的显著图，(h)是SCNN方法得到的显著图，(i)是SCOM方法得到的显著图，(j)是SFLR方法得到的显著图，(k)是SGSP方法得到的显著图，(l)是STBP方法得到的显著图，(m)是MSTM方法得到的显著图，(n)是GFVM方法得到的显著图，(o)是SAGM方法得到的显著图,(p)是MB+M方法得到的显著图，(q)是RWRV方法得到的显著图,(r)是SPVM方法得到的显著图，(s)是TIMP方法得到的显著图,(t)是SIVM方法得到的显著图。

综合图3-图6的结果来看，我们的方法都非常接近手工标注的参考图像帧。而对比的17个方法都与参考图像有较大差距。

为了进一步验证本发明能够有效地应对显著性物体转移现象，在图7中展示了这一结果。其中，(a)表示DAVSOD数据集中某一视频中的5个视频帧，(b)表示人的注意视点，(c)表示手工标注的参考图像GT，(d)是本文SSAV方法得到的显著图，(e)是MBNM方法得到的显著图，(f)是FGRN方法得到的显著图，(g)是PDBM方法得到的显著图，(h)是SFLR方法得到的显著图,(i)是SAGM方法得到的显著图。从图中可以看出，本发明SSAV方法相对其他几个最优秀的方法得到了更令人满意的结果。本发明的方法能够有效地捕捉到显著性转移现象：【猫】→【猫，盒子】→【猫】→【盒子】→【猫，盒子】。然而其他的方法要么无法完整地检测出显著对象(例如，SFLR和SAGM方法)，要么仅仅捕捉了运动的猫而忽略了盒子(例如，MBNM方法)。

本实施例没有详细说明的部分属于本领域公共所知的常识，这里不一一赘述。以上所具体采用的实施网络(ResNet-50等)仅仅用于对发明的举例说明，并不是对本发明的保护范围的限定，凡是和本发明相似或相同的设计均属于本发明的保护范围。

Claims

1.一种基于注意力转移机制的视频显著性物体检测方法，其特征在于该方法包含如下步骤：

a.静态卷积网络模块：利用多层卷积神经网络，对多帧静态图像进行特征提取；

b.金字塔扩张卷积PDC模块：将步骤a中提取的特征作为该模块的输入，利用金字塔扩张卷积模块获得多尺度特征；

c.注意力转移感知A_t模块：以长短期记忆网络convLSTM为基础，在该网络基础上添加权重F^A模块，F^A模块由一组简单的卷积层堆叠构成,利用该权重F^A模块对步骤b提取出的多尺度特征进行权重分配，从而实现注意力转移感知；

2.根据权利要求1所述的基于注意力转移机制的视频显著性物体检测方法，其特征在于：步骤a所述的多层卷积神经网络由不同基础卷积神经网络组成。

3.根据权利要求2所述的基于注意力转移机制的视频显著性物体检测方法，其特征在于：所述的基础卷积神经网络包括VGG-16网络、ResNet-50网络、ResNet-101网络和SE网络。

4.根据权利要求1至3任一项所述的基于注意力转移机制的视频显著性物体检测方法，其特征在于：步骤c所述的注意力转移感知A_t模块的输入为经过PDC模块后的多尺度特征向量输出为二维映射图S_t∈[0,1]^W×H,W为图像宽度，H为图像高度；该注意力转移感知A_t模块的处理如下：

隐藏状态H_t＝convLSTM(X_t,H_t-1)

注意力转移感知A_t＝F^A({X₁,...,X_t})

感知转换G_m,t＝A_t⊙H_m,t

显著性物体预测

其中，假设输入视频的总长度为T帧，下标t表示当前帧，t-1表示上一帧，H_t为3D张量当前时刻的隐藏状态，它由长短期记忆网络convLSTM(·)通过当前输入特征X_t和上一时刻张量状态得到；权重F^A(·)模块由一组简单卷积层堆叠组成,利用该权重模块对步骤b提取出的一组特征{X₁,...,X_t}进行权重分配；G_m,t表示感知转换,m∈M为通道索引,⊙符号为矩阵元素乘法,H_m,t表示3D张量当前时刻的第m通道的隐藏状态；w^S为一个1×1×M的卷积核，为卷积操作，σ是一个激活函数。

5.根据权利要求1至3任一项所述的基于注意力转移机制的视频显著性物体检测方法，其特征在于：步骤e所述的与人工标注参考图像计算损失值的函数如下：

其中L^Att和L^VSOD为交叉熵损失；l(·)为是否存在注视点显著图Ft；Mt为人工标注参考图。