CN110097115A - 一种基于注意力转移机制的视频显著性物体检测方法 - Google Patents

一种基于注意力转移机制的视频显著性物体检测方法 Download PDF

Info

Publication number
CN110097115A
CN110097115A CN201910347420.XA CN201910347420A CN110097115A CN 110097115 A CN110097115 A CN 110097115A CN 201910347420 A CN201910347420 A CN 201910347420A CN 110097115 A CN110097115 A CN 110097115A
Authority
CN
China
Prior art keywords
attention
module
network
metastasis
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910347420.XA
Other languages
English (en)
Other versions
CN110097115B (zh
Inventor
程明明
范登平
林铮
吴文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Device Co Ltd
Nankai University
Original Assignee
Huawei Device Co Ltd
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Device Co Ltd, Nankai University filed Critical Huawei Device Co Ltd
Priority to CN201910347420.XA priority Critical patent/CN110097115B/zh
Publication of CN110097115A publication Critical patent/CN110097115A/zh
Application granted granted Critical
Publication of CN110097115B publication Critical patent/CN110097115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意力转移机制的视频显著性物体检测方法。注意力转移机制是人类视觉***中特有的功能,但是,当前的方法忽视了这一重要的机制。本发明方法设计了一种新的卷积神经网络架构,它有效地利用了静态卷积网络、金字塔扩展卷积网络、长短期记忆网络和注意力转移感知模块的特点,从而充分体现了人类视觉***中的注意力转移机制,对于真实的应用场景更具实际意义,并且能得到更好的显著性物体检测效果。相对于当前的所有视频显著性物体检测方法,本发明方法达到了国际领先水平,在主流的公开数据集的性能评测上,超越了当前最好的视频显著性物体检测方法。

Description

一种基于注意力转移机制的视频显著性物体检测方法
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于注意力转移机制的视频显著性物体检测方法。
背景技术
视频显著性物体检测(VSOD)旨在从动态的视频中提取引人注目的物体。这项任务来自于研究人类的视觉注意行为,即人类视觉***快速定位(视觉注意力机制)场景中的重要信息这一强大能力。早期生理学研究定量证实存在这种明确的、对象之间的强相关性的显著性判断和隐含视觉注意力分配行为。由于我们生活在一个动态变化的世界中,因此视频显著性物体检测具有重要意义。并且,它有着广泛的实际应用,例如视频分割,视频提取,视频压缩,自动驾驶,机器交互等。由于存在大量的不同类型的视频数据(例如,不同的运动模式,遮挡,模糊,物体变形等)和复杂的人类视觉注意行为(即选择性注意力动态分配,注意力转移等),因此,视频显著性检测面临极大的挑战,并且引起了高度关注,具有重要的学术价值。
早期的VSOD模型基于一些简单的特征(例如,颜色,运动等),并在很大程度上依赖于图像中的经典的显著性物体检测算法(例如,中心-周边对比,背景优先等)和视觉注意力的认知理论(例如,特征整合理论,指导搜索等)。他们探讨研究了对空间域和时间域显著性特征的整合的方式,如梯度流场,测地距离,随机游走和图谱结构等。传统的VSOD模型受限于有限的特征表达能力。然而,最近基于深度学习的VSOD模型受到了更多的关注,通过在图像上应用深度神经网络,成功实现了静态图像的显著性检测。更具体地来说,王等人在IEEETIP期刊(27(1):38–49,2018)上发表题为“Video salient object detection via fullyconvolutional networks”的论文。该论文中实现了对于VSOD搭建一个完全卷积的神经网络。另一项同时期发表在BMVC上的论文题为“Deeply supervised 3d recurrent fcn forsalient object detection in videos”。该工作使用3D滤波器将空间和时间信息结合在一起来搭建条件随机场框架。随后,时空深度特征,循环神经网络等被提议用于更好地捕获空间和时间的显著性特征。总的来说,基于深度网络的VSOD模型,由于利用了神经网络来提取特征,从而拥有强大的学习能力。由于文献太多,在此就不再一一赘述。但是,这些模型忽略人类视觉注意机制中非常重要的注意力转移机制。例如:视频场景中有一只静止的黑猫和运动的白猫,一开始人的注意力会集中在运动的白猫上。过了几秒钟,当那只静止的黑猫突然和原先运动的白猫打闹起来时,人就会将注意力转移到黑猫和白猫身上。由于当前国际上现有的模型大多集中考虑运动的物体,或者是纯粹静止的物体的显著性检测技术。因此,在这样一个需要更加全面理解人的注意力转移机制的场景中,这些模型的性能将显著下降,检测效果不尽人意。
发明内容
本发明目的是解决已有的视频显著性物体检测方法中未能考虑到显著性物体转移的问题,从而提出一种基于注意力转移机制的视频显著性物体检测方法。
本发明方法称为Saliency-Shift Aware Video salient object detection(SSAV),由两个基本模块构成:金字塔扩张卷积模块(PDC)和显著性物体转移感知模块(SSLSTM)。前者使用强有力的静态图像显著性物体学习方法进行训练,后者扩展了传统的长短时记忆卷积网络(convLSTM),使其具有显著性物体转移感知机制。本发明从PDC模块获取静态特征序列作为输入并产生相应的带有动态表示和注意力转移的VSOD结果。
本发明的技术方案
一种基于注意力转移机制的视频显著性物体检测方法,该方法包括如下步骤:
a.静态卷积网络模块:利用多层卷积神经网络,对多帧静态图像进行特征提取,得到一组特征其中,T表示输入视频的帧总数,t表示其中一帧;其中的多层卷积神经网络由不同基础卷积神经网络组成,所述的基础卷积神经网络包括VGG-16网络、ResNet-50网络、ResNet-101网络和SE网络。
b.金字塔扩张卷积PDC模块:将步骤a中提取的特征作为该模块的输入,利用金字塔扩张卷积模块获得多尺度特征。具体而言,PDC模块由K层空洞卷积层组成每层空洞卷积分别对应不同扩张比例从而提取出多尺度特征向量
c.注意力转移感知At模块:以长短期记忆网络convLSTM为基础,在该网络基础上添加权重FA模块;该权重FA模块由本发明专门设计,具体由一组简单的卷积层堆叠构成,利用该权重FA模块对步骤b提取出的多尺度特征进行权重分配,从而实现注意力转移感知:
上述注意力转移感知At模块的输入为经过PDC模块后的多尺度特征向量输出为二维映射图St∈[0,1]W×H;其中,注意力转移感知At模块的处理如下:
隐藏状态Ht=convLSTM(Xt,Ht-1)
注意力转移感知At=FA({X1,...,Xt})
感知转换Gm,t=At⊙Hm,t
显著性物体预测
假设输入视频的总长度为T帧,下标t表示当前帧,t-1表示上一帧。Ht为3D张量当前时刻的隐藏状态,它由长短期记忆网络convLSTM(·)通过当前输入特征Xt和上一时刻张量状态得到。权重FA(·)模块由本发明专门设计,它由一组简单卷积层堆叠组成,利用它来对步骤b提取出的一组特征{X1,...,Xt}进行权重分配;Gm,t表示感知转换,m∈M为通道索引,M为通道总数,⊙符号为矩阵元素乘法,Hm,t表示3D张量当前时刻的第m通道的隐藏状态。wS为一个1×1×M的卷积核,为卷积操作,σ是一个激活函数。
d.生成图像结果:利用一个1*1的卷积层对步骤c输出的特征进行卷积,再利用激活函数来判断哪些神经元得以激活,从而生成视频每帧的显著性物体图像;
e.更新网络:利用交叉熵损失函数计算步骤d生成的显著性物体图像与人工标注的参考图像的损失值,进行梯度回传、更新网络。
所述的与人工标注的参考图像计算损失值的函数如下:
其中LAtt和LVSOD为交叉熵损失;l(·)为是否存在注视点显著图Ft;Mt为人工标注参考图像。
本发明的优点和有益效果为:
本发明的视频显著性检测方法考虑了注意力转移机制,此机制并非现有技术,它是人类视觉***中天然存在的但长期被研究人员所忽视。在网络中引入该机制具有创造性并具有一定难度,相比于当前的其他模型只从单帧视频图像上检测显著性,本发明方法考虑了视频中帧间的空间联系,并根据注意视点转换考虑了显著性的转移机制,对于应用更加具有实际意义,能得到更好的实际效果,在国际上达到领先水平。
附图说明
图1为本发明SSAV方法的流程图。
图2为本发明SSAV方法的具体实施框架图。其中,图像上的数字473×473×3表示输入图像的长×宽×通道数。
图3为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在ViSal的完整数据集上得到的显著图示例(17个对比方法依次为PDBM、MBNM、FGRN、DLVS、SCNN、SCOM、SFLR、SGSP、STBP、MSTM、GFVM、SAGM、MB+M、RWRV、SPVM、TIMP、SIVM):
图4为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在FBMS的测试数据集上得到的显著图示例(17个对比方法同图3);
图5为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在DAVIS的测试数据集上得到的显著图示例(17个对比方法同图3);
图6为本发明SSAV方法和其他17个现有最好的深度学习方法以及传统方法在DAVSOD的测试数据集上得到的显著图示例(17个对比方法同图3);
图7为本发明SSAAV方法和其他5个现在最好的深度学习方法以及传统方法在DAVSOD的测试数据集上得到具有显著性物体转移的显著图示例。其中列(a)是视频输入帧Frame,(b)是相应的人类观察输入帧留下的注意力视点Fixation,(c)是手工标注的参考图像帧,(d)是本发明方法SSAV得到的显著图,(e)-(i)依次为对比的5个方法得到的显著图:MBNM、FGRN、PDBM、SFLR、SAGM。
具体实施方式
参考图1和图2,本发明的具体实施步骤如下:
a.静态卷积网络模块:利用ResNet-50神经网络,对多帧静态图像进行特征提取得到一组特征其中,T表示输入视频的帧总数,t表示其中一帧。图2中的例子展示了3帧输入图像分别是:It-1、It、It+1。经过ResNet-50网络后得到一组特征为:Qt-1、Qt、Qt+1
b.金字塔扩张卷积PDC模块:将步骤a中提取的特征作为该模块的输入,利用金字塔扩张卷积模块获得多尺度特征。具体而言,PDC模块由K层平行的空洞卷积层组成每层空洞卷积分别对应不同扩张比例从而提取出多尺度特征向量本实施例中采用4层空洞卷积,每层对应的扩张比例分别为:2、4、8、16。例如,通过a步骤得到的特征Q将参与金字塔卷积运算得到一组特征{P1,...,Pk,...,PK},然后再次与Q合并得到一组多尺度特征:
X=[Q,P1,...,Pk,...,PK],
其中,X为提取出的强化特征,Q为一个视频中第I帧的3D特征张量,代表并列操作。利用金字塔扩张卷积模块可以获得多尺度信息,提取出更加鲁棒的特征。
c.注意力转移感知At模块:以长短期记忆网络convLSTM为基础,在该网络基础上添加权重FA模块;该FA模块由本发明专门设计,由一组简单的卷积层堆叠构成,利用它对步骤b提取出的多尺度特征进行权重分配,从而实现注意力转移机制。
上述注意力转移感知At模块的输入为经过PDC模块后的多尺度特征向量输出为二维映射图St∈[0,1]W×H;其中,注意力转移感知At模块的处理如下:
隐藏状态Ht=convLSTM(Xt,Ht-1)
注意力转移感知At=FA({X1,...,Xt})
感知转换Gm,t=At⊙Hm,t
显著性物体预测
假设输入视频的总长度为T帧,下标t表示当前帧,t-1表示上一帧。Ht为3D张量当前时刻的隐藏状态,它由长短期记忆网络convLSTM(·)通过当前输入特征Xt和上一时刻张量状态得到。权重FA(·)模块由本发明专门设计,它由一组简单卷积层堆叠组成,利用它来对步骤b提取出的一组特征{X1,...,Xt}进行权重分配;Gm,t表示感知转换,m∈M为通道索引,M为通道总数,⊙符号为矩阵元素乘法,Hm,t表示3D张量当前时刻的第m通道的隐藏状态。wS为一个1×1×M的卷积核,为卷积操作,σ是一个Sigmoid激活函数。如图2中所示,convLSTM网络采用的是一个3×3×32的卷积核。
d.生成图像结果:利用一个1*1的卷积层对步骤c输出的特征进行卷积,再利用激活函数来判断哪些神经元得以激活,从而生成视频每帧的显著性物体图像;
e.更新网络:利用交叉熵cross entropy损失函数计算步骤d生成的显著性物体图像与人工标注的参考图像的损失值,进行梯度回传、更新网络。
最后得到的模型可以用来提取任意视频中的带有注意力转移机制的显著物体。所述的与人工标注的参考图像计算损失函数如下:
其中LAtt和LVSOD为交叉熵损失;l(·)为是否存在注视点显著图Ft;Mt为人工标注参考图像。
本发明的效果通过以下仿真实验进一步说明:
(1)实验数据集和仿真条件
本实验所采用的测试图像包括了王文冠等人于2015年构建的ViSal数据集、2014年美国伯克利加州大学的Jitendar Malik教授组内构建的FBMS,2016年Adobe公司的科学家Perazzi发表于著名的国际计算机视觉与模式识别会议(CVPR)的DAVIS,北京航天航空科技大学李甲组内于2018年构建的VOS数据集以及范登平等人在2019年公布的DAVSOD数据集。其中,ViSal数据集是第一个专门为视频显著性物体检测任务设计的数据集,它包含了17个视频序列总计193张标注图像帧。FBMS数据集是较早的一个经典数据集,为物体分割任务设计的,有59个视频合计720张标注帧,现被广泛用于视频显著性物体检测任务。DAVIS是当前第一个高质量标注的数据集,总计3455张稠密标注的图像帧,有50个视频。短短2年的时间,该数据集已经被广泛使用。至于VOS数据集,则是当前数据集中数量最大的一个,它由200个视频组成,标注了7467张图像帧。2018年南开大学媒体计算实验室构建了一个当前世界上视频规模最大的DAVSOD数据集,视频总数超过200个,标注的图像帧数目超过了当前所有数据集标注帧的总和达到了23938张。本实验平台是Inter[email protected]×24,显卡为GTX TITAN XP。采用Python Caffe进行仿真。
(2)视频显著性物体检测性能评价标准
我们采用最大F值(max F)、结构度量值(S)和平均误差(M)这三个黄金指标来度量视频显著性物体检测的结果。
在数学上F值是精度和召回率的调和平均值,可以实现综合的评价,其计算公式如下所示:
β是对Precision所加的权重,赋予了正确率更高的地位。当前文献普遍的做法是设置β2=0.3。其中,Precision和Recall的计算公式如下:
精度Precision和召回率Recall又是由一个混淆矩阵构成,其中,在二值决策问题中,TP表示预测为正样本实际参考也为正样本,FP表示预测为正样本实际参考为负样本,FN表示预测为负样本实际参考也为负样本。我们对检测出来的结果图用256个不同阈值进行二值化,每个阈值化都能计算出一个F值,最大F值是256个阈值化之后的F值中最大的一个F值。
结构度量值(S)由范登平等人在2017年提出的,用来度量预测结果与参考结果的结构差异度。它将面向区域Sr和面向对象So两个层次结合起来度量:
S=α*So+(1-α)*Sr
其中,设置α=0.5将区域度量和对象度量设置相同的权重。具体计算公式可以参考原文:“Structure-measure:A New Way to Evaluate Foreground Maps.ICCV2017”。
平均度量误差(Mae)用来度量预测结果与参考结果之间的平均绝对误差,假设二进制的参考结果为一个二维矩阵G,预测结果也为一个二维矩阵S:
其中,N是图像中总像素个数。平均度量误差用于估计像素级的正确率,是使用最广泛的一个评价指标。
以下表1给出了本发明和当前经典的、国际上最先进的17个对比方法在5个最具挑战的公开测试数据集(ViSal、FBMS-T、DAVIS-T、VOS-T、DAVSOD-T)上得到的最大F值(maxF),结构度量值(S),平均误差(M)。
表1
(3)实验内容
实验一
从以上表1可以看出,本发明的SSAV方法同当前的17种方法对比具有明显的优势,在5个数据集,如ViSal、FBMS、DAVIS、VOS和DAVSOD中的3个指标都达到了最高的精度。这充分说明了本发明SSAV方法的有效性和鲁棒性。以上客观的评价结果定量地说明了本发明在各种场景下检测视频显著性物体的优势,除了数值结果外也需要通过视觉结果的主观评价。
实验二
在本次实验中,我们进一步展示了4个数据集上具有代表性的测试结果来说明本发明方法的性能。其中图3-图6中的(a)是输入的视频的3帧不同图像,(b)是手工标注的参考图像帧,(c)是本发明方法SSAV得到的显著图,(d)是PDBM方法得到的显著图,(e)是MBNM方法得到的显著图,(f)是FGRN方法得到的显著图,(g)是DLVS方法得到的显著图,(h)是SCNN方法得到的显著图,(i)是SCOM方法得到的显著图,(j)是SFLR方法得到的显著图,(k)是SGSP方法得到的显著图,(l)是STBP方法得到的显著图,(m)是MSTM方法得到的显著图,(n)是GFVM方法得到的显著图,(o)是SAGM方法得到的显著图,(p)是MB+M方法得到的显著图,(q)是RWRV方法得到的显著图,(r)是SPVM方法得到的显著图,(s)是TIMP方法得到的显著图,(t)是SIVM方法得到的显著图。
综合图3-图6的结果来看,我们的方法都非常接近手工标注的参考图像帧。而对比的17个方法都与参考图像有较大差距。
为了进一步验证本发明能够有效地应对显著性物体转移现象,在图7中展示了这一结果。其中,(a)表示DAVSOD数据集中某一视频中的5个视频帧,(b)表示人的注意视点,(c)表示手工标注的参考图像GT,(d)是本文SSAV方法得到的显著图,(e)是MBNM方法得到的显著图,(f)是FGRN方法得到的显著图,(g)是PDBM方法得到的显著图,(h)是SFLR方法得到的显著图,(i)是SAGM方法得到的显著图。从图中可以看出,本发明SSAV方法相对其他几个最优秀的方法得到了更令人满意的结果。本发明的方法能够有效地捕捉到显著性转移现象:【猫】→【猫,盒子】→【猫】→【盒子】→【猫,盒子】。然而其他的方法要么无法完整地检测出显著对象(例如,SFLR和SAGM方法),要么仅仅捕捉了运动的猫而忽略了盒子(例如,MBNM方法)。
本实施例没有详细说明的部分属于本领域公共所知的常识,这里不一一赘述。以上所具体采用的实施网络(ResNet-50等)仅仅用于对发明的举例说明,并不是对本发明的保护范围的限定,凡是和本发明相似或相同的设计均属于本发明的保护范围。

Claims (5)

1.一种基于注意力转移机制的视频显著性物体检测方法,其特征在于该方法包含如下步骤:
a.静态卷积网络模块:利用多层卷积神经网络,对多帧静态图像进行特征提取;
b.金字塔扩张卷积PDC模块:将步骤a中提取的特征作为该模块的输入,利用金字塔扩张卷积模块获得多尺度特征;
c.注意力转移感知At模块:以长短期记忆网络convLSTM为基础,在该网络基础上添加权重FA模块,FA模块由一组简单的卷积层堆叠构成,利用该权重FA模块对步骤b提取出的多尺度特征进行权重分配,从而实现注意力转移感知;
d.生成图像结果:利用一个1*1的卷积层对步骤c输出的特征进行卷积,再利用激活函数来判断哪些神经元得以激活,从而生成视频每帧的显著性物体图像;
e.更新网络:利用交叉熵损失函数计算步骤d生成的显著性物体图像与人工标注的参考图像的损失值,进行梯度回传、更新网络。
2.根据权利要求1所述的基于注意力转移机制的视频显著性物体检测方法,其特征在于:步骤a所述的多层卷积神经网络由不同基础卷积神经网络组成。
3.根据权利要求2所述的基于注意力转移机制的视频显著性物体检测方法,其特征在于:所述的基础卷积神经网络包括VGG-16网络、ResNet-50网络、ResNet-101网络和SE网络。
4.根据权利要求1至3任一项所述的基于注意力转移机制的视频显著性物体检测方法,其特征在于:步骤c所述的注意力转移感知At模块的输入为经过PDC模块后的多尺度特征向量输出为二维映射图St∈[0,1]W×H,W为图像宽度,H为图像高度;该注意力转移感知At模块的处理如下:
隐藏状态Ht=convLSTM(Xt,Ht-1)
注意力转移感知At=FA({X1,...,Xt})
感知转换Gm,t=At⊙Hm,t
显著性物体预测
其中,假设输入视频的总长度为T帧,下标t表示当前帧,t-1表示上一帧,Ht为3D张量当前时刻的隐藏状态,它由长短期记忆网络convLSTM(·)通过当前输入特征Xt和上一时刻张量状态得到;权重FA(·)模块由一组简单卷积层堆叠组成,利用该权重模块对步骤b提取出的一组特征{X1,...,Xt}进行权重分配;Gm,t表示感知转换,m∈M为通道索引,⊙符号为矩阵元素乘法,Hm,t表示3D张量当前时刻的第m通道的隐藏状态;wS为一个1×1×M的卷积核,为卷积操作,σ是一个激活函数。
5.根据权利要求1至3任一项所述的基于注意力转移机制的视频显著性物体检测方法,其特征在于:步骤e所述的与人工标注参考图像计算损失值的函数如下:
其中LAtt和LVSOD为交叉熵损失;l(·)为是否存在注视点显著图Ft;Mt为人工标注参考图。
CN201910347420.XA 2019-04-28 2019-04-28 一种基于注意力转移机制的视频显著性物体检测方法 Active CN110097115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910347420.XA CN110097115B (zh) 2019-04-28 2019-04-28 一种基于注意力转移机制的视频显著性物体检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910347420.XA CN110097115B (zh) 2019-04-28 2019-04-28 一种基于注意力转移机制的视频显著性物体检测方法

Publications (2)

Publication Number Publication Date
CN110097115A true CN110097115A (zh) 2019-08-06
CN110097115B CN110097115B (zh) 2022-11-25

Family

ID=67446180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910347420.XA Active CN110097115B (zh) 2019-04-28 2019-04-28 一种基于注意力转移机制的视频显著性物体检测方法

Country Status (1)

Country Link
CN (1) CN110097115B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929735A (zh) * 2019-10-17 2020-03-27 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法
CN111242003A (zh) * 2020-01-10 2020-06-05 南开大学 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN111275694A (zh) * 2020-02-06 2020-06-12 电子科技大学 一种注意力机制引导的递进式划分人体解析模型及方法
CN111340046A (zh) * 2020-02-18 2020-06-26 上海理工大学 基于特征金字塔网络和通道注意力的视觉显著性检测方法
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法
CN115359310A (zh) * 2022-07-08 2022-11-18 中国人民解放军国防科技大学 一种基于ConvLSTM和条件随机场的SIC预测方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101430689A (zh) * 2008-11-12 2009-05-13 哈尔滨工业大学 一种视频中的人物动作检测方法
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
US20140270707A1 (en) * 2013-03-15 2014-09-18 Disney Enterprises, Inc. Method and System for Detecting and Recognizing Social Interactions In a Video
CN106127799A (zh) * 2016-06-16 2016-11-16 方玉明 一种对于三维视频的视觉注意力检测方法
WO2017155661A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
WO2018023734A1 (zh) * 2016-08-05 2018-02-08 深圳大学 一种3d图像的显著性检测方法
CN108428238A (zh) * 2018-03-02 2018-08-21 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN109118459A (zh) * 2017-06-23 2019-01-01 南开大学 图像显著性物体检测方法和装置
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8363939B1 (en) * 2006-10-06 2013-01-29 Hrl Laboratories, Llc Visual attention and segmentation system
CN101430689A (zh) * 2008-11-12 2009-05-13 哈尔滨工业大学 一种视频中的人物动作检测方法
US20140270707A1 (en) * 2013-03-15 2014-09-18 Disney Enterprises, Inc. Method and System for Detecting and Recognizing Social Interactions In a Video
WO2017155661A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US20170262995A1 (en) * 2016-03-11 2017-09-14 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
CN106127799A (zh) * 2016-06-16 2016-11-16 方玉明 一种对于三维视频的视觉注意力检测方法
WO2018023734A1 (zh) * 2016-08-05 2018-02-08 深圳大学 一种3d图像的显著性检测方法
CN109118459A (zh) * 2017-06-23 2019-01-01 南开大学 图像显著性物体检测方法和装置
CN108428238A (zh) * 2018-03-02 2018-08-21 南开大学 一种基于深度网络的多类型任务通用的检测方法
CN109309834A (zh) * 2018-11-21 2019-02-05 北京航空航天大学 基于卷积神经网络和hevc压缩域显著信息的视频压缩方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
HONGMEI SONG等: "Pyramid Dilated Deeper ConvLSTM for Video Salient Object Detection", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
WENGUAN WANG等: "Revisiting Video Saliency: A Large-scale Benchmark and a New Model"", 《IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION 2018》 *
张晴: "基于视觉注意的显著物体检测实验设计", 《实验室研究与探索》 *
肖利梅等: "基于多尺度相位谱的显著性运动目标检测", 《兰州理工大学学报》 *
胡春海等: "视觉显著性驱动的运动鱼体视频分割算法", 《燕山大学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929735A (zh) * 2019-10-17 2020-03-27 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法
CN110929735B (zh) * 2019-10-17 2022-04-01 杭州电子科技大学 一种基于多尺度特征注意机制的快速显著性检测方法
CN111242003A (zh) * 2020-01-10 2020-06-05 南开大学 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN111242003B (zh) * 2020-01-10 2022-05-27 南开大学 一种基于多尺度受约束自注意机制的视频显著性物体检测的方法
CN111275694B (zh) * 2020-02-06 2020-10-23 电子科技大学 一种注意力机制引导的递进式划分人体解析***及方法
CN111275694A (zh) * 2020-02-06 2020-06-12 电子科技大学 一种注意力机制引导的递进式划分人体解析模型及方法
CN111340046A (zh) * 2020-02-18 2020-06-26 上海理工大学 基于特征金字塔网络和通道注意力的视觉显著性检测方法
CN111507215A (zh) * 2020-04-08 2020-08-07 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111523410A (zh) * 2020-04-09 2020-08-11 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN111523410B (zh) * 2020-04-09 2022-08-26 哈尔滨工业大学 一种基于注意力机制的视频显著性目标检测方法
CN115359310A (zh) * 2022-07-08 2022-11-18 中国人民解放军国防科技大学 一种基于ConvLSTM和条件随机场的SIC预测方法及***
CN115359310B (zh) * 2022-07-08 2023-09-01 中国人民解放军国防科技大学 一种基于ConvLSTM和条件随机场的SIC预测方法及***
CN115276784A (zh) * 2022-07-26 2022-11-01 西安电子科技大学 基于深度学习的轨道角动量模态识别方法
CN115276784B (zh) * 2022-07-26 2024-01-23 西安电子科技大学 基于深度学习的轨道角动量模态识别方法

Also Published As

Publication number Publication date
CN110097115B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN110097115A (zh) 一种基于注意力转移机制的视频显著性物体检测方法
Tao et al. Smoke detection based on deep convolutional neural networks
CN109697435B (zh) 人流量监测方法、装置、存储介质及设备
Hazirbas et al. Fusenet: Incorporating depth into semantic segmentation via fusion-based cnn architecture
CN106897670B (zh) 一种基于计算机视觉的快递暴力分拣识别方法
CN105608456B (zh) 一种基于全卷积网络的多方向文本检测方法
CN110532900A (zh) 基于U-Net和LS-CNN的人脸表情识别方法
CN104732208B (zh) 基于稀疏子空间聚类的视频人体行为识别方法
CN104392228B (zh) 基于条件随机场模型的无人机图像目标类检测方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN108764142A (zh) 基于3dcnn的无人机影像森林烟雾检测和分类方法
CN105869173A (zh) 一种立体视觉显著性检测方法
CN110188599A (zh) 一种人体姿态行为智能分析识别方法
CN103186775B (zh) 基于混合描述子的人体运动识别方法
CN108921822A (zh) 基于卷积神经网络的图像目标计数方法
CN106845374A (zh) 基于深度学习的行人检测方法及检测装置
CN108805078A (zh) 基于行人平均状态的视频行人再识别方法及***
CN109559310A (zh) 基于显著性检测的输变电巡检图像质量评价方法及***
CN112926453B (zh) 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN113591968A (zh) 一种基于非对称注意力特征融合的红外弱小目标检测方法
CN109214263A (zh) 一种基于特征复用的人脸识别方法
CN109145717A (zh) 一种在线学习的人脸识别方法
CN106570874A (zh) 一种结合图像局部约束与对象全局约束的图像标记方法
CN109376753A (zh) 一种稠密连接的三维空谱分离卷积深度网络及构建方法
CN111582091B (zh) 基于多分支卷积神经网络的行人识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant