CN106529419B - 视频显著性堆栈式聚合的对象自动检测方法 - Google Patents

视频显著性堆栈式聚合的对象自动检测方法 Download PDF

Info

Publication number
CN106529419B
CN106529419B CN201610915190.9A CN201610915190A CN106529419B CN 106529419 B CN106529419 B CN 106529419B CN 201610915190 A CN201610915190 A CN 201610915190A CN 106529419 B CN106529419 B CN 106529419B
Authority
CN
China
Prior art keywords
pixel
video image
notable
notable feature
saliency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610915190.9A
Other languages
English (en)
Other versions
CN106529419A (zh
Inventor
陈小武
郑安林
李甲
夏长群
赵沁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201610915190.9A priority Critical patent/CN106529419B/zh
Publication of CN106529419A publication Critical patent/CN106529419A/zh
Application granted granted Critical
Publication of CN106529419B publication Critical patent/CN106529419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了视频显著性堆栈式聚合的对象自动检测方法。对于视频中显著性对象的检测,本发明从像素、超像素和对象三个级别分别提取空域和时域显著性特征描述子,再利用这些显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器。这一自动编码器能够对视频图像中的像素点提取的显著特征描述子进行自主编码学习,从而可以结合视频像素点的显著特征描述子检测视频中的显著对象。一方面,本发明提供的***可以有效地检测视频中的显著性对象,另一方面,本发明也提供了一种视频显著性对象的参考方法。

Description

视频显著性堆栈式聚合的对象自动检测方法
技术领域
本发明涉及计算机视觉和图像理解领域,具体地说是视频显著性堆栈式聚合的对象自动检测方法。
背景技术
视频中显著性对象的检测和描述是计算机视觉领域和信息检索领域的基本问题。在过去的几十年里面,研究者们相继提出了很多针对图像中显著性对象检测的方法,这些方法主要针对于单张图像中的显著性对象的检测和描述,在视频领域中,针对显著性对象的检测和描述的算法却很少有人提出。其中一项主要因素是大量具有无歧义并精确标注的显著性对象的视频数量不足。然而,相比于图像中显著性对象的检测,视频中显著性对象的检测具有重要意义。如把针对视频的显著性对象检测算法应用在无人机上,可以很容易的发现无人机捕捉到视频内容中显著对象,帮助分析人员进行下一步的处理。在安全领域,从监控视频中快速发现显著性目标可以帮助监控人员迅速应对突发事件,减少安全事件的发生。
研究者们提出的针对图像的显著性对象检测的方法主要使用图像中的颜色、纹理、对比度等特征描述子能够表征图像中的显著性对象,然后通过机器学习或者统计学规律得到图像中的显著性对象。但这些算法在视频中的应用效果却差强人意。主要原因是视频中的连续图像之间存在着时空相关性,针对图像中显著性对象检测的算法仅仅考虑了单张图像空间之间的关系,同时由于单张图像之间不存在时域关系,这些算法也无法引入针对时域的显著性特征描述子。
发明内容
本发明技术解决问题:为了克服现有技术的不足,提供一种视频显著性堆栈式聚合的对象自动检测方法,提高在视频显著性数据集上的测试性能,能够很好地检测视频中的显著性对象。
本发明技术解决方案:视频显著性堆栈式聚合的对象自动检测方法,通过引入空域和时域显著性特征描述子,对视频图像从像素、超像素和对象三个级别分别提取显著特征图,把视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。再从视频中随机采样500,000个像素点,利用这些像素的显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器,利用这一堆栈式自动编码器结合视频图像中像素点的显著特征描述子可以预测对应像素点的显著程度值,从而可以检测出视频图像中的显著性对象。
主要步骤有:
步骤(1)、把视频图像转换到Lab和HSV颜色空间中,同时计算相邻帧之间的光流信息以及相邻帧之间的闪烁,供步骤(2)和步骤(4)使用。
步骤(2)、根据步骤(1)中的结果,对视频中的图像,分别从像素、超像素和对象块三个级别中提取显著特征图。视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。这些显著特征描述子能够从不同的角度表征显著性对象的属性;
步骤(3)、从视频中随机采样像素点,利用步骤(2)中的方法提取这些随机采样像素点的特征描述子,通过无监督学习的方法训练一个隐藏层中最后编码层只有一个节点的堆栈式自动编码器。最终能够得到一个利用像素的显著特征描述子来预测其显著程度得分的堆栈式自动编码器。
步骤(4)、对视频图像中的像素点,利用步骤(2)中的方法提取像素点的显著特征描述子,根据步骤(3)中得到的堆栈式自动编码器,两者之间通过计算可以预测视频中像素的显著程度得分。
步骤(5)、对步骤(4)得到的结果进行后处理,得到最终的显著性图。
进一步说,步骤(1)中,对于视频图像,将其图像尺寸大小调整为最长边为300个像素点,随后将其分别转换到Lab和HSV颜色空间,同时计算当前帧和后一帧之间的光流信息以及相邻帧之间的闪烁,把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差。用XYT来描述视频图像在时域空间中的信息,其中X表示光流在水平方向的投影变量,Y表示光流在垂直方向的投影变量,T表示相邻帧之间的闪烁在时域中的变量。
在完成步骤(1)颜色空间的转换和光流信息及帧间闪烁的计算后,计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图。
首先,对视频中像素提取显著特征图的过程如下:分别独立地计算视频图像It中像素点在颜色空间Lab和S(因为HVS颜色空间中Hue通道中的值并不总是反映颜色对比度,V通道对于其他颜色空间通道显得多余,因此忽略HV通道的特征描述子)通道的最短栅格距离,得到视频图像在空域的显著特征图此后,计算像素点在XYT时域空间中的最短栅格距离,得到视频图像在时域的显著特征图同时,计算视频图像的背景先验图按照通道相加,再和相乘以去除背景干扰,得到视频图像在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息。
其次,对视频图像中超像素块提取显著特征图的过程如下:将视频图像It分解成超像素块,随后提取超像素块的显著性特征。这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验描述子,随后,使用在图像数据集上训练得到的随机森林回归模型对超像素块对应的特征进行回归计算,借此预测超像素块的显著程度得分。由此可以得到视频图像的显著特征图
随后,对视频图像中对象块提取显著特征图的过程如下:首先,从视频图像It中提取对象块,并按照对象块的完整程度进行降序排序,随后在Lab和HSV颜色空间分别得到对应的注视点密度图同时,在XYT时域空间计算得到注视点密度图通过对象块对应的视点密度图以及的映射融合,得到视频图像It在对象块级别的显著特征图
在得到视频图像对应与像素、超像素块和对象块三个级别的显著特征图后,视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。确切的说,把视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子(具体细节参见图2提取视频图像特征描述子的流程图)。
随后,从所有视频图像中随机选取500,000个像素点,利用步骤(2)中的方法提取像素点的显著特征描述子来训练堆栈式自动编码器。在训练过程中,对上一层的输入进行归一化处理,使每一层输入向量的元素都在[-1,1]区间内。通过无监督的方法训练后,可以得到一个能够结合视频图像中像素的显著特征描述子来预测其显著预测其显著程度得分的自动编码器。
在完成堆栈式自动编码器的训练之后,对于视频中图像的像素点,利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子,随后利用步骤(3)中训练得到的堆栈式自动编码器对视频图像中的所有像素点进行计算以预测像素的显著程度值,进而得到视频图像对应的初始显著图。
在得到视频中的图像的初始显著图后,对其进行后处理。首先,对相邻的两帧显著图进行时域高斯平滑处理以减小相邻帧之间的闪烁;其次使用sigmoid函数来增强前景和背景之间的对比度;之后,二值化显著图:首先计算显著图的均值,将此均值设定为阈值,把不低于阈值的像素设为1,反之则设为0,同时合并不足512个像素点的显著区域,从而得到视频图像最终的显著图。
与现有的技术相比,本发明有益的特点是:
(1)本发明提出了视频显著性堆栈式聚合的对象自动检测方法,通过引入空域和时域显著性特征描述子,对视频图像从像素、超像素和对象三个级别分别提取显著特征图,把视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子。再从视频中随机采样500,000个像素点,利用这些像素的显著性特征描述子通过无监督学习的方法训练一个堆栈式自动编码器,利用这一堆栈式自动编码器结合视频图像中像素点的显著特征描述子可以预测对应像素点的显著程度得分,从而可以检测出视频图像中的显著性对象。相比于前人提出的方法,本发明能够超过他们在视频显著性数据集上的测试性能,很好地检测视频中的显著性对象;
(2)相比于前人提出的显著性对象检测的方法,本发明提出的方法能够超过前人在相同数据集上的评测结果。
附图说明
图1是本发明提出的算法流程图;
图2是本发明提取视频图像特征描述子的流程图;
图3是本发明提出的堆栈式自动编码器的具体细节;
图4本发明(SSA)在显著性对象检测视频数据集VOS及其子数据集上的评测结果。
具体实施方式
下面结合附图对本发明做详细说明。
如图1所示,本发明提出了视频显著性堆栈式聚合的对象自动检测方法,利用这一方法来检测视频中的显著对象。具体的说,从视频中随机选择500,000个像素点并提取它们的显著特征描述子,通过无监督的学习方法训练一个堆栈式自动编码器,最后,利用训练好的堆栈式自动编码器结合视频像素点的显著特征描述子对其进行预测,最终可以检测出视频中的显著性对象。
在提取视频像素的特征描述子的过程中,首先,对数据集中视频图像进行颜色空间转换,把视频图像的尺寸按照长宽比调整为最长边为300个像素点,随后使用现有的颜色空间转换算法将图像分别转换到Lab和HSV颜色空间。同时计算相邻帧之间的光流信息和帧间闪烁。把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差。用XYT来描述视频图像在时域空间中的信息,其中X表示光流在水平方向的投影变量,Y表示光流在垂直方向的投影变量,T表示相邻帧之间的帧间闪烁在时域中的变量。
在完成视频图像的颜色空间转换和光流以及帧间闪烁的计算后,计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图,从而得到视频图像中像素点的显著特征描述子。
首先,对视频中像素提取显著特征图的过程如下:分别独立地计算视频图像It中像素在颜色空间Lab和S(因为HSV颜色空间中Hue通道中的值并不总是反映颜色对比度,V通道对于其他颜色空间通道显得多余,因此忽略HV通道的特征描述子)通道的最短栅格距离,得到视频图像在空域的显著特征图随后,计算像素点在XYT时域空间中的最短栅格距离,得到视频图像在时域的显著特征图同时,计算视频图像的背景先验图按照通道相加,再和相乘以去除背景干扰,得到视频图像It在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息;
其次,对视频图像中超像素块提取显著特征图的过程如下:将视频图像It分解成超像素块,随后提取超像素块的显著性特征。这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验特征描述子。随后,使用在图像数据集上训练得到的随机森林回归模型对超像素块对应的特征进行回归计算,借此预测超像素块的显著程度得分。由此可以得到视频图像的显著特征图
随后,对视频图像中对象块提取显著特征图的过程如下:首先,从视频图像It中提取对象块,并按照对象块的完整程度进行降序排序,随后在Lab和HSV颜色空间分别得到对应的注视点密度图同时,在XYT时域空间计算得到注视点密度图利用公式(1)计算视频图像中像素点p的显著程度值,最终可以合成对象块级别的显著图其中,示性函数,如果值为1,反之值为0。表示用来计算显著图的对象块,设定即对于视频图像,选取其中的前50个对象块用来计算显著图 )表示的是对象对应于注视点密度图位置Flab获得的注视点的密度的比率。利用公式(2)计算()。
在得到对应于像素、超像素块和对象块三个级别的显著特征图后,视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子,如图2所示。确切的说,把视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子。
考虑到显著性对象的空域平滑性和时域一致性,从视频中随机选取500,000个像素点,利用这些随机采样像素点的显著特征描述子通过无监督学习的方法训练堆栈式自动编码器。训练得到的堆栈式自动编码器能够结合视频图像中像素点的显著特征描述子来预测像素的显著程度值,从而得到视频图像对应的初始显著图。
在利用这些随机采样像素点的显著特征描述子训练堆栈式自动编码器的过程中,使用最后一层编码层的输出作为对应像素点的显著程度值。如图3所示,设计的堆栈式自动编码器由4层编码层和4层解码层组成,其中,编码器隐藏层中的前4层是编码层,每层中的节点个数分别是15,7,3,1,后四层为解码层,每层中的节点个数分别是1,3,7,15。选用logistic sigmoid函数作为每一层节点的激活函数。训练自动编码器的目的是优化损失函数(3),使得损失函数的值尽可能的小。其中,和εt分别是自动编码器中的编码层和解码层,t∈{1,2,...,T},是自动编码器中所有权值的L-2范数约束项,可以利用公式(4)计算得到,表示编码器中某一层节点的权值,设置的值为0.001。
对于自动编码器中任意一层的一个节点公式(5)和(6)定义稀疏参数约束项Ωs(又称为相对熵)。是节点在所有样本上的响应均值。其中,是节点的激活函数。s2是编码器隐藏层中所有的节点。在本方法中,设定ρ=0.05,λs=1.0。
同时,在训练自动编码器的过程中,利用公式(7)对当前层t(编码层/解码层)的输入进行归一化处理,使得当前层的输入都在[-1,1]区间内变化。其中,T表示编码层和解码层的层数(在自动编码器中,编码层和解码层的层数是相同的),在本发明中,T=4。同时编码层的节点数量分别是15,7,3,1,解码层的节点数量分别是3,7,15,30。堆栈式自动编码器的具体细节如图3所示。
在完成堆栈式自动编码器的训练之后,对于视频图像中像素点p的显著特征描述子vp,利用自动编码器最后一层编码层(只有一个节点)的输出作为该像素点的显著值。利用公式(8)计算视频图像中像素点的显著值,相关程度值c是通过最后一层编码层的输出和第一层编码层的输出在每一维度计算线性相关系数得到的平均值。符号函数sign(x)如公式(9)所示。至此,可得到视频中图像的显著图。
利用公式(8)可以得到视频图像对应的显著图,之后对初始显著图进行后处理:首先,利用卷积核大小为3,σ=0.75的高斯核函数对相邻帧视频图像间的显著图进行时域高斯平滑处理;随后利用对比度增强函数(10)增强前景和背景之间的对比度,其中b的取值是0.5;之后,二值化显著图:首先计算显著图的均值并设定其为阈值,把不低于阈值的像素设为1,反之则设为0,同时合并不足512个像素点的显著区域,利用这种后处理方法得到视频图像最终的显著图。
利用对本发明提供的方法的流程,可以得到视频中显著性对象对应的掩模图。
相比于前人提出的方法,本发明能够超过他们在视频显著性数据集VOS上的性能,很好地检测视频中的显著性对象。与前人提出的方法的比较如图4所示。黑体和下划线的数据分别表示一种方法在VOS数据集上的评测结果分别处于第一位和第二位。从图4中可以看出,在显著性对象检测视频数据集VOS及其子数据集VOS-N和VOS-E上,本发明提供的方法在MAP、Fβ和MAE的评测结果上均超过了前人所提出的方法。
现在,对评测中使用的评测指标进行详细说明:本发明利用公式(11)和(12)分别得到一个显著性对象检测方法在视频vi上的召回率和精确度随后,利用公式(13)和(14)得到其在视频数据集上的平均召回率MAR(Mean Average Recall)和平均精度MAP(Mean Average Precision)。其中G表示视频关键帧对应的显著图的二值掩模图像,M表示通过显著性检测方法预测的关键帧对应的二值掩模图像,#(·)计算集合中元素的数量。MAP和MAR的值越大,表示方法的显著性检测效果越好。为了直接反映预测得到的二值掩模图像和关键帧对应的掩模图像之间的差别,利用公式(15)计算在视频vi中两者之间的平均绝对误差,集中(i,j)表示二值掩模图像中的像素点点的位置坐标,Mvi、Nvi分别表示视频图像的长和宽,#vi表示视频图像中关键帧的数量。同样,利用MAE(Mean AbsoluteError)来评估一种显著性检测方法在整个数据集上的整体性能。利用公式(16)可以计算得到其结果,其中,N表示视频数据集中的视频总数。另外,MAE的值越小,表示显著性对象检测的方法性能越好。
为了量化显著性检测方法的整体性能,利用公式(17)对MAR(Mean AverageRecall)和MA P(Mean Average Precision)进行融合,得到Fβ,设定β2的值是0.3,Fβ越大说明方法的性能越好。
提供以上实施例仅仅是为了描述本发明的目的,而并非要限制本发明的范围。本发明的范围由所附权利要求限定。不脱离本发明的精神和原理而做出的各种等同替换和修改,均应涵盖在本发明的范围之内。

Claims (6)

1.视频显著性堆栈式聚合的对象自动检测方法,其特征在于包括以下步骤:
步骤(1)、把视频图像转换到Lab和HSV颜色空间中,同时计算相邻帧之间的光流信息以及相邻帧之间的帧间闪烁,供步骤(2)和步骤(4)使用;
步骤(2)、根据步骤(1)中的结果,对视频中的图像,分别从像素、超像素和对象块三个级别中提取显著特征图;视频图像中像素特定位置对应于这些显著特征图的值构成了像素的显著特征描述子;这些显著特征描述子能够从不同的角度表征显著性对象的属性;
步骤(3)、从视频中随机采样像素点,利用步骤(2)中的方法提取这些随机采样像素点的特征描述子,通过无监督学习的方法训练一个隐藏层中最后编码层只有一个节点的堆栈式自动编码器,最终能够得到一个利用像素的显著特征描述子来预测其显著程度得分的堆栈式自动编码器;
步骤(4)、利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子,步骤(3)中训练得到的堆栈式自动编码器,并结合视频图像中的所有像素点的显著特征描述子来预测像素的显著程度得分,得到视频图像对应的初始显著图;
步骤(5)、对步骤(4)得到初始显著图进行后处理,得到最终的显著性图。
2.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法,其特征在于:步骤(1)中,对于视频图像,将视频图像尺寸按照长宽比缩放为最长边为300个像素点,随后将视频图像分别转换到Lab和HSV颜色空间,同时计算当前帧和后一帧之间的光流信息以及相邻帧之间的闪烁,把帧间闪烁作为上一帧和当前帧之间的亮度绝对值的差,用XYT来描述视频图像在时域空间中的信息,其中X表示光流在水平方向的投影变量,Y表示光流在垂直方向的投影变量,T表示相邻帧之间的闪烁在时域中的变量。
3.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法,其特征在于:所述步骤(2)中,根据步骤(1)中的结果,计算视频图像在像素、超像素块和对象块三个级别对应的显著特征图步骤如下:
首先,对视频中像素提取显著特征图的过程如下:分别独立地计算视频图像It中像素点在颜色空间Lab和S通道的最短栅格距离,得到视频图像在空域的显著特征图此后,计算像素点在XYT时域空间中的最短栅格距离,得到视频图像在时域的显著特征图其中X表示光流在水平方向的投影变量,Y表示光流在垂直方向的投影变量,T表示相邻帧之间的闪烁在时域中的变量;同时计算视频图像的背景先验图按照通道相加,再和相乘以去除背景干扰,得到视频图像在像素级别的显著图随后采用形态学平滑操作来平滑显著特征图以保留其中的重要边界的细节信息;
其次,对视频图像中超像素块提取显著特征图的过程如下:首先,将视频图像It分解成超像素块,随后提取超像素块的显著性特征;这些特征分别是从RGB、Lab和HSV颜色空间提取出来的区域对比度、区域属性和区域背景先验特征描述子,随后,使用在图像数据集上训练得到的随机森林回归模型对超像素块的特征描述子进行回归计算,借此预测超像素块的显著程度得分,由此得到视频图像的显著特征图
随后,对视频图像中对象块提取显著特征图的过程如下:首先,从视频图像It中提取对象块,并按照对象块的完整程度进行降序排序,随后在Lab和HSV颜色空间分别得到对应的注视点密度图同时,在XYT时域空间计算得到注视点密度图通过对象块对应的视点密度图以及的映射融合,得到视频图像It在对象块级别的显著特征图
在得到视频图像对应与像素、超像素块和对象块三个级别的显著特征图后,视频图像中像素位置对应于这些显著特征图的值构成了像素的显著特征描述子,即视频图像中像素点周围八邻域以及自身在当前帧和下一帧图像中光流对应位置对应于像素、超像素和对象块三个级别的显著特征图位置的显著程度值作为该像素点的特征描述子。
4.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法,其特征在于:步骤(3)的具体过程如下:从所有视频中随机采样500,000个像素点,利用步骤(2)中的方法提取像素点的显著特征描述子来训练堆栈式自动编码器;在训练过程中,对上一层的输入进行归一化处理,使每一层输入向量的元素都在[-1,1]区间内;通过无监督的方法训练后,得到一个能够利用像素的显著特征描述子来预测其显著预测其显著程度得分的自动编码器。
5.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法,其特征在于:步骤(4)中利用步骤(2)中的方法得到视频图像中像素点的显著特征描述子,随后利用步骤(3)中训练得到的堆栈式自动编码器结合视频图像中像素点的显著特征描述子来预测像素的显著程度值,得到视频图像初始的显著图。
6.根据权利要求1所述的视频显著性堆栈式聚合的对象自动检测方法,其特征在于:步骤(5)中,对步骤(4)中得到的初始显著图的后处理过程如下:首先,对相邻的两帧显著图进行时域高斯平滑处理以减小相邻帧之间的闪烁;随后,使用sigmoid函数来增强显著图中前景和背景之间的对比度;之后二值化显著图:计算显著图的均值并设定其为均值,把不低于阈值的像素设为1,反之则设为0,同时合并不足512个像素点的显著区域,从而得到最终的视频显著图。
CN201610915190.9A 2016-10-20 2016-10-20 视频显著性堆栈式聚合的对象自动检测方法 Active CN106529419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610915190.9A CN106529419B (zh) 2016-10-20 2016-10-20 视频显著性堆栈式聚合的对象自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610915190.9A CN106529419B (zh) 2016-10-20 2016-10-20 视频显著性堆栈式聚合的对象自动检测方法

Publications (2)

Publication Number Publication Date
CN106529419A CN106529419A (zh) 2017-03-22
CN106529419B true CN106529419B (zh) 2019-07-26

Family

ID=58332740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610915190.9A Active CN106529419B (zh) 2016-10-20 2016-10-20 视频显著性堆栈式聚合的对象自动检测方法

Country Status (1)

Country Link
CN (1) CN106529419B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107767400B (zh) * 2017-06-23 2021-07-20 北京理工大学 基于层次化显著性分析的遥感图像序列动目标检测方法
CN107506792B (zh) * 2017-08-16 2020-09-29 广西荷福智能科技有限公司 一种半监督的显著对象检测方法
KR102442449B1 (ko) 2017-09-01 2022-09-14 삼성전자주식회사 영상 처리 장치, 영상 처리 방법 및 컴퓨터 판독가능 기록 매체
US11069026B2 (en) 2018-03-02 2021-07-20 Mediatek Inc. Method for processing projection-based frame that includes projection faces packed in cube-based projection layout with padding
CN109271854B (zh) * 2018-08-07 2021-02-02 北京市商汤科技开发有限公司 基于视频处理方法及装置、视频设备及存储介质
CN109360191B (zh) * 2018-09-25 2020-06-12 南京大学 一种基于变分自编码器的图像显著性检测方法
CN109543561B (zh) * 2018-10-31 2020-09-18 北京航空航天大学 航拍视频显著性区域检测方法和装置
CN109919110B (zh) * 2019-03-13 2021-06-04 北京航空航天大学 视频关注区域检测方法、装置及设备
CN109977912B (zh) * 2019-04-08 2021-04-16 北京环境特性研究所 视频人体关键点检测方法、装置、计算机设备和存储介质
CN112805723B (zh) * 2020-03-06 2022-08-09 华为技术有限公司 一种图像处理***、方法以及包括该***的自动驾驶车辆
CN111382309B (zh) * 2020-03-10 2023-04-18 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN117253054B (zh) * 2023-11-20 2024-02-06 浙江优众新材料科技有限公司 一种光场显著性检测方法及其相关设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020985A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于场量分析的视频图像显著性检测方法
CN103020992A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于运动颜色关联的视频图像显著性检测方法
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法
CN104778238A (zh) * 2015-04-03 2015-07-15 中国农业大学 一种视频显著性的分析方法及装置
CN104778466A (zh) * 2015-04-16 2015-07-15 北京航空航天大学 一种联合多种上下文线索的图像关注区域检测方法
CN105427292A (zh) * 2015-11-11 2016-03-23 南京邮电大学 一种基于视频的显著目标检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020985A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于场量分析的视频图像显著性检测方法
CN103020992A (zh) * 2012-11-12 2013-04-03 华中科技大学 一种基于运动颜色关联的视频图像显著性检测方法
CN103400129A (zh) * 2013-07-22 2013-11-20 中国科学院光电技术研究所 一种基于频域显著性的目标跟踪方法
CN104778238A (zh) * 2015-04-03 2015-07-15 中国农业大学 一种视频显著性的分析方法及装置
CN104778466A (zh) * 2015-04-16 2015-07-15 北京航空航天大学 一种联合多种上下文线索的图像关注区域检测方法
CN105427292A (zh) * 2015-11-11 2016-03-23 南京邮电大学 一种基于视频的显著目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
《Autonomous Flame Detection in...Analysis and Optical Flow》;Zhenglin Li等;《2016 IEEE lntemational Conference on Multisensor Fusion and Integration for Intelligent Systems》;20130921;第218-223页
《Image Salient Region Detection based on Histogram 》;ZHAO Gaopeng等;《Proceedings of the 32nd Chinese Control Conference》;20130728;第3570-3574页
《基于运动和空间方向的视频显著性检测算法研究》;韩冬;《中国优秀硕士学位论文全文数据库》;20151231;信息科技辑I138-445

Also Published As

Publication number Publication date
CN106529419A (zh) 2017-03-22

Similar Documents

Publication Publication Date Title
CN106529419B (zh) 视频显著性堆栈式聚合的对象自动检测方法
Dudhane et al. C^ 2msnet: A novel approach for single image haze removal
Noh et al. A new framework for background subtraction using multiple cues
Yao et al. Multi-layer background subtraction based on color and texture
CN109584248A (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN103824070B (zh) 一种基于计算机视觉的快速行人检测方法
CN106325485B (zh) 一种手势检测识别方法及***
CN103735269B (zh) 一种基于视频多目标跟踪的高度测量方法
CN105528794A (zh) 基于混合高斯模型与超像素分割的运动目标检测方法
CN104517095B (zh) 一种基于深度图像的人头分割方法
CN104601964A (zh) 非重叠视域跨摄像机室内行人目标跟踪方法及***
Shah et al. A Self-adaptive CodeBook (SACB) model for real-time background subtraction
Shen et al. A convolutional neural‐network‐based pedestrian counting model for various crowded scenes
CN104809463A (zh) 一种基于密集尺度不变特征转换字典学习的高精度火灾火焰检测方法
Zhang et al. License plate localization in unconstrained scenes using a two-stage CNN-RNN
Cho et al. Semantic segmentation with low light images by modified CycleGAN-based image enhancement
CN103093198A (zh) 一种人群密度监测方法及装置
CN108198202A (zh) 一种基于光流和神经网络的视频内容检测方法
CN103871081A (zh) 一种自适应鲁棒在线目标跟踪方法
CN106023249A (zh) 一种基于局部二值相似性模式的运动目标检测方法
CN111881749A (zh) 基于rgb-d多模态数据的双向人流量统计方法
CN106056078A (zh) 一种基于多特征回归式集成学习的人群密度估计方法
CN108830172A (zh) 基于深度残差网络与sv编码的飞机遥感图像检测方法
WO2015064292A1 (ja) 画像の特徴量に関する処理システム、処理方法及びプログラム
CN113792686B (zh) 基于视觉表征跨传感器不变性的车辆重识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant