CN112489073B - 基于帧间高级特征差分的零样本视频前景分割方法 - Google Patents
基于帧间高级特征差分的零样本视频前景分割方法 Download PDFInfo
- Publication number
- CN112489073B CN112489073B CN202011292935.3A CN202011292935A CN112489073B CN 112489073 B CN112489073 B CN 112489073B CN 202011292935 A CN202011292935 A CN 202011292935A CN 112489073 B CN112489073 B CN 112489073B
- Authority
- CN
- China
- Prior art keywords
- feature
- advanced
- foreground
- differential comparison
- advanced feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000011218 segmentation Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 230000002238 attenuated effect Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 abstract description 5
- 230000008859 change Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 230000002123 temporal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 101100269850 Caenorhabditis elegans mask-1 gene Proteins 0.000 description 1
- 101000622430 Homo sapiens Vang-like protein 2 Proteins 0.000 description 1
- 102100023520 Vang-like protein 2 Human genes 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于帧间高级特征差分的零样本视频前景分割方法,所述方法包括步骤:将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码,获取两组对应的高级特征映射;所述特征解码是特征编码的逆操作;将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征;解码器对高级时域对比特征进行特征解码得到前景mask;本发明无需人工对算法待部署的场景进行费时费力的标注,仅利用其它现有数据集的监督信息就行进行模型训练,并达到较高精度。
Description
技术领域
本发明涉及基于帧间高级特征差分的零样本视频前景分割方法,属于视频智能处理技术领域。
背景技术
视频前景分割是计算机视觉和视频处理中的一项基础性、底层的任务。视频前景分割的目的是将输入视频帧分割成与前景或背景相关的区域。它经常被用作高层级任务的预处理步骤,如目标跟踪、行人和机动车识别等,在智慧交通、智能安防等领域应用广泛。由于视频场景往往存在动态背景、硬阴影、光照变化、摄像机抖动等诸多干扰,获取一个鲁棒的时域—空域特征表示是前景分割方法的关键。
深度卷积神经网络具有强大的特征提取能力,能够从数据中学习语义表示。特别是,基于迁移学习的全卷积神经网络在前景分割、语义分割等像素级任务中大幅超越传统无监督算法。然而,当前基于深度学习的前景分割方法(Deep-learning-based ForegroundSegmentation,DFG)普遍依赖大量待分割场景的监督信息。而在现实中,待分割场景通常是无标注信息且无法提前预知的。获取待分割场景的标注信息需要耗费大量的人力和时间成本。此外,实验表明,当前高性能DFG在不使用待分割场景监督信息(仅使用非待分割场景监督信息)的情况下,性能大幅下降,甚至低于一些高性能的传统无监督算法。本发现考虑解决的问题是,在不使用待分割场景标注信息的前提下,获得一个面向待分割场景的DFG,并且精度接近或超越最佳无监督算法。根据使用待分割场景标注信息的数量,不使用待分割场景标注信息的问题为零样本视频前景分割(Zero-Shot DFG,ZS-DFG)。
本质上讲,零样本学习属于迁移学习的范畴,跨场景视频序列之间存在大量的共性知识,为零样本迁移提供了重要的前提和基础。ZS-DFG能够从大量有标注信息的有标注场景中学到有效的特征表示,以辅助模型在待分割场景进行前景/背景语义推断。归纳起来,跨场景视频序列之间通常存在以下几个方面的共性知识:
(1)前景共性知识。视频场景中的前景目标主要由人、车、船等运动目标组成,不同场景中的前景目标具有较强的特征相关性。
(2)背景共性知识。不同视频场景中的背景类往往由具有较高相似性的房屋、道路等固定物组成。
(3)噪声和干扰共性知识。不同视频场景中的阴影、运动背景(晃动的水面、摇动的树枝)等干扰同样具有相似的特点。
(4)帧间时域变化共性知识。这具体表现为视频中前后帧(不必相邻)中存在前景目标的对应区域会发生改变,比如前景目标移动位置、改变姿态等,而没有变化的区域一般为背景。时域变化提供了十分重要的先验信息:两帧之间保持时域稳定的区域一般为背景,发生变化的区域至少某一帧在该区域有前景目标。这对于算法性能提升效益明显。
大部分DFG算法忽略了跨场景共性知识,有的DFG虽然利用了跨场景共性知识,但是仅利用了前3项共性知识,且未探讨零样本条件下的算法性能。然而,试验表明(见4.2.1),仅对前三项共性知识进行迁移,在零样本条件下难以超越先进的无监督算法。
发明内容
本发明的目的在于提供基于帧间高级特征差分的零样本视频前景分割方法,以解决现有技术获取待分割场景的标注信息需要耗费大量的人力和时间成本的缺陷。
基于帧间高级特征差分的零样本视频前景分割方法,所述方法包括步骤:
将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码,获取两组对应的高级特征映射;所述特征解码是特征编码的逆操作;
将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征;
解码器对高级时域对比特征进行特征解码得到前景mask。
进一步地,所述差分对比模块用于显示利用时域变化特征;所述差分对比模块计算公式为:
进一步地,高级特征差分对比网络模型训练方法包括步骤:
基于keras深度学习框架,采用Adam优化器开展模型训练,进行批次梯度更新;
训练时按照[0.5G,1.5G]之间随机确定帧间隔来挑选一对训练帧;
基于动态学习率策略,通过梯度下降算法进行反复迭代输出两帧的前景mask。
进一步地,高级特征差分对比网络模型在训练时采用Focal loss作为损失函数,具体定义如下:
进一步地,迭代后的学习率按以下规律衰减:
lr=0.001×0.95epoch/10 (7)。
进一步地,所述高级特征差分对比网络模型为双流架构,包括两条分支,每条分支由编码器、解码器和差分对比模块组成,不同分支的编码器、解码器采用孪生结构,即网络结构相同、参数共享。
进一步地,所述编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块组成,所述特征金字塔模块采用不同膨胀率的空洞卷积提取多尺度特征。
进一步地,所述解码器由反卷积层和二值化操作层组成,所述编码过程中通过不断降低分辨率,同时增加特征映射的数量来实现高等级语义编码;解码器通过不断的减小特征映射的数量,同时提升分辨率来实现前景、背景语义解码。
进一步地,所述解码器的最后输出层采用Sigmoid激活函数将特征映射到0到1之间,用于估计对应位置像素属于前景的概率值;最后经二值化操作得到前景mask。
进一步地,所述经二值化操作阈值为0.5。
与现有技术相比,本发明所达到的有益效果:
1.本发明无需人工对算法待部署的场景进行费时费力的标注,仅利用其它现有数据集的监督信息就行进行模型训练,并达到较高精度;
2.本发明采用差分对比模块用于编码帧间时域变化共性知识,该知识对于性能提升效用明显;
3.本发明差分对比模块算法多种不同困难模式场景下的总体性能超越最先进的无监督算法和零样本条件下的最佳有监督方法,精度高;该算法能达到35帧每秒的处理速度,超过大多数高精度算法。
附图说明
图1是本发明基于高级特征差分的ZS-DFG架构示意图;
图2是本发明ZS-DFG网络实例化基准图;
图3是本发明高性能无监督算法的前景分割视觉效果图;
图4是本发明帧间隔对算法性能影响示意图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
为了更好的利用帧间时域变化共性知识,本发明提出了高级特征差分对比架构能够显式利用帧间时域变化共性知识,因而在多种不同困难模式场景下的总体性能超越最先进的无监督算法和零样本条件下的最佳有监督方法。如图1-3所示,本发明公开了基于帧间高级特征差分的零样本视频前景分割方法,所述方法包括以下步骤:
第一步:将两组视频帧frame1和视频帧frame2输入到预先训练好的高级特征差分对比模型进行特征编码,得到两组对应的高级特征映射F1和高级特征映射F2;所述特征解码是特征编码的逆操作;
1.网络架构
高级特征差分对比模块为为双流架构,包括2条分支,由编码器、解码器和差分对比模块组成(图1)。不同分支的编码器/解码器采用孪生结构,即网络结构相同、参数共享,以此降低一半网络参数,防止过拟合。
下面以分支1为例进行介绍。编码器对视频帧frame1进行特征编码,获取高级特征映射F1。差分对比模块用于产生高级时域对比特征。在有“对比”的情况下更容易获取有鉴别力的特征表示,提升解码精准度。
第二步:获取两组高级特征映射输入到差分对比模块中进行差分对比得到高级时域对比特征;本步骤中采用差分对比模式来显式利用时域变化特征。
其中,表示特征沿通道维度聚合;差分对比模式使用F1和F2的差分作为对比特征,见公式(1)。不同于使用低级像素特征的FD算法,本文算法使用的是高级特征。高维的高级特征能够更有利于表征前/背景目标的本质,不易受噪声干扰,因而性能更鲁棒。
第三步:对所述高级时域对比特征进行特征解码得到前景mask1,具体步骤如下:
2.网络实例化
本发明提出的架构,能够较容易地与当前高性能的DFG网络进行适配,实例化为具体的ZS-DFG网络。
本文发明选择结构简洁、单流且无分支的FgSegNet_S作为实例化基准。
它由编码器和解码器组成,一次处理单帧图像并生成前景mask(图2)。
实例化网络(ZS-DFG)的每条分支相比原始FgSegNet_S增加了差分对比模块,其他层(包括输入输出层)完全一致。
FgSegNet_S是单流网络,每次只对单帧进行分割,具体结构如下(图2):编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块(FPM)组成。其中,FPM中采用不同膨胀率的空洞卷积来提取多尺度特征。解码器主要由反卷积层和二值化操作层等组成。图2中矩形块表示特征映射,数字代表特征通道的数量。编码过程中通过不断降低分辨率,同时增加特征映射的数量来实现高等级语义编码。解码是编码的逆操作,解码器通过不断的减小特征映射的数量,同时提升分辨率来实现前景/背景语义解码。解码器最后的输出层采用Sigmoid激活函数将特征映射到0到1之间,用于估计对应位置像素属于前景的概率值。最后,经二值化操作(阈值0.5)得到前景mask。
总体而言,在实例化ZS-DFG网络工作流程如下:编码器只对单帧的空域信息进行编码,然后通过显式地产生对比特征的方式来聚合时域信息,最后在解码器中进行时域-空域特征融合并解码。
3.网络训练
现实场景往往存在严重的前景/背景分布不均衡问题。这容易导致模型在训练时过多的“关注”数量上占主导的背景像素,而忽视前景特征的学习。为抑制大量易学习的背景样本产生的损失,防止其误导分类器,本文采用Focal loss作为损失函数,具体定义如下:
其中,CE表示交叉熵损失,P是有效像素i的集合,大小为N;yi表示像素i的类别,前/背景分别用1/0表示;为像素属于前景的预测概率。ω为调节因子,当预测误差较大,即预测值远离真实值yi时,ω接近1,focal loss退化为标准的交叉熵损失,反传的梯度几乎不受影响;当预测误差较小时,ω趋向于0,易学习的背景样本的损失被大大降低。通过这一损失调节机制,防止大量背景像素产生的小梯度的累积误导分类器。
本文基于keras深度学习框架,采用Adam优化器开展模型训练,进行批次梯度更新,批量大小设为10。初始学习率设为1e-4,基于动态学习率策略,每轮(epoch)迭代后,学习率按以下规律衰减:
lr=0.001×0.95epoch/10 (7)
需要强调的是,模型训练时只对感兴趣区域(Region Of Interest,ROI)的有效像素产生的损失进行梯度反传。另外,通过增加L2正则化项(系数为5e-4)来降低模型的结构性风险。作为双帧输入型网络,帧间间隔G对时域变化共性知识的学习影响较大。训练时按照[0.5G,1.5G]之间随机确定帧间隔来挑选一对训练帧,测试时G保持不变,一次输出两帧的前景mask。
4实验及结果分析
选取5种不同类型的典型复杂场景对算法性能进行综合评估,通过消融实验以及对比试验,验证本发明的有效性和先进性。
4.1实验说明
4.1.1数据集构建
对ZS-DFG进行训练需要用到大量有标注场景视频序列。通过融合2个大规模前景分割数据集来构建一个综合的训练、测试环境。CDnet数据集为是当前规模最大、困难模式最全的前景分割数据集之一,共计53个场景。从中挑选其中5个不同困难模式的场景作为测试集(见表1),其余48个场景加上SBI2015数据集中的14个场景,共计62个有标注场景视频序列作为训练集。为统一不同场景的视频尺度,通过补零和随机采样,统一为320×240分辨率。模型训练迭代1000轮,每轮迭代在每个训练场景中随机选择5对视频帧。为进一步提升模型的泛化性,本文通过仿射变换、饱和度和亮度调整以及添加高斯噪声等方式进行数据增广。
表1实验场景说明
4.1.2评价指标
在前景分割领域,常用的评价指标有召回率(R)、准确率(P)、特异度(Sp)、假阳率(FPR)、假阴率(FNR)、误检率(PWC)和F-Measure(F值)。考虑到F值能综合评估模型的总体性能,并且与CDnet数据集算法官方排名相关度最高,常被用作算法性能比较最重要的指标之一。因此,本文主要根据F值对不同算法的性能进行比较。
F=2RP/(R+P) (8)
R=TP/(TP+FN) (9)
P=TP/(TP+FP) (10)
其中,TP和FP分别表示正确的正样本和错误的正样本,FN表示错误的负样本。
4.2实验结果及分析
4.2.1对比实验
本实验对我们提出的架构进行效果验证。所有实验在相同的设置环境下进行,实验结果见表2。当前有监督DFG算法大都使用了待分割场景的监督信息。为了比较的公平性,本文将CDnet数据集排名第1的算法FgSegNet_v2在相同的零样本条件下开展实验。FgSegNet_v2为单流单帧型结构,无法利用时域变化共性知识,其综合性能仅为0.7010,远低于本文算法ZS-DFG,这表明时域变化共性知识对于算法性能提升的巨大效用。不过,FgSegNet_v2在5个场景的平均F值也达到了0.7010,特别是在光照条件较好、前景/背景区分度明显的PETS.场景,较好的克服弱阴影的干扰,获得了0.8833的F值。这也表明前景、背景、干扰3方面共性知识能够提供重要的前/背景预测先验知识。
SemanticBS、IURIS-5、PAWCS、STBM和MBS是CDnet数据集排名最优的无监督算法。图3中的效果图展示了本文算法和这些最先进的无监督算法在5个场景上的前景分割的视觉效果。在PETS.场景,ZS-DFG是唯一检测出有前景目标即将从左侧进入画面的算法。在bungal.场景中,本文算法和SemanticBS能够较好的排除硬阴影的干扰,其他算法受硬阴影影响严重。在boulev.场景中,本文算法的漏检和错检相对较少。在park场景中,本文算法比其他算法能够更清晰的检测出人物轮廓。总体而言,本文算法在5个场景上取得了最佳的检测效果,总体性能略高于排名第1的无监督算法(SemanticBS),具体指标见表2。
速度方面,DFG类算法可以通过GPU并行计算,因而其运行速度通常高于无监督算法。基于Nvidia Titan XP GPU,ZS-DFG算法对320×240分辨率的视频的处理速度能达到35帧/秒,实时性能较好。
表2不同网络架构的性能对比
4.2.2帧间间隔试验
ZS-DFG作为成对输入网络,两帧间间隔决定了前景运动目标的变化程度,是关乎时域变化共性知识学习的关键性指标。如图4-a所示,在训练帧间隔Gtrain等于测试帧间隔Gtest的情况下,间隔越大模型的精度越高。当G=2时,由于间隔太小导致前后帧变化不明显,因而难以有效学习时域变化共性知识。此时ZS-DFG的F值降为0.6712,与未利用时域变化信息的算法(ZS-DFG0)接近。
如图4-b所示,当Gtrain=300时,减少Gtest会导致模型性能下降。同样,当Gtrain=5时,Gtest太大或太小都会造成网络性能下降,只有二者接近时性能最优。这是因为当测试帧间隔和训练帧间隔接近时,两种情况下的时域变化特征分布相同,有助于模型泛化性能的提升。
以上试验均采用一次输出2帧的“对比”工作模式。除此之外,本文还尝试了每次只输出1帧的“背景减除”工作模式,具体做法如下:首先对待分割视频前500帧做时域中值滤波得到“纯净”的背景帧,然后固定frame1(图1)为该背景帧,frame2则每次输入待分割视频帧。在此情况下,ZS-DFG平均F值提升为0.8765。尽管精度有了微小提升,带来的缺点是运行效率低半。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (8)
1.基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述方法包括步骤:
将两组视频帧frame输入到预先训练好的高级特征差分对比网络模型进行特征编码,获取两组对应的高级特征映射;特征解码是特征编码的逆操作;高级特征差分对比网络模型训练方法包括步骤:
基于keras深度学习框架,采用Adam优化器开展模型训练,进行批次梯度更新;
训练时按照[0.5G,1.5G]之间随机确定帧间隔来挑选一对训练帧;
基于动态学习率策略,通过梯度下降算法进行反复迭代输出两帧的前景mask;
将获取的高级特征映射输入到差分对比模块中进行差分对比获取高级时域对比特征;所述差分对比模块用于显示利用时域变化特征;所述差分对比模块计算公式为:
解码器对高级时域对比特征进行特征解码得到前景mask。
3.根据权利要求1所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,迭代后的学习率按以下规律衰减:
lr=0.001×0.95epoch/10 (7)。
4.根据权利要求1所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述高级特征差分对比网络模型为双流架构,包括两条分支,每条分支由编码器、解码器和差分对比模块组成,不同分支的编码器、解码器采用孪生结构,即网络结构相同、参数共享。
5.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述编码器由卷积层、最大池化层、dropout层、以及特征金字塔模块组成,所述特征金字塔模块采用不同膨胀率的空洞卷积提取多尺度特征。
6.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述解码器由反卷积层和二值化操作层组成,所述编码过程中通过不断降低分辨率,同时增加特征映射的数量来实现高等级语义编码;解码器通过不断的减小特征映射的数量,同时提升分辨率来实现前景、背景语义解码。
7.根据权利要求4所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述解码器的最后输出层采用Sigmoid激活函数将特征映射到0到1之间,用于估计对应位置像素属于前景的概率值;最后经二值化操作得到前景mask。
8.根据权利要求7所述的基于帧间高级特征差分的零样本视频前景分割方法,其特征在于,所述经二值化操作阈值为0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011292935.3A CN112489073B (zh) | 2020-11-18 | 2020-11-18 | 基于帧间高级特征差分的零样本视频前景分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011292935.3A CN112489073B (zh) | 2020-11-18 | 2020-11-18 | 基于帧间高级特征差分的零样本视频前景分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489073A CN112489073A (zh) | 2021-03-12 |
CN112489073B true CN112489073B (zh) | 2021-07-06 |
Family
ID=74931698
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011292935.3A Active CN112489073B (zh) | 2020-11-18 | 2020-11-18 | 基于帧间高级特征差分的零样本视频前景分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489073B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114283320B (zh) * | 2021-12-25 | 2024-06-14 | 福州大学 | 基于全卷积的无分支结构目标检测方法 |
CN116524348B (zh) * | 2023-03-14 | 2023-11-07 | 中国人民解放军陆军军事交通学院镇江校区 | 一种基于角度周期表示的航空图像检测方法及*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580472A (zh) * | 2019-09-12 | 2019-12-17 | 合肥工业大学 | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 |
CN111582069A (zh) * | 2020-04-22 | 2020-08-25 | 北京航空航天大学 | 一种空基监视平台的轨道障碍物零样本分类方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170091948A1 (en) * | 2015-09-30 | 2017-03-30 | Konica Minolta Laboratory U.S.A., Inc. | Method and system for automated analysis of cell images |
CN107016664B (zh) * | 2017-01-18 | 2019-08-30 | 华侨大学 | 一种大圆机的坏针瑕疵检测方法 |
CN111434115B (zh) * | 2017-12-08 | 2021-09-14 | 华为技术有限公司 | 用于对包括像素点的视频图像进行编解码的方法和相关装置 |
CN108062753B (zh) * | 2017-12-29 | 2020-04-17 | 重庆理工大学 | 基于深度对抗学习的无监督域自适应脑肿瘤语义分割方法 |
CN110852199A (zh) * | 2019-10-28 | 2020-02-28 | 中国石化销售股份有限公司华南分公司 | 一种基于双帧编码解码模型的前景提取方法 |
CN111768432B (zh) * | 2020-06-30 | 2022-06-10 | 中国科学院自动化研究所 | 基于孪生深度神经网络的动目标分割方法及*** |
-
2020
- 2020-11-18 CN CN202011292935.3A patent/CN112489073B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580472A (zh) * | 2019-09-12 | 2019-12-17 | 合肥工业大学 | 一种基于全卷积网络和条件对抗网络的视频前景检测方法 |
CN111582069A (zh) * | 2020-04-22 | 2020-08-25 | 北京航空航天大学 | 一种空基监视平台的轨道障碍物零样本分类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112489073A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lim et al. | Foreground segmentation using convolutional neural networks for multiscale feature encoding | |
CN107967451B (zh) | 一种对静止图像进行人群计数的方法 | |
CN104392468B (zh) | 基于改进视觉背景提取的运动目标检测方法 | |
CN108830171B (zh) | 一种基于深度学习的智能物流仓库引导线视觉检测方法 | |
CN110427839A (zh) | 基于多层特征融合的视频目标检测方法 | |
CN109657551B (zh) | 一种基于上下文信息增强的人脸检测方法 | |
CN107967695A (zh) | 一种基于深度光流和形态学方法的运动目标检测方法 | |
CN111104903A (zh) | 一种深度感知交通场景多目标检测方法和*** | |
CN112489073B (zh) | 基于帧间高级特征差分的零样本视频前景分割方法 | |
Qi et al. | FTC-Net: Fusion of transformer and CNN features for infrared small target detection | |
CN109934224A (zh) | 基于马尔科夫随机场和视觉对比机制的小目标检测方法 | |
CN110717863A (zh) | 一种基于生成对抗网络的单图像去雪方法 | |
CN113033432A (zh) | 一种基于渐进监督的遥感影像居民区提取方法 | |
CN116503431A (zh) | 基于边界引导注意力的编解码器医学图像分割***及方法 | |
CN112288778A (zh) | 一种基于多帧回归深度网络的红外小目标检测方法 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
CN116310095A (zh) | 一种基于深度学习的多视图三维重建方法 | |
Tu et al. | A biologically inspired vision-based approach for detecting multiple moving objects in complex outdoor scenes | |
Wang et al. | Multiscale traffic sign detection method in complex environment based on YOLOv4 | |
Xu et al. | Extended non-local feature for visual saliency detection in low contrast images | |
CN102013101A (zh) | 一种经过模糊后处理的置换篡改图像盲检测方法 | |
Li et al. | The integration adjacent frame difference of improved ViBe for foreground object detection | |
Li et al. | Grain depot image dehazing via quadtree decomposition and convolutional neural networks | |
CN107832732A (zh) | 基于三叉树遍历的车道线检测方法 | |
Gong et al. | Research on an improved KCF target tracking algorithm based on CNN feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |