CN113762178A - 一种背景抑制采样的弱监督异常事件时间定位方法 - Google Patents

一种背景抑制采样的弱监督异常事件时间定位方法 Download PDF

Info

Publication number
CN113762178A
CN113762178A CN202111067356.3A CN202111067356A CN113762178A CN 113762178 A CN113762178 A CN 113762178A CN 202111067356 A CN202111067356 A CN 202111067356A CN 113762178 A CN113762178 A CN 113762178A
Authority
CN
China
Prior art keywords
video
time
score
category
background
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111067356.3A
Other languages
English (en)
Other versions
CN113762178B (zh
Inventor
吴克伟
骆文杰
李文中
谢昭
郭文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202111067356.3A priority Critical patent/CN113762178B/zh
Publication of CN113762178A publication Critical patent/CN113762178A/zh
Application granted granted Critical
Publication of CN113762178B publication Critical patent/CN113762178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种背景抑制采样的弱监督异常事件时间定位方法,包括以下步骤:步骤1、对未裁剪的视频采样处理,提取双流特征;步骤2、基于高斯随机采样的背景类激活预测;步骤3、基于多时间尺度随机采样的背景类抑制预测;步骤4、弱监督异常事件时间定位模型训练;步骤5、弱监督异常事件时间定位测试。本发明不仅考虑了高斯分布的随机采样模块,通过调整高斯分布方差允许低得分样本的保留;而且考虑了多时间尺度,来进一步多角度描述各种时间尺度的样本,以合理的抑制背景样本对模型训练的影响。

Description

一种背景抑制采样的弱监督异常事件时间定位方法
技术领域
本发明涉及视频监控技术领域,关于视频智能分析用于实现异常事件时间定位,尤其涉及一种背景抑制采样的弱监督异常事件时间定位方法。
背景技术
行为时间定位需要在未剪辑的视频中,确定行为的发生的开始时间核结束时间,有利于发现行为发生的关键视频片段,被广泛应用于视频监控、视频摘要、动作检索等领域。
弱监督行为定位在训练时,仅仅需要视频级的行为标签,解决了全监督获取精确的框架信息需要大量人工标记的问题。《UntrimmedNets for Weakly SupervisedActionRecognition and Detection》将此问题定义为一个多实例学习,并将整个未剪辑的视频视为一个包含正反两种实例的包。它通过分类模块和选择模块,分别进行行为分类和选择那些最可能包含行为的片段,正式提出了弱监督行为时间定位这个任务。多实例学习的策略包括,使用期望最大化方法进行关键片段隐变量学习;行为相似度损失描述相同行为和不同行为的差异;前景和背景的内部点和外部点对比损失。但是,这些工作仅在包粒度上进行分类和选择,难以区分前景和背景实例。
为解决类不可知或前景/背景不可知的情况,注意力机制用于弱监督特征选择。《Weakly Supervised Action Localization by Sparse Temporal Pooling Network》利用注意力得到视频级的特征,通过在时间轴上定义了时间类激活图去反映某个片段对某种行为分类的重要性,并训练突出前景片段。《Weakly-Supervised Action Localization byGenerative Attention Modeling》使用因果推理的条件概率模型可以用于生成视频片段的前景注意力。《Two-Stream Consensus Network for Weakly-Supervised TemporalAction Localization》利用双流的后期融合可以消除伪假阳性提议来引导注意力,并且利用注意力进行迭代优化。《ACM-Net:Action Context Modeling Network for Weakly-Supervised Temporal Action Localization》发现类无关注意力可以用于区分行为,行为上下文和背景片段。《Background Suppression Network for Weakly-SupervisedTemporal Action Localization》利用背景抑制损失,分析视频中是否存在感兴趣的视频片段,同时采用双分支的网络结构,使不同分支背景类的标签不同从而去抑制背景,得到更准确的行为提议。《Weakly-Supervised Action Localization With BackgroundModeling》通过引入背景类进行背景建模,考虑关注前景行为的注意力同时用1减去其值作为对背景的关注度。
国内***也涉及到弱监督行为时间定位方法。部分方法侧重于网络结构设计,《202010062100.2增强的单阶段解耦的时序动作定位方法》设计了包括主干分支,分类分支和提议分支的网络用于特征学习。《201911296268.3基于深度学习的弱监督视频时序动作定位的方法及***》采用分类模块得到类激活序列,采用注意力模块实现视频特征更新,用于弱监督行为时间定位。《201911044384.6一种双流神经网络时序动作定位方法》设计稀疏采样模块,提高特征提取的针对性。除了片段特征以外,考虑片段上下文和上下文关系可以对特征优化。《202110122080.8基于结构网络的弱监督时域动作定位方法及***》利用余弦相似度计算片段之间的关系,并构建视频多片段的图模型,该图模型用于得到图模型优化的片段特征,将多个片段的预测进行加权求和,从而实现弱监督片段得分预测。《201910575033.1一种基于动作连贯性的弱监督时序动作定位方法》设计了一种动作连贯性损失,来描述片段之间的相似度,用于训练行为得分模型。《202110186978.1一种基于关系建模的弱监督视频动作定位模型的训练方法》设计了视频内关系更新模块,跨视频关系更新模块,学习更好的视频片段特征。部分方法引入外部先验信息,《202110122077.6基于记忆网络的弱监督时域动作定位方法及***》引入动作单元模板作为动作记忆库,用于估计视频片段的注意力,从而完成的弱监督时间动作定位。基于片段得分曲线可以实现片段开始和结束的预测,《202010032794.5约束时域关系的视频动作定位方法和***》在动作得分曲线基础上,定义前景背景内部约束的损失函数,用于学习行为发生的曲线模式。行为时间定位也用于异常行为检测,《202010103140.7基于监控视频时序动作定位和异常检测的变电站人员行为识别方法》采用多示例学习实现弱监督时间动作定位,并用于异常行为检测。
从上述国际、国内方法中可以看出,弱监督行为时间定位仍然是一个挑战的问题,其关键在于弱监督没有可靠的前景样本用于训练。现有方法主要基于多实例策略和注意力策略来分析前景样本,但是,没有深入分析前景样本分布的特点,因此,仍然没有很好的解决弱监督行为时间定位问题。本专利方法解决的正是这种特殊分布的情况。本专利认为前景视频中存在不常见的特征,这些不常见的特征分布广,分布稀疏,造成了前景特征空间的重尾分布。这种不常见特征对于单时间尺度预测来说更是明显,尤其是短时间尺度模型,会将长时间尺度的样本认为是不常见特征,反之,长时间尺度模型,也会将短时间尺度样本认为是不常见特征。在训练模型过程中,这些不常见的特征容易被模型忽略,但是,在测试过程中,又容易发生预测错误。
发明内容
本发明目的就是为了弥补已有技术的缺陷,提供一种背景抑制采样的弱监督异常事件时间定位方法。本发明不仅考虑了高斯分布的随机采样模块,通过调整高斯分布方差允许低得分样本的保留;而且考虑了多时间尺度,来进一步多角度描述各种时间尺度的样本,以合理的抑制背景样本对模型训练的影响。
本发明是通过以下技术方案实现的:
一种背景抑制采样的弱监督异常事件时间定位方法,具体包括以下步骤:
步骤1、对未裁剪的视频采样处理,提取双流特征;
步骤2、根据提取的双流特征进行基于高斯随机采样的背景类激活预测,得到背景类激活预测的损失函数;
步骤3、根据提取的双流特征进行基于多时间尺度随机采样的背景类抑制预测,得到背景类抑制预测的损失函数;
步骤4、根据得到的背景类激活预测的损失函数和背景类抑制预测的损失函数进行弱监督异常事件时间定位模型训练,得到异常事件时间定位模型参数集合;
步骤5、根据得到的异常事件时间定位模型参数集合进行弱监督异常事件时间定位测试,确定异常事件时间定位的起点和终点。
所述的步骤1的具体内容如下:
步骤1-1、对训练视频集合中得到的一个视频,采取等时间间隔采样的方法,获得RGB图像,并且通过TV-L1光流算法获得光流图像,一个视频的样本集合记为Xn={xn,t},其中n是视频编号,t是视频帧编号;
步骤1-2、将一个视频样本的RGB图像和光流图像,分别输入到双流网络,使用膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,将两种特征串联作为该视频样本的双流特征,一个视频的双流特征集合记为Fn={fn,t}。
所述的步骤2的具体内容如下:
步骤2-1、对步骤1得到的双流特征Fn,使用一维时序卷积获得类别得分Sn=conv(Fn)
其中,一维时序卷积核的时间长度为1,
Figure BDA0003258990200000041
表示视频的每个视频样本的类别得分,
Figure BDA0003258990200000042
是矩阵的尺寸为T×(C+1);n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];T是视频时间片段的数量;C+1个类别包括C个动作类以及1个背景类;
步骤2-2、对类别得分进行高斯随机采样,第c个类别采样后的样本集合为:
Figure BDA0003258990200000043
其中,sn,t,c是第n个视频的第t个时间片段第c个类别的得分,I[sn,t,c>g]表示第c个类别得分高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;
步骤2-3、对每个类别得分执行步骤2-2,获得每个类别的采样集合;
步骤2-4、根据采样后集合,获得视频级每个类别的得分向量
Figure BDA0003258990200000044
其中每个类别的视频级得分为
Figure BDA0003258990200000045
步骤2-5、使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure BDA0003258990200000046
该得分向量
Figure BDA0003258990200000047
为背景类激活预测的类别得分;
步骤2-6、根据背景类激活预测的类别得分,计算其分类损失,损失函数如下:
Figure BDA0003258990200000051
其中,N是视频中根据类别得分进行高斯随机采集的时间片段数量;
Figure BDA0003258990200000052
是人工标签,表示第n个视频的视频级背景类激活得分,设置第c+1个类别的得分恒等于1。
所述的步骤3的具体内容如下:
步骤3-1、对步骤1得到的双流特征,估计其多时间尺度权重;
步骤3-2、根据多时间尺度权重,对步骤1得到的双流特征进行权重增强,增强后的特征Fn′为:
Figure BDA0003258990200000053
其中,
Figure BDA0003258990200000054
是点乘操作,ωn,j是第j个时间尺度的权重,j是时间尺度编号,其取值为1,2,3;
步骤3-3、将增强后的特征,使用一维时序卷积获得增强后的类别得分Rn,j=conv(F'n,j)
其中,一维时序卷积核的时间长度为1,
Figure BDA0003258990200000055
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤3-4、对增强后的类别得分进行随机采样,第c个类别第j个时间尺度采样后的集合为:
Figure BDA0003258990200000056
其中rn,c,j是增强后的第c个类别第j个时间尺度的得分;I[rn,c,j>g]表示第c个类别第j个时间尺度得分,高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;
步骤3-5、对每个类别每个时间尺度得分执行步骤3-4,获得每个类别每个时间尺度的采样集合;
步骤3-6、根据采样后集合,获得视频级每个类别的每个时间尺度的得分
Figure BDA0003258990200000061
步骤3-7、融合多时间尺度的前景得分,以每个时间尺度的最大得分,作为该类别多时间尺度的得分
Figure BDA0003258990200000062
此时获得多时间尺度的得分向量
Figure BDA0003258990200000063
步骤3-8,使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure BDA0003258990200000064
该得分向量
Figure BDA0003258990200000065
为背景类抑制预测的类别得分;
步骤3-9、根据背景类抑制预测的类别得分,计算其的分类损失,损失函数如下:
Figure BDA0003258990200000066
其中,
Figure BDA0003258990200000067
是人工标签,表示第n个视频的视频级背景类抑制得分,设置第c+1个类别的得分恒等于0。
所述的步骤3-1具体内容如下:
步骤3-1-1、将步骤1得到的双流特征,输入到第一个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度1,获得时间尺度为1的权重ωn,1
步骤3-1-2、将步骤1得到的双流特征,输入到第二个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度3,获得时间尺度为1的权重ωn,2
步骤3-1-3、将步骤1得到的双流特征,输入到第三个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度5,获得时间尺度为1的权重ωn,3
所述的步骤4的具体内容如下:
步骤4-1、对训练集视频集合,集合中的正例为视频包含异常事件,集合中的负例为视频不包含异常事件,计算异常事件时间定位模型的总损失函数Loss(θ)=Lact+Lsup+γ|θ|
其中,θ是模型的参数集合,第一项是背景类激活预测的损失函数;第二项是背景类抑制预测的损失函数;第三项是正则化项,γ是正则化权重,|θ|表示使用L1范数的正则化形式;
步骤4-2、根据该总损失函数,使用反馈传方法更新模型的参数集合,直到模型稳定,此时获得训练后的异常事件时间定位模型的参数集合。
所述的步骤5的具体内容如下:
步骤5-1、对未剪辑的测试视频进行采样处理,提取采样的RGB图像和光流图像,组成视频样本集合;
步骤5-2、将视频样本的RGB图像和光流图像,分别输入到膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,并串联获得双流特征;
步骤5-3、使用步骤4获得的异常事件时间定位模型的参数集合,提取多时间尺度背景类抑制的各时间得分,获得异常事件的前景片段集合;
步骤5-4、遍历测试视频的前景片段集合,计算出连通前景时间段,并确定异常事件时间定位的起点和终点。
所述的步骤5-3的具体内容如下:
步骤5-3-1、对步骤5-2得到的测试视频的双流特征,使用步骤3-1和步骤4获得的参数集合,估计其多时间尺度权重;
步骤5-3-2、根据多时间尺度权重,使用步骤3-5和步骤4获得的参数集合,获得增强后的特征;
步骤5-3-3、根据增强后的特征,使用步骤3-6和步骤4获得的参数集,获得增强后的类别得分
Figure BDA0003258990200000081
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤5-3-4,设置固定阈值,确定每个时间尺度中的前景片段,当增强后的得分大于固定阈值时为前景片段,小于固定阈值时为背景片段;
步骤5-3-5,对同一个类别的三个时间尺度的前景片段,进行并集操纵,获得多尺度的前景片段集合。
本发明的优点是:本发明针对现有弱监督时间定位忽视了视频中前景分布呈现重尾分布的这一特点;在训练模型过程中,这些不常见的特征容易被模型忽略,但是,在测试过程中,又容易发生预测错误,同时注意到单时间尺度模型更容易出现不常见特征,尤其是短时间尺度模型,会将长时间尺度的样本认为是不常见特征;因此,本发明不仅考虑了高斯分布的随机采样模块,通过调整高斯分布方差允许低得分样本的保留;而且考虑了多时间尺度,来进一步多角度描述各种时间尺度的样本,以合理的抑制背景样本对模型训练的影响。
附图说明
图1为基于背景抑制采样的弱监督异常事件时间定位方法流程图。
图2为视频提取的RGB图像和光流图像(图2a为正常行为的RGB图像和光流图像;图2b为异常行为的RGB图像和光流图像)。
图3为基于高斯随机采样的背景类激活预测。
图4为高斯随机采样图(图4a为视频帧序列图;图4b为类别得分序列图;
图4c为高斯分布和高斯随机阈值图;图4d为采样后的样本集合图)。
图5为基于多时间尺度随机采样的背景类抑制预测。
图6为异常事件时间定位的测试(图6a为测试视频的RGB图像序列和光流图像序列图;图6b为增强后的类别得分和时间定位起点和终点示意图)。
具体实施方式
如图1所示,一种背景抑制采样的弱监督异常事件时间定位方法,具体包括以下步骤:
步骤1、对未裁剪的视频采样处理,提取双流特征;
步骤1-1、对训练视频集合中得到一个视频,采取等时间间隔采样的策略,获得RGB图像,并且通过TV-L1光流算法获得光流图像;由于本专利使用的是双流模型,因此,将RGB图像和光流图像同时作为该视频帧的样本,一个视频的样本集合可记为Xn={xn,t},其中n是视频编号,t是视频帧编号;
步骤1-2、将一个视频样本的RGB图像和光流图像,分别输入到双流网络使用膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,将两种特征串联作为该视频样本的双流特征,此时,一个视频的双流特征集合可记为Fn={fn,t}。如图2所示,图2a为正常行为的RGB图像和光流图像;图2b为异常行为的RGB图像和光流图像。
如图3所示,步骤2基于高斯随机采样的背景类激活预测;
步骤2-1、对步骤1-2得到的双流特征Fn,使用一维时序卷积获得类别得分
Sn=conυ(Fn)
其中,一维时序卷积核的时间长度为1,
Figure BDA0003258990200000091
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类;
步骤2-2、考虑随机因素的存在,对类别得分进行高斯随机采样,第c个类别采样后的样本集合为:
Figure BDA0003258990200000092
其中I[sn,c>g]表示第c个类别得分高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;如图4所示,图4a为视频帧序列图;图4b为类别得分序列图;图4c为高斯分布和高斯随机阈值图;图4d为采样后的样本集合图。
步骤2-3、对每个类别得分执行步骤2-2,获得每个类别的采样集合
步骤2-4、根据采样后集合,获得视频级每个类别的得分向量
Figure BDA0003258990200000093
其中每个类别的视频级得分为
Figure BDA0003258990200000094
步骤2-5、使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure BDA0003258990200000101
该得分向量
Figure BDA0003258990200000102
为背景类激活预测的类别得分;
步骤2-6、根据背景类激活预测的类别得分,计算其分类损失,损失函数如下:
Figure BDA0003258990200000103
其中,
Figure BDA0003258990200000104
是人工标签,它表示表示第n个视频的视频级背景类激活得分,该人工标签满足背景类激活条件,该条件是所有的视频都包含背景片段,此时设置第c+1个类别的得分恒等于1;
如图5所示,步骤3基于多时间尺度随机采样的背景类抑制预测;
步骤3-1、对步骤1-2得到的双流特征,估计其多时间尺度权重;
步骤3-1-1、将步骤1-2得到的双流特征,输入到第一个权重估计模块中。
该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度1;该模块,获得时间尺度为1的权重ωn,1
步骤3-1-2、将步骤1-2得到的双流特征,输入到第二个权重估计模块中。
该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度3;该模块,获得时间尺度为1的权重ωn,2
步骤3-1-3、将步骤1-2得到的双流特征,输入到第三个权重估计模块中。
该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度5;该模块,获得时间尺度为1的权重ωn,3
步骤3-2、根据多时间尺度权重,对步骤1-2获得的双流特征Fn进行权重增强,增强后的特征Fn′为:
Figure BDA0003258990200000111
其中,
Figure BDA0003258990200000112
是点乘操作,ωn,j是第j个时间尺度的权重,j是时间尺度编号,其取值为1,2,3;
步骤3-3、将增强后的特征,使用一维时序卷积获得增强后的类别得分
Rn,j=conv(F'n,j)
其中,一维时序卷积核的时间长度为1,
Figure BDA0003258990200000113
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤3-4、考虑随机因素的存在,对增强后的类别得分进行随机采样,第c个类别第j个时间尺度采样后的集合为:
Figure BDA0003258990200000114
其中I[rn,c,j>g]表示第c个类别第j个时间尺度得分,高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;
步骤3-5、对每个类别每个时间尺度得分执行步骤3-4,获得每个类别每个时间尺度的采样集合;
步骤3-6、根据采样后集合,获得视频级每个类别的每个时间尺度的得分
Figure BDA0003258990200000115
步骤3-7、融合多时间尺度的前景得分,具体来说,以每个时间尺度的最大得分,作为该类别多时间尺度的得分
Figure BDA0003258990200000116
此时获得多时间尺度的得分向量
Figure BDA0003258990200000117
步骤3-8,使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure BDA0003258990200000118
该得分向量
Figure BDA0003258990200000121
为背景类抑制预测的类别得分;
步骤3-9、根据背景类抑制预测的类别得分,计算其的分类损失,损失函数如下:
Figure BDA0003258990200000122
其中,
Figure BDA0003258990200000123
是人工标签,它表示表示第n个视频的视频级背景类抑制得分,该人工标签满足背景类抑制条件,该条件是所有的视频都不包含背景片段,此时设置第c+1个类别的得分恒等于0;
步骤4、弱监督异常事件时间定位模型训练
步骤4-1、对训练集视频集合,该集合中的正例为视频包含异常事件,该集合中的负例为视频不包含异常事件,计算异常事件时间定位模型的总损失函数
Loss(θ)=Lact+Lsup+γ|θ|
其中,θ是模型的参数集合,第一项是背景类激活预测的损失函数;第二项是背景类抑制预测的损失函数;第三项是正则化项,γ是正则化权重,|θ|表示使用L1范数的正则化形式;
步骤4-2、根据该总损失函数,使用反馈传方法更新模型的参数集合,直到模型稳定,此时获得训练后的异常事件时间定位模型的参数集合;
步骤5、弱监督的异常事件时间定位测试;
步骤5-1、对未剪辑的测试视频进行采样处理,提取采样的RGB图像和光流图像,组成视频样本集合;
步骤5-2、将视频样本样本的RGB图像和光流图像,分别输入到膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,并串联获得双流特征;
步骤5-3、使用步骤4获得的异常事件时间定位模型的参数集合,提取多时间尺度背景类抑制的各时间得分,获得异常事件的前景片段集合;
步骤5-3-1、对步骤5-2得到的测试视频的双流特征,使用步骤3-1和步骤4获得的参数集合,估计其多时间尺度权重;
步骤5-3-2,根据多时间尺度权重,使用步骤3-5和步骤4获得的参数集合,获得增强后的特征;
步骤5-3-3,根据增强后的特征,使用步骤3-6和步骤4获得的参数集合、获得增强后的类别得分
Figure BDA0003258990200000131
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤5-3-4,设置固定阈值,确定每个时间尺度中的前景片段,当增强后的得分大于固定阈值时为前景片段,小于固定阈值时为背景判断;
步骤5-3-5,对同一个类别的三个时间尺度的前景片段,进行并集操纵,获得多尺度的前景片段集合;
步骤5-4、遍历测试视频的前景片段集合,计算出连通前景时间段,并确定异常事件时间定位的起点和终点。如图6所示,图6a为测试视频的RGB图像序列和光流图像序列图;图6b为增强后的类别得分和时间定位起点和终点示意图。

Claims (8)

1.一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:具体包括以下步骤:
步骤1、对未裁剪的视频采样处理,提取双流特征;
步骤2、根据提取的双流特征进行基于高斯随机采样的背景类激活预测,得到背景类激活预测的损失函数;
步骤3、根据提取的双流特征进行基于多时间尺度随机采样的背景类抑制预测,得到背景类抑制预测的损失函数;
步骤4、根据得到的背景类激活预测的损失函数和背景类抑制预测的损失函数进行弱监督异常事件时间定位模型训练,得到异常事件时间定位模型参数集合;
步骤5、根据得到的异常事件时间定位模型参数集合进行弱监督异常事件时间定位测试,确定异常事件时间定位的起点和终点。
2.根据权利要求1所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤1的具体内容如下:
步骤1-1、对训练视频集合中得到的一个视频,采取等时间间隔采样的方法,获得RGB图像,并且通过TV-L1光流算法获得光流图像,一个视频的样本集合记为Xn={xn,t},其中n是视频编号,t是视频帧编号;
步骤1-2、将一个视频样本的RGB图像和光流图像,分别输入到双流网络,使用膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,将两种特征串联作为该视频样本的双流特征,一个视频的双流特征集合记为Fn={fn,t}。
3.根据权利要求2所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤2的具体内容如下:
步骤2-1、对步骤1得到的双流特征Fn,使用一维时序卷积获得类别得分Sn=conv(Fn)
其中,一维时序卷积核的时间长度为1,
Figure FDA0003258990190000011
表示视频的每个视频样本的类别得分,
Figure FDA0003258990190000012
是矩阵的尺寸为T×(C+1);n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];T是视频时间片段的数量;C+1个类别包括C个动作类以及1个背景类;
步骤2-2、对类别得分进行高斯随机采样,第c个类别采样后的样本集合为:
Figure FDA0003258990190000021
其中,sn,t,c是第n个视频的第t个时间片段第c个类别的得分,I[sn,t,c>g]表示第c个类别得分高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;
步骤2-3、对每个类别得分执行步骤2-2,获得每个类别的采样集合;
步骤2-4、根据采样后集合,获得视频级每个类别的得分向量
Figure FDA0003258990190000022
其中每个类别的视频级得分为
Figure FDA0003258990190000023
步骤2-5、使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure FDA0003258990190000024
该得分向量
Figure FDA0003258990190000025
为背景类激活预测的类别得分;
步骤2-6、根据背景类激活预测的类别得分,计算其分类损失,损失函数如下:
Figure FDA0003258990190000026
其中,N是视频中根据类别得分进行高斯随机采集的时间片段数量;
Figure FDA0003258990190000027
是人工标签,表示第n个视频的视频级背景类激活得分,设置第c+1个类别的得分恒等于1。
4.根据权利要求3所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤3的具体内容如下:
步骤3-1、对步骤1得到的双流特征,估计其多时间尺度权重;
步骤3-2、根据多时间尺度权重,对步骤1得到的双流特征进行权重增强,增强后的特征Fn′为:
Figure FDA0003258990190000031
其中,
Figure FDA0003258990190000032
是点乘操作,ωn,j是第j个时间尺度的权重,j是时间尺度编号,其取值为1,2,3;
步骤3-3、将增强后的特征,使用一维时序卷积获得增强后的类别得分Rn,j=conv(F'n,j)
其中,一维时序卷积核的时间长度为1,
Figure FDA0003258990190000033
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤3-4、对增强后的类别得分进行随机采样,第c个类别第j个时间尺度采样后的集合为:
Figure FDA0003258990190000034
其中rn,c,j是增强后的第c个类别第j个时间尺度的得分;I[rn,c,j>g]表示第c个类别第j个时间尺度得分,高于随机阈值g的视频样本,随机阈值服从高斯分布g~N(u,σ),其中高斯分布均值为u,方差为σ,大于阈值的样本为保留的前景样本,小于阈值的样本为抑制的背景样本;
步骤3-5、对每个类别每个时间尺度得分执行步骤3-4,获得每个类别每个时间尺度的采样集合;
步骤3-6、根据采样后集合,获得视频级每个类别的每个时间尺度的得分
Figure FDA0003258990190000035
步骤3-7、融合多时间尺度的前景得分,以每个时间尺度的最大得分,作为该类别多时间尺度的得分
Figure FDA0003258990190000036
此时获得多时间尺度的得分向量
Figure FDA0003258990190000037
步骤3-8,使用softmax函数将该视频级得分向量归一化到[0,1]之间,获得归一化后的得分向量为
Figure FDA0003258990190000041
该得分向量
Figure FDA0003258990190000042
为背景类抑制预测的类别得分;
步骤3-9、根据背景类抑制预测的类别得分,计算其的分类损失,损失函数如下:
Figure FDA0003258990190000043
其中,
Figure FDA0003258990190000044
是人工标签,表示第n个视频的视频级背景类抑制得分,设置第c+1个类别的得分恒等于0。
5.根据权利要求4所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤3-1具体内容如下:
步骤3-1-1、将步骤1得到的双流特征,输入到第一个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度1,获得时间尺度为1的权重ωn,1
步骤3-1-2、将步骤1得到的双流特征,输入到第二个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度3,获得时间尺度为1的权重ωn,2
步骤3-1-3、将步骤1得到的双流特征,输入到第三个权重估计模块中,该模块使用两层一维时间卷积和一层sigmoid激活函数,其中sigmoid函数用来生成0-1之间的注意力权重,一维时间卷积核的时间长度5,获得时间尺度为1的权重ωn,3
6.根据权利要求4所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤4的具体内容如下:
步骤4-1、对训练集视频集合,集合中的正例为视频包含异常事件,集合中的负例为视频不包含异常事件,计算异常事件时间定位模型的总损失函数Loss(θ)=Lact+Lsup+γ|θ|
其中,θ是模型的参数集合,第一项是背景类激活预测的损失函数;第二项是背景类抑制预测的损失函数;第三项是正则化项,γ是正则化权重,|θ|表示使用L1范数的正则化形式;
步骤4-2、根据该总损失函数,使用反馈传方法更新模型的参数集合,直到模型稳定,此时获得训练后的异常事件时间定位模型的参数集合。
7.根据权利要求6所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤5的具体内容如下:
步骤5-1、对未剪辑的测试视频进行采样处理,提取采样的RGB图像和光流图像,组成视频样本集合;
步骤5-2、将视频样本的RGB图像和光流图像,分别输入到膨胀三维卷积网络I3D,提取每个样本的外观特征和光流特征,并串联获得双流特征;
步骤5-3、使用步骤4获得的异常事件时间定位模型的参数集合,提取多时间尺度背景类抑制的各时间得分,获得异常事件的前景片段集合;
步骤5-4、遍历测试视频的前景片段集合,计算出连通前景时间段,并确定异常事件时间定位的起点和终点。
8.根据权利要求7所述的一种背景抑制采样的弱监督异常事件时间定位方法,其特征在于:所述的步骤5-3的具体内容如下:
步骤5-3-1、对步骤5-2得到的测试视频的双流特征,使用步骤3-1和步骤4获得的参数集合,估计其多时间尺度权重;
步骤5-3-2、根据多时间尺度权重,使用步骤3-5和步骤4获得的参数集合,获得增强后的特征;
步骤5-3-3、根据增强后的特征,使用步骤3-6和步骤4获得的参数集,获得增强后的类别得分
Figure FDA0003258990190000051
表示视频的每个视频样本的类别得分;n是视频编号,t是视频帧编号,c是类别通道编号,c取值范围是[1,C+1];C+1个类别包括C个动作类以及1个背景类,j是时间尺度编号;
步骤5-3-4,设置固定阈值,确定每个时间尺度中的前景片段,当增强后的得分大于固定阈值时为前景片段,小于固定阈值时为背景片段;
步骤5-3-5,对同一个类别的三个时间尺度的前景片段,进行并集操纵,获得多尺度的前景片段集合。
CN202111067356.3A 2021-09-13 2021-09-13 一种背景抑制采样的弱监督异常事件时间定位方法 Active CN113762178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111067356.3A CN113762178B (zh) 2021-09-13 2021-09-13 一种背景抑制采样的弱监督异常事件时间定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111067356.3A CN113762178B (zh) 2021-09-13 2021-09-13 一种背景抑制采样的弱监督异常事件时间定位方法

Publications (2)

Publication Number Publication Date
CN113762178A true CN113762178A (zh) 2021-12-07
CN113762178B CN113762178B (zh) 2024-07-12

Family

ID=78795234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111067356.3A Active CN113762178B (zh) 2021-09-13 2021-09-13 一种背景抑制采样的弱监督异常事件时间定位方法

Country Status (1)

Country Link
CN (1) CN113762178B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、***、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070279490A1 (en) * 2006-06-05 2007-12-06 Fuji Xerox Co., Ltd. Unusual event detection via collaborative video mining
CN109508671A (zh) * 2018-11-13 2019-03-22 深圳龙岗智能视听研究院 一种基于弱监督学习的视频异常事件检测***及其方法
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN110084165A (zh) * 2019-04-19 2019-08-02 山东大学 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及***
GB202106397D0 (en) * 2021-05-05 2021-06-16 Institute Of Cancer Res Royal Cancer Hospital Analysis of histopathology samples

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070279490A1 (en) * 2006-06-05 2007-12-06 Fuji Xerox Co., Ltd. Unusual event detection via collaborative video mining
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN109508671A (zh) * 2018-11-13 2019-03-22 深圳龙岗智能视听研究院 一种基于弱监督学习的视频异常事件检测***及其方法
CN110084165A (zh) * 2019-04-19 2019-08-02 山东大学 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及***
CN111914778A (zh) * 2020-08-07 2020-11-10 重庆大学 一种基于弱监督学习的视频行为定位方法
GB202106397D0 (en) * 2021-05-05 2021-06-16 Institute Of Cancer Res Royal Cancer Hospital Analysis of histopathology samples

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
王倩;范冬艳;李世玺;张仕森;: "基于双流卷积神经网络的时序动作定位", 软件导刊, no. 09, 15 September 2020 (2020-09-15) *
王金甲;杨倩;崔琳;纪绍男;: "基于平均教师模型的弱标记半监督声音事件检测", 复旦学报(自然科学版), no. 05, 15 October 2020 (2020-10-15) *
贾迪;朱宁丹;杨宁华;吴思;李玉秀;赵明远;: "图像匹配方法研究综述", 中国图象图形学报, no. 05, 16 May 2019 (2019-05-16) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612420A (zh) * 2023-07-20 2023-08-18 中国科学技术大学 弱监督视频时序动作检测方法、***、设备及存储介质
CN116612420B (zh) * 2023-07-20 2023-11-28 中国科学技术大学 弱监督视频时序动作检测方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN113762178B (zh) 2024-07-12

Similar Documents

Publication Publication Date Title
CN109919031B (zh) 一种基于深度神经网络的人体行为识别方法
CN113378632B (zh) 一种基于伪标签优化的无监督域适应行人重识别方法
Dinkel et al. Towards duration robust weakly supervised sound event detection
CN111914778B (zh) 一种基于弱监督学习的视频行为定位方法
US11640714B2 (en) Video panoptic segmentation
Prasetyo et al. A comparison of yolo and mask r-cnn for segmenting head and tail of fish
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN113470076A (zh) 一种平养鸡舍黄羽鸡多目标跟踪方法
CN113283282A (zh) 一种基于时域语义特征的弱监督时序动作检测方法
He et al. What catches the eye? Visualizing and understanding deep saliency models
CN112528058A (zh) 基于图像属性主动学习的细粒度图像分类方法
CN113516032A (zh) 基于时域注意力的弱监督监控视频异常行为检测方法
Zhang et al. Adversarially learned one-class novelty detection with confidence estimation
CN115169386A (zh) 一种基于元注意力机制的弱监督增类活动识别方法
CN113762178A (zh) 一种背景抑制采样的弱监督异常事件时间定位方法
CN114358117A (zh) 基于网络数据的模型训练方法、装置、电子设备及介质
Kalb et al. Improving replay-based continual semantic segmentation with smart data selection
CN116977725A (zh) 一种基于改进卷积神经网络的异常行为识别方法及装置
CN116310988A (zh) 一种基于级联注意力机制的弱监督时序动作检测方法
CN113591731B (zh) 一种基于知识蒸馏的弱监督视频时序行为定位方法
CN115359511A (zh) 一种猪只异常行为检测方法
CN115393673A (zh) 对象识别模型的训练方法、对象识别的方法、电子设备
CN114168780A (zh) 多模态数据处理方法、电子设备及存储介质
Chen et al. Variational information bottleneck for cross domain object detection
CN113420592B (zh) 一种基于代理度量模型的弱监督视频行为定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant