CN110414367B - 一种基于gan和ssn的时序行为检测方法 - Google Patents

一种基于gan和ssn的时序行为检测方法 Download PDF

Info

Publication number
CN110414367B
CN110414367B CN201910599488.7A CN201910599488A CN110414367B CN 110414367 B CN110414367 B CN 110414367B CN 201910599488 A CN201910599488 A CN 201910599488A CN 110414367 B CN110414367 B CN 110414367B
Authority
CN
China
Prior art keywords
network
behavior
proposal
sub
time sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910599488.7A
Other languages
English (en)
Other versions
CN110414367A (zh
Inventor
李致远
桑农
张士伟
高常鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910599488.7A priority Critical patent/CN110414367B/zh
Publication of CN110414367A publication Critical patent/CN110414367A/zh
Application granted granted Critical
Publication of CN110414367B publication Critical patent/CN110414367B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于GAN和SSN的时序行为检测方法,属于计算机视觉技术领域,所述方法包括:对视频数据进行帧提取和光流计算,并对每一帧图像或光流图像进行归一化和数据增强;选取所述视频数据中具有动作性片段的连续时间区域作为提议,并将选取出的提议对应的帧图像,作为训练集和测试集;构建包括结构化分段网络和生成对抗网络的时序行为检测模型;将训练集和测试集输入所述时序行为检测模型进行训练,得到训练好的时序行为检测模型;将待识别的视频输入训练好的时序行为检测模型,得到视频中存在的行为类别,与行为对应的起始位置和结束位置。本发明提高了网络对于背景和行为的分辨能力,对视频中的时序行为检测有较高的识别精度。

Description

一种基于GAN和SSN的时序行为检测方法
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种基于GAN和SSN的时序行为检测方法。
背景技术
随着互联网的迅速普及,海量的视频数据也随之产生,作为目前社会中最大的信息载体之一,视频正处在一种飞速增长状态,怎样才能充分利用如此庞大的数据是当务之急。因此,对视频数据的分析、分类、识别等方面的工作需求也呈急剧增长,同时由于在监视,视频分析和其他领域的众多潜在应用,时序行为检测已引起研究界越来越多的关注。时序行为检测是行为检测领域的一项子任务,其从未修剪的视频和可能非常长的视频中检测人类动作实例,与行为识别相比,其预测结果不仅会输出动作类别,还会输出精确的开始和结束时间点,因此更具挑战性。
在现实的应用中,大量视频数据通常在时间上任意长且在空间上任意大,其中包含许多个动作实例且含有很多不相关的背景信息。目前已经提出了手工制作的特征和深层特征这两种主流方法来检测动作。在基于CNN的算法被广泛应用到行为识别领域之前,手工制作的特征在THUMOS2014和2015挑战中取得了最佳性能,其通常使用的特征包括改进的密集轨迹(iDT)和费舍尔矢量(FV)。同时,手工制作可以和深度学习相结合,也能实现高准确度的结果。最近也有一些基于单帧的深度神经网络实现自动提取特征的研究,依赖于2D卷积神经网络(CNN),不考虑运动信息。然而,获取运动信息对于运动建模和时间边界的确定是重要的。为了模拟动作的时间演化,许多方法通过滑动窗口或二元分类生成候选时间片段,然后对它们进行分类和识别。然而,这些基于滑动窗口的主流框架的缺点是存在大量冗余检测,这不仅降低了检测精度,而且影响了其应用。
与此同时众多针基于不同场景的行为检测方法被提出,并已取得了较高的检测性能,然而,大多数方法都假定视频剪裁得很好,其中感兴趣的动作几乎持续整个持续时间,因此,他们不需要考虑本地化动作实例的问题,同时由于网络本身无法很好地区分训练过程中的难例样本,因此网络对于行为和背景的分辨能力不强。
总体来说,所以现有的时序行为检测方法由于无法捕获行为与背景的细微差异,因此不能有效区分行为与背景问题。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于GAN和SSN的时序行为检测方法,旨在解决现有时序行为检测对行为和背景的分辨能力较差的问题。
为实现上述目的,本发明提供了一种基于GAN和SSN的时序行为检测方法,包括:
(1)将视频数据划分为训练集和测试集,对所述训练集和测试集进行帧提取和光流计算;
(2)对每个视频选取一些区域片段作为提议,并对所述提议中包含的帧图像或光流图像进行归一化和数据增强处理;
(3)构建时序行为检测模型;
所述时序行为检测模型包括结构化分段网络和生成对抗网络;
所述结构化分段网络用于对提议包含的图像进行特征提取,并以设定比例将提取到的特征分为开始阶段、行为阶段和结束阶段特征,根据所述开始阶段、行为阶段和结束阶段特征进行分类、边界回归和完整性评分;
所述生成对抗网络用于生成与所述结构化分段网络提取的特征维度和大小相同,且在训练集中统计同分布的难例特征,并根据所述难例特征和结构化分段网络提取的特征进行真实或虚假的特征判断;
(4)将所述训练集和测试集输入所述时序行为检测模型进行训练和测试,得到最终训练好的时序行为检测模型;
(5)将待识别的视频输入训练好的时序行为检测模型,得到视频中存在的行为类别,以及与各类行为对应的起始位置和结束位置。
进一步地,步骤(2)中所述对每个视频选取一些区域片段作为提议,具体包括:
(2.1)对每个视频随机生成一系列提议;
(2.2)采用基于BNinception的二分类网络对随机生成的提议进行评分;
(2.3)采用TAG算法根据提议评分生成时序行为检测需要的提议。
进一步地,步骤(2.3)具体包括:
(2.3.1)将提议评分沿水平线反转,并将评分位于设定分数以下的提议,视为提议盆地;
(2.3.2)从当前提议盆地开始,合并随后的提议盆地,直到盆地持续时间超过总持续时间的比例下降到设定的门槛;所述总持续时间为第一个提议盆地开始的时间到最后一个提议盆地末端的时间;
(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议;
(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3),得到多个提议;
(2.3.5)对重叠度为0.95的提议进行非最大抑制,得到时序行为检测需要的提议。
进一步地,所述结构化分段网络包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络;
所述提议分段子网络用于对选取出的提议进行扩展并均分为多段,并从每段提议中随机提取帧图像或光流图像;所述特征提取子网络用于对提取的帧图像或光流图像进行特征提取,并以设定比例将提取到的特征分为开始阶段特征、行为阶段特征和结束阶段特征;所述边界回归子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归;所述分类子网络用于根据所述行为阶段特征进行行为类别判定;所述完整性判断子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分。
进一步地,所述特征提取子网络,以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征。
进一步地,所述分类子网络和完整性判断子网络的损失函数为:
Lcls(ci,bi;pi)=-log P(ci|pi)-1(ci≥1)log P(bi|ci,pi)
其中,pi是提议,ci是类标签,bi表示pi是否是完整的,完整性P(bi|ci,pi)仅在提议pi不被视为背景的一部分时使用;
所述边界回归子网络的损失函数为:
Figure BDA0002118716710000041
当且仅当ci≥1&bi=1时,计算边界回归子网络损失,其中,μi为提议pi与最近的真实行为实例两个区间中心的相对变化,φi为提议pi与最近的真实行为实例两个区间中心的对数比例跨度。
进一步地,所述生成对抗网络包括生成器和判别器;
所述生成器用于生成与所述结构化分段网络中特征提取子网络提取的特征维度和大小相同,且在所述训练集中统计同分布的难例特征;所述判别器用于根据所述生成器生成的难例特征和结构化分段网络中特征提取子网络提取的特征进行真实或虚假的特征判断,同时对真实特征进行行为类别判定。
进一步地,所述生成器包括依次连接的两个全连接层;所述生成器的输入为随机正态分布的向量。
进一步地,所述两个全连接层的神经元个数均为4096,所述向量的长度为100。
进一步地,所述生成器的特征匹配损失为:
Figure BDA0002118716710000051
其中,φ(·)表示特征提取子网络,ψ(·)表示分类子网络,G(·)表示生成器,Paction={(xs,y)}表示行为窗口的训练集,xs表示行为窗口,y表示基本事实标签;
所述判别器的损失函数为:
LD=Lreal+Lfake
其中,Lreal为实际样本的分类损失,Lfake为生成的假样本损失;
Figure BDA0002118716710000055
Lfake=Ez~noise[-log PD(K+2|G(z))]
Figure BDA0002118716710000056
表示判别为行为的期望,
Figure BDA0002118716710000053
表示判别为背景的期望,
Figure BDA0002118716710000054
{o1,...,oK+1}为预测向量,xns为背景窗口,Ez~noise[]表示判别为噪声的期望,K+2代表难例特征。
通过本发明所构思的以上技术方案,与现有技术相比,能够取得以下有益效果:
(1)本发明通过GAN网络生成与结构化分段网络提取的特征维度和大小相同且在训练集中统计同分布的难例特征,增加了模型对于难例样本的识别能力,使得模型能够捕获行为和背景的细微差别,提高了模型对行为和背景的分辨能力,从而提高了时序行为定位的精度;
(2)本发明采用结构化分段网络对提议进行分段处理,使得模型对于视频中的行为动作具有上下文识别能力,保证了模型对行为动作的识别能力。
附图说明
图1是本发明的基于GAN和SSN的时序行为检测方法流程图;
图2是时序行为检测模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1,本发明实施例提供了一种基于GAN和SSN的时序行为检测方法,包括:
(1)将视频数据划分为训练集和测试集,对所述训练集和测试集进行帧提取和光流计算;
(2)对每个视频选取一些区域片段作为提议,并对所述提议中包含的帧图像或光流图像进行归一化和数据增强处理;
具体地,对每个视频选取一些区域片段作为提议,具体包括:
(2.1)对视频数据随机生成一系列提议;
(2.2)采用基于BNinception的二分类网络对随机生成的提议进行评分;
具体地,对每个视频取12个提议proposal,其中前景和背景的比例为Fg:Bg=3:9(重叠度>0.7则认为是fg;重叠度<0.7则认为是bg),网络参数设置为:batchsize=3;学习率=0.0001。基本想法是找到那些具有大部分高动作性片段的连续时间区域作为提议,然后使用TAG算法生成时序行为检测需要的提议。
(2.3)采用TAG算法根据提议评分生成时序行为检测需要的提议。
具体地,步骤(2.3)具体包括:
(2.3.1)将提议评分沿水平线反转,并将评分位于设定分数以下的提议,视为提议盆地;
(2.3.2)从当前提议盆地开始,合并随后的提议盆地,直到盆地持续时间超过总持续时间的比例下降到设定的门槛;所述总持续时间为第一个提议盆地开始的时间到最后一个提议盆地末端的时间;
(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议;
(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3),得到多个提议;
(2.3.5)对重叠度为0.95的提议进行非最大抑制,得到时序行为检测需要的提议。
将选取的提议中包含的每一帧图像或光流图像归一化为224*224像素大小,并以0.5的概率对所述帧图像或光流图像进行随机水平翻转。
(3)构建时序行为检测模型;
具体地,本发明的时序行为检测模型包括结构化分段网络SSN(structuredsegmentnetwork)和生成对抗网络GAN(Generative adversarial network);
具体地,如图2所示,结构化分段网络,包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络;
提议分段子网络,用于对选取出的提议进行扩展并均分为多段,并从每段提议中随机提取一帧图像;特征提取子网络,用于以对提取的每一帧图像进行特征提取,并以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征;边界回归子网络,用于根据开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归;分类子网络,用于根据行为阶段特征进行行为类别判定;完整性判断子网络,用于根据开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分;
生成对抗网络,包括生成器和判别器;生成器,用于生成与结构化分段网络中特征提取子网络提取的特征维度和大小相同,且在训练集中统计同分布的难例特征;判别器,用于根据生成器生成的难例特征和结构化分段网络中特征提取子网络提取的特征进行真实或虚假的特征判断,同时对真实特征进行行为类别判定;
如图2所示,本发明的生成器包括依次连接的两个全连接层FC1和FC2;两个全连接层的神经元个数均为4096,将随机正态分布的长度为100的向量作为生成器的输入,以输出难例特征。
(4)将所述训练集和测试集输入所述时序行为检测模型进行训练,得到训练好的时序行为检测模型;
具体地,在结构化分段网络部分,损失函数主要分为分类损失、行为完整性损失、边界回归损失,行为分类子网络和完整性判断子网络共同定义统一的分类损失:
Lcls(ci,bi;pi)=-log P(ci|pi)-1(ci≥1)log P(bi|ci,pi)
其中,pi是提议,ci是类标签,bi表示pi是否是完整的,完整性P(bi|ci,pi)仅在提议pi不被视为背景的一部分时使用;
边界回归子网络的损失函数为:
Figure BDA0002118716710000081
当且仅当ci≥1&bi=1时,即提议属于行为类且完整时,计算边界回归子网络损失,其中,μi为提议pi与最近的真实行为实例两个区间中心的相对变化,φi为提议pi与最近的真实行为实例两个区间中心的对数比例跨度。
在生成对抗网络部分,损失函数主要分为特征相似性损失、分类损失,生成器的特征匹配损失定义为:
Figure BDA0002118716710000091
其中,φ(·)表示特征提取子网络,ψ(·)表示分类子网络,G(·)表示生成器,Paction={(xs,y)}表示行为窗口的训练集,xs表示行为窗口,y表示基本事实标签;
判别器判断特征是否是由生成器生成的损失定义为:
LD=Lreal+Lfake
其中,Lreal为实际样本的分类损失,Lfake为生成的假样本损失;
Figure BDA0002118716710000092
Lfake=Ez~noise[-log PD(K+2|G(z))]
Figure BDA0002118716710000093
表示判别为行为的期望,
Figure BDA0002118716710000094
表示判别为背景的期望,
Figure BDA0002118716710000095
{o1,...,oK+1}为预测向量,xns为背景窗口,Ez~noise[]表示判别为噪声的期望,K+2代表难例特征。
(5)将待识别的视频输入训练好的时序行为检测模型,得到视频中存在的行为类别,与行为对应的起始位置和结束位置。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于GAN和SSN的时序行为检测方法,其特征在于,包括:
(1)将视频数据划分为训练集和测试集,对所述训练集和测试集进行帧提取和光流计算;
(2)对每个视频选取一些区域片段作为提议,并对所述提议中包含的帧图像或光流图像进行归一化和数据增强处理;
(3)构建时序行为检测模型;
所述时序行为检测模型包括结构化分段网络和生成对抗网络;
所述结构化分段网络用于对提议包含的图像进行特征提取,并以设定比例将提取到的特征分为开始阶段、行为阶段和结束阶段特征,根据所述开始阶段、行为阶段和结束阶段特征进行分类、边界回归和完整性评分;所述结构化分段网络包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络;
所述提议分段子网络用于对选取出的提议进行扩展并均分为多段,并从每段提议中随机提取帧图像或光流图像;所述特征提取子网络用于对提取的帧图像或光流图像进行特征提取,并以设定比例将提取到的特征分为开始阶段特征、行为阶段特征和结束阶段特征;所述边界回归子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归;所述分类子网络用于根据所述行为阶段特征进行视频行为类别判定;所述完整性判断子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分;
所述生成对抗网络用于生成与所述结构化分段网络提取的特征维度和大小相同,且在训练集中统计同分布的难例特征,并根据所述难例特征和结构化分段网络提取的特征进行真实或虚假的特征判断;
(4)将所述训练集和测试集输入所述时序行为检测模型进行训练和测试,得到最终训练好的时序行为检测模型;
(5)将待识别的视频输入训练好的时序行为检测模型,得到视频中存在的行为类别,以及与各类行为对应的起始位置和结束位置。
2.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,步骤(2)中所述对每个视频选取一些区域片段作为提议,具体包括:
(2.1)对每个视频随机生成一系列提议;
(2.2)采用基于BNinception的二分类网络对随机生成的提议进行评分;
(2.3)采用TAG算法根据提议评分生成时序行为检测需要的提议。
3.根据权利要求2所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,步骤(2.3)具体包括:
(2.3.1)将提议评分沿水平线反转,并将评分位于设定分数以下的提议,视为提议盆地;
(2.3.2)从当前提议盆地开始,合并随后的提议盆地,直到盆地持续时间超过总持续时间的比例下降到设定的门槛;所述总持续时间为第一个提议盆地开始的时间到最后一个提议盆地末端的时间;
(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议;
(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3),得到多个提议;
(2.3.5)对重叠度为0.95的提议进行非最大抑制,得到时序行为检测需要的提议。
4.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述特征提取子网络,以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征。
5.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述分类子网络和完整性判断子网络的损失函数为:
Lcls(ci,bi;pi)=-log P(ci|pi)-1(ci≥1)log P(bi|ci,pi)
其中,pi是提议,ci是类标签,bi表示pi是否是完整的,完整性P(bi|ci,pi)仅在提议pi不被视为背景的一部分时使用;
所述边界回归子网络的损失函数为:
Figure FDA0003473366830000031
当且仅当ci≥1&bi=1时,计算边界回归子网络损失,其中,μi为提议pi与最近的真实行为实例两个区间中心的相对变化,φi为提议pi与最近的真实行为实例两个区间中心的对数比例跨度。
6.根据权利要求1-5任一项所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述生成对抗网络包括生成器和判别器;
所述生成器用于生成与所述结构化分段网络中特征提取子网络提取的特征维度和大小相同,且在所述训练集中统计同分布的难例特征;所述判别器用于根据所述生成器生成的难例特征和结构化分段网络中特征提取子网络提取的特征进行真实或虚假的特征判断,同时对真实特征进行行为类别判定。
7.根据权利要求6所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述生成器包括依次连接的两个全连接层;所述生成器的输入为随机正态分布的向量。
8.根据权利要求7所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述两个全连接层的神经元个数均为4096,所述向量的长度为100。
9.根据权利要求7所述的一种基于GAN和SSN的时序行为检测方法,其特征在于,所述生成器的特征匹配损失为:
Figure FDA0003473366830000032
其中,φ(·)表示特征提取子网络,ψ(·)表示分类子网络,G(·)表示生成器,Paction={(xs,y)}表示行为窗口的训练集,xs表示行为窗口,y表示基本事实标签;
所述判别器的损失函数为:
LD=Lreal+Lfake
其中,Lreal为实际样本的分类损失,Lfake为生成的假样本损失;
Figure FDA0003473366830000041
Lfake=Ez~noise[-log PD(K+2|G(z))]
Figure FDA0003473366830000042
表示判别为行为的期望,
Figure FDA0003473366830000043
表示判别为背景的期望,
Figure FDA0003473366830000044
{o1,...,oK+1}为预测向量,xns为背景窗口,Ez~noise[]表示判别为噪声的期望,K+2代表难例特征。
CN201910599488.7A 2019-07-04 2019-07-04 一种基于gan和ssn的时序行为检测方法 Expired - Fee Related CN110414367B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910599488.7A CN110414367B (zh) 2019-07-04 2019-07-04 一种基于gan和ssn的时序行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910599488.7A CN110414367B (zh) 2019-07-04 2019-07-04 一种基于gan和ssn的时序行为检测方法

Publications (2)

Publication Number Publication Date
CN110414367A CN110414367A (zh) 2019-11-05
CN110414367B true CN110414367B (zh) 2022-03-29

Family

ID=68360334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910599488.7A Expired - Fee Related CN110414367B (zh) 2019-07-04 2019-07-04 一种基于gan和ssn的时序行为检测方法

Country Status (1)

Country Link
CN (1) CN110414367B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325097B (zh) * 2020-01-22 2023-04-07 陕西师范大学 增强的单阶段解耦的时序动作定位方法
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN111832516B (zh) * 2020-07-22 2023-08-18 西安电子科技大学 基于无监督视频表示学习的视频行为识别方法
CN111931713B (zh) * 2020-09-21 2021-01-29 成都睿沿科技有限公司 一种异常行为检测方法、装置、电子设备及存储介质
CN112749625B (zh) * 2020-12-10 2023-12-15 深圳市优必选科技股份有限公司 时序行为检测方法、时序行为检测装置及终端设备
CN113420598B (zh) * 2021-05-25 2024-05-14 江苏大学 基于上下文信息与提议分类解耦的时序动作检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及***
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法
EP3499429A1 (en) * 2017-12-12 2019-06-19 Institute for Imformation Industry Behavior inference model building apparatus and method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107862331A (zh) * 2017-10-31 2018-03-30 华中科技大学 一种基于时间序列及cnn的不安全行为识别方法及***
EP3499429A1 (en) * 2017-12-12 2019-06-19 Institute for Imformation Industry Behavior inference model building apparatus and method
CN108830252A (zh) * 2018-06-26 2018-11-16 哈尔滨工业大学 一种融合全局时空特征的卷积神经网络人体动作识别方法
CN109190524A (zh) * 2018-08-17 2019-01-11 南通大学 一种基于生成对抗网络的人体动作识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector;Jia-Xing Zhong et al.;《MM "18: Proceedings of the 26th ACM international conference on Multimedia》;20181031;35–44 *
Yue Zhao et al. .Temporal Action Detection with Structured Segment Networks.《Proceedings of the IEEE International Conference on Computer Vision (ICCV)》.2017,2914-2923. *
基于逆向习得推理的网络异常行为检测模型;杨宏宇 等;《计算机应用》;20190308;第39卷(第7期);1967-1972 *

Also Published As

Publication number Publication date
CN110414367A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110414367B (zh) 一种基于gan和ssn的时序行为检测方法
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
CN108875624B (zh) 基于多尺度的级联稠密连接神经网络的人脸检测方法
Gupta et al. Sequential modeling of deep features for breast cancer histopathological image classification
CN108764085B (zh) 基于生成对抗网络的人群计数方法
CN107145862B (zh) 一种基于霍夫森林的多特征匹配多目标跟踪方法
US11640714B2 (en) Video panoptic segmentation
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
KR102132407B1 (ko) 점진적 딥러닝 학습을 이용한 적응적 영상 인식 기반 감성 추정 방법 및 장치
CN111027377B (zh) 一种双流神经网络时序动作定位方法
EP3596655B1 (en) Method and apparatus for analysing an image
CN113011357A (zh) 基于时空融合的深度伪造人脸视频定位方法
CN111325237B (zh) 一种基于注意力交互机制的图像识别方法
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
Roy et al. Foreground segmentation using adaptive 3 phase background model
Tamou et al. Transfer learning with deep convolutional neural network for underwater live fish recognition
CN113591674A (zh) 一种面向实时视频流的边缘环境行为识别***
Hirzi et al. Literature study of face recognition using the viola-jones algorithm
Fernandez Garcia et al. AcousticIA, a deep neural network for multi-species fish detection using multiple models of acoustic cameras
CN109002808B (zh) 一种人体行为识别方法及***
Krithika et al. MAFONN-EP: A minimal angular feature oriented neural network based emotion prediction system in image processing
Li et al. Incremental learning of infrared vehicle detection method based on SSD
EP3627391A1 (en) Deep neural net for localising objects in images, methods for preparing such a neural net and for localising objects in images, corresponding computer program product, and corresponding computer-readable medium
Teršek et al. Re-evaluation of the CNN-based state-of-the-art crowd-counting methods with enhancements
Nishath et al. An Adaptive Classifier Based Approach for Crowd Anomaly Detection.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220329