CN112818829A - 基于结构网络的弱监督时域动作定位方法及*** - Google Patents

基于结构网络的弱监督时域动作定位方法及*** Download PDF

Info

Publication number
CN112818829A
CN112818829A CN202110122080.8A CN202110122080A CN112818829A CN 112818829 A CN112818829 A CN 112818829A CN 202110122080 A CN202110122080 A CN 202110122080A CN 112818829 A CN112818829 A CN 112818829A
Authority
CN
China
Prior art keywords
video
action
features
time domain
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110122080.8A
Other languages
English (en)
Other versions
CN112818829B (zh
Inventor
张天柱
张勇东
杨文飞
吴枫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110122080.8A priority Critical patent/CN112818829B/zh
Publication of CN112818829A publication Critical patent/CN112818829A/zh
Application granted granted Critical
Publication of CN112818829B publication Critical patent/CN112818829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Image Analysis (AREA)

Abstract

本公开提供一种基于结构网络的弱监督时域动作定位方法,包括:对输入的视频进行特征提取,得到目标任务的适应性特征;构建视频片段关系全局网络模型并训练;构建动作局部结构网络模型并训练;以及在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果,从而实现基于结构网络的弱监督时域动作定位。

Description

基于结构网络的弱监督时域动作定位方法及***
技术领域
本公开涉及人工智能技术领域,关于智能行为分析,尤其涉及一种基于结构网络的弱监督时域动作定位方法及***。
背景技术
时域动作定位能够准确找到目标任务动作的起始和结束时间,在智能监控、视频描述、视频总结等领域有着广泛的应用。
传统方法通常是基于全监督的,首先利用有动作起始和结束时间标注的数据来训练模型,然后进行动作定位。这一过程严重依赖大量有时域边界标注的数据,非常耗费时间和人力,这限制了动作定位的拓展性和实用性。
为了减轻对数据的依赖、提升拓展性和实用性,基于弱监督的智能动作定位算法应运而生,在时域动作定位中取得了较好的结果。然而,当前技术利用视频级别的动作类别标签进行弱监督训练,导致模型只关注到动作的最核心片段以及易受噪声干扰,导致定位不完整以及定位失败。
因此,如何实现更有效的弱监督时域动作定位是一个亟需解决的技术课题。
发明内容
(一)要解决的技术问题
基于上述问题,本公开提供了一种基于结构网络的弱监督时域动作定位方法及***,以缓解现有技术中利用视频级别的动作类别标签进行弱监督训练,导致模型只关注到动作的最核心片段以及易受噪声干扰,导致定位不完整以及定位失败等技术问题。
(二)技术方案
本公开的一个方面,一种基于结构网络的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到目标任务的适应性特征;
构建视频片段关系全局网络模型并训练;
构建动作局部结构网络模型并训练;以及
在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果,从而实现基于结构网络的弱监督时域动作定位。
在本公开实施例中,所述对输入的视频进行特征提取,得到目标任务的适应性特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;
将该视频的所有片段的特征拼接在一起,作为该视频的特征;以及
将所述视频特征输入到一个卷积层得到与目标任务适应的特征。
在本公开实施例中,所述构建视频片段关系全局网络模型并训练,包括:
将片段特征映射到相似性度量空间后,获得相似度矩阵;以及
获得所述相似度矩阵后利用图卷积网络对所述视频的特征进行特征更新,得到更具判断性的视频特征。
在本公开实施例中,构建动作局部结构网络模型并训练,包括:
根据所述具有判别性的特征生成多支局部结构感知的注意力序列;
利用所述多支注意力序列产生结构感知特征;以及
通过所述结构感知特征,生成视频动作标签预测结果。
在本公开实施例中,所述将片段特征映射到相似性度量空间后,获得相似度矩阵,包括:先利用一个卷积层将片段特征映射到相似性度量空间;然后利用余弦相似度计算片段之间的相似度矩阵。
在本公开实施例中,通过K分支注意力机制产生多支局部结构感知的注意力序列ak,其中K为正整数,k=1,2...K。
在本公开实施例中,利用所述注意力序列产生结构感知特征Xk
Figure BDA0002919064470000021
其中,N为视频中片段的数量,i为片段下标,
Figure BDA0002919064470000035
为第k个分支对第i个片段的注意力权重,Xi为第i个片段特征。
在本公开实施例中,所述通过所述结构感知特征,生成视频动作标签预测结果,包括:
通过每个分支产生一个视频动作标签预测结果yk,将多个视频动作标签预测结果融合得到最终的视频动作标签预测结果y:
Figure BDA0002919064470000031
其中,wk为自适应学到的每个分支的权重;
通过最终损失来训练:
L=Lcls+αLrep+βLsparse
其中,Lcls为分类损失,用于引导多个分支的学习:
Lcls=BinaryCrossEntropy(y,ygt);
其中,ygt为视频的真实类别标签;
Lrep为排斥损失,用于保证能够有效学习到动作的多个构成部分,使得不同的分支关注到不同部分:
Figure BDA0002919064470000032
其中,m、n为分支下标,
Figure BDA0002919064470000033
为第m个分支在第i个片段上的权重,
Figure BDA0002919064470000036
为第n个分支在第i个片段上的权重;
Lsparse为引入的稀疏约束,用于使得每个分支能够关注到有意义的动作片段:
Figure BDA0002919064470000034
在本公开实施例中,所述在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果,从而实现基于结构网络的弱监督时域动作定位,包括:
利用每支结构感知类别激活序列的分类器对图卷积网络更新的特征Z上进行每个片段的类别预测,形成结构感知类别激活序列Hk,k=1,2...K。将K个激活序列融合得到最终的类别激活序列H,阈值化后得到每个类别的动作检测结果,从而实现时域动作的分类和定位,完成基于结构网络的弱监督时域动作定位:
Figure BDA0002919064470000041
本公开的另一方面,提供一种基于结构网络的弱监督时域动作定位***,用于执行以上任一项所述的定位方法,所述***包括:
特征提取模块,用于对输入的视频进行特征提取,得到目标任务的适应性特征;
视频片段关系建模模块,用于构建视频片段关系全局网络模型;
动作局部结构建模模块,用于构建动作局部结构网络模型;以及
预测模块,用于在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果。
(三)有益效果
从上述技术方案可以看出,本公开至少具有以下有益效果其中之一或其中一部分:
(1)不需要精细的动作起始和结束时间标注,只需要视频级别的类别标签进行训练;
(2)能够挖掘不同视频片段之间的关系,提升视频片段特征判别能力;
(3)能够发掘动作的内部结构信息,实现完整的动作定位;
(4)可应用于视频行为检测相关的应用***中,对视频中的动作进行定位;
(5)在实施时既可以以软件形式嵌入到移动设备中,提供实时分析结果;也可以安装在后台服务器中,提供大批量视频处理结果。
附图说明
图1为本公开实施例基于结构网络的弱监督时域动作定位***的组成和原理示意图。
图2为本公开实施例基于结构网络的弱监督时域动作定位方法的流程示意图。
具体实施方式
本公开提供了一种基于结构网络的弱监督时域动作定位方法及***,利用视频级别的动作类别标签实现动作定位,从而能够考虑整个视频和每个动作的结构信息,实现鲁棒完整的弱监督动作定位。
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
在本公开实施例中,提供一种基于结构网络的弱监督时域动作定位方法,如图1所示,所述方法,包括:
操作S1:对输入的视频进行特征提取,得到目标任务的适应性特征;
在本公开实施例中,通过视频特征提取模块完成操作S1,上述操作S1包括:
操作S11:将输入的视频分为多个视频片段;
操作S12:提取每个所述视频片段中的特征;
操作S13:将该视频的所有片段的特征拼接在一起,作为该视频的特征;以及
操作S14:将所述视频特征输入到一个卷积层得到与目标任务适应的特征;
在本公开实施例中,操作S11中,对于一个输入视频V,首先将其分为16帧一组的多个片段。操作S12中使用经过预训练的行为识别网络I3D提取每个视频片段的特征;操作S13中,将该视频的所有片段的特征拼接在一起,作为该视频的特征。操作S14中,该视频特征被输入到一个卷积层得到该任务适应的特征X。X被输入到后续模块进行动作定位。
操作S2:构建视频片段关系全局网络模型并训练;
在本公开实施例中,操作S2包括:
操作S21:将片段特征映射到相似性度量空间后,获得相似度矩阵;
在本公开实施例中,对于X,视频片段关系建模模块首先利用一个卷积层将片段特征映射到相似性度量空间;然后利用余弦相似度计算片段之间的相似度矩阵A。
操作S22:得到所述相似度矩阵后利用图卷积网络对所述视频的特征进行特征更新,得到更具判断性的视频特征。
在本公开实施例中,在得到相似度矩阵后,利用图卷积网络来进行特征更新,得到更具有判别性的特征Z,完成构建视频片段关系全局模型。
Z=ReLU(AXW);
其中,W为可学习参数矩阵;
操作S3:构建动作局部结构网络模型并训练;
在本公开实施例中,操作S3包括:
操作S31:根据所述具有判别性的特征生成多支局部结构感知的注意力序列;
在本公开实施例中,对于Z,动作局部结构建模模块首先通过K分支注意力机制产生多支局部结构感知的注意力序列ak,k=1,2...K;
操作S32:利用所述多支注意力序列产生结构感知特征;
利用这些注意力序列产生结构感知特征Xk,k=1,2...K。
Figure BDA0002919064470000061
其中,N为视频中片段的数量,i为片段下标,
Figure BDA0002919064470000062
为第k个分支对第i个片段的注意力权重,Xi为第i个片段特征。
操作S33:通过所述结构感知特征,生成视频动作标签预测结果;
通过每个分支都会产生一个视频动作标签预测结果yk,将多个视频动作标签预测结果融合得到最终的视频动作标签预测结果y:
Figure BDA0002919064470000063
其中,wk为自适应学到的每个分支的权重;
在本公开实施例中,通过分类损失Lcls来引导多个分支的学习:
Lcls=BinaryCrossEntropy(y,ygt);
其中,ygt为视频的真实类别标签;
在本公开实施例中,为了保证能够有效学习到动作的多个构成部分,我们引入一个排斥损失Lrep,使得不同的分支关注到不同部分:
Figure BDA0002919064470000071
其中,m、n为分支下标,
Figure BDA0002919064470000072
为第m个分支在第i个片段上的权重,
Figure BDA0002919064470000073
为第n个分支在第i个片段上的权重;
在本公开实施例中,为了使得每个分支能够关注到有意义的动作片段,引入稀疏约束Lsparse
Figure BDA0002919064470000074
在本公开实施例中,最终损失L为上述三个损失加权和,通过最终损失来训练网络模型。
L=Lcls+αLrep+βLsparse
操作S4:在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果。
在本公开实施例中,在训练好网络后,我们利用每个分支的分类器对图卷积网络更新的特征Z上进行每个片段的类别预测,形成结构感知类别激活序列Hk,k=1,2...K。将K个激活序列融合得到最终的类别激活序列H,阈值化后可以得到每个类别的动作检测结果,从而实现时域动作的分类和定位,完成基于结构网络的弱监督时域动作定位。
Figure BDA0002919064470000075
在本公开的另一方面,还提供一种基于结构网络的弱监督时域动作定位***,用于执行以上所述的定位方法,所述定位***包括:
特征提取模块,用于对输入的视频进行特征提取,得到目标任务的适应性特征;
视频片段关系建模模块,用于构建视频片段关系全局网络模型;
动作局部结构建模模块,用于构建动作局部结构网络模型;以及
预测模块,用于在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果。
所述预测模块包括多个分支的分类器。
至此,已经结合附图对本公开实施例进行了详细描述。需要说明的是,在附图或说明书正文中,未绘示或描述的实现方式,均为所属技术领域中普通技术人员所知的形式,并未进行详细说明。此外,上述对各元件和方法的定义并不仅限于实施例中提到的各种具体结构、形状或方式,本领域普通技术人员可对其进行简单地更改或替换。
依据以上描述,本领域技术人员应当对本公开基于结构网络的弱监督时域动作定位方法及***有了清楚的认识。
综上所述,本公开提供了一种基于结构网络的弱监督时域动作定位方法及***,不需要精细的动作起始和结束时间标注,只需要视频级别的类别标签进行训练;该方法能够挖掘不同视频片段之间的关系,提升视频片段特征判别能力;该方法能够发掘动作的内部结构信息,实现完整的动作定位;上述方法和***可应用于视频行为检测相关的应用***中,对视频中的动作进行定位。在实施上,可以以软件形式嵌入到移动设备中,提供实时分析结果;也可以安装在后台服务器中,提供大批量视频处理结果。
还需要说明的是,实施例中提到的方向用语,例如“上”、“下”、“前”、“后”、“左”、“右”等,仅是参考附图的方向,并非用来限制本公开的保护范围。贯穿附图,相同的元素由相同或相近的附图标记来表示。在可能导致对本公开的理解造成混淆时,将省略常规结构或构造。
并且图中各部件的形状和尺寸不反映真实大小和比例,而仅示意本公开实施例的内容。另外,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。
再者,单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
说明书与权利要求中所使用的序数例如“第一”、“第二”、“第三”等的用词,以修饰相应的元件,其本身并不意味着该元件有任何的序数,也不代表某一元件与另一元件的顺序、或是制造方法上的顺序,该些序数的使用仅用来使具有某命名的一元件得以和另一具有相同命名的元件能做出清楚区分。
此外,除非特别描述或必须依序发生的步骤,上述步骤的顺序并无限制于以上所列,且可根据所需设计而变化或重新安排。并且上述实施例可基于设计及可靠度的考虑,彼此混合搭配使用或与其他实施例混合搭配使用,即不同实施例中的技术特征可以自由组合形成更多的实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。并且,在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。
以上所述的具体实施例,对本公开的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本公开的具体实施例而已,并不用于限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种基于结构网络的弱监督时域动作定位方法,包括:
对输入的视频进行特征提取,得到目标任务的适应性特征;
构建视频片段关系全局网络模型并训练;
构建动作局部结构网络模型并训练;以及
在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果,从而实现基于结构网络的弱监督时域动作定位。
2.根据权利要求1所述的基于结构网络的弱监督时域动作定位方法,所述对输入的视频进行特征提取,得到目标任务的适应性特征,包括:
将输入的视频分为多个视频片段;
提取每个所述视频片段中的特征;
将该视频的所有片段的特征拼接在一起,作为该视频的特征;以及
将所述视频特征输入到一个卷积层得到与目标任务适应的特征。
3.根据权利要求1所述的基于结构网络的弱监督时域动作定位方法,所述构建视频片段关系全局网络模型并训练,包括:
将片段特征映射到相似性度量空间后,获得相似度矩阵;以及
获得所述相似度矩阵后利用图卷积网络对所述视频的特征进行特征更新,得到更具判断性的视频特征。
4.根据权利要求1所述的基于结构网络的弱监督时域动作定位方法,构建动作局部结构网络模型并训练,包括:
根据所述具有判别性的特征生成多支局部结构感知的注意力序列;
利用所述多支注意力序列产生结构感知特征;以及
通过所述结构感知特征,生成视频动作标签预测结果。
5.根据权利要求3所述的基于结构网络的弱监督时域动作定位方法,所述将片段特征映射到相似性度量空间后,获得相似度矩阵,包括:先利用一个卷积层将片段特征映射到相似性度量空间;然后利用余弦相似度计算片段之间的相似度矩阵。
6.根据权利要求5所述的基于结构网络的弱监督时域动作定位方法,通过K分支注意力机制产生多支局部结构感知的注意力序列ak,其中K为正整数,k=1,2...K。
7.根据权利要求6所述的基于结构网络的弱监督时域动作定位方法,利用所述注意力序列产生结构感知特征Xk
Figure FDA0002919064460000021
其中,N为视频中片段的数量,i为片段下标,
Figure FDA0002919064460000022
为第k个分支对第i个片段的注意力权重,Xi为第i个片段特征。
8.根据权利要求4所述的基于结构网络的弱监督时域动作定位方法,所述通过所述结构感知特征,生成视频动作标签预测结果,包括:
通过每个分支产生一个视频动作标签预测结果yk,将多个视频动作标签预测结果融合得到最终的视频动作标签预测结果y:
Figure FDA0002919064460000023
其中,wk为自适应学到的每个分支的权重;
通过最终损失来训练:
L=Lcls+αLrep+βLsparse
其中,Lcls为分类损失,用于引导多个分支的学习:
Lcls=BinaryCrossEntropy(y,ygt);
其中,ygt为视频的真实类别标签;
Lrep为排斥损失,用于保证能够有效学习到动作的多个构成部分,使得不同的分支关注到不同部分:
Figure FDA0002919064460000031
其中,m、n为分支下标,
Figure FDA0002919064460000032
为第m个分支在第i个片段上的权重,
Figure FDA0002919064460000033
为第n个分支在第i个片段上的权重;
Lsparse为引入的稀疏约束,用于使得每个分支能够关注到有意义的动作片段:
Figure FDA0002919064460000034
9.根据权利要求1所述的基于结构网络的弱监督时域动作定位方法,所述在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果,从而实现基于结构网络的弱监督时域动作定位,包括:
利用每支结构感知类别激活序列的分类器对图卷积网络更新的特征Z上进行每个片段的类别预测,形成结构感知类别激活序列Hk,k=1,2...K。将K个激活序列融合得到最终的类别激活序列H,阈值化后得到每个类别的动作检测结果,从而实现时域动作的分类和定位,完成基于结构网络的弱监督时域动作定位:
Figure FDA0002919064460000035
10.一种基于结构网络的弱监督时域动作定位***,用于执行以上权利要求1至9任一项所述的定位方法,所述***包括:
特征提取模块,用于对输入的视频进行特征提取,得到目标任务的适应性特征;
视频片段关系建模模块,用于构建视频片段关系全局网络模型;
动作局部结构建模模块,用于构建动作局部结构网络模型;以及
预测模块,用于在所述更具判断性的视频特征上进行每个视频片段的类别预测,形成多支结构感知类别激活序列并融合得到最终的类别激活序列,将最终的类别激活序列阈值化后得到每个类别的动作检测结果。
CN202110122080.8A 2021-01-27 2021-01-27 基于结构网络的弱监督时域动作定位方法及*** Active CN112818829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110122080.8A CN112818829B (zh) 2021-01-27 2021-01-27 基于结构网络的弱监督时域动作定位方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110122080.8A CN112818829B (zh) 2021-01-27 2021-01-27 基于结构网络的弱监督时域动作定位方法及***

Publications (2)

Publication Number Publication Date
CN112818829A true CN112818829A (zh) 2021-05-18
CN112818829B CN112818829B (zh) 2022-09-09

Family

ID=75859966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110122080.8A Active CN112818829B (zh) 2021-01-27 2021-01-27 基于结构网络的弱监督时域动作定位方法及***

Country Status (1)

Country Link
CN (1) CN112818829B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108596203A (zh) * 2018-03-13 2018-09-28 北京交通大学 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及***
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及***
KR102201353B1 (ko) * 2019-11-22 2021-01-08 연세대학교 산학협력단 배경 프레임 억제를 통한 약한 지도 학습 기반의 행동 프레임 검출 방법 및 장치

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019099226A1 (en) * 2017-11-14 2019-05-23 Google Llc Weakly-supervised action localization by sparse temporal pooling network
CN108596203A (zh) * 2018-03-13 2018-09-28 北京交通大学 并联池化层对受电弓碳滑板表面磨耗检测模型的优化方法
CN110119703A (zh) * 2019-05-07 2019-08-13 福州大学 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN110516536A (zh) * 2019-07-12 2019-11-29 杭州电子科技大学 一种基于时序类别激活图互补的弱监督视频行为检测方法
KR102201353B1 (ko) * 2019-11-22 2021-01-08 연세대학교 산학협력단 배경 프레임 억제를 통한 약한 지도 학습 기반의 행동 프레임 검출 방법 및 장치
CN111079646A (zh) * 2019-12-16 2020-04-28 中山大学 基于深度学习的弱监督视频时序动作定位的方法及***
CN111914644A (zh) * 2020-06-30 2020-11-10 西安交通大学 一种基于双模态协同的弱监督时序动作定位方法及***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PHUC NGUYEN ETAL.: "Weakly Supervised Action Localization by Sparse Temporal Pooling Network", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
周小龙等: "弱监督学习下的目标检测算法综述", 《计算机科学》 *

Also Published As

Publication number Publication date
CN112818829B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN111814854B (zh) 一种无监督域适应的目标重识别方法
Xu et al. Reasoning-rcnn: Unifying adaptive global reasoning into large-scale object detection
Nayak et al. A comprehensive review on deep learning-based methods for video anomaly detection
Lee et al. BMAN: Bidirectional multi-scale aggregation networks for abnormal event detection
Ye et al. PurifyNet: A robust person re-identification model with noisy labels
Cong et al. Global-and-local collaborative learning for co-salient object detection
Jia et al. Rethinking of pedestrian attribute recognition: Realistic datasets with efficient method
CN108537119B (zh) 一种小样本视频识别方法
Chang et al. Augmented transformer with adaptive graph for temporal action proposal generation
CN112927266B (zh) 基于不确定性引导训练的弱监督时域动作定位方法及***
US20210326638A1 (en) Video panoptic segmentation
CN111369572A (zh) 一种基于图像修复技术的弱监督语义分割方法和装置
CN112819065B (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和***
Kokkinos et al. Synergy between object recognition and image segmentation using the expectation-maximization algorithm
CN111027377A (zh) 一种双流神经网络时序动作定位方法
CN108960270A (zh) 一种基于流形迁移学习的数据标定方法及***
Zhang et al. Localizing unseen activities in video via image query
Wang et al. Multiple pedestrian tracking with graph attention map on urban road scene
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN113221633B (zh) 一种基于层次类别模型的弱监督时序行为定位方法
He et al. Spatial and temporal dual-attention for unsupervised person re-identification
CN112818829B (zh) 基于结构网络的弱监督时域动作定位方法及***
Amir et al. Quantitative analysis of grouping processes
Kuhn et al. Better look twice-improving visual scene perception using a two-stage approach
CN115082854A (zh) 一种面向安防监控视频的行人搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant