CN114445732A - 一种面向视频的时间动作检测方法 - Google Patents

一种面向视频的时间动作检测方法 Download PDF

Info

Publication number
CN114445732A
CN114445732A CN202111579663.XA CN202111579663A CN114445732A CN 114445732 A CN114445732 A CN 114445732A CN 202111579663 A CN202111579663 A CN 202111579663A CN 114445732 A CN114445732 A CN 114445732A
Authority
CN
China
Prior art keywords
proposal
video
time
score
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111579663.XA
Other languages
English (en)
Inventor
甘明刚
张琰
陈杰
胡康
何玉轩
苏绍文
马千兆
刘晓舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111579663.XA priority Critical patent/CN114445732A/zh
Publication of CN114445732A publication Critical patent/CN114445732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种面向视频的时间动作检测方法,解决实际数据中动作实例的持续时间变化很大的问题。本发明采用TAPP方法利用注意机制关注提案的区别性部分,抑制背景对提案特征的影响;然后构造时间金字塔结构,在不丢失时间信息的前提下,将任意长度的提案特征序列转换为多个定长序列,同时设计了一个多尺度时间函数,将其应用到时间金字塔中来生成最终的提案特征,并且基于TAPP方法构建了一个时间动作提案生成模型和一个动作提案分类模型,可以有效的处理不定长时间的时间动作提案,从而更好的完成视频数据中的时间动作检测任务。

Description

一种面向视频的时间动作检测方法
技术领域
本发明属于视频数据处理领域,涉及一种面向视频的时间动作检测方法。
背景技术
时间动作检测是视频理解研究中一项具有挑战性的任务,它要求在未修剪的视频中同时确定目标动作的时间边界和动作类别。
现有的大多数时间动作检测算法被分为两个阶段:提案生成和动作分类。由于实际的数据中动作实例的持续时间变化很大,从一秒到几百秒不等,导致了传统的动作提案生成方法输出的动作提案长短不一,许多提案包含大量的背景信息。研究一种能够有效的将不同时长的动作提案映射到相同特征空间的方法,成为了动作提案生成和分类任务的关键。
发明内容
本发明提供一种面向视频的时间动作检测方法,解决实际数据中动作实例的持续时间变化很大的问题。
本发明通过以下技术方案实现。
一种面向视频的时间动作检测方法,包括:
步骤一、利用双流网络对原始视频提取特征,得到视频特征序列;
步骤二、将所述视频特征序列输入至基于TAPP的生成时间动作提案模型中,预测所述视频特征序列中所有时域位置的开始概率和结束概率,从而预测每个提案的置信度分数和完整性分数;
步骤三、将所述开始概率、结束概率、置信度分数、完整性分数四个值相乘,作为每个提案的最终分数,将所有提案按最终分数从大到小排序,选取前N个最为最终提案;
步骤四、将所述最终提案和步骤一得到的所述视频特征序列输入到基于TAPP的提案分类模型中,得到每个提案的分类分数、完整性分数和边界回归量;
步骤五、将所述每个提案的分类分数相乘作为最终分类分数,并根据所述边界回归量调整提案边界;根据所述最终分类分数确定提案属于哪种动作,调整后的所述提案边界作为动作的开始和结束时间,从而检测出视频中的动作。
本发明的有益效果:
本发明采用TAPP方法,利用注意机制关注提案的区别性部分,抑制背景对提案特征的影响;然后构造时间金字塔结构,在不丢失时间信息的前提下,将任意长度的提案特征序列转换为多个定长序列,同时设计了一个多尺度时间函数,将其应用到时间金字塔中来生成最终的提案特征,并且基于TAPP方法构建了一个时间动作提案生成模型和一个动作提案分类模型,可以有效的处理不定长时间的时间动作提案,从而更好的完成视频数据中的时间动作检测任务。
附图说明
图1为本发明的一种面向视频的时间动作检测方法流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
如图1所示,本具体实施方式的一种面向视频的时间动作检测方法,具体包括以下步骤:
步骤一、利用双流网络对原始视频提取特征,得到视频特征序列;
步骤二、将所述视频特征序列输入至基于TAPP(Temporal Attention-PyramidPooling,时态注意金字塔池)的生成时间动作提案模型中,预测所述视频特征序列中所有时域位置的开始概率和结束概率,从而预测每个提案的置信度分数和完整性分数;
现有技术中BMN(Boundary-matching Network)模型是一种端到端时间动作提案生成方法,能够在主流时间动作检测数据集上表现出较好的性能;本实施例中将其作为基本结构并进行进一步改进,将其与TAPP相结合,建立一种新的BMN-TAPP模型,即基于TAPP的生成时间动作提案模型。
因此本实施例中,所述基于TAPP的生成时间动作提案模型包括特征增强模块、时域评估模块、提案评价模块;其中:
所述特征增强模块使用带有两层双向LSTM的残差卷积块对所述视频特征序列进行叠加处理,通过两层双向LSTM得到特征之间的双向语义关系来增强特征;
所述时域评估模块用于预测叠加处理后的视频特征序列中所有时域位置的开始和结束概率;本实施例中,所述时域评估模块包含两个CovNet,每个CovNet均由一维卷积组成;
所述提案评价模块首先利用穷举法生成候选提案,再利用TAPP方法将每一个不同长度的候选提案对应的特征序列片段建模成特征维度相同的提案特征,并根据所述候选提案的长度和起始位置将所述提案特征排列在一个边界匹配特征图中,预测每个所述候选提案的置信度分数和完整性分数。
本实施例中,所述候选提案指初步得到可能包含动作的时间片段,
[1,2],[1,3]…[1,n],[2,3],…[2,n],…[n-1,n],n为视频特征序列的长度。
对于特征增强模块和提案评估模块的实现原理为:使用残差卷积块与两层双向LSTM来处理视频特征序列,利用帧特征之间的双向关系来捕获长期的过去和未来信息。给定输入特征序列Fi∈RT×C,特征增强模块使用由两个卷积层组成的残差模块进一步提取帧的语义信息,然后通过残差卷积模块将特征序列Fu∈RT×Cu输入双层双向LSTM,来自前向和后向LSTM的隐藏状态序列作为最终特征序列集中在信道维上。
步骤三、将所述开始概率、结束概率、置信度分数、完整性分数四个值相乘,作为每个提案的最终分数,将所有提案按最终分数从大到小排序,选取前N个最为最终提案,本实施例中,N选取200;
步骤四、将所述最终提案和步骤一得到的所述视频特征序列输入到基于TAPP的提案分类模型中,
本实施例中,所述基于TAPP的提案分类模型包括特征增强模块、TAPP模块、分类模块;
所述特征增强模块将所述最终提案的边界向两侧进行移动得到扩展提案;本实施例中,所述扩展提案的长度设置为对应最终提案的两倍,用于提高视频特征的质量;
所述TAPP模块分别将所述最终提案和扩展提案对应的特征序列建模成特征向量,输入到所述分类模块中进行分类;
所述分类模块包含两个并行的由两层全连接层子网络,所述最终提案和扩展提案对应的特征分别输入这两个子网络中,输出每个提案的分类分数、完整性分数和边界回归量。本实施例中,所述分类模块采用完整性分类器和动作分类器来预测提案的标签;其中,采用具有softmax操作的全连接层作为动作分类器,采用每个动作类对应的二进制分类器作为完整性分类器。
步骤五、将所述每个提案的分类分数相乘作为最终分类分数,并根据所述边界回归量调整提案边界;根据所述最终分类分数确定提案属于哪种动作,调整后的所述提案边界作为动作的开始和结束时间,从而检测出视频中的动作。
综上所述,以上仅为本发明的较佳实例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种面向视频的时间动作检测方法,其特征在于,包括以下步骤:
步骤一、利用双流网络对原始视频提取特征,得到视频特征序列;
步骤二、将所述视频特征序列输入至基于TAPP的生成时间动作提案模型中,预测所述视频特征序列中所有时域位置的开始概率和结束概率,从而预测每个提案的置信度分数和完整性分数;
步骤三、将所述开始概率、结束概率、置信度分数、完整性分数四个值相乘,作为每个提案的最终分数,将所有提案按最终分数从大到小排序,选取前N个最为最终提案;
步骤四、将所述最终提案和步骤一得到的所述视频特征序列输入到基于TAPP的提案分类模型中,得到每个提案的分类分数、完整性分数和边界回归量;
步骤五、将所述每个提案的分类分数相乘作为最终分类分数,并根据所述边界回归量调整提案边界;根据所述最终分类分数确定提案属于哪种动作,调整后的所述提案边界作为动作的开始和结束时间,从而检测出视频中的动作。
2.如权利要求1所述的一种面向视频的时间动作检测方法,其特征在于,所述基于TAPP的生成时间动作提案模型包括特征增强模块、时域评估模块、提案评价模块;其中:
所述特征增强模块使用带有两层双向LSTM的残差卷积块对所述视频特征序列进行叠加处理,通过两层双向LSTM得到特征之间的双向语义关系来增强特征;
所述时域评估模块用于预测叠加处理后的视频特征序列中所有时域位置的开始和结束概率;
所述提案评价模块首先利用穷举法生成候选提案,再利用TAPP方法将每一个不同长度的候选提案对应的特征序列片段建模成特征维度相同的提案特征,并根据所述候选提案的长度和起始位置将所述提案特征排列在一个边界匹配特征图中,预测每个所述候选提案的置信度分数和完整性分数。
3.如权利要求2所述的一种面向视频的时间动作检测方法,其特征在于,所述时域评估模块包含两个CovNet,每个CovNet均由一维卷积组成。
4.如权利要求2或3所述的一种面向视频的时间动作检测方法,其特征在于,所述候选提案指初步得到可能包含动作的时间片段,[1,2],[1,3]…[1,n],[2,3],…[2,n],…[n-1,n],n为视频特征序列的长度。
5.如权利要求1所述的一种面向视频的时间动作检测方法,其特征在于,N选取200。
6.如权利要求1或2或3所述的一种面向视频的时间动作检测方法,其特征在于,所述基于TAPP的提案分类模型包括特征增强模块、TAPP模块、分类模块;
所述特征增强模块将所述最终提案的边界向两侧进行移动得到扩展提案;
所述TAPP模块分别将所述最终提案和扩展提案对应的特征序列建模成特征向量,输入到所述分类模块中进行分类;
所述分类模块包含两个并行的由两层全连接层子网络,所述最终提案和扩展提案对应的特征分别输入这两个子网络中,输出每个提案的分类分数、完整性分数和边界回归量。
7.如权利要求6所述的一种面向视频的时间动作检测方法,其特征在于,所述扩展提案的长度设置为对应最终提案的两倍。
8.如权利要求6或7所述的一种面向视频的时间动作检测方法,其特征在于,所述分类模块采用完整性分类器和动作分类器来预测提案的标签;其中,采用具有softmax操作的全连接层作为动作分类器,采用每个动作类对应的二进制分类器作为完整性分类器。
CN202111579663.XA 2021-12-22 2021-12-22 一种面向视频的时间动作检测方法 Pending CN114445732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111579663.XA CN114445732A (zh) 2021-12-22 2021-12-22 一种面向视频的时间动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111579663.XA CN114445732A (zh) 2021-12-22 2021-12-22 一种面向视频的时间动作检测方法

Publications (1)

Publication Number Publication Date
CN114445732A true CN114445732A (zh) 2022-05-06

Family

ID=81364805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111579663.XA Pending CN114445732A (zh) 2021-12-22 2021-12-22 一种面向视频的时间动作检测方法

Country Status (1)

Country Link
CN (1) CN114445732A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379371A1 (en) * 2015-06-29 2016-12-29 Beihang University Method for object segmentation in videos tagged with semantic labels
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
WO2021184852A1 (zh) * 2020-03-16 2021-09-23 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、***、设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160379371A1 (en) * 2015-06-29 2016-12-29 Beihang University Method for object segmentation in videos tagged with semantic labels
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
WO2021184852A1 (zh) * 2020-03-16 2021-09-23 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN113569755A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于对偶关系网络的时序动作定位方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN110175580B (zh) 一种基于时序因果卷积网络的视频行为识别方法
Xu et al. Deep learning for multiple object tracking: a survey
CN110059772B (zh) 基于多尺度解码网络的遥感图像语义分割方法
CN107679465B (zh) 一种基于生成网络的行人重识别数据生成和扩充方法
CN111611847B (zh) 基于尺度注意力空洞卷积网络的视频动作检测方法
Liu et al. Motion-driven visual tempo learning for video-based action recognition
CN108537824B (zh) 基于交替反卷积与卷积的特征图增强的网络结构优化方法
CN113688723A (zh) 一种基于改进YOLOv5的红外图像行人目标检测方法
CN111160163B (zh) 一种基于区域关系建模和信息融合建模的表情识别方法
Zhao et al. A temporal-aware relation and attention network for temporal action localization
CN111178344B (zh) 一种多尺度时序行为识别方法
CN113068131B (zh) 一种用户移动方式和轨迹的预测方法、装置、设备及存储介质
CN113487618A (zh) 人像分割方法、装置、电子设备及存储介质
CN110852199A (zh) 一种基于双帧编码解码模型的前景提取方法
CN115964258A (zh) 基于多时序分析的物联网卡异常行为分级监测方法及***
Zheng et al. Person re-identification in the 3D space
CN113553918B (zh) 一种基于脉冲主动学习的机打***字符识别方法
Zhang et al. A deep learning method for video‐based action recognition
CN114387610A (zh) 一种基于增强特征金字塔网络的任意形状场景文本检测方法
Liu et al. Graph convolution network with node feature optimization using cross attention for few-shot learning
Sun et al. Weak supervised learning based abnormal behavior detection
CN114445732A (zh) 一种面向视频的时间动作检测方法
Huang et al. Multi‐scale feature combination for person re‐identification
Bilan Models and hardware implementation of methods of Pre-processing Images based on the Cellular Automata
CN116110232A (zh) 一种基于分层动态残差图卷积网络的交通流量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination