CN112949544A - 一种基于3d卷积网络的动作时序检测方法 - Google Patents

一种基于3d卷积网络的动作时序检测方法 Download PDF

Info

Publication number
CN112949544A
CN112949544A CN202110285908.1A CN202110285908A CN112949544A CN 112949544 A CN112949544 A CN 112949544A CN 202110285908 A CN202110285908 A CN 202110285908A CN 112949544 A CN112949544 A CN 112949544A
Authority
CN
China
Prior art keywords
action
network
video
time
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110285908.1A
Other languages
English (en)
Inventor
马世伟
刘燕燕
刘望
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110285908.1A priority Critical patent/CN112949544A/zh
Publication of CN112949544A publication Critical patent/CN112949544A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Multimedia (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于3D卷积网络的动作时序检测方法,通过K‑均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络提取动作特征,再将3D卷积反卷积网络与时空特征金字塔结构融合实现多尺度动作帧级别预测,再用卡尔曼滤波对预测结果进行融合以达到预测动作时序的目的。本发明方法对发生在任意位置且具有任意时长的动作进行帧级别的预测,达到了实时性的效果;通过K‑均值聚类最大化动作关键帧之间的信息差异,使3D卷积网络能更为有效地提取到丰富的动作特征信息,提高了分类准确率;3D卷积反卷积网络和时空特征金字塔网络的多尺度融合方案,克服了单一尺度下预测精度不高的问题,预测结果兼具动作整体和动作细节信息,检测精度得到了显著提升。

Description

一种基于3D卷积网络的动作时序检测方法
技术领域
本发明涉及视频图像中人体动作特征提取和分类预测技术领域,具体涉及一种基于3D卷积网络的动作时序检测方法。
背景技术
随着视觉传感器的采集能力和计算机图形图像处理能力的飞速发展,使得计算机通过视觉传感器采集图像视频信息,通过图像处理、模式识别、机器学习等人工智能技术分析图像内容、理解图像中人体动作行为成为可能。要实现从大规模视频数据中分析和理解动作行为,需要有效的人体动作时序检测技术。动作时序检测指的是在一段原始视频中检索出若干动作片段,预测动作发生的起止时间和动作类别的视频处理方法。它是计算机针对视频图像中的人体动作进行智能检测和分类识别的技术,需要同时处理视频数据中的二维图像信息和三维时空信息,在安全监控、智能监护、医疗保健、视频检索、人机交互和智能机器人等领域都具有重要的应用价值。
动作时序检测包括动作特征提取和动作时序提案两个阶段,现有方法不仅严重依赖于对动作的理解和识别的能力,而且由于视频数据结构复杂、目标动作持续时间长度不一,使得时序提案方法存在着对目标动作时序区域检测困难等问题。需要解决大规模视频数据中动作特征的有效提取问题,以及满足帧级别边界判断的高精度时序检测问题。
发明内容
本发明提出了一种基于3D卷积网络的动作时序检测方法,用于对视频图像中人体动作进行特征提取和分类识别预测。本发明方法是实现安全监控、智能监护、人机交互和智能机器人等技术的基础。
为达到上述发明创造目的,本发明采用如下发明构思:
针对任意不限时长的视频检测动作发生的时序信息并判断动作的类别,设计一种基于关键帧的动作提取方法,结合3D卷积网络和时空特征金字塔结构进行多尺度的融合,生成对整体动作及其细节的预测。
首先通过K-均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络提取动作特征,再将3D卷积反卷积网络与时空特征金字塔结构融合实现多尺度动作帧级别预测;然后用卡尔曼滤波对预测结果进行融合,以达到预测动作时序的目的。
根据上述发明构思,本发明采用如下技术方案:
一种基于3D卷积网络的动作时序检测方法,其特征在于:通过K-均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络,提取动作特征;
再将3D卷积反卷积网络与时空特征金字塔结构融合,进行多尺度动作帧级别预测;
最后用卡尔曼滤波对预测结果进行融合,预测动作时序生成提案。
优选地,所述动作特征提取方法包括以下步骤:
1)将视频片段分为训练视频和测试视频,分别在训练阶段和测试阶段作为输入;
2)利用K-均值将视频中相似的运动帧进行聚类,并在每一聚类簇中选择一帧视频帧作为关键帧;
3)将得到的动作关键帧序列输入3D卷积网络,进行时空动作特征提取。
优选地,所述动作时序提案包括以下步骤:
①将经过动作特征提取得到的特征数据输入3D卷积反卷积网络,通过时间维度的上采样还原特征至原输入长度,满足帧级别的预测;
②利用时空金字塔的多尺度特性,对上述3D卷积反卷积网络的中间过程独立输出不同尺度的动作预测,实现对动作的整体预测;
③通过卡尔曼滤波对每个滑窗得到的特征进行时序滤波以提高相邻窗口间的预测动作的连续性,生成时序检测动作提案。
与现有技术相比,本发明具有如下突出的实质性特点和显著的进步:
1.本发明采用基于3D卷积网络的动作时序检测方法,使发生在任意位置且具有任意时长的动作都能够进行帧级别的预测,并且达到了实时性的效果;
2.本发明通过K-均值聚类最大化动作关键帧之间的信息差异,使3D卷积网络能更有效地提取到丰富的动作特征信息,提高分类的准确性;
3.本发明方法融合3D卷积反卷积网络的帧级别预测和时空金字塔网络的多尺度特性,将动作的帧级别预测结果与动作的整体预测结果进行融合,能准确检测动作发生的时序位置,并且检测精度相比单一尺度预测得到了显著的提高。
附图说明
图1为本发明基于3D卷积网络的动作时序检测方法的结构框图。
图2为本发明方法的关键帧提取示意图。
图3为本发明方法的动作特征提取示意图。
图4为本发明方法的多尺度帧级别动作预测示意图。
图5为本发明方法的时序动作检测提案生成示意图。
具体实施方式
下面结合附图对本发明的实施方式作进一步详细描述。
实施例一
在本实施例中,参见图1,一种基于3D卷积网络的动作时序检测方法,通过K-均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络,提取动作特征;
再将3D卷积反卷积网络与时空特征金字塔结构融合,进行多尺度动作帧级别预测;
最后用卡尔曼滤波对预测结果进行融合,预测动作时序生成提案。
本实施例方法用于对视频图像中人体动作进行特征提取和分类识别预测,能实现安全监控、智能监护、人机交互功能。
实施例二
本实施例与实施例一基本相同,特别之处在于:
在本实施例中,所述动作特征提取方法包括以下步骤:
1)将视频片段分为训练视频和测试视频,分别在训练阶段和测试阶段作为输入;
2)利用K-均值将视频中相似的运动帧进行聚类,并在每一聚类簇中选择一帧视频帧作为关键帧;
3)将得到的动作关键帧序列输入3D卷积网络,进行时空动作特征提取。
在本实施例中,所述动作时序提案包括以下步骤:
①将经过动作特征提取得到的特征数据输入3D卷积反卷积网络,通过时间维度的上采样还原特征至原输入长度,满足帧级别的预测;
②利用时空金字塔的多尺度特性,对上述3D卷积反卷积网络的中间过程独立输出不同尺度的动作预测,实现对动作的整体预测;
③通过卡尔曼滤波对每个滑窗得到的特征进行时序滤波以提高相邻窗口间的预测动作的连续性,生成时序检测动作提案。
本实施例方法通过K-均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络提取动作特征,再将3D卷积反卷积网络与时空特征金字塔结构融合实现多尺度动作帧级别预测,用卡尔曼滤波对预测结果进行融合,以达到预测动作时序的目的。本实施例方法采用的3D卷积网络的动作时序检测方法对发生在任意位置且具有任意时长的动作进行帧级别的预测,并且达到了实时性的效果;通过K-均值聚类最大化动作关键帧之间的信息差异,使3D卷积网络能更为有效地提取到丰富的动作特征信息,提高了分类的准确率;采用3D卷积反卷积网络和时空特征金字塔网络的多尺度融合方案,克服了单一尺度下预测精度不高的问题,预测结果兼具动作整体和动作细节信息,检测精度得到了显著提升。
实施例三
本实施例与上述实施例基本相同,特别之处在于:
在本实施例中,如图1所示,一种基于3D卷积网络的动作时序检测方法,步骤如下:
步骤1:对输入视频滑窗生成视频片段。真实自然视频在时间维度上的长度是非常长的,因此对于不限长度的视频进行动作时序检测,需要对视频进行固定长度的滑窗,以便于对每个滑窗进行后续操作。
步骤2:视频动作关键帧提取。视频序列在按视频采样率提取出所有帧图像后,通过K-均值将相似的运动帧进行聚类,并在每一聚类簇中选择一帧视频帧作为关键帧,得到视频的关键帧序列。视频动作关键帧提取可在保证动作完整性的前提下,对冗长的视频去冗余,消除相似的冗余帧,并调整视频的长度。
步骤3:通过3D卷积网络提取动作特性。得到的动作关键帧序列输入3D卷积网络进行时空动作特征提取。网络的初始参数采用预训练模型,经过微调后提取特征。在训练阶段,神经网络通过softmax输出层得到的损失逐层反向传播,通过梯度下降法逐层调整网络参数,使3D卷积网络对输入视频的动作自适应学习特征。在测试阶段,输入的动作关键帧序列经过该网络第5层池化层得到动作特征,用于后续的分类预测任务。
步骤4:基于3D卷积反卷积和时空特征金字塔的多尺度帧级别预测。将通过上述步骤得到的特征数据输入3D卷积反卷积网络,在空间维度下采样的同时在时间维度上采样,还原时间维度。在此基础上,针对基于单一尺度网络帧预测可能丢失整体动作信息的问题,引入时空特征金字塔结构,对3D卷积反卷积网络的中间过程独立输出不同尺度的动作预测,并对多尺度特征融合得到最终的帧级别动作预测。
步骤5:生成时序动作预测提案。由于上述步骤生成的帧级别动作预测结果的相邻窗口之间的动作被滑窗分割,影响了动作提案生成的完整性。使用卡尔曼滤波对帧级别预测结果进行时序滤波,结合历史序列的状态值和当前帧的观测值做出当前帧的最优估计,达到最佳的动作提案生成结果。
如图2所示,本实施例采用视频动作关键帧提取方法步骤为:
将视频序列通过K-均值将相似的运动帧进行聚类,并在每一聚类簇中选择一帧视频帧作为关键帧,得到视频的关键帧序列。
如图3所示,本实施例采用动作特征提取方法的步骤为:
将得到的动作关键帧序列输入3D卷积网络进行时空动作特征提取。
如图4所示,本实施例采用多尺度帧级别动作预测方法的步骤为:
将动作特征数据输入3D卷积反卷积网络和时空特征金字塔结构,得到不同尺度的动作预测,对多尺度特征融合得到最终的帧级别动作预测。
如图5所示,本实施例采用时序动作检测提案生成方法的步骤为:
对帧级别动作预测使用卡尔曼滤波进行时序滤波,做出当前帧的最优估计,达到最佳的动作提案生成结果。
本实施例采用基于3D卷积网络的动作时序检测方法,使发生在任意位置且具有任意时长的动作都能够进行帧级别的预测,并且达到了实时性的效果;本实施例方法通过K-均值聚类最大化动作关键帧之间的信息差异,使3D卷积网络能更有效地提取到丰富的动作特征信息,提高分类的准确性;本实施例方法融合3D卷积反卷积网络的帧级别预测和时空金字塔网络的多尺度特性,将动作的帧级别预测结果与动作的整体预测结果进行融合,能准确检测动作发生的时序位置,并且检测精度相比单一尺度预测得到了显著的提高。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

Claims (3)

1.一种基于3D卷积网络的动作时序检测方法,其特征在于:通过K-均值聚类提取动作发生显著变化的关键帧,利用3D卷积网络,提取动作特征;
再将3D卷积反卷积网络与时空特征金字塔结构融合,进行多尺度动作帧级别预测;
最后用卡尔曼滤波对预测结果进行融合,预测动作时序生成提案。
2.根据权利要求1所述基于3D卷积网络的动作时序检测方法,其特征在于:所述动作特征提取方法包括以下步骤:
1)将视频片段分为训练视频和测试视频,分别在训练阶段和测试阶段作为输入;
2)利用K-均值将视频中相似的运动帧进行聚类,并在每一聚类簇中选择一帧视频帧作为关键帧;
3)将得到的动作关键帧序列输入3D卷积网络,进行时空动作特征提取。
3.根据权利要求1所述基于3D卷积网络的动作时序检测方法,其特征在于:所述动作时序提案包括以下步骤:
①将经过动作特征提取得到的特征数据输入3D卷积反卷积网络,通过时间维度的上采样还原特征至原输入长度,满足帧级别的预测;
②利用时空金字塔的多尺度特性,对上述3D卷积反卷积网络的中间过程独立输出不同尺度的动作预测,实现对动作的整体预测;
③通过卡尔曼滤波对每个滑窗得到的特征进行时序滤波以提高相邻窗口间的预测动作的连续性,生成时序检测动作提案。
CN202110285908.1A 2021-03-17 2021-03-17 一种基于3d卷积网络的动作时序检测方法 Pending CN112949544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110285908.1A CN112949544A (zh) 2021-03-17 2021-03-17 一种基于3d卷积网络的动作时序检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110285908.1A CN112949544A (zh) 2021-03-17 2021-03-17 一种基于3d卷积网络的动作时序检测方法

Publications (1)

Publication Number Publication Date
CN112949544A true CN112949544A (zh) 2021-06-11

Family

ID=76229361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110285908.1A Pending CN112949544A (zh) 2021-03-17 2021-03-17 一种基于3d卷积网络的动作时序检测方法

Country Status (1)

Country Link
CN (1) CN112949544A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345061A (zh) * 2021-08-04 2021-09-03 成都市谛视科技有限公司 动作补全模型的训练方法、装置、补全方法、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109541583A (zh) * 2018-11-15 2019-03-29 众安信息技术服务有限公司 一种前车距离检测方法及***
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN111291647A (zh) * 2020-01-21 2020-06-16 陕西师范大学 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN111898514A (zh) * 2020-07-24 2020-11-06 燕山大学 一种基于目标检测与动作识别的多目标视觉监管方法
CN112101243A (zh) * 2020-09-17 2020-12-18 四川轻化工大学 一种基于关键姿势和dtw的人体动作识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109541583A (zh) * 2018-11-15 2019-03-29 众安信息技术服务有限公司 一种前车距离检测方法及***
CN109947986A (zh) * 2019-03-18 2019-06-28 东华大学 基于结构化分段卷积神经网络的红外视频时序定位方法
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN111291647A (zh) * 2020-01-21 2020-06-16 陕西师范大学 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN111898514A (zh) * 2020-07-24 2020-11-06 燕山大学 一种基于目标检测与动作识别的多目标视觉监管方法
CN112101243A (zh) * 2020-09-17 2020-12-18 四川轻化工大学 一种基于关键姿势和dtw的人体动作识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIU WANG等: ""Video action recognition based on improved 3D convolutional network and sparse representation classification"", 《PROCEEDINGS OF SPIE》 *
刘望等: ""基于时空特征金字塔网络的动作时序检测方法"", 《***仿真学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345061A (zh) * 2021-08-04 2021-09-03 成都市谛视科技有限公司 动作补全模型的训练方法、装置、补全方法、设备和介质

Similar Documents

Publication Publication Date Title
CN109446923B (zh) 基于训练特征融合的深度监督卷积神经网络行为识别方法
CN108491077B (zh) 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法
CN111079646A (zh) 基于深度学习的弱监督视频时序动作定位的方法及***
Du et al. Hierarchical recurrent neural network for skeleton based action recognition
CN108764059B (zh) 一种基于神经网络的人体行为识别方法及***
CN109858406B (zh) 一种基于关节点信息的关键帧提取方法
CN108399435B (zh) 一种基于动静特征的视频分类方法
CN109858407B (zh) 一种基于多种信息流特征和异步融合的视频行为识别方法
CN110569843B (zh) 一种矿井目标智能检测与识别方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
Su et al. HDL: Hierarchical deep learning model based human activity recognition using smartphone sensors
CN110991278A (zh) 计算机视觉***的视频中人体动作识别方法和装置
CN111738218A (zh) 人体异常行为识别***及方法
CN109614896A (zh) 一种基于递归卷积神经网络的视频内容语义理解的方法
CN109993770A (zh) 一种自适应时空学习与状态识别的目标跟踪方法
CN113065515A (zh) 基于相似度图神经网络的异常行为智能检测方法及***
Lorenzo et al. Intformer: Predicting pedestrian intention with the aid of the transformer architecture
Patil et al. An approach of understanding human activity recognition and detection for video surveillance using HOG descriptor and SVM classifier
CN116956222A (zh) 一种基于自适应特征提取的多复杂度行为识别***及方法
CN109002808B (zh) 一种人体行为识别方法及***
CN112949544A (zh) 一种基于3d卷积网络的动作时序检测方法
CN106562771B (zh) 一种面向嵌入式平台的宠物睡眠识别方法
CN113343760A (zh) 一种基于多尺度特征神经网络的人体行为识别方法
Sun et al. Weak supervised learning based abnormal behavior detection
CN110659630A (zh) 一种基于骨架点轨迹动态分析的视频人体异常行为检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210611

RJ01 Rejection of invention patent application after publication