CN114821766A - 一种基于时空卷积和时间序列特征融合的行为识别方法 - Google Patents

一种基于时空卷积和时间序列特征融合的行为识别方法 Download PDF

Info

Publication number
CN114821766A
CN114821766A CN202210229686.6A CN202210229686A CN114821766A CN 114821766 A CN114821766 A CN 114821766A CN 202210229686 A CN202210229686 A CN 202210229686A CN 114821766 A CN114821766 A CN 114821766A
Authority
CN
China
Prior art keywords
features
motion
time
convolution
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210229686.6A
Other languages
English (en)
Inventor
李宏亮
黄俊强
董建伟
盛一航
任子奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210229686.6A priority Critical patent/CN114821766A/zh
Publication of CN114821766A publication Critical patent/CN114821766A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

本发明针对单一数据形式下行为识别下特征提取不充分的问题,提供一种基于时空卷积和时间序列特征融合的行为识别方法,先获取视频流数据以及来自惯性传感器的运动数据,再从视频流数据提取出基于时空卷积的高层时空语义特征;同时,从运动数据流提取出基于时间序列的深层运动特征;将高层时空语义特征和深层运动特征进行融合得到融合特征,将融合特征输入多层感知器MLP映射得到输出值,输出值经Softmax完成行为识别分类。本发明基于两种特征融合的方式完成行为识别,弥补了主流算法使用单一特征缺失信息的缺点,并通过自注意力模块捕获关键时刻的动作特征,提升了网络对异常和突发行为的识别准确度。

Description

一种基于时空卷积和时间序列特征融合的行为识别方法
技术领域
本发明涉及基于多模态的特征融合的行为识别技术,属于深度学习领域。
背景技术
随着电子和计算机技术的发展,智能可穿戴设备的智能性和实用性在逐步提升。目前众多高科技公司推出了轻便的智能眼镜,如苹果智能眼镜,谷歌智能眼镜等。智能设备使得人们能够以第一视角的形式记录下日常生活,并通过惯性传感器记录日常的活动数据。这些数据拥有着难以估计的潜在价值,能被用来提升人们的生活质量,更能够缓解全球老年化背景下的老年人失护失陪的社会压力。行为识别作为人工智能领域中的一个热点,行为识别可以记录行为,识别行为,还可以对异常行为做出警示,起到看护和急救预警的功能。
目前,基于深度学习和神经网络的行为识别的算法已经被广泛使用,其中基于时空卷积的3D卷积神经网络对视频提取特征是行为识别方法的一个重要分支。此外,使用循环卷积神经网络RNN对惯性传感器数据提取运动特征是行为识别的另外一个分支。
视频数据是具有三个维度(时间、空间)的复杂多维数据,时间结构中往往蕴含着当前日常动作的高层抽象信息,视频数据会记录下运动背景和人体整体动作。使用时空卷积网络3D卷积神经网络,可以提取视频流的深层语义信息,且不丢失动作的时间相关信息。3D卷积神经网络通常是把2D卷积网络如Resnet, Inception等网络膨胀,结构类型,但多出时间维度,以此来提升对动作时间特征的捕捉能力。惯性传感器数据包含陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度,陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度数据,是T*6的时序连续信息,侧重记录肢体运动的物理量变化情况。使用循环卷积神经网络RNN可以提取出动作时序变化特征,完成不同的肢体动作识别。
在目前的主流算法中,只采用3D卷积网络提取视频流特征来完成行为识别,而视频中包含的无用背景信息是提取动作特征的阻碍。基于当前的显卡算力,3D 卷积网络通常只能在成视频中的上千帧图像中下采样出16张或32张图片,并不能包含所有的时刻,对于长视频无法完整提取动作的时间相关信息,从而导致行为识别难度增加。少数部分研究会采用RNN对惯性传感器数据提取动作时序变化特征来完成行为识别,而惯性传感器数据只包含肢体运动物理量变化,没有任何背景信息,对于变化和节奏相似动作难以较好的区分。
发明内容
本发明要解决的技术问题是,针对单一数据形式下行为识别下特征提取不充分的问题,提供一种联合地将视频数据和惯性传感器数据运动特征和有用背景特征提取出来,利用混合结构的神经网络提升行为识别的准确率的方法。
本发明为解决上述问题所采用的技术方案是:一种基于时空卷积和时间序列特征融合的行为识别方法,包括以下步骤:
1)获取视频流数据以及来自惯性传感器的运动数据流;
2)对视频流数据提取帧图像的全局空间特征,再将全局空间特征送入到池化层进行特征压缩,将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征;同时,将运动数据流送入双层双向BiLSTM,结合所有时刻的隐藏层特征提取肢体运动特征,将肢体运动特征输入双头的自注意力机制从而有权重的加强关键时刻的运动信息,再通过全连接前馈网络与归一化后输出基于时间序列的深层运动特征;
3)将高层时空语义特征和深层运动特征进行融合得到融合特征,将融合特征输入多层感知器MLP映射得到输出值,输出值经Softmax完成行为识别分类。
本发明的有益效果是,通过时空卷积网络和时序循环卷积网络联合地从视频流数据和惯性传感器流数据中提取高层时空语义特征和深层次的运动特征,并基于两种特征融合的方式完成行为识别,弥补了主流算法使用单一特征缺失信息的缺点,并通过自注意力模块捕获关键时刻的动作特征,提升了网络对异常和突发行为的识别准确度。
附图说明
图1为实施实例流程图;
图2为3D卷积模块示意图;
图3为融合模块处理示意图。
具体实施方式
实施例主要在linux平台上进行实现的,网络训练在TITANX显卡上完本发明首先需要构建视频及惯性传感器数据混合的行为识别集数据集,本发明采用快眼威视的智能眼镜,基于Socket网络套接字开发了远程采集视频数据和惯性传感器数据的程序,最后通过头戴式的方式完成日常行为数据集的拍摄。
实现行为识别主要包括3步:
1.对输入的视频进行下采样、裁减、数据增强得到视频流数据,同时对输入的惯性传感器数据进行滤波、去除异常值、归一化得到运动数据流。
2.将视频流数据经3D卷积提取帧图像的全局空间特征,再将全局空间特征送入到池化层进行特征压缩,将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征;同时,将运动数据流送入垂直结构的双层双向BiLSTM并结合所有时刻的运动变化,从双层双向BiLSTM的隐藏层中提取肢体运动特征,将肢体运动特征送入双头的自注意力机制模块,有权重的加强关键时刻的运动信息,再通过全连接前馈网络FFN使得网络对长序列注意力训练更稳定,最后通过LayerNorm层归一化输出基于时间序列的深层运动特征;
3)将高层时空语义特征和深层运动特征进行融合,将融合特征输入多层感知器MLP中完成特征分类,最后通过Softmax识别行为。
实施例的具体网络算法如图1所示主要包含以下几个步骤:视频支路网络提取视频的深层时空语义特征,运动传感器支路提取动作时序变化特征,融合网络模块将两个支路特征融合起来,最后通过联合特征谱完成行为识别训练。
视频支路网络具体实施如下:
第一步:通过随机帧采样算法从视频中采样32帧图像,将图像裁剪至 224x224大小,裁减方法包含中心裁剪,随机裁剪,随机长宽比裁剪,然后将图像随机水平翻转、随机垂直翻转和随机旋转。
第二步:将得到的数据流输入到64通道的1x7x7卷积得到全局空间特征,卷积步长时间维度为1,空间维度上为2x2,再将全局空间特征输入到1x3x3的 max池化层,进行特征压缩得到压缩后的全局空间特征。
第三步:将压缩后的全局空间特征送入到3D卷积网络中得到高层时空语义特征,3D卷积网络可以是3D Resnet,也可以是3D Inception结。本实施例采用4个3D残差结构Rsenet组模块,一个3D Rsenet组模块如图2示,是由1x1x1 卷积,1x3x3卷积和1x1x1卷积组成的3D残差结构。高层时空语义特征作为视频路特征。
运动传感器支路网络具体实施如下:
第一步:将T*6的陀螺仪和加速度传感器数据通过滤波处理传感器采样噪声和异常值。
第二步:将过滤好的运动数据流送入垂直结构的双层双向BiLSTM,隐藏层特征维度为256,结合所有时刻的隐藏层特征,从隐藏层中提取肢体运动特征。
第三步:如图2所示,将得到的肢体运动特征,送入双头的自注意力 Self-attention模块中,有权重的对关键时刻的肢体运动特征进行打分,再仿照残差结构通过全连接前馈网络FFN。使得网络对长序列注意力训练更稳定,最后通过LayerNorm层归一化输出深层运动特征。深层运动特征作为传感器路特征。
其中注意力权重计算公式为:
Figure BDA0003540056220000041
通过算出来的权重得分矩阵就可以加强对关键时刻的肢体运动特征的捕获能力。
融合网络模块具体实施如图3所示:将视频路特征和传感器路特征分别通过 1x1卷积匹配特征维度,再通过Embedding的方法将两路特征谱融合,并使用MLP 网络将融合特征映射为输出值,最后将输出值通过Softmax生成行为识别结果。
本实施例训练采用Adam梯度下降法进行网络参数更新与训练,学习率则采用余弦方法先增加后下降来调整参数的学习步进。

Claims (5)

1.一种基于时空卷积和时间序列特征融合的行为识别方法,其特征在于,包括以下步骤:
1)获取视频流数据以及来自惯性传感器的运动数据流;
2)对视频流数据提取帧图像的全局空间特征,再将全局空间特征送入到池化层进行特征压缩,将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征;同时,将运动数据流送入双层双向BiLSTM,结合所有时刻的隐藏层特征提取肢体运动特征,将肢体运动特征输入双头的自注意力机制从而有权重的加强关键时刻的运动信息,再通过全连接前馈网络与归一化后输出基于时间序列的深层运动特征;
3)将高层时空语义特征和深层运动特征进行融合得到融合特征,将融合特征输入多层感知器MLP映射得到输出值,输出值经Softmax完成行为识别分类。
2.如权利要求1所述方法,其特征在于,获取视频流数据的具体方法是,对输入的视频进行下采样、裁减、数据增强得到视频流数据;
获取运动数据流的具体方法是,对输入的惯性传感器数据进行滤波、去除异常值、归一化得到运动数据流。
3.如权利要求1所述方法,其特征在于,将视频流数据经1x7x7的卷积提取帧图像的全局空间特征;
将全局空间特征送入到1x3x3的max池化层进行特征压缩。
4.如权利要求1所述方法,其特征在于,3D卷积网络采用顺序串联4个3D残差结构组模块的形式。
5.如权利要求4所述方法,其特征在于,一个3D残差结构组模块是由1x1x1卷积,1x3x3卷积和1x1x1卷积组成的3D残差结构。
CN202210229686.6A 2022-03-10 2022-03-10 一种基于时空卷积和时间序列特征融合的行为识别方法 Pending CN114821766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210229686.6A CN114821766A (zh) 2022-03-10 2022-03-10 一种基于时空卷积和时间序列特征融合的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210229686.6A CN114821766A (zh) 2022-03-10 2022-03-10 一种基于时空卷积和时间序列特征融合的行为识别方法

Publications (1)

Publication Number Publication Date
CN114821766A true CN114821766A (zh) 2022-07-29

Family

ID=82529387

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210229686.6A Pending CN114821766A (zh) 2022-03-10 2022-03-10 一种基于时空卷积和时间序列特征融合的行为识别方法

Country Status (1)

Country Link
CN (1) CN114821766A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912645A (zh) * 2023-03-29 2024-04-19 安徽医科大学第一附属医院 一种基于物联网的血液保存全流程监管方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291707A (zh) * 2020-02-24 2020-06-16 南京甄视智能科技有限公司 异常行为的识别方法、装置、存储介质及服务器
CN111680660A (zh) * 2020-06-17 2020-09-18 郑州大学 基于多源异构数据流的人体行为检测方法
CN113627326A (zh) * 2021-08-10 2021-11-09 国网福建省电力有限公司营销服务中心 一种基于可穿戴设备和人体骨架的行为识别方法
CN113691542A (zh) * 2021-08-25 2021-11-23 中南林业科技大学 基于HTTP请求文本的Web攻击检测方法及相关设备
CN113743362A (zh) * 2021-09-17 2021-12-03 平安医疗健康管理股份有限公司 基于深度学习的实时矫正训练动作的方法及其相关设备
CN113869189A (zh) * 2021-09-24 2021-12-31 华中科技大学 人体行为识别方法、***、设备及介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291707A (zh) * 2020-02-24 2020-06-16 南京甄视智能科技有限公司 异常行为的识别方法、装置、存储介质及服务器
CN111680660A (zh) * 2020-06-17 2020-09-18 郑州大学 基于多源异构数据流的人体行为检测方法
CN113627326A (zh) * 2021-08-10 2021-11-09 国网福建省电力有限公司营销服务中心 一种基于可穿戴设备和人体骨架的行为识别方法
CN113691542A (zh) * 2021-08-25 2021-11-23 中南林业科技大学 基于HTTP请求文本的Web攻击检测方法及相关设备
CN113743362A (zh) * 2021-09-17 2021-12-03 平安医疗健康管理股份有限公司 基于深度学习的实时矫正训练动作的方法及其相关设备
CN113869189A (zh) * 2021-09-24 2021-12-31 华中科技大学 人体行为识别方法、***、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117912645A (zh) * 2023-03-29 2024-04-19 安徽医科大学第一附属医院 一种基于物联网的血液保存全流程监管方法及***

Similar Documents

Publication Publication Date Title
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
Reddy et al. Spontaneous facial micro-expression recognition using 3D spatiotemporal convolutional neural networks
Gao et al. Human action monitoring for healthcare based on deep learning
CN111539389B (zh) 人脸防伪识别方法、装置、设备及存储介质
CN112818931A (zh) 基于多粒度深度特征融合的多尺度行人重识别方法
CN113780249B (zh) 表情识别模型的处理方法、装置、设备、介质和程序产品
US20200311962A1 (en) Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
CN111488805A (zh) 一种基于显著性特征提取的视频行为识别方法
CN111797702A (zh) 基于空间局部二值模式与光流梯度的人脸伪造视频检测方法
CN116311525A (zh) 一种基于跨模态融合的视频行为识别方法
CN113627256A (zh) 基于眨眼同步及双目移动检测的伪造视频检验方法及***
Li et al. Dynamic long short-term memory network for skeleton-based gait recognition
CN113673308A (zh) 对象识别方法、装置和电子***
CN110782503B (zh) 一种基于两分支深度相关网络的人脸图像合成方法和装置
CN114821766A (zh) 一种基于时空卷积和时间序列特征融合的行为识别方法
CN113626785B (zh) 基于用户指纹按压行为的指纹认证安全增强方法及***
CN115471901A (zh) 基于生成对抗网络的多姿态人脸正面化方法及***
CN115731620A (zh) 检测对抗攻击的方法和训练对抗攻击检测模型的方法
CN113205044B (zh) 一种基于表征对比预测学习的深度伪造视频检测方法
Gu et al. Depth MHI based deep learning model for human action recognition
CN115205966A (zh) 一种用于手语识别的时空Transformer动作识别方法
Deshpande et al. Abnormal Activity Recognition with Residual Attention-based ConvLSTM Architecture for Video Surveillance.
CN114360034A (zh) 基于三胞胎网络的深度伪造人脸检测方法、***及设备
Veerashetty et al. Texture-based face recognition using grasshopper optimization algorithm and deep convolutional neural network
CN115708135A (zh) 人脸识别模型的处理方法、人脸识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination