CN114821766A

CN114821766A - 一种基于时空卷积和时间序列特征融合的行为识别方法

Info

Publication number: CN114821766A
Application number: CN202210229686.6A
Authority: CN
Inventors: 李宏亮; 黄俊强; 董建伟; 盛一航; 任子奕
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-07-29

Abstract

本发明针对单一数据形式下行为识别下特征提取不充分的问题，提供一种基于时空卷积和时间序列特征融合的行为识别方法，先获取视频流数据以及来自惯性传感器的运动数据，再从视频流数据提取出基于时空卷积的高层时空语义特征；同时，从运动数据流提取出基于时间序列的深层运动特征；将高层时空语义特征和深层运动特征进行融合得到融合特征，将融合特征输入多层感知器MLP映射得到输出值，输出值经Softmax完成行为识别分类。本发明基于两种特征融合的方式完成行为识别，弥补了主流算法使用单一特征缺失信息的缺点，并通过自注意力模块捕获关键时刻的动作特征，提升了网络对异常和突发行为的识别准确度。

Description

一种基于时空卷积和时间序列特征融合的行为识别方法

技术领域

本发明涉及基于多模态的特征融合的行为识别技术，属于深度学习领域。

背景技术

随着电子和计算机技术的发展，智能可穿戴设备的智能性和实用性在逐步提升。目前众多高科技公司推出了轻便的智能眼镜，如苹果智能眼镜，谷歌智能眼镜等。智能设备使得人们能够以第一视角的形式记录下日常生活，并通过惯性传感器记录日常的活动数据。这些数据拥有着难以估计的潜在价值，能被用来提升人们的生活质量，更能够缓解全球老年化背景下的老年人失护失陪的社会压力。行为识别作为人工智能领域中的一个热点，行为识别可以记录行为，识别行为，还可以对异常行为做出警示，起到看护和急救预警的功能。

目前，基于深度学习和神经网络的行为识别的算法已经被广泛使用，其中基于时空卷积的3D卷积神经网络对视频提取特征是行为识别方法的一个重要分支。此外，使用循环卷积神经网络RNN对惯性传感器数据提取运动特征是行为识别的另外一个分支。

视频数据是具有三个维度(时间、空间)的复杂多维数据，时间结构中往往蕴含着当前日常动作的高层抽象信息，视频数据会记录下运动背景和人体整体动作。使用时空卷积网络3D卷积神经网络，可以提取视频流的深层语义信息，且不丢失动作的时间相关信息。3D卷积神经网络通常是把2D卷积网络如Resnet， Inception等网络膨胀，结构类型，但多出时间维度，以此来提升对动作时间特征的捕捉能力。惯性传感器数据包含陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度，陀螺仪和加速度计采集运动者三个轴方向上的角度和加速度数据，是T*6的时序连续信息，侧重记录肢体运动的物理量变化情况。使用循环卷积神经网络RNN可以提取出动作时序变化特征，完成不同的肢体动作识别。

在目前的主流算法中，只采用3D卷积网络提取视频流特征来完成行为识别，而视频中包含的无用背景信息是提取动作特征的阻碍。基于当前的显卡算力，3D 卷积网络通常只能在成视频中的上千帧图像中下采样出16张或32张图片，并不能包含所有的时刻，对于长视频无法完整提取动作的时间相关信息，从而导致行为识别难度增加。少数部分研究会采用RNN对惯性传感器数据提取动作时序变化特征来完成行为识别，而惯性传感器数据只包含肢体运动物理量变化，没有任何背景信息，对于变化和节奏相似动作难以较好的区分。

发明内容

本发明要解决的技术问题是，针对单一数据形式下行为识别下特征提取不充分的问题，提供一种联合地将视频数据和惯性传感器数据运动特征和有用背景特征提取出来，利用混合结构的神经网络提升行为识别的准确率的方法。

本发明为解决上述问题所采用的技术方案是：一种基于时空卷积和时间序列特征融合的行为识别方法，包括以下步骤：

1)获取视频流数据以及来自惯性传感器的运动数据流；

2)对视频流数据提取帧图像的全局空间特征，再将全局空间特征送入到池化层进行特征压缩，将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征；同时，将运动数据流送入双层双向BiLSTM，结合所有时刻的隐藏层特征提取肢体运动特征，将肢体运动特征输入双头的自注意力机制从而有权重的加强关键时刻的运动信息，再通过全连接前馈网络与归一化后输出基于时间序列的深层运动特征；

3)将高层时空语义特征和深层运动特征进行融合得到融合特征，将融合特征输入多层感知器MLP映射得到输出值，输出值经Softmax完成行为识别分类。

本发明的有益效果是，通过时空卷积网络和时序循环卷积网络联合地从视频流数据和惯性传感器流数据中提取高层时空语义特征和深层次的运动特征，并基于两种特征融合的方式完成行为识别，弥补了主流算法使用单一特征缺失信息的缺点，并通过自注意力模块捕获关键时刻的动作特征，提升了网络对异常和突发行为的识别准确度。

附图说明

图1为实施实例流程图；

图2为3D卷积模块示意图；

图3为融合模块处理示意图。

具体实施方式

实施例主要在linux平台上进行实现的，网络训练在TITANX显卡上完本发明首先需要构建视频及惯性传感器数据混合的行为识别集数据集，本发明采用快眼威视的智能眼镜，基于Socket网络套接字开发了远程采集视频数据和惯性传感器数据的程序，最后通过头戴式的方式完成日常行为数据集的拍摄。

实现行为识别主要包括3步：

1.对输入的视频进行下采样、裁减、数据增强得到视频流数据，同时对输入的惯性传感器数据进行滤波、去除异常值、归一化得到运动数据流。

2.将视频流数据经3D卷积提取帧图像的全局空间特征，再将全局空间特征送入到池化层进行特征压缩，将压缩后的全局空间特征送3D卷积网络中提取出基于时空卷积的高层时空语义特征；同时，将运动数据流送入垂直结构的双层双向BiLSTM并结合所有时刻的运动变化，从双层双向BiLSTM的隐藏层中提取肢体运动特征，将肢体运动特征送入双头的自注意力机制模块，有权重的加强关键时刻的运动信息，再通过全连接前馈网络FFN使得网络对长序列注意力训练更稳定，最后通过LayerNorm层归一化输出基于时间序列的深层运动特征；

3)将高层时空语义特征和深层运动特征进行融合,将融合特征输入多层感知器MLP中完成特征分类，最后通过Softmax识别行为。

实施例的具体网络算法如图1所示主要包含以下几个步骤：视频支路网络提取视频的深层时空语义特征，运动传感器支路提取动作时序变化特征，融合网络模块将两个支路特征融合起来，最后通过联合特征谱完成行为识别训练。

视频支路网络具体实施如下：

第一步：通过随机帧采样算法从视频中采样32帧图像，将图像裁剪至 224x224大小，裁减方法包含中心裁剪，随机裁剪，随机长宽比裁剪，然后将图像随机水平翻转、随机垂直翻转和随机旋转。

第二步：将得到的数据流输入到64通道的1x7x7卷积得到全局空间特征，卷积步长时间维度为1，空间维度上为2x2，再将全局空间特征输入到1x3x3的 max池化层，进行特征压缩得到压缩后的全局空间特征。

第三步：将压缩后的全局空间特征送入到3D卷积网络中得到高层时空语义特征，3D卷积网络可以是3D Resnet，也可以是3D Inception结构。本实施例采用4个3D残差结构Rsenet组模块，一个3D Rsenet组模块如图2示，是由1x1x1 卷积，1x3x3卷积和1x1x1卷积组成的3D残差结构。高层时空语义特征作为视频路特征。

运动传感器支路网络具体实施如下：

第一步：将T*6的陀螺仪和加速度传感器数据通过滤波处理传感器采样噪声和异常值。

第二步：将过滤好的运动数据流送入垂直结构的双层双向BiLSTM，隐藏层特征维度为256，结合所有时刻的隐藏层特征，从隐藏层中提取肢体运动特征。

第三步：如图2所示，将得到的肢体运动特征，送入双头的自注意力 Self-attention模块中，有权重的对关键时刻的肢体运动特征进行打分，再仿照残差结构通过全连接前馈网络FFN。使得网络对长序列注意力训练更稳定，最后通过LayerNorm层归一化输出深层运动特征。深层运动特征作为传感器路特征。

其中注意力权重计算公式为：

通过算出来的权重得分矩阵就可以加强对关键时刻的肢体运动特征的捕获能力。

融合网络模块具体实施如图3所示：将视频路特征和传感器路特征分别通过 1x1卷积匹配特征维度，再通过Embedding的方法将两路特征谱融合,并使用MLP 网络将融合特征映射为输出值，最后将输出值通过Softmax生成行为识别结果。

本实施例训练采用Adam梯度下降法进行网络参数更新与训练，学习率则采用余弦方法先增加后下降来调整参数的学习步进。

Claims

1.一种基于时空卷积和时间序列特征融合的行为识别方法，其特征在于，包括以下步骤：

1)获取视频流数据以及来自惯性传感器的运动数据流；

2.如权利要求1所述方法，其特征在于，获取视频流数据的具体方法是，对输入的视频进行下采样、裁减、数据增强得到视频流数据；

获取运动数据流的具体方法是，对输入的惯性传感器数据进行滤波、去除异常值、归一化得到运动数据流。

3.如权利要求1所述方法，其特征在于，将视频流数据经1x7x7的卷积提取帧图像的全局空间特征；

将全局空间特征送入到1x3x3的max池化层进行特征压缩。

4.如权利要求1所述方法，其特征在于，3D卷积网络采用顺序串联4个3D残差结构组模块的形式。

5.如权利要求4所述方法，其特征在于，一个3D残差结构组模块是由1x1x1卷积，1x3x3卷积和1x1x1卷积组成的3D残差结构。