CN109753897B

CN109753897B - 基于记忆单元强化-时序动态学习的行为识别方法

Info

Publication number: CN109753897B
Application number: CN201811569882.8A
Authority: CN
Inventors: 袁媛; 王�琦; 王栋
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2022-05-27
Anticipated expiration: 2038-12-21
Also published as: CN109753897A

Abstract

本发明公开了一种基于记忆单元强化‑时序动态学***均94.8％的识别准确率。

Description

基于记忆单元强化-时序动态学习的行为识别方法

技术领域

本发明涉及一种行为识别方法，特别涉及一种基于记忆单元强化-时序动态学习的行为识别方法。

背景技术

文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.V.Gool.TemporalSegment Networks:Towards Good Practices for Deep Action Recognition,InProceedings of European Conference on Computer Vision,pp.20–36,2016.”公开了一种基于双流卷积神经网络与时序片段网络的人物行为识别方法。该方法利用两个独立的卷积神经网络来解决行为识别任务，其中，空间流网络从视频帧中提取目标的表观特征，而时序流网络则从对应的光流场数据中提取目标的运动特征，通过融合这两个网络输出得到行为识别结果。同时，该方法提出时序片段网络来建模视频序列的长时时序结构信息，该网络通过稀疏时序采样策略与序列尺度的监督学习，实现了整个神经网络的高效有效学习，并在大规模公开数据集上取得了较好的结果。文献所述方法对视频中的时序建模较为粗糙，使得网络在学习过程中往往会忽略特征的时序关联性；在视频序列较长及未剪辑时，该方法会将无关的噪音信息融入最终识别结果，降低人物行为识别的准确率，同时噪音信息的加入，也会使得整个神经网络的训练学习变得困难。

发明内容

为了克服现有行为识别方法实用性差的不足，本发明提供一种基于记忆单元强化-时序动态学***均94.8％、71.8％的识别准确率。

本发明解决其技术问题所采用的技术方案：一种基于记忆单元强化-时序动态学习的行为识别方法，其特点是包括以下步骤：

步骤一、计算视频帧I_a的光流信息，其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图I_m。利用两个独立思维卷积神经网络提取各自的高维语义特征：

x_a＝CNN_a(I_a；w_a) (1)

x_m＝CNN_m(I_m；w_m) (2)

其中，CNN_a、CNN_m分别代表表观卷积神经网络与运动卷积神经网络，用以提取视频帧I_a与光流图I_m的高维特征。x_a、x_m分别为2048维向量，代表卷积神经网络提取出的表观与运动特征。w_a、w_m表示两个卷积神经网络的内部可训练参数。利用x表示卷积神经网络提取出的高维特征。

步骤二、初始化记忆单元M为空，表示为M₀。假设第t视频帧时，记忆单元M_t不为空，其中包含N_t>0个元素，分别表示为m₁,m₂,...m_Nt。那么，对应时刻的记忆模块读取操作如下：

其中，读取出的mh_t代表视频前t时刻的历史信息。

步骤三、利用片段式递归神经网络，提取视频内容的短时上下文特征。以步骤一计算得到的高维语义特征x作为输入，对应第t视频帧时的特征记为x_t。初始化长短时递归神经网络(LSTM)的隐状态h₀、c₀为零，则t时刻的短时上下文特征计算如下：

其中，LSTM()表示长短时递归神经网络，h_t-1,c_t-1表示递归神经网络前一时刻的隐状态。而

作为视频内容的短时上下文特征用于后续计算。

步骤四、对于每一视频帧，步骤一、二、三计算得到的高维语义特征x_t，记忆单元历史信息mh_t以及短时上下文特征

输入记忆单元控制器，计算得到二值化记忆单元写入指令s_t∈{0,1}，具体如下：

a_t＝σ(q_t) (6)

s_t＝τ(a_t) (7)

其中，v^T为可学习的行向量参数，W_f、W_c、W_m为可学习的权重参数，b_s为偏置参数。sigmoid函数σ()将线性加权的结果q_t归一化到0,1之间，即a_t∈(0,1)。a_t输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令s_t。

步骤五、基于二值化记忆单元写入指令s_t，更新记忆单元与片段式递归神经网络。对于每一视频帧，记忆单元M_t的更新策略如下：

其中，W_w为可学习权重矩阵，该矩阵通过乘法运算将高维语义特征x_t转换为记忆单元元素

表示将

写入记忆单元M_t-1，形成新的记忆单元M_t。此外，片段式递归神经网络的隐状态h_t，c_t更新如下：

其中，

为式(4)计算得到的结果。

步骤六、利用记忆单元进行行为分类。假设视频总长为T，整个视频处理结束时记忆单元为M_T，其中有N_T个元素，则整个视频的特征表示f为：

其中，f为D维向量，代表视频中行为类别的信息。该特征输入全连接分类层得到行为类别得分y，具体如下：

y＝softmax(W·f) (12)

其中，W∈R^C×D，C表示可识别的行为类别总数。计算得到的y表示***对各个类别的分类得分，得分越高表示越有可能是该类行为。假设y_a、y_m分别表示表观与运动神经网络得到的得分，则最终得分y_f如下：

y_f＝y_a+y_m (13)

其中，y_f表示最终人物行为识别结果。

本发明的有益效果是：该方法采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息，通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧，将相关帧的信息写入记忆单元同时忽略噪音帧信息，该方法能够滤掉未剪辑视频中大量的噪音信息，提升后继行为识别的准确率。此外，融合记忆单元的递归神经网络可以实现大跨度时序结构的连接，通过数据驱动的自主训练学***均94.8％、71.8％的识别准确率。

下面结合附图和具体实施方式对本发明作详细说明。

附图说明

图1是本发明基于记忆单元强化-时序动态学习的行为识别方法的流程图。

具体实施方式

参照图1。本发明基于记忆单元强化-时序动态学习的行为识别方法具体步骤如下：

步骤一、提取蕴含语义信息的高维表观与运动特征。首先，计算视频帧I_a的光流信息，其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图I_m。然后，利用两个独立思维卷积神经网络提取各自的高维语义特征：

x_a＝CNN_a(I_a；w_a) (1)

x_m＝CNN_m(I_m；w_m) (2)

其中CNN_a、CNN_m分别代表表观卷积神经网络与运动卷积神经网络，用以提取视频帧I_a与光流图I_m的高维特征。x_a、x_m分别为2048维向量，代表卷积神经网络提取出的表观与运动特征。w_a、w_m表示两个卷积神经网络的内部可训练参数。由于表观神经网络与运动神经网络的后续操作完全一致，为使得标号简单清晰，利用x表示卷积神经网络提取出的高维特征。

步骤二、初始化记忆单元M为空，表示为M₀。假设第t视频帧时，记忆单元M_t不为空，其中包含N_t>0个元素，分别表示为

那么，对应时刻的记忆模块读取操作如下：

其中读取出的mh_t代表了视频前t时刻的历史信息，同时该历史信息影响了此时刻视频内容的分析与理解。

步骤三、利用片段式递归神经网络，提取视频内容的短时上下文特征。以步骤一计算得到的高维语义特征x作为输入，对应第t视频帧时的特征记为x_t。首先，初始化长短时递归神经网络(LSTM)的隐状态h₀、c₀为零，则t时刻的短时上下文特征计算如下：

其中LSTM()表示长短时递归神经网络，h_t-1,c_t-1表示递归神经网络前一时刻的隐状态。而

作为视频内容的短时上下文特征用于后续计算。

步骤四、离散化记忆单元写入控制器。对于每一视频帧，步骤1,2,3计算得到的高维语义特征x_t，记忆单元历史信息mh_t以及短时上下文特征

a_t＝σ(q_t) (6)

s_t＝τ(a_t) (7)

其中v^T为可学习的行向量参数，W_f、W_c、W_m为可学习的权重参数，b_s为偏置参数。由上可看出，sigmoid函数σ()将线性加权的结果q_t归一化到0,1之间，即a_t∈(0,1)。其次，a_t输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令s_t。

其中W_w为可学习权重矩阵，该矩阵通过乘法运算将高维语义特征x_t转换为记忆单元元素

表示将

其中

为式(4)计算得到的结果。

其中f为D维向量，代表了视频中行为类别的信息。然后，该特征输入全连接分类层得到行为类别得分y，具体如下：

y＝softmax(W·f) (12)

其中W∈R^C×D，C表示可识别的行为类别总数。计算得到的y表示***对各个类别的分类得分，得分越高表示越有可能是该类行为。假设y_a、y_m分别表示表观与运动神经网络得到的得分，则最终得分y_f如下：

y_f＝y_a+y_m (13)

其中y_f表示最终人物行为识别结果。

本发明的效果通过以下仿真实验做进一步的说明。

1.仿真条件。

本发明是在中央处理器为

Xeon E5-2697A 2.6GHz CPU、显卡NVIDIA K80、内存16G、Centos 7操作***上，运用PyTorch软件进行的仿真。

仿真中使用的数据为两个公开测试数据集UCF101/HMDB51中的数据，其中摄像机移动变化较大，背景较为复杂。实验数据共包括13320/6766段视频，按照行为类别可分为101/51类。其中HMDB51数据集中的视频数据大多未剪辑，包含较多噪音。

2.仿真内容。

为了证明本发明的有效性，仿真实验对本发明提出的记忆单元强化和时序动态学***均AUC数值。对比结果如表1所示。

表1

Method	TSN	Lattice-LSTM	OUR
				AUC(UCF101)	93.6％	94.0％	94.8％
AUC(HMDB51)	66.2％	68.5％	71.8％

从表1可见，本发明的识别准确率显著地高于已有行为识别方法。具体地，算法TSN的准确率低于算法Lattice-LSTM和OUR，原因在于TSN算法没有考虑视频内容的时序变化模式，而Lattice-LSTM和OUR都采用了递归神经网络对视频的时序变化模式进行了建模，从而证明了本发明提出的基于递归神经网络的时序动态学习方法的有效性。另外，在HMDB51数据集上，算法OUR明显优于Lattice-LSTM，这是由于本发明提出的记忆单元能够有效强化递归神经网络对长时、未剪辑视频的处理能力。因此，为了记忆单元对递归神经网络强化的有效性，仿真实验在UCF101数据集上将各类递归神经网络LSTM、ALSTM以及VideoLSTM与本发明的算法进行了对比实验，结果如表2所示。

表2

Method	LSTM	ALSTM	VideoLSTM	Ours
					AUC	88.3％	77.0％	89.2％	91.03％

从表2可见，本发明融合得到的结果比各类递归神经网络结果准确率高，原因在于，本发明的记忆单元强化方法能够有效提取视频中的有效信息，进而建模视频中的时序变化模式。相比之下，简单的递归神经网络方法易受噪音的影响，因此反而降低了准确率。因此，通过以上仿真实验可以验证本发明的有效性。

Claims

1.一种基于记忆单元强化-时序动态学习的行为识别方法，其特征在于包括以下步骤：

步骤一、计算视频帧I_a的光流信息，其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图I_m；利用两个独立思维卷积神经网络提取各自的高维语义特征：

x_a＝CNN_a(I_a；w_a) (1)

x_m＝CNN_m(I_m；w_m) (2)

其中，CNN_a、CNN_m分别代表表观卷积神经网络与运动卷积神经网络，用以提取视频帧I_a与光流图I_m的高维特征；x_a、x_m分别为2048维向量，代表卷积神经网络提取出的表观与运动特征；w_a、w_m表示两个卷积神经网络的内部可训练参数；利用x表示卷积神经网络提取出的高维特征；

步骤二、初始化记忆单元M为空，表示为M₀；假设第t视频帧时，记忆单元M_t不为空，其中包含N_t>0个元素，分别表示为m₁,m₂,...

那么，对应时刻的记忆模块读取操作如下：

其中，读取出的mh_t代表视频前t时刻的历史信息；

步骤三、利用片段式递归神经网络，提取视频内容的短时上下文特征；以步骤一计算得到的高维语义特征x作为输入，对应第t视频帧时的特征记为x_t；初始化长短时递归神经网络(LSTM)的隐状态h₀、c₀为零，则t时刻的短时上下文特征计算如下：

其中，LSTM()表示长短时递归神经网络，h_t-1,c_t-1表示递归神经网络前一时刻的隐状态；而

作为视频内容的短时上下文特征用于后续计算；

a_t＝σ(q_t) (6)

s_t＝τ(a_t) (7)

其中，v^T为可学习的行向量参数，W_f、W_c、W_m为可学习的权重参数，b_s为偏置参数；sigmoid函数σ()将线性加权的结果q_t归一化到0,1之间，即a_t∈(0,1)；a_t输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令s_t；

步骤五、基于二值化记忆单元写入指令s_t，更新记忆单元与片段式递归神经网络；对于每一视频帧，记忆单元M_t的更新策略如下：

表示将

写入记忆单元M_t-1，形成新的记忆单元M_t；此外，片段式递归神经网络的隐状态h_t，c_t更新如下：

其中，

为式(4)计算得到的结果；

步骤六、利用记忆单元进行行为分类；假设视频总长为T，整个视频处理结束时记忆单元为M_T，其中有N_T个元素，则整个视频的特征表示f为：

其中，f为D维向量，代表视频中行为类别的信息；该特征输入全连接分类层得到行为类别得分y，具体如下：

y＝softmax(W·f) (12)

其中，W∈R^C×D，C表示可识别的行为类别总数；计算得到的y表示***对各个类别的分类得分，得分越高表示越有可能是该类行为；假设y_a、y_m分别表示表观与运动神经网络得到的得分，则最终得分y_f如下：

y_f＝y_a+y_m (13)

其中，y_f表示最终人物行为识别结果。