CN109753897B - 基于记忆单元强化-时序动态学习的行为识别方法 - Google Patents

基于记忆单元强化-时序动态学习的行为识别方法 Download PDF

Info

Publication number
CN109753897B
CN109753897B CN201811569882.8A CN201811569882A CN109753897B CN 109753897 B CN109753897 B CN 109753897B CN 201811569882 A CN201811569882 A CN 201811569882A CN 109753897 B CN109753897 B CN 109753897B
Authority
CN
China
Prior art keywords
video
memory unit
neural network
time sequence
recurrent neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811569882.8A
Other languages
English (en)
Other versions
CN109753897A (zh
Inventor
袁媛
王�琦
王栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN201811569882.8A priority Critical patent/CN109753897B/zh
Publication of CN109753897A publication Critical patent/CN109753897A/zh
Application granted granted Critical
Publication of CN109753897B publication Critical patent/CN109753897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于记忆单元强化‑时序动态学***均94.8%的识别准确率。

Description

基于记忆单元强化-时序动态学习的行为识别方法
技术领域
本发明涉及一种行为识别方法,特别涉及一种基于记忆单元强化-时序动态学习的行为识别方法。
背景技术
文献“L.Wang,Y.Xiong,Z.Wang,Y.Qiao,D.Lin,X.Tang,and L.V.Gool.TemporalSegment Networks:Towards Good Practices for Deep Action Recognition,InProceedings of European Conference on Computer Vision,pp.20–36,2016.”公开了一种基于双流卷积神经网络与时序片段网络的人物行为识别方法。该方法利用两个独立的卷积神经网络来解决行为识别任务,其中,空间流网络从视频帧中提取目标的表观特征,而时序流网络则从对应的光流场数据中提取目标的运动特征,通过融合这两个网络输出得到行为识别结果。同时,该方法提出时序片段网络来建模视频序列的长时时序结构信息,该网络通过稀疏时序采样策略与序列尺度的监督学习,实现了整个神经网络的高效有效学习,并在大规模公开数据集上取得了较好的结果。文献所述方法对视频中的时序建模较为粗糙,使得网络在学习过程中往往会忽略特征的时序关联性;在视频序列较长及未剪辑时,该方法会将无关的噪音信息融入最终识别结果,降低人物行为识别的准确率,同时噪音信息的加入,也会使得整个神经网络的训练学习变得困难。
发明内容
为了克服现有行为识别方法实用性差的不足,本发明提供一种基于记忆单元强化-时序动态学***均94.8%、71.8%的识别准确率。
本发明解决其技术问题所采用的技术方案:一种基于记忆单元强化-时序动态学习的行为识别方法,其特点是包括以下步骤:
步骤一、计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图Im。利用两个独立思维卷积神经网络提取各自的高维语义特征:
xa=CNNa(Ia;wa) (1)
xm=CNNm(Im;wm) (2)
其中,CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征。xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征。wa、wm表示两个卷积神经网络的内部可训练参数。利用x表示卷积神经网络提取出的高维特征。
步骤二、初始化记忆单元M为空,表示为M0。假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为m1,m2,...mNt。那么,对应时刻的记忆模块读取操作如下:
Figure GDA0003385246580000021
其中,读取出的mht代表视频前t时刻的历史信息。
步骤三、利用片段式递归神经网络,提取视频内容的短时上下文特征。以步骤一计算得到的高维语义特征x作为输入,对应第t视频帧时的特征记为xt。初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零,则t时刻的短时上下文特征计算如下:
Figure GDA0003385246580000022
其中,LSTM()表示长短时递归神经网络,ht-1,ct-1表示递归神经网络前一时刻的隐状态。而
Figure GDA0003385246580000023
作为视频内容的短时上下文特征用于后续计算。
步骤四、对于每一视频帧,步骤一、二、三计算得到的高维语义特征xt,记忆单元历史信息mht以及短时上下文特征
Figure GDA0003385246580000024
输入记忆单元控制器,计算得到二值化记忆单元写入指令st∈{0,1},具体如下:
Figure GDA0003385246580000025
at=σ(qt) (6)
st=τ(at) (7)
Figure GDA0003385246580000031
其中,vT为可学习的行向量参数,Wf、Wc、Wm为可学习的权重参数,bs为偏置参数。sigmoid函数σ()将线性加权的结果qt归一化到0,1之间,即at∈(0,1)。at输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令st
步骤五、基于二值化记忆单元写入指令st,更新记忆单元与片段式递归神经网络。对于每一视频帧,记忆单元Mt的更新策略如下:
Figure GDA0003385246580000032
其中,Ww为可学习权重矩阵,该矩阵通过乘法运算将高维语义特征xt转换为记忆单元元素
Figure GDA0003385246580000033
表示将
Figure GDA0003385246580000034
写入记忆单元Mt-1,形成新的记忆单元Mt。此外,片段式递归神经网络的隐状态ht,ct更新如下:
Figure GDA0003385246580000035
其中,
Figure GDA0003385246580000036
为式(4)计算得到的结果。
步骤六、利用记忆单元进行行为分类。假设视频总长为T,整个视频处理结束时记忆单元为MT,其中有NT个元素,则整个视频的特征表示f为:
Figure GDA0003385246580000037
其中,f为D维向量,代表视频中行为类别的信息。该特征输入全连接分类层得到行为类别得分y,具体如下:
y=softmax(W·f) (12)
其中,W∈RC×D,C表示可识别的行为类别总数。计算得到的y表示***对各个类别的分类得分,得分越高表示越有可能是该类行为。假设ya、ym分别表示表观与运动神经网络得到的得分,则最终得分yf如下:
yf=ya+ym (13)
其中,yf表示最终人物行为识别结果。
本发明的有益效果是:该方法采用融合记忆单元的递归神经网络建模长时视频序列的时序结构信息,通过离散化记忆单元读写控制器模块将视频序列的每一视频帧分类为相关帧与噪音帧,将相关帧的信息写入记忆单元同时忽略噪音帧信息,该方法能够滤掉未剪辑视频中大量的噪音信息,提升后继行为识别的准确率。此外,融合记忆单元的递归神经网络可以实现大跨度时序结构的连接,通过数据驱动的自主训练学***均94.8%、71.8%的识别准确率。
下面结合附图和具体实施方式对本发明作详细说明。
附图说明
图1是本发明基于记忆单元强化-时序动态学习的行为识别方法的流程图。
具体实施方式
参照图1。本发明基于记忆单元强化-时序动态学习的行为识别方法具体步骤如下:
步骤一、提取蕴含语义信息的高维表观与运动特征。首先,计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图Im。然后,利用两个独立思维卷积神经网络提取各自的高维语义特征:
xa=CNNa(Ia;wa) (1)
xm=CNNm(Im;wm) (2)
其中CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征。xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征。wa、wm表示两个卷积神经网络的内部可训练参数。由于表观神经网络与运动神经网络的后续操作完全一致,为使得标号简单清晰,利用x表示卷积神经网络提取出的高维特征。
步骤二、初始化记忆单元M为空,表示为M0。假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为
Figure GDA0003385246580000041
那么,对应时刻的记忆模块读取操作如下:
Figure GDA0003385246580000042
其中读取出的mht代表了视频前t时刻的历史信息,同时该历史信息影响了此时刻视频内容的分析与理解。
步骤三、利用片段式递归神经网络,提取视频内容的短时上下文特征。以步骤一计算得到的高维语义特征x作为输入,对应第t视频帧时的特征记为xt。首先,初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零,则t时刻的短时上下文特征计算如下:
Figure GDA0003385246580000051
其中LSTM()表示长短时递归神经网络,ht-1,ct-1表示递归神经网络前一时刻的隐状态。而
Figure GDA0003385246580000052
作为视频内容的短时上下文特征用于后续计算。
步骤四、离散化记忆单元写入控制器。对于每一视频帧,步骤1,2,3计算得到的高维语义特征xt,记忆单元历史信息mht以及短时上下文特征
Figure GDA0003385246580000053
输入记忆单元控制器,计算得到二值化记忆单元写入指令st∈{0,1},具体如下:
Figure GDA0003385246580000054
at=σ(qt) (6)
st=τ(at) (7)
Figure GDA0003385246580000055
其中vT为可学习的行向量参数,Wf、Wc、Wm为可学习的权重参数,bs为偏置参数。由上可看出,sigmoid函数σ()将线性加权的结果qt归一化到0,1之间,即at∈(0,1)。其次,at输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令st
步骤五、基于二值化记忆单元写入指令st,更新记忆单元与片段式递归神经网络。对于每一视频帧,记忆单元Mt的更新策略如下:
Figure GDA0003385246580000056
其中Ww为可学习权重矩阵,该矩阵通过乘法运算将高维语义特征xt转换为记忆单元元素
Figure GDA0003385246580000057
表示将
Figure GDA0003385246580000058
写入记忆单元Mt-1,形成新的记忆单元Mt。此外,片段式递归神经网络的隐状态ht,ct更新如下:
Figure GDA0003385246580000061
其中
Figure GDA0003385246580000062
为式(4)计算得到的结果。
步骤六、利用记忆单元进行行为分类。假设视频总长为T,整个视频处理结束时记忆单元为MT,其中有NT个元素,则整个视频的特征表示f为:
Figure GDA0003385246580000063
其中f为D维向量,代表了视频中行为类别的信息。然后,该特征输入全连接分类层得到行为类别得分y,具体如下:
y=softmax(W·f) (12)
其中W∈RC×D,C表示可识别的行为类别总数。计算得到的y表示***对各个类别的分类得分,得分越高表示越有可能是该类行为。假设ya、ym分别表示表观与运动神经网络得到的得分,则最终得分yf如下:
yf=ya+ym (13)
其中yf表示最终人物行为识别结果。
本发明的效果通过以下仿真实验做进一步的说明。
1.仿真条件。
本发明是在中央处理器为
Figure GDA0003385246580000064
Xeon E5-2697A 2.6GHz CPU、显卡NVIDIA K80、内存16G、Centos 7操作***上,运用PyTorch软件进行的仿真。
仿真中使用的数据为两个公开测试数据集UCF101/HMDB51中的数据,其中摄像机移动变化较大,背景较为复杂。实验数据共包括13320/6766段视频,按照行为类别可分为101/51类。其中HMDB51数据集中的视频数据大多未剪辑,包含较多噪音。
2.仿真内容。
为了证明本发明的有效性,仿真实验对本发明提出的记忆单元强化和时序动态学***均AUC数值。对比结果如表1所示。
表1
Method TSN Lattice-LSTM OUR
AUC(UCF101) 93.6% 94.0% 94.8%
AUC(HMDB51) 66.2% 68.5% 71.8%
从表1可见,本发明的识别准确率显著地高于已有行为识别方法。具体地,算法TSN的准确率低于算法Lattice-LSTM和OUR,原因在于TSN算法没有考虑视频内容的时序变化模式,而Lattice-LSTM和OUR都采用了递归神经网络对视频的时序变化模式进行了建模,从而证明了本发明提出的基于递归神经网络的时序动态学习方法的有效性。另外,在HMDB51数据集上,算法OUR明显优于Lattice-LSTM,这是由于本发明提出的记忆单元能够有效强化递归神经网络对长时、未剪辑视频的处理能力。因此,为了记忆单元对递归神经网络强化的有效性,仿真实验在UCF101数据集上将各类递归神经网络LSTM、ALSTM以及VideoLSTM与本发明的算法进行了对比实验,结果如表2所示。
表2
Method LSTM ALSTM VideoLSTM Ours
AUC 88.3% 77.0% 89.2% 91.03%
从表2可见,本发明融合得到的结果比各类递归神经网络结果准确率高,原因在于,本发明的记忆单元强化方法能够有效提取视频中的有效信息,进而建模视频中的时序变化模式。相比之下,简单的递归神经网络方法易受噪音的影响,因此反而降低了准确率。因此,通过以上仿真实验可以验证本发明的有效性。

Claims (1)

1.一种基于记忆单元强化-时序动态学习的行为识别方法,其特征在于包括以下步骤:
步骤一、计算视频帧Ia的光流信息,其中每个像素的光流信息由二维向量(△x,△y)表示并保存为光流图Im;利用两个独立思维卷积神经网络提取各自的高维语义特征:
xa=CNNa(Ia;wa) (1)
xm=CNNm(Im;wm) (2)
其中,CNNa、CNNm分别代表表观卷积神经网络与运动卷积神经网络,用以提取视频帧Ia与光流图Im的高维特征;xa、xm分别为2048维向量,代表卷积神经网络提取出的表观与运动特征;wa、wm表示两个卷积神经网络的内部可训练参数;利用x表示卷积神经网络提取出的高维特征;
步骤二、初始化记忆单元M为空,表示为M0;假设第t视频帧时,记忆单元Mt不为空,其中包含Nt>0个元素,分别表示为m1,m2,...
Figure FDA0003385246570000011
那么,对应时刻的记忆模块读取操作如下:
Figure FDA0003385246570000012
其中,读取出的mht代表视频前t时刻的历史信息;
步骤三、利用片段式递归神经网络,提取视频内容的短时上下文特征;以步骤一计算得到的高维语义特征x作为输入,对应第t视频帧时的特征记为xt;初始化长短时递归神经网络(LSTM)的隐状态h0、c0为零,则t时刻的短时上下文特征计算如下:
Figure FDA0003385246570000013
其中,LSTM()表示长短时递归神经网络,ht-1,ct-1表示递归神经网络前一时刻的隐状态;而
Figure FDA0003385246570000014
作为视频内容的短时上下文特征用于后续计算;
步骤四、对于每一视频帧,步骤一、二、三计算得到的高维语义特征xt,记忆单元历史信息mht以及短时上下文特征
Figure FDA0003385246570000015
输入记忆单元控制器,计算得到二值化记忆单元写入指令st∈{0,1},具体如下:
Figure FDA0003385246570000016
at=σ(qt) (6)
st=τ(at) (7)
Figure FDA0003385246570000021
其中,vT为可学习的行向量参数,Wf、Wc、Wm为可学习的权重参数,bs为偏置参数;sigmoid函数σ()将线性加权的结果qt归一化到0,1之间,即at∈(0,1);at输入到阈值限制的二值化函数τ()得到二值化记忆单元写入指令st
步骤五、基于二值化记忆单元写入指令st,更新记忆单元与片段式递归神经网络;对于每一视频帧,记忆单元Mt的更新策略如下:
Figure FDA0003385246570000022
其中,Ww为可学习权重矩阵,该矩阵通过乘法运算将高维语义特征xt转换为记忆单元元素
Figure FDA0003385246570000023
Figure FDA0003385246570000024
表示将
Figure FDA0003385246570000025
写入记忆单元Mt-1,形成新的记忆单元Mt;此外,片段式递归神经网络的隐状态ht,ct更新如下:
Figure FDA0003385246570000026
其中,
Figure FDA0003385246570000027
为式(4)计算得到的结果;
步骤六、利用记忆单元进行行为分类;假设视频总长为T,整个视频处理结束时记忆单元为MT,其中有NT个元素,则整个视频的特征表示f为:
Figure FDA0003385246570000028
其中,f为D维向量,代表视频中行为类别的信息;该特征输入全连接分类层得到行为类别得分y,具体如下:
y=softmax(W·f) (12)
其中,W∈RC×D,C表示可识别的行为类别总数;计算得到的y表示***对各个类别的分类得分,得分越高表示越有可能是该类行为;假设ya、ym分别表示表观与运动神经网络得到的得分,则最终得分yf如下:
yf=ya+ym (13)
其中,yf表示最终人物行为识别结果。
CN201811569882.8A 2018-12-21 2018-12-21 基于记忆单元强化-时序动态学习的行为识别方法 Active CN109753897B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811569882.8A CN109753897B (zh) 2018-12-21 2018-12-21 基于记忆单元强化-时序动态学习的行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811569882.8A CN109753897B (zh) 2018-12-21 2018-12-21 基于记忆单元强化-时序动态学习的行为识别方法

Publications (2)

Publication Number Publication Date
CN109753897A CN109753897A (zh) 2019-05-14
CN109753897B true CN109753897B (zh) 2022-05-27

Family

ID=66403877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811569882.8A Active CN109753897B (zh) 2018-12-21 2018-12-21 基于记忆单元强化-时序动态学习的行为识别方法

Country Status (1)

Country Link
CN (1) CN109753897B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135345A (zh) * 2019-05-15 2019-08-16 武汉纵横智慧城市股份有限公司 基于深度学习的行为识别方法、装置、设备及存储介质
CN110348567B (zh) * 2019-07-15 2022-10-25 北京大学深圳研究生院 一种基于自动寻址和递归信息整合的内存网络方法
CN110852273B (zh) * 2019-11-12 2023-05-16 重庆大学 一种基于强化学习注意力机制的行为识别方法
CN111401149B (zh) * 2020-02-27 2022-05-13 西北工业大学 基于长短期时域建模算法的轻量级视频行为识别方法
CN111639548A (zh) * 2020-05-11 2020-09-08 华南理工大学 一种基于门的视频上下文多模态感知特征优化方法
CN112926453B (zh) * 2021-02-26 2022-08-05 电子科技大学 基于运动特征增强和长时时序建模的考场作弊行为分析方法
CN112633260B (zh) * 2021-03-08 2021-06-22 北京世纪好未来教育科技有限公司 视频动作分类方法、装置、可读存储介质及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10242266B2 (en) * 2016-03-02 2019-03-26 Mitsubishi Electric Research Laboratories, Inc. Method and system for detecting actions in videos

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845351A (zh) * 2016-05-13 2017-06-13 苏州大学 一种用于视频的基于双向长短时记忆单元的行为识别方法
CN106407889A (zh) * 2016-08-26 2017-02-15 上海交通大学 基于光流图深度学习模型在视频中人体交互动作识别方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法
CN107330362A (zh) * 2017-05-25 2017-11-07 北京大学 一种基于时空注意力的视频分类方法
CN108681712A (zh) * 2018-05-17 2018-10-19 北京工业大学 一种融合领域知识和多阶深度特征的篮球比赛语义事件识别方法
CN108805080A (zh) * 2018-06-12 2018-11-13 上海交通大学 基于上下文的多层次深度递归网络群体行为识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bidirectional Multirate Reconstruction for Temporal Modeling in Videos;Linchao Zhu;《2017 IEEE Conference on Computer Vision and Pattern Recognition》;20171109;第1339-1348页 *
Lattice Long Short-Term Memory for Human Action Recognition;Lin Sun et al.;《2017 IEEE International Conference on Computer Vision》;20171225;第2166-2175页 *
Temporal Segment Networks: Towards Good Practices for Deep Action Recognition;Limin Wang et al.;《arXiv》;20160802;第1-16页 *
融合双重时空网络流和attention机制的人体行为识别;谯庆伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第2018年卷(第2期);第I138-2110页 *

Also Published As

Publication number Publication date
CN109753897A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
CN109753897B (zh) 基于记忆单元强化-时序动态学习的行为识别方法
US20210012198A1 (en) Method for training deep neural network and apparatus
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN110046671A (zh) 一种基于胶囊网络的文本分类方法
CN112507898A (zh) 一种基于轻量3d残差网络和tcn的多模态动态手势识别方法
CN112464865A (zh) 一种基于像素和几何混合特征的人脸表情识别方法
CN111476315A (zh) 一种基于统计相关性与图卷积技术的图像多标签识别方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111881731A (zh) 基于人体骨架的行为识别方法、***、装置及介质
CN112561064A (zh) 基于owkbc模型的知识库补全方法
CN114821271B (zh) 模型训练方法、图像描述生成方法、装置及存储介质
CN114444600A (zh) 基于记忆增强原型网络的小样本图像分类方法
CN103065158A (zh) 基于相对梯度的isa模型的行为识别方法
CN113868448A (zh) 一种细粒度场景级基于草图的图像检索方法及***
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
CN111985333A (zh) 一种基于图结构信息交互增强的行为检测方法及电子装置
CN112668543B (zh) 一种手模型感知的孤立词手语识别方法
CN111223126A (zh) 一种基于迁移学习的跨视角轨迹模型构建方法
Hu et al. Data-free dense depth distillation
CN112507940B (zh) 一种基于差分指导表示学习网络的骨骼动作识别方法
CN114693997A (zh) 基于迁移学习的图像描述生成方法、装置、设备及介质
CN116932862A (zh) 冷启动对象推荐方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant