CN106407889A

CN106407889A - 基于光流图深度学习模型在视频中人体交互动作识别方法

Info

Publication number: CN106407889A
Application number: CN201610737545.XA
Authority: CN
Inventors: 蒋兴浩; 孙锬锋; 赵阳
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2016-08-26
Filing date: 2016-08-26
Publication date: 2017-02-15
Anticipated expiration: 2036-08-26
Also published as: CN106407889B

Abstract

本发明公开了一种基于光流图深度学习模型在视频中人体交互动作识别方法，其步骤主要包括：步骤一，对测试集视频和训练集视频进行解帧，利用相邻两帧计算光流序列图；步骤二，对光流序列图进行预处理，删去信息量较少的光流图；步骤三，利用步骤二中得到的训练集光流序列训练残差神经网络，用测试集和训练集光流图序列作为输入，得到其空域特征；步骤四，训练集特征训练长短时记忆模型，测试集特征输入得到每类概率输出；步骤五，采用投票模型统计得到分类结果。本发明填补了利用深度学习模型进行人体动作识别的相关的专利的空白，识别准确率高，且该方法适用于多种场景。

Description

基于光流图深度学习模型在视频中人体交互动作识别方法

技术领域

本发明涉及一种视频中人体交互动作识别方法，特别是涉及一种基于光流图深度学习模型在视频中人体交互动作识别方法。

背景技术

随着技术的不断发展，视频内容的理解需求也不断提高。摄像头的广泛运用使得视频信息越来越多。然而这些海量信息难以全部靠人工处理，所以需要相关方法来分析视频中的内容。在智能监控领域中，对人体的交互动作识别尤为重要。突发性事件如打架斗殴，异常行为的检测等等都依赖于人体交互动作的准确识别。所以，准确的人体交互动作识别具有重要的社会意义。

视频内容理解旨在让计算机像人类一样可以理解视频里面的内容。动作识别是视频内容理解中的重要组成部分。相关研究包括：单人动作识别，人与物体的交互识别，人体交互动作识别，群体行为理解。深度学习方法是近些年图像处理的比较有效的一类方法，许多学者致力于将深度学习的方法拓展到视频领域，并在动作识别领域取得了较多有价值的研究成果。由于动作识别的模式变化较多，又容易受到背景噪声的干扰，准确识别人体动作的难度比较大，但是在近十年内也取得了进展。

经过对现有人体动作/交互动作识别技术的检索发现，中国专利公开号为CN102136066A的专利记载了“一种人体动作识别的方法”，公开日为2011年7月27日。该技术采用计算视频序列的差分边缘直方图作为特征，通过对目标区域的若干子区域分别求像素变化直方图和边缘梯度直方图提高动作细节识别的准确率。该专利侧重于识别的实时性，对识别的准确率要求不高。而且采用的是手工特征方法，适用场景受限。

中国专利公开号为CN101964047B的专利记载了“一种基于多跟踪点的人体动作识别方法”，公开日期为2012年10月10日。该技术在需要判断的动作上，要设置至少一个跟踪点，根据跟踪点的相应动作数据来识别相应动作。该专利并非使用在视频领域，而且对数据采集要求较高，需要硬件传感器的支持。

本发明与上述技术方案的不同在于，本发明在视频领域可以对复杂的人体交互动作进行准确识别，且采用深度学习模型可以方便适用于各种应用场景。上述技术方案仍然采用了传统的手工特征方法，视频领域利用深度学习模型进行人体交互动作识别的相关专利仍然是个空白。

发明内容

本发明所要解决的技术问题是提供一种基于光流图深度学习模型在视频中人体交互动作识别方法，其填补了利用深度学习模型进行人体动作识别的相关的专利的空白，识别准确率高，且该方法适用于多种场景。

本发明是通过下述技术方案来解决上述技术问题的：一种基于光流图深度学习模型在视频中人体交互动作识别方法，其步骤主要包括：

步骤一，对测试集视频和训练集视频进行解帧，利用相邻两帧计算光流序列图，得到测试集视频和训练集视频的光流序列图；

步骤二，对光流序列图进行预处理，删去信息量较少的光流图，保留信息量较多的光流图，得到预处理后的测试集和训练集光流序列；

步骤三，利用步骤二中得到的训练集光流序列训练残差神经网络，得到残差神经网络模型；用测试集光流图序列和训练集光流图序列作为输入，得到测试集空域特征和训练集空域特征；

步骤四，利用步骤三得到的训练集空域特征，放到LSTM中进行训练，得到LSTM模型，用测试集空域特征作为输入，对每个输入特征得到每类的分类概率；

步骤五，根据步骤四对一段视频输出每类概率，统计其投票最多的类，作为其判别类输出。

优选地，所述步骤一包括如下步骤：

步骤十一，用ffmpeg工具将视频解成图片帧；

步骤十二，用farneback算法计算两帧之间的位移来计算光流，组成光流图序列。

优选地，所述步骤二包括如下步骤：

步骤二十一，对光流图按照光流运动量从高到底排列；

步骤二十二，选取光流运动量最多的前45帧按照其在原来视频中的相对位置组成新的光流序列。

优选地，所述步骤三包括如下步骤：

步骤三十一，用ResNet网络进行训练，训练数据是步骤二得到的预处理后的训练集光流图序列；输出是ResNet模型；

步骤三十二，用预处理后的训练集和测试集光流图序列作为输入，利用训练好的ResNet模型，得到训练集和测试集的空域特征集。

优选地，所述步骤四包括如下步骤：

步骤四十一，用训练集空域特征作为输入，训练LSTM模型；

步骤四十二，用测试集空域特征作为输入LSTM模型，每帧的空域特征输入，对应对各类别的概率预测输出。

优选地，所述步骤五包括如下步骤：

步骤五十一，每类投票数初始为0，根据每帧概率输出结果预测概率最大的类别投票数加一；

步骤五十二，统计一段视频所有帧的投票结果；

步骤五十三，得票数最多的那类作为分类结果输出。

本发明的积极进步效果在于：本发明填补了利用深度学习模型进行人体动作识别的相关的专利的空白，识别准确率高，且该方法适用于多种场景。

附图说明

图1为本发明基于光流图深度学习模型在视频中人体交互动作识别方法的模型框架图。

图2为本发明的光流图序列预处理流程图。

图3为本发明的ResNet空域向量提取流程图。

图4为本发明的训练LSTM模型流程图。

图5为本发明的投票分类判决流程图。

图6为ResNet网络结构图。

图7为LSTM网络结构图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

如图1所示，本发明公开了一种基于光流图深度学习模型在视频中人体交互动作识别方法，其步骤主要包括：

步骤三，利用步骤二中得到的训练集光流序列训练残差神经网络ResNet，得到残差神经网络模型；用测试集光流图序列和训练集光流图序列作为输入，得到测试集空域特征和训练集空域特征；

步骤四，利用步骤三得到的训练集空域特征，放到LSTM(Long Short TermMemory，长短时记忆)中进行训练，得到LSTM模型，用测试集空域特征作为输入，对每个输入特征得到每类的分类概率；

所述步骤一包括如下步骤：

步骤十一，用ffmpeg(开源计算机程序)工具将视频解成图片帧；

步骤十二，用farneback算法计算两帧之间的位移来计算光流，组成光流图序列；光流计算技术大致分为：基于梯度的方法，基于匹配的方法，基于能量的方法，基于相位的方法；稠密光流需要使用差值方法在比较容易跟踪的像素之间进行插值以解决不明确的像素，计算开销比较大；使用Gunnar Farneback(稀疏光流)的算法计算稠密光流，即图像上所有像素点的光流都计算出来；Opencv(跨平台计算机视觉库)中有函数直接调用；或用CUDA(通用并行计算架构)编程利用GPU(图形处理器)加速光流计算，调用GPU版的Opencv函数即可。

如图2所示，所述步骤二包括如下步骤：

步骤二十一，光流场是图片中每个像素都有的一个x方向和y方向的位移；对光流图按照光流运动量从高到底排列；光流运动量定义如下式(1)：

M表示光流运动量，i表示像素点的位置，P表示整个图像的光流点集合，f_i表示在x轴方向的位移，g_i表示在y轴方向的位移；因为位移有正负，所以取其平方和表示位移量，对整个图片求和就得到整张图的光流运动量；

步骤二十二，选取光流运动量最多的前45帧按照其在原来视频中的相对位置组成新的光流序列，即预处理后的光流图序列。

如图3所示，所述步骤三包括如下步骤：

步骤三十一，用ResNet(资源)网络进行训练，训练数据是步骤二得到的预处理后的训练集光流图序列；输出是ResNet模型；

ResNet模型是由Building block(建立基本构件)组成的神经网络，每个buildingblock表示为如下式(2)：

Y＝ReLU(F(X,W)+P·X)……(2)

X为输入矩阵，Y为输出矩阵，W是building block的权重，F(X,W)是通过训练集学习的映射函数，P是一个矩阵，保证P和X的乘积和F(X,W)相加；ReLU是一种激活函数，此函数在输入变量小于0是一直为0，大于0时斜率保持为1；采用的ResNet结构如图6所示；

步骤三十二，用预处理后的训练集和测试集光流图序列作为输入，利用训练好的ResNet模型，得到训练集和测试集的空域特征集；如图6所示，每个光流图作为矩阵输入后，经过每个building block的训练好的权重计算，到达最底层的全连接层时候已经编程一维向量，此向量就是空域特征；在深度学习框架torch7(科学计算框架)中，已经有ResNet的实现，需要定义的网络结构，和训练集数据自己训练模型，然后得到训练集和测试集的空域特征。

如图4所示，所述步骤四包括如下步骤：

步骤四十一，用训练集空域特征作为输入，训练LSTM模型，如图7所示；LSTM是一种特殊的RNN(循环神经网络)，它模仿人类的思考模型，自动丢弃或保留数据，用以解决长距离依赖问题；LSTM的结构见图7；用如下公式(3)至(8)表示：

i_t=σ(w_xix_t+w_hih_t-1+b_i)……(3)

f_t＝σ(w_xfx_t+w_hfh_t-1+b_f)……(4)

o_t＝σ(w_xox_t+w_hoh_t-1+b_o)……(5)

g_t＝tanh(w_xcx_t+w_hch_t-1+b_c)……(6)

c_t＝f_t⊙c_t-1+i_t⊙g_t……(7)

h_t＝o_t⊙tanh(c_t)……(8)

各符号含义见下表1所示：

表1 符号含义表

记忆单元c_t是由遗忘门f_t，输入调制状态g_t，输入门i_t和前一时刻的状态组成；因为i_t和f_t都是sigmoidal(反曲)形函数，其值被限制在0和1之间，LSTM通过0表示忘记，1表示记忆保持，在0到1之间表示记忆的程度；输出门o_t学习有多少记忆单元转移到隐藏状态；

在深度学习框架torch7中也有相关的包；在程序中采用FastLSTM的结构；这种结构简化了传统LSTM的结构，使其训练速度加快；定义LSTM的inputSize(输入大小值)和hiddenSize(隐藏大小值)均设置成512，即512个LSTM单元，LSTM的输入和输出之间还有一层0.5ratio(比例)的dropout(流失)层，减少模型过拟合的可能性，也增加了模型的泛化能力；优化的标准采用负似然函数criterion(标准)，在torch7的实现中同样用到了CUDA(通用并行计算架构)加速；

LSTM训练与传统卷积神经网络以及ResNet相同，采用随机梯度下降法，训练数据前向传输的结果，与分类结果的差异进行后向传输更新LSTM结构单元的权重；因为LSTM特殊的结构设计，使其不会产生传统RNN梯度消失或者***的情况；

步骤四十二，用测试集空域特征作为输入LSTM模型，每帧的空域特征输入，对应对各类别的概率预测输出；LSTM层之后再接上logSoftmax(对数软间隔最大)层用来做多分类概率预测输出；logSoftmax对概率做了对数化处理，我们要稍微转换一下，softmax(最大值)是对该帧属于某类的可能性给出概率上的预测。

如图5所示，所述步骤五包括如下步骤：

步骤五十二，统计一段视频所有帧的投票结果；

步骤五十三，得票数最多的那类作为分类结果输出如下式(9)：

class＝argmax({C₁,C2,…,C_n})……(9)

C_i表示i类别的得票数，class表示最终分类类别。

本发明填补了用深度学习方法对人体交互动作识别相关领域的空白，提高了检测准确性。

以上所述的具体实施例，对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，其步骤主要包括：

步骤三，利用步骤二中得到的训练集光流序列训练残差神神经络，得到残差神经网络模型；用测试集光流图序列和训练集光流图序列作为输入，得到测试集空域特征和训练集空域特征；

2.如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，所述步骤一包括如下步骤：

步骤十一，用ffmpeg工具将视频解成图片帧；

3.如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，所述步骤二包括如下步骤：

步骤二十一，对光流图按照光流运动量从高到底排列；

4.如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，所述步骤三包括如下步骤：

5.如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，所述步骤四包括如下步骤：

步骤四十一，用训练集空域特征作为输入，训练LSTM模型；

6.如权利要求1所述的基于光流图深度学习模型在视频中人体交互动作识别方法，其特征在于，所述步骤五包括如下步骤：

步骤五十二，统计一段视频所有帧的投票结果；

步骤五十三，得票数最多的那类作为分类结果输出。