CN110427834A

CN110427834A - 一种基于骨架数据的行为识别***及方法

Info

Publication number: CN110427834A
Application number: CN201910620715.XA
Authority: CN
Inventors: 董九庆; 高永彬; 姚依凡; 顾佳; 田方正
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-08

Abstract

本发明涉及一种基于骨架数据的行为识别***及方法，其中，***包括数据采集单元、服务器、数据传输单元和显示预警单元，数据采集单元用于采集实时视频数据；服务器用于处理实时视频数据、输出行为识别数据以及输出预警指令；数据传输单元用于传输实时视频数据、行为识别数据以及预警指令；显示预警单元用于展示行为识别数据、预警指令以及根据预警指令发出警报。与现有技术相比，本发明使用时空图卷积结合长短周期记忆网络，并引入注意力机制，使网络能更好地学习骨架数据的时空域特征，且在出现违规行为时，由显示预警单元及时发出警报，本发明结合监控摄像头能实现对指定区域人体行为的识别，其识别速度快、识别准确度高。

Description

一种基于骨架数据的行为识别***及方法

技术领域

本发明涉及计算机视觉中的行为识别技术领域，尤其是涉及一种基于骨架数据的行为识别***及方法。

背景技术

人体行为识别是当前计算机视觉研究领域中的研究热点，对人体的动作姿态进行自动识别将提供全新的人机交互模式。在人流密集的地方或者需要重点监控安防的地方，通常是由摄像头进行实时画面拍摄，并主要通过人工的方式对视频画面中的行为进行识别判断，这种行为识别方法效率低下，也无法保证行为识别判断的准确性，如果通过计算机进行自动的行为识别，以替代人工方式对某些指定行为进行实时识别，能节省大量人力，从而有效提高识别效率及识别准确性。

当前国内外关于行为识别的技术主要有以下几种：基于双流网络的神经网络模型；基于三维卷积的神经网络模型；基于骨架的卷积神经网络；基于循环神经网络的网络模型；基于传统方法，进行手工特征匹配。

而上述行为识别的技术在具体应用中存在以下缺点：

1.基于RGB图像进行处理，计算量大，速度慢，无法处理非欧式结构数据，不能达到实时识别的效果；

2.对光照变化敏感，一旦出现遮挡或者复杂天气，就会降低对行为识别的准确率；

3.对画面场景中的无关信息较为敏感，比如衣着、背景的变化。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于骨架数据的行为识别***及方法。

本发明的目的可以通过以下技术方案来实现：一种基于骨架数据的行为识别***，包括数据采集单元、服务器、数据传输单元和显示预警单元，所述数据采集单元通过数据传输单元与服务器连接，所述服务器通过数据传输单元与显示预警单元连接，所述数据采集单元用于采集实时视频数据；

所述服务器用于处理实时视频数据、输出行为识别数据以及输出预警指令；

所述数据传输单元用于传输实时视频数据、行为识别数据以及预警指令；

所述显示预警单元用于展示行为识别数据、预警指令以及根据预警指令发出警报。

优选的，所述服务器包括依次连接的姿态估计模块、骨架数据处理模块、行为识别模块和预警控制模块，所述姿态估计模块用于从实时视频数据中提取人体骨架数据；

所述骨架数据处理模块用于将人体骨架数据处理成网络可直接读取的非欧式结构数据；

所述行为识别模块用于从非欧式结构数据中识别出行为类别结果；

所述预警控制模块用于根据行为类别结果输出对应的预警指令。

优选的，所述数据采集单元为摄像头，所述数据传输单元为无线网络或网络数据线，所述显示预警单元包括显示器和报警器。

一种基于骨架数据的行为识别方法，包括以下步骤：

S1、采集实时视频数据；

S2、根据Openpose姿态估计算法，从实时视频数据中提取序列化的人体骨架数据；

S3、将序列化的人体骨架数据处理成序列化的非欧式结构数据；

S4、基于时空图卷积神经网络和长短周期记忆网络，从序列化的非欧式结构数据中识别出对应的行为类别结果。

优选的，所述步骤S2具体包括以下步骤：

S21、将实时视频数据处理成序列化的视频帧；

S22、对视频帧的图像进行姿态估计，提取出序列化的人体骨架数据，其中，人体骨架数据包括人体骨架关键点信息；

S23、以二维或三维数据的形式，将序列化的人体骨架数据保存为JSON格式文件。

优选的，所述步骤S4具体包括以下步骤：

S41、基于时空图卷积神经网络，从序列化的非欧式结构数据中分别提取骨架空间信息和骨架时间信息，得到序列化的骨架初始特征值；

S42、将序列化的骨架初始特征值输入长短周期记忆网络，得到骨架最终特征值；

S43、骨架最终特征值进入Softmax分类器，输出行为类别结果。

优选的，所述时空图卷积神经网络的卷积核包括第一维度和第二维度，所述第一维度用于提取骨架空间信息，所述第二维度用于提取骨架时间信息。

优选的，所述长短周期记忆网络中包含注意力机制，所述注意力机制用于增强骨架关键点信息。

与现有技术相比，本发明具有以下优点：

一、本发明采用Openpose姿态估计算法，将视频数据作为序列化的视频帧进行处理，从每一帧中提取骨架关键点信息，利用骨架关键点信息进行行为识别能够有效避免光照、背景、天气等基于像素值的因素的影响，缓解了背景、衣着、光照条件差异带来的不利影响，有助于之后处理数据以及提高识别精确度。

二、本发明基于时空图卷积神经网络直接对人体骨架数据进行处理，而不是对原始视频数据进行处理，利用端对端的算法，极大地减小了计算量，加快了网络运行速度和训练速度，解决了传统基于RGB图像的行为识别技术速度慢的问题。

三、本发明通过长短周期记忆网络，使时空图卷积神经网络输出的骨架初始特征值能够进一步学习时间特征，并且加入注意力机制，以增强骨架关键点信息，使网络能更好地学习动作的时空域特征，从而进一步提高骨架最终特征值的精确度，有效提高识别行为分类结果的准确性。

附图说明

图1为本发明的***结构示意图；

图2为本发明的方法流程示意图；

图3为实施例中人体骨架数据示意图；

图4为图卷积网络中图卷积算子的示意图；

图5为本发明的方法流程框图；

图6为实施例中行为识别数据示意图；

图中标记说明：1、数据采集单元，2、服务器，21、姿态估计模块，22、骨架数据处理模块，23、行为识别模块，24、预警控制模块，3、数据传输单元，4、显示预警单元，41、显示器，42、报警器。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

如图1所示，一种基于骨架数据的行为识别***，包括数据采集单元1、服务器2、数据传输单元3和显示预警单元4，数据采集单元1通过数据传输单元3与服务器2连接，服务器2通过数据传输单元3与显示预警单元4连接，其中，数据采集单元1用于采集实时视频数据，具体为监控范围内的摄像头；

服务器2用于处理实时视频数据、输出行为识别数据以及输出预警指令，包括姿态估计模块21、骨架数据处理模块22、行为识别模块23和预警控制模块24；

数据传输单元3用于传输实时视频数据、行为识别数据以及预警指令，具体为无线局域网或网络数据线；

显示预警单元4用于展示行为识别数据、预警指令以及根据预警指令发出警报，包括显示器41和报警器42。

安装好整个***后，整个行为识别过程是从输入端(监控摄像机拍摄到的视频)到输出端(包含骨架和动作分类的监控视频)一步到位的，本发明提出的基于骨架数据的行为识别***，整个过程是端到端并且可视化的，在具体应用中，数据采集单元1用于将监控摄像机中的视频通过数据传输单元3传输至服务器2，服务器2用于处理视频数据，包括姿态估计模块21，骨架数据处理模块22，行为识别模23和预警控制模块24：

姿态估计模21用于获取人体骨架数据；

骨架数据处理模块22用于将骨架数据处理成网络可以采集的数据格式，即非欧式结构数据；

行为识别模块23用于识别当前行为的类别；

预警控制模块24用于判断该行为类别是否违规，若违规则输出预警指令给显示预警单元4，触发报警器42及时发出预警信息。

如图2所示，基于上述***的行为识别方法，包括以下步骤：

S1、采集实时视频数据；

S2、根据Openpose姿态估计算法，从实时视频数据中提取序列化的人体骨架数据：

S21、将实时视频数据处理成序列化的视频帧；

S23、以二维或三维数据的形式，将序列化的人体骨架数据保存为JSON格式文件；

S4、基于时空图卷积神经网络和长短周期记忆网络，从序列化的非欧式结构数据中识别出对应的行为类别结果：

S43、骨架最终特征值进入Softmax分类器，输出行为类别结果。

其中，时空图卷积神经网络的优势在于可以处理非欧式结构的数据，比如社交网络，分子结构，骨架数据等，这些数据有相似的特点：都可以看做是由点和边组成的数据类型，比如社交网络中，人为点，人与人的关系作为边；分子结构中，原子作为点，化合键作为边；人体结构中，关节点作为点，手臂、腿、颈椎等作为边，而对于这种非欧式结构的数据，传统的卷积神经网络不能够像图像一样进行处理，本发明采用图卷积神经网络可以很好的处理这样的数据，使得这些骨架关键点能够更容易被网络读取，并且端到端的进行分类。

本实施例中，使用Openpose姿态估计算法得到如图3所示的人体骨架数据，节点标号中，0为鼻子关键点，1为颈部关键点，2、3、4、5、6、7均为手臂关键点，15、16、17、18均为面部关键点，9、10、11、12、13、14均为腿部关键点，19、20、21、22、23、24均为脚掌关键点，Openpose将视频当做序列化的帧，将每一帧的图像中的人都进行姿态估计，并将每张图片的姿态用JSON文件保存记录。

图4为图卷积算子的示意图，图卷积的定义过程与传统卷积神经网络中的卷积类似，卷积实质上是加权求和的一个过程：一个3*3的卷积核卷积的过程实际上可以看做是一个3*3的区域内特征值加权求和得到新的更深层次特征值的过程，图4中对于点1的卷积，若取距离为1的邻域进行卷积，则取到的点为相连接的点2、3、4、5与点1本身，这五个点加权平均，得到下一层特征值。其公式化表达如下：

式中，表示节点j在第l层的特征表达；

C_ij为归一化因子，比如3*3的领域中有九个点，那么其值为9；

N_i是节点j的邻域，包括节点j自身；

W_j ^l表示权重矩阵，这个权重矩阵的值是神经网络训练过程中自动学习的；

σ为激活函数，激活函数的作用是将之前的线性变换转换为非线性变换；

对于每个骨架节点进行卷积后得到特征值，之后类似图像卷积，经过激活函数后，得到下一层的特征值

本发明中对于骨架的卷积与图4所示过程相同，即将骨架视为图，将卷积当前的根节点与周围的相邻节点乘上对应的权重矩阵，经过激活函数激活后，得到下一层该节点的特征值。

本发明行为识别方法的流程框图如图5所示，输入数据为监控采集的视频，由Openpose方法估计出人体姿态后，获得的骨架数据被处理成空间骨架数据；

在进行空间图卷积时，空间图卷积的卷积核有两个维度：卷积核的第一个维度提取骨架的空间信息，第一个维度提取骨架的时间序列上的信息，之后得到一个序列化的具有高级特征的骨架，其已经具备了原始视频的空间结构信息和时间信息；

将特征图序列送入LSTM(长短周期记忆)网络中再次学习时间特征，并在LSTM网络内部加入注意力机制(Attention)以增强重要关节和特征图的信息，可以进一步提高该***的识别精度；

最后将所得到的特征值送入Softmax分类器中进行分类，得到最终的行为类别结果，其中，Soft分类器将行为分为违规行为和正常行为。

其中，在图5所示的LSTM网络中，Att为加入的注意力机制，表示矩阵的Kronecker积，表示矩阵加法，具体计算公式如下：

i_i＝σ(W_xi*gX_t+W_hi*gH_t-1+b_i) (2)

f_t＝σ(W_xf*gX_t+W_hf*gH_t-1+b_f) (3)

o_t＝σ(W_xo*gX_t+W_ho*gH_t-1+b_o) (4)

u_t＝tanh(W_xc*gX_t+W_hc*gH_t-1+b_c) (5)

C_t＝f_t⊙C_t-1+i_i⊙u_i (6)

式中，i_t表示输入门输出结果，f_t表示遗忘门输出结果，o_t表示输出门输出结果，u_t表示调整后的原始输入，其中i_t、f_t、o_t、u_t是通过图卷积得到的，我们用W_xi*gX_t表示W_xi和X_t的图卷积，其他W_***gX_*与W_***gH，均表示前后两者的图卷积，b_i、b_f、b_o、b_c为偏差，是神经网络自动学习的参数，同样，W_xi、W_xf、W_xo、W_xc、W_hi、W_hf、W_ho、W_hc为神经网络自动学习的权重矩阵，C_t和C_t-1为LSTM网络中t和t-1时刻输入门与遗忘门做矩阵运算后的中间变量，为LSTM未加注意力机制时的输出结果，H_t和H_t-1分别表示加入注意力机制后的t和t-1时刻隐藏层的状态，σ和tanh均为激活函数，f_att为注意力函数，⊙表示矩阵点积。

图6为实施例中行为识别数据示意图，识别为一个滑板运动行为，属于正常行为，在实际应用中，显示器包含一个主窗口用来显示触发警报的摄像头拍摄到的画面，画面中同时显示行为识别数据，包括违规行为的人的骨架、违规行为或正常行为的类别等信息，当没有违规行为发生时，可以手动选择查看任一监控摄像头，界面显示每个人的骨架信息和动作类别，最终的服务器的处理结果会显示在显示器上，若行为违规，报警器会亮警报灯并且鸣笛。

综上所述，本发明包含了完整的预警单元，基于QT、C++语言编写了可视化界面，即可视化预警结果，更加实用，能够推广到更多的实际场景中，比如在监狱中应用这种***，当狱中发生打架斗殴等指定的行为发生时，报警器闪烁并鸣笛，同时，显示器会跳转到发生打架斗殴的视频监控下，并标注出当前人物的骨架信息和行为类型，起到及时通知的作用，若日常想查看某一监控画面，则从用户界面上选择该监控即可；

本发明中所提出的行为识别方法采用端到端的算法，其网络的输入是从监控场景中采集的视频数据，网络的输出是具有人体骨架信息的视频和人物的实时动作，在优化普通网络不足的同时，减少了计算量，加快了网络的运行速度和训练速度，解决了当前诸多基于RGB图像的行为识别方法速度慢的问题，并且由图卷积神经网络直接对骨架数据进行处理而不是对原始视频帧处理，极大地减少了计算量，使网络能够实时运行，解决了网络运行速度慢、不能实时分析结果的问题。并能够对设定的情况及时判断，极大地减轻了人工的劳动强度，并且能够适应各种天气下场景内人的行为识别，拓宽了应用范围。

人工智能的崛起是人类的进步，更是社会的发展，智能监控***也日渐成为研究热点。该行为分析***属于智能视频监控的范畴，利用端对端的算法简单有效地实现了行为识别，可以快速获得场景内人体姿态以及行为信息，给社会安保提供了一个新的方向。本***成本较低，能够节省大量的人力和时间，不仅适用于监控区域内对行人行为识别，对算法稍加改进即可完成监控视频中任何人所有行为，同时可以计算场景内的人数。该***可用于金融和商务大楼、办公室内及交通枢纽、监狱等任何装有摄像头监控装置的场所，具有实际应用价值和研究意义。

Claims

1.一种基于骨架数据的行为识别***，其特征在于，包括数据采集单元、服务器、数据传输单元和显示预警单元，所述数据采集单元通过数据传输单元与服务器连接，所述服务器通过数据传输单元与显示预警单元连接，所述数据采集单元用于采集实时视频数据；

2.根据权利要求1所述的一种基于骨架数据的行为识别***，其特征在于，所述服务器包括依次连接的姿态估计模块、骨架数据处理模块、行为识别模块和预警控制模块，所述姿态估计模块用于从实时视频数据中提取人体骨架数据；

3.根据权利要求1所述的一种基于骨架数据的行为识别***，其特征在于，所述数据采集单元为摄像头，所述数据传输单元为无线网络或网络数据线，所述显示预警单元包括显示器和报警器。

4.一种基于骨架数据的行为识别方法，其特征在于，包括以下步骤：

S1、采集实时视频数据；

5.根据权利要求4所述的一种基于骨架数据的行为识别方法，其特征在于，所述步骤S2具体包括以下步骤：

S21、将实时视频数据处理成序列化的视频帧；

6.根据权利要求5所述的一种基于骨架数据的行为识别方法，其特征在于，所述步骤S4具体包括以下步骤：

S43、骨架最终特征值进入Softmax分类器，输出行为类别结果。

7.根据权利要求6所述的一种基于骨架数据的行为识别方法，其特征在于，所述时空图卷积神经网络的卷积核包括第一维度和第二维度，所述第一维度用于提取骨架空间信息，所述第二维度用于提取骨架时间信息。

8.根据权利要求6所述的一种基于骨架数据的行为识别方法，其特征在于，所述长短周期记忆网络中包含注意力机制，所述注意力机制用于增强骨架关键点信息。