CN110956111A

CN110956111A - 人工智能cnn、lstm神经网络步态识别***

Info

Publication number: CN110956111A
Application number: CN201911161886.7A
Authority: CN
Inventors: 詹志超
Original assignee: Suzhou Shanchi Numerical Control System Integration Co ltd
Current assignee: Suzhou Shanchi Numerical Control System Integration Co ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-03

Abstract

本发明涉及一种人工智能CNN、LSTM神经网络步态识别***，包括拍摄终端(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作***(500)、云计算(600)、与云数据库步态黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。本发明通过人工智能CNN、LSTM神经网络步态识别***用拍摄终端采集的人脸特征、语音特征、步态特征及行为特征信息的视频流进行特征提取，进而对特征信息进行步态特征相关的技术处理，包括打架、偷盗、老人摔倒、聚众事件、入侵、蒙面等，实现拍摄终端周边监测范围内全天候24小时不间断监控，用户可实现信息共享，提高信息资源利用率，为维护社会治安稳定加大安全保障。

Description

人工智能CNN、LSTM神经网络步态识别***

技术领域

本发明涉及智能安防预警领域，具体涉及一种用于安防维稳的人工智能CNN、LSTM神经网络步态识别***。

背景技术

人工智能CNN、LSTM神经网络步态识别***是将先进的拍摄终端技术、中央处理器CPU、图像处理器GPU、神经网络处理器NPU、异构/可重构处理器技术、卷积神经网络技术、长短时记忆神经网络技术、AI计算机预警处理技术、AI人工智能预警操作技术、风险因素采集技术、风险因素识别技术、大数据分析技术、云计算技术、云存储技术、云数据库技术等有效的集成应用于整个人工智能CNN、LSTM神经网络步态识别***，而建立的一种在大范围、全方位发挥作用的，实时、准确、高效的综合智能预警***。

随着祖国西部边疆维稳的措施常态化，使边疆长期保持一个稳定的局面，保证经济能够实现快速发展，人工智能CNN、LSTM神经网络步态识别***为从根本上解决影响长治久安的深层次问题打下良好基础。

发明内容

本发明是为了克服现有安防***中存在不自动识别步态行为、监控措施有漏洞、防范不及时等问题，提出一种人工智能CNN、LSTM神经网络步态识别***，通过拍摄终端对风险因素源头进行布控，实时采集风险源因素的步态信息，进行步态检测、步态目标跟踪、特征图谱信号预处理、步态特征提取、行为匹配与识别，把提取的步态特征数据与数据库中存储的步态特征手写体模板进行搜索对比，根据相似程度，对身份信息进行判断，设定一个阈值，当相似度超过这一阈值，则把匹配得到的结果输出。

为实现上述使用人工智能CNN、LSTM神经网络步态识别***对风险因素源头进行步态识别信息的采集、步态检测、步态目标跟踪、步态信号预处理、步态特征提取、行为匹配与识别，再进行分级预警的目的，本发明专利提供如下技术方案：一种人工智能CNN、LSTM神经网络步态识别***，包括拍摄终端(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作***(500)、云计算(600)、与云数据库步态黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)本发明通过人工智能CNN、LSTM神经网络步态识别***对风险因素进行采集、对比分析、存储、分级报警、应对防控，实现对拍摄终端周边布控点进行全天候24小时监控，用户可实现信息共享，提高信息资源利用率，为维护边疆稳定加大安全保障。

本发明提供一种人工智能CNN、LSTM神经网络步态识别***包括，拍摄终端(100)用于采集含有人脸特征、语音特征、行为特征及步态特征信息的视频流，并自动在图像中检测和跟踪人脸、语音、行为和步态特征的信息，进而对检测到的人脸特征、语音特征、行为特征及步态特征信息进行一系列与行为相关的技术处理，包括人脸识别、语音识别、行为特征信息识别及步态特征信息识别(包括打架、盗窃、老人摔倒、聚众事件、入侵、蒙面等等)，并通过网络将图像序列发送至服务器(200)，所述网络包括局域网、Interne或无线网络。

步态信号采用网络传输：包括局域网、Interne或无线网络。所述网络传输用于拍摄终端向服务器发送动态信号序列。

服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络模块(300)、长短时记忆神经网络(400)、人工智能预警操作***(500)、云计算(600)模块、与云数据库动态黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900)，所述服务器(200)用于为网络***中客户端提供各种高性能计算的服务，服务器在人工智能预警操作***的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云服务器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务。

卷积神经网络(300)包括输入层、硬连线层H1、卷积层C2、下采样层S3、卷积层C4、下采样层S5、卷积层C6、Dropout层、输入长短时记忆神经网络，卷积神经网络通过3D卷积核去提取视频数据的时间和空间特征，3D特征提取器在空间和时间维度上的操作，可以捕捉视频流的运动信息，3D卷积特征提取器构造了一个3D卷积神经网络架构，这个架构可以从连续视频帧中产生多通道的信息，然后在每一个通道都分离地进行卷积和下采样操作，最后将所有通道的信息组合起来得到最终的特征描述，通过计算高层运动特征得到辅助输出来增强模型，在Trecvid数据集中测试，并和一些基准方法进行比较，为了应对不同环境的使用，综合多个不同的CNN架构去综合判断识别结果，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核去捕捉时间和空间维度上的运动特征信息，卷积层中每个3D卷积核的权值都是一样的，也就是共享权值，一个卷积核只能提取一种运动特征，多种卷积核提取多种运动特征，每个3D卷积核卷积的立方体是连续7帧，每帧大小是60×40，首先将预处理后的连续7帧，每帧大小是60×40的序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C2进行初始化操作，首先对卷积层和输出层的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为0.001，对偏置进行全0初始化，再对卷积神经网络进行训练。

长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门，LSTM用两个门来控制单元状态c的内容，一个是遗忘门，它决定了上一时刻的单元状态c_t-1有多少保留到当前时刻c_t，t-1时刻的输入h_t-1和x_t经过一个线性变换+sigmoid激活以后输出f_t，f_t再与c_t-1进行相乘得到一个中间结果，另一个是输入门，它决定了当前时刻网络的输入x_t有多少保存到单元状态c_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出l_t，同时h_t-1和x_t经过另一个线性变换+tanh激活以后，与l_t相乘得到一个中间结果，这个中间结果和上一步的中间结果相加得到c_t，所谓输出门，LSTM用输出门来控制单元状态c_t有多少输出到LSTM的当前输出值h_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出o_t，o_t与经过tanh的c_t相乘得到h_t，这里c、x、h都是向量，LSTM记忆单元时间序列数据包括步态特征模型、手写体识别、序列生成、行为分析，这里的序列指的是时间向量序列，假设时间序列为：

X{x¹，x²，...，x^N}

时间序列模型为：

将卷积神经网络Dropout层长度为128的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出，输出向量经过softmax函数进行转换，输出行为分类标签向量，看是消极行为还是积极行为。

人工智能预警操作***(500)基于Linux操作***架构的基础上开发的AI算法程序，该***包括类脑神经网络***、多维人机物协同互操作***、公共安全智能化监测预警与防控***、自主无人伺服***、天地一体化信息网络平台***，用于管理和控制计算机硬件、软件及数据资源的计算机运行程序，用于各级人工智能预警***与互联网+分布式预警警亭沟通的接口，用于云计算、云存储、云数据库和人工智能预警***、互联网+分布式预警警亭及其他软件沟通的接口，用于多维人机物协同互操作***与移动设备和智能电视的通讯接口，用于人机界面为其它应用软件提供支持，包括类脑神经网络***、多维人机物协同互操作***、公共安全智能化监测预警与防控***、自主无人伺服***、天地一体化网络信息平台***、智能物联与风险因素数据采集***、风险因素管理***，人工智能预警操作***(500)子***包括步态识别***、机器视觉***、执行器***、认知行为***，文件***、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。

云计算(600)基于开源Hadoop架构进行设计，利用集群优势进行高速运算和存储，云计算(600)包括基础设施即服务、平台即服务、软件即服务，用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大***经搜寻与海量的数据信息进行对比分析，分级推理、预警值评估，之后再将处理结果回传给用户并进行云存储。

与云数据库步态黑名单对比分析(700)模块，所述云数据库包括原始步态信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集步态信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库，所述云数据库用于云计算(600)***的集群应用，将分布式***文件通过应用软件集合起来协同工作，为用户提供数据存储和业务访问的工作，通过设置在线数据存储模块，存储模块内储存有人脸图像黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单，将采集的人脸图像、动态特征信息、步态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比，如果相似度达到预设的预警值，则预警***及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警***进行风险管理评价。

确定目标人物身份(800)模块用于处理与云数据库步态黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警***的信息，并根据云计算(600)通过与云数据库步态黑名单对比分析(700)传送的数据进行实时信息更新，用于存储所述人工智能预警***(500)对云数据库信息查阅所生成的信息数据。

本地数据库模块(900)用于存储本级人工智能预警操作***所生成的预警信息，用于存储向上一级人工智能预警操作***发送的信息及反馈信息，用于存储向云计算发送的信息及反馈信息。

优选方式，所述云数据库***包括有步态识别黑名单。

优选方式，所述网络包括局域网、Internet或无线网络。

优选方式，所述卷积神经网络激活函数为ReLU激活函数。

优选方式，所述卷积神经网络损失函数为交叉熵损失函数。

优选方式，所述拍摄终端为AI拍摄终端。

优选方式，所述云计算是基于开源Hadoop架构进行设计。

优选方式，所述云数据库：通过在线数据存储模块，在线数据存储模块基于开源Hadoop架构进行设计。

优选方式，所述云数据库分为原始步态信息数据库、原始图像特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集步态信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库。

优选方式，所述人工智能预警操作***基于Linux操作***架构的基础上开发的AI算法程序。

优选方式，所述步态特征信息包括采集的特征图谱信息。

优选方式，所述原始步态特征信息包括存储模块储存的步态黑名单。

优选方式，所述服务器700包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器。

优选方式，所述卷积层、池化层为特征提取，所述全连接层为分类识别，激活函数ReLU为正则损失。

附图说明

图1为人工智能CNN、LSTM神经网络步态识别***结构框图：100、拍摄终端；200、服务器；300、卷积神经网络；400、长短时记忆神经网络；500、人工智能预警操作***；600、云计算；700、与云数据库步态黑名单对比分析；800、确定目标人物身份；900、本地数据库。

图2为卷积神经网络结构示意图：输入层、硬连线层H1、卷积层C2、下采样层S3、卷积层C4、下采样层S5、卷积层C6、Dropout层。

图3为长短时记忆神经网络结构示意图。

具体实施方式

下面结合说明书附图对本发明的技术方案进行清楚、完整地描述具体实施方式。

本发明提供一种人工智能CNN、LSTM神经网络步态识别***，如图1所示，拍摄终端(100)用于采集含有人脸特征、语音特征、行为特征及步态特征信息的视频流，并自动在图像中检测和跟踪人脸、语音、行为、步态特征的信息，进而对检测到的人脸特征、语音特征、行为特征及步态特征信息进行一系列与行为相关的技术处理，包括人脸识别、语音识别、行为特征识别及步态特征信息识别(包括打架、盗窃、老人摔倒、聚众事件、入侵、蒙面等等)，并通过网络将图像序列发送至服务器(200)，所述网络包括局域网、Interne或无线网络，整体***结构如图1所示。

服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作***(500)、云计算(600)模块、与云数据库步态黑名单对比分析(700)模块、确定目标人物身份(800)模块、本地数据库模块(900)，所述服务器(200)用于为网络***中客户端提供各种高性能计算的服务，服务器在人工智能预警操作***的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、Web服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务，所述神经网络处理器NPU用于完成卷积神经网络、长短时记忆神经网络的运算过程，所述异构/可重构处理器用于CPU、GPU、NPU之间协同计算，彼此加速，一起同步工作。

卷积神经网络(300)包括输入层、硬连线层H1、卷积层C2、下采样层S3、卷积层C4、下采样层S5、卷积层C6、Dropout层、输入长短时记忆神经网络，卷积神经网络通过3D卷积核去提取步态视频数据的空间信息和频率信息，再对步态图像进行预处理，包括人体步态运动背景建模、运动目标分割、二值化处理、形态学消噪处理、步态空间特征提取、步态图像频率特征提取和步态特征的融合等步骤，所述背景建模是对步态前景和背景进行分割，实现对运动物体的跟踪，本方法采用视频帧差法进行背景建模，假设步态视频单帧图像的序列为{I_i(x，y)}，i＝1，2，...，N，(x，y)表示步态图像的像素坐标，i表示步态图像帧的序数，N表示步态图像序列总帧数，视频帧差公式如下所示；

其中，d＝|I_i+1(x，y)-I_i(x，y)|，T为阈值；

所述运动目标分割是提取背景图像后，需要将人体运行图像从背景中分割出来，由于时域差分法对人体区域和背景差别不大时难以准确将运动目标分割，本方法采用改进时域差分法进行人体运动目标分割，改进时域差分法公式如下所示；

其中B表示背景图像在点(x，y)处的像素值，I表示当前帧在点(x，y)处的像素值，若B和I在(x，y)处的像素值相等，公式值则为零；

所述图像二值化处理是采用二值化方法对分割出来的人体运动图像处理，消除步态图像中含有一些小的噪声区域，二值化过程公式如下所示；

所述形态学消噪处理是经过背景消除和二值化处理后，对步态图像中影响步态识别的噪声和小洞，为了避免影响识别效果，采用二值数学形态学滤除噪声和填充小孔，图像经过二值数学形态学处理后，较大噪声区域仍然不能完全消除，对区域检测后的图像进行归一化，使步态图像高度、宽度统一；

所述步态空间特征提取是对归一化后步态图像采用极坐标系对其空间特征进行描述，在切割线上任取一点(P，θ)，若该点位于人体区域内，切割函数值为1，反之为0，切割函数的公式如下所示；

假设有m条切割线，每条切割线上有n个点，那么步态空间特征矩阵为：

所述步态图像频率特征提取，利用频率特征对步态特征进行补充，采用傅里叶变换提取步态图像的频率特征，公式如下所示；

其中，k表示频率，f_p(θ_j)表示切割向量上的点，傅里叶变换的步态图像频率特征矩阵为：

所述步态特征的融合按照频率大小，对其进行升序排序，获得同一频率下所有切割向量的分量，从而得到该频率下的步态特征，在同一频率下，按照切割曲线极径由小到大的顺序进行提取，公式如下所示；

其中，p_i表示极径大小，从上面公式可知，每一个步骤特征向量v_k同时包含同一频率的特征和不同区域的步态特征，分别对步态空间与频率特征进行描述，步态特征融合后包含(n+k)个特征向量，特征向量间相互独立，能够对每一个特征向量单独进行识别；

所述验证算法是同单一空间特征和频率特征提取方法做对比实验，算法性能评价指标为：正确分类率CCR和累计匹配值CMS，它们分别定义公式如下所示；

其中，R_rank表示阶次为rank时，步态图像被正确识别的样本个数，N表示测试样本数，N_c表示被正确识别的样本个数，3D特征提取器在空间和时间维度上的操作，可以捕捉视频流的运动信息，构造了一个3D卷积神经网络架构，这个架构可以从连续视频帧中产生多通道的信息，然后在每一个通道都分离地进行卷积和下采样操作，最后将所有通道的信息组合起来得到最终的特征描述，通过计算高层运动特征得到辅助输出来增强模型，在Trecvid数据集中测试，并和一些基准方法进行比较，为了应对不同环境的使用，综合多个不同的CNN架构去综合判断识别结果，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核去捕捉时间和空间维度上的运动特征信息，卷积层中每个3D卷积核的权值都是一样的，也就是共享权值，一个卷积核只能提取一种运动特征，多种卷积核提取多种运动特征，每个3D卷积核卷积的立方体是连续7帧，每帧大小是60×40，首先将预处理后的连续7帧，每帧大小是60×40的序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C2进行初始化操作，首先对卷积层和输出层的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为0.001，对偏置进行全0初始化，再对卷积神经网络进行训练，步骤如下：

a)输入层：输入连续7帧，每帧大小60×40；

b)硬连线层H1：H1层用来生成多通道信息，被用来编码先验知识，该层对输入层的每一帧提取五个通道的信息，分别是：灰度值、x方向的梯度、y方向的梯度，x方向的光流、y方向的光流，其中前面三个值对每帧都计算，x和y方向的光流需要两个连续帧才能计算，由于输入层是7帧，所以H1的特征图数量是7(灰度值)+7(x方向的梯度)+7(y方向的梯度)+6(x方向的光流)+6(y方向的光流)＝33，每个特征图大小依然是60×40；

c)卷积层C2：C2层是3D卷积层，3D卷积核大小是7×7×3，其中7×7表示在空间上的大小，3是时间维的长度，C2层对H1层的五个通道的每一个通道分别进行卷积，特征图数量是(7-3+1)×3+(6-3+1)×2＝5×3+4×2＝23，乘以3表示灰度、x和y方向的梯度这三个通道，乘以2表示x和y方向的光流，采用2个不同的卷积核，这样C2层有两组特征图，每组都包含23个特征图，即C2层总的特征图数量是23×2，每个特征图的大小是(60-7+1)×(40-7+1)＝54×34，C2层的可训练参数是(7×7×3×5+5)×2＝740×2＝1480个，其中的乘以5表示5个通道的信息，加上5表示偏置项，乘以2

表示有2个不同的卷积核，3D卷积层深度为1的卷积计算方法，公式如下所示：

上式一中x_i，j表示图像的第i行第j列元素，w_m.n表示第m行第n列权重，wb表示过滤器的偏置项，α_i，j表示特征图谱的第i行第j列元素，f表示relu激活函数；

当步长为2时，特征图谱就变成2×2了，计算公式如下所示：

W₂＝(W₁-F+2P)/S+1 式二

H₂＝(H₁-F+2P)/S+1 式三

上式二、三中W₂表示卷积后特征图谱的宽度，W₁表示卷积前图像的宽度，F表示过滤器的宽度，P表示零填充数量，S表示步长，H₂表示卷积后的特征图谱的高度，H₁表示卷积前图像的宽度，深度大于1的卷积计算方式，公式如下所示：

上式四中D表示深度，F表示过滤器的大小(宽度或高度，两者相同)，w_d，m，n表示过滤器的第d层第m行第n列权重，α_d，i，j表示图像的第d层第i行第j列像素，其它符号含义和式一公式是相同的；

d)下采样层S3：采用最大池化方法，采样窗口是2×2，所以每个特征图大小是(54/2)×(34/2)＝27×17，特征图数量等于上一层数量依然是23×2，其一般表示形式，公式如下所示：

式五中a_i，j表示特征图谱的第i行第j列元素，b为偏差量，K为特征图的通道数，f、s₀和p是卷积层参数，对应卷积核大小、卷积步长和填充层数，特殊地，当卷积核是大小f＝1，步长s₀＝1且不包含填充的单位卷积核时，卷积层内的交叉相关计算等价于矩阵乘法，步长s₀、像素(i，j)的含义与卷积层相同，p是预指定参数，当p＝1时，当p→∞时，Lp池化在区域内取最大值，称为最大池化，以损失特征图尺寸为代价保留图像的背景和纹理信息；

e)卷积层C4：C4层是3D卷积层，卷积核大小是7×6×3，其中7×6表示在空间上的大小，3是时间维，特征图数量是(5-3+1)×3+(4-3+1)×2＝3×3+2×2＝13，乘以3表示灰度值、x和y方向的梯度这三个通道，乘以2表示x和y方向的光流，采用6个不同的卷积核，这样C2层有6组特征图，每组都包含6个特征图，即本层总的特征图数量是13×6＝78，每个特征图的大小是(27-7+1)×(17-6+1)＝21×12，可训练参数有(7×6×3×5+5)×6＝3810个，C4计算公式与C2公式相同；

f)下采样层S5：S5层下采样层，采用最大池化方法，采样窗口是3×3，所以每个特征图大小是(21/3)×(12/3)＝7×4，特征图数量等于上一层数量依然是13×6＝78，C6层是2D卷积层，卷积核大小是7×4，特征图数量是128，特征图大小是1×1，每一个特征图都与S5层的78个特征图相连接，可训练参数有(4×7×128+128)×(13×6)＝289536个，S3计算公式与S5计算公式相同；

g)卷积层C6：这一层只在空间维度上面卷积，使用的核为7×4，然后输出的特征图谱就减小到1×1的大小，其包含128个特征图谱，每个特征图谱与S5层中所有78(13×6)个特征图谱全连接，这样每个特征图谱就是1×1，也就是一个值了，而这个值就是最终的特征向量共128维，C6计算公式与C2公式相同；

h)Dropout层：随机地为网络中的神经元赋值零权重，由于选择了0.5的比率，则50％的神经元将会是零权重，通过这种操作，网络对数据的微小变化的响应就不那么敏感了，因此，它能够进一步提高对不可见数据处理的准确性，Dropout层的输出仍然是一个1×128的矩阵，再将长度为128的向量输出值输入到长短时记忆神经网络(400)进行时间序列行为分析运算；

i)将卷积神经网络进行权值初始化，输入数据，重复步骤(a)～(h)，前向传播得到输出值，求出卷积神经网络的输出值与目标值之间的误差，当误差大于期望值时，将误差传回卷积神经网络中，用BP反向传播算法进行监督训练，求出结果与期望值的误差，再将误差一层一层的返回，计算出每一层的误差，进行权值更新，依次为Dropout层、卷积层C6、下采样层S5、卷积层C4、下采样层S3、卷积层C2、硬连线层H1的误差，以求得卷积神经网络的总误差，再将误差传入卷积神经网络中，求得该各层对于总的误差应该承担多少比重，在训练卷积神经网络时，通过不断改变卷积神经网络中所有参数，使损失函数不断减小，当误差等于或小于期望值时，证明已训练出高精度的卷积神经网络模型，结束训练；

j)采集预处理后的连续7帧立方体序列输入卷积神经网络进行测试，通过步骤(a)～(h)卷积神经网络的数据处理过程后，数据被处理为一个1×128向量，输入到softmax分类器进行分离，softmax分类器将要分离的信号映射到相应的标签上，训练时信号经过卷积神经网络的数据处理过程得到一个分类结果，将其与相应的标签数据进行比较算出相应的相对误差，通过训练一定的次数不断修正卷积神经网络中的卷积窗口上的权值使得相对误差不断减小，最后趋于收敛，然后将测试集输入到该网络中进行测试分类，得到分类结果标签向量，最大值元素所在标号表示该运动特征为本次测试运动特征的类别标签，实现行为识别。

X{x1，x2，...，xN}

时间序列模型为：

将卷积神经网络Dropout层长度为128的向量序列的输出值输入到长短时记忆神经网络运算得到一个输出，输出向量经过softmax函数进行转换，输出行为分类标签向量，看是正面行为，还是负面行为；

对长短时记忆神经网络进行前向训练，步骤如下所示：

a)遗忘门的计算，公式如下所示：

f_t＝σ(w_f·[h_t-1，x_t]+b_f)

式1中W_f表示遗忘门的权重矩阵，[h_t-1，x_t]表示把两个向量连接成一个更长的向量，b_f表示遗忘门的偏置项，σ表示sigmoid函数，如果输入的维度是d_x，隐藏层的维度是d_n，单元状态的维度是d_c(通常d_c＝d_n)，则遗忘门的权重矩阵w_f维度是d_c×(d_n+d_x)，事实上，权重矩阵W_f都是由两个矩阵拼接而成的，一个是W_fh，它对应着输入项h_t-1，其维度为d_c×d_h，一个是w_fx，它对应着输入项x_t，其维度为d_c×d_x，W_f可以写为，公式如下所示：

b)输入门的计算，公式如下所示：

i_t＝σ(w_i·[h_t-1，x_t]+b_i) 式2

式2中w_i表示输入门的权重矩阵，b_i表示输入门的偏置项，下面计算用于描述当前输入的单元状态

它是根据上一次的输出和本次输入来计算的，公式如下所示：

计算当前时刻的单元状态c_t，它是由上一次的单元状态c_t-1按元素乘以遗忘门f_t，再用当前输入的单元状态

按元素乘以输入门i_t，再将两个积加和产生的，公式如下所示：

符号

表示按元素乘，这样就把LSTM关于当前的记忆

和长期的记忆c_t-1组合在一起，形成了新的单元状态c_t，由于遗忘门的控制，它可以保存很久之前的信息，由于输入门的控制，它又可以避免当前无关紧要的内容进入记忆；

c)输出门的计算，公式如下所示：

o_t＝σ(w_o·[h_t-1，x_t]+b_o) 式5

输出门它控制了长期记忆对当前输出的影响，LSTM最终的输出，是由输出门和单元状态

共同确定的，公式如下所示：

d)对长短时记忆神经网络进行反向传播训练，LSTM反向传播计算每个神经元的误差项δ值，LSTM误差项的反向传播包括两个方向，一个是沿时间的反向传播，即从当前t时刻开始计算每个时刻的误差项，另一个是将误差项向上一层传播，步骤如下：

设定gate的激活函数为sigmoid函数，输出的激活函数为tanh函数，它们的导数分别为，公式如下所示：

σ′(z)＝y(1-y)

tanh′(z)＝1-y²

上式中sigmoid和tanh函数的导数都是原函数的函数，一旦计算原函数，就可以用它来计算出导数的值，LSTM需要学习的参数共有8组，分别是遗忘门的权重矩阵w_f和偏置项b_f、输入门的权重矩阵w_i和偏置项b_i、输出门的权重矩阵w_o和偏置项b_o、以及计算单元状态的权重矩阵w_c和偏置项b_c，权重矩阵的两部分在反向传播中使用不同的公式，在后续的推导中权重矩阵w_f、w_i、w_o、w_c都将被写为分开的两个矩阵：w_fh、w_fx、w_ih、w_ix、w_oh、w_ox、w_ch、w_cx；

e)按元素乘

符号，当

作用于两个向量时，运算公式如下所示：

当

作用于一个向量和一个矩阵时，运算公式如下所示：

当

作用于两个矩阵时，两个矩阵对应位置的元素相乘，公式如下所示：

当一个行向量右乘一个对角矩阵时，相当于这个行向量按元素乘矩阵对角线组成的向量，公式如下所示：

在t时刻，LSTM的输出值为h_t，定义t时刻的误差项δ_t为，公式如下所示：

假设误差项是损失函数对输出值的导数，需要定义四个加权输入对应的误差项，公式如下所示：

net_f，t＝w_f[h_t-1，x_t]+b_f

＝w_fhh_t-1+w_fxx_t+b_f

net_i，t＝w_i[h_t-1，x_t]+b_i

＝w_ihh_t-1+w_ixx_t+b_i

net_o，t＝w_o[h_t-1，x_t]+b_o

＝w_ohh_t-1+w_oxx_t+b_o

f)沿时间反向传递误差项，计算出t-1时刻的误差项δ_t-1，公式如下所示：

利用全导数公式得出式七，公式如下所示：

求式七中每个偏导数，公式如下所示：

根据式六求出：

根据式四求出：

因如下运算：

o_t＝σ(net_o，t)

net_o，t＝w_ohh_t-1+w_oxx_t+b_o

f_t＝σ(net_f，t)

net_f，t＝w_fhh_t-1+w_fxx_t+b_f

i_t＝σ(net_i，t)

net_i，t＝w_ihh_t-1+w_ixx_t+b_i

所得出偏导数，公式如下所示：

将上述偏导数带入到式七中得到式八，公式如下所示：

根据δ_o，t、δ_f，t、δ_i，t、

t的定义，得到式九、式十、式十一、式十二，公式如下所示：

从式八到式十二是误差项沿时间反向传播的时刻公式，根据式八到式十二求得误差项向前传递到任意k时刻的十三公式，公式如下所示：

g)将误差项传递到上一层，假设当前为第l层，定义l-1层的误差项是误差函数对l-1层加权输入的导数，公式如下所示：

LSTM的输入x_t，公式如下所示：

上式中，f^l-1表示第l-1层的激活函数，求E对

的导数，用全导数公式将误差传递到上一层，公式如下所示：

h)权重梯度的计算w_fh、w_ih、w_ch、w_oh的权重梯度是各个时刻梯度之和，首先求出它们在t时刻的梯度，公式如下所示：

将各个时刻的梯度加在一起，得到最终的梯度，公式如下所示：

求b_f、b_i、b_c、b_o各个时刻的偏置项梯度，公式如下所示：

将各个时刻的偏置项梯度加在一起，公式如下所示：

根据误差项，求w_fx、w_ix、w_cx、w_ox的权重梯度，公式如下所示：

i)将长短时记忆神经网络每个输出值进行均值池化，输出向量经过softmax函数进行转换，输出行为分类标签向量，最大值元素所在标号表示该特征图谱属于该类别标签的向量，看是消极行为还是积极行为；

j)最后使用交叉熵误差函数作为优化目标对模型进行优化，公式如下所示：

上式中，N是训练样本的个数，向量y_n是样本的标记，向量o_n是网络的输出，标记y_n是一个one-hot向量；

k)跳转到第(a)步，输入数据，重复步骤(a)～(j)，直至网络误差小于给定值，证明已训练出高精度的长短时记忆神经网络模型，结束训练；

l)采集预处理后的特征图谱序列中任意一组进行测试，通过步骤(a)～(j)得到行为分类结果标签向量，最大值元素所在标号表示该特征图谱为本次测试的行为类别标签，实现步态识别。

与云数据库步态黑名单对比分析(700)模块，所述云数据库包括原始图像信息数据库、原始步态特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集步态信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库，所述云数据库用于云计算(600)***的集群应用，将分布式***文件通过应用软件集合起来协同工作，为用户提供数据存储和业务访问的工作，通过设置在线数据存储模块，存储模块内储存有人脸图像黑名单、动态特征信息黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单，将采集的人脸图像、动态特征信息、步态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比分析，如果相似度达到预设的预警值，则预警***及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警***进行风险管理评价。

Claims

1.人工智能CNN、LSTM神经网络步态识别***，其特征在于：包括：拍摄终端(100)、服务器(200)、卷积神经网络(300)、长短时记忆神经网络(400)、人工智能预警操作***(500)、云计算(600)、与云数据库步态黑名单对比分析(700)、确定目标人物身份(800)、本地数据库模块(900)。

2.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述拍摄终端(100)用于采集含有人体运动及步态特征信息的视频流，自动在图像中检测和跟踪、并对运动人体进行相应分割，然后对运动人体进行步态特征提取，进而对检测到的步态特征信息进行一系列与人体运动相关的技术处理，包括获取视频、分离帧、分离目标人物、轮廓抽取、人体步态运动背景建模、运动目标分割、特征提取等，并通过网络将图像序列发送至服务器(200)，所述网络包括局域网、Interne或无线网络。

3.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述服务器(200)包括高性能中央处理器CPU、图像处理器GPU、可编程逻辑门阵列FPGA、神经网络处理器NPU、异构/可重构处理器，所述服务器(200)用于为网络***中客户端提供各种高性能计算的服务，服务器在人工智能预警操作***的控制下，将与其相连的网络视频服务器、程控交换机、AI云计算服务器、AI数据库服务器、GPU云处理器、NPU神经网络云处理器、异构/可重构云处理器、域名服务器、通讯服务器、显示器、混合矩阵、路由器、调制解调器相连接，为远程监控客户端提供集中计算、信息发布及数据管理的服务。

4.根据权利要求1所述种人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述卷积神经网络(300)包括输入层、硬连线层H1、卷积层C2、下采样层S3、卷积层C4、下采样层S5、卷积层C6、Dropout层、输入长短时记忆神经网络，卷积神经网络通过3D卷积核去提取步态视频数据的空间信息和频率信息，再对步态图像进行预处理，包括人体步态运动背景建模、运动目标分割、二值化处理、形态学消噪处理、步态空间特征提取、步态图像频率特征提取和步态特征的融合等步骤，所述背景建模是对步态前景和背景进行分割，实现对运动物体的跟踪，本方法采用视频帧差法进行背景建模，假设步态视频单帧图像的序列为{I_i(x，y)}，i＝1，2，...，N，(x，y)表示步态图像的像素坐标，i表示步态图像帧的序数，N表示步态图像序列总帧数，视频帧差公式如下所示；

其中，d＝|I_i+1 (x，y)-I_i(x，y)|，T为阈值；

其中，R_rank表示阶次为rank时，步态图像被正确识别的样本个数，N表示测试样本数，N_c表示被正确识别的样本个数；

3D特征提取器在空间和时间维度上的操作，可以捕捉视频流的运动信息，构造了一个3D卷积神经网络架构，这个架构可以从连续视频帧中产生多通道的信息，然后在每一个通道都分离地进行卷积和下采样操作，最后将所有通道的信息组合起来得到最终的特征描述，通过计算高层运动特征得到辅助输出来增强模型，在Trecvid数据集中测试，并和一些基准方法进行比较，为了应对不同环境的使用，综合多个不同的CNN架构去综合判断识别结果，3D卷积是通过堆叠多个连续的帧组成一个立方体，然后在立方体中运用3D卷积核去捕捉时间和空间维度上的运动特征信息，卷积层中每个3D卷积核的权值都是一样的，也就是共享权值，一个卷积核只能提取一种运动特征，多种卷积核提取多种运动特征，每个3D卷积核卷积的立方体是连续7帧，每帧大小是60×40，首先将预处理后的连续7帧，每帧大小是60×40的序列输入卷积神经网络进行训练，更新卷积神经网络各层权值，对卷积神经网络卷积层C2进行初始化操作，首先对卷积层和输出层的卷积核和权重进行高斯分布随机初始化，均值设为0，方差设为0.001，对偏置进行全0初始化，再对卷积神经网络进行训练，步骤如下：

a)输入层：输入连续7帧，每帧大小60×40；

c)卷积层C2：C2层是3D卷积层，3D卷积核大小是7×7×3，其中7×7表示在空间上的大小，3是时间维的长度，C2层对H1层的五个通道的每一个通道分别进行卷积，特征图数量是(7-3+1)×3+(6-3+1)×2＝5×3+4×2＝23，乘以3表示灰度、x和y方向的梯度这三个通道，乘以2表示x和y方向的光流，采用2个不同的卷积核，这样C2层有两组特征图，每组都包含23个特征图，即C2层总的特征图数量是23×2，每个特征图的大小是(60-7+1)×(40-7+1)＝54×34，C2层的可训练参数是(7×7×3×5+5)×2＝740×2＝1480个，其中的乘以5表示5个通道的信息，加上5表示偏置项，乘以2表示有2个不同的卷积核，3D卷积层深度为1的卷积计算方法，公式如下所示：

上式一中x_i，j表示图像的第i行第j列元素，w_m，n表示第m行第n列权重，wb表示过滤器的偏置项，a_i，j表示特征图谱的第i行第j列元素，f表示relu激活函数；

当步长为2时，特征图谱就变成2×2了，计算公式如下所示：

W₂＝(W₁-F+2P)/S+1 式二

H₂＝(H₁-F+2P)/S+1 式三

上式二、三中W₂表示卷积后特征图谱的宽度，W₁表示卷积前图像的宽度，F表示过滤器的宽度，P表示零填充数量，S表示步长，H₂表示卷积后的特征图谱的高度，H₁表示卷积前图像的宽度；

深度大于1的卷积计算方式，公式如下所示：

上式四中D表示深度，F表示过滤器的大小(宽度或高度，两者相同)，w_d，m，n表示过滤器的第d层第m行第n列权重，a_d，i，j表示图像的第d层第i行第j列像素，其它符号含义和式一公式是相同的；

式五中a_i，j表示特征图谱的第i行第j列元素，b为偏差量，K为特征图的通道数，f、S_o和P是卷积层参数，对应卷积核大小、卷积步长和填充层数，特殊地，当卷积核是大小f＝1，步长S_o＝1且不包含填充的单位卷积核时，卷积层内的交叉相关计算等价于矩阵乘法，步长S_o、像素(i，j)的含义与卷积层相同，P是预指定参数，当P＝1时，当P^→∞时，Lp池化在区域内取最大值，称为最大池化，以损失特征图尺寸为代价保留图像的背景和纹理信息；

j)采集预处理后的连续7帧立方体序列输入卷积神经网络进行测试，通过步骤(a)～(h)卷积神经网络的数据处理过程后，数据被处理为一个1×128向量，输入到softmax分类器进行分离，softmax分类器将要分离的信号映射到相应的标签上，训练时信号经过卷积神经网络的数据处理过程得到一个分类结果，将其与相应的标签数据进行比较算出相应的相对误差，通过训练一定的次数不断修正卷积神经网络中的卷积窗口上的权值使得相对误差不断减小，最后趋于收敛，然后将测试集输入到该网络中进行测试分类，得到分类结果标签向量，最大值元素所在标号表示该运动特征为本次测试运动特征的类别标签，实现步态识别。

5.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述长短时记忆神经网络(400)LSTM记忆单元包括遗忘门、输入门、输出门，LSTM用两个门来控制单元状态c的内容，一个是遗忘门，它决定了上一时刻的单元状态c_t-1有多少保留到当前时刻c_t，t-1时刻的输入h_t-1和x_t经过一个线性变换+sigmoid激活以后输出f_t，f_t再与c_t-1进行相乘得到一个中间结果，另一个是输入门，它决定了当前时刻网络的输入x_t有多少保存到单元状态c_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出l_t，同时h_t-1和x_t经过另一个线性变换+tanh激活以后，与l_t相乘得到一个中间结果，这个中间结果和上一步的中间结果相加得到c_t，所谓输出门，LSTM用输出门来控制单元状态c_t有多少输出到LSTM的当前输出值h_t，t-1时刻的输入h_t-1和x_t经过另外一个线性变换+sigmoid激活以后输出o_t，o_t与经过tanh的c_t相乘得到h_t，这里c、x、h都是向量，LSTM记忆单元时间序列数据包括步态特征模型、手写体识别、序列生成、行为分析，这里的序列指的是时间向量序列，假设时间序列为：

X{x1，x2，...，xN}

时间序列模型为：

对长短时记忆神经网络进行前向训练，步骤如下所示：

a)遗忘门的计算，公式如下所示：

f_t＝σ(w_f·[h_t-1，x_t]+b_f)

b)输入门的计算，公式如下所示：

i_t＝σ(w_i·[h_t-1，x_t]+b_i) 式2

符号

表示按元素乘，这样就把LSTM关于当前的记忆

c)输出门的计算，公式如下所示：

o_t＝σ(w_o·[h_t-1，x_t]+b_o) 式5

输出门它控制了长期记忆对当前输出的影响，LSTM最终的输出，是由输出门和单元状态共同确定的，公式如下所示：

σ′(z)＝y(1-y)

tanh′(z)＝1-y²

e)按元素乘

符号，当

作用于两个向量时，运算公式如下所示：

当

作用于一个向量和一个矩阵时，运算公式如下所示：

当

net_f，t＝w_f[h_t-1，x_t]+b_f

＝w_fhh_t-1+w_fxx_t+b_f

net_i，t＝w_i[h_t-1，x_t]+b_i

＝w_ihh_t-1+w_ixx_t+b_i

net_o，t＝w_o[h_t-1，x_t]+b_o

＝w_ohh_t-1+w_oxx_t+b_o

利用全导数公式得出式七，公式如下所示：

求式七中每个偏导数，公式如下所示：

根据式六求出：

根据式四求出：

因如下运算：

o_t＝σ(net_o，t)

net_o，t＝w_ohh_t-1+w_oxx_t+b_o

f_t＝σ(net_f，t)

net_f，t＝w_fhh_t-1+w_fxx_t+b_f

i_t＝σ(net_i，t)

net_i，t＝w_ihh_t-1+w_ixx_t+b_i

所得出偏导数，公式如下所示：

将上述偏导数带入到式七中得到式八，公式如下所示：

根据δ_o，t、δ_f，t、δ_i，t、

的定义，得到式九、式十、式十一、式十二，公式如下所示：

LSTM的输入x_t，公式如下所示：

上式中，f^l-1表示第l-1层的激活函数，求E对

求b_f、b_i、b_c、b_o各个时刻的偏置项梯度，公式如下所示：

将各个时刻的偏置项梯度加在一起，公式如下所示：

6.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述人工智能预警操作***(500)基于Linux操作***架构的基础上开发的AI算法程序，该***包括类脑神经网络***、多维人机物协同互操作***、公共安全智能化监测预警与防控***、自主无人伺服***、天地一体化信息网络平台***，用于管理和控制计算机硬件、软件及数据资源的计算机运行程序，用于各级人工智能预警***与互联网+分布式预警警亭沟通的接口，用于云计算、云存储、云数据库和人工智能预警***、互联网+分布式预警警亭及其他软件沟通的接口，用于多维人机物协同互操作***与移动设备和智能电视的通讯接口，用于人机界面为其它应用软件提供支持，包括类脑神经网络***、多维人机物协同互操作***、公共安全智能化监测预警与防控***、自主无人伺服***、天地一体化网络信息平台***、智能物联与风险因素数据采集***、风险因素管理***，人工智能预警操作***(500)子***包括步态识别***、机器视觉***、执行器***、认知行为***，文件***、进程管理、进程间通讯、内存管理、网络通讯、安全机制、驱动程序、用户界面。

7.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述云计算(600)基于开源Hadoop架构进行设计，利用集群优势进行高速运算和存储，云计算(600)包括基础设施即服务、平台即服务、软件即服务，用于计算分布式计算机上的风险因素识别模块、风险因素推理模块、风险因素评估模块、通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序，再交由多部服务器所组成的庞大***经搜寻与海量的数据信息进行对比分析，分级推理、预警值评估，之后再将处理结果回传给用户并进行云存储。

8.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述与云数据库步态黑名单对比分析(700)模块，所述云数据库包括原始图像信息数据库、原始步态特征信息数据库、实时风险因素采集图像信息数据库、实时风险因素采集步态信息数据库、风险因素识别数据库、风险因素推理数据库、风险因素评估数据库、风险因素应对数据库、风险因素管理评价数据库、实时判断依据数据库、判断规则数据库和事故实例数据库，所述云数据库用于云计算(600)***的集群应用，将分布式***文件通过应用软件集合起来协同工作，为用户提供数据存储和业务访问的工作，通过设置在线数据存储模块，存储模块内储存有人脸图像黑名单、动态特征信息黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单，将采集的人脸图像、动态特征信息、步态特征信息、生物特征信息和语音信息与存储模块内的人脸图像黑名单、动态特征信息黑名单、步态特征信息黑名单、生物特征信息黑名单和语音信息黑名单进行对比分析，如果相似度达到预设的预警值，则预警***及时将该信息生成预警提示信息进行风险因素的推理、评估、生成预警级别报警信息、反馈给上一级预警***进行风险管理评价。

9.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述确定目标人物身份(800)模块用于处理与云数据库步态黑名单对比分析(700)生成的预警提示信息、预警值评估、生成预警级别报警信息、生成预警信号反馈给上一级预警***的信息，并根据云计算(600)通过与云数据库步态黑名单对比分析(700)传送的数据进行实时信息更新，用于存储所述人工智能预警***(500)对云数据库信息查阅所生成的信息数据。

10.根据权利要求1所述的人工智能CNN、LSTM神经网络步态识别***，其特征在于：所述本地数据库模块(900)用于存储本级人工智能预警操作***所生成的预警信息，用于存储向上一级人工智能预警操作***发送的信息及反馈信息，用于存储向云计算发送的信息及反馈信息。