CN108875601A

CN108875601A - 动作识别方法和lstm神经网络训练方法和相关装置

Info

Publication number: CN108875601A
Application number: CN201810548634.9A
Authority: CN
Inventors: 刘栩辰; 程云; 赵雅倩
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-05-31
Filing date: 2018-05-31
Publication date: 2018-11-23

Abstract

本申请公开了一种动作识别方法及其使用的LSTM神经网络训练方法、***及设备和一种计算机可读存储介质，该LSTM神经网络训练方法包括：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。利用改进后的LSTM神经网络进行动作序列的识别，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。

Description

动作识别方法和LSTM神经网络训练方法和相关装置

技术领域

本申请涉及图像处理技术领域，更具体地说，涉及一种动作识别方法及其使用的LSTM神经网络训练方法、***及设备和一种计算机可读存储介质。

背景技术

近年来，人体动作识别的研究受到工业界的高度关注，其在视频监控、游戏和机器人等领域有着重要的应用。然而高效的动作识别算法非常具有挑战性：首先，不同的移动速度导致同一个动作在时间上的波动性；其次，许多动作具有相似性，比如高抛和挥手等；最后，不同人在高度、体态等方面的差异也会导致识别的困难。在现有技术中，采用LSTM神经网络进行动作序列的识别，识别结果会产生时间失准的问题。

因此，如何保存识别动作序列的时间信息，避免识别结果的时间失准是本领域技术人员需要解决的问题。

发明内容

本申请的目的在于提供一种动作识别方法及其使用的LSTM神经网络训练方法、***及设备和一种计算机可读存储介质，保存识别动作序列的时间信息，避免了识别结果的时间失准。

为实现上述目的，本申请提供了一种LSTM神经网络训练方法，包括：

在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；

获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

其中，还包括：

获取测试样本，并将所述测试样本输入训练完成的改进LSTM神经网络中，得到动作序列识别结果；

根据所述测试样本中每一帧图像的识别率计算所述测试样本的平均识别率。

其中，所述获取训练样本，包括：

获取原始图像数据，并对所述原始图像进行预处理操作得到所述训练样本；其中，所述预处理操作包括翻转操作、下采样操作或切割操作中的任一项或几项的组合。

其中，根据所述训练样本训练所述改进LSTM神经网络，包括：

将所述训练样本中的每一帧图像输入所述改进LSTM神经网络中，并调节所述改进LSTM神经网络的关键参数直至所述改进LSTM神经网络输出的识别率达到预设值，以得到训练完成的改进LSTM神经网络。

其中，调节所述改进LSTM神经网络的关键参数，包括：

利用交叉验证方法和pair-wise算法调节所述改进LSTM神经网络的关键参数。

其中，所述关键参数包括epoch、学习率或学习率衰减的任一项或几项的组合。

为实现上述目的，本申请提供了一种动作识别方法，包括：

获取原始图像数据，并对所述原始图像进行预处理操作得到待识别样本；

将所述待识别样本输入如权利要求1所述训练完成的改进LSTM神经网络，得到动作识别结果。

为实现上述目的，本申请提供了一种LSTM神经网络训练***，包括：

构建模块，用于在LSTM神经网的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；

训练模块，用于获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

为实现上述目的，本申请提供了一种LSTM神经网络训练设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述LSTM神经网络训练方法的步骤。

为实现上述目的，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述LSTM神经网络训练方法的步骤。

通过以上方案可知，本申请提供的一种LSTM神经网络训练方法，包括：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

本申请提供的LSTM神经网络训练方法，改进原有的LSTM神经网络，在原始前向传播算法中增加cell对时间的二级导数项，并根据改进后的前向传播算法对应修改后向传播算法。利用改进后的LSTM神经网络进行动作序列的识别，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。本申请还公开了一种LSTM神经网络训练***及设备、一种动作识别方法和一种计算机可读存储介质，同样能实现上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种LSTM神经网络训练方法的流程图；

图2为本申请实施例公开的训练完成的LSTM神经网络的结构图；

图3为本申请实施例公开的另一种LSTM神经网络训练方法的流程图；

图4为本申请实施例公开的一种动作识别方法的流程图；

图5为本申请实施例公开的一种LSTM神经网络训练***的结构图；

图6为本申请实施例公开的一种LSTM神经网络训练设备的结构图；

图7为本申请实施例公开的另一种LSTM神经网络训练设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种LSTM神经网络训练方法，提高了旅游行为的监管效率。

参见图1，本申请实施例公开的一种LSTM神经网络训练方法的流程图，如图1所示，包括：

S101：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；

在具体实施中，在原始LSTM(中文全称：长短期记忆网络，英文全称：Network-LongShort Term Memory Network)神经网络的前向传播算法的基础上，如图2所示增加cell对时间的二级导数项，由改进后的前向传播算法本领域技术人员可以推导出相应的后向传播算法，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。

S102：获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

在具体实施中，首先获取训练样本的原始图像数据，并对所述原始图像进行预处理操作得到所述训练样本，本实施例不对具体的预处理操作进行限定，本领域技术人员可以根据实际情况灵活选择。作为一种优选实施方式，此处的预处理操作包括翻转操作、下采样操作或切割操作中的任一项或几项的组合。其中，下采样操作即对于一个样值序列间隔几个样值取样一次。

上述改进LSTM神经网络的训练过程具体为：将所述训练样本输入改进LSTM神经网络中，并调节该改进LSTM神经网络的关键参数直至输出的识别率达到预设值，以得到训练完成的改进LSTM神经网络。

作为一种优选实施方式，可以利用交叉验证方法和pair-wise算法调节关键参数。此处提到的关键参数可以包括Batch_video(每次输入的视频个数)、Batch_frame(每个视频包含的视频帧数)、epoch(训练一次所有数据的次数)、学习率或学习率衰减等。此处不对上述关键参数的初始值进行具体限定，本领域技术人员可以根据实际情况灵活设置，例如，Batch_video＝6，Batch_frame＝24，epoch＝5000～8000，学习率Learning_rate＝0.1，学习率衰减lr_decay＝0.1/1000次。

本申请实施例提供的LSTM神经网络训练方法，改进原有的LSTM神经网络，在原始前向传播算法中增加cell对时间的二级导数项，并根据改进后的前向传播算法对应修改后向传播算法。利用改进后的LSTM神经网络进行动作序列的识别，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。

本申请实施例公开了一种LSTM神经网络训练方法，相对于上一实施例，本实施例对技术方案作了进一步的说明和优化。具体的：

参见图3，本申请实施例提供的另一种LSTM神经网络训练方法的流程图，如图2所示，包括：

S301：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；

S302：获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络；

S303：获取测试样本，并将所述测试样本输入训练完成的改进LSTM神经网络中，得到动作序列识别结果；

S304：根据所述测试样本中每一帧图像的识别率计算所述测试样本的平均识别率。

可以理解的是，在训练完成上述LSTM神经网络之后，还可以利用测试样本对训练完成的LSTM神经网络进行测试，具体的，将测试样本的所有图像帧输入训练完成的改进LSTM神经网络中，得到动作序列识别结果，并计算测试样本中所有图像帧的平均识别率，以得到该LSTM神经网络的动作识别准确率。需要说明的是，此处的测试样本中的每一帧图像均经过预处理操作，即翻转操作、下采样操作和切割操作等。

下面介绍本实施例提供的一种动作识别方法，应用了上述实施例训练完成的改进LSTM神经网络。具体的：

参见图4，本申请实施例公开的一种动作识别法的流程图，如图4所示，包括：

S401：获取原始图像数据，并对所述原始图像进行预处理操作得到待识别样本；

在具体实施中，获取原始图像数据后需要对该原始图像数据进行预处理操作，即增强操作后得到待识别样本，同样，此处的预处理操作可以包括翻转操作、下采样操作和切割操作等。

S402：将所述待识别样本输入上述实施例提供的训练完成的改进LSTM神经网络，得到动作识别结果。

在具体实施中，将上述待识别样本中的每一帧图像上述实施例提供的训练完成的改进LSTM神经网络，以得到待识别样本的动作序列识别结果。可以理解的是，此步骤中得到动作序列识别结果不仅包括识别处的动作序列，还可以包括识别率，即计算每一帧图像的识别率，并根据每一帧图像的识别率计算待识别样本的平均识别率。

下面对本申请实施例提供的一种LSTM神经网络训练***进行介绍，下文描述的一种LSTM神经网络训练***与上文描述的一种LSTM神经网络训练方法可以相互参照。

参见图5，本申请实施例提供的一种LSTM神经网络训练***的结构图，如图5所示，包括：

构建模块501，用于在LSTM神经网的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；

训练模块502，用于获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

本申请实施例提供的LSTM神经网络训练***，改进原有的LSTM神经网络，在原始前向传播算法中增加cell对时间的二级导数项，并根据改进后的前向传播算法对应修改后向传播算法。利用改进后的LSTM神经网络进行动作序列的识别，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。

在上述实施例的基础上，作为一种优选实施方式，还包括：

在上述实施例的基础上，作为一种优选实施方式，所述训练模块502包括：

获取单元，用于获取原始图像数据，并对所述原始图像进行预处理操作得到所述训练样本；其中，所述预处理操作包括翻转操作、下采样操作或切割操作中的任一项或几项的组合；

训练单元，用于根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

在上述实施例的基础上，作为一种优选实施方式，所述训练单元具体为将所述训练样本中的每一帧图像输入所述改进LSTM神经网络中，并调节所述改进LSTM神经网络的关键参数直至所述改进LSTM神经网络输出的识别率达到预设值，以得到训练完成的改进LSTM神经网络单元。

在上述实施例的基础上，作为一种优选实施方式，所述训练单元具体为将所述训练样本中的每一帧图像输入所述改进LSTM神经网络中，并利用交叉验证方法和pair-wise算法调节所述改进LSTM神经网络的关键参数的单元。

在上述实施例的基础上，作为一种优选实施方式，所述关键参数包括epoch、学习率或学习率衰减的任一项或几项的组合。

本申请还提供了一种LSTM神经网络训练设备，参见图6，本申请实施例提供的一种LSTM神经网络训练设备的结构图，如图6所示，包括：

存储器100，用于存储计算机程序；

处理器200，用于执行所述计算机程序时可以实现上述实施例所提供的步骤。

具体的，存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机可读指令，该内存储器为非易失性存储介质中的操作***和计算机可读指令的运行提供环境。处理器200为LSTM神经网络训练设备提供计算和控制能力，执行所述存储器100中保存的计算机程序时，可以实现以下步骤：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

本申请实施例改进原有的LSTM神经网络，在原始前向传播算法中增加cell对时间的二级导数项，并根据改进后的前向传播算法对应修改后向传播算法。利用改进后的LSTM神经网络进行动作序列的识别，由于前向传播算法和后向传播算法中存在cell对时间的二级导数，可以很好了保存动作序列的时间信息，避免识别结果的时间失准。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：获取测试样本，并将所述测试样本输入训练完成的改进LSTM神经网络中，得到动作序列识别结果；根据所述测试样本中每一帧图像的识别率计算所述测试样本的平均识别率。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：获取原始图像数据，并对所述原始图像进行预处理操作得到所述训练样本；其中，所述预处理操作包括翻转操作、下采样操作或切割操作中的任一项或几项的组合。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：将所述训练样本中的每一帧图像输入所述改进LSTM神经网络中，并调节所述改进LSTM神经网络的关键参数直至所述改进LSTM神经网络输出的识别率达到预设值，以得到训练完成的改进LSTM神经网络。

优选的，所述处理器200执行所述存储器100中保存的计算机子程序时，可以实现以下步骤：利用交叉验证方法和pair-wise算法调节所述改进LSTM神经网络的关键参数。

在上述实施例的基础上，作为优选实施方式，参见图7，所述LSTM神经网络训练设备还包括：

输入接口300，与处理器200相连，用于获取外部导入的计算机程序、参数和指令，经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连，接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是键盘、触控板或鼠标等。

显示单元400，与处理器200相连，用于显示处理器200发送的数据。该显示单元400可以为PC机上的显示屏、液晶显示屏或者电子墨水显示屏等。具体的，在本实施例中，可以通过显示单元400显示待识别样本的动作序列识别结果等。

网络端口500，与处理器200相连，用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术，如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。具体的，在本实施例中，可以通过网络端口500向处理器200导入原始LSTM神经网络模型等。

视频采集器600，与处理器200相连，用于获取视频数据，然后将视频数据发送至处理器200进行数据分析处理，后续处理器200可以将处理结果发送至显示单元400进行显示，或者传输至处理器100进行保存，又或者可以通过网络端口500发送至预设的数据接收终端。具体的，在本实施例中，可以视频采集器600获取待识别样本、训练样本和测试样本等。

本申请还提供了一种计算机可读存储介质，该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：在LSTM神经网络的前向传播算法中增加二级导数项，并根据增加后的前向传播算法更新所述LSTM神经网络的反向传播算法，以构建改进LSTM神经网络；其中，所述二级导数项为cell对时间的二级导数；获取训练样本，并根据所述训练样本训练所述改进LSTM神经网络，以得到训练完成的改进LSTM神经网络。

优选的，所述计算机可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：获取测试样本，并将所述测试样本输入训练完成的改进LSTM神经网络中，得到动作序列识别结果；根据所述测试样本中每一帧图像的识别率计算所述测试样本的平均识别率。

优选的，所述计算机可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：获取原始图像数据，并对所述原始图像进行预处理操作得到所述训练样本；其中，所述预处理操作包括翻转操作、下采样操作或切割操作中的任一项或几项的组合。

优选的，所述计算机可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：将所述训练样本中的每一帧图像输入所述改进LSTM神经网络中，并调节所述改进LSTM神经网络的关键参数直至所述改进LSTM神经网络输出的识别率达到预设值，以得到训练完成的改进LSTM神经网络。

优选的，所述计算机可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：利用交叉验证方法和pair-wise算法调节所述改进LSTM神经网络的关键参数。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种LSTM神经网络训练方法，其特征在于，包括：

2.根据权利要求1所述LSTM神经网络训练方法，其特征在于，还包括：

3.根据权利要求1所述LSTM神经网络训练方法，其特征在于，所述获取训练样本，包括：

4.根据权利要求1-3任一项所述LSTM神经网络训练方法，其特征在于，根据所述训练样本训练所述改进LSTM神经网络，包括：

5.根据权利要求4所述LSTM神经网络训练方法，其特征在于，调节所述改进LSTM神经网络的关键参数，包括：

6.根据权利要求5所述LSTM神经网络训练方法，其特征在于，所述关键参数包括epoch、学习率或学习率衰减的任一项或几项的组合。

7.一种动作识别方法，其特征在于，包括：

8.一种LSTM神经网络训练***，其特征在于，包括：

9.一种LSTM神经网络训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述LSTM神经网络训练方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述LSTM神经网络训练方法的步骤。