CN108764066A

CN108764066A - 一种基于深度学习的快件分拣操作规范检测方法

Info

Publication number: CN108764066A
Application number: CN201810430233.3A
Authority: CN
Inventors: 孙知信; 赵鹏飞; 孙哲
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-11-06

Abstract

本发明提出了一种基于CNN和卷积LSTM网络的物流分拣规范检测方法，属于图像处理技术领域。首先从体感设备获取工人在执行分件快递动作下的连续骨架数据帧序列，从骨架数据中筛选出可以表征动作的20个关节点数据，并将其转化为世界坐标，将骨架数据分成两部分。一部分骨架数据通过选取一些关键点，组合成一些由点、线、面构成的几何特征来描述运动，然后通过一个LSTM网络对这些动作进行时间域的建模。另一个部分骨架信息通过投影，生成正视图、左视图、顶视图三个视角的关节点图和其运动轨迹图，作为卷积神经网络的输入进行特征提取。最后将两部分信息融合，进行动作判别。本发明具有很好的实时性、鲁棒性和准确性，实施简便可靠，适用于实时的动作识别***。

Description

一种基于深度学习的快件分拣操作规范检测方法

技术领域

本发明涉及一种人体行为的识别方法，尤其是一种基于深度学习的快件分拣操作规范检测方法，属于视频图像处理技术领域。

背景技术

目前快递行业存在的问题有技术水平落后、快递人才缺乏、与客户关系紧张、整体环境不规范等问题。据统计，采用传统的人工分拣，不仅工作量大、差错率高，而且每人每天的最多分拣量有限；而采用自动化分拣技术，每台机器每天分拣的数量是人工的五倍多，差错率也控制在万分之五以内。但由于现实情况比较复杂，人工分拣还是占了很大一部分。快递行业门槛低，使得该行业极度缺乏拥有专业知识及专业思维的工作人员。快递行业出现了无法满足市场需求的状况，甚至出现“爆仓”、暴力分拣等现象。对快递行业来说，面对激烈的市场竞争环境，为了尽可能多的争取客户以保证自身发展，对快递分拣操作人员的规范检测是一件很有必要的事。

在过去的几十年里，RGB视频数据作为人类行为识别的输入被广泛研究。然而，与RGB数据相比，深度信息具有对光照的不变性，并提供了场景的三维结构信息。随着易于使用的深度传感器和算法的发展，基于骨架的动作识别成为研究的一个热点。近年来，深度学习方法在各种计算机视觉任务中取得了显著的成绩，许多人也提出了一些基于深度学习的方法。目前，在骨架序列中捕获时空信息的一种常见方法是使用卷积神经网络(CNN)或递归神经网络(RNN)。对CNN而言，当3D骨架信息被转化为图像时，如何有效的捕捉来自骨架序列的时空信息是一个挑战，因为，当3D信息被转化为2D信息的过程中，时间信息将会丢失。RNN模型在时域内建立了上下文依赖关系，并成功地应用于可变长度的序列数据处理，可以很好的处理时间，但不能很好的处理空间方面的特征。由于CNN模型与LSTM模型之间的互补性，将两者结合起来，可以很好的进行动作识别。

发明内容

本发明的目的在于：针对现有技术存在的缺陷，提出一种基于CNN和LSTM网络的快件分拣操作规范检测方法，既能提升检测工人操作规范的准确度，又能应用于多种复杂的场景中，以达到优秀的识别精度。

为了达到以上目的，本发明提供了一种基于深度学习的快件分拣操作规范检测方法，通过体感设备提取工人分拣快递动作的连续3D骨架数据帧序列，分别作为两种网络的输入流，进行特征提取和特征融合，以准确识别出视频中的动作；

包括如下步骤：

步骤1：建立快递分拣工人分拣快递动作的训练数据集，提取工人分拣快递动作的连续骨架数据，从骨架数据中筛选出可以表征动作的20个关节点数据，并对其进行复制，组成两部分内容相同的数据分别进行不同处理；

步骤2：对第一部分骨架序列数据，选择满足要求的若干关节点，由这些关节点两两相连组成关节线，三个关节点相连组成平面，通过几何特征描述动作，并通过一个LSTM网络对时间信息进行编码；

步骤3：对第二部分骨架序列数据进行投影处理，生成正视图、左视图、顶视图三个视角的关节点及其运动轨迹图，将骨架数据帧序列编码成三个视角的关节点及其运动轨迹颜色纹理图，分别送入三个CNN进行训练；

步骤4：将两个部分的输出信息进行融合，先对前述步骤中的各个网络的输出进行预测，然后把各个网络的信息融合以确认动作。

步骤5：选取待识别的行为视频送入经过步骤2～4后得到的已训练完成的神经网络模型中进行行为识别。

进一步的，所述步骤1中，让工人做不规范的分拣动作，使用体感设备提取工人分拣快递动作的连续骨架数据，从骨架数据中筛选出可以表征动作的20个关节点数据，其中表征动作的20个关节点为头部、颈部、脊柱、左肩、左肘、左手腕、左手、臀部、左臀部、左膝盖、左脚腕、右肩、右肘、右手腕、右手、右臀部、右膝盖、右脚腕、右脚；

对于任意两点P_i(x_i,y_i,z_i)与P_j(x_j,y_j,z_j)的距离，通过公式

计算；

通过体感设备获取需要计算的某两个关节点的坐标，再计算出相应的距离，且，根据多点之间的距离计算出角度特征。体感设备将连续动作的对应关节点骨架数据，至少包含关节点的位置信息和旋转信息，采集并记录下来形成连续的骨架数据帧序列，以供后续动作模板创建和动作识别使用。

进一步的，所述步骤2中，关节连线是满足下列三个条件某一个的关节线：

(1)骨架中直接相连的两个关节点连接成的关节线；

(2)关节点是左右手、左右手腕、左右脚、左右脚踝其中一个，则另一个关节点是离该关节点相隔一个节点的关节点，这样的两个关节点构成的连线；

(3)头部、左右手腕、左右脚腕几个关节点两两相连组成的关节线；

而选择的平面是左手-左手腕-左肘、左手腕-左肘-左肩、右手-右手腕-右肘、右手腕-右肘-右肩、头部-颈部-脊柱、左脚-左脚腕-左膝盖、左脚腕-左膝盖-左臀部、右脚-右脚腕-右膝盖、右脚腕-右膝盖-右臀部等几个关节点构成的平面。

其中，每个关节点的坐标为(J_x,J_y,J_z)，利用关节点组成的连线、构成的平面；通过关节点坐标、关节点之间的距离、关节点之间的方向、关节点到关节线的距离、关节线之间的角度、关节点到平面的距离、关节线和平面的角度、面和面之间的角度这八种几何特征，将前述的关节点、关节连线、平面编码成一个独立于时间的姿态。

LSTM网络单元结构中，输入序列为x_i，其中t∈T，T是时间步的范围，通过下式计算输出

其中，x_t和是LSTM单元在第t个时间步的输入和隐藏状态，i_t是输入门，f_t是忘记门，c_t是细胞核，o_t是输出门，W_ab是门a和门b之间的权矩阵，b_a是门a的偏差因子，σ是非线性函数σ(x)＝(1+e^-x)^-1，

所述LSTM网络为三层结构，几何特征序列作为第一层LSTM的输入x_i，第一层LSTM输出结果作为第二层LSTM网络的输入第二层LSTM输出结果作为第三层LSTM网络的输入x_t，通过LSTM网络变化，更高层能够捕获输入序列的长期相关性。

进一步的，所述步骤3中，将骨架数据帧序列编码成三个视角的关节点以及其运动轨迹颜色纹理图，依次对骨架动作的轨迹颜色、轨迹长度、不同视图、运动幅度进行编码，最终轨迹f(i)表示为

分别送入三个结构为GoogLeNet的CNN训练；

所述运动轨迹图被递归的表示为：

JTM_i＝JTM_i-1-1+f(i)

其中f(i)为编码函数，可以将每一帧的时空信息编码。

运动轨迹颜色纹理图中颜色的变化代表运动的变化，颜色的饱和度和亮度用来描述运动的强度，并使用多流的CNN模型从颜色纹理图中提取深度特征。

进一步的，所述步骤4中，预测的方法为，对来自LSTM和CNN中各网络的输出信息各自通过一个全连接层，以确保softmax的输入层和输出层的维度是一样的，Softmax层对动作进行预测，对预测的结果进行融合。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

(1)提出一种基于骨架数据的动作识别，与基于RGB视频数据的动作识别方法相比，骨架数据受到环境的影响更小，不需要很复杂的图像处理算法进行预处理，动作特征也更容易提取和计算。

(2)使用骨架的几何特征来描述动作的空间特征。通过一些简单的关节点、关节点连线、关节点连接而成的平面，将复杂的空间特征转化成了几何图像，易于构造，且通过一个LSTM可以很好的将上下文联系起来，可以很好的描述动作的方向、速度、加速度等特征。

(3)将3D骨架序列转化成2D纹理图像信息。通过颜色的变化表示运动方向的变化，饱和度和亮度变化表示运动的强度变化，再通过一个编码函数，将每一帧的时空信息编码，关节距离图构建好之后送入卷积神经网络训练。

(4)本发明设计了一种“CNN+LSTM”结构的网络，将步骤2和步骤3结合起来，来提取视频中工人分拣动作的空间和时间特征，先进行预测，然后融合所有信息，进行动作识别。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明的整体流程图。

图2是本发明中人体骨架示意图。

图3是本发明中LSTM神经单元结构示意图。

具体实施方式

本实施例提供了一种基于CNN和LSTM网络的快件分拣操作规范检测方法，如图1所示，包括如下步骤：

步骤一：建立快递分拣工人分拣快递的训练数据集。

让工人做不规范的分拣动作，用体感设备提取工人分拣快递动作的连续骨架数据，从骨架数据中筛选出可以表征动作的20个关节点数据，包括头部、颈部、脊柱、左肩、左肘、左手腕、左手、臀部、左臀部、左膝盖、左脚腕、右肩、右肘、右手腕、右手、右臀部、右膝盖、右脚腕、右脚，并对关节点数据进行复制，组成两部分内容相同的数据分别进行不同处理。

如图2所示，一种包含20个关节点的人体骨架图，包括头、左右肩膀、肩膀中心点、左右肘关节、左右手腕关节、左右手、脊柱、左右臀、臀中心点、左右膝、左右脚踝、左右脚等关节点。体感设备将连续动作的对应的骨架数据，一般包含关节点的位置信息和旋转信息等，采集并记录下来形成连续的骨架数据帧序列，这些数据供后续动作模板创建和动作识别使用。

步骤二：对第一部分骨架序列数据，选择一些重要的关节点，由这些关节点两两相连组成关节线，三个关节点相连组成平面，通过一些几何特征描述动作，然后通过一个LSTM网络对时间信息进行编码；

所选取的关节线需要满足下列三个条件其中一个：

(1)骨架中直接相连的两个关节点连接成的关节线；

选择的平面是三个关节点连接组成的关节平面，出于计算的考虑，本实施例中仅选择几个重要的平面，包括：左手-左手腕-左肘、左手腕-左肘-左肩、右手-右手腕-右肘、右手腕-右肘-右肩、头部-颈部-脊柱、左脚-左脚腕-左膝盖、左脚腕-左膝盖-左臀部、右脚-右脚腕-右膝盖、右脚腕-右膝盖-右臀部等几个关节点构成的平面。

然后选取六种特征：关节点坐标、关节点之间的距离、关节点之间的方向、关节点到关节线的距离、关节线之间的角度、关节点到平面的距离。将这些输入一个LSTM模块，将前面选举的那些关节点、关节连线、平面编码成一个独立于时间的姿态。

LSTM单元结构如图3所示，输入序列为x_i，其中t∈T，T是时间步的范围，通过下式计算输出

其中x_t和是LSTM单元在第t个时间步的输入和隐藏状态，i_t是输入门，f_t是忘记门，c_t是细胞核，o_t是输出门，W_ab是门a和门b之间的权矩阵，b_a是门a的偏差因子，σ是非线性函数σ(x)＝(1+e^-x)^-1，

对于三层LSTM结构，几何特征序列作为第一层LSTM的输入x_i，第一层LSTM输出结果作为第二层LSTM网络的输入然后第二层LSTM输出结果作为第三层LSTM网络的输入x_t,通过LSTM的这种变化，更高层能够捕获输入序列的长期相关性。

步骤三：另一部分骨架序列数据通过投影，生成正视图、左视图、顶视图三个视角的关节点图和其运动轨迹图，将骨架数据帧序列编码成三个视角的关节点以及其运动轨迹颜色纹理图，f(i)可以表示为:

分别送入三个CNN训练；

所述运动轨迹图(JMT)可以被递归的表示为：

JTM_i＝JTM_i-1-1+f(i)

其中f(i)为编码函数，可以将每一帧的时空信息编码。

假设一个动作H有n个骨架帧，每个骨架有m个关节，则骨架序列可以表示为H＝{F₁,F₂,...,F_n,}，其中为第i帧的关节坐标向量，是第j个关节的三维坐标。

一个动作的骨架轨迹T可以由n帧里所有的关节轨迹来定义：

T＝{T₁,T₂,...,T_i,...,T_n-1,}

其中(前一个骨架序列减掉后一个)，第k^th个关节轨迹为则:

用C来表示轨迹的颜色，L表示轨迹长度，C_l,l∈(0,L)表示轨迹在某个位置的颜色，于是一个带颜色的轨迹可以被表示为然后编码函数变为：

颜色的变化代表着运动方向的变化。

整个身体分为了三个部分，将三个部分分别标记了不同的颜色，表示为C1,C2,C3。C1和C一样，C2和C1的颜色方向是相反的，C3是颜色从亮灰到黑色的灰度图。如果将编码了多个colormaps的轨迹表示为那么，f(i)可以被表示为：

将关节的运动幅度编码为饱和度和亮度，这样运动的变化就会导致JMT纹理的变化。这样的纹理将有利于卷积的判别特征学习。饱和度变化范围为s_6in和s_max之间，对于一个轨迹，它的饱和度通过公式可以得到，其中是第j个关节在第i帧的速度，让饱和度调制的轨迹为则

对于轨迹速度为它的亮度变化在范围b_min和b_max之间，值为:

用带有亮度的轨迹，f(i)可以表示为:

JTM构建完毕，分别送入三个不同的CNN训练，每个CNN都是GoogLeNet。

该CNN的结构为：

第一层卷积层conv1，输入为224×224×3，卷积核：7×7，滑动步长2，padding为3，输出维度：112×112×64，计算方式：

第二层卷积层conv2，输入：112×112×64，卷积核：3×3，滑动步长为2，padding为1，输出维度：56×56×64，计算方式：

第三层卷积层开始Inception module，分为4条支线，输入均为上层产生的28×28×192结果：

第1部分，1×1卷积层，输出大小为28×28×64；

第2部分，先1×1卷积层，输出大小为28×28×96，作为输入进行3×3卷积层，输出大小为28×28×128；

第3部分，先1×1卷积层，输出大小为28×28×32，作为输入进行3×3卷积层，输出大小为28×28×32；

第3部分，3×3的pooling层，输出大小为输出大小为28×28×32；

第三层Inception module最后会对这四部分输出结果的第三维并联，即64+128+32+32＝256，最终输出结果维度：28×28×256。

步骤四：将两个部分的输出信息进行融合，先对每个网络的输出进行预测，然后把各个网络的信息融合确认动作。

预测是把来自LSTM和CNN输出的信息各自通过一个全连接层(FC)，确保Softmax的输入层和输出层的维度是一样的，再通过一个Softmax层对动作进行预测，然后对预测的结果进行融合，既考虑了动作的时间域方面特征也考虑了空间域方面的特征。

步骤五：选取待识别的行为视频送入已经训练好神经网络模型中进行行为识别，判断工人是否有违规操作。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种基于深度学习的快件分拣操作规范检测方法，其特征在于：通过体感设备提取工人分拣快递动作的连续3D骨架数据帧序列，分别作为两种网络的输入流，进行特征提取和特征融合，以准确识别出视频中的动作；

包括如下步骤：

步骤4：将两个部分的输出信息进行融合，先对前述步骤中的各个网络的输出进行预测，然后把各个网络的信息融合以确认动作；

2.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤1中，表征动作的20个关节点为头部、颈部、脊柱、左肩、左肘、左手腕、左手、臀部、左臀部、左膝盖、左脚腕、右肩、右肘、右手腕、右手、右臀部、右膝盖、右脚腕、右脚；

对于任意两点P_i(x_i,y_i,z_i)与P_j(x_j,y_j,z_j)的距离，通过公式

计算；

通过体感设备获取需要计算的某两个关节点的坐标，再计算出相应的距离，且，根据多点之间的距离计算出角度特征。

3.根据权利要求2所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤1中，体感设备将连续动作的对应关节点骨架数据，至少包含关节点的位置信息和旋转信息，采集并记录下来形成连续的骨架数据帧序列，以供后续动作模板创建和动作识别使用。

4.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤2中，关节连线是满足下列三个条件某一个的关节线：

骨架中直接相连的两个关节点连接成的关节线；

关节点是左右手、左右手腕、左右脚、左右脚踝其中一个，则另一个关节点是离该关节点相隔一个节点的关节点，这样的两个关节点构成的连线；

头部、左右手腕、左右脚腕几个关节点两两相连组成的关节线；

选择的平面是左手-左手腕-左肘、左手腕-左肘-左肩、右手-右手腕-右肘、右手腕-右肘-右肩、头部-颈部-脊柱、左脚-左脚腕-左膝盖、左脚腕-左膝盖-左臀部、右脚-右脚腕-右膝盖、右脚腕-右膝盖-右臀部等几个关节点构成的平面。

5.根据权利要求4所述的基于深度学***面；通过关节点坐标、关节点之间的距离、关节点之间的方向、关节点到关节线的距离、关节线之间的角度、关节点到平面的距离、关节线和平面的角度、面和面之间的角度这八种几何特征，将前述的关节点、关节连线、平面编码成一个独立于时间的姿态。

6.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤2中，LSTM网络单元结构中，输入序列为x_i，其中t∈T，T是时间步的范围，通过下式计算输出

其中，x_t和h_t是LSTM单元在第t个时间步的输入和隐藏状态，i_t是输入门，f_t是忘记门，c_t是细胞核，o_t是输出门，W_ab是门a和门b之间的权矩阵，b_a是门a的偏差因子，σ是非线性函数σ(x)＝(1+e^-x)^-1，

所述LSTM网络为三层结构，几何特征序列作为第一层LSTM的输入x_i，第一层LSTM输出结果作为第二层LSTM网络的输入h_t，第二层LSTM输出结果作为第三层LSTM网络的输入x_t，通过LSTM网络变化，更高层能够捕获输入序列的长期相关性。

7.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤3中,将骨架数据帧序列编码成三个视角的关节点以及其运动轨迹颜色纹理图，依次对骨架动作的轨迹颜色、轨迹长度、不同视图、运动幅度进行编码，最终轨迹f(i)表示为

分别送入三个CNN训练；

所述运动轨迹图被递归的表示为：

JTM_i＝JTM_i-1-1+f(i)

其中f(i)为编码函数，可以将每一帧的时空信息编码。

8.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤3中，运动轨迹颜色纹理图中颜色的变化代表运动的变化，颜色的饱和度和亮度用来描述运动的强度，并使用多流的CNN模型从颜色纹理图中提取深度特征。

9.根据权利要求1所述的基于深度学习的快件分拣操作规范检测方法，其特征在于：所述步骤4中，预测的方法为，对来自LSTM和CNN中各网络的输出信息各自通过一个全连接层，以确保Softmax的输入层和输出层的维度是一样的，Softmax层对动作进行预测，对预测的结果进行融合。