CN112270220B

CN112270220B - 一种基于深度学习的缝纫手势识别方法

Info

Publication number: CN112270220B
Application number: CN202011096967.6A
Authority: CN
Inventors: 王晓华; 杨思捷; 王文杰; 张蕾; 苏泽斌
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-02-25
Anticipated expiration: 2040-10-14
Also published as: CN112270220A

Abstract

本发明公开了一种基于深度学习的缝纫手势识别方法，具体按照如下步骤实施：步骤1，数据集采集及预处理；步骤2，将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练；步骤3，将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取，构成GRU‑DNN网络对缝纫手势进行识别；步骤4，将步骤3所提取的特征送入SVM分类器中进行动作分类。本发明解决了现有技术中存在的DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理，而RNN网络结构在检测过程中会出现的梯度消失问题，导致识别效果不准确的问题。

Description

一种基于深度学习的缝纫手势识别方法

技术领域

本发明属于人工智能技术领域，涉及一种基于深度学习的缝纫手势识别方法。

背景技术

随着劳动成本的增加、计算机技术的提高，“人+机+环境”***也已成为不可逆转的趋势。深度学习相关技术在行为检测领域取得了显著的成果，解决了传统的人工特征方法只能在简单场景下进行识别这一缺陷，更有效的进行分类任务的优化，进而更高效的提取数据中的特征信息。

现有的缝纫手势识别主要采用递归神经网络进行识别，递归神经网络主要代表模型有：RNN(递归神经网络)模型、LSTM模型、GRU(门控循环单元)模型。RNN模型能够连接当前过程和过去状态，具有一定的记忆功能。LSTM模型和GRU模型是RNN模型的结构变种，相较于RNN模型，LSTM神经网络使循环神经网络不仅能够记忆过去的信息，同时还能选择性的忘记不重要的信息。GRU神经网络相较于LSTM网络结构而言，在识别过程中不仅能够利用图片全部的信息，并且在LSTM的基础上解决了长序列信息下梯度消失的问题，结构相较于LSTM结构模型也更加简单，识别效果更好。DNN神经网络(深度神经网络)作为一种前馈人工神经网络也被广泛的应用于行为识别领域，能够解决深层次的问题，能够在深度上更好的提取特征，但是DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理，而基础的RNN结构在检测过程中会出现梯度消失的问题，且RNN网络进行检测时获取图像深层次信息的效果相较于DNN而言较为欠缺。

发明内容

本发明的目的是提供一种基于深度学习的缝纫手势识别方法，解决了现有技术中存在的DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理，而基本的RNN网络结构在检测过程中会出现的梯度消失问题，导致识别效果不准确的问题。

本发明所采用的技术方案是，一种基于深度学习的缝纫手势识别方法，具体按照如下步骤实施：

步骤1，数据集采集及预处理；

步骤2，将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练；

步骤3，将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取，构成GRU-DNN网络对缝纫手势进行识别；

步骤4，将步骤3所提取的特征送入SVM分类器中进行动作分类。

本发明的特征还在于，

步骤1具体为：

步骤1.1，采集缝纫手势数据图片，将所采集到的缝纫手势数据图片通过动态阙值法进行颜色校正，以消除光照对显色性的影响；

步骤1.2，将经步骤1.1处理的缝纫手势数据图片亮度调节为原始亮度的0.6到1.5倍；

步骤1.3，将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度，得到经过预处理的缝纫手势数据图片，作为训练集。

步骤1.1具体为：

步骤1.1.1，将训练集中的每个缝纫手势数据图片分为若干个区域；

步骤1.1.2，计算每个区域中像素点的C_b和C_r，以及每个区域所有像素点C_b和C_r的平均值M_b和M_r，其中C_b表示像素点颜色饱和度，C_r表示像素点色调；

C_b＝-0.169×R-0.331×G+0.500×B (1)

C_r＝0.500×R-0.419×G-0.081×G (2)

其中，R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值，C_b(n)为对应区域内第n个像素点的颜色饱和度，C_r(n)为对应区域内第n个像素点的色调，N为对应区域内像素点的个数；

步骤1.1.3，分别计算每个区域的C_b和C_r分量的对应绝对差的累计值D_b和D_r，计算公式如下：

式中，N为每个区域的像素点数，C_b(n)为对应区域内第n个像素点的颜色饱和度，C_r(n)为对应区域内第n个像素点的色调；

步骤1.1.4，判读每个像素点D_b/D_r的值，若D_b/D_r的值小于对应区域M_b/M_r的值，则忽略对应区域的该像素点；

步骤1.1.5，对于每个缝纫手势数据图片，经步骤一1.1.4判断，去除忽略的像素点，按照公式(3)-(6)重新求取每个区域对应的M_b、M_r、D_b、D_r，然后对每个区域对应的M_b、M_r、D_b、D_r分别求和后取平均值作为对应缝纫手势数据图片的M_B、M_R、D_B、D_R值，其中，M_B为对应整幅缝纫手势数据图片颜色饱和度的平均值，M_R为对应整幅缝纫手势数据图片色调的平均值，D_B为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值，D_R为对应整幅缝纫手势数据图片色调的绝对差的累计值；

步骤1.1.6，若每个区域内的像素点同时满足公式(7)和(8)，则该像素点初步确认为白色参考点：

|C_b(n)-(M_b+D_b x sign(M_b))|＜1.5 x D_B (7)

|C_r(n)-(1.5 x M_r x sign(M_r))|＜1.5 x D_R (8)

式中，M_b、M_r为缝纫手势数据图片色调、饱和度分量的平均值，D_b、D_r为计算的每个小区域的色调、饱和度分量的绝对差的累计值，sign为信号处理函数D_B为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值，D_R为对应整幅缝纫手势数据图片色调的绝对差的累计值；

步骤1.1.7，每个区域内初步确定的白色参考点按其亮度大小排序后取前10％的白色参考点作为最终确定的白色参考点；

步骤1.1.8，计算每个区域内所有白色参考点亮度的平均值R_aver、G_aver、B_aver；

式中，m为对应区域内最终确定的白色参考点的数目，R₁、R₂……R_m为每一个白色参考点的红色通道的颜色分量，G₁、G₂…G_m为所确定的白色参考点的绿色通道的颜色分量，B₁、B₂…B_m为所确定的白色参考点的蓝色通道的颜色分量；

步骤1.1.9，计算每个通道的增益，计算公式如下：

R_gain＝Y_max/R_aver (12)

G_gain＝Y_max/G_aver (13)

B_gain＝Y_max/B_aver (14)

Y＝0.299 x R+0.587 x G+0.114 x B (15)

式中：Y_max为颜色空间中Y分量在整幅图像中的最大值，R_aver、G_aver、B_aver为白色参考点亮度的平均值，R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值；

步骤1.1.10，计算最终每个通道的颜色：

R′＝R x R_gain (16)

G′＝G x G_gain (17)

B′＝B x B_gain (18)

式中，R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值，R′、G′、B′为校正后的缝纫手势数据图片中像素点的红色、绿色、蓝色分量。

步骤2具体为：

步骤2.1，经过步骤1.1.10得到校正后的缝纫手势数据图片的红色、绿色、蓝色三个通道的颜色分量，在计算机中以矩阵的形式保存，然后将三个矩阵转换成一个列向量X作为特征向量送入GRU网络结构中；

步骤2.2，计算GRU网络结构中更新门的值，具体为：

确定从前一时刻复刻多少信息到下一时刻，计算公式如下：

Z_t＝σ×(W×X_t+U×h_t-1) (19)

式中，X_t为输入特征向量X的第t个分量，h_t-1为保存的第t-1步的信息，σ为逻辑sigmoid函数，W和U为权值矩阵，更新门将这两部分信息相加并投入到sigmod激活函数中，将激活结果压缩到0-1之间，更新门控制着前一时刻状态被带入到当前状态中的程度，即上一时刻的信息有多少应用于现在时刻；

步骤2.3，重置门的计算，具体为：确定过去的多少信息需要被遗忘，计算公式如下：

r_(t)＝σ×(W×X_t+U×h_t-1) (20)

式中：W和U为权值矩阵，X_t为输入特征向量X的第t个分量，h_t-1为保存的第t-1步的信息；

步骤2.4，计算当前记忆内容，将当前记忆内容存储于重置门中，计算公式如下：

h′_t＝tanh(Wx_t+r_t⊙Uh_t-1) (21)

式中，r_t为重置门的输出值，X_t为输入序列x的第t个分量，h_t-1为保存的第t-1步的信息；

步骤2.5，门控循环单元最终的输出内容，由前一时刻保留到最终记忆的信息加上当前记忆保留至最终时刻的信息，计算公式如下：

h_t＝Z_t⊙h_t-1+(1-Z_t)⊙h′_t (22)

式中，Z_t为更新门的计算结果，h_t-1为保存的第t-1步的信息，Z_t⊙h_t-1表示前一步保留到最终记忆的信息，h′_t为当前记忆内容，(1-Z_t)⊙h′_t表示当前记忆内容保留至最终记忆的信息，完成数据训练。

步骤3具体为：

步骤3.1，将GRU网络结构保存的最终记忆信息作为DNN神经网络的输入后进行初始化参数，即就是权值w和偏置b的初始化；

步骤3.2，计算激活函数，计算公式如下：

其中，z为自变量，z＝0、±1、±2……；

步骤3.3，前向传播，得到输出结果，输出公式如下：

a^l＝σ×(W^l×a^l-1+b^l) (24)

式中，l表示层数，a^l-1为神经网络中第l-1层的输出，a^l为神经网络中第l层的输出，W^l为第l层的权重，b^l为第l层的偏置；

步骤3.4，计算损失函数，计算公式如下：

式中：a^l为神经网络中第l层的输出，x为经过GRU神经网络训练后输出的序列，y为真实的训练样本输出；

步骤3.5，反向传播，对每一层参数W和b更新的计算公式如下：

Z^l＝W^l×a^l-1+b^l (26)

其中，Z^l为第l层的未激活输出，将损失函数对Z^l求偏导得到：

将损失函数对W^l求偏导得到：

将损失函数对b^l求偏导得到：

其中，a^l-1指第l-1层神经网络的输出，b^l为第l层的偏置；

联合求解(24)-(29)得到W^l、b^l，实现对W^l、b^l的不断更新。

步骤3.6，从输入层开始，一层层的向后计算，直到运算至输出层，得到最终特征提取结果。

本发明的有益效果是：

本发明一种基于深度学习的缝纫手势识别方法，依据GRU网络结构进行检测时在时间、空间上的强关联性以及DNN网络结构在提取深层次特征时的有效性，将GRU网络结构与DNN网络结构进行结合用于行为检测。利用动态阙值法对输入数据进行颜色校正，以消除光照对显色性的影响。将图片进行90度、180度、270度的旋转，以增强成像过程中各个角度的鲁棒性。利用GRU网络结构对预处理后的数据进行训练并将输出结果作为DNN网络结构的输入数据送入DNN网络结构中进行进一步的特征提取，相较于单一的DNN网络结构，GRU-DNN网络结构在进行行为检测时即充分利用了时间序列上的信息又能够得到图像更深层次的信息，识别效果相较于单一的网络结构而言也更为准确。

附图说明

图1是本发明一种基于深度学习的缝纫手势识别方法的的整体流程图；

图2是本发明一种基于深度学习的缝纫手势识别方法中进行数据预处理时颜色校正的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于深度学习的缝纫手势识别方法，其流程如图1所示，具体按照如下步骤实施：

步骤1，数据集采集及预处理；具体为：

步骤1.1，采集缝纫手势数据图片，将所采集到的缝纫手势数据图片通过动态阙值法进行颜色校正，以消除光照对显色性的影响；颜色校正主要是因为采集的图像和真实图像间会存在有一定的偏差，采用动态阙值算法消除光照对显色性的影响，如图2所示，具体为：

C_b＝-0.169×R-0.331×G+0.500×B (1)

C_r＝0.500×R-0.419×G-0.081×G (2)

|C_b(n)-(M_b+D_b x sign(M_b))|＜1.5 x D_B (7)

|C_r(n)-(1.5 x M_r x sign(M_r))|＜1.5 x D_R (8)

步骤1.1.9，计算每个通道的增益，计算公式如下：

R_gain＝Y_max/R_aver (12)

G_gain＝Y_max/G_aver (13)

B_gain＝Y_max/B_aver (14)

Y＝0.299 x R+0.587 x G+0.114 x B (15)

步骤1.1.10，计算最终每个通道的颜色：

R′＝R x R_gain (16)

G′＝G x G_gain (17)

B′＝B x B_gain (18)

式中，R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值，R′、G′、B′为校正后的缝纫手势数据图片中像素点的红色、绿色、蓝色分量；

步骤1.3，将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度，以增强不同成像角度的鲁棒性，得到经过预处理的缝纫手势数据图片，作为训练集；

步骤2，将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练；具体为：

步骤2.1，经过步骤1.1.10得到校正后的缝纫手势数据图片的红色、绿色、蓝色三个通道的颜色分量，在计算机中以矩阵的形式保存，然后将三个矩阵转换成一个列向量X作为特征向量送入GRU网络结构中；例如：

假设经过步骤1.1.10求取出来的R′、G′、B′在计算机中分别保存为以下形式：

上述的三个矩阵在计算机中就代表了预处理后的图像，矩阵中的数值对应图像中红绿蓝的强度值，为便于神经网络进行特征提取，将上述3个矩阵转化成1个向量X，在上述例子中可得X最终结果：

由上可知R′、G′、B′矩阵大小分别为3×3，那么向量X的总维数为3×3×3，结果是27。在人工智能领域中，每一个输入到神经网络的数据都被叫做一个特征，那么上述所举的例子就有27个特征，该27维的向量也被称为特征向量，神经网络接受该特征向量作为输入，进行预测；

将经过转化后的特征向量送入GRU网络结构中，分别计算GRU网络结构中更新门、重置门的值；

步骤2.2，计算GRU网络结构中更新门的值，具体为：

确定从前一时刻复刻多少信息到下一时刻，计算公式如下：

Z_t＝σ×(W×X_t+U×h_t-1) (19)

式中，X_t为输入特征向量X的第t个分量，h_t-1为保存的第t-1步的信息，σ为逻辑sigmoid函数，W和U为权值矩阵，更新门将这两部分信息相加并投入到sigmod激活函数中，将激活结果压缩到0-1之间，更新门控制着前一时刻状态被带入到当前状态中的程度，即上一时刻的信息有多少应用于现在时刻，Z_t越大，带入的信息越多；

r_(t)＝σ×(W×X_t+U×h_t-1) (20)

h′_t＝tanh(Wx_t+r_t⊙Uh_t-1) (21)

h_t＝Z_t⊙h_t-1+(1-Z_t)⊙h′_t (22)

式中，Z_t为更新门的计算结果，h_t-1为保存的第t-1步的信息，Z_t⊙h_t-1表示前一步保留到最终记忆的信息，h′_t为当前记忆内容，(1-Z_t)⊙h′_t表示当前记忆内容保留至最终记忆的信息，完成数据训练；

步骤3，将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取，构成GRU-DNN网络对缝纫手势进行识别；具体为：

步骤3.2，计算激活函数，计算公式如下：

其中，z为自变量，z＝0、±1、±2……；

步骤3.3，前向传播，所谓的前向传播算法也就是利用我们的若干个权重系数矩阵W和偏倚向量b和输入值向量X进行一系列线性运算和激活运算，从输入层开始，一层层的向后计算，一直运算到输出层，得到输出结果为止，输出层的输出公式如下：

a^l＝σ×(W^l×a^l-1+b^l) (24)

步骤3.4，计算损失函数，计算公式如下：

步骤3.5，反向传播，以对参数w和b不断更新，通过反向传播算法找到合适的线性系数矩阵W、偏倚向量b，让所有输入的训练样本计算出的输出尽可能的等于或很接近样本输出，对每一层参数W和b更新的计算公式如下：

Z^l＝W^l×a^l-1+b^l (26)

将损失函数对W^l求偏导得到：

将损失函数对b^l求偏导得到：

其中，a^l-1指第l-1层神经网络的输出，b^l为第l层的偏置；

联合求解(24)-(29)得到W^l、b^l，实现对W^l、b^l的不断更新。

步骤3.6，从输入层开始，一层层的向后计算，直到运算至输出层，经过运算使训练样本计算的输出结果与真实的训练样本输出结果尽可能的接近，此时的训练样本计算的输出结果作为最终提取的特征输出；

Claims

1.一种基于深度学习的缝纫手势识别方法，其特征在于，具体按照如下步骤实施：

步骤1，数据集采集及预处理；具体为：

步骤1.1，采集缝纫手势数据图片，将所采集到的缝纫手势数据图片通过动态阈值法进行颜色校正，以消除光照对显色性的影响，具体为：

C_b＝-0.169×R-0.331×G+0.500×B (1)

C_r＝0.500×R-0.419×G-0.081×G (2)

|C_b(n)-(M_b+D_b x sign(M_b))|<1.5 x D_B (7)

|C_r(n)-(1.5 x M_r x sign(M_r))|<1.5 x D_R (8)

步骤1.1.9，计算每个通道的增益，计算公式如下：

R_gain＝Y_max/R_aver (12)

G_gain＝Y_max/G_aver (13)

B_gain＝Y_max/B_aver (14)

Y＝0.299 x R+0.587 x G+0.114 x B (15)

步骤1.1.10，计算最终每个通道的颜色：

R′＝R x R_gain (16)

G′＝G x G_gain (17)

B′＝B x B_gain (18)

步骤1.3，将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度，得到经过预处理的缝纫手势数据图片，作为训练集；

2.根据权利要求1所述的一种基于深度学习的缝纫手势识别方法，其特征在于，所述步骤2具体为：

步骤2.2，计算GRU网络结构中更新门的值，具体为：

确定从前一时刻复刻多少信息到下一时刻，计算公式如下：

Z_t＝σ×(W×X_t+U×h_t-1) (19)

式中，X_t为输入特征向量X的第t个分量，h_t-1为保存的第t-1步的信息，σ为逻辑sigmoid函数，W和U为权值矩阵，更新门将这两部分信息相加并投入到sigmod激活函数中，将激活结果压缩到0—1之间，更新门控制着前一时刻状态被带入到当前状态中的程度，即上一时刻的信息有多少应用于现在时刻；

r_(t)＝σ×(W×X_t+U×h_t-1) (20)

h′_t＝tanh(Wx_t+r_t☉Uh_t-1) (21)

h_t＝Z_t☉h_t-1+(1-Z_t)☉h′_t (22)

式中，Z_t为更新门的计算结果，h_t-1为保存的第t-1步的信息，Z_t☉h_t-1表示前一步保留到最终记忆的信息，h′_t为当前记忆内容，(1-Z_t)☉h′_t表示当前记忆内容保留至最终记忆的信息，完成数据训练。

3.根据权利要求2所述的一种基于深度学习的缝纫手势识别方法，其特征在于，所述步骤3具体为：

步骤3.2，计算激活函数，计算公式如下：

其中，z为自变量，z＝0、±1、±2……；

步骤3.3，前向传播，得到输出结果，输出公式如下：

a^l＝σ×(W^l×a^l-1+b^l) (24)

步骤3.4，计算损失函数，计算公式如下：

Z^l＝W^l×a^l-1+b^l (26)

将损失函数对W^l求偏导得到：

将损失函数对b^l求偏导得到：

其中，a^l-1指第l-1层神经网络的输出，b^l为第l层的偏置；

联合求解(24)-(29)得到W^l、b^l，实现对W^l、b^l的不断更新；