CN112270220B - 一种基于深度学习的缝纫手势识别方法 - Google Patents
一种基于深度学习的缝纫手势识别方法 Download PDFInfo
- Publication number
- CN112270220B CN112270220B CN202011096967.6A CN202011096967A CN112270220B CN 112270220 B CN112270220 B CN 112270220B CN 202011096967 A CN202011096967 A CN 202011096967A CN 112270220 B CN112270220 B CN 112270220B
- Authority
- CN
- China
- Prior art keywords
- sewing
- gesture data
- formula
- information
- calculating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Sewing Machines And Sewing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度学习的缝纫手势识别方法,具体按照如下步骤实施:步骤1,数据集采集及预处理;步骤2,将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练;步骤3,将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取,构成GRU‑DNN网络对缝纫手势进行识别;步骤4,将步骤3所提取的特征送入SVM分类器中进行动作分类。本发明解决了现有技术中存在的DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理,而RNN网络结构在检测过程中会出现的梯度消失问题,导致识别效果不准确的问题。
Description
技术领域
本发明属于人工智能技术领域,涉及一种基于深度学习的缝纫手势识别方法。
背景技术
随着劳动成本的增加、计算机技术的提高,“人+机+环境”***也已成为不可逆转的趋势。深度学习相关技术在行为检测领域取得了显著的成果,解决了传统的人工特征方法只能在简单场景下进行识别这一缺陷,更有效的进行分类任务的优化,进而更高效的提取数据中的特征信息。
现有的缝纫手势识别主要采用递归神经网络进行识别,递归神经网络主要代表模型有:RNN(递归神经网络)模型、LSTM模型、GRU(门控循环单元)模型。RNN模型能够连接当前过程和过去状态,具有一定的记忆功能。LSTM模型和GRU模型是RNN模型的结构变种,相较于RNN模型,LSTM神经网络使循环神经网络不仅能够记忆过去的信息,同时还能选择性的忘记不重要的信息。GRU神经网络相较于LSTM网络结构而言,在识别过程中不仅能够利用图片全部的信息,并且在LSTM的基础上解决了长序列信息下梯度消失的问题,结构相较于LSTM结构模型也更加简单,识别效果更好。DNN神经网络(深度神经网络)作为一种前馈人工神经网络也被广泛的应用于行为识别领域,能够解决深层次的问题,能够在深度上更好的提取特征,但是DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理,而基础的RNN结构在检测过程中会出现梯度消失的问题,且RNN网络进行检测时获取图像深层次信息的效果相较于DNN而言较为欠缺。
发明内容
本发明的目的是提供一种基于深度学习的缝纫手势识别方法,解决了现有技术中存在的DNN在进行行为检测时无法对时间序列上有变化的情况做及时的处理,而基本的RNN网络结构在检测过程中会出现的梯度消失问题,导致识别效果不准确的问题。
本发明所采用的技术方案是,一种基于深度学习的缝纫手势识别方法,具体按照如下步骤实施:
步骤1,数据集采集及预处理;
步骤2,将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练;
步骤3,将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取,构成GRU-DNN网络对缝纫手势进行识别;
步骤4,将步骤3所提取的特征送入SVM分类器中进行动作分类。
本发明的特征还在于,
步骤1具体为:
步骤1.1,采集缝纫手势数据图片,将所采集到的缝纫手势数据图片通过动态阙值法进行颜色校正,以消除光照对显色性的影响;
步骤1.2,将经步骤1.1处理的缝纫手势数据图片亮度调节为原始亮度的0.6到1.5倍;
步骤1.3,将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度,得到经过预处理的缝纫手势数据图片,作为训练集。
步骤1.1具体为:
步骤1.1.1,将训练集中的每个缝纫手势数据图片分为若干个区域;
步骤1.1.2,计算每个区域中像素点的Cb和Cr,以及每个区域所有像素点Cb和Cr的平均值Mb和Mr,其中Cb表示像素点颜色饱和度,Cr表示像素点色调;
Cb=-0.169×R-0.331×G+0.500×B (1)
Cr=0.500×R-0.419×G-0.081×G (2)
其中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调,N为对应区域内像素点的个数;
步骤1.1.3,分别计算每个区域的Cb和Cr分量的对应绝对差的累计值Db和Dr,计算公式如下:
式中,N为每个区域的像素点数,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调;
步骤1.1.4,判读每个像素点Db/Dr的值,若Db/Dr的值小于对应区域Mb/Mr的值,则忽略对应区域的该像素点;
步骤1.1.5,对于每个缝纫手势数据图片,经步骤一1.1.4判断,去除忽略的像素点,按照公式(3)-(6)重新求取每个区域对应的Mb、Mr、Db、Dr,然后对每个区域对应的Mb、Mr、Db、Dr分别求和后取平均值作为对应缝纫手势数据图片的MB、MR、DB、DR值,其中,MB为对应整幅缝纫手势数据图片颜色饱和度的平均值,MR为对应整幅缝纫手势数据图片色调的平均值,DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.6,若每个区域内的像素点同时满足公式(7)和(8),则该像素点初步确认为白色参考点:
|Cb(n)-(Mb+Db x sign(Mb))|<1.5 x DB (7)
|Cr(n)-(1.5 x Mr x sign(Mr))|<1.5 x DR (8)
式中,Mb、Mr为缝纫手势数据图片色调、饱和度分量的平均值,Db、Dr为计算的每个小区域的色调、饱和度分量的绝对差的累计值,sign为信号处理函数DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.7,每个区域内初步确定的白色参考点按其亮度大小排序后取前10%的白色参考点作为最终确定的白色参考点;
步骤1.1.8,计算每个区域内所有白色参考点亮度的平均值Raver、Gaver、Baver;
式中,m为对应区域内最终确定的白色参考点的数目,R1、R2……Rm为每一个白色参考点的红色通道的颜色分量,G1、G2…Gm为所确定的白色参考点的绿色通道的颜色分量,B1、B2…Bm为所确定的白色参考点的蓝色通道的颜色分量;
步骤1.1.9,计算每个通道的增益,计算公式如下:
Rgain=Ymax/Raver (12)
Ggain=Ymax/Gaver (13)
Bgain=Ymax/Baver (14)
Y=0.299 x R+0.587 x G+0.114 x B (15)
式中:Ymax为颜色空间中Y分量在整幅图像中的最大值,Raver、Gaver、Baver为白色参考点亮度的平均值,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值;
步骤1.1.10,计算最终每个通道的颜色:
R′=R x Rgain (16)
G′=G x Ggain (17)
B′=B x Bgain (18)
式中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,R′、G′、B′为校正后的缝纫手势数据图片中像素点的红色、绿色、蓝色分量。
步骤2具体为:
步骤2.1,经过步骤1.1.10得到校正后的缝纫手势数据图片的红色、绿色、蓝色三个通道的颜色分量,在计算机中以矩阵的形式保存,然后将三个矩阵转换成一个列向量X作为特征向量送入GRU网络结构中;
步骤2.2,计算GRU网络结构中更新门的值,具体为:
确定从前一时刻复刻多少信息到下一时刻,计算公式如下:
Zt=σ×(W×Xt+U×ht-1) (19)
式中,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息,σ为逻辑sigmoid函数,W和U为权值矩阵,更新门将这两部分信息相加并投入到sigmod激活函数中,将激活结果压缩到0-1之间,更新门控制着前一时刻状态被带入到当前状态中的程度,即上一时刻的信息有多少应用于现在时刻;
步骤2.3,重置门的计算,具体为:确定过去的多少信息需要被遗忘,计算公式如下:
r(t)=σ×(W×Xt+U×ht-1) (20)
式中:W和U为权值矩阵,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.4,计算当前记忆内容,将当前记忆内容存储于重置门中,计算公式如下:
h′t=tanh(Wxt+rt⊙Uht-1) (21)
式中,rt为重置门的输出值,Xt为输入序列x的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.5,门控循环单元最终的输出内容,由前一时刻保留到最终记忆的信息加上当前记忆保留至最终时刻的信息,计算公式如下:
ht=Zt⊙ht-1+(1-Zt)⊙h′t (22)
式中,Zt为更新门的计算结果,ht-1为保存的第t-1步的信息,Zt⊙ht-1表示前一步保留到最终记忆的信息,h′t为当前记忆内容,(1-Zt)⊙h′t表示当前记忆内容保留至最终记忆的信息,完成数据训练。
步骤3具体为:
步骤3.1,将GRU网络结构保存的最终记忆信息作为DNN神经网络的输入后进行初始化参数,即就是权值w和偏置b的初始化;
步骤3.2,计算激活函数,计算公式如下:
其中,z为自变量,z=0、±1、±2……;
步骤3.3,前向传播,得到输出结果,输出公式如下:
al=σ×(Wl×al-1+bl) (24)
式中,l表示层数,al-1为神经网络中第l-1层的输出,al为神经网络中第l层的输出,Wl为第l层的权重,bl为第l层的偏置;
步骤3.4,计算损失函数,计算公式如下:
式中:al为神经网络中第l层的输出,x为经过GRU神经网络训练后输出的序列,y为真实的训练样本输出;
步骤3.5,反向传播,对每一层参数W和b更新的计算公式如下:
Zl=Wl×al-1+bl (26)
其中,Zl为第l层的未激活输出,将损失函数对Zl求偏导得到:
将损失函数对Wl求偏导得到:
将损失函数对bl求偏导得到:
其中,al-1指第l-1层神经网络的输出,bl为第l层的偏置;
联合求解(24)-(29)得到Wl、bl,实现对Wl、bl的不断更新。
步骤3.6,从输入层开始,一层层的向后计算,直到运算至输出层,得到最终特征提取结果。
本发明的有益效果是:
本发明一种基于深度学习的缝纫手势识别方法,依据GRU网络结构进行检测时在时间、空间上的强关联性以及DNN网络结构在提取深层次特征时的有效性,将GRU网络结构与DNN网络结构进行结合用于行为检测。利用动态阙值法对输入数据进行颜色校正,以消除光照对显色性的影响。将图片进行90度、180度、270度的旋转,以增强成像过程中各个角度的鲁棒性。利用GRU网络结构对预处理后的数据进行训练并将输出结果作为DNN网络结构的输入数据送入DNN网络结构中进行进一步的特征提取,相较于单一的DNN网络结构,GRU-DNN网络结构在进行行为检测时即充分利用了时间序列上的信息又能够得到图像更深层次的信息,识别效果相较于单一的网络结构而言也更为准确。
附图说明
图1是本发明一种基于深度学习的缝纫手势识别方法的的整体流程图;
图2是本发明一种基于深度学习的缝纫手势识别方法中进行数据预处理时颜色校正的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于深度学习的缝纫手势识别方法,其流程如图1所示,具体按照如下步骤实施:
步骤1,数据集采集及预处理;具体为:
步骤1.1,采集缝纫手势数据图片,将所采集到的缝纫手势数据图片通过动态阙值法进行颜色校正,以消除光照对显色性的影响;颜色校正主要是因为采集的图像和真实图像间会存在有一定的偏差,采用动态阙值算法消除光照对显色性的影响,如图2所示,具体为:
步骤1.1.1,将训练集中的每个缝纫手势数据图片分为若干个区域;
步骤1.1.2,计算每个区域中像素点的Cb和Cr,以及每个区域所有像素点Cb和Cr的平均值Mb和Mr,其中Cb表示像素点颜色饱和度,Cr表示像素点色调;
Cb=-0.169×R-0.331×G+0.500×B (1)
Cr=0.500×R-0.419×G-0.081×G (2)
其中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调,N为对应区域内像素点的个数;
步骤1.1.3,分别计算每个区域的Cb和Cr分量的对应绝对差的累计值Db和Dr,计算公式如下:
式中,N为每个区域的像素点数,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调;
步骤1.1.4,判读每个像素点Db/Dr的值,若Db/Dr的值小于对应区域Mb/Mr的值,则忽略对应区域的该像素点;
步骤1.1.5,对于每个缝纫手势数据图片,经步骤一1.1.4判断,去除忽略的像素点,按照公式(3)-(6)重新求取每个区域对应的Mb、Mr、Db、Dr,然后对每个区域对应的Mb、Mr、Db、Dr分别求和后取平均值作为对应缝纫手势数据图片的MB、MR、DB、DR值,其中,MB为对应整幅缝纫手势数据图片颜色饱和度的平均值,MR为对应整幅缝纫手势数据图片色调的平均值,DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.6,若每个区域内的像素点同时满足公式(7)和(8),则该像素点初步确认为白色参考点:
|Cb(n)-(Mb+Db x sign(Mb))|<1.5 x DB (7)
|Cr(n)-(1.5 x Mr x sign(Mr))|<1.5 x DR (8)
式中,Mb、Mr为缝纫手势数据图片色调、饱和度分量的平均值,Db、Dr为计算的每个小区域的色调、饱和度分量的绝对差的累计值,sign为信号处理函数DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.7,每个区域内初步确定的白色参考点按其亮度大小排序后取前10%的白色参考点作为最终确定的白色参考点;
步骤1.1.8,计算每个区域内所有白色参考点亮度的平均值Raver、Gaver、Baver;
式中,m为对应区域内最终确定的白色参考点的数目,R1、R2……Rm为每一个白色参考点的红色通道的颜色分量,G1、G2…Gm为所确定的白色参考点的绿色通道的颜色分量,B1、B2…Bm为所确定的白色参考点的蓝色通道的颜色分量;
步骤1.1.9,计算每个通道的增益,计算公式如下:
Rgain=Ymax/Raver (12)
Ggain=Ymax/Gaver (13)
Bgain=Ymax/Baver (14)
Y=0.299 x R+0.587 x G+0.114 x B (15)
式中:Ymax为颜色空间中Y分量在整幅图像中的最大值,Raver、Gaver、Baver为白色参考点亮度的平均值,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值;
步骤1.1.10,计算最终每个通道的颜色:
R′=R x Rgain (16)
G′=G x Ggain (17)
B′=B x Bgain (18)
式中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,R′、G′、B′为校正后的缝纫手势数据图片中像素点的红色、绿色、蓝色分量;
步骤1.2,将经步骤1.1处理的缝纫手势数据图片亮度调节为原始亮度的0.6到1.5倍;
步骤1.3,将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度,以增强不同成像角度的鲁棒性,得到经过预处理的缝纫手势数据图片,作为训练集;
步骤2,将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练;具体为:
步骤2.1,经过步骤1.1.10得到校正后的缝纫手势数据图片的红色、绿色、蓝色三个通道的颜色分量,在计算机中以矩阵的形式保存,然后将三个矩阵转换成一个列向量X作为特征向量送入GRU网络结构中;例如:
假设经过步骤1.1.10求取出来的R′、G′、B′在计算机中分别保存为以下形式:
上述的三个矩阵在计算机中就代表了预处理后的图像,矩阵中的数值对应图像中红绿蓝的强度值,为便于神经网络进行特征提取,将上述3个矩阵转化成1个向量X,在上述例子中可得X最终结果:
由上可知R′、G′、B′矩阵大小分别为3×3,那么向量X的总维数为3×3×3,结果是27。在人工智能领域中,每一个输入到神经网络的数据都被叫做一个特征,那么上述所举的例子就有27个特征,该27维的向量也被称为特征向量,神经网络接受该特征向量作为输入,进行预测;
将经过转化后的特征向量送入GRU网络结构中,分别计算GRU网络结构中更新门、重置门的值;
步骤2.2,计算GRU网络结构中更新门的值,具体为:
确定从前一时刻复刻多少信息到下一时刻,计算公式如下:
Zt=σ×(W×Xt+U×ht-1) (19)
式中,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息,σ为逻辑sigmoid函数,W和U为权值矩阵,更新门将这两部分信息相加并投入到sigmod激活函数中,将激活结果压缩到0-1之间,更新门控制着前一时刻状态被带入到当前状态中的程度,即上一时刻的信息有多少应用于现在时刻,Zt越大,带入的信息越多;
步骤2.3,重置门的计算,具体为:确定过去的多少信息需要被遗忘,计算公式如下:
r(t)=σ×(W×Xt+U×ht-1) (20)
式中:W和U为权值矩阵,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.4,计算当前记忆内容,将当前记忆内容存储于重置门中,计算公式如下:
h′t=tanh(Wxt+rt⊙Uht-1) (21)
式中,rt为重置门的输出值,Xt为输入序列x的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.5,门控循环单元最终的输出内容,由前一时刻保留到最终记忆的信息加上当前记忆保留至最终时刻的信息,计算公式如下:
ht=Zt⊙ht-1+(1-Zt)⊙h′t (22)
式中,Zt为更新门的计算结果,ht-1为保存的第t-1步的信息,Zt⊙ht-1表示前一步保留到最终记忆的信息,h′t为当前记忆内容,(1-Zt)⊙h′t表示当前记忆内容保留至最终记忆的信息,完成数据训练;
步骤3,将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取,构成GRU-DNN网络对缝纫手势进行识别;具体为:
步骤3.1,将GRU网络结构保存的最终记忆信息作为DNN神经网络的输入后进行初始化参数,即就是权值w和偏置b的初始化;
步骤3.2,计算激活函数,计算公式如下:
其中,z为自变量,z=0、±1、±2……;
步骤3.3,前向传播,所谓的前向传播算法也就是利用我们的若干个权重系数矩阵W和偏倚向量b和输入值向量X进行一系列线性运算和激活运算,从输入层开始,一层层的向后计算,一直运算到输出层,得到输出结果为止,输出层的输出公式如下:
al=σ×(Wl×al-1+bl) (24)
式中,l表示层数,al-1为神经网络中第l-1层的输出,al为神经网络中第l层的输出,Wl为第l层的权重,bl为第l层的偏置;
步骤3.4,计算损失函数,计算公式如下:
式中:al为神经网络中第l层的输出,x为经过GRU神经网络训练后输出的序列,y为真实的训练样本输出;
步骤3.5,反向传播,以对参数w和b不断更新,通过反向传播算法找到合适的线性系数矩阵W、偏倚向量b,让所有输入的训练样本计算出的输出尽可能的等于或很接近样本输出,对每一层参数W和b更新的计算公式如下:
Zl=Wl×al-1+bl (26)
其中,Zl为第l层的未激活输出,将损失函数对Zl求偏导得到:
将损失函数对Wl求偏导得到:
将损失函数对bl求偏导得到:
其中,al-1指第l-1层神经网络的输出,bl为第l层的偏置;
联合求解(24)-(29)得到Wl、bl,实现对Wl、bl的不断更新。
步骤3.6,从输入层开始,一层层的向后计算,直到运算至输出层,经过运算使训练样本计算的输出结果与真实的训练样本输出结果尽可能的接近,此时的训练样本计算的输出结果作为最终提取的特征输出;
步骤4,将步骤3所提取的特征送入SVM分类器中进行动作分类。
本发明一种基于深度学习的缝纫手势识别方法,依据GRU网络结构进行检测时在时间、空间上的强关联性以及DNN网络结构在提取深层次特征时的有效性,将GRU网络结构与DNN网络结构进行结合用于行为检测。利用动态阙值法对输入数据进行颜色校正,以消除光照对显色性的影响。将图片进行90度、180度、270度的旋转,以增强成像过程中各个角度的鲁棒性。利用GRU网络结构对预处理后的数据进行训练并将输出结果作为DNN网络结构的输入数据送入DNN网络结构中进行进一步的特征提取,相较于单一的DNN网络结构,GRU-DNN网络结构在进行行为检测时即充分利用了时间序列上的信息又能够得到图像更深层次的信息,识别效果相较于单一的网络结构而言也更为准确。
Claims (3)
1.一种基于深度学习的缝纫手势识别方法,其特征在于,具体按照如下步骤实施:
步骤1,数据集采集及预处理;具体为:
步骤1.1,采集缝纫手势数据图片,将所采集到的缝纫手势数据图片通过动态阈值法进行颜色校正,以消除光照对显色性的影响,具体为:
步骤1.1.1,将训练集中的每个缝纫手势数据图片分为若干个区域;
步骤1.1.2,计算每个区域中像素点的Cb和Cr,以及每个区域所有像素点Cb和Cr的平均值Mb和Mr,其中Cb表示像素点颜色饱和度,Cr表示像素点色调;
Cb=-0.169×R-0.331×G+0.500×B (1)
Cr=0.500×R-0.419×G-0.081×G (2)
其中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调,N为对应区域内像素点的个数;
步骤1.1.3,分别计算每个区域的Cb和Cr分量的对应绝对差的累计值Db和Dr,计算公式如下:
式中,N为每个区域的像素点数,Cb(n)为对应区域内第n个像素点的颜色饱和度,Cr(n)为对应区域内第n个像素点的色调;
步骤1.1.4,判读每个像素点Db/Dr的值,若Db/Dr的值小于对应区域Mb/Mr的值,则忽略对应区域的该像素点;
步骤1.1.5,对于每个缝纫手势数据图片,经步骤一1.1.4判断,去除忽略的像素点,按照公式(3)-(6)重新求取每个区域对应的Mb、Mr、Db、Dr,然后对每个区域对应的Mb、Mr、Db、Dr分别求和后取平均值作为对应缝纫手势数据图片的MB、MR、DB、DR值,其中,MB为对应整幅缝纫手势数据图片颜色饱和度的平均值,MR为对应整幅缝纫手势数据图片色调的平均值,DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.6,若每个区域内的像素点同时满足公式(7)和(8),则该像素点初步确认为白色参考点:
|Cb(n)-(Mb+Db x sign(Mb))|<1.5 x DB (7)
|Cr(n)-(1.5 x Mr x sign(Mr))|<1.5 x DR (8)
式中,Mb、Mr为缝纫手势数据图片色调、饱和度分量的平均值,Db、Dr为计算的每个小区域的色调、饱和度分量的绝对差的累计值,sign为信号处理函数DB为对应整幅缝纫手势数据图片颜色饱和度的绝对差的累计值,DR为对应整幅缝纫手势数据图片色调的绝对差的累计值;
步骤1.1.7,每个区域内初步确定的白色参考点按其亮度大小排序后取前10%的白色参考点作为最终确定的白色参考点;
步骤1.1.8,计算每个区域内所有白色参考点亮度的平均值Raver、Gaver、Baver;
式中,m为对应区域内最终确定的白色参考点的数目,R1、R2……Rm为每一个白色参考点的红色通道的颜色分量,G1、G2…Gm为所确定的白色参考点的绿色通道的颜色分量,B1、B2…Bm为所确定的白色参考点的蓝色通道的颜色分量;
步骤1.1.9,计算每个通道的增益,计算公式如下:
Rgain=Ymax/Raver (12)
Ggain=Ymax/Gaver (13)
Bgain=Ymax/Baver (14)
Y=0.299 x R+0.587 x G+0.114 x B (15)
式中:Ymax为颜色空间中Y分量在整幅图像中的最大值,Raver、Gaver、Baver为白色参考点亮度的平均值,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值;
步骤1.1.10,计算最终每个通道的颜色:
R′=R x Rgain (16)
G′=G x Ggain (17)
B′=B x Bgain (18)
式中,R、G、B为所采集的缝纫手势数据图像中每个像素点的红色、绿色、蓝色分量值,R′、G′、B′为校正后的缝纫手势数据图片中像素点的红色、绿色、蓝色分量;
步骤1.2,将经步骤1.1处理的缝纫手势数据图片亮度调节为原始亮度的0.6到1.5倍;
步骤1.3,将经步骤1.2调节亮度缝纫手势数据图片随机进行不旋转、旋转90度或180度或270度,得到经过预处理的缝纫手势数据图片,作为训练集;
步骤2,将经过预处理后数据集中的图片以RGB图片帧的形式输入GRU神经网络中进行数据训练;
步骤3,将GRU网络的输出结果作为DNN神经网络的输入进行进一步的特征提取,构成GRU-DNN网络对缝纫手势进行识别;
步骤4,将步骤3所提取的特征送入SVM分类器中进行动作分类。
2.根据权利要求1所述的一种基于深度学习的缝纫手势识别方法,其特征在于,所述步骤2具体为:
步骤2.1,经过步骤1.1.10得到校正后的缝纫手势数据图片的红色、绿色、蓝色三个通道的颜色分量,在计算机中以矩阵的形式保存,然后将三个矩阵转换成一个列向量X作为特征向量送入GRU网络结构中;
步骤2.2,计算GRU网络结构中更新门的值,具体为:
确定从前一时刻复刻多少信息到下一时刻,计算公式如下:
Zt=σ×(W×Xt+U×ht-1) (19)
式中,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息,σ为逻辑sigmoid函数,W和U为权值矩阵,更新门将这两部分信息相加并投入到sigmod激活函数中,将激活结果压缩到0—1之间,更新门控制着前一时刻状态被带入到当前状态中的程度,即上一时刻的信息有多少应用于现在时刻;
步骤2.3,重置门的计算,具体为:确定过去的多少信息需要被遗忘,计算公式如下:
r(t)=σ×(W×Xt+U×ht-1) (20)
式中:W和U为权值矩阵,Xt为输入特征向量X的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.4,计算当前记忆内容,将当前记忆内容存储于重置门中,计算公式如下:
h′t=tanh(Wxt+rt☉Uht-1) (21)
式中,rt为重置门的输出值,Xt为输入序列x的第t个分量,ht-1为保存的第t-1步的信息;
步骤2.5,门控循环单元最终的输出内容,由前一时刻保留到最终记忆的信息加上当前记忆保留至最终时刻的信息,计算公式如下:
ht=Zt☉ht-1+(1-Zt)☉h′t (22)
式中,Zt为更新门的计算结果,ht-1为保存的第t-1步的信息,Zt☉ht-1表示前一步保留到最终记忆的信息,h′t为当前记忆内容,(1-Zt)☉h′t表示当前记忆内容保留至最终记忆的信息,完成数据训练。
3.根据权利要求2所述的一种基于深度学习的缝纫手势识别方法,其特征在于,所述步骤3具体为:
步骤3.1,将GRU网络结构保存的最终记忆信息作为DNN神经网络的输入后进行初始化参数,即就是权值w和偏置b的初始化;
步骤3.2,计算激活函数,计算公式如下:
其中,z为自变量,z=0、±1、±2……;
步骤3.3,前向传播,得到输出结果,输出公式如下:
al=σ×(Wl×al-1+bl) (24)
式中,l表示层数,al-1为神经网络中第l-1层的输出,al为神经网络中第l层的输出,Wl为第l层的权重,bl为第l层的偏置;
步骤3.4,计算损失函数,计算公式如下:
式中:al为神经网络中第l层的输出,x为经过GRU神经网络训练后输出的序列,y为真实的训练样本输出;
步骤3.5,反向传播,对每一层参数W和b更新的计算公式如下:
Zl=Wl×al-1+bl (26)
其中,Zl为第l层的未激活输出,将损失函数对Zl求偏导得到:
将损失函数对Wl求偏导得到:
将损失函数对bl求偏导得到:
其中,al-1指第l-1层神经网络的输出,bl为第l层的偏置;
联合求解(24)-(29)得到Wl、bl,实现对Wl、bl的不断更新;
步骤3.6,从输入层开始,一层层的向后计算,直到运算至输出层,得到最终特征提取结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096967.6A CN112270220B (zh) | 2020-10-14 | 2020-10-14 | 一种基于深度学习的缝纫手势识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011096967.6A CN112270220B (zh) | 2020-10-14 | 2020-10-14 | 一种基于深度学习的缝纫手势识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270220A CN112270220A (zh) | 2021-01-26 |
CN112270220B true CN112270220B (zh) | 2022-02-25 |
Family
ID=74337505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011096967.6A Active CN112270220B (zh) | 2020-10-14 | 2020-10-14 | 一种基于深度学习的缝纫手势识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270220B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11983327B2 (en) * | 2021-10-06 | 2024-05-14 | Fotonation Limited | Method for identifying a gesture |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108052884A (zh) * | 2017-12-01 | 2018-05-18 | 华南理工大学 | 一种基于改进残差神经网络的手势识别方法 |
CN108205671A (zh) * | 2016-12-16 | 2018-06-26 | 浙江宇视科技有限公司 | 图像处理方法及装置 |
CN108846356A (zh) * | 2018-06-11 | 2018-11-20 | 南京邮电大学 | 一种基于实时手势识别的手心追踪定位的方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103208126B (zh) * | 2013-04-17 | 2016-04-06 | 同济大学 | 一种自然环境下运动物体监测方法 |
CN105427261A (zh) * | 2015-11-27 | 2016-03-23 | 努比亚技术有限公司 | 一种去除图像彩色噪声的方法、装置及移动终端 |
CN105812762A (zh) * | 2016-03-23 | 2016-07-27 | 武汉鸿瑞达信息技术有限公司 | 一种处理图像偏色的自动白平衡方法 |
US9972339B1 (en) * | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
CN108537147B (zh) * | 2018-03-22 | 2021-12-10 | 东华大学 | 一种基于深度学习的手势识别方法 |
CN108965609A (zh) * | 2018-08-31 | 2018-12-07 | 南京宽塔信息技术有限公司 | 移动终端应用场景的识别方法和装置 |
CN109378064B (zh) * | 2018-10-29 | 2021-02-02 | 南京医基云医疗数据研究院有限公司 | 医疗数据处理方法、装置电子设备及计算机可读介质 |
CN109584186A (zh) * | 2018-12-25 | 2019-04-05 | 西北工业大学 | 一种无人机机载图像去雾方法和装置 |
CN110852960A (zh) * | 2019-10-25 | 2020-02-28 | 江苏荣策士科技发展有限公司 | 一种去除雾化的图像增强装置及方法 |
CN110827218B (zh) * | 2019-10-31 | 2023-08-29 | 西北工业大学 | 基于图像hsv透射率加权校正的机载图像去雾方法 |
CN110929769B (zh) * | 2019-11-14 | 2023-02-10 | 国网吉林省电力有限公司超高压公司 | 一种基于振动和声音的电抗器机械类故障联合检测模型、方法及装置 |
-
2020
- 2020-10-14 CN CN202011096967.6A patent/CN112270220B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108205671A (zh) * | 2016-12-16 | 2018-06-26 | 浙江宇视科技有限公司 | 图像处理方法及装置 |
CN108052884A (zh) * | 2017-12-01 | 2018-05-18 | 华南理工大学 | 一种基于改进残差神经网络的手势识别方法 |
CN108846356A (zh) * | 2018-06-11 | 2018-11-20 | 南京邮电大学 | 一种基于实时手势识别的手心追踪定位的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112270220A (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830157B (zh) | 基于注意力机制和3d卷积神经网络的人体行为识别方法 | |
CN106204779B (zh) | 基于多人脸数据采集策略和深度学习的课堂考勤方法 | |
WO2021253939A1 (zh) | 一种用于眼底视网膜血管图像分割的粗糙集神经网络方法 | |
Zhang et al. | Plant disease recognition based on plant leaf image. | |
CN107844795B (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
CN109872285B (zh) | 一种基于变分约束的Retinex低照度彩色图像增强方法 | |
Varga et al. | Fully automatic image colorization based on Convolutional Neural Network | |
CN110399821B (zh) | 基于人脸表情识别的顾客满意度获取方法 | |
CN108009493B (zh) | 基于动作增强的人脸防欺骗识别方法 | |
CN109543697A (zh) | 一种基于深度学习的rgbd图像目标识别方法 | |
US20180130186A1 (en) | Hybrid machine learning systems | |
Xu et al. | Recurrent convolutional neural network for video classification | |
CN107862680B (zh) | 一种基于相关滤波器的目标跟踪优化方法 | |
CN111047543A (zh) | 图像增强方法、装置和存储介质 | |
CN113792635A (zh) | 一种基于轻量化卷积神经网络的手势识别方法 | |
CN107516083A (zh) | 一种面向识别的远距离人脸图像增强方法 | |
CN112766021A (zh) | 一种基于行人的关键点信息与语义分割信息进行行人重识别的方法 | |
Li et al. | Research on facial expression recognition based on LBP and deeplearning | |
Yang et al. | A Face Detection Method Based on Skin Color Model and Improved AdaBoost Algorithm. | |
Choi et al. | Deep learning-based computational color constancy with convoluted mixture of deep experts (CMoDE) fusion technique | |
CN112270220B (zh) | 一种基于深度学习的缝纫手势识别方法 | |
CN114882278A (zh) | 一种基于注意力机制和迁移学习的轮胎花纹分类方法和装置 | |
Li et al. | A self-attention feature fusion model for rice pest detection | |
CN114049503A (zh) | 一种基于非端到端深度学习网络的显著性区域检测方法 | |
CN112487926A (zh) | 一种基于时空图卷积网络的景区投喂行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |