CN109409276A

CN109409276A - 一种健壮手语特征提取方法

Info

Publication number: CN109409276A
Application number: CN201811218298.8A
Authority: CN
Inventors: 高庆华; 王洁; 马晓瑞
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2019-03-01

Abstract

本发明提供一种健壮手语特征提取方法，可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征，属于医疗健康与信息技术领域。该手语特征提取方法采用深度对抗网络架构，包括三个子网络：基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络、以及基于稀疏表示结构的分类网络。通过同时最小化手语动作类别估计误差以及最大化场景信息估计误差，该方法确保了所提取的手语特征在不同手语动作之间的可区分性以及在不同场景下的一致性，从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际多场景工作中的性能，为听力障碍人士与普通人士的有效交流提供条件。

Description

一种健壮手语特征提取方法

技术领域

本发明属于医疗健康与信息技术领域，涉及一种健壮手语特征提取方法，可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征。该方法借助深度对抗网络来提取手语特征，确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性，从而使得使用该方法的手语识别***可以跨场景工作。

背景技术

手语是听力障碍人士日常交流的语言，对于促进听力障碍人士间的交流起到了重要作用。然而，手语动作较为复杂且难以记忆，造成手语难以被掌握。手语识别***可自动识别手语动作，从而有效的促进听力障碍人士与普通人士的交流。

当前，研究人员设计了多种方法来实现手语识别，并进行了有益的探索：

黄爱发等人(参考文献：黄爱发，徐向民，邢晓芬，李兆海，倪浩淼.一种基于LeapMotion的手语字母识别方法[P].中国发明专利，申请专利号：CN201510254098.8，2015.)提出采用体感传感器实现手语识别，通过体感设备采集手语信息，提取出手语特征，进而基于模板匹配方法实现手语识别。

胡章芳等人(参考文献：胡章芳，罗元，张毅，杨麟，席兵.基于Kinect传感器的静态手语字母识别***及方法[P].中国发明专利，申请专利号：CN201410191394.3，2014.)提出借助Kinect摄像头捕获人体手语动作视频，之后基于图像处理与模式识别方法实现手语动作识别。

上述方法多采用模式识别方法来设计手语识别***，模式识别的核心是从采集的信号中提取出具有区分能力的特征。然而，在跨场景领域模式识别方法经常失效。例如：在办公室训练学习完毕的手语识别***，在家里使用时识别率会显著降低。这本质上是由于手语特征提取时没有考虑跨场景能力造成的。

针对此，本发明借助深度对抗网络来提取手语特征，确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性，从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际工作中的性能，从而有效的促进听力障碍人士与普通人士的交流。

发明内容

本发明的目的是克服现有技术的缺陷，提供一种可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征的方法。与现有技术相比，本发明的方法将使得在一个场景下训练好的手语识别***，在新的场景下工作时仍然可以取得良好的手语识别性能。

本发明的技术方案：

一种健壮手语特征提取方法，该方法主要由基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络和基于稀疏表示结构的分类网络相互配合完成；其工作步骤包括离线网络参数计算与在线手语特征提取两个阶段，离线网络参数计算阶段借助已知的手语动作真实值，通过最小化代价函数实现对所有网络参数的求解计算，在线手语特征提取阶段根据当前输入的传感器采集的信息，提取出健壮手语特征，具体如下：

1)离线网络参数计算阶段

(1.1)人体在某一已知场景下执行某一已知手语动作，手语识别传感器将采集的手语动作信息输入到基于深度卷积结构的特征提取网络中，特征提取网络输出提取的手语特征并传送到基于全连接结构的场景辨识网络以及基于稀疏表示结构的分类网络；

(1.2)基于全连接结构的场景辨识网络对特征提取网络提取的手语特征进行深度分析，识别并输出手语动作对应的场景信息；

(1.3)基于稀疏表示结构的分类网络对特征提取网络提取的手语特征进行识别分类，输出识别出来的手语动作类别；

(1.4)根据识别出来的手语动作场景信息和手语动作类别，以及已知的真实手语动作场景信息和真实手语动作类别，计算代价函数；

(1.5)基于误差反向传播算法，通过最小化代价函数实现对基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络、以及基于稀疏表示结构的分类网络的网络参数的求解计算；

(1.6)重复步骤(1.1)至(1.5)，直到所有网络参数保持不变，离线网络参数计算阶段完毕。

2)在线手语特征提取阶段，人体在某一未知场景下执行某一未知手语动作，手语识别传感器将采集的信息输入到基于深度卷积结构的特征提取网络，输出提取的手语特征。

所述传感器数据为通过无线接收机采集的信号幅度、相位信息构成的频率时间二维矩阵；

所述基于深度卷积结构的特征提取网络包括3-5层，每层均执行卷积、池化、非线性激活函数三种操作；

所述基于全连接结构的场景辨识网络包括3层，每层均与下一层采用全连接结构，并执行非线性激活操作；

所述基于稀疏表示结构的分类网络包括输入层和输出层，输入层与输出层采用全连接结构，并将每个输出单元数值范围限定到0至1之间，同时，对输出层增加稀疏约束，确保仅有一个输出单元处于激活状态；

所述代价函数等于手语动作类别估计误差减去场景信息估计误差，通过采用Adam算法对代价函数进行最小化操作，借助误差反向传播算法求解计算整个网络参数。

本发明的有益效果：可提供一种健壮手语特征提取方法，该方法借助深度对抗网络来提取手语特征，确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性，从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际多场景工作中的性能，为听力障碍人士与普通人士的有效交流提供条件。

附图说明

图1为本发明方法的***结构原理框图。

具体实施方式

下面结合技术方案和附图具体详细阐述本发明的具体实施。

实施例采用图1所示的***结构。***构成如下：基于深度卷积结构的特征提取网络由3层组成，每层均执行3×3的卷积操作、2×2的池化操作、以及基于RELU的激活函数；基于全连接结构的场景辨识网络由3层组成，每层均与下一层采用全连接结构，并采用RELU激活函数进行非线性操作；基于稀疏表示结构的分类网络由2层组成，输入层与输出层采用全连接结构，并将每个输出单元数值范围限定到0至1之间，同时，对输出层增加稀疏约束，确保仅有一个输出单元处于激活状态。手语识别***采用无线识别的方式，在5种场景下共有30种手语动作，传感器数据为通过无线接收机采集的信号幅度、相位信息构成的60×200的频率时间二维矩阵，基于深度卷积结构的特征提取网络输入频率时间二维矩阵，输出64×1的手语特征；该手语特征向量输入到基于全连接结构的场景辨识网络，输出5×1的手语动作场景向量；该手语特征向量输入到基于稀疏表示结构的分类网络，输出30×1的手语动作类别向量。离线网络参数计算阶段，采用Adam算法最小化代价函数求解计算网络参数；在线手语特征提取阶段，直接利用基于深度卷积结构的特征提取网络从当前手语动作获取的频率时间二维矩阵中提取手语特征。

测试表明，在跨场景应用中，采用本发明的健壮手语特征提取方法后，手语识别***的准确率可显著提升。

Claims

1.一种健壮手语特征提取方法，其特征在于，该方法主要由基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络和基于稀疏表示结构的分类网络相互配合完成；其工作步骤包括离线网络参数计算与在线手语特征提取两个阶段，离线网络参数计算阶段借助已知的手语动作真实值，通过最小化代价函数实现对所有网络参数的求解计算，在线手语特征提取阶段根据当前输入的传感器采集的信息，提取出健壮手语特征，具体如下：

1)离线网络参数计算阶段

(1.6)重复步骤(1.1)至(1.5)，直到所有网络参数保持不变，离线网络参数计算阶段完毕；

2)在线手语特征提取阶段，人体在某一未知场景下执行某一未知手语动作，手语识别传感器将采集的信息输入到基于深度卷积结构的特征提取网络，输出提取的手语特征；