CN109409276A - 一种健壮手语特征提取方法 - Google Patents

一种健壮手语特征提取方法 Download PDF

Info

Publication number
CN109409276A
CN109409276A CN201811218298.8A CN201811218298A CN109409276A CN 109409276 A CN109409276 A CN 109409276A CN 201811218298 A CN201811218298 A CN 201811218298A CN 109409276 A CN109409276 A CN 109409276A
Authority
CN
China
Prior art keywords
sign language
network
feature
network based
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811218298.8A
Other languages
English (en)
Inventor
高庆华
王洁
马晓瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN201811218298.8A priority Critical patent/CN109409276A/zh
Publication of CN109409276A publication Critical patent/CN109409276A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种健壮手语特征提取方法,可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征,属于医疗健康与信息技术领域。该手语特征提取方法采用深度对抗网络架构,包括三个子网络:基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络、以及基于稀疏表示结构的分类网络。通过同时最小化手语动作类别估计误差以及最大化场景信息估计误差,该方法确保了所提取的手语特征在不同手语动作之间的可区分性以及在不同场景下的一致性,从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际多场景工作中的性能,为听力障碍人士与普通人士的有效交流提供条件。

Description

一种健壮手语特征提取方法
技术领域
本发明属于医疗健康与信息技术领域,涉及一种健壮手语特征提取方法,可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征。该方法借助深度对抗网络来提取手语特征,确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性,从而使得使用该方法的手语识别***可以跨场景工作。
背景技术
手语是听力障碍人士日常交流的语言,对于促进听力障碍人士间的交流起到了重要作用。然而,手语动作较为复杂且难以记忆,造成手语难以被掌握。手语识别***可自动识别手语动作,从而有效的促进听力障碍人士与普通人士的交流。
当前,研究人员设计了多种方法来实现手语识别,并进行了有益的探索:
黄爱发等人(参考文献:黄爱发,徐向民,邢晓芬,李兆海,倪浩淼.一种基于LeapMotion的手语字母识别方法[P].中国发明专利,申请专利号:CN201510254098.8,2015.)提出采用体感传感器实现手语识别,通过体感设备采集手语信息,提取出手语特征,进而基于模板匹配方法实现手语识别。
胡章芳等人(参考文献:胡章芳,罗元,张毅,杨麟,席兵.基于Kinect传感器的静态手语字母识别***及方法[P].中国发明专利,申请专利号:CN201410191394.3,2014.)提出借助Kinect摄像头捕获人体手语动作视频,之后基于图像处理与模式识别方法实现手语动作识别。
上述方法多采用模式识别方法来设计手语识别***,模式识别的核心是从采集的信号中提取出具有区分能力的特征。然而,在跨场景领域模式识别方法经常失效。例如:在办公室训练学习完毕的手语识别***,在家里使用时识别率会显著降低。这本质上是由于手语特征提取时没有考虑跨场景能力造成的。
针对此,本发明借助深度对抗网络来提取手语特征,确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性,从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际工作中的性能,从而有效的促进听力障碍人士与普通人士的交流。
发明内容
本发明的目的是克服现有技术的缺陷,提供一种可以从多个场景的手语动作中提取出健壮的且具有显著区分能力的手语特征的方法。与现有技术相比,本发明的方法将使得在一个场景下训练好的手语识别***,在新的场景下工作时仍然可以取得良好的手语识别性能。
本发明的技术方案:
一种健壮手语特征提取方法,该方法主要由基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络和基于稀疏表示结构的分类网络相互配合完成;其工作步骤包括离线网络参数计算与在线手语特征提取两个阶段,离线网络参数计算阶段借助已知的手语动作真实值,通过最小化代价函数实现对所有网络参数的求解计算,在线手语特征提取阶段根据当前输入的传感器采集的信息,提取出健壮手语特征,具体如下:
1)离线网络参数计算阶段
(1.1)人体在某一已知场景下执行某一已知手语动作,手语识别传感器将采集的手语动作信息输入到基于深度卷积结构的特征提取网络中,特征提取网络输出提取的手语特征并传送到基于全连接结构的场景辨识网络以及基于稀疏表示结构的分类网络;
(1.2)基于全连接结构的场景辨识网络对特征提取网络提取的手语特征进行深度分析,识别并输出手语动作对应的场景信息;
(1.3)基于稀疏表示结构的分类网络对特征提取网络提取的手语特征进行识别分类,输出识别出来的手语动作类别;
(1.4)根据识别出来的手语动作场景信息和手语动作类别,以及已知的真实手语动作场景信息和真实手语动作类别,计算代价函数;
(1.5)基于误差反向传播算法,通过最小化代价函数实现对基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络、以及基于稀疏表示结构的分类网络的网络参数的求解计算;
(1.6)重复步骤(1.1)至(1.5),直到所有网络参数保持不变,离线网络参数计算阶段完毕。
2)在线手语特征提取阶段,人体在某一未知场景下执行某一未知手语动作,手语识别传感器将采集的信息输入到基于深度卷积结构的特征提取网络,输出提取的手语特征。
所述传感器数据为通过无线接收机采集的信号幅度、相位信息构成的频率时间二维矩阵;
所述基于深度卷积结构的特征提取网络包括3-5层,每层均执行卷积、池化、非线性激活函数三种操作;
所述基于全连接结构的场景辨识网络包括3层,每层均与下一层采用全连接结构,并执行非线性激活操作;
所述基于稀疏表示结构的分类网络包括输入层和输出层,输入层与输出层采用全连接结构,并将每个输出单元数值范围限定到0至1之间,同时,对输出层增加稀疏约束,确保仅有一个输出单元处于激活状态;
所述代价函数等于手语动作类别估计误差减去场景信息估计误差,通过采用Adam算法对代价函数进行最小化操作,借助误差反向传播算法求解计算整个网络参数。
本发明的有益效果:可提供一种健壮手语特征提取方法,该方法借助深度对抗网络来提取手语特征,确保了该特征在不同手语动作之间的可区分性以及在不同场景下的一致性,从而使得使用该方法的手语识别***可以跨场景工作。本发明将提升手语识别***在实际多场景工作中的性能,为听力障碍人士与普通人士的有效交流提供条件。
附图说明
图1为本发明方法的***结构原理框图。
具体实施方式
下面结合技术方案和附图具体详细阐述本发明的具体实施。
实施例采用图1所示的***结构。***构成如下:基于深度卷积结构的特征提取网络由3层组成,每层均执行3×3的卷积操作、2×2的池化操作、以及基于RELU的激活函数;基于全连接结构的场景辨识网络由3层组成,每层均与下一层采用全连接结构,并采用RELU激活函数进行非线性操作;基于稀疏表示结构的分类网络由2层组成,输入层与输出层采用全连接结构,并将每个输出单元数值范围限定到0至1之间,同时,对输出层增加稀疏约束,确保仅有一个输出单元处于激活状态。手语识别***采用无线识别的方式,在5种场景下共有30种手语动作,传感器数据为通过无线接收机采集的信号幅度、相位信息构成的60×200的频率时间二维矩阵,基于深度卷积结构的特征提取网络输入频率时间二维矩阵,输出64×1的手语特征;该手语特征向量输入到基于全连接结构的场景辨识网络,输出5×1的手语动作场景向量;该手语特征向量输入到基于稀疏表示结构的分类网络,输出30×1的手语动作类别向量。离线网络参数计算阶段,采用Adam算法最小化代价函数求解计算网络参数;在线手语特征提取阶段,直接利用基于深度卷积结构的特征提取网络从当前手语动作获取的频率时间二维矩阵中提取手语特征。
测试表明,在跨场景应用中,采用本发明的健壮手语特征提取方法后,手语识别***的准确率可显著提升。

Claims (1)

1.一种健壮手语特征提取方法,其特征在于,该方法主要由基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络和基于稀疏表示结构的分类网络相互配合完成;其工作步骤包括离线网络参数计算与在线手语特征提取两个阶段,离线网络参数计算阶段借助已知的手语动作真实值,通过最小化代价函数实现对所有网络参数的求解计算,在线手语特征提取阶段根据当前输入的传感器采集的信息,提取出健壮手语特征,具体如下:
1)离线网络参数计算阶段
(1.1)人体在某一已知场景下执行某一已知手语动作,手语识别传感器将采集的手语动作信息输入到基于深度卷积结构的特征提取网络中,特征提取网络输出提取的手语特征并传送到基于全连接结构的场景辨识网络以及基于稀疏表示结构的分类网络;
(1.2)基于全连接结构的场景辨识网络对特征提取网络提取的手语特征进行深度分析,识别并输出手语动作对应的场景信息;
(1.3)基于稀疏表示结构的分类网络对特征提取网络提取的手语特征进行识别分类,输出识别出来的手语动作类别;
(1.4)根据识别出来的手语动作场景信息和手语动作类别,以及已知的真实手语动作场景信息和真实手语动作类别,计算代价函数;
(1.5)基于误差反向传播算法,通过最小化代价函数实现对基于深度卷积结构的特征提取网络、基于全连接结构的场景辨识网络、以及基于稀疏表示结构的分类网络的网络参数的求解计算;
(1.6)重复步骤(1.1)至(1.5),直到所有网络参数保持不变,离线网络参数计算阶段完毕;
2)在线手语特征提取阶段,人体在某一未知场景下执行某一未知手语动作,手语识别传感器将采集的信息输入到基于深度卷积结构的特征提取网络,输出提取的手语特征;
所述传感器数据为通过无线接收机采集的信号幅度、相位信息构成的频率时间二维矩阵;
所述基于深度卷积结构的特征提取网络包括3-5层,每层均执行卷积、池化、非线性激活函数三种操作;
所述基于全连接结构的场景辨识网络包括3层,每层均与下一层采用全连接结构,并执行非线性激活操作;
所述基于稀疏表示结构的分类网络包括输入层和输出层,输入层与输出层采用全连接结构,并将每个输出单元数值范围限定到0至1之间,同时,对输出层增加稀疏约束,确保仅有一个输出单元处于激活状态;
所述代价函数等于手语动作类别估计误差减去场景信息估计误差,通过采用Adam算法对代价函数进行最小化操作,借助误差反向传播算法求解计算整个网络参数。
CN201811218298.8A 2018-10-19 2018-10-19 一种健壮手语特征提取方法 Withdrawn CN109409276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811218298.8A CN109409276A (zh) 2018-10-19 2018-10-19 一种健壮手语特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811218298.8A CN109409276A (zh) 2018-10-19 2018-10-19 一种健壮手语特征提取方法

Publications (1)

Publication Number Publication Date
CN109409276A true CN109409276A (zh) 2019-03-01

Family

ID=65467747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811218298.8A Withdrawn CN109409276A (zh) 2018-10-19 2018-10-19 一种健壮手语特征提取方法

Country Status (1)

Country Link
CN (1) CN109409276A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1204826A (zh) * 1998-04-18 1999-01-13 茹家佑 聋哑人语音学习、对话方法及使用的语音同步反馈装置
CN105205475A (zh) * 2015-10-20 2015-12-30 北京工业大学 一种动态手势识别方法
CN105989336A (zh) * 2015-02-13 2016-10-05 中国科学院西安光学精密机械研究所 基于带权重的解卷积深度网络学习的场景识别方法
CN106685546A (zh) * 2016-12-29 2017-05-17 深圳天珑无线科技有限公司 一种无线人体感知的方法及服务器
US20170220923A1 (en) * 2016-02-02 2017-08-03 Samsung Electronics Co., Ltd. Gesture classification apparatus and method using emg signal
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN107871136A (zh) * 2017-03-22 2018-04-03 中山大学 基于稀疏性随机池化的卷积神经网络的图像识别方法
CN107886064A (zh) * 2017-11-06 2018-04-06 安徽大学 一种基于卷积神经网络的人脸识别场景适应的方法
CN108491077A (zh) * 2018-03-19 2018-09-04 浙江大学 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1204826A (zh) * 1998-04-18 1999-01-13 茹家佑 聋哑人语音学习、对话方法及使用的语音同步反馈装置
CN105989336A (zh) * 2015-02-13 2016-10-05 中国科学院西安光学精密机械研究所 基于带权重的解卷积深度网络学习的场景识别方法
CN105205475A (zh) * 2015-10-20 2015-12-30 北京工业大学 一种动态手势识别方法
US20170220923A1 (en) * 2016-02-02 2017-08-03 Samsung Electronics Co., Ltd. Gesture classification apparatus and method using emg signal
CN106685546A (zh) * 2016-12-29 2017-05-17 深圳天珑无线科技有限公司 一种无线人体感知的方法及服务器
CN107871136A (zh) * 2017-03-22 2018-04-03 中山大学 基于稀疏性随机池化的卷积神经网络的图像识别方法
CN107679491A (zh) * 2017-09-29 2018-02-09 华中师范大学 一种融合多模态数据的3d卷积神经网络手语识别方法
CN107886064A (zh) * 2017-11-06 2018-04-06 安徽大学 一种基于卷积神经网络的人脸识别场景适应的方法
CN108491077A (zh) * 2018-03-19 2018-09-04 浙江大学 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110175551A (zh) * 2019-05-21 2019-08-27 青岛科技大学 一种手语识别方法
CN110175551B (zh) * 2019-05-21 2023-01-10 青岛科技大学 一种手语识别方法

Similar Documents

Publication Publication Date Title
CN107292813B (zh) 一种基于生成对抗网络的多姿态人脸生成方法
CN108433722A (zh) 便携式脑电采集设备及其在ssvep和运动想象中的应用
Wang et al. Csi-net: Unified human body characterization and pose recognition
CN109171707A (zh) 一种智能心电图分类方法
CN110353702A (zh) 一种基于浅层卷积神经网络的情感识别方法及***
CN104771163A (zh) 基于csp和r-csp算法的脑电信号特征提取方法
CN106846380B (zh) 一种医学图像配准方法及设备
CN107122050B (zh) 基于csfl-gdbn的稳态运动视觉诱发电位脑-机接口方法
CN110059564B (zh) 基于功率谱密度和互相关熵谱密度融合的特征提取方法
Savvaki et al. Matrix and tensor completion on a human activity recognition framework
CN109497990A (zh) 一种基于典型相关分析的心电信号身份识别方法及***
CN111582200B (zh) 人体姿态估计方法、装置、电子设备及介质
CN110074779A (zh) 一种脑电信号识别方法及装置
CN106529377A (zh) 一种基于图像的年龄估计方法、装置及***
CN107480716A (zh) 一种结合eog和视频的扫视信号识别方法及***
Chen et al. Feature map pooling for cross-view gait recognition based on silhouette sequence images
Zheng et al. An efficient mobile model for insect image classification in the field pest management
CN110188610A (zh) 一种基于深度学习的情绪强度估计方法及***
CN104679967A (zh) 一种判断心理测试可靠性的方法
CN109409276A (zh) 一种健壮手语特征提取方法
Liu et al. Motor Imagery tasks EEG signals classification using ResNet with multi-time-frequency representation
CN110222568A (zh) 一种基于时空图的跨视角步态识别方法
Jakkala et al. Deep CSI learning for gait biometric sensing and recognition
CN117694907A (zh) 一种精细动作运动想象脑电信号分类方法及装置
Huang et al. CS-VQA: visual question answering with compressively sensed images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190301

WW01 Invention patent application withdrawn after publication