CN105956529A - 一种基于lstm型rnn的中国手语识别方法 - Google Patents

一种基于lstm型rnn的中国手语识别方法 Download PDF

Info

Publication number
CN105956529A
CN105956529A CN201610260747.XA CN201610260747A CN105956529A CN 105956529 A CN105956529 A CN 105956529A CN 201610260747 A CN201610260747 A CN 201610260747A CN 105956529 A CN105956529 A CN 105956529A
Authority
CN
China
Prior art keywords
sign language
lstm
feature
type rnn
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610260747.XA
Other languages
English (en)
Inventor
程树英
林鹏程
吴丽君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610260747.XA priority Critical patent/CN105956529A/zh
Publication of CN105956529A publication Critical patent/CN105956529A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于LSTM型RNN的中国手语识别方法,首先根据中国手语的特点,采集若干组手语特征形成训练数据;对训练数据进行特征提取,根据特征向量对应的语言学意义进行标注;训练数据作为LSTM型RNN的输入进行模型的训练,获取最佳网络模型参数,作为最终识别模型;将训练出来的模型用于待识别手语识别,计算输出层概率最大的字符序列,作为解码的结果,再将其转化为相应的声学序列,所述的结果即为识别的手语特征。本发明能够链接到较远状态,防止后面状态对前面状态感知能力的下降,提高了对中国连续手语中识别的准确率。

Description

一种基于LSTM型RNN的中国手语识别方法
技术领域
本发明涉及中国手语识别领域,特别是一种基于LSTM型RNN的中国手语识别方法。
背景技术
手语识别是一种能够将手语信息转化成语音、文字并进行朗读或显示的技术。在手语识别领域,由于连续手语识别是手语识别的关键问题,因此,如何提高手语识别的效果关键在于如何提高连续手语识别的准确性。
现有技术中,连续手语识别的方法主要有以下几种:
第一种,连续手语识别通常采用HMM(Hidden Markov Model,隐马尔科夫),这种方法在模型中引入了前一状态对当前状态的影响,通过计算输出概率最大化来实现手语的识别;
第二种,连续手语识别也可采用CRF(Conditional RandomField,条件随机场),这种方法在模型中引入上下文信息,需要对训练特征进行左右扩展,并引入人工特征模板进行训练。传统方法中首先分别训练得到手语模型,然后采用逐级预测的方式对待识别手语进行识别。
但是,上述两种方法主要存在以下问题:
1、虽然采用左右扩展的方式能在一定程度引入前后状态的关联,但是为了减小模型规模和复杂度,扩展大小十分有限,因此链接前后的距离不能太远,造成当前时刻对前面状态感知能力的下降;
2、采用逐级预测的方式,若发生错误会造成错误的传递,影响最后的效果。
发明内容
有鉴于此,本发明的目的是提出一种基于LSTM型RNN的中国手语识别方法,克服了当前时间节点对前面状态感知能力的下降。
本发明采用以下方案实现:一种基于LSTM型RNN的中国手语识别方法,包括以下步骤:
步骤S1:采集多组手语特征;
步骤S2:根据采集到的手语特征所对应的语言意义进行标注,形成训练数据,其中,所述训练数据用于神经网络的训练;
步骤S3:所述的训练数据作为LSTM型RNN的输入进行模型的训练,获取最佳网络模型参数,作为最终识别模型;
步骤S4:对待识别手语进行特征采集,并将其作为LSTM型RNN模型的输入,计算输出层概率最大的字符序列,并将其作为解码的结果,所述的结果即为识别的手语特征。
进一步地,所述步骤S1具体为:采用数据手套获取手语特征,所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。
进一步地,所述步骤S2具体为:将采集到的手语特征按特征所要表达的语言意义进行分类,对每种语言意义的特征随机选取一定数量的特征组,并对所述一定数量的特征组分别进行语言意义的标注,组织上采用矩阵的形式,形成训练数据。
进一步地,所述步骤S3具体为:根据手语特征构建相对应的LSTM型RNN的模型,在时间轴上进行显式建模,将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练,以获取不同手语特征对应的权重参数。
进一步地,所述LSTM型RNN包括输入层、输出层和隐藏层;所述输入层的输入作为手语特征值序列O1O2...OT,输出层的输出是输入所对应的声学序列S1S2...SL,隐藏层包括多个LSTM单元;其中,T为时间步数,L为声学序列长度。
进一步地,所述的LSTM单元包括3个控制门,所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。
进一步地,所述步骤S4具体为:使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别,首先对所述的待识别手语的特征进行进一步抽象,提取特征向量,并根据所述LSTM型RNN模型对待识别手语进行预测,进一步进行声学预测,以生成声学参数序列,以及根据所述声学参数生成语音合成结果。
进一步地,步骤S4中所述LSTM型RNN采用下式控制信息的流动:
It=σ(WixIt+Wimmt-1+WicCt-1+bi);
Ft=σ(WFxIt+WFmmt-1+WFcCt-1+bF);
ct=Ft⊙ct-1+It⊙g(WcxIt+Wcmmt-1+bc);
Ot=σ(WOxIt+WOmmt-1+WOcCt-1+bO);
mt=Ot⊙h(Ct);
其中,给定输入序列I=(I1,I2...IT),T为输入序列的长度,It为t时刻的输入,W为权重矩阵,b为偏置矩阵,I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出;
其中,σ为三个控制门的激励函数,公式为:
f ( x ) = 1 1 + e x ;
其中,h为状态的激励函数,公式为:
f ( x ) = tanh = e x - e - x e x + e - x .
与现有技术相比,本发明有以下有益效果:本申请从待预测手语中提取特征向量,通过事先训练好的LSTM型RNN对特征向量进行语言学预测,以生成语言学参数序列,生成模块根据语言学参数序列生成语音合成效果,即通过使用LSTM型RNN网络结构训练,提升了连续手语识别的准确性,从而提高了识别准确率。
附图说明
图1为本发明方法流程示意图。
图2为本发明实施例LSTM型RNN基本原理示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供了一种基于LSTM型RNN的中国手语识别方法,包括以下步骤:
步骤S1:采集多组手语特征;
步骤S2:根据采集到的手语特征所对应的语言意义进行标注,形成训练数据,其中,所述训练数据用于神经网络的训练;
步骤S3:所述的训练数据作为LSTM型RNN的输入进行模型的训练,获取最佳网络模型参数,作为最终识别模型;
步骤S4:对待识别手语进行特征采集,并将其作为LSTM型RNN模型的输入,计算输出层概率最大的字符序列,并将其作为解码的结果,所述的结果即为识别的手语特征。
在本实施例中,所述步骤S1具体为:采用数据手套获取手语特征,所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。
在本实施例中,所述步骤S2具体为:将采集到的手语特征按特征所要表达的语言意义进行分类,对每种语言意义的特征随机选取一定数量的特征组,并对所述一定数量的特征组分别进行语言意义的标注,组织上采用矩阵的形式,形成训练数据。
在本实施例中,所述步骤S3具体为:根据手语特征构建相对应的LSTM型RNN的模型,在时间轴上进行显式建模,将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练,以获取不同手语特征对应的权重参数。
在本实施例中,所述LSTM型RNN包括输入层、输出层和隐藏层;所述输入层的输入作为手语特征值序列O1O2...OT,输出层的输出是输入所对应的声学序列S1S2...SL,隐藏层包括多个LSTM单元;其中,T为时间步数,L为声学序列长度。
在本实施例中,所述的LSTM单元包括3个控制门,所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。
在本实施例中,所述步骤S4具体为:使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别,首先对所述的待识别手语的特征进行进一步抽象,提取特征向量,并根据所述LSTM型RNN模型对待识别手语进行预测,进一步进行声学预测,以生成声学参数序列,以及根据所述声学参数生成语音合成结果。
如图2所示,LSTM型RNN的基本思想是通过Input Gate、OutputGate和Forget Gate这些不同类型的们结构来控制信息的流动。在本实施例中,步骤S4中所述LSTM型RNN采用下式控制信息的流动:
It=σ(WixIt+Wimmt-1+WicCt-1+bi);
Ft=σ(WFxIt+WFmmt-1+WFcCt-1+bF);
ct=Ft⊙ct-1+It⊙g(WcxIt+Wcmmt-1+bc);
Ot=σ(WOxIt+WOmmt-1+WOcCt-1+bO);
mt=Ot⊙h(Ct);
其中,给定输入序列I=(I1,I2...IT),T为输入序列的长度,It为t时刻的输入,W为权重矩阵,b为偏置矩阵,I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出;
其中,σ为三个控制门的激励函数,公式为:
f ( x ) = 1 1 + e x ;
其中,h为状态的激励函数,公式为:
f ( x ) = tanh = e x - e - x e x + e - x .
通过结构和计算公式可以看出LSTM型RNN具有缓存历史的状态信息的作用,并且通过门结构对历史信息进行维护,从而扩展了大范围上下文信息对当前信息的影响,提升了连续手语识别的准确率。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于LSTM型RNN的中国手语识别方法,其特征在于:包括以下步骤:
步骤S1:采集多组手语特征;
步骤S2:根据采集到的手语特征所对应的语言意义进行标注,形成训练数据,其中,所述训练数据用于神经网络的训练;
步骤S3:所述的训练数据作为LSTM型RNN的输入进行模型的训练,获取最佳网络模型参数,作为最终识别模型;
步骤S4:对待识别手语进行特征采集,并将其作为LSTM型RNN模型的输入,计算输出层概率最大的字符序列,并将其作为解码的结果,所述的结果即为识别的手语特征。
2.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述步骤S1具体为:采用数据手套获取手语特征,所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。
3.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述步骤S2具体为:将采集到的手语特征按特征所要表达的语言意义进行分类,对每种语言意义的特征随机选取一定数量的特征组,并对所述一定数量的特征组分别进行语言意义的标注,组织上采用矩阵的形式,形成训练数据。
4.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述步骤S3具体为:根据手语特征构建相对应的LSTM型RNN的模型,在时间轴上进行显式建模,将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练,以获取不同手语特征对应的权重参数。
5.根据权利要求4所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述LSTM型RNN包括输入层、输出层和隐藏层;所述输入层的输入作为手语特征值序列O1O2...OT,输出层的输出是输入所对应的声学序列S1S2...SL,隐藏层包括多个LSTM单元;其中,T为时间步数,L为声学序列长度。
6.根据权利要求5所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述的LSTM单元包括3个控制门,所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。
7.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:所述步骤S4具体为:使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别,首先对所述的待识别手语的特征进行进一步抽象,提取特征向量,并根据所述LSTM型RNN模型对待识别手语进行预测,进一步进行声学预测,以生成声学参数序列,以及根据所述声学参数生成语音合成结果。
8.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法,其特征在于:步骤S4中所述LSTM型RNN采用下式控制信息的流动:
It=σ(WixIt+Wimmt-1+WicCt-1+bi);
Ft=σ(WFxIt+WFmmt-1+WFcCt-1+bF);
ct=Ft⊙ct-1+It⊙g(WcxIt+Wcmmt-1+bc);
Ot=σ(WOxIt+WOmmt-1+WOcCt-1+bO);
mt=Ot⊙h(Ct);
其中,给定输入序列I=(I1,I2...IT),T为输入序列的长度,It为t时刻的输入,W为权重矩阵,b为偏置矩阵,I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出;
其中,σ为三个控制门的激励函数,公式为:
f ( x ) = 1 1 + e x ;
其中,h为状态的激励函数,公式为:
f ( x ) = tanh = e x - e - x e x + e - x
CN201610260747.XA 2016-04-25 2016-04-25 一种基于lstm型rnn的中国手语识别方法 Pending CN105956529A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610260747.XA CN105956529A (zh) 2016-04-25 2016-04-25 一种基于lstm型rnn的中国手语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610260747.XA CN105956529A (zh) 2016-04-25 2016-04-25 一种基于lstm型rnn的中国手语识别方法

Publications (1)

Publication Number Publication Date
CN105956529A true CN105956529A (zh) 2016-09-21

Family

ID=56916848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610260747.XA Pending CN105956529A (zh) 2016-04-25 2016-04-25 一种基于lstm型rnn的中国手语识别方法

Country Status (1)

Country Link
CN (1) CN105956529A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类***
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN107316067A (zh) * 2017-05-27 2017-11-03 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别***
CN107992746A (zh) * 2017-12-14 2018-05-04 华中师范大学 恶意行为挖掘方法及装置
CN108766434A (zh) * 2018-05-11 2018-11-06 东北大学 一种手语识别翻译***及方法
CN109902554A (zh) * 2019-01-09 2019-06-18 天津大学 一种基于商用Wi-Fi的手语的识别方法
CN111104960A (zh) * 2019-10-30 2020-05-05 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的***及方法
CN111913575A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种手语词的识别方法
WO2020252923A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法
CN102193633A (zh) * 2011-05-25 2011-09-21 广州畅途软件有限公司 一种数据手套动态手语识别方法
CN105205449A (zh) * 2015-08-24 2015-12-30 西安电子科技大学 基于深度学习的手语识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101539994A (zh) * 2009-04-16 2009-09-23 西安交通大学 一种手语语音互译***及手语语音互译方法
CN102193633A (zh) * 2011-05-25 2011-09-21 广州畅途软件有限公司 一种数据手套动态手语识别方法
CN105205449A (zh) * 2015-08-24 2015-12-30 西安电子科技大学 基于深度学习的手语识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
NORIKI NISHIDA等: "Multimodal Gesture Recognition Using Multi-stream Recurrent Neural Network", 《IMAGE AND VIDEO TECHNOLOGY》 *
梁军 等: "基于极性转移和LSTM递归网络的情感分析", 《中文信息学报》 *
王新宇 等: "基于一种改进神经网络的数据手套手势识别", 《PROCEEDINGS OF THE 29TH CHINESE CONTROL CONFERENCE》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类***
CN106778700A (zh) * 2017-01-22 2017-05-31 福州大学 一种基于変分编码器中国手语识别方法
CN107316067A (zh) * 2017-05-27 2017-11-03 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107316067B (zh) * 2017-05-27 2019-11-15 华南理工大学 一种基于惯性传感器的空中手写字符识别方法
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别***
CN107992746A (zh) * 2017-12-14 2018-05-04 华中师范大学 恶意行为挖掘方法及装置
CN108766434A (zh) * 2018-05-11 2018-11-06 东北大学 一种手语识别翻译***及方法
CN108766434B (zh) * 2018-05-11 2022-01-04 东北大学 一种手语识别翻译***及方法
CN109902554A (zh) * 2019-01-09 2019-06-18 天津大学 一种基于商用Wi-Fi的手语的识别方法
CN109902554B (zh) * 2019-01-09 2023-03-10 天津大学 一种基于商用Wi-Fi的手语的识别方法
WO2020252923A1 (zh) * 2019-06-18 2020-12-24 平安科技(深圳)有限公司 样本数据处理方法、装置、计算机装置及存储介质
CN111104960A (zh) * 2019-10-30 2020-05-05 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111104960B (zh) * 2019-10-30 2022-06-14 武汉大学 一种基于毫米波雷达和机器视觉的手语识别方法
CN111354246A (zh) * 2020-01-16 2020-06-30 浙江工业大学 一种用于帮助聋哑人交流的***及方法
CN111913575B (zh) * 2020-07-24 2021-06-11 合肥工业大学 一种手语词的识别方法
CN111913575A (zh) * 2020-07-24 2020-11-10 合肥工业大学 一种手语词的识别方法

Similar Documents

Publication Publication Date Title
CN105956529A (zh) 一种基于lstm型rnn的中国手语识别方法
CN105513591B (zh) 用lstm循环神经网络模型进行语音识别的方法和装置
CN103049792B (zh) 深层神经网络的辨别预训练
CN111160467B (zh) 一种基于条件随机场和内部语义注意力的图像描述方法
CN107492382B (zh) 基于神经网络的声纹信息提取方法及装置
CN109241255A (zh) 一种基于深度学习的意图识别方法
Verstraeten et al. Reservoir-based techniques for speech recognition
CN108229582A (zh) 一种面向医学领域的多任务命名实体识别对抗训练方法
CN107133220A (zh) 一种地理学科领域命名实体识别方法
CN106652999A (zh) 语音识别***以及方法
CN110444191A (zh) 一种韵律层级标注的方法、模型训练的方法及装置
CN108346436A (zh) 语音情感检测方法、装置、计算机设备及存储介质
CN107679491A (zh) 一种融合多模态数据的3d卷积神经网络手语识别方法
CN109472024A (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN107609572A (zh) 基于神经网络和迁移学习的多模态情感识别方法、***
CN107273355A (zh) 一种基于字词联合训练的中文词向量生成方法
CN110414219A (zh) 基于门控循环单元与注意力机制的注入攻击检测方法
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN110517664A (zh) 多方言识别方法、装置、设备及可读存储介质
CN107316654A (zh) 基于dis‑nv特征的情感识别方法
CN108197294A (zh) 一种基于深度学习的文本自动生成方法
CN107943784A (zh) 基于生成对抗网络的关系抽取方法
CN108549658A (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及***
CN106529503A (zh) 一种集成卷积神经网络人脸情感识别方法
CN106897559A (zh) 一种面向多数据源的症状体征类实体识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160921

RJ01 Rejection of invention patent application after publication