CN105956529A

CN105956529A - 一种基于lstm型rnn的中国手语识别方法

Info

Publication number: CN105956529A
Application number: CN201610260747.XA
Authority: CN
Inventors: 程树英; 林鹏程; 吴丽君
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-04-25
Filing date: 2016-04-25
Publication date: 2016-09-21

Abstract

本发明涉及一种基于LSTM型RNN的中国手语识别方法，首先根据中国手语的特点，采集若干组手语特征形成训练数据；对训练数据进行特征提取，根据特征向量对应的语言学意义进行标注；训练数据作为LSTM型RNN的输入进行模型的训练，获取最佳网络模型参数，作为最终识别模型；将训练出来的模型用于待识别手语识别，计算输出层概率最大的字符序列，作为解码的结果，再将其转化为相应的声学序列，所述的结果即为识别的手语特征。本发明能够链接到较远状态，防止后面状态对前面状态感知能力的下降，提高了对中国连续手语中识别的准确率。

Description

一种基于LSTM型RNN的中国手语识别方法

技术领域

本发明涉及中国手语识别领域，特别是一种基于LSTM型RNN的中国手语识别方法。

背景技术

手语识别是一种能够将手语信息转化成语音、文字并进行朗读或显示的技术。在手语识别领域，由于连续手语识别是手语识别的关键问题，因此，如何提高手语识别的效果关键在于如何提高连续手语识别的准确性。

现有技术中，连续手语识别的方法主要有以下几种：

第一种，连续手语识别通常采用HMM(Hidden Markov Model,隐马尔科夫)，这种方法在模型中引入了前一状态对当前状态的影响，通过计算输出概率最大化来实现手语的识别；

第二种，连续手语识别也可采用CRF(Conditional RandomField，条件随机场),这种方法在模型中引入上下文信息，需要对训练特征进行左右扩展，并引入人工特征模板进行训练。传统方法中首先分别训练得到手语模型，然后采用逐级预测的方式对待识别手语进行识别。

但是，上述两种方法主要存在以下问题：

1、虽然采用左右扩展的方式能在一定程度引入前后状态的关联，但是为了减小模型规模和复杂度，扩展大小十分有限，因此链接前后的距离不能太远，造成当前时刻对前面状态感知能力的下降；

2、采用逐级预测的方式，若发生错误会造成错误的传递，影响最后的效果。

发明内容

有鉴于此，本发明的目的是提出一种基于LSTM型RNN的中国手语识别方法，克服了当前时间节点对前面状态感知能力的下降。

本发明采用以下方案实现：一种基于LSTM型RNN的中国手语识别方法，包括以下步骤：

步骤S1：采集多组手语特征；

步骤S2：根据采集到的手语特征所对应的语言意义进行标注，形成训练数据，其中，所述训练数据用于神经网络的训练；

步骤S3：所述的训练数据作为LSTM型RNN的输入进行模型的训练，获取最佳网络模型参数，作为最终识别模型；

步骤S4：对待识别手语进行特征采集，并将其作为LSTM型RNN模型的输入，计算输出层概率最大的字符序列，并将其作为解码的结果，所述的结果即为识别的手语特征。

进一步地，所述步骤S1具体为：采用数据手套获取手语特征，所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。

进一步地，所述步骤S2具体为：将采集到的手语特征按特征所要表达的语言意义进行分类，对每种语言意义的特征随机选取一定数量的特征组，并对所述一定数量的特征组分别进行语言意义的标注，组织上采用矩阵的形式，形成训练数据。

进一步地，所述步骤S3具体为：根据手语特征构建相对应的LSTM型RNN的模型，在时间轴上进行显式建模，将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练，以获取不同手语特征对应的权重参数。

进一步地，所述LSTM型RNN包括输入层、输出层和隐藏层；所述输入层的输入作为手语特征值序列O₁O₂...O_T，输出层的输出是输入所对应的声学序列S₁S₂...S_L，隐藏层包括多个LSTM单元；其中，T为时间步数，L为声学序列长度。

进一步地，所述的LSTM单元包括3个控制门，所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。

进一步地，所述步骤S4具体为：使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别，首先对所述的待识别手语的特征进行进一步抽象，提取特征向量，并根据所述LSTM型RNN模型对待识别手语进行预测，进一步进行声学预测，以生成声学参数序列，以及根据所述声学参数生成语音合成结果。

进一步地，步骤S4中所述LSTM型RNN采用下式控制信息的流动：

I_t＝σ(W_ixI_t+W_imm_t-1+W_icC_t-1+b_i)；

F_t＝σ(W_FxI_t+W_Fmm_t-1+W_FcC_t-1+b_F)；

c_t＝F_t⊙c_t-1+I_t⊙g(W_cxI_t+W_cmm_t-1+b_c)；

O_t＝σ(W_OxI_t+W_Omm_t-1+W_OcC_t-1+b_O)；

m_t＝O_t⊙h(C_t)；

其中，给定输入序列I＝(I₁,I₂...I_T)，T为输入序列的长度，I_t为t时刻的输入，W为权重矩阵，b为偏置矩阵，I、F、c、O、m分别代表输入Input Gate、Forget Gate、Output Gate、状态单元以及LSTM结构的输出；

其中，σ为三个控制门的激励函数，公式为:

f (x) = \frac{1}{1 + e^{x}};

其中，h为状态的激励函数，公式为：

f (x) = \tanh = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}} .

与现有技术相比，本发明有以下有益效果：本申请从待预测手语中提取特征向量，通过事先训练好的LSTM型RNN对特征向量进行语言学预测，以生成语言学参数序列，生成模块根据语言学参数序列生成语音合成效果，即通过使用LSTM型RNN网络结构训练，提升了连续手语识别的准确性，从而提高了识别准确率。

附图说明

图1为本发明方法流程示意图。

图2为本发明实施例LSTM型RNN基本原理示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于LSTM型RNN的中国手语识别方法，包括以下步骤：

步骤S1：采集多组手语特征；

在本实施例中，所述步骤S1具体为：采用数据手套获取手语特征，所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。

在本实施例中，所述步骤S2具体为：将采集到的手语特征按特征所要表达的语言意义进行分类，对每种语言意义的特征随机选取一定数量的特征组，并对所述一定数量的特征组分别进行语言意义的标注，组织上采用矩阵的形式，形成训练数据。

在本实施例中，所述步骤S3具体为：根据手语特征构建相对应的LSTM型RNN的模型，在时间轴上进行显式建模，将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练，以获取不同手语特征对应的权重参数。

在本实施例中，所述LSTM型RNN包括输入层、输出层和隐藏层；所述输入层的输入作为手语特征值序列O₁O₂...O_T，输出层的输出是输入所对应的声学序列S₁S₂...S_L，隐藏层包括多个LSTM单元；其中，T为时间步数，L为声学序列长度。

在本实施例中，所述的LSTM单元包括3个控制门，所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。

在本实施例中，所述步骤S4具体为：使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别，首先对所述的待识别手语的特征进行进一步抽象，提取特征向量，并根据所述LSTM型RNN模型对待识别手语进行预测，进一步进行声学预测，以生成声学参数序列，以及根据所述声学参数生成语音合成结果。

如图2所示，LSTM型RNN的基本思想是通过Input Gate、OutputGate和Forget Gate这些不同类型的们结构来控制信息的流动。在本实施例中，步骤S4中所述LSTM型RNN采用下式控制信息的流动：

I_t＝σ(W_ixI_t+W_imm_t-1+W_icC_t-1+b_i)；

F_t＝σ(W_FxI_t+W_Fmm_t-1+W_FcC_t-1+b_F)；

c_t＝F_t⊙c_t-1+I_t⊙g(W_cxI_t+W_cmm_t-1+b_c)；

O_t＝σ(W_OxI_t+W_Omm_t-1+W_OcC_t-1+b_O)；

m_t＝O_t⊙h(C_t)；

其中，σ为三个控制门的激励函数，公式为:

f (x) = \frac{1}{1 + e^{x}};

其中，h为状态的激励函数，公式为：

f (x) = \tanh = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}} .

通过结构和计算公式可以看出LSTM型RNN具有缓存历史的状态信息的作用，并且通过门结构对历史信息进行维护，从而扩展了大范围上下文信息对当前信息的影响，提升了连续手语识别的准确率。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于LSTM型RNN的中国手语识别方法，其特征在于：包括以下步骤：

步骤S1：采集多组手语特征；

2.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述步骤S1具体为：采用数据手套获取手语特征，所述的数据手套包括弯曲度传感器、九轴传感器以及用于数据处理、存储、发送的微型处理器。

3.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述步骤S2具体为：将采集到的手语特征按特征所要表达的语言意义进行分类，对每种语言意义的特征随机选取一定数量的特征组，并对所述一定数量的特征组分别进行语言意义的标注，组织上采用矩阵的形式，形成训练数据。

4.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述步骤S3具体为：根据手语特征构建相对应的LSTM型RNN的模型，在时间轴上进行显式建模，将步骤S2中的训练数据的手语特征、标注作为输入对所建立的LSTM型RNN进行训练，以获取不同手语特征对应的权重参数。

5.根据权利要求4所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述LSTM型RNN包括输入层、输出层和隐藏层；所述输入层的输入作为手语特征值序列O₁O₂...O_T，输出层的输出是输入所对应的声学序列S₁S₂...S_L，隐藏层包括多个LSTM单元；其中，T为时间步数，L为声学序列长度。

6.根据权利要求5所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述的LSTM单元包括3个控制门，所述3个控制门用于控制输入、输出及跨越时间步骤自身的内部状态三者之间的关联。

7.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：所述步骤S4具体为：使用步骤S3生成的LSTM型RNN最终识别模型对所述待识别手语进行识别，首先对所述的待识别手语的特征进行进一步抽象，提取特征向量，并根据所述LSTM型RNN模型对待识别手语进行预测，进一步进行声学预测，以生成声学参数序列，以及根据所述声学参数生成语音合成结果。

8.根据权利要求1所述的一种基于LSTM型RNN的中国手语识别方法，其特征在于：步骤S4中所述LSTM型RNN采用下式控制信息的流动：

I_t＝σ(W_ixI_t+W_imm_t-1+W_icC_t-1+b_i)；

F_t＝σ(W_FxI_t+W_Fmm_t-1+W_FcC_t-1+b_F)；

c_t＝F_t⊙c_t-1+I_t⊙g(W_cxI_t+W_cmm_t-1+b_c)；

O_t＝σ(W_OxI_t+W_Omm_t-1+W_OcC_t-1+b_O)；

m_t＝O_t⊙h(C_t)；

其中，σ为三个控制门的激励函数，公式为:

f (x) = \frac{1}{1 + e^{x}};

其中，h为状态的激励函数，公式为：

f (x) = \tanh = \frac{e^{x} - e^{- x}}{e^{x} + e^{- x}}