CN110211568A

CN110211568A - 一种语音识别方法及装置

Info

Publication number: CN110211568A
Application number: CN201910476451.5A
Authority: CN
Inventors: 晋博琛; 刘永鑫
Original assignee: Beijing Daniel Technology Development Co Ltd
Current assignee: Beijing Daniel Technology Development Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-09-06

Abstract

本发明公开了一种语音识别方法及装置，所述方法包括：1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。应用本发明实施例，实现了语音的流式识别。

Description

一种语音识别方法及装置

技术领域

本发明涉及一种识别方法及装置，更具体涉及一种语音识别方法及装置。

背景技术

随着技术的发展，语音识别技术也得到了极大的发展。

由于语音信号为模拟信号，目前，通常使用梅尔频率倒谱系数(或梅尔标度滤波器组)和递归神经网络及卷积神经网络进行。卷积神经网络是人工神经网络的一种，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。递归神经网络结合了多层次表征，经证明，这些表征使递归神经网络语音识别中非常有效。

但是，发明发现在使用递归神经网络识别时，由于全局注意力的计算需要获取完整的语音数据，导致无法做到流式识别。

发明内容

本发明所要解决的技术问题在于提供了一种语音识别方法及装置，解决现有技术无法进行流式识别的技术问题。

本发明是通过以下技术方案解决上述技术问题的：

本发明实施例提供了一种语音识别方法，所述方法包括：

1)、对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；

2)、使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；

3)、针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；

4)、将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤3)，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。

可选的，所述步骤1)，包括：

按照预设的窗口长度和移动步长，对待识别语音信号进行分帧处理；

利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；

对加窗后的语音信号进行傅里叶变换处理，并获取变换后的语音信号的能量谱；

在梅尔刻度上使用三角滤波器获取所述能量谱的频带；

对所述频带信号进行离散余弦变换，获取所述待识别语音信号的梅尔频率特征序列。

可选的，所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带，包括：

利用公式，获取所述能量谱的频带，其中，

H_m(k)为第k时刻的能谱频带；k为频率域点的下标；m为滤波器下标；f(m-1)为频率域第m-1个点的值；f(m)为频率域第m个点的值；且

可选的，所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，包括：

利用公式，获取当前语音特征的注意力值，其中，

e_ij为当前语音特征的注意力值；为当前语音特征所对应的当前时刻的前一时刻的递归神经网络的隐状态值；w为预设权重；bias为预设的偏置；i为；j为；

利用公式，获取当前时刻的注意力值，其中，

a_ij为当前时刻的注意力值；e_ik为所有时刻注意力的值；w为预设权重；bias为预设的偏置；

利用公式，获取当前时刻的递归神经网络隐状态值，其中，

h_i为当前时刻的递归神经网络隐状态值；为当前语音特征对应的当前时刻的隐状态值；w为预设权重；bias为预设的偏置；

利用公式，y_i＝h_i*w_h+x_i*w_x+bias，获取当前时刻的递归神经网络的输出，其中，

y_i为当前时刻的递归神经网络的输出；h_i为注意力网络第i时刻的输出；w_h为递归神经网络中隐单元间相乘的权重；x_i为递归神经网络第i时刻的输入，即卷积神经网络第i时刻的输出；w_x为递归神经网络中输入和隐单元间相乘的权重。

本发明实施例提供了一种语音识别装置，所述装置包括：

处理模块，用于对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；

使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列；

编码模块，用于针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；

输出模块，用于将当前语音特征的下一语音特征作为当前语音特征，并触发编码模块，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。

可选的，所述处理模块，用于：

利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；

在梅尔刻度上使用三角滤波器获取所述能量谱的频带；

可选的，所述处理模块，用于：

利用公式，获取所述能量谱的频带，其中，

可选的，所述编码模块，用于：

利用公式，获取当前语音特征的注意力值，其中，

利用公式，获取当前时刻的注意力值，其中，

利用公式，获取当前时刻的递归神经网络隐状态值，其中，

本发明相比现有技术具有以下优点：

应用本发明实施例，采用梅尔频率倒谱系数作为输入特征，后续通过卷积神经网络进一步编码后，通过递归神经网络进行分类，在使用递归神经网络进行识别时，在时间轴上进行从左到右的隐状态累加，在每一个时刻通过注意力机制进行权重的计算和进一步调整，这样既可以结合卷积神经网络和递归神经网络的拟合能力，又可以结合注意力机制对输入数据的有效取舍，并不需要全局数据进行计算，实现了语音的流式识别。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的一种语音识别方法的原理示意图；

图3为本发明实施例提供的一种语音识别装置的结构示意图；

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了一种语音识别方法及装置，下面首先就本发明实施例提供的一种语音识别方法进行介绍。

图1为本发明实施例提供的一种语音识别方法的流程示意图；图2为本发明实施例提供的一种语音识别方法的原理示意图，如图1和图2所示，所述方法包括：

S101：对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；

具体的，本步骤可以包括：

A：按照预设的窗口长度，如20毫秒；按照预设的移动步长，如10ms，对待识别语音信号进行分帧处理；得到语音信号帧序列。

B：然后，利用汉明窗加窗方法，利用公式，对分帧后的语音信号进行加窗处理，其中，

w_n为加窗后的第n帧语音信号；n为语音信号帧的序号，且0≤n≤N-1，且N为窗口长度。

C：对加窗后的语音信号进行傅里叶变换处理，以将语音信号从时域信号变换为频域信号，进而得到傅里叶变换后的语音信号，并根据傅里叶变换后的语音信号，利用公式，获取变换后的语音信号的能量谱，其中，

P为变换后的语音信号的能量谱；FFT(x_i)为傅里叶变化后的语音信号；FN为傅里叶变换的点数。

D：然后使用梅尔滤波器对傅里叶变换后的频域信号进行滤波处理。

利用公式，将傅里叶变换后的语音信号从频率域转到梅尔域，进而从0到Mel得到梅尔域的线性排列的每个点的值，其中，

Hz为语音信号在频率域的点值；Mel为得到的高频梅尔域线性点值。

然后，利用公式，将梅尔域线性点值转到频率域线性点值；Mel是高频梅尔域线性点值；Hz为对应的频率域的点值。

在梅尔刻度上使用频率域点值对应的三角滤波器，利用公式，

获取所述能量谱的频带，其中，

H_m(k)为频率域第k个点的滤波器频带；k为频率域点的下标；m为滤波器下标；f(m-1)为频率域第m-1个点的值；f(m)为频率域第m个点的值。

E：，将滤波器频带和能量谱做点乘并取对数，得到FBANK(Filter Banks，滤波器组)特征值。

F：利用公式，对所述频带信号进行离散余弦变换，获取所述待识别语音信号的梅尔频率特征序列，其中，

y_k为第k个待识别语音信号的梅尔频率特征序列；x_n为第n个FBANK特征值；YN为滤波器的个数。

如图2所示，图中MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)即为得到的梅尔特征序列。

可以理解的是，本步骤中使用的加窗算法、傅里叶变换算法以及能量谱的频带计算方法均为现有技术。

S102：使用预先训练的卷积神经网络对梅尔频率特征序列进行识别处理，得到语音特征序列。

示例性的，卷积神经网络的具体参数为：

第一层1维卷积，核数量为40，核大小为3，步长为1，左右各填充1个0；

第二层1维卷积，核数量为80，核大小为3，步长为1，左右各填充1个0；

第三层1维卷积，核数量为160，核大小为3，步长为1，左右各填充1个0；

第四层1维卷积，核数量为160，核大小为3，步长为1，左右各填充1个0；

第五层1维卷积，核数量为160，核大小为3，步长为1，左右各填充1个0。

S103：针对语音特征序列中的当前语音特征，使用递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果。

示例性的，递归神经网络的具体参数为：

第一层递归，隐单元数量为128；注意力全连接网络隐单元数量为64；

第二层递归，隐单元数量为128；注意力全连接网络隐单元数量为64；

第三层递归，隐单元数量为128；注意力全连接网络隐单元数量为64。

本步骤可以包括：

利用公式，获取当前语音特征的注意力值，其中，

利用公式，获取当前时刻的注意力值，其中，

利用公式，获取当前时刻的递归神经网络隐状态值，其中，

利用公式，y_i＝h_i*w_h+x_i*w_x+bias，获取当前时刻的递归神经网络的输出，即编码结果，其中，

S104：将当前语音特征的下一语音特征作为当前语音特征，并返回执行步骤S103，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。

示例性的，例如，当前语音特征为第i个语音特征，在本步骤中将第i+1个语音特征作为当前语音特征，并执行S103步骤，从而进行语音信号的流式识别。

应用本发明图1所示实施例，采用梅尔频率倒谱系数作为输入特征，后续通过卷积神经网络进一步编码后，通过递归神经网络进行分类，在使用递归神经网络进行识别时，在时间轴上进行从左到右的隐状态累加，在每一个时刻通过注意力机制进行权重的计算和进一步调整，这样既可以结合卷积神经网络和递归神经网络的拟合能力，又可以结合注意力机制对输入数据的有效取舍，并不需要全局数据进行计算，实现了语音的流式识别。

与本发明图1所示实施例相对应，本发明实施例提供了一种语音识别装置。

图3为本发明实施例提供的一种语音识别装置的结构示意图，如图3所示，所述装置包括：

处理模块301，用于对待识别语音信号进行梅尔频率倒谱处理，得到梅尔频率特征序列；

编码模块302，用于针对语音特征序列中的当前语音特征，使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，得到识别结果；

输出模块303，用于将当前语音特征的下一语音特征作为当前语音特征，并触发编码模块302，直至语音特征序列都被遍历，将所有的识别的集合作为目标识别结果。

在本发明实施例的一种具体实施方式中，所述处理模块301，用于：

利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；

在梅尔刻度上使用三角滤波器获取所述能量谱的频带；

利用公式，获取所述能量谱的频带，其中，

在本发明实施例的一种具体实施方式中，所述编码模块302，用于：

利用公式，获取当前语音特征的注意力值，其中，

利用公式，获取当前时刻的注意力值，其中，

利用公式，获取当前时刻的递归神经网络隐状态值，其中，

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种语音识别方法，其特征在于，所述步骤1)，包括：

利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；

在梅尔刻度上使用三角滤波器获取所述能量谱的频带；

3.根据权利要求1所述的一种语音识别方法，其特征在于，所述在梅尔刻度上使用三角滤波器获取所述能量谱的频带，包括：

利用公式，获取所述能量谱的频带，其中，

4.根据权利要求1所述的一种语音识别方法，其特征在于，所述使用预先训练的递归神经网络根据当前时刻的递归神经网络隐态值和上一时刻的递归神经网络隐态对语音特征序列进行编码处理，包括：

利用公式，获取当前语音特征的注意力值，其中，

利用公式，获取当前时刻的注意力值，其中，

利用公式，获取当前时刻的递归神经网络隐状态值，其中，

5.一种语音识别装置，其特征在于，所述装置包括：

6.根据权利要求5所述的一种语音识别装置，其特征在于，所述处理模块，用于：

利用汉明窗加窗方法对分帧后的语音信号进行加窗处理；

在梅尔刻度上使用三角滤波器获取所述能量谱的频带；

7.根据权利要求5所述的一种语音识别装置，其特征在于，所述处理模块，用于：

利用公式，获取所述能量谱的频带，其中，

8.根据权利要求5所述的一种语音识别装置，其特征在于，所述编码模块，用于：

利用公式，获取当前语音特征的注意力值，其中，

利用公式，获取当前时刻的注意力值，其中，

利用公式，获取当前时刻的递归神经网络隐状态值，其中，