CN106023986B

CN106023986B - 一种基于声效模式检测的语音识别方法

Info

Publication number: CN106023986B
Application number: CN201610299376.6A
Authority: CN
Inventors: 晁浩; 智慧来; 刘志中; 鲁保云
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2016-05-05
Filing date: 2016-05-05
Publication date: 2019-08-30
Anticipated expiration: 2036-05-05
Also published as: CN106023986A

Abstract

本发明公开了一种基于声效模式检测的语音识别方法。该方法包括如下步骤：接收语音信号；检测所述语音信号的声效模式；从预置的声学模型集中选择所述声效模式对应的声学模型子集；根据所述声学模型子集对所述语音信号进行解码。

Description

一种基于声效模式检测的语音识别方法

技术领域

本发明涉及语音识别领域，特别涉及一种基于声效模式检测的语音识别方法。

背景技术

声音效果(Vocal Effort)简称声效，是正常人的一种发音变化的衡量，而这种发音变化是人出于正常交流的需要，根据交流时双方距离的远近或背景噪声的高低自动调整发音方式所产生的。通常将声效由低到高分为五个量级/模式：耳语、轻声、正常、大声、高喊。在现实的环境中，人们不可能一直都在同一种声效水平下交流：在图书馆或者自习室里需要通过耳语的方式交流；在吵杂的场合需要大声说话对方才能听见；而在嘈杂的工厂车间可能就需要通过高喊的方式才能够交流。

近年来语音识别技术已进入实用的阶段，并取得很好的效果。但是目前的语音识别技术主要还是针对正常声音效果下的语音信号。而声效模式的改变使得语音信号的声学特性发生了变化，因此正常声效模式的语音识别***在识别其它四种声效模式(特别是耳语模式)的语音信号时识别精度会有较大幅度的下降。

发明内容

本发明的目的在于针对现有技术中的语音识别方法在识别其它四种声效模式的语音信号时精度不高的缺陷，提出一种基于声效模式检测的语音识别方法，首先检测语音信号所属的声效模式，然后根据检测结果选择相对应的声学模型集合来完成对该语音信号的解码工作，从而提高了识别所有声效模式的语音信号时的精度。

本发明公开了一种基于声效模式检测的语音识别方法，其具体包括以下步骤：

步骤1、接收语音信号；

步骤2、检测所述语音信号的声效模式；

步骤3、从预置的声学模型集中选择所述声效模式对应的声学模型子集；

步骤4、根据所述声学模型子集对所述语音信号进行解码。

上述技术方案中，步骤4中预置的声学模型集共包含了5个声学模型子集，每个声学模型子集分别对应一种声效模式，而每一个声学模型子集在训练时使用的是对应声效模式的语料库，这样每个声学模型子集中的声学模型能很好地拟合其对应声效模式语音的声学特性。因此，在识别时先检测出语音信号的声效模式，再利用对应的声学模型子集来进行解码，就可以有效地提高识别的精度。

附图说明

图1是根据本发明的一种基于声效模式检测的语音识别方法的流程图；

图2是根据本发明的一个检测语音信号的声效模式的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为根据本发明的一种基于声效模式检测的语音识别方法的流程图。其中，待识别的语音信号为连续语音，对应一个语句。

如图1所示，所述基于声效模式检测的语音识别方法包括如下步骤：

步骤101：接收语音信号；

步骤102：检测所述语音信号的声效模式；

步骤103：从预置的声学模型集中选择所述声效模式对应的声学模型子集，其中预置的声学模型集共包含5个声学模型子集，分别对应耳语、轻声、正常、大声、高喊这5种声效模式，每一个声学模型子集在训练时使用的是对应声效模式的语料库；

步骤104：根据所述声学模型子集对所述语音信号进行解码，解码时使用维特比算法。

其中，在步骤102中，检测所述语音信号的声效模式具体分为以下几个步骤，如图2所示：

步骤1021、提取语音信号的声强级、帧能量均值和频谱倾斜均值；

步骤1022、根据声强级、帧能量均值和频谱倾斜均值判断语音信号的声效模式是否为耳语，如果是耳语则执行步骤103，否则执行步骤1023；

步骤1023、检测语音信号中的元音，生成元音集合；

步骤1024、将元音集合分别与四种候选声效模式进行语谱匹配，生成每一个候选声效模式的匹配值；其中，所述四种候选声效模式分别为轻声、正常、大声和高喊。

例如：对于一句话“我和你一起去上课”，在步骤1023中检测这句话对应的语音信号中包含的元音，生成元音集合:{o、e、i、i、i、u、ang、e}，然后通过如下公式分别计算每一个候选声效模式与该元音集合的匹配值：

其中，VE表示一种候选声效模式，假如为高喊，则M_VE表示高喊声效模式的匹配值，Vset表示元音集合{o、e、i、i、i、u、ang、e}，v表示所述元音集合Vset中的某个元音，假如当前v的值具体为元音集合Vset中的第一个元音‘o’，D_(v,VE)表示反映元音‘o’与高喊声效模式之间语谱差异程度的元音谱距离。

D_(v,VE)的计算过程具体如下：

提取元音‘o’的谱特征序列。

获取预置的高喊声效模式的元音模板集合，提取所述元音模板集合中每一个元音模板的谱特征序列；其中，预置的高喊声效模式的元音模板集合包含了6个单元音模板：a、o、e、i、u、ü和13个复元音模板：ai、ei、ao、ou、ia、ie、ua、uo、üe、iao、iou、uai、uei，而每一个元音模板是指该元音在高喊声效模式下的标准发音单元，通过手工切分的方式获得。

通过如下公式确定所述元音谱距离D_(v,VE)：

其中，c_v表示所述元音‘o’的谱特征序列求均值后形成的矢量，c_v(i)表示矢量c_v的第i个分量，N表示矢量c_v包含的分量总数，p表示高喊声效模式VE的元音模板集合中的某一个元音模板，表示元音模板p的谱特征序列求均值后形成的矢量，表示矢量的第i个分量。

在D_(v,VE)的计算过程中，提取所述元音‘o’的谱特征序列和提取所述元音模板集合中每一个元音模板的谱特征序列的具体过程如下：

对所述元音‘o’或元音模板对应的语音信号加汉宁窗，其中窗长可以选用为6ms，帧移可以选用1ms，得到语音帧序列。

对所述语音帧序列中的每一个语音帧通过快速傅立叶变换得到该语音帧在时频域上的能量分布。

对于六个频带：0～0.8kHZ、0.8～1.5kHZ、1.2～2.0kHZ、2.0～3.5kHZ、3.5～5.0kHZ、5.0～8.0kHZ，所述语音帧序列中的每一个语音帧分别计算该语音帧在每一个频带上的谱信息熵，将六个频带上的谱信息熵按照频带次序组合起来形成该语音帧的谱信息熵矢量。其中，语音帧在每一个频带上的谱信息熵通过如下公式确定：

其中，i表示所述预置的多个频带中某一个频带的序号，H_i表示该语音帧在第i个频带上的谱信息熵，M表示该语音帧时频域上的能量分布在第i个频带上包含的频率成分的数量，X(k)表示该语音帧时频域上的能量分布在第i个频带上的第k个频率成分，X(j)表示该语音帧时频域上的能量分布在第i个频带上的第j个频率成分。

所述语音帧序列中的每一个语音帧的谱信息熵矢量按照语音帧的顺序排列形成谱信息熵矢量序列，该谱信息熵矢量序列即为谱特征序列。

步骤1025、将匹配值最大的候选声效模式确定为语音信号的声效模式。

上述方案中，每个声学模型子集中的声学模型能很好地拟合其对应声效模式下语音的声学特性。因此，在识别时先检测出语音信号的声效模式，再选择用对应的声学模型子集来进行解码，就可以有效地提高语音识别的精度。此外，在检测语音信号的声效模式过程中，由于耳语的发音机理与其它几种声效模式有着较为明显的差异，所以可以根据语音信号的声强级、帧能量均值和频谱倾斜均值这三种特征来判断当前语音信号是否为耳语。对于其它四种发音方式相近的声效模式，通过将语音信号中的元音与各个声效模式的元音模板集相匹配来检测语音信号的声效模式，使得声效模式检测的精度会更高，也就能够进一步提高后续步骤中语音识别的精度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声效模式检测的语音识别方法，其特征在于，包括如下步骤：

步骤1、接收语音信号；

步骤2、检测所述语音信号的声效模式；

步骤4、根据所述声学模型子集对所述语音信号进行解码；

所述步骤2中检测所述语音信号的声效模式的具体步骤如下：

步骤21、提取所述语音信号的声强级、帧能量均值和频谱倾斜均值；

步骤22、根据所述声强级、所述帧能量均值和所述频谱倾斜均值判断所述语音信号的声效模式是否为耳语，如果是耳语则执行步骤3，否则执行步骤23；

步骤23、检测所述语音信号中的元音，生成元音集合；

步骤24、将所述元音集合分别与多个候选声效模式进行语谱匹配，生成每一个候选声效模式的匹配值；

步骤25、将匹配值最大的候选声效模式确定为所述语音信号的声效模式。

2.根据权利要求1所述的语音识别方法，其特征在于，所述步骤24中每一个所述候选声效模式的匹配值通过如下公式确定：

其中，VE表示该候选声效模式，M_VE表示该候选声效模式的匹配值，Vset表示所述元音集合，v表示所述元音集合Vset中的某个元音，D_(v,VE)表示反映元音v与该候选声效模式VE之间语谱差异程度的元音谱距离。

3.根据权利要求2中所述的语音识别方法，其特征在于反映元音v与该候选声效模式VE之间语谱差异程度的元音谱距离D_(v,VE)的计算过程如下：

步骤41、提取所述元音v的谱特征序列；

步骤42、获取该候选声效模式VE预置的元音模板集合，提取所述元音模板集合中每一个元音模板的谱特征序列；

步骤43、通过如下公式确定所述元音谱距离D_(v,VE)：

其中，c_v表示所述元音v的谱特征序列求均值后形成的矢量，c_v(i)表示矢量c_v的第i个分量，N表示矢量c_v包含的分量总数，p表示该候选声效模式VE的元音模板集合中的某一个元音模板，表示元音模板p的谱特征序列求均值后形成的矢量，表示矢量的第i个分量。

4.根据权利要求3所述的语音识别方法，其特征在于步骤41和步骤42中的所述谱特征序列中的谱特征为12维梅尔频率倒谱系数以及它们的一阶及二阶差分。

5.根据权利要求3所述的语音识别方法，其特征在于步骤41中所述元音的的谱特征序列和步骤42中所述每一个元音模板的谱特征序列的具体提取步骤为：

步骤61、对所述元音/元音模板对应的语音信号加汉宁窗，得到语音帧序列；

步骤62、对所述语音帧序列中的每一个语音帧通过快速傅立叶变换得到该语音帧的频谱能量分布；

步骤63、获取预置的多个频带，对所述语音帧序列中的每一个语音帧分别计算该语音帧在每一个频带上的谱信息熵，形成该语音帧的谱信息熵矢量；

步骤64、所述语音帧序列中的每一个语音帧的谱信息熵矢量经过顺序排列形成谱信息熵矢量序列。

6.根据权利要求5所述的语音识别方法，其特征在于步骤63中该语音帧在每一个频带上的谱信息熵通过如下公式确定：

其中，i表示所述预置的多个频带中某一个频带的序号，H_i表示所述该语音帧在第i个频带上的谱信息熵，M表示所述该语音帧的频谱能量分布在第i个频带上包含的频率成分的数量，X(k)表示所述该语音帧的频谱能量分布在第i个频带上的第k个频率成分，X(j)表示所述该语音帧的频谱能量分布在第i个频带上的第j个频率成分。

7.根据权利要求5或6所述的语音识别方法，其特征在于步骤63中所述多个频带具体为6个频带：0～0.8kHZ、0.8～1.5kHZ、1.2～2.0kHZ、2.0～3.5kHZ、3.5～5.0kHZ、5.0～8.0kHZ。