CN113744720A

CN113744720A - 基于融合多频带语音信号特征的语音识别鲁棒性增强方法

Info

Publication number: CN113744720A
Application number: CN202111044761.3A
Authority: CN
Inventors: 曹芬; 冯煊; 李永龙; 肖剑书; 童世奇; 秦少明
Original assignee: State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Hubei Electric Power Co Ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-12-03

Abstract

本发明公开了基于融合多频带语音信号特征的语音识别鲁棒性增强方法，具体包括以下步骤：S1、由语音输入模块输入信息，通过特征选取模块进行特征选取，然后通过语音信号特征提取单元对不同频带语音信号PNCC进行特征提取，进一步通过语音多频带特征融合单元将每个频带的语音信号PNCC特征乘以一个权重系数后进行语音信号PNCC特征融合，本发明涉及电网技术领域。该基于融合多频带语音信号特征的语音识别鲁棒性增强方法，可使得电网调度控制中心只需耗费调度员较少的时间和精力，在严重电网异常发生时，也不需要多级调度协同配合，在指挥多个单位统一处置异常的场景下，不会发生严重的信息阻塞，电网异常处置过程记录可实现自动记录。

Description

基于融合多频带语音信号特征的语音识别鲁棒性增强方法

技术领域

本发明涉及电网技术领域，具体为基于融合多频带语音信号特征的语音识别鲁棒性增强方法。

背景技术

随着特高压交直流同步电网的快速发展，新能源大规模的集中投运，电力体制改革的深入推进，电网异常协同处置工作面临着挑战。为进一步提高电网异常应急处置水平，必须采取调控一体化和资源配置全局化的措施予以应对，尤其是在电网异常情况下，必须做到共同预警、协同预控、统筹处置，这都对各级机构的协同工作水平提出非常高的要求。电力***各级电网调控中心是电网运行的组织、指挥、指导和协调机构，调控中心的调度员作为电网运行的直接指挥者，坚守在电网运行工作的第一线。随着全国联网规模的不断扩大和电压等级的不断提高，电网在设备数量、互联模式、耦合特性、复杂程度等方面已全面超越传统超高压交流电网，电网面临来自自然、人为、内在因素影响的问题也更为突出，这就造成调度员调度电网的工作量、复杂度和工作压力日益增大。因此，电力部门利用人工智能技术，调度人员可与机器就调度运行工作进行语言交互，可在调度员监督和指挥下处理有规律可循，重复性强的工作，让机器更多的替代人的工作，提高调度运行的智能化水平，提高工作效率，消除人为差错，确保电网安全稳定运行。

现有的电网调度控制中心需要耗费调度员大量的时间和精力，在严重电网异常发生时，需要多级调度协同配合，指挥多个单位统一处置异常的场景下，如果电话占线会发生严重的信息阻塞，电网异常处置过程记录需要手动记录，因此，本发明提出基于融合多频带语音信号特征的语音识别鲁棒性增强方法，以解决上述提到的问题。

发明内容

针对现有技术的不足，本发明提供了基于融合多频带语音信号特征的语音识别鲁棒性增强方法，解决了现有的电网调度控制中心需要耗费调度员大量的时间和精力，在严重电网异常发生时，需要多级调度协同配合，指挥多个单位统一处置异常的场景下，如果电话占线会发生严重的信息阻塞，电网异常处置过程记录需要手动记录的问题。

为实现以上目的，本发明通过以下技术方案予以实现：基于融合多频带语音信号特征的语音识别鲁棒性增强方法，具体包括以下步骤：

S1、由语音输入模块输入信息，通过特征选取模块进行特征选取，然后通过语音信号特征提取单元对不同频带语音信号PNCC进行特征提取，进一步通过语音多频带特征融合单元将每个频带的语音信号PNCC特征乘以一个权重系数后进行语音信号PNCC特征融合；

S2、由语音多频带特征融合单元进行语音信号PNCC特征融合后，再通过语音识别声学模型训练单元进行模型生成和训练；

S3、通过语音信号z-score标准化单元提高语音识别模型的鲁棒性；

S4、构建向量空间模型(VSM)：利用电网故障词典，对电网故障案例分词并统计词频，结合电网故障实体权重表，得出电网故障案例特征向量；

S5、计算每个词项在向量中的权重TF-IDF；

S6、余弦相似度计算；

S7、根据计算得到的值进行相似度计算，值越大表示两个电网故障案例特征向量的信息相似度越高，就越有可能发生重名或者多名现象。

优选的，所述步骤S2中的语音识别声学模型训练单元包括训练样本获取模块、原始声学模型获取模块、声学特征确定模块、状态描述模型生成模块和声学模型生成模块，在通过原始声学模型获取模块获取原始声学模型后，确定每一训练文本对应的原始声学模型中的声学状态。

优选的，然后通过声学特征确定模块中根据每一训练文本对应的声学状态以及声学特征，确定每一声学状态对应的声学特征，再通过状态描述模型生成模块利用每一声学状态对应的声学特征，重新训练获得声学状态的状态描述模型。

优选的，最后通过声学模型生成模块利用重新训练获得的状态模型，更新原始声学模型中的原始状态描述模型，获得更新之后的声学模型

优选的，所述步骤S3中的语音信号z-score标准化单元包括低频信号增强模块、高频信号抑制模块和频带语音信号权重系数调节模块，根据低频信号增强模块来增强低频信号(人声信号)特征，同时通过高频信号抑制模块抑制高频信号(非人声信号)特征的原则，调整不同频带语音信号权重系数，进而提高语音识别模型的鲁棒性。

优选的，所述步骤S4中电网故障案例特征向量由n个权重组成，每个词都有一个权重，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

优选的，所述步骤S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积：其中：TF-IDF＝词频(TF)×逆文档频率(IDF)。

有益效果

本发明提供了基于融合多频带语音信号特征的语音识别鲁棒性增强方法。与现有技术相比具备以下有益效果：

该基于融合多频带语音信号特征的语音识别鲁棒性增强方法，通过在基于融合多频带语音信号特征的语音识别鲁棒性增强方法，具体包括以下步骤：S1、由语音输入模块输入信息，通过特征选取模块进行特征选取，然后通过语音信号特征提取单元对不同频带语音信号PNCC进行特征提取，进一步通过语音多频带特征融合单元将每个频带的语音信号PNCC特征乘以一个权重系数后进行语音信号PNCC特征融合；S2、由语音多频带特征融合单元进行语音信号PNCC特征融合后，再通过语音识别声学模型训练单元进行模型生成和训练；S3、通过语音信号z-score标准化单元提高语音识别模型的鲁棒性；S4、构建向量空间模型(VSM)：利用电网故障词典，对电网故障案例分词并统计词频，结合电网故障实体权重表，得出电网故障案例特征向量；S5、计算每个词项在向量中的权重TF-IDF；S6、余弦相似度计算；S7、根据计算得到的值进行相似度计算，值越大表示两个电网故障案例特征向量的信息相似度越高，就越有可能发生重名或者多名现象，可使得电网调度控制中心只需耗费调度员较少的时间和精力，在严重电网异常发生时，也不需要多级调度协同配合，在指挥多个单位统一处置异常的场景下，如果电话占线也不会发生严重的信息阻塞，电网异常处置过程记录可实现自动记录。

附图说明

图1为本发明整体结构的示意图；

图2为本发明音识别声学模型训练单元的示意图；

图3为本发明语音信号z-score标准化单元的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-3，本发明提供一种技术方案：基于融合多频带语音信号特征的语音识别鲁棒性增强方法，具体包括以下步骤：

S5、计算每个词项在向量中的权重TF-IDF；

S6、余弦相似度计算；

本发明实施例中，所述步骤S2中的语音识别声学模型训练单元包括训练样本获取模块、原始声学模型获取模块、声学特征确定模块、状态描述模型生成模块和声学模型生成模块，在通过原始声学模型获取模块获取原始声学模型后，确定每一训练文本对应的原始声学模型中的声学状态。

本发明实施例中，然后通过声学特征确定模块中根据每一训练文本对应的声学状态以及声学特征，确定每一声学状态对应的声学特征，再通过状态描述模型生成模块利用每一声学状态对应的声学特征，重新训练获得声学状态的状态描述模型。

本发明实施例中，最后通过声学模型生成模块利用重新训练获得的状态模型，更新原始声学模型中的原始状态描述模型，获得更新之后的声学模型

本发明实施例中，所述步骤S3中的语音信号z-score标准化单元包括低频信号增强模块、高频信号抑制模块和频带语音信号权重系数调节模块，根据低频信号增强模块来增强低频信号(人声信号)特征，同时通过高频信号抑制模块抑制高频信号(非人声信号)特征的原则，调整不同频带语音信号权重系数，进而提高语音识别模型的鲁棒性。

本发明实施例中，所述步骤S4中电网故障案例特征向量由n个权重组成，每个词都有一个权重，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

本发明实施例中，所述步骤S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积：其中：TF-IDF＝词频(TF)×逆文档频率(IDF)。

同时本说明书中未作详细描述的内容均属于本领域技术人员公知的现有技术。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：具体包括以下步骤：

S5、计算每个词项在向量中的权重TF-IDF；

S6、余弦相似度计算；

2.根据权利要求1所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：所述步骤S2中的语音识别声学模型训练单元包括训练样本获取模块、原始声学模型获取模块、声学特征确定模块、状态描述模型生成模块和声学模型生成模块，在通过原始声学模型获取模块获取原始声学模型后，确定每一训练文本对应的原始声学模型中的声学状态。

3.根据权利要求2所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：然后通过声学特征确定模块中根据每一训练文本对应的声学状态以及声学特征，确定每一声学状态对应的声学特征，再通过状态描述模型生成模块利用每一声学状态对应的声学特征，重新训练获得声学状态的状态描述模型。

4.根据权利要求2所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：最后通过声学模型生成模块利用重新训练获得的状态模型，更新原始声学模型中的原始状态描述模型，获得更新之后的声学模型。

5.根据权利要求1所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：所述步骤S3中的语音信号z-score标准化单元包括低频信号增强模块、高频信号抑制模块和频带语音信号权重系数调节模块，根据低频信号增强模块来增强低频信号(人声信号)特征，同时通过高频信号抑制模块抑制高频信号(非人声信号)特征的原则，调整不同频带语音信号权重系数，进而提高语音识别模型的鲁棒性。

6.根据权利要求1所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：所述步骤S4中电网故障案例特征向量由n个权重组成，每个词都有一个权重，不同的词根据自己在文档中的权重来影响文档相关性的重要程度。

7.根据权利要求1所述的基于融合多频带语音信号特征的语音识别鲁棒性增强方法，其特征在于：所述步骤S2中TF-IDF表示TF(词频)和IDF(逆文档频率)的乘积：其中：TF-IDF＝词频(TF)×逆文档频率(IDF)。