CN114187914A

CN114187914A - 一种语音识别方法及***

Info

Publication number: CN114187914A
Application number: CN202111556173.8A
Authority: CN
Inventors: 吴浩珊; 关飞; 裴求根; 钱正浩; 王桂武; 任晓霞; 黄小强; 陈叶心; 彭荣兰; 陈振强
Original assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhaoqing Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2021-12-17
Filing date: 2021-12-17
Publication date: 2022-03-15

Abstract

本发明涉及数据处理技术领域，公开了一种语音识别方法及***，其方法通过识别用户输入的语音信号的语音波形，对语音波形进行编码，从而得到特征向量序列，利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列，从而将特征向量序列转换为文字序列，实现语音识别，提高了语音识别准确性，大大提高了语音识别效率。

Description

一种语音识别方法及***

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音识别方法及***。

背景技术

目前，供电所营销、配网业务中的数据操作日渐繁琐，存在各级管理要求重复不一，现场重复性采集、***重复性录入工作多。传统的信息化建设仅按照业务需求设计、创建较为独立的数据存储模型，大部分现场数据采集规范未统一，依赖员工个人认知、习惯，导致部分同一数据在营销、配网业务中存在标准不一致、数据重复存储的情况。一线员工两极分化，信息***操作与现场业务能力脱节。

通过语音交互方式可以把智能化功能延伸到现场，去辅助或者替代人工作业，加强人机协同。全面提升基层供电所专业化、规范化、信息化、智能化水平，通过对电力业务客户、电网内部业务人员有关供电所营销业务领域问题的对话进行语音识别，识别客户或业务人员的语音信息，并结合行业特点对声学模型、语言模型进行场景性优化训练，识别出客户、业务人员想要办理的业务内容。然而市面上各种的语音识别仍存在各种各样的问题。

如授权公告号为CN107293291B所公开的一种基于自适应学习率的端到端的语音识别方法，其虽然实现了端到端的语音识别***抛弃了传统的隐马尔可夫模型，而是利用递归神经网络(recurrent neural network,RNN)在时间序列建模方面的优点，借助递归神经网络建立语音特征序列到对应音素或字符序列的直接映射。端到端的语音识别建模方法极大地简化了构建语音识别***的流程；使用CTC准则作为训练目标函数，引入了blank符号且其对似然函数的贡献远大于其他音素；再结合自适应学习率的方法ADADELTA，通过将神经网络中每个参数的梯度累积下来，可以减弱频繁出现的特征对网络权重的影响，但是，上述语音识别方法的准确性不高，导致语音识别效率也大大降低。

发明内容

本发明提供了一种语音识别方法及***，解决了语音识别准确性不高导致语音识别效率也大大降低的技术问题。

有鉴于此，本发明第一方面提供了一种语音识别方法，包括以下步骤：

通过声学前端接收用户输入的语音信号，识别语音波形，对所述语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列；

利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列，从而将所述特征向量序列转换为文字序列。

优选地，通过声学前端接收用户输入的语音信号，识别语音波形，对所述语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列的步骤具体包括：

通过声学前端接收用户输入的语音信号，基于录波技术识别所述语音信号的语音波形；

对所述语音波形按照预定尺度划分为多个具有时序性的子波形，对多个具有时序性的子波形分别进行分帧加窗处理，得到多个语音帧数据；

通过对多个所述语音帧数据进行频域离散傅里叶变换，从而得到各个所述语音帧数据分别对应的频谱数据；

将所述频谱数据按照Bark频带划分为多个Bark单元，利用滤波器对多个所述Bark单元进行滤波，计算每个滤波器对应的Bark单元中的幅值响应；

对所述幅值响应进行对数处理，从而转换为对数能量；

对所述对数能量进行离散余弦变换，得到一系列MFCC参数，取预定前N个参数得到一系列的MFCC特征向量；

对一系列的MFCC特征向量进行归一化处理，从而构成特征向量序列。

优选地，所述归一化处理的方式为倒谱均值归一化或全局特征标准化。

优选地，利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列，从而将所述特征向量序列转换为文字序列的步骤具体包括：

利用声学模型和词典构建搜索空间，通过语言模型给定的语言中的单词序列进行约束，基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径，以匹配到概率最大的词语，从而将所述特征向量序列转换为文字序列。

优选地，本方法还包括：

将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词，从而得到相应的检索信息。

第二方面，本发明还提供了一种语音识别***，包括：

编码模块，用于通过声学前端接收用户输入的语音信号，识别语音波形，对所述语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列；

文字转换模块，用于利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列，从而将所述特征向量序列转换为文字序列。

优选地，所述编码模块具体包括：

接收模块，用于通过声学前端接收用户输入的语音信号，基于录波技术识别所述语音信号的语音波形；

分帧模块，用于对所述语音波形按照预定尺度划分为多个具有时序性的子波形，对多个具有时序性的子波形分别进行分帧加窗处理，得到多个语音帧数据；

变换模块，用于通过对多个所述语音帧数据进行频域离散傅里叶变换，从而得到各个所述语音帧数据分别对应的频谱数据；

滤波模块，用于将所述频谱数据按照Bark频带划分为多个Bark单元，利用滤波器对多个所述Bark单元进行滤波，计算每个滤波器对应的Bark单元中的幅值响应；

对数模块，用于对所述幅值响应进行对数处理，从而转换为对数能量；

离散模块，用于对所述对数能量进行离散余弦变换，得到一系列MFCC参数，取预定前N个参数得到一系列的MFCC特征向量；

归一化模块，用于对一系列的MFCC特征向量进行归一化处理，从而构成特征向量序列。

优选地，所述文字转换模块具体用于利用声学模型和词典构建搜索空间，通过语言模型给定的语言中的单词序列进行约束，基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径，以匹配到概率最大的词语，从而将所述特征向量序列转换为文字序列。

优选地，本***还包括：

语义匹配模块，用于将所述特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词，从而得到相应的检索信息。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过识别用户输入的语音信号的语音波形，对语音波形进行编码，从而得到特征向量序列，利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列，从而将特征向量序列转换为文字序列，实现语音识别，提高了语音识别准确性，大大提高了语音识别效率。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明实施例提供的一种语音识别***的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，请参阅图1，本发明提供的一种语音识别方法，包括以下步骤：

步骤一、通过声学前端接收用户输入的语音信号，识别语音波形，对语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列。

其中，声学前端可以为声音接收装置，以对用户的语音进行录制。

步骤二、利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列，从而将特征向量序列转换为文字序列。

本实施例提供了一种语音识别方法，通过识别用户输入的语音信号的语音波形，对语音波形进行编码，从而得到特征向量序列，利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列，从而将特征向量序列转换为文字序列，实现语音识别，提高了语音识别准确性，大大提高了语音识别效率。

在一个具体实施例中，步骤一具体包括：

1.1通过声学前端接收用户输入的语音信号，基于录波技术识别语音信号的语音波形。

可以理解的是，可以采用录波器对语音信号进行录波，以得到语音波形。

1.2对语音波形按照预定尺度划分为多个具有时序性的子波形，对多个具有时序性的子波形分别进行分帧加窗处理，得到多个语音帧数据。

可以理解的是，通过对语音波形在最前端以预定尺度进行划分直至其最后端，从而可以分割出多个具有时序性的子波形，语音波形可以为正弦波或余弦波。

1.3通过对多个语音帧数据进行频域离散傅里叶变换，从而得到各个语音帧数据分别对应的频谱数据。

1.4将频谱数据按照Bark频带划分为多个Bark单元，利用滤波器对多个Bark单元进行滤波，计算每个滤波器对应的Bark单元中的幅值响应。

1.5对幅值响应进行对数处理，从而转换为对数能量。

1.6对对数能量进行离散余弦变换，得到一系列MFCC参数，取预定前N个参数得到一系列的MFCC特征向量。

1.7对一系列的MFCC特征向量进行归一化处理，从而构成特征向量序列。

在一个具体实施例中，归一化处理的方式为倒谱均值归一化或全局特征标准化。

在一个具体实施例中，步骤二具体包括：

利用声学模型和词典构建搜索空间，通过语言模型给定的语言中的单词序列进行约束，基于搜索算法在搜索空间中搜索特征向量序列的最优的路径，以匹配到概率最大的词语，从而将特征向量序列转换为文字序列。

其中，声学模型采用隐马尔科夫模型以及延时神经网络，隐马尔科夫模型的隐藏状态上的观测序列是由延时神经网络进行描述的。

语言模型采用n-gram的语言模型，n-gram的语言模型将文本里面的内容按照字节进行大小为L的滑动窗口操作，形成了长度是L的字节片段序列。

在搜索过程中，在给定观察序列O，找到最有可能的单词序列W和声学-音素-语言模型，根据输入的特征在搜索空间中寻找最优的路径，以匹配到最优的词语。

在一个具体实施例中，本方法还包括：

将特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词，从而得到相应的检索信息。

其中，通过构建知识图谱包含不同类型实体，每一类别生成实体类词表，实体类词表中包含关键词与检索信息的映射关系，通过计算文字序列与关键词的相似度，从而进行语义匹配，得到相似度最高的关键词，进而得到相应的检索信息。

以上为本发明提供的一种语音识别方法的实施例的详细描述，以下为本发明提供的一种语音识别***的实施例的详细描述。

为了方便理解，请参阅图2，本发明提供的一种语音识别***，包括：

编码模块100，用于通过声学前端接收用户输入的语音信号，识别语音波形，对语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列；

文字转换模块200，用于利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在搜索空间中搜索特征向量序列对应的词语序列，从而将特征向量序列转换为文字序列。

在一个具体实施例中，编码模块具体包括：

接收模块，用于通过声学前端接收用户输入的语音信号，基于录波技术识别语音信号的语音波形；

分帧模块，用于对语音波形按照预定尺度划分为多个具有时序性的子波形，对多个具有时序性的子波形分别进行分帧加窗处理，得到多个语音帧数据；

变换模块，用于通过对多个语音帧数据进行频域离散傅里叶变换，从而得到各个语音帧数据分别对应的频谱数据；

滤波模块，用于将频谱数据按照Bark频带划分为多个Bark单元，利用滤波器对多个Bark单元进行滤波，计算每个滤波器对应的Bark单元中的幅值响应；

对数模块，用于对幅值响应进行对数处理，从而转换为对数能量；

离散模块，用于对对数能量进行离散余弦变换，得到一系列MFCC参数，取预定前N个参数得到一系列的MFCC特征向量；

在一个具体实施例中，文字转换模块具体用于利用声学模型和词典构建搜索空间，通过语言模型给定的语言中的单词序列进行约束，基于搜索算法在搜索空间中搜索特征向量序列的最优的路径，以匹配到概率最大的词语，从而将特征向量序列转换为文字序列。

在一个具体实施例中，本***还包括：

语义匹配模块，用于将特征向量序列对应的文字序列在预先构建的知识图谱中匹配语义相似度最高的关键词，从而得到相应的检索信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的语音识别方法，其特征在于，通过声学前端接收用户输入的语音信号，识别语音波形，对所述语音波形进行编码，得到一系列的特征向量，从而构成特征向量序列的步骤具体包括：

对所述幅值响应进行对数处理，从而转换为对数能量；

3.根据权利要求2所述的语音识别方法，其特征在于，所述归一化处理的方式为倒谱均值归一化或全局特征标准化。

4.根据权利要求1所述的语音识别方法，其特征在于，利用声学模型和词典构建搜索空间，在语言模型给定的语言约束下，基于搜索算法在所述搜索空间中搜索所述特征向量序列对应的词语序列，从而将所述特征向量序列转换为文字序列的步骤具体包括：

5.根据权利要求1所述的语音识别方法，其特征在于，还包括：

6.一种语音识别***，其特征在于，包括：

7.根据权利要求6所述的语音识别***，其特征在于，所述编码模块具体包括：

8.根据权利要求7所述的语音识别***，其特征在于，所述归一化处理的方式为倒谱均值归一化或全局特征标准化。

9.根据权利要求6所述的语音识别***，其特征在于，所述文字转换模块具体用于利用声学模型和词典构建搜索空间，通过语言模型给定的语言中的单词序列进行约束，基于搜索算法在所述搜索空间中搜索所述特征向量序列的最优的路径，以匹配到概率最大的词语，从而将所述特征向量序列转换为文字序列。

10.根据权利要求6所述的语音识别***，其特征在于，还包括：