CN114724547A

CN114724547A - 一种用于口音英语的识别方法及***

Info

Publication number: CN114724547A
Application number: CN202011520676.5A
Authority: CN
Inventors: 陈运兵; 胡静
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2020-12-21
Filing date: 2020-12-21
Publication date: 2022-07-08

Abstract

本发明提供一种用于口音英语的识别方法及***，该方法包括：对待识别的口音英语进行语音增强处理，得到音频数据；根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。本发明在多国口音英语数据上的识别性能获得了显著提升，提高了带口音和有限数据中英语语音识别模型的泛化性和鲁棒性。

Description

一种用于口音英语的识别方法及***

技术领域

本发明涉及语音信息处理技术领域，尤其涉及一种用于口音英语识别方法及***。

背景技术

英文作为最具影响力的全球***流语言之一，与其相关的英文语音识别***也在学术界和工业界受到广泛关注。当前阶段，用于标准英文的自动语音识别技术(AutomaticSpeech Recognition，简称ASR)***已经能够获得较高的识别正确率，满足一定场景的商用要求，但是口音英语识别仍然是具有挑战性的课题，商用***往往通过大量的口音标注数据覆盖，来缓解口音带来的识别性能影响。

口音语音识别难点主要源于口音本身的不一致性、语速与音素发音的多变性难以建模等问题。另外，带有口音标注的语音数据的短缺也严重限制了相关研究的开展。现在技术方案有提取多种语音特征进行融合，或借助无监督网络提取高维语音特征，或利用多种口音数据进行跨口音的声学模型训练，但均未能很好地获取具有通用性能的模型。

因此，现在亟需一种用于口音英语的识别方法及***来解决上述问题。

发明内容

针对现有技术存在的问题，本发明提供一种用于口音英语的识别方法及***。

第一方面，本发明提供一种用于口音英语的识别方法，包括：

对待识别的口音英语进行语音增强处理，得到音频数据；

根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；

将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

根据本发明提供的一种用于口音英语的识别方法，所述训练好的口音英语识别模型通过以下步骤训练得到：

对样本口音英语进行语音增强处理，得到样本音频数据，并根据所述样本音频数据构建第一训练样本集；

根据英语开源数据集的抄本和样本音频标签，构建第二训练样本集；

将所述第一训练样本集输入到多头注意力机制声学模型进行训练，获得预训练的多头注意力机制声学模型；将所述第二训练样本集输入到多头注意力机制语言模型进行训练，获得预训练的多头注意力机制语言模型；

通过光束搜索，将所述预训练的多头注意力机制声学模型和所述预训练的多头注意力机制语言模型进行融合，得到训练好的口音英语识别模型。

根据本发明提供的一种用于口音英语的识别方法，所述对样本口音英语进行语音增强处理，得到样本音频数据，包括：

对样本口音英语进行语速调整和/或音量调整，得到调整后的样本口音英语；

根据预设音频信噪比条件，获取所述调整后的样本口音英语对应的噪声信号幅值，并将所述调整后的样本口音英语和所述噪声信号幅值进行融合，得到样本音频数据。

根据本发明提供的一种用于口音英语的识别方法，所述根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征，包括：

将音频数据中每个音频，按照音频时长从长到短的顺序进行排序，得到排序后的音频数据；

对所述排序后的音频数据中每一帧信号进行快速傅里叶变换，并根据快速傅里叶变换后的音频数据计算谱线能量，以根据所述谱线能量得到对应的目标语谱特征。

根据本发明提供的一种用于口音英语的识别方法，在所述将音频数据中每个音频，按照音频时长从长到短的顺序进行排序，得到排序后的音频数据之前，所述方法还包括：

对所述音频数据进行预处理，得到预处理后的音频数据，以根据所述预处理后的音频数据进行特征提取，所述预处理包括预加重处理、分帧处理和加窗处理。

根据本发明提供的一种用于口音英语的识别方法，所述多头注意力机制声学模型是由2层卷积神经网络和6层四头注意力机制网络组成的；所述多头注意力机制语言模型是由4层四头注意力机制网络组成的。

本发明还提供一种用于口音英语的识别***，包括：

语言增强模块，用于对待识别的口音英语进行语音增强处理，得到音频数据；

特征提取模块，用于根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；

口音英语识别模块，用于将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

根据本发明提供的一种用于口音英语的识别***，所述***还包括：

第一训练样本集构建模块，用于对样本口音英语进行语音增强处理，得到样本音频数据，并根据所述样本音频数据构建第一训练样本集；

第二训练样本集构建模块，用于根据英语开源数据集的抄本和样本音频标签，构建第二训练样本集；

训练模块，用于将所述第一训练样本集输入到多头注意力机制声学模型进行训练，获得预训练的多头注意力机制声学模型；将所述第二训练样本集输入到多头注意力机制语言模型进行训练，获得预训练的多头注意力机制语言模型；

模型融合模块，用于通过光束搜索，将所述预训练的多头注意力机制声学模型和所述预训练的多头注意力机制语言模型进行融合，得到训练好的口音英语识别模型。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述用于口音英语的识别方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述用于口音英语的识别方法的步骤。

本发明提供的用于口音英语的识别方法及***，通过从数据角度对口音英语数据进行语音增强处理，并将音频数据中的音频按时长进行排序，并输入到基于多头注意力机制网络构建的识别模型中，从而识别得到该口音英语的文本信息，相比现有的口音英语识别方法，在多国口音英语数据上的识别性能获得了显著提升，提高了带口音和有限数据中英语语音识别模型的泛化性和鲁棒性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的用于口音英语的识别方法的流程示意图；

图2为本发明提供的基于多头注意力机制的声学模型和语言模型的融合网络结构示意图；

图3为本发明提供的多头注意力机制网络的示意图；

图4为本发明提供的用于口音英语的识别***的结构示意图；

图5为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提供的用于口音英语的识别方法的流程示意图，如图1所示，本发明提供了一种用于口音英语的识别方法，包括：

步骤101，对待识别的口音英语进行语音增强处理，得到音频数据。

在本发明中，将具有口音的英语语音作为输入数据，对该数据进行语速增减和/或音量增减的调整处理，再对调整出来后的数据和对应的噪声进行融合，从而得到音频数据。其中，上述具有口音的英语语音可以为任意不同国家或区域的具有口音的英语语音。

步骤102，根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征。

在本发明中，对音频数据中的音频时长由长到短依次排序，并提取语谱特征。具体地，获取每条音频的时长，对音频时长由长到短依次排序，并且按顺序提取语谱特征40维。

步骤103，将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

在本发明中，将目标语谱特征输入到由多头注意力机制网络构建的口音英语识别模型中，输出由26个英语字母、空格以及英文标点等组成的文本信息。

本发明提供的用于口音英语的识别方法，通过从数据角度对口音英语数据进行语音增强处理，并将音频数据中的音频按时长进行排序，并输入到基于多头注意力机制网络构建的识别模型中，从而识别得到该口音英语的文本信息，相比现有的口音英语识别方法，在多国口音英语数据上的识别性能获得了显著提升，提高了带口音和有限数据中英语语音识别模型的泛化性和鲁棒性。

在上述实施例的基础上，所述训练好的口音英语识别模型通过以下步骤训练得到：

所述对样本口音英语进行语音增强处理，得到样本音频数据，包括：

在本发明中，对音频的语速进行0.9和1.1倍速调整处理，对音频的音量进行-20dB和+20dB音量调整处理，基于调整后的音频，以预设信噪比条件，将对应的噪声和语音进行混合，具体地，语音增强处理具体过程如下：

首先，设定噪声和语音混合后的音频信噪比SNR_dB：

其中，A_speech为语音信号能量，A_noise为噪声信号能量。

根据公式(1)可推出：

由公式(2)可计算出基于预设信噪比条件的语音信号对应的噪声信号的能量，将要混入的噪声幅值按比例调整到基于设定信噪比的噪声信号幅值大小，最后将调整后的噪声与语音融合即可。需要说明的是，在本发明中，分别计算原始语音信号和调整后语音信号对应的噪声幅值(可根据语音增强需求，设置音量和语速同时调整，也可以设置为只调整音量或语速，从而用于后续的噪声融合)，并将计算得到噪声幅值和相应的语音信号进行融合，增加了语音数据量。本发明通过对语音数据进行语速增减、音量增减和噪声融合来增加语音数据量，提高口语英语的识别效果。

根据英语开源数据集的抄本(transcript)和样本音频标签，构建第二训练样本集。

将所述第一训练样本集输入到多头注意力机制声学模型进行训练，获得预训练的多头注意力机制声学模型；将所述第二训练样本集输入到多头注意力机制语言模型进行训练，获得预训练的多头注意力机制语言模型。

在本发明中，将第一训练样本集作为多头注意力机制声学模型的为输入，以第一训练样本集中样本音频数据对应的抄本作为输出，同时将该抄本统一为大写格式。在本发明中，多头注意力机制语言模型的训练除了使用多国口音英语的样本音频标签，还使用了英语开源数据集Librispeech的抄本，在训练时，多头注意力机制语言模型根据样本音频标签和数据集的抄本进行训练，使得该模型在训练过程时，将样本音频标签标记到对应的抄本(即在满足预设训练次数后，该模型可以识别抄本所对应的口音类型，例如，分别标记英国口音、美国口音或印度口音等)，在该模型训练好之后，对多头注意力机制声学模型训练时输出的大写格式抄本进行样本音频标签的标记。

在本发明中，图2为本发明提供的基于多头注意力机制的声学模型和语言模型的融合网络结构示意图，可参考图2所示，采用光束搜索，把训练后的多头注意力机制声学模型和多头注意力机制语言模型进行融合，再联合字典进行解码得到英语文本，即最后的输出结果，从而得到训练好的口音英语识别模型。

在上述实施例的基础上，所述根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征，包括：

在上述实施例的基础上，在所述将音频数据中每个音频，按照音频时长从长到短的顺序进行排序，得到排序后的音频数据之前，所述方法还包括：

在本发明中，优选地，在进行特征提取之前，首先对音频数据进行预处理，包括预加重(Pre-emphasis)、分帧(Framing)和加窗(Windowing)处理。具体地，设x(n)是N个有限值的一维实数信号序列，其中，n＝0,1,…,N-1，经预处理后为x_i(m)，其中下标i表示分帧后的第i帧。

进一步地，对预处理后的每一帧信号进行快速傅里叶变换(Fast Fouriertransform，简称FFT)变换，将每一帧信号从时域数据转变为频域数据：

X(i,k)＝FFT[x_i(m)]； (3)

其中，0≤k≤N-1，表示频域中的第k条谱线。

然后，根据每一帧FFT后的数据计算谱线能量：

E(i,k)＝[X(i,k)]²； (4)

最后，对谱线能量取对数，得到对应的语谱图，即得到目标语谱特征。

在上述实施例的基础上，所述多头注意力机制声学模型是由2层卷积神经网络和6层四头注意力机制网络组成的；所述多头注意力机制语言模型是由4层四头注意力机制网络组成的。

在本发明中，多头注意力机制声学模型的编码网络结构由2层卷积网络和6层四头注意力机制网络组成，其中，特征列进行embedding且参数共享,并共同更新embedding参数，经实验对比设置平滑因子为0.1，激活函数选用门控线性单元(Gated Linear Units，简称GLU)。多头注意力机制语言模型的网络结构有4层四头注意力机制组成，其他参数可参考多头注意力机制声学模型。需要说明的是，多头注意力机制声学模型的解码网络与编码网络对称，且参数一致，但最后一层采用光束搜索把声学模型和语言模型进行融合后，联合字典进行解码得到英语文本(可参考图2所示)。图3为本发明提供的多头注意力机制网络的示意图，用于构建上述声学模型和语言模型的多头注意力机制网络架构可参考图3所示。

本发明中的声学模型和语言模型均是基于多头注意力机制网络进行构建和训练，最后将两者融合共同进行解码，不仅降低了语音识别***复杂度，而且在识别准备率上取得了显著提升。

图4为本发明提供的用于口音英语的识别***的结构示意图，如图4所示，本发明提供了一种用于口音英语的识别***，包括语言增强模块401、特征提取模块402和口音英语识别模块403，其中，语言增强模块401用于对待识别的口音英语进行语音增强处理，得到音频数据；特征提取模块402用于根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；口音英语识别模块403用于将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

本发明提供的用于口音英语的识别***，通过从数据角度对口音英语数据进行语音增强处理，并将音频数据中的音频按时长进行排序，并输入到基于多头注意力机制网络构建的识别模型中，从而识别得到该口音英语的文本信息，相比现有的口音英语识别方法，在多国口音英语数据上的识别性能获得了显著提升，提高了带口音和有限数据中英语语音识别模型的泛化性和鲁棒性。

在上述实施例的基础上，所述***还包括第一训练样本集构建模块、第二训练样本集构建模块、训练模块和模型融合模块，其中，第一训练样本集构建模块用于对样本口音英语进行语音增强处理，得到样本音频数据，并根据所述样本音频数据构建第一训练样本集；第二训练样本集构建模块用于根据英语开源数据集的抄本和样本音频标签，构建第二训练样本集；训练模块用于将所述第一训练样本集输入到多头注意力机制声学模型进行训练，获得预训练的多头注意力机制声学模型；将所述第二训练样本集输入到多头注意力机制语言模型进行训练，获得预训练的多头注意力机制语言模型；模型融合模块用于通过光束搜索，将所述预训练的多头注意力机制声学模型和所述预训练的多头注意力机制语言模型进行融合，得到训练好的口音英语识别模型。

本发明实施例提供的***是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图5为本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)501、通信接口(CommunicationsInterface)502、存储器(memory)503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行用于口音英语的识别方法，该方法包括：对待识别的口音英语进行语音增强处理，得到音频数据；根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的用于口音英语的识别方法，该方法包括：对待识别的口音英语进行语音增强处理，得到音频数据；根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的用于口音英语的识别方法，该方法包括：对待识别的口音英语进行语音增强处理，得到音频数据；根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征；将所述目标语谱特征输入到训练好的口音英语识别模型中，得到所述待识别的口音英语对应的英语文本，其中，所述训练好的口音英语识别模型是由样本音频数据和样本音频标签，对多头注意力机制网络进行训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种用于口音英语的识别方法，其特征在于，包括：

对待识别的口音英语进行语音增强处理，得到音频数据；

2.根据权利要求1所述的用于口音英语的识别方法，其特征在于，所述训练好的口音英语识别模型通过以下步骤训练得到：

3.根据权利要求2所述的用于口音英语的识别方法，其特征在于，所述对样本口音英语进行语音增强处理，得到样本音频数据，包括：

4.根据权利要求1所述的用于口音英语的识别方法，其特征在于，所述根据音频时长从长到短的顺序，对所述音频数据进行特征提取，得到目标语谱特征，包括：

5.根据权利要求4所述的用于口音英语的识别方法，其特征在于，在所述将音频数据中每个音频，按照音频时长从长到短的顺序进行排序，得到排序后的音频数据之前，所述方法还包括：

6.根据权利要求2所述的用于口音英语的识别方法，其特征在于，所述多头注意力机制声学模型是由2层卷积神经网络和6层四头注意力机制网络组成的；所述多头注意力机制语言模型是由4层四头注意力机制网络组成的。

7.一种用于口音英语的识别***，其特征在于，包括：

8.根据权利要求7所述的用于口音英语的识别***，其特征在于，所述***还包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述用于口音英语的识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述用于口音英语的识别方法的步骤。