CN109493846B

CN109493846B - 一种英语口音识别***

Info

Publication number: CN109493846B
Application number: CN201811371012.XA
Authority: CN
Inventors: 钟建生; 杨智; 高聪; 蒋秋燕; 李坤
Original assignee: Speechx Ltd
Current assignee: Speechx Ltd
Priority date: 2018-11-18
Filing date: 2018-11-18
Publication date: 2021-06-08
Anticipated expiration: 2038-11-18
Also published as: CN109493846A

Abstract

本发明公开了一种英语口音识别***，包括如下步骤，S1：训练多任务多口音模型；S2：识别模块对音频做口音识别；步骤S1完成对口音模型数据库的建立、模型目标函数的建立，以及函数数据的后续处理；步骤S2完成对数据语音信息的处理，先完成单个文本单词的处理，提取单词的美式音素序列和英式音素序列，然后针对整段文本音频进行处理，获取音频特征，最后根据S1中的多任务多口音模型获得音素的后验概率，求出每个单词发音的概率，最后将概率转化，进一步求出整个文本英式/美式发音的概率；本发明能够完成英文文本阅读语音的英式、美式发音的检测，并通过概率的方式呈现出来，便于用户了解，进一步的改进。

Description

一种英语口音识别***

技术领域

本发明涉及语音信息处理技术领域，具体为一种英语口音识别***。

背景技术

由于英语口音分有美式英语和英式英语两种，二者口音有所差距，口音上的问题很难得以发现和纠正。

发明内容

本发明要解决的技术问题是英语口音分为美式英语和英式英语，口音上出现的问题难以发现和解决，提供一种英语口音识别***，从而解决上述问题。

为了解决上述技术问题，本发明提供了如下的技术方案：

本发明提供一种英语口音识别***，包括如下步骤，

S1：训练多任务多口音模型；

S2：识别模块对音频做口音识别；

步骤S1中还包括如下步骤，

S11：建立英式、美式口音的数据库，并对数据进行音素级别的标注；

S12：构建多任务多口音的声学模型；

S13：设置目标函数，并对函数进行相关处理；

S14：函数优化；

步骤S2中包括如下步骤，

S21：根据用户输入的语音信息，将用户输入的文本分割成单词序列，提取每个单词的英式、美式音素序列；

S22：对整个文本音频，获取音频特征；

S23：求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率，并求出每个单词英式/美式发音的概率；

S24：归一化处理，转化每个单词英式/美式发音的概率，并获取整个文本英式/美式发音的概率。

作为本发明的一种优选技术方案，所述步骤S12中，多任务多口音的声学模型是一个深度神经网络，输出两个数据，其一是英式音素

发音的后验概率

其二是美式音素

发音的后验概率

作为本发明的一种优选技术方案，所述步骤S13中，定义文本的第k个单词为W_k，其英式音素序列为

其美式音素序列为

单词W_k的英式发音后验概率为：

单词W_k的美式发音后验概率为：

ω_i是对应音素的权重，定义L(W_k)为音频对应的英美音标注，如果L(W_k)＝1，则W_k标注为英音，如果L(W_k)＝0，则W_k标注为美音；目标函数为：E＝[P(W_k)-L(W_k)]2。作为本发明的一种优选技术方案，所述步骤S13中，目标函数对参数ω_i求导：

之后进行迭代：

从而获得最优的参数ω_i。

作为本发明的一种优选技术方案，所述步骤S21中，定义文本内容为W，第u个单词为W_u，单词W_u的英式音素序列为

单词W_u的美式音素序列为

作为本发明的一种优选技术方案，所述步骤S22中，将用户的语音信息进行快速傅里叶变换，并利用汉明窗函数进行分帧处理，窗长25毫秒，帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征，分别对每一维度的特征进行归一化处理，使之平均值为0，标准方差为1，得到所述第t帧的声学特征x_t；也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征x_t。

作为本发明的一种优选技术方案，所述步骤S23中，

中第i个音素的后验概率为：

中第i个音素的后验概率为：

单词W_u的英式发音概率：

单词W_u的美式发音概率：

作为本发明的一种优选技术方案，所述步骤S24中，单词W_u的英式发音概率转换为：

单词W_u的美式发音概率转换为：

文本W的英式发音概率：

文本W的美式发音概率：

本发明所达到的有益效果是：本发明通过设置美式英语和英式英语的数据库，并建立相关模型数据，对数据进行处理；在获取使用者语音消息之后，将使用者语音分成单个音素与模型进行比较，之后针对语音分段按帧进行比对，最后获得单词的发音概率，转换获得整个文本的发音概率。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明整体步骤流程图；

图2是本发明步骤S1流程图；

图3是本发明步骤S2流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1-3所示，本发明提供一种英语口音识别***，包括如下步骤，

S1：训练多任务多口音模型；

S2：识别模块对音频做口音识别；

步骤S1中还包括如下步骤，

S12：构建多任务多口音的声学模型；

S13：设置目标函数，并对函数进行相关处理；

S14：函数优化；

步骤S2中包括如下步骤，

S22：对整个文本音频，获取音频特征；

进一步的，所述步骤S12中，多任务多口音的声学模型是一个深度神经网络，输出两个数据，其一是英式音素

发音的后验概率

其二是美式音素

发音的后验概率

进一步的，所述步骤S13中，定义文本的第k个单词为W_k，其英式音素序列为

其美式音素序列为

单词W_k的英式发音后验概率为：

单词W_k的美式发音后验概率为：

ω_i是对应音素的权重，定义L(W_k)为音频对应的英美音标注，如果L(W_k)＝1，则W_k标注为英音，如果L(W_k)＝0，则W_k标注为美音；目标函数为：E＝[P(W_k)-L(W_k)]2。

进一步的，所述步骤S13中，目标函数对参数ω_i求导：

之后进行迭代：

从而获得最优的参数ω_i。

进一步的，所述步骤S21中，定义文本内容为W，第u个单词为W_u，单词W_u的英式音素序列为

单词W_u的美式音素序列为

进一步的，所述步骤S22中，将用户的语音信息进行快速傅里叶变换，并利用汉明窗函数进行分帧处理，窗长25毫秒，帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征，分别对每一维度的特征进行归一化处理，使之平均值为0，标准方差为1，得到所述第t帧的声学特征x_t；也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征x_t。

进一步的，所述步骤S23中，

中第i个音素的后验概率为：

中第i个音素的后验概率为：

单词W_u的英式发音概率：

单词W_u的美式发音概率：

进一步的，所述步骤S24中，单词W_u的英式发音概率转换为：

单词W_u的美式发音概率转换为：

文本W的英式发音概率：

文本W的美式发音概率：

具体的：步骤S1中建立美式英语和英式英语数据库以及建立多任务多口音模型，步骤S2中获取使用者文本读音，获取音频特征，通过比对计算，获得最终结果，文本的发音概率。

步骤S11中建立模型，在步骤S12中，模型输出数据英式音素发音的后验概率和美式音素发音的后验概率，用于在步骤S13中获取单个单词的发音后验概率；同时根据在步骤S13中建立的函数，对函数的参数求导，训练模型，获得最优的参数。

步骤S21中，根据用户输入语音文本，将语音分割成单个的单词，并获取单词的发音音素序列，在步骤S22提取音频特征，将音频信息按照25帧或21帧，获取Mel频率倒谱系数特征，设置平均值为0，方差为1，得到第t帧的声学特征；在步骤S23中，获得单词中第i个音素的后验概率和每个单词美式/英式发音概率，并在步骤S24中将概率转化，同时根据单词的发音概率获得整个文本的美式/英式发音概率。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种英语口音识别***，其特征在于，包括如下步骤，

S1：训练多任务多口音模型；

S2：识别模块对音频做口音识别；

步骤S1中还包括如下步骤，

S12：构建多任务多口音的声学模型；

S13：设置目标函数，并对函数进行相关处理；

S14：函数优化；

其中，所述步骤S12中，多任务多口音的声学模型是一个深度神经网络，输出两个数据，其一是英式音素

发音的后验概率

其二是美式音素

发音的后验概率

所述步骤S13中，定义文本的第k个单词为W_k，其英式音素序列为

其美式音素序列为

单词W_k的英式发音后验概率为：

单词W_k的美式发音后验概率为：

ω_i是对应音素的权重，定义L(W_k)为音频对应的英美音标注，如果L(W_k)＝1，则W_k标注为英音，如果L(W_k)＝0，则W_k标注为美音；目标函数为：E＝[P(W_k)-L(W_k)]²；

步骤S2中包括如下步骤，

S22：对整个文本音频，获取音频特征；

2.根据权利要求1所述的一种英语口音识别***，其特征在于，所述步骤S13中，目标函数对参数ω_i求导：

之后进行迭代：

从而获得最优的参数ω_i。

3.根据权利要求1所述的一种英语口音识别***，其特征在于，所述步骤S21中，定义文本内容为W，第u个单词为W_u，单词W_u的英式音素序列为

单词W_u的美式音素序列为

4.根据权利要求1所述的一种英语口音识别***，其特征在于，所述步骤S22中，将用户的语音信息进行快速傅里叶变换，并利用汉明窗函数进行分帧处理，窗长25毫秒，帧移10毫秒；从每一帧的信息中提取一组13维的Mel频率倒谱系数特征，分别对每一维度的特征进行归一化处理，使之平均值为0，标准方差为1，得到第t帧的声学特征x_t；也可以使用21帧的Mel频率倒谱系数特征即前10帧、当前帧、后10帧作为声学特征x_t。

5.根据权利要求1所述的一种英语口音识别***，其特征在于，所述步骤S23中，