CN109300339A

CN109300339A - 一种英语口语的练习方法及***

Info

Publication number: CN109300339A
Application number: CN201811376417.2A
Authority: CN
Inventors: 王泓懿
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2019-02-01

Abstract

本发明公开了一种英语口语的练习方法及***，其中方法包括以下步骤：接收口语的测试音频，将所述测试音频转译为计算机文本文件；将所述计算机文本文件转译为标准音频；分别提取述测试音频和所述标准音频的梅尔频率倒谱系数，根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率，根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分，并输出所述标准音频以及所述百分比评分。上述方法和***能够有效的根据输入的音频输出对应的标准音频，同时还能够为输入的音频给出合理的评分，能够有效的提高用户的英语口语能力，具有很高的实用性。

Description

一种英语口语的练习方法及***

技术领域

本发明涉及语言学习领域，特别涉及一种英语口语的练习方法及***。

背景技术

随着经济全球化的深入和中国综合国力的提升，中国与世界的交流正日渐频繁，对国际通用语言知识的需求也在飞速增长。同时，有赖于信息技术日新月异，计算机辅助语言学习日渐成熟，使得网络学习口语成为了可能。但是，现有的终端教学依然习惯性地沿用固有的教学模式，大多侧重单词和语法的学习，为数不多的口语练习软件，也只能提供仅限于模拟交际的朗读或者跟读功能，不能从根本上提高用户英语的使用能力。

发明内容

针对上述技术问题，本发明提供一种能够有效根据接收到的音频输出对应标准音频，同时给出相应评分，且能够有效提高英语口语能力的一种英语口语的练习方法及***。

为解决上述技术问题，本发明所采取的技术方案是：提供一种英语口语的练习方法，其特征在于，包括以下步骤：

接收口语的测试音频，将所述测试音频转译为计算机文本文件；

将所述计算机文本文件转译为标准音频；

分别提取述测试音频和所述标准音频的梅尔频率倒谱系数，根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率，根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分，并输出所述标准音频以及所述百分比评分。

本发明采用以上技术方案，达到的技术效果为：本发明提供的英语口语的练习方法能够有效的根据测试音频，输出对应的计算机文本文件，并根据计算机文本文件输出对应的标准音频，通过提取的测试音频和标准音频的梅尔频率倒谱系数，能够有效的确定测试音频和标准音频的音素后验概率，并根据音素后验概率确定测试音频相对于标准音频的评分，同时输出标准音频。上述英语口语的练习方法能够有效的根据输入的音频输出对应的标准音频，同时还能够为输入的音频给出合理的评分，能够有效的提高用户的英语口语能力，具有很高的实用性。

较优的，在上述技术方案中，所述将所述测试音频转译为计算机文本文件具体包括以下步骤：

将所述测试音频转换为语音波形信号，对所述语音波形信号进行频谱或倒谱分析，提取与所述语音波形信号对应的声学特征值，对所述声学特征值进行模型识别训练，确定对应的声学模型和语言模型；

通过所述声学模型创建所述声学特征值与句子语音建模单元间的联系，并确定给定文字发出对应语音的概率；

所述语言模型根据链式法则将完整的句子拆解为单个词，并确定当前词出现的概率；

根据所述给定文字发出对应语音的概率和所述当前词出现的概率，输出最优的文本序列。

较优的，在上述技术方案中，在所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数之前，所述将所述计算机文本文件转译为标准音频之后，还包括以下步骤：

分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充；

对补充后的标准音频和测试音频进行分帧处理。

较优的，在上述技术方案中，所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数，具体包括以下步骤：

将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图；

分别提取每帧音频的部分频率特征；

对所述部分频率特征进行离散余弦变换后，得到梅尔频率倒谱系数。

还提供了一种英语口语的练习***，包括：

音频转换模块，用于接收口语的测试音频，将所述测试音频转译为计算机文本文件；

文字转换模块，用于将所述计算机文本文件转译为标准音频；

音频比对模块，用于分别提取述测试音频和所述标准音频的梅尔频率倒谱系数，根据隐马尔可夫模型计算所述测试音频与所述标准音频的音素后验概率，根据所述音素后验概率确定所述测试音频相对与所述标准音频的百分比评分，并输出所述标准音频以及所述百分比评分。

较优的，在上述技术方案中，所述音频转换模块将所述测试音频转译为计算机文本文件执行的具体操作为：

较优的，在上述技术方案中，所述音频比对模块，还用于分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充；

对补充后的标准音频和测试音频进行分帧处理。

较优的，在上述技术方案中，所述音频比对模块，还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图；

分别提取每帧音频的部分频率特征；

本发明采用以上技术方案，达到的技术效果为：本发明提供的英语口语的练习***能够有效的根据测试音频，输出对应的计算机文本文件，并根据计算机文本文件输出对应的标准音频，通过提取的测试音频和标准音频的梅尔频率倒谱系数，能够有效的确定测试音频和标准音频的音素后验概率，并根据音素后验概率确定测试音频相对于标准音频的评分，同时输出标准音频。上述英语口语的练习***能够有效的根据输入的音频输出对应的标准音频，同时还能够为输入的音频给出合理的评分，能够有效的提高用户的英语口语能力，具有很高的实用性。

还提供了一种存储介质，其上存储有程序指令，所述程序指令在被处理器执行时，实现方法权利要求的方法。

附图说明

下面结合附图对本发明作进一步说明：

图1是本发明提供的英语口语的练习方法示意性流程图；

图2为本发明提供的音频转文本的示意性流程图；

图3是本发明提供的英语口语的练习***的示意性框图。

具体实施方式

为了能够有效的提高用户英语的口语能力，本发明提供了一种英语口语的练习方法，详见图。图1为本发明提供的英语口语的练习方法的示意性流程图。具体包括以下步骤：

步骤S10：接收口语的测试音频，将测试音频转译为计算机文本文件；

步骤S20：将计算机文本文件转译为标准音频；

步骤S30：分别提取述测试音频和标准音频的梅尔频率倒谱系数，根据隐马尔可夫模型计算测试音频与标准音频的音素后验概率，根据音素后验概率确定测试音频相对与标准音频的百分比评分，并输出标准音频以及百分比评分。

上述方法能够根据测试音频，输出对应的计算机文本文件，并根据计算机文本文件输出对应的标准音频，通过提取的测试音频和标准音频的梅尔频率倒谱系数，能够有效的确定测试音频和标准音频的音素后验概率，并根据音素后验概率确定测试音频相对于标准音频的评分，同时输出标准音频。使得用户能够根据具体的评分，针对自己的口语能力进行改进，有效的提高用户的英语口语能力，具有很高的实用性。

在图1对应实施例的基础上，还进行了改进。详见图2，图2为本发明提供的音频转文本的示意性流程图。具体包括以下步骤：

步骤S11：将测试音频转换为语音波形信号，对语音波形信号进行频谱或倒谱分析，提取与语音波形信号对应的声学特征值，对声学特征值进行模型识别训练，确定对应的声学模型和语言模型；

步骤S12：通过声学模型创建声学特征值与句子语音建模单元间的联系，并确定给定文字发出对应语音的概率；

步骤S13：语言模型根据链式法则将完整的句子拆解为单个词，并确定当前词出现的概率；

步骤S14：根据给定文字发出对应语音的概率和当前词出现的概率，输出最优的文本序列。

上述技术方案能够有效的根据测试音频，输出最优的文本序列，即后续标准语音生成的依据。通过对测试音频等一系列的操作，确保了输出的文本序列的准确性和唯一性，为后续的评分以及标准音频的输出提供了数据支持。

在图2对应实施例的基础上，为了保证***具有良好的识别效果，还进行了改进。具体的在分别提取测试音频和标准音频的梅尔频率倒谱系数之前，将计算机文本文件转译为标准音频之后，还包括以下步骤：

分别对与标准音频和测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充；

对补充后的标准音频和测试音频进行分帧处理。

通过对测试音频和标准音频进行的上述处理，有效的保证了后续对标准音频和测试音频梅尔频率倒谱系数的提取，提高了音频识别的效率。

较优的，在上述技术方案中，分别提取述测试音频和标准音频的梅尔频率倒谱系数，具体包括以下步骤：

分别提取每帧音频的部分频率特征；

对部分频率特征进行离散余弦变换后，得到梅尔频率倒谱系数。

通过对标准音频和测试音频的频域图转换以及每帧音频的部分频率特征的提取，有效的确保了梅尔频率倒谱系数的提起，保证了梅尔频率倒谱系数提取的准确性和效率。

在图1对应的方法实施例的基础上，本发明还提供了一种英语口语的练习***，详见图3，图3为本发明提供的英语口语的练习***的示意性框图。一种英语口语的练习***包括：

音频转换模块，用于接收口语的测试音频，将测试音频转译为计算机文本文件；

文字转换模块，用于将计算机文本文件转译为标准音频；

音频比对模块，用于分别提取述测试音频和标准音频的梅尔频率倒谱系数，根据隐马尔可夫模型计算测试音频与标准音频的音素后验概率，根据音素后验概率确定测试音频相对与标准音频的百分比评分，并输出标准音频以及百分比评分。

在对标准音频进行评分时，必须是建立在用户能够使用的具体的发音点基础之上，同时，软件回馈的结果必须和母语为英语者的听觉判断结果相类似。

音频比对模块以语音识别模块(ASR)为基础，ASR***将之前语音识别阶段输出的文本转化成音频，作为标准模型与练习者的测试音做对比，从而对练习者的测试音给出评分。

预处理：首先，分别对测试发音和标准参考发音进行预处理。预处理包括对发音的1)预加重：补充语音功率谱的固有衰落和受发音***所压抑的高频部分，从而减少了噪音对之后端点检测和特征参数提取模块的影响。2)分帧加窗：把长的不平稳的语音切分成20-50毫秒的短小的“帧”，以满足傅里叶变换的条件。3)端点检测：将一段预处理后的语音尽量划分成独立的单词。预处理的目的是保证***具有良好的识别效果。

提取MFCC的过程：首先对待测语音进行预处理。对其中每帧通过快速傅里叶变换(FFr)将语音从时域波形图转换到频域图.根据人耳的听觉特性.通过梅尔滤波器组取得该帧语音的部分频率特征，再通过离散余弦变换(DCT)以后就可以得到MFCC。

HMM模型：隐马尔可夫模型(Hidden Markov Models,HMM),作为语音信号的一种统计模型,是目前语音处理各个领域的主要技术模型。HMM包括五个基本元素和三大基本算法,其中解码算法viterbi也是英语口语学习中发音评分算法的基础。对于给定观测值序列及模型λ＝(A,B,π)，Viterbi算法不仅可以找到一条足够好的状态序列Q＝q₁q₂...q_t以解释该观测值序列，还可以得出该路径所对应的输出概率。

经过上述处理后，可以得到测试发音对比标准参考模型的音素后验概率。如果此时进行的是评分参数的生成过程，则需要专家针对此发音进行经验打分，得到音素后验概率和专家经验评分之间的若干对应关系，根据对应关系，可以训练得到评分的自适应参数x与y，进而确定评分函数用于发音评分。如果此时进行的是发音评分的操作，那么***会将测试发音的音素后验概率代入评分函数，最终得到发音评分。

评分算法：

评分过程可看成是一种基于HMM模型的模式识别过程，通过特征提取后，设置已知待评分语音的输出观察序列为O(O₁,O₂,...,O_t)，用表示标准参考HMM模型,其中π表示原始状态分布，A是S_t-1到S_t的状态变换概率矩阵，B是HMM在i个环境中状态序列所对应的观测序列的输出概率矩阵,该模型中存在较多隐性状态序列S＝(s₁,s₂,...,s_t)，则语音评估是运算在标准参考HMM模型π已知时，获取输入语音观测序列O的概率的过程。采用Viterbi算法对特征序列内的音素实施切分对齐，获取最可能同观察序列O对应的隐性状态序列S.对HMM模型进行多次训练，更新该模型内的参数，输出与观察序列相匹配的HMM模型的最佳概率该最优概率则为后验概率评分。

对于每一帧O_t计算得到音素q_i的后验概率P(q_i|O_t)：

其中P(O_t|q_i)为给定音素q_i下观察矢量O_t的概率分布，P(q_i)为音素q_i的先验概率，分母是对所有文本独立的音素得到观察量O_t的概率求和。音素q_i在i段每一顿下的后验概率取对数，然后累加，就可以得到音素q_i在i段语音下的后验概率得分。

而整个句子的后验概率得分为：

其中N为句子中音素的个数。

考虑到语速也是评判口语熟练程度的一个指标，所以应当把发音速率列入评判标准，最后可定义音素时长的得分为：

其中d_i是相应于音素q_i的第i段时长，f(d_i)是归一化函数，这是考虑到文本和说话人的独立性，采用语音速率(ROS)的度量归一化语音时长，语音速率是一句话中或一说话人所有的发音中，每单元时长的音素数量。通常取f(d_i)＝ROS·d_i。

较优的，在上述技术方案中，音频转换模块将测试音频转译为计算机文本文件执行的具体操作为：

将测试音频转换为语音波形信号，对语音波形信号进行频谱或倒谱分析，提取与语音波形信号对应的声学特征值，对声学特征值进行模型识别训练，确定对应的声学模型和语言模型；

通过声学模型创建声学特征值与句子语音建模单元间的联系，并确定给定文字发出对应语音的概率；

语言模型根据链式法则将完整的句子拆解为单个词，并确定当前词出现的概率；

根据给定文字发出对应语音的概率和当前词出现的概率，输出最优的文本序列。

具体的音频转换模块主要由前端处理、声学模型、语言模型、解码器(decoder)四大模块组成。

前端处理模块主要是将接收到的语音波形信号经过预处理,对语音信号进行频谱或者倒谱分析，提取相应的声学特征值以进行模型的识别训练，特征提取的好坏将直接影响到识别的精度。

声学模型的任务是计算p(X|W)，即给定文本序列后,发出这段语音的概率。声学模型是自动语音识别***的主要部分.它占据着大部分的计算开销和决定着***的性能。声学模型用来把语音信号的观测特征与句子的语音建模单元联系起来。传统的语音识别***普遍采用基于GMM-HMM(高斯混合隐马尔柯夫模型)的声学模型。2011年微软研究院俞栋,邓力等提出来的基于上下文相关(Context Dependent,CD)的深度神经网络和隐马尔可夫模型(CD-DNN-HMM)的声学模型，使得语音识别的正确率有了质的提高。

语言模型(Language Model,LM)是用来预测字符(词)序列产生的概率p(W)。语言模型一般利用链式法则，把一个句子的概率拆解成其中每个词的概率之积。设W是由w₁,w₂,...,w_n组成的，则P(W)可以拆成：

P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)...P(w_n|w₁,w₂,...,w_n-1)

每一项都是在已知之前所有词的条件下，当前词的概率。为提高效率，最常见的做法是认为每个词的概率分布只依赖于历史中最后的若干个词。这样的语言模型称为n-gram模型，在n-gram模型中，每个词的概率分布只依赖于前面n-1个词。例如在2-gram模型中，是拆成下面这种形式的：

P(W)＝P(w₁)P(w₂|w₁)P(w₃|w₂)...P(wn|w_n-1)

通常语言模型和声学模型的训练是相对独立的。当训练好各个模型以后,我们需要通过一个解码阶段将两者相结合。如公式：

解码的最终目的是结合语言模型和声学模型,通过搜索得到一个最佳的输出序列。目前主流的解码器中普遍使用的是维特比算法(Viterbi Algorithm)。

实际中，这四大模块同时进行并互相制约，随时砍掉不够优的可能，最终在可接受的时间内求出最优解

较优的，在上述技术方案中，音频比对模块，还用于分别对与标准音频和测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充；

对补充后的标准音频和测试音频进行分帧处理。

较优的，在上述技术方案中，音频比对模块，还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图；

分别提取每帧音频的部分频率特征；

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施方式旨在举例说明本发明可为本领域专业技术人员实现或使用，对上述实施方式进行修改对本领域的专业技术人员来说将是显而易见的，故本发明包括但不限于上述实施方式，任何符合本权利要求书或说明书描述，符合与本文所公开的原理和新颖性、创造性特点的方法、工艺、产品，均落入本发明的保护范围之内。

Claims

1.一种英语口语的练习方法，其特征在于，包括以下步骤：

将所述计算机文本文件转译为标准音频；

2.如权利要求1所述的英语口语的练习方法，其特征在于，所述将所述测试音频转译为计算机文本文件具体包括以下步骤：

3.如权利要求1所述的英语口语的练习方法，其特征在于，在所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数之前，所述将所述计算机文本文件转译为标准音频之后，还包括以下步骤：

对补充后的标准音频和测试音频进行分帧处理。

4.如权利要求3所述的英语口语的练习方法，其特征在于，所述分别提取述测试音频和所述标准音频的梅尔频率倒谱系数，具体包括以下步骤：

分别提取每帧音频的部分频率特征；

5.一种英语口语的练习***，其特征在于，包括：

6.如权利要求5所述的英语口语的练习***，其特征在于，所述音频转换模块将所述测试音频转译为计算机文本文件执行的具体操作为：

7.如权利要求5所述的英语口语的练习***，其特征在于，所述音频比对模块，还用于分别对与所述标准音频和所述测试音频对应的语音功率谱的固有衰落和受发音***压抑的高频部分进行补充；

对补充后的标准音频和测试音频进行分帧处理。

8.如权利要求7所述的英语口语的练习***，其特征在于，所述音频比对模块，还用于将补充后的标准音频和测试音频的每帧音频的时域波形图转换为频域图；

分别提取每帧音频的部分频率特征；

9.一种存储介质，其上存储有程序指令，其特征在于，所述程序指令在被处理器执行时，实现权利要求1至4任一项所述的方法。