CN104992705B

CN104992705B - 一种英语口语自动打分方法及***

Info

Publication number: CN104992705B
Application number: CN201510259574.5A
Authority: CN
Inventors: 王东; 李全忠; 胡博
Original assignee: Pachira Technology Beijing Co ltd; Tsinghua University
Current assignee: Pachira Technology Beijing Co ltd; Tsinghua University
Priority date: 2015-05-20
Filing date: 2015-05-20
Publication date: 2018-08-24
Anticipated expiration: 2035-05-20
Also published as: CN104992705A

Abstract

本发明提供了一种英语口语自动打分方法及***，该方法包括：提取待测语音信号的多帧语音特征；将所述多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；利用多层前向神经网络模型MLP对所述全局特征进行打分。本发明相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性，而且对发音质量亦具有更强的区分性，得到的分数分布更加合理。

Description

一种英语口语自动打分方法及***

技术领域

本发明涉及信号处理技术领域，尤其涉及一种英语口语自动打分方法及***。

背景技术

随着计算机技术的发展，越来越多的学习软件可以帮助人们更方便地学习外语。目前绝大多数计算机辅助外语学习软件主要关注文字应用能力和语言理解能力的训练，却很少关注口语发音能力训练。应用语音处理技术，可以实现英语学习中的口语发音自动打分。

当前主流的英语口语打分***分为整体打分***和对比打分***两种。整体打分***不提供标准发音，直接测试发音人的发音标准程度，因而需要依赖一个背景标准发音模型；对比打分***提供标准发音，发音人跟读标准发音，***评价发音人发音与标准发音的相似程度，从而实现英语口语的打分。但是，现有的英语口语打分***并没有对评价分数进行合理分布，信道鲁棒性差。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的英语口语自动打分方法及***。

根据本发明的一个方面，提供了一种英语口语自动打分方法，该方法包括：

提取待测语音信号的多帧语音特征；

将所述多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；

对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；

利用多层前向神经网络模型MLP对所述全局特征进行打分。

可选的，所述对所述各帧语音特征的帧后验概率进行分布统计，提取待测语音信号的全局特征，包括：

将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；

根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。

可选的，所述对各帧语音特征在其对应的音素上的后验概率进行分布统计，提取待测语音信号的全局特征，包括：

统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例，得到一个N维的全局特征向量[s(1),s(2),…s(N)]，记为：

其中，T为待测语音信号的总帧数，δ为狄拉克函数，N为预设取值区间的个数，当参数中所设条件满足时，s(i)取1，否则取0；

{c(i)；i＝0,…N}是一个对概率取值区间[0,1]的划分，考虑到DNN模型输出概率的非均匀性，取对数划分，即:

c(0)＝0

c(i)＝10^i-N i＝1,2,3...,N。

可选的，所述方法还包括：

根据预设数据进行DNN模型训练。

根据本发明的另一个方面，提供了一种英语口语自动打分***，该***包括：

语音特征提取模块，用于提取待测语音信号的多帧语音特征；

帧后验概率提取模块，用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；

分布统计模块，用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；

打分模块，用于利用多层前向神经网络模型MLP对所述全局特征进行打分。

可选的，所述分布统计模块包括：

音素对齐单元，用于将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；

分布统计单元，用于根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。

可选的，所述分布统计单元用于统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例，得到一个N维的全局特征向量[s(1),s(2),…s(N)]，记为：

c(0)＝0

c(i)＝10^i-N i＝1,2,3...,N。

可选的，所述***还包括：

DNN模型训练模块，用于根据预设数据进行DNN模型训练。

本发明的有益效果为：

本发明提供的英语口语自动打分方法及***，基于深度神经网络DNN模型后验概率特征进行整体打分，利用DNN的区分性建模特性，得到对噪声更加鲁棒的帧后验概率(局部描述特征)，进而得到有效的句子全局特征，最后利用多层感知器MLP网络进行打分，相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性；而且MLP基于人工标注的质量评价进行学习优化参数，对发音质量亦具有更强的区分性，进而得到的分数分布更加合理。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提出的一种英语口语自动打分方法的流程图；

图2为本发明实施例提出的深度神经网络DNN模型的示意图；

图3为本发明实施例提出的了利用多层感知器MLP网络进行打分的示意图；

图4为本发明实施例提出的一种英语口语自动打分***的结构框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非被特定定义，否则不会用理想化或过于正式的含义来解释。

为解决上述技术问题，本发明实施例提出一种英语口语自动打分方法及***，传统整体打分方法一般基于高斯混模型(GMM)或隐马尔可夫-高斯混合模型(HMM-GMM)。而本发明实施例提出的英语口语自动打分方法及***，基于深度神经网络(DNN)后验概率特征的整体打分，利用DNN的区分性建模特性，得到一种对噪声更加鲁棒的局部描述特征(帧后验概率)，进而得到有效的句子全局特征，最后利用多层感知器(MLP)网络进行打分。

DNN模型是一种非统计模型，不能直接对句子进行建模，只能对语音帧建模，得到局部特征，即帧后验概率。得到局部特征后，进而提取全局特征，从局部特征中分布统计得到句子层的全局特征。最后，根据全局特征用来进行句子级的口语打分。

图1示出了本发明实施例的一种英语口语自动打分方法的流程图。

参照图1，本发明实施例提出的英语口语自动打分方法包括：

S11、提取待测语音信号的多帧语音特征；

S12、将所述多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；

本步骤中，DNN模型经过充分训练以后，给定一个语音特征向量帧O(t)作为输入，其输出即为该语音帧对不同发音(包括噪音)的后验概率向量，记为u(t)。在打分过程中，对各帧后验概率进行分布统计，提取全局特征，送入多层前向神经网络模型(MLP)进行区分性打分。

S13、对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；

S14、利用多层前向神经网络模型MLP对所述全局特征进行打分。

本发明实施例提出的英语口语自动打分方法，基于深度神经网络(DNN)后验概率特征的整体打分。其中，DNN模型是一种深度区分性神经网络模型，如图2所示，其优化目标为不同发音之间的区分性，即使得对不同发音的区分能力最大化，DNN的这一特性使其可对抗背景噪声和信道影响。

在本发明实施例中，所述步骤S13：对所述各帧语音特征的帧后验概率进行分布统计，提取待测语音信号的全局特征，进一步包括：

更进一步地，所述对各帧语音特征在其对应的音素上的后验概率进行分布统计，提取待测语音信号的全局特征，包括：

c(0)＝0

c(i)＝10^i-N i＝1,2,3...,N。

本发明实施例提出的英语口语自动打分方法还包括：

根据预设数据进行DNN模型训练。

下面通过具体实施例对本发明进行详细解释说明。

首先，提取待测语音信号O的多帧语音特征，将待测语音信号的多帧语音特征通过DNN模型提取到每帧后验概率{u(t)}，即基于DNN的局部特征向量。根据{u(t)}，将待测语音信号O与音素串P进行对齐，得到对齐结果L(O，P)。根据L(O，P)得到每帧语音O(t)在其对应的音素P_t上的后验概率，记为u(t，P_t)。统计{u(t，P_t)}在8个取值区间的分布比例，形成一个8维的全局特征向量[s(1),s(2),…s(8)]，记为：

其中T为待测语音信号O的总语音特征帧数，δ为狄拉克函数，当参数中所设条件满足时取1，否则取0。{c(i)；i＝0,…8}是一个对概率取值区间[0,1]的划分。考虑到DNN模型输出概率的非均匀性，在本发明实施例中取对数划分，即:

c(0)＝0

c(i)＝10^i-8 i＝1,2,3...,8

在本发明实施例中，取值区间的个数优选为N＝8，该取值仅用于对本发明进行解释说明，而不能解释为对本发明的限制。

将特征向量[s(1),s(2),…s(i)]送入MLP模型，利用多层感知器MLP网络进行打分，如图3所示，得到的输出即为对待测语音信号O的打分评价。

图4示出了本发明实施例的一种英语口语自动打分***的结构框图。

参照图4，本发明实施例提出的英语口语自动打分***包括语音特征提取模块100、帧后验概率提取模块200、分布统计模块300以及打分模块400，其中：

所述的语音特征提取模块100，用于提取待测语音信号的多帧语音特征；

所述的帧后验概率提取模块200，用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型，提取各帧语音特征的帧后验概率，所述DNN模型为预先训练的，DNN模型的输入量为帧语音特征，输出量为帧语音特征对不同发音的帧后验概率；

所述的分布统计模块300，用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征；

所述的打分模块400，用于利用多层前向神经网络模型MLP对所述全局特征进行打分。

本发明实施例中，所述分布统计模块300包括音素对齐单元和分布统计单元，其中：

所述的音素对齐单元，用于将所述多帧语音特征与预设音素串进行对齐，得到每帧语音特征在其对应的音素上的后验概率；

所述的分布统计单元，用于根据所述每帧语音特征在其对应的音素上的后验概率，对各帧语音特征在其对应的音素上的后验概率进行分布统计，得到待测语音信号的全局特征。

进一步地，所述分布统计单元用于统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例，得到一个N维的全局特征向量[s(1),s(2),…s(N)]，记为：

c(0)＝0

c(i)＝10^i-N i＝1,2,3...,N。

进一步地，本发明实施例提出的英语口语自动打分***还包括：

DNN模型训练模块，用于根据预设数据进行DNN模型训练。

综上所述，本发明提供的英语口语自动打分方法及***，基于深度神经网络DNN模型后验概率特征进行整体打分，利用DNN的区分性建模特性，得到对噪声更加鲁棒的帧后验概率，进而得到有效的句子全局特征，最后利用多层感知器MLP网络进行打分，相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性；而且MLP基于人工标注的质量评价进行学习优化参数，对发音质量亦具有更强的区分性，进而得到的分数分布更加合理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的***中的模块可以按照实施例描述进行分布于实施例的***中，也可以进行相应变化位于不同于本实施例的一个或多个***中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

以上所述仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种英语口语自动打分方法，其特征在于，所述方法包括：

提取待测语音信号的多帧语音特征；

利用多层前向神经网络模型MLP对所述全局特征进行打分。

2.根据权利要求1所述的方法，其特征在于，所述对所述各帧语音特征的帧后验概率进行分布统计，得到待测语音信号的全局特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据预设数据进行DNN模型训练。

4.一种英语口语自动打分***，其特征在于，所述***包括：

5.根据权利要求4所述的***，其特征在于，所述分布统计模块包括：

6.根据权利要求4所述的***，其特征在于，所述***还包括：

DNN模型训练模块，用于根据预设数据进行DNN模型训练。