CN104992705B - 一种英语口语自动打分方法及*** - Google Patents

一种英语口语自动打分方法及*** Download PDF

Info

Publication number
CN104992705B
CN104992705B CN201510259574.5A CN201510259574A CN104992705B CN 104992705 B CN104992705 B CN 104992705B CN 201510259574 A CN201510259574 A CN 201510259574A CN 104992705 B CN104992705 B CN 104992705B
Authority
CN
China
Prior art keywords
frame
phonetic feature
posterior probability
measured
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510259574.5A
Other languages
English (en)
Other versions
CN104992705A (zh
Inventor
王东
李全忠
胡博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pachira Technology Beijing Co ltd
Tsinghua University
Original Assignee
Pachira Technology Beijing Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pachira Technology Beijing Co ltd, Tsinghua University filed Critical Pachira Technology Beijing Co ltd
Priority to CN201510259574.5A priority Critical patent/CN104992705B/zh
Publication of CN104992705A publication Critical patent/CN104992705A/zh
Application granted granted Critical
Publication of CN104992705B publication Critical patent/CN104992705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种英语口语自动打分方法及***,该方法包括:提取待测语音信号的多帧语音特征;将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;利用多层前向神经网络模型MLP对所述全局特征进行打分。本发明相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性,而且对发音质量亦具有更强的区分性,得到的分数分布更加合理。

Description

一种英语口语自动打分方法及***
技术领域
本发明涉及信号处理技术领域,尤其涉及一种英语口语自动打分方法及***。
背景技术
随着计算机技术的发展,越来越多的学习软件可以帮助人们更方便地学习外语。目前绝大多数计算机辅助外语学习软件主要关注文字应用能力和语言理解能力的训练,却很少关注口语发音能力训练。应用语音处理技术,可以实现英语学习中的口语发音自动打分。
当前主流的英语口语打分***分为整体打分***和对比打分***两种。整体打分***不提供标准发音,直接测试发音人的发音标准程度,因而需要依赖一个背景标准发音模型;对比打分***提供标准发音,发音人跟读标准发音,***评价发音人发音与标准发音的相似程度,从而实现英语口语的打分。但是,现有的英语口语打分***并没有对评价分数进行合理分布,信道鲁棒性差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决或者减缓上述问题的英语口语自动打分方法及***。
根据本发明的一个方面,提供了一种英语口语自动打分方法,该方法包括:
提取待测语音信号的多帧语音特征;
将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
利用多层前向神经网络模型MLP对所述全局特征进行打分。
可选的,所述对所述各帧语音特征的帧后验概率进行分布统计,提取待测语音信号的全局特征,包括:
将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
可选的,所述对各帧语音特征在其对应的音素上的后验概率进行分布统计,提取待测语音信号的全局特征,包括:
统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例,得到一个N维的全局特征向量[s(1),s(2),…s(N)],记为:
其中,T为待测语音信号的总帧数,δ为狄拉克函数,N为预设取值区间的个数,当参数中所设条件满足时,s(i)取1,否则取0;
{c(i);i=0,…N}是一个对概率取值区间[0,1]的划分,考虑到DNN模型输出概率的非均匀性,取对数划分,即:
c(0)=0
c(i)=10i-N i=1,2,3...,N。
可选的,所述方法还包括:
根据预设数据进行DNN模型训练。
根据本发明的另一个方面,提供了一种英语口语自动打分***,该***包括:
语音特征提取模块,用于提取待测语音信号的多帧语音特征;
帧后验概率提取模块,用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
分布统计模块,用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
打分模块,用于利用多层前向神经网络模型MLP对所述全局特征进行打分。
可选的,所述分布统计模块包括:
音素对齐单元,用于将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
分布统计单元,用于根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
可选的,所述分布统计单元用于统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例,得到一个N维的全局特征向量[s(1),s(2),…s(N)],记为:
其中,T为待测语音信号的总帧数,δ为狄拉克函数,N为预设取值区间的个数,当参数中所设条件满足时,s(i)取1,否则取0;
{c(i);i=0,…N}是一个对概率取值区间[0,1]的划分,考虑到DNN模型输出概率的非均匀性,取对数划分,即:
c(0)=0
c(i)=10i-N i=1,2,3...,N。
可选的,所述***还包括:
DNN模型训练模块,用于根据预设数据进行DNN模型训练。
本发明的有益效果为:
本发明提供的英语口语自动打分方法及***,基于深度神经网络DNN模型后验概率特征进行整体打分,利用DNN的区分性建模特性,得到对噪声更加鲁棒的帧后验概率(局部描述特征),进而得到有效的句子全局特征,最后利用多层感知器MLP网络进行打分,相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性;而且MLP基于人工标注的质量评价进行学习优化参数,对发音质量亦具有更强的区分性,进而得到的分数分布更加合理。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提出的一种英语口语自动打分方法的流程图;
图2为本发明实施例提出的深度神经网络DNN模型的示意图;
图3为本发明实施例提出的了利用多层感知器MLP网络进行打分的示意图;
图4为本发明实施例提出的一种英语口语自动打分***的结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。
为解决上述技术问题,本发明实施例提出一种英语口语自动打分方法及***,传统整体打分方法一般基于高斯混模型(GMM)或隐马尔可夫-高斯混合模型(HMM-GMM)。而本发明实施例提出的英语口语自动打分方法及***,基于深度神经网络(DNN)后验概率特征的整体打分,利用DNN的区分性建模特性,得到一种对噪声更加鲁棒的局部描述特征(帧后验概率),进而得到有效的句子全局特征,最后利用多层感知器(MLP)网络进行打分。
DNN模型是一种非统计模型,不能直接对句子进行建模,只能对语音帧建模,得到局部特征,即帧后验概率。得到局部特征后,进而提取全局特征,从局部特征中分布统计得到句子层的全局特征。最后,根据全局特征用来进行句子级的口语打分。
图1示出了本发明实施例的一种英语口语自动打分方法的流程图。
参照图1,本发明实施例提出的英语口语自动打分方法包括:
S11、提取待测语音信号的多帧语音特征;
S12、将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
本步骤中,DNN模型经过充分训练以后,给定一个语音特征向量帧O(t)作为输入,其输出即为该语音帧对不同发音(包括噪音)的后验概率向量,记为u(t)。在打分过程中,对各帧后验概率进行分布统计,提取全局特征,送入多层前向神经网络模型(MLP)进行区分性打分。
S13、对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
S14、利用多层前向神经网络模型MLP对所述全局特征进行打分。
本发明实施例提出的英语口语自动打分方法,基于深度神经网络(DNN)后验概率特征的整体打分。其中,DNN模型是一种深度区分性神经网络模型,如图2所示,其优化目标为不同发音之间的区分性,即使得对不同发音的区分能力最大化,DNN的这一特性使其可对抗背景噪声和信道影响。
在本发明实施例中,所述步骤S13:对所述各帧语音特征的帧后验概率进行分布统计,提取待测语音信号的全局特征,进一步包括:
将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
更进一步地,所述对各帧语音特征在其对应的音素上的后验概率进行分布统计,提取待测语音信号的全局特征,包括:
统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例,得到一个N维的全局特征向量[s(1),s(2),…s(N)],记为:
其中,T为待测语音信号的总帧数,δ为狄拉克函数,N为预设取值区间的个数,当参数中所设条件满足时,s(i)取1,否则取0;
{c(i);i=0,…N}是一个对概率取值区间[0,1]的划分,考虑到DNN模型输出概率的非均匀性,取对数划分,即:
c(0)=0
c(i)=10i-N i=1,2,3...,N。
本发明实施例提出的英语口语自动打分方法还包括:
根据预设数据进行DNN模型训练。
下面通过具体实施例对本发明进行详细解释说明。
首先,提取待测语音信号O的多帧语音特征,将待测语音信号的多帧语音特征通过DNN模型提取到每帧后验概率{u(t)},即基于DNN的局部特征向量。根据{u(t)},将待测语音信号O与音素串P进行对齐,得到对齐结果L(O,P)。根据L(O,P)得到每帧语音O(t)在其对应的音素Pt上的后验概率,记为u(t,Pt)。统计{u(t,Pt)}在8个取值区间的分布比例,形成一个8维的全局特征向量[s(1),s(2),…s(8)],记为:
其中T为待测语音信号O的总语音特征帧数,δ为狄拉克函数,当参数中所设条件满足时取1,否则取0。{c(i);i=0,…8}是一个对概率取值区间[0,1]的划分。考虑到DNN模型输出概率的非均匀性,在本发明实施例中取对数划分,即:
c(0)=0
c(i)=10i-8 i=1,2,3...,8
在本发明实施例中,取值区间的个数优选为N=8,该取值仅用于对本发明进行解释说明,而不能解释为对本发明的限制。
将特征向量[s(1),s(2),…s(i)]送入MLP模型,利用多层感知器MLP网络进行打分,如图3所示,得到的输出即为对待测语音信号O的打分评价。
图4示出了本发明实施例的一种英语口语自动打分***的结构框图。
参照图4,本发明实施例提出的英语口语自动打分***包括语音特征提取模块100、帧后验概率提取模块200、分布统计模块300以及打分模块400,其中:
所述的语音特征提取模块100,用于提取待测语音信号的多帧语音特征;
所述的帧后验概率提取模块200,用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
所述的分布统计模块300,用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
所述的打分模块400,用于利用多层前向神经网络模型MLP对所述全局特征进行打分。
本发明实施例中,所述分布统计模块300包括音素对齐单元和分布统计单元,其中:
所述的音素对齐单元,用于将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
所述的分布统计单元,用于根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
进一步地,所述分布统计单元用于统计各帧语音特征在其对应的音素上的后验概率在N个取值区间的分布比例,得到一个N维的全局特征向量[s(1),s(2),…s(N)],记为:
其中,T为待测语音信号的总帧数,δ为狄拉克函数,N为预设取值区间的个数,当参数中所设条件满足时,s(i)取1,否则取0;
{c(i);i=0,…N}是一个对概率取值区间[0,1]的划分,考虑到DNN模型输出概率的非均匀性,取对数划分,即:
c(0)=0
c(i)=10i-N i=1,2,3...,N。
进一步地,本发明实施例提出的英语口语自动打分***还包括:
DNN模型训练模块,用于根据预设数据进行DNN模型训练。
综上所述,本发明提供的英语口语自动打分方法及***,基于深度神经网络DNN模型后验概率特征进行整体打分,利用DNN的区分性建模特性,得到对噪声更加鲁棒的帧后验概率,进而得到有效的句子全局特征,最后利用多层感知器MLP网络进行打分,相较传统基于GMM的打分方法具有更强的噪音和信道鲁棒性;而且MLP基于人工标注的质量评价进行学习优化参数,对发音质量亦具有更强的区分性,进而得到的分数分布更加合理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的***中的模块可以按照实施例描述进行分布于实施例的***中,也可以进行相应变化位于不同于本实施例的一个或多个***中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种英语口语自动打分方法,其特征在于,所述方法包括:
提取待测语音信号的多帧语音特征;
将所述多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
利用多层前向神经网络模型MLP对所述全局特征进行打分。
2.根据权利要求1所述的方法,其特征在于,所述对所述各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征,包括:
将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据预设数据进行DNN模型训练。
4.一种英语口语自动打分***,其特征在于,所述***包括:
语音特征提取模块,用于提取待测语音信号的多帧语音特征;
帧后验概率提取模块,用于将所述语音特征提取模块提取的多帧语音特征输入深度神经网络DNN模型,提取各帧语音特征的帧后验概率,所述DNN模型为预先训练的,DNN模型的输入量为帧语音特征,输出量为帧语音特征对不同发音的帧后验概率;
分布统计模块,用于对所述帧后验概率提取模块提取的各帧语音特征的帧后验概率进行分布统计,得到待测语音信号的全局特征;
打分模块,用于利用多层前向神经网络模型MLP对所述全局特征进行打分。
5.根据权利要求4所述的***,其特征在于,所述分布统计模块包括:
音素对齐单元,用于将所述多帧语音特征与预设音素串进行对齐,得到每帧语音特征在其对应的音素上的后验概率;
分布统计单元,用于根据所述每帧语音特征在其对应的音素上的后验概率,对各帧语音特征在其对应的音素上的后验概率进行分布统计,得到待测语音信号的全局特征。
6.根据权利要求4所述的***,其特征在于,所述***还包括:
DNN模型训练模块,用于根据预设数据进行DNN模型训练。
CN201510259574.5A 2015-05-20 2015-05-20 一种英语口语自动打分方法及*** Active CN104992705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510259574.5A CN104992705B (zh) 2015-05-20 2015-05-20 一种英语口语自动打分方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510259574.5A CN104992705B (zh) 2015-05-20 2015-05-20 一种英语口语自动打分方法及***

Publications (2)

Publication Number Publication Date
CN104992705A CN104992705A (zh) 2015-10-21
CN104992705B true CN104992705B (zh) 2018-08-24

Family

ID=54304508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510259574.5A Active CN104992705B (zh) 2015-05-20 2015-05-20 一种英语口语自动打分方法及***

Country Status (1)

Country Link
CN (1) CN104992705B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653055A (zh) * 2016-10-20 2017-05-10 北京创新伙伴教育科技有限公司 在线英语口语评估***
CN106782603B (zh) * 2016-12-22 2020-08-11 云知声(上海)智能科技有限公司 智能语音评测方法及***
CN108364634A (zh) * 2018-03-05 2018-08-03 苏州声通信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN108922515A (zh) * 2018-05-31 2018-11-30 平安科技(深圳)有限公司 语音模型训练方法、语音识别方法、装置、设备及介质
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN109308913A (zh) * 2018-08-02 2019-02-05 平安科技(深圳)有限公司 音乐质量评价方法、装置、计算机设备及存储介质
CN110085226B (zh) * 2019-04-25 2021-05-11 广州智伴人工智能科技有限公司 一种基于机器人的语音交互方法
CN112700795A (zh) * 2020-12-15 2021-04-23 深圳市声希科技有限公司 口语发音质量评价方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN104992705A (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
CN104992705B (zh) 一种英语口语自动打分方法及***
CN105427858B (zh) 实现语音自动分类的方法及***
CN110263322B (zh) 用于语音识别的音频语料筛选方法、装置及计算机设备
CN105632501B (zh) 一种基于深度学习技术的自动口音分类方法及装置
CN102779508B (zh) 语音库生成设备及其方法、语音合成***及其方法
US9865251B2 (en) Text-to-speech method and multi-lingual speech synthesizer using the method
CN107039034B (zh) 一种韵律预测方法及***
CN105261246B (zh) 一种基于大数据挖掘技术的英语口语纠错***
EP3346463A1 (en) Identity verification method and apparatus based on voiceprint
CN109065032A (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN107305541A (zh) 语音识别文本分段方法及装置
CN109545189A (zh) 一种基于机器学习的口语发音检错与纠正***
CN106782603B (zh) 智能语音评测方法及***
US9489864B2 (en) Systems and methods for an automated pronunciation assessment system for similar vowel pairs
CN101751919A (zh) 一种汉语口语重音自动检测方法
CN108877769B (zh) 识别方言种类的方法和装置
CN104575519B (zh) 特征提取方法、装置及重音检测的方法、装置
CN107886968A (zh) 语音评测方法及***
CN110415725B (zh) 使用第一语言数据评估第二语言发音质量的方法及***
CN109979257A (zh) 一种基于英语朗读自动打分进行分拆运算精准矫正的方法
CN106297769B (zh) 一种应用于语种识别的鉴别性特征提取方法
CN114927126A (zh) 基于语义分析的方案输出方法、装置、设备以及存储介质
CN108665901B (zh) 一种音素/音节提取方法及装置
JP2013088552A (ja) 発音トレーニング装置
CN107610720A (zh) 发音偏误检测方法、装置、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant