CN101246685B - 计算机辅助语言学习***中的发音质量评价方法 - Google Patents

计算机辅助语言学习***中的发音质量评价方法 Download PDF

Info

Publication number
CN101246685B
CN101246685B CN200810102076XA CN200810102076A CN101246685B CN 101246685 B CN101246685 B CN 101246685B CN 200810102076X A CN200810102076X A CN 200810102076XA CN 200810102076 A CN200810102076 A CN 200810102076A CN 101246685 B CN101246685 B CN 101246685B
Authority
CN
China
Prior art keywords
mark
phoneme
tested speech
voice
reference voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810102076XA
Other languages
English (en)
Other versions
CN101246685A (zh
Inventor
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co Ltd
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN200810102076XA priority Critical patent/CN101246685B/zh
Publication of CN101246685A publication Critical patent/CN101246685A/zh
Application granted granted Critical
Publication of CN101246685B publication Critical patent/CN101246685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明属于语音技术领域,计算机辅助语言学习***中的发音质量评价方法,包括:匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算,并将上述分数映射后进行融合;本发明的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于交互式语言学习和自动口语测试。

Description

计算机辅助语言学习***中的发音质量评价方法 
技术领域
本发明属于语音技术领域,具体地说,涉及利用语音信号处理技术实现计算机辅助语言学习***中语音发音质量评价的方法。 
背景技术
在学习者进行语言学习时,对其发音质量进行可靠的评价是计算机辅助语言学习***的核心功能。然而由于现有技术的局限,目前的发音质量评价方法的性能还不够理想,距离实用化还有一定的差距。 
当前,利用计算机对发音质量进行评价的方法主要是基于HMM模型。中国发明专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法采用HMM训练标准发音模型,并搜索最优路径,以此计算用来评价发音质量的置信分数。这种方法过多依赖于HMM的训练,并且在影响发音质量的多个因素中,仅基于与声学模型有关的因素来评价发音质量,因此与专家评分的相关性还不够高,对单词和短句发音机器评分和专家评分的相关性仅为0.74。 
在通信***中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射到感知域,精确估计出测试语音相对于参考语音的延时,最后在感知域计算测试语音相对于参考语音的感知差异,并以此来评价测试语音的语音质量。 
然而,通信***中的语音质量评价方法和计算机辅助语言学习***中的发音质量评价有所不同。首先,在语音通信***中,影响语音质量的因素一般是电话信道、编解码器引起的各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同一句语音,因此如果不考虑延时,测试语音中的各个音素一般不会有段长的变化。一个人语音发音是否正确对通信***的语音质量评价过程不会产生影响。而在计算机辅助语言学习***中,影响发音质量的因素比较复杂。学习者的测试语音的失真是由于发音不准确造成的,和噪声没有多大关系。并且如果将教师的发音作为参考语音,学习者的语音作为测试语音, 来考察测试语音相对于参考语音的发音质量。那么参考语音和测试语音来自不同的说话人,导致测试语音和参考语音的长度不同,并且这一语音长度的差异不是延时造成的,因此无法直接对准。其次,不同说话人的声道长度不同,导致测试语音和参考语音中同一音素的共振峰不完全一样。另外,两个说话人语音中的韵律变化也有所不同,其直接表现就是测试语音和参考语音的重音变化。两个人的基音也不相同,对应基音变化过程也有比较大的差异。 
计算机辅助语言学习***应尽可能模仿专家对发音质量评价的过程。通常,专家对发音质量进行评价的过程可以划分为三个步骤。首先,通过耳机或者音箱聆听测试语音。然后,大脑对感知到的语音进行处理,并根据自己的语音学和语言学知识,将参考语音和测试语音进行对比,发现测试语音在各个层次(例如声学层和韵律层)上的发音错误和失真。最后,综合上述各种失真,给出测试语音的总体评价。可见,对发音质量的感知与发音质量评价的结果密切相关。而现有技术未能在韵律层次上对发音质量进行评价,并且缺乏对发音质量的感知失真方面的研究。 
本发明针对现有技术中存在的问题,提出一种计算机辅助语言学习***中的发音质量评价方法。该方法以教师的发音作为参考语音,分别在声学、感知和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别,得到匹配分数、感知分数、段长分数和基音分数,并对所述四种分数进行融合,得到测试语音的最终分数。根据本发明针对单词和短句的发音质量评价分数与专家评分的相关系数达到0.800,性能优于基于现有技术的方法。 
发明内容
目前基于隐含马尔可夫模型的发音质量评价方法获得机器评价分数与专家评分的相关性还不够高,不能够满足目前计算机辅助语言学习***中对发音质量评价要求。本发明的目的是克服现有技术的不足,提出一种用于计算机辅助语言学习***中的发音质量评价方法。本发明中提出利用教师的参考语音和学生的测试语音分别从声学、感知和韵律方面计算匹配分数、感知分数、段长分数、基音分数,并将所述这些分数映射后进行融合来对发音质量进行评分的方法,针对单词和短句子的机器发音质量评分与专家主观质量评分的相关性能够达到0.800。 
本发明提出的计算机辅助语言学习***中的发音质量评价方法主要包括:计算匹配分数,计算基于Mel频标的感知分数,计算基音分数,计算段长分数;对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,并将映射后的各分数进行融合。该方法充分利用语音发音中多种发音信息来获得可靠融合分数,从而对学生的语音发音质量进行评价(打 分)。其特征在于,各部分具体包括以下几个步骤: 
1、所述匹配分数、所述基于Mel频标的感知分数、所述基音分数、所述段长分数的计算方法,具体步骤如下: 
(A)所述匹配分数的计算包括:(1)利用Viterbi解码算法分别对测试语音和参考语音进行强制对准,得到参考语音和测试语音的音素的时间分隔信息和似然度;(2)根据测试语音和标准语音的似然度之差的绝对值得到匹配分数。 
(B)所述感知分数的计算包括:(1)对测试语音和参考语音施加Mel滤波器;(2)基于幂定律,将参考语音和测试语音的Mel滤波器的能量输出映射为响度;(3)基于所述音素时间分隔信息,通过动态时间规整(Dynamic Time Warping,DTW)方法将参考语音和测试语音在音素层面上进行进一步的逐帧细化对准;(4)基于参考语音和测试语音各帧的响度差计算感知分数。 
(C)所述段长分数的计算包括:(1)基于所述时间分隔信息,利用段长模型计算测试语音和标准语音中的对数段长概率;(2)根据测试语音的段长概率与标准语音的段长概率绝对值之差得到段长分数。 
(D)所述基音分数的计算包括:(1)分别提取参考语音和测试语音的基音;(2)基于所述时间分隔信息,分别得到参考语音和测试语音中每个元音内基音的极大值和极小值,并计算每个元音内的极大值和极小值之差;(3)基于参考语音和测试语音中每个元音内极大值和极小值之差。 
2、所述的分数映射计算包括:基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,使映射后分数和专家评分处于相同取值区间内。 
3、所述的分数融合计算包括:线性融合、SVM、Logistic回归(LogisticRegression)、神经网络、高斯混合模型中的一个对映射后的所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行融合,通过多种信息的互补,使融合后分数更接近专家评价的分数。 
所述的Viterbi解码算法利用了从大规模语音数据库训练的基于HMM模型对测试语音和标准语音进行强制对准,得到的参考语音和测试语音的时间分隔信息可以是音素的时间分隔信息、状态的时间分隔、单词的时间分隔信息。音素的时间分隔信息只是其中的一个。HMM模型的训练方法是根据最大似然准则,对HMM模型参数(包均值与方差)进行估值。 
所述的段长模型是通过大规模语音数据库训练得到段长的直方图模型或Gamma模型。 
所述的逐帧细化对准是在基于匹配分数计算过程中得到的每个音素的时间分隔信息基础上,进一步利用动态时间规整(Dynamic Time Warping,DTW)方法将参考语音和测试语音的在音素层面上进行逐帧细化对准,使对准的语音在帧上有较好可比性。 
本发明提出计算机辅助语言学***。本发明的发音质量评价方法具有稳健性好,与专家评分相关性高的优点,可以用于语言学习机中实现交互式语言学习发音质量评价和自动口语测试***中。 
本发明具有如下优点: 
(1)本发明充分利用了教师参考语音和学生测试语音发音差别特点进行评价; 
(2)本发明提出的基于Mel频标的感知分数计算复杂度低于基于临界带的感知分数计算方法,而且性能更好; 
(3)本发明充分利用了发音中的多种评价信息,匹配信息、感知信息、段长信息、基音信息,并进行了信息融合,在不同分数将各种发音信息进行互补,提高了评价的稳健性,以及与专家评分的相关性; 
(4)本发明的基于计算机辅助语言学习***中的发音评价方法也能够应用于多种语言的学习,具有稳健性好,与专家评分相关性高的特点,并且本发明可以在目前的掌上电脑、个人数字助理(PDA)或学习机上实现,其应用范围非常广泛。 
附图说明
图1是发音质量评价方法的总体示意图; 
图2是匹配分数的计算示意图; 
图3是HMM模型拓扑结构; 
图4是感知分数的计算示意图; 
图5是段长模型的计算示意图; 
图6是基音分数的计算示意图; 
图7机器分数融合示意图。 
具体实施方式
以下结合附图对本发明提出的用于计算机辅助语言学习的发音质量评价方法的实施例进 行详细说明。图1是根据本发明的发音质量评价方法的总体流程图。(1)首先参考语音和测试语音分别经声学模型、感知模型、段长模型和基音模型计算出匹配分数、感知分数、段长分数和基音分数。(2)将这些分别描述声学、感知和韵律等方面的发音质量的分数进行分数融合。(3)用融合后的分数对测试语音的发音质量进行评价。 
参考语音是指作为发音质量评价的基准的教师的标准发音,测试语音是指作为发音质量的评价对象的学习者的语音。因此,在本发明的发音质量评价方法中,需要计算测试语音相对于参考语音的发音在质量上的差别。本发明实施例的整个计算过程细节构成如下: 
1、匹配分数计算: 
图2是匹配分数的示意图。首先分别对参考语音和测试语音进行分帧处理,得到短时平稳的分帧语音。然后对每帧语音提取MFCC特征。其中,对每帧语音所提取的MFCC特征包括39维,即:12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分。MFCC特征反映了语音的静态特征,而MFCC的一阶和二阶差分系数则反映了语音的动态特征。然后利用训练好的HMM模型,采用Viterbi解码算法分别对参考语音和测试语音进行强制对准,得到参考语音和测试语音的似然分数和每个音素的时间分隔信息。这里,HMM的训练过程对于本领域技术人员来说属于公知技术,因此这里只对其作简要的说明。HMM采用从左到右的状态转移模型,该模型能够很好地描述语音的发音特点。例如可用采用3状态隐含马尔可夫模型,其拓扑结构如图3所示。其中qi表示HMM的状态,aij表示HMM的跳转概率,bj(Ot)为HMM模型的状态输出的多流混合高斯密度概率分布函数,如公式(1)所示: 
b j ( O t ) = Π s = 1 S [ Σ m = 1 M S C jsm N ( O st ; μ jsm ; φ jsm ) ] γ s - - - ( 1 )
其中,S是数据流的个数,Ms是每一数据流中的混合高斯密度分布的个数,N为高维高斯分布,如公式(2)所示: 
N ( o ; μ ; φ ) = 1 ( 2 π ) n | φ | e - 1 2 ( o - μ ) φ - 1 ( o - μ ) - - - ( 2 )
测试语音和参考语音是由多个音素构成。分别对参考语音和测试语音进行强制对准后,第i个音素的匹配分数L(i)由下式给出: 
L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|      (3) 
其中,ptest(Otest|qi)是测试语音的似然度,pref(Oref|qi)是参考语音的似然度。其中,qi表示第i个音素HMM模型,Otest和Oref分别是测试语音和参考语音的MFCC特征矢量。 
匹配分数定义为音素平均匹配分数: 
S mat _ sen = 1 N p Σ i = 1 N p L ( i ) - - - ( 4 )
其中,Np为语音发音中音素总个数,L(i)为第i个音素的匹配分数。 
2、感知分数计算: 
图4是感知分数的计算示意图。首先分别对参考语音和测试语音分帧并加Hanning窗。然后将每一帧语音经过在Mel频标上均匀分布的三角窗滤波器,得到每个三角窗滤波器输出的能量和的对数值M(q): 
M ( q ) = ln [ Σ n = F q - 1 F q n - F q - 1 F q - F q - 1 G ( n ) + Σ n = F q F q + 1 F q + 1 - n F q + 1 - F q G ( n ) ] , - - - ( 5 )
q=1,2,3…,Q 
其中,Fq是第q个三角窗滤波器的中心频率,Fq+1和Fq-1分别为第q个三角窗滤波器的上、下截止频率,G(n)为三角窗函数,Q为三角窗滤波器的个数。通常Q=20~26。 
根据心理学中的幂定律,将每个三角窗滤波器输出的对数能量可以映射到响度域上,计算如下式所示: 
L(q)=0.048M(q)0.6        (6) 
其中,M(q)是第q个滤波器输出的对数能量,L(q)是M(q)映射到感知域的响度。 
在基于所述匹配分数计算过程中得到的每个音素的时间分隔对准信息基础上,进一步利用动态时间规整(Dynamic Time Warping,DTW)方法将参考语音和测试语音的在音素层面上进一步逐帧细化对准。这里,DTW方法对于本领域技术人员来说属于公知技术,因此略去对其的说明。 
利用DTW算法对参考语音和测试语音每帧进行对准后,就可以计算在每个三角窗输出的 响度差D(q): 
D(q)=Ltest(q)-Lref(q)    q=1,2,3,…,Q    (7) 
其中,Ltest(q)和Lref(q)分别表示测试语音和参考语音在第q个三角窗滤波器上输出的响度。 
求出每个三角窗滤波器输出的响度差后,需要进一步计算整个Mel频带上的总响度差,也就是要计算每帧语音的响度差。一帧语音的响度可以通过对整个Mel频带上所有三角窗输出的响度差进行加权求和得到。参考语音和测试语音的第j帧语音的响度差pframe(j)为: 
p frame ( j ) = Σ q = 1 Q W ( q ) Σ q = 1 Q ( D ( q ) W ( q ) ) 2 Σ q = 1 Q W ( q ) - - - ( 8 )
其中,D(q)为参考语音和测试语音在第q个临界带内的响度差,W(q)为第q个三角滤波器的带宽,j表示参考语音和测试语音的第j帧。 
音素的感知分数定义为参考语音和测试语音的帧平均响度差: 
p phone ( i ) = Σ j = 1 N [ p frame ( j ) ] 6 N 6 - - - ( 9 )
其中,N为参考语音和测试语音中较长语音对应音素的帧数,pframe(j)为第j帧的响度差。因此,整个语音发音的感知分数pp_sen为发音中所有音素响度差的平均值: 
p p _ sen = 1 N p Σ i = 1 N p p phone ( i ) - - - ( 10 )
其中,Np为整个语音发音中音素总个数。 
3、段长分数计算: 
图5是段长分数的计算示意图。基于匹配分数计算中得到的每个音素的时间分隔信息,并利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。计算段长概率分数时所采用的段长模型可以是直方图模型或者Gamma模型。对于本领域技术人员来说,这属于公知技术。因此,略去对其的详细说明。 
音素的段长分数dphone定义为测试语音和参考语音段长概率分数的对数差: 
dphone=|LogDtest-LogDref|         (11) 
其中Dtest为测试语音的相应音素的段长概率分数,Dref为参考语音相应音素的段长概率分数。 
整个语音发音的段长分数dsen定义为所有音素段长分数的平均值: 
d sen = 1 N p Σ i = 1 N p d phone ( i ) - - - ( 12 )
4、基音分数计算: 
图6是基音分数的计算示意图。首先,分别提取参考语音和测试语音的基音。现有技术中已有多种基音提取方法。综合考虑算法复杂度、鲁棒性、基音估计的准确性等因素,本文采用基于线性预测编码的LPC分析的自相关估计算法。然后结合匹配分数计算中得到的每个音素的时间分隔信息,分别计算参考语音和测试语音中每个元音内的基音极大值和极小值之差,即元音内的基音极值差定义为: 
Svow(i)=Pmax(i)-Pmin(i)          (13) 
其中Pmax(i)和Pmin(i)分别表示第i个元音内的基音的极大值和极小值。 
基音分数Rvow_max_min定义为: 
R vow _ max _ min = 1 N v Σ i = 1 N v | S vow test ( i ) - S vow ref ( i ) | 2 - - - ( 14 )
其中Nv为句子中的元音总数, 
Figure RE-GSB00000148492400083
为测试语音中第i个元音内的基音极值差, 为参考语音中第i个元音内的基音极值差。 
5、分数映射和分数融合: 
图7是分数映射和融合计算示意图。图中先对机器分数进行映射,然后采用线性加权或者SVM对映射后的机器分数进行融合,得到最终的客观分数。 
(1)机器分数的映射方法:在分别计算出匹配分数、感知分数、段长分数和基音分数之后,需要将这四个分数首先进行分数映射。不同方法得出的机器分数的取值区间通常并不相同。因此需要利用映射函数将机器分数映射到与专家评分相一致的对应区间内。可以基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射。最简单有效的映射方法可以采用三次多项式函数进行映射。映射中优化准则为最小均方误差准则,通过映射函数将机器分数映射到专家评分取值区间。
y=a1x3+a2x2+a3x+a4          (15) 
其中,x为原始机器分数,y为映射后的机器分数,a1,a2,a3和a4为多项式系数。 
(2)分数融合的方法:现有信号技术中存在多种信息融合处理方法,例如可以采用线性函数、神经网络、高斯混合模型、支持向量机、Logistic回归,以及其他适于对多种不同分数进行融合的方法。本发明主要采用线性函数和支持向量机对上述匹配分数、感知分数、段长分数和基音分数进行融合。 
如果机器分数和专家评分都可以看作联合分布的高斯随机变量,或者二者之间存在线性关系,那么融合后的分数可以表示为机器分数的线性组合: 
Figure DEST_PATH_GSB00000286185400011
其中,s1,s2,…,sn表示映射后的各个机器分数,a1,a2,…,an为组合系数。这些组合系数可以由开发集数据根据最小均方误差准则确定。 
SVM的融合方法有通用的软件工具可以使用,基于SVM的融合在性能上由于线性融合的方法。对于本领域技术人员来说SVM融合方法属于公知技术,因此略去对其的说明。 
在发音质量的评价中,通常用计算机对发音质量进行自动评价而得到的分数(通常称为机器分数)与专家对同一发音的评价分数之间的相关系数来表示发音质量评价方法的性能,如式(17)所示。通常,相关系数越高,说明机器分数越接近专家的分数,从而性能越好。 
C corr = Σ ( x i - x ‾ ) ( y i - y ‾ ) Σ ( x i - x ‾ ) 2 Σ ( y i - y ‾ ) 2 - - - ( 17 )
其中xi和yi分别是第i个单词或语句的机器评价分数和相应专家评价分数, 
Figure DEST_PATH_GSB00000286185400013
和 分别是所有测试语音的机器评价分数的均值和专家评价评分的均值。 
该评价过程需要采集有一定规模的评价语音库,首先请专家对库中语音进行主观评价,然后用机器进行评价。通过公式(7)进行计算机器评价和专家评价之间的相关度。本发明针对单词和短句的发音质量机器评价分数与专家评分的相关系数达到0.800,其性能优于基于HMM的传统评价方法。 

Claims (5)

1.一种计算机辅助语言学习***中语音发音质量评价方法,包括:匹配分数计算、基于Mel频标的感知分数计算、基音分数计算、分数映射、分数融合各部分,具体计算包括以下步骤:
步骤1首先分别对参考语音和测试语音进行分帧处理,得到短时平稳的分帧语音;
步骤2按照步骤2.1-2.4分别计算步骤1中所述的分帧的参考语音和测试语音的匹配分数;
步骤2.1分别对所述分帧的参考语音和测试语音每帧提取MFCC特征,共39维特征,其中包括:12维MFCC系数及其一阶差分和二阶差分,归一化能量及其一阶差分和二阶差分;
步骤2.2利用预先训练好的HMM模型,采用Viterbi解码算法分别对步骤2.1输入的参考语音和测试语音进行强制对准,分别得到参考语音和测试语音的似然度,以及语音中每个音素的时间分隔信息;
步骤2.3按照以下公式计算第i个音素的匹配分数L(i):
L(i)=|log(ptext(Otest|qi))-log(pref(Oref|qi))|
其中,ptest(Otest|qi)是测试语音的似然度,pref(Oref|qi)是参考语音的似然度。其中,qi表示第i个音素HMM模型,Otest和Oref分别是测试语音和参考语音的MFCC特征矢量;
步骤2.4按照以下公式计算音素平均匹配分数,并以此作为语音发音的匹配分数Smat_sen
S mat _ sen = 1 N p Σ i = 1 N p L ( i )
其中,Np为语音发音中音素总个数;
步骤3按照步骤3.1-3.7分别计算步骤1中所述的分帧的参考语音和测试语音的感知分数;
步骤3.1分别对所述的参考语音和测试语音分帧并加Hanning窗;
步骤3.2把步骤3.1中分帧的语音送入Mel频标上均匀分布的Q个三角窗滤波器进行Mel滤波处理,按照下式得到每个滤波器输出的能量和的对数值M(q):
M ( q ) = ln [ Σ n = F q - 1 F q n - F q - 1 F q - F q - 1 G ( n ) + Σ n = F q F q + 1 F q + 1 - n F q + 1 - F q G ( n ) ]
其中,Fq是第q个三角窗滤波器的中心频率,Fq+1和Fq-1分别为第q个三角窗滤波器的上、下截止频率,G(n)为三角窗函数,Q为三角窗滤波器的个数,q=1,2,3…,Q;
步骤3.3按照下式把步骤3.2得到的第q个三角窗滤波器输出的能量和对数值M(q)映射到听感知域的响度L(q):
L(q)=0.048M(q)0.6
步骤3.4基于步骤2.2得到的每个音素的时间分隔信息,利用动态时间规划算法(DTW)把参考语音和测试语音相应的音素在音素层面上逐帧对准,并计算参考语音和测试语音在第q个三角窗输出的响度差感知域上的响度差D(q):
D(q)=Ltest(q)-Lref(q)    q=1,2,3,…,Q
Ltest(q)是测试语音在第q个三角窗滤波输出的响度;Lref(q)是参考语音在第q个三角窗滤波输出的响度;
步骤3.5按照下式计算每帧语音的响度差pframe(j):
p frame ( j ) = Σ q = 1 Q W ( q ) Σ q = 1 Q ( D ( q ) W ( q ) ) 2 Σ q = 1 Q W ( q )
W(q)为第q个三角滤波器的带宽,Q为三角窗滤波器的个数,j表示参考语音和测试语音的第j帧;
步骤3.6按下式计算第i个音素的感知分数pphone(i),音素的感知分数为参考语音和测试语音的帧平均响度差:
p phone ( i ) = Σ j = 1 N [ p frame ( j ) ] 6 N 6
其中N为参考语音和测试语音中较长语音对应音素的帧数;
步骤3.7按下式计算整个语音发音的感知分数pp_sen
p p _ sen = 1 N p Σ i = 1 N p p phone ( i )
其中Np为语音发音中音素总个数;
步骤4按照步骤4.1-4.3计算整个语音发音的段长分数:
步骤4.1基于步骤2.2得到每个音素的时间分隔信息,利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数,段长模型采用直方图模型或者Gamma模型计算,由标准语音库通过预先学习得到;
步骤4.2按下式计算音素段长分数dphone
dphone=|LogDtest-LogDref|
其中Dtest为测试语音的相应音素的段长概率分数,Dref为参考语音相应音素的段长概率分数;
步骤4.3按照下式计算整个语音发音的段长分数dsen
d sen = 1 N p Σ i = 1 N p d phone ( i )
其中dphone(i)为语音发音中第i个音素的对数段长概率分数;
步骤5按照步骤5.1-5.2计算整个语音发音的基音分数:
步骤5.1结合步骤2.2中得到每个音素的时间分隔信息,采用基于线性预测编码(LPC)中的自相关估计算法,分别计算参考语音和测试语音中第i个元音内的基音极大值和极小值之差Svow(i):
Svow(i)=Pmax(i)-Pmin(i)
其中Pmax(i)和Pmin(i)分别表示第i个元音内的基音的极大值和极小值;
步骤5.2按照下式计算基音分数Rvow_max_min
R vow _ max _ min = 1 N v Σ i = 1 N v | S vow test ( i ) - S vow ref ( i ) | 2
其中Nv为句子中的元音总数,
Figure FSB00000339186900034
为测试语音中第i个元音内的基音极值差,
Figure FSB00000339186900035
为参考语音中第i个元音内的基音极值差;
步骤6按照步骤6.1-6.2计算整个语音的发音质量评价的融合分数,进行融合的分数包括匹配分数、感知分数、段长分数和基音分数:
步骤6.1通过映射函数将原始机器评价分数映射到专家评分取值区间内,按下式计算映射后机器分数:
y=a1x3+a2x2+a3x+a4(15)
其中,x为原始机器分数,y为映射后的机器分数,a1,a2,a3和a4为多项式系数;
步骤6.2基于线性融合方法计算整个语音的发音质量评价的融合分数
Figure FSB00000339186900041
计算公式如下:
Figure FSB00000339186900042
其中,s1,s2,…,sn表示映射后的各个机器分数,a1,a2,…,an为组合系数;
如果采用SVM进行分数融合,可以利用通用的SVM软件工具包计算融合分数
Figure FSB00000339186900043
基于SVM融合效果优于线性融合的方法。
2.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法,其特征在于利用传统HMM方法进行时间对准和匹配分数计算;利用Viterbi解码算法分别对参考语音和测试语音进行强制对准,分别得到的参考语音和测试语音的时间分隔信息,包括状态的时间分隔、音素的时间分隔信息、单词的时间分隔信息。
3.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法,其特征在于利用教师参考语音作为发音质量评价参考模板。
4.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法,其特征在于利用语音发音中的多种机器评价分数,并采用基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射,使映射后分数和专家评分处于相同取值区间内。
5.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法,其特征在于对映射后的所述感知分数、所述基音分数和所述段长分数进行融合;采用线性融合、SVM、Logistic回归(Logistic Regression)、神经网络、高斯混合模型中的一个对映射后所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行分数融合。
CN200810102076XA 2008-03-17 2008-03-17 计算机辅助语言学习***中的发音质量评价方法 Active CN101246685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810102076XA CN101246685B (zh) 2008-03-17 2008-03-17 计算机辅助语言学习***中的发音质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810102076XA CN101246685B (zh) 2008-03-17 2008-03-17 计算机辅助语言学习***中的发音质量评价方法

Publications (2)

Publication Number Publication Date
CN101246685A CN101246685A (zh) 2008-08-20
CN101246685B true CN101246685B (zh) 2011-03-30

Family

ID=39947102

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810102076XA Active CN101246685B (zh) 2008-03-17 2008-03-17 计算机辅助语言学习***中的发音质量评价方法

Country Status (1)

Country Link
CN (1) CN101246685B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103985392A (zh) * 2014-04-16 2014-08-13 柳超 音素级的低功耗的口语评价与缺陷诊断方法
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727903B (zh) * 2008-10-29 2011-10-19 中国科学院自动化研究所 基于多特征和多***融合的发音质量评估和错误检测方法
CN101739869B (zh) * 2008-11-19 2012-03-28 中国科学院自动化研究所 一种基于先验知识的发音评估与诊断***
CN101650886B (zh) * 2008-12-26 2011-05-18 中国科学院声学研究所 一种自动检测语言学习者朗读错误的方法
CN101894560B (zh) * 2010-06-29 2012-08-15 上海大学 一种无参考源的mp3音频清晰度客观评价方法
CN101996635B (zh) * 2010-08-30 2012-02-08 清华大学 基于重音突显度的英语发音质量评价方法
CN103054586B (zh) * 2012-12-17 2014-07-23 清华大学 一种基于汉语言语测听动态词表的汉语言语自动测听方法
CN103151042B (zh) * 2013-01-23 2016-02-24 中国科学院深圳先进技术研究院 全自动口语评测管理与评分***及其评分方法
CN104599680B (zh) * 2013-10-30 2019-11-26 语冠信息技术(上海)有限公司 移动设备上的实时口语评价***及方法
CN109496334B (zh) * 2016-08-09 2022-03-11 华为技术有限公司 用于评估语音质量的设备和方法
CN106531185B (zh) * 2016-11-01 2019-12-13 云知声(上海)智能科技有限公司 基于语音相似度的语音评测方法及***
CN106935236A (zh) * 2017-02-14 2017-07-07 复旦大学 一种钢琴演奏评估方法及***
CN106971703A (zh) * 2017-03-17 2017-07-21 西北师范大学 一种基于hmm的歌曲合成方法及装置
CN107221343B (zh) * 2017-05-19 2020-05-19 北京市农林科学院 一种数据质量的评估方法及评估***
CN109686383B (zh) * 2017-10-18 2021-03-23 腾讯科技(深圳)有限公司 一种语音分析方法、装置及存储介质
CN109697988B (zh) * 2017-10-20 2021-05-14 深圳市鹰硕教育服务有限公司 一种语音评价方法及装置
CN109979486B (zh) * 2017-12-28 2021-07-09 ***通信集团北京有限公司 一种语音质量评估方法及装置
CN108877839B (zh) * 2018-08-02 2021-01-12 南京华苏科技有限公司 基于语音语义识别技术的语音质量感知评估的方法及***
CN111640452B (zh) * 2019-03-01 2024-05-07 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN110047474A (zh) * 2019-05-06 2019-07-23 齐鲁工业大学 一种英语音标发音智能训练***及训练方法
CN111859681B (zh) * 2020-07-24 2023-10-03 重庆大学 一种基于arfima模型的线性结构损伤识别方法
CN112017694B (zh) * 2020-08-25 2021-08-20 天津洪恩完美未来教育科技有限公司 语音数据的评测方法和装置、存储介质和电子装置
CN113571043B (zh) * 2021-07-27 2024-06-04 广州欢城文化传媒有限公司 一种方言模拟力测评方法、装置、电子设备及存储介质
CN115662242B (zh) * 2022-12-02 2023-07-04 首都医科大学附属北京儿童医院 塑造儿童语言流畅度训练装置、设备和存储介质
CN115798519B (zh) * 2023-02-10 2023-05-05 山东山大鸥玛软件股份有限公司 一种英语多题型口语发音评估方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1763843A (zh) * 2005-11-18 2006-04-26 清华大学 用于语言学习机的发音质量评价方法
CN1787070A (zh) * 2005-12-09 2006-06-14 北京凌声芯语音科技有限公司 用于语言学习机的片上***
CN1790481A (zh) * 2004-12-17 2006-06-21 财团法人工业技术研究院 基于辨音成分的发音评估方法与***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790481A (zh) * 2004-12-17 2006-06-21 财团法人工业技术研究院 基于辨音成分的发音评估方法与***
CN1763843A (zh) * 2005-11-18 2006-04-26 清华大学 用于语言学习机的发音质量评价方法
CN1787070A (zh) * 2005-12-09 2006-06-14 北京凌声芯语音科技有限公司 用于语言学习机的片上***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhao Tianli,et al..An automatic pronunciation teaching system for Chinese to learn English.《Proceedings. 2003 IEEE International Conference on Robotics, Intelligent Systems and Signal Processing, 2003.》.2004,第2卷1157-1161. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103985392A (zh) * 2014-04-16 2014-08-13 柳超 音素级的低功耗的口语评价与缺陷诊断方法
CN103985391A (zh) * 2014-04-16 2014-08-13 柳超 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Also Published As

Publication number Publication date
CN101246685A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN101246685B (zh) 计算机辅助语言学习***中的发音质量评价方法
CN109599093B (zh) 智能质检的关键词检测方法、装置、设备及可读存储介质
Wei et al. A new method for mispronunciation detection using support vector machine based on pronunciation space models
US9672816B1 (en) Annotating maps with user-contributed pronunciations
CN102568475B (zh) 用于普通话水平测评的***和方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
Deshwal et al. Feature extraction methods in language identification: a survey
WO2019214047A1 (zh) 建立声纹模型的方法、装置、计算机设备和存储介质
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN101178896A (zh) 基于声学统计模型的单元挑选语音合成方法
CN103559892A (zh) 口语评测方法及***
CN107886968B (zh) 语音评测方法及***
Burgos Gammatone and MFCC features in speaker recognition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
CN106653002A (zh) 一种文字直播方法及平台
CN106023986A (zh) 一种基于声效模式检测的语音识别方法
CN104575495A (zh) 一种采用总变化量因子的语种识别方法及***
Peláez-Moreno et al. Analyzing phonetic confusions using formal concept analysis
Mary et al. Searching speech databases: features, techniques and evaluation measures
CN110176251A (zh) 一种声学数据自动标注方法及装置
Lin et al. Improving L2 English rhythm evaluation with automatic sentence stress detection
Grewal et al. Isolated word recognition system for English language
Mengistu Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC
Khan et al. Automatic Arabic pronunciation scoring for computer aided language learning
Vaněk et al. Gender-dependent acoustic models fusion developed for automatic subtitling of parliament meetings broadcasted by the Czech TV

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20181114

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Patentee after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 mailbox 100084-82, Beijing City

Patentee before: Tsinghua University