CN101246685B

CN101246685B - 计算机辅助语言学习***中的发音质量评价方法

Info

Publication number: CN101246685B
Application number: CN200810102076XA
Authority: CN
Inventors: 刘加
Original assignee: Tsinghua University
Current assignee: Beijing Huacong Zhijia Technology Co Ltd
Priority date: 2008-03-17
Filing date: 2008-03-17
Publication date: 2011-03-30
Anticipated expiration: 2028-03-17
Also published as: CN101246685A

Abstract

本发明属于语音技术领域，计算机辅助语言学习***中的发音质量评价方法，包括：匹配分数的计算、基于美尔(Mel)频标的感知分数的计算、段长分数的计算和基音分数的计算，并将上述分数映射后进行融合；本发明的发音质量评价方法具有稳健性好，与专家评分相关性高的优点，可以用于交互式语言学习和自动口语测试。

Description

计算机辅助语言学习***中的发音质量评价方法

技术领域

本发明属于语音技术领域，具体地说，涉及利用语音信号处理技术实现计算机辅助语言学习***中语音发音质量评价的方法。

背景技术

在学习者进行语言学习时，对其发音质量进行可靠的评价是计算机辅助语言学习***的核心功能。然而由于现有技术的局限，目前的发音质量评价方法的性能还不够理想，距离实用化还有一定的差距。

当前，利用计算机对发音质量进行评价的方法主要是基于HMM模型。中国发明专利申请第200510114848.8号公开了一种用于学习机的发音质量评价方法。该方法采用HMM训练标准发音模型，并搜索最优路径，以此计算用来评价发音质量的置信分数。这种方法过多依赖于HMM的训练，并且在影响发音质量的多个因素中，仅基于与声学模型有关的因素来评价发音质量，因此与专家评分的相关性还不够高，对单词和短句发音机器评分和专家评分的相关性仅为0.74。

在通信***中也涉及语音质量的评价。ITU-T P.862中公开了一种用于电话信道的语音质量评价方法。首先将参考语音通过电话信道得到测试语音。然后将参考语音和测试语音映射到感知域，精确估计出测试语音相对于参考语音的延时，最后在感知域计算测试语音相对于参考语音的感知差异，并以此来评价测试语音的语音质量。

然而，通信***中的语音质量评价方法和计算机辅助语言学习***中的发音质量评价有所不同。首先，在语音通信***中，影响语音质量的因素一般是电话信道、编解码器引起的各种噪音对语音的损伤以及网络对语音的延时。参考语音和测试语音都是同一个说话人的同一句语音，因此如果不考虑延时，测试语音中的各个音素一般不会有段长的变化。一个人语音发音是否正确对通信***的语音质量评价过程不会产生影响。而在计算机辅助语言学习***中，影响发音质量的因素比较复杂。学习者的测试语音的失真是由于发音不准确造成的，和噪声没有多大关系。并且如果将教师的发音作为参考语音，学习者的语音作为测试语音，来考察测试语音相对于参考语音的发音质量。那么参考语音和测试语音来自不同的说话人，导致测试语音和参考语音的长度不同，并且这一语音长度的差异不是延时造成的，因此无法直接对准。其次，不同说话人的声道长度不同，导致测试语音和参考语音中同一音素的共振峰不完全一样。另外，两个说话人语音中的韵律变化也有所不同，其直接表现就是测试语音和参考语音的重音变化。两个人的基音也不相同，对应基音变化过程也有比较大的差异。

计算机辅助语言学习***应尽可能模仿专家对发音质量评价的过程。通常，专家对发音质量进行评价的过程可以划分为三个步骤。首先，通过耳机或者音箱聆听测试语音。然后，大脑对感知到的语音进行处理，并根据自己的语音学和语言学知识，将参考语音和测试语音进行对比，发现测试语音在各个层次(例如声学层和韵律层)上的发音错误和失真。最后，综合上述各种失真，给出测试语音的总体评价。可见，对发音质量的感知与发音质量评价的结果密切相关。而现有技术未能在韵律层次上对发音质量进行评价，并且缺乏对发音质量的感知失真方面的研究。

本发明针对现有技术中存在的问题，提出一种计算机辅助语言学习***中的发音质量评价方法。该方法以教师的发音作为参考语音，分别在声学、感知和韵律方面计算学习者的测试语音相对于参考语音的发音质量差别，得到匹配分数、感知分数、段长分数和基音分数，并对所述四种分数进行融合，得到测试语音的最终分数。根据本发明针对单词和短句的发音质量评价分数与专家评分的相关系数达到0.800，性能优于基于现有技术的方法。

发明内容

目前基于隐含马尔可夫模型的发音质量评价方法获得机器评价分数与专家评分的相关性还不够高，不能够满足目前计算机辅助语言学习***中对发音质量评价要求。本发明的目的是克服现有技术的不足，提出一种用于计算机辅助语言学习***中的发音质量评价方法。本发明中提出利用教师的参考语音和学生的测试语音分别从声学、感知和韵律方面计算匹配分数、感知分数、段长分数、基音分数，并将所述这些分数映射后进行融合来对发音质量进行评分的方法，针对单词和短句子的机器发音质量评分与专家主观质量评分的相关性能够达到0.800。

本发明提出的计算机辅助语言学习***中的发音质量评价方法主要包括：计算匹配分数，计算基于Mel频标的感知分数，计算基音分数，计算段长分数；对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射，并将映射后的各分数进行融合。该方法充分利用语音发音中多种发音信息来获得可靠融合分数，从而对学生的语音发音质量进行评价(打分)。其特征在于，各部分具体包括以下几个步骤：

1、所述匹配分数、所述基于Mel频标的感知分数、所述基音分数、所述段长分数的计算方法，具体步骤如下：

(A)所述匹配分数的计算包括：(1)利用Viterbi解码算法分别对测试语音和参考语音进行强制对准，得到参考语音和测试语音的音素的时间分隔信息和似然度；(2)根据测试语音和标准语音的似然度之差的绝对值得到匹配分数。

(B)所述感知分数的计算包括：(1)对测试语音和参考语音施加Mel滤波器；(2)基于幂定律，将参考语音和测试语音的Mel滤波器的能量输出映射为响度；(3)基于所述音素时间分隔信息，通过动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音在音素层面上进行进一步的逐帧细化对准；(4)基于参考语音和测试语音各帧的响度差计算感知分数。

(C)所述段长分数的计算包括：(1)基于所述时间分隔信息，利用段长模型计算测试语音和标准语音中的对数段长概率；(2)根据测试语音的段长概率与标准语音的段长概率绝对值之差得到段长分数。

(D)所述基音分数的计算包括：(1)分别提取参考语音和测试语音的基音；(2)基于所述时间分隔信息，分别得到参考语音和测试语音中每个元音内基音的极大值和极小值，并计算每个元音内的极大值和极小值之差；(3)基于参考语音和测试语音中每个元音内极大值和极小值之差。

2、所述的分数映射计算包括：基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射，使映射后分数和专家评分处于相同取值区间内。

3、所述的分数融合计算包括：线性融合、SVM、Logistic回归(LogisticRegression)、神经网络、高斯混合模型中的一个对映射后的所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行融合，通过多种信息的互补，使融合后分数更接近专家评价的分数。

所述的Viterbi解码算法利用了从大规模语音数据库训练的基于HMM模型对测试语音和标准语音进行强制对准，得到的参考语音和测试语音的时间分隔信息可以是音素的时间分隔信息、状态的时间分隔、单词的时间分隔信息。音素的时间分隔信息只是其中的一个。HMM模型的训练方法是根据最大似然准则，对HMM模型参数(包均值与方差)进行估值。

所述的段长模型是通过大规模语音数据库训练得到段长的直方图模型或Gamma模型。

所述的逐帧细化对准是在基于匹配分数计算过程中得到的每个音素的时间分隔信息基础上，进一步利用动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音的在音素层面上进行逐帧细化对准，使对准的语音在帧上有较好可比性。

本发明提出计算机辅助语言学***。本发明的发音质量评价方法具有稳健性好，与专家评分相关性高的优点，可以用于语言学习机中实现交互式语言学习发音质量评价和自动口语测试***中。

本发明具有如下优点：

(1)本发明充分利用了教师参考语音和学生测试语音发音差别特点进行评价；

(2)本发明提出的基于Mel频标的感知分数计算复杂度低于基于临界带的感知分数计算方法，而且性能更好；

(3)本发明充分利用了发音中的多种评价信息，匹配信息、感知信息、段长信息、基音信息，并进行了信息融合，在不同分数将各种发音信息进行互补，提高了评价的稳健性，以及与专家评分的相关性；

(4)本发明的基于计算机辅助语言学习***中的发音评价方法也能够应用于多种语言的学习，具有稳健性好，与专家评分相关性高的特点，并且本发明可以在目前的掌上电脑、个人数字助理(PDA)或学习机上实现，其应用范围非常广泛。

附图说明

图1是发音质量评价方法的总体示意图；

图2是匹配分数的计算示意图；

图3是HMM模型拓扑结构；

图4是感知分数的计算示意图；

图5是段长模型的计算示意图；

图6是基音分数的计算示意图；

图7机器分数融合示意图。

具体实施方式

以下结合附图对本发明提出的用于计算机辅助语言学习的发音质量评价方法的实施例进行详细说明。图1是根据本发明的发音质量评价方法的总体流程图。(1)首先参考语音和测试语音分别经声学模型、感知模型、段长模型和基音模型计算出匹配分数、感知分数、段长分数和基音分数。(2)将这些分别描述声学、感知和韵律等方面的发音质量的分数进行分数融合。(3)用融合后的分数对测试语音的发音质量进行评价。

参考语音是指作为发音质量评价的基准的教师的标准发音，测试语音是指作为发音质量的评价对象的学习者的语音。因此，在本发明的发音质量评价方法中，需要计算测试语音相对于参考语音的发音在质量上的差别。本发明实施例的整个计算过程细节构成如下：

1、匹配分数计算：

图2是匹配分数的示意图。首先分别对参考语音和测试语音进行分帧处理，得到短时平稳的分帧语音。然后对每帧语音提取MFCC特征。其中，对每帧语音所提取的MFCC特征包括39维，即：12维MFCC系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分。MFCC特征反映了语音的静态特征，而MFCC的一阶和二阶差分系数则反映了语音的动态特征。然后利用训练好的HMM模型，采用Viterbi解码算法分别对参考语音和测试语音进行强制对准，得到参考语音和测试语音的似然分数和每个音素的时间分隔信息。这里，HMM的训练过程对于本领域技术人员来说属于公知技术，因此这里只对其作简要的说明。HMM采用从左到右的状态转移模型，该模型能够很好地描述语音的发音特点。例如可用采用3状态隐含马尔可夫模型，其拓扑结构如图3所示。其中q_i表示HMM的状态，a_ij表示HMM的跳转概率，b_j(O_t)为HMM模型的状态输出的多流混合高斯密度概率分布函数，如公式(1)所示：

b_{j} (O_{t}) = Π_{s = 1}^{S} {[Σ_{m = 1}^{M_{S}} C_{jsm} N (O_{st}; μ_{jsm}; φ_{jsm})]}^{γ_{s}} - - - (1)

其中，S是数据流的个数，M_s是每一数据流中的混合高斯密度分布的个数，N为高维高斯分布，如公式(2)所示：

N (o; μ; φ) = \frac{1}{\sqrt{{(2 π)}^{n} | φ |}} e^{- \frac{1}{2} (o - μ) φ^{- 1} (o - μ)} - - - (2)

测试语音和参考语音是由多个音素构成。分别对参考语音和测试语音进行强制对准后，第i个音素的匹配分数L(i)由下式给出：

L(i)＝|log(p_text(O_test|q_i))-log(p_ref(O_ref|q_i))| (3)

其中，p_test(O_test|q_i)是测试语音的似然度，p_ref(O_ref|q_i)是参考语音的似然度。其中，q_i表示第i个音素HMM模型，O_test和O_ref分别是测试语音和参考语音的MFCC特征矢量。

匹配分数定义为音素平均匹配分数：

S_{mat_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} L (i) - - - (4)

其中，N_p为语音发音中音素总个数，L(i)为第i个音素的匹配分数。

2、感知分数计算：

图4是感知分数的计算示意图。首先分别对参考语音和测试语音分帧并加Hanning窗。然后将每一帧语音经过在Mel频标上均匀分布的三角窗滤波器，得到每个三角窗滤波器输出的能量和的对数值M(q)：

M (q) = \ln [Σ_{n = F_{q - 1}}^{F_{q}} \frac{n - F_{q - 1}}{F_{q} - F_{q - 1}} G (n) + Σ_{n = F_{q}}^{F_{q + 1}} \frac{F_{q + 1} - n}{F_{q + 1} - F_{q}} G (n)], - - - (5)

q＝1，2，3…，Q

其中，F_q是第q个三角窗滤波器的中心频率，F_q+1和F_q-1分别为第q个三角窗滤波器的上、下截止频率，G(n)为三角窗函数，Q为三角窗滤波器的个数。通常Q＝20～26。

根据心理学中的幂定律，将每个三角窗滤波器输出的对数能量可以映射到响度域上，计算如下式所示：

L(q)＝0.048M(q)^0.6 (6)

其中，M(q)是第q个滤波器输出的对数能量，L(q)是M(q)映射到感知域的响度。

在基于所述匹配分数计算过程中得到的每个音素的时间分隔对准信息基础上，进一步利用动态时间规整(Dynamic Time Warping，DTW)方法将参考语音和测试语音的在音素层面上进一步逐帧细化对准。这里，DTW方法对于本领域技术人员来说属于公知技术，因此略去对其的说明。

利用DTW算法对参考语音和测试语音每帧进行对准后，就可以计算在每个三角窗输出的响度差D(q)：

D(q)＝L_test(q)-L_ref(q) q＝1，2，3，…，Q (7)

其中，L_test(q)和L_ref(q)分别表示测试语音和参考语音在第q个三角窗滤波器上输出的响度。

求出每个三角窗滤波器输出的响度差后，需要进一步计算整个Mel频带上的总响度差，也就是要计算每帧语音的响度差。一帧语音的响度可以通过对整个Mel频带上所有三角窗输出的响度差进行加权求和得到。参考语音和测试语音的第j帧语音的响度差p_frame(j)为：

p_{frame} (j) = Σ_{q = 1}^{Q} W (q) \sqrt{\frac{Σ_{q = 1}^{Q} {(D (q) W (q))}^{2}}{Σ_{q = 1}^{Q} W (q)}} - - - (8)

其中，D(q)为参考语音和测试语音在第q个临界带内的响度差，W(q)为第q个三角滤波器的带宽，j表示参考语音和测试语音的第j帧。

音素的感知分数定义为参考语音和测试语音的帧平均响度差：

p_{phone} (i) = \sqrt[6]{\frac{Σ_{j = 1}^{N} {[p_{frame} (j)]}^{6}}{N}} - - - (9)

其中，N为参考语音和测试语音中较长语音对应音素的帧数，p_frame(j)为第j帧的响度差。因此，整个语音发音的感知分数p_{p_sen}为发音中所有音素响度差的平均值：

p_{p_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} p_{phone} (i) - - - (10)

其中，N_p为整个语音发音中音素总个数。

3、段长分数计算：

图5是段长分数的计算示意图。基于匹配分数计算中得到的每个音素的时间分隔信息，并利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数。计算段长概率分数时所采用的段长模型可以是直方图模型或者Gamma模型。对于本领域技术人员来说，这属于公知技术。因此，略去对其的详细说明。

音素的段长分数d_phone定义为测试语音和参考语音段长概率分数的对数差：

d_phone＝|LogD_test-LogD_ref| (11)

其中D_test为测试语音的相应音素的段长概率分数，D_ref为参考语音相应音素的段长概率分数。

整个语音发音的段长分数d_sen定义为所有音素段长分数的平均值：

d_{sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} d_{phone} (i) - - - (12)

4、基音分数计算：

图6是基音分数的计算示意图。首先，分别提取参考语音和测试语音的基音。现有技术中已有多种基音提取方法。综合考虑算法复杂度、鲁棒性、基音估计的准确性等因素，本文采用基于线性预测编码的LPC分析的自相关估计算法。然后结合匹配分数计算中得到的每个音素的时间分隔信息，分别计算参考语音和测试语音中每个元音内的基音极大值和极小值之差，即元音内的基音极值差定义为：

S_vow(i)＝P_max(i)-P_min(i) (13)

其中P_max(i)和P_min(i)分别表示第i个元音内的基音的极大值和极小值。

基音分数R_{vow_max_min}定义为：

R_{vow_\max_\min} = \frac{1}{N_{v}} Σ_{i = 1}^{N_{v}} {| S_{vow}^{test} (i) - S_{vow}^{ref} (i) |}^{2} - - - (14)

其中N_v为句子中的元音总数，

为测试语音中第i个元音内的基音极值差，为参考语音中第i个元音内的基音极值差。

5、分数映射和分数融合：

图7是分数映射和融合计算示意图。图中先对机器分数进行映射，然后采用线性加权或者SVM对映射后的机器分数进行融合，得到最终的客观分数。

(1)机器分数的映射方法：在分别计算出匹配分数、感知分数、段长分数和基音分数之后，需要将这四个分数首先进行分数映射。不同方法得出的机器分数的取值区间通常并不相同。因此需要利用映射函数将机器分数映射到与专家评分相一致的对应区间内。可以基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射。最简单有效的映射方法可以采用三次多项式函数进行映射。映射中优化准则为最小均方误差准则，通过映射函数将机器分数映射到专家评分取值区间。

y＝a₁x³+a₂x²+a₃x+a₄ (15)

其中，x为原始机器分数，y为映射后的机器分数，a₁，a₂，a₃和a₄为多项式系数。

(2)分数融合的方法：现有信号技术中存在多种信息融合处理方法，例如可以采用线性函数、神经网络、高斯混合模型、支持向量机、Logistic回归，以及其他适于对多种不同分数进行融合的方法。本发明主要采用线性函数和支持向量机对上述匹配分数、感知分数、段长分数和基音分数进行融合。

如果机器分数和专家评分都可以看作联合分布的高斯随机变量，或者二者之间存在线性关系，那么融合后的分数可以表示为机器分数的线性组合：

其中，s₁，s₂，…，s_n表示映射后的各个机器分数，a₁，a₂，…，a_n为组合系数。这些组合系数可以由开发集数据根据最小均方误差准则确定。

SVM的融合方法有通用的软件工具可以使用，基于SVM的融合在性能上由于线性融合的方法。对于本领域技术人员来说SVM融合方法属于公知技术，因此略去对其的说明。

在发音质量的评价中，通常用计算机对发音质量进行自动评价而得到的分数(通常称为机器分数)与专家对同一发音的评价分数之间的相关系数来表示发音质量评价方法的性能，如式(17)所示。通常，相关系数越高，说明机器分数越接近专家的分数，从而性能越好。

C_{corr} = \frac{Σ (x_{i} - \overset{&OverBar;}{x}) (y_{i} - \overset{&OverBar;}{y})}{\sqrt{Σ {(x_{i} - \overset{&OverBar;}{x})}^{2} Σ {(y_{i} - \overset{&OverBar;}{y})}^{2}}} - - - (17)

其中x_i和y_i分别是第i个单词或语句的机器评价分数和相应专家评价分数，

和分别是所有测试语音的机器评价分数的均值和专家评价评分的均值。

该评价过程需要采集有一定规模的评价语音库，首先请专家对库中语音进行主观评价，然后用机器进行评价。通过公式(7)进行计算机器评价和专家评价之间的相关度。本发明针对单词和短句的发音质量机器评价分数与专家评分的相关系数达到0.800，其性能优于基于HMM的传统评价方法。

Claims

1.一种计算机辅助语言学习***中语音发音质量评价方法，包括：匹配分数计算、基于Mel频标的感知分数计算、基音分数计算、分数映射、分数融合各部分，具体计算包括以下步骤：

步骤1首先分别对参考语音和测试语音进行分帧处理，得到短时平稳的分帧语音；

步骤2按照步骤2.1-2.4分别计算步骤1中所述的分帧的参考语音和测试语音的匹配分数；

步骤2.1分别对所述分帧的参考语音和测试语音每帧提取MFCC特征，共39维特征，其中包括：12维MFCC系数及其一阶差分和二阶差分，归一化能量及其一阶差分和二阶差分；

步骤2.2利用预先训练好的HMM模型，采用Viterbi解码算法分别对步骤2.1输入的参考语音和测试语音进行强制对准，分别得到参考语音和测试语音的似然度，以及语音中每个音素的时间分隔信息；

步骤2.3按照以下公式计算第i个音素的匹配分数L(i)：

L(i)＝|log(p_text(O_test|q_i))-log(p_ref(O_ref|q_i))|

其中，p_test(O_test|q_i)是测试语音的似然度，p_ref(O_ref|q_i)是参考语音的似然度。其中，q_i表示第i个音素HMM模型，O_test和O_ref分别是测试语音和参考语音的MFCC特征矢量；

步骤2.4按照以下公式计算音素平均匹配分数，并以此作为语音发音的匹配分数S_{mat_sen}：

S_{mat_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} L (i)

其中，N_p为语音发音中音素总个数；

步骤3按照步骤3.1-3.7分别计算步骤1中所述的分帧的参考语音和测试语音的感知分数；

步骤3.1分别对所述的参考语音和测试语音分帧并加Hanning窗；

步骤3.2把步骤3.1中分帧的语音送入Mel频标上均匀分布的Q个三角窗滤波器进行Mel滤波处理，按照下式得到每个滤波器输出的能量和的对数值M(q)：

M (q) = \ln [Σ_{n = F_{q - 1}}^{F_{q}} \frac{n - F_{q - 1}}{F_{q} - F_{q - 1}} G (n) + Σ_{n = F_{q}}^{F_{q + 1}} \frac{F_{q + 1} - n}{F_{q + 1} - F_{q}} G (n)]

其中，F_q是第q个三角窗滤波器的中心频率，F_q+1和F_q-1分别为第q个三角窗滤波器的上、下截止频率，G(n)为三角窗函数，Q为三角窗滤波器的个数，q＝1，2，3…，Q；

步骤3.3按照下式把步骤3.2得到的第q个三角窗滤波器输出的能量和对数值M(q)映射到听感知域的响度L(q)：

L(q)＝0.048M(q)^0.6

步骤3.4基于步骤2.2得到的每个音素的时间分隔信息，利用动态时间规划算法(DTW)把参考语音和测试语音相应的音素在音素层面上逐帧对准，并计算参考语音和测试语音在第q个三角窗输出的响度差感知域上的响度差D(q)：

D(q)＝L_test(q)-L_ref(q) q＝1，2，3，…，Q

L_test(q)是测试语音在第q个三角窗滤波输出的响度；L_ref(q)是参考语音在第q个三角窗滤波输出的响度；

步骤3.5按照下式计算每帧语音的响度差p_frame(j)：

p_{frame} (j) = Σ_{q = 1}^{Q} W (q) \sqrt{\frac{Σ_{q = 1}^{Q} {(D (q) W (q))}^{2}}{Σ_{q = 1}^{Q} W (q)}}

W(q)为第q个三角滤波器的带宽，Q为三角窗滤波器的个数，j表示参考语音和测试语音的第j帧；

步骤3.6按下式计算第i个音素的感知分数p_phone(i)，音素的感知分数为参考语音和测试语音的帧平均响度差：

p_{phone} (i) = \sqrt[6]{\frac{Σ_{j = 1}^{N} {[p_{frame} (j)]}^{6}}{N}}

其中N为参考语音和测试语音中较长语音对应音素的帧数；

步骤3.7按下式计算整个语音发音的感知分数p_{p_sen}：

p_{p_sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} p_{phone} (i)

其中N_p为语音发音中音素总个数；

步骤4按照步骤4.1-4.3计算整个语音发音的段长分数：

步骤4.1基于步骤2.2得到每个音素的时间分隔信息，利用段长模型分别计算参考语音和测试语音各个音素的段长概率分数，段长模型采用直方图模型或者Gamma模型计算，由标准语音库通过预先学习得到；

步骤4.2按下式计算音素段长分数d_phone：

d_phone＝|LogD_test-LogD_ref|

其中D_test为测试语音的相应音素的段长概率分数，D_ref为参考语音相应音素的段长概率分数；

步骤4.3按照下式计算整个语音发音的段长分数d_sen：

d_{sen} = \frac{1}{N_{p}} Σ_{i = 1}^{N_{p}} d_{phone} (i)

其中d_phone(i)为语音发音中第i个音素的对数段长概率分数；

步骤5按照步骤5.1-5.2计算整个语音发音的基音分数：

步骤5.1结合步骤2.2中得到每个音素的时间分隔信息，采用基于线性预测编码(LPC)中的自相关估计算法，分别计算参考语音和测试语音中第i个元音内的基音极大值和极小值之差S_vow(i)：

S_vow(i)＝P_max(i)-P_min(i)

其中P_max(i)和P_min(i)分别表示第i个元音内的基音的极大值和极小值；

步骤5.2按照下式计算基音分数R_{vow_max_min}：

R_{vow_\max_\min} = \frac{1}{N_{v}} Σ_{i = 1}^{N_{v}} {| S_{vow}^{test} (i) - S_{vow}^{ref} (i) |}^{2}

其中N_v为句子中的元音总数，

为测试语音中第i个元音内的基音极值差，

为参考语音中第i个元音内的基音极值差；

步骤6按照步骤6.1-6.2计算整个语音的发音质量评价的融合分数，进行融合的分数包括匹配分数、感知分数、段长分数和基音分数：

步骤6.1通过映射函数将原始机器评价分数映射到专家评分取值区间内，按下式计算映射后机器分数：

y＝a₁x³+a₂x²+a₃x+a₄(15)

其中，x为原始机器分数，y为映射后的机器分数，a₁，a₂，a₃和a₄为多项式系数；

步骤6.2基于线性融合方法计算整个语音的发音质量评价的融合分数

计算公式如下：

其中，s₁，s₂，…，s_n表示映射后的各个机器分数，a₁，a₂，…，a_n为组合系数；

如果采用SVM进行分数融合，可以利用通用的SVM软件工具包计算融合分数

基于SVM融合效果优于线性融合的方法。

2.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法，其特征在于利用传统HMM方法进行时间对准和匹配分数计算；利用Viterbi解码算法分别对参考语音和测试语音进行强制对准，分别得到的参考语音和测试语音的时间分隔信息，包括状态的时间分隔、音素的时间分隔信息、单词的时间分隔信息。

3.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法，其特征在于利用教师参考语音作为发音质量评价参考模板。

4.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法，其特征在于利用语音发音中的多种机器评价分数，并采用基于Sigmoid函数、多项式函数或线性函数中的一个对所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行映射，使映射后分数和专家评分处于相同取值区间内。

5.如权利要求1所述的计算机辅助语言学习***中语音发音质量评价方法，其特征在于对映射后的所述感知分数、所述基音分数和所述段长分数进行融合；采用线性融合、SVM、Logistic回归(Logistic Regression)、神经网络、高斯混合模型中的一个对映射后所述匹配分数、所述感知分数、所述基音分数和所述段长分数进行分数融合。