CN101826263A

CN101826263A - 基于客观标准的自动化口语评估***

Info

Publication number: CN101826263A
Application number: CN200910078868A
Authority: CN
Inventors: 梁家恩; 徐波; 王士进; 高鹏; 李鹏
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: iFlytek Co Ltd
Priority date: 2009-03-04
Filing date: 2009-03-04
Publication date: 2010-09-08
Anticipated expiration: 2029-03-04
Also published as: CN101826263B

Abstract

本发明为基于客观标准的自动化口语评估***，包括识别对齐单元、量化评估单元和标准调整单元，识别对齐单元接收口语语音信息、答题范围和评估指标信息，对输入口语语音信息进行识别和对齐，将口语语音信息生成文字，并将文字和语音进行对齐；标准调整单元，是由考试组织机构根据具体考试对象、目标和要求进行量化评估标准调整，生成并输出最终的量化评估标准；量化评估单元分别与识别对齐单元和标准调整单元连接，量化评估单元接收评估量化指标信息、标准调整单元输出的量化评估标准信息和识别对齐单元输出的文字识别对齐信息，根据所述三个信息提取口语评估特征，进行自动化评估和诊断，生成评估结果和诊断报告信息。

Description

基于客观标准的自动化口语评估***

技术领域

本发明涉及语音数字信号处理、机器学习与模式识别、专家口语评估标准领域，具体是根据口语评估专家组的试题和相应的答题范围、量化指标、评估标准，运用计算机对考生的口语语音信号进行特征提取、识别对齐，然后提取专家量化指标相关的口语评估特征，根据具体评估标准，给出评估结果和诊断报告。

背景技术

随着全球经济一体化的发展，学习第二门语言，提高交流能力，已经成为迫切的需求。增强口语学习，提高语言实际运用能力，逐渐被外语教学者和学习者重视。而目前的口语评估基本上都是依赖于老师的人工评估，在面对大规模考生的口语考试时，显得效率不足，也存在评估标准掌握尺度的不一致问题。例如，实际试验表明，同样的考生答卷，不同的老师会给出不同的评分；即使同样的老师，在不同的两天中给出的评分也会不完全相同。因此，提高阅卷的效率和公证性，就成为一个重要课题。

另一方面，语音识别技术已经发展到比较成熟的阶段，在限定领域和环境下的语音识别精度已经达到相当高的水平，这使得计算机自动阅卷成为可能。在与口语评估专家的讨论和实际实验测试过程中，我们发现，口语评估专家评分，实际上是可以用量化指标进行描述，从而得到对考生的口语能力的客观评估的。实验表明，在大规模口语评估中，计算机的客观评估标准得到的评分，可以达到评估专家的水平，同时，具有人工评分不可比拟的效率和一致性。

发明内容

本发明针对口语人工评估存在的阅卷效率低和评分一致性差的问题，设计开发了基于客观标准的自动化口语评估***，在结合口语评估专家知识，达到专家评估精度的同时，极大提高阅卷的效率和客观公证性(一致性)。

为达成所述目的，本发明提供的基于客观标准的自动化口语评估***，包括识别对齐单元、量化评估单元和标准调整单元，其中：

识别对齐单元接收口语语音信息、答题范围和评估指标信息，对输入口语语音信息进行识别和对齐，将口语语音信息生成文字，并将文字和语音进行对齐；

标准调整单元，是由考试组织机构根据具体考试对象、目标和要求进行量化评估标准调整，生成并输出最终的量化评估标准；

量化评估单元分别与识别对齐单元和标准调整单元连接，量化评估单元接收评估量化指标信息、标准调整单元输出的量化评估标准信息和识别对齐单元输出的文字识别对齐信息，根据所述三个信息提取口语评估特征，进行自动化评估和诊断，生成评估结果和诊断报告信息；

***通过采用统一的客观量化指标和标准，对口语语音进行自动化评估，实现口语评估的客观公证性，并提供基于量化信息的诊断报告。

本发明***的主要优点有：(1)以口语评估专家题库和标准为基础，提高口语考试的专业性和公证性；(2)以口语评估专家的答题范围和量化考点为依据，提取客观的量化评估特征，提高阅卷***的客观公证性；(3)提供可调整的专家评估标准，适合于较大范围的考试评估要求。

附图说明

图1为本发明的***结构流程图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

本发明的技术方案是，利用一台计算机，在Windows XP平台上用VC++语言编制了一个的多线程程序，实现了基于客观标准的自动化口语评估***，包括识别对齐单元1、量化评估单元2和标准调整单元3，***通过采用统一的客观量化指标和标准，对口语语音进行自动化评估，实现口语评估的客观公证性，并提供基于量化信息的诊断报告；其中：

所述识别对齐单元1，识别对齐单元1接收口语语音信息、答题范围和评估指标信息，对输入口语语音信息进行识别和对齐，将口语语音信息生成文字，并将文字和语音进行对齐；实现输入口语语音的识别和对齐功能，为了提高识别和对齐的效果，本发明的识别对齐单元1采用方案包括：语言模型11、语音特征模块12、识别对齐模块13、通用声学模型14和容错发音词典15。

通用声学模型14是从大规模带内容标注的口语语料训练得到，用于描述音素的发音特征分布的文件，是采用不同地区、不同口音影响的口语语音作为训练集，训练通用的三音子(Tri-Phone)声学模型，确保声学模型能够比较一致地匹配各地区、各类型考生的口语语音；

在本实施例中，通用声学模型14是性别相关模型(Gender DependantModel)，即男声和女声采用不同的两套模型描述，而且，在通用声学模型14训练中，采用了最小音素错误区分度训练准则(Minimum PhoneError，MPE)和异方差线性区分性建模方法(Heteroscedastic LinearDiscriminant Analysis，HLDA)，确保声学匹配性能和识别效果。在本例中，男女声的通用声学模型，分别采用200多小时带精确标注的训练语料训练得到。

容错发音词典15是用于描述口语词汇和发音音素的对应关系的文件，并包含常见的发音变异和发音错误标注信息。容错发音词典15是在发音词典中加入常见的单词口语发音变异和错误，确保在考生出现这类变异和错误时，降低语音识别路径搜索中裁减错误的风险，提高口语语音的识别率。发音变异和错误现象，在真实的口语语音中非常常见，需要通过容错发音词典描述这类现象。

语言模型11为N元文法模型(N-Gram)，根据口语评估专家设定的口语答题范围，动态生成语言模型，提高识别准确率，答题范围由口语评估专家设置，语言模型中包含常见的语法和用词错误，确保语言模型11和真实的口语语音内容匹配度，提高口语语音的识别率；语法和用词错误在朗读类题型中出现较少，但在口语翻译和话题简述类题型中很常见，因此，这类题型的语言模型需要增加常见的语法和用词错误，提高识别对齐的准确率。

语音特征模块12，接收口语语音信息，生成口语语音倒谱特征参数(Cepstrum)信息；语音特征模块12是将输入口语语音信息进行数字信号处理，变成识别和对齐需要的语音倒谱参数特征，本实施例采用的是25ms帧长，10ms帧移的13维感知线性预测(Perceptual Linear Predict，PLP)特征，加上一阶和二阶差分，构成39维特征向量；

识别对齐模块13，分别读取通用声学模型14、容错发音词典15和语言模型11，与语音特征模块12连接，接收语音特征模块12输出的口语语音倒谱特征参数信息，利用帧同步(Viterbi)搜索算法，将口语语音倒谱特征参数信息，在容错发音词典15和语言模型11的约束下，与通用声学模型14进行动态匹配，输出识别文字信息和对齐结果信息。

识别对齐模块13对口语语音的识别和对齐，是口语评估特征提取的基础，主要解决的问题是口语语音和限定领域文本的对应问题，由于答题范围比较有限，语言模型11的口语内容的匹配程度较高，加上通用声学模型14和口语发音匹配程度较好，容错发音词典15包含常见发音变异和错误，可以保证识别对齐***有比较高的识别精度。为了说明这点，我们将语音识别和对齐的数学模型简单描述如下：

{W_{1}}^{N} * = \underset{{W_{1}}^{N}}{\arg \max} {P ({W_{1}}^{N}) * \underset{S_{1}^{T}}{Σ} P (X_{1}^{T}, S_{1}^{T} | {W_{1}}^{N}, λ)}

\approx \underset{{W_{1}}^{N}}{\arg \max} {P ({W_{1}}^{N}) * \max_{S_{1}^{T}} P (X_{1}^{T}, S_{1}^{T} | {W_{1}}^{N}, λ)}

其中，W_I ^N为词序列，N为词个数，

为声学状态序列，

为语音特征序列，T为时间帧数，λ为通用声学模型14，用于计算声学打分；P(W₁ ^N)为词序列W₁ ^N在语言模型11上的打分，为词序列W₁ ^N条件下，声学状态序列

在通用声学模型14上的打分。第一个等式是贝叶斯(Bayes)决策公式，第二个等式是维特比(Viterbi)近似公式，由于受搜索效率限制，一般都采用第二个等式作为目标函数，搜索最优解也即语音识别结果W₁ ^N*。

影响语音识别的有三个因素：(1)口语内容和语言模型的匹配程度；(2)口语发音和声学模型的匹配程度；(3)识别对齐的搜索裁减错误。本发明的技术方案，就是从提高语言模型的内容匹配程度、声学模型的发音匹配程度，降低识别对齐的搜索裁减错误的角度来提高口语语音识别和对齐效果的：利用动态生成的语言模型，更精确描述试题的答题范围，与口语内容更好地匹配；用通用声学模型，更好地匹配各种类考生的口语发音；利用容错发音词典描述常见发音变异和错误，使得当考生出现常见发音变异和错误时，***仍然可以识别出其想要说的单词，减少识别对齐的搜索裁减错误。实验表明，利用动态生成的语言模型11、通用声学模型14和容错发音词典15，对提高限定范围、非特定口音、有常见错误的真实口语语音的识别性能具有重要作用。

所述量化评估单元2，分别与识别对齐单元1和标准调整单元3连接，量化评估单元2接收评估量化指标信息、标准调整单元3输出的量化评估标准信息和识别对齐单元1输出的文字识别对齐信息，根据所述三个信息提取口语评估特征，进行自动化评估和诊断，生成评估结果和诊断报告信息；对识别对齐后的口语语音，从内容完整性、口语准确性、口语流利性和韵律性层面，提取量化指标对应的量化评估特征，并参照标准调整单元3的最终评估标准，给出评估结果和诊断报告。量化评估单元2包括：评估量化指标模块21、评估标准模块22、口语评估特征模块23、评估诊断模块24、容错发音词典15、标准发音模型25。其中：

所述评估量化指标模块21，是根据口语评估专家设定的答题范围和评估指标，生成特定口语试题对应的评估量化指标，不同的口语试题，所关注的评估量化指标重点不同，评估量化指标可分为完整性、准确性、流利性和韵律性四类，具体含义和计算方法在后面详述；

所述容错发音词典15，用于描述口语词汇和发音音素的对应关系的文件，包含常见的发音变异和发音错误标注信息；

所述评估标准模块22是口语评估专家输入的默认量化评估标准，允许考试组织结构根据具体的考试对象、目的和要求，通过标准调整单元，进行适当调整并生成最终的量化指标评估标准；

所述标准发音模型25，由发音标准的语音训练得到，用于计算发音的准确度，将输入语音特征和标准发音模型比对，计算发音准确度，以及发音有缺陷的单词比例。

在口语准确性评估中，需要用到标准发音模型25，用于衡量对齐后的考生发音和标准发音模型25的匹配程度。这里标准发音模型25采用不同于识别对齐的通用声学模型14，而是采用发音非常标准的语料训练得到，作为考生需要达到的目标。对每段对齐到音素之后的特征片断，我们都可以用后验概率或者似然比形式，其发音准确程度计算如下：

\log P (S | X_{s}^{e}) = \frac{1}{e - s + 1} Σ_{t = s}^{e} {\log P (X_{t} | S) - \log \underset{Q}{Σ} P (X_{t} | Q)}

其中，s和e为音素S对齐得到的起始和终止帧数。如果Q是包含音素S在内的所有音素，则上式计算的就是音素S的对数后验概率；如果Q是不包含音素S的其它竞争音素，则上式计算的就是音素S的对数似然比。以上两者都可以作为音素S的发音准确度的指标，判断音素发音是否有问题，还需要一个检测门限，用于控制发音错误检测的尺度。

所述口语评估特征模块23与识别对齐模块13、评估量化指标模块21、容错发音词典15和标准发音模型25连接，根据评估量化指标模块21的指标要求，从识别对齐好的口语语音中提取评估用的完整性、准确性、流利性和韵律性相关的量化指标；评估特征来源于口语评估专家的知识，通过整理专家量化指标(考点)，可以将这些考点归为完整性、准确性、流利性和韵律性四类评估特征。这四类评估特征，实际上就是量化指标完成情况的统计值，反映考生对特定口语试题考查要求的掌握程度，其意义和计算方法如下：

内容完整性是计算完成答题要求的程度，所述答题要求的程度在识别对齐的基础上，利用标准发音模型比对，计算各单词发音的后验概率，后验概率高于特定门限的作为有效答题部分，统计有效答题语音和要求的答题内容的比例；

口语准确性是计算朗读中单词发音和标准模型的匹配程度，发音有明显问题的单词比例，话题简述中语法错误；所述口语准确性分为两个部分：一个是总体的发音良好程度(Goodness of Pronunciation，GOP)，用单词发音的平均对数后验概率表示；利用后验概率设置门限、或者支持向量机(Support Vector Machine，SVM)检测发音错误率，统计发音有问题和缺陷的单词比例，在识别对齐过程中，采用容错发音词典和包含语法、用词错误的答题范围生成的语言模型，用于对常见发音和用词错误进行检测；

口语流利性是计算平均有效语速、***数量、连读、失去***和同化等单词连贯情况，在识别对齐之后，所述语速由单词的个数和语句的持续时间比值计算，语速以篇章为单位统计句子一级的平均语速；口语答题中的犹豫、重复、修正数量从识别对齐好的语音上统计；口语答题中的连读、失去***和同化，在发音词典中已经加入，并根据维特比对齐的结果判断是否被采用，并统计其个数。

口语韵律性是计算意群停顿、重读弱读、语气语调的口语特征；所述意群停顿从识别对齐的语音上计算，在合理意群停顿上静音的持续时间是否达到停顿的要求，以及在非合理停顿的地方出现异常停顿的个数；重读弱读计算是根据发音的语调、相对强度和持续时间，判断是否为有效重读和弱读；语气语调是根据基音(Pitch)曲线的走向，判断考生朗读是否注意语气语调变化，在升降调的地方是否应用得当。

由于不同的试题篇章，具体的考点个数不会完全一样，因此，评估特征主要采用比例形式计算，保持篇章之间的可比性。对不同考查重点的篇章，设计的考点也不一样，需要有针对性的选择篇章，并标记量化指标考点。

所述评估诊断模块24，分别与口语评估特征模块23和评估标准模块22连接，根据评估标准模块22输出的最终量化指标评估标准，和提取到的完整性、准确性、流利性和韵律性相关的量化口语评估指标，通过特征映射方法进行最终的评估，并给出相应的诊断报告。通过评估特征计算学生打分可以有很多方法，本发明采用以下两种策略：

线性加权：将各评估特征归一化到0～1之间的值，然后按各因素线性加权的方法，计算得到总分。例如，假设某次考试的完整性、准确性、流利性、韵律性权重分别为0.70、0.15、0.10、0.05，某考生对应的评估特征分别为0.9、0.9、0.8、0.7，则总分为：10×(0.70×0.9+0.15×0.9+0.10×0.8+0.05×0.7)＝8.8分，其中，10为评分范围，这里为10分制。这种方法实际上是基于专家规则的方法，比较简单直观，容易调整，是最基本的评估方法。实际上为了提高精度，通常采用分段线性加权方法，对不同水平的考生采用不同的加权策略。

特征分类：根据评估特征和对应的专家评估结果，训练一个分类器，通过分类方法进行打分。常用的分类器包括：线性分类器、混合高斯模型、支持向量机、神经网络、决策树等，或者这些分类器的融合，都可以用于训练评分模型。上述线性加权方法，可以认为是特征分类方法的一个特例，其权重可以通过提供专家评估样本，采用最小均方差等准则训练得到。

所述标准调整单元3，是由考试组织机构根据考试的对象、目的和要求，适当调整评估标准，用以更好地达到考试目的；所述评估标准的调整是利用一组考生样本，通过对专家评估结果进行数据拟合的方法，得到相应的评估门限和权重，根据考试对象、目的和要求调整评估特征的门限以及评估重点的调整，所述评估门限是对小学生、初中生、高中生、大学生、专业人员的完整性、准确性、流利性和韵律性要求设定不相同的评估权重和发音错误检测门限。

口语评估特征模块24，对于不同评估对象、目标和要求的考试来说都是一样的，都是根据量化评估指标模块21的要求提取相应的口语评估特征，只是特定的考试侧重点不同，会有不同的考查权重。例如：初中生朗读考试，基本要求是学生要将篇章清晰念完(完整性达到一定要求)，单词发音比较清晰准确(准确性要求)，语句朗读比较流畅，语速比较正常，不存在太多***、犹豫、重复、修正等，主意一定的连读、失去***、同化现象(流利性要求)，能够适当注意意群停顿、重读弱读和语气语调(韵律性要求)。实验发现，即使是基本的朗读题，不同地区的初中考生，水平差别也比较大，考查标准也有所不同：对水平比较低的地区，则侧重朗读完整性，对准确性、流利性、韵律性要求比较低；对水平较高的地区，则降低朗读完整性的比重，侧重准确性和流利性；对水平非常高的地区，在需要提高韵律性考查的权重。

评估标准调整单元3，对具体的考试来说比较重要，因为题库设计专家的评估标准并不一定适合于所有地区考生的具体情况，需要根据当地考生情况和考试目的、要求进行适当调整。本发明的评估标准调整单元3，通过以下步骤实现：

对考生试卷进行抽样，随机抽取约300份具有代表性的试卷(代表不同水平、性别、学校的考生)，请当地口语考试评估专家进行讨论和评分，为确保专家评分的被认可程度，每份试卷采用5名以上专家独立评分，最后再综合确定该考生的最后得分；

将抽样评分后的考生语音和成绩送入***，***将根据这些样本自动调整各评估特征的权重和各类水平考生的特征分类面，得到更加适合当地口语评估专家的评估标准，代替默认的评估标准进行自动阅卷。

如果以上调整方法需要的数据不能满足要求，也可以采用调整个评估特征权重的方法，实现考查重点的调整，计算机将根据新输入的权重，自动调整加权系数，得到适合考试组织方口语评估专家评估要求的评估结果。

由于评估所依赖的客观评估特征和专家评估标准对所有考生都是一样的，消除了评估尺度掌握不一致的问题，提高了阅卷***的客观公证性。为了说明评分标准的调整问题，我们以线性加权系数的最小均方差估计为例，说明参数估计的过程如下：

假设每个学生的评估特征可以用四维列向量X_i＝(X_i，1，X_i，2，X_i，3，X_i，4)^T表示，T表示转置，对应的专家评分为Y_i，则要计算的最佳权重为四维列向量W＝(W₁，W₂，W₃，W₄)^T，需要满足估计结果和专家评估结果方差最小的准则(最小均方差准则)，即：

W * = \underset{w}{\arg \min} {\underset{i}{Σ} {(Y_{i} - {X_{i}}^{T} * W)}^{2}}

= \underset{w}{\arg \min {} {(Y - X^{T} * W)}^{T} * (Y - X^{T} * W)}

其中，Y＝(Y₁，Y₂，...，Y_N)^T是N个考生得分排列成的列向量，X＝(X₁，X₂，...，X_N)是N个考生评估特征列向量排列成的4×N的矩阵。上述无约束优化问题，可以通过对权向量W求导得到最优解如下：

\frac{&PartialD;}{&PartialD; W} {{(Y - X^{T} * W)}^{T} * (Y - X^{T} * W)} = 0 = > X * (Y - X^{T} * W) = 0

通常，(X*X^T)可逆，可以得到最小均方差的解为：W*＝(X*X^T)^-1*X*Y，即为最小均方差准则下的评估特征加权系数。利用分类器根据评估特征计算考生打分的方法和上述方法类似，都有相应的优化算法和工具实现。

基于客观标准的自动化口语评估***，具体实施方式如下：

首先建立口语评估专家题库：口语评估专家题库的设计、更新和维护，是整个基于客观标准的自动化口语评估***的基础，由口语评估专家根据考试对象、目的和要求，设计各种不同难度和题型的口语试题，并设定相应的答题范围、量化指标和评估标准，形成一个内容丰富的、大规模的口语考试题库，作为标准化口语考试和自动化阅卷的基础。口语评估专家题库与普通题库的主要区别在于，包含以下三个部分：

答题范围：该口语试题正确答题的限定范围，例如，朗读题的文本，话题简述的话题范围设置等，主要是通过答题范围提高语言模型的匹配程度，从而提高语音识别和对齐的效果，答题范围是识别对齐***动态生成或选择语言模型的基础；

量化指标：不同的题型，考查的重点不同，量化指标也不同，例如，朗读题主要考查朗读发音基本功，可以对连读、失去***、同化、重读弱读、语气语调、意群停顿、常见发音错误等，进行详细的标注，以测定考生朗读相关的能力；对话题简述，则侧重内容，考察句式、词汇、常见语法错误等，对发音准确性和流利性量化标注相对少；

评估标准：不同的题型和考试要求，评估的标准也不一样，口语评估专家根据一般评估要求，设置一个基本评估标准，对内容完整性、发音准确性、句子流利性设置一定的权重，并且，对发音准确性设置一个适中的检测门限，作为口语评估的依据。

这部分的具体设置规则由口语评估专家组决定，对基于客观标准的自动化口语评估***主要的影响在于量化评估指标的确定，以及口语评估特征检测门限和评估权重的设置。

在口语评估专家题库基础上，基于客观标准的自动化口语评估***，可以实现全自动的标准化口语评估，其主要的步骤如下：

识别对齐考生语音，需要动态生成语言模型11和容错发音词典15，准备通用声学模型14，具体如下：

动态生成语言模型11：根据口语评估专家设定的答题范围，对朗读题而言，就是用相应的试题生成一个对该题目答卷内容匹配度比较高的语言模型，保证考生答题的识别准确率足够高。动态生成语言模型生成步骤如下：

训练大规模语料的通用语言模型：从网站上下载大规模文本语料，用统计语言模型生成工具，如SRI-LM、CMU-LM、HTK-LM等，生成大规模语料库下的非限定领域统计语言模型，确保语言模型的通用性；

训练特定话题语言模型：将大规模语料库根据话题进行分类，用同样方法训练特定话题的统计语言模型；

生成特定口语试题相应的语言模型：根据特定试题答题范围，词汇范围，对特定话题语料进行裁减，训练更小规模的语言模型，并与特定话题语言模型和通用语言模型进行插值，动态生成语言模型11。语言模型11的一个特例就是朗读题，答题范围是一个限定的文本，此时，可以根据该文本生成一个针对性非常强的语言模型，确保非常高的语音识别对齐效果。

通用声学模型14：用不同地区各类考生的句子朗读语音，训练通用声学模型，得到能描述各种考生的音素发音三因子声学模型，适合于所有的考生语音的声学匹配；采用强约束的语言模型11结合通用声学模型14的主要优点在于，能够确保足够识别率的同时，确保对水平相对低的考生保持公平性。通用声学模型14通过以下步骤训练：

采集大规模声学模型训练语料：选择不同性别、年龄、地域的人群，朗读设计好的音素平衡脚本，获取相应的录音数据。这类数据，也可以通过语言数据联盟(LDC)等组织购买得到；

选择训练用的发音词典，整理音素集，设计问题集：例如英语，可选择英式发音为主的BEEP词典，美式发音为主的CMU词典等，作为相应的发音词典；从发音词典中可以整理出音素集，并根据音素归类设计相应问题集；

训练通用声学模型14：用上述数据资源和词典，可通过HTK、Sphinx等声学模型训练工具，训练三音子声学模型，并利用特征变换、区分度训练、自适应训练等算法，提高通用声学模型14的精度；

容错发音词典15：是用于描述口语词汇和发音音素的对应关系的文件，包含常见的发音变异和发音错误标注信息。对一些容易发错的单词，识别词典也将其常见发音变异和错误列入词典中，确保在考生出现这些常见错误时，识别器不会因为按照标准发音的声学模型得分低而发生错误裁减，提高识别器的容错能力，同时，也提高常见错误的检测能力。容错发音词典15，是在标准词典基础上，根据教学评估专家的常见错误，将容易出现发音错误的词条错误发音样本添加到标准词典中，并标记为错误。通过不断的考试测试和统计，逐步完善容错发音词典15。

通过以上三点，识别对齐单元1可以在确保足够高识别率的同时，容纳各种类型考生，实现阅卷评估特征提取的客观公平性。

口语评估特征模块23：在对口语语音进行识别对齐之后，发音特征和音素模型将建立起对应时间关系，根据对应好的结果计算相应的口语评估特征，还需要标准发音模型25、容错发音词典15、评估量化指标模块21的支持，具体如下：

标准发音模型25：采用标准发音语音训练标准发音模型，作为考生发音的目标要求，用于计算考生发音和标准语音的相似程度；标准发音模型25的训练，和通用声学模型14训练方法相同，主要区别在于所采用的训练语料不同：通用声学模型14的训练语料，采用普通的语料库，只要发音没有明显错误就可以；标准发音模型25的训练语料，需要发音相对比较标准的语料进行训练，代表考查对象中水平相对比较高的人群，确保评估发音时，具有较好的参照价值；

容错发音词典15：和识别对齐单元1一样，是用于描述口语词汇和发音音素的对应关系的文件，包含常见的发音变异和发音错误标注信息，如果识别对齐过程发现这些常见发音错误出现，则会计算常见发音错误的个数；

评估量化指标模块21：提取评估特征，需要和评估量化指标对比，因此，口语评估专家在描述定量指标时，给出需要检测的量化评估指标，如：连读、失去***、同化，重读弱读，语气语调，意群停顿等，计算机将根据专家标注的量化评估指标(考点)，统计这些指标的完成情况，以比例形式衡量考生的相应评估层面的水平；

评估标准模块22，包括量化评估指标的提取门限和评估诊断的权重。量化评估指标的提取门限主要是针对发音质量评估特征，通过与标准发音模型25对比，计算发音有缺陷的音素比例。不同的检测门限，代表不同的检测要求：检测门限越高，代表对发音准确度的要求越高；检测门限越低，表示对发音准确性的要求越低。检测门限，实际上就是以标准发音模型25为基准的声学后验概率的门限。

在确定以上四个评估特征提取需要的参数之后，就可以根据识别对齐后的语音，进行评估特征提取，其主要步骤如下：

检测内容完整性指标：比对答题范围和要求，计算口语答题的完成程度，通常用真实完成的单词和要求完成的单词比例描述，例如，朗读题中为清晰读完的单词比例，话题简述题型中为准确叙述的单词与要求的比例等，计算公式如下：

在计算过程中，如果语句或者单词重复，自动以完成得较好的一次为准。

检测发音准确性指标：在完成的内容中，计算单词发音的平均声学后验概率和发音有问题的音素、单词比例(特定检测门限下)，计算方法如下：

P = GOP - \frac{E}{N} \times 100 %

GOP = \exp {\frac{1}{N} \underset{k}{Σ} \log P ({phone}_{k})}

\log P ({phone}_{k}) = \frac{1}{t_{s} - t_{s} + 1} Σ_{t = t_{s}}^{t_{e}} \log {\frac{P (X_{t} | {phone}_{t})}{\underset{Q}{Σ} P (X_{t} | Q)}}

其中，GOP(Goodness of Pronunciation)是发音和标准模型匹配的后验概率平均值，N是整个完成的音素个数，E是N中根据特定检测门限计算的错误音素个数，logP(phone_k)是第k个音素(phone)的对数后验概率，t_s，t_e为phone_k的起始和终止帧数，Q为所有与phone_k竞争的音素。这样，每个音素的对数后验概率，就是每帧的对数后验概率的时间平均，而整个语篇的发音后验概率，就是这些音素对数后验概率的算术平均值。如果以对数后验概率作为检测发音错误的依据，则E就是对数后验概率小于特定门限的音素个数。

检测句子流利性指标：计算有效平均语速，***、犹豫、重复、修正比例，连读、失去***、同化比例，重读弱读、意群停顿、语气语调等，计算方法如下：

F＝M×α_M+L×α_L+K×α_k

其中，F为整理流利度，包括不流利度M(Miscues，犹豫、重复、修正、***等比例)，连贯度L(连读、失爆、同化完成比例)，节奏K(重读弱读、意群停顿、语气语调等完成比例)三个方面，权重分别为α_M，α_L，α_K，通过专家设定或者训练得到。这里有效语速S目前没有作为流利度的硬性指标加入流利度中，作为一个参考值给出，因为通常的口语考试中，对语速的要求往往不是非常严格，只要能在规定时间内完成答题就可以。如果需要特别注重语速平稳等，也可以作为一个指标计算流利度。另外，韵律评估特征K，一般考试要求都不高，通常包含到流利性特征F中计算。

评估诊断模块24：在提取上述口语评估特征之后，根据调整后的评估标准模块22，就可以得到最终的评估结果，一个最简单的评估方法就是线性加权组合得到：

Score＝(I×α_I+P×α_P+F×α_F)×Scale

其中，I、P、F就是上面得到的内容完整度、发音准确度和句子流利度评估特征，α_I，α_P，α_F分别为其权重，通过专家设置或数据拟合得到；Scale是评分的分制，可根据具体需要设置。除了线性加权方法，还可以用混合高斯模型(Gaussian Mixture Model，GMM)，支持向量机(SupportVector Machine，SVM)，多层感知机(Multi-Layer Preceptron，MLP)或决策树(Decision Tree)等分类方法实现。这些分类器都有成熟的训练方法，其缺点是不够直观，必须依靠数据驱动方法实现，很难由专家知识指定和调整参数。为了提高数据拟合精度，也可以考虑将上述方法进行融合提高性能。

标准调整单元3与量化评估单元2连接：标准调整单元3是由考试组织机构根据考试的对象、目的和要求，适当调整评估标准，用以更好地达到考试目的；所述评估标准的调整是利用一组考生样本，通过对专家评估结果进行数据拟合的方法，得到相应的评估门限和权重，根据考试对象、目的和要求调整评估特征的门限以及评估重点的调整；所述评估权重和门限是对小学生、初中生、高中生、大学生、专业人员的完整性、准确性、流利性和韵律性要求设定不相同的评估权重和发音错误检测门限。

评估标准的调整包含两个基本方面，一是调评估特征提取的门限控制，例如，降低或者提高发音准确度的检测标准要求，改变口语准确性评估特征本身的范围；二是改变不同评估特征的权重，改变考查的重点，以上两个方法可以结合使用。首先，评估特征提取门限可以比较直观地调整，控制错误检测的要求严格程度。而评估特征的权重调整，通过以下步骤实现：

对考生试卷进行抽样，随机抽取反映不同考生情况的约300名考生；

请当地口语评估专家讨论评估标准，并对以上考生进行独立评估，每位考生至少5名专家评估；

综合专家评估结果，对每份考生答卷给出一个最终的评分；综合的方法，可以是简单的对专家评分计算算术平均值，也可以综合专家意见，统一复评得到最终比较一致认可的评分；

将最终得到考生答卷和专家评估结果输入***，用参数估计方法，调整评估标准，得到最终的评估权重参数。具体的调整方法，和选择的评分策略有关：

线性加权***：用最小均方差等算法估计最优权重；

GMM***：用EM(Expectation-Maximization)算法迭代估计均值和方差等；

SVM***：用数值优化方法寻找最优支持向量组；

决策树***：用***算法寻找最优***策略。

通过上述步骤，就可以实现基于客观标准的自动化口语评估，在保证客观公证性的同时，可以根据不同考试对象、目标和要求，根据相关专家意见统一调整***的评估标准。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.基于客观标准的自动化口语评估***，其特征在于：***包括识别对齐单元、量化评估单元和标准调整单元，其中：

2.根据权利要求1所述基于客观标准的自动化口语评估***，其特征在于，所述标准调整单元，是由考试组织机构根据考试的对象、目的和要求，适当调整评估标准，用以更好地达到考试目的；所述评估标准的调整是利用一组考生样本，通过对专家评估结果进行数据拟合的方法，得到相应的评估门限和权重，根据考试对象、目的和要求调整评估特征的门限以及评估重点的调整；所述评估权重和门限是对小学生、初中生、高中生、大学生、专业人员的完整性、准确性、流利性和韵律性要求设定不相同的评估权重和发音错误检测门限。

3.根据权利要求1所述基于客观标准的自动化口语评估***，其特征在于，所述识别对齐单元包括：

通用声学模型是从大规模带内容标注的口语语料训练得到，用于描述音素的发音特征分布的文件；

容错发音词典是用于描述口语词汇和发音音素的对应关系的文件，包含常见的发音变异和发音错误标注信息；

语言模型，根据口语试题的答题范围信息，生成语言模型文件，并包含常见的语法和用词错误信息；

语音特征模块，接收口语语音信息，生成口语语音倒谱特征参数信息；

识别对齐模块分别读取通用声学模型、容错发音词典和语言模型，与语音特征模块连接，接收语音特征模块输出的口语语音倒谱特征参数信息，利用帧同步搜索算法将口语语音倒谱特征参数信息，在容错发音词典和语言模型约束下，与通用声学模型进行动态匹配，输出识别文字信息和对齐结果信息。

4.根据权利要求3所述基于客观标准的自动化口语评估***，其特征在于，所述通用声学模型包含各地口音的训练语料，训练得到的性别相关模型，采用最小音素错误区分度训练准则和异方差线性区分性建模方法训练得到，确保声学匹配性能和识别效果。

5.根据权利要求3所述基于客观标准的自动化口语评估***，其特征在于，所述容错发音词典，采用通用的标准发音词典，加上常见的口语发音变异和发音错误，用于提高对真实口语语音的识别和对齐准确性。

6.根据权利要求3所述基于客观标准的自动化口语评估***，其特征在于，所述语言模型为N元文法模型，根据口语评估专家设定的口语答题范围，动态生成语言模型，提高识别准确率，答题范围由口语评估专家设置，语言模型中包含常见的语法和用词错误。

7.根据权利要求3所述基于客观标准的自动化口语评估***，其特征在于，所述语音特征模块，是用13维感知线性预测特征，加上一阶和二阶差分，构成39维语音特征向量。

8.根据权利要求3所述基于客观标准的自动化口语评估***，其特征在于，所述识别对齐模块是基于帧同步搜索算法进行识别和对齐。

9.根据权利要求1所述基于客观标准的自动化口语评估***，其特征在于，所述量化评估单元包括：

标准发音模型由发音标准的语音训练得到，用于计算发音的准确度，将输入语音特征和标准发音模型比对，计算发音准确度，以及发音有缺陷的单词比例；

评估量化指标模块是根据口语评估专家设定的答题范围和评估指标，生成特定口语试题对应的评估量化指标，不同的口语试题，所关注的评估量化指标重点不同，评估量化指标可分为完整性、准确性、流利性和韵律性四类；

评估标准模块是口语评估专家输入的默认量化评估标准，允许考试组织结构根据具体的考试对象、目的和要求，通过标准调整单元，进行适当调整并生成最终的量化指标评估标准；

口语评估特征模块与识别对齐模块、评估量化指标模块、容错发音词典和标准发音模型连接，根据评估量化指标模块的指标要求，从识别对齐好的口语语音中提取评估用的完整性、准确性、流利性和韵律性相关的量化指标；

评估诊断模块分别与口语评估特征模块和评估标准模块连接，根据评估标准模块输出的最终量化指标评估标准，和提取到的完整性、准确性、流利性和韵律性相关的量化口语评估指标，通过特征映射方法进行最终的评估，并给出相应的诊断报告。

10.根据权利要求9所述基于客观标准的自动化口语评估***，其特征在于，所述口语评估特征模块包括：完整性、准确性、流利性和韵律性四个层面，用于评估口语语音的内容、语法、发音、重音、语速、连贯、重复、语气、语调、连读、失去***、同化、停顿指标；四个评估层面的口语量化评估计算如下：

口语准确性是计算朗读中单词发音和标准模型的匹配程度，发音有明显问题的单词比例，话题简述中语法错误；所述口语准确性分为两个部分：一个是总体的发音良好程度，用单词发音的平均对数后验概率表示；利用后验概率设置门限、或者支持向量机检测发音错误率，统计发音有问题和缺陷的单词比例，在识别对齐过程中，采用容错发音词典和包含语法、用词错误的答题范围生成的语言模型，用于对常见发音和用词错误进行检测；

口语韵律性是计算意群停顿、重读弱读、语气语调的口语特征；所述意群停顿从识别对齐的语音上计算，在合理意群停顿上静音的持续时间是否达到停顿的要求，以及在非合理停顿的地方出现异常停顿的个数；重读弱读计算是根据发音的语调、相对强度和持续时间，判断是否为有效重读和弱读；语气语调是根据基音曲线的走向，判断考生朗读是否注意语气语调变化，在升降调的地方是否应用得当。