CN101739868A

CN101739868A - 一种用于口语测试的文本朗读水平自动评估诊断方法

Info

Publication number: CN101739868A
Application number: CN200810226674A
Authority: CN
Inventors: 徐波; 江杰; 柯登峰; 徐爽; 浦剑涛; 陈振标
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Iflytek South Asia Information Technology Yunnan Co ltd
Priority date: 2008-11-19
Filing date: 2008-11-19
Publication date: 2010-06-16
Anticipated expiration: 2028-11-19
Also published as: CN101739868B

Abstract

本发明涉及一种用于口语测试的文本朗读水平自动评估诊断方法，该方法提取测试者按照给定文本进行朗读语音的各项特征；训练朗读特征与人工评分的拟分模型；测试时依据其朗读特征和拟分模型拟合出机器评分，并给出相关的诊断信息。它要求测试者朗读预先设定的文本，然后利用收集到的语音对测试者的口语能力做出自动评估。其特点是利用计算机提取测试者朗读语音的各项特征，在拟分模型上拟和得出机器评分，从而达到评估测试者口语语言能力的目的。

Description

一种用于口语测试的文本朗读水平自动评估诊断方法

技术领域

本发明涉及计算机辅助语言学***自动评估诊断方法，它要求测试者朗读预先设定的文本，然后利用收集到的语音对测试者的口语能力做出自动评估。

背景技术

近十年来，计算机辅助学***公正的评估结果。至于如何在收集到的大量评估数据基础上，开发出有效的自动评估算法，则成为自动口语评估所需要研究的内容。

目前已有的自动口语评估方法的框架大体都是基于朗读语音评估，通过评估测试者的朗读语音得出机器评分，其选用的特征主要是发音和汉语声调，并且诊断信息不足。

发明内容

本发明的目的是在收集到的大量评估数据基础上，开发出有效的自动评估方法，通过对测试者的朗读语音进行处理，从而自动评估其口语能力，为此本发明提出一种用于口语测试的文本朗读水平自动评估诊断方法。

为达成所述目的，本发明提供一种用于口语测试的文本朗读水平自动评估诊断方法，其技术方案如下所述：测试者朗读预先设定的文本，提取测试者按照给定文本朗读语音的特征，选取完整性、准确性和流利性三方面特征作为机器评估的评判标准，在历史评估数据上提取并训练其统计模型和拟分模型用于实际的评估。测试的时候，同样提取测试人朗读语音的特征，在统计模型上打分，最后通过拟分模型得出实际的机器分。同时，对该测试者的各项语言能力，该发明可以按照不同的分类给出其相应的诊断信息，用于纠正测试者的错误，使其能够在测试中不断进步。

本发明的有益效果：本发明基于测试人朗读语音的语言能力自动评估，利用大量的历史评估数据，该方法能够做到公允、准确、详尽的口语能力评估，并且能有效地克服人工评分的随意性和主观性，从而促进测试者的语言学习过程。本发明的特点是：利用改进的发音、声调、语速和音节段长特征，同时加入特有的对齐特征、停顿特征和编辑特征，将特征分别归为完整性、准确性和流利性三大类，分门别类对测试者的语音做评估和诊断。同时针对不需要诊断信息和需要诊断信息的场合，分别采用直接拟合和分层拟合框架做机器分拟合。此外，采用分段拟合来处理失衡的训练数据。

附图说明

图1是本发明的朗读语音评估总体框架。

图2是本发明的直接拟合框架。

图3是本发明的分层拟合框架。

图4是本发明的英语口语诊断界面示例图。

图5是本发明的汉语声调诊断界面示例图。

具体实施方式

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

请参阅图1，本发明的朗读语音评估总体框架。对照图1，为了达到朗读评估的目的，需要在一台配备录音设备的计算机上实现本发明的朗读语音评估，还需要准备的资源包括：历史评估数据和朗读文本；需要使用通用编程语言(如C++)编制总体结构各模块的程序，包括：模型训练模块、拟合参数训练模块、特征提取模块和分数拟合模块；在测试时候也需要要求测试者按照朗读文本进行朗读录音。至此，实际的评估流程为：测试者利用模型训练模块按照朗读文本进行录音，然后利用特征提取模块提取测试者按照给定文本进行朗读语音的各项特征，利用拟合参数训练模块训练朗读特征与人工评分的拟分模型；利用分数拟合模块测试时依据其朗读特征并且用拟分模型得出机器评估分数和相关的诊断信息。其中特征提取模型和拟分模型的参数是通过历史评估数据训练出来的。

下面对本发明方法的具体特征说明如下：

一、特征部分；

1、完整性特征，其是用于表征测试者朗读内容与标准答案的符合度。根据侧重点不同，完整性特征又分为词对齐特征和段对齐特征。

其提取方法是：将测试者朗读语音做自动识别的结果Sr与标准文本S_d分别做正向和反向的动态匹配，取两次匹配的交集(加上不匹配部分的边界重复段)为匹配集合S_a。对于属于匹配集合S_a的每一个词W_a，将紧临W_a的两个词都标记为匹配，这时候得到的匹配集合是S_m。这样就有：

词对齐特征WRM＝S_a/S_d。

段对齐特征SM＝S_m/S_d。

2、准确性特征，其包括发音和声调两部分。

发音特征向量F_p的提取方法是：取完整性特征中匹配集合S_a，做音素级别的自动强制对齐，对于对齐后的每个音素P及其语音信号O，计算给定音素P的声学模型M_p情况下，语音信号O的模型打分P(O|M_p)作为发音打分Ppi。将M种不同的模型打分方法计算出的分数合并为一个发音打分向量作为发音特征Pp＝[P_p1，P_p2，...，P_pM]，并按照朗读文本做加权。最终发音特征向量：

其中k_w是音素P的发音权重。

模型打分方法有如下几种：

a)基于隐马模型对数似然分LL：

LL (q_{i}) = \frac{1}{N_{i}} Σ_{t = t_{0}}^{t_{0} + N_{i}} \log P (o_{t} | q_{i})

其中音素q_i对应语音O_t，长度为N_i，起始时间是t₀，logP(o_t|q_i)是O_t在q_i上的声学模型打分。最终的打分是在整句上做平均，其中句长M：

LL = \frac{1}{M} Σ_{i = 1}^{M} LL (q_{i})

b)基于隐马模型对数后验概率分LPP：

LLP (q_{i}) = \frac{1}{N_{i}} Σ_{t = t_{0}}^{t_{0} + N_{i}} \log P (q_{i} | o_{t})

\log P (q_{i} | o_{t}) = \log \frac{p (o_{t} | q_{i}) P (q_{i})}{\underset{q_{j} &Element; Q}{Σ} p (o_{t} | q_{j}) P (q_{j})}

其中q_i对应语音O_t，长度为N_i，起始时间是t₀，logP(o_t|q_i)是O_t在q_i上的声学模型打分，Q是q_i的竞争音素集合。

最终的打分是在整句上做平均，其中句长M：

LLP = \frac{1}{M} Σ_{i = 1}^{M} LLP (q_{i})

根据竞争音素不同计算方法，LLP有多种变形，包括全音素LLP，临近音素LLP，动态竞争音素LLP等，这些变形特征都并列组合为LLP特征向量。

声调特征F_t的提取方法是：取完整性特征中匹配集合S_a，做音节级别的自动强制对齐，对于对齐后的每个音节W及其语音信号O，计算给定音节W的声调模型T_w情况下，语音信号O的后验概率P(O|T_w)作为声调打分P_w，并按照朗读文本做加权。最终声调特征F_t表示如下：

F_{t} = \underset{w &Element; S_{a}}{Σ} P_{w} h_{w},

其中h_w是音节W的声调权重。

3、流利性特征，包括测试者的语速评估、音节段长评估、停顿特征检测和编辑特征检测。

1)语速评估有两个特征：语速ROS和调音速率ART。ROS是测试者单位时间内说出的音素个数，而ART是测试者的平均音素时长(去掉重复的现象)，其计算是：

ROS＝n/T

ART＝n′/T′

其中n是总音素个数，T是总时长；n’是去除重复音素的总音素个数，T’是去除音素间间隔的总时长。

2)音节段长评估特征SDS，其特点是利用各音素的段长模型对朗读语音打分，最后按音素做算术平局：

SDS = \frac{1}{M} Σ_{i = 1}^{M} \log P (t | p_{i}, o)

其中M是总音素个数，P(t|p_i，o)是给定音素p_i和语音o情况下时长为t的概率。

3)停顿特征PD的检测，其特点是利用静音检测出的停顿点，在停顿模型上对测试者的停顿次数和分布进行打分：

平均停顿时长PDur＝n_p/T_p

平均停顿次数NDur＝n_p/M

停顿分布向量P_d＝[P₁，P₂，...，P₁₀]

其中n_p是总停顿次数，T_p是总停顿时长，M是句子音素个数，P_i是停顿间隔排序后，第i/10部分的停顿时长。

4)编辑特征ED，其特点是利用语言编辑模型检测朗读语音中音素的重复个数N_r、***个数N_i和删除个数N_d，然后对朗读文本长度归一化。

ED = \frac{w_{r} N_{r} + w_{i} N_{i} + w_{d} N_{d}}{M}

其中M是总音素个数，w_r，w_i和w_d分别是三种现象的权重。

二、分数拟合

在上述特征基础上，最终的回归方法采用线性回归：

Y＝β₀x₀+β₁x₁+...+β_nx_n+ε

其中x₀..x_n是拟合输入的归一化向量，β₀，...β_n是在大规模数据上训练得到的回归系数，ε是残差。

本发明具体的拟合方法有两种不同的框架，对于不同的应用，采取不同的框架做拟合。下面详述这两种框架：

1)直接拟合框架(参见图2)：对于仅需要机器分数而不需要诊断信息的场合(如考试)，为了加快计算速度，采取直接拟合模块。这里不需要按照先前的特征划分方式(完整性、准确性和流利性特征)，而是直接将最基本的特征提取出来，直接用于训练拟分模型。这些特征包括词对齐特征、段对齐特征、发音特征、声调特征、语速特征、段长特征、停顿特征及编辑特征，它们之间是并列的关系，拼接起来作为拟分模型的训练输入。也就是说，训练该拟分模型的时候，使用上述所有特征作为x₀..x_n，人工评分为Y，计算模型参数β₀，...β_n。测试的时候，使用各项特征作为x₀..x_n，利用β₀，...β_n直接计算出机器评估分。

2)分层拟合框架(参见图3)：

在需要诊断信息的场合，采取分层拟合框架。这里不同于直接拟合框架的地方在于，需要将直接拟合框架的训练输入特征按照各自不同的分类分别进行拟合。也就是说，将上述特征按照完整性(词对其特征、段对齐特征)、准确性特征(发音特征、声调特征)和流利性特征(语速特征、段长特征、停顿特征、编辑特征)分类，计算完整分拟合模型、准确分拟合模型和流利分拟合模型各自的模型参数β_1，0，…，β_1，n，β_2，0，…，β_2，n和β_3，0，…，β_3，n，然后再训练从完整性特征、准确性特征和流利性特征拟合机器分的参数β₀，β₁，β₂。测试的时候，同样先将特征分三类，按照β_1，0，…，β_1，n，β_2，0，…，β_2，n和β_3，0，…，β_3，n计算完整性特征、准确性特征和流利性特征，得到完整性打分、准确性打分和流利性打分，再利用分层拟合模型进行分层拟合，得到机器分的参数β₀，β₁，β₂，然后使用β₀，β₁，β₂计算出机器分。

对于训练集合中人工标注数据分布不均匀的情况，需要采取分段拟合的策略使得拟合模型能够得到较好的效果，尤其是在缺乏特别好或特别差数据的情况下。这需要按照实际的分数分布将分数分段，使得各分数段内部的人工打分趋于平衡，从而减少数据失衡对拟合的影响。

分段方法如下：设总体分布区间是[S_d，S_u]，最终分数段集合是Q，参数P用于控制分数段内部不均衡的程度：

步骤A：设置Q为空集，S₁＝S_d，S₂＝S₁+1，取V_a为S₁对应打分个数；这里S₁和S₂分别做为备选分数区间的开始和结束位置。

步骤B：取V₂为S₂对应打分个数，如果

\frac{(V_{2} - V_{a})}{V_{a}} \leq P,

则S₂＝S₂+1，到步骤C；否则Q＝Q∪[S₁，S₂)，S₁＝S₂+1，到步骤D；

步骤C：如果S₂大于S_u，Q＝Q∪[S₁，S₂]，到步骤E；否则对[S₁，S₂-1]集合中所有点对应的打分个数取算术平均，更新V_a，返回步骤B；

步骤D：如果S₁＜S_u-1，则S₂＝S₁+1，取V_a为S₁对应打分个数，返回步骤B；否则Q＝Q∪[S₁，S_u]，到步骤E；

步骤E，输出最终分数段集合是Q，算法完成，退出。

在得到分数段集合后Q，对于Q中每一个集合建立一个拟合模型，同时，各类之间建立分数段分类器。在测试时候，对于不同的数据，先用分数段分类器判断该测试样本属于哪一个分数段，然后再用该分数段的拟合模型拟合出该样本的机器分。

三、诊断信息

图4是本发明的英语口语诊断界面示例。图中测试者(考生)的语音波形显示在图下方，图中的参考语音是用于提示考生正确的读法。测试者的各项诊断信息以评估报告的形式展示在图的中部，在此不再赘述。

图5是本发明的汉语口语诊断界面示例。图中测试者的语音整体波形显示在左上部。左下部是测试者的声调与标准调型的对比信息。测试者朗读文本右上部是错误点定位的报告说明，测试者朗读文本右下部是汉语发音诊断信息的总体评价报告说明，以评估报告形式给出。图中，整体波形是该考生朗读的所有语音的波形显示；而当前波形是当前在整体波形中高亮的那个词的波形显示；相应的，声调对比是该词的实际声调与标准调值的比对。

本发明在给出测试者口语评测结果的同时，诊断信息也会按照不同的特征分类给出：

1)完整性诊断：对于没有朗读和朗读不完整的部分，在用户界面上用特定的颜色标识出来。

2)准确性诊断：汉语的每个字都会给出对应的声调诊断信息。请参阅图4，本发明的汉语声调诊断界面示例，左下部显示出了的测试者调值和标准调值的对比。

此外，对于错误的音素和字，也会在用户界面上高亮显示。其中汉语和英语按照各自不同的发音规范作为诊断标准：

a)对于元音，按照其舌位给出诊断：

i.舌位的高低；

ii.舌位的前后；

iii.嘴唇的圆展。

b)对于辅音，按照其发音部位和发音方法给出诊断：

i.发音部位：双唇、唇齿、齿间、舌尖前、舌尖中、舌尖后、舌叶、舌面、舌跟、小舌、喉。

ii.发音方式：塞音、擦音、塞擦音、颤音、闪音、边音、半元音。

3)流利性诊断：按照特征分类显示。语速诊断包括测试者的语速信息和与标准语速的对比；音节段长异常的音素、不合理的停顿和重复***删除都在界面上高亮显示。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种用于口语测试的文本朗读水平自动评估诊断方法，其特征是

步骤1：测试者朗读预先设定的文本，提取测试者按照给定文本朗读语音的特征，所述朗读语音特征包括：可客观计算的完整性特征、准确性特征和流利性特征；

步骤2：在历史评估数据上提取并训练朗读特征与人工评分的拟分模型；

步骤3：测试时依据其朗读特征和拟分模型拟合出机器评分，并给出测试者朗读特征的诊断信息。

2.根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是：所述完整性特征提取包括：将测试者朗读语音做自动识别的结果与标准文本分别做正向和反向的动态匹配，取两次匹配和匹配部分的边界重复段的交集为匹配集合，然后根据各自不同的匹配度计算词对齐特征和段对齐特征，用于表征测试者朗读内容与标准答案的符合度。

3.根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是：所述准确性特征提取包括发音特征和汉语的声调特征，其中：

所述发音特征向量提取是取完整性特征中匹配集合，做音素级别的自动强制对齐，对于对齐后的每个音素及其语音信号，计算给定音素的声学模型情况下，语音信号的模型打分P(O|M_p)作为发音打分；将M种不同的模型打分计算出的分数合并为P_p＝[P_p1，P_p2，P_pM]，并按照朗读文本做加权；最终计算发音特征向量F_P为：

F_{p} = \underset{p &Element; S_{a}}{Σ} P_{p} k_{w},

其中k_w是音素P的发音权重，S_a是完整性特征中匹配集合a，M_p是给定音素的声学模型，O是语音信号；

所述声调特征提取是取完整性特征中匹配集合，做音节级别的自动强制对齐，对于对齐后的每个音节其语音信号，计算给定音节的声调模型情况下，语音信号的后验概率P(O|T_w)作为声调打分，并按照朗读文本做加权，最终计算声调的特征F_t为：

F_{t} = \underset{w &Element; S_{a}}{Σ} P_{w} h_{w},

其中h_w是音节W的声调权重，T_w是声调模型，P_w是声调打分。

4.根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是：所述流利性特征提取包括测试者的语速评估特征、音节段长评估特征、停顿特征和编辑特征以及相应的计算，各特征之间是并列关系，如下所述：

语速评估特征提取包括：利用语速提取测试者单位时间内说出的音素个数；利用调音速率提取测试者去掉重复的现象的平均音素时长；

音节段长评估特征提取是利用各音素的段长模型对朗读语音打分，最后将该打分按音素做算术平局；

停顿特征提取是利用静音检测出的停顿点，在停顿模型上对测试者的停顿次数和分布进行打分；

编辑特征提取是利用语言编辑模型检测朗读语音中的重复、***和删除现象的个数，然后对朗读文本长度归一化。

5.根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是：所述训练朗读特征与人工评分的拟分模型是利用训练集合中的人工标注数据，采用回归法，将多个朗读特征拟合为机器分；对于在人工打分方面分布失衡的训练数据，需要采取分段拟合的策略，按照分数分布将分数分段，使得各分数段内部的人工打分趋于平衡，用于减少数据失衡对拟合的影响。

6.根据权利要求1所述计算机评估测试者口语朗读语言能力的方法，其特征是：所述诊断信息还包括：

在需要评分、不需要诊断信息的评估场合选用直接拟合框架，直接用各项朗读特征通过拟合模型得出机器分；

在需要评分、又要诊断信息场合，选用分层拟合框架，先拟合基本特征分数和完整分、准确分和流利分和相应的诊断信息，然后在此基础上再拟合出机器分。

7.根据权利要求1所述用于口语测试的文本朗读水平自动评估诊断方法，其特征是：所述诊断信息是按照各自不同的分类，给出详细的测试者诊断信息为：

完整性诊断：是将计算词对齐特征和段对齐特征过程中没有匹配上的字或词在用户界面上用颜色标识出完整性诊断；

准确性诊断：是对汉语或英语的每个音素给出其发音准确性诊断信息：包括错误发音和发音方式诊断，具体方式是将所有后验概率低于预定门限的发音标记为错误发音，并且按照其发音方式分类结果，给出对应的诊断信息；其中对于元音，按照其舌位给出诊断信息；对于辅音，按照其发音部位和发音方法给出诊断信息；对汉语的声调诊断信息：凡识别出的声调与汉字的候选发音不同，则标记为错误声调，同时按照识别出的声调给出诊断信息；

流利性诊断：是按照特征分类显示，为语速诊断包括测试者的语速信息和与标准语速的对比、音节段长异常的音素、不合理的停顿和重复***删除都在界面上高亮显示。