CN103559892A

CN103559892A - 口语评测方法及***

Info

Publication number: CN103559892A
Application number: CN201310554703.4A
Authority: CN
Inventors: 王士进; 刘丹; 陈进; 魏思; 胡郁; 刘庆峰
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2013-11-08
Filing date: 2013-11-08
Publication date: 2014-02-05
Anticipated expiration: 2033-11-08
Also published as: CN103559892B

Abstract

本发明涉及语音信号处理技术领域，公开了一种口语评测方法及***，该方法包括：接收待评测的语音信号；利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断；从所述语音片断中分别提取对应不同特征类型的评测特征；计算所述评测特征的原始得分；按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；根据不同评测特征的综合得分计算所述语音信号的得分。利用本发明，可以提高口语评测的准确性，减少异常评分。

Description

口语评测方法及***

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种口语评测方法及***。

背景技术

作为人际交流的重要媒介，口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧，人们对语言学***评测方法使教师和学生在教学时间和空间上受到很大限制，在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡；人工评测无法避免评估者自身的个体偏差，从而不能保证评分标准的统一，有时甚至无法准确反映被测者的真实水平；而对于大规模口语测试，则需要大量的人力、物力和财力支持，限制了经常性、规模性的评估测试。为此，业界相继开发出了一些语言教学和评测***。

在现有技术中，口语评测***通常采用单识别器对接收到的语音信号进行语音识别（如问答题）或者语音文本对齐（如朗读题），从而获取各基本语音单元对应的语音片断。随后***从各语音片断中分别提取描述各基本语音单元发音标准度或流畅度等衡量口语评测标准的特征，最后基于所述特征通过预测分析得到评测最终得分。

在安静的环境下使用高保真的录音设备时，语音识别***由于能提供较高的识别准确率因而后续口语评测也能提供较为客观准确的结果。然而在实际应用中特别是对于大规模口语考试，录音环境不可避免会受到考场噪声、环境噪声等因素的影响，语音识别准确率下降导致口语评测过程中会出现一定比例的异常评分语音。显然这种现象使得大规模口语考试中计算机自动评分很难真正实用，限制了口语评测***的应用范围和推广，对很多至关重要的考试无法应用，否则一旦出现异常评分就会造成评卷事故。

发明内容

本发明实施例提供一种口语评测方法及***，以提高口语评测的准确性，减少异常评分。

为此，本发明提供如下技术方案：

一种口语评测方法，包括：

接收待评测的语音信号；

利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断；

从所述语音片断中分别提取对应不同特征类型的评测特征；

计算所述评测特征的原始得分；

按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；

根据不同评测特征的综合得分计算所述语音信号的得分。

优选地，所述特征类型包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征。

优选地，所述计算所述评测特征的原始得分包括：

加载与所述评测特征的特征类型相对应的评分预测模型；

计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。

优选地，对应不同题型的同一特征类型的评分预测模型不同。

优选地，所述按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分包括：

针对同一特征类型的基于不同语音识别***得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。

一种口语评测***，包括：

接收模块，用于接收待评测的语音信号；

语音片断获取模块，用于利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断；

特征提取模块，用于从所述语音片断中分别提取对应不同特征类型的评测特征；

计算模块，用于计算所述评测特征的原始得分；

优化融合模块，用于按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分；

评分模块，用于根据不同评测特征的综合得分计算所述语音信号的得分。

优选地，所述计算模块包括：

加载单元，用于加载与所述评测特征的特征类型相对应的评分预测模型；

相似度计算单元，用于计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。

优选地，所述评分模块，具体用于针对同一特征类型的基于不同语音识别***得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。

本发明实施例提供的口语评测方法及***，通过采用多语音识别***分别评分综合的方式，减少了单***评分带来的识别和评测特征提取异常的情况，进而减少了识别错误带来的评分误差，实现了对用户口语水平的全面准确评测。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本发明实施例口语评测方法的流程图；

图2是本发明实施例中构建评分预测模型的流程图；

图3是本发明实施例口语评测***的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。

针对现有技术中受环境因素影响语音识别准确率下降会导致口语评测过程中出现一定比例的异常评分语音的问题，本发明实施例提供一种口语评测方法及***，首先对待评测的语音信号采用多种语音识别方式进行识别，得到多种识别结果；然后分别从每种识别结果中提取基于不同特征类型的评测特征，并根据所述评测特征分别计算评分；随后按照特征类型对各识别结果的所述评分进行优化融合得到不同特征类型的综合评分；最后对不同特征类型的综合评分进行转换确定所述语音信号的最终得分。

如图1所示，是本发明实施例口语评测方法的流程图，包括以下步骤：

步骤101，接收待评测的语音信号。

步骤102，采用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断。

所述基本语音单元可以是音节、音素等。不同的语音识别***将基于不同的声学特征如基于MFCC（Mel-Frequency Cepstrum Coefficients，美尔倒谱系数）特征的声学模型、基于PLP（Perceptual Linear Predictive，感知线性预测）特征的声学模型等，或采用不同的声学模型如HMM-GMM（Hidden Markov Model-Gaussian Mixture Model，隐马尔可夫模型-高斯混合模型）、基于DBN（Dynamic BeyesianNetwork，动态贝叶斯网络）的神经网络声学模型等，甚或采用不同的解码方式如Viterbi搜索，A*搜索等，对语音信号解码。这样，可以得到所述语音信号的基本语音单元及对应的语音片断序列。

具体地，对于问答题等没有文本标注的语音信号可以通过连续语音识别获取所述语音信号对应的文本即基本语音单元序列，以及各基本语音单元所对应的语音片断。而对于朗读题等具有标准答案的语音信号则采用语音对齐方式获得各基本语音单元所对应的语音片断的时间边界。

由于不同的语音识别***具有不同的解码优势，其识别结果之间往往具有一定的互补性。

步骤103，从所述语音片断中分别提取对应不同特征类型的评测特征。

所述特征类型可以包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征等。其中：

所述完整性特征用于描述所述语音片断序列对应的基本语音单元序列相应于标准答案的文本完整度。

在本发明实施例中，可以通过将所述基本语音单元序列与预先构建的标准答案网络进行匹配，获得最优路径，将最优路径和语音单元序列的匹配度作为完整性特征。

需要说明的是，针对不同的题型，所述标准答案网络的形式可以不同，比如，对朗读题型，其标准答案为题面字词序列，而对于问答题等半开放题型，其标准答案往往由确定的核心字词及其它辅助性连接字词构成。此外由于答案的不确定性，其表达形式往往较多，相应的标准答案网络通常由多个标准答案构成，表现为多个答案句式或网格形式的标准答案。

当然，在标准答案不唯一时，还可以根据各标准答案的出现概率构建一个带权重的标准答案网络，并选择相应的加权匹配率计算最优路径和语音单元序列的匹配度，将对应各语音单元的匹配度作为完整性特征。

更进一步地，在半开放题型的答案网络中，答案中确定的核心字词对答案正确与否描述的重要性要远高于其他连接性字词，为了突显核心字词对答案完整度的重要性，可以分别对核心字词以及连接字词设置不同数值的权重，在带权重的标准答案网络中搜索所述基本语音单元序列的最优路径，并将最优路径的累计得分作为匹配度。

所述发音准确性特征用于描述各语音片断的发音标准度。具体地，可以分别计算各语音片断相应于其所对应基本语音单元预设的发音声学模型的相似度，将所述相似度作为发音准确性特征。

所述流利性特征用于描述用户语句表述的通顺性，包括但不限于语句平均语速（如语音时长和语音单元个数的比例等）、语句平均语流长度、语句有效停顿比例等。此外，为了补偿不同发音人在语速上的差异，还可以采用音素段特征，对所有发音部分进行归一化后共同组成流利性特征。具体地，可以通过统计上下文无关音素的时长离散概率分布，计算归一化后时长评分的对数概率，得到音素的段长评分。

所述韵律特征用于描述用户发音的韵律特点，包括基频变化起伏等特征。具体地，可以提取各语音片断的基频特征序列，也可以随后进一步获取其动态变化特征，如提取一阶差分、二阶差分等作为补充韵律特征。

上述对应不同特征类型的评测特征分别从不同角度描述了当前用户发音的特点，彼此具有一定的互补性。

步骤104，计算每种评测特征的原始得分。

对于不同特征类型的评测特征可以分别加载对应的评分预测模型并计算所述评测特征相应于该评分预测模型的相似度，将所述相似度作为所述评测特征的原始得分。

需要说明的是，在实际应用中，还可以根据不同题型加载相应的评分预测模型，对应不同题型的同一特征类型的评分预测模型可以相同，也可以不同，从而进一步提高评分的细致度和准确性。各评分预测模型的构建将在后面详细说明。

步骤105，按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分。

由于不同的语音识别***采用了不同的识别算法或声学模型，往往具有不同的识别结果，相应的基于不同语音片断提取的同一特征类型的评测特征也不尽相同，评测特征的得分也存在一定的互补性（完整性、准确性、流利度、韵律等）。

在本发明实施例中，首先针对不同语音识别***得到的针对同一特征类型的评测特征的原始得分进行优化融合，全面衡量该评测特征表征的用户发音水平。具体地，可以根据不同考试的需求和语音识别***的个数，采用取最大、取中位数、取平均值等方式对所述得分进行优化融合。比如，如果基于不同语音识别***得到的评测特征的原始得分相差在设定的阈值内，则将各原始得分的平均值作为该评测特征的综合得分；如果某个或某些语音识别***得到的评测特征的原始得分高于其他语音识别***得到的该评测特征的原始得分，则取其中的最大值或最大值附近的平均值作为该评测特征的综合得分。

通过上述综合得分，可以在一定程度上降低单个语音识别***异常或者评测特征提取异常导致的得分异常情况。

步骤106，根据不同评测特征的综合得分计算所述语音信号的得分。

经过上述步骤105的融合过程后，可以得不同评测特征的综合得分。在本发明实施例中，可以从实际应用出发，考虑到不同类型的评测特征的综合得分具有一定的相关性，基于线性回归的转换方法，计算总得分，即按以下公式计算语音信号的得分：

S = \frac{1}{N} Σ_{i = 1}^{N} w_{i} s_{i}

其中，w_i是各评测特征的相关参数，w_i为正数，由***预先设置且满足

s_i是各评测特征的综合得分；N是综合得分的个数。

可见，本发明实施例的口语评测方法，通过采用多语音识别***分别评分综合的方式，减少了单***评分带来的识别和评测特征提取异常的情况，进而减少了识别错误带来的评分误差，实现了对用户口语水平的全面准确评测。

前面提到，在计算评测特征的得分时，需要加载与所述评测特征的特征类型相对应的评分预测模型。需要说明的是，所述评分预测模型可以预先离线构建。

在本发明实施例中，评分预测模型是针对每个特征类型分别设置的，其输入是从语音片断中提取的对应某一特定特征的评测特征（如完整性特征，发音准确性特征等），输出是分数，实际上是建立了从评测特征到评分的映射。需要说明的是，对每种评测特征都分别建立了一个评分预测模型。进一步地，对应不同的题型的相同评分特征类型，也可以分别建立对应的评分预测模型。

如图2所示，是本发明实施例中构建评分预测模型的流程图，包括以下步骤：

步骤201，采集评分训练数据。

具体地，可以对每个题目分别收集多个用户的答题语音数据，作为评分训练数据。

步骤202，对所述训练数据进行人工标注，包括文本标注和切分、以及口语评测人工打分等。

所述文本标注是指从语音到文本的转换。切分是指通过人工监听，对连续语音信号进行划分，确定各基本语音单元对应的语音片断。口语评测人工打分是指通过人工测听的方式对口语水平进行评分。

在实际应用中，可以分别对上述不同的评测特征分别评分，所述评测特征包括完整性特征、发音准确性特征、流利性特征、韵律特征等。

步骤203，根据标注结果分别提取不同特征类型的评测特征。

也就是说，根据标注结果中的基本语音单元及对应的语音片断，从所述语音片断中按照前面介绍的方式分别提取不同特征类型的评测特征。

步骤204，利用所述评测特征分别构建与所述特征类型相关的评分预测模型。

具体地，可以利用预测技术在人工评分的指导下训练得到评分预测模型的参数，继而得到评分预测模型。进一步地，还可以根据不同考试题型分别建立与题型相关的评分预测模型。

在本发明实施例中，需要分别对特定的评测特征建立单独的评分预测模型。构建过程大致如下：

首先假设评分预测模型为评测特征的映射函数。如对完整性特征，其特征维数为1，则该预测模型为线性函数y=a*x+b，其中x为提取的发音准确性特征，y为预测的评测得分，a,b是预测模型参数。

然后从预先获取的训练数据中提取得到各样本的完整性特征X及相应的人工完整性特征评分Y。接着在LSE（Least Squares Error，最小均方误差）或MSE（Mean Squared Error）准则下训练得到a,b的预测模型参数。

当然评分预测模型不局限于上述线性映射函数，还可以采用NN（Neural Network，神经网络）等统计模型的方法，这里不再详细描述。

相应地，本发明实施例还提供一种口语评测***，如图3所示，是该***的结构示意图。

在该实施例中，所述***包括：

接收模块301，用于接收待评测的语音信号。

语音片断获取模块302，用于利用至少两种不同的语音识别***分别获取所述语音信号中各基本语音单元对应的语音片断。

上述基本语音单元可以是音节、音素等。不同的语音识别***将基于不同的声学特征如基于MFCC特征的声学模型、基于PLP特征的声学模型等，或采用不同的声学模型如HMM-GMM、基于DBN的神经网络声学模型等，甚或采用不同的解码方式如Viterbi搜索，A^*搜索等，对语音信号解码。这样，可以得到所述语音信号的基本语音单元及对应的语音片断序列。

特征提取模块303，用于从所述语音片断中分别提取对应不同特征类型的评测特征。

所述特征类型可以包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征等，各种特征类型的定义在前面已有详细说明，在此不再赘述。

计算模块304，用于计算所述评测特征的原始得分。

优化融合模块305，用于按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分。

由于不同的语音识别***采用了不同的识别算法或声学模型，往往具有不同的识别结果，相应的基于不同语音片断提取的同一特征类型的评测特征也不尽相同，评测特征的得分也存在一定的互补性。

为此，在本发明实施例中，优化融合模块305针对不同语音识别***得到的针对同一特征类型的评测特征的原始得分进行优化融合，全面衡量该评测特征表征的用户发音水平。具体地，优化融合模块305可以根据不同考试的需求和语音识别***的个数，采用取最大、取中位数、取平均值等方式对所述得分进行优化融合。比如，如果基于不同语音识别***得到的评测特征的原始得分相差在设定的阈值内，则优化融合模块305将各原始得分的平均值作为该评测特征的综合得分；如果某个或某些语音识别***得到的评测特征的原始得分高于其他语音识别***得到的该评测特征的原始得分，则优化融合模块305取其中的最大值或最大值附近的平均值作为该评测特征的综合得分。

评分模块306，根据不同评测特征的综合得分计算所述语音信号的得分。

评分模块306可以基于线性回归的转换方法，计算总得分，具体计算方式在前面本发明实施例口语评测方法中已做详细说明，在此不再赘述。

可见，本发明实施例的口语评测***，通过采用多语音识别***分别评分综合的方式，减少了单***评分带来的识别和评测特征提取异常的情况，进而减少了识别错误带来的评分误差，实现了对用户口语水平的全面准确评测。

需要说明的是，在本发明实施例中，上述计算模块304具体可以利用对应不同评测特征的评分预测模型计算所述评测特征相应于该评分预测模型的相似度，将所述相似度作为所述评测特征的原始得分。

为此，所述计算模块304的一种实现方式包括：加载单元和相似度计算单元（未图示）。其中：

所述加载单元，用于加载与所述评测特征的特征类型相对应的评分预测模型；

所述相似度计算单元，用于计算所述评测特征相应于所述评分预测模型的相似度，并将所述相似度作为所述评测特征的原始得分。

上述评分预测模型可以预先离线构建，具体构建过程在前面已做详细描述，在此不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的***实施例仅仅是示意性的，其中所述作为分离部件说明的模块或单元可以是或者也可以不是物理上分开的，作为模块或单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP）来实现根据本发明实施例的口语评测***中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

以上对本发明实施例进行了详细介绍，本文中应用了具体实施方式对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及设备；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种口语评测方法，其特征在于，包括：

接收待评测的语音信号；

从所述语音片断中分别提取对应不同特征类型的评测特征；

计算所述评测特征的原始得分；

根据不同评测特征的综合得分计算所述语音信号的得分。

2.根据权利要求1所述的方法，其特征在于，所述特征类型包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征。

3.根据权利要求1所述的方法，其特征在于，所述计算所述评测特征的原始得分包括：

加载与所述评测特征的特征类型相对应的评分预测模型；

4.根据权利要求3所述的方法，其特征在于，对应不同题型的同一特征类型的评分预测模型不同。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述按照所述特征类型对基于不同语音识别***得到的所述原始得分进行优化融合，得到所述评测特征的综合得分包括：

6.一种口语评测***，其特征在于，包括：

接收模块，用于接收待评测的语音信号；

计算模块，用于计算所述评测特征的原始得分；

7.根据权利要求6所述的***，其特征在于，所述特征类型包括以下一种或多种：完整性特征、发音准确性特征、流利性特征、韵律特征。

8.根据权利要求6所述的***，其特征在于，所述计算模块包括：

9.根据权利要求8所述的***，其特征在于，对应不同题型的同一特征类型的评分预测模型不同。

10.根据权利要求6至9任一项所述的***，其特征在于，

所述评分模块，具体用于针对同一特征类型的基于不同语音识别***得到的评测特征的原始得分，取其中最大得分、或中位得分、或平均得分，作为所述评测特征的综合得分。