CN104732977A

CN104732977A - 一种在线口语发音质量评价方法和***

Info

Publication number: CN104732977A
Application number: CN201510102425.8A
Authority: CN
Inventors: 李心广; 李苏梅; 徐集优; 张胜斌; 陈君宇; 李升恒; 朱小凡; 王泽铿; 许港帆; 陈嘉华; 林帆
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2015-06-24
Anticipated expiration: 2035-03-09
Also published as: CN104732977B

Abstract

本发明公开了一种在线口语发音质量评价方法和***，所述方法包括：通过网络接收由移动客户端采集的测试语音；对接收到的测试语音进行预处理；对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数；根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果；将所述评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。通过本发明可以实现在线的、方便的、准确的口语发音质量评价。

Description

一种在线口语发音质量评价方法和***

技术领域

本发明涉及语音识别和评价技术领域，尤其涉及一种在线口语发音质量评价方法和***。

背景技术

信号处理技术在语言学习中的应用是信息技术与语言学习整合的一个重要内容，其目标是将最新的语音技术与当前的教学和学习方法结合，建立计算机辅助语言学习***，而口语发音质量评价作为辅助语言学习的重要内容一直备受关注。

然而，传统的口语发音质量评价***，大多局限于传统的语言学***。同时，现有方案将语音评价***部署在语言学习机、个人电脑和移动设备中，不利于数据更新、存储和算法改进。进一步地，现有的口语发音质量评价***，在发音质量评价中综合考量的评价指标不够全面，大多局限于单独或少量的评价指标，不能对用户的语音发音质量提供科学、综合和准确的评价，往往只是根据发音给出一个分数，缺乏评价与反馈。

发明内容

本发明实施例的目的在于提供了一种在线口语发音质量评价方法和***，以实现在线的、方便的、准确的口语发音质量评价。

一方面，本发明实施例提供了一种在线口语发音质量评价方法，包括：

通过网络接收由移动客户端采集的测试语音；

对接收到的测试语音进行预处理；

对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数；

根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果；

将所述评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。

优选地，所述在线口语发音质量评价方法还包括：

将所述评价结果存储到数据库中，并对评价结果进行统计分析，获得统计结果；

将统计结果发送给网页管理端，并通过网页管理端对所述统计结果进行展示。

优选地，所述在线口语发音质量评价方法还包括：

获取标准语音；

对所述标准语音进行预处理；

对预处理后的标准语音进行语音特征参数的提取，获取所述标准语音的特征参数。

优选地，所述预处理包括预加重、分帧、加窗和端点检测。

优选地，所述对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数，包括：

对所述测试语音进行离散傅利叶变换，得到所述测试语音的频谱系数，将所述频谱系数用序列三角滤波器进行滤波，对滤波后的数据进行对数运算，利用离散余弦变换，获取所述测试语音的MFCC特征参数；

对所述测试语音的基频特征、短时能量特征、共振峰特征进行提取，并将所述基频特征、所述短时能量特征和所述共振峰特征组成所述测试语音的情感特征参数；

计算所述测试语音的发音时长，获取所述测试语音的发音时长特征参数；

对所述测试语音进行重音单元划分，提取重音的起始帧位置组与结束帧位置组，获取所述测试语音的重音位置特征参数；

对所述测试语音进行语音单元划分，分别计算每个语音单元的时长，获取所述测试语音的语音单元时长特征参数；

通过时域上的自相关函数法提取所述测试语音每一帧数据的音高，获取所述测试语音的音高特征参数。

优选地，所述根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果，包括：

根据所述测试语音的MFCC特征参数，基于分段聚类的概率神经网络集成语音识别模型，对所述测试语音进行语音识别，获得语音识别结果；并对所述测试语音的MFCC特征参数和所述标准语音的MFCC特征参数进行相似度计算，获得MFCC相关系数；根据所述语音识别结果和所述MFCC相关系数，计算出所述测试语音的准确度得分；

根据所述测试语音的情感特征参数，基于SVM情感模型，对所述测试语音进行情感识别，获得情感识别结果；并对所述测试语音的情感特征参数所述标准语音的情感特征参数进行相似度计算，获得情感相关系数；根据所述情感识别结果和所述情感相关系数，计算出所述测试语音的情感得分；

根据所述标准语音和所述测试语音的发音时长特征参数，获取所述标准语音与所述测试语音的语速比，并根据所述语速比，计算出所述测试语音的语速得分；

根据所述测试语音的重音位置特征参数和所述标准语音的重音位置特征参数，比对所述测试语音与所述标准语音的重音位置差异，并根据所述重音位置差异，计算出所述测试语音的重音得分；

根据所述测试语音的语音单元时长特征参数和所述标准语音的语音单元时长特征参数，利用dPVI算法，获取所述测试语音的dPVI参数，并根据所述dPVI参数，计算出所述测试语音的节奏得分；

根据所述测试语音的音高特征参数和所述标准语音的音高特征参数，利用DTW算法，获取所述标准语音与所述测试语音的音高差异，并根据所述音高差异，计算出所述测试语音的语调得分。

优选地，所述根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果，还包括：

对所述准确度得分、所述情感得分、所述语速得分、所述重音得分、所述节奏得分和所述语调得分进行加权求和，获得综合得分；并根据所述准确度得分、所述情感得分、所述语速得分、所述重音得分、所述节奏得分、所述语调得分和所述综合得分，结合各得分与等级评价的映射关系，获取所述测试语音的准确度等级评价、情感等级评价、语速等级评价、重音等级评价、节奏等级评价、语调等级评价和综合等级评价；并将所述测试语音的准确度等级评价、情感等级评价、语速等级评价、重音等级评价、节奏等级评价、语调等级评价和综合等级评价作为所述测试语音的评价结果。

优选地，所述在线口语发音质量评价方法还包括：

根据所述评价结果，对用户的口语发音进行指导，获取发音指导意见；

将所述发音指导意见通过网络反馈给所述移动客户端，并通过所述移动客户端对所述发音指导意见进行显示。

另一方面，本发明实施例提供了一种在线口语发音质量评价***，包括通过网络连接的移动客户端和服务器端；

所述移动客户端包括：

语音采集单元，用于采集测试语音，并通过网络将所述测试语音发送给所述服务器端；

所述服务器端包括：

预处理单元，用于对接收到的测试语音进行预处理；

特征参数提取单元，用于对预处理后的测试语音进行语音特征参数的提取，获取所述测试语音的特征参数；

语音评价单元，用于根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果；并将所述评价结果通过网络反馈给所述移动客户端；

所述移动客户端还包括：

数据显示单元，用于对所述评价结果进行显示。

优选地，所述***还包括网页管理端，所述网页管理端通过网络与所述服务器端连接；所述服务器端还包括数据库和统计分析单元；

所述数据库，用于存储所述评价结果；

所述统计分析单元，用于对评价结果进行统计分析，获得统计结果；并将所述统计结果发送给所述网页管理端；

所述网页管理端，用于对接收到的统计结果进行展示。

与现有技术相比，本发明实施例的优点在于：

本发明实施例基于C/S(Client/Server，客户端/服务器端)架构，构建移动客户端和服务器端，通过移动客户端采集用户的测试语音信号并发送给服务器端，服务器端对测试语音进行评价后向移动客户端返回语音评价结果，最后通过移动客户端对所述评价结果进行展示。用户可以利用移动互联网方便地接入服务器端，获取服务和数据，语料库和评价方法均可以通过服务器端实现同步，并通过服务器端提供性能更优、效果更佳的语音分析算法处理。

其次，本发明实施例还基于B/S(Browser/Server，网页端/服务器端)架构，构建网页管理端和服务器端，可以通过网页浏览器从服务器端的数据库中实时获取移动客户端用户的口语发音质量评价统计结果，为第三方(如教学者)提供移动客户端用户的口语发音情况，便于第三方制定线下口语指导和改良策略。

进一步地，本发明实施例针对测试语音进行多维度语音评价，各指标的评价方法合理、可信，并可针对用户的口语发音反馈发音指导意见，有助于纠正用户的发音错误，提高发音质量。

附图说明

图1是本发明提供的在线口语发音质量评价方法的一个实施例的步骤流程图；

图2是本发明提供的概率神经网络集成分类器的建立过程示意图；

图3是本发明提供的在线口语发音质量评价***的一个实施例的C/S架构示意图；

图4是如图3所示在线口语发音质量评价***的B/S架构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是，实施例中各个步骤前的标号仅为了对各个步骤进行更清楚地标识，各个步骤之间没有必然的先后顺序的限定。

参见图1，是本发明提供的在线口语发音质量评价方法的一个实施例的步骤流程图，所述方法包括：

S1，通过网络接收由移动客户端采集的测试语音。

在具体实施当中，移动客户端以应用程序的方式安装于用户的手机或其他移动设备上，通过调用移动设备中的录音程序进行录音，采集用户在口语测试中发出的语音，并生成统一格式的音频文件，所述移动客户端对所述音频文件进行压缩编码后通过网络发送给服务器端。其中，所述音频文件优选为wav格式的音频文件，所述网络优选为移动互联网，移动客户端和服务器端采用基于TCP/IP(Transmission Control Protocol/Internet Protocol，传输控制协议/因特网互联协议)通信协议的Socket进行数据传输。

S2，对接收到的测试语音进行预处理。

服务器端在接收到移动客户端发送来的数据后，对接收到的数据进行解压缩解码，还原为测试语音的原始文件。同时在对测试语音进行分析和处理之前，为了消除因为人发音器官本身和由于语音设备对测试语音产生的影响，对测试语音进行预处理，为后续语音特征参数的提取提供优质的数据源，从而提高语音处理的质量。本实施例所述预处理包括但不限于预加重、分帧、加窗和端点检测，具体如下：

2.1)预加重：测试语音的平均功率谱受声门激励和口鼻辐射的影响，高频端大约在800Hz以上按6dB/oct衰减，频率越高相应的成分越小，因此在对测试语音进行分析之前需要对所述测试语音的高频部分加以提升。本实施例在对测试语音进行分析之前采用一个6dB/oct的高频提升预加重数字滤波器，对所述测试语音的高频部分加以提升，使所述测试语音的频谱变得平坦，保持在低频到高频的频带中。预加重的计算公式如下：

y(n)＝x(n)-0.9375*x(n-1) (公式1)

其中，x(n)为原始的测试语音。

2.2)分帧：语音信号具有时变特性，但是在一个短时间范围内，其特性基本保持不变即相对稳定，语音信号的这种特性称为“短时性”，这一短时间范围一般为10～30ms，所以对测试语音的分析和处理建立在“短时性”的基础上，对测试语音进行“短时分析”(即分帧处理)。由于语音信号之间存在相关性，本实施例采用半帧交叠分帧的方式对所述测试语音进行分帧。

2.3)加窗：为实现对测试语音中抽样位置附近的语音波形加以强调而对波形的其余部分加以减弱，本实施例中选用汉明窗对测试语音进行加窗，分帧后进行加窗处理可以减少由于截断导致的吉布斯效应(Gibbs phenomenon)，使得测试语音的频谱较为平滑。在一种可实现的方式中，加窗的计算公式如下：

S_ω(n)＝y(n)*ω(n) (公式2)

其中，y(n)是预加重后的语音信号，ω(n)是窗函数。

2.4)端点检测：本实施例采用双门限比较法来进行端点检测，检测出测试语音的起始点及结束点。双门限比较法以短时能量E和短时平均过零率Z作为特征，结合短时平均过零率Z和短时能量E的优点，使检测更为准确，有效降低***的处理时间，提高***处理的实时性，而且能排除无声段的噪声干扰，从而提高的语音信号的处理性能。

S3，对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数。所述测试语音的特征参数包括MFCC(Mel-Frequency CepstralCoefficients，Mel倒谱系数)特征参数、情感特征参数、发音时长特征参数、重音位置特征参数、语音单元时长特征参数和音高特征参数，在服务器端进行的特征参数提取过程如下：

3.1)对所述测试语音进行离散傅利叶变换(DFT，Discrete Fourier Transform)，得到所述测试语音的频谱系数，将所述频谱系数用序列三角滤波器进行滤波，对滤波后的数据进行对数运算，利用离散余弦变换，获取所述测试语音的MFCC特征参数。具体步骤如下：

对预处理后的测试语音进行离散傅利叶变换得到频谱系数X(k)。

对频谱系数X(k)用序列三角滤波器进行滤波处理，得到一组系数m_i。计算所述系数mⁱ的公式如下：

m_i＝ln[X(k)*H_i(k)] (公式3)

其中,

(公式4)

f[i]为三角滤波器的中心频率，满足：

Mel(f[i+1])-Mel(f[i])＝Mel(f[i])-Mel(f[i-1]) (公式5)

对所有滤波器的输出求对数，再利用离散余弦变换求得倒频谱系数，计算公式如下：

C_{i} = \sqrt{\frac{2}{P} Σ_{j = 1}^{P} \log (m_{i}) \cos [\frac{πi}{P} (j - 0.5)]}

(公式6)

其中，P是三角滤波器的个数，C_i为所求的MFCC特征参数。优选地，所述MFCC特征参数的阶数设为12。

3.2)对所述测试语音的基频特征、短时能量特征、共振峰特征进行提取，并将所述基频特征、所述短时能量特征和所述共振峰特征组成所述测试语音的情感特征参数。

3.2.1)基频特征：基音周期是指发浊音时声带振动所引起的周期性，基频即基音周期的倒数。基频是语音信号最重要的参数之一，研究表明基音频率可以反映情感的变化。基频特征的检测方法包括但不限于自相关函数法(ACF)、倒谱分析法、平均幅度差函数法(AMDF)和小波法。本实施例中优选采用倒谱分析法，对预处理后的测试语音进行傅里叶变换，获取所述测试语音的幅度谱，对所述幅度谱取对数，得到测试语音在频域的一个周期信号，计算所述周期信号的频率值，即可获取所述测试语音的基频值。对所述周期信号进行傅里叶逆变换，获得基音周期处的一个峰值。在得出基频值后再通过计算得到基频的最大值、最小值、均值、中值和标准差等7阶基频统计学变化参数，作为测试语音的基频特征。

3.2.2)短时能量特征：语音信号的能量与情感语音的表达有较强关联性，能量大则表明声音的音量即响度相对较大。在实际的生活中，当人们愤怒或者生气的时候，发音的音量较大。当人们沮丧或者悲伤的时候，往往讲话声音较低。语音信号能量通常有短时能量和短时平均幅度能量两种，优选地选取测试语音的短时能量作为能量参数。短时能量为一帧采样点值的加权平方和，短时能量的定义如下:

E_{n} = Σ_{m = 0}^{N - 1} x_{n}^{2} (m)

(公式7)

其中，x_n(m)是测试语音的第n帧信号。

在得出短时能量后，再通过计算得到短时能量的最大值、最小值、均值、中值和标准差等7阶短时能量统计学变化参数，作为测试语音的短时能量特征。

3.2.3)共振峰特征：共振峰是反映声道特性的一个重要参数，当声音激励通过声道时，会产生共振峰频率。当人处于不同情感状态时，其神经的紧张程度不同，导致声道形变，共振峰频率发生相应的改变。本实施例优选利用线性预测方法对每帧语音信号的共振峰参数进行提取，可快速、优良且行之有效地提取共振峰参数，通过线性预测法求出语音信号的第一共振峰和第二共振峰，再用分段聚类法将第一共振峰和第二共振峰规整为32阶参数，作为所述测试语音的共振峰特征。将共振峰特征、基频特征和短时能量特征结合在一起，构成46阶的语音情感特征参数。

3.3)计算所述测试语音的发音时长，获取所述测试语音的发音时长特征参数。

在具体实施当中，可以通过设定短时能量和过零率的高低限值，对测试语音进行端点检测，来获得测试语音的发音时长。

3.4)对所述测试语音进行重音单元划分，提取重音的起始帧位置组与结束帧位置组，获取所述测试语音的重音位置特征参数。

重音单元划分流程如下：

a.提取测试语音的能量值。测试语音中重读音节响亮的特征将反映到时域上的能量强度，即重音音节表现为语音能量强度大。

b.对测试语音进行规整。由于说话人语速之间的差距，不同的说话人对同一句子的发音时长存在一定差异，但是不同人对同一句子的发音却遵循重音单元时长占整个句子一定比例的规律。因此，在对测试语音进行评分时，可以通过调取标准语音的发音时长特征参数，将所述测试语音的发音时长按比例规整为与所述标准语音的发音时长相同，有利于数据的处理，也使得***的评价更为客观。

c.提取测试语音的重音音节。在具体实施当中，可以采用双门限比较法来进行重音端点检测，根据测试语音的能量值，逐个搜索测试语音中大于重音阀值T_u的最大语音信号值S_max，然后向信号值S_max左右搜索等于非重音阀值T_l的语音信号值S_l与S_r，将S_l与S_r设置为测试语音的重音信号，并将S_l与S_r之间的信号量值置0，避免重复在S_l与S_r之间搜索。由于测试语音中重读音节有着发音偏长的特征，而第一步搜索出来的重读音节单元可能存在能量值大，即听觉表现为发音响亮，却持续时间很短的问题，这些单元可能是短元音，也可能是信号尖峰的干扰，它们不构成重读音节，因此可以根据重读音节发音偏长的特征将重读音节单元进一步筛选，将重读音节单元的最小时长设定为一个大致重读元音时长(Stressed vowel durations)，优选为100ms，并根据设定的最小时长进行对比。

通过以上步骤，完成对句子重音单元的划分，即可知道句子的重音的起始帧位置组与结束帧位置组，并将所述起始帧位置组与结束帧位置组作为所述测试语音的重音位置特征参数。

3.5)对所述测试语音进行语音单元划分，分别计算每个语音单元的时长，获取所述测试语音的语音单元时长特征参数。所述语音单元的时长是指各个语音单元开始到结束的持续时间。

3.6)通过时域上的自相关函数法(ACF)提取所述测试语音每一帧数据的音高，获取所述测试语音的音高特征参数。

自相关函数法是使用自相关函数来计算一个音框s(i)和自身的相似度，其中，i＝0～n-1，计算公式如下：

acf (τ) = Σ_{i = 0}^{n - 1 - τ} s (i) s (i + τ)

(公式8)

其中，n是指一帧语音数据的长度，τ是时间延迟量，找出能使acf(τ)在某一个合理的特定区间内的τ值，就可以算出此音框的音高。在具体的ACF计算过程中，将语音帧每次向右平移一点，将平移后的音框和原音框的重叠部分做内积，重复n次后得到的n个内积值就是一个语音帧对应的ACF值。

S4，根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果。

需要说明的是，标准语音的特征参数是通过事先对标准语音进行语音特征参数提取得到，存储于数据库中，待需要使用时调取。提取标准语音的特征参数的具体步骤包括：获取标准语音；对所述标准语音进行预处理；对预处理后的标准语音进行语音特征参数的提取，获取所述标准语音的特征参数。标准语音的特征参数提取的具体步骤与测试语音的特征参数提取过程一致，在此不再赘述。

根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价的过程具体如下：

4.1)根据所述测试语音的MFCC特征参数，基于分段聚类的概率神经网络(Probabilistic Neural Network，PNN)集成语音识别模型，对所述测试语音进行语音识别，获得语音识别结果。并对所述测试语音的MFCC特征参数和所述标准语音的MFCC特征参数进行相似度计算，获得MFCC相关系数。根据所述语音识别结果和所述MFCC相关系数，计算出所述测试语音的准确度得分。需要说明的是，所述分段聚类的概率神经网络集成语音识别模型为事先训练得到，存储于数据库中，待需要使用时调取。

本实施例中，采用Bagging(Bootstrap aggregating，自助聚集)思想来生成集成所需的个体概率神经网络模型，Bagging是一种把多个不同的个体学习器集成为一个学习器的集成学习方法，通过可重复取样得到不同的数据子集，使得在不同数据子集上训练得到的个体学习器具有较高的泛化性能及有较大的差异度。利用现有网络的分布式计算可以进一步提高算法的时间效率，并且Bagging可以改善学习器的性能，有利于提高概率神经网络的分类准确率和泛化能力。

参照图2，是本发明提供的概率神经网络集成分类器的建立过程示意图。每次从训练样本集A中随机抽取n个样本(如图中Bagging样本A1、Bagging样本A2…Bagging样本An)，用概率神经网络分类算法进行训练，得到一个PNN分类器，利用相同的方法生成多个PNN分类器(即图中PNN分类器C₁(x)、PNN分类器C₂(x)…PNN分类器C_n(x))，训练之后可得到一个分类函数序列C₁(x)、C₂(x)…C_n(x)，即PNN集成分类器，也就是本实施例中所述PNN集成语音识别模型，最终的分类函数C(x)对分类问题采用投票方式，得票最多的分类结果即为分类函数C(x)的最终类别。

在语音识别的过程中，只需要将所述测试语音的MFCC特征参数输入到所述PNN集成语音识别模型中，以投票方式进行分类，判断内容是否正确。同时对所述测试语音的MFCC特征参数和所述标准语音的MFCC特征参数进行相似度计算，最后依据内容是否正确和MFCC相关系数的大小对测试语音的准确度进行评分。

4.2)根据所述测试语音的情感特征参数，基于SVM(Support Vector Machine，支持向量机)情感模型，对所述测试语音进行情感识别，获得情感识别结果。并对所述测试语音的情感特征参数所述标准语音的情感特征参数进行相似度计算，获得情感相关系数。根据所述情感识别结果和所述情感相关系数，计算出所述测试语音的情感得分。

测试语音的情感特征参数提取完毕之后，将情感特征参数输入至基于SVM情感模型进行分类，同时计算测试语音的情感特征参数与标准语音的情感特征参数的相关系数。最后，依据情感分类结果是否正确和情感特征参数的相关系数大小得出情感得分。

4.3)根据所述标准语音和所述测试语音的发音时长特征参数，获取所述标准语音与所述测试语音的语速比，并根据所述语速比，计算出所述测试语音的语速得分。

提取所述测试语音的发音时长特征参数后，通过以下公式计算语速比：

(公式9)

其中，S_发音时长指标准语音的持续时间，T_发音时长是指测试语音的发音时长。

语速过快或过慢均不符合语言学表达的要求，因此可根据语速比，按语速过快或者过慢的程度，对测试语音的语速进行评分。

4.4)根据所述测试语音的重音位置特征参数和所述标准语音的重音位置特征参数，比对所述测试语音与所述标准语音的重音位置差异，并根据所述重音位置差异，计算出所述测试语音的重音得分。

在提取重音位置特征参数时，获得重音的起始帧位置和结束帧位置组，通过以下公式计算测试语音与标注语音的重音分布差异diff：

diff = Σ_{i = 1}^{n} {(\frac{{left}_{std} [i]}{{Len}_{std}} - \frac{{left}_{test} [i]}{{Len}_{test}}) + (\frac{{right}_{std} [i]}{{Len}_{std}} - \frac{{right}_{test} [i]}{{Len}_{test}})}

(公式10)

其中，Len_std是指标准语音的有效语音帧长度，Len_test是指测试语音的有效语音帧长度。left_std[i]是标准语音的起始帧位置组，right_std[i]是标准语音的结束帧位置组。left_test[i]是测试语音的起始帧位置组，right_test[i]是测试语音的结束帧位置组。

依据测试语音与标准语音的重音位置差异大小，对所述测试语音的重音进行评分。

4.5)根据所述测试语音的语音单元时长特征参数和所述标准语音的语音单元时长特征参数，利用dPVI(the Distinct Pairwise Variability Index)算法，获取所述测试语音的dPVI参数，并根据所述dPVI参数，计算出所述测试语音的节奏得分。

提取测试语音的语音单元时长特征参数后，将测试语音的音节单元时长特征参数与标准语音的语音单元时长特征参数进行对比预算，并转换出用于***评分依据的dPVI参数，dPVI参数的计算公式如下：

dPVI = 100 \times (Σ_{k = 1}^{m - 1} | {d 1}_{k} - {d 2}_{k} | + | {d 1}_{t} - {d 2}_{t} |) / Len

(公式11)

其中，d为句子划分的语音单元时长(如：d_k为第k个语音单元时长)，m＝min(S_snum，T_snum)，S_snum为标准语音的语音单元数，T_snum为测试语音的语音单元数，Len为标准语音的时长。

根据dPVI参数的大小，计算出所述测试语音的节奏得分。

4.6)根据所述测试语音的音高特征参数和所述标准语音的音高特征参数，利用DTW(Dynamic Time Warping，动态时间归整)算法，获取所述标准语音与所述测试语音的音高差异，并根据所述音高差异，计算出所述测试语音的语调得分。

提取所述测试语音的音高特征参数后，还可以通过设置中位数滤波器，来对音高进行平滑，排除掉不稳定、音高值异常的语音帧。利用DTW算法将测试语音的音高特征参数与标准语音的音高特征参数进行差异性对比，计算出二者之间的音高差异参数dist，再计算出所述测试语音的语调得分，语调得分的计算公式如下：

S_{intonation} = \frac{100}{1 + a \times {(dist)}^{b}}

(公式12)

其中，通过仿真实验，对比专家评分数据和***评分数据，计算得到a＝0.0005，b＝2。

4.7)对所述准确度得分、所述情感得分、所述语速得分、所述重音得分、所述节奏得分和所述语调得分进行加权求和，获得综合得分。并根据所述准确度得分、所述情感得分、所述语速得分、所述重音得分、所述节奏得分、所述语调得分和所述综合得分，结合各得分与等级评价的映射关系，获取所述测试语音的准确度等级评价、情感等级评价、语速等级评价、重音等级评价、节奏等级评价、语调等级评价和综合等级评价。并将所述测试语音的准确度等级评价、情感等级评价、语速等级评价、重音等级评价、节奏等级评价、语调等级评价和综合等级评价作为所述测试语音的评价结果。

在对所述准确度得分、所述情感得分、所述语速得分、所述重音得分、所述节奏得分和所述语调得分进行加权求和的过程中，各指标分数所占权重可根据不同的需求采用不同的取值，可根据用户自身特点选择符合用户需求的权重组合。根据各得分与等级评价的映射关系，获取各指标的等级评价以及综合等级评价。例如，若所述准确度得分在90～100的分数范围内，则所述准确度等级评价为A级；若所述准确度得分在70～90的分数范围内，则所述准确度等级评价为B级；若所述准确度得分在60～70的分数范围内，则所述准确度等级评价为C级；若所述准确度得分在0～60的分数范围内，则所述准确度等级评价为D级。其他得分与等级评价的映射关系与上述准确度得分与准确度等级评价的映射关系类似，在此不再赘述。需要说明的是，上述分数与等级的映射关系仅仅为本发明的一个示例，在实际应用当中，可根据实际需要，设置不同的阈值，将不同的分数范围映射到不同的等级上，当然地也可以划分更多的等级。

S5，将所述评价结果通过网络反馈给所述移动客户端，并通过所述移动客户端对所述评价结果进行显示。

所述服务器端获得评价结果后，即将评价结果通过移动互联网反馈给移动客户端，移动客户端将评价结果信息显示在移动设备的屏幕上，或者通过音频方式将评价结果信息进行提示。

在具体实施当中，所述服务器端获取测试语音的评价结果后，还可以根据所述评价结果，对用户的口语发音进行指导，获取发音指导意见。可根据评价结果，与数据库中的发音指导意见进行匹配。

将所述发音指导意见通过网络反馈给所述移动客户端，并通过所述移动客户端对所述发音指导意见进行显示。可通过发音指导意见指出用户口语发音中的错误与不足，并提出改进的意见，如若检测到用户的语速过快节奏混乱，可提示用户可稍微放慢语速，把握句子节奏等。

本发明实施例基于C/S(Client/Server，客户端/服务器端)架构，构建移动客户端和服务器端，移动客户端采集用户的测试语音信号并发送给服务器端，服务器端对测试语音进行评价后向移动客户端返回语音评价结果，并通过移动客户端对所述评价结果进行展示。用户可以利用移动互联网方便地接入服务器端，获取服务和数据，语料库和评价方法均可以通过服务器端实现同步，并通过服务器端提供性能更优、效果更佳的语音分析算法处理。

进一步地，所述在线口语发音质量评价方法还包括：

S6，将所述评价结果存储到数据库中，并对评价结果进行统计分析，获得统计结果。

在具体实施当中，当用户测试完毕，可以将用户的用户信息，测试语音和评价结果存储到数据库中，所述服务器端对数据库中的评价结果(包括各指标得分和综合得分)进行统计分析，获得单个用户的学习情况分析结果，也可以针对特定用户群组的用户或针对全网的所有用户获得群组学习情况分析结果或全网学习情况统计结果。

S7，将统计结果发送给网页管理端，并通过网页管理端对所述统计结果进行展示。网页管理端接收服务器端对移动客户端用户的口语发音评价的统计数据，以可视化的形式呈现给第三方(如教学者)。

本发明实施例基于B/S(Browser/Server，网页端/服务器端)架构，构建网页管理端和服务器端，可以通过网页浏览器从服务器端的数据库中实时获取移动客户端用户的口语发音质量评价统计结果，为第三方提供移动客户端用户的口语发音情况，便于第三方制定线下口语指导和改良策略。

参照图3，是本发明提供的在线口语发音质量评价***的一个实施例的C/S架构图。所述在线口语发音质量评价***与图1所示实施例中的在线口语发音质量评价方法的基本原理一致，本实施例中未详述之处，可参见图1所示实施例中的相关描述。

所述***包括通过网络连接的移动客户端100和服务器端200。

所述移动客户端100包括：

语音采集单元101，用于采集测试语音，并通过网络将所述测试语音发送给所述服务器端200。

所述服务器端200包括：

预处理单元201，用于对接收到的测试语音进行预处理。

特征参数提取单元202，用于对预处理后的测试语音进行语音特征参数的提取，获取所述测试语音的特征参数。

语音评价单元203，用于根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果；并将所述评价结果通过网络反馈给所述移动客户端100。

所述移动客户端100还包括：

数据显示单元102，用于对所述评价结果进行显示。

参照图4，是如图3所示在线口语发音质量评价***的B/S架构示意图。

所述***还包括网页管理端300，所述网页管理端300通过网络与所述服务器端200连接。所述服务器端200还包括数据库204和统计分析单元205。

所述数据库204，用于存储所述评价结果。

所述统计分析单元205，用于对评价结果进行统计分析，获得统计结果。并将所述统计结果发送给所述网页管理端300。

所述网页管理端300，用于对接收到的统计结果进行展示。

本发明实施例基于C(B)/S，构建移动客户端100、服务器端200和网页管理端300，通过移动客户端100采集用户的测试语音信号并发送给服务器端200，服务器端200对测试语音进行评价后向移动客户端100返回语音评价结果，通过移动客户端100对所述评价结果进行展示。用户可以利用移动互联网方便地接入服务器端200，获取服务和数据，语料库和评价方法均可以通过服务器端200实现同步，并通过服务器端200提供性能更优、效果更佳的语音分析算法处理。还可以通过网页管理端300从服务器端200的数据库中实时获取移动客户端用户的口语发音质量评价统计结果，为第三方(如教学者)提供移动客户端用户的口语发音情况，便于第三方制定线下口语指导和改良策略。

本发明实施例提供的在线口语发音质量评价方法和***可应用于英语口语学习中，检测英语口语的发音质量。也可以应用于其他语种的发音质量评价，如日语和法语。

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁碟或者光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种在线口语发音质量评价方法，其特征在于，包括：

通过网络接收由移动客户端采集的测试语音；

对接收到的测试语音进行预处理；

2.如权利要求1所述的在线口语发音质量评价方法，其特征在于，所述方法还包括：

3.如权利要求1所述的在线口语发音质量评价方法，其特征在于，所述方法还包括：

获取标准语音；

对所述标准语音进行预处理；

4.如权利要求1～3任一项所述的在线口语发音质量评价方法，其特征在于，所述预处理包括预加重、分帧、加窗和端点检测。

5.如权利要求1～3任一项所述的在线口语发音质量评价方法，其特征在于，所述对预处理后的测试语音进行语音特征参数的提取，获得所述测试语音的特征参数，包括：

6.如权利要求5所述的在线口语发音质量评价方法，其特征在于，所述根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果，包括：

7.如权利要求6所述的在线口语发音质量评价方法，其特征在于，所述根据所述测试语音的特征参数和标准语音的特征参数，对所述测试语音进行评价，获得评价结果，还包括：

8.如权利要求7所述的在线口语发音质量评价方法，其特征在于，所述方法还包括：

9.一种在线口语发音质量评价***，其特征在于，包括通过网络连接的移动客户端和服务器端；

所述移动客户端包括：

所述服务器端包括：

预处理单元，用于对接收到的测试语音进行预处理；

所述移动客户端还包括：

数据显示单元，用于对所述评价结果进行显示。

10.如权利要求9所述的在线口语发音质量评价***，其特征在于，所述***还包括网页管理端，所述网页管理端通过网络与所述服务器端连接；所述服务器端还包括数据库和统计分析单元；

所述数据库，用于存储所述评价结果；

所述网页管理端，用于对接收到的统计结果进行展示。