CN103928023A

CN103928023A - 一种语音评分方法及***

Info

Publication number: CN103928023A
Application number: CN201410178813.XA
Authority: CN
Inventors: 李心广; 李苏梅; 何智明; 陈泽群; 李婷婷; 陈广豪; 马晓纯; 王晓杰; 陈嘉华; 徐集优
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2014-04-29
Filing date: 2014-04-29
Publication date: 2014-07-16
Anticipated expiration: 2034-04-29
Also published as: CN103928023B

Abstract

本发明公开了一种语音评分方法，包括步骤：S1、录制考生的考卷语音；S2、对所述考生的考卷语音进行预处理，得到考卷语音语料；S3、提取所述考卷语音语料的特征参数；S4、采用基于HMM和ANN混合模型的语音识别方法将所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出所述考卷语音的内容，并给予初步评分；S5、若初步评分低于阈值，则初步评分为最终评分；否则进行准确度、流利度、语速、节奏、重音和语调等分指标的评分；S6、综合各种评分计算得到考卷语音的最终评分。本发明还公开了一种语音评分***。本发明采用基于混合模型的语音识别方法，识别更准确，还能够通过评价标准分级实现考生录制后以文件形式存放的语音试卷进行客观评分。

Description

一种语音评分方法及***

技术领域

本发明涉及语音识别和评价技术，尤其涉及一种语音评分方法及***。

背景技术

语音识别技术从应用角度上通常分为两类：一类是特定人语音识别，一类是非特定人语音识别。特定人语音识别技术是针对一个特定的人的识别技术，简单说就是只识别一个人的声音，不适用于更广泛的群体；而非特定人识别技术恰恰相反，可以满足不同人的语音识别要求，适合广泛人群应用。

目前在大词汇语音识别方面处于领先地位的IBM语音研究小组。AT&T的贝尔研究所也开始了一系列有关非特定人语音识别的实验，其成果确立了如何制作用于非特定人语音识别的标准模板的方法。

这一时期所取得的重大进展有：

(1)隐式马尔科夫模型(Hidden Markov Models,HMM)技术的成熟和不断完善成为语音识别的主流方法；

(2)在进行连续语音识别的时候，除了识别声学信息外，更多地利用各种语言知识，诸如构词、句法、语义、对话背景方面等的知识来帮助进一步对语音作出识别和理解；同时在语音识别研究领域，还产生了基于统计概率的语言模型；

(3)人工神经网络在语音识别中的应用研究的兴起。在这些研究中，大部分采用基于反向传播算法(BP算法)的多层感知网络；此外，还有网络结构简单、易于实现、没有反馈信号的前向网络；***的稳定性与联想记忆功能有密切关系、神经元间有反馈的反馈网络。人工神经网络具有区分复杂的分类边界的能力，显然它十分有助于模式划分。

另外，面向个人用途的连续语音听写机技术也日趋完善。这方面，最具代表性的是IBM的ViaVoice和Dragon公司的Dragon Dictate***。这些***具有说话人自适应能力，新用户不需要对全部词汇进行训练，便可在使用中不断提高识别率。

中国的语音识别技术的发展：在北京有中科院声学所、自动化所、清华大学、北方交通大学等科研机构和高等院校。另外，还有哈尔滨工业大学、中国科技大学、四川大学等也纷纷行动起来。现在，国内有不少语音识别***已研制成功。这些***的性能各具特色：在孤立字大词汇量语音识别方面，最具代表性的是清华大学电子工程系与中国电子器件公司合作研制成功的THED-919特定人语音识别与理解实时***；在连续语音识别方面，四川大学计算机中心在微机上实现了一个主题受限的特定人连续英语——汉语语音翻译演示***；在非特定人语音识别方面，有清华大学计算机科学与技术系研制的声控电话查号***并投入实际使用。

另外，科大讯飞作为中国最大的智能语音技术提供商，在2010年发布了全球首个移动互联网智能语音交互平台“讯飞语音云”，宣告移动互联网语音听写时代到来。

在智能语音技术领域科大讯飞有着长期的研究积累，并在中文语音合成、语音识别、语音评测等多项技术上拥有国际领先的成果：语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的语音***所必需的两项关键技术；自动语音识别技术(Auto Speech Recognize，ASR)所要解决的问题是让计算机能够“听懂”人类的语音，将语音中包含的文字信息“提取”出来；语音评测技术是智能语音处理领域的一项研究前沿，又称计算机辅助语言学习(ComputerAssisted Language Learning)技术，是一种通过机器自动对发音进行评分、检错并给出矫正指导的技术；声纹识别技术，又称说话人识别技术(SpeakerRecognition)，是一项通过语音信号提取代表说话人身份的相关特征(如反映声门开合频率的基频特征、反映口腔大小形状及声道长度的频谱特征等)，进而识别出说话人身份等工作方面的技术；自然语言是几千年来人们生活、工作、学习中必不可少的元素，而计算机是20世纪最伟大的发明之一，如何利用计算机对人类掌握的自然语言进行处理、甚至理解，使计算机具备人类的听说读写能力，一直是国内外研究机构非常关注和积极开展的研究工作。

发明内容

本发明所要解决的技术问题在于，提供一种语音评分方法和***，能够快捷准确地进行阅卷评分，以客观的评分标准给考生评分。本发明融合了现有发音质量客观评价模型的优点，获取了性能更好的语音识别模型和语音训练模型以及更为准确的语音口语评分方案；并且能够通过多重评价指标体系实现对以文件形式存放的语音试卷进行客观评分。本发明具有更加稳定、效率更高的优点，为研究成果的实用化奠定基础，有利于实现大规模英语口语测试全自动阅卷的目标。

为解决上述技术问题，本发明提供了一种语音评分方法，包括步骤：

S1、录制考生的考卷语音；

S2、对所述考生的考卷语音进行预处理，得到考卷语音语料；

S3、提取所述考卷语音语料的特征参数；

S4、采用基于HMM和ANN混合模型的语音识别方法将所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出所述考卷语音的内容，并给予初步评分；

S5、若初步评分低于预先设定阈值，则所述初步评分为该考卷语音的最终评分，并标记该考卷语音为问题卷；若初步评分高于预先设定阈值，则对所述考卷语音进行准确度、流利度、语速、节奏、重音和语调分指标评分；

S6、对所述分指标评分进行加权计算得到所述考卷语音的最终评分。

进一步的，所述步骤S1之前还包括步骤S0，所述步骤S0具体包括步骤：

S01、录制专家的标准语音；

S02、对所述标准语音进行预处理，得到标准语音语料；

S03、提取所述标准语音语料的特征参数；

S04、对所述标准语音语料的特征参数进行模型训练，得到所述标准语音模板。

进一步的，所述步骤S4中基于HMM和ANN混合模型的语音识别方法的具体步骤为：

S41、建立所述考卷语音语料的特征参数的HMM模型，得到HMM模型中所有状态累积概率；

S42、将所述所有状态累积概率作为ANN分类器的输入特征进行处理，从而输出识别结果；

S43、将所述识别结果与所述标准语音模板进行特征匹配，从而识别出所述考卷语音的内容。

进一步的，所述步骤S2中的预处理具体包括预加重、分帧、加窗、降噪、端点检测和切词，其中，所述降噪的具体步骤为采用语音的空白语音段作为噪声的基值对后续语音进行去噪处理。

进一步的，所述切词具体包括步骤：

S21、提取语音中每个音素的MFCC参数，并建立对应音素的HMM模型；

S22、对语音进行粗切分，得到有效的语音段；

S23、根据所述音素的HMM模型识别出所述语音段的单词，从而将语音识别为单词集合。

进一步的，所述步骤S3中的提取参数特征具体为提取MFCC特征参数，具体步骤为将预处理后得到的语料进行快速傅里叶变换、三角窗滤波、求对数、离散余弦变换得到MFCC特征参数。

进一步的，所述步骤S5中的准确度评分具体步骤为：

采用抽插值的方法将待评分语音语句规整到与标准语音语句相近的程度；采用短时能量作为特征来提取所述待评分语音语句与标准语音语句的强度曲线；通过比较待评分语音语句与标准语音语句的强度曲线的拟合程度进行评分。

进一步的，所述步骤S5中的流利度评分具体步骤为：

将待评分语音截成前后两部分，并对前半部份和后半部份切词从而得到有效语音段；将前后两部分的有效语音段的长度分别与总待评分语音的长度作除运算，并将得到的值与对应的阈值相比较，若都大于对应的阈值，则判定为流利；否则，判定为不流利。

语速评分具体步骤为：计算待评分语音中发音部分占整个待评分语音时长的比例，根据所述比例进行语速评分。

节奏评分具体步骤为：采用改进的dPVI参数计算公式计算待评分语音的节奏。

重音评分具体步骤为：在规整后的强度曲线基础上，通过设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长划分重音单元，并采用DTW算法对所述待评分语音语句和标准语音语句进行模式匹配，实现重音的评。

语调评分具体步骤为：提取待评分语音和标准语音的共振峰，并根据所述待评分语音共振峰的变化趋势与标准语音共振峰的变化趋势的拟合程度对语调进行评分。

本发明还提供了一种语音评分***，包括：

语音录制模块，用于录制考生的考卷语音；

预处理模块，用于对所述考生的考卷语音进行预处理，得到考卷语音语料；

参数特征提取模块，用于提取所述考卷语音语料的特征参数；

语音识别模块，用于采用基于HMM和ANN混合模型的语音识别方法对所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出考卷语音的内容，并给予初步评分；

语音评分模块，用于对于初步评分高于设定阈值的考卷语音进行准确度评分、流利度评分、语速评分、节奏评分、重音评分和语调评分。

综合评分模块，用于综合准确度、流利度、语速、节奏、重音和语调的评分计算得到初步评分高于设定阈值的考卷语音的最终评分。

实施本发明，具有如下有益效果：

1、本发明在预处理模块中加入了实用的降噪和切词方法，得到质量更好的语音语料；

2、采用基于HMM和ANN混合模型的语音识别方法，性能更佳，识别更为准确；

3、通过对语速、节奏、重音和语调的多指标分析，比原有朗读题的评分指标更多元化，结果更具客观性；

4、通过对准确度和流利度的双重分析，在原有只能实现对朗读题评分的基础上，实现了对翻译题、问答题和复述题等非朗读题的客观评分，建立了一个合理完善的语音评分方法和***，能快捷准确地进行阅卷评分，以客观的评分标准给考生评分；

5、本发明具有更加稳定、效率更高的优点，且实用性强，应用范围广，能够运用到口语考试的评改过程，大幅度有效地缩短评改时间，提高***处理的高效性，也提高了评改的客观性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音评分方法的流程示意图；

图2是步骤S0的具体步骤的流程示意图；

图3是图1中预处理的具体步骤的流程示意图；

图4是图3中切词的具体步骤的流程示意图；

图5是MFCC特征参数提取的具体步骤的流程示意图；

图6是基于HMM和ANN混合模型的语音识别方法的具体步骤的流程示意图；

图7是本发明实施例提供的语音评分***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种语音评分方法，如图1所示，包括步骤：

S1、录制考生的考卷语音；

S3、提取所述考卷语音语料的特征参数；

S4、采用基于隐马尔可夫模型(Hidden Markov Models，HMM)和人工神经网络(Artificial Neural Networks，ANN)混合模型的语音识别方法将所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出所述考卷语音的内容，并给予初步评分；

S6、对所述分指标的评分进行加权计算得到所述考卷语音的最终评分。

进一步的，所述步骤S1之前还包括步骤S0，如图2所示，所述步骤S0具体包括步骤：

S01、录制专家的标准语音；

其中标准语音都是由多数专业人士在特定的环境下录制的，语音内容与英语口语考试内容相对应；

S02、对所述标准语音进行预处理，得到标准语音语料；

S03、提取所述标准语音语料的特征参数；

其中，标准语音的模型训练是指按照一定的准则，从大量已知模式中获取表征该模式本质特征的模型参数，即标准语音模板。所述模型训练的过程具体是指为了使语音识别***达到某种最佳状态，通过对初始构造数据不断地迭代调整***模板的参数(包括状态转移矩阵的概率以及高斯混合模型的方差，均值，权重等)，使***的性能不断向这种最佳状态逼近的过程。由于专业人士的标准语音与考生的语音具有一定程度上的差异，而且本发明的评分对象是自然人，所以本发明将会努力扩展语料库，由特定的专业人士扩展到普通人，特定环境扩展到普通环境，并且包含不同性别、年龄、口音的说话人的声音。

接下来将对各步骤进行具体介绍。

1、预处理

如图3所示，所述步骤S2中的预处理具体包括降噪、预加重、分帧、加窗、端点检测和切词，预处理的目的是消除因为人发音器官本身和由于语音信号的设备对语音信号质量产生的影响，为语音特征提取提供优质的参数，从而提高语音处理的质量。

其中，所述降噪的具体步骤为采用语音的空白语音段作为噪声的基值对后续语音进行去噪处理，因为根据研究发现，当考生在录制录音之前，通常在开始的一小段时间里是没有发声的，而这一小段录音却并不是空白的，而是具有噪音的录音段。因此，通过提取这录音段的音频作为噪声的基值，对之后的录音就可以进行一个去处噪声的处理了，同时也排除了无声段的噪声干扰。

其中，所述切词是指把一句话切成一个个单词或者词组，以使得计算机能够通过识别一个个单词或词组而“听懂”考生的表述内容，为后阶段计算机进行相应的加分或扣分因素的分析以及最后自动评分做准备。如图4所示，所述切词具体包括步骤：

S21、提取语音中每个音素的Mel频率倒谱系数(Mel Frequency CepstrumCoefficient，MFCC)参数，并建立对应音素的HMM模型；

S22、对语音进行粗切分，得到有效的语音段；

粗切分的目的有两点：一是减少运算量，借此减少切词的时间；二是增加切词的准确度。关于粗分，利用的是双门限法，把明显空白的地方截取掉，但是使用的门限值较低，目的是为了得到有效的语音段；

该切词方法具有识别率、准确率高，误差小的优点：1)识别模板的个数是固定的，对于HMM模型来说，准确率非常高；而且不需要再去设置输出概率的阈值，这将很大程度上提高识别率。2)切分单词之后，即得到单词的读音，读音可辅助进行关键词的匹配，从而减少了匹配单词所带来的误差。

2、提取参数特征

所述步骤S3中的提取特征参数具体为提取MFCC特征参数，如图5所示，具体步骤为将预处理后得到的语料进行快速傅里叶变换、三角窗滤波、求对数、离散余弦变换得到MFCC特征参数。其中，采用MFCC特征参数是因为其考虑了人耳的听觉特性，将频谱转化为基于Mel频率的非线性频谱，然后转换到倒谱域上。而且没有任何前提假设，用数学的方法来模拟人耳的听觉特性，使用一串在低频区域交叉重叠排列的三角型滤波器，捕获语音的频谱信息；另外，MFCC特征参数的抗噪能力和抗频谱失真能力强，能够更好的提高***的识别性能。

3、语音内容识别

所述步骤S4中采用了基于HMM和ANN混合模型的语音识别方法，其中HMM方法有需要语音信号的先验统计知识、分类决策能力弱、结构复杂，需要大量的训练样本和需要进行大量计算的缺点；ANN虽然在决策能力上有着一定的优势，但是它对动态时间信号的描述能力尚不尽人意，而且基于神经网络的语音识别算法存在训练、识别时间太长的缺点。为了克服各自的缺点，本发明将具有较强时间建模能力的HMM和具有较强分类能力的ANN两种方法有机的结合起来，进一步提高了语音识别的鲁棒性和准确率。这种方法不仅克服了HMM本身难以解决的模式类别间的相互重叠问题，提高了对易混淆词的识别能力，同时也克服了ANN仅能处理固定长输入模式的局限，省去了复杂的归整运算。具体的，如图6所示，所述步骤S4中基于HMM和ANN混合模型的语音识别方法的具体步骤为：

S42、将所述所有状态累积概率作为ANN(具体为自组织神经网络)分类器的输入特征进行处理，从而输出识别结果；

4、语音评价

由于在日常生活中，有一些考生并不能很好地在规定的时间进行口语测验，得到的考卷语音将出现大量空白或者无法识别，我们将这些考卷录音标记为问题卷。问题卷包括空白录音以及各种无法识别的有声录音，如非英语语种的录音、噪声过大的录音等，而步骤S4的目的不只是识别出考生所读的内容，还有就是检测问题卷，并且根据实际的情况给出较低的分数，对于此类问题卷语音就没有必要对其进行准确度、流利度、语速、节奏、重音和语调进行评分。只有当初始评分高于预先设定阈值时才进行进一步的语音评价。

(1)所述步骤S5中的准确度评分具体步骤为：采用抽插值的方法将待评分语音语句规整到与标准语音语句相近的程度；采用短时能量作为特征来提取所述待评分语音语句与标准语音语句的强度曲线；通过比较待评分语音语句与标准语音语句的强度曲线的拟合程度进行评分。

语句的强度曲线图可以反映语音信号随着时间的变化。语句中重读音节响亮的特征将反映到时域上的能量强度，即重音音节表现为语音能量强度大。但由于不同人不同时间对同一句话的发音时长不相等、发音强度也不同，如果将待评分语音语句和标准语音语句的强度曲线直接进行模板匹配，结果将影响评价的客观性。因此本发明在原有技术的基础上修改出一种基于标准语音语句的强度曲线提取方法：当待评分语音语句时长比标准用语音语句短的时候，采用插值方法对其进行时长的补充；当待评分语音语句时长比标准语音语句长的时候，采用抽值方法对其进行时长的调整；最后，利用标准语音语句的强度曲线的最强点，对待评分语音语句的强度曲线进行强度规整。

(2)流利度评分具体步骤为：将待评分语音截成前后两部分，并对前半部份和后半部份切词从而得到有效语音段；将前后两部分的有效语音段的长度分别与总待评分语音的长度作除运算，并将得到的值与对应的阈值相比较，若都大于对应的阈值，则判定为流利；否则，判定为不流利；

针对句子级的流利度，旨在通过计算句子表达的通顺程度，并且利用标准语音计算发音的韵律得分，两者融合得到句子的流利度诊断模型。这种句子流利度评分方法也可以应用到篇章流利度评分。该方法考虑到发音者在表述语句过程中的通顺性，比传统方法有更高的相关度。因此可以应用到语音评分***中。

(3)语速评分具体步骤为：计算待评分语音中发音部分占整个待评分语音时长的比例，根据所述比例对语速进行评分。

(4)节奏评分具体步骤为：采用改进的差异性成对变异指数(the DistinctPairwise Variability Index，dPVI)参数计算公式计算待评分语音的节奏。dPVI根据语音单元时长差异性的特征，将标准语音语句与带评分语音语句的音节单元片段时长分别进行对比计算，并将转换出的参数用于客观评价和反馈指导依据。

dPVI = 100 \times (Σ_{k = 1}^{m - 1} | {d 1}_{k} - {d 2}_{k} | + | {d 1}_{t} - {d 2}_{t} |) / {Len}_{Std}

其中d为语句划分的语音单元片段时长(如：d_k为第k个语音单元片段时长)，m＝min时(即标准语音语句单元数，待评分语音语句单元数)，Len_Std为标准语音语句时长。由于进行PVI运算之前已经将待评分语音语句时长规整到与标准语音语句时长相当，计算时可只用Len_Std作为计算单元。

(5)重音评分具体步骤为：在规整后的强度曲线基础上，通过设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长划分重音单元，并采用动态时间规整(Dynamic Time Warping,DTW)算法对所述待评分语音语句和标准语音语句进行模式匹配，实现重音的评分。

重音是指词、词组、句子里重读的音。DTW算法的基本原理为动态时间规整，把测试模板和参考模板之间本来不匹配的时间长度进行匹配。用传统的欧氏距离计算其相似度，设参考模板和测试模板为R和T，距离D[T,R]越小则相似度越高。传统DTW算法的缺点是在进行模板匹配时，所有帧的权重一致，必须匹配所有的模板，计算量比较大，特别是当模板数增加较快时，运算量增长特别快。所以本发明采用改进了的DTW算法进行待评分语音语句和标准语音语句的模式匹配，完善了传统DTW算法的缺点，每一帧的权重有所侧重，大大降低了计算量，使得结果更加精确。

(6)语调评分具体步骤为：提取待评分语音和标准语音的共振峰，并根据所述待评分语音共振峰的变化趋势与标准语音共振峰的变化趋势的拟合程度对语调进行评分。

语调是人们英语口语交际中表示语言表达能力的一个重要表征，是言语人话语运用状态整体语势的反映，在听感上是语音的轻重缓急和抑扬顿挫的腔调。

在语音数字信号处理的研究中，语音信号的共振峰是一个十分重要的性能参数。这里提及的共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道(共振腔)的物理特征。声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减，得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接来源，而且人在语音感知中利用了共振峰信息，所以共振峰是语音信号处理中非常重要的特征参数。共振峰是准周期脉冲激励进入声道时产生的一组共振频率。共振峰参数包括共振峰频率和频带宽度，它是区别不同韵母的重要参数。而共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为频谱包络中的最大值就是共振峰。

本发明还提供了一种语音评分***，如图7所示，包括：

语音录制模块101，用于录制考生的考卷语音；

预处理模块102，用于对所述考生的考卷语音进行预处理，得到考卷语音语料；

参数特征提取模块103，用于提取所述考卷语音语料的特征参数；

语音识别模块104，用于采用基于HMM和ANN混合模型的语音识别方法对所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出考卷语音的内容，并给予初步评分；

语音评分模块105，用于对于初步评分高于设定阈值的考卷语音进行准确度评分、流利度评分、语速评分、节奏评分、重音评分和语调评分。

综合评分模块106，用于综合准确度、流利度、语速、节奏、重音和语调的评分计算得到初步评分高于设定阈值的考卷语音的最终评分。

其中，所述的语音评分***和语音评分方法相互对应，因此各模块的具体处理步骤可参考语音评分方法的步骤，再次不在赘述。

实施本发明，具有如下有益效果：

(1)本发明在预处理模块中加入了实用的降噪和切词方法，得到质量更好的语音语料；

(2)采用基于HMM和ANN混合模型的语音识别方法，性能更佳，识别更为准确；

(3)通过对语速、节奏、重音和语调的多指标分析，比原有朗读题的评分指标更多元化，结果更具客观性；

(4)通过对准确度和流利度的双重分析，在原有只能实现对朗读题评分的基础上，实现了对翻译题、问答题和复述题等非朗读题的客观评分，建立了一个合理完善的语音评分方法和***，能快捷准确地进行阅卷评分，以客观的评分标准给考生评分；

(5)本发明具有更加稳定、效率更高的优点，且实用性强，应用范围广，能够运用到口语考试的评改过程，大幅度有效地缩短评改时间，提高***处理的高效性，也提高了评改的客观性。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音评分方法，其特征在于，包括步骤：

S1、录制考生的考卷语音；

S3、提取所述考卷语音语料的特征参数；

2.如权利要求1所述的语音评分方法，其特征在于，所述步骤S1之前还包括步骤S0，所述步骤S0具体包括步骤：

S01、录制专家的标准语音；

S02、对所述标准语音进行预处理，得到标准语音语料；

S03、提取所述标准语音语料的特征参数；

3.如权利要求1所述的语音评分方法，其特征在于，所述步骤S4中基于HMM和ANN混合模型的语音识别方法的具体步骤为：

4.如权利要求1所述的语音评分方法，其特征在于，所述步骤S2中的预处理具体包括降噪、预加重、分帧、加窗、端点检测和切词，其中，所述降噪的具体步骤为采用语音的空白语音段作为噪声的基值对后续语音进行去噪处理。

5.如权利要求4所述的语音评分方法，其特征在于，所述切词具体包括步骤：

S22、对语音进行粗切分，得到有效的语音段；

6.如权利要求1所述的语音评分方法，其特征在于，所述步骤S3中的提取参数特征具体为提取MFCC特征参数，具体步骤为将预处理后得到的语料进行快速傅里叶变换、三角窗滤波、求对数、离散余弦变换得到MFCC特征参数。

7.如权利要求1所述的语音评分方法，其特征在于，所述步骤S5中的准确度评分具体步骤为：

8.如权利要求1所述的语音评分方法，其特征在于，所述步骤S5中的流利度评分具体步骤为：

将待评分语音截成前后两部分，并对前半部份和后半部份切词从而得到有效语音段；将前后两部分的有效语音段的长度分别与总待评分语音的长度作除运算，并将得到的值与对应的阈值相比较，若大于对应的阈值，则判定为流利；否则，判定为不流利。

9.如权利要求1所述的语音评分方法，其特征在于，所述步骤S5中的

语速评分具体步骤为：计算待评分语音中发音部分占整个待评分语音时长的比例，根据所述比例对语速进行评分；

节奏评分具体步骤为：采用改进的dPVI参数计算公式计算待评分语音的节奏；

重音评分具体步骤为：在规整后的强度曲线基础上，通过设置重音阈值和非重音阈值作为特征的双门限以及重读元音时长划分重音单元，并采用DTW算法对所述待评分语音语句和标准语音语句进行模式匹配，实现重音的评分；

10.一种语音评分***，其特征在于，包括：

语音录制模块，用于录制考生的考卷语音；

特征参数提取模块，用于提取所述考卷语音语料的特征参数；

语音识别模块，用于采用基于HMM和ANN混合模型的语音识别方法对所述考卷语音语料的特征参数和标准语音模板进行特征匹配，识别出考卷语音的内容，并给予初步评分以及标记是否为问题卷；

语音评分模块，用于对于初步评分高于预先设定阈值的非问题考卷语音进行准确度评分、流利度评分、语速评分、节奏评分、重音评分和语调评分。