CN105741832A

CN105741832A - 一种基于深度学习的口语评测方法和***

Info

Publication number: CN105741832A
Application number: CN201610057368.0A
Authority: CN
Inventors: 李心广; 李苏梅; 徐集优; 王泽铿; 朱小凡; 许港帆; 叶学超; 杨国强; 马晓纯; 康钰然
Original assignee: Guangdong University of Foreign Studies
Current assignee: Guangdong University of Foreign Studies
Priority date: 2016-01-27
Filing date: 2016-01-27
Publication date: 2016-07-06
Anticipated expiration: 2036-01-27
Also published as: CN105741832B

Abstract

本发明公开了一种基于深度学习的口语评测方法和***，所述方法包括：用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价；用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价；用深度学习算法对整个句子发音质量作总体评价。本发明通过建立深度信念网络模型，将深度学习的DBN(Deep Belief Network)模型应用于英语口语测评中，对口语发音做出更加全面准确的评价。同时，深度学习算法相比浅层模型对情感的评价，评价准确度更高。

Description

一种基于深度学习的口语评测方法和***

技术领域

本发明涉及语音识别和评价技术领域，尤其涉及一种基于深度学习的口语评测方法和***。

背景技术

语音信号处理技术是语音处理和语音识别领域中的一个重要分支，也是现今语音识别和语音评价***的主要核心技术。如今科技迅速发展，语音信号处理技术已深入到各个领域，包括语言学习以及口语自动评分，而在语言学习和自动评分中，运用语音信号处理的目的是将最新的语音技术与当前的教学和学习方法结合，建立辅助语言学习的***或者口语智能评分***。

近年来，特别是2009年以来，借助机器学习领域深度学习研究的发展，以及大数据语料的积累，语音识别技术得到突飞猛进的发展。将深度学习研究引入到语音识别模型训练，极大提高了语音识别的准确率。本发明采用深度学习算法，通过深度自动编码器构建语音识别模型和情感识模型，以及其他语音处理方法，包括语音信号预处理、语音识别、情感识别和发音质量评分。发音情感是一项对口语发音质量评价的重要指标，也是一项目前较难识别的指标，本发明将采用多个特征参数通过深度学习算法对情感进行识别和评价，结合其他评估指标构建科学，全面的口语朗读评价方法。

深度学习的概念源于人工神经网络的研究，由Hinton等人于2006年提出。2006年，加拿大多伦多大学教授、机器学习领域的泰斗GeoffreyHinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇文章，开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点：(1)多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；(2)深度神经网络在训练上的难度，可以通过“逐层初始化”(layer-wisepre-training)来有效克服，在文章中逐层初始化是通过无监督学习实现的。由此可见，深度学习的实质是通过构建具有很多隐层的机器学习模型和海量的训练数据，来学习更有用的特征，从而最终提升分类或预测的准确性。

现有将深度学习方法应用于移动互联网有如下方式：

(1)基于DTW(DynamicTimeWarping)的口语发音评价***

DTW是语音识别中出现较早、较为经典的一种算法，该算法基于动态规划的思想，解决了发音长短不一的模板匹配问题。DTW在训练中几乎不需要额外的计算，因而在孤立词语音识别中最为简单有效。

(2)基于HMM(HiddenMarkovModel)的口语发音评价***

HMM是一种参数表示的用于描述随机过程统计特性的概率模型，由Markov链演变来，所以它是基于参数模型的统计识别方法。由于其模式库是通过反复训练形成的与训练输出信号吻合概率最大的最佳模型参数而不是预先储存好的模式样本，且其识别过程中运用待识别语音序列与HMM参数之间的似然概率达到最大值所对应的最佳状态序列作为识别输出，因此是较为理想的语音识别模型。

(3)基于ANN(ArtificialNeuralNetwork)的口语发音评价***

ANN是利用数学模型模拟大脑神经网络的结构和功能而建立的一种信息处理***。基于神经网络的语音识别***本质上是一个自适应非线性动力学***，一般由神经元、训练算法及网络结构三大要素构成。

上述方法存在如下技术缺陷：

(1)DTW但由于没有一个有效的用统计方法进行训练的框架，也不容易将底层和顶层的各种知识用到语音识别算法中，因此在解决大词汇量、连续语音、非特定人语音识别问题时存在较大缺陷。

(2)HMM也有一定的局限性。首先，基于HMM的方法没有考虑感知的影响。其次，需要采集大规模的语音语料库来训练标准语音的HMM模板以获得稳健的HMM。再者，由于CALL是辅助第二语言学习，更多涉及非母语语音的识别。在识别非母语语音时，通常由母语语音训练的HMM识别性能会大幅下降，因此要进行非母语语音的自适应。即使这样，自适应后的HMM对非母语语音的识别仍难以取得良好的结果。

(3)ANN的理论分析的难度较大，不能很好地解释语音信号的时间动态特性；在训练学习网络模型时较容易过拟合，较难调整模型参数，需要不少经验和技巧，而且速度较慢，在层次较少(小于等于3)时效果并不优于其它方法，因此浅层人工神经网络在这个时期并没有过大的突破与发展。

发明内容

本发明实施例的目的在于提供一种基于深度学习的口语评测方法和***，能够提高对口语语音识别和发音质量评价的准确度。

为了实现上述目的，一方面，本发明实施例提供了一种基于深度学习的口语评测方法，包括：

用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价；

用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价；

用深度学习算法对整个句子发音质量作总体评价。

进一步的，所述用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价，包括：

通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别，判断所述测试语音的完整度；

计算标准语音与所述测试语音的MFCC特征的相关系数，判断所述测试语音的流利度；

根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。

进一步的，所述深度自动编码器包括：编码器、解码器和隐含层；

所述编码器采用如下关系式进行编码：

h＝f(X)＝S_f(WX+b_j)

其中，X为输入语音的特征向量，W为输入向量的权值，b_j表示第j个神经元的阈值，或者称为偏置，h是得到的隐含层值，S_f是非线性激活函数，其表达式为：

s i g m o i d (z) = \frac{1}{1 + z^{- 1}}

解码器采用如下关系式进行解码:

y＝g(H)＝S_g(WH+b_h)

其中，H为隐含层向量，这里作为输入，W为对应的权值向量，b_h为阈值，S_g是解码器的激活函数；

对深度自动编码器的训练过程是在训练样本集D上寻找参数W，bj，bh构成的最小化重构误差，重构误差的表达式为:

J_{A E} = \underset{x &Element; D}{Σ} L (x, g (f (x))

其中，x为上述公式的输入，g(f(x))为上述公式的解码器输出，L是重构误差函数，表示为:

L (x, y) = - Σ_{i = 1}^{d_{x}} x_{i} \log y_{i} + (1 - x_{i}) l o g (1 - y) .

进一步的，所述对深度自动编码器的训练过程包括：

(1)输入用作训练的语音特征参数，在语音数据无类别标签的情况下，无监督训练出第一个AE；

(2)以第一个AE的输出作为下一个AE的输入，训练出第二个AE；

(3)重复步骤(2)，直到完成预设数量隐含层的训练为止；

(4)在最后一个隐含层上增加一个分类预测网络模型，实现对所述分类预测网络模型的权重微调。

进一步的，所述用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价，具体为：

通过深度信念网络模型进行情感识别，判断情感正确度；

计算标准语音与所述测试语音特征参数的相关系数；

根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。

进一步的，所述深度信念网络模型的建立包括：

10、构建RBM，描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为：

E_{θ} (v, h) = - \underset{i}{Σ} a_{i} v_{i} - \underset{j}{Σ} b_{j} h_{j} - \underset{i j}{Σ} v_{i} w_{i j} h_{j},

其中θ＝{W,a,b}

其中，θ＝{W,a,b}是RBM模型的参数，a_i表示可见层节点i的偏置，b_j表示隐藏层节点j的偏置，w_i,j表示可见层节点i和隐含层节点j之间的连接权重；

20、基于所述能量函数，任一组态的联合概率分布为：

P_{θ} (v, h) = \frac{1}{Z_{θ}} \exp (- E_{θ} (v, h)),

其中

Z_{θ} = \underset{v, h}{Σ} \exp (- E_{θ} (v, h))

Z_θ为归一化因子；

30、给定训练样本，调整参数θ＝{W,a,b}，以拟合给定的训练样本；

40、构建完RBM后，通过逐层堆叠RBM，固定偏移量和权重以及构建BP网络作为分类器，形成深度信念神经网络模型。

进一步的，所述语音特征参数包括：基频特征、共振峰、语速、平均能量，采用所述深度信念网络模型对所述语音特征参数进行模型训练、识别与评价。

进一步的，所述用深度学习算法对整个句子发音质量作总体评价包括：

根据预存的发音评价标准对所述测试语音数据的发音质量进行评价；

其中，所述预存的发音评价标准是预存的人工标记的发音评价标准。

为了实现上述目的，本发明另一方面提供一种基于深度学习的口语评测***，包括发音准确度评价单元、情感准确度评价单元、发音质量评价单元和标准模型库；

所述发音准确度评价单元，用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价；

所述情感准确度评价单元，用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价；

所述发音质量评价单元，用深度学习算法对整个句子发音质量作总体评价；

所述标准模型库，用于存储标准语音语句和所述标准语音语句的语音特征参数。

进一步的，所述发音准确度评价单元包括：

语音完整度评价单元，通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别，判断所述测试语音的完整度；

语音准确度评价单元，计算标准语音与所述测试语音的MFCC特征的相关系数，判断所述测试语音的流利度；

第一评价单元，根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价；

所述情感准确度评价单元包括：

情感正确度评价单元，通过深度信念网络模型进行情感识别，判断情感正确度；

相关系数确定单元，计算标准语音与所述测试语音的特征参数的相关系数；

第二评价单元，根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。

本发明实施例提供的基于深度学习的口语评测方法，相较于现有技术，具有如下有益效果：

1、对口语语音音准的评价具有更高的准确度。本发明通过建立基于深度自动编码器的语音识别模型对口语语音中的音准进行评价，相对于HMM，SVM等浅层模型具有更高的准确度。

2、用深度学习算法对口语语音情感进行评价。本发明将深度学习的DBN模型应用于口语语音情感评价，结合情感评价将对口语发音做出更加全面准确的评价。同时，深度学习算法相比浅层模型对情感的评价，评价准确度更高。

3、用深度学习算法模拟人类对整个口语句子发音质量进行评价。本发明采用深度自动编码器对整个口语句子发音质量进行评价，避免权重难以确定的情况，从而更好地模拟人类对整个口语句子发音质量进行评价。

附图说明

图1是本发明提供的基于深度学习的口语评测方法的流程图；

图2是本发明提供的深度自动编码器基本模型示意图；

图3是本发明提供的DBN模型示意图；

图4是本发明提供的深度自动编码器语音识别模型示意图；

图5是本发明提供的判断情感正确度的示意图；

图6是本发明提供的对所述测试语音数据的发音质量进行评价的示意图；

图7是本发明提供的基于深度学习的口语评测***的一个实施例的***结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。实施例中各个步骤前的标号仅为了对各个步骤进行更清楚地标识，各个步骤之间没有必然的先后顺序的限定。本发明实施例中，虽仅以口语语音的评测为例，但本领域技术人员应当理解，本发明也可应用到其他语言的语音处理中。

参见图1，是本发明提供的基于深度学习的口语评测方法的一个实施例的方法流程图。

如图1所示，所述基于深度学习的口语评测方法包括以下步骤：

101、用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价；

本发明采用深度学习算法对测试语音数据进行处理，深度学习算法是目前机器学习领域最前沿的技术，深度学习模型包括深度自动编码器，深度信念网络以及卷积神经网络。

其中，深度自动编码器是由自动编码器改进而来，增加隐含层和神经元的数量，调整节点和改变权值等。自动编码器通过将原始输入x经过隐含层的映射转换为编码输出c(x)，同样可以将c(x)经过隐含层的逆向变换还原为原先的网络输入，即自动编码器的目标输出即输入本身。如果隐含层节点的输入和输出间为线性关系，并且采用最小均方误差准则训练网络的话，那么整个编码过程本质上可以等效于主成分分析(PrincipleComponentAnalysis，PCA)；如果隐含层映射属于非线性映射，即属于自动编码器。本实施例采用的深度自动编码器基本模型如图2所示。

深度信念网络(DeepBeliefNetwork，DBN)由GeoffreyHinton于2006年提出。DBN的核心是一个非监督贪婪的逐层学习算法，通过该方法去预训练获得生成模型的权值，再用反向传播算法对网络进行微调，得到性能较优的网络模型。大量试验表明，用具有相应配置的DBN初始化多层感知器的权值，往往比随机初始化的结果要好得多。

在受限玻尔兹曼机的基础上，如果把隐藏层的层数增加，使用非监督贪婪的逐层方法我们可以得到深度玻尔兹曼机(DeepBoltzmannMachine，DBM)，即充分训练第一个RBM并固定其权重和偏移量；然后使用其隐性神经元的状态，作为第二个RBM的输入向量；充分训练第二个RBM后，将第二个RBM堆叠在第一个RBM的上方；重复以上步骤任意多次。进一步地，如果在靠近可视层的部分使用贝叶斯信念网络，即有向图模型，如BP网络，这里限制层中节点之间无连接，将误差逐层反向传播，而在最远离可视层的部分使用RBM，可以得DBN，本发明提供的DBN模型如图3所示。本质上，DBN通过逐层对RBM训练得到一个全局的较优初始参数，从而提升网络性能。大量试验也证明，DBN可以解决传统BP网络的问题：需要大量含标号的训练样本集，收敛速度慢，参数选择不合适导致网络陷入局部最优。

本实施例中，采用深度自动编码器构成语音识别模型。

本步骤具体包括：

S120、通过深度自动编码器建立语音识别模型对所述测试语音进行语音识别，判断所述测试语音的完整度；

所述深度自动编码器包括：编码器、解码器和隐含层；

所述编码器采用如下关系式进行编码：

h＝f(X)＝S_f(WX+b_j)

s i g mo i d (z) = \frac{1}{1 + z^{- 1}}

解码器采用如下关系式进行解码:

y＝g(H)＝S_g(WH+b_h)

J_{A E} = \underset{x &Element; D}{Σ} L (x, g (f (x))

L (x, y) = - Σ_{i = 1}^{d_{x}} x_{i} l o g y_{i} + (1 - x_{i}) l o g (1 - y) .

其中，深度自动编码器模型构建后，就要对该神经网络模型进行训练，以真正地应用于语音识别中，深度自动编码器语音识别模型如图4。通过无监督预训练方法初始化网络权值，再对网络进行有监督学习，可以避免神经网络容易收敛到局部最小值的情况发生。

所述对深度自动编码器的训练过程包括：

(1)输入用作训练的语音特征参数，在语音数据无类别标签的情况下，无监督训练出第一个AE；其中，AE是自动编码器，全称为AutoEncoder。

(2)以第一个AE的输出作为下一个AE的输入，训练出第二个AE；

(3)重复步骤(2)，直到完成预设数量隐含层的训练为止；

(4)在最后一个隐含层上增加一个分类预测网络模型，本发明使用BP网络模型。将最后一个AE的输出，即最后隐含层数据作为该BP有监督层的输入，配合使用目标分类号，经历多次迭代，实现对所述分类预测网络模型的权重微调。

(5)深度自动编码器语音识别模型训练完毕。

S121、计算标准语音与所述测试语音的MFCC(Mel-FrequencyCepstralCoefficients，Mel倒谱系数)特征的相关系数，判断所述测试语音的流利度；

S122、根据所述测试语音的完整度和所述测试语音的流利度确定所述测试语音的发音准确度评价。

音准评价主要考查发音句子的内容信息是否完整准确，发音是否清晰流利，是否有发音错误。本发明采用基于人耳听觉模型的MFCC系数作为音准的评价参数，通过深度自动编码器建立语音识别模型进行语音识别，判断测试语音内容是否完整正确；同时计算标准语句与输入语句的MFCC特征的相关系数，判断测试语音发音是否清晰流利，综合两者对口语发音质量进行音准评价与反馈。

102、用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价；

本步骤具体为：

S130、通过深度信念网络模型进行情感识别，判断情感正确度；

所述深度信念网络模型的建立包括：

(1)构建RBM，描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为：

E_{θ} (v, h) = - \underset{i}{Σ} a_{i} v_{i} - \underset{j}{Σ} b_{j} h_{j} - \underset{i j}{Σ} v_{i} w_{i j} h_{j},

其中θ＝{W,a,b}

(2)基于所述能量函数，任一组态的联合概率分布为：

P_{θ} (v, h) = \frac{1}{Z_{θ}} \exp (- E_{θ} (v, h)),

其中

Z_{θ} = \underset{v, h}{Σ} \exp (- E_{θ} (v, h))

Z_θ为归一化因子。

因为隐含层节点之间是条件独立的，即：

P (h | v) = \underset{j}{Π} P (h_{j} | v)

进一步地，对上式进行因子分解，可以得到在给定可视层v的基础上，隐含层第j个节点为1或者为0的概率为：

P (h_{j} = 1 | v) = \frac{1}{1 + \exp (- Σ_{i} W_{i j} v_{i} - b_{j})}

同理，在给定隐含层h的基础上，可以得到可视层第i个节点为1或者为0的概率为：

P (v | h) = \underset{i}{Π} P (v_{i} | h)

P (v_{i} = 1 | h) = \frac{1}{1 + \exp (- Σ_{j} W_{i j} h_{j} - a_{i})}

(3)给定训练样本后，训练一个RBM意味着学习调整参数θ＝{W,a,b}，以拟合给定的训练样本，即使得在该参数下由相应RBM表示的概率分布尽可能地与训练数据相符合。

给定一个满足独立同分布的样本集：S＝{v⁽¹⁾,v⁽²⁾,...,v^(N)}，训练RBM的目标就是最大化。以下对数似然函数：

L_{θ} = Π_{i = 1}^{N} P (v^{i})

由于连乘式处理起来比较麻烦，由函数lnx的严格单调性可知，最大化L_θ与最大化lnL_θ是等价的。因此，训练RBM的目标变成最大化，此外为了提高学习效率，采用对比散度(ContrastiveDivergence，CD)算法进行最大化。

\begin{matrix} {lnL}_{θ} = \ln Π_{i = 1}^{N} P (v^{i}) = Π_{i = 1}^{N} \ln P (v^{i}) \\ = \ln (\frac{1}{Z} \underset{h}{Σ} \exp (- E (v, h))) = \ln \underset{h}{Σ} \exp (- E (v, h)) - \ln Z \\ = \ln \underset{h}{Σ} \exp (- E (v, h)) - \ln \underset{v, h}{Σ} \exp (- E (v, h)) \end{matrix}

(4)构建完RBM后，通过逐层堆叠RBM，固定偏移量和权重以及构建BP网络作为分类器，形成深度信念神经网络模型。

S131、计算标准语音与所述测试语音的特征参数的相关系数；

所述特征参数包括：基频特征、共振峰、语速、平均能量，采用所述深度信念网络模型对所述特征参数进行模型训练、识别与评价。

S132、根据所述情感正确度和所述相关系数确定所述测试语音的情感准确度。

本步骤中，首先通过深度信念网络算法建立的深度信念网络模型进行情感准确度评价；同时计算标准语音与测试语音的特征参数的相关系数，综合两者对口语发音质量进行情感评价与反馈，确定所述测试语音的情感准确度。

上述步骤S130～S132，具体如图5所示，根据情感特征参数通过深度信念网络算法建立深度信念网络模型，对所述深度信念网络模型进行训练、识别。通过训练后的深度信念网络模型进行情感准确度评价；同时计算标准语音与测试语音的特征参数的相关系数，综合两者对口语发音质量进行情感评价与反馈，确定所述测试语音的情感准确度。

103、用深度学习算法对整个句子发音质量作总体评价。

本步骤具体包括：

参见图6，本步骤中，通过请专业的口语老师对前期录制的训练语音进行一个总体性的评价，评价的方面包括音准，语速，语调，情感，重音，节奏，最后根据这几方面给出一个总体分数，取多个老师给出的分数的平均分数作为最后标记的分数。通过这些训练语音以及最后的总分训练深度自动编码器神经网络，调整相关权重以及构建BP分类器。在进行评价的过程，输入的测试语音通过神经网络识别出最后的总体评价。

总体评分可针对各分指标加权求和得到，如：总分＝准确度*权重1+重音*权重2+速度*权重3+音调*权重4+情感*权重5+…..本发明采用深度自动编码器直接对测试语音的口语发音质量进行评价，不会出现现有技术中，采用分指标评分的方法出现对不同学习者(如不同级别、不同年级)其权重难以确定的情况。

参见图7，是本发明提供的基于深度学习的口语评测***的一个实施例的***结构图。所述基于深度学习的口语评测***的实质内容与图1所示实施例的基于深度学习的口语评测方法对应，本实施例中未详述之处可参见图1所示实施例中的相关描述。

如图7所示，所述基于深度学习的口语评测***包括发音准确度评价单元210、情感准确度评价单元220、发音质量评价单元230、和标准模型库240。

所述发音准确度评价单元210，用深度学习算法对语段音准度进行评测，得到测试语音的发音准确度评价；

所述情感准确度评价单元220，用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价；

所述发音质量评价单元230，用深度学习算法对整个句子发音质量作总体评价；

所述标准模型库240，用于存储标准语音语句和所述标准语音语句的语音特征参数。

进一步的，所述发音准确度评价单元210包括：

所述情感准确度评价单元220包括：

在本实施例提供的基于深度学习的口语测评***的另一实施例中，该***包括网络客户端和网络服务器。

所述网络客户端主要负责用户与***的交互，实现语音信息的采集、传输和评分结果显示功能。所述网络客户端包括：语音采集模块：通过网页调用录音插件进行录音，并生成wav格式的音频文件；

录音播放模块：播放分别存放于手机本地和服务器的测试语音和标准语音；

数据显示模块：显示语料文本、评价结果和发音反馈指导意见；

通信传输模块：将wav格式的音频文件传到网络服务器。

所述网络服务器具有语料收集，语音信号预处理、语音识别、情感识别和发音质量评分功能。包括图7所示的发音准确度评价单元210、情感准确度评价单元220、发音质量评价单元230、和标准模型库240。

综上所述，本发明实施例提供的基于深度学习的口语评测方法和***，相较于现有技术，具有如下有益效果：

通过以上实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该软件产品存储在可读取的存储介质中，如计算机的软盘，U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度学习的口语评测方法，其特征在于，包括：

用深度学习算法对整个句子发音质量作总体评价。

2.如权利要求1所述的基于深度学习的口语评测方法，其特征在于，所述用深度学习算法对语段音准度进行评测，得到发音准确度评价，包括：

计算标准语音与所述测试语音的MFCC(MelFrequencyCepstrumCoefficient)特征的相关系数，判断所述测试语音的流利度；

3.如权利要求2所述的基于深度学习的口语评测方法，其特征在于，所述深度自动编码器包括：编码器、解码器和隐含层；

所述编码器采用如下关系式进行编码：

h＝f(X)＝S_f(WX+b_j)

s i g m o i d (z) = \frac{1}{1 + z^{- 1}}

解码器采用如下关系式进行解码:

y＝g(H)＝S_g(WH+b_h)

J_{A E} = \underset{x &Element; D}{Σ} L (x, g (f (x))

L (x, y) = - Σ_{i = 1}^{d_{x}} x_{i} \log y_{i} + (1 - x_{i}) l o g (1 - y) .

4.如权利要求3所述的基于深度学习的口语评测方法，其特征在于，所述对深度自动编码器的训练过程包括：

(1)输入用作训练的语音特征参数，在语音数据无类别标签的情况下，无监督训练出第一个AE(Autoencoder)；

(2)以第一个AE的输出作为下一个AE的输入，训练出第二个AE；

(3)重复步骤(2)，直到完成预设数量隐含层的训练为止；

5.如权利要求1所述的基于深度学习的口语评测方法，其特征在于，所述用深度学习算法对语音情感度进行评测，得到测试语音的情感准确度评价，具体为：

通过深度信念网络模型进行情感识别，判断情感正确度；

计算标准语音与所述测试语音特征参数的相关系数；

6.如权利要求5所述的基于深度学习的口语评测方法，其特征在于，

所述深度信念网络模型的建立包括：

10、构建RBM(RestrictedBoltzmannMachine)，描述RBM的变量v和隐藏变量h的联合组态的能量函数表示为：

E_{θ} (v, h) = - \underset{i}{Σ} a_{i} v_{i} - \underset{j}{Σ} b_{j} h_{j} - \underset{ij}{Σ} v_{i} w_{ij} h_{j},

其中θ＝{W，a，b}

20、基于所述能量函数，任一组态的联合概率分布为：

P_{θ} (v, h) = \frac{1}{Z_{θ}} \exp (- E_{θ} (v, h)),

其中

Z_{θ} = \underset{v, h}{Σ} \exp (- E_{θ} (v, h))

Z_θ为归一化因子；

40、构建完RBM后，通过逐层堆叠RBM，固定偏移量和权重以及构建BP(BackPropagation)网络作为分类器，形成深度信念神经网络模型。

7.如权利要求4所述的基于深度学***均能量，采用所述深度信念网络模型对所述语音特征参数进行模型训练、识别与评价。

8.如权利要求1～7任一项的所述的基于深度学习的口语评测方法，其特征在于，所述用深度学习算法对整个句子发音质量作总体评价包括：

9.一种基于深度学习的口语评测***，其特征在于，包括发音准确度评价单元、情感准确度评价单元、发音质量评价单元和标准模型库；

10.根据权利要求9所述的基于深度学习的口语评测***，其特征在于，所述发音准确度评价单元包括：

所述情感准确度评价单元包括：