CN103985392A

CN103985392A - 音素级的低功耗的口语评价与缺陷诊断方法

Info

Publication number: CN103985392A
Application number: CN201410229058.3A
Authority: CN
Inventors: 柳超
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-04-16
Filing date: 2014-05-28
Publication date: 2014-08-13

Abstract

本发明公开了一种音素级的低功耗的口语评价与缺陷诊断方法，包括如下步骤：(1)对用户语音和标准语音进行声学特征提取，得到特征向量序列；(2)基于加权有限状态转换器Q使用Viterbi算法对用户语音和标准语音的特征向量序列进行解码操作，得到特征向量序列到音素序列的映射关系，及用户语音的对齐α和标准语音的对齐；(3)将用户语音的对齐α以及其特征向量序列与标准语音的对齐及特征向量序列进行比较，以评价用户发音质量，吻合度越高，说明发音质量越好。本发明具有如下有益效果：繁重的运算都在服务器端执行，有效减少了终端上的负载与耗电量，终端使用时不需要联网，避免了网络流量消耗。并能识别用户有发音缺陷的音素，并提供针对性练习。

Description

音素级的低功耗的口语评价与缺陷诊断方法

技术领域

本发明涉及计算机辅助语言学习和语音识别技术领域，具体涉及一种音素级(phonetic-level)的低功耗的口语评价与缺陷诊断方法。音素级别的技术使得评分与反馈能够细化到音素级别：在用户读了一系列文本之后，能够识别出来那些阻碍用户发音纯正的核心音素，从而提供相应的培训材料并进行针对性的练习。可适应于英语、汉语、西班牙语等语言的学习，以及对语言障碍患者的诊断与评测。

背景技术

语言的学习在于模仿，尤其是语音方面。以英语为例，为了练就纯正的口语，最好的办法就是跟读母语为英语的纯正发音，现有的很多教程或辅导材料就是以此构建。大体上，这些教材只提供纯正样本发音，而由学生自己判定自己的发音与标准读音之间的差别，并进而自己决定如何改进。这种方法的局限性如下：

1、由于自己听自己声音和别人听到的声音存在差别，学生对自己声音的感知和他人的感知不同，所以无法客观的评分自己发音的质量。

2、借助录音可以弥补上述缺陷，但是来回在录音之间进行切换比较造成不必要的麻烦，降低了学习效率，这是各种复读机所采用的方案。

3、即使不考虑上述因素，学生自己(乃至老师)的评定仍然是主观定性的，无法做到客观的量化评定，并且学生不知道如何改进。由于用户不能准确地辨别自己的发音缺陷，也不能进行针对性的练习。

发明内容

针对现有技术存在的上述缺陷，本发明要解决的技术问题是，提供一种细化到音素级别的口语评价方法，能够从音素级别对用户的读音进行评价，提供更为精确的评分。

为解决上述技术问题，首先，本发明提供了一种音素级的低功耗的口语评价方法，适合在提供标准读音时使用，对于给定的文本，它对应一个音素序列，记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，同时提供作为评价参照的标准语音，本发明的口语评价方法包括如下步骤：

(1)分别对标准语音和用户语音进行声学特征提取，得到每一帧对应的特征向量，进而分别得到标准语音与用户语音所对应的特征向量序列；

(2)基于加权有限状态转换器Q使用Viterbi算法对标准语音和用户语音所对应所述的特征向量序列进行解码操作，

(21)针对标准语音：上述音素序列p_all的对齐此对齐的计数向量记做

\tilde{β} = {{\tilde{ns}}_{0}, {\tilde{n}}_{1}, {\tilde{ns}}_{1}, {\tilde{n}}_{2}, {\tilde{ns}}_{2}, {\tilde{n}}_{3}, {\tilde{ns}}_{3}, . . ., {\tilde{n}}_{(M - 1)}, {\tilde{ns}}_{(M - 1)}, {\tilde{n}}_{M}, {\tilde{ns}}_{M}}

其中sil表示停顿音，表示对应于第i个非停顿音音素的帧的数量，表示对应于第i+1个停顿音的帧的数量，M是此样本文本对应的非停顿音音素的总数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

(22)针对用户语音：上述音素序列p_all的对齐α，此对齐的计数向量记做

β＝{ns₀，n₁，ns₁，n₂，ns₂，n₃，ns₃，...，n_(M-1)，ns_(M-1)，n_M，ns_M}；

其中n_i表示对应于第i个非停顿音音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本对应的非停顿音音素的总数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

其中在所述步骤(21)和(22)中，

Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作；

声学模型H、发音词典模型L以及上下文相关的音素模型C均为加权有限状态转换器，并且均是基于加权有限状态转换器的大词汇量连续语音识别技术的训练过程得到；对于给定的文本产生相应的语言模型G，从而产生与该文本对应的加权有限状态转换器Q；

(3)将用户语音的对齐α以及其特征向量序列与标准语音的对齐及特征向量序列进行比较，以评价用户发音质量，二者吻合度越高，说明发音质量越好。

本发明还提供了一种音素级的低功耗的口语缺陷诊断方法，首先采用如上所述的音素级的低功耗的口语评价方法对用户语音进行处理，然后还包括确定用户有发音缺陷的音素的步骤：

比较n_i和两个序列，二者差距较大的为有发音缺陷的音素；

或者比较υ_i和两个序列，二者差距较大的为有发音缺陷的音素。

本发明还提供了另外一种音素级的低功耗的口语缺陷诊断方法，其特征在于，首先采用如上所述的音素级的低功耗的口语评价方法对用户语音进行处理，然后还包括确定用户有发音缺陷的音素的步骤：根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，用户得分较低的一个或多个音素为有发音缺陷的音素。

本发明的音素级的低功耗的口语评价与缺陷诊断方法具有如下有益效果：

1、繁重的运算都在服务器端执行：包括产生加权有限状态转换器H、C、L，以及产生语音音素对齐所依赖的加权有限状态转换器Q，有关标准读音的运算(例如对齐)。

2、只有关于用户语音的运算被放在了用户终端执行，有效减少了终端上的负载与耗电量，减少了对终端的硬件要求。

3、用户在终端使用时，完全不需要联网，避免了网络流量消耗。

4、当有新例子增加时，先在云端进行了处理，产生与新的文本对应的加权有限状态转换器Q，再被下载到终端。由于加权有限状态转换器Q较小，下载量小，能够快速下载至终端。即使用户使用网络更新数据例子时，也能很快速的完成。由于运用了加权有限状态转换器的最小化技术，最小化了下载量。

附图说明

图1为语音处理处理的过程示意图。

图2为通过语音识别训练产生加权有限状态转换器H、C、L的过程示意图。

图3为第一种实施方式的音素级的低功耗的口语评价方法中基于加权有限状态转换器Q对语音文件进行解码的过程示意图。

图4为第一种实施方式的音素级的低功耗的口语评价方法的流程图。

图5为三音素模型最常用的隐式马尔科夫模型示意图。

图6为第一种实施方式中实现本发明的口语评价方法的设备(即图中的终端)与服务器连接的结构框图。

图7为第一种实施方式中实现本发明的口语评价方法的设备与服务器连接的结构示意图。

图8为第二种实施方式的音素级的低功耗的口语评价方法的流程图。

图9为第二种实施方式中实现本发明的口语评价方法的设备(即图中的终端)的结构框图。

图10为第二种实施方式中实现本发明的口语评价方法的设备(即图中的终端)与服务器连接的结构示意图。

具体实施方式

首先说明第一种实施方式与第二种实施方式之间的关系。在第一种实施方式中不使用标准语音，因此只对用户语音进行处理，而在第二种实施方式中，使用了标准语音，因此需要增加对标准语音进行处理的步骤(该步骤可在服务器端进行也可以在用户终端进行)。由于增加了标准语音，因此对用户语音的评价方法也不同。

在介绍本发明的实施方式的时候，需要介绍一下与语音处理领域的相关技术，目的是为了便于更清楚理解本发明。

如图1所示，对语音处理进行处理提取特征向量的过程大致分为如下三个步骤：

i、原始采集的声音关于时间的声波数据(waveform)；

ii、以一个固定时间长度(如25ms)定义为一帧，并且每一帧向前移动另一个时间间隔(如10ms)，这样帧与帧之间就有一定的重叠(如15ms)；

iii、对每一帧进行信号处理得到每一帧对应的特征向量(featurevector)，例如现在业界比较通用的做法是采用MFCC(Mel-FrequencyCepstral Coefficient，梅尔频率倒谱系数)特征以及它的一阶与二阶差分量，共计39维特征。MFCC的算法已为本领域的公知技术，具体可参见公开号为CN1763843A的中国发明专利申请公开说明书，在此不再赘述。此外，还可以采用线性预测倒谱系数(LPCC)以及它的一阶与二阶差分量作为特征向量，线性预测倒谱系数(LPCC)也是常规的技术手段，不再赘述。

接下来，介绍一下基于加权有限状态转换器的大词汇量连续语音识别程序(large vocabulary continuous speech recognition，缩写为LVCSR)，LVCSR的具体过程可参考公布号CN102779508A，发明名称为《语音库生成设备及其方法、语音合成***及其方法》的中国发明专利申请，LVCSR技术已经为本领域的常规技术手段，对此也不再赘述。此外，通过LVCSR训练过程得到加权有限状态转换器H、C、L的方法，详细情况请参见《Speech recognition with weighted finite-statetransducers》作者Mehryar Mohri等(见纽约大学网站，网址：http://www.cs.nyu.edu/～mohri/pub/hbka.pdf)。具体地，可参考图2，通过大量的训练语料与发音词典一起经过语音识别训练的训练过程，得到加权有限状态转换器H、C、L。具体的，实际上，加权有限状态转换器H、C、L分别为音素的声学数学模型，上下文相关音素(有的文献中，称之为音子)模型，与发音词典模型。

加权有限状态转换器H、C、L是在服务器端，经过语音识别训练过程得到的，加权有限状态转换器H、C、L经过训练得到后可重复使用，不必再重新产生，除非由于语料的增加或改变而需要重新训练，或者由于语种的不同(方言也被认为是其中一种不同的语言)而需要重新训练。

以下简述语言模型G，对给定的文本来说，其对应的语言模型G(有关语法的有限状态转换器)就是一个简单的从一个词到下一个词的转移，并且转移概率为1的有限状态器(Finite State Automaton，FSA)，有限状态器是一种特殊的有限状态转换器。实际上，一般地，对于大量的语料来说，语言模型G是比较复杂的，但是对于给定的文本来说，其语言模型G是确定的，因为对于给定的文本来说，音素与音素之间的关系是确定的，单词(对于汉语来说是字)到单词(字)之间的关系也是确定的。

将语言模型G(有关语法的有限状态转换器)与加权有限状态转换器H、C、L综合得到一个关于这个给定的文本(及其所对应的发音单元)的加权有限状态转换器Q，其中Q＝π_ε(min(det(Hоdet(Cоdet(LоG)))))，其中的min(minimization)表示有关加权有限状态转换器的最小化操作，det(determination)表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作(composition)。π_ε表示去除加权有限状态转换器中ε符号的操作。关于使用加权有限状态转换器处理语音的有关技术，请参考《基于有限状态图的语音识别***的构建》(作者，肖吉，清华大学硕士论文，发表时间2011年5月)。需要说明的是，该论文是基于语音识别的角度进行的，因此使用的G是比较复杂的，而本发明使用的G及Q是针对特定的文本的，因此简单占据存储空间小，从而下载量小。

在叙述本发明的实施例的实施方式之前，需要声明的是，传统的语音识别程序是将H、C、L与通用的语言模型(language model)，如通用的n-gram(n元语言模型)做复合(composition)产生通用的语音识别程序，从而导致了需要巨大的存储空间与复杂的解码算法(自然高功耗)。而在本发明中，我们是将每个给定的发音单元(对应一个已知的文本)对应的G(已经确定的)与H、C、L进行复合操作，产生一个只是用来识别该给定的发音单元的语音识别程序，也就是上文提到的加权有限状态转换器Q，并进而在其基础上产生语音特征向量序列与因素序列的对齐。该加权有限状态转换器Q的特点是针对该给定的文本(发音单元)而产生的，专属于该发音单元，只能识别该发音单元，故其占据的存储空间较小，便于存储和使用，且相应的解码算法简单(自然低功耗)。哪怕用户实际上读取的是另外的语音，基于加权有限状态转换器Q经过解码算法后得出的仍然是给定的文本。也就是说，文本、发音单元与加权有限状态转换器Q存在一一对应的关系。

此外，说明一下本申请的权利要求书和说明书中所使用的缩略词：

HMM：隐马尔科夫模型(Hidden Markov Model)

GMM：高斯混合模型(Gaussian Mixture Model)

Viterbi(音译：维特比)算法：该算法解决的问题是通过观察序列来估计背后最有可能的隐藏序列。

在本申请的权利要求书和说明书中，“发音单元”一般指的是一个句子，当然“发音单元”还可以为一个单词、短语，或者是一个段落，甚至是整篇的文章，区别仅在于，可以把单词、短语看成一个短句子，而把段落或文章看成多个句子的组合。因此，在本发明的具体实施方式中，一般以句子为单位进行说明，同样可应用在对单词、短语、段落甚至整篇文章的评价上。

以下结合附图具体说明本发明的具体实施方式。

第一种实施方式

第一种实施方式的特点是不使用标准语音，对于给定的文本，直接对用户语音进行评价。本发明的第一种实施方式的音素级的低功耗的口语测评与缺陷诊断方法，依次进行如下步骤：

(1)对用户语音进行声学特征提取，得到每一帧对应的特征向量，进而得到与用户语音所对应的特征向量序列；

(2)对于给定的文本，在不考虑停顿音的情况下，它所包含的音素序列为确定的，即{p₁，p₂，...，p_M}，如果考虑停顿音，它所对应的音素序列记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，其中sil代表停顿音，基于加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作，得到特征向量序列到上述音素序列p_all的对齐α，

此对齐α的计数向量记做

β＝{ns₀，n₁，ns₁，n₂，ns₂，n₃，ns₃，...，n_(M-1)，ns_(M-1)，n_M，ns_M}，

其中n_i表示对应于第i个非停顿音音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本对应的非停顿音音素的数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；其中Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作；

声学模型H、发音词典模型L以及上下文相关的音素模型C均为加权有限状态转换器，并且均是基于加权有限状态转换器的大词汇量连续语音识别技术的训练过程得到；对于给定的文本，产生此文本对应的语言模型G，从而产生与该文本对应的加权有限状态转换器Q；

(3)对每个音素，通过计算其对应的特征向量或特征向量组与其在声学模型H中的数学表示之间吻合度，可以评价用户在每个音素上的发音质量，吻合度越高，说明发音质量越好。

请参照图3，在对用户语音的语音文件进行处理时，由于使用的是与给定文本相应的加权有限状态转换器Q，解码得到的就是给定的文本(每个加权有限状态转换器Q与文本是一一对应的)。上述基于加权有限状态转换器Q与Viterbi算法的解码过程，是已知的现有技术，Viterbi算法也是语音识别领域成熟的算法，因而不再赘述。图3中的加权有限状态转换器Q是根据给定文本而预先生成后存储在终端设备中或者通过网络下载至终端设备中，可与文本对应存储。实际上，由于加权有限状态转换器Q包含了文本的信息，因此可只存储加权有限状态转换器Q。

请同时参照图4理解本发明的实施方式，在进行解码的过程中，同时产生了音素序列与特征向量序列的对齐，通过评价该对齐中的特征向量或特征向量组与其在声学模型H中的数学表示之间吻合度，可以评价用户在每个音素上的发音质量，吻合度越高，说明发音质量越好

通过训练得到声学模型H、发音词典模型L以及上下文相关的音素模型C只需要在服务器端进行一次训练即可得到，可重复使用。其中生成加权有限状态转换器Q的过程可在服务器端进行也可在用户终端进行，优选在服务器端生成，以降低对用户终端的计算需求。作为优选的实施方式，本实施例中，加权有限状态转换器Q在服务器端生成，直接存储在终端或者通过网络下载至终端。对于指定的文本来说，其加权有限状态转换器Q小，下载量小，而且繁重的计算都在服务端进行，最小化了用户终端的负担。当然，在不考虑用户终端计算能力的情况下，这些计算过程也可以在用户终端进行。用户终端包括常见的智能设备，包括台式电脑、笔记本电脑、平板电脑甚至智能手机等终端设备，也可以是带有计算能力的学习机、复读机、领读机等智能设备。

具体地，在步骤(3)中，衡量用户在读取每个音素的发音质量时，可采用每个音素对应的特征向量或特征向量组和其数学表示之间的吻合度来进行评价，吻合度可采用似然概率P(O_i|p_i)进行评价；在使用GMM-HMM模型的时候(请参照图5关于GMM-HMM的图模型(GraphicalModel))，似然概率P(O_i|p_i)表示的是特征向量组是由其对应的音素的HMM产生的概率；

P (O_{i} | p_{i}) \approx P (O_{i} | p_{i}, S_{i}) = Π_{t = 1}^{T_{i}} b_{s_{t}} (o_{t}) a_{s_{t} s_{t + 1}}

其中：约等号是依据常用的Viterbi近似技术，S_i＝s₁，s₂，…，是音素p_i所对应的特征向量序列的HMM状态序列；

为此音素p_i的退出状态，

表示状态s_t与s_t+1之间的转移概率，

b(o_t)代表高斯混合模型；

通常可采用似然概率P(O_i|p_i)作为评价用户在音素p_i上发音质量的第一音素质量分数。但是，一般地，为了防止计算溢出，实际上通常采用上述似然概率的对数即ln(P(O_i|p_i))作为评价用户在音素p_i上发音质量的第一音素质量分数。

此外，可以从另外一个维度评价用户的发音质量，请继续参照图5所示的GMM-HMM模型示意图理解。每个音素与其对应的特征向量或特征向量组之间的吻合度采用来Pr(p_i|O_i)衡量，所述Pr(p_i|O_i)为O_i属于其对应音素p_i的后验概率，由似然概率P(O_i|p_i)和先验概率Pr(p_i)通过贝叶斯公式计算得到，该后验概率Pr(p_i|O_i)作为评价用户的发音质量的第二音素质量分数。其中，先验概率Pr(p_i)是通过大量的统计得到的，为现有技术中的常规技术手段，不再赘述。

以上描述了从音素级别衡量某个音素(单音素或者三音素)的发音质量，此外可以对句子组成的发音单元的整体发音质量进行评价。由于单词、词组可以看成一个短句子，而段落可看成多个句子的组合，故一律以句子作为发音单元进行衡量，单词、词组以及段落的情形，可根据句子的情形进行类比。采用如下公式计算用户朗读的一个发音单元的音素综合分数；

其中υ_1，i为用户语音中第i个音素的第一音素质量分数，υ_2，i为用户语音中第i个音素的第二音素质量分数，ω_1，i和ω_2，i为对应的权重。

其中的所述权重ω_1，i和ω_2，i可以通过手工设置；所述权重ω_1，i和ω_2，i还可以通过机器学习的方式得到：选取多个对应于不同发音单元的文本，分别由不同的用户朗读，并由专家对每个用户的朗读质量进行评价，人工给出对应的音素级综合分数，通过机器学习方法得到最优的权重序列。

在本发明的第一种实施方式中，其中的步骤(1)中采用梅尔频率倒谱系数(MFCC)以及它们的一阶与二阶差分作为特征向量或者线性预测倒谱系数(LPCC)以及它们的一阶与二阶差分作为特征向量。

以上是均是从用户的某个音素的发音质量方面进行评价，此外，还需要对用户的流利度进行评价，通过计算用户语音中的停顿音sil的数量评价用户的流利度，第i个停顿音sil对应的特征向量个数为ns_i，ns_i＞0的数量越多，说明停顿越多，发音质量越差。此外还可以采用计算停顿音的比例衡量发音单元的发音质量。也就是通过计算停顿音对应的特征向量的数量在整个发音单元所对应的特征向量中的比例衡量发音单元的发音质量。具体地，可采用如下公式进行计算：该比值越大，说明停顿音越多，流利度越差。该比值应该在一个合理范围内，太大说明停顿太多，太小说明应该停顿的地方没有停顿，合理的的取值区间可通过大量的统计进行确定。

为了在识别出用户发音缺陷的情况下，给用户以针对性的指导，作为进一步的改进，本发明还包括挑选用户发音缺陷的步骤：根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，统计用户得分最低的一个音素或者统计得分较低的多个音素。可以将用户得分最低的一个或几个音素挑出，提示给用户。当然更进一步地，可以从数据库中挑选包含有用户得分较低的音素的发音单元供用户练习。从而可以有效地解决现有技术中无法精确地评价用户某个音素或者某几个音素的发音质量的问题，而且能够提出针对性的提示以及提供针对性的练习素材。

请参照图6、图7理解实现本发明的音素级的低功耗的口语测评与缺陷诊断方法的***结构。在终端设备上，其中包括：

语音处理单元，用于接收用户语音并进行声学特征抽取，得到与用户语音对应的特征向量序列；

存储单元，用于存储加权有限状态转换器Q，该加权有限状态转换器Q与指定的文本对应，并用于对用户语音进行解码；

解码单元，语音处理单元处理得到的特征向量序列和存储单元的加权有限状态转换器Q均送至解码单元，解码单元使用加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作，考虑到其中的停顿音sil后，得到特征向量序列到与产生加权有限状态转换器Q的文本相对应的包含停顿音的音素序列的对齐α，此解码得到的音素序列为：{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，此对齐α的计数向量

其中，sil表示停顿音，n_i表示对应于第i个音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本中包含的音素的数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

发音质量评价单元，将每个音素与其对应的特征向量或特征向量组之间吻合度进行计算以评价用户在每个音素上的发音质量的音素质量分数。

其工作过程请见上文关于音素级的低功耗的口语测评与缺陷诊断方法的描述。

参照图6，其中文本1对应加权有限状态转换器Q₁，文本2对应加权有限状态转换器Q₂，……，从而每个文本都有其对应的Q。其中的加权有限状态转换器H、C、L都是事先经过训练得到的，由于经过最小化和确定化操作，对于每个给定的文本来说生成的Q较小，可较方便地下载或者存储至终端。对于图6，需要说明的是，对于不同的文本，其使用的加权有限状态转换器H、C、L都是事先训练好的，而且都是相同的，图中只是象征性地示出了两个终端，实际上终端数量不限。

本发明具有如下有益效果：(1)繁重的运算都在服务器端执行：包括产生加权有限状态转换器H、C、L，以及产生语音音素对齐所依赖的加权有限状态转换器Q，参照图6可理解本发明的此项优点。

(2)只有关于用户语音的运算被放在了用户终端执行，有效减少了终端上的负载与耗电量，减少了对终端的硬件要求。

(3)用户在终端使用时，完全不需要联网，避免了网络流量消耗。

(4)当有新例子增加时，先在云端进行了处理，产生与新的文本对应的加权有限状态转换器Q，再被下载到终端。由于加权有限状态转换器Q较小，下载量小，能够快速下载至终端。即使用户使用网络更新数据例子时，也能很快速的完成。由于运用了加权有限状态转换器的最小化技术，最小化了下载量。

(5)对用户的发音评价可精确到音素级别，并且考虑到上下文相关的音素的发音质量，能给出用户发音较差的音素，可提供相应的语料(包含有用户发音较低的音素)进行针对性的练习。

第二种实施方式

第一种实施方式中没有包括标准语音，第二种实施方式与之不同的是，对于给定的任意文本，均给出标准语音作为评价用户语音的参考，对应存储于终端中。至于对用户语音及标准语音的处理过程和第一种实施方式类似。对于给定的文本，它对应一个音素序列，记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，同时提供作为评价参照的标准语音，请参照图8，由于使用了标准语音，第二种实施方式与第一种实施方式不同的是分别对二者进行处理，并进行比较，进而对用户语音进行评价。其工作过程为：

(1)分别对标准语音和用户语音进行声学特征提取，得到每一帧对应的特征向量，进而分别得到标准语音与用户语音所对应的特征向量序列；步骤(1)中采用梅尔频率倒谱系数或者线性预测倒谱系数作为特征向量以及它们的一阶和二阶差分。

(21)针对标准语音：考针对标准语音：上述音素序列p_all的对齐此对齐的计数向量记做

\tilde{β} = {{\tilde{ns}}_{0}, {\tilde{n}}_{1}, {\tilde{ns}}_{1}, {\tilde{n}}_{2}, {\tilde{ns}}_{2}, {\tilde{n}}_{3}, {\tilde{ns}}_{3}, . . ., {\tilde{n}}_{(M - 1)}, {\tilde{ns}}_{(M - 1)}, {\tilde{n}}_{M}, {\tilde{ns}}_{M}}

其中，sil表示停顿音，n_i表示对应于第i个音素的帧的数量，ns_i表示对应于第i个停顿音的帧的数量，M是此样本文本中包含的音素的总数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

其中在所述步骤(21)和(22)中，

Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作。

声学模型H、发音词典模型L以及上下文相关的音素模型C均为加权有限状态转换器，并且均是基于加权有限状态转换器的大词汇量连续语音识别技术的训练过程得到；对于给定的文本产生相应的语言模型G，从而产生与该文本对应的加权有限状态转换器Q。

然后，将用户语音的对齐α以及其特征向量序列与标准语音的对齐及特征向量序列进行比较，以评价用户发音质量，二者吻合度越高，说明发音质量越好。

具体地，评价用户发音质量时，分别从两个方面进行评价，一个方面与第一种实施方式相类似地，从音素的发音质量方面进行评价，得到用户的音素质量分数，其中音素质量分数可为第一音素质量分数或者第二音素质量分数，其计算过程与第一种实施方式类似，不再赘述。另一个方面，由于具有标准语音，还可是从节奏吻合度方面进行评价，计算节奏吻合度分数。

关于节奏吻合度：在所述步骤(3)中，采用如下公式计算用户语音与标准语音之间的节奏吻合度分数，节奏吻合度分数越高说明用户发音质量越高；

其中p₁，p₂均为大于或等于1的任意数，推荐p₁＝p₂＝1；

c是调节音素节奏与停顿音节奏的参数，为0到1之间的任意值，f是非负实数域上的任意单调递减函数。使用函数f的目的，使具体的计算值转换为用于评价节奏吻合度分数，并且发音的节奏吻合度越高，其节奏吻合度分数也就越高。

也就是说要求用户在发音时，即要各个音素上的音长与标准语音类似，而且在音素之间的停顿上也与标准语音类似，只有这样节奏吻合度分数才比较高，从而尽可能全面地评价用户的发音质量。

关于音素的发音质量方面：在所述步骤(3)中，分别计算用户语音中的每个音素的音素质量分数υ_i和标准语音中的每个音素的音素质量分数通过计算υ_i和之间的吻合度来评价用户语音的在读音素时音素质量。

上述的音素质量分数，可以采用第一音素质量分数或者第二音素质量分数表示，第一音素质量分数为ln(P(O_i|p_i))，表示此特征向量组是由其对应的音素的HMM产生的概率的自然对数，第二音素质量分数为某个特征向量组属于音素的后验概率Pr(p_i|O_i)，其计算方法与第一实施方式类似。以上只是针对单个音素进行评价，与第一种实施方式中所采用的方法类似，只是增加了对标准语音进行评价的步骤以及针对某个音素，将标准语音和用户语音中的分数进行比较的步骤，二者越接近，说明用户语音的发音质量越高。

对于由M个音素组成的发音单元来说，对于标准语音和用户语音分别针对每个音素计算其第一音素质量分数或者第二音素质量分数，统称为音素质量分数和υ_i，然后采用如下公式计算用户的一个发音单元的整体音素质量分数：

p为大于或等于1的参数。实际上也就是计算两个音素质量分数和υ_i组成的序列之间的相似度(明可夫斯基距离)来衡量其整体音素质量分数。推荐选取p＝1。g是非负实数域上的任意单调递减函数，通过使用函数g，从具体的数值转换为用户衡量整体音素质量的分数，从而使得和υ_i差距越大，其整体音素质量分数也就越低。

为了更综合地衡量用户的发音质量，还可以在得到节奏吻合度分数和整体音素质量分数的基础上，得到发音单元的综合分数。从而，更全面地从整体上衡量用户的发音质量。

采用如下公式计算用户语音与标准语音之间的节奏吻合度分数，节奏吻合度分数越高说明用户发音质量越高；

其中p₁，p₂为大于或等于1的任意数，

c是调节音素节奏与停顿音节奏的参数，为0到1之间的任意值；f是非负实数域上的任意单调递减函数。

类似地，如上文所述，采用如下公式计算整体音素质量分数：

根据得到的整体音素质量分数与节奏吻合度分数计算用户对每个句子的综合分数：

发音单元的综合分数＝λ*节奏吻合度分数+(1-λ)*整体音素质量分数，其中0＜λ＜1，λ为权重，根据实际需要可以采用人工设置或者采用机器学习的方式进行设置。

同样地，本实施例中，采用梅尔频率倒谱系数(MFCC)及它们的一阶与二阶差分作为特征向量，也可以采用线性预测倒谱系数及它们的一阶与二阶差分作为特征向量。

与第一种实施方式相类似，所述加权有限状态转换器Q在服务器端生成，直接存储在终端或者通过网络下载至终端；所述步骤(21)产生的标准语音的对齐也通过直接存储方式存储在终端或者通过网络下载至终端。这样，可将繁重的运算都放在服务器端进行，大大降低对终端的需求，同时如果是通过网络进行下载的话，也可大大降低下载量。

由于采用了标准语音，相当于有明确的参照物，在对口语进行评价的基础上，还可进一步进行缺陷诊断，将用户具有发音缺陷的音素挑选出来，并给予针对性的提示。还可以采用下述方式进行评价用户的在某个音素上的发音质量，并把有缺陷的音素挑选出来：步骤(3)中，分别计算用户语音中的每个音素的音素质量分数υ_i和标准语音中的每个音素的音素质量分数通过比较υ_i和以评价用户语音是否接近标准读音。υ_i和可采用第一音素质量分数或者第二音素质量分数表示。比较较υ_i和两个序列，二者差距较大的为有发音缺陷的音素。当然，还可以比较n_i和两个序列，二者差距较大的为有发音缺陷的音素。

为了减少终端的负担，其中的加权有限状态转换器Q在服务器端生成，直接存储在终端或者通过网络下载至终端；步骤(21)产生的标准语音的对齐也通过直接存储方式存储在终端或者通过网络下载至终端。

类似地，根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，统计用户得分较低的一个或多个音素。此时，不与标准语音相比较，直接在用户语音中的每个音素的音素质量分数υ_i组成的序列中，挑选υ_i较低的一个或多个音素，即为用户有发音缺陷的音素。

进而，从数据库中挑选包含有用户得分较低的一个或多个音素的发音单元供用户练习。从而用户可以进行针对性的练习和提高。

与第一种实施方式不同的是，在第二种实施方式中，本发明的音素级的低功耗的口语测评与缺陷诊断设备，增加了从服务器获取所述标准语音文件的过程，其中所述标准语音预先存储于或者通过网络下载至所述口语测评与缺陷诊断设备中。请类似地参照图9、图10进行说明第二种实施方式的口语测评与缺陷诊断的方法的终端设备，语音处理单元需要分别对标准语音和用户语音进行处理，产生标准对齐和用户对齐α；而后的发音质量评价单元的工作过程可参照上文中第二种实施方式中对低功耗的口语测评与缺陷诊断方法的描述。

作为另外一种实施方式，还可以在服务器端生成标准语音的对齐可以预先存储于或者通过网络下载至所述口语测评与缺陷诊断设备中，减少终端设备的负担。

本发明可适应于英语、汉语、西班牙语等语言的学习，以及对语言障碍患者的诊断与评测。

当然，以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种音素级的低功耗的口语评价方法，对于给定的文本，它对应一个音素序列，记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，同时提供作为评价参照的标准语音，其特征在于，包括如下步骤：

\tilde{β} = {{\tilde{ns}}_{0}, {\tilde{n}}_{1}, {\tilde{ns}}_{1}, {\tilde{n}}_{2}, {\tilde{ns}}_{2}, {\tilde{n}}_{3}, {\tilde{ns}}_{3}, . . ., {\tilde{n}}_{(M - 1)}, {\tilde{ns}}_{(M - 1)}, {\tilde{n}}_{M}, {\tilde{ns}}_{M}}

其中在所述步骤(21)和(22)中，

2.根据权利要求1所述的音素级的低功耗的口语评价方法，其特征在于，所述步骤(3)中，采用如下公式计算用户语音与标准语音之间的节奏吻合度分数，节奏吻合度分数越高说明用户发音质量越高；

其中p₁，p₂均为大于或等于1的任意数，

c是调节音素节奏与停顿音节奏的参数，为0到1之间的任意值，

f是非负实数域上的任意单调递减函数。

3.根据权利要求2所述的音素级的低功耗的口语评价方法，其特征在于，在所述步骤(3)中，分别计算用户语音中的每个音素的音素质量分数υ_i和标准语音中的每个音素的音素质量分数通过计算υ_i和之间的吻合度来评价用户语音的在读音素p_i时音素质量；

其中所述音素质量分数，采用第一音素质量分数或者第二音素质量分数表示，其中所述第一音素质量分数为ln(p(O_i|p_i))，表示此特征向量组是由其对应的音素的HMM产生的概率的自然对数，所述第二音素质量分数为某个特征向量组属于音素的后验概率Pr(p_i|O_i)。

4.根据权利要求3所述的音素级的低功耗的口语评价方法，其特征在于，采用如下公式计算用户的一个发音单元的整体音素质量分数：

p为大于或等于1的参数，g是非负实数域上的任意单调递减函数。

5.根据权利要求4所述的音素级的低功耗的口语评价方法，其特征在于，同时采用如下公式计算用户语音与标准语音之间的节奏吻合度分数，节奏吻合度分数越高说明用户发音质量越高；

其中p₁，p₂为大于或等于1的任意数，

c是调节音素节奏与停顿音节奏的参数，为0到1之间的任意值；f是非负实数域上的任意单调递减函数，

根据所述整体音素质量分数与节奏吻合度分数计算用户对每个发音单元句子的综合分数：

发音单元的综合分数＝λ*节奏吻合度分数+(1-λ)*整体音素质量分数，其中0＜λ＜1。

6.根据权利要求1-5任一项或所述的音素级的低功耗的口语评价方法，其特征在于，采用梅尔频率倒谱系数及它们的一阶与二阶差分作为特征向量，也可以采用线性预测倒谱系数及它们的一阶与二阶差分作为特征向量。

7.一种音素级的低功耗的口语缺陷诊断方法，其特征在于，首先采用如权利要求1-6中任一项所述的音素级的低功耗的口语评价方法对用户语音进行处理，然后还包括确定用户有发音缺陷的音素的步骤：

比较n_i和两个序列，二者差距较大的为有发音缺陷的音素；

8.根据权利要求7所述的口语缺陷诊断方法，其特征在于，从数据库中挑选包含所述有发音缺陷的音素的发音单元供用户练习。

9.一种音素级的低功耗的口语缺陷诊断方法，其特征在于，首先采用如权利要求1-6中任一项所述的音素级的低功耗的口语评价方法对用户语音进行处理，然后还包括确定用户有发音缺陷的音素的步骤：根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，用户得分较低的一个或多个音素为有发音缺陷的音素。

10.根据权利要求9所述的音素级的低功耗的口语缺陷诊断方法，其特征在于，并从数据库中挑选包含所述有发音缺陷的音素的发音单元供用户练习。