CN103985391A

CN103985391A - 无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

Info

Publication number: CN103985391A
Application number: CN201410229186.8A
Authority: CN
Inventors: 柳超
Original assignee: Individual
Current assignee: Individual
Priority date: 2014-04-16
Filing date: 2014-05-28
Publication date: 2014-08-13

Abstract

本发明公开了一种无需标准读音的音素级的低功耗口语评价方法及缺陷诊断方法，包括如下步骤：(1)对用户语音进行声学特征提取，得到特征向量序列；(2)基于加权有限状态转换器Q使用Viterbi算法对用户语音的特征向量序列进行解码操作，得到特征向量序列到音素序列的映射关系，(3)对每个音素通过计算其对应的特征向量组与其在声学模型H中的数学表示之间吻合度评价用户在每个音素上的发音质量。本发明具有如下有益效果：不依赖标准读音，繁重的运算都在服务器端执行，最小化了用户终端的运算量，有效减少了终端上的负载与耗电量，终端使用时，不需要联网，避免了网络流量消耗。并能识别用户发音较差的音素，并提供针对性练习。

Description

无需标准读音的音素级的低功耗口语评价及缺陷诊断方法

技术领域

本发明涉及计算机辅助语言学习和语音识别技术领域，具体涉及一种音素级(phonetic-level)的低功耗口语评价及缺陷诊断方法。音素级别的技术使得评分与反馈能够细化到音素级别：在用户读了一系列文本之后，能够识别出来那些阻碍用户发音纯正的核心音素，从而提供相应的培训材料并进行针对性的练习。可适应于英语、汉语、西班牙语等语言的学习，以及对语言障碍患者的诊断与评测。

背景技术

语言的学习在于模仿，尤其是语音方面。以英语为例，为了练就纯正的口语，最好的办法就是跟读母语为英语的纯正发音，现有的很多教程或辅导材料就是以此构建。大体上，这些教材只提供纯正样本发音，而由学生自己判定自己的发音与标准读音之间的差别，并进而自己决定如何改进。这种方法的局限性如下：

1、由于自己听自己声音和别人听到的声音存在差别，学生对自己声音的感知和他人的感知不同，所以无法客观的评分自己发音的质量。

2、借助录音可以弥补上述缺陷，但是来回在录音之间进行切换比较造成不必要的麻烦，降低了学习效率，这是各种复读机所采用的方案。

3、即使不考虑上述因素，学生自己(乃至老师)的评定仍然是主观定性的，无法做到客观的量化评定，并且学生不知道如何改进。由于用户不能准确地辨别自己的发音缺陷，也不能进行针对性的练习。

发明内容

针对现有技术存在的上述缺陷，本发明要解决的技术问题是，提供一种细化到音素级别的口语评价方法，能够从音素级别对用户的读音进行评价，提供更为精确的评分。

为解决上述技术问题，首先，本发明提供了一种无需标准读音的音素级的低功耗口语评价方法，适合不提供标准读音时使用，包括如下步骤：

(1)对用户语音进行声学特征提取，得到每一帧对应的特征向量，进而得到与用户语音所对应的特征向量序列；

(2)对于给定的文本，它对应一个音素序列，记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，其中sil代表停顿音，基于加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作，得到特征向量序列到上述音素序列p_all的对齐α，此对齐α的计数向量记做

β＝{ns₀，n₁，ns₁，n₂，ns₂，n₃，ns₃，...，n_(M-1)，ns_(M-1)，n_M，ns_M}，

其中n_i表示对应于第i个非停顿音音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本对应的非停顿音音素的数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

其中Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作；

声学模型H、发音词典模型L以及上下文相关的音素模型C均为加权有限状态转换器，并且均是基于加权有限状态转换器的大词汇量连续语音识别技术的训练过程得到；对于给定的文本，产生此文本对应的语言模型G，从而产生与该文本对应的加权有限状态转换器Q；

(3)对每个音素，通过计算其对应的特征向量或特征向量组与其在声学模型H中的数学表示之间吻合度，可以评价用户在每个音素上的发音质量，吻合度越高，说明发音质量越好。

进一步地，本发明还提供了一种无需标准读音的音素级的低功耗口语缺陷诊断方法，其特征在于，首先采用如权利要求1-9中任一项所述的无需标准读音的音素级的低功耗口语评价方法对用户语音进行评价，然后还包括确定用户有发音缺陷的音素的步骤：根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，用户得分最低的音素或者得分较低的多个音素为有发音缺陷的音素。

本发明的无需标准读音的音素级的低功耗口语评价方法及缺陷诊断方法具有如下有益效果：

1、无需标准读音，可以广泛的应用于没有标准读音的评价与缺陷诊断场景，例如，对语言学***诊断。

2、繁重的运算都在服务器端执行：包括产生加权有限状态转换器H、C、L，以及产生语音音素对齐所依赖的加权有限状态转换器Q。

3、只有关于用户语音的运算被放在了用户终端执行，有效减少了终端上的负载与耗电量，减少了对终端的硬件要求。

4、用户在终端使用时，完全不需要联网，避免了网络流量消耗。

5、当有新例子增加时，先在云端进行了处理，产生与新的文本对应的加权有限状态转换器Q，再被下载到终端。由于加权有限状态转换器Q较小，下载量小，能够快速下载至终端。即使用户使用网络更新数据例子时，也能很快速的完成。由于运用了加权有限状态转换器的最小化技术，最小化了下载量。

附图说明

图1为语音处理的过程示意图。

图2为通过语音识别训练产生加权有限状态转换器H、C、L的过程示意图。

图3为本发明的一个实施例的无需标准读音的音素级的低功耗口语评价方法中基于加权有限状态转换器Q对语音文件进行解码的过程示意图。

图4为本发明的一个实施例的无需标准读音的音素级的低功耗口语评价方法的流程图。

图5为三音素模型最常用的隐式马尔科夫模型示意图。

图6为本发明的一个实施例中实现本发明的口语评价方法的设备(即图中的终端)与服务器连接的结构框图。

图7为本发明的一个实施例中实现本发明的口语评价方法的设备与服务器连接的结构示意图。

具体实施例

在介绍本发明的实施例的时候，需要介绍一下语音处理领域的相关技术，目的是为了便于更清楚理解本发明。

如图1所示，对语音处理进行处理提取特征向量的过程大致分为如下三个步骤：

i、原始采集的声音关于时间的声波数据(waveform)；

ii、以一个固定时间长度(如25ms)定义为一帧，并且每一帧向前移动另一个时间间隔(如10ms)，这样帧与帧之间就有一定的重叠(如15ms)：

iii、对每一帧进行信号处理得到每一帧对应的特征向量(featurevector)，例如现在业界比较通用的做法是采用MFCC(Mel-FrequencyCepstral Coefficient，梅尔频率倒谱系数)特征以及它的一阶与二阶差分量，共计39维特征。MFCC的算法已为本领域的公知技术，具体可参见公开号为CN1763843A的中国发明专利申请公开说明书，在此不再赘述。此外，还可以采用线性预测倒谱系数(LPCC)以及它的一阶与二阶差分量作为特征向量，线性预测倒谱系数(LPCC)也是常规的技术手段，不再赘述。

接下来，介绍一下基于加权有限状态转换器的大词汇量连续语音识别程序(large vocabulary continuous speech recognition，缩写为LVCSR)，LVCSR的具体过程可参考公布号CN102779508A，发明名称为《语音库生成设备及其方法、语音合成***及其方法》的中国发明专利申请，LVCSR技术已经为本领域的常规技术手段，对此也不再赘述。此外，通过LVCSR训练过程得到加权有限状态转换器H、C、L的方法，详细情况请参见《Speech recognition with weighted finite-statetransducers》作者Mehryar Mohri等(见纽约大学网站，网址：http：//www.cs.nyu.edu/～mohri/pub/hbka.pdf)。具体地，可参考图2，通过大量的训练语料与发音词典一起经过语音识别训练的训练过程，得到加权有限状态转换器H、C、L。实际上，加权有限状态转换器H、C、L分别为音素的声学数学模型，上下文相关音素(有的文献中，称之为音子)模型，与发音词典模型。

加权有限状态转换器H、C、L是在服务器端，经过语音识别程序的训练过程得到的，加权有限状态转换器H、C、L经过训练得到后可重复使用，不必再重新产生，除非由于语料的增加或改变而需要重新训练，或者由于语种的不同(方言也被认为是其中一种不同的语言)而需要重新训练。

以下简述语言模型G，对给定的文本来说，其对应的语言模型G(即有关语法的有限状态转换器)就是一个简单的从一个词到下一个词的转移，并且转移概率为1的有限状态器(Finite State Automaton，FSA)，有限状态器是一种特殊的有限状态转换器。实际上，一般地，对于大量的语料来说，语言模型G是比较复杂的，但是对于给定的文本来说，其语言模型G是确定的，因为对于给定的文本来说，音素与音素之间的关系是确定的，单词(对于汉语来说是字)到单词(字)之间的关系也是确定的。

将语言模型G(有关语法的有限状态转换器)与加权有限状态转换器H、C、L综合得到一个关于这个给定的文本(及其所对应的发音单元)的加权有限状态转换器Q，其中Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min(minimization)表示有关加权有限状态转换器的最小化操作，det(determination)表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作(composition)，π_ε表示去除加权有限状态转换器中ε符号的操作。关于使用加权有限状态转换器处理语音的有关技术，请参考《基于有限状态图的语音识别***的构建》(作者，肖吉，清华大学硕士论文，发表时间2011年5月)。需要说明的是，该论文是基于语音识别的角度进行的，因此使用的G是比较复杂的，而本发明使用的G及Q是针对特定的文本的，因此简单占据存储空间小，从而下载量小。

在叙述本发明的实施例的实施例之前，需要声明的是，传统的语音识别程序是将H、C、L与通用的语言模型(language model)，如通用的n-gram(n元语言模型)做复合(composition)产生通用的语音识别程序，从而导致了需要巨大的存储空间与复杂的解码算法(自然高功耗)。而在本发明中，我们是将每个给定的发音单元(对应一个已知的文本)对应的G(已经确定的)与H、C、L进行复合操作，产生一个只是用来识别该给定的发音单元的语音识别程序，也就是上文提到的加权有限状态转换器Q，并进而在其基础上产生语音特征向量序列与因素序列的对齐。该加权有限状态转换器Q的特点是针对该给定的文本(发音单元)而产生的，专属于该发音单元，只能识别该发音单元，故其占据的存储空间较小，便于存储和使用，且相应的解码算法简单(自然低功耗)。哪怕用户实际上读取的是另外的语音，基于加权有限状态转换器Q经过解码算法后得出的仍然是给定的文本。也就是说，文本、发音单元与加权有限状态转换器Q存在一一对应的关系。

此外，说明一下本申请的权利要求书和说明书中所使用的缩略词：

HMM：隐马尔科夫模型(Hidden Markov Model)

GMM：高斯混合模型(Gaussian Mixture Model)

Viterbi(音译：维特比)算法：该算法解决的问题是通过观察序列来估计背后最有可能的隐藏序列。

在本申请的权利要求书和说明书中，“发音单元”一般指的是一个句子，当然“发音单元”还可以为一个单词、短语，或者是一个段落，甚至是整篇的文章，区别仅在于，可以把单词、短语看成一个短句子，而把段落或文章看成多个句子的组合。因此，在本发明的具体实施例中，一般以句子为单位进行说明，同样可应用在对单词、短语、段落甚至整篇文章的评价上。

以下结合附图具体说明本发明的具体实施方式。

本实施例的特点是不使用标准语音，对于给定的文本，直接对用户语音进行评价。本发明的一个实施例无需标准读音的音素级的低功耗口语评价方法，依次进行如下步骤：

(2)对于给定的文本，在不考虑停顿音的情况下，它所包含的音素序列为确定的，即{p₁，p₂，...，p_M}，如果考虑停顿音，它所对应的音素序列记做

p_all＝{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，其中sil代表停顿音，基于加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作，得到特征向量序列到上述音素序列p_all的对齐α，

此对齐α的计数向量记做

其中n_i表示对应于第i个非停顿音音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本对应的非停顿音音素的数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；其中Q＝π_ε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作；

请参照图3，在对用户语音的语音文件进行处理时，由于使用的是与给定文本相应的加权有限状态转换器Q，解码得到的就是给定的文本(每个加权有限状态转换器Q与文本是一一对应的)。上述基于加权有限状态转换器Q与Viterbi算法的解码过程，是已知的现有技术，Viterbi算法也是语音识别领域成熟的算法，因而不再赘述。图3中的加权有限状态转换器Q是根据给定文本而预先生成后存储在终端设备中或者通过网络下载至终端设备中，可与文本对应存储。实际上，由于加权有限状态转换器Q包含了文本的信息，因此可只存储加权有限状态转换器Q。

请同时参照图4理解本发明的实施例，在进行解码的过程中，同时产生了音素序列与特征向量序列的对齐，通过评价该对齐中的特征向量或特征向量组与其在声学模型H中的数学表示之间吻合度，可以评价用户在每个音素上的发音质量，吻合度越高，说明发音质量越好

通过训练得到声学模型H、发音词典模型L以及上下文相关的音素模型C只需要在服务器端进行一次训练即可得到，可重复使用。其中生成加权有限状态转换器Q的过程可在服务器端进行也可在用户终端进行，优选在服务器端生成，以降低对用户终端的计算需求。作为优选的实施例，本实施例中，加权有限状态转换器Q在服务器端生成，直接存储在终端或者通过网络下载至终端。对于指定的文本来说，其加权有限状态转换器Q小，下载量小，而且繁重的计算都在服务端进行，最小化了用户终端的负担。当然，在不考虑用户终端计算能力的情况下，这些计算过程也可以在用户终端进行。用户终端包括常见的智能设备，包括台式电脑、笔记本电脑、平板电脑甚至智能手机等终端设备，也可以是带有计算能力的学习机、复读机、领读机等智能设备。

具体地，在步骤(3)中，衡量用户在读取每个音素的发音质量时，可采用每个音素对应的特征向量或特征向量组和其数学表示之间的吻合度来进行评价，吻合度可采用似然概率P(O_i|p_i)进行评价；在使用GMM-HMM模型的时候(请参照图5关于GMM-HMM的图模型(GraphicaiModel))，似然概率P(O_i|p_i)表示的是特征向量组是由其对应的音素的HMM产生的概率；

P (O_{i} | p_{i}) \approx P (O_{i} | p_{i}, S_{i}) = Π_{t = 1}^{T_{i}} b_{s_{t}} (o_{t}) a_{s_{t} s_{t + 1}}

其中：约等号是依据常用的Viterbi近似技术，S_i＝s₁，s₁，…，是音素p_i所对应的特征向量序列O_i＝o₁，o₂，…，的HMM状态序列；

为此音素p_i的退出状态，

表示状态s_t与s_t+1之间的转移概率，

b(o_t)代表高斯混合模型；

通常可采用似然概率P(O_i|p_i)作为评价用户在音素p_i上发音质量的第一音素质量分数。但是，一般地，为了防止计算溢出，实际上通常采用上述似然概率的对数即ln(P(O_i|p_i))作为评价用户在音素p_i上发音质量的第一音素质量分数。

此外，可以从另外一个维度评价用户的发音质量，请继续参照图5所示的GMM-HMM模型示意图理解。每个音素与其对应的特征向量或特征向量组之间的吻合度采用来Pr(p_i|O_i)衡量，所述Pr(p_i|O_i)为O_i属于其对应音素p_i的后验概率，由似然概率P(O_i|p_i)和先验概率Pr(p_i)通过贝叶斯公式计算得到，该后验概率Pr(p_i|O_i)作为评价用户的发音质量的第二音素质量分数。其中，先验概率Pr(p_i)是通过大量的统计得到的，为现有技术中的常规技术手段，不再赘述。

以上描述了从音素级别衡量某个音素(单音素或者三音素)的发音质量，此外可以对句子组成的发音单元的整体发音质量进行评价。由于单词、词组可以看成一个短句子，而段落可看成多个句子的组合，故一律以句子作为发音单元进行衡量，单词、词组以及段落的情形，可根据句子的情形进行类比。采用如下公式计算用户朗读的一个发音单元的音素综合分数；

其中υ_1，i为用户语音中第i个音素的第一音素质量分数，υ_2，i为用户语音中第i个音素的第二音素质量分数，ω_1，i和ω_2，i为对应的权重。

其中的所述权重ω_1，i和ω_2，i可以通过手工设置；所述权重ω_1，i和ω_2，i还可以通过机器学习的方式得到：选取多个对应于不同发音单元的文本，分别由不同的用户朗读，并由专家对每个用户的朗读质量进行评价，人工给出对应的音素级综合分数，通过机器学习方法得到最优的权重序列。

在本发明的第一个实施例中，其中的步骤(1)中采用梅尔频率倒谱系数(MFCC)以及它们的一阶与二阶差分作为特征向量或者线性预测倒谱系数(LPCC)以及它们的一阶与二阶差分作为特征向量。

以上是均是从用户的某个音素的发音质量方面进行评价，此外，还需要对用户的流利度进行评价，通过计算用户语音中的停顿音sil的数量评价用户的流利度，第i个停顿音sil对应的特征向量个数为ns_i，ns_i＞0的数量越多，说明停顿越多，发音质量越差。此外还可以采用计算停顿音的比例衡量发音单元的发音质量。也就是通过计算停顿音对应的特征向量的数量在整个发音单元所对应的特征向量中的比例衡量发音单元的发音质量。具体地，可采用如下公式进行计算：该比值越大，说明停顿音越多，流利度越差。该比值应该在一个合理范围内，太大说明停顿太多，太小说明应该停顿的地方没有停顿，合理的的取值区间可通过大量的统计进行确定。

为了在识别出用户发音缺陷的情况下，给用户以针对性的指导，在上述的口语评价方法的基础上，本发明还进一步包括确定用户发音缺陷的步骤：

根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，统计用户得分最低的一个音素或者统计得分较低的多个音素，被认为有发音缺陷的音素。可以将用户得分最低的一个或几个音素挑出，提示给用户。当然更进一步地，可以从数据库中挑选包含用户有发音缺陷的音素的发音单元供用户练习。从而可以有效地解决现有技术中无法精确地评价用户某个音素或者某几个音素的发音质量的问题，而且能够提出针对性的提示以及提供针对性的练习素材。

请参照图6、图7理解实现本发明的无需标准读音的音素级的低功耗口语评价方法的***结构。在终端设备上，其中包括：

语音处理单元，用于接收用户语音并进行声学特征抽取，得到与用户语音对应的特征向量序列；

存储单元，用于存储加权有限状态转换器Q，该加权有限状态转换器Q与指定的文本对应，并用于对用户语音进行解码；

解码单元，语音处理单元处理得到的特征向量序列和存储单元的加权有限状态转换器Q均送至解码单元，解码单元使用加权有限状态转换器Q使用Viterbi算法对用户语音所对应的特征向量序列进行解码操作，考虑到其中的停顿音sil后，得到特征向量序列到与产生加权有限状态转换器Q的文本相对应的包含停顿音的音素序列的对齐α，此解码得到的音素序列为：{sil，p₁，sil，p₂，sil，p₃，sil，...，p_(M-1)，sil，p_M，sil}，此对齐α的计数向量

β＝{ns₀，n₁，ns₁，n₂，ns₂，n₃，ns₃，...，n_(M-1)，ns_(M-1)，n_M，ns_M}；

其中，sil表示停顿音，n_i表示对应于第i个音素的帧的数量，ns_i表示对应于第i+1个停顿音的帧的数量，M是此样本文本中包含的音素的数量，上述基于加权有限状态转换器Q与Viterbi算法的解码过程在给出对齐的同时，也给出了每个特征向量所对应的HMM状态；

发音质量评价单元，将每个音素与其对应的特征向量或特征向量组之间吻合度进行计算以评价用户在每个音素上的发音质量的音素质量分数。

其工作过程请见上文关于无需标准读音的音素级的低功耗口语评价方法的描述。

参照图6，其中文本1对应加权有限状态转换器Q₁，文本2对应加权有限状态转换器Q₂，……，从而每个文本都有其对应的Q。其中的加权有限状态转换器H、C、L都是事先经过训练得到的，由于经过最小化和确定化操作，对于每个给定的文本来说生成的Q较小，可较方便地下载或者存储至终端。对于图6，需要说明的是，对于不同的文本，其使用的加权有限状态转换器H、C、L都是事先训练好的，而且都是相同的，图中只是象征性地示出了两个终端，实际上终端数量不限。

本发明具有如下有益效果：

(1)无需标准读音，可以广泛的应用于没有标准读音的评价与缺陷诊断场景，例如，对语言学***诊断。

(2)繁重的运算都在服务器端执行：包括产生加权有限状态转换器H、C、L，以及产生语音音素对齐所依赖的加权有限状态转换器Q，参照图6可理解本发明的此项优点。

(3)只有关于用户语音的运算被放在了用户终端执行，有效减少了终端上的负载与耗电量，减少了对终端的硬件要求。

(4)用户在终端使用时，完全不需要联网，避免了网络流量消耗。

(5)当有新例子增加时，先在云端进行了处理，产生与新的文本对应的加权有限状态转换器Q，再被下载到终端。由于加权有限状态转换器Q较小，下载量小，能够快速下载至终端。即使用户使用网络更新数据例子时，也能很快速的完成。由于运用了加权有限状态转换器的最小化技术，最小化了下载量。

(6)对用户的发音评价可精确到音素级别，并且考虑到上下文相关的音素的发音质量，能给出用户发音较差的音素，可提供相应的语料(包含有用户发音质量较低的音素)进行针对性的练习。

本发明可适应于英语、汉语、西班牙语等语言的学习，以及对语言障碍患者的诊断与评测。

当然，以上所述是本发明的优选实施例，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种无需标准读音的音素级的低功耗口语评价方法，其特征在于，包括如下步骤：

(2)对于给定的文本，它对应一个音素序列，记做

此对齐α的计数向量记做

其中Q＝πε(min(det(Hοdet(Cοdet(LοG)))))，其中的min表示有关加权有限状态转换器的最小化操作，det表示有关加权有限状态转换器的确定化操作，符号ο表示有关加权有限状态转换器的复合操作，π_ε表示去除加权有限状态转换器中ε符号的操作；

2.根据权利要求1所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，所述步骤(3)中，每个音素对应的特征向量或特征向量组和其数学表示之间的吻合度采用似然概率P(O_i|p_i)进行评价；在使用GMM-HMM模型时，似然概率P(O_i|p_i)是此特征向量组是由其对应音素的HMM产生的概率，即

P (O_{i} | p_{i}) \approx P (O_{i} | p_{i}, S_{i}) = Π_{t = 1}^{T_{i}} b_{s_{t}} (o_{t}) a_{s_{t} s_{t + 1}}

其中：约等号是依据常用的Viterbi近似技术，S_i＝s₁，s₂，…，是音素p_i所对应的特征向量序列O_i＝o₁，o₂，…，的HMM状态序列；

为此音素p_i的退出状态，

表示状态s_t与s_t+1之间的转移概率，

b(o_t)代表高斯混合模型；

采用似然概率P(O_i|p_i)作为评价用户在音素p_i上发音质量的第一音素质量分数；

或者采用上述似然概率的对数即ln(P(O_i|p_i))作为评价用户在音素p_i上发音质量的第一音素质量分数。

3.根据权利要求1所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，所述步骤(3)中每个音素与其对应的特征向量或特征向量组之间的吻合度采用来Pr(p_i|O_i)衡量，所述Pr(p_i|O_i)为特征向量组O_i属于其对应音素p_i的后验概率，由似然概率P(O_i|p_i)和先验概率Pr(p_i)通过贝叶斯公式计算得到，该后验概率Pr(p_i|O_i)作为评价用户的发音质量的第二音素质量分数。

4.根据权利要求2或3所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，采用如下公式计算用户朗读一个发音单元的音素级综合分数；

5.根据权利要求4所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于

所述权重ω_1，i和ω_2，i通过手工设置；

或者所述权重ω_1，i和ω_2，i通过机器学习的方式得到：选取多个对应于不同发音单元的文本，分别由不同的用户朗读，并由专家对每个用户的朗读质量进行评价，人工给出对应的音素级综合分数，通过机器学习方法得到最优的权重序列。

6.根据权利要求1-5任一项所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，其中步骤(1)中采用梅尔频率倒谱系数以及它们的一阶与二阶差分或者线性预测倒谱系数以及它们的一阶与二阶差分作为特征向量。

7.根据权利要求1-5任一项所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，加权有限状态转换器Q在服务器端生成，直接存储在终端或者通过网络下载至终端。

8.根据权利要求7所述的无需标准读音的音素级的低功耗口语评价方法，其特征在于，所述的声学模型H、发音词典模型L以及上下文相关的音素模型C均在服务器端生成。

9.根据权利要求1-5任一项所述的低功耗口语评价方法，其特征在于，还包括对用户语音流利度进行评价的步骤：通过计算用户语音中非停顿音素之间停顿音的数量来评价用户的流利度：ns_i＞0的数量越多，说明停顿越多，流利度越差。

10.一种无需标准读音的音素级的低功耗口语缺陷诊断方法，其特征在于，首先采用如权利要求1-9中任一项所述的无需标准读音的音素级的低功耗口语评价方法对用户语音进行处理，然后还包括确定用户有发音缺陷的音素的步骤：根据用户朗读多个发音单元所得到的多个第一音素质量分数或者第二音素质量分数序列，用户得分最低的音素或者得分较低的多个音素为有发音缺陷的音素。

11.根据权利要求10所述的无需标准读音的音素级的低功耗口语缺陷诊断方法，其特征在于，从数据库中挑选包含有所述发音缺陷的音素的发音单元供用户练习。