CN1296887C

CN1296887C - 用于嵌入式自动语音识别***的训练方法

Info

Publication number: CN1296887C
Application number: CNB2004100667948A
Authority: CN
Inventors: 朱杰; 蔡铁
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2004-09-29
Filing date: 2004-09-29
Publication date: 2007-01-24
Anticipated expiration: 2024-09-29
Also published as: CN1588538A

Abstract

一种智能信息处理技术领域的用于嵌入式自动语音识别***的训练方法。(1)改进的多段矢量量化模板训练：利用动态时间规整方法将属于同一类的训练语句在时间上划分为若干语音段，将最相关的语音帧聚合在一段里，根据语音时序特征和各个段的统计特性以及汉语的音节构成，按照待识别命令词所包含的音节数设置模板的分段总数；(2)泛化概率下降区别性训练：结合多段矢量量化语音模板，将泛化概率下降区别性训练算法嵌入到基于动态时间规整方法的识别器中，通过定义训练语句与参考模板之间的距离作为区别函数，对参考模板集基于训练集进行区别性训练，经过多次重复性区别性训练，增加模板间的区分能力，获得更加优化的语音模板。

Description

用于嵌入式自动语音识别***的训练方法

技术领域

本发明涉及的是一种智能信息处理技术领域的语音识别***的训练方法，具体是一种用于嵌入式自动语音识别***的训练方法。

背景技术

语音识别***所采用的语音模型(或模板)需合理反映语音的声学特征，其有效描述语音特征空间的概率分布决定了语音识别的性能。为适于小型化、便携式应用，嵌入式自动语音识别***大都使用专门的硬件***实现，如MCU、DSP和语音识别专用芯片。由于***资源的有限以及识别的实时性、可靠性等要求，每个识别单元的模板所占存储空间必须尽可能小，模板质量要高，同时采用动态时间规整(DTW)识别算法比较合适。

经文献检索发现，L.Zhou等人在《IEICE Trans.on Information and Systems》Vol.E78-D，No.9，pp.1178-1187，Sep.1995.发表的“Multisegment Multiple VQcodebooks-Based Speaker Independent Isolated Word Recognition Using UnbiasedMel Cepstrum”，(《IEICE信息与***期刊》，“采用无偏Mel倒谱实现基于多段多VQ码本的非特定人孤立词识别”)该文采用多段矢量量化(MSVQ)方法训练语音模板，与对整个词进行量化的标准VQ方法相比，MSVQ方法保留了语音的时序特征，对识别非常有利。在训练数据有限的情况下，基于MSVQ的汉语孤立词识别***的性能要优于基于CDHMM的识别***。MSVQ模板生成方法可概述为两个步骤，先将属于同一类的训练语句在时间上分成几段，然后每段中用LBG方法生成一个标准VQ码本。但是，MSVQ的分段方法是按时间先后顺序将语句均匀分段，这种均匀分段没能充分的考虑语音不同段的统计特性，必将会影响模板的性能，限制识别率的进一步提高。同时，语音模板通常是取一个典型语句或是对该词的所有训练数据聚类得到的。训练方法一般基于最大相似度估计(MLE)，其目标是使训练样本与模板的相似度最大。这种训练方法存在着一定的局限性：由于每个参考模板都由该词自己的训练语句产生，没有对不同词发音中可能的相似部分加以区分，这样在识别比较时，发音中与其它词发音相区别的关键部分没能得到足够的重视，难以到达高识别率的要求。特别是存在发音相混淆的词时，识别率会大大下降。为提高模板的区分能力，实现高识别率，还必须进一步提高模板的性能。

发明内容

本发明针对现有技术的上述不足，提出一种用于嵌入式自动语音识别***的训练方法，使其应用改进的多段矢量量化(MSVQ)方法，并针对***所采用的DTW识别方法，提出了适用于MSVQ语音模板及DTW算法的泛化概率下降(GPD)区别性训练方法，以进一步提高模板的性能。

本发明是通过以下技术方案实现的，本发明包括改进的MSVQ模板训练和泛化概率下降(GPD)区别性训练两个部分：

(1)改进的MSVQ模板训练：采用动态规划的思想，利用DTW方法将属于同一类的训练语句在时间上合理划分为若干语音段，将最相关的语音帧聚合在一段里，充分考虑到语音的时序特征和不同段的统计特性。并考虑汉语的音节构成，按照待识别命令词所包含的音节数设置模板的分段总数。

(2)泛化概率下降(GPD)区别性训练：结合MSVQ语音模板，将GPD区别性训练算法嵌入到基于DTW方法的识别器中。通过定义训练语句与参考模板之间的距离作为区别函数，对参考模板集(MSVQ模板)基于训练集进行区别性训练，使得识别错误率达到最小。经过多次重复性区别性训练，增加模板间的区分能力，获得更加优化的语音模板。

为弥补多段矢量量化(MSVQ)方法没有考虑到语音不同段统计特性的不足，本发明采用最小失真判据和动态规划技术获得不定长的语音分段，提高MSVQ方法中语音分段的合理性，将最相关的那些帧聚合在一段里训练成模板。此外，由于分段总数与该词包含的音节数有关，而汉语中每个音节通常由3到4个音素构成，因此将每个音节分成4段，每个音素对应模板中的一段。这样，由改进后的MSVQ方法训练得到的模板不但包含了训练集中所有说话人的语音特征，而且保留了语音的时序特征，因此代表性强，识别率较高。同时模板体积小，适于资源非常有限的嵌入式识别***。

为提高模板的区分能力，本发明采用区别性训练进一步优化MSVQ方法得到的语音模板，从最小误识率(MCE)的角度出发，主要考虑模板的区分能力使得识别错误最小，而不是尽可能精确的描述训练数据的不同。通过结合MSVQ模板，将泛化概率下降(GPD)区别性训练算法嵌入到基于DTW识别方法的识别器中，得到更加优化的MSVQ语音模板。

对于嵌入式自动语音识别***，本发明提出了一套完整的语音模板训练方法。用此方法训练得到的模板，体积小、区别性强、性能高，是保证嵌入式自动语音识别***实时识别和高识别率的关键。

附图说明

图1区别性训练示意图

图2多次区别性训练实验结果

具体实施方式

为更好地理解本发明的技术方案，以下结合附图和具体的实施例作进一步的说明。

本发明首先采用改进的MSVQ方法训练得到基本模板，它包括两个步骤：先依据动态规划的思想，将属于同一类的训练语句用DTW算法在时间上分成几段，使最相关的那些帧聚合在一起，分段总数根据该词包含的音节数确定；然后每段中用LBG方法生成一个标准VQ码本。再在MSVQ模板的基础之上，又通过泛化概率下降(GPD)区别性训练算法对进行模板优化，从最小化误识率(MCE)的角度增加模板的区别能力，使得***的识别率获得更大的提高。

实施例

1、改进的MSVQ模板

设帧长为T语音信号通常由一个特征矢量序列来表示：X＝{x₁，x₂，…，x_T}。为将最相关的那些帧聚合在一段里，分段方法基于最小失真判据。另外分段总数N_s与该词包含的音节数有关，汉语中每个音节通常由3到4个音素构成(这里将每个音节分成3段，每个音素对应一段)。首先定义边界为t_l和t_l+1-1的第l段的段内失真D_l为：

D_{l} = Σ_{t = t_{l}}^{t_{l + 1} - 1} d (x_{t}, c_{l})

其中，c_l为该段的质心，d(.,.)为失真测度。取该段所有矢量的均值为质心。失真D_l反映了第l段中特征矢量的变化程度。然后，对于L个连续不重叠的段，总失真D为：

D = Σ_{l = 1}^{L} D_{l} = Σ_{l = 1}^{L} Σ_{t = t_{l}}^{t_{l + 1} - 1} d (x_{t}, c_{l}), t_{1} = 1, t_{L + 1} = T + 1,

通过改变分段边界t_l从而使D最小。依据动态规划的思想，采用用DTW算法可以有效地解决这个优化问题：首先取一个典型语句，将它均分为若干段，相同段的语音帧聚合在一起，最终形成一个典型模板；然后将此模板与其它同类训练语句作DTW匹配，这样各训练语句将按照DTW过程的最优路径划分为相同的段数，各段对应的帧数将是不同的，但相同段的语音帧将具有相似的统计特性和语音特征。

取得合理的分段信息以后，将每一段分别设计为一个VQ码本，采用LBG算法得到。为了减小模板的体积，将每段的VQ码本的大小设为1，即取该段所有矢量的均值(质心)作为该段码本，这样就得到了一个体积小、性能高的语音模板。

2.区别性训练算法在基于MSVQ的DTW识别***中的实现

为增加模板的区分能力，必须对发音中与其它词发音相区别的关键部分加以足够重视，区别性训练方法能够满足这一要求。泛化概率下降(GPD)区别性训练算法是一种很有效的方法，可以很好用来最小化误识率。下面结合MSVQ模板，将GPD区别性训练算法嵌入到基于DTW识别方法的识别器中，得到更优化的MSVQ模板。

给定一个训练语句集＝{x¹，x²，…，x^N}，其中xⁱ属于M个词Cⁱ，i＝1，2，…，M中的一个。

x^{i} = {x_{p, s}^{i}, p = 1,2, \cdot \cdot \cdot, P^{i}, s = 1,2, \cdot \cdot \cdot, S}

是由Pⁱ个帧组成，每帧为S维语音特征矢量，通常由倒谱系数组成。每个词由一个参考模板代表。参考模板集Λ＝{λⁱ＝{(Rⁱ，Wⁱ)}，i＝1，2，…，M}其中

R^{i} = {r_{q, s}^{i}, q = 1,2, \cdot \cdot \cdot, Q^{i}, s = 1,2, \cdot \cdot \cdot, S}

是倒谱系数序列，

W^{i} = {w_{q}^{i},q=1,2, \cdot \cdot \cdot, Q^{i}}

是区别权重函数用来修正模板的距离分值。依据GPD算法，对参考模板集Λ基于训练集进行区别性训练，使得识别错误率达到最小。区别性训练的流程如图1所示。

1)定义训练语句x与词C^j的参考模板r^j之间的距离做为区别函数：

g_{j} (x, Λ) = Σ_{q = 1}^{Q} w_{q}^{j} δ_{p_{q}}^{j}

其中w_q ^j是词C^j的参考模板的区别权重。δ_pq ^j是经DTW匹配后得到的最佳路径中，词C^j的参考模板的第q个帧和x中相对应的p_q帧之间的距离。这里采用欧式距离：

δ_{p_{q}}^{j} = Σ_{s = 1}^{S} {(r_{q, s}^{j} - x_{p_{q}, s})}^{2}

通过以上的定义可以得到一个连续的可对其进行梯度操作的区别函数g_k(x；Λ)。

2)定义误分类测度，将识别结果嵌入其中

d_{k} (x) = g_{k} (x; Λ) - \ln {\frac{1}{M - 1} \underset{j, j &NotEqual; k}{Σ} e^{- g_{j} (x; Λ) η}}^{- 1 / η}

其中η是一个正实数。

3)成本函数如下定义：

l_{k} (d_{k}) = \frac{1}{1 + e^{- d_{k}}}

它可以正确地近似于识别错误率。

4)用GPD算法自适应地调整参考模板参数，从而使成本函数达到最小。给定一个属于词C^k的训练语句x，参考模板参数的调整规则如下：

j＝k时，

\{\begin{matrix} r_{q, s, t + 1}^{k} = r_{q, s, t}^{k} - ϵ_{t} v_{k} φ_{k} \\ w_{q, t + 1}^{k} = w_{q, t}^{k} - ϵ_{t} v_{k} δ_{p_{q}}^{k} \end{matrix}

j≠k时，

\{\begin{matrix} r_{q, s, t + 1}^{j} = r_{q, s, t}^{j} + ϵ_{t} v_{k} π_{j, k} φ_{j} \\ w_{q, t + 1}^{j} = w_{q, t}^{j} - ϵ_{t} v_{k} π_{j, k} δ_{p_{q}}^{j} \end{matrix}

其中

v_k＝l_k(d_k)(1-l_k(d_k))

φ_{k} = 2 w_{q}^{k} (r_{q, s}^{k} - x_{p_{q}, s})

π_{j, k} = \frac{e^{- g_{j} η}}{\underset{j^{'}, j^{'} &NotEqual; k}{Σ} e^{- g_{j^{'}} η}}

ϵ_{t} = ϵ_{0} (1 - \frac{t}{T})

t表示第t次迭代，T是最大迭代次数，ε₀是一个较小的正数。一般经过几十次迭代就可得到收敛值。

经过区别性训练后的参考模板优于训练前的模板，但并不是最优的结果，这是由于初始参考模板和算法中的一些参数设置并不是最优等因素造成的。对训练后参考模板再进行一次乃至多次区别性训练，可以得到更为优化的模板。

本发明基于嵌入式自动语音识别***的训练方法与传统的训练方法进行了比较，以***的识别率作为性能的评价指标，实验结果见表1。从表1中识别率的明显提高可以发现，本发明的方法具有较高的性能。

表1区别性训练的实验结果

	测试集识别率	训练集识别率	模板大小
	测试集识别率	训练集识别率	模板大小	区别性训练前	91.0	86.1	44KB
区别性训练后	92.5	94.3	44KB	区别性训练前	91.0	86.1	44KB
区别性训练后	92.5	94.3	44KB	误识率下降	16.7％	58.9％

以上实验的语音库包括50个命令词，共有12人的录音数据，全为男性，按普通话发音，语速均为正常语速，每人每个词念2遍。其中包含很多容易被混淆的词，如“升温”“降温”，“左转”“右转”。录音环境为实验室环境，采样频率为8kHz，语音经特征提取后作为实验数据。其中10人的录音数据作为训练集，另外2人的录音数据作为测试集。实验中对训练集也做了识别率测试。前端处理包括端点检测、预加重1-0.95z^-1、30ms哈明窗、10ms帧移，特征矢量由8维LPC倒谱系数组成。参考模板采用MSVQ模板，分段数为12。

对MSVQ模板进行重复性区别性训练，实验结果如图2所示。纵坐标表示重复训练的次数，其中0表示未做区别性训练的模板。从图2中实验结果可以得到如下结论：经过区别性训练后，模板得到优化，***识别率均有明显提高。通过多次进行区别性训练，模板得到进一步优化，识别率进一步得到提高。5次区别性训练后，对训练集的识别率达到99.4％，测试集达到94.5％。多次进行区别性训练对训练集的识别率提高尤为明显。

Claims

1、一种用于嵌入式自动语音识别***的训练方法，其特征在于，包括改进的多段矢量量化模板训练和泛化概率下降区别性训练两个部分：

(1)改进的多段矢量量化模板训练：利用动态时间规整方法将属于同一类的训练语句在时间上划分为若干语音段，将最相关的语音帧聚合在一段里，根据语音的时序特征和各个段的统计特性以及汉语的音节构成，按照待识别命令词所包含的音节数设置模板的分段总数；

(2)泛化概率下降区别性训练：结合多段矢量量化语音模板，将泛化概率下降区别性训练算法嵌入到基于动态时间规整方法的识别器中，通过定义训练语句与参考模板之间的距离作为区别函数，对参考模板集基于训练集进行区别性训练，使得识别错误率达到最小，经过多次重复性区别性训练，增加模板间的区分能力，获得更加优化的语音模板。

2、根据权利要求1所述的用于嵌入式自动语音识别***的训练方法，其特征是，采用最小失真判据和动态规划技术获得不定长的语音分段，提高多段矢量量化方法中语音分段的合理性，将最相关的那些帧聚合在一段里训练成模板，由于模板分段总数与该词包含的音节数有关，而汉语中每个音节通常由3到4个音素构成，因此将每个音节按照其所包含的音素个数进行分段，每个音素对应模板中的一段。