CN103474061A

CN103474061A - 基于分类器融合的汉语方言自动辨识方法

Info

Publication number: CN103474061A
Application number: CN2013104161737A
Authority: CN
Inventors: 朱贺; 高红民; 王慧斌
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2013-12-25

Abstract

本发明公开一种基于分类器融合的汉语方言自动辨识方法，分为汉语方言语音特征提取、方言模型匹配打分，分类矢量提取及后端分类四个步骤。采用两级特征提取方式，将高斯混合模型（GMM）作为高级特征提取器加以使用。在计算的过程中将语音特征送入到含有方言语音先验知识的高斯混合模型中进行打分，并对所得打分进行归一化和差分计算，形成具有高类间差异度和类内聚合度的分类矢量。将其送入到后端支撑矢量机（SVM）分类器中进行分类。融合GMM在数据分布拟合，SVM在分类面建模时的技术优势，最终实现对汉语方言所属方言区种类的辨识。本发明能够稳定可靠的用于汉语电话方言语音等的辨识任务，准确率较高。

Description

基于分类器融合的汉语方言自动辨识方法

技术领域

本发明涉及多分类器融合技术的语音辨识方法，尤其涉及一种汉语方言辨识方法，属于语音信号处理领域。

背景技术

汉语方言自动辨识是利用计算机分析一段输入的语音，判别说话人所属方言区域的语音处理技术。在我国这样一个多民族、多方言的国家，汉语方言自动辩识的研究为我国各民族间的无障碍沟通建立了基础，随着我国科学技术的快速发展，其中更是酝酿着巨大的应用价值和广阔的应用前景。作为语音识别研究的一个分支，在早期的研究中，汉语方言辨识***往往采用单分类器单特征的设计策略，忽视了信息融合在***设计中的应用，使得***完全依赖于某一分类器和某一特征，制约了***性能的提高。

多信息融合是目前信息处理研究领域的热点，它不仅可以更加全面、详细地描述客观现象，还能实现深层信息的挖掘。在语音处理领域，信息融合方式主要采用两种方式：一、多特征融合；二、多分类器融合。前者采用多特征-单分类器的设计策略，通过不同特征得分的加权和，使得一个***中同时使用多个特征，从而提供更高正确率的决策；而后者则采用多分类器的设计策略，将具有互补性的分类器融合到一个***中，通过不同分类器在分类策略上的差异实现多重分类并融合分类结果。在相应的分类器融合的研究中，目前多是针对与文本相关的语音识别，而能够适应与文本无关语音识别的融合机制并不多见。

发明内容

发明目的：针对现有技术中存在的问题，本发明以两级分类器为框架，提出了一套新分类器融合机制，具体是一种基于分类器融合的汉语方言自动辨识方法。本发明可以更好的提取类汉语方言语音特征间差异信息，并且更加适应与文本无关的方言、语种识别等识别***，显著提高分类能力和鲁棒性。

在分类器融合中，融合***的性能主要取决于以下两点：一、分类器的选取；二、融合机制的设计。在分类器的选取上，通常要求多分类器在分类策略上具有互补性，从而在融合后实现置信度更高的决策。鉴于此，本文选用生成式分类器高斯混合模型（GMM）和判决式分类器支撑矢量机（SVM）为融合对象。作为生成式分类器，GMM具有较好的数据拟合能力，能够较好的描述整体数据的分布状态。但是，由于需要从完备的数据中学习参量，对于训练集的数据量要求过高且训练周期较长。相比较，SVM不具备较好的数据分布的拟合能力但能够较为清晰的描述分类面的状态。因此，GMM和SVM在原理上具有互补性将其融合可以发挥两种分类器的优势。对于融合机制的设计可以采取后端分数融合和多级融合两种方式。前者对SVM的决策进行置信度打分，并将其与GMM的打分进行加权求，以此进行类别决策；后者将GMM作为分类矢量的生成器，生成含有全局信息的分类矢量并送入SVM进行分类。在方言识别中由于数据的分布状态过于复杂且数据量过于庞大，不宜使用SVM对原始语音特征进行分类和打分，此外在分数融合中权重的选择也有一定的难度，因此，多级分类器融合***更加适应于汉语方言辨识研究。传统基于GMM、SVM的两级分类器融合通常采用Fisher核函数作为融合机制，在所提取的特征中不仅含有方言语音的声学信息也含有该方言的全局信息，是一种高级的分类矢量。但是，其中也存在着诸多局限。首先，Fisher核函数的映射空间存在着维数灾难的隐患，很难满足大数据量的与文本无关的语音识别。其次，对于同一语音基元，不同方言模型的打分间有一定的相关性，如表1所示，而种相关性影响了分类矢量的类代表性。最后，对于方言辨识，我们期望分类特征体现出方言的类间差异，即不同方言模型对一段语音打分间的差异性。

表.1不同方言模型对语音基元的打分

技术方案：一种基于分类器融合的汉语方言自动辨识方法，选用生成式分类器高斯混合模型（GMM）和判决式分类器支撑矢量机（SVM）为融合对象，生成式分类器高斯混合模型是生成式概率统计模型，其概率密度计算公式为：

P (x | W_{n}) = Σ_{i = 1}^{k} w_{ni} \frac{1}{{(2 π)}^{N} {| Σ_{ni} |}^{1 / 2}} \exp (- \frac{1}{2} {(x - μ_{ni})}^{T} Σ_{ni}^{- 1} (x - μ_{ni})) - - - (1)

其中，X为一个语音基元的声学特征，w_ni,μ_ni,Σ_ni分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵，k为混合元维数。输入汉语方言信号进行语音特征提取，在新分类特征的提取过程中，首先利用已知的训练样本集合训练方言的GMM；然后将语音数据输入到设计好的各种方言GMM中，对语音基元进行似然打分，组成分数矢量[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)]，实现从原始语音特征空间到分数空间的映射。最后对该矢量进行归一化处理和差分运算。其计算步骤如下：

一、对语音的得分进行归一化处理：

SV_i＝(1/C_i)·[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)] (2)

其中C_i是归一化因子，文中取：

C_{i} = \max_{n} (P (x_{i} | μ_{n} Σ_{n})), n = 1 . . . N

二、计算分数差分：

φ′(x_i)＝[(SV_i1-SV_i2)(SV_i1-SV_i3)…(SV_i1-SV_iN),(SV_i2-SV_i3)(SV_i2-SV_i4)

…(SV_i2-SV_iN),…,(SV_iN-1-SV_iN)] (3)

随后，基于训练分类矢量训练SVM分类器。

本发明采用上述技术方案，具有以下有益效果：它可以很好的解决Fisher核函数在分类矢量设计中所存在的问题，同时体现出类间差异信息，更加适应方言、语种辨识等语音辨识工作。

附图说明

图1为本发明实施例的方法流程图；

图2为本发明实施例中的初级特征矢量和分类矢量的分布图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于分类器融合的汉语方言自动辨识方法，选用生成式分类器高斯混合模型（GMM）和判决式分类器支撑矢量机（SVM）为融合对象，生成式分类器高斯混合模型是生成式概率统计模型，它可以大致描述出数据空间中的全局信息，其概率密度计算公式为：

P (x | W_{n}) = Σ_{i = 1}^{k} w_{ni} \frac{1}{{(2 π)}^{N} {| Σ_{ni} |}^{1 / 2}} \exp (- \frac{1}{2} {(x - μ_{ni})}^{T} Σ_{ni}^{- 1} (x - μ_{ni})) - - - (1)

其中，X为一个语音基元的声学特征，w_ni,μ_ni,Σ_ni分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵，k为混合元维数。在新分类特征的提取过程中，首先利用已知的训练样本集合训练方言的GMM。然后将语音数据输入到设计好的各种方言GMM中，对语音基元进行似然打分，组成分数矢量[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)]，实现从原始语音特征空间到分数空间的映射。最后对该矢量进行归一化处理和差分运算。其计算步骤如下：

一、对语音的得分进行归一化处理：

SV_i＝(1/C_i)·[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)] (2)

其中C_i是归一化因子，文中取：

C_{i} = \max_{n} (P (x_{i} | μ_{n} Σ_{n})), n = 1 . . . N

二、计算分数差分：

…(SV_i2-SV_iN),…,(SV_iN-1-SV_iN)] (3)

在该融合过程中，一方面通过归一化处理减小了前文中所提到的打分间的相关性对识别率的影响，另一方面通过不同方言GMM对某一基元打分后的分数差分运算成功的提出方言的类间差异信息，使得

(x_i)中不仅包含有声学信息、全局信息还含有方言类间差异信息。通过吴方言、粤方言、闽方言三种方言分类矢量的分布状态（如图2所示），可以看到与原始特征相比新融合机制下的同种方言语音分类矢量体现出了较强聚类和类间差异效果，更加适用于方言辨识工作。

由于SVM分类器较好的分类能力及突出推广性，在多级分类的器融合中通常选择SVM作为后端分类器。汉语方言辨识本质上是一个多类别分类问题，目前该问题的解决主要是采用决策树算法、“一对一”分类策略、“一对多”等分类策略。但是由于多类别样本数据分布的复杂性，大量实验证明基于以上策略的辨识***在处理多类别分类问题时并不理想。本发明采用ECOC算法，该算法对待分类别进行二值编码，以此作为类别的标签。在编码的过程中，算法要求码矩阵中每行每列的码字间要保持独立性和可分性。据此，ECOC算法要求当3≤k≤7时，码本的最大长度应为2^k-1-1维，其中k为类别数。其编码规则为：首行为单位矢量，第二行码本的是由2^k-2个0和2^k-2个1交替组成，以此类推，第i行码本是由2^k-i个0和2^k-i个1交替组成。假设以4类问题为分类对象，便需要7维的码书来进行编码设计，如表1所示，其中行向量是ECOC算法针对每一类别的编码。根据码字矩阵中的列向量的类别标签设计分类器，得到f₁,f₂,…f_nn≤2^k-1-1。在测试过程中，该算法首先对输入语音按照f₁,f₂,…f_n分类规则进行分类，然后根据分类结果对未知语音进行编码，设计出该语音的码书，最后将其与已知的类别码书相匹配，实现决策。ECOC算法使用基于Hamming距离最近邻算法进行匹配度量，具有一定的容错性，这一特点在多类别的分类中尤为重要。本文使用ECOC算法实现多类方言的辨识，如表2所示。

表.2类别编码

训练时，采用训练数据语音，分别训练不同方言的128维GMM模型，并输出对每段训练语音（15s）的似然打分。随后通过归一化及差分计算，生成训练分类矢量。随后，基于训练分类矢量训练SVM分类器。

测试时，将输入的汉语方言语音数据按照上述流程，送入到GMM模型中进行打分，并提取分类矢量，进行分类。

至此完成一次汉语方言的识别。

Claims

1.一种基于分类器融合的汉语方言自动辨识方法，其特征在于：选用GMM和SVM为融合对象，输入汉语方言信号进行语音特征提取，在新分类特征的提取过程中，首先利用已知的训练样本集合训练方言的GMM；然后将语音数据输入到设计好的各种方言的GMM中，对语音基元进行似然打分，组成分数矢量[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)]，实现从原始语音特征空间到分数空间的映射；其次对该分数矢量进行归一化处理和差分运算；随后，基于训练分类矢量训练SVM分类器。

2.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法，其特征在于：GMM是生成式概率统计模型，其概率密度计算公式为：

P (x | W_{n}) = Σ_{i = 1}^{k} w_{ni} \frac{1}{{(2 π)}^{N} {| Σ_{ni} |}^{1 / 2}} \exp (- \frac{1}{2} {(x - μ_{ni})}^{T} Σ_{ni}^{- 1} (x - μ_{ni})) - - - (1)

其中，X为一个语音基元的声学特征，w_ni,μ_ni,Σ_ni分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵，k为混合元维数。

3.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法，其特征在于：对所述分数矢量进行归一化处理和差分运算计算如下：

一、对语音的得分进行归一化处理：

SV_i＝(1/C_i)·[P(x_i|μ₁Σ₁)P(x_i|μ₂Σ₂)…P(x_i|μ_NΣ_N)] (2)

其中C_i是归一化因子，取：

C_{i} = \max_{n} (P (x_{i} | μ_{n} Σ_{n})), n = 1 . . . N;

二、计算分数差分：

…(SV_i2-SV_iN),…,(SV_iN-1-SV_iN)] (3)。

4.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法，其特征在于：基于训练分类矢量训练SVM分类器中，采用ECOC算法对待分类别进行二值编码，以此作为类别的标签；在编码的过程中，要求码矩阵中每行每列的码字间要保持独立性和可分性；当3≤k≤7时，码本的最大长度应为2^k-1-1维，其中k为类别数；编码规则为：首行为单位矢量，第二行码本的是由2^k-2个0和2^k-2个1交替组成，以此类推，第i行码本是由2^k-i个0和2^k-i个1交替组成；假设以4类问题为分类对象，便需要7维的码书来进行编码设计，行向量是ECOC算法针对每一类别的编码；根据码字矩阵中的列向量的类别标签设计分类器，得到f₁,f₂,…f_n n≤2^k-1-1；在测试过程中，该算法首先对输入语音按照f₁,f₂,…f_n分类规则进行分类，然后根据分类结果对未知语音进行编码，设计出该语音的码书，最后将其与已知的类别码书相匹配。