CN103474061A - 基于分类器融合的汉语方言自动辨识方法 - Google Patents

基于分类器融合的汉语方言自动辨识方法 Download PDF

Info

Publication number
CN103474061A
CN103474061A CN2013104161737A CN201310416173A CN103474061A CN 103474061 A CN103474061 A CN 103474061A CN 2013104161737 A CN2013104161737 A CN 2013104161737A CN 201310416173 A CN201310416173 A CN 201310416173A CN 103474061 A CN103474061 A CN 103474061A
Authority
CN
China
Prior art keywords
classification
dialect
gmm
chinese
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013104161737A
Other languages
English (en)
Inventor
朱贺
高红民
王慧斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN2013104161737A priority Critical patent/CN103474061A/zh
Publication of CN103474061A publication Critical patent/CN103474061A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开一种基于分类器融合的汉语方言自动辨识方法,分为汉语方言语音特征提取、方言模型匹配打分,分类矢量提取及后端分类四个步骤。采用两级特征提取方式,将高斯混合模型(GMM)作为高级特征提取器加以使用。在计算的过程中将语音特征送入到含有方言语音先验知识的高斯混合模型中进行打分,并对所得打分进行归一化和差分计算,形成具有高类间差异度和类内聚合度的分类矢量。将其送入到后端支撑矢量机(SVM)分类器中进行分类。融合GMM在数据分布拟合,SVM在分类面建模时的技术优势,最终实现对汉语方言所属方言区种类的辨识。本发明能够稳定可靠的用于汉语电话方言语音等的辨识任务,准确率较高。

Description

基于分类器融合的汉语方言自动辨识方法
技术领域
本发明涉及多分类器融合技术的语音辨识方法,尤其涉及一种汉语方言辨识方法,属于语音信号处理领域。
背景技术
汉语方言自动辨识是利用计算机分析一段输入的语音,判别说话人所属方言区域的语音处理技术。在我国这样一个多民族、多方言的国家,汉语方言自动辩识的研究为我国各民族间的无障碍沟通建立了基础,随着我国科学技术的快速发展,其中更是酝酿着巨大的应用价值和广阔的应用前景。作为语音识别研究的一个分支,在早期的研究中,汉语方言辨识***往往采用单分类器单特征的设计策略,忽视了信息融合在***设计中的应用,使得***完全依赖于某一分类器和某一特征,制约了***性能的提高。
多信息融合是目前信息处理研究领域的热点,它不仅可以更加全面、详细地描述客观现象,还能实现深层信息的挖掘。在语音处理领域,信息融合方式主要采用两种方式:一、多特征融合;二、多分类器融合。前者采用多特征-单分类器的设计策略,通过不同特征得分的加权和,使得一个***中同时使用多个特征,从而提供更高正确率的决策;而后者则采用多分类器的设计策略,将具有互补性的分类器融合到一个***中,通过不同分类器在分类策略上的差异实现多重分类并融合分类结果。在相应的分类器融合的研究中,目前多是针对与文本相关的语音识别,而能够适应与文本无关语音识别的融合机制并不多见。
发明内容
发明目的:针对现有技术中存在的问题,本发明以两级分类器为框架,提出了一套新分类器融合机制,具体是一种基于分类器融合的汉语方言自动辨识方法。本发明可以更好的提取类汉语方言语音特征间差异信息,并且更加适应与文本无关的方言、语种识别等识别***,显著提高分类能力和鲁棒性。
在分类器融合中,融合***的性能主要取决于以下两点:一、分类器的选取;二、融合机制的设计。在分类器的选取上,通常要求多分类器在分类策略上具有互补性,从而在融合后实现置信度更高的决策。鉴于此,本文选用生成式分类器高斯混合模型(GMM)和判决式分类器支撑矢量机(SVM)为融合对象。作为生成式分类器,GMM具有较好的数据拟合能力,能够较好的描述整体数据的分布状态。但是,由于需要从完备的数据中学习参量,对于训练集的数据量要求过高且训练周期较长。相比较,SVM不具备较好的数据分布的拟合能力但能够较为清晰的描述分类面的状态。因此,GMM和SVM在原理上具有互补性将其融合可以发挥两种分类器的优势。对于融合机制的设计可以采取后端分数融合和多级融合两种方式。前者对SVM的决策进行置信度打分,并将其与GMM的打分进行加权求,以此进行类别决策;后者将GMM作为分类矢量的生成器,生成含有全局信息的分类矢量并送入SVM进行分类。在方言识别中由于数据的分布状态过于复杂且数据量过于庞大,不宜使用SVM对原始语音特征进行分类和打分,此外在分数融合中权重的选择也有一定的难度,因此,多级分类器融合***更加适应于汉语方言辨识研究。传统基于GMM、SVM的两级分类器融合通常采用Fisher核函数作为融合机制,在所提取的特征中不仅含有方言语音的声学信息也含有该方言的全局信息,是一种高级的分类矢量。但是,其中也存在着诸多局限。首先,Fisher核函数的映射空间存在着维数灾难的隐患,很难满足大数据量的与文本无关的语音识别。其次,对于同一语音基元,不同方言模型的打分间有一定的相关性,如表1所示,而种相关性影响了分类矢量的类代表性。最后,对于方言辨识,我们期望分类特征体现出方言的类间差异,即不同方言模型对一段语音打分间的差异性。
表.1不同方言模型对语音基元的打分
Figure BDA0000381213120000021
技术方案:一种基于分类器融合的汉语方言自动辨识方法,选用生成式分类器高斯混合模型(GMM)和判决式分类器支撑矢量机(SVM)为融合对象,生成式分类器高斯混合模型是生成式概率统计模型,其概率密度计算公式为:
P ( x | W n ) = Σ i = 1 k w ni 1 ( 2 π ) N | Σ ni | 1 / 2 exp ( - 1 2 ( x - μ ni ) T Σ ni - 1 ( x - μ ni ) ) - - - ( 1 )
其中,X为一个语音基元的声学特征,wninini分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵,k为混合元维数。输入汉语方言信号进行语音特征提取,在新分类特征的提取过程中,首先利用已知的训练样本集合训练方言的GMM;然后将语音数据输入到设计好的各种方言GMM中,对语音基元进行似然打分,组成分数矢量[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)],实现从原始语音特征空间到分数空间的映射。最后对该矢量进行归一化处理和差分运算。其计算步骤如下:
一、对语音的得分进行归一化处理:
SVi=(1/Ci)·[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)]    (2)
其中Ci是归一化因子,文中取: C i = max n ( P ( x i | μ n Σ n ) ) , n = 1 . . . N
二、计算分数差分:
φ′(xi)=[(SVi1-SVi2)(SVi1-SVi3)…(SVi1-SViN),(SVi2-SVi3)(SVi2-SVi4)
…(SVi2-SViN),…,(SViN-1-SViN)]    (3)
随后,基于训练分类矢量训练SVM分类器。
本发明采用上述技术方案,具有以下有益效果:它可以很好的解决Fisher核函数在分类矢量设计中所存在的问题,同时体现出类间差异信息,更加适应方言、语种辨识等语音辨识工作。
附图说明
图1为本发明实施例的方法流程图;
图2为本发明实施例中的初级特征矢量和分类矢量的分布图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,基于分类器融合的汉语方言自动辨识方法,选用生成式分类器高斯混合模型(GMM)和判决式分类器支撑矢量机(SVM)为融合对象,生成式分类器高斯混合模型是生成式概率统计模型,它可以大致描述出数据空间中的全局信息,其概率密度计算公式为:
P ( x | W n ) = Σ i = 1 k w ni 1 ( 2 π ) N | Σ ni | 1 / 2 exp ( - 1 2 ( x - μ ni ) T Σ ni - 1 ( x - μ ni ) ) - - - ( 1 )
其中,X为一个语音基元的声学特征,wninini分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵,k为混合元维数。在新分类特征的提取过程中,首先利用已知的训练样本集合训练方言的GMM。然后将语音数据输入到设计好的各种方言GMM中,对语音基元进行似然打分,组成分数矢量[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)],实现从原始语音特征空间到分数空间的映射。最后对该矢量进行归一化处理和差分运算。其计算步骤如下:
一、对语音的得分进行归一化处理:
SVi=(1/Ci)·[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)]    (2)
其中Ci是归一化因子,文中取: C i = max n ( P ( x i | μ n Σ n ) ) , n = 1 . . . N
二、计算分数差分:
φ′(xi)=[(SVi1-SVi2)(SVi1-SVi3)…(SVi1-SViN),(SVi2-SVi3)(SVi2-SVi4)
…(SVi2-SViN),…,(SViN-1-SViN)]    (3)
在该融合过程中,一方面通过归一化处理减小了前文中所提到的打分间的相关性对识别率的影响,另一方面通过不同方言GMM对某一基元打分后的分数差分运算成功的提出方言的类间差异信息,使得
Figure BDA0000381213120000042
(xi)中不仅包含有声学信息、全局信息还含有方言类间差异信息。通过吴方言、粤方言、闽方言三种方言分类矢量的分布状态(如图2所示),可以看到与原始特征相比新融合机制下的同种方言语音分类矢量体现出了较强聚类和类间差异效果,更加适用于方言辨识工作。
由于SVM分类器较好的分类能力及突出推广性,在多级分类的器融合中通常选择SVM作为后端分类器。汉语方言辨识本质上是一个多类别分类问题,目前该问题的解决主要是采用决策树算法、“一对一”分类策略、“一对多”等分类策略。但是由于多类别样本数据分布的复杂性,大量实验证明基于以上策略的辨识***在处理多类别分类问题时并不理想。本发明采用ECOC算法,该算法对待分类别进行二值编码,以此作为类别的标签。在编码的过程中,算法要求码矩阵中每行每列的码字间要保持独立性和可分性。据此,ECOC算法要求当3≤k≤7时,码本的最大长度应为2k-1-1维,其中k为类别数。其编码规则为:首行为单位矢量,第二行码本的是由2k-2个0和2k-2个1交替组成,以此类推,第i行码本是由2k-i个0和2k-i个1交替组成。假设以4类问题为分类对象,便需要7维的码书来进行编码设计,如表1所示,其中行向量是ECOC算法针对每一类别的编码。根据码字矩阵中的列向量的类别标签设计分类器,得到f1,f2,…fnn≤2k-1-1。在测试过程中,该算法首先对输入语音按照f1,f2,…fn分类规则进行分类,然后根据分类结果对未知语音进行编码,设计出该语音的码书,最后将其与已知的类别码书相匹配,实现决策。ECOC算法使用基于Hamming距离最近邻算法进行匹配度量,具有一定的容错性,这一特点在多类别的分类中尤为重要。本文使用ECOC算法实现多类方言的辨识,如表2所示。
表.2类别编码
Figure BDA0000381213120000051
训练时,采用训练数据语音,分别训练不同方言的128维GMM模型,并输出对每段训练语音(15s)的似然打分。随后通过归一化及差分计算,生成训练分类矢量。随后,基于训练分类矢量训练SVM分类器。
测试时,将输入的汉语方言语音数据按照上述流程,送入到GMM模型中进行打分,并提取分类矢量,进行分类。
至此完成一次汉语方言的识别。

Claims (4)

1.一种基于分类器融合的汉语方言自动辨识方法,其特征在于:选用GMM和SVM为融合对象,输入汉语方言信号进行语音特征提取,在新分类特征的提取过程中,首先利用已知的训练样本集合训练方言的GMM;然后将语音数据输入到设计好的各种方言的GMM中,对语音基元进行似然打分,组成分数矢量[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)],实现从原始语音特征空间到分数空间的映射;其次对该分数矢量进行归一化处理和差分运算;随后,基于训练分类矢量训练SVM分类器。
2.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法,其特征在于:GMM是生成式概率统计模型,其概率密度计算公式为:
P ( x | W n ) = Σ i = 1 k w ni 1 ( 2 π ) N | Σ ni | 1 / 2 exp ( - 1 2 ( x - μ ni ) T Σ ni - 1 ( x - μ ni ) ) - - - ( 1 )
其中,X为一个语音基元的声学特征,wninini分别代表方言GMM中每个高斯混合元的权重、均值和协方差矩阵,k为混合元维数。
3.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法,其特征在于:对所述分数矢量进行归一化处理和差分运算计算如下:
一、对语音的得分进行归一化处理:
SVi=(1/Ci)·[P(xi1Σ1)P(xi2Σ2)…P(xiNΣN)]    (2)
其中Ci是归一化因子,取: C i = max n ( P ( x i | μ n Σ n ) ) , n = 1 . . . N ;
二、计算分数差分:
φ′(xi)=[(SVi1-SVi2)(SVi1-SVi3)…(SVi1-SViN),(SVi2-SVi3)(SVi2-SVi4)
…(SVi2-SViN),…,(SViN-1-SViN)]    (3)。
4.如权利要求1所述的基于分类器融合的汉语方言自动辨识方法,其特征在于:基于训练分类矢量训练SVM分类器中,采用ECOC算法对待分类别进行二值编码,以此作为类别的标签;在编码的过程中,要求码矩阵中每行每列的码字间要保持独立性和可分性;当3≤k≤7时,码本的最大长度应为2k-1-1维,其中k为类别数;编码规则为:首行为单位矢量,第二行码本的是由2k-2个0和2k-2个1交替组成,以此类推,第i行码本是由2k-i个0和2k-i个1交替组成;假设以4类问题为分类对象,便需要7维的码书来进行编码设计,行向量是ECOC算法针对每一类别的编码;根据码字矩阵中的列向量的类别标签设计分类器,得到f1,f2,…fn n≤2k-1-1;在测试过程中,该算法首先对输入语音按照f1,f2,…fn分类规则进行分类,然后根据分类结果对未知语音进行编码,设计出该语音的码书,最后将其与已知的类别码书相匹配。
CN2013104161737A 2013-09-12 2013-09-12 基于分类器融合的汉语方言自动辨识方法 Pending CN103474061A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013104161737A CN103474061A (zh) 2013-09-12 2013-09-12 基于分类器融合的汉语方言自动辨识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013104161737A CN103474061A (zh) 2013-09-12 2013-09-12 基于分类器融合的汉语方言自动辨识方法

Publications (1)

Publication Number Publication Date
CN103474061A true CN103474061A (zh) 2013-12-25

Family

ID=49798882

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013104161737A Pending CN103474061A (zh) 2013-09-12 2013-09-12 基于分类器融合的汉语方言自动辨识方法

Country Status (1)

Country Link
CN (1) CN103474061A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及***
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与***
CN105654102A (zh) * 2014-11-10 2016-06-08 富士通株式会社 数据处理装置及数据处理方法
CN105810191A (zh) * 2016-03-08 2016-07-27 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN107452379A (zh) * 2017-08-17 2017-12-08 广州腾猴科技有限公司 一种方言语言的识别技术及虚拟现实教学方法和***
CN108231063A (zh) * 2016-12-13 2018-06-29 ***通信有限公司研究院 一种语音控制指令的识别方法及装置
CN108461091A (zh) * 2018-03-14 2018-08-28 南京邮电大学 面向家居环境的智能哭声检测方法
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法
CN109461457A (zh) * 2018-12-24 2019-03-12 安徽师范大学 一种基于svm-gmm模型的语音识别方法
CN111179916A (zh) * 2019-12-31 2020-05-19 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置
CN113192491A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113673643A (zh) * 2021-08-19 2021-11-19 江苏农牧人电子商务股份有限公司 一种对农产品供货监管的方法和***
CN114360500A (zh) * 2021-09-14 2022-04-15 腾讯科技(深圳)有限公司 语音识别方法和装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
US20110196678A1 (en) * 2007-08-22 2011-08-11 Nec Corporation Speech recognition apparatus and speech recognition method
CN103077709A (zh) * 2012-12-28 2013-05-01 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
US20110196678A1 (en) * 2007-08-22 2011-08-11 Nec Corporation Speech recognition apparatus and speech recognition method
CN101894548A (zh) * 2010-06-23 2010-11-24 清华大学 一种用于语种识别的建模方法及装置
CN103077709A (zh) * 2012-12-28 2013-05-01 中国科学院声学研究所 一种基于共有鉴别性子空间映射的语种识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐颖: "语种识别声学建模方法研究", 《中国科学技术大学 硕士论文》 *
顾明亮 夏玉果 张长水;: "基于支撑矢量机的汉语方言辨识", 《计算机工程与应用》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036774A (zh) * 2014-06-20 2014-09-10 国家计算机网络与信息安全管理中心 藏语方言识别方法及***
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及***
CN105654102A (zh) * 2014-11-10 2016-06-08 富士通株式会社 数据处理装置及数据处理方法
CN104766607A (zh) * 2015-03-05 2015-07-08 广州视源电子科技股份有限公司 一种电视节目推荐方法与***
CN105810191B (zh) * 2016-03-08 2019-11-29 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN105810191A (zh) * 2016-03-08 2016-07-27 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
CN108231063A (zh) * 2016-12-13 2018-06-29 ***通信有限公司研究院 一种语音控制指令的识别方法及装置
CN107452379B (zh) * 2017-08-17 2021-01-05 广州腾猴科技有限公司 一种方言语言的识别方法及虚拟现实教学方法和***
CN107452379A (zh) * 2017-08-17 2017-12-08 广州腾猴科技有限公司 一种方言语言的识别技术及虚拟现实教学方法和***
CN108461091A (zh) * 2018-03-14 2018-08-28 南京邮电大学 面向家居环境的智能哭声检测方法
CN108877784A (zh) * 2018-09-05 2018-11-23 河海大学 一种基于口音识别的鲁棒语音识别方法
CN109461457A (zh) * 2018-12-24 2019-03-12 安徽师范大学 一种基于svm-gmm模型的语音识别方法
CN111179916A (zh) * 2019-12-31 2020-05-19 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置
CN111179916B (zh) * 2019-12-31 2023-10-13 广州市百果园信息技术有限公司 重打分模型训练方法、语音识别方法及相关装置
CN113192491A (zh) * 2021-04-28 2021-07-30 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113192491B (zh) * 2021-04-28 2024-05-03 平安科技(深圳)有限公司 声学模型生成方法、装置、计算机设备及存储介质
CN113673643A (zh) * 2021-08-19 2021-11-19 江苏农牧人电子商务股份有限公司 一种对农产品供货监管的方法和***
CN114360500A (zh) * 2021-09-14 2022-04-15 腾讯科技(深圳)有限公司 语音识别方法和装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103474061A (zh) 基于分类器融合的汉语方言自动辨识方法
CN103400577B (zh) 多语种语音识别的声学模型建立方法和装置
CN105244029B (zh) 语音识别后处理方法及***
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN105261367B (zh) 一种说话人识别方法
Shum et al. On the use of spectral and iterative methods for speaker diarization
CN106503805A (zh) 一种基于机器学习的双模态人人对话情感分析***及其方法
CN104200814B (zh) 基于语义细胞的语音情感识别方法
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其***
CN103177733A (zh) 汉语普通话儿化音发音质量评测方法与***
CN103578481B (zh) 一种跨语言的语音情感识别方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN105205124A (zh) 一种基于随机特征子空间的半监督文本情感分类方法
CN105912525A (zh) 基于主题特征的半监督学习情感分类方法
CN103077720A (zh) 一种说话人识别方法及***
Jarvis Data mining with learner corpora
DeMarco et al. Native accent classification via i-vectors and speaker compensation fusion.
Garg et al. Speech based Emotion Recognition based on hierarchical decision tree with SVM, BLG and SVR classifiers
CN109036454A (zh) 基于dnn的说话人无关单通道录音分离的方法和***
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN107885723A (zh) 对话角色区分方法和***
CN105095196A (zh) 文本中新词发现的方法和装置
CN111159332A (zh) 一种基于bert的文本多意图识别方法
Ma et al. Spoken language recognition using ensemble classifiers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131225