CN102074234B - 语音变异模型建立装置、方法及语音辨识***和方法 - Google Patents
语音变异模型建立装置、方法及语音辨识***和方法 Download PDFInfo
- Publication number
- CN102074234B CN102074234B CN2009102239213A CN200910223921A CN102074234B CN 102074234 B CN102074234 B CN 102074234B CN 2009102239213 A CN2009102239213 A CN 2009102239213A CN 200910223921 A CN200910223921 A CN 200910223921A CN 102074234 B CN102074234 B CN 102074234B
- Authority
- CN
- China
- Prior art keywords
- sound
- variation
- model
- voice
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000006243 chemical reaction Methods 0.000 claims abstract description 53
- 230000006870 function Effects 0.000 claims abstract description 43
- 239000000463 material Substances 0.000 claims description 70
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 7
- 241001672694 Citrus reticulata Species 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012850 discrimination method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音变异模型建立装置、方法及语音辨识***和方法,该语音模型建立装置包括:一语音语料数据库,用以记录一语言的至少一标准语音模型以及该语言的多个非标准语音语料;一语音变异验证器,用以验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异;一语音变异转换计算器,用以依据该等语音变异以及一语音变异转换函式,产生该语音变异转换函式所需的系数;以及一语音变异模型产生器,用以依据该语音变异转换函式及其系数、以及该至少一标准语音模型,产生至少一语音变异模型。本发明可解决未收集非标准语音语料即无法训练出语音变异模型的问题,并且能够判断并剔除无用的语音变异模型,提升整体语音辨识率。
Description
技术领域
本发明是有关于本发明关于语音变异模型建立的技术领域,还关于应用该语音变异模型以进行语音辨识的技术领域。
背景技术
一种语言往往随着地域、使用者的背景而存在各种不同的腔调。除此之外,某语言在受其他语言的影响下,往往又会产生新的腔调。举例而言,华语被闽南语影响而有“***语”(闽南语式华语,或简称“台湾腔”)、英文被中文影响而有“中式英语”等。这些相对某标准语言不标准的腔调即所谓的“语音变异”。然而,由于语音辨识装置通常无法对不标准的语音进行辨识,因此这些语音变异皆会使语音辨识装置的辨识率剧降。
虽然某些习知的语音辨识装置亦会建立“语音变异模型”而对不标准的语音进行辨识,但“语音变异模型”的建立必需依靠对这些不标准的腔调进行广泛而大量的收集始得以完成,相当耗费人力和时间,并且,有限的非标准语音语料仅能训练及建立出有限的语音变异模型,进而造成整体语音辨识率不佳。单一语言本身即可能具有各种语音变异,遑论全球近7000种语言又会彼此交错影响,要收集所有的变异语料几乎不可行。
因此,如何设计出一种语音变异模型建立方法或装置,使其能在少量收集非标准语音语料的情况下达成理想语音辨识率,实乃一重要课题。
发明内容
本发明提供一种语音变异模型建立装置,包括一语音语料数据库,用以记录一语言的至少一标准语音模型以及该语言的多个非标准语音语料,其中所述的语言的多个非标准语音语料是指所述的语言受到其他语言的影响所产生的新腔调;一语音变异验证器,用以验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异;一语音变异转换计算器,用以依据该等语音变异以及一语音变异转换函式,产生该语音变异转换函式所需的系数;以及一语音变异模型产生器,用以依据该语音变异转换函式及其系数、以及该至少一标准语音模型,产生至少一语音变异模型。
本发明另提供一种语音辨识***,包括:一语音输入装置,用以输入一语音;一种本发明前述的语音变异模型建立装置,用以产生至少一语音变异模型;一语音辨识装置,用以依据该至少一标准语音模型及该语音变异模型建立装置所产生的至少一语音变异模型,对该语音进行辨识。
本发明另提供一种语音变异模型建立方法。该语音变异模型建立方法包括:提供一语言的至少一标准语音模型以及该语言的多个非标准语音语料,其中所述的语言的多个非标准语音语料是指所述的语言受到其他语言的影响所产生的新腔调;验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异;依据该等语音变异以及一语音变异转换函式,产生该语音变异转换函式所需的系数;以及依据该语音变异转换函式及其系数、以及该至少一标准语音模型,产生至少一语音变异模型。
本发明另提供一种语音辨识方法。该语音辨识方法包括:经由一语音输入装置输入一语音;经由本发明前述的方法产生至少一语音变异模型;以及依据该至少一标准语音模型及所产生的至少一语音变异模型,对该语音进行辨识。
藉由执行本发明的方法,可减少非标准语音语料的收集,解决未收集非标准语音语料即无法训练出语音变异模型的问题,并且能够以鉴别方法来判断并剔除无用的语音变异模型,进而提升语音辨识装置或***的整体语音辨识率。
附图说明
图1为语音辨识装置示意图;
图2为前处理模块所执行的步骤流程图;
图3为声学模型训练模块所执行的步骤流程图;
图4为依照本发明一实施例的语音变异模型建立方法的流程图;
图5为步骤S406中验证出语音变异的示意图;
图6即依据本发明一实施例的语音辨识方法流程图;
图7为依据本发明一实施例的语音变异模型建立装置的方块图;
图8即依据本发明一实施例的语音辨识***示意图。
主要元件符号说明:
100 语音辨识装置;
110 前处理模块;
120 声学模型比对模块;
130 辨识结果解码模块;
140 声学模型训练模块;
150 语音辞典数据库;
160 语法规则数据库;
X0 标准语音模型;
X1 周边语音模型;
X2 周边语音模型;
X3 周边语音模型;
X4 周边语音模型;
X’ 非标准语音语料;
700 语音变异模型建立装置;
702 语音语料数据库;
706 语音变异验证器;
708 语音变异转换计算器;
710 语音变异模型产生器;
712 语音变异模型鉴别器;
722 标准语音模型;
724 非标准语音语料;
800 语音辨识***;
810 语音输入装置;
700 语音变异模型建立装置;
820 语音辨识装置;
830 辨识结果可能性计算器。
具体实施方式
下文为介绍本发明的最佳实施例。各实施例用以说明本发明的原理,但非用以限制本发明。本发明的范围当以后附的权利要求项为准。
图1为习知语音辨识装置示意图。语音辨识装置100包括前处理模块110、声学模型比对模块120、辨识结果解码模块130、声学模型训练模块140、语音辞典数据库150及语法规则数据库160。前处理模块110对输入的语音进行初步的处理之后,将处理过的语音输出至声学模型比对模块120。声学模型比对模块120接着将该处理过的语音与声学模型训练模块140训练出的声学模型进行比对,其中,举例而言,上述声学模型可为某语言的标准语音模型,或是非标准语音模型(即变异语音模型)。最后,辨识结果解码模块130参照语音辞典数据库150及语法规则数据库160而对声学模型比对模块120比对的结果进行语意辨识,进而产生最终辨识结果。举例而言,该辨识结果解码模块130所产生的最终辨识结果为一段可被理解的字串。
一般来说,若语音辨识装置100在输入语音之后以完整的语音档进行语音辨识,可经由一前处理模块110对输入的语音进行“前处理”。图2为前处理模块110所执行的步骤流程图。前处理程序200包括:接收语音类比信号输入S202、语音取样S204、语音切割S206、端点检测S208、预强调S210、乘上汉明窗S212、预强调S214、自相关系数求取S216、LPC参数求取S218、求取倒频谱系数S220、输出语音特征S222等步骤,用以在前处理程序S200执行后撷取出语音特征以供该声学模型比对模块120进行声学模型比对之用。
声学模型训练模块140可提供该声学模型比对模块120进行声学模型比对所需的比对基础。图3为声学模型训练模块140所执行的步骤流程图。声学模型训练流程300包括:收集语音语料S302(包括收集标准或非标准的语音语料)、模块初始化S304、利用维特比(Viterbi)演算法计算相似度S306、判断声学模型是否收敛S310。若步骤S310的结果为是,则进入最后步骤:建立声学模型S312;若结果为否,则重新评估S308。就辨识某语言而言,其所有的语音单元都要建立相对应的声学模型,而声学模型的建立,举例而言,可使用隐藏式马可夫模型(Hidden Makov Model,HMM),由于其非本发明的重点,故不再赘述。
声学模型作为与待辨识的语音进行比对的基础,因此,声学模型的建立在语音辨识中占有举足轻重的地位,而其中收集语音语料S302又是建立声学模型的基本步骤。而本发明的主要目的,为了减轻收集过多“变异”语音语料所产生的负担,提供一种***化自动扩增语音变异模型的装置及方法,其实施方式说明如后。
图4为依照本发明一实施例的语音变异模型建立方法的流程图。本发明的语音变异模型建立方法400包括:步骤S402,提供一语言的至少一标准语音模型;步骤S404,提供该语言的多个非标准语音语料;步骤S406,验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异;步骤S408,依据该等语音变异以及一语音变异转换函式,产生该语音变异转换函式所需的系数;步骤S410,依据该语音变异转换函式及其系数、以及该至少一标准语音模型,产生至少一语音变异模型;以及步骤S412,用以将所产生的该等语音变异模型中鉴别度低的语音变异模型予以剔除。为使上述发明易于理解,后文将以一实施例作更详尽的说明。
以建立华语的语音变异模型的作说明。在此实施例中,按照上述步骤S402提供“标准华语”的语音模型,其中该标准语音模型包括“标准华语”中所有语音单元的声学模型。之后,按照上述步骤S404提供多个的“***语”(闽南语式华语)语音语料。值得注意的是,本发明的目的即在于减少非标准语音语料的收集量,因此,此步骤不需提供所有“***语”的语音语料。
之后,本实施例进入步骤S406。此步骤可验证出该等有限的“***语”语料与“标准华语”发明模型间多个语音变异。简单地说,验证,指去“听取”一语音的语音是否标准。详细地说,验证的方法可藉由比较一待验证语料与另一标准语料在声学模型相似度关系而判断该待验证语料是否相对该标准语料发生变异。一般而言,语言可分类为多种语音特征,且标准语音模型及非标准语音语料皆可分别对应该等语音特征其中之一,因此本发明可利用对应至该标准语音模型的语音特征而对各个非标准语音语料进行验证。上述语音特征可应用国际语音字母(International Phonetic Alphabet,IPA),如下表1所示,但本发明不必以此为限:
《表1》
语音类别 | 中英文对照 |
有声破裂音(Voiced plosive) | B、D、G |
无声破裂音(Unvoiced plosive) | P、T、K |
摩擦音(Fricatives) | F、S、SH、H、X、V、TH、DH |
塞擦音(Affricatives) | Z、ZH、C、CH、J、Q、CH、JH |
鼻音(Nasals) | M、N、NG |
流音(Liquids) | R、L |
滑音(Glides) | W、Y |
前部母音(Front vowels) | I、ER、V、EI、IH、EH、AE |
中央母音(Central vowels) | ENG、AN、ANG、EN、AH、UH |
后部圆唇母音(Back rounded vowels) | O |
后部非圆唇母音(Back unrounded vowels) | A、U、OU、AI、AO、E、EE、OY、AW |
举例而言,验证的方法包括直接去计算该等非标准语音语料(“***语”语料)与该标准语音模型(“标准华语”语音模型)在语音特征参数上的差距,其中该语音特征参数可以是“梅尔修频谱参数”(MFCC,Mel-frequency cepstralcoefficient),而差距可以利用“欧氏距离”(Euclidean distance)或“马氏距离”(Mahalanobis Distance)作为判断基准。更详细地说,步骤406可藉由验证senone(音素解码状态的聚类结果称为“senone”)模型而找出待验证语料中语音变异的senone,公式如下:
Pverification(x)=log g(x|λcorrect)-log g(x|λanti-model)公式(1)
其中,当PVerification(x)<阀值,则x为可能语音变异。Pverification(x)为senonex语音正确的信心值;g为辨识记分函式;x为以senone为单位的语音资料;λcorrect为x的正确语音模型;λanti-model为与x正确语音模型最相似的语音模型集;N为所取与x正确语音模型最相似的语音模型集的模型数量。值得注意的是,在另一实施例中,被作为比较基准的语音模型不限于“标准语音模型”等。举例而言,如图5所示,若一实施例中在取得该语言的标准语音模型X0(例如:标准华语)之外又另取得该语言的多个其他周边语音模型X1~X4(例如:北京腔、上海腔、广东腔、湖南腔等),则步骤S406可进一步验证出该等非标准语音语料X’(台湾腔)分别与该标准语音模型X0(标准华语)与该等周边语音模型间X1~X4(北京腔、上海腔、广东腔、湖南腔)的多个语音变异。
之后,本实施例进入步骤S408,依据步骤406取得的语音变异和一语音变异转换函式以产生该语音变异转换函式所需的系数。可假设标准语音模型与非标准语音语料间为线性关系(y=ax+b)或是非线性关系(例如y=ax^2+bx+c),并利用回归或是EM演算法计算转换函式。正常发音的模型参数输入转换函式Y=AX+R,可获得发音变异的模型的参数。
举例而言,步骤S408可使用EM演算法而取得该语音变异转换函式,其公式如下:
以及;
bj(xt,yt)=bj(yt|xt)bj(xt)
公式(4-1~3)
其中,π为初始机率;a为状态转移机率;b为状态观测机率;q为状态变数;J为状态指标;t为时间指标;∑为变异数。EM演算法中包括E步骤及M步骤,其中E步骤中Q函式的求取如下所示:
O={X,Y}={x1,y1,...,xT,yT} 公式(7)
此外,M步骤中最大化Q函式的求取如下所示:
之后,本实施例进入步骤S410,依据该语音变异转换函式以及步骤S408取得的系数、以及该至少一标准语音模型,产生至少一语音变异模型(在本实施例中,即“***语”)。之后,本实施例进入步骤S412,将所产生的该等语音变异模型中鉴别度低的语音变异模型予以剔除。详细地说,当步骤S410所产生语音变异模型其中之一与其他语音变异模型之间的混淆程度为高时,判断该语音变异模型的鉴别性为低。或者,本发明亦可依据提供该多非标准语音语料、且使用该等所产生语音变异模型以进行语音辨识,当其中一语音变异模型的辨识结果的错误率为高时,判断该语音变异模型的鉴别性为低。此外,为了进行鉴别,本发明另可依据其所产生多个语音变异模型在机率空间中分布的距离,当其中一语音变异模型与其他语音变异模型的距离为小时,判断该语音变异模型的鉴别性为低。或者,本发明亦可依据对应该语言的多声学模型和所产生语音变异模型中最靠近模型之间的关系,验证该最靠近语音变异模型的鉴别性是否为低。
虽然上述的实施例中仅以单一语言(华语)作说明,但在一最佳实施例中,本发明更可对多个语言执行上述语音变异模型建立方法,进而产生多个跨语言语音变异模型,将本发明自动扩增语音变异模型的功效推广到极致。举例而言,在一实施例中,可依据上述步骤提供多个语言(例如:华语、英语、日语)的标准语音模型、并提供该等语言(例如:华语、英语、日语)的多个非标准语音语料(例如:中式英语、中式日语、英式华语、英式日语、日式华语、日式英语中至少一者)、验证出该等非标准语音语料与该标准语音模型间(在此实施例为:华语、英语、日语)的多个语音变异、依据该等语音变异以及多个语音变异转换函式产生该语音变异转换函式所需的系数、并依据该语音变异转换函式及其系数以及该等标准语音模型(在此实施例为:华语、英语、日语)产生多个语音变异模型(例如:中式英语、中式日语、英式华语、英式日语、日式华语、日式英语)。本发明所属技术领域中具有通常知识者可依据本发明的精神自行推广。
本发明的语音变异模型建立方法已于前文介绍完毕。此外,基于前述方法,本发明另提供一种语音辨识方法,图6即依据本发明一实施例的语音辨识方法流程图。本发明的语音辨识方法包括:执行前述的语音变异模型建立方法400而建立至少一语音变异模型、于步骤S610中经由一语音输入装置输入一语音、于步骤S620中依据该标准语音模型与该等语音变异模型对该语音进行辨识、以及于步骤S630中计算各语音变异模型下对该语音进行辨识而产生的各辨识结果的可能性机率值。在取得各辨识结果的可能性机率值之后,可取其中可能性机率值最高者作为辨识结果而输出。
上述发明不限于单一语言的各种腔调,亦可对多种语言的多种腔调进行辨识。本发明的方法包括提供多个语言,分别为该多个语言分别产生对应的多个语音变异模型;以及,依据该多种语言的至少一标准语音模型及其所建立的至少一语音变异模型,对该语音进行多语言的语音辨识。藉由使用本发明的方法,吾人在日常生活中夹杂多种语言、腔调的说话习惯亦不妨碍本发明对语音辨识的效果,熟悉本技艺人士可依据本发明的精神自行推广应用领域,本文将不再赘述。
除了上述语音变异模型建立方法、语音辨识方法之外,本发明又提供一种语音变异模型建立装置。图7为依据本发明一实施例的语音变异模型建立装置的方块图。本实施例中,语音变异模型建立装置700的各个元件分别用以执行前述语音变异模型建立方法的各个步骤S402~S412,分别叙述如下:语音变异模型建立装置700包括一语音语料数据库702、一语音变异验证器706、一语音变异转换计算器708、一语音变异模型产生器710以及一语音变异模型鉴别器712。其中该语音语料数据库722用以记录一语言的至少一标准语音模型722以及该语言的多个非标准语音语料724(对应步骤S402、S404);该语音变异验证器706用以验证出该等非标准语音语料与该至少一标准语音模型间的多个语音变异(对应步骤S406);该语音变异转换计算器708用以依据该等语音变异以及一语音变异转换函式,产生该语音变异转换函式所需的系数(对应步骤S408);该语音变异模型产生器410用以依据该语音变异转换函式及其系数、以及该至少一标准语音模型,产生至少一语音变异模型(对应步骤S410)。该语音变异模型鉴别器710用以将所产生的该等语音变异模型中鉴别度低的语音变异模型予以剔除(对应步骤S412)。本发明的语音变异模型建立装置700的详细实施方式、所利用的演算法皆可参照前述关于语音变异模型建立方法的实施例,本文不再赘述。
同样地,本发明的语音变异模型建立装置700不限于单一语言的多种腔调,其亦可运用于多种语言及多种腔调之上。举例而言,当语音变异模型建立装置700中的该语音语料数据库702记录了多个语言(例如华语、英语及日语)时,则语音变异模型产生器710可用以产生多个跨语言语音变异模型(例如:中式英语、中式日语、英式华语、英式日语、日式华语、日式英语)。
本发明的语音变异模型建立装置已于前文介绍完毕。此外,基于前述装置,本发明另提供一种语音辨识***,图8即依据本发明一实施例的语音辨识***示意图。本发明的语音辨识***800包括一语音输入装置810、如前述的语音变异模型建立装置700、一语音辨识装置820,以及一辨识结果可能性计算器830。该语音变异模型建立装置700,如同前述,可用以建立至少一语音变异模型,当该语音输入装置810在输入一语音之后,该语音辨识装置820即可依据该至少一标准语音模型及该语音变异模型建立装置所产生的至少一语音变异模型,对该语音进行辨识。之后,该辨识结果可能性计算器830可用以计算各语音变异模型下对该语音进行辨识而产生的各辨识结果的可能性机率值,在取得各辨识结果的可能性机率值之后,可取其中可能性机率值最高者作为辨识结果而输出。
藉由使用本发明的装置或方法,语音辨识的效能皆可大幅提升,以下提供一实验证明之。本实验目的在比较实施本发明与实施先前技术在语音辨识率上的差异。本发明包含下列四组实施方案:
方案1:仅在实施如本发明“语音变异模型建立方法”的步骤S402后,即对待测语音进行辨识。由于本方案未执行本发明方法的其他步骤S404~S412,故属于习知技术。在此方案中,步骤S402中的标准语音模型取自“中国台湾计算语言学学会台湾口音英语数据库”,内容为主修英语的学生口说英语共955句。待测语音为女性语音、录制清楚的英语声音档;
方案2:实施本发明的步骤S402、S404而不执行步骤S406~S412,之后对相同于方案1的待测语音进行辨识。方案2属于习知技术。在此方案中,步骤S402如同方案1,而步骤S404收集的非标准语音语料同样取自“中国台湾计算语言学学会台湾口音英语数据库”,内容为非主修英语的学生口说英语220句;
方案3:实施本发明的步骤S402、S404而不执行步骤S406~S412,之后对相同于方案1的待测语音进行辨识。方案3属于习知技术。在此方案中,步骤S402如同方案1,而步骤S404收集的非标准语音语料同样取自“中国台湾计算语言学学会台湾口音英语数据库”内容为非主修英语的学生口说英语660句;
方案4:实施本发明的所有步骤S402~S412,之后对相同于方案1的待测语音进行辨识。在此方案中,步骤S402如同方案1,而步骤S404收集的非标准语音语料同样取自“中国台湾计算语言学学会台湾口音英语数据库”,内容为非主修英语的学生口说英语220句。
上述实施结果如下表2所示:
《表2》
方案 | 1 | 2 | 3 | 4 |
产生语音变异模型的数量 | 0 | 39 | 39 | 52 |
辨识率 | 约23% | 约41% | 约52% | 约52% |
表2中“产生语音变异模型”类同本发明步骤S410的作用,但除方案4的语音变异模型依照本发明使用“语音变异转换函式”产生外,余皆依照习知技术产生。其中,由于方案1未收集任何非标准语音语料,故无法产生语音变异模型,使得其对不标准语音的辨识率不佳,进而影响整体语音辨识率。方案2为一般习知技术,其在收集非标准语音语料220句后一共产生语音变异模型共39个,辨识率约41%。方案3产生如同方案2数量的变音变异模型,但由于方案3相对方案2收集了更多的非标准语音语料(660句,方案2的三倍),故辨识率提升至52%。方案3的辨识率虽然堪称理想(习知技术的最佳辨识率约60%),但须收集大量非标准语音语料。方案4,由于实施本发明的步骤S412而使用本发明的鉴别方法,故相对方案2、3剔除了12个鉴别度较低的语音变异模型,并且,由于实施本发明步骤S406~S408的缘故,使得方案4在仅收集方案3三分之一量的非标准语音语料的情况下仍能达成相同的辨识率,并相对方案2有较高的辨识率。由上述提供的实验数据可知,经由执行本发明“语音变异模型建立方法”,可减少非标准语音语料的收集,解决未收集非标准语音语料即无法训练出语音变异模型的问题,并且能够以鉴别方法来判断并剔除无用的语音变异模型,进而提升语音辨识装置或***的整体语音辨识率。
本发明虽以较佳实施例揭露如上,然其并非用以限定本发明的范围,任何熟习此项技艺者,在不脱离本发明的精神和范围内,当可做些许的更动与润饰,因此本发明的保护范围当视权利要求所界定者为准。
Claims (20)
1.一种语音变异模型建立装置,其特征在于,所述的装置包括:
一语音语料数据库,用以记录一语言的至少一标准语音模型以及所述的语言的多个非标准语音语料,其中所述的语言的多个非标准语音语料是指所述的语言受到其他语言的影响所产生的新腔调;
一语音变异验证器,用以验证出所述的非标准语音语料与所述的至少一标准语音模型间的多个语音变异;
一语音变异转换计算器,用以依据所述的语音变异以及一语音变异转换函式,产生所述的语音变异转换函式所需的系数;以及
一语音变异模型产生器,用以依据所述的语音变异转换函式及其系数、以及所述的至少一标准语音模型,产生至少一语音变异模型。
2.如权利要求1所述的装置,其特征在于,所述的语言分类为多种语音特征,且所述的至少一标准语音模型及所述的多个非标准语音语料分别对应所述的多种语音特征其中之一。
3.如权利要求2所述的装置,其特征在于,所述的语音变异验证器验证对应同一语音特征的所述的非标准语音语料与所述的标准语音模型间的所述的多个语音变异;所述的语音变异转换计算器依据所述的语音特征的语音变异及对应所述的语音特征的语音变异转换函式,产生所述的语音变异转换函式所需的系数;以及,所述的语音变异模型产生器依据对应所述的语音特征的语音变异转换函式及其系数、以及所述的语音特征的至少一标准语音模型,产生所述的至少一语音变异模型。
4.如权利要求1所述的装置,其特征在于,所述的语音变异转换计算器,还包括用以依据所述的语音变异以及一语音变异转换函式,产生多组所述的语音变异转换函式的系数。
5.如权利要求1所述的装置,其特征在于,所述的装置还包括:
一语音变异模型鉴别器,用以将所产生的所述的语音变异模型中鉴别度低的语音变异模型予以剔除。
6.如权利要求1所述的装置,其特征在于,所述的语音语料数据库还记录了所述的语言的多个周边语音模型,而所述的语音变异验证器还包括用以验证出所述的非标准语音语料分别与所述的标准语音模型、所述的周边语音模型间的多个语音变异。
7.如权利要求1所述的装置,其特征在于,所述的语音语料数据库还记录了多个语言其个别的至少一标准语音模型及其对应的多个非标准语音语料;所述的语音变异验证器还包含用以分别验证出各语言的多个语音变异;语音变异转换计算器还包含分别为各语言产生对应的语音变异转换函式所需的系数;以及所述的语音变异模型产生器还包含用以分别为所述的多个语言分别产生对应的多个语音变异模型。
8.一种语音辨识***,其特征在于,所述的***包括:
一语音输入装置,用以输入一语音;
一种如权利要求1所述的语音变异模型建立装置;以及
一语音辨识装置,用以依据所述的至少一标准语音模型及所述的语音变异模型建立装置所产生的至少一语音变异模型,对所述的语音进行辨识。
9.如权利要求8所述的语音辨识***,其特征在于,所述的语音辨识***还包括:
一辨识结果可能性计算器,用以计算各语音变异模型下对所述的语音进行辨识而产生的各辨识结果的可能性机率值。
10.如权利要求8所述的语音辨识***,其特征在于,所述的语音变异模型建立装置的语音语料数据库还记录了多个语言,而所述的语音变异模型建立装置的语音变异模型产生器还用以分别为所述的多个语言分别产生对应的多个语音变异模型;以及,所述的语音辨识装置还用以依据所述的多种语言的至少一标准语音模型及其所建立的至少一语音变异模型,对所述的语音进行多语言的语音辨识。
11.一种语音变异模型建立方法,其特征在于,所述的方法包括以下步骤:
提供一语言的至少一标准语音模型以及所述的语言的多个非标准语音语料,其中所述的语言的多个非标准语音语料是指所述的语言受到其他语言的影响所产生的新腔调;
验证出所述的非标准语音语料与所述的至少一标准语音模型间的多个语音变异;
依据所述的语音变异以及一语音变异转换函式,产生所述的语音变异转换函式所需的系数;以及
依据所述的语音变异转换函式及其系数、以及所述的至少一标准语音模型,产生至少一语音变异模型。
12.如权利要求11所述的方法,其特征在于,所述的语言分类为多种语音特征,且所述的至少一标准语音模型及所述的多个非标准语音语料分别对应所述的多种语音特征其中之一。
13.如权利要求12所述的方法,其特征在于,所述的方法步骤中,验证对应同一语音特征的所述的非标准语音语料与所述的标准语音模型间的多个语音变异;依据所述的语音特征的语音变异及对应所述的语音发音特征的语音变异转换函式,产生所述的语音变异转换函式所需的系数;以及,依据对应所述的语音特征的语音变异转换函式及其系数、以及所述的语音特征的至少一标准语音模型,产生至少一语音变异模型。
14.如权利要求11所述的方法,其特征在于,所述的方法还包括依据所述的语音变异以及一语音变异转换函式,产生多组所述的语音变异转换函式的系数。
15.如权利要求11所述的方法,其特征在于,所述的方法还包括:将所产生的所述的语音变异模型中鉴别度低的语音变异模型予以剔除。
16.如权利要求11所述的方法,其特征在于,所述的方法还包括:提供所述的语言的多个周边语音模型,且验证出所述的非标准语音语料分别与所述的标准语音模型、所述的周边语音模型间的多个语音变异。
17.如权利要求11所述的方法,其特征在于,所述的方法还包括:提供多个语言其个别的至少一标准语音模型及其对应的多个非标准语音语料;分别验证出各语言的多个语音变异;分别为各语言产生对应的语音变异转换函式所需的系数;以及,分别为所述的多个语言分别产生对应的多个语音变异模型。
18.一种语音辨识方法,其特征在于,所述的语音辨识方法包括:
经由一语音输入器输入一语音;
经由如权利要求11所述的方法产生至少一语音变异模型;以及
依据所述的至少一标准语音模型及所产生的至少一语音变异模型,对所述的语音进行辨识。
19.如权利要求18所述的语音辨识方法,其特征在于,所述的方法还包括:
计算各语音变异模型下对所述的语音进行辨识而产生的各辨识结果的可能性机率值。
20.如权利要求18所述的语音辨识方法,其特征在于,所述的方法还包括:提供多个语言,分别为所述的多个语言分别产生对应的多个语音变异模型;以及,依据所述的多种语言的至少一标准语音模型及其所建立的至少一语音变异模型,对所述的语音进行多语言的语音辨识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102239213A CN102074234B (zh) | 2009-11-19 | 2009-11-19 | 语音变异模型建立装置、方法及语音辨识***和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102239213A CN102074234B (zh) | 2009-11-19 | 2009-11-19 | 语音变异模型建立装置、方法及语音辨识***和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102074234A CN102074234A (zh) | 2011-05-25 |
CN102074234B true CN102074234B (zh) | 2012-07-25 |
Family
ID=44032752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102239213A Expired - Fee Related CN102074234B (zh) | 2009-11-19 | 2009-11-19 | 语音变异模型建立装置、方法及语音辨识***和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102074234B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9235799B2 (en) | 2011-11-26 | 2016-01-12 | Microsoft Technology Licensing, Llc | Discriminative pretraining of deep neural networks |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9842585B2 (en) * | 2013-03-11 | 2017-12-12 | Microsoft Technology Licensing, Llc | Multilingual deep neural network |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10255907B2 (en) * | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
CN107274886B (zh) * | 2016-04-06 | 2021-10-15 | 中兴通讯股份有限公司 | 一种语音识别方法和装置 |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
TWI610294B (zh) | 2016-12-13 | 2018-01-01 | 財團法人工業技術研究院 | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
CN107248409A (zh) * | 2017-05-23 | 2017-10-13 | 四川欣意迈科技有限公司 | 一种方言语境的多语言翻译方法 |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11183193B1 (en) | 2020-05-11 | 2021-11-23 | Apple Inc. | Digital assistant hardware abstraction |
KR102560019B1 (ko) * | 2021-01-15 | 2023-07-27 | 네이버 주식회사 | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
-
2009
- 2009-11-19 CN CN2009102239213A patent/CN102074234B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101226743A (zh) * | 2007-12-05 | 2008-07-23 | 浙江大学 | 基于中性和情感声纹模型转换的说话人识别方法 |
CN101261832A (zh) * | 2008-04-21 | 2008-09-10 | 北京航空航天大学 | 汉语语音情感信息的提取及建模方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102074234A (zh) | 2011-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102074234B (zh) | 语音变异模型建立装置、方法及语音辨识***和方法 | |
TWI391915B (zh) | 語音變異模型建立裝置、方法及應用該裝置之語音辨識系統和方法 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
Wang et al. | An acoustic measure for word prominence in spontaneous speech | |
CN103177733A (zh) | 汉语普通话儿化音发音质量评测方法与*** | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
Singla et al. | Towards end-2-end learning for predicting behavior codes from spoken utterances in psychotherapy conversations | |
KR20090060631A (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
Dave et al. | Speech recognition: A review | |
Marasek et al. | System for automatic transcription of sessions of the Polish senate | |
Akila et al. | Isolated Tamil word speech recognition system using HTK | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Rasipuram et al. | Grapheme and multilingual posterior features for under-resourced speech recognition: a study on scottish gaelic | |
Hacioglu et al. | Parsing speech into articulatory events | |
Barman et al. | State of the art review of speech recognition using genetic algorithm | |
Zhang et al. | Reliable accent-specific unit generation with discriminative dynamic Gaussian mixture selection for multi-accent Chinese speech recognition | |
Cettolo et al. | Automatic detection of semantic boundaries based on acoustic and lexical knowledge. | |
Shen et al. | Model generation of accented speech using model transformation and verification for bilingual speech recognition | |
Gogoi et al. | Automatic tone recognition of Ao language | |
Pan et al. | Improvements in tone pronunciation scoring for strongly accented mandarin speech | |
Yeh et al. | Speech recognition with word fragment detection using prosody features for spontaneous speech | |
Nazir et al. | An Arabic mispronunciation detection system based on the frequency of mistakes for Asian speakers | |
Shahin et al. | Phonological Level wav2vec2-based Mispronunciation Detection and Diagnosis Method | |
Shafieian | Hidden Markov model and Persian speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120725 |