CN104766611A - 目标任务分布估计和声学模型自适应方法及*** - Google Patents

目标任务分布估计和声学模型自适应方法及*** Download PDF

Info

Publication number
CN104766611A
CN104766611A CN201410007278.1A CN201410007278A CN104766611A CN 104766611 A CN104766611 A CN 104766611A CN 201410007278 A CN201410007278 A CN 201410007278A CN 104766611 A CN104766611 A CN 104766611A
Authority
CN
China
Prior art keywords
data
distribution
goal task
low confidence
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410007278.1A
Other languages
English (en)
Inventor
贺志阳
吕萍
吴及
胡国平
胡郁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201410007278.1A priority Critical patent/CN104766611A/zh
Publication of CN104766611A publication Critical patent/CN104766611A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种目标任务分布估计和声学模型自适应方法及***,前者包括获取目标任务相应于候选语音识别结果数据集的分布,作为目标任务的覆盖度分布;获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果构成第一低置信度数据集;获取目标任务相应于第一低置信度数据集的分布,作为目标任务的混淆度分布;对覆盖度和混淆度分布进行融合,获得目标任务分布。本发明的方法及***基于候选语音识别结果数据集估计目标任务分布,具有时效性强、节省人力成本的优点,而且融合了基于识别效果较差的语音识别结果获取的目标任务的混淆度分布,可以有效提升整体语音识别***的性能。

Description

目标任务分布估计和声学模型自适应方法及***
技术领域
本发明涉及语音识别领域,尤其涉及一种面向任务的声学模型自适应方法及***。
背景技术
自20世纪90年代起,研究人员针对语音识别***中的声学模型提出了说话人自适应技术,如最大似然线性回归(MLLR)、最大后验概率(MAP)等,通过该技术,仅需采集少量说话人数据即可对原始声学模型(预先在大量通用数据上训练得到的说话人无关模型)进行优化调整,使得调整后的声学模型能够更加接近说话人特点,进而提高识别准确率。近年来,随着移动互联网和云计算的高速发展,语音识别技术更加普及,其应用环境也日趋复杂化,面向任务的声学模型自适应技术已成为新的研究热点。面向任务(指语音识别任务)的声学模型自适应技术针对具体的识别应用对声学模型参数进行自适应调整,使得调整后的声学模型参数与语音识别任务更加匹配进而获得更好的识别性能。传统的针对具体说话人的说话人自适应技术已不能满足应用的需求。
传统的面向语音识别任务的声学模型自适应方法包括如下步骤:
步骤A:统计具体语音识别任务中基本语音单元的出现频率作为目标任务分布;其中的基本语音单元通常为音节单元、音素单元等基本识别单元。在统计基本语音单元的分布时,***通常根据任务相关的人工标注训练数据(即对语音识别任务进行人工识别的结果数据)或者任务相关的语音识别结果数据(即***对语音识别任务进行识别的结果数据)进行统计,统计各基本语音单元在上述数据中的出现频率作为目标任务分布。
步骤B:根据所述目标任务分布从任务相关的人工标注训练数据或者任务相关的语音识别结果数据中挑选自适应数据,使自适应数据的分布与目标任务分布一致。
在步骤B中,通过基于KL距离(Kullback-Leibler Divergence)通过贪心算法挑选该自适应数据,具体步骤如下:
步骤B1:将任务相关的人工标注训练数据或者任务相关的语音识别结果数据作为备选数据集合,设定已挑选数据集为空集,并设定挑选数据量。
步骤B2:依次考察备选数据集合中的每一个数据,其中,考察当前数据的方法为:将当前数据放入已挑选数据集合,计算已挑选数据集合的分布与目标任务分布的KL距离,之后恢复已挑选数据集合。
步骤B3:选择步骤B2中使得新的已挑选数据集合与目标任务分布的KL距离最小的数据作为本次的挑选对象,将该数据放入已挑选数据集合,并从备选数据集合中删除该数据。
步骤B4:判断已挑选数据集中的数据量是否达到设定的挑选数据量,如果达到,则退出挑选步骤,否则,继续执行步骤B2。
步三:对步骤B中挑选的自适应数据进行人工标注修正;如果备选数据集合来源于任务相关的语音识别结果数据,那么为了保证自适应数据的正确性还需要对所挑选的自适应数据进行人工标注修正,如果备选数据集合来源于任务相关的人工标注训练数据,则省略步骤三。
步四:利用所挑选的自适应数据对原有声学模型进行模型参数的自适应调整,获取优化的声学模型。
由此可见,以上传统的面向语音识别任务的声学模型自适应方法主要基于语音单元分布一致性的原则挑选自适应数据,该种方法的实现简单直接,且取得了一定的成果,但在实际应用中依然存在以下缺陷:
1.计算目标任务分布存在一定的不确定性,比如:传统方法挑选的自适应数据仅考虑自适应数据具有和具体任务一致的语音单元数据覆盖度,而语音识别***性能的提升需要重点提高原***中识别效果较差的语音单元识别情况,因而在保证数据平衡的条件下合理关注识别较差的语音单元的数据对提高***性能有实际意义。
2.传统的基于任务相关的人工标注训练数据的覆盖度分析存在一定的问题,一方面要估计较为准确的数据分布需要较大量的人工标注数据,另一个方面人工标注数据往往不是时效性很强的数据,使用这些数据估计的分布难以真实反映当前***中的数据分布情况。
3.传统的基于语音识别结果数据的覆盖度分布,虽然可以保证分布的时效性,但是由于语音识别结果往往有误,据此获得的分布估计也并不准确。
4.所挑选的自适应数据不一定满足应用需求,这体现在传统的任务自适应方法如果基于人工标注数据进行数据挑选,那么在人工标注的数据量方面存在一定的问题,如果人工标注的数据量不充足,则难以保证达到挑选的自适应数据的分布与估计的数据分布尽可能的接近的目标,而如果要达到这样的目标,就需要大量的人工标注数据作为挑选的备选数据,这需要消耗大量的人力标注资源;传统的任务自适应方法如果基于语音识别结果数据进行数据挑选,那么由于识别结果有误,挑选的数据集的数据分布很可能与估计的目标分布有较大差距。
基于上述分析,传统的任务声学模型自适应都有可能造成最终的任务自适应的效果不佳。对此本案提出了一种新的面向任务的自适应方法,提出了一种新的目标任务分布估计准则和方法,通过更加准确有效地估计语音单元分布及高效的数据挑选,提高自适应识别***的识别性能。
发明内容
本发明的一个目的在于克服现有技术中的不足,提供了一种更加准确有效的目标任务分布估计方法。
为实现上述目的,本发明采用的技术方案为:一种目标任务分布估计方法,包括:
获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;
获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的混淆度分布;
对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
优选的是,所述获取所述目标任务相应于候选语音识别结果数据集的分布包括:
将所述目标任务分解为各语音单元;
计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;
获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应于候选语音识别结果数据集的分布。
优选的是,所述获取所述目标任务相应于所述第一低置信度数据集的分布包括;
计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率;
获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应于所述第一低置信度数据集的分布。
优选的是,所述对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布包括:
对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单元的融合出现频率;
获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
本发明的第二个目的是基于上述目标任务分布估计方法,提供一种更加准确有效的声学模型自适应方法。
本发明采用的技术方案为:一种声学模型自适应方法,包括:
利用上述任一项目标任务分布估计方法获取目标任务分布;
从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近;
利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
优选的是,所述从候选语音识别结果数据中挑选自适应数据包括:
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;
从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;
对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;
从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
优选的是,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近包括:
将所述低置信度数据作为所述目标任务获取所述低置信度数据的分布。
优选的是,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
优选的是,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近包括:
获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适应数据的分布。
优选的是,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
本发明的第三个目的是提供了一种更加准确有效的目标任务分布估计***。
本发明采用的技术方案为:一种目标任务分布估计***,包括:
覆盖度分布获取模块,用于获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;
第一低置信度数据集获取模块,用于获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;
混淆度分布获取模块,用于获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的混淆度分布;以及,
目标任务分布获取模块,用于对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
优选的是,所述覆盖度分布获取模块包括:
分解单元,用于将所述目标任务分解为各语音单元;
第一出现频率计算单元,用于计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;以及,
覆盖度分布统计单元,用于获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应于候选语音识别结果数据集的分布。
优选的是,所述混淆度分布获取模块包括:
所述分解单元;
第二出现频率计算单元,用于计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率;以及,
混淆度分布统计单元,用于获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应于所述第一低置信度数据集的分布。
优选的是,所述目标任务分布获取模块包括:
融合单元,用于对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单元的融合出现频率;
目标任务分布统计单元,用于获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
本发明的第四个目的是提供一种更加准确有效的声学模型自适应***。
本发明采用的技术方案为:一种声学模型自适应***,包括:
上述任一种目标任务分布估计***,用于获取目标任务分布;
自适应数据挑选模块,用于从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近;以及,
声学模型优化模块,用于利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
优选的是,所述自适应数据挑选模块包括:
第二低置信度数据集获取单元,用于获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;
低置信度数据挑选单元,用于从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;
人工标注单元,用于对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;
高置信度数据挑选单元,用于从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
优选的是,所述低置信度数据挑选单元用于将所述低置信度数据作为所述目标任务输入至所述目标任务分布估计***,以获取所述低置信度数据的分布。
优选的是,所述低置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
优选的是,所述高置信度数据挑选单元用于获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适应数据的分布。
优选的是,所述高置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
本发明的有益效果在于,首先,本发明的目标任务分布估计和声学模型自适应方法及***基于候选语音识别结果数据集估计目标任务分布,并非基于人工标注训练数据进行,所以具有时效性强、节省人力成本的优点;再者,本发明的目标任务分布估计方法及***融合了基于识别效果较差的语音识别结果获取的目标任务的混淆度分布,可以有效提升整体语音识别***的性能;最后,本发明的声学模型自适应方法及***通过采用挑选低置信度数据进行人工标注及挑选高置信度数据进行补充的方式实现自适应数据的高效挑选。
附图说明
图1示出了根据本发明所述目标任务分布估计方法的一种实施方式的流程图;
图2示出了根据本发明所述声学模型自适应方法中自适应数据挑选的一种实施方式的流程图;
图3示出了图2中挑选低置信度数据的一种实施方式的流程图;
图4示出了图2中挑选高置信度数据作为补充的一种实施方式的流程图;
图5示出了根据本发明所述目标任务分布估计***的一种实施结构的方框原理图;
图6示出了根据本发明所述声学模型自适应***的一种实施结构的方框原理图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
如图1所示,本发明的目标任务分布估计方法包括:
步骤S1:获取目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;在此,语音识别结果针对具体的目标任务会识别出多个语音识别结果,语音识别***将从这些语音识别结果作中选出置信度最高的一个语音识别结果输出,选择输出的语音识别结果也被称为是1-Best语音识别结果,由所有1-Best语音识别结果构成的集合则被称为是首选语音识别结果数据集,现有技术中即是基于首选语音识别结果数据集获得目标任务分布;其中的候选语音识别结果数据集即为语音识别***中存储的由N-Best语音识别结果构成的数据集,针对某一目标任务的N-Best语音识别结果通常为语音识别***所获得的所有语音识别结果,当然,该N-Best语音识别结果也可以是置信度高于设定阈值的所有识别结果,或者是按置信度从高至低排序位于前N个的语音识别结果。
步骤S21:获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;该第一置信度门限值可根据实际应用场合(即具体的语音识别任务)选择,在此,如果语音识别结果整体置信度偏低,则可选择较小的第一置信度门限值,如果语音识别结果整体置信度偏高,则可选择较大的第一置信度门限值,通常情况下,第一置信度门限值在0.5~0.8的范围内选择。
步骤S22:获取目标任务相应于第一低置信度数据集的分布,作为所述目标任务的混淆度分布。
步骤S3:对目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布。
上述步骤S1中获取目标任务相应于候选语音识别结果数据集的分布可具体包括:
步骤S11:将目标任务分解为各语音单元,该语音单元可以是音节、音素,也可以是一个词。
步骤S12:计算语音单元在候选语音识别结果数据集的各语音识别结果中的出现频率,作为语音单元的第一出现频率;其中,第j个语音单元wj的第一出现频率的计算方法可为:
其中,ui是候选语音识别结果数据集中的第i个语音识别结果,|U|是候选语音识别结果数据集中语音识别结果的数目,PP(wj|ui)是语音单元wj在第i个语音识别结果中出现的后验概率。
步骤S13:获取目标任务中所有语音单元的上述第一出现频率作为目标任务相应于候选语音识别结果数据集的分布,即将第一出现频率的集合作为目标任务的覆盖度分布。
当然,本发明的目标任务分布估计方法也适用于基于其他概率统计方法获得的目标任务相应于候选语音识别结果数据集的分布。
同理,上述步骤S22中,获取所述目标任务相应于所述第一低置信度数据集的分布可具体包括:
步骤S221:计算语音单元在第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率。
步骤S222:获取目标任务中所有语音单元的所述第二出现频率,作为目标任务相应于第一低置信度数据集的分布。
步骤S221和步骤S222可通过以下公式表示:
P Con TD ( w j ) = Σ i = 1 | U | PP ( w j | w i ) × δ ( CM ( u i ) ≤ TH c ) Σ i = 1 | U | δ ( CM ( u i ) ≤ TH c ) , 其中,为第j个语音单元wj的第二出现频率,δ(CM(ui)≤THc)是一个示性函数,当CM(ui)≤THc为真时函数值为1,否则函数值为0,CM(ui)为第i个语音识别结果对应的首选识别结果的置信度,THc为上述第一置信度门限值,即在计算过程中通过示性函数δ(CM(ui)≤THc)选取第一低置信度数据集。
在上述实施例的基础上,上述步骤S3中对目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布具体包括:
步骤S31:对语音单元wj的第一出现频率和第二出现频率进行线性加权,获得语音单元wj的融合出现频率PTD(wj),具体公式为:
P TD ( w j ) = α × P Occ TD ( w j ) + ( 1 - α ) × P Con TD ( w j ) , 其中,α为加权系数,α取值范围为(0,1),在侧重覆盖度分布的应用场合下,α取值范围为[0.5,1),在侧重混淆度分布的应用场合下,α取值范围为(0,0.5]。
步骤S32:获取目标任务中所有语音单元的融合出现频率PTD(wj)作为目标任务分布。
在上述目标任务分布估计方法的基础上,本发明的声学模型自适应方法,包括:
步骤S1:获取目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布。
步骤S21:获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集。
步骤S22:获取目标任务相应于第一低置信度数据集的分布,作为所述目标任务的混淆度分布。
步骤S3:对目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布。
步骤S4:从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近。
步骤S5:利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
本发明还针对上述步骤S4提供一种高效的自适应数据挑选方法,具体如图2所示,步骤S4中从候选语音识别结果数据中挑选自适应数据包括:
步骤S41:获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;在此,该第二置信度门限值的选取原则及通常情况下的选取范围与第一置信度门限值相同,但二者并无关联性,也即第一和第二置信度门限值的取值并不分别受限于第二和第一置信度门限值的取值。
步骤S42:从第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与步骤S3中获得的目标任务分布最接近。
步骤S43:对低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据。
步骤S44:从首选语音识别结果数据集中补充挑选另一部分自适应数据,使自适应数据的分布与步骤S3中获得的目标任务分布最接近。在此,由于首选语音识别结果具有较高的置信度,因此可以直接利用无需进行人工标注。
由此可见,本发明将在步骤S43中获得的进行人工标注的低置信度数据和步骤S44中获得的另一部分自适应数据(即高置信度数据)一起进行声学模型的任务自适应,该种方法所需的人工标注数据量较少,而且也可以使得挑选出的自适应数据尽可能的接近目标任务分布。挑选的低置信度数据和高置信度数据的绝对数量可以根据具体的语音识别任务和可利用的标注人力而定,二者之间的相对比例通常可控制在1:10至1:20。
为了提高获取的低置信度数据的分布的准确有效性,步骤S42中从第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近可具体为:将低置信度数据作为目标任务获取所述低置信度数据的分布,即按照获取目标任务分布的方法通过融合覆盖度分布和混淆度分布的方式得到低置信度数据的分布。
另外,步骤S42中从第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近可采用传统的基于KL距离通过贪心算法进行,具体步骤如图3所示,包括:
步骤S421:将已挑选数据集设置为空集,之后执行步骤S422。
步骤S422:判断已挑选数据集中的数据量是否达到预设的低置信度数据量,如否则执行步骤S423,如是则执行步骤S427。
步骤S423:判断是否已遍历备选数据集中的所有语音识别结果,如否则执行步骤S424,如是则执行步骤S426。
步骤S424:从备选数据集中选择下一语音识别结果放入已挑选数据集中,之后执行步骤S425。
步骤S425:计算并记录已挑选数据集的分布与目标任务分布的KL距离,之后恢复已挑选数据集,再执行步骤S423。
步骤S426:选择使得KL距离最小的语音识别结果作为本次挑选数据,放入已挑选数据集中,之后执行步骤S422。
步骤S427:结束数据挑选,输出已挑选数据集,该已挑选数据集中的数据即为挑选出的低置信度数据。
本发明在步骤S44中从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近可通过获取自适应数据相应于首选语音识别结果数据集的分布作为自适应数据的分布,即按照传统方法获得自适应数据的分布。
同理,步骤S44中从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近也可基于KL距离通过贪心算法进行,具体步骤如图4所示,包括:
步骤S441:设置已挑选数据集由步骤S43中获得的进行人工标注的低置信度数据构成,备选数据集为首选语音识别结果数据集,之后执行步骤S442。
步骤S442:判断已挑选数据集中的数据量是否达到预设的高置信度数据量,如否则执行步骤S443,如是则执行步骤S447。
步骤S443:判断是否已遍历备选数据集中的所有语音识别结果,如否则执行步骤S444,如是则执行步骤S446。
步骤S444:从备选数据集中选择下一语音识别结果放入已挑选数据集中,之后执行步骤S445。
步骤S445:计算并记录已挑选数据集的分布与目标任务分布的KL距离,之后恢复已挑选数据集,再执行步骤S443。
步骤S446:选择使得KL距离最小的语音识别结果作为本次挑选数据,放入已挑选数据集中,之后执行步骤S442。
步骤S447:结束数据挑选,输出已挑选数据集,该已挑选数据集中的数据即为挑选出的自适应数据。
与上述目标任务分布估计方法相对应,如图5所示,本发明的目标任务估计***包括覆盖度分布获取模块1、第一低置信度数据集获取模块2、混淆度分布获取模块3和目标任务分布获取模块4,该覆盖度分布获取模块1用于获取目标任务相应于候选语音识别结果数据集的分布,作为目标任务的覆盖度分布;该第一低置信度数据集获取模块2用于获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;该混淆度分布获取模块3用于获取目标任务相应于第一低置信度数据集的分布,作为目标任务的混淆度分布;该目标任务分布获取模块4用于对所述目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布。
该覆盖度分布获取模块可进一步包括分解单元、第一出现频率计算单元和覆盖度分布统计单元,该分解单元用于将目标任务分解为各语音单元;该第一出现频率计算单元用于计算语音单元在候选语音识别结果数据集的各语音识别结果中的出现频率,作为语音单元的第一出现频率;该覆盖度分布统计单元用于获取目标任务中所有语音单元的第一出现频率,作为目标任务相应于候选语音识别结果数据集的分布。
同理,该混淆度分布获取模块可进一步包括上述分解单元、第二出现频率计算单元和混淆度分布统计单元,该第二出现频率计算单元用于计算语音单元在第一低置信度数据集的各语音识别结果中的出现频率,作为语音单元的第二出现频率;该混淆度分布统计单元用于获取目标任务中所有语音单元的所述第二出现频率,作为目标任务相应于第一低置信度数据集的分布。
基于覆盖度分布获取模块和混淆度分布获取模块的具体结构,该目标任务分布获取模块可进一步包括融合单元和目标任务分布统计单元,该融合单元用于对语音单元的第一出现频率和第二出现频率进行线性加权,获得语音单元的融合出现频率;该目标任务分布统计单元用于获取所述目标任务中所有语音单元的融合出现频率作为目标任务分布输出。
在上述目标任务分布估计***的基础上,如图6所示,本发明的声学模型自适应***包括覆盖度分布获取模块1、第一低置信度数据集获取模块2、混淆度分布获取模块3、目标任务分布获取模块4、自适应数据挑选模块5和声学模型优化模块6,该覆盖度分布获取模块1用于获取目标任务相应于候选语音识别结果数据集的分布,作为目标任务的覆盖度分布;该第一低置信度数据集获取模块2用于获取候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;该混淆度分布获取模块3用于获取目标任务相应于第一低置信度数据集的分布,作为目标任务的混淆度分布;该目标任务分布获取模块4用于对所述目标任务的覆盖度分布和混淆度分布进行融合,获得目标任务分布;该自适应数据挑选模块5用于从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与目标任务分布最接近;该声学模型优化模块6用于利用自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
该自适应数据挑选模块可进一步包括第二低置信度数据集获取单元、低置信度数据挑选单元、人工标注单元和高置信度数据挑选单元,该第二低置信度数据集获取单元用于获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;该低置信度数据挑选单元用于从第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;该人工标注单元用于对低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;该高置信度数据挑选单元用于从首选语音识别结果数据集中补充挑选另一部分自适应数据,使自适应数据的分布与所述目标任务分布最接近。
上述低置信度数据挑选单元可用于将低置信度数据作为目标任务输入至目标任务分布估计***中,以获取所述低置信度数据的分布。进一步地,该低置信度数据挑选单元可用于基于KL距离通过贪心算法挑选低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
上述高置信度数据挑选单元可用于获取自适应数据相应于首选语音识别结果数据集的分布作为自适应数据的分布。进一步地,该高置信度数据挑选单元可用于基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,以上所述仅为本发明的较佳实施例,但本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。

Claims (20)

1.一种目标任务分布估计方法,其特征在于,包括:
获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;
获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的混淆度分布;
对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
2.根据权利要求1所述的目标任务分布估计方法,其特征在于,所述获取所述目标任务相应于候选语音识别结果数据集的分布包括:
将所述目标任务分解为各语音单元;
计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;
获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应于候选语音识别结果数据集的分布。
3.根据权利要求2所述的目标任务分布估计方法,其特征在于,所述获取所述目标任务相应于所述第一低置信度数据集的分布包括;
计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率;
获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应于所述第一低置信度数据集的分布。
4.根据权利要求3所述的目标任务分布估计方法,其特征在于,所述对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布包括:
对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单元的融合出现频率;
获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
5.一种声学模型自适应方法,其特征在于,包括:
根据权利要求1至4中任一项所述的目标任务分布估计方法获取目标任务分布;
从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近;
利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
6.根据权利要求5所述的声学模型自适应方法,其特征在于,所述从候选语音识别结果数据中挑选自适应数据包括:
获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;
从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;
对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;
从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
7.根据权利要求6所述的声学模型自适应方法,其特征在于,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近包括:
将所述低置信度数据作为所述目标任务获取所述低置信度数据的分布。
8.根据权利要求7所述的声学模型自适应方法,其特征在于,从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
9.根据权利要求6所述的声学模型自适应方法,其特征在于,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近包括:
获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适应数据的分布。
10.根据权利要求9所述的声学模型自适应方法,其特征在于,从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近还包括:
基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
11.一种目标任务分布估计***,其特征在于,包括:
覆盖度分布获取模块,用于获取所述目标任务相应于候选语音识别结果数据集的分布,作为所述目标任务的覆盖度分布;
第一低置信度数据集获取模块,用于获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第一置信度门限值的语音识别结果,构成第一低置信度数据集;
混淆度分布获取模块,用于获取所述目标任务相应于所述第一低置信度数据集的分布,作为所述目标任务的混淆度分布;以及,
目标任务分布获取模块,用于对所述目标任务的覆盖度分布和混淆度分布进行融合,获得所述目标任务分布。
12.根据权利要求11所述的目标任务分布估计***,其特征在于,所述覆盖度分布获取模块包括:
分解单元,用于将所述目标任务分解为各语音单元;
第一出现频率计算单元,用于计算所述语音单元在所述候选语音识别结果数据集的各语音识别结果中的出现频率,作为所述语音单元的第一出现频率;以及,
覆盖度分布统计单元,用于获取所述目标任务中所有语音单元的所述第一出现频率,作为所述目标任务相应于候选语音识别结果数据集的分布。
13.根据权利要求12所述的目标任务分布估计***,其特征在于,所述混淆度分布获取模块包括:
所述分解单元;
第二出现频率计算单元,用于计算所述语音单元在所述第一低置信度数据集的各语音识别结果中的出现频率,作为所述语音单元的第二出现频率;以及,
混淆度分布统计单元,用于获取所述目标任务中所有语音单元的所述第二出现频率,作为所述目标任务相应于所述第一低置信度数据集的分布。
14.根据权利要求13所述的目标任务分布估计***,其特征在于,所述目标任务分布获取模块包括:
融合单元,用于对所述语音单元的第一出现频率和第二出现频率进行线性加权,获得所述语音单元的融合出现频率;
目标任务分布统计单元,用于获取所述目标任务中所有语音单元的融合出现频率作为所述目标任务分布。
15.一种声学模型自适应***,其特征在于,包括:
根据权利要求11至14中任一项所述的目标任务分布估计***,用于获取目标任务分布;
自适应数据挑选模块,用于从候选语音识别结果数据中挑选自适应数据,使自适应数据的分布与所述目标任务分布最接近;以及,
声学模型优化模块,用于利用所述自适应数据对当前声学模型进行模型参数的自适应调整,获取优化的声学模型。
16.根据权利要求15所述的声学模型自适应***,其特征在于,所述自适应数据挑选模块包括:
第二低置信度数据集获取单元,用于获取所述候选语音识别结果数据集中首选语音识别结果的置信度小于等于第二置信度门限值的语音识别结果,构成第二低置信度数据集;
低置信度数据挑选单元,用于从所述第二低置信度数据集中挑选低置信度数据,使低置信度数据的分布与所述目标任务分布最接近;
人工标注单元,用于对所述低置信度数据进行人工标注,使进行人工标注的低置信度数据成为一部分自适应数据;
高置信度数据挑选单元,用于从首选语音识别结果数据集中补充挑选另一部分自适应数据,使所述自适应数据的分布与所述目标任务分布最接近。
17.根据权利要求16所述的声学模型自适应***,其特征在于,所述低置信度数据挑选单元用于将所述低置信度数据作为所述目标任务输入至所述目标任务分布估计***,以获取所述低置信度数据的分布。
18.根据权利要求17所述的声学模型自适应***,其特征在于,所述低置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述低置信度数据,其中初始的已挑选数据集为空集,备选数据集为第二低置信度数据集。
19.根据权利要求16所述的声学模型自适应***,其特征在于,所述高置信度数据挑选单元用于获取所述自适应数据相应于所述首选语音识别结果数据集的分布作为所述自适应数据的分布。
20.根据权利要求19所述的声学模型自适应***,其特征在于,所述高置信度数据挑选单元用于基于KL距离通过贪心算法挑选所述另一部分自适应数据,其中,初始的已挑选数据集由所述进行人工标注的低置信度数据构成,备选数据集为所述首选语音识别结果数据集。
CN201410007278.1A 2014-01-07 2014-01-07 目标任务分布估计和声学模型自适应方法及*** Pending CN104766611A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410007278.1A CN104766611A (zh) 2014-01-07 2014-01-07 目标任务分布估计和声学模型自适应方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410007278.1A CN104766611A (zh) 2014-01-07 2014-01-07 目标任务分布估计和声学模型自适应方法及***

Publications (1)

Publication Number Publication Date
CN104766611A true CN104766611A (zh) 2015-07-08

Family

ID=53648394

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410007278.1A Pending CN104766611A (zh) 2014-01-07 2014-01-07 目标任务分布估计和声学模型自适应方法及***

Country Status (1)

Country Link
CN (1) CN104766611A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735199A (zh) * 2018-04-17 2018-11-02 北京声智科技有限公司 一种声学模型的自适应训练方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101315733A (zh) * 2008-07-17 2008-12-03 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习***发音评测的自适应方法
CN101464896A (zh) * 2009-01-23 2009-06-24 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
KR20110010233A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US20130054224A1 (en) * 2011-08-30 2013-02-28 Dublin City University Method and system for enhancing text alignment between a source language and a target language during statistical machine translation

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178896A (zh) * 2007-12-06 2008-05-14 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法
CN101315733A (zh) * 2008-07-17 2008-12-03 安徽科大讯飞信息科技股份有限公司 一种针对计算机语言学习***发音评测的自适应方法
CN101464896A (zh) * 2009-01-23 2009-06-24 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
KR20110010233A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US20130054224A1 (en) * 2011-08-30 2013-02-28 Dublin City University Method and system for enhancing text alignment between a source language and a target language during statistical machine translation

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JI WU ET AL.: "《An Active Learning Approach to Task Adaptation》", 《12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION》 *
XIAODONG CUI ET AL.: "《Efficient adaptation text design based on the Kullback-Leibler measure》", 《ACOUSTICS,SPEECH,AND SIGNAL PROCESSING(ICASSP 2002)》 *
Z.H.HE ET AL.: "《A Combined Task Analysis Method for Data Selection in Mandarin Isolated Word Recognition System》", 《INTERNATIONAL SYMPOSIUM ON CHINESE SPOKEN LANGUAGE PROCESSING(ISCSLP 2008)》 *
贺志阳等: "《基于任务分析的自适应数据挑选》", 《第十届全国人机语音通讯学术会议暨国际语音语言处理研讨会》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108735199A (zh) * 2018-04-17 2018-11-02 北京声智科技有限公司 一种声学模型的自适应训练方法及***
CN108735199B (zh) * 2018-04-17 2021-05-28 北京声智科技有限公司 一种声学模型的自适应训练方法及***

Similar Documents

Publication Publication Date Title
CN110443288B (zh) 一种基于排序学习的轨迹相似性计算方法
EP1679694B1 (en) Confidence score for a spoken dialog system
CN103674012B (zh) 语音定制方法及其装置、语音识别方法及其装置
JP4245617B2 (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
CN103295575B (zh) 一种语音识别方法和客户端
CN106653031A (zh) 语音唤醒方法及语音交互装置
CN103177721B (zh) 语音识别方法和***
CN103594085B (zh) 一种提供语音识别结果的方法及***
US7660589B2 (en) Method for determining mobile communication terminal user's point of interest and apparatus for providing geographic information using the method
CN106157953A (zh) 连续语音识别方法及***
EP1482469A3 (en) System, method and device for language education through a voice portal server
CN101710490A (zh) 语音评测的噪声补偿方法及装置
WO2008089362B1 (en) Point of reference directions
CN109916423A (zh) 智能导航设备及其路线规划方法、及无人驾驶车辆
CN105225665A (zh) 一种语音识别方法及语音识别装置
CN104599002B (zh) 预测订单价值的方法及设备
CN108197669B (zh) 卷积神经网络的特征训练方法及装置
CN104485108A (zh) 一种基于多说话人模型的噪声与说话人联合补偿方法
CN105824979A (zh) 课程推荐方法及其***
CN102467542A (zh) 获取用户相似度的方法、装置及用户推荐方法、***
CN110807358A (zh) 基于周边信息的大数据定位校验***
WO2009102526A4 (en) Methods for the identification of bubble point pressure
CN104766611A (zh) 目标任务分布估计和声学模型自适应方法及***
CN113132931A (zh) 一种基于参数预测的深度迁移室内定位方法
CN109979482B (zh) 一种针对音频的评测方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150708