CN102439660A - 基于置信度得分的语音标签方法和装置 - Google Patents
基于置信度得分的语音标签方法和装置 Download PDFInfo
- Publication number
- CN102439660A CN102439660A CN2010800015191A CN201080001519A CN102439660A CN 102439660 A CN102439660 A CN 102439660A CN 2010800015191 A CN2010800015191 A CN 2010800015191A CN 201080001519 A CN201080001519 A CN 201080001519A CN 102439660 A CN102439660 A CN 102439660A
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- label
- voice
- degree
- mentioned
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000005516 engineering process Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 description 8
- 238000012360 testing method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 244000188472 Ilex paraguariensis Species 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于置信度得分的语音标签方法和装置。该基于置信度得分的语音标签方法包括:对于注册语音进行音素识别,以获得该注册语音的多个发音标签;为上述多个发音标签分别计算置信度得分;基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。本发明在基于多发音注册的语音标签技术中,基于置信度得分来优化语音标签,以减小包含语音标签的识别网络的混淆度。
Description
技术领域
本发明涉及信息处理技术,具体地,涉及基于置信度得分的语音标签方法和装置。
背景技术
语音标签技术是语音识别技术中的一种应用,其尤其在嵌入式语音识别***中广泛采用。
基于语音标签技术的***工作过程如下:首先,执行语音注册过程,即用户向***输入注册语音,***将该注册语音转换为代表该语音的发音的标签,并将该发音标签形成为与该注册语音对应的语音标签词条添加到该***的识别网络中;然后,执行语音识别过程,即在用户输入测试语音时,***基于其含有语音标签词条的识别网络对测试语音进行识别,以确定其内容。通常,语音标签***的识别网络不仅仅含有注册语音的语音标签词条,而且还含有由词典或者字音转换模块提供发音的词条,在此称之为词典词条。
最初的语音标签技术通常基于模板匹配来实现,即:在注册过程中,对注册语音提取出一个或多个模板作为该注册语音的标签;在识别过程中,利用动态时间规整算法(Dynamic Time Warping,DTW)对测试语音与模板标签进行匹配。近年来,随着基于音素的隐含马尔科夫模型(HiddenMarkov Model,HMM)在语音识别中的普遍应用,音素序列作为注册语音的发音标签已成为主流的语音标签方法。需要注意的是,根据语言种类的不同,音素也可以换成其它语音单元,例如对于中文而言,可以采用声母、韵母序列作为语音标签。
在采用音素序列作为注册语音的发音标签的方法中,音素序列是通过对注册语音进行音素识别而得到的。音素序列标签的优势在于:首先,音素序列标签比模板标签占用内存少;其次,音素序列标签词条更容易与词典词条结合构成新的词条。音素序列标签的这些优势都有助于扩展识别网络所能够提供的词条数目。
但是,音素序列标签也有一定的不足:首先,以目前的音素识别水平来说,音素识别错误一般不可避免,这样就会导致音素序列标签不能够完全准确地代表注册语音的发音,从而造成识别错误;其次,注册语音与测试语音之间可能存在着不匹配,这样也会导致识别错误。
具体而言,假设注册语音为“王明(wang ming)”,则对应于该注册语音的正确的声母韵母序列应该是:w ang m ing。但是,由于识别水平,语音识别***可能对该注册语音给出不正确的识别结果、例如给出声母韵母序列“w an m ing”,从而该不正确的序列“w an m ing”将作为注册语音“王明”的发音标签被加入到识别网络中。在此情况下,在测试语音也是“王明”的情况下,如果***判断其与识别网络中的序列“w an m ing”最接近,那么识别结果将是正确的,但是由于***可能会判断该测试语音与识别网络中其它的序列最接近,所以会得到错误的识别结果。
因此,在基于音素序列标签的语音标签技术中,减少由于上述原因而导致的识别错误成为目前的一个研究重点。
为了克服上述的音素序列标签方法的不足,研究者提出了多发音注册的方案:对于一个注册语音,用基于不同的音素序列的多个发音标签来构成与该注册语音对应的一个语音标签词条。具体地,在对注册语音进行音素识别时,取前N个最优的音素序列识别结果或者音素格识别结果作为该注册语音的发音标签。
具体地,仍以注册语音“王明”为例,假设语音识别***对该注册语音进行识别并给出了声学得分由大到小排列的三个最优的声母韵母序列:
1.“w an m ing”;
2.“w an m in”;
3.“w ang m ing”;
则在多发音注册中,这三个序列被组合为对应于注册语音“王明”的一个语音标签词条,加入到识别网络中。从而,在识别过程中,识别网络只要判断测试语音与这三个序列中的任何一个序列最接近,就可以将测试语音与注册语音“王明”相匹配。这样识别率会被提高。
采用这种多发音注册的方式,可以很明显地减少音素识别错误对语音识别所带来的负面影响,也可以降低因注册语音与测试语音之间的不匹配所造成的识别性能下降。
但是,由于对于一个注册语音而言,在单发音注册中是一个音素序列被加入到识别网络,而在多发音注册中则是多个音素序列被加入到识别网络中,所以多发音注册会增大识别网络的规模。并且,一个语音标签词条由多个发音序列构成会增加识别网络的混淆度,尤其会明显降低语音标签***中词典词条的识别性能。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供一种基于置信度得分的语音标签方法和装置,以便在基于多发音注册的语音标签技术中,基于置信度得分来优化语音标签,从而减小包含语音标签的识别网络的混淆度。
根据本发明的一个方面,提供一种基于置信度得分的语音标签方法,包括:对于注册语音进行音素识别,以获得该注册语音的多个发音标签;为上述多个发音标签分别计算置信度得分;基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。
根据本发明的另一个方面,提供一种基于置信度得分的语音标签方法,包括:对于注册语音进行音素识别,以获得该注册语音的多个发音标签;为上述多个发音标签分别确定基于置信度得分的权重;基于上述多个发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重;以及在利用上述识别网络对测试语音进行识别时,对于识别结果候选中属于同一语音标签词条的多个识别结果候选,根据其所分别对应的各发音标签的基于置信度得分的权重进行合并。
根据本发明的又一个方面,提供一种基于置信度得分的语音标签装置,包括:音素识别单元,其对于注册语音进行音素识别,以获得该注册语音的多个发音标签;置信度得分计算单元,其为上述多个发音标签分别计算置信度得分;发音标签选择单元,其基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及语音标签制作单元,其基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。
根据本发明的又一个方面,提供一种基于置信度得分的语音标签装置,包括:音素识别单元,其对于注册语音进行音素识别,以获得该注册语音的多个发音标签;置信度权重确定单元,其为上述多个发音标签分别确定基于置信度得分的权重;语音标签制作单元,其基于上述多个发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重;以及识别结果合并单元,其在利用上述识别网络对测试语音进行识别时,对于识别结果候选中属于同一语音标签词条的多个识别结果候选,根据其所分别对应的发音标签的基于置信度得分的权重进行合并。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明实施例1的基于置信度得分的语音标签方法的流程图;
图2是示出注册语音的音素格的示例的图;
图3是根据本发明实施例2的基于置信度得分的语音标签方法的流程图;
图4是根据本发明实施例3的基于置信度得分的语音标签装置的方框图;以及
图5是根据本发明实施例4的基于置信度得分的语音标签装置的方框图。
具体实施方式
下面结合附图对本发明的各个优选实施例进行详细说明。
(实施例1)
首先结合图1~2描述本发明的实施例1。图1是根据本发明实施例1的基于置信度得分的语音标签方法的流程图。在本实施例中,基于置信度得分来选择注册语音的发音标签。
具体地,如图1所示,该方法首先在步骤105,对于用户输入的注册语音进行音素识别,以获得该注册语音的多个发音标签。具体地,该多个发音标签可以是该注册语音的多个最优的音素序列或者是该注册语音的音素格(phoneme lattice)。所谓音素格,是将表示语音的发音的多个音素序列中相同的部分合并在一起而生成的多发音表示。
在本步骤中,对于用户输入的注册语音,例如采用本领域中目前普遍应用的以隐含马尔科夫模型作为声学模型、利用维特比(Viterbi)搜索进行解码的音素识别***来进行音素识别,以便得到注册语音的按声学得分大小排列的多个最优的音素序列或者是该注册语音的音素格。
但是,本领域技术人员可以理解,在本步骤中,只要能够获得注册语音的多个发音标签,并不限于上述的本领域中目前普遍应用的以隐含马尔科夫模型作为声学模型、利用维特比(Viterbi)搜索进行解码的音素识别***,而能够采用任何现在已知或将来可知的音素识别***或方法,本发明对此并没有特别的限制。
在步骤110,为上述注册语音的多个发音标签分别计算置信度得分。
具体地,在上述注册语音的多个发音标签是该注册语音的多个最优的音素序列的情况下,为每一个音素序列计算置信度得分。
在此,仍以前面的注册语音“王明(wang ming)”为例。假设在用户输入了上述注册语音“王明(wang ming)”之后,经过识别得到下述按声学得分由大到小排列的三个声母韵母序列:
1.“w an m ing”;
2.“w an m in”;
3.“w ang m ing”,
则在本步骤中,为上述三个序列中的每一个计算置信度得分,假设得到置信度得分如下:
1.“w an m ing”,置信度得分:70;
2.“w an m in”,置信度得分:60;
3.“w ang m ing”,置信度得分:75。
另一方面,在上述注册语音的多个发音标签是音素格的情况下,为该音素格中的每个弧上的单个音素计算置信度得分。
例如,假设在对上述注册语音“王明(wang ming)”进行识别之后,得到的是与上述声母韵母序列1~3对应的另一种方式的多发音表示、即图2中所示的声母韵母格,其是通过将上述1~3这三个序列中相同的部分合并在一起而生成的多发音表示。在此情况下,在本步骤中,对于该声母韵母格,为弧上的各个单元(声母或韵母)“w”、“an”、“ang”、“m”、“in”“ing”分别计算置信度得分。
本领域技术人员能够理解,在本步骤中,可以采用任何现在已知或者将来可知的为音素序列或单个音素计算置信度得分的方法、例如基于后验概率的置信度得分计算方法或者基于反模型的置信度得分计算方法等。
接着,在步骤115,基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签。
在一个实施例中,在本步骤中,从上述多个发音标签中选择置信度得分最高的发音标签,作为上述至少一个最优的发音标签。
在此情况下,在上述多个发音标签是上述注册语音的多个最优的音素序列的情况下,基于各个音素序列的置信度得分,从该多个最优的音素序列中选择置信度得分最高的音素序列,作为该注册语音的最优的发音标签。另一方面,在上述多个发音标签是上述注册语音的音素格的情况下,基于该音素格中的各个弧上的音素的置信度得分,在该音素格中保留弧上的音素的置信度得分最高的那一条路径,而去掉该路径之外的其他的弧,从而利用所保留的弧的路径来构成该注册语音的最优的发音标签。
此外,在另一个实施例中,在本步骤中,从上述多个发音标签中选择置信度得分高于预先设定的置信度阈值的发音标签,作为上述至少一个最优的发音标签。
在此情况下,在上述多个发音标签是上述注册语音的多个最优的音素序列的情况下,基于各个音素序列的置信度得分,从该多个最优的音素序列中选择置信度得分高于预先设定的置信度阈值的音素序列。例如,在上述注册语音“王明(wang ming)”的上述三个序列1~3的情况下,如果将置信度阈值设置为了65,则这三个序列1~3中置信度得分高于该置信度阈值的序列1和3将被选择出,作为该注册语音“王明(wang ming)”的最优的发音标签。
另一方面,在上述多个发音标签是该注册语音的音素格的情况下,基于该音素格中的各个弧上的音素的置信度得分,在上述音素格中去掉弧上的音素的置信度得分低于预先设定的置信度阈值的弧,而由剩下的弧构成该注册语音的最优的发音标签。
在此,上述置信度阈值可以由开发人员根据经验来设定,具体地,例如预先准备大量的测试数据,并利用在上述步骤105中所使用的音素识别***对这些测试数据执行音素识别,进而为音素识别结果进行置信度得分计算,并通过统计质量较佳的识别结果的置信度得分,来设定适合的置信度阈值,以便能够利用该置信度阈值确保质量较佳的识别结果被选择出。
在步骤120,基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。从而,在用户输入测试语音时,可以基于该识别网络对测试语音进行识别。关于语音标签词条的制作和添加,由于是本领域的现有知识,所以在此省略其详细说明。
以上就是对本实施例的基于置信度得分的语音标签方法的详细描述。在本实施例中,基于置信度得分从注册语音的多个发音标签中选择至少一个最优的发音标签,来制作该注册语音的语音标签词条,能够优化语音标签,减小多发音注册在语音标签应用中所产生的负面作用。具体地,能够减小包含语音标签的识别网络的规模,减小识别网络的混淆度,进而有助于提高语音标签、特别是词典词条的识别性能。同时,本实施例的方法又在一定程度上保留了多发音注册的优点,能够减小由音素识别错误所带来的负面影响,减少因注册语音与测试语音之间的不匹配而造成的识别错误。
(实施例2)
下面结合图3描述本发明实施例2的基于置信度得分的语音标签方法。在本实施例中,基于置信度得分来合并注册语音的多个发音标签。
具体地,如图3所示,该方法首先在步骤305,对于用户输入的注册语音进行音素识别,以获得该注册语音的多个发音标签。关于该步骤,由于与前面图1的步骤105相同,所以省略详细的说明。
在步骤310,为上述注册语音的多个发音标签分别计算置信度得分。关于该步骤,由于与前面图1的步骤110相同,所以省略详细的说明。
接着,在步骤315,为上述注册语音的多个发音标签分别确定基于置信度得分的权重。其中,置信度得分越高的发音标签,其权重也越高。
在一个实施例中,在本步骤中,基于下式(1)来为上述多个发音标签中的每一个计算基于置信度得分的权重:
权重i=置信度得分i/(置信度得分1+置信度得分2+...+置信度得分n)(1)
其中,权重i表示第i个发音标签的权重,置信度得分1表示第1个发音标签的置信度得分、置信度得分2表示第2个发音标签的置信度得分、...、置信度得分n表示第n个发音标签的置信度得分等等,并且n表示多个发音标签的数量。也就是说,根据上式(1),多个发音标签中每一个发音标签的基于置信度得分的权重,是该发音标签的置信度得分与该所有多个发音标签的置信度得分之和的比。
下面以具体例子来进行说明。仍以前面的注册语音“王明(wangming)”为例,假设为该注册语音所得到的识别结果及置信度得分计算结果与前面实施例1中相同,即为:
1.“w an m ing”,置信度得分:70;
2.“w an m in”,置信度得分:60;
3.“w ang m ing”,置信度得分:75。
在此情况下,在本步骤中,根据上式(1)为上述序列1~3分别计算基于置信度得分的权重如下:
1.“w an m ing”,置信度得分:70,权重=70/(70+60+75)=0.34;
2.“w an m in”,置信度得分:60,权重=60/(70+60+75)=0.29;
3.“w ang m ing”,置信度得分:75,权重=75/(70+60+75)=0.37。
也就是说,在本实施例中,利用基于置信度得分的权重,将注册语音的多个发音标签分别定义为该注册语音的语音标签的一个组分。
接着,在步骤320,基于上述注册语音的上述多个发音标签制作与该注册语音对应的语音标签词条,以添加到识别网络中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重。
在本步骤中,既可以直接基于在步骤305为注册语音得到的多个发音标签来制作与该注册语音对应的语音标签词条,也可以首先如上述实施例1的步骤115那样基于该多个发音标签中的每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签,然后根据所选择的该至少一个最优的发音标签来制作与该注册语音对应的语音标签词条。关于选择方法,可参照前面关于步骤115的具体描述,在此省略详细的说明。
接着,在步骤325,在用户输入测试语音时,基于上述识别网络对该测试语音进行识别,以获得该测试语音的多个最优识别结果候选。
具体地,在本步骤中,在基于上述识别网络对测试语音进行识别时,从识别网络中匹配得到与该测试语音相近的所有发音序列、即发音标签,作为该测试语音的多个最优识别结果候选。
举例来说,假设在用户输入了测试语音“吴明(wu ming)”的情况下,识别网络通过匹配得到所有与之相近的序列,例如可能匹配得到最相近的发音序列“w u m ing”及相似的序列以及对应于注册语音“王明”的语音标签词条中的三个序列,从而对于该测试语音“吴明(wu ming)”最终按声学得分由大到小排列得到如下的识别结果:
1.w an m in,声学得分:90;
2.w u m ing,声学得分:89;
3.w u n ing,声学得分:87;
4.w an m ing,声学得分:80;
5.w ang m ing,声学得分:70。
在步骤330,在上述测试语音的多个最优识别结果候选中,对于属于同一语音标签词条的多个识别结果候选,根据其所分别对应的发音标签的基于置信度得分的权重进行合并。
具体地,在本步骤中,对于上述测试语音的多个最优识别结果候选中属于同一语音标签词条的多个识别结果候选,将其合并为一个识别结果候选,并且根据其所分别对应的发音标签的基于置信度得分的权重,求取该属于同一语音标签词条的多个识别结果候选的声学得分的加权和,作为合并后的识别结果候选的声学得分。
下面以具体例子来进行说明。仍以上述测试语音“吴明”及其上述识别结果候选1~5为例,假设根据识别网络可知该识别结果候选1~5中识别结果候选1、4、5属于同一语音标签词条、即与注册语音“王明”对应的语音标签词条,而识别结果候选2、3属于不同的语音标签词条,则在本步骤中,将识别结果候选1、4、5合并为一个识别结果候选,并基于识别结果候选1、4、5所对应的各个发音标签的基于置信度得分的权重即0.29、0.34和0.37,求取识别结果候选1、4、5的声学得分的加权和,作为合并后的识别结果候选的声学得分,从而合并后的识别结果候选变为:
1、4、5.w an m in(w an m ing、w ang m ing),合并后声学得分:90*0.29+80*0.34+70*0.37=79.2;
2.w u m ing,声学得分:89;
3.w u n ing,声学得分:87。
这样,识别结果候选1、4、5被合并为了一个识别结果候选,对应于注册语音“王明”的语音标签词条。
在此,需要说明的是,虽然上述识别结果候选1、4、5被合并为了一个识别结果候选,但由于识别结果候选1、4、5本身在合并前就同属于一个语音标签词条,对应于注册语音“王明”,所以即使将这些识别结果候选合并,合并后的识别结果候选仍能够与注册语音“王明”相对应。
在步骤335,从上述多个最优识别结果候选在合并后所形成的识别结果候选中,选择声学得分最高的识别结果候选,作为最终的识别结果。
在上面的例子中,通过识别结果候选的基于权重的合并,识别结果2.wu m ing成为了声学得分最高的识别结果候选,从而其被选择出作为最终的识别结果,这样即得到了正确的识别结果。
此外,若假设上述测试语音“吴明”的识别结果候选中的2、3也属于同一语音标签词条,则对于该识别结果候选2、3也将利用基于置信度得分的权重进行合并,并且若合并后的识别结果的声学得分仍为最高,则该合并后的识别结果将被选择出,从而该识别结果候选2、3共同所属的语音标签词条将成为与测试语音“吴明”匹配的语音标签词条,从而能够根据该语音标签词条识别出测试语音“吴明”的正确内容。
以上就是对本实施例的基于置信度得分的语音标签方法的详细描述。在本实施例中,利用基于置信度得分的权重合并属于同一语音标签词条的识别结果候选,能够减小多发音注册在语音标签应用中所产生的负面作用。具体地,能够减小包含语音标签的识别网络的混淆度,进而有助于提高语音标签、特别是词典词条的识别性能。同时,本实施例的方法又保留了多发音注册的优点,能够减小由音素识别错误所带来的负面影响,减少因注册语音与测试语音之间的不匹配而造成的识别错误。
(实施例3)
在同一发明构思下,本发明提供一种基于置信度得分的语音标签装置。下面结合附图对其进行详细描述。
图4是根据本发明实施例3的基于置信度得分的语音标签装置的方框图。如图4所示,本实施例的基于置信度得分的语音标签装置40包括:音素识别单元41、置信度得分计算单元42、发音标签选择单元43、语音标签制作单元44、测试语音识别单元45以及识别网络46。
具体地,音素识别单元41对于注册语音进行音素识别,以获得该注册语音的多个发音标签。该多个发音标签可以是该注册语音的多个最优的音素序列或者是该注册语音的音素格。
在一个实施例中,音素识别单元41基于本领域中目前普遍应用的以隐含马尔科夫模型作为声学模型、利用维特比(Viterbi)搜索进行解码的音素识别***来实现,其对于用户输入的注册语音进行音素识别,以得到注册语音的按声学得分大小排列的多个最优的音素序列或者是该注册语音的音素格。
当然,并不限于此,音素识别单元41能够采用任何现在已知或将来可知的音素识别***或方法来实现,本发明对此并没有特别的限制。
置信度得分计算单元42为上述多个发音标签分别计算置信度得分。
具体地,在上述注册语音的多个发音标签是多个最优的音素序列的情况下,置信度得分计算单元42为每一个音素序列计算置信度得分。此外,在该注册语音的多个发音标签是音素格的情况下,置信度得分计算单元42为该音素格中的每个弧上的单个音素计算置信度得分。
置信度得分计算单元42可以基于任何现在已知或者将来可知的为音素序列或单个音素计算置信度得分的方法来实现,例如基于后验概率的置信度得分计算方法、基于反模型的置信度得分计算方法等。
发音标签选择单元43基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签。
在一个实施例中,发音标签选择单元43从上述多个发音标签中选择置信度得分最高的发音标签,作为上述至少一个最优的发音标签。
此外,在另一个实施例中,发音标签选择单元43从上述多个发音标签中选择置信度得分高于预先设定的置信度阈值的发音标签,作为上述至少一个最优的发音标签。如前所述,上述置信度阈值可以基于预先准备的测试数据、根据开发人员的经验而设定。
语音标签制作单元44基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络46中。
测试语音识别单元45在用户输入测试语音时,基于上述识别网络46对该测试语音进行识别,以识别出该测试语音的内容。
以上就是对本实施例的基于置信度得分的语音标签装置的详细描述。本实施例的基于置信度得分的语音标签装置40,操作上可以实现前面实施例1的基于置信度得分的语音标签方法。
此外,虽然在上述实施例中将识别网络46示出为包括在了基于置信度得分的语音标签装置40的内部,但是并不限于此,该识别网络46也可以位于基于置信度得分的语音标签装置40的外部。
(实施例4)
下面结合图5描述本发明实施例4的基于置信度得分的语音标签装置。
如图5所示,本实施例的基于置信度得分的语音标签装置50包括:音素识别单元51、置信度得分计算单元52、置信度权重确定单元53、语音标签制作单元54、测试语音识别单元55、识别结果合并单元56以及识别网络57。
具体地,音素识别单元51对于注册语音进行音素识别,以获得该注册语音的多个发音标签。
置信度得分计算单元52为上述注册语音的多个发音标签分别计算置信度得分。
置信度权重确定单元53为上述多个发音标签分别确定基于置信度得分的权重。其中,置信度得分越高的发音标签,其权重也越高。
在一个实施例中,置信度权重确定单元53为上述多个发音标签中的每一个发音标签,计算该发音标签的置信度得分与该所有多个发音标签的置信度得分之和的比,作为该发音标签的基于置信度得分的权重。
语音标签制作单元54基于上述多个发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络57中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重。
在一个实施例中,语音标签制作单元54基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签,并根据所选择的该至少一个最优的发音标签来制作与上述注册语音对应的语音标签词条。
测试语音识别单元55在用户输入测试语音时,基于上述识别网络57对该测试语音进行识别,以获得该测试语音的多个最优识别结果候选。
识别结果合并单元56对于测试语音识别单元55所获得的多个最优识别结果候选中属于同一语音标签词条的多个识别结果候选,根据其所分别对应的发音标签的基于置信度得分的权重进行合并。
在一个实施例中,识别结果合并单元56对于上述识别结果候选中属于同一语音标签词条的多个识别结果候选执行以下过程:将该多个识别结果候选合并为一个识别结果候选,并且根据该多个识别结果候选所分别对应的发音标签的基于置信度得分的权重,求取该多个识别结果候选的声学得分的加权和,作为合并后的识别结果候选的声学得分。
并且,在合并后的上述识别结果候选中,识别结果合并单元56选择最优、例如声学得分最高的识别结果候选,作为最终的识别结果。
以上就是对本实施例的基于置信度得分的语音标签装置的详细描述。本实施例的基于置信度得分的语音标签装置50,操作上可以实现前面实施例2的基于置信度得分的语音标签方法。
此外,虽然在上述实施例中将识别网络57示出为包括在了基于置信度得分的语音标签装置50的内部,但是并不限于此,该识别网络57也可以位于基于置信度得分的语音标签装置50的外部。
此外,本领域技术人员可以理解,上述实施例3、4的基于置信度得分的语音标签装置40、50及其各个组成部分,可以由专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
以上虽然通过一些示例性的实施例对本发明的基于置信度得分的语音标签方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅以所附权利要求为准。
Claims (10)
1.一种基于置信度得分的语音标签方法,包括:
对于注册语音进行音素识别,以获得该注册语音的多个发音标签;
为上述多个发音标签分别计算置信度得分;
基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及
基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。
2.一种基于置信度得分的语音标签方法,包括:
对于注册语音进行音素识别,以获得该注册语音的多个发音标签;
为上述多个发音标签分别确定基于置信度得分的权重;
基于上述多个发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重;以及
在利用上述识别网络对测试语音进行识别时,对于识别结果候选中属于同一语音标签词条的多个识别结果候选,根据其所分别对应的发音标签的基于置信度得分的权重进行合并。
3.根据权利要求2所述的方法,其中为上述多个发音标签分别确定基于置信度得分的权重的步骤进一步包括:
为上述多个发音标签分别计算置信度得分;以及
为上述多个发音标签分别确定基于置信度得分的权重,其中置信度得分越高的发音标签,其权重也越高。
4.根据权利要求2所述的方法,其中:
上述多个发音标签中每一个发音标签的基于置信度得分的权重,是该发音标签的置信度得分与该所有多个发音标签的置信度得分之和的比。
5.根据权利要求2所述的方法,其中基于上述多个发音标签制作与上述注册语音对应的语音标签词条的步骤进一步包括:
基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及
基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条。
6.根据权利要求1或5所述的方法,其中上述选择至少一个最优的发音标签的步骤进一步包括:
从上述多个发音标签中选择置信度得分最高的发音标签,作为上述注册语音的上述至少一个最优的发音标签。
7.根据权利要求1或5所述的方法,其中上述选择至少一个最优的发音标签的步骤进一步包括:
从上述多个发音标签中选择置信度得分高于预先设定的置信度阈值的发音标签,作为上述注册语音的上述至少一个最优的发音标签。
8.根据权利要求2所述的方法,其中上述合并的步骤进一步包括:
对于上述识别结果候选中属于同一语音标签词条的多个识别结果候选:
将该多个识别结果候选合并为一个识别结果候选;以及
根据该多个识别结果候选所分别对应的发音标签的基于置信度得分的权重,求取该多个识别结果候选的声学得分的加权和,作为合并后的识别结果候选的声学得分。
9.一种基于置信度得分的语音标签装置,包括:
音素识别单元,其对于注册语音进行音素识别,以获得该注册语音的多个发音标签;
置信度得分计算单元,其为上述多个发音标签分别计算置信度得分;
发音标签选择单元,其基于上述多个发音标签中每一个发音标签的置信度得分,从该多个发音标签中选择至少一个最优的发音标签;以及
语音标签制作单元,其基于所选择的上述至少一个最优的发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中。
10.一种基于置信度得分的语音标签装置,包括:
音素识别单元,其对于注册语音进行音素识别,以获得该注册语音的多个发音标签;
置信度权重确定单元,其为上述多个发音标签分别确定基于置信度得分的权重;
语音标签制作单元,其基于上述多个发音标签制作与上述注册语音对应的语音标签词条,以添加到识别网络中,并且相应地记录该多个发音标签的各个的基于置信度得分的权重;以及
识别结果合并单元,其在利用上述识别网络对测试语音进行识别时,对于识别结果候选中属于同一语音标签词条的多个识别结果候选,根据其所分别对应的发音标签的基于置信度得分的权重进行合并。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2010/052954 WO2012001458A1 (en) | 2010-06-29 | 2010-06-29 | Voice-tag method and apparatus based on confidence score |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102439660A true CN102439660A (zh) | 2012-05-02 |
Family
ID=45401457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010800015191A Pending CN102439660A (zh) | 2010-06-29 | 2010-06-29 | 基于置信度得分的语音标签方法和装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN102439660A (zh) |
WO (1) | WO2012001458A1 (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103500579A (zh) * | 2013-10-10 | 2014-01-08 | 中国联合网络通信集团有限公司 | 语音识别方法、装置及*** |
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及*** |
CN104282305A (zh) * | 2013-07-12 | 2015-01-14 | 通用汽车环球科技运作有限责任公司 | 语音对话***中用于结果仲裁的***和方法 |
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
CN106157969A (zh) * | 2015-03-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种语音识别结果的筛选方法及装置 |
CN106340297A (zh) * | 2016-09-21 | 2017-01-18 | 广东工业大学 | 一种基于云计算与置信度计算的语音识别方法与*** |
US9715878B2 (en) | 2013-07-12 | 2017-07-25 | GM Global Technology Operations LLC | Systems and methods for result arbitration in spoken dialog systems |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN111048098A (zh) * | 2018-10-12 | 2020-04-21 | 广达电脑股份有限公司 | 语音校正***及语音校正方法 |
CN112447173A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置及计算机存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1165590A (ja) * | 1997-08-25 | 1999-03-09 | Nec Corp | 音声認識ダイアル装置 |
US20040148173A1 (en) * | 2003-01-23 | 2004-07-29 | Gansha Wu | Registering an utterance and an associated destination anchor with a speech recognition engine |
CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
CN1753083A (zh) * | 2004-09-24 | 2006-03-29 | 中国科学院声学研究所 | 语音标记方法、***及基于语音标记的语音识别方法和*** |
-
2010
- 2010-06-29 CN CN2010800015191A patent/CN102439660A/zh active Pending
- 2010-06-29 WO PCT/IB2010/052954 patent/WO2012001458A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1165590A (ja) * | 1997-08-25 | 1999-03-09 | Nec Corp | 音声認識ダイアル装置 |
CN1615508A (zh) * | 2001-12-17 | 2005-05-11 | 旭化成株式会社 | 语音识别方法、遥控器、信息终端、电话通信终端以及语音识别器 |
US20040148173A1 (en) * | 2003-01-23 | 2004-07-29 | Gansha Wu | Registering an utterance and an associated destination anchor with a speech recognition engine |
CN1753083A (zh) * | 2004-09-24 | 2006-03-29 | 中国科学院声学研究所 | 语音标记方法、***及基于语音标记的语音识别方法和*** |
Non-Patent Citations (1)
Title |
---|
YAN MING CHENG ET.AL: "VOICE-TO-PHONEME CONVERSION ALGORITHMS FOR SPEAKER-INDEPENDENT VOICE-TAG APPLICATIONS IN EMBEDDED PLATFORMS", 《WORKSHOP ON AUTOMATIC SPEECH RECOGNITION AND UNDERSTANDING, 2005 IEEE》, 27 November 2005 (2005-11-27) * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105074822A (zh) * | 2013-03-26 | 2015-11-18 | 杜比实验室特许公司 | 用于音频分类和处理的装置和方法 |
US10803879B2 (en) | 2013-03-26 | 2020-10-13 | Dolby Laboratories Licensing Corporation | Apparatuses and methods for audio classifying and processing |
CN104282305B (zh) * | 2013-07-12 | 2018-04-24 | 通用汽车环球科技运作有限责任公司 | 语音对话***中用于结果仲裁的***和方法 |
CN104282305A (zh) * | 2013-07-12 | 2015-01-14 | 通用汽车环球科技运作有限责任公司 | 语音对话***中用于结果仲裁的***和方法 |
US9715878B2 (en) | 2013-07-12 | 2017-07-25 | GM Global Technology Operations LLC | Systems and methods for result arbitration in spoken dialog systems |
CN103500579B (zh) * | 2013-10-10 | 2015-12-23 | 中国联合网络通信集团有限公司 | 语音识别方法、装置及*** |
CN103500579A (zh) * | 2013-10-10 | 2014-01-08 | 中国联合网络通信集团有限公司 | 语音识别方法、装置及*** |
CN103559881B (zh) * | 2013-11-08 | 2016-08-31 | 科大讯飞股份有限公司 | 语种无关的关键词识别方法及*** |
CN103559881A (zh) * | 2013-11-08 | 2014-02-05 | 安徽科大讯飞信息科技股份有限公司 | 语种无关的关键词识别方法及*** |
CN106157969B (zh) * | 2015-03-24 | 2020-04-03 | 阿里巴巴集团控股有限公司 | 一种语音识别结果的筛选方法及装置 |
CN106157969A (zh) * | 2015-03-24 | 2016-11-23 | 阿里巴巴集团控股有限公司 | 一种语音识别结果的筛选方法及装置 |
CN107808662A (zh) * | 2016-09-07 | 2018-03-16 | 阿里巴巴集团控股有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN107808662B (zh) * | 2016-09-07 | 2021-06-22 | 斑马智行网络(香港)有限公司 | 更新语音识别用的语法规则库的方法及装置 |
CN106340297A (zh) * | 2016-09-21 | 2017-01-18 | 广东工业大学 | 一种基于云计算与置信度计算的语音识别方法与*** |
CN111048098A (zh) * | 2018-10-12 | 2020-04-21 | 广达电脑股份有限公司 | 语音校正***及语音校正方法 |
CN110264996A (zh) * | 2019-04-17 | 2019-09-20 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN110264996B (zh) * | 2019-04-17 | 2021-12-17 | 北京爱数智慧科技有限公司 | 语音标注质量确定方法、装置、设备及计算机可读介质 |
CN112447173A (zh) * | 2019-08-16 | 2021-03-05 | 阿里巴巴集团控股有限公司 | 语音交互方法、装置及计算机存储介质 |
CN110364146A (zh) * | 2019-08-23 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
CN110364146B (zh) * | 2019-08-23 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、语音识别设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2012001458A1 (en) | 2012-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102439660A (zh) | 基于置信度得分的语音标签方法和装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
CN109036391B (zh) | 语音识别方法、装置及*** | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
CN103714048B (zh) | 用于校正文本的方法和*** | |
CN101785051B (zh) | 语音识别装置和语音识别方法 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
CN105009206B (zh) | 语音识别装置和语音识别方法 | |
JP2008216756A (ja) | 語句として新たに認識するべき文字列等を取得する技術 | |
CN107093422B (zh) | 一种语音识别方法和语音识别*** | |
Qian et al. | A two-pass framework of mispronunciation detection and diagnosis for computer-aided pronunciation training | |
JP2014219557A (ja) | 音声処理装置、音声処理方法及びプログラム | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN101515456A (zh) | 语音识别接口装置及其语音识别方法 | |
CN110415725B (zh) | 使用第一语言数据评估第二语言发音质量的方法及*** | |
CN106653002A (zh) | 一种文字直播方法及平台 | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、***、设备及介质 | |
Tong et al. | Goodness of tone (GOT) for non-native Mandarin tone recognition. | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
CN111508497B (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
Zhang et al. | Wake-up-word spotting using end-to-end deep neural network system | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120502 |