CN101785051B

CN101785051B - 语音识别装置和语音识别方法

Info

Publication number: CN101785051B
Application number: CN2008801035918A
Authority: CN
Inventors: 花泽健
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-08-22
Filing date: 2008-08-22
Publication date: 2012-09-05
Anticipated expiration: 2028-08-22
Also published as: CN101785051A; WO2009025356A1; JPWO2009025356A1; US8315870B2; JP5282737B2; US20110196678A1

Abstract

距离计算单元(16)获取输入语音的特征量和每个音素模型之间的声音距离。单词搜索单元(17)基于声音距离以及包括单词的音素和韵律标记的语言模型来执行单词搜索，并且输出单词假说以及表示该单词假说的似然度的第一分数。单词搜索单元(17)还输出当假设输入语音的识别结果为该单词假说时，语音中的元音间隔及其音调标记。音调识别单元(21)基于与从单词搜索单元(17)输出的元音间隔相对应的特征量，输出表示从单词搜索单元(17)输出的音调标记的似然度的第二分数。重判单元(22)利用从音调识别单元(21)输出的第二分数来校正从单词搜索单元(17)输出的单词假说的第一分数。这使得能够提高音调语音的语音识别精度。

Description

语音识别装置和语音识别方法

技术领域

本发明涉及语音识别技术，并且更具体地涉及用于使用诸如音调(tone)(语调，voice tone)之类的韵律的语言的语音识别技术。

背景技术

存在使用韵律的各种语言。例如，汉语使用称为音调的韵律。音调是用来在含义之间进行区分的音高(sound pitch)模式，并且主要地，元音(vowel)具有诸如升调和降调之类的特有音调。因此，对于汉语语音识别，识别出音调是很重要的。

在日本专利No.3162994(参考文献1)中公开的技术被称为使用音调的语音识别技术。在参考文献1中描述的汉语语音识别技术将音节(syllable)划分为第一半部分和第二半部分，仅将音节的第二半部分与音调相关联，并且利用经关联的音调来识别语音。由于语音识别是利用音调来执行的，因此，与未使用音调的技术相比，这种技术可以使语调语音识别更准确。

发明内容

本发明解决的问题

然而，参考文献1的技术简单地将音节划分为第一半部分和第二半部分，并且第二半部分可以包括辅音(consonant)。因此，即使对于没有语调的辅音也可以进行音调识别。在此情况中，音调识别结果可能不准确，并且语音识别精度可能降低。

本发明的一个示例性目的是提高对于具有诸如音调之类的韵律的语言的语音识别精度。

解决问题的手段

根据本发明一个示例性方面的语音识别装置包括：单词搜索装置，用于基于音素模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音素来执行单词搜索，将单词假说和表示所述单词假说的似然度(likelihood)的第一分数输出为单词搜索结果，并且在假设所述输入语音的识别结果为所述单词假说时，输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记；韵律识别装置，用于基于所述输入语音的特征量中与从所述单词搜索装置输出的所述韵律间隔相对应的一个特征量，来输出表示从所述单词搜索装置输出的所述韵律标记的似然度的第二分数；以及重判装置，用于利用从所述韵律识别装置输出的所述第二分数来校正从所述单词搜索装置输出的所述单词假说的第一分数。

根据本发明另一示例性方面的语音识别方法包括以下步骤：基于音素模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音素来执行单词搜索，将单词假说和表示所述单词假说的似然度的第一分数输出为单词搜索结果，并且在假设所述输入语音的识别结果为所述单词假说时，输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记；基于所述输入语音的特征量中与所输出的韵律间隔相对应的一个特征量，来输出表示所输出的韵律标记的似然度的第二分数；并且利用所输出的第二分数来校正所输出的单词假说的第一分数。

本发明的效果

根据本发明，能够提高对具有诸如音调之类的韵律的语言的语音识别精度。

附图说明

图1是示出根据本发明第一示例性实施例的语音识别装置的总体布置示例的框图；

图2是图示出根据第一示例性实施例的操作示例的流程图；

图3是示出第一示例性实施例的示例的框图；

图4A和图4B是示出单词的示例的示图；

图5是示出词典的内容示例的示图；

图6是用于说明第一示例性实施例的示例的操作的示图；

图7是用于说明音调建模方法的曲线图；

图8是根据本发明第二示例性实施例的语音识别装置的框图；

图9是示出第二示例性实施例的示例的总体布置的示例的框图；

图10A和图10B是示出连续单词的示例的示图；

图11是用于说明第二示例性实施例的示例的操作的示图；以及

图12是根据本发明第三示例性实施例的语音识别装置的框图。

具体实施方式

现在将参考附图详细描述本发明的示例性实施例。

[本发明的第一示例性实施例]

将描述根据本发明第一示例性实施例的语音识别装置。

[对本发明第一示例性实施例的布置的说明]

图1是示出根据本发明第一示例性实施例的语音识别装置的总体布置的示例的框图。

参考图1，语音识别装置1包括三种模型存储单元，即，对通过建模音素形成的音素模型进行登记的音素模型(phonetic model)存储单元11、对包括单词的音素和音调标记的语言模型进行登记的语言模型存储单元12，以及对通过建模音调的声音特征而形成的音调模型进行登记的音调模型存储单元13。

语音识别装置1还包括输入单元14、声音分析单元15、距离计算单元16、单词搜索单元17、音调识别单元21、重判(rescore)单元22以及输出单元23，所述音调识别单元21用作韵律识别部件。

输入单元14具有输入语音的功能。声音分析单元15具有从声学上分析从输入单元14输入的语音并输出输入语音的特征量的功能。距离计算单元16具有计算作为声音分析结果的特征量与登记在音素模型存储单元11中的每个音素模型之间的声音距离的功能。

单词搜索单元17具有如下功能：基于由距离计算单元16获得的声音距离以及登记在语言模型存储单元12中的语言模型来执行单词搜索，并且向重判单元22输出包括多种单词假说(识别结果候选者)以及表示单词假说的似然度的第一分数的单词搜索结果。本示例性实施例的单词搜索单元17还具有如下功能：在假定多种单词假说中的每种是输入语音识别结果时，输出输入语音中的元音间隔及其音调标记。

为了实现此功能，单词搜索单元17包括单词假说标识单元18、音素假说标识单元19以及元音间隔标识单元20。单词假说标识单元18标识通过单词搜索获得的每个单词假说。音素假说标识单元19标识每个单词假说中的音素。元音间隔标识单元20基于标识出的音素以及用于单词搜索的音素与输入语音之间的对应关系，针对每个单词假说标识输入语音中的元音间隔。

音调识别单元21具有如下功能：针对每种单词假说，基于与从单词搜索单元17输出的元音间隔相对应的特征量以及登记在音调模型存储单元13中的音调模型来获取第二分数，并且将第二分数输出给重判单元22，每个所述第二分数表示单词假说的音调标记的似然度。

重判单元22具有利用从音调识别单元21输出的每个单词假说的第二分数来校正从单词搜索单元17输出的相应单词假说的第一分数的功能。输出单元23具有如下功能：基于经校正的第一分数从通过单词搜索获得的多种单词假说中选择性地输出识别结果。

注意，语音识别装置1可以由计算机以例如下面的方式来实现。准备记录有使得计算机用作语音识别装置1的程序的盘、半导体存储器或者任何其它记录介质，并且计算机读出程序。计算机基于读出的程序控制其操作，从而在计算机上实现声音分析单元15、距离计算单元16、单词搜索单元17、音调识别单元21、重判单元22以及输出单元23。

[对本发明第一示例性实施例的操作的说明]

接下来参考图1和2详细描述本示例性实施例的操作。

当从输入单元14接收到用户发出的语音时(图2中的步骤S100)，声音分析单元15从声学上分析输入语音以获得语音的特征量(步骤S101)。此后，距离计算单元16计算在步骤S101中获得的特征量与登记在音素模型存储单元11中的每个音素模型之间的声音距离(声音距离表示每个音素的声音似然度)(步骤S102)。

在距离计算单元16计算出了特征量与每个音素模型之间的声音距离之后，单词搜索单元17基于声音距离以及登记在语言模型存储单元12中的语言模型来执行单词搜索，并且向重判单元22输出包括多种单词假说以及表示单词假说的似然度的第一分数的单词搜索结果(步骤S103)。

接下来，单词搜索单元17中的单词假说标识单元18标识在步骤S103中通过搜索获得的单词假说(步骤S104)。音素假说标识单元19基于语言模型标识在步骤S104中标识出的每个单词假说的音素(步骤S105)。然后，元音间隔标识单元20针对在步骤S104中标识出的每个单词假说，基于在步骤S105中标识出的音素以及用于步骤S103中的单词搜索的音素与输入语音之间的对应关系来标识输入语音中的元音间隔，并且将标识出的元音间隔对及其音调标记输出给音调识别单元21(步骤S106)。

对于从单词搜索单元17输出的每个元音间隔及其音调标记构成的对，音调识别单元21基于与元音间隔相对应的特征量以及登记在音调模型存储单元13中的音调模型来执行音调识别，并且将表示音调标记的似然度的第二分数输出给重判单元22(步骤S107)。

重判单元22利用与从音调识别单元21输出的每个单词假说的第二分数来校正相应单词假说的第一分数(步骤S108)。输出单元23基于经校正的第一分数从多个单词假说中判定识别结果，并且输出识别结果(步骤S109)。

[本发明第一示例性实施例的效果]

根据本示例性实施例，能够准确地识别语调语音。这是因为音调识别目标间隔限于基于单词搜索信息获得的元音间隔，单词搜索信息可以最优地组合声音信息(特征量)和语言信息。即，与简单地基于声音信息获取音调识别目标间隔(元音间隔)的技术相比，将元音间隔以外的间隔错误地定义为音调识别间隔的风险降低。由于能够抑制音调识别错误，因此，可以使识别精度更高。

[第一示例性实施例的示例]

接下来描述第一示例性实施例的示例。

[对第一示例性实施例的示例的布置的说明]

图3是示出根据本示例的语音识别装置10的总体布置的示例的框图。

本示例的语音识别装置10包括三个存储单元，即对用作音素模型的HMM(隐式马尔科夫模型)进行登记的HMM存储单元110、对具有要识别的单词的音素和音调标记的词典进行登记的词典存储单元120，以及将通过利用例如GMM(高斯混合模型)来建模四声的声音特征而形成的四声模型登记为音调模型的四声模型存储单元130。存储单元110、120和130分别对应于图1所示的音素模型存储单元11、语言模型存储单元12和音调模型存储单元13。

语音识别装置10还包括输入单元140、声音分析单元150、距离计算单元160、单词搜索单元170、四声识别单元210、重判单元220以及输出单元230，单词搜索单元170具有单词假说标识单元180、音素假说标识单元190以及元音间隔标识单元200。功能单元140、150、160、170、210、220和230分别对应于图1所示的输入单元14、声音分析单元15、距离计算单元16、单词搜索单元17、音调识别单元21、重判单元22以及输出单元23，并且具有相同的功能。

注意，与第一示例性实施例的语音识别装置1类似，本示例的语音识别装置10还可以通过计算机来实现。

[对第一示例性实施例的示例的操作的说明]

接下来将详细描述本示例的操作。

例如，假设用户说出了图4A所示的单词。注意，在下面的描述中，图4A所示的单词将被称为单词A，并且图4B所示的单词将被称为单词B。如图5所示，登记在词典存储单元210中的词典以音素水平将诸如单词A和B之类的单词与诸如“i3”的“3(第三声)”和“in2”的“2(第二声)”之类的音调标记一起登记。

声音分析单元150从声学上分析从输入单元140输入的语音，并且例如获取每单位时间(帧)的倒谱(cepstrum)和音高作为特征量。

距离计算单元160针对每帧计算由声音分析单元150获得的倒谱与HMM存储单元110中所登记的每个HMM之间的距离，并且输出各帧中的倒谱与各个音素之间的声音距离(表示似然度的分数)作为距离计算结果。

当距离计算单元160输出了距离计算结果时，单词搜索单元170对词典中的单词顺序地执行下面的处理。单词搜索单元170基于包括在处理目标单词中的音素以及从距离计算单元160接收的距离计算结果，针对每个音素获取与音素相对应的帧以及表示声音似然度的声音距离(分数)。例如，当处理目标是图4A所示的单词A时，则音素“n i3 h ao3”被包括在单词A中，如图5所示。因此，以帧的顺序来计算从距离计算结果的排头起被链接起来的音素模型“n”、“i”、“h”和“ao”的分数，从而获得例如以下信息：{音素模型“n”在帧“5至11”中具有分数“0.7”，音素模型“i”在帧“12至19”中具有分数“0.8”...}或者{音素模型“n”在帧“4至9”中具有分数“0.5”，音素模型“i”在帧“10至17”中具有分数“0.6”，...}。此后，信息的分数(例如，音素模型的分数之和)就被获得。最高分数被确定为处理目标单词的分数，并且具有最高分数的信息被存储在帧信息存储单元(未示出)中作为用来执行单词搜索的信息。

单词搜索单元170针对登记在词典中的所有单词执行上述处理，并且基于单词的分数来确定用作单词假说的单词(识别结果候选者)。例如，以分数的降序来选择预定数目的单词，并且所选单词被定义为单词假说。

假设利用上述单词搜索处理，具有分数“3.2”的单词A和具有分数“3.5”的单词B被获得作为识别结果候选者，如图6所示。

当单词搜索处理结束时，单词搜索单元170中的单词假说标识单元180首先标识单词以获得单词A和B。接下来，音素假说标识单元190利用词典标识音素，以便从单词A获得“n in2 h ao3”并且从单词B获得“ni3 h ao3”并且一同获得音调标记。此后，元音间隔标识单元200基于音素标识结果和登记在帧信息存储单元中的信息来标识单词A和单词B的元音间隔。

结果，与单词A的元音部分“in2”和“ao3”相对应的元音间隔以及与单词B的元音部分“i3”和“ao3”相对应的元音间隔被获得作为时间(帧)信息，如图6所示。

元音间隔标识单元200然后将单词A和B的元音间隔以及它们的音调标记传送给四声识别单元210。四声识别单元210针对单词的元音间隔顺序地执行下面的处理。针对与处理目标元音间隔相对应的、作为声音分析单元150的分析结果的音高中的一个，四声识别单元210利用登记在四声模型存储单元130中的四声模型来执行四声识别，从而计算表示元音间隔的音调标记的似然度的分数St。例如，当处理目标是单词B的元音“i3”的元音间隔“帧12至19”时，则利用四声模型使“帧12至19”所对应的音高经过四声识别，以计算出表示元音“i3”的似然度的分数。在图6的示例中，表示作为第三声的、单词B的元音“i3”所对应的元音间隔的似然度的分数为“0.3”。

当GMM被用作模型时，如在此示例中，可以利用N维特征向量x＝(x1，x2，...，xN)作为输入并且利用M作为GMM的混合数，通过下式来计算四声识别结果的分数St，

[算式1]

St = Σ_{i}^{M} w_{i} P_{i} (x)

(Σ_{i}^{M} w_{i} = 1)

P_{i} (x) = \frac{1}{{(2 π)}^{N / 2} {| Σ_{i} |}^{1 / 2}} \exp {- \frac{1}{2} (x - μ) Σ_{i}^{- 1} (x - μ)}

其中，μ是四声模型的平均向量，∑i是协方差矩阵，并且w是权重。作为GMM，这里准备了表示第一声至第四声的四个模型。例如，如果识别目标的音调标记指示第三声，则利用表示第三声的GMM来计算分数。类似地，假设针对元音“in2”获得了分数“0.8”，并且在两个单词假说中，针对元音“ao3”获得了分数“0.9”。利用四声识别结果，重判单元220重判单词假说来作为单词搜索结果。令Sw为原始单词假说的分数，并且令St1，St2，...为存在于单词中的元音的四声识别结果的分数。则由下式给出所有单词假说被重判之后的分数S

[算式2]

S = Sw + \underset{n}{Σ} Stn

此时，可以利用元音的数目或帧的数目来使四声识别结果的分数St归一化。作为重判的结果，单词A的分数为“4.9”，并且单词B的分数为“4.7”。即，排名被颠倒了。输出单元230将单词A输出作为最有可能的识别结果。

为了实现重判，可使用如下方法：执行单词搜索同时校正所处理的单词假说的分数的方法，或者校正在与针对一话语的单词搜索处理结束之后的中间结果相对应的N个最好候选者或单词曲线图(graph)中所包括的每个单词假说的分数的方法。在前一种方法中，由于所有的单词假说被处理，因此，处理量增加，然而可以预期精度较高。在后一种方法中，由于中间结果通常仅包括所生成的具有高分数的单词假说，因此，处理量可以较小，然而不能充分地提高精度。

作为使用GMM的音调建模方法，例如，如图7所示，在时间方向和频率方向上使目标元音间隔的音高信息归一化，并且采样轮廓的N个点以形成N维特征向量，并且执行学习，从而对音调建模。此时，通过归一化时间t时的频率Ft而获得的Ft~例如由下式给出

[算式3]

{\tilde{F}}_{t} = \frac{Ft - F \min}{F \max - F \min}

其中，Fmax和Fmin是目标间隔中的频率的最大和最小值。

还在时间方向上的N个点处归一化Ft~。

这种布置使得能够独立地学习要登记在HMM存储单元110中的HMM以及要登记在四声模型存储单元130中的四声模型。例如，可以与“i”的四声(例如“i2”或“i3”)相独立地将表示“i”的HMM学习为一个模型“i”。反之，可以与第三声的音素(例如“i3”或“ao3”)相独立地将表示第三声的四声模型学习为一个模型“第三声”。这是因为每个音调的轮廓表现出独立于音素的类型的几乎相同的形状。即，根据本示例，能够以较少学习量获得使能准确语音识别的HMM和四声模型。

在此示例中，描述了一个单词的识别示例。然而，还能够通过相同方法识别在一个话语中包含多个单词的连续语音。即使在此情况中，也针对每个单词假说执行重判，并计算所有分数之和。

在此示例中，通过GMM来建模四声。替代地，例如，可以使用SVM。在此情况中，由于SVM是二进制鉴别器，因此，通过准备所有组合的鉴别模型(例如，第一声和第二声的鉴别模型以及第一声和第三声的鉴别模型)来执行鉴别。结果，四声中最有可能的一个音调，即与鉴别结果的最大和相对应的音调是否与标识出的音素所对应的音调标记相同，被输出作为分数并且被重判。例如，当音调标记指示第二声，并且四声中与鉴别结果的最大和相对应的一个音调为第二声时，分数“1.0”被输出。替代地，如果音调为第一声，则分数“0”被输出。

[本发明的第二示例性实施例]

接下来描述根据本发明第二示例性实施例的语音识别装置。本示例性实施例的特征在于不仅利用音调模型而且利用上下文模型(contextmodel)来执行音调识别，上下文模型是通过对用作音调历史信息的上下文信息进行建模而创建的。

[对本发明第二示例性实施例的布置的说明]

图8是示出根据本示例性实施例的语音识别装置的总体布置的示例的框图。与图1所示的语音识别装置1不同，图8所示的语音识别装置1a另外地包括上下文模型存储单元31，并且还包括取代音调识别单元21的音调识别单元21a。

上下文模型存储单元31对通过对用作音调历史信息的上下文信息进行建模而形成的上下文模型进行登记。

音调识别单元21a具有如下功能：针对每个单词假说，基于与从单词搜索单元17中的元音间隔标识单元20输出的元音间隔相对应的特征量、登记在音调模型存储单元13中的音调模型以及登记在上下文模型存储单元31中的上下文模型来获取第二分数，并且将第二分数输出给重判单元22，每个所述第二分数表示单词假说的音调标记的似然度。

注意，与语音识别装置1类似，本示例性实施例的语音识别装置1a也可以通过计算机实现。

[对本发明第二示例性实施例的操作的说明]

接下来描述本示例性实施例的操作。注意，与上述第一示例性实施例的操作差别仅在于音调识别单元21a的操作，因此这里仅对音调识别单元21a的操作进行说明。

音调识别单元21a针对从单词搜索单元17输出的每个元音间隔及其音调标记构成的对来执行下面的处理。音调识别单元21a基于与元音间隔相对应的特征量、登记在音调模型存储单元13中的音调模型以及登记在上下文模型存储单元31中的上下文模型来执行音调识别，并且将其每个表示音调标记的似然度的第二分数输出给重判单元22。

[第二示例性实施例的效果]

在本示例性实施例中，不仅利用音调模型而且利用上下文模型来执行音调识别。这使得能够提高音调识别精度。

[第二示例性实施例的示例]

接下来描述第二示例性实施例的示例。

[对第二示例性实施例的示例的布置的说明]

图9是示出根据本示例的语音识别装置10a的总体布置的示例的框图。与图3所示的第一示例性实施例的示例不同，语音识别装置10a另外包括对四声bigram模型进行登记的四声bigram模型存储单元310，并且还包括取代四声识别单元210的四声识别单元210a。注意，四声bigram模型存储单元310和四声识别单元210a分别对应于图8所示的上下文模型存储单元31和音调识别单元21a。

四声bigram模型存储单元310将通过对四声的链接概率进行建模而创建的四声bigram模型登记为上下文模型。

四声识别单元210a具有如下功能：针对每个单词假说，基于与从单词搜索单元170中的元音间隔标识单元200输出的元音间隔相对应的特征量、登记在四声模型存储单元130中的四声模型以及登记在四声bigram模型存储单元310中的四声bigram模型来获取其每个表示单词假说的音调标记的似然度的第二分数，并且将第二分数输出给重判单元220。

注意，与语音识别装置1a类似，本示例性实施例的语音识别装置10a也可以通过计算机实现。

[对第二示例性实施例的示例的操作的说明]

接下来描述本示例的操作。例如假设用户向输入单元140说出图10A所示的连续单词。注意，在下面的描述中，将图10A所示的连续单词称为连续单词A，并且将图10B所示的连续单词称为连续单词B。

声音分析单元150、距离计算单元160和单词搜索单元170执行与上述处理相同的处理。假设连续单词A和B由此被获得作为如图11所示的单词假说(识别结果候选者)。在图11的示例中，连续单词A和B的分数分别为“24.8”和“25.0”。即，在此时间点处，连续单词B的似然度较高。

单词搜索单元170中的单词假说标识单元180、音素假说标识单元190以及元音间隔标识单元200还执行与上述处理相同的处理。连续单词A和B的元音间隔及其音调标记被输出到四声识别单元210a。具体地，对于包括音素“q ue4 r en4 m ei2 w en4 t i2”的连续单词A，元音“ue4”、“en4”、“ei2”、“en4”和“i2”的元音间隔(帧信息)及其音调标记被输出。对于包括音素“q ue4 r en4 m ei2 y ou3 w en4 t i2”的连续单词B，元音“ue4”、“en4”、“ei2”、“ou3”、“en4”和“i2”的元音间隔(帧信息)及其音调标记被输出。

四声识别单元210a利用四声模型以及四声bigram模型来对从单词搜索单元170接收到的连续单词A和B的元音间隔执行四声识别。

假设通过例如针对间隔“m ei2 y ou3w en4”应用目标元音间隔的四声链接概率和音高轮廓，则分别地，基于“ei2”、“ou3”和“en4”的音高获得的分数为“0.5”、“0.3”和“0.6”，基于链接概率获得的分数为“0.4”、“0.2”和“0.3”。对于使用四声bigram模型的链接概率，利用紧邻的之前的元音的音调T_i-1通过下式来计算目标元音的音调T_i的概率

P(T_i)＝P(T_i|T_i-1)

例如，由于紧邻“ei2”的之前的元音为具有第四声的“en4”，因此，“0.4”被获得作为第二声和第四声的链接概率。类似地，假设对于间隔“m ei2 w en4”，分别地，获得基于“ei2”和“en4”的音高的分数为“0.7”和“0.8”，并且获得基于链接概率的分数为“0.4”和“0.7”。在此情况中，作为重判单元220重判所有间隔的结果，例如，获得“32.4”作为连续单词A的分数，并且获得“32.3”作为连续单词B的分数。输出单元230例如将连续单词A输出为最相似结果。

以此方式，不仅使用了每个元音间隔的音高信息而且使用了表示四声的可连接性的链接概率，从而提高了四声识别的精度。

在此示例中，从音调模型获得的分数以及从上下文模型获得的分数被简单地相加以用于重判。然而，可以通过音节的数目或帧数来使分数归一化。例如，可以计算加权和。归一化使得在识别连续语音时能够抑制因包括在单词假说中的音节数目的不同引起的分数变化，从而进一步提高了识别精度。

注意，在每个示例性实施例中，都以音调为例。然而，还可使用音调以外的任何韵律，如果其允许在字典上描述和标识间隔的话。例如，对于英语重音(accent)，在字典中描述了每个单词的重音类型。每种重音类型的短时语音功率的时间变化被建模为特征量，并且每个单词中的重音间隔被标识为识别目标间隔。

[本发明的第三示例性实施例]

图12是图示出根据本发明第三示例性实施例的语音识别装置的总体布置的示例的框图。参考图12，语音识别装置1b包括单词搜索单元17b、韵律识别单元21b和重判单元22b。

单词搜索单元17b具有如下功能：基于每个音素模型与输入语音的特征量之间的声音距离以及语言模型中的单词的音素来执行单词搜索，并且将单词假说以及表示单词假说的似然度的第一分数输出作为单词搜索结果。注意，语言模型包括单词的韵律标记和音素。此外，假设输入语音的识别结果是单词假说，则单词搜索单元17b输出输入语音中的韵律间隔及其韵律标记。

韵律识别单元21b具有如下功能：基于与从单词搜索单元17b输出的韵律间隔相对应的输入特征量之一，输出第二分数，每个所述第二分数表示从单词搜索单元17b输出的韵律标记的似然度。重判单元22b具有利用从韵律识别单元21b输出的第二分数来校正从单词搜索单元17b输出的每个单词假说的第一分数的功能。

语音识别装置1b也可以被认为是包括图1中的音素模型存储单元11、语言模型存储单元12、音调模型存储单元13、输入单元14、声音分析单元15、距离计算单元16和输出单元23的装置，或者除了包括这些功能单元外还包括从外部连接的图8的上下文模型存储单元31的装置。

同样，在此示例性实施例中，与图1和图8所示的语音识别装置1和1a一样，能够准确地识别语调语音。

注意，语音识别装置1b可以通过计算机例如以下面的方式来实现。准备记录有使得计算机用作语音识别装置1b的程序41的盘、半导体存储器或者任何其它机械可读记录介质4，并且计算机读出程序4。计算机基于读出的程序41控制其操作，从而实现单词搜索单元17b、韵律识别单元21b和重判单元22b。

上面已参考示例性实施例和示例描述了本发明，然而，本发明不限于上述示例性实施例和示例。可以在本发明的范围之内对本发明的布置和细节进行各种修改，并且本领域技术人员将容易想到这些修改。

本申请是基于如下申请的并要求其优先权：2007年8月22日提交的日本专利申请No.2007-215958，该申请的公开通过引用全部结合于此。

工业应用性

本发明可应用于使用对诸如汉语之类的语调语言的语音识别的人机界面。

Claims

1.一种语音识别装置，包括：

单词搜索单元，其基于音素模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音素来执行单词搜索，将单词假说和表示所述单词假说的似然度的第一分数输出为单词搜索结果，并且在假设所述输入语音的识别结果为所述单词假说时，输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记；

韵律识别单元，其基于所述输入语音的特征量中与从所述单词搜索单元输出的所述韵律间隔相对应的一个特征量，来输出表示从所述单词搜索单元输出的所述韵律标记的似然度的第二分数；以及

重判单元，其利用从所述韵律识别单元输出的所述第二分数来校正从所述单词搜索单元输出的所述单词假说的第一分数，

其中，所述韵律标记为音调标记和重音类型中的一种，并且

所述韵律间隔为元音间隔和重音间隔中的一种。

2.根据权利要求1所述的语音识别装置，其中，所述重判单元执行如下校正中的一个：校正在单词搜索中被处理的单词假说的分数，以及校正被获得作为单词搜索结果的中间结果的分数。

3.根据权利要求2所述的语音识别装置，其中，所述中间结果是N个最好候选者和单词曲线图中的一个。

4.根据权利要求1所述的语音识别装置，

其中，所述韵律标记为音调标记，并且所述韵律间隔为元音间隔，

并且其中，所述单词搜索单元包括：

单词假说标识单元，其标识单词和连续单词中的至少一个；

音素假说标识单元，其利用语言模型标识所述单词和所述连续单词的至少一个中的音素；以及

元音间隔标识单元，其标识音素的元音的间隔。

5.根据权利要求4所述的语音识别装置，其中，所述元音间隔标识单元将单词搜索中从元音的假说的开始时间到结束时间的间隔标识为所述元音间隔。

6.根据权利要求1所述的语音识别装置，其中，所述韵律标记为音调标记，并且所述韵律间隔为元音间隔，并且其中，所述韵律识别单元利用使用元音间隔中的音高的时间变化作为特征量而建模的音调模型来执行韵律识别。

7.根据权利要求6所述的语音识别装置，其中，所述音调模型独立于用来计算所述声音距离的音素模型。

8.根据权利要求1所述的语音识别装置，其中，所述韵律标记为音调标记，并且所述韵律间隔为元音间隔，并且其中，所述韵律识别单元利用音调模型和上下文模型来执行韵律识别，所述音调模型是使用元音间隔中的音高的时间变化作为特征量而被建模的，所述上下文模型是通过对用作韵律历史信息的上下文信息进行建模而创建的。

9.根据权利要求8所述的语音识别装置，其中，所述上下文模型是通过对元音的音调的链接概率进行建模而创建的。

10.一种语音识别方法，包括以下步骤：

基于音素模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音素来执行单词搜索，将单词假说和表示所述单词假说的似然度的第一分数输出为单词搜索结果，并且在假设所述输入语音的识别结果为所述单词假说时，输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记；

基于所述输入语音的特征量中与所输出的韵律间隔相对应的一个特征量，来输出表示所输出的韵律标记的似然度的第二分数；以及

利用所输出的第二分数来校正所输出的单词假说的第一分数，

其中，所述韵律标记为音调标记和重音类型中的一种，并且

所述韵律间隔为元音间隔和重音间隔中的一种。

11.根据权利要求10所述的语音识别方法，其中，校正步骤包括如下步骤中的一个：校正在单词搜索中被处理的单词假说的分数，以及校正被获得作为单词搜索结果的中间结果的分数。

12.根据权利要求11所述的语音识别方法，其中，所述中间结果是N个最好候选者和单词曲线图中的一个。

13.根据权利要求10所述的语音识别方法，

并且其中，执行单词搜索的步骤包括以下步骤：

标识单词和连续单词中的至少一个；

利用语言模型标识所述单词和所述连续单词的至少一个中的音素；以及

标识音素的元音的间隔。

14.根据权利要求13所述的语音识别方法，其中，标识间隔的步骤包括以下步骤：将单词搜索中从元音的假说的开始时间到结束时间的间隔标识为所述元音间隔。

15.根据权利要求10所述的语音识别方法，其中，所述韵律标记为音调标记，并且所述韵律间隔为元音间隔，并且其中，输出第二分数的步骤包括以下步骤：利用使用元音间隔中的音高的时间变化作为特征量而建模的音调模型来执行韵律识别。

16.根据权利要求15所述的语音识别方法，其中，所述音调模型独立于用来计算所述声音距离的音素模型。

17.根据权利要求10所述的语音识别方法，其中，所述韵律标记为音调标记，并且所述韵律间隔为元音间隔，并且其中，输出第二分数的步骤包括以下步骤：利用音调模型和上下文模型来执行韵律识别，所述音调模型是使用元音间隔中的音高的时间变化作为特征量而被建模的，所述上下文模型是通过对用作韵律历史信息的上下文信息进行建模而创建的。

18.根据权利要求17所述的语音识别方法，其中，所述上下文模型是通过对元音的音调的链接概率进行建模而创建的。