CN1185621C

CN1185621C - 语音识别装置与语音识别方法

Info

Publication number: CN1185621C
Application number: CNB018127134A
Authority: CN
Inventors: 宮崎敏幸; 石川洋儿
Original assignee: Asahi Kasei Kogyo KK
Current assignee: Asahi Kasei Corp
Priority date: 2000-07-13
Filing date: 2001-07-13
Publication date: 2005-01-19
Anticipated expiration: 2021-07-13
Also published as: DE60124559T2; DE60124559D1; WO2002007146A1; CN1441948A; US7272561B2; JP3888543B2; EP1308929A1; US20050119883A1; AU2001269521A1; KR20030014331A; EP1308929B1; EP1308929A4; KR100547533B1

Abstract

用性别特定的两种隐藏的马尔可夫模型来表示待识别的每一个单词，并且事先设定在性别特定的隐藏的马尔可夫模型之中的各输出概率函数以及各转移概率都被事先存储在ROM(6)之中。参照由特征值检测器(3)检出的各项特征参数，并参照隐藏的马尔可夫模型，语音识别器(4)确定一个特征参数序列的出现概率。在确定出现概率的过程中，语音识别器(4)向每一个单词给出性别特定的各隐藏的马尔可夫模型所共用的一种隐藏的马尔可夫模型的一个状态序列，将存储在ROM(6)之中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选出最大的乘积作为共用的隐藏的马尔可夫模型的每一种状态的概率，基于已选出的乘积来确定出现概率，并基于这样确定的出现概率来识别输入的语音。

Description

语音识别装置与语音识别方法

技术领域

本发明涉及使用隐藏的马尔可夫模型(HMM)的语音识别装置与语音识别方法。具体地说，即使语音特性随着讲者的年龄和性别发生改变，或者对单一词汇项存在不止一种发音方法(例如，以口语方式来表达时)，本发明都能以高精度来识别包含在词汇表中的各个单词的发音，并降低对存储的需求。

背景技术

一般地说，用于识别非特定用户所共用的固定单词的技术被称为与讲者无关的语音识别。在与讲者无关的语音识别中，关于非特定用户所共用的固定单词的各项特征参数的信息被积累在一个存储单元，例如一个ROM之中。

用于将语音样本转换为特征参数序列的已知方法包括倒频谱分析以及线性预测分析。此外，使用各种隐藏的马尔可夫模型的各种方法通常被用来准备关于非特定用户所共用的固定单词的各项特征参数的信息(数据)，并将该信息与由输入语音转换过来的特征参数序列进行比较。

在《用于语音和声音信息的数字信号处理》(作者：Shokodo有限公司的Kiyohiro Shikano，Tetsu Nakamura和Shiro Ise)一书中，详细描述了借助于隐藏的马尔可夫模型来进行与讲者无关的语音识别技术。

例如，在日本语的情况下，在《用于语音和声音信息的数字信号处理》第二章中所描述的音素集被用来作为一个语音单元，并且使用一种隐藏的马尔可夫模型为每一个音素建模。图6表示音素集标记的列表。例如，可以使用各讲者共用的各音素标记的一个网络(固定单词标记的序列)来给单词“Hokkaido“建模。

若提供了如图7(A)所示的固定单词标记序列以及如图7(B)所示的基于相应的隐藏的马尔可夫模型的音素模型数据，则专业人士使用在《用于语音和声音信息的数字信号处理》第四章中所描述的维特比算法，就能容易地构建一个与讲者无关的语音识别装置。

在图7(B)中，a(I，J)表示从状态I转移到状态J的转移概率。例如，图中的a(1，1)表示从状态1到状态1的转移的转移概率。此外，b(I，x)表示当获得声学参数(特征参数)x时，在状态I中的一种输出概率。因此，图中的b(1，x)表示当获得声学参数x时，在状态1中的一种输出概率。

此外，在图7(B)中的pI表示状态I的概率，并且根据下面的方程式(1)对它进行更新。

pI＝max(p(I-1)×a(I-1，I)，pI×a(I，I))×b(I，X) …(1)

顺便说一句，在方程式(1)右边的max( )意味着在max( )中的各乘积中选择最大的乘积。下文同此。

其次，将参照图8，来说明使用上述的男子和女子共用的隐藏的马尔可夫模型来进行语音识别的整个流程。

首先，在语音信号中检出(提取)各项特征参数。其次，参照已检出的各项特征参数，并参照事先确定的男女共用的隐藏的马尔可夫模型，使用方程式(1)来计算特征参数序列的各出现概率。然后，从已计算出来的各个概率中选出最高的概率，并且获得作为输入语音的识别结果的给出最高概率的音素标记序列。

由于声道长度的不同，所以在成年男子和女子之间的声学条件通常是不同的。因此，在一种有时被用来提高语音识别率的(多模板)方法中，分别准备男性用声学模型以及女性用声学模型，如图9(A)所示，使用男子语音数据以及女子语音数据，针对男子和女子分别准备含有讲话时待识别的词汇的隐藏的马尔可夫模型状态序列，如图9(B)所示。

在图9(B)中，a(I，J)表示一个女性用模型从状态I转移到状态J的转移概率，同时，A(I，J)表示一个男性用模型从状态I转移到状态J的转移概率。此外，b(I，x)表示当获得女性用模型的声学参数x时，在状态I中的一种输出概率，同时B(I，x)表示当获得男性用模型的声学参数x时，在状态I中的一种输出概率。

此外，在图9(B)中的pI表示女性用模型的状态I的概率，并且根据下面的方程式(2)对它进行更新。

pI＝max(p(I-1)×a(I-1，I)，pI×a(I，I))×b(I，X)…(2)

此外，在图9(B)中的PI表示男性用模型的状态I的概率，并且根据下面的方程式(3)对它进行更新。

PI＝max(P(I-1)×A(I-1，I)，PI×A(I，I))×B(I，X)…(3)

其次，将参照图10，来说明使用上述的两种类型的隐藏的马尔可夫模型，即，针对男子和女子的隐藏的马尔可夫模型，来进行语音识别的整个流程。

首先，在语音信号中检出(提取)各项特征参数。其次，参照已检出的各项特征参数，并参照事先确定的男性用隐藏的马尔可夫模型(单词)Ma1，Ma2，…，Man，以及事先确定的女性用隐藏的马尔可夫模型(单词)Mb1，Mb2，…，Mbn，使用方程式(2)和(3)来计算特征参数序列的各出现概率。然后，从已计算出来的各个概率中选出最高的概率，并且获得作为输入语音的识别结果的给出最高概率的音素标记序列。

在这种情况下，与从男子语音数据以及女子语音数据中准备一种声学模型(隐藏的马尔可夫模型)时相比，语音识别率得以提高。但是，与使用男女共用模型时相比，用以组成词汇量的存储器容量翻了一番。此外，用以保存关于各种状态的概率的信息的存储容量也有所增加。

如上所述，与从男子语音数据以及女子语音数据中准备一种声学模型时相比，使用多模板、性别特定声学模型来进行与讲者无关的语音识别提高了语音识别率，但是，引入多模板实际上使词汇翻了一番，由此导致所使用的存储容量的增加。

最近，对适用于越来越宽的年龄组范围的语音识别应用程序的需求与日俱增，并且，不管是什么年龄组，都希望得到高的语音识别率。因此，可以想象，将来可能使用针对成年男子、成年女子、学龄儿童、老年男子和老年女子的各种声学模型。在这种情况下，词汇量实际上将扩大至5倍，使得对存储容量的需求进一步地增加。

词汇量越大，对存储容量的需求将提高得更多。这将是一个高成本(生产成本)的缺点，例如，当把语音识别纳入到一部移动电话之中时，情况就是这样。因此，人们希望限制对存储容量的需求的增加，并降低生产成本，同时使用多种声学模型来提高语音识别率。

顺便说一句，即使当使用男女共用的声学模型时，若某些单独的词汇项(单词)具有不同的口语表达方式，则它被当作两个词汇项来处理。例如，单词“Hokkaido”可能有两种发音：“hotskaidou”和“hotskaidoo”。这可以使用维特比算法来解决，如图11所示。

在图11(B)中，au(I，J)表示音素u从状态I转移到状态J的转移概率，同时，ao(I，J)表示音素o从状态I转移到状态J的转移概率。此外，bu(I，x)表示当获得音素u的声学参数x时，在状态I中的一种输出概率，同时，bo(I，x)表示当获得音素o的声学参数x时，在状态I中的一种输出概率。

此外，在图11(B)中的uI表示音素u的状态I的概率，并且根据下面的方程式(4)对它进行更新。

uI＝max(u(I-1)×au(I-1，I)，uI×au(I，I))×bu(I，X)…(4)

此外，在图11(B)中的oI表示音素o的状态I的概率，并且根据下面的方程式(5)对它进行更新。

oI＝max(o(I-1)×ao(I-1，I)，oI×ao(I，I))×bo(I，X)…(5)

此外，如同在使用多模板、性别特定的声学模型时的情形那样，对存储容量的需求有所增加。

因此，本发明的一个目标就是，提供一种语音识别装置和语音识别方法，在语音识别中，在不增加工作存储器的存储容量等的前提下，它能提高语音识别率的精度。

发明内容

本发明提供一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，上述装置包括：检测装置，用于检测输入语音的各项特征参数；识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量，上述隐藏的马尔可夫模型表示多个预定单词中的每一个；识别装置，它参照由上述检测装置所检出的各项特征参数，并参照上述隐藏的马尔可夫模型，用于确定上述各项特征参数的序列的出现概率；其特征在于，上述识别装置在确定上述出现概率的过程中，向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对上述多种类型的隐藏的马尔可夫模型来说是共用的，以及上述识别装置将存储在上述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值和转移概率对相乘，选择最大的乘积作为上述共用的隐藏的马尔可夫模型的每一种状态的概率，并根据所选出的最大乘积来确定上述出现概率，然后根据这样确定的出现概率来识别输入的语音。

根据本发明的语音识别装置的实现包括一个语音识别装置，其特征在于，上述识别装置在上述多种类型的隐藏的马尔可夫模型中共享上述隐藏的马尔可夫模型的每一种状态的转移概率，以便确定所述出现概率。

根据本发明的语音识别装置的实现包括一个语音识别装置，其特征在于，上述多种预定类型的隐藏的马尔可夫模型至少包括下列各种模型中的两种类型：性别特定的各隐藏的马尔可夫模型，年龄特定的多种隐藏的马尔可夫模型，基于含有不同类型的噪声的语音数据的多种隐藏的马尔可夫模型，以及其他隐藏的马尔可夫模型。

本发明提供一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，上述装置包括：检测装置，用于检测输入语音的各项特征参数；识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量，这些隐藏的马尔可夫模型中的每一个都表示多个预定的单词中的每一个，以及使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量；以及识别装置，它参照由上述检测装置所检出的各项特征参数，并参照上述隐藏的马尔可夫模型，用于确定上述各项特征参数的序列的出现概率，其特征在于，在确定上述出现概率的过程中，上述识别装置在用于部分表达(partial expression)的上述多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的一个状态序列，以及上述识别装置将在上述用于部分表达的多个隐藏的马尔可夫模型中事先设定的各输出概率函数以及各转移概率中，每一个事先设定的输出概率函数值和转移概率对相乘，选择最大的乘积作为上述共用的隐藏的马尔可夫模型的每一种状态的概率，并根据所选出的最大乘积来确定上述出现概率，然后根据这样确定的出现概率来识别输入的语音。

此外，本发明提供了一种语音识别方法，包括下列各步骤：在存储器中，事先存储各输出概率函数以及各转移概率，它们使用在表示多个预定单词中的每一个的多种预定类型的隐藏的马尔可夫模型中所事先设定的各项特征参数作为自变量；以及在语音识别过程中，检测输入语音的各项特征参数，参照已检出的各项特征参数，并参照上述的各隐藏的马尔可夫模型，来确定上述各项特征参数的序列的出现概率，并根据这样确定的出现概率来识别输入的语音，其特征在于，在确定上述出现概率的过程中，上述方法向每一个上述的单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对上述多种类型的隐藏的马尔可夫模型来说是共用的，上述方法将存储在上述存储器之中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值和转移概率对相乘，选择最大的乘积作为上述共用的隐藏的马尔可夫模型的每一种状态的概率，以及根据所选出的最大乘积来确定上述出现概率，然后根据这样确定的出现概率来识别输入的语音。

根据本发明的语音识别方法的实现包括一种语音识别方法，其特征在于，在上述多种类型的隐藏的马尔可夫模型中，上述隐藏的马尔可夫模型的每一种状态的转移概率被共享，以便确定上述出现概率。

根据本发明的语音识别方法的实现包括一种语音识别方法，其特征在于，上述多种预定类型的隐藏的马尔可夫模型至少包括下列各种模型中的两种类型：性别特定的各隐藏的马尔可夫模型，年龄特定的多种隐藏的马尔可夫模型，基于含有不同类型的噪声的的语音数据的多种隐藏的马尔可夫模型，以及其他隐藏的马尔可夫模型。

此外，本发明提供了一种语音识别方法，包括下列各步骤：在存储器中，事先存储各输出概率函数以及各转移概率，它们使用在各表示多个预定单词中的每一个的多种隐藏的马尔可夫模型中所事先设定的各项特征参数作为自变量，并且使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量；并且在语音识别过程中，检测输入语音的各项特征参数，参照已检出的各项特征参数，并参照上述各隐藏的马尔可夫模型，来确定上述各项特征参数的序列的出现概率，并根据这样确定的出现概率来识别输入的语音，其特征在于，在确定上述出现概率的过程中，所述方法在用于部分表达的上述多个隐藏的马尔可夫模型中共享其中一种隐藏的马尔可夫模型的一个状态序列，将在用于部分表达的上述多个隐藏的马尔可夫模型中所事先设定的各输出概率函数以及各转移概率中，每一个事先设定的输出概率函数值和转移概率对相乘，选择最大的乘积作为上述共用的隐藏的马尔可夫模型的每一种状态的概率，并且根据所选出的最大乘积来确定上述出现概率，然后根据这样确定的出现概率来识别输入的语音。

这样一来，本发明使用多种类型的隐藏的马尔可夫模型(声学模型)，但在语音识别过程中，在不使用多种模板来识别各词汇项(单词)。因此，它能在不增加用于语音识别的工作存储器等的存储容量的前提下，提高语音识别率的精度。

此外，即使当一个单独的词汇项存在不止一种发音方法时，例如当用口语方式来表达时，本发明通过使用一种隐藏的马尔可夫模型，就能在不增加用于语音识别的工作存储器等的存储容量的前提下，提高语音识别率的精度。

附图说明

图1是一份方框图，表示根据本发明的语音识别装置的一个实施例的配置实例；

图2是一份解释性的图，说明根据本发明的实施例的维特比算法；

图3是一份解释性的图，说明根据本发明的实施例的识别运算的整个流程；

图4是一份解释性的图，说明根据本发明的另一个实施例的维特比算法；

图5是一份图，示例性地对根据本发明的一个实例与常规实例进行比较；

图6是一份图，表示音素集标记列表；

图7是一份图，表示使用常规的男女共用的隐藏马尔可夫模型的维特比算法；

图8是一份图，表示使用常规的男女共用的隐藏马尔可夫模型的识别运算的整个流程；

图9是一份图，表示一种使用常规的多模板、性别特定的隐藏马尔可夫模型的维特比算法；

图10是一份图，表示一种使用常规的多模板、性别特定的隐藏马尔可夫模型的识别运算的整个流程；

图11是一份图，表示当一个词汇项可以用两种方式进行发音时，使用男女共用的隐藏马尔可夫模型的维特比算法的常规实例。

实施本发明的最佳方式

下面，将参照诸附图，对本发明的各实施例进行说明。

首先，参照图1至3，来说明根据本发明的语音识别装置的一个

实施例。

根据本实施例的语音识别装置至少包括一个话筒1，一个A/D转换器2，一个特征值检测器3，一个语音识别器4，一个输出单元5，一个只读存储器(ROM)6，以及一个随机存取存储器(RAM)7，如图1所示。

话筒1将语音转换为相应的模拟电信号。A/D转换器2将模拟信号转换为数字信号。特征值检测器3根据数字信号来确定各项特征参数，并将已确定的各项特征参数转换为一个时间序列。

语音识别器4根据下述各步骤，使用各种隐藏的马尔可夫模型来识别非特定讲者的语音。各识别步骤的具体细节将在下面加以说明。输出单元5例如可能是一个显示单元，输出由语音识别器4产生的识别结果。

ROM是一个只读存储器，它存储下述的语音识别各步骤、下述的关于女性用隐藏的马尔可夫模型的概率数据、下述的关于男性用隐藏的马尔可夫模型的概率数据，等等。

RAM是一种可自由地读/写的随机存取存储器，在如下所述的语音识别过程中，它被用来作为工作存储器。例如，在语音识别过程中，它暂存必需的数据和结果数据。

下面，将参照诸附图来说明根据具有上述配置的实施例的语音识别装置的语音识别运算。

根据本实施例，将事先为各词汇项(各单词)例如“Hokkaido”，“Aomori”，“Akita”准备两种类型的隐藏的马尔可夫模型，即，针对男子和女子的隐藏的马尔可夫模型，这些词汇项是在非特定讲者的语音识别中待识别。此外，事先设置了用以形成针对每一种隐藏的马尔可夫模型的各状态的转移概率和输出概率函数的多个对子的各项常数，并且这些概率数据被事先存储在ROM 6之中。

例如，假定由一名成年人讲者(与性别无关)通过话筒1输入一个口述单词“hotskaidou”。该语音由话筒1转换为模拟电信号，随后，由A/D转换器2转换为数字信号。特征值检测器3根据数字信号来确定各项特征参数，并将它们转换为时间序列的各项特征参数。

参照被存储在ROM 6之中的针对男子和女子的分开的隐藏马尔可夫模型的各转移概率和各输出概率函数，并参照已转换的时间序列各项特征参数(各项声学参数)，语音识别器4使用图2所示的维特比算法来确定特征参数序列的出现概率，并根据已确定的出现概率来识别输入的语音。

图2(A)表示男女共用的音素序列，而图2(B)则表示每一个音素的隐藏马尔可夫模型状态序列。

在图2(B)中，a(I，J)表示女性用一个模型从状态I转移到状态J的转移概率，而A(I，J)则表示男性用一个模型从状态I转移到状态J的转移概率。此外，b(I，x)表示当女性用模型获得声学参数x时，在状态I中的输出概率，而B(I，x)则表示当男性用模型获得声学参数x时，在状态I中的输出概率。

除此以外，在图2(B)中的pI表示在男女共用的状态序列中，状态I的概率，并且根据下面的方程式(6)进行更新。

pI＝max(p(I-1)×PenterI，pI×PselfI) …(6)

其中，概率Pself I以及概率Penter I由方程式(7)和方程式(8)给出。

PselfI＝max(a(I，I)×b(I，X)，A(I，I)×B(I，X))…(7)

PenterI＝max(a(I-1，I)×b(I，X)，A(I-1，I)×B(I，X))…(8)

这样一来，语音识别器4向每一个词汇项(单词)给出一个共用的隐藏马尔可夫模型的状态序列，上述词汇项例如“Hokkaido”或“Aomori”，对于针对男子和女子的分开的隐藏马尔可夫模型来说是共用的。

然后，针对每一个单词，确定共用的隐藏马尔可夫模型的每一种状态的概率。为了做到这一点，使用一个给定的特征参数作为自变量(输入)，将在男性用隐藏马尔可夫模型中事先设定的输出概率函数与转移概率相乘，同时，使用该给定的特征参数作为自变量(输入)，将在女性用隐藏马尔可夫模型中事先设定的输出概率函数与转移概率相乘。随后，从已确定的这两个概率数值(乘积)中选出较大者[见方程式(7)和(8)]。

针对隐藏的马尔可夫模型的每一次状态转移都进行上述运算，以便最后确定各状态的概率。因而，针对每一个单词，例如“Hokkaido”或“Aomori”，生成一种隐藏的马尔可夫模型的一个状态序列。这样生成的每一个状态序列含有涉及男性用隐藏的马尔可夫模型的概率数据的乘积，以及涉及女性用隐藏的马尔可夫模型的概率数据的乘积的混合物。

如图3所示，该图归纳了根据本实施例的语音识别装置的语音识别器4的整个数据流程。

如图3所示，首先，从语音信号中检出(提取)各项特征参数。其次，参照已检出的各项特征参数，事先确定男性用各隐藏的马尔可夫模型(各单词)Ma1，Ma2，…，Man，事先确定女性用各隐藏的马尔可夫模型(各单词)Mb1，Mb2，…，Mbn，并使用方程式(7)和(8)来计算特征参数序列的出现概率。

为了确定针对每一个单词的共用的隐藏的马尔可夫模型的(男女共用的隐藏的马尔可夫模型)每一种状态的概率，通过使用给定的特征参数作为自变量，将事先设置在男性用马尔可夫模型中的输出概率函数和转移概率相乘，并使用给定的特征参数作为自变量，将事先设置在女性用马尔可夫模型中的输出概率函数和转移概率相乘，然后从已确定的两个概率(乘积)中选出较大的一个。

接下来，将用这种方法选出的各项乘积相加，以确定每一个特征参数序列的出现概率。然后，从已确定的出现概率中选出最高的概率，并且得到了作为已输入语音的识别结果的给出最高概率的音素标记序列。

如上所述，根据本实施例，一个为针对男子和女子的分开的马尔可夫模型所共用的单词具有一个共用的隐藏的马尔可夫模型的一个状态序列，而且共用的隐藏的马尔可夫模型的每一种状态的概率被确定。为了做到这一点，使用一个给定的特征参数作为自变量，将事先设置在男性用马尔可夫模型之中的输出概率函数和转移概率相乘，并使用一个给定的特征参数作为自变量，将事先设置在女性用马尔可夫模型之中的输出概率函数和转移概率相乘，然后在已确定的两个概率中选出较大的一个。

这样，即使存在着年龄和性别的差异，本实施例通过使用多个隐藏的马尔可夫模型，仍然可以提高识别率。

此外，根据本实施例，提供了为针对男子和女子的隐藏的马尔可夫模型所共用的隐藏的马尔可夫模型，用于语音识别。而且，本实施例能够根据待计算的状态数目来降低对存储器容量的需求，使得示于图9和图10的算法所需的存储器容量减半。

顺便说一句，根据以上实施例，男女共用状态序列中每一种状态的概率是根据方程式(6)至(8)来确定的，而不是通过使用男性用模型和女性用模型所共有的一种状态转移概率来确定的。

然而，根据本发明，也可以使用男性用模型和女性用模型所共有的状态转移概率。在该种情况下，为了确定男女共用的状态序列中的概率，首先要选出最大的输出概率，然后将已选出的输出概率与共用的转移概率相乘。

下面，将对本发明的另一实施例的语音识别装置进行说明。

根据本实施例的语音识别装置具有一个隐藏的马尔可夫模型，用以处理一个单词有不止一种发音方法的情形，例如用口语方式进行表达时的情形。

根据本实施例的语音识别装置在构成上与图1所示的语音识别装置相似，其不同之处在于，下述的概率数据以及下述的识别步骤都事先存储在ROM 6之中，存储在ROM 6之中的、用于语音识别器4的识别步骤详见下文。因此，这里只说明各不同的部分。

具体地说，根据本实施例，用一个隐藏的马尔可夫模型来表示每一个待识别的单词。对于有多种发音的单词来说，每一个单词的多种发音之间的不同之处部分地由多个隐藏的马尔可夫模型来表示，而每一个单词作为一个整体由一个马尔可夫模型来表示。使用在这些隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量的各输出概率函数和各转移概率被事先存储在ROM 6之中。

在语音识别过程中，参照由特征值检测器3提供的各项特征参数和各隐藏的马尔可夫模型，正如下面所描述的那样，语音识别器4确定特征参数序列将要出现的出现概率，然后在这样确定的出现概率的基础上，识别输入的语音。

此外，在确定出现概率的过程中，语音识别器4在用作部分表达的多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的状态序列。

此外，语音识别器4还将事先设置在用于部分表达的多个隐藏马尔可夫模型的各输出概率函数值和各转移概率中每一个事先设定的输出概率函数值和转移概率对相乘，并且选出最大的乘积，作为共用的隐藏的马尔可夫模型的每一种状态的概率。

此外，语音识别器4还在已选出的最大乘积的基础上，确定出现概率，然后在这样确定的出现概率的基础上，识别输入的语音。

图4表示用于根据本实施例的语音识别装置的一种维特比算法。图4A表示一个音素序列，例如单词“Hokkaido”可以发音为“Hotskaidou”，也可以发音为“Hotskaidoo”。图4B表示隐藏的马尔可夫模型的各种状态，表示在两种发音之间不同的最后一个音素。

在图4B中，au(I，J)表示音素u从状态I转移到状态J的转移概率，而ao(I，J)表示音素o从状态I转移到状态J的转移概率。此外，bu(I，x)表示当获得音素u的声学参数x时，在I状态下的输出概率，而bo(I，x)则表示当获得音素o的声学参数x时，在I状态下的输出概率。

此外，图4(B)中的pI表示在音素u/o的状态序列中状态I的概率，并且可以根据下面的方程式(9)对其值进行更新：

pI＝max(p(I-1)×PenterI，pI×PselfI) …(9)

其中，概率PselfI和PenterI由方程式(10)和方程式(11)给出。

PselfI＝max(au(I，I)×bu(I，X)，ao(I，I)×bo(I，X))…(10)

PenterI＝max(au(I-1，I)×bu(I，X)，ao(I-1，I)×bo(I，X)) …(11)

根据本实施例的维特比算法使语音识别器4具有音素u和音素o共用的隐藏的马尔可夫模型的一个状态序列。然后，共用的隐藏的马尔可夫模型的每一种状态的概率被确定下来。为了确定音素u和音素o的每一种状态的概率，使用一个给定的特征参数，将在隐藏的马尔可夫模型中的音素u的输出概率函数和转移概率相乘，并且使用该给定的特征参数，将在隐藏的马尔可夫模型中的音素o的输出概率函数和转移概率相乘，然后，从两个已确定的概率(乘积)中选出较大的一个。

如上所述，由于本实施例在音素u和音素o之间共享一个隐藏的马尔可夫模型的一个状态序列，所以与图11所示的算法相比，能够降低识别计算所需的存储器容量。

在不限定数字的位数的相关的日本数字识别中，通过使用评估数据来衡量识别率和存储需求，上述评估数据含有在3种情况下10名男子和10名女子共计20个人的语音，并且加上从一个展览会上收集到的噪音(信噪比＝10dB)，这3种情况分别为：使用男子和女子共用的声学模型的情况，使用针对男子和女子的分开的多模板的声学模型的情况，以及使用本发明的实施例(示于图1至3)的情况。此外，在维特比处理过程中使用了修整，使得在男女共用模型的所有状态中，大约有80％能够保持各隐藏的马尔可夫模型的各状态。图5表示在不同的识别方法之间，对识别率和存储器容量需求进行比较的一份比较表。

从图5中可以看出，根据本发明的实施例，跟“使用男女共用声学模型的情况”相比，平均识别率有所提高。与“使用针对男子和女子二者的分开的多模板声学模型的情况”相比，情况也是如此。此外，与“使用针对男子和女子二者的分开的多模板声学模型的情况”相比，识别率低于60％的人数也有所减少。这可能是由于针对男子和女子的分开的模型减缓了根据声学特性的更男性化的语音或更女性化的语音的识别率降低的趋势，而声学特征是在“使用男女共用的声学模型的情况”下观察到的。

就用于保存关于隐藏的马尔可夫模型各种状态的信息的工作存储器，以及用于存储词汇库的存储器而言，本发明的实施例所产生的结果与在“使用男女共用声学模型的情况”下产生的结果是一样的。

根据以上实施例(示于图1至3)，在语音识别中待识别的每一个单词都由两种类型的隐藏的马尔可夫模型，即针对男子和女子的两种隐藏的马尔可夫模型来表示，并且事先设置在这些隐藏的马尔可夫模型之中的各输出概率函数和转移概率事先存储在ROM 6之中。

在语音识别过程中，参照由特征值检测器3提供的各项特征参数并参照各隐藏的马尔可夫模型，语音识别器4确定特征参数序列将要出现的出现概率，然后在这样确定的出现概率的基础上，识别输入的语音。

此外，在确定出现概率的过程中，语音识别器4具有针对每一个单词的两种隐藏的马尔可夫模型所共用的一种隐藏的马尔可夫模型中的一个状态序列。共用的隐藏的马尔可夫模型的每一种状态的概率也有待于确定。为了做到这一点，使用一个给定的特征参数，将事先设置在男性用马尔可夫模型中的输出概率函数和转移概率相乘，并使用该给定的特征参数，将事先设置在女性用马尔可夫模型中的输出概率函数和转移概率相乘。然后，从已确定的两个概率中选出较大的一个。

然而，除了如上所述的在语音识别中待识别的每一个单词由两种类型的隐藏的马尔可夫模型，即男性用模型和女性用模型来表示的情况以外，根据需要，本发明还可以应用于下列3种情况。

第一种情况涉及使用两种隐藏的马尔可夫模型，即针对成年人和针对儿童的隐藏的马尔可夫模型，用以表示在语音识别中待识别的每一个单词。

第二种情况涉及使用5种类型的隐藏的马尔可夫模型，即针对成年男子、成年女子、老年男子、老年女子以及儿童的隐藏的马尔可夫模型，或者使用针对不同年龄组的多个分开的隐藏的马尔可夫模型。

第三种情况涉及使用基于不含有很多噪声的语音数据的一个隐藏的马尔可夫模型，以及基于含有很多噪声的语音数据的一个隐藏的马尔可夫模型，用以表示在语音识别中待识别的每一个单词。

例如，当在一部汽车里面使用一个语音识别装置时，若汽车没有开动，则噪声非常低，但随着汽车的加速或车内立体声***音量的加大，噪声将会升高。信噪比可达到-10dB。

另一方面，当使用基于信噪比约为20dB含有低噪声的语音数据隐藏的马尔可夫模型时，随着噪声的增加，识别性能将有所降低，并且，当信噪比降低到0dB或以下时，识别将变为不实际的。

反过来说，当使用在语音数据上叠加了很多噪声、信噪比为-10dB左右的隐藏的马尔可夫模型时，在信噪比为-10至0dB之间，将获得良好的识别性能，但在0dB以上的安静环境中，识别性能将降低到不实际的水平。

因此，在第三种情况下，使用基于具有20dB信噪比的语音数据的一个隐藏的马尔可夫模型以及基于具有-10dB信噪比的一个隐藏的马尔可夫模型。在从信噪比为-10dB的高噪声环境到信噪比超过20dB的安静环境的一个宽范围内，都能保持高的识别性能。

存在各种类型的噪声，包括如上所述的在行驶中的汽车中的噪声，在一个闹市区中的喧闹声，背景音乐，以及在办公室、工厂和其他位置的噪声。并且信噪比变化很大。因此，可以以组合方式来使用基于叠加了相对安静的办公室噪声的一个隐藏的马尔可夫模型以及基于叠加了在行驶中的汽车的高噪声的一个隐藏的马尔可夫模型。

在第一至第三种情形中所使用的各步骤都相同于上面的各实施例，所不同的是上述实施例使用两种类型的隐藏的马尔可夫模型，因此，其说明从略。

根据上述的各实施例，已经说明下述两种情形：第一种情形是，在语音识别中待识别的每一个单词都用两种类型的隐藏的马尔可夫模型来表示；第二种情形是，在语音识别中待识别的每一个单词都用参照上述第一至第三种情形所描述的方式来表示。

然而，根据本发明，在语音识别中待识别的每一个单词都可以用例如4种类型的隐藏的马尔可夫模型来表示：性别特定的两种隐藏的马尔可夫模型，以及基于含有不同类型的噪声的语音数据的两种隐藏的马尔可夫模型。

还有可能基于语音数据来准备隐藏的马尔可夫模型，上述语音数据被划分为具有不同特征的多个组，这些特征包括随着讲者的声道形状而改变的各项声学特性，例如声道的长度或厚度，他/她如何张开他的/她的口，音调，变音，他的/她的语音的升调，讲话速度，或操作环境。

工业上的可应用性

这样，本发明在语音识别中使用多种类型的隐藏的马尔可夫模型(声学模型)，但不使用多模板来识别各词汇项(各单词)。因此，在不增加用于语音识别的工作存储器等的存储容量的前提下，它能提高语音识别率的精度。

此外，即使当一个单独的词汇项存在不止一种的发音方法时(例如，用口语来表达时)，本发明仍能通过使用一种类型的隐藏的马尔可夫模型，在不增加用于语音识别的工作存储器等的存储容量的前提下，提高语音识别率的精度。

Claims

1.一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，

其特征在于，所述装置包括：

检测装置，用于检测输入语音的各项特征参数；

识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种预定类型的隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量，所述多种隐藏的马尔可夫模型表示多个预定的单词中的每一个；以及

识别装置，它参照由所述检测装置所检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述各项特征参数的序列的出现概率，

所述识别装置在确定所述出现概率的过程中，向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的，以及

所述识别装置将存储在所述识别数据存储装置中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，根据所选出的最大乘积来确定所述出现概率，然后根据这样确定的出现概率来识别输入的语音。

2.根据权利要求1所述的语音识别装置，其特征在于，所述识别装置在所述多种类型的隐藏的马尔可夫模型中共享所述隐藏的马尔可夫模型的每一种状态的转移概率，以便确定所述出现概率。

3.根据权利要求1或2所述的语音识别装置，其特征在于，所述多种预定类型的隐藏的马尔可夫模型包括下列各种模型中至少两种类型：性别特定的各隐藏的马尔可夫模型，年龄特定的多种隐藏的马尔可夫模型，以及基于含有不同类型的噪声的的语音数据的多种隐藏的马尔可夫模型。

4.一种语音识别装置，使用隐藏的马尔可夫模型来识别非特定讲者的语音，

其特征在于，所述装置包括：

检测装置，用于检测输入语音的各项特征参数；

识别数据存储装置，用于事先存储各输出概率函数以及各转移概率，它们使用在多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量，这些隐藏的马尔可夫模型中的每一个都表示多个预定单词中的每一个，以及使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的所述各项特征参数作为自变量；以及

识别装置，它参照由所述检测装置所检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述特征参数的序列的出现概率，

在确定所述出现概率的过程中，所述识别装置在用于部分表达的所述多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的一个状态序列，以及

所述识别装置将在所述用于部分表达的多个隐藏的马尔可夫模型中事先设定的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，根据所选出的最大乘积来确定所述出现概率，然后根据这样确定的出现概率来识别输入的语音。

5.一种语音识别方法，包括下列各步骤：

在存储器中，事先存储各输出概率函数以及各转移概率，它们使用在表示多个预定单词中的每一个的多种预定类型的隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量；以及

在语音识别过程中，检测输入语音的各项特征参数，参照已检出的各项特征参数，并参照所述多种隐藏的马尔可夫模型，确定所述各项特征参数的序列的出现概率，并根据这样确定的出现概率来识别输入的语音，

其特征在于，在确定所述出现概率的过程中，所述方法向每一个所述单词给出一种隐藏的马尔可夫模型的一个状态序列，该状态序列对所述多种类型的隐藏的马尔可夫模型来说是共用的，

将存储在所述存储器中的各输出概率函数以及各转移概率中每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，以及

根据所选出的最大乘积来确定所述出现概率，然后根据这样确定的出现概率来识别输入的语音。

6.根据权利要求5所述的语音识别方法，其特征在于，在所述多种类型的隐藏的马尔可夫模型中，所述隐藏的马尔可夫模型的每一种状态的转移概率被共享，以便确定所述出现概率。

7.根据权利要求5所述的语音识别方法，其特征在于，所述多种预定类型的隐藏的马尔可夫模型包括下列各种模型中至少两种类型：性别特定的各隐藏的马尔可夫模型，年龄特定的多种隐藏的马尔可夫模型，以及基于含有不同类型的噪声的语音数据的多种隐藏的马尔可夫模型。

8.一种语音识别方法，包括下列各步骤：

在存储器中，事先存储各输出概率函数以及各转移概率，它们使用在各表示多个预定单词中的每一个的多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量，并且使用在部分地表示在所述各预定单词中允许有多种发音的每一个单词在发音上的差异的多种隐藏的马尔可夫模型中事先设定的各项特征参数作为自变量；以及

其特征在于，在确定所述出现概率的过程中，所述方法在用于部分表达的所述多个隐藏的马尔可夫模型中共享其中一个隐藏的马尔可夫模型的一个状态序列，

将在用于部分表达的所述多个隐藏的马尔可夫模型中事先设定的各输出概率函数以及各转移概率中，每一个事先设定的输出概率函数值与转移概率对相乘，选择最大的乘积作为所述共用的隐藏的马尔可夫模型的每一种状态的概率，以及