JP5175325B2

JP5175325B2 - 音声認識用ｗｆｓｔ作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体

Info

Publication number: JP5175325B2
Application number: JP2010261077A
Authority: JP
Inventors: 義和山口; 哲小橋川; 太一浅見; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-11-24
Filing date: 2010-11-24
Publication date: 2013-04-03
Anticipated expiration: 2030-11-24
Also published as: JP2012113087A

Description

この発明は、複数種類の音響モデルを用いて音声認識用の重み付き有限状態トランスデューサ（以下、ＷＦＳＴと称する）を作成する音声認識用ＷＦＳＴ作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体に関する。

ＷＦＳＴを用いた音声認識は、音響モデルや辞書、言語モデルなど音声認識に必要な情報を統合したＷＦＳＴに変換し、入力である音声認識対象音声を、ＷＦＳＴを探索空間と見立ててデコードし、音声認識結果文字列に変換する手法である。

図１３に簡単なＷＦＳＴの例を示す。ＷＦＳＴは、ＷＦＳＴ状態と状態遷移の集合で表され、状態遷移の際に入力記号列を受け入れ、出力記号列を出力する。その際に重みを付与し、遷移ごとに累積される。図１３では、例えば入力記号列「ｂｄｆ」を受け入れ、「ｙｖ」を出力する。この際の累積重みは0.7+0.8+1=2.5と成る。

これを音声認識に適用する場合は、音響モデルや辞書、言語モデルなどを個別にＷＦＳＴに変換し、これらのＷＦＳＴを合成、最適化することで音声認識用のＷＦＳＴ（以下、音声認識用ＷＦＳＴと称する）を得る。ここで最適化とは、決定化、最小化といったＷＦＳＴの最適化演算の総称である。また、入力音声と音響モデルとの照合スコア、つまり音響スコアや言語モデルによる言語スコアは重みとして累積され、最終的に最も重みの高い出力記号列が音声認識結果となる。

音声認識用ＷＦＳＴによる音声認識では、音響モデルの構造を音声認識用ＷＦＳＴに変換することから、音響モデルの構造が異なる場合は各音響モデルごとに構造が異なるＷＦＳＴに変換し、後に統合処理をおこなうことになるため、音声認識用ＷＦＳＴのサイズは音響モデルの数に比例して肥大化する。しかし例えば、男声用音響モデルと女声用音響モデルを同時に用いることで、入力音声に、より適合した音響モデルで得た認識結果を採用することで認識精度の向上を図ることが可能である。

音声認識用ＷＦＳＴによる音声認識において、このような複数の音響モデルを利用する場合、音響モデルの数にほぼ比例して音声認識用ＷＦＳＴのメモリが増大するため、消費メモリの問題が深刻化する。この増大する消費メモリ量を削減する従来の試みとしては、非特許文献１に開示された方法が知られている。その一つは、全ての音声認識用ＷＦＳＴを合成せず、一部の音声認識用ＷＦＳＴについては探索中に動的に合成するようにして、メモリの肥大化を防ぐ方法である。もう一つは、認識時に全ての音声認識用ＷＦＳＴをメモリ上に読み込むのではなく、ディスク上に展開して置き、必要な分だけ随時メモリ領域に読み込んで利用する方法である。

大西翼、ディクソンポール、岩野公司、古井貞煕「ＷＦＳＴ音声認識デコーダの省メモリ化に関する検討」、日本音響学会講演論文集、７〜１０頁、2008年3月.

従来の消費メモリの増加に対処する方法は、音声認識処理に用いる音声認識用ＷＦＳＴは逐次合成されるか、又は読み込まれ、容量の大きな音声認識用ＷＦＳＴ全体はディスク上に保存される。つまり従来は、音声認識用ＷＦＳＴそのものの大きさを小さくする考えは無かった。

この発明は、音声認識用ＷＦＳＴそのもののサイズを小さくする音声認識用ＷＦＳＴ作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体を提供することを目的とする。

この発明の音声認識用ＷＦＳＴ作成装置は、音響モデル記憶部と、音素モデル構造表作成部と、構造合致照合部と、音響モデルＷＦＳＴ作成部と、音響モデルＷＦＳＴ記憶部と、音素ＷＦＳＴ記憶部と、辞書ＷＦＳＴ記憶部と、言語モデルＷＦＳＴ記憶部と、音声認識用ＷＦＳＴ作成部と、を具備する。音響モデル記憶部は、複数種類の音声にそれぞれ対応した音響モデルを記憶する。音素モデル構造表作成部は、音響モデルの要素である音素環境と状態位置と状態数で特定されるＨＭＭ状態にＨＭＭ状態ＩＤを付与し、そのＨＭＭ状態ＩＤの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する。構造合致照合部は、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のＨＭＭ状態ＩＤを併合させたＨＭＭ状態ＩＤを新たに付与して音素モデル構造表を更新する。音響モデルＷＦＳＴ作成部は、ＨＭＭ状態ＩＤを入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する。音響モデルＷＦＳＴ記憶部は、併合音響モデルＷＦＳＴを記憶する。音素ＷＦＳＴ記憶部は、音素環境を音素に変換する音素ＷＦＳＴを記憶する。辞書ＷＦＳＴ記憶部は、音素列を単語に変換する辞書ＷＦＳＴを記憶する。言語モデルＷＦＳＴ記憶部は、単語列に言語スコアを付与する言語モデルＷＦＳＴを記憶する。音声認識用ＷＦＳＴ作成部は、併合音響モデルＷＦＳＴと音素ＷＦＳＴと辞書ＷＦＳＴと言語スコアＷＦＳＴとを合成して最適化することで、入力をＨＭＭ状態ＩＤ、出力を単語列とする音声認識用ＷＦＳＴを作成する。

また、この発明の音声認識装置は、上記した音声認識用ＷＦＳＴ作成装置で作成した音声認識用ＷＦＳＴを記憶した音声認識用ＷＦＳＴ記憶部と、その認識用ＷＦＳＴ記憶部から最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索部と、を備えた音声認識装置であって、探索部は、音響分析部と、初期仮説生成部と、仮説展開部と、探索終了部と、を具備する。音響分析部は、入力音声信号をフレームごとに音声特徴量に変換する。初期仮説生成部は、最初の第１フレームの処理前に音声認識用ＷＦＳＴの開始状態で音響モデルごとに初期仮説を作成する。仮説展開部は、第１フレーム以降にそれぞれ対応するＷＦＳＴ状態の遷移に対して、その遷移の入力記号列であるＨＭＭ状態ＩＤから元のＨＭＭ状態ＩＤと音響モデルＩＤを抽出し、抽出された音響モデルに合致する仮説が音声認識用ＷＦＳＴに存在する場合に該当する音響モデルのＨＭＭ状態ＩＤに付与されている混合正規分布を読み出して音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する。探索終了部は、音声認識用ＷＦＳＴの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する。

この発明の音声認識用ＷＦＳＴ作成装置は、複数の音響モデルを利用したＷＦＳＴの、状態数、状態遷移数を削減したサイズの小さな音声認識用ＷＦＳＴを提供する。また、この発明の音声認識装置は、この発明の音声認識用ＷＦＳＴ作成装置で作成した音声認識用ＷＦＳＴを用いて音声認識をするので認識時の使用メモリ量を削減する効果を奏する。

連続混合分布ＨＭＭによる音素モデルの例を示す図。この発明の音声認識用ＷＦＳＴ作成装置１００，２００の機能構成例を示す図。音声認識用ＷＦＳＴ作成装置１００の動作フローを示す図。音素モデル構造表を示す図であり、（ａ）は音素モデルのそれぞれにＨＭＭ状態ＩＤを付与した表の一例を示す図、（ｂ）は構造合致照合部３０で同一の音素環境と状態位置と状態数の複数の音素モデルを併合させて更新した音素モデル構造表の一例を示す図である。この発明の音響モデルＷＦＳＴの一例を示す図。音素モデル構造表を示す図であり、（ａ）は音素モデルの各状態にＨＭＭ状態ＩＤ系列を付与した音素モデル構造表の例を示す図、（ｂ）は複数の音響モデル間において同一の音素モデルである複数のＨＭＭ状態ＩＤ系列を併合させて更新した音素モデル構造表の一例を示す図である。構造合致照合部２０２が更新した音素モデル構造表の、ＨＭＭ状態ＩＤ系列を入力、出力を音素環境とした併合音響モデルＷＦＳＴを図７に示す図。この発明の音声認識用ＷＦＳＴ作成装置３００の機能構成例を示す図この発明の音声認識装置４００，５００の機能構成例を示す図。音声認識装置４００の動作フローを示す図。音声認識用ＷＦＳＴの例を示す図。音声認識用ＷＦＳＴの例を示す図。簡単なＷＦＳＴの例を示す図。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の考えを説明する。

〔この発明の考え〕
この発明は、複数の音響モデル間の構造の類似性に着目し、ある音素環境に対して音響モデルの共有構造が音響モデル間で同じ場合は、ＷＦＳＴ化においても状態遷移を共有化することでＷＦＳＴの状態数を削減する。

ここで、音響モデルについて図１を参照して説明する。音響モデルは、隣接する音素の影響を考慮した音素（音素環境）の特徴量を混合正規分布でモデル化した音素モデルの集合であり、連続混合分布ＨＭＭ（Hidden Markov Model）をもって表せる。図１は、音素「ａ−ｋ＋ａ」（ａ：先行音素、ｋ：中心音素、ａ：後続音素のトライフォン）を表す連続混合分布ＨＭＭによる音素モデルであり、「ａ−ｋ＋ａ」という音素の時系列を３分割した状態で表す。

この音響モデルを学習する過程においては、有限である学習データに含まれる音素環境にデータ量の偏りが発生し、数少ない音素環境の音素モデルでは統計的に混合正規分布が十分に学習されないという問題がある。この問題を解決するために、数少ないデータ量の音素モデルあるいはそれを構成する状態を、複数の音素環境及び音素モデルで共有することで学習パラメータを少なくし、実質的に割り当てられるデータ量を多くして学習する方法がある（例えば参考文献：高橋、他「４階層共有構造の音響モデルによる音声認識」電子情報通信学会論文誌Vol.J82-D-II）。

この発明では、ある音素モデルを複数の音素環境で共有化する音素モデル共有、又はあるＨＭＭ状態を複数の音素モデルで共有化する状態共有の、併合操作を行う。音素モデル共有音響モデルの場合は、同じ音素環境でかつその音素モデルの状態数が同じで或る音素モデルの状態系列について、ＷＦＳＴ化において状態遷移の入力記号列である状態ＩＤ系列を併合する。

状態共有音響モデルの場合は、同じ音素環境でかつ、その音素モデルの状態数と状態位置が音響モデル間で同じである音響モデルの状態について、ＷＦＳＴ化において状態遷移の入力記号列である状態ＩＤを併合する。

また、併合されたＷＦＳＴを用いた音声認識装置は、ＷＦＳＴの開始状態から仮説の状態遷移時において、状態遷移に関連付けられた音響モデルの仮説の展開のみを行う。このように、この発明は、複数の音響モデル間の共有構造の類似性に着目して音声認識用ＷＦＳＴのサイズを削減し、またそれに応じた音声認識の探索処理を行う。

図２に、この発明の音声認識用ＷＦＳＴ作成装置１００の機能構成例を示す。その動作フローを図３に示す。音声認識用ＷＦＳＴ作成装置１００は、複数の音響モデル記憶部１〜Ｎと、音素モデル構造表作成部１０と、音素モデル構造表記憶部２０と、構造合致照合部３０と、音響モデルＷＦＳＴ作成部４０と、音響モデルＷＦＳＴ記憶部５０と、音素ＷＦＳＴ記憶部６０と、辞書ＷＦＳＴ記憶部７０と、言語モデルＷＦＳＴ記憶部８０と、音声認識用ＷＦＳＴ作成部９０と、制御部９５と、を具備する。その各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

複数の音響モデル記憶部１〜Ｎは、複数種類の音声にそれぞれ対応した音響モデルを記憶する。音素モデル構造表作成部１０は、音素モデルの要素である音素環境と状態位置と状態数で特定される状態にＨＭＭ状態ＩＤを付与し、そのＨＭＭ状態ＩＤの表を音素モデル構造表として作成する（ステップＳ１０）。音素モデル構造表作成部１０は、未処理の音響モデルがあり（ステップＳ９５０のYes）、未処理の音素モデルがある（ステップＳ９５１のYes）時に、全ての状態にＨＭＭ状態ＩＤを付与する（ステップＳ９５２のYes）。ステップＳ９５０〜Ｓ９５２の制御は制御部９５が行う。全ての状態にＨＭＭ状態ＩＤが付与された音素モデルは、音素モデル構造表記憶部３０に記憶される。

図４（ａ）に、全ての状態にＨＭＭ状態ＩＤが付与された音素モデルの例を示す。図４（ａ）は、音素モデルがトライフォンの場合（図１を参照）の例を示す。音素環境「ａ−ｋ＋ａ」、位置「１」、状態数「３」を、後の照合が容易なように例えば「ａ−ｋ＋ａ：１/３」と連結して記述している。この状態には例えばＨＭＭ状態ＩＤ「ｓ１＿１」が付与される。なお、「＿１」は、例えば男声の音響モデルであることを意味する。「＿２」は、例えば女声の音響モデルであることを意味する。ＨＭＭ状態ＩＤ「ｓ５＿１」のように２つの音素モデル（ｐ−ａ＋ｉ：２/３，ｔ−ａ＋ｉ：２/３）が併記されているのは、音響モデルの学習過程でＨＭＭ状態が共有化された場合を示している。

構造合致照合部３０は、複数の音響モデル間での共有構造の一致具合を調査し、音素モデル構造表を更新する（ステップＳ３０）。つまり、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のＨＭＭ状態ＩＤを併合させて新たに併合したＨＭＭ状態ＩＤを付与し（ステップＳ３０１）、単独の音素環境と状態位置と状態数の状態ＩＤはそのままとして、その状態ＩＤと対応する音素環境と状態位置と状態数とから成る表になるように音響モデル構造表を更新する（ステップＳ３０２）。

図４（ｂ）に、ＨＭＭ状態ＩＤが付与されて更新された音響モデル構造表の例を示す。図４（ａ）の１行目の音素モデル「ａ−ｋ＋ａ：１/３」と、８行目の音素モデル「ａ−ｋ＋ａ：１/３」は、それぞれの音素環境、状態位置、状態数の全てが合致するので併合される。そのＨＭＭ状態ＩＤは、「ｓ１＿１＋ｓ７＿２」として置き換えられ、以降この行は処理済とされる。なお、図４（ｂ）には、同じＨＭＭ状態ＩＤ（「ｓ１＿１＋ｓ８＿２」等）が存在するが、一方は削除しても良い。

音響モデルＷＦＳＴ作成部４０は、ＨＭＭ状態ＩＤを入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する（ステップＳ４０）。併合音響モデルＷＦＳＴは、音響モデルＷＦＳＴ記憶部５０に記憶される。図５に、音響モデルＷＦＳＴの例を示す。ＷＦＳＴ状態０からＷＦＳＴ状態１には、ＨＭＭ状態ＩＤ「ｓ１＿１＋ｓ７＿２」を入力として、音素モデル「ａ−ｋ＋ａ」を出力する。ＨＭＭ状態ＩＤ「ｓ１＿１＋ｓ７＿２」は、ＨＭＭ状態ＩＤ「ｓ１＿１」又は「ｓ７＿２」のオア（ＯＲ）を意味する。つまり、状態遷移が音響モデル＿１と＿２との間で共有化されている。ＷＦＳＴ状態１〜ＷＦＳＴ状態１３の状態遷移は、実際の音素のフレーム時間に合わせるためのものである。音素「ａ−ｋ＋ａ」そのものは、ＷＦＳＴ状態０からＷＦＳＴ状態１に遷移する時に出力される。

音声認識用ＷＦＳＴ作成部９０は、音響モデルＷＦＳＴ記憶部５０に記憶された併合音響モデルＷＦＳＴと、音素ＷＦＳＴ記憶部６０に記憶された音素環境を音素に変換する音素ＷＦＳＴと、辞書ＷＦＳＴ７０に記憶された複数の音素列を単語に変換する辞書ＷＦＳＴと、言語モデルＷＦＳＴ記憶部８０に記憶された単語列に言語スコアを付与する言語モデルＷＦＳＴと、を合成して最適化することで、入力をＨＭＭ状態ＩＤ、出力を単語列とする音声認識用ＷＦＳＴを作成する（ステップＳ９０）。音声認識用ＷＦＳＴの作成は、全てのＨＭＭ状態ＩＤについて終了するまで繰り返される（ステップＳ９５３のNo）。作成された音声認識用ＷＦＳＴは、図示していない認識用ＷＦＳＴ記憶部に記憶される。なお、音声認識用ＷＦＳＴの具体例については後述する音声認識装置で説明する。

このように音声認識用ＷＦＳＴ作成装置１００は、複数の音響モデルを利用したＷＦＳＴの、状態数、状態遷移数を削減したサイズの小さな音声認識用ＷＦＳＴを提供することが出来る。

次に、音響モデルの構造状態が音素モデル共有までなされており、状態共有はなされていない音素モデルを用いる音声認識用ＷＦＳＴ作成装置２００を説明する。音声認識用ＷＦＳＴ作成装置２００は、音素モデル構造表作成部２０１が複数の音響モデルの要素である音素モデルの各ＨＭＭ状態にＨＭＭ状態ＩＤ系列を付与する点と、構造合致照合部２０２が複数の音響モデル間において同一の音素モデルである複数のＨＭＭ状態ＩＤ系列は併合させ、そのＨＭＭ状態ＩＤ系列と対応する音素モデルとから成る表になるように音素モデル構造表を更新する点で、音声認識用ＷＦＳＴ作成装置１００と異なる。他の機能構成は、音声認識用ＷＦＳＴ作成装置１００（図２）と同じである。

音声認識用ＷＦＳＴ作成装置２００では音素モデルのＨＭＭ状態ごとの併合操作は行われない。このことにより、音素モデル構造表の作成と合致処理とが簡便で済むため音声認識用ＷＦＳＴを作成する処理量を少なくできる。

図６（ａ）に、音素モデル構造表作成部２０１が、音素モデルの各ＨＭＭ状態にＨＭＭ状態ＩＤ系列を付与した音素モデル構造表の例を示す。この例では、トライフォンの音素モデル「ａ−ｋ＋ａ」に「ｓ１＿１，ｓ２＿１，ｓ３＿１」、音素モデル「ｐ−ａ＋ｉ，ｔ−ａ＋ｉ」に「ｓ４＿１，ｓ５＿１，ｓ３＿１」のＨＭＭ状態ＩＤ系列が付与されている。この状態ＩＤ系列は時系列の意味も持つ。図６（ａ）の３行目以降の説明は省略する。

図６（ｂ）に、構造合致照合部２０２が、複数の音響モデル間において同一の音素モデルである複数のＨＭＭ状態ＩＤ系列を併合させて更新した音素モデル構造表を示す。男声の音響モデルと女声の音響モデルとの間で同一の音素モデルの例えば「ａ−ｋ＋ａ」が併合され、その音素モデルに併合されたＨＭＭ状態ＩＤ系列「ｓ１＿１＋ｓ７＿２，ｓ２＿１＋ｓ８＿２，ｓ３＿１＋ｓ９＿２」（図６（ｂ）の１行目）が付与されている。

構造合致照合部２０２が更新した音素モデル構造表のＨＭＭ状態ＩＤ系列を入力、出力を音素環境とした併合音響モデルＷＦＳＴを図７に示す。ＷＦＳＴ状態０から、ＷＦＳＴ状態１→２→３→１６への遷移は、ＨＭＭ状態ＩＤ系列「ｓ１＿１＋ｓ７＿２，ｓ２＿１＋ｓ８＿２，ｓ３＿１＋ｓ９＿２」の入力があった時に行われる。ここで、ＷＦＳＴ状態０からＷＦＳＴ状態１への遷移が、ｓ１＿１＋ｓ７＿２と音響モデル＿１と＿２との間で併合されているので、音声認識用ＷＦＳＴのサイズが削減される。

図８に、全ての音響モデルが同じ共有構造であることが既知である複数の音響モデルを用いた音声認識用ＷＦＳＴ作成装置３００の機能構成例を示す。ここで、全ての音響モデルが同じ共有構造であるとは、異なる音響モデル間で音素モデルが同じＨＭＭ状態ＩＤを持つことを意味する。つまり、音響モデルＷＦＳＴのＷＦＳＴ状態及び状態遷移が全て共有されるためＷＦＳＴのサイズは全く増加しない。

音声認識用ＷＦＳＴ作成装置３００は、音素モデル構造表作成部１０と、音素モデル構造表記億部２０と、構造合致照合部３０と、を備えない点で音声認識用ＷＦＳＴ作成装置１００，２００と異なる。また、複数の音響モデル記憶部１′〜Ｎ′は、音響モデルそれぞれが同じ共有構造を持つ点と、音響モデルＷＦＳＴ作成部３０１に、複数の音響モデル記憶部から直接、音響モデルが入力される点で異なる。

音響モデルＷＦＳＴ作成部３０１は、複数の音響モデルの各ＨＭＭ状態にＨＭＭ状態ＩＤが付与された音響モデルを入力として、そのＨＭＭ状態ＩＤを入力、出力を音素環境とする併合音響モデルＷＦＳＴを作成する。この併合音響モデルＷＦＳＴのサイズは、１個の音響モデルを用いた場合とＷＦＳＴの大きさと全く同じである。つまり、Ｎ′個の音響モデルを用いても音響モデルＷＦＳＴのサイズは音響モデル１個分で済む。

図９に、この発明の音声認識装置４００の機能構成例を示す。その動作フローを図１０に示す。音声認識装置４００は、この発明の音声認識用ＷＦＳＴ作成装置１００〜３００で作成した音声認識用ＷＦＳＴを記憶した音声認識用ＷＦＳＴ記憶部４１０と、探索部４２０とを備える。探索部４２０は、音響分析部４２１と、初期仮説生成部４２２と、仮説展開部４２３と、探索終了部４２４と、複数の音響モデル記憶部１〜Ｎと、を具備する。その各部の機能は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

なお、図９において、入力音声を電気信号に変換するマイクロホンや、その電気信号をディジタル信号に変換するＡ/Ｄ変換器などは省略している。音響分析部４２１は、入力音声信号の全フレームをフレームごとに音声特徴量に変換する（ステップＳ４２１）。フレームとは、例えば２０ミリ秒程度の時間幅の入力音声信号の単位のことである。音響分析部４２１は、このフレームごとに入力音声信号をケプストラム、Δケプストラム、Δパワーなどの音声認識用の音声特徴量に変換する。

探索部４２０は、この音声特徴量と音響モデルとを照合した音響スコアや、言語モデルによる言語スコアである重みを認識結果候補である仮説に累積し、最終的に最も重みの高い仮説の出力記号列を音声認識結果とする処理を行う。探索部４２０の動作を具体的に説明する。

初期仮説生成部４２２は、最初の第１フレームの処理前に、音声認識用ＷＦＳＴの開始状態に対して音響モデルごとの初期仮説を作成する（ステップＳ４２２）。なお、開始状態では言語スコアや音響スコアがまだ存在しないので、それらの値が初期化された状態で保持される。

仮説展開部４２３は、第１フレーム以降にそれぞれ対応するＷＦＳＴ状態の遷移に対して、その遷移の入力記号列であるＨＭＭ状態ＩＤから元のＨＭＭ状態ＩＤと音響モデルＩＤを抽出し、抽出された音響モデルに合致する仮説がＷＦＳＴに存在する場合（ステップＳ５１２のYes）に該当する音響モデルのＨＭＭ状態ＩＤに付与されている混合正規分布を読み出して音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する（ステップＳ４２３）。この仮説展開は、仮説が存在する未処理のＷＦＳＴの状態が無くなるまで繰り返される（ステップＳ５１０のYes）。

図１１に、音声認識用ＷＦＳＴの例を示して仮説展開部４２３の動作を説明する。音声認識用ＷＦＳＴのＷＦＳＴ状態１１０から次のＷＦＳＴ状態１１１に遷移する場合を説明する。ＷＦＳＴ状態１１０からＷＦＳＴ状態１１１への遷移には入力記号列としてＨＭＭ状態ＩＤ「ｓ１＿１＋ｓ７＿２」とあるので、音響モデル１と音響モデル２のＨＭＭ状態が併合されていることが分かる。ＷＦＳＴ状態１１０には、両者の仮説があることから、これら全てが展開の対象となる。まず、音声特徴量と音響モデル１のＨＭＭ状態ＩＤ「ｓ１＿１」の混合正規分布から音響スコアを計算する。音響モデル１の単語列「大きな」の音響スコアが２０、「小さな」が１９、「これが」が１５である。この音響スコアと遷移の重みである言語スコア/１０、出力記号列である「傘」を音響モデル１の仮説に累積する。累積した仮説が、ＷＦＳＴ状態１１１の例えば「大きな傘」の言語スコア４０、音響スコア２６となる。この累積された仮説を次のＷＦＳＴ状態１１１に遷移して保存する。同様に音響モデル２のＨＭＭ状態ＩＤ「ｓ７＿２」の混合正規分布から音響スコアを計算して、音響モデル２の仮説に言語スコアと共に累積する。

次に、音響モデル間でＨＭＭ状態が共有されていないＨＭＭ状態ＩＤに対する遷移を、図１２を参照して説明する。ＷＦＳＴ状態１０００からＷＦＳＴ状態１０５０とＷＦＳＴ状態２４９０に遷移する場合で説明する。ＷＦＳＴ状態ＩＤ１０００からＷＦＳＴ状態ＩＤ１０５０への遷移には、入力記号列としてＨＭＭ状態ＩＤ「ｓ４＿１」とあるので、音響モデル１のみに該当することが分かる。ＷＦＳＴ状態１０００には音響モデル１と２の仮説があるが、この遷移については音響モデル１の仮説のみが展開の対象となる。音声特徴量と音響モデル１のＨＭＭ状態ＩＤ「ｓ４＿１」の混合正規分布から音響スコアを計算する。そして、その音響スコアと遷移の重みである言語スコア/８と、出力記号列である「ピザ」を音響モデル１の仮説に累積して、次のＷＦＳＴ状態１０５０に保存する。ここで、音響モデル２の仮説はＷＦＳＴ状態１０５０には保存されない。

ＷＦＳＴ状態１０００からＷＦＳＴ状態２４９０への遷移には、入力記号列としてＨＭＭ状態ＩＤ「ｓ１０＿２」とあるので、音響モデル２のみに該当する。この遷移については、音響モデル２の仮説のみを展開の対象とする。したがって、ＷＦＳＴ状態２４９０には音響モデル１の仮説は保存されない。

ＷＦＳＴ状態１０５０からＷＦＳＴ状態１０５１への遷移も同様に処理される。ここでの入力記号列は、ＨＭＭ状態ＩＤ「ｓ５＿１＋ｓ１１＿２」とあり、音響モデル１と２が該当する。しかし、ＷＦＳＴ状態１０５０には、音響モデル１の仮説のみが保存されているので音響モデル１の仮説のみが展開の対象となる。一方、ＷＦＳＴ状態２４９０からＷＦＳＴ状態１０５１への遷移は、ＷＦＳＴ状態２４９０には音響モデル２の仮説のみが保存されているので音響モデル２の仮説のみが展開の対象となる。よって、ＷＦＳＴ状態１０５１では、再び音響モデル１と２の仮説が保存されることになる。

以上説明した処理を全てのフレーム（音声特徴量）について行う。探索終了部４２４は、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する（ステップＳ４２４）。

このように、複数の音響モデル間での音素モデルの状態構造の類似性を考慮してＷＦＳＴの状態遷移自体を音響モデル間で共有化した音声認識用ＷＦＳＴを用いて音声認識処理を行うことで、メモリ消費量を削減することができる。

次に、探索に用いる音響モデルの数を事前に数個未満に限定するこの発明の音声認識装置５００を説明する。図９に、音声認識装置５００の機能構成例を示す。音声認識装置５００は、音声認識装置４００に対して認識用音響モデル判別部５０１を備える点で異なる。

認識用音響モデル判別部５０１は、入力音声信号に対して最も高い音響スコアを出力する音響モデルを判別する。判別は、音響分析部４２１で入力音声信号を音声特徴量に変換した後に、音声特徴量の一部あるいは全てを用いて探索に用いる音響モデルを判別する。

判別方法としては、音響モデルごとに作成したＧＭＭ（Gaussian Mixture Model）やモノフォンなどの簡易的な音素モデルを用いることで入力音声信号に対して最も音響スコアを高く出力した上位Ｎ個の音響モデルを認識用音響モデルとして指定する。認識用音響モデル判別部５０１は、例えば男女２つの音響モデルから１つを選択したり、老人、青年、子供の３つの音響モデルから２つ以下を選択する判定を行う。判別は、例えば周波数フィルタを用いても行うことが可能である。ＧＭＭやモノフォン、周波数フィルタを用いて入力音声に対して類似する音響モデルを判別する方法は従来技術である。

初期仮説生成部４２２は、認識用音響モデル判別部５０１で判定された音響モデルのＨＭＭ状態ＩＤのみを読み込んで、ＨＭＭ状態ＩＤで指定された音響モデルに対する初期仮説のみを作成する。仮説展開部４２３での処理は、実施例４と同じである。但し、音声認識用ＷＦＳＴの開始状態で既に利用しない音響モデルの仮説が生成されないため、ＷＦＳＴ状態間の遷移の入力記号列に利用しない音響モデルのＨＭＭ状態ＩＤが含まれたとしても、それに該当する音響スコアの計算と仮説の展開は行われない。よって、音声認識装置４００よりも更に音声認識時のメモリ消費量を削減することができる。

〔評価結果〕
表１に、実施例１で説明した音声認識用ＷＦＳＴ作成装置１００によって、男声の音響モデルと女声の音響モデルの２つから作成した音声認識用ＷＦＳＴと、１個の性別非依存の音響モデルによる音声認識用ＷＦＳＴを用いて音声認識処理をした場合の使用メモリ量を示す。

この発明の音声認識用ＷＦＳＴ作成装置１００で作成した音声認識用ＷＦＳＴを用いた方が、音声認識時の使用メモリ量を微小ながら削減されていることが分かる。これは、音響モデルの共有構造が同じであることを利用した結果、音声認識用ＷＦＳＴのサイズの増加が抑えられ、更に入力音声信号に適合した音響モデルが利用されることから生成される仮説数が少なくなり、消費メモリ量が削減されたことによる。

以上述べたように、この発明の音声認識用ＷＦＳＴ作成装置１００，２００，３００は、複数の音響モデルを利用したＷＦＳＴの、状態数、状態遷移数を削減したサイズの小さな音声認識用ＷＦＳＴを提供する。また、この発明の音声認識装置４００，５００は、この発明の音声認識用ＷＦＳＴ作成装置で作成した音声認識用ＷＦＳＴを用いて音声認識をするので消費メモリ量の増加を削減することが出来る。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD（Digital Versatile Disc）、DVD-RAM（Random Access Memory）、CD-ROM（Compact Disc Read Only Memory）、CD-R（Recordable）/RW（ReWritable）等を、光磁気記録媒体として、MO（Magneto Optical disc）等を、半導体メモリとしてEEP-ROM（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素環境と状態位置と状態数で特定されるＨＭＭ状態にＨＭＭ状態ＩＤを付与し、そのＨＭＭ状態ＩＤの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のＨＭＭ状態ＩＤを併合させたＨＭＭ状態ＩＤを新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記ＨＭＭ状態ＩＤを入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する音響モデルＷＦＳＴ作成部と、
上記併合音響モデルＷＦＳＴを記憶する音響モデルＷＦＳＴ記憶部と、
音素環境を音素に変換する音素ＷＦＳＴを記憶する音素ＷＦＳＴ記憶部と、
音素列を単語に変換する辞書ＷＦＳＴを記憶する辞書ＷＦＳＴ記憶部と、
単語列に言語スコアを付与する言語モデルＷＦＳＴを記憶する言語モデルＷＦＳＴ記憶部と、
上記併合音響モデルＷＦＳＴと上記音素ＷＦＳＴと上記辞書ＷＦＳＴと上記言語モデルＷＦＳＴと、を合成して最適化することで、入力を上記ＨＭＭ状態ＩＤ、出力を単語列とする音声認識用ＷＦＳＴを作成する音声認識用ＷＦＳＴ作成部と、
を具備する音声認識用ＷＦＳＴ作成装置。
複数種類の音声にそれぞれ対応した音響モデルを記憶した複数の音響モデル記憶部と、
上記音響モデルの要素である音素モデルの各ＨＭＭ状態にＨＭＭ状態ＩＤ系列を付与し、そのＨＭＭ状態ＩＤ系列の表を音素モデル構造表として作成する音素モデル構造表作成部と、
複数の音響モデル間において同一の音素モデルである複数のＨＭＭ状態ＩＤ系列は併合させたＨＭＭ状態ＩＤ系列を新たに付与して、上記音素モデル構造表を更新する構造合致照合部と、
上記ＨＭＭ状態ＩＤ列を入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する音響モデルＷＦＳＴ作成部と、
上記併合音響モデルＷＦＳＴを記憶する音響モデルＷＦＳＴ記憶部と、
音素環境を音素に変換する音素ＷＦＳＴを記憶する音素ＷＦＳＴ記憶部と、
音素列を単語に変換する辞書ＷＦＳＴを記憶する辞書ＷＦＳＴ記憶部と、
単語列に言語スコアを付与する言語モデルＷＦＳＴを記憶する言語モデルＷＦＳＴ記憶部と、
上記併合音響モデルＷＦＳＴと、上記音素ＷＦＳＴと、上記辞書ＷＦＳＴと、上記言語モデルＷＦＳＴと、を合成して最適化することで音声認識用ＷＦＳＴを作成する音声認識用ＷＦＳＴ作成部と、
を具備する音声認識用ＷＦＳＴ作成装置。
請求項１又は２に記載した音声認識用ＷＦＳＴ作成装置で作成した音声認識用ＷＦＳＴを記憶した音声認識用ＷＦＳＴ記憶部と、
上記認識用ＷＦＳＴ記憶部から最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索部と、を備えた音声認識装置であって、
上記探索部は、
入力音声信号をフレームごとに音声特徴量に変換する音響分析部と、
最初の第１フレームの処理前に音声認識用ＷＦＳＴの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成部と、
上記第１フレーム以降にそれぞれ対応するＷＦＳＴ状態の遷移に対して、その遷移の入力記号列であるＨＭＭ状態ＩＤから元のＨＭＭ状態ＩＤと音響モデルＩＤを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用ＷＦＳＴに存在する場合に該当する音響モデルのＨＭＭ状態ＩＤに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開部と、
上記音声認識用ＷＦＳＴの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了部と、
を具備することを特徴とする音声認識装置。
請求項３に記載した音声認識装置において、
上記探索部は、
更に、入力音声信号に対して最も高い音響スコアを出力する音響モデルを判別する認識用音響モデル判別部を備え、
上記初期仮説生成部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ初期仮説を作成し、
上記仮説展開部は、上記認識用音響モデル判別部が判別した音響モデルについてのみ音響スコアを計算することを特徴とする音声認識装置。
音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルに、それぞれの音響モデルの要素である音素環境と状態位置と状態数で特定されるＨＭＭ状態にＨＭＭ状態ＩＤを付与し、そのＨＭＭ状態ＩＤの表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素環境と状態位置と状態数である複数のＨＭＭ状態ＩＤを併合させたＨＭＭ状態ＩＤを新たに付与して、上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルＷＦＳＴ作成部が、上記ＨＭＭ状態ＩＤを入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する音響モデルＷＦＳＴ作成過程と、
音声認識用ＷＦＳＴ作成部が、音響モデルＷＦＳＴ記憶部に記憶された併合音響モデルＷＦＳＴと、音素ＷＦＳＴ記憶部に記憶された音素ＷＦＳＴと、辞書ＷＦＳＴ記憶部に記憶された辞書ＷＦＳＴと、言語モデルＷＦＳＴ記憶部に記憶された言語モデルＷＦＳＴと、を合成して最適化することで、入力を上記ＨＭＭ状態ＩＤ、出力を単語列とする音声認識用ＷＦＳＴを作成する音声認識用ＷＦＳＴ作成過程と、
を備える音声認識用ＷＦＳＴ作成方法。
音素モデル構造表作成部が、複数の音響モデル記憶部に記憶された音響モデルの要素である音素モデルの各ＨＭＭ状態にＨＭＭ状態ＩＤ系列を付与し、そのＨＭＭ状態ＩＤ系列の表を音素モデル構造表として作成して音素モデル構造表記憶部に記憶する音素モデル構造表作成過程と、
構造合致照合部が、複数の音響モデル間において同一の音素モデルである複数のＨＭＭ状態系列は併合させて新たに併合したＨＭＭ状態ＩＤ系列を付与し、単独の音素モデルはそのままとして、そのＨＭＭ状態ＩＤ系列と対応する音素モデルとから成る表になるように上記音素モデル構造表を更新する構造合致照合過程と、
音響モデルＷＦＳＴ作成部が、上記ＨＭＭ状態ＩＤ系列を入力とし、出力を音素環境とする併合音響モデルＷＦＳＴを作成する音響モデルＷＦＳＴ作成過程と、
音声認識用ＷＦＳＴ作成部が、音響モデルＷＦＳＴ記憶部に記憶された併合音響モデルＷＦＳＴと、音素ＷＦＳＴ記憶部に記憶された音素ＷＦＳＴと、辞書ＷＦＳＴ記憶部に記憶された辞書ＷＦＳＴと、言語モデルＷＦＳＴ記憶部に記憶された言語モデルＷＦＳＴと、を合成して最適化することで、入力を上記ＨＭＭ状態ＩＤ系列、出力を単語列とする音声認識用ＷＦＳＴを作成する音声認識用ＷＦＳＴ作成過程と、
を備える音声認識用ＷＦＳＴ作成方法。
請求項５又は６に記載した音声認識用ＷＦＳＴ作成方法で作成した音声認識用ＷＦＳＴを記憶する音声認識用ＷＦＳＴ記憶過程と、
上記認識用ＷＦＳＴ記憶過程で得られた最もスコアの高い状態遷移列を抽出して音声認識結果を出力する探索過程と、を備えた音声認識方法であって、
上記探索過程は、
音響分析部が、入力音声信号をフレームごとに音声特徴量に変換する音響分析過程と、
初期仮説生成部が、最初の第１フレームの処理前に認識用ＷＦＳＴの開始状態に音響モデルごとの初期仮説を作成する初期仮説生成過程と、
仮説展開部が、上記第１フレーム以降にそれぞれ対応するＷＦＳＴ状態の遷移に対して、その遷移の入力記号列であるＨＭＭ状態ＩＤから元のＨＭＭ状態ＩＤと音響モデルＩＤを抽出し、抽出された音響モデルに合致する仮説が上記音声認識用ＷＦＳＴに存在する場合に該当する音響モデルのＨＭＭ状態ＩＤに付与されている混合正規分布を読み出して上記音声特徴量に対する音響スコアを計算し、その音響スコアと遷移の重みである言語スコアと出力記号列を該当する音響モデルの仮説に累積する仮説展開過程と、
探索終了部が、上記音声認識用ＷＦＳＴの終了状態において、音響スコアと言語スコアの和の最も高い仮説の出力記号列を音声認識結果として出力する探索終了過程と、
を含むことを特徴とする音声認識方法。
請求項１乃至４の何れかに記載した装置としてコンピュータを機能させるためのプログラム。
請求項８に記載した何れかのプログラムを記憶したコンピュータで読み取り可能な記憶媒体。