JP5310563B2

JP5310563B2 - 音声認識システム、音声認識方法、および音声認識用プログラム

Info

Publication number: JP5310563B2
Application number: JP2009547096A
Authority: JP
Inventors: 史博安達; 亮輔磯谷; 健花沢
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2007-12-25
Filing date: 2008-12-22
Publication date: 2013-10-09
Anticipated expiration: 2028-12-22
Also published as: WO2009081895A1; US8639507B2; JPWO2009081895A1; US20110131043A1

Description

本発明は、ワードスポッティング手法を用いた音声認識システム、音声認識方法、および音声認識用プログラムに関する。

入力音声に含まれるキーワードを認識するワードスポッティング手法による音声認識では、認識に用いる記述文法中に任意の音節列をガーベージとして受理するガーベージモデルを含めることで、発声する可能性のある文パターンや単語を全て記述することなく、比較的簡単に音声認識を実現することが可能であった（非特許文献１参照。）。

このガーベージをどのようにモデル化するかが精度・速度に大きく影響を及ぼすが、カバーする範囲を広くするために一般的には、特許文献１に示されているように無音モデルと日本語の全ての音節（音素）を表すモデルを用いることが多い。

特許第３０３９６３４号公報小沼知浩、武田一哉，"Ｇａｒｂａｇｅｍｏｄｅｌと構文的拘束を用いたワードスポッティングの検討"，日本音響学会１９９２年秋期研究発表会講演論文集２−１−１７，１９９２年，ｐ．１１１−１１２

記述文法に従って音声認識処理をする場合、文法制約が失われてしまうのを防ぐために、通常異なるパスにある単語同士はそれぞれ分けて探索仮説を扱い、独立にスコア計算する。記述文法中のガーベージモデルも同様、別のパスにあるガーベージはそれぞれ個別に認識処理（仮説の生成及びスコアの計算等）されることになる。任意の発声が認識できるように全ての音節モデルを用いてガーベージをモデル化した場合、ガーベージモデルがカバーする範囲は広くなるものの、探索空間が広くなるために処理量が多くなる。このため、記述文法中にガーベージモデルが多く含まれれば含まれるほど、全体的な認識時間がかかるという問題があった。これは、個々のガーベージモデルの処理量を削減するような手法をとっても本質的に残る問題である。

本発明の目的は、ガーベージが文法中に多く含まれる場合であっても、高速に認識処理をすることができる音声認識システム、音声認識方法、および音声認識用プログラムを提供することにある。

本発明による音声認識システムは、入力音声に含まれるキーワードを認識する音声認識システムであって、入力音声の音声特徴量に対して、第１の文法に従った音声認識処理を行い、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第１の音声認識処理部と、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法に従った音声認識処理を行い、前記第２の文法に従って導出した仮説の総合スコアから、認識結果を出力する第２の音声認識処理部とを備え、前記第２の音声認識処理部は、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする。

また、本発明による音声認識方法は、入力音声に含まれるキーワードを認識するための音声認識方法であって、入力音声の音声特徴量に対して、第１の文法に従った音声認識処理を行い、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第１のステップと、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法に従った音声認識処理を行い、前記第２の文法に従って導出した仮説の累計スコアから、認識結果を出力する第２のステップとを含み、前記第２のステップで、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする。

また、本発明による音声認識用プログラムは、入力音声に含まれるキーワードを認識するための音声認識用プログラムであって、コンピュータに、入力音声の音声特徴量に基づき、前記入力音声を第１の文法に従って認識する第１の音声認識処理、および入力音声の音声特徴量に基づき、前記入力音声を第２の文法に従って認識する第２の音声認識処理を実行させ、前記第１の音声認識処理で、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成させ、前記第２の音声認識処理で、前記第２の文法に従って生成される各仮説のガーベージ区間の構造およびスコアを、前記認識仮説グラフから取得させることを特徴とする。

本発明によれば、認識仮説グラフの構造・スコアを各ガーベージ区間で共通に利用することでガーベージ個々のサーチ処理を省略することができるので、ガーベージが文法（ここでは、第２の文法）中に多く含まれる場合であっても、高速に認識処理をすることができる。

以下、本発明の実施形態について図面を参照して説明する。図１は、本発明の一実施形態による音声認識システムの構成例を示すブロック図である。図１に示す音声認識システムは、第１の音声認識処理部１１と、第２の音声認識処理部１２とを備える。

第１の音声認識処理部１１は、入力音声の音声特徴量に対して、第１の文法２１に従って音声認識処理を行う。そして、その音声認識処理で第１の文法２１に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する。第１の音声認識処理部１１は、例えば、音声認識処理で入力音声に対して第１の文法２１に従い最も尤度の高い単語列等を探索した結果をグラフ形式で表現した情報を、認識仮説グラフとして生成してもよい。認識仮説グラフは、各ノードの構造情報（何フレーム目に何のノードがあるか、各ノードがどのように接続されているか（何のアークがあるか）を示す情報等）と各ノード間のスコアの情報とを含んでいればよく、例えば、ネットワークの形式やトレリスの形式で表現された情報であってもよい。また、第１の音声認識処理部１１に与えられる第１の文法２１は、ガーベージを受理する文法であれば、どのような文法であってもよい。例えば、入力音声を、音素・音素列・音節・音節列・単語・単語列の任意の連鎖として受理するよう規定された文法でよい。

第２の音声認識処理部１２は、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法２２に従った音声認識処理を行う。そして、その音声認識処理で第２の文法２２に従って導出した仮説の総合スコアから、認識結果を出力する。なお、本発明における第２の音声認識処理部１２は、音声認識処理における解探索過程で仮説を構築（生成）していく際に、各仮説のガーベージ区間の構造およびスコアを、第１の音声認識処理部１１が生成した認識仮説グラフから取得する。

第２の音声認識処理部１２は、例えば、第２の文法２２におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を１つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することによって仮説を伸ばしていけばよい。また、その際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択するようにしてもよい。

以下、より具体的な構成例を用いて説明する。図２は、本発明の一実施形態による音声認識システムのより具体的な構成例を示すブロック図である。図２に示すように、本実施形態による音声認識システムは、音声分析部１００と、音声認識部２００とを備える。なお、本実施形態では、音声認識処理の解探索過程で導出した仮説のことを探索仮説と表現する。なお、音声認識処理における仮説とは、認識結果の候補として導出される、文法に沿って認識単位の実体（音素等）を接続した接続構造における一経路（パス）に相当する。

音声分析部１００は、入力音声を一定時間（以下、フレーム）ごとに音声特徴量に変換する。

音声認識部２００は、音声分析部１００が変換した音声特徴量に基づき、入力音声を認識する。音声認識部２００は、認識仮説グラフ生成部２０１と、仮説探索部２０２と、第１の文法記憶部２１１と、第２の文法記憶部２１２とを含む。

認識仮説グラフ生成部２０１は、第１の文法記憶部２１１に記憶されている情報によって示される第１の文法に従って音声認識処理を行い、認識仮説グラフを出力する。なお、認識仮説グラフ生成部２０１は、図１に示す第１の音声認識処理部１１に相当する処理部である。なお、認識仮説グラフ生成部２０１が出力する認識仮説グラフは、生成される全ての探索仮説についての情報を示していなくてもよい。例えば、探索仮説のスコア（認識単位の各接続に係るスコアを累積させたスコア）が所定の値以上の探索仮説についての情報のみを示す認識仮説グラフを出力することも可能である。

仮説探索部２０２は、第２の文法記憶部２１２に記憶されている情報によって示される第２の文法に従って音声認識処理を行い、探索仮説を認識（生成）し、その探索仮説から認識結果を出力する。なお、仮説探索部２０２は、図１に示す第２の音声認識処理部１２に相当する処理部である。

第１の文法記憶部２１１は、第１の文法を示す情報を記憶する。第１の文法記憶部２１１は、例えば、第１の文法が受理する文章表現を、ネットワーク文法の形式で記述された情報を記憶する。なお、音声認識用の文法は、語句の定義と語句間の接続関係が示されていればよく、ネットワーク文法の形式以外にも、ＣＦＧ文法（文脈自由文法）や正規文法などの形式で表現された情報であってもよい。具体的には、図３に示すような任意の音素の無限ループで表現するなどの手法を用いればよい。

図３は、第１の文法の定義例を示す説明図である。なお、図３は、ｍｏｎｏｐｈｏｎｅ（単一音素モデル）を単位とした例を示しているが、これに限らず、ｔｒｉｐｈｏｎｅ（３つ組音素モデル）でも音節でも単語でも可能である。図３に示すように、入力音声において発声されうる全ての音素を無限ループで接続することにより、任意の音素列を受理する文法が定義できる。

第２の文法記憶部２１２は、第２の文法を示す情報を記憶する。第２の文法記憶部２１２は、例えば、第２の文法が受理する文章表現を、ネットワーク文法の形式で記述された情報として記憶する。なお、第２の文法は、タスクで規定されたキーワード以外の区間をガーベージ区間として定義されていればよい。具体的には、図４に示すようなガーベージ区間であることを示す特殊な単語”＜Ｇａｒｂａｇｅ＞”を定義するなどの手法を用いればよい。なお、ここでいうキーワードとは、必ずしも単語を単位としなくてもよく、任意の音素列や音節列等、タスクで規定された語句であれば何であってもよい。

図４は、第２の文法の定義例を示す説明図である。なお、図４に示す例では、”ベートーベン”や”月光”といった単語を単位とした例を示しているが、これに限らず、音節や音素を単位に定義することも可能である。図４に示すように、キーワード以外の音素列が発声されうる箇所に特殊な単語”＜Ｇａｒｂａｇｅ＞”を挿入することにより、キーワード以外の区間をガーベージ区間として受理する文法が定義できる。なお、このようなガーベージを含む言語モデル（ここでは、記述文法）を定義することで、発声される可能性のある全ての語句を記述することなく任意の語句（単語・音節・音素列等）を受理することができるので、図４に示す例では、例えば、「ベートーベンが作曲した英雄を聞きたい」，「ベートーベンの英雄はどれ」，「ベートーベンは英雄を作曲した」などの様々なパターンの入力が受理できるようになる。

次に、本実施形態の動作について説明する。図５は、本実施形態の音声認識システムの動作例を示すフローチャートである。図５に示すように、まず、当該音声認識システムに対してユーザが発話を行うと（ステップＳ１）、音声分析部１００は、入力された音声を音声特徴量に変換する（ステップＳ２）。

次に、認識仮説グラフ生成部２０１は、音声特徴量を、第１の記憶部２１１に記憶されている情報によって示される第１の文法に従って音声認識処理をすることにより、認識仮説グラフを生成する（ステップＳ３）。

認識仮説グラフ生成部２０１によって認識仮説グラフが生成されると、仮説探索部２０２は、音声特徴量を、第２の文法記憶部２１２に記憶されている情報によって示される第２の文法に従って音声認識処理することにより探索仮説を生成し、かつ認識仮説グラフ生成部２０１により作成された認識仮説グラフの構造・スコアを利用することにより探索仮説を導出（生成）する（ステップＳ４）。最後に、探索仮説からスコアが最良のパスを認識結果として出力する（ステップＳ５）。

以下、より具体的な例を提示して本実施形態の動作を説明する。本例では、「ベートーベンが作曲した英雄を聞きたい」という入力音声を音声認識するために、図４に示した記述文法を第２の文法として用いて音声認識処理を行うことを考える。ここでは作曲家名と曲名の２つのキーワードが認識できればタスクが達成されるものとする。キーワード以外の発声を受理するために、文法中にガーベージ（”＜Ｇａｒｂａｇｅ＞”と記述）を含めることで、種々の発声バリエーションを吸収する。

まず、音声分析部１００は、入力音声を一定の時間（フレーム）ごとに音声特徴量に変換する。そして、変換した音声特徴量を認識仮説グラフ生成部２０１及び仮説探索部２０２に入力する。音声分析部１００は、例えば、入力された音声波形から短時間周波数分析によって特徴量ベクトルを抽出することにより、特徴量としてのＭＦＣＣ（Mel-Frequency Ceptstrum Coefficient ）を算出してもよい。なお、音声を音声特徴量に変換する方法は、例えば、文献「鹿野他、情報処理学会編，”音声認識システム”，オーム社，２００１年，ｐ．１−１５」（文献２）などにも開示されている。

次に、認識仮説グラフ生成部２０１は、音声分析部１００から出力される音声特徴量を用いて音声認識処理を行う。認識仮説グラフ生成部２０１は、第１の文法に従ってフレーム同期連続音声認識処理を行えばよい。第１の文法としては、発声中のガーベージ部分を受理するように作成されたものを用いる。ここでは、任意の音節列を受理する文法を用いた場合について説明するが、これに限らず、あらかじめ定めた音素、音節、単語の連鎖を受理するような文法を用いてもよいし、連鎖に制約を加えたり、連鎖確率を導入したりすることもできる。なお、第１の文法における語句の単位は、第２の文法によらずあらかじめ定めたものを用いてもよいし、第２の文法などに応じて定めたものを用いてもよい。例えば、第２の文法では単語を単位とし、第１の文法では音素を単位とするというように、第２の文法と異なるものを用いることも可能である。

音声認識処理の方法としては、例えば、最も一般的なＨＭＭ（Hidden Markov Model ，隠れマルコフモデル）に基づく特徴ベクトル時系列の確率モデルを用いてもよい。認識仮説グラフ生成部２０１は、例えば、音声認識処理として、このＨＭＭに基づく確率モデルを用い、所定のモデル単位（ｍｏｎｏｐｈｏｎｅやｔｒｉｐｈｏｎｅ等）での各要素に対応づけた状態の遷移確率や出力確率を元に尤度を求める。なお、ＨＭＭに基づく音声認識手法の具体的方法は、例えば、文献「古井，”音声情報処理”，森北出版，１９９８年，ｐ．９６−１１４」（文献３）などにも開示されている。ここでは、第１の文法に従った認識になるため、主に音素を単位とした仮説が構築され、それら仮説の構造（認識単位である音素の接続関係）および各接続に係るスコア（尤度）を示す認識仮説グラフが生成される。

また、仮説探索部２０２は、音声分析部１００が変換した音声特徴量を用いて音声認識処理を行う。なお、音声認識処理の方法としては、認識仮説グラフ生成部２０１と同様でよい。仮説探索部２０２は、本例では、図４に示す記述文法の例に従って音声認識処理を進めるので、まず、「ベートーベン」「シューベルト」などのキーワード区間に対応した処理を行い、探索仮説を導出する。ここでは、第ｍフレーム目に「ベートーベン」の「ン」の音に関する探索仮説が単語終端に達したとする。前述のＨＭＭに基づいた手法では、第ｍ＋１フレーム目は自己ループにより「ン」の音として仮説スコア（先頭フレームからの累積スコア）が計算されるか、状態遷移により次の＜Ｇａｒｂａｇｅ＞区間の先頭の音として仮説スコアが計算されることになる。本発明では、仮説探索部２０２は、記述文法に従った音声認識処理を行うが、キーワード区間とガーベージ区間で異なる生成手法（サーチ手法）を用いる。

仮説探索部２０２は、キーワード区間のサーチ手法として、前述したようなＨＭＭに基づくフレーム毎のスコア計算によってノードの接続先パスを探索する手法を用いる。一方、ガーベージ区間のサーチ手法としては、前述したようなＨＭＭに基づき毎フレームスコア計算するような手法ではなく、事前に認識仮説グラフ生成部２０１によって作成された認識仮説グラフの構造とスコアを利用し、それらを各ガーベージ区間において共通に利用する手法を用いる。つまり、仮説探索部２０２は、ガーベージ区間に達した各探索仮説に対して、認識仮説グラフの区間をコピーして探索仮説を伸ばす。通常の手法だと各ガーベージ区間でそれぞれにスコア計算・照合処理されていたが、本発明の手法により認識仮説グラフ作成時の１回のスコア計算・照合処理で済むことになり、特に図４のように複数のパスにガーベージ（＜Ｇａｒｂａｇｅ＞）が含まれるような場合は大きく処理時間が短縮されることになる。

前述のようにガーベージ区間のサーチ処理を行うには、通常は認識仮説グラフが事前に生成されている必要があるが、認識仮説グラフ生成部２０１による認識仮説グラフ生成処理と仮説探索部２０２による探索仮説生成処理とを並行に行い、ガーベージ区間に達した仮説に対して時間的に後で生成された認識仮説グラフからガーベージ区間とする区間を得ることも可能である。

以下では、ｔｒｉｐｈｏｎｅを認識単位として用い、認識仮説グラフとしてｔｒｉｐｈｏｎｅのグラフを出力する例の説明をするが、認識単位としては他にも音節、ｄｉｐｈｏｎｅ、ｍｏｎｏｐｈｏｎｅなど通常音声認識処理の単位として使用する可能性のあるものは全て使用可能であり、第１の文法の記述および使用する認識単位に応じて、認識仮説グラフとして生成する情報も音素のグラフや音節のグラフなど種々のものが考えられる。また、第１の文法に従った音声認識処理による認識仮説グラフの生成に関しては、入力音声の時間方向と同方向に処理することで生成する手法と、逆方向に処理することで生成する手法とが考えられる。

認識仮説グラフ生成部２０１は、例えば、第１の文法に従って入力音声の時間方向と逆方向に連続音声認識を行い、ｔｒｉｐｈｏｎｅを単位とした木構造の認識仮説グラフを生成する。生成されるグラフの例を図６に示す。図６は、ｔｒｉｐｈｏｎｅを認識単位とした認識仮説グラフの例を示す説明図である。時間的に逆に処理をしているので、グラフの右方向（時間的に遅い）がルートになり、左方向（時間的に早い）がリーフとなる。つまり、図の右方向から認識処理が進んでいるので、ノードＡの親ノードがノードＢとなる。また、ノードＢの親ノードがノードＣとなる。図６では、例えば、時刻ｎ＋Ｎ（ノードＢ）の次フレームからｔｒｉｐｈｏｎｅ「ｇ−ａ＋ｅ」に続くｔｒｉｐｈｏｎｅ「Ｎ−ｇ＋ａ」の探索が始まり、時刻ｎ＋２（ノードＡ’’），ｎ＋１（ノードＡ’），ｎ（ノードＡ）などに終端が達したことが示されている。各ノードには、例えば、連続音声認識処理の際の累積スコアが付与される。これは、ルートノードからの累積スコアであってもよいし、親ノードからの累積スコアでも任意の祖先ノードからの累積スコアでも構わない。なお、図６に示す例では、接続構造が木構造で表現される認識仮説グラフの例を示しているが、接続構造の表現形式は、これに限るものではなく、例えば、前述したようなネットワークの形式であったり、トレリスの形式であったりしてもよい。

仮説探索部２０２は、ある仮説においてキーワード「ベートーベン」の単語終端が第ｎフレームに達した場合、次フレームの仮説として前述の例ではノードＡ’に接続し得る。ガーベージ区間をサーチする際、ノードの開始点が決まると、認識仮説グラフ上で自動的に親ノードを順に辿る（Ａ’→Ｂ→Ｃ→・・・）ことが可能であるので、仮説探索部２０２では毎フレームスコア計算することなく、即座に何フレームも先に探索仮説を伸ばすことが可能となる。従って、伸ばした先の各ノードを単語終端、つまりガーベージ区間の終端として扱うことが可能である。

また、仮説探索部２０２は、入力音声の言語において単語終端となりうるノードが限られる場合には、単語終端となりうるノードのみを選択対象とすればよい。例えば、日本語であれば、単語終端となりうるノードを母音と「ん」の音素に対応づけられたノードに限定し、それ以外の音素は単語終端にはならないとして、そのノードを終端とする区間を選択対象から除外してもよい。例えば、図６に示す例では、ノードＢを選択対象から除外することができる。また、選択した区間を接続して探索仮説を伸ばす際のスコアとしては、認識仮説グラフの各ノードに付与された累積スコアを用いる。例えば、ノードＡ’からノードＣに探索仮説を伸ばした場合、ノードＡ’に付与された累積スコアからノードＣに付与された累積スコアを引き算することで、ノードＡ’−ノードＣ間のスコアが簡単に計算できる。この計算方法はどのノードからの累積スコアを残すかで変わってくるが、いずれも容易である。なお、日本語の場合に母音と「ん」の音素以外の音素に対応づけられたノードを除外する例は、あくまで一例であって、これに限定されるものではなく、他の条件に基づいて除外することも可能である。例えば、単語終端となりうるノードとしてさらに「っ」の音節に対応づけられたノードを含めるような条件づけも考えられる。仮説探索部２０２は、第２の文法を規定した管理者によって指定される条件に基づいて、単語終端となりうるノードか否かの判断を行えばよい。

また、認識仮説グラフ中からガーベージ区間を決める際には、上述の例ではｔｒｉｐｈｏｎｅの音素コンテキストを考慮して始端ノードを決めたが、ｍｏｎｏｐｈｏｎｅのようにコンテキストがない場合は、同フレームに存在する全てのノードが始端ノードになりうる。

なお、認識仮説グラフ中のスコアは上述のように累積スコアがノードに付与されたものに限らず、例えば２ノード間を結ぶアークにその区間のスコアが付与されているなど、任意のノード間の経路を辿るときのスコアが算出できるように付与されていればよい。なお、入力音声中のキーワード部分がガーベージに吸収されるのを防ぐため、ガーベージ区間のスコアには一定の、あるいは継続時間長や音節数等に応じたペナルティを付加してもよい。

ここで、ノードＣを単語終端として扱った場合、次に接続し得るのは図４に示す記述文法の例に従いキーワード「月光」か「英雄」となるので、再度キーワード区間のサーチとしてその区間からの音声認識処理を行い探索仮説を伸ばしていく。なお、ｔｒｉｐｈｏｎｅを用いた説明をしたが、この場合右音素環境を利用することができ、実際にはノードＣ（ｔｒｉｐｈｏｎ「ｇ−ａ＋ｅ」の接続先ノード）の場合「e」から始まる「英雄」のみを処理の対象とすることができる。

最終的に、仮説探索部２０２によって第２の文法に従って認識（生成）された各仮説の総合スコア（先頭フレームから最終フレームまでの累計スコア）から、入力音声に対して最も尤度が高いキーワード列を導出し、それを認識結果として出力すればよい。

以上のように、ガーベージ区間とキーワード区間を異なる手法でサーチすることにより、種々の発声バリエーションをカバーしながらも、各ガーベージ区間で独立にスコア計算する必要がない（つまり、認識仮説グラフのスコアをそのままコピーすれば良い）ため、高速化が実現できる。

なお、上記説明では、入力音声の時間方向と逆方向に音声認識して認識仮説グラフを作成する方法での適用方法を説明したが、入力音声の時間方向と同方向に連続音声認識して認識仮説グラフを作成する方法であっても、基本的な方法は同様である。ただし、同方向に連続音声認識して認識仮説グラフを生成する場合、ガーベージ区間の単語終端が出力できる個数が異なる。つまり逆方向の場合、木構造の認識仮説グラフの各ノードは親ノードが１つなので、あるノードが仮説の先頭と決まれば、ガーベージ区間に対応する仮説の終端が自動的に１つに決まった。一方、同方向の場合、仮説の先頭のノードが親ノード、終端ノードが子孫ノードとなるので、単語終端としては複数存在することになる。そのような場合には、単語終端となる区間それぞれを、ガーベージ区間に達した仮説に接続して、１つ以上の新たな仮説として構築していけばよい。

なお、時間的に同方向の場合には、記述文法に従った音声認識処理と並行してグラフ生成の処理を行うことができる。また、認識仮説グラフが木構造でなくネットワークのような複雑なグラフになっても、終端ノードとして利用できるノードの数が増えるだけになり、基本的な構成は変わらず利用できる。逆方向に認識仮説グラフ生成処理をする場合には、音声認識処理に先駆けて認識仮説グラフを生成することになるので、音声認識処理する際に認識仮説グラフを先読みの結果として利用可能になり、認識精度の向上や音声認識処理時の探索空間削減による高速化の効果が得られる。一方で、同方向に認識仮説グラフ生成処理をする場合、逆方向の場合と異なり、認識仮説グラフ生成処理と音声認識処理が並列に処理可能になるため高速化の効果が得られる。

図７は、ガーベージ区間のコピーの一例を示す説明図である。ここで、図７（ａ）は、ｍｏｎｏｐｈｏｎｅを認識単位とした認識仮説グラフの例を示している。また、図７（ｂ）は、探索仮説をグラフ形式で表現した例を示している。認識仮説グラフ生成部２０１は、入力音声を第１の文法に従って音声認識処理することにより、認識仮説グラフとして、例えば、図７（ａ）に示すような音素のグラフを生成する。一方、仮説探索部２０２は、入力音声を第２の文法に従って音声認識処理をすることにより、例えば、図７（ｂ）に示すような主に単語のグラフで表現される探索仮説を生成する。仮説探索部２０２は、キーワード区間に対しては、第２の文法中に明示的に定義されているベートーベン（ｂｅｅｔｏｏｂｅＮ）や英雄（ｅｅｙｕｕ）などの音素列に従って音声認識処理を行う。一方、明示的に音素列が定義されていないガーベージ区間に対しては、認識仮説グラフ生成部２０１が生成した認識仮説グラフから適切な区間をコピーして探索仮説の一部として用いる。

図７に示す例では、第２の文法におけるキーワード「ベートーベン」の単語終端に達した仮説（すなわち、ガーベージ区間に達した仮説）に対して、認識仮説グラフにおいて当該仮説の単語終端（すなわち、音素’Ｎ’）となったノードに接続しうるノード（ここでは、認識仮説グラフ中で同フレームに位置する音素’Ｎ’に続くノード）を始点とするパス（区間）Ｐ１−１およびＰ１−２の構造（およびスコア）を、ガーベージ区間として接続することによって、当該仮説を伸ばしている。また、例えば、キーワード「モーツァルト」の単語終端（すなわち、音素’ｏ’）に達した仮説に対して、認識仮説グラフ中で同フレームに位置する音素’ｏ’に続くノードを始点とするパスＰ２−１およびＰ２−２の構造（およびスコア）を、ガーベージ区間として接続することによって当該仮説を伸ばしている。なお、図７に示す例では、１つの始点ノードに対しガーベージ区間として接続する区間を２つ選択する例を示しているが、選択する区間の数は２つに限らない。例えば、単語終端になりうるノードを終端とする区間全てを選択することも可能である。

また、仮説探索部２０２における音声認識処理の方向についても、入力音声の時間方向と逆方向に行うことも可能である。例えば、認識仮説グラフ生成部２０１における処理をまず入力音声に同期して順方向（同方向）に行って認識仮説グラフを生成し、音声入力終了後に仮説探索部２０２が入力音声の時間方向と逆方向に仮説探索処理を行う構成も考えられる。この場合、前述したように認識仮説グラフを先読みの結果として利用可能になり、認識精度の向上や音声認識処理時の探索空間削減による高速化の効果が得られる。

先に説明した通り、第１の文法としては、任意の音節列を受理する文法など、第２の文法によらず事前に定義したものを使用することも可能である。この場合、第１の文法を事前にｔｒｉｐｈｏｎｅ等の認識単位のネットワークに展開し、その探索に特化した専用処理をあらかじめ認識仮説グラフ生成部２０１に導入するなどにより、認識仮説グラフを高速に生成できるようにしてもよい。

以上、この発明の実施形態を図面により詳細に説明したが、具体的な構成はこの実施形態に限るものではなく、この発明の要旨を逸脱しない範囲の設計の変更等があってもよい。

例えば、上述した実施形態における制御動作は、ハードウェア、または、ソフトウェア、あるいは、両者の複合構成によって実行することも可能である。なお、ソフトウェアによる処理を実行する場合には、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれているコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。

例えば、プログラムは、記録媒体としてのハードディスクやＲＯＭ（Read Only Memory）に予め記録しておくことが可能である。

あるいは、プログラムは、フロッピーディスク（登録商標）、ＣＤ−ＲＯＭ(Compact Disc Read Only Memory)，ＭＯ(Magneto optical)ディスク，ＤＶＤ(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体に、一時的、あるいは、永続的に格納（記録）しておくことが可能である。

このようなリムーバブル記録媒体は、いわゆるパッケージソフトウエアとして提供することが可能である。

なお、プログラムは、上述したようなリムーバブル記録媒体からコンピュータにインストールする他、ダウンロードサイトから、コンピュータに無線転送したり、ＬＡＮ(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送したりし、コンピュータでは、転送されてきたプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることが可能である。

また、上記実施形態で説明した処理動作は、時系列的に実行されるのみならず、処理を実行する装置の処理能力、あるいは、必要に応じて並列的にあるいは個別に実行するように構築することも可能である。

また、上記実施形態で説明したシステムは、複数の装置の論理的集合構成にしたり、各装置の機能を混在させたりするように構築することも可能である。

なお、上記実施形態では、入力音声の音声特徴量に対して、第１の文法に従った音声認識処理を行い、第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第１の音声認識処理部（例えば、第１の音声認識処理部１１）と、入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法に従った音声認識処理を行い、第２の文法に従って導出した仮説の総合スコアから、認識結果を出力する第２の音声認識処理部（例えば、第２の音声認識処理部１２）とを備え、第２の音声認識処理部は、ガーベージ区間の構造およびスコアを認識仮説グラフから取得する音声認識システムの構成が示されている。

また、上記実施形態では、第１の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いる音声認識システムの構成が示されている。

また、上記実施形態では、第２の音声認識処理部が、第２の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を１つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続する音声認識システムの構成が示されている。

また、上記実施形態では、第２の音声認識処理部が、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択する音声認識システムの構成が示されている。

また、上記実施形態では、第１の音声認識処理部が、入力音声の時間方向と同方向に音声認識処理を行う音声認識システムの構成が示されている。

また、上記実施形態では、第１の音声認識処理部が、入力音声の時間方向と逆方向に音声認識処理を行う音声認識システムの構成が示されている。

また、上記実施形態では、第２の音声認識処理部が、入力音声の時間方向と逆方向に音声認識処理を行う音声認識システムの構成が示されている。

また、上記実施形態では、第２の音声認識処理部が、入力音声の時間方向と同方向に音声認識処理を行う音声認識システムの構成が示されている。

本発明は、ガーベージモデルを含む文法に従って入力音声を認識する場合に、好適に適用可能である。

この出願は、２００７年１２月２５日に出願された日本出願特願２００７−３３２０２８を基礎とする優先権を主張し、その開示を全てここに取り込む。

本発明による音声認識システムの構成例を示すブロック図である。本発明による音声認識システムのより具体的な構成例を示すブロック図である。第１の文法の定義例を示す説明図である。第２の文法の定義例を示す説明図である。音声認識システムの動作例を示すフローチャートである。ｔｒｉｐｈｏｎｅを単位とした認識仮説グラフの例を示す説明図である。ガーベージ区間のコピーの一例を示す説明図である。

符号の説明

１１第１の音声認識処理部
１２第２の音声認識処理部
１００音声分析部
２００音声認識部
２０１認識仮説グラフ生成部
２０２仮説探索部
２１１第１の文法記憶部
２１２第２の文法記憶部

Claims

入力音声に含まれるキーワードを認識する音声認識システムであって、
入力音声の音声特徴量に対して、第１の文法に従った音声認識処理を行い、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第１の音声認識処理部と、
入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法に従った音声認識処理を行い、前記第２の文法に従って導出した仮説の総合スコアから、認識結果を出力する第２の音声認識処理部とを備え、
前記第２の音声認識処理部は、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識システム。
第１の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項１に記載の音声認識システム。
第２の音声認識処理部は、第２の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を１つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項１または請求項２に記載の音声認識システム。
第２の音声認識処理部は、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項３に記載の音声認識システム。
第１の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項１から請求項４のうちのいずれか１項に記載の音声認識システム。
第１の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項１から請求項４のうちのいずれか１項に記載の音声認識システム。
第２の音声認識処理部は、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項１から請求項６のうちのいずれか１項に記載の音声認識システム。
第２の音声認識処理部は、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項１から請求項６のうちのいずれか１項に記載の音声認識システム。
入力音声に含まれるキーワードを認識するための音声認識方法であって、
入力音声の音声特徴量に対して、第１の文法に従った音声認識処理を行い、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成する第１のステップと、
入力音声の音声特徴量に対して、入力音声中のキーワード以外の区間をガーベージ区間として受理するよう規定された第２の文法に従った音声認識処理を行い、前記第２の文法に従って導出した仮説の総合スコアから、認識結果を出力する第２のステップとを含み、
前記第２のステップで、ガーベージ区間の構造およびスコアを前記認識仮説グラフから取得することを特徴とする音声認識方法。
第１の文法として、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された文法を用いることを特徴とする請求項９に記載の音声認識方法。
第２のステップで、第２の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を１つ以上選択し、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続することを特徴とする請求項９または請求項１０に記載の音声認識方法。
第２のステップで、認識仮説グラフからガーベージ区間に達した仮説に接続する音声区間を選択する際に、入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択することを特徴とする請求項１１に記載の音声認識方法。
第１のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項９から請求項１２のうちのいずれか１項に記載の音声認識方法。
第１のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項９から請求項１２のうちのいずれか１項に記載の音声認識方法。
第２のステップで、入力音声の時間方向と逆方向に音声認識処理を行うことを特徴とする請求項９から請求項１４のうちのいずれか１項に記載の音声認識方法。
第２のステップで、入力音声の時間方向と同方向に音声認識処理を行うことを特徴とする請求項９から請求項１４のうちのいずれか１項に記載の音声認識方法。
入力音声に含まれるキーワードを認識するための音声認識用プログラムであって、
コンピュータに、
入力音声の音声特徴量に基づき、前記入力音声を第１の文法に従って認識する第１の音声認識処理、および
入力音声の音声特徴量に基づき、前記入力音声を第２の文法に従って認識する第２の音声認識処理を実行させ、
前記第１の音声認識処理で、前記第１の文法に従って導出した仮説の構造を、認識単位の各接続に係るスコアとともに示す認識仮説グラフを生成させ、
前記第２の音声認識処理で、前記第２の文法に従って生成される各仮説のガーベージ区間の構造およびスコアを、前記認識仮説グラフから取得させることを特徴とする音声認識用プログラム。
コンピュータに、
第１の音声認識処理で、音素、音素列、音節列、単語、単語列のいずれかの任意の連鎖を受理するよう規定された第１の文法に従って入力音声を認識させることを特徴とする請求項１７に記載の音声認識用プログラム。
コンピュータに、
第２の音声認識処理で、第２の文法におけるガーベージ区間に達した仮説に対して、認識仮説グラフにおいて当該仮説に接続しうるノードを始端とする音声区間を１つ以上選択させ、選択した音声区間の構造およびスコアをガーベージ区間の構造およびスコアとして当該仮説に接続させることを特徴とする請求項１７または請求項１８に記載の音声認識用プログラム。
コンピュータに、
第２の音声認識処理で、ガーベージ区間に達した仮説に接続する音声区間として、認識仮説グラフから入力音声の言語において単語終端になりうるノードを終端とする音声区間を選択させることを特徴とする請求項１９に記載の音声認識用プログラム。
コンピュータに、
第１の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項１７から請求項２０のうちのいずれか１項に記載の音声認識用プログラム。
コンピュータに、
第１の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項１７から請求項２０のうちのいずれか１項に記載の音声認識用プログラム。
コンピュータに、
第２の音声認識処理で、入力音声の時間方向と逆方向に、入力音声を認識させることを特徴とする請求項１７から請求項２２のうちのいずれか１項に記載の音声認識用プログラム。
コンピュータに、
第２の音声認識処理で、入力音声の時間方向と同方向に、入力音声を認識させることを特徴とする請求項１７から請求項２２のうちのいずれか１項に記載の音声認識用プログラム。