JP3615088B2

JP3615088B2 - 音声認識方法及び装置

Info

Publication number: JP3615088B2
Application number: JP18321699A
Authority: JP
Inventors: 亮典小柴; 三慶舘森; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1999-06-29
Filing date: 1999-06-29
Publication date: 2005-01-26
Anticipated expiration: 2019-06-29
Also published as: JP2001013988A

Description

【０００１】
【発明の属する技術分野】
本発明は、発声された音声を高精度に認識するのに好適な音声認識方法及び装置に関する。
【０００２】
【従来の技術】
近年、音声認識技術は、優れたマンマシンインタフェースを実現する上で重要な役割を担っている。最近では、ＨＭＭを用いたワードスポッティングや連続音声認識など、発声者の発声方式に制約を要求しない、自然発話認識のための研究や開発が盛んに行われている。従来これらの音声認識手法においては、入力信号から、話者が音声を発声していると判断される区間を切り出し、その部分を標準パターンとマッチングさせることにより、発話内容を認識していた。
【０００３】
ところが、実際の自然発話においては、発声区間と判断された部分にも、促音や、摩擦音、無声化した有声音など、信号のパワーの低い無音区間が生じることがある。信号のパワーの低い区間では、背景雑音の影響が相対的に大きくなるため、信号のスペクトルが安定せず、その結果誤ったパターンとマッチングしてしまい、誤認識が生じることがしばしばあった。
【０００４】
更に、このような自然発話において生じるパワーの低い無音区間は、予め予期することが難しいため、標準パターンとして登録しておくことができなかった。
【０００５】
【発明が解決しようとする課題】
このように従来は、発声区間として検出された区間内に、パワーの低い無音区間が存在すると、その部分においては背景雑音のスペクトルが支配的となり、誤ったパターンマッチングが生じるという問題があった。また、発声区間内において、パワーが低くなる区間は予め予期することが難しく、そのため、それらのパターンを標準パターンとして登録することができない、という問題もあった。
【０００６】
本発明は、上記事情を考慮してなされたもので、発声区間内に、不規則に発生するパワーの低い無音区間が存在しても、その影響を受けることなく、高精度の認識を可能とする音声認識方法及び装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明は、入力される信号を音響分析して音声が発声された区間を検出して、検出した発声区間の音声信号から特徴ベクトル系列を抽出し、前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを第１の照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算し、各認識候補ごとの照合スコアに基づいて認識結果を判定する音声認識方法において、上記検出した発声区間の音声信号の短時間パワーから音声信号の無音区間を検出し、その無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき無音区間の影響を考慮した第２の照合方式を用いて照合することにより照合スコアを計算することを特徴とする。ここで、第１の照合方式にＨＭＭ（隠れマルコフモデル）照合方式を適用し、第２の照合方式にナル遷移を許すＨＭＭ照合方式を適用するとよい。
【０００８】
本発明によれば、発声区間内に予期しないパワーの低い無音区間が存在していたとしても、その無音区間を検出して、標準パターンとの照合の際には無音区間を除いて照合を行うことにより、無音区間における誤ったパターンマッチングを回避することができ、高精度な認識が可能となる。しかも本発明においては、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき無音区間の影響を考慮した第２の照合方式、例えばナル遷移を許すＨＭＭ照合方式を適用することから、無音区間（の特徴ベクトル）を照合に用いなかったことによる状態遷移の矛盾が生じない。
【０００９】
ここで、無音区間から有音区間へ切り替わった時刻にナル遷移を許す場合、その際のＨＭＭの状態（第１の状態ｉ）へのナル遷移を起こすＨＭＭの状態として、直前の時刻（フレーム）における状態ｉ以前の状態のうち最適経路の照合スコアが最大となる状態（第２の状態ｊ）を選択することで、状態ｊから状態ｉへのナル遷移を起こし、状態ｉの上記直前の時刻における照合スコアを、状態ｊの同時刻における照合スコアに置き換えるとよい。この状態ｉへのナル遷移が可能な状態を、無音区間の継続時間などによって制限するようにしてもよい。
【００１０】
また本発明は、発声区間の音声信号の短時間パワーに基づく無音区間の検出を、異なる閾値を用いて独立に行い、発声区間の音声信号から抽出された特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを、上記異なる閾値に基づいて独立に検出される無音区間の情報に基づいて、隠れマルコフモデル照合方式にて照合することにより、各閾値別に照合スコアを計算し、その際に対応する閾値に基づいて検出した無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻にのみ、ナル遷移を許す隠れマルコフ照合方式を適用し検出し、各閾値別に求めた各認識候補ごとの照合スコアに基づいて認識結果を判定することをも特徴とする。
【００１１】
このように、各閾値別に得られる無音区間情報を用いて、各閾値別に、対応する無音区間をパターン照合の対象外として各認識候補ごとの照合スコアを求め、その照合スコアに基づいて認識結果を判定することで、無音区間における誤ったマッチングの影響を減らすことができる。
【００１２】
ここで、１つの閾値について各認識候補ごとの照合スコアを計算する都度、その認識候補ごとの照合スコアに基づいて認識候補を絞り、その動作を、上記閾値を一定方向に段階的に切り替えながら繰り返すようにするとよい。なお、異なる閾値を用いた無音区間の検出自体は、並行して行っても、閾値を切り替えながら順次行っても構わない。前者の場合には、無音区間の検出結果を記憶しておく必要がある。また、後者の場合には、少なくとも発声区間の音声信号を記憶しておく必要がある。
【００１３】
このように、無音区間検出用の閾値（パワーの閾値）を一定方向に段階的に変えて、認識候補の枝刈りをしながらパターン照合を行うことにより、段階的に認識候補を絞ることができ、認識の精度を向上させ、誤認識を減らすことができる。
【００１４】
ここで、閾値の切り替えを当該閾値が小さくなる方向に行うならば、認識候補の選択の際に、スペクトルが安定するパワーの大きな部分に重みをかけることができ、スペクトルが不安定なパワーの低い区間の影響を減らすことができる。
【００１５】
また、閾値の切り替えを当該閾値が大きくなる方向に行うようにしてもよい。この場合、最初は無音区間における誤ったマッチングが許されて複数の認識候補が選択されるものの、正解候補は無音区間以外では正しくマッチングするので上位候補に入り、徐々に閾値を大きくしてマッチングを行うことにより、無音区間における誤ったマッチングの影響を減らすことができ、最終的に正しい正解候補を検出することができる。
【００１６】
また、閾値を一定方向に段階的に切り替えながら認識候補を絞るのではなく、同一認識候補について各閾値別に得られる照合スコアの重み付け和を算出する処理を全ての認識候補について実行し、その全認識候補各々の照合スコアの重み付け和に基づいて認識結果を判定することも可能である。
この場合、無音区間の影響を任意に照合スコアに反映させることができ、これにより無音区間における誤ったマッチングの影響を減らすことができる。
【００１７】
なお、方法に係る本発明は装置に係る発明としても成立する。
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための（或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための）プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
【００１８】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【００１９】
［第１の実施形態］
図１は、本発明の第１の実施形態に係る音声認識装置を概略的に示すものである。
図１に示す音声認識装置は、入力された信号を分析して発声区間を検出する発声区間検出部１０１と、この発声区間検出部１０１で検出された発声区間の音声信号を音響分析することにより、特徴ベクトルを抽出する特徴ベクトル抽出部１０２と、発声区間検出部１０１で検出された発声区間の音声信号から、当該音声信号のパワーを用いて無音区間を検出する無音区間検出部１０６と、予め学習された所定の各認識候補の標準特徴パターンが記憶されている標準特徴パターン記憶部１０４と、無音区間検出部１０６で検出された無音区間情報を用いて、特徴ベクトル抽出部１０２で抽出された特徴ベクトル系列と、標準特徴パターン記憶部１０４に記憶された各認識候補の標準特徴パターンとを、ＨＭＭを用いた照合方式で照合するパターン照合部１０３と、このパターン照合部１０３で得られる認識候補ごとの照合結果をもとに、認識された発声内容を判定する、認識結果判定部１０５とを具備している。
【００２０】
なお図１では、発声者が発声した音声を入力してデジタルの電気信号（デジタル音声信号）に変換する、マイクロホン、Ａ／Ｄ（アナログ／デジタル）変換器を含む音声入力部は省略されている。
【００２１】
次に、図１の構成の音声認識装置の処理概念を説明する。
発声区間検出部１０１において検出された発声区間の音声信号は、特徴ベクトル抽出部１０２で、予め定められた複数の周波数帯域毎に周波数分析され、特徴ベクトル系列（特徴ベクトル時系列）｛ｘｔ｝に変換される。特徴ベクトル（特徴パラメータ）はフレームと呼ばれる固定の時間長を単位に求められる。音声認識に使用される代表的な特徴ベクトルとしては、バンドパスフィルタまたはフーリエ変換によって求めることができるパワースペクトラムや、ＬＰＣ（線形予測）分析によって求められるケプストラム係数などがよく知られている。但し、本実施形態では、使用する特徴ベクトルの種類は問わない。
特徴ベクトル抽出部１０２により抽出された特徴ベクトルの時系列は、パターン照合部１０３に送られる。
【００２２】
一方、上記発声区間の音声信号は、無音区間検出部１０６にも送られ、当該音声信号の短時間パワーから、上記特徴ベクトル系列のフレームと同期して無音区間が検出される。図２はこの部分の処理によって、無音区間が検出された信号の様子を概念的に表わしている。図２の横軸は時間、縦軸は信号の短時間パワーであり、ＴＨは予め設定されているパワーの閾値である。
【００２３】
無音区間検出部１０６では、各時刻ｔの短時間パワーの値Ｐｔとパワーの閾値ＴＨが毎時刻比較され、Ｐｔ＜ＴＨとなる区間が無音区間と判定される。このようにして得られた無音区間を示す情報（無音区間情報）は、パターン照合部１０３に送られる。なお、ここで時刻ｔは、発声区間におけるｔ番目のフレームを指す。
【００２４】
パターン照合部１０３では、入力された特徴ベクトル系列、無音区間情報、及び予め学習しておいた標準特徴パターン（標準パターン）を用いて、パターン照合が行われる。標準特徴パターンは、所定の認識候補（認識単位）ごとにＨＭＭとして標準特徴パターン記憶部１０４に予め記憶されている。認識の際には、このＨＭＭをそのまま、或いは組み合わせて用いる。
【００２５】
図３は、照合に用いられるＨＭＭの構造を表わしている。ここで状態遷移のうち符号ｃが付された遷移はナル遷移であり、符号ａ，ｂが付された遷移はそれぞれ、通常の状態遷移及び自己ループである。なお、図３のＨＭＭでは、ナル遷移はすべての状態間に仮定しているが、ここに制約を設けてナル遷移が生じる状態を制限することも可能である。
【００２６】
次に、パターン照合部１０３で適用される、図３の構造のＨＭＭを用いたパターン照合方式について図４のフローチャートを参照して説明する。
ステップＳ１０１では、入力された時刻ｔの信号、即ちｔ番目のフレームの信号が発声区間であるか否かが、発声区間検出部１０１での検出結果に基づいて判定される。時刻ｔの入力信号が発声区間の信号である場合にはステップＳ１０２に、発声区間の信号でなければステップＳ１０６に進む。
【００２７】
ステップＳ１０２では、無音区間検出部１０６での検出結果に基づいて、入力された時刻ｔの信号が無音区間の信号であるか否かが判定される。無音区間の信号と判定された場合にはステップＳ１０７に、有音区間の信号と判定された場合にはステップＳ１０３に進む。
【００２８】
ステップＳ１０３では、フラグ（ＦＬＡＧ）の値が評価される。フラグは０または１の値を取り、時刻ｔ−１の信号（つまり１フレーム前の信号）が無音区間に属していたか（ＦＬＡＧ＝０の場合）、有音区間に属していたか（ＦＬＡＧ＝１の場合）を示す。フラグの値が０の場合には時刻ｔが（時刻ｔ−１までの）無音区間から有音期間に切り替わった（変化した）時刻であると判定されて最終ステップＳ１０８に、１の場合には無音区間が継続していると判定されてステップＳ１０４に進む。
【００２９】
ステップＳ１０４では、図３に示されるＨＭＭにおいて、時刻ｔの信号に対する、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される。決定後、ステップＳ１０５に進む。
ステップＳ１０５では、時刻ｔが次の時刻ｔ＋１に設定され、ステップＳ１０１に戻る。
【００３０】
ステップＳ１０６では、各認識候補ごとに、図３に示されたＨＭＭにおいて、発声区間終了時刻ｔで照合スコアが最大となる状態が選択され、その認識候補ごとの照合スコアが認識結果判定部１０５に送られ、処理を終了する。ここで照合スコアは、周知のように入力音声信号の特徴ベクトル系列と標準特徴パターンとの類似度または距離を表す評価値である
ステップＳ１０７では、ステップＳ１０２で時刻ｔの信号が無音区間の信号であると判定されたことを受け、前述したフラグの値を０に設定し、ステップＳ１０５に進む。ここでは、パターン照合は行われず、したがって時刻ｔにおける特徴ベクトルはパターン照合の対象外とされ、各状態の照合スコアは更新されない。
【００３１】
ステップＳ１０８では、ステップＳ１０３で時刻ｔの信号が、無音区間から有音区間へ切り替わった時刻であると判定されたことを受け、図３に示されたＨＭＭにおいて、まずナル遷移を行い、各状態における時刻ｔ−１における照合スコアを更新する。照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される。決定後、ステップＳ１０９へ進む。この部分の処理の詳細は、後述する。
【００３２】
ステップＳ１０９では、ステップＳ１０２で時刻ｔの信号が有音区間の信号であると判定されたことを受けて、前述したフラグの値を１に設定し、ステップＳ１０５に進む。
【００３３】
以上が、本発明に直接関係するパターン照合方式の概略と流れである。
上記パターン照合方式を適用したパターン照合部１０３での処理により、すべての認識候補の照合スコアが計算され、認識結果判定部１０５において最大スコアをとる認識候補が認識結果として選択される。
【００３４】
ここで、無音区間から有音区間へ切り替わった時刻ｔにおける上記ステップＳ１０８の処理の詳細について、図５のフローチャートを参照して説明する。
時刻ｔにおいて、まずステップＳ４０１で状態番号ｉが最終状態に設定される。
【００３５】
ステップＳ４０２では、状態ｉについて、状態０から状態ｉのうち、時刻ｔ−１（１フレーム前）における最適経路の照合スコアが最大となる状態ｊが選択される。
【００３６】
ステップＳ４０３では、状態ｊから状態ｉへのナル遷移が起こり、状態ｉの時刻ｔ−１（１フレーム前）における照合スコアが、状態ｊの同時刻ｔ−１における照合スコアに置き換えられる。
【００３７】
ステップＳ４０４では、状態ｉが先頭の状態０であるかどうかが判定される。状態０である場合には最終ステップＳ４０６に、そうでなければステップＳ４０５に進む。
【００３８】
ステップＳ４０５では、ｉが１だけカウントダウンされ、ステップＳ４０２に戻る。
ステップＳ４０６では、すべての状態に対して、時刻ｔにおける、ナル遷移を除く最適経路、及びその照合スコアが求められる。
【００３９】
このように無音区間から有音区間へ切り替わった時刻にナル遷移を考えることにより、無音区間の特徴ベクトルを照合に用いなかった影響を取り除くことができる。なお、ここでは、状態ｉへのナル遷移は、状態０から状態ｉのすべての状態から起こり得るとしているが、ここに制約を設けて、例えば、無音区間の継続時間などによって状態ｉへのナル遷移が可能な状態を制限する（継続時間が短いほど状態数を減らす）ことも可能である。また無音区間の継続時間が所定の閾値以下の場合には、ナル遷移を起こさないようにすることも可能である。更に、ここでは、ナル遷移が可能な状態を最終状態から先頭の状態すべてについて探索しているが、これは必ずしもすべての状態について行う必要はなく、予め事前情報に基づいて無音区間が発生しやすい状態についてのみナル遷移を行うことも可能である。
【００４０】
次に、本実施形態の効果を図６乃至図９を参照して説明する。
図６は「とさか（ＴＯＳＡＫＡ）」と発声したときの、信号のパワーのイメージ図である。ここで、時刻Ｔ０，Ｔ７はそれぞれ、発声区間の始端時刻、終端時刻を示している。また、時刻Ｔ０−Ｔ１，Ｔ２−Ｔ３，Ｔ４−Ｔ５，Ｔ６−Ｔ７の各区間は、それぞれ、パワーの閾値ＴＨにより無音区間と判定された区間である。
【００４１】
一般に発声区間中の無音区間は、促音や摩擦音、有声音の無声化などにより発生し、この区間内では、背景雑音の影響が相対的に大きくなるため、誤ったパターンとのマッチングが起こりやすい。そしてその結果、誤認識が生じることがある。図６によれば、Ｔ０からＴ１、Ｔ２からＴ３、Ｔ４からＴ５、及びＴ６からＴ７の区間で誤ったパターンマッチングが生じる虞がある。
【００４２】
図７は、Ｔ２からＴ３の区間における音声信号の短時間パワーの様子と発生内容（ここでは音素列で表現）を更に詳細に示したものである。この例では、摩擦音／Ｓ／に相当する区間は、完全に閾値ＴＨ以下となっている。上述したように、この場合、パワーの閾値ＴＨ以下であるＴ２からＴ３の区間は、誤ったマッチングを起こしやすい。
【００４３】
図８は、簡単のため１つの音素を１状態で表わした「ＴＯＳＡＫＡ」を表わすＨＭＭである。ここでは簡単のため、状態／Ｏ／／Ｓ／／Ａ／／Ｋ／／Ａ／からのナル遷移については省略してある。
【００４４】
図８のようなＨＭＭに対して、先に述べたパターン照合方式を適用すると、Ｔ２からＴ３の区間（音声信号の無音区間）では、特徴ベクトル系列が照合に用いられないように制御される。このため、音声信号の有音区間、無音区間に無関係に特徴ベクトル系列が照合に用いられる従来技術とは異なって、Ｔ２からＴ３の区間（無音区間）における誤ったマッチングが生じることがなく、したがって照合スコアに悪影響を与えることがない。しかも、本実施形態で適用されるパターン照合方式では、無音区間から有音区間へ変わる時刻にはナル遷移を許しているので、無音区間を照合に用いなかったことによる状態遷移の矛盾が生じない。
【００４５】
以上の結果、本実施形態では、照合スコアに悪影響を与えることなく、図９で示したような遷移が可能になる。この例では、音素／Ｓ／に相当する特徴ベクトルのパワーが、パワーの閾値ＴＨ以下となっているため、この部分の特徴ベクトルが照合に使われず、それを表現するために、音素／Ｏ／から音素／Ａ／へのナル遷移を許し、音素／Ｓ／の状態を経由することを回避している。
このことは、Ｔ２−Ｔ３以外の無音区間（Ｔ０−Ｔ１，Ｔ４−Ｔ５，Ｔ６−Ｔ７）についても全く同様に考えられる。
【００４６】
発声区間が終了した場合には、すべての状態の、時刻Ｔ７における最適な状態遷移経路、及びそのときの照合スコアが求まるので、最大となるスコアを認識結果の判定に用いればよい。
【００４７】
この方法を用いれば、発声に対する認識候補の照合において、無音区間の誤ったマッチングにより、誤った認識候補の照合スコアが大きくなることを回避できる。その結果、照合スコアの精度が向上するので、認識率の改善につながる。以上が本発明の第１の実施形態に係る音声認識装置の構成、作用、効果の詳細な説明である。
【００４８】
［第２の実施形態］
図１０は、本発明の第２の実施形態に係る音声認識装置を概略的に示すものである。
【００４９】
図１０に示す音声認識装置は、発声区間検出部２０１、特徴ベクトル抽出部２０２、パターン照合部２０３、標準特徴パターン記憶部２０４、認識結果判定部２０５、及びＮ個の無音区間検出部（＃１）２０６−１〜（＃Ｎ）２０６−Ｎとを具備している。
【００５０】
図１０の構成の特徴は、（図１中の無音区間検出部１０６に相当する）Ｎ個の無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）により、予め用意された異なる信号のパワーの閾値ＴＨ１〜ＴＨＮに基づいて（発声区間の）音声信号の無音区間が検出されるようになっている点にある。このため、（図１中のパターン照合部１０３、認識結果判定部１０５に相当する）パターン照合部２０３、認識結果判定部２０５の機能も、後述するように一部異なっている。なお、それ以外の構成要素、即ち発声区間検出部２０１、特徴ベクトル抽出部２０２、標準特徴パターン記憶部２０４は、図１中の発声区間検出部１０１、特徴ベクトル抽出部１０２、標準特徴パターン記憶部１０４と同様である。
【００５１】
そこで、図２の構成の音声認識装置の動作について、図１の音声認識装置と異なる部分を中心に説明する。
無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）には、発声区間検出部２０１で検出された音声信号が並列に入力される。各無音区間検出部＃ｉ（ｉ＝１〜Ｎ）には、それぞれ異なるパワーの閾値ＴＨｉが用意されており、それらの閾値を用いて独立に音声信号の無音区間が検出される。
【００５２】
図１１は、無音区間検出部＃１（２０６−１）、無音区間検出部＃２（２０６−２）、…無音区間検出部＃Ｎ（２０６−Ｎ）で、予め設定されたパワーの閾値ＴＨ１，ＴＨ２，…ＴＨＮに基づき、発声区間における音声信号の無音区間が検出される様子を表している。ここでは、ＴＨｉ＞ＴＨｉ＋１となるように設定されているものとする。
【００５３】
無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）にて独立に検出された無音区間を示す情報（無音区間情報）はパターン照合部２０３に送られる。パターン照合部２０３には、特徴ベクトル抽出部２０２により抽出された特徴ベクトルの時系列（特徴ベクトル系列）も送られる。パターン照合部２０３では、特徴ベクトル抽出部２０２から入力される特徴ベクトル系列と、各無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）から入力される無音区間情報を用いて、各認識候補の照合スコアが計算される。
【００５４】
ここで、パターン照合部２０３及び認識結果判定部２０５における処理を、図１２のフローチャートを参照して説明する。
ステップＳ２０１では、初期設定処理が行われ、無音区間検出部＃ｉを示すパラメータ（無音区間検出部番号）としてｉ＝１が設定される。
【００５５】
ステップＳ２０２では、すべての認識候補について、無音区間検出部＃ｉからの無音区間情報を用いてパターン照合部２０３により照合スコアが算出される。このパターン照合部２０３での照合スコア計算には、前記第１の実施形態で述べた（パターン照合部１０３での）照合方式を用いる。
【００５６】
ステップＳ２０３では、ステップＳ２０２で算出された各認識候補ごとの照合スコアから、予め用意された枝刈りのための認識候補数Ｍｉに従い、上位Ｍｉ位までの認識候補が選択され、次のステップの認識候補として残される。ここでは、Ｍｉ＞Ｍｉ＋１となるように設定されているものとする。
【００５７】
ステップＳ２０４では、ｉが無音区間検出部＃Ｎを表すパラメータ値（無音区間検出部番号）Ｎに達したかどうかが判定される。ｉ＝Ｎとなったなら最終ステップＳ２０６に、そうでなければステップＳ２０５に進む。
ステップＳ２０５では、ｉが１だけカウントアップされ、ステップＳ２０２に戻る。
【００５８】
ステップＳ２０６では、その時点において残されている（上位ＭＮ位までの）認識候補の中から照合スコアが最大となるものが認識結果判定部２０５により選ばれ、認識結果として出力される。
以上、第２の実施形態でのパターン照合部２０３及び認識結果判定部２０５における処理について説明した。
【００５９】
以上の方式を用いれば、認識候補の選択の際に、スペクトルが安定するパワーの大きな部分に重みをかけることができ、スペクトルが不安定なパワーの低い区間の影響を減らすことができる。また、パワーの閾値を段階的に変えて、認識候補の枝刈りをしながらパターン照合を行うことにより、段階的に認識候補を絞ることができ、認識の精度を向上させ、誤認識を減らすことができる。
以上が本発明の第２の実施形態に係る音声認識装置の構成、作用、効果の詳細な説明である。
【００６０】
（第２の実施形態の第１変形例）
以上に述べた第２の実施形態では、パターン照合部２０３における認識候補の枝刈りを、パワーの閾値の大きいものから順に用いて行うものとして説明したが、逆にパワーの閾値の小さいものから順に行うことも可能である。
【００６１】
そこで、図１０の構成において認識候補の枝刈りをパワーの閾値の小さいものから順に行う方式を適用した、第２の実施形態の第１変形例について、図１３のフローチャートを参照して説明する。
【００６２】
ステップＳ３０１では、ｉ＝Ｎが初期設定される。
ステップＳ３０２では、すべての認識候補に対して、無音区間検出部＃ｉからの無音区間情報を用いてパターン照合部２０３により照合スコアが算出される。このパターン照合部２０３での照合スコア計算には、前記第１の実施形態で述べた（パターン照合部１０３での）照合方式を用いる。
【００６３】
ステップＳ３０３では、ステップＳ３０２で算出された照合スコアから、予め用意された枝刈りのための認識候補数Ｍｉに従い、上位Ｍｉ位までの認識候補が選択され、次のステップの認識候補として残される。ここでは、先の照合方式の例と異なって、Ｍｉ＜Ｍｉ＋１となるように設定されているものとする。
【００６４】
ステップＳ３０４では、ｉが無音区間検出部＃１を表すパラメータ値（無音区間検出部番号）１に達したかどうかが判定される。ｉ＝１となったなら最終ステップＳ３０６に、そうでなければステップＳ３０５に進む。
ステップＳ３０５では、ｉが１だけカウントダウンされ、ステップＳ３０２に戻る。
【００６５】
ステップＳ３０６では、その時点において残されている（上位Ｍ１位までの）認識候補の中から照合スコアが最大となるものが認識結果判定部２０５により選ばれ、認識結果として出力される。
以上、第２の実施形態の第１変形例に係るパターン照合部２０３及び認識結果判定部２０５における処理について説明した。
【００６６】
以上の方式では、まず小さいパワーの閾値で、無音区間における誤ったマッチングを許して複数の認識候補が選択される。正解候補は、無音区間以外では正しくマッチングするので、上位候補に入る。そして、徐々にパワーの閾値を大きくしてマッチングを行うことにより、無音区間における誤ったマッチングの影響を減らすことができ、最終的に正解候補を検出することが可能である。
【００６７】
このような方式を用いれば、認識候補選択の際に、まず、無音区間における誤ったマッチングを含む認識候補の中から、段階的に無音区間の誤ったマッチングの影響を減らしていくことができ、認識の精度を向上させ、誤認識を減らすことができる。
以上が本発明の第２の実施形態の第１変形例における音声認識装置の作用、効果の詳細な説明である。
【００６８】
（第２の実施形態の第２変形例）
以上に述べた第２の実施形態、及び当該実施形態の第１変形例では、異なるパワーの閾値ＴＨｉを用いて各閾値ＴＨｉごとに検出される無音区間の情報に対してパターン照合部２０３で得られる複数の照合スコアを順番に用いて認識候補を枝刈りし、認識結果を求めるものとして説明したが、これに限るものではない。例えば、各閾値ＴＨｉごとに得られる照合スコアの重み付け和をとることにより認識結果を判定することも可能である。
【００６９】
そこで、この方式を用いた第２の実施形態の第２変形例について、図１４のフローチャートを参照して説明する。
ステップＳ５０１では、認識候補番号ｉが１に初期設定される。
【００７０】
ステップＳ５０２では、無音区間検出部＃ｊを示すパラメータ（無音区間検出部番号）ｊが１に初期設定される。
ステップＳ５０３では、無音区間検出部＃ｊからの無音区間情報を用いて認識候補ｉ（認識候補番号がｉの認識候補）の照合スコアｓｉｊがパターン照合部２０３により計算される。
【００７１】
ステップＳ５０４では、ｊが無音区間検出部＃Ｎを表すパラメータ値（無音区間検出部番号）Ｎに達したかどうかが判定される。ｊ＝ＮとなったならステップＳ５０６に、そうでなければステップＳ５０５に進む。
ステップＳ５０５では、ｊが１だけカウントアップされ、ステップＳ５０３に戻る。
【００７２】
ステップＳ５０６では、各無音区間検出部＃ｊ（ｊ＝１〜Ｎ）、つまり無音区間検出部＃１〜＃Ｎからの無音区間情報を用いて算出された照合スコアｓｉｊの重みｗｊによる重み付け和、つまりｓｉ１〜ｓｉＮの重みｗ１〜ｗＮによる重み付け和が計算され、認識結果判定に用いられる認識候補ｉの照合スコアＳｉが計算される。ここでｗｊは予め定められている重み（０≦ｗｊ≦１）であり、無音区間検出部＃ｊからの無音区間情報を用いて算出された照合スコアｓｉｊに対する重みである。
【００７３】
ステップＳ５０７では、すべての認識候補について照合スコアＳｉが計算されたかどうかが、ｉの値により判定される。ｉが、認識候補数に達していれば最終ステップＳ５０９に、達していなければステップＳ５０８に進む。
ステップＳ５０８では、認識候補番号ｉが１だけカウントアップされて、ステップＳ５０２に戻る。
【００７４】
ステップＳ５０９では、認識結果判定部２０５により、すべての認識候補の照合スコアＳｉが比較され、Ｓｉが最大となる認識候補が認識結果として判定されて出力される。
以上、第２の実施形態の第２変形例に係るパターン照合部２０３及び認識結果判定部２０５における処理について説明した。
【００７５】
以上の方式では、異なるパワーの閾値ＴＨ１〜ＴＨＮに基づいて得られる各閾値ごとの無音区間情報を用いて算出される、同一認識候補ｉについての照合スコアｓｉ１〜ｓｉＮに対して適当な重みｗ１〜ｗＮをかけて和をとることにより、無音区間の影響を任意に照合スコアに反映させることができる。このため、無音区間における誤ったマッチングの影響を減らすことができる。
以上が本発明の第２の実施形態の第２変形例における音声認識装置の作用、効果の詳細な説明である。
【００７６】
なお、前記第２の実施形態では、無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）が並行して動作するものとして説明したが、発声区間検出部２０１で検出された発声区間の音声信号をメモリ等の記憶手段に格納しておき、この状態で無音区間検出部＃１（２０６−１）〜＃Ｎ（２０６−Ｎ）を順に起動して、上記記憶手段内の音声信号を対象としてその無音区間検出部に固有の閾値で無音区間を検出させ、その都度検出した無音区間情報をパターン照合部２０３に送るようにしても構わない。
【００７７】
また、以上の実施形態における発声区間検出部１０１（２０１）、特徴ベクトル抽出部１０２（２０２）、パターン照合部１０３（２０３）、認識結果判定部１０５（２０５）、無音区間検出部１０６（２０６−１〜２０６−Ｎ）の各機能は、ソフトウェアとしても実現可能である。
【００７８】
また、本実施形態は、コンピュータに以上の実施形態に係る音声認識装置で適用したパターン照合方式を含む所定の手順を実行させるための（或いはコンピュータを音声認識装置の持つ所定の手段として機能させるための、或いはコンピュータに音声認識装置の持つ所定の機能を実現させるための）プログラムを記録したコンピュータ読み取り可能なＣＤ−ＲＯＭ等の記録媒体として実施することもできる。また、このプログラムが通信媒体を介してダウンロードされるものであっても構わない。
【００７９】
この他、本発明の実現形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。
【００８０】
【発明の効果】
以上説明したように、本発明によれば、発声区間内に予期しないパワーの低い無音区間が存在しても、その無音区間を検出し、標準特徴パターンとの照合の際に利用することにより、無音区間における誤ったパターンマッチングを回避することができ、高精度な認識が可能となる等の実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図１】本発明の第１の実施形態に係る音声認識装置の基本構成を表わすブロック図。
【図２】入力音声信号における無音区間を表わす概念図。
【図３】ナル遷移を含むＨＭＭの構成を示す図。
【図４】パターン照合方式の流れを示す図。
【図５】無音区間から有音区間へ切り替わった時刻における処理の流れを示す図。
【図６】入力音声信号におけるパワーの様子を示す図。
【図７】入力音声信号におけるパワーの様子の詳細を示す図。
【図８】ＨＭＭの構成の具体例を示す図。
【図９】パターン照合処理後の最適経路の概念図。
【図１０】本発明の第２の実施形態に係る音声認識装置の基本構成を表わすブロック図。
【図１１】複数の閾値による入力信号の無音区間を表わす概念図。
【図１２】複数の閾値を用いるパターン照合方式の流れを示す図。
【図１３】複数の閾値を用いるパターン照合方式の流れの第１変形例を示す図。
【図１４】複数の閾値を用いるパターン照合方式の流れの第２変形例を示す図。
【符号の説明】
１０１，２０１…発声区間検出部
１０２，２０２…特徴ベクトル抽出部
１０３，２０３…パターン照合部
１０４，２０４…標準特徴パターン記憶部
１０５，２０５…認識結果判定部
１０６，２０６−１〜２０６−Ｎ…無音区間検出部

Claims

入力される信号を音響分析して音声が発声された区間を検出して、検出した発声区間の音声信号から特徴ベクトル系列を抽出し、前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを隠れマルコフモデル照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算し、各認識候補ごとの照合スコアに基づいて認識結果を判定する音声認識方法において、
前記検出した発声区間の音声信号の短時間パワーから音声信号の無音区間を検出し、
その無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき、ナル遷移を行い、各状態の１フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフモデル照合方式を用いて照合することにより照合スコアを計算することを特徴とする音声認識方法。
入力される信号を音響分析して音声が発声された区間を検出して、その検出した発声区間の音声信号から特徴ベクトル系列を抽出する一方、
前記検出した発声区間の音声信号の短時間パワーから、それぞれ異なる閾値に基づいて音声信号の無音区間を独立に検出し、
前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを、前記異なる閾値に基づいて独立に検出される無音区間の情報に基づいて、隠れマルコフモデル照合方式にて照合することにより、前記各閾値別に両者の類似度または距離を表す照合スコアを計算し、その際に対応する閾値に基づいて検出した無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の１フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式を適用し、
各閾値別に求めた各認識候補ごとの照合スコアに基づいて認識結果を判定することを特徴とする音声認識方法。
１つの閾値について前記各認識候補ごとの照合スコアの計算を実行する都度、その認識候補ごとの照合スコアに基づいて認識候補を絞り、その動作を、前記閾値を一定方向に段階的に切り替えながら繰り返すことを特徴とする請求項２記載の音声認識方法。
同一認識候補について各閾値別に得られる照合スコアの重み付け和を算出する処理を全ての認識候補について実行し、その全認識候補各々の照合スコアの重み付け和に基づいて認識結果を判定することを特徴とする請求項２記載の音声認識方法。
入力される信号を音響分析して音声が発声された区間を検出する発声区間検出手段と、
前記発声区間検出手段により検出された発声区間の音声信号から特徴ベクトル系列を抽出する特徴ベクトル抽出手段と、
前記発声区間検出手段により検出された発声区間の音声信号の短時間パワーから、音声信号の無音区間を検出する無音区間検出手段と、
所定の各認識候補の音声信号の標準パターンを記憶する標準パターン記憶手段と、
前記特徴ベクトル抽出手段により抽出された特徴ベクトル系列と前記標準パターン記憶手段に記憶されている各認識候補の標準パターンとを隠れマルコフ照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算するパターン照合手段であって、前記無音区間検出手段により検出された無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の１フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式にて照合するパターン照合手段と、
前記パターン照合手段により求められる各認識候補ごとの照合スコアに基づいて認識結果を判定する認識結果判定手段と
を具備することを特徴とする音声認識装置。
入力される信号を音響分析して音声が発声された区間を検出する発声区間検出手段と、
前記発声区間検出手段により検出された発声区間の音声信号から特徴ベクトル系列を抽出する特徴ベクトル抽出手段と、
前記発声区間検出手段により検出された発声区間の音声信号の短時間パワーから、それぞれ異なる閾値に基づいて音声信号の無音区間を検出する複数の無音区間検出手段と、
所定の各認識候補の音声信号の標準パターンを記憶する標準パターン記憶手段と、
前記特徴ベクトル抽出手段により抽出された特徴ベクトル系列について、前記各無音区間検出手段によりそれぞれ検出された無音区間の特徴ベクトル系列を除いて、前記異なる閾値別に、前記標準パターン記憶手段に記憶されている各認識候補の標準パターンと隠れマルコフ照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算するパターン照合手段であって、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の１フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式にて照合するパターン照合手段と、
前記パターン照合手段により各閾値別に求められる各認識候補ごとの照合スコアに基づいて認識結果を判定する認識結果判定手段と
を具備することを特徴とする音声認識装置。