JP2004191705A

JP2004191705A - 音声認識装置

Info

Publication number: JP2004191705A
Application number: JP2002360356A
Authority: JP
Inventors: Masahiko Ikeda; 雅彦池田
Original assignee: Renesas Technology Corp
Current assignee: Renesas Technology Corp
Priority date: 2002-12-12
Filing date: 2002-12-12
Publication date: 2004-07-08
Also published as: US20040117187A1; CN1506937A

Abstract

【課題】単語ごとに行う音声認識の照合処理においても、照合処理数を削減して処理速度を高速化することが可能な音声認識装置を提供する。
【解決手段】単語モデル生成器４によって生成された単語モデルの集合は、照合対象単語選択器３に与えられ、そのうちから照合対象となる１つの単語モデルが選択される。単語照合処理器２では、照合対象となっている現状態に対するパス元のスコアが、単語照合処理器２に接続される最高値記憶バッファ８に記憶された、スコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入対象として累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。
【選択図】図２

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識装置に関し、特に単語音声照合処理を高速化した音声認識装置に関する。
【０００２】
【従来の技術】
従来の音声認識方法の一例として、特許文献１に開示される方法が挙げられる。すなわち、特許文献１においては、隠れマルコフモデル（Hidden Markov Model）によるネットワークを状態と接点（ノード）により表現し、このネットワーク上においてビタビ（Viterbi）アルゴリズムにより、各状態に生じる音声認識候補について、認識処理に必要な項目をすべて累積照合スコアと組にして伝播、処理することで累積照合スコアの計算量を減らし、記憶量も比較的小さくて済む音声認識方法が開示されている。
【０００３】
【特許文献１】
特開平8-221090号公報（第４欄〜第８欄、図１）
【０００４】
【発明が解決しようとする課題】
しかし、上記手法は、ビタビアルゴリズムを使用してフレーム同期で処理する音声認識を前提としており、技術の適用に制限があった。
【０００５】
本発明は上記のような問題点を解消するためになされたもので、単語ごとに行う音声認識の照合処理においても、照合処理数を削減して処理速度を高速化することが可能な音声認識装置を提供することを目的とする。
【０００６】
【課題を解決するための手段】
本発明に係る請求項１記載の音声認識装置は、時系列に与えられる入力音声信号を特徴ベクトルに変換し、複数のフレームに区分して出力する音響処理部と、予め準備された認識対象単語と音響モデルとに基づいて少なくとも１つの単語モデルを作成する単語モデル作成部と、前記少なくとも１つの単語モデルと前記特徴ベクトルとの照合処理を、最大確率を与える状態系列に沿うことで最終確率を得るビタビアルゴリズムを用いて単語ごとに行う照合処理部と、前記複数のフレームの各々に含まれる複数の状態について、確率に基づいて算出されるスコアの各フレーム中における最高値を記憶する最高値記憶部とを備え、前記照合処理部は、前記スコアの最高値に基づいて、前記複数の状態から、そのスコアを算出すべき計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行う。
【０００７】
【発明の実施の形態】
＜序論＞
発明の実施の形態の説明に先立って、単語音声照合に用いる隠れマルコフモデル（Hidden Markov Model：以後ＨＭＭと呼称）について説明する。
【０００８】
図１は、４つの状態を連結して構成される単語に対するＨＭＭ照合処理を模式的に示す図である。ここで、状態とは音声言語の最小単位である音素（phoneme）に相当する。なお、音素とは、一般的には母音や子音として知られている音がそれである。
【０００９】
図１においては、横軸には時系列で入力された入力単語（音声）を所定長さのフレーム単位ごとに区分した場合のフレーム数(ｉ)を表し、縦軸には登録された単語の音素番号(ｊ)を表し、マトリックスの格子点には○印を配しているが、各格子点には、入力単語のフレームごとに抽出した音響特徴量と、登録単語の各状態における照合確率の情報が示されている。なお、以下においては音素番号を状態番号と呼称し、マトリックスの格子点を音素片と呼称する。
【００１０】
図１に示すＨＭＭ照合処理は、図に向かって左下隅の開始状態Ｓ（０，０）から、右上隅の最終状態Ｓ（Ｉ，Ｊ）に至るまでの状態遷移系列を矢印で示しており、状態遷移系列が１つではないことを併せて示している。例えば、ある状態Ｓ（ｉ，ｊ）に着目した場合、状態Ｓ（ｉ，ｊ）に至るには、詳細図に示すように２つのパスＰ１およびＰ２が存在する。すなわち、パスＰ１は、状態Ｓ（ｉ−１，ｊ）からのパスであり同じ状態番号からの遷移（自己ループと呼称）であり、パスＰ２は、状態Ｓ（ｉ−１，ｊ−１）からのパスであり異なる状態番号からの遷移である。
【００１１】
ここで、状態Ｓ（ｉ−１，ｊ）に達するまでの確率の累積値（累積スコア）をＰ（ｉ−１，ｊ）とした場合、パスＰ１を通って状態Ｓ（ｉ，ｊ）に至る場合の確率ｗｋ１は下記の数式（１）で表される。なお、開始状態Ｓ（０，０）のスコアは初期値として与えられる値であり、例えばＰ（０，０）＝１となる。
【００１２】
【数１】

【００１３】
ここで、ａ｛（ｉ−１，ｊ），（ｉ，ｊ）｝は、状態Ｓ（ｉ−１，ｊ）から状態Ｓ（ｉ，ｊ）への遷移確率、ｂ｛（ｉ−１，ｊ），（ｉ，ｊ），ｙｉ｝は、状態Ｓ（ｉ−１，ｊ）から状態Ｓ（ｉ，ｊ）への遷移において、音声特徴ベクトルＹｉが出現する確率である。
【００１４】
また、状態Ｓ（ｉ−１，ｊ−１）に達するまでの累積スコアをＰ（ｉ−１，ｊ−１）とした場合、パスＰ２を通って状態Ｓ（ｉ，ｊ）に至る場合の確率ｗｋ２は下記の数式（２）で表される。
【００１５】
【数２】

【００１６】
ここで、ａ｛（ｉ−１，ｊ−１），（ｉ，ｊ）｝は、状態Ｓ（ｉ−１，ｊ−１）から状態Ｓ（ｉ，ｊ）への遷移確率、ｂ｛（ｉ−１，ｊ−１），（ｉ，ｊ），ｙｉ｝は、状態Ｓ（ｉ−１，ｊ−１）から状態Ｓ（ｉ，ｊ）への遷移において、音声特徴ベクトルＹｉが出現する確率である。
【００１７】
上記数式（１）、（２）から得られた確率ｗｋ１およびｗｋ２に基づいて、状態Ｓ（ｉ，ｊ）における累積スコアＰ（ｉ，ｊ）は下記の数式（３）で与えられる。
【００１８】
【数３】

【００１９】
すなわち、パスＰ１およびＰ２を通る場合に、それぞれ得られる確率ｗｋ１およびｗｋ２のうち、大きい方を状態Ｓ（ｉ，ｊ）での累積スコアＰ（ｉ，ｊ）とする。
【００２０】
上記処理を最終フレームまで行い、最終状態Ｓ（Ｉ，Ｊ）における累積スコアＰ（Ｉ，Ｊ）が単語スコアとなる。
【００２１】
なお、パス元が１つしかない状態については、当該パス元のスコアを算入することで自らのスコアを算出し、上記数式（３）は用いない。
【００２２】
なお、上記数式（１）および（２）については、対数表記することで加算式となるので、得られる確率については累積スコアと呼称している。
【００２３】
なお、上述したＨＭＭ照合処理は、left-to-rightモデルとして周知のモデルである。
【００２４】
ＨＭＭ照合処理は、開始状態から最終状態に至るまでの、ある状態遷移系列に沿って信号が出力される累積スコアの大小によって入力単語と登録単語との類似性を判断するものであり、複数の登録単語に対して上述したＨＭＭ照合処理を行い、単語スコアが最も大きな登録単語が、入力単語に最も類似するものと判断される。このように、最大確率を与える状態系列に沿って確率を求めるアルゴリズムをビタビ（Viterbi）アルゴリズムと呼称する。
【００２５】
＜Ａ．実施の形態１＞
＜Ａ−１．装置構成および動作＞
本発明に係る音声認識装置の実施の形態１の構成および動作について、図２〜図４を用いて説明する。
【００２６】
＜Ａ−１−１．装置全体の動作＞
図２は実施の形態１の音声認識装置１００の構成を示すブロック図である。図２に示すように、時系列で入力された音声入力Ａ１は、まず音声分析器１１に与えられフレームごとに音響特徴量が抽出される。すなわち、音声分析器１１においては、音声信号に、例えばＬＰＣ（Linear Predictive Coding 線形予測）分析を行って音声のパワースペクトルを取得し、当該パワースペクトルから、声帯の振動を主たる発生源とする音源信号のスペクトルと、肺や顎、舌などの調音器官により形成される音響フィルタ（調音フィルタ）のスペクトルを分離し、調音フィルタの特性のみに関連する情報を音響特徴量として抽出する。なお、音響特徴量の抽出には、ケプストラム（Cepstrum）分析が用いられ、また、ケプストラム分析で得られたケプストラム係数を人間の聴覚特性に基づいたメルケプストラム（Mel Cepstrum）係数に変換する処理が施されることがあるが、これらの音響特徴量の抽出には公知の技術を用いれば良いので、これ以上の説明は省略する。
【００２７】
音声分析器１１で音響特徴量を抽出した後、音声区間検出器１２においてパワー（音の強さ）に基づいて音声区間を検出して、音響特徴量の時系列データとして入力音声特徴ベクトルＶ１を出力する。なお、音声分析器１１および音声区間検出器１２を含めて音響処理部と呼称する場合もある。
【００２８】
入力音声特徴ベクトルＶ１は時系列に単語照合処理器２に与えられ、登録単語とのＨＭＭ照合処理を施される。
【００２９】
ここで、ＨＭＭ照合処理を施すための照合対象となる単語を選択するまでの動作について、照合対象単語選択器３、単語モデル生成器４および単語集合作成器５の動作に基づいて説明する。
【００３０】
例えば、ＥＥＰＲＯＭ（Electrically Erasable Programable ROM）で構成される認識対象単語辞書７には、例えばテキスト形式でひらがな表記された複数の単語（登録単語）が登録されており、単語集合作成器５はその中から、例えば、先頭の数音を共通項とし、先頭の数音が似ているものどうしで集合を作るように動作する。この動作に際しては、ひらがな表記された登録単語を、音響モデル記憶部６に登録された確率分布をマトリックス状に配置して表現された音響モデル（ＨＭＭ）に書き換え、音響モデルどうしで比較することで上述した集合を作成する。
【００３１】
すなわち、上述したように、音響モデルは確率分布を有しているので、先頭の数音について音響モデルどうしで確率分布を比較し合うことで、分布状態の類似性を判断し、類似する音響モデルで集合を作るようにすれば良い。
【００３２】
そして、単語モデル生成器４では、単語集合作成器５で作成した単語集合に対して、単語照合処理器２で照合できる形式の単語モデルの集合に変換する動作を行う。
【００３３】
ここで、単語集合の作成および音響モデルへの変換は、入力音声特徴ベクトルＶ１が入力されるごとに、毎回行っても良いし、認識対象単語辞書７が更新されたときに作成し、単語集合作成器５内にて集合情報を保持するようにしても良い。また、単語モデル生成器４内にて単語モデルの集合としてを保持してもよい。
【００３４】
なお、音声分析器１１、音声区間検出器１２、照合対象単語選択器３、照合結果判定器９、単語モデル生成器４および単語集合作成器５の動作は、プログラムを実行するＣＰＵ（Central Processing Unit）によって実現できる。
【００３５】
単語モデル生成器４によって生成された単語モデルの集合は、照合対象単語選択器３に与えられ、そのうちから照合対象となる１つの単語モデルが選択される。
【００３６】
照合対象単語選択器３によって選択された１つの単語モデルは、単語照合処理器２に与えられ、入力音声特徴ベクトルＶ１、すなわち入力音声との照合処理が行われる。この照合処理が、先に説明したＨＭＭを用いた処理である。
【００３７】
単語照合処理器２では、照合対象単語選択器３によって次々と選択される複数の単語モデルに対してＨＭＭ照合処理を施し、各単語モデルの最終的な累積スコアである単語スコアを得る。なお、単語照合処理器２の動作は、単語モデル生成器４および単語集合作成器５を構成する前述のＣＰＵで実現できるが、別途設けられたＤＳＰ（Digital Signal Processor）によっても実現できる。
【００３８】
そして、照合結果判定器９においては、単語照合処理器２から与えられる各単語モデルの単語スコアを記憶し、最も単語スコアの高い単語モデルを音声入力された単語に相当するものと判断し、当該単語モデルの出力単語データＤ１を出力する。なお、照合結果判定器９は、照合結果に関する情報Ｄ２を照合対象単語選択器３にフィードバックする機能を併せて有し、照合対象単語選択器３では、当該情報Ｄ２に基づいて選択動作の効率化を図る。
【００３９】
ここで、単語照合処理器２における照合処理および照合対象単語選択器３における選択動作について、最高値記憶バッファ８および照合結果判定器９の動作を含めて、それぞれ図３および図４に示すフローチャートを用いて説明する。なお、照合処理については図１に示すＨＭＭ照合処理を参照して説明する。
【００４０】
＜Ａ−１−２．単語照合処理器の動作＞
単語照合処理器２の動作について図３を用いて説明する。
照合処理が開始されると、まず、時系列に与えられる入力音声特徴ベクトルＶ１のフレーム番号０のフレーム（ｉ＝０）を照合対象に定める（ステップＳ１１）。そして、まず、単語モデルの状態番号０（ｊ＝０）を指定する（ステップＳ１２）ことで、照合対象が状態Ｓ（０，０）となる。なお、最終フレーム番号はＪであり、最終状態番号はＩとする。
【００４１】
次に、ステップＳ１３において、照合対象が状態Ｓ（０，０）であるか否かを判断し、状態Ｓ（０，０）である場合はステップＳ１５に進んでスコアの取得を行う（ステップＳ１３）。
【００４２】
一方、ステップＳ１３において状態Ｓ（０，０）以外の何れかの状態Ｓ（ｉ、ｊ）と判断された場合は、ステップＳ１４において、パス元が計算対象状態であるかについて判定を行う。
【００４３】
この動作は、スコア取得対象としている現在の状態Ｓ（ｉ，ｊ）の１つ前の状態、すなわちパス元のスコアが、単語照合処理器２に接続される最高値記憶バッファ８に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定する動作である。
【００４４】
より具体的には、最高値記憶バッファ８には、入力音声特徴ベクトルＶ１の各フレームごとに、スコアの最高値が記憶されている。この値は、過去に行った同一入力との照合処理の結果として得られた値であるが、以下に説明するように、照合処理ごとに更新可能な値である。なお、音声認識装置１００において一番最初に照合処理を行う場合には、デフォルト値として、予め予想される所定の値が設定されるようにしておけば良い。
【００４５】
そして、当該スコアの最高値に対して、例えば所定のパーセンテージ以内の値というようにスコアの範囲を設定し、パス元のスコアが当該範囲内にあるか否かを判定する。
【００４６】
パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入候補とし、数式（３）に基づいて状態Ｓ（ｉ、ｊ）の累積スコアを取得する（ステップＳ１５）。そして、スコアの取得後はステップＳ１６に進む。
【００４７】
なお、パス元が１つしかない状態については、当該パス元のスコアを算入することで自らのスコアを算出し、数式（３）は用いない。
【００４８】
一方、パス元のスコアが上記範囲外であると判定された場合は、状態Ｓ（ｉ，ｊ）についてはスコアの計算を省略し、ステップＳ１６に進む。
【００４９】
ステップＳ１６では、現状の状態番号が最終番号（Ｊ）に達しているか否かを判断し、最終番号に達していない場合には、状態番号を１つインクリメントし、ステップＳ１４以下を繰り返す。
【００５０】
また、最終状態番号に達している場合にはステップＳ１７に進み、１つのフレームにおいて状態番号０からＪまでの状態に対して行った照合処理で得られた各状態でのスコアと、最高値記憶バッファ８に記憶されている現在照合対象となっているフレーム番号のフレームにおけるスコアの最高値とを比較し、より高いスコアが得られている場合には記憶されているスコアの最高値を、新たに得られたより高いスコアに更新する。
【００５１】
次に、ステップＳ１８において、現状のフレーム番号が最終番号（Ｉ）に達しているか否かを判断し、最終番号に達していない場合には、フレーム番号を１つインクリメントし、ステップＳ１２以下を繰り返す。
【００５２】
上記動作は、例えば、フレーム番号０のフレームについて状態番号０からＪまでの状態に対しての照合処理が終了した後は、フレーム番号１のフレームについて状態番号０からＪまでの状態に対して照合処理を行うことを意味している。
【００５３】
なお、最終フレーム番号に達している場合には、照合対象単語選択器３によって選択された１つの単語モデルに対する照合動作が終了する。
【００５４】
このように、所定の閾値に基づいて、スコアの計算を省略する状態を設けるようにすることで、照合処理に要する時間を短縮することができる。なお、ＨＭＭ照合処理においては、図１に示したように、最終状態Ｓ（Ｉ，Ｊ）に至るまでの状態遷移系列は、状態（０，０）を始点としてほぼ対角線に沿う経路を採ることが多く、極端に外れた経路を通る可能性は小さく、図１の配列における左上部の角部領域や、右下部の角部領域についてはスコアの算出は不要である場合が多く、スコアの計算を省略しても支障はない。
【００５５】
なお、図１を用いて説明したように、最終状態Ｓ（Ｉ，Ｊ）における累積スコアが単語スコアとなり、上記ステップＳ１１〜Ｓ１８の動作を、照合対象単語選択器３によって次々と選択される複数の単語モデルに対して施すことで、各単語モデルの単語スコアを得る。
【００５６】
＜Ａ−１−３．照合対象単語選択器の動作＞
照合対象単語選択器３は、単語モデル生成器４によって生成された単語モデルの集合から照合対象となる１つの単語モデルを選択すると説明したが、これは図４にステップＳ２４〜Ｓ２６で示す基本動作であり、この基本動作に先立って、ステップＳ２１〜Ｓ２３に示す前処理動作を行うことができる。
【００５７】
すなわち、照合対象単語選択器３は、単語モデル生成器４によって生成された単語モデルの集合を受けるが、この集合が１つではなく複数である場合、複数の集合にそれぞれ含まれる複数の単語モデルに対して照合処理を行うとなると、最終的な出力単語データＤ１の出力までに長時間を有する可能性がある。
【００５８】
そこで、単語モデルの集合が複数である場合は、各単語モデルの集合からそれぞれ代表モデルを選び、当該代表モデルを単語照合処理器２に与えて照合処理を施し、その結果得られた単語スコアについて、照合結果判定器９において予め設定された判定基準値との比較を行う。その結果、当該単語スコアが判定値からかけ離れた値である場合は、上記代表モデルを抽出した単語モデルの集合については照合処理を施すのに不適当な集合であると判断する動作が前処理動作である。
【００５９】
なお、照合処理を施すのに不適当であると判断された集合は照合対象から外されることになる。
【００６０】
上述した前処理動作を含めて、照合対象単語選択器３の動作について図４を用いてさらに説明する。
【００６１】
単語選択動作が開始されると、まず、ステップＳ２０において、単語モデル生成器４から入力された単語モデルの集合が複数であるか否かの判定を行い、複数である場合にはステップＳ２１に進み、単語モデルの集合が１つである場合はステップＳ２４に進む。
【００６２】
ステップＳ２１においては、単語モデル生成器４から入力された単語モデルの複数の集合から、それぞれ代表モデルを選択する。すなわち、単語集合作成器５の動作において説明したように、単語モデルの集合の作成においては、例えば、先頭の数音について音響モデルどうしで確率分布を比較し合うことで類似する音響モデルで集合を作るが、このとき、類似性の高低で集合内の音響モデルを分別し、類似性の高い音響モデルどうしを集めるようにし、この集合の最も中心にある音響モデルを代表モデルとすれば良い。
【００６３】
次に、ステップＳ２２において、複数の代表モデルのうちから何れか１つを選択して単語照合処理器２に与え、ＨＭＭ照合処理を施す。なお、この場合の選択は無作為に行えば良い。
【００６４】
単語照合処理器２でのＨＭＭ照合処理の結果として得られた単語スコアは照合結果判定器９に与えられ、予め設定された判定基準値と比較される。この判定基準値は経験値に基づいて設定すれば良く、例えば、過去に得られた単語スコアの平均値等を用いれば良い。そして、当該判定基準値を越えるか否かの判定結果を情報Ｄ２として照合対象単語選択器３にフィードバックする。
【００６５】
次に、ステップＳ２３において、上記判定基準値を越えるか否かの判定結果に基づいて、上記代表モデルを抽出した単語モデルの集合について照合対象集合か否かを判断する。そして、照合処理を施すのに不適当な集合であると判断した場合には、当該集合を照合対象から外し、他の集合を選択し（ステップＳ２８）、ステップＳ２１以下の動作を繰り返す。
【００６６】
また、ステップＳ２３において、照合処理を施すのに適当な集合であると判断した場合には、ステップＳ２４において、当該集合から１つの単語モデルを選択する。そして、単語照合処理器２に与え（ステップＳ２５）、図３を用いて説明した手順で照合処理を行う。
【００６７】
なお、ステップＳ２６において、集合内に未処理の単語モデルが存在するか否かを判断し、未処理の単語モデルが存在する場合にはステップＳ２４以下の動作を繰り返し、集合内の全ての単語モデルが処理されている場合には、ステップＳ２７において、未処理の集合が存在するか否かを判断し、未処理の集合が存在する場合にはステップＳ２８において新たに集合を選択する。なお、全ての集合が処理されている場合には選択動作を終了する。
【００６８】
＜Ａ−２．特徴的作用効果＞
以上説明したように音声認識装置１００においては、単語照合処理器２でのＨＭＭ照合処理において、複数の状態のうち、照合対象となっている現状態に対するパス元（すなわち前状態）のスコアが、単語照合処理器２に接続される最高値記憶バッファ８に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入対象として累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。
【００６９】
このように、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、１つの単語に対する照合処理に費やす時間を削減できる。
【００７０】
また、単語集合作成器５によって類似する単語どうしで集合を作成し、照合対象単語選択器３によって、各単語モデルから代表モデルを選び、当該代表モデルを単語照合処理器２に与えて照合処理を施し、その結果得られた単語スコアに基づいて、上記代表モデルを抽出した単語モデルの集合に対して照合処理を施すか否かを判断する前処理動作を行うので、照合処理に費やす時間を大幅に削減して、より高速な処理が可能となる。
【００７１】
＜Ｂ．実施の形態２＞
＜Ｂ−１．装置構成および動作＞
本発明に係る音声認識装置の実施の形態２の構成および動作について、図５〜図７を用いて説明する。
【００７２】
＜Ｂ−１−１．装置全体の動作＞
図５は実施の形態２の音声認識装置２００の構成を示すブロック図である。なお、図５において、図２を用いて説明した音声認識装置１００と同一の構成については同一の符号を付し、重複する説明は省略する。
【００７３】
図５に示すように、入力音声特徴ベクトルＶ１は時系列に単語照合処理器２４に与えられ、登録単語とのＨＭＭ照合処理を施される。単語照合処理器２４は、基本的には図２に示す単語照合処理器２と同様の動作を行うが、最高値記憶バッファ８の他に一時記憶バッファ２８が接続され、最高値記憶バッファ８に記憶されているスコアの最高値の更新手順に若干の相違を有している。なお、単語照合処理器２４の動作の詳細については後述する。
【００７４】
また、単語集合作成器２５は認識対象単語辞書７の中から、例えば、先頭の数音が似ているものどうしで集合を作るように動作するが、このとき照合結果判定器９から出力される出力単語データＤ１を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器３において優先的に選択されるように、当該単語を含む単語集合の優先順位を高く設定したり、当該単語の単語集合内での優先順位を高めるように優先順位を付与する機能を併せて備えている。
【００７５】
＜Ｂ−１−２．単語照合処理器の動作＞
単語照合処理器２４の動作について図６を用いて説明する。なお、図６において、ステップＳ３１〜Ｓ３６までの動作は、図３を用いて説明したステップＳ１１〜Ｓ１６までの動作と同じであり、重複する説明は省略する。
【００７６】
ステップＳ３６では、現状の状態番号が最終番号（Ｊ）に達しているか否かを判断し、最終番号に達していない場合には、状態番号を１つインクリメントし、ステップＳ３４以下を繰り返す。また、最終状態番号に達している場合にはステップＳ３７に進む。
【００７７】
ステップＳ３７では、ステップＳ３４〜Ｓ３６を繰り返すことで取得した１つのフレームにおける状態番号０からＪまでの各状態でのスコアのうち、最高値となるスコアを、一時記憶バッファ２８に記憶させる。なお、この記憶は一時的なものであり、最高値記憶バッファ８に記憶されている各フレームの最高値のように、比較的長期に渡って保持されるものではなく、最高値記憶バッファ８とは異なるバッファを使用する。
【００７８】
１つのフレームにおけるスコアの最高値を記録した後、ステップＳ３８において、現状のフレーム番号が最終番号（Ｉ）に達しているか否かを判断し、最終番号に達していない場合には、フレーム番号を１つインクリメントし、ステップＳ３２以下を繰り返す。
【００７９】
また、最終状態番号に達している場合にはステップＳ３９に進み、最終状態Ｓ（Ｉ，Ｊ）における累積スコアである単語スコアを照合結果判定器９に与える。
【００８０】
照合結果判定器９では、過去に受け取った単語スコアと、単語照合処理器２４から受け取った最新の単語スコアとを比較し、最新の単語スコアが、これまでの最高値となっている場合には、その情報を情報Ｄ３として単語照合処理器２４にフィードバックする（ステップＳ４０）。
【００８１】
単語照合処理器２４では、情報Ｄ３を受け、ステップＳ３９で出力した単語スコアが最高値となっている場合には、一時記憶バッファ２８に記憶した各フレームでのスコアの最高値を最高値記憶バッファ８に書き込むことで、最高値記憶バッファ８の記憶内容を更新する（ステップＳ４１）。
【００８２】
最高値記憶バッファ８の記憶内容を更新後は、照合対象単語選択器３によって選択された１つの単語モデルに対する照合動作が終了する。
【００８３】
また、ステップＳ３９で出力した単語スコアが最高値となっていない場合には、最高値記憶バッファ８の記憶内容は更新されず、照合対象単語選択器３によって選択された１つの単語モデルに対する照合動作が終了する。
【００８４】
＜Ｂ−２．特徴的作用効果＞
以上説明したように音声認識装置２００においては、単語照合処理器２４でのＨＭＭ照合処理において、照合対象の状態に対するパス元のスコアが、単語照合処理器２４に接続される最高値記憶バッファ８に記憶された、フレームごとのスコアの最高値に基づいて設定された所定の範囲内にあるか否かを判定し、パス元のスコアが上記範囲内にある場合は、当該パス元のスコアを算入して累積スコアを取得するものとし、パス元のスコアが上記範囲外である場合には、照合対象の状態についてはスコアの計算を省略する。このように、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、１つの単語に対する照合処理に費やす時間を削減できる。
【００８５】
また、単語照合処理器２４では、各フレームにおける各状態でのスコアの最高値を一時記憶バッファ２８に記憶させ、１つの単語モデルに対する照合処理が修了した後、当該単語モデルの単語スコアが最高値である場合にのみ、一時記憶バッファ２８に記憶した各フレームでのスコアの最高値を最高値記憶バッファ８に書き込むことで、最高値記憶バッファ８の記憶内容を更新するので、例えば、一部のフレームだけで、たまたま照合結果が良好であるような単語モデルのスコアが最高値記憶バッファ８に記録されることで、不正確な照合結果が得られることが防止できる。
【００８６】
また、単語集合作成器２５において類似する単語どうしで集合を作成し、照合対象単語選択器３によって、各単語モデルから代表モデルを選び、当該代表モデルを単語照合処理器２４に与えて照合処理を施し、その結果得られた単語スコアに基づいて、上記代表モデルを抽出した単語モデルの集合に対して照合処理を施すか否かを判断する前処理動作を行うので、照合処理に費やす時間を大幅に削減して、より高速な処理が可能となる。
【００８７】
また、単語集合作成器２５においては、類照合結果判定器９から出力される出力単語データＤ１を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器３において単語集合の代表モデルになるように優先順位を付与するので、入力頻度の高い単語について優先的に照合対象にすることができ、例えば、音声入力される単語の語彙が少なく、しかも入力単語に偏りがある場合、照合の的中率を飛躍的に高めることができ、照合処理速度をさらに高速化できる。
【００８８】
＜Ｂ−３．変形例＞
以上説明した音声認識装置２００の変形例の構成を図７に示す。なお、図７において、図２および図５を用いて説明した音声認識装置１００および２００と同一の構成については同一の符号を付し、重複する説明は省略する。
【００８９】
図７に示す音声認識装置２００Ａにおいては、単語モデル生成器４によって生成された単語モデルの集合のデータは、モデル辞書バッファ２７に与えられ、一時的に記憶される。
【００９０】
そして、モデル辞書バッファ２７に保持された単語モデルの集合のデータは、照合対象単語選択器２３に与えられ、そのうちから照合対象となる１つの単語モデルが選択される。
【００９１】
ここで、照合対象単語選択器２３は、図２を用いて説明した照合対象単語選択器３と同様の機能を有しているが、照合結果判定器９から出力される出力単語データＤ１を受けて統計処理を行い、出力回数の多い単語が、照合対象単語選択器２３において優先的に選択されるように、出力回数の多い単語を含む集合の照合順位を上げるようにモデル辞書バッファ２７に保持された単語モデルの集合のデータの並べ換えを行う機能もさらに有している。なお、上記統計処理に基づいて、出力回数の多い単語の集合内での優先順位を高めるようにデータの並べ換えを行うようにしても良い。
【００９２】
このように、音声認識装置２００Ａにおいては、単語モデル生成器４によって生成された単語モデルの集合のデータを記憶するモデル辞書バッファ２７を有し、照合対象単語選択器２３においては、照合結果判定器９から出力される出力単語データＤ１を受けて統計処理を行い、出力回数の多い単語を優先的に選択するように、モデル辞書バッファ２７に記憶された単語モデルの集合のデータの並べ換えを行うので、入力単語に偏りがある場合、照合の的中率を飛躍的に高めることができ、照合処理速度をさらに高速化できる。
【００９３】
＜Ｃ．他の変形例＞
以上説明した音声認識装置１００および２００の各々においては、単語集合作成器５または２５が、先頭の数音が似ているものどうしで集合を作るように動作することを説明したが、これは一例であり、他には、登録単語の単語長で集合を作成するようにしても良い。
【００９４】
すなわち、登録されている単語に基づいて作成された音響モデルは、音素と継続時間長に関する情報を有しており、単語長は容易に推定できるので、単語長に基づいて集合を作成することは容易である。
【００９５】
この方式を採用する場合、音声入力された単語の単語長は、フレーム数と相関するので、フレーム数から入力単語長を推定し、照合対象単語選択器３において、当該入力単語長に近似する単語長を有する単語集合を優先的に選択して照合することで、さらに高速な照合処理が可能となる。
【００９６】
また、音素の情報にはパワー（音の強さ）およびパワーの変動に関する情報も含まれているので、登録単語内のパワーの変動に基づいて、無音（もしくは低パワー）の回数に基づいて単語集合を作成しても良い。
【００９７】
なお、単語の先頭の数音の類似性、単語長およびパワーの変動の何れを組み合わせて用いても良いことは言うまでもない。
【００９８】
＜Ｄ．照合処理の他の例＞
以上説明した実施の形態１および２においては、照合処理としてＨＭＭ照合処理を用いる例を示したが、ＤＰマッチング法による照合処理を使用しても良い。以下にＤＰマッチング法について説明する。
【００９９】
同じ人が同じ言語を発しても、その継続時間はその都度変わり、しかも非線形に伸縮する。このため、標準パターンと入力音声との比較においては、同じ音素どうしが対応するように、時間軸を非線形に伸縮する時間正規化を行う。
【０１００】
ここで、対応付けるべき２つの時系列をＡ＝ａ１，ａ２，・・ａｉ，・・ａＩと、Ｂ＝ｂ１，ｂ２，・・ｂｊ，・・ｂＩで表し、図８に示すように横軸を入力パターンフレームを時系列に並べた系列Ａ、縦軸を標準パターンフレームを時系列に並べた系列Ｂとする平面を想定する。なお、標準パターンは複数種類準備されているので、その複数種類の標準パターンに対応した平面が複数枚想定される。この場合、Ａ、Ｂ両系列の時間軸の対応関係、すなわち時間伸縮関数は、この平面上の格子点ｃ＝（ｉ，ｊ）の系列Ｆで表現される。
【０１０１】
そして、２つの特徴ベクトルａｉとｂｉとのスペクトル距離をｄ（ｃ）＝ｄ（ｉ，ｊ）で表すと、系列Ｆに沿った距離の総和Ｈ（Ｆ）は下記の数式（４）で表される。
【０１０２】
【数４】

【０１０３】
この総和Ｈ（Ｆ）の値が小さいほど系列Ａと系列Ｂとの対応付けが良いことを示す。
【０１０４】
ここで、ｗ_kは系列Ｆに関連する正の重みである。これに、単調性と連続性、および極端な伸縮を防ぐための諸制限を加えることで、図９に模式的に示すような時間伸縮関数Ｆの制限、すなわち、パスに対する傾斜制限が与えられる。
【０１０５】
図９においては、横軸を入力音声のフレームとし、縦軸を辞書に記憶された単語のフレームとし、それぞれ、ｉ軸、ｊ軸としてＤＰマッチングのパスモデルの例を示している。
【０１０６】
図９に示すように、４つのパスＰ１１、Ｐ１２、Ｐ１３およびＰ１４を想定した場合、パスＰ１３およびＰ１４のように、辞書フレーム番号を変更することのないパスどうしが連続することは制限され、パスＰ１４は計算対象から外される。なお、パスＰ１１〜Ｐ１３は点（ｉ，ｊ）に集結している。
【０１０７】
図９のパスモデルの場合の累積計算を数式化したものが下記の数式（５）となる。
【０１０８】
【数５】

【０１０９】
数式（５）において、ｇ（ｉ，ｊ）は点（ｉ，ｊ）における累積距離、ｇ（ｉ−１，ｊ）はパスＰ３の累積距離、ｇ（ｉ−１，ｊ−１）はパスＰ２の累積距離、ｇ（ｉ−１，ｊ−２）はパスＰ１の累積距離であり、ｄ（ｉ，ｊ）は図示しない始点からのユークリッド距離である。
【０１１０】
ここで、ｇ（１，１）＝ｄ（１，１）とし、まずｊ＝１の場合に固定してｉがＩに達するまで、順次変化させながら上記数式（５）を計算しする。そして、次に、ｊの値を１つインクリメントしてｉについて再び同様に変化させて計算を行う。この動作をｊ＝Ｊに達するまで繰り返すことで、系列Ａおよび系列Ｂの２つの時系列間での時間正規後の累積距離が得られる。
【０１１１】
この累積距離がＨＭＭ照合処理で説明した累積スコアに相当し、累積距離の大小によって入力単語と登録単語との類似性を判断することが、ＤＰマッチング法による照合処理であり、本願発明においてＨＭＭ照合処理の代わりにＤＰマッチング法を使用することが可能である。
【０１１２】
【発明の効果】
本発明に係る請求項１記載の音声認識装置によれば、照合処理部において、スコアの最高値に基づいて、複数の状態から、そのスコアを算出する計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行うので、単語ごとに行う音声認識の照合処理においても、いわゆるビームサーチ法と同様な間引き処理を行うことができ、１つの単語に対する照合処理に費やす時間を削減できる。
【図面の簡単な説明】
【図１】ＨＭＭによる照合処理を説明する概念図である。
【図２】本発明に係る実施の形態１の音声認識装置の構成を示すブロック図である。
【図３】本発明に係る実施の形態１の音声認識装置の動作を説明するフローチャートである。
【図４】本発明に係る実施の形態１の音声認識装置の動作を説明するフローチャートである。
【図５】本発明に係る実施の形態２の音声認識装置の構成を示すブロック図である。
【図６】本発明に係る実施の形態２の音声認識装置の動作を説明するフローチャートである。
【図７】本発明に係る実施の形態２の音声認識装置の変形例の構成を示すブロック図である。
【図８】ＤＰマッチング法による照合処理を説明する概念図である。
【図９】ＤＰマッチング法による照合処理を説明する概念図である。

Claims

時系列に与えられる入力音声信号を特徴ベクトルに変換し、複数のフレームに区分して出力する音響処理部と、
予め準備された認識対象単語と音響モデルとに基づいて少なくとも１つの単語モデルを作成する単語モデル作成部と、
前記少なくとも１つの単語モデルと前記特徴ベクトルとの照合処理を、最大確率を与える状態系列に沿うことで最終累積確率を得るビタビアルゴリズムを用いて単語ごとに行う照合処理部と、
前記複数のフレームの各々に含まれる複数の状態について、確率に基づいて算出されるスコアの各フレーム中における最高値を記憶する最高値記憶部とを備え、
前記照合処理部は、
前記スコアの最高値に基づいて、前記複数の状態から、そのスコアを算出すべき計算対象状態を選択し、該計算対象状態以外の状態についてはスコアの算出を省略する間引き処理を行う、音声認識装置。
前記照合処理は、マトリックス状に配置された前記複数の状態に対して、それぞれが有する前記スコアを累積しつつ最終状態に到達するまでに取りうる複数のパスのうち、最大の累積スコアを与えるパスを特定することで、前記累積スコアを照合結果として取得する隠れマルコフモデルを用いた照合処理であって、
前記照合処理部の前記間引き処理は、
前記照合処理に際して、スコア算出の判断対象となっている現状態に至る前の前状態におけるスコアが、前記最高値記憶部に記憶された前記スコアの最高値に基づいて設定された所定の範囲内にある場合に、前記現状態を前記計算対象状態とし、前記前状態におけるスコアが前記所定の範囲外である場合は、前記現状態についてはそのスコアの算出を省略する処理を含む、請求項１記載の音声認識装置。
前記照合処理部は、
前記最高値記憶部に記憶された前記スコアの最高値と、前記照合処理によって得られた各状態の最新スコアとをフレームごとに比較し、前記スコアの最高値を超える前記最新スコアが存在する場合には、前記スコアの最高値を前記最新スコアに書き換える機能をさらに含む、請求項２記載の音声認識装置。
前記少なくとも１つの単語モデルは、複数の単語モデルであって、
前記音声認識装置は、
前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を判定する照合結果判定部をさらに備え、
前記照合処理部は、
前記照合処理によって得られた各フレーム中の各状態の最新スコアの最高値を取得し、フレームごとに所定の一時記憶部に記憶される機能と、
前記照合結果判定部の判定結果の情報とを受け、前記最新単語モデルに対する前記照合結果が、前記最良照合結果である場合に、前記最高値記憶部に記憶された前記最新スコアの最高値を、前記一時記憶部に記憶させた前記各フレーム中の各状態の最高値に書き換える機能をさらに含む、請求項２記載の音声認識装置。
前記少なくとも１つの単語モデルは、複数の単語モデルであって、
前記単語モデル作成部は、
前記複数の単語モデルを所定の共通項に基づいて複数の単語モデル集合に分類して出力する機能を備え、
前記音声認識装置は、
前記複数の単語モデル集合を受け、各単語モデル集合からそれぞれ代表となる代表モデルを選んで前記照合処理部に与え、前記代表モデルを用いた照合結果に基づいて前記単語モデル集合内の残りの単語モデルに前記照合処理を施すか否かを決定する照合対象単語選択部をさらに備える、請求項２記載の音声認識装置。
前記単語モデル作成部は、
前記認識対象単語のうち、先頭から数えて２つ以上で予め定めた個数の音の類似性を前記所定の共通項として用いて分類を行う、請求項５記載の音声認識装置。
前記単語モデル作成部は、
前記認識対象単語のうち、単語長を前記所定の共通項として用いて分類を行う、請求項５記載の音声認識装置。
前記単語モデルの作成部は、
前記認識対象単語のうち、パワーの変動情報に基づいて、無音部もしくは低パワー部の出現回数を前記所定の共通項として用いて分類を行う、請求項５記載の音声認識装置。
前記音声認識装置は、
前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を呈する単語モデルを、入力単語に相当する単語データとして出力する照合結果判定部をさらに備え、
前記単語モデル作成部は、
前記照合結果判定部が出力する前記単語データを受けて、統計処理を行い、出力回数の多い単語モデルが、前記照合対象単語選択部において優先的に選択されるように優先順位を付与する機能を備える、請求項５記載の音声認識装置。
前記音声認識装置は、
前記照合処理部から前記照合結果の情報を受け、最も最近に受けた最新単語モデルに対する前記照合結果と、既に受けている他の単語モデルに対する前記照合結果とを比較し、最も良好な最良照合結果を呈する単語モデルを、入力単語に相当する単語データとして出力する照合結果判定部と、
前記単語モデル作成部によって生成された前記単語モデルのデータを一時的に記憶するモデル辞書部と、をさらに備え、
前記照合対象単語選択部は、
前記照合結果判定部が出力する前記単語データを受けて、統計処理を行い、出力回数の多い単語モデルを優先的に選択するように、前記モデル辞書部に記憶された前記単語モデルのデータの並び換えを行う機能を備える、請求項５記載の音声認識装置。