JP5427140B2

JP5427140B2 - 音声認識方法、音声認識装置及び音声認識プログラム

Info

Publication number: JP5427140B2
Application number: JP2010171020A
Authority: JP
Inventors: 哲小橋川; 太一浅見; 義和山口; 浩和政瀧; 敏高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2010-07-29
Filing date: 2010-07-29
Publication date: 2014-02-26
Anticipated expiration: 2030-07-29
Also published as: JP2012032538A

Description

本発明は、様々な音質の音声データを効率良く音声認識する音声認識方法、音声認識装置及び音声認識プログラムに関する。

近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する。

そこで、従来から音声認識結果に信頼度を付与することで、音声認識誤りに起因する不具合を抑制する方法が検討されている。例えば、特許文献１が音声認識結果に信頼度を付与する従来技術として知られている。図１に特許文献１の音声認識装置９００の機能構成を示す。音声認識装置９００は、音響分析部１２０、音響モデル格納部１４０、辞書・言語モデル格納部１５０、探索部１６０、信頼度計算部１９０を備える。

音響分析部１２０は、入力音声信号１１０を、数十ｍｓのフレームと呼ばれる単位で例えばメル周波数ケプストラム係数（ＭＦＣＣ）分析して音響特徴パラメータ系列１３０を生成する。探索部１６０は、音響特徴パラメータ系列１３０について、音響モデル格納部１４０と辞書・言語モデル格納部１５０とを用いて音声認識結果候補の探索を行う。探索の結果、上位〜Ｎ位までの音声認識結果１７０と、各音声認識結果に対するスコア１８０が出力される。

信頼度計算部１９０は、音声認識結果１７０とスコア１８０に基づいて複数の音声認識結果１７０にそれぞれ対応する信頼度スコア１９５を計算して出力する。その信頼度スコア１９５は、例えば音声認識結果として得られたＮベスト候補及びそれらのスコアの単純なスコア差と加算平均から求められる。

この信頼度スコア１９５を参照することで、その信頼度スコア１９５に対応する音声認識結果１７０を廃棄したり、発話者に対して音声認識結果を確認したりする。このような処理を行うことで、誤認識による不具合の発生を抑制していた。

特開２００５−１４８３４２号公報

しかし、従来の音声認識装置９００では、信頼度スコアを、音声認識処理を行った後の音声認識結果や音声認識結果に付随するスコアから計算していた。従って、信頼度スコアを得るのに音声認識処理の処理時間を必要としていた。Ｓ/Ｎ比が悪い等の理由により認識精度の低いものの中には、例え探索時のビーム幅を広げたり、教師なし適応を行ったとしても、誤認識ばかりで、認識精度を向上することができない利用不能な音声データも存在する。よって、音声認識処理を行った後のスコアから信頼度スコアを計算する場合、利用不能な音声データに余分な処理時間をかけてしまうという問題がある。また、大量の音声ファイルに対して音声認識処理を行う場合に、音声認識精度の低い音声ファイルの処理に時間がかかり、他の音声認識精度の高い音声ファイルの処理が進まず、音声認識処理全体の処理効率を低下させるという問題がある。また、言語モデルを用いた音声認識結果に基づく処理のため、信頼度スコアの値が言語モデルに依存してしまうという問題もある。

この発明は、このような問題点に鑑みてなされたものであり、音声認識処理を行うこと無く短い処理時間で信頼度スコアが計算可能であり、言語モデルに依存しない信頼度スコアを出力する音声認識装置と音声認識方法と、音声認識プログラムを提供することを目的とする。

上記の課題を解決するために、本発明に係る音声認識方法は、音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求め、フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いものを求め、最も高い積Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）の対数または出力確率ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求め、音声特徴量系列を用いて、信頼度スコアに基づき音声認識処理を行う。

また、本発明に係る音声認識装置は、入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いものを求め、最も高い積Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）の対数または出力確率ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、音声特徴量系列を入力として、信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える。

本発明は、音声認識処理を行う前に、音声認識の結果として得られる音声認識結果に対する信頼度を事前に推定し、求められた信頼度に基づき音声認識処理を行う。そのため、利用不能な音声データに対する処理時間を削減することができるという効果を奏する。また、信頼度の高い音声データ、つまり、音声認識精度の高いことが期待できる音声データの処理を優先的に行い、音声認識処理全体の処理効率を向上させることができるという効果を奏する。さらに、信頼度を求める際に、言語モデルを用いないため、言語モデルに依存しない（事前）信頼度を求めることができるという効果を奏する。

特許文献１に開示された従来の音声認識装置９００の機能構成を示す図。音素モデルの一例を示す図。音素モデルを構成する１状態を模式的に示す図。音声認識装置１００、２００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。事前信頼度スコア計算部３０、３０’の機能構成例を示す図。モノフォン最尤状態と音声／ポーズ最尤状態の時間経過を模式的に示す図。図７を二種の音響モデルにした場合を示す図。実験結果を示す図。事前信頼度スコア計算部２３０の機能構成例を示す図。実施例２の基本的な考え方を説明するために音声特徴量と尤度（または出力確率）との関係を模式的に示す図。音声認識装置３００の機能構成例を示す図。信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係の例を示す図。音声認識装置４００の機能構成例を示す図。音声認識装置４００の動作フローを示す図。音声認識装置５００の機能構成例を示す図。音声認識装置５００の動作フローを示す図。

以下、図面を参照して、この発明の実施の形態を説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。実施例の説明の前に、この発明の基本的な考え方について説明する。
［この発明の基本的な考え方］
一般的な信頼度尺度は、以下の単語事後確率Ｐ（Ｗ＾｜Ｏ）で表現される。

なお、Ｏは音響特徴量系列であり（Ｏ＝（ｏ_１，ｏ_２，…，ｏ_Ｔ））、Ｗは音声認識結果単語系列であり、Ｐ（Ｗ）は音声認識の結果に基づき求まる音声認識結果単語系列の出現確率であり、”＾”は尤度の最も高い単語、状態、及び、尤度の高い単語系列や状態系列を示す。

ここで、大語彙の辞書を含む言語モデルを用いた音声認識結果単語系列Ｗを得るためには音声認識処理にかかる膨大な計算が必要となる。この計算量を減らすために、本発明では、言語モデルは使用せず、音声認識結果単語系列Ｗの代わりに状態系列Ｓを用いることにする。よって、単語事後確率Ｐ（Ｗ＾｜Ｏ）は以下の式により近似される。

なお、状態系列Ｓの種類は、とりうる全ての状態ｓ_ｊ（但し、ｊ＝１，２，…，Ｊ）から生じうる全ての状態系列からなることが望ましいが、計算量を削減するために、音声認識で用いられている高速化手法を導入し、可能性の低い状態を予め計算対象から外してもよい。

さらに、高速化するために、状態系列Ｓ内の各状態ｓ_ｊは、モノフォンに含まれる状態のみに限定する。ここで、モノフォンとは、環境独立音素モデルのことであり、前後の音素環境に制約を持つ環境依存音素モデル（例えばトライフォン）に対して、前後の音素の制約がない音素モデルであり、その種類は少ない。例えば、音素の数を３０個とした場合、モノフォン音響モデル中の音素モデルの数は３０個であるが、トライフォンの場合の数は３０^３個（２７０００個）である。また、モノフォンは、音声以外の部分、つまり、非音声部分のモデルであるポーズモデルを含むものとする。モノフォンの音素モデルは、１以上（通常３個程度）の状態の確率連鎖によって構築され、モノフォンＨＭＭ(Hidden Markov Model)として表される。モノフォンＨＭＭは、例えば、図２に示すようにｌｅｆｔ−ｔｏ−ｒｉｇｈｔ型ＨＭＭで表される。図２は、３つの状態ｓ_１（第１状態）、ｓ_２（第２状態）、ｓ_３（第３状態）を並べたものであり、状態の確率連鎖（状態遷移）としては、自己遷移ａ_１１、ａ_２２、ａ_３３と、次状態へのａ_１２、ａ_２３、ａ_３４からなる。各状態ｓは、１以上の基底分布からなる混合分布（以下、混合正規分布ＧＭＭ：Gaussian Mixture Modelを含めて混合分布とする）から構成され、例えば、図３に示すように、混合正規分布Ｍとして表現される。混合正規分布Ｍは、例えば３つの（基底）正規分布、Ｎ（μ_ｓ，１，Σ_ｓ，１），Ｎ（μ_ｓ，２，Σ_ｓ，２），Ｎ（μ_ｓ，３，Σ_ｓ，３）で構成される。ここでμ_ｓ，ｍは状態ｓに属する正規分布ｍの平均ベクトル、Σ_ｓｍは状態ｓに属する正規分布ｍの共分散行列を示す。

さらに、式（２）において計算量を減らすために、多くの音声認識デコーダが遷移確率を無視するのと同様に（参考文献１参照）、本発明においても遷移確率を無視し、モノフォンＨＭＭの各状態に属するＧＭＭ（以下、単に「モノフォンＧＭＭ」という）から得られる出力確率のみを用いて、フレーム毎の信頼度を推定する。
［参考文献１］J. R. Glass, "A probabilistic framework for segmentbased speech recognition", Computer Speech and Language, Elsevier, 2003, Vol.17, No.2-3, pp.137-152
よって、式（２）の状態事後確率Ｐ（Ｓ＾｜Ｏ）は、時刻ｔにおける音響特徴量ｏ_ｔに対するフレーム毎の状態事後確率Ｐ（ｓ＾｜ｏ_ｔ）から近似的に以下のように、計算される。

なお、Ｔは総フレーム数を表す。さらに、フレーム毎の状態事後確率Ｐ（ｓ＾｜ｏ_ｔ）は、以下のように状態ｓの出力確率ｂ_ｓ（ｏ_ｔ）からフレーム毎に計算される。

なお、ｓ＾は時刻ｔにおいてＰ（ｓ）・ｂ_ｓ（ｏ_ｔ）の値が最も高いときの状態（以下「最尤状態ｓ＾」という）であり、Ｍ_ｓは状態ｓに属する混合分布数であり、ｗ_ｓ，ｍは正規分布ｍの混合重み係数であり、Ｎ_ｓ，ｍ（・）は正規分布ｍのガウス分布関数を意味し、Ｎ_ｓ，ｍ（ｏ_ｔ｜μ_ｓ，ｍΣ_ｓ，ｍ）は、時刻ｔの音響特徴量ｏ_ｔに対する状態ｓに属する正規分布ｍの出力確率を意味する。なおｗ_ｓ，ｍは音響モデル学習の結果で決まるものであり、０≦ｗ_ｓ，ｍ≦１の範囲を取る値である。例えば、混合分布数Ｍ_ｓが１６であるとすると平均すると１/１６の値となる。

参考文献２では、モノフォンは音素環境依存モデル（トライフォン）の近似モデルであるという仮定に基づき、モノフォンを用いて音響尤度計算量を削減することで高速化を行っている。本発明においても同様に、式（４）の計算において、モノフォンのみを用いることで高速化を実現する。
［参考文献２］A.Lee, T.Kawahara, K.Shikano, "Gaussian mixture selection using context-independent HMM", in Proceedings of ICASSP, 2001, vol.1, pp.69-72
式（４）の分母Σ_ｓＰ（ｓ）ｂ_ｓ（ｏ_ｔ）は、ポーズ以外の全ての音素の特徴量から学習した音声ＧＭＭからなる音声モデルを使って、以下のように近似される。

ｇは前記音声モデルに属する状態であり、全ての音素の音響特徴、言い換えると、全ての状態から学習される。ここで、この音声モデルはただ１つの状態ｇのみを持つように構築すると、音声フレームにおいて、ｇの出現確率Ｐ（ｇ）は１となる。よって、

従って、式（４）と式（６）’から、フレーム毎の状態事後確率Ｐ（ｓ＾｜ｏ_ｔ）は以下の式により近似的に計算される。

ここで、通常、音声認識では確率値を対数スコア領域に変換したものを計算に用いるため、フレーム毎の事前信頼度ｃ（ｏ_ｔ）は、式（７）で近似的に求めたフレーム毎の状態事後確率Ｐ（ｓ＾｜ｏ_ｔ）を、以下の式のように、対数スコア領域にしたものとする。

フレーム毎の事前信頼度ｃ（ｏ_ｔ）は、前記音声モデルをＵＢＭ（Universal Background Model）と考え、状態出現確率Ｐ（ｓ＾）を無視すると、例えば参考文献３に見られるような話者照合でしばしば用いられる尤度比を対数化したものと等価となる。本発明では、状態出現確率Ｐ（ｓ＾）が導入されることによって、最尤状態ｓ＾の推定に状態の出現頻度ひいては音素毎の出現頻度が考慮されている。
［参考文献３］
D. A. Reynolds, T. F. Quatieri, and R. B. Dunn, “Speaker verification using adapted gaussian mixture models,” Digital Signal Processing, 2000, vol.10, pp.19-41
信頼度スコアＣはフレーム毎の事前信頼度ｃ（ｏ_ｔ）から計算される。その際、異なる長さの音声データの比較を可能とするために、総フレーム数Ｔによって、以下のように、正規化される。

本発明は、このような考え方に基づき、音声認識結果を用いずに、モノフォン及び音声データを用いて、信頼度スコアを求める。
以下、本発明の実施の形態について、詳細に説明する。

＜音声認識装置１００＞
図４及び図５を用いて実施例１に係る音声認識装置１００を説明する。音声認識装置１００は、Ａ/Ｄ変換部１０と、特徴量分析部２０と、事前信頼度スコア計算部３０と、音声認識処理部４０と、音響モデルパラメータメモリ５０と、言語モデルパラメータメモリ６０とを具備する。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

Ａ/Ｄ変換部１０は、音声信号ｘ（ｕ）を、例えばサンプリング周波数１６ｋＨｚで離散値化して音声ディジタル信号ｘ（ｖ）に変換する（ステップＳ１０）。但し、ｕは連続時間を、ｖは離散時間を表す。なお、音声ディジタル信号ｘ（ｖ）が直接入力される場合は、Ａ/Ｄ変換部１０は不要である。

特徴量分析部２０は、音声ディジタル信号ｘ（ｖ）を入力として、例えば３２０個の音声ディジタル信号ｘ（ｖ）を１フレーム（例えば、２０ｍｓ）とし、このフレーム毎に、その音声特徴量ｏ_ｔを分析し、音声特徴量系列Ｏを出力する（ステップＳ２０）。音声特徴量としては、例えば、ＭＦＣＣ（Mel-Frequenct Cepstrum Coefficient）の１〜１２元と、その変化量であるΔＭＦＣＣ等の動的パラメータや、パワーやΔパワー等を用いる。また、ケプストラム平均正規化（ＣＭＮ）等の処理を行っても良い。

事前信頼度スコア計算部３０は、音声特徴量系列Ｏを入力として、フレーム毎の音声特徴量ｏ_ｔに対するモノフォンＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）とそのＧＭＭの属する状態ｓの出現確率Ｐ（ｓ）の積が最も高いもの（以下「モノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）」という）を求める。さらに、事前信頼度スコア計算部３０は、入力ｏ_ｔに対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭ（以下「音声／ポーズＧＭＭ」という）から得られる出力確率が最も高いもの（以下「音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）」という）を求める。なお、この音声モデルとは前述の通り、ポーズ以外の全ての音素の特徴量から学習される。さらに、求めたモノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）の対数と音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度ｃ（ｏ_ｔ）とし（式（８）参照）、その事前信頼度ｃ（ｏ_ｔ）を平均化して音声ファイル単位の信頼度スコアＣを求め、出力する（ステップＳ３０）。

音声認識処理部４０は、音声特徴量系列Ｏと信頼度スコアＣを入力として、信頼度スコアに基づき音声認識処理を行う。例えば、信頼度スコアＣに応じて音声認識処理を行うか否かを判断し（ステップＳ４０ａ）、音声認識処理を行うと判断した場合には、音響モデルパラメータメモリ５０に記録された音響モデルと、言語モデルパラメータメモリ６０に記録された言語モデルとを参照して、音声特徴量系列Ｏについて音声認識処理を行い、その音声認識結果Ｗと信頼度スコアＣを出力する（ステップＳ４０ｂ）。

なお、ステップＳ４０ａ、ｓ４０ｂの音声認識処理過程は、音声ファイルの全フレームについて処理が終了するまで繰り返される。

音声認識装置１００によれば、事前信頼度スコア計算部３０が、フレーム毎に事前信頼度ｃ（ｏ_ｔ）を付与して、これを平均化して（つまり１フレーム当たりの平均事前信頼度を計算して）、音声ファイル単位の信頼度スコアＣを計算する。音声特徴量系列Ｏに基づいた信頼度スコアＣは、従来の音声認識結果から信頼度スコアを求める方法と比べて計算量が少なくて済む。また、複数の音声ファイルを処理する場合に、信頼度スコアＣの値に応じて音声認識処理を行うか否かを判断をすることで、信頼度Ｃが低い、つまり音声認識精度が低い音声ファイルの音声認識処理に時間がかかるという問題も解決される。次に、実施例１の主要部である事前信頼度スコア計算部３０のより具体的な構成例を示してさらに詳しく説明する。

＜事前信頼度スコア計算部３０＞
図６を用いて、事前信頼度スコア計算部３０を説明する。事前信頼度スコア計算部３０は、モノフォン最尤検出手段３２と、音声／ポーズ最尤検出手段３３と、事前信頼度算出手段３４と、信頼度スコア算出手段３５とを備える。

図７に、モノフォンの出力確率とポーズモデルと音声モデルの出力確率の時間経過を模式的に示す。横方向は時間経過をフレームｔで表す。縦方向はフレームｔ毎の複数のモノフォンと音声モデルのそれぞれの状態を表す。例えば、各モノフォンは、それぞれ３つの状態から成り、モノフォン「＊−ａ＋＊」は状態ａ_１,ａ_２,ａ_３から成る。太い丸の状態がモノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）に対応するモノフォン最尤状態ｓ＾を表す。斜線入り丸の状態が音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）に対応する音声／ポーズ最尤状態ｇ＾を表す。モノフォン最尤状態ｓ＾と、音声／ポーズ最尤状態ｇ＾が、一致する場合（ｓ＾＝ｇ＾）には斜線入りの太い丸で示す。

時刻ｔ_１〜ｔ_３では、モノフォン最尤状態ｓ＾は、それぞれポーズモデルの第１状態ｐ_１〜第３状態ｐ_３である。同様に音声／ポーズ最尤状態ｇ＾は、それぞれポーズモデルの第１状態ｐ_１〜第３状態ｐ_３である。このことから、時刻ｔ_１〜ｔ_３は非音声状態である。例えば、時刻ｔ_１では、式（８）を用いて、モノフォン「＊−ｐａｕｓｅ＋＊」の第１状態ｐ_１の出現確率Ｐ（ｐ_１）と、状態ｐ_１に属するＧＭＭの出力確率ｂ_ｐ１（ｏ_ｔ1）の積の対数と、ポーズモデルの状態ｐ_１に属するＧＭＭの出力確率ｂ_ｐ１（ｏ_ｔ１）の対数との差を事前信頼度ｃ（ｏ_ｔ１）とする。つまり以下のように求められる。
ｃ（ｏ_ｔ１）＝ｌｏｇ（Ｐ（ｐ_１）ｂ_ｐ１（ｏ_ｔ１））−ｌｏｇｂ_ｐ１（ｏ_ｔ１）

時刻ｔ_４では、モノフォン最尤状態ｓ＾は、モノフォン「＊−ａ＋＊」の第３状態ａ_３であり、音声／ポーズ最尤状態ｇ＾が音声モデルの状態ｇであることから音声状態であると考えられる。式（８）を用いて、モノフォン「＊−ａ＋＊」の第３状態ａ_３の出現確率Ｐ（ａ_３）と、状態ａ_３に属するＧＭＭの出力確率ｂ_ａ３（ｏ_ｔ４）の積の対数と、音声モデルの状態ｇに属するＧＭＭの出力確率ｂ_ｇ（ｏ_ｔ４）の対数との差を事前信頼度ｃ（ｏ_ｔ４）とする。つまり以下のように求められる。
ｃ（ｏ_ｔ４）＝ｌｏｇ（Ｐ（ａ_３）ｂ_ａ３（ｏ_ｔ４））−ｌｏｇｂ_ｇ（ｏ_ｔ４）

また、時刻ｔ_１９では、モノフォン最尤状態ｓ＾は、モノフォン「＊−ｉ＋＊」の第２状態ｉ_２であり、音声／ポーズ最尤状態ｇ＾がポーズモデルの第３状態ｐ_３である。このとき、式（８）を用いて、モノフォン「＊−ｉ＋＊」の第２状態ｉ_２の出現確率Ｐ（ｉ_２）と、状態ｉ_２に属するＧＭＭの出力確率ｂ_ｉ２（ｏ_ｔ１９）の積の対数と、ポーズモデルの第３状態ｐ_３に属するＧＭＭの出力確率ｂ_ｐ３（ｏ_ｔ１９）の対数との差を事前信頼度ｃ（ｏ_ｔ１９）とする。つまり以下のように求められる。
ｃ（ｏ_ｔ１９）＝ｌｏｇ（Ｐ（ｉ_２）ｂ_ｉ２（ｏ_ｔ１９））−ｌｏｇｂ_ｐ３（ｏ_ｔ１９）
なお、図７は、一部の時間しか示していない。音声ファイルの長さは例えば数分（例えば３０,０００フレーム）程度である。以下、各手段の処理を具体的に説明する。

（モノフォン最尤検出手段３２）
モノフォン最尤検出手段３２は、フレームｔ毎の音声特徴量ｏ_ｔに対する各モノフォンＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）とそのＧＭＭが属する状態ｓの出現確率Ｐ（ｓ）の積Ｐ（ｓ）ｂ_ｓ（ｏ_ｔ）から、モノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）を求め、その対数ｌｏｇ（Ｐ（ｓ＾）ｂｓ＾（ｏｔ））を事前信頼度算出手段３４に出力する。なお、モノフォン最尤検出手段３２は、音響モデルパラメータメモリ５０を参照して、各モノフォンＧＭＭと各状態ｓの出現確率Ｐ（ｓ）を取得することができる。また、モノフォン最尤検出手段３２は、各モノフォンＧＭＭと各状態ｓの出現確率Ｐ（ｓ）を予め音響モデルパラメータメモリ５０から取得しておき、記憶しておいてもよい。

なお、モノフォン最尤状態ｓ＾の出現確率Ｐ（ｓ＾）は、音響モデルの学習データと目的の音声認識対象である評価音声データにおける各状態の出現確率には差がないと仮定することで、以下の式（１０）により、近似的に求めてもよい。

式（１０）の分母は音響モデルの学習データにおける各状態ｓの出現頻度の和を表し、分子は音響モデルの学習データにおける最尤状態ｓ＾の出現頻度を表す。音響モデルの学習時に得られる各状態ｓの出現頻度の期待値Γ（ｓ）を、音響モデルパラメータメモリ５０に保存しておけば、それを利用することで容易に実現することができる。

（音声／ポーズ最尤検出手段３３）
音声／ポーズ最尤検出手段３３は、フレームｔ毎の音声特徴量ｏ_ｔに対する音声／ポーズＧＭＭから得られる出力確率から、音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）を求め、その対数ｌｏｇｂ_ｇ＾（ｏ_ｔ）を事前信頼度算出手段３４に出力する。なお、音声／ポーズ最尤検出手段３３は、音響モデルパラメータメモリ５０を参照して、音声／ポーズＧＭＭを取得することができる。また、音声／ポーズ最尤検出手段３３は、音声／ポーズＧＭＭを予め音響モデルパラメータメモリ５０から取得しておき、記憶しておいてもよい。

（事前信頼度算出手段３４）
事前信頼度算出手段３４は、モノフォン最尤値の対数ｌｏｇ（Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ））と音声／ポーズ最尤値の対数ｌｏｇｂ_ｇ＾（ｏ_ｔ）とを入力され、以下の式（１１）によりその差を当該フレームの事前信頼度ｃ（ｏ_ｔ）として求め、信頼度スコア算出手段３５に出力する。

（信頼度スコア算出手段３５）
信頼度スコア算出手段３５は、フレーム毎の事前信頼度ｃ（ｏ_ｔ）を入力され、式（９）により、フレーム毎の事前信頼度ｃ（ｏ_ｔ）を平均化して音声ファイル単位のもの（言い換えると、事前信頼度ｃ（ｏ_ｔ）を音声ファイルの継続時間Ｔ（総フレーム数）の間累積して平均したもの）を信頼度スコアＣとして求め、出力する。

このように、事前信頼度スコア計算部３０は、フレーム単位の事前信頼度ｃ（ｏ_ｔ）を音声ファイルの総フレーム数Ｔで平均することで音声ファイル単位の信頼度を表す信頼度スコアＣを計算する。なお、音声ファイル単位の信頼度スコアＣを求めるので精緻な処理を必要としない。また、このような構成とすることで、入力音声信号の品質や音響モデル等との整合性によって処理速度が変化することなく、安定した処理速度で事前信頼度計算を行うことができる。次に音声認識処理部４０の詳細を説明する。

＜音声認識処理部４０＞
音声認識処理部４０は、特徴量分析部２０が出力する音声特徴量系列Ｏ（＝ｏ_１，ｏ_２，…，ｏ_Ｔ）と信頼度スコアＣを入力として、音響モデルパラメータメモリ５０及び言語モデルパラメータ６０を参照して、音声認識処理を行い、音声認識結果Ｗを出力する。この時、信頼度スコアＣを同時に出力しても良い。ここでの音声認識処理は、音響モデルパラメータメモリ５０に記録された全ての音響モデルを用いた認識処理が行われる。音声認識処理部４０は、信頼度スコアＣの値に応じて音声認識処理の実行の有無を切り替える。

例えば、音声認識処理部４０は、信頼度スコアＣが一定値Ｃ_ｔｈ以下の場合に音声認識処理を停止する。信頼度スコアＣは音声ファイル毎に計算される値であるので、音声認識処理部４０は音声ファイル単位で音声認識処理の実行の有無を切り替える。一定値Ｃ_ｔｈは、例えば、音響モデルの学習データに対する信頼度スコア分布から算出する方法が考えられる。信頼度スコア分布の平均値μ、標準偏差σとした場合に、例えばＣ_ｔｈ＝μ−２σとする。また、例えば、音声認識処理部４０は、複数の音声ファイルの信頼度スコアＣを求め蓄積しておき、上位Ｎ個(例えば、全音声認識対象音声ファイル中の２０％に当たる個数等）の音声ファイルのみを音声認識処理する構成としてもよい。

＜効果＞
以上述べたように、この発明の音声認識装置によれば、音声特徴量に基づいた事前信頼度を求め、フレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアを計算する。従って、従来の音声認識装置よりも軽い処理で信頼度スコアが求められる。また、音声特徴量に基づく処理なので、言語モデルに依存しない信頼度スコアを得ることができる。また、求められた信頼度スコアの値に応じて音声認識処理を行うか否かを判断することで、例えばＳ/Ｎ比が悪い等の理由により音声認識精度の低い音声ファイルの音声認識処理に時間がかかる問題も解決できる。また、従来は単語やキーワード単位、あるいは、発話（文）単位での信頼度計算であったのに対し、本実施例の音声認識装置１００は、複数発話からなる音声ファイル単位での信頼度スコアを計算することができる。

＜変形例１＞
図４及び図６を用いて、実施例１と異なる部分のみ説明する。実施例１とは、事前信頼度スコア計算部３０’の処理内容が異なる。

＜事前信頼度スコア計算部３０’＞
事前信頼度スコア計算部３０’は、モノフォン最尤検出手段３２’と、音声／ポーズ最尤検出手段３３’と、事前信頼度算出手段３４と、信頼度スコア算出手段３５とを備える。モノフォン最尤検出手段３２’と音声／ポーズ最尤検出手段３３’の処理が実施例１と異なる。事前信頼度スコア計算部３０’では、二種以上の音響モデル中に含まれるモノフォン及び音声モデルに基づいて計算したフレーム毎の事前信頼度を平均化して音声ファイル単位の信頼度スコアＣを計算する。図８に、二種以上の音響モデルを、男性音響モデルと女性音響モデルとした場合の出力確率の時間経過の一例を示す。

（モノフォン最尤検出手段３２’）
モノフォン最尤検出手段３２’は、まず、フレームｔ毎の音声特徴量ｏ_ｔに対する男性モノフォンＨＭＭの状態ｓ_ｍに属するＧＭＭ（以下「男性モノフォンＧＭＭ」という）から得られる出力確率ｂ_ｓｍ（ｏ_ｔ）とそのＧＭＭが属する状態ｓ_ｍの出現確率Ｐ（ｓ_ｍ）の積Ｐ（ｓ_ｍ）ｂ_ｓｍ（ｏ_ｔ）から、最も高い値（以下、「男性モノフォン最尤値Ｐ（ｓ＾_ｍ）ｂ_ｓ＾ｍ（ｏ_ｔ）」という）を求める。次に、音声特徴量ｏ_ｔに対する女性モノフォンＨＭＭの状態ｓ_ｆに属するＧＭＭ（以下「女性モノフォンＧＭＭ」という）から得られる出力確率ｂ_ｓｆ（ｏ_ｔ）とそのＧＭＭが属する状態ｓ_ｆの出現確率Ｐ（ｓ_ｆ）の積Ｐ（ｓ_ｆ）ｂ_ｓｆ（ｏ_ｔ）から、最も高い値（以下、「女性モノフォン最尤値Ｐ（ｓ＾_ｆ）ｂ_ｓ＾ｆ（ｏ_ｔ）」という）を求める。男性モノフォン最尤値Ｐ（ｓ＾_ｍ）ｂ_ｓ＾ｍ（ｏ_ｔ）と女性モノフォン最尤値Ｐ（ｓ＾_ｆ）ｂ_ｓ＾ｆ（ｏ_ｔ）のうち、大きい方をモノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）とし、その対数を事前信頼度算出手段３４に出力する。

（音声／ポーズ最尤検出手段３３’）
音声／ポーズ最尤検出手段３３’は、まずフレームｔ毎の音声特徴量ｏ_ｔに対する男性音声／ポーズＧＭＭから得られる出力確率から、男性音声／ポーズ最尤値ｂ_ｇ＾ｍ（ｏ_ｔ）を求める。次に、まずフレームｔ毎の音声特徴量ｏ_ｔに対する女性音声／ポーズＧＭＭから得られる出力確率から、女性音声／ポーズ最尤値ｂ_ｇ＾ｆ（ｏ_ｔ）を求める。男性音声／ポーズ最尤値ｂ_ｇ＾ｍ（ｏ_ｔ）と女性音声／ポーズ最尤値ｂ_ｇ＾ｆ（ｏ_ｔ）のうち、大きい方を音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）とし、その対数を事前信頼度算出手段３４に出力する。

事前信頼度算出手段３４は、モノフォン最尤値の対数ｌｏｇ（Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ））と音声／ポーズ最尤値の対数ｌｏｇｂ_ｇ＾（ｏ_ｔ）から式（１１）によりその差を当該フレームの事前信頼度ｃ（ｏ_ｔ）として求める。信頼度スコア算出手段３５は、フレーム毎の事前信頼度ｃ（ｏ_ｔ）を入力され、式（９）により、フレーム毎の事前信頼度ｃ（ｏ_ｔ）を平均化して音声ファイル単位のものを信頼度スコアＣとして求める。

このような構成とすることによって、後段の音声認識処理が複数の音響モデルを用いる場合でも、同様に複数の種別の音響モデルを事前信頼度スコア計算に用いることで、信頼度スコアＣを音声認識処理に合わせて精度よく求めることができる。なお、事前信頼度スコア計算部３０’に用いる音響モデルの種別は三種以上の複数であっても良い。

また、信頼度スコアＣは、音声特徴量系列に対する二種以上の音声モデル又はポーズモデルの最尤状態の出力確率を比較し、出力確率が大きい種別のモノフォンに限定して計算された値であっても良い。つまり、前記した例のように男性と女性のモノフォンの最尤値Ｐ（ｓ＾_ｍ）ｂ_ｓ＾ｍ（ｏ_ｔ）とＰ（ｓ＾_ｆ）ｂ_ｓ＾ｆ（ｏ_ｔ）を全てのフレームについて求めるのでは無く、音声モデル又はポーズモデルの出力確率が女性（男性）よりも男性（女性）が高くなるフレームは、男性（女性）モノフォンに限定して計算する方法も考えられる。

すなわち、音声／ポーズ最尤検出手段３３”は、男性と女性の音声／ポーズ最尤値ｂ_ｇ＾ｍ（ｏ_ｔ）とｂ_ｇ＾ｆ（ｏ_ｔ）のうち大きい方を音声／ポーズ最尤値ｂ_ｇ＾（ｏ_ｔ）とするものである。そして、モノフォン最尤検出手段３２”は、その判定結果を入力としてどちらか一方のモノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）を求める。この例の場合、全ての種別のモノフォンの出力確率ｂ_ｓ（ｏ_ｔ）とその状態の出現確率Ｐ（ｓ）の積Ｐ（ｓ）ｂ_ｓ（ｏ_ｔ）を計算しないので、計算量を削減する効果が期待できる。

＜その他の変形例＞
特徴量分析部２０の前段に、図示しない音声区間判定部を設けても良い。例えば、音声区間判定部は、パワーが所定値以下のフレームが所定時間以上継続したときに、音声区間ではないと判断する。そして、非音声区間と判定した場合には、その区間に対するそれ以降の処理を停止するように指示信号を出力する。このような構成とすることで、非音声区間の音声認識処理を省略することができる。なお、大きな雑音等は、音声区間判定部で省略することはできないが、モノフォン最尤検出手段３２及び音声／ポーズ最尤検出手段３３において、音声か非音声（ポーズ）か判定するため、誤認識を防ぐことができる。

モノフォン最尤検出手段３２で用いる各状態ｓの出現頻度、または、出現確率は、実際の音声認識処理には用いないため、この情報を保持しない音響モデルパラメータメモリ５０も存在する。その場合には、全ての出現頻度を１として（Ｐ（ｓ）＝１）、式（８）によりフレーム毎の事前信頼度ｃ（ｏ_ｔ）を求めてもよい。また、一部の状態についてのみ出現頻度または出現確率が保存されている音響モデルパラメータメモリ５０も存在する。その場合には、保存されている一部の状態の出現頻度または出現確率の平均値を求め、求めた平均値を他の状態（出現頻度または出現確率の保存されていない状態）の出現頻度または出現確率として代用してもよい。

また、事前信頼度スコア計算部において、複数の音響モデルを用いる場合、発話区間を推定し、発話区間毎に最適な音響モデルを推定する構成としてもよい。例えば、参考文献４のように、音声/ポーズＧＭＭを用いて事前に性別を推定し、推定した性別に適合する音響モデル（男性音響モデルまたは女性音響モデル）を用いる構成とする。
［参考文献４］S. Kobashikawa, A. Ogawa, Y. Yamaguchi, and S. Takahashi,“Rapid unsupervised adaptation using frame independent output probabilities of gender and context independent phoneme models”, INTERSPEECH, 2009, pp.1615-1618.
モノフォン最尤検出手段３２及び音声／ポーズ最尤検出手段３３は、それぞれ対数ｌｏｇ（Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ））及び対数ｌｏｇｂ_ｇ＾（ｏ_ｔ）に代えて、Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）及びｂ_ｇ＾（ｏ_ｔ）を出力し、事前信頼度算出手段３４において、対数ｌｏｇ（Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ））及びｌｏｇｂ_ｇ＾（ｏ_ｔ）を求めてもよい。

なお、前記方法及び装置において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

＜実験結果＞
本実験の音響分析条件は、標本化周波数１６ｋＨｚ、窓幅２０ｍｓｅｃのハミング窓、窓シフト１０ｍｓｅｃで、特徴量は２５次元（ＭＦＣＣ１２、ΔＭＦＣＣ１２、ΔＰＯＷＥＲ）であり、評価タスクは、話者４８名（男性１７名、女性３１名）による計２４０通話（合計１９．８１時間、１７，６７２発話）で、発話内容は１対１対話における自由発話である。音響モデルは、男女別不特定話者モデルで、総状態数は１，９５８、総分布数は男性２６，５６７、女性２９，８３６である。性別選択は参考文献４と同様に音声/ポーズＧＭＭを用いて事前に行った。言語モデルは、対話音声の書き起こしをベースに構築した単語ｔｒｉｇｒａｍであり、語彙サイズは５９，６７６単語である。デコーダには、音声認識エンジンＶｏｉｃｅＲｅｘ（参考文献５参照）を用いた。
［参考文献５］H. Masataki, D. Shibata, Y. Nakazawa, S. Kobashikawa, A. Ogawa, and K. Ohtsuki, “VoiceRex - Spontaneous speech recognition technology for contact-center conversations,” NTT Tech. Rev., 2007, vol. 5, no. 1, pp. 22-27

提案する事前信頼度推定による認識対象データ選択の有効性を示すために、通話単位でのデータ選択率に対する選択された通話音声の平均認識率(文字単位) で評価し、理想条件:認識精度が高い順に選択した理想条件、平均認識率:実験に用いた全通話音声の平均認識率、従来技術:音声認識処理後の音声認識結果を用いた事後的な信頼度スコアの高い順に選択、提案技術:提案する事前信頼度の高い順に選択（実施例１の音声認識装置１００）、の４条件で比較を行った。また、従来技術は、参考文献６のように音声認識結果のＮベストに基づき信頼度を推定している手法を採用した。さらに、事前信頼度推定の速度に関しては、音声認識処理を含む従来技術との比較により評価を行った。
［参考文献６］B. Rueber, “Obtaining confidence measures from sentence probabilities”, In EUROSPEECH-1997, pp.739-742

提案手法による認識対象データの選択の効果を、図９に示す。実施例１の音声認識装置１００は、理想条件には及ばないものの、全ての選択率で平均認識率よりも高い認識率を示しており、選択が認識率の改善に効果を示している。さらに、音声認識処理後の事後的な信頼度に基づく手法（従来技術）と同等の性能を示した。また、事前信頼度推定の処理時間は、従来技術との比で、僅か０．０１８４であり、５０倍以上の速度向上を実現した。限られた計算資源の下で全ての通話音声を認識処理できない場合においては、図９に示すような事後的な信頼度による選択は実現できないため、提案する事前信頼度に基づく選択が有効であると言える。

本稿では、環境独立音素モデル及び音声モデルを用いた高速な事前信頼度推定に基づき、認識対象音声データを音声認識処理前に選択する手法を提案した。実験の結果、音声認識処理後の事後的な信頼度推定に比べておよそ５４倍の速度で同等の選択性能を実現した。

＜音声認識装置２００＞
図４を用いて実施例２に係る音声認識装置２００について、実施例１と異なる部分のみを説明する。音声認識装置２００は、事前信頼度スコア計算部２３０の処理内容が実施例１と異なる。

＜事前信頼度スコア計算部２３０＞
図１０を用いて、事前信頼度スコア計算部２３０を説明する。事前信頼度スコア計算部２３０は、モノフォン最尤検出手段２３２と、音声／ポーズ最尤検出手段３３と、事前信頼度算出手段２３４と、信頼度スコア算出手段３５とを備え、モノフォン最尤検出手段２３２と事前信頼度算出手段２３４の処理内容が実施例１と異なる。

（モノフォン最尤検出手段２３２）
モノフォン最尤検出手段２３２は、フレームｔ毎の音声特徴量ｏ_ｔに対する各モノフォンＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）とそのＧＭＭが属する状態ｓの出現確率Ｐ（ｓ）の積Ｐ（ｓ）ｂ_ｓ（ｏ_ｔ）から、モノフォン最尤値Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）を求め、モノフォン最尤状態ｓ＾に属するＧＭＭから得られる出力確率ｂ_ｓ＾（ｏ_ｔ）の対数ｌｏｇｂ_ｓ＾（ｏ_ｔ）を事前信頼度算出手段３４に出力する。

（事前信頼度算出手段２３４）
事前信頼度算出手段２３４は、モノフォン最尤状態ｓ＾に属するＧＭＭから得られる出力確率ｂ_ｓ＾（ｏ_ｔ）の対数ｌｏｇｂ_ｓ＾（ｏ_ｔ）と音声／ポーズ最尤値の対数ｌｏｇｂ_ｇ＾（ｏ_ｔ）とを入力され、式（１２）によりその差を当該フレームの事前信頼度ｃ（ｏ_ｔ）として求め、信頼度スコア算出手段３５に出力する。

式（１１）に代えて、式（１２）を用いても、実施例１と同様に事前信頼度ｃ（ｏ_ｔ）を求めることができる。

なお、式（１２）が以下の観点からも、事前信頼度として有効であることがわかる。図１１に、音声特徴量と尤度との関係を示す。尤度は、尤もらしさを表す値であり、出力確率値で代用しても良い。横軸が音声特徴量、縦軸が尤度である。図中に、音響モデル中に含まれる音声モデル(破線)とモノフォンの音素モデル「＊−ａ＋＊」，「＊−ｉ＋＊」，「＊−ｕ＋＊」のそれぞれの分布を表す。なお、−は左側依存、＋は右側依存を表し、＊はどのような音素でもよいことを表す。図１１では、簡略化のため音素モデルの状態数を１、混合分布数を１として表現している。

音声モデルに用いるＧＭＭは、全ての音声すなわち全ての音素の学習データに基づき学習されたモデルである。そのため、その分布は、音声特徴量に対する尤度の値が比較的なだらかな分布となる。それに対して、モノフォンは、各音素の学習データで学習されたモデルである。そのため、当該音素に対応する音声特徴量に対する尤度の値が急峻な分布である。

従って、ある音声特徴量に対する音声モデルの尤度と、同じ音声特徴量に対するモノフォンの尤度を比較することで、音声ファイルの信頼度を判定することが可能である。つまり、雑音の影響を受けずに収録された音素ａの音声特徴量ｏ_ｔ ^clean（ａ）に対するモノフォン「＊−ａ＋＊」の尤度ｂ_ｓ（ｏ_ｔ ^clean（ａ））は大きな値を示す。一方、同じ音声特徴量ｏ_ｔ ^clean（ａ）に対する音声モデルの尤度ｂ_ｇ（ｏ_ｔ ^clean（ａ））は相対的に小さな値を示す。その結果、それらの値の間には大きな差が生じる。

これに対して、雑音の影響を強く受けて収録された音素ａの音声特徴量ｏ_ｔ ^noisy（ａ）は、本来の特徴量とは異なるのでモノフォンでの尤度ｂ_ｓ（ｏ_ｔ ^noisy（ａ））と、音声モデルにおける尤度ｂ_ｇ（ｏ_ｔ ^noisy（ａ））との間の差が小さくなる。

このように音声特徴量に対するモノフォンの尤度ｂ_ｓ（ｏ_ｔ）と、音声モデルの尤度ｂ_ｇ（ｏ_ｔ）との差を見ることで、収録音声の品質を評価することができる。よって式（１２）により事前信頼度ｃ（ｏ_ｔ）を求めることができることがわかる。

このような構成とすることで、実施例１と同様の効果を得ることができる。また、実施例１で用いる式（１１）では第１項に、最尤状態ｓ＾の出現確率Ｐ（ｓ＾）(＜１)を含むため、事前信頼度ｃ（ｏ_ｔ）の値が小さくなり、負の領域になる可能性が高い。実施例２で用いる式（１２）では、第１項と第２項とも同様の出力確率の対数スコアであり、かつ前述の通り音声モデルの分布がモノフォンの分布に比べてなだらかなことから、第２項の値は第１項に比べて小さくなり、正の領域になる可能性が高い。すなわち、事前信頼度ｃ（ｏ_ｔ）、ひいては信頼度スコアＣの値の取り得る値の範囲が制限される。従って、後段で音声認識処理制御を行う場合、音声認識処理を制御する閾値Ｃ_ｔｈの設定が容易になる。

＜音声認識装置３００＞
図１２を用いて実施例３に係る音声認識装置３００を説明する。音声認識装置３００は、認識処理制御部３８０を備える点、及び音声認識装置３４０の処理内容が音声認識装置１００、２００と異なる。
＜認識処理制御部３８０＞
認識処理制御部３８０は、制御信号としてビーム探索幅Ｎ（Ｃ）を出力する。その一例を式（１３）に示す。

図１３に信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係を例示する。横軸は信頼度スコアＣであり、縦軸はビーム探索幅Ｎ（Ｃ）である。
図１３に示すように式（１３）は、所定の範囲の信頼度スコアＣ（Ｃ_ｍｉｎ〜Ｃ_ｍａｘ）に対応するビーム探索幅Ｎ（Ｃ）（Ｎ_ｍｉｎ〜Ｎ_ｍａｘ）を、信頼度スコアＣの値で比例配分する考えである。ここでは、比例係数が負の値なので、信頼度スコアＣが小でビーム探索幅Ｎ（Ｃ）が大であり、Ｃが大でＮ（Ｃ）が小となる関係である。もちろん、信頼度スコアＣとビーム探索幅Ｎ（Ｃ）との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅Ｎ（Ｃ）を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。

ここで、例えばＣ_ｍａｘ＝μ＋σ、Ｃ_ｍｉｎ＝μ―σとして、Ｎ_ｍａｘを通常用いるビーム幅の１.５倍、Ｎ_ｍｉｎを通常用いるビーム幅の半分等としても良い。また、平均音質が極端に悪い場合（例えばＣ＜Ｃ_ｍｉｎ）には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばＮ_ｍｉｎにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。また、音声認識処理を停止させる信号とビーム探索幅の制御信号を並存させても良い。

＜音声認識処理部３４０＞
音声認識処理部３４０は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う。例えば、認識処理制御部３８０から音声認識処理を停止させる信号を受信した場合には、対応する音声ファイルについては、音声認識処理を停止させる。また、ビーム探索幅Ｎ（Ｃ）の制御信号を受信した場合には、そのビーム探索幅Ｎ（Ｃ）に基づき、音声認識処理を行う。

＜効果＞
このように、認識処理制御部３８０を備えた音声認識装置３００は、複数の音声ファイルの音声認識処理の効率化と、認識精度の向上を図ることができる。なお、認識処理制御部３８０の機能は、音声認識処理部４０に持たせても良い。

＜音声認識装置４００＞
図１４及び図１５を用いて実施例４に係る音声認識装置４００を説明する。
音声認識装置４００は、音声ファイル処理部４０１と、ソート音声認識処理部４４０と、を備える点で音声認識装置１００、２００と異なる。

＜音声ファイル処理部４０１＞
音声ファイル処理部４０１は、複数の音声ファイルの信頼度スコアＣの高い順番に複数の音声ファイルを並び替える（ステップＳ４０１）。
＜ソート音声認識処理部４４０＞
ソート音声認識処理部４４０は、信頼度スコアＣの高い順番に音声認識処理を行う（ステップＳ４４０）。

＜効果＞
このような構成とすることで、実施例１と同様の効果を得ることができる。さらに、このように信頼度スコアＣの大きさ順に音声認識処理を実行することで、複数の音声ファイルの音声認識処理を行う場合の処理効率を向上させることができる。例えば、全音声ファイルに対して音声認識処理を行うことが、計算機資源や処理時間の関係等によって難しい場合には、信頼度スコアＣが小さい音声ファイルは音声認識処理が行われず、音声認識精度が高い事が期待される信頼度スコアＣが大きな音声ファイルにのみ音声認識処理が行われることになり、高精度な音声認識結果を収集することが可能になる。なお、音声ファイル処理部４０１の機能は、ソート音声認識処理部４４０の機能に含めても良い。なお、実施例３の音声認識装置３００と音声ファイル処理部４０１及びソート音声認識処理部４４０を組み合わせても、同様の効果をえることができる。

＜音声認識装置５００＞
図１６及び図１７を用いて実施例５に係る音声認識装置５００を説明する。
音声認識装置５００は、教師なし適応制御部５０１と、教師なし適応部５０２と、適応後音響モデルパラメータメモリ５０３と、第２認識処理部５０４とを備える点で音声認識装置１００、２００と異なる。

＜教師なし適応制御部５０１＞
教師なし適応制御部５０１は、事前信頼度Ｃを入力として、その事前信頼度Ｃの値が一定範囲内（例えばＣ＞Ｃ_ｔｈ２であり、Ｃ_ｔｈ２＞Ｃ_ｔｈとする。ここで、Ｃ_ｔｈ２は、前述の信頼度スコア分布の平均値μ、標準偏差σを用いて、例えばＣ_ｔｈ２＝μ―σ等としてもよい）か否かを判定して教師なし適応制御信号ｐを出力する（ステップＳ５０１）。事前信頼度Ｃの値が一定範囲内でない場合、その音声ファイルの処理を終了する（ステップＳ５０１のＮＯ）。教師なし適応制御信号とは、音声認識処理部４０が出力する音声認識結果を適応用ラベルとして用いるか否かを制御する信号である。

＜教師なし適応部５０２＞
教師なし適応部５０２は、教師なし適応制御信号ｐが、音声認識処理部４０が出力する音声認識結果Ｗを適応用ラベルとして用いることを指示していた場合、音声認識結果Ｗを適応用ラベルとして音響モデルパラメータメモリ５０に記録された音響モデルを学習して、適応後音響モデルを生成する（ステップＳ５０２）。適応後音響モデルは、適応後音響モデルパラメータメモリ５０３に記録される。

＜第２認識処理部５０４＞
第２認識処理部５０４は、適応後音響モデルパラメータメモリ５０３に記録された適応後音響モデルを用いて音声特徴量系列Ｏの音声認識処理を行い、音声認識結果Ｗ’を出力する（ステップＳ５０４）。なお、このとき、事前信頼度スコア計算部３０で求めた信頼度スコアＣを一緒に出力してもよい。

＜効果＞
このような構成とすることで実施例１と同様の効果を得ることができる。さらに、音声認識装置５００は、事前信頼度Ｃの値が一定範囲内にある場合に限って、音声認識結果Ｗを適応用ラベルとして音響モデルを学習し、さらに音声認識処理を行う。事前信頼度スコアＣが低く音声ファイルの認識精度の低い場合には、そのときの音声認識処理結果Ｗは、教師なし適応における適応用ラベルとしてふさわしくなく、教師なし適応による音響モデルの精度向上が期待できない。そのような場合に、教師なし適応や第２音声認識処理を省略することで、その計算時間を削減できる。また、信頼度スコアＣが高く音声ファイルの認識精度の高い音声認識結果Ｗを適応用ラベルとして音響モデルを学習するので、音響モデルの精度を自動的に向上させることができる。なお、実施例３、４の音声認識装置３００、４００と教師なし適応制御部５０１、教師なし適応部５０２、適応後音響モデルパラメータメモリ５０３及び第２認識処理部５０４を組み合わせても、同様の効果をえることができる。

＜プログラム＞
また、前記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

１００、２００、３００、４００、５００、９００音声認識装置
２０特徴量分析部
３０、３０’、２３０事前信頼度スコア計算部
４０、３４０音声認識処理部
５０音響モデルパラメータメモリ
６０言語モデルパラメータメモリ
３８０認識処理制御部
４０１音声ファイル処理部
４４０ソート音声認識処理部
５０１教師なし適応制御部
５０２教師なし適応部
５０３適応後音響モデルパラメータメモリ
５０４第２認識処理部

Claims

音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その音声特徴量系列に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いものを求め、最も高い積Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を求める特徴量分析過程と、
前記フレーム毎の音声特徴量系列を用いて、その入力に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いときの出力確率ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを求める事前信頼度スコア計算過程と、
前記音声特徴量系列を用いて、前記信頼度スコアに基づき音声認識処理を行う音声認識処理過程と、を備える、
ことを特徴とする音声認識方法。
請求項１または請求項２に記載した音声認識方法において、
前記信頼度スコアを用いて、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御過程を、さらに備え、
前記音声認識処理過程は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列の音声認識処理を行う、
ことを特徴とする音声認識方法。
請求項１〜３の何れかに記載した音声認識方法において、
複数の音声ファイルの前記信頼度スコアから、信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理過程と、
信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
請求項１〜４の何れかに記載した音声認識方法において、
前記信頼度スコアを用いて、その信頼度スコアの値が一定範囲内か否かを判定して教師なし適応制御信号を求める教師なし適応制御過程と、
前記音声認識の結果と前記教師なし適応制御信号を用いて、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応過程と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第２認識処理過程と、
をさらに備えることを特徴とする音声認識方法。
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いものを求め、最も高い積Ｐ（ｓ＾）ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
入力される音声ディジタル信号の音声特徴量をフレーム単位で分析して音声特徴量系列を出力する特徴量分析部と、
前記フレーム毎の音声特徴量系列を入力として、その入力に対するモノフォンＨＭＭの各状態に属するＧＭＭから得られる出力確率ｂ_ｓ（ｏ_ｔ）と、その各状態ｓの出現確率Ｐ（ｓ）との積が最も高いときの出力確率ｂ_ｓ＾（ｏ_ｔ）の対数と、その入力に対する音声モデルの状態に属するＧＭＭまたはポーズモデルＨＭＭの各状態に属するＧＭＭから得られる最も高い出力確率ｂ_g＾（ｏ_ｔ）の対数との差を当該フレームの事前信頼度とし、その事前信頼度を平均化して音声ファイル単位の信頼度スコアを出力する事前信頼度スコア計算部と、
前記音声特徴量系列を入力として、前記信頼度スコアに基づき音声認識処理を行う音声認識処理部とを備える、
ことを特徴とする音声認識装置。
請求項６または請求項７に記載した音声認識装置において、
前記信頼度スコアを入力として、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方を求める認識処理制御部を、さらに備え、
前記音声認識処理部は、音声認識処理を停止させる信号か、ビーム探索幅の制御信号の少なくとも一方に基づき、前記音声特徴量系列を入力として音声認識処理を行う、
ことを特徴とする音声認識装置。
請求項６〜８の何れかに記載した音声認識装置において、
複数の音声ファイルの前記信頼度スコアから、信頼度スコアの高い順番に前記複数の音声ファイルを並び替える音声ファイル処理部と、
信頼度スコアの高い順番で音声認識処理を行うソート音声認識処理部と、
をさらに備えることを特徴とする音声認識装置。
請求項６〜９の何れかに記載した音声認識装置において、
前記信頼度スコアを入力として、その信頼度スコアの値が一定範囲内か否かを判定して教師なし適応制御信号を出力する教師なし適応制御部と、
前記音声認識の結果と前記教師なし適応制御信号を入力として、前記音声認識結果を適応用ラベルとして音響モデルを学習して適応後音響モデルを生成する教師なし適応部と、
前記適応後音響モデルが生成された場合に、その適応後音響モデルを用いて前記音声特徴量系列の音声認識処理を行う第２認識処理部と、
をさらに備えることを特徴とする音声認識装置。
請求項１から５の何れかに記載した音声認識方法をコンピュータに実行させるためのプログラム。