JP2010210816A

JP2010210816A - 音声認識装置とその方法と、プログラム

Info

Publication number: JP2010210816A
Application number: JP2009055519A
Authority: JP
Inventors: Atsunori Ogawa; 厚徳小川; Atsushi Nakamura; 篤中村
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-03-09
Filing date: 2009-03-09
Publication date: 2010-09-24
Anticipated expiration: 2029-03-09
Also published as: JP4939560B2

Abstract

【課題】音声認識装置を適切に使用できるようにする。
【解決手段】この発明の音声認識装置は、音声認識部と正誤・誤り原因推定部を備える。音声認識部は、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルとを出力する。正誤・誤り原因推定部は、音声認識結果である単語列中の各単語に対して、各単語の発話特徴量ベクトルを入力として各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する。
【選択図】図１

Description

この発明は、入力音声信号の音声認識結果が、どの程度信頼できるかを表す信頼度を推定するようにした音声認識装置と、その方法とプログラムに関する。

音声認識結果の信頼度（正解不正解とその確からしさ）を推定する音声認識装置としては、特許文献１に開示されたものが知られている。図１５にその音声認識装置１５０の機能構成を示して動作を簡単に説明する。音声認識装置１５０は、記憶部４、発話分割部５、音声認識部６、音響モデル格納部１０、辞書・言語モデル格納部１２、情報変換部２０、信頼度付与部２２、識別モデル格納部２９、出力部２６、を備える。

記憶部４は、入力端子２に入力される音声信号を離散値化したディジタル音声信号として記憶する。発話分割部５は、所定値以上継続する無音区間に挟まれたディジタル音声信号を一発話として分割する。音声認識部６は、音響分析部８と認識探索部７とから構成される。音響分析部８は、ディジタル音声信号を特徴量ベクトルの時系列に変換する。認識探索部７は、音響モデル格納部１０と辞書・言語モデル格納部１２に格納された音響モデルと言語モデルを用いて、辞書・言語モデル格納部１２に登録されている単語列と特徴量ベクトルの時系列との照合を行い、照合尤度が最も高い単語列を認識結果として出力する。

音響分析部８における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としてはＭＦＣＣ（Mel Frequency Cepstral Coefficient）、ΔＭＦＣＣ、ΔΔＭＦＣＣ、対数パワー、Δ対数パワー等があり、これらが１０〜１００次元程度の特徴量ベクトルを構成する。分析フレーム幅は３０ｍｓ程度、分析フレームシフト幅は１０ｍｓ程度で分析が実行される。

音響モデルは、上記ＭＦＣＣ等の音声の特徴量を音素等の適切なカテゴリでモデル化したものである。この音響モデルを用いて入力音声のフレーム毎の特徴量と各カテゴリのモデルとの音響的な近さが音響尤度として計算される。現在のモデル化の手法としては、確率・統計理論によるＨＭＭ（Hidden Markov Model）に基づくものが主流となっている。言語モデルの形式は、単語リスト、定型文法、Ｎ−gramモデルの三つに大別される。孤立単語発声を認識対象とする音声認識装置においては、認識対象の単語を列挙した単語リストが用いられる（単語リストは辞書・言語モデル格納部１２に格納されている辞書と等価である）。定型的な文章発声を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語を連結して、装置で受理する発話内容（文章）を記述した定型文法が用いられる。自由な連続発話を認識対象とする音声認識装置においては、辞書・言語モデル格納部１２に登録されている単語のＮ連鎖確率を保持しているＮ−gramモデルが用いられ、これによりＮ連鎖以下の単語のつながり易さが言語尤度として計算される。以上のような音響モデル、言語モデルを用いた音声認識装置については、例えば非特許文献１と２に詳述されている。

情報変換部２０は、単語列を構成する各単語について、例えば図１６に示す様な発話特徴量ベクトルに変換する。発話特徴量ベクトルの各単語の品詞情報は、この例では３７種類に分類される。品詞情報に付随する音響尤度スコアと言語尤度スコアと音素継続時間長は、この例ではそれぞれの平均値、分散値、最大値、最小値、が計算される。

信頼度付与部２２は、発話特徴量ベクトルを評価して信頼度を付与する。信頼度の付与は、識別モデル格納部２９に格納されている予め学習した発話特徴量ベクトルと音声認識率とを関連付けた値と、情報変換部２０が出力する発話特徴量ベクトルとを対比することで行う。例えば、１０％間隔の音声認識率に対応させた発話特徴量ベクトルを用意して置くことで、音声認識結果が１００％信頼できるものか、或いは全く信頼できない信頼度の音声認識結果であるのかを、１０％の間隔で信頼度を付与することができる。出力部２６は、各発話単位毎に、単語系列と、各単語の発話特徴量ベクトルと、信頼度とを出力する。以上の様な音声認識結果に信頼度を付与する試みは、例えば非特許文献３にも開示されている。

特開２００７−２４０５８９号公報

鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、IT Text 音声認識システム、オーム社、pp. 1-51, 2001 安藤彰男、リアルタイム音声認識、（社）電子情報通信学会、pp. 1-58, pp. 125-170, 2003 H. Jiang, "Confidence measures for speech recognition: A survey," Speech Communication, vol. 45, pp. 455-470, 2005.

従来の音声認識結果に信頼度を付与して出力する音声認識装置によれば、信頼度を利用することで認識結果が正しい或いは間違っているという推定に基づく運用が実現できる。しかし、それだけでは解決できない課題が存在する。例えば、図１７に示すように認識対象が男性話者に設定された音声認識装置に対して、女性話者が音声入力した場合を想定すると、音声が認識できないことが多い。そこで、信頼度を利用して女性話者に再発声を促すことはできると思われる。しかし、女性話者は再発声を要求された理由が不明である。その結果、ユーザが音声認識装置を満足に使いこなすことができない。

この発明はこの点に鑑みてなされたものであり、音声の認識誤りが生じた場合に、その誤り原因を利用者に提示することで、利用者に音声認識装置を適切に使用させるように促すことができる音声認識装置とその方法と、プログラムを提供することを目的とする。

この発明の音声認識装置は、音声認識部と正誤・誤り原因推定部を備える。音声認識部は、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルとを出力する。正誤・誤り原因推定部は、各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する。

この発明の音声認識装置は、音声認識結果の誤認識が推定された場合に、その誤り原因を推定する。その推定した誤り原因を提示することで、利用者に音声認識装置の適切な使用方法を促すことができる。その推定した誤り原因を用いることで、例えば上記したように認識音声の種別が異なっている場合でも、図１８に示すように「すみません。今、男性の声を認識する設定になっています。女性認識用ボタンを押して下さい。」と、メッセージを表示することが可能である。よって、利用者は音声認識装置を適切に使用することができる。

この発明の音声認識装置１００の機能構成例を示す図。音声認識装置１００の動作フローを示す図。正誤・誤り原因推定部４０の機能構成例を示す図。正誤・誤り原因推定部４０の動作フローを示す図。正誤・誤り原因ラベルベクトルｙ^→の取り得る値の一例を示す図。正誤・誤り原因推定部４０′の機能構成例を示す図。正誤・誤り原因推定部７０の機能構成例を示す図。正誤・誤り原因推定部７０の動作フローを示す図。誤り原因ラベルベクトルｚ^→の取り得る値の一例を示す図。正誤・誤り原因推定部７０′の機能構成例を示す図。正誤・誤り原因推定部１１０の機能構成例を示す図。正誤・誤り原因推定部１１０の動作フローを示す図。この発明の音声認識装置１３０の機能構成例を示す図。正誤・誤り原因メッセージの一例を示す図。特許文献１の音声認識装置１５０の機能構成を示す図。発話特徴量ベクトルｘ^→の一例を示す図。従来の音声認識の状況の一例を示す図。この発明の音声認識装置を用いた音声認識の状況の一例を示す図。

以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。

図１にこの発明の音声認識装置１００の機能構成例を示す。その動作フローを図２に示す。音声認識装置１００は、音声認識部３０、正誤・誤り原因推定部４０、を備える。音声認識装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部３０は、入力端子２に入力される音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルｘ^→（→は図中の表記が正しい）と、を出力する（ステップＳ３０）。音声認識部３０は、従来技術で説明した音声認識装置１５０の記録部４から情報変換部２０までの構成を含むものである。各単語の発話特徴量ベクトルｘ^→も、例えば音響尤度スコアや言語尤度スコアから成る図１６に示したようなベクトルである。正誤・誤り原因推定部４０は、各単語の発話特徴量ベクトルｘ^→を入力としてその発話特徴量ベクトルｘ^→からその単語の正解不正解と誤り原因の推定値ｙ^→＾と、その確からしさを推定する（ステップＳ４０）。音声認識装置１００は、音声認識結果である単語列中の各単語の正解不正解と誤り原因の推定値ｙ^→＾とその確からしさの他に、図示していないが当然、音声認識した単語列も出力する。

このように音声認識装置１００は、認識結果の正解不正解に加えて誤り原因も推定するので、利用者はどのような原因で音声認識装置１００が動作しないのかを知ることができる。その結果、音声認識装置１００の適切な使用を可能にする。図３にこの発明の要部である正誤・誤り原因推定部４０の機能構成例を示して更に詳しく説明する。

なお、以下の説明では、音声認識装置は孤立単語音声認識装置であり、静かな場所における男性の声で、日本の地名発声を認識する場合を想定する（図１７参照）。

正誤・誤り原因推定部４０は、正誤・誤り原因条件付確率計算部４１、モデルパラメータ記録部４２、正誤・誤り原因選択部４３、を具備する。モデルパラメータ記録部４２は、発話特徴量ベクトルｘ^→と正誤・誤り原因ラベルベクトルｙ^→との関係を表す識別モデルに基づく条件付確率を計算するのに必要なモデルパラメータを記録する。正誤・誤り原因条件付確率計算部４１は、音声認識部３０が出力する各単語の発話特徴量ベクトルｘ^→を入力として、識別モデルの一種である最大エントロピーモデル（ＭＥＭ：Maximum Entropy Model）に基づく条件付確率を、予め設定された正誤・誤り原因ラベルベクトルｙ^→の取り得る値毎に、モデルパラメータ記録部４２に記録されている、素性関数ｆ_ｋ（ｘ^→，ｙ^→）とその重みパラメータλ_ｋと（これらが最大エントロピーモデルのモデルパラメータである）、を用いて計算する（ステップＳ４１、図４）。最大エントロピーモデルは識別モデルの一例であり、最近の信頼度推定手法に用いられるものである。

正誤・誤り原因ラベルベクトルｙ^→とは、一つの正誤ラベルｙ_０と一つ以上の誤り原因ラベルｙ_i，ｉ≧1を各次元に持つベクトルである。正誤ラベルと誤り原因ラベルを合わせて正誤・誤り原因ラベルｙ_i，ｉ≧0と呼ぶ。正誤・誤り原因ラベルｙ_iは、例えば表１に示すようなものである。

正解不正解を表す正誤・誤り原因ラベル（正誤ラベル）ｙ_０は、発話特徴量ベクトルｘ^→から最大エントロピーモデルに基づいて推定された２値の情報である。ｙ_０＝０が正解、ｙ_０＝１が不正解を表す。正誤・誤り原因ラベル（誤り原因ラベル）ｙ_１は、語彙内（ｙ_１＝０）か、語彙外（ｙ_１＝１）かを表す。正誤・誤り原因ラベル（誤り原因ラベル）ｙ_２は、雑音なし（ｙ_２＝０）か、雑音あり（ｙ_２＝１）かを表す。正誤・誤り原因ラベル（誤り原因ラベル）ｙ_３は、男性（ｙ_３＝０）か、女性（ｙ_３＝１）かを表す。

正誤・誤り原因ラベルとしては、表１に示す４種類の他にも、例えば、音量が適切であるか／適切でないか、使用者の年齢層が音声認識装置が想定しているものに一致しているか／一致していないか（成人を使用者として想定する音声認識装置の場合、子供や高齢者は想定外の使用者である）、などを挙げることができる。ここでは煩雑さを避けるために、表１に示す４種類に限定して説明を行う。

表１の例では、正誤・誤り原因ラベルの数が４個なので、正誤・誤り原因ラベルベクトルｙ^→の取り得る値は２^４＝１６状態に場合分けすることができ、それぞれをベクトル表記ｙ^→できる。但し、ｙ^→＝（ｙ_０，ｙ_１，ｙ_２，ｙ_３）＝（０，１，０，０）の「語彙外だけど認識できた」等は、ありえない組み合わせである。これらの存在しない組み合わせを考慮すると、正誤・誤り原因ラベルベクトルｙ^→の取り得る値は、図５に示すように１２状態である。

最大エントロピーモデルに基づく正誤・誤り原因推定では、例えばこれら１２状態の正誤・誤り原因ラベルベクトルｙ^→と、発話特徴量ベクトルｘ^→との関係を、予め学習データを用いて学習しておく。まず、発話特徴量ベクトルｘ^→と正誤・誤り原因ラベルベクトルｙ^→の関係を表すＫ種類（１００〜１００万種類程度）の素性関数ｆ_ｋ（ｘ^→，ｙ^→）, ｋ＝１，２，．．，Ｋを用意する。そして、各素性関数ｆ_ｋ（ｘ^→，ｙ^→）の重みパラメータλ_ｋを、例えば準ニュートン法により学習して推定する。これらの素性関数ｆ_ｋ（ｘ^→，ｙ^→）と重みパラメータλ_ｋは、モデルパラメータ記録部４２に予め記録されている。

正誤・誤り原因条件付確率計算部４１は、発話特徴量ベクトルｘ^→を入力として、モデルパラメータ記録部４２に記録されている素性関数ｆ_ｋ（ｘ^→，ｙ^→）と重みパラメータλ_ｋを参照して式（１）に示す正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）を計算する。

正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）は、この例では１２個ある正誤・誤り原因ラベルベクトルｙ^→毎に計算される。これらの値は、０〜１の確率値である（全ての正誤・誤り原因ラベルベクトルｙ^→（この例では１２個）についてその条件付確率を足すと１．０になる。すなわち、Σ_ｙ→Ｐ_ＭＥ（ｙ^→｜ｘ^→）＝１．０である）。例えば、正誤・誤り原因ラベルベクトルｙ^→＝（ｙ_０，ｙ_１，ｙ_２，ｙ_３）＝（１，０，１，０）「雑音が乗っていたので不正解」の正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→＝（１，０，１，０）｜ｘ^→）の値が大きければ、雑音が多くて誤認識している可能性が高いことを意味する。

このように正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）は、正誤・誤り原因ラベルベクトルｙ^→、つまり音声認識結果の正解不正解と誤り原因の推定値の確からしさを示す値である。なお、正誤・誤り原因ラベルベクトルｙ^→は、図３に示すように正誤・誤り原因条件付確率計算部４１の外部に正誤・誤り原因ラベルベクトル記録部４４を設け、そこに記録して置き、正誤・誤り原因条件付確率計算部４１がそれを参照するようにしても良い。

正誤・誤り原因選択部４３は、正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）を入力として、式（２）に示すように正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）を最大にする正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を、この例では図５に示す１２個の組み合わせから選択する（ステップＳ４３）。

式（２）によって、例えば、図５に示す「女性なので不正解」ｙ^→＾＝（１，０，０，１）が選択される。

このように音声認識装置１００によれば、音声認識結果の正解不正解と誤り原因の推定値ｙ^→＾と、その確からしさＰ_ＭＥ（ｙ^→＾｜ｘ^→）を推定することが可能である。なお、音声認識装置１００を孤立単語音声認識装置として説明したが、この実施例１の考えは他の定型文音声認識や連続音声認識にも適用が可能である。以降の変形例や実施例でも同様である。

〔変形例１〕
実施例１では、一つの最大エントロピーモデルＭＥを用いて正誤・誤り原因ラベルベクトルｙ^→の取り得る値毎に正誤・誤り原因条件付確率Ｐ_ＭＥ（ｙ^→｜ｘ^→）を求めたが、正誤・誤り原因ラベルｙ_ｉ，ｉ＝０，１，２，３に独立性があると仮定して、正誤・誤り原因ラベルｙ_ｉ毎に専用の最大エントロピーモデルＭＥ_ｉ，ｉ＝０，１，２，３を準備して、各正誤・誤り原因ラベルｙ_ｉの取り得る値（ｙ_ｉ＝０または１）毎に条件付確率Ｐ_ＭＥｉ（ｙ_ｉ＝ｊ｜ｘ^→），ｊ＝０，１を求め、それらから、正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を求めても良い。図６にその方法の正誤・誤り原因推定部４０′の機能構成例を示す。

正誤・誤り原因推定部４０′は、正誤・誤り原因条件付確率計算部４１′と、モデルパラメータ記録部４２′と、正誤・誤り原因選択部４３′を備える。正誤・誤り原因条件付確率計算部４１′は、正誤・誤り原因ラベルｙ_ｉ毎に専用の最大エントロピーモデルＭＥ_ｉを用いて、各正誤・誤り原因ラベルｙ_ｉの取り得る値（０か１）毎に条件付確率Ｐ_ＭＥｉ（ｙ_ｉ＝ｊ｜ｘ^→），ｊ＝０，１を式（３）の計算で求める。

モデルパラメータ記録部４２′は、最大エントロピーモデルＭＥ_ｉにおける発話特徴量ベクトルｘ^→と正誤・誤り原因ラベルｙ_ｉの関係を表す素性関数ｆ_ｋ ^ｉ（ｘ^→，ｙ_ｉ）（式（３））を記録する。素性関数ｆ_ｋ ^ｉ（ｘ^→，ｙ_ｉ）は、Ｋ_ｉ種類（１００〜１００万種類程度）定義する（ｆ_ｋ ^ｉ（ｘ^→，ｙ_ｉ）, ｋ＝１，２，．．，Ｋ_ｉ）。また、λ_ｋ ^ｉは、素性関数ｆ_ｋ ^ｉ（ｘ^→，ｙ_ｉ）の重みパラメータである。最大エントロピーモデルＭＥ_ｉ毎に異なる学習データを用いて、例えば準ニュートン法により、λ_ｋ ^ｉを学習して推定する。また、最大エントロピーモデルＭＥ_ｉ毎に異なる素性関数をｆ_ｋ ^ｉ（ｘ^→，ｙ_ｉ）, ｋ＝１，２，．．，Ｋ_ｉを定義しないで、共通の素性関数を用いてもよい。例えば、全ての最大エントロピーモデルＭＥ_ｉ，ｉ＝０，１，２，３について、共通の素性関数ｆ_ｋ（ｘ^→，ｙ_ｉ）, ｋ＝１，２，．．，Ｋを用いてもよい。

正誤・誤り原因推定部４０′は、表１に示した正誤・誤り原因ラベルｙ_ｉ，ｉ＝０，１，２，３毎に専用の最大エントロピーモデルＭＥ_ｉを用いて、各ラベルｙ_ｉの取り得る値（ｙ_ｉ＝０または１）毎に、条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→），Ｐ_ＭＥ１（ｙ_１＝ｊ｜ｘ^→），Ｐ_ＭＥ２（ｙ_２＝ｊ｜ｘ^→），Ｐ_ＭＥ３（ｙ_３＝ｊ｜ｘ^→），ｊ＝０，１を求める。

正誤・誤り原因選択部４３′は、それら６個の条件付確率を入力として式（４）の計算で正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を求める。

等号で結ばれた式（４）の中央の項のｙ_ｉ＾は、右側の項に示す通り、０か１の何れかであり、条件付確率Ｐ_ＭＥｉ（ｙ_ｉ＝ｊ｜ｘ^→），ｊ＝０，１で大きな方の値を与えるｊである。Ｔは行列の転置を表す。正誤・誤り原因選択部４３′は、正誤・誤り原因ラベルベクトルの推定値ｙ^→＾の条件付確率Ｐ（ｙ^→＾｜ｘ^→）（確からしさ）を、式（５）に示すように正誤・誤り原因ラベルｙ_ｉ毎の条件付確率の積で求める。

この正誤・誤り原因ラベルｙ_ｉ間に独立性があると仮定して正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を求める方法では、実施例１ではありえない組み合わせとして説明した正誤・誤り原因ラベルベクトルの取り得る値、例えばｙ^→＝（０，１，０，０）等を推定値としてしまう場合も考えられる。これらのありえない推定値ｙ^→＾については、ソフトウェアやハードウェアで容易に出力を禁止することが可能である。又、後述する一度正誤・誤り条件付確率Ｐ_ＭＥｉ（ｙ_ｉ＝ｊ｜ｘ^→）を求めた後に、改めて正誤を推定し直す方法（実施例３）と組み合わせることで、ありえない推定値ｙ^→＾の出力を抑制する方法も考えられる。何れにしろ容易に解決できる。

この正誤・誤り原因ラベルｙ_ｉ間に独立性を仮定して正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を推定する方法は、正誤・誤り原因ラベルｙ_ｉ個々について、専用の最大エントロピーモデルＭＥ_ｉを用いて条件付確率を求めるので、実施例１の方法よりも精度良く正誤・誤り原因ラベルベクトルを推定できる。

実施例１及びその変形例１は、音声認識部３０の出力する発話特徴量ベクトルｘ^→に対して常に正解不正解と誤り原因を推定するものである。しかし、音声認識装置１００が適切に使用されて音声の認識率が高い場合において常に正解不正解や誤り原因を推定することは、計算負荷の増加を招き無駄である。そこで、発話特徴量ベクトルｘ^→から誤認識の可能性が疑われる場合だけ、誤り原因を推定するようにした実施例２を次に説明する。

実施例２の正誤・誤り原因推定部７０の機能構成例を図７に示す。その動作フローを図８に示す。正誤・誤り原因推定部７０は、正誤条件付確率計算部７１、正誤判定部７２、誤り原因条件付確率計算部７３、誤り原因選択部７４、モデルパラメータ記録部４２′を備える。モデルパラメータ記録部４２′は、図６に示す変形例１と同じものである。

正誤条件付確率計算部７１は、発話特徴量ベクトルｘ^→から音声認識の結果の正解及び不正解それぞれの条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→）のみを計算する（ステップＳ７１）。この正解及び不正解の条件付確率の計算は、図６の正誤・誤り原因条件付確率計算部４１′において、正解及び不正解の条件付確率を求めるための専用の最大エントロピーモデルＭＥ_０を用いて、条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→），ｊ＝０，１のみを求める。また、この条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→）に替えて、例えば、非特許文献３に開示されているような、従来の他の推定手法による信頼度（正誤判定とその確からしさ）を用いてもよい。

正誤判定部７２は、正誤条件付確率計算部７１で求めた正解及び不正解の条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→），ｊ＝０，１と閾値ＴＨを用いて正誤判定を行う。正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝０｜ｘ^→）が不正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝１｜ｘ^→）よりも大きく、かつ、正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝０｜ｘ^→）が予め設定した閾値ＴＨよりも大の場合（ステップＳ７２のＹ）は、音声認識結果の正解の確率が高いとして、誤り原因条件付確率計算ステップ（ステップＳ７３）と誤り原因選択ステップ（ステップＳ７４）とを省略する。つまり、誤り原因条件付確率計算部７３と、誤り原因選択部７４の動作を停止させる。このように音声の認識率が高い場合には、計算負荷を軽減することが可能である。逆に、不正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝１｜ｘ^→）が正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝１｜ｘ^→）以上である、または、正解である条件付確率Ｐ_ＭＥ０（ｙ_０＝０｜ｘ^→）があらかじめ設定した閾値ＴＨ以下の場合（ステップＳ７４のＮ）は、音声認識結果の不正解の確率が高いとして、誤り原因条件付確率計算ステップ（ステップＳ７３）と、誤り原因選択ステップ（ステップＳ７４）が動作する。なお、正誤判定部７２からは、正誤判定結果ｙ_０＝ｙ_０＾（正解（０）か不正解（１）か）とその確からしさＰ_ＭＥ０（ｙ_０＝ｙ_０＾｜ｘ^→）を出力する。

正誤判定部７２において音声認識結果が不正解である可能性が高いと判定した場合は、誤り原因条件付確率計算部７３と、誤り原因選択部７４は動作し、誤り原因の推定を行う。この誤り原因の推定では、正誤判定部７２から既に正誤判定結果とその確からしさを出力しているので、正解不正解の推定を行う必要がない。

そこで、誤り原因条件付確率計算部７３と誤り原因選択部７４では、正誤・誤り原因ラベルベクトルｙ^→＝（ｙ_０，ｙ_１，ｙ_２，ｙ_３）から正解不正解に関する正誤ラベルｙ_０を除いた誤り原因ラベルベクトルｚ^→＝（ｙ_１，ｙ_２，ｙ_３）の取り得る値のうちから、誤り原因の推定値ｚ^→＾＝（ｙ_１＾，ｙ_２＾，ｙ_３＾）とその確からしさΠ_ｉ＝１ ^３Ｐ_ＭＥｉ（ｙ_ｉ＝ｙ_ｉ＾｜ｘ^→）を求める。図９に誤り原因ラベルベクトルｚ^→の取り得る値を示す。この例では８状態である。誤り原因条件付確率計算部７３と誤り原因選択部７４では、誤り原因ラベルｙ_ｉ，ｉ＝１，２，３間の独立性を仮定した上で、図６に示す変形例１の正誤・誤り原因条件付確率計算部４１′と正誤・誤り原因選択部４３′と同様の処理をそれぞれ実行して誤り原因の推定値ｚ^→＾とその確からしさΠ_ｉ＝１ ^３Ｐ_ＭＥｉ（ｙ_ｉ＝ｙ_ｉ＾｜ｘ^→）を求める。

例えば、語彙内か外かのラベルｙ_１について、語彙内である条件付確率がＰ_ＭＥ１（ｙ_１＝０｜ｘ^→）＝０．８で、語彙外である条件付確率がＰ_ＭＥ１（ｙ_１＝１｜ｘ^→）＝０．２であるとする。つまり、Σ_ｊ＝０ ^１Ｐ_ＭＥ１（ｙ_１＝ｊ｜ｘ^→）＝１．０である。ｙ_２，ｙ_３についても同じである。このとき、語彙内か語彙外かの推定値ｙ_１＾としては０（語彙内）が選ばれる。同様に、例えば、雑音に関するラベルｙ_２について、雑音なしである条件付確率がＰ_ＭＥ２（ｙ_２＝０｜ｘ^→）＝０．７で、雑音ありである条件付確率がＰ_ＭＥ２（ｙ_２＝１｜ｘ^→）＝０．３であるとする。このとき、雑音なしか雑音ありかの推定値ｙ_２＾としては０（雑音なし）が選ばれる。同様に、例えば、性別に関するラベルｙ_３について、男性（性別一致）である条件付確率がＰ_ＭＥ３（ｙ_２＝０｜ｘ^→）＝０．１で、女性（性別不一致）である条件付確率がＰ_ＭＥ３（ｙ_２＝１｜ｘ^→）＝０．９であるとする。このとき、男性か女性かの推定値ｙ_３＾としては１（女性）が選ばれる。以上のような各誤り原因ラベルｙ_ｉ毎の選択結果を統合する（並べる）ことで、誤り原因の推定値ｚ^→＾としてｚ^→＾＝（ｙ_１＾，ｙ_２＾，ｙ_３＾）＝（０，０，１）の「女性（性別不一致）」が求められ、その確からしさは、Ｐ（ｚ^→＾｜ｘ^→）＝Π_ｉ＝１ ^３Ｐ_ＭＥｉ（ｙ_ｉ＝ｙ_ｉ＾｜ｘ^→）＝０．７×０．８×０．９＝０．５０４と計算される。

このときの誤り原因ラベルｙ_ｉ，ｉ＝１，２，３毎の専用の最大エントロピーモデルＭＥ_ｉ，ｉ＝０，１，２，３としては、変形例１のものをそのまま用いることができる。ただし、その場合は正誤ラベルｙ₀に対応する素性関数ｆ_ｋ ^０（ｘ^→，ｙ_ｉ）とその重みパラメータλ_ｋ ^０は用いない。なお、誤り原因ラベルベクトルｚ^→は、図７に示すように誤り原因条件付確率計算部７３の外部に誤り原因ラベル記録部７５を設け、そこに記録して置いても良い。

〔変形例２〕
また、最大エントロピーモデルＭＥｚを用いて誤り原因条件付確率計算部７３′と誤り原因選択部７４′とで、誤り原因の推定値ｚ^→＾とその確からしさＰ_ＭＥｚ（ｚ^→＾｜ｘ^→）を求めても良い。最大エントロピーモデルＭＥｚは、誤り原因ラベルベクトルｚ^→と、発話特徴量ベクトルｘ^→との関係について、例えば準ニュートン法によって学習して推定したものである。

図１０に最大エントロピーモデルＭＥｚを用いた正誤・誤り原因推定部７０′の機能構成例を示す。正誤・誤り原因推定部７０′は、正誤条件付確率計算部７１と、正誤判定部７２と、誤り原因条件付確率計算部７３′と、モデルパラメータ記録部１０１と、誤り原因選択部７４′を備える。正誤条件付確率計算部７１と正誤判定部７２とは、図７の正誤・誤り原因推定部７０と同じものである。

モデルパラメータ記録部１０１は、最大エントロピーモデルＭＥｚの素性関数とその重みパラメータを記録する。誤り原因条件付確率計算部７３′は、モデルパラメータ記録部１０１に記録されている素性関数ｆ_ｋ ^ｚ（ｘ^→，ｚ^→）と重みパラメータλ_ｋ ^ｚを参照して誤り原因ラベルベクトルｚ^→毎に、誤り条件付確率Ｐ_ＭＥＺ（ｚ^→｜ｘ^→）を計算する。

誤り原因選択部７４′は、誤り条件付確率Ｐ_ＭＥＺ（ｚ^→｜ｘ^→）が最大の誤り原因の推定値ｚ^→＾を選択して、誤り条件付確率Ｐ_ＭＥＺ（ｚ^→｜ｘ^→）と共に出力する。なお、音声認識結果の正解の確率が高い場合に、誤り原因条件付確率計算部７３′と、誤り原因選択部７４′の動作を停止させるのは、正誤・誤り原因推定部７０と同じである。

次に正誤推定の精度をより向上させることが可能な実施例３について説明する。

図１１に実施例３の正誤・誤り原因推定部１１０の機能構成例を示す。その動作フローを図１２に示す。正誤・誤り原因推定部１１０は、正誤・誤り原因条件付確率計算部４１′、モデルパラメータ記録部４２′、誤り原因選択部７４、正誤条件付確率再計算部１１１、正誤再選択部１１２、誤り原因‐正誤関係情報記録部１１３、を備える。正誤・誤り原因条件付確率計算部４１′とモデルパラメータ記録部４２′とは、変形例１（図６）の正誤・誤り原因推定部４０′と同じものである。誤り原因選択部７４は、実施例２（図７）の正誤・誤り原因推定部７０と同じである。

誤り原因‐正誤関係情報記録部１１３は、個々の正誤・誤り原因ラベルｙ_ｉに対応する認識誤り原因と、その認識誤り原因による正解不正解との関係を表す誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_ｉ＝ｓ），ｉ＝０，１，２，３，ｊ＝０，１，ｓ＝０，１を記録する。誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_ｉ＝ｓ）は、事前の学習によって求められるものである。

誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_ｉ＝ｓ），ｊ＝０，１，ｓ＝０，１を、例えば雑音の誤り原因ラベルｙ_２で説明する。雑音なしｙ_２＝０であるときに認識結果が正解ｙ_０＝０である確率Ｐ_Ｒ（ｙ_０＝０｜ｙ_２＝０）、雑音なしｙ_２＝０であるときに認識結果が不正解ｙ_０＝１である確率Ｐ_Ｒ（ｙ_０＝１｜ｙ_２＝０）、雑音ありｙ_２＝１であるときに認識結果が正解ｙ_０＝０である確率Ｐ_Ｒ（ｙ_０＝０｜ｙ_２＝１），雑音ありｙ_２＝１であるときに認識結果が不正解ｙ_０＝１である確率Ｐ_Ｒ（ｙ_０＝１｜ｙ_２＝１）。これらが雑音のなし／ありと正解不正解の関係を表す誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_２＝ｓ），ｊ＝０，１，ｓ＝０，１である。

正誤条件付確率再計算部１１１は、誤り原因‐正誤関係情報記録部１１３に記録された誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_ｉ＝ｓ），ｉ＝０，１，２，３，ｊ＝０，１，ｓ＝０，１を用いて式（６）で正誤・誤り原因条件付確率計算部４１′が出力する正解不正解の確からしさを表す条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→），ｊ＝０，１を、補正した条件付確率Ｐ（ｙ_０＝ｊ｜ｘ^→），ｊ＝０，１を出力する（ステップＳ１１１、図１２）。

正誤再選択部１１２は、補正された条件付確率Ｐ（ｙ_０＝ｊ｜ｘ^→），ｊ＝０，１を入力として、式（７）に示すように正解か不正解を選択し、その選択結果である正誤判定結果ｙ_０＾とともにその補正された条件付確率値Ｐ（ｙ_０＝ｙ_０＾｜ｘ^→）を出力する（ステップＳ１１２）。

このように新たな知識である誤り原因‐正誤関係情報確率Ｐ_Ｒ（ｙ_０＝ｊ｜ｙ_ｉ＝ｓ）を導入することで、正誤判定の精度を向上させることが可能である。一方、誤り原因選択部７４からは、図７に示す実施例２と同様に、誤り原因の推定値ｚ^→＾＝（ｙ_１＾，ｙ_２＾，ｙ_３＾）とその確からしさΠ_ｉ＝１ ^３Ｐ_ＭＥｉ（ｙ_ｉ＝ｙ_ｉ＾｜ｘ^→）を出力する。なお、正誤・誤り原因推定部１１０の正誤・誤り原因条件付確率計算部４１′と、誤り原因選択部７４と、正誤・誤り原因ラベルベクトル記録部４４と、モデルパラメータ記録部４２′とについては、その部分を正誤・誤り原因推定部７０若しくは正誤・誤り原因推定部７０′に置き換えても良い。その場合、正誤条件付確率再計算部１１１には正誤条件付確率計算部７１の出力する条件付確率Ｐ_ＭＥ０（ｙ_０＝ｊ｜ｘ^→）が入力される。

以上説明したこの発明の音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。また、例えば、最大エントロピーモデルに代わる識別モデルとして、サポートベクトルマシン（ＳＶＭ：Support Vector Machine）や、条件付確率場（ＣＲＦ：Conditional Random Fields）を用いることも可能である。

上記した装置では、正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を出力するので、使用者はその推定値ｙ^→＾を確認することでどのように対処すべきかを知ることができる。その利便性を更に向上させた音声認識装置１３０も考えられる。音声認識装置１３０は、正誤・誤り原因ラベルベクトルの推定値ｙ^→＾から正誤・誤り原因メッセージを生成するようにしたものである。その機能構成例を図１３に示す。音声認識装置１３０は、正誤・誤り原因推定部４０の出力する正誤・誤り原因ラベルベクトルの推定値ｙ^→＾を入力として正誤・誤り原因メッセージを生成する正誤・誤り原因メッセージ生成部１３１を備える。正誤・誤り原因メッセージ生成部１３１は、正誤・誤り原因ラベルベクトルの推定値ｙ^→＾に対応させたメッセージを出力するものであり、例えば、図１８に示したように、使用者により分かり易い対処方法を提示することを可能にする。図１４に正誤・誤り原因ラベルベクトルの推定値ｙ^→＾に対応する正誤・誤り原因メッセージの例を示す。この図に示すように、メッセージは必ずしも音声認識結果が不正解と推定された場合（ｙ^→＾の取り得る値＝８，９，１０，１１，１２，１３，１４，１５）のみに出力するのではなく、場合によっては、音声認識結果が正解と推定された場合（ｙ^→＾の取り得る値＝１，２，３）に出力して、使用者に正しい使用方法を提示することも可能である。

上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ
（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ
（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルと、を出力する音声認識部と、
上記各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する正誤・誤り原因推定部と、
を備える音声認識装置。
請求項１に記載した音声認識装置において、
上記正誤・誤り原因推定部は、
上記発話特徴量ベクトルと正誤・誤り原因ラベルベクトルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
上記各単語の発話特徴量ベクトルを入力として、予め設定された上記正誤・誤り原因ラベルベクトルの取り得る値毎に、上記識別モデルに基づく条件付確率を上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
上記条件付確率が最大になる正解不正解と誤り原因の推定値を、上記正誤・誤り原因ラベルベクトルの取り得る値から選択し、選択結果である正解不正解と誤り原因の推定値を、その確からしさを表す条件付確率とともに出力する、正誤・誤り原因選択部と、
を具備することを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記正誤・誤り原因推定部は、
上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
上記正誤・誤り原因ラベル毎に条件付確率が最大になるように正誤・誤り原因ラベルの取り得る二値のうちのいずれかを選択して正解不正解と誤り原因の推定値とし、それとともに正誤・誤り原因ラベル毎の大きな方の条件付確率値の積を、正解不正解と誤り原因の推定値の確からしさとして出力する正誤・誤り原因選択部と、
を具備することを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記正誤・誤り原因推定部は、
上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算部と、
上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定部と、
上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
上記各単語の発話特徴量ベクトルを入力として、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する誤り原因条件付確率計算部と、
上記誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択部と、
を備え、
上記正誤判定部が音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算部と、誤り原因選択部とが動作することを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記正誤・誤り原因推定部は、
上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算部と、
上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定部と、
上記発話特徴量ベクトルと、正誤・誤り原因ラベルベクトルから、その正誤・誤り原因ラベルベクトルの要素である正解不正解に関する正誤ラベルを除いた誤り原因ラベルベクトルとの関係を表す識別モデルに基づく条件付確率を計算するのに必要な、モデルパラメータを記録したモデルパラメータ記録部と、
上記各単語の発話特徴量ベクトルを入力として、誤り原因ラベルベクトル毎の上記識別モデルに基づく誤り条件付確率を、上記モデルパラメータを用いて計算する誤り原因条件付確率計算部と、
上記誤り条件付確率が最大の誤り原因ラベルベクトルの推定値を選択して、誤り条件付確率と共に出力する誤り原因選択部と、
を備え、
上記正誤判定部が音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算部と、誤り原因選択部とが動作することを特徴とする音声認識装置。
請求項１に記載した音声認識装置において、
上記正誤・誤り原因推定部は、
上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択部と、
上記正誤・誤り原因ラベルの取り得る値と、正解不正解との関係を表す誤り原因−正誤関係情報確率を記録した誤り原因‐正誤関係情報記録部と、
上記正誤・誤り原因条件付確率計算部が出力する正誤・誤り原因ラベル毎の条件付確率に、正誤・誤り原因ラベルの取り得る値で対応する上記誤り原因‐正誤関係情報確率を乗算して、正解と不正解それぞれの場合について条件付確率を補正する正誤条件付確率再計算部と、
上記補正された条件付確率を入力として、正解か不正解を選択し、その選択結果である正誤判定結果とともにその補正された条件付確率値を出力する正誤再選択部と、
を具備することを特徴とする音声認識装置。
請求項２乃至６の何れかに記載した音声認識装置において、
上記正誤・誤り原因ラベルベクトル若しくは誤り原因ラベルベクトルを入力として、それらラベルベクトルに対応した正誤・誤り原因メッセージを生成する正誤・誤り原因メッセージ生成部を、更に備えることを特徴とする音声認識装置。
請求項１乃至７の何れかに記載した音声認識装置において、
上記識別モデルは、最大エントロピーモデルであることを特徴とする音声認識装置。
音声認識部が、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルと、を出力する音声認識過程と、
正誤・誤り原因推定部が、上記各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する正誤・誤り原因推定過程と、
を含む音声認識方法。
請求項９に記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、予め設定された上記正誤・誤り原因ラベルベクトルの取り得る値毎に、上記識別モデルに基づく条件付確率をモデルパラメータ記録部に記録されたモデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
正誤・誤り原因選択部が、上記条件付確率が最大になる正解不正解と誤り原因の推定値を、上記正誤・誤り原因ラベルベクトルの取り得る値から選択し、選択結果である正解不正解と誤り原因の推定値を、その確からしさを表す条件付確率とともに出力する正誤・誤り原因選択ステップと、
を含むことを特徴とする音声認識方法。
請求項９に記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
正誤・誤り原因選択部が、上記正誤・誤り原因ラベル毎に条件付確率が最大になるように正誤・誤り原因ラベルの取り得る二値のうちのいずれかを選択して正解不正解と誤り原因の推定値とし、それとともに正誤・誤り原因ラベル毎の大きな方の条件付確率値の積を、正解不正解と誤り原因の推定値の確からしさとして出力する正誤・誤り原因選択ステップと、
を含むことを特徴とする音声認識方法。
請求項９に記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
正誤条件付確率計算部が、上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算ステップと、
正誤判定部が、上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定ステップと、
誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の上記識別モデルに基づく条件付確率を、モデルパラメータ記録部に記録されたモデルパラメータを用いて計算する誤り原因条件付確率計算ステップと、
誤り原因選択部が、上記誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択ステップと、
を含み、
上記正誤判定ステップが音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算ステップと、誤り原因選択ステップとが動作することを特徴とする音声認識方法。
請求項９に記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
正誤条件付確率計算部が、上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算ステップと、
正誤判定部が、上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定ステップと、
誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、誤り原因ラベルベクトル毎の上記識別モデルに基づく誤り条件付確率を、モデルパラメータ記録部に記録されたモデルパラメータを用いて計算する誤り原因条件付確率計算ステップと、
誤り原因選択部が、上記誤り条件付確率が最大の誤り原因の推定値を選択して、誤り条件付確率と共に出力する誤り原因選択ステップと、
を含み、
上記正誤判定ステップが音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算ステップと、誤り原因選択ステップとが動作することを特徴とする音声認識方法。
請求項９に記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
誤り原因選択部が、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択ステップと、
正誤条件付確率再計算部が、上記正誤・誤り原因条件付確率計算部が出力する正誤・誤り原因ラベル毎の条件付確率に、正誤・誤り原因ラベルの取り得る値で対応する誤り原因‐正誤関係情報記録部に記録された誤り原因‐正誤関係情報確率を乗算して、正解と不正解それぞれの場合について条件付確率を補正する正誤条件付確率再計算ステップと、
正誤再選択部が、上記補正された条件付確率を入力として、正解か不正解を選択し、その選択結果である正誤判定結果とともにその補正された条件付確率値を出力する正誤再選択ステップと、
を含むことを特徴とする音声認識方法。
請求項１０乃至１４の何れかに記載した音声認識方法において、
上記正誤・誤り原因推定過程は、
上記正誤・誤り原因ラベルベクトル若しくは誤り原因ラベルベクトルを入力として、それらラベルベクトルに対応した正誤・誤り原因メッセージを生成する正誤。誤り原因メッセージ生成ステップを、更に含むことを特徴とする音声認識方法。
請求項９乃至１５の何れかに記載した音声認識方法において、
上記識別モデルは、最大エントロピーモデルであることを特徴とする音声認識方法。
請求項１乃至８の何れかに記載した音声認識装置としてコンピュータを機能させる装置プログラム。