JP2010210816A - 音声認識装置とその方法と、プログラム - Google Patents

音声認識装置とその方法と、プログラム Download PDF

Info

Publication number
JP2010210816A
JP2010210816A JP2009055519A JP2009055519A JP2010210816A JP 2010210816 A JP2010210816 A JP 2010210816A JP 2009055519 A JP2009055519 A JP 2009055519A JP 2009055519 A JP2009055519 A JP 2009055519A JP 2010210816 A JP2010210816 A JP 2010210816A
Authority
JP
Japan
Prior art keywords
correct
error
error cause
conditional probability
incorrect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009055519A
Other languages
English (en)
Other versions
JP4939560B2 (ja
Inventor
Atsunori Ogawa
厚徳 小川
Atsushi Nakamura
篤 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009055519A priority Critical patent/JP4939560B2/ja
Publication of JP2010210816A publication Critical patent/JP2010210816A/ja
Application granted granted Critical
Publication of JP4939560B2 publication Critical patent/JP4939560B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

【課題】音声認識装置を適切に使用できるようにする。
【解決手段】この発明の音声認識装置は、音声認識部と正誤・誤り原因推定部を備える。音声認識部は、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルとを出力する。正誤・誤り原因推定部は、音声認識結果である単語列中の各単語に対して、各単語の発話特徴量ベクトルを入力として各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する。
【選択図】図1

Description

この発明は、入力音声信号の音声認識結果が、どの程度信頼できるかを表す信頼度を推定するようにした音声認識装置と、その方法とプログラムに関する。
音声認識結果の信頼度(正解不正解とその確からしさ)を推定する音声認識装置としては、特許文献1に開示されたものが知られている。図15にその音声認識装置150の機能構成を示して動作を簡単に説明する。音声認識装置150は、記憶部4、発話分割部5、音声認識部6、音響モデル格納部10、辞書・言語モデル格納部12、情報変換部20、信頼度付与部22、識別モデル格納部29、出力部26、を備える。
記憶部4は、入力端子2に入力される音声信号を離散値化したディジタル音声信号として記憶する。発話分割部5は、所定値以上継続する無音区間に挟まれたディジタル音声信号を一発話として分割する。音声認識部6は、音響分析部8と認識探索部7とから構成される。音響分析部8は、ディジタル音声信号を特徴量ベクトルの時系列に変換する。認識探索部7は、音響モデル格納部10と辞書・言語モデル格納部12に格納された音響モデルと言語モデルを用いて、辞書・言語モデル格納部12に登録されている単語列と特徴量ベクトルの時系列との照合を行い、照合尤度が最も高い単語列を認識結果として出力する。
音響分析部8における音声分析方法としてよく用いられるのは、ケプストラム分析であり、特徴量としてはMFCC(Mel Frequency Cepstral Coefficient)、ΔMFCC、ΔΔMFCC、対数パワー、Δ対数パワー等があり、これらが10〜100次元程度の特徴量ベクトルを構成する。分析フレーム幅は30ms程度、分析フレームシフト幅は10ms程度で分析が実行される。
音響モデルは、上記 MFCC等の音声の特徴量を音素等の適切なカテゴリでモデル化したものである。この音響モデルを用いて入力音声のフレーム毎の特徴量と各カテゴリのモデルとの音響的な近さが音響尤度として計算される。現在のモデル化の手法としては、確率・統計理論によるHMM(Hidden Markov Model)に基づくものが主流となっている。言語モデルの形式は、単語リスト、定型文法、N−gramモデルの三つに大別される。孤立単語発声を認識対象とする音声認識装置においては、認識対象の単語を列挙した単語リストが用いられる(単語リストは辞書・言語モデル格納部12に格納されている辞書と等価である)。定型的な文章発声を認識対象とする音声認識装置においては、辞書・言語モデル格納部12に登録されている単語を連結して、装置で受理する発話内容(文章)を記述した定型文法が用いられる。自由な連続発話を認識対象とする音声認識装置においては、辞書・言語モデル格納部12に登録されている単語のN連鎖確率を保持しているN−gramモデルが用いられ、これによりN連鎖以下の単語のつながり易さが言語尤度として計算される。以上のような音響モデル、言語モデルを用いた音声認識装置については、例えば非特許文献1と2に詳述されている。
情報変換部20は、単語列を構成する各単語について、例えば図16に示す様な発話特徴量ベクトルに変換する。発話特徴量ベクトルの各単語の品詞情報は、この例では37種類に分類される。品詞情報に付随する音響尤度スコアと言語尤度スコアと音素継続時間長は、この例ではそれぞれの平均値、分散値、最大値、最小値、が計算される。
信頼度付与部22は、発話特徴量ベクトルを評価して信頼度を付与する。信頼度の付与は、識別モデル格納部29に格納されている予め学習した発話特徴量ベクトルと音声認識率とを関連付けた値と、情報変換部20が出力する発話特徴量ベクトルとを対比することで行う。例えば、10%間隔の音声認識率に対応させた発話特徴量ベクトルを用意して置くことで、音声認識結果が100%信頼できるものか、或いは全く信頼できない信頼度の音声認識結果であるのかを、10%の間隔で信頼度を付与することができる。出力部26は、各発話単位毎に、単語系列と、各単語の発話特徴量ベクトルと、信頼度とを出力する。以上の様な音声認識結果に信頼度を付与する試みは、例えば非特許文献3にも開示されている。
特開2007−240589号公報
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、IT Text 音声認識システム、オーム社、pp. 1-51, 2001 安藤彰男、リアルタイム音声認識、(社)電子情報通信学会、pp. 1-58, pp. 125-170, 2003 H. Jiang, "Confidence measures for speech recognition: A survey," Speech Communication, vol. 45, pp. 455-470, 2005.
従来の音声認識結果に信頼度を付与して出力する音声認識装置によれば、信頼度を利用することで認識結果が正しい或いは間違っているという推定に基づく運用が実現できる。しかし、それだけでは解決できない課題が存在する。例えば、図17に示すように認識対象が男性話者に設定された音声認識装置に対して、女性話者が音声入力した場合を想定すると、音声が認識できないことが多い。そこで、信頼度を利用して女性話者に再発声を促すことはできると思われる。しかし、女性話者は再発声を要求された理由が不明である。その結果、ユーザが音声認識装置を満足に使いこなすことができない。
この発明はこの点に鑑みてなされたものであり、音声の認識誤りが生じた場合に、その誤り原因を利用者に提示することで、利用者に音声認識装置を適切に使用させるように促すことができる音声認識装置とその方法と、プログラムを提供することを目的とする。
この発明の音声認識装置は、音声認識部と正誤・誤り原因推定部を備える。音声認識部は、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルとを出力する。正誤・誤り原因推定部は、各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する。
この発明の音声認識装置は、音声認識結果の誤認識が推定された場合に、その誤り原因を推定する。その推定した誤り原因を提示することで、利用者に音声認識装置の適切な使用方法を促すことができる。その推定した誤り原因を用いることで、例えば上記したように認識音声の種別が異なっている場合でも、図18に示すように「すみません。今、男性の声を認識する設定になっています。女性認識用ボタンを押して下さい。」と、メッセージを表示することが可能である。よって、利用者は音声認識装置を適切に使用することができる。
この発明の音声認識装置100の機能構成例を示す図。 音声認識装置100の動作フローを示す図。 正誤・誤り原因推定部40の機能構成例を示す図。 正誤・誤り原因推定部40の動作フローを示す図。 正誤・誤り原因ラベルベクトルyの取り得る値の一例を示す図。 正誤・誤り原因推定部40′の機能構成例を示す図。 正誤・誤り原因推定部70の機能構成例を示す図。 正誤・誤り原因推定部70の動作フローを示す図。 誤り原因ラベルベクトルzの取り得る値の一例を示す図。 正誤・誤り原因推定部70′の機能構成例を示す図。 正誤・誤り原因推定部110の機能構成例を示す図。 正誤・誤り原因推定部110の動作フローを示す図。 この発明の音声認識装置130の機能構成例を示す図。 正誤・誤り原因メッセージの一例を示す図。 特許文献1の音声認識装置150の機能構成を示す図。 発話特徴量ベクトルxの一例を示す図。 従来の音声認識の状況の一例を示す図。 この発明の音声認識装置を用いた音声認識の状況の一例を示す図。
以下に、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は省略する。
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、音声認識部30、正誤・誤り原因推定部40、を備える。音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部30は、入力端子2に入力される音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルx(→は図中の表記が正しい)と、を出力する(ステップS30)。音声認識部30は、従来技術で説明した音声認識装置150の記録部4から情報変換部20までの構成を含むものである。各単語の発話特徴量ベクトルxも、例えば音響尤度スコアや言語尤度スコアから成る図16に示したようなベクトルである。正誤・誤り原因推定部40は、各単語の発話特徴量ベクトルxを入力としてその発話特徴量ベクトルxからその単語の正解不正解と誤り原因の推定値y^と、その確からしさを推定する(ステップS40)。音声認識装置100は、音声認識結果である単語列中の各単語の正解不正解と誤り原因の推定値y^とその確からしさの他に、図示していないが当然、音声認識した単語列も出力する。
このように音声認識装置100は、認識結果の正解不正解に加えて誤り原因も推定するので、利用者はどのような原因で音声認識装置100が動作しないのかを知ることができる。その結果、音声認識装置100の適切な使用を可能にする。図3にこの発明の要部である正誤・誤り原因推定部40の機能構成例を示して更に詳しく説明する。
なお、以下の説明では、音声認識装置は孤立単語音声認識装置であり、静かな場所における男性の声で、日本の地名発声を認識する場合を想定する(図17参照)。
正誤・誤り原因推定部40は、正誤・誤り原因条件付確率計算部41、モデルパラメータ記録部42、正誤・誤り原因選択部43、を具備する。モデルパラメータ記録部42は、発話特徴量ベクトルxと正誤・誤り原因ラベルベクトルyとの関係を表す識別モデルに基づく条件付確率を計算するのに必要なモデルパラメータを記録する。正誤・誤り原因条件付確率計算部41は、音声認識部30が出力する各単語の発話特徴量ベクトルxを入力として、識別モデルの一種である最大エントロピーモデル(MEM:Maximum Entropy Model)に基づく条件付確率を、予め設定された正誤・誤り原因ラベルベクトルyの取り得る値毎に、モデルパラメータ記録部42に記録されている、素性関数f(x,y)とその重みパラメータλと(これらが最大エントロピーモデルのモデルパラメータである)、を用いて計算する(ステップS41、図4)。最大エントロピーモデルは識別モデルの一例であり、最近の信頼度推定手法に用いられるものである。
正誤・誤り原因ラベルベクトルyとは、一つの正誤ラベルyと一つ以上の誤り原因ラベルyi,i≧1を各次元に持つベクトルである。正誤ラベルと誤り原因ラベルを合わせて正誤・誤り原因ラベルyi,i≧0と呼ぶ。正誤・誤り原因ラベルyiは、例えば表1に示すようなものである。
正解不正解を表す正誤・誤り原因ラベル(正誤ラベル)yは、発話特徴量ベクトルxから最大エントロピーモデルに基づいて推定された2値の情報である。y=0が正解、y=1が不正解を表す。正誤・誤り原因ラベル(誤り原因ラベル)yは、語彙内(y=0)か、語彙外(y=1)かを表す。正誤・誤り原因ラベル(誤り原因ラベル)yは、雑音なし(y=0)か、雑音あり(y=1)かを表す。正誤・誤り原因ラベル(誤り原因ラベル)yは、男性(y=0)か、女性(y=1)かを表す。
正誤・誤り原因ラベルとしては、表1に示す4種類の他にも、例えば、音量が適切であるか/適切でないか、使用者の年齢層が音声認識装置が想定しているものに一致しているか/一致していないか(成人を使用者として想定する音声認識装置の場合、子供や高齢者は想定外の使用者である)、などを挙げることができる。ここでは煩雑さを避けるために、表1に示す4種類に限定して説明を行う。
表1の例では、正誤・誤り原因ラベルの数が4個なので、正誤・誤り原因ラベルベクトルyの取り得る値は2=16状態に場合分けすることができ、それぞれをベクトル表記yできる。但し、y=(y,y,y,y)=(0,1,0,0)の「語彙外だけど認識できた」等は、ありえない組み合わせである。これらの存在しない組み合わせを考慮すると、正誤・誤り原因ラベルベクトルyの取り得る値は、図5に示すように12状態である。
最大エントロピーモデルに基づく正誤・誤り原因推定では、例えばこれら12状態の正誤・誤り原因ラベルベクトルyと、発話特徴量ベクトルxとの関係を、予め学習データを用いて学習しておく。まず、発話特徴量ベクトルxと正誤・誤り原因ラベルベクトルyの関係を表すK種類(100〜100万種類程度)の素性関数f(x,y), k=1,2,..,Kを用意する。そして、各素性関数f(x,y)の重みパラメータλを、例えば準ニュートン法により学習して推定する。これらの素性関数f(x,y)と重みパラメータλは、モデルパラメータ記録部42に予め記録されている。
正誤・誤り原因条件付確率計算部41は、発話特徴量ベクトルxを入力として、モデルパラメータ記録部42に記録されている素性関数f(x,y)と重みパラメータλを参照して式(1)に示す正誤・誤り原因条件付確率PME(y|x)を計算する。
正誤・誤り原因条件付確率PME(y|x)は、この例では12個ある正誤・誤り原因ラベルベクトルy毎に計算される。これらの値は、0〜1の確率値である(全ての正誤・誤り原因ラベルベクトルy(この例では12個)についてその条件付確率を足すと1.0になる。すなわち、Σy→ME(y|x)=1.0である)。例えば、正誤・誤り原因ラベルベクトルy=(y,y,y,y)=(1,0,1,0)「雑音が乗っていたので不正解」の正誤・誤り原因条件付確率PME(y=(1,0,1,0)|x)の値が大きければ、雑音が多くて誤認識している可能性が高いことを意味する。
このように正誤・誤り原因条件付確率PME(y|x)は、正誤・誤り原因ラベルベクトルy、つまり音声認識結果の正解不正解と誤り原因の推定値の確からしさを示す値である。なお、正誤・誤り原因ラベルベクトルyは、図3に示すように正誤・誤り原因条件付確率計算部41の外部に正誤・誤り原因ラベルベクトル記録部44を設け、そこに記録して置き、正誤・誤り原因条件付確率計算部41がそれを参照するようにしても良い。
正誤・誤り原因選択部43は、正誤・誤り原因条件付確率PME(y|x)を入力として、式(2)に示すように正誤・誤り原因条件付確率PME(y|x)を最大にする正誤・誤り原因ラベルベクトルの推定値y^を、この例では図5に示す12個の組み合わせから選択する(ステップS43)。
式(2)によって、例えば、図5に示す「女性なので不正解」y^=(1,0,0,1)が選択される。
このように音声認識装置100によれば、音声認識結果の正解不正解と誤り原因の推定値y^と、その確からしさPME(y^|x)を推定することが可能である。なお、音声認識装置100を孤立単語音声認識装置として説明したが、この実施例1の考えは他の定型文音声認識や連続音声認識にも適用が可能である。以降の変形例や実施例でも同様である。
〔変形例1〕
実施例1では、一つの最大エントロピーモデルMEを用いて正誤・誤り原因ラベルベクトルyの取り得る値毎に正誤・誤り原因条件付確率PME(y|x)を求めたが、正誤・誤り原因ラベルy,i=0,1,2,3に独立性があると仮定して、正誤・誤り原因ラベルy毎に専用の最大エントロピーモデルME,i=0,1,2,3を準備して、各正誤・誤り原因ラベルyの取り得る値(y=0または1)毎に条件付確率PMEi(y=j|x),j=0,1を求め、それらから、正誤・誤り原因ラベルベクトルの推定値y^を求めても良い。図6にその方法の正誤・誤り原因推定部40′の機能構成例を示す。
正誤・誤り原因推定部40′は、正誤・誤り原因条件付確率計算部41′と、モデルパラメータ記録部42′と、正誤・誤り原因選択部43′を備える。正誤・誤り原因条件付確率計算部41′は、正誤・誤り原因ラベルy毎に専用の最大エントロピーモデルMEを用いて、各正誤・誤り原因ラベルyの取り得る値(0か1)毎に条件付確率PMEi(y=j|x),j=0,1を式(3)の計算で求める。
モデルパラメータ記録部42′は、最大エントロピーモデルMEにおける発話特徴量ベクトルxと正誤・誤り原因ラベルyの関係を表す素性関数f (x,y)(式(3))を記録する。素性関数f (x,y)は、K種類(100〜100万種類程度)定義する(f (x,y), k=1,2,..,K)。また、λ は、素性関数f (x,y)の重みパラメータである。最大エントロピーモデルME毎に異なる学習データを用いて、例えば準ニュートン法により、λ を学習して推定する。また、最大エントロピーモデルME毎に異なる素性関数をf (x,y), k=1,2,..,Kを定義しないで、共通の素性関数を用いてもよい。例えば、全ての最大エントロピーモデルME,i=0,1,2,3について、共通の素性関数f(x,y), k=1,2,..,Kを用いてもよい。
正誤・誤り原因推定部40′は、表1に示した正誤・誤り原因ラベルy,i=0,1,2,3毎に専用の最大エントロピーモデルMEを用いて、各ラベルyの取り得る値(y=0または1)毎に、条件付確率PME0(y=j|x),PME1(y=j|x),PME2(y=j|x),PME3(y=j|x),j=0,1を求める。
正誤・誤り原因選択部43′は、それら6個の条件付確率を入力として式(4)の計算で正誤・誤り原因ラベルベクトルの推定値y^を求める。
等号で結ばれた式(4)の中央の項のy^は、右側の項に示す通り、0か1の何れかであり、条件付確率PMEi(y=j|x),j=0,1で大きな方の値を与えるjである。Tは行列の転置を表す。正誤・誤り原因選択部43′は、正誤・誤り原因ラベルベクトルの推定値y^の条件付確率P(y^|x)(確からしさ)を、式(5)に示すように正誤・誤り原因ラベルy毎の条件付確率の積で求める。
この正誤・誤り原因ラベルy間に独立性があると仮定して正誤・誤り原因ラベルベクトルの推定値y^を求める方法では、実施例1ではありえない組み合わせとして説明した正誤・誤り原因ラベルベクトルの取り得る値、例えばy=(0,1,0,0)等を推定値としてしまう場合も考えられる。これらのありえない推定値y^については、ソフトウェアやハードウェアで容易に出力を禁止することが可能である。又、後述する一度正誤・誤り条件付確率PMEi(y=j|x)を求めた後に、改めて正誤を推定し直す方法(実施例3)と組み合わせることで、ありえない推定値y^の出力を抑制する方法も考えられる。何れにしろ容易に解決できる。
この正誤・誤り原因ラベルy間に独立性を仮定して正誤・誤り原因ラベルベクトルの推定値y^を推定する方法は、正誤・誤り原因ラベルy個々について、専用の最大エントロピーモデルMEを用いて条件付確率を求めるので、実施例1の方法よりも精度良く正誤・誤り原因ラベルベクトルを推定できる。
実施例1及びその変形例1は、音声認識部30の出力する発話特徴量ベクトルxに対して常に正解不正解と誤り原因を推定するものである。しかし、音声認識装置100が適切に使用されて音声の認識率が高い場合において常に正解不正解や誤り原因を推定することは、計算負荷の増加を招き無駄である。そこで、発話特徴量ベクトルxから誤認識の可能性が疑われる場合だけ、誤り原因を推定するようにした実施例2を次に説明する。
実施例2の正誤・誤り原因推定部70の機能構成例を図7に示す。その動作フローを図8に示す。正誤・誤り原因推定部70は、正誤条件付確率計算部71、正誤判定部72、誤り原因条件付確率計算部73、誤り原因選択部74、モデルパラメータ記録部42′を備える。モデルパラメータ記録部42′は、図6に示す変形例1と同じものである。
正誤条件付確率計算部71は、発話特徴量ベクトルxから音声認識の結果の正解及び不正解それぞれの条件付確率PME0(y=j|x)のみを計算する(ステップS71)。この正解及び不正解の条件付確率の計算は、図6の正誤・誤り原因条件付確率計算部41′において、正解及び不正解の条件付確率を求めるための専用の最大エントロピーモデルMEを用いて、条件付確率PME0(y=j|x),j=0,1のみを求める。また、この条件付確率PME0(y=j|x)に替えて、例えば、非特許文献3に開示されているような、従来の他の推定手法による信頼度(正誤判定とその確からしさ)を用いてもよい。
正誤判定部72は、正誤条件付確率計算部71で求めた正解及び不正解の条件付確率PME0(y=j|x),j=0,1と閾値THを用いて正誤判定を行う。正解である条件付確率PME0(y=0|x)が不正解である条件付確率PME0(y=1|x)よりも大きく、かつ、正解である条件付確率PME0(y=0|x)が予め設定した閾値THよりも大の場合(ステップS72のY)は、音声認識結果の正解の確率が高いとして、誤り原因条件付確率計算ステップ(ステップS73)と誤り原因選択ステップ(ステップS74)とを省略する。つまり、誤り原因条件付確率計算部73と、誤り原因選択部74の動作を停止させる。このように音声の認識率が高い場合には、計算負荷を軽減することが可能である。逆に、不正解である条件付確率PME0(y=1|x)が正解である条件付確率PME0(y=1|x)以上である、または、正解である条件付確率PME0(y=0|x)があらかじめ設定した閾値TH以下の場合(ステップS74のN)は、音声認識結果の不正解の確率が高いとして、誤り原因条件付確率計算ステップ(ステップS73)と、誤り原因選択ステップ(ステップS74)が動作する。なお、正誤判定部72からは、正誤判定結果y=y^(正解(0)か不正解(1)か)とその確からしさPME0(y=y^|x)を出力する。
正誤判定部72において音声認識結果が不正解である可能性が高いと判定した場合は、誤り原因条件付確率計算部73と、誤り原因選択部74は動作し、誤り原因の推定を行う。この誤り原因の推定では、正誤判定部72から既に正誤判定結果とその確からしさを出力しているので、正解不正解の推定を行う必要がない。
そこで、誤り原因条件付確率計算部73と誤り原因選択部74では、正誤・誤り原因ラベルベクトルy=(y,y,y,y)から正解不正解に関する正誤ラベルyを除いた誤り原因ラベルベクトルz=(y,y,y)の取り得る値のうちから、誤り原因の推定値z^=(y^,y^,y^)とその確からしさΠi=1 MEi(y=y^|x)を求める。図9に誤り原因ラベルベクトルzの取り得る値を示す。この例では8状態である。誤り原因条件付確率計算部73と誤り原因選択部74では、誤り原因ラベルy,i=1,2,3間の独立性を仮定した上で、図6に示す変形例1の正誤・誤り原因条件付確率計算部41′と正誤・誤り原因選択部43′と同様の処理をそれぞれ実行して誤り原因の推定値z^とその確からしさΠi=1 MEi(y=y^|x)を求める。
例えば、語彙内か外かのラベルyについて、語彙内である条件付確率がPME1(y=0|x)=0.8で、語彙外である条件付確率がPME1(y=1|x)=0.2であるとする。つまり、Σj=0 ME1(y=j|x)=1.0である。y,yについても同じである。このとき、語彙内か語彙外かの推定値y^としては0(語彙内)が選ばれる。同様に、例えば、雑音に関するラベルyについて、雑音なしである条件付確率がPME2(y=0|x)=0.7で、雑音ありである条件付確率がPME2(y=1|x)=0.3であるとする。このとき、雑音なしか雑音ありかの推定値y^としては0(雑音なし)が選ばれる。同様に、例えば、性別に関するラベルyについて、男性(性別一致)である条件付確率がPME3(y=0|x)=0.1で、女性(性別不一致)である条件付確率がPME3(y=1|x)=0.9であるとする。このとき、男性か女性かの推定値y^としては1(女性)が選ばれる。以上のような各誤り原因ラベルy毎の選択結果を統合する(並べる)ことで、誤り原因の推定値z^としてz^=(y^,y^,y^)=(0,0,1)の「女性(性別不一致)」が求められ、その確からしさは、P(z^|x)=Πi=1 MEi(y=y^|x)=0.7×0.8×0.9=0.504と計算される。
このときの誤り原因ラベルy,i=1,2,3毎の専用の最大エントロピーモデルME,i=0,1,2,3としては、変形例1のものをそのまま用いることができる。ただし、その場合は正誤ラベルy0に対応する素性関数f (x,y)とその重みパラメータλ は用いない。なお、誤り原因ラベルベクトルzは、図7に示すように誤り原因条件付確率計算部73の外部に誤り原因ラベル記録部75を設け、そこに記録して置いても良い。
〔変形例2〕
また、最大エントロピーモデルMEzを用いて誤り原因条件付確率計算部73′と誤り原因選択部74′とで、誤り原因の推定値z^とその確からしさPMEz(z^|x)を求めても良い。最大エントロピーモデルMEzは、誤り原因ラベルベクトルzと、発話特徴量ベクトルxとの関係について、例えば準ニュートン法によって学習して推定したものである。
図10に最大エントロピーモデルMEzを用いた正誤・誤り原因推定部70′の機能構成例を示す。正誤・誤り原因推定部70′は、正誤条件付確率計算部71と、正誤判定部72と、誤り原因条件付確率計算部73′と、モデルパラメータ記録部101と、誤り原因選択部74′を備える。正誤条件付確率計算部71と正誤判定部72とは、図7の正誤・誤り原因推定部70と同じものである。
モデルパラメータ記録部101は、最大エントロピーモデルMEzの素性関数とその重みパラメータを記録する。誤り原因条件付確率計算部73′は、モデルパラメータ記録部101に記録されている素性関数f (x,z)と重みパラメータλ を参照して誤り原因ラベルベクトルz毎に、誤り条件付確率PMEZ(z|x)を計算する。
誤り原因選択部74′は、誤り条件付確率PMEZ(z|x)が最大の誤り原因の推定値z^を選択して、誤り条件付確率PMEZ(z|x)と共に出力する。なお、音声認識結果の正解の確率が高い場合に、誤り原因条件付確率計算部73′と、誤り原因選択部74′の動作を停止させるのは、正誤・誤り原因推定部70と同じである。
次に正誤推定の精度をより向上させることが可能な実施例3について説明する。
図11に実施例3の正誤・誤り原因推定部110の機能構成例を示す。その動作フローを図12に示す。正誤・誤り原因推定部110は、正誤・誤り原因条件付確率計算部41′、モデルパラメータ記録部42′、誤り原因選択部74、正誤条件付確率再計算部111、正誤再選択部112、誤り原因‐正誤関係情報記録部113、を備える。正誤・誤り原因条件付確率計算部41′とモデルパラメータ記録部42′とは、変形例1(図6)の正誤・誤り原因推定部40′と同じものである。誤り原因選択部74は、実施例2(図7)の正誤・誤り原因推定部70と同じである。
誤り原因‐正誤関係情報記録部113は、個々の正誤・誤り原因ラベルyに対応する認識誤り原因と、その認識誤り原因による正解不正解との関係を表す誤り原因‐正誤関係情報確率P(y=j|y=s),i=0,1,2,3,j=0,1,s=0,1を記録する。誤り原因‐正誤関係情報確率P(y=j|y=s)は、事前の学習によって求められるものである。
誤り原因‐正誤関係情報確率P(y=j|y=s),j=0,1,s=0,1を、例えば雑音の誤り原因ラベルyで説明する。雑音なしy=0であるときに認識結果が正解y=0である確率P(y=0|y=0)、雑音なしy=0であるときに認識結果が不正解y=1である確率P(y=1|y=0)、雑音ありy=1であるときに認識結果が正解y=0である確率P(y=0|y=1),雑音ありy=1であるときに認識結果が不正解y=1である確率P(y=1|y=1)。これらが雑音のなし/ありと正解不正解の関係を表す誤り原因‐正誤関係情報確率P(y=j|y=s),j=0,1,s=0,1である。
正誤条件付確率再計算部111は、誤り原因‐正誤関係情報記録部113に記録された誤り原因‐正誤関係情報確率P(y=j|y=s),i=0,1,2,3,j=0,1,s=0,1を用いて式(6)で正誤・誤り原因条件付確率計算部41′が出力する正解不正解の確からしさを表す条件付確率PME0(y=j|x),j=0,1を、補正した条件付確率P(y=j|x),j=0,1を出力する(ステップS111、図12)。
正誤再選択部112は、補正された条件付確率P(y=j|x),j=0,1を入力として、式(7)に示すように正解か不正解を選択し、その選択結果である正誤判定結果y^とともにその補正された条件付確率値P(y=y^|x)を出力する(ステップS112)。
このように新たな知識である誤り原因‐正誤関係情報確率P(y=j|y=s)を導入することで、正誤判定の精度を向上させることが可能である。一方、誤り原因選択部74からは、図7に示す実施例2と同様に、誤り原因の推定値z^=(y^,y^,y^)とその確からしさΠi=1 MEi(y=y^|x)を出力する。なお、正誤・誤り原因推定部110の正誤・誤り原因条件付確率計算部41′と、誤り原因選択部74と、正誤・誤り原因ラベルベクトル記録部44と、モデルパラメータ記録部42′とについては、その部分を正誤・誤り原因推定部70若しくは正誤・誤り原因推定部70′に置き換えても良い。その場合、正誤条件付確率再計算部111には正誤条件付確率計算部71の出力する条件付確率PME0(y=j|x)が入力される。
以上説明したこの発明の音声認識装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。また、例えば、最大エントロピーモデルに代わる識別モデルとして、サポートベクトルマシン(SVM:Support Vector Machine)や、条件付確率場(CRF:Conditional Random Fields)を用いることも可能である。
上記した装置では、正誤・誤り原因ラベルベクトルの推定値y^を出力するので、使用者はその推定値y^を確認することでどのように対処すべきかを知ることができる。その利便性を更に向上させた音声認識装置130も考えられる。音声認識装置130は、正誤・誤り原因ラベルベクトルの推定値y^から正誤・誤り原因メッセージを生成するようにしたものである。その機能構成例を図13に示す。音声認識装置130は、正誤・誤り原因推定部40の出力する正誤・誤り原因ラベルベクトルの推定値y^を入力として正誤・誤り原因メッセージを生成する正誤・誤り原因メッセージ生成部131を備える。正誤・誤り原因メッセージ生成部131は、正誤・誤り原因ラベルベクトルの推定値y^に対応させたメッセージを出力するものであり、例えば、図18に示したように、使用者により分かり易い対処方法を提示することを可能にする。図14に正誤・誤り原因ラベルベクトルの推定値y^に対応する正誤・誤り原因メッセージの例を示す。この図に示すように、メッセージは必ずしも音声認識結果が不正解と推定された場合(y^の取り得る値=8,9,10,11,12,13,14,15)のみに出力するのではなく、場合によっては、音声認識結果が正解と推定された場合(y^の取り得る値=1,2,3)に出力して、使用者に正しい使用方法を提示することも可能である。
上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM
(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R
(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (17)

  1. 入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルと、を出力する音声認識部と、
    上記各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する正誤・誤り原因推定部と、
    を備える音声認識装置。
  2. 請求項1に記載した音声認識装置において、
    上記正誤・誤り原因推定部は、
    上記発話特徴量ベクトルと正誤・誤り原因ラベルベクトルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
    上記各単語の発話特徴量ベクトルを入力として、予め設定された上記正誤・誤り原因ラベルベクトルの取り得る値毎に、上記識別モデルに基づく条件付確率を上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
    上記条件付確率が最大になる正解不正解と誤り原因の推定値を、上記正誤・誤り原因ラベルベクトルの取り得る値から選択し、選択結果である正解不正解と誤り原因の推定値を、その確からしさを表す条件付確率とともに出力する、正誤・誤り原因選択部と、
    を具備することを特徴とする音声認識装置。
  3. 請求項1に記載した音声認識装置において、
    上記正誤・誤り原因推定部は、
    上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
    上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
    上記正誤・誤り原因ラベル毎に条件付確率が最大になるように正誤・誤り原因ラベルの取り得る二値のうちのいずれかを選択して正解不正解と誤り原因の推定値とし、それとともに正誤・誤り原因ラベル毎の大きな方の条件付確率値の積を、正解不正解と誤り原因の推定値の確からしさとして出力する正誤・誤り原因選択部と、
    を具備することを特徴とする音声認識装置。
  4. 請求項1に記載した音声認識装置において、
    上記正誤・誤り原因推定部は、
    上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算部と、
    上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定部と、
    上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
    上記各単語の発話特徴量ベクトルを入力として、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する誤り原因条件付確率計算部と、
    上記誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択部と、
    を備え、
    上記正誤判定部が音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算部と、誤り原因選択部とが動作することを特徴とする音声認識装置。
  5. 請求項1に記載した音声認識装置において、
    上記正誤・誤り原因推定部は、
    上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算部と、
    上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定部と、
    上記発話特徴量ベクトルと、正誤・誤り原因ラベルベクトルから、その正誤・誤り原因ラベルベクトルの要素である正解不正解に関する正誤ラベルを除いた誤り原因ラベルベクトルとの関係を表す識別モデルに基づく条件付確率を計算するのに必要な、モデルパラメータを記録したモデルパラメータ記録部と、
    上記各単語の発話特徴量ベクトルを入力として、誤り原因ラベルベクトル毎の上記識別モデルに基づく誤り条件付確率を、上記モデルパラメータを用いて計算する誤り原因条件付確率計算部と、
    上記誤り条件付確率が最大の誤り原因ラベルベクトルの推定値を選択して、誤り条件付確率と共に出力する誤り原因選択部と、
    を備え、
    上記正誤判定部が音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算部と、誤り原因選択部とが動作することを特徴とする音声認識装置。
  6. 請求項1に記載した音声認識装置において、
    上記正誤・誤り原因推定部は、
    上記発話特徴量ベクトルと、上記の各正誤・誤り原因ラベルベクトルの要素である正誤・誤り原因ラベルとの関係を表す識別モデルに基づく条件付確率を、計算するのに必要なモデルパラメータを記録したモデルパラメータ記録部と、
    上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算部と、
    上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択部と、
    上記正誤・誤り原因ラベルの取り得る値と、正解不正解との関係を表す誤り原因−正誤関係情報確率を記録した誤り原因‐正誤関係情報記録部と、
    上記正誤・誤り原因条件付確率計算部が出力する正誤・誤り原因ラベル毎の条件付確率に、正誤・誤り原因ラベルの取り得る値で対応する上記誤り原因‐正誤関係情報確率を乗算して、正解と不正解それぞれの場合について条件付確率を補正する正誤条件付確率再計算部と、
    上記補正された条件付確率を入力として、正解か不正解を選択し、その選択結果である正誤判定結果とともにその補正された条件付確率値を出力する正誤再選択部と、
    を具備することを特徴とする音声認識装置。
  7. 請求項2乃至6の何れかに記載した音声認識装置において、
    上記正誤・誤り原因ラベルベクトル若しくは誤り原因ラベルベクトルを入力として、それらラベルベクトルに対応した正誤・誤り原因メッセージを生成する正誤・誤り原因メッセージ生成部を、更に備えることを特徴とする音声認識装置。
  8. 請求項1乃至7の何れかに記載した音声認識装置において、
    上記識別モデルは、最大エントロピーモデルであることを特徴とする音声認識装置。
  9. 音声認識部が、入力音声を音声認識した単語列と、その単語列を構成する各単語の特徴量を複数のパラメータで表した各単語の発話特徴量ベクトルと、を出力する音声認識過程と、
    正誤・誤り原因推定部が、上記各単語の発話特徴量ベクトルを入力として、その各単語の正解不正解と誤り原因の推定値及びその確からしさを、上記発話特徴量ベクトルと音声認識結果単語の正解不正解及び誤り原因との関係を表す識別モデルに基づく条件付確率を用いて推定する正誤・誤り原因推定過程と、
    を含む音声認識方法。
  10. 請求項9に記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、予め設定された上記正誤・誤り原因ラベルベクトルの取り得る値毎に、上記識別モデルに基づく条件付確率をモデルパラメータ記録部に記録されたモデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
    正誤・誤り原因選択部が、上記条件付確率が最大になる正解不正解と誤り原因の推定値を、上記正誤・誤り原因ラベルベクトルの取り得る値から選択し、選択結果である正解不正解と誤り原因の推定値を、その確からしさを表す条件付確率とともに出力する正誤・誤り原因選択ステップと、
    を含むことを特徴とする音声認識方法。
  11. 請求項9に記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
    正誤・誤り原因選択部が、上記正誤・誤り原因ラベル毎に条件付確率が最大になるように正誤・誤り原因ラベルの取り得る二値のうちのいずれかを選択して正解不正解と誤り原因の推定値とし、それとともに正誤・誤り原因ラベル毎の大きな方の条件付確率値の積を、正解不正解と誤り原因の推定値の確からしさとして出力する正誤・誤り原因選択ステップと、
    を含むことを特徴とする音声認識方法。
  12. 請求項9に記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    正誤条件付確率計算部が、上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算ステップと、
    正誤判定部が、上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定ステップと、
    誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の上記識別モデルに基づく条件付確率を、モデルパラメータ記録部に記録されたモデルパラメータを用いて計算する誤り原因条件付確率計算ステップと、
    誤り原因選択部が、上記誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択ステップと、
    を含み、
    上記正誤判定ステップが音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算ステップと、誤り原因選択ステップとが動作することを特徴とする音声認識方法。
  13. 請求項9に記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    正誤条件付確率計算部が、上記各単語の発話特徴量ベクトルからその各単語が正解か否かについての正誤条件付確率を計算する正誤条件付確率計算ステップと、
    正誤判定部が、上記正誤条件付確率から上記単語の正誤を、正解である条件付確率と不正解である条件付確率との比較、及び、正解である条件付確率と所定の閾値との比較で判定し、その判定結果である正解または不正解とその確からしさを出力する正誤判定ステップと、
    誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、誤り原因ラベルベクトル毎の上記識別モデルに基づく誤り条件付確率を、モデルパラメータ記録部に記録されたモデルパラメータを用いて計算する誤り原因条件付確率計算ステップと、
    誤り原因選択部が、上記誤り条件付確率が最大の誤り原因の推定値を選択して、誤り条件付確率と共に出力する誤り原因選択ステップと、
    を含み、
    上記正誤判定ステップが音声認識した単語を誤りと判定した時に、上記誤り原因条件付確率計算ステップと、誤り原因選択ステップとが動作することを特徴とする音声認識方法。
  14. 請求項9に記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    正誤・誤り原因条件付確率計算部が、上記各単語の発話特徴量ベクトルを入力として、正誤・誤り原因ラベル毎に上記識別モデルに基づく条件付確率を、上記モデルパラメータを用いて計算する正誤・誤り原因条件付確率計算ステップと、
    誤り原因選択部が、上記正誤・誤り原因ラベルベクトルから正解不正解に関する正誤ラベルを除いたベクトルである誤り原因ラベルベクトルの各要素の誤り原因ラベル毎の条件付確率値が大きい方の誤り原因ラベルの取り得る値を選択して誤り原因の推定値とし、上記値の大きな条件付確率値の積を、誤り原因の推定値の確からしさとして出力する誤り原因選択ステップと、
    正誤条件付確率再計算部が、上記正誤・誤り原因条件付確率計算部が出力する正誤・誤り原因ラベル毎の条件付確率に、正誤・誤り原因ラベルの取り得る値で対応する誤り原因‐正誤関係情報記録部に記録された誤り原因‐正誤関係情報確率を乗算して、正解と不正解それぞれの場合について条件付確率を補正する正誤条件付確率再計算ステップと、
    正誤再選択部が、上記補正された条件付確率を入力として、正解か不正解を選択し、その選択結果である正誤判定結果とともにその補正された条件付確率値を出力する正誤再選択ステップと、
    を含むことを特徴とする音声認識方法。
  15. 請求項10乃至14の何れかに記載した音声認識方法において、
    上記正誤・誤り原因推定過程は、
    上記正誤・誤り原因ラベルベクトル若しくは誤り原因ラベルベクトルを入力として、それらラベルベクトルに対応した正誤・誤り原因メッセージを生成する正誤。誤り原因メッセージ生成ステップを、更に含むことを特徴とする音声認識方法。
  16. 請求項9乃至15の何れかに記載した音声認識方法において、
    上記識別モデルは、最大エントロピーモデルであることを特徴とする音声認識方法。
  17. 請求項1乃至8の何れかに記載した音声認識装置としてコンピュータを機能させる装置プログラム。
JP2009055519A 2009-03-09 2009-03-09 音声認識装置とその方法と、プログラム Active JP4939560B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009055519A JP4939560B2 (ja) 2009-03-09 2009-03-09 音声認識装置とその方法と、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009055519A JP4939560B2 (ja) 2009-03-09 2009-03-09 音声認識装置とその方法と、プログラム

Publications (2)

Publication Number Publication Date
JP2010210816A true JP2010210816A (ja) 2010-09-24
JP4939560B2 JP4939560B2 (ja) 2012-05-30

Family

ID=42971071

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009055519A Active JP4939560B2 (ja) 2009-03-09 2009-03-09 音声認識装置とその方法と、プログラム

Country Status (1)

Country Link
JP (1) JP4939560B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750373A (zh) * 2012-06-20 2012-10-24 段起阳 一种基于概率分布的数据关联方法
WO2019156101A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
WO2022155842A1 (en) * 2021-01-21 2022-07-28 Alibaba Group Holding Limited Quality estimation for automatic speech recognition

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5400727B2 (ja) * 2010-08-24 2014-01-29 日本電信電話株式会社 音声認識装置とその方法とプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2007017911A (ja) * 2005-07-11 2007-01-25 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2007322984A (ja) * 2006-06-05 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004325635A (ja) * 2003-04-23 2004-11-18 Sharp Corp 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2006251061A (ja) * 2005-03-08 2006-09-21 Nissan Motor Co Ltd 音声対話装置および音声対話方法
JP2007017911A (ja) * 2005-07-11 2007-01-25 Nippon Hoso Kyokai <Nhk> 音声認識装置及び音声認識プログラム
JP2007322984A (ja) * 2006-06-05 2007-12-13 Nippon Telegr & Teleph Corp <Ntt> モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750373A (zh) * 2012-06-20 2012-10-24 段起阳 一种基于概率分布的数据关联方法
WO2019156101A1 (ja) * 2018-02-08 2019-08-15 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
JP2019139010A (ja) * 2018-02-08 2019-08-22 日本電信電話株式会社 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム
WO2022155842A1 (en) * 2021-01-21 2022-07-28 Alibaba Group Holding Limited Quality estimation for automatic speech recognition

Also Published As

Publication number Publication date
JP4939560B2 (ja) 2012-05-30

Similar Documents

Publication Publication Date Title
US10283111B1 (en) Disambiguation in speech recognition
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP6686154B2 (ja) 発話認識方法及び装置
US9484021B1 (en) Disambiguation in speech recognition
US10147418B2 (en) System and method of automated evaluation of transcription quality
US10332508B1 (en) Confidence checking for speech processing and query answering
US9911420B1 (en) Behavior adjustment using speech recognition system
JP6509694B2 (ja) 学習装置、音声検出装置、学習方法およびプログラム
US10713289B1 (en) Question answering system
Mairesse et al. Can prosody inform sentiment analysis? experiments on short spoken reviews
US8494847B2 (en) Weighting factor learning system and audio recognition system
US11763816B1 (en) Natural language processing policies
JP2016075740A (ja) 音声処理装置、音声処理方法、およびプログラム
KR102199246B1 (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
US10366442B1 (en) Systems and methods to update shopping cart
JP4939560B2 (ja) 音声認識装置とその方法と、プログラム
US20040006469A1 (en) Apparatus and method for updating lexicon
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP5400727B2 (ja) 音声認識装置とその方法とプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP5170449B2 (ja) 検出装置、音声認識装置、検出方法、及びプログラム
JP2008083367A (ja) 音声認識装置、音声認識方法及びプログラム
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
US20240203412A1 (en) Enterprise type models for voice interfaces

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101214

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110715

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120224

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4939560

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350