JP2005091504A

JP2005091504A - 音声認識装置

Info

Publication number: JP2005091504A
Application number: JP2003321883A
Authority: JP
Inventors: Osamu Segawa; 修瀬川
Original assignee: Chubu Electric Power Co Inc
Current assignee: Chubu Electric Power Co Inc
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2005-04-07

Abstract

【課題】音声認識装置における音声認識結果の信頼度判定方法を提供する。
【解決手段】音声認識装置は音声入力手段と制御装置と記憶装置を備えていて音響分析手段によって音声信号を特徴パラメータ系列に変換し、前向探索手段によって特徴パラメータの始端から音響モデル及び前向言語モデルを用いて前向認識結果を得る。又、後向探索手段によって特徴パラメータの終端から音響モデル及び後向言語モデルを用いて後向認識結果を得る。そして、前向認識結果と後向認識結果を認識結果比較手段で比較した結果に基づき、信頼度判定手段によって信頼区間であるか否かの判定をする。
【選択図】図１

Description

本発明は音声認識装置に関し、より詳細には音声認識結果の信頼度判定方法および音響モデルの話者適応方法に関する。

現在の音声認識技術では、常に１００％の認識率が得られているわけではない。このため、大語彙連続音声認識システムの実用化においては、未知語（システムの語彙辞書に未登録の単語）や曖昧な発声などに起因する誤認識を含んだ結果の部分的な信頼度を判定する技術が重要である。

これまで複数システムの認識結果を比較することによって、部分単語系列の信頼度判定を行う手法が提案されている。例えば、ROVER(Recognition Output Voting Error Reduction)と呼ばれる方法では、独立した５つのシステムの認識結果の比較を行い、複数システムの出力の多数決に基づく単語系列の部分的な信頼度判定の手法を提案している。同手法においては認識性能がほぼ同等である独立した複数のシステムを前提としており、装置の実現は容易なものではない。

また、特許文献１（特開２００２−３５８０９７号公報）には、単一のシステムの認識結果出力後の処理として、信頼度判定用の言語モデルを用い、認識結果の単語系列の言語尤度スコアを再評価する手法を提案している。
この手法では、ある単語に接続し得る単語候補の予測方向が、異なる前向きと後向きの統計的言語モデル（Ｎ-gram）を用い、言語尤度スコアのみを前後方向にそれぞれ再評価することによって、認識結果の各単語に対し信頼度スコアを付与している。
N-gramを用いた認識システムでは、局所的な単語誤りがトリガーとなって少なくとも隣接するN-1個の単語候補の予測に影響が及ぶが、前後方向で挟むようにして言語尤度スコアを再評価することによって、この悪影響を最小限に抑える効果が期待される。

特開２００２−３５８０９７号公報

しかし、前記特許文献１に開示の手法における信頼度判定処理では、下記のような問題点があると考えられる。
先ず、言語モデルのみを用いた局所的な尤度スコアの再計算であることからモデルの推定精度が悪いと信頼度スコアが正確に付与できない。特にＮ-gramにおけるＮの値が、３以上のモデルを用いる場合には、モデルの推定精度に大きく依存する。
また、単語ごとに言語尤度スコアの再計算を行った時に、認識誤りによって日本語として不自然な単語の連鎖が生じてスコアが低下しているのか、あるいは、学習データの不足によって言語モデルの推定精度が不十分であるために局所的にスコアが低下しているのかを判別するのが困難である。
さらに、単語ごとに信頼度スコアを言語尤度によって数値的に与えていることから、当該単語が信頼できる結果であるか否かの判定には認識タスク毎に適切な閾値を実験的に定めておく必要がある。

そこで、本発明は前記従来技術（ROVER）の複数システム構成による問題点を踏まえて、単一システムによる信頼度判定を行う。
また、前記特許文献１の手法の問題点に対し、本発明では、音響モデルの尤度スコアも考慮した上で前後方向の探索を行うことが可能であり、また、両者の認識結果の部分一致の多数決によって信頼度判定を行っていることから、言語モデルの推定精度に起因する局所的な判定誤りは起こりにくい。更に、本発明では前後方向の認識結果の部分一致の多数決によって信頼度判定を行っているため、数値的に判定の閾値を設定する必要がない。
これにより、統計的言語モデルを用いた連続音声認識システムにおいて、認識結果の単語系列の部分的な信頼度を精度よく判定する。更に、得られた信頼区間を用いて、適応前の認識率が十分でない場合でも、精度よく音響モデルの教師なし話者適応を行う。

請求項１の音声認識装置は、音声信号入力手段と、制御装置と記憶装置を備えていて、制御装置を介して実行される音響分析手段によって音声信号入力手段から入力される音声信号を特徴パラメータ系列に変換し、この特徴パラメータ系列を前記記憶装置に記憶する。次に、制御装置を介して実行される前向探索手段によって、前記記憶装置に予め記憶されている特徴パラメータ系列の始端から、前記記憶装置に予め記憶されている音響モデル及び前向言語モデルを用いて探索を行って前向認識結果を得て、この前向認識結果を記憶装置に記憶する。又、制御装置を介して実行される後向探索手段によって、前記記憶装置に記憶されている特徴パラメータ系列の終端から、前記記憶装置に予め記憶されている音響モデル及び後向言語モデルを用いて探索を行って後向認識結果を得て、この後向認識結果を記憶装置に記憶する。
次に、制御装置を介して実行される認識結果比較手段によって、前記記憶装置に記憶の前向認識結果と後向認識結果の単語に基づく比較結果を得て、この比較結果を記憶装置に記憶する。
そして、制御装置を介して実行される信頼度判定手段によって、前記記憶装置に記憶されている比較結果のうち部分的に一致している単語を信頼区間であると判定する。これによって、音声認識結果の単語系列の部分的な信頼区間を精度よく判定することができる。

又、請求項２の音声認識装置は、請求項１の認識結果比較手段によって、記憶装置に記憶されている前向認識結果と後向認識結果の音素による比較結果を得て、この比較結果を記憶装置に記憶する。そして、信頼度判定手段によって、前記記憶装置に記憶されている比較結果のうち部分的に一致している音素を信頼区間であると判定するので、仮名漢字表記による表記揺れを解消した比較による信頼区間を得ることができる。
又、請求項３の音声認識装置は、請求項１又は請求項２で得られた信頼区間の音素系列を学習データとして記憶装置に記憶し、この記憶された該学習データとこれに対応する記憶装置に記憶の特徴パラメータを用いて、音響モデルのパラメータを更新するものである。このため、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。
請求項４の音声認識装置は、音声認識装置をコンピュータで実現するためのプログラム、又は当該プログラムを記憶の記録媒体である。

請求項１の音声認識装置は、音声認識結果の単語系列の部分的な信頼区間を精度よく判定することができる。
又、請求項２の音声認識装置は音素で比較するので、仮名漢字表記による表記揺れを解消した比較による信頼区間を得ることができる。
請求項３の音声認識装置は、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。

（第１の実施の形態）
本発明の実施の形態を図面を参照して説明する。図１は全体のブロック図であり、ハードウエア又は及びソフトウエアで実行される。
音声認識装置は、音声信号を入力し、信頼度付き認識結果を出力するものであり、音声信号入力手段、制御装置（ＣＰＵ）、記憶装置（メモリ、ハードディスク等の記憶媒体）で構成してある。
前記音声信号入力手段は、マイクロフォンなどの入力装置とＡ／Ｄ変換を行う装置により構成してある。そして、前記制御装置は、入力された音声信号の音響分析を実行し特徴パラメータ系列に変換する音響分析手段、音響分析した特徴パラメータ系列に基づいて前向きに単語を探索する前向探索手段、特徴パラメータ系列に基づいて後向に単語を探索する後向探索手段、前向探索手段と後向探索手段に基づく認識結果を比較する認識比較手段、及び、その比較結果に基づく信頼度を判定する信頼度判定手段を備えている。
尚、前記音響分析手段、前向探索手段、後向探索手段、認識比較手段、信頼度判定手段、又、音素列比較手段は制御装置を介して実行されるソフトウエアで構成してあるが、ハードウエアで構成してもよい。

又、前記記憶装置には音響分析手段が出力する特徴パラメータが記憶してあると共に、前向探索手段に用いる前向言語モデル、後向探索手段に用いる後向言語モデルや、前向探索手段と後向探索手段に用いる音響モデルが記憶してある。
更に、前記記憶装置には、前向探索手段によって得られた単語系列の前向認識結果（Wi：i=1〜n）と後向探索手段によって得られた単語系列の後向認識結果（Uj：j=1〜m）が記憶してある。
又、前記前向認識結果（Wi）と後向認識結果（Uj）を用いて、認識結果比較手段によって得られた比較結果が記憶してある。

前記音声信号入力手段は、マイクロフォンなどの装置から入力される音声信号を、適切なサンプリングと量子化処理によって、デジタル化された時系列信号に変換する。
次に、前記音声信号入力手段で得られた時系列信号は、音響分析手段で処理され、この音響分析手段では前記時系列信号をスペクトル領域の特徴パラメータに変換する。この特徴パラメータには、例えば、ケプストラム係数（対数パワースペクトルを逆フーリエ変換した値）が用いられる。

次に、前記音響分析手段で得られた特徴パラメータを介して、図２（Ａ）に示すように、前向探索手段による単語列の前向認識結果（Wi）の生成と、後向探索手段による単語列の後向認識結果（Uj）の生成について記載する。
ここで、前向探索手段と後向探索手段で用いる確率統計モデルによる連続音声認識の原理を簡単に説明する。確率統計モデルによる連続音声認識は、（式１）に示すとおり、音声信号系列Ｙが観測された下での事後確率Ｐ（Ｗ｜Ｙ）を最大にする単語系列Ｗを求めることに帰着される。
Ｐ（Ｗ｜Ｙ）＝Ｐ（Ｙ｜Ｗ）Ｐ（Ｗ）／Ｐ（Ｙ）（式１）
ここで、Ｐ（Ｙ）は、求めるＷとは無関係であるから、事後確率Ｐ（Ｗ｜Ｙ）は近似的に（Ｐ（Ｙ｜Ｗ）Ｐ（Ｗ））となり、Ｐ（Ｙ｜Ｗ）とＰ（Ｗ）の確率の積によって事後確率が計算される。尚、確率値に替って尤度（確率の対数値）を用いた場合は音響尤度スコアと言語尤度スコアの和となる。
一般に、Ｐ（Ｙ｜Ｗ）は音響モデル、Ｐ（Ｗ）は言語モデルという。この音響モデルとしては隠れマルコフモデル（ＨＭＭ）を用い、言語モデルには統計的言語モデル（Ｎ−gram）を用いる。又、前記音響モデルは通常音素単位で構成されるが、単語単位の音響モデルは音素単位のモデルを接続することによって構成することができる。

又、前記音響尤度スコアの演算には、前記記憶装置に記憶の音響モデルを用い、この音響モデルの学習法や音響尤度スコアの演算方法についてはよく知られているの説明を略す。
又、言語尤度スコアの演算には、前記記憶装置に記憶の前向言語モデルを用い、この前向言語モデルとしては、例えば、Ｎ−gramを用いる。このＮ-gramはある単語の出現確率は直前のＮ-1個の単語のみに依存すると仮定したＮ-1重マルコフモデルである。そして、統計的言語モデル（Ｎ-gram）は大量の学習テキストから、Ｎ組単語の出現回数を計数することによって推定することができる。

前向探索手段では、前記記憶装置に記憶された、１つの発話の特徴パラメータ系列に対し、前記記憶装置に記憶の音響モデルと前向言語モデルを用いて、時間同期のワンパスビタビ（One Pass Viterbi)サーチ（One Pass DP法）を実行して、単語列Wiを求める。
尚、この時間同期のサーチは、前記特徴パラメータ系列が入力される間隔（フレーム周期）に同期して、音響尤度スコアと言語尤度スコアの演算を行い、時間軸とＨＭＭの状態によって表現される格子状の空間（トレリス）において、音響尤度スコアと言語尤度スコアの和が最大となるパスを求める。
尚、前記ワンパスビタビサーチ法は公知技術であり、説明を略す。

後向探索手段は、前記前向探索の演算結果を先読み情報（ヒューリスティック）として、音声信号の終端から始端に向かって、単語同期の最良優先探索（best-first サーチ）を行い（尚、この手法はＡ＊サーチやスタックデコーダとして知られている）、単語系列としてUjを得る。
尚、前記単語同期の最良優先探索法は、公知技術であり概略説明する。
この後向探索手段は、（式２）に示すように、ある時刻ｔフレームにおいて得られた仮設の単語系列Ｗに対する尤度スコアｆ（ｔ，Ｗ）は、音声終端からｔフレームまでの尤度スコアｇ（Ｔ：ｔ，Ｗ）に、ｔ＋１フレームから音声始端フレームまでのヒューリスティックｈ（ｔ＋１：１，Ｗ＊）を加えた値になる。
ｆ（ｔ，Ｗ）＝ｇ（Ｔ：ｔ，Ｗ）＋ｈ（ｔ＋１：１，Ｗ＊）（式２）
ここで、前記Ｗ＊はｔ＋１フレームから音声始端に向けて後続すると予想される単語系列である。

以上で説明した後向探索手段の実行では、ヒューリスティックとして、例えば、前記前向探索の演算結果（各フレームに残った単語の終端フレームとその尤度スコア）を用い、音声終端から単語単位で文仮設を展開して行くが、この時、ヒューリスティックの尤度スコアが高い単語から優先的に仮設を音声始端方向に展開することによって、常に、音声区間全体の尤度スコアを最大化するような効率的な探索が可能である。
又、前記後向探索手段の実行においては、（式２）の尤度スコアｇ（Ｔ：ｔ，Ｗ）として、単語系列Ｗに対する言語尤度スコアのみを用いてもよいし、単語系列Ｗに対する音響尤度スコアを計算し、言語尤度スコアを加算して用いてもよい。
この後向探索における言語尤度スコアの演算は後向言語モデルを用い、この後向言語モデルは学習で用いたテキストの単語系列を逆転させたテキストを用いることによって容易に学習可能である。
例えば、「本郷亭にお願いします」という単語系列の学習テキストがある場合には、これを反転させた「しますお願いに本郷亭」という単語系列を用いて確率パラメータを推定すればよい。

以上のように、前向探索手段の実行によって特徴パラメータ系列から単語系列である前向認識結果Wi(i=1〜n）が出力されて記憶装置に記憶されるし、後向探索手段によって特徴パラメータ系列から単語系列である後向認識結果Uj（j=1〜m）が出力されて記憶装置に記憶される。
尚、後向認識結果Uj（j=1〜m）は、１つの発話を終端から始端に向けて認識した結果の単語系列であり、前向認識結果Wi(i=1〜n）に対応させることができる。

次に、前向認識結果Wi(i=1〜n）と後向認識結果Uj（j=1〜m）を比較する認識比較結果手段について、図３（Ａ）のフローを参照して説明する。
１つの発話に対する前向認識結果Wi(i=1〜n）と後向認識結果Uj（j=1〜m）は、同じ発話に対する単語列であるが、各々の単語数であるnとmは必ずしも一致するとは限らない。
そこで、先ず、前向認識結果Wi(i=1〜n）と後向認識結果Uj(j=1〜m）を記憶装置から読み出して（Ｓ１）、ＤＰマッチングによって（Ｓ２）、Wi(i=1〜n）とUj(j=1〜m）が最もよくマッチングするような対応付けを行い、そのマッチングの比較結果を記憶する（Ｓ３）。

認識比較結果手段のＤＰマッチングの操作を図２（Ｂ）及び図３（Ｂ）の例示に基づいて説明する。
図２（Ｂ）は「本郷亭にお願いします」という発話において、「未知語（本郷亭）」に起因する誤りを含んだ前向認識結果Wi(i=1〜n）と後向認識結果Uj(j=1〜m）を示している。
ＤＰマッチングによる単語系列の比較は、長さを異にする２つの単語列を動的計画法（ＤＰ）を用いて最もよく一致する対応関係を求めることである。例えば、極端な長さの伸縮を防ぐために、ＤＰパスとコストを図３（Ｂ）の右の説明に示すように定めた場合、Wi(i=1〜n）とUj（j=1〜m）をＸーＹ軸に配置したグリッドで、コストを最小にする最適パスを求める。尚、このＤＰパスでは、右方向に移動して一致したときのコストを「＋２」、一致しなかったときのコストを「＋４」、右斜め上に移動して一致したときのコストを「＋１」、一致しなかったときのコストを「＋２」と定義してある。

例えば、前向認識結果として、W1が「ほんほう」、W2が「で」、W3が「に」、W4が「お願い」、W5が「します」、後向認識結果として、U1が「本」、U2が「の」、U3が「お店」、U4が「に」、U5が「お願い」、U6が「します」である場合には、ＤＰマッチングによる最適パスは図３（Ｂ）に示す通りなる。従って、ＤＰマッチングを用いた比較による部分一致の単語系列は、「に（W3とU4）お願い（W4とU5）します（W5とU6）」となる（図３（Ｃ））。
しかし、(Wi）「ほんほうでにお願いします」と、（Uj）「本のお店におねがいします」の２つの単語系列に対する認識比較手段の処理を、図２（Ｃ）の下段に示すように音素系列で比較してもよい。この音素系列に対し、認識比較結果手段によって比較すると、両者で「h o N」と「o」と「e n i o n e g a i sh i m a s u」が一致する。これらのうち、例えば、「ほん」と「本」などのような日本語の仮名漢字による表記揺れを解消した認識結果の比較も可能になる。

次に、前記単語の比較結果に基づいて、信頼度判定手段に基づく信頼度区間の判定について、図３（Ｄ）に示すフローを参照して説明する。
先ず、前記記憶装置に記憶された単語系列の比較結果を読み出し（Ｓ２０）、その連続して一致している数（ｓ）を計数する（Ｓ２１）。そして、その数ｓが予め設定された設定値Ｓと比較し（Ｓ２２）、計数値ｓが設定値Ｓ以上であるとき、連続一致した部分単語系列を信頼区間と判定する（Ｓ２３）。
そして、以上の過程（Ｓ２０〜Ｓ２３）を記憶してある比較結果の全てについて実施し（Ｓ２４）、これらの結果を信頼度付き認識結果として出力する（Ｓ２５）。或は、後述の第２の実施の形態で説明する話者適応で用いるために、音素系列の学習データとして記憶装置に記憶する（図４、図５（Ｂ））。

以上に示した図３（Ｄ）のフローを、図２（Ｂ）に示す前向認識結果Wiと後向認識結果Ujに適用する場合について説明する。
先ず、図３（Ｃ）に示す比較結果を記憶装置から読み出して、連続して一致している単語数（ｓ）を計数すると、ｓ＝３になる。例えば、設定値Ｓ＝３に設定すると、（ｓ≧Ｓ）を満たすので、信頼区間として、「に（W3、U4）、お願い（W4、U5）、します（W5、U6）」が得られる。

（第２の実施の形態）
次に、前記認識結果の信頼区間を用いた教師なし話者適応を備えた音声認識装置について、図４と図５を参照して説明する。
ここで音響モデルの話者適応とは、不特定話者用に学習された連続分布型ＨＭＭの各状態ごとに有している確率分布（通常は混合ガウス分布を用いる）の平均値と分散の各パラメータを、特定の話者の音声サンプルに対し音響尤度スコアが高くなるように変換を行うことである。
通常、話者適応においては、所定の話者の音声サンプルと共に、その正確な発声内容を記した音素ラベルを教師データとして与えることによってパラメータの適応を行う。これに対し教師なし話者適応とは、音声サンプルの正確な発声内容を与える代わりに音声サンプルを適応前の音響モデルを用いて認識させた結果、得られる音素ラベルを用いる。

音響モデルの教師なし話者適応では、認識結果の音素ラベルの信頼性が問題となる。未知語やサーチエラーによる誤認識が生じた場合、得られる音素ラベルが実際の発話内容と著しく異なるものになってしまい、音響モデルの不適切なパラメータの適応によって認識性能に悪影響を及ぼすことが懸念される。
そこで、本実施形態では前記第１の実施形態によって得られる信頼度付きの認識結果を用いることによって、信頼性の高い音声サンプルのみを学習データとして話者適応を行うことによって、認識率が低い場合でも効果の高い教師なし話者適応を実現する。

本実施形態の構成は、図４、図５に記載してあり、前記第１の実施の形態に話者適応手段等を加えたものであり、前記第１の実施の形態と同じ構成は同じ名称を附して説明を略す。
本実施形態は、記憶装置に学習データが記憶してあり、先ず、制御装置を介して実行される話者適応手段によって、記憶装置から適応する音響モデルを読み込む（Ｓ３０）。
次に、前記第１の実施例の音声認識装置により信頼区間と判定され、記憶されている学習データ（音素ラベル）を読み込む（Ｓ３１）。更に、該信頼区間に対応する特徴パラメータ系列を読み込む（Ｓ３２）。
尚、この信頼区間に対応する特徴パラメータ系列は、信頼区間の単語系列の先頭単語の始端フレームから、信頼区間の終端単語の終端フレーム間を選択して用いればよい。

そして、話者適応手段は、前記音響モデルや特徴パラメータ及び学習データを用いて、新たな適応後の音響モデルの確率分布パラメータを更新する（Ｓ３３）。
尚、話者適応の方法には、例えば、公知技術として用いられているMAP（maximum a posteriori）推定アルゴリズムやMLLR（maximum likelihood linear regression）アルゴリズム、あるいはこれらの組み合わせ方法（MAPLRアルゴリズム）などを用いる。そして、前記適応後音響モデルは記憶装置に保存される（Ｓ３４）。

以上に示した図５（Ａ）のフローを、図５（Ｂ）の例示を用いて、より具体的に説明する。
例えば、前記音声認識装置の前向認識結果（Wi）として、「ほんほうでにお願いします」という単語系列が得られ、後向認識結果（Uj）として「本のお店にお願いします」という単語系列が得られた場合、前記信頼度判定手段により得られた信頼区間の単語系列は「にお願いします」となる。
この単語系列を音素系列に変換すると「n i o n e g a i sh i m a s u」となり、これを学習データとして記憶装置に保存する。

次に、記憶装置から前記学習データに対応する特徴パラメータ系列を読み込む（Ｓ３２）。この時、学習データに対応する特徴パラメータ系列は、前記信頼区間の単語系列「にお願いします」の先頭単語「に」の始端フレームから、終端単語「します」の終端フレームの間を選択して用いる。
そして、話者適応手段は記憶装置から読み込んだ音響モデルと、前記学習データ、及び前記学習データに対応する特徴パラメータ系列を用いて、音響モデルの確率分布パラメータを更新し、適応後音響モデルとして出力する。
以上により、新たな音声信号に対しては、前記更新された確率分布パラメータを有する適応後音響モデルを用いて、前記音声認識装置の前向探索手段あるいは後向探索手段で再度認識を行うことによって、より認識性能の向上を図ることができる。
尚、前記適応後音響モデルは、実施例とは別の音声認識装置で読み込んで使用してもよい。

本発明の第１の実施の形態の構成図である。（Ａ）は前方探索手段と後方探索手段で得られる認識結果の単語系列を示し、（Ｂ）は前方探索手段と後方探索手段で得られる認識結果の単語系列の具体例であり、（Ｃ）は前方探索手段と後方探索手段の音素単位による比較例を示す図である。（Ａ）は認識比較結果手段のフローであり、（Ｂ）はＤＰマッチングを説明する図、（Ｃ）は比較結果の例、（Ｄ）は信頼度判定手段のフロー図である。第２実施の形態の構成図である。（Ａ）は第２実施の形態における話者適応手段のフローであり、（Ｂ）は話者適用手段を実施する概念図である。

Claims

音声入力手段と、制御装置と記憶装置を備える音声認識装置であって、
前記制御装置を介して実行される音響分析手段によって、前記音声入力手段から入力された音声信号を特徴パラメータ系列に変換し、この特徴パラメータ系列を前記記憶装置に記憶し、
前記制御装置を介して実行される前向探索手段によって、前記記憶装置に記憶された特徴パラメータ系列の始端から、前記記憶装置に予め記憶された音響モデル及び前向言語モデルを用いて探索を行い、前向認識結果を得て、この前向認識結果を記憶装置に記憶し、
前記制御装置を介して実行される後向探索手段によって、前記記憶装置に記憶された特徴パラメータ系列の終端から、前記記憶装置に予め記憶された音響モデル及び後向言語モデルを用いて探索を行い、後向認識結果を得て、この後向認識結果を記憶装置に記憶し、
前記制御装置を介して実行される認識結果比較手段によって、前記記憶装置に記憶された前向認識結果と後向認識結果の単語による比較結果を得て、この比較結果を記憶装置に記憶し、
前記制御装置を介して実行される信頼度判定手段によって、前記記憶装置に記憶された比較結果のうち部分的に一致している単語を信頼区間であると判定することを特徴とする音声認識装置。
請求項１の音声認識装置において、前記認識結果比較手段によって、記憶装置に記憶された前向認識結果と後向認識結果の音素による比較結果を得て、この比較結果を記憶装置に記憶し、前記信頼度判定手段によって、前記記憶装置に記憶された比較結果のうち部分的に一致している音素を信頼区間であると判定することを特徴とする音声認識装置。
請求項１又は請求項２で得られた信頼区間の音素系列を学習データとして記憶装置に記憶し、この記憶された該学習データと、これに対応する前記記憶装置に記憶された特徴パラメータ系列を用いて、音響モデルのパラメータを更新する、制御装置を介して実行される話者適用手段を備えることを特徴とする請求項１又は請求項２の音声認識装置。
請求項１〜請求項３の音声認識装置をコンピュータで実現するためのプログラム、又は当該プログラムを記憶の記録媒体。