JP2005091504A - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP2005091504A JP2005091504A JP2003321883A JP2003321883A JP2005091504A JP 2005091504 A JP2005091504 A JP 2005091504A JP 2003321883 A JP2003321883 A JP 2003321883A JP 2003321883 A JP2003321883 A JP 2003321883A JP 2005091504 A JP2005091504 A JP 2005091504A
- Authority
- JP
- Japan
- Prior art keywords
- storage device
- recognition result
- stored
- backward
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】 音声認識装置における音声認識結果の信頼度判定方法を提供する。
【解決手段】 音声認識装置は音声入力手段と制御装置と記憶装置を備えていて音響分析手段によって音声信号を特徴パラメータ系列に変換し、前向探索手段によって特徴パラメータの始端から音響モデル及び前向言語モデルを用いて前向認識結果を得る。又、後向探索手段によって特徴パラメータの終端から音響モデル及び後向言語モデル を用いて後向認識結果を得る。そして、前向認識結果と後向認識結果を認識結果比較手段で比較した結果に基づき、信頼度判定手段によって信頼区間であるか否かの判定をする。
【選択図】 図1
【解決手段】 音声認識装置は音声入力手段と制御装置と記憶装置を備えていて音響分析手段によって音声信号を特徴パラメータ系列に変換し、前向探索手段によって特徴パラメータの始端から音響モデル及び前向言語モデルを用いて前向認識結果を得る。又、後向探索手段によって特徴パラメータの終端から音響モデル及び後向言語モデル を用いて後向認識結果を得る。そして、前向認識結果と後向認識結果を認識結果比較手段で比較した結果に基づき、信頼度判定手段によって信頼区間であるか否かの判定をする。
【選択図】 図1
Description
本発明は音声認識装置に関し、より詳細には音声認識結果の信頼度判定方法および音響モデルの話者適応方法に関する。
現在の音声認識技術では、常に100%の認識率が得られているわけではない。このため、大語彙連続音声認識システムの実用化においては、未知語(システムの語彙辞書に未登録の単語)や曖昧な発声などに起因する誤認識を含んだ結果の部分的な信頼度を判定する技術が重要である。
これまで複数システムの認識結果を比較することによって、部分単語系列の信頼度判定を行う手法が提案されている。例えば、ROVER(Recognition Output Voting Error Reduction)と呼ばれる方法では、独立した5つのシステムの認識結果の比較を行い、複数システムの出力の多数決に基づく単語系列の部分的な信頼度判定の手法を提案している。同手法においては認識性能がほぼ同等である独立した複数のシステムを前提としており、装置の実現は容易なものではない。
また、特許文献1(特開2002−358097号公報)には、単一のシステムの認識結果出力後の処理として、信頼度判定用の言語モデルを用い、認識結果の単語系列の言語尤度スコアを再評価する手法を提案している。
この手法では、ある単語に接続し得る単語候補の予測方向が、異なる前向きと後向きの統計的言語モデル(N-gram)を用い、言語尤度スコアのみを前後方向にそれぞれ再評価することによって、認識結果の各単語に対し信頼度スコアを付与している。
N-gramを用いた認識システムでは、局所的な単語誤りがトリガーとなって少なくとも隣接するN-1個の単語候補の予測に影響が及ぶが、前後方向で挟むようにして言語尤度スコアを再評価することによって、この悪影響を最小限に抑える効果が期待される。
この手法では、ある単語に接続し得る単語候補の予測方向が、異なる前向きと後向きの統計的言語モデル(N-gram)を用い、言語尤度スコアのみを前後方向にそれぞれ再評価することによって、認識結果の各単語に対し信頼度スコアを付与している。
N-gramを用いた認識システムでは、局所的な単語誤りがトリガーとなって少なくとも隣接するN-1個の単語候補の予測に影響が及ぶが、前後方向で挟むようにして言語尤度スコアを再評価することによって、この悪影響を最小限に抑える効果が期待される。
しかし、前記特許文献1に開示の手法における信頼度判定処理では、下記のような問題点があると考えられる。
先ず、言語モデルのみを用いた局所的な尤度スコアの再計算であることからモデルの推定精度が悪いと信頼度スコアが正確に付与できない。特にN-gramにおけるNの値が、3以上のモデルを用いる場合には、モデルの推定精度に大きく依存する。
また、単語ごとに言語尤度スコアの再計算を行った時に、認識誤りによって日本語として不自然な単語の連鎖が生じてスコアが低下しているのか、あるいは、学習データの不足によって言語モデルの推定精度が不十分であるために局所的にスコアが低下しているのかを判別するのが困難である。
さらに、単語ごとに信頼度スコアを言語尤度によって数値的に与えていることから、当該単語が信頼できる結果であるか否かの判定には認識タスク毎に適切な閾値を実験的に定めておく必要がある。
先ず、言語モデルのみを用いた局所的な尤度スコアの再計算であることからモデルの推定精度が悪いと信頼度スコアが正確に付与できない。特にN-gramにおけるNの値が、3以上のモデルを用いる場合には、モデルの推定精度に大きく依存する。
また、単語ごとに言語尤度スコアの再計算を行った時に、認識誤りによって日本語として不自然な単語の連鎖が生じてスコアが低下しているのか、あるいは、学習データの不足によって言語モデルの推定精度が不十分であるために局所的にスコアが低下しているのかを判別するのが困難である。
さらに、単語ごとに信頼度スコアを言語尤度によって数値的に与えていることから、当該単語が信頼できる結果であるか否かの判定には認識タスク毎に適切な閾値を実験的に定めておく必要がある。
そこで、本発明は前記従来技術(ROVER)の複数システム構成による問題点を踏まえて、単一システムによる信頼度判定を行う。
また、前記特許文献1の手法の問題点に対し、本発明では、音響モデルの尤度スコアも考慮した上で前後方向の探索を行うことが可能であり、また、両者の認識結果の部分一致の多数決によって信頼度判定を行っていることから、言語モデルの推定精度に起因する局所的な判定誤りは起こりにくい。更に、本発明では前後方向の認識結果の部分一致の多数決によって信頼度判定を行っているため、数値的に判定の閾値を設定する必要がない。
これにより、統計的言語モデルを用いた連続音声認識システムにおいて、認識結果の単語系列の部分的な信頼度を精度よく判定する。更に、得られた信頼区間を用いて、適応前の認識率が十分でない場合でも、精度よく音響モデルの教師なし話者適応を行う。
また、前記特許文献1の手法の問題点に対し、本発明では、音響モデルの尤度スコアも考慮した上で前後方向の探索を行うことが可能であり、また、両者の認識結果の部分一致の多数決によって信頼度判定を行っていることから、言語モデルの推定精度に起因する局所的な判定誤りは起こりにくい。更に、本発明では前後方向の認識結果の部分一致の多数決によって信頼度判定を行っているため、数値的に判定の閾値を設定する必要がない。
これにより、統計的言語モデルを用いた連続音声認識システムにおいて、認識結果の単語系列の部分的な信頼度を精度よく判定する。更に、得られた信頼区間を用いて、適応前の認識率が十分でない場合でも、精度よく音響モデルの教師なし話者適応を行う。
請求項1の音声認識装置は、音声信号入力手段と、制御装置と記憶装置を備えていて、制御装置を介して実行される音響分析手段によって音声信号入力手段から入力される音声信号を特徴パラメータ系列に変換し、この特徴パラメータ系列を前記記憶装置に記憶する。次に、制御装置を介して実行される前向探索手段によって、前記記憶装置に予め記憶されている特徴パラメータ系列の始端から、前記記憶装置に予め記憶されている音響モデル及び前向言語モデルを用いて探索を行って前向認識結果を得て、この前向認識結果を記憶装置に記憶する。又、制御装置を介して実行される後向探索手段によって、前記記憶装置に記憶されている特徴パラメータ系列の終端から、前記記憶装置に予め記憶されている音響モデル及び後向言語モデルを用いて探索を行って後向認識結果を得て、この後向認識結果を記憶装置に記憶する。
次に、制御装置を介して実行される認識結果比較手段によって、前記記憶装置に記憶の前向認識結果と後向認識結果の単語に基づく比較結果を得て、この比較結果を記憶装置に記憶する。
そして、制御装置を介して実行される信頼度判定手段によって、前記記憶装置に記憶されている比較結果のうち部分的に一致している単語を信頼区間であると判定する。これによって、音声認識結果の単語系列の部分的な信頼区間を精度よく判定することができる。
次に、制御装置を介して実行される認識結果比較手段によって、前記記憶装置に記憶の前向認識結果と後向認識結果の単語に基づく比較結果を得て、この比較結果を記憶装置に記憶する。
そして、制御装置を介して実行される信頼度判定手段によって、前記記憶装置に記憶されている比較結果のうち部分的に一致している単語を信頼区間であると判定する。これによって、音声認識結果の単語系列の部分的な信頼区間を精度よく判定することができる。
又、請求項2の音声認識装置は、請求項1の認識結果比較手段によって、記憶装置に記憶されている前向認識結果と後向認識結果の音素による比較結果を得て、この比較結果を記憶装置に記憶する。そして、信頼度判定手段によって、前記記憶装置に記憶されている比較結果のうち部分的に一致している音素を信頼区間であると判定するので、仮名漢字表記による表記揺れを解消した比較による信頼区間を得ることができる。
又、請求項3の音声認識装置は、請求項1又は請求項2で得られた信頼区間の音素系列を学習データとして記憶装置に記憶し、この記憶された該学習データとこれに対応する記憶装置に記憶の特徴パラメータを用いて、音響モデルのパラメータを更新するものである。このため、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。
請求項4の音声認識装置は、音声認識装置をコンピュータで実現するためのプログラム、又は当該プログラムを記憶の記録媒体である。
又、請求項3の音声認識装置は、請求項1又は請求項2で得られた信頼区間の音素系列を学習データとして記憶装置に記憶し、この記憶された該学習データとこれに対応する記憶装置に記憶の特徴パラメータを用いて、音響モデルのパラメータを更新するものである。このため、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。
請求項4の音声認識装置は、音声認識装置をコンピュータで実現するためのプログラム、又は当該プログラムを記憶の記録媒体である。
請求項1の音声認識装置は、音声認識結果の単語系列の部分的な信頼区間を精度よく判定することができる。
又、請求項2の音声認識装置は音素で比較するので、仮名漢字表記による表記揺れを解消した比較による信頼区間を得ることができる。
請求項3の音声認識装置は、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。
又、請求項2の音声認識装置は音素で比較するので、仮名漢字表記による表記揺れを解消した比較による信頼区間を得ることができる。
請求項3の音声認識装置は、適応前の認識率が低い場合でも、高精度な教師なし話者適応を行うことができる。
(第1の実施の形態)
本発明の実施の形態を図面を参照して説明する。図1は全体のブロック図であり、ハードウエア又は及びソフトウエアで実行される。
音声認識装置は、音声信号を入力し、信頼度付き認識結果を出力するものであり、音声信号入力手段、制御装置(CPU)、記憶装置(メモリ、ハードディスク等の記憶媒体)で構成してある。
前記音声信号入力手段は、マイクロフォンなどの入力装置とA/D変換を行う装置により構成してある。そして、前記制御装置は、入力された音声信号の音響分析を実行し特徴パラメータ系列に変換する音響分析手段、音響分析した特徴パラメータ系列に基づいて前向きに単語を探索する前向探索手段、特徴パラメータ系列に基づいて後向に単語を探索する後向探索手段、前向探索手段と後向探索手段に基づく認識結果を比較する認識比較手段、及び、その比較結果に基づく信頼度を判定する信頼度判定手段を備えている。
尚、前記音響分析手段、前向探索手段、後向探索手段、認識比較手段、信頼度判定手段、又、音素列比較手段は制御装置を介して実行されるソフトウエアで構成してあるが、ハードウエアで構成してもよい。
本発明の実施の形態を図面を参照して説明する。図1は全体のブロック図であり、ハードウエア又は及びソフトウエアで実行される。
音声認識装置は、音声信号を入力し、信頼度付き認識結果を出力するものであり、音声信号入力手段、制御装置(CPU)、記憶装置(メモリ、ハードディスク等の記憶媒体)で構成してある。
前記音声信号入力手段は、マイクロフォンなどの入力装置とA/D変換を行う装置により構成してある。そして、前記制御装置は、入力された音声信号の音響分析を実行し特徴パラメータ系列に変換する音響分析手段、音響分析した特徴パラメータ系列に基づいて前向きに単語を探索する前向探索手段、特徴パラメータ系列に基づいて後向に単語を探索する後向探索手段、前向探索手段と後向探索手段に基づく認識結果を比較する認識比較手段、及び、その比較結果に基づく信頼度を判定する信頼度判定手段を備えている。
尚、前記音響分析手段、前向探索手段、後向探索手段、認識比較手段、信頼度判定手段、又、音素列比較手段は制御装置を介して実行されるソフトウエアで構成してあるが、ハードウエアで構成してもよい。
又、前記記憶装置には音響分析手段が出力する特徴パラメータが記憶してあると共に、前向探索手段に用いる前向言語モデル、後向探索手段に用いる後向言語モデルや、前向探索手段と後向探索手段に用いる音響モデルが記憶してある。
更に、前記記憶装置には、前向探索手段によって得られた単語系列の前向認識結果(Wi:i=1〜n)と後向探索手段によって得られた単語系列の後向認識結果(Uj:j=1〜m)が記憶してある。
又、前記前向認識結果(Wi)と後向認識結果(Uj)を用いて、認識結果比較手段によって得られた比較結果が記憶してある。
更に、前記記憶装置には、前向探索手段によって得られた単語系列の前向認識結果(Wi:i=1〜n)と後向探索手段によって得られた単語系列の後向認識結果(Uj:j=1〜m)が記憶してある。
又、前記前向認識結果(Wi)と後向認識結果(Uj)を用いて、認識結果比較手段によって得られた比較結果が記憶してある。
前記音声信号入力手段は、マイクロフォンなどの装置から入力される音声信号を、適切なサンプリングと量子化処理によって、デジタル化された時系列信号に変換する。
次に、前記音声信号入力手段で得られた時系列信号は、音響分析手段で処理され、この音響分析手段では前記時系列信号をスペクトル領域の特徴パラメータに変換する。この特徴パラメータには、例えば、ケプストラム係数(対数パワースペクトルを逆フーリエ変換した値)が用いられる。
次に、前記音声信号入力手段で得られた時系列信号は、音響分析手段で処理され、この音響分析手段では前記時系列信号をスペクトル領域の特徴パラメータに変換する。この特徴パラメータには、例えば、ケプストラム係数(対数パワースペクトルを逆フーリエ変換した値)が用いられる。
次に、前記音響分析手段で得られた特徴パラメータを介して、図2(A)に示すように、前向探索手段による単語列の前向認識結果(Wi)の生成と、後向探索手段による単語列の後向認識結果(Uj)の生成について記載する。
ここで、前向探索手段と後向探索手段で用いる確率統計モデルによる連続音声認識の原理を簡単に説明する。確率統計モデルによる連続音声認識は、(式1)に示すとおり、音声信号系列Yが観測された下での事後確率P(W|Y)を最大にする単語系列Wを求めることに帰着される。
P(W|Y)=P(Y|W)P(W)/P(Y) (式1)
ここで、P(Y)は、求めるWとは無関係であるから、事後確率P(W|Y)は近似的に(P(Y|W)P(W))となり、P(Y|W)とP(W)の確率の積によって事後確率が計算される。尚、確率値に替って尤度(確率の対数値)を用いた場合は音響尤度スコアと言語尤度スコアの和となる。
一般に、P(Y|W)は音響モデル、P(W)は言語モデルという。この音響モデルとしては隠れマルコフモデル(HMM)を用い、言語モデルには統計的言語モデル(N−gram)を用いる。又、前記音響モデルは通常音素単位で構成されるが、単語単位の音響モデルは音素単位のモデルを接続することによって構成することができる。
ここで、前向探索手段と後向探索手段で用いる確率統計モデルによる連続音声認識の原理を簡単に説明する。確率統計モデルによる連続音声認識は、(式1)に示すとおり、音声信号系列Yが観測された下での事後確率P(W|Y)を最大にする単語系列Wを求めることに帰着される。
P(W|Y)=P(Y|W)P(W)/P(Y) (式1)
ここで、P(Y)は、求めるWとは無関係であるから、事後確率P(W|Y)は近似的に(P(Y|W)P(W))となり、P(Y|W)とP(W)の確率の積によって事後確率が計算される。尚、確率値に替って尤度(確率の対数値)を用いた場合は音響尤度スコアと言語尤度スコアの和となる。
一般に、P(Y|W)は音響モデル、P(W)は言語モデルという。この音響モデルとしては隠れマルコフモデル(HMM)を用い、言語モデルには統計的言語モデル(N−gram)を用いる。又、前記音響モデルは通常音素単位で構成されるが、単語単位の音響モデルは音素単位のモデルを接続することによって構成することができる。
又、前記音響尤度スコアの演算には、前記記憶装置に記憶の音響モデルを用い、この音響モデルの学習法や音響尤度スコアの演算方法についてはよく知られているの説明を略す。
又、言語尤度スコアの演算には、前記記憶装置に記憶の前向言語モデルを用い、この前向言語モデルとしては、例えば、N−gramを用いる。このN-gramはある単語の出現確率は直前のN-1個の単語のみに依存すると仮定したN-1重マルコフモデルである。そして、統計的言語モデル(N-gram)は大量の学習テキストから、N組単語の出現回数を計数することによって推定することができる。
又、言語尤度スコアの演算には、前記記憶装置に記憶の前向言語モデルを用い、この前向言語モデルとしては、例えば、N−gramを用いる。このN-gramはある単語の出現確率は直前のN-1個の単語のみに依存すると仮定したN-1重マルコフモデルである。そして、統計的言語モデル(N-gram)は大量の学習テキストから、N組単語の出現回数を計数することによって推定することができる。
前向探索手段では、前記記憶装置に記憶された、1つの発話の特徴パラメータ系列に対し、前記記憶装置に記憶の音響モデルと前向言語モデルを用いて、時間同期のワンパスビタビ(One Pass Viterbi)サーチ(One Pass DP法)を実行して、単語列Wiを求める。
尚、この時間同期のサーチは、前記特徴パラメータ系列が入力される間隔(フレーム周期)に同期して、音響尤度スコアと言語尤度スコアの演算を行い、時間軸とHMMの状態によって表現される格子状の空間(トレリス)において、音響尤度スコアと言語尤度スコアの和が最大となるパスを求める。
尚、前記ワンパスビタビサーチ法は公知技術であり、説明を略す。
尚、この時間同期のサーチは、前記特徴パラメータ系列が入力される間隔(フレーム周期)に同期して、音響尤度スコアと言語尤度スコアの演算を行い、時間軸とHMMの状態によって表現される格子状の空間(トレリス)において、音響尤度スコアと言語尤度スコアの和が最大となるパスを求める。
尚、前記ワンパスビタビサーチ法は公知技術であり、説明を略す。
後向探索手段は、前記前向探索の演算結果を先読み情報(ヒューリスティック)として、音声信号の終端から始端に向かって、単語同期の最良優先探索(best-first サーチ)を行い(尚、この手法はA*サーチやスタックデコーダとして知られている)、単語系列としてUjを得る。
尚、前記単語同期の最良優先探索法は、公知技術であり概略説明する。
この後向探索手段は、(式2)に示すように、ある時刻tフレームにおいて得られた仮設の単語系列Wに対する尤度スコアf(t,W)は、音声終端からtフレームまでの尤度スコアg(T:t,W)に、t+1フレームから音声始端フレームまでのヒューリスティック h(t+1:1,W*)を加えた値になる。
f(t,W)=g(T:t,W)+h(t+1:1,W*) (式2)
ここで、前記W*はt+1フレームから音声始端に向けて後続すると予想される単語系列である。
尚、前記単語同期の最良優先探索法は、公知技術であり概略説明する。
この後向探索手段は、(式2)に示すように、ある時刻tフレームにおいて得られた仮設の単語系列Wに対する尤度スコアf(t,W)は、音声終端からtフレームまでの尤度スコアg(T:t,W)に、t+1フレームから音声始端フレームまでのヒューリスティック h(t+1:1,W*)を加えた値になる。
f(t,W)=g(T:t,W)+h(t+1:1,W*) (式2)
ここで、前記W*はt+1フレームから音声始端に向けて後続すると予想される単語系列である。
以上で説明した後向探索手段の実行では、ヒューリスティックとして、例えば、前記前向探索の演算結果(各フレームに残った単語の終端フレームとその尤度スコア)を用い、音声終端から単語単位で文仮設を展開して行くが、この時、ヒューリスティックの尤度スコアが高い単語から優先的に仮設を音声始端方向に展開することによって、常に、音声区間全体の尤度スコアを最大化するような効率的な探索が可能である。
又、前記後向探索手段の実行においては、(式2)の尤度スコアg(T:t,W)として、単語系列Wに対する言語尤度スコアのみを用いてもよいし、単語系列Wに対する音響尤度スコアを計算し、言語尤度スコアを加算して用いてもよい。
この後向探索における言語尤度スコアの演算は後向言語モデルを用い、この後向言語モデルは学習で用いたテキストの単語系列を逆転させたテキストを用いることによって容易に学習可能である。
例えば、「本郷亭 に お願い します」という単語系列の学習テキストがある場合には、これを反転させた「します お願い に 本郷亭」という単語系列を用いて確率パラメータを推定すればよい。
又、前記後向探索手段の実行においては、(式2)の尤度スコアg(T:t,W)として、単語系列Wに対する言語尤度スコアのみを用いてもよいし、単語系列Wに対する音響尤度スコアを計算し、言語尤度スコアを加算して用いてもよい。
この後向探索における言語尤度スコアの演算は後向言語モデルを用い、この後向言語モデルは学習で用いたテキストの単語系列を逆転させたテキストを用いることによって容易に学習可能である。
例えば、「本郷亭 に お願い します」という単語系列の学習テキストがある場合には、これを反転させた「します お願い に 本郷亭」という単語系列を用いて確率パラメータを推定すればよい。
以上のように、前向探索手段の実行によって特徴パラメータ系列から単語系列である前向認識結果Wi(i=1〜n)が出力されて記憶装置に記憶されるし、後向探索手段によって特徴パラメータ系列から単語系列である後向認識結果Uj(j=1〜m)が出力されて記憶装置に記憶される。
尚、後向認識結果Uj(j=1〜m)は、1つの発話を終端から始端に向けて認識した結果の単語系列であり、前向認識結果Wi(i=1〜n)に対応させることができる。
尚、後向認識結果Uj(j=1〜m)は、1つの発話を終端から始端に向けて認識した結果の単語系列であり、前向認識結果Wi(i=1〜n)に対応させることができる。
次に、前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)を比較する認識比較結果手段について、図3(A)のフローを参照して説明する。
1つの発話に対する前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)は、同じ発話に対する単語列であるが、各々の単語数であるnとmは必ずしも一致するとは限らない。
そこで、先ず、前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)を記憶装置から読み出して(S1)、DPマッチングによって(S2)、Wi(i=1〜n)とUj(j=1〜m)が最もよくマッチングするような対応付けを行い、そのマッチングの比較結果を記憶する(S3)。
1つの発話に対する前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)は、同じ発話に対する単語列であるが、各々の単語数であるnとmは必ずしも一致するとは限らない。
そこで、先ず、前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)を記憶装置から読み出して(S1)、DPマッチングによって(S2)、Wi(i=1〜n)とUj(j=1〜m)が最もよくマッチングするような対応付けを行い、そのマッチングの比較結果を記憶する(S3)。
認識比較結果手段のDPマッチングの操作を図2(B)及び図3(B)の例示に基づいて説明する。
図2(B)は「本郷亭にお願いします」という発話において、「未知語(本郷亭)」に起因する誤りを含んだ前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)を示している。
DPマッチングによる単語系列の比較は、長さを異にする2つの単語列を動的計画法(DP)を用いて最もよく一致する対応関係を求めることである。例えば、極端な長さの伸縮を防ぐために、DPパスとコストを図3(B)の右の説明に示すように定めた場合、Wi(i=1〜n)とUj(j=1〜m)をXーY軸に配置したグリッドで、コストを最小にする最適パスを求める。尚、このDPパスでは、右方向に移動して一致したときのコストを「+2」、一致しなかったときのコストを「+4」、右斜め上に移動して一致したときのコストを「+1」、一致しなかったときのコストを「+2」と定義してある。
図2(B)は「本郷亭にお願いします」という発話において、「未知語(本郷亭)」に起因する誤りを含んだ前向認識結果Wi(i=1〜n)と後向認識結果Uj(j=1〜m)を示している。
DPマッチングによる単語系列の比較は、長さを異にする2つの単語列を動的計画法(DP)を用いて最もよく一致する対応関係を求めることである。例えば、極端な長さの伸縮を防ぐために、DPパスとコストを図3(B)の右の説明に示すように定めた場合、Wi(i=1〜n)とUj(j=1〜m)をXーY軸に配置したグリッドで、コストを最小にする最適パスを求める。尚、このDPパスでは、右方向に移動して一致したときのコストを「+2」、一致しなかったときのコストを「+4」、右斜め上に移動して一致したときのコストを「+1」、一致しなかったときのコストを「+2」と定義してある。
例えば、前向認識結果として、W1が「ほんほう」、W2が「で」、W3が「に」、W4が「お願い」、W5が「します」、後向認識結果として、U1が「本」、U2が「の」、U3が「お店」、U4が「に」、U5が「お願い」、U6が「します」である場合には、DPマッチングによる最適パスは図3(B)に示す通りなる。従って、DPマッチングを用いた比較による部分一致の単語系列は、「に(W3とU4) お願い(W4とU5) します(W5とU6)」となる(図3(C))。
しかし、(Wi)「ほんほう で に お願いします」と、(Uj)「本 の お店 に おねがい します」の2つの単語系列に対する認識比較手段の処理を、図2(C)の下段に示すように音素系列で比較してもよい。この音素系列に対し、認識比較結果手段によって比較すると、両者で「h o N」と「o」と「e n i o n e g a i sh i m a s u」が一致する。これらのうち、例えば、「ほん」と「本」などのような日本語の仮名漢字による表記揺れを解消した認識結果の比較も可能になる。
しかし、(Wi)「ほんほう で に お願いします」と、(Uj)「本 の お店 に おねがい します」の2つの単語系列に対する認識比較手段の処理を、図2(C)の下段に示すように音素系列で比較してもよい。この音素系列に対し、認識比較結果手段によって比較すると、両者で「h o N」と「o」と「e n i o n e g a i sh i m a s u」が一致する。これらのうち、例えば、「ほん」と「本」などのような日本語の仮名漢字による表記揺れを解消した認識結果の比較も可能になる。
次に、前記単語の比較結果に基づいて、信頼度判定手段に基づく信頼度区間の判定について、図3(D)に示すフローを参照して説明する。
先ず、前記記憶装置に記憶された単語系列の比較結果を読み出し(S20)、その連続して一致している数(s)を計数する(S21)。そして、その数sが予め設定された設定値Sと比較し(S22)、計数値sが設定値S以上であるとき、連続一致した部分単語系列を信頼区間と判定する(S23)。
そして、以上の過程(S20〜S23)を記憶してある比較結果の全てについて実施し(S24)、これらの結果を信頼度付き認識結果として出力する(S25)。或は、後述の第2の実施の形態で説明する話者適応で用いるために、音素系列の学習データとして記憶装置に記憶する(図4、図5(B))。
先ず、前記記憶装置に記憶された単語系列の比較結果を読み出し(S20)、その連続して一致している数(s)を計数する(S21)。そして、その数sが予め設定された設定値Sと比較し(S22)、計数値sが設定値S以上であるとき、連続一致した部分単語系列を信頼区間と判定する(S23)。
そして、以上の過程(S20〜S23)を記憶してある比較結果の全てについて実施し(S24)、これらの結果を信頼度付き認識結果として出力する(S25)。或は、後述の第2の実施の形態で説明する話者適応で用いるために、音素系列の学習データとして記憶装置に記憶する(図4、図5(B))。
以上に示した図3(D)のフローを、図2(B)に示す前向認識結果Wiと後向認識結果Ujに適用する場合について説明する。
先ず、図3(C)に示す比較結果を記憶装置から読み出して、連続して一致している単語数(s)を計数すると、s=3になる。例えば、設定値S=3に設定すると、(s≧S)を満たすので、信頼区間として、「に(W3、U4)、お願い(W4、U5)、します(W5、U6)」が得られる。
先ず、図3(C)に示す比較結果を記憶装置から読み出して、連続して一致している単語数(s)を計数すると、s=3になる。例えば、設定値S=3に設定すると、(s≧S)を満たすので、信頼区間として、「に(W3、U4)、お願い(W4、U5)、します(W5、U6)」が得られる。
(第2の実施の形態)
次に、前記認識結果の信頼区間を用いた教師なし話者適応を備えた音声認識装置について、図4と図5を参照して説明する。
ここで音響モデルの話者適応とは、不特定話者用に学習された連続分布型HMMの各状態ごとに有している確率分布(通常は混合ガウス分布を用いる)の平均値と分散の各パラメータを、特定の話者の音声サンプルに対し音響尤度スコアが高くなるように変換を行うことである。
通常、話者適応においては、所定の話者の音声サンプルと共に、その正確な発声内容を記した音素ラベルを教師データとして与えることによってパラメータの適応を行う。これに対し教師なし話者適応とは、音声サンプルの正確な発声内容を与える代わりに音声サンプルを適応前の音響モデルを用いて認識させた結果、得られる音素ラベルを用いる。
次に、前記認識結果の信頼区間を用いた教師なし話者適応を備えた音声認識装置について、図4と図5を参照して説明する。
ここで音響モデルの話者適応とは、不特定話者用に学習された連続分布型HMMの各状態ごとに有している確率分布(通常は混合ガウス分布を用いる)の平均値と分散の各パラメータを、特定の話者の音声サンプルに対し音響尤度スコアが高くなるように変換を行うことである。
通常、話者適応においては、所定の話者の音声サンプルと共に、その正確な発声内容を記した音素ラベルを教師データとして与えることによってパラメータの適応を行う。これに対し教師なし話者適応とは、音声サンプルの正確な発声内容を与える代わりに音声サンプルを適応前の音響モデルを用いて認識させた結果、得られる音素ラベルを用いる。
音響モデルの教師なし話者適応では、認識結果の音素ラベルの信頼性が問題となる。未知語やサーチエラーによる誤認識が生じた場合、得られる音素ラベルが実際の発話内容と著しく異なるものになってしまい、音響モデルの不適切なパラメータの適応によって認識性能に悪影響を及ぼすことが懸念される。
そこで、本実施形態では前記第1の実施形態によって得られる信頼度付きの認識結果を用いることによって、信頼性の高い音声サンプルのみを学習データとして話者適応を行うことによって、認識率が低い場合でも効果の高い教師なし話者適応を実現する。
そこで、本実施形態では前記第1の実施形態によって得られる信頼度付きの認識結果を用いることによって、信頼性の高い音声サンプルのみを学習データとして話者適応を行うことによって、認識率が低い場合でも効果の高い教師なし話者適応を実現する。
本実施形態の構成は、図4、図5に記載してあり、前記第1の実施の形態に話者適応手段等を加えたものであり、前記第1の実施の形態と同じ構成は同じ名称を附して説明を略す。
本実施形態は、記憶装置に学習データが記憶してあり、先ず、制御装置を介して実行される話者適応手段によって、記憶装置から適応する音響モデルを読み込む(S30)。
次に、前記第1の実施例の音声認識装置により信頼区間と判定され、記憶されている学習データ(音素ラベル)を読み込む(S31)。更に、該信頼区間に対応する特徴パラメータ系列を読み込む(S32)。
尚、この信頼区間に対応する特徴パラメータ系列は、信頼区間の単語系列の先頭単語の始端フレームから、信頼区間の終端単語の終端フレーム間を選択して用いればよい。
本実施形態は、記憶装置に学習データが記憶してあり、先ず、制御装置を介して実行される話者適応手段によって、記憶装置から適応する音響モデルを読み込む(S30)。
次に、前記第1の実施例の音声認識装置により信頼区間と判定され、記憶されている学習データ(音素ラベル)を読み込む(S31)。更に、該信頼区間に対応する特徴パラメータ系列を読み込む(S32)。
尚、この信頼区間に対応する特徴パラメータ系列は、信頼区間の単語系列の先頭単語の始端フレームから、信頼区間の終端単語の終端フレーム間を選択して用いればよい。
そして、話者適応手段は、前記音響モデルや特徴パラメータ及び学習データを用いて、新たな適応後の音響モデルの確率分布パラメータを更新する(S33)。
尚、話者適応の方法には、例えば、公知技術として用いられているMAP(maximum a posteriori)推定アルゴリズムやMLLR(maximum likelihood linear regression)アルゴリズム、あるいはこれらの組み合わせ方法(MAPLRアルゴリズム)などを用いる。そして、前記適応後音響モデルは記憶装置に保存される(S34)。
尚、話者適応の方法には、例えば、公知技術として用いられているMAP(maximum a posteriori)推定アルゴリズムやMLLR(maximum likelihood linear regression)アルゴリズム、あるいはこれらの組み合わせ方法(MAPLRアルゴリズム)などを用いる。そして、前記適応後音響モデルは記憶装置に保存される(S34)。
以上に示した図5(A)のフローを、図5(B)の例示を用いて、より具体的に説明する。
例えば、前記音声認識装置の前向認識結果(Wi)として、「ほんほう で に お願い します」という単語系列が得られ、後向認識結果(Uj)として「本 の お店 に お願い します」という単語系列が得られた場合、前記信頼度判定手段により得られた信頼区間の単語系列は「に お願い します」となる。
この単語系列を音素系列に変換すると「n i o n e g a i sh i m a s u」となり、これを学習データとして記憶装置に保存する。
例えば、前記音声認識装置の前向認識結果(Wi)として、「ほんほう で に お願い します」という単語系列が得られ、後向認識結果(Uj)として「本 の お店 に お願い します」という単語系列が得られた場合、前記信頼度判定手段により得られた信頼区間の単語系列は「に お願い します」となる。
この単語系列を音素系列に変換すると「n i o n e g a i sh i m a s u」となり、これを学習データとして記憶装置に保存する。
次に、記憶装置から前記学習データに対応する特徴パラメータ系列を読み込む(S32)。この時、学習データに対応する特徴パラメータ系列は、前記信頼区間の単語系列「に お願い します」の先頭単語「に」の始端フレームから、終端単語「します」の終端フレームの間を選択して用いる。
そして、話者適応手段は記憶装置から読み込んだ音響モデルと、前記学習データ、及び前記学習データに対応する特徴パラメータ系列を用いて、音響モデルの確率分布パラメータを更新し、適応後音響モデルとして出力する。
以上により、新たな音声信号に対しては、前記更新された確率分布パラメータを有する適応後音響モデルを用いて、前記音声認識装置の前向探索手段あるいは後向探索手段で再度認識を行うことによって、より認識性能の向上を図ることができる。
尚、前記適応後音響モデルは、実施例とは別の音声認識装置で読み込んで使用してもよい。
そして、話者適応手段は記憶装置から読み込んだ音響モデルと、前記学習データ、及び前記学習データに対応する特徴パラメータ系列を用いて、音響モデルの確率分布パラメータを更新し、適応後音響モデルとして出力する。
以上により、新たな音声信号に対しては、前記更新された確率分布パラメータを有する適応後音響モデルを用いて、前記音声認識装置の前向探索手段あるいは後向探索手段で再度認識を行うことによって、より認識性能の向上を図ることができる。
尚、前記適応後音響モデルは、実施例とは別の音声認識装置で読み込んで使用してもよい。
Claims (4)
- 音声入力手段と、制御装置と記憶装置を備える音声認識装置であって、
前記制御装置を介して実行される音響分析手段によって、前記音声入力手段から入力された音声信号を特徴パラメータ系列に変換し、この特徴パラメータ系列を前記記憶装置に記憶し、
前記制御装置を介して実行される前向探索手段によって、前記記憶装置に記憶された特徴パラメータ系列の始端から、前記記憶装置に予め記憶された音響モデル及び前向言語モデルを用いて探索を行い、前向認識結果を得て、この前向認識結果を記憶装置に記憶し、
前記制御装置を介して実行される後向探索手段によって、前記記憶装置に記憶された特徴パラメータ系列の終端から、前記記憶装置に予め記憶された音響モデル及び後向言語モデルを用いて探索を行い、後向認識結果を得て、この後向認識結果を記憶装置に記憶し、
前記制御装置を介して実行される認識結果比較手段によって、前記記憶装置に記憶された前向認識結果と後向認識結果の単語による比較結果を得て、この比較結果を記憶装置に記憶し、
前記制御装置を介して実行される信頼度判定手段によって、前記記憶装置に記憶された比較結果のうち部分的に一致している単語を信頼区間であると判定することを特徴とする音声認識装置。 - 請求項1の音声認識装置において、前記認識結果比較手段によって、記憶装置に記憶された前向認識結果と後向認識結果の音素による比較結果を得て、この比較結果を記憶装置に記憶し、前記信頼度判定手段によって、前記記憶装置に記憶された比較結果のうち部分的に一致している音素を信頼区間であると判定することを特徴とする音声認識装置。
- 請求項1又は請求項2で得られた信頼区間の音素系列を学習データとして記憶装置に記憶し、この記憶された該学習データと、これに対応する前記記憶装置に記憶された特徴パラメータ系列を用いて、音響モデルのパラメータを更新する、制御装置を介して実行される話者適用手段を備えることを特徴とする請求項1又は請求項2の音声認識装置。
- 請求項1〜請求項3の音声認識装置をコンピュータで実現するためのプログラム、又は当該プログラムを記憶の記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321883A JP2005091504A (ja) | 2003-09-12 | 2003-09-12 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003321883A JP2005091504A (ja) | 2003-09-12 | 2003-09-12 | 音声認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005091504A true JP2005091504A (ja) | 2005-04-07 |
Family
ID=34453425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003321883A Pending JP2005091504A (ja) | 2003-09-12 | 2003-09-12 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005091504A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169154A (ja) * | 2008-01-17 | 2009-07-30 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013182261A (ja) * | 2012-03-05 | 2013-09-12 | Nippon Hoso Kyokai <Nhk> | 適応化装置、音声認識装置、およびそのプログラム |
WO2014108981A1 (ja) * | 2013-01-09 | 2014-07-17 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
CN107004408A (zh) * | 2014-12-09 | 2017-08-01 | 微软技术许可有限责任公司 | 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和*** |
-
2003
- 2003-09-12 JP JP2003321883A patent/JP2005091504A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169154A (ja) * | 2008-01-17 | 2009-07-30 | Kddi Corp | 音声認識方法および装置ならびに音声認識プログラムおよびその記録媒体 |
JP2011075973A (ja) * | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2013182261A (ja) * | 2012-03-05 | 2013-09-12 | Nippon Hoso Kyokai <Nhk> | 適応化装置、音声認識装置、およびそのプログラム |
WO2014108981A1 (ja) * | 2013-01-09 | 2014-07-17 | 日本電気株式会社 | 車載情報システムおよび音声認識適応方法 |
CN107004408A (zh) * | 2014-12-09 | 2017-08-01 | 微软技术许可有限责任公司 | 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和*** |
CN107004408B (zh) * | 2014-12-09 | 2020-07-17 | 微软技术许可有限责任公司 | 用于基于将语义知识图的至少一部分转换为概率状态图来确定口语对话中的用户意图的方法和*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
US8515758B2 (en) | Speech recognition including removal of irrelevant information | |
KR101120765B1 (ko) | 스위칭 상태 스페이스 모델과의 멀티모덜 변동 추정을이용한 스피치 인식 방법 | |
JPH11175090A (ja) | 話者クラスタリング処理装置及び音声認識装置 | |
JPH0372998B2 (ja) | ||
JPWO2007142102A1 (ja) | 言語モデル学習システム、言語モデル学習方法、および言語モデル学習用プログラム | |
JP2006038895A (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR20050082253A (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP4340685B2 (ja) | 音声認識装置及び音声認識方法 | |
JP6031316B2 (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
JPH0962291A (ja) | 記述長最小基準を用いたパターン適応化方式 | |
JP2751856B2 (ja) | 木構造を用いたパターン適応化方式 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2002358097A (ja) | 音声認識装置 | |
AU2012385479B2 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JPH1185186A (ja) | 不特定話者音響モデル生成装置及び音声認識装置 | |
JP2005091504A (ja) | 音声認識装置 | |
JP3589044B2 (ja) | 話者適応化装置 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP3873418B2 (ja) | 音声スポッティング装置 | |
JPH08241096A (ja) | 音声認識方法 | |
JP3926716B2 (ja) | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060605 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090915 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100202 |