JP3615088B2 - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置 Download PDF

Info

Publication number
JP3615088B2
JP3615088B2 JP18321699A JP18321699A JP3615088B2 JP 3615088 B2 JP3615088 B2 JP 3615088B2 JP 18321699 A JP18321699 A JP 18321699A JP 18321699 A JP18321699 A JP 18321699A JP 3615088 B2 JP3615088 B2 JP 3615088B2
Authority
JP
Japan
Prior art keywords
matching
section
recognition
feature vector
silent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP18321699A
Other languages
English (en)
Other versions
JP2001013988A (ja
Inventor
亮典 小柴
三慶 舘森
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP18321699A priority Critical patent/JP3615088B2/ja
Publication of JP2001013988A publication Critical patent/JP2001013988A/ja
Application granted granted Critical
Publication of JP3615088B2 publication Critical patent/JP3615088B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、発声された音声を高精度に認識するのに好適な音声認識方法及び装置に関する。
【0002】
【従来の技術】
近年、音声認識技術は、優れたマンマシンインタフェースを実現する上で重要な役割を担っている。最近では、HMMを用いたワードスポッティングや連続音声認識など、発声者の発声方式に制約を要求しない、自然発話認識のための研究や開発が盛んに行われている。従来これらの音声認識手法においては、入力信号から、話者が音声を発声していると判断される区間を切り出し、その部分を標準パターンとマッチングさせることにより、発話内容を認識していた。
【0003】
ところが、実際の自然発話においては、発声区間と判断された部分にも、促音や、摩擦音、無声化した有声音など、信号のパワーの低い無音区間が生じることがある。信号のパワーの低い区間では、背景雑音の影響が相対的に大きくなるため、信号のスペクトルが安定せず、その結果誤ったパターンとマッチングしてしまい、誤認識が生じることがしばしばあった。
【0004】
更に、このような自然発話において生じるパワーの低い無音区間は、予め予期することが難しいため、標準パターンとして登録しておくことができなかった。
【0005】
【発明が解決しようとする課題】
このように従来は、発声区間として検出された区間内に、パワーの低い無音区間が存在すると、その部分においては背景雑音のスペクトルが支配的となり、誤ったパターンマッチングが生じるという問題があった。また、発声区間内において、パワーが低くなる区間は予め予期することが難しく、そのため、それらのパターンを標準パターンとして登録することができない、という問題もあった。
【0006】
本発明は、上記事情を考慮してなされたもので、発声区間内に、不規則に発生するパワーの低い無音区間が存在しても、その影響を受けることなく、高精度の認識を可能とする音声認識方法及び装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明は、入力される信号を音響分析して音声が発声された区間を検出して、検出した発声区間の音声信号から特徴ベクトル系列を抽出し、前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを第1の照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算し、各認識候補ごとの照合スコアに基づいて認識結果を判定する音声認識方法において、上記検出した発声区間の音声信号の短時間パワーから音声信号の無音区間を検出し、その無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき無音区間の影響を考慮した第2の照合方式を用いて照合することにより照合スコアを計算することを特徴とする。ここで、第1の照合方式にHMM(隠れマルコフモデル)照合方式を適用し、第2の照合方式にナル遷移を許すHMM照合方式を適用するとよい。
【0008】
本発明によれば、発声区間内に予期しないパワーの低い無音区間が存在していたとしても、その無音区間を検出して、標準パターンとの照合の際には無音区間を除いて照合を行うことにより、無音区間における誤ったパターンマッチングを回避することができ、高精度な認識が可能となる。しかも本発明においては、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき無音区間の影響を考慮した第2の照合方式、例えばナル遷移を許すHMM照合方式を適用することから、無音区間(の特徴ベクトル)を照合に用いなかったことによる状態遷移の矛盾が生じない。
【0009】
ここで、無音区間から有音区間へ切り替わった時刻にナル遷移を許す場合、その際のHMMの状態(第1の状態i)へのナル遷移を起こすHMMの状態として、直前の時刻(フレーム)における状態i以前の状態のうち最適経路の照合スコアが最大となる状態(第2の状態j)を選択することで、状態jから状態iへのナル遷移を起こし、状態iの上記直前の時刻における照合スコアを、状態jの同時刻における照合スコアに置き換えるとよい。この状態iへのナル遷移が可能な状態を、無音区間の継続時間などによって制限するようにしてもよい。
【0010】
また本発明は、発声区間の音声信号の短時間パワーに基づく無音区間の検出を、異なる閾値を用いて独立に行い、発声区間の音声信号から抽出された特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを、上記異なる閾値に基づいて独立に検出される無音区間の情報に基づいて、隠れマルコフモデル照合方式にて照合することにより、各閾値別に照合スコアを計算し、その際に対応する閾値に基づいて検出した無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻にのみ、ナル遷移を許す隠れマルコフ照合方式を適用し検出し、各閾値別に求めた各認識候補ごとの照合スコアに基づいて認識結果を判定することをも特徴とする。
【0011】
このように、各閾値別に得られる無音区間情報を用いて、各閾値別に、対応する無音区間をパターン照合の対象外として各認識候補ごとの照合スコアを求め、その照合スコアに基づいて認識結果を判定することで、無音区間における誤ったマッチングの影響を減らすことができる。
【0012】
ここで、1つの閾値について各認識候補ごとの照合スコアを計算する都度、その認識候補ごとの照合スコアに基づいて認識候補を絞り、その動作を、上記閾値を一定方向に段階的に切り替えながら繰り返すようにするとよい。なお、異なる閾値を用いた無音区間の検出自体は、並行して行っても、閾値を切り替えながら順次行っても構わない。前者の場合には、無音区間の検出結果を記憶しておく必要がある。また、後者の場合には、少なくとも発声区間の音声信号を記憶しておく必要がある。
【0013】
このように、無音区間検出用の閾値(パワーの閾値)を一定方向に段階的に変えて、認識候補の枝刈りをしながらパターン照合を行うことにより、段階的に認識候補を絞ることができ、認識の精度を向上させ、誤認識を減らすことができる。
【0014】
ここで、閾値の切り替えを当該閾値が小さくなる方向に行うならば、認識候補の選択の際に、スペクトルが安定するパワーの大きな部分に重みをかけることができ、スペクトルが不安定なパワーの低い区間の影響を減らすことができる。
【0015】
また、閾値の切り替えを当該閾値が大きくなる方向に行うようにしてもよい。この場合、最初は無音区間における誤ったマッチングが許されて複数の認識候補が選択されるものの、正解候補は無音区間以外では正しくマッチングするので上位候補に入り、徐々に閾値を大きくしてマッチングを行うことにより、無音区間における誤ったマッチングの影響を減らすことができ、最終的に正しい正解候補を検出することができる。
【0016】
また、閾値を一定方向に段階的に切り替えながら認識候補を絞るのではなく、同一認識候補について各閾値別に得られる照合スコアの重み付け和を算出する処理を全ての認識候補について実行し、その全認識候補各々の照合スコアの重み付け和に基づいて認識結果を判定することも可能である。
この場合、無音区間の影響を任意に照合スコアに反映させることができ、これにより無音区間における誤ったマッチングの影響を減らすことができる。
【0017】
なお、方法に係る本発明は装置に係る発明としても成立する。
また、本発明は、コンピュータに当該発明に相当する手順を実行させるための(或いはコンピュータを当該発明に相当する手段として機能させるための、或いはコンピュータに当該発明に相当する機能を実現させるための)プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。
【0018】
【発明の実施の形態】
以下、本発明の実施の形態につき図面を参照して説明する。
【0019】
[第1の実施形態]
図1は、本発明の第1の実施形態に係る音声認識装置を概略的に示すものである。
図1に示す音声認識装置は、入力された信号を分析して発声区間を検出する発声区間検出部101と、この発声区間検出部101で検出された発声区間の音声信号を音響分析することにより、特徴ベクトルを抽出する特徴ベクトル抽出部102と、発声区間検出部101で検出された発声区間の音声信号から、当該音声信号のパワーを用いて無音区間を検出する無音区間検出部106と、予め学習された所定の各認識候補の標準特徴パターンが記憶されている標準特徴パターン記憶部104と、無音区間検出部106で検出された無音区間情報を用いて、特徴ベクトル抽出部102で抽出された特徴ベクトル系列と、標準特徴パターン記憶部104に記憶された各認識候補の標準特徴パターンとを、HMMを用いた照合方式で照合するパターン照合部103と、このパターン照合部103で得られる認識候補ごとの照合結果をもとに、認識された発声内容を判定する、認識結果判定部105とを具備している。
【0020】
なお図1では、発声者が発声した音声を入力してデジタルの電気信号(デジタル音声信号)に変換する、マイクロホン、A/D(アナログ/デジタル)変換器を含む音声入力部は省略されている。
【0021】
次に、図1の構成の音声認識装置の処理概念を説明する。
発声区間検出部101において検出された発声区間の音声信号は、特徴ベクトル抽出部102で、予め定められた複数の周波数帯域毎に周波数分析され、特徴ベクトル系列(特徴ベクトル時系列){xt}に変換される。特徴ベクトル(特徴パラメータ)はフレームと呼ばれる固定の時間長を単位に求められる。音声認識に使用される代表的な特徴ベクトルとしては、バンドパスフィルタまたはフーリエ変換によって求めることができるパワースペクトラムや、LPC(線形予測)分析によって求められるケプストラム係数などがよく知られている。但し、本実施形態では、使用する特徴ベクトルの種類は問わない。
特徴ベクトル抽出部102により抽出された特徴ベクトルの時系列は、パターン照合部103に送られる。
【0022】
一方、上記発声区間の音声信号は、無音区間検出部106にも送られ、当該音声信号の短時間パワーから、上記特徴ベクトル系列のフレームと同期して無音区間が検出される。図2はこの部分の処理によって、無音区間が検出された信号の様子を概念的に表わしている。図2の横軸は時間、縦軸は信号の短時間パワーであり、THは予め設定されているパワーの閾値である。
【0023】
無音区間検出部106では、各時刻tの短時間パワーの値Ptとパワーの閾値THが毎時刻比較され、Pt<THとなる区間が無音区間と判定される。このようにして得られた無音区間を示す情報(無音区間情報)は、パターン照合部103に送られる。なお、ここで時刻tは、発声区間におけるt番目のフレームを指す。
【0024】
パターン照合部103では、入力された特徴ベクトル系列、無音区間情報、及び予め学習しておいた標準特徴パターン(標準パターン)を用いて、パターン照合が行われる。標準特徴パターンは、所定の認識候補(認識単位)ごとにHMMとして標準特徴パターン記憶部104に予め記憶されている。認識の際には、このHMMをそのまま、或いは組み合わせて用いる。
【0025】
図3は、照合に用いられるHMMの構造を表わしている。ここで状態遷移のうち符号cが付された遷移はナル遷移であり、符号a,bが付された遷移はそれぞれ、通常の状態遷移及び自己ループである。なお、図3のHMMでは、ナル遷移はすべての状態間に仮定しているが、ここに制約を設けてナル遷移が生じる状態を制限することも可能である。
【0026】
次に、パターン照合部103で適用される、図3の構造のHMMを用いたパターン照合方式について図4のフローチャートを参照して説明する。
ステップS101では、入力された時刻tの信号、即ちt番目のフレームの信号が発声区間であるか否かが、発声区間検出部101での検出結果に基づいて判定される。時刻tの入力信号が発声区間の信号である場合にはステップS102に、発声区間の信号でなければステップS106に進む。
【0027】
ステップS102では、無音区間検出部106での検出結果に基づいて、入力された時刻tの信号が無音区間の信号であるか否かが判定される。無音区間の信号と判定された場合にはステップS107に、有音区間の信号と判定された場合にはステップS103に進む。
【0028】
ステップS103では、フラグ(FLAG)の値が評価される。フラグは0または1の値を取り、時刻t−1の信号(つまり1フレーム前の信号)が無音区間に属していたか(FLAG=0の場合)、有音区間に属していたか(FLAG=1の場合)を示す。フラグの値が0の場合には時刻tが(時刻t−1までの)無音区間から有音期間に切り替わった(変化した)時刻であると判定されて最終ステップS108に、1の場合には無音区間が継続していると判定されてステップS104に進む。
【0029】
ステップS104では、図3に示されるHMMにおいて、時刻tの信号に対する、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される。決定後、ステップS105に進む。
ステップS105では、時刻tが次の時刻t+1に設定され、ステップS101に戻る。
【0030】
ステップS106では、各認識候補ごとに、図3に示されたHMMにおいて、発声区間終了時刻tで照合スコアが最大となる状態が選択され、その認識候補ごとの照合スコアが認識結果判定部105に送られ、処理を終了する。ここで照合スコアは、周知のように入力音声信号の特徴ベクトル系列と標準特徴パターンとの類似度または距離を表す評価値である
ステップS107では、ステップS102で時刻tの信号が無音区間の信号であると判定されたことを受け、前述したフラグの値を0に設定し、ステップS105に進む。ここでは、パターン照合は行われず、したがって時刻tにおける特徴ベクトルはパターン照合の対象外とされ、各状態の照合スコアは更新されない。
【0031】
ステップS108では、ステップS103で時刻tの信号が、無音区間から有音区間へ切り替わった時刻であると判定されたことを受け、図3に示されたHMMにおいて、まずナル遷移を行い、各状態における時刻t−1における照合スコアを更新する。照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される。決定後、ステップS109へ進む。この部分の処理の詳細は、後述する。
【0032】
ステップS109では、ステップS102で時刻tの信号が有音区間の信号であると判定されたことを受けて、前述したフラグの値を1に設定し、ステップS105に進む。
【0033】
以上が、本発明に直接関係するパターン照合方式の概略と流れである。
上記パターン照合方式を適用したパターン照合部103での処理により、すべての認識候補の照合スコアが計算され、認識結果判定部105において最大スコアをとる認識候補が認識結果として選択される。
【0034】
ここで、無音区間から有音区間へ切り替わった時刻tにおける上記ステップS108の処理の詳細について、図5のフローチャートを参照して説明する。
時刻tにおいて、まずステップS401で状態番号iが最終状態に設定される。
【0035】
ステップS402では、状態iについて、状態0から状態iのうち、時刻t−1(1フレーム前)における最適経路の照合スコアが最大となる状態jが選択される。
【0036】
ステップS403では、状態jから状態iへのナル遷移が起こり、状態iの時刻t−1(1フレーム前)における照合スコアが、状態jの同時刻t−1における照合スコアに置き換えられる。
【0037】
ステップS404では、状態iが先頭の状態0であるかどうかが判定される。状態0である場合には最終ステップS406に、そうでなければステップS405に進む。
【0038】
ステップS405では、iが1だけカウントダウンされ、ステップS402に戻る。
ステップS406では、すべての状態に対して、時刻tにおける、ナル遷移を除く最適経路、及びその照合スコアが求められる。
【0039】
このように無音区間から有音区間へ切り替わった時刻にナル遷移を考えることにより、無音区間の特徴ベクトルを照合に用いなかった影響を取り除くことができる。なお、ここでは、状態iへのナル遷移は、状態0から状態iのすべての状態から起こり得るとしているが、ここに制約を設けて、例えば、無音区間の継続時間などによって状態iへのナル遷移が可能な状態を制限する(継続時間が短いほど状態数を減らす)ことも可能である。また無音区間の継続時間が所定の閾値以下の場合には、ナル遷移を起こさないようにすることも可能である。更に、ここでは、ナル遷移が可能な状態を最終状態から先頭の状態すべてについて探索しているが、これは必ずしもすべての状態について行う必要はなく、予め事前情報に基づいて無音区間が発生しやすい状態についてのみナル遷移を行うことも可能である。
【0040】
次に、本実施形態の効果を図6乃至図9を参照して説明する。
図6は「とさか(TOSAKA)」と発声したときの、信号のパワーのイメージ図である。ここで、時刻T0,T7はそれぞれ、発声区間の始端時刻、終端時刻を示している。また、時刻T0−T1,T2−T3,T4−T5,T6−T7の各区間は、それぞれ、パワーの閾値THにより無音区間と判定された区間である。
【0041】
一般に発声区間中の無音区間は、促音や摩擦音、有声音の無声化などにより発生し、この区間内では、背景雑音の影響が相対的に大きくなるため、誤ったパターンとのマッチングが起こりやすい。そしてその結果、誤認識が生じることがある。図6によれば、T0からT1、T2からT3、T4からT5、及びT6からT7の区間で誤ったパターンマッチングが生じる虞がある。
【0042】
図7は、T2からT3の区間における音声信号の短時間パワーの様子と発生内容(ここでは音素列で表現)を更に詳細に示したものである。この例では、摩擦音/S/に相当する区間は、完全に閾値TH以下となっている。上述したように、この場合、パワーの閾値TH以下であるT2からT3の区間は、誤ったマッチングを起こしやすい。
【0043】
図8は、簡単のため1つの音素を1状態で表わした「TOSAKA」を表わすHMMである。ここでは簡単のため、状態/O//S//A//K//A/からのナル遷移については省略してある。
【0044】
図8のようなHMMに対して、先に述べたパターン照合方式を適用すると、T2からT3の区間(音声信号の無音区間)では、特徴ベクトル系列が照合に用いられないように制御される。このため、音声信号の有音区間、無音区間に無関係に特徴ベクトル系列が照合に用いられる従来技術とは異なって、T2からT3の区間(無音区間)における誤ったマッチングが生じることがなく、したがって照合スコアに悪影響を与えることがない。しかも、本実施形態で適用されるパターン照合方式では、無音区間から有音区間へ変わる時刻にはナル遷移を許しているので、無音区間を照合に用いなかったことによる状態遷移の矛盾が生じない。
【0045】
以上の結果、本実施形態では、照合スコアに悪影響を与えることなく、図9で示したような遷移が可能になる。この例では、音素/S/に相当する特徴ベクトルのパワーが、パワーの閾値TH以下となっているため、この部分の特徴ベクトルが照合に使われず、それを表現するために、音素/O/から音素/A/へのナル遷移を許し、音素/S/の状態を経由することを回避している。
このことは、T2−T3以外の無音区間(T0−T1,T4−T5,T6−T7)についても全く同様に考えられる。
【0046】
発声区間が終了した場合には、すべての状態の、時刻T7における最適な状態遷移経路、及びそのときの照合スコアが求まるので、最大となるスコアを認識結果の判定に用いればよい。
【0047】
この方法を用いれば、発声に対する認識候補の照合において、無音区間の誤ったマッチングにより、誤った認識候補の照合スコアが大きくなることを回避できる。その結果、照合スコアの精度が向上するので、認識率の改善につながる。 以上が本発明の第1の実施形態に係る音声認識装置の構成、作用、効果の詳細な説明である。
【0048】
[第2の実施形態]
図10は、本発明の第2の実施形態に係る音声認識装置を概略的に示すものである。
【0049】
図10に示す音声認識装置は、発声区間検出部201、特徴ベクトル抽出部202、パターン照合部203、標準特徴パターン記憶部204、認識結果判定部205、及びN個の無音区間検出部(#1)206−1〜(#N)206−Nとを具備している。
【0050】
図10の構成の特徴は、(図1中の無音区間検出部106に相当する)N個の無音区間検出部#1(206−1)〜#N(206−N)により、予め用意された異なる信号のパワーの閾値TH1〜THNに基づいて(発声区間の)音声信号の無音区間が検出されるようになっている点にある。このため、(図1中のパターン照合部103、認識結果判定部105に相当する)パターン照合部203、認識結果判定部205の機能も、後述するように一部異なっている。なお、それ以外の構成要素、即ち発声区間検出部201、特徴ベクトル抽出部202、標準特徴パターン記憶部204は、図1中の発声区間検出部101、特徴ベクトル抽出部102、標準特徴パターン記憶部104と同様である。
【0051】
そこで、図2の構成の音声認識装置の動作について、図1の音声認識装置と異なる部分を中心に説明する。
無音区間検出部#1(206−1)〜#N(206−N)には、発声区間検出部201で検出された音声信号が並列に入力される。各無音区間検出部#i(i=1〜N)には、それぞれ異なるパワーの閾値THiが用意されており、それらの閾値を用いて独立に音声信号の無音区間が検出される。
【0052】
図11は、無音区間検出部#1(206−1)、無音区間検出部#2(206−2)、…無音区間検出部#N(206−N)で、予め設定されたパワーの閾値TH1,TH2,…THNに基づき、発声区間における音声信号の無音区間が検出される様子を表している。ここでは、THi>THi+1となるように設定されているものとする。
【0053】
無音区間検出部#1(206−1)〜#N(206−N)にて独立に検出された無音区間を示す情報(無音区間情報)はパターン照合部203に送られる。パターン照合部203には、特徴ベクトル抽出部202により抽出された特徴ベクトルの時系列(特徴ベクトル系列)も送られる。パターン照合部203では、特徴ベクトル抽出部202から入力される特徴ベクトル系列と、各無音区間検出部#1(206−1)〜#N(206−N)から入力される無音区間情報を用いて、各認識候補の照合スコアが計算される。
【0054】
ここで、パターン照合部203及び認識結果判定部205における処理を、図12のフローチャートを参照して説明する。
ステップS201では、初期設定処理が行われ、無音区間検出部#iを示すパラメータ(無音区間検出部番号)としてi=1が設定される。
【0055】
ステップS202では、すべての認識候補について、無音区間検出部#iからの無音区間情報を用いてパターン照合部203により照合スコアが算出される。このパターン照合部203での照合スコア計算には、前記第1の実施形態で述べた(パターン照合部103での)照合方式を用いる。
【0056】
ステップS203では、ステップS202で算出された各認識候補ごとの照合スコアから、予め用意された枝刈りのための認識候補数Miに従い、上位Mi位までの認識候補が選択され、次のステップの認識候補として残される。ここでは、Mi>Mi+1となるように設定されているものとする。
【0057】
ステップS204では、iが無音区間検出部#Nを表すパラメータ値(無音区間検出部番号)Nに達したかどうかが判定される。i=Nとなったなら最終ステップS206に、そうでなければステップS205に進む。
ステップS205では、iが1だけカウントアップされ、ステップS202に戻る。
【0058】
ステップS206では、その時点において残されている(上位MN位までの)認識候補の中から照合スコアが最大となるものが認識結果判定部205により選ばれ、認識結果として出力される。
以上、第2の実施形態でのパターン照合部203及び認識結果判定部205における処理について説明した。
【0059】
以上の方式を用いれば、認識候補の選択の際に、スペクトルが安定するパワーの大きな部分に重みをかけることができ、スペクトルが不安定なパワーの低い区間の影響を減らすことができる。また、パワーの閾値を段階的に変えて、認識候補の枝刈りをしながらパターン照合を行うことにより、段階的に認識候補を絞ることができ、認識の精度を向上させ、誤認識を減らすことができる。
以上が本発明の第2の実施形態に係る音声認識装置の構成、作用、効果の詳細な説明である。
【0060】
(第2の実施形態の第1変形例)
以上に述べた第2の実施形態では、パターン照合部203における認識候補の枝刈りを、パワーの閾値の大きいものから順に用いて行うものとして説明したが、逆にパワーの閾値の小さいものから順に行うことも可能である。
【0061】
そこで、図10の構成において認識候補の枝刈りをパワーの閾値の小さいものから順に行う方式を適用した、第2の実施形態の第1変形例について、図13のフローチャートを参照して説明する。
【0062】
ステップS301では、i=Nが初期設定される。
ステップS302では、すべての認識候補に対して、無音区間検出部#iからの無音区間情報を用いてパターン照合部203により照合スコアが算出される。このパターン照合部203での照合スコア計算には、前記第1の実施形態で述べた(パターン照合部103での)照合方式を用いる。
【0063】
ステップS303では、ステップS302で算出された照合スコアから、予め用意された枝刈りのための認識候補数Miに従い、上位Mi位までの認識候補が選択され、次のステップの認識候補として残される。ここでは、先の照合方式の例と異なって、Mi<Mi+1となるように設定されているものとする。
【0064】
ステップS304では、iが無音区間検出部#1を表すパラメータ値(無音区間検出部番号)1に達したかどうかが判定される。i=1となったなら最終ステップS306に、そうでなければステップS305に進む。
ステップS305では、iが1だけカウントダウンされ、ステップS302に戻る。
【0065】
ステップS306では、その時点において残されている(上位M1位までの)認識候補の中から照合スコアが最大となるものが認識結果判定部205により選ばれ、認識結果として出力される。
以上、第2の実施形態の第1変形例に係るパターン照合部203及び認識結果判定部205における処理について説明した。
【0066】
以上の方式では、まず小さいパワーの閾値で、無音区間における誤ったマッチングを許して複数の認識候補が選択される。正解候補は、無音区間以外では正しくマッチングするので、上位候補に入る。そして、徐々にパワーの閾値を大きくしてマッチングを行うことにより、無音区間における誤ったマッチングの影響を減らすことができ、最終的に正解候補を検出することが可能である。
【0067】
このような方式を用いれば、認識候補選択の際に、まず、無音区間における誤ったマッチングを含む認識候補の中から、段階的に無音区間の誤ったマッチングの影響を減らしていくことができ、認識の精度を向上させ、誤認識を減らすことができる。
以上が本発明の第2の実施形態の第1変形例における音声認識装置の作用、効果の詳細な説明である。
【0068】
(第2の実施形態の第2変形例)
以上に述べた第2の実施形態、及び当該実施形態の第1変形例では、異なるパワーの閾値THiを用いて各閾値THiごとに検出される無音区間の情報に対してパターン照合部203で得られる複数の照合スコアを順番に用いて認識候補を枝刈りし、認識結果を求めるものとして説明したが、これに限るものではない。例えば、各閾値THiごとに得られる照合スコアの重み付け和をとることにより認識結果を判定することも可能である。
【0069】
そこで、この方式を用いた第2の実施形態の第2変形例について、図14のフローチャートを参照して説明する。
ステップS501では、認識候補番号iが1に初期設定される。
【0070】
ステップS502では、無音区間検出部#jを示すパラメータ(無音区間検出部番号)jが1に初期設定される。
ステップS503では、無音区間検出部#jからの無音区間情報を用いて認識候補i(認識候補番号がiの認識候補)の照合スコアsijがパターン照合部203により計算される。
【0071】
ステップS504では、jが無音区間検出部#Nを表すパラメータ値(無音区間検出部番号)Nに達したかどうかが判定される。j=NとなったならステップS506に、そうでなければステップS505に進む。
ステップS505では、jが1だけカウントアップされ、ステップS503に戻る。
【0072】
ステップS506では、各無音区間検出部#j(j=1〜N)、つまり無音区間検出部#1〜#Nからの無音区間情報を用いて算出された照合スコアsijの重みwjによる重み付け和、つまりsi1〜siNの重みw1〜wNによる重み付け和が計算され、認識結果判定に用いられる認識候補iの照合スコアSiが計算される。ここでwjは予め定められている重み(0≦wj≦1)であり、無音区間検出部#jからの無音区間情報を用いて算出された照合スコアsijに対する重みである。
【0073】
ステップS507では、すべての認識候補について照合スコアSiが計算されたかどうかが、iの値により判定される。iが、認識候補数に達していれば最終ステップS509に、達していなければステップS508に進む。
ステップS508では、認識候補番号iが1だけカウントアップされて、ステップS502に戻る。
【0074】
ステップS509では、認識結果判定部205により、すべての認識候補の照合スコアSiが比較され、Siが最大となる認識候補が認識結果として判定されて出力される。
以上、第2の実施形態の第2変形例に係るパターン照合部203及び認識結果判定部205における処理について説明した。
【0075】
以上の方式では、異なるパワーの閾値TH1〜THNに基づいて得られる各閾値ごとの無音区間情報を用いて算出される、同一認識候補iについての照合スコアsi1〜siNに対して適当な重みw1〜wNをかけて和をとることにより、無音区間の影響を任意に照合スコアに反映させることができる。このため、無音区間における誤ったマッチングの影響を減らすことができる。
以上が本発明の第2の実施形態の第2変形例における音声認識装置の作用、効果の詳細な説明である。
【0076】
なお、前記第2の実施形態では、無音区間検出部#1(206−1)〜#N(206−N)が並行して動作するものとして説明したが、発声区間検出部201で検出された発声区間の音声信号をメモリ等の記憶手段に格納しておき、この状態で無音区間検出部#1(206−1)〜#N(206−N)を順に起動して、上記記憶手段内の音声信号を対象としてその無音区間検出部に固有の閾値で無音区間を検出させ、その都度検出した無音区間情報をパターン照合部203に送るようにしても構わない。
【0077】
また、以上の実施形態における発声区間検出部101(201)、特徴ベクトル抽出部102(202)、パターン照合部103(203)、認識結果判定部105(205)、無音区間検出部106(206−1〜206−N)の各機能は、ソフトウェアとしても実現可能である。
【0078】
また、本実施形態は、コンピュータに以上の実施形態に係る音声認識装置で適用したパターン照合方式を含む所定の手順を実行させるための(或いはコンピュータを音声認識装置の持つ所定の手段として機能させるための、或いはコンピュータに音声認識装置の持つ所定の機能を実現させるための)プログラムを記録したコンピュータ読み取り可能なCD−ROM等の記録媒体として実施することもできる。また、このプログラムが通信媒体を介してダウンロードされるものであっても構わない。
【0079】
この他、本発明の実現形態には上述の例に対して種々の変形が可能であり、それらも趣旨に反しない限り本発明の実施形態の範囲内である。
【0080】
【発明の効果】
以上説明したように、本発明によれば、発声区間内に予期しないパワーの低い無音区間が存在しても、その無音区間を検出し、標準特徴パターンとの照合の際に利用することにより、無音区間における誤ったパターンマッチングを回避することができ、高精度な認識が可能となる等の実用上多大な効果が奏せられる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の基本構成を表わすブロック図。
【図2】入力音声信号における無音区間を表わす概念図。
【図3】ナル遷移を含むHMMの構成を示す図。
【図4】パターン照合方式の流れを示す図。
【図5】無音区間から有音区間へ切り替わった時刻における処理の流れを示す図。
【図6】入力音声信号におけるパワーの様子を示す図。
【図7】入力音声信号におけるパワーの様子の詳細を示す図。
【図8】HMMの構成の具体例を示す図。
【図9】パターン照合処理後の最適経路の概念図。
【図10】本発明の第2の実施形態に係る音声認識装置の基本構成を表わすブロック図。
【図11】複数の閾値による入力信号の無音区間を表わす概念図。
【図12】複数の閾値を用いるパターン照合方式の流れを示す図。
【図13】複数の閾値を用いるパターン照合方式の流れの第1変形例を示す図。
【図14】複数の閾値を用いるパターン照合方式の流れの第2変形例を示す図。
【符号の説明】
101,201…発声区間検出部
102,202…特徴ベクトル抽出部
103,203…パターン照合部
104,204…標準特徴パターン記憶部
105,205…認識結果判定部
106,206−1〜206−N…無音区間検出部

Claims (6)

  1. 入力される信号を音響分析して音声が発声された区間を検出して、検出した発声区間の音声信号から特徴ベクトル系列を抽出し、前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを隠れマルコフモデル照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算し、各認識候補ごとの照合スコアに基づいて認識結果を判定する音声認識方法において、
    前記検出した発声区間の音声信号の短時間パワーから音声信号の無音区間を検出し、
    その無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、無音区間から有音区間へ変化する時刻に相当する特徴ベクトル系列につき、ナル遷移を行い、各状態の1フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフモデル照合方式を用いて照合することにより照合スコアを計算することを特徴とする音声認識方法。
  2. 入力される信号を音響分析して音声が発声された区間を検出して、その検出した発声区間の音声信号から特徴ベクトル系列を抽出する一方、
    前記検出した発声区間の音声信号の短時間パワーから、それぞれ異なる閾値に基づいて音声信号の無音区間を独立に検出し、
    前記抽出した特徴ベクトル系列と所定の認識候補ごとに予め用意されている音声信号の標準パターンとを、前記異なる閾値に基づいて独立に検出される無音区間の情報に基づいて、隠れマルコフモデル照合方式にて照合することにより、前記各閾値別に両者の類似度または距離を表す照合スコアを計算し、その際に対応する閾値に基づいて検出した無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の1フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式を適用し、
    各閾値別に求めた各認識候補ごとの照合スコアに基づいて認識結果を判定することを特徴とする音声認識方法。
  3. 1つの閾値について前記各認識候補ごとの照合スコアの計算を実行する都度、その認識候補ごとの照合スコアに基づいて認識候補を絞り、その動作を、前記閾値を一定方向に段階的に切り替えながら繰り返すことを特徴とする請求項2記載の音声認識方法。
  4. 同一認識候補について各閾値別に得られる照合スコアの重み付け和を算出する処理を全ての認識候補について実行し、その全認識候補各々の照合スコアの重み付け和に基づいて認識結果を判定することを特徴とする請求項2記載の音声認識方法。
  5. 入力される信号を音響分析して音声が発声された区間を検出する発声区間検出手段と、
    前記発声区間検出手段により検出された発声区間の音声信号から特徴ベクトル系列を抽出する特徴ベクトル抽出手段と、
    前記発声区間検出手段により検出された発声区間の音声信号の短時間パワーから、音声信号の無音区間を検出する無音区間検出手段と、
    所定の各認識候補の音声信号の標準パターンを記憶する標準パターン記憶手段と、
    前記特徴ベクトル抽出手段により抽出された特徴ベクトル系列と前記標準パターン記憶手段に記憶されている各認識候補の標準パターンとを隠れマルコフ照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算するパターン照合手段であって、前記無音区間検出手段により検出された無音区間の特徴ベクトル系列をパターン照合の対象外とすると共に、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の1フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式にて照合するパターン照合手段と、
    前記パターン照合手段により求められる各認識候補ごとの照合スコアに基づいて認識結果を判定する認識結果判定手段と
    を具備することを特徴とする音声認識装置。
  6. 入力される信号を音響分析して音声が発声された区間を検出する発声区間検出手段と、
    前記発声区間検出手段により検出された発声区間の音声信号から特徴ベクトル系列を抽出する特徴ベクトル抽出手段と、
    前記発声区間検出手段により検出された発声区間の音声信号の短時間パワーから、それぞれ異なる閾値に基づいて音声信号の無音区間を検出する複数の無音区間検出手段と、
    所定の各認識候補の音声信号の標準パターンを記憶する標準パターン記憶手段と、
    前記特徴ベクトル抽出手段により抽出された特徴ベクトル系列について、前記各無音区間検出手段によりそれぞれ検出された無音区間の特徴ベクトル系列を除いて、前記異なる閾値別に、前記標準パターン記憶手段に記憶されている各認識候補の標準パターンと隠れマルコフ照合方式にて照合することにより、両者の類似度または距離を表す照合スコアを計算するパターン照合手段であって、前記無音区間から有音区間へ変化する時刻にのみ、ナル遷移を行い、各状態の1フレーム前における照合スコアを更新し、照合スコア更新後、ナル遷移を除くすべての状態遷移確率、及びすべての分布の出力確率が計算され、最適な遷移が決定される、ナル遷移を許す隠れマルコフ照合方式にて照合するパターン照合手段と、
    前記パターン照合手段により各閾値別に求められる各認識候補ごとの照合スコアに基づいて認識結果を判定する認識結果判定手段と
    を具備することを特徴とする音声認識装置。
JP18321699A 1999-06-29 1999-06-29 音声認識方法及び装置 Expired - Fee Related JP3615088B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP18321699A JP3615088B2 (ja) 1999-06-29 1999-06-29 音声認識方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP18321699A JP3615088B2 (ja) 1999-06-29 1999-06-29 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JP2001013988A JP2001013988A (ja) 2001-01-19
JP3615088B2 true JP3615088B2 (ja) 2005-01-26

Family

ID=16131825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP18321699A Expired - Fee Related JP3615088B2 (ja) 1999-06-29 1999-06-29 音声認識方法及び装置

Country Status (1)

Country Link
JP (1) JP3615088B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5375423B2 (ja) * 2009-08-10 2013-12-25 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
WO2011070972A1 (ja) * 2009-12-10 2011-06-16 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP5385876B2 (ja) * 2010-08-30 2014-01-08 日本電信電話株式会社 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program

Also Published As

Publication number Publication date
JP2001013988A (ja) 2001-01-19

Similar Documents

Publication Publication Date Title
JP6705008B2 (ja) 話者照合方法及びシステム
US10923111B1 (en) Speech detection and speech recognition
US11069353B1 (en) Multilingual wakeword detection
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
JP3826032B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
US20220343895A1 (en) User-defined keyword spotting
JP4237713B2 (ja) 音声処理装置
JP3886024B2 (ja) 音声認識装置及びそれを用いた情報処理装置
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
US20230162728A1 (en) Wakeword detection using a neural network
US11308939B1 (en) Wakeword detection using multi-word model
JP2004325635A (ja) 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP3615088B2 (ja) 音声認識方法及び装置
JP5296455B2 (ja) 話者識別装置、及びコンピュータプログラム
JP4749990B2 (ja) 音声認識装置
JP2006010739A (ja) 音声認識装置
JPH08241096A (ja) 音声認識方法
JP5136621B2 (ja) 情報検索装置及び方法
JP5158877B2 (ja) 音声認識方法および装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040730

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20041026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20041028

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091112

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees