JP3907194B2

JP3907194B2 - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP3907194B2
Application number: JP2003146248A
Authority: JP
Inventors: 亮典小柴; 聡典河村
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2003-05-23
Filing date: 2003-05-23
Publication date: 2007-04-18
Anticipated expiration: 2023-05-23
Also published as: JP2004347956A; US20050010406A1; US8423360B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置、音声認識方法および音声認識プログラム、特に騒音下において発声された音声を認識する装置、方法に関する。
【０００２】
【従来の技術】
音声認識装置を実環境において実現する場合の問題点として、入力発話に環境雑音が重畳するために音声認識性能が劣化するという問題がある。
【０００３】
この問題を解決するための方法として, S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Trans. Acoustics, Speech, and Signal Processing, vol. ASSP-27, No.2, pp. 113-120, 1979 で提案されたスペクトルサブトラクション法が用いられていた。
【０００４】
このスペクトルサブトラクション法は、雑音が重畳した観測音声のスペクトルＸ（ω）から、雑音区間（発話を含まない雑音のみの区間）より推定した雑音のスペクトルＮ（ω）を引去り、原音声のスペクトルＳ（ω）を推定する方法である。
【０００５】
【数１】

【０００６】
ここでαは雑音の抑圧係数を表し、観測雑音から推定雑音を引去る度合いを決定する。αを大きくすれば、雑音の影響をより小さくすることが可能であるが、一方で必要以上に係数が大きすぎると、音声のスペクトルに歪みが生じて認識性能が劣化することになる。すなわち、αは重畳している雑音の大きさに合わせて最適な値が決まるという性格を有する。そのため、頻繁に重畳雑音のレベルが変動する実環境で用いる場合には、あらかじめ最適な値を定めておくことが極めて困難である、という問題が生じていた。
【０００７】
一方、この問題を解決するため、特開２０００−３３０５９７では、雑音の抑圧係数αの値を音声と雑音の間のＳＮ比に応じて変更する方法が提案されている。
【０００８】
しかし、音声認識装置を使用する実環境においては雑音レベルが短時間に頻繁に変動することも多く、音声と雑音とのＳＮ比を正しく推定することが極めて困難な場合も多い。そのため、信号レベルと雑音レベルが短時間に急激に変動する場合には、ここで提案されている方法では、ＳＮ比を正しく推定することができず、そのＳＮ比に基づいて定められる雑音の抑圧係数αを用いて雑音除去を行っても十分な性能が得られないという問題があった。
【０００９】
【特許文献１】
特開２０００−３３０５９７
【００１０】
【発明が解決しようとする課題】
このように、雑音が重畳した音声信号からスペクトルサブトラクション法を用いて雑音除去を行って音声認識を行う場合、適当な抑圧係数をあらかじめ定めることが困難であり、このため十分に雑音を除去することができないという問題があった。そしてこの結果、雑音除去後の音声を用いて音声認識を行っても十分な性能が得られないという問題があった。
本発明はこのような課題を解決し、短時間に雑音の大きさが変動しても安定して音声認識が行える音声認識装置、方法およびプログラムを提供する。
【００１１】
本発明の音声認識装置は、入力音声信号に含まれる雑音成分を推定する雑音推定手段と、前記入力音声信号から前記雑音推定手段で推定された雑音成分を除去する雑音除去手段と、前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出手段と、前記特徴算出手段で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識手段とを有することを特徴とする。
【００１４】
本発明の音声認識方法は、入力音声信号に含まれる雑音成分を推定する雑音推定ステップと、前記入力音声信号から前記雑音推定ステップで推定された雑音成分を除去する雑音除去ステップと、前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出ステップと、前記特徴算出ステップで算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識ステップとを有することを特徴とする。
【００１７】
本発明の音声認識プログラムは、コンピュータに、入力音声信号に含まれる雑音成分を推定する雑音推定処理と、前記入力音声信号から前記雑音推定処理で推定された雑音成分を除去する雑音除去処理と、前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出処理と、前記特徴算出処理で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識処理とを実現させることを特徴とする。
【００１８】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明の一実施の形態に係る音声認識装置を概略的に示すブロック図である。
【００１９】
図１に示されるように本発明の音声認識装置は、入力された音声信号の信号スペクトルを計算するスペクトル計算部１０１と、前記スペクトル計算部１０１から計算されるスペクトルを用いて雑音のスペクトルを推定する雑音推定部１０２と、前記スペクトル計算部１０１から計算されるスペクトルと、前記雑音推定部１０２から計算される雑音の推定スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを行う雑音除去部１０３と、前記雑音除去部１０３から求まる複数の雑音除去後のスペクトルを統合して、あらかじめ学習しておいた音声認識辞書（標準パターン）と比較するための一の特徴量（ベクトル）を計算する特徴量計算部１０４と、前記特徴量計算部１０４から求まる音声特徴量をあらかじめ学習しておいた音声認識辞書（標準パターン）と比較して認識結果を求める音声認識部１０５、とを有する。
【００２０】
次に、この音声認識装置の具体的な処理概念を説明する。スペクトル計算部１０１では、入力された音声信号時系列を周波数分析して周波数スペクトルに変換し、その結果を出力する。
【００２１】
雑音推定部１０２では、まず入力された音声信号の信号振幅または電力（パワー）を観測して、入力された音声信号が音声を含むものか否かを判定する。例えば、直前に観測された（雑音レベルの）入力信号と比較して、大きな振幅または電力の信号が継続して入力した場合には「音声が入力された（発話状態）」と判定する。逆に大きな振幅または電力の信号が継続して入力された（発話区間）前後に、入力信号の振幅、電力が小さくなった場合には「音声が入力されていない（無音状態）」と判定する。
【００２２】
次に雑音推定部１０２では、「音声が入力されていない（無音状態）」と判定された区間において、スペクトル計算部１０１から入力されるスペクトルを用いて、雑音スペクトル（発話を含まない雑音のみの区間の信号のスペクトル）を推定する。
【００２３】
スペクトル計算部１０１から出力される入力信号の周波数スペクトルと雑音推定部１０２から出力される（無音区間における）雑音スペクトルは雑音除去部１０３に入力される。
【００２４】
雑音除去部１０３では、雑音の引去り度合いの異なる複数のスペクトルサブトラクションが行われる。ここでスペクトル計算部１０１から出力されるスペクトルをＸ（ω）雑音推定部１０２から出力される雑音スペクトルをＮ（ω）とすると、それぞれのスペクトルサブトラクションは、例えば以下のような式を用いて実現することができる。
【００２５】
【数２】

【００２６】
αは抑圧係数であり、この値を変化させることにより雑音の引去り度合いを調節することが可能になる。したがってαの異なる複数のスペクトルサブトラクションを雑音除去部１０３に含ませることにより、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを有する雑音除去部を実現することが可能になる。
【００２７】
ここでスペクトルサブトラクションＮの構成例を図２に示す。雑音推定部１０２で得られた雑音スペクトルは一旦、雑音スペクトル蓄積部１０６に蓄積される。この雑音スペクトルは、雑音抑圧係数αＮ：１０７を乗じられた後、スペクトル計算部１０１から出力された入力信号の周波数スペクトルから減算器１０８を介して減算される。こうして雑音除去された入力信号のスペクトルは特徴量算出部１０４に送られる。
【００２８】
ここで雑音抑圧係数の例としては、一般的には０≦α≦１の範囲で選択されるが、雑音抑圧のために１≦αの値が選択される場合もある。また上記の例では、スペクトルサブトラクションＮごとにすべての周波数で一定の大きさの抑圧係数用いているが、これをスペクトルサブトラクションごとに周波数に応じて変更することで雑音の引去り度合いを変更することも可能である。例えば第１のスペクトルサブトラクションでは、
α＝1.0 （ω＜TH）
α＝0.0 （ω＞＝TH)
第２のスペクトルサブトラクションでは、
α＝0.0 （ω＜TH）
α＝1.0 （ω＞＝TH)
とすることにより、スペクトルサブトラクション毎に周波数範囲に応じた雑音の引去り度合いを設定することが可能になる。ここでＴＨは適宜定めた周波数の閾値である。
【００２９】
このようにして実現された雑音除去部１０３から計算される複数の雑音除去後のスペクトルは特徴量計算部１０４に入力される。
特徴量計算部１０４は入力された複数のスペクトルを統合して、音声認識のための特徴量を計算する。
【００３０】
統合の方法としては、入力される複数の音声入力の周波数スペクトルについて平均スペクトルを求め、その後、メルスケールの周波数で再標本化した対数スペクトルから計算したケプストラムであるＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）や人間の聴覚特性を考慮した線形予測分析により求まる自己回帰全極モデルであるＰＬＰ（Perceptual Linear Prediction）などに変換する方法や（図４）、入力される複数のスペクトルについて各々ＭＦＣＣやＰＬＰなどに変換した後、これらを結合させた特徴量ベクトルをＫＬ展開などの次元圧縮法を用いて所定の次元に圧縮するなどの方法が考えられる（図５）。
【００３１】
特徴量算出部１０４で算出された特徴量は、音声認識部１０５に入力される。音声認識部１０５では、あらかじめ学習して蓄積しておいた音声の特徴量の標準パターンと入力された特徴量との間でパターンマッチングを行い、認識結果を出力する。パターンマッチングの方法としては、隠れマルコフモデル（ＨＭＭ）を用いた時系列パターンに対する統計的・確率的パターン認識方法や、音声パターンの時間軸上の変動を吸収できる動的計画法を用いた非線型伸縮パターンマッチング法であるＤＰマッチングに基づく方法等を用いることができる。以上が、本発明に係わる音声認識装置の第１の実施の形態にかかる構成の説明である。
【００３２】
以上の説明では、複数のスペクトルサブトラクションＮの全てに雑音スペクトル蓄積部１０６を具備するものとしている（図２参照）が、雑音スペクトル蓄積部をスペクトルサブトラクションＮの構成の外側に出して、１つの雑音スペクトル蓄積部を複数のスペクトルサブトラクションＮで共通に使用するような構成を採用することも可能である。
【００３３】
次に本発明の第２の実施の形態に係る構成を説明する。第１の実施の形態に示した構成例では、雑音除去部１０３に含まれる複数のすべてのスペクトルサブトラクションで雑音を引去り、これを統合して特徴量を算出することとしているが、第２の実施の形態に示した構成では、雑音除去部１０３にまったく雑音を引去らないスペクトルを含めて、これらの信号を統合して特徴量を算出することを特徴とする。
【００３４】
図３に発明の第２の実施の形態にかかる音声認識装置の構成を図示する。図３においては、入力された音声信号の信号スペクトルを計算するスペクトル計算部２０１と、前記スペクトル計算部２０１から計算されるスペクトルを用いて雑音のスペクトルを推定する雑音推定部２０２と、前記スペクトル計算部２０１から計算されるスペクトルと、前記雑音推定部２０２から計算される雑音の推定スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションを行う雑音除去部２０３と、前記雑音除去部２０３から求まる複数の雑音除去後のスペクトルを統合して、あらかじめ学習しておいた音声認識辞書（標準パターン）と比較するための一の特徴量（ベクトル）を計算する特徴量計算部２０４と、前記特徴量計算部２０４から求まる音声特徴量をあらかじめ学習しておいた音声認識辞書（標準パターン）と比較して認識結果を求める音声認識部２０５、とを有する。
【００３５】
ここで雑音除去部２０３は、入力された音声信号のスペクトルと、スペクトルサブトラクションにより雑音が除去された（少なくとも１つの）スペクトルとを統合して特徴量抽出することを特徴とする。第１の実施の形態で説明された特徴量計算部１０４に入力される複数のスペクトルのかわりに、特徴量計算部２０４では、スペクトルサブトラクションにより雑音抑圧された（すくなくとも１つの）スペクトルと、入力音声信号のスペクトルを入力として、これらのスペクトルを統合して平均スペクトルを求めて、その信号から特徴量抽出する方法（図４参照）や、これらのスペクトルについてそれぞれ特徴量算出を行ない、これらを結合させた特徴量ベクトルを次元圧縮して所定の次元に圧縮するなどの方法により、音声認識のための入力音声の特徴量抽出処理を実現することができる。
【００３６】
次に図６に示されるフローチャートを用いて、本実施形態における音声認識処理の動作を説明する。
【００３７】
まず音声認識装置に音声信号が入力される（Ｓ１）。次に入力音声信号が周波数分析され、信号のスペクトルが求められる（Ｓ２）。次に入力された音声信号の電力（パワー）等を観測して、入力された信号が音声であるか、無音（雑音）であるかが判定され、Ｓ２で計算された信号のスペクトルから当該入力が雑音であるか否かが判定される（Ｓ３）。入力が無音（雑音）と判定された場合には、当該信号のスペクトルを最新の雑音スペクトルとして推定し記憶しておくと共に、次の入力信号のスペクトル分析処理（Ｓ２）を継続する（Ｓ４）。
【００３８】
Ｓ３で入力された音声が雑音ではない、すなわち、発話であると判定された場合には、認識段階へすすみ、雑音除去が行われる（Ｓ５)。具体的には、雑音除去は、予め蓄積された最新の推定雑音スペクトルを用いて、雑音の引去り度合いの異なる複数のスペクトルサブトラクションで入力スペクトルから推定雑音スペクトルを引き去ることによって行われる。次に前記複数のスペクトルサブトラクションの結果としての雑音除去されたスペクトル（または雑音除去する前の入力音声のスペクトル）を用いて、特徴量が計算される（Ｓ６)。そして当該計算された特徴量を用いて、予め蓄積された特徴量の標準パターンとのマッチングをとることにより、認識処理が行われ（Ｓ７)、認識結果を出力する（Ｓ８)。以上が本発明に係わる音声認識処理の動作である。
【００３９】
このように構成された音声認識装置によれば、特徴量計算部から求まる特徴量には、雑音の引去り度合いの異なる複数の信号の特徴が反映されることになる。そのため、従来の方法のように、あらかじめ定めておいた雑音の引去り度合いが、現実に重畳している雑音の大きさと整合していないために認識性能が劣化する、という問題を解決することができる。さらに、あらかじめ雑音の引去り度合いが異なる複数のスペクトルサブトラクションを有することにより、現実に重畳している雑音の大きさに応じて引去り度合いを適応的に調整する、という必要もなくなり、雑音の大きさの推定誤りによって認識性能が劣化する、という問題も解決することができる。
【００４０】
【発明の効果】
以上説明したように、本発明によれば、雑音の引去り度合いの異なる複数の雑音除去手段を用いて雑音重畳音声から雑音の除去を行い、雑音除去後の音声信号から音声認識のための特徴量を計算して音声認識に用いることで、雑音の大きさが変動しても安定して音声認識を行うことが可能になる。
【図面の簡単な説明】
【図１】本発明の実施の形態に係る音声認識装置を示すブロック図。
【図２】スペクトルサブトラクションの構成例を示すブロック図。
【図３】雑音除去部にスペクトルサブトラクションを行わない構成を有する本発明の実施の形態に係わる音声認識装置を示すブロック図。
【図４】雑音除去後の複数のスペクトルを平均することにより特徴量を計算する方法を説明する図。
【図５】雑音除去後の複数のスペクトルを特徴量に変換した後、さらに当該特徴量を、ＫＬ展開を用いて次元圧縮することにより認識のための特徴量を求める方法を説明する図。
【図６】本発明の実施の形態に係わる音声認識装置の動作を説明するためのフローチャート。
【符号の説明】
１０１…スペクトル計算部
１０２…雑音推定部
１０３…雑音除去部
１０４…特徴量計算部
１０５…音声認識部
２０１…スペクトル計算部
２０２…雑音推定部
２０３…雑音除去部
２０４…特徴量計算部
２０５…音声認識部

Claims

入力音声信号に含まれる雑音成分を推定する雑音推定手段と、
前記入力音声信号から前記雑音推定手段で推定された雑音成分を除去する雑音除去手段と、
前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出手段と、
前記特徴算出手段で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識手段と
を有することを特徴とする音声認識装置。
入力音声信号に含まれる雑音成分を推定する雑音推定ステップと、
前記入力音声信号から前記雑音推定ステップで推定された雑音成分を除去する雑音除去ステップと、
前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出ステップと、
前記特徴算出ステップで算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識ステップと
を有することを特徴とする音声認識方法。
コンピュータに、
入力音声信号に含まれる雑音成分を推定する雑音推定処理と、
前記入力音声信号から前記雑音推定処理で推定された雑音成分を除去する雑音除去処理と、
前記入力音声信号から、その信号の周波数スペクトルを表す第１のベクトルを算出し、前記雑音除去手段で雑音成分が除去された信号から、その信号の周波数スペクトルを表す第２のベクトルを算出し、算出された第１および第２のベクトルを結合して得られるベクトルを所定の次元に次元圧縮して音声認識のための特徴ベクトルを算出する特徴算出処理と、
前記特徴算出処理で算出された特徴ベクトルをあらかじめ得られた標準音声パターンとパターンマッチングを行って認識結果を得る音声認識処理と
を実現させることを特徴とする音声認識プログラム。