JP2001228893A

JP2001228893A - 音声認識装置

Info

Publication number: JP2001228893A
Application number: JP2000041086A
Authority: JP
Inventors: Takeo Kanamori; 丈郎金森; Yoshihisa Nakato; 良久中藤; Takeshi Kawamura; 岳河村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-02-18
Filing date: 2000-02-18
Publication date: 2001-08-24

Abstract

(57)【要約】【課題】雑音環境下における音声認識性能を、低処理
量で改善できる音声認識装置を実現すること。【解決手段】音声認識手段１００の前段処理として、
入力信号を帯域分割する帯域分割手段１０を設け、低域
側と高域側に分割する。第１及び第２の信号パワ推定手
段２１，２２で各帯域の信号パワを推定し、第１及び第
２の雑音パワ推定手段３１，３２で雑音パワを推定す
る。第１及び第２の利得算出手段４１，４２は最適利得
を演算し、第１及び第２の信号増幅手段５１，５２の増
幅率を制御する。信号加算手段６０は信号増幅手段５
１，５２の出力信号を加算し、音声認識手段１００に与
える。こうすると、少ない帯域分割数で雑音による音声
スペクトルの歪みを補正することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識の耐雑音
性能を向上させるために前処理装置を設けた音声認識装
置に関する。

【０００２】

【従来の技術】マイクロホンを介して音声信号を音声認
識装置に入力して音声認識を行うとき、高い認識率を得
る条件の１つは、雑音の少ない高Ｓ／Ｎの音声信号を入
力することである。高Ｓ／Ｎを得るために、通常は接話
マイクロホンを用い、話者の口元にマイクロホンに接近
させて使用する。しかし用途によっては、マイクロホン
が話者の位置から数１０ｃｍ〜数ｍ離れた位置に設けら
れる場合がある。例えばマイクロホンが機器に内蔵され
ていたり、アーム又はスタンドに固定されている状態
で、話者自身が移動したり、話者が座っている状態で頭
部を左右又は上下に向けると、口元とマイクロホンとの
間隔が大幅に変動する。このような場合、マイクロホン
に収音される音声信号は絶対レベルが変動すると共に、
周囲騒音レベルに対して音声のレベルが相対的に低くな
り、所謂Ｓ／Ｎが劣化する。

【０００３】一方、音声認識部は、雑音のない環境で収
録された音声のスペクトルに関する辞書を持ち、照合に
よって認識結果を出している。従って、マイクロホンへ
の雑音成分が混入すると、音声認識部で音声スペクトル
の照合不一致を起こし、認識結果に悪影響を及ぼしてし
まう。

【０００４】このような問題点の解決策として、音声認
識の認識辞書側に予め雑音を想定したものを持つ方法
や、マイクロホンからの出力信号を信号処理によって雑
音抑圧する方法などが提案されている。ここでは、マイ
クロホンからの出力信号に信号処理を施し、音声認識の
耐雑音性能を向上させる音声認識装置について述べる。

【０００５】先ずこのような音声認識前処理装置の構成
について説明する。図１３は音声認識前処理装置を有す
る従来例の音声認識装置の構成図である。周波数領域変
換手段１０００は、入力音響信号（以下、入力信号とい
う）を周波数領域に変換するもので、変換にはフーリエ
変換手段（ＦＦＴ）などが用いられる。音声検出手段１
００１は、入力信号が音声区間であるか否かを検出し
て、検出結果を出力するものである。

【０００６】雑音スペクトル推定手段１００２は、周波
数領域変換手段１０００からの出力信号と、音声検出手
段１００１からの出力信号とを入力し、入力信号が音声
区間でないときのパワスペクトルを平均して、平均雑音
パワスペクトルを推定するものである。スペクトル減算
部１００３は、周波数領域変換手段１０００からの出力
信号と、雑音スペクトル推定手段１００２からの出力信
号を入力して、入力信号スペクトルから雑音スペクトル
を引き去り、雑音を抑圧した音声スペクトルを合成する
ものである。時間領域変換手段１００４は、スペクトル
減算部１００３からの音声スペクトルを時間領域に変換
して時間波形を出力し、音声認識手段１００５に出力す
るものである。音声認識手段１００５は雑音成分の低減
された音声信号を入力し、話者の発声した単語又はメッ
セージの内容を識別するものである。

【０００７】このような音声認識装置の動作について説
明する。この処理は、一般にスペクトル減算法と呼ばれ
る定常的雑音の抑圧手法を用いたものであり、定常的な
雑音と音声信号が混ざり合った入力信号から、音声信号
のみを取り出す方式である。まず、入力信号ｘは、１フ
レーム分（数msec〜数１０msec）を処理単位として周波
数領域変換手段１０００に入力され、信号スペクトルＸ
（ω）に変換される。ここでＸ（ω）は複素数のベクト
ルとなる。音声検出手段１００１では、例えば入力信号
のレベル変化を監視していて、レベルが低く一定である
部分を雑音区間と判定し、ある閾値よりレベルが大きく
なる場合を音声区間などと判定して音声区間を検出す
る。

【０００８】雑音スペクトル推定手段１００２は、音声
検出手段１００１が雑音区間であると判定したとき、周
波数領域変換手段１０００の出力Ｘ（ω）から入力信号
パワスペクトルを平均化して、定常雑音パワスペクトル
Ｎｐ（ω）を推定する。スペクトル減算部１００３は、
入力信号スペクトルＸ（ω）からパワスペクトルＸｐ
（ω）を計算し、推定音声パワスペクトルＳｐ（ω）を
Ｓｐ（ω）＝Ｘｐ（ω）−Ｎｐ（ω）の演算により算出
する。そして入力信号スペクトルＸ（ω）の位相情報Ｐ
ｘ（ω）と、Ｓｐ（ω）の平方根である推定音声スペク
トル振幅Ｓａ（ω）から、推定音声スペクトルＳ（ω）
を合成する。

【０００９】時間領域変換手段１００４は、推定音声ス
ペクトルＳ（ω）の時間領域信号への変換を行い、雑音
成分の抑圧された音声信号を出力する。スペクトル減算
部１００３において、入力信号スペクトルＸ（ω）から
雑音パワスペクトルＮｐ（ω）を減算することによって
雑音が除去できるのは、２つの信号が互いに独立である
とし、２つの信号が混ざり合った信号の平均パワが、夫
々の信号の平均パワの加算値で近似できることに基づい
ている。

【００１０】

【発明が解決しようとする課題】しかしながら、上記の
ような構成では、周波数スペクトルの導出や音声検出な
どの処理が必要となり、その処理量が大きくなり、コス
ト的にも問題が生じる。処理量を大きくしている要因と
して、性能を得るためにある程度の周波数分解能を必要
とすることが１つの原因であり、具体的にはＦＦＴなど
の周波数領域変換手段１０００や、ＩＦＦＴなどで実現
される時間領域変換手段１００４の処理が大きくなるこ
とである。また、雑音パワスペクトル推定のために音声
検出手段１００１も必要となる。このための雑音抑圧処
理は、音声認識手段の処理量に対して無視することので
きない大きな処理量となる。例えば、サンプリング周波
数を８ｋＨｚとし、周波数領域変換手段１０００に６４
ポイントのＦＦＴを用いた場合、ＤＳＰ（digital sign
al processer）を用いて処理をすると、約１０〜２０MI
PS程度の演算量を要する。

【００１１】従来例では、定常的な雑音を抑圧して聴感
において音声品質を向上させることにより、音声認識率
の向上を期待することができる。しかし、低処理量で改
善効果の大きい音声認識装置を実現することはできなか
った。

【００１２】本発明は、このような従来の問題点に鑑み
てなされたものであって、入力信号を複数帯域に分割
し、各帯域の信号を雑音レベルと信号レベルの割合に応
じて適応的に利得制御し、利得制御された各帯域の出力
信号を再合成し、スペクトルの全体の傾斜を補正するこ
とにより、音声認識の耐雑音性能を高めた音声認識装置
を実現することを目的とする。

【００１３】

【課題を解決するための手段】本願の請求項１の発明
は、入力音声に混入した雑音成分によって変形した音響
信号に対して、信号スペクトルの形状を補正して音声認
識を行う音声認識装置であって、入力音響信号をｎ個の
帯域に分割する帯域分割手段と、前記帯域分割手段によ
ってｎ分割された周波数帯域の音響信号を入力し、制御
利得に基づいて音響信号の増幅又は減衰を行う第１〜第
ｎの信号増幅手段と、前記帯域分割手段からの出力信号
のレベルに応じて前記制御利得を演算し、前記第１〜第
ｎの信号増幅手段の利得を制御する第１〜第ｎの利得制
御手段と、前記第１〜第ｎの信号増幅手段からの出力信
号を加算し、雑音成分の低減された音声信号を出力する
信号加算手段と、前記信号加算手段から出力された音声
信号を入力し、音声認識を行う音声認識手段と、を具備
することを特徴とするものである。

【００１４】本願の請求項２の発明は、請求項１の音声
認識装置において、前記利得制御手段は、前記帯域分割
手段で分割された帯域信号を入力し、短時間平均パワを
出力する信号パワ推定手段と、前記信号パワ推定手段か
らの出力信号を入力し、信号の雑音パワを推定する雑音
パワ推定手段と、前記信号パワ推定手段の出力信号と前
記雑音パワ推定手段の出力信号とを入力し、入力信号パ
ワと雑音パワの割合に応じた利得量となるように前記利
得制御手段の制御利得を算出する利得算出手段と、を有
し、前記利得算出手段は、制御利得をａ_i とし、信号パ
ワをＰＸ_i （ｉ＝１〜ｎ）とし、雑音パワをＰＮ_i とす
るとき、前記制御利得をａ_i ＝（ＰＸ_i−ＰＮ_i ）／Ｐ
Ｘ_i により算出することを特徴とするものである。

【００１５】本願の請求項３の発明は、請求項１の音声
認識装置において、前記利得制御手段は、前記帯域分割
手段で分割された帯域信号を入力し、短時間平均パワを
出力する信号パワ推定手段と、前記信号パワ推定手段か
らの出力信号を入力し、信号の雑音成分パワを推定する
雑音パワ推定手段と、前記信号パワ推定手段の出力信号
と前記雑音パワ推定手段の出力信号とを入力し、入力信
号パワと雑音パワの割合に応じた利得量となるように前
記利得制御手段の制御利得を算出する利得算出手段と、
を有し、前記利得算出手段は、制御利得をａ_i とし、信
号パワをＰＸ_i（ｉ＝１〜ｎ）とし、雑音パワをＰＮ_i
とし、利得制御範囲パラメータをＢ_i （０＜Ｂ_i ）とす
るとき、前記制御利得をａ_i ＝（ＰＸ_i −Ｂ_i ×ＰＮ
_i ）／ＰＸ _i により算出することを特徴とするものであ
る。

【００１６】本願の請求項４の発明は、請求項１の音声
認識装置において、前記利得制御手段は、前記帯域分割
手段で分割された帯域信号を入力し、短時間平均パワを
出力する信号パワ推定手段と、前記信号パワ推定手段か
らの出力信号を入力し、信号の雑音パワを推定する雑音
パワ推定手段と、前記信号パワ推定手段の出力信号と前
記雑音パワ推定手段の出力信号とを入力し、入力信号パ
ワと雑音パワの割合に応じた利得量となるように前記利
得制御手段の制御利得を算出する利得算出手段と、を有
し、前記利得算出手段は、制御利得をａ_i とし、信号パ
ワをＰＸ_i （ｉ＝１〜ｎ）とし、雑音パワをＰＮ_i と
し、利得制御範囲パラメータをＢ_i （０＜Ｂ_i ）、Ｃ_i
（０＜Ｃ_i ）とするとき、前記制御利得をａ_i ＝（ＰＸ
_i −Ｂ_i ×ＰＮ_i ）／ＰＸ_i ＋Ｃ_i により算出すること
を特徴とするものである。

【００１７】本願の請求項５の発明は、請求項１の音声
認識装置において、前記利得制御手段は、前記帯域分割
手段で分割された帯域信号を入力し、短時間平均パワを
出力する信号パワ推定手段と、前記信号パワ推定手段か
らの出力信号を入力し、信号の雑音パワを推定する雑音
パワ推定手段と、前記信号パワ推定手段の出力信号と前
記雑音パワ推定手段の出力信号とを入力し、入力信号パ
ワと雑音パワの割合に応じた利得量となるように前記利
得制御手段の制御利得を算出する利得算出手段と、を有
し、前記利得算出手段は、制御利得をａ_i とし、信号パ
ワをＰＸ_i とし、雑音パワをＰＮ_i （ｉ＝１〜ｎ）と
し、利得制御範囲パラメータをＢ_i （０＜Ｂ_i ）、Ｄ_i
（０＜Ｄ_i ）とするとき、前記制御利得をａ_i ＝（ＰＸ
_i −Ｂ_i ×ＰＮ_i ＋Ｄ_i ）／（ＰＸ_i ＋Ｄ_i ）により算
出することを特徴とするものである。

【００１８】本願の請求項６の発明は、請求項３〜５い
ずれか１項の音声認識装置において、入力音響信号の信
号Ｓ／Ｎを推定する信号Ｓ／Ｎ推定手段を更に設け、前
記第１〜第ｎの利得制御手段の制御利得に対して、前記
信号Ｓ／Ｎ推定手段で推定されたＳ／Ｎが高いときは利
得の可変範囲を小さく、Ｓ／Ｎが低いときは利得の可変
範囲を大きくすることを特徴とするものである。

【００１９】本願の請求項７の発明は、請求項６の音声
認識装置において、前記信号Ｓ／Ｎ推定手段は、入力信
号レベルの単位時間内の最大値を出力するマックスホー
ルド手段と、入力信号レベルの単位時間内の最小値を出
力するミニマムホールド手段と、前記マックスホールド
手段の出力Ｐ_max 及び前記ミニマムホールド手段の出力
Ｐ_min を入力し、２つの入力の比（Ｐ_min ／Ｐ_max ）又
は差（Ｐ_max −Ｐ_min）に基づいて利得制御範囲パラメ
ータＢ_i を生成し、前記利得制御手段に与えるパラメー
タ化手段と、を有することを特徴とするものである。

【００２０】本願の請求項８の発明は、請求項６又は請
求項７の音声認識装置において、信号Ｓ／Ｎ推定手段
は、前記帯域分割手段で分割された各帯域毎に独立に設
けたことを特徴とするものである。

【００２１】本願の請求項９の発明は、請求項１〜８い
ずれか１項の音声認識装置において、前記帯域分割手段
は、帯域分割数が２であることを特徴とするものであ
る。

【００２２】本願の請求項１０の発明は、請求項９の音
声認識装置において、前記帯域分割手段は、クロスオー
バー周波数が３５０Ｈｚ〜５００Ｈの間に設定されるこ
とを特徴とするものである。

【００２３】本願の請求項１１の発明は、請求項９の音
声認識装置において、低域側の利得制御手段を第１の利
得制御手段とし、高域側の利得制御手段を第２の利得制
御手段とするとき、前記第１の利得制御手段の利得制御
範囲の方が、前記第２の利得制御手段の利得制御範囲よ
り大きいことを特徴とするものである。

【００２４】本願の請求項１２の発明は、請求項１１の
音声認識装置において、前記第１の利得制御手段が制御
する利得制御範囲が１５ｄＢ以下であることを特徴とす
るものである。

【００２５】

【発明の実施の形態】以下、本発明の各実施の形態の音
声認識装置について、図面を参照しつつ説明する。

【００２６】（実施の形態１）本発明の実施の形態１に
おける音声認識装置について、図１〜図７を用いて説明
する。図１は本実施の形態の音声認識装置の全体構成を
示すブロック図である。この音声認識装置には、入力信
号を２つ以上の周波数帯に分割する帯域分割手段１０が
設けられる。音声信号と雑音信号とを含む信号を音響信
号と呼ぶと、ここでは、マイクロホンによって入力され
た音響信号を２つの帯域を分割した場合について説明す
る。第１の帯域とは音声周波数帯の低域側を意味し、第
２の帯域とは音声周波数帯域の高域側を意味する。両者
の境界をクロスオーバー周波数という。

【００２７】先ず第１の帯域の構成要素について説明す
る。第１の信号パワ推定手段２１は、帯域分割手段１０
から第１の帯域に分割された音響信号を入力して、信号
パワの短時間平均を算出するものである。第１の雑音パ
ワ推定手段３１は、第１の信号パワ推定手段２１からの
出力信号を入力して、音声の発声されていない区間の信
号、即ち雑音のみの区間のパワを推定するものである。

【００２８】第１の信号パワ推定手段２１からの出力信
号をＰＸ₁ とし、第１の雑音パワ推定手段３１の出力信
号をＰＮ₁ とする。第１の利得算出手段４１は、信号Ｐ
Ｘ₁と、信号ＰＮ₁ とを入力し、利得ａ₁ を制御利得と
して決定し、第１の信号増幅手段５１に与えるものであ
る。第１の信号増幅手段５１は、帯域分割手段１０から
の第１の帯域に分割された音響信号を入力して、所定の
制御利得で増幅又は減衰して出力するものである。ここ
で第１の信号パワ推定手段２１、第１の雑音パワ推定手
段３１、第１の利得算出手段４１は、帯域分割手段１０
からの出力信号のレベルに応じて制御利得を演算し、第
１の信号増幅手段５１の増幅又は減衰率を制御する第１
の利得制御手段を構成している。

【００２９】第２の帯域の構成要素についても同様であ
る。即ち、第２の信号パワ推定手段２２は、帯域分割手
段１０から第２の帯域に分割された音響信号を入力し
て、信号パワの短時間平均を算出するものである。第２
の雑音パワ推定手段３２は、第２の信号パワ推定手段２
２からの出力信号を入力して、音声の発声されていない
区間の信号、即ち雑音のみの区間のパワを推定するもの
である。

【００３０】第２の信号パワ推定手段２２からの出力信
号をＰＸ₂ とし、第２の雑音パワ推定手段３２の出力信
号をＰＮ₂ とする。第２の利得算出手段４２は、信号Ｐ
Ｘ₂と、信号ＰＮ₂ とを入力し、利得ａ₂ を決定し、第
２の信号増幅手段５２に与えるものである。第２の信号
増幅手段５２は、帯域分割手段１０からの第２の帯域に
分割された音響信号を入力して、所定の制御利得で増幅
又は減衰して出力するものである。ここでも第２の信号
パワ推定手段２２、第２の雑音パワ推定手段３２、第２
の利得算出手段４２は、帯域分割手段１０からの出力信
号のレベルに応じて制御利得を演算し、第２の信号増幅
手段５２の増幅又は減衰率を制御する第２の利得制御手
段を構成している。信号加算手段６０は、第１と第２の
信号増幅手段５１，５２からの出力信号を加算して音声
認識手段１００に雑音成分の低減された音声信号を与え
るものである。

【００３１】このように構成された音声認識装置の動作
について説明する。入力信号として話者からの音声信号
に周囲の定常的な雑音が混入した音響信号を考える。こ
れは実環境下でのマイクロホンに入力される信号を想定
するもので、周囲騒音のレベルや、話者からマイクロホ
ンまでの距離などによって、そのＳ／Ｎ値は様々に変化
する。

【００３２】まず、入力信号ｘは、帯域分割手段１０に
入力されと、低域側と高域側の２つの周波数帯域に分割
される。帯域分割手段１０からの低域側の出力信号を第
１の帯域信号ｘ₁ とし、高域側の出力信号を第２の帯域
信号ｘ₂ とする。第１及び第２の帯域信号ｘ₁ 、ｘ₂
は、夫々第１及び第２の信号パワ推定手段２１，２２に
入力され、信号パワの短時間平均に変換される。

【００３３】図２（ａ）は、第１及び第２の信号パワ推
定手段２１，２２の構成例を示すブロック図である。こ
の回路は自乗演算手段２１１とＬＰＦ２１２とにより構
成される。自乗演算手段２１１はサンプルポイント毎に
信号ｘ_i （ｉは帯域番号）を自乗して出力する。そした
後段のＬＰＦ２１２は自乗演算手段２１１の出力信号を
平滑化し、信号パワの短時間平均値ＰＸ_i を出力する。

【００３４】図２（ｂ）は、信号パワ推定手段２１への
入力信号ｘ_i の波形例を示す。ここでは定常雑音、即ち
音声信号のパワ変動に比較してパワ変動量が十分小さい
雑音が、音声信号に重畳されている場合の波形を示す。
図２（ｃ）は、図２（ａ）の構成の信号パワ推定手段２
１の出力する信号パワの短時間平均値（以下では信号パ
ワという）ＰＸ_i の波形例を示す。図２の（ｂ）と
（ｃ）とを比較して判るように、入力信号ｘ_i のレベル
に応じて信号パワＰＸ_i が大きく変動する（ただし、ｉ
＝１，２）。

【００３５】次に、第１及び第２の信号パワ推定手段２
１，２２からの出力信号ＰＸ₁ ，ＰＸ₂ は、夫々第１及
び第２の雑音パワ推定手段３１，３２に入力され、雑音
パワが推定される。第１及び第２の雑音パワ推定手段の
機能を低処理量で実現する方法としてミニマムホールド
手段を用いるものがある。この方法では、音声検出器が
無くても定常雑音のレベルを検出することができる。

【００３６】図３（ａ）は、ミニマムホールドを実現す
るための演算フローを示す。先ずステップＳ１で信号パ
ワＰＸ_i を入力する。次のステップＳ２では、信号パワ
ＰＸ _i と、前回検出された雑音成分のパワ（以下では、
単に雑音パワという）ＰＮｉの大小を比較する。ＰＸ_i
＞ＰＮｉならステップＳ３に分岐し、ＰＸ_i ≦ＰＮｉな
らステップＳ４に分岐する。ステップＳ３では前回得ら
れたＰＮｉに微小値αを加え、新たなＰＮｉとする。ま
たステップＳ４では前回得られたＰＮｉを新たに入力さ
れたＰＸ_i の値に置き換える。こうすると、ステップＳ
５で現フレームの雑音パワＰＮｉが得られる。

【００３７】このようなミニマムホールド手段を用いた
第１及び第２の雑音パワ推定手段３１，３２からの出力
信号は、図３（ｂ）のように入力信号ＰＸ_i の最低レベ
ルを保持した雑音パワＰＮ_i として出力される。このよ
うにして、ＰＸ_i はｉ番目の帯域の信号パワ、ＰＮ_i は
ｉ番目の帯域の雑音パワとなる。

【００３８】次に、第１の利得算出手段４１では、第１
の信号パワ推定手段２１の出力信号ＰＸ₁ と、第１の雑
音パワ推定手段３１の出力信号ＰＮ₁ とを入力して、第
１の信号増幅手段５１の利得ａ₁ を算出する。同様に第
２の利得算出手段４２では、第２の信号パワ推定手段２
２の出力信号ＰＸ₂ と、第２の雑音パワ推定手段３２の
出力信号ＰＮ₂ とを入力して、第２の信号増幅手段５２
の利得ａ₂ を算出する。利得ａ₁ ，ａ₂ の決定方法は、
例えば下記の（１）式、（２）式、（３）式、又は
（４）式のいずれかを用いて行うことができる。

【数１】ただし、ｉ＝１，２

【数２】ただし、Ｂ_i はａ_i の変化範囲を制限する利得制御範囲
パラメータ０≦Ｂ_i ，ｉ＝１，２

【数３】ただし、Ｂ_i とＣ_i はａ_i の変化範囲を制限する利得制
御範囲パラメータ０≦Ｂ_i ，０≦Ｃ_i ，ｉ＝１，２

【数４】ただし、Ｂ_i とＤ_i はａ_i の変化範囲を制限する利得制
御範囲パラメータ０≦Ｂ_i ，０≦Ｄ_i ，ｉ＝１，２

【００３９】図４（ａ）は、（３）式の信号処理を実現
する機能ブロック図である。この場合の利得算出手段４
１，４２は、信号増幅手段４１１、信号加算手段４１
２、信号除算手段４１３、信号乗算手段４１４、信号加
算手段４１５、信号増幅手段４１６で構成することがで
きる。各信号の流れは（３）式の演算手順に準じる。即
ち信号加算手段４１２と信号除算手段４１３とにＰＸ_i
が入力され、信号増幅手段４１１にＰＮ_i が入力され
る。信号増幅手段４１１は信号ＰＮ_i を、後述する利得
制御範囲パラメータである増幅率Ｂ_i で増幅し、信号Ｐ
Ｎ_i ×Ｂ_i を出力する。信号加算手段４１２は、信号Ｐ
Ｘ_i から信号ＰＮ_i ×Ｂ_i を減算し、信号（ＰＸ_i −Ｐ
Ｎ_i ×Ｂ_i ）を出力する。信号除算手段４１３は信号１
／｜ＰＸ_i ｜を演算し、信号乗算手段４１４に与える。
信号乗算手段４１４は信号加算手段４１２の出力と信号
除算手段４１３の出力とを乗算し、信号（ＰＸ_i −ＰＮ
_i ×Ｂ _i ）／｜ＰＸ_i ｜を出力する。信号加算手段４１
５は信号乗算手段４１４の出力に利得制御範囲パラメー
タＣ_i を加算し、［（ＰＸ_i −ＰＮ_i ×Ｂ_i ）／｜ＰＸ
_i ｜＋Ｃ_i ］を出力する。信号増幅手段４１６は信号加
算手段４１５の出力を（１＋Ｃ_i ）で除算し、（３）式
の値を出力する。ここで、（３）式において、Ｂ _i ＝
１、Ｃ_i ＝０としたものが（１）式であり、Ｃ_i ＝０と
したものが（２）式となる。

【００４０】図４（ｂ）は、図３（ｂ）に示される信号
パワＰＸ_i と雑音パワＰＮ_i とが図４（ａ）の利得算出
手段に入力されたときの出力利得ａ_i の応答波形であ
る。図４（ｂ）において、波形ｂ₀ は、Ｂ_i ＝１，Ｃ_i ＝０の状態、（１）式に相
当波形ｂ₁ は、Ｂ_i ＝０，Ｃ_i ＝０．５の状態、波形ｂ₂ は、Ｂ_i ＝０．５，Ｃ_i ＝０の状態、（２）式
に相当波形ｂ₃ は、Ｂ_i ＝０．５，Ｃ_i ＝０．５の状態を示し
ている。

【００４１】（３）式では、Ｂ_i をゼロに近づけるほど
出力利得ａ_i の変化範囲（減衰量）が制限され、Ｃ_i が
大きいほど出力ａ_i の変化範囲（減衰量）が制限される
ことになる。

【００４２】図５は（４）式の信号処理を実現する機能
ブロック図である。図４（ａ）との違いは、信号増幅手
段４１６が削除され、信号加算手段４１７が追加された
ことである。この回路の信号の流れは（４）式の演算手
順に準じ、構成の説明省略する。（３）式の場合と同様
に利得制御範囲パラメータＤ_i を大きくするほど出力利
得ａ_i の変化範囲（減衰量）を制限することができる。

【００４３】次に、第１及び第２の利得算出手段４１，
４２で算出された利得ａ₁ ，ａ₂ に基づいて、第１及び
第２の信号増幅手段５１，５２が信号ｘ₁ 、ｘ₂ を夫々
増幅する。信号加算手段６０はａ₁ ×ｘ₁ とａ₂ ×ｘ₂
とを加算する。こうして信号加算手段６０から出力され
た信号は、雑音成分により変化したスペクトルの傾斜や
レベルが補正され、雑音成分の少ない音声信号に変換さ
れる。この音声信号は後段の音声認識手段１００に入力
される。音声認識手段１００では、雑音による変形が取
り除かれた音声のスペクトルが得られるため、音声認識
率を向上させることができる。

【００４４】図６（ａ）は定常雑音に音声信号が重畳さ
れた入力信号ｘの波形を示している。図６（ｂ）は、図
６（ａ）の時刻ｔ₁ における信号スペクトルを模式的に
表したもので、横軸が周波数、縦軸がパワである。今、
低域側の信号パワがＰＸ₁ 、雑音パワがＰＮ₁ 、高域側
の信号パワがＰＸ₂ 、雑音パワがＰＮ₂ であるとする。
定常雑音信号と音声信号が互いに独立な信号であるとす
れば、短時間平均信号パワＰＳ_i は（５）式で近似され
る。

【数５】よって、図６（ｂ）の斜線部分が音声スペクトル成分と
なり、その下の部分が雑音スペクトル成分となる。

【００４５】ここで、例えば（１）式によって利得ａ_i
を決定することで、信号加算手段６０の出力信号は斜線
部のスペクトルを取り出したものとなる。また、図６
（ｃ）は、図６（ａ）の時刻ｔ₂ における信号スペクト
ルを模式的に表したものであり、（ｂ）と同様の形式で
表示している。定常雑音成分は時間的に変化が少ない雑
音であり、時刻ｔ₁ でも時刻ｔ₂ でも同様のスペクトル
を持つが、音声信号は時々刻々と変化しているため、図
６（ｂ）から図６（ｃ）へと変化する。上記構成は、こ
の音声信号の時間変化に応じて利得ａ_i を変化させるこ
とができ、結果として、定常雑音成分を取り除いた音声
信号を得ることができる。

【００４６】実際には回路規模などの問題で帯域分割数
は可能な限り小さい方が良い。しかし最小の帯域分割数
である２帯域では、理想的に雑音成分の影響を完全に取
り除くことはできない。これは図６の（ｂ）や（ｃ）の
スペクトルのように、雑音スペクトルや音声スペクトル
が直線では表現できないことによる誤差があること、雑
音パワＰＮ_i の推定には必ず誤差が生じること、また
（５）式は近似式であることなどに起因している。誤差
を持つ状態で（１）式による利得決定を行った場合、音
声信号成分の欠落が生じることがあり、逆に音声認識結
果を劣化させることになる。そこで、誤差の発生を予め
考慮して、利得決定における利得ａ_i の変化範囲に制限
を設けることで、２帯域の分割数でも雑音環境下での音
声認識率を改善することができる。

【００４７】図７は、（３）式において、Ｂ₁ ＝０．
８，Ｂ₂ ＝０．８、Ｃ₁ ＝０．２５，Ｃ₂ ＝０．５とし
たときの音声認識実験結果を示し、横軸を入力信号のＳ
／Ｎ（ｄＢ）とし、縦軸を音声認識率（％）とする。こ
の実験では、雑音を自動車走行中の雑音とし、話者は６
名、認識対象用の単語数は１００とした。実施の形態１
の特性では、入力信号Ｓ／Ｎが約１０ｄＢ以下の雑音状
況下で、発声単語の認識性能をかなり改善できることが
判る。

【００４８】尚、本実施の形態では、帯域分割手段１０
における帯域分割数を２としたが、分割数を３以上にす
ると、より高い効果が得られる。

【００４９】（実施の形態２）次に本発明の実施の形態
２における音声認識装置について、図８〜図１１を用い
て説明する。図８は本実施の形態の音声認識装置の全体
構成を示すブロック図である。この音声認識装置には、
帯域分割手段１０、第１及び第２の信号パワ推定手段２
１，２２、第１及び第２の雑音パワ推定手段３１，３
２、第１及び第２の利得算出手段４１，４２、第１及び
第２の信号増幅手段５１，５２、信号加算手段６０、音
声認識手段１００が設けられていることは、実施の形態
１の場合と同様であり、それらの説明は省略する。

【００５０】実施の形態１の構成要素に加えて、本実施
の形態では信号Ｓ／Ｎ推定手段８０が設けられる。信号
Ｓ／Ｎ推定手段８０は、入力信号ｘのＳ／Ｎを推定し、
第１の利得算出手段４１及び第２の利得算出手段４２の
利得ａ₁ ，ａ₂ の可変範囲を、入力信号のＳ／Ｎが高い
ときには可変範囲を小さく、入力信号のＳ／Ｎが低いと
きには可変範囲を大きくするように制御するものであ
る。

【００５１】このような構成の音声認識装置の動作につ
いて説明する。実施の形態１では、第１及び第２の利得
算出手段４１，４２で算出される利得ａ_i の可変範囲を
（３）式のＢ_i とＣ_i とに固定値を与えて制限した。こ
の方法では、認識率の改善効果はある限られたＳ／Ｎの
範囲になり、図７の結果の例では、Ｓ／Ｎが１１ｄＢ以
上の入力信号に対しては、逆に認識性能を劣化されてし
まう。実験的に求めた結果からは、Ｓ／Ｎが悪いとき
に、利得ａ_i の変化範囲を大きくした方が改善率が大き
く得られ、Ｓ／Ｎが良いときには利得ａ_i の変化範囲を
小さくした方が良好な結果が得られる。これは、Ｓ／Ｎ
が悪いときには、音声認識率を劣化させている主たる要
因が雑音であるため、雑音の影響を取り除く度合いを大
きくした方が良い結果となることを意味する。

【００５２】一方、Ｓ／Ｎが良いときには、雑音による
音声認識率の劣化分より、処理によって利得ａ_i が変動
することによる波形歪みの影響が強くなる。これが高Ｓ
／Ｎ時の認識率劣化につながる。このような理由から、
本実施の形態では、信号Ｓ／Ｎ推定手段８０において、
定常雑音区間のＳ／Ｎが悪い場合、（３）式のＢ_i の最
大値を１に制限し、音声区間で雑音成分が少ないような
Ｓ／Ｎの良いときには、Ｂ_i の最小値を０．５になるよ
うに制御する。即ち、０．５≦Ｂ_i ≦１の範囲でＢ_i の
値を適応的に変化させる。

【００５３】図９は、信号Ｓ／Ｎ推定手段８０の構成例
を示すブロック図である。信号パワ推定手段８０１は、
信号ｘ₀ を入力し、短時間平均パワに変換された信号Ｐ
Ｘ₀を出力する。ミニマムホールド手段８０２は、信号
パワ推定手段８０１からの出力信号ＰＸ₀ を入力し、定
常雑音パワレベルに対応する最小値として出力信号Ｐmi
n を出力する。マックスホールド手段８０３は、信号パ
ワ推定手段８０１からの出力信号ＰＸ₀ を入力し、信号
パワのピーク値に対応する出力信号Ｐmax を出力する。
パラメータ化手段８０４は、例えば（６）式を用いて利
得制御範囲パラメータＢを決定する。

【数６】

【００５４】（６）式によれば、入力信号ｘ₀ のＳ／Ｎ
が悪いとき、Ｐmin がＰmax ほぼ等しい状態になるた
め、Ｂは１．０に近づく。逆に入力信号ｘ₀ のＳ／Ｎが
良いとき、Ｐmin ＜＜Ｐmax となり、Ｂは０．５に近づ
く。このようにして、入力信号のＳ／Ｎに応じたＢの値
が０．５≦Ｂ≦１．０の範囲で得られる。これを第１及
び第２の利得算出手段４１，４２における（３）式のＢ
_i に代入することで、最適の制御が行える。

【００５５】このようにして、実施の形態１に対して入
力信号Ｓ／Ｎの適用範囲が拡大し、認識率も大幅に向上
する。図１０は本実施の形態による音声認識の実験の結
果を示す説明図である。図７と比較すると、本実施の形
態では、低Ｓ／Ｎから高Ｓ／Ｎまでの全Ｓ／Ｎ範囲に渡
って認識率を更に改善されることが判る。また、本実施
の形態において、帯域分割手段の帯域分割数が２のと
き、クロスオーバー周波数は、音声の重要な周波数成分
が存在する２００Ｈｚ〜２ｋＨｚの間の値に設定するの
がよい。好ましくは３５０〜５００Ｈｚが良い。図１１
は、帯域分割手段１０のクロスオーバー周波数を変化さ
せた場合の音声認識率を示した説明図である。この結果
から、クロスオーバー周波数は３５０Ｈｚ〜５００Ｈｚ
に最適値があることが判る。

【００５６】また、実施の形態１及び２において、第１
及び第２の利得算出手段４１，４２における（３）式の
定数Ｃ_i として、低域側の定数をＣ₁ ＝０．２５とし、
高域側の定数Ｃ₂ ＝０．５としたが、これを第１及び第
２の信号増幅手段５１，５２での利得変化範囲に換算す
ると、低域側が１４ｄＢ、高域側が９．５ｄＢとなる。
実験的にはこの数値が最適値となっており、信号に与え
る波形歪みの観点から、減衰量はこれより小さくしてお
くことが望ましい。

【００５７】一般的に環境騒音は、低域成分の方がパワ
が大きい。従って、スペクトル傾斜補正の観点から、低
域側の補正量を大きく取る必要があり、前記のように高
域側より低域側の利得変化範囲を大きくすることが望ま
しい。この場合、第１の利得制御手段の利得制御範囲
を、第２の利得制御手段の利得制御範囲より大きくす
る。

【００５８】尚、本実施の形態における信号Ｓ／Ｎ推定
手段８０での信号パワ推定手段８０１では、パワでなく
振幅値を求めるなど、レベルを表す出力で代用すること
もできる。

【００５９】（実施の形態３）次に本発明の実施の形態
３における音声認識装置について、図１２を用いて説明
する。図１２は本実施の形態の音声認識装置の全体構成
を示すブロック図である。この音声認識装置には、帯域
分割手段１０、第１及び第２の信号パワ推定手段２１，
２２、第１及び第２の雑音パワ推定手段３１，３２、第
１及び第２の利得算出手段４１，４２、第１及び第２の
信号増幅手段５１，５２、信号加算手段６０、音声認識
手段１００が設けられていることは、実施の形態１と同
様である。

【００６０】実施の形態１と異なる部分は、第１の信号
帯域処理系に第１のマックスホールド手段７１と第１の
帯域Ｓ／Ｎパラメータ化手段８１とを設け、第２の信号
帯域処理系に第２のマックスホールド手段７２と第２の
帯域Ｓ／Ｎパラメータ化手段８２とを設けたことであ
る。

【００６１】第１のマックスホールド手段７１は、第１
の信号パワ推定手段２１からの出力信号ＰＸ₁ を入力
し、その単位時間内の最大値Ｐmax₁を出力するものであ
る。第１の帯域Ｓ／Ｎパラメータ化手段８１は、第１の
マックスホールド手段７１からの出力信号Ｐmax₁と、第
１の雑音パワ推定手段３１からの出力信号ＰＮ₁ を入力
し、第１の利得算出手段４１に対する利得変化範囲を制
限するパラメータＢ₁ を出力するものである。第２の信
号帯域処理系における第２のマックスホールド手段７
２、第２の帯域Ｓ／Ｎパラメータ化手段８２について
も、第１の信号帯域処理系のものと同一である。

【００６２】このような構成の音声認識装置の動作につ
いて説明する。実施の形態３は、実施の形態２における
信号Ｓ／Ｎ推定手段８０に相当する機能を、帯域分割手
段１０からの各帯域出力毎に設けた構成としている。即
ち、図９の信号パワ推定手段８０１を図１２の第１及び
第２の信号パワ推定手段２１，２２で置き換え、図９の
ミニマムホールド手段８０２を図１２の第１及び第２の
雑音パワ推定手段３１，３２で置き換え、図９のマック
スホールド手段８０３を図１２の第１及び第２のマック
スホールド手段７１，７２で置き換え、図９のパラメー
タ化手段８０４を図１２の第１及び第２の帯域Ｓ／Ｎパ
ラメータ化手段８１，８２で置き換えたものである。

【００６３】第１及び第２の帯域Ｓ／Ｎパラメータ化手
段８１，８２の動作や、第１及び第の利得算出手段４
１，４２の動作は、実施の形態２と場合と機能的には同
様である。実施の形態３では、第１及び第２の帯域Ｓ／
Ｎパラメータ化手段８１，８２によって、各周波数帯域
毎に利得変化範囲の制限の調整が行えるようになる。こ
のため利得の最適化の自由度が高まり、音声認識装置と
しての性能の改善が見込めるものとなる。

【００６４】

【発明の効果】本願発明の音声認識装置によれば、周囲
騒音とレベルや周波数成分に応じて入力信号のレベルや
周波数特性を、音声信号成分が雑音の無い環境のものに
近づくように適応的に変化させることにより、音声認識
手段での認識性能を改善することができる。

【００６５】特に請求項３，４，５の発明によれば、第
１〜第ｎの信号増幅手段における利得の変化範囲を制御
することが可能となり、音声認識手段に対する最適化が
行え、音声認識性能を改善することができる。

【００６６】特に請求項６，７，８の発明によれば、入
力信号の音声信号レベル対雑音信号レベル（Ｓ／Ｎ）の
状態に応じて、第１〜第ｎの信号増幅手段における利得
の変化範囲を自動的に最適値に制御できるようになり、
様々な使用環境での音声認識性能を改善することができ
る。

【００６７】特に請求項９の発明によれば、本願の最小
処理規模となる２帯域の分割で、認識率改善の効果が得
られ、処理量削減の面で効果が得られる。

【００６８】特に請求項１０，１１，１２の発明によれ
ば、より少ない帯域分割数で音声認識率を向上すること
ができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１における音声認識装置の
全体構成を示すブロック図である。

【図２】（ａ）は実施の形態１の音声認識装置における
信号パワ推定手段の構成例を示すブロック図、（ｂ）は
実施の形態１の音声認識装置における信号パワ推定手段
への入力信号の波形図、（ｃ）は実施の形態１の音声認
識装置における信号パワ推定手段の応答例である。

【図３】（ａ）は実施の形態１の音声認識装置における
雑音パワ推定手段の構成例を示すブロック図、（ｂ）は
実施の形態１の音声認識装置における雑音パワ推定手段
の応答例である。

【図４】（ａ）は実施の形態１の音声認識装置における
利得算出手段の構成例（その１）を示すブロック図、
（ｂ）は実施の形態１の音声認識装置における利得算出
手段の応答例である。

【図５】実施の形態１の音声認識装置における利得算出
手段の構成例（その２）を示すブロック図である。

【図６】（ａ）は実施の形態１の音声認識装置における
入力信号の波形例であり、（ｂ）は入力信号の時刻ｔ1
における信号スペクトル図であり、（ｃ）は入力信号の
時刻ｔ2 における信号スペクトル図である。

【図７】実施の形態１の音声認識装置における音声認識
率の改善効果を示す特性図である。

【図８】本発明の実施の形態２における音声認識装置の
全体構成を示すブロック図である。

【図９】実施の形態２の音声認識装置における信号Ｓ／
Ｎ推定手段の構成例を示すブロック図である。

【図１０】実施の形態２の音声認識装置における音声認
識率の改善効果を示す特性図である。

【図１１】実施の形態１の音声認識装置における音声認
識率と帯域分割手段のクロスオーバー周波数との関係を
示す説明図である。

【図１２】本発明の実施の形態３における音声認識装置
の全体構成を示すブロック図である。

【図１３】従来例の音声認識装置の全体構成を示すブロ
ック図である。

【符号の説明】

１０帯域分割手段２１第１の信号パワ推定手段２２第２の信号パワ推定手段３１第１の雑音パワ推定手段３２第２の雑音パワ推定手段４１第１の利得算出手段４２第２の利得算出手段５１第１の信号増幅手段５２第２の信号増幅手段６０信号加算手段７１第１のマックスホールド手段７２第２のマックスホールド手段８０信号Ｓ／Ｎ推定手段８１第１の帯域Ｓ／Ｎパラメータ化手段８２第２の帯域Ｓ／Ｎパラメータ化手段１００音声認識手段２１１自乗演算手段２１２ＬＰＦ４１１，４１６信号増幅手段４１２，４１５信号加算手段４１３信号除算手段４１４信号乗算手段８０１信号パワ推定手段８０２ミニマムホールド手段８０３マックスホールド手段８０４パラメータ化手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者河村岳大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5D015 EE05 9A001 FF05 GG05 HH17

Claims

【特許請求の範囲】

【請求項１】入力音声に混入した雑音成分によって変
形した音響信号に対して、信号スペクトルの形状を補正
して音声認識を行う音声認識装置であって、入力音響信号をｎ個の帯域に分割する帯域分割手段と、前記帯域分割手段によってｎ分割された周波数帯域の音
響信号を入力し、制御利得に基づいて音響信号の増幅又
は減衰を行う第１〜第ｎの信号増幅手段と、前記帯域分割手段からの出力信号のレベルに応じて前記
制御利得を演算し、前記第１〜第ｎの信号増幅手段の利
得を制御する第１〜第ｎの利得制御手段と、前記第１〜第ｎの信号増幅手段からの出力信号を加算
し、雑音成分の低減された音声信号を出力する信号加算
手段と、前記信号加算手段から出力された音声信号を入力し、音
声認識を行う音声認識手段と、を具備することを特徴と
する音声認識装置。
【請求項２】前記利得制御手段は、前記帯域分割手段で分割された帯域信号を入力し、短時
間平均パワを出力する信号パワ推定手段と、前記信号パワ推定手段からの出力信号を入力し、信号の
雑音パワを推定する雑音パワ推定手段と、前記信号パワ推定手段の出力信号と前記雑音パワ推定手
段の出力信号とを入力し、入力信号パワと雑音パワの割
合に応じた利得量となるように前記利得制御手段の制御
利得を算出する利得算出手段と、を有し、前記利得算出手段は、制御利得をａ_i とし、信号パワをＰＸ_i （ｉ＝１〜ｎ）
とし、雑音パワをＰＮ _i とするとき、前記制御利得をａ
_i ＝（ＰＸ_i −ＰＮ_i ）／ＰＸ_i により算出することを
特徴とする請求項１記載の音声認識装置。
【請求項３】前記利得制御手段は、前記帯域分割手段で分割された帯域信号を入力し、短時
間平均パワを出力する信号パワ推定手段と、前記信号パワ推定手段からの出力信号を入力し、信号の
雑音成分パワを推定する雑音パワ推定手段と、前記信号パワ推定手段の出力信号と前記雑音パワ推定手
段の出力信号とを入力し、入力信号パワと雑音パワの割
合に応じた利得量となるように前記利得制御手段の制御
利得を算出する利得算出手段と、を有し、前記利得算出手段は、制御利得をａ_i とし、信号パワをＰＸ_i （ｉ＝１〜ｎ）
とし、雑音パワをＰＮ _i とし、利得制御範囲パラメータ
をＢ_i （０＜Ｂ_i ）とするとき、前記制御利得をａ_i ＝
（ＰＸ_i −Ｂ_i ×ＰＮ_i ）／ＰＸ_i により算出すること
を特徴とする請求項１記載の音声認識装置。
【請求項４】前記利得制御手段は、前記帯域分割手段で分割された帯域信号を入力し、短時
間平均パワを出力する信号パワ推定手段と、前記信号パワ推定手段からの出力信号を入力し、信号の
雑音パワを推定する雑音パワ推定手段と、前記信号パワ推定手段の出力信号と前記雑音パワ推定手
段の出力信号とを入力し、入力信号パワと雑音パワの割
合に応じた利得量となるように前記利得制御手段の制御
利得を算出する利得算出手段と、を有し、前記利得算出手段は、制御利得をａ_i とし、信号パワをＰＸ_i （ｉ＝１〜ｎ）
とし、雑音パワをＰＮ _i とし、利得制御範囲パラメータ
をＢ_i （０＜Ｂ_i ）、Ｃ_i （０＜Ｃ_i ）とするとき、前
記制御利得をａ_i ＝（ＰＸ_i −Ｂ_i ×ＰＮ_i ）／ＰＸ_i
＋Ｃ_i により算出することを特徴とする請求項１記載の
音声認識装置。
【請求項５】前記利得制御手段は、前記帯域分割手段で分割された帯域信号を入力し、短時
間平均パワを出力する信号パワ推定手段と、前記信号パワ推定手段からの出力信号を入力し、信号の
雑音パワを推定する雑音パワ推定手段と、前記信号パワ推定手段の出力信号と前記雑音パワ推定手
段の出力信号とを入力し、入力信号パワと雑音パワの割
合に応じた利得量となるように前記利得制御手段の制御
利得を算出する利得算出手段と、を有し、前記利得算出手段は、制御利得をａ_i とし、信号パワをＰＸ_i とし、雑音パワ
をＰＮ_i （ｉ＝１〜ｎ）とし、利得制御範囲パラメータ
をＢ_i （０＜Ｂ_i ）、Ｄ_i （０＜Ｄ_i ）とするとき、前
記制御利得をａ_i ＝（ＰＸ_i −Ｂ_i ×ＰＮ_i ＋Ｄ_i ）／
（ＰＸ_i ＋Ｄ_i）により算出することを特徴とする請求
項１記載の音声認識装置。
【請求項６】入力音響信号の信号Ｓ／Ｎを推定する信
号Ｓ／Ｎ推定手段を更に設け、前記第１〜第ｎの利得制
御手段の制御利得に対して、前記信号Ｓ／Ｎ推定手段で
推定されたＳ／Ｎが高いときは利得の可変範囲を小さ
く、Ｓ／Ｎが低いときは利得の可変範囲を大きくするこ
とを特徴とする請求項３〜５いずれか１項記載の音声認
識装置。
【請求項７】前記信号Ｓ／Ｎ推定手段は、入力信号レベルの単位時間内の最大値を出力するマック
スホールド手段と、入力信号レベルの単位時間内の最小値を出力するミニマ
ムホールド手段と、前記マックスホールド手段の出力Ｐ_max 及び前記ミニマ
ムホールド手段の出力Ｐ_min を入力し、２つの入力の比
（Ｐ_min ／Ｐ_max ）又は差（Ｐ_max −Ｐ_min ）に基づい
て利得制御範囲パラメータＢ_i を生成し、前記利得制御
手段に与えるパラメータ化手段と、を有することを特徴
とする請求項６記載の音声認識装置。
【請求項８】信号Ｓ／Ｎ推定手段は、前記帯域分割手段で分割された各帯域毎に独立に設けた
ことを特徴とする請求項６又は請求項７記載の音声認識
装置。
【請求項９】前記帯域分割手段は、帯域分割数が２であることを特徴とする請求項１〜８い
ずれか１項記載の音声認識装置。
【請求項１０】前記帯域分割手段は、クロスオーバー周波数が３５０Ｈｚ〜５００Ｈの間に設
定されることを特徴とする請求項９記載の音声認識装
置。
【請求項１１】低域側の利得制御手段を第１の利得制
御手段とし、高域側の利得制御手段を第２の利得制御手
段とするとき、前記第１の利得制御手段の利得制御範囲の方が、前記第
２の利得制御手段の利得制御範囲より大きいことを特徴
とする請求項９記載の音声認識装置。
【請求項１２】前記第１の利得制御手段が制御する利
得制御範囲が１５ｄＢ以下であることを特徴とする請求
項１１記載の音声認識装置。