JP3933860B2

JP3933860B2 - 音声認識装置

Info

Publication number: JP3933860B2
Application number: JP2000315546A
Authority: JP
Inventors: 知宏成田; 鈴木　　忠
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-02-28
Filing date: 2000-10-16
Publication date: 2007-06-20
Anticipated expiration: 2020-10-16
Also published as: JP2001318687A

Description

【０００１】
【発明の属する技術分野】
この発明は音声認識装置に係り、特に周囲に雑音がある環境下でも入力された音声に重畳する背景雑音を除去したうえで、雑音が除去された音声の特徴量と予め用意された標準音声パターンの特徴量とを照合して入力された音声を認識する音声認識装置に関するものである。
【０００２】
【従来の技術】
周囲に雑音または騒音がある環境下で発声した音声には背景雑音が重畳しているために音声認識率が低下する。図８は、雑音等がある環境下において音声を認識する従来の音声認識装置の構成を示すブロック図である。図において、ｔは時刻、Ｋは雑音源の数、ｘ（ｔ）はマイクロホンの観測信号、ｓ（ｔ）は話者が発声する音声信号、ｎ^ｋ（ｔ）は雑音源ｋ（１≦ｋ≦Ｋ）が出力する雑音信号、ｈ_ｓ（ｔ）は話者からマイクロホンへのインパルス応答、ｈ^ｋ _ｎ（ｔ）は雑音源ｋからマイクロホンへのインパルス応答、＊は畳み込み演算を示すものである。また、マイクロホン以外の音声認識装置の構成要素を総括して認識処理部として示し、この認識処理部はこの分野において周知である音声認識技術を用いて構成されているものとする。図に示されるように、マイクロホンの観測信号は音声信号に雑音信号が重畳したものである。したがって、雑音無し音声パターンと標準音声パターンとを照合して認識処理を行う必要のある音声認識装置においては、重畳雑音を除去する必要が生じる。観測点における雑音信号は各雑音源から出力される各雑音信号が足し合わされたものである。以下では、複数の雑音源からそれぞれ出力される雑音の組み合せにより観測点において与えられる雑音に係る識別パターンを“雑音パターン”と定義して、当該雑音パターンを出力する仮想的な雑音源があるものとして説明を行なう。
【０００３】
重畳雑音を除去するための簡単で有効な手法として、音声用マイクロホンと雑音用マイクロホンとを用いた２入力スペクトルサブトラクション法（以下、２入力ＳＳ法と称する）が広く用いられている。図９は、例えば「２入力による雑音除去手法を用いた自動車内の音声認識；信学技報ＳＰ８９−８１」に示された従来の２入力ＳＳ法を用いた音声認識装置の構成を示す図である。図において、１０１は背景雑音が重畳した音声を収集する音声用マイクロホン、１０２は主に背景雑音を収集する雑音用マイクロホン、１０３は音声用マイクロホン１０１が出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段、１０４は雑音用マイクロホン１０２が出力する雑音パターン信号を周波数変換して雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段、１０５は音声用マイクロホン１０１と雑音用マイクロホン１０２との間においての雑音パターンに対する伝達特性に係る周波数特性についての差異を補正するためのフィルタを１つ記憶する補正フィルタメモリ、１０６は補正フィルタメモリ１０５が記憶する補正フィルタを用いて雑音スペクトル演算手段１０４から出力される雑音パターンに係るパワースペクトルを補正して補正雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル補正手段、１０７は雑音重畳音声スペクトル演算手段１０３から出力される雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段、１０８は雑音除去音声スペクトル演算手段１０７から出力される雑音除去音声に係るパワースペクトルから特徴ベクトルを生成して当該特徴ベクトルを時系列に出力する特徴ベクトル演算手段、１０９は照合用の雑音の無い複数の標準音声パターンに対する特徴ベクトルを予め記憶させる照合パターンメモリ、１１０は特徴ベクトル演算手段１０８から出力される特徴ベクトルと照合パターンメモリ１０９内に記憶された標準音声パターンに係る特徴ベクトルとを照合して最大尤度を与える認識候補を認識結果として出力する照合手段である。
【０００４】
次に動作について説明する。
音声用マイクロホン１０１は、一般的に話者の近傍に設置されて、背景雑音が重畳した音声を収集する。雑音用マイクロホン１０２は、一般的に話者から離隔した位置に設置されて、主に背景雑音を収集する。なお、この従来の音声認識装置は、雑音用マイクロホン１０２への音声の洩れ込みが無視できるほど小さい場合を想定して構成されているものである。
【０００５】
雑音重畳音声スペクトル演算手段１０３は、音声用マイクロホン１０１が出力する雑音重畳音声信号に対して、一定時間毎にシフトする分析フレーム毎にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実施し、雑音重畳音声信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。ここで、雑音重畳音声信号のｚ変換をＸ１（ｚ）、音声信号のｚ変換をＳ（ｚ）、雑音パターン信号のｚ変換をＮ（ｚ）、話者から音声用マイクロホン１０１への伝達特性をＧ_１１（ｚ）、雑音パターンについての仮想的な雑音源から音声用マイクロホン１０１への伝達特性をＧ_２１（ｚ）とすると、以下の式（１）の関係が導かれる。

【０００６】
また、複数の分析フレームにわたる信号の遅延は生じないと仮定すれば、式（１）は以下の式（２）のように表すことができる。

式（２）において、ωは角周波数、Ｘ１_ｉ（ω）は分析フレームｉにおける音声用マイクロホンから出力される雑音重畳音声信号に係るパワースペクトル、Ｓ_ｉ（ω）は分析フレームｉにおいて話者が発声する音声に係るパワースペクトル、Ｎ_ｉ（ω）は分析フレームｉにおいて仮想的な雑音源が出力する雑音パターンに係るパワースペクトル、Ｇ_１１（ω）は話者から音声用マイクロホンへの伝達特性についての周波数特性（フィルタ）、Ｇ_２１（ω）は仮想的な雑音源から音声用マイクロホンへの伝達特性についての周波数特性（フィルタ）である。音声認識では、位相情報は不必要であるために、以降では、特に明示しない限り位相情報を考慮しない周波数領域を対象として説明を行う。
【０００７】
雑音スペクトル演算手段１０４は、雑音用マイクロホン１０２が出力する雑音パターン信号に対して、一定時間毎にシフトする分析フレーム毎にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実施して、雑音パターン信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームｉにおける雑音パターンに係るパワースペクトルＸ２_ｉ（ω）は、以下の式（３）で表される。式（３）において、Ｇ_２２（ω）は雑音パターンについての仮想的な雑音源から雑音用マイクロホン１０２への伝達特性についての周波数特性である。
Ｘ２_ｉ（ω）＝Ｇ_２２（ω）・Ｎ_ｉ（ω）（３）
【０００８】
補正フィルタメモリ１０５は、音声用マイクロホン１０１と雑音用マイクロホン１０２との間における雑音パターンに対する伝達特性に係る周波数特性の差異を補正するためのフィルタＨ_２１（ω）＝Ｇ_２１（ω）／Ｇ_２２（ω）を記憶する。上述の「２入力による雑音除去手法を用いた自動車内の音声認識」では、音声区間の直前の雑音区間において、以下に記される式（４）を用いて音声区間の直前の雑音区間から補正フィルタを算出してその値を記憶する。式（４）においてＴ_ｓは音声区間の先頭の分析フレーム番号を示すものであり、式（４）により音声区間直前の２０フレームにおける雑音パターンに係るパワースペクトルについての雑音用マイクロホンに対する音声用マイクロホンの周波数成分毎の比の平均値が算出される。
【数１】

【０００９】
雑音スペクトル補正手段１０６は、補正フィルタメモリ１０５に記憶された補正フィルタを用いて雑音パターンに係るパワースペクトルを補正して、補正雑音パターンに係るパワースペクトルを時系列に出力する。このとき、分析フレームｉにおける補正雑音パターンに係るパワースペクトルＸ２’_ｉ（ω）は以下の式（５）のように表される。
Ｘ２’_ｉ（ω）＝Ｈ_２１（ω）・Ｘ２_ｉ（ω）（５）
【００１０】
雑音除去音声スペクトル演算手段１０７は、雑音重畳音声スペクトル演算手段１０３から分析フレーム毎に時系列にそれぞれ出力される雑音重畳音声に係るパワースペクトルから、雑音スペクトル補正手段１０６から出力される補正雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルを算出しこれを時系列に出力する。このとき、分析フレームｉにおける雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）は、以下の式（６）で表される。式（６）において、αは補正雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは補正雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、ｍａｘ｛｝は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
Ｓ’_ｉ（ω）
＝ｍａｘ｛Ｘ１_ｉ（ω）−αＸ２’_ｉ（ω），β｝（６）
【００１１】
ここで、Ｈ_２１（ω）＝Ｇ_２１（ω）／Ｇ_２２（ω）であるから、式（３）および式（５）から、Ｘ２’_ｉ（ω）＝Ｇ_２１（ω）Ｎ_ｉ（ω）となる。この式および式（２）を式（６）に代入すると、α＝１のときにＳｉ’（ω）＝Ｇ_１１（ω）Ｓ_ｉ（ω）となって、雑音が除去された音声に係るパワースペクトルを得ることができる。
【００１２】
特徴ベクトル演算手段１０８は、雑音除去音声スペクトル演算手段１０７が時系列に出力する雑音除去音声に係るパワースペクトルをＬＰＣケプストラム等の音声認識において音響的な特徴を表現する特徴ベクトルに変換して、当該特徴ベクトルを時系列に出力する。
【００１３】
照合手段１１０は、特徴ベクトル演算手段１０８から出力される特徴ベクトルと、照合パターンメモリ１０９内に記憶された雑音無しの標準音声パターンに係る特徴ベクトルとの照合を実施して、最大尤度を与える音声認識候補を認識結果として出力する。
【００１４】
【発明が解決しようとする課題】
従来の２入力ＳＳ法を用いた音声認識装置は上記のように構成されているので、雑音用マイクロホンへの音声の洩れ込みが無視できるほど小さく、かつ音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性の変動が小さい場合すなわち雑音源が固定されている場合には比較的良好に動作する。しかし、雑音用マイクロホンへの音声の洩れ込みが無視できない場合や、雑音源が複数あり雑音源が時間とともに入れ替わる場合等で音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合には、正確な雑音除去を実施することができなくて認識性能が低下するという課題があった。
【００１５】
この発明は上記のような課題を解決するためになされたもので、雑音用マイクロホンに音声が洩れ込んだ場合においても、雑音環境下で音声を正確に認識することができる音声認識装置を得ることを目的とする。
【００１６】
また、この発明は、音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合においても、雑音環境下で音声を正確に認識することができる音声認識装置を得ることを目的とする。
【００１７】
【課題を解決するための手段】
この発明に係る音声認識装置は、背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、音声用マイクロホンが出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、雑音用マイクロホンが出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶した雑音補正用補正フィルタメモリと、雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段と、雑音補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを雑音重畳音声に係るパワースペクトルに含まれる雑音成分に変換する洩れ込み音声除去雑音スペクトル補正手段と、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えるようにしたものである。
【００２１】
この発明に係る音声認識装置は、背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、音声用マイクロホンから出力される雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、雑音用マイクロホンから出力される雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の代表雑音スペクトルメモリと、第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の代表雑音スペクトルメモリと、収集された洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを第１の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第１の雑音スペクトル選択手段と、第１の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを第２の代表雑音スペクトルメモリから選択し時系列に出力する第２の雑音スペクトル選択手段と、雑音重畳音声に係るパワースペクトルから、第２の雑音スペクトル選択手段が選択した重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えるようにしたものである。
【００２２】
この発明に係る音声認識装置は、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えるようにしたものである。
【００２３】
この発明に係る音声認識装置は、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルから、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第１の雑音スペクトル学習手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルから、第１の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第２の雑音スペクトル学習手段とを備えるようにしたものである。
【００２４】
この発明に係る音声認識装置は、第１の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第１の雑音スペクトルメモリと、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第１のクラスタリング手段とを備え、第２の雑音スペクトル学習手段が、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の雑音スペクトルメモリと、第２の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第１のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第２のクラスタリング手段とを備えるようにしたものである。
【００２５】
この発明に係る音声認識装置は、第１の雑音スペクトル学習手段は、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の雑音スペクトルメモリと、第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータに重みを掛けて算出する距離値を用いて、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えるようにしたものである。
【００２６】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示す図である。図において、１は背景雑音が重畳した音声を収集する音声用マイクロホン、２は主に背景雑音を収集する雑音用マイクロホン、３は音声用マイクロホン１が出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段、４は雑音用マイクロホン２が出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段、５はセンサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段、６は音声用マイクロホン１と雑音用マイクロホン２との間においての音声の伝達特性に係る周波数特性の差異を補正するためのフィルタを１または複数個記憶する音声補正用補正フィルタメモリ、７は話者位置検出手段５から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリ６から選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段、８は音声補正用補正フィルタ選択手段７から出力される補正フィルタを用いて対応する雑音重畳音声に係るパワースペクトルを補正して補正雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル補正手段、９は雑音スペクトル演算手段４から出力される音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段、１０は音声用マイクロホン１と雑音用マイクロホン２との間においての雑音パターンの伝達特性に係る周波数特性の差異を補正するためのフィルタを１または複数個記憶する雑音補正用補正フィルタメモリ、１１は雑音補正用補正フィルタメモリ１０に記憶されたそれぞれの補正フィルタに対応する代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する代表雑音スペクトルメモリ、１２は洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ１１に記憶される複数の代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリ１１から選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段、１３は雑音スペクトル選択手段１２から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリ１０から選択して時系列に出力する雑音補正用補正フィルタ選択手段、１４は雑音補正用補正フィルタ選択手段１３から出力される補正フィルタを用いて洩れ込み音声を除去した雑音パターンに係るパワースペクトルを補正して補正雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去雑音スペクトル補正手段、１５は雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段、１６は雑音除去音声に係るパワースペクトルから特徴ベクトルを生成して当該特徴ベクトルを時系列に出力する特徴ベクトル演算手段、１７は照合用の複数の雑音の無い標準音声パターンに係る特徴ベクトルを予め記憶させる照合パターンメモリ、１８は特徴ベクトル演算手段１６から時系列に出力される特徴ベクトルと照合パターンメモリ１７内に記憶された雑音無し標準音声パターンに係る特徴ベクトルとを照合して最大尤度を与える認識候補を認識結果として出力する照合手段である。なお、特徴ベクトル演算手段１６、照合パターンメモリ１７および照合手段１８を総括して、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部が与えられるものとみなすこともできる。
【００２７】
次に動作について説明する。
音声用マイクロホン１は、一般的に話者の近傍に設置されて、背景雑音が重畳した音声を収集する。雑音用マイクロホン２は、一般的に話者から離隔した位置に設置されて、主に背景雑音を収集する。なお、この発明の実施の形態１による音声認識装置は、雑音源が複数個あって時間とともに雑音源が入れ替わる環境を想定するとともに雑音用マイクロホン２への音声の洩れ込みが無視できるほど小さくはない場合を想定して構成されているものである。
【００２８】
雑音重畳音声スペクトル演算手段３は、音声用マイクロホン１が出力する雑音重畳音声信号に対して、一定時間毎にシフトする分析フレーム毎にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実施して、雑音重畳音声信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームｉにおける雑音重畳音声に係るパワースペクトルＸ１_ｉ（ω）は以下の式（７）で表される。式（７）において、Ｓ_ｉ（ω）は分析フレームｉにおける話者が発声する音声に係るパワースペクトル、Ｎ_ｉ（ω）は分析フレームｉにおいて仮想的な雑音源が出力する雑音パターンに係るパワースペクトル、Ｇ_１１ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）は分析フレームｉにおける話者位置（ｘ（ｉ），ｙ（ｉ））での話者から音声用マイクロホン１への伝達特性についての周波数特性（フィルタ）、Ｇ_２１，ｉ（ω）は分析フレームｉにおける仮想的な雑音源から音声用マイクロホン１への伝達特性についての周波数特性（フィルタ）である。

【００２９】
雑音スペクトル演算手段４は、雑音用マイクロホン２が出力する雑音パターン信号に対して、同様に一定時間毎にシフトする分析フレーム毎にＦＦＴ（高速フーリエ変換）を用いて周波数変換を実施して、音声の洩れ込んだ雑音パターン信号に対する分析フレーム毎のパワースペクトルを時系列に出力する。このとき、分析フレームｉにおける音声の洩れ込んだ雑音に係るパワースペクトルＸ２_ｉ（ω）は以下の式（８）で表される。式（８）において、Ｇ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）は分析フレームｉにおける話者位置（ｘ（ｉ），ｙ（ｉ））での話者から雑音用マイクロホン２への伝達特性についての周波数特性（フィルタ）、Ｇ_２２，ｉ（ω）は分析フレームｉにおける仮想的な雑音源から雑音用マイクロホン２への伝達特性についての周波数特性（フィルタ）である。

【００３０】
話者位置検出手段５は、センサによって話者のいる位置を検出して、分析フレームｉ毎に話者位置データ（ｘ（ｉ），ｙ（ｉ））を時系列に出力する。
【００３１】
音声補正用補正フィルタメモリ６は、予め話者位置（ｘ，ｙ）毎に学習される音声用マイクロホン１と雑音用マイクロホン２との間においての音声の伝達特性に係る周波数特性の差異を補正するフィルタＷ_１２ ^{（ｘ，ｙ）}（ω）＝Ｇ_１２ ^{（ｘ，ｙ）}（ω）／Ｇ_１１ ^{（ｘ，ｙ）}（ω）を記憶する。ここで、補正フィルタの学習方法について述べる。各話者位置における補正フィルタは、雑音のない環境または雑音を無視できる環境下で発声された音声区間において事前学習される。このとき、分析フレームｊにおける音声用マイクロホン１が出力する信号に係るパワースペクトルＸ１_ｊ（ω）_{ｖｏｉｃｅ}、および雑音用マイクロホン２が出力する信号に係るパワースペクトルＸ２_ｊ（ω）_{ｖｏｉｃｅ}は以下の式（９）で表される。式（９）は、背景雑音が無視できるという仮定のもとに、式（７）および式（８）の第２項を削除することで導かれる。
【数２】

【００３２】
したがって、話者位置（ｘ（ｊ），ｙ（ｊ））での音声用マイクロホン１と雑音用マイクロホン２との間においての音声の伝達特性に係る周波数特性の差異を補正するためのフィルタＷ_１２ ^{（ｘ（ｊ）、ｙ（ｊ））}（ω）は、以下の式（１０）を用いて導かれる。
【数３】

【００３３】
音声補正用補正フィルタ選択手段７は、話者位置検出手段５から時系列に出力される分析フレームｉでの話者位置データ（ｘ（ｉ），ｙ（ｉ））に対応する補正フィルタＷ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）＝Ｇ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）／Ｇ_１１ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）を音声補正用補正フィルタメモリ６から選択して分析フレームｉ毎に当該補正フィルタを時系列に出力する。
【００３４】
雑音重畳音声スペクトル補正手段８は、音声補正用補正フィルタ選択手段７から出力される補正フィルタを用いて雑音重畳音声に係るパワースペクトルを補正して、補正雑音重畳音声に係るパワースペクトルを時系列に出力する。各分析フレームｉにおける補正雑音重畳音声に係るパワースペクトルＸ１’_ｉ（ω）は以下の式（１１）で表される。
Ｘ１’_ｉ（ω）＝
Ｗ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）・Ｘ１_ｉ（ω）（１１）
【００３５】
洩れ込み音声除去手段９は、雑音スペクトル演算手段４から出力される音声が洩れ込んだ雑音パターンに係るパワースペクトルから、雑音重畳音声スペクトル補正手段８から出力される補正雑音重畳音声に係るパワースペクトルを減算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する。分析フレームｉにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｉ（ω）は、以下の式（１２）で表される。
【数４】

【００３６】
雑音補正用補正フィルタメモリ１０は、雑音区間を用いた事前学習により、音声用マイクロホン１と雑音用マイクロホン２との間においての雑音パターンの伝達特性に係る周波数特性の差異を補正するフィルタを、想定される雑音パターンの種類に応じた適正な数であるＮ個だけ記憶する。また、代表雑音スペクトルメモリ１１は、雑音補正用補正フィルタメモリ１０が記憶するＮ個の補正フィルタのそれぞれに対応する雑音パターンに係るパワースペクトルを記憶する。
【００３７】
以下では、雑音補正用補正フィルタメモリ１０に記憶される補正フィルタおよび当該補正フィルタに対応する雑音パターンに係るパワースペクトルの学習方法および記憶方法について説明する。雑音区間では、分析フレームｊにおいて音声用マイクロホンにより観測されるパワースペクトルＸ１_ｊ（ω）_{ｎｏｉｓｅ}は、以下の式（１３）で表される。式（１３）は音声のない雑音区間であることから、式（７）の第１項を削除することで導かれる。
Ｘ１_ｊ（ω）_{ｎｏｉｓｅ}＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（１３）
【００３８】
したがって、分析フレームｊにおいてＫ個の雑音源が出力するＫ個の雑音の組み合わせΩ（ｊ）＝｛Ｎ^１ _ｊ，Ｎ^２ _ｊ，…，Ｎ^Ｋ _ｊ｝に係る雑音パターンの伝達特性についての音声用マイクロホン１と雑音用マイクロホン２との間においての周波数特性の差異を補正するフィルタＷ^Ω（ｊ） _２１（ω）は、以下の式（１４）で表される。
【数５】

【００３９】
分析フレームｊにおけるＫ個の雑音源からの雑音の組み合わせに係る雑音パターンは未知であるが、分析フレームｊ_１，ｊ_２においてΩ（ｊ１）＝Ω（ｊ２）であれば、Ｗ^{Ω（ｊ１）} _２１（ω）＝Ｗ^{Ω（ｊ２）} _２１（ω）であると考えられる。そこで、時系列に出力されるＸ１_ｊ（ω）_{ｎｏｉｓｅ}／Ｙ２_ｊ（ω）の値を適切な数のＮ個のクラスにクラスタリングする。クラスタリングは以下の式（１５）で表わされる評価関数が最小になるように実施される。式（１５）において、Ｗ^ｎ _２１（ω）はクラスｎのセントロイド、Θ（ｎ）はクラスｎの要素が有する時系列番号の集合、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペクトルＹとの間の距離値を返す関数である。
【数６】

また各クラスのセントロイドＷ^ｎ _２１（ω）は、以下の式（１６）から導かれる。式（１６）においてＭ_ｎはクラスｎの要素数である。
【数７】

クラスタリング終了後、Ｎ個のＷ^ｎ _２１（ω）が代表的な補正フィルタとして出力され、雑音補正用補正フィルタメモリ１０に記憶される。
【００４０】
また、代表雑音スペクトルメモリ１１は、同様に時系列に出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｊ（ω）をＸ１_ｊ（ω）_{ｎｏｉｓｅ}／Ｙ２_ｊ（ω）のクラスタリング結果に基づいてＮ個のクラスに分類した後に、各クラスｎ（１≦ｎ≦Ｎ）のセントロイドを代表的な洩れ込み音声を除去したパワースペクトルＹ２^ｎ（ω）として代表雑音スペクトルメモリ１１に記憶する。各クラスのセントロイドＹ２^ｎ（ω）は以下の式（１７）から導かれる。式（１７）において、Ｍ_ｎはクラスｎの要素数である。
【数８】

以上のように、Ｎ個の補正フィルタＷ^ｎ _２１（ω）がＮ個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、Ｎ組のＹ２^ｎ（ω）とＷ^ｎ _２１（ω）との対応関係に基づいて任意のフレームｊにおける雑音パターンＹ２_ｊ（ω）に対応する補正フィルタＷ^Ω（ｊ） _２１（ω）を導くことができる。すなわち、Ｋ個の雑音源が出力するＫ個の雑音の組み合わせに係る雑音パターンの数はほぼ無限にあると考えられるが、任意の雑音パターンＹ２_ｊ（ω）に最も類似する雑音パターンを代表雑音スペクトルメモリ１１に記憶された代表的なＮ個の雑音パターンから選択して、最も類似する雑音パターンＹ２^ｎ（ω）に対応する補正フィルタＷ^ｎ _２１（ω）をフレームｊにおける補正フィルタＷ^Ω（ｊ） _２１（ω）として用いる。
【００４１】
雑音スペクトル選択手段１２は、洩れ込み音声除去手段９から時系列に出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ１１に記憶された代表的なＮ個の雑音パターンに係るパワースペクトルとの間の距離値をそれぞれ演算して、洩れ込み音声を除去した雑音パターンのパワースペクトルに対して最短距離値を与える代表雑音パターンを代表雑音スペクトルメモリ１１から選択して当該代表雑音パターンを識別する信号を出力する。このとき、最短距離値を与える雑音パターンに係るパワースペクトルＹ２^ｌ（ｉ）（ω）は式（１８）のように表される。式（１８）において、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペクトルＹとの間の距離を返す関数、ｌ（ｉ）は分析フレームｉにおいて最短距離値を与える雑音パターンの番号を示す。
【数９】

【００４２】
雑音補正用補正フィルタ選択手段１３は、雑音スペクトル選択手段１２から時系列に出力される雑音パターン識別信号に対応する補正フィルタＷ^ｌ（ｉ） _２１（ω）を雑音補正用補正フィルタメモリ１０から選択して時系列に出力する。洩れ込み音声除去雑音スペクトル補正手段１４は、雑音補正用補正フィルタ選択手段１３から出力される補正フィルタを用いて、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを補正して、補正雑音パターンに係るパワースペクトルを時系列に出力する。このとき、補正雑音パターンに係るパワースペクトルＹ２’_ｉ（ω）は以下の式（１９）で表される。
Ｙ２’_ｉ（ω）＝Ｗ^ｌ（ｉ） _２１（ω）Ｙ２_ｉ（ω）（１９）
【００４３】
雑音除去音声スペクトル演算手段１５は、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）を時系列に出力する。このとき、分析フレームｉにおける雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）は、以下の式（２０）で表される。式（２０）において、αは補正雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは補正雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、ｍａｘ｛｝は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
Ｓ’_ｉ（ω）＝
ｍａｘ｛Ｘ１_ｉ（ω）−αＹ２’_ｉ（ω），β｝（２０）
【００４４】
ここで、分析フレームｉにおけるＫ個の雑音源が出力するＫ個の雑音の組み合わせΩ（ｉ）に係る雑音パターンに対する補正フィルタＷ^Ω（ｉ） _２１（ω）が既に事前学習において適切に記憶されている場合には、Ｗ^ｌ（ｉ） _２１（ω）＝Ｗ^Ω（ｉ） _２１（ω）となる。したがって、式（１２）および式（１９）から、Ｙ２’_ｉ（ω）＝Ｇ_２１，ｉ（ω）・Ｎ_ｉ（ω）となる。そして、この式および式（７）を式（１７）に代入すると、α＝１のときに、Ｓ’_ｉ（ω）＝Ｇ_１１ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）Ｓ_ｉ（ω）となって、雑音が除去された音声に係るパワースペクトルを得ることができる。
【００４５】
特徴ベクトル演算手段１６、照合パターンメモリ１７および照合手段１８に係る動作は、従来の技術の特徴ベクトル演算手段１０８、照合パターンメモリ１０９および照合手段１１０とそれぞれ同様であるのでその説明を省略する。
【００４６】
以上のように、この実施の形態１によれば、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段を備えるように構成したので、雑音用マイクロホンへの音声の洩れ込みがあっても雑音パターンから洩れ込み音声を除去して、雑音重畳音声に対して洩れ込み音声を除去した雑音パターンの除去を実施することができるから、音声認識の性能を向上することができるという効果を奏する。
【００４７】
また、話者位置を検出して分析フレーム毎に話者位置データを時系列に出力する話者位置検出手段５と、話者位置毎に学習される音声用マイクロホン１と雑音用マイクロホン２との間において音声の伝達特性に係る周波数特性の差異を補正する複数のフィルタを記憶する音声補正用補正フィルタメモリ６と、話者位置に対応した補正フィルタを選択する音声補正用補正フィルタ選択手段７とを備えるように構成したので、話者位置に応じて適正な補正フィルタを選択して音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声に係るパワースペクトルを正確に除去することができるから、雑音重畳音声からの雑音パターンの除去を正確に実施することができて、音声認識の性能をより向上することができるという効果を奏する。
【００４８】
また、音声用マイクロホン１と雑音用マイクロホン２との間においての雑音の伝達特性に係る周波数特性の差異を補正するための複数のフィルタを記憶する雑音補正用補正フィルタメモリ１０と、雑音補正用補正フィルタメモリ１０に記憶されたそれぞれの補正フィルタに対応する雑音パターンに係るパワースペクトルを記憶する代表雑音スペクトルメモリ１１と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリ１１に記憶される複数個の雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリ１１から選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段１２と、雑音スペクトル選択手段１２から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリ１０から選択して時系列に出力する雑音補正用補正フィルタ選択手段１３とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じて適正な補正フィルタを選択して補正雑音パターンに係るパワースペクトルを生成し、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【００４９】
実施の形態２．
図２は、この発明の実施の形態２による音声認識装置の構成を示す図である。図２において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。２１は代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数個記憶する第１の代表雑音スペクトルメモリ、２２は雑音重畳音声についての代表的な重畳雑音パターンに係るパワースペクトルを複数個記憶する第２の代表雑音スペクトルメモリ、２３は洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと第１の代表雑音スペクトルメモリ２１に記憶される複数の代表雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える代表雑音パターンを第１の代表雑音スペクトルメモリ２１から選択して当該代表雑音パターンを識別する信号を時系列に出力する第１の雑音スペクトル選択手段、２４は第１の雑音スペクトル選択手段２３から出力される代表雑音パターン識別信号に対応した重畳雑音パターンに係るパワースペクトルを第２の代表雑音スペクトルメモリ２２から選択して時系列に出力する第２の雑音スペクトル選択手段、２５は雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルから、第２の雑音スペクトル選択手段２４から出力される重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段である。
【００５０】
次に動作について説明する。
音声用マイクロホン１から洩れ込み音声除去手段９に係る動作並びに特徴ベクトル演算手段１６から照合手段１８に係る動作は実施の形態１と同様であるので、その説明を省略する。
【００５１】
第１の代表雑音スペクトルメモリ２１は、雑音区間を用いた事前学習により、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを、想定される雑音パターンの種類に応じた適正な数であるＮ個だけ記憶する。また、第２の代表雑音スペクトルメモリ２２は、雑音区間を用いた事前学習により、第１の代表雑音スペクトルメモリ２１が記憶するＮ個の洩れ込み音声を除去した雑音パターンに対応する重畳雑音パターンに係るパワースペクトルを記憶する。
【００５２】
以下では、洩れ込み音声を除去した雑音パターンに係るパワースペクトルおよび重畳雑音パターンに係るパワースペクトルの学習方法および記憶方法について説明する。雑音区間では、分析フレームｊにおいて音声用マイクロホン１が出力するのは雑音重畳音声に重畳している重畳雑音成分であり、そのパワースペクトルＸ１_ｊ（ω）_{ｎｏｉｓｅ}は以下の式（２１）で表される。式（２１）は音声のない雑音区間であるということから、式（７）の第１項を削除することで導かれる。
Ｘ１_ｊ（ω）_{ｎｏｉｓｅ}＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（２１）
これは雑音重畳音声に重畳している重畳雑音パターンに対するパワースペクトルであり、これをＹ１_ｊ（ω）と定義する。
Ｙ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（２２）
【００５３】
分析フレームｊにおいて、雑音重畳音声に重畳している重畳雑音パターンに対するパワースペクトルＹ１_ｊ（ω）を推定することができれば、雑音重畳音声に係るパワースペクトルから推定されたＹ１_ｊ（ω）を減算することで、雑音除去を実施することができる。そこで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｊ（ω）からＹ１_ｊ（ω）を推定するために、洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｊ（ω）から重畳雑音パターンに対するパワースペクトルＹ１_ｊ（ω）への写像関係を以下の手順で学習する。
【００５４】
分析フレームｊにおいて、Ｋ個の雑音源が出力するＫ個の雑音の組み合せΩ（ｊ）＝｛Ｎ^１ _ｊ，Ｎ^２ _ｊ，・・・，Ｎ^Ｋ _ｊ｝に係る雑音パターンは未知であるが、分析フレームｊ_１，ｊ_２においてΩ（ｊ_１）＝Ω（ｊ_２）であれば、洩れ込み音声を除去した雑音パターンに係るパワースペクトルは等しく、すなわちＹ２_ｊ１（ω）＝Ｙ２_ｊ２（ω）であると考えられる。そこで、時系列に出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルＹ２_ｊ（ω）を適切な数のＮ個のクラスにクラスタリングする。クラスタリングは以下の式（２３）で表される評価関数Ｄが最小になるように実施される。式（２３）において、Ｙ２^ｎ（ω）はクラスｎのセントロイド、Θ（ｎ）はクラスｎの要素が有する時系列番号の集合、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペクトルＹとの間の距離値を返す関数である。
【数１０】

また、各クラスのセントロイドＹ２^ｎ（ω）は式（１７）を用いて導かれる。クラスタリング終了後、Ｎ個のＹ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第１の代表雑音スペクトルメモリ２１に記憶される。
【００５５】
また、同様に音声用マイクロホン１から時系列に出力される重畳雑音パターンに係るパワースペクトルＹ１_ｊ（ω）をＹ２_ｊ（ω）のクラスタリング結果に基づいてＮ個のクラスに分類した後に、各クラスｎ（１≦ｎ≦Ｎ）のセントロイドを代表的な重畳雑音パターンに係るパワースペクトルＹ１^ｎ（ω）として第２の代表雑音スペクトルメモリ２２に記憶する。各クラスのセントロイドＹ１^ｎ（ω）は、以下の式（２４）から導かれる。式（２４）において、Θ（ｎ）は上記クラスタリング手段が実施した洩れ込み音声を除去した雑音パターンに係るパワースペクトルのクラスタリングの結果としてクラスｎの要素が有する時系列番号の集合、Ｍ_ｎはクラスｎの要素数である。
【数１１】

【００５６】
以上のように、Ｎ個のＹ１^ｎ（ω）、Ｙ２^ｎ（ω）がＮ個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、Ｎ組のＹ２^ｎ（ω）とＹ１^ｎ（ω）との対応関係に基づいて、任意のフレームｊにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応した雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを導くことができる。すなわち、Ｋ個の雑音源が出力するＫ個の雑音の組み合せで決まる洩れ込み音声を除去した雑音パターンの数はほぼ無限にあると考えられるが、任意の洩れ込み音声を除去した雑音パターンに最も類似する洩れ込み音声を除去した雑音パターンを第１の代表雑音スペクトルメモリ２１に記憶されたＮ個の洩れ込み音声を除去した雑音パターンから選択して、最も類似する洩れ込み音声を除去した雑音パターンに対応した雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを第２の代表雑音スペクトルメモリ２２から選択して、フレームｊにおける重畳雑音パターンに係るパワースペクトルとして用いる。
【００５７】
第１の雑音スペクトル選択手段２３は、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第１の代表雑音スペクトルメモリ２１に記憶されたＮ個の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値をそれぞれ演算して、洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対して最短距離値を与える代表的な洩れ込み音声を除去した雑音パターンを第１の代表雑音スペクトルメモリ２１から選択して当該雑音パターンを識別する信号を出力する。分析フレームｉにおいて最短距離値を与える洩れ込み音声を除去した雑音パターンに係るパワースペクトルの番号ｌ（ｉ）は式（２５）を用いて導かれる。式（２５）において、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペクトルＹとの間の距離値を返す関数である。
【数１２】

【００５８】
第２の雑音スペクトル選択手段２４は、第１の雑音スペクトル選択手段２３から時系列に出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルＹ１^ｌ（ｉ）（ω）を第２の代表雑音スペクトルメモリ２２から選択して時系列に出力する。
【００５９】
雑音除去音声スペクトル演算手段２５は、雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルから、第２の雑音スペクトル選択手段２４から出力される重畳雑音パターンに係るパワースペクトルを減算して、雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）を時系列に出力する。このとき、分析フレームｉにおける雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）は、以下の式（２６）を用いて導かれる。式（２６）において、αは重畳雑音パターンに係るパワースペクトルの減算量を調整するパラメータであり、βは重畳雑音パターンに係るパワースペクトルの過剰な減算を防止するために雑音除去音声に係るパワースペクトルにおける各周波数成分の下限値を設定するパラメータである。また、ｍａｘ｛｝は括弧内の要素の中で最大の値の要素を返す関数として与えられるものである。
Ｓ’_ｉ（ω）
＝ｍａｘ｛Ｘ１_ｉ（ω）−αＹ１^ｌ（ｉ）（ω），β｝（２６）
【００６０】
ここで、分析フレームｉにおいてＫ個の雑音源が出力するＫ個の雑音の組み合せΩ（ｉ）に対する重畳雑音パターンに係るパワースペクトルが適切に学習されているならば、Ｙ１^ｌ（ｉ）（ω）＝Ｇ_２１，ｉ（ω）Ｎ_ｉ（ω）となる。これと式（７）を式（２３）に代入すると、α＝１のとき、Ｓ’_ｉ（ω）＝Ｇ_１１ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）・Ｓ_ｉ（ω）となり、雑音が除去された音声に係るパワースペクトルを得ることができる。
【００６１】
図３は、雑音除去音声に係るパワースペクトルを得る処理手順を示すブロック図である。既に述べたように、Ｘ１_ｉ（ω）は雑音重畳音声に係るパワースペクトル、Ｘ２_ｉ（ω）は音声が洩れ込んだ雑音パターンに係るパワースペクトル、Ｙ２_ｉ（ω）は洩れ込み音声を除去した雑音パターンに係るパワースペクトル、Ｙ１^ｌ（ｉ）（ω）は推定された重畳雑音パターンに係るパワースペクトル、Ｓ’_ｉ（ω）は雑音除去音声に係るパワースペクトル、Ｗ_１２（ω）は補正フィルタである。図３に示されるように、音声が洩れ込んだ雑音パターンに係るパワースペクトルＸ２_ｉ（ω）から雑音重畳音声に係るパワースペクトルＸ１_ｉ（ω）に補正フィルタＷ_１２（ω）を適用したものを減算することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｉ（ω）を得る。次に事前学習より求めたＹ２^ｎ（ω）とＹ１^ｎ（ω）との写像関係から、Ｙ２_ｉ（ω）に対応する重畳雑音パターンに係るパワースペクトルＹ１^ｌ（ｉ）（ω）を推定する。最後に、雑音重畳音声に係るパワースペクトルＸ１_ｉ（ω）から推定されたＹ１^ｌ（ｉ）（ω）を減算することで、雑音除去音声に係るパワースペクトルＳ’_ｉ（ω）を得ることができる。
【００６２】
以上のように、この実施の形態２によれば、洩れ込み音声除去手段９を備えること、並びに話者位置検出手段５、音声補正用補正フィルタメモリ６および音声補正用補正フィルタ選択手段７を備えることについては実施の形態１と同等の効果を奏する。さらに、洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数記憶する第１の代表雑音スペクトルメモリ２１と、重畳雑音パターンに係るパワースペクトルを複数記憶する第２の代表雑音スペクトルメモリ２２と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと第１の代表雑音スペクトルメモリ２１に記憶される複数個の雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを第１の代表雑音スペクトルメモリ２１から選択して当該雑音パターンを識別する信号を時系列に出力する第１の雑音スペクトル選択手段２３と、第１の雑音スペクトル選択手段２３から出力される雑音パターン識別信号に対応する重畳雑音に係るパワースペクトルを第２の代表雑音スペクトルメモリ２２から選択して時系列に出力する第２の雑音スペクトル選択手段２４とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じた適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声用マイクロホン１と雑音用マイクロホン２との雑音パターンに対する伝達特性が時々刻々変化するような場合においても、音声認識の性能をより向上することができるという効果を奏する。
【００６３】
実施の形態３．
実施の形態２による音声認識装置は、補正フィルタおよび雑音パターンのパワースペクトル等に係る学習を事前に実施する必要があるために、事前の学習データに含まれないような雑音パターン等が生ずる環境下においては、正確に雑音除去を実施することができないことが予想される。この実施の形態３は、実際に音声認識を行なっている環境下において補正フィルタおよび雑音パターンのパワースペクトル等に係る学習を実施する学習手段を備えることを特徴とする。
【００６４】
図４は、この発明の実施の形態３による音声認識装置の構成を示す図である。図４において、図１および図２と同一符号は同一または相当部分を示すのでその説明を省略する。３１は雑音用マイクロホン２から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段、３２は音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段、３３は音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段、３４は雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段３２から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段、３５は雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段３３から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段、３６は補正フィルタ学習決定手段３４から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段４から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段５から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段、３７は雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第１の雑音スペクトル学習手段、３８は雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルに基づいて、第１の雑音スペクトル学習手段３７から出力される代表的な洩れ込み音声を除去した雑音パターンに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第２の雑音スペクトル学習手段である。
【００６５】
また、図５は、第１の雑音スペクトル学習手段の内部構成を示した図である。図５において、４１は洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数記憶する第１の雑音スペクトルメモリ、４２は第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対してクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第１のクラスタリング手段である。
【００６６】
また、図６は、第２の雑音スペクトル学習手段の内部構成を示した図である。図６において、４３は第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに雑音重畳音声スペクトル演算手段３から出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の雑音スペクトルメモリ、４４は第２の雑音スペクトルメモリ４３に記憶される複数の重畳雑音パターンに係るパワースペクトルに対して、第１のクラスタリング手段４２のクラスタリング結果に基づいてクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第２のクラスタリング手段である。
【００６７】
次に動作について説明する。
音声用マイクロホン１から洩れ込み音声除去手段９に係る動作、特徴ベクトル演算手段１６から照合手段１８に係る動作、並びに第１の代表雑音スペクトルメモリ２１から雑音除去音声スペクトル演算手段２５に係る動作については実施の形態２と同様であるのでその説明を省略する。
【００６８】
雑音パワーレベル演算手段３１は、雑音用マイクロホン２から出力される雑音パターン信号について雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する。時刻ｔにおける雑音用マイクロホン２が出力する雑音パターン信号をｘ２（ｔ）とすると、分析フレームｉにおける雑音パワーレベルＬＥＶ_ｉは以下の式（２７）から導くことができる。式（２７）において、ｘ２（ｔ）は時刻ｔにおける雑音用マイクロホン２が出力する雑音パターン信号、Ｍは分析フレームのシフト量、Ｌは１分析フレームのサンプル数である。
【数１３】

【００６９】
音声区間検出手段３２は、音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号から音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する。分析フレームｉが音声区間であるか否かについては、以下の式（２８）を満たすか否かにより判定する。式（２８）において、Ｐ１_ｉは分析フレームｉにおける雑音重畳音声信号のパワー、Ｐ２_ｉは分析フレームｉにおける雑音パターン信号のパワー、ＴＨ_ｖは音声区間判定用の閾値である。
【数１４】

【００７０】
雑音区間検出手段３３は、音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する。分析フレームｉが雑音区間であるか否かについては、以下の式（２９）を満たすか否かにより判定する。式（２９）において、Ｐ１_ｉは分析フレームｉにおける雑音重畳音声信号のパワー、Ｐ２_ｉは分析フレームｉにおける雑音パターン信号のパワー、ＴＨ_ｎは雑音区間判定用の閾値である。
【数１５】

【００７１】
補正フィルタ学習決定手段３４は、雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段３２から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する。すなわち、背景雑音の雑音パワーレベルが小さく背景雑音の影響が無視できるような環境で発声された音声区間において補正フィルタの学習を実施することを示す識別信号を時系列に出力する。
【００７２】
雑音スペクトル学習決定手段３５は、雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段３３から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する。すなわち、背景雑音の雑音パワーレベルが大きく音声が発声されていない雑音区間において雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する。
【００７３】
補正フィルタ学習手段３６は、補正フィルタ学習決定手段３４から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段４から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段５から出力される話者の位置データ（ｘ（ｉ），ｙ（ｉ））に対応する補正フィルタＷ_１２ ^{（ｘ（ｉ），ｙ（ｉ））}（ω）を学習し当該補正フィルタを出力する。学習された補正フィルタは、音声補正用補正フィルタメモリ６に記憶される。背景雑音が無視できるような環境下で発声が行われた場合に、分析フレームｊにおける雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルＸ１_ｊ（ω）および雑音スペクトル演算手段４から出力される雑音パターンに係るパワースペクトルＸ２_ｊ（ω）は、以下の式（３０）で表すことができる。式（３０）は、背景雑音が無視できるという仮定のもとに、式（７）および式（８）の第２項を削除することで導かれる。
【数１６】

したがって、話者位置（ｘ（ｊ），ｙ（ｊ））での音声用マイクロホン１と雑音用マイクロホン２との音声に対する伝達特性に係る周波数特性の差異を補正するためのフィルタＷ_１２ ^{（ｘ（ｊ），ｙ（ｊ））}（ω）は以下の式（３１）を用いて導かれる。
【数１７】

【００７４】
第１の雑音スペクトル学習手段３７は、雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する。学習された代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルは、第１の代表雑音スペクトルメモリ２１に記憶される。この第１の雑音スペクトル学習手段３７は、第１の雑音スペクトルメモリ４１と第１のクラスタリング手段４２とから構成される。
【００７５】
第１の雑音スペクトルメモリ４１は、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルを複数個記憶する。
【００７６】
第１のクラスタリング手段４２は、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対してクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する。クラスタリングは、式（３２）で表される評価関数Ｄが最小になるように実施される。式（３２）において、Ｎはクラス数、Ｙ２^ｎ（ω）はクラスｎのセントロイド、Θ（ｎ）はクラスｎの要素が有する時系列番号の集合、ｉは現在第１の雑音スペクトルメモリ４１に記憶されている洩れ込み音声を除去した雑音パターンに係るパワースペクトルの時系列番号、ｄｉｓ（Ｘ，Ｙ）はパワースペクトルＸとパワースペクトルＹとの間の距離値を返す関数である。
【数１８】

また、各クラスのセントロイドＹ２^ｎ（ω）は式（１７）を用いて導かれる。クラスタリング終了後、Ｎ個のＹ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第１の代表雑音スペクトルメモリ２１に記憶される。
【００７７】
第２の雑音スペクトル学習手段３８は、雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段３が出力する雑音重畳音声に係るパワースペクトルに基づいて、第１の雑音スペクトル学習手段３７が出力する代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する。学習された代表的な重畳雑音パターンに係るパワースペクトルは、第２の代表雑音スペクトルメモリ２２に記憶される。この第２の雑音スペクトル学習手段３８は、第２の雑音スペクトルメモリ４３と第２のクラスタリング手段４４とから構成される。
【００７８】
第２の雑音スペクトルメモリ４３は、第１の雑音スペクトルメモリ４１に記憶されている複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルと同一分析フレームにおいてそれぞれ出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する。雑音区間においては、分析フレームｊにおける音声用マイクロホン１が出力する雑音重畳音声に係るパワースペクトルは以下の式（３３）で表される。式（３３）は音声のない雑音区間であるということから、式（７）の第１項を削除することで導かれる。
Ｘ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（３３）
これは雑音重畳音声において重畳している重畳雑音パターンに対するパワースペクトルであり、これを式（１９）と同様にＹ１_ｊ（ω）と定義する。
Ｙ１_ｊ（ω）＝Ｇ_２１，ｊ（ω）・Ｎ_ｊ（ω）（３４）
すなわち、第２の雑音スペクトルメモリ４３は、第１の雑音スペクトルメモリ４１に記憶されている複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルＹ２_ｉ（ω）が出力された分析フレームｉとそれぞれ同じ分析フレームにおいて雑音重畳音声スペクトル演算手段３から出力された重畳雑音パターンに係るパワースペクトルＹ１_ｉ（ω）を記憶する。
【００７９】
第２のクラスタリング手段４４は、第２の雑音スペクトルメモリ４３が記憶する複数の重畳雑音パターンに係るパワースペクトルに対して、第１のクラスタリング手段４２のクラスタリング結果に基づいてクラスタリングを実施し、クラスタリング結果におけるセントロイドに対応するパワースペクトルを代表的な重畳雑音パターンに係るパワースペクトルとして出力する。各クラスのセントロイドＹ１^ｎ（ω）は式（２１）を用いて導かれる。
クラスタリング終了後、Ｎ個のＹ１^ｎ（ω）が代表的な重畳雑音パターンに係るパワースペクトルとして出力され、第２の代表雑音スペクトルメモリ２２に記憶される。
【００８０】
以上のように、Ｎ個のＹ１^ｎ（ω）、Ｙ２^ｎ（ω）がＮ個にクラス分けされた雑音パターンに対応するようにそれぞれ記憶されるとともに、Ｎ組のＹ２^ｎ（ω）とＹ１^ｎ（ω）との対応関係に基づいて任意のフレームｊにおける洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する雑音重畳音声に重畳している重畳雑音パターンに係るパワースペクトルを導くことができる。
【００８１】
以上のように、この実施の形態３によれば、雑音用マイクロホン２から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段３１と、音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号とに基づいて音声区間を検出し音声区間か否かを識別する信号を時系列に出力する音声区間検出手段３２と、雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以下でかつ音声区間検出手段３２から出力される識別信号が音声区間である旨を示している場合に補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段３４と、補正フィルタ学習決定手段３４から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段４から出力される雑音パターンに係るパワースペクトルとに基づいて話者位置検出手段５から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段３６とを備えるように構成したので、事前学習によって学習できなかった話者位置において発声が行われる場合においても、雑音重畳音声に係るパワースペクトルの補正を正確に行ない、音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声の除去を正確に実施することができるから、音声認識の性能を向上することができるという効果を奏する。
【００８２】
また、雑音用マイクロホン２から出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段３１と、音声用マイクロホン１から出力される雑音重畳音声信号と雑音用マイクロホン２から出力される雑音パターン信号とに基づいて雑音区間を検出し雑音区間か否かを識別する信号を時系列に出力する雑音区間検出手段３３と、雑音パワーレベル演算手段３１から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段３３から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段３５と、雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第１の雑音スペクトル学習手段３７と、雑音スペクトル学習決定手段３５から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段３から出力される雑音重畳音声に係るパワースペクトルに基づいて、第１の雑音スペクトル学習手段３７から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第２の雑音スペクトル学習手段３８とを備えるように構成したので、事前学習によって学習できなかった雑音パターンが音声に重畳した場合においても、洩れ込み音声が除去された雑音パターンに応じて適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから当該重畳雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【００８３】
さらに、第１の雑音スペクトル学習手段３７が、洩れ込み音声除去手段９から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第１の雑音スペクトルメモリ４１と、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルについて、それぞれのクラスのセントロイドと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第１のクラスタリング手段４２とを備え、第２の雑音スペクトル学習手段３８が、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の雑音スペクトルメモリ４３と、第２の雑音スペクトルメモリ４３に記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第１のクラスタリング手段４２におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第２のクラスタリング手段４４とを備えるように構成したので、洩れ込み音声を除去した雑音パターンについてそれぞれのクラスのセントロイドと当該クラスに含まれるパワースペクトルとの間の距離値の総和が最小となるようにすることで適切なクラスタリングを実施するとともに、洩れ込み音声を除去した雑音パターンおよび重畳雑音パターンについて各クラスのセントロイドを代表的なパワースペクトルとして記憶することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音に係るパワースペクトルとの間の写像関係を精密に学習できるから、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができて、音声認識の性能をより向上することができるという効果を奏する。
【００８４】
実施の形態４．
実施の形態２および実施の形態３による音声認識装置では、単純なクラスタリングによって、洩れ込み音声を除去した雑音パターンと重畳雑音パターンとの間の写像関係を学習しているために、雑音パワーレベルの変動が大きい場合等に過度に雑音の強さ方向にのみ分解能を有して雑音の種類方向に分解能を有しない写像関係を学習してしまい、結果的に正確に雑音除去することができないことが予想される。そこで、この実施の形態４による音声認識装置は、クラスタリングの精度を上げて洩れ込み音声を除去した雑音パターンと重畳雑音パターンとの間の写像関係をより精密に学習することを特徴とする。
【００８５】
図７は、この発明の実施の形態４による音声認識装置における第１の雑音スペクトル学習手段の内部構成を示す図である。図７において、図５と同一符号は同一または相当部分を示すのでその説明を省略する。５１は第１の雑音スペクトルメモリ４１に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段、５２は第１の雑音スペクトルメモリ４１に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段、５３はスペクトル概形パラメータ演算手段５１から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段５２から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段である。
【００８６】
次に動作について説明する。
スペクトル概形パラメータ演算手段５１は、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し時系列に出力する。具体的には式（３５）からＹ２_ｉ（ω）のケプストラムＣ_ｉ（ｐ）を求め、Ｃ_ｉ（ｐ）（１≦ｐ≦Ｐ）をパワースペクトルの概形を表すパラメータとする。Ｐはケプストラムの次数である。また、式（３５）においてＦ^−１は逆ＦＦＴを実施する関数である。
Ｃ_ｉ（ｐ）＝Ｆ^−１（ｌｎ（Ｙ２_ｉ（ω）））（３５）
【００８７】
スペクトル強度パラメータ演算手段５２は、洩れ込み音声除去手段９から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し時系列に出力する。具体的には、式（３５）からＹ２_ｉ（ω）のケプストラムＣ_ｉ（ｐ）を求め、Ｃ_ｉ（０）をパワースペクトルの強度を表すパラメータとする。
【００８８】
重み付けクラスタリング手段５３は、スペクトル概形パラメータ演算手段５１から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段５２から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する。クラスタリングは、以下の式（３６）で表される評価関数Ｄが最小になるように実施される。式（３６）において、Ｃ^ｎ（ｐ）はクラスｎのセントロイド、Θ（ｎ）はクラスｎの要素が有する時系列番号の集合、ｄｉｓ（Ｘ，Ｙ）は指定された次数の範囲におけるケプストラムＸとケプストラムＹとの間の距離値を返す関数である。Ｗは、パワースペクトルの概形を表すパラメータおよびパワースペクトルの強度を表すパラメータについての全体の距離値に対する寄与度の割合を決定する重み係数である。
【数１９】

また、各クラスのセントロイドＹ２^ｎ（ω）は式（１７）を用いて導かれる。クラスタリング終了後、Ｎ個のＹ２^ｎ（ω）が代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力され、第１の代表雑音スペクトルメモリ２１に記憶される。
【００８９】
以上のように、この実施の形態４によれば、第１の雑音スペクトルメモリ４１に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段５１と、第１の雑音スペクトルメモリ４１に記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段５２と、スペクトル概形パラメータ演算手段５１から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段５２から出力されるパワースペクトルの強度を表すパラメータとにそれぞれ重みを掛けて算出する距離値を用いて、第１の雑音スペクトルメモリ４１に記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段５３とを備えるように構成したので、雑音パワーレベルの変動が激しい環境下等においても、雑音の強度を表すパラメータに対する重みを調整することによってより精密なクラスタリングが可能となり、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音パターンに係るパワースペクトルとの間の写像関係をより精密に学習することができることで、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声認識の性能をより向上することができるという効果を奏する。
【００９０】
【発明の効果】
以上のように、この発明によれば、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、雑音重畳音声に係るパワースペクトルに含まれる音声成分と雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、雑音重畳音声に係るパワースペクトルに含まれる音声成分を雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶する雑音補正用補正フィルタメモリと、雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段とを備えるように構成したので、雑音用マイクロホンへの音声の洩れ込みがある場合においても、雑音パターンから洩れ込み音声を除去することができて、洩れ込み音声が除去された雑音パターンを雑音重畳音声から除去することができるから、音声認識の性能を向上することができるという効果を奏する。また、話者位置に応じて適正な補正フィルタを選択して音声が洩れ込んだ雑音パターンに係るパワースペクトルから洩れ込み音声に係るパワースペクトルを正確に除去することができるから、雑音重畳音声からの雑音除去を正確に実施することができて、音声認識の性能をより向上することができるという効果を奏する。また、洩れ込み音声が除去された雑音パターンに応じて適正な補正フィルタを選択して、雑音重畳音声に係るパワースペクトルから雑音パターンに係るパワースペクトルを正確に除去することができるから、音声認識の性能をより向上することができるという効果を奏する。
【００９４】
この発明によれば、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の代表雑音スペクトルメモリと、第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを第１の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第１の雑音スペクトル選択手段と、第１の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを第２の代表雑音スペクトルメモリから選択し時系列に出力する第２の雑音スペクトル選択手段とを備えるように構成したので、洩れ込み音声が除去された雑音パターンに応じた適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声用マイクロホンと雑音用マイクロホンとの雑音パターンに対する伝達特性に係る周波数特性が時々刻々変化するような場合においても、音声認識の性能をより向上することができるという効果を奏する。
【００９５】
この発明によれば、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えるように構成したので、事前学習によって学習できなかった話者位置において発声が行われる場合においても、雑音重畳音声に係るパワースペクトルの補正を正確に行ない、音声が洩れ込んだ雑音パターンに対するパワースペクトルから洩れ込み音声の除去を正確に実施することができて、音声認識の性能を向上することができるという効果を奏する。
【００９６】
この発明によれば、雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルに基づいて、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第１の雑音スペクトル学習手段と、雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルに基づいて、第１の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第２の雑音スペクトル学習手段とを備えるように構成したので、事前学習によって学習できなかった雑音パターンが音声に重畳した場合においても、洩れ込み音声が除去された雑音パターンに応じて適切な重畳雑音パターンに係るパワースペクトルを選択して、雑音重畳音声に係るパワースペクトルから当該重畳雑音パターンに係るパワースペクトルを正確に除去することができるので、音声認識の性能をより向上することができるという効果を奏する。
【００９７】
この発明によれば、第１の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第１の雑音スペクトルメモリと、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第１のクラスタリング手段とを備え、第２の雑音スペクトル学習手段が、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の雑音スペクトルメモリと、第２の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して第１のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第２のクラスタリング手段とを備えるように構成したので、洩れ込み音声を除去した雑音パターンについてそれぞれのクラスのセントロイドと当該クラスに含まれるパワースペクトルとの間の距離の総和が最小となるようにすることで適切なクラスタリングを実施するとともに、洩れ込み音声を除去した雑音パターンおよび重畳雑音パターンについて各クラスのセントロイドを代表的なパワースペクトルとして記憶することで、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音パターンに係るパワースペクトルとの間の写像関係を精密に学習できるから、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができて、音声認識の性能をより向上することができるという効果を奏する。
【００９８】
この発明によれば、第１の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の雑音スペクトルメモリと、第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータとスペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータとに重みを掛けて算出する距離値を用いて、第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えるように構成したので、雑音パワーレベルの変動が激しい環境下等においても、雑音の強度を表すパラメータに対する重みを調整することによってより精密なクラスタリングが可能となり、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと重畳雑音に係るパワースペクトルとの間の写像関係をより精密に学習することができることで、雑音重畳音声に係るパワースペクトルから重畳雑音パターンに係るパワースペクトルを正確に除去することができるために、音声認識の性能をより向上することができるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示す図である。
【図２】この発明の実施の形態２による音声認識装置の構成を示す図である。
【図３】雑音除去音声に係るパワースペクトルを得る処理手順を示すブロック図である。
【図４】この発明の実施の形態３による音声認識装置の構成を示す図である。
【図５】第１の雑音スペクトル学習手段の内部構成を示す図である。
【図６】第２の雑音スペクトル学習手段の内部構成を示す図である。
【図７】この発明の実施の形態４による音声認識装置の第１の雑音スペクトル学習手段の内部構成を示す図である。
【図８】雑音等がある環境下において音声を認識する従来の音声認識装置の構成を示すブロック図である。
【図９】従来の２入力ＳＳ法を用いた音声認識装置の構成を示す図である。
【符号の説明】
１音声用マイクロホン、２雑音用マイクロホン、３雑音重畳音声スペクトル演算手段、４雑音スペクトル演算手段、５話者位置検出手段、６音声補正用補正フィルタメモリ、７音声補正用補正フィルタ選択手段、８雑音重畳音声スペクトル補正手段、９洩れ込み音声除去手段、１０雑音補正用補正フィルタメモリ、１１代表雑音スペクトルメモリ、１２雑音スペクトル選択手段、１３雑音補正用補正フィルタ選択手段、１４洩れ込み音声除去雑音スペクトル補正手段（雑音スペクトル補正手段）、１５，２５雑音除去音声スペクトル演算手段、１６特徴ベクトル演算手段、１７照合パターンメモリ、１８照合手段、２１第１の代表雑音スペクトルメモリ、２２第２の代表雑音スペクトルメモリ、２３第１の雑音スペクトル選択手段、２４第２の雑音スペクトル選択手段、３１雑音パワーレベル演算手段、３２音声区間検出手段、３３雑音区間検出手段、３４補正フィルタ学習決定手段、３５雑音スペクトル学習決定手段、３６補正フィルタ学習手段、３７第１の雑音スペクトル学習手段、３８第２の雑音スペクトル学習手段、４１第１の雑音スペクトルメモリ、４２第１のクラスタリング手段、４３第２の雑音スペクトルメモリ、４４第２のクラスタリング手段、５１スペクトル概形パラメータ演算手段、５２スペクトル強度パラメータ演算手段、５３重み付けクラスタリング手段。

Claims

背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記音声用マイクロホンが出力する雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、前記雑音用マイクロホンが出力する雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、前記音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、前記洩れ込み音声を除去した雑音パターンに係るパワースペクトルと前記雑音重畳音声に係るパワースペクトルに含まれる雑音成分の比から算出した複数の補正フィルタを予め記憶する雑音補正用補正フィルタメモリと、前記雑音補正用補正フィルタメモリに予め記憶された複数の補正フィルタにそれぞれ対応する洩れ込み音声を除去した雑音パターンに係るパワースペクトルを予め記憶する代表雑音スペクトルメモリと、洩れ込み音声を除去した雑音パターンに係るパワースペクトルと前記代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンを前記代表雑音スペクトルメモリから選択して当該雑音パターンを識別する信号を時系列に出力する雑音スペクトル選択手段と、前記雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する補正フィルタを前記雑音補正用補正フィルタメモリから選択して洩れ込み音声除去雑音スペクトル補正手段へ時系列に出力する雑音補正用補正フィルタ選択手段と、前記雑音補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記洩れ込み音声を除去した雑音パターンに係るパワースペクトルを雑音重畳音声に係るパワースペクトルに含まれる雑音成分に変換する洩れ込み音声除去雑音スペクトル補正手段と、雑音重畳音声に係るパワースペクトルから補正雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えることを特徴とする音声認識装置。
背景雑音が重畳した音声を収集する音声用マイクロホンと、主に背景雑音を収集する雑音用マイクロホンと、センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記音声用マイクロホンから出力される雑音重畳音声信号を周波数変換して雑音重畳音声に係るパワースペクトルを時系列に出力する雑音重畳音声スペクトル演算手段と、前記雑音用マイクロホンから出力される雑音パターン信号を周波数変換して音声が洩れ込んだ雑音パターンに係るパワースペクトルを時系列に出力する雑音スペクトル演算手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを時系列に出力する音声補正用補正フィルタ選択手段と、前記音声補正用補正フィルタ選択手段から時系列に出力されるフィルタを用いて、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分を前記雑音パターンに係るパワースペクトルに含まれる音声成分に変換する雑音重畳音声スペクトル補正手段と、音声が洩れ込んだ雑音パターンに係るパワースペクトルから補正雑音重畳音声に係るパワースペクトルを減算して洩れ込み音声を除去した雑音パターンに係るパワースペクトルを時系列に出力する洩れ込み音声除去手段と、洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の代表雑音スペクトルメモリと、前記第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルにそれぞれ対応する複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の代表雑音スペクトルメモリと、収集された洩れ込み音声を除去した雑音パターンに係るパワースペクトルと、前記第１の代表雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとの間の距離値を演算して最短距離値を与える雑音パターンに係るパワースペクトルを前記第１の代表雑音スペクトルメモリから選択して、当該雑音パターンを識別する信号を時系列に出力する第１の雑音スペクトル選択手段と、前記第１の雑音スペクトル選択手段から出力される雑音パターン識別信号に対応する重畳雑音パターンに係るパワースペクトルを前記第２の代表雑音スペクトルメモリから選択し時系列に出力する第２の雑音スペクトル選択手段と、雑音重畳音声に係るパワースペクトルから、前記第２の雑音スペクトル選択手段が選択した重畳雑音パターンに係るパワースペクトルを減算して雑音除去音声に係るパワースペクトルを時系列に出力する雑音除去音声スペクトル演算手段と、雑音除去音声に係るパワースペクトルを基にして音声認識処理を実行する認識処理部とを備えることを特徴とする音声認識装置。
センサによって話者の存在する位置を検出して当該位置データを時系列に出力する話者位置検出手段と、前記雑音重畳音声に係るパワースペクトルに含まれる音声成分と前記雑音パターンに係るパワースペクトルに含まれる音声成分の比から算出した複数の補正フィルタを予め記憶する音声補正用補正フィルタメモリと、前記話者位置検出手段から出力される話者の位置データに対応する補正フィルタを前記音声補正用補正フィルタメモリから選択して当該補正フィルタを雑音重畳音声スペクトル補正手段へ時系列に出力する音声補正用補正フィルタ選択手段とを備えることを特徴とする請求項２記載の音声認識装置。
雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と前記雑音用マイクロホンから出力される雑音パターン信号とに基づいて音声区間を判定し、音声区間であるか否かの識別信号を時系列に出力する音声区間検出手段と、前記雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以下でありかつ前記音声区間検出手段から出力される識別信号が音声区間である旨を示している場合に、補正フィルタの学習を実施することを示す識別信号を時系列に出力する補正フィルタ学習決定手段と、前記補正フィルタ学習決定手段から出力される識別信号が補正フィルタの学習を実施する旨を示している場合に、前記雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルと前記雑音スペクトル演算手段から出力される雑音パターンに係るパワースペクトルとに基づいて、話者位置検出手段から出力される話者の位置データに対応する補正フィルタを学習し当該補正フィルタを出力する補正フィルタ学習手段とを備えることを特徴とする請求項２または請求項３記載の音声認識装置。
雑音用マイクロホンから出力される雑音パターン信号から雑音パワーレベルを算出し当該雑音パワーレベルを時系列に出力する雑音パワーレベル演算手段と、音声用マイクロホンから出力される雑音重畳音声信号と前記雑音用マイクロホンから出力される雑音パターン信号とに基づいて雑音区間を判定し、雑音区間であるか否かの識別信号を時系列に出力する雑音区間検出手段と、前記雑音パワーレベル演算手段から出力される雑音パワーレベルが閾値以上でありかつ前記雑音区間検出手段から出力される識別信号が雑音区間である旨を示している場合に、雑音スペクトルの学習を実施することを示す識別信号を時系列に出力する雑音スペクトル学習決定手段と、前記雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係るパワースペクトルから、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第１の雑音スペクトル学習手段と、前記雑音スペクトル学習決定手段から出力される識別信号が雑音スペクトルの学習を実施する旨を示している場合に、雑音重畳音声スペクトル演算手段から出力される雑音重畳音声に係るパワースペクトルから、前記第１の雑音スペクトル学習手段から出力される代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルに対応する重畳雑音パターンに係るパワースペクトルを学習し当該パワースペクトルを出力する第２の雑音スペクトル学習手段とを備えることを特徴とする請求項２または請求項３記載の音声認識装置。
第１の雑音スペクトル学習手段が、洩れ込み音声除去手段から出力される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルを記憶する第１の雑音スペクトルメモリと、前記第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルについて、それぞれのクラスのセントロイドとなるパワースペクトルと当該クラスに含まれる雑音パターンのパワースペクトルとの間の距離値の総和が最小となるようにクラスタリングを実施し、各クラスのセントロイドを代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルとして出力する第１のクラスタリング手段とを備え、
第２の雑音スペクトル学習手段が、前記第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルとそれぞれ同一分析フレームに出力された複数の重畳雑音パターンに係るパワースペクトルを記憶する第２の雑音スペクトルメモリと、前記第２の雑音スペクトルメモリに記憶される複数の重畳雑音パターンに係るパワースペクトルに対して前記第１のクラスタリング手段におけるクラスタリング結果を反映するようにクラスタリングを実施し、各クラスのセントロイドを代表的な重畳雑音パターンに係るパワースペクトルとして出力する第２のクラスタリング手段とを備えることを特徴とする請求項５記載の音声認識装置。
第１の雑音スペクトル学習手段は、洩れ込み音声除去手段から出力される洩れ込み音声を除去した雑音パターンに係る複数のパワースペクトルを記憶する第１の雑音スペクトルメモリと、前記第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの概形を表すパラメータを算出し当該パラメータを出力するスペクトル概形パラメータ演算手段と、前記第１の雑音スペクトルメモリに記憶される洩れ込み音声を除去した雑音パターンに係るパワースペクトルからパワースペクトルの強度を表すパラメータを算出し当該パラメータを出力するスペクトル強度パラメータ演算手段と、前記スペクトル概形パラメータ演算手段から出力されるパワースペクトルの概形を表すパラメータと前記スペクトル強度パラメータ演算手段から出力されるパワースペクトルの強度を表すパラメータに重みを掛けて算出する距離値を用いて、前記第１の雑音スペクトルメモリに記憶される複数の洩れ込み音声を除去した雑音パターンに係るパワースペクトルをクラスタリングし、代表的な洩れ込み音声を除去した雑音パターンに係るパワースペクトルを出力する重み付けクラスタリング手段とを備えることを特徴とした請求項５記載の音声認識装置。