JPWO2007026827A1

JPWO2007026827A1 - マイクロホンアレイ用ポストフィルタ

Info

Publication number: JPWO2007026827A1
Application number: JP2007533331A
Authority: JP
Inventors: 正人赤木; 軍鋒李; 上地　正昭; 正昭上地; 佐々木　和也; 和也佐々木
Original assignee: Japan Advanced Institute of Science and Technology; Toyota Motor Corp
Current assignee: Japan Advanced Institute of Science and Technology; Toyota Motor Corp
Priority date: 2005-09-02
Filing date: 2006-08-31
Publication date: 2009-03-12
Anticipated expiration: 2026-08-31
Also published as: JP4671303B2; CN101263734A; US20080159559A1; CN101263734B; EP1931169A4; WO2007026827A1; EP1931169A1

Abstract

音声信号を入力する少なくとも２つのマイクロホンからなるマイクロホンアレイ（１０）と、前記マイクロホンアレイから入力された音声信号の成形を行うビーム成形器（１３）と、前記マイクロホンアレイから入力された雑音を含む目的音を所定の周波数で少なくとも２つの周波数帯域に分割する分割器（１４）と、前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第１のフィルタ（２０）と、前記マイクロホンアレイ中の１本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第２のフィルタ（３０）と、前記第１のフィルタと前記第２のフィルタからの出力を加算する加算器（４０）と、前記加算器と前記ビーム成形器からの出力に基づいて雑音を低減する手段（４１）とを備えた。

Description

本発明は、マイクロホンアレイ用ポストフィルタに関する。

利便性と柔軟性故に、携帯電話や自動音声認識システムのような多くのアプリケーションに対してハンズフリー技術が望ましい。この技術おける重要な問題の１つとして、遠方のマイクロホンで受信された信号の信頼性が様々な種類の雑音で著しく低下するという問題がある。この問題の解決法として、所定の方向以外の方向から届く雑音信号を抑圧するためにマイクロホンアレイを用いた空間フィルタリングを使用することが考えられる。マイクロホンアレイは、高品質な音声をもたらし、雑音の減少にかなりの優位性を持つ。

最近、下記のような提案がなされている（文献１：J. Bitzer, K.U. Simmer and K.-D. Kammeyer, "Multi-Microphone Noise Reduction Techniques as Front-end Devices for Speech Recognition," Speech Communication, vol. 34, pp. 3-12, 2001. 参照）。この提案では、所望の音声信号と雑音信号の間の相関を無相関と仮定したとき、マルチチャンネル・ウィナーフィルタは，広帯域の入力に対して出力の二乗誤差を最小とする最適解となることが示されている。そして、マルチチャンネル・ウィナーフィルタは、更に、最小変位無歪応答（ＭＶＤＲ：Minimum Variance Distortionless Response）ビーム成形器とそれに続くウィナー・ポストフィルタに分解することができることが示されている。一般に、マルチチャンネル・ウィナーフィルタは、ＭＶＤＲビーム成形器のみを用いた場合よりも高いＳＮ比で出力を生成する。したがって、実用的な雑音環境においては，付加的なポストフィルタリングが、マイクロホンアレイの性能を向上させるのに必要となる。

上記のポストフィルタリングに関して、さまざまなポストフィルタリング技術が提案されている（文献２：R. Zelinski, "A microphone array with adaptive post-filtering for noise reduction in reverberant rooms," in Proc. IEEE Int. Conf. on Acoustic, Speech, Signal Processsing, vol. 5, pp. 25782581, 1988.、文献３：I. A. McCowan and H. Bourlard, "Microphone Array Post-filter Based on Noise Field Coherence," IEEE Trans. on Speech and Audio Processing, vol. 11, no. 6, pp. 709-716, 2003.、文献４：I. Cohen and B. Berdugo, "Microphone Array Post-filtering for Non-Stationary Noise Suppression," in Proc. IEEE Int. Conf. Acoustic Speech Signal Processing, pp. 901-904, May 2002.、及び文献５：I. Cohen, "Multi-Channel Post-filtering in Non-Stationary Noise Environments," IEEE Trans. Signal Processing, Vol. 52, No. 5, pp. 1149-1160, 2004.参照）。広く使用されている１つのマルチチャンネル・ポストフィルタが、最初に、ゼリンスキーによって提案されている。このポストフィルタ（以下、「ゼリンスキー・ポストフィルタ」と称する）は、異なるマイクロホン間における雑音が完全に無相関であるような雑音場を仮定している。しかし、この仮定は実際の環境では、特にマイクロホンが近接している場合や雑音間の相関が高い低周波数域では、めったに満たされることがない。

高い相関を示す雑音を抑制するために、一般化されたサイドローブ除去器（ＧＳＣ）をゼリンスキー・ポストフィルタに結合することも提案されている（文献６：S. Fischer, K. D. Kammeyer, and K. U. Simmer, "Adaptive Microphone Arrays for Speech Enhancement in Coherent and Incoherent Noise Fields," in Proc 3rd joint meeting of the Acoustical Society of America and the Acoustical Society of Japan, Honolulu, Hawaii, 1996.参照）。しかしながら、ＧＳＣとゼリンスキー・ポストフィルタのいずれも低周波数領域での振る舞いが良くないと指摘されている。このため、高周波での低相関雑音成分を低減するためにゼリンスキー・ポストフィルタを適用し、低周波数での高相関雑音成分を低減するのにスペクトル減算を行うことが提案されている（文献７：J. Meyer and K. U. Simmer, "Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction," in Proc. IEEE Int. Conf. on Acoustic, Speech, Signal Processsing, Munich, Germany, pp. 21-24, 1997.参照）。しかしながら、この提案は、マルチチャンネル・ウィナー・ポストフィルタの基本的な構成に矛盾すると共に、スペクトル減算を実行するのに音声アクティビティ検出器（ＶＡＤ）が必要になる。

以下、マルチチャンネル・ウィナー・ポストフィルタについて説明し、解決すべき課題について説明する。その後、ゼリンスキー・ポストフィルタとまた、その比較に使用するマックコウワン・ポストフィルタについて説明する。

雑音下の環境でＭ個のセンサを有するマイクロホンアレイの場合、ｍ番目の観測信号Ｘ_m(t)は２つの成分からなっている。１番目の信号は、所望の音源とｍ番目のセンサ間のインパルス応答で変換された所望の信号である。２番目の信号は、付加的な雑音ｎ_m(t)である。これから、受信信号は、（１）式で与えられる。
Ｘ_m(t) = ｓ(t) * ａ_m(t) + ｎ_m(t) … (1)
ここで、ｍ＝１、２、・・・、Ｍ、であり、＊は畳み込み演算子である。短時間フーリエ変換（ＳＴＦＴ）を適用すると、以下のように、時間−周波数領域の観測された信号を表すことができる。
Ｘ(k,l) = Ｓ(k,l)Ａ(k) + Ｎ(k,l) … (2)
ここで、ｋが周波数インデックスであり、ｌがフレームインデックスである。

Ｘ^T(k,l) = [Ｘ₁(k,l), Ｘ₂(k,l), …, Ｘ_M(k,l)] … (3)
Ａ^T(k,l) = [Ａ₁(k,l), Ａ₂(k,l), …, Ａ_M(k,l)] … (4)
Ｎ^T(k,l) = [Ｎ₁(k,l), Ｎ₂(k,l), …, Ｎ_M(k,l)] … (5)
ここでの目的は，観測された雑音を含む信号から所望の信号を推定することである。行列表現を使用すれば、推定出力信号Ｔ(k,l)は、下記の式で与えられる。

Ｔ(k,l) = Ｗ^H(k,l)Ｘ(k,l) ... (6)
ここで、Ｗ(k,l)が重み係数であり、上付き文字Ｈが複素共役転置である。

所望の信号とその推定の間の平均自乗誤差を最小にすることを要請すると、最適な重み係数が得られ、マルチチャンネル・ウィナーフィルタが得られることになる。所望の信号と雑音信号が互いに無相関であると仮定すれば、さらにマルチチャンネル・ウィナーフィルタをＭＶＤＲビーム成形器とウィナー・ポストフィルタとに分解することができる。

（７）式において、第１項がＭＶＤＲビーム成形器の項で、第２項がウィナー・ポストフィルタの項である。ＭＶＤＲビーム成形器は、所定の方向に対して所望の信号の無歪ＭＭＳＥ推定を行う。ウィナー・ポストフィルタでさらに残りの雑音を低減することにより、雑音低減能力を改良して、高ＳＮ比を生成することができる。

ＭＶＤＲビーム成形器としては、フロストのビーム成形器（文献８：O. L. Frost, "An algorithm for linearly constrained adaptive array processing," in Proc. IEEE, vol. 60, pp. 926-935, 1972.参照）や一般化されたサイドローブキャンセラ（ＧＳＣ）などのいくつかの適応型アルゴリズム、および拡散雑音場の仮定のもとで超指向型ビーム成形器などのいくつかの非適応型アルゴリズムが提案されている。

以下の議論では、一般性を失わない範囲で、マイクロホンアレイが所望の信号方向に向かって事前に配置されており、各マイクロホンの上の同じ所望の音声信号を処理するためにマルチチャンネル入力がスケーリングされていると仮定する。このとき、時間遅れ補償出力は次のようになる。
X_m(k,l) =Ｓ(k,l) + N_m(k,l) (m = 1, 2, …, M) … (8)
以下、ゼリンスキー・ポストフィルタとマックコウワン・ポストフィルタと呼ばれる２個のポストフィルタに対して、簡単に説明する。
ゼリンスキー・ポストフィルタは、推定された自己相関及び相互相関スペクトル密度を用いて，雑音が完全に無相関である雑音場においてウィナー・フィルタの解決策を提供している。所望の信号と雑音信号が無相関であり、雑音は同一のパワー密度を持つが異なるマイクロホン間で無相関であれば、マルチチャンネル入力の自己及び相互相関スペクトル密度φx_ix_i(k,l)とφx_ix_j(k,l)）を単純化することができる。
φx_ix_i (k,l) =φss(k,l) +φnn(k,l) … (9)
φx_ix_j (k,l) =φss(k,l) … (10)
自己及び相互相関スペクトル密度の簡易的な表現（式(9)および(10)）に基づいて、ゼリンスキー・ポストフィルタを定式化することができる。

ここで、実数R{}と（すべてのセンサ対にわたっての）平均演算は、推定誤りに対してこのポストフィルタの頑健性を向上させるのに寄与する。自己及び相互相関スペクトル密度はスケーリングされたマイクロホン信号で推定される。

しかし、実際には、各マイクロホンにおける雑音が無相関であるというゼリンスキー・ポストフィルタの基本的な仮定は実用的な環境ではめったに満たされていない。この事実を考慮して、マックコウワンは、各マイクロホンにおける雑音が無相関であるという仮定を緩和し，各マイクロホンにおける雑音は同じパワースペクトル密度を持つとともにお互い関係しており，相関の大きさはコヒーレンス関数で与えられるという仮定を設けた．
そして、所望のスピーチ信号と雑音信号間は無相関であるという仮定と，緩和された雑音間の相関の仮定の下で，マルチチャンネルの自己及び相互相関スペクトル密度は後述する式によって与えられる。ここで、Γn_in_j(k,l)は、複素コヒーレンス関数（式(17)に後述）である。
φx_ix_i (k,l)、φx_jx_j(k,l)、およびφx_ix_j (k,l)は下記のように簡素化することができる。
φx_ix_i (k,l) =φss(k,l) + φnn(k,l) … (12)
φx_jx_j (k,l) =φss(k,l) + φnn(k,l) … (13)
φx_ix_j (k,l) =φss(k,l) + Γn_in_j(k,l)φnn(k,l) … (14)
そして、これらの表現に基づいて、ウィナー・ポストフィルタの分子項であるスピーチパワーのスペクトル密度φss_(k,l)を表すことができる。

マックコウワン・ポストフィルタは、

で表すことができる。マックコウワン・ポストフィルタはオフィスでのマルチチャンネル録音を使用することを前提としており，この環境においてゼリンスキー・ポストフィルタと比べて、改良された性能を達成するために提案されているが、予め想定されたコヒーレンス関数と実際のコヒーレンス関数との間に差が存在していると、性能は下がることが予想される。

本発明は、拡散雑音場におけるハイブリッド構造を有する新規のポストフィルタを提供することを目的とする。
反響している部屋や車室内環境などのように、拡散雑音場が多くの実用的な雑音環境に対する合理的なモデルとして提案されている。拡散雑音場では、低周波雑音は高相関であり、高周波雑音は低相関である。これらの特性を考慮して、本発明では、高周波（低相関である）雑音用のマルチチャンネル・ウィナー・ポストフィルタと低周波数（高相関である）雑音用のシングルチャンネル・ウィナー・ポストフィルタを適用する。高周波では、異なるマイクロホン対で雑音の間の相関関係を十分に考慮・利用する修正ゼリンスキー・ポストフィルタを採用する。低周波数では、判定指向型ＳＮ比推定メカニズムによる、「ミュージカル雑音」をより低減させるシングルチャンネル・ウィナー・ポストフィルタを採用する。本発明に係るポストフィルタは、理論上、マルチチャンネル・ウィナー・フィルタの基本的な構成に従っており、拡散雑音場における高相関雑音及び低相関雑音を効果的に減少することができる。

本発明の局面に係るポストフィルタは、音声信号を入力する少なくとも２つのマイクロホンからなるマイクロホンアレイと、前記マイクロホンアレイから入力された音声信号の成形を行うビーム成形器と、前記マイクロホンアレイから入力された雑音を含む目的音を所定の周波数で少なくとも２つの周波数帯域に分割する分割器と、前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第１のフィルタと、前記マイクロホンアレイ中の1本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第２のフィルタと、前記第１のフィルタと前記第２のフィルタからの出力を加算する加算器と、前記加算器と前記ビーム成形器からの出力に基づいて雑音を低減する手段とを具備する。

周波数に対する完全な拡散雑音場のＭＳＣ関数を示す図である。本発明に係るポストフィルタのブロック図である。修正ゼリンスキー・ポストフィルタの概略構成を示すブロック図である。シングルチャンネル・ウィナー・ポストフィルタの概略構成を示すブロック図である。指向係数と周波数との関係を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＳＥＧＳＮＲの実験結果を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＳＥＧＳＮＲの実験結果を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＮＲの実験結果を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＮＲの実験結果を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＬＳＤの実験結果を示す図である。様々なＳＮＲレベルにおける２つの雑音状態で計算された平均したＬＳＤの実験結果を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。１００ｋｍ／ｈのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」という日本文に対応する測定例を示す図である。

図面を参照して本発明の実施の形態を説明する。下記の説明において、まず、モデル雑音場におけるコヒーレンス関数とその適用について説明する。そして、拡散雑音場におけるハイブリッドポストフィルタを説明し、最終的に、本発明に係るポストフィルタの利点を説明する。

雑音場を特徴付けるために、以下の式で定義された複素コヒーレンス関数が広く使用されている。

ここで、φx_ix_j (k,l)が２つの信号ｘi(t)とｘj(t)の間の相互相関スペクトル密度、φx_ix_i (k,l)とφx_jx_j (k,l)は、それぞれｘi(t)とｘj(t)の自己相関スペクトル密度である。別の重要な手段である振幅自乗相関（ＭＳＣ：magnitude-squared coherence）関数は、雑音場を分析するのに本明細書で使用されるＭＳＣ(k,l)＝｜Γx_ix_j (k,l)｜^２によって与えられる複素コヒーレンス関数の振幅の自乗として定義される。

本明細書の基本的な仮定の１つである拡散雑音場は、多くの実際の雑音環境に対する合理的なモデルとして示されている。拡散雑音場は以下のＭＳＣ関数によって特徴付けられる。

ここで、ｄは隣接したマイクロホンの距離であり、ｃは音速である。周波数に対する完全な拡散雑音場のＭＳＣ関数を図１に示す。図１から、下記のような拡散雑音場のいくつかの特性を容易に求めることができる。
１．ＭＳＣ関数は、周波数に依存し、時間に依存しない関数である。
２．異なるマイクロホンにおける雑音は低周波数で高相関であり、高周波数で低相関である。
スペクトルを低相関部と高相関部に分割するために、２つの領域を分ける遷移周波数ｆ_tはｆ_t＝ｃ／（２ｄ）で与えられる第１の最小値として選ばれている。明らかに、音速ｃが定数であるとみなされるので、遷移周波数は単に２個のマイクロホンの間の距離ｄによって決定される。

本発明に係るポストフィルタを定式化するために、下記のような仮定を行うものとする。
（１）所望の音声信号と雑音信号は各マイクロホンで無相関である。
（２）雑音のパワースペクトル密度は各マイクロホンで同じである。
（３）異なるマイクロホンにおける雑音は拡散雑音である。
実際は、仮定（１）は通常音声信号処理で使われ、そして、仮定（２）と（３）は、多くの実際の雑音環境で実現することが確かめられている。

以下の説明では、ポストフィルタの雑音低減性能を高めるためのハイブリッドポストフィルタについて説明する。ポストフィルタとして、高周波領域の修正ゼリンスキー・ポストフィルタと低周波数領域のシングルチャンネル・ウィナー・ポストフィルタを適用する。図２は、本発明に係るポストフィルタのブロック図である。また、図３は、修正ゼリンスキー・ポストフィルタの概略構成を示すブロック図であり、図４は、シングルチャンネル・ウィナー・ポストフィルタの概略構成を示すブロック図である。

図２に示すように、本発明に係るポストフィルタは、マイクロホンアレイ１０（以下、単に「マイクロホン」とも称する）と、高速フーリエ変換器１１と、時間整合器１２と、ビーム成形器１３と、周波数帯分割器１４と、修正ゼリンスキーフィルタゲイン推定器２０（修正ゼリンスキー・ポストフィルタ）と、シングルチャンネル・フィルタゲイン推定器３０と、加算器４０と、フィルタ４１と、遅延器４２と、逆高速フーリエ変換器５０とを備えている。

図３に示すように、修正ゼリンスキーフィルタゲイン推定器２０は、相互相関スペクトル密度演算器２１と、平均化器２２と、自己相関スペクトル密度演算器２３と、平均化器２４と、除算器２５とを備えている。また、図４に示すように、シングルチャンネル・フィルタゲイン推定器３０は、平均化器３１と、雑音変位更新器３２と、ポステリオリＳＮＲ演算器３３と、遅延器３４と、プリオリＳＮＲ演算器３５と、ＳＡＰ演算器３６と、シングルチャンネル・ウィナーフィルタ・ゲイン推定器３７（シングルチャンネル・ウィナー・ポストフィルタ）とを備えている。

上記のような構成において、各マイクロホン１０における雑音が互いに無相関であるという仮定に基づき、無相関の雑音場での音声とその推定の間の平均自乗誤差を最小にすることが必要である。上記のように、マルチチャンネル入力の自己及び相互相関スペクトル密度には、相関雑音成分が含まれる。従って、マルチチャンネル入力の自己及び相互相関スペクトル密度を推定するのに使用される雑音相関が小さければ、性能低下が抑えられると考えられる。

図１に示すように、拡散雑音場において、異なるマイクロホンの互いに無相関雑音成分は、遷移周波数ｆ_t以上の周波数にのみ存在する。マイクロホンの間の距離に応じて遷移周波数が決定しているので、異なった相互素子間隔を有するマイクロホンは異なった遷移周波数によって特徴付けられる。すなわち、異なった相互素子間隔を有する異なるマイクロホンでは、無相関雑音は異なった周波数領域で見られる。更に、ある周波数に対して、雑音は、限られたマイクロホンのみについて互いに無相関であり、一般にすべてのマイクロホンではそうではない。これにより、当該マイクロホン対上のマルチチャンネル入力の自己及び相互相関スペクトル密度を計算することによって修正ゼリンスキー・ポストフィルタを得ることができる。具体的には、以下の通りである。

マイクロホンアレイのマイクロホン配置に従って、予め遷移周波数を決定しておく。具体的には、距離ｄ_ijで離間されたセンサｉとｊ（ｉ、ｊ≦Ｍ）との間に相互素子間隔を有するＭセンサアレイを考慮すると、Ｍ（Ｍ−１）／２の遷移周波数を決定するＭ（Ｍ−１）／２のマイクロホン対を有している。このとき、遷移周波数は、それぞれｆ_t,ij＝ｃ／（２ｄ_ij）で計算することができる。なお、この場合において、いくつかのマイクロホン対について相互素子間隔が同じであるので、遷移周波数も同じである。例えば、Ｍ本のマイクロホンが直線上に等間隔で並んでいる場合には、Ｍ（Ｍ−１）／２個のマイクロホンの中では、（Ｍ−１）の異なった相互素子間隔を持っているので、ｆ_t ¹、ｆ_t ²、・・・、ｆ_t ^M-1によって示される（Ｍ−１）個の異なる遷移周波数が決定できる。なお、一般性を失うことがなければ、遷移周波数間の関係が、ｆ_t ¹＜ｆ_t ²＜・・・＜ｆ_t ^M-1であるものとさらに仮定しても良い。なお、Ｍ本のマイクロホンを等間隔に並べない、あるいは直線上に並べないのならば、Ｍ（Ｍ−１）／２個のマイクロホン対すべてを異なる間隔で並べることも可能であり、この場合には、遷移周波数はＭ（Ｍ−１）／２個選べることになる。

マイクロホン１０から入力した例えば音声は、高速フーリエ変換器１１でフーリエ変換される。フーリエ変換後の信号は、時間整合器１２で、各マイクロホン１０間の同一音声に対する入力信号の時間のずれが補正される。なお、この場合において、高速フーリエ変換器１１と時間整合器１２による処理は順序が逆であっても良い。

次に、時間的整合が施された音声信号は周波数帯分割器１４に入力し、周波数帯分割器１４は、（Ｍ−１）個の異なった遷移周波数ｆ_t ¹、ｆ_t ²、・・・、ｆ_t ^M-1で全周波数帯をＢ_０、Ｂ_１、・・・Ｂ_Ｍ−１のＭ個のサブバンドに分割する。Ｍ個のサブバンドのうちＢ_１、・・・Ｂ_Ｍ−１の（Ｍ−１）個のサブバンドは、修正ゼリンスキーフィルタゲイン推定器２０に入力する。また、時間的整合が施された音声信号は、ビーム成形器１３にも入力し、ビーム成形されてフィルタ４１に入力する。

修正ゼリンスキーフィルタゲイン推定器２０に入力した（Ｍ−１）個のサブバンドについて、相互相関スペクトル密度を相互相関スペクトル密度演算器２１で演算して、平均化器２２でその平均値を求める。なお、平均化器２２で平均化する場合、すべての入力に対してではなく、その帯域で雑音が無相関であるマイクロホン対での自己相関（相互相関）スペクトル密度を選んで平均化する。また、自己相関スペクトル密度を自己相関スペクトル密度演算器２３で演算して、平均化器２４でその平均値を求める。なお、相互相関スペクトル密度演算器２１と自己スペクトル密度演算器２３における雑音信号のスペクトル密度は次のように求められる。
サブバンドＢ_ｍ（１≦ｍ≦Ｍ−１）の各周波数に対して、組Ωｍのマイクロホン対における雑音が、非相関であると仮定する。この場合において、
φxixi (k,l)＝φss(k,l)＋φnn(k,l) … (19)
φxixj (k,l)＝φss(k,l) … (20)
により、マルチチャンネル入力の自己及び相互相関スペクトル密度が与えられ、これらのスペクトル密度から、所望のスピーチと雑音信号のスペクトル密度が推定できる。

そして、平均化器２２と２４で平均化された自動及び重なりスペクトル密度が、除算器２５で除算演算されて高周波数帯におけるフィルタゲイン（利得関数）が出力される。ここにおいて、ゼリンスキー・ポストフィルタでは、すべてのマイクロホン対での自己相関（相互相関）スペクトル密度を平均してフィルタのゲインを求めているため、雑音の相関が高い（仮定からはずれている）ところのデータも含まれてしまう。このため，結果としてフィルタゲインの推定が頑健ではなくなる。一方、修正ゼリンスキー・ポストフィルタでは、雑音の相関が低い（仮定からはずれていない）データのみを選んで組Ωmとして，その中で平均を行っているので。頑健性が高くなっている。ここで、修正ゼリンスキー・ポストフィルタの利得関数は下記のように与えられる。

なお、上記の説明において、遷移周波数の決定は、マイクロホンアレイの配置のみに依存し、入力信号には依存しない。また、自己及び相互相関スペクトル密度の推定手順に含まれるマイクロホン対の選択が、修正ゼリンスキー・ポストフィルタの計算コストの減少に寄与する。

一方、各マイクロホン１０からのサブバンドＢ_０は、シングルチャンネル・フィルタゲイン推定器３０に入力する。すべてのマイクロホン対における雑音が高相関であれば、修正ゼリンスキー・ポストフィルタを用いたとしても，マルチチャンネル入力の自己および相互相関スペクトル密度から所望の音声信号の自己相関スペクトル密度を推定することができない。従って、低周波数では、ウィナー・ポストフィルタを推定するためにシングル・チャンネルの技術を採用することになる。

まず、シングルチャンネル・フィルタゲイン推定器３０に入力したサブバンドＢ_０は、平均化器３１で、チャンネル間で平均化される。平均化されたサブバンドＢ_０は、雑音変位更新器３２とポステリオリＳＮＲ演算器３３とに入力する。雑音変位更新器３２は、平均化器３１とＳＡＰ演算器３６からの信号に基づいて更新処理を行って、ポステリオリＳＮＲ演算器３３と遅延器３４とに推定雑音スペクトルを出力する。ポステリオリＳＮＲ演算器３３からプリオリＳＮＲ演算器３５は、詳細は後述する各種演算を実行する。シングルチャンネル・ウィナーフィルタ・ゲイン推定器３７は、プリオリＳＮＲ演算器３５からの信号に基づいて、低周波数帯におけるフィルタゲイン（利得関数）を出力する。

上記のような構成において、ウィナー・ポストフィルタの利得関数は以下のように書き換えることができる。

アプリオリＳＮＲ演算器３５で演算されるアプリオリＳＮＲ（ＳＮＲ_priori(k,l)）の推定は、下記のような、判定指向性推定メカニズで更新される。

（２３）式において、α（０＜α＜１）は忘却係数であり、ＳＮＲ_post(k,l)は、ポステリオリＳＮＲ演算器３３で演算されるアポステリオリＳＮＲであり、ＳＮＲpost(k,l) = |Ｘ(k,l)|² / E[|Ｎ(k,l)|²]で表される。これにより、上記のような判定指向性推定メカニズムは、「ミュージカル雑音」をかなり減少させる。

ここで、シングルチャンネル・ウィナー・ポストフィルタの性能を向上させるために、きわめて重要な点は、雑音のパワーのスペクトル密度Ｅ[|Ｎ(k,l)|²]を高精度で推定することである。この雑音のパワーのスペクトル密度は、下記のような柔決定ベースアプローチで実行される。
Ｅ[|Ｎ(k,l)|²] =βＥ[|Ｎ(k,l)|²] + (1-β)Ｅ[|Ｎ(k,l)|²|Ｘ(k,l)] … (24)
（２４）式において、β（０＜β＜１）は、雑音推定の更新率を制御する忘却係数である。

音声の存在が不確定である状況では、（２４）式の右辺における第２項は式(25)を用いて観測された信号のスペクトル密度として推定される．
E[|Ｎ(k,l)|²|Ｘ(k,l)] = q(k,l)|X_(k,l)|² + (1-q(k,l))E[|N(k,l-1)|²] … (25)
（２５）式において、ｑ(k,l)がスピーチ不存在確率、|X_(k,l)|²は、各センサにおける個々の雑音のスペクトル密度の平均である。なお、

である。このように、各センサにおける個々の雑音のスペクトル密度の平均を計算する理由は、１個のセンサだけを考えると、推定誤りに起因する偏った測定を生じる可能性があるからである。複素ガウス統計値モデルを仮定し、ベイズの定理と、確率総和の定理を適用すると、下記の式によりスピーチ不存在確率が与えられる。

（２６）式において、ｑ'(k,l)は、アプリオリなスピーチ不存在確率であり，実験により適当な値を選択する。
上記のようにして求められた高周波数帯及び低周波数帯におけるフィルタゲイン（利得関数）を加算器４０で加算して、加算結果をフィルタ４１に出力する、フィルタ４１は、ビーム成形器１３と加算器４０の出力から高周波数帯及び低周波数帯における雑音を低減した信号を遅延器４２と逆高速フーリエ変換器５０に出力する。逆高速フーリエ変換器５０は、入力信号を逆フーリエ変換して、後段の例えば、音声認識装置などに出力する。また、遅延器４２に出力された信号は、シングルチャンネル・フィルタゲイン推定器３０における利得関数の算出に使用される。

本発明に係るポストフィルタは、理論上、マルチチャンネル・ウィナー・ポストフィルタの枠組みに従っており、まさにウィナー・ポストフィルタといえる。低周波数領域において、（２２）式で与えられたポストフィルタは、明らかにウィナーフィルタである。高周波領域では、修正ゼリンスキー・ポストフィルタで推定されるのに使用される雑音が、無相関であるので、マルチチャンネル入力の相互相関スペクトル密度が、より正確なスピーチの自己スペクトル密度推定を提供する。従って、高周波領域に採用された修正ゼリンスキー・ポストフィルタはウィナー・ポストフィルタとみなせる。

上記のように構成された本発明に係るポストフィルタが、最適なマイクロホンアレイ用ポストフィルタとして、より一般的な表現を提供していることは注目すべきである。完全に無相関の雑音場では、本発明に係るポストフィルタが、遷移周波数をゼロに設定するだけで、ゼリンスキー・ポストフィルタになる。そして、完全に全雑音が相関を持つ雑音場では、本発明に係るポストフィルタの遷移周波数を最も高い周波数に設定するだけで、シングルチャンネル・ウィナー・ポストフィルタになる。

拡散雑音場における本発明に係るポストフィルタの有効性を確認するために、様々な車の雑音環境で、ゼリンスキー・ポストフィルタ、マックコウワン・ポストフィルタ、および単一のシングルチャンネル・ウィナー・ポストフィルタを含む他の従来のポストフィルタと比較した。ビーム成形器は、最初に、マルチチャンネル雑音信号に適用される。そして、ビーム成形器出力は本発明に係るポストフィルタによってさらに機能アップされる。性能は客観的および主観的な手段で評価される。

実験の構成は以下のとおりである。
本発明に係るポストフィルタの性能を実際の車の環境で推定するために、１０ｃｍの相互素子間隔を有する３個のマイクロホンからなる等しい間隔をおいたリニアアレイを、車のサンバイザ上に取り付けた。アレイが約５０ｃｍドライバーから離れ、ドライバーの正面になるようにした。

マルチチャンネル雑音録音は、車が５０ｋｍ／ｈと１００ｋｍ／ｈの速度で高速道路を走行中に全てのチャンネルで同時に行った。雑音は、主にエンジン雑音や、空調雑音や、タイヤと道路の間の摩擦からの雑音からなっている。５０個の日本文から成るクリアな音声信号をＡＴＲデータベースから取り出した。音声と雑音信号の両方を、最初に、１６ビットの精度で１２ｋＨｚに再抽出した。クリアな音声信号と実際のマルチチャンネル車内雑音とを異なるグローバルＳＮＲレベル（−５、２０）ｄＢで人工的に混合させることによりマルチチャンネル雑音信号を生成した。この生成手順には、以下の利点がある。
（１）理想的な時間遅れ補償が行われたことと見なせる。
（２）混入条件が明確に測定されるので、容易に客観的な手段を使用する性能推定を行うことができる。

図１に示された理論ｓｉｎｃ関数と実際の雑音録音から計算された測定ＭＳＣ関数とを比較することによって、拡散雑音場の有効性を調査した。図１から、瞬時的な変化は存在するが、その一方で、測定ＭＳＣ関数が理論ｓｉｎｃ関数の傾向に追随していることがわかる。この値は、本発明に係るポストフィルタで使用される拡散雑音場の仮定を充たす。

ビーム成形フィルタは、拡散雑音場におけるＭＶＤＲビーム成形器の解決策である超指向性ビーム成形器で実現される。周波数ｋに関する関数である超指向性ビーム成形器の利得関数は、

であり、拡散雑音源に対してアレイの雑音低減能力を示す指向係数（ＤＩ）は、

で表され、この指向係数と周波数との関係を図５に示す。図５から明らかに、超指向性ビーム成形器は低周波数雑音成分を抑制するのに効果がないことがわかる。

本発明に係るポストフィルタを客観的に推定するために、セグメントＳＮＲ（ＳＥＧＳＮＲ）、雑音低減比（ＮＲ）、およびログスペクトル距離（ＬＳＤ）の下記の３つの客観的な音声品質測定を使用した。

セグメントＳＮＲ（ＳＥＧＳＮＲ）は、雑音低減と音声強調アルゴリズムのために広く使用されている客観的な推定手段である。ＳＥＧＳＮＲは、クリアな音声のパワーと，雑音を含む音声に含まれる雑音信号または提案するアルゴリズムによって雑音を低減した信号に含まれる雑音信号の比率として定義され、以下のように与えられる。

ここで、ｓ()、ｓ_()は、テストされたアルゴリズムで処理された参照音声信号と雑音信号を抑圧した信号である。また、ＬとＫは信号のフレームの数とフレーム（ＳＴＦＴの長さと等しい）あたりのサンプルの数を表す。

雑音低減比（ＮＲ）は、提案したアルゴリズムの雑音低減性能を推定するのに使用されている。音声がないとき、ＮＲは雑音を含む入力のパワーと強調された信号のパワーの比率と定義され、以下の式で表される。

ここで、Φは、音声がないフレームのセットを表し、｜Φ｜は濃度である。Ｘ(k,l)とｓ_(k,l)は、それぞれ雑音信号と強調されたた音声信号（enhanced signal）である。

ログスペクトル距離（ＬＳＤ）は、所望の音声信号のひずみを推定するのにしばしば使用される。ＬＳＤは、クリアな音声の対数スペクトルと雑音信号のそれ又は提案したアルゴリズムによって強調された信号の対数スペクトルとの距離として定義され、以下のように与えられる。

ここで、Ψは音声が存在するフレームの組を示しており、｜Ψ｜はその基数である。Ｓ(k,l)とＳ_(k,l)はそれぞれ参照クリア信号と強調された音声信号のスペクトルである。

２つの雑音状態（50 km/hと100 km/h）において様々なＳＮＲレベルで計算された平均ＳＥＧＳＮＲとＮＲの結果を、それぞれ図６Ａから図７Ｂに示す。また、ＬＳＤの結果を図８に示す。実験結果の値はそれぞれの雑音状態のすべてのセンテンスにわたって平均された。性能はマイクロホン録音、ビーム成形器出力、および本発明に係るポストフィルタの出力のときに推定された。なお、図６Ａ、図７Ａ、及び図８Ａが５０ｋｍ／ｈでの走行時、図６Ｂ、図７Ｂ、及び図８Ｂが１００ｋｍ／ｈでの走行時である。また、図中の記号は、四角がビーム成形器の出力、ひし形がゼリンスキー・ポストフィルタの出力、プラスがマックコウワン・ポストフィルタの出力、三角がシングルチャンネル・ウィナー・ポストフィルタの出力、丸が本発明に係るポストフィルタの出力を示し、図８における×印が何も処理を加えていない録音されたままの信号の平均対数スペクトル距離（ＬＳD）である。

図６Ａから図７Ｂに示すように、ビーム成形器単独かつゼリンスキー・ポストフィルタは、低周波雑音成分を抑制する際に十分な性能を示さず、ＳＥＧＳＮＲ改良と雑音低減結果を提供しない。これは前述した説明を確認する結果を示している。雑音場の適切なコヒーレンス関数をパラメータとしたマックコウワン・ポストフィルタはＳＥＧＳＮＲをかなり改良する。しかし、すべての雑音状態において，ゼリンスキーおよびマックコウワン・ポストフィルタと比べて、シングルチャンネル・ウィナー・ポストフィルタはより高いＳＥＧＳＮＲとＮＲの改善を示している。そして、本発明に係るポストフィルタは、すべてのテスト条件において，シングルチャンネルポストフィルタと同等のＳＥＧＳＮＲとＮＲを与え、最も高い性能を示している。

図８Ａ及び図８ＢのＬＳＤの結果に関して、ビーム成形器のみおよびゼリンスキー・ポストフィルタは，フィルタを使わない場合に比べてすべてのＳＮ比にわたってＬＳＤを減少させている．シングルチャネルウィナーポストフィルタは，低SNRにおいて音声の歪みを低減しているが，高SNRでは逆に歪みを増大させている．提案法とマックコウワン・ポストフィルタは，ＳＮ比レベルの大部分で最も低いＬＳＤを示している。

本発明に係るポストフィルタの主観的性能評価は、音声スペクトログラムを使用すること，および，非公式の試聴テストによって有効に行われた。１００ｋｍ／ｈのスピード下における車内環境での「どうぞよろしく」という日本文に対応する音声スペクトログラムの典型的な測定例を図９Ａから図９Ｈに示す。図９Ａから図９Ｃはそれぞれ第１のマイクロホンでのオリジナル・クリーン音声信号と、第１のマイクロホンでの雑音信号と、第１のマイクロホンでの雑音信号（ＳＮＲ＝１０ｄB）を示している。図９Ｄは、ビーム成形器の出力である．図５に示すように低周波数において雑音抑圧に弱点があるため，大きな低周波雑音が存在する。また、図９Ｅに示すゼリンスキー・ポストフィルタの出力は，低周波数領域における雑音の高相関特性のために低周波数において非常に限られた性能を提供することを示している。図９Ｆは、マックコウワン・ポストフィルタが低周波数領域においても雑音を抑圧するのを示している。しかし、想定したコヒーレンス関数と実際のコヒーレンス関数間の違により残存雑音が存在する。シングルチャンネル・ウィナー・ポストフィルタは図９Ｇに示されるように音声ひずみをもたらす。図９Ｈは、本発明に係るポストフィルタであって、音声ひずみを付加することなしに拡散性雑音を抑圧することができることを示す。非公式の聴取テストでは，他のものと比べて本発明に係るポストフィルタの優越を立証した。

上記のように、実用的な環境における本発明に係るポストフィルタの基本仮定（拡散雑音場）がゼリンスキー・ポストフィルタ（無相関の雑音場）のものより合理的であるので、本発明に係るポストフィルタはゼリンスキー・ポストフィルタより優れている。さらに、本発明に係るポストフィルタは低周波数の高相関雑音成分を減少させるのに成功している。

マックコウワン・ポストフィルタは雑音場のコヒーレンス関数に基づいて決定される。したがって、性能は仮定されたコヒーレンス関数の精度に大いに依存している。仮定と実際のコヒーレンス関数との違いは性能劣化をもたらす。しかしながら、本発明に係るハイブリッドポストフィルタは、相関及び無相関雑音を区別するために遷移周波数のみを利用しており，コヒーレンス関数の実際の瞬時値にかかわらず、コヒーレンス関数の間の誤りに起因する効果を軽減している。

本発明に係るハイブリッドポストフィルタは全周波数帯で使用されるシングルチャンネル・ウィナー・ポストフィルタより優れている。雑音の特性の測定値に基づくシングルチャンネル・ウィナー・ポストフィルタは，柔決定機構が採用されても非定常雑音源にほとんど対応できない。しかしながら、自己及び相互相関スペクトル密度の推定に基づいたマルチチャンネルの技術は、非定常雑音に対しても理論的に望ましい性能を提供する。本発明に係る修正ゼリンスキー・ポストフィルタは、高周波領域のそれぞれの分割周波数領域でこの性能を完全に提供する。

上記のように、本発明では、拡散雑音場を仮定してマイクロホンアレイに対するポストフィルタを提案した。本発明に係るポストフィルタは高周波領域の修正ゼリンスキー・ポストフィルタと低周波数領域のシングルチャンネル・ウィナー・ポストフィルタを結合して構成されている。

本発明に係るポストフィルタには、他のアルゴリズムと比べて、以下の利点がある。
（１）理論上、本発明に係るポストフィルタは、ウィナー・ポストフィルタであるので、マルチチャンネル・ウィナー・ポストフィルタの枠組みに従う。

（２）実際に、本発明に係るポストフィルタは雑音を減少させて、様々な車の雑音環境において他のアルゴリズムと比べて、所望のスピーチを推定する際に有効であった。

本発明によれば、拡散雑音場における高相関雑音及び低相関雑音を効果的に減少することができる。

本発明は、上記各実施の形態に限ることなく、その他、実施段階ではその要旨を逸脱しない範囲で種々の変形を実施し得ることが可能である。さらに、上記各実施形態には、種々の段階の発明が含まれており、開示される複数の構成要件における適宜な対合せにより種々の発明が抽出され得る。
また、例えば各実施形態に示される全構成要件から幾つかの構成要件が削除されても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果で述べられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

Claims

音声信号を入力する少なくとも２つのマイクロホンからなるマイクロホンアレイと、
前記マイクロホンアレイから入力された音声信号の成形を行うビーム成形器と、
前記マイクロホンアレイから入力された雑音を含む目的音を所定の周波数で少なくとも２つの周波数帯域に分割する分割器と、
前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第１のフィルタと、
前記マイクロホンアレイ中の１本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第２のフィルタと、
前記第１のフィルタと前記第２のフィルタからの出力を加算する加算器と、
前記加算器と前記ビーム成形器からの出力に基づいて雑音を低減する手段とを具備するポストフィルタ。
請求項１に記載のポストフィルタにおいて、前記第１のフィルタは、修正ゼリンスキー・ポストフィルタであり、前記第２のフィルタはシングルチャンネル・ウィナー・ポストフィルタである。
請求項１又は請求項２に記載のポストフィルタにおいて、
前記第１のフィルタは、相互相関スペクトル密度と自己相関スペクトル密度との比を求めることによりフィルタゲインを推定し、
前記第２のフィルタは、ポストフィルタの出力信号とアポステリオリＳＮＲとに基づいてアプリオリＳＮＲを演算し、アプリオリＳＮＲに基づいてフィルタゲインを推定する。
請求項１から請求項３のいずれか１項に記載のポストフィルタにおいて、前記分割器で分割する目的音の周波数は、前記マイクロホン間の距離に従って決定される。
請求項４に記載のポストフィルタにおいて、前記第１のフィルタは、分割された後の複数の周波数帯域において各周波数帯域で雑音が無相関となるマイクロホンペアを選択してフィルタゲインを推定する。