WO2007026827A1

WO2007026827A1 - マイクロホンアレイ用ポストフィルタ

Info

Publication number: WO2007026827A1
Application number: PCT/JP2006/317229
Authority: WO
Inventors: Masato Akagi; Junfeng Li; Masaaki Uechi; Kazuya Sasaki
Original assignee: Japan Advanced Institute Of Science And Technology; Toyota Jidosha Kabushiki Kaisha
Priority date: 2005-09-02
Filing date: 2006-08-31
Publication date: 2007-03-08
Also published as: JP4671303B2; CN101263734A; US20080159559A1; CN101263734B; EP1931169A4; JPWO2007026827A1; EP1931169A1

Abstract

　音声信号を入力する少なくとも２つのマイクロホンからなるマイクロホンアレイ（１０）と、前記マイクロホンアレイから入力された音声信号の成形を行うビーム成形器（１３）と、前記マイクロホンアレイから入力された雑音を含む目的音を所定の周波数で少なくとも２つの周波数帯域に分割する分割器（１４）と、前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第１のフィルタ（２０）と、前記マイクロホンアレイ中の１本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第２のフィルタ（３０）と、前記第１のフィルタと前記第２のフィルタからの出力を加算する加算器（４０）と、前記加算器と前記ビーム成形器からの出力に基づいて雑音を低減する手段（４１）とを備えた。

Description

明細書

マイクロホンアレイ用ポストフィルタ技術分野

[0001] 本発明は、マイクロホンアレイ用ポストフィルタに関する。

背景技術

[0002] 利便性と柔軟性故に、携帯電話や自動音声認識システムのような多くのアプリケーシヨンに対してハンズフリー技術が望ましい。この技術おける重要な問題の 1つとして

、遠方のマイクロホンで受信された信号の信頼性が様々な種類の雑音で著しく低下するという問題がある。この問題の解決法として、所定の方向以外の方向から届く雑音信号を抑圧するためにマイクロホンアレイを用 V、た空間フィルタリングを使用することが考えられる。マイクロホンアレイは、高品質な音声をもたらし、雑音の減少にかなりの優位性を持つ。

[0003] 最近、下記のような提案がなされている（文献 1： J. Bitzer, K.U. Simmer and K.-D.

Kammeyer, "Multi-Microphone Noise Reduction Techniques as Front-end Devices f or Speech Recognition, Speech Communication, vol. 34, pp. 3-12, 2001.参照)。この提案では、所望の音声信号と雑音信号の間の相関を無相関と仮定したとき、マルチチャンネル 'ウィナーフィルタは，広帯域の入力に対して出力の二乗誤差を最小とする最適解となることが示されている。そして、マルチチャンネル 'ウィナーフィルタは、更に、最小変位無歪応答 (MVDR : Minimum Variance Distortionless Response)ビーム成形器とそれに続くウィナー 'ポストフィルタに分解することができることが示されている。一般に、マルチチャンネル 'ウィナーフィルタは、 MVDRビーム成开器のみを用いた場合よりも高い SN比で出力を生成する。したがって、実用的な雑音環境においては，付カ卩的なポストフィルタリング力マイクロホンアレイの性能を向上させるのに必要となる。

[0004] 上記のポストフィルタリングに関して、さまざまなポストフィルタリング技術が提案され TV、o (文献 2： R. Zelinski, A micropnone array with adaptive post-filtering for nois e reduction in reverberant rooms, in Proc. IEEE Int. Conf. on Acoustic, Speech, Si gnal Processsing, vol. 5, pp. 25782581, 1988.、文献 3 : 1. A. McCowan and H. Bourla rd, Microphone Array Post-filter Based on Noise Field Coherence," IEEE Trans, o n Speech and Audio Processing, vol. 11, no. 6, pp. 709-716, 2003.、文献 4 : 1. Cohe n and B. Berdugo, "Microphone Array Post-filtering for Non-Stationary Noise Suppr ession, in Proc. IEEE Int. Conf. Acoustic Speech Signal Processing, pp. 901—904, May 2002.、及び文献 5 : 1. Cohen, "Multi-Channel Post-filtering in Non-Stationary Noise Environments, lEEE Trans. Signal Processing, Vol. 52, No. 5, pp. 1149—116 0, 2004.参照）。広く使用されている 1つのマルチチャンネル 'ポストフィルタ力最初に、ゼリンスキーによって提案されている。このポストフィルタ（以下、「ゼリンスキー'ポストフィルタ」と称する）は、異なるマイクロホン間における雑音が完全に無相関であるような雑音場を仮定している。しかし、この仮定は実際の環境では、特にマイクロホンが近接している場合や雑音間の相関が高い低周波数域では、めったに満たされることがない。

[0005] 高、相関を示す雑音を抑制するために、一般化されたサイドローブ除去器 (GSC) をゼリンスキー'ポストフィルタに結合することも提案されている（文献 6 : S. Fischer, K. D. Kammeyer, and K. U. Simmer, Adaptive Microphone Arrays for Speech Enhanc ement in Coherent and Incoherent Noise Fields, in Proc 3rd joint meeting of the A coustical Society of America and the Acoustical Society of Japan, Honolulu, Hawaii, 1996.参照）。しかしながら、 GSCとゼリンスキ一'ポストフィルタのいずれも低周波数領域での振る舞いが良くないと指摘されている。このため、高周波での低相関雑音成分を低減するためにゼリンスキー *ポストフィルタを適用し、低周波数での高相関雑音成分を低減するのにスペクトル減算を行うことが提案されている（文献 7 : J. Meyer and K. U. bimmer, Multi-channel speech enhancement in a car environment using Wie ner filtering and spectral subtraction, in Proc. IEEE Int. Conf. on Acoustic, Speech , Signal Processsing, Munich, Germany, pp. 21-24, 1997.参照）。しかしながら、この提案は、マルチチャンネル 'ゥイナ一'ポストフィルタの基本的な構成に矛盾すると共に、スペクトル減算を実行するのに音声アクティビティ検出器 (VAD)が必要になる。

[0006] 以下、マルチチャンネル 'ウイナ一'ポストフィルタについて説明し、解決すべき課題について説明する。その後、ゼリンスキー 'ポストフィルタとまた、その比較に使用するマックコゥワン.ポストフィルタについて説明する。

[0007] 雑音下の環境で M個のセンサを有するマイクロホンアレイの場合、 m番目の観測信号 X (t)は 2つの成分力もなつている。 1番目の信号は、所望の音源と m番目のセンサ m

間のインパルス応答で変換された所望の信号である。 2番目の信号は、付加的な雑音 n (t)である。これから、受信信号は、（1)式で与えられる。

m

X (t) = s(t) * a (t) + n (t)

m m m …（1)

ここで、 m= l、 2、 · · ·、 M、であり、 *は畳み込み演算子である。短時間フーリエ変換 (STFT)を適用すると、以下のように、時間周波数領域の観測された信号を表すことができる。

X(k,l) = S(k,l)A(k) + N(k,l)…（2)

ここで、 kが周波数インデックスであり、 1がフレームインデックスである。

[0008] X^T(k,l) = [X (k,l), X (k,l), · ··, X (k,l)]

1 2 M …（3)

A^T(k,l) = [A (k,l), A (k,l), · ··, A (k,l)] · ·· (4)

1 2 M

N^T(k,l) = [N (k,l), N (k,l), · ··, N (k,l)] · ·· (5)

1 2 M

ここでの目的は，観測された雑音を含む信号力も所望の信号を推定することである

。行列表現を使用すれば、推定出力信号 T(k,l)は、下記の式で与えられる。

[0009] T(k,l) = W^H(k,l)X(k,l) ... (6)

ここで、 W(k,l)が重み係数であり、上付き文字 Hが複素共役転置である。

[0010] 所望の信号とその推定の間の平均自乗誤差を最小にすることを要請すると、最適な重み係数が得られ、マルチチャンネル 'ウィナーフィルタが得られることになる。所望の信号と雑音信号が互、に無相関であると仮定すれば、さらにマルチチャンネル · ウィナーフィルタを MVDRビーム成形器とウイナ一'ポストフィルタとに分解することができる。

[数 1]

Φ , ）） ... ₍₇₎

A^H {^_n {k,l)A(k) Φ~ Κΐ)φ { ΐ)

[0011] (7)式において、第 1項が MVDRビーム成形器の項で、第 2項がウイナ一.ポストフィルタの項である。 MVDRビーム成形器は、所定の方向に対して所望の信号の無歪 MMSE推定を行う。ウィナー ·ポストフィルタでさらに残りの雑音を低減することにより、雑音低減能力を改良して、高 SN比を生成することができる。

[0012] MVDRビーム成开器としては、フロストのビーム成开器（文献 8： 0. L. Frost, "An a igonthm ror linearly constrained adaptive array processing, in Proc. ΙΆΕΕ, vol.り 0, pp. 926-935, 1972.参照）や一般化されたサイドローブキャンセラ（GSC)などのいくつかの適応型アルゴリズム、および拡散雑音場の仮定のもとで超指向型ビーム成形器などの!/ヽくつかの非適応型アルゴリズムが提案されてヽる。

[0013] 以下の議論では、一般性を失わなヽ範囲で、マイクロホンアレイが所望の信号方向に向力つて事前に配置されており、各マイクロホンの上の同じ所望の音声信号を処理するためにマルチチャンネル入力がスケーリングされていると仮定する。このとき、時間遅れ補償出力は次のようになる。

X (k,l) =S(k,l) + N (k,l) (m = 1 , 2, · · · , M)

m m …（8)

以下、ゼリンスキ一'ポストフィルタとマックコゥワン'ポストフィルタと呼ばれる 2個のポストフィルタに対して、簡単に説明する。

ゼリンスキー ·ポストフィルタは、推定された自己相関及び相互相関スペクトル密度を用いて，雑音が完全に無相関である雑音場にぉ、てウィナー ·フィルタの解決策を提供している。所望の信号と雑音信号が無相関であり、雑音は同一のパワー密度を持つが異なるマイクロホン間で無相関であれば、マルチチャンネル入力の自己及び相互相関スペクトル密度 φ xx (k,l)と φ xx (k,l))を単純ィ匕することができる。

φ XX (k,l) = φ ss(k,l) + φ nn(k,l)…（9)

χχ (k,l) = ss(k,l)…（10)

自己及び相互相関スペクトル密度の簡易的な表現 (式 (9)および (10))に基づいて、ゼリンスキー ·ポストフィルタを定式ィ匕することができる。

[数 2]

[0014] ここで、実数 ROと (すべてのセンサ対にわたっての）平均演算は、推定誤りに対してこのポストフィルタの頑健性を向上させるのに寄与する。自己及び相互相関スぺタトル密度はスケーリングされたマイクロホン信号で推定される。

[0015] しかし、実際には、各マイクロホンにおける雑音が無相関であるというゼリンスキー' ポストフィルタの基本的な仮定は実用的な環境ではめったに満たされていない。この事実を考慮して、マックコゥワンは、各マイクロホンにおける雑音が無相関であるという仮定を緩和し，各マイクロホンにおける雑音は同じパワースペクトル密度を持つとともにお互い関係しており，相関の大きさはコヒーレンス関数で与えられるという仮定を設けた.

そして、所望のスピーチ信号と雑音信号間は無相関であるという仮定と，緩和された雑音間の相関の仮定の下で，マルチチャンネルの自己及び相互相関スペクトル密度は後述する式によって与えられる。ここで、 r_{n n}(k,i)は、複素コヒーレンス関数 (式 (

17)に後述)である。

χχ (k,l)、 φ χχ (1ί,1)、および φ χχ (k,l)は下記のように簡素化することができる。

1 1 J J i j

φ χχ (k，l) = φ ss(k，l) + φ nn(k,l)… (12)

φ χχ (k

j j ，l) = φ ss(k，l) + φ nn(k,l)… (13)

χχ (k,l) = ss(k,l) + rnn(k,l) nn(k,l)

i j i j … (14)

そして、これらの表現に基づいて、ゥイナ一'ポストフィルタの分子項であるスピーチパワーのスペクトル密度 φ ss_(k,l)を表すことができる。

[数 3] ( ,/) - {Γ ( ，/) (AJ) _{+ i}i

_ x>xj 2 '」 ±Ι±ί ^Λ_ } 1 (15)

レ J)}

[0016] マックコゥワン 'ポストフィルタは、

[数 4]

[0017] で表すことができる。マックコゥワン'ポストフィルタはオフィスでのマルチチャンネル録音を使用することを前提としており，この環境においてゼリンスキー'ポストフィルタと比べて、改良された性能を達成するために提案されているが、予め想定されたコヒーレンス関数と実際のコヒーレンス関数との間に差が存在していると、性能は下がることが予想される。

発明の開示

[0018] 本発明は、拡散雑音場におけるハイブリッド構造を有する新規のポストフィルタを提供することを目的とする。

反響している部屋や車室内環境などのように、拡散雑音場が多くの実用的な雑音環境に対する合理的なモデルとして提案されている。拡散雑音場では、低周波雑音は高相関であり、高周波雑音は低相関である。これらの特性を考慮して、本発明では、高周波 (低相関である）雑音用のマルチチャンネル 'ウィナー ·ポストフィルタと低周波数 (高相関である)雑音用のシングルチャンネル ·ウィナー ·ポストフィルタを適用する。高周波では、異なるマイクロホン対で雑音の間の相関関係を十分に考慮'利用する修正ゼリンスキー 'ポストフィルタを採用する。低周波数では、判定指向型 SN比推定メカニズムによる、「ミュージカル雑音」をより低減させるシングルチャンネル'ゥイナ一'ポストフィルタを採用する。本発明に係るポストフィルタは、理論上、マルチチャンネル'ウィナー 'フィルタの基本的な構成に従っており、拡散雑音場における高相関雑音及び低相関雑音を効果的に減少することができる。

[0019] 本発明の局面に係るポストフィルタは、音声信号を入力する少なくとも 2つのマイク口ホン力なるマイクロホンアレイと、前記マイクロホンアレイ力入力された音声信号の成形を行うビーム成形器と、前記マイクロホンアレイカゝら入力された雑音を含む目的音を所定の周波数で少なくとも 2つの周波数帯域に分割する分割器と、前記マイク口ホン間で雑音が無相関である場合のフィルタゲインを推定する第 1のフィルタと、前記マイクロホンアレイ中の 1本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第 2のフィルタと、前記第 1のフィルタと前記第 2のフィルタ力の出力を加算する加算器と、前記加算器と前記ビーム成形器からの出力に基づ V、て雑音を低減する手段とを具備する。図面の簡単な説明

[図 1]周波数に対する完全な拡散雑音場の MSC関数を示す図である。

[図 2]本発明に係るポストフィルタのブロック図である。

[図 3]修正ゼリンスキ一 ·ポストフィルタの概略構成を示すブロック図である。

[図 4]シングルチャンネル.ウイナ一.ポストフィルタの概略構成を示すブロック図である。

[図 5]指向係数と周波数との関係を示す図である。

[図 6A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した SEGSNR の実験結果を示す図である。

[図 6B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した SEGSNR の実験結果を示す図である。

[図 7A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した NRの実験結果を示す図である。

[図 7B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した NRの実験結果を示す図である。

[図 8A]様々な SNRレベルにおける 2つの雑音状態で計算された平均した LSDの実験結果を示す図である。

[図 8B]様々な SNRレベルにおける 2つの雑音状態で計算された平均した LSDの実験結果を示す図である。

[図 9A]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9B]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9C]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9D]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9E]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」 t 、う日本文に対応する測定例を示す図である。

[図 9F]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9G]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

[図 9H]100kmZhのスピード下における車の環境における音声スペクトログラムの典型的な「どうぞよろしく」、う日本文に対応する測定例を示す図である。

発明を実施するための最良の形態

[0021] 図面を参照して本発明の実施の形態を説明する。下記の説明において、まず、モデル雑音場におけるコヒーレンス関数とその適用について説明する。そして、拡散雑音場におけるハイブリッドポストフィルタを説明し、最終的に、本発明に係るポストフィルタの利点を説明する。

[0022] 雑音場を特徴付けるために、以下の式で定義された複素コヒーレンス関数が広く使用されている。

[数 5]

Τ_χ ._χ .(k,l) = . ^{Xl Xj} ー（17)

X^{l Xj} 产⁰

[0023] ここで、 φ χ.^ Οί,Ι)が 2つの信号 xi(t)と xj(t)の間の相互相関スペクトル密度、 φ χχ (k ,1)と φ X X (k,l)は、それぞれ xi(t)と xj(t)の自己相関スペクトル密度である。別の重要な手段である振幅自乗相関（MSC : magnitude-squared coherence)関数は、雑音場を分析するのに本明細書で使用される MSC(k,l) = I Γχχ (k,l) I ²によって与えられる複素コヒーレンス関数の振幅の自乗として定義される。

[0024] 本明細書の基本的な仮定の 1つである拡散雑音場は、多くの実際の雑音環境に対する合理的なモデルとして示されて、る。拡散雑音場は以下の MSC関数によって特徴付けられる。

[数 6]

|2

sm(27ikd I c)

MSC(k) = (18)

Inkd ί c [0025] ここで、 dは隣接したマイクロホンの距離であり、 cは音速である。周波数に対する完全な拡散雑音場の MSC関数を図 1に示す。図 1から、下記のような拡散雑音場のいくつかの特性を容易に求めることができる。

1. MSC関数は、周波数に依存し、時間に依存しない関数である。

2.異なるマイクロホンにおける雑音は低周波数で高相関であり、高周波数で低相関である。

スペクトルを低相関部と高相関部に分割するために、 2つの領域を分ける遷移周波数 fは f =cZ (2d)で与えられる第 1の最小値として選ばれている。明らかに、音速 c t t

が定数であるとみなされるので、遷移周波数は単に 2個のマイクロホンの間の距離 d によって決定される。

[0026] 本発明に係るポストフィルタを定式ィ匕するために、下記のような仮定を行うものとする。

(1)所望の音声信号と雑音信号は各マイクロホンで無相関である。

(2)雑音のパワースペクトル密度は各マイクロホンで同じである。

(3)異なるマイクロホンにおける雑音は拡散雑音である。

実際は、仮定（1)は通常音声信号処理で使われ、そして、仮定 (2)と (3)は、多くの実際の雑音環境で実現することが確かめられている。

[0027] 以下の説明では、ポストフィルタの雑音低減性能を高めるためのハイブリッドポストフィルタについて説明する。ポストフィルタとして、高周波領域の修正ゼリンスキ一'ポストフィルタと低周波数領域のシングルチャンネル 'ゥイナ一'ポストフィルタを適用する。図 2は、本発明に係るポストフィルタのブロック図である。また、図 3は、修正ゼリンスキ一'ポストフィルタの概略構成を示すブロック図であり、図 4は、シングルチャンネル'ゥイナ一 ·ポストフィルタの概略構成を示すブロック図である。

[0028] 図 2に示すように、本発明に係るポストフィルタは、マイクロホンアレイ 10 (以下、単に「マイクロホン」とも称する）と、高速フーリエ変翻11と、時間整合器 12と、ビーム成形器 13と、周波数帯分割器 14と、修正ゼリンスキーフィルタゲイン推定器 20 (修正ゼリンスキ^ ~ ·ポストフィルタ）と、シングルチャンネル 'フィルタゲイン推定器 30と、カロ算器 40と、フィルタ 41と、遅延器 42と、逆高速フーリエ変翻 50とを備えている。 [0029] 図 3に示すように、修正ゼリンスキーフィルタゲイン推定器 20は、相互相関スぺタトル密度演算器 21と、平均化器 22と、自己相関スペクトル密度演算器 23と、平均化器 24と、除算器 25とを備えている。また、図 4に示すように、シングルチャンネル 'フィルタゲイン推定器 30は、平均化器 31と、雑音変位更新器 32と、ボステリオリ SNR演算器 33と、遅延器 34と、プリオリ SNR演算器 35と、 SAP演算器 36と、シングルチャンネル ·ウィナーフィルタ ·ゲイン推定器 37 (シングルチャンネル ·ウィナ^ ~ ·ポストフィルタ）とを備えている。

[0030] 上記のような構成において、各マイクロホン 10における雑音が互いに無相関であるという仮定に基づき、無相関の雑音場での音声とその推定の間の平均自乗誤差を最小にすることが必要である。上記のように、マルチチャンネル入力の自己及び相互相関スペクトル密度には、相関雑音成分が含まれる。従って、マルチチャンネル入力の自己及び相互相関スペクトル密度を推定するのに使用される雑音相関が小さければ、性能低下が抑えられると考えられる。

[0031] 図 1に示すように、拡散雑音場において、異なるマイクロホンの互いに無相関雑音成分は、遷移周波数 f以上の周波数にのみ存在する。マイクロホンの間の距離に応じて遷移周波数が決定しているので、異なった相互素子間隔を有するマイクロホンは異なった遷移周波数によって特徴付けられる。すなわち、異なった相互素子間隔を有する異なるマイクロホンでは、無相関雑音は異なった周波数領域で見られる。更に、ある周波数に対して、雑音は、限られたマイクロホンのみについて互いに無相関であり、一般にすベてのマイクロホンではそうではない。これにより、当該マイクロホン対上のマルチチャンネル入力の自己及び相互相関スペクトル密度を計算することによつて修正ゼリンスキー'ポストフィルタを得ることができる。具体的には、以下の通りである。

[0032] マイクロホンアレイのマイクロホン配置に従って、予め遷移周波数を決定しておく。

具体的には、距離 dで離間されたセンサ iと j (i、 j≤M)との間に相互素子間隔を有する Mセンサアレイを考慮すると、 M (M- l) Z2の遷移周波数を決定する M (M— 1) Z2のマイクロホン対を有している。このとき、遷移周波数は、それぞれ f = c/(2d ) で計算することができる。なお、この場合において、いくつかのマイクロホン対について相互素子間隔が同じであるので、遷移周波数も同じである。例えば、 M本のマイク口ホンが直線上に等間隔で並んでいる場合には、 M (M—1)Z2個のマイクロホンの中では、（M—1)の異なった相互素子間隔を持っているので、 f ^ f ²

t t、 · ' ·、ί ^Μ— ¹によ

t つて示される（M—l)個の異なる遷移周波数が決定できる。なお、一般性を失うこと力ければ、遷移周波数間の関係が、 f ¹く f ²く…く f ^M_1であるものとさらに仮定し

t t t

ても良い。なお、 M本のマイクロホンを等間隔に並べない、あるいは直線上に並べないのならば、 M (M— 1)Z2個のマイクロホン対すべてを異なる間隔で並べることも可能であり、この場合には、遷移周波数は M (M— 1)Z2個選べることになる。

[0033] マイクロホン 10から入力した例えば音声は、高速フーリエ変換器 11でフーリエ変換される。フーリエ変換後の信号は、時間整合器 12で、各マイクロホン 10間の同一音声に対する入力信号の時間のずれが補正される。なお、この場合において、高速フ一リエ変換器 11と時間整合器 12による処理は順序が逆であっても良い。

[0034] 次に、時間的整合が施された音声信号は周波数帯分割器 14に入力し、周波数帯分割器 14は、（M— 1)個の異なった遷移周波数 f ^ f ² …、； f ^M— ¹で全周波数帯を B

t t t o

、 B

1、 · · ·Β の M個のサブバンドに分割する。 M個のサブバンドのうち B M- l 1、 · · ·Β

Μ- の（Μ— 1)個のサブバンドは、修正ゼリンスキーフィルタゲイン推定器 20に入力する。また、時間的整合が施された音声信号は、ビーム成形器 13にも入力し、ビーム成形されてフィルタ 41に入力する。

[0035] 修正ゼリンスキーフィルタゲイン推定器 20に入力した（Μ— 1)個のサブバンドについて、相互相関スペクトル密度を相互相関スペクトル密度演算器 21で演算して、平均化器 22でその平均値を求める。なお、平均化器 22で平均化する場合、すべての入力に対してではなぐその帯域で雑音が無相関であるマイクロホン対での自己相関 (相互相関)スペクトル密度を選んで平均化する。また、自己相関スペクトル密度を自己相関スペクトル密度演算器 23で演算して、平均化器 24でその平均値を求める。なお、相互相関スペクトル密度演算器 21と自己スペクトル密度演算器 23における雑音信号のスペクトル密度は次のように求められる。

サブバンド B (l≤m≤M—l)の各周波数に対して、組 Ω πιのマイクロホン対における雑音が、非相関であると仮定する。この場合において、 χίχί (k,l)= ss(k,l)+ nn(k,l)… (19)

xixj (k,l)= ss(k,l)… (20)

により、マルチチャンネル入力の自己及び相互相関スペクトル密度が与えられ、これらのスペクトル密度から、所望のスピーチと雑音信号のスペクトル密度が推定できる。

[0036] そして、平均化器 22と 24で平均化された自動及び重なりスペクトル密度が、除算器 25で除算演算されて高周波数帯におけるフィルタゲイン (利得関数)が出力される。ここにおいて、ゼリンスキ^ ~ ·ポストフィルタでは、すべてのマイクロホン対での自己相関（相互相関)スペクトル密度を平均してフィルタのゲインを求めているため、雑音の相関が高い (仮定からはずれている）ところのデータも含まれてしまう。このため，結果としてフィルタゲインの推定が頑健ではなくなる。一方、修正ゼリンスキ一'ポストフィルタでは、雑音の相関が低ヽ (仮定からはずれてヽな、）データのみを選んで組 Ω mとして，その中で平均を行っているので。頑健性が高くなつている。ここで、修正ゼリンスキ一 ·ポストフィルタの利得関数は下記のように与えられる。

[数 7]

(21)

[0037] なお、上記の説明において、遷移周波数の決定は、マイクロホンアレイの配置のみに依存し、入力信号には依存しない。また、自己及び相互相関スペクトル密度の推定手順に含まれるマイクロホン対の選択力修正ゼリンスキー'ポストフィルタの計算コストの減少に寄与する。

[0038] 一方、各マイクロホン 10からのサブバンド Bは、シングルチャンネル 'フィルタゲイン

0

推定器 30に入力する。すべてのマイクロホン対における雑音が高相関であれば、修正ゼリンスキ一 ·ポストフィルタを用いたとしても，マルチチャンネル入力の自己および相互相関スペクトル密度から所望の音声信号の自己相関スペクトル密度を推定することができない。従って、低周波数では、ウィナー 'ポストフィルタを推定するためにシングル ·チャンネルの技術を採用すること〖こなる。 [0039] まず、シングルチャンネル 'フィルタゲイン推定器 30に入力したサブバンド Bは、平

0 均化器 31で、チャンネル間で平均化される。平均化されたサブバンド Bは、雑音変

0

位更新器 32とボステリオリ SNR演算器 33とに入力する。雑音変位更新器 32は、平均化器 31と SAP演算器 36からの信号に基づいて更新処理を行って、ボステリオリ S NR演算器 33と遅延器 34とに推定雑音スペクトルを出力する。ボステリオリ SNR演算器 33からプリオリ SNR演算器 35は、詳細は後述する各種演算を実行する。シングルチャンネル 'ウィナーフィルタ 'ゲイン推定器 37は、プリオリ SNR演算器 35からの信号に基づいて、低周波数帯におけるフィルタゲイン (利得関数)を出力する。

[0040] 上記のような構成にぉ、て、ウィナー ·ポストフィルタの利得関数は以下のように書き換えることができる。

[数 8] 、 _ E[| S(k,l) |²] SNR_priori (k,l) φ₈₈ Ι) + φ_ηη { Ι) E[| S(k,l) |²] + E[|N(k,l) |²] l + SNR_priori (k,l)

'•- (22) ここで、 E[]は、期待演算子、 S N R priori(k,l)は、

S N R p_riori(k,l) = E[| S (k,l)|2] I E[[N(k,l)|2] で定義されるアプリオリ S N Rである。

[0041] アプリオリ SNR演算器 35で演算されるアプリオリ SNR (SNR (k,l))の推定は、下 prion

記のような、判定指向性推定メカニズで更新される。

[数 9]

SNR _ost (k,l)- 1，0] … (23)

[0042] (23)式において、 α (0く αく 1)は忘却係数であり、 SNR (k,l)は、ポステリオリ S post

NR演算器 33で演算されるアポステリオリ SNRであり、 SNRpost(k,l) = |X(k,l)|² 1 E[| N(k,l)|²]で表される。これにより、上記のような判定指向性推定メカニズムは、「ミュージカル雑音」をかなり減少させる。 [0043] ここで、シングルチャンネル 'ゥイナ一'ポストフィルタの性能を向上させるために、きわめて重要な点は、雑音のパワーのスペクトル密度 E[|N(k,l)|²]を高精度で推定することである。この雑音のパワーのスペクトル密度は、下記のような柔決定ベースァプローチで実行される。

E[|N(k,l)|²] = E[|N(k,l)|²] + (l- ^ )E[|N(k,l)|²|X(k,l)]… (24)

(24)式において、 β (0< j8 < 1)は、雑音推定の更新率を制御する忘却係数である。

[0044] 音声の存在が不確定である状況では、（24)式の右辺における第 2項は式 (25)を用いて観測された信号のスペクトル密度として推定される.

E[|N(k,l)|²|X(k,l)] = q(k,l)|X_(k,l)|² + (l-q(k,l))E[|N(k,l-l)|²]… (25)

(25)式において、 q(k,l)がスピーチ不存在確率、 |X_(k,l)|²は、各センサにおける個々の雑音のスペクトル密度の平均である。なお、

[数 10]

| |X_(k,l)|² = -^-∑iX^,/)!²

[0045] である。このように、各センサにおける個々の雑音のスペクトル密度の平均を計算する理由は、 1個のセンサだけを考えると、推定誤りに起因する偏った測定を生じる可能性があるからである。複素ガウス統計値モデルを仮定し、ベイズの定理と、確率総和の定理を適用すると、下記の式によりスピーチ不存在確率が与えられる。

[数 11]

…（26)

[0046] (26)式において、 q'(k,l)は、アプリオリなスピーチ不存在確率であり，実験により適当な値を選択する。

上記のようにして求められた高周波数帯及び低周波数帯におけるフィルタゲイン（利得関数)を加算器 40で加算して、加算結果をフィルタ 41に出力する、フィルタ 41 は、ビーム成形器 13と加算器 40の出力力も高周波数帯及び低周波数帯における雑音を低減した信号を遅延器 42と逆高速フーリエ変翻50に出力する。逆高速フーリェ変翻50は、入力信号を逆フーリエ変換して、後段の例えば、音声認識装置などに出力する。また、遅延器 42に出力された信号は、シングルチャンネル 'フィルタゲイン推定器 30における利得関数の算出に使用される。

[0047] 本発明に係るポストフィルタは、理論上、マルチチャンネル *ゥイナ一 ·ポストフィルタの枠組みに従っており、まさにウィナー ·ポストフィルタといえる。低周波数領域において、（22)式で与えられたポストフィルタは、明らかにウィナーフィルタである。高周波領域では、修正ゼリンスキー 'ポストフィルタで推定されるのに使用される雑音力無相関であるので、マルチチャンネル入力の相互相関スペクトル密度力より正確なスピーチの自己スペクトル密度推定を提供する。従って、高周波領域に採用された修正ゼリンスキ^ ~ ·ポストフィルタはウィナ^ ~ ·ポストフィルタとみなせる。

[0048] 上記のように構成された本発明に係るポストフィルタ力最適なマイクロホンアレイ用ポストフィルタとして、より一般的な表現を提供していることは注目すべきである。完全に無相関の雑音場では、本発明に係るポストフィルタが、遷移周波数をゼロに設定するだけで、ゼリンスキー 'ポストフィルタになる。そして、完全に全雑音が相関を持つ雑音場では、本発明に係るポストフィルタの遷移周波数を最も高ヽ周波数に設定するだけで、シングルチャンネル'ゥイナ一'ポストフィルタになる。

[0049] 拡散雑音場における本発明に係るポストフィルタの有効性を確認するために、様々な車の雑音環境で、ゼリンスキ一'ポストフィルタ、マックコゥワン'ポストフィルタ、および単一のシングルチャンネル.ウィナ^ ~ ·ポストフィルタを含む他の従来のポストフィルタと比較した。ビーム成形器は、最初に、マルチチャンネル雑音信号に適用される。そして、ビーム成形器出力は本発明に係るポストフィルタによってさらに機能アップされる。性能は客観的および主観的な手段で評価される。

[0050] 実験の構成は以下のとおりである。

本発明に係るポストフィルタの性能を実際の車の環境で推定するために、 10cmの相互素子間隔を有する 3個のマイクロホン力なる等しい間隔をおいたリニアアレイを、車のサンバイザ上に取り付けた。アレイが約 50cmドライバ一力も離れ、ドライバーの正面になるようにした。

[0051] マルチチャンネル雑音録音は、車が 50kmZhと lOOkmZhの速度で高速道路を走行中に全てのチャンネルで同時に行った。雑音は、主にエンジン雑音や、空調雑音や、タイヤと道路の間の摩擦からの雑音力もなつている。 50個の日本文力も成るクリアな音声信号を ATRデータベース力取り出した。音声と雑音信号の両方を、最初に、 16ビットの精度で 12kHzに再抽出した。クリアな音声信号と実際のマルチチヤンネル車内雑音とを異なるグローバル SNRレベル（一 5、 20) dBで人工的に混合させることによりマルチチャンネル雑音信号を生成した。この生成手順には、以下の利点がある。

(1)理想的な時間遅れ補償が行われたことと見なせる。

(2)混入条件が明確に測定されるので、容易に客観的な手段を使用する性能推定を行うことができる。

[0052] 図 1に示された理論 sine関数と実際の雑音録音力計算された測定 MSC関数とを比較することによって、拡散雑音場の有効性を調査した。図 1から、瞬時的な変化は存在するが、その一方で、測定 MSC関数が理論 sine関数の傾向に追随していることがわかる。この値は、本発明に係るポストフィルタで使用される拡散雑音場の仮定を充たす。

[0053] ビーム成形フィルタは、拡散雑音場における MVDRビーム成形器の解決策である超指向性ビーム成形器で実現される。周波数 kに関する関数である超指向性ビーム成形器の利得関数は、

[数 12]

ΊΤ/ i ― _ ^ MVDR (k)A(k) ,つマ、

H ( k) ⁽²⁷⁾

[0054] であり、拡散雑音源に対してアレイの雑音低減能力を示す指向係数 (DI)は、

[数 13] 尋) (28)

[0055] で表され、この指向係数と周波数との関係を図 5に示す。図 5から明らかに、超指向性ビーム成形器は低周波数雑音成分を抑制するのに効果がないことがわ力る。

[0056] 本発明に係るポストフィルタを客観的に推定するために、セグメント SNR(SEGSN R)、雑音低減比（NR)、およびログスペクトル距離 (LSD)の下記の 3つの客観的な音声品質測定を使用した。

[0057] セグメント SNR(SEGSNR)は、雑音低減と音声強調アルゴリズムのために広く使用されている客観的な推定手段である。 SEGSNRは、クリアな音声のパワーと，雑音を含む音声に含まれる雑音信号または提案するアルゴリズムによって雑音を低減した信号に含まれる雑音信号の比率として定義され、以下のように与えられる。

[数 14]

SEGSNR (29)

[0058] ここで、 s0、 s_0は、テストされたアルゴリズムで処理された参照音声信号と雑音信号を抑圧した信号である。また、 Lと Kは信号のフレームの数とフレーム（STFTの長さと等し、）あたりのサンプルの数を表す。

[0059] 雑音低減比 (NR)は、提案したアルゴリズムの雑音低減性能を推定するのに使用されている。音声がないとき、 NRは雑音を含む入力のパワーと強調された信号のパヮ一の比率と定義され、以下の式で表される。

[数 15]

[0060] ここで、 Φは、音声がないフレームのセットを表し、 I Φ Iは濃度である。 X(k,l)と s_( k,l)は、それぞれ雑音信号と強調されたた音声信号 (enhanced signal)である。

[0061] ログスペクトル距離 (LSD)は、所望の音声信号のひずみを推定するのにしばしば使用される。 LSDは、クリアな音声の対数スペクトルと雑音信号のそれ又は提案したアルゴリズムによって強調された信号の対数スペクトルとの距離として定義され、以下のように与えられる。

[数 16]

「

LSD =—-∑ 1 £ ∑[10.1og₁₀S(A:,/)- 10.1og₁ (31)

| Ψ | /ΕΨΙ¾

[0062] ここで、 Ψは音声が存在するフレームの組を示しており、 | Ψ |はその基数である。

S(k,l)と S_(k,l)はそれぞれ参照クリア信号と強調された音声信号のスペクトルである。

[0063] 2つの雑音状態（50 km/hと 100 km/h)にお!/、て様々な SNRレベルで計算された平均 SEGSNRと NRの結果を、それぞれ図 6Aから図 7Bに示す。また、 LSDの結果を図 8に示す。実験結果の値はそれぞれの雑音状態のすべてのセンテンスにわたって平均された。性能はマイクロホン録音、ビーム成形器出力、および本発明に係るボストフィルタの出力のときに推定された。なお、図 6A、図 7A、及び図 8Aが 50kmZhでの走行時、図 6B、図 7B、及び図 8Bが lOOkmZhでの走行時である。また、図中の記号は、四角がビーム成形器の出力、ひし形がゼリンスキー'ポストフィルタの出力、プラスがマックコゥワン'ポストフィルタの出力、三角がシングルチャンネル ·ウィナ^ ~ · ポストフィルタの出力、丸が本発明に係るポストフィルタの出力を示し、図 8における X印が何も処理を加えて、な、録音されたままの信号の平均対数スペクトル距離 (L SD)である。

[0064] 図 6Aから図 7Bに示すように、ビーム成形器単独かつゼリンスキ一'ポストフィルタは、低周波雑音成分を抑制する際に十分な性能を示さず、 SEGSNR改良と雑音低減結果を提供しない。これは前述した説明を確認する結果を示している。雑音場の適切なコヒーレンス関数をパラメータとしたマックコゥワン ·ポストフィルタは SEGSNRをかなり改良する。しかし、すべての雑音状態において，ゼリンスキーおよびマックコゥワン'ポストフィルタと比べて、シングルチャンネル 'ウィナ^ ~ ·ポストフィルタはより高い SEGSNRと NRの改善を示している。そして、本発明に係るポストフィルタは、すべてのテスト条件にぉ、て，シングルチャンネルポストフィルタと同等の SEGSNRと NRを与え、最も高い性能を示している。 [0065] 図 8A及び図 8Bの LSDの結果に関して、ビーム成形器のみおよびゼリンスキ一'ポストフィルタは，フィルタを使わない場合に比べてすべての SN比にわたって LSDを減少させている.シングルチャネルウィナーポストフィルタは，低 SNRにおいて音声の歪みを低減しているが，高 SNRでは逆に歪みを増大させている.提案法とマックコゥヮン ·ポストフィルタは， SN比レベルの大部分で最も低!、LSDを示して!/、る。

[0066] 本発明に係るポストフィルタの主観的性能評価は、音声スペクトログラムを使用すること，および，非公式の試聴テストによって有効に行われた。 lOOkmZhのスピード下における車内環境での「どうぞよろしく」という日本文に対応する音声スぺクトロダラムの典型的な測定例を図 9Aから図 9Hに示す。図 9Aから図 9Cはそれぞれ第 1のマイク口ホンでのオリジナル 'クリーン音声信号と、第 1のマイクロホンでの雑音信号と、第 1のマイクロホンでの雑音信号（SNR= 10dB)を示している。図 9Dは、ビーム成形器の出力である.図 5に示すように低周波数において雑音抑圧に弱点があるため，大きな低周波雑音が存在する。また、図 9Eに示すゼリンスキー'ポストフィルタの出力は，低周波数領域における雑音の高相関特性のために低周波数において非常に限られた性能を提供することを示している。図 9Fは、マックコゥワン'ポストフィルタが低周波数領域においても雑音を抑圧するのを示している。しかし、想定したコヒーレンス関数と実際のコヒーレンス関数間の違により残存雑音が存在する。シングルチヤンネル'ウィナー ·ポストフィルタは図 9Gに示されるように音声ひずみをもたらす。図 9 Hは、本発明に係るポストフィルタであって、音声ひずみを付加することなしに拡散性雑音を抑圧することができることを示す。非公式の聴取テストでは，他のものと比べて本発明に係るポストフィルタの優越を立証した。

[0067] 上記のように、実用的な環境における本発明に係るポストフィルタの基本仮定 (拡散雑音場)がゼリンスキー *ポストフィルタ (無相関の雑音場)のものより合理的であるので、本発明に係るポストフィルタはゼリンスキ一'ポストフィルタより優れている。さらに、本発明に係るポストフィルタは低周波数の高相関雑音成分を減少させるのに成功している。

[0068] マックコゥワン.ポストフィルタは雑音場のコヒーレンス関数に基づいて決定される。

したがって、性能は仮定されたコヒーレンス関数の精度に大いに依存している。仮定と実際のコヒーレンス関数との違いは性能劣化をもたらす。しかしながら、本発明に係るハイブリッドポストフィルタは、相関及び無相関雑音を区別するために遷移周波数のみを利用しており，コヒーレンス関数の実際の瞬時値にかかわらず、コヒーレンス関数の間の誤りに起因する効果を軽減して！/、る。

[0069] 本発明に係るハイブリッドポストフィルタは全周波数帯で使用されるシングルチャンネル.ゥイナ一.ポストフィルタより優れている。雑音の特性の測定値に基づくシングルチャンネル ·ウィナー ·ポストフィルタは，柔決定機構が採用されても非定常雑音源にほとんど対応できない。しかしながら、自己及び相互相関スペクトル密度の推定に基づ、たマルチチャンネルの技術は、非定常雑音に対しても理論的に望ま、性能を提供する。本発明に係る修正ゼリンスキー'ポストフィルタは、高周波領域のそれぞれの分割周波数領域でこの性能を完全に提供する。

[0070] 上記のように、本発明では、拡散雑音場を仮定してマイクロホンアレイに対するボストフィルタを提案した。本発明に係るポストフィルタは高周波領域の修正ゼリンスキー · ポストフィルタと低周波数領域のシングルチャンネル ·ゥイナ一'ポストフィルタを結合して構成されている。

[0071] 本発明に係るポストフィルタには、他のアルゴリズムと比べて、以下の利点がある。

( 1)理論上、本発明に係るポストフィルタは、ゥイナ一'ポストフィルタであるので、マルチチャンネル 'ウィナ^ ~ ·ポストフィルタの枠組みに従う。

[0072] (2)実際に、本発明に係るポストフィルタは雑音を減少させて、様々な車の雑音環境にお、て他のアルゴリズムと比べて、所望のスピーチを推定する際に有効であった。

[0073] 本発明によれば、拡散雑音場における高相関雑音及び低相関雑音を効果的に減少、することができる。

[0074] 本発明は、上記各実施の形態に限ることなぐその他、実施段階ではその要旨を逸脱しない範囲で種々の変形を実施し得ることが可能である。さらに、上記各実施形態には、種々の段階の発明が含まれており、開示される複数の構成要件における適宜な対合せにより種々の発明が抽出され得る。

また、例えば各実施形態に示される全構成要件力も幾つ力の構成要件が削除されても、発明が解決しょうとする課題の欄で述べた課題が解決でき、発明の効果で述ベられている効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

本発明によれば、拡散雑音場における高相関雑音及び低相関雑音を効果的に減少、することができる。

Claims

請求の範囲

[1] 音声信号を入力する少なくとも 2つのマイクロホン力なるマイクロホンアレイと、

前記マイクロホンアレイ力入力された音声信号の成形を行うビーム成形器と、前記マイクロホンアレイ力入力された雑音を含む目的音を所定の周波数で少なくとも 2つの周波数帯域に分割する分割器と、

前記マイクロホン間で雑音が無相関である場合のフィルタゲインを推定する第 1のフィルタと、

前記マイクロホンアレイ中の 1本のマイクロホンあるいはマイクロホンアレイの平均信号のフィルタゲインを推定する第 2のフィルタと、

前記第 1のフィルタと前記第 2のフィルタ力の出力を加算する加算器と、前記加算器と前記ビーム成形器からの出力に基づ!、て雑音を低減する手段とを具備するポストフィルタ。

[2] 請求項 1に記載のポストフィルタにおいて、前記第 1のフィルタは、修正ゼリンスキー' ポストフィルタであり、前記第 2のフィルタはシングルチャンネル 'ウィナ^ ~ ·ポストフィルタである。

[3] 請求項 1又は請求項 2に記載のポストフィルタにおいて、

前記第 1のフィルタは、相互相関スペクトル密度と自己相関スペクトル密度との比を求めることによりフィルタゲインを推定し、

前記第 2のフィルタは、ポストフィルタの出力信号とアポステリオリ SNRとに基づいてアプリオリ SNRを演算し、アプリオリ SNRに基づ、てフィルタゲインを推定する。

[4] 請求項 1から請求項 3のいずれか 1項に記載のポストフィルタにおいて、前記分割器で分割する目的音の周波数は、前記マイクロホン間の距離に従って決定される。

[5] 請求項 4に記載のポストフィルタにおいて、前記第 1のフィルタは、分割された後の複数の周波数帯域において各周波数帯域で雑音が無相関となるマイクロホンペアを選択してフィルタゲインを推定する。