JP6134078B1

JP6134078B1 - ノイズ抑制

Info

Publication number: JP6134078B1
Application number: JP2016557303A
Authority: JP
Inventors: ピーテルヤンセ，コルネリス; スタイフェンブルフ，レオナルデュスコルネリスアントニウスファン; ケヒヒアン，パトリック
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2014-03-17
Filing date: 2015-03-02
Publication date: 2017-05-24
Anticipated expiration: 2035-03-02
Also published as: WO2015139938A3; WO2015139938A2; CN106068535B; TR201815883T4; EP3120355A2; JP2017516126A; US10026415B2; US20180122399A1; EP3120355B1; CN106068535A

Abstract

ノイズ抑制器が、第一および第二のマイクロフォン信号の周波数変換から第一および第二の周波数領域信号を生成する第一（４０１）および第二の変換器（４０３）を有する。利得ユニット（４０５、４０７、４０９）が、前記第一の周波数領域信号の絶対値時間周波数タイル値と前記第二の周波数領域信号の絶対値時間周波数タイル値についての差分指標に応答して時間周波数タイル利得を決定する。スケーラー（４１１）が前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって第三の周波数領域信号を生成する。結果として得られる信号は第三の変換器（４１３）によって時間領域に変換される。指定器（４０５、４０７、４１５）が、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定し、前記利得ユニット（４０９）は、時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応じて前記利得を決定する。

Description

本発明は、ノイズ抑制に関し、特に、排他的にではないが、二つのマイクロフォンから捕捉された信号に基づく非定常拡散ノイズの抑制に関する。

オーディオ、特に発話の捕捉はここ数十年でますます重要になった。実際、発話の捕捉は、遠隔通信、遠隔会議、ゲームなどを含む多様な用途のためにますます重要になった。しかしながら、多くのシナリオおよび用途における問題は、所望される発話源が典型的には環境における唯一のオーディオ源ではないということである。むしろ、典型的なオーディオ環境では、マイクロフォンによって捕捉される他の多くのオーディオ／ノイズ源がある。多くの発話捕捉アプリケーションに呈される枢要な問題の一つは、ノイズのある環境においてどのように発話を抽出するのが最善かという問題である。この問題に対処するために、ノイズ抑制のためのいくつかの異なるアプローチが提案されてきた。

発話向上における最も難しいタスクの一つは、非定常的な拡散ノイズの抑制である。拡散ノイズはたとえば、ノイズがあらゆる方向から到来する部屋における音響（ノイズ）音場である。典型的な例は、室内にわたって分布した多くのノイズ源があるたとえばカフェテリアやレストランにおける、いわゆる「ざわめき」ノイズ（"babble" noise［バブル・ノイズ］）である。

マイクロフォンまたはマイクロフォン・アレイを用いて室内の所望される話者を記録するとき、所望される発話は、背景ノイズに加えて捕捉される。所望される発話ができるだけ影響を受けない一方で背景ノイズが低減されるようマイクロフォン信号を修正しようとして、発話向上が使用されることができる。ノイズが拡散性のときは、一つの提案されたアプローチは、背景ノイズのスペクトル振幅を推定し、結果として得られる向上された信号のスペクトル振幅ができるだけ所望される発話信号のスペクトル振幅に似ているよう、スペクトル振幅を修正しようとすることである。このアプローチでは、捕捉された信号の位相は変更されない。

図１は、従来技術に基づくノイズ抑制システムの例を示している。この例では、入力信号が二つのマイクロフォンから受領される。一方のマイクロフォンは参照マイクロフォンであると考えられ、他方は所望されるオーディオ源を捕捉する、特に発話を捕捉する主マイクロフォンである。このように、参照マイクロフォン信号x(n)および主要マイクロフォン信号が受領される。これらの信号は変換器１０１、１０３において周波数領域に変換され、個々の時間周波数タイルにおける絶対値が絶対値ユニット１０５、１０７によって生成される。結果として得られる絶対値が利得を計算するためにユニット１０９に入力される。結果として得られる利得は乗算器１１１において主要信号の周波数領域値に乗算され、それにより周波数スペクトル補償された出力信号を生成し、それがもう一つの変換ユニット１１３において時間領域に変換される。

このアプローチは、周波数領域において最もよく考えることができる。まず、時間領域信号のたとえば重なり合うハニング窓掛けされたブロックの短時間フーリエ変換（STFT）を計算することによって、周波数領域信号が生成される。STFTは一般に、時間および周波数両方の関数であり、二つの引数t_kおよびω_lによって表わされる。ここで、t_k＝kBは離散時間であり、kはフレーム・インデックスであり、Bはフレーム・シフトであり、ω_l＝lω₀は（離散）周波数であり、lは周波数インデックスであり、ω₀は基本周波数間隔を表わす。

Z(t_k,ω_l)が向上されるべき（複素）マイクロフォン信号であるとする。これは所望される発話信号Z_s(t_k,ω_l)およびノイズ信号Z_n(t_k,ω_l)からなる：
Z(t_k,ω_l)＝Z_s(t_k,ω_l)＋Z_n(t_k,ω_l)
このマイクロフォン信号は後処理器に入力される。後処理器は、位相を不変のままにしつつ、入力信号のスペクトル振幅を修正することによってノイズ抑制を実行する。後処理器の動作は、利得関数によって記述できる。利得関数は、スペクトル振幅減算の場合、典型的には次の形をもつ：

ここで、|・|は絶対値演算である。出力信号は、
Q(t_k,ω_l)＝Z(t_k,ω_l)*G(t_k,ω_l)
として計算される。時間領域に変換し戻されたのち、もとの時間信号が窓掛けされて時間重複された（重複加算手順が実行された）ことを考慮に入れて、現在および前のフレームを組み合わせることによって時間領域信号が再構成される。

利得関数は次のように一般化できる：

＝1については、これは、スペクトル振幅減算のための利得関数を記述する。α＝2については、これはやはりしばしば使われるスペクトルパワーのための利得関数を記述する。以下の記述は、スペクトル振幅減算に焦点を当てるが、与えられる理屈は特にスペクトルパワー減算にも適用できることは理解されるであろう。

|Z_n(t_k,ω_l)|におけるノイズの振幅スペクトルは一般には未知である。よって、その代わりに推定値

〔＾付きの|Z_n(t_k,ω_l)|〕を使う必要がある。その推定値は常に正確とは限らないので、ノイズについての過剰減算因子γ_nが使用される（すなわち、ノイズが1より大きな因子でスケーリングされる）。しかしながら、これは

についての負の値につながることもあり、望ましくない。その理由により、利得関数は0またはある小さな正の値に制限される。

上記の利得関数について、これは次のような結果になる：

定常ノイズについては、|Z_n(t_k,ω_l)|は、無音の間の振幅スペクトル|Z(t_k,ω_l)|を測定し、平均することによって推定できる。

しかしながら、非定常ノイズについては、|Z_n(t_k,ω_l)|の推定値はそのようなアプローチからは導出できない。特性が時間とともに変化するからである。これは、正確な推定値が単一のマイクロフォン信号から生成されることを妨げる傾向がある。代わりに、|Z_n(t_k,ω_l)|を推定できるよう追加のマイクロフォンを使うことが提案されている。具体例として、室内に二つのマイクロフォンがあり、一方のマイクロフォンは所望される話者の近くに位置され（主要マイクロフォン）、他方のマイクロフォンは話者からさらに遠くにある（参照マイクロフォン）シナリオを考えることができる。このシナリオでは、主要マイクロフォンが所望される発話成分およびノイズ成分を含むと想定されることができ、参照マイクロフォン信号は発話を全く含まず、参照マイクロフォンの位置において記録されたノイズ信号のみを含むと想定されることができる。それらのマイクロフォン信号は、主要マイクロフォンおよび参照マイクロフォンについてそれぞれ：
Z(t_k,ω_l)＝Z_s(t_k,ω_l)＋Z_n(t_k,ω_l)
X(t_k,ω_l)＝X_n(t_k,ω_l)
によって表わせる。

マイクロフォン信号におけるノイズ成分を関係付けるために、いわゆるコヒーレンス項を次のようにして定義する。

ここで、E{・}は期待値演算子である。コヒーレンス項は、主要マイクロフォン信号におけるノイズ成分の振幅と参照マイクロフォン信号の振幅との間の平均相関の指標である。

C(t_k,ω_l)はマイクロフォンにおける瞬時オーディオに依存するのではなく、ノイズ音場の空間特性に依存するので、時間の関数としてのC(t_k,ω_l)の変動はZ_nおよびX_nの時間変動よりずっと少ない。

結果として、C(t_k,ω_l)は、zに発話が存在しない期間中に時間的に|Z_n(t_k,ω_l)|および|X_n(t_k,ω_l)|を平均することによって比較的正確に推定できる。そのようにするアプローチが特許文献１に開示されている。同文献は特に、C(t_k,ω_l)を決定するために明示的な発話検出が必要とされない方法を記載している。

定常ノイズの場合と同様に、二つのマイクロフォンについての利得関数についての式が次のように導出できる。

Xは発話を含まないので、Xの絶対値にコヒーレンス項C(t_k,ω_l)を乗算したものは、主要マイクロフォン信号におけるノイズ成分の推定値を与えるものと考えられる。結果として、上記で与えた式は、周波数領域信号をスケーリングすることによって、すなわち
Q(t_k,ω_l)＝Z(t_k,ω_l)*G(t_k,ω_l)
によって、（推定された）発話成分に対応するよう第一のマイクロフォン信号のスペクトルを整形するために使用できる。

しかしながら、記載されたアプローチは多くのシナリオにおいて有利な性能を提供しうるものの、いくつかのシナリオでは最適でない性能を与えることがある。特に、いくつかのシナリオでは、ノイズ抑制が最適ではないことがある。特に、拡散性のノイズについては、信号対雑音比（SNR）の改善は制限されることがあり、しばしばいわゆるSNR改善（SNRI）は実際上、6〜9dB程度に制限される。これは用途によっては受け入れ可能であることもあるが、多くのシナリオでは、有意なノイズ成分が残って知覚される発話品質を劣化させる結果となる傾向がある。さらに、他のノイズ抑制技法が使用できるものの、これらも最適でない傾向があり、たとえば複雑である、柔軟性に欠く、実際的でない、計算要求が高い、複雑なハードウェア（たとえば多数のマイクロフォン）を要求するおよび／または最適でないノイズ抑制を提供する傾向がある。

よって、改善されたノイズ抑制が有利であろう。特に、複雑さを低減する、柔軟性を増す、実装を容易にする、コストを低減する（たとえば多数のマイクロフォンを要求しない）、ノイズ抑制を改善するおよび／または性能を改善することを許容するノイズ抑制が有利であろう。

米国特許第7602926号米国特許第7146012号

よって、本発明は、単独でまたは任意の組み合わせにおいて上述した欠点の一つまたは複数を好ましくは緩和、軽減または解消しようとする。

本発明のある側面によれば、第一のマイクロフォン信号におけるノイズを抑制するためのノイズ抑制器が提供される。本ノイズ抑制器は：第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する第一の変換器であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、第一の変換器と；第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する第二の変換器であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、第二の変換器と；前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する利得ユニットと；前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成するためのスケーラーとを有する。本ノイズ抑制器はさらに、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する指定器を有しており、前記利得ユニットは、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイルの時間周波数タイル利得について、前記時間周波数タイルがノイズ・タイルとして指定されるときは、前記時間周波数タイルが発話タイルとして指定されるときよりも、低い利得値が決定されるよう、時間周波数タイル利得を決定するよう構成されている。

本発明は、多くの実施形態において、改善されたおよび／または容易にされたノイズ抑制を提供しうる。特に、本発明は、非定常なおよび／または拡散性のノイズの改善された抑制を許容しうる。増大した信号もしくは発話対雑音比がしばしば達成できる。特に、本アプローチは、実際上、潜在的なSNR改善に対する上限を増大させうる。実際、多くの実際的なシナリオにおいて、本発明は、ノイズ抑制された信号のSNRを約6〜8dBから20dB超に改善することを許容しうる。

本アプローチは、典型的には改善されたノイズ抑制を提供でき、特に、対応する発話抑制なしにノイズの改善された抑制を許容しうる。抑制された信号の改善された信号対雑音比がしばしば達成されうる。

利得ユニットは、少なくとも二つの時間周波数タイルについて異なる時間周波数タイル利得を別個に決定するよう構成される。多くの実施形態において、諸時間周波数タイルは時間周波数タイルの複数の集合に分割されてもよく、利得ユニットは、時間周波数タイルの各集合について独立しておよび／または別個に利得を決定するよう構成されていてもよい。多くの実施形態において、時間周波数タイルの一つの集合の諸時間周波数タイルについての利得は、時間周波数タイルのその集合に属する諸時間周波数タイル内の前記第一の周波数領域信号および前記第二の周波数領域信号のみの属性に依存してもよい。

利得ユニットは、時間周波数タイルについて、これが発話タイルとして指定されている場合には、これがノイズ・タイルとして指定されている場合とは異なる利得を決定しうる。利得ユニットは特に、時間周波数タイルについての利得を、該時間周波数タイルの前記指定に依存する関数を評価することによって、計算するよう構成されていてもよい。いくつかの実施形態では、利得ユニットは、時間周波数タイルについての利得を、該時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されている場合とは異なる関数を評価することによって、計算するよう構成されていてもよい。時間周波数タイル利得を決定することにおいて使われる関数、式、アルゴリズムおよび／またはパラメータは、時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されている場合とは異なっていてもよい。

時間周波数タイルは特に、一つの時間セグメント／フレームにおける周波数変換の一つのビンに対応してもよい。特に、前記第一および第二の変換器は、前記第一および第二の信号の連続する諸セグメントを変換するブロック処理を使ってもよい。時間周波数タイルは、一つのセグメント／フレーム内の変換ビンの集合（典型的には一つ）に対応してもよい。

発話またはノイズ（時間周波数）タイルとしての指定は、いくつかの実施形態では、各時間周波数タイルについて実行されてもよい。しかしながら、しばしば、指定は、一群の時間周波数タイルに適用されてもよい。特に、指定は、ある時間セグメントにおけるすべての時間周波数タイルに適用されてもよい。このように、いくつかの実施形態では、第一のマイクロフォン信号は、個々に周波数領域に変換される時間セグメント／フレームにセグメント分割されてもよく、時間周波数タイルの発話またはノイズ・タイルとしての指定は、一つのセグメント／フレームのすべての時間周波数タイルについて共通であってもよい。

いくつかの実施形態では、ノイズ抑制器はさらに、出力周波数領域信号の周波数から時間への変換から、出力信号を生成するための第三の変換器をさらに有していてもよい。他の実施形態では、出力周波数領域信号が直接使われてもよい。たとえば、発話認識または発話向上が周波数領域で実行されてもよく、よって時間領域への変換を必要とすることなく、出力周波数領域信号を直接使ってもよい。

本発明の任意的な特徴によれば、利得ユニットは、時間周波数タイルの時間周波数タイル利得についての利得値を、その時間周波数タイルの前記差分指標の関数として決定するよう構成されている。

これは、効率的なノイズ抑制および／または容易にされた実装を提供しうる。特に、多くの実施形態において、信号特性に効率的に適応し、それでいて高い計算負荷や極端に複雑な処理を必要とすることなく実装されうる、効率的なノイズ抑制につながりうる。

前記関数は、特に、前記差分指標の単調関数であってもよく、前記利得値は特に、前記差分値に比例していてもよい。

本発明の任意的な特徴によれば、前記第一の単調関数および前記第二の単調関数の少なくとも一方は、前記時間周波数タイルが発話タイルまたはノイズ・タイルのどちらとして指定されているかに依存する。

前記第一の単調関数および前記第二の単調関数の前記少なくとも一つは、時間周波数タイルについてのそれぞれ前記第一または第二の周波数領域信号の同じ絶対値の時間周波数タイル値について、時間周波数タイルが発話タイルとして指定されているときは、ノイズ・タイルとして指定されているときとは異なる出力値を提供する。

本発明の任意的な特徴によれば、前記第二の単調関数は、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存するスケール値を用いた、時間周波数タイルについての前記第二の周波数領域信号の絶対値時間周波数タイル値のスケーリングを含む。

本発明の任意的な特徴によれば、利得ユニットは、前記第二のマイクロフォン信号の振幅と前記第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を生成するよう構成されており、前記第一の単調関数および前記第二の単調関数の少なくとも一方は前記ノイズ・コヒーレンス推定値に依存する。

これは、効率的なノイズ抑制および／または容易にされた実装を提供しうる。ノイズ・コヒーレンス推定値は特に、発話がないときの、すなわち発話源が非アクティブであるときの、前記第一のマイクロフォン信号の振幅と前記第二のマイクロフォン信号の振幅との間の相関の推定値であってもよい。ノイズ・コヒーレンス推定値は、いくつかの実施形態では、前記第一および第二のマイクロフォン信号および／または前記第一および第二の周波数領域信号に基づいて決定されてもよい。いくつかの実施形態では、ノイズ相関推定値は、別個の較正または測定プロセスに基づいて生成されてもよい。

本発明の任意的な特徴によれば、前記第一の単調関数および前記第二の単調関数は、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号の間の振幅関係がノイズ・コヒーレンス推定値に対応し、かつ、時間周波数タイルがノイズ・タイルとして指定されている場合に、前記差分指標の期待値が負であるようなものである。

本発明の任意的な特徴によれば、利得ユニットは、前記第一の単調関数および前記第二の単調関数の少なくとも一方を、ノイズ・コヒーレンス推定値に対応する前記第一のマイクロフォン信号と前記第二のマイクロフォン信号の間の振幅関係についての前記差分指標の期待値が、ノイズ・タイルとして指定される時間周波数タイルについては、発話タイルとして指定される時間周波数タイルについてとは異なるよう変えるよう構成されている。

本発明の任意的な特徴によれば、発話タイルおよびノイズ・タイルとして指定されている時間周波数タイルについての利得差は：前記第一のマイクロフォン信号の信号レベル；前記第二のマイクロフォン信号の信号レベル；および前記第一のマイクロフォン信号についての信号対ノイズ推定値からなる群からの少なくとも一つの値に依存する。

本発明の任意的な特徴によれば、時間周波数タイルについての前記差分指標は、その時間周波数タイルがノイズ・タイルまたは発話タイルのどちらとして指定されているかに依存する。

これは、効率的なノイズ抑制および／または容易にされた実装を提供しうる。

本発明の任意的な特徴によれば、前記指定器は、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定することを、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値に対するノイズ・タイルについての前記差分指標に応答して生成される差の値に応答して、行なうよう構成されている。

これは、特に有利な指定を許容しうる。特に、同時に低減された複雑さを許容しつつ、信頼できる指定が達成されうる。特に、タイルの指定と利得決定の両方について、対応する、または典型的には同じ機能が使用されることを許容しうる。

多くの実施形態において、前記指定器は、前記差の値が閾値未満である場合に、時間周波数タイルをノイズ・タイルとして指定するよう構成される。

本発明の任意的な特徴によれば、前記指定器は、複数の時間周波数タイルにわたって差の値をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。

これは、多くのシナリオおよび用途において、時間周波数タイルの改善された指定を提供し、結果として改善されたノイズ抑制を提供する。

本発明の任意的な特徴によれば、利得ユニットは、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。

これは実質的に改善された性能を提供でき、典型的には、実質的に改善された信号対雑音比を許容しうる。本アプローチは、時間周波数タイルについて利得値にフィルタリングを適用することによってノイズ抑制を改善しうる。ここで、フィルタリングは周波数および時間両方のフィルタリングである。

本発明の任意的な特徴によれば、利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方をフィルタリングするよう構成される。フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。

これは実質的に改善された性能を提供でき、典型的には、実質的に改善された信号対雑音比を許容しうる。本アプローチは、時間周波数タイルについて信号値にフィルタリングを適用することによってノイズ抑制を改善しうる。ここで、フィルタリングは周波数および時間両方のフィルタリングである。

多くの実施形態において、利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値両方をフィルタリングするよう構成される。ここで、フィルタリングは時間および周波数両方において異なる時間周波数タイルを含む。

本発明の任意的な特徴によれば、本ノイズ抑制器はさらに、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号をマイクロフォン・アレイからの信号から生成するよう構成されたオーディオ・ビームフォーマーを有する。

これは、性能を改善でき、抑制された信号の改善された信号対雑音比を許容しうる。特に、本アプローチは、所望される源からの低減された寄与をもつ参照信号がアルゴリズムによって処理されて、改善された指定および／またはノイズ抑制を提供することを許容しうる。

本発明の任意的な特徴によれば、本ノイズ抑制器はさらに、前記第二のマイクロフォン信号と相関した前記第一のマイクロフォン信号の信号成分を、前記第一のマイクロフォン信号から打ち消すための適応打ち消し器を有する。

本発明の任意的な特徴によれば、前記差分指標は、前記第一の周波数領域信号の絶対値時間周波数タイル値の単調関数として与えられる第一の値と、前記第二の周波数領域信号の絶対値時間周波数タイル値の単調関数として与えられる第二の値との間の差として決定される。

本発明のある側面によれば、第一のマイクロフォン信号におけるノイズを抑制する方法であって：第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する段階であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、段階と；第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する段階であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、段階と；前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値についての差分指標に応答して時間周波数タイル利得を決定する段階と；前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成する段階とを含み、当該方法はさらに：前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する段階を含み、前記時間周波数タイル利得は、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、決定される、方法が提供される。

いくつかの実施形態では、本方法はさらに、前記出力周波数領域信号の周波数から時間への変換から、出力信号を生成する段階を含んでいてもよい。

本発明のこれらおよび他の側面、特徴および利点は、以下に記載される実施形態から明白となり、これを参照することで明快にされるであろう。

本発明の実施形態は、単に例として、図面を参照して記述される。
従来技術に基づくノイズ抑制器の例を示す図である。従来技術のノイズ抑制器についてのノイズ抑制性能の例を示す図である。従来技術のノイズ抑制器についてのノイズ抑制性能の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。時間領域から周波数領域への変換器の例を示す図である。周波数領域から時間領域への変換器の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器の要素の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器の要素の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。本発明のいくつかの実施形態に基づくノイズ抑制器構成の例を示す図である。

本願の発明者は、図１の従来技術のアプローチの性能は、非定常的な／拡散性のノイズについては最適でない性能を与えることを認識するとともに、非定常的な／拡散性のノイズについて図１のシステムによって経験される性能に対する制約を緩和または解消することができる具体的な概念を導入することによって改善が可能であることを認識するに至った。

具体的には、発明者は、拡散性のノイズについての図１のアプローチは、限られた信号対雑音比改善（SNRI）レンジをもつことを認識するに至った。具体的には、発明者は、先に記述したような従来の関数における過剰減算因子γ_nを増すとき、他の不都合な効果が導入されうること、特に発話の間の発話減衰の増大が帰結しうることを認識するに至った。

これは、理想的な球面等方的な拡散ノイズ場の特性を見ることによって理解できる。二つのマイクロフォンがそのような場において距離d離れて配置されて、それぞれマイクロフォン信号X₁(t_k,ω_l)およびX₂(t_k,ω_l)を提供するとき、波数k＝ω/c（cは音速）ならびにガウス分布しているX₁(t_k,ω_l)およびX₂(t_k,ω_l)の実部および虚部の分散σ²を用いて、次式が成り立つ。

X₁(t_k,ω_l)とX₂(t_k,ω_l)の間のコヒーレンス関数は次式によって与えられる。

このコヒーレンス関数から、より高い周波数および大きな距離についてはX₁(t_k,ω_l)およびX₂(t_k,ω_l)は無相関であることになる。たとえば距離が3メートルより大きければ、200Hzより上の周波数について、X₁(t_k,ω_l)およびX₂(t_k,ω_l)は実質的に無相関である。

これらの特性を使うと、C(t_k,ω_l)＝1となり、利得関数は次に帰着する。

二つの確率変数の差の平均は、平均の差に等しい：
E{d}＝0。

二つの確率信号の差の分散は、個々の分散の和に等しい：
var(d)＝(4−π)σ²。

dを0に制限する（すなわち、負の値は0にされる）と、dの分布は0のまわりに対称的なので、dのパワーはdの分散の値の半分である：
E{d²}＝(4−π)σ²/2。

ここで残差信号のパワーを入力信号のパワー（2σ²）と比べると、後処理器に起因する抑制について次が得られる：
A＝−10log₁₀(1−π/4)＝6.68dB。

このように、減衰は背景ノイズのみが存在する場合については、7dB未満という比較的低い値に制限される。

γ_nを増すことによってノイズ抑制を増すことを望み、制限された（bounded）変数
d_b＝MAX（(|Z(t_k,ω_l)|−γ_n|X(t_k,ω_l)|)，0）
を考えるとすると、後処理器の減衰について、
A＝−10log₁₀｛（γ_n/2）（−π＋(2/γ_n)＋2arctan(γ_n)）｝
を導出できる。

減衰は、過剰減算因子γ_nの関数であり、こうしていくつかの例示的な値は次のようになりうる。

見て取れるように、たとえば10dB以上のノイズ抑制に達するためには、大きな過剰減衰因子が必要とされる。

次に、残りの発話振幅に対するノイズ減算の影響を考えると、
|Z(t_k,ω_l)|≦|Z_s(t_k,ω_l)|＋|Z_n(t_k,ω_l)|
である。

よって、|Z(t_k,ω_l)|からのノイズ成分の減算は、1くらい小さなγ_nについてでさえ、容易に過剰減算につながる。

発話減衰を

と定義すると、v＞2について、発話減衰は約2dBである。より小さなv、特にv＜1については、ds＝|Z(t_k,ω_l)|−|X(t_k,ω_l)|の大きな分散のため、すべてのノイズが抑制されることにはならない。それらの値については、d_sは負になることがあり、ノイズのみの場合のように、それらの値はθ≧0となるようクリッピングされる。より大きなvについては、d_sは負にならず、0に制限することは性能に影響しない。

過剰減算因子γ_nを増大させるなら、発話減衰は図３に示されるように増大する。図３は図１に対応するが、それぞれγ_n＝1およびγ_n＝1.8についてE｛(|Z(t_k,ω_l)|−γ_n|X(t_k,ω_l)|)²｝が与えられて、所望される出力と比較されている。

v＞2については、4から5dBの範囲の発話歪みの増大が見られる。v＜2については、出力はγ_n＝1.8について増大する。これは、先に論じたように0に制限することによって防止できる。

γ_n＝1からγ_n＝1.8に移るときのノイズ抑制の4dBの利得は、2ないし3dB大きい発話減衰によって打ち消され、よってたった1ないし2dB程度のSNR改善につながる。これは拡散様ノイズ場について典型的である。全SNR改善は約12dBに限られる。

こうして、本アプローチは、改善されたSNRに、実際に効果的なノイズ抑制につながりうるが、この抑制はいまだ実際上は、10dBよりあまり大きくない比較的控えめなSNR改善に制約される。

図４は、本発明のいくつかの実施形態に基づくノイズ抑制器の例を示している。図４のノイズ抑制器は、図１のシステムで典型的に可能であるよりも、拡散性のノイズについて実質的に高いSNR改善を提供しうる。実際、シミュレーションおよび実際的な試験により、20〜30dBを超えるSNR改善が典型的に可能であることが示された。

ノイズ抑制器は、マイクロフォン（図示せず）から第一のマイクロフォン信号を受領する第一の変換器４０１を有する。第一のマイクロフォン信号は、従来技術において既知なように捕捉、フィルタリング、増幅などされうる。さらに、第一のマイクロフォン信号は、アナログ信号をサンプリングすることによって生成されたデジタル時間領域信号であってもよい。

第一の変換器４０１は、第一のマイクロフォン信号に周波数変換を適用することによって第一の周波数領域信号を生成するよう構成される。特に、第一のマイクロフォン信号は時間セグメント／区間に分割される。各時間セグメント／区間は、一群のサンプルを含み、それらはたとえばFFTによって一群の周波数領域サンプルに変換される。こうして、第一の周波数領域信号は周波数領域サンプルによって表わされ、各周波数領域サンプルは特定の時間区間および特定の周波数区間に対応する。そのような各周波数区間および時間区間は当分野において典型的には時間周波数タイルとして知られている。このように、第一の周波数領域信号は、複数の時間周波数タイルのそれぞれについての値によって、すなわち時間周波数タイル値によって、表わされる。

ノイズ抑制器はさらに、マイクロフォン（図示せず）から第二のマイクロフォン信号を受領する第二の変換器４０３を有する。第二のマイクロフォン信号は、従来技術において既知なように捕捉、フィルタリング、増幅などされうる。さらに、第二のマイクロフォン信号は、アナログ信号をサンプリングすることによって生成されたデジタル時間領域信号であってもよい。

第二の変換器４０３は、第二のマイクロフォン信号に周波数変換を適用することによって第二の周波数領域信号を生成するよう構成される。特に、第二のマイクロフォン信号は時間セグメント／区間に分割される。各時間セグメント／区間は、一群のサンプルを含み、それらはたとえばFFTによって一群の周波数領域サンプルに変換される。こうして、第二の周波数領域信号は、複数の時間周波数タイルのそれぞれについての値によって、すなわち時間周波数タイル値によって、表わされる。

第一および第二のマイクロフォン信号は以下ではそれぞれz(n)およびx(n)として参照され、第一および第二の周波数領域信号はベクトル

によって参照される。（各ベクトルは、所与の処理／変換時間セグメント／フレームについてのすべてのM個の周波数タイル値を含む。）
使用中、z(n)はノイズおよび発話を含むものと想定され、一方、x(n)はノイズのみを含むと想定される。さらに、z(n)およびx(n)のノイズ成分は無相関であると想定される。（これらの成分は時間的に無相関であると想定される。しかしながら、典型的には、平均振幅の間に関係があると想定され、この関係はコヒーレンス項によって表わされる。）
そのような想定は、第一のマイクロフォン（z(n)を捕捉するもの）が話者のすぐ近くに位置され、一方、第二のマイクロフォンが話者からいくらかの距離に位置され、ノイズがたとえば室内に分散しているシナリオでは有効である傾向がある。そのようなシナリオは、図５に例示されており、そこではノイズ抑制器はSUPPユニットとして描かれている。

周波数領域への変換に続いて、時間周波数値の実成分および虚成分がガウス分布していると想定される。この想定は、たとえばノイズが拡散性の音場から発するシナリオについて、センサー・ノイズについておよび多くの実際上のシナリオにおいて経験されるいくつかの他のノイズ源については、典型的には正確である。

図６は、第一および第二の変換ユニット４０１、４０３の可能な実装の機能要素の具体例を示している。この例では、シリアルからパラレルへの変換器が2B個のサンプルの重なり合うブロック（フレーム）を生成し、それらのブロックが次いでハニング窓掛けされ、高速フーリエ変換（FFT）によって周波数領域に変換される。

第一の変換器４０１は、第一の絶対値ユニット４０５に結合される。第一の絶対値ユニット４０５は時間周波数タイル値の絶対値を決定し、それにより第一の周波数領域信号について絶対値時間周波数タイル値を生成する。

同様に、第二の変換器４０３は、第二の絶対値ユニット４０７に結合される。第二の絶対値ユニット４０７は時間周波数タイル値の絶対値を決定し、それにより第二の周波数領域信号について絶対値時間周波数タイル値を生成する。

第一および第二の絶対値ユニット４０５、４０７は利得ユニット４０９にフィードされる。利得ユニット４０９は、第一の周波数領域信号の絶対値時間周波数タイル値および第二の周波数領域信号の絶対値時間周波数タイル値に基づいて時間周波数タイルについての利得を決定するよう構成されている。利得ユニット４０９はこのようにして、以下でベクトル

によって参照される時間周波数タイル利得を計算する。

利得ユニット４０９は具体的には、第一の周波数領域信号の時間周波数タイル値と、第二の周波数領域信号の時間周波数タイル値から生成された第一の周波数領域信号の予測された時間周波数タイル値との間の差を示す差分指標を決定する。このように、差分指標は予測差分指標であってもよい。いくつかの実施形態では、予測は単に、第二の周波数領域信号の時間周波数タイル値が、第一の周波数領域信号の時間周波数タイル値の直接的な予測であるというものであってもよい。

次いで、利得が、差分指標の関数として決定される。具体的には、各時間周波数タイルについて差分指標が決定されてもよく、利得は、差分指標が高いほど（すなわち差の指示が強いほど）利得が高いように設定されてもよい。こうして、利得は、距離指標の単調増加関数として決定されてもよい。

結果として、時間周波数タイル利得が決定されるが、利得は、差分指標が比較的低い時間周波数タイルについて、すなわち第一の周波数領域信号の値が第二の周波数領域信号の値から比較的正確に予測できる時間周波数タイルについては、差分指標が比較的低い時間周波数タイルについて、すなわち第一の周波数領域信号の値が第二の周波数領域信号の値から効果的に予測できない時間周波数タイルについてより、低い。よって、第一の周波数領域信号が有意な発話成分を含んでいる高い確率がある時間周波数タイルについての利得は、第一の周波数領域信号が有意な発話成分を含んでいる低い確率がある時間周波数タイルについての利得よりも高く決定される。生成された時間周波数タイル利得は今の例ではスカラー値である。

利得ユニット４０９は、スケーラー４１１に結合されており、スケーラー４１１は前記利得を入力され、第一の周波数領域信号の時間周波数タイル値を、これらの時間周波数タイル利得だけスケーリングすることに進む。特に、スケーラー４１１では、信号ベクトル

は利得ベクトル

を要素ごとに乗算されて、結果的な信号ベクトル

を与える。

スケーラー４１１はこうして、出力周波数領域信号とも称される第三の周波数領域信号を生成する。これは第一の周波数領域信号に対応するが、期待される発話成分に対応するスペクトル整形をもつ。利得値はスカラー値なので、第一の周波数領域信号の個々の時間周波数タイル値は振幅においてスケーリングされうるが、第三の周波数領域信号の時間周波数タイル値は第一の周波数領域信号の対応する値と同じ位相をもつ。

利得ユニット４０９は、第三の周波数領域信号を入力される任意的な第三の変換器４１３に結合される。第三の変換器４１３は、第三の周波数領域信号の周波数から時間への変換から出力信号を生成するよう構成される。具体的には、第三の変換器４１３は、第一の変換器４０１による第一の周波数領域信号の変換の逆変換を実行してもよい。いくつかの実施形態では、第三の（出力）周波数領域信号は、たとえば周波数領域の発話認識や発話向上によって、直接使用されてもよい。そのような実施形態では、第三の変換器４１３の必要はない。

具体的には、図７に示されるように、第三の周波数領域信号

は時間領域に変換し戻されてもよく、次いで、第一の変換器４０１による第一のマイクロフォン信号の重複および窓掛けのため、現在の（最新の）フレーム（変換セグメント）の最初のB個のサンプルに直前のフレームの最後のB個のサンプルを加えることによって、時間領域信号が再構成されてもよい。最後に、結果として得られるブロック

が、パラレルからシリアルへの変換器によって、連続的な出力信号ストリームq(n)に変換されることができる。

しかしながら、図４のノイズ抑制器は、時間周波数タイル利得の計算を、差分指標のみに基づいて行なうのではない。むしろ、ノイズ抑制器は、時間周波数タイルを発話（時間周波数）タイルであるまたはノイズ（時間周波数タイル）であるとして指定し、前記利得を、前記指定の指定に依存して決定するよう構成されている。具体的には、所与の時間周波数タイルについての利得を差分指標の関数として決定するための関数が、時間周波数タイルが発話フレームに属すると指定されている場合には、ノイズ・フレームに属すると指定されている場合とは異なる。

図４のノイズ抑制器は特に、第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定するよう構成されている指定器４１５を有する。

信号成分が発話に対応するか否かを判定するために多くの異なる手法および技法が存在することは理解されるであろう。さらに、そのようないかなる手法が適切であるとして使われてもよいことは理解されるであろう。たとえば、ある信号部分に属する時間周波数タイルは、その信号部分が発話成分を含むと推定される場合に発話時間周波数タイルとして指定され、そうでない場合にノイズとして指定されてもよい。

このように、多くの実施形態において、時間周波数タイルの指定は発話および非発話タイルへの指定である。実際、ノイズ・タイルは、非発話タイルと等価と考えられてもよい（実際、所望される信号成分は発話成分なので、すべての非発話はノイズであると考えることができる）。

多くの実施形態において、時間周波数タイルの発話またはノイズ（時間周波数）タイルとしての指定は、第一および第二のマイクロフォン信号の比較および／または第一および第二の周波数領域信号の比較に基づいていてもよい。特に、信号の振幅間の相関が緊密であるほど、第一のマイクロフォン信号が有意な発話成分を含む可能性が少なくなる。

時間周波数タイルの発話またはノイズ・タイル（ここで、各カテゴリーはいくつかの実施形態では、サブカテゴリーへのさらなる細分を含んでいてもよい）としての指定は、いくつかの実施形態では、各時間周波数タイルについて個々に実行されてもよいが、多くの実施形態では、時間周波数タイルのグループにおいて実行されてもよい。

特に、図４の例では、指定器４１５は、各時間セグメント／変換ブロックについて一つの指定を生成するよう構成されている。こうして、各時間セグメントについて、第一のマイクロフォン信号が有意な発話成分を含むか否かが推定されてもよい。もし含んでいれば、その時間セグメントのすべての時間周波数タイルが発話時間周波数タイルとして指定され、含んでいなければ、ノイズ時間周波数タイルとして指定される。

図４の具体例では、指定器４１５は第一および第二の絶対値ユニット４０５、４０７に結合され、第一および第二の周波数領域信号の絶対値に基づいて時間周波数タイルを指定するよう構成される。しかしながら、多くの実施形態では、指定は代替的または追加的にたとえば第一および第二のマイクロフォン信号および／または第一および第二の周波数領域信号に基づいていてもよいことは理解されるであろう。

指定器４１５は、利得ユニット４０９に結合される。利得ユニット４０９は、時間周波数タイルの指定を入力される。すなわち、利得ユニット４０９は、どの時間周波数タイルが発話タイルとして指定されており、どの時間周波数タイルがノイズ・タイルとして指定されているかについての情報を受領する。

利得ユニット４０９は、第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイル利得を計算するよう構成される。

こうして、利得計算は前記指定に依存し、結果として得られる利得は、発話タイルとして指定された時間周波数タイルについては、ノイズ・タイルとして指定された時間周波数タイルについてとは異なる。この差または依存性は、たとえば、利得ユニット４０９が差分指標から利得値を計算するための二つの代替的なアルゴリズムもしくは関数をもち、前記指定に基づいて時間周波数タイルについてこれら二つの関数の間で選択するよう構成されていることによって、利得ユニット４０９によって実装されてもよい。代替的または追加的に、利得ユニット４０９は、単一の関数について異なるパラメータ値を使い、該パラメータ値が前記指定に依存するのでもよい。

利得ユニット４０９は、対応する時間周波数タイルがノイズ・タイルとして指定されるときは、発話タイルとして指定されるときよりも、時間周波数タイル利得について低い利得値を決定するよう構成される。こうして、利得を決定するために使われる他のすべてのパラメータが不変であれば、利得ユニット４０９は、発話タイルについてよりもノイズ・タイルについて、より低い利得値を計算する。

図４の具体例では、指定はセグメント／フレーム・ベースである。すなわち、同じ指定が時間セグメント／フレームのすべての時間周波数タイルに適用される。よって、十分な発話を含むと推定される時間セグメント／フレームについての利得は、十分な発話を含まないと推定される時間セグメントについてよりも高く設定される（他のすべてのパラメータが等しいとして）。

多くの実施形態において、ある時間周波数タイルについての差の値は、時間周波数タイルがノイズ・タイルまたは発話タイルのどちらとして指定されるかに依存してもよい。こうして、いくつかの実施形態では、同じ関数が差分指標から利得を計算するために使用されてもよいが、差分指標の計算自身が時間周波数タイルの指定に依存してもよい。

多くの実施形態において、差分指標は、第一および第二の周波数領域信号それぞれの絶対値時間周波数タイル値の関数として決定されてもよい。

実際、多くの実施形態において、差分指標は、第一および第二の値の間の差として決定されてもよい。ここで、第一の値は第一の周波数領域信号の少なくとも一つの時間周波数タイル値の関数として生成され、第二の値は第二の周波数領域信号の少なくとも一つの時間周波数タイル値の関数として生成される。しかしながら、第一の値は、第二の周波数領域信号の前記少なくとも一つの時間周波数タイル値に依存しなくてもよく、第二の値は、第一の周波数領域信号の前記少なくとも一つの時間周波数タイル値に依存しなくてもよい。

第一の時間周波数タイルについての第一の値は特に、第一の時間周波数タイルにおける第一の周波数領域信号の絶対値時間周波数タイル値の単調増加関数として生成されてもよい。同様に、第一の時間周波数タイルについての第二の値は特に、第二の時間周波数タイルにおける第二の周波数領域信号の絶対値時間周波数タイル値の単調増加関数として生成されてもよい。

第一および第二の値を計算するための関数の少なくとも一つは、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存してもよい。たとえば、第一の値は、時間周波数タイルが発話タイルである場合には、ノイズ・タイルである場合よりも高くてもよい。代替的または追加的に、第二の値は、時間周波数タイルが発話タイルである場合には、ノイズ・タイルである場合よりも低くてもよい。

利得関数を計算するための関数の具体例は、特に次の関数であってもよい。

ここで、αは1より小さい因子であり、C(t_k,ω_l)は、第一の周波数領域信号の振幅と第二の周波数領域信号の振幅との間の相関を表わす推定されたコヒーレンス項であり、過剰減算因子γ_nは設計パラメータである。いくつかの用途については、C(t_k,ω_l)は1として近似できる。過剰減算因子γ_nは典型的には1ないし2の範囲内である。

典型的には、利得関数は正の値に制限され、典型的には最小利得値が設定される。こうして、上記の関数は

として決定されてもよい。

これにより、ノイズ抑制の最大減衰は、0以上でなければならないθによって設定されることができる。たとえば最小利得値がθ＝0.1に設定される場合、最大減衰は20dBである。制限されない利得関数はより低いであろう（実際上は30から40dBの間）から、この結果、より自然に聞こえる背景ノイズが得られる。これは、通信用途について特に高く評価される。

今の例では、利得はこうして、差分指標である分子の関数として決定される。さらに、差分指標は、二つの項（値）の間の差として決定される。第一の項／値は第一の周波数領域信号の時間周波数タイル値の絶対値の関数である。第二の項／値は第二の周波数領域信号の時間周波数タイル値の絶対値の関数である。さらに、第二の値を計算するための関数はさらに、時間周波数タイルがノイズまたは発話時間周波数タイルのどちらとして指定されるかに依存する（すなわち、時間周波数タイルがノイズまたは発話フレームのどちらの一部であるかに依存する）。

今の例では、利得ユニット４０９は、第二のマイクロフォン信号の振幅と第一のマイクロフォン信号の振幅との間の相関を示すノイズ・コヒーレンス推定値C(t_k,ω_l)を決定するよう構成される。第二の値（または場合によっては第一の値）を決定するための関数は、この場合、ノイズ・コヒーレンス推定値に依存する。これにより、適切な利得値のより適切な決定ができる。第二の値が第一の周波数領域信号において期待されるまたは推定されるノイズ成分をより正確に反映するからである。

ノイズ・コヒーレンス推定値C(t_k,ω_l)を決定するためのいかなる好適な手法が使われてもよいことは理解されるであろう。たとえば、実行されうるある計算では、話者が話さないよう指示されて、第一および第二の周波数領域信号が比較され、各時間周波数タイルについてのノイズ相関推定値C(t_k,ω_l)は単に、第一の周波数領域信号および第二の周波数領域信号の時間周波数タイル値の比の平均として決定されてもよい。

多くの実施形態では、時間周波数タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかへの利得の依存性は、一定値ではなく、それ自身、一つまたは複数のパラメータに依存する。たとえば、因子αはいくつかの実施形態では一定ではなくてもよく、むしろ受信信号の特性（直接的な特性であれ派生的な特性であれ）の関数であってもよい。

特に、利得差は、第一のマイクロフォン信号の信号レベル；第二のマイクロフォン信号の信号レベル；および第一のマイクロフォン信号についての信号対ノイズ推定値のうちの少なくとも一つに依存してもよい。これらの値は、複数の時間周波数タイルにわたる、特に複数の周波数値および複数のセグメントにわたる平均値であってもよい。これらは特に、全体としての信号についての（比較的長期の）指標であってもよい。

いくつかの実施形態では、因子αは
α＝f(−v²／2σ²)
として与えられてもよい。ここで、vは第一のマイクロフォン信号の振幅であり、σ²は第二のマイクロフォン信号のエネルギー／分散である。こうして、この例では、αは第一のマイクロフォン信号についての信号対雑音比に依存する。これは、改善された知覚されるノイズ抑制を提供しうる。特に、低い信号対雑音比について、強いノイズ抑制が実行され、それにより結果として得られる信号の例えば了解性を改善する。しかしながら、より高い信号対雑音比については、効果は低減され、それにより歪みを低減する。

このように、関数f(−v²／2σ²)は、発話信号についての利得の計算を適応させるために決定され、使用されることができる。関数は(−v²／2σ²)に依存するが、これはSNR、すなわちノイズ・エネルギー2σ²に対する発話信号のエネルギーv²に対応する。

第一および第二のマイクロフォン信号の絶対値の間の差と、発話またはノイズとしてのタイルの指定とに基づいて利得を決定するための種々の関数および手法が種々の実施形態において使用されうることは理解されるであろう。

実際、先述した個別的な手法は多くの実施形態において特に有利な性能を提供しうる一方、他の実施形態では、用途の特定の特性に依存して他の多くの関数および手法が使用されてもよい。

差分指標は：
d(t_k,ω_l)＝f₁(|Z(t_k,ω_l)|)−f₂(|X(t_k,ω_l)|)
として計算されてもよい。ここで、f₁(x)およびf₂(x)は、個々の実施形態の個別的な選好および要求に適合する任意の単調関数であるよう選択されることができる。典型的には、関数f₁(x)およびf₂(x)は単調増加関数である。

こうして、差分指標は、第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数f₁(x)と第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数f₁(x)との間の差を示す。いくつかの実施形態では、第一および第二の単調関数は同一の関数であってもよい。しかしながら、たいていの実施形態では、二つの関数は異なる。

さらに、関数f₁(x)およびf₂(x)の一方または両方は、たとえばマイクロフォン信号の全体的な平均されたパワー・レベル、周波数など、さまざまな他のパラメータおよび指標に依存してもよい。

差分指標を決定するための可能な関数の例は、たとえば：
d(t_k,ω_l)＝|Z(t_k,ω_l)|^α−γ・|X(t_k,ω_l)|^β
を含む。ここで、αおよびβは設計パラメータであり、典型的には次のようにα＝βである。

ここで、σ(ω_l)はノイズ抑制の所望されるスペクトル特性を与えるために使われる好適な重み付け関数である。（たとえば、これは、たとえば比較的多量のノイズ・エネルギーを含むが比較的少量の発話エネルギーを含む可能性が高いより高い周波数についてはノイズ抑制を増大させ、比較的多量の発話エネルギーを含むが可能性としては比較的少量のノイズ・エネルギーを含む可能性が高い中域周波数についてのノイズ抑制を低減するために使われてもよい。）特に、σ(ω_l)は、発話のスペクトル整形を低レベルに保ちつつ、ノイズ抑制の所望されるスペクトル特性を提供するために使われてもよい。

これらの関数が単に例示的であり、二つのマイクロフォン信号の絶対値の間の差を示す距離指標を計算するための多くの他の式およびアルゴリズムが構想できることは理解されるであろう。

上記の式において、因子γは、負の値に向けて差分指標にバイアスをかけるために導入される因子を表わす。これらの具体例はこのバイアスを第二のマイクロフォン信号の時間周波数タイルに適用される単純なスケール因子として導入しているが、他の多くの手法が可能であることは理解されるであろう。

実際、少なくともノイズ・タイルについて負の値に向けたバイアスを提供するために第一および第二の関数f₁(x)およびf₂(x)を構成するいかなる好適な方法が使用されてもよい。バイアスは特に、先の諸例のように、発話がない場合に負である前記差分指標の期待値を生成するバイアスである。実際、第一および第二のマイクロフォン信号の両方がランダム・ノイズのみを含む場合（たとえば、サンプル値は平均値のまわりに対称的かつランダムに分布していてもよい）、差分指標の期待値は0ではなく負になる。先の具体例では、これは、発話がないときに負の値の結果につながる過剰減算因子γによって達成された。

発話が存在するときに第一および第二のマイクロフォン信号の信号レベルの差を補償するために、利得ユニットは、先述したように、第二のマイクロフォン信号の振幅と第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を決定してもよい。ノイズ・コヒーレンス推定値は、たとえば、第一のマイクロフォン信号と第二のマイクロフォン信号の振幅の間の比の推定値として生成されてもよい。ノイズ・コヒーレンス推定値は、個々の周波数帯域について決定されてもよく、特に、各時間周波数タイルについて決定されてもよい。二つのマイクロフォン信号の間の振幅／絶対値関係を推定するためのさまざまな技法が当業者に知られており、さらに詳細に述べることはしない。たとえば、異なる周波数帯域についての平均振幅推定値が、（たとえば専用の手動測定によりまたは発話ポーズの自動検出により）発話がない時間区間の間に、決定されてもよい。

本システムでは、第一および第二の単調関数f₁(x)およびf₂(x)の少なくとも一方は、振幅差を補償してもよい。先の例では、第二の単調関数が、第二のマイクロフォン信号の絶対値を値C(t_k,ω_l)によってスケーリングすることによって、振幅差を補償していた。他の実施形態では、補償は代替的または追加的に、第一の単調関数によって、たとえば第一のマイクロフォン信号の絶対値を1/C(t_k,ω_l)によってスケーリングすることによって実行されてもよい。

さらに、たいていの実施形態では、第一の単調関数および第二の単調関数は、第一のマイクロフォン信号と第二のマイクロフォン信号との間の振幅関係が推定された相関に対応する場合および時間周波数タイルがノイズ・タイルとして指定される場合に、差分指標についての負の期待値が生成されるようなものである。

具体的には、ノイズ・コヒーレンス推定値は、第一のマイクロフォン信号と第二のマイクロフォン信号との間の（特に特定の周波数帯域についての）推定されるまたは期待される絶対値差が、C(t_k,ω_l)によって与えられる比に対応することを示してもよい。そのような場合、第一の単調関数および第二の単調関数は、対応する時間周波数タイル値がC(t_k,ω_l)に等しい絶対値をもつ場合（そして時間周波数タイルがノイズ・タイルと指定される場合）、生成される差分指標が負になるように選択される。

たとえば、ノイズ・コヒーレンス推定値は

として決定されてもよい。（実際上、値は、たとえば異なる時間フレームにおける好適な数の値を平均することによって生成されてもよい。）
そのような場合、第一および第二の単調関数f₁(x)およびf₂(x)は

であれば、差分指標d(t_k,ω_l)が負の値をもつという属性をもつよう選択される。すなわち、第一および第二の単調関数f₁(x)およびf₂(x)は、ノイズ・タイルについて、

となるよう選択される。

先の具体例では、これは差分指標
d(t_k,ω_l)＝|Z(t_k,ω_l)|−γ_nC(t_k,ω_l)|X(t_k,ω_l)|
が1より大きい値をもつ過剰減算因子γ_nをもつことによって達成されていた。

この具体例では、f₁(x)＝xおよびf₂(x)＝γ_nC(t_k,ω_l)xであるが、無限の他の単調関数が存在し、代わりに使用されうることは理解されるであろう。さらに、この例では、第一および第二のマイクロフォン信号の間のノイズ・レベル差についての補償および負の差分指標値に向けてのバイアスは、第二の単調関数f₂(x)に補償因子を含めることによって達成される。しかしながら、他の実施形態では、これは代替的または追加的に、第一の単調関数f₁(x)に補償因子を含めることによって達成されてもよいことは理解されるであろう。

さらに、記載された手法では、利得は時間周波数タイルが発話またはノイズ・タイルのどちらとして指定されるかに依存する。多くの実施形態において、これは、差分指標が、時間周波数タイルが発話またはノイズ・タイルのどちらとして指定されるかに依存することによって達成されてもよい。

具体的には、利得ユニットは、時間周波数タイル絶対値が実際にノイズ・コヒーレンス推定値に対応する場合の差分指標の期待値が、時間周波数タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかに依存して異なるよう、第一の単調関数および第二の単調関数の少なくとも一方を変えるよう構成されていてもよい。

一例として、二つのマイクロフォン信号の間の相対的なノイズ・レベルが、ノイズ・コヒーレンス推定値に従って期待されるとおりであるときの差分指標についての期待値は、当該タイルがノイズ・タイルとして指定されている場合には負の値になりうるが、当該タイルが発話タイルとして指定されている場合には0でありうる。

多くの実施形態において、期待値は発話およびノイズ・タイルの両方について負であってもよいが、発話タイルについてよりもノイズ・タイルについてのほうがより大きく負である（すなわち、より大きさ／絶対値が大きい）。

あるいはまた、差分指標はこの例では、
d(t_k,ω_l)＝|Z(t_k,ω_l)|−γ(D(t_k,ω_l))・C(t_k,ω_l)|X(t_k,ω_l)|
と表わされてもよい。ここで、D(t_k,ω_l)は、タイルがノイズ・タイルであるか発話タイルであるかを示す値である。

完全のため、計算される差分指標が入力信号値の特定の値／属性について特定の属性をもつという要件は、使用される実際の関数についての客観的な基準を提供し、この基準はいかなる実際の信号値にも処理される実際の信号にも依存しないことを注意しておく。特に、

という要件は、使用される関数についての制限する基準を提供する。

差分指標に基づいて利得を決定するための多くの異なる関数および手法が使用されうることは理解されるであろう。位相反転および関連する劣化を避けるために、利得は一般に負でない値に制約される。多くの実施形態において、利得をある最小利得を下回らないよう制約する（それによりどの特定の周波数帯域／タイルも完全に減衰されないことを保証する）ことが有利でありうる。

たとえば、多くの実施形態において、利得は単に、たとえば
G(t_k,ω_l)＝MAX(φ・d(t_k,ω_l),θ)
のように、利得がある最小利得（これは具体的には利得が負でないことを保証するよう0であってもよい）より上に保たれることを保証しつつ、差分指標をスケーリングすることによって決定されてもよい。ここで、φは（たとえば試行錯誤によって決定される）特定の実施形態についての好適な選択されたスケール因子であり、θは負でない値である。

多くの実施形態では、利得は他のパラメータの関数であってもよい。たとえば、多くの実施形態では、利得は、第一および第二のマイクロフォン信号の少なくとも一方の属性に依存してもよい。特に、スケール因子は、差分指標を正規化するために使われてもよい。具体例として、利得は、

このように、利得計算は正規化を含んでいてもよい。

他の実施形態では、より複雑な関数が使われてもよい。たとえば、利得を差分指標の関数として決定するための非線形関数、たとえば
G(t_k,ω_l)＝MAX(δ・log d(t_k,ω_l),θ)
が使われてもよい。ここで、δは定数であってもよい。

一般に、利得は、差分指標の負でない関数：
G(t_k,ω_l)＝f₃(d(t_k,ω_l))
として決定されうる。

典型的には、利得は差分指標の単調関数として、特に単調増加関数として決定されうる。よって、典型的には、差分指標が第一および第二のマイクロフォン信号の間のより大きな差を示し、それにより時間周波数タイルが多量の発話（これは主として話者の近くに位置された第一のマイクロフォン信号によって捕捉される）を含む増大した確率を反映するときは、より高い利得が生じる。

差分指標を決定するためのアルゴリズムまたは関数と同様に、利得を決定するための関数はさらに、他のパラメータまたは特性に依存してもよい。実際、多くの実施形態において、利得関数は第一および第二のマイクロフォン信号の一方または両方の特性に依存してもよい。たとえば、先述したように、関数は第一のマイクロフォン信号の絶対値に基づく正規化を含んでいてもよい。

差分指標から利得を計算するための可能な関数の他の例は、

を含んでいてもよい。ここで、σ(ω_l)は好適な重み付け関数である。

時間周波数タイル値および発話もしくはノイズ・タイルとしての指定に依存して利得を決定するための厳密な手法は、特定の実施形態および用途のための所望される動作特性および性能を提供するために選択されてもよいことは理解されるであろう。

よって、利得は、
G(t_k,ω_l)＝f₄（α(t_k,ω_l),d(t_k,ω_l)）
として決定されてもよい。ここで、α(t_k,ω_l)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかを反映しており、f₄は第一および第二のマイクロフォン信号についての時間周波数タイル値の絶対値の間の差を反映する構成要素を含むいかなる好適な関数またはアルゴリズムであってもよい。

このように、時間周波数タイルについての利得値は、タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されるかに依存する。実際、ある時間周波数タイルについて、該時間周波数タイルがノイズ・タイルとして指定されるときには該時間周波数タイルが発話タイルとして指定されるときよりも低い利得値が決定されるよう、利得が決定される。

利得値は、まず差分指標を決定し、次いで該差分指標から利得値を決定することによって決定されてもよい。ノイズ／発話指定への依存性は、差分指標の決定に、差分指標からの利得の決定に、あるいは差分指標および利得両方の決定に含められてもよい。

このように、多くの実施形態において、差分指標は、時間周波数タイルがノイズ周波数タイルまたは発話周波数タイルのどちらとして指定されるかに依存してもよい。たとえば、上記の関数f₁(x)およびf₂(x)の一方または両方が、時間周波数タイルがノイズまたは発話のどちらとして指定されるかを示す値に依存してもよい。依存性は、（同じマイクロフォン信号値について）時間周波数タイルが発話タイルとして指定されるときは、ノイズ・タイルとして指定されるときよりも大きな差分指標が計算されるというものであってもよい。

たとえば、利得G(t_k,ω_l)の計算のために先に与えた具体例では、分子が差分指標と考えられてもよく、よって差分指標は、タイルが発話タイルとして指定されるかノイズ・タイルとして指定されるかに依存して異なる。

より一般には、差分指標は
d(t_k,ω_l)＝f₅（α(t_k,ω_l)，f₁(|Z(t_k,ω_l)|)−f₂(|X(t_k,ω_l)|)）
によって示されてもよい。ここで、α(t_k,ω_l)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかに依存し、f₅は、αがタイルが発話タイルであることを示すときはノイズ・タイルであるときよりも差分指標が大きくなるようαに依存する。

代替的または追加的に、差分指標から利得値を決定するための関数が発話／ノイズ指定に依存してもよい。具体的には、次の関数が使用されてもよい：
G(t_k,ω_l)＝f₆（d(t_k,ω_l),α(t_k,ω_l)）
ここで、α(t_k,ω_l)はタイルが発話タイルまたはノイズ・タイルのどちらとして指定されるかに依存し、f₆は、αがタイルが発話タイルであることを示すときはノイズ・タイルであるときよりも利得が大きくなるようαに依存する。先述したように、時間周波数タイルを発話タイルまたはノイズ・タイルとして指定するために、いかなる好適な手法が使われてもよい。しかしながら、いくつかの実施形態では、指定は、有利には、時間周波数タイルがノイズ・タイルであるとの想定のもとに差分指標を計算することによって決定される差の値に基づいていてもよい。こうして、ノイズ時間周波数タイルについての差分指標関数が計算できる。この差分指標が十分低ければ、そのことは第一の周波数領域信号の時間周波数タイル値が第二の周波数領域信号の時間周波数タイル値から予測可能であることを示す。これは、典型的には、第一の周波数領域信号が有意な発話成分を含まない場合に成り立つ。よって、いくつかの実施形態では、タイルは、ノイズ・タイル計算を使って計算された差分指標が閾値未満である場合にノイズ・タイルとして指定される。そうでない場合にはタイルは発話タイルとして指定される。

そのような手法の例が図８に示されている。図のように、図４の指定器４１５は、時間周波数タイルが実際にノイズ・タイルであると想定して距離指標を評価することによって時間周波数タイルについての差の値を計算する差分ユニット８０１を有していてもよい。結果として得られる差の値は、タイル指定器８０３に入力される。タイル指定器８０３は、距離の値が所与の閾値未満である場合にそのタイルをノイズ・タイルであるとして指定し、そうでない場合には発話タイルとして指定することに進む。

この手法は、発話またはノイズ・タイルとしてのタイルの非常に効率的かつ正確な検出および指定を提供する。さらに、利得を計算するための機能を指定器の一部として再利用することによって、容易にされた実装および動作が達成される。たとえば、ノイズ・タイルとして指定されるすべての時間周波数タイルについて、計算された差分指標は、利得を決定するために直接使用されることができる。差分指標の再計算は、発話タイルとして指定される時間周波数タイルについて、利得ユニット４０９によって必要とされるだけである。

いくつかの実施形態では、低域通過フィルタリング／平滑化（／平均）が、差の値に基づく指定に含められてもよい。フィルタリングは特に、周波数領域および時間領域の両方における異なる時間周波数タイルを横断してであってもよい。こうして、フィルタリングは、異なる（近隣の）時間セグメント／フレームに属する時間周波数タイルの差の値にわたるとともに前記時間セグメントの少なくとも一つにおける複数の時間周波数タイルにわたって実行されてもよい。発明者は、そのようなフィルタリングは、実質的な性能改善および実質的に改善された指定を提供でき、よって実質的に改善されたノイズ抑制を提供できることを認識するに至った。

いくつかの実施形態では、低域通過フィルタリング／平滑化（／平均）が利得計算に含められてもよい。フィルタリングは特に、周波数領域および時間領域の両方における異なる時間周波数タイルを横断してであってもよい。こうして、フィルタリングは、異なる（近隣の）時間セグメント／フレームに属する時間周波数タイル値にわたるとともに前記時間セグメントの少なくとも一つにおける複数の時間周波数タイルにわたって実行されてもよい。発明者は、そのようなフィルタリングは、実質的な性能改善および実質的に改善された知覚されるノイズ抑制を提供できることを認識するに至った。

平滑化（すなわち、低域通過フィルタリング）は特に、計算された利得値に適用されてもよい。代替的または追加的に、フィルタリングは、利得計算に先立って第一および第二の周波数領域信号に適用されてもよい。いくつかの実施形態では、フィルタリングは、利得計算のパラメータに、たとえば差分指標に適用されてもよい。

具体的には、いくつかの実施形態では、利得ユニット４０９は、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成されていてもよい。ここで、フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む。

具体的には、前記出力値は、クリッピングされていない利得の平均／平滑化されたバージョンを使って計算されてもよい：

いくつかの実施形態では、利得の平均後に、利得下限が決定されてもよい。これはたとえば、前記出力値を

として計算することによる。ここで、G(t_k,ω_l)は差分指標の単調関数として計算されるが、負でない値に制約されない。実際、クリッピングされてない利得は、負である差分指標については、負の値をもつことがある。

いくつかの実施形態では、利得ユニットは、第一の周波数領域信号の絶対値時間周波数タイル値および第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方を、これらが利得値を計算するために使われる前に、フィルタリングするよう構成されていてもよい。こうして、事実上、この例では、フィルタリングは、出力においてではなく、利得計算への入力に対して実行される。

この手法の例が図９に示されている。この例は図８の例に対応するが、第一および第二の周波数領域信号の時間周波数タイル値の絶対値の低域通過フィルタリングを実行する低域通過フィルタ９０１が追加されている。この例では、絶対値時間周波数タイル値

はフィルタリングされて、平滑化されたベクトル

（図では

として表わされている）を与える。

この例では、利得値を決定するための先述した関数が、それぞれノイズおよび発話タイルについて、

によって置き換えられてもよい。ここで、￣は(t,ω)平面における近隣の値にわたる平滑化（平均）を意味する。

フィルタリングは特に、時間および周波数における長方形窓のような一様な窓または人間の聴覚の特性に基づく窓を使ってもよい。後者の場合、フィルタリングは特に、いわゆる臨界帯域に従ってであってもよい。臨界帯域とは、蝸牛によって作り出される「聴覚フィルタ」の周波数帯域幅を指す。たとえば、オクターブ帯域またはバーク尺度臨界帯域が使用されうる。

フィルタリングは周波数依存であってもよい。特に、低周波数では、平均は、たった数個の周波数ビンにわたってであってもよい。一方、より高い周波数ではより多くの周波数ビンが使われてもよい。

平滑化／フィルタリングは、近隣の値にわたって平均することによって実行されてもよい。たとえば：

ここで、たとえばN＝1であり、W(m,n)は1/9ずつの重みをもつ3かける3行列である。Nも臨界帯域に依存することができ、その場合、周波数インデックスlに依存することができる。より高い周波数については、Nは典型的にはより低い周波数についてよりも大きくなる。

いくつかの実施形態では、フィルタリングは、差分指標をフィルタリングすることによって、たとえば差分指標を

として計算することによってであってもよい。

下記で述べるように、フィルタリング／平滑化は、実質的な性能改善を提供しうる。

具体的には、(t_k,ω_l)平面においてフィルタリングするとき、特に|Z(t_k,ω_l)|および|X(t_k,ω_l)|におけるノイズ成分の分散が実質的に低減される。

発話がない、すなわち|Z(t_k,ω_l)|＝|Z_n(t_k,ω_l)|であり、C(t_k,ω_l)＝1と想定する場合、

となる。ここで、|Z(t_k,ω_l)|および|X(t_k,ω_l)|はL個の独立な値にわたって平滑化される。

平滑化は平均を変えない。よって

である。

二つの確率的な信号の差の分散は個々の分散の和に等しい：

￣d〔バー付きのd〕を0に制限すると、￣dの分布は0のまわりに対称的なので、￣dのパワーは￣dの分散の値の半分である：

ここで残差信号のパワーを入力信号のパワー（2σ²）と比べると、後処理器に起因するノイズ抑制について次が得られる：
A＝−10log₁₀((4−π)/4L)＝6.68＋10log₁₀L dB。

例として、9個の独立な値にわたって平均する場合、追加的な9.5dBの抑制が得られる。

平滑化と組み合わせた過剰減衰は、減衰をさらに増す。変数

を考える場合、平滑化は、平滑化されない値と比較したとき、

の分散の低下を引き起こし、

の分布は期待値のまわりにより集中することになる。期待値は負であり、

によって与えられる。

独立なレイリー・ランダム変数の和（または差）についての閉じた形の式は≧3については得られない。しかしながら、さまざまな平滑化因子Lおよび過剰減算因子γ_nについてのdBでの減衰についてのシミュレーション結果を下記の表に呈示する。ここで、第一列が平滑化なしに対応する。この表において、行は種々の過剰減算因子（その値は第一列に与えられている）を示し、列は種々の平均領域（平均されるタイル数は第一行に呈示されている）を示す。

見て取れるように、非常に高い減衰が達成される。

発話については、フィルタリング／平滑化の効果はノイズについてとは非常に異なる。

まず、|X(t_k,ω_l)|には発話情報はなく、よって￣dは「負」の発話寄与を含まないとする。さらに、(t_k,ω_l)平面における近隣の時間周波数タイルにおける発話成分は独立ではないであろう。結果として、平滑化は￣dにおける発話エネルギーに対してはそれほどの効果をもたないであろう。よって、フィルタリングはノイズについては実質的に低下した分散をもたらすが発話成分に対する影響はずっと少なくなるので、平滑化の全体的な効果はSNRの増大である。これは、先述したような利得値の決定および／または時間周波数タイルの指定のために使用されうる。

例として、多くの実施形態において、差分指標は

として決定されてもよい。ここで、f_aおよびf_bは単調関数であり、K₁ないしK₈は時間周波数タイルについての平均近傍を定義する整数値である。典型的には、値K₁ないしK₈または少なくとも各和において合計される時間周波数タイル値の総数は、同一であってもよい。しかしながら、値の数が二つの和について異なる例では、対応する関数f_a(x)およびf_b(x)は、値の数の相違に対する補償を含んでいてもよい。

関数f_a(x)およびf_b(x)はいくつかの実施形態では、和の中の値の重み付けを含んでいてもよい。すなわち、和のインデックスに依存してもよい。同じことだが、

このように、この例では、第一および第二の周波数領域信号両方の時間周波数タイル値が、現在のタイルの近傍にわたって平均／フィルタリングされる。

関数の具体例は、先に与えた例示的な関数を含む。多くの実施形態において、f₁(x)またはf₂(x)はさらに、第一のマイクロフォン信号と第二のマイクロフォン信号のノイズ・レベルの間の平均差を示すノイズ・コヒーレンス推定値に依存してもよい。関数f₁(x)またはf₂(x)の一方または両方は、特に、第一および第二のマイクロフォン信号の間の推定された平均ノイズ・レベル差を反映するスケール因子によるスケーリングを含んでいてもよい。関数f₁(x)またはf₂(x)の一方または両方は特に、先述したコヒーレンス項C(t_k,ω_l)に依存してもよい。

先に述べたように、差分指標は、第一のマイクロフォン信号についての時間周波数タイル値の絶対値の単調関数として生成される第一の値と、第二のマイクロフォン信号についての時間周波数タイルの絶対値の単調関数との間の差として、すなわち
d(t_k,ω_l)＝f₁(|Z(t_k,ω_l)|)−f₂(|X(t_k,ω_l)|)
として計算される。ここで、f₁(x)およびf₂(x)は、xの単調関数（典型的には単調増加関数）である。多くの実施形態において、関数f₁(x)およびf₂(x)は単に絶対値のスケーリングであってもよい。

そのような手法の格別な利点は、絶対値に基づく減算に基づく差分指標が、ノイズのみが存在するときに、正の値および負の値の両方を取れるということである。これは、平均／平滑化／フィルタリングのために特に好適である。その場合、たとえば0平均のまわりの変動が互いに打ち消し合う傾向がある。しかしながら、発話が存在するときは、これは主として第一のマイクロフォン信号においてのみであり、すなわち、主として|Z(t_k,ω_l)|に存在する。よって、たとえば近隣の時間周波数タイルにわたる平滑化またはフィルタリングは、差分指標におけるノイズ寄与を低減するが発話成分は低減しない傾向がある。このように、平均と差分絶対値ベースの差分指標のと組み合わせによって、特に有利な相乗効果が達成できる。

上記の記述は、マイクロフォンの一つだけが発話を捕捉し、一方、他のマイクロフォンは発話成分のない拡散性ノイズのみを捕捉するというシナリオ（たとえば、図５に例示されるように、一つのマイクロフォンに比較的近い話者がいて、参照マイクロフォンでは（ほとんど）ピックアップがない状況に対応）に焦点を当ててきた。

このように、この例では、参照マイクロフォン信号x(n)にはほとんど発話がなく、z(n)およびx(n)におけるノイズ成分は拡散性の音場に由来すると想定されている。マイクロフォンの間の距離は比較的大きく、複数のマイクロフォンのノイズ成分間のコヒーレンスはほぼ0である。

しかしながら、実際上、マイクロフォンはしばしばずっと近接して配置され、結果として、二つの効果がより有意になりうる。つまり、両方のマイクロフォンが所望される発話の要素を捕捉しはじめることがあるということ、低周波数におけるマイクロフォン信号間のコヒーレンスが無視できないことである。

いくつかの実施形態では、ノイズ抑制器はさらに、マイクロフォン・アレイからの信号から第一のマイクロフォン信号および第二のマイクロフォン信号を生成するよう構成されたオーディオ・ビームフォーマーを有していてもよい。この例は図１０に示されている。

マイクロフォン・アレイはいくつかの実施形態では、たった二つのマイクロフォンを有していてもよいが、典型的にはより多数を有する。BMFユニットとして描かれているビームフォーマーは、異なる方向に向けられた複数の異なるビームを生成してもよく、それら異なるビームはそれぞれ第一および第二のマイクロフォン信号の一方を生成してもよい。

ビームフォーマーは特に、一つのビームが好適な適応アルゴリズムを使って発話源のほうに向けられることができる適応ビームフォーマーであってもよい。同時に、発話源の方向にノッチ（または特にヌル）を生成するよう他のビームが適応されることができる。

たとえば、特許文献２および特許文献１は、発話に焦点を当てる適応ビームフォーマーの例を開示しているが、（ほとんど）発話を含まない参照信号をも提供する。そのような手法は、第一のマイクロフォン信号をビームフォーマーの主要出力として、第二のマイクロフォン信号をビームフォーマーの副次出力として生成するために使用されてもよい。

これは、システムの二つ以上のマイクロフォンにおける発話の存在の問題に対処しうる。ノイズ成分は両方のビームフォーマー信号において得られ、拡散性ノイズについてもガウス分布である。z(n)およびx(n)におけるノイズ成分間のコヒーレンス関数は先述したようにやはりsinc(kd)に依存する。すなわち、より高い周波数ではコヒーレンスはほぼ0になり、図４のノイズ抑制器が効果的に使用できる。

マイクロフォンの間のより小さな距離のため、sinc(kd)はより低い周波数については0にならず、結果として、z(n)とx(n)の間のコヒーレンスは0にならない。

いくつかの実施形態では、ノイズ抑制器はさらに、第一のマイクロフォン信号の、第二のマイクロフォン信号と相関している信号成分を、第一のマイクロフォン信号から打ち消すための適応打ち消し器を有していてもよい。

図４の抑制器、図１０のビームフォーマーおよび適応打ち消し器の両方をもつノイズ抑制器の例が図１１に示されている。

この例では、適応打ち消し器は、z(n)においてx(n)におけるノイズと相関しているノイズを除去する追加の適応的なノイズ打ち消しアルゴリズムを実装する。そのような手法については、（定義により）x(n)と残差信号r(n)の間のコヒーレンスは0である。

上記の記述は明確のために種々の機能回路、ユニットおよびプロセッサを参照して本発明の実施形態を記述してきたことが理解されるであろう。しかしながら、異なる機能回路、ユニットまたはプロセッサの間のいかなる好適な機能の分配も、本発明を損なうことなく、使用されうることは明白であろう。たとえば、別個のプロセッサまたはコントローラによって実行されるよう示されている機能が同じプロセッサまたはコントローラによって実行されてもよい。よって、特定の機能ユニットまたは回路への言及は、厳密な論理的または物理的な構造または編成を示すというよりは、記載される機能を提供する好適な手段に言及したものとしてのみ見るべきである。

本発明は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの任意の組み合わせを含むいかなる好適な形で実装されることもできる。本発明は任意的に、少なくとも部分的に、一つまたは複数のデータ・プロセッサおよび／またはデジタル信号プロセッサ上で走るコンピュータ・ソフトウェアとして実装されてもよい。本発明のある実施形態の要素およびコンポーネントは、物理的、機能的および論理的に、任意の好適な仕方で実装されてもよい。実際、機能は単一のユニットに、複数のユニットに、または他の機能ユニットの一部として実装されてもよい。よって、本発明は、単一のユニットで実装されてもよいし、あるいは物理的および機能的に、異なるユニット、回路およびプロセッサの間で分散されていてもよい。

本発明はいくつかの実施形態との関連で述べてきたが、本稿に記載される特定の形に限定されることは意図されていない。むしろ、本発明の範囲は付属の請求項によってのみ限定される。さらに、ある特徴が特定の実施形態との関連で記載されているように見えることがありうるが、当業者は、記載される諸実施形態のさまざまな特徴が本発明に基づいて組み合わされてもよいことを認識するであろう。請求項において、有する／含むの語は他の要素またはステップの存在を排除するものではない。

さらに、個別に挙げられてはいても、複数の手段、要素、回路または方法ステップが、たとえば単一の回路、ユニットまたはプロセッサによって実装されてもよい。さらに、個々の特徴が異なる請求項に含まれていたとしても、それらは可能性としては有利に組み合わされうるのであって、異なる請求項に含まれていることが、特徴の組み合わせが実現可能でないおよび／または有利でないことを含意するものではない。また、ある特徴があるカテゴリーの請求項に含まれていることは、このカテゴリーへの限定を含意するのではなく、むしろ、その特徴が適宜他のカテゴリーの請求項にも等しく適用可能であることを示す。さらに、請求項における特徴の順序は、それらの特徴が作用しなければならないいかなる特定の順序をも含意しない。特に、方法請求項における個々のステップの順序はそれらのステップがその順序で実行されなければならないことを含意するものではない。むしろ、ステップは任意の好適な順序で実行されうる。さらに、単数形での言及は複数を排除するものではない。「ある」「第一の」「第二の」などの言及は複数を排除するものではない。請求項における参照符号は、単に明快にするための例として与えられているのであって、いかなる仕方であれ特許請求の範囲を限定するものと解釈してはならない。

Claims

第一のマイクロフォン信号におけるノイズを抑制するためのノイズ抑制器であって、当該ノイズ抑制器は：
第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する第一の変換器であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、第一の変換器と；
第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する第二の変換器であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、第二の変換器と；
前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する利得ユニットと；
前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成するためのスケーラーとを有しており、
当該ノイズ抑制器はさらに：
前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する指定器を有しており、
前記利得ユニットは、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して、時間周波数タイルの時間周波数タイル利得について、前記時間周波数タイルがノイズ・タイルとして指定されるときは、前記時間周波数タイルが発話タイルとして指定されるときよりも、低い利得値が決定されるよう、時間周波数タイル利得を決定するよう構成されている、
ノイズ抑制器。
前記利得ユニットは、時間周波数タイルの時間周波数タイル利得についての利得値を、その時間周波数タイルの前記差分指標の関数として決定するよう構成されている、請求項１記載のノイズ抑制器。
前記第一の単調関数および前記第二の単調関数の少なくとも一方は、前記時間周波数タイルが発話タイルまたはノイズ・タイルのどちらとして指定されているかに依存する、請求項２記載のノイズ抑制器。
前記第二の単調関数は、時間周波数タイルが発話時間周波数タイルまたはノイズ時間周波数タイルのどちらとして指定されているかに依存するスケール値を用いた、時間周波数タイルについての前記第二の周波数領域信号の絶対値時間周波数タイル値のスケーリングを含む、請求項３記載のノイズ抑制器。
前記利得ユニットは、前記第二のマイクロフォン信号の振幅と前記第一のマイクロフォン信号のノイズ成分の振幅との間の相関を示すノイズ・コヒーレンス推定値を生成するよう構成されており、前記第一の単調関数および前記第二の単調関数の少なくとも一方は前記ノイズ・コヒーレンス推定値に依存する、請求項３記載のノイズ抑制器。
前記第一の単調関数および前記第二の単調関数は、前記第一のマイクロフォン信号および前記第二のマイクロフォン信号の間の振幅関係がノイズ・コヒーレンス推定値に対応し、かつ、時間周波数タイルがノイズ・タイルとして指定されている場合に、前記差分指標の期待値が負であるようなものである、請求項５記載のノイズ抑制器。
前記利得ユニットは、ノイズ・コヒーレンス推定値に対応する前記第一のマイクロフォン信号と前記第二のマイクロフォン信号の間の振幅関係についての前記差分指標の期待値が、ノイズ・タイルとして指定される時間周波数タイルについては、発話タイルとして指定される時間周波数タイルについてとは異なるよう、前記第一の単調関数および前記第二の単調関数の少なくとも一方を変えるよう構成されている、請求項６記載のノイズ抑制器。
前記指定器は、前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定することを、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値に対するノイズ・タイルについての前記差分指標に応答して生成される差の値に応答して、行なうよう構成されている、請求項１記載のノイズ抑制器。
前記指定器は、複数の時間周波数タイルにわたって差の値をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項８記載のノイズ抑制器。
前記利得ユニットは、複数の時間周波数タイルにわたって利得値をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項１記載のノイズ抑制器。
前記利得ユニットは、前記第一の周波数領域信号の絶対値時間周波数タイル値および前記第二の周波数領域信号の絶対値時間周波数タイル値の少なくとも一方をフィルタリングするよう構成されており、該フィルタリングは、時間および周波数両方において異なる時間周波数タイルを含む、請求項１記載のノイズ抑制器。
前記第一のマイクロフォン信号および前記第二のマイクロフォン信号をマイクロフォン・アレイからの信号から生成するよう構成されたオーディオ・ビームフォーマーをさらに有する、請求項１記載のノイズ抑制器。
前記第二のマイクロフォン信号と相関した前記第一のマイクロフォン信号の信号成分を、前記第一のマイクロフォン信号から打ち消すための適応打ち消し器をさらに有する、請求項１記載のノイズ抑制器。
第一のマイクロフォン信号におけるノイズを抑制する方法であって：
第一のマイクロフォン信号の周波数変換から第一の周波数領域信号を生成する段階であって、前記第一の周波数領域信号は時間周波数タイル値によって表わされる、段階と；
第二のマイクロフォン信号の周波数変換から第二の周波数領域信号を生成する段階であって、前記第二の周波数領域信号は時間周波数タイル値によって表わされる、段階と；
前記第一の周波数領域信号の絶対値時間周波数タイル値の第一の単調関数と前記第二の周波数領域信号の絶対値時間周波数タイル値の第二の単調関数との間の差を示す差分指標の負でない単調関数として時間周波数タイル利得を決定する段階と；
前記時間周波数タイル利得によって前記第一の周波数領域信号の時間周波数タイル値をスケーリングすることによって出力周波数領域信号を生成する段階とを含み、
当該方法はさらに：
前記第一の周波数領域信号の時間周波数タイルを発話タイルまたはノイズ・タイルとして指定する段階を含み、前記時間周波数タイル利得は、前記第一の周波数領域信号の時間周波数タイルの発話タイルまたはノイズ・タイルとしての指定に応答して決定され、時間周波数タイルの時間周波数タイル利得について、その時間周波数タイルがノイズ・タイルとして指定されているときはその時間周波数タイルが発話タイルとして指定されているときよりも、より低い利得値が決定される、
方法。
コンピュータに請求項１４記載の方法を実行させるためのコンピュータ・プログラム。