JP2016126335A

JP2016126335A - 区画別音声抑制を有する音区画設備

Info

Publication number: JP2016126335A
Application number: JP2015247316A
Authority: JP
Inventors: クリストフマルクス; Markus Christoph
Original assignee: Harman Becker Automotive Systems GmbH
Current assignee: Harman Becker Automotive Systems GmbH
Priority date: 2015-01-02
Filing date: 2015-12-18
Publication date: 2016-07-11
Also published as: EP3040984A1; EP3040984B1; US9711131B2; US20160196818A1

Abstract

【課題】区画別音声抑制を有する音区画設備を提供する。
【解決手段】受聴者の位置及び話者の位置を含む室１０１と、室内に配置された多数のラウドスピーカ１０２と、室内に配置された少なくとも１つのマイクロホン１０３と、多数のラウドスピーカ及び少なくとも１つのマイクロホンに接続され、多数のラウドスピーカと関連して、第１の音区画を受聴者の位置の周囲に確立し、第２の音区画を話者の位置の周囲に確立し、少なくとも１つのマイクロホンと関連して、第１の音区画内に存在する音の状態のパラメータを決定し、かつ多数のラウドスピーカと関連して、かつ、第１の音区画内の決定された音の状態に基づいて、第１の音区画内の共通音声了解度を低減するように構成された音声マスキング音を第１の音区画内に生成するように構成された、信号処理モジュール１０４とを備える。
【選択図】図１

Description

本開示は、少なくとも２つの音区画間に音声抑制を有する音区画設備に関する。

能動ノイズ制御は、無用な音波と破壊的に干渉する音波すなわち「アンチノイズ」を生成するために使用され得る。破壊的に干渉する音波は、無用なノイズを消去するために、ラウドスピーカを通して生成されて無用な音波と結合し得る。破壊的に干渉する音波と無用音波との結合により、聴音空間内での１人以上の受聴者による無用な音波の感知を排除または最小化し得る。

能動ノイズ制御システムは概して、破壊的干渉の目標となる領域内の音を検出するための１つ以上のマイクロホンを含む。検出された音は、フィードバック用の誤り信号として使用される。誤り信号は、能動ノイズ制御システムに含まれる適応フィルタを調節するために使用される。このフィルタは、破壊的に干渉する音波を作成するために使用されるアンチノイズ信号を生成する。このフィルタは、音区画と呼ばれるある特定の領域内、または完全消去の場合、静穏区画の標的に従って消去を最適化するために、破壊的に干渉する音波を調節するように調節される。特に、車両内部のように特に隙間なく配置された音区画では、音声面で、消去を最適化、即ち、音響的に完全に分離された音区画を確立する上で、より困難な結果になり得る。多くの場合、一音区画内の受聴者は、別の音区画で話している人に、その話している人がその別の人が加わることを意図しないまたは望まない場合でも、耳を傾けることが可能である。例えば、車両の後部座席（または運転手の座席）の人は、運転手の座席（または後部座席）の別の人を関与させることなく、内緒の通話をしたいと思う。したがって、室内の少なくとも２つの音区画間での音声抑制を最適化するためのニーズが存在する。

音区画設備は、受聴者の位置及び話者の位置を含む室と、室内に配置された多数のラウドスピーカと、室内に配置された多数のマイクロホンと、信号処理モジュールとを含む。信号処理モジュールは、多数のラウドスピーカ及び多数のマイクロホンに接続される。信号処理モジュールは、多数のラウドスピーカと関連して、第１の音区画を受聴者の位置の周囲に確立し、第２の音区画を話者の位置の周囲に確立し、多数のマイクロホンと関連して、第１の音区画内に存在する音の状態のパラメータを決定するように構成される。信号処理モジュールは、多数のラウドスピーカと関連して、かつ第１の音区画内の決定された音の状態に基づいて、第２の音区画内の共通音声了解度を低減するように構成された音声マスキング音を第１の音区画内に生成するように更に構成される。

受聴者の位置及び話者の位置を含む室内に、室内に配置された多数のラウドスピーカ及び室内に配置された多数のマイクロホンにより音区画を配設する方法は、多数のラウドスピーカと関連して、第１の音区画を受聴者の位置の周囲に確立し、第２の音区画を話者の位置の周囲に確立することと、第１の音区画内に存在する音の状態のパラメータを、多数のマイクロホンと関連して決定することとを含む。本方法は、多数のラウドスピーカと関連して、かつ第１の音区画内の決定された音の状態に基づいて、第２の音区画内の共通音声了解度を低減するように構成される音声マスキング音を第１の音区画内に生成することを更に含む。

以下の詳細な説明及び図面を検討すれば、他のシステム、方法、特徴、及び利点も当業者にとって明らかでありまたは明らかなものとなるであろう。そのような追加のシステム、方法、特徴、及び利点の全ては、本詳細な説明内、本発明の適用範囲内に含まれ、以下の特許請求の範囲により保護されることが意図されている。
たとえば、本願発明は以下の項目を提供する。
（項目１）
受聴者の位置及び話者の位置を含む室と、
上記室内に配置された多数のラウドスピーカと、
上記室内に配置された少なくとも１つのマイクロホンと、
上記多数のラウドスピーカ及び上記少なくとも１つのマイクロホンに接続された信号処理モジュールであって、
上記多数のラウドスピーカと関連して、第１の音区画を上記受聴者の位置の周囲に確立し、第２の音区画を上記話者の位置の周囲に確立し、
上記少なくとも１つのマイクロホンと関連して、上記第１の音区画内に存在する音の状態のパラメータを決定し、かつ
上記多数のラウドスピーカと関連して、かつ上記第１の音区画内の上記決定された音の状態に基づいて、上記第１の音区画内の共通音声了解度を低減するように構成された音声マスキング音を上記第１の音区画内に生成する、
ように構成された、上記信号処理モジュールと、
を備える、音区画設備。
（項目２）
上記信号処理モジュールは、上記第１の音区画内の上記音の状態を表す少なくとも１つの信号を受信し、かつ上記第１の音区画内の上記音の状態を表す上記信号ならびに心理音響マスキングモデル及び共通音声了解度モデルのうちの少なくとも１つに基づいて音声マスキング信号を提供するように構成された、マスキング信号計算モジュールを備える、上記項目に記載の上記音区画設備。
（項目３）
上記信号処理モジュールは、上記音声マスキング信号を受信し、及び上記多数のラウドスピーカと関連して、かつ上記音声マスキング信号に基づいて、上記音声マスキング音を上記第１の音区画内に生成するように構成された、多入力多出力システムを備える、上記項目のいずれかに記載の上記音区画設備。
（項目４）
上記多数のラウドスピーカは、指向性ラウドスピーカ、能動ビームフォーマを有するラウドスピーカ、近接場ラウドスピーカ、及び音響レンズを有するラウドスピーカのうちの少なくとも１つを備える、上記項目のいずれかに記載の上記音区画設備。
（項目５）
上記信号処理モジュールは、上記少なくとも１つのマイクロホンに接続されて、少なくとも１つのマイクロホン信号を受信する音響エコー消去モジュールを備え、上記エコー消去モジュールは、少なくとも上記音声マスキング信号を更に受信するように構成され、かつ上記第１の音区画内の上記音の状態を決定するための、上記少なくとも１つのマイクロホン信号に含まれる少なくとも上記音声マスキング信号の上記音響エコーの推定を表す、少なくともある信号を提供するように構成される、上記項目のいずれかに記載の上記音区画設備。
（項目６）
上記信号処理モジュールは、
上記マイクロホン信号に含まれる音声信号を推定するように、かつ上記推定された音声信号を表す信号を提供するように構成されたノイズ低減モジュールと、
上記推定された音声信号を表す上記信号を受信するように、かつ上記推定された音声信号に更に基づいて上記第１の音区画内の上記音の状態を表す上記信号を生成するように構成された利得計算モジュールと、
を更に備える、上記項目のいずれかに記載の上記音区画設備。
（項目７）
上記信号処理モジュールは、上記マイクロホン信号に含まれる周囲ノイズ信号を推定するように、かつ上記推定されたノイズ信号を表す信号を提供するように構成されたノイズ推定モジュールと、
上記推定されたノイズ信号を表す上記信号を受信するように、かつ上記推定されたノイズ信号に更に基づいて上記第１の音区画内の上記音の状態を表す上記信号を生成するように構成された利得計算モジュールと、を更に備える、上記項目のいずれかに記載の上記音区画設備。
（項目８）
上記第２の音区画内の上記話者は、ハンズフリーの通信端末を介して遠隔話者と通信する近接話者であり、
上記信号処理モジュールは、音を上記通信端末から上記第１の音区画ではなく上記第２の音区画に向けるように更に構成される、上記項目のいずれかに記載の上記音区画設備。
（項目９）
受聴者の位置及び話者の位置を含む室内に、上記室内に配置された多数のラウドスピーカ及び上記室内に配置された少なくとも１つのマイクロホンにより音区画を配設する方法であって、
上記多数のラウドスピーカと関連して、第１の音区画を上記受聴者の位置の周囲に確立し、第２の音区画を上記話者の位置の周囲に確立することと、
上記少なくとも１つのマイクロホンと関連して、上記第１の音区画内に存在する音の状態のパラメータを決定することと、
上記多数のラウドスピーカと関連して、かつ上記第１の音区画内の上記決定された音の状態に基づいて、上記第１の音区画内の共通音声了解度を低減するように構成される音声マスキング音を上記第１の音区画内に生成することと、
を含む、上記方法。
（項目１０）
上記第１の音区画内の上記音の状態を表す上記信号、ならびに心理音響マスキングモデル及び共通音声了解度モデルのうちの少なくとも１つに基づいて、音声マスキング信号を提供することを更に含む、上記項目に記載の上記方法。
（項目１１）
上記音区画を確立することに関して、
上記音声マスキング信号を多入力多出力システムで処理して、上記多数のラウドスピーカと関連して、かつ上記音声マスキング信号に基づいて、上記音声マスキング音を上記第１の音区画内に生成することと、
指向性ラウドスピーカ、能動ビームフォーマを有するラウドスピーカ、近接場ラウドスピーカ、及び音響レンズを有するラウドスピーカのうちの少なくとも１つを採用することと、の少なくとも１つを更に含む、上記項目のいずれかに記載の上記方法。
（項目１２）
少なくとも上記音声マスキング信号に基づいて、上記マイクロホン信号に含まれる少なくとも上記音声マスキング信号の上記音響エコーの推定を表す少なくとも１つの信号を生成することと、
上記マイクロホン信号に含まれる少なくとも上記音声マスキング信号の上記エコーの上記推定に基づいて、上記第１の音区画内の上記音の状態を表す上記信号を生成することと、を更に含む、上記項目のいずれかに記載の上記方法。
（項目１３）
上記マイクロホン信号に含まれる音声信号を推定して、上記推定された音声信号を表す信号を提供することと、
上記推定された音声信号に更に基づいて、上記第１の音区画内の上記音の状態を表す上記信号を生成することと、
を更に含む、上記項目のいずれかに記載の上記方法。
（項目１４）
上記マイクロホン信号に含まれる周囲ノイズ信号を推定して、上記推定されたノイズ信号を表す信号を提供することと、
上記推定されたノイズ信号に更に基づいて、上記第１の音区画内の上記音の状態を表す上記信号を生成することと、
を更に含む、上記項目のいずれかに記載の上記方法。
（項目１５）
上記第２の音区画内の上記話者は、ハンズフリーの通信端末を介して遠隔話者に通信をする近接話者であり、上記方法は、
音を上記通信端末から上記第１の音区画ではなく上記第２の音区画に向けることを更に含む、上記項目のいずれかに記載の上記方法。
（摘要）
受聴者の位置及び話者の位置を含む室内に、室内に配置された多数のラウドスピーカ及び室内に配置された多数のマイクロホンにより音区画を配設するための、システム及び方法は、多数のラウドスピーカと関連して、第１の音区画を受聴者の位置の周囲に確立し、第２の音区画を話者の位置の周囲に確立することと、複数のマイクロホンと関連して、第１の音区画内に存在する音の状態のパラメータを決定することとを含む。本方法は、多数のラウドスピーカと関連して、かつ第１の音区画内の決定された音の状態に基づいて、第２の音区画内の共通音声了解度を低減するように構成される音声マスキング音を第１の音区画内に生成することを更に含む。

本システムは、以下の説明及び図面を参照することでよりよく理解され得る。図中の構成部品は必ずしも正確な縮尺率で書かれたわけではなく、発明の原理の説明に強調が置かれている。また、図中で、類似の参照番号は、異なる図面全体を通して対応する部品を示す。

少なくとも１つの音区画に音声抑制を有する例示の音区画設備を示すブロック図である。音区画が配設される例示の車両内部の平面図である。図１に示した設備に適用可能な音響エコー消去（ＡＥＣ）モジュールの入力及び出力を示す概略図である。図３に示したＡＥＣモジュールの構成を示すブロック図である。図１に示した設備に適用可能なノイズ推定モジュールの入力及び出力を示す概略図である。図５に示したノイズ推定モジュールの構成を示すブロック図である。図６に示したノイズ推定モジュールに適用可能な非線形平滑化モジュールの入力及び出力を示す概略図である。図１に示した設備に適用可能なノイズ低減モジュールの入力及び出力を示す概略図である。図８に示したノイズ低減モジュールの構成を示すブロック図である。図１に示した設備に適用可能な利得計算モジュールの入力及び出力を示す概略図である。図１０に示した利得計算モジュールの構成を示すブロック図である。図１に示した設備に適用可能なスイッチ制御モジュールの入力及び出力を示す概略図である。図１２に示したスイッチ制御モジュールの構成を示すブロック図である。図１に示した設備に適用可能なマスキングモデルモジュールの入力及び出力を示す概略図である。図１４に示したマスキングモデルモジュールの構成を示すブロック図である。図１に示した設備に適用可能なマスキング信号計算モジュールの入力及び出力を示す概略図である。図１６に示したマスキング信号計算モジュールの構成を示すブロック図である。図１に示した設備に適用可能な多入力多出力（ＭＩＭＯ）システムの入力及び出力を示す概略図である。図１８に示したＭＩＭＯシステムの構成を示すブロック図である。少なくとも１つの音区画に音声抑制を有する別の例示の音区画設備を示すブロック図である。少なくとも１つの音区画に音声抑制を有する更に別の例示の音区画設備を示すブロック図である。少なくとも１つの音区画に音声抑制を有する更に別の例示の音区画設備を示すブロック図である。

例えば、多入力多出力（ＭＩＭＯ）システムは、任意の所与の空間内に、これに関連して「個々の音区画」（ＩＳＺ）または単に音区画とも呼ばれる、仮想ソースまたは相互に分離された音響区画を生成することを可能にする。個々の音区画の作成は、異なる音響ソースを様々な領域に提供することの可能性のみならず、特に、スピーカフォンによる会話を音響的に隔離された区画で行うことの展望により、より大きな関心を捕らえてきた。電話による会話の遠方の（または遠隔の）話者に対して、このことは、現在のＭＩＭＯシステムを何らの追加の変更も行わずに使用することで既に可能であり、これらの信号が電気またはデジタルの形態ですでに存在しているからである。しかし、他の側で話者により生じられた信号は、大きな難題を呈しており、これらの信号が、ＭＩＭＯシステムに送られて対応するラウドスピーカに通され得る前に、マイクロホンにより受信され、音楽、周囲ノイズ（背景ノイズとも呼ばれる）及び他の破壊的要素を取り除かねばならないからである。

現在、ＭＩＭＯシステムは、ラウドスピーカとの組み合わせで波動場を生じ、これが、特定の場所に、音響的に照らされた（高められた）区画である、いわゆる明るい区画、及び他の領域に、音響的に暗い（抑制された）区画である、いわゆる暗い区画を生成する。明るい区画と暗い区画との間の音響コントラストが大きいほど、特定の区画間でのクロストーク消去（ＣＴＣ）はより効果的で、ＩＳＺシステムはより良好に機能することになる。マイクロホン信号（複数可）から近接話者の声音信号の抽出を含む前述の難点の他に、追加の問題として、信号の処理に利用可能な時間、言い換えれば、待ち時間がある。

例えば、近接話者が携帯電話を使用してマイクロホンに直接話すときであって、ラウドスピーカが、近接話者の声音信号が聞こえるはずのない、またはほとんど理解し得ない場所で使用するためのヘッドレスト内に位置するとき、に存在する理想的状態の想定に基づけば、高級車内での間隔は約ｘ≦１．５ｍであり、これはｃ＝３４３ｍ／ｓの音速でＴ＝２０℃の温度では、約４．４ｍｓ以下の最大処理時間になる。このタイムスパン以内で、すべてのことが完了しなければならず、信号が受信、処理、及び再生されなければならないことを意味する。

ブルートゥーススマート技術での接続で生じる待ち時間であっても、ｔ＝６ｍｓであり、利用可能な処理時間よりも既にかなり長い。ヘッドレストラウドスピーカを採用するとき、約ｘ＝０．２ｍの話者から耳までの平均距離を想定でき、ここでもわずかｔ＜４ｍｓの信号処理時間しか利用し得ず、これは十分とみなし得るが、いずれにしても重大な時間である。声音信号を近接話者のマイクロホンから隔離して、それをＭＩＭＯシステムに送るのに十分な処理時間があったとしても、それが所与のタスクを達成することを可能にするものではないであろう。

基本的に、全体性能、即ち、ＭＩＭＯシステムのＣＴＣの度合い及び帯域幅は、ラウドスピーカから、所望の波動場が投射されるべき領域（例えば、耳位置）までの距離に依存する。ラウドスピーカがヘッドレスト内に位置付けられるときでも、それは実際はおそらく最良の選択肢のうちの１つを表し、即ち、ラウドスピーカから耳までの最短距離を表し、最大ＣＴＣ帯域幅ｆ≦２ｋＨｚを達成することが唯一可能である。このことは、最良の状態下でかつ運転手の座席での近接話者の声音信号の十分な消去を想定しても、ＭＩＭＯまたはＩＳＺシステムの支援では、わずか≦２ｋＨｚの帯域幅しか期待し得ない。

しかし、この周波数を超える声音信号は通常、多くのエネルギーまたは情報内容を依然有しているため、この帯域幅を超えた周波数に制限された音声であっても容易に理解され得る。これに加えて、自動車内で周囲ノイズにより一般にもたらされる自然の音響マスキング、例えば、道路及びモータノイズは、２ｋＨｚを超える周波数では効果はほとんどない。現実的に考えれば、ラウドスピーカと、声音がＩＳＺシステムを使用することによりほとんど理解され得ないようにされるべき周囲空間との間で、十分なＣＴＣを達成する試みは上手くいかないであろう。

本明細書に説明する手法は、十分な強度及びスペクトル帯域幅のマスキング信号を、電話による会話が通話期間中理解されるべきでない領域内に投射するので、近接話者（例えば、運転手の座席に着座）の少なくとも声音信号は理解され得ない。近接話者の声音信号及び遠方の話者の声音信号の両方を使用してマスキング信号を制御し得る。しかし、車両内部で話者により使用される通信端末（携帯電話等）の周囲に、別の音区画を確立し得る。この追加の音区画は、他の音区画と同一または同様に確立し得る。（電気）マスキング信号を制御するためにいずれの信号を使用するかに拘わらず、採用された信号が近接話者の位置で妨害を生じることは決してあってはならず、近接話者がマスキング信号に基づく（音響）マスキング音によって完全にまたは少なくとも可能な最大限まで邪魔されないかまたはそれを知らないままにされなければならない。しかし、マスキング信号は、音声了解度を、例えば、一音区画での電話による会話が別の音区画で理解され得ないレベルまで低減させることができるはずである。

音声伝達指標（ＳＴＩ）は、音声伝達品質の尺度である。ＳＴＩは、伝達チャネルの一部の物理的特性を評価して、音声信号の特性を伝えるチャネルの能力を表す。ＳＴＩは、伝達チャネルの特性が音声了解度にいかに影響するかの確立された客観的測定値予測子である。伝達チャネルの音声了解度に対する影響は、例えば、音声レベル、チャネルの周波数応答、非線形歪、背景ノイズレベル、音再生機器の品質、エコー（例えば、１００ｍｓより大きい遅延を有する反射）、反響時間、及び心理音響効果（マスキング効果等）に依存し得る。

より厳密には、音声伝達指標（ＳＴＩ）は、音声の周波数範囲内の多数の周波数オクターブ帯域の重み付けされた部分に基づく客観的尺度である。各周波数オクターブ帯域信号は、異なる変調周波数のセットにより変調されて、異なる周波数オクターブ帯域に別個に変調されたテスト信号の完全な行列を定義づける。変調の低減を定義づける、いわゆる変調伝達関数は、各オクターブ帯域内の各変調周波数に対して別個に決定され、その後、全変調周波数及び全オクターブ帯域に対する変調伝達関数値が組み合わされて、音声了解度の全体尺度を形成する。領域内の音声了解度を主観的評価からより定量的手法に向けて移動させることに利点があり、最低限でもより大きい反復性を提供することもまた分かった。

音声了解度の標準化定量的尺度は、共通了解度スケール（ＣＩＳ）である。音声伝達指標（ＳＴＩ）、音声伝達指標公共アドレス（ＳＴＩ−ＰＡ）、音声了解度指標（ＳＩＩ）、高速音声伝達指標（ＲＡＳＴＩ）、及び子音明瞭度損失（ＡＬＣＯＮＳ）等の、種々の機械に基づく方法は、ＣＩＳへのマッピングが可能である。これらのテスト方法は、音声了解度を自動的にかつ音声了解度の人間の解釈を必要とすることなく評価する上で使用するために開発された。例えば、共通了解度スケール（ＣＩＳ）は、ＣＩＳ＝１＋ｌｏｇ（ＳＴＩ）に従ってＳＴＩとの数学的関連に基づく。共通音声了解度は、共通了解度スケール（ＣＩＳ）でレベルが０．４未満であれば十分に低いことが理解される。

図１を参照して、例示の音区画設備１００は、室１０１内に配置された多数のラウドスピーカ１０２及びやはり室１０１内に配置された多数のマイクロホン１０３を含む。信号処理モジュール１０４は、多数のラウドスピーカ１０２、多数のマイクロホン１０３、及びホワイトノイズ、即ち、ランダム位相特性を有する信号を生成する、ホワイトノイズソース１０５に接続される。信号処理モジュール１０４は、多数のラウドスピーカ１０２を経由して、受聴者の位置（図示せず）の周囲に第１の音区画１０６を、及び話者の位置（図示せず）の周囲に第２の音区画１０７を確立し、かつ多数のマイクロホン１０３に関連して、第１の音区画１０６に存在し加えて第２の音区画１０７にも存在するかもしれない音の状態のパラメータを決定する。音の状態には、とりわけ、問題の音声音、周囲ノイズ、及び付加的に生成されたマスキング音のうちの少なくとも１つの特性を含む。信号処理モジュール１０４は、その後、マスキングノイズｍｎ（ｎ）及び多数のラウドスピーカ１０２と関連して、かつ第１の音区画１０６（及び場合によっては第２の音区画１０７）内の決定された音の状態に基づいて、第１の音区画１０６内にマスキング音１０８（例えば、ノイズ）を生成するが、このマスキング音は、第２の音区画１０７から第１の音区画１０６に伝達される音声１０９の共通音声了解度を、了解度スケール（ＣＩＳ）で０．４未満のレベルに低減させるのに適合している。このレベルは、話者のプライバシーの度合いを更に引上げるために、０．３、０．２未満または時には０．１未満のＣＩＳレベルに低減され得るが、このことは、第２の音区画１０７内の特定の音状況によっては受聴者の周囲のノイズレベルを不快なレベルに増大させ得る。

信号処理モジュール１０４は、例えば、ＭＩＭＯシステム１１０を含むが、これは、多数のラウドスピーカ１０２、多数のマイクロホン１０３、マスキングノイズｍｎ（ｎ）、及びステレオ信号ソース１１１を提供するステレオ音楽信号ｘ（ｎ）等の有用信号ソースに接続される。ＭＩＭＯシステムは、多数の出力部（例えば、多数のラウドスピーカの群に出力信号を供給するための出力チャネル）及び多数の（誤り）入力部（例えば、多数のグループのマイクロホン、及び他のソースからの入力信号を受信するための録音チャネル）を含み得る。グループには、単一チャネル、即ち、１つの出力チャネルまたは１つの録音チャネルに接続される１つ以上のラウドスピーカまたはマイクロホンを含む。対応する室またはラウドスピーカ−室−マイクロホンのシステム（少なくとも１つのラウドスピーカ及び少なくとも１つのマイクロホンが配設された室）は、線形で時不変であり、例えば、その室の音響インパルス応答により表現され得ることが想定される。更に、有用（ステレオ）入力信号ｘ（ｎ）等の多数の元の入力信号が、ＭＩＭＯシステムの（元の信号）入力部に供給され得る。ＭＩＭＯシステムは、均等化用の、例えば、多重誤差最小自乗平均（ＭＥＬＭＳ）アルゴリズムを使用し得るが、（修正）最小自乗平均（ＬＭＳ）、再帰最小自乗（ＲＬＳ）、等の任意の他の適応制御アルゴリズムを採用し得る。有用信号（複数可）ｘ（ｎ）は、多数の一次パスによりフィルタをかけられ得るが、これらは、多数のラウドスピーカ１０１のうちの１つから異なる位置の多数のマイクロホン１０２への途中の一次パスフィルタ行列により表され、一次パスの端部で、即ち、多数のマイクロホン１０２で、多数の有用信号ｄ（ｎ）を提供する。図１に示す例示の設備では、４（グループの）ラウドスピーカ、４（グループの）マイクロホン、及び３つの元の入力、即ち、ステレオ信号ｘ（ｎ）及びマスキング信号ｍｎ（ｎ）が存在している。ＭＩＭＯシステムが適応性がある場合、多数のマイクロホン１０３により出力された信号は、ＭＩＭＯシステムに入力される。

信号処理モジュール１０４は、例えば、音響エコー消去（ＡＥＣ）システム１１２を更に含む。概して、音響エコー消去は、例えば、有用音信号から推定されたエコー信号を減算することにより達成され得る。実際のエコー信号の推定を提供するために、アルゴリズムが開発され、それらは時間ドメインで動作し、時間離散的信号を処理する適応デジタルフィルタを採用し得る。そのような適応デジタルフィルタは、フィルタの伝達特性を定義付けるネットワークパラメータが、事前設定された品質関数に対して最適化されるように動作する。そのような品質関数は、例えば、基準信号に対して適応ネットワークの出力信号の平均自乗誤差を最小化することにより実現される。他のＡＥＣモジュールも公知であり、それらは周波数ドメインで動作する。図１に示す例示の設備では、時間ドメインまたは周波数ドメインのいずれかの、上述したような、ＡＥＣモジュールが用いられるが、エコーは、本明細書では、音楽再生ラウドスピーカ（複数可）と同じ室内に配置されたマイクロホンにより受信される有用信号（例えば、音楽）部分と理解され得る。

ＡＥＣモジュール１１２は、多数のマイクロホン１０３のうちの２つのマイクロホン１０３ａ及び１０３ｂの出力信号Ｍｉｃ_Ｌ（ｎ，ｋ）及びＭｉｃ_Ｒ（ｎ，ｋ）を受信し、これらの特定のマイクロホン１０３ａ及び１０３ｂは、多数のラウドスピーカ１０２のうちの２つの特定のラウドスピーカ１０２ａ及び１０２ｂの近傍に配設される。ラウドスピーカ１０２ａ及び１０２ｂは、室内（例えば、車両内部）の（車両）座席のヘッドレスト内に配置され得る。出力信号Ｍｉｃ_Ｌ（ｎ，ｋ）は、有用音信号Ｓ_Ｌ（ｎ，ｋ）、室１０１内に存在する周囲ノイズを表すノイズ信号Ｎ_Ｌ（ｎ，ｋ）、及びマスキングノイズ信号ｍｎ（ｎ）に基づいてマスキング信号を表すマスキング信号Ｍ_Ｌ（ｎ，ｋ）の合計であり得る。したがって、出力信号Ｍｉｃ_Ｒ（ｎ，ｋ）は、有用音信号Ｓ_Ｒ（ｎ，ｋ）、室１０１内に存在する周囲ノイズを表すノイズ信号Ｎ_Ｒ（ｎ，ｋ）、及びマスキングノイズ信号ｍｎ（ｎ）に基づいてマスキング信号を表すマスキング信号Ｍ_Ｒ（ｎ，ｋ）の合計であり得る。ＡＥＣモジュール１１２は更に、ステレオ信号ｘ（ｎ）及びマスキング信号ｍｎ（ｎ）を受信して、誤り信号Ｅ（ｎ，ｋ）、ＡＥＣモジュール１１２内の適応ポストフィルタの出力（ステレオ）信号ＰＦ（ｎ，ｋ）、及び有用信号（複数可）のエコー信号（複数可）の推定を表す（ステレオ）信号
を提供し得る。周囲／背景ノイズには、マスクされる音声音を指さない全ての種類の音を含むので、周囲／背景ノイズは車両により生成されたノイズ、室内に存在する音楽、及び場合によっては話者の音区画でのコミュニケーションに加わっていない他の人々の音声音も含まれることが理解される。周囲／背景ノイズが十分なマスキングを提供する場合、更なるマスキング音は必要ではないことが更に理解される。

信号処理モジュール１０４は、例えば、ノイズ推定モジュール１１３、ノイズ低減モジュール１１４、利得計算モジュール１１５、マスキングモデル化モジュール１１６、及びマスキング信号計算モジュール１１７を更に含む。ノイズ推定モジュール１１３は、（ステレオ）誤り信号Ｅ（ｎ，ｋ）をＡＥＣモジュール１１２から受信し、周囲（背景）ノイズの推定を表す（ステレオ）信号
を提供する。ノイズ低減モジュール１１４は、出力（ステレオ）信号ＰＦ（ｎ，ｋ）をＡＥＣモジュール１１２から受信し、受聴者の耳位置で感知されたときの音声信号の推定を表す信号
を提供する。信号
は利得計算モジュール１１５に供給され、このモジュールには信号Ｉ（ｎ）も供給され、信号
に基づいて受聴者の耳位置で感知されたときの近接話者の音声信号の電力スペクトル密度Ｐ（ｎ，ｋ）を、マスキングモデル化モジュール１１６に供給する。マスキングモデルに代えてまたはそれに加えて、共通了解度モデルを使用し得る。マスキングモデル化モジュール１１６は信号Ｇ（ｎ，ｋ）を提供するが、これは受聴者の耳位置で感知されたときの推定された近接話者の音声信号の電力スペクトル密度Ｐ（ｎ，ｋ）のマスキング閾値を表し、所望のマスキング信号のマグニチュード周波数応答を呈する。信号Ｇ（ｎ，ｋ）を、ホワイトノイズソース１０５により提供されて所望のマスキング信号の位相周波数応答を送達する、ホワイトノイズ信号ｗｎ（ｎ）と結合することにより、マスキング信号計算モジュール１１７内でマスキング信号ｍｎ（ｎ）が生成されることになり、それがその後、とりわけ、ＭＩＭＯシステム１１０に提供される。信号処理モジュール１０４は、例えば、スイッチ制御モジュール１１８を更に含み、これが多数のマイクロホン１０３の出力信号及び信号ＤｅｓＰｏｓＩｄｘを受信し、信号Ｉ（ｎ）を提供する。

本実施例では自動車のキャビンである室内には、多数のラウドスピーカが、マイクロホンと共に位置付けられる。現存のシステムラウドスピーカに加えて、（音響的に）能動的なヘッドレストを採用し得る。「能動ヘッドレスト」の用語は、上述のラウドスピーカとマイクロホンの組み合わせ（例えば、組み合わせ２１７〜２２０）等の、１つ以上のラウドスピーカ及び１つ以上のマイクロホンが中に一体化されるヘッドレストを指す。室内に位置づけられたラウドスピーカは、例えば、音楽等の、有用信号を室内に投射する。これが、エコーの形成に繋がる。また、「エコー」は、再生用ラウドスピーカ（複数可）と同一の室内に位置するマイクロホンにより受信される有用信号（例えば、音楽）を指す。室内に位置付けられたマイクロホンは、周囲ノイズまたは音声等の、他の信号と共に有用信号を録音する。周囲ノイズは、路上牽引、換気、風、車両エンジン、等の多数のソースにより生成され得る、または室に入る他の妨害音で構成され得る。音声信号は、他方で、車両内に居る任意の同乗者から来る場合もあり得、それらの意図された使用に応じて、有用信号または破壊的背景ノイズのソースとみなし得る。

ヘッドセット内に一体化され通話が分からなくされるべき領域内に位置付けられた２つのマイクロホンからの信号は、まず、エコーが取り除かれねばならない。その目的で、前述のマイクロホン信号に加えて、対応する基準信号（本例では、音楽信号及びマスキング信号等の生成された有用ステレオ信号）が、ＡＥＣモジュールに供給される。ＡＥＣモジュールは、２つのマイクロホンの各々に対して、出力信号として、適応フィルタからの対応する誤り信号
適応ポストフィルタからの出力信号
及び対応するマイクロホンにより受信された有用信号（たとえば、音楽）のうちのエコー信号
を提供する。

ノイズ推定モジュール１１３では、各マイクロホン位置に存在する（周囲）ノイズ信号
に基づいて推定される。ノイズ低減モジュール１１４では、周囲ノイズの更なる低減が、適応ポストフィルタの出力信号
に基づいて行われ、エコーが残ったもの及び周囲ノイズの一部の抑制も行う。ノイズ低減モジュール１１４からの、その時点の、出力は、周囲ノイズを大幅に取り除かれた、マイクロホンから来る音声信号
の推定である。信号Ｉ（ｎ）（以下に更に詳述する）と共に、有用信号エコー信号
背景ノイズ信号
及び会話を分からなくされる領域で検出された音声信号
のかくして得られた隔離推定を用いて、電力スペクトル密度Ｐ（ｎ，ｋ）が、利得計算のモジュールで計算される。これらの計算に基づいて、マスキング信号Ｇ（ｎ，ｋ）のマグニチュード周波数応答値が、次いで計算される。電力スペクトル密度Ｐ（ｎ，ｋ）は、近接または遠方の話者が活動的であって会話が行われているスペクトル領域内のみにいるときにのみマスキング信号が生成されることを確実にするように構成されなければならない。基本的に、電力スペクトル密度Ｐ（ｎ，ｋ）も、マスキング信号Ｇ（ｎ，ｋ）の周波数応答値を生成するために直接使用され得るのだが、この信号の高い狭帯域動特性により、十分なマスキング品質を有さずに生成される信号となる可能性がある。このため、電力スペクトル密度Ｐ（ｎ，ｋ）を直接使用する代わりに、そのマスキング閾値Ｇ（ｎ，ｋ）を使用して所望のマスキング信号のマグニチュード周波数応答値を生じさせる。

マスキングモデルモジュール１１６では、電力スペクトル密度Ｐ（ｎ，ｋ）である入力信号を使用して、そこに実装されたマスキングモデルに基づいてマスキング信号Ｇ（ｎ，ｋ）のマスキング閾値を計算する。電力スペクトル密度Ｐ（ｎ，ｋ）の狭帯域動特性の高ピークがマスキングモデルにより切り抜かれ、その結果、これらの狭帯域スペクトル領域でのマスキングは不十分となる。これを補うために、これらのスペクトルピークを包囲するスペクトル領域内のマスキング信号に対して拡散スペクトルが生成され、これが再度マスキング効果を局部的に強化するため、マスキング信号の動特性を制限することがあっても、その有効なスペクトル幅が拡大される。このように生成された時間及びスペクトル変数マスキング信号は、最小バイアスを呈するので、ユーザによる一層の支持に合致する。更に、信号のマスキング効果がこのように高められる。

マスキング信号計算モジュール１１７では、ホワイトノイズ信号（ｗｎ（ｎ）のホワイトノイズ位相周波数応答が、マスキング信号Ｇ（ｎ，ｋ）の現存のマグニチュード周波数応答に重畳されて複合マスキング信号を生成するが、これはその後スペクトルドメインから時間ドメインに変換され得る。この最終結果が時間ドメインの所望のマスキング信号ｍｎ（ｎ）であり、これは、一方ではＭＩＭＯシステムを通して対応する甲高い区画内に投射されるが、他方で、マイクロホン信号中に生じるエコーを消去し、フィードバック問題を防ぐためには、ＡＥＣモジュールに追加の基準信号として入力されなければならない。

スイッチ制御モジュール１１８は、室内に存在する全てのマイクロホン信号をその入力信号として受信し、これらに基づいて、その出力部に時間変数２値重み付け信号Ｉ（ｎ）を供給する。この信号は、本例では近接話者の位置である所望の位置ＤｅｓＰｏｓＩｄｘから生じた推定された音声信号
が、（Ｉ（ｎ）＝１）であるかまたは（Ｉ（ｎ）＝０）であるかを示す。音声ソースのこのように推定された位置が、デフォルトまたは選択により想定された既知の近接話者の位置ＤｅｓＰｏｓＩｄｘに対応するときのみ、マスキング信号が生成されることになる。そうでない場合は、即ち、マイクロホンに含まれた推定された音声信号
が室内の別の人から生じたときには、マスキング信号の生成は阻止されることになる。当然、座席検出センサまたはカメラからのデータも、代替的または追加の入力ソースとして利用可能である場合は、評価され得る。このことは、処理を相当に簡素化し、近接話者の信号を検出されたときの潜在的な誤りに対してシステムをより強くするであろう。

図２を参照して、室、例えば、自動車キャビン２００、は４つの着座位置２０１〜２０４を含み、それらは、前部左位置２０１（運転手位置）、前部右位置２０２、後部左位置２０３及び後部右位置２０４である。各位置２０１〜２０４で、左及び右チャネルを有するステレオ信号が再生されるので、両耳性可聴信号が各位置で受信され、それらは、前部左位置左及び右チャネル、前部右位置左及び右チャネル、後部左位置左及び右チャネル、後部右位置左及び右チャネルである。各チャネルには、ウーファ、中音ラウドスピーカ及びツィータ等の、ラウドスピーカまたは同種または異種のラウドスピーカのグループを含み得る。自動車キャビン２００には、システムラウドスピーカ２０５〜２１０を、左前部ドア内（ラウドスピーカ２０５）、右前部ドア内（ラウドスピーカ２０６）、左後部ドア内（ラウドスピーカ２０７）、右後部ドア内（ラウドスピーカ２０８）、左後部シェルフ上（ラウドスピーカ２０９）、右後部シェルフ上（ラウドスピーカ２１０）、ダッシュボード内（ラウドスピーカ２１１）及びトランク内（ラウドスピーカ２１２）に配置し得る。更に、浅いラウドスピーカ２１３〜２１６が、着座位置２０１〜２０４上方のルーフライナに一体化される。ラウドスピーカ２１３は、前部左位置２０１の上方に、ラウドスピーカ２１４は前部右位置２０２上方に、ラウドスピーカ２１５は後部左位置２０３上方に、ラウドスピーカ２１６は後部右位置２０４上方に配設される。ラウドスピーカ２１３〜２１６は、自動車キャビンの前部区分と後部区分間でクロストーク減衰を増大させるために傾けられる。受聴者の耳と対応するラウドスピーカとの間の距離は、音区画間でクロストーク減衰を増大させるために、できるだけ短く保たれ得る。加えて、ラウドスピーカと各ラウドスピーカ手前のマイクロホンとの対を有するラウドスピーカとマイクロホンとの組み合わせ２１７〜２２０は、着座位置２０１〜２０４で座席ヘッドレスト内に一体化され得、受聴者の耳と対応するラウドスピーカとの間の距離は更に減少し、前部座席のヘッドレストは前部座席と後部座席との間に更なるクロストーク減衰を提供するであろう。計測目的で、ヘッドレストラウドスピーカ手前に配置されたマイクロホンは、聴音位置に着座したときの平均的な受聴者の耳の位置に装着され得る。ルーフライナに配置されたウドスピーカ２１３〜２１６及び／またはヘッドレスト内に配置されたラウドスピーカとマイクロホンの組み合わせ２１７〜２２０の対のラウドスピーカは、指向性を更に増大させるために電気動特性プレーナラウドスピーカ（ＥＤＰＬ）を含む任意の指向性ラウドスピーカであり得る。理解されるように、ヘッドレストラウドスピーカ及びマイクロホンの位置が極めて重要である。残りのラウドスピーカは、ＩＳＺシステム用に使用される。システムラウドスピーカは、主にＩＳＺに対する低域スペクトル範囲を含むように使用されるが、音楽等の、有用信号の再生用にも使用される。例えば、指向性ラウドスピーカまたは音レンズにより、受動な方法で分離を提供するシステムとは対照的に、ＭＩＭＯシステムは異なる音区画間に、例えば、（適応）フィルタにより、能動な方法で分離を提供するシステムであることが理解され得る。ＩＳＺシステムは、能動及び受動分離を組み合わせる。

図３に示すように、図１に示したＡＥＣモジュール１１２として使用され得る例示のＡＥＣモジュール３００は、マイクロホン信号Ｍｉｃ_Ｌ（ｎ）及びＭｉｃ_Ｒ（ｎ）、マスキング信号ｍｎ（ｎ）、ならびに２つの個々のモノラル信号ｘ_Ｌ（ｎ）及びｘ_Ｒ（ｎ）で構成されるステレオ信号ｘ（ｎ）を受信し得、かつ誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）、ポストフィルタ出力信号ｐｆ_Ｌ（ｎ）及びｐｆ_Ｒ（ｎ）、ならびに受聴者の耳位置で感知される有用信号の推定を表す信号
を提供し得る。図２に示した設備に適用される図３に示すＡＥＣモジュール３００は、図４と関連してより詳細に以下に説明する。ＡＥＣモジュール３００は、制御モジュール４０７により制御される６つの制御可能なフィルタ４１０〜４０６（即ち、それらの伝達関数が制御信号により制御され得るフィルタ）を含む。制御モジュール４０７は、制御可能なフィルタ４０１〜４０６の伝達関数
を制御するために、例えば、正規化最小二乗平均（ＮＬＭＳ）アルゴリズムを採用して、ステップサイズ信号
を生成する。ステップサイズ信号
は、２つの個々のモノラル信号ｘ_Ｌ（ｎ）及びｘ_Ｒ（ｎ）、マスキング信号ｍｎ（ｎ）、ならびに制御信号
からステップサイズコントローラモジュール４０８により計算される。ステップサイズコントローラモジュール４０８は更に、ポストフィルタモジュール４０９を制御するポストフィルタ制御信号
を計算しかつそれらを出力する。ポストフィルタモジュール４０９は、誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）からポストフィルタ出力信号ｐｆ_Ｌ（ｎ）及びｐｆ_Ｒ（ｎ）を生成するように制御される。誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）は、補正信号を差し引く、マイクロホン信号Ｍｉｃ_Ｌ（ｎ）及びＭｉｃ_Ｒ（ｎ）から得られる。これらの補正信号は、信号
ならびに制御可能なフィルタ４０３及び４０４の出力信号
の合計から得られ、信号
は制御可能なフィルタ４０１及び４０２の出力信号
の合計であり、信号
は制御可能なフィルタ４０５及び４０６の出力信号
の合計である。制御可能なフィルタ４０１及び４０５には、信号モノラル信号ｘ_Ｌ（ｎ）が供給される。制御可能なフィルタ４０２及び４０６には、モノラル信号ｘ_Ｒ（ｎ）が供給される。制御可能なフィルタ４０３及び４０４には、マスキング信号ｍｎ（ｎ）が供給される。マイクロホン信号Ｍｉｃ_Ｌ（ｎ）及びＭｉｃ_Ｒ（ｎ）は、図１に示した設備中の多数のマイクロホン１０３のうちのマイクロホン１０３ａ及び１０３ｂ（これらは、図２に示したヘッドレスト内に配置されたラウドスピーカとマイクロホンの組み合わせ２１７〜２２０のうちのマイクロホンであり得る）により提供される。

図４の右上部分には、一方の、図１に示したラウドスピーカ１０２ｃ及び１０２ｄまたは図２に示したラウドスピーカ２０５〜２０８等の４つのステムラウドスピーカ、ならびに図１に示したラウドスピーカ１０２ａ及び１０２ｂまたは図２に示したラウドスピーカとマイクロホンの組み合わせ２２０中のラウドスピーカ対等の特定の座席（例えば、位置２０４）のヘッドレスト内に配置された２つのラウドスピーカと、他方の、図１に示したマイクロホン１０３ａ及び１０３ｂまたは図２に示したラウドスピーカとマイクロホンの組み合わせ２２０中のマイクロホン等の、２つのマイクロホンとの間の音響伝達チャネルの伝達関数
を示す。自動車キャビン内に存在するラウドスピーカの各々が、ステレオ信号ｘ（ｎ）の左または右チャネルのいずれかをブロードキャストすることが想定される。しかし、実際には、このことは、図２に示した設備内の中心ラウドスピーカ２１１またはサブウーファ２１２等の中心に配置したラウドスピーカが、通常はモノラル信号ｍ（ｎ）をブロードキャストするために当てはまらず、この場合、当該信号は、ステレオ信号ｘ（ｎ）の左及び右チャネルｌ（ｎ）、ｒ（ｎ）の合計を、

に従って表す。

各ラウドスピーカは、ラウドスピーカによりブロードキャストされた信号がそれぞれの室のインパルス応答（ＲＩＲ）でフィルタをかけられて互いに重畳されてそれぞれの完全なエコー信号を形成した後にマイクロホンの各々により受信されるという点で、マイクロホン信号及びそれに含まれるエコー信号に寄与する。例えば、それぞれのラウドスピーカから左マイクロホンへのステレオ信号ｘ（ｎ）のうちの左チャネル信号ｘ_Ｌ（ｎ）の平均ＲＩＲは、

それぞれのラウドスピーカから右マイクロホンへのスタジオ信号ｘ（ｎ）のうちの左チャネル信号ｘ_Ｌ（ｎ）に対しては、

と書き表し得る。

したがって、それぞれのラウドスピーカから右マイクロホンへのステレオ信号ｘ（ｎ）のうちの右チャネル信号ｘ_Ｒ（ｎ）の平均ＲＩＲは、

それぞれのラウドスピーカから左マイクロホンへのスタジオ信号ｘ（ｎ）のうちの右チャネル信号ｘ_Ｒ（ｎ）に対しては、

と書き表し得る。

加えて、マスキング信号ｍｎ（ｎ）は、２つのマイクロホンにより受信されるエコーを生成する。

話者が後部座席の１つに着座し、受聴者が前部座席の１つに着座し、受聴者は後部座席の話者が話している内容を理解するべきでなく、マスキング音が受聴者の座席のヘッドレスト内のラウドスピーカから発されている、典型的状況を図４に示す。マスキング音は、受聴者の座席のヘッドレスト内のラウドスピーカによってのみブロードキャストされ、他のラウドスピーカはマスキングに関与しないので、左マイクロホンに対する平均

であり、右マイクロホンに対する平均

である。

以下の説明は、話者が右後部座席に着座し、受聴者が左前部座席（運転手座席）に着座し、受聴者は話者が話す内容を理解するべきでない、という想定に基づいている。話者と受聴者との他のいかなる位置関係も同様に適用され得る。上記の状況下で、左及び右マイクロホンにより受信される総エコー信号Ｅｃｈｏ_Ｌ（ｎ）及びＥｃｈｏ_Ｒ（ｎ）は、

かつ

であり、式中、「＊」はたたみ込み演算子である。

Ｋ＝３の無相関の入力信号ｘ_Ｌ（ｎ）、ｘ_Ｒ（ｎ）及びｍｎ（ｎ）ならびにＩ＝２のマイクロホン（ヘッドレスト内）の場合、Ｋ・Ｉ＝６の異なる独立した適応システムが確立され、これが、それぞれの
の推定をするように、即ち、図４に示すように、ＲＩＲの推定
を生成するように機能し得る。

信号ｍ_Ｌ（ｎ）を出力する左マイクロホン及び信号ｍ_Ｌ（ｎ）を出力する右マイクロホンにより録音される有用信号のエコーは、ＡＥＣモジュール３００の第１の出力信号として機能し、

のように推定され得る。

誤り信号ｅ_Ｌ（ｎ）、ｅ_Ｒ（ｎ）は、ＡＥＣモジュール３００の第２の出力信号として機能し、

のように計算され得る。

上記の式から、誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）が理想的には潜在的に現存するノイズまたは音声信号成分のみを含むことが分かる。誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）は、ポストフィルタモジュール４０９に供給され、このモジュールがＡＥＣモジュール３００の第３の出力信号ｐｆ_Ｌ（ｎ）及びｐｆ_Ｒ（ｎ）を出力するが、それらは、

及び

と書き表し得る。

適応ポストフィルタ４０９は、誤り信号ｅ_Ｌ（ｎ）及びｅ_Ｒ（ｎ）に潜在的に残存するエコーを抑制するように作用する。残存エコーは、ポストフィルタ４０９の係数ｐ_Ｌ（ｎ）及びｐ_Ｒ（ｎ）でたたみ込みをとられるが、これらはある種の時不変スペクトルレベルバランサとして機能する。適応ポストフィルタの係数ｐ_Ｌ（ｎ）及びｐ_Ｒ（ｎ）に加えて、本実施例では適応適合ステップサイズμ_Ｌ（ｎ）及びμ_Ｒ（ｎ）である、適応ステップサイズ
は、ステップサイズ制御モジュール４０８で、入力信号ｘ_Ｌ（ｎ）、ｘ_Ｒ（ｎ）、ｍｎ（ｎ）、
に基づいて計算される。すでに上述したように、代替的には、ＡＥＣモジュール内の信号処理は、時間ドメインではなく周波数ドメインにおいてであり得る。信号処理手順は、以下の通りに書き表し得る。

入力信号

この場合、

のように書き表し得るが、

Ｌはブロック長さであり、Ｎは適応フィルタの長さであり、Ｍ＝Ｎ＋Ｌ−１は高速フーリエ変換（ＦＦＴ）の長さであり、Ｋ＝０、…．、Ｋ−１、及びＫは無相関の入力信号の数である。

エコー信号

この場合、

であり、これは、
の最終Ｌ個の要素を含むベクトルであり、かつ、

誤り信号

この場合、

０は長さＭ／２を有する零の列ベクトルであり、ｅ_ｍ（ｎ）は長さＭ／２を有する誤り信号ベクトルである。

入力信号エネルギー

αは入力信号エネルギーに対する平滑化係数であり、ｐ_Ｍｉｎは入力信号エネルギーの有効最小値である。

適合ステップサイズ

、かつ

適合：

式中、

は制約無しの適応の係数、

は制約下の適応の係数、

はベクトルｘの対角行列、

ｘは（複素数）値ｘの共役複素数値である。

制約：

式中、

の第１のＭ／２要素を有するベクトルである。

システム距離

式中、

ＣはＤＴＤの感度を決定する定数である。

適合ステップサイズ

式中、

の許容上限値、μ_Ｍｉｎは許容下限値である。

適応ポストフィルタ

式中、

の許容上限値であり、

の許容下限値であり、

である。

したがって、ＡＥＣモジュールの出力信号は、以下の通りに書き表し得るのだが、

有用信号のエコー
は、

、かつ

に従って計算される。

マイクロホン信号に含まれる有用信号エコーのスペクトルドメインでの計算により、所望の信号がマイクロホンが配置されている場所であって近接話者の音声が（例えば、運転手位置に着座している人物により）理解されるべきではない場所で、如何なる強度及び色合いを有するかを決定することが可能になる。この情報は、音声信号が受聴者の位置、例えば運転手位置で聞こえないように、離散時点ｎでの現在の有用信号（例えば、音楽）が近接話者から発生している可能性のある信号をマスクするのに十分であるのかを評価する上で重要である。これが該当する場合は、運転手位置に対してまたはそこで追加のマスキング信号ｍｎ（ｎ）を生成及び放射させる必要は無い。

誤り信号

誤り信号
は、僅かな残存エコーに加えて、ほとんど純然たる背景ノイズ及び近くの話者からの元の信号を含む。

適応ポストフィルタの出力信号

誤り信号
とは対照的に、適応ポストフィルタの出力信号
は、一種のスペクトルレベルバランシングを提供する時不変適応ポストフィルタリングによりかなりの残存エコーを含むことはない。ポストフィルタリングは、適応ポストフィルタの出力信号
に含まれる近接話者の音声信号成分に悪影響を及ぼすことはほとんどないが、むしろ同様に含まれる背景ノイズに及ぼす。背景ノイズの色合いは、少なくとも能動有用信号が含まれるときポストフィルタリングにより修正され、その結果背景ノイズレベルは最終的に低減されるので、修正された背景ノイズは、その修正により、背景ノイズの推定の基礎としては機能し得ない。このため、誤り信号
は、背景ノイズ
を推定するために使用され得、これが、（ステレオ）背景ノイズにより提供されるマスキング効果の評価の基礎を形成し得る。

図５は、図１に示した設備でノイズ推定モジュール１１３として使用し得るノイズ推定モジュール５００を示す。より明確にするため、図５は、背景ノイズの推定のための信号処理モジュールのみを示すが、これは、入出力信号で、左及び右マイクロホン（例えば、マイクロホン１０３ａ及び１０３ｂ）により録音された背景ノイズ部分の平均値に対応する。ノイズ推定モジュール５００は、誤り信号
である入力信号、及び推定されたノイズ信号
である出力信号を受信する。

図６は、ノイズ推定モジュール５００の構成を詳細に説明する。ノイズ推定モジュール５００は、誤り信号
を受信してその電力スペクトル密度
を計算する電力スペクトル密度（ＰＳＤ）推定モジュール６０１、及び計算した電力スペクトル密度
の最大電力スペクトル密度値
を検出する最大電力スペクトル密度検出器モジュール６０２を含む。ノイズ推定モジュール５００は更に、最大電力スペクトル密度検出器モジュール６０２から受信した最大電力スペクトル密度
を時間について平滑化して時間的に平滑化された最大電力スペクトル密度
を提供する任意選択の時間平滑化モジュール６０３、時間平滑化モジュール６０３から受信した最大電力スペクトル密度
を周波数について平滑化してスペクトル的に平滑化された最大電力スペクトル密度
を提供するスペクトル平滑化モジュール６０４、及びスペクトル平滑化モジュール６０４から受信したスペクトル的に平滑化され最大電力スペクトル密度
を非線形的に平滑化して、推定されたノイズ信号
である、非線形平滑化最大電力スペクトル密度を提供する非線形平滑化モジュール６０５を含む。時間平滑化モジュール６０３は更に、平滑化係数τ_ＴＵｐ及びτ_{ＴＤｏｗｎ}を受信し得る。スペクトル平滑化モジュール６０４は更に、平滑化係数τ_ＳＵｐ及びτ_{ＳＤｏｗｎ}を受信し得る。非線形平滑化モジュール６０５は更に、平滑化係数Ｃ_Ｄｅｃ及びＣ_Ｉｎｃ、及び最小ノイズレベル設定ＭｉｎＮｏｉｓｅＬｅｖｅｌを受信し得る。

ノイズ推定モジュール５００の唯一の入力信号は、ＡＥＣモジュールから入来する２つのマイクロホンからの誤り信号Ｅ_Ｌ（ｎ，ｋ）及びＥ_Ｒ（ｎ，ｋ）である。厳密にこれらの信号を推定用に使用している理由は、すでに前述した。図６から、両マイクロホンにより録音された背景ノイズの平均値に対応する推定されたノイズ信号
を計算するために２つの誤り信号Ｅ_Ｌ（ｎ，ｋ）及びＥ_Ｒ（ｎ，ｋ）が如何に処理されるかが、理解され得る。

各入力信号、即ち、誤り信号Ｅ_Ｌ（ｎ，ｋ）及びＥ_Ｒ（ｎ，ｋ）、の電力は、それらの電力スペクトル密度
を計算（推定）し、次いで、それらの最大値、即ち、最大電力スペクトル密度
を定式化することにより決定される。任意選択的に、最大電力スペクトル密度
を時間について平滑化し得るが、その場合、平滑化は最大電力スペクトル密度
が上昇しているか下降しているかに依存することになる。最大電力スペクトル密度が上昇している場合、平滑化係数τ_ＴＵｐを適用し、下降していれば、平滑化係数τ_{ＴＤｏｗｎ}を適用する。別の選択肢は、最大電力スペクトル密度
を時間について平滑化することであり、これはその後スペクトル平滑化モジュール６０４に対する入力信号として機能し、そこで信号はスペクトル平滑化を受ける。次に、スペクトル平滑化モジュール６０４では、平滑化を低から高へ（τ_ＳＵｐ能動）、高から低へ（τ_{ＳＤｏｗｎ}能動）、または平滑化を両方向に行うべきかが決定される。同一の平滑化係数（τ_ＳＵｐ＝τ_{ＳＤｏｗｎ}）を用いて実行される両方向のスペクトル平滑化は、スペクトルバイアスが防止されるべきときに適切であり得る。背景ノイズをできるだけ確実に推定するのが望ましいのかもしれないので、スペクトル歪は許容され得ず、この場合両方向のスペクトル平滑化を必要とする。

次に、スペクトル的に平滑化された最大電力スペクトル密度
が、非線形平滑化モジュール６０５に送られる。非線形平滑化モジュール６０５では、会話、ドアの急閉、マイクロホンの軽いたたき等の、スペクトル的に平滑化された最大電力スペクトル密度
に依然残存する何らかの突然の破壊的ノイズが、抑制される。

図６に示す設備中の非線形平滑化モジュール６０５は、図７に示す例示の信号フロー構成を有し得る。突然の破壊的ノイズは、入力信号である、スペクトル的に平滑化され最大電力スペクトル密度
及びそれ自体がステップ７０２で一の時間係数だけ遅延された推定されたノイズ信号
の、個々のスペクトルライン（Ｋ−Ｂｉｎｓ）間で進行中の比較（ステップ７０１）を遂行することにより抑制し得る。入力信号であるスペクトル的に平滑化され最大電力スペクトル密度
が、遅延された出力信号である遅延推定されたノイズ信号
より大きければ、いわゆる増分イベントが誘発される（ステップ７０３）。この場合、遅延推定されたノイズ信号
は係数Ｃ_Ｉｎｃ＞１を有する増分パラメータで乗算されることになり、推定されたノイズ信号
が遅延推定されたノイズ信号
と比べて増大することになる。反対の場合、即ち、スペクトル的に平滑化された最大電力スペクトル密度
が遅延推定されたノイズ信号
より小さければ、いわゆる減分イベントが誘発される（ステップ７０４）。ここで、遅延推定されたノイズ信号はＣ_Ｄｅｃ＜１を乗算されて、推定されたノイズ信号
が遅延推定されたノイズ信号
より小さい結果となる。次に、結果として生じる推定されたノイズ信号
は、閾値ＭｉｎＮｏｉｓｅＬｅｖｅｌと（ステップ７０５で）比較される。閾値未満であれば、推定されたノイズ信号
は、その後、

に従って、その値に制限される。

その推定がＡＥＣモジュールから直接取られ得る有用信号のエコー、またはノイズ推定モジュールから引き出した推定背景ノイズが、会話が理解されるべきでない領域内で音声信号の十分なマスキングを提供しなければ、マスキング信号ｍｎ（ｎ）が計算される。これのために、マイクロホン信号内の音声信号成分
が推定され、これがマスキング信号ｍｎ（ｎ）の生成の基礎として働く。音声信号成分
を決定するための可能な一方法を、以下に説明する。

図８は、図１に示した設備でノイズ低減モジュール１１４として使用され得るノイズ低減モジュール８００を示す。ノイズ低減モジュール８００は、図４に示したポストフィルタ４０９の出力信号
である、入力信号、及び推定された音声信号
である、出力信号を受信する。図９は、ビームフォーマ９０１及びウィーナーフィルタ９０２を含むノイズ低減モジュール８００を詳細に説明する。ビームフォーマ９０１では、信号
が互いに減算器９０３により減算されるが、この減算が行われる前には、信号
のうちの１つ、例えば、信号
が遅延要素９０４に送られて、信号
に対して遅延させる。遅延要素９０４は、例えば、オールパスフィルタまたは時間遅延回路であり得る。減算器９０３の出力は、スケーラ９０５（例えば、２で除算する）を通ってウィーナーフィルタ９０２へ送られ、これが、推定された音声信号
を提供する。

図８及び９から差し引かれ得るように、マイクロホンに含まれる音声信号
の抽出は、適応ポストフィルタ信号
からの出力信号に基づき、これは、図８及び９では信号
と称される。上述したように、信号
即ち、
についての特性は、それらが含んでもいる音声信号に永久歪みを生じることなく、実質的に内在する周囲ノイズの低減と共に、適応ポストフィルタにより更なるエコー低減を受けることである。ノイズ低減モジュール８００は、信号
に残存する周囲ノイズ成分を抑制するかまたは理想的にはそれを除去し、所望の音声信号
のみが残存することになるのが理想的である。図９に見られるように、この目的を達成するために、処理は２つの部分に分けられる。

第１の部分として、ビームフォーマが使用されるが、その空間フィルタ効果を活かすためには、基本的には遅延及び合計ビームフォーマになる。この効果は、主に高域スペクトル範囲で、（マイクロホン間の距離ｄ_Ｍｉｃに応じて）周囲ノイズの低減をもたらすことが知られている。遅延及び合計ビームフォーマが使用されるときに通常行われるような、遅延に対する補償に代えて、本例では、時間可変スペクトル位相補正を、オールパスフィルタＡ（ｎ，ｋ）の支援により実行し、以下の数式に従って入力信号から、計算される。

計算を行う前に、両チャネルが、音声信号に関して同一位相を有することが確実にされていなければならない。そうでない場合は、音声信号成分の部分的に破壊的な重複により、音声信号の不要な抑制に至ることになり、信号対ノイズ比（ＳＮＲ）の質を低下させる。以下の信号が、オールパスフィルタの出力部に提供される。

位相補正区域Ａ（ｎ，ｋ）を採用するときには、他のマイクロホン（ここでは
右マイクロホンから）からの角周波数応答値が使用されるが、信号供給マイクロホンのマグニチュード周波数応答値（本例では、信号
左マイクロホンから生じる）のみが出力部に提供される。このように、話者のもの等の、整合的な到来信号成分は、そのままに維持されるが、周囲ノイズ等の、他の整合的でない到来音要素は、計算で低減される。遅延及び合計ビームフォーマを使用して概ね低減され得る最大減衰は３ｄＢであるが、これは、ｄＭｉ_ｃ＝０．２「ｍ」のマイクロホン距離（ヘッドレスト内のマイクロホンまでの距離にほぼ対応する）、ｃ_θ＝_２０℃＝３４３ｍｓの音速、では、

以上の周波数でのみ達成され得、

これは、遮断周波数ｆの計算を説明しており、この点を超えると、距離ｄ_Ｍｉｃに位置付けられた２つのマイクロホンを用いた非適応ビームフォーマの空間フィルタリングからのノイズ抑制効果が明らかになる。自動車内での周囲ノイズが暗赤色のスペクトル区域にあり、その成分が主に低周波数（約ｆ＜１ｋＨｚの範囲）の音で構成されることから、高周波数ノイズのみに影響を及ぼすビームフォーマのノイズ抑制、即ち、その空間フィルタリング、は、換気装置または解放した窓からの音等の、周囲ノイズのある特定部分のみを抑制し得ることが明らかである。

ノイズ低減モジュール８００内で行われるノイズ抑制の第２の部分は、最適なフィルタ、即ち、伝達関数Ｗ（ｎ，ｋ）を有するウィーナーフィルタ、の支援により遂行され、これは、特に、上述したように、自動車での、ノイズ低減の大部分を行う。ウィーナーフィルタの伝達関数Ｗ（ｎ，ｋ）は、以下の通りに計算され得る。

式中、

である。

上記の数式から、ウィーナーフィルタの伝達関数Ｗ（ｎ，ｋ）はまた、制約されるべきであり、最小許容値への制限が特に重要であることが分かる。伝達関数Ｗ（ｎ，ｋ）がＷ_Ｍｉｎ≫−１２ｄＢ、…、−９ｄＢの下限値に制約されないと、いわゆる「楽音」形成の結果となり、これは、マスキングアルゴリズムに必ずしも影響を及ぼすわけではないが、抽出された音声信号を提供したいとき、例えば、スピーカフォンアルゴリズムを適用するとき、に少なくとも重要なものになる。このため、またサウンドシャワーアルゴリズムに悪影響を及ぼさないため、制約はこの段階で行われる。ノイズ低減モジュール８００の出力信号Ｓ（ｎ，ｋ）は、以下の数式に従って計算され得る。

図１０は、図１に示した設備で利得計算モジュール１１５として使用され得る利得計算モジュール１０００を示す。利得計算モジュール１０００は、推定された有用信号エコー
推定された音声信号
重み付け信号Ｉ（ｎ）、及び推定されたノイズ信号
を受信し、近接話者の音声信号の電力スペクトル密度Ｐ（ｎ，ｋ）を提供する。

図１１は、利得計算モジュール１０００の構成を詳細に説明する。利得計算モジュール１０００では、近接話者の電力スペクトル密度Ｐ（ｎ，ｋ）が、推定された有用信号エコー
推定された周囲ノイズ信号
推定された音声信号
及び重み付け信号Ｉ（ｎ）に基づいて計算される。これのために、有用信号の電力スペクトル密度
が、ＰＳＤ推定モジュール１１０１及び１１０２でそれぞれ計算され、その後その最大値
が最大検出器モジュール１１０３で決定される。
は、例えば、同一の時定数τ_Ｕｐ及びτ_Ｄｏｗｎを用いて、平滑化フィルタ１１０４及び１１０５を適用することにより、周囲ノイズ信号に対して前述したと同じ方法で（時間的及びスペクトル的に）平滑化され得る。最大値
が、次いで、平滑化された有用信号
及び推定された周囲ノイズ信号
から別の最大検出器モジュール１１０６で計算され、係数ＮｏｉｓｅＳｃａｌｅにより倍率をかけられる。最大値
は、その後、比較モジュール１１０７に送られ、そこで推定された音声信号
と比較されるが、これは、ＰＳＤ推定モジュール１１０８でＰＳＤを計算し、任意選択の時間平滑化フィルタ１１０９及び任意選択のスペクトル平滑化フィルタ１１１０を経由して、有用信号と同様に円滑化されることにより、推定された音声信号
から引き出され得る。

推定された周囲ノイズ信号
の重み付けのために、スケール係数ＮｏｉｓｅＳｃａｌｅをノイズスケール≧１で適用すると、以下の結果が生成される：スケール係数ＮｏｉｓｅＳｃａｌｅをより高く選ぶほど、周囲ノイズが音声として誤って推定されるリスクがより少なくなる。しかし、音声検出器の感度が処理において低下し、マイクロホン信号に実際に含まれる音声要素が正確に検出されない可能性を増大させる。低領域レベルでの音声信号は、そのため、マスキングノイズを生成しないリスクがより大きい。

既に述べたように、最大値
及び推定された音声信号
の時間可変スペクトルは、比較モジュール１１０７に送られ、そこで、推定された音声信号
のスペクトルプログレッションと推定された周囲ノイズ
のスペクトルとの比較がされる。

推定された音声信号
としてのみ使用されるので、
であり、最大値
より大きいとき、有用信号のエコー
の最大値より大きいことになる。そうでない場合は、出力信号
は形成されず、即ち、
が出力信号として使用されることになる。言い換えれば、周囲ノイズ信号及び／または音楽信号（有用信号エコー）が現存の音声信号の「自然の」マスキングに対して不十分であるような場合のみ、追加のマスキングノイズｍｎ（ｎ）が生成されて、その周波数応答値Ｐ（ｎ，ｋ）が決定されることになる。いずれの話者から信号が生じたのかはこの時点で未知であるので、比較モジュール１１０７の出力信号
はここでは直接適用され得ない。信号が、例えば、右後部座席に着座した近接話者から生じた場合のみ、マスキング信号ｍｎ（ｎ）は生成され得る。他の場合では、例えば、信号が右前部座席に着座した同乗者から生じたとき、生成されるはずがない。しかし、この情報は重み付け信号Ｉ（ｎ）により表され、それにより出力信号
は、利得計算ブロックの出力信号、即ち、検出された音声信号Ｐ（ｎ，ｋ）を得るために、重み付けされる。理想的には、検出された音声信号Ｐ（ｎ，ｋ）は、受聴者の耳位置で感知された近接話者の声音の電力スペクトル密度のみを含むべきであり、これは、まさにこれらの位置でその時存在する音楽または周囲ノイズより大きいときのみである。

図１２は、図１に示した設備でスイッチ制御モジュール１１８として使用され得るスイッチ制御モジュール１２００を示す。図１２に示すように、検出された音声信号が近接話者の想定位置からのものであるか、または異なる位置からのものであるかの決定は、可変ＤｅｓＰｏｓＩｄｘにより記憶された近接話者の事前想定位置と共に、室内に設置されたマイクロホンのみを用いて行われる。検出された音声信号Ｐ（ｎ，ｋ）の時間可変デジタル重み付けを遂行する重み付け信号Ｉ（ｎ）である出力信号は、音声信号が近接話者から生じると、その時のみ１の値を想定すべきであり、そうでない場合は、０の値を有するべきである。

図１３に示すように、これを達成するために、ヘッドレストマイクロホンにより示される位置の平均値が平均計算モジュール１２０１で計算されるが、これは概ね遅延及び合計ビームフォーマの形成に対応し、これが平均マイクロホン信号
を生成する。座席Ｐを指すマイクロホン信号
全てはその後、高域フィルタ１２０２を経由して高域フィルタリングを受ける。高域フィルタリングは、前述したように、自動車内で主に低域スペクトル範囲に存在する周囲ノイズ要素が、抑制されて不正確な検出を生じないことを確実にするように機能する。このために、例えば、ｆ_ｃ＝１００Ｈｚの基本周波数を有する二次バターワースフィルタが使用され得る。選択肢として、低域フィルタリング（低域フィルタ１２０３を経由）を用いて、自動車の典型的周囲ノイズとは対照的に音声が統計的に支配的であるスペクトル範囲にアクセンチュエイション、即ち、制限、を適用することもできる。

このようにスペクトル的に制限されたマイクロホン信号は、その後、時間平滑化モジュール１２０４で時間について平滑化され、Ｐ個の平滑化されたマイクロホン信号ｍ_１（ｎ）、…、ｍ_Ｐ（ｎ）を提供する。ここで、例えば、１次無限インパルス応答（ＩＩＲ）低域フィルタ等の、従来の平滑化フィルタを、エネルギーを保存するために、使用し得る。Ｐ個の指標信号Ｉ_１（ｎ）、…、Ｉ_Ｐ（ｎ）が、その後、モジュール１２０５によりＰ個の平滑化されたマイクロホン信号ｍ_１（ｎ）、…、ｍ_Ｐ（ｎ）から生成されるが、これらはデジタル信号であるため１または０の値のみをとり得る。一方、時点ｎで、最高レベルを有する信号のみが、位置上で最大マイクロホンレベルを表す１の値をとり得る。前述のように、信号処理は、スペクトル範囲で主に実行され得る。このことは、ブロックでの処理を暗に前提としており、その長さは供給速度により決定される。続いて、モジュール１２０６で、最新のＬ個の指標ベクトルサンプル
からヒストグラムが、

で作られるが、最大音声信号レベルが位置Ｐに出現した回数が計数されることを意味する。これらの計数値は、その後、
の信号形態で各時間間隔ｎで最大検出器モジュール１２０７に送られる。最大検出器モジュール１２０７では、時点ｎで最高計数値
を有する信号が識別されて比較モジュール１２０８に送られ、ここで可変ＤｅｓＰｏｓＩｄｘ、即ち、近接話者の事前想定位置と比較される。
とＤｅｓＰｏｓＩｄｘとが対応すれば、ここで出力信号Ｉ（ｎ）＝１が確認され、そうでない場合は、推定された音声信号
は、近接話者の位置で発生しないこと、即ち、
Ｉ（ｎ）が０になること、が決定される。

図１４は、図１に示した設備でマスキングモデルモジュール１１６として使用され得るマスキングモデルモジュール１４００を示す。本例では電力スペクトル密度Ｐ（ｎ，ｋ）であり近接話者の信号を含む、検出された音声信号が、有用信号エコー及び周囲ノイズの最大値より大きければ、それを直接使用してマスキング信号ｍｎ（ｎ）、より厳密にいえば、マスキング閾値またはマスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）または｜ＭＮ（ｎ，ｋ）｜、をそれぞれ、計算できる。しかし、この信号のマスキング効果は、概して弱すぎるかもしれない。このことは、検出された音声信号Ｐ（ｎ，ｋ）内に発生する高くて狭い短寿命のスペクトルピークによるのかもしれない。これに対する簡単な改善策には、例えば、１次ＩＩＲ低域フィルタを用いて、検出された音声信号Ｐ（ｎ，ｋ）を高から低及び低から高へ平滑化することを含み、これにより、この信号を、マスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）を生成するために使用することが可能になるであろう。しかし、これは、検出された音声信号Ｐ（ｎ，ｋ）内の、隣接スペクトル範囲を刺激する高いピークのマスキング効果が、心理音響的に正確に検討され、かつマスキング信号ｍｎ（ｎ）に再生されるのを妨げ、それによりマスキング信号ｍｎ（ｎ）のマスキング効果を際だって低下させる。これは、マスキングモデルを適用して、マスキング閾値、即ち、マスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）を検出された音声信号Ｐ（ｎ，ｋ）から計算することにより克服し得るが、これは、他方で、いわゆる広がり関数で隣接スペクトル範囲へのピークの影響を固有的に検討しながら、一方で、検出された音声信号Ｐ（ｎ，ｋ）で高ピークを自動的に切り抜くことになるためである。結果は、はもはや高い、狭帯域レベルを呈さない出力信号だが、十分なマスキング効果を有し、完全な抑制潜在力を保持するマスキング信号ｍｎ（ｎ）を生成する。

図１４に見られるように、この一ニーズに対して、検出された音声信号Ｐ（ｎ，ｋ）の他に、追加の入力信号が、出力信号としてマスキング閾値、例えば、マスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）、を生成するために専らマスキングモデルを制御する。そのような追加の入力信号は、信号
広がり関数Ｓ（ｍ）、パラメータＧａｉｎＯｆｆｓｅｔ、及び平滑化係数βである。前述のように、マスキング閾値、即ち、マスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）、は概してマスキングノイズの周波数応答に対応するので、
と呼び得る。しかし、マスキングモデルを使用してマスキング閾値、即ち、マスキング信号のマグニチュード周波数応答Ｇ（ｎ，ｋ）を生成すると、そのマスキング閾値がまた、検出された音声信号Ｐ（ｎ，ｋ）である入力信号のマスキング閾値に対応することになる。このことは、マスキング閾値を示すために使用される異なる名称を明らかにする。

図１５に見られるように、同図は、マスキングモデルモジュール１４００の構成を詳細に示し、入力信号Ｐ（ｎ，ｋ）が変換モジュール１５０１で線形スペクトル範囲から心理音響バーク範囲に変形される。これは、これまでＭ／２ビンを必要とされたのに対して、２４バーク（臨界区画）だけしか計算する必要がないので、信号処理に関与する労力を顕著に低減させる。これに応じて変換された電力スペクトル密度Ｂ（ｎ，ｍ）は、ｍ＝［１、…、Ｂ］ｕｎｄＢ＝バーク（区画）の最大数であるのに対して、モジュール１５０２で、広がり関数Ｓ（ｍ）をそれに適用することにより平滑されて、平滑化されたスペクトルＣ（ｎ，ｍ）が提供される。平滑化されたスペクトルＣ（ｎ，ｍ）は、スペクトル平坦尺度モジュール１５０３を介して供給され、平滑化されたスペクトルＣ（ｎ，ｍ）は、時点ｎでの入力信号がよりノイズ状かまたはより音色であるか、即ち、調和性があるかに従って分類される。この分類の結果は、その後、オフセット計算モジュール１５０４に送られる前に、信号ＳＦＭ（ｎ，ｍ）に記録される。ここで、信号がノイズ状かまたはより音色であるかに応じて、対応するオフセット信号Ｏ（ｎ，ｍ）が生成される。入力信号
は、Ｏ（ｎ，ｍ）の生成用の制御パラメータとして機能し、これがその後拡散スペクトル推定モジュール１５０５に適用されて平滑化されたスペクトルＣ（ｎ，ｍ）を修正し、出力部に完全なマスキング閾値Ｔ（ｎ，ｍ）を生じる。

拡散スペクトル推定再正規化モジュールでは、絶対マスキング閾値Ｔ（ｎ，ｍ）が再正規化されるが、これは、広がり関数（Ｓｍ）が適用されるとき、誤りが広がりブロックに形成されるので必要であって、信号全エネルギーの不当な増大に存している。広がり関数Ｓ（ｍ）に基づいて、再正規化値Ｃｅ（ｎ，ｍ）が拡散スペクトル推定再正規化モジュール１５０６で計算され、次いでマスク閾値再正規化モジュール１５０７での絶対マスキング閾値Ｔ（ｎ，ｍ）の補正に使用され、最終的に再正規化された絶対マスキング閾値Ｔ_ｎ（ｎ，ｍ）を生成する。ＳＰＬへの変換モジュール１５０８では、基準音圧レベル（ＳＰＬ）値ＳＰＬ_Ｒｅｆが再正規化された絶対マスキング閾値Ｔ_ｎ（ｎ，ｍ）に適用され、バーク利得計算モジュール１５０９に供給する前にそれを音響音圧信号Ｔ_ＳＰＬ（ｎ，ｍ）に変換し、そこでその値が外部に設定され得る可変ＧａｉｎＯｆｆｓｅｔのみにより修正される。パラメータＧａｉｎＯｆｆｓｅｔの効果は、以下のように合計される：可変ＧａｉｎＯｆｆｓｅｔが大きいほど、結果として生じるマスキング信号ｎｍ（ｎ）の振幅はより大きいことになる。信号Ｔ_ＳＰＬ（ｎ，ｍ）と可変ＧａｉｎＯｆｆｓｅｔの合計は、時間平滑化モジュール１５１０で任意選択的に時間について平滑化され、これには、平滑化係数βを有する１次ＩＩＲ低域フィルタを使用し得る。時間平滑化モジュール１５１０からの出力信号は、信号ＢＧ（ｎ，ｍ）であるが、その後バークスケールから線形スペクトル範囲に変換され、最終的にマスキングノイズＧ（ｎ，ｋ）の周波数応答になる。マスキングモデルモジュール１４００は、公知のジョンストンマスキングモデルに基づくことができ、信号のうちのどの成分が不可聴であるのかを予測するために可聴信号に基づいてマスク閾値を計算する。

図１６は、マスキング信号計算モジュール１６００を示し、これは、図１に示した設備でマスキング信号計算モジュール１１７として使用され得る。マスキングノイズＧ（ｎ，ｋ）及びホワイトノイズ信号ｗｎ（ｎ）の周波数応答値を用いて、時間ドメインのマスキング信号ｍｎ（ｎ）が計算される。マスキング信号計算モジュール１６００の構成の詳細な表現を図１７に示す。マスキング信号の周波数応答は、表現範囲を単に変換することにより生成され、ホワイトノイズの場合には、πコンバータモジュール１７０１を経由して０、…、１、から
であり得る。その後、複素信号
が乗算器モジュール１７０２により形成され、その後、オーバーラップ加算（ＯＬＡ）方法または逆高速フーリエ変換（ＩＦＦＴ）を使用して周波数ドメイン−時間ドメインコンバータモジュール１７０３により時間ドメインに変換され、それぞれ、時間ドメインの所望のマスキング信号ｍｎ（ｎ）となる。

図１に戻って、マスキング信号ｍｎ（ｎ）は、今や、ＭＩＭＯまたはＩＳＺシステム等の能動システムまたは指向性ラウドスピーカを有する受動システムに、それぞれのドライバに関連して、音楽等の有用信号（複数可）ｘ（ｎ）と共に送られ得るので、室内の所定区画内でのみ信号が聞かれ得る。このことは、マスキング信号ｍｎ（ｎ）にとって特に重要であり、そのマスキング効果が専らある特定の区画または位置（例えば、運転手の座席または前部座席）に限定して要望されるが、他の区画または位置（例えば、右または左後部座席）ではマスキングノイズは理想的には聞こえるべきではない。

図１８を参照して、図１に示した設備でＭＩＭＯシステム１１０として使用され得るＭＩＭＯシステム１８００は、有用信号ｘ（ｎ）及びマスキング信号ｍｎ（ｎ）を受信し、図１に示した設備の多数のラウドスピーカ１０２に供給され得る信号を出力する。任意の入力信号がＭＩＭＯシステム１８００に送られ、これらの入力信号の各々がそれら自体の音区画に割り当てられる。例えば、有用信号は、全着座位置にまたは２つの前部着座位置のみに要望され得、マスキング信号は、単一位置、例えば、前部左着座位置に対してのみ意図され得る。

図１９に見られるように、異なる音区画に対して意図された各入力信号、例えば、有用信号ｘ（ｎ）及びマスキング信号ｍｎ（ｎ）、はそれ自体のフィルタセット、例えば、フィルタ行列１９０１、即ち、出力チャネルの数（多数のラウドスピーカのラウドスピーカＬ_ＳＰＬ１、…Ｌ_ＳＰＬの数Ｌ）及び入力チャネルの数に対応するフィルタ数のプロセットまたは行列、を用いて重み付けされねばならない。各チャネルに対する出力信号は、その後、それぞれのチャネル及びそれらの対応するラウドスピーカＬ_ＳＰＬ１、…Ｌ_ＳＰＬに送られる前に、加算器１９０２により合算され得る。

図２０は、図１に示した設備に基づいて、少なくとも１つの音区画内に音声抑制を有する別の例示の音区画設備を説明する。マスキング信号ｍｎ（ｎ）及び有用信号（複数可）ｘ（ｎ）がＡＥＣモジュール１１２に直接供給される図１に示した設備とは対照的に、マスキング信号ｍｎ（ｎ）は、マスキング信号ｍｎ（ｎ）及び有用信号（複数可）ｘ（ｎ）を、この合計をＡＥＣモジュール１１２に供給する前に加算器２００１を経由して加算（またはオーバーレイ）することにより、ＡＥＣモジュール１１２に送り返されるので、ＡＥＣモジュール１１２は、図４に示したＡＥＣモジュール３００として構成されると、６つではなく４つの適応フィルタしか必要とされない点で簡素化がなされ得る。理解されるように、図２０に示した設備は、より効率的だが、マスキング信号ｍｎ（ｎ）及び有用信号（複数可）ｘ（ｎ）が同一のチャネル及びラウドスピーカを介して配信されない場合には、再適合手順が生じ得る。

図２１を参照して、図２０に示した設備に基づいて、ＭＩＭＯシステム１１０は、図１に示した設備のＭＩＭＯシステム１１０を関与させずに、マスキング信号ｍｎ（ｎ）をラウドスピーカに供給することにより、簡素化がなされ得る。このために、マスキング信号ｍｎ（ｎ）が、２つの加算器２１０１を経由して、図１に示した設備の２つのヘッドレストラウドスピーカ１０２ａ及び１０２ｂまたは図２に示した設備のヘッドレストラウドスピーカ２２０の入力信号に加算される。ＭＩＭＯシステム１１０は、例えば、図１９に示したＭＩＭＯシステム１８００として構成されている場合は、かなりの受動減衰性能を呈する指向性ラウドスピーカ、例えば、ヘッドレスト内のラウドスピーカ、能動ビームフォーム回路を有するラウドスピーカ、受動ビームフォーム（音響レンズ）を有するラウドスピーカ、または室内の対応位置上のヘッドライナー内のＥＤＰＬ等の指向性ラウドスピーカ等の、近距離音場ラウドスピーカ、を使用すれば、マスキング信号ｍｎ（ｎ）を供給されるフィルタ行列１９０１中のＬ個の適応フィルタが省略されてＩＳＺシステム２１０２を形成し得る点で、簡素化され得るので、ＩＳＺシステムが図２１に示すように形成される。

図２２を参照して、図１に示した設備に基づいて、（例えば、非適応）処理システム２２０１が、図１に示した設備のＭＩＭＯシステム１１０に代えて採用され得る。マスキング信号ｍｎ（ｎ）が、加算器２２０２を経由して、かなりの受動減衰性能を呈するラウドスピーカ１０２の入力信号に加算される。即ち、かなりの受動減衰性能を呈する指向性ラウドスピーカ、例えば、例えば、ヘッドレスト内のラウドスピーカ、能動ビームフォーム回路を有するラウドスピーカ、受動ビームフォーム（音響レンズ）を有するラウドスピーカ、または室内の対応位置上のヘッドライナー内のＥＤＰＬ等の指向性ラウドスピーカ等の、近距離音場ラウドスピーカ、が使用されるので、受動システムが図２２に示すように形成される。マスキング信号ｍｎ（ｎ）及び有用信号（複数可）ｘ（ｎ）は、別々にＡＥＣモジュール１１２に供給される。

上述のシステム及び方法に使用されるモジュールは、ハードウェアまたはソフトウェアもしくはハードウェアとソフトウェアの組み合わせを含み得ることが理解される。

本発明の種々の実施形態を説明したが、さらに多くの実施形態および実装例が本発明の適用範囲内で可能であることが当業者に明らかであろう。

Claims

受聴者の位置及び話者の位置を含む室と、
前記室内に配置された多数のラウドスピーカと、
前記室内に配置された少なくとも１つのマイクロホンと、
前記多数のラウドスピーカ及び前記少なくとも１つのマイクロホンに接続された信号処理モジュールであって、
前記多数のラウドスピーカと関連して、第１の音区画を前記受聴者の位置の周囲に確立し、第２の音区画を前記話者の位置の周囲に確立し、
前記少なくとも１つのマイクロホンと関連して、前記第１の音区画内に存在する音の状態のパラメータを決定し、かつ
前記多数のラウドスピーカと関連して、かつ前記第１の音区画内の前記決定された音の状態に基づいて、前記第１の音区画内の共通音声了解度を低減するように構成された音声マスキング音を前記第１の音区画内に生成する、
ように構成された、前記信号処理モジュールと、
を備える、音区画設備。
前記信号処理モジュールは、前記第１の音区画内の前記音の状態を表す少なくとも１つの信号を受信し、かつ前記第１の音区画内の前記音の状態を表す前記信号ならびに心理音響マスキングモデル及び共通音声了解度モデルのうちの少なくとも１つに基づいて音声マスキング信号を提供するように構成された、マスキング信号計算モジュールを備える、請求項１に記載の前記音区画設備。
前記信号処理モジュールは、前記音声マスキング信号を受信し、及び前記多数のラウドスピーカと関連して、かつ前記音声マスキング信号に基づいて、前記音声マスキング音を前記第１の音区画内に生成するように構成された、多入力多出力システムを備える、請求項２に記載の前記音区画設備。
前記多数のラウドスピーカは、指向性ラウドスピーカ、能動ビームフォーマを有するラウドスピーカ、近接場ラウドスピーカ、及び音響レンズを有するラウドスピーカのうちの少なくとも１つを備える、請求項２または３に記載の前記音区画設備。
前記信号処理モジュールは、前記少なくとも１つのマイクロホンに接続されて、少なくとも１つのマイクロホン信号を受信する音響エコー消去モジュールを備え、前記エコー消去モジュールは、少なくとも前記音声マスキング信号を更に受信するように構成され、かつ前記第１の音区画内の前記音の状態を決定するための、前記少なくとも１つのマイクロホン信号に含まれる少なくとも前記音声マスキング信号の前記音響エコーの推定を表す、少なくともある信号を提供するように構成される、請求項２〜４のいずれかに記載の前記音区画設備。
前記信号処理モジュールは、
前記マイクロホン信号に含まれる音声信号を推定するように、かつ前記推定された音声信号を表す信号を提供するように構成されたノイズ低減モジュールと、
前記推定された音声信号を表す前記信号を受信するように、かつ前記推定された音声信号に更に基づいて前記第１の音区画内の前記音の状態を表す前記信号を生成するように構成された利得計算モジュールと、
を更に備える、請求項５に記載の前記音区画設備。
前記信号処理モジュールは、前記マイクロホン信号に含まれる周囲ノイズ信号を推定するように、かつ前記推定されたノイズ信号を表す信号を提供するように構成されたノイズ推定モジュールと、
前記推定されたノイズ信号を表す前記信号を受信するように、かつ前記推定されたノイズ信号に更に基づいて前記第１の音区画内の前記音の状態を表す前記信号を生成するように構成された利得計算モジュールと、を更に備える、請求項５または６のいずれかに記載の前記音区画設備。
前記第２の音区画内の前記話者は、ハンズフリーの通信端末を介して遠隔話者と通信する近接話者であり、
前記信号処理モジュールは、音を前記通信端末から前記第１の音区画ではなく前記第２の音区画に向けるように更に構成される、請求項１〜７のいずれかに記載の前記音区画設備。
受聴者の位置及び話者の位置を含む室内に、前記室内に配置された多数のラウドスピーカ及び前記室内に配置された少なくとも１つのマイクロホンにより音区画を配設する方法であって、
前記多数のラウドスピーカと関連して、第１の音区画を前記受聴者の位置の周囲に確立し、第２の音区画を前記話者の位置の周囲に確立することと、
前記少なくとも１つのマイクロホンと関連して、前記第１の音区画内に存在する音の状態のパラメータを決定することと、
前記多数のラウドスピーカと関連して、かつ前記第１の音区画内の前記決定された音の状態に基づいて、前記第１の音区画内の共通音声了解度を低減するように構成される音声マスキング音を前記第１の音区画内に生成することと、
を含む、前記方法。
前記第１の音区画内の前記音の状態を表す前記信号、ならびに心理音響マスキングモデル及び共通音声了解度モデルのうちの少なくとも１つに基づいて、音声マスキング信号を提供することを更に含む、請求項９に記載の前記方法。
前記音区画を確立することに関して、
前記音声マスキング信号を多入力多出力システムで処理して、前記多数のラウドスピーカと関連して、かつ前記音声マスキング信号に基づいて、前記音声マスキング音を前記第１の音区画内に生成することと、
指向性ラウドスピーカ、能動ビームフォーマを有するラウドスピーカ、近接場ラウドスピーカ、及び音響レンズを有するラウドスピーカのうちの少なくとも１つを採用することと、の少なくとも１つを更に含む、請求項１０に記載の前記方法。
少なくとも前記音声マスキング信号に基づいて、前記マイクロホン信号に含まれる少なくとも前記音声マスキング信号の前記音響エコーの推定を表す少なくとも１つの信号を生成することと、
前記マイクロホン信号に含まれる少なくとも前記音声マスキング信号の前記エコーの前記推定に基づいて、前記第１の音区画内の前記音の状態を表す前記信号を生成することと、を更に含む、請求項１０または１１のいずれかに記載の前記方法。
前記マイクロホン信号に含まれる音声信号を推定して、前記推定された音声信号を表す信号を提供することと、
前記推定された音声信号に更に基づいて、前記第１の音区画内の前記音の状態を表す前記信号を生成することと、
を更に含む、請求項１２に記載の前記方法。
前記マイクロホン信号に含まれる周囲ノイズ信号を推定して、前記推定されたノイズ信号を表す信号を提供することと、
前記推定されたノイズ信号に更に基づいて、前記第１の音区画内の前記音の状態を表す前記信号を生成することと、
を更に含む、請求項１３に記載の前記方法。
前記第２の音区画内の前記話者は、ハンズフリーの通信端末を介して遠隔話者に通信をする近接話者であり、前記方法は、
音を前記通信端末から前記第１の音区画ではなく前記第２の音区画に向けることを更に含む、請求項９〜１４のいずれかに記載の前記方法。