JP5384721B2

JP5384721B2 - 音響エコー抑制ユニットと会議開催フロントエンド

Info

Publication number: JP5384721B2
Application number: JP2012505056A
Authority: JP
Inventors: ファビアン・クーチ; マルクス・カリンゲル; マルクス・シュミット; メライ・ゾウルブ; マルコ・ディアトシュク; オリベル・モーゼル
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2009-04-15
Filing date: 2009-05-14
Publication date: 2014-01-08
Anticipated expiration: 2029-05-14
Also published as: EP2420050B1; CN102804747B; BRPI0924007A2; RU2520359C2; JP2012524434A; CN102804747A; HK1167542A1; US8873764B2; EP2420050A1; US20120076308A1; BRPI0924007B1; WO2010118763A1

Description

本発明による実施形態はエコー抑制ユニット及び音響エコーを抑制するための方法に関し、例えば、無人通話系において、又は空間音響のパラメトリック表現を基礎とするマルチチャネルラウドスピーカ再生を含む他の音響系において使用することができる。

音響エコーは、電気通信デバイスのスピーカとマイクロホンとの間の音響カップリング又はフィードバックから起こる。この現象は、特に無人の動作に存在する。スピーカからの音響フィードバック信号は遠端の加入者へ送り返され、上記加入者は遅れて届く自らの音声を認知する。エコー信号は著しく気を散らせる外乱を表し、双方向性の全二重通信を妨げる可能性すらある。さらに、音響エコーは、音響フィードバックループのハウリング効果（howling effects）及び不安定さを導く可能性もある。したがって、全二重無人電気通信システムでは、スピーカとマイクロホンとの間のカップリングを消すためにエコーを制御することが望ましい。

図９は、一般的な音響エコー制御という課題を示している。スピーカによって発せられる遠端信号はマイクロホンへ直接に届きもするし、反射経路を介しても届く。したがって、マイクロホンは局所的な近端音声を捕捉するだけでなく、こうして遠端に存在するユーザへフィードバックされるエコーも捕捉する。

スピーカ信号ｘ（ｎ）はスピーカ１００へ供給され、スピーカ１００はこのスピーカ信号を、スピーカ１００を包囲する媒体の可聴振動に変換する。図９に示すように、マイクロホン１１０は、スピーカ１００によって発せられる、図９では曲がったベクトルで示されている音を受信することがある。この場合、ｙ（ｎ）はスピーカ１００からマイクロホン１１０へのフィードバック信号を示している。

フィードバック信号ｙ（ｎ）とは別に、マイクロホン１１０は、例えばユーザによる音声を表し得る追加的な音声信号ｗ（ｎ）も記録する。双方の音響信号はマイクロホン１１０によって記録され、マイクロホン信号ｚ（ｎ）としてエコー除去ユニット１２０へ供給される。エコー除去ユニット１２０はスピーカ信号ｘ（ｎ）も受信する。エコー除去ユニット１２０は、理想的には記録された信号又はマイクロホン信号ｚ（ｎ）からスピーカ信号ｘ（ｎ）からの寄与分が取り除かれている信号を出力する。

故に、図９は、音響エコー制御という課題の一般的な設定を示している。スピーカ信号ｘ（ｎ）は、マイクロホン信号ｚ（ｎ）へフィードバックされる。エコー除去プロセスは、このエコーを、理想的には所望される局所的な近端信号ｗ（ｎ）を通過させながら除去する。

音響エコーの制御は周知の課題であり、音響エコーを除去する様々な方法が提案されている（非特許文献１３参照。）。以下、例えば非特許文献８、９に提示されているような音響エコー抑制（ＡＥＳ）の手法を簡単に振り返ってみる。それらの手法は空間オーディオ通信において考察対象の状況において最も適切であるからである。

音響信号を送信又は再生する場合には、しばしばマルチチャネルシステムが使用される。これらのシステムでは、複数のスピーカを用いて音声が再生され、及び／又は複数のマイクロホンを用いて空間音響が録音される。このようなマルチチャネルシステムは、例えば空間オーディオテレビ会議システムにおいて使用されるが、空間オーディオテレビ会議システムは異なる当事者の音響信号を送信するだけでなく録音シーンの空間的情報を保存もする（非特許文献１２参照。）。他のシステムでは、空間的情報は人為的に提供され得るか、又は対話方式で変更され得る（非特許文献５参照。）。

電気通信の場面に空間オーディオが適用される場合には、引き続き高い音響品質を保証しながら、マルチチャネル音響信号の効率的表現が使用されるべきである。パラメトリックな空間オーディオコーディングは、この課題に対処する適切な手法となる。以下、パラメトリックな空間オーディオコーディングの例に従った、特に通信の状況において重要な実際的方法を提示する。

例えば先に述べた空間オーディオコーディングとしてのマルチチャネルシステムは、複数の音響信号を極めて効率的かつ帯域幅を節約する方法で伝送する機会を提供するが、このようなマルチチャネルシステムへのエコー除去又はエコー抑制プロセスの直接的な実施は、マルチチャネルシステムによる出力としての１つ１つのスピーカ信号に基づいた１つ１つのマイクロホン信号への適用を必要とする。しかしながらこれは、処理されるべきマイクロホン信号及び／又はスピーカ信号の数が膨大であることに単に起因して、演算の複雑さを著しく、ほぼ指数関数的に増大させることを意味するかも知れない。したがってこれは、より高いエネルギー消費量、より高いデータ処理能力の必要性及び最終的には僅かに増える遅延にも起因する追加コストを必要とするかも知れない。

［１］ＩＳＯ／ＩＥＣ２３００３−１：２００７「情報技術−ＭＰＥＧオーディオ技術−第１部：ＭＰＥＧサラウンド」国際標準化機構、スイス、ジュネーブ、２００７年［２］ E. Benjamin, T. Chen共著「ネイティブＢ−フォーマットマイクロホン：第Ｉ部」第１１９回ＡＥＳ会議、論文６６２１、ニューヨーク、２００５年１０月［３］ H. Buchner, R. Aichner, W. Kellermann 共著「二次統計量を基礎とする畳み込み混合のためのブラインドソースセパレーションアルゴリズムの一般化」IEEE trans. on Speech and Audio Proceeding, １３（１）：１２０−１３４、２００５年１月［４］ H. Buchner, R. Aichner, J. Stenglein, H. Teutsch, W. Kellermann 共著「ブラインド適応ＭＩＭＯフィルタリングを用いる複数音源の同時的ローカライゼーション」音響、音声及び信号処理に関するＩＥＥＥ国際会議（ＩＣＡＳＳＰ）会報、フィラデルフィア、２００５年３月［５］ J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, W. Oomen 共著「空間オーディオオブジェクトコーディング（ＳＡＯＣ）−パラメトリックオブジェクトベースのオーディオコーディングに関する来るべきＭＰＥＧ標準」第１２４回ＡＥＳ会議、論文７３７７、アムステルダム、２００８年５月［６］ A. Favrot 他著「短期スペクトルの時間的変動を基礎とする音響エコー制御」音響エコー及び雑音制御に関する国際ワークスショップ（ＩＷＡＥＮＣ）会誌、シアトル、２００８年９月提出［７］ W. Etter, G. S. Moschytz 共著「雑音適応スペクトル振幅拡張による雑音低下」J. Audio Eng. Soc., ４２：３４１−３４９、１９９４年５月［８］ C. Faller, C. Toumery 共著「低複雑性エコー抑制のための音響エコー経路の遅延及び着色効果推定」音響エコー及び雑音制御に関する国際ワークスショップ（ＩＷＡＥＮＣ）会報、２００５年９月［９］ A. Favrot, C. Faller, M. Kallinger, F. Kuech, M. Schmidt 共著「短期スペクトルの時間的変動を基礎とする音響エコー制御」音響エコー及び雑音制御に関する国際ワークスショップ（ＩＷＡＥＮＣ）会報、２００８年９月［１０］ Jurgen Herre, Kristofer Kjorling, Jeroen Breebaart, Christof Faller, Sascha Disch, Heiko Purnhagen, Jeroen Koppens, Johannes Hilpert, Jonas Roden, Werner Oomen, Karsten Linzmeier, Kok Seng Chong 共著「ＭＰＥＧサラウンド−効率的かつ互換性マルチチャネルオーディオコーディングに関するＩＳＯ／ＭＰＥＧ標準」J. Audio Eng. Soc., ５６（１１）：９３２−９５５、２００８年１１月［１１］ J. Merimaa 著「３Ｄマイクロホンアレイの用途」第１１２回ＡＥＳ会議、論文５５０１、ミュンヘン、２００２年５月［１２］ V. Pulkki 著「方向オーディオコーディングを用いた空間サウンド再生」J. Audio Eng. Soc., ５５（６）：５０３−５１６、２００７年６月［１３］ G. Schmidt, E. Hansler 共著「音響エコー及び雑音の制御」実際的手法、Hoboken:Wiley、２００４年

したがって、本発明の目的は、より効率的な音響エコー抑制を可能にする音響エコー抑制ユニット及び会議開催フロントエンドを提供することにある。

この目的は、請求項１に記載されている音響エコー抑制ユニット、請求項８に記載されている音響を抑制するための方法、請求項１０に記載されている会議開催フロントエンド、請求項１４に記載されている複数のスピーカ信号及び１つのマイクロホン信号を供給するための方法、又は請求項１５に記載されているコンピュータプログラムによって達成される。

本発明による実施形態は、ダウンミックス信号及びパラメトリックサイド情報を含む入力信号からダウンミックス信号を抽出し、このダウンミックス信号及びマイクロホン信号又はマイクロホン信号から導出される信号に基づいて適応フィルタのフィルタ係数を計算し、さらに、計算されたフィルタ係数に基づいてマイクロホン信号又はマイクロホン信号から導出される信号を濾波することによって、より効率的な音響エコー抑制を達成できるという発見に基づいている。言い替えれば、パラメトリックサイド情報がダウンミックス信号と共にマルチチャネル信号を表しており、入力信号を形成するダウンミックス信号及びパラメトリックサイド情報に基づくマルチチャネルシステムの場合、エコー抑制はダウンミックス信号を基礎として行われ得る。

したがって、本発明による実施形態を使用しながら、入力信号をマルチチャネル信号に復号した後に音響エコー抑制を実行することを回避可能である場合がある。したがって、先に述べたマルチチャネルシステムに比べて信号の数が劇的に低減されることから、演算の複雑さを著しく低減することが可能である場合がある。本発明による実施形態を使用すれば、入力信号に含まれるダウンミックス信号に基づいて音響エコー抑制を実行することが可能である。

本発明によるさらなる実施形態では、エコー抑制は、受信されるダウンミックス信号とマイクロホン信号又はマイクロホン信号から導出される信号とに基づいて決定され得る基準パワースペクトルに基づいて実行されてもよい。場合により、マルチチャネル信号から導出される基準パワースペクトルは、例えば相関値に基づいて決定され得る遅延値によって遅延されてもよい。

したがって、本発明の一実施形態による会議開催フロントエンドは、本発明の一実施形態による音響エコー抑制ユニットを備えるだけでなく、マルチチャネルデコーダ及び少なくとも１つのマイクロホンユニットも備えている。そこでは、マルチチャネルデコーダは、ダウンミックス信号及びパラメトリックサイド情報を複数のスピーカ信号に復号するように適合化されている。少なくとも１つのマイクロホンユニットは、マイクロホン信号を音響エコー抑制ユニットへ供給するようにさらに適合化されている。会議開催フロントエンドのさらなる実施形態において、入力インタフェースはさらにパラメトリックサイド情報を抽出するように適合化されており、その場合、マルチチャネルデコーダはアップミキサ及びパラメータプロセッサを備えている。よって、パラメータプロセッサは、入力インタフェースからパラメトリックサイド情報を受信しかつアップミックス制御信号を供給するように適合化されている。アップミキサは、入力インタフェースからダウンミックス信号を受信しかつパラメータプロセッサからアップミックス制御信号を受信するように適合化されており、かつダウンミックス信号及びアップミックス制御信号に基づいて複数のスピーカ信号を供給するように適合化されている。故に、本発明による実施形態では、音響エコー抑制ユニットの入力インタフェースはマルチチャネルデコーダの入力インタフェースであってもよく、又は、マルチチャネルデコーダ及び音響エコー抑制ユニットの双方が共通の入力インタフェースを共用してもよい。

さらに、本発明による実施形態は、場合により、複数の音響入力信号を、さらなるダウンミックス信号及びさらなるパラメトリックサイド情報に符号化するように適合化された対応するマルチチャネルエンコーダも備えていてもよい。そのさらなるダウンミックス信号とさらなるパラメトリックサイド情報が共同して複数の音響入力信号を表す。この場合、前記の少なくとも１つのマイクロホンユニットのマイクロホン信号は、複数の音響入力信号のうちの１つの音響入力信号である。この場合、会議開催フロントエンドに含まれる音響エコー抑制ユニットは、マイクロホン信号から導出されるようなさらなるダウンミックスを受信するように適合化されている。

言い替えれば、後に提示するように、本発明の実施形態による手法は、音響エコー抑制とパラメトリックな空間オーディオコーディングとを効率的に結合することを可能にする。

以下、添付の図面を参照して、本発明による実施形態について説明する。

本発明の一実施形態による音響エコー抑制ユニットを備えた会議開催フロントエンドを示すブロック図である。パラメトリック空間オーディオエンコーダの一般構造を示す。パラメトリック空間オーディオデコーダの一般構造を示す。ＭＰＥＧサラウンド（ＭＰＳ）デコーダに使用される信号処理回路を示す。空間オーディオオブジェクトコーディング（ＳＡＯＣ）デコーダの一般構造を示す。ＳＡＯＣ−データをＭＰＳ−データへトランスコードするためのモノダウンミックスベースのトランスコーダを示す。ＳＡＯＣ−データをＭＰＳ−データへトランスコードするためのステレオダウンミックスベースのトランスコーダを示す。パラメトリック空間オーディオコーダのダウンミックスに基づく音響エコー抑制の提案する効率的手法を例証するための、本発明の一実施形態による会議開催フロントエンドを示す。本発明の一実施形態による音響エコー抑制ユニットを備えた会議開催フロントエンドの形式である、本発明によるさらなる実施形態を示す。音響エコー制御の問題の一般的な配置を示す。

以下、図１〜図９を参照して、本発明による異なる実施形態及び根本的な技術を概説し、かつより詳細に説明する。しかしながら、単チャネル音響エコー抑制及びマルチチャネル音響エコー抑制のための音響エコー抑制技術を紹介する前に、まず、会議開催フロントエンド形式である本発明による実施形態について音響エコー抑制ユニットとともに記述する。

図１は、中心コンポーネントとして本発明の一実施形態による音響エコー抑制ユニット２１０を備える会議開催フロントエンド２００を示すブロック図である。音響エコー抑制ユニット２１０は、計算器２２０と、入力インタフェース２３０と、適応フィルタ２４０とを備える。会議開催フロントエンド２００はさらにマルチチャネルデコーダ２５０を備え、マルチチャネルデコーダ２５０は出力方向で複数のスピーカ１００へ結合されている。スピーカ１００のうち、例示的に４つのスピーカ１００−１、…、１００−４が示されている。この会議開催フロントエンドはさらに、マイクロホン又はマイクロホンユニット１１０を備えている。

もう少し具体的に言えば、ダウンミックス信号３１０とパラメトリックサイド情報３２０とを含む入力信号３００が供給される。入力インタフェース２３０は、図１に示されている実施形態における入力信号からダウンミックス信号３１０及びパラメトリックサイド情報３２０の双方を分離又は抽出する。図１に示されている実施形態において、入力インタフェース２３０は、ダウンミックス信号３１０をパラメトリックサイド情報３２０とともにマルチチャネルデコーダ２５０へ供給する。

マルチチャネルデコーダ２５０は、ダウンミックス信号３１０及びパラメトリックサイド情報３２０を複数のスピーカ信号３３０に復号するように適合化されている。単純化のために図１では、スピーカ信号には１つだけに参照数字を付している。スピーカ１００はマルチチャネルデコーダ２５０の適切な出力へ結合されていることから、スピーカ１００は個々のスピーカ信号３３０を受信し、かつそれらを可聴音響信号に戻すように変換する。

計算器２２０はさらに入力インタフェース２３０の出力へも結合されており、入力インタフェース２３０の出力ではダウンミックス信号３１０を利用可能になっている。故に、計算器２２０はダウンミックス信号３１０を受信するように適合化されている。しかしながら、図１に示されている実施形態では、入力信号３００のパラメトリックサイド情報３２０は計算器２２０へは供給されない。言い替えれば、本発明による実施形態において、計算器２２０は入力信号に含まれる信号に関してはダウンミックス信号のみを使用することができる。

マイクロホン１１０は、出力方向で計算器２２０及び適応フィルタ２４０の双方へ結合されている。必然的に、計算器２２０は、マイクロホン１１０によって供給されるマイクロホン信号３４０を受信するようにも適合化されている。計算器２２０は、マイクロホン信号３４０及びダウンミックス信号３１０に基づいて適応フィルタ２４０のフィルタ係数を決定し、かつ適応フィルタ２４０へ対応するフィルタ係数信号３５０を供給するように適合化されており、適応フィルタ２４０はこのフィルタ係数信号３５０に基づいて着信するマイクロホン信号３４０を濾波する。適応フィルタ２４０は、その出力において、マイクロホン信号３４０のエコー抑制バージョンである出力信号を生成する。

以下、計算器２２０の可能な実施の動作モードについてさらに詳しく述べる。

図１では、入力インタフェース２３０は音響エコー抑制ユニット２１０の個別コンポーネントとして略示されているが、インタフェース２３０はデコーダ２５０の一部であってもよく、又はデコーダ２５０及び音響エコー抑制ユニット２１０の双方によって共用されてもよい。さらに、本発明による実施形態の実施は、例えばダウンミックス信号３１０のみを抽出できる入力インタフェース２３０を実装することによって行うことも可能である。この場合、入力信号３００はマルチチャネルデコーダ２５０へ供給されることになり、マルチチャネルデコーダ２５０がダウンミックス信号３１０及びパラメトリックサイド情報３２０の双方を抽出できる適切なインタフェースを備える。言い替えれば、パラメトリックサイド情報を抽出できずダウンミックス信号３１０のみを抽出できる入力インタフェース２３０を有する音響エコー抑制ユニット２１０を実現できる場合がある。

本発明による実施形態は、空間オーディオ通信システムに用いられるマルチチャネルスピーカシステムの音響エコーを抑制するための効率的な方法を表す。本方法は、空間オーディオ信号がダウンミックス信号、及び対応するパラメトリックサイド情報又はメタデータによって表される場合に適用可能である。これらのパラメータは、再生側でスピーカ信号を計算するために必要とされる情報を保有する。本発明は、スピーカ信号が音響エコー抑制（ＡＥＳ）へ入力される前にスピーカ信号を明確に計算するのではなく、受信されたダウンミックス信号に基づいてエコー抑制を直に実行できるという事実を利用している。同様に、遠端へ伝送されるべき空間オーディオ信号のダウンミックス信号においても、エコー成分が抑制されることができる。この手法もまた、典型的には、観察音場の捕捉に用いられるマイクロホンの記録信号の各々にエコー抑制を適用することよりも効率的である。

以下、１つの実施形態又は１つの図に２回以上現出し、しかも少なくともその幾つかの特徴又は構造が等しいか又は類似する物に関しては、集約的な参照記号を使用する。例えば、図１において、４つのスピーカ１００−１、…、１００−４は個々の参照記号によって示されているが、スピーカとしてのその基本的な特性又は特徴が論じられる場合には、「スピーカ１００」としている。

さらに、説明を単純にするために、類似の又は等しい物は同じか又は類似の参照記号で示す。図１と図９とを比較すると、スピーカには同じ参照記号１００が付されている。同じか又は類似の参照記号によって示されている物は、同一のものとして、類似のものとして、又は相違するものとして実施することができる。例えば、実施形態によっては、異なるスピーカ信号に対して異なるタイプのスピーカ１００を実装することが望ましい場合もあるが、異なる用途ではスピーカは同じものが実装されてもよい。したがって、同じか又は類似の参照記号で示される物は、場合によって同じもの又は類似のものが実装されてもよい。

さらに、１つの図において幾つかの物が２回以上現出する場合、描かれている物の数は典型的には単に例示を目的とするものであることは留意されるべきである。その数は増加してもよいし減少してもよい。例えば、図１は４つのスピーカ１００−１、…、１００−４を示しているが、異なる実施形態ではこれより多い数又は少ない数のスピーカ１００も当然に実装されてもよい。例えば、「５．１」システムの場合、典型的には５つのスピーカが１つのサブウーフスピーカと共に使用される。

次に、音響エコー抑制の一般的手法を簡単に振り返ってみる。これに関しては、基本的に非特許文献８、９に記述されている方法に従う。

図９に示されているように、マイクロホン信号ｚ（ｎ）は、スピーカ信号ｘ（ｎ）のフィードバックの結果である音響エコー信号ｙ（ｎ）と、近端信号ｗ（ｎ）とから成る。ここでは、室内インパルス応答が、スピーカ信号ｘ（ｎ）とマイクロホン信号ｚ（ｎ）との間のサンプルの遅延ｄに対応する直接伝搬経路と、エンクロージャ(enclosure)の音響特性をモデリングする線形フィルタｇ_nとの組合せとして表され得るものと仮定する。

すると、マイクロホン信号ｚ（ｎ）は、

で表すことができる。但し、＊は畳み込みを示す。式（１）の短時間フーリエ変換（ＳＴＦＴ）領域表現は、

で与えられる。但し、ｋはブロック時間指数であり、ｍは周波数指数を示す。Ｘ_d（ｋ，ｍ）は、遅延したスピーカ信号のＳＴＦＴ領域対応として定義される。式（２）の右項の第１の項はエコー成分Ｙ（ｋ，ｍ）を表し、

である。

音響エコー抑制に関する下記の論考が、ＳＴＦＴを信号のスペクトル表現として参照するものであることは留意されるべきである。しかしながら、この概念が、他の適切な任意の周波数サブバンド表現にも適用可能であることは明らかである。

音響エコー抑制は、マイクロホン信号Ｚ（ｋ，ｍ）のＳＴＦＴの振幅を、その位相を変えずに保ちながら、修正することによって実行される。これは、

で表すことができる。但し、Ｈ（ｋ，ｍ）は実数値の正の減衰定数を表す。以下、Ｈ（ｋ，ｍ）をエコー抑制フィルタ（ＥＳＦ）と称する。

エコー抑制フィルタＨ（ｋ，ｍ）を計算する実際的手法は、非特許文献７と同様に、パラメトリックなスペクトルサブトラクション法、即ち、

を用いることである。但し、α、β及びγはエコー抑制性能を制御するための設計パラメータを表す。

β及びγの典型的な値は約２であるが、用途によっては、αはγの逆数であるように選択される。言い替えれば、β＝２及びγ＝２という典型的な値を選択する場合、αは、典型的には０．５（＝１／２）であるように選ばれる。

エコー信号のパワースペクトルの推定は、

によって得ることができる。但し、

はエコー電力伝達関数

の推定値を表す。或いは、

に従った複素スペクトルベースの手法を使用することもできる。

実際には、エコー電力伝達関数

及び遅延ｄは共に未知であり、よって、次に論じるように、対応する推定値で置換されなければならないことに留意されたい。以下、

をエコー推定フィルタ（ＥＥＦ）と称する。

ＥＥＦを推定する１つの可能な方法は非特許文献８に提案されている。近端のスピーカが無音であると仮定すれば、式（２）は、ＥＥＦが、

によって推定され得ることを意味する。但し、^*は複素共役演算子を示し、

は期待値演算子を示す。期待値演算子は、その引数の浮動平均によって近似することができる。

上述の技法はエコー経路伝達関数を効果的に推定し、かつその大きさを、実数値ＥＥＦを取得するために採用する。エコー経路変化、時間ドリフト、他の間等、位相が急激に変わる度に、このＥＥＦ推定は再収束しなければならない場合がある。式（８）を位相変化に対して非感受性にするために、式（８）は、複素スペクトルからではなくパワースペクトルから計算されるように修正することが可能である（非特許文献６参照。）。
即ち、

となる。

非特許文献６では、式（９）による推定値はかたよりのあることが示されている。したがって、非特許文献６にはＥＥＦを推定するための別の手法の使用、即ち、スピーカ信号及びマイクロホン信号のパワースペクトルの時間的変動に基づいて

を推定することが提案されている。パワースペクトルの時間的変動は、

によって計算することができる。

次に、ＥＥＦの推定は式（９）と同様に、但し、スピーカ及びマイクロホンの変動するスペクトルを基礎として実行される。
即ち、

である。

変動するパワースペクトルは、

を推定するためにのみ用いられる点に留意することは重要である。エコー抑制フィルタＨ（ｋ，ｍ）の計算は、依然としてスピーカ信号の元のパワースペクトル及びマイクロホン信号の元のパワースペクトルを基礎とする。

遅延値ｄは、スピーカのパワースペクトル及びマイクロホンのパワースペクトルに関する二乗コヒーレンス関数を用いて、

に従って推定することができる。

一般に、遅延ｄは次に、周波数ビンｍ毎に異なって選択することができる。しかしながら、ここでは、１つの遅延を全ての周波数に関連して考察する。したがって、ここでは、エコーの予測利得ω_d（ｋ）を周波数全体のГ_d（ｋ，ｍ）の平均として計算する。

ここで、Ｍは周波数ビンの数を示す。次にｄは、エコーの予測利得が最大化されるように、即ち、

となるように選択される。

式（１５）の代わりに、遅延値ｄの推定は、変動するスペクトルに関連して、即ち式（１０）、式（１１）に基づいて実行することも可能である。

実際には、上述の導出に用いられる数学的期待値Ｅ｛…｝は対応する短期平均又は浮動平均によって置換されなければならない場合があることに留意されたい。例として、

について考察する。

に対応する短期平均

は、例えば、

に従った再帰的平滑化によって得ることができる。

因数α_avgは平滑化の経時的度合いを決定し、かつ与えられる任意の要件に適合させることができる。

以下、先のセクションにおいて記述した単チャネルＡＥＳがマルチチャネルＡＥＳへも如何に同様に適用され得るかについて論じる。

Ｘ₁（ｋ，ｍ）は、ｌ番目のスピーカ信号のＳＴＦＴ領域表現を示すものとする。すると、全スピーカチャネルのジョイントパワースペクトルは、個々のスピーカ信号のパワースペクトルを結合することによって計算される。

但し、Ｌはスピーカチャネルの数を示す。

或いは、スピーカ信号のジョイントパワースペクトルは、各スピーカ信号のスペクトルを加算しかつこのジョイントスペクトルの二乗振幅をとることから取得されてもよい。

同様に、マイクロホンチャネルについても、ジョイントパワースペクトルは、

に従って計算される。但し、Ｚ_p（ｋ，ｍ）はｐ番目のマイクロホンの信号を表し、Ｐはマイクロホンの数を示す。

或いは、スピーカ信号の場合と同様に、マイクロホンのジョイントパワースペクトルは、

に従って計算されることも可能である。

エコーのパワースペクトルの所望されるモデルは、スピーカ信号及び近端信号の統計的独立性を仮定する場合、式（２）に類似して与えられる。

但し、マルチチャネルの場合、パワースペクトル

及び

は各々、式（１８）及び式（２０）によって与えられる。

エコー推定フィルタ

及び遅延値ｄを各々決定するためには、先に論じた種々の方法を適用する場合もあるが、本明細書で定義したスピーカのジョイントパワースペクトル及びマイクロホンのジョイントパワースペクトルが使用される。

次に、実際のエコー抑制は各マイクロホン信号毎に別々に、但し各マイクロホンチャネルに同じエコー除去フィルタ、即ち、

を用いて実行される。但し、ｐ＝０，１，…，Ｐ−１である。

このセクションでは、空間オーディオのパラメトリック表現及び空間オーディオのパラメトリックコーディングの幾つかの重要な例を再考していく。これにより、方向オーディオコーディング（ＤｉｒＡＣ）（非特許文献１２参照。）、ＭＰＥＧサラウンド（ＭＰＳ）（非特許文献１参照。）及びＭＰＥＧ空間オーディオオブジェクトコーディング（ＳＡＯＣ）（非特許文献５参照。）という手法について考察する。種々のコーディング手法の特異的詳細を検討する前に、本明細書で論じる全ての方法に共通する基本的なエンコーダ／デコーダ構造について考察する。

図２には、パラメトリック空間オーディオエンコーダの一般構造が示されている。図２は、マルチチャネル又はパラメトリックな空間オーディオエンコーダ４００を示す。エンコーダは複数のオーディオ信号を入力として取り込み、１つ又は複数のチャネルのダウンミックス信号及び対応するパラメトリックサイド情報を出力する。もう少し具体的に言えば、マルチチャネルエンコーダ４００には複数の入力信号４１０−１、…、４１０−Ｎが供給される。入力信号４１０−１、…、４１０−Ｎは原則的には任意のオーディオ信号であってもよい。エンコーダ４００は入力信号４１０に基づいてダウンミックス信号３１０及びパラメトリックサイド情報３２０を生成する。ダウンミックス信号３１０及びパラメトリックサイド情報３２０は共同して複数の入力信号４１０を表現する。マルチチャネルエンコーダ４００の多くの事例及び実施において、この表現は、典型的にはロスレス(lossless)ではない。

エンコーダは、入力として複数のオーディオチャネルを取り込む。実際のコーディング手法に依存して、これらのオーディオ入力チャネルはマイクロホン信号（非特許文献１２参照。）、スピーカ信号（非特許文献１０参照。）を表現することができ、又は入力信号は所謂空間オーディオオブジェクト（非特許文献５参照。）に対応する。エンコーダの出力は、ダウンミックス信号３１０及び対応するパラメトリックサイド情報３２０である。ダウンミックス信号は、１つ又は複数のオーディオチャネルを含む。サイド情報は、観測される音場、異なる入力チャネル間の関係又は異なるオーディオオブジェクト間の関係を表現するパラメトリックなメタデータを含む。エンコーダの出力、即ちダウンミックス信号とサイド情報との結合を、以下、空間オーディオストリーム又は空間オーディオ表現と称する。

図３には、対応するパラメトリック空間オーディオデコーダの一般構造が示されている。図３は（マルチチャネル）デコーダ２５０を示しており、デコーダ２５０はダウンミックス信号３１０及び対応するパラメトリックサイド情報３２０を入力として取り込む。マルチチャネルデコーダ２５０は複数の出力信号４２０−１、…、４２０−Ｎを出力する。出力信号４２０−１、…、４２０−Ｎは、例えば所望される再生環境に対応するスピーカ信号（例えば、図１に示されているようなスピーカ信号３３０）であってもよい。図から分かるように、デコーダは、空間オーディオストリームを入力として取り込む。デコーダは、ダウンミックス信号とサイド情報に含まれるメタデータとに基づいて、所望される再生環境に対応するスピーカ信号を計算する。典型的なスピーカ設定は、例えば非特許文献１に記述されている。

パラメトリックな空間オーディオコーディングスキームの一例は、ＤｉｒＡＣとも称される方向オーディオコーディングである。ＤｉｒＡＣは音場のパラメトリック表現を使用する。そのパラメトリック表現は周波数サブバンドにおける音の到来方向（ＤＯＡ）及び拡散性を用いる。故にこれは、人間の聴覚に関連する特徴のみを考慮する。ＤｉｒＡＣ手法は、音場の到来方向が正しく再生されれば、両耳間時間差（ＩＴＤ）及び両耳間レベル差（ＩＬＤ）は正しく知覚される、という仮定に基づくものである。同様に、音場の拡散性が正しく再生されれば、両耳間コヒーレンス（ＩＣ）は正しく知覚されるものと仮定される。このように、再生側は、所定の聴取位置において任意のスピーカセットによって人間が空間オーディオを知覚することに関連する特徴を生成するに当たって、方向パラメータ、拡散性パラメータ及び１つのモノマイクロホン信号を要するのみである。

ＤｉｒＡＣにおいて、所望されるパラメータ（即ち、音の

及び各周波数バンドにおける拡散性Ψ（ｋ，ｍ））は、Ｂ−フォーマットのマイクロホン信号に基づく音場のエネルギー分析（非特許文献１２参照。）を介して推定される。Ｂ−フォーマットのマイクロホン信号は、典型的には、１つの全方向性信号Ｗ（ｋ，ｍ）と、直交座標系のｘ、ｙ方向に対応する２つの双極子信号

とを含む。Ｂ−フォーマット信号は、例えば音場マイクロホン（非特許文献２参照。）を用いて直接に測定されてもよい。或いは、要求されるＢ−フォーマット信号の生成に当たっては、全方向性マイクロホンのアレイを使用することができる。

再生側（デコーダ）では、モノダウンミックス信号並びに方向パラメータ及び拡散性パラメータに基づいて種々のスピーカ信号が計算される。スピーカ信号は、各々直接音及び拡散音に対応する信号成分から構成される。ｐ番目のスピーカチャネルの信号は、例えば、

に従って計算できる。但し、Ψ（ｋ，ｍ）は周波数サブバンドｍ及びブロック時間指数ｋにおける拡散性を示す。パニング利得ｇ_p（ｋ、ｍ）は、音

のＤＯＡ及び所望される聴取位置に対するスピーカｐの位置の双方に依存する。演算子Ｄ_p｛…｝は逆相関器に対応する。逆相関器は、ｐ番目のスピーカ信号の計算に際してダウンミックス信号Ｗ（ｋ，ｍ）に適用される。

上述の論考から、マイクロホン信号（Ｂ−フォーマット又は全方向性マイクロホンのアレイ）はＤｉｒＡＣエンコーダ４００の入力を表現することになる。エンコーダの出力は、ダウンミックス信号Ｗ（ｋ，ｍ）と、サイド情報としての方向

パラメータ及び拡散性パラメータ（Ψ（ｋ，ｍ））によって与えられる。

同様にして、デコーダ２５０は、ダウンミックス信号Ｗ（ｋ，ｍ）及びパラメトリックサイド情報

及びΨ（ｋ，ｍ）を入力として取り込み、式（２４）に従って所望されるスピーカ信号を計算する。

ＭＰＥＧサラウンド（ＭＰＳ）は、高品質空間オーディオコーディングへの効率的手法を表している（非特許文献１０参照。）。ＭＰＳの完全な仕様は、非特許文献１に記載されている。以下、ＭＰＳの詳細については検討せず、本発明による実施形態の文脈において関連のある部分について再考する。

ＭＰＳは次の事実を利用している。すなわち、マルチチャネルオーディオ信号は、知覚的観点からすると、典型的には、異なるスピーカチャネルに対して著しい冗長性を含むという事実である。ＭＰＳエンコーダは複数のスピーカ信号を入力として取り込むが、スピーカの対応する空間環境は事前に知られていなければならない。これらの入力信号に基づいて、ＭＰＳエンコーダ４００は周波数サブバンドにおける空間パラメータを計算する。その空間パラメータとは、２チャネル間のチャネルレベル差（ＣＬＤ）、２チャネル間のチャネル間相関（ＩＣＣ）、及び他の２チャネルから第３のチャネルを予測するために使用されるチャネル予測係数（ＣＰＣ）などである。よって、実際のＭＰＳサイド情報３２０は、これらの空間パラメータから導出される。さらに、エンコーダ４００は、１つ又は複数のオーディオチャネルを含み得るダウンミックス信号を計算する。

モノ事例の場合、ダウンミックス信号Ｂ（ｋ，ｍ）は明らかに唯一のチャネルＢ（ｋ，ｍ）を含むのに対して、ステレオ事例におけるダウンミックス信号は、

と書き表すことができる。ここで、例えばＢ₁（ｋ，ｍ）は共通するスピーカ環境の左のスピーカチャネルに対応し、Ｂ₂（ｋ，ｍ）は右のスピーカチャネルを示す。

ＭＰＳデコーダ２５０は、ダウンミックス信号及びパラメトリックサイド情報を入力として取り込み、所望されるスピーカ環境のスピーカ信号３３０、４２０を計算する。ＭＰＥＧサラウンドデコーダに用いられる信号処理回路の一般構造は、ステレオ事例に関して図４に示されている。

図４は、ＭＰＥＧサラウンドデコーダ２５０を示す略図である。デコーダ２５０へは、ダウンミックス信号３１０及びパラメトリックサイド情報が供給される。ダウンミックス信号３１０は、共通のステレオ環境の左右スピーカチャネルに対応するダウンミックス信号チャネルＢ₁（ｋ，ｍ）及びＢ₂（ｋ，ｍ）を含む。

プレミキシングマトリクス４５０（Ｍ₁）において、ダウンミックス信号３１０の２チャネルは中間信号ベクトルＶ（ｋ，ｍ）に変換される。中間信号ベクトルＶ（ｋ，ｍ）の成分の一部は、次に、中間信号ベクトルの個々の成分を逆相関する複数の逆相関器４６０−１、…、４６０−Ｐへ供給される。逆相関器４６０によって生成される信号は、中間信号ベクトルＶ（ｋ，ｍ）の逆相関されていない信号又は中間信号ベクトルＶ（ｋ，ｍ）の信号成分と共に第２の中間信号ベクトルＲ（ｋ，ｍ）を形成し、これは次に、ポストミキシングマトリクス４７０（Ｍ₂）へ供給される。ポストミキシングマトリクス４７０は、その出力において、複数のスピーカ信号３３０−１、…、３３０−Ｐを生成する。スピーカ信号３３０−１、…、３３０−Ｐは、図３に示されているデコーダでの出力信号４２０を表す。

デコーダ２５０はさらに、パラメトリックサイド情報３２０が供給されるパラメータプロセッサ４８０を含む。パラメータプロセッサ４８０は、プレミキシングマトリクス４５０とポストミキシングマトリクス４７０の双方へ結合されている。パラメータプロセッサ４８０は、パラメトリックサイド情報３２０を受信し、かつプレミキシングマトリクス４５０及びポストミキシングマトリクス４７０によって処理されるべき対応するマトリクスエレメントを生成するように適合化されている。このことを容易にするために、パラメータプロセッサ４８０は、プレミキシングマトリクス４５０及びポストミキシングマトリクス４７０の双方へ結合されている。

図４によって示されているように、復号プロセスは、

に従って行列記法で書くことができる。

非特許文献１に従えば、Ｍ₁（ｋ，ｍ）はプレミキシングマトリクス４５０を示し、Ｍ₂（ｋ，ｍ）はポストミキシングマトリクス４７０を示す。Ｍ₁（ｋ，ｍ）及びＭ₂（ｋ，ｍ）のエレメントは、パラメータプロセッサ４８０によって提供され得る、再生に用いられる空間サイド情報及びスピーカ環境に依存することに留意されたい。

図４から分かるように、中間信号ベクトルＶ（ｋ，ｍ）及びＲ（ｋ，ｍ）間の関係は、次のように与えられる。即ち、信号ベクトルエレメントＶ_p（ｋ，ｍ）の一部は変わらずに保たれ（Ｒ_p（ｋ，ｍ）＝Ｖ_p（ｋ，ｍ））、一方でＲ（ｋ，ｍ）の他の成分はＶ（ｋ，ｍ）の対応するエレメントの逆相関バージョンであって、即ちＲ_l（ｋ，ｍ）＝Ｄ_l｛（ｋ、ｍ）｝である。但し、Ｄ_l｛（ｋ、ｍ）｝は逆相関器演算子を記述する。信号ベクトルＸ（ｋ，ｍ）のエレメントは、再生に用いられるマルチチャネルスピーカ信号Ｘ_p（ｋ，ｍ）に対応する。

ＭＰＳはスピーカチャネルを入力として想定するのに対して、テレビ会議システムでは、入力は記録されたマイクロホン信号から成ることは留意されるべきである。記録された音の所望される効率的な空間オーディオ表現を決定するために、マイクロホン入力信号から対応するスピーカチャネルへの変換が、ＭＰＳが適用され得る前に必要とされる場合がある。手法としての可能性の１つは、スピーカチャネルがマイクロホン入力信号の組合せによって直に計算され得るように配列されている複数の指向性マイクロホンをただ用いるだけである。或いは、先のセクションで述べたようなＤｉｒＡＣエンコーダ及びＤｉｒＡＣデコーダの直接接続を備えているスピーカチャネルのＤｉｒＡＣベース演算を適用することができる。

空間オーディオオブジェクトコーディング（ＳＡＯＣ）は、多くのシングルオブジェクト並びに対応するシーン記述によって複雑なオーディオシーンを表現する概念に基づいている。この目的を達成する効率的な方法を実施するために、ＳＡＯＣは、ＭＰＳに密接に関連する技法を適用する（非特許文献５参照。）。先と同様に、ここでは、ＳＡＯＣ概念のうち本発明の文脈に関連する部分のみについて考察する。さらなる詳細は、例えば非特許文献５に記述されている。

ＳＡＯＣエンコーダの一般構造は図２に示されていて、入力信号４１０はオーディオオブジェクトに一致する。これらの入力信号４１０から、ＳＡＯＣエンコーダ４００はダウンミックス信号３１０（モノ又はステレオ）並びに所定のオーディオシーンにおける異なるオーディオオブジェクト同士の関係を表す対応するパラメトリックサイド情報３２０を計算する。ＭＰＳと同様に、これらのパラメータは、各ブロック時間指数と各周波数サブバンドごとに計算される。これらのパラメータには、オブジェクトレベル差（ＯＬＤ）、オブジェクト間交差コヒーレンス（ＩＯＣ）、オブジェクトエネルギー（ＮＲＧ）及び他のダウンミックス信号関連の尺度及びパラメータが含まれる（非特許文献５参照。）。

ＳＡＯＣデコーダ２５０は、ダウンミックス信号３１０並びに対応するサイド情報３２０を入力として取り込み、所望されるスピーカ構成のためのスピーカチャネル信号を出力する。またＳＡＯＣデコーダは、ＭＰＳレンダリング(rendering)エンジンも使用して最終的なスピーカ信号を決定する。ＳＡＯＣエンコーダ４００によって生成されるサイド情報に加えて、ＳＡＯＣデコーダ２５０は、最終的な出力信号を計算するための入力として、レンダリングに用いられるスピーカ構成の情報、又は特有のオーディオオブジェクトの制御に関する他の双方向性情報も取り入れることに留意されたい。これについては、図５に示されている。

図５は、ＳＡＯＣデコーダ２５０の一般構造を示す。ＳＡＯＣデコーダ２５０へは、ダウンミックス信号３１０とパラメトリックサイド情報３２０が供給される。さらに、ＳＡＯＣデコーダ２５０には、レンダリング情報又は相互作用情報４９０も供給される。先に述べたように、ＳＡＯＣデコーダ２５０は、ダウンミックス信号３１０及びパラメトリックサイド情報３２０をレンダリング／相互作用パラメータ４９０とともに取り込んで、複数のスピーカ信号３３０−１、…、３３０−Ｎを生成する。これらのスピーカ信号はＳＡＯＣデコーダ２５０から出力される。

次に、モノダウンミックス信号及びステレオダウンミックス信号の各々の場合のＳＡＯＣデコーダについて考察する。非特許文献５に従って、ＳＡＯＣデコーダの構造がモノダウンミックスの場合が図６Ａに、ステレオ事例の場合が図６Ｂに示されている。

図６Ａは、モノダウンミックスベースのトランスコーダに関するさらに具体的な詳細を示しており、このトランスコーダは非特許文献５によるＳＡＯＣ−ＭＰＳトランスコーダとして用いることができる。図６Ａに示されているシステムはＭＰＥＧサラウンドデコーダ２５０を備えている。ＭＰＥＧサラウンドデコーダ２５０へは、ダウンミックス信号３１０と、パラメトリックサイド情報３２０としてのＭＰＥＧサラウンドビットストリームが供給される。ＭＰＥＧサラウンドデコーダ２５０は、図６Ａに示されている状況においては少なくとも５つのスピーカ信号３３０−１、…、３３０−５を出力する。場合により、ＭＰＥＧサラウンドデコーダ２５０は、サブウーフスピーカ信号等のさらなるスピーカ信号を出力することもできる。しかしながら、単純化のために、図６Ａには対応するサブウーフスピーカは示されておらず、スピーカ信号３３０の各々について対応するスピーカ１００−１、…、１００−５が示されている。

ダウンミックスビットストリーム３１０はＭＰＥＧサラウンドデコーダ２５０へ直接に供給されるが、パラメトリックサイド情報３２０はＳＡＯＣ−ＭＰＳトランスコーダ５００から供給される。トランスコーダ５００は、入力信号５２０としてのＳＡＯＣビットストリームが供給されるＳＡＯＣパーシングユニット５１０を備えている。ＳＡＯＣパーシングユニット５１０は、その出力信号の１つとして、多くのオブジェクトに関する情報５３０を生成する。

ＳＡＯＣパーシングユニット５１０はさらにシーンレンダリングエンジン５４０へ結合されている。シーンレンダリングエンジン５４０は、ＳＡＯＣパーシングユニット５１０から受信したデータをレンダリングマトリクス生成器５６０によって発生されるレンダリングマトリクス５５０に基づいて処理し、ＭＰＥＧサラウンドデコーダ２５０のための対応するサイド情報３２０を出力する。したがって、シーンレンダリングエンジン５４０、及びＭＰＥＧサラウンドデコーダ２５０へサイド情報３２０を供給するその出力もまた、トランスコーダ５００の出力を表す。

レンダリングマトリクス生成器５６０には再生環境に関する情報５７０及びオブジェクト位置に関する情報５８０が供給され、それらの情報に基づいてレンダリングマトリクス生成器５６０はレンダリングマトリクス５５０を生成する。

モノダウンミックスの復号は、所定のオブジェクト位置５８０及び再生に使用されるスピーカ環境５７０に基づいて、ＳＡＯＣサイド情報をＭＰＳサイド情報５２０へトランスコードすることを含む。こうして決定されるＭＰＳサイド情報３２０は、ＳＡＯＣモノダウンミックス信号３１０と共にＭＰＳデコーダ２５０へ供給される。ダウンミックス信号３１０は不変のままであることから、スピーカ信号の計算も式（２６）、式（２７）によって表わすことができる。その場合、プレミキシングマトリクスＭ₁（ｋ，ｍ）及びポストミキシングマトリクスＭ₂（ｋ，ｍ）はＳＡＯＣ−ＭＰＳトランスコーダで決定される。

図６Ｂは、図６Ａに示されている対応するトランスコーダ５００に類似するＳＡＯＣ−ＭＰＳトランスコーダ５００を示す。したがって、説明は上記を参照されたい。しかしながら、本システム並びに本トランスコーダ５００は共に、主としてダウンミックス信号３１０に関連する相違があって、図６Ｂに描かれている状況におけるダウンミックス信号３１０はステレオダウンミックス信号である。したがって、ＭＰＥＧサラウンドデコーダ２５０が図６Ａの対応するＭＰＥＧサラウンドデコーダと異なる点は、ダウンミックス信号３１０が２つのチャネルを含み、よってデコーダ２５０はサイド情報３２０及びステレオダウンミックス信号３１０に基づいてスピーカ信号３３０を生成するように適合化されていることである。

図６Ｂに示されているシステムは、さらなる詳細に関して図６Ａに示されているシステムとは異なる。トランスコーダ５００はダウンミックストランスコーダ５９０をさらに備えており、ダウンミックストランスコーダ５９０は原初のダウンミックス信号３１０’並びにシーンレンダリングエンジン５４０からの制御情報６００を受信する。したがって、ダウンミックストランスコーダ５９０は、制御情報６００及び原初の、又は到来するダウンミックス信号３１０’に基づいてダウンミックス信号３１０を生成するように適合化されている。

ステレオ事例では、ＳＡＯＣダウンミックス信号３１０’はＭＰＳデコーダの適切な入力を表さない場合がある。そのような状況の一例は、あるオブジェクトの信号成分がＳＡＯＣステレオダウンミックス３１０’の左チャネルにのみ含まれ、一方でこれはＭＰＳミキシングプロセスの間に右半球へレンダリングされなければならないという状況である（非特許文献５参照。）。すると、図６Ｂに示されているように、ＳＡＯＣダウンミックス信号３１０’は、所謂ダウンミックストランスコーダ５９０によって処理されてからでないとＭＰＳデコーダ２５０への入力として使用することができない。この処理段階の具体的な特性は、実際のＳＡＯＣサイド情報５２０及び再生環境情報５７０に依存する。よって明らかに、トランスコードされたダウンミックス信号３１０と再生に使用されるスピーカチャネル３３０との関係もまた、式（２６）、式（２７）によって表わすことができる。

ＳＡＯＣがオーディオオブジェクトの集合に対応する信号を入力として想定するのに対して、テレビ会議システムにおける入力は、典型的には記録されたマイクロホン信号を含むことは留意されるべきである。記録された音の所望される効率的な空間オーディオ表現を決定するためにＳＡＯＣが適用され得る前に、マイクロホン入力信号を対応する空間オーディオオブジェクト表現へ変換することが有用である場合がある。マイクロホンアレイ入力から異なるオーディオオブジェクトを決定する手法としての１つの可能性は、非特許文献３等のブラインドソースセパレーション技法によって与えられる。ブラインドソースセパレーション法は、マイクロホン入力信号に基づき、異なるオーディオオブジェクトの統計的独立性を利用して対応するオーディオ信号を推定する。マイクロホンアレイの構造が事前に分かっている場合は、オーディオオブジェクトに関する追加的な空間的情報も決定できる（非特許文献４参照。）。

単に単純さのために、本明細書を通じて、個々の情報を伝送する情報と信号が同じ参照記号により同一視されていることは留意されるべきである。さらに、信号と同信号を搬送するデータラインもやはり同じ参照記号により同一視されている。本発明の一実施形態の具体的な実施によっては、情報は異なるユニット又はオブジェクト間で交換することができる。その情報の交換は、信号回線上で直接伝送される信号により、又は個々のユニットもしくはオブジェクト間に結合されたメモリ、記憶ロケーション又は別のメディエータ（例えば、ラッチ）により行うことができる。例えば、プロセッサベースの実施例の場合、情報は、例えば個々のプロセッサに関連づけられたメモリに記憶することができる。したがって、情報、情報片及び信号は同義語としてみなすことができる。

次に、先のセクションで提示した音響エコー抑制及びパラメトリック空間オーディオコーディングに関する論考に基づいて、音響エコー抑制（ＡＥＳ）を、本発明の一実施形態による空間オーディオ電気通信に使用されるような空間オーディオエンコーダ／デコーダ構造に効率的に統合するための方法を提示する。

提案手法の一般構造は、図７に示されている。図７は本発明の一実施形態による会議開催フロントエンド２００を示しており、そこでは音響エコー抑制はパラメトリック空間オーディオコーダのダウンミックス信号を基礎としている。

図７に示されている会議開催フロントエンド２００は、入力インタフェース２３０を有する本発明の一実施形態による音響エコー抑制ユニット２１０を備えている。入力インタフェース２３０は、入力インタフェース２３０へ供給される入力信号３００に含まれるダウンミックス信号３１０がエコー除去又はエコー抑制ユニット７００に供給されるように上記ユニット７００へ結合されている。図７に示されている実施形態では、パラメトリックサイド情報３２０は、やはり入力インタフェース２３０によって入力信号３００から分離されるが、エコー抑制ユニット７００へは供給されない。

ダウンミックス信号３１０及びパラメトリックサイド情報３２０の双方はマルチチャネルデコーダ２５０へ供給され、マルチチャネルデコーダ２５０は出力側で複数のスピーカ１００−１、…、１００−Ｎへ結合されている。デコーダ２２０はこれらのスピーカ１００の各々へ対応するスピーカ信号３３０−１、…、３３０−Ｎを供給する。

会議開催フロントエンド２００はさらに、この会議開催フロントエンド２００へ音響入力信号を供給する複数のマイクロホン１１０−１、…、１１０−Ｋを備えている。これに対して、スピーカ１００は同等の音響出力を発生する。マイクロホン１１０は処理ユニット７１０へ結合され、さらにエンコーダ４００へ結合されている。エンコーダ４００は、マイクロホン１１０から受信され前処理されたマイクロホン信号に対応するさらなるダウンミックス信号７２０及びさらなるパラメトリックサイド情報７３０を発生するように適合化されている。エコー抑制ユニット７００は、さらなるダウンミックス信号７２０及びさらなるサイド情報７３０の双方を受信できるようにエンコーダ４００へ結合されている。エコー抑制ユニット７００は、出力において、修正されたダウンミックス信号７４０と、変更されることなくエコー抑制ユニット７００を通過するさらなるパラメトリックサイド情報７３０を発生する。

エコー抑制ユニット７００は、図８に関連してさらに詳しく概説するが、図１に示されているような計算器２２０及び適応フィルタ２４０を備えている。

ここでは、空間オーディオ通信アプリケーションについて考察する。そこでは、遠端及び近端における空間オーディオシーンが空間オーディオストリームによって表現されることを想定する。空間オーディオストリームは異なる加入者間で伝送される。複数のスピーカを備えたサラウンド再生の場合はしばしば無人動作が不可欠であることから、ＡＥＳユニット２１０は、近端のデコーダの出力におけるうっとうしいエコーを除去するために有用であることがある。ＡＥＳがスピーカ信号に基づいて実行される上述の先行方法とは対照的に、私達は、遠端から受信される空間オーディオストリーム３００のダウンミックス信号３１０を基礎としてＡＥＳを単独で実行することを提案する。ダウンミックスチャネルの数は再生に使用されるスピーカ信号の数より一般に遙かに少ないことから、本提案方法は複雑さに関して著しく高効率である。ＡＥＳは、近端におけるマイクロホン信号、又はむしろより効率的には図７に示されているように近端のエンコーダ出力のダウンミックス信号の何れにも適用することができる。

エコー抑制ユニット７００を図８との関係でさらに詳しく述べる前に、以下、本発明の一実施形態によるプロセス又は方法についてさらに詳しく説明する。

まず、受信された空間オーディオストリームのダウンミックス信号３１０に基づいて再生信号Ｐ（ｋ，ｍ）の基準パワースペクトル（ＲＰＳ）が計算される。Ｎチャネルのダウンミックス信号Ｂ（ｋ，ｍ）＝［Ｂ₁（ｋ，ｍ），Ｂ_i（ｋ，ｍ），…，Ｂ_N（ｋ，ｍ）］の一般ケースでは、これは、線形結合、

に従って実行することができる。

或いは、この線形結合は、ダウンミックスチャネルの複素スペクトルについて計算することができる。

異なるダウンミックスチャネルによるＲＰＳへの寄与を調節するために、重み係数ａ_i（ｋ，ｍ）を使用することができる。

チャネルによって重み付けを異ならせることは、例えばＳＡＯＣ環境において有益である場合がある。ＡＥＳの入力がダウンミックストランスコーダのＳＡＯＣダウンミックス信号への適用（図６Ｂ参照）より以前に決定されれば、ダウンミックストランスコーダの時変行動はエコー推定フィルタによってモデリングされる必要はない場合があり、既に基準パワースペクトルの計算によって捕捉されている。

モノダウンミックス信号という特殊なケースでは、ダウンミックス信号のパワースペクトルに等しいＲＰＳ、即ち、

を単に選ぶことが妥当である。

言い替えれば、ダウンミックス信号３１０に含まれるシングルダウンミックスチャネルの重み係数ａ_i（ｋ，ｍ）は１であるように選ばれる。

式（２８）、式（２９）と同様に、近端のエンコーダのＫチャネルのダウンミックス信号Ａ（ｋ，ｍ）＝［Ａ₁（ｋ，ｍ），Ａ_i（ｋ，ｍ），…，Ａ_K（ｋ，ｍ）］に基づいて記録信号のＲＰＳ、Ｑ（ｋ，ｍ）を計算する。

或いは、その線形結合はダウンミックスチャネルの複素スペクトルについて計算することができる。

異なるダウンミックスチャネルによるＲＰＳへの寄与を調節するためには、重み係数ｃ_i（ｋ，ｍ）が使用することができる。先と同様に、モノダウンミックス信号（ｃ_i（ｋ，ｍ）＝１）の場合は、単に

を使用することができる。

ダウンミックス信号Ａ（ｋ，ｍ）、及びしたがってＲＰＳ

も、典型的には、スピーカ信号のフィードバックから結果的に生じる望ましくないエコー成分を含む。エコー成分

の推定値

は、ＲＰＳ

の遅延バージョンと、エコー電力伝達関数の推定値に基づいて、

に従って計算される。

先の記述と同様に、以下、

をエコー推定フィルタ（ＥＥＦ）と呼ぶ。

次に、この推定値は、例えば式（５）と同様に、エコー抑制フィルタ（ＥＳＦ）を決定するために使用される。

但し、α、β及びγはエコー抑制性能を調節するための設計パラメータを表す。α、β及びγの典型的な値は先に記載した。

望ましくないエコー成分の除去は、最終的に近端のエンコーダの原初のダウンミックス信号のチャネルをＥＳＦで乗算することによって達成される。

ＥＥＦの推定は、

によって、ＲＰＳに関連する相関に基づくことができる。

或いは、ＥＥＦフィルタは、ＲＰＳの時間的変動を用いて、即ち式（１２）と同様に次のように推定することができる。

但し、ＲＰＳの時間的変動は、

に従って計算される。

遅延パラメータｄの推定は、式（１３）と同様に実行することができる。その場合、スピーカ信号Ｘ（ｋ、ｍ）及びマイクロホン信号Ｚ（ｋ，ｍ）は、各々対応するＲＰＳのＰ（ｋ，ｍ）及びＱ（ｋ，ｍ）で置換される。

典型的には、ダウンミックス信号Ａ（ｋ、ｍ）及びＢ（ｋ，ｍ）間に有意義な位相関係が存在しないことは言及されるべきである。その理由は、これらの位相が部屋の周波数応答を介して関連させられるだけでなく、ダウンミックス信号及び空間サイド情報からスピーカ信号を決定する高度に時変的なプロセスによって関連されられることにある。したがって、位置情報を用いてＥＥＦ（又は、遅延）を推定する手法（非特許文献８など参照。）は、ダウンミックス信号を基礎としてエコー除去を実行する際には不適である。

線形的な適応フィルタリング技法を用いるエコーキャンセルがダウンミックス信号に対して適用されるべきである事例についても同じ論法が成り立つことは、言及する価値がある。このような適応フィルタは、ダウンミックス信号のスピーカチャネルへのマッピングによって生じる高度に時変的な変化をモデリングしかつ追跡しなければならなくなる。

図８は本発明の一実施形態による会議開催フロントエンド２００を示すブロック図であり、図１に示されているものに極めて類似している。したがって、図１の説明を参照する。

本会議開催フロントエンド２００も、本発明の一実施形態による音響エコー抑制ユニット２１０を備えている。音響エコー抑制ユニット２１０は、図１との関係において説明したものと本質的に同じ機能を実行するための計算器２２０を備えている。しかしながら、以下、さらに詳しい説明を行う。

本会議開催フロントエンド２００はさらに、入力インタフェース２３０と適応フィルタ２４０を備えている。会議開催フロントエンド２００はさらにマルチチャネルデコーダ２５０を備えており、マルチチャネルデコーダ２５０は複数のスピーカ１００−１、…、１００−Ｎへ結合されている。会議開催フロントエンド２００はさらに、対応するエンコーダ又はマルチチャネルエンコーダ４００を備えており、そのエンコーダ又はマルチチャネルエンコーダ４００は次に、複数のマイクロホン１１０−１、…、１１０−Ｋへ結合されている。

もう少し具体的に言えば、入力信号３００は、フロントエンド２００の基礎を成す通信系の遠端から入力インタフェース２３０へ供給される。図８に示されている実施形態では、入力インタフェース２３０は、この入力信号からダウンミックス信号３１０とパラメトリックサイド情報３２０とを分離し、かつこれらを入力信号としてマルチチャネルデコーダ２５０へ供給する。マルチチャネルデコーダ２５０の内部では、２つの信号、即ちダウンミックス信号３１０及びパラメトリックサイド情報３２０が複数の対応するスピーカ信号３３０へ復号され、次にこれらのスピーカ信号３３０は個々のスピーカ１００へ供給される。単純化のために、付番は、第１のスピーカ信号３３０−１にのみ行われている。

デコーダ２５０は、図８に示されている実施形態ではアップミキサ７０５と、パラメータプロセッサ４８０とを備えている。アップミキサ７０５は入力インタフェース２３０へ結合され、かつダウンミックス信号３１０を受信するように適合化されている。同様に、パラメータプロセッサ４８０も入力インタフェース２３０へ結合されているが、パラメータプロセッサ４８０はパラメトリックサイド情報３２０を受信するように適合化されている。アップミキサ７０５とパラメータプロセッサ４８０は、パラメトリックサイド情報３２０から導出されるアップミックス制御情報７０７がアップミキサ７０５へ伝送され得るように相互接続されている。アップミキサ７０５はスピーカ１００へも結合されている。

アップミキサ７０５は、その機能に関連して、パラメトリックサイド情報３２０から導出されるアップミックス制御情報７０７に基づいてダウンミックス信号３１０からスピーカ信号３３０を生成するように適合化されている。アップミキサ７０５は、Ｎ個（Ｎは整数）のスピーカ１００−１、…、１００−Ｎの各々に対して個々のスピーカ信号３３０を供給する。

先に論じたように、デコーダ２５０は場合によりインタフェースを備えてもよく、このインタフェースは、入力インタフェース２３０がデコーダ２５０及び音響エコー抑制ユニット７１０によって共用されていない場合に、サイド情報３２０及びダウンミックス３１０を抽出しかつこれらをパラメータプロセッサ４８０及びアップミキサ７０５へ供給する。

図１との関係に関連して既に述べたように、入力インタフェース２３０の出力は、ダウンミックス信号３１０を計算器２２０へ提供するために計算器２２０へ結合されている。言い替えれば、計算器２２０はダウンミックス信号３１０を受信するように適合化されている。

計算器２２０の内部構成についてさらに詳しく述べる前に、マイクロホン１１０が個々のＫ個（Ｋは整数）のマイクロホン信号３４０をマルチチャネルエンコーダ４００へ供給することは留意されるべきである。図８では、マイクロホン信号３４０のうち、第１のマイクロホン信号３４０−１のみ付番されている。

マルチチャネルエンコーダ４００は、受信したマイクロホン信号３４０に基づいて、さらなるダウンミックス信号７２０とさらなるパラメトリックサイド情報７３０を生成する。さらなるパラメトリックサイド情報７３０はこの会議開催システム２００の出力へ供給されるが、さらなるダウンミックス信号７２０は、計算器２２０及び適応フィルタ２４０の双方へ供給される。計算器２２０はまた、フィルタ係数信号３５０を適応フィルタ２４０へ供給する。このフィルタ係数信号３５０に基づいてさらなるダウンミックス信号７２０が濾波され、修正されたダウンミックス信号７４０が適応フィルタ２４０の出力において得られる。修正されたダウンミックス信号７４０は、到来するさらなるダウンミックス信号７２０のエコー抑制バージョンを表す。結果として、さらなるダウンミックス信号７２０及びさらなるパラメトリックサイド情報７３０の受信側では、マイクロホン１１０によって受信されたマイクロホン信号のエコー抑制バージョンを再構成さすることができる。

計算器２２０の内部構成に関して、入力インタフェース３３０からのダウンミックス信号３１０は第１の基準パワースペクトル生成器８００へ供給される。第１の基準パワースペクトル生成器８００は、先に述べた基準パワースペクトルを例えば式（２８）及び式（２９）に従って生成するように適合化されている。第１の基準パワースペクトル生成器８００の出力はオプションの遅延装置８１０へ結合されている。遅延装置８１０は着信信号を遅延値ｄだけ遅延するように適合化されている。遅延装置８１０の出力は、次に、エコー推定器８２０へ結合されている。エコー推定器８２０は、例えばエコー推定値を式（３８）に従って計算するように適合化することができる。エコー推定器８２０の出力は、次に、エコー抑制フィルタ生成器８３０の入力へ結合されている。エコー抑制フィルタ生成器８３０は式（３３）に従ってエコー抑制フィルタを生成又は推定する。エコー抑制フィルタ生成器８３０の出力はフィルタ係数を含むフィルタ係数信号３５０であり、これは適応フィルタ２４０へ供給される。

エンコーダ４００によって生成されるさらなるダウンミックス信号７２０はエコー抑制フィルタ生成器８３０へ供給されるか、又は、この回路が第２の基準パワースペクトル生成器８４０を備えている場合は第２の基準パワースペクトル生成器８４０へ供給される。これを達成するために、音響エコー抑制ユニット２１０は場合により、必要に応じてさらなるダウンミックス信号７２０を抽出するために追加的な、又はさらなる入力インタフェースを備えていてもよい。

第２の基準パワースペクトル生成器８４０の出力は、次にエコー推定フィルタ係数生成器へ結合されている。エコー推定フィルタ係数生成器は次に、式（３５）又は式（３６）によるエコー推定フィルタ係数をエコー推定器８２０へ供給するためにエコー推定器８２０へ結合されている。エコー推定フィルタ係数生成器８５０が式（３６）に基づいて動作する場合、オプションの第１及び第２の時間変動補償器８６０、８７０が各々、エコー推定フィルタ係数生成器８５０と遅延装置８１０の出力との間、及びエコー推定フィルタ係数生成器８５０と第２の基準パワースペクトル生成器８４０との間に結合されている。これらの２つの時間変動補償器８６０、８７０は各々、修正される基準パワースペクトルを式（３７）及び式（３８）に基づいて計算するように適合化することができる。それ故、エコー推定フィルタ係数生成器８５０は、修正された基準パワースペクトルを用い、式（３６）に基づいて動作することができる。

遅延装置８１０は必須ではないものの、しばしば有益なコンポーネントであることは留意されるべきである。遅延値ｄの決定は、式（１３）、式（１４）及び式（１５）に従った計算に基づいてなすことができる。したがって、より正確に言えば、本発明による一実施形態はコヒーレンス計算器８８０を備えてもよい。コヒーレンス計算器８８０の入力側は第１の基準パワースペクトル生成器８００の出力へ結合されている。さらに、コヒーレンス計算器８８０は、コヒーレンス計算器８８０に個々の基準パワースペクトルを供給するために、第２の基準パワースペクトル生成器８４０の出力へも結合されている。

例えば、式（１３）に基づき、但し２つの基準パワースペクトル生成器８００、８４０によって供給される２つの基準パワースペクトルを用いて、コヒーレンス計算器８８０は、式（１３）に従ってエコー予測利得計算器８９０に対するコヒーレンス関数の値を生成することができる。エコー予測利得計算器８９０は、式（１４）に従って、又は式（１４）に基づいてエコー予測利得ω_d（ｋ）を計算する。エコー予測利得計算器の出力は、次に、オプティマイザ９００の入力へ結合されている。オプティマイザ９００は、遅延値ｄを式（１５）に従って最適化するように適合化することができる。遅延値ｄを遅延装置８１０へ供給するために、オプティマイザ９００は遅延装置８１０へ結合されており、かつ遅延装置８１０は遅延値ｄを受信するように適合化されている。当然ながら、遅延装置はこの場合も、着信信号（ここでは第１の基準パワースペクトル）を遅延値ｄだけ遅らせるように適合化されている。

完全を期して、図８にはエコー抑制ユニット７００も示されており、エコー抑制ユニット７００は図７に関連して既に概説した計算器２２０及び適応フィルタ２４０を備えている。

このセクションの残りでは、上述のダウンミックス信号を基礎とするエコー抑制方法の実際的変形例を提示する。

式（３２）の変形例は、

に従って取得することができる。但し、再生信号の複素基準スペクトルＰ（ｋ，ｍ）はダウンミックスチャネルの複素スペクトルに関連して、即ち、

に従って計算される。

式（４０）は、振幅計算を無視すれば式（２９）から得られる。

ＡＥＳ手法の別の変形例は、エコー抑制を、式（３４）によって提案されるようにダウンミックスチャネルに基づいて実行するのではなく、マイクロホン入力信号について実行することによって得ることができる。言い替えれば、エコー抑制は、記録された原初のマイクロホン信号に対して、これが各々近端のエンコーダ又は任意の処理段階で入力として用いられるより以前に実行される。

したがって、本発明による多くの実施形態は下記の特徴を共有する。
１．ダウンミックス信号及びサイド情報からなり、マルチチャネルスピーカ信号の生成に用いられる第１のパラメトリック空間オーディオ表現を受信する。
２．ダウンミックス信号及びサイド情報からなり、記録されたマイクロホン信号から決定されている第２のパラメトリック空間オーディオ表現を受信する。
３．第１及び第２のダウンミックス信号の基準パワースペクトルを計算する。
４．第２のダウンミックス信号の基準パワースペクトルにおけるエコー成分を推定するために、エコー推定フィルタを計算する。
５．第２の空間オーディオ表現のダウンミックス信号におけるエコー成分を除去するために、第１のダウンミックス信号の基準パワースペクトル、第２のダウンミックス信号の基準パワースペクトル及びエコー推定フィルタからエコー除去フィルタを計算する。

本発明方法のいくつかの実施形態の所定の実施要件によっては、本発明方法のいくつかの実施形態はハードウェアにより、又はソフトウェアにより実施することができる。その実施は、本発明方法の一実施形態が実行されるようにプログラム可能コンピュータ又はプロセッサと協働する電子読取り可能な制御信号がインストールされているデジタル記憶媒体を用いて、具体的には、ディスク、ＣＤ又はＤＶＤを用いて実行することができる。したがって、概して本発明の一実施形態は、プログラムコードが機械可読キャリア上に記憶されたコンピュータプログラムプロダクトであり、上記プログラムコードは、コンピュータプログラムプロダクトがプロセッサのコンピュータ上で実行されると本発明方法の一実施形態を実行するように動作する。したがって言い替えれば、本発明方法のいくつかの実施形態は、コンピュータプロセッサ上でコンピュータプログラムが実行されると本発明方法のいくつかの実施形態のうちの少なくとも１つを実行するためのプログラムコードを有するコンピュータプログラムである。プロセッサは、コンピュータ、チップカード、スマートカード、特定用途向け集積回路（ＡＳＩＣ）又は別の集積回路によって形成することができる。

本発明によるいくつかの実施形態は、さらに、離散的な電気的又は電子的エレメント、集積回路又はこれらの組合せに基づいて実施することができる。

したがって、本発明によるいくつかの実施形態は、パラメトリック空間オーディオ表現の音響エコー制御を可能にする。先の論考が示しているように、いくつかの実施形態は、空間オーディオ通信系に使用されるマルチチャネルスピーカシステムの音響エコーを抑制するための効率的方法を示し得る。本発明方法は、空間オーディオ信号がダウンミックス信号と、対応するパラメトリックサイド情報又はメタデータによって表現されている場合に適用可能である。いくつかの実施形態は、スピーカ信号が音響エコー抑制へ入力される前にスピーカ信号を明示的に計算するのではなく、受信されたダウンミックス信号に基づいてエコー抑制が直接に実行され得るという事実を活用している。同様に、エコー成分も、遠端へ伝送されるべき空間オーディオ信号のダウンミックス信号において抑制することもできる。

１００スピーカ
１１０マイクロホン
１２０エコー除去ユニット
２００会議開催フロントエンド
２１０音響エコー抑制ユニット
２２０計算器
２３０入力インタフェース
２４０適応フィルタ
２５０マルチチャネルデコーダ
３００入力信号
３１０ダウンミックス信号
３２０パラメトリックサイド情報
３３０スピーカ信号
３４０マイクロホン信号
３５０フィルタ係数信号
３６０出力信号
４００マルチチャネルエンコーダ
４１０入力信号
４２０出力信号
４５０プレミキシングマトリクス
４６０逆相関器
４７０ポストミキシングマトリクス
４８０パラメータプロセッサ
４９０レンダリング／相互作用情報
５００トランスコーダ
５１０ＳＡＯＣパーシングユニット
５２０ＳＡＯＣビットストリーム
５３０オブジェクト数
５４０シーンレンダリングエンジン
５５０レンダリングマトリクス
５６０レンダリングマトリクス生成器
５７０再生環境
５８０オブジェクト位置
５９０ダウンミックストランスコーダ
６００制御情報
７００エコー抑制ユニット
７１０処理ユニット
７２０さらなるダウンミックス信号
７３０さらなるパラメトリックサイド情報
７４０修正されたダウンミックス信号
８００第１の基準パワースペクトル生成器
８１０遅延装置
８２０エコー推定器
８３０エコー抑制フィルタ生成器
８４０第２の基準パワースペクトル生成器
８５０エコー推定フィルタ係数生成器
８６０第１の時間変動補償器
８７０第２の時間変動補償器
８８０コヒーレンス計算器
８９０エコー予測利得計算器
９００オプティマイザ

Claims

ダウンミックス信号（３１０）とパラメトリックサイド情報（３２０）とを含む入力信号（３００）からダウンミックス信号（３１０）を抽出するための入力インタフェース（２３０）であって、前記ダウンミックス信号（３１０）及びパラメトリックサイド情報（３２０）は共同して少なくともさらなるチャネル又は前記ダウンミックス信号におけるチャネル数より多いチャネル数を有するマルチチャネル信号を表現している入力インタフェース（２３０）と、
適応フィルタ（２４０）のフィルタ係数（３５０）を計算するための計算器（２２０）であって、前記ダウンミックス信号（３１０）を受信し、マイクロホン信号（３４０）又は前記マイクロホン信号から導出される信号（７２０）を受信し、前記受信した信号に基づいて前記フィルタ係数（３５０）を決定するように適合化されている計算器（２２０）と、
前記計算器（２２０）から前記フィルタ係数（３５０）を受信し、かつ前記フィルタ係数（３５０）に基づいて、前記マイクロホン信号（３４０）における前記マルチチャネル信号によって生じたエコーを抑制するために、前記マイクロホン信号（３４０）又は前記マイクロホン信号から導出される信号（７２０）を濾波するように適合化されている適応フィルタ（２４０）と、
を備えた音響エコー抑制ユニット（２１０）。
前記計算器（２２０）は、前記ダウンミックス信号（３１０）に基づいて第１の基準パワースペクトルを決定し、前記マイクロホン信号（３４０）又は前記マイクロホン信号から導出される信号（７２０）に基づいて第２の基準パワースペクトルを決定し、前記第１及び第２の基準パワースペクトルに基づいてエコー推定フィルタ係数を決定し、前記第１の基準パワースペクトル及び前記エコー推定フィルタ係数に基づいてエコー推定値を決定し、かつ前記エコー推定フィルタ係数及び前記第２の基準パワースペクトルに基づいて前記フィルタ係数（３５０）を決定するように適合化されている請求項１に記載の音響エコー抑制ユニット（２１０）。
前記計算器（２２０）は第１の基準パワースペクトルを、

又は、

に基づいて計算するように適合化されている請求項１又は２に記載の音響エコー抑制ユニット（２１０）。
ここで、

は前記第１の基準パワースペクトルであり、ａ_i（ｋ，ｍ）は重み係数であり、Ｂ_i（ｋ，ｍ）は前記ダウンミックス信号（３１０）のｉ番目のチャネルであり、Ｎは前記ダウンミックス信号（３１０）におけるチャネルの数で、Ｎは１以上であり、ｋはブロック時間指数であり、ｍは周波数指数を示す。
前記計算器（２２０）は第２の基準パワースペクトルを、

又は、

に基づいて計算するように適合化されている請求項１から３のいずれか一項に記載の音響エコー抑制ユニット（２１０）。
ここで、

は前記第２の基準パワースペクトルであり、ｃ_i（ｋ，ｍ）は重み係数であり、Ａ_i（ｋ，ｍ）はダウンミックス信号（７２０）のｉ番目のチャネルであり、Ｋは前記ダウンミックス信号（７２０）におけるチャネルの数で、Ｋは１以上であり、ｋはブロック時間指数であり、ｍは周波数指数を示す、
前記計算器（２２０）はさらに、前記第１の基準パワースペクトルを遅延値だけ遅延させた前記第１の基準パワースペクトルの遅延バージョンに基づいて前記エコー推定フィルタ係数及び前記エコー推定値を決定するように適合化されている請求項１から４のいずれか一項に記載の音響エコー抑制ユニット（２１０）。
前記計算器（２２０）は、複数の異なる可能な遅延値の相関値を決定し、前記複数の異なる可能な遅延値の各値に対するエコー予測利得値を決定し、かつ前記複数の異なる可能な遅延値のうち前記決定されたエコー予測利得値の最大値を有するものを第１の基準パワースペクトルを遅延させる前記遅延値として決定するようにさらに適合化されている請求項５に記載の音響エコー抑制ユニット（２１０）。
前記計算器（２２０）は、前記第１の基準パワースペクトルに基づき前記第１の基準パワースペクトルの平均値を減算することによって第１の修正されたパワースペクトルを決定し、前記第２の基準パワースペクトルに基づき前記第２の基準パワースペクトルの第２の平均値を減算することによって第２の修正されたパワースペクトルを決定し、かつ前記第１及び第２の修正されたパワースペクトルに基づいて前記エコー推定フィルタ係数を決定するように適合化されている請求項１から６のいずれか一項に記載の音響エコー抑制ユニット（２１０）。
ダウンミックス信号（３１０）とパラメトリックサイド情報（３２０）とを含む入力信号（３００）からダウンミックス信号（３１０）を抽出するステップであって、前記ダウンミックス信号（３１０）及びパラメトリックサイド情報（３２０）は共同して少なくともさらなるチャネル又は前記ダウンミックス信号におけるチャネル数より多いチャネル数を有するマルチチャネル信号を表現しているステップと、
前記ダウンミックス信号及び前記マイクロホン信号又は前記マイクロホン信号から導出される信号に基づいて適応フィルタリングのためのフィルタ係数（３５０）を計算するステップと、
前記マイクロホン信号（３４０）における前記マルチチャネル信号によって生じるエコーを抑制するために、前記マイクロホン信号（３４０）又は前記マイクロホン信号から導出される信号（７２０）を前記フィルタ係数に基づいて適応的に濾波するステップと、
を含んで音響エコーを抑制する方法。
前記ダウンミックス信号（３１０）及び前記パラメトリックサイド情報（３２０）を複数のスピーカ信号（３３０）に復号するステップをさらに含んでいる請求項８に記載の方法。
請求項１から７のいずれか一項に記載の音響エコー抑制ユニット（２１０）と、
マルチチャネルデコーダ（２５０）と、
少なくとも１つのマイクロホンユニット（１１０）と、を備え、
前記マルチチャネルデコーダ（２５０）は、前記ダウンミックス信号（３１０）及び前記パラメトリックサイド情報（３２０）を複数のスピーカ信号（３３０）に復号するように適合化されており、
前記少なくとも１つのマイクロホンユニット（１１０）はマイクロホン信号（３４０）を供給するように適合化されている会議開催フロントエンド（２００）。
前記入力インタフェース（２３０）はさらに前記パラメトリックサイド情報（３２０）を抽出するように適合化されており、
前記マルチチャネルデコーダ（２５０）はアップミキサ（７０５）とパラメータプロセッサ（４８０）とを備えており、
前記パラメータプロセッサ（４８０）は前記パラメトリックサイド情報（３２０）を前記入力インタフェース（２３０）から受信し、かつアップミックス制御信号（７０７）を供給するように適合化されており、
前記アップミキサ（７０５）は前記入力インタフェース（２３０）から前記ダウンミックス信号（３１０）を受信し、前記パラメータプロセッサから前記アップミックス制御信号を受信し、かつ前記ダウンミックス信号（３１０）及び前記アップミックス制御信号（７０７）に基づいて前記複数のスピーカ信号（３３０）を供給するように適合化されている請求項１０に記載の会議開催フロントエンド（２００）。
複数のオーディオ入力信号（３４０；４１０）を、共同して該複数のオーディオ入力信号を表現するさらなるダウンミックス信号（７２０）及びさらなるパラメトリックサイド情報（７３０）に符号化するように適合化されたマルチチャネルエンコーダ（４００）をさらに備え、
前記少なくとも１つのマイクロホンユニット（１１０）の前記マイクロホン信号（３４０）は前記複数のオーディオ入力信号に含まれており、
前記音響エコー抑制ユニット（２１０）は、前記さらなるダウンミックス信号（７２０）を前記マイクロホン信号から導出される信号として受信するように適合化されている請求項１０又は１１に記載の会議開催フロントエンド（２００）。
複数のマイクロホンユニット（１１０）を備え、該複数のマイクロホンユニット（１１０）は前記複数のオーディオ入力信号（３３０；４１０）を供給するように適合化されている請求項１０から１２のいずれか一項に記載の会議開催フロントエンド（２００）。
複数のスピーカ信号（３３０）と１つのマイクロホン信号（３４０）とを供給する方法であって、
音響エコーを抑制する（２１０）請求項８に記載の方法と、
マルチチャネル復号化（２５０）のステップと、
マイクロホン信号（３４０）を受信するステップと、を含み、
前記マルチチャネル復号化（２５０）のステップにおいて、前記ダウンミックス信号（３１０）及び前記パラメトリックサイド情報（３２０）は複数のスピーカ信号（３３０）を取得するために復号される方法。
請求項８又は１４に記載の方法をプロセッサ上で実行させるためのコンピュータプログラム。