JP5384721B2 - 音響エコー抑制ユニットと会議開催フロントエンド - Google Patents

音響エコー抑制ユニットと会議開催フロントエンド Download PDF

Info

Publication number
JP5384721B2
JP5384721B2 JP2012505056A JP2012505056A JP5384721B2 JP 5384721 B2 JP5384721 B2 JP 5384721B2 JP 2012505056 A JP2012505056 A JP 2012505056A JP 2012505056 A JP2012505056 A JP 2012505056A JP 5384721 B2 JP5384721 B2 JP 5384721B2
Authority
JP
Japan
Prior art keywords
signal
microphone
channel
power spectrum
downmix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012505056A
Other languages
English (en)
Other versions
JP2012524434A (ja
Inventor
ファビアン・クーチ
マルクス・カリンゲル
マルクス・シュミット
メライ・ゾウルブ
マルコ・ディアトシュク
オリベル・モーゼル
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2012524434A publication Critical patent/JP2012524434A/ja
Application granted granted Critical
Publication of JP5384721B2 publication Critical patent/JP5384721B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

本発明による実施形態はエコー抑制ユニット及び音響エコーを抑制するための方法に関し、例えば、無人通話系において、又は空間音響のパラメトリック表現を基礎とするマルチチャネルラウドスピーカ再生を含む他の音響系において使用することができる。
音響エコーは、電気通信デバイスのスピーカとマイクロホンとの間の音響カップリング又はフィードバックから起こる。この現象は、特に無人の動作に存在する。スピーカからの音響フィードバック信号は遠端の加入者へ送り返され、上記加入者は遅れて届く自らの音声を認知する。エコー信号は著しく気を散らせる外乱を表し、双方向性の全二重通信を妨げる可能性すらある。さらに、音響エコーは、音響フィードバックループのハウリング効果(howling effects)及び不安定さを導く可能性もある。したがって、全二重無人電気通信システムでは、スピーカとマイクロホンとの間のカップリングを消すためにエコーを制御することが望ましい。
図9は、一般的な音響エコー制御という課題を示している。スピーカによって発せられる遠端信号はマイクロホンへ直接に届きもするし、反射経路を介しても届く。したがって、マイクロホンは局所的な近端音声を捕捉するだけでなく、こうして遠端に存在するユーザへフィードバックされるエコーも捕捉する。
スピーカ信号x(n)はスピーカ100へ供給され、スピーカ100はこのスピーカ信号を、スピーカ100を包囲する媒体の可聴振動に変換する。図9に示すように、マイクロホン110は、スピーカ100によって発せられる、図9では曲がったベクトルで示されている音を受信することがある。この場合、y(n)はスピーカ100からマイクロホン110へのフィードバック信号を示している。
フィードバック信号y(n)とは別に、マイクロホン110は、例えばユーザによる音声を表し得る追加的な音声信号w(n)も記録する。双方の音響信号はマイクロホン110によって記録され、マイクロホン信号z(n)としてエコー除去ユニット120へ供給される。エコー除去ユニット120はスピーカ信号x(n)も受信する。エコー除去ユニット120は、理想的には記録された信号又はマイクロホン信号z(n)からスピーカ信号x(n)からの寄与分が取り除かれている信号を出力する。
故に、図9は、音響エコー制御という課題の一般的な設定を示している。スピーカ信号x(n)は、マイクロホン信号z(n)へフィードバックされる。エコー除去プロセスは、このエコーを、理想的には所望される局所的な近端信号w(n)を通過させながら除去する。
音響エコーの制御は周知の課題であり、音響エコーを除去する様々な方法が提案されている(非特許文献13参照。)。以下、例えば非特許文献8、9に提示されているような音響エコー抑制(AES)の手法を簡単に振り返ってみる。それらの手法は空間オーディオ通信において考察対象の状況において最も適切であるからである。
音響信号を送信又は再生する場合には、しばしばマルチチャネルシステムが使用される。これらのシステムでは、複数のスピーカを用いて音声が再生され、及び/又は複数のマイクロホンを用いて空間音響が録音される。このようなマルチチャネルシステムは、例えば空間オーディオテレビ会議システムにおいて使用されるが、空間オーディオテレビ会議システムは異なる当事者の音響信号を送信するだけでなく録音シーンの空間的情報を保存もする(非特許文献12参照。)。他のシステムでは、空間的情報は人為的に提供され得るか、又は対話方式で変更され得る(非特許文献5参照。)。
電気通信の場面に空間オーディオが適用される場合には、引き続き高い音響品質を保証しながら、マルチチャネル音響信号の効率的表現が使用されるべきである。パラメトリックな空間オーディオコーディングは、この課題に対処する適切な手法となる。以下、パラメトリックな空間オーディオコーディングの例に従った、特に通信の状況において重要な実際的方法を提示する。
例えば先に述べた空間オーディオコーディングとしてのマルチチャネルシステムは、複数の音響信号を極めて効率的かつ帯域幅を節約する方法で伝送する機会を提供するが、このようなマルチチャネルシステムへのエコー除去又はエコー抑制プロセスの直接的な実施は、マルチチャネルシステムによる出力としての1つ1つのスピーカ信号に基づいた1つ1つのマイクロホン信号への適用を必要とする。しかしながらこれは、処理されるべきマイクロホン信号及び/又はスピーカ信号の数が膨大であることに単に起因して、演算の複雑さを著しく、ほぼ指数関数的に増大させることを意味するかも知れない。したがってこれは、より高いエネルギー消費量、より高いデータ処理能力の必要性及び最終的には僅かに増える遅延にも起因する追加コストを必要とするかも知れない。
[1] ISO/IEC 23003−1:2007「情報技術−MPEGオーディオ技術−第1部:MPEGサラウンド」国際標準化機構、スイス、ジュネーブ、2007年 [2] E. Benjamin, T. Chen共著「ネイティブB−フォーマットマイクロホン:第I部」第119回AES会議、論文6621、ニューヨーク、2005年10月 [3] H. Buchner, R. Aichner, W. Kellermann 共著「二次統計量を基礎とする畳み込み混合のためのブラインドソースセパレーションアルゴリズムの一般化」IEEE trans. on Speech and Audio Proceeding, 13(1):120−134、2005年1月 [4] H. Buchner, R. Aichner, J. Stenglein, H. Teutsch, W. Kellermann 共著「ブラインド適応MIMOフィルタリングを用いる複数音源の同時的ローカライゼーション」音響、音声及び信号処理に関するIEEE国際会議(ICASSP)会報、フィラデルフィア、2005年3月 [5] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, W. Oomen 共著「空間オーディオオブジェクトコーディング(SAOC)−パラメトリックオブジェクトベースのオーディオコーディングに関する来るべきMPEG標準」第124回AES会議、論文7377、アムステルダム、2008年5月 [6] A. Favrot 他著「短期スペクトルの時間的変動を基礎とする音響エコー制御」音響エコー及び雑音制御に関する国際ワークスショップ(IWAENC)会誌、シアトル、2008年9月提出 [7] W. Etter, G. S. Moschytz 共著「雑音適応スペクトル振幅拡張による雑音低下」J. Audio Eng. Soc., 42:341−349、1994年5月 [8] C. Faller, C. Toumery 共著「低複雑性エコー抑制のための音響エコー経路の遅延及び着色効果推定」音響エコー及び雑音制御に関する国際ワークスショップ(IWAENC)会報、2005年9月 [9] A. Favrot, C. Faller, M. Kallinger, F. Kuech, M. Schmidt 共著「短期スペクトルの時間的変動を基礎とする音響エコー制御」音響エコー及び雑音制御に関する国際ワークスショップ(IWAENC)会報、2008年9月 [10] Jurgen Herre, Kristofer Kjorling, Jeroen Breebaart, Christof Faller, Sascha Disch, Heiko Purnhagen, Jeroen Koppens, Johannes Hilpert, Jonas Roden, Werner Oomen, Karsten Linzmeier, Kok Seng Chong 共著「MPEGサラウンド−効率的かつ互換性マルチチャネルオーディオコーディングに関するISO/MPEG標準」J. Audio Eng. Soc., 56(11):932−955、2008年11月 [11] J. Merimaa 著「3Dマイクロホンアレイの用途」第112回AES会議、論文5501、ミュンヘン、2002年5月 [12] V. Pulkki 著「方向オーディオコーディングを用いた空間サウンド再生」J. Audio Eng. Soc., 55(6):503−516、2007年6月 [13] G. Schmidt, E. Hansler 共著「音響エコー及び雑音の制御」実際的手法、Hoboken:Wiley、2004年
したがって、本発明の目的は、より効率的な音響エコー抑制を可能にする音響エコー抑制ユニット及び会議開催フロントエンドを提供することにある。
この目的は、請求項1に記載されている音響エコー抑制ユニット、請求項8に記載されている音響を抑制するための方法、請求項10に記載されている会議開催フロントエンド、請求項14に記載されている複数のスピーカ信号及び1つのマイクロホン信号を供給するための方法、又は請求項15に記載されているコンピュータプログラムによって達成される。
本発明による実施形態は、ダウンミックス信号及びパラメトリックサイド情報を含む入力信号からダウンミックス信号を抽出し、このダウンミックス信号及びマイクロホン信号又はマイクロホン信号から導出される信号に基づいて適応フィルタのフィルタ係数を計算し、さらに、計算されたフィルタ係数に基づいてマイクロホン信号又はマイクロホン信号から導出される信号を濾波することによって、より効率的な音響エコー抑制を達成できるという発見に基づいている。言い替えれば、パラメトリックサイド情報がダウンミックス信号と共にマルチチャネル信号を表しており、入力信号を形成するダウンミックス信号及びパラメトリックサイド情報に基づくマルチチャネルシステムの場合、エコー抑制はダウンミックス信号を基礎として行われ得る。
したがって、本発明による実施形態を使用しながら、入力信号をマルチチャネル信号に復号した後に音響エコー抑制を実行することを回避可能である場合がある。したがって、先に述べたマルチチャネルシステムに比べて信号の数が劇的に低減されることから、演算の複雑さを著しく低減することが可能である場合がある。本発明による実施形態を使用すれば、入力信号に含まれるダウンミックス信号に基づいて音響エコー抑制を実行することが可能である。
本発明によるさらなる実施形態では、エコー抑制は、受信されるダウンミックス信号とマイクロホン信号又はマイクロホン信号から導出される信号とに基づいて決定され得る基準パワースペクトルに基づいて実行されてもよい。場合により、マルチチャネル信号から導出される基準パワースペクトルは、例えば相関値に基づいて決定され得る遅延値によって遅延されてもよい。
したがって、本発明の一実施形態による会議開催フロントエンドは、本発明の一実施形態による音響エコー抑制ユニットを備えるだけでなく、マルチチャネルデコーダ及び少なくとも1つのマイクロホンユニットも備えている。そこでは、マルチチャネルデコーダは、ダウンミックス信号及びパラメトリックサイド情報を複数のスピーカ信号に復号するように適合化されている。少なくとも1つのマイクロホンユニットは、マイクロホン信号を音響エコー抑制ユニットへ供給するようにさらに適合化されている。会議開催フロントエンドのさらなる実施形態において、入力インタフェースはさらにパラメトリックサイド情報を抽出するように適合化されており、その場合、マルチチャネルデコーダはアップミキサ及びパラメータプロセッサを備えている。よって、パラメータプロセッサは、入力インタフェースからパラメトリックサイド情報を受信しかつアップミックス制御信号を供給するように適合化されている。アップミキサは、入力インタフェースからダウンミックス信号を受信しかつパラメータプロセッサからアップミックス制御信号を受信するように適合化されており、かつダウンミックス信号及びアップミックス制御信号に基づいて複数のスピーカ信号を供給するように適合化されている。故に、本発明による実施形態では、音響エコー抑制ユニットの入力インタフェースはマルチチャネルデコーダの入力インタフェースであってもよく、又は、マルチチャネルデコーダ及び音響エコー抑制ユニットの双方が共通の入力インタフェースを共用してもよい。
さらに、本発明による実施形態は、場合により、複数の音響入力信号を、さらなるダウンミックス信号及びさらなるパラメトリックサイド情報に符号化するように適合化された対応するマルチチャネルエンコーダも備えていてもよい。そのさらなるダウンミックス信号とさらなるパラメトリックサイド情報が共同して複数の音響入力信号を表す。この場合、前記の少なくとも1つのマイクロホンユニットのマイクロホン信号は、複数の音響入力信号のうちの1つの音響入力信号である。この場合、会議開催フロントエンドに含まれる音響エコー抑制ユニットは、マイクロホン信号から導出されるようなさらなるダウンミックスを受信するように適合化されている。
言い替えれば、後に提示するように、本発明の実施形態による手法は、音響エコー抑制とパラメトリックな空間オーディオコーディングとを効率的に結合することを可能にする。
以下、添付の図面を参照して、本発明による実施形態について説明する。
本発明の一実施形態による音響エコー抑制ユニットを備えた会議開催フロントエンドを示すブロック図である。 パラメトリック空間オーディオエンコーダの一般構造を示す。 パラメトリック空間オーディオデコーダの一般構造を示す。 MPEGサラウンド(MPS)デコーダに使用される信号処理回路を示す。 空間オーディオオブジェクトコーディング(SAOC)デコーダの一般構造を示す。 SAOC−データをMPS−データへトランスコードするためのモノダウンミックスベースのトランスコーダを示す。 SAOC−データをMPS−データへトランスコードするためのステレオダウンミックスベースのトランスコーダを示す。 パラメトリック空間オーディオコーダのダウンミックスに基づく音響エコー抑制の提案する効率的手法を例証するための、本発明の一実施形態による会議開催フロントエンドを示す。 本発明の一実施形態による音響エコー抑制ユニットを備えた会議開催フロントエンドの形式である、本発明によるさらなる実施形態を示す。 音響エコー制御の問題の一般的な配置を示す。
以下、図1〜図9を参照して、本発明による異なる実施形態及び根本的な技術を概説し、かつより詳細に説明する。しかしながら、単チャネル音響エコー抑制及びマルチチャネル音響エコー抑制のための音響エコー抑制技術を紹介する前に、まず、会議開催フロントエンド形式である本発明による実施形態について音響エコー抑制ユニットとともに記述する。
図1は、中心コンポーネントとして本発明の一実施形態による音響エコー抑制ユニット210を備える会議開催フロントエンド200を示すブロック図である。音響エコー抑制ユニット210は、計算器220と、入力インタフェース230と、適応フィルタ240とを備える。会議開催フロントエンド200はさらにマルチチャネルデコーダ250を備え、マルチチャネルデコーダ250は出力方向で複数のスピーカ100へ結合されている。スピーカ100のうち、例示的に4つのスピーカ100−1、…、100−4が示されている。この会議開催フロントエンドはさらに、マイクロホン又はマイクロホンユニット110を備えている。
もう少し具体的に言えば、ダウンミックス信号310とパラメトリックサイド情報320とを含む入力信号300が供給される。入力インタフェース230は、図1に示されている実施形態における入力信号からダウンミックス信号310及びパラメトリックサイド情報320の双方を分離又は抽出する。図1に示されている実施形態において、入力インタフェース230は、ダウンミックス信号310をパラメトリックサイド情報320とともにマルチチャネルデコーダ250へ供給する。
マルチチャネルデコーダ250は、ダウンミックス信号310及びパラメトリックサイド情報320を複数のスピーカ信号330に復号するように適合化されている。単純化のために図1では、スピーカ信号には1つだけに参照数字を付している。スピーカ100はマルチチャネルデコーダ250の適切な出力へ結合されていることから、スピーカ100は個々のスピーカ信号330を受信し、かつそれらを可聴音響信号に戻すように変換する。
計算器220はさらに入力インタフェース230の出力へも結合されており、入力インタフェース230の出力ではダウンミックス信号310を利用可能になっている。故に、計算器220はダウンミックス信号310を受信するように適合化されている。しかしながら、図1に示されている実施形態では、入力信号300のパラメトリックサイド情報320は計算器220へは供給されない。言い替えれば、本発明による実施形態において、計算器220は入力信号に含まれる信号に関してはダウンミックス信号のみを使用することができる。
マイクロホン110は、出力方向で計算器220及び適応フィルタ240の双方へ結合されている。必然的に、計算器220は、マイクロホン110によって供給されるマイクロホン信号340を受信するようにも適合化されている。計算器220は、マイクロホン信号340及びダウンミックス信号310に基づいて適応フィルタ240のフィルタ係数を決定し、かつ適応フィルタ240へ対応するフィルタ係数信号350を供給するように適合化されており、適応フィルタ240はこのフィルタ係数信号350に基づいて着信するマイクロホン信号340を濾波する。適応フィルタ240は、その出力において、マイクロホン信号340のエコー抑制バージョンである出力信号を生成する。
以下、計算器220の可能な実施の動作モードについてさらに詳しく述べる。
図1では、入力インタフェース230は音響エコー抑制ユニット210の個別コンポーネントとして略示されているが、インタフェース230はデコーダ250の一部であってもよく、又はデコーダ250及び音響エコー抑制ユニット210の双方によって共用されてもよい。さらに、本発明による実施形態の実施は、例えばダウンミックス信号310のみを抽出できる入力インタフェース230を実装することによって行うことも可能である。この場合、入力信号300はマルチチャネルデコーダ250へ供給されることになり、マルチチャネルデコーダ250がダウンミックス信号310及びパラメトリックサイド情報320の双方を抽出できる適切なインタフェースを備える。言い替えれば、パラメトリックサイド情報を抽出できずダウンミックス信号310のみを抽出できる入力インタフェース230を有する音響エコー抑制ユニット210を実現できる場合がある。
本発明による実施形態は、空間オーディオ通信システムに用いられるマルチチャネルスピーカシステムの音響エコーを抑制するための効率的な方法を表す。本方法は、空間オーディオ信号がダウンミックス信号、及び対応するパラメトリックサイド情報又はメタデータによって表される場合に適用可能である。これらのパラメータは、再生側でスピーカ信号を計算するために必要とされる情報を保有する。本発明は、スピーカ信号が音響エコー抑制(AES)へ入力される前にスピーカ信号を明確に計算するのではなく、受信されたダウンミックス信号に基づいてエコー抑制を直に実行できるという事実を利用している。同様に、遠端へ伝送されるべき空間オーディオ信号のダウンミックス信号においても、エコー成分が抑制されることができる。この手法もまた、典型的には、観察音場の捕捉に用いられるマイクロホンの記録信号の各々にエコー抑制を適用することよりも効率的である。
以下、1つの実施形態又は1つの図に2回以上現出し、しかも少なくともその幾つかの特徴又は構造が等しいか又は類似する物に関しては、集約的な参照記号を使用する。例えば、図1において、4つのスピーカ100−1、…、100−4は個々の参照記号によって示されているが、スピーカとしてのその基本的な特性又は特徴が論じられる場合には、「スピーカ100」としている。
さらに、説明を単純にするために、類似の又は等しい物は同じか又は類似の参照記号で示す。図1と図9とを比較すると、スピーカには同じ参照記号100が付されている。同じか又は類似の参照記号によって示されている物は、同一のものとして、類似のものとして、又は相違するものとして実施することができる。例えば、実施形態によっては、異なるスピーカ信号に対して異なるタイプのスピーカ100を実装することが望ましい場合もあるが、異なる用途ではスピーカは同じものが実装されてもよい。したがって、同じか又は類似の参照記号で示される物は、場合によって同じもの又は類似のものが実装されてもよい。
さらに、1つの図において幾つかの物が2回以上現出する場合、描かれている物の数は典型的には単に例示を目的とするものであることは留意されるべきである。その数は増加してもよいし減少してもよい。例えば、図1は4つのスピーカ100−1、…、100−4を示しているが、異なる実施形態ではこれより多い数又は少ない数のスピーカ100も当然に実装されてもよい。例えば、「5.1」システムの場合、典型的には5つのスピーカが1つのサブウーフスピーカと共に使用される。
次に、音響エコー抑制の一般的手法を簡単に振り返ってみる。これに関しては、基本的に非特許文献8、9に記述されている方法に従う。
図9に示されているように、マイクロホン信号z(n)は、スピーカ信号x(n)のフィードバックの結果である音響エコー信号y(n)と、近端信号w(n)とから成る。ここでは、室内インパルス応答が、スピーカ信号x(n)とマイクロホン信号z(n)との間のサンプルの遅延dに対応する直接伝搬経路と、エンクロージャ(enclosure)の音響特性をモデリングする線形フィルタgnとの組合せとして表され得るものと仮定する。
すると、マイクロホン信号z(n)は、
Figure 0005384721
で表すことができる。但し、*は畳み込みを示す。式(1)の短時間フーリエ変換(STFT)領域表現は、
Figure 0005384721
で与えられる。但し、kはブロック時間指数であり、mは周波数指数を示す。Xd(k,m)は、遅延したスピーカ信号のSTFT領域対応として定義される。式(2)の右項の第1の項はエコー成分Y(k,m)を表し、
Figure 0005384721
である。
音響エコー抑制に関する下記の論考が、STFTを信号のスペクトル表現として参照するものであることは留意されるべきである。しかしながら、この概念が、他の適切な任意の周波数サブバンド表現にも適用可能であることは明らかである。
音響エコー抑制は、マイクロホン信号Z(k,m)のSTFTの振幅を、その位相を変えずに保ちながら、修正することによって実行される。これは、
Figure 0005384721
で表すことができる。但し、H(k,m)は実数値の正の減衰定数を表す。以下、H(k,m)をエコー抑制フィルタ(ESF)と称する。
エコー抑制フィルタH(k,m)を計算する実際的手法は、非特許文献7と同様に、パラメトリックなスペクトルサブトラクション法、即ち、
Figure 0005384721
を用いることである。但し、α、β及びγはエコー抑制性能を制御するための設計パラメータを表す。
β及びγの典型的な値は約2であるが、用途によっては、αはγの逆数であるように選択される。言い替えれば、β=2及びγ=2という典型的な値を選択する場合、αは、典型的には0.5(=1/2)であるように選ばれる。
エコー信号のパワースペクトルの推定は、
Figure 0005384721
によって得ることができる。但し、
Figure 0005384721
はエコー電力伝達関数
Figure 0005384721
の推定値を表す。或いは、
Figure 0005384721
に従った複素スペクトルベースの手法を使用することもできる。
実際には、エコー電力伝達関数
Figure 0005384721
及び遅延dは共に未知であり、よって、次に論じるように、対応する推定値で置換されなければならないことに留意されたい。以下、
Figure 0005384721
をエコー推定フィルタ(EEF)と称する。
EEFを推定する1つの可能な方法は非特許文献8に提案されている。近端のスピーカが無音であると仮定すれば、式(2)は、EEFが、
Figure 0005384721
によって推定され得ることを意味する。但し、*は複素共役演算子を示し、
Figure 0005384721
は期待値演算子を示す。期待値演算子は、その引数の浮動平均によって近似することができる。
上述の技法はエコー経路伝達関数を効果的に推定し、かつその大きさを、実数値EEFを取得するために採用する。エコー経路変化、時間ドリフト、他の間等、位相が急激に変わる度に、このEEF推定は再収束しなければならない場合がある。式(8)を位相変化に対して非感受性にするために、式(8)は、複素スペクトルからではなくパワースペクトルから計算されるように修正することが可能である(非特許文献6参照。)。
即ち、
Figure 0005384721
となる。
非特許文献6では、式(9)による推定値はかたよりのあることが示されている。したがって、非特許文献6にはEEFを推定するための別の手法の使用、即ち、スピーカ信号及びマイクロホン信号のパワースペクトルの時間的変動に基づいて
Figure 0005384721
を推定することが提案されている。パワースペクトルの時間的変動は、
Figure 0005384721
によって計算することができる。
次に、EEFの推定は式(9)と同様に、但し、スピーカ及びマイクロホンの変動するスペクトルを基礎として実行される。
即ち、
Figure 0005384721
である。
変動するパワースペクトルは、
Figure 0005384721
を推定するためにのみ用いられる点に留意することは重要である。エコー抑制フィルタH(k,m)の計算は、依然としてスピーカ信号の元のパワースペクトル及びマイクロホン信号の元のパワースペクトルを基礎とする。
遅延値dは、スピーカのパワースペクトル及びマイクロホンのパワースペクトルに関する二乗コヒーレンス関数を用いて、
Figure 0005384721
に従って推定することができる。
一般に、遅延dは次に、周波数ビンm毎に異なって選択することができる。しかしながら、ここでは、1つの遅延を全ての周波数に関連して考察する。したがって、ここでは、エコーの予測利得ωd(k)を周波数全体のГd(k,m)の平均として計算する。
Figure 0005384721
ここで、Mは周波数ビンの数を示す。次にdは、エコーの予測利得が最大化されるように、即ち、
Figure 0005384721
となるように選択される。
式(15)の代わりに、遅延値dの推定は、変動するスペクトルに関連して、即ち式(10)、式(11)に基づいて実行することも可能である。
実際には、上述の導出に用いられる数学的期待値E{…}は対応する短期平均又は浮動平均によって置換されなければならない場合があることに留意されたい。例として、
Figure 0005384721
について考察する。
Figure 0005384721
に対応する短期平均
Figure 0005384721
は、例えば、
Figure 0005384721
に従った再帰的平滑化によって得ることができる。
因数αavgは平滑化の経時的度合いを決定し、かつ与えられる任意の要件に適合させることができる。
以下、先のセクションにおいて記述した単チャネルAESがマルチチャネルAESへも如何に同様に適用され得るかについて論じる。
1(k,m)は、l番目のスピーカ信号のSTFT領域表現を示すものとする。すると、全スピーカチャネルのジョイントパワースペクトルは、個々のスピーカ信号のパワースペクトルを結合することによって計算される。
Figure 0005384721
但し、Lはスピーカチャネルの数を示す。
或いは、スピーカ信号のジョイントパワースペクトルは、各スピーカ信号のスペクトルを加算しかつこのジョイントスペクトルの二乗振幅をとることから取得されてもよい。
Figure 0005384721
同様に、マイクロホンチャネルについても、ジョイントパワースペクトルは、
Figure 0005384721
に従って計算される。但し、Zp(k,m)はp番目のマイクロホンの信号を表し、Pはマイクロホンの数を示す。
或いは、スピーカ信号の場合と同様に、マイクロホンのジョイントパワースペクトルは、
Figure 0005384721
に従って計算されることも可能である。
エコーのパワースペクトルの所望されるモデルは、スピーカ信号及び近端信号の統計的独立性を仮定する場合、式(2)に類似して与えられる。
Figure 0005384721
但し、マルチチャネルの場合、パワースペクトル
Figure 0005384721
及び
Figure 0005384721
は各々、式(18)及び式(20)によって与えられる。
エコー推定フィルタ
Figure 0005384721
及び遅延値dを各々決定するためには、先に論じた種々の方法を適用する場合もあるが、本明細書で定義したスピーカのジョイントパワースペクトル及びマイクロホンのジョイントパワースペクトルが使用される。
次に、実際のエコー抑制は各マイクロホン信号毎に別々に、但し各マイクロホンチャネルに同じエコー除去フィルタ、即ち、
Figure 0005384721
を用いて実行される。但し、p=0,1,…,P−1である。
このセクションでは、空間オーディオのパラメトリック表現及び空間オーディオのパラメトリックコーディングの幾つかの重要な例を再考していく。これにより、方向オーディオコーディング(DirAC)(非特許文献12参照。)、MPEGサラウンド(MPS)(非特許文献1参照。)及びMPEG空間オーディオオブジェクトコーディング(SAOC)(非特許文献5参照。)という手法について考察する。種々のコーディング手法の特異的詳細を検討する前に、本明細書で論じる全ての方法に共通する基本的なエンコーダ/デコーダ構造について考察する。
図2には、パラメトリック空間オーディオエンコーダの一般構造が示されている。図2は、マルチチャネル又はパラメトリックな空間オーディオエンコーダ400を示す。エンコーダは複数のオーディオ信号を入力として取り込み、1つ又は複数のチャネルのダウンミックス信号及び対応するパラメトリックサイド情報を出力する。もう少し具体的に言えば、マルチチャネルエンコーダ400には複数の入力信号410−1、…、410−Nが供給される。入力信号410−1、…、410−Nは原則的には任意のオーディオ信号であってもよい。エンコーダ400は入力信号410に基づいてダウンミックス信号310及びパラメトリックサイド情報320を生成する。ダウンミックス信号310及びパラメトリックサイド情報320は共同して複数の入力信号410を表現する。マルチチャネルエンコーダ400の多くの事例及び実施において、この表現は、典型的にはロスレス(lossless)ではない。
エンコーダは、入力として複数のオーディオチャネルを取り込む。実際のコーディング手法に依存して、これらのオーディオ入力チャネルはマイクロホン信号(非特許文献12参照。)、スピーカ信号(非特許文献10参照。)を表現することができ、又は入力信号は所謂空間オーディオオブジェクト(非特許文献5参照。)に対応する。エンコーダの出力は、ダウンミックス信号310及び対応するパラメトリックサイド情報320である。ダウンミックス信号は、1つ又は複数のオーディオチャネルを含む。サイド情報は、観測される音場、異なる入力チャネル間の関係又は異なるオーディオオブジェクト間の関係を表現するパラメトリックなメタデータを含む。エンコーダの出力、即ちダウンミックス信号とサイド情報との結合を、以下、空間オーディオストリーム又は空間オーディオ表現と称する。
図3には、対応するパラメトリック空間オーディオデコーダの一般構造が示されている。図3は(マルチチャネル)デコーダ250を示しており、デコーダ250はダウンミックス信号310及び対応するパラメトリックサイド情報320を入力として取り込む。マルチチャネルデコーダ250は複数の出力信号420−1、…、420−Nを出力する。出力信号420−1、…、420−Nは、例えば所望される再生環境に対応するスピーカ信号(例えば、図1に示されているようなスピーカ信号330)であってもよい。図から分かるように、デコーダは、空間オーディオストリームを入力として取り込む。デコーダは、ダウンミックス信号とサイド情報に含まれるメタデータとに基づいて、所望される再生環境に対応するスピーカ信号を計算する。典型的なスピーカ設定は、例えば非特許文献1に記述されている。
パラメトリックな空間オーディオコーディングスキームの一例は、DirACとも称される方向オーディオコーディングである。DirACは音場のパラメトリック表現を使用する。そのパラメトリック表現は周波数サブバンドにおける音の到来方向(DOA)及び拡散性を用いる。故にこれは、人間の聴覚に関連する特徴のみを考慮する。DirAC手法は、音場の到来方向が正しく再生されれば、両耳間時間差(ITD)及び両耳間レベル差(ILD)は正しく知覚される、という仮定に基づくものである。同様に、音場の拡散性が正しく再生されれば、両耳間コヒーレンス(IC)は正しく知覚されるものと仮定される。このように、再生側は、所定の聴取位置において任意のスピーカセットによって人間が空間オーディオを知覚することに関連する特徴を生成するに当たって、方向パラメータ、拡散性パラメータ及び1つのモノマイクロホン信号を要するのみである。
DirACにおいて、所望されるパラメータ(即ち、音の
Figure 0005384721
及び各周波数バンドにおける拡散性Ψ(k,m))は、B−フォーマットのマイクロホン信号に基づく音場のエネルギー分析(非特許文献12参照。)を介して推定される。B−フォーマットのマイクロホン信号は、典型的には、1つの全方向性信号W(k,m)と、直交座標系のx、y方向に対応する2つの双極子信号
Figure 0005384721
とを含む。B−フォーマット信号は、例えば音場マイクロホン(非特許文献2参照。)を用いて直接に測定されてもよい。或いは、要求されるB−フォーマット信号の生成に当たっては、全方向性マイクロホンのアレイを使用することができる。
再生側(デコーダ)では、モノダウンミックス信号並びに方向パラメータ及び拡散性パラメータに基づいて種々のスピーカ信号が計算される。スピーカ信号は、各々直接音及び拡散音に対応する信号成分から構成される。p番目のスピーカチャネルの信号は、例えば、
Figure 0005384721
に従って計算できる。但し、Ψ(k,m)は周波数サブバンドm及びブロック時間指数kにおける拡散性を示す。パニング利得gp(k、m)は、音
Figure 0005384721
のDOA及び所望される聴取位置に対するスピーカpの位置の双方に依存する。演算子Dp{…}は逆相関器に対応する。逆相関器は、p番目のスピーカ信号の計算に際してダウンミックス信号W(k,m)に適用される。
上述の論考から、マイクロホン信号(B−フォーマット又は全方向性マイクロホンのアレイ)はDirACエンコーダ400の入力を表現することになる。エンコーダの出力は、ダウンミックス信号W(k,m)と、サイド情報としての方向
Figure 0005384721
パラメータ及び拡散性パラメータ(Ψ(k,m))によって与えられる。
同様にして、デコーダ250は、ダウンミックス信号W(k,m)及びパラメトリックサイド情報
Figure 0005384721
及びΨ(k,m)を入力として取り込み、式(24)に従って所望されるスピーカ信号を計算する。
MPEGサラウンド(MPS)は、高品質空間オーディオコーディングへの効率的手法を表している(非特許文献10参照。)。MPSの完全な仕様は、非特許文献1に記載されている。以下、MPSの詳細については検討せず、本発明による実施形態の文脈において関連のある部分について再考する。
MPSは次の事実を利用している。すなわち、マルチチャネルオーディオ信号は、知覚的観点からすると、典型的には、異なるスピーカチャネルに対して著しい冗長性を含むという事実である。MPSエンコーダは複数のスピーカ信号を入力として取り込むが、スピーカの対応する空間環境は事前に知られていなければならない。これらの入力信号に基づいて、MPSエンコーダ400は周波数サブバンドにおける空間パラメータを計算する。その空間パラメータとは、2チャネル間のチャネルレベル差(CLD)、2チャネル間のチャネル間相関(ICC)、及び他の2チャネルから第3のチャネルを予測するために使用されるチャネル予測係数(CPC)などである。よって、実際のMPSサイド情報320は、これらの空間パラメータから導出される。さらに、エンコーダ400は、1つ又は複数のオーディオチャネルを含み得るダウンミックス信号を計算する。
モノ事例の場合、ダウンミックス信号B(k,m)は明らかに唯一のチャネルB(k,m)を含むのに対して、ステレオ事例におけるダウンミックス信号は、
Figure 0005384721
と書き表すことができる。ここで、例えばB1(k,m)は共通するスピーカ環境の左のスピーカチャネルに対応し、B2(k,m)は右のスピーカチャネルを示す。
MPSデコーダ250は、ダウンミックス信号及びパラメトリックサイド情報を入力として取り込み、所望されるスピーカ環境のスピーカ信号330、420を計算する。MPEGサラウンドデコーダに用いられる信号処理回路の一般構造は、ステレオ事例に関して図4に示されている。
図4は、MPEGサラウンドデコーダ250を示す略図である。デコーダ250へは、ダウンミックス信号310及びパラメトリックサイド情報が供給される。ダウンミックス信号310は、共通のステレオ環境の左右スピーカチャネルに対応するダウンミックス信号チャネルB1(k,m)及びB2(k,m)を含む。
プレミキシングマトリクス450(M1)において、ダウンミックス信号310の2チャネルは中間信号ベクトルV(k,m)に変換される。中間信号ベクトルV(k,m)の成分の一部は、次に、中間信号ベクトルの個々の成分を逆相関する複数の逆相関器460−1、…、460−Pへ供給される。逆相関器460によって生成される信号は、中間信号ベクトルV(k,m)の逆相関されていない信号又は中間信号ベクトルV(k,m)の信号成分と共に第2の中間信号ベクトルR(k,m)を形成し、これは次に、ポストミキシングマトリクス470(M2)へ供給される。ポストミキシングマトリクス470は、その出力において、複数のスピーカ信号330−1、…、330−Pを生成する。スピーカ信号330−1、…、330−Pは、図3に示されているデコーダでの出力信号420を表す。
デコーダ250はさらに、パラメトリックサイド情報320が供給されるパラメータプロセッサ480を含む。パラメータプロセッサ480は、プレミキシングマトリクス450とポストミキシングマトリクス470の双方へ結合されている。パラメータプロセッサ480は、パラメトリックサイド情報320を受信し、かつプレミキシングマトリクス450及びポストミキシングマトリクス470によって処理されるべき対応するマトリクスエレメントを生成するように適合化されている。このことを容易にするために、パラメータプロセッサ480は、プレミキシングマトリクス450及びポストミキシングマトリクス470の双方へ結合されている。
図4によって示されているように、復号プロセスは、
Figure 0005384721
に従って行列記法で書くことができる。
非特許文献1に従えば、M1(k,m)はプレミキシングマトリクス450を示し、M2(k,m)はポストミキシングマトリクス470を示す。M1(k,m)及びM2(k,m)のエレメントは、パラメータプロセッサ480によって提供され得る、再生に用いられる空間サイド情報及びスピーカ環境に依存することに留意されたい。
図4から分かるように、中間信号ベクトルV(k,m)及びR(k,m)間の関係は、次のように与えられる。即ち、信号ベクトルエレメントVp(k,m)の一部は変わらずに保たれ(Rp(k,m)=Vp(k,m))、一方でR(k,m)の他の成分はV(k,m)の対応するエレメントの逆相関バージョンであって、即ちRl(k,m)=Dl{(k、m)}である。但し、Dl{(k、m)}は逆相関器演算子を記述する。信号ベクトルX(k,m)のエレメントは、再生に用いられるマルチチャネルスピーカ信号Xp(k,m)に対応する。
MPSはスピーカチャネルを入力として想定するのに対して、テレビ会議システムでは、入力は記録されたマイクロホン信号から成ることは留意されるべきである。記録された音の所望される効率的な空間オーディオ表現を決定するために、マイクロホン入力信号から対応するスピーカチャネルへの変換が、MPSが適用され得る前に必要とされる場合がある。手法としての可能性の1つは、スピーカチャネルがマイクロホン入力信号の組合せによって直に計算され得るように配列されている複数の指向性マイクロホンをただ用いるだけである。或いは、先のセクションで述べたようなDirACエンコーダ及びDirACデコーダの直接接続を備えているスピーカチャネルのDirACベース演算を適用することができる。
空間オーディオオブジェクトコーディング(SAOC)は、多くのシングルオブジェクト並びに対応するシーン記述によって複雑なオーディオシーンを表現する概念に基づいている。この目的を達成する効率的な方法を実施するために、SAOCは、MPSに密接に関連する技法を適用する(非特許文献5参照。)。先と同様に、ここでは、SAOC概念のうち本発明の文脈に関連する部分のみについて考察する。さらなる詳細は、例えば非特許文献5に記述されている。
SAOCエンコーダの一般構造は図2に示されていて、入力信号410はオーディオオブジェクトに一致する。これらの入力信号410から、SAOCエンコーダ400はダウンミックス信号310(モノ又はステレオ)並びに所定のオーディオシーンにおける異なるオーディオオブジェクト同士の関係を表す対応するパラメトリックサイド情報320を計算する。MPSと同様に、これらのパラメータは、各ブロック時間指数と各周波数サブバンドごとに計算される。これらのパラメータには、オブジェクトレベル差(OLD)、オブジェクト間交差コヒーレンス(IOC)、オブジェクトエネルギー(NRG)及び他のダウンミックス信号関連の尺度及びパラメータが含まれる(非特許文献5参照。)。
SAOCデコーダ250は、ダウンミックス信号310並びに対応するサイド情報320を入力として取り込み、所望されるスピーカ構成のためのスピーカチャネル信号を出力する。またSAOCデコーダは、MPSレンダリング(rendering)エンジンも使用して最終的なスピーカ信号を決定する。SAOCエンコーダ400によって生成されるサイド情報に加えて、SAOCデコーダ250は、最終的な出力信号を計算するための入力として、レンダリングに用いられるスピーカ構成の情報、又は特有のオーディオオブジェクトの制御に関する他の双方向性情報も取り入れることに留意されたい。これについては、図5に示されている。
図5は、SAOCデコーダ250の一般構造を示す。SAOCデコーダ250へは、ダウンミックス信号310とパラメトリックサイド情報320が供給される。さらに、SAOCデコーダ250には、レンダリング情報又は相互作用情報490も供給される。先に述べたように、SAOCデコーダ250は、ダウンミックス信号310及びパラメトリックサイド情報320をレンダリング/相互作用パラメータ490とともに取り込んで、複数のスピーカ信号330−1、…、330−Nを生成する。これらのスピーカ信号はSAOCデコーダ250から出力される。
次に、モノダウンミックス信号及びステレオダウンミックス信号の各々の場合のSAOCデコーダについて考察する。非特許文献5に従って、SAOCデコーダの構造がモノダウンミックスの場合が図6Aに、ステレオ事例の場合が図6Bに示されている。
図6Aは、モノダウンミックスベースのトランスコーダに関するさらに具体的な詳細を示しており、このトランスコーダは非特許文献5によるSAOC−MPSトランスコーダとして用いることができる。図6Aに示されているシステムはMPEGサラウンドデコーダ250を備えている。MPEGサラウンドデコーダ250へは、ダウンミックス信号310と、パラメトリックサイド情報320としてのMPEGサラウンドビットストリームが供給される。MPEGサラウンドデコーダ250は、図6Aに示されている状況においては少なくとも5つのスピーカ信号330−1、…、330−5を出力する。場合により、MPEGサラウンドデコーダ250は、サブウーフスピーカ信号等のさらなるスピーカ信号を出力することもできる。しかしながら、単純化のために、図6Aには対応するサブウーフスピーカは示されておらず、スピーカ信号330の各々について対応するスピーカ100−1、…、100−5が示されている。
ダウンミックスビットストリーム310はMPEGサラウンドデコーダ250へ直接に供給されるが、パラメトリックサイド情報320はSAOC−MPSトランスコーダ500から供給される。トランスコーダ500は、入力信号520としてのSAOCビットストリームが供給されるSAOCパーシングユニット510を備えている。SAOCパーシングユニット510は、その出力信号の1つとして、多くのオブジェクトに関する情報530を生成する。
SAOCパーシングユニット510はさらにシーンレンダリングエンジン540へ結合されている。シーンレンダリングエンジン540は、SAOCパーシングユニット510から受信したデータをレンダリングマトリクス生成器560によって発生されるレンダリングマトリクス550に基づいて処理し、MPEGサラウンドデコーダ250のための対応するサイド情報320を出力する。したがって、シーンレンダリングエンジン540、及びMPEGサラウンドデコーダ250へサイド情報320を供給するその出力もまた、トランスコーダ500の出力を表す。
レンダリングマトリクス生成器560には再生環境に関する情報570及びオブジェクト位置に関する情報580が供給され、それらの情報に基づいてレンダリングマトリクス生成器560はレンダリングマトリクス550を生成する。
モノダウンミックスの復号は、所定のオブジェクト位置580及び再生に使用されるスピーカ環境570に基づいて、SAOCサイド情報をMPSサイド情報520へトランスコードすることを含む。こうして決定されるMPSサイド情報320は、SAOCモノダウンミックス信号310と共にMPSデコーダ250へ供給される。ダウンミックス信号310は不変のままであることから、スピーカ信号の計算も式(26)、式(27)によって表わすことができる。その場合、プレミキシングマトリクスM1(k,m)及びポストミキシングマトリクスM2(k,m)はSAOC−MPSトランスコーダで決定される。
図6Bは、図6Aに示されている対応するトランスコーダ500に類似するSAOC−MPSトランスコーダ500を示す。したがって、説明は上記を参照されたい。しかしながら、本システム並びに本トランスコーダ500は共に、主としてダウンミックス信号310に関連する相違があって、図6Bに描かれている状況におけるダウンミックス信号310はステレオダウンミックス信号である。したがって、MPEGサラウンドデコーダ250が図6Aの対応するMPEGサラウンドデコーダと異なる点は、ダウンミックス信号310が2つのチャネルを含み、よってデコーダ250はサイド情報320及びステレオダウンミックス信号310に基づいてスピーカ信号330を生成するように適合化されていることである。
図6Bに示されているシステムは、さらなる詳細に関して図6Aに示されているシステムとは異なる。トランスコーダ500はダウンミックストランスコーダ590をさらに備えており、ダウンミックストランスコーダ590は原初のダウンミックス信号310’並びにシーンレンダリングエンジン540からの制御情報600を受信する。したがって、ダウンミックストランスコーダ590は、制御情報600及び原初の、又は到来するダウンミックス信号310’に基づいてダウンミックス信号310を生成するように適合化されている。
ステレオ事例では、SAOCダウンミックス信号310’はMPSデコーダの適切な入力を表さない場合がある。そのような状況の一例は、あるオブジェクトの信号成分がSAOCステレオダウンミックス310’の左チャネルにのみ含まれ、一方でこれはMPSミキシングプロセスの間に右半球へレンダリングされなければならないという状況である(非特許文献5参照。)。すると、図6Bに示されているように、SAOCダウンミックス信号310’は、所謂ダウンミックストランスコーダ590によって処理されてからでないとMPSデコーダ250への入力として使用することができない。この処理段階の具体的な特性は、実際のSAOCサイド情報520及び再生環境情報570に依存する。よって明らかに、トランスコードされたダウンミックス信号310と再生に使用されるスピーカチャネル330との関係もまた、式(26)、式(27)によって表わすことができる。
SAOCがオーディオオブジェクトの集合に対応する信号を入力として想定するのに対して、テレビ会議システムにおける入力は、典型的には記録されたマイクロホン信号を含むことは留意されるべきである。記録された音の所望される効率的な空間オーディオ表現を決定するためにSAOCが適用され得る前に、マイクロホン入力信号を対応する空間オーディオオブジェクト表現へ変換することが有用である場合がある。マイクロホンアレイ入力から異なるオーディオオブジェクトを決定する手法としての1つの可能性は、非特許文献3等のブラインドソースセパレーション技法によって与えられる。ブラインドソースセパレーション法は、マイクロホン入力信号に基づき、異なるオーディオオブジェクトの統計的独立性を利用して対応するオーディオ信号を推定する。マイクロホンアレイの構造が事前に分かっている場合は、オーディオオブジェクトに関する追加的な空間的情報も決定できる(非特許文献4参照。)。
単に単純さのために、本明細書を通じて、個々の情報を伝送する情報と信号が同じ参照記号により同一視されていることは留意されるべきである。さらに、信号と同信号を搬送するデータラインもやはり同じ参照記号により同一視されている。本発明の一実施形態の具体的な実施によっては、情報は異なるユニット又はオブジェクト間で交換することができる。その情報の交換は、信号回線上で直接伝送される信号により、又は個々のユニットもしくはオブジェクト間に結合されたメモリ、記憶ロケーション又は別のメディエータ(例えば、ラッチ)により行うことができる。例えば、プロセッサベースの実施例の場合、情報は、例えば個々のプロセッサに関連づけられたメモリに記憶することができる。したがって、情報、情報片及び信号は同義語としてみなすことができる。
次に、先のセクションで提示した音響エコー抑制及びパラメトリック空間オーディオコーディングに関する論考に基づいて、音響エコー抑制(AES)を、本発明の一実施形態による空間オーディオ電気通信に使用されるような空間オーディオエンコーダ/デコーダ構造に効率的に統合するための方法を提示する。
提案手法の一般構造は、図7に示されている。図7は本発明の一実施形態による会議開催フロントエンド200を示しており、そこでは音響エコー抑制はパラメトリック空間オーディオコーダのダウンミックス信号を基礎としている。
図7に示されている会議開催フロントエンド200は、入力インタフェース230を有する本発明の一実施形態による音響エコー抑制ユニット210を備えている。入力インタフェース230は、入力インタフェース230へ供給される入力信号300に含まれるダウンミックス信号310がエコー除去又はエコー抑制ユニット700に供給されるように上記ユニット700へ結合されている。図7に示されている実施形態では、パラメトリックサイド情報320は、やはり入力インタフェース230によって入力信号300から分離されるが、エコー抑制ユニット700へは供給されない。
ダウンミックス信号310及びパラメトリックサイド情報320の双方はマルチチャネルデコーダ250へ供給され、マルチチャネルデコーダ250は出力側で複数のスピーカ100−1、…、100−Nへ結合されている。デコーダ220はこれらのスピーカ100の各々へ対応するスピーカ信号330−1、…、330−Nを供給する。
会議開催フロントエンド200はさらに、この会議開催フロントエンド200へ音響入力信号を供給する複数のマイクロホン110−1、…、110−Kを備えている。これに対して、スピーカ100は同等の音響出力を発生する。マイクロホン110は処理ユニット710へ結合され、さらにエンコーダ400へ結合されている。エンコーダ400は、マイクロホン110から受信され前処理されたマイクロホン信号に対応するさらなるダウンミックス信号720及びさらなるパラメトリックサイド情報730を発生するように適合化されている。エコー抑制ユニット700は、さらなるダウンミックス信号720及びさらなるサイド情報730の双方を受信できるようにエンコーダ400へ結合されている。エコー抑制ユニット700は、出力において、修正されたダウンミックス信号740と、変更されることなくエコー抑制ユニット700を通過するさらなるパラメトリックサイド情報730を発生する。
エコー抑制ユニット700は、図8に関連してさらに詳しく概説するが、図1に示されているような計算器220及び適応フィルタ240を備えている。
ここでは、空間オーディオ通信アプリケーションについて考察する。そこでは、遠端及び近端における空間オーディオシーンが空間オーディオストリームによって表現されることを想定する。空間オーディオストリームは異なる加入者間で伝送される。複数のスピーカを備えたサラウンド再生の場合はしばしば無人動作が不可欠であることから、AESユニット210は、近端のデコーダの出力におけるうっとうしいエコーを除去するために有用であることがある。AESがスピーカ信号に基づいて実行される上述の先行方法とは対照的に、私達は、遠端から受信される空間オーディオストリーム300のダウンミックス信号310を基礎としてAESを単独で実行することを提案する。ダウンミックスチャネルの数は再生に使用されるスピーカ信号の数より一般に遙かに少ないことから、本提案方法は複雑さに関して著しく高効率である。AESは、近端におけるマイクロホン信号、又はむしろより効率的には図7に示されているように近端のエンコーダ出力のダウンミックス信号の何れにも適用することができる。
エコー抑制ユニット700を図8との関係でさらに詳しく述べる前に、以下、本発明の一実施形態によるプロセス又は方法についてさらに詳しく説明する。
まず、受信された空間オーディオストリームのダウンミックス信号310に基づいて再生信号P(k,m)の基準パワースペクトル(RPS)が計算される。Nチャネルのダウンミックス信号B(k,m)=[B1(k,m),Bi(k,m),…,BN(k,m)]の一般ケースでは、これは、線形結合、
Figure 0005384721
に従って実行することができる。
或いは、この線形結合は、ダウンミックスチャネルの複素スペクトルについて計算することができる。
Figure 0005384721
異なるダウンミックスチャネルによるRPSへの寄与を調節するために、重み係数ai(k,m)を使用することができる。
チャネルによって重み付けを異ならせることは、例えばSAOC環境において有益である場合がある。AESの入力がダウンミックストランスコーダのSAOCダウンミックス信号への適用(図6B参照)より以前に決定されれば、ダウンミックストランスコーダの時変行動はエコー推定フィルタによってモデリングされる必要はない場合があり、既に基準パワースペクトルの計算によって捕捉されている。
モノダウンミックス信号という特殊なケースでは、ダウンミックス信号のパワースペクトルに等しいRPS、即ち、
Figure 0005384721
を単に選ぶことが妥当である。
言い替えれば、ダウンミックス信号310に含まれるシングルダウンミックスチャネルの重み係数ai(k,m)は1であるように選ばれる。
式(28)、式(29)と同様に、近端のエンコーダのKチャネルのダウンミックス信号A(k,m)=[A1(k,m),Ai(k,m),…,AK(k,m)]に基づいて記録信号のRPS、Q(k,m)を計算する。
Figure 0005384721
或いは、その線形結合はダウンミックスチャネルの複素スペクトルについて計算することができる。
Figure 0005384721
異なるダウンミックスチャネルによるRPSへの寄与を調節するためには、重み係数ci(k,m)が使用することができる。先と同様に、モノダウンミックス信号(ci(k,m)=1)の場合は、単に
Figure 0005384721
を使用することができる。
ダウンミックス信号A(k,m)、及びしたがってRPS
Figure 0005384721
も、典型的には、スピーカ信号のフィードバックから結果的に生じる望ましくないエコー成分を含む。エコー成分
Figure 0005384721
の推定値
Figure 0005384721
は、RPS
Figure 0005384721
の遅延バージョンと、エコー電力伝達関数の推定値に基づいて、
Figure 0005384721
に従って計算される。
先の記述と同様に、以下、
Figure 0005384721
をエコー推定フィルタ(EEF)と呼ぶ。
次に、この推定値は、例えば式(5)と同様に、エコー抑制フィルタ(ESF)を決定するために使用される。
Figure 0005384721
但し、α、β及びγはエコー抑制性能を調節するための設計パラメータを表す。α、β及びγの典型的な値は先に記載した。
望ましくないエコー成分の除去は、最終的に近端のエンコーダの原初のダウンミックス信号のチャネルをESFで乗算することによって達成される。
Figure 0005384721
EEFの推定は、
Figure 0005384721
によって、RPSに関連する相関に基づくことができる。
或いは、EEFフィルタは、RPSの時間的変動を用いて、即ち式(12)と同様に次のように推定することができる。
Figure 0005384721
但し、RPSの時間的変動は、
Figure 0005384721
に従って計算される。
遅延パラメータdの推定は、式(13)と同様に実行することができる。その場合、スピーカ信号X(k、m)及びマイクロホン信号Z(k,m)は、各々対応するRPSのP(k,m)及びQ(k,m)で置換される。
典型的には、ダウンミックス信号A(k、m)及びB(k,m)間に有意義な位相関係が存在しないことは言及されるべきである。その理由は、これらの位相が部屋の周波数応答を介して関連させられるだけでなく、ダウンミックス信号及び空間サイド情報からスピーカ信号を決定する高度に時変的なプロセスによって関連されられることにある。したがって、位置情報を用いてEEF(又は、遅延)を推定する手法(非特許文献8など参照。)は、ダウンミックス信号を基礎としてエコー除去を実行する際には不適である。
線形的な適応フィルタリング技法を用いるエコーキャンセルがダウンミックス信号に対して適用されるべきである事例についても同じ論法が成り立つことは、言及する価値がある。このような適応フィルタは、ダウンミックス信号のスピーカチャネルへのマッピングによって生じる高度に時変的な変化をモデリングしかつ追跡しなければならなくなる。
図8は本発明の一実施形態による会議開催フロントエンド200を示すブロック図であり、図1に示されているものに極めて類似している。したがって、図1の説明を参照する。
本会議開催フロントエンド200も、本発明の一実施形態による音響エコー抑制ユニット210を備えている。音響エコー抑制ユニット210は、図1との関係において説明したものと本質的に同じ機能を実行するための計算器220を備えている。しかしながら、以下、さらに詳しい説明を行う。
本会議開催フロントエンド200はさらに、入力インタフェース230と適応フィルタ240を備えている。会議開催フロントエンド200はさらにマルチチャネルデコーダ250を備えており、マルチチャネルデコーダ250は複数のスピーカ100−1、…、100−Nへ結合されている。会議開催フロントエンド200はさらに、対応するエンコーダ又はマルチチャネルエンコーダ400を備えており、そのエンコーダ又はマルチチャネルエンコーダ400は次に、複数のマイクロホン110−1、…、110−Kへ結合されている。
もう少し具体的に言えば、入力信号300は、フロントエンド200の基礎を成す通信系の遠端から入力インタフェース230へ供給される。図8に示されている実施形態では、入力インタフェース230は、この入力信号からダウンミックス信号310とパラメトリックサイド情報320とを分離し、かつこれらを入力信号としてマルチチャネルデコーダ250へ供給する。マルチチャネルデコーダ250の内部では、2つの信号、即ちダウンミックス信号310及びパラメトリックサイド情報320が複数の対応するスピーカ信号330へ復号され、次にこれらのスピーカ信号330は個々のスピーカ100へ供給される。単純化のために、付番は、第1のスピーカ信号330−1にのみ行われている。
デコーダ250は、図8に示されている実施形態ではアップミキサ705と、パラメータプロセッサ480とを備えている。アップミキサ705は入力インタフェース230へ結合され、かつダウンミックス信号310を受信するように適合化されている。同様に、パラメータプロセッサ480も入力インタフェース230へ結合されているが、パラメータプロセッサ480はパラメトリックサイド情報320を受信するように適合化されている。アップミキサ705とパラメータプロセッサ480は、パラメトリックサイド情報320から導出されるアップミックス制御情報707がアップミキサ705へ伝送され得るように相互接続されている。アップミキサ705はスピーカ100へも結合されている。
アップミキサ705は、その機能に関連して、パラメトリックサイド情報320から導出されるアップミックス制御情報707に基づいてダウンミックス信号310からスピーカ信号330を生成するように適合化されている。アップミキサ705は、N個(Nは整数)のスピーカ100−1、…、100−Nの各々に対して個々のスピーカ信号330を供給する。
先に論じたように、デコーダ250は場合によりインタフェースを備えてもよく、このインタフェースは、入力インタフェース230がデコーダ250及び音響エコー抑制ユニット710によって共用されていない場合に、サイド情報320及びダウンミックス310を抽出しかつこれらをパラメータプロセッサ480及びアップミキサ705へ供給する。
図1との関係に関連して既に述べたように、入力インタフェース230の出力は、ダウンミックス信号310を計算器220へ提供するために計算器220へ結合されている。言い替えれば、計算器220はダウンミックス信号310を受信するように適合化されている。
計算器220の内部構成についてさらに詳しく述べる前に、マイクロホン110が個々のK個(Kは整数)のマイクロホン信号340をマルチチャネルエンコーダ400へ供給することは留意されるべきである。図8では、マイクロホン信号340のうち、第1のマイクロホン信号340−1のみ付番されている。
マルチチャネルエンコーダ400は、受信したマイクロホン信号340に基づいて、さらなるダウンミックス信号720とさらなるパラメトリックサイド情報730を生成する。さらなるパラメトリックサイド情報730はこの会議開催システム200の出力へ供給されるが、さらなるダウンミックス信号720は、計算器220及び適応フィルタ240の双方へ供給される。計算器220はまた、フィルタ係数信号350を適応フィルタ240へ供給する。このフィルタ係数信号350に基づいてさらなるダウンミックス信号720が濾波され、修正されたダウンミックス信号740が適応フィルタ240の出力において得られる。修正されたダウンミックス信号740は、到来するさらなるダウンミックス信号720のエコー抑制バージョンを表す。結果として、さらなるダウンミックス信号720及びさらなるパラメトリックサイド情報730の受信側では、マイクロホン110によって受信されたマイクロホン信号のエコー抑制バージョンを再構成さすることができる。
計算器220の内部構成に関して、入力インタフェース330からのダウンミックス信号310は第1の基準パワースペクトル生成器800へ供給される。第1の基準パワースペクトル生成器800は、先に述べた基準パワースペクトルを例えば式(28)及び式(29)に従って生成するように適合化されている。第1の基準パワースペクトル生成器800の出力はオプションの遅延装置810へ結合されている。遅延装置810は着信信号を遅延値dだけ遅延するように適合化されている。遅延装置810の出力は、次に、エコー推定器820へ結合されている。エコー推定器820は、例えばエコー推定値を式(38)に従って計算するように適合化することができる。エコー推定器820の出力は、次に、エコー抑制フィルタ生成器830の入力へ結合されている。エコー抑制フィルタ生成器830は式(33)に従ってエコー抑制フィルタを生成又は推定する。エコー抑制フィルタ生成器830の出力はフィルタ係数を含むフィルタ係数信号350であり、これは適応フィルタ240へ供給される。
エンコーダ400によって生成されるさらなるダウンミックス信号720はエコー抑制フィルタ生成器830へ供給されるか、又は、この回路が第2の基準パワースペクトル生成器840を備えている場合は第2の基準パワースペクトル生成器840へ供給される。これを達成するために、音響エコー抑制ユニット210は場合により、必要に応じてさらなるダウンミックス信号720を抽出するために追加的な、又はさらなる入力インタフェースを備えていてもよい。
第2の基準パワースペクトル生成器840の出力は、次にエコー推定フィルタ係数生成器へ結合されている。エコー推定フィルタ係数生成器は次に、式(35)又は式(36)によるエコー推定フィルタ係数をエコー推定器820へ供給するためにエコー推定器820へ結合されている。エコー推定フィルタ係数生成器850が式(36)に基づいて動作する場合、オプションの第1及び第2の時間変動補償器860、870が各々、エコー推定フィルタ係数生成器850と遅延装置810の出力との間、及びエコー推定フィルタ係数生成器850と第2の基準パワースペクトル生成器840との間に結合されている。これらの2つの時間変動補償器860、870は各々、修正される基準パワースペクトルを式(37)及び式(38)に基づいて計算するように適合化することができる。それ故、エコー推定フィルタ係数生成器850は、修正された基準パワースペクトルを用い、式(36)に基づいて動作することができる。
遅延装置810は必須ではないものの、しばしば有益なコンポーネントであることは留意されるべきである。遅延値dの決定は、式(13)、式(14)及び式(15)に従った計算に基づいてなすことができる。したがって、より正確に言えば、本発明による一実施形態はコヒーレンス計算器880を備えてもよい。コヒーレンス計算器880の入力側は第1の基準パワースペクトル生成器800の出力へ結合されている。さらに、コヒーレンス計算器880は、コヒーレンス計算器880に個々の基準パワースペクトルを供給するために、第2の基準パワースペクトル生成器840の出力へも結合されている。
例えば、式(13)に基づき、但し2つの基準パワースペクトル生成器800、840によって供給される2つの基準パワースペクトルを用いて、コヒーレンス計算器880は、式(13)に従ってエコー予測利得計算器890に対するコヒーレンス関数の値を生成することができる。エコー予測利得計算器890は、式(14)に従って、又は式(14)に基づいてエコー予測利得ωd(k)を計算する。エコー予測利得計算器の出力は、次に、オプティマイザ900の入力へ結合されている。オプティマイザ900は、遅延値dを式(15)に従って最適化するように適合化することができる。遅延値dを遅延装置810へ供給するために、オプティマイザ900は遅延装置810へ結合されており、かつ遅延装置810は遅延値dを受信するように適合化されている。当然ながら、遅延装置はこの場合も、着信信号(ここでは第1の基準パワースペクトル)を遅延値dだけ遅らせるように適合化されている。
完全を期して、図8にはエコー抑制ユニット700も示されており、エコー抑制ユニット700は図7に関連して既に概説した計算器220及び適応フィルタ240を備えている。
このセクションの残りでは、上述のダウンミックス信号を基礎とするエコー抑制方法の実際的変形例を提示する。
式(32)の変形例は、
Figure 0005384721
に従って取得することができる。但し、再生信号の複素基準スペクトルP(k,m)はダウンミックスチャネルの複素スペクトルに関連して、即ち、
Figure 0005384721
に従って計算される。
式(40)は、振幅計算を無視すれば式(29)から得られる。
AES手法の別の変形例は、エコー抑制を、式(34)によって提案されるようにダウンミックスチャネルに基づいて実行するのではなく、マイクロホン入力信号について実行することによって得ることができる。言い替えれば、エコー抑制は、記録された原初のマイクロホン信号に対して、これが各々近端のエンコーダ又は任意の処理段階で入力として用いられるより以前に実行される。
したがって、本発明による多くの実施形態は下記の特徴を共有する。
1.ダウンミックス信号及びサイド情報からなり、マルチチャネルスピーカ信号の生成に用いられる第1のパラメトリック空間オーディオ表現を受信する。
2.ダウンミックス信号及びサイド情報からなり、記録されたマイクロホン信号から決定されている第2のパラメトリック空間オーディオ表現を受信する。
3.第1及び第2のダウンミックス信号の基準パワースペクトルを計算する。
4.第2のダウンミックス信号の基準パワースペクトルにおけるエコー成分を推定するために、エコー推定フィルタを計算する。
5.第2の空間オーディオ表現のダウンミックス信号におけるエコー成分を除去するために、第1のダウンミックス信号の基準パワースペクトル、第2のダウンミックス信号の基準パワースペクトル及びエコー推定フィルタからエコー除去フィルタを計算する。
本発明方法のいくつかの実施形態の所定の実施要件によっては、本発明方法のいくつかの実施形態はハードウェアにより、又はソフトウェアにより実施することができる。その実施は、本発明方法の一実施形態が実行されるようにプログラム可能コンピュータ又はプロセッサと協働する電子読取り可能な制御信号がインストールされているデジタル記憶媒体を用いて、具体的には、ディスク、CD又はDVDを用いて実行することができる。したがって、概して本発明の一実施形態は、プログラムコードが機械可読キャリア上に記憶されたコンピュータプログラムプロダクトであり、上記プログラムコードは、コンピュータプログラムプロダクトがプロセッサのコンピュータ上で実行されると本発明方法の一実施形態を実行するように動作する。したがって言い替えれば、本発明方法のいくつかの実施形態は、コンピュータプロセッサ上でコンピュータプログラムが実行されると本発明方法のいくつかの実施形態のうちの少なくとも1つを実行するためのプログラムコードを有するコンピュータプログラムである。プロセッサは、コンピュータ、チップカード、スマートカード、特定用途向け集積回路(ASIC)又は別の集積回路によって形成することができる。
本発明によるいくつかの実施形態は、さらに、離散的な電気的又は電子的エレメント、集積回路又はこれらの組合せに基づいて実施することができる。
したがって、本発明によるいくつかの実施形態は、パラメトリック空間オーディオ表現の音響エコー制御を可能にする。先の論考が示しているように、いくつかの実施形態は、空間オーディオ通信系に使用されるマルチチャネルスピーカシステムの音響エコーを抑制するための効率的方法を示し得る。本発明方法は、空間オーディオ信号がダウンミックス信号と、対応するパラメトリックサイド情報又はメタデータによって表現されている場合に適用可能である。いくつかの実施形態は、スピーカ信号が音響エコー抑制へ入力される前にスピーカ信号を明示的に計算するのではなく、受信されたダウンミックス信号に基づいてエコー抑制が直接に実行され得るという事実を活用している。同様に、エコー成分も、遠端へ伝送されるべき空間オーディオ信号のダウンミックス信号において抑制することもできる。
100 スピーカ
110 マイクロホン
120 エコー除去ユニット
200 会議開催フロントエンド
210 音響エコー抑制ユニット
220 計算器
230 入力インタフェース
240 適応フィルタ
250 マルチチャネルデコーダ
300 入力信号
310 ダウンミックス信号
320 パラメトリックサイド情報
330 スピーカ信号
340 マイクロホン信号
350 フィルタ係数信号
360 出力信号
400 マルチチャネルエンコーダ
410 入力信号
420 出力信号
450 プレミキシングマトリクス
460 逆相関器
470 ポストミキシングマトリクス
480 パラメータプロセッサ
490 レンダリング/相互作用情報
500 トランスコーダ
510 SAOCパーシングユニット
520 SAOCビットストリーム
530 オブジェクト数
540 シーンレンダリングエンジン
550 レンダリングマトリクス
560 レンダリングマトリクス生成器
570 再生環境
580 オブジェクト位置
590 ダウンミックストランスコーダ
600 制御情報
700 エコー抑制ユニット
710 処理ユニット
720 さらなるダウンミックス信号
730 さらなるパラメトリックサイド情報
740 修正されたダウンミックス信号
800 第1の基準パワースペクトル生成器
810 遅延装置
820 エコー推定器
830 エコー抑制フィルタ生成器
840 第2の基準パワースペクトル生成器
850 エコー推定フィルタ係数生成器
860 第1の時間変動補償器
870 第2の時間変動補償器
880 コヒーレンス計算器
890 エコー予測利得計算器
900 オプティマイザ

Claims (15)

  1. ウンミックス信号(310)とパラメトリックサイド情報(320)とを含む入力信号(300)からダウンミックス信号(310)を抽出するための入力インタフェース(230)であって、前記ダウンミックス信号(310)及びパラメトリックサイド情報(320)は共同して少なくともさらなるチャネル又は前記ダウンミックス信号におけるチャネル数より多いチャネル数を有するマルチチャネル信号を表現している入力インタフェース(230)と、
    適応フィルタ(240)のフィルタ係数(350)を計算するための計算器(220)であって、前記ダウンミックス信号(310)を受信し、マイクロホン信号(340)又は前記マイクロホン信号から導出される信号(720)を受信し、前記受信した信号に基づいて前記フィルタ係数(350)を決定するように適合化されている計算器(220)と、
    前記計算器(220)から前記フィルタ係数(350)を受信し、かつ前記フィルタ係数(350)に基づいて、前記マイクロホン信号(340)における前記マルチチャネル信号によって生じたエコーを抑制するために、前記マイクロホン信号(340)又は前記マイクロホン信号から導出される信号(720)を濾波するように適合化されている適応フィルタ(240)と、
    を備えた音響エコー抑制ユニット(210)。
  2. 前記計算器(220)は、前記ダウンミックス信号(310)に基づいて第1の基準パワースペクトルを決定し、前記マイクロホン信号(340)又は前記マイクロホン信号から導出される信号(720)に基づいて第2の基準パワースペクトルを決定し、前記第1及び第2の基準パワースペクトルに基づいてエコー推定フィルタ係数を決定し、前記第1の基準パワースペクトル及び前記エコー推定フィルタ係数に基づいてエコー推定値を決定し、かつ前記エコー推定フィルタ係数及び前記第2の基準パワースペクトルに基づいて前記フィルタ係数(350)を決定するように適合化されている請求項1に記載の音響エコー抑制ユニット(210)。
  3. 前記計算器(220)は第1の基準パワースペクトルを、
    Figure 0005384721
    又は、
    Figure 0005384721
    に基づいて計算するように適合化されている請求項1又は2に記載の音響エコー抑制ユニット(210)。
    ここで、
    Figure 0005384721
    は前記第1の基準パワースペクトルであり、ai(k,m)は重み係数であり、Bi(k,m)は前記ダウンミックス信号(310)のi番目のチャネルであり、Nは前記ダウンミックス信号(310)におけるチャネルの数で、Nは1以上であり、kはブロック時間指数であり、mは周波数指数を示す。
  4. 前記計算器(220)は第2の基準パワースペクトルを、
    Figure 0005384721
    又は、
    Figure 0005384721
    に基づいて計算するように適合化されている請求項1から3のいずれか一項に記載の音響エコー抑制ユニット(210)。
    ここで、
    Figure 0005384721
    は前記第2の基準パワースペクトルであり、ci(k,m)は重み係数であり、Ai(k,m)はダウンミックス信号(720)のi番目のチャネルであり、Kは前記ダウンミックス信号(720)におけるチャネルの数で、Kは1以上であり、kはブロック時間指数であり、mは周波数指数を示す、
  5. 前記計算器(220)はさらに、前記第1の基準パワースペクトルを遅延値だけ遅延させた前記第1の基準パワースペクトルの遅延バージョンに基づいて前記エコー推定フィルタ係数及び前記エコー推定値を決定するように適合化されている請求項1から4のいずれか一項に記載の音響エコー抑制ユニット(210)。
  6. 前記計算器(220)は、複数の異なる可能な遅延値の相関値を決定し、前記複数の異なる可能な遅延値の各値に対するエコー予測利得値を決定し、かつ前記複数の異なる可能な遅延値のうち前記決定されたエコー予測利得値の最大値を有するものを第1の基準パワースペクトルを遅延させる前記遅延値として決定するようにさらに適合化されている請求項5に記載の音響エコー抑制ユニット(210)。
  7. 前記計算器(220)は、前記第1の基準パワースペクトルに基づき前記第1の基準パワースペクトルの平均値を減算することによって第1の修正されたパワースペクトルを決定し、前記第2の基準パワースペクトルに基づき前記第2の基準パワースペクトルの第2の平均値を減算することによって第2の修正されたパワースペクトルを決定し、かつ前記第1及び第2の修正されたパワースペクトルに基づいて前記エコー推定フィルタ係数を決定するように適合化されている請求項1から6のいずれか一項に記載の音響エコー抑制ユニット(210)。
  8. ウンミックス信号(310)とパラメトリックサイド情報(320)とを含む入力信号(300)からダウンミックス信号(310)を抽出するステップであって、前記ダウンミックス信号(310)及びパラメトリックサイド情報(320)は共同して少なくともさらなるチャネル又は前記ダウンミックス信号におけるチャネル数より多いチャネル数を有するマルチチャネル信号を表現しているステップと、
    前記ダウンミックス信号及び前記マイクロホン信号又は前記マイクロホン信号から導出される信号に基づいて適応フィルタリングのためのフィルタ係数(350)を計算するステップと、
    前記マイクロホン信号(340)における前記マルチチャネル信号によって生じるエコーを抑制するために、前記マイクロホン信号(340)又は前記マイクロホン信号から導出される信号(720)を前記フィルタ係数に基づいて適応的に濾波するステップと、
    を含んで音響エコーを抑制する方法。
  9. 前記ダウンミックス信号(310)及び前記パラメトリックサイド情報(320)を複数のスピーカ信号(330)に復号するステップをさらに含んでいる請求項8に記載の方法。
  10. 請求項1から7のいずれか一項に記載の音響エコー抑制ユニット(210)と、
    マルチチャネルデコーダ(250)と、
    少なくとも1つのマイクロホンユニット(110)と、を備え、
    前記マルチチャネルデコーダ(250)は、前記ダウンミックス信号(310)及び前記パラメトリックサイド情報(320)を複数のスピーカ信号(330)に復号するように適合化されており、
    前記少なくとも1つのマイクロホンユニット(110)はマイクロホン信号(340)を供給するように適合化されている会議開催フロントエンド(200)。
  11. 前記入力インタフェース(230)はさらに前記パラメトリックサイド情報(320)を抽出するように適合化されており、
    前記マルチチャネルデコーダ(250)はアップミキサ(705)とパラメータプロセッサ(480)とを備えており、
    前記パラメータプロセッサ(480)は前記パラメトリックサイド情報(320)を前記入力インタフェース(230)から受信し、かつアップミックス制御信号(707)を供給するように適合化されており、
    前記アップミキサ(705)は前記入力インタフェース(230)から前記ダウンミックス信号(310)を受信し、前記パラメータプロセッサから前記アップミックス制御信号を受信し、かつ前記ダウンミックス信号(310)及び前記アップミックス制御信号(707)に基づいて前記複数のスピーカ信号(330)を供給するように適合化されている請求項10に記載の会議開催フロントエンド(200)。
  12. 複数のオーディオ入力信号(340;410)を、共同して該複数のオーディオ入力信号を表現するさらなるダウンミックス信号(720)及びさらなるパラメトリックサイド情報(730)に符号化するように適合化されたマルチチャネルエンコーダ(400)をさらに備え、
    前記少なくとも1つのマイクロホンユニット(110)の前記マイクロホン信号(340)は前記複数のオーディオ入力信号に含まれており、
    前記音響エコー抑制ユニット(210)は、前記さらなるダウンミックス信号(720)を前記マイクロホン信号から導出される信号として受信するように適合化されている請求項10又は11に記載の会議開催フロントエンド(200)。
  13. 複数のマイクロホンユニット(110)を備え、該複数のマイクロホンユニット(110)は前記複数のオーディオ入力信号(330;410)を供給するように適合化されている請求項10から12のいずれか一項に記載の会議開催フロントエンド(200)。
  14. 複数のスピーカ信号(330)と1つのマイクロホン信号(340)とを供給する方法であって、
    音響エコーを抑制する(210)請求項8に記載の方法と、
    マルチチャネル復号化(250)のステップと、
    マイクロホン信号(340)を受信するステップと、を含み、
    前記マルチチャネル復号化(250)のステップにおいて、前記ダウンミックス信号(310)及び前記パラメトリックサイド情報(320)は複数のスピーカ信号(330)を取得するために復号される方法。
  15. 求項8又は14に記載の方法をプロセッサ上で実行させるためのコンピュータプログラム。
JP2012505056A 2009-04-15 2009-05-14 音響エコー抑制ユニットと会議開催フロントエンド Active JP5384721B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16943609P 2009-04-15 2009-04-15
US61/169,436 2009-04-15
PCT/EP2009/003446 WO2010118763A1 (en) 2009-04-15 2009-05-14 Multichannel echo canceller

Publications (2)

Publication Number Publication Date
JP2012524434A JP2012524434A (ja) 2012-10-11
JP5384721B2 true JP5384721B2 (ja) 2014-01-08

Family

ID=40937518

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012505056A Active JP5384721B2 (ja) 2009-04-15 2009-05-14 音響エコー抑制ユニットと会議開催フロントエンド

Country Status (8)

Country Link
US (1) US8873764B2 (ja)
EP (1) EP2420050B1 (ja)
JP (1) JP5384721B2 (ja)
CN (1) CN102804747B (ja)
BR (1) BRPI0924007B1 (ja)
HK (1) HK1167542A1 (ja)
RU (1) RU2520359C2 (ja)
WO (1) WO2010118763A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8050434B1 (en) 2006-12-21 2011-11-01 Srs Labs, Inc. Multi-channel audio enhancement system
WO2012094335A1 (en) * 2011-01-04 2012-07-12 Srs Labs, Inc. Immersive audio rendering system
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2014062509A1 (en) 2012-10-18 2014-04-24 Dolby Laboratories Licensing Corporation Systems and methods for initiating conferences using external devices
US8914007B2 (en) 2013-02-27 2014-12-16 Nokia Corporation Method and apparatus for voice conferencing
CN105075117B (zh) 2013-03-15 2020-02-18 Dts(英属维尔京群岛)有限公司 根据多个音频主干进行自动多声道音乐混合的***和方法
EP2830334A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
US11234072B2 (en) 2016-02-18 2022-01-25 Dolby Laboratories Licensing Corporation Processing of microphone signals for spatial playback
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US9772817B2 (en) 2016-02-22 2017-09-26 Sonos, Inc. Room-corrected voice detection
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
CN106210368B (zh) * 2016-06-20 2019-12-10 百度在线网络技术(北京)有限公司 消除多通道声回波的方法和装置
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
JP6977772B2 (ja) 2017-07-07 2021-12-08 ヤマハ株式会社 音声処理方法、音声処理装置、ヘッドセット、および、遠隔会話システム
US10542153B2 (en) 2017-08-03 2020-01-21 Bose Corporation Multi-channel residual echo suppression
US10594869B2 (en) * 2017-08-03 2020-03-17 Bose Corporation Mitigating impact of double talk for residual echo suppressors
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10446165B2 (en) * 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10863269B2 (en) 2017-10-03 2020-12-08 Bose Corporation Spatial double-talk detector
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
JP7187183B2 (ja) * 2018-06-14 2022-12-12 株式会社トランストロン エコー抑圧装置、エコー抑圧方法およびエコー抑圧プログラム
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
DE102018127071B3 (de) 2018-10-30 2020-01-09 Harman Becker Automotive Systems Gmbh Audiosignalverarbeitung mit akustischer Echounterdrückung
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
EP3712788A1 (en) 2019-03-19 2020-09-23 Koninklijke Philips N.V. Audio apparatus and method therefor
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
RU2722220C1 (ru) * 2019-05-07 2020-05-28 Федеральное государственное бюджетное образовательное учреждение высшего образования "Владимирский Государственный Университет имени Александра Григорьевича и Николая Григорьевича Столетовых" (ВлГУ) Устройство многоканальной адаптивной компенсации эхо-сигналов
US10964305B2 (en) 2019-05-20 2021-03-30 Bose Corporation Mitigating impact of double talk for residual echo suppressors
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
EP3771226A1 (en) * 2019-07-23 2021-01-27 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Acoustic echo cancellation unit
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
CN112804620B (zh) * 2019-11-14 2022-07-19 浙江宇视科技有限公司 回声处理方法、装置、电子设备及可读存储介质
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
CN112101616A (zh) * 2020-08-10 2020-12-18 国网山东省电力公司青岛供电公司 基于固有时间尺度分解的风功率短期预测方法及***
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5307405A (en) * 1992-09-25 1994-04-26 Qualcomm Incorporated Network echo canceller
US5978473A (en) * 1995-12-27 1999-11-02 Ericsson Inc. Gauging convergence of adaptive filters
US6163608A (en) * 1998-01-09 2000-12-19 Ericsson Inc. Methods and apparatus for providing comfort noise in communications systems
US6931123B1 (en) * 1998-04-08 2005-08-16 British Telecommunications Public Limited Company Echo cancellation
CN1242651C (zh) * 2001-12-06 2006-02-15 谭建文 变色彩灯带
US20050070243A1 (en) * 2002-01-17 2005-03-31 Schobben Daniel Willem Elisabeth Multichannel echo canceller system using active audio matrix coefficients
KR20050060789A (ko) * 2003-12-17 2005-06-22 삼성전자주식회사 가상 음향 재생 방법 및 그 장치
NO328256B1 (no) * 2004-12-29 2010-01-18 Tandberg Telecom As Audiosystem
DE102008039329A1 (de) * 2008-01-25 2009-07-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung von Steuerinformationen für ein Echounterdrückungsfilter und Vorrichtung und Verfahren zur Berechnung eines Verzögerungswerts

Also Published As

Publication number Publication date
EP2420050B1 (en) 2013-04-10
CN102804747B (zh) 2014-04-02
BRPI0924007A2 (pt) 2016-07-26
RU2520359C2 (ru) 2014-06-20
JP2012524434A (ja) 2012-10-11
CN102804747A (zh) 2012-11-28
HK1167542A1 (en) 2012-11-30
US8873764B2 (en) 2014-10-28
EP2420050A1 (en) 2012-02-22
US20120076308A1 (en) 2012-03-29
BRPI0924007B1 (pt) 2021-08-03
WO2010118763A1 (en) 2010-10-21

Similar Documents

Publication Publication Date Title
JP5384721B2 (ja) 音響エコー抑制ユニットと会議開催フロントエンド
AU2013380608B2 (en) Apparatus and method for multichannel direct-ambient decomposition for audio signal processing
US9495970B2 (en) Audio coding with gain profile extraction and transmission for speech enhancement at the decoder
JP4909272B2 (ja) 空間オーディオコーディングにおける複数チャンネルデコリレーション
AU2010303039B2 (en) Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value
US9183839B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
AU2009291259B2 (en) Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
US8880413B2 (en) Binaural spatialization of compression-encoded sound data utilizing phase shift and delay applied to each subband
CA2790956A1 (en) Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
KR20070100838A (ko) 오디오 피스 또는 오디오 데이터스트림의 인코딩된스테레오 신호를 생성하는 장치 및 방법
KR101710544B1 (ko) 스펙트럼 무게 발생기를 사용하는 주파수-영역 처리를 이용하는 스테레오 레코딩 분해를 위한 방법 및 장치
JP2023036893A (ja) チャネル間時間差を推定するための装置、方法またはコンピュータプログラム
US20230335142A1 (en) Processing parametrically coded audio
Romoli et al. An interactive optimization procedure for stereophonic acoustic echo cancellation systems
Pinto et al. Bitstream format for spatio-temporal wave field coder

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130402

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131002

R150 Certificate of patent or registration of utility model

Ref document number: 5384721

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250