JP5917777B2

JP5917777B2 - ３ｄオーディオのための強化されガイドされるダウンミクス能力を提供するための装置および方法

Info

Publication number: JP5917777B2
Application number: JP2015531556A
Authority: JP
Inventors: ボルスム、アルネ; シュライナー、シュテファン; フックス、ハーラルト; クラッツ、ミヒャエル; グリル、ベルンハルト; シャラー、ゼバスティアン
Original assignee: フラウンホーファーゲゼルシャフトツールフォルデルングデルアンゲヴァンテンフォルシユングエー．フアー．
Priority date: 2012-09-12
Filing date: 2013-09-12
Publication date: 2016-05-18
Anticipated expiration: 2033-09-12
Also published as: AU2013314299A1; MY181365A; SG11201501876VA; CA2884525A1; HK1212537A1; AR092540A1; US20190287540A1; US10950246B2; KR101685408B1; US20210134304A1; TWI545562B; US10347259B2; BR122021021487B1; JP2015532062A; US20150199973A1; BR122021021500B1; CN104782145B; US20170249946A1; PL2896221T3; CN104782145A

Description

本発明は、オーディオ信号処理に関し、かつ詳細には強化されたダウンミクスの実現、特に３Ｄオーディオのための強化されガイドされるダウンミクス能力実現のための装置および方法に関する。

音声の空間再生のために使用されるラウドスピーカの数が増えている。過去のサラウンド音声再生（５．１等）が、単一面に限定されていたのに対して、高位置スピーカを有する新規なチャネルフォーマットが、３Ｄオーディオ再生に関して導入されている。

ラウドスピーカにより再生されるべき信号は、かつては特定のスピーカに直接関連付けられ、ディスクリートにまたはパラメトリックに記憶されかつ送信されていた。この種のフォーマットについては、それらが、音声再生システムのラウドスピーカのはっきり定義された数および位置に関連したものと言うことができる。したがって、オーディオ信号を送信または記憶する前に、特定の再生フォーマットを考慮する必要がある。

しかしながら、すでにこの原則にもいくつか例外が存在する。たとえば、マルチチャネルオーディオ信号（５サラウンドオーディオチャネルまたは５．１サラウンドオーディオチャネル等）は、２チャネルのステレオラウドスピーカセットアップで再生するにはダウンミクスする必要がある。５つのサラウンドチャネルをステレオシステムの２つのラウドスピーカで再生するやり方についてはルールが存在する。

また、ステレオチャネルが導入された時には、単一のモノラウドスピーカにより２つのステレオチャネルのオーディオコンテンツを再生するやり方にはルールが存在した。

フォーマットの数が増え、それによりラウドスピーカを配置する可能な態様が増えたので、送信または記憶の前に再生システムのラウドスピーカのセットアップを考慮することは、ほとんど不可能になる。したがって、実際のラウドスピーカセットアップに入来のオーディオ信号を適合させることが必要となる。

サラウンド音声から２チャネルのステレオにダウンミクスするために様々な方法が使用できる。依然として広く使用されている、静的ダウンミクス係数による時間領域ダウンミクスは、ＩＴＵダウンミクスと呼ばれることが多い（非特許文献５）。一部ダウンミクス係数の動的調節を伴う他の時間領域ダウンミクスの方法が、マトリクスサラウンド技術のエンコーダにおいて採用されている（非特許文献６および７）。

非特許文献３において、２チャネルステレオパノラマに折りたたんだリアチャネルにミックスした直接音源は、マスキングによって判別不可能になるか、さもなければ他の音源をマスキングする可能性がある。

空間オーディオコーディング（ＳＡＣ）技術の開発過程で、エンコーダの一部として周波数選択的ダウンミクスアルゴリズムが導入された（非特許文献８および９）。特に、得られるオーディオチャネルにエネルギ均一化を適用することにより音声のカラリゼーションを減じることができ、音源のローカル化のレベル均衡および安定性が維持される。他のダウンミクスシステムにおいてもエネルギ均一化を行う（非特許文献９、１０および１２）。

リアチャネルが残響のようなアンビエンスの音声のみを含む場合、アンビエンス（残響、広大さ）の低減は、マルチチャネル信号のリアチャネルを減衰することによりＩＴＵダウンミクスにおいて解決される（非特許文献５）。リアチャネルにダイレクトサウンドも含む場合には、ダウンミクスにおいてリアチャネルのダイレクト部分も減衰されてしまうので、この減衰方法は適切ではない。したがって、より高度なアンビエンス減衰アルゴリズムが求められる。

ＡＣ‐３およびＨＥ-ＡＡＣのようなオーディオコーデックは、５から２（ステレオ）へのオーディオチャネルのダウンミクスのためのダウンミクス係数を含むいわゆるメタデータをオーディストリームとともに送信する手段を提供する。結果として得られるステレオ信号における選択されたオーディオチャネル（中央、リアチャネル）の量が、送信されたゲイン値により制御される。これらの係数は、時間変数であることが可能だが、プログラムの１アイテムの継続期間の間は、通常定数のままである。

「Ｌｏｇｉｃ７」マトリックスシステムで使用される解決法は、リアチャネルが十分にアンビエントであると考えられる場合にのみこれらを減衰する信号適応アプローチを導入している。これは、フロントチャネルのパワーをリアチャネルのパワーに比較することにより行われる。この方法では、リアチャネルがアンビエンスのみを含む場合には、フロントチャネルよりパワーはかなり小さいと仮定する。リアチャネルに比べフロントチャネルのパワーが大きいほど、ダウンミクスプロセスにおいて、リアチャネルがより減衰される。この仮定は、特にクラッシックのコンテンツを有するサラウンド制作物について成り立つ場合があるかもしれないが、他の各種信号については成り立たない場合もある。

したがって、オーディオ信号処理のための改良された概念が強く求められていると考えられる。

US 7,412,380 B1: Ambience extraction and modification for enhancement and upmix of audio signals US 7,567,845 B1: Ambience generation for stereo signals US 2009/0092258 A1: CORRELATION-BASED METHOD FOR AMBIENCE EXTRACTION FROM TWO-CHANNEL AUDIO SIGNALS US 2010/0030563 A1: Uhle, Walther, Herre, Hellmuth, Janssen: APPARATUS AND METHOD FOR GENERATING AN AMBIENT SIGNAL FROM AN AUDIO SIGNAL, APPARATUS AND METHOD FOR DERIVING A MULTI-CHANNEL AUDIO SIGNAL FROM AN AUDIO SIGNAL AND COMPUTER PROGRAM

J.M. Eargle: Stereo/Mono Disc Compatibility: A Survey of the Problems, 35th AES Convention, October 1968 P. Schreiber: Four Channels and Compatibility, J. Audio Eng. Soc., Vol. 19, Issue 4, April 1971 (2) D. Griesinger: Surround from stereo,Workshop #12, 115th AES Convention, 2003 E. C, Cherry (1953): Some experiments on the recognition of speech, with one and with two ears, Journal of the Acoustical Society of America 25, 975979 ITU-R Recommendation BS.775-1 Multi-channel Stereophonic Sound System with or without Accompanying Picture, International Telecommunications Union, Geneva, Switzerland, 1992-1994 D. Griesinger: Progress in 5-2-5 Matrix Systems, 103rd AES Convention, September 1997 J. Hull: Surround sound past, present, and future, Dolby Laboratories, 1999, www.dolby.com/tech/ C. Faller, F. Baumgarte: Binaural Cue Coding Applied to Stereo and Multi -Channel Audio Compression, 112th AES Convention, Munich 2002 C. Faller, F. Baumgarte: Binaural Cue Coding Part II: Schemes and Applications, IEEE Trans. Speech and Audio Proc., vol. 11, no. 6, pp. 520-531, Nov. 2003 J. Breebaart, J. Herre, C. Faller, J. Rdn, F. Myburg, S. Disch, H. Purnhagen, G. Hotho, M. Neusinger, K. Kjrling, W. Oomen: MPEG Spatial Audio Coding / MPEG Surround: Overview and Current Status, 119th AES Convention, October 2005. ISO/IEC 14496-3, Chapter 4.5.1.2.2 B. Runow, J. Deigmoeller: Optimierter Stereo - Downmix von 5.1-Mehrkanalproduktionen (An optimized Stereo Downmix of a multichannel audio production), 25. Tonmeistertagung - VDT international convention, November 2008 J. Thompson, A. Warner, B. Sm ith: An Active Multichannel Downmix Enhancement for Minimizing Spatial and Spectral Distortions, 127 AES Convention, October 2009 C. Faller: Multiple-Loudspeaker Playback of Stereo Signals. JAES Volume 54 Issue 11 pp. 1051 -1064; November 2006 AVENDANO, Carlos u. JOT, Jean-Marc: Ambience Extraction and Synthesis from Stereo Signals for Multi-Channel Audio Mix-Up. In: Proc.or IEEE Internat. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2002 J. Herre, H. Purnhagen, J. Breebaart, C. Faller, S.Disch, K. Kjoerling, E. Schuijers, J. Hilpert, and F. Myburg, The Reference Model Architecture for MPEG Spatial Audio Coding, presented at the 118th Convention of the Audio Engineering Society, J. Audio Eng. Soc. (Abstracts), vol. 53, pp. 693, 694 (2005 July/Aug.), convention paper 6447 Ville Pulkki: Spatial Sound Reproduction with Directional Audio Coding. JAES Volume 55 Issue 6 pp. 503-516; June 2007 ETSI TS 101 154, Chapter C MPEG-4 downmix metadata DVB downmix metadata

本発明の目的は、オーディオ信号処理のための改良された概念を提供することである。本発明の目的は、請求項１に記載の装置、請求項１３に記載のシステム、請求項１４に記載の方法および請求項１５に記載のコンピュータプログラムにより達成される。

３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための装置が提供される。この装置は、３以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インタフェースを含む。さらに、この装置は、２以上のオーディオ出力チャネルを取得するために、サイド情報に基づいて３以上のオーディオ入力チャネルをダウンミクスするためのダウンミキサを含む。オーディオ出力チャネルの数はオーディオ入力チャネルの数より少ない。サイド情報が、３以上のオーディオ入力チャネルのうちの少なくとも１つの特徴、１以上のオーディオ入力チャネル内に記録される１以上の音波の特徴、または１以上のオーディオ入力チャネル内に記録される１以上の音波を発した１以上の音源の特徴を示す。

実施例は、オーディオ信号とともにサイド情報を送信して、入来のオーディオ信号のフォーマットから再生システムのフォーマットへフォーマット変換プロセスをガイドするという概念に基づく。

実施例によれば、ダウンミキサが、サイド情報に基づいて３以上のオーディオ入力チャネルのうち２以上のオーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例では、ダウンミキサが、たとえば、サイド情報に基づいて３以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例によれば、ダウンミキサは、たとえば、１以上のオーディオ入力チャネルの１オーディオ入力チャネルおよびサイド情報に基づき重みを決定しかつ前記オーディオ入力チャネルに前記重みを適用して、修正されたオーディオチャネルのグル―プの各修正されたオーディオチャネルを生成することにより２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例において、サイド情報が３以上のオーディオ入力チャネルの各々のアンビエンスの量を示し得る。ダウンミキサが、３以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。

他の実施例によれば、サイド情報が、３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性を示し得る。ダウンミキサが、３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性に基づいて３以上のオーディオ入力チャネルをダウンミクスして２以上のオーディオ出力チャネルを取得するよう構成され得る。

他の実施例において、サイド情報が音声の到来方向を示し得る。ダウンミキサが、音声の到来方向に基づいて３以上のオーディオ入力チャネルをダウンミクスして２以上のオーディオ出力チャネルを取得するよう構成され得る。

実施例において、２以上のオーディオ出力チャネルの各々がラウドスピーカを操作するためのラウドスピーカチャネルでもよい。

実施例によれば、装置が、２以上のラウドスピーカのグループのうちの１ラウドスピーカに２以上のオーディオ出力チャネルの各々をフィードするように構成され得る。ダウンミキサが、３以上の仮定のラウドスピーカ位置の第１のグループの各仮定のラウドスピーカ位置と２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置とに基づいて、３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置が、２以上のラウドスピーカのグループのうちの１ラウドスピーカの位置を示し得る。

実施例において、３以上のオーディオ入力チャネルの各オーディオ入力チャネルが、３以上の仮定のラウドスピーカ位置の第１のグループの仮定のラウドスピーカ位置に割り当てられ得る。２以上のオーディオ出力チャネルの各オーディオ出力チャネルが、２以上の実際のラウドスピーカ位置の第２のグループの１つの実際のラウドスピーカ位置に割り当てられ得る。ダウンミキサが、３以上のオーディオ入力チャネルのうち少なくとも２つと、３以上のオーディオ入力チャネルのうち前記少なくとも２つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例によれば、３以上のオーディオ入力チャネルの各々が、３以上のオーディオオブジェクトの１つのオブジェクトのオーディオ信号を含む。サイド情報が、３以上のオーディオオブジェクトの各オーディオオブジェクトについて、前記オーディオオブジェクトの位置を示すオーディオオブジェクト位置を含む。ダウンミキサが、３以上のオーディオオブジェクトの各々のオーディオオブジェクト位置に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成れる。

実施例において、ダウンミキサが、サイド情報に基づいて４以上のオーディオ入力チャネルをダウンミクスして３以上のオーディオ出力チャネルを取得するよう構成される。

さらに、システムが提供される。このシステムは、３以上の未処理のオーディオチャネルを符号化して３以上の符号化されたオーディオチャネルを取得し、かつ３以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダを含む。さらに、システムは、３以上のオーディオ入力チャネルとして３以上の符号化されたオーディオチャネルを受信し、サイド情報を受信しかつサイド情報に基づき、３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための、上記実施例の１つによる装置を含む。

さらに、３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための方法が提供される。この方法は、３以上のオーディオ入力チャネルをおよびサイド情報を受信するステップと、２以上のオーディオ出力チャネルを取得するため、サイド情報に基づいて３以上のオーディオ入力チャネルをダウンミクスするステップとを含む。

オーディオ出力チャネルの数は、オーディオ入力チャネルの数より少ない。オーディオ入力チャネルが、音源が発する音声の記録を含み、かつサイド情報が音声の特徴または音源の特徴を示す。

さらに、コンピュータまたは信号処理装置で実行された際に、上記の方法を実現するためのコンピュータプログラムが提供される。

以下では、本発明の実施例について、図面を参照してより詳細に説明する。

実施例による、３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するための装置の図である。実施例によるダウンミキサの図である。オーディオ出力チャネルの各々がオーディオ入力チャネルの各々に基づいて生成される、実施例によるシナリオを示す図である。オーディオ出力チャネルの各々が、オーディオ入力チャネルのちょうど２つに基づいて生成される、実施例による他のシナリオを示す図である。実際のラウドスピーカ位置に対する送信された空間表現信号のマッピングを示す図である。他の高レベルに対する高い空間信号のマッピングを示す図である。異なるラウドスピーカ位置についてのソース信号のこのようなレンダリングを示す図である。実施例によるシステムの図である。実施例によるシステムの他の図である。

図１は、実施例による３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための装置１００を示す。

装置１００は、３以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インタフェース１１０を含む。

また、装置１００は、サイド情報に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するためのダウンミキサ１２０を含む。

オーディオ出力チャネルの数は、オーディオ入力チャネルの数より少ない。サイド情報は、３以上のオーディオ入力チャネルの少なくとも１つの特徴、１以上のオーディオ入力チャネル内に記録される１以上の音波の特徴または１以上のオーディオ入力チャネル内に記録される１以上の音波を発した１以上の音源の特徴を示す。

図２は、実施例によるダウンミキサ１２０を示す別の図である。図２に示すガイダンス情報がサイド情報である。

図７は、様々なラウドスピーカ位置のためのソース信号のレンダリングを示す図である。レンダリング伝達関数は、たとえば音波の到来方向を示す角度（方位角および仰角）、音源から記録するマイクロホンまでの距離等の距離および／または拡散性に依存し、これらのパラメータがたとえば周波数に依存し得る。

実施例によれば、ガイドなしのダウンミクス法等のブラインドダウンミクス法とは対照的に、信号チェーンの受信側でのダウンミクスプロセスに対する影響を考慮するため、制御データまたは記述的情報がオーディオ信号とともに送信される。このサイド情報は、信号チェーンの送出部側／エンコーダ側で計算されるか、またはユーザの入力により付与され得る。このサイド情報は、たとえば符号化されたオーディオ信号と多重化されたビットストリームで送信され得る。

特定の実施例によれば、ダウンミキサ１２０は、たとえばサイド情報に依存して４以上のオーディオ入力チャネルをダウンミクスして３以上のオーディオ出力チャネルを取得するよう構成され得る。

実施例において、２以上のオーディオ出力チャネルの各々は、たとえばラウドスピーカを操作するためのラウドスピーカチャネルでもよい。

たとえば、特定の他の実施例において、ダウンミキサ１２０は、７個のオーディオ入力チャネルをダウンミクスして３以上のオーディオ出力チャネルを取得するよう構成され得る。他の特定の実施例において、ダウンミキサ１２０は、９個のオーディオ入力チャネルをダウンミクスして３以上のオーディオ出力チャネルを取得するよう構成され得る。さらに他の特定の実施例では、ダウンミキサ１２０は、２４個のチャネルをダウンミクスして、３以上のオーディオ出力チャネルを取得するよう構成され得る。

さらに他の特定の実施例において、ダウンミキサ１２０は、７以上のオーディオ入力チャネルをダウンミクスして、たとえば５チャネルサラウンドシステムの５つのオーディオチャネル等、ちょうど５つのオーディオ出力チャネルを取得するよう構成され得る。さらに他の特定の実施例において、ダウンミキサ１２０は、７以上のオーディオ入力チャネルをダウンミクスして、５．１サラウンドシステムの６つのオーディオチャネル等、ちょうど６つのオーディオ出力チャネルを取得するよう構成され得る。

実施例によれば、ダウンミキサは、サイド情報に基づき３以上のオーディオ入力チャネルのうち少なくとも２のオーディオ入力チャネルを修正し、修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて、前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例において、ダウンミキサは、たとえば、サイド情報に基づいて、３以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して、修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせることにより前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

実施例によれば、ダウンミキサ１２０は、たとえば１以上のオーディオ入力チャネルの１オーディオ入力チャネルとサイド情報とに基づき、重みを決定し、かつ前記オーディオ入力チャネルに対して前記重みを適用して、修正されたオーディオチャネルのグループの各修正されたオーディオチャネルを生成することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され得る。

図３は、このような実施例を示す。オーディオ入力チャネル（ＡＩＣ_１、ＡＩＣ_２、ＡＩＣ_３、ＡＩＣ_４）の各々に基づく各オーディオ出力チャネル（ＡＯＣ_１、ＡＯＣ_２、ＡＯＣ_３）を示す。

たとえば、第１のオーディオ出力チャネルＡＯＣ_１について考察する。

ダウンミキサ１２０は、オーディオ入力チャネルおよびサイド情報に基づいて、各オーディオ入力チャネルＡＩＣ_１、ＡＩＣ_２、ＡＩＣ_３、ＡＩＣ_４のための重みｇ_１，１、ｇ_１，２、ｇ_１，３、ｇ_１，４を決定するよう構成される。また、ダウンミキサ１２０は、各重みｇ_１，１、ｇ_１，２、ｇ_１，３、ｇ_１，４をそのオーディオ入力チャネルＡＩＣ_１、ＡＩＣ_２、ＡＩＣ_３、ＡＩＣ_４に適用するよう構成される。

たとえば、ダウンミキサは、オーディオ入力チャネルの各時間領域サンプルに重みを乗算することにより、そのオーディオ入力チャネルに重みを適用するよう構成され得る（オーディオ入力チャネルが時間領域で表される場合等）。または、たとえばダウンミキサは、オーディオ入力チャネルの各スペクトル値に重みを乗算することによりそのオーディオ入力チャネルに重みを適用するよう構成され得る（オーディオ入力チャネルがスペクトル領域、周波数領域または時間周波数領域で表される場合等）。重みｇ_１，１、ｇ_１，２、ｇ_１，３、ｇ_１，４を適用することにより得られた修正されたオーディオチャネル（ＭＡＣ_１，１、ＭＡＣ_１，２、ＭＡＣ_１，３、ＭＡＣ_１，４）を加算する等、組み合わせて、オーディオ出力チャネルＡＯＣ_１の１つを取得する。

重みｇ_２，１、ｇ_２，２、ｇ_２，３、ｇ_２，４を決定し、各重みをそのオーディオ入力チャネルＡＩＣ_１、ＡＩＣ_２、ＡＩＣ_３、ＡＩＣ_４に適用し、かつ結果として得られる修正されたオーディオチャネルＭＡＣ_２，１、ＭＡＣ_２，２、ＭＡＣ_２，３、ＭＡＣ_２，４を組み合わせることにより、同様に第２のオーディオ出力チャネルＡＯＣ_２を決定する。

同様に、重みｇ_３，１、ｇ_３，２、ｇ_３，３、ｇ_３，４を決定し、各重みをそのオーディオ入力チャネルＡＩＣ_１、ＡＩＣ_２、ＡＩＣ_３、ＡＩＣ_４に適用し、かつ結果として得られる修正されたオーディオチャネルＭＡＣ_３，１、ＭＡＣ_３，２、ＭＡＣ_３，３、ＭＡＣ_３，４を組み合わせることにより、第３のオーディオ出力チャネルＡＯＣ_２を決定する。

図４は、オーディオ出力チャネルの各々が、３以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正することで生成されるのではなく、オーディオ入力チャネルのうち２つのみを修正して、これら２つのオーディオ入力チャネルを組み合わせることにより生成される実施例を示す。

たとえば、図４において、オーディオ入力チャネルとして４つのチャネルが受信され（ＬＳ_１＝左サラウンド入力チャネル、Ｌ_１＝左入力チャネル、Ｒ_１＝右入力チャネル、ＲＳ_１＝右サラウンド入力チャネル）、かつオーディオ入力チャネルをダウンミクスすることにより、３つのオーディオ出力チャネルが生成されることになる（Ｌ_２＝左出力チャネル、Ｒ_２＝右出力チャネル、Ｃ_２＝中央出力チャネル）。

図４において、左出力チャネルＬ_２は、左サラウンド入力チャネルＬＳ_１および左入力チャネルＬ_１に基づいて生成される。この目的で、ダウンミキサ１２０は、それぞれサイド情報に基づいて、左サラウンド入力チャネルＬＳ_１のための重みｇ_１，１および左入力チャネルＬ_１のための重みｇ_１，２を生成し、各重みをそのオーディオ入力チャネルに適用して左出力チャネルＬ_２を取得する。

また、中央出力チャネルＣ_２は、左入力チャネルＬ_１および右入力チャネルＲ_１に基づいて生成される。この目的で、ダウンミキサ１２０は、いずれもサイド情報に基づき、左入力チャネルＬ_１のための重みｇ_２，２および右入力チャネルＲ_１のための重みｇ_２，３を生成し、各重みをそのオーディオ入力に適用して中央出力チャネルＣ_２を取得する。

さらに、右出力チャネルＲ_２は、右入力チャネルＲ_１および右サラウンド入力チャネルＲＳ_１に基づいて生成される。この目的で、ダウンミキサ１２０は、いずれもサイド情報に基づいて、右入力チャネルＲ_１のための重みｇ_３，３および右サラウンド入力チャネルＲＳ_１のための重みｇ_３，４を生成し、各重みをそのオーディオ入力チャネルに適用して左出力チャネルＲ_２を取得する。

本発明の実施例は、以下の知見が動機となっている。

前提技術は、ビットストリームのメタデータとしてダウンミクス係数を提供する。

係数、追加チャネル（元のチャネル構成のオーディオチャネル等、高さ情報等）および／または目標のチャネル構成で使用される追加のフォーマットを周波数選択的にダウンミクスすることにより、前提技術を拡張する方法が考えられる。言い換えれば、３Ｄオーディオフォーマットのためのダウンミクスマトリクスは、入力フォーマットの追加チャネル、特に３Ｄオーディオフォーマットの高さチャネルにより拡張することができるはずである。追加のフォーマットについては、複数の出力フォーマットを３Ｄオーディオによりサポートする必要がある。５．０または５．１信号では、ステレオまたはおそらくモノに対してのみダウンミクスは有効だが、より多くのチャネルを含むチャネル構成では、いくつかの出力フォーマットが適切である点を考慮する必要がある。２２．２チャネルでは、モノ、ステレオ、５．１または異なる７．１バリアント等が考えられる。

しかしながら、これらの拡張された係数の伝送のために予想されるビットレートはかなり高くなると考えられる。特定のフォーマットでは、追加のダウンミクス係数を定義し、これらを既存のダウンミクスメタデータと組み合わせることが妥当だと考えられる（ＭＰＥＧへの７.１提案、出力ドキュメントＮ１２９８０を参照）。

３Ｄオーディオに関しては、送り手および受け手側で予想されるチャネル構成の組み合わせは多数あり、データ量は、許容可能なビットレートを超える。しかしながら、冗長性の低減（ホフマン符号化等）で、データ量を許容可能な程度に減らすことも考えられる。

さらに、上記のダウンミクス係数をパラメータ的に特徴づけることも可能である。

しかしながら、それでも予想されるビットレートはこのような方法ではかなり増大すると考えられる。

上記から、確立した方法を拡張することは一般に実用向きでないということであり、その理由のひとつは、結果としてデータのレートが不釣り合いに高くなると考えられる点である。

時間領域における一般的ダウンミクスの仕様は以下のように公式化され得る。

ｙ_ｎ（ｔ）＝ｃ_ｎｍ・ｘ_ｍ（ｔ）
ここで、ｙ（ｔ）はダウンミクスの出力信号であり、ｘ（ｔ）は入力信号であり、ｎは入力オーディオチャネルの指数であり、ｍは出力チャネルの指数である。ｎ番目の出力チャネルに対するｍ番目の入力チャネルのダウンミクス係数が、ｃ_ｎｍに相当する。以下の式による５チャネル信号および２チャネルステレオ信号のダウンミクスの例が知られている。

Ｌ’（ｔ）＝Ｌ（ｔ）+ｃ_Ｃ・Ｃ（ｔ）＋ｃ_Ｒ・ＬＳ（ｔ）
Ｒ’（ｔ）＝Ｒ（ｔ）+ｃ_Ｃ・Ｃ（ｔ）＋ｃ_Ｒ・ＲＳ（ｔ）
ダウンミクス係数は静的でありかつオーディオ信号の各サンプルに適用される。これらは、オーディオビットストリームにメタデータとして加えられ得る。「周波数選択的ダウンミクス係数」という用語は、特定の周波数帯に別のダウンミクス係数を使用する可能性に関して使用される。時間可変係数と組み合わせて、デコーダ側ダウンミクスを、エンコーダから制御してもよい。その場合、オーディオフレームのためのダウンミクスの仕様は以下のとおりになる。

ｙ_ｎ（ｋ，ｓ）＝ｃ_ｎｍ（ｋ）・ｘ_ｍ（ｋ，ｓ）
ここで、ｋは、周波数帯（ハイブリッドＱＭＦ帯等）であり、ｓはハイブリッドＱＭＦ帯のサブサンプルである。

上記のとおり、これらの係数の伝送は、高ビットレートとなることが考えられる。

本発明の実施例は、記述的サイド情報を採用する。ダウンミキサ１２０は、このような（記述的）サイド情報に基づき３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成される。

オーディオ信号の特徴について考慮できるので、オーディオチャネル、オーディオチャネルの組み合わせまたはオーディオオブジェクトに関する記述的情報で、ダウンミクスプロセスを改善できる。

一般に、このようなサイド情報は、３以上のオーディオ入力チャネルのうち１以上の特徴または１以上のオーディオ入力チャネル内に記録される１以上の音波の特徴または１以上のオーディオ入力チャネル内に記録される１以上の音波を発した１以上の音源の特徴を示す。

サイド情報の例には、以下のパラメータのうち１以上が考えられる。

ドライ／ウエット比
アンビエンスの量
拡散性
指向性
音源幅
音源距離
到来方向
こられのパラメータの定義は当業者には周知である。これらのパラメータの定義については、添付の文献を参照（特許文献１から４、非特許文献１から２０を参照）。たとえば、アンビエンスの量についての定義は、非特許文献１５、特許文献１、２、３および４ならびに非特許文献１４に示される。ドライ／ウエット比の定義については、直接／アンビエンスの定義から直接的に導き出すことができ、当業者には周知である。指向性および拡散性と言う用語については、非特許文献１７に説明され、これも当業者には周知である。

上記のパラメータは、サイド情報として提供され、Ｍチャネル入力信号からＮチャネル出力信号を生成するレンダリングプロセスを導き、ダウンミクスの場合には、ＮはＭより小さい。

サイド情報として提供されるパラメータは必ずしも定数ではない。むしろ、パラメータは経時的に可変である（パラメータは時間変数）。

一般に、サイド情報は、周波数選択的に入手可能なパラメータを含み得る。

送信されたサイド情報の適用は、デコーダ側の後処理／レンダリングにおいて行われる。パラメータの評価および重み付けは、目標のチャネル構成および他の再生（ｒｅｎｄｉｔｉｏｎ）側特性に依存する。

上記のパラメータは、チャネル、チャネルのグループまたはオブジェクトに関連し得る。

パラメータは、ダウンミクスプロセスにおいて、ダウンミキサ１２０によるダウンミクスの際に、チャネルまたはオブジェクトの重み付けを決定するよう使用され得る。

例として、高さチャネルが、残響および／または反響のみを含む場合、ダウンミクスの際に音質にマイナスの影響を有するかもしれない。したがって、この場合、ダウンミクスから生じるオーディオチャネルにおけるそのシェアは、小さくする必要がある。したがって、ダウンミクスを制御する場合、「アンビエンス量」パラメータの値が高いと、このチャネルのダウンミクス係数は低くなると考えられる。対照的に、直接的な信号を含む場合には、ダウンミクスから生じるオーディオチャネルにおいては、より広範囲に反映されて、ダウンミクス係数はより高くなるはずである（より高い重みになる）。

たとえば、３Ｄオーディオ制作物の高さチャネルが、エンベロープメント(envelopment)の目的で、直接信号成分ならびに反響および残響を含み得る。これらの高さチャネルが、水平面のチャネルと混合されると、後者は、得られる混合において望まれないものになり、一方、直接成分のフォアグラウンドのオーディオコンテントはその全量によってダウンミクスされる必要がある。

この情報を使用してダウンミクス係数を調整することができる（周波数選択的に適切な部分で）。この点は、上記のすべてのパラメータに当てはまる。周波数選択性によりダウンミクスの制御をより細かく行うことができる。

たとえば、修正されたオーディオチャネルを取得するためにオーディオ入力チャネルに適用される重みは、それぞれのサイド情報に基づいて決定されても良い。

たとえば、フォアグランドチャネル（サラウンドシステムの左、中央または右チャネル等）は、オーディオ出力チャネルとして生成され、バックグラウンドチャネル（サラウンドシステムの左サラウンドチャネルまたは右サラウンドチャネル等）としては生成しない場合、次のようになる。

サイド情報が、オーディオ入力チャネルのアンビエンスの量が高いことを示す場合、フォアグラウンドのオーディオ出力チャネルを生成するために、このオーディオ入力チャネルについて小さな重みを決定し得る。これにより、このオーディオ入力チャネルから生じる修正オーディオチャネルは、それぞれのオーディオ出力チャネルを生成するためには、ほんのわずか考慮されるだけである。

サイド情報が、オーディオ入力チャネルのアンビエンスの量が低いことを示す場合、フォアグラウンドのオーディオ出力チャネルを生成するために、このオーディオ入力チャネルについてより大きい重みを決定し得る。これにより、このオーディオ入力チャネルから生じる修正オーディオチャネルは、それぞれのオーディオ出力チャネルを生成するために大きく考慮される。

実施例において、サイド情報が、３以上のオーディオ入力チャネルの各々のアンビエンス量を示し得る。ダウンミキサは、３以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。

たとえば、サイド情報には、３以上のオーディオ入力チャネルの各オーディオ入力チャネルについてアンビエンス量を指定するパラメータを含み得る。たとえば、各オーディオ入力チャネルは、アンビエント信号部および／または直接信号部を含み得る。たとえば、オーディオ入力チャネルのアンビエンス量を実数ａ_ｉと指定することができ、ここでｉは、３以上のオーディオ入力チャネルの１つを示し、かつａ_ｉは、たとえば０≦ａ_ｉ≦１の範囲である。ａ_ｉ＝０は、それぞれのオーディオ入力チャネルがアンビエント信号部を含まないことを示し得る。ａ_ｉ＝１は、それぞれのオーディオ入力チャネルがアンビエント信号部のみを含むことを示し得る。一般に、オーディオ入力チャネルのアンビエンス量は、たとえば、オーディオ入力チャネル内のアンビエント信号部の量を示し得る。

たとえば、図３を再び参照して、実施例において、アンビエント信号部が、常に望ましくないものと決めることが考えられる。対応のダウンミキサ１２０が、たとえば以下の式により図３の重みを決定し得る。

ｇ_ｃ，ｉ＝（１−ａ_ｉ）／４
ここでｃ∈｛１，２，３｝、ｉ∈｛１，２，３，４｝、０≦ａ_ｉ≦１
この実施例では、３以上のオーディオ出力チャネルの各々について、すべての重みが等しく決定される。

しかしながら、他の実施例については、いくつかのオーディオ出力チャネルについては、他のオーディオ出力チャネルについてよりもアンビエンスがより許容可能であると決めることができる。たとえば、図３による実施例では、第１のオーディオ出力チャネルＡＯＣ_１および第３のオーディオ出力チャネルＡＯＣ_３については、第２のオーディオ出力チャネルＡＯＣ_２の場合より、アンビエンスはより許容可能であると決めることができる。その場合、対応のダウンミキサ１２０が、たとえば以下の式に従って図３の重みを決定し得る。

ｇ_1，ｉ＝（１−（ａ_ｉ／２））／４、ここで、ｉ∈｛１，２，３，４｝、０≦ａ_ｉ≦１、
ｇ_２，ｉ＝（１−ａ_ｉ）／４、ここでｉ∈｛１，２，３，４｝、０≦ａ_ｉ≦１、
ｇ_３，ｉ＝（１−（ａ_ｉ／２））／４、ここで、ｉ∈｛１，２，３，４｝、０≦ａ_ｉ≦１
この実施例では、３以上のオーディオ出力チャネルのうちの１つの重みを、同３以上のオーディオ出力チャネルの他の１つの重みとは異なるように決定する。

図４の重みは、図３に関して記載した２つの例と同様に、たとえば第１の例と同様に決定され得る。

ｇ_１，１＝（１−ａ_ｉ）／２、ｇ_１，２＝（１−ａ_ｉ）／２、ｇ_２，２＝（１−ａ_ｉ）／２、ｇ_２，３＝（１−ａ_ｉ）／２、ｇ_３，３＝（１−ａ_ｉ）／２、ｇ_３，４＝（１−ａ_ｉ）／２
図３および図４の重みｇ_ｃ，ｉも、何らかの他の適当な方法で決定してもよい。

他の実施例によれば、サイド情報は、３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性を示し得る。ダウンミキサは、３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性に基づいて、３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。

この実施例において、サイド情報はたとえば３以上のオーディオ入力チャネルのうちの各オーディオ入力チャネルに関する拡散性を指定するパラメータを含み得る。たとえば、各オーディオ入力チャネルは、拡散信号部および／または直接信号部を含み得る。たとえば、あるオーディオ入力チャネルの拡散性は、実数ｄ_ｉとして指定してもよく、ここで、ｉは、３以上のオーディオ入力チャネルの１つを表し、かつｄ_ｉは、例えば、０≦ｄ_ｉ≦１の範囲である。ｄ_ｉ＝０は、それぞれのオーディオ入力チャネルが拡散信号部を含まないことを示し得る。ｄ_ｉ＝１は、それぞれのオーディオ入力チャネルが拡散信号部のみを含むことを示し得る。一般には、オーディオ入力チャネルの拡散性は、たとえばオーディオ入力チャネル内の拡散信号部の量を示し得る。

重みｇ_ｃ，ｉは、図３の例において、例えば、以下のように決定することが可能である。

ｇ_ｃ，ｉ＝（１−ｄ_ｉ）／４、ここでｃ∈｛１，２，３｝、ｉ∈｛１，２，３，４｝、０≦ｄ_ｉ≦１
または、たとえば
ｇ_１，ｉ＝（１−（ｄ_ｉ／２））／４、ここでｉ∈｛１，２，３，４｝、０≦ｄ_ｉ≦１
ｇ_２，ｉ＝（１−ｄ_ｉ）／４、ここでｉ∈｛１，２，３，４｝、０≦ｄ_ｉ≦１、
ｇ_３，ｉ＝（１−（ｄ_ｉ／２））／４、ここでｉ∈｛１，２，３，４｝、０≦ｄ_ｉ≦１
または、他の何らかの適切な方法で決定され得る。

または、サイド情報はたとえば３以上のオーディオ入力チャネルのうちの各オーディオ入力チャネルの指向性を指定するパラメータを含んでもよい。たとえば、あるオーディオ入力チャネルの指向性は、実数ｄ_ｉとして指定することが可能で、ここでｉは、３以上のオーディオ入力チャネルのうちの１つを表し、ｄ_ｉは、たとえば０≦ｄｉｒ_ｉ≦１の範囲である。ｄｉｒ_ｉ＝０は、それぞれのオーディオ入力チャネルの信号部が低い指向性を有することを示し得る。ｄｉｒ_ｉ＝１は、それぞれのオーディオ入力チャネルの信号部が高い指向性を有することを示し得る。

ｇ_ｃ，ｉ＝ｄｉｒ_ｉ／４、ここでｃ∈｛１，２，３｝、i∈｛１，２，３，４｝、０≦ｄｉｒ_ｉ≦１
または、たとえば
ｇ_１，ｉ＝０．１２５＋ｄｉｒ_ｉ／８、ここでｉ∈｛１，２，３，４｝、０≦ｄｉｒ_ｉ≦１
ｇ_２，ｉ＝ｄｉｒ_ｉ／４、ここでｉ∈｛１，２，３，４｝、０≦ｄｉｒ_ｉ≦１
ｇ_３，ｉ＝０．１２５＋ｄｉｒ_ｉ／８、ここでｉ∈｛１，２，３，４｝、０≦ｄｉｒ_ｉ≦１
または、他の何らかの適切な方法で決定され得る。

他の実施例では、サイド情報は音声の到来方向を示し得る。ダウンミキサは、音声の到来方向に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。

到来方向とは、たとえば、音波の到来方向である。オーディオ入力チャネルにより記録される音波の到来方向を、たとえば、角度j_ｉとして指定することができ、ここでｉは、３以上のオーディオ入力チャネルの１つを表し、j_ｉは、たとえば０°≦j_ｉ＜３６０°の範囲である。９０°に近い到来方向を有する音波の音声部分は、たとえば、高い重みを有し、２７０°に近い到来方向を有する音波は低い重みを有することになるかまたはオーディオ出力信号においては全く重みを持たない。重みｇ_ｃ，ｉは、図３の例ではたとえば以下のように決定され得る。

ｇ_ｃ，ｉ＝（１＋ｓｉｎj_ｉ）／８
ここでｃ∈｛１，２，３｝、ｉ∈｛１，２，３，４｝、０°≦j_ｉ＜３６０°
２７０°の到来方向が、オーディオ出力チャネルＡＯＣ_２の場合よりも、オーディオ出力チャネルＡＯＣ_１およびＡＯＣ_３にとってより許容可能な場合、重みｇ_ｃ，ｉはたとえば以下のように決定され得る。

ｇ_１，ｉ＝（１．５＋（ｓｉｎj_ｉ）／２）／８
ここで、ｉ∈｛１，２，３，４｝、０°≦j_ｉ＜３６０°
ｇ_２，ｉ＝（１＋ｓｉｎj_ｉ）／８
ここで、ｉ∈｛１，２，３，４｝、０°≦j_ｉ＜３６０°
ｇ_３，ｉ＝（１．５＋（ｓｉｎj_ｉ）／２）／８、ここで、ｉ∈｛１，２，３，４｝、０°≦j_ｉ＜３６０°
または、他の何らかの適切な方法で決定され得る。

記述的サイド情報を採用して様々なラウドスピーカのセッティングでオーディオ信号の再生を実現するために、たとえば、以下のパラメータのうち１以上を採用することが可能である。

到来方向（水平および鉛直）
視聴者との差
音の幅（「拡散性」）
オブジェクト優先の３Ｄオーディオでは特に、目標のフォーマットのラウドスピーカに対するオブジェクトのマッピングを制御するためにこれらのパラメータを採用し得る。

さらに、これらのパラメータはたとえば周波数選択的に入手可能である。

「拡散性」の値の範囲。点音源―平面波―全方向的に到来する音波。なお、拡散性は、アンビエンスとは異なるかもしれない（サイケ調のフィーチャー映画作品においてどこからともなく聞こえる声等を参照）。

実施例によれば、装置１００は、２以上のラウドスピーカのグループのうちのあるラウドスピーカに２以上のオーディオ出力チャネルの各々をフィードするよう構成され得る。ダウンミキサ１２０は、３以上の仮定のラウドスピーカ位置の第１のグループのうちの各仮定のラウドスピーカ位置および２以上の実際のラウドスピーカ位置の第２のグループのうちの各実際のラウドスピーカ位置に基づいて、３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され得る。２以上の実際のラウドスピーカ位置の第２のグループのうちの各実際のラウドスピーカ位置は、２以上のラウドスピーカのグループのうちのあるラウドスピーカの位置を示し得る。

たとえば、あるオーディオ入力チャネルが、ある仮定のラウドスピーカ位置に割り当てられてもよい。さらに、第１のオーディオ出力チャネルを第１の実際のラウドスピーカ位置の第１のラウドスピーカについて生成しかつ第２のオーディオ出力チャネルを第２の実際のラウドスピーカ位置の第２のラウドスピーカについて生成する。第１の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離が、第２の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離より小さければ、たとえばオーディオ入力チャネルは、第２のオーディオ出力チャネルよりも第１のオーディオ出力チャネルに対してより影響を与える。

たとえば、第１の重みと第２の重みを生成しても良い。第１の重みは、第１の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離に依存し得る。第２の重みは、第２の実際のラウドスピーカ位置と仮定のラウドスピーカ位置との距離に依存し得る。第１の重みは第２の重みより大きい。第１のオーディオ出力チャネルを生成するために、第１の重みをオーディオ入力チャネルに適用して、第１の修正されたオーディオチャネルを生成する。第２のオーディオ出力チャネルを生成するために、第２の重みをオーディオ入力チャネルに適用して、第２の修正されたオーディオチャネルを生成する。さらなる修正されたオーディオチャネルも、それぞれ他のオーディオ出力チャネルおよび／または他のオーディオ入力チャネルについて同様に生成され得る。２以上のオーディオ出力チャネルの各オーディオ出力チャネルを、その修正されたオーディオチャネルを組み合わせることにより生成し得る。

図５は、実際のラウドスピーカ位置に対する送信された空間表現信号のこのようなマッピングを示す図である。仮定のラウドスピーカ位置５１１、５１２、５１３、５１４および５１５は、仮定のラウドスピーカ位置の第１のグループに属する。実際のラウドスピーカ位置５２１、５２２および５２３は、実際のラウドスピーカ位置の第２のグループに属する。

たとえば、仮定のラウドスピーカ位置５１２の仮定のラウドスピーカのオーディオ入力チャネルが、第１の実際のラウドスピーカ位置５２１の第１の実物のラウドスピーカの第１のオーディオ出力信号および第２の実際のラウドスピーカ位置５２２の第２の実物のラウドスピーカの第２のオーディオ出力信号にどのように影響を与えるかは、仮定の位置５１２（またはその仮想位置５３２）が、第１の実際のラウドスピーカ位置５２１および第２の実際のラウドスピーカ位置５２２にどれだけ近接するかに依存する。仮定のラウドスピーカ位置が実際のラウドスピーカ位置に近いほど、オーディオ入力チャネルが対応のオーディオ出力チャネルに与える影響は大きい。

図５において、ｆは、仮定のラウドスピーカ位置５１２のラウドスピーカのためのオーディオ入力チャネルを示す。ｇ_１は、第１の実際のラウドスピーカ位置５２１の第１の実際のラウドスピーカのための第１のオーディオ出力チャネルを示し、ｇ_２は、第２の実際のラウドスピーカ位置５２２の第２の実際のラウドスピーカのための第２のオーディオ出力チャネルを示し、αは方位角を示し、βは仰角を示す。ここで、方位角αおよび仰角βは、たとえば実際のラウドスピーカ位置から仮定のラウドスピーカ位置へのまたはその逆の方向を示す。

実施例において、３以上のオーディオ入力チャネルの各オーディオ入力チャネルを、３以上の仮定のラウドスピーカ位置の第１のグループのうちのある仮定のラウドスピーカ位置に割り当てることができる。たとえば、オーディオ入力チャネルが、仮定のラウドスピーカ位置でラウドスピーカによりプレイバックされるとすれば、このオーディオ入力チャネルがその仮定のラウドスピーカ位置に割り当てられる。２以上のオーディオ出力チャネルのうちの各オーディオ出力チャネルが、２以上の実際のラウドスピーカ位置の第２のグループのある実際のラウドスピーカ位置に割り当てられ得る。たとえば、オーディオ出力チャネルが、実際のラウドスピーカ位置でラウドスピーカによりプレイバックされるとすれば、このオーディオ出力チャネルはその実際のラウドスピーカ位置に割り当てられる。ダウンミキサは、３以上のオーディオ入力チャネルのうちの少なくとも２つ、３以上のオーディオ入力チャネルのうちの前記少なくとも２つのうちの各々の仮定のラウドスピーカ位置および前記オーディオ出力チャネルの実際のラウドスピーカ位置に基づいて、２以上のオーディオ出力チェネルの各オーディオ出力チャネルを生成するよう構成され得る。

図６は他の高い位置に対する高い空間信号のマッピングを示す図である。送信される空間信号（チャネル）は、高いスピーカ面におけるスピーカのためのチャネルかまたは高くないスピーカ面のスピーカためのチャネルのいずれかである。すべての実物のラウドスピーカが１つのラウドスピーカ面（高くないスピーカ面）に位置する場合、高いスピーカ面のスピーカのためのチャネルを高くないスピーカ面のスピーカにフィードする必要がある。

この目的で、サイド情報は、高いスピーカ面におけるスピーカの仮定のラウドスピーカ位置６１１に関する情報を含む。高くないスピーカ面における対応の仮想位置６３１がダウンミキサにより決定され、仮定の高いスピーカのためのオーディオ入力チャネルを修正することにより生成される修正されたオーディオチャネルを、実際に使用可能なスピーカの実際のラウドスピーカ位置６２１、６２２、６２３、６２４に依存して生成する。

ダウンミクスをより細かく制御するために、周波数選択性を採用してもよい。「アンビエンスの量」の例を使用して、高さチャネルは、空間成分および直接成分の両方を含み得る。異なる特性を有する周波数成分を、応じて特徴づけてもよい。

実施例によれば、３以上のオーディオ入力チェネルの各々が、３以上のオーディオオブジェクトのあるオーディオオブジェクトのオーディオ信号を含む。サイド情報は、３以上のオーディオオブジェクトの各オーディオオブジェクトについて、前記オーディオオブジェクトの位置を示すオーディオオブジェクト位置を含む。ダウンミキサは、３以上のオーディオオブジェクトの各々のオーディオオブジェクト位置に基づいて３以上のオーディオ入力チャネルをダウンミクスして２以上のオーディオ出力チャネルを取得するよう構成される。

たとえば、第１のオーディオ入力チャネルは、第１のオーディオオブジェクトのオーディオ信号を含む。第１のラウドスピーカは、第１の実際のラウドスピーカ位置に配置され得る。第２のラウドスピーカは、第２の実際のラウドスピーカ位置に配置され得る。第１の実際のラウドスピーカ位置と第１のオーディオオブジェクトの位置との距離は、第２の実際のラウドスピーカ位置と第１のオーディオオブジェクトの位置との距離より短くなり得る。そこで、第１のラウドスピーカのための第１のオーディオ出力チャネルおよび第２のラウドスピーカのための第２のオーディオ出力チャネルが生成され、それにより第１のオーディオオブジェクトのオーディオ信号が第２のオーディオ出力チャネルよりも第１のオーディオ出力チャネルにおいてより大きな影響を持つようになっている。

たとえば、第１の重みおよび第２の重みを生成し得る。第１の重みは、第１の実際のラウドスピーカ位置と、第１のオーディオオブジェクトの位置との間の距離に依存し得る。第２の重みは、第２の実際のラウドスピーカ位置と、第２のオーディオオブジェクトの位置との間の距離に依存し得る。第１の重みは第２の重みより大きい。第１のオーディオ出力チャネルを生成するために、第１の重みを第１のオーディオオブジェクトのオーディオ信号に適用して第１の修正されたオーディオチャネル生成する。第２のオーディオ出力チャネルを生成するため、第２の重みを第１のオーディオオブジェクトのオーディオ信号に適用して、第２の修正されたオーディオチャネルを生成し得る。さらなる修正されたオーディオチャネルが、それぞれ他のオーディオ出力チャネルおよび／または他のオーディオオブジェクトのために同様に生成され得る。２以上のオーディオ出力チャネルの各オーディオ出力チャネルが、その修正されたオーディオチャネルを組み合わせることにより生成され得る。

図８は、実施例によるシステムを示す図である。

このシステムは、３以上の未処理のオーディオチャネルを符号化して３以上の符号化されたオーディオチャネルを取得しかつ３以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダ８１０を含む。

さらに、このシステムは、３以上の符号化されたオーディオチャネルを３以上のオーディオ入力チャネルとして受信し、サイド情報を受信しかつサイド情報に基づいて３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための、上記実施例の１つに従う装置１００を含む。

図９は、実施例によるシステムの他の図である。図示されるガイダンス情報がサイド情報である。２以上のオーディオ出力チャネルを生成するために、エンコーダ８１０により符号化されたＭ個の符号化されたオーディオチャネルが、装置１００（「ダウンミクス」と示す）にフィードされる。Ｎ個のオーディオ出力チャネルが、Ｍ個の符号化されたオーディオチャネル（装置８２０のオーディオ入力チャネル）をダウンミクスすることにより生成される。実施例において、Ｎ＜Ｍが成り立つ。

装置に関連していくつかの特徴について説明したが、これらの特徴が対応の方法の説明をも表すことは明らかで、その場合、ブロックや装置が方法ステップまたは方法ステップの特徴に相当する。同様に、方法ステップに関連して説明した特徴はまた対応するブロックやアイテムの説明または対応する装置の特徴をも表す。

発明の分解された信号をデジタル記憶媒体に記憶するかまたはインターネット等の無線送信媒体、または有線送信媒体のような送信媒体上で送信することができる。

特定の実施要件によって、発明の実施例をハードウェアまたはソフトウェアで実現することができる。実装は、それぞれの方法を実行するようにプログラム可能なコンピュータシステムと協働する（または協働可能な）、電子的に可読な制御信号を記憶したデジタル記憶媒体、たとえば、フロッピーディスク、ＤＶＤ，ＣＤ，ＲＯＭ，ＰＲＯＭ，ＥＰＲＯＭ，ＥＥＰＲＯＭまたはフラッシュメモリを使用して行うことができる。

本発明のいくつかの実施例は、ここに記載の方法の１つが実行されるよう、プログラム可能なコンピュータシステムと協働可能な電子的に可読な制御信号を有する非一過性のデータキャリアを含む。

一般に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現されることが可能で、そのプログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されると、方法の１つを実行するよう動作する。プログラムコードは、たとえば機械可読なキャリア上に記憶され得る。

他の実施例は、機械可読なキャリア上に記憶される、ここに記載の方法の１つを実行するためのコンピュータプログラムを含む。

すなわち、発明の方法の実施例は、コンピュータプログラムがコンピュータ上で実行された際に、ここに記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、発明の方法の他の実施例は、ここに記載の方法の１つを実行するためのコンピュータプログラムを記録するデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。

したがって、発明の方法の他の実施例は、ここに記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスはたとえばインターネットを介するデータ通信接続により転送されるよう構成されてもよい。

他の実施例は、ここに記載の方法の１つを実行するよう構成または適合されるコンピュータまたはプログラマブル論理装置等の処理手段を含む。

他の実施例は、ここに記載の方法の１つを実行するためのコンピュータプログラムをインストールするコンピュータを含む。

いくつかの実施例においては、プログラマブル論理装置（例えば、フィールドプログラマブルゲートアレイ）を使用して、ここに記載の方法の機能性の一部または全部を実行してもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、ここに記載の方法の１つを実行するために、マイクロプロセッサと協働し得る。一般に、これらの方法は、何らかのハードウェア装置により実行されることが好ましい。

上記の実施例は、本発明の原則を示すものに過ぎない。当然ながら、ここに記載の構成および詳細には変形および変更が可能であることは当業者には明らかになろう。したがって、添付の請求の範囲により限定され、実施例の記載および説明により提示される特定の詳細により限定されないことを意図する。

Claims

３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための装置（１００）であって、装置（１００）が、
３以上のオーディオ入力チャネルを受信しかつサイド情報を受信するための受信インターフェース（１１０）と、
各オーディオ入力チャネルのための重みを使用してサイド情報に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するためのダウンミキサ（１２０）とを含み、
オーディオ出力チャネルの数がオーディオ入力チャネルの数より少なく、
サイド情報が、３以上のオーディオ入力チャネルの少なくとも１つの特徴、１以上のオーディオ入力チャネル内に記録される１以上の音波の特徴または１以上のオーディオ入力チャネル内に記録される１以上の音波を発した１以上の音源の特徴を示し、
ダウンミキサが、サイド情報に基づいて各オーディオ入力チャネルのための重みを決定するように構成され、
装置（１００）が、２以上のラウドスピーカのグループのうちの１ラウドスピーカに２以上のオーディオ出力チャネルの各々をフィードするように構成され、
ダウンミキサ（１２０）が、３以上の仮定のラウドスピーカ位置の第１のグループの各仮定のラウドスピーカ位置と２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置とに基づいて、３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成され、
２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置が、２以上のラウドスピーカのグループのうちの１ラウドスピーカの位置を示し、
３以上のオーディオ入力チャネルの各オーディオ入力チャネルが、３以上の仮定のラウドスピーカ位置の第１のグループの１つの仮定のラウドスピーカ位置に割り当てられ、
２以上のオーディオ出力チャネルの各オーディオ出力チャネルが、２以上の実際のラウドスピーカ位置の第２のグループの１つの実際のラウドスピーカ位置に割り当てられ、
ダウンミキサ（１２０）が、３以上のオーディオ入力チャネルのうち少なくとも２つと、３以上のオーディオ入力チャネルのうち前記少なくとも２つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成され、
サイド情報が３以上のオーディオ入力チャネルの各々のアンビエンス量を含み、
ダウンミキサ（１２０）が、３以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成される、装置。
ダウンミキサ（１２０）が、サイド情報に基づいて３以上のオーディオ入力チャネルのうち少なくとも２つのオーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項１に記載の装置（１００）。
ダウンミキサ（１２０）が、サイド情報に基づいて３以上のオーディオ入力チャネルの各オーディオ入力チャネルを修正して修正されたオーディオチャネルのグループを取得し、かつ修正されたオーディオチャネルの前記グループの各修正されたオーディオチャネルを組み合わせて前記オーディオ出力チャネルを取得することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項２に記載の装置（１００）。
ダウンミキサ（１２０）が、１以上のオーディオ入力チャネルの１オーディオ入力チャネルおよびサイド情報に基づき重みを決定しかつ前記オーディオ入力チャネルに前記重みを適用して、修正されたオーディオチャネルのグループの各修正されたオーディオチャネルを生成することにより、２以上のオーディオ出力チャネルの各オーディオ出力チャネルを生成するよう構成される、請求項２または３に記載の装置（１００）。
サイド情報が３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性を示し、かつ
ダウンミキサ（１２０）が、３以上のオーディオ入力チャネルの各々の拡散性または３以上のオーディオ入力チャネルの各々の指向性に基づいて３以上のオーディオ入力チャネルをダウンミクスして、２以上のオーディオ出力チャネルを取得するよう構成される、請求項１から請求項４のいずれかに記載の装置（１００）。
サイド情報が、音声の到来方向を示し、かつ
ダウンミキサ（１２０）が、音声の到来方向に基づいて３以上のオーディオ入力チャネルをダウンミクスして２以上のオーディオ出力チャネルを取得するよう構成される、請求項１から請求項５のいずれかに記載の装置（１００）。
ダウンミキサ（１２０）が、サイド情報に基づいて４以上のオーディオ入力チャネルをダウンミクスして３以上のオーディオ出力チャネルを取得するよう構成される、請求項１から請求項６のいずれかに記載の装置（１００）。
３以上の未処理のオーディオチャネルを符号化して３以上の符号化されたオーディオチャネルを取得し、かつ３以上の未処理のオーディオチャネルに関する追加の情報を符号化してサイド情報を取得するためのエンコーダ（８１０）と、
３以上のオーディオ入力チャネルとして３以上の符号化されたオーディオチャネルを受信し、サイド情報を受信しかつサイド情報に基づき、３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための、請求項１から請求項７のいずれかに記載の装置（１００）とを含む、システム。
３以上のオーディオ入力チャネルから２以上のオーディオ出力チャネルを生成するための方法であって、
３以上のオーディオ入力チャネルおよびサイド情報を受信するステップと、
各オーディオ入力チャネルのための重みを使用してサイド情報に基づいて３以上のオーディオ入力チャネルをダウンミクスして２以上のオーディオ出力チャネルを取得するステップとを含み、
オーディオ出力チャネルの数が、オーディオ入力チャネルの数より少なく、かつ
サイド情報が３以上のオーディオ入力チャネルのうちの少なくとも１つの特徴、１以上のオーディオ入力チャネル内に記録される１以上の音波の特徴または１以上のオーディオ入力チャネル内に記録される１以上の音波を発した１以上の音源の特徴を示し、
重みがサイド情報に基づいて各オーディオ入力チャネルのために決定され、
２以上のオーディオ出力チャネルの各々が２以上のラウドスピーカのグループのうちの１ラウドスピーカにフィードされ、
３以上のオーディオ入力チャネルが、３以上の仮定のラウドスピーカ位置の第１のグループの各仮定のラウドスピーカ位置と２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置とに基づいて、ダウンミクスされて、２以上のオーディオ出力チャネルが取得され、
２以上の実際のラウドスピーカ位置の第２のグループの各実際のラウドスピーカ位置が、２以上のラウドスピーカのグループのうちの１ラウドスピーカの位置を示し、
３以上のオーディオ入力チャネルの各オーディオ入力チャネルが、３以上の仮定のラウドスピーカ位置の第１のグループの１つの仮定のラウドスピーカ位置に割り当てられ、
２以上のオーディオ出力チャネルの各オーディオ出力チャネルが、２以上の実際のラウドスピーカ位置の第２のグループの１つの実際のラウドスピーカ位置に割り当てられ、
２以上のオーディオ出力チャネルの各オーディオ出力チャネルが、３以上のオーディオ入力チャネルのうち少なくとも２つと、３以上のオーディオ入力チャネルのうち前記少なくとも２つの各々の仮定のラウドスピーカ位置と、前記オーディオ出力チャネルの実際のラウドスピーカ位置とに基づいて、生成され、
サイド情報が３以上のオーディオ入力チャネルの各々のアンビエンス量を含み、
３以上のオーディオ入力チャネルの各々のアンビエンス量に基づいて３以上のオーディオ入力チャネルがダウンミクスされて、２以上のオーディオ出力チャネルが取得される、方法。
コンピュータまたは信号処理装置で実行された際に、請求項９に記載の方法を実現するためのコンピュータプログラム。