JP6088444B2

JP6088444B2 - ３次元オーディオサウンドトラックの符号化及び復号

Info

Publication number: JP6088444B2
Application number: JP2013558183A
Authority: JP
Inventors: ジャン−マルクジョット; ゾランフェイゾ; ジェームズディージョンストン
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2011-03-16
Filing date: 2012-03-15
Publication date: 2017-03-01
Anticipated expiration: 2032-03-15
Also published as: EP2686654A4; EP2686654A1; TWI573131B; US9530421B2; US20140350944A1; CN103649706A; CN103649706B; TW201303851A; WO2012125855A1; HK1195612A1; JP2014525048A; KR102374897B1; KR20200014428A; KR20140027954A

Description

〔関連出願との相互参照〕
本発明は、発明者であるＪｏｔ他に付与された、２０１１年３月１６日に出願された「３次元オーディオサウンドトラックの符号化及び再生」という名称の米国仮特許出願第６１／４５３，４６１号の優先権を主張するものである。

〔連邦政府が支援する研究又は開発に関する記述〕
該当なし

本発明は、オーディオ信号の処理に関し、より具体的には、３次元オーディオサウンドトラックの符号化及び再生に関する。

空間オーディオ再生は、数十年にわたりオーディオ技術者及び家電業界の関心を集めてきた。空間オーディオ再生は、（コンサート演奏、動画シアター、家庭内ｈｉ−ｆｉ設定、コンピュータディスプレイ、個人用頭部装着型ディスプレイなどの）用途の背景に従って構成しなければならない２チャネル又はマルチチャネル電気音響システム（スピーカ又はヘッドホン）を必要とし、これについては、Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ著、「音楽、マルチメディア及び対話的人間−コンピュータ間インターフェイスのためのリアルタイム空間音響処理（Ｒｅａｌ−ｔｉｍｅＳｐａｔｉａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｏｕｎｄｓｆｏｒＭｕｓｉｃ，ＭｕｌｔｉｍｅｄｉａａｎｄＩｎｔｅｒａｃｔｉｖｅＨｕｍａｎ−ＣｏｍｐｕｔｅｒＩｎｔｅｒｆａｃｅｓ）」、ＩＲＣＡＭ、１ｐｌａｃｅＩｇｏｒ−Ｓｔｒａｖｉｎｓｋｙ１９９７年、［以下（Ｊｏｔ、１９９７）］にさらに記載されており、この文献は引用により本明細書に組み入れられる。このオーディオ再生システム構成では、マルチチャネルオーディオ信号内の方向性定位キュー（ｄｉｒｅｃｔｉｏｎａｌｌｏｃａｌｉｚａｔｉｏｎｃｕｅｓ）を送信又は記憶のために符号化するための好適な技術又はフォーマットを定義しなければならない。

空間的に符号化されたサウンドトラックは、以下の２つの相補的方法により生成することができる。

（ａ）同じ場所にある又は狭い間隔で配置された（基本的にシーン内の仮想的なリスナの位置又はその近くに配置された）マイクシステムを使用して既存のオーディオシーンを録音すること。このマイクシステムは、例えば、ステレオマイクのペア、ダミーヘッド又は音場マイクとすることができる。このような収音技術では、所与の位置から取り込んだ録音シーン内に存在する音源の各々に関連する空間的聴覚キューを様々な忠実度で同時に符号化することができる。

（ｂ）仮想オーディオシーンを合成すること。この方法では、個々のソース信号を受け取って、仮想音響シーンを記述するためのパラメータインターフェイスを提供する信号処理システムを使用することにより、各音源の定位及びルーム効果が人工的に再構築される。このようなシステムの例には、専門スタジオ用混合卓又はデジタルオーディオワークステーション（ＤＡＷ）がある。制御パラメータは、各ソースの位置、向き及び方向性、並びに仮想ルーム又は空間の音響特性を含むことができる。この方法の例には、混合卓及び図１Ａに示すような人工残響付加装置などの信号処理モジュールを使用したマルチトラックレコーディングの事後処理がある。

動画及び家庭用ビデオエンターテイメント業界のための録音及び再生技術が発達したことにより、マルチチャネル「サラウンドサウンド」レコーディングフォーマット（最も注目すべきは５．１及び７．１フォーマット）が標準化された。サラウンドサウンドフォーマットは、図１Ｂに示す「５．１」標準レイアウトなどの規定の幾何学的配置（ＬＦ、ＣＦ、ＲＦ、ＲＳ、ＬＳ及びＳＷは、それぞれ左前方、中央前方、右前方、右サラウンド、左サラウンド及びサブウーファスピーカを示す）でリスナの周囲の水平面に配置されたスピーカにそれぞれオーディオチャネル信号を供給すべきことを前提とする。この前提は、音源の近接性及びこれらの水平面よりも上への上昇、及び室内残響などの音場の空間的拡散成分の没入感を含む自然音場の３次元オーディオキューを確実かつ正確に符号化して再生する能力を本質的に制限する。

録音内の３次元オーディオキューを符号化するための様々な録音フォーマットが開発されてきた。これらの３−Ｄオーディオフォーマットとしては、Ａｍｂｉｓｏｎｉｃｓ、及び図１Ｃに示すＮＨＫ２２．２フォーマットなどの上昇させたスピーカチャネルを含む離散的マルチチャネルオーディオフォーマットが挙げられる。しかしながら、これらの空間オーディオフォーマットは、レガシーな消費者向けサラウンドサウンド再生機器との互換性がなく、異なるスピーカ配置幾何形状及び異なるオーディオ復号技術を必要とする。レガシーな機器及び設定との非互換性は、既存の３−Ｄオーディオフォーマットの展開を成功させる上で致命的な障害である。

マルチチャネルオーディオ符号化フォーマット
カリフォルニア州カラバサのＤＴＳ社が提供するＤＴＳ−ＥＳ及びＤＴＳ−ＨＤなどの様々なマルチチャネルデジタルオーディオフォーマットは、レガシーなデコーダにより復号でき、既存の再生機器上で再生できる後方互換性のあるダウンミックス、及び追加のオーディオチャネルを搬送する、レガシーなデコーダが無視するデータストリームの拡張をサウンドトラックデータストリームに含めることによってこれらの問題に対処する。ＤＴＳ−ＨＤデコーダは、これらの追加チャネルを回復し、後方互換性のあるダウンミックスにおけるこれらの寄与を減じ、後方互換性のあるフォーマットとは異なる、上昇させたスピーカ位置を含むことができる目標空間オーディオフォーマットでこれらをレンダリングすることができる。ＤＴＳ−ＨＤでは、後方互換性のあるミックスにおける、及び目標空間オーディオフォーマットでの追加チャネルの寄与が、（スピーカチャネル毎に１つの）混合係数の組によって記述される。サウンドトラックの対象となる目標空間オーディオフォーマットは、符号化段階で指定しなければならない。

この方法では、マルチチャネルオーディオサウンドトラックを、レガシーなサラウンドサウンドデコーダとの互換性があるデータストリームの形で、及び符号化／再生段階中に選択された１又は複数の別の目標空間オーディオフォーマットで符号化することができる。これらの別の目標フォーマットは、３次元オーディオキューの再生を改善するのに適したフォーマットを含むことができる。しかしながら、このスキームの１つの制約は、同じサウンドトラックを別の目標空間オーディオフォーマットに合わせて符号化する場合、新たなフォーマットのためにミキシングされた新たなバージョンのサウンドトラックを録音して符号化するために生産施設に戻る必要が生じる点である。

オブジェクトベースのオーディオシーン符号化
オブジェクトベースのオーディオシーン符号化は、目標空間オーディオフォーマットに左右されないサウンドトラック符号化のための一般的解決策を提示する。オブジェクトベースのオーディオシーン符号化システムの例には、ＭＰＥＧ−４ＡｄｖａｎｃｅｄＡｕｄｉｏＢｉｎａｒｙＦｏｒｍａｔｆｏｒＳｃｅｎｅｓ（ＡＡＢＩＦＳ）がある。この方法では、ソース信号の各々が、レンダーキューデータストリームと共に個別に送信される。このデータストリームは、図１Ａに示すような空間オーディオシーンレンダリングシステムのパラメータの時変値を搬送する。このパラメータセットは、フォーマット非依存型オーディオシーン記述の形で提供することができ、この結果、このフォーマットに従ってレンダリングシステムを設計することにより、サウンドトラックをあらゆる目標空間オーディオフォーマットでレンダリングできるようになる。各ソース信号は、その関連するレンダーキューとの組み合わせによって「オーディオオブジェクト」を定義する。この方法の大きな利点は、各オーディオオブジェクトを、再生の最後に選択されるあらゆる目標空間オーディオフォーマットでレンダリングするために利用できる最も正確な空間オーディオ合成技術をレンダラが実装できる点である。オブジェクトベースのオーディオシーン符号化システムの別の利点は、リミキシング、音楽の再演奏（カラオケなど）、又はシーン内の仮想ナビゲーション（ゲームなど）のように、レンダリングしたオーディオシーンを復号段階で対話的に修正できる点である。

オブジェクトベースのオーディオシーン符号化は、フォーマット非依存型のサウンドトラック符号化及び再生を可能にするが、この方法には、（１）レガシーな消費者サラウンドサウンドシステムとの互換性がない点、（２）一般に計算コストの高い復号及びレンダリングシステムを必要とする点、及び（３）複数のソース信号を別個に搬送するために高い送信又は記憶データレートを必要とする点、といった２つの主な制約がある。

マルチチャネル空間オーディオ符号化
マルチチャネルオーディオ信号を低ビットレートで送信又は記憶する必要性は、バイノーラルキュー符号化（ＢＣＣ）及びＭＰＥＧサラウンドを含む新たな周波数領域空間オーディオ符号化（ＳＡＣ）技術を開発する動機付けになってきた。図１Ｄに示す例示的なＳＡＣ技術では、Ｍチャネルオーディオ信号が、元々のＭチャネル信号内に存在するチャネル間関係（チャネル間相関及びレベル差）を時間−周波数領域で表す空間キューデータストリームを伴うダウンミックスオーディオ信号の形で符号化される。ダウンミックス信号が含むオーディオチャネルはＭよりも少なく、空間キューデータレートはオーディオ信号データレートに比べて低いので、この符号化法では、データレートが全体的に大きく低減される。また、レガシー機器との後方互換性を容易にするようにダウンミックスフォーマットを選択することもできる。

米国特許出願第２００７／０２６９０６３号に記載されるような、空間オーディオシーン符号化（ＳＡＳＣ）と呼ばれるこの方法の変種では、デコーダに送信される時間−周波数空間キューデータがフォーマット非依存である。これにより、あらゆる目標空間オーディオフォーマットでの空間再生が可能になると同時に、符号化サウンドトラックデータストリーム内で後方互換性のあるダウンミックス信号を搬送する能力が保持される。しかしながら、この方法では、符号化サウンドトラックデータが、分離可能なオーディオオブジェクトを定義しない。ほとんどの録音では、サウンドシーン内の異なる位置に存在する複数の音源が、時間−周波数領域において同時に生じる。この場合、空間オーディオデコーダは、ダウンミックスオーディオ信号内におけるこれらの寄与を分離することができない。この結果、空間的定位エラーによってオーディオ再生の空間的忠実度が損なわれる恐れがある。

空間オーディオオブジェクト符号化
ＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）は、符号化サウンドトラックデータストリームが、後方互換性のあるダウンミックスオーディオ信号及び時間−周波数キューデータストリームを含むという点でＭＰＥＧサラウンドに類似する。ＳＡＯＣは、モノラル又は２チャネルダウンミックスオーディオ信号内のオーディオオブジェクトの数Ｍを送信するように設計された複数オブジェクト符号化技術である。ＳＡＯＣダウンミックス信号と共に送信されるＳＡＯＣキューデータストリームは、モノラル又は２チャネルダウンミックス信号の各チャネル内の各オブジェクト入力信号に適用される混合係数を各周波数サブバンドに記述する時間−周波数オブジェクトミックスキューを含む。また、ＳＡＯＣキューデータストリームは、デコーダ側でオーディオオブジェクトを個別に事後処理できるようにする周波数領域オブジェクト分離キューを含む。ＳＡＯＣデコーダに設けられるオブジェクト事後処理機能は、オブジェクトベースの空間オーディオシーンレンダリングシステムの能力を模倣して、複数の目標空間オーディオフォーマットをサポートする。

ＳＡＯＣは、複数のオーディオオブジェクト信号及びオブジェクトベースのフォーマット非依存型３次元オーディオシーン記述の低ビットレート送信及び計算効率の良い空間オーディオレンダリングのための方法を提供する。しかしながら、ＳＡＯＣ符号化ストリームのレガシーな互換性は、ＳＡＯＣオーディオダウンミックス信号の２チャネルステレオ再生に制限され、従って既存のマルチチャネルサラウンドサウンド符号化フォーマットを拡張することには適していない。さらに、ＳＡＯＣデコーダ内でオーディオオブジェクト信号に適用されるレンダリング動作が、人工残響などの特定のタイプの事後処理効果を含む場合、（これらの効果は、レンダリングシーン内では聞こえるが、未処理のオブジェクト信号を含むダウンミックス信号には同時に取り入れられないので）ＳＡＯＣダウンミックス信号は、レンダリングされたオーディオシーンを知覚的に表現しない。

また、ＳＡＯＣには、ＳＡＯＣデコーダが、時間−周波数領域で同時に生じるオーディオオブジェクト信号をダウンミックス信号内で十分に分離できないという、ＳＡＣ及びＳＡＳＣ技術と同じ制約がある。例えば、ＳＡＯＣデコーダによりオブジェクトが大規模に増幅又は減衰されると、レンダリングされたシーンの音質が受け入れ難いほど低下する。

米国特許出願第２００７／０２６９０６３号明細書米国特許第５，９７４，３８０号明細書米国特許第５，９７８，７６２号明細書米国特許第６，４８７，５３５号明細書米国特許出願第２０１０／０３０３２４６号明細書

Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ著、「音楽、マルチメディア及び対話的人間−コンピュータ間インターフェイスのためのリアルタイム空間音響処理（Ｒｅａｌ−ｔｉｍｅＳｐａｔｉａｌＰｒｏｃｅｓｓｉｎｇｏｆＳｏｕｎｄｓｆｏｒＭｕｓｉｃ，ＭｕｌｔｉｍｅｄｉａａｎｄＩｎｔｅｒａｃｔｉｖｅＨｕｍａｎ−ＣｏｍｐｕｔｅｒＩｎｔｅｒｆａｃｅｓ）」、ＩＲＣＡＭ、１ｐｌａｃｅＩｇｏｒ−Ｓｔｒａｖｉｎｓｋｙ１９９７年Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ他著、「インタラクティブオーディオのための複雑な音響シーンのバイノーラルシミュレーション（ＢｉｎａｕｒａｌＳｉｍｕｌａｔｉｏｎｏｆＣｏｍｐｌｅｘＡｃｏｕｓｉｔｃＳｃｅｎｅｓｆｏｒＩｎｔｅｒａｃｔｉｖｅＡｕｄｉｏ）」、第１２１回ＡＥＳ会議、２００６年１０月５日〜８日Ｊｏｔ他著、「空間オーディオシーン符号化に基づくバイノーラル３−Ｄオーディオレンダリング（Ｂｉｎａｕｒａｌ３−Ｄａｕｄｉｏｒｅｎｄｅｒｉｎｇｂａｓｅｄｏｎｓｐａｔｉａｌａｕｄｉｏｓｃｅｎｅｃｏｄｉｎｇ）」、第１２３回ＡＥＳ会議、２００７年１０月５日〜８日Ｊｏｔ他著、「マルチチャネルサラウンドフォーマット変換及び汎用アップミックス（Ｍｕｌｔｉｃｈａｎｎｅｌｓｕｒｒｏｕｎｄｆｏｒｍａｔｃｏｎｖｅｒｓｉｏｎａｎｄｇｅｎｅｒａｌｉｚｅｄｕｐｍｉｘ）」、第３０回ＡＥＳ国際会議、２００７年３月１５日〜１７日

娯楽及び通信における空間オーディオ再生の関心及び利用がますます高まっていることを考えると、当業では、改善された３次元オーディオサウンドトラック符号化方法及び関連する空間オーディオシーン再生技術が必要とされている。

本発明は、空間オーディオサウンドトラックを作成し、符号化し、送信し、復号して再生するための新規のエンドツーエンドソリューションを提供するものである。提供するサウンドトラック符号化フォーマットは、レガシーなサラウンドサウンド符号化フォーマットとの互換性を有し、この新たなフォーマットで符号化されたサウンドトラックを、レガシーフォーマットに比べて音質を損なうことなくレガシー再生機器で復号して再生できるようにする。本発明では、サウンドトラックデータストリームが、後方互換性のあるミックス、及びこの後方互換性のあるミックスからデコーダが除去できる追加のオーディオチャネルを含む。本発明では、あらゆる目標空間オーディオフォーマットでサウンドトラックを再生することができる。符号化段階で目標空間オーディオフォーマットを指定する必要はなく、この目標空間オーディオフォーマットは、後方互換性のあるミックスのレガシーな空間オーディオフォーマットに依存しない。各追加のオーディオチャネルは、デコーダによりオブジェクトオーディオデータとして解釈され、サウンドトラック内におけるオーディオオブジェクトの寄与を知覚的に記述する、サウンドトラックデータストリーム内で送信されるオブジェクトレンダーキューに、目標空間オーディオフォーマットに関わりなく関連付けられる。

本発明では、サウンドトラックの製作者が、サウンドトラックの配信及び再生条件（記憶又は送信データレート、再生装置の能力及び再生システムの構成）によってのみ制約される、（今日存在する又は将来開発される）あらゆる目標空間オーディオフォーマットで最大限可能な忠実度でレンダリングされる１又はそれ以上の選択的なオーディオオブジェクトを定義することができる。提供するサウンドトラック符号化フォーマットは、柔軟性の高いオブジェクトベースの３次元オーディオ再生に加え、ＮＨＫ２２．２フォーマットなどの高解像度マルチチャネルオーディオフォーマットで生成されるサウンドトラックの妥協しない後方互換性及び前方互換性のある符号化を可能にする。

本発明の１つの実施形態では、オーディオサウンドトラックの符号化方法を提供する。この方法は、物理的な音を表すベースミックス信号と、各々がオーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームとを受け取ることによって開始する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームを利用して、オーディオオブジェクト成分をベースミックス信号に合成することにより、ダウンミックス信号を取得する。次に、この方法は、ダウンミックス信号、オブジェクトオーディオ信号、レンダーキューストリーム及びオブジェクトキューストリームを多重化して、サウンドトラックデータストリームを形成する。オブジェクトオーディオ信号は、ダウンミックス信号を出力する前に第１のオーディオ符号化プロセッサにより符号化することができる。オブジェクトオーディオ信号は、第１のオーディオ復号プロセッサにより復号することができる。ダウンミックス信号は、多重化される前に第２のオーディオ符号化プロセッサにより符号化することができる。第２のオーディオ符号化プロセッサは、不可逆的デジタル符号化プロセッサとすることができる。

本発明の別の実施形態では、物理的な音を表すオーディオサウンドトラックの復号方法を提供する。この方法は、オーディオシーンを表すダウンミックス信号と、オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームとを有するサウンドトラックデータストリームを受け取ることによって開始する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームを利用して、ダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得する。次に、この方法は、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、少なくとも１つのオブジェクトレンダリング信号を導出する。最後に、この方法は、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得する。オーディオオブジェクト成分は、ダウンミックス信号から減算することができる。オーディオオブジェクト成分は、ダウンミックス信号内でオーディオオブジェクト成分を知覚できないようにダウンミックス信号から部分的に除去することができる。ダウンミックス信号は、符号化オーディオ信号とすることができる。ダウンミックス信号は、オーディオデコーダにより復号することができる。オブジェクトオーディオ信号は、モノラルオーディオ信号とすることができる。オブジェクトオーディオ信号は、少なくとも２チャネルを有するマルチチャネルオーディオ信号とすることができる。オブジェクトオーディオ信号は、離散的スピーカフィードオーディオチャネルとすることができる。オーディオオブジェクト成分は、オーディオシーンの声、楽器、音響効果、又は他のいずれかの特徴とすることができる。空間オーディオフォーマットは、リスニング環境を表すことができる。

本発明の別の実施形態では、オーディオ符号化プロセッサを提供し、この符号化プロセッサは、物理的な音を表すベースミックス信号と、各々がオーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームとを受け取るための受信機プロセッサを含む。符号化プロセッサは、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームに基づいてオーディオオブジェクト成分をベースミックス信号と合成し、ダウンミックス信号を出力するための合成プロセッサをさらに含む。符号化プロセッサは、ダウンミックス信号、オブジェクトオーディオ信号、レンダーキューストリーム及びオブジェクトキューストリームを多重化してサウンドトラックデータストリームを形成するためのマルチプレクサプロセッサをさらに含む。本発明の別の実施形態では、オーディオ復号プロセッサを提供し、このオーディオ復号プロセッサは、オーディオシーンを表すダウンミックス信号と、オーディオシーンの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームとを受け取るための受信プロセッサを含む。

オーディオ復号プロセッサは、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームに基づいてダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去し、残留ダウンミックス信号を出力するためのオブジェクトオーディオプロセッサをさらに含む。オーディオ復号プロセッサは、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するための空間フォーマット変換器をさらに含む。オーディオ復号プロセッサは、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを処理して少なくとも１つのオブジェクトレンダリング信号を導出するためのレンダリングプロセッサをさらに含む。オーディオ復号プロセッサは、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するための合成プロセッサをさらに含む。

本発明の別の実施形態では、物理的な音を表すオーディオサウンドトラックの別の復号方法を提供する。この方法は、オーディオシーンを表すダウンミックス信号と、オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームとを有するサウンドトラックデータストリームを受け取るステップと、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、ダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、少なくとも１つのオブジェクトレンダリング信号を導出するステップと、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップとを含む。

本明細書に開示する様々な実施形態のこれらの及びその他の特徴及び利点は、以下の説明及び全体を通じて同じ番号が同じ部分を示す図面に関してより良く理解されるであろう。

空間的録音物の録音及び再生のための先行技術によるオーディオ処理システムを示すブロック図である。先行技術による標準的な「５．１」サラウンドサウンドマルチチャネルスピーカの配置構成を示す概略上面図である。先行技術による「ＮＨＫ２２．２」３次元マルチチャネルスピーカの配置構成を示す概略図である。先行技術による、空間オーディオ符号化、空間オーディオシーン符号化及び空間オーディオオブジェクト符号化システムの動作を示すブロック図である。本発明の１つの態様によるエンコーダのブロック図である。エンコーダの１つの態様による、オーディオオブジェクト包含を実行する処理ブロックのブロック図である。エンコーダの１つの態様によるオーディオオブジェクトレンダラのブロック図である。本発明の１つの態様によるデコーダのブロック図である。デコーダの１つの態様による、オーディオオブジェクト除去を実行する処理ブロックのブロック図である。デコーダの１つの態様によるオーディオオブジェクトレンダラのブロック図である。デコーダの１つの実施形態によるフォーマット変換方法を示す概略図である。デコーダの１つの実施形態によるフォーマット変換方法を示すブロック図である。

添付図面に関連して以下に示す詳細な説明は、現在のところ好ましい本発明の実施形態の説明として意図するものであり、本発明を構築又は利用できる唯一の形態を表すことを意図するものではない。この説明では、本発明を展開して動作させるための機能及びステップシーケンスを、例示の実施形態に関連して示す。しかしながら、異なる実施形態によって同じ又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本発明の思想及び範囲に含まれることが意図されていると理解されたい。さらに、第１の、及び第２のなどの関係語の使用については、あるエンティティを別のエンティティと区別するために使用しているにすぎず、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とするものではないと理解されたい。

一般的定義
本発明は、いわゆる物理的な音を表す信号であるオーディオ信号の処理に関する。これらの信号は、デジタル電子信号によって表される。以下の説明では、概念を示すためにアナログ波形について図示又は説明することがあるが、本発明の典型的な実施形態は、アナログ信号又は（最終的には）物理的な音の離散近似を形成する時系列的なデジタルバイト又はワードとの関連において動作すると理解されたい。この離散的なデジタル信号は、周期的にサンプリングしたオーディオ波形のデジタル表現に対応する。当業で周知のように、均一なサンプリングのためには、関心のある周波数のナイキストのサンプリング定理を少なくとも満たすのに十分な速度で波形をサンプリングしなければならない。例えば、典型的な実施形態では、約４４１００サンプル／秒の均一なサンプリングレートを使用することができる。或いは、９６ｋｈｚなどの高サンプリングレートを使用することもできる。当業で周知の原理に従い、特定の用途の要件を満たすように定量化スキーム及びビット解像度を選択すべきである。通常、本発明の技術及び装置は、複数のチャネルにおいて互いに依存し合って適用される。例えば、本発明の技術及び装置は、（２つよりも多くのチャネルを有する）「サラウンド」オーディオシステムとの関連において使用することができる。

本明細書で使用する「デジタルオーディオ信号」又は「オーディオ信号」は、単なる数学的抽象概念を表すものではなく、機械又は装置により検出できる、物理媒体内に具体化される又は物理媒体によって運ばれる情報を示す。この用語は、録音信号又は送信信号を含み、限定するわけではないがパルスコード変調（ＰＣＭ）を含むあらゆる形の符号化による搬送を含むと理解されたい。出力オーディオ信号又は入力オーディオ信号、或いは当然ながら中間オーディオ信号は、ＭＰＥＧ、ＡＴＲＡＣ、ＡＣ３、又は米国特許第５，９７４，３８０号、５，９７８，７６２号及び６，４８７，５３５号に記載されるＤＴＳ社専用の方法を含む様々な既知の方法のいずれかによって符号化又は圧縮することができる。当業者には明らかなように、この特定の圧縮又は符号化方法に対応するには、何らかの計算の修正が必要になることがある。

本発明を、オーディオコーデックとして説明する。ソフトウェアでは、オーディオコーデックは、所与のオーディオファイルフォーマット又はストリーミングオーディオフォーマットに従ってデジタルオーディオデータをフォーマットするコンピュータプログラムである。ほとんどのコーデックは、ＱｕｉｃｋＴｉｍｅＰｌａｙｅｒ、ＸＭＭＳ、Ｗｉｎａｍｐ、ＷｉｎｄｏｗｓＭｅｄｉａＰｌａｙｅｒ又はＰｒｏＬｏｇｉｃなどの１又はそれ以上のマルチメディアプレーヤにインターフェイスで接続するライブラリとして実装される。ハードウェアでは、オーディオコーデックは、アナログオーディオをデジタル信号として符号化し、逆にデジタルをアナログに復号する単一の又は複数の装置を示す。換言すれば、オーディオコーデックは、同じクロックから外れて動作するＡＤＣ及びＤＡＣを両方とも含む。

オーディオコーデックは、ＤＶＤ又はＢＤプレーヤ、ＴＶチューナ、ＣＤプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ／ビデオ装置、ゲーム機又は携帯電話機などの消費者向け電子装置に実装することができる。消費者向け電子装置は、中央処理装置（ＣＰＵ）を含み、このＣＰＵは、ＩＢＭＰｏｗｅｒＰＣ、ＩｎｔｅｌＰｅｎｔｉｕｍ（ｘ８６）プロセッサなどの１又はそれ以上の従来のタイプのこのようなプロセッサを表すことができる。ＣＰＵが行ったデータ処理動作の結果は、通常は専用メモリチャネルを介してＣＰＵに相互接続されるランダムアクセスメモリ（ＲＡＭ）に一時的に記憶される。消費者向け電子装置は、ｉ／ｏバスを介してやはりＣＰＵと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブなどの他のタイプの記憶装置を接続することもできる。ＣＰＵには、表示データを表す信号をディスプレイモニタに送信するグラフィクスカードもビデオバスを介して接続される。オーディオ再生システムには、ＵＳＢポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することもできる。ＵＳＢポートに接続されたこれらの外部周辺装置のために、ＵＳＢコントローラが、ＣＰＵへの及びＣＰＵからのデータ及び命令を翻訳する。消費者向け電子装置には、プリンタ、マイク及びスピーカなどの追加装置を接続することもできる。

消費者向け電子装置は、ワシントン州レドモンドのＭｉｃｒｏｓｏｆｔ社から提供されているＷＩＮＤＯＷＳ、カリフォルニア州クパチーノのＡｐｐｌｅ社から提供されているＭＡＣＯＳ、Ａｎｄｒｏｉｄなどのモバイルオペレーティングシステム向けに設計された様々なバージョンのモバイルＧＵＩなどのグラフィックユーザインターフェイス（ＧＵＩ）を有するオペレーティングシステムを利用することができる。消費者向け電子装置は、１又はそれ以上のコンピュータプログラムを実行することができる。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び／又は着脱式データ記憶装置の１又はそれ以上などのコンピュータ可読媒体内に有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもＣＰＵによる実行のために上述のデータ記憶装置からＲＡＭにロードすることができる。コンピュータプログラムは、ＣＰＵに読み込まれ実行された時に、本発明のステップ又は機能を実行するためのステップをＣＰＵに行わせる命令を含むことができる。

オーディオコーデックは、多くの異なる構成及びアーキテクチャを有することができる。このような構成又はアーキテクチャは、いずれも本発明の範囲から逸脱することなく容易に代用とすることができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に利用されているが、本発明の範囲から逸脱することなく代用できる既存のシーケンスは他にも存在すると認識するであろう。

オーディオコーデックの１つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせにより実装することができる。ハードウェアとして実装する場合、オーディオコーデックを１つのオーディオ信号プロセッサ上で使用してもよく、又は様々な処理要素に分散してもよい。ソフトウェア内に実装する場合、基本的に、本発明の実施形態の要素は、必要なタスクを行うためのコードセグメントとなる。ソフトウェアは、本発明の１つの実施形態で説明する動作を実行するための実際のコード、或いは動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントは、プロセッサ又は機械アクセス可能媒体に記憶することも、或いは搬送波内で具体化されたコンピュータデータ信号又は搬送体により変調された信号により、伝送媒体を介して送信することもできる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報を記憶、送信、又は転送できるあらゆる媒体を含むことができる。

プロセッサ可読媒体の例には、電子回路、半導体メモリ素子、リードオンリメモリ（ＲＯＭ）、フラッシュメモリ、消去可能ＲＯＭ、フロッピディスケット、コンパクトディスク（ＣＤ）ＲＯＭ、光ディスク、ハードディスク、光ファイバメディア、高周波（ＲＦ）リンクなどがある。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、ＲＦリンクなどの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネットなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内で具体化することができる。機械アクセス可能媒体は、機械によってアクセスされた時に、以下で説明する動作を機械に実行させるデータを含むことができる。ここでは、「データ」という用語は、機械が読み取れるように符号化されたあらゆる種類の情報を意味する。従って、このデータは、プログラム、コード、データ、ファイルなどを含むことができる。

本発明の実施形態の全部又は一部を、ソフトウェアによって実装することもできる。ソフトウェアは、互いに結合された複数のモジュールを有することができる。１つのソフトウェアモジュールは、別のモジュールに結合されて、変数、パラメータ、引数、ポインタなどを受け取り、及び／又は結果、最新の変数、ポインタなどを生成し又は受け渡す。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスであってもよい。ソフトウェアモジュールは、データを構成し、設定し、初期化し、ハードウェア装置との間で送受信するためのハードウェアドライバであってもよい。

本発明の１つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することがあるが、これらの動作の多くは、平行して又は同時に行うことができる。また、動作の順序を並べ替えることもできる。プロセスは、その動作が完了した時に終了する。プロセスは、方法、プログラム、手順などに対応することができる。

エンコーダの概要
ここで図１を参照すると、エンコーダの実装を示す概略図を示している。図１には、本発明による、サウンドトラックを符号化するためのエンコーダを示している。このエンコーダは、選択された空間オーディオフォーマットで録音された、ダウンミックス信号３０の形の録音サウンドトラックを含むサウンドトラックデータストリーム４０を生成する。以下の説明では、この空間オーディオフォーマットをダウンミックスフォーマットと呼ぶ。エンコーダの好ましい実施形態では、このダウンミックスフォーマットが、レガシーな消費者デコーダとの互換性があるサラウンドサウンドフォーマットであり、ダウンミックス信号３０がデジタルオーディオエンコーダ３２によって符号化されることにより、符号化ダウンミックス信号３４が生成される。エンコーダ３２の好ましい実施形態は、ＤＴＳ社が提供するＤＴＳデジタルサラウンド又はＤＴＳ−ＨＤなどの後方互換性のあるマルチチャネルデジタルオーディオエンコーダである。

また、サウンドトラックデータストリーム４０は、少なくとも１つのオーディオオブジェクト（本説明及び添付図では「オブジェクト１」と呼ぶ）を含む。以下の説明では、オーディオオブジェクトを、サウンドトラックのオーディオ成分として一般的に定義する。オーディオオブジェクトは、サウンドトラック内で聞こえる区別可能な音源（声、楽器、音響効果など）を表すことができる。各オーディオオブジェクトは、以下ではオブジェクトオーディオ信号と呼ぶ、サウンドトラックデータ内の一意の識別子を有するオーディオ信号（１２ａ、１２ｂ）により特徴付けられる。エンコーダは、このオブジェクトオーディオ信号に加え、ダウンミックスフォーマットで提供されるマルチチャネルベースミックス信号１０を任意に受け取る。このベースミックスは、例えば、バックグラウンドミュージック、録音アンビエンス、或いは録音又は合成したサウンドシーンを表すことができる。

ダウンミックス信号３０内における全てのオーディオオブジェクトの寄与は、オブジェクトミックスキュー１６により定義され、（以下でさらに詳細に説明する）オーディオオブジェクト包含処理ブロック２４によりベースミックス信号１０と共に合成される。エンコーダは、オブジェクトミックスキュー１６に加え、オブジェクトレンダーキュー１８を受け取り、これをオブジェクトミックスキュー１６と共にキューエンコーダ３６を介してサウンドトラックデータストリーム４０に含める。このレンダーキュー１８は、（以下で説明する）相補的デコーダが、ダウンミックスフォーマットとは異なる目標空間オーディオフォーマットでオーディオオブジェクトをレンダリングできるようにする。本発明の好ましい実施形態では、レンダーキュー１８がフォーマット非依存型であることにより、デコーダが、あらゆる目標空間オーディオフォーマットでサウンドトラックをレンダリングするようになる。本発明の１つの実施形態では、オブジェクトオーディオ信号（１２ａ、１２ｂ）、オブジェクトミックスキュー１６、オブジェクトレンダーキュー１８及びベースミックス１０が、サウンドトラックの生成中にオペレータにより提供される。

各オブジェクトオーディオ信号（１２ａ、１２ｂ）は、モノラル又はマルチチャネル信号として提示することができる。好ましい実施形態では、符号化サウンドトラック４０の送信又は記憶に必要なデータレートを低減するために、オブジェクトオーディオ信号（１２ａ、１２ｂ）及びダウンミックス信号３０をサウンドトラックデータストリーム４０に含める前に、これらの一部又は全部を低ビットレートオーディオエンコーダ（２０ａ〜２０ｂ、３２）により符号化する。好ましい実施形態では、不可逆低ビットレートデジタルオーディオエンコーダ（２０ａ）を介して送信されたオブジェクトオーディオ信号（１２ａ〜１２ｂ）を、オーディオオブジェクト包含処理ブロック２４によって処理する前に、相補型デコーダ（２２ａ）により続けて復号する。これにより、デコーダ側でダウンミックスからオブジェクトの寄与を正確に除去できるようになる（以下で説明する）。

次に、ブロック４２により、符号化オーディオ信号（２２ａ〜２２ｂ、３４）及び符号化キュー３８を多重化して、サウンドトラックデータストリーム４０を形成する。マルチプレクサ４２は、デジタルデータストリーム（２２ａ〜２２ｂ、３４、３８）を、共有媒体を介して送信又は記憶するために単一のデータストリーム４０に合成する。多重化データストリーム４０は、物理送信媒体とすることができる通信チャネルを介して送信される。この多重化により、低レベル通信チャネルの容量が、転送すべきデータストリーム毎に１つの複数の高レベル論理チャネルに分割される。デコーダ側では、逆多重化として知られている可逆処理によって元々のデータストリームを抽出することができる。

オーディオオブジェクト包含
図２に、本発明の好ましい実施形態によるオーディオオブジェクト包含処理モジュールを示す。オーディオオブジェクト包含モジュール２４は、オブジェクトオーディオ信号２６ａ〜２６ｂ及びオブジェクトミックスキュー１６を受け取ってこれらをオーディオオブジェクトレンダラ４４に送信し、このオーディオオブジェクトレンダラ４４が、これらのオーディオオブジェクトを合成してオーディオオブジェクトダウンミックス信号４６に変換する。オーディオオブジェクトダウンミックス信号４６は、ダウンミックスフォーマットで提供され、ベースミックス信号１０と合成されてサウンドトラックダウンミックス信号３０が生成される。各オブジェクトオーディオ信号２６ａ〜２６ｂは、モノラル又はマルチチャネル信号として提示することができる。本発明の１つの実施形態では、マルチチャネルオブジェクト信号が、複数の単一チャネルオブジェクト信号として処理される。

図３に、本発明の実施形態によるオーディオオブジェクトレンダラモジュールを示す。オーディオオブジェクトレンダラモジュール４４は、オブジェクトオーディオ信号２６ａ〜２６ｂ及びオブジェクトミックスキュー１６を受け取ってオブジェクトダウンミックス信号４６を導出する。オーディオオブジェクトレンダラ４４は、オブジェクトオーディオ信号２６ａ〜２６ｂの各々をミキシングしてオーディオオブジェクトダウンミックス信号４６に変換するために、例えば（Ｊｏｔ、１９９７）に記載されている当業で周知の原理に従って動作する。このミキシング動作は、ミックスキュー１６により与えられる命令に従って行われる。各オブジェクトオーディオ信号（２６ａ、２６ｂ）は、オブジェクトダウンミックス信号４６を聞いた時に知覚される方向性定位をオーディオオブジェクトに割り当てる空間パニングモジュール（４８ａ、４８ｂ）によって（それぞれ）処理される。ダウンミックス信号４６は、オブジェクト信号パニングモジュール４８ａ〜４８ｂの出力信号を付加的に合成することにより形成される。レンダラの好ましい実施形態では、サウンドトラック内の各オーディオオブジェクトの相対的ラウドネスを制御するために、（図３にｄ₁〜ｄ_nで示す）直接送信係数により、ダウンミックス信号４６内の各オブジェクトオーディオ信号２６ａ〜２６ｂの直接的寄与もスケール調整される。

レンダラの１つの実施形態では、オブジェクトを空間的に広がった音源としてレンダリングすること、パニングモジュールの出力信号を聞いた時に知覚される制御可能な音心方向及び制御可能な空間的広がりを有することを可能にするために、オブジェクトパニングモジュール（４８ａ）が構成される。当業では、空間的に広がったソースの再生方法が周知であり、例えば、第１２１回ＡＥＳ会議２００６年１０月５日〜８日において示された、Ｊｏｔ、Ｊｅａｎ−Ｍａｒｃ他著、「インタラクティブオーディオのための複雑な音響シーンのバイノーラルシミュレーション（ＢｉｎａｕｒａｌＳｉｍｕｌａｔｉｏｎｏｆＣｏｍｐｌｅｘＡｃｏｕｓｉｔｃＳｃｅｎｅｓｆｏｒＩｎｔｅｒａｃｔｉｖｅＡｕｄｉｏ）」［以下（Ｊｏｔ、２００６）］に記載されており、この文献は引用により本明細書に組み入れられる。オーディオオブジェクトに関連する空間的広がりは、空間的に広がった音源（すなわち、リスナを取り囲む音源）の感覚を再生するように設定することができる。

任意に、オーディオオブジェクトレンダラ４４は、１又はそれ以上のオーディオオブジェクトの間接的オーディオオブジェクト寄与を生成するように構成される。この構成では、ダウンミックス信号４６が、空間残響モジュールの出力信号も含む。オーディオオブジェクトレンダラ４４の好ましい実施形態では、空間残響モジュールが、人工残響付加装置５０の出力信号５２に空間パニングモジュール５４を適用することにより形成される。パニングモジュール５４は、信号５２をダウンミックスフォーマットに変換する一方で、任意にオーディオ残響出力信号５２に、ダウンミックス信号３０を聞いた時に知覚される方向的強調を与える。当業では、従来の人工残響付加装置５０及び残響パニングモジュール５４の設計方法が周知であり、本発明ではこれを利用することができる。或いは、処理モジュール（５０）を、（エコー効果、フランジャー効果、又はリング変調器効果などの）一般に録音の再生に使用される別のタイプのデジタルオーディオ処理効果アルゴリズムとしてもよい。モジュール５０は、各々が（図３にｒ₁〜ｒ_nで示す）間接的送信係数によりスケール調整されたオブジェクトオーディオ信号２６ａ〜２６ｂを合成したものを受け取る。

また、当業では、各オーディオオブジェクトにより表される仮想音源の方向性及び配向の可聴効果、及び仮想オーディオシーン内の音響障害及び分離の効果をシミュレートするために、直接送信係数ｄ₁〜ｄ_n及び間接送信係数ｒ₁〜ｒ_nをデジタルフィルタとして実現することが周知である。これについては、（Ｊｏｔ、２００６）にさらに記載されている。本発明の１つの実施形態では、複雑な音響環境をシミュレートするために、図３には示していないが、オブジェクトオーディオレンダラ４４が、並列的に結び付いてオブジェクトオーディオ信号の異なる組み合わせにより供給される複数の空間残響モジュールを含む。

オーディオオブジェクトレンダラ４４内の信号処理動作は、ミックスキュー１６により与えられる命令に従って行われる。ミックスキュー１６の例としては、各オブジェクトオーディオ信号２６ａ〜２６ｂの、ダウンミックス信号３０の各チャネル内への寄与を記述する、パニングモジュール４８ａ〜４８ｂにおいて適用される混合係数を挙げることができる。より一般的には、オブジェクトミックスキューデータストリーム１６は、オーディオオブジェクトレンダラ４４によって行われる全ての信号処理動作を一意に特定する制御パラメータセットの時変値を搬送する。

デコーダの概要
ここで図４を参照すると、本発明の実施形態によるデコーダ処理を示している。このデコーダは、符号化サウンドトラックデータストリーム４０を入力として受け取る。デマルチプレクサ５６は、符号化ダウンミックス信号３４、符号化オブジェクトオーディオ信号１４ａ〜１４ｃ、及び符号化キューストリーム３８ｄを回復するために、符号化入力４０を分離する。各符号化信号及び／又はストリームは、図１に関連して説明した、サウンドトラックデータストリーム４０を生成するために使用するサウンドトラックエンコーダ内の対応する信号及び／又はストリームを符号化するために使用するエンコーダを補完するデコーダ（それぞれ、５８、６２ａ〜６２ｃ及び６４）により復号される。

復号ダウンミックス信号６０、オブジェクトオーディオ信号２６ａ〜２６ｃ及びオブジェクトミックスキューストリーム１６ｄが、オーディオオブジェクト除去モジュール６６に提供される。信号６０及び２６ａ〜２６ｃは、ミキシング及びフィルタリング動作を可能にするあらゆる形で表される。例えば、特定の用途にとって十分なビット深度の線形ＰＣＭを好適に使用することができる。オーディオオブジェクト除去モジュール６６は、オーディオオブジェクトの寄与が正確に、部分的に又は十分に除去された残留ダウンミックス信号６８を生成する。残留ダウンミックス信号６８はフォーマット変換器７８に提供され、このフォーマット変換器７８は、目標空間オーディオフォーマットで再生するのに適した変換済み残留ダウンミックス信号８０を生成する。

また、復号オブジェクトオーディオ信号２６ａ〜２６ｃ及びオブジェクトレンダーキューストリーム１８ｄは、オーディオオブジェクトレンダラ７０に提供され、このオーディオオブジェクトレンダラ７０は、オーディオオブジェクトの寄与を目標空間オーディオフォーマットで再生するのに適したオブジェクトレンダリング信号７６を生成する。目標空間オーディオフォーマットでのサウンドトラックレンダリング信号８４を生成するために、オブジェクトレンダリング信号７６と変換済み残留ダウンミックス信号８０を合成する。本発明の１つの実施形態では、出力事後処理モジュール８６が、サウンドトラックレンダリング信号８４に任意の事後処理を適用する。本発明の１つの実施形態では、モジュール８６が、周波数応答の補正、ラウドネス又はダイナミックレンジの補正、又は追加の空間オーディオフォーマット変換などの、オーディオ再生システムにおいて一般に適用可能な事後処理を含む。

当業者であれば、復号ダウンミックス信号６０をフォーマット変換器７８に直接送信し、オーディオオブジェクト除去６６及びオーディオオブジェクトレンダラ７０を省くことにより、目標空間オーディオフォーマットとの互換性があるサウンドトラック再生を達成できると容易に理解するであろう。別の実施形態では、フォーマット変換器７８が省かれ、又は事後処理モジュール８０に含まれる。ダウンミックスフォーマットと目標空間オーディオフォーマットが同等と見なされ、オーディオオブジェクトレンダラ７０がデコーダ側におけるユーザインタラクションのためだけに採用される場合、このような異形の実施形態が適している。

ダウンミックスフォーマットと目標空間オーディオフォーマットが同等でない本発明の用途では、オーディオオブジェクトレンダラ７０が、オーディオオブジェクトの寄与を目標空間フォーマットで直接レンダリングして、レンダラ７０内でオーディオ再生システムの特定の構成に一致するオブジェクトレンダリング方法を採用することにより、オーディオオブジェクトの寄与を最適な忠実度及び空間精度で再生できるようにすることが特に有利である。この場合、既にオブジェクトレンダリングが目標空間オーディオフォーマットで行われているので、ダウンミックス信号をオブジェクトレンダリング信号７６と合成する前に、残留ダウンミックス信号６８にフォーマット変換７８が適用される。

従来のオブジェクトベースのシーン符号化と同様に、サウンドトラック内の可聴イベントの全てが、レンダーキュー１８ｄを伴うオブジェクトオーディオ信号１４ａ〜１４ｃの形でデコーダに提供される場合、サウンドトラックを目標空間オーディオフォーマットでレンダリングするために、ダウンミックス信号３４及びオーディオオブジェクト除去６６を設ける必要はない。サウンドトラックデータストリームに符号化ダウンミックス信号３４を含める格別の利点は、サウンドトラックデータストリーム内に与えられるオブジェクト信号及びキューを廃棄又は無視するレガシーなサウンドトラックデコーダを使用した後方互換性のある再生が可能になる点である。

さらに、デコーダにオーディオオブジェクト除去機能を組み込む格別の利点は、オーディオオブジェクト除去ステップ６６により、サウンドトラックを構成する全ての可聴イベントが再生される一方で、可聴イベントの選択部分のみがオーディオオブジェクトとして送信され、除去され、レンダリングされることにより、送信データレート及びデコーダの複雑性要件を大幅に低減できる点である。（図４には示していない）本発明の別の実施形態では、オーディオオブジェクトレンダラ７０に送信されるオブジェクトオーディオ信号の１つ（２６ａ）が、一定期間にわたってダウンミックス信号６０のオーディオチャネル信号に等しい。この場合、この同じ期間にわたり、このオブジェクトのためのオーディオオブジェクト除去動作６６は、単にダウンミックス信号６０内のオーディオチャネル信号をミュートすることで構成され、オブジェクトオーディオ信号１４ａを受け取って復号する必要はない。これにより、送信データレート及びデコーダの複雑性がさらに低減される。

好ましい実施形態では、送信データレート又はサウンドトラック再生装置の計算能力に制限がある場合、デコーダ側（図４）で復号されレンダリングされたオブジェクトオーディオ信号セット１４ａ〜１４ｃが、エンコーダ側（図１）で符号化されたオブジェクトオーディオ信号セット１４ａ〜１４ｂの不完全部分になる。マルチプレクサ４２において１又はそれ以上のオブジェクトを廃棄する（これにより送信データレートを低減する）こと、及び／又はデマルチプレクサ５６において１又はそれ以上のオブジェクトを廃棄する（これによりデコーダの計算要件を低減する）こともできる。任意に、送信及び／又はレンダリングのためのオブジェクト選択を、キューデータストリーム３８／３８ｄに含まれる優先キューを各オブジェクトに割り当てる優先順位決定スキームによって自動的に決定することもできる。

オーディオオブジェクト除去
ここで図４及び図５を参照すると、本発明の実施形態によるオーディオオブジェクト除去処理モジュールを示している。オーディオオブジェクト除去処理モジュール６６は、レンダリングされるように選択されたオブジェクトセットに対し、エンコーダ内に設けられたオーディオオブジェクト包含モジュールの可逆的動作を行う。このモジュールは、オブジェクトオーディオ信号２６ａ〜２６ｃ及び関連するオブジェクトミックスキュー１６ｄを受け取り、これらをオーディオオブジェクトレンダラ４４ｄに送信する。オーディオオブジェクトレンダラ４４ｄは、レンダリングされるように選択されたオブジェクトセットに対し、図３に関連して既に説明した符号化側に設けられるオーディオオブジェクトレンダラ４４内で行われる信号処理動作を再現する。オーディオオブジェクトレンダラ４４ｄは、これらの選択されたオーディオオブジェクトを合成してオーディオオブジェクトダウンミックス信号４６ｄに変換し、これをダウンミックスフォーマットで供給し、ダウンミックス信号６０から減算して残留ダウンミックス信号６８を生成する。任意に、このオーディオオブジェクト除去は、オーディオオブジェクトレンダラ４４ｄにより供給される残響出力信号５２ｄも出力する。

オーディオオブジェクト除去は、正確な減算である必要はない。オーディオオブジェクト除去６６の目的は、残留ダウンミックス信号６８を聞いている時にこれらの選択されたオブジェクトセットが実質的に又は知覚的に認識されないようにすることである。従って、ダウンミックス信号６０を可逆的デジタルオーディオフォーマットで符号化する必要はない。不可逆的デジタルオーディオフォーマットを使用してダウンミックス信号６０を符号化及び復号する場合、復号ダウンミックス信号６０からオーディオオブジェクトダウンミックス信号４６ｄを算術的に減算することにより、残留ダウンミックス信号６８からオーディオオブジェクトの寄与を厳密に排除できないことがある。しかしながら、その後にオブジェクトレンダリング信号７６を合成してサウンドトラックレンダリング信号８４に変換する結果、この残留ダウンミックス信号６８は実質的にマスキングされるので、サウンドトラックレンダリング信号８４を聞いている時に、実質的にこのエラーに気付くことはない。

従って、本発明によるデコーダの実現により、不可逆的オーディオデコーダ技術を使用したダウンミックス信号３４の復号が不可能になることはない。ダウンミックス信号３０（図１）を符号化するために、ダウンミックスオーディオエンコーダ３２内で不可逆的デジタルオーディオオーデック技術を採用することにより、サウンドトラックデータを送信するために必要なデータレートが大幅に低減されることが有利である。サウンドトラックデータを可逆的フォーマット（例えば、高精細度又は可逆的ＤＴＳ−ＨＤフォーマットで送信されるダウンミックス信号データストリームのＤＴＳコア復号）で送信する場合でも、ダウンミックス信号３４の不可逆的復号を行うことにより、ダウンミックスオーディオデコーダ５８の複雑性が低減されることがさらに有利である。

オーディオオブジェクトレンダリング
図６に、オーディオオブジェクトレンダラモジュール７０の好ましい実施形態を示す。オーディオオブジェクトレンダラモジュール７０は、オブジェクトオーディオ信号２６ａ〜２６ｃ及びオブジェクトレンダーキュー１８ｄを受け取ってオブジェクトレンダリング信号７６を導出する。オーディオオブジェクトレンダラ７０は、オブジェクトオーディオ信号２６ａ〜２６ｃの各々をミキシングしてオーディオオブジェクトレンダリング信号７６に変換するために、図３に示すオーディオオブジェクトレンダラ４４に関連して既に説明した当業で周知の原理に従って動作する。各オブジェクトオーディオ信号（２６ａ、２６ｃ）は、オブジェクトレンダリング信号７６を聞いた時に知覚される方向性定位をオーディオオブジェクトに割り当てる空間パニングモジュール（９０ａ、９０ｃ）によって処理される。オブジェクトレンダリング信号７６は、パニングモジュール９０ａ〜９０ｃの出力信号を付加的に合成することにより形成される。オブジェクトレンダリング信号７６内における各オブジェクトオーディオ信号（２６ａ、２６ｃ）の直接的な寄与は、直接送信係数（ｄ₁、ｄ_m）によりスケール調整される。また、オブジェクトレンダリング信号７６は、オーディオオブジェクト除去モジュール６６に含まれるオーディオオブジェクトレンダラ４４ｄにより供給される残響出力信号５２ｄを受け取る残響パニングモジュール９２の出力信号を含む。

本発明の１つの実施形態では、（図５に示すオーディオオブジェクト除去モジュール６６内の）オーディオオブジェクトレンダラ４４ｄにより生成されるオーディオオブジェクトダウンミックス信号４６ｄが、（図２に示すオーディオオブジェクト包含モジュール２４内の）オーディオオブジェクトレンダラ４４により生成されるオーディオオブジェクトダウンミックス信号４６に含まれる間接的なオーディオオブジェクトの寄与を含まない。この場合、この間接的なオーディオオブジェクトの寄与が残留ダウンミックス信号６８内に留まり、残響出力信号５２ｄは供給されない。本発明のサウンドトラックデコーダオブジェクトのこの実施形態は、オーディオオブジェクトレンダラ４４ｄにおける残響処理を必要とせずに、直接的なオブジェクトの寄与の位置的オーディオレンダリングを改善する。

オーディオオブジェクトレンダラモジュール７０内の信号処理動作は、レンダーキュー１８ｄによって与えられる命令に従って行われる。パニングモジュール（９０ａ〜９０ｃ、９２）は、目標空間オーディオフォーマット定義７４に従って構成される。本発明の好ましい実施形態では、レンダーキュー１８ｄが、フォーマット非依存型オーディオシーン記述の形で提供され、パニングモジュール（９０ａ〜９０ｃ、９２）及び送信係数（ｄ₁、ｄ_m）を含むオーディオオブジェクトレンダラモジュール７０内の全ての信号処理動作は、選択された目標空間オーディオフォーマットに関わらず、オブジェクトレンダリング信号７６が同一の知覚される空間オーディオシーンを再生するように構成される。本発明の好ましい実施形態では、このオーディオシーンが、オブジェクトダウンミックス信号４６ｄにより再生されるオーディオシーンと同じものである。このような実施形態では、レンダーキュー１８ｄを使用して、オーディオオブジェクトレンダラ４４ｄに提供されるミックスキュー１６ｄを導出又は置換すること、同様にレンダーキュー１８を使用して、オーディオオブジェクトレンダラ４４に提供されるミックスキュー１６を導出又は置換することができ、従ってオブジェクトミックスキュー（１６、１６ｄ）を提供する必要はない。

本発明の好ましい実施形態では、フォーマット非依存型オブジェクトレンダーキュー（１８、１８ｄ）が、デカルト座標又は極座標で表される絶対的な、又はオーディオシーン内のリスナの仮想的な位置及び向きに対する相対的な各オーディオオブジェクトの知覚空間位置を含む。フォーマット非依存型レンダーキューの別の例は、ＯｐｅｎＡＬ又はＭＰＥＧ−４高度オーディオＢＩＦＳなどの様々なオーディオシーン記述標準において提供される。とりわけ、これらのシーン記述標準は、送信係数（図３のｄ₁〜ｄ_n及び図５のｒ₁〜ｒ_n）の値、並びに人工残響付加装置５０及び残響パニングモジュール（５４、９２）の処理パラメータの値を一意に決定するのに十分な残響及び距離キューを含む。

本発明のデジタルオーディオサウンドトラックエンコーダ及びデコーダオブジェクトは、本来ダウンミックスフォーマットとは異なるマルチチャネルオーディオソースフォーマットで提供されていた録音の後方互換性及び前方互換性のある符号化に有利に適用することができる。ソースフォーマットは、例えば、各チャネル信号がスピーカフィード信号として意図されるＮＨＫ２２．２フォーマットなどの高解像度離散的マルチチャネルオーディオフォーマットとすることができる。このフォーマットは、元々の録音の各チャネル信号をサウンドトラックエンコーダ（図１）に対応するスピーカの正しい位置を示すオブジェクトレンダーキューを伴う別個のオブジェクトオーディオ信号としてソースフォーマットで提供することにより実現することができる。マルチチャネルオーディオソースフォーマットが（追加のオーディオチャネルを含む）ダウンミックスフォーマットの上位集合である場合、ソースフォーマットである追加のオーディオチャネルの各々を、本発明による追加のオーディオオブジェクトとして符号化することができる。

本発明による符号化及び復号方法の別の利点は、再生されたオーディオシーンの任意のオブジェクトベースの修正が可能になる点である。この修正は、オーディオオブジェクトレンダラ７０内で行われる信号処理を、オブジェクトレンダーキュー１８ｄの一部を修正又は上書きできる図６に示すユーザインタラクションキュー７２に従って制御することにより実現される。このようなユーザインタラクションの例としては、音楽リミキシング、仮想ソースリポジショニング、及びオーディオシーン内の仮想ナビゲーションが挙げられる。本発明の１つの実施形態では、キューデータストリーム３８が、（「会話」又は「音響効果」などの）音源の性質を示す、又はオーディオオブジェクトセットをグループ（まとめて操作できる複合オブジェクト）として定義する、あるオブジェクトに関連する（人物名又は楽器名などの）音源を識別する特性を含む、各オブジェクトに一意に割り当てられたオブジェクトのプロパティを含む。このようなオブジェクトのプロパティをキューストリームに含めることにより、（オーディオオブジェクトレンダラ７０内の会話オブジェクトオーディオ信号に特定の処理を適用する）会話理解度の強化などのさらなる用途が可能になる。

（図４には示していない）本発明の別の実施形態では、選択されたオブジェクトをダウンミックス信号６８から除去し、対応するオブジェクトオーディオ信号（２６ａ）を、別個に受け取られてオーディオオブジェクトレンダラ７０に供給される異なるオーディオ信号に置き換える。この実施形態は、多言語の映画サウンドトラックの再生又はカラオケ、及び他の形の音楽再演奏などの用途において有利である。さらに、オーディオオブジェクトレンダラ７０に、サウンドトラックデータストリーム４０に含まれていない追加のオーディオオブジェクトを、オブジェクトレンダーキューに関連する追加のオーディオオブジェクト信号の形で別個に提供することもできる。本発明のこの実施形態は、例えば、双方向型ゲームの用途において有利である。このような実施形態では、オーディオオブジェクトレンダラ７０が、オーディオオブジェクトレンダラ４４の説明において上述した１又はそれ以上の空間残響モジュールを組み込むことが有利である。

ダウンミックスフォーマット変換
図４に関連して上述したように、サウンドトラックレンダリング信号８４は、オブジェクトレンダリング信号７６を、残留ダウンミックス信号６８のフォーマット変換７８により取得される変換済み残留ダウンミックスミックス信号８０と合成することにより取得される。空間オーディオフォーマット変換７８は、目標空間オーディオフォーマット定義７４に従って構成され、残留ダウンミックス信号６８によって表されるオーディオシーンを目標空間オーディオフォーマットで再生するのに適した技術により実施することができる。当業で周知のフォーマット変換技術としては、マルチチャネルアップミキシング、ダウンミキシング、リマッピング又は仮想化が挙げられる。

本発明の１つの実施形態では、図７に示すように、目標空間オーディオフォーマットが、スピーカ又はヘッドホンを介した２チャネル再生であり、ダウンミックスフォーマットが、５．１サラウンドサウンドフォーマットである。フォーマット変換は、引用により本明細書に組み入れられる米国特許出願第２０１０／０３０３２４６号に記載されるような仮想オーディオ処理装置によって行われる。図７に示すアーキテクチャは、仮想スピーカから音が出ている錯覚を生じる仮想オーディオスピーカの使用をさらに含む。当業で周知のように、これらの錯覚は、スピーカから耳への音響伝達関数、又は頭部伝達関数（ＨＲＴＦ）の測定値又は近似値を考慮して、オーディオ入力信号に変圧を加えることにより達成することができる。本発明によるフォーマット変換では、このような錯覚を利用することができる。

或いは、目標空間オーディオフォーマットがスピーカ又はヘッドホンを介した２チャネル再生である図７に示す実施形態では、図８に示すような周波数領域信号処理によってフォーマット変換器を実装することができる。引用により本明細書に組み入れられる、第１２３回ＡＥＳ会議、２００７年１０月５日〜８日において示された、Ｊｏｔ他著、「空間オーディオシーン符号化に基づくバイノーラル３−Ｄオーディオレンダリング（Ｂｉｎａｕｒａｌ３−Ｄａｕｄｉｏｒｅｎｄｅｒｉｎｇｂａｓｅｄｏｎｓｐａｔｉａｌａｕｄｉｏｓｃｅｎｅｃｏｄｉｎｇ）」に記載されるように、ＳＡＳＣフレームワークに従う仮想オーディオ処理では、フォーマット変換器が、サラウンドから３Ｄフォーマットへの変換を行うことができ、変換済み残留ダウンミックス信号８０は、ヘッドホン又はスピーカを介して聞いた時に、空間オーディオシーンの３次元展開を生じ、残留ダウンミックス信号６８内の内部パンされた可聴イベントが、目標空間オーディオフォーマットでの上昇する可聴イベントとして再生される。

より一般的には、引用により本明細書に組み入れられる、第３０回ＡＥＳ国際会議、２００７年３月１５日〜１７日における、Ｊｏｔ他著、「マルチチャネルサラウンドフォーマット変換及び汎用アップミックス（Ｍｕｌｔｉｃｈａｎｎｅｌｓｕｒｒｏｕｎｄｆｏｒｍａｔｃｏｎｖｅｒｓｉｏｎａｎｄｇｅｎｅｒａｌｉｚｅｄｕｐｍｉｘ）」に記載されるように、目標空間オーディオフォーマットが２つよりも多くのオーディオチャネルを含むフォーマット変換器７８の実施形態では、周波数領域フォーマット変換処理を適用することができる。図８に、時間領域において提供される残留ダウンミックス信号６８が短時間フーリエ変換ブロックにより周波数領域表現に変換される好ましい実施形態を示す。その後、ＳＴＦＴ領域信号を周波数領域フォーマット変換ブロックに提供し、このブロックで、空間分析及び合成に基づくフォーマット変換を行い、ＳＴＦＴ領域マルチチャネル出力信号を供給し、逆短時間フーリエ変換及び重畳加算処理を通じて変換済み残留ダウンミックス信号８０を生成する。図８に示すように、周波数領域フォーマット変換ブロックには、このブロック内の受動的アップミックス、空間分析及び空間合成処理で使用するために、ダウンミックスフォーマット定義及び目標空間オーディオフォーマット定義７４が提供される。フォーマット変換を、完全に周波数領域で動作するように示しているが、当業者であれば、実施形態によっては、代わりにいくつかの要素、特に受動的アップミックスを時間領域で実施できると認識するであろう。本発明は、このような変形形態も無制限に含む。

本明細書の事項は、本発明の実施形態の一例として、及び例示的な説明を目的として示したものであり、本発明の原理及び概念的側面の最も有用かつ容易に理解される説明であると思われるものを提供するために示したものである。この点に関し、本発明の基本的な理解に必要とされる以上に本発明の事項を詳細に示そうとはしておらず、図面と共に行った説明は、本発明のいくつかの形態をいかにして実際に具体化できるかを当業者に対して明らかにするものである。

１０ベースミックス
１２ａオブジェクト１オーディオ信号
１２ｂオブジェクトｎオーディオ信号
１４ａ符号化オブジェクトオーディオ信号
１４ｂ符号化オブジェクトオーディオ信号
１６オブジェクトミックスキュー
１８オブジェクトレンダーキュー
２０ａオブジェクトオーディオ符号化
２０ｂオブジェクトオーディオ符号化
２２ａ復号
２２ｂ復号
２４オーディオオブジェクト包含
２６ａオブジェクトオーディオ信号
２６ｂオブジェクトオーディオ信号
３０ダウンミックス信号
３２ダウンミックスオーディオ符号化
３４符号化ダウンミックス信号
３６キュー符号化
３８キューデータストリーム
４０サウンドトラックデータストリーム
４２多重化

Claims

オーディオサウンドトラックの符号化方法であって、
物理的な音を表すベースミックス信号を受け取るステップと、
各々が前記オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号を受け取るステップと、
前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームを受け取るステップと、
前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームを受け取るステップと、
前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記オーディオオブジェクト成分を前記ベースミックス信号に合成することにより、ダウンミックス信号を取得する利用ステップと、
前記ダウンミックス信号、前記オブジェクトオーディオ信号、前記レンダーキューストリーム及び前記オブジェクトミックスキューストリームを多重化して、サウンドトラックデータストリームを形成するステップと、
を含むことを特徴とする方法。
前記オブジェクトオーディオ信号は、前記利用ステップの前に第１のオーディオ符号化プロセッサにより符号化される、
ことを特徴とする請求項１に記載の方法。
前記オブジェクトオーディオ信号は、前記利用ステップの前に第１のオーディオ復号プロセッサにより復号される、
ことを特徴とする請求項２に記載の方法。
前記ダウンミックス信号は、多重化される前に第２のオーディオ符号化プロセッサにより符号化される、
ことを特徴とする請求項１に記載の方法。
前記第２のオーディオ符号化プロセッサは、不可逆的デジタル符号化プロセッサである、
ことを特徴とする請求項４に記載の方法。
物理的な音を表すオーディオサウンドトラックの復号方法であって、
オーディオシーンを表すダウンミックス信号と、
前記オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、
前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、
前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームと、
を有するサウンドトラックデータストリームを受け取るステップと、
前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記ダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、
前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、
前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを利用して、少なくとも１つのオブジェクトレンダリング信号を導出するステップと、
前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップと、
を含むことを特徴とする方法。
前記オーディオオブジェクト成分は、前記ダウンミックス信号から減算される、
ことを特徴とする請求項６に記載の方法。
前記オーディオオブジェクト成分は、前記ダウンミックス信号内で前記オーディオオブジェクト成分を知覚できないように前記ダウンミックス信号から部分的に除去される、
ことを特徴とする請求項６に記載の方法。
前記ダウンミックス信号は、符号化オーディオ信号である、
ことを特徴とする請求項６に記載の方法。
前記ダウンミックス信号は、オーディオデコーダにより復号される、
ことを特徴とする請求項９に記載の方法。
前記オブジェクトオーディオ信号は、モノラルオーディオ信号である、
ことを特徴とする請求項６に記載の方法。
前記オブジェクトオーディオ信号は、少なくとも２チャネルを有するマルチチャネルオーディオ信号である、
ことを特徴とする請求項６に記載の方法。
前記オブジェクトオーディオ信号のそれぞれは、スピーカへの入力である離散的オーディオチャネルである、
ことを特徴とする請求項６に記載の方法。
前記オーディオオブジェクト成分は、前記オーディオシーンの声、楽器又は音響効果である、
ことを特徴とする請求項６に記載の方法。
前記空間オーディオフォーマットは、リスニング環境を表す、
ことを特徴とする請求項６に記載の方法。
オーディオ符号化プロセッサであって、
物理的な音を表すベースミックス信号と、
各々が前記オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、
前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、
前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームと、
を受け取るための受信機プロセッサと、
前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームに基づいて前記オーディオオブジェクト成分を前記ベースミックス信号と合成し、ダウンミックス信号を出力するための合成プロセッサと、
前記ダウンミックス信号、前記オブジェクトオーディオ信号、前記レンダーキューストリーム及び前記オブジェクトミックスキューストリームを多重化してサウンドトラックデータストリームを形成するためのマルチプレクサプロセッサと、
を含むことを特徴とするオーディオ符号化プロセッサ。
前記マルチプレクサプロセッサによる処理の前に前記オブジェクトオーディオ信号を符号化する第１のオーディオ符号化プロセッサをさらに含むことを特徴とする請求項１６に記載のオーディオ符号化プロセッサ。
前記オブジェクトオーディオ信号は、第１のオーディオ復号プロセッサにより復号される、
ことを特徴とする請求項１７に記載のオーディオ符号化プロセッサ。
前記ダウンミックス信号は、多重化される前に第２のオーディオ符号化プロセッサにより符号化される、
ことを特徴とする請求項１６に記載のオーディオ符号化プロセッサ。
オーディオ復号プロセッサであって、
オーディオシーンを表すダウンミックス信号と、
前記オーディオシーンの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、
前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも１つのオブジェクトミックスキューストリームと、
前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームと、
を受け取るための受信プロセッサと、
前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームに基づいて前記ダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去し、残留ダウンミックス信号を出力するためのオブジェクトオーディオプロセッサと、
前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するための空間フォーマット変換器と、
前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを処理して少なくとも１つのオブジェクトレンダリング信号を導出するためのレンダリングプロセッサと、
前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するための合成プロセッサと、
を含むことを特徴とするオーディオ復号プロセッサ。
前記オーディオオブジェクト成分は、前記ダウンミックス信号から減算される、
ことを特徴とする請求項２０に記載のオーディオ復号プロセッサ。
前記オーディオオブジェクト成分は、前記ダウンミックス信号内で前記オーディオオブジェクト成分を知覚できないように前記ダウンミックス信号から部分的に除去される、
ことを特徴とする請求項２０に記載のオーディオ復号プロセッサ。
物理的な音を表すオーディオサウンドトラックの復号方法であって、
オーディオシーンを表すダウンミックス信号と、
前記オーディオサウンドトラックの少なくとも１つのオーディオオブジェクト成分を有する少なくとも１つのオブジェクトオーディオ信号と、
前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも１つのオブジェクトレンダーキューストリームと、
を有するサウンドトラックデータストリームを受け取るステップと、
前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記ダウンミックス信号から少なくとも１つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、
前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、
前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを利用して、少なくとも１つのオブジェクトレンダリング信号を導出するステップと、
前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップと、
を含むことを特徴とする方法。