JP5161893B2

JP5161893B2 - オーディオ信号の処理方法及び装置

Info

Publication number: JP5161893B2
Application number: JP2009553527A
Authority: JP
Inventors: オオー，ヒェン; ウォンジュン，ヤン
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2007-03-16
Filing date: 2008-03-17
Publication date: 2013-03-13
Anticipated expiration: 2028-03-17
Also published as: EP2137824A1; EP2137824A4; US20100111319A1; JP2010521703A; US20100087938A1; EP2137825A1; US20140222440A1; KR101100214B1; KR20080084756A; US8725279B2; WO2008114984A1; US8712060B2; CN101636918A; CN101636919A; EP2130304A1; JP4851598B2; WO2008114982A1; JP2010521867A; CN101636917A; WO2008114985A1

Description

本発明は、オーディオ信号の処理方法及び装置に関し、より詳細には、デジタル媒体、放送信号などで受信されたオーディオ信号を処理することができるオーディオ信号の処理方法及び装置に関する。

一般的に、多数個のオブジェクトをモノ又はステレオ信号にダウンミックスする過程において、それぞれのオブジェクト信号から各パラメータが抽出される。このような各パラメータはデコーダで使用されるが、それぞれのオブジェクトのパニングや利得は、ユーザの選択によってコントロールされる。

それぞれのオブジェクト信号を制御するためには、ダウンミックスに含まれている各ソースが適切にポジショニング又はパニングされなければならない。

また、チャネルベースのデコーディング方式で下位互換性を有するためには、オブジェクトパラメータは、アップミキシングのためのマルチチャネルパラメータに柔軟に変換されなければならない。

本発明は、上述のような問題点を解決するためになされたもので、オブジェクトの利得及びパニングを制限なしにコントロールすることができるオーディオ信号処理方法及び装置を提供することを目的とする。

本発明の他の目的は、ユーザの選択を基盤にしてオブジェクトの利得及びパニングをコントロールすることができるオーディオ信号処理方法及び装置を提供することにある。

本発明の更に他の目的は、ボーカルや背景音楽の利得を大幅に調節する場合にも、音質の歪みを発生させないオーディオ信号処理方法及び装置を提供することにある。

上述のような目的を達成するために、本発明に係るオーディオ信号処理方法は、少なくとも２つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、第１のエンハンストオブジェクト情報を用いてダウンミックスを第１の独立オブジェクトと臨時バックグラウンドオブジェクトに分離し、第２のエンハンストオブジェクト情報を用いて臨時バックグラウンドオブジェクトから第２の独立オブジェクトを抽出することを含む。

本発明によれば、独立オブジェクトは、オブジェクトベース信号であり、バックグラウンドオブジェクトは、少なくとも１つのチャネルベース信号を含むか、少なくとも１つのチャネルベース信号がダウンミックスされた信号である。

本発明によれば、バックグラウンドオブジェクトは、左側のチャネル信号及び右側のチャネル信号を含むことができる。

本発明によれば、第１のエンハンストオブジェクト情報及び第２のエンハンストオブジェクト情報はレジデュアル信号である。

本発明によれば、第１のエンハンストオブジェクト情報及び第２のエンハンストオブジェクト情報は、付加情報ビットストリームに含まれており、付加情報ビットストリームに含まれているエンハンストオブジェクト情報の数と、ダウンミックス情報に含まれている独立オブジェクトの数とは同一である。

本発明によれば、分離することは、Ｎ個の入力を用いて（Ｎ＋１）個の出力を生成するモジュールによって行われる。

本発明によれば、オブジェクト情報及びミックス情報を受信し、オブジェクト情報及びミックス情報を用いて、第１の独立オブジェクト及び第２の独立オブジェクトの利得を調整するためのマルチチャネル情報を生成することをさらに含むことができる。

本発明によれば、ミックス情報は、オブジェクト位置情報、オブジェクト利得情報及び再生環境情報のうち少なくとも１つに基づいて生成されたものである。

本発明によれば、上記抽出することは、第２の臨時バックグラウンドオブジェクト及び第２の独立オブジェクトを抽出することに相当し、第２のエンハンストオブジェクト情報を用いて第２の臨時バックグラウンドオブジェクトから第３の独立オブジェクトを抽出することをさらに含むことができる。

本発明の他の側面によれば、少なくとも２つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、第１のエンハンストオブジェクト情報を用いて前記ダウンミックスを第１の独立オブジェクトと臨時バックグラウンドオブジェクトに分離し、第２のエンハンストオブジェクト情報を用いて臨時バックグラウンドオブジェクトから第２の独立オブジェクトを抽出することを実行するためのプログラムが保存されたコンピュータ読取可能記録媒体が提供される。

本発明の更に他の側面によれば、少なくとも２つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信する情報受信部と、第１のエンハンストオブジェクト情報を用いてダウンミックスを臨時バックグラウンドオブジェクトと第１の独立オブジェクトに分離する第１のエンハンストオブジェクト情報デコーディング部と、第２のエンハンストオブジェクト情報を用いて臨時バックグラウンドオブジェクトから第２の独立オブジェクトを抽出する第２のエンハンストオブジェクト情報デコーディング部とを含むオーディオ信号処理装置が提供される。

本発明の更に他の側面によれば、第１の独立オブジェクト及びバックグラウンドオブジェクトを用いて臨時バックグラウンドオブジェクト及び第１のエンハンストオブジェクト情報を生成し、第２の独立オブジェクト及び臨時バックグラウンドオブジェクトを用いて第２のエンハンストオブジェクト情報を生成し、第１のエンハンストオブジェクト情報及び第２のエンハンストオブジェクト情報を伝送することを含むオーディオ信号処理方法が提供される。

本発明の更に他の側面によれば、第１の独立オブジェクト及びバックグラウンドオブジェクトを用いて臨時バックグラウンドオブジェクト及び第１のエンハンストオブジェクト情報を生成する第１エンハンストオブジェクト情報生成部と、第２の独立オブジェクト及び臨時バックグラウンドオブジェクトを用いて第２のエンハンストオブジェクト情報を生成する第２エンハンストオブジェクト情報生成部と、第１のエンハンストオブジェクト情報及び第２のエンハンストオブジェクト情報を伝送するためのマルチプレクサとを含むオーディオ信号処理装置が提供される。

本発明の更に他の側面によれば、独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、独立オブジェクトをコントロールするための第１のマルチチャネル情報を生成し、ダウンミックス情報及び第１のマルチチャネル情報を用いて、バックグラウンドオブジェクトをコントロールするための第２のマルチチャネル情報を生成することを含む方法が提供される。

本発明によれば、上記第２のマルチチャネル情報を生成することは、第１のマルチチャネル情報が適用された信号をダウンミックス情報から差し引くことを含むことができる。

本発明によれば、上記差し引くことは、時間ドメイン又は周波数ドメイン上で行われる。

本発明によれば、上記差し引くことは、ダウンミックス情報のチャネル数と、第１のマルチチャネル情報が適用された信号のチャネル数とが同一である場合、チャネル別に行われる。

本発明によれば、該方法は、第１のマルチチャネル情報及び第２のマルチチャネル情報を用いて、ダウンミックス情報から出力チャネルを生成することをさらに含むことができる。

本発明によれば、該方法は、エンハンストオブジェクト情報を受信し、エンハンストオブジェクト情報を用いて、ダウンミックス情報から独立オブジェクトとバックグラウンドオブジェクトを分離することをさらに含むことができる。

本発明によれば、該方法は、ミックス情報を受信することをさらに含み、第１のマルチチャネル情報を生成し、第２のマルチチャネル情報を生成することは、ミックス情報に基づいて行われる。

本発明によれば、ダウンミックス情報は、放送信号を介して受信されてもよい。

本発明によれば、ダウンミックス情報は、デジタル媒体を介して受信されてもよい。

本発明の更に他の側面によれば、独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、独立オブジェクトをコントロールするための第１のマルチチャネル情報を生成し、ダウンミックス情報及び前記第１のマルチチャネル情報を用いて、バックグラウンドオブジェクトをコントロールするための第２のマルチチャネル情報を生成することを実行するためのプログラムが保存されたコンピュータ読取可能記録媒体が提供される。

本発明の更に他の側面によれば、独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信する情報受信部と、独立オブジェクトをコントロールするための第１のマルチチャネル情報を生成し、ダウンミックス情報及び第１のマルチチャネル情報を用いて、バックグラウンドオブジェクトをコントロールするための第２のマルチチャネル情報を生成するマルチチャネル生成部とを含むことを特徴とするオーディオ信号装置が提供される。

本発明の更に他の側面によれば、少なくとも１つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、オブジェクト情報及びエンハンストオブジェクト情報を受信し、オブジェクト情報及びエンハンストオブジェクト情報を用いて、ダウンミックス情報から少なくとも１つの独立オブジェクトを抽出することを含むオーディオ信号処理方法が提供される。

本発明によれば、オブジェクト情報は、独立オブジェクト及びバックグラウンドオブジェクトに関連する情報に相当してもよい。

本発明によれば、オブジェクト情報は、独立オブジェクトとバックグラウンドオブジェクトとの間のレベル情報及び相関情報のうち少なくとも１つを含むものである。

本発明によれば、エンハンストオブジェクト情報は、レジデュアル信号を含むことができる。

本発明によれば、レジデュアル信号は、少なくとも１つのオブジェクトベース信号をエンハンストオブジェクトにグルーピングする過程で抽出されたものである。

本発明の更に他の側面によれば、少なくとも１つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、オブジェクト情報及びエンハンストオブジェクト情報を受信し、オブジェクト情報及びエンハンストオブジェクト情報を用いて、ダウンミックス情報から少なくとも１つの独立オブジェクトを抽出することを実行するためのプログラムが保存されたコンピュータ読取可能記録媒体が提供される。

本発明の更に他の側面によれば、少なくとも１つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス情報を受信し、オブジェクト情報及びエンハンストオブジェクト情報を受信する情報受信部と、オブジェクト情報及びエンハンストオブジェクト情報を用いて、ダウンミックスから少なくとも１つの独立オブジェクトを抽出する情報生成ユニットとを含むオーディオ信号処理装置が提供される。

本発明は、次のような効果及び利点を提供する。

第１に、オブジェクトの利得及びパニングを制限なしにコントロールすることができる。

第２に、ユーザの選択に基いてオブジェクトの利得及びパニングをコントロールすることができる。

第３に、ボーカルや背景音楽のうち１つを完全に抑圧する場合にも、利得調整による音質の歪みを防止することができる。

第４に、ボーカルなどのような独立オブジェクトが少なくとも２つである場合（ステレオチャネル又は多数個のボーカル信号）、利得調整による音質の歪みを防止することができる。

本発明の実施例に係るオーディオ信号処理装置の構成図である。本発明の実施例に係るオーディオ信号処理装置のうちエンハンストオブジェクトエンコーダの細部構成図である。エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第１の例を示した図である。エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第２の例を示した図である。エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第３の例を示した図である。エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第４の例を示した図である。エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第５の例を示した図である。付加情報ビットストリームの多様な例を示した図である。本発明の実施例に係るオーディオ信号処理装置のうち情報生成ユニットの細部構成図である。エンハンストオブジェクト情報デコーディング部の細部構成の一例を示した図である。オブジェクト情報デコーディング部の細部構成の一例を示した図である。

以下、添付された図面を参照して本発明の好適な実施例を詳細に説明する。本発明の実施例を説明する前に、本明細書及び特許請求の範囲で使用された用語や単語は、通常的又は辞典的な意味に限定して解釈してはならなく、発明者が自身の発明を最も最善の方法で説明するために用語の概念を適切に定義することができるとの原則に立脚して、本発明の技術的思想に符合する意味及び概念で解釈しなければならない。したがって、本明細書に記載された実施例及び図面に示した構成は、本発明の最も好適な一実施例に過ぎないもので、本発明の技術的思想を全て代弁するものではないので、本出願時点において、これらに取って代わる多様な均等物及び変形例が存在しうることを理解しなければならない。

特に、本明細書で、情報は、値、パラメータ、係数、成分などを総称する用語で、場合によって異なる意味に解釈されることもあるが、本発明がこれに限定されることはない。

特に、オブジェクトは、オブジェクトベース信号及びチャネルベース信号を含む概念であるが、場合によってオブジェクトベース信号のみを称することができる。

図１は、本発明の実施例に係るオーディオ信号処理装置の構成を示す図である。図１を参照すれば、まず、本発明の実施例に係るオーディオ信号処理装置は、エンコーダ１００及びデコーダ２００を含むが、エンコーダ１００は、オブジェクトエンコーダ１１０、エンハンストオブジェクトエンコーダ１２０及びマルチプレクサ１３０を含み、デコーダ２００は、デマルチプレクサ２１０、情報生成ユニット２２０、ダウンミックス処理ユニット２３０及びマルチチャネルデコーダ２４０を含む。ここで、各構成要素に対して概略に説明した後、エンコーダ１００のエンハンストオブジェクトエンコーダ１２０及びデコーダ２００の情報生成ユニット２２０については、図２〜図１１を参照して具体的に説明することにする。

まず、オブジェクトエンコーダ１１０は、少なくとも１つのオブジェクト（ｏｂｊ_N）を用いてオブジェクト情報（ＯＰ：ｏｂｊｅｃｔｐａｒａｍｅｔｅｒ）を生成するが、ここで、オブジェクト情報（ＯＰ）は、オブジェクトベース信号に関する情報で、オブジェクトレベル情報、オブジェクト相関情報などを含むことができる。一方、オブジェクトエンコーダ１１０は、少なくとも１つのオブジェクトをグルーピングしてダウンミックスを生成することができる。これは、図２を参照して説明されるエンハンストオブジェクト生成部１２２で少なくとも１つのオブジェクトをグルーピングしてエンハンストオブジェクトを生成する過程と同一であるが、本発明がこれに限定されることはない。

エンハンストオブジェクトエンコーダ１２０は、少なくとも１つのオブジェクト（ｏｂｊ_N）を用いてエンハンストオブジェクト情報（ＯＰ）及びダウンミックス（ＤＭＸ）（Ｌ_L、Ｒ_L）を生成する。具体的に、少なくとも１つのオブジェクトベース信号をグルーピングしてエンハンストオブジェクト（ＥＯ）を生成し、チャネルベース信号及びエンハンストオブジェクト（ＥＯ）を用いてエンハンストオブジェクト情報（ＥＯＰ：ｅｎｈａｎｃｅｄｏｂｊｅｃｔｐａｒａｍｅｔｅｒ）を生成する。まず、エンハンストオブジェクト情報（ＥＯＰ）は、エンハンストオブジェクトのエネルギー情報（レベル情報を含む）、レジデュアル信号などであるが、これに対しては図２を参照して説明することにする。一方、ここで、チャネルベース信号は、オブジェクト別に制御不可能な背景信号であるので、バックグラウンドオブジェクトと称し、エンハンストオブジェクトは、デコーダ２００で独立的にオブジェクト別に制御可能であるので、独立オブジェクトと称することができる。

マルチプレクサ１３０は、オブジェクトエンコーダ１１０で生成されたオブジェクト情報（ＯＰ）、及びエンハンストオブジェクトエンコーダ１２０で生成されたエンハンストオブジェクト情報（ＥＯＰ）をマルチプレキシングし、付加情報ビットストリームを生成する。一方、付加情報ビットストリームは、前記チャネルベース信号に対する空間情報（ＳＰ：ｓｐａｔｉａｌｉｎｆｏｒｍａｔｉｏｎ）（図示せず）を含むことができる。空間情報は、チャネルベース信号をデコーディングするために必要な情報で、チャネルレベル情報及びチャネル相関情報などを含むが、本発明がこれに限定されることはない。

デコーダ２００のデマルチプレクサ２１０は、付加情報ビットストリームからオブジェクト情報（ＯＰ）及びエンハンストオブジェクト情報（ＥＯＰ）を抽出する。付加情報ビットストリームに空間情報（ＳＰ）が含まれる場合、空間情報（ＳＰ）をさらに抽出する。

情報生成ユニット２２０は、オブジェクト情報（ＯＰ）及びエンハンストオブジェクト情報（ＥＯＰ）を用いてマルチチャネル情報（ＭＩ：Ｍｕｌｔｉ―ｃｈａｎｎｅｌｉｎｆｏｒｍａｔｉｏｎ）及びダウンミックス処理情報（ＤＰＩ：ｄｏｗｎｍｉｘｐｒｏｃｅｓｓｉｎｇｉｎｆｏｒｍａｔｉｏｎ）を生成する。マルチチャネル情報（ＭＩ）及びダウンミックス処理情報（ＤＰＩ）を生成するにおいて、ダウンミックス情報（ＤＭＸ）を用いることができるが、これに対しては図８を参照して説明することにする。

ダウンミックス処理ユニット２３０は、ダウンミックス処理情報（ＤＰＩ）を用いてダウンミックス（ＤＭＸ）を処理する。例えば、オブジェクトの利得又はパニングを調節するためにダウンミックス（ＤＭＸ）を処理することができる。

マルチチャネルデコーダ２４０は、処理されたダウンミックスを受信し、マルチチャネル情報（ＭＩ）を用いて処理されたダウンミックス信号をアップミキシングし、マルチチャネル信号を生成する。

以下では、図２〜図６を参照しながら、エンコーダ１００のエンハンストオブジェクトエンコーダ１２０の細部構成の多様な実施例について説明し、図８を参照しながら、付加情報ビットストリームに対する多様な実施例について説明し、図９〜図１１を参照しながら、デコーダ２００の情報生成ユニット２２０の細部構成について説明する。

図２は、本発明の実施例に係るオーディオ信号処理装置のうちエンハンストオブジェクトエンコーダの細部構成を示す図である。図２を参照すれば、エンハンストオブジェクトエンコーダ１２０は、エンハンストオブジェクト生成部１２２、エンハンストオブジェクト情報生成部１２４及びマルチプレクサ１２６を含む。

エンハンストオブジェクト生成部１２２は、少なくとも１つのオブジェクト（ｏｂｊ_N）をグルーピングし、少なくとも１つのエンハンストオブジェクト（ＥＯ_L）を生成する。ここで、エンハンストオブジェクト（ＥＯ_L）は、高品質の制御のためにグルーピングされるものである。例えば、前記バックグラウンドオブジェクトに対してエンハンストオブジェクト（ＥＯ_L）が独立的に完全に抑圧（または、反対の場合、すなわち、エンハンストオブジェクト（ＥＯ_L）のみが再生され、バックグラウンドオブジェクトが完全に抑圧）されるようにするものである。ここで、グルーピング対象になるオブジェクト（ｏｂｊ_N）は、チャネルベース信号でないオブジェクトベース信号である。エンハンストオブジェクト（ＥＯ）は多様な方法で生成することができる。すなわち、１）少なくとも１つのオブジェクトを一つのエンハンストオブジェクトとして活用することができ（ＥＯ₁＝ｏｂｊ₁）、２）二つ以上のオブジェクトを加えてエンハンストオブジェクトを構成することができ（ＥＯ₂＝ｏｂｊ₁＋ｏｂｊ₂）、３）ダウンミックスから特定のオブジェクトのみを除外した信号をエンハンストオブジェクトとして活用したり（ＥＯ₃＝Ｄ−ｏｂｊ₂）、少なくとも２つのオブジェクトを除外した信号をエンハンストオブジェクトとして活用することができる（ＥＯ₄＝Ｄ−ｏｂｊ₁−ｏｂｊ₂）。上記３）及び４）で言及されたダウンミックス（Ｄ）は、上述したダウンミックス（ＤＭＸ）（Ｌ_L、Ｒ_L）とは異なる概念で、オブジェクトベース信号のみがダウンミックスされた信号を称することができる。このように説明された四つの方法のうち少なくとも１つを適用し、エンハンストオブジェクト（ＥＯ）を生成することができる。

エンハンストオブジェクト情報生成部１２４は、エンハンストオブジェクト（ＥＯ）を用いてエンハンストオブジェクト情報（ＥＯＰ）を生成する。ここで、エンハンストオブジェクト情報（ＥＯＰ）は、エンハンストオブジェクト（ＥＯ）に関連する情報で、ａ）まず、エンハンストオブジェクト（ＥＯ）のエネルギー情報（レベル情報を含む）、ｂ）エンハンストオブジェクト（ＥＯ）とダウンミックス（Ｄ）との間の関係（例えば、ミキシング利得）、ｃ）高い時間解像度又は高い周波数解像度によるエンハンストオブジェクトレベル情報又はエンハンストオブジェクト相関情報、ｄ）エンハンストオブジェクト（ＥＯ）に対する時間領域での予測情報又は包絡線情報、ｅ）レジデュアル信号のようにエンハンストオブジェクトに対する時間領域又はスペクトル領域の情報を符号化したビットストリームなどである。

一方、エンハンストオブジェクト情報（ＥＯＰ）は、上述した例でエンハンストオブジェクト（ＥＯ）が第１の例及び第３の例で生成された場合（ＥＯ₁＝ｏｂｊ₁、ＥＯ₃＝Ｄ−ｏｂｊ₂）、エンハンストオブジェクト情報（ＥＯＰ）は、第１の例及び第３の例のエンハンストオブジェクト（ＥＯ₁及びＥＯ₃）に対するエンハンストオブジェクト情報（ＥＯＰ₁、ＥＯＰ₃）を生成することができる。このとき、第１の例によるエンハンストオブジェクト情報（ＥＯＰ₁）は、第１の例によるエンハンストオブジェクト（ＥＯ₁）を制御するために必要な情報に該当し、第３の例によるエンハンストオブジェクト情報（ＥＯＰ₃）は、特定のオブジェクト（ｏｂｊ₂）のみを抑圧する場合を表現するために活用される。

エンハンストオブジェクト情報生成部１２４は、少なくとも１つのエンハンストオブジェクト情報生成部１２４―１，・・・，１２４―Ｌを含むことができる。具体的に、一つのエンハンストオブジェクト（ＥＯ₁）に対するエンハンストオブジェクト情報（ＥＯＰ₁）を生成する第１エンハンストオブジェクト情報生成部１２４―１を含むことができ、少なくとも２つのエンハンストオブジェクト（ＥＯ₁、ＥＯ₂）に対するエンハンストオブジェクト情報（ＥＯＰ₂）を生成する第２エンハンストオブジェクト情報生成部１２４―２を含むことができる。一方、エンハンストオブジェクト（ＥＯ_L）のみならず、第２エンハンストオブジェクト情報生成部１２４―２の出力を用いて、第Ｌエンハンストオブジェクト情報生成部１２４―Ｌが含まれることもある。前記エンハンストオブジェクト情報生成部１２４―１，・・・，１２４―Ｌは、それぞれＮ＋１個の入力を用いてＮ個の出力を生成するモジュールによって動作するもので、例えば、３個の入力を用いて２個の出力を生成するモジュールによって動作することができる。以下、エンハンストオブジェクト情報生成部１２４―１，・・・，１２４―Ｌに対する多様な実施例は、図３〜図７を参照して説明する。一方、エンハンストオブジェクト情報生成部１２４は、ダブルエンハンストオブジェクト（ＥＥＯＰ）をさらに生成することができるが、これは、図７を参照して詳細に説明することにする。

マルチプレクサ１２６は、エンハンストオブジェクト情報生成部１２４で生成された少なくとも１つのエンハンストオブジェクト情報（ＥＯＰ₁，・・・，ＥＯＰ_L）（及びダブルエンハンストオブジェクト（ＥＥＯＰ））をマルチプレキシングする。

図３〜図７は、エンハンストオブジェクト生成部及びエンハンストオブジェクト情報生成部の第１の例〜第５の例を示した図である。図３は、エンハンストオブジェクト情報生成部が一つの第１のエンハンストオブジェクト情報生成部を含む例を示し、図４〜図６は、少なくとも２つのエンハンスト情報生成部（第１エンハンストオブジェクト情報生成部〜第Ｌエンハンストオブジェクト情報生成部）が直列的に含まれている例を示す。一方、図７は、ダブルエンハンストオブジェクト情報（ＥＥＯＰ：ｅｎｈａｎｃｅｄｅｎｈａｎｃｅｄｏｂｊｅｃｔｐａｒａｍｅｔｅｒ）を生成する第１のダブルエンハンストオブジェクト情報生成部をさらに含む例を示す。

まず、図３を参照すれば、エンハンストオブジェクト生成部１２２Ａは、チャネルベース信号として、左側のチャネル信号（Ｌ）及び右側チャネル信号（Ｒ）をそれぞれ受信し、オブジェクトベース信号として、各ステレオボーカル信号（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R、Ｖｏｃａｌ_2L、Ｖｏｃａｌ_2R）をそれぞれ受信し、一つのエンハンストオブジェクト（Ｖｏｃａｌ）を生成する。まず、チャネルベース信号（Ｌ、Ｒ）は、多チャネル信号（例えば、Ｌ、Ｒ、Ｌ_S、Ｒ_S、Ｃ、ＬＦＥ）がダウンミックスされた信号であるが、この過程で抽出された空間情報は、上述したように付加情報ビットストリームに含まれる。

一方、オブジェクトベース信号としての各ステレオボーカル信号（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R、Ｖｏｃａｌ_2L、Ｖｏｃａｌ_2R）は、歌手１の音声（Ｖｏｃａｌ₁）に該当する左側のチャネル信号（Ｖｏｃａｌ_1L）及び右側のチャネル信号（Ｖｏｃａｌ_1R）と、歌手２の音声（Ｖｏｃａｌ₂）に該当する左側のチャネル信号（Ｖｏｃａｌ_2L）及び右側のチャネル信号（Ｖｏｃａｌ_2R）を含むことができる。一方、ここでは、ステレオオブジェクト信号について示したが、マルチチャネルオブジェクト信号（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R、Ｖｏｃａｌ_1Ls、Ｖｏｃａｌ_1Rs、Ｖｏｃａｌ_1C、Ｖｏｃａｌ_1LFE）を受信し、一つのエンハンストオブジェクト（Ｖｏｃａｌ）にグルーピングされることも可能である。

このように１つのエンハンストオブジェクト（Ｖｏｃａｌ）が生成されたので、エンハンストオブジェクト情報生成部１２４Ａは、これに対応する一つの第１エンハンストオブジェクト情報生成部１２４―１のみを含む。第１エンハンストオブジェクト情報生成部１２４Ａ―１は、エンハンストオブジェクト（Ｖｏｃａｌ）及びチャネルベース信号（Ｌ、Ｒ）を用いてエンハンストオブジェクト情報（ＥＯＰ₁）として第１のレジデュアル信号（ｒｅｓ₁）及び臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）を生成する。臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）は、チャネルベース信号、すなわち、バックグラウンドオブジェクト（Ｌ、Ｒ）にエンハンストオブジェクト（Ｖｏｃａｌ）が加えられた信号で、１つのエンハンストオブジェクト情報生成部のみが存在する第３の例では、この臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）が最終的なダウンミックス信号（Ｌ_L、Ｒ_L）になる。

図４を参照すれば、図３に示した第１の例と同様に、各ステレオボーカル信号（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R、Ｖｏｃａｌ_2L、Ｖｏｃａｌ_2R）が受信される。ただし、図４に示した第２の例では、一つのエンハンストオブジェクトにグルーピングされずに、二つのエンハンストオブジェクト（Ｖｏｃａｌ₁、Ｖｏｃａｌ₂）にグルーピングされるという点で差がある。このように二つのエンハンストオブジェクトが存在するので、エンハンストオブジェクト生成部１２４Ｂは、第１のエンハンストオブジェクト生成部１２４Ｂ―１及び第２のエンハンストオブジェクト生成部１２４Ｂ―２を含む。

第１のエンハンストオブジェクト生成部１２４Ｂ―１は、バックグラウンド信号（チャネルベース信号（Ｌ、Ｒ））及び第１のエンハンストオブジェクト信号（Ｖｏｃａｌ₁）を用いて第１のエンハンストオブジェクト情報（ｒｅｓ₁）及び臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）を生成する。

第２のエンハンストオブジェクト生成部１２４Ｂ―２は、第２のエンハンストオブジェクト信号（Ｖｏｃａｌ₂）のみならず、第１の臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）も用いて、第２のエンハンストオブジェクト情報（ｒｅｓ₂）及び最終ダウンミックス（Ｌ_L、Ｒ_L）としてバックグラウンドオブジェクト（Ｌ₂、Ｒ₂）を生成する。図４に示した第２の例の場合にも、エンハンストオブジェクト（ＥＯ）とエンハンストオブジェクト情報（ＥＯＰ：ｒｅｓ）の数が全て２個であることが分かる。

図５を参照すれば、図４に示した第２の例と同様に、エンハンストオブジェクト情報生成部１２４Ｃは、第１エンハンストオブジェクト情報生成部１２４Ｃ―１及び第２エンハンストオブジェクト情報生成部１２４Ｃ―２を含む。ただし、エンハンストオブジェクト（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R）は、２つのオブジェクトベース信号がグルーピングされたものでなく、一つのオブジェクトベース信号（Ｖｏｃａｌ_1L、Ｖｏｃａｌ_1R）で構成される点で差異点が存在する。第３の例の場合にも、エンハンストオブジェクト（ＥＯ）の個数（Ｌ）とエンハンストオブジェクト情報（ＥＯＰ）の個数（Ｌ）とが同一であることが分かる。

図６を参照すれば、図４に示した第２の例と類似しているが、エンハンストオブジェクト生成部１２２で総Ｌ個のエンハンストオブジェクト（Ｖｏｃａｌ₁，・・・，Ｖｏｃａｌ_L）が生成されるという点で差がある。また、エンハンストオブジェクト情報生成部１２４Ｄは、第１エンハンストオブジェクト情報生成部１２４Ｄ―１及び第２エンハンストオブジェクト情報生成部１２４Ｄ―２のみならず、第Ｌエンハンストオブジェクト情報生成部１２４Ｄ―Ｌまで備えるという点で差異点が存在する。第Ｌエンハンストオブジェクト情報生成部１２４―Ｌは、第２エンハンストオブジェクト情報生成部１２４―２で生成された第２の臨時バックグラウンドオブジェクト（Ｌ₂、Ｒ₂）及び第Ｌのエンハンストオブジェクト（Ｖｏｃａｌ_L）を用いて第Ｌのエンハンストオブジェクト情報（ＥＯＰ_L、ｒｅｓ_L）及びダウンミックス情報（Ｌ_L、Ｒ_L）（ＤＭＸ）を生成する。

図７を参照すれば、図６に示した第４の例で、第１のダブルエンハンストオブジェクト情報生成部１２４ＥＥ―１をさらに備える。ダウンミックス（ＤＭＸ：Ｌ_L、Ｒ_L）からエンハンストオブジェクト（ＥＯ_L）を差し引いた信号（ＤＤＭＸ）は、次のように定義することができる。

ダブルエンハンスト情報（ＥＥＯＰ）は、ダウンミックス（ＤＭＸ：Ｌ_L、Ｒ_L）とエンハンストオブジェクト（ＥＯ_L）との間の情報でなく、式１によって定義された信号（ＤＤＭＸ）及びエンハンストオブジェクト（ＥＯ_L）に関する情報である。ダウンミックス（ＤＭＸ）からエンハンストオブジェクト（ＥＯ_L）を差し引く場合、エンハンストオブジェクトと関連して量子化雑音が発生しうる。このような量子化雑音をオブジェクト情報（ＯＰ）を用いて相殺させることによって、音質を改善させることができる（これについては、図９〜図１１を参照して説明することにする。）。この場合、エンハンストオブジェクト（ＥＯ）が含まれたダウンミックス（ＤＭＸ）に対して量子化雑音をコントロールするが、実際的には、エンハンストオブジェクト（ＥＯ）が除去されたダウンミックスに存在する量子化雑音をコントロールすることである。したがって、より精密に量子化雑音を除去するためには、エンハンストオブジェクト（ＥＯ）が除去されたダウンミックスに対して量子化雑音を除去するための情報が必要である。上記のように定義されたダブルエンハンスト情報（ＥＥＯＰ）を用いることができる。このとき、ダブルエンハンスト情報（ＥＥＯＰ）は、オブジェクト情報（ＯＰ）の生成方式と同一の方式によって生成される。

本発明の実施例に係るオーディオ信号処理装置のうちエンコーダ１００は、上述したような構成要素を備えることによって、ダウンミックス（ＤＭＸ）及び付加情報ビットストリームを生成する。

図８は、付加情報ビットストリームの多様な例を示した図である。まず、図８の（ａ）〜（ｂ）を参照すれば、付加情報ビットストリームは、図８の（ａ）のように、オブジェクトエンコーダ１１０などによって生成されたオブジェクト情報（ＯＰ）のみを含むことができ、図８の（ｂ）のように、オブジェクト情報（ＯＰ）のみならず、エンハンストオブジェクトエンコーダ１２０によって生成されたエンハンストオブジェクト情報（ＥＯＰ）まで含むことができる。一方、付加情報ビットストリームは、図８の（ｃ）を参照すれば、オブジェクト情報（ＯＰ）及びエンハンストオブジェクト情報（ＥＯＰ）のみならず、ダブルエンハンストオブジェクト情報（ＥＥＯＰ）をさらに含んでいる。一般的なオブジェクトデコーダでは、オブジェクト情報（ＯＰ）のみを用いてオーディオ信号をデコーディングすることができるので、このようなデコーダで図８の（ｂ）又は（ｃ）に示したビットストリームを受信する場合、エンハンストオブジェクト情報（ＥＯＰ）及び／又はダブルエンハンストオブジェクト情報（ＥＥＯＰ）を除去し、オブジェクト情報（ＯＰ）のみを抽出してデコーディングに用いることができる。

図８の（ｄ）を参照すれば、エンハンストオブジェクト情報（ＥＯＰ₁，・・・，ＥＯＰ_L）がビットストリームに含まれている。上述したように、エンハンストオブジェクト情報（ＥＯＰ）は多様な方式で生成される。第１のエンハンストオブジェクト情報（ＥＯＰ₁）〜第２のエンハンストオブジェクト（ＥＯＰ₂）が第１の方式で生成され、第３のエンハンストオブジェクト情報（ＥＯＰ₃）〜第５のエンハンストオブジェクト情報（ＥＯＰ₅）が第２の方式で生成された場合、各生成方法を表す識別子（Ｆ₁、Ｆ₂）をビットストリームに含ませることができる。図８の（ｄ）に示すように、生成方法を表す識別子（Ｆ₁、Ｆ₂）を、同一の方式で生成されたエンハンストオブジェクト情報の前のみに１回挿入することもできるが、各エンハンストオブジェクト情報の前に全て挿入することもできる。

本発明の実施例に係るオーディオ信号処理装置のうちデコーダ２００は、上記のように生成された付加情報ビットストリーム及びダウンミックスを受信してデコーディングすることができる。

図９は、本発明の実施例に係るオーディオ信号処理装置のうち情報生成ユニットの細部構成を示す図である。情報生成ユニット２２０は、オブジェクト情報デコーディング部２２２、エンハンストオブジェクト情報デコーディング部２２４及びマルチチャネル情報生成部２２６を含む。一方、デマルチプレクサ２１０からバックグラウンドオブジェクトをコントロールするための空間情報（ＳＰ）が受信された場合、この空間情報（ＳＰ）は、エンハンストオブジェクト情報デコーディング部２２４及びオブジェクト情報デコーディング部２２２で使用されずに、直ちにマルチチャネル情報生成部２２６に伝達される。

まず、エンハンストオブジェクト情報デコーディング部２２４は、デマルチプレクサ２１０から受信したオブジェクト情報（ＯＰ）及びエンハンストオブジェクト情報（ＥＯＰ）を用いてエンハンストオブジェクト（ＥＯ）を抽出し、バックグラウンドオブジェクト（Ｌ、Ｒ）を出力する。エンハンストオブジェクト情報デコーディング部２２４の細部構成の一例は、図１０に示されている。

図１０を参照すれば、エンハンストオブジェクト情報デコーディング部２２４は、第１のエンハンストオブジェクト情報デコーディング部２２４―１〜第Ｌのエンハンストオブジェクト情報デコーディング部２２４―Ｌを含む。第１のエンハンストオブジェクトデコーディング部２２４―１は、第１のエンハンストオブジェクト情報（ＥＯＰ_L）を用いて、ダウンミックス（ＭＸＩ）を第１のエンハンストオブジェクト（ＥＯ_L）（第１の独立オブジェクト）と第１の臨時バックグラウンドオブジェクト（Ｌ_L―1、Ｒ_L―1）に分離するためのバックグラウンドパラメータ（ＢＰ：ＢａｃｋｇｏｕｎｄＰａｒａｍｅｔｅｒ）を生成する。ここで、第１のエンハンストオブジェクトは、センターチャネルに該当し、第１の臨時バックグラウンドオブジェクトは、左側のチャネル及び右側のチャネルに該当する。

これと同様に、第Ｌのエンハンストオブジェクト情報デコーディング部２２４―Ｌは、第Ｌのエンハンストオブジェクト情報（ＥＯＰ₁）を用いて、第Ｌ―１の臨時バックグラウンドオブジェクト（Ｌ₁、Ｒ₁）を第Ｌのエンハンストオブジェクト（ＥＯ₁）とバックグラウンドオブジェクト（Ｌ、Ｒ）に分離するためのバックグラウンドパラメータ（ＢＰ）を生成する。

一方、第１のエンハンストオブジェクト情報デコーディング部２２４―１〜第Ｌのエンハンストオブジェクト情報デコーディング部２２４―Ｌは、Ｎ入力を用いてＮ＋１出力を生成（例えば、２入力を用いて３出力を生成）するモジュールによって具現される。

一方、エンハンストオブジェクト情報デコーディング部２２４が前記のようなバックグラウンドパラメータ（ＢＰ）を生成するためには、エンハンストオブジェクト情報（ＥＯＰ）のみならず、オブジェクト情報（ＯＰ）まで用いることができる。以下では、オブジェクト情報（ＯＰ）を用いる目的及び利点について説明する。

本発明では、エンハンストオブジェクト（ＥＯ）をダウンミックス（ＤＭＸ）から除去することが目的であるが、ダウンミックス（ＤＭＸ）の符号化方法及びエンハンストオブジェクト情報（ＥＯＰ）の符号化方法によって量子化雑音が出力に含まれる。この場合、量子化雑音は元の信号と関連しているので、エンハンストオブジェクトにグルーピングされる前のオブジェクトに関する情報であるオブジェクト情報（ＯＰ）を用いて追加的に音質を改善することが可能である。例えば、１番目のオブジェクトがボーカルオブジェクトである場合、第１のオブジェクト情報（ＯＰ₁）はボーカルの時間、周波数、空間に関する情報を含む。ダウンミックス（ＤＭＸ）からボーカルを差し引いた出力は、次の式に示す通りであるが、ボーカルを差し引いた出力に対して第１のオブジェクト情報（ＯＰ₁）を用いてボーカルを抑圧する場合、ボーカルが存在していた区間に残余する量子化雑音を追加的に抑圧する機能を行うようになる。

（ここで、ＤＭＸは、入力ダウンミックス信号を表し、ＥＯ₁’は、コーデックでエンコーディング／デコーディングされた第１のエンハンストオブジェクトを表す。）

したがって、特定のオブジェクトに対してエンハンストオブジェクト情報（ＥＯＰ）及びオブジェクト情報（ＯＰ）を適用することによって、追加的に性能を改善することができ、このようなエンハンストオブジェクト情報（ＥＯＰ）及びオブジェクト情報（ＯＰ）の適用は順次的又は同時的なものである。一方、オブジェクト情報（ＯＰ）は、エンハンストオブジェクト（独立オブジェクト）及び前記バックグラウンドオブジェクトに関連する情報に相当するものである。

再び図９を参照すれば、オブジェクト情報デコーディング部２２２は、デマルチプレクサ２１０から受信したオブジェクト情報（ＯＰ）及びエンハンストオブジェクト情報デコーディング部２２４から受信したエンハンストオブジェクト（ＥＯ）に関するオブジェクト情報（ＯＰ）をデコーディングする。オブジェクト情報デコーディング部２２２の細部構成の一例は、図１１に示されている。

図１１を参照すれば、オブジェクト情報デコーディング部２２２は、第１オブジェクト情報デコーディング部２２２―１〜第Ｌオブジェクト情報デコーディング部２２２―Ｌを含む。第１オブジェクト情報デコーディング部２２２―１は、少なくとも１つのオブジェクト情報（ＯＰ_N）を用いて第１のエンハンストオブジェクト（ＥＯ₁）を少なくとも１つのオブジェクト（例えば、Ｖｏｃａｌ₁、Ｖｏｃａｌ₂）に分離するための独立パラメータ（ＩＰ：ＩｎｄｅｐｅｎｄｅｎｔＰａｒａｍｅｔｅｒ）を生成する。これと同様に、第Ｌオブジェクト情報デコーディング部２２２―Ｌは、少なくとも１つのオブジェクト情報（ＯＰ_N）を用いて第Ｌのエンハンストオブジェクト（ＥＯ_L）を少なくとも１つのオブジェクト（例えば、Ｖｏｃａｌ₄）に分離するための独立パラメータ（ＩＰ）を生成する。このように、オブジェクト情報（ＯＰ）を用いてエンハンストオブジェクト（ＥＯ）にグルーピングされていたそれぞれのオブジェクトを個別に制御することができる。

再び図９を参照すれば、マルチチャネル情報生成部２２６は、使用者インターフェースなどを介してミックス情報（ＭＸＩ：ｍｉｘｉｎｆｏｒｍａｔｉｏｎ）を受信し、デジタル媒体、放送媒体などを介してダウンミックス（ＤＭＸ）を受信する。そして、受信されたミックス情報（ＭＸＩ）及びダウンミックス（ＤＭＸ）を用いてバックグラウンドオブジェクト（Ｌ、Ｒ）及び／又はエンハンストオブジェクト（ＥＯ）をレンダリングするためのマルチチャネル情報（ＭＩ）を生成する。

ここで、ミックス情報（ＭＸＩ）は、オブジェクト位置情報、オブジェクト利得情報及び再生環境情報などに基づいて生成された情報であり、オブジェクト位置情報は、使用者が各オブジェクトの位置又はパニングを制御するために入力した情報で、オブジェクト利得情報は、使用者が各オブジェクトの利得を制御するために入力した情報である。再生環境情報は、スピーカーの個数、スピーカーの位置、アンビエント情報（スピーカーの仮想位置）などを含む情報で、使用者から入力を受けることもでき、予め保存されることも可能であり、他の装置から受信することもできる。

マルチチャネル情報生成部２２６は、マルチチャネル情報（ＭＩ）を生成するために、オブジェクト情報デコーディング部２２２から受信した独立パラメータ（ＩＰ）及び／又はエンハンストオブジェクト情報デコーディング部２２４から受信したバックグラウンドパラメータ（ＢＰ）を用いることができる。まず、ミックス情報（ＭＸＩ）によってエンハンストオブジェクト（独立オブジェクト）をコントロールするための第１のマルチチャネル情報（ＭＩ₁）を生成する。例えば、使用者がボーカル信号のようなエンハンストオブジェクトを完全に抑圧するための制御情報を入力した場合、この制御情報が適用されたミックス情報（ＭＸＩ）によって、ダウンミックス（ＤＭＸ）からエンハンストオブジェクトを除去するための第１のマルチチャネル情報を生成する。

上記のように独立オブジェクトをコントロールするための第１のマルチチャネル情報（ＭＩ₁）を生成した後、この第１のマルチチャネル情報（ＭＩ₁）及びデマルチプレクサ２１０から伝達された空間情報（ＳＰ）を用いて、バックグラウンドオブジェクトをコントロールするための第２のマルチチャネル情報（ＭＩ₂）を生成する。具体的に、次の式に表現されたように、第１のマルチチャネル情報が適用された信号（すなわち、エンハンストオブジェクト（ＥＯ））をダウンミックス（ＤＭＸ）から差し引く方式で第２のマルチチャネル情報（ＭＩ₂）を生成することができる。

（ＢＯは、バックグラウンドオブジェクト信号を表し、ＤＭＸは、ダウンミックス信号を表し、ＥＯ_Lは、第Ｌのエンハンストオブジェクトを表す。）

ここで、ダウンミックスからエンハンストオブジェクトを差し引く過程は、時間ドメイン又は周波数ドメイン上で行われる。また、ダウンミックス（ＤＭＸ）のチャネル数と、第１のマルチチャネル情報が適用された信号のチャネル数（すなわち、エンハンストオブジェクトのチャネル数）とが同一である場合には、チャネル別に差し引かれる。

第１のマルチチャネル情報（ＭＩ₁）及び第２のマルチチャネル情報（ＭＩ₂）を含むマルチチャネル情報（ＭＩ）を生成し、これをマルチチャネルデコーダ２４０に伝達する。

以上のように、本発明は、限定された実施例及び図面に基づいて説明されたが、これによって限定されるものでなく、本発明の属する技術分野で通常の知識を有する者によって本発明の技術思想及び下記の特許請求の範囲の均等範囲内で多様な修正及び変形が可能であることは当然である。

本発明は、オーディオ信号をエンコーディング及びデコーディングするのに適用される。

Claims

少なくとも１つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス信号を受信し、
オブジェクト情報及びレジデュアル信号を受信し、
前記オブジェクト情報及び前記レジデュアル信号を用いて、前記ダウンミックス信号から少なくとも１つの独立オブジェクトを抽出し、
前記オブジェクト情報と、オブジェクトの位置を制御するためのオブジェクト位置情報及びオブジェクトの利得を制御するためのオブジェクト利得情報のうち少なくとも１つに基づいて生成されるミックス情報と、を用いてマルチチャネル情報を生成し、
前記マルチチャネル情報を前記少なくとも１つの独立オブジェクトに適用することによってマルチチャネル信号を生成し、
前記オブジェクト情報は、前記独立オブジェクトと前記バックグラウンドオブジェクトとの間のレベル情報及び相関情報を含むことを特徴とするオーディオ信号処理方法。
前記オブジェクト情報は、前記独立オブジェクト及び前記バックグラウンドオブジェクトに関連する情報に相当することを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記レジデュアル信号は、少なくとも１つのオブジェクトベース信号をエンハンストオブジェクトにグルーピングする過程で抽出されたものであることを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記独立オブジェクトは、オブジェクトベース信号であり、
前記バックグラウンドオブジェクトは、少なくとも１つのチャネルベース信号を含むか、少なくとも１つのチャネルベース信号がダウンミックスされた信号であることを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記バックグラウンドオブジェクトは、左側のチャネル信号及び右側のチャネル信号を含むことを特徴とする、請求項４に記載のオーディオ信号処理方法。
前記ダウンミックス信号は、放送信号を介して受信されることを特徴とする、請求項１に記載のオーディオ信号処理方法。
前記ダウンミックス信号は、デジタル媒体を介して受信されることを特徴とする、請求項１に記載のオーディオ信号処理方法。
請求項１に記載の方法を実行するためのプログラムが保存されたコンピュータ読取可能記録媒体。
少なくとも１つの独立オブジェクト及びバックグラウンドオブジェクトがダウンミックスされたダウンミックス信号を受信し、オブジェクト情報及びレジデュアル信号を受信する情報受信部と、
前記オブジェクト情報及び前記レジデュアル信号を用いて、前記ダウンミックス信号から少なくとも１つの独立オブジェクトを抽出する情報生成ユニットと、
前記オブジェクト情報と、オブジェクトの位置を制御するためのオブジェクト位置情報及びオブジェクトの利得を制御するためのオブジェクト利得情報のうち少なくとも１つに基づいて生成されるミックス情報と、を用いてマルチチャネル情報を生成するマルチチャネル情報生成部と、
前記マルチチャネル情報を前記少なくとも１つの独立オブジェクトに適用することによってマルチチャネル信号を生成するマルチチャネルデコーダと、
を含み、
前記オブジェクト情報は、前記独立オブジェクトと前記バックグラウンドオブジェクトとの間のレベル情報及び相関情報を含むことを特徴とするオーディオ信号処理装置。