JP5645951B2

JP5645951B2 - ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム

Info

Publication number: JP5645951B2
Application number: JP2012539298A
Authority: JP
Inventors: ヨナスエングデガルド; ハイコプルンハーゲン; ユールゲンヘレ; コルネリアファルヒ; オリヴァーヘルムート; レオンテレンチエフ
Original assignee: Dolby International AB
Current assignee: Dolby International AB
Priority date: 2009-11-20
Filing date: 2010-11-16
Publication date: 2014-12-24
Anticipated expiration: 2030-11-16
Also published as: KR101414737B1; RU2607267C2; PL2489038T3; CN102714038B; CA2781310A1; TW201131553A; ES2569779T3; AU2010321013B2; JP2013511738A; TWI441165B; US20120259643A1; KR20120084314A; EP2489038A1; WO2011061174A1; CN102714038A; MY154641A; EP2489038B1; BR112012012097A2; BR112012012097B1; AU2010321013A1

Description

本発明による実施例は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいて、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための装置に関する。

本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置に関する。

本発明による他の実施例は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づき、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための方法に関する。

本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法に関する。

本発明による他の実施例は、前記方法のうちの１つを実行しているコンピュータプログラムに関する。

本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームに関する。

オーディオ処理、オーディオ送信およびオーディオ記録の技術において、聴覚印象を改善するためにマルチチャネルコンテンツを扱いたいという増加している希望がある。マルチチャネルオーディオコンテンツの使用法は、ユーザのための重要な改良をもたらす。たとえば、３次元の聴覚印象は、エンターテイメントアプリケーションにおける改善されたユーザ満足をもたらすことを得ることができる。しかしながら、マルチチャネルオーディオコンテンツは、専門的な環境、たとえば、電話会議アプリケーションにおいても役立つ。なぜなら、話し手の理解度は、マルチチャネルオーディオ再生を用いることによって、改良されうるからである。

しかしながら、低コストであるか、または専門的なマルチチャネルアプリケーションにおいて過剰な資源の消費を回避するために、音声品質とビットレートの要件との間の良好なトレードオフを有することも望ましい。

マルチオーディオオブジェクトを含んでいるオーディオシーンのビットレートの効果的な送信および／またはストレージのためのパラメトリック技術は、最近、提案された。例えば、参照する非特許文献１において記載されるバイノーラルキュー符号化、および、例えば、参照する非特許文献２において記載される音源のパラメトリックジョイント符号化が、例えば、提案される。また、例えば、参照する非特許文献３および非特許文献４において記載されるＭＰＥＧ空間オーディオオブジェクト符号化が、提案される。ＭＰＥＧ空間オーディオオブジェクト符号化は、現在標準化中であり、早く刊行されない参考文献である非特許文献５において記載される。

これらの技術は、波形の合致によってよりむしろ知覚的に所望の出力シーンを再構築することで狙いをつける。

しかしながら、受信側でのユーザの双方向性と組み合わせて、極端なオブジェクトレンダリングが実行される場合、そのような技術は、出力オーディオ信号の低オーディオ品質を引き起こしうる。これは、例えば、参照する特許文献１において記載される。

以下に、そのようなシステムが記載され、基本的な概念も、本発明の実施例に適合する点に留意すべきである。

図８は、そのようなシステム（ここで：ＭＰＥＧ・ＳＡＯＣ）のシステム概要を示す。図８に示されるＭＰＥＧ・ＳＡＯＣシステム８００は、ＳＡＯＣエンコーダ８１０とＳＡＯＣデコーダ８２０とを含む。ＳＡＯＣエンコーダ８１０は、例えば、時間領域の信号として、または時間−周波数領域信号（例えば、フーリエ変換の１組の変換係数の形、またはＱＭＦサブバンド信号の形）として表される複数のオブジェクト信号ｘ₁〜ｘ_Nを受信する。ＳＡＯＣエンコーダ８１０は、通常、オブジェクト信号ｘ₁〜ｘ_Nに関連するダウンミックス係数ｄ₁〜ｄ_Nも受信する。ダウンミックス係数の別々の組は、ダウンミックス信号の各チャネルに利用できてもよい。ＳＡＯＣエンコーダ８１０は、通常、関連するダウンミックス係数ｄ₁〜ｄ_Nに関連するオブジェクト信号ｘ₁〜ｘ_Nを結合することによって、ダウンミックス信号のチャネルを得るために構成される。通常、オブジェクト信号ｘ₁〜ｘ_Nよりもダウンミックスチャネルは少ない。ＳＡＯＣデコーダ８２０側において、オブジェクト信号の分離（または別々の処理）を（少なくともおおよそ）許容するために、ＳＡＯＣエンコーダ８１０は、１以上のダウンミックス信号（ダウンミックス信号として示される）８１２とサイド情報８１４の両方を提供する。サイド情報８１４は、デコーダ側のユーザ指定の処理を許容するために、オブジェクト信号ｘ₁〜ｘ_Nの特性を記載している。

ＳＡＯＣデコーダ８２０は、１以上のダウンミックス信号８１２とサイド情報８１４の両方を受信するために構成される。また、ＳＡＯＣ８２０は、通常、所望のレンダリングの設定を記載しているユーザ相互作用情報および／またはユーザ制御情報８２２を受信するために構成される。たとえば、ユーザ相互作用情報／ユーザ制御情報８２２は、スピーカの設定、およびオブジェクト信号ｘ₁〜ｘ_Nを提供するオブジェクトの所望の空間配置を記載しうる。

現在、図９ａ、９ｂおよび９ｃを参照して、ダウンミックス信号表現およびオブジェクト関連サイド情報に基づいてアップミックス信号表現を得るための異なる装置が記載される。図９ａは、ＳＡＯＣデコーダ９２０を含むＭＰＥＧ・ＳＡＯＣシステム９００のブロック概略図を示す。ＳＡＯＣデコーダ９２０は、別々の機能的なブロックとして、オブジェクトデコーダ９２２およびミキサー／レンダラー９２６を含む。オブジェクトデコーダ９２２は、ダウンミックス表現（例えば、時間領域または時間−周波数領域において表現された１以上のダウンミックス信号の形で）およびオブジェクト関連サイド情報（例えば、オブジェクトメタデータの形で）に依存して、複数の再構成されたオブジェクト信号９２４を提供する。ミキサー／レンダラー９２４は、複数のＮ個のオブジェクトに関連する再構成されたオブジェクト信号９２４を受信し、それに基づいて、１以上のアップミックスチャネル９２８を提供する。ＳＡＯＣデコーダ９２０において、オブジェクト信号９２４を抽出することは、ミキシング／レンダリングの機能からオブジェクトを復号化する機能の分離を可能にするミキシング／レンダリングから別々に実行されるが、比較的高い計算量をもたらす。

現在、図９ｂを参照して、他のＭＰＥＧ・ＳＡＯＣシステム９３０が簡潔に述べられる。そして、それは、ＳＡＯＣデコーダ９５０を含む。ＳＡＯＣデコーダ９５０は、ダウンミックス信号（例えば、１以上のダウンミックス信号の形で）およびオブジェクト関連サイド情報（例えば、オブジェクトメタデータの形で）に依存して、複数のアップミックスチャネル信号９５８を提供する。ＳＡＯＣデコーダ９５０は、結合されたオブジェクトデコーダおよびミキサー／レンダラーを含み、そして、それは、オブジェクト復号化の分離およびミキシング／レンダリングなしに、ジョイントミキシング処理において、アップミックスチャネル信号９５８を得るために構成される。ここで、ジョイントアップミックス処理のためのパラメータは、オブジェクト関連サイド情報およびレンダリング情報の両方に依存する。ジョイントアップミックス処理は、ダウンミックス情報にも依存し、それは、オブジェクト関連サイド情報の一部であると考慮される。

上記を要約すると、アップミックスチャネル信号９２８，９５８は、１ステップ処理または２ステップ処理で実行されうる。

現在、図９ｃを参照して、ＭＰＥＧ対ＳＡＯＣシステム９６０が記載される。ＳＡＯＣデコーダよりはむしろ、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０を含む。

ＳＡＯＣ対ＭＰＥＧサラウンドは、オブジェクト関連サイド情報（例えば、オブジェクトメタデータの形で）ならびに、任意に、１以上のダウンミックス信号およびレンダリング情報を受信するために構成されるサイド情報変換コーダ９８２を含む。サイド情報変換コーダ９８２は、受信されたデータに基づき、ＭＰＥＧサラウンドサイド情報（例えば、ＭＰＥＧサラウンドビットストリームの形で）を提供するためにも構成される。従って、サイド情報変換コーダ９８２は、レンダリング情報、および任意に１以上のダウンミックス信号のコンテンツについての情報を考慮にいれて、オブジェクトエンコーダから取り除かれたオブジェクト関連（パラメトリック）サイド情報をチャネル関連の（パラメトリック）サイド情報に変換するように構成される。

任意に、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０は、操作されたダウンミックス表現９８８を得るために、例えば、ダウンミックス信号表現によって記載された１以上のダウンミックス信号を操作するように構成されうる。しかしながら、ダウンミックス信号マニピュレータ９８６は、省略されうる。そうすると、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０の出力ダウンミックス信号表現９８８は、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダの入力ダウンミックス信号表現と同一である。チャネル関連ＭＰＥＧサラウンドサイド情報９８４が、いくつかのレンダリングの一群における場合のＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０の入力ダウンミックス信号表現に基づく所望の聴覚印象を提供することを許容できない場合、ダウンミックス信号マニピュレータ９８６が使用される。

従って、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０は、ダウンミックス信号表現９８８およびＭＰＥＧサラウンドビットストリーム９８４を提供する。そして、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０に入力されたレンダリング情報に関連するオーディオオブジェクトを表す複数のアップミックスチャネル信号は、ＭＰＥＧサラウンドビットストリーム９８４およびダウンミックス信号表現９８８を受信するＭＰＥＧサラウンドデコーダを用いて生成される。

上記を要約すると、ＳＡＯＣ符号化オーディオ信号を復号化するための異なる概念が使用されうる。いくつかの場合において、ダウンミックス信号表現およびオブジェクト関連パラメトリックサイド情報に依存して、アップミックスチャネル信号（例えば、アップミックスチャネル信号９２８，９５８）を提供するＳＡＯＣデコーダが使用される。この概念の例は、図９ａおよび９ｂにおいて示される。あるいは、ＳＡＯＣ−符号化オーディオ情報は、所望のアップミックスチャネル信号を提供するためのＭＰＥＧサラウンドデコーダによって使用されるダウンミックス信号表現（例えば、ダウンミックス信号表現９８８）およびチャネル関連のサイド情報（例えば、チャネル関連ＭＰＥＧサラウンドビットストリーム９８４）を得るために変換されうる。

ＭＰＥＧ・ＳＡＯＣシステム８００において、システムの概要は、図８において与えられ、一般の処理は、周波数選択方法で行われて、各周波数帯の範囲内で以下の通りに記載されうる：

・Ｎ個のオーディオオブジェクト信号ｘ₁〜ｘ_Nは、ＳＡＯＣエンコーダ処理の一部としてダウンミックスされる。モノラルのダウンミックスに対して、ダウンミックス係数は、ｄ₁〜ｄ_Nによって示される。加えて、ＳＡＯＣエンコーダ８１０は、入力オーディオオブジェクトの特徴を記載しているサイド情報を抽出する。ＭＰＥＧ・ＳＡＯＣのために、各々に関するオブジェクトパワーの関係は、そのようなサイド情報の最も基本的な形である。

・ダウンミックス信号（または複数の信号）８１２およびサイド情報８１４は、送信されおよび／または格納される。この目的で、ダウンミックスオーディオ信号は、ＭＰＥＧ−１レイヤーＩＩまたはＩＩＩ（「ｍｐ３」として知られる）、ＭＰＥＧ・ＡＡＣ（ＡＡＣ：ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）またはいくつかの他のオーディオコーダのような周知の知覚的なオーディオコーダを使用して圧縮されうる。

・効率的に、オブジェクト信号の分離は、まず実行されない（または、決して実行されさえしない）、なぜなら、（オブジェクトセパレータ８２０ａによって示される）分離ステップおよび（ミキサー８２０ｃによって示される）ミキシングステップの両方は、単一変換符号化ステップに結合される。そして、それは、しばしば、計算量の大きな減少を結果として得るからである。

送信ビットレート（それは、Ｎ個の別々のオブジェクトオーディオ信号または離散システムの代わりに２、３のダウンミックスチャネルさらに若干のサイド情報を送信するのに必要なだけである）および計算量（処理の複雑さは、主に、オーディオオブジェクトの数よりむしろ出力チャネルの数に関する）に関して、そのようなスキームが大いに効率的であることが分かっている。受信側におけるユーザのための更なる効果は、彼／彼女の選んだ方（モノラル、ステレオ、サラウンド、仮想化されたヘッドホン再生、その他）のレンダリング設定およびユーザの双方向性の特徴を選択することの自由を含む：レンダリングマトリックス、およびこのように出力シーンは、セットされることができ、願望、個人の選択または他の基準にしたがって、ユーザによって相互作用的に変わることができる。例えば、他の残りの話し手から区別を最大にするために、一緒に１つの空間領域の１つのグループから話しての位置を決めることは、可能である。この双方向性は、デコーダにユーザインタフェースを提供することによって達成される：

送信されたサウンドオブジェクトごとに、その相対的なレベルおよび（非モノラルのレンダリングのための）レンダリングの空間位置が調整されうる。ユーザが付随するグラフィカルユーザインタフェース（ＧＵＩ）スライダ（例えば：オブジェクトレベル＝＋５ｄＢ，オブジェクトポジション＝−３０ｄｅｇ）の位置を変えるにつれて、これはリアルタイムに起こりうる。

米国特許出願６１／１７３，４５６号

Ｃ．ＦａｌｌｅｒａｎｄＦ．Ｂａｕｍｇａｒｔｅ， "ＢｉｎａｕｒａｌＣｕｅＣｏｄｉｎｇ − ＰａｒｔＩＩ：Ｓｃｈｅｍｅｓａｎｄａｐｐｌｉｃａｔｉｏｎｓ"，ＩＥＥＥＴｒａｎｓ．ｏｎＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃ．，ｖｏｌ．１１，ｎｏ．６，Ｎｏｖ．２００３．Ｃ．Ｆａｌｌｅｒ， "ＰａｒａｍｅｔｒｉｃＪｏｉｎｔ−ＣｏｄｉｎｇｏｆＡｕｄｉｏＳｏｕｒｃｅｓ"，１２０ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ｐａｒｉｓ，２００６，Ｐｒｅｐｒｉｎｔ６７５２．Ｊ．Ｈｅｒｒｅ，Ｓ．Ｄｉｓｃｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ｏ．Ｈｅｌｌｍｕｔｈ： "ＦｒｏｍＳＡＣＴｏＳＡＯＣ − ＲｅｃｅｎｔＤｅｖｅｌｏｐｍｅｎｔｓｉｎＰａｒａｍｅｔｒｉｃＣｏｄｉｎｇｏｆＳｐａｔｉａｌＡｕｄｉｏ"，２２ｎｄＲｅｇｉｏｎａｌＵＫＡＥＳＣｏｎｆｅｒｅｎｃｅ，Ｃａｍｂｒｉｄｇｅ，ＵＫ，Ａｐｒｉｌ２００７．Ｊ．Ｅｎｇｄｅｇaｒｄ，Ｂ．Ｒｅｓｃｈ，Ｃ．Ｆａｌｃｈ，Ｏ．Ｈｅｌｌｍｕｔｈ，Ｊ．Ｈｉｌｐｅｒｔ，Ａ．Ｈoｌｚｅｒ，Ｌ．Ｔｅｒｅｎｔｉｅｖ，Ｊ．Ｂｒｅｅｂａａｒｔ，Ｊ．Ｋｏｐｐｅｎｓ，Ｅ．ＳｃｈｕｉｊｅｒｓａｎｄＷ．Ｏｏｍｅｎ： "ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ） - ＴｈｅＵｐｃｏｍｉｎｇＭＰＥＧＳｔａｎｄａｒｄｏｎＰａｒａｍｅｔｒｉｃＯｂｊｅｃｔＢａｓｅｄＡｕｄｉｏＣｏｄｉｎｇ"，１２４ｔｈＡＥＳＣｏｎｖｅｎｔｉｏｎ，Ａｍｓｔｅｒｄａｍ２００８，Ｐｒｅｐｒｉｎｔ７３７７．ＩＳＯ／ＩＥＣ， "ＭＰＥＧａｕｄｉｏｔｅｃｈｎｏｌｏｇｉｅｓ - Ｐａｒｔ２：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ），" ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ）ＦＣＤ２３００３−２．ＥＢＵＴｅｃｈｎｉｃａｌｒｅｃｏｍｍｅｎｄａｔｉｏｎ： "ＭＵＳＨＲＡ−ＥＢＵＭｅｔｈｏｄｆｏｒＳｕｂｊｅｃｔｉｖｅＬｉｓｔｅｎｉｎｇＴｅｓｔｓｏｆＩｎｔｅｒｍｅｄｉａｔｅＡｕｄｉｏＱｕａｌｉｔｙ"，Ｄｏｃ．Ｂ／ＡＩＭ０２２，Ｏｃｔｏｂｅｒ１９９９．ＩＳＯ／ＩＥＣＪＴＣ１／ＳＣ２９／ＷＧ１１（ＭＰＥＧ），ＤｏｃｕｍｅｎｔＮ１０８４３， "ＳｔｕｄｙｏｎＩＳＯ／ＩＥＣ２３００３−２：２００ｘＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ（ＳＡＯＣ）"，８９ｔｈＭＰＥＧＭｅｅｔｉｎｇ，Ｌｏｎｄｏｎ，ＵＫ，Ｊｕｌｙ２００９

本発明による実施形態は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいて、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための装置である。装置は、ユーザ指定のレンダリングマトリックスと線形結合パラメータに基づくターゲットレンダリングマトリックスとの線形結合を用いて、修正レンダリングマトリックスを得るために構成されるディストーションリミッタを含む。装置は、また、修正レンダリングマトリックスを用いて、ダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいてアップミックス信号表現を得るために構成される信号プロセッサを含む。装置は、線形結合パラメータを得るために、線形結合パラメータを表しているビットストーム要素を評価するように構成される。

本発明によるこの実施形態は、アップミックス信号表現の認識可能な歪みが、ユーザ指定のレンダリングマトリックスおよびオーディオコンテンツのビットストリーム表現から抽出された線形結合パラメータに依存するターゲットレンダリングマトリックスの線形結合を実行することによって、低い計算量よって低減され、または回避しうるという鍵となる考えに基づく。なぜなら、線形結合が効率的に実行され、そして、オーディオ信号デコーダ（アップミックス信号表現を提供するための装置）の側でより典型的に計算利用可能なパワーのあるところで、線形結合パラメータを決定する厳しい作業の実行がオーディオ信号エンコーダ側で実行されるからである。

従って、上述した概念は、アップミックス信号表現を提供するための装置にいくつかの重要な複雑さを加えることなく、ユーザ指定のレンダリングマトリックスの不適当な選択のためさえ低減された認識可能な歪みを結果として得る修正レンダリングマトリックスを得ることを可能にする。特に、ディストーションリミッタなしの装置と比較した場合、特に、信号プロセッサを修正する必要さえない、なぜなら、修正レンダリングマトリックスは、信号プロセッサの入力量を構成し、単にユーザ指定のレンダリングマトリックスを置き換えるだけだからである。加えて、発明の概念は、オーディオ信号エンコーダが、オーディオコンテンツのビットストリーム表現において含まれる線形結合パラメータを単にセットすることによって、エンコーダ側において特定される要件に従って、オーディオ信号デコーダ側で適用されるディストーション限定スキームを調整することができる効果をもたらす。従って、オーディオ信号エンコーダは、線形結合パラメータを適切に選択することによって、（アップミックス信号表現を提供するための装置）デコーダのユーザに、レンダリングマトリックスの選択に関して、より多かれ少なかれ自由を段階的に提供することができる。これは、所与のサービスのためのユーザの期待にオーディオ信号デコーダの適合を考慮に入れる、なぜなら、いくつかのサービスに対して、ユーザは、（適宜に、レンダリングマトリックスを調整するというユーザの可能性を減少することを暗示する）最大の品質を期待するからである。その一方で、他のサービスのために、ユーザは、（ユーザ指定のレンダリングマトリックスのインパクトを線形結合の結果に増加することを暗示する）概して最大自由度を期待することができる。

上記を要約すると、発明の概念は、信号プロセッサを修正する必要をもたらすことなく、シンプルな実施の可能性を有する携帯用のオーディオデコーダのための特に重要なデコーダ側で高い計算効率を結合して、オーディオサービスの異なるタイプのためのユーザの期待を満たすために重要であり、オーディオサービスの異なるタイプのユーザの期待を満たすために重要なオーディオ信号エンコーダの高度な制御を提供する。

好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、ターゲットレンダリングマトリックスは、歪みのないターゲットレンダリングマトリックスである。これは、レンダリングマトリックスの選択によって生じる歪みがないか、または少なくとも少しの歪みしかない再生シナリオを有するという可能性をもたらす。また、歪みのないターゲットレンダリングマトリックスは、いくつかのケースにおいて非常に単純な方法で実行しうることが分かっている。さらに、レンダリングマトリックスが、典型的に、よい聴覚印象を結果として得るユーザ指定のレンダリングマトリックスおよび歪みのないターゲットレンダリングマトリックスの間において選択されることが分かっている。

好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、そのようなターゲットレンダリングマトリックスは、ダウンミックス類似（ｄｏｗｎｍｉｘ−ｓｉｍｉｌａｒ）のターゲットレンダリングマトリックスである。ダウンミックス類似のターゲットレンダリングマトリックスの利用は、非常に低い、または最小の歪みをもたらす。また、そのようなダウンミックス類似のターゲットレンダリングマトリックスは、非常に低い計算効果を得ることができる。なぜなら、ダウンミックス類似のターゲットレンダリングマトリックスは、一般のスケーリングファクタを有するダウンミックスマトリックスの全体を拡大・縮小し、そして、さらに、ゼロエントリを加えることによって得られうるからである。

好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために、エネルギー規格化スカラー（ｅｎｅｒｇｙｎｏｍａｌｉｚａｔｉｏｎｓｃａｌａｒ）を用いて拡張ダウンミックスマトリックスを拡大・縮小するために構成される。ここで、拡張ダウンミックスマトリックスは、（ダウンミックスマトリックスのその行は、複数のオーディオオブジェクト信号の寄与をダウンミックス信号表現の１以上のチャネルに記述する）０要素の行によって拡張されてダウンミックスマトリックスの拡張バージョンであり、その結果、拡張ダウンミックスマトリックスのいくつかの行は、ユーザ指定のレンダリングマトリックスによって記述されたレンダリングの一群と同一である。従って、拡張ダウンミックスマトリックスは、ダウンミックスマトリックスから拡張されたダウンミックスマトリックスに値のコピー、ゼロマトリックスエントリの追加、および同じエネルギー規格化スカラーを有するすべてのマトリックス要素のスカラー乗算を用いて得られる。これらの手順の全ては、非常に効率的に実行され、そのようなターゲットレンダリングマトリックスは、非常にシンプルなオーディオデコーダにおいてさえ、早く得られうる。

好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、そのようなターゲットレンダリングマトリックスは、ベストエフォート型ターゲットレンダリングマトリックスである。このようなアプローチは、ダウンミックス類似のターゲットレンダリングマトリックスの利用より計算的にいくらかの要求が多い場合であっても、ベストエフォート型ターゲットレンダリングマトリックスの利用は、ユーザの所望のレンダリングシナリオのより良い考慮を提供する。歪み、または重要な歪みを導くことなく、可能な限りターゲットレンダリングマトリックスを決定する場合、ベストエフォート型ターゲットレンダリングマトリックスを使用することは、所望のレンダリングマトリックスのユーザの定義が考慮に入れられる。特に、ベストエフォート型ターゲットレンダリングマトリックスは、複数のスピーカ（または、アップミックス信号表現のチャネル）のための所望の音量を考慮にいれる。従って、ベストエフォート型ターゲットレンダリングマトリックスを使用する場合、改良された聴覚印象が結果として得られる。

好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、ターゲットレンダリングマトリックスは、ダウンミックスマトリックスおよびユーザ指定のレンダリングマトリックスに依存する。従って、ターゲットレンダリングマトリックスは、ユーザの期待に比較的近いが、実質的に歪みのないオーディオレンダリングを提供する。このように線形結合パラメータは、ユーザの所望のレンダリングに近いものおよび認識可能な歪みの最小化の間のトレードオフを決定する。ここで、線形結合パラメータは、ターゲットレンダリングマトリックスが線形結合を支配しなければならないことを示す場合であっても、ターゲットレンダリングマトリックスの計算のためのユーザ指定のレンダリングマトリックスの考慮は、ユーザの所望の良好な満足感を提供する。

好ましい実施形態において、ディストーションリミッタは、アップミックス信号表現を提供する装置の複数の出力オーディオチャネルのためのチャネル個別の規格化値（ｃｈａｎｎｅｌ−ｉｎｄｉｖｉｄｕａｌｎｏｒｍａｌｉｚａｔｉｏｎｖａｌｕｅ）を含む。そのような、装置の所与の出力チャネルのためのエネルギー規格化値は、少なくとも、ほぼ、複数のオーディオオブジェクトのためのユーザ指定のレンダリングマトリックスにおける所与の出力オーディオチャネルと関連するエネルギーレンダリング値の合計と、複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を記載する。従って、装置の異なる出力チャネルの音量に関するユーザの期待は、ある程度対処されうる。

この場合、ディストーションリミッタは、所与の出力チャネルに関連するターゲットレンダリングマトリックスの１組のレンダリング値を得るために、関連するチャネル個別のエネルギー規格化値を用いて１組のダウンミックス値を拡大・縮小するために構成される。従って、装置の出力チャネルに対する所与のオーディオオブジェクトの相対的な寄与は、ダウンミックス信号表現に所与のオーディオオブジェクトの相対的な寄与と同一である。そして、それは、実質的にオーディオオブジェクトの相対的な寄与の改良によって生じる認識可能な歪みを回避されえないことを許容する。従って、装置の出力チャネルの各々は、実質的には歪められていない。にもかかわらず、オーディオオブジェクトの極端に急激な空間的分離またはオーディオオブジェクトの相対的強度の過剰な修正によって生じる歪みを回避するために、オーディオオブジェクトの位置の詳細および／または互いに関してオーディオオブジェクトの相対的強度をどのように変えるかさえ、（少なくとも数度）考慮されていないけれども、複数のスピーカ（またはアップミックス信号表現のチャネル）の上の音量分布に関するユーザの期待が考慮に入れられる。

このように、ダウンミックス信号表現はより少ないチャネルを含むにもかかわらず、複数のオーディオオブジェクトのためのユーザ指定のレンダリングマトリックスにおける所与の出力オーディオチャネルと関連するエネルギーレンダリング値（例えば、マグニチュードレンダリング値の二乗）の合計と複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を評価することが、すべての出力オーディオチャネルを考慮することを許容する。一方、オーディオオブジェクトの空間再分布によって、または異なるオーディオオブジェクトの相対的な音量の過剰な変更によって生じる歪みをさらに回避する。

好ましい実施形態において、ディストーションリミッタは、ユーザ指定のレンダリングマトリックスおよびダウンミックスマトリックスに依存して、アップミックス信号表現を提供する装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化を記載しているマトリックスを算出するように構成される。この場合、ディストーションリミッタは、ダウンミックス信号表現の異なるチャネルと関連する１組のダウンミックス値（すなわち、ダウンミックス信号のチャネルを得るために異なるオーディオオブジェクトのオーディオ信号に適用されるスケーリングを記載している値）の線形結合として、装置の所与の出力オーディオチャネルと関連するターゲットレンダリングマトリックスの１組のレンダリング係数を得るためにチャネル個別のエネルギー規格値を記載しているマトリックスを適用するために構成される。この概念を用いて、ダウンミックス信号表現が複数のオーディオチャネルを含む場合でさえも、所望のユーザ指定のレンダリングマトリックスによく適しているターゲットレンダリングマトリックスが得られ、その一方、実質的にさらに歪みを回避する。１組のダウンミックス値の線形結合の形成が、概して小さい認識可能な歪みだけが生じる１組のレンダリング係数を結果として得ることが分かっている。にもかかわらず、ターゲットレンダリングマトリックスを導出するためのそのようなアプローチを用いてユーザの期待に近づくことが可能であることが分かっている。

好ましい実施形態において、オーディオコンテンツのビットストリーム表現から線形結合パラメータを表しているインデックス値を読み取るために、およびパラメータ量子化テーブルを用いて、インデックス値を線形結合パラメータにマッピングするために構成される。このアプローチは、１次元のマッピングテーブルよりむしろ、複雑な計算が実行される他の可能な概念と比較したとき、このアプローチは、ユーザの満足感および計算量の間のより良好なトレードオフをもたらすことが分かっている。

好ましい実施形態において、量子化テーブルは、不均一性の量子化を記載し、ここで、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスのより強い寄与を記載する線形結合パラメータのより小さい値は、より高い解像度によって量子化され、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスのより小さい寄与を記載する線形結合パラメータのより大きな値は、より低い解像度によって量子化される。多くの場合、レンダリングマトリックスの極端な設定だけが、重要な認識可能な歪みをもたらすことが分かっている。従って、ユーザのレンダリングの期待の遂行および認識可能な歪みの最小化の間の最適なトレードオフを許容する設定を得るために、ターゲットレンダリングマトリックスにユーザ指定のレンダリングマトリックスのより強い寄与の領域においてより重要であることがわかっている。

好ましい実施形態において、装置は、ディストーションリミテーションモード（ｄｉｓｔｏｒｔｉｏｎｌｉｍｉｔａｔｉｎｍｏｄｅ）を記載しているビットストリーム要素を評価するために構成される。この場合、ディストーションリミッタは、ターゲットレンダリングマトリックスがダウンミックス類似のターゲットレンダリングマトリックスであるか、またはターゲットレンダリングマトリックスがベストエフォート型ターゲットレンダリングマトリックスであるように、ターゲットレンダリングマトリックスを選択的に得るために、好ましくは構成される。このようなスイッチで切り替え可能な概念が、ユーザのレンダリングの期待の遂行および異なるオーディオ部分のための認識可能な歪みの最小化の間の良好なトレードオフを得るという効果的な可能性を提供することが分かっている。この概念も、また、デコーダ側において、実際のレンダリング上のオーディオ信号エンコーダの良好な制御を許容する。従って、多種多様な異なるオーディオサービスの要件が、満たされうる。

本発明による他の実施形態は、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置を創出する。

装置は、複数のオーディオオブジェクト信号に基づいてダウンミックス信号を提供するために構成されるダウンミキサーを含む。装置は、また、オーディオオブジェクト信号およびダウンミックスパラメータの特徴を記載しているオブジェクト関連パラメトリックサイド情報、および修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの寄与を記載している線形結合パラメータを提供するために構成される。また、ビットストリームを提供するための装置は、ダウンミックス信号、オブジェクト関連パラメトリックサイド情報および線形結合パラメータの表現を含むビットストリームを提供するために構成される、ビットストリームフォーマッタを含む。

マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、アップミックス信号表現を提供するための上述した装置との協力に対して適切である。マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、オーディオオブジェクト信号のその知見に依存して線形結合パラメータを提供することを許容する。従って、オーディオエンコーダ（すなわち、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置）は、線形結合パラメータを評価するオーディオデコーダ（アップミックス信号表現を提供している上述した装置）によって提供されるレンダリング品質に強い影響を及ぼしうる。このように、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、多くの異なるシナリオにおいて改善されたユーザの満足感を提供するレンダリングの結果に対する制御の非常に高いレベルを有する。従って、ユーザが認識可能な歪みのリスクを犯して極端なレンダリング設定を使用することを許容するかどうか、それは、実際、線形結合パラメータを使用してガイダンスを提供するサービスプロバイダのオーディオエンコーダである。このようにユーザの失望は、対応する負の経済結果とともに、上述したオーディオエンコーダを用いて回避されうる。

本発明による他の実施形態は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメータ情報に基づき、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための方法を創出する。この方法は、上述した装置と同じ鍵となる考えに基づく。

本発明による他の方法は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法を創出する。前記方法は、上述した装置と同じ知見に基づく。

本発明による他の実施例は、上記方法を実行するためのコンピュータプログラムを創出する。

本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを創出する。ビットストリームは、オーディオオブジェクトの特徴を記載しているオブジェクト関連パラメトリックサイド情報における複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現を含む。また、ビットストリームは、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの寄与を記載する線形結合パラメータを含む。前記ビットストリームは、オーディオ信号エンコーダ側からデコーダ側のレンダリングパラメータ上のいくつかの程度の制御を許容する。

本発明による実施形態は、同封の数字の参照をして、その後記載されている。

図１ａは、本発明の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。図１ｂは、本発明の実施形態による、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置のブロック概略図を示す。図２は、本発明の他の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。図３ａは、本発明の実施形態による、マルチチャネルオーディオ信号を表しているビットストリームの概略図を示す。図３ｂは、本発明の実施形態による、ＳＡＯＣに特有の設定情報の詳細な構文表現を示す。図３ｃは、本発明の実施形態による、ＳＡＯＣフレーム情報の詳細な構文表現を示す。図３ｄは、ＳＡＯＣビットストリームにおいて使用されうるビットストリーム要素「ｂｓＤｃｕＭｏｄｅ」の歪み制御モードの符号化の概略図を示す。図３ｅは、ＳＡＯＣビットストリームにおいて、線形結合情報を符号化するために使用されうるビットストリームインデックスｉｄｘおよび線形結合パラメータ「ＤｃｕＰａｒａｍ［ｉｄｘ］」の値の間の関連性のテーブル表現を示す。図４は、本発明の他の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。図５ａは、本発明の実施形態による、ＳＡＯＣに特有の設定情報の構文表現を示す。図５ｂは、ＳＡＯＣビットストリームにおいて、線形結合パラメータを符号化するために使用されうるビットストリームインデックスｉｄｘおよび線形結合パラメータＰａｒａｍ［ｉｄｘ］の間の関連性のテーブル表現を示す。図６ａは、リスニングテストの条件を記載している表を示す。図６ｂは、リスニングテストのオーディオ項目を記載している表を示す。図６ｃは、シナリオを復号化しているステレオ対ステレオに対するＳＡＯＣのテストされたダウンミックス／レンダリング条件を記載している表を示す。図７は、ステレオ対ステレオに対するＳＡＯＣシナリオのための歪み制御装置（ＤＣＵ：ｄｉｓｔｏｒｔｉｏｎｃｏｎｔｒｏｌｕｎｉｔ）リスニングテストの結果のグラフで示したものを示す。図８は、参考ＭＰＥＧＳＡＯＣシステムのブロック概略図を示す。図９ａは、別々のデコーダおよびミキサーを用いた参考ＳＡＯＣシステムのブロック概略図を示す。図９ｂは、一体化されたデコーダおよびミキサーを用いた参考ＳＡＯＣシステムのブロック概略図を示す。図９ｃは、ＳＡＯＣ対ＭＰＥＧ変換コーダを使用している参考ＳＡＯＣシステムのブロック概略図を示す。

１．図１ａによる、アップミックス信号表現を提供するための装置
図１ａは、本発明の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。

装置１００は、ダウンミックス信号表現１１０およびオブジェクト関連パラメータ情報１１２を受信するために構成される。また、装置１００は、線形結合パラメータ１１４を受信するために構成される。ダウンミックス信号表現１１０、オブジェクト関連パラメトリック情報１１２および線形結合パラメータ１１４の全ては、オーディオコンテンツにおけるビットストリーム表現に含まれる。例えば、線形結合パラメータ１１４は、前記ビットストリーム表現の中でビットストリーム要素によって記載されている。また、装置１００は、ユーザ指定のレンダリングマトリックスを定義するレンダリング情報１２０を受信するために構成される。

装置１００は、アップミックス信号表現１３０、例えば、個別のチャネル信号またはＭＰＥＧサラウンドサイド情報と結合するＭＰＥＧサラウンドダウンミックス信号を提供するために構成される。

装置１００は、ユーザ指定のレンダリングマトリックス１４４（レンダリング情報１２０として直接的又は間接的に記載される）と、たとえばｇ_DCUで示される線形結合パラメータ１４６に依存するターゲットレンダリングマトリックスとの線形結合を用いて、修正レンダリングマトリックス１４２を得るために構成されるディストーションリミッタ１４０を含む。

装置１００は、例えば、線形結合パラメータを得るために線形結合パラメータ１４６を表しているビットストリーム要素１１４を評価するように構成されうる。

また、装置１００は、修正レンダリングマトリックス１４２を用いてダウンミックス信号表現１１０およびオブジェクト関連パラメトリック情報に基づいてアップミックス信号表現１３０を得るために構成される信号プロセッサ１４８を含む。

従って、装置１００は、アップミックス信号表現に、例えば、ＳＡＯＣ信号処理器１４８または他のいかなるオブジェクト関連信号処理器１４８も使用している良好なレンダリング品質を提供することができる。ほとんど、または全てのケースで、十分に小さい歪みを有する十分に良好な聴覚印象が達成されるように、修正レンダリングマトリックス１４２は、ディストーションリミッタ１４０によって適応される。修正レンダリングマトリックスは、概して、「中間的な」ユーザ指定の（所望の）レンダリングマトリックスおよびターゲットレンダリングマトリックスのままである。ここで、ユーザ指定のレンダリングマトリックスに対する、およびターゲットレンダリングマトリックスに対する修正レンダリングマトリックスのある程度の類似点は、線形結合パラメータによって決定される。そして、それは、結果として、アップミックス信号表現１３０の達成可能なレンダリング品質および／または最大の歪みレベルの調整を許容する。

信号プロセッサ１４８は、たとえば、ＳＡＯＣ信号プロセッサでもよい。従って、信号プロセッサ１４８は、ダウンミックス信号表現１１０によってダウンミックスされた形で表現されたオーディオオブジェクトの特徴を記載しているパラメータを得るために、オブジェクト関連パラメトリック情報１１２を評価するために構成される。加えて、信号プロセッサ１４８は、複数のオーディオオブジェクトのオーディオオブジェクト信号を結合することによってダウンミックス信号表現１１０を導出するためにオーディオコンテンツのビットストリーム表現を提供するためのオーディオエンコーダ側において使用されるダウンミックスの手順を記載しているパラメータを得る（例えば、受信する）。このように、信号プロセッサ１４８は、例えば、所与のオーディオフレームのための複数のオーディオオブジェクトおよび１以上の周波数帯のレベル差を記載しているオブジェクトレベル差情報ＯＬＤ（ｏｂｊｅｃｔ−ｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅｉｎｆｏｒｍａｔｉｏｎ）および所与のオーディオフレームのための複数の対のオーディオオブジェクトのオーディオ信号と１以上の周波数帯との間の相関関係を記載している内部オブジェクト相関情報ＩＯＣ（ｉｎｔｅｒ−ｏｂｊｅｃｔｃｏｒｒｅｌａｔｉｏｎｉｎｆｏｒｍａｔｉｏｎ）を評価する。加えて、信号プロセッサ１４８は、また、例えば、１以上のダウンミックスゲインパラメータＤＭＧ（ｄｏｗｎｍｉｎｇａｉｎｐａｒａｍｅｔｅｒ）および１以上のダウンミックスチャネルレベル差パラメータＤＣＬＤ（ｄｏｗｎｍｉｘｃｈａｎｎｅｌｌｅｖｅｌｄｉｆｆｅｒｅｎｃｅｐａｒａｍｅｔｅｒ）の形で、オーディオコンテンツのビットストリーム表現を提供するオーディオエンコーダの側で実行されるダウンミックスを記載しているダウンミックス情報ＤＭＧ，ＤＣＬＣを評価する。

加えて、信号プロセッサ１４８は、異なるオーディオオブジェクトのオーディオコンテンツ含むアップミックス信号表現１３０のオーディオチャネルを指し示す修正レンダリングマトリックス１４２を受信する。従って、信号プロセッサ１４８は、（ＤＭＧ情報およびＤＣＬＤ情報から得られる）ダウンミックス処理のその知見と同様に、オーディオオブジェクトの（ＯＬＤ情報およびＩＯＣ情報から得られる）その知見を用いてダウンミックス信号表現に対する異なるオーディオオブジェクトの寄与を決定するために構成される。さらに、修正レンダリングマトリックス１４２が考慮されるように、信号プロセッサは、アップミックス信号表現を提供する。

同様に、信号プロセッサ１４８は、デコーダ／ミキサー９２０の役割を引き受けうる。ここで、ダウンミックス信号表現１１０は、１以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報１１２は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス１４２は、ミキサー／レンダラー９２６へ入力されるレンダリング情報の役割を引き受け、そして、チャネル信号９２８は、アップミックス信号表現１３０の役割を引き受ける。

あるいは、信号プロセッサ１４８は、一体化されたデコーダおよびミキサー９５０の機能を実行することができる。ここで、ダウンミックス信号表現１１０は、１以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報１１２は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス１４２は、オブジェクトデコーダ＋ミキサー／レンダラー９５０に入力されるレンダリング情報の役割を引き受け、そして、チャネル信号９５８は、アップミックス信号表現１３０の役割を引き受ける。

あるいは、信号プロセッサ１４８は、ＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０の機能を実行することができる。ここで、ダウンミックス信号表現１１０は、１以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報１１２は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス１４２は、レンダリング情報の役割を引き受け、そして、ＭＰＥＧサラウンドビットストリーム９８４と結合する１以上のダウンミックス信号９８８は、アップミックス信号表現１３０の役割を引き受ける。

従って、信号プロセッサ１４８の機能の詳細に関して、参考は、ＳＡＯＣデコーダ８２０、別々のデコーダおよびミキサー９２０、一体化したデコーダおよびミキサー９５０、およびＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０の説明になされる。参考は、たとえば、信号プロセッサ１４８の機能に関して、非特許文献３および非特許文献４になされもする。ここで、ユーザ指定のレンダリングマトリックス１２０よりむしろ修正レンダリングマトリックス１４２は、本発明による実施形態において、入力レンダリング情報の役割を引き受ける。

さらに、ディストーションリミッタ１４０の機能に関する詳細は後述する。

２．図１ｂによる、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置
図１ｂは、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置１５０のブロック概略図を示す。

装置１５０は、複数のオーディオオブジェクト信号１６０ａ〜１６０Ｎを受信するために構成される。さらに、装置１５０は、オーディオオブジェクト信号１６０ａ〜１６０Ｎによって記載されているマルチチャネルオーディオ信号を表しているビットストリーム１７０を提供するために構成される。

装置１５０は、複数のオーディオオブジェクト信号１６０ａ〜１６０Ｎに基づくダウンミックス信号１８２を提供するために構成されるダウンミキサー１８０を含む。また、装置１５０は、ダウンミキサー１８０により使用されるオーディオオブジェクト信号１６０ａ〜１６０Ｎの特徴およびダウンミックスパラメータを記載しているオブジェクト関連パラメトリックサイド情報１８６を提供するために構成されるサイド情報プロバイダー１８４を含む。また、サイド情報プロバイダー１８４は、修正レンダリングマトリックスに対して（所望の）ユーザ指定のレンダリングマトリックスおよびターゲット（低歪みの）レンダリングマトリックスの所望の特徴を記載している線形結合パラメータ１８８を提供するために構成される。

例えば、オブジェクト関連パラメトリックサイド情報１８６は、オーディオオブジェクト信号１６０ａ〜１６０Ｎ（例えば、帯域単位の方法で）のオブジェクトレベル差を記載しているオブジェクトレベル差情報（ＯＬＤ）も含む。また、オブジェクト関連パラメトリックサイド情報オーディオオブジェクト信号１６０ａ〜１６０Ｎの間の相関関係を記載している内部オブジェクト相関情報（ＩＯＣ）を含む。加えて、オブジェクト関連パラメトリックサイド情報は、ダウンミックスゲイン（例えば、オブジェクト単位の方法で）を記載しうる。ここで、ダウンミックスゲイン値は、オーディオオブジェクト信号１６０ａ〜１６０Ｎを結合するダウンミックス信号１８２を得るためにダウンミキサー１８０により使用される。オブジェクト関連パラメトリックサイド情報１８６は、ダウンミックス信号１８２（ダウンミックス信号１８２がマルチチャネル信号である場合）のマルチチャネルのためのダウンミックスレベルの間の差を記載しているダウンミックスチャネルレベル差（ＤＣＬＤ）を含みうる。

線形結合パラメータ１８８は、例えば０および１の間の数の値であり、ユーザ指定のダウンミックスマトリックスのみを使用すること（例えば、パラメータ値が０）、ターゲットレンダリングマトリックスのみを使用すること（例えば、パラメータ値が１）またはこれらの両極端の間におけるユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスのいくつかの所与の組み合わせを使用すること（例えば、パラメータ値が０と１の間）を記載している。

また、装置１５０は、ビットストリームがダウンミックス信号１８２、オブジェクト関連パラメトリックサイド情報１８６および線形結合パラメータ１８８を含むように、ビットストリーム１７０を提供するために構成されるビットストリームフォーマッタ１９０を含む。

従って、装置１５０は、図８によるＳＡＯＣエンコーダ８１０または図９ａ−９ｃによるオブジェクトエンコーダの機能を実行する。オーディオオブジェクト信号１６０ａ〜１６０Ｎは、例えば、ＳＡＯＣエンコーダ８１０によって受信されたオブジェクト信号ｘ₁〜ｘ_Nと同等である。例えば、ダウンミックス信号１８２は、１以上のダウンミックス信号８１２と同等でありうる。例えば、オブジェクト関連パラメトリックサイド情報１８６は、サイド情報８１４またはオブジェクトメタデータと同等でありうる。しかしながら、前記１チャネルダウンミックス信号またはマルチチャネルダウンミックス信号および前記オブジェクト関連パラメトリックサイド情報１８６に加えて、ビットストリーム１７０が、線形結合パラメータ１８８も符号化しうる。

従って、オーディオエンコーダとしてみなされる装置１５０は、歪み制御スキームのデコーダ側の取扱いに影響を及ぼし、装置１５０がビットストリーム１７０を受信しているオーディオデコーダ（例えば、装置１００）によって提供される充分なレンダリング品質を期待するように、適切に線形結合パラメータ１８８をセットすることによって、ディストーションリミッタ１４０によって実行される。

例えば、サイド情報プロバイダー１８４は、装置１５０の任意のユーザインタフェース１９９から受信された良質な要件情報に依存する線形結合パラメータをセットしうる。あるいは、または加えて、サイド情報プロバイダー１８４は、オーディオオブジェクト信号１６０ａ〜１６０Ｎおよびダウンミキサー１８０のダウンミックスパラメータの特徴を考慮に入れることもできる。この線形結合パラメータの考慮の下、オーディオ信号デコーダによって得られると期待されるレンダリング品質がサイド情報プロバイダー１８４によって充分であるとみなされるように、例えば、装置１５０は、１以上の最悪のケースのユーザ指定のレンダリングマトリックスの仮定の下、オーディオデコーダで得られる歪みの度合いを評価し、線形結合パラメータ１８８を調整しうる。サイド情報プロバイダー１８４は、アップミックス信号表現のオーディオ品質が、極端なユーザ指定のレンダリング設定においてさえ大きく劣化しないと分かる場合、例えば、装置１５０は、線形結合パラメータ１８８を修正レンダリングマトリックス上へ強いユーザのインパクト（ユーザ指定のレンダリングマトリックスの影響）を許容する値にセットすることができる。オーディオオブジェクト１６０ａ〜１６０Ｎが充分に同程度である場合、例えば、これの場合でありうる。対照的に、サイド情報プロバイダー１８４は、極端なレンダリング設定が強い認識可能な歪みに至ることが分かる場合、サイド情報プロバイダー１８４は、線形結合パラメータ１８８をユーザ（またはユーザ指定のレンダリングマトリックス）の比較的小さなインパクトを許容する値にセットすることができる。オーディオデコーダ側でのオーディオオブジェクトの明確な分離が困難（または認識可能な歪みを関係がある）であるように、オーディオオブジェクト１６０ａ〜１６０Ｎが充分に異なる場合、例えば、これの場合でありうる。

装置１５０は、装置１５０の側においてのみ利用できる線形結合パラメータ１８８をセットするための知見を使用し、例えば、ユーザインタフェースを介して装置１５０に入力される所望のレンダリング品質情報、あるいはオーディオオブジェクト信号１６０ａおよび１６０Ｎによって表される分離されたオーディオオブジェクトについての詳細な知見のように、オーディオデコーダ（例えば、装置１００）では使用できない点に、ここでは注意されたい。

従って、サイド情報プロバイダー１８４は、非常に意味がある方法における線形結合パラメータ１８８を提供することができる。

３．図２による、歪み制御装置（ＤＣＵ：ＤｉｓｔｏｒｔｉｏｎＣｏｎｔｒｏｌＵｎｉｔ）を有するＳＡＯＣシステム
３．１．ＳＡＯＣデコーダ構造
以下に、歪み制御装置（ＤＣＵ処理）によって実行される処理がＳＡＯＣシステム２００のブロック概略図を示す図２を参照して記載される。具体的には、図２は、全体のＳＡＯＣシステムの範囲内における歪み制御装置ＤＣＵを例示する。

図２の参照をして、ＳＡＯＣデコーダ２００は、例えば、１チャネルダウンミックス信号または２チャネルダウンミックス信号、または、２以上のチャネルを有するダウンミックス信号さえ表しているダウンミックス信号表現２１０を受信するために構成される。ＳＡＯＣデコーダ２００は、オブジェクト関連パラメトリックサイド情報、例えば、オブジェクトレベル差情報ＯＬＤ、内部オブジェクト相関情報ＩＯＣ、ダウンミックスゲイン情報ＤＭＧおよび任意に、ダウンミックスチャネルレベル差情報ＤＣＬＣを含む、ＳＡＯＣビットストリーム２１２を受信するために構成される。また、ＳＡＯＣデコーダ２００は、ｇ_DCUで示される線形結合パラメータ２１４を得るために構成される。

概して、ダウンミックス信号表現２１０、ＳＡＯＣビットストリーム２１２および線形結合パラメータ２１４は、オーディオコンテンツのビットストリーム表現に含まれる。

また、ＳＡＯＣデコーダ２００は、例えば、ユーザインタフェースからレンダリングマトリックス入力２２０を受信するために構成される。例えば、ＳＡＯＣデコーダ２００は、（アップミックス表現の）１、２またはさらに多くの出力されたオーディオ信号チャネルに複数のオーディオオブジェクトＮ_objの（ユーザ指定、所望の）寄与を定義するマトリックスＭ_renの形で、レンダリングマトリックス入力２２０を受信する。レンダリングマトリックスＭ_renは、例えば、ユーザインタフェースから入力される。ここで、ユーザインタフェースは、所望のレンダリング設定の表現の異なるユーザ指定された形からレンダリングマトリックスＭ_renのパラメータに変換しうる。例えば、ユーザインタフェースは、いくつかのマッピングを用いて、レベルスライダ値およびオーディオオブジェクト位置情報の形の入力をユーザ指定のレンダリングマトリックスＭ_renに変換しうる。

現在の説明の全体にわたって、パラメータ時間枠を定義しているインデックス^lおよび処理帯域を定義している^mは、時々、明確にするために省略される点に注意されたい。にもかかわらず、処理がインデックスｌを有する複数の次のパラメータ時間枠および周波数帯のインデックスｍを有する複数の周波数帯のために個別に実行されうる点を考慮に入れなければならない。

また、ＳＡＯＣデコーダ２００は、ユーザ指定のレンダリングマトリックスＭ_ren、少なくともＳＡＯＣビットストリーム情報２１２（以下に詳述するように）の一部および線形結合パラメータ２１４を受信するために構成される歪み制御装置ＤＣＵ２４０を含む。歪み制御装置２４０は、修正レンダリングマトリックスＭ_ren,limを提供する。

また、オーディオデコーダ２００は、信号プロセッサとしてみなされ、そして、ダウンミックス信号表現２１０、ＳＡＯＣビットストリーム２１２および修正レンダリングマトリックスＭ_ren,limを受信するＳＡＯＣ復号化／変換符号化装置２４８を含む。ＳＡＯＣ復号化／変換符号化装置２４８は、アップミックス信号表現としてみなされる１以上の出力チャネルの表現２３０を提供する。１以上の出力チャネルの表現２３０は、例えば、個別のオーディオ信号チャネルの周波数領域表現、個別のオーディオチャネルの時間領域表現、またはパラメトリックマルチチャネル表現の形をとりうる。例えば、アップミックス信号表現２３０は、ＭＰＥＧサラウンドダウンミックス信号およびＭＰＥＧサラウンドサイド情報を含むＭＰＥＧサラウンド表現の形をとりうる。

ＳＡＯＣ復号化／変換符号化装置２４８は、信号プロセッサ１４８と同じ機能を含み、そして、ＳＡＯＣデコーダ８２０、別々のコーダおよびミキサー９２０、一体化したデコーダおよびミキサー９５０、ならびにＳＡＯＣ対ＭＰＥＧサラウンド変換コーダ９８０と同等である点に注意されたい。

３．２．ＳＡＯＣデコーダの動作へのイントロダクション
以下に、ＳＡＯＣデコーダ２００の動作への短いイントロダクションが与えられる。

全体のＳＡＯＣシステムの範囲内で、歪み制御装置（ＤＣＵ）は、レンダリングインタフェース（例えば、ユーザ指定のレンダリングマトリックスでのユーザインタフェースまたはユーザ指定のレンダリングマトリックスから導出される情報が入力される）および実際のＳＡＯＣ復号化／変換符号化装置の間のＳＡＯＣデコーダ／変換コーダ処理チェーンに組み込まれる。

歪み制御装置２４０は、レンダリングインタフェース（例えば、レンダリングインタフェースまたはユーザインタフェースを介する直接的または間接的なユーザ指定のレンダリングマトリックス入力）およびＳＡＯＣデータ（例えば、ＳＡＯＣビットストリーム２１２からのデータ）からの情報を使用して修正レンダリングマトリックスＭ_ren,limを提供する。より多くの詳細のために、参照は、図２になされる。修正レンダリングマトリックスＭ_ren,limは、アプリケーション（ＳＡＯＣ復号化／変換符号化装置２４８）によってアクセスされ、そして、実際に有効なレンダリング設定を反映する。

パラメータｇ_ＤＣＵは、以下の式によりビットストリーム要素「ｂｓＤｃｕＰａｒａｍ」から導出される：

ｇ_ＤＣＵ＝ＤｃｕＰａｒａｍ［ｂｓＤｃｕＰａｒａｍ］

従って、ユーザ指定のレンダリングマトリックスＭ_renおよび歪みのないターゲットレンダリングマトリックスＭ_ren,tarの間の線形結合は、線形結合パラメータｇ_DCUに依存して形成される。（少なくともデコーダ側で）必要とされる前記線形結合パラメータｇ_DCUの困難な計算がないように、線形結合パラメータｇ_DCUは、ビットストリーム要素から導出される。また、ビットストリームから線形結合パラメータｇ_DCUを導出し、ダウンミックス信号表現２１０、ＳＡＯＣビットストリーム２１２および線形結合パラメータを表しているビットストリーム要素を含むことは、オーディオ信号エンコーダにＳＡＯＣデコーダの側において実行される歪み制御メカニズムを制御する機会を与える。

要約すると、ビットストリーム要素「ｂｓＤｃｕＭｏｄｅ」に関連して選択されうる「ダウンミックス類似の」レンダリングおよび「ベストエフォート型」レンダリングと呼ばれる２つの歪み制御モードがある。それらのターゲットレンダリングマトリックスにおける方法の点で異なるこれらの２つのモードが算出される。以下に、２つのモードである「ダウンミックス類似の」レンダリングおよび「ベストエフォート型」レンダリングのためのターゲットレンダリングマトリックスの計算に関する詳細が、詳細に記載される。

上記の理解を容易にするために、レンダリングマトリックスおよびダウンミックスマトリックスの以下の定義は、考慮されなければならない。

また、同じ局面は、概して、ユーザ指定のレンダリングマトリックスＭ_renおよびターゲットレンダリングマトリックスＭ_ren,tarに適用する。

（オーディオデコーダにおける）入力オーディオオブジェクトに適用されるダウンミックスマトリックスＤはＸ＝ＤＳとしてダウンミックス信号を決定する。

ダウンミックスパラメータＤＭＧおよびＤＣＬＤは、ＳＡＯＣビットストリーム２１２から得られる。

３．４．「ベストエフォート型」レンダリング
３．４．１．イントロダクション
「ベストエフォート型」レンダリング法、概して、ターゲットレンダリングが重要な参照である場合において使用されうる。

上記の方程式の平方根演算子は、要素単位の平方根形式を示す。

３．４．１１．強化されたオーディオオブジェクト（ＥＡＯ：ｅｎｈａｎｃｅｄａｕｄｉｏｏｂｊｅｃｔ）のための歪み制御装置（ＤＣＵ）アプリケーション
以下に、本発明による若干の実施形態において実行されうる歪み制御装置のアプリケーションに関する若干の任意の拡張が記載される。

残留符号化データを復号化し、このようにＥＡＯの処理をサポートするＳＡＯＣデコーダのために、ＥＡＯを用いて提供される強化されたオーディオ品質を利用することを許容するＤＣＵの第２のパラメータ化を提供することは重要である。これは、加えて、残留データ（すなわち、ＳＡＯＣＥｘｔｅｎｓｉｏｎＣｏｎｆｉｇＤａｔａ（）およびＳＡＯＣＥｘｔｅｎｓｉｏｎＦｒａｍｅＤａｔａ（））を含んでいるデータ構造の一部として送信される第２の代替の１組のＤＣＵパラメータ（すなわち、ｂｓＤｃｕＭｏｄｅ２およびｂｓＤｃｕＰａｒａｍ２）を復号化し、使用することによって達成される。すべての非ＥＡＯが、単一の共通の変更を経るとともに、それが、残留符号化データを復号化し、ＥＡＯのみが適宜修正されうるという状態によって定義される厳しいＥＡＯモードにおいて作動する場合、アプリケーションは、この第２のパラメータセットを使用することができる。具体的には、この厳しいＥＡＯは、２つの以下の状態の遂行を必要とする：

ダウンミックスマトリックスおよびレンダリングマトリックスは、同じ次元（レンダリングチャネルの数がダウンミックスチャネルに等しいことを意味する）を有する。

アプリケーションは、単一の共通のスケーリングファクタによるそれらの対応するダウンミックス係数に関連がある各正規のオブジェクト（すなわち、非ＥＡＯ）のためのレンダリング係数を使用するのみである。

４．図３ａによるビットストリーム
以下に、マルチチャネルオーディオ信号を表しているビットストリームが、この種のビットストリーム３００の概略図を示す図３ａの参照をして記載する。

ビットストリーム３００は、複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現（例えば、符号化された表現）であるダウンミックス信号表現３０２を含む。また、ビットストリーム３００は、オーディオオブジェクトの特徴、概して、また、オーディオエンコーダにおいて実行されたダウンミックスの特徴を記載しているオブジェクト関連パラメトリックサイド情報３０４を含む。好ましくは、オブジェクト関連パラメトリックサイド情報３０４は、オブジェクトレベル差情報ＯＬＤ、内部オブジェクト相関情報ＩＯＣ、ダウンミックスゲイン情報ＤＭＧ、およびダウンミックスチャネルレベル差情報ＤＣＬＤを含む。また、ビットストリーム３００は、（オーディオ信号デコーダによって適用されるために）修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの所望の寄与を記載している線形結合パラメータ３０６を含む。

さらに、ビットストリーム１７０として装置１５０によって提供され、そして、ダウンミックス信号１１０、オブジェクト関連パラメトリック情報１１２および線形結合パラメータ１４０を得るために装置１１０に入力され、またはダウンミックス情報２１０、ＳＡＯＣビットストリーム情報２１２および線形結合パラメータ２１４を得る単に装置２００に入力されるこのビットストリーム３００に関する任意の詳細は、図３ｂおよび３ｃを参照して以下において記載される。

５．ビットストリーム構文の詳細
５．１．ＳＡＯＣ特有の構成構文
図３ｂは、ＳＡＯＣに特有の構成情報の詳細な構文表現を示す。

図３ｂによるＳＡＯＣに特有の構成３１０は、例えば、図３ａによるビットストリーム３００のヘッダの一部でありうる。

ＳＡＯＣ特有の構成は、例えば、ＳＡＯＣデコーダによって適用されるためにサンプリング周波数を記載しているサンプリング周波数構成を含む。また、ＳＡＯＣ特有の構成は、信号プロセッサ１４８またはＳＡＯＣ復号化／変換符号化装置２４８の低遅延モードか高遅延モードが使用されるべきかを記載している低遅延モード構成を含む。また、ＳＡＯＣ特有の構成は、信号プロセッサ１４８またはＳＡＯＣ復号化／変換符号化装置２４８によって使用される周波数解像度を記載している周波数解像度の構成を含む。加えて、ＳＡＯＣ特有の構成は、信号プロセッサ１４８またはＳＡＯＣ復号化／変換符号化装置２４８によって使用されるオーディオフレームの長さを記載しているフレーム長さ構成を含む。さらに、ＳＡＯＣ特有の構成は、概して、信号プロセッサ１４８またはＳＡＯＣ復号化／変換符号化装置２４８によって処理されるオーディオオブジェクトの数を記載しているオブジェクト数の構成を含む。また、オブジェクト数の構成は、オブジェクト関連パラメトリック情報１１２またはＳＡＯＣビットストリーム２１２において含まれるオブジェクト関連パラメータの数を記載する。ＳＡＯＣ特有の構成は、共通のオブジェクト関連パラメトリック情報を有するオブジェクトを指定するオブジェクト関係構成を含む。また、ＳＡＯＣ特有の構成は、オーディオエンコーダからオーディオデコーダに絶対的なエネルギー情報が送信されるかどうかを示す絶対的なエネルギー送信の構成を含む。また、ＳＡＯＣ特有の構成は、１つのダウンミックスチャネルのみがあるか、２つのダウンミックスチャネルがあるか、または２以上のダウンミックスチャネルがあるかどうかを示すダウンミックスチャネル数の構成を含む。加えて、ＳＡＯＣ特有の構成は、いくつかの実施形態において、付加的な構成情報を含む。

また、ＳＡＯＣ特有の構成は、任意の後処理のための後処理ダウンミックスゲインが送信されるかを定義する後処理ダウンミックスゲインの構成情報「ｂｓＰｄｇＦｌａｇ」を含む。

また、ＳＡＯＣ特有の構成は、値「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」がビットストリームにおいて送信されるかどうかを定義するフラグ「ｂｓＤｃｕＦｌａｇ」（例えば、１ビットのフラグである）を含む。このフラグ「ｂｓＤｃｕＦｌａｇ」が１の値をとる場合、「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」と記録される他のフラグおよびフラグ「ｂｓＤｃｕＤｙｎａｍｉｃ」は、ＳＡＯＣ特有の構成３１０に含まれる。フラグ「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」は、歪み制御がオーディオデコーダによって適用されるかどうかを記載する。フラグ「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」が１に等しい場合、歪み制御装置が、ビットストリームにおいて送信されるようにパラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」を使用して適用されなければならない。フラグ「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」が「０」に等しい場合、ビットストリームにおいて送信される歪み制御装置パラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」は、値を勧められるのみであり、更に、他の歪み制御装置の設定が使われうる。

換言すれば、オーディオエンコーダは、標準対応オーディオデコーダにおける歪み制御メカニズムの使用法を実施するために、フラグ「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」を起動し、歪み制御装置を適用するかどうかの決定を委ねるために前記フラグの機能を停止し、その場合は、オーディオデコーダに歪み制御装置のために使用するパラメータである。

フラグ「ｂｓＤｃｕＤｙｎａｍｉｃ」は、値「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」の動的なシグナリングを可能にする。フラグ「ｂｓＤｃｕＤｙｎａｍｉｃな」の機能が停止する場合、パラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」はＳＡＯＣ特有の構成に含まれ、そして、さもなければ、パラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」はＳＡＯＣフレームで、または、少なくとも、一部のＳＡＯＣフレームに含まれる。そして、そのことは後ほど述べられる。従って、オーディオ信号エンコーダは、一回限りの信号伝達（単一のＳＡＯＣ特有の構成、および、概して、複数のＳＡＯＣフレームを含むオーディオにつき）およびＳＡＯＣフレームのいくつかまたは全ての範囲内における前記パラメータの動的な送信を切り替えることができる。

パラメータ「ｂｓＤｃｕＭｏｄｅ」は、図３ｄの表によると、歪み制御装置（ＤＣＵ）のための歪みのないターゲットマトリックスの型を定義する。

パラメータ「ｂｓＤｃｕＰａｒａｍ」は、図３ｅの表によると、歪み制御装置（ＤＣＵ）アルゴリズムのためのパラメータ値を定義する。換言すれば、４ビットのパラメータ「ｂｓＤｃｕＰａｒａｍ」は、（「ｂｓＤｃｕＰａｒａｍ[ｉｎｄ]」または「ＤｃｕＰａｒａｍ[ｉｄｘ]」によっても示される）線形結合値ｇ_DCUにオーディオ信号デコーダによってマッピングされうるインデックス値ｉｄｘを定義する。このように、パラメータ「ｂｓＤｃｕＰａｒａｍ」は、量子化された方法で、線形結合パラメータを表す。

図３ｂにおいてみられるように、歪み制御装置パラメータが送信されないことを示すフラグ「ｂｓＤｃｕＦｌａｇ」が「０」の値をとる場合、パラメータ「ｂｓＤｃｕＭａｎｄａｔｏｒｙ」、「ｂｓＤｃｕＤｙｎａｍｉｃ」、「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」は「０」のデフォルト値にセットされる。

また、ＳＡＯＣ特有の構成は、ＳＡＯＣ特有の構成を所望の長さにもたらすために、１以上のバイト・アラインメント・ビット「ＢｙｔｅＡｌｉｇｎ」（）」を、任意に含む。

加えて、ＳＡＯＣ特有の構成は、付加的な構成パラメータを含むＳＡＯＣ拡張構成「ＳＡＯＣＥｘｔｅｎｓｉｏｎＣｏｎｆｉｇ（）」を、任意に含みうる。しかしながら、前記構成パラメータは、本発明には関連しない、従って、議論は、簡潔さのために、ここで省略される。

５．２．ＳＡＯＣフレーム構文
以下において、ＳＡＯＣフレームの構文が、図３ｃの参照をして記載される。

これまで論じてきたように、ＳＡＯＣフレーム「ＳＡＯＣＦｒａｍｅ」は、概して、複数の周波数帯（帯域単位）、および複数のオーディオオブジェクト（オーディオオブジェクトにつき）のために、ＳＡＯＣフレームデータにおいて含まれうる符号化オブジェクトレベル差値ＯＬＤを含む。

また、ＳＡＯＣフレームは、複数の周波数帯（帯域単位）のために含まれうる符号化された絶対的なエネルギー値ＮＲＧを、任意に含む。

また、ＳＡＯＣフレームは、複数のオーディオオブジェクトのためのＳＡＯＣフレームにおいて含まれる符号化された内部オブジェクト相関値ＩＯＣを含む。ＩＯＣ値は、概して、帯域単位の方法に含まれる。

また、ＳＡＯＣフレームは、符号化されたダウンミックスゲイン値ＤＭＧを含み、ここで、概して、オーディオオブジェクトにつき、およびＳＡＯＣフレームにつき、１つのダウンミックスゲイン値がある。

また、ＳＡＯＣフレームは、任意に、符号化されたダウンミックスチャネルレベル差ＤＣＬＣを含む、ここで、概して、オーディオオブジェクトにつき、およびＳＡＯＣフレームにつき、１つのダウンミックスチャネルレベル差値がある。

また、ＳＡＯＣフレームは、概して、任意に、符号化後処理ダウンミックスゲイン値ＰＤＧを含む。

加えて、ＳＡＯＣフレームは、ある条件下では、１以上の歪み制御パラメータを含みうる。ＳＡＯＣ特有の構成の部分に含まれるフラグ「ｂｓＤｃｕＦｌａｇ」が１に等しい場合、ビットストリームにおける歪み制御装置情報の使用法を示して、そして、また、ＳＡＯＣ特有の構成におけるフラグ「ｂｓＤｃｕＤｙｎａｍｉｃ」が１の値をとる場合、動的な（フレーム単位）歪み制御装置情報の使用法を示し、フラグ「ｂｓＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇ」が動作中であるか、フラグ「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」が動作中であることに対して、「独立」ＳＡＯＣフレームと呼ばれるＳＡＯＣフレームが提供される。

ここで、フラグ「ｂｓＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇ」が動作しない場合、フラグ「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」はＳＡＯＣフレームにおいてのみ含まれ、そして、フラグ「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」は、値「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」が更新されるかどうかを定義することに、注意されたい。より正確に言うと、「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」＝＝１は、値「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」が現行フレームにおいて更新されることを意味するのに対して、「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」＝＝０は、前に送信された値が維持されることを意味する。

したがって、歪み制御装置パラメータの送信が起動し、歪み制御装置データの動的な送信が起動し、フラグ「ｂｓＤｃｕＤｙｎａｍｉｃＵｐｄａｔｅ」が起動する場合、上記において説明したパラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」はＳＡＯＣフレームにおいて含まれる。加えて、ＳＡＯＣフレームが「独立」ＳＡＯＣフレームであり、歪み制御装置データの送信が起動し、歪み制御装置データの動的な送信が起動する場合、パラメータ「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」もＳＡＯＣフレームにおいて含まれる。

また、ＳＡＯＣフレームは、任意に、ＳＡＯＣフレームを所望の長さに満たすためのフィルデータ「ｂｙｔｅＡｌｉｇｎ（）」を含む。

任意には、ＳＡＯＣフレームは、「ＳＡＯＣＥｘｔまたはＥｘｔｅｎｓｉｏｎＦｒａｍｅ（）」として示される付加的な情報を含みうる。しかしながら、この任意の付加的なＳＡＯＣフレーム情報は、本発明に対して関連せず、したがって、簡潔さのために、ここでは議論されない。

完全性のために、現在のＳＡＯＣフレームの無損失性符号化が、前のＳＡＯＣフレームとは無関係に行われる、すなわち、現在のＳＡＯＣフレームが前のＳＡＯＣフレームの知見なしに復号化されようとも、フラグ「ｂｓＩｎｄｅｐｅｎｄｅｎｃｙＦｌａｇ」が示す点に注意されたい。

６．図４によるＳＡＯＣデコーダ／変換コーダ
以下に、ＳＡＯＣにおけるレンダリング係数制限スキームの更なる実施形態が記載される。

６．１．概要
図４は、本発明の実施形態によるオーディオデコーダ４００のブロック外略図を示す。

オーディオデコーダ４００は、ダウンミックス信号４１０、ＳＡＯＣビットストリーム４１２、（Λによっても示される）線形結合パラメータ４１４、および（Ｒによっても示される）レンダリングマトリックス情報４２０を受信するために構成される。オーディオデコーダ４００は、例えば、複数の出力チャネル１３０ａ〜１３０Ｍの形でアップミックス信号表現を受信するために構成される。オーディオデコーダ４００は、少なくともビットストリーム４２０のＳＡＯＣビットストリーム情報の部分、線形結合パラメータ４１４およびレンダリングマトリックス情報４２０を受信する（ＤＣＵによっても示される）歪み制御装置４４０を含む。歪み制御装置は、レンダリングマトリックス情報を修正しうる修正レンダリング情報Ｒ_limを提供する。

また、オーディオデコーダ４００は、ダウンミックス信号４１０、ＳＡＯＣビットストリーム４１２および修正レンダリング情報Ｒ_limを受信し、そして、それに基づいて出力チャネル１３０ａ〜１３０Ｍを提供するＳＡＯＣデコーダおよび／またはＳＡＯＣ変換コーダ４４８を含む。

以下に、本発明による１以上のレンダリング係数制限スキームを使用するオーディオデコーダ４００の機能が詳細に議論される。

一般のＳＡＯＣ処理は、時間／周波数の選択的な方法で行われて、以下の通りに記載されうる。ＳＡＯＣエンコーダ（例えばＳＡＯＣエンコーダ１５０）は、いくつかの入力されたオーディオオブジェクト信号の音響心理学的な特徴（例えば、オブジェクトパワーの関係および相関）を抽出し、そして、結合されたモノラルまたはステレオチャネル（例えば、ダウンミックス信号１８２またはダウンミックス信号４１０）にそれらをダウンミックスする。このダウンミックス信号および抽出されたサイド情報（例えば、オブジェクト関連パラメトリックサイド情報またはＳＡＯＣビットストリーム情報４１２）が周知の知覚的なオーディオコーダを使用している圧縮フォーマットで送信（または格納）される。受信側において、ＳＡＯＣデコーダ４１８は、概念的に、送信されたサイド情報４１２を使用して、元のオブジェクト信号（すなわち、別々のダウンミックスオブジェクト）を復元しようとする。これらの近似のオブジェクト信号は、レンダリングマトリックスを使用してターゲットシーンにミックスされる。レンダリングマトリックス、例えば、ＲまたはＲ_limは、各送信されたオーディオオブジェクトおよびアップミックスセットスピーカに対して特定されるレンダリング係数（ＲＣ）から成る。これらのＲＣは、ゲインおよび全ての別々の／レンダーオブジェクトの空間的な位置を決定する。

事実上、分離およびミックスが計算量の大きな減少を結果として得る単一の結合された処理ステップで実行されるので、オブジェクト信号の分離は、めったに実行されない。このスキームは、送信ビットレート（１または２ダウンミックスチャネル１８２，４１０プラス若干のサイド情報１８６，１８８，４１２，４１４，多くの個別のオブジェクトオーディオ信号の代わりに）および計算量（処理複雑さは、主に、オーディオオブジェクトの数よりむしろ出力チャネルの数に関する）に関して大いに効率的である。ＳＡＯＣデコーダは、（パラメトリックレベルにおける）オブジェクトゲインおよび他のサイド情報を、レンダー出力オーディオシーン（または、更なる復号化処理のための前処理されたダウンミックス信号、すなわち、概して、マルチチャネルＭＰＥＧサラウンドレンダリング）に対して対応する信号１３０ａ〜１３０Ｍを生成するためのダウンミックス信号１８２，４１４に適用される変換符号化係数（ＴＣ）に変換する。

レンダー出力シーンの主観的に認められたオーディオ品質は、特許文献１において記載されるように、歪み制御装置ＤＣＵ（例えば、レンダリングマトリックス修正装置）のアプリケーションによって改善されうる。この改善は、ターゲットレンダリング設定の適度な動的な修正を受け入れる対価のために達成されうる。レンダリング情報の修正は、不自然なサウンド配色および／または時間的変動アーティファクトを結果として得る特定の状況の下、時間および周波数変動されうる。

全体のＳＡＯＣシステムの範囲内において、ＤＣＵは、直接の方法のＳＡＯＣデコーダ／変換コーダ処理チェーンに組み込まれうる。すなわち、それは、図４に見られる、ＲＣ，Ｒを制御することによってＳＡＯＣのフロントエンドで配置される。

６．２．基礎をなす仮説
間接的な制御方法の基礎をなす仮説は、ダウンミックスにおけるそれらの対応するオブジェクトレベルからＲＣの歪みレベルおよび偏差の関係を考慮する。これは、特定の減衰／ぶースティングが他のオブジェクトに関してＲＣによって特定のオブジェクトに適用されるほど、送信されたダウンミックス信号の積極的な修正がＳＡＯＣデコーダ／変換コーダによってより実行されることになっているという観察に基づく。換言すれば：「オブジェクトゲイン」値のより高い偏差は、（同一のダウンミックス係数を仮定する）発生する容認できない歪みに対するより高い機会の互いの関連を示す。

しかしながら、アプリケーションが、特定のレンダリングシナリオを要求するか、またはユーザが、彼／彼女の最初のレンダリング設定（特に、１つ以上のオブジェクトの、例えば、空間的な位置）において高い値を設定する場合、ダウンミックス類似のレンダリングは、ターゲットポイントとして役立たない。一方、ダウンミックスおよび最初のレンダリング係数（例えば、ユーザ指定のレンダリングマトリックス）の両方を考慮する場合、そのようなポイントは、「ベストエフォート型レンダリング」として、解釈されうる。ターゲットレンダリングマトリックスのこの第２の定義の目的は、ベストの可能な方法における（例えば、ユーザ指定のレンダリングマトリックスによって定義される）指定のレンダリングシナリオを保存することであり、しかし、同時に、最小レベルの過剰なオブジェクト操作のために認識可能な劣化を保つ。

６．４．ダウンミックス類似のレンダリング
６．４．１．イントロダクション
Ｎ_dmx×Ｎ_obサイズのダウンミックスマトリックスＤは、エンコーダ（例えば、オーディオエンコーダ１５０）によって決定され、入力オブジェクトが、デコーダに送信されるダウンミックス信号にどのように線形に結合するかの情報を含む。例えば、モノラルダウンミックス信号とともに、Ｄは、単一の列ベクトルに、そして、ステレオダウンミックスのケースＮ_dmx＝２において減少する。

６．５．ベストエフォート型レンダリング
６．５．１．イントロダクション
ベストエフォート型レンダリング法は、ダウンミックスおよびレンダリング情報に依存するターゲットレンダリングマトリックスを記載する。エネルギー規格化は、Ｎ_ch×Ｎ_dmxサイズのマトリックスＮ_BEによって表され、それゆえに、（複数の出力チャンネルを提供する）各出力チャネルに対して個別の値を提供する。これは、次のセクションにおいて要点が説明される異なるＳＡＯＣ動作モードのためのＮ_BEの異なる計算を必要とする。

ここでは、ｒ₁およびｒ₂がバイノーラルのＨＲＴＦパラメータ情報を考慮して／組み込む点に更に注意されたい。

ここでは、ｒ_1,nおよびｒ_2,nがバイノーラルのＨＲＴＦパラメータ情報を考慮して／組み込む点に更に注意されたい。

また、要素ごとに平方根をとることは、勧められるか、または場合によっては必要でさえある。

６．５．１０．（ＤＤ^*）^-1の計算
用語（ＤＤ^*）^-1の計算のための正規化法は、不良設定マトリックスの結果を防止するために適用されうる。

６．６．レンダリング係数制限スキームの制御
６．６．１．ビットストリーム構文の例
以下において、ＳＡＯＣ特有の構成の構文表現は、図５ａを参照して記載される。ＳＡＯＣ特有の構成「ＳＡＯＣＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）」は、従来のＳＡＯＣ構成情報を含む。さらに、ＳＡＯＣ特有の構成は、以下においてさらに詳細に記載されるＤＣＵ特有の追加５１０を含む。また、ＳＡＯＣ特有の構成は、ＳＡＯＣ特有の構成の長さを調整するために用いられる１以上のフィルビット「ＢｙｔｅＡｌｉｇｎ（）」を含む。加えて、ＳＡＯＣ特有の構成は、任意に、さらに構成パラメータを含むＳＡＯＣ拡張構成を含む。

ビットストリーム構文要素「ＳＡＯＣｓｐｅｃｉｆｉｃＣｏｎｆｉｇ（）」に対する図５ａによるＤＣＵ特有の追加５１０は、提案されたＤＣＵスキームに対するビットストリームシグナリングの例である。これは、非特許文献７によるドラフトＳＡＯＣ標準の従属節「ＳＡＯＣのための５．１のペイロード」において記載される構文に関する。

以下に、パラメータのいくつかの定義が与えられる。

「ｂｓＤｃｕＦｌａｇ」
ＤＣＵの設定がＳＡＯＣエンコーダかデコーダ／変換コーダによって決定されるかどうか定義する。より正確に言うと、「ｂｓＤｃｕＦｌａｇ」＝１は、ＳＡＯＣエンコーダによるＳＡＯＣＳｐｅｃｉｆｉｃＣｏｎｆｉｇ（）において特定される値「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」がＤＣＵに適用されることを意味するのに対して、「ｂｓＤｃｕＦｌａｇ」＝０は、（デフォルト値によって初期化される）変数「ｂｓＤｃｕＭｏｄｅ」および「ｂｓＤｃｕＰａｒａｍ」がＳＡＯＣデコーダ／変換コーダアプリケーションまたはユーザによってさらに修正されうることを意味する。

「ｂｓＤｃｕＭｏｄｅ」
ＤＣＵのモードを定義する。より正確に言うと、「ｂｓＤｃｕＭｏｄ」＝０は、「ダウンミックス類似の」レンダリングモードがＤＣＵによって適用されることを意味するのに対して、「ｂｓＤｃｕＭｏｄｅ」＝１は、「ベストエフォート型」レンダリングモードがＤＣＵアルゴリズムによって適用されることを意味する。

「ｂｓＤｃｕＰａｒａｍ」
ＤＣＵアルゴリズムのための混合パラメータ値を定義する。ここで、図５ｂの表は、「ｂｓＤｃｕＰａｒａｍ」パラメータのための量子化テーブルを示す。

可能な「ｂｓＤｃｕＰａｒａｍ」値は、この例で、４ビット表される１６のエントリを有するテーブルの一部である。もちろん、いかなるテーブル（より大きいかより小さい）も、使用できる。値の間の間隔は、デシベルの最大のオブジェクト分離に対応するために対数関数的でありえる。しかし、また、値は、線形に間隔を置かれることもでき、または、対数関数的な、および、線形、または他のいかなる種類のスケールの複合型の組み合わせでありうる。

ビットストリームにおける「ｂｓＤｃｕＭｏｄｅ」パラメータは、状況に対して、最適なＤＣＵアルゴリズムを選択するエンコーダ側で可能にする。その他が「ベストエフォート型」レンダリングモードから利益を得るかもしれない一方、若干のアプリケーションまたはコンテンツがが「ダウンミックス類似の」レンダリングモードから利益を得るので、これは非常に役立つことがありえる。

概して、「ダウンミックス類似の」レンダリングモードは、後方の／前方の互換性が重要であり、そして、ダウンミックスが保存されることを必要とする重要な芸術的な特性を有するアプリケーションのための所望の方法でありうる。他方では、「ベストエフォート型」レンダリングモードは、これがケースでないケースにおいて良好なパフォーマンスを有することができる。

本発明に関連したこれらのＤＣＵパラメータは、もちろん、ＳＡＯＣビットストリームの他の如何なる部分においても伝達されうる。代わりの位置は、特定の拡張ＩＤが使用されうる「ＳＡＯＣＥｘｔｅｎｓｉｏｎＣｏｎｆｉｇ（）」コンテナを使用する。これらの両方のセクションは、ＳＡＯＣヘッダにおいて位置し、最小限のデータ転送速度のオーバーヘッドを保証する。

他の代替案は、ペイロードデータ（すなわち、ＳＡＯＣＦｒａｍｅ（）における）におけるＤＣＵデータを伝達することである。これは、時間−変化シグナリング（例えば信号適応制御）を考慮に入れる。

フレキシブルなアプローチは、両方のヘッダ（すなわち、静的シグナリング）のためのＤＣＵデータ、およびペイロードデータ（すなわち、動的シグナリング）におけるビットストリームシグナリングを定義することである。それから、ＳＡＯＣエンコーダは、２つのシグナリング方法のうちの１つを選択することができる。

６．７．処理方針
その場合、ＤＣＵ設定（例えば、ＤＣＵモード「ｂｓＤｃｕＭｏｄｅ」および混合パラメータ設定「ｂｓＤｃｕＰａｒａｍ」）がＳＡＯＣエンコーダ（例えば、「ｂｓＤｃｕＦｌａｇ」＝１）によって明確に特定される場合、ＳＡＯＣデコーダ／変換コーダは、直接的にこれらの値をＤＣＵに適用する。ＤＣＵ設定が、明確に特定されない（例えば、「ｂｓＤｃｕＦｌａｇ」＝０）場合、ＳＡＯＣデコーダ／変換コーダはデフォルト値を使用し、それらを修正するために、ＳＡＯＣデコーダ／変換コーダまたはユーザを許容する。第１の量子化インデックス（例えば、ｉｄｘ＝０）は、ＤＣＵを使用不能にするために使用されうる。あるいは、ＤＣＵデフォルト値（「ｂｓＤｃｕＰａｒａｍ」）は、「０」、すなわち、ＤＣＵを使用不能にするか、または、「１」、すなわち、完全に制限することでありうる。

７．パフォーマンス評価
７．１．リスニングテスト設計
主観的なリスニングテストは、提案されたＤＣＭコンセプトの知覚的なパフォーマンスを評価して、それを正規のＳＡＯＣ・ＲＭ復号化／変換符号化処理の結果と比較するために行われた。他のリスニングテストと比較して、このテストの作業は、２つの優良な態様に関して極端なレンダリング状況（「オブジェクトを単独で行う」「オブジェクトを弱める」）のベストの録音品質を考慮することである：
１．（ターゲットオブジェクトの良好な減衰／ブースティング）レンダリングのオブジェクトを達成すること
２．全体の場面音質（歪み、アーティファクト、不自然さを考慮すること）

修正されていないＳＡＯＣ処理が、態様＃２でなく態様＃１を果たしうるのに対して、送信されたダウンミックス信号を単に使用することは、態様＃１でなく態様＃２を果たすことができる点に注意されたい。

リスニングテストは、リスナー、すなわち、デコーダ側での信号として本当に使われる材料だけに本当の選択だけを提示して行われた。このように、示された信号は正規の（ＤＣＵによって未処理の）ＳＡＯＣデコーダの出力信号であり、そして、ＳＡＯＣおよびＳＡＯＣ／ＤＣＵ出力の基本的なパフォーマンスを示す。加えて、ダウンミックス信号に対応する自明なレンダリングのケースは、リスニングテストにおいて提示される。

図６ａの表は、リスニングテストの条件を記載する。

提案されたＤＣＵが正規のＳＡＯＣデータおよびダウンミックスを使用して作動して、残余の情報に依存しないので、中心的なコーダは対応するＳＡＯＣダウンミックス信号に適用されない。

７．２．リスニングテストの項目
極端なおよび重要なレンダリングを伴う以下の項目が、ＣｆＰリスニングテストの材料から現在のリスニングテストのために選択された。

図６ｂの表は、リスニングテストのオーディオ項目を記載する。

７．３．ダウンミックスおよびレンダリング設定
図６ｃの表において記載されるレンダリングオブジェクトゲインは、考慮されたアップミックスシナリオに対して適用される。

７．４．リスニングテストの仕様
主観的なリスニングテストは、高品質のリスニングを可能とするように設計されている音響的に隔離されたリスニングルームにおいて実施された。再生は、ヘッドホン（ＳＴＡＸＳＲＬａｍｂｄａＰｒｏｗｉｔｈＬａｋｅ−ＰｅｏｐｌｅＤ／Ａ−ＣｏｎｖｅｒｔｅｒおよびＳＴＡＸＳＲＭ−Ｍｏｎｉｔｏｒ）を使用して行われた。

テスト方法は、中間の良質なオーディオ（非特許文献２）の主観的な評価のための「ＭｕｌｔｉｐｌｅＳｔｉｍｕｌｕｓｗｉｔｈＨｉｄｄｅｎＲｅｆｅｒｅｎｃｅａｎｄＡｎｃｈｏｒｓ」（ＭＵＳＨＲＡ）法に同類の空間オーディオ確認テストにおいて使用する手順でフォローされた。テスト方法は、提案されたＤＣＵの知覚的なパフォーマンスを評価するために、上記に記載されたように修正された。リスナーは、以下のリスニングテストの仕様を順守するように指示された：

「アプリケーションシナリオ」：あなたが、音楽材料の専用のリミックスをすることをあなたに許可する相互作用的な音楽リミックスシステムのユーザであることを想像してください。システムは、そのレベル、空間的な位置等を変化するために各計測器に対して、ミキシングデスクスタイルスライダを提供する。システムの本質のために、いくつかの極端なサウンドミックスは、全体の音質を劣化させる歪みをもたらす。他方では、同程度の楽器レベルを有するサウンドミックスは、より良い音質を生じる傾向がある。

サウンド修正強さおよびサウンド品質におけるそれらの影響に関して異なる処理アルゴリズムを評価することが、このテストの目的である。

このテストにおいて、「基準信号」が、ない！それの代わりに、所望のサウンドミックスの説明が、下記を与える。
オーディオ項目ごとに対して：
− 最初、システムユーザとしてのあなたが達成することを望む所望サウンドミックスの説明を読む

項目「ＢｌａｃｋＣｏｆｆｅ」サウンドミックスの範囲内のソフトな金管楽器セクション
項目「ＶｏｉｃｅＯｖｅｒＭｕｓｉｃ」ソフトなバックグラウンド音楽
項目「Ａｕｄｉｔｉｏｎ」強いボーカルおよびソフトな音楽
項目「ＬｏｖｅＰｏｐ」サウンドミックスの範囲内のソフトな弦楽セクション

−そして、両方とも記載するために１つの一般の等級を使用している信号を等級分けする

− 所望のサウンドミックスのレンダリングオブジェクトを達成すること
− 全体的なシーンのサウンド品質（歪み、アーティファクト、不自然さ、空間的な歪み．．．を考慮する）

合計８人のリスナーは、実施されたテストの各々に参加した。すべての被検者は、経験豊かなリスナーとして考慮されうる。テスト条件は、各テスト項目および各リスナーに対して、自動的に無作為に選択された。主観的反応は、同様に、ＭＵＳＨＲＡスケールとされる５つの間隔をともなって、０から１００にわたるスケールにおけるコンピュータによって動作するリスニングテストプログラムによって記録された。テストに基づく項目の間の瞬間的なスイッチングは許容された。

７．５．リスニングテスト結果
図７のグラフ図に示される図面はすべてのリスナーに対する項目につき平均値、および関連した９５％の信頼区間とともに全ての評価項目の統計平均値を示す。

以下の所見は、実施されたリスニングテストの結果に基づいてなされうる：実施されたリスニングテストに対して、得られたＭＵＳＨＲＡスコアは、提案されたＤＣＵの機能が、全体の統計平均値の感覚において、正規のＳＡＯＣ・ＲＭシステムと比較すると著しくより良好なパフォーマンスを提供することを証明する。（考えられる極端なレンダリング条件に対する強いオーディオアーティファクトを示す）正規のＳＡＯＣデコーダによって作り出される全ての項目の品質が、全ての所望のレンダリングシナリオを実現しないダウンミックスに同一のレンダリング設定の品質と同程度低く等級分けされる点に注意しなければならない。それ故、提案されたＤＣＵ方法が、全ての考えられるリスニングテストのシナリオのための主観的な信号品質の注目に値する改良につながると結論されうる。

８．結論
上記の議論を要約するために、ＳＡＯＣにおける歪み制御のためのレンダリング係数制限スキームが記載されている。本発明による実施形態は、最近、提案された（例えば、非特許文献１、非特許文献２、非特許文献３、非特許文献４および非特許文献５を参照）複数のオーディオオブジェクトを含んでいるオーディオシーンのビットレートの効率的な伝送／蓄積のためのパラメータの技術と組み合わせて使用されうる。

極端なオブジェクトレンダリングが実行される（例えば、特許文献１を参照）場合、受信側でのユーザ双方向性と組み合わせて、この種の技術は、従来、（本発明のレンダリング係数制限スキームを用いることなく）出力信号の低い品質につながりうる。

本願明細書は、個人的選択または他の基準によるレンダリングマトリックスを制御することによって、所望の再生設定（例えば、モノラル、ステレオ、５．１等）の選択および所望の出力レンダリングシーンの相互作用的なリアルタイム修正のためのユーザインタフェースのための手段を提供する空間的対象符号化（ＳＡＯＣ：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）に焦点を合わせられる。しかしながら、本発明は、一般のパラメータの技術にも適用できる。

ダウンミックス／分離／ミックスに基づくパラメータのアプローチのため、レンダーオーディオ出力の主観的な品質は、レンダリングパラメータ設定に依存する。ユーザの選択したレンダリング設定を選択する自由は、不適当なオブジェクトレンダリングの選択肢、例えば、全体のサウンドシーンの範囲内におけるオブジェクトの極端なゲイン操作を選択するユーザのリスクを伴う。

商品のために、ユーザインタフェースにおけるいかなる設定のための悪いサウンド品質および／またはオーディオアーティファクトを生成することは、必ず容認できない。生成されたＳＡＯＣオーディオ出力の過度の悪化を制御するために、レンダーシーンの知覚的な品質の基準を計算するというアイデアに基づくいくつかの計算基準が記載され、そして、この基準（および、任意に、他の情報）に依存して、実際に適用されたレンダリング係数（例えば、特許文献１を参照）を修正する。

本明細書は、全ての処理がＳＡＯＣデコーダ／変換コーダの範囲内において完全に実行され、そして、レンダーサウンドシーンの読み取られたオーディオ品質の洗練された基準の明確な算出を含まないレンダーＳＡＯＣの主観的なサウンド品質を保護することについての他のアイデアを記載する。

これらのアイデアは、ＳＡＯＣデコーダ／変換コーダのフレームワークの範囲内において、構造的に単純で、そして、極めて効率的な方法で実行されうる。提案された歪み制御装置（ＤＣＵ）アルゴリズムは、ＳＡＯＣデコーダの入力パラメータ、すなわち、レンダリング係数を制限することを目的とする。

上記を要約するために、本発明による実施形態は、上述したように、オーディオエンコーダ、オーディオデコーダ、符号化の方法、復号化の方法および符号化または復号化のためのコンピュータプログラム、または符号化されたオーディオ信号を生成する。

９．実施形態の変形例
いくつかの態様が装置に関連して説明されたが、これらの態様も対応する方法の説明を表すことは明らかである、ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同じように、方法ステップの文脈にも記載されている態様は、対応する装置の対応するブロックまたは項目あるいは特徴の説明を表す。方法ステップのいくらかまたは全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置（または使用すること）によって実行されうる。いくつかの実施形態において、最も重要な方法ステップのいくつかの１つ以上は、この種の装置によって実行されうる。

発明の符号化されたオーディオ信号は、デジタル記憶媒体に保存され、または、例えば、ワイヤレス伝送媒体のような伝送媒体もしくはインターネットのような有線の伝送媒体上に送信されうる。

特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアで実施されうる。実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体（例えばフロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕｅ−Ｒａｙ（登録商標）、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはＦＬＡＳＨメモリ）を使用して実行されることができる。そして、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する（または協同することができる）。従って、デジタル記憶媒体は、計算機可読でありうる。

本発明によるいくつかの実施形態は、電子的に読み込み可能な制御を有するデータキャリアを含む。そして、それは、本願明細書において記載されている方法のうちの１つが実行されるように、それはプログラム可能なコンピュータシステムと協同することができる。

通常、本発明の実施形態はプログラムコードを有するコンピュータプログラム製品として実施されうる。そして、コンピュータプログラム製品がコンピュータで実行する場合、プログラムコードは、方法のうちの１つを実行するために実施される。プログラムコードは、機械読み取り可読キャリアに、例えば格納されうる。

他の実施形態は、本願明細書において記載されていて、機械読み取り可読キャリアに格納される方法のうちの１つを実行するためのコンピュータプログラムを含む。

換言すれば、発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータで実行する場合、本願明細書において記載されている方法のうちの１つを実行するためのプログラムコードを有するコンピュータプログラムである。

従って、発明の方法の更なる実施形態は、その上に記録され、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを含むデータキャリア（またはデジタル記憶媒体またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体または記録媒体は、一般的に有形で、および／または非過渡的（ｎｏｎ−ｔｒａｎｓｉｔｉｏｎａｒｙ）である。

発明の方法の更なる実施形態は、従って、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号のシーケンスは、データ通信接続を介して、例えばインターネットで転送されるように例えば構成されうる。

更なる実施形態は、本願明細書において記載されている方法のうちの１つを実行するために構成され、または適応される、例えば、コンピュータ、またはプログラム可能な論理装置の処理手段を含む。

更なる実施形態は、本願明細書において記載されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

いくつかの実施形態では、プログラム可能な論理装置（例えば、フィールドプログラム可能なゲートアレイ）は、本願明細書において記載されている方法の機能のいくらかまたは全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラム可能なゲートアレイは、本願明細書において記載されている方法のうちの１つを実行するために、マイクロプロセッサと協同することができる。通常、方法は、いくつかのハードウェア装置によっても好ましくは実行される。

上記した実施形態は、本発明の原理のために、単に図示するだけである。本装置および本願明細書において説明された詳細の修正変更が他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲だけによってのみ制限され、本願明細書における実施形態の説明および説明として示される具体的な詳細のみによって制限されないという意図である。

Claims

オーディオコンテンツのビットストリーム表現（３００）において含まれるダウンミックス信号表現（１１０；２１０）およびオブジェクト関連パラメトリック情報に基づいて、および複数のオーディオオブジェクトの所望の寄与を１以上の出力オーディオチャネルに定義するユーザ指定のレンダリングマトリックス（１４４，Ｍ_ren）に依存して、アップミックス信号表現（１３０；２３０）を提供するためのオーディオ処理装置（１００；２００）であって、前記装置は、
ユーザ指定のレンダリングマトリックス（Ｍ_ren）と線形結合パラメータ（１４６；ｇ_DCU）に基づく歪みのないターゲットレンダリングマトリックス（Ｍ_ren,tar）との線形結合を用いて、修正レンダリングマトリックス（１４２；Ｍ_ren,lim）を得るために構成されるディストーションリミッタ（１４０；２４０）と、
前記修正レンダリングマトリックスを用いて、前記ダウンミックス信号表現および前記オブジェクト関連パラメトリック情報に基づいて前記アップミックス信号表現を得るために構成される信号プロセッサ（１４８；２４８）と、を含み、
ここで、前記装置は、前記線形結合パラメータを得るために、前記線形結合パラメータ（１４６；ｇ_DCU）を表しているビットストリーム要素（３０６；ｂｓＤｃｕＰａｒａｍｅｔｅｒ）を評価するように構成される、装置（１００；２００）。
前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）を得るために構成され、前記ターゲットレンダリングマトリックスは、歪みのないターゲットレンダリングマトリックスである、請求項１に記載の装置（１００；２００）。
前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）を得るために構成され、前記ターゲットレンダリングマトリックスは、ターゲットレンダリングマトリックスに類似のダウンミックスである、請求項１ないし請求項３のいずれかに記載の装置（１００；２００）。
前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）を得るために構成され、その結果、前記ターゲットレンダリングマトリックスは、ベストエフォート型ターゲットレンダリングマトリックスである、請求項１ないし請求項３のいずれかに記載の装置（１００；２００）。
前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）を得るために構成され、その結果、前記ターゲットレンダリングマトリックスは、ダウンミックスマトリックス（Ｄ）および前記ユーザ指定のレンダリングマトリックス（Ｍ_ren）に依存する、請求項１ないし請求項３、または請求項６のいずれかに記載の装置（１００；２００）。
前記ディストーションリミッタは、アップミックス信号表現を提供するための前記装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化値を含むマトリックス（Ｎ_BE）を算出するために構成され、前記装置の所与の出力オーディオチャネルのためのエネルギー規格化値は、少なくとも、ほぼ、複数のオーディオオブジェクトのための前記ユーザ指定のレンダリングマトリックスにおける前記所与の出力オーディオチャネルと関連するエネルギーレンダリング値の合計と前記複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を記載し、
ここで、ディストーションリミッタは、前記所与の出力チャネルと関連する前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）の一組のレンダリング値を得るために、チャネル個別のエネルギー規格化値を用いて一組のダウンミックス値を拡大・縮小するために構成される、請求項１ないし請求項３、請求項６または請求項７のいずれかに記載の装置（１００；２００）。
前記ディストーションリミッタは、前記ユーザ指定のレンダリングマトリックス（Ｍ_ren）およびダウンミックスマトリックス（Ｄ）に依存して、前記装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化値を記載しているマトリックスを算出するように構成され、
ここで、前記ディストーションリミッタは、前記ダウンミックス信号表現の異なるチャネルと関連する１組のダウンミックス値の線形結合として、前記装置の所与の出力オーディオチャネルと関連する前記ターゲットレンダリングマトリックス（Ｍ_ren,tar）の１組のレンダリング係数を得るために前記チャネル個別のエネルギー規格化値を記載している前記マトリックスを適用するために構成される、請求項１ないし請求項３、請求項６ないし請求項７のいずれかに記載の装置（１００；２００）。
前記装置は、前記オーディオコンテンツの前記ビットストリーム表現から前記線形結合パラメータ（ｇ_DCU）を表しているインデックス値（ｉｄｘ）を読み取るために、およびパラメータ量子化テーブルを用いて、前記インデックス値を前記線形結合パラメータ（ｇ_DCU）にマッピングするために構成される、請求項１ないし請求項１３のいずれかに記載の装置（１００；２００）。
前記量子化テーブルは、不均一性の量子化を記載し、ここで、修正レンダリングマトリックス（Ｍ_ren,lim）に前記ユーザ指定のレンダリングマトリックス（Ｍ_ren）のより強い寄与を記載する前記線形結合パラメータ（ｇ_DCU）のより小さい値は、より高い解像度によって量子化される、請求項１４に記載の装置（１００；２００）。
前記装置は、ディストーションリミテーションモードを記載しているビットストリーム要素（ｂｓＤｃｕＭｏｄｅ）を評価するために構成され、ここで、前記ディストーションリミッタは、前記ターゲットレンダリングマトリックスがダウンミックス類似のターゲットレンダリングマトリックスであるか、または前記ターゲットレンダリングマトリックスが、ベストエフォート型ターゲットレンダリングマトリックスであるように、前記ターゲットレンダリングマトリックスを選択的に得るために構成される、請求項１ないし請求項１５のいずれかに記載の装置（１００；２００）。
マルチチャネルオーディオ信号を表しているビットストリーム（１７０）を提供するための装置（１５０）であって、前記装置は、
複数のオーディオオブジェクト信号（１６０ａ−１６０Ｎ）に基づいてダウンミックス信号（１８２）を提供するために構成されるダウンミキサーと、
前記オーディオオブジェクト信号（１６０ａ−１６０Ｎ）の特徴およびダウンミックスパラメータを記載しているオブジェクト関連パラメトリックサイド情報（１８６）、および前記ビットストリームに基づくアップミックス信号を提供するための装置（１００；２００）によって用いられる修正レンダリングマトリックス（Ｍ_ren,lim）にユーザ指定のレンダリングマトリックス（Ｍ_ren）およびターゲットレンダリングマトリックス（Ｍ_ren,tar）の所望の寄与を記載している線形結合パラメータ（１８８）を提供するために構成される、サイド情報プロバイダ（１８４）と、
前記ダウンミックス信号、前記オブジェクト関連パラメトリックサイド情報および前記線形結合パラメータの表現を含むビットストリーム（１７０）を提供するために構成されるビットストリームフォーマッタ（１９０）と、
を含み、
ここで、前記ユーザ指定のレンダリングマトリックス（１４４，Ｍ_ren）は、複数のオーディオオブジェクトの所望の寄与を１以上の出力オーディオチャネルに定義する、
装置。
オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づき、および複数のオーディオオブジェクトの所望の寄与を１以上の出力オーディオチャネルに定義するユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するためのオーディオ処理の方法であって、前記方法は、
線形結合パラメータを得るために、前記線形結合パラメータを表しているビットストリーム要素を評価するステップと、
前記線形結合パラメータに依存して、ユーザ指定のレンダリングマトリックスおよび歪みのないターゲットレンダリングマトリックスの線形結合を用いて修正レンダリングマトリックスを得るステップと、
前記修正レンダリングマトリックスを用いて、前記ダウンミックス信号表現および前記オブジェクト関連パラメトリック情報に基づいて前記アップミックス信号表現を得るステップと、
を含む、方法。
マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法であって、前記方法は、
複数のオーディオオブジェクト信号に基づいてダウンミックス信号を提供するステップと、
前記オーディオオブジェクト信号およびダウンミックスパラメータの特徴を記載しているオブジェクト関連パラメトリックサイド情報、および修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの所望の寄与を記載している線形結合パラメータを提供するステップと、
前記ダウンミックス信号、前記オブジェクト関連パラメトリックサイド情報および前記線形結合パラメータの表現を含むビットストリームを提供するステップと、
を含み、
ここで、前記ユーザ指定のレンダリングマトリックスは、複数のオーディオオブジェクトの所望の寄与を１以上の出力オーディオチャネルに定義する、
方法。
コンピュータプログラムは、コンピュータで実行される場合、請求項１８または請求項１９による方法を実行するための前記コンピュータプログラムである、コンピュータプログラム。