JP5645951B2 - ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム - Google Patents

ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム Download PDF

Info

Publication number
JP5645951B2
JP5645951B2 JP2012539298A JP2012539298A JP5645951B2 JP 5645951 B2 JP5645951 B2 JP 5645951B2 JP 2012539298 A JP2012539298 A JP 2012539298A JP 2012539298 A JP2012539298 A JP 2012539298A JP 5645951 B2 JP5645951 B2 JP 5645951B2
Authority
JP
Japan
Prior art keywords
rendering matrix
audio
downmix
bitstream
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012539298A
Other languages
English (en)
Other versions
JP2013511738A (ja
Inventor
ヨナス エングデガルド
ヨナス エングデガルド
ハイコ プルンハーゲン
ハイコ プルンハーゲン
ユールゲン ヘレ
ユールゲン ヘレ
コルネリア ファルヒ
コルネリア ファルヒ
オリヴァー ヘルムート
オリヴァー ヘルムート
レオン テレンチエフ
レオン テレンチエフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2013511738A publication Critical patent/JP2013511738A/ja
Application granted granted Critical
Publication of JP5645951B2 publication Critical patent/JP5645951B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Description

本発明による実施例は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいて、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための装置に関する。
本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置に関する。
本発明による他の実施例は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づき、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための方法に関する。
本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法に関する。
本発明による他の実施例は、前記方法のうちの1つを実行しているコンピュータプログラムに関する。
本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームに関する。
オーディオ処理、オーディオ送信およびオーディオ記録の技術において、聴覚印象を改善するためにマルチチャネルコンテンツを扱いたいという増加している希望がある。マルチチャネルオーディオコンテンツの使用法は、ユーザのための重要な改良をもたらす。たとえば、3次元の聴覚印象は、エンターテイメントアプリケーションにおける改善されたユーザ満足をもたらすことを得ることができる。しかしながら、マルチチャネルオーディオコンテンツは、専門的な環境、たとえば、電話会議アプリケーションにおいても役立つ。なぜなら、話し手の理解度は、マルチチャネルオーディオ再生を用いることによって、改良されうるからである。
しかしながら、低コストであるか、または専門的なマルチチャネルアプリケーションにおいて過剰な資源の消費を回避するために、音声品質とビットレートの要件との間の良好なトレードオフを有することも望ましい。
マルチオーディオオブジェクトを含んでいるオーディオシーンのビットレートの効果的な送信および/またはストレージのためのパラメトリック技術は、最近、提案された。例えば、参照する非特許文献1において記載されるバイノーラルキュー符号化、および、例えば、参照する非特許文献2において記載される音源のパラメトリックジョイント符号化が、例えば、提案される。また、例えば、参照する非特許文献3および非特許文献4において記載されるMPEG空間オーディオオブジェクト符号化が、提案される。MPEG空間オーディオオブジェクト符号化は、現在標準化中であり、早く刊行されない参考文献である非特許文献5において記載される。
これらの技術は、波形の合致によってよりむしろ知覚的に所望の出力シーンを再構築することで狙いをつける。
しかしながら、受信側でのユーザの双方向性と組み合わせて、極端なオブジェクトレンダリングが実行される場合、そのような技術は、出力オーディオ信号の低オーディオ品質を引き起こしうる。これは、例えば、参照する特許文献1において記載される。
以下に、そのようなシステムが記載され、基本的な概念も、本発明の実施例に適合する点に留意すべきである。
図8は、そのようなシステム(ここで:MPEG・SAOC)のシステム概要を示す。図8に示されるMPEG・SAOCシステム800は、SAOCエンコーダ810とSAOCデコーダ820とを含む。SAOCエンコーダ810は、例えば、時間領域の信号として、または時間−周波数領域信号(例えば、フーリエ変換の1組の変換係数の形、またはQMFサブバンド信号の形)として表される複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、通常、オブジェクト信号x1〜xNに関連するダウンミックス係数d1〜dNも受信する。ダウンミックス係数の別々の組は、ダウンミックス信号の各チャネルに利用できてもよい。SAOCエンコーダ810は、通常、関連するダウンミックス係数d1〜dNに関連するオブジェクト信号x1〜xNを結合することによって、ダウンミックス信号のチャネルを得るために構成される。通常、オブジェクト信号x1〜xNよりもダウンミックスチャネルは少ない。SAOCデコーダ820側において、オブジェクト信号の分離(または別々の処理)を(少なくともおおよそ)許容するために、SAOCエンコーダ810は、1以上のダウンミックス信号(ダウンミックス信号として示される)812とサイド情報814の両方を提供する。サイド情報814は、デコーダ側のユーザ指定の処理を許容するために、オブジェクト信号x1〜xNの特性を記載している。
SAOCデコーダ820は、1以上のダウンミックス信号812とサイド情報814の両方を受信するために構成される。また、SAOC820は、通常、所望のレンダリングの設定を記載しているユーザ相互作用情報および/またはユーザ制御情報822を受信するために構成される。たとえば、ユーザ相互作用情報/ユーザ制御情報822は、スピーカの設定、およびオブジェクト信号x1〜xNを提供するオブジェクトの所望の空間配置を記載しうる。
Figure 0005645951
Figure 0005645951
現在、図9a、9bおよび9cを参照して、ダウンミックス信号表現およびオブジェクト関連サイド情報に基づいてアップミックス信号表現を得るための異なる装置が記載される。図9aは、SAOCデコーダ920を含むMPEG・SAOCシステム900のブロック概略図を示す。SAOCデコーダ920は、別々の機能的なブロックとして、オブジェクトデコーダ922およびミキサー/レンダラー926を含む。オブジェクトデコーダ922は、ダウンミックス表現(例えば、時間領域または時間−周波数領域において表現された1以上のダウンミックス信号の形で)およびオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形で)に依存して、複数の再構成されたオブジェクト信号924を提供する。ミキサー/レンダラー924は、複数のN個のオブジェクトに関連する再構成されたオブジェクト信号924を受信し、それに基づいて、1以上のアップミックスチャネル928を提供する。SAOCデコーダ920において、オブジェクト信号924を抽出することは、ミキシング/レンダリングの機能からオブジェクトを復号化する機能の分離を可能にするミキシング/レンダリングから別々に実行されるが、比較的高い計算量をもたらす。
現在、図9bを参照して、他のMPEG・SAOCシステム930が簡潔に述べられる。そして、それは、SAOCデコーダ950を含む。SAOCデコーダ950は、ダウンミックス信号(例えば、1以上のダウンミックス信号の形で)およびオブジェクト関連サイド情報(例えば、オブジェクトメタデータの形で)に依存して、複数のアップミックスチャネル信号958を提供する。SAOCデコーダ950は、結合されたオブジェクトデコーダおよびミキサー/レンダラーを含み、そして、それは、オブジェクト復号化の分離およびミキシング/レンダリングなしに、ジョイントミキシング処理において、アップミックスチャネル信号958を得るために構成される。ここで、ジョイントアップミックス処理のためのパラメータは、オブジェクト関連サイド情報およびレンダリング情報の両方に依存する。ジョイントアップミックス処理は、ダウンミックス情報にも依存し、それは、オブジェクト関連サイド情報の一部であると考慮される。
上記を要約すると、アップミックスチャネル信号928,958は、1ステップ処理または2ステップ処理で実行されうる。
現在、図9cを参照して、MPEG対SAOCシステム960が記載される。SAOCデコーダよりはむしろ、SAOC対MPEGサラウンド変換コーダ980を含む。
SAOC対MPEGサラウンドは、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形で)ならびに、任意に、1以上のダウンミックス信号およびレンダリング情報を受信するために構成されるサイド情報変換コーダ982を含む。サイド情報変換コーダ982は、受信されたデータに基づき、MPEGサラウンドサイド情報(例えば、MPEGサラウンドビットストリームの形で)を提供するためにも構成される。従って、サイド情報変換コーダ982は、レンダリング情報、および任意に1以上のダウンミックス信号のコンテンツについての情報を考慮にいれて、オブジェクトエンコーダから取り除かれたオブジェクト関連(パラメトリック)サイド情報をチャネル関連の(パラメトリック)サイド情報に変換するように構成される。
任意に、SAOC対MPEGサラウンド変換コーダ980は、操作されたダウンミックス表現988を得るために、例えば、ダウンミックス信号表現によって記載された1以上のダウンミックス信号を操作するように構成されうる。しかしながら、ダウンミックス信号マニピュレータ986は、省略されうる。そうすると、SAOC対MPEGサラウンド変換コーダ980の出力ダウンミックス信号表現988は、SAOC対MPEGサラウンド変換コーダの入力ダウンミックス信号表現と同一である。チャネル関連MPEGサラウンドサイド情報984が、いくつかのレンダリングの一群における場合のSAOC対MPEGサラウンド変換コーダ980の入力ダウンミックス信号表現に基づく所望の聴覚印象を提供することを許容できない場合、ダウンミックス信号マニピュレータ986が使用される。
従って、SAOC対MPEGサラウンド変換コーダ980は、ダウンミックス信号表現988およびMPEGサラウンドビットストリーム984を提供する。そして、SAOC対MPEGサラウンド変換コーダ980に入力されたレンダリング情報に関連するオーディオオブジェクトを表す複数のアップミックスチャネル信号は、MPEGサラウンドビットストリーム984およびダウンミックス信号表現988を受信するMPEGサラウンドデコーダを用いて生成される。
上記を要約すると、SAOC符号化オーディオ信号を復号化するための異なる概念が使用されうる。いくつかの場合において、ダウンミックス信号表現およびオブジェクト関連パラメトリックサイド情報に依存して、アップミックスチャネル信号(例えば、アップミックスチャネル信号928,958)を提供するSAOCデコーダが使用される。この概念の例は、図9aおよび9bにおいて示される。あるいは、SAOC−符号化オーディオ情報は、所望のアップミックスチャネル信号を提供するためのMPEGサラウンドデコーダによって使用されるダウンミックス信号表現(例えば、ダウンミックス信号表現988)およびチャネル関連のサイド情報(例えば、チャネル関連MPEGサラウンドビットストリーム984)を得るために変換されうる。
MPEG・SAOCシステム800において、システムの概要は、図8において与えられ、一般の処理は、周波数選択方法で行われて、各周波数帯の範囲内で以下の通りに記載されうる:
・N個のオーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノラルのダウンミックスに対して、ダウンミックス係数は、d1〜dNによって示される。加えて、SAOCエンコーダ810は、入力オーディオオブジェクトの特徴を記載しているサイド情報を抽出する。MPEG・SAOCのために、各々に関するオブジェクトパワーの関係は、そのようなサイド情報の最も基本的な形である。
・ダウンミックス信号(または複数の信号)812およびサイド情報814は、送信されおよび/または格納される。この目的で、ダウンミックスオーディオ信号は、MPEG−1レイヤーIIまたはIII(「mp3」として知られる)、MPEG・AAC(AAC:Advanced Audio Coding)またはいくつかの他のオーディオコーダのような周知の知覚的なオーディオコーダを使用して圧縮されうる。
Figure 0005645951
・効率的に、オブジェクト信号の分離は、まず実行されない(または、決して実行されさえしない)、なぜなら、(オブジェクトセパレータ820aによって示される)分離ステップおよび(ミキサー820cによって示される)ミキシングステップの両方は、単一変換符号化ステップに結合される。そして、それは、しばしば、計算量の大きな減少を結果として得るからである。
送信ビットレート(それは、N個の別々のオブジェクトオーディオ信号または離散システムの代わりに2、3のダウンミックスチャネルさらに若干のサイド情報を送信するのに必要なだけである)および計算量(処理の複雑さは、主に、オーディオオブジェクトの数よりむしろ出力チャネルの数に関する)に関して、そのようなスキームが大いに効率的であることが分かっている。受信側におけるユーザのための更なる効果は、彼/彼女の選んだ方(モノラル、ステレオ、サラウンド、仮想化されたヘッドホン再生、その他)のレンダリング設定およびユーザの双方向性の特徴を選択することの自由を含む:レンダリングマトリックス、およびこのように出力シーンは、セットされることができ、願望、個人の選択または他の基準にしたがって、ユーザによって相互作用的に変わることができる。例えば、他の残りの話し手から区別を最大にするために、一緒に1つの空間領域の1つのグループから話しての位置を決めることは、可能である。この双方向性は、デコーダにユーザインタフェースを提供することによって達成される:
送信されたサウンドオブジェクトごとに、その相対的なレベルおよび(非モノラルのレンダリングのための)レンダリングの空間位置が調整されうる。ユーザが付随するグラフィカルユーザインタフェース(GUI)スライダ(例えば:オブジェクトレベル=+5dB,オブジェクトポジション=−30deg)の位置を変えるにつれて、これはリアルタイムに起こりうる。
米国特許出願61/173,456号
C. Faller and F. Baumgarte, "Binaural Cue Coding − Part II: Schemes and applications", IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003. C. Faller, "Parametric Joint−Coding of Audio Sources", 120th AES Convention, Paris, 2006, Preprint 6752. J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC − Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007. J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: "Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008, Preprint 7377. ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003−2. EBU Technical recommendation: "MUSHRA−EBU Method for Subjective Listening Tests of Intermediate Audio Quality", Doc. B/AIM022, October 1999. ISO/IEC JTC1/SC29/WG11 (MPEG), Document N10843, "Study on ISO/IEC 23003−2:200x Spatial Audio Object Coding (SAOC)", 89th MPEG Meeting, London, UK, July 2009
Figure 0005645951
Figure 0005645951
本発明による実施形態は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいて、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための装置である。装置は、ユーザ指定のレンダリングマトリックスと線形結合パラメータに基づくターゲットレンダリングマトリックスとの線形結合を用いて、修正レンダリングマトリックスを得るために構成されるディストーションリミッタを含む。装置は、また、修正レンダリングマトリックスを用いて、ダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づいてアップミックス信号表現を得るために構成される信号プロセッサを含む。装置は、線形結合パラメータを得るために、線形結合パラメータを表しているビットストーム要素を評価するように構成される。
本発明によるこの実施形態は、アップミックス信号表現の認識可能な歪みが、ユーザ指定のレンダリングマトリックスおよびオーディオコンテンツのビットストリーム表現から抽出された線形結合パラメータに依存するターゲットレンダリングマトリックスの線形結合を実行することによって、低い計算量よって低減され、または回避しうるという鍵となる考えに基づく。なぜなら、線形結合が効率的に実行され、そして、オーディオ信号デコーダ(アップミックス信号表現を提供するための装置)の側でより典型的に計算利用可能なパワーのあるところで、線形結合パラメータを決定する厳しい作業の実行がオーディオ信号エンコーダ側で実行されるからである。
従って、上述した概念は、アップミックス信号表現を提供するための装置にいくつかの重要な複雑さを加えることなく、ユーザ指定のレンダリングマトリックスの不適当な選択のためさえ低減された認識可能な歪みを結果として得る修正レンダリングマトリックスを得ることを可能にする。特に、ディストーションリミッタなしの装置と比較した場合、特に、信号プロセッサを修正する必要さえない、なぜなら、修正レンダリングマトリックスは、信号プロセッサの入力量を構成し、単にユーザ指定のレンダリングマトリックスを置き換えるだけだからである。加えて、発明の概念は、オーディオ信号エンコーダが、オーディオコンテンツのビットストリーム表現において含まれる線形結合パラメータを単にセットすることによって、エンコーダ側において特定される要件に従って、オーディオ信号デコーダ側で適用されるディストーション限定スキームを調整することができる効果をもたらす。従って、オーディオ信号エンコーダは、線形結合パラメータを適切に選択することによって、(アップミックス信号表現を提供するための装置)デコーダのユーザに、レンダリングマトリックスの選択に関して、より多かれ少なかれ自由を段階的に提供することができる。これは、所与のサービスのためのユーザの期待にオーディオ信号デコーダの適合を考慮に入れる、なぜなら、いくつかのサービスに対して、ユーザは、(適宜に、レンダリングマトリックスを調整するというユーザの可能性を減少することを暗示する)最大の品質を期待するからである。その一方で、他のサービスのために、ユーザは、(ユーザ指定のレンダリングマトリックスのインパクトを線形結合の結果に増加することを暗示する)概して最大自由度を期待することができる。
上記を要約すると、発明の概念は、信号プロセッサを修正する必要をもたらすことなく、シンプルな実施の可能性を有する携帯用のオーディオデコーダのための特に重要なデコーダ側で高い計算効率を結合して、オーディオサービスの異なるタイプのためのユーザの期待を満たすために重要であり、オーディオサービスの異なるタイプのユーザの期待を満たすために重要なオーディオ信号エンコーダの高度な制御を提供する。
好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、ターゲットレンダリングマトリックスは、歪みのないターゲットレンダリングマトリックスである。これは、レンダリングマトリックスの選択によって生じる歪みがないか、または少なくとも少しの歪みしかない再生シナリオを有するという可能性をもたらす。また、歪みのないターゲットレンダリングマトリックスは、いくつかのケースにおいて非常に単純な方法で実行しうることが分かっている。さらに、レンダリングマトリックスが、典型的に、よい聴覚印象を結果として得るユーザ指定のレンダリングマトリックスおよび歪みのないターゲットレンダリングマトリックスの間において選択されることが分かっている。
好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、そのようなターゲットレンダリングマトリックスは、ダウンミックス類似(downmix−similar)のターゲットレンダリングマトリックスである。ダウンミックス類似のターゲットレンダリングマトリックスの利用は、非常に低い、または最小の歪みをもたらす。また、そのようなダウンミックス類似のターゲットレンダリングマトリックスは、非常に低い計算効果を得ることができる。なぜなら、ダウンミックス類似のターゲットレンダリングマトリックスは、一般のスケーリングファクタを有するダウンミックスマトリックスの全体を拡大・縮小し、そして、さらに、ゼロエントリを加えることによって得られうるからである。
好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために、エネルギー規格化スカラー(energy nomalization scalar)を用いて拡張ダウンミックスマトリックスを拡大・縮小するために構成される。ここで、拡張ダウンミックスマトリックスは、(ダウンミックスマトリックスのその行は、複数のオーディオオブジェクト信号の寄与をダウンミックス信号表現の1以上のチャネルに記述する)0要素の行によって拡張されてダウンミックスマトリックスの拡張バージョンであり、その結果、拡張ダウンミックスマトリックスのいくつかの行は、ユーザ指定のレンダリングマトリックスによって記述されたレンダリングの一群と同一である。従って、拡張ダウンミックスマトリックスは、ダウンミックスマトリックスから拡張されたダウンミックスマトリックスに値のコピー、ゼロマトリックスエントリの追加、および同じエネルギー規格化スカラーを有するすべてのマトリックス要素のスカラー乗算を用いて得られる。これらの手順の全ては、非常に効率的に実行され、そのようなターゲットレンダリングマトリックスは、非常にシンプルなオーディオデコーダにおいてさえ、早く得られうる。
好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、そのようなターゲットレンダリングマトリックスは、ベストエフォート型ターゲットレンダリングマトリックスである。このようなアプローチは、ダウンミックス類似のターゲットレンダリングマトリックスの利用より計算的にいくらかの要求が多い場合であっても、ベストエフォート型ターゲットレンダリングマトリックスの利用は、ユーザの所望のレンダリングシナリオのより良い考慮を提供する。歪み、または重要な歪みを導くことなく、可能な限りターゲットレンダリングマトリックスを決定する場合、ベストエフォート型ターゲットレンダリングマトリックスを使用することは、所望のレンダリングマトリックスのユーザの定義が考慮に入れられる。特に、ベストエフォート型ターゲットレンダリングマトリックスは、複数のスピーカ(または、アップミックス信号表現のチャネル)のための所望の音量を考慮にいれる。従って、ベストエフォート型ターゲットレンダリングマトリックスを使用する場合、改良された聴覚印象が結果として得られる。
好ましい実施形態において、ディストーションリミッタは、ターゲットレンダリングマトリックスを得るために構成され、ターゲットレンダリングマトリックスは、ダウンミックスマトリックスおよびユーザ指定のレンダリングマトリックスに依存する。従って、ターゲットレンダリングマトリックスは、ユーザの期待に比較的近いが、実質的に歪みのないオーディオレンダリングを提供する。このように線形結合パラメータは、ユーザの所望のレンダリングに近いものおよび認識可能な歪みの最小化の間のトレードオフを決定する。ここで、線形結合パラメータは、ターゲットレンダリングマトリックスが線形結合を支配しなければならないことを示す場合であっても、ターゲットレンダリングマトリックスの計算のためのユーザ指定のレンダリングマトリックスの考慮は、ユーザの所望の良好な満足感を提供する。
好ましい実施形態において、ディストーションリミッタは、アップミックス信号表現を提供する装置の複数の出力オーディオチャネルのためのチャネル個別の規格化値(channel−individual normalization value)を含む。そのような、装置の所与の出力チャネルのためのエネルギー規格化値は、少なくとも、ほぼ、複数のオーディオオブジェクトのためのユーザ指定のレンダリングマトリックスにおける所与の出力オーディオチャネルと関連するエネルギーレンダリング値の合計と、複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を記載する。従って、装置の異なる出力チャネルの音量に関するユーザの期待は、ある程度対処されうる。
この場合、ディストーションリミッタは、所与の出力チャネルに関連するターゲットレンダリングマトリックスの1組のレンダリング値を得るために、関連するチャネル個別のエネルギー規格化値を用いて1組のダウンミックス値を拡大・縮小するために構成される。従って、装置の出力チャネルに対する所与のオーディオオブジェクトの相対的な寄与は、ダウンミックス信号表現に所与のオーディオオブジェクトの相対的な寄与と同一である。そして、それは、実質的にオーディオオブジェクトの相対的な寄与の改良によって生じる認識可能な歪みを回避されえないことを許容する。従って、装置の出力チャネルの各々は、実質的には歪められていない。にもかかわらず、オーディオオブジェクトの極端に急激な空間的分離またはオーディオオブジェクトの相対的強度の過剰な修正によって生じる歪みを回避するために、オーディオオブジェクトの位置の詳細および/または互いに関してオーディオオブジェクトの相対的強度をどのように変えるかさえ、(少なくとも数度)考慮されていないけれども、複数のスピーカ(またはアップミックス信号表現のチャネル)の上の音量分布に関するユーザの期待が考慮に入れられる。
このように、ダウンミックス信号表現はより少ないチャネルを含むにもかかわらず、複数のオーディオオブジェクトのためのユーザ指定のレンダリングマトリックスにおける所与の出力オーディオチャネルと関連するエネルギーレンダリング値(例えば、マグニチュードレンダリング値の二乗)の合計と複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を評価することが、すべての出力オーディオチャネルを考慮することを許容する。一方、オーディオオブジェクトの空間再分布によって、または異なるオーディオオブジェクトの相対的な音量の過剰な変更によって生じる歪みをさらに回避する。
好ましい実施形態において、ディストーションリミッタは、ユーザ指定のレンダリングマトリックスおよびダウンミックスマトリックスに依存して、アップミックス信号表現を提供する装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化を記載しているマトリックスを算出するように構成される。この場合、ディストーションリミッタは、ダウンミックス信号表現の異なるチャネルと関連する1組のダウンミックス値(すなわち、ダウンミックス信号のチャネルを得るために異なるオーディオオブジェクトのオーディオ信号に適用されるスケーリングを記載している値)の線形結合として、装置の所与の出力オーディオチャネルと関連するターゲットレンダリングマトリックスの1組のレンダリング係数を得るためにチャネル個別のエネルギー規格値を記載しているマトリックスを適用するために構成される。この概念を用いて、ダウンミックス信号表現が複数のオーディオチャネルを含む場合でさえも、所望のユーザ指定のレンダリングマトリックスによく適しているターゲットレンダリングマトリックスが得られ、その一方、実質的にさらに歪みを回避する。1組のダウンミックス値の線形結合の形成が、概して小さい認識可能な歪みだけが生じる1組のレンダリング係数を結果として得ることが分かっている。にもかかわらず、ターゲットレンダリングマトリックスを導出するためのそのようなアプローチを用いてユーザの期待に近づくことが可能であることが分かっている。
好ましい実施形態において、オーディオコンテンツのビットストリーム表現から線形結合パラメータを表しているインデックス値を読み取るために、およびパラメータ量子化テーブルを用いて、インデックス値を線形結合パラメータにマッピングするために構成される。このアプローチは、1次元のマッピングテーブルよりむしろ、複雑な計算が実行される他の可能な概念と比較したとき、このアプローチは、ユーザの満足感および計算量の間のより良好なトレードオフをもたらすことが分かっている。
好ましい実施形態において、量子化テーブルは、不均一性の量子化を記載し、ここで、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスのより強い寄与を記載する線形結合パラメータのより小さい値は、より高い解像度によって量子化され、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスのより小さい寄与を記載する線形結合パラメータのより大きな値は、より低い解像度によって量子化される。多くの場合、レンダリングマトリックスの極端な設定だけが、重要な認識可能な歪みをもたらすことが分かっている。従って、ユーザのレンダリングの期待の遂行および認識可能な歪みの最小化の間の最適なトレードオフを許容する設定を得るために、ターゲットレンダリングマトリックスにユーザ指定のレンダリングマトリックスのより強い寄与の領域においてより重要であることがわかっている。
好ましい実施形態において、装置は、ディストーションリミテーションモード(distortion limitatin mode)を記載しているビットストリーム要素を評価するために構成される。この場合、ディストーションリミッタは、ターゲットレンダリングマトリックスがダウンミックス類似のターゲットレンダリングマトリックスであるか、またはターゲットレンダリングマトリックスがベストエフォート型ターゲットレンダリングマトリックスであるように、ターゲットレンダリングマトリックスを選択的に得るために、好ましくは構成される。このようなスイッチで切り替え可能な概念が、ユーザのレンダリングの期待の遂行および異なるオーディオ部分のための認識可能な歪みの最小化の間の良好なトレードオフを得るという効果的な可能性を提供することが分かっている。この概念も、また、デコーダ側において、実際のレンダリング上のオーディオ信号エンコーダの良好な制御を許容する。従って、多種多様な異なるオーディオサービスの要件が、満たされうる。
本発明による他の実施形態は、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置を創出する。
装置は、複数のオーディオオブジェクト信号に基づいてダウンミックス信号を提供するために構成されるダウンミキサーを含む。装置は、また、オーディオオブジェクト信号およびダウンミックスパラメータの特徴を記載しているオブジェクト関連パラメトリックサイド情報、および修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの寄与を記載している線形結合パラメータを提供するために構成される。また、ビットストリームを提供するための装置は、ダウンミックス信号、オブジェクト関連パラメトリックサイド情報および線形結合パラメータの表現を含むビットストリームを提供するために構成される、ビットストリームフォーマッタを含む。
マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、アップミックス信号表現を提供するための上述した装置との協力に対して適切である。マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、オーディオオブジェクト信号のその知見に依存して線形結合パラメータを提供することを許容する。従って、オーディオエンコーダ(すなわち、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置)は、線形結合パラメータを評価するオーディオデコーダ(アップミックス信号表現を提供している上述した装置)によって提供されるレンダリング品質に強い影響を及ぼしうる。このように、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置は、多くの異なるシナリオにおいて改善されたユーザの満足感を提供するレンダリングの結果に対する制御の非常に高いレベルを有する。従って、ユーザが認識可能な歪みのリスクを犯して極端なレンダリング設定を使用することを許容するかどうか、それは、実際、線形結合パラメータを使用してガイダンスを提供するサービスプロバイダのオーディオエンコーダである。このようにユーザの失望は、対応する負の経済結果とともに、上述したオーディオエンコーダを用いて回避されうる。
本発明による他の実施形態は、オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメータ情報に基づき、およびユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するための方法を創出する。この方法は、上述した装置と同じ鍵となる考えに基づく。
本発明による他の方法は、マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法を創出する。前記方法は、上述した装置と同じ知見に基づく。
本発明による他の実施例は、上記方法を実行するためのコンピュータプログラムを創出する。
本発明による他の実施例は、マルチチャネルオーディオ信号を表しているビットストリームを創出する。ビットストリームは、オーディオオブジェクトの特徴を記載しているオブジェクト関連パラメトリックサイド情報における複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現を含む。また、ビットストリームは、修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの寄与を記載する線形結合パラメータを含む。前記ビットストリームは、オーディオ信号エンコーダ側からデコーダ側のレンダリングパラメータ上のいくつかの程度の制御を許容する。
本発明による実施形態は、同封の数字の参照をして、その後記載されている。
図1aは、本発明の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。 図1bは、本発明の実施形態による、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置のブロック概略図を示す。 図2は、本発明の他の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。 図3aは、本発明の実施形態による、マルチチャネルオーディオ信号を表しているビットストリームの概略図を示す。 図3bは、本発明の実施形態による、SAOCに特有の設定情報の詳細な構文表現を示す。 図3cは、本発明の実施形態による、SAOCフレーム情報の詳細な構文表現を示す。 図3dは、SAOCビットストリームにおいて使用されうるビットストリーム要素「bsDcuMode」の歪み制御モードの符号化の概略図を示す。 図3eは、SAOCビットストリームにおいて、線形結合情報を符号化するために使用されうるビットストリームインデックスidxおよび線形結合パラメータ「DcuParam[idx]」の値の間の関連性のテーブル表現を示す。 図4は、本発明の他の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。 図5aは、本発明の実施形態による、SAOCに特有の設定情報の構文表現を示す。 図5bは、SAOCビットストリームにおいて、線形結合パラメータを符号化するために使用されうるビットストリームインデックスidxおよび線形結合パラメータParam[idx]の間の関連性のテーブル表現を示す。 図6aは、リスニングテストの条件を記載している表を示す。 図6bは、リスニングテストのオーディオ項目を記載している表を示す。 図6cは、シナリオを復号化しているステレオ対ステレオに対するSAOCのテストされたダウンミックス/レンダリング条件を記載している表を示す。 図7は、ステレオ対ステレオに対するSAOCシナリオのための歪み制御装置(DCU:distortion control unit)リスニングテストの結果のグラフで示したものを示す。 図8は、参考MPEG SAOCシステムのブロック概略図を示す。 図9aは、別々のデコーダおよびミキサーを用いた参考SAOCシステムのブロック概略図を示す。 図9bは、一体化されたデコーダおよびミキサーを用いた参考SAOCシステムのブロック概略図を示す。 図9cは、SAOC対MPEG変換コーダを使用している参考SAOCシステムのブロック概略図を示す。
1. 図1aによる、アップミックス信号表現を提供するための装置
図1aは、本発明の実施形態による、アップミックス信号表現を提供するための装置のブロック概略図を示す。
装置100は、ダウンミックス信号表現110およびオブジェクト関連パラメータ情報112を受信するために構成される。また、装置100は、線形結合パラメータ114を受信するために構成される。ダウンミックス信号表現110、オブジェクト関連パラメトリック情報112および線形結合パラメータ114の全ては、オーディオコンテンツにおけるビットストリーム表現に含まれる。例えば、線形結合パラメータ114は、前記ビットストリーム表現の中でビットストリーム要素によって記載されている。また、装置100は、ユーザ指定のレンダリングマトリックスを定義するレンダリング情報120を受信するために構成される。
装置100は、アップミックス信号表現130、例えば、個別のチャネル信号またはMPEGサラウンドサイド情報と結合するMPEGサラウンドダウンミックス信号を提供するために構成される。
装置100は、ユーザ指定のレンダリングマトリックス144(レンダリング情報120として直接的又は間接的に記載される)と、たとえばgDCUで示される線形結合パラメータ146に依存するターゲットレンダリングマトリックスとの線形結合を用いて、修正レンダリングマトリックス142を得るために構成されるディストーションリミッタ140を含む。
装置100は、例えば、線形結合パラメータを得るために線形結合パラメータ146を表しているビットストリーム要素114を評価するように構成されうる。
また、装置100は、修正レンダリングマトリックス142を用いてダウンミックス信号表現110およびオブジェクト関連パラメトリック情報に基づいてアップミックス信号表現130を得るために構成される信号プロセッサ148を含む。
従って、装置100は、アップミックス信号表現に、例えば、SAOC信号処理器148または他のいかなるオブジェクト関連信号処理器148も使用している良好なレンダリング品質を提供することができる。ほとんど、または全てのケースで、十分に小さい歪みを有する十分に良好な聴覚印象が達成されるように、修正レンダリングマトリックス142は、ディストーションリミッタ140によって適応される。修正レンダリングマトリックスは、概して、「中間的な」ユーザ指定の(所望の)レンダリングマトリックスおよびターゲットレンダリングマトリックスのままである。ここで、ユーザ指定のレンダリングマトリックスに対する、およびターゲットレンダリングマトリックスに対する修正レンダリングマトリックスのある程度の類似点は、線形結合パラメータによって決定される。そして、それは、結果として、アップミックス信号表現130の達成可能なレンダリング品質および/または最大の歪みレベルの調整を許容する。
信号プロセッサ148は、たとえば、SAOC信号プロセッサでもよい。従って、信号プロセッサ148は、ダウンミックス信号表現110によってダウンミックスされた形で表現されたオーディオオブジェクトの特徴を記載しているパラメータを得るために、オブジェクト関連パラメトリック情報112を評価するために構成される。加えて、信号プロセッサ148は、複数のオーディオオブジェクトのオーディオオブジェクト信号を結合することによってダウンミックス信号表現110を導出するためにオーディオコンテンツのビットストリーム表現を提供するためのオーディオエンコーダ側において使用されるダウンミックスの手順を記載しているパラメータを得る(例えば、受信する)。このように、信号プロセッサ148は、例えば、所与のオーディオフレームのための複数のオーディオオブジェクトおよび1以上の周波数帯のレベル差を記載しているオブジェクトレベル差情報OLD(object−level difference information)および所与のオーディオフレームのための複数の対のオーディオオブジェクトのオーディオ信号と1以上の周波数帯との間の相関関係を記載している内部オブジェクト相関情報IOC(inter−object correlation information)を評価する。加えて、信号プロセッサ148は、また、例えば、1以上のダウンミックスゲインパラメータDMG(downmin gain parameter)および1以上のダウンミックスチャネルレベル差パラメータDCLD(downmix channel level difference parameter)の形で、オーディオコンテンツのビットストリーム表現を提供するオーディオエンコーダの側で実行されるダウンミックスを記載しているダウンミックス情報DMG,DCLCを評価する。
加えて、信号プロセッサ148は、異なるオーディオオブジェクトのオーディオコンテンツ含むアップミックス信号表現130のオーディオチャネルを指し示す修正レンダリングマトリックス142を受信する。従って、信号プロセッサ148は、(DMG情報およびDCLD情報から得られる)ダウンミックス処理のその知見と同様に、オーディオオブジェクトの(OLD情報およびIOC情報から得られる)その知見を用いてダウンミックス信号表現に対する異なるオーディオオブジェクトの寄与を決定するために構成される。さらに、修正レンダリングマトリックス142が考慮されるように、信号プロセッサは、アップミックス信号表現を提供する。
Figure 0005645951
同様に、信号プロセッサ148は、デコーダ/ミキサー920の役割を引き受けうる。ここで、ダウンミックス信号表現110は、1以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報112は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス142は、ミキサー/レンダラー926へ入力されるレンダリング情報の役割を引き受け、そして、チャネル信号928は、アップミックス信号表現130の役割を引き受ける。
あるいは、信号プロセッサ148は、一体化されたデコーダおよびミキサー950の機能を実行することができる。ここで、ダウンミックス信号表現110は、1以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報112は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス142は、オブジェクトデコーダ+ミキサー/レンダラー950に入力されるレンダリング情報の役割を引き受け、そして、チャネル信号958は、アップミックス信号表現130の役割を引き受ける。
あるいは、信号プロセッサ148は、SAOC対MPEGサラウンド変換コーダ980の機能を実行することができる。ここで、ダウンミックス信号表現110は、1以上のダウンミックス信号の役割を引き受け、オブジェクト関連パラメトリック情報112は、オブジェクトメタデータの役割を引き受け、修正レンダリングマトリックス142は、レンダリング情報の役割を引き受け、そして、MPEGサラウンドビットストリーム984と結合する1以上のダウンミックス信号988は、アップミックス信号表現130の役割を引き受ける。
従って、信号プロセッサ148の機能の詳細に関して、参考は、SAOCデコーダ820、別々のデコーダおよびミキサー920、一体化したデコーダおよびミキサー950、およびSAOC対MPEGサラウンド変換コーダ980の説明になされる。参考は、たとえば、信号プロセッサ148の機能に関して、非特許文献3および非特許文献4になされもする。ここで、ユーザ指定のレンダリングマトリックス120よりむしろ修正レンダリングマトリックス142は、本発明による実施形態において、入力レンダリング情報の役割を引き受ける。
さらに、ディストーションリミッタ140の機能に関する詳細は後述する。
2. 図1bによる、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置
図1bは、マルチチャネルオーディオ信号を表しているビットストリームを提供するための装置150のブロック概略図を示す。
装置150は、複数のオーディオオブジェクト信号160a〜160Nを受信するために構成される。さらに、装置150は、オーディオオブジェクト信号160a〜160Nによって記載されているマルチチャネルオーディオ信号を表しているビットストリーム170を提供するために構成される。
装置150は、複数のオーディオオブジェクト信号160a〜160Nに基づくダウンミックス信号182を提供するために構成されるダウンミキサー180を含む。また、装置150は、ダウンミキサー180により使用されるオーディオオブジェクト信号160a〜160Nの特徴およびダウンミックスパラメータを記載しているオブジェクト関連パラメトリックサイド情報186を提供するために構成されるサイド情報プロバイダー184を含む。また、サイド情報プロバイダー184は、修正レンダリングマトリックスに対して(所望の)ユーザ指定のレンダリングマトリックスおよびターゲット(低歪みの)レンダリングマトリックスの所望の特徴を記載している線形結合パラメータ188を提供するために構成される。
例えば、オブジェクト関連パラメトリックサイド情報186は、オーディオオブジェクト信号160a〜160N(例えば、帯域単位の方法で)のオブジェクトレベル差を記載しているオブジェクトレベル差情報(OLD)も含む。また、オブジェクト関連パラメトリックサイド情報オーディオオブジェクト信号160a〜160Nの間の相関関係を記載している内部オブジェクト相関情報(IOC)を含む。加えて、オブジェクト関連パラメトリックサイド情報は、ダウンミックスゲイン(例えば、オブジェクト単位の方法で)を記載しうる。ここで、ダウンミックスゲイン値は、オーディオオブジェクト信号160a〜160Nを結合するダウンミックス信号182を得るためにダウンミキサー180により使用される。オブジェクト関連パラメトリックサイド情報186は、ダウンミックス信号182(ダウンミックス信号182がマルチチャネル信号である場合)のマルチチャネルのためのダウンミックスレベルの間の差を記載しているダウンミックスチャネルレベル差(DCLD)を含みうる。
線形結合パラメータ188は、例えば0および1の間の数の値であり、ユーザ指定のダウンミックスマトリックスのみを使用すること(例えば、パラメータ値が0)、ターゲットレンダリングマトリックスのみを使用すること(例えば、パラメータ値が1)またはこれらの両極端の間におけるユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスのいくつかの所与の組み合わせを使用すること(例えば、パラメータ値が0と1の間)を記載している。
また、装置150は、ビットストリームがダウンミックス信号182、オブジェクト関連パラメトリックサイド情報186および線形結合パラメータ188を含むように、ビットストリーム170を提供するために構成されるビットストリームフォーマッタ190を含む。
従って、装置150は、図8によるSAOCエンコーダ810または図9a−9cによるオブジェクトエンコーダの機能を実行する。オーディオオブジェクト信号160a〜160Nは、例えば、SAOCエンコーダ810によって受信されたオブジェクト信号x1〜xNと同等である。例えば、ダウンミックス信号182は、1以上のダウンミックス信号812と同等でありうる。例えば、オブジェクト関連パラメトリックサイド情報186は、サイド情報814またはオブジェクトメタデータと同等でありうる。しかしながら、前記1チャネルダウンミックス信号またはマルチチャネルダウンミックス信号および前記オブジェクト関連パラメトリックサイド情報186に加えて、ビットストリーム170が、線形結合パラメータ188も符号化しうる。
従って、オーディオエンコーダとしてみなされる装置150は、歪み制御スキームのデコーダ側の取扱いに影響を及ぼし、装置150がビットストリーム170を受信しているオーディオデコーダ(例えば、装置100)によって提供される充分なレンダリング品質を期待するように、適切に線形結合パラメータ188をセットすることによって、ディストーションリミッタ140によって実行される。
例えば、サイド情報プロバイダー184は、装置150の任意のユーザインタフェース199から受信された良質な要件情報に依存する線形結合パラメータをセットしうる。あるいは、または加えて、サイド情報プロバイダー184は、オーディオオブジェクト信号160a〜160Nおよびダウンミキサー180のダウンミックスパラメータの特徴を考慮に入れることもできる。この線形結合パラメータの考慮の下、オーディオ信号デコーダによって得られると期待されるレンダリング品質がサイド情報プロバイダー184によって充分であるとみなされるように、例えば、装置150は、1以上の最悪のケースのユーザ指定のレンダリングマトリックスの仮定の下、オーディオデコーダで得られる歪みの度合いを評価し、線形結合パラメータ188を調整しうる。サイド情報プロバイダー184は、アップミックス信号表現のオーディオ品質が、極端なユーザ指定のレンダリング設定においてさえ大きく劣化しないと分かる場合、例えば、装置150は、線形結合パラメータ188を修正レンダリングマトリックス上へ強いユーザのインパクト(ユーザ指定のレンダリングマトリックスの影響)を許容する値にセットすることができる。オーディオオブジェクト160a〜160Nが充分に同程度である場合、例えば、これの場合でありうる。対照的に、サイド情報プロバイダー184は、極端なレンダリング設定が強い認識可能な歪みに至ることが分かる場合、サイド情報プロバイダー184は、線形結合パラメータ188をユーザ(またはユーザ指定のレンダリングマトリックス)の比較的小さなインパクトを許容する値にセットすることができる。オーディオデコーダ側でのオーディオオブジェクトの明確な分離が困難(または認識可能な歪みを関係がある)であるように、オーディオオブジェクト160a〜160Nが充分に異なる場合、例えば、これの場合でありうる。
装置150は、装置150の側においてのみ利用できる線形結合パラメータ188をセットするための知見を使用し、例えば、ユーザインタフェースを介して装置150に入力される所望のレンダリング品質情報、あるいはオーディオオブジェクト信号160aおよび160Nによって表される分離されたオーディオオブジェクトについての詳細な知見のように、オーディオデコーダ(例えば、装置100)では使用できない点に、ここでは注意されたい。
従って、サイド情報プロバイダー184は、非常に意味がある方法における線形結合パラメータ188を提供することができる。
3. 図2による、歪み制御装置(DCU:Distortion Control Unit)を有するSAOCシステム
3.1. SAOCデコーダ構造
以下に、歪み制御装置(DCU処理)によって実行される処理がSAOCシステム200のブロック概略図を示す図2を参照して記載される。具体的には、図2は、全体のSAOCシステムの範囲内における歪み制御装置DCUを例示する。
図2の参照をして、SAOCデコーダ200は、例えば、1チャネルダウンミックス信号または2チャネルダウンミックス信号、または、2以上のチャネルを有するダウンミックス信号さえ表しているダウンミックス信号表現210を受信するために構成される。SAOCデコーダ200は、オブジェクト関連パラメトリックサイド情報、例えば、オブジェクトレベル差情報OLD、内部オブジェクト相関情報IOC、ダウンミックスゲイン情報DMGおよび任意に、ダウンミックスチャネルレベル差情報DCLCを含む、SAOCビットストリーム212を受信するために構成される。また、SAOCデコーダ200は、gDCUで示される線形結合パラメータ214を得るために構成される。
概して、ダウンミックス信号表現210、SAOCビットストリーム212および線形結合パラメータ214は、オーディオコンテンツのビットストリーム表現に含まれる。
また、SAOCデコーダ200は、例えば、ユーザインタフェースからレンダリングマトリックス入力220を受信するために構成される。例えば、SAOCデコーダ200は、(アップミックス表現の)1、2またはさらに多くの出力されたオーディオ信号チャネルに複数のオーディオオブジェクトNobjの(ユーザ指定、所望の)寄与を定義するマトリックスMrenの形で、レンダリングマトリックス入力220を受信する。レンダリングマトリックスMrenは、例えば、ユーザインタフェースから入力される。ここで、ユーザインタフェースは、所望のレンダリング設定の表現の異なるユーザ指定された形からレンダリングマトリックスMrenのパラメータに変換しうる。例えば、ユーザインタフェースは、いくつかのマッピングを用いて、レベルスライダ値およびオーディオオブジェクト位置情報の形の入力をユーザ指定のレンダリングマトリックスMrenに変換しうる。
現在の説明の全体にわたって、パラメータ時間枠を定義しているインデックスlおよび処理帯域を定義しているmは、時々、明確にするために省略される点に注意されたい。にもかかわらず、処理がインデックスlを有する複数の次のパラメータ時間枠および周波数帯のインデックスmを有する複数の周波数帯のために個別に実行されうる点を考慮に入れなければならない。
また、SAOCデコーダ200は、ユーザ指定のレンダリングマトリックスMren、少なくともSAOCビットストリーム情報212(以下に詳述するように)の一部および線形結合パラメータ214を受信するために構成される歪み制御装置DCU240を含む。歪み制御装置240は、修正レンダリングマトリックスMren,limを提供する。
また、オーディオデコーダ200は、信号プロセッサとしてみなされ、そして、ダウンミックス信号表現210、SAOCビットストリーム212および修正レンダリングマトリックスMren,limを受信するSAOC復号化/変換符号化装置248を含む。SAOC復号化/変換符号化装置248は、アップミックス信号表現としてみなされる1以上の出力チャネルの表現230を提供する。1以上の出力チャネルの表現230は、例えば、個別のオーディオ信号チャネルの周波数領域表現、個別のオーディオチャネルの時間領域表現、またはパラメトリックマルチチャネル表現の形をとりうる。例えば、アップミックス信号表現230は、MPEGサラウンドダウンミックス信号およびMPEGサラウンドサイド情報を含むMPEGサラウンド表現の形をとりうる。
SAOC復号化/変換符号化装置248は、信号プロセッサ148と同じ機能を含み、そして、SAOCデコーダ820、別々のコーダおよびミキサー920、一体化したデコーダおよびミキサー950、ならびにSAOC対MPEGサラウンド変換コーダ980と同等である点に注意されたい。
3.2. SAOCデコーダの動作へのイントロダクション
以下に、SAOCデコーダ200の動作への短いイントロダクションが与えられる。
全体のSAOCシステムの範囲内で、歪み制御装置(DCU)は、レンダリングインタフェース(例えば、ユーザ指定のレンダリングマトリックスでのユーザインタフェースまたはユーザ指定のレンダリングマトリックスから導出される情報が入力される)および実際のSAOC復号化/変換符号化装置の間のSAOCデコーダ/変換コーダ処理チェーンに組み込まれる。
歪み制御装置240は、レンダリングインタフェース(例えば、レンダリングインタフェースまたはユーザインタフェースを介する直接的または間接的なユーザ指定のレンダリングマトリックス入力)およびSAOCデータ(例えば、SAOCビットストリーム212からのデータ)からの情報を使用して修正レンダリングマトリックスMren,limを提供する。より多くの詳細のために、参照は、図2になされる。修正レンダリングマトリックスMren,limは、アプリケーション(SAOC復号化/変換符号化装置248)によってアクセスされ、そして、実際に有効なレンダリング設定を反映する。
Figure 0005645951
Figure 0005645951
パラメータgDCUは、以下の式によりビットストリーム要素「bsDcuParam」から導出される:

DCU=DcuParam[bsDcuParam]
従って、ユーザ指定のレンダリングマトリックスMrenおよび歪みのないターゲットレンダリングマトリックスMren,tarの間の線形結合は、線形結合パラメータgDCUに依存して形成される。(少なくともデコーダ側で)必要とされる前記線形結合パラメータgDCUの困難な計算がないように、線形結合パラメータgDCUは、ビットストリーム要素から導出される。また、ビットストリームから線形結合パラメータgDCUを導出し、ダウンミックス信号表現210、SAOCビットストリーム212および線形結合パラメータを表しているビットストリーム要素を含むことは、オーディオ信号エンコーダにSAOCデコーダの側において実行される歪み制御メカニズムを制御する機会を与える。
Figure 0005645951
Figure 0005645951
Figure 0005645951
要約すると、ビットストリーム要素「bsDcuMode」に関連して選択されうる「ダウンミックス類似の」レンダリングおよび「ベストエフォート型」レンダリングと呼ばれる2つの歪み制御モードがある。それらのターゲットレンダリングマトリックスにおける方法の点で異なるこれらの2つのモードが算出される。以下に、2つのモードである「ダウンミックス類似の」レンダリングおよび「ベストエフォート型」レンダリングのためのターゲットレンダリングマトリックスの計算に関する詳細が、詳細に記載される。
Figure 0005645951
Figure 0005645951
上記の理解を容易にするために、レンダリングマトリックスおよびダウンミックスマトリックスの以下の定義は、考慮されなければならない。
Figure 0005645951
また、同じ局面は、概して、ユーザ指定のレンダリングマトリックスMrenおよびターゲットレンダリングマトリックスMren,tarに適用する。
(オーディオデコーダにおける)入力オーディオオブジェクトに適用されるダウンミックスマトリックスDはX=DSとしてダウンミックス信号を決定する。
Figure 0005645951
Figure 0005645951
ダウンミックスパラメータDMGおよびDCLDは、SAOCビットストリーム212から得られる。
Figure 0005645951
3.4. 「ベストエフォート型」レンダリング
3.4.1. イントロダクション
「ベストエフォート型」レンダリング法、概して、ターゲットレンダリングが重要な参照である場合において使用されうる。
Figure 0005645951
Figure 0005645951
上記の方程式の平方根演算子は、要素単位の平方根形式を示す。
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
3.4.11. 強化されたオーディオオブジェクト(EAO:enhanced audio object)のための歪み制御装置(DCU)アプリケーション
以下に、本発明による若干の実施形態において実行されうる歪み制御装置のアプリケーションに関する若干の任意の拡張が記載される。
残留符号化データを復号化し、このようにEAOの処理をサポートするSAOCデコーダのために、EAOを用いて提供される強化されたオーディオ品質を利用することを許容するDCUの第2のパラメータ化を提供することは重要である。これは、加えて、残留データ(すなわち、SAOCExtensionConfigData()およびSAOCExtensionFrameData())を含んでいるデータ構造の一部として送信される第2の代替の1組のDCUパラメータ(すなわち、bsDcuMode2およびbsDcuParam2)を復号化し、使用することによって達成される。すべての非EAOが、単一の共通の変更を経るとともに、それが、残留符号化データを復号化し、EAOのみが適宜修正されうるという状態によって定義される厳しいEAOモードにおいて作動する場合、アプリケーションは、この第2のパラメータセットを使用することができる。具体的には、この厳しいEAOは、2つの以下の状態の遂行を必要とする:
ダウンミックスマトリックスおよびレンダリングマトリックスは、同じ次元(レンダリングチャネルの数がダウンミックスチャネルに等しいことを意味する)を有する。
アプリケーションは、単一の共通のスケーリングファクタによるそれらの対応するダウンミックス係数に関連がある各正規のオブジェクト(すなわち、非EAO)のためのレンダリング係数を使用するのみである。
4.図3aによるビットストリーム
以下に、マルチチャネルオーディオ信号を表しているビットストリームが、この種のビットストリーム300の概略図を示す図3aの参照をして記載する。
ビットストリーム300は、複数のオーディオオブジェクトのオーディオ信号を結合するダウンミックス信号の表現(例えば、符号化された表現)であるダウンミックス信号表現302を含む。また、ビットストリーム300は、オーディオオブジェクトの特徴、概して、また、オーディオエンコーダにおいて実行されたダウンミックスの特徴を記載しているオブジェクト関連パラメトリックサイド情報304を含む。好ましくは、オブジェクト関連パラメトリックサイド情報304は、オブジェクトレベル差情報OLD、内部オブジェクト相関情報IOC、ダウンミックスゲイン情報DMG、およびダウンミックスチャネルレベル差情報DCLDを含む。また、ビットストリーム300は、(オーディオ信号デコーダによって適用されるために)修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの所望の寄与を記載している線形結合パラメータ306を含む。
さらに、ビットストリーム170として装置150によって提供され、そして、ダウンミックス信号110、オブジェクト関連パラメトリック情報112および線形結合パラメータ140を得るために装置110に入力され、またはダウンミックス情報210、SAOCビットストリーム情報212および線形結合パラメータ214を得る単に装置200に入力されるこのビットストリーム300に関する任意の詳細は、図3bおよび3cを参照して以下において記載される。
5. ビットストリーム構文の詳細
5.1. SAOC特有の構成構文
図3bは、SAOCに特有の構成情報の詳細な構文表現を示す。
図3bによるSAOCに特有の構成310は、例えば、図3aによるビットストリーム300のヘッダの一部でありうる。
SAOC特有の構成は、例えば、SAOCデコーダによって適用されるためにサンプリング周波数を記載しているサンプリング周波数構成を含む。また、SAOC特有の構成は、信号プロセッサ148またはSAOC復号化/変換符号化装置248の低遅延モードか高遅延モードが使用されるべきかを記載している低遅延モード構成を含む。また、SAOC特有の構成は、信号プロセッサ148またはSAOC復号化/変換符号化装置248によって使用される周波数解像度を記載している周波数解像度の構成を含む。加えて、SAOC特有の構成は、信号プロセッサ148またはSAOC復号化/変換符号化装置248によって使用されるオーディオフレームの長さを記載しているフレーム長さ構成を含む。さらに、SAOC特有の構成は、概して、信号プロセッサ148またはSAOC復号化/変換符号化装置248によって処理されるオーディオオブジェクトの数を記載しているオブジェクト数の構成を含む。また、オブジェクト数の構成は、オブジェクト関連パラメトリック情報112またはSAOCビットストリーム212において含まれるオブジェクト関連パラメータの数を記載する。SAOC特有の構成は、共通のオブジェクト関連パラメトリック情報を有するオブジェクトを指定するオブジェクト関係構成を含む。また、SAOC特有の構成は、オーディオエンコーダからオーディオデコーダに絶対的なエネルギー情報が送信されるかどうかを示す絶対的なエネルギー送信の構成を含む。また、SAOC特有の構成は、1つのダウンミックスチャネルのみがあるか、2つのダウンミックスチャネルがあるか、または2以上のダウンミックスチャネルがあるかどうかを示すダウンミックスチャネル数の構成を含む。加えて、SAOC特有の構成は、いくつかの実施形態において、付加的な構成情報を含む。
また、SAOC特有の構成は、任意の後処理のための後処理ダウンミックスゲインが送信されるかを定義する後処理ダウンミックスゲインの構成情報「bsPdgFlag」を含む。
また、SAOC特有の構成は、値「bsDcuMode」および「bsDcuParam」がビットストリームにおいて送信されるかどうかを定義するフラグ「bsDcuFlag」(例えば、1ビットのフラグである)を含む。このフラグ「bsDcuFlag」が1の値をとる場合、「bsDcuMandatory」と記録される他のフラグおよびフラグ「bsDcuDynamic」は、SAOC特有の構成310に含まれる。フラグ「bsDcuMandatory」は、歪み制御がオーディオデコーダによって適用されるかどうかを記載する。フラグ「bsDcuMandatory」が1に等しい場合、歪み制御装置が、ビットストリームにおいて送信されるようにパラメータ「bsDcuMode」および「bsDcuParam」を使用して適用されなければならない。フラグ「bsDcuMandatory」が「0」に等しい場合、ビットストリームにおいて送信される歪み制御装置パラメータ「bsDcuMode」および「bsDcuParam」は、値を勧められるのみであり、更に、他の歪み制御装置の設定が使われうる。
換言すれば、オーディオエンコーダは、標準対応オーディオデコーダにおける歪み制御メカニズムの使用法を実施するために、フラグ「bsDcuMandatory」を起動し、歪み制御装置を適用するかどうかの決定を委ねるために前記フラグの機能を停止し、その場合は、オーディオデコーダに歪み制御装置のために使用するパラメータである。
フラグ「bsDcuDynamic」は、値「bsDcuMode」および「bsDcuParam」の動的なシグナリングを可能にする。フラグ「bsDcuDynamicな」の機能が停止する場合、パラメータ「bsDcuMode」および「bsDcuParam」はSAOC特有の構成に含まれ、そして、さもなければ、パラメータ「bsDcuMode」および「bsDcuParam」はSAOCフレームで、または、少なくとも、一部のSAOCフレームに含まれる。そして、そのことは後ほど述べられる。従って、オーディオ信号エンコーダは、一回限りの信号伝達(単一のSAOC特有の構成、および、概して、複数のSAOCフレームを含むオーディオにつき)およびSAOCフレームのいくつかまたは全ての範囲内における前記パラメータの動的な送信を切り替えることができる。
パラメータ「bsDcuMode」は、図3dの表によると、歪み制御装置(DCU)のための歪みのないターゲットマトリックスの型を定義する。
パラメータ「bsDcuParam」は、図3eの表によると、歪み制御装置(DCU)アルゴリズムのためのパラメータ値を定義する。換言すれば、4ビットのパラメータ「bsDcuParam」は、(「bsDcuParam[ind]」または「DcuParam[idx]」によっても示される)線形結合値gDCUにオーディオ信号デコーダによってマッピングされうるインデックス値idxを定義する。このように、パラメータ「bsDcuParam」は、量子化された方法で、線形結合パラメータを表す。
図3bにおいてみられるように、歪み制御装置パラメータが送信されないことを示すフラグ「bsDcuFlag」が「0」の値をとる場合、パラメータ「bsDcuMandatory」、「bsDcuDynamic」、「bsDcuMode」および「bsDcuParam」は「0」のデフォルト値にセットされる。
また、SAOC特有の構成は、SAOC特有の構成を所望の長さにもたらすために、1以上のバイト・アラインメント・ビット「ByteAlign」()」を、任意に含む。
加えて、SAOC特有の構成は、付加的な構成パラメータを含むSAOC拡張構成「SAOCExtensionConfig()」を、任意に含みうる。しかしながら、前記構成パラメータは、本発明には関連しない、従って、議論は、簡潔さのために、ここで省略される。
5.2. SAOCフレーム構文
以下において、SAOCフレームの構文が、図3cの参照をして記載される。
これまで論じてきたように、SAOCフレーム「SAOCFrame」は、概して、複数の周波数帯(帯域単位)、および複数のオーディオオブジェクト(オーディオオブジェクトにつき)のために、SAOCフレームデータにおいて含まれうる符号化オブジェクトレベル差値OLDを含む。
また、SAOCフレームは、複数の周波数帯(帯域単位)のために含まれうる符号化された絶対的なエネルギー値NRGを、任意に含む。
また、SAOCフレームは、複数のオーディオオブジェクトのためのSAOCフレームにおいて含まれる符号化された内部オブジェクト相関値IOCを含む。IOC値は、概して、帯域単位の方法に含まれる。
また、SAOCフレームは、符号化されたダウンミックスゲイン値DMGを含み、ここで、概して、オーディオオブジェクトにつき、およびSAOCフレームにつき、1つのダウンミックスゲイン値がある。
また、SAOCフレームは、任意に、符号化されたダウンミックスチャネルレベル差DCLCを含む、ここで、概して、オーディオオブジェクトにつき、およびSAOCフレームにつき、1つのダウンミックスチャネルレベル差値がある。
また、SAOCフレームは、概して、任意に、符号化後処理ダウンミックスゲイン値PDGを含む。
加えて、SAOCフレームは、ある条件下では、1以上の歪み制御パラメータを含みうる。SAOC特有の構成の部分に含まれるフラグ「bsDcuFlag」が1に等しい場合、ビットストリームにおける歪み制御装置情報の使用法を示して、そして、また、SAOC特有の構成におけるフラグ「bsDcuDynamic」が1の値をとる場合、動的な(フレーム単位)歪み制御装置情報の使用法を示し、フラグ「bsIndependencyFlag」が動作中であるか、フラグ「bsDcuDynamicUpdate」が動作中であることに対して、「独立」SAOCフレームと呼ばれるSAOCフレームが提供される。
ここで、フラグ「bsIndependencyFlag」が動作しない場合、フラグ「bsDcuDynamicUpdate」はSAOCフレームにおいてのみ含まれ、そして、フラグ「bsDcuDynamicUpdate」は、値「bsDcuMode」および「bsDcuParam」が更新されるかどうかを定義することに、注意されたい。より正確に言うと、「bsDcuDynamicUpdate」==1は、値「bsDcuMode」および「bsDcuParam」が現行フレームにおいて更新されることを意味するのに対して、「bsDcuDynamicUpdate」==0は、前に送信された値が維持されることを意味する。
したがって、歪み制御装置パラメータの送信が起動し、歪み制御装置データの動的な送信が起動し、フラグ「bsDcuDynamicUpdate」が起動する場合、上記において説明したパラメータ「bsDcuMode」および「bsDcuParam」はSAOCフレームにおいて含まれる。加えて、SAOCフレームが「独立」SAOCフレームであり、歪み制御装置データの送信が起動し、歪み制御装置データの動的な送信が起動する場合、パラメータ「bsDcuMode」および「bsDcuParam」もSAOCフレームにおいて含まれる。
また、SAOCフレームは、任意に、SAOCフレームを所望の長さに満たすためのフィルデータ「byteAlign()」を含む。
任意には、SAOCフレームは、「SAOCExtまたはExtensionFrame()」として示される付加的な情報を含みうる。しかしながら、この任意の付加的なSAOCフレーム情報は、本発明に対して関連せず、したがって、簡潔さのために、ここでは議論されない。
完全性のために、現在のSAOCフレームの無損失性符号化が、前のSAOCフレームとは無関係に行われる、すなわち、現在のSAOCフレームが前のSAOCフレームの知見なしに復号化されようとも、フラグ「bsIndependencyFlag」が示す点に注意されたい。
6. 図4によるSAOCデコーダ/変換コーダ
以下に、SAOCにおけるレンダリング係数制限スキームの更なる実施形態が記載される。
6.1. 概要
図4は、本発明の実施形態によるオーディオデコーダ400のブロック外略図を示す。
オーディオデコーダ400は、ダウンミックス信号410、SAOCビットストリーム412、(Λによっても示される)線形結合パラメータ414、および(Rによっても示される)レンダリングマトリックス情報420を受信するために構成される。オーディオデコーダ400は、例えば、複数の出力チャネル130a〜130Mの形でアップミックス信号表現を受信するために構成される。オーディオデコーダ400は、少なくともビットストリーム420のSAOCビットストリーム情報の部分、線形結合パラメータ414およびレンダリングマトリックス情報420を受信する(DCUによっても示される)歪み制御装置440を含む。歪み制御装置は、レンダリングマトリックス情報を修正しうる修正レンダリング情報Rlimを提供する。
また、オーディオデコーダ400は、ダウンミックス信号410、SAOCビットストリーム412および修正レンダリング情報Rlimを受信し、そして、それに基づいて出力チャネル130a〜130Mを提供するSAOCデコーダおよび/またはSAOC変換コーダ448を含む。
以下に、本発明による1以上のレンダリング係数制限スキームを使用するオーディオデコーダ400の機能が詳細に議論される。
一般のSAOC処理は、時間/周波数の選択的な方法で行われて、以下の通りに記載されうる。SAOCエンコーダ(例えばSAOCエンコーダ150)は、いくつかの入力されたオーディオオブジェクト信号の音響心理学的な特徴(例えば、オブジェクトパワーの関係および相関)を抽出し、そして、結合されたモノラルまたはステレオチャネル(例えば、ダウンミックス信号182またはダウンミックス信号410)にそれらをダウンミックスする。このダウンミックス信号および抽出されたサイド情報(例えば、オブジェクト関連パラメトリックサイド情報またはSAOCビットストリーム情報412)が周知の知覚的なオーディオコーダを使用している圧縮フォーマットで送信(または格納)される。受信側において、SAOCデコーダ418は、概念的に、送信されたサイド情報412を使用して、元のオブジェクト信号(すなわち、別々のダウンミックスオブジェクト)を復元しようとする。これらの近似のオブジェクト信号は、レンダリングマトリックスを使用してターゲットシーンにミックスされる。レンダリングマトリックス、例えば、RまたはRlimは、各送信されたオーディオオブジェクトおよびアップミックスセットスピーカに対して特定されるレンダリング係数(RC)から成る。これらのRCは、ゲインおよび全ての別々の/レンダーオブジェクトの空間的な位置を決定する。
事実上、分離およびミックスが計算量の大きな減少を結果として得る単一の結合された処理ステップで実行されるので、オブジェクト信号の分離は、めったに実行されない。このスキームは、送信ビットレート(1または2ダウンミックスチャネル182,410プラス若干のサイド情報186,188,412,414,多くの個別のオブジェクトオーディオ信号の代わりに)および計算量(処理複雑さは、主に、オーディオオブジェクトの数よりむしろ出力チャネルの数に関する)に関して大いに効率的である。SAOCデコーダは、(パラメトリックレベルにおける)オブジェクトゲインおよび他のサイド情報を、レンダー出力オーディオシーン(または、更なる復号化処理のための前処理されたダウンミックス信号、すなわち、概して、マルチチャネルMPEGサラウンドレンダリング)に対して対応する信号130a〜130Mを生成するためのダウンミックス信号182,414に適用される変換符号化係数(TC)に変換する。
レンダー出力シーンの主観的に認められたオーディオ品質は、特許文献1において記載されるように、歪み制御装置DCU(例えば、レンダリングマトリックス修正装置)のアプリケーションによって改善されうる。この改善は、ターゲットレンダリング設定の適度な動的な修正を受け入れる対価のために達成されうる。レンダリング情報の修正は、不自然なサウンド配色および/または時間的変動アーティファクトを結果として得る特定の状況の下、時間および周波数変動されうる。
全体のSAOCシステムの範囲内において、DCUは、直接の方法のSAOCデコーダ/変換コーダ処理チェーンに組み込まれうる。すなわち、それは、図4に見られる、RC,Rを制御することによってSAOCのフロントエンドで配置される。
6.2. 基礎をなす仮説
間接的な制御方法の基礎をなす仮説は、ダウンミックスにおけるそれらの対応するオブジェクトレベルからRCの歪みレベルおよび偏差の関係を考慮する。これは、特定の減衰/ぶースティングが他のオブジェクトに関してRCによって特定のオブジェクトに適用されるほど、送信されたダウンミックス信号の積極的な修正がSAOCデコーダ/変換コーダによってより実行されることになっているという観察に基づく。換言すれば:「オブジェクトゲイン」値のより高い偏差は、(同一のダウンミックス係数を仮定する)発生する容認できない歪みに対するより高い機会の互いの関連を示す。
Figure 0005645951
Figure 0005645951
しかしながら、アプリケーションが、特定のレンダリングシナリオを要求するか、またはユーザが、彼/彼女の最初のレンダリング設定(特に、1つ以上のオブジェクトの、例えば、空間的な位置)において高い値を設定する場合、ダウンミックス類似のレンダリングは、ターゲットポイントとして役立たない。一方、ダウンミックスおよび最初のレンダリング係数(例えば、ユーザ指定のレンダリングマトリックス)の両方を考慮する場合、そのようなポイントは、「ベストエフォート型レンダリング」として、解釈されうる。ターゲットレンダリングマトリックスのこの第2の定義の目的は、ベストの可能な方法における(例えば、ユーザ指定のレンダリングマトリックスによって定義される)指定のレンダリングシナリオを保存することであり、しかし、同時に、最小レベルの過剰なオブジェクト操作のために認識可能な劣化を保つ。
6.4. ダウンミックス類似のレンダリング
6.4.1. イントロダクション
dmx×NobサイズのダウンミックスマトリックスDは、エンコーダ(例えば、オーディオエンコーダ150)によって決定され、入力オブジェクトが、デコーダに送信されるダウンミックス信号にどのように線形に結合するかの情報を含む。例えば、モノラルダウンミックス信号とともに、Dは、単一の列ベクトルに、そして、ステレオダウンミックスのケースNdmx=2において減少する。
Figure 0005645951
Figure 0005645951
6.5. ベストエフォート型レンダリング
6.5.1. イントロダクション
ベストエフォート型レンダリング法は、ダウンミックスおよびレンダリング情報に依存するターゲットレンダリングマトリックスを記載する。エネルギー規格化は、Nch×NdmxサイズのマトリックスNBEによって表され、それゆえに、(複数の出力チャンネルを提供する)各出力チャネルに対して個別の値を提供する。これは、次のセクションにおいて要点が説明される異なるSAOC動作モードのためのNBEの異なる計算を必要とする。
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
ここでは、r1およびr2がバイノーラルのHRTFパラメータ情報を考慮して/組み込む点に更に注意されたい。
Figure 0005645951
Figure 0005645951
Figure 0005645951
Figure 0005645951
ここでは、r1,nおよびr2,nがバイノーラルのHRTFパラメータ情報を考慮して/組み込む点に更に注意されたい。
Figure 0005645951
また、要素ごとに平方根をとることは、勧められるか、または場合によっては必要でさえある。
Figure 0005645951
6.5.10. (DD*-1の計算
用語(DD*-1の計算のための正規化法は、不良設定マトリックスの結果を防止するために適用されうる。
6.6. レンダリング係数制限スキームの制御
6.6.1. ビットストリーム構文の例
以下において、SAOC特有の構成の構文表現は、図5aを参照して記載される。SAOC特有の構成「SAOCSpecificConfig()」は、従来のSAOC構成情報を含む。さらに、SAOC特有の構成は、以下においてさらに詳細に記載されるDCU特有の追加510を含む。また、SAOC特有の構成は、SAOC特有の構成の長さを調整するために用いられる1以上のフィルビット「ByteAlign()」を含む。加えて、SAOC特有の構成は、任意に、さらに構成パラメータを含むSAOC拡張構成を含む。
ビットストリーム構文要素「SAOCspecificConfig()」に対する図5aによるDCU特有の追加510は、提案されたDCUスキームに対するビットストリームシグナリングの例である。これは、非特許文献7によるドラフトSAOC標準の従属節「SAOCのための5.1のペイロード」において記載される構文に関する。
以下に、パラメータのいくつかの定義が与えられる。
「bsDcuFlag」
DCUの設定がSAOCエンコーダかデコーダ/変換コーダによって決定されるかどうか定義する。より正確に言うと、「bsDcuFlag」=1は、SAOCエンコーダによるSAOCSpecificConfig()において特定される値「bsDcuMode」および「bsDcuParam」がDCUに適用されることを意味するのに対して、「bsDcuFlag」=0は、(デフォルト値によって初期化される)変数「bsDcuMode」および「bsDcuParam」がSAOCデコーダ/変換コーダアプリケーションまたはユーザによってさらに修正されうることを意味する。
「bsDcuMode」
DCUのモードを定義する。より正確に言うと、「bsDcuMod」=0は、「ダウンミックス類似の」レンダリングモードがDCUによって適用されることを意味するのに対して、「bsDcuMode」=1は、「ベストエフォート型」レンダリングモードがDCUアルゴリズムによって適用されることを意味する。
「bsDcuParam」
DCUアルゴリズムのための混合パラメータ値を定義する。ここで、図5bの表は、「bsDcuParam」パラメータのための量子化テーブルを示す。
可能な「bsDcuParam」値は、この例で、4ビット表される16のエントリを有するテーブルの一部である。もちろん、いかなるテーブル(より大きいかより小さい)も、使用できる。値の間の間隔は、デシベルの最大のオブジェクト分離に対応するために対数関数的でありえる。しかし、また、値は、線形に間隔を置かれることもでき、または、対数関数的な、および、線形、または他のいかなる種類のスケールの複合型の組み合わせでありうる。
ビットストリームにおける「bsDcuMode」パラメータは、状況に対して、最適なDCUアルゴリズムを選択するエンコーダ側で可能にする。その他が「ベストエフォート型」レンダリングモードから利益を得るかもしれない一方、若干のアプリケーションまたはコンテンツがが「ダウンミックス類似の」レンダリングモードから利益を得るので、これは非常に役立つことがありえる。
概して、「ダウンミックス類似の」レンダリングモードは、後方の/前方の互換性が重要であり、そして、ダウンミックスが保存されることを必要とする重要な芸術的な特性を有するアプリケーションのための所望の方法でありうる。他方では、「ベストエフォート型」レンダリングモードは、これがケースでないケースにおいて良好なパフォーマンスを有することができる。
本発明に関連したこれらのDCUパラメータは、もちろん、SAOCビットストリームの他の如何なる部分においても伝達されうる。代わりの位置は、特定の拡張IDが使用されうる「SAOCExtensionConfig()」コンテナを使用する。これらの両方のセクションは、SAOCヘッダにおいて位置し、最小限のデータ転送速度のオーバーヘッドを保証する。
他の代替案は、ペイロードデータ(すなわち、SAOCFrame()における)におけるDCUデータを伝達することである。これは、時間−変化シグナリング(例えば信号適応制御)を考慮に入れる。
フレキシブルなアプローチは、両方のヘッダ(すなわち、静的シグナリング)のためのDCUデータ、およびペイロードデータ(すなわち、動的シグナリング)におけるビットストリームシグナリングを定義することである。それから、SAOCエンコーダは、2つのシグナリング方法のうちの1つを選択することができる。
6.7. 処理方針
その場合、DCU設定(例えば、DCUモード「bsDcuMode」および混合パラメータ設定「bsDcuParam」)がSAOCエンコーダ(例えば、「bsDcuFlag」=1)によって明確に特定される場合、SAOCデコーダ/変換コーダは、直接的にこれらの値をDCUに適用する。DCU設定が、明確に特定されない(例えば、「bsDcuFlag」=0)場合、SAOCデコーダ/変換コーダはデフォルト値を使用し、それらを修正するために、SAOCデコーダ/変換コーダまたはユーザを許容する。第1の量子化インデックス(例えば、idx=0)は、DCUを使用不能にするために使用されうる。あるいは、DCUデフォルト値(「bsDcuParam」)は、「0」、すなわち、DCUを使用不能にするか、または、「1」、すなわち、完全に制限することでありうる。
7. パフォーマンス評価
7.1. リスニングテスト設計
主観的なリスニングテストは、提案されたDCMコンセプトの知覚的なパフォーマンスを評価して、それを正規のSAOC・RM復号化/変換符号化処理の結果と比較するために行われた。他のリスニングテストと比較して、このテストの作業は、2つの優良な態様に関して極端なレンダリング状況(「オブジェクトを単独で行う」「オブジェクトを弱める」)のベストの録音品質を考慮することである:
1.(ターゲットオブジェクトの良好な減衰/ブースティング)レンダリングのオブジェクトを達成すること
2.全体の場面音質(歪み、アーティファクト、不自然さを考慮すること)
修正されていないSAOC処理が、態様#2でなく態様#1を果たしうるのに対して、送信されたダウンミックス信号を単に使用することは、態様#1でなく態様#2を果たすことができる点に注意されたい。
リスニングテストは、リスナー、すなわち、デコーダ側での信号として本当に使われる材料だけに本当の選択だけを提示して行われた。このように、示された信号は正規の(DCUによって未処理の)SAOCデコーダの出力信号であり、そして、SAOCおよびSAOC/DCU出力の基本的なパフォーマンスを示す。加えて、ダウンミックス信号に対応する自明なレンダリングのケースは、リスニングテストにおいて提示される。
図6aの表は、リスニングテストの条件を記載する。
提案されたDCUが正規のSAOCデータおよびダウンミックスを使用して作動して、残余の情報に依存しないので、中心的なコーダは対応するSAOCダウンミックス信号に適用されない。
7.2. リスニングテストの項目
極端なおよび重要なレンダリングを伴う以下の項目が、CfPリスニングテストの材料から現在のリスニングテストのために選択された。
図6bの表は、リスニングテストのオーディオ項目を記載する。
7.3. ダウンミックスおよびレンダリング設定
図6cの表において記載されるレンダリングオブジェクトゲインは、考慮されたアップミックスシナリオに対して適用される。
7.4. リスニングテストの仕様
主観的なリスニングテストは、高品質のリスニングを可能とするように設計されている音響的に隔離されたリスニングルームにおいて実施された。再生は、ヘッドホン(STAX SR Lambda Pro with Lake−People D/A−ConverterおよびSTAX SRM−Monitor)を使用して行われた。
テスト方法は、中間の良質なオーディオ(非特許文献2)の主観的な評価のための「Multiple Stimulus with Hidden Reference and Anchors」(MUSHRA)法に同類の空間オーディオ確認テストにおいて使用する手順でフォローされた。テスト方法は、提案されたDCUの知覚的なパフォーマンスを評価するために、上記に記載されたように修正された。リスナーは、以下のリスニングテストの仕様を順守するように指示された:
「アプリケーションシナリオ」:あなたが、音楽材料の専用のリミックスをすることをあなたに許可する相互作用的な音楽リミックスシステムのユーザであることを想像してください。システムは、そのレベル、空間的な位置等を変化するために各計測器に対して、ミキシングデスクスタイルスライダを提供する。システムの本質のために、いくつかの極端なサウンドミックスは、全体の音質を劣化させる歪みをもたらす。他方では、同程度の楽器レベルを有するサウンドミックスは、より良い音質を生じる傾向がある。
サウンド修正強さおよびサウンド品質におけるそれらの影響に関して異なる処理アルゴリズムを評価することが、このテストの目的である。
このテストにおいて、「基準信号」が、ない!それの代わりに、所望のサウンドミックスの説明が、下記を与える。
オーディオ項目ごとに対して:
− 最初、システムユーザとしてのあなたが達成することを望む所望サウンドミックスの説明を読む

項目「BlackCoffe」 サウンドミックスの範囲内のソフトな金管楽器セクション
項目「VoiceOverMusic」ソフトなバックグラウンド音楽
項目「Audition」 強いボーカルおよびソフトな音楽
項目「LovePop」 サウンドミックスの範囲内のソフトな弦楽セクション

−そして、両方とも記載するために1つの一般の等級を使用している信号を等級分けする

− 所望のサウンドミックスのレンダリングオブジェクトを達成すること
− 全体的なシーンのサウンド品質(歪み、アーティファクト、不自然さ、空間的な歪み...を考慮する)
合計8人のリスナーは、実施されたテストの各々に参加した。すべての被検者は、経験豊かなリスナーとして考慮されうる。テスト条件は、各テスト項目および各リスナーに対して、自動的に無作為に選択された。主観的反応は、同様に、MUSHRAスケールとされる5つの間隔をともなって、0から100にわたるスケールにおけるコンピュータによって動作するリスニングテストプログラムによって記録された。テストに基づく項目の間の瞬間的なスイッチングは許容された。
7.5. リスニングテスト結果
図7のグラフ図に示される図面はすべてのリスナーに対する項目につき平均値、および関連した95%の信頼区間とともに全ての評価項目の統計平均値を示す。
以下の所見は、実施されたリスニングテストの結果に基づいてなされうる:実施されたリスニングテストに対して、得られたMUSHRAスコアは、提案されたDCUの機能が、全体の統計平均値の感覚において、正規のSAOC・RMシステムと比較すると著しくより良好なパフォーマンスを提供することを証明する。(考えられる極端なレンダリング条件に対する強いオーディオアーティファクトを示す)正規のSAOCデコーダによって作り出される全ての項目の品質が、全ての所望のレンダリングシナリオを実現しないダウンミックスに同一のレンダリング設定の品質と同程度低く等級分けされる点に注意しなければならない。それ故、提案されたDCU方法が、全ての考えられるリスニングテストのシナリオのための主観的な信号品質の注目に値する改良につながると結論されうる。
8. 結論
上記の議論を要約するために、SAOCにおける歪み制御のためのレンダリング係数制限スキームが記載されている。本発明による実施形態は、最近、提案された(例えば、非特許文献1、非特許文献2、非特許文献3、非特許文献4および非特許文献5を参照)複数のオーディオオブジェクトを含んでいるオーディオシーンのビットレートの効率的な伝送/蓄積のためのパラメータの技術と組み合わせて使用されうる。
極端なオブジェクトレンダリングが実行される(例えば、特許文献1を参照)場合、受信側でのユーザ双方向性と組み合わせて、この種の技術は、従来、(本発明のレンダリング係数制限スキームを用いることなく)出力信号の低い品質につながりうる。
本願明細書は、個人的選択または他の基準によるレンダリングマトリックスを制御することによって、所望の再生設定(例えば、モノラル、ステレオ、5.1等)の選択および所望の出力レンダリングシーンの相互作用的なリアルタイム修正のためのユーザインタフェースのための手段を提供する空間的対象符号化(SAOC:Spatial Audio Object Coding)に焦点を合わせられる。しかしながら、本発明は、一般のパラメータの技術にも適用できる。
ダウンミックス/分離/ミックスに基づくパラメータのアプローチのため、レンダーオーディオ出力の主観的な品質は、レンダリングパラメータ設定に依存する。ユーザの選択したレンダリング設定を選択する自由は、不適当なオブジェクトレンダリングの選択肢、例えば、全体のサウンドシーンの範囲内におけるオブジェクトの極端なゲイン操作を選択するユーザのリスクを伴う。
商品のために、ユーザインタフェースにおけるいかなる設定のための悪いサウンド品質および/またはオーディオアーティファクトを生成することは、必ず容認できない。生成されたSAOCオーディオ出力の過度の悪化を制御するために、レンダーシーンの知覚的な品質の基準を計算するというアイデアに基づくいくつかの計算基準が記載され、そして、この基準(および、任意に、他の情報)に依存して、実際に適用されたレンダリング係数(例えば、特許文献1を参照)を修正する。
本明細書は、全ての処理がSAOCデコーダ/変換コーダの範囲内において完全に実行され、そして、レンダーサウンドシーンの読み取られたオーディオ品質の洗練された基準の明確な算出を含まないレンダーSAOCの主観的なサウンド品質を保護することについての他のアイデアを記載する。
これらのアイデアは、SAOCデコーダ/変換コーダのフレームワークの範囲内において、構造的に単純で、そして、極めて効率的な方法で実行されうる。提案された歪み制御装置(DCU)アルゴリズムは、SAOCデコーダの入力パラメータ、すなわち、レンダリング係数を制限することを目的とする。
上記を要約するために、本発明による実施形態は、上述したように、オーディオエンコーダ、オーディオデコーダ、符号化の方法、復号化の方法および符号化または復号化のためのコンピュータプログラム、または符号化されたオーディオ信号を生成する。
9. 実施形態の変形例
いくつかの態様が装置に関連して説明されたが、これらの態様も対応する方法の説明を表すことは明らかである、ここで、ブロックまたは装置は、方法ステップまたは方法ステップの特徴に対応する。同じように、方法ステップの文脈にも記載されている態様は、対応する装置の対応するブロックまたは項目あるいは特徴の説明を表す。方法ステップのいくらかまたは全ては、例えば、マイクロプロセッサ、プログラム可能なコンピュータ、または電子回路のようなハードウェア装置(または使用すること)によって実行されうる。いくつかの実施形態において、最も重要な方法ステップのいくつかの1つ以上は、この種の装置によって実行されうる。
発明の符号化されたオーディオ信号は、デジタル記憶媒体に保存され、または、例えば、ワイヤレス伝送媒体のような伝送媒体もしくはインターネットのような有線の伝送媒体上に送信されうる。
特定の実施要件に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアで実施されうる。実施は、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体(例えばフロッピー(登録商標)ディスク、DVD、Blue−Ray(登録商標)、CD、ROM、PROM、EPROM、EEPROMまたはFLASHメモリ)を使用して実行されることができる。そして、それぞれの方法が実行されるように、それはプログラム可能なコンピュータシステムと協同する(または協同することができる)。従って、デジタル記憶媒体は、計算機可読でありうる。
本発明によるいくつかの実施形態は、電子的に読み込み可能な制御を有するデータキャリアを含む。そして、それは、本願明細書において記載されている方法のうちの1つが実行されるように、それはプログラム可能なコンピュータシステムと協同することができる。
通常、本発明の実施形態はプログラムコードを有するコンピュータプログラム製品として実施されうる。そして、コンピュータプログラム製品がコンピュータで実行する場合、プログラムコードは、方法のうちの1つを実行するために実施される。プログラムコードは、機械読み取り可読キャリアに、例えば格納されうる。
他の実施形態は、本願明細書において記載されていて、機械読み取り可読キャリアに格納される方法のうちの1つを実行するためのコンピュータプログラムを含む。
換言すれば、発明の方法の実施形態は、従って、コンピュータプログラムがコンピュータで実行する場合、本願明細書において記載されている方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
従って、発明の方法の更なる実施形態は、その上に記録され、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムを含むデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体または記録媒体は、一般的に有形で、および/または非過渡的(non−transitionary)である。
発明の方法の更なる実施形態は、従って、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムを表しているデータストリームまたは一連の信号である。データストリームまたは信号のシーケンスは、データ通信接続を介して、例えばインターネットで転送されるように例えば構成されうる。
更なる実施形態は、本願明細書において記載されている方法のうちの1つを実行するために構成され、または適応される、例えば、コンピュータ、またはプログラム可能な論理装置の処理手段を含む。
更なる実施形態は、本願明細書において記載されている方法のうちの1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施形態では、プログラム可能な論理装置(例えば、フィールドプログラム可能なゲートアレイ)は、本願明細書において記載されている方法の機能のいくらかまたは全てを実行するために用いることができる。いくつかの実施形態では、フィールドプログラム可能なゲートアレイは、本願明細書において記載されている方法のうちの1つを実行するために、マイクロプロセッサと協同することができる。通常、方法は、いくつかのハードウェア装置によっても好ましくは実行される。
上記した実施形態は、本発明の原理のために、単に図示するだけである。本装置および本願明細書において説明された詳細の修正変更が他の当業者にとって明らかであるものと理解される。従って、近い将来の特許請求の範囲だけによってのみ制限され、本願明細書における実施形態の説明および説明として示される具体的な詳細のみによって制限されないという意図である。

Claims (20)

  1. オーディオコンテンツのビットストリーム表現(300)において含まれるダウンミックス信号表現(110;210)およびオブジェクト関連パラメトリック情報に基づいて、および複数のオーディオオブジェクトの所望の寄与を1以上の出力オーディオチャネルに定義するユーザ指定のレンダリングマトリックス(144,Mren)に依存して、アップミックス信号表現(130;230)を提供するためのオーディオ処理装置(100;200)であって、前記装置は、
    ユーザ指定のレンダリングマトリックス(Mren)と線形結合パラメータ(146;gDCU)に基づく歪みのないターゲットレンダリングマトリックス(Mren,tar)との線形結合を用いて、修正レンダリングマトリックス(142;Mren,lim)を得るために構成されるディストーションリミッタ(140;240)と、
    前記修正レンダリングマトリックスを用いて、前記ダウンミックス信号表現および前記オブジェクト関連パラメトリック情報に基づいて前記アップミックス信号表現を得るために構成される信号プロセッサ(148;248)と、を含み、
    ここで、前記装置は、前記線形結合パラメータを得るために、前記線形結合パラメータ(146;gDCU)を表しているビットストリーム要素(306;bsDcuParameter)を評価するように構成される、装置(100;200)。
  2. 前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス(Mren,tar)を得るために構成され、前記ターゲットレンダリングマトリックスは、歪みのないターゲットレンダリングマトリックスである、請求項1に記載の装置(100;200)。
  3. Figure 0005645951
  4. 前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス(Mren,tar)を得るために構成され、前記ターゲットレンダリングマトリックスは、ターゲットレンダリングマトリックスに類似のダウンミックスである、請求項1ないし請求項3のいずれかに記載の装置(100;200)。
  5. Figure 0005645951
  6. 前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス(Mren,tar)を得るために構成され、その結果、前記ターゲットレンダリングマトリックスは、ベストエフォート型ターゲットレンダリングマトリックスである、請求項1ないし請求項3のいずれかに記載の装置(100;200)。
  7. 前記ディストーションリミッタは、前記ターゲットレンダリングマトリックス(Mren,tar)を得るために構成され、その結果、前記ターゲットレンダリングマトリックスは、ダウンミックスマトリックス(D)および前記ユーザ指定のレンダリングマトリックス(Mren)に依存する、請求項1ないし請求項3、または請求項6のいずれかに記載の装置(100;200)。
  8. 前記ディストーションリミッタは、アップミックス信号表現を提供するための前記装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化値を含むマトリックス(NBE)を算出するために構成され、前記装置の所与の出力オーディオチャネルのためのエネルギー規格化値は、少なくとも、ほぼ、複数のオーディオオブジェクトのための前記ユーザ指定のレンダリングマトリックスにおける前記所与の出力オーディオチャネルと関連するエネルギーレンダリング値の合計と前記複数のオーディオオブジェクトのためのエネルギーダウンミックス値の合計との間の比率を記載し、
    ここで、ディストーションリミッタは、前記所与の出力チャネルと関連する前記ターゲットレンダリングマトリックス(Mren,tar)の一組のレンダリング値を得るために、チャネル個別のエネルギー規格化値を用いて一組のダウンミックス値を拡大・縮小するために構成される、請求項1ないし請求項3、請求項6または請求項7のいずれかに記載の装置(100;200)。
  9. Figure 0005645951
    Figure 0005645951
  10. 前記ディストーションリミッタは、前記ユーザ指定のレンダリングマトリックス(Mren)およびダウンミックスマトリックス(D)に依存して、前記装置の複数の出力オーディオチャネルのためのチャネル個別のエネルギー規格化値を記載しているマトリックスを算出するように構成され、
    ここで、前記ディストーションリミッタは、前記ダウンミックス信号表現の異なるチャネルと関連する1組のダウンミックス値の線形結合として、前記装置の所与の出力オーディオチャネルと関連する前記ターゲットレンダリングマトリックス(Mren,tar)の1組のレンダリング係数を得るために前記チャネル個別のエネルギー規格化値を記載している前記マトリックスを適用するために構成される、請求項1ないし請求項3、請求項6ないし請求項7のいずれかに記載の装置(100;200)。
  11. Figure 0005645951
  12. Figure 0005645951
  13. Figure 0005645951
  14. 前記装置は、前記オーディオコンテンツの前記ビットストリーム表現から前記線形結合パラメータ(gDCU)を表しているインデックス値(idx)を読み取るために、およびパラメータ量子化テーブルを用いて、前記インデックス値を前記線形結合パラメータ(gDCU)にマッピングするために構成される、請求項1ないし請求項13のいずれかに記載の装置(100;200)。
  15. 前記量子化テーブルは、不均一性の量子化を記載し、ここで、修正レンダリングマトリックス(Mren,lim)に前記ユーザ指定のレンダリングマトリックス(Mren)のより強い寄与を記載する前記線形結合パラメータ(gDCU)のより小さい値は、より高い解像度によって量子化される、請求項14に記載の装置(100;200)。
  16. 前記装置は、ディストーションリミテーションモードを記載しているビットストリーム要素(bsDcuMode)を評価するために構成され、ここで、前記ディストーションリミッタは、前記ターゲットレンダリングマトリックスがダウンミックス類似のターゲットレンダリングマトリックスであるか、または前記ターゲットレンダリングマトリックスが、ベストエフォート型ターゲットレンダリングマトリックスであるように、前記ターゲットレンダリングマトリックスを選択的に得るために構成される、請求項1ないし請求項15のいずれかに記載の装置(100;200)。
  17. マルチチャネルオーディオ信号を表しているビットストリーム(170)を提供するための装置(150)であって、前記装置は、
    複数のオーディオオブジェクト信号(160a−160N)に基づいてダウンミックス信号(182)を提供するために構成されるダウンミキサーと、
    前記オーディオオブジェクト信号(160a−160N)の特徴およびダウンミックスパラメータを記載しているオブジェクト関連パラメトリックサイド情報(186)、および前記ビットストリームに基づくアップミックス信号を提供するための装置(100;200)によって用いられる修正レンダリングマトリックス(Mren,lim)にユーザ指定のレンダリングマトリックス(Mren)およびターゲットレンダリングマトリックス(Mren,tar)の所望の寄与を記載している線形結合パラメータ(188)を提供するために構成される、サイド情報プロバイダ(184)と、
    前記ダウンミックス信号、前記オブジェクト関連パラメトリックサイド情報および前記線形結合パラメータの表現を含むビットストリーム(170)を提供するために構成されるビットストリームフォーマッタ(190)と、
    を含み、
    ここで、前記ユーザ指定のレンダリングマトリックス(144,Mren)は、複数のオーディオオブジェクトの所望の寄与を1以上の出力オーディオチャネルに定義する、
    装置。
  18. オーディオコンテンツのビットストリーム表現において含まれるダウンミックス信号表現およびオブジェクト関連パラメトリック情報に基づき、および複数のオーディオオブジェクトの所望の寄与を1以上の出力オーディオチャネルに定義するユーザ指定のレンダリングマトリックスに依存して、アップミックス信号表現を提供するためのオーディオ処理の方法であって、前記方法は、
    線形結合パラメータを得るために、前記線形結合パラメータを表しているビットストリーム要素を評価するステップと、
    前記線形結合パラメータに依存して、ユーザ指定のレンダリングマトリックスおよび歪みのないターゲットレンダリングマトリックスの線形結合を用いて修正レンダリングマトリックスを得るステップと、
    前記修正レンダリングマトリックスを用いて、前記ダウンミックス信号表現および前記オブジェクト関連パラメトリック情報に基づいて前記アップミックス信号表現を得るステップと、
    を含む、方法。
  19. マルチチャネルオーディオ信号を表しているビットストリームを提供するための方法であって、前記方法は、
    複数のオーディオオブジェクト信号に基づいてダウンミックス信号を提供するステップと、
    前記オーディオオブジェクト信号およびダウンミックスパラメータの特徴を記載しているオブジェクト関連パラメトリックサイド情報、および修正レンダリングマトリックスにユーザ指定のレンダリングマトリックスおよびターゲットレンダリングマトリックスの所望の寄与を記載している線形結合パラメータを提供するステップと、
    前記ダウンミックス信号、前記オブジェクト関連パラメトリックサイド情報および前記線形結合パラメータの表現を含むビットストリームを提供するステップと、
    を含み、
    ここで、前記ユーザ指定のレンダリングマトリックスは、複数のオーディオオブジェクトの所望の寄与を1以上の出力オーディオチャネルに定義する、
    方法。
  20. コンピュータプログラムは、コンピュータで実行される場合、請求項18または請求項19による方法を実行するための前記コンピュータプログラムである、コンピュータプログラム。
JP2012539298A 2009-11-20 2010-11-16 ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム Active JP5645951B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US26304709P 2009-11-20 2009-11-20
US61/263,047 2009-11-20
US36926110P 2010-07-30 2010-07-30
EP10171452 2010-07-30
US61/369,261 2010-07-30
EP10171452.5 2010-07-30
PCT/EP2010/067550 WO2011061174A1 (en) 2009-11-20 2010-11-16 Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter

Publications (2)

Publication Number Publication Date
JP2013511738A JP2013511738A (ja) 2013-04-04
JP5645951B2 true JP5645951B2 (ja) 2014-12-24

Family

ID=44059226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012539298A Active JP5645951B2 (ja) 2009-11-20 2010-11-16 ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム

Country Status (15)

Country Link
US (1) US8571877B2 (ja)
EP (1) EP2489038B1 (ja)
JP (1) JP5645951B2 (ja)
KR (1) KR101414737B1 (ja)
CN (1) CN102714038B (ja)
AU (1) AU2010321013B2 (ja)
BR (1) BR112012012097B1 (ja)
CA (1) CA2781310C (ja)
ES (1) ES2569779T3 (ja)
MX (1) MX2012005781A (ja)
MY (1) MY154641A (ja)
PL (1) PL2489038T3 (ja)
RU (1) RU2607267C2 (ja)
TW (1) TWI441165B (ja)
WO (1) WO2011061174A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
CN104822036B (zh) 2010-03-23 2018-03-30 杜比实验室特许公司 用于局域化感知音频的技术
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
AU2012279357B2 (en) 2011-07-01 2016-01-14 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
BR112015002793B1 (pt) * 2012-08-10 2021-12-07 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V Codificador, decodificador, sistema e método empregando um conceito residual para codificação de objeto de áudio paramétrico
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
KR102213895B1 (ko) 2013-01-15 2021-02-08 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
WO2014112793A1 (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CN105247611B (zh) * 2013-05-24 2019-02-15 杜比国际公司 对音频场景的编码
JP6248186B2 (ja) 2013-05-24 2017-12-13 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
RU2630754C2 (ru) 2013-05-24 2017-09-12 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
CN110085240B (zh) 2013-05-24 2023-05-23 杜比国际公司 包括音频对象的音频场景的高效编码
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
KR102243395B1 (ko) 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
WO2015059154A1 (en) 2013-10-21 2015-04-30 Dolby International Ab Audio encoder and decoder
WO2015073454A2 (en) * 2013-11-14 2015-05-21 Dolby Laboratories Licensing Corporation Screen-relative rendering of audio and encoding and decoding of audio for such rendering
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
WO2015183060A1 (ko) * 2014-05-30 2015-12-03 삼성전자 주식회사 오디오 객체를 이용한 오디오 콘텐트 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN105227740A (zh) * 2014-06-23 2016-01-06 张军 一种实现移动终端三维声场听觉效果的方法
EP3201923B1 (en) 2014-10-03 2020-09-30 Dolby International AB Smart access to personalized audio
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN112802496A (zh) * 2014-12-11 2021-05-14 杜比实验室特许公司 元数据保留的音频对象聚类
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
US10978079B2 (en) 2015-08-25 2021-04-13 Dolby Laboratories Licensing Corporation Audio encoding and decoding using presentation transform parameters
CN108665902B (zh) 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
US11432099B2 (en) * 2018-04-11 2022-08-30 Dolby International Ab Methods, apparatus and systems for 6DoF audio rendering and data representations and bitstream structures for 6DoF audio rendering
GB2593136B (en) * 2019-12-18 2022-05-04 Nokia Technologies Oy Rendering audio
CN113641915B (zh) * 2021-08-27 2024-04-16 北京字跳网络技术有限公司 对象的推荐方法、装置、设备、存储介质和程序产品
US20230091209A1 (en) * 2021-09-17 2023-03-23 Nolan Den Boer Bale ripper assembly for feed mixer apparatus

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
CN102163429B (zh) 2005-04-15 2013-04-10 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
EP1989704B1 (en) * 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
EP2000001B1 (en) * 2006-03-28 2011-12-21 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for a decoder for multi-channel surround sound
BRPI0713236B1 (pt) * 2006-07-07 2020-03-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Conceito para combinação de múltiplas fontes de áudio parametricamente codificadas
EP2068307B1 (en) * 2006-10-16 2011-12-07 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
RU2431940C2 (ru) 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
JP5450085B2 (ja) * 2006-12-07 2014-03-26 エルジー エレクトロニクス インコーポレイティド オーディオ処理方法及び装置
US8370164B2 (en) * 2006-12-27 2013-02-05 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel including information bitstream conversion
JP2010518460A (ja) * 2007-02-13 2010-05-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US8296158B2 (en) * 2007-02-14 2012-10-23 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP2076900A1 (en) * 2007-10-17 2009-07-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Audio coding using upmix
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
CN102016983B (zh) * 2008-03-04 2013-08-14 弗劳恩霍夫应用研究促进协会 用于对多个输入数据流进行混合的设备
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata

Also Published As

Publication number Publication date
KR101414737B1 (ko) 2014-07-04
RU2607267C2 (ru) 2017-01-10
PL2489038T3 (pl) 2016-07-29
CN102714038B (zh) 2014-11-05
CA2781310A1 (en) 2011-05-26
TW201131553A (en) 2011-09-16
ES2569779T3 (es) 2016-05-12
AU2010321013B2 (en) 2014-05-29
JP2013511738A (ja) 2013-04-04
TWI441165B (zh) 2014-06-11
US20120259643A1 (en) 2012-10-11
KR20120084314A (ko) 2012-07-27
EP2489038A1 (en) 2012-08-22
WO2011061174A1 (en) 2011-05-26
CN102714038A (zh) 2012-10-03
MY154641A (en) 2015-07-15
EP2489038B1 (en) 2016-01-13
BR112012012097A2 (pt) 2017-12-12
BR112012012097B1 (pt) 2021-01-05
AU2010321013A1 (en) 2012-07-12
RU2012127554A (ru) 2013-12-27
MX2012005781A (es) 2012-11-06
US8571877B2 (en) 2013-10-29
CA2781310C (en) 2015-12-15

Similar Documents

Publication Publication Date Title
JP5645951B2 (ja) ダウンミックス信号表現に基づくアップミックス信号を提供する装置、マルチチャネルオーディオ信号を表しているビットストリームを提供する装置、方法、コンピュータプログラム、および線形結合パラメータを使用してマルチチャネルオーディオ信号を表しているビットストリーム
JP5719372B2 (ja) アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
AU2010305717B2 (en) Apparatus, method and computer program for providing one or more adjusted parameters for provision of an upmix signal representation on the basis of a downmix signal representation and a parametric side information associated with the downmix signal representation, using an average value
CN101228575B (zh) 利用侧向信息的声道重新配置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130925

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140320

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141007

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141104

R150 Certificate of patent or registration of utility model

Ref document number: 5645951

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250