JP2016508617A - 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法 - Google Patents

隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法 Download PDF

Info

Publication number
JP2016508617A
JP2016508617A JP2015554118A JP2015554118A JP2016508617A JP 2016508617 A JP2016508617 A JP 2016508617A JP 2015554118 A JP2015554118 A JP 2015554118A JP 2015554118 A JP2015554118 A JP 2015554118A JP 2016508617 A JP2016508617 A JP 2016508617A
Authority
JP
Japan
Prior art keywords
audio
signals
additional
signal
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015554118A
Other languages
English (en)
Other versions
JP6277202B2 (ja
Inventor
カストナー,トルステン
ヘルレ,ユルゲン
リッダーブッシュ,ファルコ
ファルヒ,コルネリア,
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016508617A publication Critical patent/JP2016508617A/ja
Application granted granted Critical
Publication of JP6277202B2 publication Critical patent/JP6277202B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る装置が提供される。この装置は、一つ又は複数のオーディオオブジェクトをダウンミックスして未処理のダウンミックス信号を得るダウンミキサ(110)と、未処理のダウンミックス信号を処理して処理済みダウンミックス信号を得る処理モジュール(120)と、追加的信号を計算する信号計算部(130)とを含む。信号計算部(130)は、処理済みダウンミックス信号の一つと未処理のダウンミックス信号の一つとの差に基づいて、追加的信号の各々を計算する。更にこの装置は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的信号についての追加的パラメトリック情報とを生成する、オブジェクト情報生成部(140)と、符号化済み信号を出力する出力インターフェイス(150)とを含み、符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含む。更に対応する復号化装置が提供される。【選択図】 図1

Description

本発明はオーディオ信号処理に関し、特に、隠しオブジェクト(hidden objects)を信号混合操作に使用する、空間オーディオオブジェクト符号化のための復号器、符号器、システム、方法及びコンピュータプログラムに関するものである。
オーディオ信号処理はその重要度がますます増大しつつある。近年、多数のオーディオオブジェクトを含むオーディオシーンをビットレート効率的に伝送し及び/又は記憶するパラメトリック技術が、オーディオ符号化の分野(非特許文献1、非特許文献2、非特許文献3、非特許文献4、非特許文献5を参照)、更には事前情報付き音源分離(informed source separation)の分野(非特許文献6、非特許文献7、非特許文献8、非特許文献9、非特許文献10、非特許文献11を参照)で提案されてきた。これらの技術は、伝送され及び/又は記憶されたオーディオシーン及び/又はそのオーディオシーン内のオーディオ音源オブジェクトを記述する追加的サイド情報に基づいて、所望の出力オーディオシーン又は所望のオーディオシーン・オブジェクトを再構築することを目的としている。
図11は、MPEG SAOC(MPEG=動画専門家グループ、SAOC=空間オーディオオブジェクト符号化)の一例を示す、現状技術に従うシステムを示す。特に、図11はMPEG SAOCシステムの概略を示している。
現状技術に従えば、一般的な処理は周波数選択的な方法で実行されることが多く、また各周波数帯域内の処理は、例えば以下のように説明され得る。
現状技術のSAOC符号器910のミキサ912の処理の一部として、N個の入力オーディオオブジェクト信号s1…sNが、P個のチャネルx1…xpへとミックスダウンされる。要素d1,1,…,dN,Pを含むダウンミックス行列が使用されてもよい。加えて、SAOC符号器910のサイド情報推定部914が、入力オーディオオブジェクトの特性を記述するサイド情報を抽出する。MPEG SAOCにとって、オブジェクトパワー同士の相互の関係は、そのようなサイド情報の基本形式である。
次に、ダウンミックス信号及びサイド情報は、伝送され及び/又は記憶されてもよい。この目的で、ダウンミックスオーディオ信号は、MPEG−1レイヤII若しくはIII(mp3としても知られている)オーディオ符号器又はMPEG先進オーディオ符号化(AAC)オーディオ符号器などの、現状技術の知覚的オーディオ符号器920によって、符号化、例えば圧縮されてもよい。
受信端において、符号化済み信号は、まず、例えばMPEG−1レイヤII若しくはIIIオーディオ復号器又はMPEG先進オーディオ符号化(AAC)オーディオ復号器などの、現状技術の知覚的オーディオ復号器940によって、復号化されてもよい。
次に、現状技術のSAOC復号器950は、伝送されたサイド情報を使用して、(復号化済み)ダウンミックス信号から、例えば「オブジェクト分離」を実行することで、概念的にオリジナル・オブジェクト信号を復元しようと試みる。その伝送されたサイド情報は、上述したように、例えばSAOC符号器910のサイド情報推定部914によって生成されたものでもよい。オブジェクト分離を実行することによってオリジナル・オブジェクト信号を復元するために、SAOC復号器950は、例えば仮想オブジェクト分離部であるオブジェクト分離部952を含む。
次に、オブジェクト分離部952は、近似されたオブジェクト信号
Figure 2016508617
をSAOC復号器950のレンダラー954へと提供してもよく、そのレンダラー954は次に、近似されたオブジェクト信号
Figure 2016508617
を、例えばレンダリング行列を使用して、M個のオーディオ出力チャネル
Figure 2016508617
により表現される目標シーンへとミックスする。図11内の係数r1,1...N,Mは、例えばレンダリング行列の係数の幾つかを示してもよい。所望の目標シーンは、特別な場合には、混合(音源分離シナリオ)からの単一音源信号のレンダリングであり得るが、しかしまた、他の任意の音響シーンでもあり得る。
しかしながら、現状技術による処理は幾つかの欠点を有している。
現状技術のシステムは、オーディオ音源信号の処理だけに限定されている。符号器内および復号器内における信号処理は、混合信号またはオリジナル音源オブジェクト信号に対して更なる信号処理が適用されないという仮定の下で実行されている。この仮定が崩れた場合には、そのようなシステムの性能は劣化する。
この仮定を崩す顕著な例として、効率的にダウンミックス信号を運ぶために、処理チェーン内で、あるオーディオ符号器を使用して記憶及び/又は伝送されるべきデータ量を低減することが挙げられる。信号圧縮はダウンミックス信号を知覚的に変化させる。その結果、復号器システム内のオブジェクト分離部の性能が劣化し、従って、レンダリングされた目標シーンの知覚される品質も劣化することになる(非特許文献10、非特許文献11を参照)。
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003 [JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Convention, Paris, 2006 [SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTCI/SC29/WG1 I (MPEG) International Standard 23003-2. [SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK, AES Conference, Cambridge, UK, April 2007 [SAOC2] J. Engdegaгd, B. Resch, C. Falch, O. Helmuth, J. Hilpert, A. Hoelzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008 [ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010 [ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for informed source separation of audio signals with a single sensor", IEEE Transactions on Audio, Speech and Language Processing, 2010 [ISS3] A. Liutkus and J. Pine! and R. Badeau and L. Girin and G. Richard: "Informed source separation through spectrogram coding and data embedding", Signal Processing Journal, 2011 [ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation: source coding meets source separation', IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011 [ISS5] Shuhua Zhang and Laurent Girin: "An Informed Source Separation System for Speech Signals", INTERSPEECH, 2011 [ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Audio, 2011
本発明の目的は、オーディオ符号化および復号化のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置と、請求項9に記載の装置と、請求項16に記載のシステムと、請求項17に記載の方法と、請求項18に記載の方法と、請求項19に記載のコンピュータプログラムにより達成される。
一つ又は複数のオーディオオブジェクトを符号化して一つの符号化済み信号を得る、装置が提供される。この装置は、一つ又は複数のオーディオオブジェクトをダウンミックスして一つ又は複数の未処理のダウンミックス信号を得る、ダウンミキサを含む。更に、この装置は、一つ又は複数の未処理のダウンミックス信号を処理して一つ又は複数の処理済みダウンミックス信号を得る、処理モジュールを含む。更に、この装置は、一つ又は複数の追加的信号を計算する信号計算部を含み、信号計算部は、一つ又は複数の処理済みダウンミックス信号の一つと、一つ又は複数の未処理のダウンミックス信号の一つと、の間の差に基づいて、一つ又は複数の追加的信号の各々を計算するよう構成されている。更に、この装置は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的信号についての追加的パラメトリック情報とを生成する、オブジェクト情報生成部を含む。更に、この装置は、符号化済み信号を出力する出力インターフェイスを含み、符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含む。
一実施形態によれば、処理モジュールは、一つ又は複数の未処理のダウンミックス信号を符号化することによってその一つ又は複数の未処理のダウンミックス信号を処理し、一つ又は複数の処理済みダウンミックス信号を得るよう構成されている。
一実施形態において、信号計算部は、復号化ユニットと結合部とを含んでもよい。復号化ユニットは、一つ又は複数の処理済みダウンミックス信号を復号化して、一つ又は複数の復号化済み信号を得るよう構成されてもよい。更に結合部は、一つ又は複数の復号化済み信号の一つと、一つ又は複数の未処理のダウンミックス信号の一つとの差分信号を生成することによって、一つ又は複数の追加的信号の各々を生成するよう構成されてもよい。
一実施形態によれば、一つ又は複数の未処理のダウンミックス信号の各々は複数の第1信号サンプルを含み、その第1信号サンプルの各々が複数の時点(points-in-time)のうちの一つに割り当てられてもよい。一つ又は複数の復号化済み信号の各々は複数の第2信号サンプルを含み、その第2信号サンプルの各々が複数の時点のうちの一つに割り当てられてもよい。信号計算部は時間整合ユニットを更に含んでもよく、その時間整合ユニットは、一つ又は複数の復号化済み信号の一つと、一つ又は複数の未処理のダウンミックス信号の一つとを、時間整合(time-align)させるよう構成されてもよい。その結果、未処理のダウンミックス信号の第1信号サンプルの一つが復号化済み信号の第2信号サンプルの一つに割り当てられ、未処理のダウンミックス信号の第1信号サンプルと復号化済み信号の第2信号サンプルとが複数の時点のうちの同じ時点に割り当てられる。
一実施形態において、処理モジュールは、一つ又は複数の未処理のダウンミックス信号の少なくとも一つに対してあるオーディオ効果を適用することにより、一つ又は複数の未処理のダウンミックス信号を処理して、一つ又は複数の処理済みダウンミックス信号を得るよう構成されてもよい。
一実施形態によれば、オーディオオブジェクト・エネルギー値が一つ又は複数のオーディオオブジェクトの各々に対して割り当てられてもよく、更に、追加的エネルギー値が一つ又は複数の追加的信号の各々に対して割り当てられてもよい。オブジェクト情報生成部は参照エネルギー値を決定するよう構成されてもよく、その場合、参照エネルギー値が一つ又は複数のオーディオオブジェクトの各々のオーディオオブジェクト・エネルギー値以上となるように、また、参照エネルギー値が一つ又は複数の追加的信号の各々の追加的エネルギー値以上となるように、決定してもよい。更に、オブジェクト情報生成部は、一つ又は複数のオーディオオブジェクトの各オーディオオブジェクトについてのオーディオオブジェクト・レベル差を決定することにより、パラメトリック・オーディオオブジェクト情報を決定するよう構成されてもよく、その場合、オーディオオブジェクト・レベル差がオーディオオブジェクトのオーディオオブジェクト・エネルギー値と参照エネルギー値との比を示すか、又は、オーディオオブジェクト・レベル差が参照エネルギー値とオーディオオブジェクトのオーディオオブジェクト・エネルギー値との間の差を示してもよい。更に、オブジェクト情報生成部は、一つ又は複数の追加的信号の各追加的信号について追加的オブジェクトレベル差を決定することにより、追加的オブジェクト情報を決定するよう構成されてもよく、その場合、追加的オブジェクトレベル差が追加的信号の追加的エネルギー値と参照エネルギー値との比を示すか、又は、追加的オブジェクトレベル差が参照エネルギー値と追加的信号の追加的エネルギー値との間の差を示してもよい。
一実施形態において、処理モジュールは、音響効果モジュールと符号化モジュールとを含んでもよい。音響効果モジュールは、一つ又は複数の未処理のダウンミックス信号の少なくとも一つに対してある音響効果を適用し、一つ又は複数の音響的に調整されたダウンミックス信号を得るよう構成されてもよい。更に、符号化モジュールは、一つ又は複数の音響的に調整されたダウンミックス信号を符号化して、一つ又は複数の処理済み信号を得るよう構成されてもよい。
更に、符号化済み信号を復号化する装置が提供され、その符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とを含む。この装置は、一つ又は複数の処理済みダウンミックス信号を受信しかつ符号化済み信号を受信するインターフェイスを含み、追加的パラメトリック情報は、一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している。更に、この装置は、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報と、に基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するオーディオシーン生成部を含み、そのオーディオシーン生成部は、オーディオシーン内の追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するよう構成されている。
一実施形態によれば、追加的パラメトリック情報は一つ又は複数の追加的信号に依存してもよく、その追加的情報は、一つ又は複数の処理済みダウンミックス信号の一つと、一つ又は複数の未処理のダウンミックス信号の一つとの差を示し、一つ又は複数の未処理のダウンミックス信号は一つ又は複数のオーディオオブジェクトのダウンミックスを示し、一つ又は複数の処理済みダウンミックス信号は一つ又は複数の未処理のダウンミックス信号の処理の結果として得られたものである。
一実施形態において、オーディオシーン生成部は、オーディオオブジェクト生成部とレンダラーとを含んでもよい。オーディオオブジェクト生成部は、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とに基づいて、一つ又は複数のオーディオオブジェクトを生成するよう構成されている。レンダラーは、一つ又は複数のオーディオオブジェクトと、パラメトリック・オーディオオブジェクト情報と、レンダリング情報とに基づいて、オーディオシーンの複数の空間オーディオ信号を生成するよう構成されてもよい。
一実施形態によれば、レンダラーは、一つ又は複数のオーディオオブジェクトと、追加的パラメトリック情報と、レンダリング情報とに基づいて、オーディオシーンの複数の空間オーディオ信号を生成するよう構成されてもよく、ここでレンダラーは、レンダリング情報に含まれた一つ又は複数のレンダリング係数に依存して、オーディオシーン内の追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するよう構成されてもよい。
一実施形態において、この装置は、オーディオシーン内で追加的パラメトリック情報によって表現された出力信号が減衰され又は除去されるかどうかを操作する一つ又は複数のレンダリング係数を設定するためのユーザーインターフェイスを更に含んでもよい。
一実施形態によれば、オーディオシーン生成部は、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されてもよく、そのオーディオシーン生成部は、オーディオシーンを生成するために、一つ又は複数のオーディオオブジェクトを生成しないように構成されてもよい。
一実施形態において、この装置は、一つ又は複数の処理済みダウンミックス信号を復号化して一つ又は複数の復号化済み信号を得るオーディオ復号器を更に含んでもよく、オーディオシーン生成部は、一つ又は複数の復号化済み信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、レンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されてもよい。
他の実施形態において、オーディオシーン生成部は、オーディオシーンを次式を用いて生成するよう構成されてもよい。
Figure 2016508617
ここで、
Figure 2016508617
はオーディオシーンを示す第1行列であり、複数の空間オーディオ信号を示す複数の行を含み、R’はレンダリング情報を示す第2行列であり、
Figure 2016508617
は第3行列であり、X’は一つ又は複数の処理済みダウンミックス信号を示す第4行列であり、G’は第5行列であり、D’はダウンミックス行列である第6行列であり、E’は複数の第7行列係数を含む第7行列であり、第7行列係数は次式により定義される。
Figure 2016508617
ここで、E'i,jは行i及び列jにおける第7行列係数の一つであり、iは行インデックスであり、jは列インデックスであり、IOC'i,jは相互相関値を示し、OLD'iは第1エネルギー値を示し、OLD'jは第2エネルギー値を示す。
更に、あるシステムが提供される。このシステムは、上述した実施形態の一つに従う符号化装置と、上述した実施形態の一つに従う復号化装置とを含む。符号化装置は、一つ又は複数の処理済みダウンミックス信号と符号化済み信号とを復号化装置へと供給するよう構成されており、符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含む。復号化装置は、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されている。
更に、一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る方法が提供される。その方法は、
−一つ又は複数のオーディオオブジェクトをダウンミックスして一つ又は複数の未処理のダウンミックス信号を得るステップと、
−一つ又は複数の未処理のダウンミックス信号を処理して一つ又は複数の処理済みダウンミックス信号を得るステップと、
−一つ又は複数の処理済みダウンミックス信号の一つと一つ又は複数の未処理のダウンミックス信号の一つとの差に基づいて一つ又は複数の追加的信号の各々を計算することにより、一つ又は複数の追加的信号を計算するステップと、
−一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを生成するステップと、
−符号化済み信号を出力するステップであって、符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含むステップと、
を含む。
更に、符号化済み信号を復号化する方法であって、符号化済み信号が、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と追加的パラメトリック情報とを含む、方法が提供される。その方法は、
−一つ又は複数の処理済みダウンミックス信号を受信し、かつ符号化済み信号を受信するステップであって、追加的パラメトリック情報は、一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している、ステップと、
−一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するステップと、
−オーディオシーン内で追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するステップと、
を含む。
更に、コンピュータ又は信号プロセッサ上で作動されたときに上述の方法の一つを実行する、コンピュータプログラムが提供される。
実施形態に従えば、パラメトリック・オブジェクト符号化の概念は、追加的な隠しオブジェクトとして音源オブジェクト又は混合信号の改変/操作を提供することにより、改善/拡張される。サイド情報推定処理および(仮想)オブジェクト分離にこれら隠しオブジェクトを含めることで、レンダリングされた音響シーンの知覚的品質が向上する。隠しオブジェクトは、例えば知覚的オーディオ符号器からの符号化エラー信号のような、ダウンミックス信号に適用される人工的に生成された信号を記述し得るが、また、例えば残響のように、ダウンミックス信号に適用される他の非線形処理の記述でもあり得る。
これら隠しオブジェクトの特性に起因して、それら隠しオブジェクトは、主として復号化側においてレンダリングされることを意図されておらず、(仮想)オブジェクト分離処理を改善するために使用され、それによりレンダリングされた音響シーンの知覚的品質を向上させる。これは、ゼロの再生レベル(「消音」)を用いて隠しオブジェクトをレンダリングすることで達成される。このように、復号器内におけるレンダリング処理は、隠しオブジェクトにより表現された望ましくない要素を抑制して、レンダリングされたシーン/信号の主観的品質を向上させるように、自動的に制御される。
一実施形態によれば、符号化モジュールは知覚的オーディオ符号器であってもよい。
本提案の概念は、隠しオブジェクト情報を十分な復号器・互換性を持つ方法で含めることで、オーディオ品質における改善を提供できるという点において、特に有利である。つまり、出力信号の品質における上述の改善は、ISO/MPEGの下で標準化されてきた既存の/展開されている(例えばSAOCの)復号器の変更を全く必要とせずに達成でき、しかも、標準のSAOC仕様への適合性を阻害すること(又は時間を浪費し費用の掛かるプロセスとなるであろう標準を再発行すること)なしには変更できない、ということを意味する。
以下の説明において、「隠しオブジェクト」について言及するであろう。幾つかの実施形態において、追加的パラメトリック情報は、例えば一つ又は複数の隠しオブジェクトを表現してもよい点に留意すべきである。
以下に、本発明の実施形態を図面を参照しながら更に詳細に説明する。
一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、一実施形態に係る装置を示す。 一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、他の実施形態に係る装置を示す。 一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、更に他の実施形態に係る装置を示す。 一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、別の実施形態に係る装置を示す。 一実施形態に係る符号化装置の処理モジュール120を示す。 符号化済み信号を復号化する、一実施形態に係る装置を示す。 符号化済み信号を復号化する、他の実施形態に係る装置を示す。 符号化済み信号を復号化する、更に他の実施形態に係る装置を示す。 符号化済み信号を復号化する、別の実施形態に係る装置を示す。 一実施形態に係るシステムを示す。 MPEG SAOCの一例を示す現状技術に係るシステムを示す。
図1は、一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、一実施形態に係る装置を示す。
この装置は、一つ又は複数のオーディオオブジェクトをダウンミックスして、一つ又は複数の未処理のダウンミックス信号を得るダウンミキサ110を含む。この目的で、図1のダウンミキサは、一つ又は複数のオーディオオブジェクトを受信し、例えばダウンミックス行列を適用することでオーディオオブジェクトをダウンミックスして、一つ又は複数の未処理のダウンミックス信号を取得する。
更に、この装置は、一つ又は複数の未処理のダウンミックス信号を処理して一つ又は複数の処理済みダウンミックス信号を得る、処理モジュール120を含む。処理モジュール120は、ダウンミキサから一つ又は複数の未処理のダウンミックス信号を受信して、それらを処理し、一つ又は複数の処理済み信号を取得する。
例えば、処理モジュール120は符号化モジュール、例えば知覚的符号器であってもよく、一つ又は複数の未処理のダウンミックス信号を符号化することにより当該未処理のダウンミックス信号を処理して、一つ又は複数の処理済みダウンミックス信号を取得するよう構成されてもよい。処理モジュール120は、例えば知覚的オーディオ符号器、例えばMPEG−1レイヤII若しくはIII(mp3としても知られている)オーディオ符号器、又はMPEG先進オーディオ符号化(AAC)オーディオ符号器などであってもよい。
代替的に、例えば、処理モジュール120はオーディオ効果モジュールであってもよく、一つ又は複数の未処理のダウンミックス信号のうちの少なくとも一つに対してオーディオ効果を適用することにより、一つ又は複数の未処理のダウンミックス信号を処理して、一つ又は複数の処理済みダウンミックス信号を取得するよう構成されてもよい。
更に、この装置は、一つ又は複数の追加的信号を計算するための信号計算部130を含む。信号計算部130は、一つ又は複数の処理済みダウンミックス信号のうちの一つと、一つ又は複数の未処理のダウンミックス信号のうちの一つとの差に基づいて、一つ又は複数の追加的信号の各々を計算するよう構成されている。
信号計算部130は、例えば、一つ又は複数の処理済みダウンミックス信号のうちの一つと、一つ又は複数の未処理のダウンミックス信号のうちの一つとの差分信号を計算して、一つ又は複数の追加的信号の一つを生成してもよい。
しかしながら、他の実施形態において、信号計算部130は、差分信号を決定する代わりに、一つ又は複数の処理済みダウンミックス信号のうちの前記一つと、一つ又は複数の未処理のダウンミックス信号のうちの前記一つとの間の他の種類の差を決定して、一つ又は複数の追加的信号の一つを生成してもよい。次に、信号計算部130は、前記2つの信号間の決定された差に基づいて追加的信号を計算してもよい。
更に、この装置は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的信号についての追加的パラメトリック情報とを生成する、オブジェクト情報生成部140を含む。
例えば、パラメトリック・オーディオオブジェクト情報と追加的パラメトリック情報とを決定するために、オブジェクトレベル差が決定されてもよい。例えば、あるオーディオオブジェクト・エネルギー値が一つ又は複数のオーディオオブジェクトの各々に対して割り当てられてもよく、ある追加的エネルギー値が一つ又は複数の追加的信号の各々に対して割り当てられてもよい。
オブジェクト情報生成部140は、ある参照エネルギー値を決定するよう構成されてもよく、その場合、参照エネルギー値が一つ又は複数のオーディオオブジェクトの各々のオーディオオブジェクト・エネルギー値以上となるように、かつ、その参照エネルギー値が一つ又は複数の追加的信号の各々の追加的エネルギー値以上となるように、決定してもよい。
更に、オブジェクト情報生成部140は、一つ又は複数のオーディオオブジェクトの各オーディオオブジェクトについてのオーディオオブジェクト・レベル差を決定することにより、パラメトリック・オーディオオブジェクト情報を決定するよう構成されてもよく、その場合、前記オーディオオブジェクト・レベル差が、前記オーディオオブジェクトのオーディオオブジェクト・エネルギー値と参照エネルギー値との比を示すか、又は、参照エネルギー値と前記オーディオオブジェクトのオーディオオブジェクト・エネルギー値との差を示してもよい。
更に、オブジェクト情報生成部140は、一つ又は複数の追加的信号の各追加的信号について追加的オブジェクトレベル差を決定することにより、追加的オブジェクト情報を決定するよう構成されてもよく、その場合、前記追加的オブジェクトレベル差が、前記追加的信号の追加的エネルギー値と参照エネルギー値との比を示すか、又は、参照エネルギー値と前記追加的信号の追加的エネルギー値との差を示してもよい。
例えば、オーディオオブジェクトの各々のオーディオオブジェクト・エネルギー値は、サイド情報としてオブジェクト情報生成部140へと送られてもよい。追加的信号の各々のエネルギー値もまた、サイド情報としてオブジェクト情報生成部140へと送られてもよい。代替的に、他の実施形態においては、オブジェクト情報生成部140自身が追加的信号の各々のエネルギー値を計算してもよく、例えば追加的信号のうちの一つのサンプル値の各々を二乗すること、それら各サンプル値を合計して中間結果を得ること、及びその中間結果の平方根を計算することで、追加的信号のエネルギー値を得てもよい。次に、オブジェクト情報生成部140は、例えば全てのオーディオオブジェクトと全ての追加的信号の最大エネルギー値を、参照エネルギー値として決定してもよい。
次に、オブジェクト情報生成部140は、追加的信号の追加的エネルギー値と参照エネルギー値との比を、追加的オブジェクトレベル差として決定してもよい。例えば、追加的エネルギー値が3.0であり、参照エネルギー値が6.0である場合、追加的オブジェクトレベル差は0.5となる。
代替的に、オブジェクト情報生成部140は、例えば参照エネルギー値と追加的信号の追加的エネルギー値との差を、追加的オブジェクトレベル差として決定してもよい。例えば、追加的エネルギー値が7.0であり、参照エネルギー値が10.0である場合には、追加的オブジェクトレベル差は3.0となる。このような差を決定することによって追加的オブジェクトレベル差を計算することは、エネルギー値が対数尺度で表現されている場合に、特に適切である。
他の実施形態では、パラメトリック情報はまた、空間オーディオオブジェクト及び/又は隠しオブジェクト間のオブジェクト間コヒーレンスについての情報を含んでもよい。
更に、この装置は、符号化済み信号を出力する出力インターフェイス150を含む。符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含む。この目的のために、幾つかの実施形態において、出力インターフェイス150は、符号化済み信号が、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含むように、符号化済み信号を生成するよう構成されてもよい。又は、他の実施形態において、オブジェクト情報生成部140は、符号化済み信号が、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含むように、符号化済み信号を既に生成しており、その符号化済み信号を出力インターフェイス150へと送信してもよい。
図2は、一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る、他の実施形態に係る装置を示す。図2の実施形態において、処理モジュール120は、一つ又は複数の未処理のダウンミックス信号を符号化することによってそれら一つ又は複数の未処理のダウンミックス信号を処理し、一つ又は複数の処理済みダウンミックス信号を得るよう構成されている。図2の信号計算部130は、復号化ユニット240と結合部250とを含む。復号化ユニット240は、一つ又は複数の処理済みダウンミックス信号を復号化して、一つ又は複数の復号化済み信号を得るよう構成されている。更に、結合部250は、一つ又は複数の復号化済み信号のうちの一つと、一つ又は複数の未処理のダウンミックス信号のうちの一つとの差分信号を生成することによって、一つ又は複数の追加的信号の各々を生成するよう構成されている。
本発明の実施形態は、次のような知見を基礎とする。即ち、空間オーディオオブジェクトがダウンミックスされた後で結果として得られたダウンミックス信号は、(非意図的または意図的に)後続の処理モジュールによって変更され得る、という知見である。ダウンミックス信号の変更についての情報を、隠しオブジェクト・サイド情報として、例えば隠しオブジェクトとして符号化する、サイド情報生成部を提供することで、そのような変更による効果を、空間オーディオオブジェクトを再構築するときに(特に、ダウンミックス信号の変更が非意図的であった場合に)排除することができ、又は、再構築された空間オーディオオブジェクトからオーディオチャネルを生成するときに、ダウンミックス信号の(意図的な)変更のどの程度/どのくらいの量までレンダリングされるべきかを決定することができる。
図2の実施形態において、復号化ユニット240は、一つ又は複数の復号化済み信号を符号器側で既に生成し、それにより、その一つ又は複数の復号化済み信号が一つ又は複数の未処理のダウンミックス信号と比較されて、処理モジュール120によって行なわれた符号化に起因する差が決定され得る。
図3は、一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を取得する、更なる実施形態にかかる装置を示す。一つ又は複数の未処理のダウンミックス信号の各々は複数の第1信号サンプルを含んでもよく、それら第1信号サンプルの各々が複数の時点のうちの一つに割り当てられている。一つ又は複数の復号化済み信号の各々は複数の第2信号サンプルを含んでもよく、それら第2信号サンプルの各々が複数の時点のうちの一つに割り当てられている。
図3に示す実施形態と図2に示す実施形態との相違点は、信号計算部が時間整合ユニット345を更に含むことであり、その時間整合ユニットは、一つ又は複数の復号化済み信号の一つと、一つ又は複数の未処理のダウンミックス信号の一つとを時間整合させるよう構成されており、それにより、未処理のダウンミックス信号の第1信号サンプルの一つが復号化済み信号の第2信号サンプルの一つに割り当てられ、未処理のダウンミックス信号の第1信号サンプルと復号化済み信号の第2信号サンプルとが複数の時点のうちの同じ時点に割り当てられる。
換言すれば、処理モジュール120による処理と復号化ユニット240による復号化とに時間が掛かるので、未処理のダウンミックス信号と復号化済みダウンミックス信号とは、それらを比較しかつそれらの差を決定するために、時間においてそれぞれ整合されるべきである。
図4は、一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を取得する、他の実施形態にかかる装置を示す。特に、図4は、追加的パラメータ情報を生成することにより、一つ又は複数のオーディオオブジェクトを符号化する装置を示し、追加的パラメータ情報とは、(例えば一つ又は複数の符号化エラー信号などの)一つ又は複数の追加的信号を追加的パラメータによってパラメータ化するものである。これら追加的パラメータは、復号器側においてユーザーに対して隠されていてもよいため、「隠しオブジェクト」と称されてもよい。
図4の装置は、ミキサ110(ダウンミキサ)と、処理モジュール120としてのオーディオ符号器と、信号計算部130と、オブジェクト情報生成部140(サイド情報推定部とも称され得る)とを含む。信号計算部130は破線で示され、復号化ユニット240(「オーディオ復号器」)と、時間整合ユニット345と、結合部250とを含む。
図4の実施形態において、結合部250は、例えば、(時間整合された)ダウンミックス信号の少なくとも一つと(時間整合された)符号化済み信号の少なくとも一つとの間の少なくとも一つの差、例えば少なくとも一つの差分信号を形成してもよい。ミキサ110及びサイド情報推定部260は、SAOC符号器モジュールに含まれてもよい。
知覚的オーディオコーデックは、符号化ノイズ信号によって記述され得るダウンミックス信号の信号変化を生じさせる。この符号化ノイズ信号は、復号化側において柔軟性のあるレンダリング能力を使用している場合(非特許文献10、非特許文献11を参照)、知覚可能な信号劣化を引き起こす可能性がある。符号化ノイズは、復号化側においてレンダリングされることを意図されない、隠しオブジェクトとして記述され得る。符号化ノイズは「現実の」音源オブジェクト信号と同様にパラメータ化され得る。
更に詳細には、これは例えば以下のように実行され得る。
−ダウンミックス信号は、オーディオコーデックによって符号化/復号化されて(又は他のアルゴリズムによって処理されて)、少なくとも一つの復号化済み信号が得られる(符号化は例えば処理モジュール120により実行されてもよい;復号化は例えば復号化ユニット240により実行されてもよい)。
−次に、復号化済みの(時間整合された)ダウンミックス信号が(オリジナル)ダウンミックス信号x1...xpから差し引かれ、その結果として一つ又は複数の(結合信号である)差分信号が得られ、この差分信号は一つ又は複数の符号化(処理)エラー(ノイズ)信号q1...qpを表している。
−エラー信号q1...qp(差分信号)とエラー信号混合パラメータdq,1...dq,p(デフォルトにより1に設定されている)とは、SAOC符号器のサイド情報推定部140(オブジェクト分析部)へと提供され、その結果、追加的な(隠し)ノイズオブジェクトのパラメータ情報が得られる。MPEG SAOCについては、オブジェクトパワー(隠しオブジェクトとオーディオ音源オブジェクト)同士の相互関係は、そのようなサイド情報の最も基本的な形式として計算される。追加的な隠しノイズオブジェクトは、隠しオブジェクト・サイド情報を表す。
−追加的ノイズオブジェクトのパラメータ情報は、現実のオブジェクトからSAOC符号器によって生成されていたSAOCサイド情報に追加される。(SAOCサイド情報は、オーディオオブジェクト・サイド情報として考慮され得る。そのようなオーディオオブジェクト・サイド情報は、例えば、2つ以上の空間オーディオオブジェクトに基づいた2つ以上の空間オーディオオブジェクトの特性を表している。)
図5は、一実施形態に係る符号化装置の処理モジュール120を示す。処理モジュール120は、音響効果モジュール122と符号化モジュール121とを含む。音響効果モジュール122は、一つ又は複数の未処理のダウンミックス信号の少なくとも一つに対して音響効果を適用し、一つ又は複数の音響的に調整されたダウンミックス信号を得るよう構成されている。更に、符号化モジュール121は、一つ又は複数の音響的に調整されたダウンミックス信号を符号化して、一つ又は複数の処理済み信号を得るよう構成されている。
点A及び点Cにおける信号はオブジェクト情報生成部140へと供給されてもよい。そのため、オブジェクト情報生成部は、未処理のダウンミックス信号に対する音響効果モジュール122及び符号化モジュール121の効果を決定することができ、更に、その効果を表現する、対応する追加的パラメトリック情報を生成することができる。
任意ではあるが、点Bにおける信号もまた、オブジェクト情報生成部140へと供給されてもよい。これにより、オブジェクト情報生成部140は、点Aと点Bにおける信号を考慮に入れることで、未処理のダウンミックス信号に対する音響効果モジュール122の個別の効果を決定できる。これは、例えば点Aにおける信号と点Bにおける信号との間の差分信号を形成することにより実現され得る。
更に、これにより、オブジェクト情報生成部140は、点Bと点Cにおける信号を考慮に入れることで、符号化モジュール121の個別の効果を決定できる。これは、例えば、点Cにおける信号を復号化し、これら復号化済み信号と点Bにおける信号との間の差分信号を形成することにより実現され得る。
図6は、符号化済み信号を復号化する、一実施形態に係る装置を示す。符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とを含む。
この装置は、一つ又は複数の処理済みダウンミックス信号を受信し、かつ符号化済み信号を受信する、インターフェイス210を含む。追加的パラメトリック情報は、一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している。
更に、この装置は、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、レンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するオーディオシーン生成部220を含む。レンダリング情報は、オーディオシーンにおける一つ又は複数のオーディオオブジェクトの配置を示す。オーディオシーン生成部220は、オーディオシーン内において追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するよう構成されている。
例えば、空間オーディオオブジェクト符号化(SAOC)に関し、一つ又は複数のオーディオオブジェクトが一つ又は複数の処理済みダウンミックス信号とパラメトリック・オーディオオブジェクト情報とによって符号化されている場合、レンダリング情報に基づいて、一つ又は複数のオーディオオブジェクトがどのように配置され得るかという点は、当業界において公知である。
しかし、この実施形態によれば、インターフェイスは、一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している追加的パラメトリック情報を、更に受信するよう構成されている。つまり、追加的パラメトリック情報は、例えば図1に従う符号化装置によって実行された処理を反映している。
従って、特別な実施形態においては、追加的パラメトリック情報は一つ又は複数の追加的信号に依存してもよく、その追加的信号は、一つ又は複数の処理済みダウンミックス信号のうちの一つと、一つ又は複数の未処理のダウンミックス信号のうちの一つとの間の差を示しており、一つ又は複数の未処理のダウンミックス信号は、一つ又は複数のオーディオオブジェクトのダウンミックスを示し、一つ又は複数の処理済みダウンミックス信号は、一つ又は複数の未処理のダウンミックス信号の処理の結果として得られたものである。
現状技術の復号器は、図1に従う符号化装置によって生成された処理済みダウンミックス信号と符号化済み信号とを受信するであろうが、符号化済み信号に含まれた追加的パラメトリック情報は使用しないであろう。その代わり、現状技術の復号器は、処理済みダウンミックス信号と、符号化済み信号のパラメトリック・オーディオオブジェクト情報と、レンダリング情報とだけを使用して、オーディオシーンを生成するであろう。
しかし、図6の実施形態に従う復号化装置は、符号化済み信号の追加的パラメトリック情報を使用する。これにより、この復号化装置は、図1に従う符号化装置の処理モジュール120によって実行された処理を取り消すか又は部分的に取り消すことが可能になる。
追加的パラメトリック情報は、例えば、図1の未処理のダウンミックス信号の一つと図1の処理済みダウンミックス信号の一つとの間の差分信号を示してもよい。そのような差分信号は、オーディオシーンの一つの出力信号として考慮されてもよい。例えば、処理済み信号の各々は、未処理のダウンミックス信号の一つと差分信号との結合として考えられてもよい。
オーディオシーン生成部220は、次に、例えばオーディオシーン内においてこの出力信号を減衰させ又は除去するよう構成されてもよく、その結果、例えば、レンダリング情報に依存して、未処理のダウンミックス信号だけが再生されるか、又は、未処理のダウンミックス信号が再生されかつ差分信号の一部分だけが再生されてもよい。
図7は、符号化済み信号を復号化する、他の実施形態に係る装置を示す。オーディオシーン生成部220は、オーディオオブジェクト生成部610とレンダラー620とを含む。
オーディオオブジェクト生成部610は、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とに基づいて、一つ又は複数のオーディオオブジェクトを生成するよう構成されている。
レンダラー620は、一つ又は複数のオーディオオブジェクトと、パラメトリック・オーディオオブジェクト情報と、レンダリング情報とに基づいて、オーディオシーンの複数の空間オーディオ信号を生成するよう構成されている。
一実施形態によれば、レンダラー620は、例えば、一つ又は複数のオーディオオブジェクトと、追加的パラメトリック情報と、レンダリング情報とに基づいて、オーディオシーンの複数の空間オーディオ信号を生成するよう構成されてもよく、その場合、レンダラー620は、レンダリング情報に含まれる一つ又は複数のレンダリング係数に依存して、オーディオシーンの中で、追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するよう構成されてもよい。
図8は、符号化済み信号を復号化する別の実施形態に係る装置を示す。図8において、この装置は、オーディオシーンの中で、追加的パラメトリック情報によって表現される出力信号が減衰され又は除去されるかどうかを操作する、一つ又は複数のレンダリング係数を設定するためのユーザーインターフェイス710を更に含む。例えばユーザーインターフェイスは、ユーザーがレンダリング係数の一つを、追加的パラメトリック情報によって表現される出力信号が部分的に抑制されることを示す0.5に設定することを可能にしてもよい。又は、例えばユーザーインターフェイスは、ユーザーがレンダリング係数の一つを、追加的パラメトリック情報によって表現される出力信号が完全に抑制されることを示す0に設定することを可能にしてもよい。又は、例えばユーザーインターフェイスは、ユーザーがレンダリング係数の一つを、追加的パラメトリック情報によって表現される出力信号が全く抑制されないことを示す1に設定することを可能にしてもよい。
代替的な実施形態によれば、オーディオシーン生成部220は、複数の空間オーディオ信号を含むオーディオシーンを、一つ又は複数の処理済みダウンミックス信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、生成するよう構成されてもよく、その場合、オーディオシーン生成部は、オーディオシーンを生成するために一つ又は複数のオーディオオブジェクトを生成しないよう構成されてもよい。
図9は、符号化済み信号を復号化する他の実施形態に係る装置を示す。図9の実施形態において、この装置は、一つ又は複数の処理済みダウンミックス信号(「符号化済みダウンミックス」と呼ばれる)を復号化して一つ又は複数の復号化済み信号を得るオーディオ復号器510を更に含み、オーディオシーン生成部は、一つ又は複数の復号化済み信号と、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、レンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されている。
図9の装置は、一つ又は複数の処理済みダウンミックス信号を復号化するオーディオ復号器510を含むが、それら処理済みダウンミックス信号は、インターフェイス(図示せず)から復号器510へと供給されたものである。結果として得られた復号化済み信号は、次に、オーディオシーン生成部220のオーディオオブジェクト生成部(図9の中では仮想オブジェクト分離部520と称される)へと供給されるが、そのオーディオシーン生成部220は、図9の実施形態においてはSAOC復号器である。オーディオシーン生成部220は、レンダラー530を更に含む。
特に、図9は、一実施形態に従った隠しオブジェクトの抑制を含む、対応するSAOC復号化/レンダリングを示す。
図9において、例えば図4の符号器の追加的サイド情報は、復号化側において例えば図9の復号器によって、符号化ノイズを抑制するために使用されることができ、それにより、レンダリングされた音響シーンの知覚される品質を改善できる。より具体的には、以下のように実行され得る。
(1)追加的な隠しオブジェクト情報は、追加的オブジェクトとして(仮想)オブジェクト分離処理の中に組み込まれる。符号化エラーは、「通常の」オーディオ音源オブジェクトと同様に取り扱われる。追加的オブジェクトは、追加的パラメトリック情報の一部として表現されてもよい。
(2)N個のオーディオオブジェクトの各々は、N−1個の干渉する音源信号と符号化エラー信号q1...qpとを抑制することで、混合信号から分離される。その結果、通常の(隠されない)オーディオ(音源)オブジェクトだけがこのステップで考慮された場合と比較して、オーディオオブジェクト信号の改善された推定が得られる。ここで、符号化エラーの推定も、同様に計算できることに注意されたい。
(3)推定されたオーディオオブジェクト信号をしかるべきレンダリング係数で乗算することで、改善されたオーディオ音源推定
Figure 2016508617
をレンダリングすることにより、所望のオーディオシーン(「音響目標シーン」とも称される)が生成される。追加的に演算されたいかなる推定の符号化エラー信号も、レンダリング処理の中では省略される。
実際上、MPEG−D SAOCのようなシステムでは、第2と第3のステップは、好ましくは、単一の効率的なトランスコーディング処理の中で実行されてもよい。
他の実施形態において、隠しオーディオオブジェクトの概念はまた、符号化側で信号混合に適用された所定のオーディオ効果を復号化側で取り消し又は制御するために利用され得る。ダウンミックスチャネルに対して適用されたいかなる効果も、復号器におけるオブジェクト分離処理の劣化を引き起こし得る。復号化側でダウンミックス信号からこの効果を消去すること、例えば適用されたオーディオ効果を取り消すことは、分離ステップの性能を向上させ、従って、レンダリングされた音響シーンの知覚される品質を向上させる。更に連続的なタイプの操作については、SAOC復号器内の隠しオブジェクトのレンダリングレベルを制御することにより、レンダリングされたオーディオ出力内に現れる効果の量を制御することができる。(追加的パラメトリック情報によって表現される)隠しオブジェクトをゼロのレベルでレンダリングすることにより、レンダリングされた出力信号内の適用された効果はほぼ完全に抑制されることになる。隠しオブジェクトを低レベルでレンダリングすることにより、レンダリングされた出力信号内の適用された効果が低レベルとなる。
一例として、ダウンミックスチャネルに対する残響器の適用は、残響のパラメータ化されたバージョンを隠し(効果)オブジェクトとして伝送し、その隠し(効果)オブジェクトについてゼロの再生レベルを有する通常のSAOC復号化レンダリングを適用することで、取り消すことができる。
より具体的には、これは以下のように実行することができる。
符号器側において、あるオーディオ効果(例えば残響器)がダウンミックス信号x1...xpに対して適用され、変更済みダウンミックス信号x'1...x'pがもたらされる。
処理済みの時間整合されたダウンミックス信号x'1...x'pが未処理の(オリジナル)ダウンミックス信号x1...xpから差し引かれ、残響信号q1...qp(効果信号)がもたらされる。
効果信号q1...qpと効果信号混合パラメータdq,1...dq,pとがSAOC符号器のオブジェクト分析部へと供給されて、追加的な(隠し)効果オブジェクトのパラメータ情報がもたらされる。
効果信号のパラメータ化された記述が導出されて、追加的な隠し(効果)オブジェクト情報として、SAOCサイド情報推定部により生成されたサイド情報に追加され、その結果、エンリッチサイド情報が伝送/記憶されることになる。
復号器側では、隠しオブジェクト情報は、追加的オブジェクトとして(仮想)オブジェクト分離処理の中に組み込まれる。隠しオブジェクト(効果信号)は、「通常の」オーディオ音源オブジェクトと同様の方法で取り扱われる。
N個のオーディオオブジェクトの各々は、N−1個の干渉する音源信号および効果信号q1...qpを抑制することで、混合信号から分離される。その結果、通常の(隠されない)オーディオ音源オブジェクトだけがこのステップで考慮された場合と比較して、オリジナルオーディオオブジェクト信号の改善された推定が得られる。加えて、残響信号の推定も同様にして計算できる。
推定されたオーディオオブジェクト信号をしかるべきレンダリング係数で乗算することで、改善されたオーディオ音源推定
Figure 2016508617
をレンダリングすることにより、所望の音響目標シーンが生成される。隠しオブジェクト(残響信号)は、(残響信号をゼロのレベルでレンダリングすることにより)ほぼ完全に抑制することができ、又は、もし所望であれば、隠し(効果)オブジェクトのレンダリングレベルをしかるべく設定することにより、あるレベルで適用できる。
他の実施形態では、オーディオオブジェクト生成部520は、隠しオブジェクト
Figure 2016508617
についての情報をレンダラー530に送ってもよい。
つまり、このような実施形態では、オーディオオブジェクト生成部520は隠しオブジェクト・サイド情報を以下の2つの用途で使用する。
一方の用途では、オーディオオブジェクト生成部520が、オリジナル空間オーディオオブジェクト
Figure 2016508617
を再構築するために、隠しオブジェクト・サイド情報を使用する。そのようなオリジナル空間オーディオオブジェクト
Figure 2016508617
は、符号器側において例えばオーディオ効果モジュールによって実行されたダウンミックス信号x1,...,xpの変更の影響を受けていない。
他方の用途では、オーディオオブジェクト生成部520は、符号器側のダウンミックス信号x1,...,xpの(例えば意図的な)変更についての情報を含む隠しオブジェクト・サイド情報を、例えば隠しオブジェクト
Figure 2016508617
としてレンダラー530に送り、オーディオオブジェクト・レンダラーがそれを隠しオブジェクト・サイド情報として受信してもよい。
レンダラー530は、次に、受信された隠しオブジェクト
Figure 2016508617
が音響シーンの中でレンダリングされるかどうかを制御してもよい。レンダラー530は更に、オーディオ効果のレンダリングレベルに依存して、一つ又は複数のオーディオチャネル内におけるオーディオ効果の量を制御するよう構成されてもよい。例えば、レンダラー530は、オーディオ効果のレンダリングレベルを提供する制御情報を受信してもよい。
例えば、レンダラー530は、一つ又は複数の結合信号のレンダリングレベルが設定可能となるように、量を制御するよう構成されてもよい。レンダリングレベルは、レンダラー530が隠しオブジェクト・サイド情報により示される結合信号をどの程度までレンダリングするかを示してもよく、その結合信号は、例えば符号器側で適用された音響効果を表現する差分信号である。例えば、レンダリングレベル0は結合信号が完全に抑制されていることを示してもよく、レンダリングレベル1は結合信号が全く抑制されないことを示してもよい。レンダリングレベルs(0<s<1)は、結合信号が部分的に抑制されることを示してもよい。
以下に、SAOCの例についての隠しオブジェクトの取り扱いを説明する。隠しオブジェクトについての情報は、追加的パラメトリック情報として考慮されてもよい点に留意すべきである。
まず、用語及び定義について説明する。
S N個のオリジナルオーディオオブジェクト信号(N行)の行列(上述したオーディオオブジェクトを表わす)
Figure 2016508617
N個の推定されたオリジナルオーディオオブジェクト信号(N行)の行列
X P個の未処理のダウンミックスチャネル(P行)の行列(上述したダウンミックス信号を表わす)
X’ P個の未処理のダウンミックスチャネル(P行)の行列(上述した処理済み信号を表わす)
Y オリジナル音源信号を使用する、M個のレンダリングされた出力チャネル(M行)の行列
Figure 2016508617
推定された音源信号を使用する、M個のレンダリングされた出力チャネル(M行)の行列
D サイズP×Nのダウンミックス行列
G サイズN×Pの音源推定行列
OLDi SAOCの定義に従って演算される、音源オブジェクト(空間オーディオオブジェクトの一つ)siのエネルギー、i=1,...N
IOCij SAOCの定義に従って演算される、音源オブジェクト(空間オーディオオブジェクトの一つ)siとsjとの相互相関、i,j=1,...N
R サイズM×Nのレンダリング行列
(一種の追加的パラメトリック情報である)隠しオブジェクト・サイド情報を使用せずに、例えば隠しオブジェクトを考慮せずに、SAOC内でオブジェクト音源s1,...,sNを推定するのは、以下のように実行され得る。
Figure 2016508617
これは、XがX’と等しい場合にのみ、最小二乗誤差の意味でオリジナル音源(空間オーディオオブジェクト)s1,...,sNの最良の推定をもたらす。
例えば、ダウンミックスの符号化/圧縮またはダウンミックスに適用された残響に起因して、X’≠Xとなる場合、この推定はオリジナル音源の可能な最良の推定をもたらさない。
所望の目標シーンは以下のように演算されてもよい。
Figure 2016508617
そこで、(一種の追加的パラメトリック情報である)隠しオブジェクト・サイド情報を使用した推定、例えば、一実施形態に従い隠しオブジェクトとしてダウンミックス変更を考慮した場合の、オブジェクト音源s1,...,sNの推定が考慮される。
信号変更(符号化、残響効果)が分離処理において考慮される場合には、オリジナル音源s1,...,sNの改善された推定が実行され得る。
SAOCの中では、これらの変更は、SAOCの最も簡素な形式において、ダウンミックス内の追加的な隠しオブジェクトとして解釈することができ、音源推定処理の中で考慮され得る。
例えばP個の信号チャネルからなる一つの隠しオブジェクトの例について、隠しオブジェクト・サイド情報を使用した演算をここで考察する。この目的のため、幾つかの追加的な項目と定義について説明する。
G’ オリジナル音源及び隠しオブジェクトを考慮に入れた、サイズ(N+P)×Pの音源推定行列
OLD'i SAOCの定義に従って演算される、オリジナル音源と隠しオブジェクトSiのエネルギー,i=1,...(N+P)
IOC'ij SAOCの定義に従って演算される、全てのオブジェクト(オリジナル音源と隠しオブジェクト)siとsjとの間の相互相関、i,j=1,...(N+P)
注意:オリジナル音源と隠しオブジェクトとの間の相互相関は、殆どの場合ゼロと想定されることができ、よって演算する必要がない
D’ オリジナル音源及び隠しオブジェクトのミキシング係数を記述するサイズM×(N+P)のダウンミックス行列であって、ミキシング係数は、(例えばダウンミックスに関連する情報など)隠しオブジェクトについてデフォルトでは1である
Figure 2016508617
推定されたオリジナル・オーディオオブジェクト及び隠しオブジェクト信号のサイズ(N+P)の行列
R’ サイズM×(N+P)のレンダリング行列
オリジナル音源s1,...,sNの改善された推定は、以下のように演算されてもよい。
Figure 2016508617
これにより、オリジナル音源s1,...,sNの改善された推定が得られる。
デフォルト処理とは異なり、隠しオブジェクトからの信号部分は、オリジナル音源の推定
Figure 2016508617
の中で抑制される。これにより、隠しオブジェクトの推定も得られる点に注意されたい。
次に、所望の目標シーンが以下のように演算されてもよい。
Figure 2016508617
アプリケーション・シナリオに依存して、
−隠しオブジェクトは、R’内の対応するレンダリング係数をゼロに設定することにより、レンダリングから省略することができ(これは、ダウンミックス信号の符号化から符号化ノイズを抑制するためのデフォルトシナリオになるであろう)、又は、
−ゼロでないレベルでレンダリングされる。
例えば、隠しオブジェクトを低レベルでレンダリングすると、レンダリングされた出力信号内において低レベルの隠しオブジェクト(例えば残響)がもたらされる。
図10は、一実施形態にかかるシステムを示す。このシステムは、上述した実施形態の一つに従う、一つ又は複数のオーディオオブジェクトを符号化する装置810と、上述した実施形態の一つに従う、符号化済み信号を復号化する装置820と、を含む。
符号化装置810は、一つ又は複数の処理済みダウンミックス信号と一つの符号化済み信号とを復号化装置820へと供給するよう構成されており、符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含む。復号化装置820は、パラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報と、オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されている。
これまで装置を説明する文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明でもあることは明らかであり、そのブロック又は装置が方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又はインターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を通じて伝送されることができる。
所定の構成要件にも依るが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
本発明に従う幾つかの実施形態は、上述した方法の一つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の一つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の一つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の一つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体又はコンピュータ読み取り可能な媒体)である。
本発明の他の実施形態は、上述した方法の一つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットを介するデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の一つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の一つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したにすぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
例えば、オーディオオブジェクトの各々のオーディオオブジェクト・エネルギー値は、サイド情報としてオブジェクト情報生成部140へと送られてもよい。追加的信号の各々のエネルギー値もまた、サイド情報としてオブジェクト情報生成部140へと送られてもよい。代替的に、他の実施形態においては、オブジェクト情報生成部140自身が追加的信号の各々のエネルギー値を計算してもよく、例えば追加的信号のうちの一つのサンプル値の各々を二乗すること、それら二乗された各サンプル値を合計して中間結果を得ること、及びその中間結果の平方根を計算することで、追加的信号のエネルギー値を得てもよい。次に、オブジェクト情報生成部140は、例えば全てのオーディオオブジェクトと全ての追加的信号の最大エネルギー値を、参照エネルギー値として決定してもよい。
図4の実施形態において、結合部250は、例えば、(時間整合された)ダウンミックス信号の少なくとも一つと(時間整合された)符号化済み信号の少なくとも一つとの間の少なくとも一つの差、例えば少なくとも一つの差分信号を形成してもよい。ミキサ110及びサイド情報推定部140は、SAOC符号器モジュールに含まれてもよい。
例えば、レンダラー530は、一つ又は複数の結合信号のレンダリングレベルが設定可能となるように、オーディオ効果の量を制御するよう構成されてもよい。レンダリングレベルは、レンダラー530が隠しオブジェクト・サイド情報により示される結合信号をどの程度までレンダリングするかを示してもよく、その結合信号は、例えば符号器側で適用された音響効果を表現する差分信号である。例えば、レンダリングレベル0は結合信号が完全に抑制されていることを示してもよく、レンダリングレベル1は結合信号が全く抑制されないことを示してもよい。レンダリングレベルs(0<s<1)は、結合信号が部分的に抑制されることを示してもよい。
アプリケーション・シナリオに依存して、
−隠しオブジェクトは、R'内の対応するレンダリング係数をゼロに設定することにより、レンダリングから省略することができ(これは、ダウンミックス信号の符号化から符号化ノイズを抑制するためのデフォルトシナリオになるであろう)、又は、
隠しオブジェクトはゼロでないレベルでレンダリングされる。

Claims (19)

  1. 符号化済み信号を復号化する装置であって、前記符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とを含み、前記装置は、
    一つ又は複数の処理済みダウンミックス信号を受信し、かつ前記符号化済み信号を受信するインターフェイス(210)であって、前記追加的パラメトリック情報が前記一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している、インターフェイス(210)と、
    前記一つ又は複数の処理済みダウンミックス信号と、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報と、前記オーディオシーン内の前記一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するオーディオシーン生成部(220)であって、前記オーディオシーン内で前記追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するよう構成されている、オーディオシーン生成部(220)と、
    を含む、装置。
  2. 請求項1に記載の装置であって、前記追加的パラメトリック情報は一つ又は複数の追加的信号に依存しており、前記追加的情報は、前記一つ又は複数の処理済みダウンミックス信号の一つと前記一つ又は複数の未処理のダウンミックス信号の一つとの間の差を示し、前記一つ又は複数の未処理のダウンミックス信号は前記一つ又は複数のオーディオオブジェクトのダウンミックスを示し、前記一つ又は複数の処理済みダウンミックス信号は前記一つ又は複数の未処理のダウンミックス信号の処理の結果から得られたものである、装置。
  3. 請求項1又は2に記載の装置であって、
    前記オーディオシーン生成部(220)は、オーディオオブジェクト生成部(520;610)とレンダラー(530;620)とを含み,
    前記オーディオオブジェクト生成部(520;610)は、前記一つ又は複数の処理済みダウンミックス信号と、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報とに基づいて、前記一つ又は複数のオーディオオブジェクトを生成するよう構成され、
    前記レンダラー(530;620)は、前記一つ又は複数のオーディオオブジェクトと、前記パラメトリック・オーディオオブジェクト情報と、レンダリング情報とに基づいて、前記オーディオシーンの前記複数の空間オーディオ信号を生成するよう構成されている、装置。
  4. 請求項3に記載の装置であって、
    前記レンダラー(530;620)は、前記一つ又は複数のオーディオオブジェクトと、前記追加的パラメトリック情報と、前記レンダリング情報とに基づいて、前記オーディオシーンの前記複数の空間オーディオ信号を生成するよう構成されており、前記レンダラー(530;620)は、前記オーディオシーン内の前記追加的パラメトリック情報によって表現される出力信号を、前記レンダリング情報に含まれる一つ又は複数のレンダリング係数に依存して減衰させ又は除去するよう構成されている、装置。
  5. 請求項4に記載の装置であって、前記追加的パラメトリック情報によって表現される出力信号が前記オーディオシーン内で減衰され又は除去されるかどうかを操作する前記一つ又は複数のレンダリング係数を設定するためのユーザーインターフェイスを更に含む、装置。
  6. 請求項1又は2に記載の装置であって、前記オーディオシーン生成部(220)は、前記一つ又は複数の処理済みダウンミックス信号と、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報と、前記オーディオシーン内の一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含む前記オーディオシーンを生成するよう構成されており、前記オーディオシーン生成部(220)は、前記オーディオシーンを生成するために、前記一つ又は複数のオーディオオブジェクトを生成しないように構成されている、装置。
  7. 請求項1乃至6のいずれか一項に記載の装置であって、
    前記装置は、前記一つ又は複数の処理済みダウンミックス信号を復号化して一つ又は複数の復号化済み信号を得るオーディオ復号器(510)を更に含み、
    前記オーディオシーン生成部(220)は、前記一つ又は複数の復号化済み信号と、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報と、前記レンダリング情報とに基づいて、前記複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されている、装置。
  8. 請求項1乃至7のいずれか一項に記載の装置であって、
    前記オーディオシーン生成部(220)は、前記オーディオシーンを以下の式を使用して生成するよう構成されており、
    Figure 2016508617
    ここで、
    Figure 2016508617
    は前記オーディオシーンを示す第1行列であって、前記複数の空間オーディオ信号を示す複数の行を含み、
    R’は前記レンダリング情報を示す第2行列であり、
    Figure 2016508617
    は第3行列であり、
    X'は前記一つ又は複数の処理済みダウンミックス信号を示す第4行列であり、
    G’は第5行列であり、
    D’はダウンミックス行列である第6行列であり、
    E’は複数の第7行列係数を含む第7行列であり、前記第7行列係数は次式により定義され、
    Figure 2016508617
    E'i,jは行i及び列jにおける第7行列係数の一つであり、iは行インデックスであり、jは列インデックスであり、
    IOC'i,jは相互相関値を示し、
    OLD'iは第1の関連するエネルギー値を示し、OLD'jは第2の関連するエネルギー値を示す、装置。
  9. 一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る装置であって、
    前記一つ又は複数のオーディオオブジェクトをダウンミックスして、一つ又は複数の未処理のダウンミックス信号を得るダウンミキサ(110)と、
    前記一つ又は複数の未処理のダウンミックス信号を処理して、一つ又は複数の処理済みダウンミックス信号を得る処理モジュール(120)と、
    一つ又は複数の追加的信号を計算する信号計算部(130)であって、前記一つ又は複数の処理済みダウンミックス信号の一つと、前記一つ又は複数の未処理のダウンミックス信号の一つとの間の差に基づいて、前記一つ又は複数の追加的信号の各々を計算するよう構成されている信号計算部(130)と、
    前記一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、前記一つ又は複数の追加的信号についての追加的パラメトリック情報とを生成する、オブジェクト情報生成部(140)と、
    前記符号化済み信号を出力する出力インターフェイス(150)であって、前記符号化済み信号は、前記一つ又は複数のオーディオオブジェクトについての前記パラメトリック・オーディオオブジェクト情報と、前記一つ又は複数の追加的信号についての前記追加的パラメトリック情報とを含む、出力インターフェイス(150)と、
    を含む装置。
  10. 請求項9に記載の装置であって、
    前記処理モジュール(120)は、前記一つ又は複数の処理済みダウンミックス信号を得るために、前記一つ又は複数の未処理のダウンミックス信号を符号化することによって前記一つ又は複数の未処理のダウンミックス信号を処理するよう構成されている、装置。
  11. 請求項10に記載の装置であって、
    前記信号計算部(130)は、復号化ユニット(240)と結合部(250)とを含み、
    前記復号化ユニット(240)は、前記一つ又は複数の処理済みダウンミックス信号を復号化して、一つ又は複数の復号化済み信号を得るよう構成され、
    前記結合部(250)は、前記一つ又は複数の復号化済み信号の一つと前記一つ又は複数の未処理のダウンミックス信号の一つとの間の差分信号を生成することにより、前記一つ又は複数の追加的信号の各々を生成するよう構成されている、装置。
  12. 請求項11に記載の装置であって、
    前記一つ又は複数の未処理のダウンミックス信号の各々は複数の第1信号サンプルを含み、前記第1信号サンプルの各々は複数の時点のうちの一つに割り当てられており、
    前記一つ又は複数の復号化済み信号の各々は複数の第2信号サンプルを含み、前記第2信号サンプルの各々は前記複数の時点のうちの一つに割り当てられており、
    前記信号計算部(130)は時間整合ユニット(345)を更に含み、その時間整合ユニットは、前記未処理のダウンミックス信号の前記第1信号サンプルの一つが前記復号化済み信号の第2信号サンプルの一つに割り当てられ、前記未処理のダウンミックス信号の前記第1信号サンプルと前記復号化済み信号の前記第2信号サンプルとが複数の時点のうちの同じ時点に割り当てられるように、前記一つ又は複数の復号化済み信号の一つと前記一つ又は複数の未処理のダウンミックス信号の一つとを時間整合させるよう構成されている、装置。
  13. 請求項9に記載の装置であって、前記処理モジュール(120)は、前記一つ又は複数の未処理のダウンミックス信号の少なくとも一つに対してあるオーディオ効果を適用することにより、前記一つ又は複数の未処理のダウンミックス信号を処理して、前記一つ又は複数の処理済みダウンミックス信号を得るよう構成されている、装置。
  14. 請求項9乃至13のいずれか一項に記載の装置であって、
    前記一つ又は複数のオーディオオブジェクトの各々にオーディオオブジェクト・エネルギー値が割り当てられ、
    前記一つ又は複数の追加的信号の各々に追加的エネルギー値が割り当てられ、
    前記オブジェクト情報生成部(140)は、参照エネルギー値が前記一つ又は複数のオーディオオブジェクトの各々の前記オーディオオブジェクト・エネルギー値以上となり、かつ、前記参照エネルギー値が前記一つ又は複数の追加的信号の各々の前記追加的エネルギー値以上となるように、前記参照エネルギー値を決定するよう構成され、
    前記オブジェクト情報生成部(140)は、オーディオオブジェクト・レベル差が前記オーディオオブジェクトの前記オーディオオブジェクト・エネルギー値と前記参照エネルギー値との比を示すか、又は、前記オーディオオブジェクト・レベル差が前記参照エネルギー値と前記オーディオオブジェクトの前記オーディオオブジェクト・エネルギー値との差を示すように、前記一つ又は複数のオーディオオブジェクトの各オーディオオブジェクトについてのオーディオオブジェクト・レベル差を決定することにより、前記パラメトリック・オーディオオブジェクト情報を決定するよう構成され、
    前記オブジェクト情報生成部(140)は、追加的オブジェクトレベル差が前記追加的信号の前記追加的エネルギー値と前記参照エネルギー値との比を示すか、又は、前記追加的オブジェクトレベル差が前記参照エネルギー値と前記追加的信号の前記追加的エネルギー値との差を示すように、前記一つ又は複数の追加的信号の各追加的信号について前記追加的オブジェクトレベル差を決定することにより、追加的オブジェクト情報を決定するよう構成されている、装置。
  15. 請求項9乃至14のいずれか一項に記載の装置であって、
    前記処理モジュール(120)は音響効果モジュール(122)と符号化モジュール(121)とを含み、
    前記音響効果モジュール(122)は、前記一つ又は複数の未処理のダウンミックス信号の少なくとも一つに対してある音響効果を適用して、一つ又は複数の音響的に調整されたダウンミックス信号を得るよう構成され、
    前記符号化モジュール(121)は、前記一つ又は複数の音響的に調整されたダウンミックス信号を符号化して、前記一つ又は複数の処理済み信号を得るよう構成されている、装置。
  16. 請求項9乃至15のいずれか一項に記載の装置(810)と、
    請求項1乃至8のいずれか一項に記載の装置(820)と、を含むシステムであって、
    前記請求項9乃至15のいずれか一項に記載の装置(810)は、一つ又は複数の処理済みダウンミックス信号と一つの符号化済み信号とを、前記請求項1乃至8のいずれか一項に記載の装置(820)へと供給するよう構成されており、前記符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、一つ又は複数の追加的信号についての追加的パラメトリック情報とを含み、
    前記請求項1乃至8のいずれか一項に記載の装置(820)は、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報と、前記オーディオシーン内の前記一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するよう構成されている、システム。
  17. 符号化済み信号を復号化する方法であって、前記符号化済み信号は、一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、追加的パラメトリック情報とを含み、前記方法は、
    一つ又は複数の処理済みダウンミックス信号を受信し、かつ前記符号化済み信号を受信するステップであって、前記追加的パラメトリック情報が前記一つ又は複数の処理済みダウンミックス信号を得るために一つ又は複数の未処理のダウンミックス信号に対して実行された処理を反映している、ステップと、
    前記一つ又は複数の処理済みダウンミックス信号と、前記パラメトリック・オーディオオブジェクト情報と、前記追加的パラメトリック情報と、前記オーディオシーン内の前記一つ又は複数のオーディオオブジェクトの配置を示すレンダリング情報とに基づいて、複数の空間オーディオ信号を含むオーディオシーンを生成するステップと、
    前記オーディオシーン内で前記追加的パラメトリック情報によって表現される出力信号を減衰させ又は除去するステップと、
    を含む方法。
  18. 一つ又は複数のオーディオオブジェクトを符号化して符号化済み信号を得る方法であって、
    前記一つ又は複数のオーディオオブジェクトをダウンミックスして、一つ又は複数の未処理のダウンミックス信号を得るステップと、
    前記一つ又は複数の未処理のダウンミックス信号を処理して、一つ又は複数の処理済みダウンミックス信号を得るステップと、
    前記一つ又は複数の処理済みダウンミックス信号の一つと、前記一つ又は複数の未処理のダウンミックス信号の一つとの間の差に基づいて、一つ又は複数の追加的信号の各々を計算することにより、前記一つ又は複数の追加的信号を計算するステップと、
    前記一つ又は複数のオーディオオブジェクトについてのパラメトリック・オーディオオブジェクト情報と、前記一つ又は複数の追加的信号についての追加的パラメトリック情報とを生成するステップと、
    前記符号化済み信号を出力するステップであって、前記符号化済み信号は、前記一つ又は複数のオーディオオブジェクトについての前記パラメトリック・オーディオオブジェクト情報と、前記一つ又は複数の追加的信号についての前記追加的パラメトリック情報とを含む、ステップと、
    を含む方法。
  19. コンピュータ又は信号プロセッサ上で作動したときに、請求項17又は18に記載の方法を実行するコンピュータプログラム。
JP2015554118A 2013-01-22 2014-01-20 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法 Active JP6277202B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130152197 EP2757559A1 (en) 2013-01-22 2013-01-22 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
EP13152197.3 2013-01-22
PCT/EP2014/051046 WO2014114599A1 (en) 2013-01-22 2014-01-20 Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation

Publications (2)

Publication Number Publication Date
JP2016508617A true JP2016508617A (ja) 2016-03-22
JP6277202B2 JP6277202B2 (ja) 2018-02-07

Family

ID=47563307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015554118A Active JP6277202B2 (ja) 2013-01-22 2014-01-20 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法

Country Status (12)

Country Link
US (1) US10482888B2 (ja)
EP (2) EP2757559A1 (ja)
JP (1) JP6277202B2 (ja)
KR (1) KR101756190B1 (ja)
CN (1) CN105122355B (ja)
BR (1) BR112015017094B8 (ja)
CA (1) CA2898801C (ja)
ES (1) ES2691546T3 (ja)
MX (1) MX348811B (ja)
RU (1) RU2635244C2 (ja)
TR (1) TR201815374T4 (ja)
WO (1) WO2014114599A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
BR112015031606B1 (pt) 2013-06-21 2021-12-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para desvanecimento de sinal aperfeiçoado em diferentes domínios durante ocultação de erros
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003332914A (ja) * 2001-08-23 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、これらの装置及びプログラム
JP2012505575A (ja) * 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
WO2012137617A1 (ja) * 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
DE102005010057A1 (de) * 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
US7840401B2 (en) * 2005-10-24 2010-11-23 Lg Electronics Inc. Removing time delays in signal paths
CN101385075B (zh) * 2006-02-07 2015-04-22 Lg电子株式会社 用于编码/解码信号的装置和方法
KR20080093024A (ko) * 2006-02-07 2008-10-17 엘지전자 주식회사 부호화/복호화 장치 및 방법
JP2009532712A (ja) * 2006-03-30 2009-09-10 エルジー エレクトロニクス インコーポレイティド メディア信号処理方法及び装置
EP2112652B1 (en) * 2006-07-07 2012-11-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for combining multiple parametrically coded audio sources
MX2008012250A (es) * 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
KR101111520B1 (ko) * 2006-12-07 2012-05-24 엘지전자 주식회사 오디오 처리 방법 및 장치
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
KR101614160B1 (ko) * 2008-07-16 2016-04-20 한국전자통신연구원 포스트 다운믹스 신호를 지원하는 다객체 오디오 부호화 장치 및 복호화 장치
JP5276165B2 (ja) * 2008-07-24 2013-08-28 ニューレンズ・リミテッド 調節式眼内レンズ(aiol)カプセル
JP5608660B2 (ja) * 2008-10-10 2014-10-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) エネルギ保存型マルチチャネルオーディオ符号化
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
WO2010125228A1 (en) * 2009-04-30 2010-11-04 Nokia Corporation Encoding of multiview audio signals
CN102460573B (zh) * 2009-06-24 2014-08-20 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
KR101569702B1 (ko) * 2009-08-17 2015-11-17 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
BR122021008665B1 (pt) * 2009-10-16 2022-01-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mecanismo e método para fornecer um ou mais parâmetros ajustados para a provisão de uma representação de sinal upmix com base em uma representação de sinal downmix e uma informação lateral paramétrica associada com a representação de sinal downmix, usando um valor médio
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2346028A1 (en) * 2009-12-17 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
JP5582027B2 (ja) * 2010-12-28 2014-09-03 富士通株式会社 符号器、符号化方法および符号化プログラム
CN103649706B (zh) * 2011-03-16 2015-11-25 Dts(英属维尔京群岛)有限公司 三维音频音轨的编码及再现
JP5949270B2 (ja) * 2012-07-24 2016-07-06 富士通株式会社 オーディオ復号装置、オーディオ復号方法、オーディオ復号用コンピュータプログラム
MX351193B (es) * 2012-08-10 2017-10-04 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos.

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003332914A (ja) * 2001-08-23 2003-11-21 Nippon Telegr & Teleph Corp <Ntt> ディジタル信号符号化方法、復号化方法、これらの装置及びプログラム
JP2012505575A (ja) * 2008-10-07 2012-03-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 多チャネルオーディオ信号のバイノーラル・レンダリング
WO2012137617A1 (ja) * 2011-04-05 2012-10-11 日本電信電話株式会社 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6431225B1 (ja) * 2018-03-05 2018-11-28 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム
JP2019153943A (ja) * 2018-03-05 2019-09-12 株式会社ユニモト 音響処理装置、映像音響処理装置、映像音響配信サーバおよびそれらのプログラム

Also Published As

Publication number Publication date
KR20150113016A (ko) 2015-10-07
JP6277202B2 (ja) 2018-02-07
MX348811B (es) 2017-06-28
US20150348559A1 (en) 2015-12-03
RU2015135593A (ru) 2017-03-02
CA2898801C (en) 2018-11-06
BR112015017094B1 (pt) 2022-02-22
ES2691546T3 (es) 2018-11-27
TR201815374T4 (tr) 2018-11-21
KR101756190B1 (ko) 2017-07-26
US10482888B2 (en) 2019-11-19
BR112015017094A2 (ja) 2017-08-15
WO2014114599A1 (en) 2014-07-31
CN105122355B (zh) 2018-11-13
BR112015017094B8 (pt) 2022-09-13
EP2757559A1 (en) 2014-07-23
CN105122355A (zh) 2015-12-02
MX2015009170A (es) 2015-11-09
EP2948946A1 (en) 2015-12-02
EP2948946B1 (en) 2018-07-18
RU2635244C2 (ru) 2017-11-09
CA2898801A1 (en) 2014-07-31

Similar Documents

Publication Publication Date Title
JP7270096B2 (ja) フレーム制御同期化を使用して多チャネル信号を符号化又は復号化する装置及び方法
US11875804B2 (en) Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
JP5122681B2 (ja) パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
US10818301B2 (en) Encoder, decoder, system and method employing a residual concept for parametric audio object coding
KR101657916B1 (ko) 멀티채널 다운믹스/업믹스의 경우에 대한 일반화된 공간적 오디오 객체 코딩 파라미터 개념을 위한 디코더 및 방법
RU2696952C2 (ru) Аудиокодировщик и декодер
JP6277202B2 (ja) 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161101

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20170613

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171011

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20171024

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20171113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180115

R150 Certificate of patent or registration of utility model

Ref document number: 6277202

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250