JP6313439B2 - ダウンミックス行列を復号及び符号化するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列のためのエンコーダ及びデコーダ、音声エンコーダ及び音声デコーダ - Google Patents

ダウンミックス行列を復号及び符号化するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列のためのエンコーダ及びデコーダ、音声エンコーダ及び音声デコーダ Download PDF

Info

Publication number
JP6313439B2
JP6313439B2 JP2016525036A JP2016525036A JP6313439B2 JP 6313439 B2 JP6313439 B2 JP 6313439B2 JP 2016525036 A JP2016525036 A JP 2016525036A JP 2016525036 A JP2016525036 A JP 2016525036A JP 6313439 B2 JP6313439 B2 JP 6313439B2
Authority
JP
Japan
Prior art keywords
gain
value
downmix matrix
speaker
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016525036A
Other languages
English (en)
Other versions
JP2016538585A (ja
Inventor
フローリーン ギード、
フローリーン ギード、
アヒム クンツ、
アヒム クンツ、
ベルンハルト グリル、
ベルンハルト グリル、
Original Assignee
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー., フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. filed Critical フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー.
Publication of JP2016538585A publication Critical patent/JP2016538585A/ja
Application granted granted Critical
Publication of JP6313439B2 publication Critical patent/JP6313439B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、音声符号化・復号の分野に関するものであり、特に、空間音声符号化及び空間音声オブジェクト符号化、例えば3D音声コーデックシステムの分野に関するものである。
本発明の実施例は、音声コンテンツについての複数の入力チャネルを複数の出力チャネルに対してマッピングするためのダウンミックス行列を符号化及び復号するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列を符号化するためのエンコーダ、ダウンミックス行列を復号するためのデコーダ、音声エンコーダ及び音声デコーダに関するものである。
空間音声符号化ツールが当該技術において周知であり、MPEGサラウンド標準規格などにおいて規格化されている。空間音声符号化は、複数の元の入力、例えば5つ又は7つの入力チャネルから開始し、これらは再生設備における位置付けによって識別され、例えば左チャネル、センターチャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル及び低周波数強調チャネルとして識別される。空間音声エンコーダは、元のチャネルから1つ以上のダウンミックスチャネルを導き出すことができ、さらに、例えば、チャネルコヒーレンス値におけるチャネル間レベル差、チャネル間位相差、チャネル間時間差等の空間キューに関係するパラメータデータを導き出すことができる。1つ以上のダウンミックスチャネルは、最終的に、元の入力チャネルの近似のバージョンである出力チャネルを得るために、空間キューを示すパラメータ付随情報とともに、ダウンミックスチャネル及び関連のパラメータデータを復号するための空間音声デコーダへ送信される。出力設備におけるチャネルの位置付けは固定される場合があり、例えば5.1フォーマット、7.1フォーマットなどとなる。
また、空間音声オブジェクト符号化ツールが当該技術において周知であり、例えばMPEG SAOC標準規格(SAOC=空間音声オブジェクト符号化)において規格化されている。元のチャネルから開始する空間音声符号化とは対照的に、空間音声オブジェクト符号化は、特定のレンダリング再生設備に対して自動的に専用化されない音声オブジェクトから開始する。むしろ、再生シーンにおける音声オブジェクトの位置付けは、柔軟であり、例えば、特定のレンダリング情報を空間音声オブジェクト符号化デコーダに入力することで、ユーザにより設定されるものであってもよい。これに代えて、又は、これに加えて、レンダリング情報は、追加の付随情報又はメタデータとして送信することができる。レンダリング情報は、特定の音声オブジェクトが再生設備におけるどの位置に置かれるべきか(例えば時間の経過に伴って)についての情報を含み得る。特定のデータ圧縮を得るために、入力オブジェクトから、特定のダウンミックス情報に従ってオブジェクトをダウンミックスすることによって1つ以上のトランスポートチャネルを算出するSAOCエンコーダを用いて、いくつかの音声オブジェクトは、符号化される。更に、SAOCエンコーダは、オブジェクトレベル差(OLD)、オブジェクトコヒーレンス値といったオブジェクト間キューを表すパラメータ付随情報を算出する。SAC(SAC=空間音声符号化)におけるのと同様、オブジェクト間パラメータデータは、個々の時間・周波数タイルについて算出される。各々のフレーム及び各々の周波数帯域についてパラメータデータが得られるように、音声信号の特定のフレーム(例えば1024又は2048サンプル)について、複数の周波数帯域(例えば24帯域、32帯域、又は64帯域)が考慮される。例えば、1つの音声片は20フレームを有し、各々のフレームが更に32周波数帯域に分割される場合、時間・周波数タイルの数は640である。
3D音声システムにおいては、受信機において利用可能であるスピーカー構成を用いて受信機において音声信号の空間的印象をもたらすことが望ましい場合があるが、このスピーカー構成は、元の音声信号についての元のスピーカー構成とは異なる場合がある。このような状況においては、ある変換を実行することが必要となり、これは「ダウンミックス」と呼ぶ場合があり、これに従って、音声信号の元のスピーカー構成に従う入力チャネルが、受信機のスピーカー構成に従って規定される出力チャネルに対してマッピングされる。
本発明の目的は、受信機にダウンミックス行列を与えるための向上したアプローチを提供することである。
この目的は、請求項1,2,20に記載の方法、請求項24に記載のエンコーダ、請求項26に記載のデコーダ、請求項28に記載の音声エンコーダ、及び請求項29に記載の音声デコーダによって達成される。
本発明は、それぞれのチャネルに関連付けられたスピーカーの位置付けに関して入力チャネル構成及び出力チャネル構成において見られる対称性を活用することによって、安定したダウンミックス行列のより効率的な符号化を達成することができるという知見に基づく。本発明の発明者は、このような対称性を活用することによって、対称配置されたスピーカーを、ダウンミックス行列の共通の行/列へと組み合わせることが可能となることを見出した。そして、そのようなスピーカーは、例えば、聴取者の位置に対して、同じ仰角を有し、かつ、絶対値は同じであるが符号が異なる方位角を有する位置にあるスピーカーである。これによって、元のダウンミックス行列と比べてより容易に、かつ、より効率的に符号化することができる、サイズを減少させたコンパクトなダウンミックス行列を生成することが可能となる。
実施例によると、対称のスピーカー群が規定されるだけでなく、実際には3種類のスピーカー群が設けられ、即ち、上述の対称スピーカー、センタースピーカー及び非対称スピーカーであり、これらを用いてコンパクトな表現を生成することができる。このアプローチは、それぞれの種類のスピーカーを異なった態様で、かつ、これにより、より効率的に取り扱うことができるため、有利である。
実施例によると、コンパクトダウンミックス行列を符号化することは、実際のコンパクトダウンミックス行列についての情報とは別個のゲイン値を符号化することを含む。実際のコンパクトダウンミックス行列についての情報は、コンパクトな有意性行列を作成することによって符号化され、この行列は、入力及び出力対称スピーカー対の各々を1つの群にまとめることによって、コンパクトな入力・出力チャネル構成について非ゼロのゲインの存在を示す。このアプローチは、ラン長方式に基づいて有意性行列の効率的な符号化を可能にするため、有用である。
実施例によると、テンプレート行列の行列要素における成分が、コンパクトダウンミックス行列における行列要素における成分に実質的に対応する点において、コンパクトダウンミックス行列と類似するテンプレート行列をもたらすことができる。一般的に、このようなテンプレート行列は、エンコーダ及びデコーダにおいてもたらされ、行列要素の数が減少している点でのみコンパクトダウンミックス行列と異なるため、このようなテンプレート行列を有するコンパクト有意性行列に要素毎のXORを適用することによって、1の数は劇的に減少する。このアプローチは、例えば、ラン長方式を用いて、有意性行列を符号化する効率を更に上昇させることができるため、有用である。
更なる実施例によると、符号化は、更に、通常スピーカーが通常スピーカーとのみミックスされ、かつ、LFEスピーカーがLFEスピーカーとのみミックスされるのか否かを示す情報に基づく。これは、更に、有意性行列の符号化を向上させるため有利である。
更なる実施例によると、コンパクト有意性行列、又は上述のXOR演算の結果は、1次元ベクトルに関して得られ、この1次元ベクトルにランレングス符号化を適用することで、これを複数の0からなるランと、それに続く1とに変換する。これにより、極めて効率的に情報を符号化できるため、有利である。更に効率的な符号化を実現するために、実施例によると、限定的ゴロム・ライス符号化をラン長の値に適用する。
更なる実施例によると、各々の出力スピーカー群について、対称性及び分離性の特性が、これらを生成する全ての対応の入力スピーカー群に当てはまるか否かが示される。これは、例えば左スピーカー及び右スピーカーからなるスピーカー群において、入力チャネル群における左スピーカーが、対応する出力スピーカー群における左チャネルのみに対してマッピングされ、入力チャネル群における右スピーカーが、出力チャネル群における右スピーカーのみに対してマッピングされ、左チャネルから右チャネルへの混合はないことを示すため、有利である。これにより、元のダウンミックス行列における2×2の部分行列内の4つのゲイン値を、コンパクト行列中に導入され得る、又は、コンパクト行列が有意性行列の場合には別個に符号化され得る単一のゲイン値と交換することができる。どのような場合でも、符号化されるべきゲイン値の数は全体的に減少する。従って、示された対称性及び分離性の特性により、入力及び出力スピーカー群の各対に対応する部分行列を効率的に符号化することができるため、有利である。
実施例によると、ゲイン値の符号化について、示された最小ゲイン及び最大ゲインを用いて、更に示された所望な正確さを用いて、可能なゲインのリストを特定の順番で作成する。ゲイン値は、よく用いられるゲインがリスト又は表の先頭に来るような順番で作成される。これは、最も頻繁に用いられるゲインに、これらを符号化するための最短符号ワードを適用することによってゲイン値を効率的に符号化することを可能にするため、有利である。
実施例によると、生成されるゲイン値はリストにおいて与えることができ、リスト中の各成分にはインデックスが関連付けられる。ゲイン値を符号化する場合、実際の値を符号化する代わりに、ゲインのインデックスを符号化する。これは、例えば、限定的ゴロム・ライス符号化アプローチを適用することによって行うことができる。ゲイン値をこのように取り扱うことは、その効率的な符号化を可能にするため有利である。
実施例によると、イコライザ(EQ)パラメータは、ダウンミックス行列とともに送信することができる。
本発明の実施例について、添付の図面を参照しながら説明する。
3D音声システムの3D音声エンコーダの概観を示す図。 3D音声システムの3D音声デコーダの概観を示す図。 図2の3D音声デコーダにおいて実現され得るバイノーラルレンダリング部の実施例を示す図。 22.2入力構成から5.1出力構成へとマッピングするための当該技術において公知のダウンミックス行列の一例を示す図。 図4の元のダウンミックス行列をコンパクトダウンミックス行列に変換するための本発明の実施例を概略的に示す図。 図4の元のダウンミックス行列をコンパクトダウンミックス行列に変換するための本発明の実施例を概略的に示す図。 本発明の実施例による図5のコンパクトダウンミックス行列であって、有意性値を表す行列成分を有する変換後の入力及び出力チャネル構成を有するものを示す図。 テンプレート行列を用いた図5のコンパクトダウンミックス行列の構造を符号化するための本発明の更なる実施例を示す図。 図8(a)〜(g)は、入力スピーカー及び出力スピーカーのそれぞれ異なる組合せによる、図4に示すダウンミックス行列から導き出され得る可能な部分行列を示す図である。
本発明のアプローチの実施例について説明する。以下の記載では、まず、本発明のアプローチが実現され得る3D音声コーデックシステムのシステム概観を説明する。
図1及び図2は、実施例による3D音声システムのアルゴリズムブロックを示す。より具体的には、図1は、3D音声エンコーダ100の概観を示す。音声エンコーダ100は、任意に設けられ得る前レンダリング・混合回路102において、入力信号を受け取る。この入力信号は、より具体的には、音声エンコーダ100に複数のチャネル信号104、複数のオブジェクト信号106及び対応するオブジェクトメタデータ108を入力する複数の入力チャネルである。前レンダリング・混合部102によって処理されるオブジェクト信号106(信号110を参照)は、SAOCエンコーダ112(SAOC=空間音声オブジェクト符号化)に入力することができる。SAOCエンコーダ112は、USACエンコーダ116(USAC=音声音響統合符号化)に入力されるSAOCトランスポートチャネル114を生成する。これに加えて、信号SAOC−SI118(SAOC−SI=SAOC付随情報)もまたUSACエンコーダ116に入力される。USACエンコーダ116は更に、前レンダリング・混合部から直接にオブジェクト信号120並びにチャネル信号及び前レンダリングされたオブジェクト信号122を受け取る。オブジェクトメタデータ情報108はOAMエンコーダ124(OAM=オブジェクト関連メタデータ)に入力され、このOAMエンコーダは、圧縮されたオブジェクトメタデータ情報126をUSACエンコーダに入力する。USACエンコーダ116は、上述の入力信号に基づいて、128に示す圧縮済の出力信号mp4を生成する。
図2は、3D音声システムの3D音声デコーダ200の概観を示す。図1の音声エンコーダ100によって生成されたエンコーダ信号128(mp4)は、音声デコーダ200、より具体的にはUSACデコーダ202において受信される。USACデコーダ202は、受信した信号128を、チャネル信号204、前レンダリングされたオブジェクト信号206、オブジェクト信号208及びSAOCトランスポートチャネル信号210に復号する。更に、圧縮済のオブジェクトメタデータ情報212及び信号SAOC−SI214がUSACデコーダ202によって出力される。オブジェクト信号208は、オブジェクトレンダリング部216に入力され、このオブジェクトレンダリング部は、レンダリングされたオブジェクト信号218を出力する。SAOCトランスポートチャネル信号210はSAOCデコーダ220に供給され、このSAOCデコーダは、レンダリングされたオブジェクト信号222を出力する。圧縮済のオブジェクトメタ情報212はOAMデコーダ224に供給され、このOAMデコーダは、それぞれの制御信号をオブジェクトレンダリング部216及びSAOCデコーダ220に出力することにより、レンダリングされたオブジェクト信号218及びレンダリングされたオブジェクト信号222を生成する。デコーダは更に、図2に示すように入力信号204、206、218、222を受け取ってチャネル信号228を出力する混合部226を備える。チャネル信号は、スピーカー、例えば230で示す32チャネルスピーカーに直接出力することができる。信号228は、フォーマット変換回路232に入力することができ、このフォーマット変換回路は、チャネル信号228を変換する方法を示す再生レイアウト信号を、制御入力として、受け取る。図2に示す実施例では、234で示す5.1スピーカーシステムに信号を入力できるように変換を行う場合を想定している。また、チャネル信号228はバイノーラルレンダリング部236に入力することができ、このバイノーラルレンダリング部は、238で示す2つの出力信号を、例えばヘッドフォン用に生成する。
本発明の実施例においては、図1及び図2に示す符号化・復号システムは、チャネル及びオブジェクト信号(信号104,106を参照)の符号化のためのMPEG−D USACコーデックに基づいている。大量のオブジェクトを符号化する効率性を向上させるために、MPEG SAOC技術を使用することができる。3種類のレンダリング部が、オブジェクトをチャネルにレンダリングし、チャネルをヘッドフォンにレンダリングし、又はチャネルを異なるスピーカー設備にレンダリングするタスクを実行することができる(図2の参照符号230,234,238を参照)。オブジェクト信号が、明示的に送信される場合、又は、SAOCを用いてパラメータ的に符号化される場合、対応するオブジェクトメタデータ情報108は圧縮され(信号126を参照)、3D音声ビットストリーム128へと多重化される。
図1,2に示す全体的な3D音声システムのアルゴリズムブロックについて、以下により詳細に説明する。
符号化前にチャネル+オブジェクト入力シーンをチャネルシーンに変換するために、前レンダリング・混合部102が任意に設けられ得る。機能的には、これは後述のオブジェクトレンダリング・混合部と同一である。オブジェクトの前レンダリングは、同時にアクティブなオブジェクト信号の数とは基本的に独立の、エンコーダ入力における決定性信号エントロピーを確保するために望ましい場合がある。オブジェクトの前レンダリングでは、オブジェクトメタデータを送信する必要はない。離散的オブジェクト信号は、エンコーダが使用するように構成されるチャネルレイアウトへとレンダリングされる。各々のチャネルについてのオブジェクトの重みは、関連付けられたオブジェクトメタデータ(OAM)から得られる。
USACエンコーダ116は、スピーカーチャネル信号、離散的オブジェクト信号、オブジェクトダウンミックス信号、及び、前レンダリングされた信号のためのコアコーデックである。USACエンコーダはMPEG−D USAC技術に基づく。USACエンコーダは、入力チャネル及びオブジェクト割り当ての幾何学的情報及び意味論的情報に基づいてチャネル・オブジェクトマッピング情報を作成することにより、上記の信号の符号化に対処する。このマッピング情報は、入力チャネル及びオブジェクトを、USACチャネル要素、例えばチャネル対要素(CPE)、信号チャネル要素(SCE)、低周波数効果(LFE)及びクワッドチャネル要素(QCE)並びにCPE、SCE及びLFE、に対してどのようにマッピングするかを記述し、対応する情報がデコーダへ送信される。例えば、SAOCデータ114,118又はオブジェクトメタデータ126のような追加のペイロードは、エンコーダのレート制御において、全て、考慮される。レート/歪み要件と、レンダリング部についてのインタラクト性要件とに応じて、それぞれ異なる態様で、オブジェクトを符号化することが可能である。実施例によると、以下のオブジェクト符号化の変形例が可能である。
・前レンダリングされたオブジェクト:オブジェクト信号は、前レンダリングされ、22.2チャネル信号にミックスされてから符号化される。後続の符号化チェーンは、22.2チャネル信号を参照する。
・離散的オブジェクト波形:オブジェクトは、モノフォニック波形としてエンコーダに供給される。エンコーダは、単一のチャネル要素(SCE)を用いて、チャネル信号に加えてオブジェクトを送信する。復号されたオブジェクトは、受信側でレンダリングされてミックスされる。圧縮されたオブジェクトメタデータ情報が受信機・レンダリング部に送信される。
・パラメータ的オブジェクト波形:オブジェクト特性及びその互いの関係は、SAOCパラメータによって記述される。オブジェクト信号のダウンミックスは、USACによって符号化される。パラメータ情報がともに送信される。ダウンミックスチャネルの数は、オブジェクトの数と、全体的なデータレートとに応じて選択される。圧縮されたオブジェクトメタデータ情報は、SAOCレンダリング部に送信される。
オブジェクト信号についてのSAOCエンコーダ112及びSAOCデコーダ220は、MPEG SAOC技術に基づくものであってもよい。このシステムは、少数の送信されるチャネル及び追加のパラメータデータ、例えばOLD、IOC(オブジェクト間コヒーレンス)、DMG(ダウンミックスゲイン)、に基づいて、或る数の音声オブジェクトを再作成、変更及びレンダリングすることができる。追加のパラメータデータは、全てのオブジェクトを個々に送信するために必要とされるよりも大幅に低いデータレートであるため、符号化が極めて効率的である。SAOCエンコーダ112は、入力として、モノフォニック波形といったオブジェクト・チャネル信号を受け取り、パラメータ情報(3D音声ビットストリーム128にパックされる)及びSAOCトランスポートチャネル(単一のチャネル要素を用いて符号化されて送信される)を出力する。SAOCデコーダ220は、復号されたSAOCトランスポートチャネル210及びパラメータ情報214からオブジェクト・チャネル信号を復元し、再生レイアウト、圧縮解除されたオブジェクトメタデータ情報、及び任意にユーザ対話情報に基づいて、出力音声シーンを生成する。
オブジェクトメタデータコーデック(OAMエンコーダ124及びOAMデコーダ224を参照)は、各々のオブジェクトについて、3D空間におけるオブジェクトの幾何学的位置及びボリュームを特定するための、関連付けられたメタデータが、時間及び空間におけるオブジェクトのプロパティを量子化することで効率的に符号化されるように、設けられている。圧縮されたオブジェクトメタデータcOAM126は、付随情報として受信機200に送信される。
オブジェクトレンダリング部216は、圧縮されたオブジェクトメタデータを利用して、所与の再生フォーマットに従ってオブジェクト波形を生成する。各々のオブジェクトは、そのメタデータに従って特定の出力チャネルにレンダリングされる。このブロックの出力は、部分的な結果の総和の結果として得られる。チャネルベースのコンテンツ及び離散的・パラメータ的オブジェクトの両方が復号される場合、チャネルベースの波形及びレンダリングされたオブジェクト波形は混合部226によって混合されて、結果として得られる波形228を出力し、又は、これらを後処理モジュール、例えばバイノーラルレンダリング部236又はスピーカーレンダリングモジュール232に入力する。
バイノーラルレンダリングモジュール236は、多チャンネル音声素材のバイノーラルダウンミックスを生成し、各々の入力チャネルが仮想音源によって表されるようにする。この処理は、QMF(4分ミラーフィルタバンク)領域においてフレーム毎に実行され、バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づく。
スピーカーレンダリング部232は、送信されたチャネル構成228と、所望の再生フォーマットとの間で変換を行う。これは「フォーマット変換部」とも呼ぶことができる。フォーマット変換部は、より少ない数の出力チャネルへの変換を行う、即ちダウンミックスを作成する。
図3は、図2のバイノーラルレンダリング部236の実施例を示す。バイノーラルレンダリングモジュールは、多チャネル音声素材のバイノーラルダウンミックスを与えることができる。バイノーラル化は、測定されたバイノーラル室内インパルス応答に基づくものであってもよい。室内インパルス応答は、実際の室内の音響的特性の「指紋」と見做すことができる。室内インパルス応答は測定されて記憶され、任意の音響信号にこの「指紋」を付与することができ、こうして、室内インパルス応答に関連付けられた室内の音響特性のシミュレーションを聴取者に可能にする。バイノーラルレンダリング部236は、頭に関連した転送関数又はバイノーラル室内インパルス応答(BRIR)を用いて、出力チャネルを2つのバイノーラルチャネルへとレンダリングするように、プログラムされ、又は、構成され得る。例えば、移動機器の場合、このような移動機器に取り付けられたヘッドフォン又はスピーカーについてバイノーラルレンダリングが望ましい。このような移動機器においては、各種制約のため、デコーダ及びレンダリングの複雑度を制限することが必要な場合がある。このような処理シナリオにおいて相関解除を省略することに加えて、ダウンミックス部250を用いて、中間ダウンミックス信号252へ、即ち、少ない数の出力チャネル(実際のバイノーラル変換部254について少ない数の入力チャネルを結果として伴う)へのダウンミックスを最初に実行することが好ましい場合がある。例えば、22.2チャネル素材は、ダウンミックス部250によって5.1中間ダウンミックスにダウンミックスすることができ、又は、これに代えて、中間ダウンミックスは、図2のSAOCデコーダ220によって、ある種の「ショートカット」モードとして直接算出することができる。次に、バイノーラルレンダリングは、それぞれ異なる位置での5つの個々のチャネルをレンダリングするために10個のHRTF(頭に関連した転送関数)又はBRIR関数を適用するだけでよく、これは、22.2入力チャネルを直接レンダリングする場合に44個のHRTF又はBRIR関数を適用するのとは対照的である。バイノーラルレンダリングに必要な畳み込み演算は、多くの処理能力を必要とするため、受け入れられる音声品質を得ながらこの処理能力を低減することは、移動機器において特に有用である。バイノーラルレンダリング部236は、多チャネル音声素材228のバイノーラルダウンミックス238を生成し、各々の入力チャネル(LFEチャネルを除く)が仮想音源によって表されるようにする。この処理は、QMF領域においてフレーム毎に実行することができる。このバイノーラル化は、測定されたバイノーラル室内インパルス応答に基づくものであり、直接音及び早い段階の反射は、QMF領域の高速畳み込みオントップを用いた疑似FFT領域において畳み込み処理を介して音声素材に刻印される一方、後の段階の反響は別個に処理され得る。
多チャネル音声フォーマットは、現在多くの種類の構成で存在しており、例えば、DVD及びブルーレイディスクで提供される音声情報を提供するために用いられる、上で詳述した3D音声システムにおいて用いられている。1つの重要な問題は、既存の利用可能な顧客の物理的スピーカー設備との互換性を維持しながら、多チャネル音声のリアルタイム伝送に対応することである。1つの解決策は、例えば、典型的に多数の出力チャネルを有する制作時に使用される元のフォーマットで音声コンテンツを符号化することである。これに加えて、ダウンミックス付随情報を与えて、より独立性の低いチャネルを有する他のフォーマットを生成する。例えば、或る個数Nの入力チャネル及び或る個数Mの出力チャネルを想定すると、受信機におけるダウンミックス手順は、N×Mのサイズを有するダウンミックス行列によって特定することができる。この具体的な手順は、上述のフォーマット変換部又はバイノーラルレンダリング部のダウンミックス部において実行され得るものであるが、受動的なダウンミックスを表すものであり、実際の音声コンテンツに依存する適応信号処理が入力信号又はダウンミックス後の出力信号に適用されないことを意味する。
ダウンミックス行列は、音声情報の物理的な混合のみをマッチングすることを試みるのではなく、送信される実際のコンテンツについての自分自身の知見を用い得る制作者の芸術的意図をも伝えることがある。従って、ダウンミックス行列を生成するいくつかの方法が存在する。例えば、手動で、入力スピーカー及び出力スピーカーの役割及び位置についての一般的な音響的知見を使用したり、手動で、実際のコンテンツ及び芸術的意図についての知見を使用したり、自動的に、例えば所与の出力スピーカーを用いた近似を計算するソフトウェアツールを使用したりする。
このようなダウンミックス行列をもたらすために、当該技術ではいくつかの公知のアプローチが存在する。しかし、既存の方式においては、多くの想定がなされており、実際のダウンミックス行列の構造及び内容の重要な部分がハードコードされている。先行技術文献[1]では、5.1チャネル構成(先行技術文献[2]を参照)を2.0チャネル構成へ、6.1又は7.1前方又は前方高さ又はサラウンド後方のものから5.1又は2.0チャネル構成へダウンミックスするように明示的に規定される特定のダウンミックス手順を使用することが記載されている。これら公知のアプローチの欠点は、ダウンミックス方式が限られた自由度しかないことであり、即ち、入力チャネルのいくつかが予め規定された重みと混合され(例えば、7.1サラウンド後方を5.1構成に対してマッピングする場合、L、R、C入力チャネルが対応の出力チャネルに対して直接マッピングされる)、減少した個数のゲイン値が他のいくつかの入力チャネルと共有される(例えば、7.1前方を5.1構成に対してマッピングする場合、L、R、Lc及びRc入力チャネルがただ1つのゲイン値を用いてL及びR出力チャネルに混合される)。更に、ゲインの範囲及び精度が限られたものに過ぎず、例えば、0dBから−9dBで合計8レベルである。各々の入力及び出力構成対についてのダウンミックス手順を明示的に記述することは労力を要するものであり、既存の標準規格に対する追加を意味し、これは遵守の遅れという犠牲を伴う。別の提案が先行技術文献[5]に記載されている。このアプローチは、柔軟性における向上である明示的なダウンミックス行列を用いているが、この方式においても、範囲及び精度が0dB〜−9dB、合計16レベルと限られている。更に、各々のゲインが4ビットの固定の精度で符号化される。
従って、公知の先行技術に鑑み、ダウンミックス行列の効率的な符号化のための向上したアプローチであって、好適な表現領域及び量子化方式を選択する局面を含むだけでなく、量子化された値の可逆符号化をも含むものが必要とされている。
実施例によると、範囲及び精度が制作者の必要に応じて制作者によって特定される形で任意のダウンミックス行列の符号化を可能にすることによって、ダウンミックス行列の取り扱いにおいて無制限の柔軟さが達成される。また、本発明の実施例では、典型的な行列が少量のビットを用い、典型的な行列から逸脱するにつれて徐々に効率性が低下する極めて効率的な可逆符号化が可能となる。これは、行列が典型的な行列に類似すればするほど、本発明の実施例に記載された符号化は効率的になるということを意味する。
実施例によると、必要とされる精度は、制作者によって1dB、0.5dB又は0.25dBとして特定されて均一な量子化に用いられることとすることができる。なお、他の実施例によると、他の精度値を選択しても良い。これに対して、既存の方式では、0dB前後の値については1.5dB又は0.5dBの精度しか可能ではなく、他の値についてはより低い精度を用いることになる。いくつかの値について粗い量子化を用いると、達成される最悪の場合の許容値に影響を及ぼし、復号された行列の解釈が困難になる。既存の技術では、いくつかの値についてはより低い精度を用い、これは均一な符号化を用いて必要ビット数を減少させる単純な手段である。しかし、以下に詳述する改善された符号化方式を用いることによって、精度を犠牲にすることなくほぼ同じ結果を達成することができる。
実施例によると、混合ゲインの値は、最大値、例えば+22dB、及び最小値、例えば−47dB、の間で特定することができる。これらはまた、値マイナス無限を含むことができる。行列において用いられる有効値範囲は、ビットストリームにおいて最大ゲイン及び最小ゲインとして示されるため、所望の柔軟性を制限することなく、実際に用いられない値についてのビットを無駄にすることがない。
実施例によると、ダウンミックス行列が与えられるべき音声コンテンツの入力チャネルリスト、及び出力スピーカー構成を示す出力チャネルリスト、が利用可能であると想定する。これらのリストは、入力構成及び出力構成における各々のスピーカーについての幾何学的情報、例えば方位角及び仰角、を有する。任意には、スピーカーの慣習的な名称を有する場合もある。
図4は、22.2入力構成から5.1出力構成へのマッピングのための当該技術において公知のダウンミックス行列の一例を示す。行列の右側の列300において、22.2構成によるそれぞれの入力チャネルは、それぞれのチャネルに関連付けられたスピーカー名によって示される。最も下の行302は、出力チャネル構成、5.1構成のそれぞれの出力チャネルを含む。ここでも、それぞれのチャネルは、関連付けられたスピーカー名によって示される。この行列は、各々がゲイン値(混合ゲインとも呼ぶ)を持つ複数の行列要素304を含む。混合ゲインは、それぞれの出力チャネル302に寄与する際に、所与の入力チャネル、例えば入力チャネル300のうちの1つ、のレベルをどのように調節するかを示す。例えば、左上の行列要素は「1」の値を示しており、入力チャネル構成300におけるセンターチャネルCが、出力チャネル構成302のセンターチャネルCに対して完全にマッチングしていることを意味している。同様に、2つの構成におけるそれぞれの左チャネル及び右チャネル(L/Rチャネル)は完全にマッピングされており、即ち、入力構成における左/右チャネルは、出力構成における左/右チャネルに完全に寄与する。他のチャネル、例えば入力構成におけるチャネルLc及びRcは、出力構成302の左チャネル及び右チャネルに対して、0.7という低減したレベルでマッピングされる。図4から見て取れるように、成分を持たない行列要素がいくつかあり、これは、行列要素に関連付けられたそれぞれのチャネルが互いに対してマッピングされていないこと、又は、成分を持たない行列要素によって出力チャネルにリンクされた入力チャネルは、それぞれの出力チャネルに寄与しないことを意味する。例えば、左/右入力チャネルのいずれも、出力チャネルLs/Rsに対してマッピングされておらず、即ち、左入力チャネル及び右入力チャネルは、出力チャネルLs/Rsに寄与しない。行列において空白を与える代わりに、ゼロ・ゲインを示しても良い。
以下、ダウンミックス行列の効率的な可逆符号化を達成するための本発明の実施例に従って適用されるいくつかの技術について説明する。以下の実施例においては、図4に示すダウンミックス行列の符号化を参照するが、以下に記載の特徴は、もたらされ得る他のどのダウンミックス行列に適用しても良いことは明らかである。実施例によると、ダウンミックス行列を復号するためのアプローチが提供され、複数の入力チャネルのスピーカー対の対称性と、複数の出力チャネルのスピーカー対の対称性とを活用することによってダウンミックス行列を符号化する。ダウンミックスの復号は、デコーダへの送信に続いて行われ、例えば符号化された音声コンテンツ及び符号化された情報又はダウンミックス行列を表すデータを含むビットストリームを受信する音声デコーダにおいて行われて、元のダウンミックス行列に対応するダウンミックス行列をデコーダで構築することが可能となる。ダウンミックス行列を復号することは、ダウンミックス行列を表す符号化情報を受け取ることと、符号化情報を復号してダウンミックス行列を得ることとを含む。他の実施例によると、ダウンミックス行列を符号化するためのアプローチであって、複数の入力チャネルのスピーカー対の対称性と、複数の出力チャネルのスピーカー対の対称性とを活用することを含むものが提供される。
本発明の実施例についての以下の説明においては、ダウンミックス行列の符号化の文脈でいくつかの局面を説明するが、当業者にとっては、これらの局面が、ダウンミックス行列を復号するための対応するアプローチの説明をも表すことは明らかである。同様に、ダウンミックス行列の復号の文脈で説明する局面は、ダウンミックス行列を符号化するための対応するアプローチの説明をも表す。
実施例によると、最初のステップは、行列におけるゼロ成分の数がかなりあることを利用することである。続くステップでは、実施例によると、ダウンミックス行列において典型的に存在するグローバル且つ細かいレベルの規則性を利用する。3番目のステップでは、ゼロでないゲイン値の典型的な分布を利用する。
最初の実施例によると、本発明のアプローチは、音声コンテンツの制作者によって与えられ得るダウンミックス行列から開始する。以下の説明においては、簡略化のため、考慮するダウンミックス行列は図4のものであると想定する。本発明のアプローチによると、図4のダウンミックス行列を変換することによって、元の行列と比較してより効率的に符号化され得るコンパクトなダウンミックス行列を生成する。
図5は、上述の変換ステップを概略的に表す。図5の上側においては、図4の元のダウンミックス行列306が示され、これは、以下に詳述する態様で、図5の下側に示すコンパクトダウンミックス行列308へと変換される。本発明のアプローチによると、「対称スピーカー対」の概念が用いられるが、これは、聴取者の位置に対して、1つのスピーカーが左側の半面にあり、もう1つが右側の半面にあることを意味する。この対称対構成は、同じ仰角を有し、かつ、絶対値は同じであるが正負符号が異なる方位角を有する2つのスピーカーに対応する。
実施例によると、それぞれ異なる種類のスピーカー群、即ち対称スピーカーS、センタースピーカーC及び非対称スピーカーAが規定される。センタースピーカーとは、スピーカー位置の方位角の正負符号を変化させたときに位置が変化しないスピーカーである。非対称スピーカーとは、所与の構成において、他の又は対応する対称スピーカーを欠くスピーカーであり、或いは、稀な構成においては、他方側のスピーカーは異なる仰角又は方位角を有する場合もあり、この場合、対称対の代わりに2つの別個の非対称スピーカーが存在する。図5に示すダウンミックス行列306においては、入力チャネル構成300は、図5の上側に示す9つの対称スピーカー対S〜Sを含む。例えば、対称スピーカー対Sは、22.2入力チャネル構成300のスピーカーLc及びRcを含む。また、22.2入力構成におけるLFEスピーカーは、聴取者の位置に対して、同じ仰角と、絶対値が同じで異なる正負符号の方位角とを有するため、対称スピーカーである。22.2入力チャネル構成300は、更に、6つのセンタースピーカーC〜C、即ちスピーカーC、Cs、Cv、Ts、Cvr及びCbを含む。入力チャネル構成において非対称チャネルは存在しない。入力チャネル構成とは別の出力チャネル構成302は、2つの対称スピーカー対S10,S11、1つのセンタースピーカーC及び1つの非対称スピーカーAのみを含む。
上述の実施例によると、ダウンミックス行列306は、対称スピーカー対を形成する入力スピーカー及び出力スピーカーをグループ付けすることによってコンパクト表現308に変換される。それぞれのスピーカーをグループ付けすることによって、元の入力構成300におけるのと同じセンタースピーカーC〜Cを含むコンパクト入力構成310が得られる。しかしながら、元の入力構成300と比較すると、対称スピーカーS〜Sをそれぞれグループ付けることで、それぞれの対が、図5の下側に示すようにただ1つの行を占めるようになる。同様に、元の出力チャネル構成302もまたコンパクト出力チャネル構成312に変換され、これもまた、元のセンタースピーカー及び非対称スピーカー、即ちセンタースピーカーC及び非対称スピーカーA、を含む。しかし、それぞれのスピーカー対S10,S11は、単一の行へと組み合わされている。従って、図5から見て取れるように、24×6であった元のダウンミックス行列306の寸法は、15×4のコンパクトダウンミックス行列308の寸法に減少される。
図5に関して説明した実施例においては、元のダウンミックス行列306において、それぞれの対称スピーカー対S〜S11に関連付けられた混合ゲイン(入力チャネルが出力チャネルにどれほど強く寄与するかを示す)は、入力チャネル及び出力チャネルにおける対応する対称スピーカー対について対称に配置されることが見て取れる。例えば、対S,S10を見ると、それぞれの左チャネル及び右チャネルをゲイン0.7で組み合わせる一方、左/右チャネルの組み合わせをゲイン0で組み合わせる。従って、コンパクトダウンミックス行列308に示す態様でそれぞれのチャネルをグループ付けすると、コンパクトダウンミックス行列要素314は、元の行列306に関して説明したそれぞれの混合ゲインを含み得る。従って、上述の実施例によると、対称スピーカー対をグループ付けすることによって元のダウンミックス行列のサイズを減少させ、こうして「コンパクト」表現308は、元のダウンミックス行列よりも効率的に符号化することができる。
次に、図6に関し、本発明の更なる実施例について説明する。図6もまた、図5に関して示して説明した変換後の入力チャネル構成310及び出力チャネル構成312を有するコンパクトダウンミックス行列308を示す。図6の実施例において、図5に示したものとは異なり、コンパクトダウンミックス行列の行列成分314は、ゲイン値を表すのではなく、いわゆる「有意性値」を表す。有意性値は、それぞれの行列要素314において、これと関連付けられたゲインのいずれかがゼロでないか否かを示す。これらの値「1」を示す行列要素314は、それぞれの要素にゲイン値が関連付けられることを示す一方、空白の行列要素は、この要素にゲインが関連付けられていない、又はゼロのゲインが関連付けられていることを示す。この実施例によると、実際のゲイン値を有意性値に代えることで、図5と比較してコンパクトダウンミックス行列の符号化を更に効率的にすることができるが、それは、図6の表現308が、例えばそれぞれの有意性値について1の値又は0の値を示す1成分当り1ビットを用いて、簡単に符号化され得るからである。これに加えて、有意性値の符号化の他に、行列要素に関連付けられたそれぞれのゲイン値を符号化することによって、受け取った情報の復号後、完全なダウンミックス行列が復元され得るようにすることが必要である。
別の実施例によると、図6に示すコンパクトな形式におけるダウンミックス行列の表現は、ラン長方式を用いて符号化され得る。このようなラン長方式においては、行列要素314は、行1から始まり行15で終わるように各行を連結することによって1次元ベクトルへと変換される。次に、この1次元ベクトルを、ラン長を含むリスト、例えば1で終わる連続するゼロ、へと変換する。図6の実施例においては、これによって以下のリストが得られる。
Figure 0006313439
ここで、(1)は、ビットベクトルが0で終わる場合の仮想の終端を表す。上に示すラン長は、適切な符号化方式、例えば可変長プレフィックス符号を各々の数に割り当てる限定的ゴロム・ライス符号化、を用いて符号化することによって全体ビット長を最小化することができる。ゴロム・ライス符号化アプローチは、以下のように、負でない整数パラメータp≧0を用いて負でない整数n≧0を符号化するために用いられる。最初に、数
h=n/2
は、単項符号化を用いて符号化され、h個の1のビットの後に終端のゼロ・ビットが続く。次に、pビットを用いて数l=n−h・2を均一に符号化する。
限定的ゴロム・ライス符号化は、n<Nであることが予め分かっている場合に用いられる些細な変種である。これは、hの可能な最大値、即ち、
hmax=(N−1)/2
を符号化する際に終端のゼロ・ビットを含まない。より正確には、h=hmaxを符号化するためには、終端のゼロ・ビットのないh個の1のビットのみを用いる。終端のゼロ・ビットは、デコーダがこの状態を黙示的に検出できるため、必要ではない。
上述のように、それぞれの要素314と関連付けられたゲインもまた符号化されて送信される必要があり、これを行うための実施例について以下に詳述する。ゲインの符号化を詳述する前に、図6に示すコンパクトダウンミックス行列の構造を符号化するための更なる実施例について説明する。
図7は、典型的なコンパクト行列が音声エンコーダ及び音声デコーダの両方で利用可能なテンプレート行列に、ほぼ類似するように、典型的なコンパクト行列がいくつかの意味のある構造を有しているという事実を利用することによって、コンパクトダウンミックス行列の構造を符号化するための更なる実施例を説明するためのものである。図7は、図6でも示した有意性値を有するコンパクトダウンミックス行列308を示す。これに加えて、図7は、同じ入力チャネル構成310’及び出力チャネル構成312’を有する可能なテンプレート行列316の一例を示す。テンプレート行列は、コンパクトダウンミックス行列と同様、それぞれのテンプレート行列要素314’における有意性値を含む。有意性値は、コンパクトダウンミックス行列におけるのと基本的に同じ態様で要素314’間に分配されるが、上述のようにコンパクトダウンミックス行列と「類似」しているに過ぎないテンプレート行列は、要素314’のいくつかにおいて異なっている。テンプレート行列316とコンパクトダウンミックス行列308との相違点は、コンパクトダウンミックス行列308において、行列要素318,320はゲイン値を含まないのに対し、テンプレート行列316は、対応する行列要素318’,320’において有意性値を含むことである。従って、テンプレート行列316は、強調された成分318’,320’に関して、符号化される必要があるコンパクト行列と異なっている。コンパクトダウンミックス行列の更に効率的な符号化を達成するために、図6と比較して、2つの行列308,316における対応する行列要素314,314’を論理的に組み合わせ、上述と類似の態様で符号化され得る1次元ベクトルを、図6に関して説明したのと類似の態様で得る。行列要素314,314’の各々には、XOR演算を実行することができ、より具体的には、コンパクトテンプレートを用いてコンパクト行列に要素単位の論理XOR演算を適用して1次元ベクトルを得て、これを以下のラン長を含むリストに変換する。
Figure 0006313439
次に、このリストを、例えば限定的ゴロム・ライス符号化を用いて符号化することができる。図6に関して説明した実施例と比較して、このリストは、より効率的に符号化することができることが分かる。コンパクト行列がテンプレート行列と同一である最善の場合、ベクトル全体はゼロのみから構成され、1つのラン長の数を符号化するだけで良い。
図7に関して説明したテンプレート行列の使用に関し、エンコーダ及びデコーダの両方は、予め規定された組のこのようなコンパクトテンプレートを有している必要があり、これは入力スピーカー及び出力スピーカーの組によって一意に決定されるが、これはスピーカーのリストによって決定される入力構成又は出力構成とは対照的である。これは、入力スピーカー及び出力スピーカーの順番は、テンプレート行列を決定する上で重要ではなく、所与のコンパクト行列の順番に一致するように使用前に順序を変えることができることを意味する。
以下、上述のように、元のダウンミックス行列において与えられる混合ゲインであって、もはやコンパクトダウンミックス行列に存在せず、符号化及び送信される必要があるものの符号化についての実施例を説明する。
図8は、混合ゲインを符号化するための実施例を説明するものである。この実施例は、入力スピーカー群及び出力スピーカー群、即ち群S(対称、L及びR)、C(センター)及びA(非対称)、のそれぞれ異なる組合せに従って、元のダウンミックス行列における1つ以上のゼロでない成分に対応する部分行列の特性を利用する。図8は、入力スピーカー及び出力スピーカー、即ち対称スピーカーL及びR、センタースピーカーC及び非対称スピーカーA、のそれぞれ異なる組合せに従って、図4に示すダウンミックス行列から導き出され得る可能な部分行列を説明するものである。図8では、a、b、c及びdの文字は、任意のゲイン値を表す。
図8(a)は、図4の行列から導き出され得る4つの可能な部分行列を示す。最初のものは、2つのセンターチャネル、例えば入力構成300におけるスピーカーC及び出力構成302におけるスピーカーC、のマッピングを規定する部分行列であり、ゲイン値「a」は、行列要素[1,1](図4の左上要素)に示すゲイン値である。図8(a)の2番目の部分行列は、例えば、2つの対称の入力チャネル、例えば入力チャネルLc及びRcを、出力チャネル構成におけるセンタースピーカー、例えばスピーカーCに対してマッピングすることを表す。ゲイン値「a」及び「b」は、行列要素[1,2]及び[1,3]に示すゲイン値である。図8(a)の3番目の部分行列は、センタースピーカーC、例えば図4の入力構成300におけるスピーカーCvr、を2つの対称チャネル、例えば出力構成302におけるチャネルLs及びRsに対してマッピングすることを表す。ゲイン値「a」及び「b」は、行列要素[4,21]及び[5,21]に示すゲイン値である。図8(a)の4番目の部分行列は、2つの対称のチャネルがマッピングされる、例えば入力構成300におけるチャネルL,Rが出力構成302におけるチャネルL,Rに対してマッピングされる場合を表す。ゲイン値「a」〜「d」は、行列要素[2,4][2,5]、[3,4]、[3,5]に示すゲイン値である。
図8(b)は、非対称のスピーカーをマッピングする際の部分行列を示す。最初の表現は、2つの非対象のスピーカーをマッピングすることによって得られる部分行列である(図4にはこのような部分行列についての例はない)。図8(b)の2番目の部分行列は、2つの対称の入力チャネルを非対称の出力チャネルに対してマッピングすることを表し、これは、図4の実施例においては、例えば、2つの対称入力チャネルLFE及びLFE2を出力チャネルLFEに対してマッピングすることである。ゲイン値「a」及び「b」は、行列要素[6,11]及び[6,12]に示すゲイン値である。図8(b)の3番目の部分行列は、入力非対称スピーカーが、出力スピーカーの対称対にマッチングされる場合を表す。この例の場合、非対称の入力スピーカーは存在しない。
図8(c)は、センタースピーカーを非対称スピーカーに対してマッピングするための2つの部分行列を示す。最初の部分行列は、入力センタースピーカーを非対称出力スピーカーに対してマッピングし(図4にはこのような部分行列についての例はない)、2番目の部分行列は、非対称入力スピーカーをセンター出力スピーカーに対してマッピングする。
この実施例によると、各々の出力スピーカー群について、対応する列が、全ての成分について、対称性及び分離性の特性を満たすか否かを調べ、この情報を、2ビットを用いて付随情報として送信する。
対称性の特性について図8(d),8(e)に関して説明する。対称性の特性とは、Lスピーカー及びRスピーカーを含むS群が、同じゲインで、センタースピーカー又は非対称スピーカーへ、又はここから混合すること、或いはS群が別のS群へ、又はここから等しく混合されることを意味する。S群を混合する上述の2つの可能性を図8(d)に示し、2つの部分行列は、図8(a)に関して上述した3番目及び4番目の部分行列に対応する。上述の対称性の特性を適用する、即ち混合が同じゲインを用いると、図8(e)に示す最初の部分行列が得られ、ここでは、入力センタースピーカーCが同じゲイン値を用いて対称スピーカー群Sに対してマッピングされる(例えば、図4における入力スピーカーCvrを出力スピーカーLs及びRsに対してマッピングする場合を参照)。これは反対の場合にも当てはまり、例えば、入力スピーカーLc、Rcを出力チャネルのセンタースピーカーCに対してマッピングする場合を検討すると、同じ対称性の特性が見つかる。対称性の特性からは、更に、図8(e)に示す2番目の部分行列も得られ、これに従うと、対称スピーカー間で混合することは、左スピーカーのマッピングと右スピーカーのマッピングとが同じゲイン因数を用い、左スピーカーを右スピーカーに対してマッピングして右スピーカーを左スピーカーに対してマッピングすることが、同じゲイン値を用いて行われることと同じ意味である。これは図4において、例えば、ゲイン値「a」=1及びゲイン値「b」=0を用いて入力チャネルL,Rを出力チャネルL,Rに対してマッピングする場合に関して示される。
分離性の特性とは、対称群が別の対称群に又はこれから混合される際、左側からの全ての信号を左に、右側からの全ての信号を右に保持することを意味する。これは図8(f)に示す部分行列に当てはまり、この部分行列は、図8(a)に関して上述の4番目の部分行列に対応する。上述の分離性の特性を適用すると、図8(g)に示す部分行列が得られ、これに従うと、左の入力チャネルは左の出力チャネルにのみマッピングされ、右の入力チャネルは右の出力チャネルにのみマッピングされ、ゼロのゲイン因数のため「チャネル間」マッピングは存在しない。
大多数の公知のダウンミックス行列において遭遇する上述の2つの特性を用いることで、符号化される必要があるゲインの実際の数をさらに大幅に減少させることができ、更に、分離性の特性を満足させる場合、多数のゼロ・ゲインについて必要となる符号化が直接なくされる。例えば、有意性値を含む図6のコンパクト行列を検討し、上述の特性を元のダウンミックス行列に適用すると、例えば図5の下側に示す態様で、それぞれの有意性値について単一のゲイン値を規定するだけで良いことが分かるが、それは、分離性及び対称性の特性のため、それぞれの有意性値に関連付けられたそれぞれのゲイン値が、復号後に元のダウンミックス行列間でどのように分配される必要があるかが分かっているからである。従って、図6に示す行列に関して図8の上述の実施例を適用する場合、デコーダが元のダウンミックス行列を復元できるためには、符号化された有意性値とともに符号化されて送信される必要のある19個のゲイン値を与えるだけで良い。
以下、例えば音声コンテンツの制作者によって元のダウンミックス行列における元のゲイン値を規定するために用いられ得るゲイン表を動的に作成するための実施例について説明する。この実施例によると、ゲイン表は、特定された精度を用いて、最小ゲイン値(minGain)と最大ゲイン値(maxGain)との間で動的に作成される。好ましくは、この表は、最も頻繁に用いられる値、及び、より「丸め誤差の少ない」値が、他の値、即ちそれほど頻繁に用いられない値又はそれほど丸め誤差の少なくない値、よりも表又はリストの開始近くに配置されるように作成される。実施例によると、maxGain、minGain及び精度レベルを用いた可能な値のリストは、以下のように作成することができる。
‐0dBからminGainまで降順に、3dBの整数倍数を加算する。
‐3dBからmaxGainまで昇順に、3dBの整数倍数を加算する。
‐0dBからminGainまで降順に、1dBの残りの整数倍数を加算する。
‐1dBからmaxGainまで昇順に、1dBの残りの整数倍数を加算する。
精度レベルが1dBであればここで停止する。
‐0dBからminGainまで降順に、0.5dBの残りの整数倍数を加算する。
‐0.5dBからmaxGainまで昇順に、0.5dBの残りの整数倍数を加算する。
精度レベルが0.5dBであればここで停止する。
‐0dBからminGainまで降順に、0.25dBの残りの整数倍数を加算する。
‐0.25dBからmaxGainまで昇順に、0.25dBの残りの整数倍数を加算する。
例えば、maxGainが2dBであり、minGainが−6dBであり、精度が0.5dBである時、以下のリストが作成される。
0, -3, -6, -1, -2, -4, -5, 1, 2, -0.5, -1.5, -2.5, -3.5, -4.5, -5.5, 0.5, 1.5
上述の実施例に関し、本発明は、上述の値に限定されるものではなく、3dBの整数倍数を用いて0dBから開始する代わりに、状況に応じて他の値を選択しても良く、他の精度レベル値を選択しても良い。
一般的に、ゲイン値のリストは、以下のように作成することができる。
‐最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間で降順に、最初のゲイン値の整数倍数を加算する。
‐開始ゲイン値(これを含む)と最大ゲイン(これを含む)との間で昇順に、最初のゲイン値の残りの整数倍数を加算する。
‐最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間で降順に、第1の精度レベルの残りの整数倍数を加算する。
‐開始ゲイン値(これを含む)と最大ゲイン(これを含む)との間で昇順に、第1の精度レベルの残りの整数倍数を加算する。
‐精度レベルが第1の精度レベルであれば、ここで停止する。
‐最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間で降順に、第2の精度レベルの残りの整数倍数を加算する。
‐開始ゲイン値(これを含む)と最大ゲイン(これを含む)との間で昇順に、第2の精度レベルの残りの整数倍数を加算する。
‐精度レベルが第2の精度レベルであれば、ここで停止する。
‐最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間で降順に、第3の精度レベルの残りの整数倍数を加算する。
‐開始ゲイン値(これを含む)と最大ゲイン(これを含む)との間で昇順に、第3の精度レベルの残りの整数倍数を加算する。
上述の実施例においては、開始ゲイン値がゼロの場合、昇順に残りの値を加算する部分であって、関連付けられた多重度条件を満足するものは、最初に、1番目のゲイン値又は1番目、2番目若しくは第3の精度レベルを加算する。しかしながら、一般的な場合、昇順に残りの値を加算する部分は、最初に、開始ゲイン値(これを含む)と最大ゲイン(これを含む)との間隔において、関連付けられた多重度条件を満足する最小値を加算する。これに対応して、降順に残りの値を加算する部分は、最初に、最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間隔において、関連付けられた多重度条件を満足する最大値を加算する。
上述のものと類似するが開始ゲイン値=1dB(1番目のゲイン値=3dB、maxGain=2dB、minGain=−6dB及び精度レベル=0.5dB)の例を検討すると、以下が得られる。
降順:0,−3,−6
昇順:[空白]
降順:1,−2,−4,−5
昇順:2
降順:0.5,−0.5,−1.5,−2.5,−3.5,−4.5,−5.5
昇順:1.5
ゲイン値を符号化する場合、好ましくは、表の中でゲインを見つけて、その表内の位置を出力する。所望のゲインが常に見つかるが、それは、全てのゲインが、例えば1dB、0.5dB又は0.25dBといった特定された精度の最も近い整数倍数へ予め量子化されているからである。好ましい実施例によると、ゲイン値の位置には、表内の位置を示すインデックスが関連付けられ、ゲインのインデックスは、例えば限定的ゴロム・ライス符号化アプローチを用いて符号化され得る。その結果、大きなインデックスよりも小さなビット数を用いるための小さなインデックスが得られ、このようにして、頻繁に用いられる値、又は典型的な値、例えば0dB、−3dB又は−6dBは、最も小さいビット数を用いることになり、より「丸め誤差の少ない」値、例えば−4dBは、それほど丸め誤差の少なくない数(例えば−4.5dB)よりも小さなビット数を用いることになる。従って、上述の実施例を用いることによって、音声コンテンツの制作者が所望のゲインリストを生成できるだけでなく、これらのゲインが極めて効率的に符号化され得ることによって、更に別の実施例に従って上述のアプローチ全てを適用した場合、極めて効率的なダウンミックス行列の符号化が達成され得る。
上述の機能は、図1に関して説明した音声エンコーダの一部とすることができるが、これに代えて、ダウンミックス行列の符号化されたバージョンを音声エンコーダに入力してビットストリーム中で受信機又はデコーダへ送信させる別個のエンコーダ装置によってもたらされても良い。
符号化されたコンパクトダウンミックス行列を受信側で受信した後、実施例においては、復号するための方法であって、符号化されたコンパクトダウンミックス行列を復号して、グループ付けられたスピーカーを個々のスピーカーへとグループ解除(分離)することによって元のダウンミックス行列をもたらす方法が提供される。行列の符号化が有意性値及びゲイン値を符号化することを含む場合、復号ステップ中に、これらを復号することによって、有意性値と所望の入力・出力構成とに基づいてダウンミックス行列が復元されて、それぞれの復号されたゲインが、復元されたダウンミックス行列のそれぞれの行列要素に関連付けられ得るようにする。これは別個のデコーダによって実行することができ、このデコーダは、完成されたダウンミックス行列を、これをフォーマット変換部で用いることのできる音声デコーダ、例えば図2,3,4に関して上述した音声デコーダ、に入力する。
従って、上述の本発明のアプローチは、特定の入力チャネル構成を有する音声コンテンツを、異なる出力チャネル構成を有する受信システムに呈示するためのシステム及び方法を提供し、ダウンミックスについての追加の情報が、エンコーダ側からデコーダ側へ符号化ビットストリームとともに送信され、本発明のアプローチによると、ダウンミックス行列の極めて効率的な符号化のため、オーバーヘッドが明らかに低減する。
以下において、効率的な静的ダウンミックス行列符号化を実現する更なる実施例について説明する。より具体的には、任意で行われるEQ符号化による静的ダウンミックス行列のための実施例について説明する。上述のように、多チャネル音声に関する1つの問題は、そのリアルタイム伝送に対応する一方で、既存の利用可能な消費者の物理的スピーカー設備全てとの互換性を維持することである。1つの解決策は、元の制作フォーマットにおける音声コンテンツとともに、必要に応じて独立性の低いチャネルを有する他のフォーマットを生成するためのダウンミックス付随情報を提供することである。inputCount個の入力チャネル及びoutputCount個の出力チャネルを想定すると、ダウンミックス手順は、inputCount×outputCountのサイズのダウンミックス行列によって特定される。この特定の手順は受動的なダウンミックスを表し、これは、実際の音声コンテンツに依存する適応信号処理が入力信号又はダウンミックス出力信号に適用されないことを意味する。本発明のアプローチは、以下に説明する実施例によると、ダウンミックス行列の効率的な符号化のための完全な方式を記述するものであり、これは、好適な表現領域及び量子化方式を選択することについての局面だけでなく、量子化された値の可逆符号化についての局面を含む。各々の行列要素は、所与の入力チャネルが所与の出力チャネルに寄与する程度を調節する混合ゲインを表す。以下に説明する実施例は、制作者のニーズに従って特定され得る範囲及び精度で、任意のダウンミックス行列の符号化を可能にすることにより、制約されない柔軟性を達成することを目指す。また、典型的な行列が少量のビットを用い、典型的な行列から逸脱すれば徐々に効率性が低下する、効率的な可逆符号化が望ましい。これは、行列が典型的なものに類似しているほど、その符号化が効率的となることを意味する。実施例によると、必要とされる精度は、均一な量子化に用いられるものとして、制作者によって1、0.5又は0.25dBと特定され得る。混合ゲインの値は、+22dbの最大値と−47dBの最小値(これらを含む)との間で特定することができ、値−∞(線形領域で0)も含む。ダウンミックス行列で用いられる効果的な値の範囲は、ビットストリームにおいて最大ゲイン値maxGain及び最小ゲイン値minGainとして示されるため、柔軟性を制限することなく、実際に用いられない値についてのビットを無駄にすることがない。
入力チャネルリスト及び出力チャネルリストであって、方位角及び仰角といった各々のスピーカーについての幾何学的情報、並びに任意にはスピーカーの慣習的な名称、例えば先行技術文献[6]又は[7]によるものをもたらすものが利用可能であると想定すると、実施例によるダウンミックス行列を符号化するためのアルゴリズムは、以下の表1に示すようなものとすることができる。
表1−DownmixMatrixのシンタックス
Figure 0006313439
Figure 0006313439
Figure 0006313439
Figure 0006313439
Figure 0006313439
Figure 0006313439
実施例によるゲイン値を復号するためのアルゴリズムは、以下の表2に示すようなものとすることができる。
表2−DecodeGainValueのシンタックス
Figure 0006313439
Figure 0006313439
実施例による読み出し範囲関数を規定するためのアルゴリズムは、以下の表3に示すようなものとすることができる。
表3−ReadRangeのシンタックス
Figure 0006313439
実施例によるイコライザ構成を規定するためのアルゴリズムは、以下の表4に示すようなものとすることができる。
表4−EqualizerConfigのシンタックス
Figure 0006313439
Figure 0006313439
実施例によるダウンミックス行列の各要素は、以下の表5に示すようなものとすることができる。

表5−DownmixMatrixの各要素
フィールド:
paramConfig,
inputConfig,
outputConfig
記述・値:
各々のスピーカーについての情報を特定するチャネル構成ベクトル。各々の成分paramConfig[i]は、以下のメンバーを有する構造である。
‐AzimuthAngle、スピーカー方位角の絶対値
‐AzimuthDirection、方位方向、0(左)又は1(右)
‐ElevationAngle、スピーカー仰角の絶対値
‐ElevationDirection、仰角方向、0(上方向)又は1(下方向)
‐alreadyUsed、スピーカーが既に群の一部であることを示す。
‐isLFE、スピーカーがLFEスピーカーであるか否かを示す。

フィールド:
paramCount,
inputCount,
outputCount
記述・値:
対応するチャネル構成ベクトルにおけるスピーカー数

フィールド:
compactParamConfig,
compactInputConfig,
compactOutputConfig
記述・値:
各々のスピーカー群についての情報を特定するコンパクトチャネル構成ベクトル。各々の成分 compactParamConfig[i]は、以下のメンバーを有する構造である。
‐pairType、スピーカー群の種類。SYMMETRIC(2つのスピーカーの対称対)、CENTER、又はASYMMETRICのいずれかであり得る。
‐isLFE、スピーカー群がLFEスピーカーから構成されるか否かを示す。
‐originalPosition、群内の最初のスピーカー又は唯一のスピーカーの元のチャネル構成における位置
‐symmetricPair.originalPosition、SYMMETRIC群のみについて、群内の2番目のスピーカーの元のチャネル構成における位置

フィールド:
compactParamCount,
compactInputCount,
compactOutputCount
記述・値:
対応するコンパクトチャネル構成ベクトルにおけるスピーカー群の数

フィールド:
equalizerPresent
記述・値:
入力チャネルに適用されることになるイコライザ情報が存在するか否かを示すブーリアン

フィールド:
precisionLevel
記述・値:
ゲインの均一な量子化に用いられる精度。0=1dB、1=0.5dB、2=0.25dB、3は予備。

フィールド:
maxGain
記述・値:
dBで表現される行列内の実際の最大ゲイン。0〜22、線形1…12.589で可能な値。

フィールド:
minGain
記述・値:
dBで表現される行列内の実際の最小ゲイン。−1〜−47、線形0.891…0.004で可能な値。

フィールド:
isAllSeparable
記述・値:
出力スピーカー群全てが分離性の特性を満たすか否かを示すブーリアン

フィールド:
isSeparable[i]
記述・値:
インデックスiを有する出力スピーカー群が分離性の特性を満たすか否かを示すブーリアン

フィールド:
isAllSymmetric
記述・値:
出力スピーカー群全てが対称性の特性を満たすか否かを示すブーリアン

フィールド:
isSymmetric[i]
記述・値:
インデックスiを有する出力スピーカー群が対称性の特性を満たすか否かを示すブーリアン

フィールド:
mixLFEOnlyToLFE
記述・値:
LFEスピーカーがLFEスピーカーのみに混合されると同時に非LFEスピーカーが非LFEスピーカーのみに混合されるか否かを示すブーリアン

フィールド:
rawCodingCompactMatrix
記述・値:
compactDownmixMatrixが、符号化された未加工(1成分当り1ビットを使用)か、又はラン長の符号化とそれに続く限定的ゴロム・ライスとを用いて符号化されているかを示すブーリアン

フィールド:
compactDownmixMatrix[i][j]
記述・値:
入力スピーカー群i及び出力スピーカー群jに対応するcompactDownmixMatrix内の成分であって、関連付けられたゲインのいずれかが非ゼロか否かを示す。
0=全てのゲインがゼロ、1=少なくとも1つのゲインが非ゼロ

フィールド:
useCompactTemplate
記述・値:
ラン長符号化の効率性を向上させるために、予め規定されたコンパクトテンプレート行列を用いて要素単位のXORをcompactDownmixMatrixに適用するか否かを示すブーリアン。

フィールド:
runLGRParam
記述・値:
線形化されたflatCompactMatrixにおけるゼロ・ラン長を符号化するために用いられる限定的ゴロム・ライスパラメータ

フィールド:
flatCompactMatrix
記述・値:
既に適用された、予め規定されたコンパクトテンプレート行列を有するcompactDownmixMatrixの線形化バージョン。mixLFEOnlyToLFEが動作している場合、(非LFE及びFLE間の混合により)ゼロであると分かっている成分、又はLFEからLFEへの混合に用いられるものを含まない。

フィールド:
compactTemplate
記述・値:
予め規定されたコンパクトテンプレート行列。「典型的な」成分を有し、compactDownmixMatrixへと要素単位でXOR演算され、ほとんど全てがゼロの値の成分を作成することにより符号化効率を向上させる。

フィールド:
zeroRunLength
記述・値:
常に1が続くゼロ・ランの長さ。flatCompactMatrixにおけるもの。パラメータrunLGRParamを用いて、限定的ゴロム・ライス符号化によって符号化される。

フィールド:
fullForAsymmetricInputs
記述・値:
各々全ての非対象の入力スピーカー群についての対称性の特性を無視するか否かを示すブーリアン。動作している場合、各々全ての非対称入力スピーカー群は、isSymmetric[i]に関わらず、インデックスiを有する各々の対称出力スピーカー群について復号された2つのゲイン値を有する。

フィールド:
gainTable
記述・値:
precisionLevelの精度によってminGainとmaxGainとの間の全ての可能なゲインのリストを含む、動的に生成されたゲイン表

フィールド:
rawCodingNonzeros
記述・値:
非ゼロのゲイン値が符号化された未加工のものか(均一な符号化、ReadRange関数を用いる)、又はそれらのgainTableリストにおけるインデックスが限定的ゴロム・ライス符号化を用いて符号化されたものかを示すブーリアン

フィールド:
gainLGRParam
記述・値:
非ゼロのゲインインデックスを符号化するために用いられる限定的ゴロム・ライスパラメータ。gainTableリストにおける各々のゲインを探索することによって計算される。

ゴロム・ライス符号化は、以下のように、所与の負でない整数パラメータp≧0を用いて、任意の負でない整数n≧0を符号化するために用いられる。最初に、数
h=n/2
を、単項符号化を用いて符号化し、h個の1のビットの後に終端のゼロ・ビットが続く。次に、pビットを用いて数l=n−h・2を均一に符号化する。
限定的ゴロム・ライス符号化は、所与の整数N≧1について、n<Nであることが予め分かっている場合に用いられる些細な変種である。これは、hの可能な最大値、即ち、
max=(N−1)/2
を符号化する際に終端のゼロ・ビットを含まない。より正確には、h=hmaxを符号化するためには、h個の1のビットのみを書くが、終端のゼロ・ビットは書かない。終端のゼロ・ビットは、デコーダがこの状態を黙示的に検出できるため、必要ではない。
以下に記載の関数ConvertToCompactConfig(paramConfig,paramCount)は、paramCountスピーカーからなる所与のparamConfig構成を、compactParamCountスピーカー群からなるコンパクトなcompactParamConfig構成へと変換するために用いられる。compactParamConfig[i].pairTypeフィールドは、群が1対の対称スピーカーを表す場合はSYMMETRIC(S)、群がセンタースピーカーを表す場合はCENTER(C)、又は群が対称対を有さないスピーカーを表す場合はASYMMETRIC(A)であり得る。
ConvertToCompactConfig(paramConfig, paramCount)
{
for (i = 0; i < paramCount; ++i) {
paramConfig[i].alreadyUsed = 0;
}

idx = 0;
for (i = 0; i < paramCount; ++i) {
if (paramConfig[i].alreadyUsed) continue;
compactParamConfig[idx].isLFE = paramConfig[i].isLFE;

if ((paramConfig[i].AzimuthAngle == 0) ||
(paramConfig[i].AzimuthAngle == 180°) {
compactParamConfig[idx].pairType = CENTER;
compactParamConfig[idx].originalPosition = i;
} else {
j = SearchForSymmetricSpeaker(paramConfig, paramCount, i);
if (j != -1) {
compactParamConfig[idx].pairType = SYMMETRIC;
if (paramConfig.AzimuthDirection == 0) {
compactParamConfig[idx].originalPosition = i;
compactParamConfig[idx].symmetricPair.originalPosition = j;
} else {
compactParamConfig[idx].originalPosition = j;
compactParamConfig[idx].symmetricPair.originalPosition = i;
}
paramConfig[j].alreadyUsed = 1;
} else {
compactParamConfig[idx].pairType = ASYMMETRIC;
compactParamConfig[idx].originalPosition = i;
}
}
idx++;
}

compactParamCount = idx;
}
関数FindCompactTemplate(inputConfig,inputCount,outputConfig,outputCount)は、inputConfig及びinputCountによって表される入力チャネル構成と、outputConfig及びoutputCountによって表される出力チャネル構成とをマッチングするコンパクトテンプレート行列を見つけるために用いられる。
コンパクトテンプレート行列は、エンコーダ及びデコーダの両方で利用可能なコンパクトテンプレート行列の予め定められたリストにおいて、実際のスピーカーの順番に関わらず(これは重要ではない)、inputConfigと同じ組の入力スピーカーと、outputConfigと同じ組の出力スピーカーとを有するものを探索することによって見つけられる。見つかったコンパクトテンプレート行列に戻る前に、この関数は、その行及び列の順番を変更することによって、所与の入力構成から導き出されたスピーカー群の順番と、所与の出力構成から導き出されたスピーカー群の順番とを一致させる必要がある場合がある。
一致したコンパクトテンプレート行列が見つからない場合、この関数は、正しい数の行(入力スピーカー群の計算された数)及び列(出力スピーカー群の計算された数)を有する行列(全ての成分に1の値を有する)を返すことになる。
関数SearchForSymmetricSpeaker(paramConfig, paramCount,iは、スピーカーparamConfig[i]に対応する対称スピーカーについてのparamConfig及びparamCountによって表されるチャネル構成を探索するために用いられる。この対称スピーカーparamConfig[j]は、スピーカーparamConfig[i]の後に位置付けられ、従ってjはi+1からparamConfig−1(これらを含む)の範囲内にあり得る。これに加えて、既にスピーカー群の一部であってはならず、これはparamConfig[j].alreadyUsedが偽でなければならないことを意味する。
関数readRange()は、合計alphabetSize個の可能な値を有し得る0…alphabetSize−1(これらを含む)の範囲内の均一に分布した整数を読み出すために用いられる。これは、未使用の値を利用することなくceil(log2(alphabetSize))ビットを読み出すことによって簡単に行うことができる。例えば、alphabetSizeが3である場合、この関数は、整数0については1ビット、整数1及び2については2ビットを用いる。
関数generateGainTable(maxGain,minGain,precisionLevel)は、精度precisionLevelによってminGain及びmaxGain間の可能な全ての可能なゲインのリストを含むゲイン表gainTableを動的に生成するために用いられる。値の順番は、最も頻繁に用いられる値及びより「丸め誤差の少ない」値が典型的にリストの先頭に近くなるように選択される。全ての可能なゲイン値のリストを有するゲイン表は、以下のように生成される。
‐0dBからminGainまで降順に、3dBの整数倍数を加算する。
‐3dBからmaxGainまで昇順に、3dBの整数倍数を加算する。
‐0dBからminGainまで降順に、1dBの残りの整数倍数を加算する。
‐1dBからmaxGainまで昇順に、1dBの残りの整数倍数を加算する。
‐precisionLevelが0(1dBに対応する)であれば、ここで停止する。
‐0dBからminGainまで降順に、0.5dBの残りの整数倍数を加算する。
‐0.5dBからmaxGainまで昇順に、0.5dBの残りの整数倍数を加算する。
‐precisionLevelが1(0.5dBに対応する)であれば、ここで停止する。
‐0dBからminGainまで降順に、0.25dBの残りの整数倍数を加算する。
‐0.25からmaxGainまで昇順に、0.25dBの残りの整数倍数を加算する。
例えば、maxGainが2dB、minGainが−6dB、且つprecisionLevelが0.5dBであれば、以下のリストを作成する。即ち、0,−3,−6,−1,−2,−4,−5,1,2,−0.5,−1.5,−2.5,−3.5,−4.5,−5.5,0.5,1.5となる。
実施例によるイコライザ構成についての各要素は、以下の表6に示すようなものとすることができる。
表6−EqualizerConfigの各要素
フィールド:
numEqualizers
記述・値:
存在するそれぞれ異なる等化フィルタの数

フィールド:
eqPrecisionLevel
記述・値:
ゲインの均一な量子化に用いられる精度。0=1dB, 1=0.5dB,2=0.25dB,3=0.1dB

フィールド:
eqExtendedRange
記述・値:
ゲインについての拡張された範囲を用いるか否かを示すブーリアン。動作している場合は、利用可能な範囲は2倍にされる。

フィールド:
numSections
記述・値:
等化フィルタのセクションの数。各セクションはピークフィルタである。

フィールド:
centerFreqLd2
記述・値:
ピークフィルタについての中央周波数の最初の2つの10進数。最大範囲は10…99である。

フィールド:
centerFreqP10
記述・値:
centerFreqLd2に付加されるゼロの数。最大範囲は0…3である。

フィールド:
qFactorIndex
記述・値:
ピークフィルタについての品質因数インデックス

フィールド:
qFactorExtra
記述・値:
1.0よりも大きい品質因数を復号するための余分なビット

フィールド:
centerGainIndex
記述・値:
ピークフィルタについての中央周波数でのゲイン

フィールド:
scalingGainIndex
記述・値:
等化フィルタについてのスケーリングゲイン

フィールド:
hasEqualizer[i]
記述・値:
インデックスiを有する入力チャネルにイコライザが関連付けられているか否かを示すブーリアン

フィールド:
eqalizerIndex[i]
記述・値:
インデックスiを有する入力チャネルに関連付けられたイコライザのインデックス

以下、実施例による復号プロセスの局面について説明する。まず、ダウンミックス行列の復号から説明する。
シンタックス要素DownmixMatrix()は、ダウンミックス行列情報を含む。復号では、まず、動作していればシンタックス要素EqualizerConfig()によって表されるイコライザ情報を読み出す。次に、フィールドprecisionLevel、maxGain及びminGainを読み出す。入力構成及び出力構成を、関数ConvertToCompactConfig()を用いてコンパクト構成に変換する。次に、分離性及び対称性の特性が各々の出力スピーカー群について満足されているか否かを示すフラグを読み出す。
次に、a)1成分当り1ビットを未加工使用し、又は、b)ラン長の限定的ゴロム・ライス符号化のいずれかを用いて、有意性行列compactDownmixMatrixを読み出し、次に、flatCompactMatrixからcompactDownmixMatrixに復号ビットをコピーし、compactTemplate行列を適用する。
最後に、ゼロでないゲインを読み出す。compactDownmixMatrixについての各々のゼロでない成分について、対応する入力群のフィールドpairTypeと、対応する出力群のフィールドpairTypeとに応じて、最大2×2のサイズの部分行列を復元する必要がある。分離性及び対称性に関連した特性を用いて、関数DecodeGainValue()を用いて、或る数のゲイン値を読み出す。関数ReadRange()を用いて、又は、全ての可能なゲイン値を含むgainTable表におけるゲインのインデックスの限定的ゴロム・ライス符号化を用いて、ゲイン値を均一に符号化することができる。
次に、イコライザ構成の復号の局面について説明する。シンタックス要素EqualizerConfig()は、入力チャネルに適用されるイコライザ情報を含む。まず、numEqualizers等化フィルタの数を復号してから、eqlndex[i]を用いて特定の入力チャネルについて選択する。フィールドeqPrecisionLevel及びeqExtendedRangeは、量子化精度と、スケーリングゲイン及びピークフィルタゲインの利用可能な範囲とを示す。
各々の等化フィルタは、ピークフィルタにおける或る数のnumSections及び1つのscalingGainからなる直列カスケードである。各々のピークフィルタは、そのcenterFreq、qualityFactor及びcenterGainによって完全に規定される。
所与の等化フィルタに属するピークフィルタのcenterFreqパラメータは、非降順で与えられる必要がある。パラメータは10…24000Hz(これを含む)に限られ、
Figure 0006313439
として算出される。
ピークフィルタのqualityFactorパラメータは、0.05の精度によって0.05〜1.0(これらを含む)間の値、及び、0.1の精度によって1.1〜11.3(これらを含む)の値を表すことができ、
Figure 0006313439
として算出される。
所与のeqPrecisionLevelに対応するdBでの精度を与えるベクトルeqPrecisionsを導入し、更に、所与のeqExtendedRange及びeqPrecisionLevelに対応するゲインについてのdBで最小値及び最大値を与えるeqMinRanges行列及びeqMaxRanges行列を導入する。
eqPrecisions[4] = {1.0, 0.5, 0.25, 0.1}
eqMinRanges[2][4] = {{-8.0, -8.0, -8.0, -6.4}, {-16.0, -16.0, -16.0, -12.8}}
eqMaxRanges[2][4] = {{7.0, 7.5, 7.75, 6.3}, {15.0, 15.5, 15.75, 12.7}}
パラメータscalingGainは、精度レベルmin(eqPrecisionLevel+1,3)を用い、これは、既に最後のものでなければ次善の精度レベルである。フィールドcenterGainIndex及びscalingGainIndexからゲインパラメータcenterGain及びscalingGainへのマッピングは、
Figure 0006313439
Figure 0006313439
として計算される。
装置の文脈でいくつかの局面を記載したが、これらの局面は対応の方法の記載をも表すものであり、ブロック又は装置は、方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で記載した局面は、対応の装置の対応のブロック若しくは項目又は特徴の記載をも表す。方法ステップのうちのいくつか又はその全ては、ハードウェア装置、例えばマイクロプロセッサ、プログラム可能コンピュータ又は電子回路によって(又はこれを用いて)実行され得る。いくつかの実施例においては、最も重要な方法ステップのうちの1つ以上は、このような装置によって実行され得る。
特定の実現要件に応じて、本発明の実施例はハードウェア又はソフトウェアによって実現され得る。その実現は、デジタル記憶媒体といった非一時的記憶媒体、例えばフロッピーディスク、ハードディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM又はフラッシュメモリであって、電子的に読み出し可能な制御信号を格納しており、プログラム可能なコンピュータシステムと協働する(又は協働可能である)ことによりそれぞれの方法が実行されるようにするものを用いて実行され得る。従って、デジタル記憶媒体は、コンピュータ読み取り可能であり得る。
本発明のいくつかの実施例は、プログラム可能なコンピュータシステムと協働可能であることによって本願明細書に記載の方法の1つが実行されるようにする、電子的に読み出し可能な制御信号を有するデータキャリアを含む。
一般的には、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品であって、このコンピュータプログラム製品がコンピュータにおいて実行されるときに上記プログラムコードが上記方法の1つを実行するように動作するものとして実現され得る。プログラムコードは、例えば、機械読み取り可能キャリアに格納され得る。
他の実施例は、機械読み取り可能キャリアに格納された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含む。
従って、換言すると、本発明の方法の一実施例は、コンピュータプログラムであって、このコンピュータプログラムがコンピュータにおいて実行されるときに、本願明細書に記載の方法の1つを実行するためのプログラムコードを有するものである。
従って、本発明の方法の更なる実施例は、データキャリア(又はデジタル記憶媒体若しくはコンピュータ読み取り可能媒体)であって、そこに記録された、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを含むものである。データキャリア、デジタル記憶媒体又は記録された媒体は、典型的にはタンジブル且つ/又は非一時的である。
従って、本発明の方法の更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。データストリーム又は信号シーケンスは、例えば、インターネットを介したデータ通信接続を介して転送されるように構成され得る。
更なる実施例は、本願明細書に記載の方法の1つを実行するように構成又はプログラムされた処理手段、例えばコンピュータ又はプログラム可能論理装置を含む。
更なる実施例は、本願明細書に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
本発明による更なる実施例は、本願明細書に記載された方法のうちの1つを実行するためのコンピュータプログラムを受信機に(例えば電子的または光学的に)転送するように構成された装置又はシステムを含む。受信機は、例えば、コンピュータ、移動装置、又はメモリ装置等であり得る。当該装置又はシステムは、例えば、当該コンピュータプログラムを受信機に転送するためのファイルサーバを含み得る。
いくつかの実施例においては、プログラム可能論理装置(例えば、フィールド・プログラマブル・ゲートアレイ)を用いて、本願明細書に記載の方法におけるいくつか又は全ての機能を実行しても良い。いくつかの実施例においては、フィールド・プログラマブル・ゲートアレイは、マイクロプロセッサと協働して、本願明細書に記載の方法の1つを実行しても良い。一般的に、当該方法は、どのようなハードウェア装置によって実行されても良い。
上述の各実施例は、単に本発明の原理を例示するものである。本願明細書に記載の構成及び詳細を変更及び変形したものが当業者には明らかであることが理解される。従って、本願明細書における各実施例の記載及び説明として提示された特定の詳細によってではなく、添付の特許請求の範囲によってのみ限定されることが意図される。
参考文献
[1]Information technology - Coding of audio-visual objects - Part 3: Audio, AMENDMENT 4: New levels for AAC profiles, ISO/IEC 14496-3:2009/DAM 4, 2013
[2]ITU-R BS.775-3, “Multichannel stereophonic sound system with and without accompanying picture,” Rec., International Telecommunications Union, Geneva, Switzerland, 2012
[3]K. Hamasaki, T. Nishiguchi, R. Okumura, Y. Nakayama and A. Ando, "A 22.2 Multichannel Sound System for Ultrahigh-definition TV (UHDTV)," SMPTE Motion Imaging J., pp. 40-49, 2008
[4]ITU-R Report BS.2159-4, “Multichannel sound technology in home and broadcasting applications”, 2012
[5]Enhanced audio support and other improvements, ISO/IEC 14496-12:2012 PDAM 3, 2013
[6]International Standard ISO/IEC 23003-3:2012, Information technology - MPEG audio technologies - Part 3: Unified Speech and Audio Coding, 2012
[7]International Standard ISO/IEC 23001-8:2013, Information technology - MPEG systems technologies - Part 8: Coding-independent code points, 2013

Claims (32)

  1. 音声コンテンツについての複数の入力チャネル(300)を複数の出力チャネル(302)に対してマッピングするためのダウンミックス行列(306)を復号するための方法であって、前記入力チャネル(300)及び前記出力チャネル(302)は、聴取者の位置に対して所定の位置にあるそれぞれのスピーカーに関連付けられ、前記ダウンミックス行列(306)は、前記複数の入力チャネル(300)のスピーカー対(S〜S)の対称性と、前記複数の出力チャネル(302)のスピーカー対(S10〜S11)の対称性とを活用することによって符号化され、前記方法は、
    前記符号化されたダウンミックス行列(306)を表す符号化情報をエンコーダから受信するステップと、
    前記復号されたダウンミックス行列(306)を得るための前記符号化情報を復号するステップと、を備え、
    前記ダウンミックス行列(306)における入力チャネル(300)及び出力チャネル(302)のそれぞれの対(S〜S11)には、所与の入力チャネル(300)が所与の出力チャネル(302)に寄与するレベルを適合させるためのそれぞれの混合ゲインが関連付けられ、
    前記方法は、更に、
    前記ダウンミックス行列(306)を表す情報から、符号化された有意性値を復号するステップを備え、それぞれの有意性値は、前記入力チャネル(300)の対称スピーカー群及び前記出力チャネル(302)の対称スピーカー群の対(S〜S11)に割り当てられ、前記有意性値は、前記入力チャネル(300)のうちの1つ以上についての混合ゲインがゼロか否かを示し、前記方法は、更に、
    前記ダウンミックス行列(306)を表す情報から、符号化された混合ゲインを復号するステップを備える、
    方法。
  2. 前記有意性値は、ゼロの混合ゲインを示す第1の値と、ゼロでない混合ゲインを示す第2の値とを含み、
    前記有意性値を符号化するステップは、予め規定された順番で前記有意性値を連結する1次元ベクトルであって、ラン長符号化された前記1次元ベクトルをデコードするステップを含む、
    請求項1に記載の方法。
  3. 前記有意性値をデコードするステップは、テンプレート有意性値が関連付けられた、前記入力チャネル(300)のスピーカー群及び前記出力チャネル(302)のスピーカー群の同じ対を有するテンプレートに基づく、
    請求項1に記載の方法。
  4. 前記有意性値及び前記テンプレート有意性値を論理的に組み合わせ、有意性値とテンプレート有意性値とが同一であることを第1の値で示すとともに有意性値とテンプレート有意性値とが異なることを第2の値で示す、1次元ベクトルであって、ラン長符号化された前記1次元ベクトルをデコードするステップを備える、
    請求項3に記載の方法。
  5. 前記ラン長符号化された前記1次元ベクトルをデコードするステップは、ラン長を含むリストを前記1次元ベクトルに変換するステップを含み、ラン長は、前記第2の値によって終結される連続する第1の値の数である、
    請求項2又は請求項4に記載の方法。
  6. 前記ラン長は、ゴロム・ライス符号化又は限定的ゴロム・ライス符号化を用いて符号化される、
    請求項2、請求項4又は請求項5に記載の方法。
  7. 前記ダウンミックス行列(306)を復号することは、
    前記ダウンミックス行列(306)において、出力チャネル(302)の各群について、対称性の特性及び分離性の特性が満足されるか否かを示すダウンミックス行列情報を表す情報から、1群の出力チャネル(302)が単一の入力チャネル(300)からの同じゲインと混合されること、又は1群の出力チャネル(302)が1群の入力チャネル(300)から等しく混合されること、を示す対称性の特性と、それぞれの左側又は右側で全ての信号を保持しながら、1群の出力チャネル(302)が1群の入力チャネル(300)から混合されることを示す分離性の特性と、を復号するステップを備える、
    請求項1から請求項6のいずれかに記載の方法。
  8. 前記対称性の特性及び前記分離性の特性を満足させる出力チャネル(302)の群について、単一の混合ゲインが与えられる、
    請求項7に記載の方法。
  9. 前記混合ゲインを保持するリストを提供するステップを備え、各々の混合ゲインが前記リスト中のインデックスに関連付けられ、前記方法は、更に、
    前記ダウンミックス行列(306)を表す情報から前記リスト中のインデックスを復号するステップと、
    前記リストにある復号されたインデックスに従って前記リストから前記混合ゲインを選択するステップと、を備える、
    請求項1から請求項8のいずれかに記載の方法。
  10. 前記インデックスは、ゴロム・ライス符号化又は限定的ゴロム・ライス符号化を用いて符号化される、
    請求項9に記載の方法。
  11. 前記リストを提供するステップは、
    前記ダウンミックス行列(306)を表す情報から、最小ゲイン値、最大ゲイン値及び所望の精度を復号するステップと、
    前記最小ゲイン値及び前記最大ゲイン値間の複数のゲイン値を含むリストを作成するステップと、を備え、前記ゲイン値は、前記所望の精度を有するように提供され、前記ゲイン値が典型的に使用される頻度が高いほど、前記ゲイン値は前記リストの先頭に近くなり、前記リストの先頭は最も小さいインデックスを有する、
    請求項9又は請求項10に記載の方法。
  12. 前記ゲイン値のリストは、以下のように作成され、即ち、
    ‐前記最小ゲイン(これを含む)と開始ゲイン値(これを含む)との間で降順に、最初のゲイン値である第1のゲイン値の整数倍数を加算し、
    ‐前記開始ゲイン値(これを含む)と前記最大ゲイン(これを含む)との間で昇順に、前記第1のゲイン値の残りの整数倍数を加算し、
    ‐前記最小ゲイン(これを含む)と前記開始ゲイン値(これを含む)との間で降順に、第1の精度レベルの残りの整数倍数を加算し、
    ‐前記開始ゲイン値(これを含む)と前記最大ゲイン(これを含む)との間で昇順に、前記第1の精度レベルの残りの整数倍数を加算し、
    ‐精度レベルが前記第1の精度レベルであれば、ここで停止し、
    ‐前記最小ゲイン(これを含む)と前記開始ゲイン値(これを含む)との間で降順に、第2の精度レベルの残りの整数倍数を加算し、
    ‐前記開始ゲイン値(これを含む)と前記最大ゲイン(これを含む)との間で昇順に、前記第2の精度レベルの残りの整数倍数を加算し、
    ‐精度レベルが前記第2の精度レベルであれば、ここで停止し、
    ‐前記最小ゲイン(これを含む)と前記開始ゲイン値(これを含む)との間で降順に、第3の精度レベルの残りの整数倍数を加算し、
    ‐前記開始ゲイン値(これを含む)と前記最大ゲイン(これを含む)との間で昇順に、前記第3の精度レベルの残りの整数倍数を加算する、
    請求項11に記載の方法。
  13. 前記開始ゲイン値=0dBであり、前記第1のゲイン値=3dBであり、前記第1の精度レベル=1dBであり、前記第2の精度レベル=0.5dBであり、前記第3の精度レベル=0.25dBである、
    請求項12に記載の方法。
  14. 対称スピーカー対(S〜S)に関連付けられたダウンミックス行列(306)にある入力チャネル(300)と、対称スピーカー対(S10〜S11)に関連付けられたダウンミックス行列(306)にある出力チャネル(302)とが、共通の列又は行にグループ付けられている、コンパクト行列をデコードするステップを含み、
    前記コンパクト行列をデコードするステップは、
    前記符号化された有意性値と、前記符号化された混合ゲインを受信するステップと、
    前記符号化された有意性値をデコードし、前記デコードされたコンパクトダウンミックス行列(308)を生成し、前記混合ゲインをデコードするステップと、
    前記デコードされた混合ゲインをゲインがゼロではないことを示す、対応する有意性値に割り当てるステップと、
    前記デコードされたダウンミックス行列(306)を取得するためにグループ化された前記入力チャネル(300)と前記出力チャネル(302)とをグループ解除するステップと、
    を含む、
    請求項1に記載の方法。
  15. 音声コンテンツについての複数の入力チャネル(300)を複数の出力チャネル(302)に対してマッピングするためのダウンミックス行列(306)を符号化するための方法であって、前記入力チャネル及び前記出力チャネル(300、302)は、聴取者の位置に対して所定の位置にあるそれぞれのスピーカーに関連付けられ、
    前記ダウンミックス行列を符号化するステップは、前記ダウンミックス行列(306)は、前記複数の入力チャネル(300)のスピーカー対(S〜S)の対称性と、前記複数の出力チャネル(302)のスピーカー対(S10〜S11)の対称性とを活用するステップを備え、
    前記ダウンミックス行列(306)の入力チャネル及び出力チャネル(300、302)のそれぞれの対(S〜S11)は、所与の入力チャネル(300)が所与の出力チャネル(302)に寄与するレベルを適用するために、それぞれの混合ゲインを関連付け、
    それぞれの有意性値は、前記入力チャネル(300)の対称スピーカー群と、前記出力チャネル(302)の対称スピーカー群との対(S〜S11)に割り当てられており、前記有意性値は、1以上の前記入力チャネル(300)の混合ゲインがゼロであるか否かを示すものであり、
    前記方法は、さらに、
    前記有意性値を符号化するステップと、
    前記混合ゲインを符号化するステップと、
    を備える、
    方法。
  16. 前記有意性値は、ゼロの混合ゲインを示す第1の値と、ゼロでない混合ゲインを示す第2の値とを含み、前記有意性値を符号化するステップは、
    予め規定された順番で前記有意性値を連結することで1次元ベクトルを形成するステップと、
    ラン長方式を用いて前記1次元ベクトルを符号化するステップと、
    を含む、
    請求項15に記載の方法。
  17. 前記有意性値を符号化するステップは、
    テンプレート有意性値が関連付けられた、前記入力チャネル(300)のスピーカー群及び前記出力チャネル(302)のスピーカー群の同じ対を有するテンプレートに基づき、それらにテンプレート有意性値を関連付ける、
    請求項15に記載の方法。
  18. 有意性値とテンプレート有意性値とが同一であることを第1の値で示すとともに有意性値とテンプレート有意性値とが異なることを第2の値で示す1次元ベクトルを生成するために、前記有意性値及び前記テンプレート有意性値を論理的に組み合わせるステップと、
    ラン長方式によって前記1次元ベクトルを符号化するステップと、
    を備える、
    請求項17に記載の方法。
  19. 前記1次元ベクトルを符号化するステップは、
    前記1次元ベクトルを、ラン長を含むリストに変換するステップを含み、
    ラン長は、前記第2の値によって終結される連続する第1の値の数である、
    請求項16又は請求項18に記載の方法。
  20. 前記ラン長は、ゴロム・ライス符号化又は限定的ゴロム・ライス符号化を用いて符号化される、
    請求項16、請求項18又は請求項19に記載の方法。
  21. 前記ダウンミックス行列(306)を符号化するステップは、
    対称スピーカー対(S〜S)に関連付けられたダウンミックス行列(306)にある入力チャネル(300)と、対称スピーカー対(S10〜S11)に関連付けられたダウンミックス行列(306)にある出力チャネル(302)とを、共通の列又は行にグループ付けすることによって、前記ダウンミックス行列をコンパクトダウンミックス行列(308)に変換するステップと、
    前記コンパクトダウンミックス行列(308)を符号化するステップと、
    を含む、
    請求項15から請求項20のいずれかに記載の方法。
  22. スピーカーの所定の位置は、前記聴取者の位置に対して前記スピーカー位置の方位角及び仰角に応じて規定され、
    対称スピーカー対(S〜S11)は、同じ仰角を有し、かつ、絶対値は同じであるが正負符号が異なる方位角を有するスピーカーによって構成されている、
    請求項1から請求項21のいずれかに記載の方法。
  23. 前記入力チャネル及び前記出力チャネル(302)は、更に、1つ以上のセンタースピーカー及び1つ以上の非対称スピーカーに関連付けられたチャネルを含み、
    非対称スピーカーは、前記入力チャネル及び前記出力チャネル(302)によって規定された構成において別の対称スピーカーを有さない、
    請求項1から請求項22のいずれかに記載の方法。
  24. 複数の入力チャネル(300)を有する音声コンテンツを、前記入力チャネル(300)とは異なる複数の出力チャネル(302)を有するシステムに呈示するための方法であって、
    前記方法は、
    前記入力チャネル(300)を前記出力チャネル(302)に対してマッピングするために、前記音声コンテンツ及びダウンミックス行列(306)を提供するステップと、
    前記音声コンテンツを符号化するステップと、
    請求項15の記載に基づく前記ダウンミックス行列(306)を符号化するステップと、
    前記符号化された音声コンテンツ及び前記符号化されたダウンミックス行列(306)を前記システムに送信するステップと、
    前記音声コンテンツを復号するステップと、
    請求項1の記載に基づく前記ダウンミックス行列(306)を復号するステップと、
    前記復号されたダウンミックス行列(306)を用いて前記音声コンテンツの入力チャネル(300)を前記システムの出力チャネル(302)に対してマッピングするステップと、
    を備え、
    前記ダウンミックス行列(306)は、請求項1から請求項19のいずれかに記載の方法に従って符号化又は復号される、
    方法。
  25. 前記ダウンミックス行列(306)はユーザによって特定される、
    請求項24に記載の方法。
  26. 更に、前記入力チャネル(300)又はダウンミックス行列要素(304)に関連付けられたイコライザ・パラメータを送信するステップを備える、
    請求項24又は請求項25に記載の方法。
  27. 請求項1から請求項26のいずれかに記載の方法をコンピュータに実行させるためのプログラム
  28. 音声コンテンツについての複数の入力チャネル(300)を複数の出力チャネル(302)に対してマッピングするためのダウンミックス行列(306)を符号化するためのエンコーダであって、前記入力チャネル及び前記出力チャネル(302)は、聴取者の位置に対して所定の位置にあるそれぞれのスピーカーに関連付けられ、
    前記エンコーダは、
    請求項15の記載に基づく前記ダウンミックス行列(306)を符号化するように構成されたプロセッサを備える、
    エンコーダ。
  29. 音声コンテンツについての複数の入力チャネル(300)を複数の出力チャネル(302)に対してマッピングするためのダウンミックス行列(306)を復号するためのデコーダであって、前記入力チャネル及び前記出力チャネル(302)は、聴取者の位置に対して所定の位置にあるそれぞれのスピーカーに関連付けられ、前記ダウンミックス行列(306)は、前記複数の入力チャネル(300)のスピーカー対(S〜S)の対称性と、前記複数の出力チャネル(302)のスピーカー対(S10〜S11)の対称性とを活用することによって符号化され、
    前記デコーダは、
    請求項1の記載に従い動作するように構成されたプロセッサを備える、
    デコーダ。
  30. 音声信号を符号化するための音声エンコーダであって、請求項28のエンコーダを備える音声エンコーダ。
  31. 符号化された音声信号を復号するための音声デコーダであって、
    前記音声デコーダは、請求項29に記載のデコーダを含む、
    音声デコーダ。
  32. 前記復号されたダウンミックス行列(306)を受信するためのデコーダに結合されて、前記受信された復号ダウンミックス行列(306)に従って前記復号音声信号のフォーマットを変換するように動作する、フォーマット変換部を備える、
    請求項31に記載の音声デコーダ。
JP2016525036A 2013-10-22 2014-10-13 ダウンミックス行列を復号及び符号化するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列のためのエンコーダ及びデコーダ、音声エンコーダ及び音声デコーダ Active JP6313439B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130189770 EP2866227A1 (en) 2013-10-22 2013-10-22 Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP13189770.4 2013-10-22
PCT/EP2014/071929 WO2015058991A1 (en) 2013-10-22 2014-10-13 Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder

Publications (2)

Publication Number Publication Date
JP2016538585A JP2016538585A (ja) 2016-12-08
JP6313439B2 true JP6313439B2 (ja) 2018-04-25

Family

ID=49474267

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016525036A Active JP6313439B2 (ja) 2013-10-22 2014-10-13 ダウンミックス行列を復号及び符号化するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列のためのエンコーダ及びデコーダ、音声エンコーダ及び音声デコーダ

Country Status (19)

Country Link
US (4) US9947326B2 (ja)
EP (2) EP2866227A1 (ja)
JP (1) JP6313439B2 (ja)
KR (1) KR101798348B1 (ja)
CN (2) CN110675882B (ja)
AR (1) AR098152A1 (ja)
AU (1) AU2014339167B2 (ja)
BR (1) BR112016008787B1 (ja)
CA (1) CA2926986C (ja)
ES (1) ES2655046T3 (ja)
MX (1) MX353997B (ja)
MY (1) MY176779A (ja)
PL (1) PL3061087T3 (ja)
PT (1) PT3061087T (ja)
RU (1) RU2648588C2 (ja)
SG (1) SG11201603089VA (ja)
TW (1) TWI571866B (ja)
WO (1) WO2015058991A1 (ja)
ZA (1) ZA201603298B (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
WO2016204579A1 (ko) * 2015-06-17 2016-12-22 삼성전자 주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
KR102627374B1 (ko) * 2015-06-17 2024-01-19 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
KR20240050483A (ko) * 2015-06-17 2024-04-18 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
JP2019518373A (ja) 2016-05-06 2019-06-27 ディーティーエス・インコーポレイテッドDTS,Inc. 没入型オーディオ再生システム
US10701508B2 (en) * 2016-09-20 2020-06-30 Sony Corporation Information processing apparatus, information processing method, and program
US10075789B2 (en) * 2016-10-11 2018-09-11 Dts, Inc. Gain phase equalization (GPEQ) filter and tuning methods for asymmetric transaural audio reproduction
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US10893373B2 (en) * 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US11089425B2 (en) * 2017-06-27 2021-08-10 Lg Electronics Inc. Audio playback method and audio playback apparatus in six degrees of freedom environment
JP7222668B2 (ja) * 2017-11-17 2023-02-15 日本放送協会 音響処理装置及びプログラム
KR20200099561A (ko) 2017-12-19 2020-08-24 돌비 인터네셔널 에이비 통합 음성 및 오디오 디코딩 및 인코딩 개선을 위한 방법, 장치 및 시스템
GB2571572A (en) * 2018-03-02 2019-09-04 Nokia Technologies Oy Audio processing
BR112020019890A2 (pt) * 2018-04-11 2021-01-05 Dolby International Ab Métodos, aparelho e sistemas para sinal pré-renderizado para renderização de áudio
WO2020089302A1 (en) 2018-11-02 2020-05-07 Dolby International Ab An audio encoder and an audio decoder
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
CN114303190A (zh) 2019-08-15 2022-04-08 杜比国际公司 用于生成和处理经修改的音频比特流的方法和设备
CN114303392A (zh) * 2019-08-30 2022-04-08 杜比实验室特许公司 多声道音频信号的声道标识
GB2593672A (en) * 2020-03-23 2021-10-06 Nokia Technologies Oy Switching between audio instances

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6108633A (en) * 1996-05-03 2000-08-22 Lsi Logic Corporation Audio decoder core constants ROM optimization
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
US20040062401A1 (en) * 2002-02-07 2004-04-01 Davis Mark Franklin Audio channel translation
US6522270B1 (en) * 2001-12-26 2003-02-18 Sun Microsystems, Inc. Method of coding frequently occurring values
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2005086139A1 (en) * 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
CN102122509B (zh) * 2004-04-05 2016-03-23 皇家飞利浦电子股份有限公司 多信道解码器和多信道解码方法
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
WO2006022190A1 (ja) * 2004-08-27 2006-03-02 Matsushita Electric Industrial Co., Ltd. オーディオエンコーダ
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
US7903824B2 (en) * 2005-01-10 2011-03-08 Agere Systems Inc. Compact side information for parametric coding of spatial audio
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
CA2610430C (en) * 2005-06-03 2016-02-23 Dolby Laboratories Licensing Corporation Channel reconfiguration with side information
US8050915B2 (en) * 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
PL1905006T3 (pl) * 2005-07-19 2014-02-28 Koninl Philips Electronics Nv Generowanie wielokanałowych sygnałów audio
US7974713B2 (en) * 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
EP1974347B1 (en) * 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
US7965848B2 (en) * 2006-03-29 2011-06-21 Dolby International Ab Reduced number of channels decoding
US8027479B2 (en) * 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
MY151722A (en) * 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
EP2054875B1 (en) * 2006-10-16 2011-03-23 Dolby Sweden AB Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008046530A2 (en) * 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
CA2670864C (en) * 2006-12-07 2015-09-29 Lg Electronics Inc. A method and an apparatus for processing an audio signal
AU2008215231B2 (en) * 2007-02-14 2010-02-18 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
KR101312470B1 (ko) * 2007-04-26 2013-09-27 돌비 인터네셔널 에이비 출력 신호 합성 장치 및 방법
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
RU2443075C2 (ru) * 2007-10-09 2012-02-20 Конинклейке Филипс Электроникс Н.В. Способ и устройство для генерации бинаурального аудиосигнала
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
WO2009084916A1 (en) * 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US7733245B2 (en) * 2008-06-25 2010-06-08 Aclara Power-Line Systems Inc. Compression scheme for interval data
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
JP5520300B2 (ja) * 2008-09-11 2014-06-11 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
BR122019023924B1 (pt) * 2009-03-17 2021-06-01 Dolby International Ab Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo
US8000485B2 (en) * 2009-06-01 2011-08-16 Dts, Inc. Virtual audio processing for loudspeaker or headphone playback
ES2524428T3 (es) * 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
EP2360681A1 (en) * 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2477188A1 (en) * 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
TWI573131B (zh) * 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
WO2012177067A2 (ko) 2011-06-21 2012-12-27 삼성전자 주식회사 오디오 신호 처리방법 및 장치와 이를 채용하는 단말기
EP2560161A1 (en) * 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
KR20130093798A (ko) * 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법
EP2862370B1 (en) * 2012-06-19 2017-08-30 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
IN2015MN01952A (ja) * 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder

Also Published As

Publication number Publication date
US20200090666A1 (en) 2020-03-19
MX353997B (es) 2018-02-07
CA2926986A1 (en) 2015-04-30
EP3061087B1 (en) 2017-11-22
US11393481B2 (en) 2022-07-19
CN110675882B (zh) 2023-07-21
CN105723453B (zh) 2019-11-08
RU2648588C2 (ru) 2018-03-26
AR098152A1 (es) 2016-05-04
AU2014339167A1 (en) 2016-05-26
AU2014339167B2 (en) 2017-01-05
CN110675882A (zh) 2020-01-10
US11922957B2 (en) 2024-03-05
ZA201603298B (en) 2019-09-25
CA2926986C (en) 2018-06-12
US10468038B2 (en) 2019-11-05
KR20160073412A (ko) 2016-06-24
CN105723453A (zh) 2016-06-29
TW201521013A (zh) 2015-06-01
PT3061087T (pt) 2018-03-01
US9947326B2 (en) 2018-04-17
JP2016538585A (ja) 2016-12-08
WO2015058991A1 (en) 2015-04-30
US20230005489A1 (en) 2023-01-05
PL3061087T3 (pl) 2018-05-30
SG11201603089VA (en) 2016-05-30
US20180197553A1 (en) 2018-07-12
KR101798348B1 (ko) 2017-11-15
EP3061087A1 (en) 2016-08-31
TWI571866B (zh) 2017-02-21
BR112016008787A2 (ja) 2017-08-01
BR112016008787B1 (pt) 2022-07-12
ES2655046T3 (es) 2018-02-16
MY176779A (en) 2020-08-21
EP2866227A1 (en) 2015-04-29
US20160232901A1 (en) 2016-08-11
RU2016119546A (ru) 2017-11-28
MX2016004924A (es) 2016-07-11

Similar Documents

Publication Publication Date Title
JP6313439B2 (ja) ダウンミックス行列を復号及び符号化するための方法、音声コンテンツを呈示するための方法、ダウンミックス行列のためのエンコーダ及びデコーダ、音声エンコーダ及び音声デコーダ
US20240029744A1 (en) Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP3025329B1 (en) Concept for audio encoding and decoding for audio channels and audio objects
JP4832507B2 (ja) コンパクトなコードブックを用いるエントロピー符号化
CN105659319B (zh) 使用***值矩阵的多通道音频的渲染
JP2020016884A (ja) オーディオ・エンコーダおよびデコーダ
CN107077861B (zh) 音频编码器和解码器
EP3134897A1 (en) Matrix decomposition for rendering adaptive audio using high definition audio codecs
WO2016168408A1 (en) Audio encoding and rendering with discontinuity compensation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170921

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180322

R150 Certificate of patent or registration of utility model

Ref document number: 6313439

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250