JP5805796B2 - 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ - Google Patents

柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ Download PDF

Info

Publication number
JP5805796B2
JP5805796B2 JP2013558468A JP2013558468A JP5805796B2 JP 5805796 B2 JP5805796 B2 JP 5805796B2 JP 2013558468 A JP2013558468 A JP 2013558468A JP 2013558468 A JP2013558468 A JP 2013558468A JP 5805796 B2 JP5805796 B2 JP 5805796B2
Authority
JP
Japan
Prior art keywords
channel
decoder
configuration
data
channel element
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013558468A
Other languages
English (en)
Other versions
JP2014509754A (ja
Inventor
ノイエンドルフ、マックス
ムルトルス、マルクス
デーラ、シュティファン
プルンハーゲン、ヘイコ
ボント、フランス デ
ボント、フランス デ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Dolby International AB
Original Assignee
Koninklijke Philips NV
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Dolby International AB filed Critical Koninklijke Philips NV
Publication of JP2014509754A publication Critical patent/JP2014509754A/ja
Application granted granted Critical
Publication of JP5805796B2 publication Critical patent/JP5805796B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Stereophonic System (AREA)
  • Communication Control (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Surface Acoustic Wave Elements And Circuit Networks Thereof (AREA)

Description

本発明は、オーディオ符号化に関連し、かつ特に所謂USAC符号化(Unified Speech and Audio Coding、音声音響統合符号化)から知られるような高品質で低ビットレートの符号化に関連する。
USAC符号化器は、ISO/IEC CD23003−3において規定される。この「情報技術―MPEGオーディオ技術−パート3、音声音響統合符号化」と言う名称の標準は、音声音響統合符号化に関する提案について求められるものの基準モデルの機能ブロックを詳細に記述する。
図10aおよび図10bは、エンコーダおよびデコーダのブロック図を示す。USACエンコーダおよびデコーダのブロック図は、MPEG−D USAC符号化の構造を反映する。概略の構造は、次のように記述することができる。まず第1に、ステレオまたは多チャネル処理を扱うMPEGサラウンド(MPEGS)機能部および入力信号におけるより高いオーディオ周波数のパラメータ表現を扱うエンハンストSBR(eSBR)部からなる一般的な前/後処理がある。そして、修正アドバンスドオーディオ符号化(ACC)ツール経路からなる一方の分岐と、LPC残差の周波数領域表現または時間領域表現のいずれかを特徴とする線形予測符号化(LPまたはLPC領域)系の経路とからなる他方の分岐の2つの分岐がある。AACおよびLPCの両方のために伝送されるスペクトルのすべてが、量子化および算術符号化に続くMDCT領域において表現される。時間領域表現はACELP励起符号化スキームを使用する。
MPEG−D USACの基本構造を図10aおよび図10bに示す。この図面におけるデータの流れは、左右および上下である。デコーダの機能は、ビットストリームペイロードにおける量子化オーディオスペクトルまたは時間領域表現の記述を見つけて、量子化された値や他の再構成情報を復号化することである。
送信されたスペクトル情報の場合、デコーダは、量子化スペクトルを再構成し、ビットストリームペイロードにおいて活性であるいずれかのツールで、再構成されたスペクトルを処理して、入力ビットストリームペイロードにより記述される実際の信号スペクトルに到達して、最終的に周波数領域のスペクトルを時間領域に変換する。最初の再構成およびスペクトル再構成のスケーリングに続いて、より効率的符号化を図るために、スペクトルのうち1以上を変更する随意のツールが存在する。
送信された時間領域信号表現の場合、デコーダは、量子化された時間信号を再構成し、この再構成された時間信号をビットストリームペイロードにおいて活性であるいずれかのツールで処理して、入力ビットストリームペイロードにより記述される実際の時間領域信号に到達する。
信号データに対して作用する随意のツールごとに、「パススルー」する選択肢が保持され、かつ処理が省略されるすべての場合において、その入力としてのスペクトルまたは時間サンプルは、修正なしで、ツールを介して直接スルーされる。
ビットストリームが、その信号表現を時間領域から周波数領域の表現へ、または、LP領域から非LP領域へまたはその逆に変更する場合、デコーダは、適当な遷移オーバラップ加算ウィンドウ化により1つの領域から他の領域への遷移を容易にする。
eSBRおよびMPEGS処理を、遷移取扱い後の両方の符号化経路に同じ態様で適用する。
ビットストリームペイロードデマルチプレクサツールへの入力は、MPEG−D USACビットストリームペイロードである。デマルチプレクサは、ビットストリームペイロードをツールごとに部分に分けて、そのツールに関連するビットストリームペイロード情報をツールの各々に付与する。
ビットストリームペイロードデマルチプレクサツールからの出力は以下のとおりである。
・現在のフレームにおけるコア符号化のタイプによって、
‐量子化されかつ雑音なしで符号化されるスペクトルであって、
‐スケールファクタ情報
‐算術的に符号化されたスペクトルラインにより表現され
・または、以下のいずれかにより表現される励起信号を伴う線形予測(LP)パラメータのいずれかである。すなわち、それらは
‐量子化されかつ算術的に符号化されるスペクトルライン(変換符号化励起、TCX)もしくは
‐ACELP符号化時間領域励起
・スペクトルノイズフィリング情報(随意)
・M/S決定情報(随意)
・時間雑音整形(TNS)情報(随意)
・フィルタバンク制御情報
・時間アンワープ(TW)制御情報(随意)
・エンハンストスペクトル帯域幅複製(eSBR)制御情報(随意)
・MPEGサラウンド(MPEGS)制御情報
スケールファクタノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、かつハフマン(Huffman)およびDPCM符号化スケールファクタを復号化する。
スケールファクタノイズレス復号化ツールへの入力は以下のとおりである。
・ノイズレスで符号化されたスペクトルのためのスケールファクタ情報
スケールファクタノイズレス復号化ツールの出力は、以下のとおりである。
・スケールファクタの復号化整数表現。
スペクトルノイズレス復号化ツールは、ビットストリームペイロードデマルチプレクサから情報を得て、この情報を構文解析し、算術的に符号化されたデータを復号化し、かつ量子化スペクトルを再構成する。このノイズレス復号化ツールへの入力は、以下のとおりである。
・ノイズレスに復号化されたスペクトル
このノイズレス復号化ツールの出力は、以下のとおりである。
・スペクトルの量子化された値
逆量子化部ツールは、スペクトルのための量子化された値を得、かつ整数値を非スケーリングの再構成スペクトルへ変換する。この量子化部は、コンパンディング量子化部であり、そのコンパンディングファクタは、選択されるコア符号化モードに依存する。
逆量子化部ツールへの入力は、以下のとおりである。
・スペクトルのための量子化された値
逆量子化部ツールの出力は、以下のとおりである。
・非スケーリングの逆量子化されたスペクトル
ノイズフィリングツールを使用して復号化されたスペクトルにおけるスペクトルギャップを充填するが、これは、たとえば、エンコーダ内のビット要求に対する強い制限等により、スペクトル値がゼロに量子化される場合に発生する。
ノイズフィリングツールに対する入力は、以下のとおりである。
・非スケーリング、逆量子化スペクトル
・ノイズフィリングパラメータ
・スケールファクタの復号化された整数表現
ノイズフィリングツールへの出力は以下のとおりである。
・前回ゼロに量子化されたスペクトルラインの非スケーリング、逆量子化スペクトル値
・スケールファクタの修正された整数表現
再スケーリングツールで、スケールファクタの整数表現を実際の値に変換しかつ非スケーリング、逆量子化スペクトルに関連のスケールファクタを乗算する。
スケールファクタツールへの入力は以下のとおりである。
・スケールファクタの復号化された整数表現
・非スケーリングの、逆量子化されたスペクトル
スケールファクタツールからの出力は以下のとおりである。
・スケーリングされ、逆量子化されたスペクトル
M/Sツールに関する概要については、非特許文献1(ISO/IEC14496−3:2009、4.1.1.2)を参照。
時間雑音整形(TNS)ツールに関する概要については、非特許文献1を参照。
フィルタバンク/ブロック切替ツールを、エンコーダで行われた周波数マッピングの逆に適用する。逆修正離散コサイン変換(IMDCT)は、フィルタバンクツールに使用する。IMDCTは、120、128、240、256、480、512、960、または1024スペクトル係数をサポートするよう構成することができる。
フィルタバンクツールに対する入力は以下のとおりである。
・(逆量子化された)スペクトル
・フィルタバンク制御情報
フィルタバンクツールからの出力(単数または複数)は、以下のとおりである。
・時間領域再構成オーディオ信号(単数または複数)
時間ワープしたフィルタバンク/ブロック切替ツールは、時間ワープモードが可能化された際に、通常のフィルタバンク/ブロック切替ツールを置換する。フィルタバンクは、通常のフィルタバンクについては、同じ(IMDCT)であり、付加的には、ウィンドウ化された時間領域サンプルを、時間可変再サンプリングにより、ワープした時間領域から線形時間領域へマッピングする。
時間ワープしたフィルタバンクツールへの入力は、以下のとおりである。
・逆量子化したスペクトル
・フィルタバンク制御情報
・時間ワープ制御情報
フィルタバンクツールからの出力(単数または複数)は以下のとおりである。
・線形時間領域再構成オーディオ信号(単数または複数)
エンハンストSBR(eSBR)ツールは、オーディオ信号の高帯域を再生成する。これは、符号化の際にトランケートされた高調波のシーケンスの複製による。これは、生成された高帯域のスペクトルエンベロープを調節しかつ逆フィルタリングを適用し、雑音および正弦波成分を付加して、元の信号のスペクトル特性を再現するようになっている。
eSBRツールへの入力は、以下のとおりである。
・量子化されたエンベロープデータ
・Misc.制御データ
・周波数領域コアデコーダまたはACELP/TCXコアデコーダからの時間領域信号
eSBRツールの出力は以下のいずれかである。
・時間領域信号、または
・MPEGサラウンドツール等における信号のQMF領域表現が使用される。
MPEGサラウンド(MPEGS)ツールは、適切な空間パラメータにより制御される入力信号(単数または複数)に複雑なアップミックス過程を適用することにより1以上の入力信号から複数の入力信号を生成する。USACコンテクストでは、MPEGSが、送信されたダウンミックスされた信号と並んでパラメータサイド情報を送信することにより多チャネル信号を符号化するために使用される。
MPEGSツールへの入力は以下のとおりである。
・ダウンミックスされた時間領域信号、または
・eSBRツールからのダウンミックスされた信号のQMF領域表現
MPEGSツールの出力は以下のとおりである。
・多チャネル時間領域信号
信号分類部ツールは、元の入力信号を解析しかつそれから異なる符号化モードの選択をトリガする制御情報を生成する。入力信号の解析は、実装に依存しかつ所与の入力信号フレームについて最適なコア符号化モードを選択しようとする。信号分類部の出力は、MPEGサラウンド、エンハンストSBR、時間ワープしたフィルタバンク等の他のツールの挙動に影響を与えるためにも(随意に)使用できる。
信号分類部ツールへの入力は、以下のとおりである。
・元の、修正されていない入力信号
・追加の実装依存パラメータ
信号分類部ツールの出力は、以下のとおりである。
・コアコーディック(非LPフィルタ化周波数領域符号化、LPフィルタ化周波数領域またはLPフィルタ化時間領域符号化)の選択を制御する制御信号
ACELPツールは、長期予測部(適応コードワード)とパルス様シーケンス(イノベーションコードワード)とを組み合わせることにより時間領域励起信号を効率的に表現する方法を提供する。再構成された励起は、LP合成フィルタを介して送られ、時間領域信号を構成する。
ACELPツールへの入力は、以下のとおりである。
・適合およびイノベーションコードブックインデクス
・適合およびイノベーションコード利得値
・他の制御データ
・逆量子化されかつ補間されたLPCフィルタ係数
ACELPツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号
MDCT系TCX復号化ツールは、MDCT領域からの重み付LP残差表現を時間領域信号に戻しかつ重み付LP合成フィルタリングを含む時間領域信号を出力する。IMDCTは、256、512または1024のスペクトル係数をサポートするよう構成することができる。
TCXツールへの入力は、以下のとおりである。
・(逆量子化された)MDCTスペクトル
・逆量子化されかつ補間されたLPCフィルタ係数
TCXツールの出力は以下のとおりである。
・時間領域再構成オーディオ信号
ISO/IEC CD23003−3に開示される技術(ここに引用により援用)により、チャネル要素の定義が可能になる。たとえば、単一のチャネルのためのペイロードを含むのみの単一のチャネル要素、2つのチャネルのためのペイロードを含むチャネル対要素またはLFEチャネルのためのペイロードを含むLFE(低周波数エンハンスメント)チャネル要素である。
5チャネルの多チャネルオーディオ信号は、たとえば、中央チャネルを含む単一チャネル要素、左右チャネルを含む第1のチャネル対要素および左サラウンドチャネル(Ls)および右サラウンドチャネル(Rs)を含む第2のチャネル対要素により表すことができる。これらの異なるチャネル要素が合わさって多チャネルオーディオ信号を表現するが、これらは、デコーダにフィードされて、同じデコーダコンフィギュレーションを使用して処理される。先行技術によれば、USACに特定的なコンフィギュ要素において送られるデコーダコンフィギュレーションが、デコーダによりすべてのチャネル要素に適用されていたので、すべてのチャネル要素に有効なコンフィギュレーションの要素を、個別のチャネル要素について最適な態様で選択することはできず、同時にすべてのチャネル要素について設定を行わなければならないという状況が存在する。しかしながら、他方で、直線的な5チャネルの多チャネル信号を記述するためのチャネル要素は、相互にかなり相違することがわかっている。単一チャネル要素である中央チャネルは、左/右チャネルおよび左サラウンド/右サラウンドチャネルを記述するチャネル対要素とは非常に異なる特徴を有し、さらに2つのチャネル対要素の特徴も、サラウンドチャネルが左右チャネルに含まれる情報とは大きく異なる情報を含むという事実により、かなり相違する。
すべてのチャネル要素についてまとめてコンフィギュレーションデータを選択するには、すべてのチャネル要素について非最適ではあるが、すべてのチャネル要素間の折衷に相当するコンフィギュレーションを選択せざるを得ないという妥協を強いられる。代替的には、1つのチャネル要素について最適にコンフィギュレーションを選択するが、この場合には、他のチャネル要素については、そのコンフィギュレーションは、非最適であるという状況に陥ることは避けられない。しかしながらこの場合、非最適のコンフィギュレーションを有するチャネル要素のためにビットレートが増大するかまたは代替的にもしくは付加的には最適コンフィギュレーション設定でないこれらのチャネル要素についてのオーディオ品質が減じられる結果となる。
ISO/IEC14496−3:2009、4.1.1.2
したがって、本発明の目的は、改良されたオーディオ符号化/復号化概念を提供することである。
この目的は、請求項1に記載のオーディオデコーダ、請求項14に記載のオーディオ復号化方法、請求項15に記載のオーディオエンコーダ、請求項16に記載のオーディオ符号化方法、請求項17に記載のコンピュータプログラムおよび請求項18に記載の符号化されたオーディオ信号により達成される。
本発明は、各個別のチャネル要素のためのデコーダコンフィギュレーションデータを送信する際に、改良されたオーディオ符号化/復号化の概念が得られるという知見に基づく。したがって、本発明によれば、符号化されたオーディオ信号は、データストリームのペイロードセクションにおいて第1および第2のチャネル要素を含み、データストリームのコンフィギュレーションセクションにおいて第1のチャネル要素のための第1デコーダコンフィギュレーションデータおよび第2のチャネル要素のための第2のデコーダコンフィギュレーションデータを含む。このように、チャネル要素のためのペイロードデータが位置するデータストリームのペイロードセクションが、チャネル要素のためのコンフィギュレーションデータが位置するデータストリームのためのコンフィギュレーションデータから分離される。コンフィギュレーションセクションが、シリアルビットストリームの連続する部分であることが好ましく、このペイロードセクションまたはビットストリームの連続する部分に属するすべてのビットがコンフィギュレーションデータである。コンフィギュレーションデータセクションに、チャネル要素のためのペイロードが位置するデータストリームのペイロードセクションが続くことが好ましい。発明のオーディオデコーダは、コンフィギュレーションセクションにおける各チャネル要素のためのコンフィギュレーションデータを読出しかつペイロードセクションにおける各チャネル要素のためのペイロードデータを読み出すためのデータストリームリーダを含む。さらに、オーディオデコーダが、複数のチャネル要素を復号化するための構成可能デコーダと、構成可能デコーダが、第1のチャネル要素を復号化する際には第1のデコーダコンフィギュレーションデータにしたがいかつ第2のチャネル要素を復号化する際には第2のデコーダコンフィギュレーションデータにしたがい構成されるように、構成可能デコーダを構成するためのコンフィギュレーションコントローラとを含む。
このように、各チャネル要素について、最適なコンフィギュレーションを確実に選ぶことができる。これにより、異なるチャネル要素の異なる特徴について最適に対処することが可能となる。
本発明によるオーディオエンコーダは、たとえば少なくとも2つ、3つまたは好ましくは3を超える数のチャネルを有する多チャネルオーディオ信号を符号化するために構成される。オーディオエンコーダは、第1のチャネル要素のための第1のコンフィギュレーションデータおよび第2のチャネル要素のための第2のコンフィギュレーションデータを生成するためのコンフィギュレーションプロセッサと、第1および第2のコンフィギュレーションデータをそれぞれ使用して、多チャネルオーディオ信号を符号化して、第1および第2のチャネル要素を取得するための構成可能エンコーダとを含む。さらに、オーディオエンコーダは、符号化されたオーディオ信号を表すデータストリームを生成するためのデータストリーム生成部を含み、データストリームは第1および第2のコンフィギュレーションデータを有するコンフィギュレーションセクションと、第1および第2のチャネル要素を含むペイロードセクションとを有する。
ここで、エンコーダおよびデコーダは、各チャネル要素について、個別のかつ好ましくは最適なコンフィギュレーションデータを決定する位置にある。
これにより、確実に、チャネル要素ごとにオーディオ品質およびビットレートに関して最適のものが得られかつ妥協することが不要になるように、各チャネル要素のための構成可能デコーダが構成される。
次に、本発明の好ましい実施例について添付の図面を参照して説明する。
デコーダのブロック図である。 エンコーダのブロック図である。 様々なスピーカセットアップのためのチャネルコンフィギュレーションを説明する表である。 様々なスピーカセットアップのためのチャネルコンフィギュレーションを説明する表である。 様々なスピーカセットアップを識別かつ図示する図である。 様々なスピーカセットアップを識別かつ図示する図である。 コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。 コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。 コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。 コンフィギュレーションセクションおよびペイロードセクションを有する符号化されたオーディオ信号の様々な特徴を示す図である。 UsacConfig要素の構文を示す図である。 UsacChannelConfig要素の構文を示す図である。 UsacDecоderConfigの構文を示す図である。 UsacSingleChannelElementConfigの構文を示す図である。 UsacChannelPairElementConfigの構文を示す図である。 UsacLfeElementConfigの構文を示す図である。 UsacCoreConfigの構文を示す図である。 SbrConfigの構文を示す図である。 SbrDfltHeaderの構文を示す図である。 Mps212Configの構文を示す図である。 UsacExtElementConfigの構文を示す図である。 UsacConfigExtensionの構文を示す図である。 escapedValueの構文を示す図である。 チャネル要素について個別に様々なエンコーダ/デコーダツールを識別かつ構成するための様々な代替例を示す図である。 5.1多チャネルオーディオ信号を生成するための並列に動作するデコーダインスタンスを有するデコーダ実現の好ましい実施例を示す図である。 図1のデコーダの好ましい実現例をフローチャートの形で示す図である。 USACエンコーダのブロック図である。 USACデコーダのブロック図である。
含まれるオーディオコンテントについてのサンプリングレート、正確なチャネルコンフィギュレーションのような高レベルの情報が、オーディオビットストリーム内に存在する。このためビットストリームはより自立的になり、この情報を明示的に伝送する手段を有し得ない伝達スキームに埋め込まれる場合、コンフィギュレーションおよびペイロードの伝達は確実により容易になる。
このコンフィギュレーション構造は、組合せフレーム長およびSBRサンプリングレートレート比インデクス(coreSbrFrameLengthIndex)を含む。これにより、両方の値の効率的伝送が保証され、かつフレーム長およびSBR比の無意味な組み合わせの信号伝達が確実にできないようになる。後者は、デコーダの実装をより簡素化する。
コンフィギュレーションを、専用のコンフィギュレーション拡張機構により拡張することができる。これにより、MPEG−4 AudioSpecificConfi()から既知のコンフィギュレーション拡張の嵩高く非効率的な伝送が防止される。
コンフィギュレーションは、伝送されるオーディオチャネル各々と関連するラウドスピーカ位置の自由な信号伝達を可能にする。一般に使用されるチャネルからラウドスピーカへのマッピングを信号伝達することは、channelConfigurationIndexにより効率的に行うことができる。
各チャネル要素のコンフィギュレーションは、各チャネル要素が独立して構成できるように、別の構造に含まれる。
SBRコンフィギュレーションデータ(「SBRヘッダ」)は、SbrInfo()とSbrHeader()とに分けられる。SbrHeader()については、デフォルトのバ−ジョンが定義され(SbrDfltHeader())、これをビットストリームにおいて効率的に参照することができる。これにより、SBRコンフィギュレーションデータの再送信が必要とされる場所におけるビット要求を減じられる。
より一般的にSBRに適用されるコンフィギュレーションの変更は、SbrInfo()構文要素の補助により効率的に信号伝達することができる。
パラメータ帯域幅拡張(SBR)およびパラメータステレオ符号化ツール(MPS212、別名MPEGサラウンド2−1−2)のためのコンフィギュレーションは、USACコンフィギュレーション構造にしっかり統合される。これは、両方の技術が実際に標準において採用されるより良い態様を表す。
この構文は、コーデックに対する既存および将来の拡張の伝送を可能にする拡張機構を特徴とする。
これらの拡張は、いずれかの順序でチャネル要素と共に配置(すなわちインターリーブ)され得る。これは、拡張の適用対象である特定のチャネル要素の前または後で読み出すことが必要な拡張を可能にする。
デフォルトの長さを、構文拡張について規定でき、これにより一定長さの拡張の伝送が非常に効率的になる。この場合、拡張ペイロードの長さを毎回伝送する必要がないからである。
必要に応じ値の範囲を拡大するためエスケープ機構の補助により値を信号伝達する一般的な場合は、希望するエスケープ値のコンステレーションおよびビットフィールド拡張すべてをカバーするのに十分な柔軟性を有する専用の純粋な構文要素(escapedValue())にモジュール化されていた。
ビットストリームコンフィギュレーション
UsacConfig()(図6a)
UsacConfig()は、含まれるオーディオコンテントおよび完全なデコーダセットアップのために必要なものすべてについての情報を含むよう拡張されていた。オーディオについてのトップレベルの情報(サンプリングレート、チャネルコンフィギュレーション、出力フレーム長)は、より高い(アプリケーション)レイヤからのアクセスを容易にするために始まりに集められる。
channelConfigurationIndex、UsacChannelConfig()(図6b)
これらの要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。channelConfigurationIndexにより、実際に関連あると考えられた予め定義されるモノ、ステレオまたは多チャネルコンフィギュレーションの範囲から1つを信号伝達する容易で便利な方法が可能になる。
channelConfigurationIndexによりカバーされないより複雑なコンフィギュレーションについては、UsacChannelConfig()により、家庭やシネマサウンド再生用の既知のスピーカセットアップのすべてにおける現在知られている全スピーカ位置をカバーする32のスピーカ位置のリストからラウドスピーカ位置への要素の自由な割り当てが図られる。
スピーカ位置のこのリストは、MPEGサラウンド標準(ISO/IEC23003−1における表1および図1を参照)における特徴であるリストのスーパーセットである。最近導入された22.2スピーカセットアップをカバーすることができるように4つの追加のスピーカ位置が追加されている(図3a、図3b、図4aおよび図4bを参照)。
UsacDecoderConfig()(図6c)
この要素は、デコーダコンフィギュレーションの中心にあり、したがって、デコーダがビットストリームを解釈するために必要なすべての追加情報を含む。
特に、ビットストリームの構造はここでは、要素の数およびビットストリームにおけるそれらの順序を明示的に述べることにより規定される。
全要素にわたるループにより、全タイプ(単一、対、lfe、拡張)の全要素のコンフィギュレーションを可能にする。
UsacConfigExtension()(図6l)
将来の拡張について対処するため、コンフィギュレーションは、USACのいまだ存在しないコンフィギュレーション拡張のために、コンフィギュレーションを拡張する強力な機構を特徴とする。
UsacSingleChannelElementConfig()(図6d)
この要素コンフィギュレーションは、1つの単一チャネルを復号化するデコーダを構成するために必要な情報すべてを含む。これは、本質的にはコアコーダ関連情報であり、SBRが使用される場合には、SBR関連情報である。
UsacChannelPairElementConfig()(図6e)
上記と同様、この要素コンフィギュレーションは、1つのチャネル対を復号化するデコーダを構成するために必要な情報すべてを含む。上記のコアconfigおよびSBRコンフィギュレーションに加えて、これは適用されるステレオ符号化の正確な種類(MPS212、残差の有無等)のようなステレオ専用のコンフィギュレーションを含む。なお、この要素は、USACにおいて入手可能な全種類のステレオ符号化オプションをカバーする。
UsacLfeElementConfig()(図6f)
LFE要素コンフィギュレーションは、LFE要素が静的コンフィギュレーションを有するのでコンフィギュレーションデータを含まない。
UsacExtElementConfig()(図6k)
この要素コンフィギュレーションは、コーデックに対するいずれかの種類の既存のまたは将来の拡張を構成するために使用され得る。各拡張要素のタイプは、それ自体の専用ID値を有する。デコーダには未知のコンフィギュレーション拡張を都合よくスキップすることができるように、長さフィールドが含まれる。デフォルトペイロード長さの随意の規定により、実際のビットストリームに存在する拡張ペイロードの符号化効率をさらに向上する。
USACと組み合わされることがすでに予見される拡張には、MPEG−4AACから知られるようなMPEGサラウンド、SAOCおよびなんらかのFIL要素を含む。
UsacCoreConfig()(図6g)
この要素は、コアコーダセットアップにインパクトを有するコンフィギュレーションデータを含む。現在、これらは、時間ワープツールおよびノイズフィリングツールのためのスィッチである。
SbrConfig()(図6h)
sbr_header()を頻繁に再送信することにより生成されるビットオーバヘッドを減らすため、典型的には一定に維持されるsbr_header()の要素のためのデフォルト値を、コンフィギュレーション要素SbrDfltHeader()において保持する。さらに、静的SBRコンフィギュレーション要素もSbrConfig()において保持する。これらの静的ビットには、高調波トランスポジションまたはインタTES等のエンハンストSBRの特定の特徴を可能かまたは不能化するフラグを含む。
SbrDfltHeader()(図6i)
これは、典型的には一定に維持されるsbr_header()の要素を保持する。振幅分解能、クロスオーババンド、スペクトル予備平坦化等に影響を及ぼす要素は、ここで、実行中にこれらを効率的に変更し得るSbrInfo()において保持される。
Mps212Config()(図6j)
上記SBRコンフィギュレーションと同様に、MPEGサラウンド2−1−2ツールのための全セットアップパラメータが、このコンフィギュレーションにおいてアセンブルされる。このコンテクストにおいて関連がないかまたは冗長なSpatialSpecificConfig()からの要素はすべて除去される。
ビットストリームペイロード
UsacFrame()
これは、USACビットストリームペイロードの最も外側のラッパでかつUSACアクセス単位を表す。それは、config部で信号伝達される、含まれるチャネル要素および拡張要素すべてにわたるループを含む。これは、含み得るものという意味でビットストリームフォーマットをより柔軟にし、かつ、何らかの将来の拡張に対しても将来的に使用可能である。
UsacSingleChannelElement()
この要素は、モノストリームを復号化するための全データを含む。コンテントは、コアコーダに関連する部分とeSBRに関連する部分に分かれる。後者は、より密接にコアに接続され、デコーダが必要とするデータの順序をよりよく反映する。
UsacChannelPairElement()
この要素は、ステレオ対を符号化するためのすべての可能な方法についてのデータをカバーする。特に、旧式のM/S系符号化からMPEGサラウンド2−1−2の補助による完全なパラメータステレオ符号化まで、統合されたステレオ符号化のフレーバのすべてをカバーする。stereoConfigIndexは、どのフレーバが実際に使用されるかを示す。適切なeSBRデータおよびMPEGサラウンド2−1−2データをこの要素において送る。
UsacLfeElement
以前のlfe_channel_element()は、一貫したネーミングスキームに従うためにのみ再ネーミングされる。
UsacExtElement()
この拡張要素は、小さいペイロードを有する(またはしばしば全くペイロードがない場合も)拡張についてさえ、最大限の柔軟性が得られしかも同時に最大限効率的になり得るよう慎重に設計された。不可知のデコーダがスキップするよう拡張のペイロード長が信号伝達される。ユーザが定義する拡張については、拡張のタイプの予備範囲により信号伝達することができる。拡張は要素の順序で自由に配置することができる。拡張要素の範囲は、フィルバイトを書き込むための機構を含めてすでに考慮されている。
UsacCoreCoderData()
この新しい要素は、コアコーダに影響を与える情報のすべてを要約し、かつまたそれによりfd_channel_stream()’sおよびlpd_channel_stream()’sも含む。
StereoCoreToolInfo()
構文の読出し性を緩和するために、ステレオ関連情報のすべてがこの要素に捕捉された。これは、ステレオ符号化モードにおける多数のビットの依存性を扱うものである。
UsacSbrData()
CRC機能性およびスケーリング可能なオーディオ符号化の古い記述要素は、かつてsbr_extension_data()要素だったものから除去された。SBRinfoおよびヘッダデータの頻繁な再送信が原因で生じるオーバヘッドを減らすために、これらの存在は、明示的に信号伝達され得る。
SbrInfo()
実行中に頻繁に修正されるSBRコンフィギュレーションデータ。これは、振幅分解能、クロスオーババンド、スペクトルの予備平坦化等の以前は完全なsbr_header()の送信を必要とした事項を制御する要素を含む([N11660]の6.3「効率」を参照)。
SbrHeader()
実行中にsbr_header()の値を変更するSBRの能力を維持するために、ここでは、SbrDfltHeader()において送られるもの以外の値を使用する必要がある場合には、UsacSbrData()内部にSbrHeaderを保持することができる。最も一般的な場合のために、オーバヘッドをできるだけ低く保つため、bs_header_extra機構は維持された。
sbr_data()
ここでも、USACコンテクストでは適用不可能なため、SBRスケーリング可能符号化の残余が取り除かれている。チャネルの数によって、sbr_data()は、1つのsbr_single_channel_element()または1つのsbr_channel_pair_element()を含む。
usacSamplingFrequencyIndex
この表は、オーディオコーディックのサンプリング周波数を信号伝達するためにMPEG−4において使用される表のスーパーセットである。この表は、現在USAC動作モードにおいて使用されるサンプリングレートをカバーするためにもさらに拡張されている。いくつかのサンプリング周波数の倍数も加えられている。
channelConfigurationIndex
この表は、channelConfigurationを信号伝達するためにMPEG−4において使用される表のスーパーセットである。これをさらに拡張して、一般的に使用されかつ将来に見込まれるラウドスピーカのセットアップの信号伝達が可能にされている。この表内へのインデクスを5ビットで信号伝達して、将来の拡張を図る。
usacElementType
4つ要素タイプのみが存在する。4つの基本的ビットストリーム要素:UsacSingleChannelElement()、UsacChannelPairElement()、UsacLfeElement()およびUsacExtElement()の各々について1つである。これらの要素は、必要とされる柔軟性をすべて維持しながら、必要なトップレベルの構造を提供する。
usacExtElementType
UsacExtElement()の内部で、この要素は、過剰な拡張の信号伝達を可能にする。将来も使い続けられるよう、考えられるすべての拡張を可能にするのに十分な広さのビットフィールドが選択されている。現在既知の拡張のうち、いくつかが考慮の対象として提案されている。フィル要素、MPEGサラウンドおよびSAOCである。
usacConfigExtType
ある時点で、コンフィギュレーションを拡張することが必要であれば、新しいコンフィギュレーションごとにタイプを割り当てることが可能なUsacConfigExtension()により対処することができる。現在、信号伝達可能な唯一のタイプは、コンフィギュレーションのためのフィル機構である。
coreSbrFrameLengthIndex
この表は、デコーダの複数のコンフィギュレーション特性を信号伝達する。特に、これらは、出力フレーム長、SBR比および結果として得られるコアコーダフレーム長(ccfl)である。同時に、SBRにおいて使用されるQMF解析および合成帯域数も示す。
stereoConfigIndex
この表は、UsacChannelPairElement()の内部構造を決定する。モノまたはステレオコアの使用、MPS212の使用、ステレオSBRが適用されるかどうかおよび残差符号化がMPS212において適用されるかどうかを示す。
eSBRヘッダフィールドの大部分をデフォルトヘッダフラグで参照することができるデフォルトヘッダへ移動させることにより、eSBR制御データ送信のビット要求は、かなり減じられる。実世界のシステムで変化すると考えられていた以前のsbr_header()ビットフィールドは、現在最大8ビットをカバーする4要素のみから構成されるsbrInfo()要素へアウトソースされている。18ビット以上から構成されるsbr_header()と比較すると、10ビットの節約になる。
ビットレート全体に対するこの変化のインパクトを評価することはより困難である。これは、sbrInfo()におけるeSBR制御データの伝送レートに大きく依存するためである。しかしながら、ビットストリームにおいてsbrクロスオーバが変更される一般的使用の場合についてはすでに、このビットの節約は、完全に伝送されるsbr_header()の代わりにsbrInfo()を送る場合、一回ごとに22ビットにもなり得る。
USACデコーダの出力をMPEGサラウンド(MPS)(ISO/IEC23003−1)またはSAOC(ISO/IEC23003−2)によりさらに処理できる。USACにおけるSBRツールが活性の場合、USACデコーダは典型的には、ISO/IEC23003−14.4におけるHE−AACについて記述されるのと同じやりかたで、QMF領域においてそれらを接続することにより、後続のMPS/SAOCデコーダと効率的に組み合わせることができる。QMF領域における接続が不可能な場合は、時間領域において接続する必要がある。
MPS/SAOCサイド情報がusacExtElement機構(usacExtElementTypeがID_EXT_ELE_MPEGSまたはID_EXT_ELE_SAOCである)によりUSACビットストリームに埋め込まれる場合、USACデータとMPS/SAOCデータ間のタイムアラインメントは、USACデコーダとMPS/SAOCデコーダ間の最も効率的接続を想定する。USACにおけるSBRツールが活性でかつMPS/SAOCが64帯域QMF領域表現(ISO/IEC23003−1 6.6.3)を採用する場合には、最も効率的接続はQMF領域におけるものである。それ以外では、最も効率的接続は時間領域におけるものである。これは、ISO/IEC23003−1 4.4、4.5および7.2.1において規定されるHE−AACおよびMPSの組み合わせについてのタイムアラインメントに対応する。
USAC復号化の後にMPS復号化を追加することにより導入される追加の遅延は、ISO/IEC23003−1 4.5により得られ、かつ、HQ MPSまたはLP MPSが使用されるかどうか、およびQMF領域かまたは時間領域においてMPSがUSACに接続されるかに依存する。
ISO/IEC23003−1 4.4は、USACとMPEGシステムとの間のインタフェースを明確にする。システムインターフェースからオーディオデコーダに伝達される各アクセス単位は、システムインターフェースすなわちコンポジタにオーディオデコーダから送られる対応の成分の単位となる。これは、スタートアップおよびシャットダウン条件、すなわちアクセス単位がアクセス単位の有限のシーケンスにおける最初または最後のものである場合を含む。
オーディオ構成単位については、ISO/IEC14496−1 7.1.3.5コンポジションタイムスタンプ(CTS)が、構成時間が構成単位内のn番目のオーディオサンプルに当てはまることを特定する。USACでは、nの値は常に1である。なお、これは、USACデコーダ自体の出力にも適用される。USACデコーダがたとえば、MPSデコーダと組み合わされている場合を、MPSデコーダの出力で伝達される構成単位について配慮する必要がある。
USACビットストリームペイロード構文の特徴
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
補足的ペイロード要素の構文の特徴
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
エンハンストSBRペイロード構文の特徴
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
Figure 0005805796
データ要素の簡単な説明
UsacConfig()
この要素は、含まれるオーディオコンテントおよび完全なデコーダセットアップに必要なすべてについての情報を含む。
UsacChannelConfig()
この要素は、含まれるビットストリーム要素およびそれらのラウドスピーカへのマッピングについての情報を付与する。
UsacDecoderConfig()
この要素は、デコーダがビットストリームを解釈するために必要な他のすべての情報を含む。特に、SBR再サンプリング比がここで信号伝達され、かつビットストリームの構造が、ここでは、ビットストリームにおける要素の数およびそれらの順序を明示的に述べることにより規定される。
UsacConfigExtension()
USACの将来のコンフィギュレーション拡張のためコンフィギュレーションを拡張するコンフィギュレーション拡張機構。
UsacSingleChannelElementConfig()
1つの単一チャネルを復号化するようデコーダを構成するために必要なすべての情報を含む。これは、本質的にコアコーダに関連する情報であり、かつ、SBRが使用される場合には、SBR関連情報である。
UsacChannelPairElementConfig()
上記と同様、この要素コンフィギュレーションは、1つのチャネル対を復号化するようデコーダを構成するために必要なすべての情報を含む。上記のコアconfigおよびsbrコンフィギュレーションに加えて、これは、適用されるステレオ符号化の正確な種類(MPS212、残差等の有無)等のステレオに特定的なコンフィギュレーションを含む。この要素は、USACにおいて現在使用可能なステレオ符号化オプションのすべての種類をカバーする。
UsacLfeElementConfig()
LFE要素コンフィギュレーションは、LFE要素が静的コンフィギュレーションを有するので、コンフィギュレーションデータを含まない。
UsacExtElementConfig()
この要素コンフィギュレーションは、いずれかの種類の既存または将来の拡張をコーデックに対して構成するために使用することができる。各拡張要素タイプは、その独自の専用タイプ値を有する。デコーダに未知のコンフィギュレーション拡張をスキップできるように、長さフィールドが含まれる。
UsacCoreConfig()
コアコーダセットアップに対してインパクトのあるコンフィギュレーションデータを含む。
SbrConfig()
典型的には一定に維持されるeSBRのコンフィギュレーション要素のためのデフォルト値を含む。さらに、静的SBRコンフィギュレーション要素をSbrConfig()内に保持する。これらの静的ビットは、高調波トランスポジションまたはインタTES等のエンハンストSBRの特定の特徴を可能化または不能化するためのフラグを含む。
SbrDfltHeader()
この要素は、SbrHeader()の要素について異なる値を希望しない場合に参照することができるこられの要素のデフォルトバージョンを保持する。
Mps212Config()
MPEGサラウンド2−1−2ツールのためのすべてのセットアップパラメータは、このコンフィギュレーションにおいてアセンブルされる。
escapedValue()
この要素は、可変数のビットを使用して整数値を送信する一般的な方法を実現する。追加ビットの連続送信により表現可能な値の範囲を拡大することができる2レベルエスケープ機構を特徴とする。
usacSamplingFrequencyIndex
このインデクスは、復号化後のオーディオ信号のサンプリング周波数を決定する。usacSamplingFrequencyIndexの値および関連のサンプリング周波数を表Cに示す。
Figure 0005805796
usacSamplingFrequency
usacSamplingFrequencyIndex=0である場合、符号のついていない整数値として符号化されるデコーダの出力サンプリング周波数。
channelConfigurationIndex
このインデクスは、チャネルコンフィギュレーションを決定する。channelConfigurationIndex>0の場合、インデクスは、表Yに従って、チャネルの数、チャネル要素および関連のラウドスピーカマッピングを明白に規定する。ラウドスピーカの位置の名称、使用される略称および利用可能なラウドスピーカの一般的な位置を図3a、図3b、図4aおよび図4bから推定することができる。
bsOutputChannelPos
このインデクスは、図4aに従う所与のチャネルに関連するラウドスピーカの位置を記述する。図4bは、リスナの3D環境におけるラウドスピーカの位置を示す。ラウドスピーカの位置をより容易に理解するため、図4aは、関心のある読者への情報としてここに挙げるIEC100/1706/CDVによるラウドスピーカ位置も含む。
Figure 0005805796
usacConfigExtensionPresent
コンフィギュレーションに対する拡張の存在を示す。
numOutChannels
channelConfigrationIndexの値が、予め規定されたチャネルコンフィギュレーションのどれも使用されないことを示す場合には、この要素が、特定のラウドスピーカ位置が関連付けられるオーディオチャネルの数を決定する。
numElements
このフィールドは、UsacDecoderConfig()におけるループオーバ要素のタイプにおいてフォローする要素の数を含む。
usacElementType[elemIdx]
ビットストリームにおける位置elemIdxの要素のUSACチャネル要素タイプを規定する。4つの要素タイプが存在し、この4つの基本ビットストリーム要素、UsacSingleChannelElement()、UsacChannelPairElement(), UsacLfeElement()、およびUsacExtElement()の各々について1つ存在する。これらの要素は、必要なトップレベルの構造を付与する一方で、必要とされる柔軟性のすべてを維持する。usacElementTypeの意味を表Aに定義する。
Figure 0005805796
stereoConfigIndex
この要素は、UsacChannelPairElement()の内部構造を決定する。表ZZによれば、これは、モノまたはステレオコアの使用、MPS212の使用、ステレオSBR適用の有無およびMPS212における残差符号化適用の有無を示す。この要素はまたヘルパー要素であるbsStereoSBRおよびbsResidualCodingの値も規定する。
Figure 0005805796
tw_mdct
このフラグは、このストリーム内で時間ワープしたMDCTの使用を信号伝達する。
noiseFilling
このフラグは、FDコアデコーダにおけるスペクトルホールのノイズフィリングの使用を信号伝達する。
harmonicSBR
このフラグは、SBRのための高調波パッチングの使用を信号伝達する。
bs_interTes
このフラグは、SBRにおけるインタTESツールの使用を信号伝達する。
dflt_start_freq
これは、フラグsbrUseDfltHeaderが、SbrHeader()要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素bs_stat_freqのデフォルト値である。
dflt_stop_freq
これは、フラグsbrUseDfltHeaderが、SbrHeader()要素のデフォルト値が想定されることを示す場合に付与されるビットストリーム要素bs_stоp_freqのデフォルト値である。
dflt_header_extra1
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_header_extra1のデフォルト値である。
dflt_header_extra2
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_header_extra2のデフォルト値である。
dflt_freq_scale
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_freq_scaleのデフォルト値である。
dflt_alter_scale
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_alter_scaleのデフォルト値である。
dflt_noise_bands
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_noise_bandsのデフォルト値である。
dflt_limiter_bands
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_limiter_bandsのデフォルト値である。
dflt_limiter_gains
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_limiter_gainsのデフォルト値である。
dflt_interpol_freq
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_interpol_freqのデフォルト値である。
dflt_smoothing_mode
これは、SbrHeader()要素のデフォルト値が想定されることをフラグsbrUseDfltHeaderが示す場合に付与されるビットストリーム要素bs_smoothing_modeのデフォルト値である。
usacExtElementType
この要素は、ビットストリーム拡張タイプの信号伝達を可能にする。usacExtElementTypeの意味を、表Bにおいて定義する。
Figure 0005805796
usacExtElementConfigLength
バイト(オクテット)で拡張コンフィギュレーションの長さを信号伝達する。
usacExtElementDefaultLengthPresent
このフラグはusacExtElementDefaultLengthがUsacExtElementConfig()で運ばれるかどうかを信号伝達する。
usacExtElementDefaultLength
拡張要素のデフォルト長をバイトで信号伝達する。所与のアクセス単位における拡張要素がこの値からそれている場合にのみ、ビットストリームにおいて追加の長さを伝送する必要がある。この要素が明示的に伝送されない場合(usacExtElementDefaultLengthPresent==0)、usacExtElementDefaultLengthの値がゼロに設定される。
usacExtElementPayloadFrag
このフラグは、この拡張要素のペイロードが分割されて連続するUSACフレームにおいていくつかのセグメントとして送られ得るかどうかを示す。
numConfigExtensions
コンフィギュレーションへの拡張が、UsacConfig()に存在する場合には、この値は、信号伝達されるコンフィギュレーション拡張の数を示す。
confExtIdx
コンフィギュレーション拡張へのインデクス。
usacConfigExtType
この要素は、コンフィギュレーション拡張タイプを信号伝達することを可能にする。usacExtElementTypeの意味は、表Dにおいて定義される。
Figure 0005805796
usacConfigExtLength
バイト(オクテット)でコンフィギュレーション拡張の長さを信号伝達する。
bsPseudoLr
このフラグは、逆mid/side回転をMps212処理の前にコア信号に適用すべきであることを信号伝達する。
Figure 0005805796
bsStereoSbr
このフラグは、MPEGサラウンド復号化と組み合わせたステレオSBRの使用を信号伝達する。
Figure 0005805796
bsResidualCoding
残差符号化を下の表に従って適用するかどうかを示す。bsResidualCodingの値は、stereoConfigIndex(Xを参照)により定義される。
Figure 0005805796
sbrRatioIndex
コアサンプリングレートとeSBR処理後のサンプリングレートとの比率を示す。同時に、下の表によるSBRにおいて使用されるQMF解析および合成帯域の数を示す。
Figure 0005805796
elemIdx
UsacDecoderConfig()およびUsacFrame()に存在する要素へのインデクス。
UsacConfig()
UsacConfig()は、出力サンプリング周波数およびチャネルコンフィギュレーションについての情報を含む。この情報は、MPEG-4AudioSpecificConfig()等におけるこの要素の外部に信号伝達される情報と同じになる。
Usac出力サンプリング周波数
サンプリングレートが表1の右欄に列挙するレートの1つではない場合、サンプリング周波数に依拠する表(コード表、スケールファクタ帯域表等)を推定して、ビットストリームペイロードを構文解析する必要がある。所与のサンプリング周波数は1つのサンプリング周波数表とだけ関連付けられており、かつ、可能なサンプリング周波数の範囲においては最大の柔軟性が望まれるので、以下の表を使用して、暗示されるサンプリング周波数を希望のサンプリング周波数に依拠する表と関連付ける。
Figure 0005805796
UsacChannelConfig()
チャネルコンフィギュレーション表は、最も一般的なラウドスピーカ位置をカバーする。他のフレキシビリティチャネルについては、様々なアプリケーションにおける現代のラウドスピーカセットアップに見られる全部で32のラウドスピーカ一位置の選択肢へマッピングすることができる(図3a、図3bを参照)。
ビットストリームに含まれる各チャネルについては、UsacChannelConfig()が、この特定のチャネルをマッピングする関連のラウドスピーカ位置を特定する。bsOutputChannelPosが指し示すラウドスピーカ位置について、図4aに列挙する。複数のチャネル要素の場合には、bsOutputChannelPos[i]のインデクスiが、ビットストリームにおいてチャネルが現れる位置を示す。図Yは、リスナに関係するラウドスピーカの位置に関する概略を示す。
より正確には、チャネルはそれらがビットストリームに現れる順に0(ゼロ)からナンバリングされる。UsacSingleChannelElement()またはUsacLfeElement()の平凡な例では、チャネル番号がそのチャネルに割り当てられ、かつ、チャネルカウントは1つ増加する。UsacChannelPairElement()の場合には、その要素における最初のチャネルが第1にナンバリングされ(インデクスch==0)、同じ要素における第2のチャネル(インデクスch==1)は、次のより高い番号を受け、かつ、チャネルカウントが2つ増加する。
次に、numOutChannelsが、ビットストリームに含まれる全チャネルの累積合計以下になる。全チャネルの累積合計が、全UsacSingleChannelElement()sの数+全UsacLfeElement()sの数+2×全UsacChannelPairElement()sの数に等しい。
ビットストリームにおけるラウドスピーカの位置を二重に割り当てないように、アレイbsOutputChannelPosにおける全エントリを相互に異ならせる。
channelConfigurationIndexが0であり、かつ、numOutChannelsがビットストリームに含まれる全チャネルの累積合計より小さいという特別な場合には、割り当てられていないチャネルの扱いは、本件明細書の範囲外のものとなる。これに関する情報については、たとえば、より高いアプリケーションレイヤにおける適切な手段により、または詳細に設計された(プライベートな)拡張ペイロードにより伝達できる。
UsacDecoderConfig()
UsacDecoderConfig()は、ビットストリームを解釈するのにデコーダが必要とする他の情報のすべてを含む。まず、sbrRatioIndexの値がコアコーダフレーム長(ccfl)と出力フレーム長との比を決定する。sbrRatioIndexの後は、現在のビットストリームにおいて全チャネル要素にわたるループが続く。各繰り返しについて、要素のタイプがusacElementType[]において信号伝達され、直後に対応のコンフィギュレーション構造が続く。UsacDecoderConfig()において様々な要素が存在する順序は、UsacFrame()における対応のペイロードの順序と同じになる。
要素の各インスタンスを独立して構成することができる。UsacFrame()における各チャネル要素を読み出す際に、要素ごとに、そのインスタンスすなわち同じelemIdxの対応のコンフィギュレーションを使用する。
UsacSingleChannelElementConfig()
UsacSingleChannelElementConfig()は、1つの単一チャネルを復号化するためのデコーダを構成するために必要な全情報を含む。SBRコンフィギュレーションデータは、SBRが実際に採用された場合にのみ送信される。
UsacChannelPairElementConfig()
UsacChannelPairElementConfig()は、コアコーダ関連のコンフィギュレーションデータおよびSBRの使用に依拠するSBRコンフィギュレーションデータを含む。ステレオ符号化アルゴリズムの正確なタイプについては、stereoConfigIndexにより示される。USACにおいては、チャネル対が様々な態様で符号化できる。それらは、
1. MDCT領域において複雑予測の可能性により拡張される伝統的ジョイントステレオ符号化技術を使用するステレオコアコーダ対
2. 完全なパラメータステレオ符号化のためのMPEGサラウンドベースのMPS212と組み合わせたモノコアコーダチャネル。モノSBR処理をコア信号に適用する。
3. 第1のコアコーダチャネルがダウンミックス信号を保持し、かつ、第2のチャネルが残差信号を保持するMPEGサラウンドベースのMPS212と組み合わせたステレオコアコーダ対。残差部を帯域制限して部分残差符号化を実現してもよい。モノSBR処理は、MPS212処理の前のダウンミックス信号にのみ適用される。
4. 第1のコアコーダチャネルがダウンミックス信号を保持し、かつ、第2のチャネルが残差信号を保持するMPEGサラウンドベースのMPS212と組み合わせるステレオコアコーダ対。残差部は、帯域を制限して部分残差符号化を実現してもよい。ステレオSBRをMPS212処理後の再構成されたステレオ信号に適用する。
選択肢の3と4とをコアデコーダ後の疑似LRチャネル回転とさらに組み合わせてもよい。
UsacLfeElementConfig()
時間ワープしたMDCTおよびノイズフィリングの使用はLFEチャネルについては許容されていないので、これらのツールについて通常のコアコーダフラグを送信する必要はない。その代り、これらはゼロに設定される。
また、LFEコンテクストにおけるSBRの使用は、許容されておらず、意味もない。そのため、SBRコンフィギュレーションデータは送信されない。
UsacCoreConfig()
UsacCoreConfig()は、グローバルビットストリームレベルでの時間ワープしたMDCTおよびスペクトルノイズフィリングの使用を可能化または不能化するフラグのみを含む。tw_mdctがゼロに設定されると、時間ワープは適用されない。nоiseFillingがゼロに設定されると、スペクトルノイズフィリングは適用されない。
SbrConfig()
SbrConfig()ビットストリーム要素は、正確なeSBRセットアップパラメータを信号伝達する目的を果たす。一方、SbrConfig()は、eSBRツールの一般的な採用を信号伝達する。他方、SbrConfig()は、SbrHeader()のデフォルトバージョンであるSbrDfltHeader()を含む。異なるSbrHeader()がビットストリームにおいて送信されなければ、このデフォルトヘッダの値が想定されることになる。このメカニズムの背景には、1つのビットストリームにおいては、典型的には1セットのSbrHeader()値しか付与されないことがある。SbrDfltHeader()の送信で、ビットストリームにおける1つのビットのみを使用することにより非常に効率的にこのデフォルト値のセットを参照することが可能になる。ビットストリーム自体における新たなSbrHeaderをインバンドで送信できるようにすることで、依然として、実行中にSbrHeaderの値を変更する可能性は保持される。
SbrDfltHeader()
SbrDfltHeader()は、基本SbrHeader()テンプレートと呼んでもよいもので、主に使用されるeSBRコンフィギュレーションのための値を含む必要がある。ビットストリームにおいて、このコンフィギュレーションは、sbrUseDfltHeaderフラグを設定することにより参照することができる。SbrDfltHeader()の構造は、SbrHeader()のものと同様である。SbrDfltHeader()およびSbrHeader()の値を区別できるように、SbrDfltHeader()におけるビットフィールドは、「bs_」の代わりに「dflt」を接頭辞にする。SbrDfltHeader()の使用が表示されると、SbrHeader()ビットフィールドは、対応のSbrDfltHeader()の値を想定する。すなわち、以下のとおりである。
bs_start_freq=dflt_start_freq;
bs_stop_freq=dflt_stop_freq;etc.
(bs_xxx_yyy=dflt_xxx_yyyのように、SbrHeader()におけるすべての要素について続く)。
Mps212Config()
Mps212Config()は、MPEGサラウンドのSpatialSpecificConfig()に類似し、かつ、多くの部分において、それから推定されていた。しかしながら、USACコンテクストにおけるモノからステレオへのアップミキシングについて関連のある情報のみを含むと言う範囲まで狭められる。結果として、MPS212は、1つのOTTボックスのみを構成する。
UsacExtElementConfig()
UsacExtElementConfig()は、USACのための拡張要素のコンフィギュレーションデータ用の一般的なコンテナである。各USAC拡張は、独自のタイプ識別子であるusacExtElementTypeを有し、これは図6kにおいて定義される。各UsacExtElementConfig()ごとに、含まれる拡張コンフィギュレーションの長さを可変usacExtElementConfigLengthにおいて送信し、含まれる拡張コンフィギュレーションの長さによって、デコーダが、そのusacExtElementTypeが未知である拡張要素を安全にスキップできる。
典型的に一定のペイロード長を有するUSAC拡張については、UsacExtElementConfig()が、usacExtElementDefaultLengthの送信を可能にする。コンフィギュレーションにおいてデフォルトのペイロード長さを規定することで、ビット消費を低く抑える必要があるUsacExtElement()内でusacExtElementPayloadLengthの高度に効率的な信号伝達が可能になる。
多量のデータを蓄積し、フレームごとではなくフレーム2つごとのみにまたはもっと頻度を低くして送信するUSAC拡張の場合、このデータはいくつかのUSACフレームにわたって広がるフラグメントまたはセグメントで送信されてもよい。これは、ビットレザバをより均一に保つために有用である。このメカニズムの使用は、usacExtElementPayloadFragフラグにより信号伝達される。フラグメンテーションのメカニズムについては、6.2.XのusacExtElementの記述においてさらに説明する。
UsacConfigExtension()
UsacConfigExtension()は、UsacConfig()の拡張のための一般的なコンテナである。デコーダ初期化またはセットアップ時に交換される情報を補正または拡張する便利な方法を提供する。config拡張の存在はusacConfigExtensionPresentにより示される。config拡張が存在する場合(usacConfigExtensionPresent==1)、ビットフィールドnumConfigExtensionsにおいて、これらの拡張の正確な数が続く。各コンフィギュレーション拡張は独自のタイプ識別子usacConfigExtTypeを有する。各UsacConfigExtensionについて、含まれるコンフィギュレーション拡張の長さは、可変のusacConfigExtLengthにおいて送信され、かつ、コンフィギュレーションビットストリーム構文解析部が、そのusacConfigExtTypeが不明であるコンフィギュレーション拡張を安全にスキップできるようにする。
オーディオオブジェクトタイプUSACのトップレベルペイロード
用語および定義
UsacFrame()
このデータのブロックは、1つのUSACフレームの期間についてのオーディオデータ、関連情報および他のデータを含む。UsacDecoderConfig()において信号伝達されるように、UsacFrame()は、numElement要素を含む。これらの要素は1また2チャネルについてのオーディオデータ、低周波数エンハンスメントのためのオーディオデータまたは拡張ペイロードを含み得る。
UsacSingleChannelElement()
略称はSCE。単一のオーディチャネルのための符号化データを含むビットストリームの構文要素。single_channel_element()は、基本的に、FDまたはLPDコアコーダのためのデータを含むUsacCoreCoderData()からなる。SBRが活性の場合には、UsacSingleChannelElementもSBRデータを含む。
UsacChannelPairElement()
略称はCPE。チャネル対についてのデータを含むビットストリームペイロードの構文要素。チャネル対は、2つのディスクリートなチャネルを送信するかまたは1つのディスクリートなチャネルおよび関連のMps212ペイロードのいずれかにより達成され得る。これは、stereoConfigIndexにより信号伝達される。UsacChannelPairElementはSBRが活性の場合にはSBRデータをさらに含む。
UsacLfeElement()
略称はLFE。低サンプリング周波数エンハンスメントチャネルを含む構文要素。LFEは常にfd_channel_stream()要素を使用して符号化される。
UsacExtElement()
拡張ペイロードを含む構文要素。拡張要素の長さがコンフィギュレーション(USACExtElementConfig())においてデフォルト長さとして信号伝達されるかまたはUsacExtEelement()自体において信号伝達される。存在すれば、拡張ペイロードは、コンフィギュレーションにおいて信号伝達されるようなタイプusacExtElementTypeである。
usacIndependencyFlag
下の表に従って、現在のUsacFrame()が以前のフレームからの情報の知識なしに完全に復号化できるかどうかを表示する。
Figure 0005805796
注:usacIndependencyFlagの使用に関する推奨に関してはXYを参照ください。
usacExtElementUseDefaultLength
拡張要素の長さが、UsacExtElementConfig()に規定されたusacExtElementDefaultLengthに対応するかどうかを示す。
usacExtElementPayloadLength
バイトで表す拡張要素の長さを含む。この値は、現在のアクセス単位における拡張要素の長さがデフォルト値であるusacExtElementDefaultLengthから偏移する場合、ビットストリームにおいて明示的に送信する必要があるのみである。
usacExtElementStart
現在のusacExtElementSegmentDataがデータブロックを開始するかどうかを示す。
usacExtElementStop
現在のusacExtElementSegmentDataがデータブロックを終了するかどうかを示す。
usacExtElementSegmentData
usacExtElementStart==1のUsacExtElement()から始まり、usacExtElementStop==1のUsacExtElement()まで(これを含んで)連続するUSACフレームのUsacExtElement()からの全usacExtElementSegmentDataの連結が1つのデータブロックを構成する。完全なデータブロックが1つのUsacExtElement()に含まれる場合には、usacExtElementStartおよびusacExtElementStopの両方が1に設定される。データブロックは、下の表によるusacExtElementTypeに依存するバイト単位でそろえられた拡張ペイロードとして解釈される。
Figure 0005805796
fill_byte
情報を保持しないビットを有するビットストリームをパディングするために使用され得るビットのオクテット。fill_byteに使用される正確なビットパターンは、「10100101」である必要がある。
ヘルパー要素
nrCoreCoderChannels
チャネル対要素のコンテクストにおいては、この変数は、ステレオ符号化のための基礎を構成するコアコーダチャネルの数を示す。stereoConfigIndexの値によって、この値は1または2になる。
nrSbrChannels
チャネル対要素のコンテクストにおいては、この変数はSBR処理が適用されるチャネルの数を示す。stereoConfigIndexの値によって、この値は1または2になる。
USACについての補足的ペイロード
用語および定義
UsacCoreCoderData()
このデータブロックは、コアコーダオーディオデータを含む。ペイロード要素は、FDまたはLPDモード用のいずれかの1つまたは2つのコアコーダチャネルのためのデータを含む。特定のモードは、要素の開始にチャネルごとに信号伝達される。
StereoCoreToolInfo()
すべてのステレオ関連の情報は、この要素において捕捉される。ステレオ符号化モードにおけるビットフィールドの多数の依存性を扱う。
ヘルパー要素
cоmmоnCoreMode
CPEにおいて、このフラグは、両方の符号化コアコーダチャネルが同じモードを使用するかどうか示す。
Mps212Data()
このデータブロックは、Mps212ステレオモジュールのためのペイロードを含む。このデータの存在は、stereоConfigIndexに依存する。
common_window
CPEのチャネル0およびチャネル1が同じウィンドウパラメータを使用するかどうかを示す。
common_tw
CPEのチャネル0およびチャネル1が時間ワープしたMDCTについて同じパラメータを使用するかどうかを示す。
UsacFrame()の復号化
1つのUsacFrame()は、USACビットストリームの1つのアクセス単位を構成する。各UsacFrameが、表から決定されるoutputFrameLengthに従って、768、1024、2048または4096の出力サンプルに復号化する。
UsacFrame()における第1のビットは、所与のフレームが以前のフレームについて何らの知識がなくても復号化され得るかどうかを決定するusacIndependencyFlagである。usacIndependencyFlagが、0に設定されると、以前のフレームに対する依存性が現在のフレームのペイロード内に存在する可能性がある。
UsacFrame()はさらに、UsacDecoderConfig()における対応のコンフィギュレーション要素と同じ順序でビットストリームに現れる1以上の構文要素からなる。全要素の連続における各要素の位置については、elemIdxにより指し示される。各要素については、そのインスタンスの、すなわち同じelemIdxを有するUsacDecoderConfig()において送信されるような対応のコンフィギュレーションを使用する。
これらの構文要素は、表に挙げる4つのタイプのうちの1つである。これらの要素の各々のタイプは、usacElementTypeにより判別される。同じタイプの複数の要素が存在する可能性がある。異なるフレームの同じ位置elemIdxに生じる要素は、同じストリームに属することになる。
Figure 0005805796
これらビットストリームペイロードが一定レートのチャネルにわたって送信される場合、それらはID_EXT_ELE_FILLのusacExtElementTypeを有する拡張ペイロード要素を含んで、瞬間のビットレートを調整する可能性がある。この場合、符号化されたステレオ信号の例は、以下のとおりである。
Figure 0005805796
UsacSingleChannelElement()の復号化
UsacSingleChannelElement()の単純な構造は、1に設定されたnrCoreCoderChannelsを有するUsacCoreCoderData()の1つのインスタンスから構成される。この要素のsbrRatioIndexにより、UsacSbrData()要素はこれも1に設定されたnrSbrChannelで続く。
UsacExtEelement()の復号化
ビットストリームにおけるUsacExtElement()構造を、USACデコーダにより復号化またはスキップすることができる。各拡張は、UsacExtElement()’sの関連のUsacExtElementConfig()において伝達されるusacExtElementTypeにより識別される。各usacExtElementTypeについては、特定のデコーダが存在し得る。
拡張のためのデコーダをUSACデコーダが利用可能な場合、拡張のペイロードはUsacExtElement()がUSACデコーダにより構文解析された直後に拡張デコーダへ転送される。
USACデコーダが利用可能な拡張のためのデコーダがない場合、最低限の構造がビットストリーム内に付与され、それによりUSACデコーダが拡張を無視することができるようになる。
拡張要素の長さは、対応のUsacExtElementConfig()内で信号伝達でき、かつ、UsacExtElement()内でオーバルールできるオクテットのデフォルト長により特定されるか、または構文要素escapedValue()を使用する1または3のオクテット長のUsacExtElement()における明示的に付与される長さ情報により特定される。
1以上のUsacFrame()にまたがる拡張ペイロードを分割することができ、かつ、それらのペイロードをいくつかのUsacFrame()の間で配分することができる。この場合、usacExtElementPayloadFragフラグを1にセットし、かつデコーダは、usacExtElementStartが1に設定されたUsacFrame()からusacExtElementStopが1に設定されたUsacFrame()まで(これを含む)の全フラグメントを集める必要がある。usacExtElementStopが1に設定されると、拡張は完了と考えられ、拡張デコーダへ送られる。
なお、分割された拡張ペイロードの保全性保護についてはこの明細書によっては提供されず、拡張ペイロードの完全性を確保するためには他の手段を用いる必要がある。
なお、全拡張ペイロードデータはバイト単位で揃えられると仮定する。
各UsacExtElement()は、usacIndependencyFlagの使用から結果として得られる要求にしたがう。より明示的には、usacIndependencyFlagを設定(==1)すれば、UsacExElement()が以前のフレーム(およびそれに含まれ得る拡張ペイロード)の知識なしで復号化可能になる。
復号化プロセス
UsacChannelPairElementConfig()において送信されるstereoConfigIndexは、所与のCPEにおいて適用されるステレオ符号化の正確なタイプを決定する。ステレオ符号化のこのタイプに依存して、1または2のコアコーダチャネルが実際にビットストリームにおいて送信され、かつ、可変nrCoreCoderChannelsをこれに応じて設定する必要がある。構文要素UsacCoreCoderData()は、1または2のコアコーダチャネルのためのデータを付与する。
同様に、ステレオ符号化のタイプおよびeSBRの使用(すなわちsbrRatioIndex>0かどうか)に基づき1つまたは2つのチャネル用に使用可能なデータが存在し得る。nrSbrChannelsの値はこれに応じて設定される必要があり、かつ構文要素UsacSbrData()は、1つまたは2つのチャネルのためのeSBRデータを付与する。
最後に、Mps212Data()は、stereoConfigIndexの値に依存して送信される。
低周波数エンハンスメント(LFE)チャネル要素UsacLfeElement()
概要
デコーダにおける規定の構造を維持するため、UsacLfeElement()を標準fd_channel_stream(0,0,0,0,x)要素として規定し、すなわち、周波数領域コーダを使用してUsacCoreCoderData()と等しくする。こうして、UsacCoreCoderData()要素を復号化するための標準的過程を利用して復号化を行うことができる。
しかしながら、LFEデコーダのより高いビットレートおよびハードウェア効率的実装に適応するため、この要素の符号化に使用される選択肢には、いくつかの制約が適用される。
・window_sequenceフィールドは、常に0に設定される(ONLY_LONG_SEQUENCE)。
・LFEの最も低い24のスペクトル係数のみが非ゼロになり得る。
・非時間雑音整形が使用される、すなわちtns_data_presentがゼロに設定される。
・時間ワープが不活性である。
・ノイズフィリィングが適用されない。
UsacCoreCoderData()
UsacCoreCoderData()は、1または2のコアコーダチャネルを復号化するためのすべての情報を含む。
復号化の順序は以下のとおりである。
・チャネルごとのcore_mode[]を取得。
・2つのコア符号化チャネルの場合(nrChannels==2)、StereoCoreToolInfo()を構文解析し、全ステレオ関連パラメータを決定。
・信号伝達されたcore_modeに基づき、チャネルごとにlpd_channel_stream()またはfd_channel_stream()を送信。
上記のリストからわかるとおり、1つのコアコーダチャネル(nrChannels==1)を復号化すると、core_modeビットが得られ、その後に、core_modeに依存して、1つのlpd_channel_streamまたはfd_channel_streamが続く。
2つのコアコーダチャネルの場合、両方のチャネルのcore_modeが0であれば、特に、チャネル間のいくつかの信号伝達冗長性が利用され得る。詳細については、6.2X(StereoCoreToolInfo()の復号化)を参照。
StereoCoreToolInfo()
StereoCoreToolInfo()により、パラメータを効率的に符号化でき、その値は、両方のチャネルがFDモード(core_mode[0,1]=0)で符号化される場合には、CPEのコアコーダチャネルを横断して共有され得る。ビットストリームにおける適切なフラグが1にセットされると、特に以下のデータ要素が共有される。
Figure 0005805796
適切なフラグがセットされない場合、データ要素は、コアコーダチャネルごとにStereoCoreToolInfo()(max_sfb,max_sfb1)またはUsacCoreCoderData()要素においてStereoCoreToolInfo()に追随するfd_channel_stream()のいずれかにおいて、個別に送信される。
common_window==1の場合、StereoCoreToolInfo()はM/Sステレオ符号化についての情報およびMDCT領域における複雑予測データも含む(7.7.2を参照)。
UsacSbrData()
このデータブロックは、1つまたは2つのチャネルについてのSBR帯域幅拡張のためのペイロードを含む。このデータの存在は、sbrRatioIndexに依存する。
SbrInfo()
この要素は、変更されてもデコーダリセットを必要としないSBR制御パラメータを含む。
SbrHeader()
この要素は、SBRコンフィギュレーションパラメータを有するSBRヘッダデータを含み、これらパラメータは典型的にはビットストリームの持続時間にわたって変化しない。
USACのためのSBRペイロード
USACにおいては、SBRペイロードは、UsacSbrData()において送信され、これは、各単一チャネル要素またはチャネル対要素の不可欠な部分である。UsacSbrData()は、UsacCoreCoderData()の直後に続く。LFEチャネルについては、SBRペイロードは存在しない。
numSlots
Mps212Dataフレームにおける時間スロットの数。
図1は、入力10で付与される符号化オーディオ信号を復号化するためのオーディオデコーダを示す。入力ライン10上に、たとえばデータストリーム、またはより例示的にはシリアルデータストリームである符号化オーディオ信号がある。符号化オーディオ信号は、データストリームのペイロードセクションにおける第1のチャネル要素および第2のチャネル要素と、データストリームのコンフィギュレーションセクションにおける第1のチャネル要素のための第1のデコーダコンフィギュレーションデータおよび第2のチャネル要素のための第2のデコーダコンフィギュレーションデータとを含む。典型的には、第1のチャネル要素が第2のチャネル要素とは異なるので、第1のデコーダコンフィギュレーションデータは、第2のデコーダコンフィギュレーションデータとは異なる。
データストリームまたは符号化オーディオ信号が、チャネル要素ごとにコンフィギュレーションデータを読出し、接続ライン13を経由してコンフィギュレーションコントローラ14へこれを転送するためのデータストリームリーダ12に入力される。さらに、データストリームリーダは、ペイロードセクションにおけるチャネル要素ごとのペイロードデータを読み出すように構成され、第1のチャネル要素および第2のチャネル要素を含むこのペイロードデータが、接続ライン15を経由して構成可能デコーダ16へ付与される。構成可能デコーダ16は、出力ライン18a、18bに示す個々のチャネル要素のためのデータを出力するため、複数のチャネル要素を復号化するよう構成される。特に、構成可能デコーダ16は、第1のチャネル要素を復号化する際は第1のデコーダコンフィギュレーションデータに従い、かつ、第2のチャネル要素を復号化する際は第2のコンフィギュレーションデータに従うよう構成される。これについては、接続ライン17aおよび17bで示すが、接続ライン17aがコンフィギュレーションコントローラ14から構成可能デコーダへ第1のデコーダコンフィギュレーションデータを伝達し、接続ライン17bがコンフィギュレーションコントローラから構成可能デコーダへ第2のデコーダコンフィギュレーションデータを伝達する。コンフィギュレーションコントローラについては、構成可能デコーダを対応のデコーダコンフィギュレーションデータにおいてまたは対応のライン17aおよび17b上を信号伝達されるデコーダコンフィギュレーションに従って動作させるために、いずれかの態様で実現される。したがって、コンフィギュレーションコントローラ14は、データストリームからコンフィギュレーションデータを実際に取得するデータストリームリーダ12と、実際に読み出されたコンフィギュレーションデータにより構成される構成可能デコーダ16との間のインタフェースとして実現され得る。
図2は、入力20で付与される多チャンネル入力オーディオ信号を符号化するための対応のオーディオエンコーダを示す。入力20は、3つの異なるライン20a、20bおよび20cを含むものとして図示され、ライン20aは、たとえば中央チャネルオーディオ信号を保持し、ライン20bは、左チャネルオーディオ信号を保持し、かつ、ライン20cは右チャネルオーディオ信号を保持する。3つのチャネル信号すべてがコンフィギュレーションプロセッサ22および構成可能エンコーダ24内へ入力される。コンフィギュレーションプロセッサは、たとえば第1のチャネル要素が単一チャネル要素になるように中央チャネルしか含んでいない第1のチャネル要素およびたとえば左および右チャネルを保持するチャネル対要素である第2のチャネル要素のために、ライン21a上に第1のコンフィギュレーションデータを生成し、かつ、ライン21b上に第2のコンフィギュレーションデータを生成するようになっている。構成可能エンコーダ24は、第1のコンフィギュレーションデータ21aおよび第2のコンフィギュレーションデータ21bを使用して、多チャンネルオーディオ信号20を符号化し、第1のチャネル要素23aおよび第2のチャネル要素23bを得るように構成される。オーディオエンコーダは、さらに、入力ライン25aおよび25bで第1のコンフィギュレーションデータおよび第2のコンフィギュレーションデータを受け、かつ、さらに第1のチャネル要素23aおよび第2のチャネル要素23bを受けるデータストリーム生成部26を含む。データストリーム生成部26は、符号化されたオーディオ信号を表すデータストリーム27を生成するよう構成され、このデータストリームは第1および第2のコンフィギュレーションデータを有するコンフィギュレーションセクションと第1のチャネル要素および第2のチャネル要素を含むペイロードセクションとを有する。
このコンテクストでは、第1のコンフィギュレーションデータおよび第2のコンフィギュレーションデータが第1のデコーダコンフィギュレーションデータまたは第2のデコーダコンフィギュレーションデータと同じまたは相違し得る。後者の場合、コンフィギュレーションコントローラ14は、データストリームにおけるコンフィギュレーションデータがエンコーダに向けられたデータである場合には、独自の関数またはルックアップテーブル等を適用することにより、データストリームにおけるコンフィギュレーションデータを対応のデコーダに向けられたデータに変換するよう構成される。しかしながら、構成可能エンコーダ24またはコンフィギュレーションプロセッサ22が、計算されたデコーダコンフィギュレーションデータからエンコーダコンフィギュレーションデータを生成するかまたは、同様に独自の関数またはルックアップテーブルまた他の予備知識を適用することにより、計算されたエンコーダコンフィギュレーションデータからデコーダコンフィギュレーションデータを計算または決定するための機能性等を有するように、データストリームに書き込まれたコンフィギュレーションデータがすでにデコーダコンフィギュレーションデータであることが好ましい。
図5aは、図1のデータストリームリーダ12内に入力されるかまたは図2のデータストリーム生成部26により出力される符号化オーディオ信号の概略図を示す。データストリームは、コンフィギュレーションセクション50およびペイロードセクション52を含む。図5bは、図5aにおけるコンフィギュレーションセクション50のより詳細な実現例を示す。典型的には、次々に続くビットを保持するシリアルデータストリームである図5bに示すデータストリームは、第1の部分50aで、MPEG−4ファイルフォーマット等の伝達構造のより高いレイヤに関連する一般的なコンフィギュレーションデータを含む。代替的にまたは付加的には、存在してもしなくてもよいコンフィギュレーションデータ50aは、50bに示すUsacChannelConfigに含まれる追加の一般的なコンフィギュレーションデータを含む。
一般に、コンフィギュレーションデータ50aは、図6aに示すUsacConfigからのデータを含むことも可能で、かつアイテム50bは、図6bのUsacChannelConfigにおいて実現され、かつ、示される要素を含む。特に、全チャネル要素について同じコンフィギュレーションは、図3a、図3b、図4aおよび図4bに関連して図示し、かつ、説明する出力チャネル表示等を含み得る。
その後、ビットストリームのコンフィギュレーションセクション50の後に、UsacDecoderConfig要素が続くが、これは、この例では、第1のコンフィギュレーションデータ50c、第2のコンフィギュレーションデータ50dおよび第3のコンフィギュレーションデータ50eにより構成される。第1のコンフィギュレーションデータ50cは、第1のチャネル要素用であり、第2のコンフィギュレーションデータ50dは第2のチャネル要素用であり、かつ第3のコンフィギュレーションデータ50eは、第3のチャネル要素用である。
特に、図5bに概略を示すとおり、チャネル要素用の各コンフィギュレーションデータは、その構文に関連して図6cで使用される識別子要素タイプidxを含む。要素タイプインデクスidxは、2つのビットを有し、これに、図6cに示し、かつ、さらに単一チャネル要素については図6d、チャネル対要素については図6e、LFE要素については図6f、かつ拡張要素については図6kでさらに説明するチャネル要素コンフィギュレーションデータを記述するビットが続き、これらは、すべてUSACビットストリームに典型的に含まれ得るチャネル要素である。
図5cは、図5aに示すビットストリームのペイロードセクション52に含まれるUSACフレームを示す。図5bのコンフィギュレーションセクションが図5aのコンフィギュレーションセクション50を構成し、すなわちペイロードセクションが3つのチャネル要素を含む場合に、ペイロードセクション52が図5cに概略を示すように実現され、すなわち第1のチャネル要素52aのペイロードデータには52bで示す第2のチャネル要素用のペイロードデータが続き、それに第3のチャネル要素用のペイロードデータ52cが続く。こうして、本発明によれば、コンフィギュレーションセクションおよびペイロードセクションは、コンフィギュレーションデータがチャネル要素に関して、ペイロードセクションにおけるチャネル要素に関するペイロードデータと同じ順序になるように編成される。したがって、UsacDecoderConfig要素における順序が、第1のチャネル要素のコンフィギュレーションデータ、第2のチャネル要素のコンフィギュレーションデータ、第3のチャネル要素のコンフィギュレーションデータの順であれば、ペイロードセクションにおける順序も同じであり、すなわちシリアルデータまたはビットストリームにおいて第1のチャネル要素のペイロードデータがあり、次に第2のチャネル要素のペイロードデータがあり、そして第3のチャネル要素のペイロードデータが続く。
コンフィギュレーションセクションおよびペイロードセクションにおけるこの並列構成は、どのコンフィギュレーションデータがどのチャネル要素に属するかに関し、極めて低いオーバヘッド信号伝達で簡単な編成が可能になるため有利である。先行技術においては、チャネル要素のための個別のコンフィギュレーションデータは存在しないので、順序決めは不要であった。しかしながら、本発明によれば、各チャネル要素について最適のコンフィギュレーションデータが確実に最適に選択され得るように、個々のチャネル要素の個別のコンフィギュレーションデータが導入される。
典型的には、USACフレームは、時間にして20から40ミリ秒のデータを含む。図5dに示すような、より長いデータストリームを想定する場合には、コンフィギュレーションセクション60aの次に、ペイロードセクションまたはフレーム62a、62b、62c、...、62eが続き、再びコンフィギュレーションセクション62dをビットストリームに含める。
図5bおよび図5cに関連して説明したとおり、コンフィギュレーションセクションにおけるコンフィギュレーションデータの順序は、フレーム62a〜62eの各々におけるチャネル要素ペイロードデータの順序と同じである。したがって、個々のチャネル要素についてのペイロードデータの順序も、フレーム62aからフレーム62eの各々において全く同じである。
一般に、符号化された信号が、ハードディスク上に記憶される単一ファイルである場合、たとえば、10分または20分程度の全オーディオトラックの開始時に単一のコンフィギュレーションセクション50で充分である。単一のコンフィギュレーションセクションに、個々のフレームの上位の数が続き、各フレームについてコンフィギュレーションが有効であり、かつチャネル要素データ(コンフィギュレーションまたはペイロード)の順序は各フレームおよびコンフィギュレーションセクションにおいても同じである。
しかしながら、符号化オーディオ信号がデータのストリームである場合、初期のコンフィギュレーションセクションがすでに送信され、かつ、デコーダにより受信されていない場合でもデコーダが復号化を開始できるようにアクセスポイントを付与するため、個別のフレーム間にコンフィギュレーションセクションを導入することが必要になる。これは、デコーダがまだ実際のデータストリームを受信するためにオンに切り替えられていないからである。しかしながら、異なるコンフィギュレーションセクションの間のフレーム数nは、任意の選択が可能であるが、毎秒アクセスポイントの達成を希望する場合、2つのコンフィギュレーションセクション間のフレーム数は、25から50の範囲になる。
次に、図7は、5.1多チャネル信号を符号化および復号化するための直線的な例を示す図である。
好ましくは、4つのチャネル要素が使用され、第1のチャネル要素は、中央チャネルを含む単一チャネル要素であり、第2のチャネル要素は、左右のチャネルを含むチャネル対要素CPE1であり、かつ第3のチャネル要素は、左右のサラウンドチャネルを含む第2のチャネル対要素CPE2である。最後に、第4のチャネル要素は、LFEチャネル要素である。実施例においては、たとえば単一チャネル要素のコンフィギュレーションデータは、ノイズフィリングツールがオンになるようにされるのに対して、サラウンドチャネルを含む第2のチャネル対要素に対しては、ノイズフィリングツールはオフであり、かつ低品質のパラメータステレオ符号化過程が適用されるが、ビットレートは低いが品質の損失が生じる低ビットレートステレオ符号化過程は、チャネル対要素がサラウンドチャネルを有すると言う事実を考えれば問題ではないかもしれない。
一方、左右チャネルは、かなりの量の情報を含むので、高品質ステレオ符号化過程が、MPS212コンフィギュレーションにより信号伝達される。M/Sステレオ符号化は、高品質である点で有利だが、ビットレートがかなり高いという問題点がある。したがって、M/Sステレオ符号化は、CPE1には好ましくても、CPE2には好ましくない。さらに、実装によっては、ノイズフィリング特性は、オン・オフを切り替えられるので、ノイズフィリングがオンである左右チャネルおよび中央のチャネルの良好で高品質な表現を得るために高度な強調を行うという事実を考えればオンに切り替えることが好ましい。
しかしながら、チャネル要素Cのコア帯域幅がたとえばきわめて低く、かつ、中央チャネルでゼロに量子化される連続するラインの数も少ない場合には、中央チャネル単一チャネル要素についてはノイズフィリングはオフに切り替えることも有用かもしれない。というのも、ノイズフィリングが付加的な品質利得を提供するわけではなく、品質向上がないかまたはわずかな向上にとどまることを考えれば、ノイズフィリングツールのサイド情報を送信するために必要なビットを節約できるからである。
一般に、チャネル要素のためのコンフィギュレーションセクションで信号伝達されるツールは、たとえば図6d、図6e、図6f、図6g、図6h、図6iおよび図6jに示すツールであり、図6k、図6lおよび図6mにおける拡張要素コンフィギュレーションのための要素を付加的に含む。図6eに概略を示すとおり、MPS212コンフィギュレーションは、チャネル要素ごとに相違し得る。
MPEGサラウンドは、空間知覚に関する人の聴覚キューのコンパクトなパラメータ表現を利用して、多チャネル信号のビットレート的に効率的な表現を図る。CLDおよびICCパラメータに加えて、IPDパラメータも送信できる。OPDパラメータは、位相情報の効率的な表現のために所与のCLDおよびIPDパラメータで予測される。IPDおよびOPDパラメータを利用して、位相差を合成し、さらにステレオイメージを改良する。
パラメータモードに加えて、限定されたまたは全帯域幅を有する残差で残差符号化も採用することができる。この過程では、CLD、ICCおよびIPDパラメータを利用してモノ入力信号および残差信号を混合することにより2つの出力信号を生成する。さらに、図6jに示す全パラメータを各チャネル要素について個別に選択することができる。個別のパラメータとは、2010年9月24日付けISO/IEC CD 23003―3(ここに引用により援用)に詳細が説明されるもの等である。
さらに、図6fおよび図6gで概略を示すとおり、時間ワープ特性およびノイズフィリング特性等のコア特性を、チャネル要素ごとに個別にオン・オフに切り替えることができる。上記引用の文献に「時間ワープされたフィルタバンクおよびブロック切替」という用語で説明される時間ワープツールは、標準的なフィルタバンクおよびブロック切替を置換するものである。IMDCTに加えて、このツールには、任意に間隔決めしたグリッドから通常の線形に間隔決めした時間グリッドへの時間領域同士のマッピングおよびウィンドウ形状の対応の適合を含む。
さらに、図7に概略を示すとおり、ノイズフィリングツールをチャネル要素ごとに個別にオン・オフを切り替えることができる。低ビットレート符号化においては、ノイズフィリングは2つの目的に使用できる。低ビットレートオーディオ符号化におけるスペクトル値のコース量子化では、多くのスペクトルラインがゼロに量子化されている可能性があるので、逆量子化後は、非常にまばらなスペクトルになる可能性がある。希薄なスペクトルでは、復号化された信号がシャープにまたは不安定に(バーディズ)(birdies)響くことになる。ゼロのラインをデコーダにおける「小さな」値で置換することにより、これらの非常に顕著なアーチファクトを顕著な新たな雑音アーチファクトを加えることなくマスキングまたは低減することができる。
元のスペクトルに信号部分のような雑音が存在する場合、これらの雑音信号部分を知覚的に等価に表現するものを、雑音信号部分のエネルギー等の少ないパラメータ情報だけに基づいてデコーダにおいて再生することができる。パラメータ情報は、符号化された波形を送信するために必要なビットの数に比べて少ないビットで送信することができる。詳細には、送信が必要なデータ要素は、ノイズオフセット要素であり、これは、ゼロに量子化された帯域のスケールファクタおよびゼロに量子化されたスペクトルラインごとに付加されるべき量子化雑音を表す整数である雑音レベルを修正する追加のオフセットである。
図7ならびに図6fおよび図6gで概略を示すとおり、この特徴は、チャネル要素ごとに個別にオンとオフを切り替えることができる。
また、チャネル要素ごとに個別に信号伝達できるSBR特性も存在する。
図6hに概略を示すとおり、SBR要素は、SBRにおける様々なツールのオン/オフの切り替えを含む。チャネル要素ごとに個別にオンまたはオフを切り替えるべき最初のツールは、高調波SBRである。高調波SBRがオンに切り替わると、高調波SBRピッチングが行われ、一方、高調波SBRがオフに切り替わると、MPEG−4(高効率)から知られる連続ラインのピッチングが使用される。
さらに、PVCすなわち「予測ベクトル符号化」復号化プロセスを適用することができる。特に低ビットレートの音声コンテントにおいて、eSBRツールの主観的品質を向上させるために、予測ベクトル符号化(PVC)をeSBRツールに適用する。一般に、音声信号については、低周波数帯域および高周波数帯域のスペクトルエンベロープ間に比較的高い相関が存在する。PVCスキームでは、これは、低周波数帯域のスペクトルエンベロープからの高周波数帯域のスペクトルエンベロープの予測に使用され、予測のための係数マトリクスが、ベクトル量子化により符号化される。HFエンベロープアジャスタを修正して、PVCデコーダで生成されるエンベロープを処理する。
したがって、PVCツールは、たとえば中央チャネルに音声が存在する単一チャネル要素には特に有用である。一方、PVCツールは、CPE2のサラウンドチャネルまたはCPE1の左右チャネル等については有用ではない。
さらに、時間内エンベロープ整形特性(inter―Tes)は、チャネル要素ごとにオンまたはオフを個別に切り替えることができる。インターサブバンドサンプル時間エンベロープ整形(inter―Tes)は、エンベロープアジャスタの後のQMFサブバンドサンプルを処理する。このモジュールはエンベロープアジャスタのものよりより高い周波数帯域幅の時間エンベロープをより細かい時間粒度に整形する。SBRエンベロープにおける各QMFサブバンドサンプルに利得ファクタを適用することにより、インタTesは、QMFサブバンドサンプル間で時間エンベロープを整形する。インタTesは、3つのモジュール、すなわち低周波数インターサブバンドサンプル時間エンベロープ計算部と、インターサブバンドサンプル時間エンベロープアジャスタと、インターサブバンドサンプル時間エンベロープ整形部から構成される。このツールが追加のビットを必要とすることから、この追加のビットを使うことが、品質利得の点から正当化されないチャネル要素と正当化されるチャネル要素が生じる。したがって、本発明によれば、チャネル要素によってこのツールの活性化/不活性化が用いられる。
さらに、図6iは、SBRのデフォルトヘッダの構文を示し、かつ、図6iのSBRデフォルトヘッダにおける全SBRパラメータがチャネル要素ごとに異なって選択できる。たとえば、これは、クロスオーバ周波数すなわち信号の再生がモードからパラメータモードに変化する周波数を実際に設定する開始周波数または終了周波数に関連する。周波数分解能および雑音帯域分解能等の他の特徴も、個別のチャネルごとに選択的に設定を行うために利用可能である。
したがって、図7に概略を示すとおり、ステレオ特性、コアコーダ特性およびSBR特性について、コンフィギュレーションデータを個別に設定することが好ましい。要素の個別設定は、図6iに示すSBRデフォルトヘッダにおけるSBRパラメータを指すだけでなく、図6hに概略を示すSbrConfigにおける全パラメータにも当てはまる。
次に、図8を参照して図1のデコーダの実現例を説明する。
特に、データストリームリーダ12およびコンフィギュレーションコントローラ14の機能性は、図1に関連して説明したものと同様である。しかしながら、構成可能デコーダ16は、ここでは、各デコーダインスタンスがコンフィギュレーションコントローラ14により付与されるコンフィギュレーションデータCのための入力と、データストリームリーダ12からの対応のチャネル要素データを受信するためのデータDのための入力とを有する個別のデコーダインスタンスについて実現される。
特に、図8の機能性は、各個別のチャネル要素について、個別のデコーダインスタンスを付与するようになっている。したって、第1のデコーダインスタンスは、中央チャネルの単一チャネル要素等の第1のコンフィギュレーションデータにより構成される。
さらに、第2のデコーダインスタンスは、チャネル対要素の左右チャネルのための第2のデコーダコンフィギュレーションデータに従って構成される。さらに、第3のデコーダインスタンス16cは、左右サラウンドチャネルを含む他のチャネル対要素のために構成される。最後に、第4のデコーダインスタンスは、LFEチャネルのために構成される。したがって、第1のデコーダインスタンスは、出力として単一のチャネルCを提供する。しかし、第2および第3のデコーダインスタンス16bおよび16cはそれぞれ2つの出力チャネル、すなわち、一方で左右チャネル、他方で左右サラウンドを提供する。最後に、第4のデコーダインスタンス16dは、出力としてLFEチャネルを提供する。多チャネル信号のこれら6つのチャネルが、すべて、デコーダインスタンスにより出力インタフェース19に転送され、最終的にたとえば記憶または5.1ラウドスピーカセットアップ等における再生のために送信される。ラウドスピーカセットアップが異なるラウドスピーカセットアップである場合に、異なるデコーダインスタンスおよび異なる数のデコーダインスタンスが必要なことは明らかである。
図9は、本件発明の実施例にしたがう符号化オーディオ信号の復号化を実行するための方法の好ましい実現例を示す。
ステップ90では、データストリームリーダ12は、図5aのコンフィギュレーションセクション50の読み出しを開始する。その後、対応のコンフィギュレーションデータブロック50cにおけるチャネル要素識別に基づき、チャネル要素がステップ92に示すとおり識別される。ステップ94では、この識別されたチャネル要素のためのコンフィギュレーションデータが読み出され、デコーダを実際に構成するため、または後にチャネル要素を処理する際にデコーダを構成するために用いるべく記憶されるよう使用される。これについては、ステップ94に概略を示す。
ステップ96では、図5bの部分50dにおける第2のコンフィギュレーションデータの要素タイプ識別子を使用して、次のチャネル要素を識別する。これは図9のステップ96に示される。ステップ98において、コンフィギュレーションデータが読み出され、かつ、実際のデコーダもしくはデコーダインスタンスを構成するために使用されるか、または代替的にはこのチャネル要素のためのペイロードが復号化される時のコンフィギュレーションデータを記憶するために読み出される。
その後、ステップ100で、コンフィギュレーションデータ全体にわたってループされ、すなわち、全コンフィギュレーションデータが読み出されるまで、チャネル要素の識別およびチャネル要素のためのコンフィギュレーションデータの読み出しが継続される。
その後、ステップ102、104および106において、各チャネル要素のペイロードデータを読み出し、かつ、最終的にコンフィギュレーションデータCを用いてステップ108で復号化するが、このペイロードデータをDで示す。ステップ108の結果は、ブロック16a〜16d等により出力されるデータであり、これは、その後、ラウドスピーカに直接送られるかまたは合成され、増幅され、さらに処理されるかまたはデジタル/アナログ変換されて最終的に対応のラウドスピーカへ送られる。
装置に関連して、いくつかの特徴について説明したが、これらの特徴が、ブロックまたは装置が方法ステップまたは方法ステップの特徴に相当する対応の方法の記述にも相当することは明らかである。同様に、方法ステップに関連して説明した特徴は、対応のブロックもしくはアイテムまたは対応の装置の記述にも相当する。
いくつかの実行の要件に基づいて、本発明の実施例は、ハードウェアまたはソフトウェアにおいて実現することができる。実装は、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(または協働可能な)電子的に可読な制御信号を記憶したフロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリ等のデジタル記憶媒体を用いて実行され得る。
本発明のいくつかの実施例は、本件に記載の方法の1つが実行されるように、プログラム可能コンピュータシステムと協働可能な電子的に可読な制御信号を有する非過渡性のデータキャリアを含む。
符号化されたオーディオ信号は、有線または無線の伝送媒体を経由して送信されるかまたは機械可読キャリアもしくは非過渡性記憶媒体上に記憶することができる。
一般に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として実現され得るが、このプログラムコードは、コンピュータプログラム製品をコンピュータ上で実行すると、方法の1つを実行するよう動作する。プログラムコードは、たとえば、機械可読キャリア上に記憶されてもよい。
他の実施例は、機械可読キャリア上に記憶された、本件に記載の方法の1つを実行するためのコンピュータプログラムを含む。
したがって、言い換えれば、発明の方法の実施例は、コンピュータプログラムをコンピュータ上で実行した際、本件に記載の方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、発明の方法の他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムを記録するデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、発明の方法の他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムを表現するデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、インターネットを経由する等、データ通信接続を経由して伝送されるように構成され得る。
他の実施例は、本件に記載の方法の1つを実行するよう構成または適合されたコンピュータ、プログラム可能論理装置等の処理手段を含む。
他の実施例は、本件に記載の方法の1つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。
いくつかの実施例においては、プログラム可能論理装置(フィールドプログラマブルゲートアレイ等)を使用して、本件に記載の方法の機能性のいくつかまたはすべてを実行するようにしてもよい。いくつかの実施例においては、フィールドプログラマブルゲートアレイは、本件に記載の方法の1つを実行するためにマイクロプロセッサと協働し得る。一般に、これらの方法は、なんらかのハードウェア装置で実行することが好ましい。
上記の実施例は、本発明の原則を説明するためのものに過ぎない。本件に記載の構成および詳細の変形例および修正例が当業者に明らかになることは当然である。したがって、その主旨は請求項の範囲によってのみ限定され、本件に記載の実施例の記述および説明により提示される特定の詳細により限定されない。

Claims (17)

  1. 符号化されたオーディオ信号(10)を復号化するためのオーディオデコーダであって、符号化されたオーディオ信号(10)が、データストリームのペイロードセクション(52)において第1のチャネル要素(52a)および第2のチャネル要素(52b)と、データストリームのコンフィギュレーションセクション(50)において第1のチャネル要素(52a)のための第1のデコーダコンフィギュレーションデータ(50c)および第2のチャネル要素(52b)のための第2のデコーダコンフィギュレーションデータ(50d)とを含み、オーディオデコーダが、
    コンフィギュレーションセクションにおける各チャネル要素のためのコンフィギュレーションデータを読み出し、かつ、ペイロードセクションにおける各チャネル要素のためのペイロードデータを読み出すためのデータストリームリーダ(12)と、
    複数のチャネル要素を復号化するための構成可能デコーダ(16)と、
    構成可能デコーダ(16)が、第1のチャネル要素を復号化する際に第1のデコーダコンフィギュレーションデータに従い、かつ、第2のチャネル要素を復号化する際に第2のデコーダコンフィギュレーションデータに従って構成されるように、構成可能デコーダ(16)を構成するためのコンフィギュレーションコントローラ(14)とを含む、オーディオデコーダ。
  2. 第1のチャネル要素が、第1の出力チャネルのためのペイロードデータを含む単一のチャネル要素であり、かつ
    第2のチャネル要素が、第2の出力チャネルおよび第3の出力チャネルのためのペイロードデータを含むチャネル対要素であり、
    構成可能デコーダ(16)が、第1のチャネル要素を復号化する際に単一の出力チャネルを生成し、かつ第2のチャネル要素を復号化する際に2つの出力チャネルを生成するよう構成され、かつ
    オーディオデコーダが、第1の出力チャネル、第2の出力チャネルおよび第3の出力チャネルを出力(19)して、3つの異なるオーディオ出力チャネルを経由した同時の出力を行うよう構成される、請求項1に記載のオーディオデコーダ。
  3. 第1のチャネルが中央チャネルであり、かつ、第2のチャネルおよび第3のチャネルが左右のチャネルまたは左右のサラウンドチャネルである、請求項1または2に記載のオーディオデコーダ。
  4. 第1のチャネル要素が第1および第2の出力チャネル用のデータを含む第1のチャネル対要素であり、かつ
    第2のチャネル要素が第3および第4の出力チャネルのためのペイロードデータを含む第2のチャネル対要素であり、
    構成可能デコーダ(16)が、第1のチャネル要素を復号化する際に第1および第2の出力チャネルを生成し、かつ第2のチャネル要素を復号化する際に第3および第4の出力チャネルを生成するよう構成され、かつ
    オーディオデコーダが、異なるオーディオ出力チャネルのための同時の出力ワイヤ用に、第1、第2、第3および第4の出力チャネルを出力(19)するよう構成される、請求項1に記載のオーディオデコーダ。
  5. 第1のチャネルが左チャネルであり、第2のチャネルが右チャネルであり、第3のチャネルが左サラウンドチャネルであり、かつ第4のチャネルが右サラウンドチャネルである、請求項4に記載のオーディオデコーダ。
  6. 符号化されたオーディオ信号が、データストリームのコンフィギュレーションセクションにおいて、第1のチャネル要素および第2のチャネル要素の情報を有する一般コンフィギュレーションセクション(50a、50b)を含み、コンフィギュレーションコントローラ(14)が、一般コンフィギュレーションセクション(50a、50b)からのコンフィギュレーション情報で、第1および第2のチャネル要素のための構成可能デコーダ(16)を構成するよう構成される、請求項1から5のいずれか1項に記載のオーディオデコーダ。
  7. 第1のコンフィギュレーションセクション(50c)が、第2のコンフィギュレーションセクション(50d)とは異なり、かつ
    コンフィギュレーションコントローラが、第1のチャネル要素を復号化する際に使用するコンフィギュレーションとは異なる第2のチャネル要素を復号化するための構成可能デコーダ(16)を構成するよう構成される、請求項1から6のいずれか1項に記載のオーディオデコーダ。
  8. 第1のデコーダコンフィギュレーションデータ(50c)および第2のデコーダコンフィギュレーションデータ(50d)が、ステレオ復号化ツール、コア復号化ツールまたはSBR復号化ツールに関する情報を含み、かつ
    構成可能デコーダ(16)が、SBR復号化ツール、コア復号化ツールおよびステレオ復号化ツールを含む、請求項1から7のいずれか1項に記載のオーディオデコーダ。
  9. ペイロードセクション(52)が、フレームのシーケンスを含み、各フレームが第1および第2のチャネル要素を含み、
    第1のチャネル要素のための第1のデコーダコンフィギュレーションデータおよび第2のチャネル要素のための第2のデコーダコンフィギュレーションデータが、フレームのシーケンス(62a〜62e)に関連付けられており、
    各フレームにおける第1のチャネル要素が、第1のデコーダコンフィギュレーションデータを使用して復号化され、かつ各フレームにおける第2のチャネル要素が、第2のデコーダコンフィギュレーションデータを使用して復号化されるように、コンフィギュレーションコントローラ(14)が、フレームのシーケンスのフレームの各々について、構成可能デコーダ(16)を構成するよう構成される、請求項1から8のいずれか1項に記載のオーディオデコーダ。
  10. データストリームがシリアルなデータストリームであり、かつコンフィギュレーション
    セクション(50)が、ある順序で複数のチャネル要素のためのデコーダコンフィギュレーションデータを含み、かつ
    ペイロードセクション(52)が、同じ順序で複数のチャネル要素のためのペイロードデータを含む、請求項1から9のいずれか1項に記載のオーディオデコーダ。
  11. コンフィギュレーションセクション(50)が、第1のデコーダコンフィギュレーションデータが追随する第1のチャネル要素識別および第2のデコーダコンフィギュレーションデータが追随する第2のチャネル要素識別を含み、データストリームリーダ(12)が、第1のチャネル要素識別(92)を順次通過させ、次にチャネル要素のための第1のデコーダコンフィギュレーションデータ(94)を読出し、次に第2のチャネル要素識別(96)を通過させ、かつ次に第2のデコーダコンフィギュレーションデータ(98)を読み出すことにより、全要素(92、94、96、98)にわたってループするよう構成される、請求項1から10のいずれか1項に記載のオーディオデコーダ。
  12. 構成可能デコーダ(16)が、複数の並列デコーダインスタンス(16a、16b、16c、16d)を含み、
    コンフィギュレーションコントローラ(14)が、第1のデコーダコンフィギュレーションデータを使用して第1のデコーダインスタンス(16a)を構成し、かつ第2のデコーダコンフィギュレーションデータを使用して第2のデコーダインスタンス(16b)を構成するよう構成され、かつ
    データストリームリーダ(12)が、第1のチャネル要素のためのペイロードデータを第1のデコーダインスタンス(16a)に転送し、かつ第2のチャネル要素のためのペイロードデータを第2のデコーダインスタンス(16b)へ転送するよう構成される、請求項1から11のいずれか1項に記載のオーディオデコーダ。
  13. ペイロードセクションが、ペイロードフレームのシーケンス(62a〜62e)を含み、
    データストリームリーダ(12)が、各チャネル要素のためのデータを現在処理されているフレームから、このチャネル要素のためのコンフィギュレーションデータにより構成される対応のデコーダインスタンスにのみ転送するよう構成される、請求項12に記載のオーディオデコーダ。
  14. 符号化されたオーディオ信号(10)を復号化する方法であって、符号化されたオーディオ信号(10)が、データストリームのペイロードセクション(52)において、第1のチャネル要素(52a)および第2のチャネル要素(52b)と、データストリームのコンフィギュレーションセクション(50)において第1のチャネル要素(52a)のための第1のデコーダコンフィギュレーションデータ(50c)および第2のチャネル要素(52b)のための第2のデコーダコンフィギュレーションデータ(50d)とを含み、方法が、
    コンフィギュレーションセクションにおいて、各チャネル要素のためのコンフィギュレーションデータを読出し、かつ、ペイロードセクションにおいて各チャネル要素のためのペイロードデータを読み出すステップと、
    構成可能デコーダ(16)により複数のチャネル要素を復号化するステップと、
    構成可能デコーダ(16)が、第1のチャネル要素を復号化する際、第1のデコーダコンフィギュレーションデータに従って構成され、かつ、第2のチャネル要素を復号化する際、第2のデコーダコンフィギュレーションデータに従うよう構成されるように構成可能デコーダ(16)を構成するステップとを含む、方法。
  15. 多チャネルオーディオ信号(20)を符号化するためのオーディオエンコーダであって、
    第1のチャネル要素(23a)のための第1のコンフィギュレーションデータ(25b)および第2のチャネル要素(23b)のための第2のコンフィギュレーションデータ(25a)を生成するためのコンフィギュレーションプロセッサ(22)と、
    第1のコンフィギュレーションデータ(25b)および第2のコンフィギュレーションデータ(25a)を使用して、多チャネルオーディオ信号(20)を符号化し、第1のチャネル要素(23a)および第2のチャネル要素(23b)を得るための構成可能エンコーダ(24)と、
    符号化されたオーディオ信号(27)を表すデータストリームを生成するためのデータストリーム生成部(26)とを含み、データストリーム(27)が、第1のコンフィギュレーションデータ(50c)および第2のコンフィギュレーションデータ(50d)を有するコンフィギュレーションセクション(50)と、第1のチャネル要素(52a)および第2のチャネル要素(52b)を含むペイロードセクション(52)とを有する、オーディオエンコーダ。
  16. 多チャネルオーディオ信号(20)を符号化する方法であって、
    第1のチャネル要素(23a)のための第1のコンフィギュレーションデータ(25b)および第2のチャネル要素(23b)のための第2のコンフィギュレーションデータ(25a)を生成するステップと、
    第1のコンフィギュレーションデータ(25b)および第2のコンフィギュレーションデータ(25a)を使用して、構成可能エンコーダ(24)により、多チャネルオーディオ信号(20)を符号化して、第1のチャネル要素(23a)および第2のチャネル要素(23b)を得るステップと、
    符号化されたオーディオ信号(27)を表すデータストリーム(27)を生成するステップとを含み、データーストリーム(27)が、第1のコンフィギュレーションデータ(50c)および第2のコンフィギュレーションデータ(50d)を有するコンフィギュレーションセクション(50)と、第1のチャネル要素(52a)および第2のチャネル要素(52b)を含むペイロードセクション(52)とを有する、方法。
  17. コンピュータ上で実行された際に、請求項14または16に記載の方法を実行するためのコンピュータプログラム。
JP2013558468A 2011-03-18 2012-03-19 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ Active JP5805796B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161454121P 2011-03-18 2011-03-18
US61/454,121 2011-03-18
PCT/EP2012/054749 WO2012126866A1 (en) 2011-03-18 2012-03-19 Audio encoder and decoder having a flexible configuration functionality

Publications (2)

Publication Number Publication Date
JP2014509754A JP2014509754A (ja) 2014-04-21
JP5805796B2 true JP5805796B2 (ja) 2015-11-10

Family

ID=45992196

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2013558472A Active JP6007196B2 (ja) 2011-03-18 2012-03-19 オーディオ符号化におけるフレーム要素長さの伝送
JP2013558471A Active JP5820487B2 (ja) 2011-03-18 2012-03-19 オーディオコンテントを表すビットストリームのフレームにおけるフレーム要素位置決め
JP2013558468A Active JP5805796B2 (ja) 2011-03-18 2012-03-19 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2013558472A Active JP6007196B2 (ja) 2011-03-18 2012-03-19 オーディオ符号化におけるフレーム要素長さの伝送
JP2013558471A Active JP5820487B2 (ja) 2011-03-18 2012-03-19 オーディオコンテントを表すビットストリームのフレームにおけるフレーム要素位置決め

Country Status (16)

Country Link
US (5) US9524722B2 (ja)
EP (3) EP2686848A1 (ja)
JP (3) JP6007196B2 (ja)
KR (7) KR101742135B1 (ja)
CN (5) CN107516532B (ja)
AR (3) AR085446A1 (ja)
AU (5) AU2012230440C1 (ja)
BR (2) BR112013023945A2 (ja)
CA (3) CA2830633C (ja)
HK (1) HK1245491A1 (ja)
MX (3) MX2013010537A (ja)
MY (2) MY167957A (ja)
RU (2) RU2571388C2 (ja)
SG (2) SG193525A1 (ja)
TW (3) TWI571863B (ja)
WO (3) WO2012126866A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122021002034B1 (pt) * 2010-07-08 2021-11-03 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Codificador que utiliza cancelamento de serrilhado futuro
RU2562384C2 (ru) * 2010-10-06 2015-09-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для обработки аудио сигнала и для обеспечения большей детализации во времени для комбинированного унифицированного кодека речи и аудио (usac)
EP3544006A1 (en) * 2011-11-11 2019-09-25 Dolby International AB Upsampling using oversampled sbr
KR102213895B1 (ko) * 2013-01-15 2021-02-08 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
BR112015018522B1 (pt) 2013-02-14 2021-12-14 Dolby Laboratories Licensing Corporation Método, aparelho e meio não transitório que tem um método armazenado no mesmo para controlar a coerência entre canais de sinais de áudio com upmix.
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
CN105074818B (zh) 2013-02-21 2019-08-13 杜比国际公司 音频编码***、用于产生比特流的方法以及音频解码器
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN103336747B (zh) * 2013-07-05 2015-09-09 哈尔滨工业大学 VxWorks操作***下CPCI总线数字量输入与开关量输出可配置驱动器及驱动方法
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
RU2665281C2 (ru) 2013-09-12 2018-08-28 Долби Интернэшнл Аб Временное согласование данных обработки на основе квадратурного зеркального фильтра
TWI671734B (zh) 2013-09-12 2019-09-11 瑞典商杜比國際公司 在包含三個音訊聲道的多聲道音訊系統中之解碼方法、編碼方法、解碼裝置及編碼裝置、包含用於執行解碼方法及編碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置及編碼裝置的音訊系統
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9847804B2 (en) * 2014-04-30 2017-12-19 Skyworks Solutions, Inc. Bypass path loss reduction
US10475463B2 (en) * 2015-02-10 2019-11-12 Sony Corporation Transmission device, transmission method, reception device, and reception method for audio streams
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
ES2733858T3 (es) 2015-03-09 2019-12-03 Fraunhofer Ges Forschung Codificación de audio alineada por fragmentos
TWI693595B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TWI771266B (zh) * 2015-03-13 2022-07-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
EP3312837A4 (en) * 2015-06-17 2018-05-09 Samsung Electronics Co., Ltd. Method and device for processing internal channels for low complexity format conversion
CN108028988B (zh) * 2015-06-17 2020-07-03 三星电子株式会社 处理低复杂度格式转换的内部声道的设备和方法
CN114005454A (zh) * 2015-06-17 2022-02-01 三星电子株式会社 实现低复杂度格式转换的内部声道处理方法和装置
KR102537541B1 (ko) 2015-06-17 2023-05-26 삼성전자주식회사 저연산 포맷 변환을 위한 인터널 채널 처리 방법 및 장치
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
CA3042580C (en) * 2016-11-08 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for downmixing or upmixing a multichannel signal using phase compensation
CN117037807A (zh) 2017-01-10 2023-11-10 弗劳恩霍夫应用研究促进协会 音频解码器和编码器、提供解码的音频信号的方法、提供编码的音频信号的方法、使用流标识符的音频流、音频流提供器和计算机程序
US10224045B2 (en) 2017-05-11 2019-03-05 Qualcomm Incorporated Stereo parameters for stereo decoding
JP7161233B2 (ja) 2017-07-28 2022-10-26 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 広帯域フィルタによって生成される補充信号を使用して、エンコードされたマルチチャネル信号をエンコードまたはデコードするための装置
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
TWI812658B (zh) 2017-12-19 2023-08-21 瑞典商都比國際公司 用於統一語音及音訊之解碼及編碼去關聯濾波器之改良之方法、裝置及系統
WO2019121982A1 (en) * 2017-12-19 2019-06-27 Dolby International Ab Methods and apparatus for unified speech and audio decoding qmf based harmonic transposer improvements
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
US10365885B1 (en) * 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
CN110505425B (zh) * 2018-05-18 2021-12-24 杭州海康威视数字技术股份有限公司 一种解码方法、解码装置、电子设备和可读存储介质
JP2021530723A (ja) * 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
US11081116B2 (en) * 2018-07-03 2021-08-03 Qualcomm Incorporated Embedding enhanced audio transports in backward compatible audio bitstreams
CN109448741B (zh) * 2018-11-22 2021-05-11 广州广晟数码技术有限公司 一种3d音频编码、解码方法及装置
EP3761654A1 (en) * 2019-07-04 2021-01-06 THEO Technologies Media streaming
KR102594160B1 (ko) * 2019-11-29 2023-10-26 한국전자통신연구원 필터뱅크를 이용한 오디오 신호 부호화/복호화 장치 및 방법
TWI772099B (zh) * 2020-09-23 2022-07-21 瑞鼎科技股份有限公司 應用於有機發光二極體顯示器之亮度補償方法
CN112422987B (zh) * 2020-10-26 2022-02-22 眸芯科技(上海)有限公司 适用于avc的熵解码硬件并行计算方法及应用
US11659330B2 (en) * 2021-04-13 2023-05-23 Spatialx Inc. Adaptive structured rendering of audio channels

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146596A (ja) * 1995-11-21 1997-06-06 Japan Radio Co Ltd 音声信号合成方法
US6256487B1 (en) 1998-09-01 2001-07-03 Telefonaktiebolaget Lm Ericsson (Publ) Multiple mode transmitter using multiple speech/channel coding modes wherein the coding mode is conveyed to the receiver with the transmitted signal
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
FI120125B (fi) * 2000-08-21 2009-06-30 Nokia Corp Kuvankoodaus
KR20040036948A (ko) * 2001-09-18 2004-05-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 비디오 부호화 및 복호 방법과, 대응하는 신호
US7054807B2 (en) * 2002-11-08 2006-05-30 Motorola, Inc. Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters
EP1427252A1 (en) * 2002-12-02 2004-06-09 Deutsche Thomson-Brandt Gmbh Method and apparatus for processing audio signals from a bitstream
WO2004059643A1 (en) 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7684521B2 (en) * 2004-02-04 2010-03-23 Broadcom Corporation Apparatus and method for hybrid decoding
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US8131134B2 (en) * 2004-04-14 2012-03-06 Microsoft Corporation Digital media universal elementary stream
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US7930184B2 (en) * 2004-08-04 2011-04-19 Dts, Inc. Multi-channel audio coding/decoding of random access points and transients
DE102004043521A1 (de) 2004-09-08 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals oder eines Parameterdatensatzes
SE0402650D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
DE602006015294D1 (de) 2005-03-30 2010-08-19 Dolby Int Ab Mehrkanal-audiocodierung
DE102005014477A1 (de) * 2005-03-30 2006-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und zum Erzeugen einer Multikanal-Darstellung
EP1905004A2 (en) * 2005-05-26 2008-04-02 LG Electronics Inc. Method of encoding and decoding an audio signal
JP4988716B2 (ja) * 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8917874B2 (en) 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8050915B2 (en) * 2005-07-11 2011-11-01 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signals using hierarchical block switching and linear prediction coding
RU2380767C2 (ru) 2005-09-14 2010-01-27 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
CN101288117B (zh) * 2005-10-12 2014-07-16 三星电子株式会社 对音频数据和扩展数据进行编码/解码的方法和设备
BRPI0706488A2 (pt) 2006-02-23 2011-03-29 Lg Electronics Inc método e aparelho para processar sinal de áudio
US8364497B2 (en) 2006-09-29 2013-01-29 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
RU2431940C2 (ru) 2006-10-16 2011-10-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Аппаратура и метод многоканального параметрического преобразования
DE102006049154B4 (de) * 2006-10-18 2009-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines Informationssignals
CN101197703B (zh) 2006-12-08 2011-05-04 华为技术有限公司 对Zigbee网络进行管理的方法及***及设备
DE102007007830A1 (de) 2007-02-16 2008-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
EP2137973B1 (en) * 2007-04-12 2019-05-01 InterDigital VC Holdings, Inc. Methods and apparatus for video usability information (vui) for scalable video coding (svc)
US7778839B2 (en) * 2007-04-27 2010-08-17 Sony Ericsson Mobile Communications Ab Method and apparatus for processing encoded audio data
KR20090004778A (ko) * 2007-07-05 2009-01-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2009088257A2 (ko) * 2008-01-09 2009-07-16 Lg Electronics Inc. 프레임 타입 식별 방법 및 장치
KR101461685B1 (ko) 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
BRPI0910811B1 (pt) 2008-07-11 2021-09-21 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, métodos para codificar e decodificar um sinal de áudio.
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
WO2010003545A1 (en) * 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. An apparatus and a method for decoding an encoded audio signal
EP2301019B1 (en) 2008-07-11 2017-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2169666B1 (en) * 2008-09-25 2015-07-15 Lg Electronics Inc. A method and an apparatus for processing a signal
KR101108060B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
US8258849B2 (en) * 2008-09-25 2012-09-04 Lg Electronics Inc. Method and an apparatus for processing a signal
WO2010053287A2 (en) * 2008-11-04 2010-05-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101315617B1 (ko) 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
CN101751925B (zh) * 2008-12-10 2011-12-21 华为技术有限公司 一种语音解码方法及装置
KR101316979B1 (ko) 2009-01-28 2013-10-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코딩
KR101622950B1 (ko) 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US20120065753A1 (en) 2009-02-03 2012-03-15 Samsung Electronics Co., Ltd. Audio signal encoding and decoding method, and apparatus for same
KR20100090962A (ko) * 2009-02-09 2010-08-18 주식회사 코아로직 멀티채널 오디오 디코더, 그 디코더를 포함한 송수신 장치 및 멀티채널 오디오 디코딩 방법
US8780999B2 (en) * 2009-06-12 2014-07-15 Qualcomm Incorporated Assembling multiview video coding sub-BITSTREAMS in MPEG-2 systems
US8411746B2 (en) * 2009-06-12 2013-04-02 Qualcomm Incorporated Multiview video coding over MPEG-2 systems
EP3352168B1 (en) 2009-06-23 2020-09-16 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain
WO2011010876A2 (ko) * 2009-07-24 2011-01-27 한국전자통신연구원 Mdct 프레임과 이종의 프레임 연결을 위한 윈도우 처리 방법 및 장치, 이를 이용한 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
US20140019146A1 (en) 2014-01-16
TWI480860B (zh) 2015-04-11
KR20140018929A (ko) 2014-02-13
CN107342091B (zh) 2021-06-15
US20170270938A1 (en) 2017-09-21
KR20160056328A (ko) 2016-05-19
HK1245491A1 (zh) 2018-08-24
CA2830439C (en) 2016-10-04
JP2014509754A (ja) 2014-04-21
EP2686848A1 (en) 2014-01-22
TWI571863B (zh) 2017-02-21
SG194199A1 (en) 2013-12-30
WO2012126893A1 (en) 2012-09-27
CN103703511B (zh) 2017-08-22
AU2016203416B2 (en) 2017-12-14
CA2830633C (en) 2017-11-07
RU2013146530A (ru) 2015-04-27
AU2012230440A1 (en) 2013-10-31
AU2016203416A1 (en) 2016-06-23
CA2830631A1 (en) 2012-09-27
AU2012230442A8 (en) 2013-11-21
KR101748756B1 (ko) 2017-06-19
CN103562994B (zh) 2016-08-17
CN107516532B (zh) 2020-11-06
US9779737B2 (en) 2017-10-03
BR112013023945A2 (pt) 2022-05-24
KR101748760B1 (ko) 2017-06-19
CA2830633A1 (en) 2012-09-27
US10290306B2 (en) 2019-05-14
KR101767175B1 (ko) 2017-08-10
MX2013010536A (es) 2014-03-21
AU2016203419B2 (en) 2017-12-14
RU2013146526A (ru) 2015-04-27
AR088777A1 (es) 2014-07-10
AR085446A1 (es) 2013-10-02
TW201243827A (en) 2012-11-01
US20180233155A1 (en) 2018-08-16
WO2012126866A1 (en) 2012-09-27
KR101742136B1 (ko) 2017-05-31
CN103620679A (zh) 2014-03-05
RU2571388C2 (ru) 2015-12-20
JP6007196B2 (ja) 2016-10-12
RU2013146528A (ru) 2015-04-27
SG193525A1 (en) 2013-10-30
MY167957A (en) 2018-10-08
TWI488178B (zh) 2015-06-11
MY163427A (en) 2017-09-15
US9773503B2 (en) 2017-09-26
AU2016203419A1 (en) 2016-06-16
EP2686847A1 (en) 2014-01-22
CN103620679B (zh) 2017-07-04
CA2830631C (en) 2016-08-30
KR101854300B1 (ko) 2018-05-03
JP2014510310A (ja) 2014-04-24
TW201303853A (zh) 2013-01-16
US20140016785A1 (en) 2014-01-16
KR20140000337A (ko) 2014-01-02
AU2016203417A1 (en) 2016-06-23
TW201246190A (en) 2012-11-16
CN107516532A (zh) 2017-12-26
US20140016787A1 (en) 2014-01-16
AU2012230442A1 (en) 2013-10-31
US9524722B2 (en) 2016-12-20
KR20160056952A (ko) 2016-05-20
KR20160056953A (ko) 2016-05-20
US9972331B2 (en) 2018-05-15
BR112013023949A2 (pt) 2017-06-27
WO2012126891A1 (en) 2012-09-27
AU2012230415B2 (en) 2015-10-29
CN107342091A (zh) 2017-11-10
CA2830439A1 (en) 2012-09-27
MX2013010537A (es) 2014-03-21
AR085445A1 (es) 2013-10-02
KR101712470B1 (ko) 2017-03-22
JP2014512020A (ja) 2014-05-19
AU2016203417B2 (en) 2017-04-27
AU2012230415A1 (en) 2013-10-31
MX2013010535A (es) 2014-03-12
KR20140000336A (ko) 2014-01-02
EP2686849A1 (en) 2014-01-22
AU2012230442B2 (en) 2016-02-25
CN103562994A (zh) 2014-02-05
KR101742135B1 (ko) 2017-05-31
AU2012230440C1 (en) 2016-09-08
JP5820487B2 (ja) 2015-11-24
KR20160058191A (ko) 2016-05-24
CN103703511A (zh) 2014-04-02
AU2012230440B2 (en) 2016-02-25
RU2589399C2 (ru) 2016-07-10

Similar Documents

Publication Publication Date Title
JP5805796B2 (ja) 柔軟なコンフィギュレーション機能性を有するオーディオエンコーダおよびデコーダ
KR20100087661A (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
KR20190085144A (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합
RU2575390C2 (ru) Кодер аудио и декодер, имеющий гибкие функциональные возможности конфигурации
AU2012230415B9 (en) Audio encoder and decoder having a flexible configuration functionality

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140902

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20141127

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20141208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150902

R150 Certificate of patent or registration of utility model

Ref document number: 5805796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250