JP4685165B2 - 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法 - Google Patents

仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法 Download PDF

Info

Publication number
JP4685165B2
JP4685165B2 JP2008522700A JP2008522700A JP4685165B2 JP 4685165 B2 JP4685165 B2 JP 4685165B2 JP 2008522700 A JP2008522700 A JP 2008522700A JP 2008522700 A JP2008522700 A JP 2008522700A JP 4685165 B2 JP4685165 B2 JP 4685165B2
Authority
JP
Japan
Prior art keywords
cld
quantization
channel
vsli
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008522700A
Other languages
English (en)
Other versions
JP2009502086A (ja
Inventor
ソ、ジョン、イル
カン、キョン、オク
ホン、ジン、ウー
キム、クワン、キ
バク、スン、クウォン
ハン、ミン、スー
チョン、サン、ベ
スン、ケン、モ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Priority claimed from PCT/KR2006/002824 external-priority patent/WO2007011157A1/en
Publication of JP2009502086A publication Critical patent/JP2009502086A/ja
Application granted granted Critical
Publication of JP4685165B2 publication Critical patent/JP4685165B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、マルチチャネルオーディオ信号の空間オーディオ符号化(SAC:Spatial Audio Coding)及びこれによって生成されたオーディオビットストリームの復号化に関し、具体的には、マルチチャネルオーディオ信号のSACベースの符号化時に空間パラメータとして利用されるチャネル間レベル差(Channel Level Difference:CLD)の効率的な量子化及び逆量子化に関する。
空間オーディオ符号化(SAC)は、既存のステレオオーディオシステムと互換性を維持しながらマルチチャネルオーディオ信号を効果的に圧縮するための技術である。MPEGでは、2002年から“MPEG Surround”という名称でSAC技術に対する標準化が進行中である。SACに対する具体的な技術的事項は、ISO/IECの作業文書ISO/IEC CD14996−x(以下、“SAC標準文書”という、2005年2月18日公開)に詳しく記載されているので、これを参照してほしい。
具体的に、SAC技法は、N(N2)個のマルチチャネルオーディオ信号をモノーまたはステレオで合わせられたダウンミックス信号とマルチチャネルオーディオ信号に対する人間の知覚特性を示す付加的な空間パラメータ集合を利用して符号化することによって、送信効率を向上させる符号化技法である。空間パラメータとして、時間−周波数による2個チャネル間レベル差(Channel Level Difference:CLD)、時間−周波数による2個チャネル間類似度(Inter channel Correlation/Coherences:ICC)、予測によって2個チャネルから第3チャネルの再生が可能にするためのチャネル予測係数(Channel Prediction Coefficient:CPC)などが利用されることができる。
CLDは、各チャネルのパワー利得を復元するのに核心になる要素であって、SAC符号化過程でCLDを抽出する方式にはさまざまなものがある。図1aに示されたように、1個の基準チャネルに基づいて基準チャネルと残りの他のチャネル間のパワー比でCLDを表現する方式がある。例えば、6個のチャネル信号(L、R、C、LFE、Ls、Rs)が存在する場合に、1個の基準チャネルから5個のパワー比を得ることができ、それぞれに常用ログを取った値がCLD1乃至CLD5に該当する。
一方、図1bに示されたように、マルチチャネルをいくつかのチャネル対に分けて各対をステレオに基づいて解釈し、それぞれの解釈段階で1個のCLD値を抽出する方式がある。これは、2個の入力チャネルを取って1個の出力チャネルを算出する複数のOTT(One-To-Two)モジュールを段階的に利用して行われ、各OTTでは、入力されたステレオ信号のうち1つの信号を基準チャネルとして認知し、他の1つのチャネルとのパワー比の常用ログ値をCLD値として出力する。
CLD値は、その変位範囲(dynamic range)が−∞から+∞であるため、限定されたビット数で表現するためには効率的な量子化が必要である。通常、正規化された量子化テーブルを利用してCLD量子化を行うようになる。このような量子化テーブルの一例がSAC標準文書に記載されている(SAC標準文書41ページ、テーブル57参照)。このように、限定されたビット数だけではCLDの全体値を表現することができないので、CLDの変位範囲を一定の値以下に制限するようになり、これにより、量子化誤差が発生し、スペクトル情報の歪曲現象が発生する。例えば、CLD量子化に5ビットを利用するとする時、CLDの変位範囲は、−25dBから+25dBに制限される。
したがって、本発明の目的は、マルチチャネルオーディオ信号のSACベースの符号化過程で聴覚的劣化を最小化させることができるCLD量子化及び逆量子化方法を提供することにある。
本発明の他の目的は、マルチチャネルオーディオ信号のSACに基づいた符号化過程でCLDと交替可能な仮想音源位置情報(virtual source location information:VSLI)の量子化の長所を利用して聴覚的劣化を最小化させることができるCLD量子化及び逆量子化方法を提供することにある。
本発明のさらに他の目的は、MPEG−4SACシステムでCLD量子化及び逆量子化に利用されるCLD量子化テーブルを交替することができるVSLIベースのCLD量子化テーブルを提供することによって、付加的な複雑度の増加なしに音質を向上させることにある。
上記目的を達成するために、本発明の第1態様によれば、N−チャネル(N1)オーディオ信号を空間オーディオ符号化(Spatial Audio coding:SAC)方式に基づいた符号化時に空間パラメータとして利用されるチャネル間レベル差(Channel Level Difference:CLD)パラメータを量子化するための方法が提供される。前記方法は、前記N−チャネルオーディオ信号からサブバンド別CLDを抽出する段階と、N−チャネル(N1)オーディオ信号の仮想音源位置情報(virtual source location information:VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して前記CLDを量子化する段階と、を含む。
本発明の第2態様によれば、前述したCLD量子化方法を行うためのコンピュータープログラムが記録されたコンピューターによって読み取り可能な記録媒体が提供される。
本発明の第3態様によれば、N−チャネルオーディオ信号(N1)を空間オーディオ符号化(SAC)方式に基づいて符号化するための方法が提供され、前記方法は、前記N−チャネルオーディオ信号をダウンミキシング及び符号化する段階と、 前記N−チャネルオーディオ信号からチャネル間レベル差(CLD)、チャネル間類似度(Inter channel Correlation/Coherences:ICC)及びチャネル予測係数(Channel Prediction Coefficient:CPC)を含む空間パラメータをサブバンド別に抽出する段階と、前記抽出された空間パラメータを量子化する段階と、を含み、 前記量子化段階で、前記CLDは、N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して量子化されることを特徴とする。
本発明の第4態様によれば、N−チャネルオーディオ信号(N1)を空間オーディオ符号化(SAC)方式に基づいて符号化するための装置が提供される。前記装置は、前記N−チャネルオーディオ信号をダウンミキシングしてダウンミックス信号を生成し、前記N−チャネルオーディオ信号からチャネル間レベル差(CLD)、チャネル間類似度(ICC)及びチャネル予測係数(CPC)を含む空間パラメータをサブバンド別に抽出するためのSAC符号化手段と、前記SAC符号化手段で生成されたダウンミックス信号から圧縮されたオーディオビットストリームを生成するためのオーディオ符号化手段と、前記SAC符号化手段で生成された空間パラメータを量子化するための空間パラメータ量子化手段と、前記量子化された空間パラメータ値を符号化するための空間パラメータ符号化手段と、を含み、前記量子化手段は、前記CLDをN−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して量子化することを特徴とする。
本発明の第5態様によれば、空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームの復号化時に符号化されたチャネル間レベル差(CLD)量子化値を逆量子化するための方法が提供される。前記符号化されたCLD量子化値をハフマン復号化する段階と、N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを利用して前記復号化されたCLD量子化値を逆量子化する段階と、を含む。
本発明の第6態様によれば、前述したCLD逆量子化方法を行うためのコンピュータープログラムが記録されたコンピューターによって読み取り可能な記録媒体が提供される。
本発明の第7態様によれば、空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームの復号化方法が提供される。前記方法は、前記符号化されたオーディオビットストリームを復号化する段階と、前記符号化されたオーディオビットストリームとともに受信された空間パラメータの量子化値を逆量子化する段階と、前記逆量子化された空間パラメータに基づいて前記復号化されたオーディオビットストリームを合成してN−チャネルオーディオ信号を復元する段階と、を含み、前記空間パラメータの量子化値を逆量子化する段階で、前記空間パラメータに含まれるCLDは、N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して逆量子化されることを特徴とする。
本発明の第8態様によれば、空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームを復号化するための装置が提供される。前記装置は、前記符号化されたオーディオビットストリームを復号化するための手段と、前記符号化されたオーディオビットストリームとともに受信された符号化された空間パラメータの量子化値を復号化するための手段と、 前記復号化された空間パラメータの量子化値を逆量子化するための手段と、前記逆量子化された空間パラメータに基づいて前記復号化されたオーディオビットストリームを合成してN−チャネルオーディオ信号を復元するための手段と、を含み、前記空間パラメータの量子化値を逆量子化するための手段は、前記空間パラメータに含まれるCLDをN−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して逆量子化することを特徴とする。
本発明によって生成されたVSLIベースのCLD量子化テーブルは、既存のSACシステムで利用されるCLD量子化テーブルの代わりに利用されることができる。本発明によるCLD量子化テーブルを利用することによって、聴覚的劣化を最大限防止することができ、CLDインデックスを圧縮するために本発明で提案するハフマンコードブックを利用することによって、CLDを伝送するのに必要なビット率を減少させることができる。
以下では、本発明を添付の図面に示された実施例と関連して例示的に詳しく説明する。しかし、以下の詳細な説明は、ただ例示的な目的で提供されるもので、本発明の概念を任意の特定された物理的構成に限定するものと解釈すべきではない。
図2は、本発明が適用される空間オーディオ符号化(SAC)システムの構成を概略的に示す図である。図示のように、SACシステムは、N−チャネルオーディオ信号からダウンミックス信号及び空間パラメータを生成し、これを符号化して伝送する符号化側と、符号化側から伝送されたオーディオビットストリーム及び空間パラメータを利用してN−チャネルオーディオ信号を復元する復号化側とに分けられることができる。符号化側には、SAC符号化器210、オーディオ符号化器220、空間パラメータ量子化器及び符号化器230、240が含まれ、復号化側には、オーディオ復号化器250、空間パラメータ復号化器及び逆量子化器260、270、SAC復号化器280が含まれる。
SAC符号化器210は、入力されたN−チャネルオーディオ信号からダウンミックス信号を生成し、N−チャネルオーディオ信号に対する空間特性を分析することによって、チャネル間レベル差(CLD)、チャネル間類似度(ICC)、チャネル予測係数(CPC)などのような空間パラメータを抽出する。
具体的に、SAC符号化器210に入力されたN(N1)個のマルチチャネル信号は、解釈フィルターバンク(analysis filter bank)によって周波数バンドに分解される。周波数領域のサブバンドに分割する方法として、低い複雑度でこれを行うためにQMF(quadrature mirror filter)が使われる。サブバンド信号から空間知覚と関連された空間特性を解釈し、チャネル間レベル差(CLD)、チャネル間類似度(ICC)、チャネル予測係数(CPC)などの空間パラメータが符号化動作モードによって選択的に抽出される。また、サブバンド信号は、ダウンミキシングされ、QMF合成バンクを通じて時間領域のダウンミックス信号に変換される。
代案的に、ダウンミックス信号は、音響エンジニアによって事前−製作されたダウンミックス(artistic/hand-mixed down mix)信号に代替されることができる。この時、SAC符号化器210では、提供されたダウンミックス信号に基づいて空間パラメータを調整した後に伝送することによって、復号化器でのマルチチャネル復元を最適化する。
オーディオ符号化器220は、SAC符号化器210で生成されるか、又は事前−製作されたダウンミックス信号を既存のオーディオ圧縮技術(例えば、MPEG−4 AAC、MPEG−4 HE−AAC及びMPEG−4 BSACなど)を利用して圧縮することによって、圧縮されたオーディオビットストリームを生成する。
一方、SAC符号化器210によって生成された空間パラメータは、空間パラメータ量子化器及び符号化器230、240によって量子化及び符号化されて伝送される。空間パラメータ量子化器230は、空間パラメータとして利用されるCLD、ICC、CPC各々の量子化に利用される量子化テーブルを具備する。後述するように、空間パラメータ量子化器230に既存の正規化されたCLD量子化テーブルを利用してCLDを量子化することによる聴覚的劣化を最小化させるために、本発明で提案するVSLIベースのCLD量子化テーブルが利用されることができる。
空間パラメータ符号化器240は、量子化器230によって量子化された空間パラメータ値を圧縮するためにエントロピー符号化を行う。好ましくは、ハフマンコードブックを利用して空間パラメータの量子化インデックスに対するハフマン符号化が行われることができる。後述するように、本発明では、CLD量子化インデックスの送信効率を最大化させるために新しいハフマンコードブックを提案する。
オーディオ復号化器250は、既存のオーディオ圧縮技術(例えば、MPEG−4 AAC、MPEG−4 HE−AAC及びMPEG−4 BSACなど)を通じて圧縮されたオーディオビットストリームを復号化する。
空間パラメータ復号化器及び逆量子化器260、270は、量子化器及び符号化器230、240によって行われた量子化及び符号化の逆過程を行うモジュールである。復号化器260は、ハフマンコードブックに基づいて符号化された空間パラメータの量子化インデックスを復号化し、逆量子化器270は、量子化テーブルから量子化インデックスに対応する空間パラメートル値を求める。空間パラメータの量子化及び符号化と同様に、空間パラメータの復号化及び逆量子化過程でも本発明で提案するVSLIベースのCLD量子化テーブル及びハフマンコードブックが利用されることができる。
SAC復号化器280は、オーディオ復号化器250によって復号化されたオーディオビートストリームと逆量子化器270によって求められた空間パラメータを合成し、N個のマルチチャネルオーディオ信号を復元する。代案的に、マルチチャネルオーディオの復号化が不可能な場合には、既存のオーディオ復号化器を利用してダウンミックス信号のみを復号化することができるので、独立的なサービスが可能である。したがって、既存のモノーまたはステレオオーディオ符号化システムと互換性を提供することができる。
本発明の核心は、マルチチャネルオーディオ信号の空間オーディオイメージを表現する仮想音源位置情報(VSLI)の量子化の長所を活用して量子化による聴覚的劣化を最小化させることができるCLD量子化及びこれによって算出されたCLD量子化テーブルを提供することにある。本発明は、空間オーディオイメージの方位角表現において3度以内の誤差は人間の聴覚が認知しにくいという点に着目する。したがって、方位角で表現されるVSLIは、90度の限定された変位範囲を有するので、量子化するにあたって変位範囲の制限によって発生する量子化誤差を避けることができる。このようなVSLIの量子化の長所に基づいてCLD量子化テーブルを設計する場合、量子化による聴覚的劣化を最小化させることができる。
図3a及び図3bは、本発明によってCLD量子化の基準になる仮想音源位置情報(VSLI)の概念を説明するための図である。図3aは、2個のスピーカーが60度の角を成すステレオスピーカー環境を示す図であり、図3bは、図3aに示されたステレオスピーカー環境でのステレオオーディオ信号をダウンミックスされた信号のパワーと仮想音源位置情報(VSLI)で表現した図である。図示のように、ステレオまたはマルチチャネルオーディオ信号は、ダウンミックスオーディオ信号の大きさベクトルとマルチチャネルオーディオ信号のチャネル別パワーを分析することによって得ることができる仮想音源位置情報(VSLI)で表現されることができる。このように表現されたマルチチャネルオーディオ信号は、大きさベクトルを音源の位置ベクトルによって投射させることによって復元されることができる。
図3a及び図3bに示されたように、左側スピーカーから出る信号のパワーをP、右側から出る信号のパワーをPと言い、左側スピーカーと右側スピーカーの角をそれぞれAとAと言えば、音源のVSLIは、数式1と数式2で求めることができる。
Figure 0004685165
Figure 0004685165
このように求めたVSLIは、AとA間の値を有し、VSLIからPとPは次のように復元されることができる。まず、VSLIを数式3のようにCPP(Constant Power Panning)法則を利用して0度から90度間の値(VSLI’)にマッピングする。
Figure 0004685165
このようにマッピングされたVSLI’とダウンミックスされた信号のパワーPを利用して数式4と数式5のようにPとPを求める。
Figure 0004685165
Figure 0004685165
前述したように、本発明の核心は、前述したVSLIの量子化の長所を空間パラメータであるCLD量子化に適用させることにある。図3aのステレオスピーカー環境でCLDは、数式6のように表現されることができる。
Figure 0004685165
CLDは、VSLIから数式7によって導き出されることができる。
Figure 0004685165
また、次の数式に定義されたように、CLDは、仮想音源位置情報(VSLI)に常用ログの代わりに自然ログを取って求められることもできる。
Figure 0004685165
前記数式7または8によって求められたCLD値は、一般的なSACシステムの空間パラメータとしてすぐ使用可能である。
前述したように、CLDは、−∞から+∞の変位範囲を有するので、限定されたビット数を持って量子化するにあたって問題点が発生する。代表的なものが変位範囲の制限によって生ずる量子化誤差である。限定されたビット数を持ってCLDの全体変位範囲を表現することができないので、CLDの変位範囲を一定値以下に制限するようになる。これにより、量子化誤差が発生するようになり、スペクトル情報歪曲現象が生ずるようになる。CLD量子化に5ビットを使用するという時、CLDの変位範囲は、一般的に−25dBから+25dBに制限される。
これに対し、VSLIは、90度という限定された変位範囲を有するので、量子化するにあたって変位範囲の制限によって発生する量子化誤差を避けることができる。
一実施例で、VSLI量子化時にCLD量子化に使用される5ビットをそのまま使用し、線形量子化器を適用した場合、量子化レベルは31になり、量子化間隔は3度になる。人間がオーディオ信号の空間イメージを認知するにあたって3度以下の差異は認知しないという事実からVSLI量子化技法の妥当性を確認することができる。
このようなVSLIが有する量子化の長所をステレオコーディング方法のCLD量子化に適用することによって、既存のSACシステムで利用されたCLD量子化テーブルをVSLIベースのCLD量子化テーブルに交替することができる。
一実施例で、VSLIを3度の量子化間隔で5ビット線形量子化したVSLI量子化値とこれに対応するCLD変換値は、表1の通りである。
Figure 0004685165
また、VSLI量子化のためのVSLI境界値(decision level)は、隣接量子化値間の中間値で決定され、この中間値をCLDに変換し、CLD量子化の境界値として利用する。VSLIベースのCLD量子化境界値は、一般的なCLD量子化での境界値が隣接量子化値の中間値を有することとは異なって、表2から分かるように、隣接量子化値の中間値でない他の値を有するようになる。
図4は、本発明によってVSLIの量子化値から変換されたCDL量子化値をグラフで表現した図である。図示のように、45度を基準にして均一な角度でVSLIを量子化した場合に、量子化された角間の境界値は、2つの角間の中間値になるが、このようなVSLI境界値をCLD値に変換すれば、隣接する2つのCLD値の中間値でない他の値で表現されることが分かる。下記の表2は、VSLI量子化の境界値とこれに対応するCLD変換値を示す。
Figure 0004685165
下記の表3乃至表7は、表1と表2の値を利用して生成されたVSLIベースのCLD量子化テーブルを示し、表3は、小数4桁までCLD量子化値を表現し、表4は、小数3桁、表5は、小数2桁、表6は、小数1桁まで、表7は、整数でCLD量子化値を表現した。
VSLIを利用したCLD量子化変換値は、常用ログまたは自然ログを取って求めることができる。自然ログを取った場合、CLD値を利用してスペクトル情報を復元する時、基数を10ではない指数関数(exponential)を使用すれば良い。
Figure 0004685165
Figure 0004685165
Figure 0004685165
Figure 0004685165
Figure 0004685165
次に、VSLIベースのCLD量子化テーブルに対する各小数点桁別境界値は、表8、9、10、11、12の通りである。
Figure 0004685165
Figure 0004685165
Figure 0004685165
Figure 0004685165
Figure 0004685165
表7及び表12に記載されたように、CLD量子化及び量子化境界値を常用ログを取って整数で表現する場合に、一部のCLD量子化値と境界値とが同一になる問題点が発生することが分かる。したがって、好ましくは、自然ログを利用したCLD量子化値と中間値を実際量子化に利用する。すなわち、整数で表現されたVSLIベースのCLD量子化テーブル及び量子化境界値を利用しようとする場合には、VSLIに常用ログではない自然ログを取ることによって、CLD量子化値を導き出す。
このように生成されたVSLIベースのCLD量子化テーブルを図2に示されたSACシステムの空間パラメータ量子化器230及び逆量子化器270に採用することによって、CLD量子化誤差による聴覚的劣化を最小化させることができる。
また、本発明では、前述したVSLIベースのCLD量子化テーブルに基づいて導き出されたCLDの量子化インデックスに対するハフマン符号化を最適化させることができるハフマンコードブックを提案する。
SACシステムでマルチチャネルオーディオ信号は、フィルターバンクによって周波数領域のサブバンドに分割されて処理される。20個のサブバンドに分割されて処理される場合に、このようなサブバンド別量子化インデックスに差分(differential)コーディング方法を適用して一番目のバンドの量子化インデックスと残りの19個の隣接バンド間の差分インデックスとに分類する。代案的に、隣接するフレーム間の差分インデックスに分けることもできる。このように分類された3種類のインデックス各々に対して確率分布を計算した後、ハフマンコーディング方法を適用して、下記の表13、14に記載されたハフマンコードブックを得ることができる。表13は、一番目のバンドのインデックスに対するハフマンコードブックであり、表14は、残りの隣接バンド間の差分インデックスに対するハフマンコードブックである。
Figure 0004685165
Figure 0004685165
このように本発明で提案するハフマンコードブックを図2に示されたSACシステムの空間パラメータ符号化器240及び復号化器260に採用することによって、CLD量子化インデックスを伝送するのに必要なビット率を低減することができる。
代案的に、20個のサブバンドにハフマン符号化に使われるビット数が100を超えると、各サブバンド別に5ビットPCMコーディングを行うことができる。
本発明は、1つ以上の製造物上に具現された1つ以上のコンピューター読み取り可能な媒体として提供されることができる。製造物は、フロッピーディスク、ハードディスク、CD ROM、フラッシュメモリーカード、PROM、RAM、ROM、または磁気テープを挙げることができる。一般的に、コンピューター読み取り可能なプログラムは、任意のプログラミング言語で具現されることができる。使用されることができる言語の一部の例には、C、C++、またはJAVAが含まれる。
以上、特定の実施例と関連して本発明を説明したが、本発明は、前述した実施例及び添付の図面に限定されるものではなく、本発明の技術的思想を逸脱しない範囲内で、様々な置換、変形及び変更が可能であることが本発明の属する技術分野における通常の知識を有する者にとって明白であろう。
マルチチャネル信号からチャネル間レベル差(channel level difference:CLD)値を抽出する過程を概念的に示す図である。 マルチチャネル信号からチャネル間レベル差(channel level difference:CLD)値を抽出する過程を概念的に示す図である。 本発明が適用される空間オーディオ符号化(spatial audio coding:SAC)システムの構成を概略的に示す図である。 本発明によってCLD量子化の基準になる仮想音源位置情報(virtual source location information:VSLI)の概念を説明するための図である。 本発明によってCLD量子化の基準になる仮想音源位置情報(virtual source location information:VSLI)の概念を説明するための図である。 本発明によってVSLI量子化値から導き出されたCDL量子化値をグラフで示す図である。

Claims (26)

  1. N−チャネル(N1)オーディオ信号を空間オーディオ符号化(Spatial Audio coding:SAC)方式に基づいた符号化時に空間パラメータとして利用されるチャネル間レベル差(Channel Level Difference:CLD)パラメータを量子化するための方法において、
    前記N−チャネルオーディオ信号からサブバンド別CLDを抽出する段階と、
    N−チャネル(N1)オーディオ信号の仮想音源位置情報(virtual source location information:VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して前記CLDを量子化する、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、段階と、
    を含むCLD量子化方法。
  2. 前記VSLIの量子化値は、0度から90度間で一定の量子化間隔で量子化されることを特徴とする請求項1に記載のCLD量子化方法。
  3. 前記一定の量子化間隔は、3度であることを特徴とする請求項2に記載のCLD量子化方法。
  4. 前記CLD量子化値は、次の数式1によってVSLI量子化値から導き出されることを特徴とする請求項1に記載のCLD量子化方法。
    Figure 0004685165
  5. 前記CLD量子化値は、次の数式2によってVSLI量子化値から導き出されることを特徴とする請求項1に記載のCLD量子化方法。
    Figure 0004685165
  6. 前記CLD量子化のための境界値(decision level)は、VSLI量子化のためのVSLI境界値から導き出されることを特徴とする請求項1に記載のCLD量子化方法。
  7. 前記VSLIベースのCLD量子化テーブルは、
    Figure 0004685165
    であることを特徴とする請求項1に記載のCLD量子化方法。
  8. 前記VSLIベースのCLD量子化テーブルに連関されたCLD量子化境界値は、
    Figure 0004685165
    であることを特徴とする請求項7に記載のCLD量子化方法。
  9. 前記CLDの量子化インデックスに対してハフマン符号化を行う段階をさらに含むことを特徴とする請求項1に記載のCLD量子化方法。
  10. 前記ハフマン符号化は、第1サブバンドの量子化インデックスに対して下記ハフマンコードブックを参照して行われることを特徴とする請求項9に記載のCLD量子化方法。
    Figure 0004685165
  11. 前記ハフマン符号化は、前記第1サブバンド以外の残りのサブバンドの量子化インデックスに対して下記ハフマンコードブックを参照して行われることを特徴とする請求項10に記載のCLD量子化方法。
    Figure 0004685165
  12. 請求項1乃至11のいずれかに記載のCLD量子化方法を行うためのコンピュータープログラムが記録されたコンピューターによって読み取り可能な記録媒体。
  13. N−チャネルオーディオ信号(N1)を空間オーディオ符号化(SAC)方式に基づいて符号化するための方法において、
    前記N−チャネルオーディオ信号をダウンミキシング及び符号化する段階と、
    前記N−チャネルオーディオ信号からチャネル間レベル差(CLD)、チャネル間類似度(Inter channel Correlation/Coherences:ICC)及びチャネル予測係数(Channel Prediction Coefficient:CPC)を含む空間パラメータをサブバンド別に抽出する段階と、
    前記抽出された空間パラメータを量子化する段階と、を含み、
    前記量子化段階で、前記CLDは、N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して量子化され、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、
    ことを特徴とするN−チャネルオーディオ信号のSACに基づいた符号化方法。
  14. N−チャネルオーディオ信号(N1)を空間オーディオ符号化(SAC)方式に基づいて符号化するための装置において、
    前記装置は、
    前記N−チャネルオーディオ信号をダウンミキシングしてダウンミックス信号を生成し、前記N−チャネルオーディオ信号からチャネル間レベル差(CLD)、チャネル間類似度(ICC)及びチャネル予測係数(CPC)を含む空間パラメータをサブバンド別に抽出するためのSAC符号化手段と、
    前記SAC符号化手段で生成されたダウンミックス信号から圧縮されたオーディオビットストリームを生成するためのオーディオ符号化手段と、
    前記SAC符号化手段で生成された空間パラメータを量子化するための空間パラメータ量子化手段と、
    前記量子化された空間パラメータ値を符号化するための空間パラメータ符号化手段と、を含み、
    前記量子化手段は、前記CLDをN−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して量子化し、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、
    ことを特徴とするSACに基づいたオーディオ符号化装置。
  15. 前記VSLIベースのCLD量子化テーブルは、
    Figure 0004685165
    であることを特徴とする請求項14に記載のSACに基づいたオーディオ符号化装置。
  16. 前記VSLIベースのCLD量子化テーブルに連関されたCLD量子化境界値は、
    Figure 0004685165
    であることを特徴とする請求項15に記載のSACに基づいたオーディオ符号化装置。
  17. 空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームの復号化時に符号化されたチャネル間レベル差(CLD)量子化値を逆量子化するための方法において、
    前記符号化されたCLD量子化値をハフマン復号化する段階と、
    N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを利用して前記復号化されたCLD量子化値を逆量子化する、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、段階と、
    を含むCLD逆量子化方法。
  18. 前記VSLIベースのCLD量子化テーブルは、
    Figure 0004685165
    であることを特徴とする請求項17に記載のCLD逆量子化方法。
  19. 前記VSLIベースのCLD量子化テーブルに連関されたCLD量子化境界値は、
    Figure 0004685165
    であることを特徴とする請求項18に記載のCLD逆量子化方法。
  20. 前記符号化されたCLD量子化値をハフマン復号化する段階で、第1サブバンドのCLD量子化値は、下記ハフマンコードブックを参照して復号化されることを特徴とする請求項17に記載のCLD逆量子化方法。
    Figure 0004685165
  21. 前記符号化されたCLD量子化値をハフマン復号化する段階で、前記第1サブバンド以外の残りのバンドのCLD量子化値は、下記ハフマンコードブックを参照して復号化されることを特徴とする請求項20に記載のCLD逆量子化方法。
    Figure 0004685165
  22. 請求項17乃至21のいずれかに記載のCLD逆量子化方法を行うためのコンピュータープログラムが記録されたコンピューターによって読み取り可能な記録媒体。
  23. 空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームの復号化方法において、
    前記符号化されたオーディオビットストリームを復号化する段階と、
    前記符号化されたオーディオビットストリームとともに受信された空間パラメータの量子化値を逆量子化する段階と、
    前記逆量子化された空間パラメータに基づいて前記復号化されたオーディオビットストリームを合成してN−チャネルオーディオ信号を復元する段階と、を含み、
    前記空間パラメータの量子化値を逆量子化する段階で、前記空間パラメータに含まれるCLDは、N−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して逆量子化され、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、
    ことを特徴とするSACに基づいたオーディオ復号化方法。
  24. 空間オーディオ符号化(SAC)方式に基づいて符号化されたN−チャネル(N1)オーディオビットストリームを復号化するための装置において、
    前記装置は、
    前記符号化されたオーディオビットストリームを復号化するための手段と、
    前記符号化されたオーディオビットストリームとともに受信された符号化された空間パラメータの量子化値を復号化するための手段と、
    前記復号化された空間パラメータの量子化値を逆量子化するための手段と、
    前記逆量子化された空間パラメータに基づいて前記復号化されたオーディオビットストリームを合成してN−チャネルオーディオ信号を復元するための手段と、を含み、
    前記空間パラメータの量子化値を逆量子化するための手段は、前記空間パラメータに含まれるCLDをN−チャネル(N1)オーディオ信号の仮想音源位置情報(VSLI)量子化値から導き出されたCLD量子化値を利用して設計されたVSLIベースのCLD量子化テーブルを参照して逆量子化し、前記VSLIは、前記N−チャネルオーディオ信号のチャネル別パワーとチャネル音源間別角度とに基づいて求められる、
    ことを特徴とするSACに基づいたオーディオ復号化装置。
  25. 前記VSLIベースのCLD量子化テーブルは、
    Figure 0004685165
    であることを特徴とする請求項24に記載のSACに基づいたオーディオ復号化装置。
  26. 前記VSLIベースのCLD量子化テーブルに連関されたCLD量子化境界値は、
    Figure 0004685165
    であることを特徴とする請求項25に記載のSACに基づいたオーディオ復号化装置。
JP2008522700A 2005-07-19 2006-07-19 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法 Expired - Fee Related JP4685165B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20050065515 2005-07-19
KR20050096256 2005-10-12
KR1020060066822A KR100755471B1 (ko) 2005-07-19 2006-07-18 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
PCT/KR2006/002824 WO2007011157A1 (en) 2005-07-19 2006-07-19 Virtual source location information based channel level difference quantization and dequantization method

Publications (2)

Publication Number Publication Date
JP2009502086A JP2009502086A (ja) 2009-01-22
JP4685165B2 true JP4685165B2 (ja) 2011-05-18

Family

ID=38012181

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008522700A Expired - Fee Related JP4685165B2 (ja) 2005-07-19 2006-07-19 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法

Country Status (4)

Country Link
JP (1) JP4685165B2 (ja)
KR (1) KR100755471B1 (ja)
CN (1) CN101223598B (ja)
AT (1) ATE511691T1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3712888B1 (en) * 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
JP5098458B2 (ja) * 2007-06-20 2012-12-12 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
KR101268616B1 (ko) * 2008-07-14 2013-05-29 한국전자통신연구원 오디오 채널 코딩의 성능 향상을 위한 채널간 정보 파라미터 양자화 방법 및 그 장치
KR101613975B1 (ko) 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
CN102157151B (zh) 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和***
WO2011097903A1 (zh) 2010-02-11 2011-08-18 华为技术有限公司 多声道信号编码、解码方法、装置及编解码***
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR20120038311A (ko) 2010-10-13 2012-04-23 삼성전자주식회사 공간 파라미터 부호화 장치 및 방법,그리고 공간 파라미터 복호화 장치 및 방법
WO2013149670A1 (en) 2012-04-05 2013-10-10 Huawei Technologies Co., Ltd. Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder
CN104464742B (zh) * 2014-12-31 2017-07-11 武汉大学 一种3d音频空间参数全方位非均匀量化编码***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002511683A (ja) * 1998-04-07 2002-04-16 ドルビー、レイ・ミルトン 低ビットレート空間符号化方法及び装置
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3664416B2 (ja) * 1996-06-18 2005-06-29 Ykk Ap株式会社 建物の柵構造
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP3582589B2 (ja) * 2001-03-07 2004-10-27 日本電気株式会社 音声符号化装置及び音声復号化装置
KR100378796B1 (ko) * 2001-04-03 2003-04-03 엘지전자 주식회사 디지탈 오디오 부호화기 및 복호화 방법
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
KR100923297B1 (ko) * 2002-12-14 2009-10-23 삼성전자주식회사 스테레오 오디오 부호화 방법, 그 장치, 복호화 방법 및그 장치
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002511683A (ja) * 1998-04-07 2002-04-16 ドルビー、レイ・ミルトン 低ビットレート空間符号化方法及び装置
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
JP2004078183A (ja) * 2002-06-24 2004-03-11 Agere Systems Inc オーディオ信号のマルチチャネル/キュー符号化/復号化

Also Published As

Publication number Publication date
KR20070011136A (ko) 2007-01-24
CN101223598B (zh) 2011-07-20
KR100755471B1 (ko) 2007-09-05
ATE511691T1 (de) 2011-06-15
JP2009502086A (ja) 2009-01-22
CN101223598A (zh) 2008-07-16

Similar Documents

Publication Publication Date Title
JP4685165B2 (ja) 仮想音源位置情報に基づいたチャネル間レベル差量子化及び逆量子化方法
KR101664434B1 (ko) 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP6170520B2 (ja) オーディオ及び/またはスピーチ信号符号化及び/または復号化方法及び装置
KR101139880B1 (ko) 주파수 영역 위너 필터링을 사용한 공간 오디오 코딩을 위한 시간적 엔벨로프 정형화
JP4521032B2 (ja) 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
EP1905034B1 (en) Virtual source location information based channel level difference quantization and dequantization
RU2665214C1 (ru) Стереофонический кодер и декодер аудиосигналов
JP2009510514A (ja) マルチチャネルオーディオ信号の符号化/復号化方法及び装置
JP2013506164A (ja) オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、コンピュータプログラム、及び共通するオブジェクト間相関パラメータ値を用いるビットストリーム
CN103329197A (zh) 用于反相声道的改进的立体声参数编码/解码
KR20060109299A (ko) 멀티채널 오디오 신호에 대한 서브밴드별 공간 정보들의부호-복호화 방법
US20240153512A1 (en) Audio codec with adaptive gain control of downmixed signals
US11176954B2 (en) Encoding and decoding of multichannel or stereo audio signals
CN105336334B (zh) 多声道声音信号编码方法、解码方法及装置
US20190096410A1 (en) Audio Signal Encoder, Audio Signal Decoder, Method for Encoding and Method for Decoding
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기
KR20070035410A (ko) 멀티 채널 오디오 신호의 공간 정보 부호화/복호화 방법 및장치
KR20130112819A (ko) 대역폭 확장 부호화 및 복호화 방법 및 장치
KR20130012972A (ko) 오디오/스피치 신호 부호화방법
KR20120089230A (ko) 신호 복호화 장치
KR20070108313A (ko) 오디오 신호의 인코딩/디코딩 방법 및 장치

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110114

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110209

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140218

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S201 Request for registration of exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R314201

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees