JP2008529056A - マルチチャネル音声符号化における適応ビット割り当て - Google Patents

マルチチャネル音声符号化における適応ビット割り当て Download PDF

Info

Publication number
JP2008529056A
JP2008529056A JP2007552087A JP2007552087A JP2008529056A JP 2008529056 A JP2008529056 A JP 2008529056A JP 2007552087 A JP2007552087 A JP 2007552087A JP 2007552087 A JP2007552087 A JP 2007552087A JP 2008529056 A JP2008529056 A JP 2008529056A
Authority
JP
Japan
Prior art keywords
encoding
signal
stage
subframe
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007552087A
Other languages
English (en)
Other versions
JP4809370B2 (ja
Inventor
アニス タレブ,
ステファン アンデション,
Original Assignee
テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テレフオンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフオンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2008529056A publication Critical patent/JP2008529056A/ja
Application granted granted Critical
Publication of JP4809370B2 publication Critical patent/JP4809370B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

マルチチャネル音声信号を符号化する効率のよい技術を提供する。本発明が拠りどころとする基本原理は、第1エンコーダ(130)で複数のチャネルの1つ以上の第1の信号を符号化し、第2のマルチステージ・エンコーダ(140)で複数のチャネルの1つ以上の第2の信号を符号化することである。この手順を大幅に強化するために、マルチチャネル音声信号特性に基づき、第2マルチステージ・エンコーダ(140)の異なる符号化ステージ間に符号化ビット数を適応的に割り当てるコントローラ(150)を提供する。

Description

本発明は、音声符号化及び復号化技術に関し、具体的には、ステレオ符号化などのマルチチャネル音声符号化に関する。
高い音声品質を維持しながら音声信号を低ビットレートで伝送し保存することへの市場の要求は大きい。特に、伝送リソース又は記憶装置が限られている場合、低ビットレートでの運用はコスト要因として不可欠である。このことが典型的に当てはまるのは、例えば、GSM、UMTS又はCDMAなどのモバイル通信システムでのストリーミング及びメッセージングのアプリケーションの場合である。
図1を用いて、マルチチャネル符号化/復号化を使用する音声伝送システムの一般的な例を概略的に説明する。全体のシステムは基本的に、送信側にマルチチャネル・オーディオエンコーダ100と送信モジュール10を備え、受信側に受信モジュール20とマルチチャネル・オーディオデコーダ200を備える。
音声信号のステレオ符号化又はマルチチャネル符号化の最も単純な方法は、図2に示すように、異なるチャネルの信号を個別に独立の信号として別々に符号化することである。しかしこれでは、複数のチャネル間の冗長性は取り除かれず、ビットレートはチャネル数に比例することになる。
もう1つの基本的な方法で、ステレオFMラジオ放送で使用され、昔からあるモノラル・ラジオ受信機と互換性を確保する方法は、関与する2つのチャネルの和と差の信号を送信することである。
MPEG−1/2レイヤIII及びMPEG−2/4AACなどの最先端のオーディオコーデックは、いわゆるジョイントステレオ符号化を使用する。この技術によれば、異なるチャネルの信号は別々に個別に処理されるのではなく、一緒に処理される。最も広く使用されているジョイントステレオ符号化 (joint stereo coding) は、「Mid/Side」(M/S)ステレオ符号化及びインテンシティステレオ符号化 (intensity stereo coding) として知られる2つの符号化であり、それらは普通、符号化されるステレオ信号又はマルチチャネル信号のサブバンドに適用される。
M/Sステレオ符号化は、チャネルのサブバンドの和と差の信号を符号化して送信し、それによりチャネルのサブバンド間の冗長性を利用する点において、前述のステレオFMラジオの手順と類似している。M/Sステレオ符号化に基づくコーダの構成と動作については、例えば文献[1](特許文献1)に記載されている。
他方、インテンシティステレオは、ステレオの無関係さを使用することができる。インテンシティステレオでは、(異なるサブバンドの)チャネルの連結強度(joint intensity)を、チャネル間に信号の強度がどのように分布しているかを示す位置情報と共に送信する。インテンシティステレオでは、チャネルのスペクトル振幅情報だけを出力し、位相情報は伝達しない。このため及び、チャネル間時間情報(より具体的にはチャネル間時間差)は特に低周波数においては心理音響関連性が大きいことから、インテンシティステレオは、例えば2kHzを超える高い周波数でのみの使用とすることができる。インテンシティステレオ符号化方法は、例えば文献[2](特許文献2)に記載されている。
バイノーラルキュー符号化(BCC)と呼ばれる最近開発されたステレオ符号化方法が、文献[3](非特許文献1)に記載されている。この方法はパラメトリック・マルチチャネル音声符号化方法である。この種のパラメトリック符号化技術の基本原理は、符号化側においてN個のチャネルからの入力信号を1つのモノラル信号に合成することである。モノラル信号は、従来のどのモノラルのオーディオコーデックを使用しても符号化できる。並行して、パラメータはマルチチャネル音像を表すチャネル信号から引き出せる。パラメータは符号化され、音声ビット・ストリームと一緒にデコーダに送信される。デコーダはまずモノラル信号を復号し、次にマルチチャネル音像のパラメトリック表現に基づきチャネル信号を再生する。
バイノーラルキュー符号化(BCC)法の原理は、符号化モノラル信号及びいわゆるBCCパラメータを送信することである。BCCパラメータは、元のマルチチャネル入力信号のサブバンドに関する符号化されたチャネル間レベル差及び符号化されたチャネル間時間差を含む。デコーダは、BCCパラメータに基づき、モノラル信号のサブバンドに関するレベルならびに位相及び/又は遅延の補正を活用することにより、異なるチャネルの信号を再生する。例えばM/Sステレオ又はインテンシティステレオに対する利点は、チャネル間時間情報を備えるステレオ情報がはるかに低いビットレートで送信されることである。しかし、BCCは演算量の要求が厳しく、また、一般には聴感上の最適化ができない。
文献[4](特許文献3)に記載される別の技術は、モノラル信号及びいわゆるサイド情報 (side information) を符号化する同じ原理を使用する。この場合、サイド情報は予測フィルタ (predictor signal) 及び状況に応じて残差信号 (residual signal) で構成される。予測フィルタは、LMSアルゴリズムで推定され、モノラル信号に適用されると、マルチチャネル音声信号の予測を与える。この技術を使用して、マルチチャネル音源を非常に低いビットレートで符号化することができるが、品質低下という犠牲を伴う。
図3に、そのパラメトリック・ステレオ符号化の基本原理を示す。図3は、ダウンミキシング・モジュール120、中核のモノラルコーデック130、230、及びパラメトリック・ステレオ・サイド情報エンコーダ/デコーダ140、240を備えるステレオコーデックの構成を示している。ダウンミキシングは、マルチチャネル(この場合はステレオ)信号をモノラル信号に変換する。パラメトリック・ステレオコーデックの目的は、復元されたモノラル信号と付加的なステレオ・パラメータを与えて、デコーダでステレオ信号を再生することである。
最後に、すべてを網羅するために、3D音声で使用される技術にも触れておく。この技術は、いわゆる頭部関連フィルタで音源信号をフィルタリングして左右のチャネル信号を合成する。しかし、この技術は、分離される異なる音源信号を必要とし、それ故、一般にステレオ又はマルチチャネルの符号化に適用されることはない。
[1] 米国特許第5,285,498号 [2] 欧州特許第0,497,413号 [4] 米国特許第5,434,948号 [3] C. Faller et al., "Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, May 2002, Munich, Germany. [5] C. Faller and F. Baumgarte, "Binaural cue coding - Part I: Psychoacoustic fundamentals and design principles", IEEE Trans. Speech Audio Processing, vol. 11, pp. 509-519, Nov. 2003. [6] J. Robert Stuart, "The psychoacoustics of multichannel audio", Meridian Audio Ltd, June 1998 [7] S-S. Kuo, J. D. Johnston, "A study why cross channel prediction is not applicable to perceptual audio coding", IEEE Signal Processing Lett, vol. 8, pp. 245-247. [8] Y. Linde, A. Buzo and R. M. Gray, "An algorithm for vector quantizer design", IEEE Trans, on Commun., vol. COM-28, ρp.84-95, Jan. 1980. [9] B. Edler, C. Faller and G. Schuller, "Perceptual audio coding using a time- varying linear pre- and post-filter", in AES Convention, Los Angeles, CA, Sept. 2000. [10] Bernd Edler and Gerald Schuller, "Audio coding using a psychoacoustical pre- and post-filter", ICASSP-2000 Conference Record, 2000. [11] Dieter Bauer and Dieter Seitzer, "Statistical properties of high-quality stereo signals in the time domain", IEEE International Conf. on Acoustics, Speech, and Signal Processing, vol. 3, pp. 2045-2048, May 1989. [12] Gene H. Golub and Charles F. van Loan, "Matrix Computations", second edition, chapter 4, pages 137-138, The John Hopkins University Press, 1989. [13] B-H. Juag and A. H. Gray Jr, "Multiple stage vector quantization for speech coding", In International Conference on Acoustics, Speech, and Signal Processing, vol. 1, pp. 597-600, Paris, April 1982.
本発明は先行技術による装置の上記及び他の欠点を克服する。
本発明の全体的な目的は、低ビットレートで高品質のマルチチャネル音声を提供することである。
特に、比較的少ない符号化ビット数を使用して、ステレオ又はマルチチャネルの情報を正確に表す能力のある効率的な符号化処理を提供することが望ましい。ステレオ符号化に関しては、例えば、ステレオ音像の躍動感がよく表現され、ステレオ信号の再生品質が高められることが重要である。
マルチステージ副信号エンコーダが利用可能なビット割り当て量を効率的に使用することも、本発明の目的である。
マルチチャネル音声信号を符号化する方法及び装置を提供することは、本発明の特定の目的である。
本発明の別の特定の目的は、符号化マルチチャネル音声信号を復号化する方法及び装置を提供することである。
本発明のまた別の目的は、音声符号化及び復号化技術に基づき改良された音声伝送システムを提供することである。
上記及び他の目的は、特許請求の範囲で定義される本発明により達成される。
現在のところ、例えばモバイル通信システムでも経済的負担が少なく使用する気を起こさせるビットレートで、高品質のステレオ又はマルチチャネルの音声を提供する標準化されたコーデックは入手できない。入手可能なコーデックで可能なことは、音声信号のモノラルでの伝送及び/又は保存である。ある程度までは、ステレオでの伝送や保存も可能ではあるが、多くの場合、ビットレートの制約によってステレオ表現を極めて大幅に制限されることになる。
これらの問題を克服するために、本発明は、音声信号からステレオ又はマルチチャネルの情報を分離し、その情報を低ビットレートで正確に表現することを可能にする解決策を提案する。
本発明の基本的なアイデアは、マルチチャネルの音声信号を符号化する効率のよい技術を提供することである。本発明が拠りどころとする基本原理は、第1信号符号化処理でマルチチャネルのうちの少なくとも1つのチャネルの第1の信号の符号化と、第2マルチステージ信号符号化処理でマルチチャネルのうちの少なくとも1つのチャネルの第2の信号の符号化である。この手順は、マルチチャネル音声信号特性に基づいて、第2マルチステージ信号符号化処理の異なる符号化ステージ間に符号化ビットを適応的に割り当てることにより大幅に特性を改善することができる。
例えば、マルチステージ符号化処理内の1つのステージの性能が飽和する場合、その特定の符号化ステージに符号化/量子化のために割り当てられるビット数を増加しても役に立たない。その代わりに、全体的な性能の大きい改善を図るためには、マルチステージ符号化処理の別の符号化ステージにより多くのビットを割り当てたほうがよい。このため、少なくとも1つの符号化ステージの推定性能に基づきビット割り当てを実行するのは特に有益であることがわかった。特定の符号化ステージへのビットの割り当ては、例えばその符号化ステージの推定性能に基づくことができる。あるいは、符号化ビットを、符号化ステージの全体的な性能に基づき異なる符号化ステージ間に一緒に割り当ててもよい。
例えば、第1信号符号化処理を主符号化処理とし、第1の信号は主信号とすることができる。第2信号符号化処理は、マルチステージ処理であり、例えば副信号処理とし、その場合、第2の信号はステレオ副信号などの副信号とすることができる。
第2マルチステージ信号符号化処理で利用可能なビット割り当て量は、マルチチャネル音声信号のチャネル間相関特性に基づき異なる符号化ステージ間に適応して割り当てられるのが好ましい。これは、第2のマルチステージ信号符号化処理がチャネル間予測(ICP、Inter-Channel Prediction)ステージなどのパラメトリック符号化ステージを有するときに、特に役に立つ。チャネル間相関が弱い場合には、マルチチャネル又はステレオの符号化手段としてのパラメトリック(ICP)フィルタが生成する対象信号の予測値は比較的悪いものとなる。それ故、フィルタ量子化のために割り当てビット数を増やしてもあまり性能の向上にはならない。このようにICPフィルタ及び一般的なパラメトリック符号化の性能は飽和するので、ビット使用に関しては、これらの技術では効率が悪い。一方、そのビットは、例えばノンパラメトリック符号化などの別の符号化ステージで異なる符号化に使用することができ、そうすると全体的な性能を大幅に改善することができる。
特定の実施形態では、本発明は、パラメトリックとノンパラメトリックとのハイブリッド符号化処理を含み、パラメトリックとノンパラメトリックの符号化ステージ間で利用可能な符号化ビットの効率的な割り当てに基づき、(チャネル間予測)パラメトリック表現とノンパラメトリック表現の長所を利用して、パラメトリック品質飽和の問題を克服する。
特定の符号化ステージにビットを割り当てる手順は、その符号化ステージに割り当てられるビット数に対する、その符号化ステージの推定性能の評価に基づくのが好ましい。
一般に、ビット割り当ては、追加的なステージの性能又は2つ以上のステージの全体的な性能に依存させてもよい。例えば、ビット割り当ては、パラメトリック表現とノンパラメトリック表現の両方を組み合わせた全体的な性能に基づいてもよい。
例えば、第2の信号を予測するための第1の適応チャネル間予測(ICP)ステージの事例を考慮する。ICP符号化ステージの推定性能は、通常、関連する品質測定値の判定に基づく。その品質測定値は、例えば、いわゆる第2の信号の予測誤差に基づき推定できるが、好ましくはチャネル間予測により生成される第2の信号復元データの量子化に割り当てられるビット数に応じて、量子化誤差の推定値と一緒に推定できることである。第2の信号復元データは、通常はチャネル間予測(ICP)フィルタ係数である。
特に有利な実施形態は、第2マルチステージ信号符号化処理が、第1のステージからの信号予測誤差の表現を符号化するために、第2の符号化ステージに符号化処理をさらに備えるものである。
第2信号符号化処理は、通常、ビット割り当ての出力データを生成する。この出力データは、第2信号復元データの形態で符号化/量子化情報を正しく変換するために復号化側で必要となるだろうからである。復号化側では、デコーダは、第2信号符号化処理中、異なる信号符号化ステージ間にビット割り当て量がどのように割り当てられたかを表すビット割り当て情報を受信する。このビット割り当て情報は、第2の信号を正しく復号するために、対応する第2のマルチステージ信号復号化処理で、第2の信号復元データを変換するために使用される。
マルチチャネル音声符号化メカニズムをさらに改善するために、第2信号符号化処理の性能又はその符号化ステージの少なくとも1つの性能に基づき、効率的な可変次元数/可変レートビット割り当てを使用することも可能である。実際面では、このことは、第1の符号化ステージに割り当てられるビット数とフィルタ長/次元数との組み合わせは、第1のステージの性能又は幾つかのステージを合成した性能を表す測定値を最適化するように選択される。長いフィルタの使用は、より優れた性能をもたらす一方、長いフィルタの量子化は、ビットレートが固定されている場合には量子化誤差が増加してしまう。フィルタ長を増加すると、性能が向上する可能性もあるが、そうなるためにはビットが余分に必要となる。選択されたフィルタ長/次元数と量子化誤差の増加との間にはトレードオフがある。そこでアイデアは、性能測定値を使用し、それに応じてフィルタ長と必要ビット量とを変更して、最適値を見つけることである。
ビットの割り当て及び符号化/復号化は、たいていフレームごとに実施されるが、サイズが変更可能なフレームでビット割り当て及び符号化/復号化を実施し、信号適応最適化フレーム処理をすることが可能である。
特に、可変フィルタ次元数及び可変ビットレートは固定フレームで使用してもよいが、可変長のフレームでも使用してよい。
可変長のフレームに関して、符号化フレームは、一般に、様々なフレーム分割構成に従って、相当数のサブフレームに分割してもよい。サブフレームは、様々なサイズがあってもよいが、所与のどのフレーム分割構成でも、サブフレームの長さの合計は、符号化フレームの全長に等しい。本発明の好適な実施形態のアイデアは、全体の符号化フレームにわたって、検討する第2信号符号化処理(すなわち、その信号符号化ステージの少なくとも1つ)の性能を表す測定値を最適化するように、フレーム分割構成の組み合わせ、ならびに各サブフレームに対するビット割り当て及びフィルタ長/次元数を選択することである。次いで第2の信号は、ビット割り当てとフィルタ次元数との選択された組み合わせに従って、選択されたフレーム分割構成の各サブフレームで、別々に符号化される。本発明の信号適応ビット割り当てにより提供される全般的に低ビットレートで高品質な性能に加えて、可変フレーム長処理手法の顕著な利点は、ステレオ又はマルチチャネルの音像の躍動感が非常にうまく表現されることである。
ここで第2の信号符号化処理は、復号化側に転送するために、出力データ、選択されたフレーム分割構成の表現、ならびに選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長の表現を、生成するのが好ましい。しかし、音声伝送システムにおける符号化側から復号化側への信号伝送のビットレート要件を減少するために、各サブフレームに対するフィルタ長は、サブフレーム長に従って選ばれるのが好ましい。このことが意味することは、符号化フレームのサブフレームセットへのフレーム分割構成の表示は同時に、各サブフレームに対する選択されたフィルタ次元数の表示も提供し、それにより必要な信号伝送量を減少することである。
本発明は、以下の利点を提供する。
・マルチチャネル音声符号化/復号化の改善。
・音声伝送システムの改善。
・マルチチャネル音声復元品質の改善。
・比較的低ビットレートでの高品質マルチチャネル音声。
・マルチステージ副信号エンコーダなどのマルチステージ・エンコーダに対する利用可能なビット割り当て量の効率的使用。
・ステレオ音像の躍動感あふれる表現。
・ステレオ信号再生品質の向上。
本発明が提供する他の利点は、以下の本発明の実施形態の詳細な説明を読めば理解されるであろう。
添付の図面及び以下の説明によって、本発明は、その他の目的及び利点とともに、最もよく理解されるであろう。
全図面を通して同じ参照番号は同一又は類似の要素に用いられるものとする。
本発明は、音声アプリケーションのマルチチャネル符号化/復号化技術に関し、特に音声伝送システム及び/又は音声ストレージ用のステレオ符号化/復号化に関する。音声アプリケーションとしてふさわしい例としては、電話会議システム、モバイル通信システムにおけるステレオ音声伝送、音声サービスを提供する様々なシステム、及びマルチチャネル・ホーム・シネマ・システム等が挙げられる。
本発明の理解を助けるために、既存技術の問題について簡潔な概観と分析から始めるのが役に立つと思われる。前述のように、現在のところ、例えばモバイル通信システムでも経済的負担が少なく使用する気を起こさせるビットレートで高品質のステレオ又はマルチチャネル音声を提供する標準化されたコーデックは入手できない。入手できるコーデックで可能なことは、音声信号のモノラルでの伝送及び/又は保存である。ある程度までは、ステレオ伝送や保存も可能であるが、多くの場合、ビットレートの制約により極めて大きくステレオ表現が制限される。
最先端のマルチチャネル符号化技術の問題は、優れた品質を提供するためには高ビットレートが必要となることである。インテンシティステレオは、例えばたった2、3kbpsほどの低ビットレートで利用される場合には、チャネル間時間情報をほとんど提供できないので上手くいかない。この情報は例えば2kHz未満の低周波数に対して聴感上重要なので、そのような低周波数でステレオ効果を提供することはできない。
他方BCCは、チャネル間時間情報も伝送するので、例えば3kbpsの低ビットレートで、低周波数でもステレオ音像又はマルチチャネル音像を再生することができる。しかし、この技術は、エンコーダとデコーダの両方でチャネルのそれぞれについて、演算量の多い時間/周波数変換を必要とする。さらに、BCCは、元のチャネル信号との知覚差を最小にする意味では、伝送されたモノラル信号からチャネル信号へのマッピングを行おうとしない。
チャネル間予測(Inter-channel prediction : ICP)とも呼ばれる、マルチチャネル符号化用のLMS技術(文献[4](特許文献3)参照)は、残差信号の伝送を省略することにより低ビットレートを可能にしている。チャネル復元フィルタを得るために、条件なしの誤差最小化手順を用い、その出力信号が対象信号に最も一致するようにフィルタを計算する。フィルタを計算するために、幾つかの誤差測定値を使用できる。平均二乗誤差あるいは加重平均二乗誤差が周知であり、少ない演算量で済む。
一般的に、最先端の方法の大部分がハイファイのオーディオ信号又は単なる音声の符号化のために開発されたと言うことができる。信号エネルギが低周波数領域に集中している音声符号化では、サブバンド符号化は滅多に使用されない。BCCのような方法は、低ビットレートでステレオ音声の符号化を可能にするけれども、サブバンド変換符号化処理では演算量も遅延も多くなる。
線形チャネル間予測(ICP)を音声符号化に適用すると、マルチチャネル信号に対する圧縮率が増加するかどうかについて研究が長く続いている。
研究の結論は、ICP符号化技術は、低い周波数にエネルギが集中しているステレオ信号に対しては、高品質のステレオ信号を得ることはできないが、冗長性の削減は可能である[7](非特許文献4)。ICPフィルタリングの白色化効果により、高周波数領域のエネルギが増加し、知覚変換符号化器にとっては正味の符号化損失になる。これらの結果は、文献[9](非特許文献6)及び[10](非特許文献7)で確認され、品質の向上は音声信号に対してだけ報告された。
ICP復元信号の精度は、存在するチャネル間相関により決定される。Bauer等による文献[11](非特許文献8)は、音声信号の左チャネルと右チャネルとの間に線形関係を見出せなかった。しかし、図4のモノラル信号と副信号とのクロススペクトルから見ることができるように、音声信号の低周波数領域(0〜2000Hz)で強いチャネル間相関が見られる。
ステレオ符号化手段としてのICPフィルタでは、チャネル間相関が弱い場合には、対象信号の予測値の精度が劣化する。生成される予測値は、フィルタの量子化の前でさえ精度が悪い。それ故、フィルタ量子化に対し割り当てビット数を増加しても、性能の向上につながらないか又はごくわずかにしか性能が向上しない。
ICP及び一般的なパラメトリック法の性能はこのように飽和してしまうため、これらの技術のビット利用効率は非常に悪いものである。ビットの中には例えばノンパラメトリック符号化技術で代わりに使用できるものがあり、そうすれば全体的な性能を大幅に向上させることができる。また、これらのパラメトリック技術は、符号化方法に特有の特徴的な歪み (artifacts) はビットレートを高くしても消えないだろうから、最適なものとはいえない。
図5は、本発明の好適な実施形態におけるマルチチャネル・エンコーダのブロック図である。マルチチャネル・エンコーダは、基本的に任意の前処理部110、オプショナル(任意)の(線形)結合部120、第1エンコーダ130、少なくとも1つの追加的な(第2)エンコーダ140、コントローラ150、及び任意のマルチプレクサ(MUX)部160を備える。
任意の前処理部110にはマルチチャネル信号又はポリフォニック信号 (polyphonic signal) が入力されうる。前処理部110では様々な信号調整手順を実行することができる。入力チャネルの信号は、音声信号ストレージ(不図示)から供給されてもよいし、例えばマイクロホンのセット(不図示)から生で供給されてもよい。音声信号がデジタル化されていない場合には、マルチチャネル・エンコーダに入る前にデジタル化される。
(任意で前処理された)信号は、任意の信号結合部120に出力される。信号結合部120は、入力信号の線形結合などの様々な信号結合手順を実行して少なくとも第1の信号と第2の信号を作り出す複数の結合モジュールを有する。例えば、第1の符号化処理を主符号化処理とし、第1の信号を主信号とすることができる。第2の符号化処理はマルチステージ処理であり、例えば補助(副 (side) )信号処理とすることができ、その場合、第2の信号は、ステレオ副信号 (stereo side signal) などの補助(副)信号とすることができる。従来のステレオ符号化では、例えば、LチャネルとRチャネルの信号を足しその和信号を2で割って、第1の信号(主信号)として従来のモノラル信号を出力する。LチャネルとRチャネルを引き算しその差信号を2で割って、第2の信号として従来の副信号を出力することもできる。本発明によれば、信号結合部において、異なるチャネルの少なくとも一部からの信号の寄与を重み付けして、さまざまな種類の線形結合や他の種類の信号結合を実行することができる。本発明が使用する信号結合は2つのチャネルに限定されるわけではなく、多数のチャネルを含みうることはいうまでもない。図5に示されるように、2以上の付加(副)信号をを生成することも可能である。入力チャネルの1つを直接第1の信号として、もう1つの入力チャネルを第2の信号として使用することも可能である。ステレオ符号化に関しては、例えば、Lチャネルを主信号として使用し、Rチャネルを副信号として使用してもよいし、あるいはその逆でもよい。この他にも変形例は多数存在する。
第1エンコーダ130に第1の信号が入力されると、エンコーダ130は適切な符号化原理に従って第1の信号(主信号)を符号化する。その原理は従来技術を利用できるため、その詳細な説明は省略する。
第2の信号は、第2マルチステージ・エンコーダ140に供給され、そこで第2の信号(補助/副信号)が符号化される。
また、マルチチャネル・エンコーダはコントローラ150を備える。コントローラ150は少なくとも、マルチステージ・エンコーダ140の符号化ステージ間に、第2のマルチステージ信号符号化で利用可能なビットを適応的に割り当てるビット割り当てモジュールを有する。マルチステージ・エンコーダは、2つ以上の符号化部を有するマルチユニット・エンコーダとも呼ばれる。
例えば、マルチステージ・エンコーダ140のステージの1つの性能が飽和している場合、その特定の符号化ステージに割り当てられるビット数を増加してもほとんど意味がない。全体として大きな性能改善をするためには、その代わりに、マルチステージ・エンコーダ内の別の符号化ステージにより多くのビットを割り当てたほうがよいであろう。このため、少なくとも1つの符号化ステージの推定性能に基づいてビット割り当てを行うのが好適であるといえる。特定の符号化ステージへのビットの割り当ては、例えばその符号化ステージの推定性能に基づいてもよい。しかし代替の実施形態では、符号化ビットは、符号化ステージ全体の総合性能に基づき異なる符号化ステージ間に一緒に割り当てられる。
もちろん、マルチチャネル・エンコーダ装置全体に対する全体のビット割り当て量があり、その全体のビット割り当て量は、第1エンコーダ130と、マルチステージ・エンコーダ140と、公知の原理により実現可能な他のエンコーダ・モジュールとの間で分割される。以下では、マルチステージ・エンコーダで利用可能なビット割り当て量をどのようにその異なる符号化ステージ間に割り当てるかについて重点的に説明する。
第2符号化処理で利用可能なビット割り当て量は、チャネル間相関特性などのマルチチャネル音声信号の所定の特性に基づき、マルチステージ・エンコーダの異なる符号化ステージ間に、適応して割り当てられるのが好ましい。この方法が特に役に立つのは、第2マルチステージ・エンコーダがチャネル間予測(ICP)ステージなどのパラメトリック符号化ステージを有するときである。チャネル間(例えば、入力チャネルの第1の信号と第2の信号との間)の相関が弱い場合には、マルチチャネル又はステレオの符号化手段としてのパラメトリック・フィルタでは多くの場合、対象信号の予測値は精度の悪いものとなる。したがって、フィルタ量子化に対する割り当てビット数を増やしても、大幅な性能の向上は見込めない。(ICP)フィルタ及び一般的なパラメトリック符号化の性能はこのように飽和するので、ビット利用に関しては、これらの技術では効率が悪い。しかし、そのビットは例えばノンパラメトリック符号化などの別の符号化ステージで別の符号化で使用でき、そうすれば、総合性能を一層向上させることができる。
特定の実施形態では、本発明は、パラメトリックとノンパラメトリックのハイブリッド・マルチステージ信号符号化処理を含み、パラメトリックとノンパラメトリックの符号化ステージ間に利用可能な符号化ビットを効率的に割り当てる。このようにパラメトリック表現とノンパラメトリック符号化との長所を活かして、パラメトリック手法の品質飽和の問題を克服する。
特定の符号化ステージに対して、ビットは、例えば以下の手順に基づき割り当てられるとよい。
・符号化ステージに割り当てられると仮定されたビット数に従い、符号化ステージ性能を推定する。
・符号化ステージの推定性能を評価する。
・推定性能の評価に基づき、第1の符号化ステージに第1のビット量を割り当てる。
2つのステージだけを使用し、推定性能に基づき第1のビット量を第1のステージに割り当てた場合には、残りの符号化ビット量を第2の符号化ステージに単に割り当てるようにすればよい。
一般に、ビットの割り当ては、追加的なステージの性能又は2つ以上のステージ全体の性能に依存するようにするとよい。前者の場合は、追加的な符号化ステージの推定性能に基づいてビットをその追加的な符号化ステージに割り当てるとよい。後者の場合は、ビット割り当ては、例えば、パラメトリック表現とノンパラメトリック表現の両方を合成した全体の性能に基づくとよい。
例えば、ビット割り当ての変更をしても適切な評価基準によっても大幅な性能の向上が見込めないときは、マルチステージ・エンコーダにおける異なるステージ間のビットの割り当てに従いビット割り当てを決定してもよい。特に、性能の飽和に関して、割り当てビット数をそれ以上に増加しても適切な評価基準によってもあるステージの性能の大幅な向上がないときは、そのステージに割り当てられるビット数を、当該ビット数に決定してもよい。
上記のように、第2マルチステージ・エンコーダは、図5に示されるように、第1の信号及び第2の信号に基づき、第2の信号の予測に対する適応チャネル間予測(ICP)ステージを有してもよい。第1の信号(主信号)情報は、第1エンコーダからの破線で示されるように、第1エンコーダ130が生成する符号化パラメータから同様に推定するようにしてもよい。この場合、ICPステージに「続いて」誤差符号化ステージを使用するのが適切なこともある。例えば、信号予測の第1適応ICPステージは、第1及び第2の信号に基づき信号復元データを生成し、第2符号化ステージは信号予測誤差に基づき信号復元データをさらに生成する。
コントローラ150は、第1の信号及び第2の信号及びマルチステージ(副)エンコーダ140の1つ以上のステージの性能に応じて、ビット割り当てを行うように設定されるのが好ましい。
図5に示されるように、2以上であるN通りの信号(それぞれの入力チャネルが個別の信号として直接入力される例も含む)が入力されてもよい。好適には、第1の信号は主信号であり、残りのN−1の信号は副信号などの補助信号である。各補助信号は、ビット割り当てを適応制御するマルチステージ・エンコーダ又は専用の補助(副)エンコーダで個別に符号化されるのが好ましい。
エンコーダ130、140の出力信号は、コントローラ150からのビット割り当て情報を含み、マルチプレクサ部160で1つの伝送(又はストレージ)信号に多重化されるのが好ましい。しかし、その代わりに、出力信号は個別に伝送(又は保存)されてもよい。
本発明の拡張として、(例えば、チャネル間予測のために)使用するビット割り当てとフィルタ次元数/長さの組み合わせを選択し、第2符号化処理の性能を表す測定値を最適化することも可能である。選択されたフィルタ次元数/長さとそれにより発生する量子化誤差との間にトレードオフがあるだろう。アイデアは性能測定値を使用し、それに対応してフィルタ長と必要なビット量を変更することにより最適値を見つけることである。
符号化/復号化及び関連するビット割り当ては、たいていフレームごとに実施されるが、符号化/復号化及びビット割り当ては、信号適応最適化フレーム処理を可能にする可変サイズのフレームで実施するようにすることもできる。このことは、追って説明するように、性能測定値を最適化するさらに大きい自由度を提供する可能性も与える。
図6は、本発明の好適な実施形態による基本マルチチャネル符号化手順を説明するフローチャートである。ステップS1では、1つ以上の音声チャネルの第1の信号が、第1信号符号化処理で符号化される。ステップS2では、第2信号符号化処理で利用可能なビット割り当て量が、上記のようにチャネル間相関などのマルチチャネル入力信号特性に従って、第2マルチステージ信号符号化処理の異なるステージ間に割り当てられる。異なるステージ間のビットの割り当ては、一般にフレームごとに変わってもよい。本発明が提案するビット割り当てのさらに詳細な実施形態は後述する。ステップS3では、第2の信号が、ビット割り当て量に沿って第2マルチステージ信号符号化処理で符号化される。
図7は、本発明の好適な実施形態による対応するマルチチャネル復号化手順を説明するフローチャートである。ステップS11では、符号化された第1の信号が、符号化側から受信した第1の信号復元データに応答して、第1の信号復号化処理で復号される。ステップS12では、専用のビット割り当て情報が符号化側から受信される。ビット割り当て情報は、第2の符号化に対するビット割り当て量が符号化側の異なる符号化ステージ間にどのように割り当てられたかを表す。ステップS13では、符号化側から受信した第2の信号復元データが、受信したビット割り当て情報に基づき変換される。ステップS14では、符号化された第2の信号が、変換された第2の信号復元データに基づき、第2マルチステージ信号復号化処理で復号される。
全体の復号化処理は、周知のものであり、基本的には、着信データストリームの読み取り、データの変換、逆量子化、マルチチャネル音声信号の復元を含む。復号化手順の詳細は、本発明の実施形態に従い後述する。
以下の実施形態の説明は、主にステレオ(2チャネル)の符号化及び復号化に関するが、本発明は一般に多数のチャネルに適応可能であることに留意すべきである。その例として、5.1(前左、前中央、前右、後左、後右及びサブウーファ)又は2.1(左、右及び中央サブウーファ)マルチチャネル音の符号化/復号化が挙げられるがそれに限定されるものではない。
図8は、本発明の好適な実施形態による(ステレオ)エンコーダの関連部分を示すブロック図である。(ステレオ)エンコーダは基本的に、標準的なモノラル信号などの第1の信号(主信号)を符号化する第1(主)エンコーダ130、(補助/副)信号を符号化する第2マルチステージ(補助/副)エンコーダ140、コントローラ150及び任意のマルチプレクサ部160を備える。この特定の例では、補助/副エンコーダ140は、2つ(又はそれ以上)のステージ142、144を備える。第1のステージ142すなわちステージAは、主信号及び副信号に応じて量子化フィルタ係数などの副信号復元データを生成する。第2のステージ144すなわちステージBは、残留符号化器であることが好ましく、その残留符号化器は、第1のステージ142からの残留誤差を符号化/量子化し、それによりステレオ復元品質を向上するために追加の副信号復元データを生成する。コントローラ150は、ビット割り当てモジュール、フィルタ次元数を制御する任意のモジュール、及び可変フレーム長処理を制御する任意のモジュールを備える。コントローラ150は、出力データとして、副信号符号化に利用可能なビット割り当て量が副エンコーダ140の2つの符号化ステージ142、144の間にどのように割り当てられるかを表すビット割り当て情報を少なくとも出力する。量子化フィルタ係数、量子化残留誤差及びビット割り当て情報を含む情報セットは、主信号符号化パラメータとともに、マルチプレクサ部160で1つの伝送信号又はストレージ信号に多重化されるのが好ましい。
図9は、本発明の好適な実施形態による(ステレオ)デコーダの関連部分を示すブロック図である。(ステレオ)デコーダは基本的に、任意のデマルチプレクサ部210、第1(主)デコーダ230、第2(補助/副)デコーダ240、コントローラ250、任意の信号結合部260及び任意の後処理部270を備える。デマルチプレクサ210は、第1の信号(主信号)復元データ、第2の信号(補助/副信号)復元データ、及びビット割り当て情報等の制御情報などの着信復元情報を分離するのが好ましい。第1(主)デコーダ230は、符号化パラメータを表す第1の信号(主信号)の形態で普通提供される第1の信号(主信号)復元データに応じて、第1の信号(主信号)を「復元」する。第2(補助/副)デコーダ240は、2つ(又はそれ以上)の復号化ステージ242、244を備えることが好ましい。復号化ステージ244すなわちステージBは、符号化/量子化された残留誤差情報に応えて、残留誤差を「復元」する。復号化ステージ242すなわちステージAは、量子化フィルタ係数、復元された第1の信号及び復元された残留誤差に応じて、第2の信号を「復元」する。第2デコーダ240も、コントローラ250により制御される。コントローラは、符号化側からビット割り当て情報ならびに任意でフィルタ次元数及びフレーム長の情報を受信し、それに対応して副デコーダ240を制御する。
以下では、本発明の十分な理解に資するために、チャネル間予測などのパラメトリック符号化原理に基づく様々な例示の実施形態を参照して、本発明を詳細に説明する。
(チャネル間予測を使用するパラメトリック・ステレオ符号化)
一般に、チャネル間予測(ICP)技術は、チャネル間に内在するチャネル間相関を利用する。ステレオ符号化では、チャネルは普通、左信号l(n)と右信号r(n)により表される。それと等価の表現は、モノラル信号m(n)(主信号の特殊な場合)及び副信号s(n)である。両方の表現は同等であり、通常は従来の行列演算で関連付けられる。
Figure 2008529056
図10Aに示されるように、ICP技術では予測値^S(n)で副信号s(n)を表すことを狙いとしている。予測値^S(n)は、モノラル信号m(n)を次式で表されるN個のフィルタ係数ht(i)を有する時変FIRフィルタH(z)でフィルタリングすることで取得される。
Figure 2008529056
同じ方法が、左チャネルと右チャネルにも直接適用できることに注意すべきである。
エンコーダで推定されるICPフィルタは、副信号予測誤差e(n)の例えば平均二乗誤差(MSE)又は関連する性能測定値、例えば心理音響的に重み付けした平均二乗誤差を最小化することで推定されうる。MSEは、通常次式で求められる。
Figure 2008529056
上式で、Lはフレームサイズ、NはICPフィルタの長さ(length)/次数(order)/次元(dimension)である。簡単に言うと、ICPフィルタの性能ひいてはMSEの大きさは、最終的にステレオ分離を決定する主要因である。副信号は左チャネルと右チャネルとの間の差を表現するので、正確な副信号の再現は十分な広がりのあるステレオ音像を確実にするのに必要不可欠である。
最適なフィルタ係数は、全サンプルにわたる予測誤差のMSEを最小化することで見つけられ、次式で求められる。
Figure 2008529056
式(4)の相関ベクトルr及び共分散行列Rは、以下により定義される。
Figure 2008529056
ただし、
Figure 2008529056
式(5)を式(3)に代入することにより、(量子化されていない)ICPフィルタの最小MSE(MMSE)に関する単純化した代数式が得られる。
Figure 2008529056
ただし、Pssは副信号の電力であり、sTsとも表される。
r=Rhoptを式(7)に代入すると、次式が得られる。
Figure 2008529056
RをLDLT因数分解(文献[12](非特許文献9)参照)すると、次の等式が得られる。
Figure 2008529056
ここでまず、反復的な方法でzを解く。
Figure 2008529056
これから新しいベクトルq=LThを導入する。行列Dは対角成分だけ0でない値をとるので、qを見つけるのは容易である。
Figure 2008529056
求めるフィルタ・ベクトルhは、式(10)と同じ方法で反復的に計算できる。
Figure 2008529056
正則行列反転に比べて計算量が節約できることのほかに、この解決策は異なる次元数n(フィルタ長)に相当するフィルタ係数を効率的に計算する可能性を提供する。
Figure 2008529056
最適ICP(FIR)フィルタ係数hoptが推定され、量子化され、フレームごとにデコーダに送信されうる。
(残留符号化によるマルチステージ・ハイブリッド・マルチチャネル符号化)
図10Bは、モノラル符号化とマルチステージ・ハイブリッド副信号符号化とを有するオーディオエンコーダを示している。モノラル信号m(n)は、復号化側に転送するために、符号化され量子化(Q0)される。副信号予測用のICPモジュールは、FIRフィルタH(z)を提供し、それは、復号化側への転送のため量子化(Q1)される。追加の品質は、副信号予測誤差e(n)を符号化及び/又は量子化(Q2)することにより取得してもよい。残留誤差が量子化されるとき、符号化はもはや純粋にパラメトリックと呼ぶことはできないので、副エンコーダはハイブリッド・エンコーダと呼ばれることに注意のこと。
(適応ビット割り当て)
本発明は、チャネル間相関が弱いと副信号予測の精度が悪化するという認識を基にしている。他方、チャネル間相関が強ければ多くの場合、副信号予測の精度は高い。
図11の(a)は、モノラル信号及び副信号ならびにモノラル信号と副信号との間のチャネル間相関を示す周波数領域特性図である。チャネル間相関は単に相互相関とも呼ぶ。図11の(b)は、元の副信号と共に予測副信号を示す、図11の(a)に対応する時間領域特性図である。
図11の(c)は、別のモノラル信号及び副信号ならびにその相互相関を示す周波数領域特性図である。図11の(d)は、元の副信号と一緒に予測副信号を示す、図11の(c)に対応する時間領域特性図である。
チャネル間相関が強いと対象信号の予測値の精度は高く、その反対に、チャネル間相関が弱いと、対象信号の予測値の精度は低いものとなる。生成される予測値がフィルタ量子化の前でさえ不正確である場合には、フィルタ量子化に多くのビットを割り当てる意味はない。その代わりに、少なくともビットの一部を、副信号予測誤差のノンパラメトリック符号化などの異なる符号化で使用する方が、全体の性能を向上させることができ、役に立つと思われる。相関が強い場合は、比較的少ないビットでフィルタを量子化しても、非常に正確な結果を取得することが可能なことも時にはある。他の例では、相関が比較的強い場合でさえ、量子化にはビット量を多く使用しなくてはならなくて、この量のビットを使用することはビット割り当ての視点から「経済的」かどうか判定しなければならないだろう。
特定の実施形態では、コーデックは、ICPフィルタにより提供されるパラメトリック・ステレオ表現と残留誤差符号化などのノンパラメトリック表現の両方の長所の組み合わせに基づいて、ある意味ではステレオ入力信号の特性に従って、適応させて設計されるのが好ましい。
図12は、本発明の特定の実施形態による、マルチステージ副エンコーダと共に適応ビット割り当てコントローラを示す概略図である。
先に示唆したように、利用可能なビット割り当て量を十分に活用し、ステレオ信号再生品質をさらに向上するために、少なくとも第2の量子化器を使用して、すべてのビットが予測フィルタの量子化に回されるのを防ぐ必要があるだろう。第2の量子化器の使用により、本発明で利用できる自由度が大きくなる。したがって、マルチステージ・エンコーダは、ICPフィルタなどのフィルタと関連する第1の量子化器Q1とを有する第1のパラメトリック・ステージならびに第2の量子化器Q2に基づく第2のステージを有する。
ICPフィルタの予測誤差、すなわち、e(n)=s(n)−^S(n)は、通常は波形コーダ若しくは変換コーダ又は両方の組み合わせのノンパラメトリック・コーダを使用して量子化される。そうではあるが、CELP(符号励振線形予測)符号化などの他の種類の予測誤差の符号化を使用することも可能なことは理解されるべきである。
副信号符号化処理に対する合計ビット割り当て量は、B=bICP+b2であり、ここでbICPはICPフィルタの量子化用のビット数であり、b2は残留誤差e(n)の量子化用のビット数である。
最適なのは、符号化ステージの全体の性能に基づき、ビットが異なる符号化ステージ間に一緒に割り当てられることであり、図12に、ビット割り当てモジュールにe(n)とe2(n)とを入力することで概要を示す。知覚的に重み付けした判断で、合計誤差e2(n)の最小化に努めることは妥当なことがある。
もっと簡潔で直接的な実装は、ビット割り当てモジュールが第1のパラメトリック(ICP)フィルタリング手順の性能に基づき第1の量子化器にビットを割り当て、残りのビットを第2の量子化器に割り当てる。パラメトリック(ICP)フィルタの性能は、予測誤差e(n)のMSE又は知覚加重MSEなどの忠実度評価基準に基づくのが好ましい。
パラメトリック(ICP)フィルタの性能は、通常、利用可能なビットレートに加えて、異なる信号フレームの特性とともに変わる。
例えば、チャネル間相関が弱い場合には、フィルタ量子化の前でさえ、ICPフィルタリング手順で生成される対象(副)信号の予測値の精度は低い。したがって、そこにより多くのビットを割り当てても大幅な性能の改善は見込めない。その代わりに、第2の量子化器にもっと多くのビットを割り当てたほうがよい。
他の例では、モノラル信号と副信号との間の冗長性は、あるビットレートで量子化されたICPフィルタの独占的使用で十分に除去でき、したがって第2の量子化器にビットをより多く割り当てるのは効率が悪いだろう。
ICP性能の内在的な限界は、モノラル信号と副信号との間の相関度の直接の結果である。ICPの性能は、非量子化フィルタが提供できる最大達成可能性能により常に制限される。
図13は、量子化ICPフィルタ性能がビット量でどのように変化するかの典型的な事例を示している。一般的な忠実度評価基準ならどれでも使用してよい。品質測定値Qの形態の忠実度評価基準を使用してもよい。そのような品質測定値は、例えば信号対雑音比(SNR)に基づいてもよく、その場合はQsnrと表される。例えば、副信号電力と副信号予測誤差e(n)のMSEとの比に基づく品質測定値は、次式で表せる。
Figure 2008529056
最小のビットレートbminがあり、そのビットレート以上では、ICPの使用によって、1すなわち0dBを超えるQsnrの値で特徴付けられる改善が得られる。明らかに、ビットレートが増加するとき、その性能は非量子化フィルタQmaxの性能に達する。他方、量子化にbmaxビットを超えて割り当てても、品質は飽和してしまう。
通常は、適切な測定基準で判定して、それ以上のビットレートでは性能がもはやあまり向上しない、ビットレートより低いビットレートの中から選択される(図13のbopt)。選択評価基準は、特定のアプリケーション及びその固有の要件に従って、通常は計画される。
モノラル/副相関が0に近い問題のある信号に対しては、ICPフィルタリングはまったく使用せず、代わりにビット割り当て量全部を第2の量子化器に割り当てるほうがよい。同じ種類の信号に対して、第2の量子化器の性能が十分でない場合、信号は純粋なパラメトリックICPフィルタリングを使用して符号化してもよい。
一般に、フィルタ係数はベクトルとして取り扱われ、そのベクトルはベクトル量子化(VQ)を使用して効率的に量子化される。フィルタ係数の量子化は、ICP符号化手順の最も重要な面の1つである。当然のことながら、フィルタ係数に関して持ち込まれる量子化雑音は、MSEの減少に直接関連することがある。
MMSEは、前記したとおり、以下のように定義されている。
Figure 2008529056
optの量子化は、次式で表される量子化誤差eを生じる。
Figure 2008529056
新しいMSEは、次式のように表される。
Figure 2008529056
Rhopt=rなので、式(16)の最後の2項は打ち消され、量子化フィルタのMSEは次式のようになる。
Figure 2008529056
この意味することは、少しでも予測利得を得るためには、量子化誤差項の値は予測項の値未満、すなわち、
Figure 2008529056
である必要があるということである。
図14から、ICPフィルタ量子化に関してbminビット未満を割り当てても、副信号予測誤差エネルギが減らないことがわかる。実際のところ、予測誤差エネルギは対象副信号のエネルギを超え、ICPフィルタリングを使用することは不合理である。これにより、信号表現及び符号化の手段としてICPを使用するのに適した範囲の下限が設定される。それ故、好適な実施形態ではビット割り当てコントローラは、これをICPに対する下限とみなすことになる。
フィルタ係数を直接量子化するのは多くの場合、良い結果が得られないので、むしろ、
Figure 2008529056
の項を最小化するようにフィルタを量子化すべきである。望ましい歪み測定値の例は、次式により与えられる。
Figure 2008529056
この式は、重み付きベクトル量子化(VQ)手順の使用を示唆する。類似の重み付き量子化器は、[8](非特許文献5)の音声圧縮アルゴリズムで使用されている。
予測重み付きベクトル量子化を使用する場合には、ビットレートに関しても明確な利点を得ることができる。実際には、上記のコンセプトから得られる予測フィルタは一般に時間に関係する。
図12にもう一度戻って、ビット割り当てモジュールは、相関ベクトルr及び共分散行列Rを計算するために、入力として主信号m(n)と副信号s(n)とを必要とすることが理解されてもよい。明らかに、hoptも量子化フィルタのMSE計算のために必要である。対応する品質測定値は、MSEから推定してもよく、ビット割り当ての基礎として使用してもよい。可変サイズのフレームが使用される場合、一般にビット割り当てモジュールにフレームサイズ情報を提供する必要がある。
本発明の好適な実施形態によるステレオ・デコーダを示す図15を参照して、復号化手順を詳細に説明する。デマルチプレクサは、受信するステレオ復元データをモノラル信号復元データ、副信号復元データ、及びビット割り当て情報に分離するために使用してもよい。モノラル信号はモノラルデコーダで符号化され、そのモノラルデコーダは復元された主信号予測値^m(n)を生成する。フィルタ係数は量子化ICPフィルタ^H(z)を復元するため、逆量子化で復号化される。副信号^s(n)は量子化ICPフィルタ^H(z)を通して、復元されたモノラル信号^m(n)をフィルタリングすることで復元される。品質改善のために、予測誤差^es(n)は、逆量子化Q2 -1で復元され、副信号推定値^s(n)に加えられる。最終的に、出力ステレオ信号は次式のように求められる。
Figure 2008529056
副信号品質、したがってステレオ品質は、残留誤差符号化と、モノラル再生及びICPフィルタ量子化の正確さとの両方により影響されることに留意することは大事である。
(可変レート・可変次元数フィルタリング)
前述のように、所与の性能測定値を最適化するために、(例えば、チャネル間予測のために)使用されるビット割り当てとフィルタ次元数/長さとの組み合わせを選択することも可能である。
第1の符号化ステージの性能を表す測定値又はマルチステージ(補助/副)エンコーダの符号化ステージの合成を最適化するために、第1の符号化ステージに割り当てられるビット数と第1の符号化ステージで使用されるフィルタ長との組み合わせを選択することが、例えば好都合なこともある。
例えば、ノンパラメトリック・コーダがパラメトリック・コーダを伴うと仮定すると、ICPフィルタリングの目標は、予測誤差のMSEを最小化することであってもよい。フィルタ次元数を増加することにより、MSEを減少できることは知られている。しかし、信号フレームによっては、モノラル信号と副信号は振幅だけが異なり、時間的並びが同じものもある。したがって、この場合は1つのフィルタ係数で十分であろう。
前述のように、異なる次元数でフィルタ係数を繰り返し計算することは可能である。フィルタは対称行列Rとベクトルrにより完全に決定されるので、異なる次元数のMMSEを繰り返し計算することも可能である。式(8)に、
Figure 2008529056
を代入すると次式が得られる。
Figure 2008529056
ただし、di≧0,∀iである。したがって、フィルタ次元数を増加するとMMSEが減少する。それ故、各次元に対してrToptを再計算する必要なしに、追加のフィルタ次元数が提供する利得を計算することは可能である。
フレームによっては、長いフィルタを使用すると利得が顕著なものもあるが、長いフィルタの使用による性能の増加がほぼないに等しいものもある。このことは、チャネル間の最大の非相関処理が長いフィルタの使用なしで達成されることがあることで説明される。このことが特に当てはまるのは、チャネル間相関量が弱いフレームである。
図16は、フィルタ次元数に対する平均の量子化誤差及び予測誤差を示す。量子化誤差は、ビットレートが固定されているので、次元数とともに増加する。すべての場合に、長いフィルタの使用は性能の向上につながる。しかし、図16に示されるように長いベクトルの量子化は、ビットレートが固定されている場合、量子化誤差も大きくなる。フィルタが長くすると性能向上の可能性もあるが、性能向上に結び付けるにはより多くのビットが必要である。
可変レート/可変次元数方式のアイデアは、ビット増によって大幅に性能が向上するフレームに対してのみ正確なフィルタ量子化が実施されるように、(ICP)フィルタの一様でない性能を利用することである。
図17は、異なるビット数で異なる次元数を量子化するときに達成される総合品質を示す。例えば、最小のMSEを与える次元数とビットレートとの組み合わせを選択するとき、最高品質が達成されるように、目的を規定してもよい。量子化ICPフィルタのMSEは次式で定義されている。
Figure 2008529056
性能は、選択されたフィルタ次元数nとそれにより発生する量子化誤差とのトレードオフであるとみなすことができる。このことは図17に示されており、そこでは、ビットレートの範囲が異なるところでは、次元数が異なると性能も異なる。
(ICP)フィルタに対する必要なビットの割り当ては、QN,max曲線に基づき効率的に実施される。この最適な性能−レート曲線QN,maxは、フィルタ次元数とそれに対応して必要なビット量とを変更することで取得できる最適性能を示す。このカーブが、ビットレート(及び関連する次元数)を増加しても性能/品質測定値Qsnrをわずかしか改善しない領域を示していることも興味深い。通常これらの水平領域では、(ICP)フィルタの量子化のビット量を増加しても著しい向上は達成できない。
もっと単純だが次善の方法は、例えば合計ビット数と次元数との一定の比を作り、次元数に比例して合計ビット量を変更することを備える。次いで、可変レート/可変次元数符号化は、MSEの最小化につながる次元数(又は同等にビットレート)の選択を含む。
別の実施形態では、次元数は固定されて、ビットレートが変更される。閾値のセットを用いて、例えば図18に記述されるMSQVの手法(文献[13](非特許文献10))で追加のステージを選択することで、フィルタの量子化にもっとビットを使用することが実行可能かどうかを判定する。
可変レート符号化は、主(モノラル)信号と副信号との間に様々な相関特性があることが、使用される直接の原因となっている。相関が弱い場合は、次元の低いフィルタを符号化するためにほんの少しのビットが割り当てられる一方で、ビット割り当て量の残りはノンパラメトリック・コーダで残留誤差の符号化のために使用できる。
(チャネル間予測に基づくパラメトリック符号化の改善)
簡単に述べたように、主/副の相関が0に近い場合は、ICPフィルタリングを全然使用しないで、その代わりビット割り当て量全部を第2の量子化器に割り当てたほうがよいことがある。同じ種類の信号に関しては、第2の量子化器の性能が十分でない場合、信号は純粋なパラメトリックICPフィルタリングを使用して符号化してもよい。後者の場合は、許容できるステレオ又はマルチチャネルの復元を提供するため、ICPフィルタリング手順をいくぶん変更するのがよいこともある。
この変更形態の意図は、チャネル間予測(ICP)だけに基づきステレオ又はマルチチャネルの符号化演算をして、それにより低ビットレート運用を可能にすることである。実際のところ、副信号復元がICPフィルタリングだけに基づく手法では、モノラル信号と副信号の相関が弱ければ多くの場合、品質が劣化するであろう。このことは、フィルタ係数の量子化後、特に当てはまる。
(共分散行列修正)
パラメトリック表現だけが使用される場合、目的はもはやMSEだけを最小化することではなく、モノラル信号と副信号との相関がない事例にうまく対処できるように、MSEと平滑化及び正則化を結びつけることである。
非公式のリスニングテストによれば、ICPフィルタによって生じる符号化歪み (coding artifacts) はステレオ帯域の一時的な減少よりも耳障りなものとして知覚されることが分かった。それ故、ステレオ帯域すなわち副信号エネルギは、問題のあるフレームに遭遇したときはいつも意図的に減らされる。最悪の場合、すなわちICPフィルタを全く作用させない場合は、その結果生じるステレオ信号は純粋なモノラルになる。
共分散行列Rと相関ベクトルrから、実際のフィルタリングを実施しないで、期待される予測利得を計算することは可能である。符号化歪みは、予期される予測利得が低いときか又は同等にモノラル信号と副信号との相関が弱いとき、復元された副信号に主に存在することがわかっている。このため、フレーム分類アルゴリズムに従い予測利得の推定レベルに基づき分類を実行する。予測利得(又は相関)がある閾値以下に下がるとき、ICPフィルタを推定するために使用される共分散行列は、次式により修正される。
Figure 2008529056
ρの値は、様々な修正レベルを容易に利用できるようにするため適応させてもよい。修正されたICPフィルタは次式により計算される。
Figure 2008529056
明らかに、ICPフィルタのエネルギは低減され、それによって復元される副信号のエネルギも低減する。持ち込まれた推定誤差を減少する他のスキームも、もっともらしく思われる。
(フィルタ平滑化)
連続したフレーム間のICPフィルタ特性の急激な変化により、復元されたステレオ音像に邪魔なエイリアシング歪みと不安定な状態が起こる。この原因は、予測アプローチによって固定フィルタリング手法とは対照的に大きなスペクトル変動が生じることにある。
類似の効果は、近隣のサブバンドのスペクトル成分が異なって修正されるとき、BCCにも存在する[5](非特許文献2)。この問題を回避するため、BCCは、分析と合成の両方でオーバーラッピング・ウィンドウを使用する。
オーバーラッピング・ウィンドウの使用によって、ICPのエイリアシング問題も解決される。しかし、この方法は、MSEのかなり大幅な減少という犠牲を伴う。その理由は、フィルタ係数が現在のフレームに対してもはや最適ではないからである。コスト関数の修正が示唆される。それは、次式で定義される。
Figure 2008529056
上式で、htとht-1はそれぞれ、フレームtとフレーム(t−1)におけるICPフィルタである。式(23)の偏導関数を計算し0に設定すると、次式で表される新しい平滑化ICPフィルタが求められる。
Figure 2008529056
平滑化係数μは以前のICPフィルタの寄与を決定し、それにより平滑化のレベルを制御する。提案のフィルタ平滑化は、効率的に符号化歪みを取り除き、ステレオ音像を安定させる。しかし、これには、ステレオ音像帯域の減少という犠牲が伴う。
平滑化によるステレオ音像帯域減少の問題は、平滑化係数を適応させることで克服できる。現在のフレームに適用される以前のフィルタの予測利得が大きいとき、大きな平滑化係数が使用される。しかし、以前のフィルタが予測利得の悪化をもたらす場合、平滑化係数は徐々に下げられる。
(周波数帯域処理)
以前示唆されたアルゴリズムは、周波数帯域処理を利用してよい結果を得る。実際のところ、空間音響心理学の教えるところでは、低い周波数の音の定位の支配的なきっかけはチャネル間の時間差であり[6](非特許文献3)、一方高い周波数ではチャネル間のレベル差である。この示唆するところは、ステレオ又はマルチチャネルの復元に当たっては、スペクトムの異なる領域は、異なる方法及び異なるビットレートを使用して符号化することで利益を得ることができるということである。例えば、適応制御ビット割り当てを行うパラメトリックとノンパラメトリックのハイブリッド符号化は、低周波数帯域で実施でき、他の符号化スキームには高周波数帯域で使用できるものがある。
(可変長最適化フレーム処理)
可変フレーム長に関しては、符号化フレームは、様々なフレーム分割構成に従って、一般に相当数のサブフレームに分割してもよい。サブフレームのサイズは異なってもよいが、所与のフレーム分割構成のどれをとっても、サブフレームの長さの合計は、通常全体の符号化フレームの長さに等しい。例として引用によって本明細書に援用する同時係属の米国特許出願第11/011765号及び対応国際出願PCT/SE2004/001867に記載されるように、複数の符号化スキームが提供されている。ここで、各符号化スキームは、それぞれのサブフレームを全部合わせると全体の符号化フレーム(マスタフレームとも呼ばれる)を構成するサブフレームセットを特徴とするか、又はそれに関連する。好ましくは、符号化される信号の信号コンテンツに少なくとも一部依存して、特定の符号化スキームが選択され、次いで信号は、選択されたサブフレームセットの各サブフレームでそれぞれ符号化される。
一般に符号化は、通常1度に1フレーム実施され、各フレームは通常所定の時間枠内の音声サンプルを備える。サンプルをフレームに分割すると、フレームの境界に切れ目が生じることが避けられない。音の変化に応じて符号化パラメータが変化するのだが、符号化パラメータは基本的に各フレーム境界で変化することになる。これが、知覚されてしまうような誤差となりうる。これを少しでも補償する一方法は、符号化されるサンプルだけでなく、フレームの絶対的に近いサンプルも基にして符号化することである。その方法で、異なるフレーム間の遷移が滑らかになるだろう。その代わりにあるいは追加的に、フレーム境界で生じる知覚歪みを減少させるために補間法も使用される。しかし、そのような手順はいずれも、大量の追加的な演算リソースが必要となり、そのような符号化技術に対してリソースを配分することは困難となる可能性もある。
この観点から考えると、フレームの境界数が少なくなるように、なるべく長いフレームを使用するほうが都合がよい。また、符号化効率も高くなり、必要な伝送ビットレートも低くできる。しかし、フレームが長いと、プリエコーやゴーストのような音の問題を引き起こす。
逆に短いフレームを利用すると、符号化効率は減少して伝送ビットレートは高くなり、フレーム境界の歪みの問題が増加するだろうことは、当業者なら誰でも理解するであろう。しかし、フレームが短くなると、例えばゴーストのような音やプリエコーなどの知覚歪みの影響であまり困ることはなくなる。符号化誤差をなるべく少なくするためには、できるだけ短いフレーム長を使用すべきである。
したがって、フレーム長については相反する要件が有るように見える。それ故、音声知覚のためには、符号化する信号に存在する信号特性に基づいたフレーム長を使用するのが好ましい。音声知覚に関するフレーム長の影響は符号化する音の性質に依存して異なるだろうから、信号自体の性質を使用するフレーム長に関係させることで改善が見込める。特に、この手順は、副信号符号化に好都合であるとわかっている。
小さな一時的変動のために、例えば場合によっては、比較的長いフレームを使用して副信号を符号化するほうがよいこともある。これに相当するのは、コンサートの録音などの拡散音場が大きい録音のこともある。ステレオ音声会話などのそれ以外の場合には、短いフレームが好ましい。
例えば、使用されるサブフレーム長は、次式により選ぶことができよう。
Figure 2008529056
ここで、lsfはサブフレーム長であり、lfは全体の符号化フレーム長であり、nは整数である。しかし、これが単なる例であることは理解されるべきである。サブフレームセットの合計長が一定に維持される限り、どのフレーム長も使用可能である。
どのフレーム長を使用するかの決定方法としては一般に、閉ループ決定又は開ループ決定の2つの基本的方法がある。
閉ループ決定を使用する場合、入力信号は通常すべての利用可能符号化スキームで符号化される。好ましくは、フレーム長のすべての可能な組み合わせがテストされ、目的の品質、例えば信号対雑音比や重み付き信号対雑音比について、最良の結果となる関連サブフレームセットを有する符号化スキームが選択される。
もう一方の手法は、信号の統計に基づく開ループ決定によるフレーム長の決定である。すなわち、この手法では、(副)信号のスペクトル特性が、どの符号化スキームを使用しようとしているかを決定する基礎として使用される。前述のように、様々なサブフレームセットを特徴とする様々な符号化スキームが利用可能である。しかし、この実施形態では、入力(副)信号がまず分析され、次に適切な符号化スキームが選択され利用される。
開ループ決定の利点は、実際にはただ1つの符号化しか実行しなくてもよいことである。反対に不利な点は、信号特性の分析が極めて複雑になることがあり、前もって起こりうる行動を予測することが難しいことである。音の統計的分析を、大量に実施しなければならない。符号化スキームの小さな変更でも、統計的性質が大幅に変わることもある。
閉ループ選択を使用すると、符号化スキームは実装に何らの変更を起こすことなく、交換することが可能である。他方、多くの符号化スキームが調査される場合、計算上の要件が厳しくなる。
入力(副)信号に対するそのような可変フレーム長符号化の利点は、一方で精細な時間解像度と粗い周波数解像度との間で選択してもよく、他方で粗い時間解像度と精細な周波数解像度との間で選択してもよいことである。上記の実施形態は、マルチチャネル音像又はステレオ音像を可能な最善の方法で維持するであろう。
異なる符号化スキームで利用される実際の符号化については、幾つかの要件もある。特に、閉ループ選択を使用する場合、相当数のほぼ同時の符号化を実施するために、演算リソースが多くなくてはならない。符号化処理が複雑になればなるほど演算能力が必要となる。さらに、伝送の点で低ビットレートであることも望まれる。
本発明の例示の実施形態による可変長最適化フレーム処理は、入力として大きな「マスタフレーム」を必要とし、ある数のフレーム分割構成を与えられ、例えばMSE又は重み付きMSEでもよい所与の歪み測定値に関して最善のフレーム分割構成を選択する。
フレーム分割は様々なサイズでもよいが、分割されたフレームの全部の合計はマスタフレームの全長に及ぶ。
例示の手順を説明するために、図19に示される長さLミリ秒のマスタフレームと可能なフレーム分割を考慮しよう。図20に例示のフレーム構成を示す。
本発明の特定の例示の実施形態では、アイデアは、全体の符号化フレーム(マスタフレーム)にわたり、考慮される符号化処理又はその信号符号化ステージの性能を表す測定値を最適化するように、関連するフレーム分割構成を有する符号化スキームと各サブフレームに対するフィルタ長/次元数との組み合わせを選択することである。各サブフレームに対してフィルタ長を調整することができれば、自由度が増し、性能の向上させることができる。
しかし、符号化側から復号化側への送信中の信号伝送量を減らすため、ある長さの各サブフレームは所定のフィルタ長と関連するのが好ましい。たいていは、長いフィルタは長いフレームに割り当てられ、短いフレームは短いフレームに割り当てられる。
以下の表に、可能なフレーム構成を挙げる。
Figure 2008529056
(m1,m2,m3,m4)の形をしており、ここでmkは、マスタフレーム内のL/4ミリ秒の長さのk番目の(サブ)フレームに対して選択されるフレームタイプを表す。例えば次の如くである。
k=0は、フィルタ長をPとしてL/4ミリ秒のフレーム。
k=1は、フィルタ長を2×PとしてL/2ミリ秒のフレーム。
k=2は、フィルタ長を4×PとしてLミリ秒の最大フレーム。
例えば、構成(0,0,1,1)は、Lミリ秒のマスタフレームが、フィルタ長をPとするL/4ミリ秒の2つの(サブ)フレームと、これに続く、フィルタ長を2×PとするL/2ミリ秒の1つの(サブ)フレームとに分割されることを示す。また、構成(2,2,2,2)は、フィルタ長を4×PとするLミリ秒のフレームが使用されることを示す。このように、(m1,m2,m3,m4)の情報は、フレーム分割の構成のみならずフィルタ長の情報も同時に示すことがわかる。
最適構成は、例えばMSE又は同等に最大SNRに基づき選択される。例えば、構成(0,0,1,1)が使用される場合、長さPのフィルタ2つと長さ2×Pのフィルタ1つで、フィルタの合計数は3である。
その対応するフィルタとそれぞれの長さで、(SNR又はMSEで測定して)最良の性能となるフレーム構成が選択される。
フレーム選択前のフィルタの計算は、フィルタの量子化ステージを含むことで、開ループか又は閉ループのどちらでもよい。
この手法を使用する利点は、この手順ではステレオ音像又はマルチチャネル音像の躍動感がよく表現されることである。伝送されるパラメータは、フレーム構成及び符号化されたフィルタである。
可変フレーム長処理に伴って、エンコーダの分析窓同士のオーバーラップ長を異ならせるようにしてもよい。それ故デコーダでは、それに対応してチャネル信号の窓への合成や異なる信号長のオーバーラップ加算が不可欠である。
定常信号に関してはステレオ音像が非常に安定していて、推定チャネル・フィルタがまったく変動がないことはよくある。この場合、長いインパルス応答を有するFIRフィルタ、すなわちステレオ音像の優れたモデル化が役に立つだろう。
前述のビット割り当て手順を可変フレーム長且つ調節可能なフィルタ長処理に組み入れることも、また別の自由度を加えることに特に役立つことがわかっている。本発明の好適な実施形態では、アイデアはフレーム分割構成と各サブフレームに対するビット割り当て及びフィルタ長/次元数との組み合わせを選択し、符号化フレーム全体にわたり、考慮される符号化処理又は信号符号化ステージの性能を表す測定値を最適化する。次いで、考慮された信号は、選択されたビット割り当て及びフィルタ次元数に従って、選択されたフレーム分割構成の各サブフレームに対して別々に符号化される。
好ましいのは、考慮される信号は副信号であり、エンコーダはパラメトリック(ICP)ステージとノンパラメトリック・ステージなどの補助ステージとを備えるマルチステージ・エンコーダであることである。ビット割り当て情報は、量子化ビットが幾つパラメトリック・ステージに割り当てられるべきであり、幾つが補助にステージに割り当てられるべきかを制御し、フィルタ長情報はパラメトリック(ICP)フィルタ長に関連するのが好ましい。
ここで信号符号化処理は、復号化側に転送する選択されたフレーム分割構成を表す出力データと、選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長出力データとを生成する。
大きい自由度があれば、本当に最適な選択を見つけることは可能である。しかし、復号側に転送される制御情報量が増加する。音声伝送システムの符号化側から復号化側への信号伝送におけるビットレートを低減させるためには、各サブフレームに対するフィルタ長を上記のようにサブフレーム長に従って選択することが好ましい。これは、符号化フレームすなわちマスタフレームのサブフレームセットへのフレーム分割構成の表示が、各サブフレームに対して選択されたフィルタ次元数の表示を同時に提供すること意味し、それにより必要な信号伝送量が低減する。
上述した実施形態は単なる例示にすぎず、本発明が実施形態に限定されるものではない。本明細書の開示と特許請求の範囲に記載される基礎をなす原理を維持しつつ更に行う修正、変更、改善は、本発明の範疇に含まれる。
マルチチャネル符号化/復号化を使用する音声伝送システムの一般的な例を示すブロック図である。 異なるチャネルの信号が個別で無関係な信号として、それぞれどのように符号化されるかを説明する図である。 パラメトリック・ステレオ符号化の基本原理を示すブロック図である。 モノラル信号と副信号とのクロススペクトルを示す図である。 本発明の好適な実施形態に係るマルチチャネル・エンコーダのブロック図である。 本発明の好適な実施形態に係る基本マルチチャネル符号化手順を示すフローチャートである。 本発明の好適な実施形態に係る対応するマルチチャネル復号化手順を示すフローチャートである。 本発明の好適な実施形態による(ステレオ)エンコーダの関連部を示すブロック図である。 本発明の好適な実施形態による(ステレオ)デコーダの関連部を示す略ブロック図である。 チャネル間予測(FIR)フィルタリングを用いた副信号推定を示す図である。 モノラル符号化及びマルチステージ・ハイブリッド副信号符号化を有するオーディオエンコーダの図である。 (a)は、モノラル信号及び副信号、並びにそれらのチャネル間相関すなわち相互相関を示す周波数領域の特性図、(b)は、(a)の例に対応する原副信号及び予測副信号を示す時間領域の特性図、(c)は、別のモノラル信号及び副信号、並びにそれらの相互相関を示す周波数領域の特性図、(d)は、(c)の例に対応する原副信号及び予測副信号を示す時間領域の特性図である。 本発明の特定の実施形態に係るマルチステージ副エンコーダと関係する適応ビット割り当てコントローラを示す概略図である。 ICPフィルタ係数の量子化に使用されるビットに対する復元副信号の品質を示す図である。 予測可能性を説明する図である。 本発明の好適な実施形態に係るステレオ・デコーダを示す図である。 フィルタ次数に対する取得した平均量子化誤差及び予測誤差の例を示す図である。 異なるビット数で様々な次数を量子化するときに達成される総合品質を示す図である。 マルチステージ・ベクトル符号化の例を示す図である。 マスタフレームを様々にフレーム分割したときのタイムチャートである。 本発明の実施形態に係る様々なフレーム構成を示す図である。

Claims (37)

  1. マルチチャネル音声信号を符号化する符号化方法であって、
    第1信号符号化処理で前記マルチチャネルのうちの少なくとも1つのチャネルの第1の信号を符号化する第1符号化ステップと、
    マルチステージ符号化処理である第2信号符号化処理で、前記マルチチャネルのうちの少なくとも1つのチャネルの第2の信号を符号化する第2符号化ステップと、
    前記マルチチャネル音声信号の特性に基づいて、前記マルチステージ信号符号化処理における異なる符号化ステージ間に符号化ビット数を適応的に割り当てる割り当てステップと、
    を有することを特徴とする符号化方法。
  2. 前記割り当てステップは、前記マルチチャネル音声信号のチャネル間相関特性に基づいて実行されることを特徴とする請求項1に記載の符号化方法。
  3. 前記割り当てステップは、フレームごとに実行されることを特徴とする請求項1に記載の符号化方法。
  4. 前記割り当てステップは、前記符号化ステージの少なくとも1つの推定性能に基づいて実行されることを特徴とする請求項1に記載の符号化方法。
  5. 前記割り当てステップは、
    前記第1の符号化ステージに割り当てられると仮定されるビット数に従い、第1の符号化ステージの推定性能を評価するステップと、
    前記評価に基づいて、第1の符号化ビット量を前記第1の符号化ステージに割り当てるステップと、
    を有することを特徴とする請求項4に記載の符号化方法。
  6. 前記マルチステージ信号符号化処理は、前記第1の信号及び前記第2の信号に基づいて前記第2の信号の予測のための適応チャネル間予測を第1の符号化ステージ内に有し、信号予測誤差に少なくとも一部基づいて性能を推定することを特徴とする請求項4又は5に記載の符号化方法。
  7. 前記性能は、前記チャネル間予測で生成される第2の信号復元データの量子化のために割り当てられるビット数に応じて、量子化誤差の推定にも基づいて推定されることを特徴とする請求項6に記載の符号化方法。
  8. 前記マルチステージ信号符号化処理は、更に、前記第1の符号化ステージからの前記信号予測誤差を符号化する符号化処理を第2の符号化ステージ内に備えることを特徴とする請求項6に記載の符号化方法。
  9. 前記マルチステージ信号符号化処理は、パラメトリック符号化処理とノンパラメトリック符号化処理とのハイブリッド処理であり、符号化ビットは、チャネル間相関特性に基づいてパラメトリック符号化ステージとノンパラメトリック符号化ステージとの間に割り当てられることを特徴とする請求項1に記載の符号化方法。
  10. 前記符号化ビット数は前記マルチステージ信号符号化処理に対するビット割り当て量によって決定され、前記ビット割り当てを表す出力データも生成されることを特徴とする請求項1に記載の符号化方法。
  11. 前記第2信号符号化処理の性能を表す測定値を最適化するために、符号化のためのビット割り当てとフィルタ長との組み合わせを選択する選択ステップを更に有することを特徴とする請求項1に記載の符号化方法。
  12. 少なくとも前記第1の符号化ステージの性能を表す測定値を最適化するために、前記第1の符号化ステージに割り当てられるビット数と前記第1の符号化ステージで使用されるフィルタ長との組み合わせを選択するステップを更に有することを特徴とする請求項5に記載の符号化方法。
  13. 前記選択されたビット割り当てとフィルタ長とを表す出力データが生成されることを特徴とする請求項11又は12に記載の符号化方法。
  14. 符号化フレーム全体にわたり、前記第2信号符号化処理の性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームの符号化のためのビット割り当て及びフィルタ長との組み合わせを選択するステップと、
    前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームで、前記第2の信号を別々に符号化するステップと、
    を更に有することを特徴とする請求項1に記載の符号化方法。
  15. 符号化フレーム全体にわたり、少なくとも前記第1の符号化ステージの前記性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームに対する前記第1の符号化ステージに割り当てられるビット数と、各サブフレームに対する前記第1の符号化ステージで使用されるフィルタ長との組み合わせを選択するステップと、
    前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームの前記第2の信号を別々に符号化するステップと、
    を更に有することを特徴とする請求項5に記載の符号化方法。
  16. 前記選択されたフレーム分割構成と、前記選択されたフレーム分割構成の各サブフレームに対するビット割り当て及びフィルタ長とを表す出力データが生成されることを特徴とする請求項14又は15に記載の符号化方法。
  17. 各サブフレームに対する前記フィルタ長は、符号化フレームのサブフレームセットへのフレーム分割構成の表示が同時に各サブフレームに対する選択されたフィルタ次元数の表示を提供しそれにより必要な信号伝送量を減少できるように、前記サブフレーム長に依存して選択されることを特徴とする請求項16に記載の符号化方法。
  18. 符号化されたマルチチャネルの音声信号を復号化する方法であって、
    第1の信号復元データに応じて、第1信号復号化処理において前記マルチチャネルのうちの少なくとも1つのチャネルの符号化された第1の信号を復号化する第1復号化ステップと、
    第2の信号復元データに応じて、第2マルチステージ信号復号化処理において前記マルチチャネルのうちの少なくとも1つのチャネルの符号化された第2の信号を復号化する第2復号化ステップと、
    対応する第2マルチステージ信号符号化処理において、異なる符号化ステージ間にビット数がどのように割り当てられたかを表すビット割り当て情報を受信する受信ステップと、
    前記ビット割り当て情報に基づき、前記第2マルチステージ信号復号化処理において前記第2の信号復元データを分析する方法を決定する決定ステップと、
    を有することを特徴とする復号化方法。
  19. マルチチャネルの音声信号を符号化する装置であって、
    前記マルチチャネルのうちの少なくとも1つのチャネルの第1の信号を符号化する第1エンコーダと、
    前記マルチチャネルのうちの少なくとも1つのチャネルの第2の信号を符号化する第2マルチステージ・エンコーダと、
    前記マルチチャネルの音声信号の特性に基づいて、前記第2マルチステージ・エンコーダにおける異なる符号化ステージ間への符号化ビット数の割り当てを適応的に制御する制御手段と、
    を有することを特徴とする装置。
  20. 前記制御手段は、前記マルチチャネルの音声信号のチャネル間相関特性に基づいて、前記異なる符号化ステージ間への符号化ビット数の割り当てを制御可能であることを特徴とする請求項19に記載の装置。
  21. 前記制御手段は、フレームごとに前記異なる符号化ステージ間へのビットの割り当てを適応的に制御可能であることを特徴とする請求項19に記載の装置。
  22. 前記制御手段は、前記符号化ステージの少なくとも1つの推定性能に基づき、前記異なる符号化ステージ間への符号化ビット数の割り当てを適応的に制御可能であることを特徴とする請求項19に記載の装置。
  23. 前記制御手段は、
    前記第1の符号化ステージに割り当てられると見なされるビット数に応じて、前記第2のマルチステージ・エンコーダの第1の符号化ステージの推定性能を評価する手段と、
    前記評価に基づき、前記第1の符号化ステージに前記第1の符号化ビット量を割り当てる手段と、
    を備えることを特徴とする請求項22に記載の装置。
  24. 前記第1の符号化ステージは、前記第1の信号と前記第2の信号とに基づいて第2の信号の予測のための適応チャネル間予測フィルタを有し、前記制御手段は、信号予測誤差に少なくとも一部基づいて少なくとも前記第1の符号化ステージの推定性能を評価する手段を有することを特徴とする、請求項22又は23に記載の装置。
  25. 前記評価手段は、前記チャネル間予測フィルタの量子化のために割り当てられたビット数に応じた推定量子化誤差の評価に基づき、少なくとも前記第1の符号化ステージの推定性能を評価可能であることを特徴とする請求項24に記載の装置。
  26. 前記第2マルチステージ・エンコーダは、前記第1の符号化ステージからの前記信号予測誤差を符号化する第2の符号化ステージを更に備えることを特徴とする請求項24に記載の装置。
  27. 前記第2マルチステージ・エンコーダは、パラメトリック符号化とノンパラメトリック符号化とのハイブリッド・エンコーダであり、前記制御手段は、チャネル間相関特性に基づきパラメトリック符号化ステージとノンパラメトリック符号化ステージとの間の符号化ビットの割り当てを制御可能であることを特徴とする請求項19に記載の装置。
  28. 前記符号化ビット数は前記第2マルチステージ・エンコーダに対するビット割り当て量により決定され、前記第2マルチステージ・エンコーダは前記ビット割り当てを表す出力データを生成可能であることを特徴とする請求項19に記載の装置。
  29. 前記第2マルチステージ・エンコーダの性能を表す測定値を最適化するために、ビット割り当てとフィルタ長との組み合わせを選択する選択手段を更に備えることを特徴とする請求項19に記載の装置。
  30. 少なくとも前記第1の符号化ステージの性能を表す測定値を最適化するために、前記第1の符号化ステージに割り当てられるビット数と前記第1の符号化ステージで使用されるフィルタ長との組み合わせを選択する選択手段を更に備えることを特徴とする請求項23に記載の装置。
  31. 前記第2マルチステージ・エンコーダは、前記選択されたビット割り当てとフィルタ長とを表す出力データを生成可能であることを特徴とする請求項29又は30に記載の装置。
  32. 符号化フレーム全体にわたり、前記第2マルチステージ・エンコーダの前記性能を表す測定値を最適化するために、符号化フレームのサブフレームセットへのフレーム分割構成と、各サブフレームを符号化するためのビット割り当て及びフィルタ長との組み合わせを選択する手段と、
    前記選択された組み合わせに応じて、前記選択されたサブフレームセットの各サブフレームの前記第2の信号を別々に符号化する手段と、
    を更に備えることを特徴とする請求項19に記載の装置。
  33. 符号化フレーム全体にわたり、少なくとも前記第1の符号化ステージの性能を表す測定値を最適化するために、1)符号化フレームのサブフレームセットへのフレーム分割構成と、2)各サブフレームに対し前記第1の符号化ステージに割り当てられるビット数と、3)各サブフレームに対し前記第1の符号化ステージで使用されるフィルタ長との組み合わせを選択する手段と、
    前記選択された組み合わせに基づき、前記選択されたサブフレームセットの各サブフレームの前記第2の信号を別々に符号化する手段と、
    を更に備えることを特徴とする請求項23に記載の装置。
  34. 前記第2マルチステージ・エンコーダは、前記選択されたフレーム分割構成と、前記選択されたフレーム分割構成の各サブフレームに対するビット割り当てとフィルタ長とを表す出力データを生成可能であることを特徴とする請求項32又は33に記載の装置。
  35. 前記第2マルチステージ・エンコーダは、符号化フレームのサブフレームセットへのフレーム分割構成の表示が各サブフレームに対し選択されたフィルタ次元数の表示を同時に提供し、それにより必要な信号伝送を減少できるように、前記サブフレーム長に基づいて各サブフレームに対する前記フィルタ長を選択可能であることを特徴とする請求項34に記載の装置。
  36. 符号化されたマルチチャネルの音声信号を復号化する装置であって、
    第1の信号復元データに応じて、前記マルチチャネルのうちの少なくとも1つのチャネルの符号化された第1の信号を復号化する第1デコーダと、
    第2の信号復元データに応じて、前記マルチチャネルのうちの少なくとも1つのチャネルの符号化された第2の信号を復号化する第2マルチステージ・デコーダと、
    を備え、
    対応する第2マルチステージ・エンコーダの異なる符号化ステージ間にビット数がどのように割り当てられたかを表すビット割り当て情報を受信する受信手段と、
    前記ビット割り当て情報に基づき、前記第2の信号を復号化するために、前記第2マルチステージ・デコーダの前記第2の信号復元データを分析する分析手段と、
    を有することを特徴とする復号化装置。
  37. 請求項19に記載の符号化装置と請求項36に記載の復号化装置とを備えることを特徴とする音声伝送システム。
JP2007552087A 2005-02-23 2005-12-22 マルチチャネル音声符号化における適応ビット割り当て Expired - Fee Related JP4809370B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US65495605P 2005-02-23 2005-02-23
US60/654956 2005-02-23
PCT/SE2005/002033 WO2006091139A1 (en) 2005-02-23 2005-12-22 Adaptive bit allocation for multi-channel audio encoding

Publications (2)

Publication Number Publication Date
JP2008529056A true JP2008529056A (ja) 2008-07-31
JP4809370B2 JP4809370B2 (ja) 2011-11-09

Family

ID=36927684

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2007552087A Expired - Fee Related JP4809370B2 (ja) 2005-02-23 2005-12-22 マルチチャネル音声符号化における適応ビット割り当て
JP2007556114A Expired - Fee Related JP5171269B2 (ja) 2005-02-23 2006-02-22 マルチチャネルオーディオ符号化における忠実度の最適化及び信号伝送量の低減

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2007556114A Expired - Fee Related JP5171269B2 (ja) 2005-02-23 2006-02-22 マルチチャネルオーディオ符号化における忠実度の最適化及び信号伝送量の低減

Country Status (7)

Country Link
US (2) US7945055B2 (ja)
EP (1) EP1851866B1 (ja)
JP (2) JP4809370B2 (ja)
CN (3) CN101124740B (ja)
AT (2) ATE521143T1 (ja)
ES (1) ES2389499T3 (ja)
WO (1) WO2006091139A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010134332A1 (ja) * 2009-05-20 2010-11-25 パナソニック株式会社 符号化装置、復号装置、およびこれらの方法
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
JP2011048279A (ja) * 2009-08-28 2011-03-10 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
JP2012123090A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 音響符号化装置及び復号装置、並びにこれらのプログラム
JP2012141412A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 符号器、符号化方法および符号化プログラム
JP2016136256A (ja) * 2010-12-03 2016-07-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のメディア処理ノードによる適応処理
JP2018063457A (ja) * 2014-05-01 2018-04-19 日本電信電話株式会社 復号装置、及びその方法、プログラム、記録媒体
JP2018533058A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904404B1 (en) * 1996-07-01 2005-06-07 Matsushita Electric Industrial Co., Ltd. Multistage inverse quantization having the plurality of frequency bands
US7447629B2 (en) * 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US9626973B2 (en) * 2005-02-23 2017-04-18 Telefonaktiebolaget L M Ericsson (Publ) Adaptive bit allocation for multi-channel audio encoding
US7983922B2 (en) * 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
US7830921B2 (en) 2005-07-11 2010-11-09 Lg Electronics Inc. Apparatus and method of encoding and decoding audio signal
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
TR201906713T4 (tr) * 2007-01-10 2019-05-21 Koninklijke Philips Nv Audio kod çözücü.
BRPI0809940A2 (pt) * 2007-03-30 2014-10-07 Panasonic Corp Dispositivo de codificação e método de codificação
WO2009038512A1 (en) 2007-09-19 2009-03-26 Telefonaktiebolaget Lm Ericsson (Publ) Joint enhancement of multi-channel audio
US8374883B2 (en) 2007-10-31 2013-02-12 Panasonic Corporation Encoder and decoder using inter channel prediction based on optimally determined signals
JP5404412B2 (ja) * 2007-11-01 2014-01-29 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
KR101452722B1 (ko) * 2008-02-19 2014-10-23 삼성전자주식회사 신호 부호화 및 복호화 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2287836B1 (en) * 2008-05-30 2014-10-15 Panasonic Intellectual Property Corporation of America Encoder and encoding method
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기
US9384748B2 (en) 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
JP5309944B2 (ja) * 2008-12-11 2013-10-09 富士通株式会社 オーディオ復号装置、方法、及びプログラム
WO2010090019A1 (ja) 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
ES2519415T3 (es) 2009-03-17 2014-11-06 Dolby International Ab Codificación estéreo avanzada basada en una combinación de codificación estéreo izquierda/derecha o central/lateral seleccionable de manera adaptativa y de codificación estéreo paramétrica
GB2470059A (en) * 2009-05-08 2010-11-10 Nokia Corp Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter
WO2011013981A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN102171754B (zh) * 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
TWI433137B (zh) 2009-09-10 2014-04-01 Dolby Int Ab 藉由使用參數立體聲改良調頻立體聲收音機之聲頻信號之設備與方法
JP5547813B2 (ja) * 2009-09-17 2014-07-16 インダストリー−アカデミック コーペレイション ファウンデイション, ヨンセイ ユニバーシティ オーディオ信号を処理する方法及び装置
BR112012021369B1 (pt) * 2010-02-24 2021-11-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho para gerar um sinal downmix intensificado e método para gerar um sinal downmix intensificado
JP5814341B2 (ja) 2010-04-09 2015-11-17 ドルビー・インターナショナル・アーベー Mdctベース複素予測ステレオ符号化
EP4404561A2 (en) * 2010-04-13 2024-07-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoding method for processing stereo audio signals using a variable prediction direction
EP3971893B1 (en) * 2010-07-02 2024-06-19 Dolby International AB Audio decoding with selective post filter
WO2012025431A2 (en) * 2010-08-24 2012-03-01 Dolby International Ab Concealment of intermittent mono reception of fm stereo radio receivers
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
ES2530957T3 (es) * 2010-10-06 2015-03-09 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio y para proporcionar una mayor granularidad temporal para un códec de voz y de audio unificado combinado (USAC)
PL2671222T3 (pl) 2011-02-02 2016-08-31 Ericsson Telefon Ab L M Określanie międzykanałowej różnicy czasu wielokanałowego sygnału audio
PL3154057T3 (pl) * 2011-04-05 2019-04-30 Nippon Telegraph & Telephone Dekodowanie sygnału akustycznego
WO2013046375A1 (ja) * 2011-09-28 2013-04-04 富士通株式会社 無線信号送信方法、無線信号送信装置、無線信号受信装置、無線基地局装置及び無線端末装置
CN103220058A (zh) * 2012-01-20 2013-07-24 旭扬半导体股份有限公司 音频数据与视觉数据同步装置及其方法
US10100501B2 (en) 2012-08-24 2018-10-16 Bradley Fixtures Corporation Multi-purpose hand washing station
PL2959482T3 (pl) * 2013-02-20 2019-10-31 Fraunhofer Ges Forschung Urządzenie i sposób do kodowania lub dekodowania sygnału audio przy użyciu zakładki zależnej od lokalizacji transjentu
RU2745832C2 (ru) 2013-05-24 2021-04-01 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
JP6641304B2 (ja) * 2014-06-27 2020-02-05 ドルビー・インターナショナル・アーベー 非差分的な利得値を表現するのに必要とされる最低整数ビット数をhoaデータ・フレーム表現の圧縮のために決定する装置
EP2960903A1 (en) 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
CN104157293B (zh) * 2014-08-28 2017-04-05 福建师范大学福清分校 一种增强声环境中目标语音信号拾取的信号处理方法
CN104347077B (zh) * 2014-10-23 2018-01-16 清华大学 一种立体声编解码方法
EP3067885A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
JP6721977B2 (ja) * 2015-12-15 2020-07-15 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声音響信号符号化装置、音声音響信号復号装置、音声音響信号符号化方法、及び、音声音響信号復号方法
CN113782039A (zh) 2017-08-10 2021-12-10 华为技术有限公司 时域立体声编解码方法和相关产品
EP3685375A4 (en) 2017-09-20 2021-06-02 VoiceAge Corporation METHOD AND DEVICE FOR EFFICIENT DISTRIBUTION OF A BIT BUDGET IN A CELP CODEC
JP7092049B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 多地点制御方法、装置及びプログラム
KR20230084246A (ko) * 2020-10-09 2023-06-12 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 파라미터 평활화를 사용하여, 인코딩된 오디오 장면을 프로세싱하기 위한 장치, 방법, 또는 컴퓨터 프로그램
EP4226365A2 (en) * 2020-10-09 2023-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, or computer program for processing an encoded audio scene using a parameter conversion

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2637090B2 (ja) * 1987-01-26 1997-08-06 株式会社日立製作所 音響信号処理回路
US5434948A (en) 1989-06-15 1995-07-18 British Telecommunications Public Limited Company Polyphonic coding
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
NL9100173A (nl) 1991-02-01 1992-09-01 Philips Nv Subbandkodeerinrichting, en een zender voorzien van de kodeerinrichting.
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JPH05289700A (ja) * 1992-04-09 1993-11-05 Olympus Optical Co Ltd 音声符号化装置
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JPH0736493A (ja) * 1993-07-22 1995-02-07 Matsushita Electric Ind Co Ltd 可変レート音声符号化装置
JPH07334195A (ja) * 1994-06-14 1995-12-22 Matsushita Electric Ind Co Ltd サブフレーム長可変音声符号化装置
US5694332A (en) 1994-12-13 1997-12-02 Lsi Logic Corporation MPEG audio decoding system with subframe input buffering
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5812971A (en) 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
SE9700772D0 (sv) 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
JPH1132399A (ja) 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6012031A (en) 1997-09-24 2000-01-04 Sony Corporation Variable-length moving-average filter
US6591241B1 (en) 1997-12-27 2003-07-08 Stmicroelectronics Asia Pacific Pte Limited Selecting a coupling scheme for each subband for estimation of coupling parameters in a transform coder for high quality audio
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
JP3606458B2 (ja) * 1998-10-13 2005-01-05 日本ビクター株式会社 音声信号伝送方法及び音声復号方法
US6446037B1 (en) 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
JP2001184090A (ja) 1999-12-27 2001-07-06 Fuji Techno Enterprise:Kk 信号符号化装置,及び信号復号化装置,並びに信号符号化プログラムを記録したコンピュータ読み取り可能な記録媒体,及び信号復号化プログラムを記録したコンピュータ読み取り可能な記録媒体
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
SE519981C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
JP3894722B2 (ja) 2000-10-27 2007-03-22 松下電器産業株式会社 ステレオオーディオ信号高能率符号化装置
JP3846194B2 (ja) 2001-01-18 2006-11-15 日本ビクター株式会社 音声符号化方法,音声復号化方法,音声受信装置及び音声信号伝送方法
ES2260426T3 (es) 2001-05-08 2006-11-01 Koninklijke Philips Electronics N.V. Codificacion de audio.
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
KR101021076B1 (ko) 2002-04-22 2011-03-11 코닌클리케 필립스 일렉트로닉스 엔.브이. 신호 합성
DE60306512T2 (de) * 2002-04-22 2007-06-21 Koninklijke Philips Electronics N.V. Parametrische beschreibung von mehrkanal-audio
JP4062971B2 (ja) 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
US7447629B2 (en) * 2002-07-12 2008-11-04 Koninklijke Philips Electronics N.V. Audio coding
CN100533990C (zh) * 2002-08-21 2009-08-26 广州广晟数码技术有限公司 用于对多声道数字音频信号进行压缩编码的编码器
JP4022111B2 (ja) * 2002-08-23 2007-12-12 株式会社エヌ・ティ・ティ・ドコモ 信号符号化装置及び信号符号化方法
JP4373693B2 (ja) * 2003-03-28 2009-11-25 パナソニック株式会社 音響信号の階層符号化方法および階層復号化方法
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
DE10328777A1 (de) 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
CN1212608C (zh) * 2003-09-12 2005-07-27 中国科学院声学研究所 一种采用后置滤波器的多通道语音增强方法
US7725324B2 (en) 2003-12-19 2010-05-25 Telefonaktiebolaget Lm Ericsson (Publ) Constrained filter encoding of polyphonic signals
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8843378B2 (en) 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102422347A (zh) * 2009-05-20 2012-04-18 松下电器产业株式会社 编码装置、解码装置及编码和解码方法
WO2010134332A1 (ja) * 2009-05-20 2010-11-25 パナソニック株式会社 符号化装置、復号装置、およびこれらの方法
CN102422347B (zh) * 2009-05-20 2013-07-03 松下电器产业株式会社 编码装置、解码装置及编码和解码方法
JP5574498B2 (ja) * 2009-05-20 2014-08-20 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 符号化装置、復号装置、およびこれらの方法
US9111527B2 (en) 2009-05-20 2015-08-18 Panasonic Intellectual Property Corporation Of America Encoding device, decoding device, and methods therefor
JP2011002574A (ja) * 2009-06-17 2011-01-06 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
JP2011048279A (ja) * 2009-08-28 2011-03-10 Nippon Hoso Kyokai <Nhk> 3次元音響符号化装置、3次元音響復号装置、符号化プログラム及び復号プログラム
JP2016136256A (ja) * 2010-12-03 2016-07-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 複数のメディア処理ノードによる適応処理
US9842596B2 (en) 2010-12-03 2017-12-12 Dolby Laboratories Licensing Corporation Adaptive processing with multiple media processing nodes
JP2012123090A (ja) * 2010-12-07 2012-06-28 Nippon Hoso Kyokai <Nhk> 音響符号化装置及び復号装置、並びにこれらのプログラム
JP2012141412A (ja) * 2010-12-28 2012-07-26 Fujitsu Ltd 符号器、符号化方法および符号化プログラム
JP2018063457A (ja) * 2014-05-01 2018-04-19 日本電信電話株式会社 復号装置、及びその方法、プログラム、記録媒体
JP2018533058A (ja) * 2015-09-25 2018-11-08 ヴォイスエイジ・コーポレーション ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
US10984806B2 (en) 2015-09-25 2021-04-20 Voiceage Corporation Method and system for encoding a stereo sound signal using coding parameters of a primary channel to encode a secondary channel
US11056121B2 (en) 2015-09-25 2021-07-06 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
JP2022028765A (ja) * 2015-09-25 2022-02-16 ヴォイスエイジ・コーポレーション ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム
JP7244609B2 (ja) 2015-09-25 2023-03-22 ヴォイスエイジ・コーポレーション ビットバジェットに応じて2サブフレームモデルと4サブフレームモデルとの間で選択を行うステレオ音声信号の左チャンネルおよび右チャンネルを符号化するための方法およびシステム

Also Published As

Publication number Publication date
CN101128867B (zh) 2012-06-20
ATE521143T1 (de) 2011-09-15
EP1851866A4 (en) 2010-05-19
CN101128866A (zh) 2008-02-20
WO2006091139A1 (en) 2006-08-31
EP1851866A1 (en) 2007-11-07
US20060246868A1 (en) 2006-11-02
JP4809370B2 (ja) 2011-11-09
CN101124740B (zh) 2012-05-30
ES2389499T3 (es) 2012-10-26
US7945055B2 (en) 2011-05-17
EP1851866B1 (en) 2011-08-17
US7822617B2 (en) 2010-10-26
ATE518313T1 (de) 2011-08-15
CN101128866B (zh) 2011-09-21
CN101124740A (zh) 2008-02-13
US20060195314A1 (en) 2006-08-31
CN101128867A (zh) 2008-02-20
JP5171269B2 (ja) 2013-03-27
JP2008532064A (ja) 2008-08-14

Similar Documents

Publication Publication Date Title
JP4809370B2 (ja) マルチチャネル音声符号化における適応ビット割り当て
US9626973B2 (en) Adaptive bit allocation for multi-channel audio encoding
RU2765565C2 (ru) Способ и система для кодирования стереофонического звукового сигнала с использованием параметров кодирования первичного канала для кодирования вторичного канала
JP4335917B2 (ja) 忠実度最適化可変フレーム長符号化
RU2625444C2 (ru) Система обработки аудио
JP4804532B2 (ja) 無相関信号の包絡線整形
US7809579B2 (en) Fidelity-optimized variable frame length encoding
EP3762923B1 (en) Audio coding
KR20230153402A (ko) 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱
US20230368803A1 (en) Method and device for audio band-width detection and audio band-width switching in an audio codec
AU2007237227B2 (en) Fidelity-optimised pre-echo suppressing encoding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100507

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110812

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110818

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140826

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4809370

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees