JP5542306B2 - オーディオ信号のスケーラブル符号化及び復号 - Google Patents

オーディオ信号のスケーラブル符号化及び復号 Download PDF

Info

Publication number
JP5542306B2
JP5542306B2 JP2007550000A JP2007550000A JP5542306B2 JP 5542306 B2 JP5542306 B2 JP 5542306B2 JP 2007550000 A JP2007550000 A JP 2007550000A JP 2007550000 A JP2007550000 A JP 2007550000A JP 5542306 B2 JP5542306 B2 JP 5542306B2
Authority
JP
Japan
Prior art keywords
bitstream
component
waveform
audio signal
bit stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007550000A
Other languages
English (en)
Other versions
JP2008527439A5 (ja
JP2008527439A (ja
Inventor
アーノルダス ダブリュ ジェイ オーメン
デ ケルクホフ レオン エム ファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36112620&utm_source=***_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP5542306(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2008527439A publication Critical patent/JP2008527439A/ja
Publication of JP2008527439A5 publication Critical patent/JP2008527439A5/ja
Application granted granted Critical
Publication of JP5542306B2 publication Critical patent/JP5542306B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ信号の符号化及び/又は復号に関し、更に詳細にはオーディオ信号のスケーラブル表現に関する。
デジタル信号表現及び通信が、アナログ表現及び通信に累進的に置き換わるにつれ、最近の数十年にわたり種々のソース信号のデジタル符号化は益々重要になってきている。例えば、移動通信用全世界システム等の携帯電話システムはデジタル音声符号化に基づいている。ビデオ及び音楽等のメディアコンテンツの配信も、益々デジタルコンテンツ符号化に基づくものとなっている。
オーディオ及びビデオ符号化の状況においては、符号化信号のスケーラビリティは有利であり、符号化信号の柔軟な分配及び処理を提供する。例えば、符号化信号は品質、ビットレート及び複雑さの点でスケーラブルとすることができる。ビデオ符号化に関する特定の例は、JPEG(ジョイント・ピクチャ・エキスパート・グループ)画像の累進的品質である。オーディオ符号化においては、より低い品質への高速トランスコーディングを可能にするスケーラブルビットストリームは既知の概念である。
スケーラビリティは、例えばサーバが、該サーバがアドレス指定する各装置へ適応化されたストリームを供給する可能性を提供する。該適応化は準備されたストリーム(スケーラブルにされた)の伝送部にあり、これは伝送帯域幅を低減するために優先レベルを備えたレイヤ構造を使用する。この固有のストリームは、デコーダにとり選択的(facultative)なレイヤからなり、全てのレイヤが伝送され且つ復号された場合は品質が最適となるが、信号の復元を可能にするには最初のレイヤしか必要とされない。明らかなことに、一層多くのスケーラビリティレイヤが受信され/使用される程、品質は一層良好になるが、ビットレートは一層高くなる。スケーラビリティは、大きなステップで粗粒状化され得るか(通常はステップ当たり数kbps)、又は微細粒状性を備えることもできる(ファイン・グラニュラ・スケーラビリティ)。後者は、レイヤの境界におけるのみならず、初期ストリームの何処において切ることも許容する。
理想的には、エンコーダは、如何なる所望のビットレートを持つビットストリームも単に成分を破棄することにより抽出することができるように、本来的に微細粒度スケーラビリティを提供するようなビットストリームを供給することができるものとする。しかしながら、このような柔軟性のあるエンコーダ(コーダ)は、このような機能を提供せず従って多くの用途に対して競争力のない専用のエンコーダと比較して、非効率的である傾向がある。他の例として、ビットレート・スケーラブル・ビットストリームは、効率的な波形コアコーダを、オプションとして小さなステップでスケーラビリティを提供するような残差コーダにより補正することにより構成することができる。より低い品質に対しては、残差成分は単に破棄することができる。このような方法は、余り柔軟的ではないが、より効率的であり、従って競争力がある。
SBR(スペクトル帯域複写)及びPS(パラメトリック・ステレオ)等のパラメータ的符号化技術に基づく新たなコーダの出現により、スケーラビリティは余り効率的でなくなった。何故なら、元の信号からパラメータ符号化表現を減算することにより得られる残差信号は、依然として高いエントロピを有しているからである。特に、パラメータ符号化信号は、パラメータ符号化に使用されるオーディオソースモデルによっては、元のオーディオ信号に似ない傾向がある。従って、高いエントロピを持つような、パラメータ符号化を介して得られた残差信号を符号化することは、相対的に高いビットレートを必要とするので、効率的ではない。
オーディオ符号化規格の一例は、MPEG4(動画専門家グループ4)規格である。実際には、MPEG4は、単一のオーディオ符号化/復号アルゴリズムを規格化するというより、選択することができる符号化/復号ツール群を一緒に形成するような複数の符号化及び復号パラメータ及び技術を規格化している。MPEG4は、コーダ及びツールの幾つかが組み合わされることを見越している。このように、MPEG4はオーディオ信号に対する高度に柔軟且つ効率的な符号化及び復号システムを提供する。
恐らくは、MPEG4により規格化された最も知られたオーディオコーダは、先進オーディオコーディングAACオーディオコーダである。MPEG4は、AACがSBR又はPSエンコーダ等の他のエンコーダと組み合わされるのを許容している(HE−AAC及びHE−AACv2として各々知られている)。
更に、MPEG4はスケーラビリティを提供する符号化も許容している。
例えば、MPEG4は、AACコーダの無雑音符号化コアを、微細粒状性を可能にする方式により置換するようなビットスライス算術符号化(BSAC)を規定している。BSACは、チャンネル当たり1kbpsまでのステップでスケーラビリティを提供することができる。
大きな粒度スケーラビリティ(例えば、8kbpsステップ)は、AACと組み合わせたスケーラビリティを用いて可能となる。スケーラビリティ・レイヤは、帯域幅が利用可能な場合に品質を改善するために追加することができる。これらの富化レイヤは、AACスケーラブルと命名されたAACと類似の方式により符号化することができる。このスケーラブル方式は、ビットレート及び帯域幅スケーラビリティをサポートするために使用することができる。他の技術との組み合わせ(ツインVQ及びCELPコータツールのような)を含み、多数のスケーラブルな組み合わせが利用可能である。チャンネルスケーラビリティも可能であり、数個のレイヤでモノからステレオ信号へ進むのを可能にする。
MPEG4ツールの全ての組み合わせが規定されてはいないことに注意すべきである。しかしながら、幾つかの組み合わせは実施されており、所謂MPEG4プロファイルで正式化されている。
ビットレートスケーラブルなビットストリームは、しばしば、(現状技術の)波形コーダをコアコーダとして使用すると共に、これを、更なる拡張データを発生するために残差コーダと組み合わせることにより構成される。上記コアコーダ及び残差コーダの一方又は両方は大きな又は小さなステップでスケーラビリティを提供することができる。
しかしながら、このようなシステムは全ての状況において最適とはならない。特に、斯かるシステムは、他の非スケーラブルなコーダと比較して、準最適な品質対ビットレート比となる傾向がある。更に、上述した方法は、SBR及びパラメトリックステレオ等のパラメータ符号化技術を採用した近年導入されたコーダに対しては実用的ではない。何故なら、そのような場合における残差信号は依然として高いエントロピを示し、従って符号化に高いビットレートを必要とするからである。更に、斯かるシステムは相対的に柔軟性がなく、限られたスケーラビリティしか提供しない傾向がある。
かくして、符号化及び復号のための改善されたシステムが有利であろう。特に、増加された柔軟性、改善された品質対データレート比、改善されたスケーラビリティ、実用的な構成、パラメータ符号化/復号技術に対する適性、及び/又は改善された性能を可能にするようなシステムが有利であろう。
従って、本発明は、前述した欠点の1以上を単独又は何らかの組み合わせで好ましくも緩和、軽減又は除去することを目的とする。
本発明の第1態様によれば、スケーラブルオーディオビットストリームからオーディオ信号を発生するデコーダであって、
波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを入力する手段であって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記オーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するような手段と、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生する第1波形デコーダと、
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第2デコーダ及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第3デコーダのうちの少なくとも一方と、
を有するようなデコーダが提供される。
本発明は、スケーラブルオーディオビットストリームの改善されたスケーラビリティを提供することができる。本発明は、例えば、符号化されたオーディオ信号の分配及び/又は送信を容易化又は改善することができる。柔軟性のあるシステムを達成することができ、及び/又は多くのシステムにおいて特定の条件に適した改善された品質対データレート比のトレードオフを選択することができる。特に、本発明は既存の技術との互換性を維持しながら、新しい符号化/復号技術の利点を利用することができる。多くの用途において、後方互換性を改善し、且つ新しいエンコーダ/デコーダの導入を容易化することができる。
前記スケーラブルオーディオビットストリームから、低複雑度の処理により、異なるようにスケーリングされた信号を得ることができる。特に、典型的には、異なるビットレートの表現を、異なるビットストリーム成分を単に選択することにより得ることができる。
前記スケーラブルオーディオビットストリームは、同一のベース符号化に基づく同一のオーディオ信号の代替的表現を有することができる。オーディオ信号は、必須の共有ビットストリームと2つの代替的追加ビットストリーム成分のうちの一方との組み合わせにより表現することができる。幾つかの実施例においては、当該オーディオ信号の他の表現に対応する他の代替的ビットストリーム成分を含み、前記スケーラブルオーディオビットストリームに他のビットストリーム成分が存在してもよい。
前記第2デコーダ及び/又は第3デコーダによる復号は、前記波形に基づく第1ビットストリーム成分に対する残差信号の決定を含むことができる。該残差信号は、特に、前記波形に基づく第1ビットストリーム成分により表される信号と当該オーディオ信号との間の差に対応する。
当該オーディオ信号は、例えば、単一チャンネルオーディオ信号又は多チャンネルオーディオ信号とすることができる。前記スケーラブルオーディオビットストリームは、例えば、品質、ビットレート及び/又は複雑さの点でスケーラブルとすることができる。
本発明のオプション的フィーチャによれば、前記第2ビットストリーム成分は波形に基づくビットストリーム成分であり、前記第2デコーダは波形デコーダである。
この構成は、特に有利な性能を可能にすることができると共に、多くの用途において既存のオーディオ信号伝送及び分配システムとの改善された互換性を可能にすることができる。
波形に基づくビットストリーム成分とは、波形コーダ/符号化方法により発生されるものと理解されたい。波形符号化においては、目標は、元の信号と符号化表現との間の差分である符号化エラー又は残差信号を最小化することにある。知覚的オーディオ符号化は、このエラーが最小化に先立ち知覚的に重み付けられるような波形符号化の特別なケースである。知覚的オーディオコーダは、人の聴覚系により知覚され得ない信号成分により表されるような、知覚的無関係さを利用する。従って、このような信号成分は、他の信号成分よりも粗く量子化することができる。このような重み付けは、人の聴覚系の音響心理学的モデルにより決定される。一般的に、ビット数が多いほど、この符号化エラーは減少する。
幾つかの実施例においては、前記第2及び第3デコーダの両方とも波形デコーダである。
本発明のオプション的フィーチャによれば、前記第3ビットストリーム成分はパラメータに基づくビットストリーム成分であり、前記第3ビットストリーム成分がパラメトリックデコーダである。
この構成は、特に有利な性能を可能にすることができると共に、高い品質対データレート比でのデータ信号の効率的符号化を可能にすることができる。
パラメータ的符号化/復号の使用は、専用の非スケーラブルエンコーダ/デコーダにとり達成することが可能なものに近い(又は同一の)性能を可能にする。また、前記第2ビットストリーム成分を含むもののデータレートの増加は許容できそうであり、典型的には、これが一層許容し得るような一層高いデータレート及び品質レベルに対してのみ必要とされる。
パラメータ的ビットストリーム成分とは、パラメトリックコーダ/符号化方法により発生されるものと理解されたい。パラメトリック符号化においては、目標は、オリジナルの知覚的品質と符号化表現との間の差を最小化することにある。従って、符号化信号は元の信号とは著しく相違し得、大きなエラー又は差分信号となる。知覚的品質は、人の聴覚系の音響心理学的モデルにより測定される。知覚的モデルとは別に、パラメトリックオーディオコーダは、ソースをモデル化するために信号モデルを採用することもできる。一般的に、一層多いビット数に対して、品質は該信号モデルのものに飽和するであろう。
幾つかの実施例においては、前記第2及び第3デコーダが共にパラメトリックデコーダである。
幾つかの実施例では、前記第2デコーダが波形デコーダである一方、前記第3デコーダはパラメトリックデコーダである。符号化信号は、採用することが可能な波形符号化及びパラメトリック符号化の個々の利点により最適化することができる。
本発明のオプション的フィーチャによれば、前記第1表現の符号化品質は第2表現のものより高い。
本発明は、効率的なスケーラビリティを可能にすると共に、同一のビットストリームで異なる品質レベルが達成されるのを可能にする。
本発明のオプション的フィーチャによれば、前記デコーダは第2デコーダ及び第3デコーダの両方を含むと共に、前記スケーラブルオーディオビットストリームを復号するために第2デコーダと第3デコーダとの間で選択する手段を有する。
この構成は、効率的且つ柔軟性のあるデコーダを可能にする。該デコーダは、例えば、当該オーディオ信号を、異なる品質レベル及び/又は要件を持つ異なる宛先に分配することができる。該デコーダは、異なる品質の信号を生成することが可能なトランスコーダの一部とすることができる。
本発明のオプション的フィーチャによれば、前記第1波形デコーダはMPEG2又はMPEG4先進オーディオ符号化、AACデコーダである。本発明は、AAC符号化オーディオ信号に対して改善された性能及びスケーラビリティを提供する。
本発明のオプション的フィーチャによれば、前記第1波形デコーダはMPEG2レイヤIIのLIIデコーダである。本発明は、MPEG2 LII符号化オーディオ信号に対して改善された性能及びスケーラビリティを提供する。
本発明のオプション的フィーチャによれば、前記第3デコーダはパラメトリックステレオのPSデコーダである。本発明は、ステレオ信号の効率的且つ柔軟性のある符号化により特に有利な性能及びスケーラビリティを可能にする。パラメトリックステレオ復号は、波形に基づくビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。
本発明のオプション的フィーチャによれば、前記第3デコーダはMPEG4スペクトル帯域複写のSBRデコーダである。本発明は、ステレオ信号の効率的且つ柔軟性のある符号化により特に有利な性能及びスケーラビリティを可能にする。スペクトル帯域複写復号は、波形に基づくビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。
本発明のオプション的フィーチャによれば、前記第3デコーダは空間オーディオコーダのSACデコーダである。本発明は、信号の効率的且つ柔軟性のある空間オーディオ符号化により特に有利な性能及びスケーラビリティを可能にすることができる。空間オーディオコーダの復号は、波形に基づくビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。
本発明のオプション的フィーチャによれば、前記第2デコーダは無損失スケーラブル規格(Scaleable to Lossless Standard)のSLSデコーダである。本発明は、信号の効率的且つ柔軟性のある無損失オーディオ符号化により特に有利な性能及びスケーラビリティを可能にすることができる。無損失スケーラブル規格復号は、パラメトリックビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。即ち、パラメトリックビットストリーム成分は中程度のデータレートで効率的に符号化された信号を提供することができる一方、SLSに基づくビットストリーム成分は特に高い符号化品質を提供することができる。例えば、幾つかの信号は、パラメータ的モデルによく合致するのでパラメトリック符号化に特に適しているが、他の信号はパラメータ的モデルに余りよく合致しないので波形符号化により特に良好に符号化することができる。
本発明のオプション的フィーチャによれば、前記第2デコーダはMPEG2又はMPEG4先進オーディオ符号化のAACデコーダである。本発明は、信号の効率的且つ柔軟性のあるAAC符号化により特に有利な性能及びスケーラビリティを可能にすることができる。AAC復号は、パラメトリックビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。
本発明のオプション的フィーチャによれば、前記第2デコーダはMPEG2レイヤIIのLII多チャンネル拡張デコーダである。本発明は、信号の効率的且つ柔軟性のある拡張符号化により特に有利な性能及びスケーラビリティを可能にすることができる。MPEG2 LII多チャンネル拡張復号は、パラメトリックビットストリーム成分を特に良好に補足するような特性を持つビットストリーム成分を提供することができる。
本発明のオプション的フィーチャによれば、前記デコーダはMPEG4デコーダである。特に、全てのデコーダ及びスケーラブルオーディオビットストリームは個々にMPEG4規格に従うことができる。このように、全てのデコーダ及び復号アルゴリズムは、規定されたアルゴリズム及び要件のMPEG4ツールボックスから選択することができる。
本発明のオプション的フィーチャによれば、前記スケーラブルオーディオビットストリームは前記第1表現に対して当該オーディオ信号のための拡張データを更に有し、当該デコーダは該拡張データに応答して該オーディオ信号を発生する手段を更に有する。
この構成は、復号される信号のスケーラビリティ及び/又は品質を更に改善することができる。上記拡張データは当該オーディオ信号の第1表現に対する該オーディオ信号の残差信号の符号化に対応する。該拡張データは上記残差信号のSLS符号化からのビットストリーム成分を特に有することができる。
本発明のオプション的フィーチャによれば、前記スケーラブルオーディオビットストリームは、前記第2表現に対する当該オーディオ信号のための拡張データを有し、前記デコーダは該拡張データに応答して上記オーディオ信号を発生するための手段を更に有する。
この構成は、復号される信号のスケーラビリティ及び/又は品質を更に改善することができる。上記拡張データは当該オーディオ信号の第2表現に対する該オーディオ信号の残差信号の符号化に対応する。該拡張データは上記残差信号のSLS符号化からのビットストリーム成分を特に有することができる。
本発明のオプション的フィーチャによれば、前記スケーラブルオーディオビットストリームは第4ビットストリーム成分を更に有し、前記デコーダは該第4ビットストリーム成分に応答して前記第1復号信号を修正することにより当該オーディオ信号を発生するような第4デコーダを有する。
前記波形に基づく第1ビットストリーム成分及び前記第4ビットストリーム成分は、前記オーディオ信号の第3表現に対応することができる。該フィーチャは、改善された柔軟性、性能及び/又はスケーラビリティを提供することができる。例えば、前記第3ビットストリーム成分はパラメトリックステレオ符号化信号とすることができる一方、前記第4ビットストリーム成分はスペクトル帯域複写符号化信号とすることができる。
本発明の第2態様によれば、オーディオ信号をスケーラブルオーディオビットストリームに符号化するエンコーダであって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するような第2エンコーダと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するような第3エンコーダと、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段と、
を有するようなエンコーダが提供される。
本発明は、スケーラブルオーディオビットストリームの改善されたスケーラビリティを提供することができる。本発明は、例えば、符号化されたオーディオ信号の分配及び/又は送信を容易化又は改善することができる。柔軟性のあるシステムを達成することができ、及び/又は多くのシステムにおいて特定の条件に適した改善された品質対データレート比のトレードオフを選択することができる。本発明は、パラメータ的符号化/復号の利点を特に利用することができる。更に、多くの用途において、後方互換性を改善し、且つ新たしいエンコーダ/デコーダの導入を容易化することができる。
前記第2エンコーダ及び/又は第3エンコーダによる符号化は、前記波形に基づく第1ビットストリーム成分に対する残差信号の決定を含むことができる。該残差信号は、特に、前記波形に基づく第1ビットストリーム成分により表される信号と当該オーディオ信号との間の差に対応することができる。
デコーダに関して上述したオプション的フィーチャ、コメント及び/又は利点が当該エンコーダに対しても等しく当てはまりそうであり、対応するオプション的フィーチャが当該エンコーダにも個別に又は何らかの組み合わせで含まれ得ることが分かるであろう。
本発明の第3態様によれば、スケーラブルオーディオビットストリームからオーディオ信号を発生する方法であって、
波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを入力するステップであって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記オーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなステップと、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生するステップと、
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップ、及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップのうちの少なくとも一方のステップと、
を有するような方法が提供される。
本発明の第4態様によれば、オーディオ信号をスケーラブルオーディオビットストリームに符号化する方法であって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化するステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するようなステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなステップと、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
を有するような方法が提供される。
本発明の第5態様によれば、オーディオ信号用のスケーラブルオーディオビットストリームであって、波形に基づく第1ビットストリーム成分と、第2ビットストリーム成分と、第3ビットストリーム成分とを有し、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記オーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなスケーラブルオーディオビットストリームが提供される。
本発明の第6態様によれば、このような信号が記憶された記憶媒体が提供される。
本発明の第7態様によれば、スケーラブルオーディオビットストリームを受信する受信機であって、
波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを受信する手段であって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記オーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するような手段と、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生する第1波形デコーダと、
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第2デコーダ及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第3デコーダのうちの少なくとも一方と、
を有するような受信機が提供される。
本発明の第8態様によれば、オーディオ信号をスケーラブルオーディオビットストリームで送信する送信機であって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するような第2エンコーダと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するような第3エンコーダと、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段と、
上記スケーラブルオーディオビットストリームを送信する手段と、
を有するような送信機が提供される。
本発明の第9態様によれば、オーディオ信号を伝送する伝送システムであって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダ、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するような第2エンコーダ、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するような第3エンコーダ、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段、及び
前記スケーラブルオーディオビットストリームを送信する手段、
を有する送信機、並びに
前記スケーラブルオーディオビットストリームを受信する手段、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生する第1波形デコーダ、及び
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第2デコーダと、前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生する第3デコーダとの少なくとも一方、
を有する受信機、
を有するような伝送システムが提供される。
本発明の第10態様によれば、スケーラブルオーディオビットストリームからオーディオ信号を受信する方法であって、
波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを受信するステップであって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記オーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなステップと、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生するステップと、
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップ及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップのうちの少なくとも一方と、
を有するような方法が提供される。
本発明の第11態様によれば、オーディオ信号をスケーラブルオーディオビットストリームで送信する方法であって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化するステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するようなステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなステップと、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
前記スケーラブルオーディオビットストリームを送信するステップと、
を有するような方法が提供される。
本発明の第12態様によれば、オーディオ信号を送信及び受信する方法であって、
前記オーディオ信号を波形に基づく第1ビットストリーム成分に符号化するステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1拡張データを有するような第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記オーディオ信号の第1表現に対応するようなステップと、
前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2拡張データを有するような第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記オーディオ信号の第2表現に対応するようなステップと、
前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
前記スケーラブルオーディオビットストリームを送信するステップと、
前記スケーラブルオーディオビットストリームを受信するステップと、
前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生するステップと、
前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップ及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記オーディオ信号を発生するステップのうちの少なくとも一方と、
を有するような方法が提供される。
本発明の第13態様によれば、上述した方法の何れかを実行するためのコンピュータプログラム製品が提供される。
本発明の第14態様によれば、上述したデコーダを有するオーディオ再生装置が提供される。
本発明の第15態様によれば、上述したエンコーダを有するオーディオ記録装置が提供される。
本発明の、これら及び他の態様、フィーチャ並びに利点は、以下に記載する実施例から明らかとなり、斯かる実施例を参照して説明されるであろう。
尚、本発明の実施例は図面を参照して例示のみとして記載されるであろう。
以下の説明は、MPEG4規格によるオーディオ符号化と互換性があるような本発明の実施例に焦点を合わせる。しかしながら、本発明は斯かる応用に限定されるものではなく、多くの他の符号化/復号規格又は技術に適用することもできることが分かるであろう。
図1は、本発明の幾つかの実施例によるエンコーダ100を図示している。
該エンコーダ100は、符号化するためのオーディオ信号を入力する符号化レシーバ101を有している。上記オーディオ信号は、如何なる好適な内部又は外部ソースから入力することができ、例えばパルス符号変調(PCM)サンプリングされたデジタルモノオーディオ信号の形態とすることができる。符号化レシーバ101は、デジタル化されたオーディオ信号が供給される第1波形エンコーダ103に結合されている。
該第1波形エンコーダは、上記オーディオ信号を符号化して、波形に基づく第1ビットストリーム成分を生成する。即ち、第1波形エンコーダ103は、符号化された信号の意図するレシーバにより広く使用されているような波形符号化技術を使用することができる。例えば、音楽配信システムにおいては、多数のユーザが固有の復号アルゴリズムを使用する可能性があり、第1波形エンコーダ103は高度の互換性を達成するために、斯かる復号アルゴリズムと互換性のある符号化技術を適用することができる。
波形符号化において、当該エンコーダは元の信号と符号化された表現との間の差分である符号化エラーを最小化するようにする。一般的に、ビットレートが増加するにつれて、この符号化エラーは減少するであろう。波形符号化技術の例は、無損失スケーラブル規格(Scaleable to Lossless Standard)、即ちSLS、及び適応型差分パルス符号変調(ADPCM)符号化を含む。他の例は、厳格な数学的距離の符号化エラーよりも知覚的に重み付けられた符号化エラーが最小化されるような知覚的波形符号化技術を含む。知覚的波形符号化の場合、ビットレートが増加すると、知覚的に重み付けられた符号化エラーが減少する。知覚的波形コーダの例は、AAC(先進オーディオ符号化)、MP3(動画専門家グループ3)、AC3(オーディオ符号化3)CELP(符号励起線形予測)等を含む。
図1のエンコーダ100において、第1波形エンコーダ103はベースエンコーダとして使用され、該ベースエンコーダは多数の意図する受信機と互換性のあるビットストリームを供給するような符号化アルゴリズムを使用する。しかしながら、本例では、該第1波形エンコーダ103の符号化品質レベルは相対的に低く設定される結果、第1ビットストリーム成分に対するデータレートが減少される。このように、第1ビットストリーム成分は前記オーディオ信号の表現に対応することができ、その場合において、データレートと品質との間のトレードオフは相対的に低いデータレート及び品質に対応するような動作点に設定される。
第1波形エンコーダ103は、自身で、幾らかのスケーラビリティを有する第1ビットストリーム成分を供給することができる。
図1のエンコーダ100において、符号化レシーバ101は第2エンコーダ105に更に結合されている。該第2エンコーダ105も上記オーディオ信号を入力し、これを符号化して第2ビットストリーム成分を発生する。第2エンコーダ105は、第1波形エンコーダ103に結合されると共に、上記第1ビットストリーム成分による当該オーディオ信号の表現に対して該オーディオ信号を、第1ビットストリーム成分及び該第2エンコーダ105により生成される第2ビットストリーム成分が一緒に該オーディオ信号の或る表現を形成するように符号化する。このように、第2ビットストリーム成分のデータは、上記第1ビットストリーム成分に対する拡張データと見なすことができる。
特定の例では、第2エンコーダ105は波形エンコーダであるが、他の実施例では、第2エンコーダ105は例えばパラメトリックエンコーダとすることができる。
特定の例として、第2エンコーダ105は、残差信号を元の信号と第1波形エンコーダ103からのデータに基づいて再符号化された信号との間の差分として発生することができる。該結果的差分信号は、次いで、波形符号化アルゴリズムを用いて符号化することができる。例えば、該第2ビットストリーム成分を発生するためにSLSアルゴリズムを使用することができる。このように、前記第1ビットストリーム成分は当該オーディオ信号の相対的に低い品質/低いデータレートの表現に対応することができる一方、第1及び第2ビットストリーム成分は、一緒になって、当該オーディオ信号の相対的に高い品質/高いデータレートの表現に対応する。
SLS(Scalable LosslesS)符号化は、残差信号を周波数ドメインで符号化することを目的とする。本例では、この残差信号は前記オーディオ信号と、該オーディオ信号のAAC/BSAC符号化及び復号された信号との間の差である。このようにして、AAC/BSACデコーダは損失性部分を処理し、完全な表現が必要とされる場合は、無損失復号信号を復元することができる。
符号化レシーバ101は第3エンコーダ107にも結合され、該第3エンコーダも上記オーディオ信号を入力する。図1の特定の例においては、第3エンコーダ107はパラメータ的符号化アルゴリズムを用いてオーディオ信号を符号化し、第3ビットストリーム成分を発生するようなパラメトリックエンコーダである。該パラメータ的符号化は、第1波形エンコーダ103による符号化を参照して実行される。即ち、第3エンコーダ107は、第1ビットストリーム成分のための拡張データを、これら第1ビットストリーム成分及び第3ビットストリーム成分が一緒になって、当該オーディオ信号の第1ビットストリーム成分自身による表現よりも高い品質(しかしながら、増加されたビットレートで)の表現に対応するように発生することができる。
第3エンコーダ107が、典型的には、元の信号と第1波形エンコーダ103の符号化信号との間の差分信号を単に符号化するのではないことが理解されるであろう。というのは、この信号は依然として高いエントロピを有し、パラメータ的符号化には適さない可能性があるからである。しかしながら、該第3エンコーダ107は、当該オーディオ信号を、前記第1ビットレート成分によっては完全に表されないような該オーディオ信号のパラメータ及び特性の改善された表現を提供するように符号化することができる。例えば、第3エンコーダ107は、第1波形エンコーダ103によっては考慮されない(又は部分的にしか考慮されない)一層高い周波数及び/又は多チャンネル成分を特に符号化することができる。
本例においては、第3ビットストリーム成分はパラメータ的符号化アルゴリズムにより発生される。パラメータ的符号化においては、エンコーダは元の信号の視覚的品質と符号化された表現との間の差分が最小化されるようにする。この目的のために、典型的にはパラメトリックモデルが使用され、該モデルのパラメータが送信される。このように、当該符号化は、デコーダが該パラメトリックモデル及び励起信号(並びに、恐らくは残差信号)を再生するのを可能にするようなデータを供給しようと試みる。パラメトリックエンコーダの場合、符号化エラーの量と符号化ビットの数との間には厳格な関係は存在しそうにない。パラメトリックコーダ及び符号化ツールの例は、MPEG4の高調波個別ラインノイズ(Harmonics Individual Lines and Noise:HILN)、MPEG4の高調波ベクトル励起符号化(Harmonic Vector eXcitation Coding:HVXC)、MPEG4の正弦符号化(SinuSoidal Coding:SSC)(高品質オーディオのためのパラメータ的符号化としても知られている)、Voコーダ、スペクトル帯域複写(Spectral Band Replication)、パラメトリックステレオ及び空間(Spacial)オーディオを含む。
図1の実施例において、符号化レシーバ101は同一の信号を第1波形エンコーダ103、第2エンコーダ105及び第3エンコーダ107に供給し、第2及び第3エンコーダ105、107はオーディオ信号を第1波形エンコーダ103による該オーディオ信号の符号化を参照して符号化している。しかしながら、他の実施例においては、符号化レシーバ101は異なるエンコーダに異なる信号を供給することもできることが分かるであろう。例えば、符号化レシーバ101は、当該オーディオ信号を低周波数信号部分及び高周波数信号部分に分割すると共に、低周波数部分を第1波形エンコーダ103に供給する一方、高周波数部分を第2エンコーダ105及び第3エンコーダ107に供給することもできる。
第1波形エンコーダ103、第2エンコーダ105及び第3エンコーダ107は全てビットストリーム発生器109に結合され、該ビットストリーム発生器は、これらエンコーダから第1、第2及び第3ビットストリーム成分を入力する。ビットストリーム発生器109は、これらビットストリーム成分を含む符号化ビットストリームを発生する。更に、ビットストリーム発生器109は、制御データ、通知データ、ヘッダデータ、経路データ等の他のデータを含めることもできる。幾つかの実施例においては、ビットストリーム発生器109は、インターネット等のパケット型ネットワークに分配することが可能なパケット化データを発生することもできる。
このように、エンコーダ100は当該オーディオ信号に対し波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を含むようなスケーラブルオーディオビットストリームを発生する。更に、該スケーラブルオーディオビットストリームは、波形に基づく第1ビットストリーム成分及び第2ビットストリーム成分が当該オーディオ信号の第1表現に対応し、波形に基づく第1ビットストリーム成分及び第3ビットストリーム成分が当該オーディオ信号の第2表現に対応するようにして、該オーディオ信号の代替的表現を有するようになる。更に、上記の波形に基づくビットストリーム成分は、自身で、当該オーディオ信号の独立した表現に対応することになる。
連続的に増加する拡張を提供するために各レイヤが前のレイヤに基づくような従来のスケーラブル信号とは対照的に、エンコーダ100のスケーラブル信号は当該オーディオ信号の代替的且つ関連のない拡張データを提供することができ、デコーダが異なる拡張データの間での選択をすることができる。このように、第2及び第3ビットストリーム成分は同一の信号に関連する代替的な情報を表し、両成分は互いに独立に同一のベース波形符号化ビットストリームに関連することになる。このように、前記第1表現は第3ビットストリーム成分を考慮しないで再生することができ、前記第2表現は第2ビットストリーム成分を考慮しないで再生することができる。
このように、上述した実施例は柔軟性が増加され且つ性能が改善されたスケーラブル信号を発生することができる。例えば、該スケーラブル信号は、第2エンコーダ105を使用して多数の既存のコーダと互換性のある拡張データを発生し、これにより後方互換性を提供することができる一方、第3エンコーダ107は現行のパラメータ的符号化を用いて高度に効率的な符号化信号を発生するために使用することができる。このように、新しい符号化技術が導入されるのを可能にしながら、後方互換性を達成することができる。
図2は、本発明の幾つかの実施例によるデコーダ200を図示している。
該デコーダは、スケーラブルオーディオビットストリームを入力する復号レシーバ201を有している。即ち、該復号レシーバ201は図1のエンコーダ100により発生されたスケーラブルオーディオビットストリームを受信することができる。このように、デコーダ200は、波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第3ビットストリーム成分を含むオーディオビットストリームを入力し、ここで、上記波形に基づく第1ビットストリーム成分及び第2ビットストリーム成分は当該オーディオ信号の第1表現に対応し、上記波形に基づく第1ビットストリーム成分及び第3ビットストリーム成分は当該オーディオ信号の第2表現に対応する。
復号レシーバ201は第1波形デコーダ203に結合され、該第1波形デコーダは前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生する。このように、該第1波形デコーダ203は前記第1波形エンコーダ103により適用された符号化処理に対し相補的な処理を実施する。
復号レシーバ201は、更に、第2デコーダ205及び第3デコーダ207に結合されている。第2デコーダ205には第2ビットストリーム成分が供給され、第3デコーダ207には第3ビットストリーム成分が供給される。図2の例において、第2デコーダ205及び第3デコーダ207の両者は、更に、第1波形デコーダ203に結合され、該第1波形デコーダから第1復号信号を供給される。
第2デコーダ205は第2ビットストリーム成分のデータに応答して上記第1復号信号を修正するように動作し、これにより該第1復号信号に対して改善された品質を持ち得るような第2復号信号を発生する。
即ち、第2デコーダ205は、第2ビットストリーム成分の波形復号により残差信号を決定するような波形デコーダとすることができる。この場合、第2デコーダ205は該残差信号を上記第1復号信号に加算し、これにより元々の符号化オーディオ信号の一層正確な表現を発生することができる。
同様に、第3デコーダ207は第3ビットストリーム成分のデータに応答して上記第1復号信号を修正するように動作し、これにより該第1復号信号に対して改善された品質を持ち得るような第3復号信号を発生する。
例えば、第3デコーダ207も、第3ビットストリーム成分の波形復号により残差信号を決定するような波形デコーダとすることができる。本例では、第3ビットストリーム成分は残差信号の一層正確な符号化(一層高いデータレートでの)に対応することができる。この場合、第3デコーダ207は該残差信号を上記第1復号信号に加算し、これにより上記第2復号信号に対するよりも元々の符号化オーディオ信号の更に一層正確な表現を発生することができる。
他の例(パラメトリックエンコーダである第3エンコーダ107と互換性のある)として、第3デコーダ207は、第3ビットストリーム成分を復号することにより第1復号信号の他の特性を決定するようなパラメトリックデコーダとすることができる。例えば、第3デコーダ207は、第1復号信号に関する多チャンネル又は高周波数特性を決定することができ、これら特性は第1復号信号を修正して一層正確な及び/又は多チャンネルの復号信号を発生するために使用することができる。
このように、当該デコーダ200は、前記スケーラブルオーディオビットストリームにおけるオーディオ信号の第1表現に対応するようなオーディオ信号を発生する第2デコーダ205と、前記スケーラブルオーディオビットストリームにおけるオーディオ信号の第2表現に対応するようなオーディオ信号を発生する第3デコーダ207とを有する。
上記第2及び第3デコーダ205、207は出力プロセッサ209に結合され、該出力プロセッサは上記デコーダ205、207からの復号信号の間の選択を行う。
他の実施例においては、上記第1及び第2に各々対応する第2及び第3復号信号のうちの1つのみが当該デコーダにより発生されるようにしてもよいことが分かるであろう。
更に、幾つかの実施例においては、当該デコーダは第2及び第3復号信号の両方を発生すると共に、これら信号を再符号化し、これらを異なるエンコーダに送ることもできる。このように、デコーダ200はトランスコーディング機能を実施化し、その場合においては、組み合わされたスケーラブルオーディオビットストリームが受信され、該ストリームから、異なるように符号化されたビットストリームが発生される。斯かる異なるビットストリームは、次いで、異なる宛先に送信することができる。このように、デコーダ200は前記スケーラブルオーディオビットストリームと異なるタイプのデコーダとの間のインターフェースを提供するようなトランスコーダとすることができる。
また、幾つかの実施例においては、第1波形デコーダ203及び第2デコーダ205並びに/又は第1波形デコーダ203及び第3デコーダ207の機能が組み合わされることも分かるであろう。例えば、第2デコーダ205は、第1及び第2ビットストリーム成分を直接組み合わせて符号化データを発生し、該符号化データが一緒に復号されて、別途発生された第1復号信号を入力することなく第2復号信号を発生するようにすることもできる。同様に、第3デコーダ207は、第1及び第3ビットストリーム成分を直接組み合わせて符号化データを発生し、該符号化データが一緒に復号されて、別途発生された第1復号信号を入力することなく第3復号信号を発生するようにすることもできる。このように、第2デコーダ205及び第3デコーダ207の両方により使用される共通の第1復号信号は、発生される必要はない。
以下においては、幾つかの一層特定的な実施例を、エンコーダを特に参照して説明する。記載する実施例の原理、特性及び開示内容は対応するデコーダの実施例にも容易に適用することができることが分かるであろう。
図3は、本発明の幾つかの実施例によるエンコーダの一例を図示している。該例において、全ての符号化ツールがMPEG4オーディオ符号化ツールボックスから取られるようにして、低いビットレート(損失性)から高いビットレートの無損失まで小さなステップでスケーラビリティをサポートするようなビットストリームが仮定される。
該例において、AAC符号化が第1波形エンコーダに対してのみならず第2エンコーダに対しても使用される一方、第3エンコーダに対してはスペクトル帯域複写、即ちSBRエンコーダが使用される。
SBRにおいては、信号の高い音高部分の形状がエンコーダにより特徴付けられる(例えば、レベル、音対雑音比、個々の音の位置及びノイズフロアレベル等に関して)。SBRデコーダは、これらの合図と、コアエンコーダ(例えば、AAC)を用いて送信されたスペクトルのより低い部分とを用いて、該スペクトルのより高い部分を再構築する。通常、SBRデータはコアコーダのビットレートの一部のみをとり、24kbpsでのAACと共に使用された場合、高周波数内容を記述するために典型的には約1.5〜4kbpsが使用される。結果として、該組み合わせを用いて得られる品質は、順方向及び後方互換的態様で改善されることを示した。即ち、コアデコーダはSBR情報を破棄してコアストリームを復号することができる。また、SBR強化デコーダは全信号を復号することができる。SBRは、MPEG4枠組み内でAACに対して成功裏に適用された。SBRツールは2つのモードで、即ち単一レート及び二重レートモードで動作することができる。二重レートモードにおいては、コアコーダはサンプリング周波数の半分で動作し、SBRツールは全サンプリング周波数を出力する。単一レートモードでは、コアコーダ及びSBRツールの両方が全サンプリング周波数で動作する。
図3の例において、ローパスフィルタ301が当該オーディオ信号を入力し、これを高周波数部分と低周波数部分とに分離する。
上記低周波数部分は、サンプリング周波数の半分で動作するMPEG4のAAC/BSACコーダ303(即ち、AAC/BSACエンコーダとAAC/BSACデコーダの縦続接続)に供給される。AAC/BSACコーダ303は、入力されたオーディオ信号の低周波数部分を表す第1ビットストリーム成分を発生する。
高い周波数は、サンプリング周波数の半分で動作する通常のAACコーダ305(即ち、AACエンコーダとAACデコーダとの縦続接続)に供給される。AACコーダ305は、入力されたオーディオ信号の高い周波数部分を表す第2ビットストリーム成分を発生する。該例において、上記の高い周波数部分は、元のオーディオ信号から上記の低周波数信号を減算することにより導出される。このように、高周波数部分は、AAC/BSACコーダ303により符号化された信号の残差信号と見なすことができる。
更に、前記オーディオ信号はSBRパラメトリックコーダ307にも供給され、該コーダはAAC/BSACコーダ303からも符号化データを入力する。SBRパラメトリックコーダ307は、AAC/BSACコーダ303をコアコーダとして使用してSBRデータを発生する。このように、SBRパラメトリックコーダ307は、AAC/BSACコーダ303からの第1ビットストリーム成分のための拡張データを表すような第3ビットストリーム成分を発生する。即ち、該第3ビットストリーム成分は、AAC/BSAC符号化信号に対するパラメータ的な高周波数データを有する。
該例において、当該エンコーダは、前記第1及び第2ビットストリーム成分から作成される、当該オーディオ信号の第1表現に対する該オーディオ信号のための拡張データを発生するような他のコーダも更に有している。即ち、前記AAC/BSACコーダ303及びAACコーダ305はSLSコーダ309に結合され、該コーダは残差又はエラー信号、即ち元のオーディオ信号とAAC/BSACコーダ303及びAACコーダ305の合成出力信号との間の差分を決定する。該残差信号は、次いで、SLSアルゴリズムを用いて無損失符号化される。このようにして、スケーラビリティの追加のレイヤを提供するような第4ビットストリーム成分が発生される。
幾つかの実施例では、第1ビットストリーム成分及び第3ビットストリーム成分により形成される第2オーディオ信号表現のための更なる拡張データを発生するために同様の方法を使用することができることが分かるであろう。
AAC/BSACコーダ303、AACコーダ305、SBRパラメトリックコーダ307及びSLSコーダ309は全て出力発生器311に結合され、該出力発生器は上記第1、第2、第3及び第4ビットストリーム成分を含むような合成ビットストリームを発生する。
このように、前記オーディオ信号の代替的表現を含むスケーラブル符号化オーディオ信号を得ることができる。図4に示されるように、AAC波形ビットストリーム成分(即ち、AACエンコーダ305により符号化されたオーディオ信号のHF部分)を、SBRビットストリーム成分に代えることができる。このように、第2及び第3ビットストリーム成分の両方が同一のコアコーダに基づいて導出された。デコーダにより例えばビットレート対品質のトレードオフに依存して上記2つのビットストリームの何れかを選択する場合の柔軟性が存在する。前記AAC/BSAC波形ビットストリーム成分(第1ビットストリーム成分)は、AAC/BSACエンコーダ303により符号化された当該オーディオ信号の低周波数部分を表す。幾つかの実施例では、当該オーディオ信号の低周波数部分はAACコーダにより符号化することもできる(図3のAAC/BSACコーダ303を置換して)。
AAC/BSAC波形ビットストリーム成分とAAC波形ビットストリーム成分との組み合わせは、入力オーディオ信号の第1高品質表現を形成する。AAC/BSACビットストリーム成分とSBRビットストリーム成分との組み合わせは、入力オーディオ信号の第2低品質表現を形成する(しかしながら、低減されたビットレートにおいて)。
図5は、本発明の幾つかの実施例によるエンコーダの他の例を図示している。この例においては、ステレオオーディオ信号が符号化される。
本エンコーダは、パラメトリックステレオデータを発生するパラメトリックステレオコーダ501を有している。該パラメトリックステレオコーダ501は、当該ステレオ信号のモノAAC/BSAC無損失表現を発生するようなモノAAC/BSACコーダ503に結合されている。パラメトリックステレオコーダ501は、当該信号からステレオ信号が発生されるのを可能にするような拡張データを発生する。
パラメトリックステレオとは、サポートとしてのモノ信号と一緒に、ステレオ音場のパラメータ的記述を伝送することを目的とする符号化技術である。これらパラメータの該パラメータ群は典型的には数kbpsしか使用せず、ステレオは16kbpsまでのレートで可能とされる。パラメトリックステレオは、MPEG4 SSC及びAAC+SBR(MPEG4高効率AACv2)を含む種々の技術に成功裏に適用されている。
図5のエンコーダは、更に、モノAAC/BSAC符号化信号に対して左チャンネル信号の残差信号のSLS符号化を実行するような第1SLSエンコーダ505を有している。更に、当該エンコーダは、右ステレオ信号のSLS符号化を実行する第2SLSエンコーダ507を有している。
上記パラメトリックステレオコーダ501、モノAAC/BSACコーダ503、第1SLSエンコーダ505及び第2SLSエンコーダ507は全て出力発生器509に結合され、該出力発生器はベースAAC/BSAC符号化、パラメトリックステレオパラメータ並びに左及び右チャンネルSLSデータを含むスケーラブル符号化ビットストリームを発生する。
当該例において、パラメトリックビットストリーム成分は、SLS波形ビットストリーム成分に代えることができる。上記AAC/BSAC波形ビットストリーム成分及びSLS波形ビットストリーム成分の組み合わせは、入力オーディオ信号の第1高品質表現を形成する。上記AAC/BSAC波形ビットストリーム成分及びパラメトリックステレオビットストリーム成分の組み合わせは、入力オーディオ信号の第2低品質表現を形成する(より低いビットレートにおいてではあるが)。
図6は、このようなオーディオビットストリームの例を示している。第1の例においては、全スケーラブルビットストリームが図示されている。該例において、SLS残差は左信号に関してAAC/BSACコーダに基づいている。パラメトリック成分は別途得られている。第2の例では、パラメトリックステレオはAAC/BSACデータと組み合わされて、より低いビットレートを持つ当該ステレオ信号の損失性表現を生成する。
図7は、本発明の幾つかの実施例によるエンコーダの他の例を示している。
該例において、当該エンコーダは空間オーディオデータを発生するような空間オーディオコーダ701を有している。該空間オーディオコーダ701はMPEG2レイヤIIコーダ703に結合され、該コーダ703は空間オーディオコーダ701により発生されたビットストリームにより拡張され得るベースデータとして使用されるような符号化ステレオダウン混合を発生する。
空間オーディオ符号化とは、パラメトリックステレオに類似し、相対的に低いビットレート(典型的には、約24kbpsまでの)で多チャンネルイメージを捕捉することができるような技術である。モノ又はステレオダウン混合との組み合わせで、空間オーディオデコーダは多チャンネルのオリジナルの表現を再生することができる。この方法の明らかな利点は、ダウン混合チャンネルのみを符号化すればよい点である。空間サイド情報は、結果としてのビットストリームの補助データ部分に含めることができ、モノ又はステレオデコーダとの互換性を可能にする。
上記MPEG2レイヤIIコーダ703は、MPEG2−LII拡張コーダ705に結合されている。当業者により良く知られたMPEG2マトリクス技術を用いて、前記ステレオダウン混合信号の2つのチャンネルは、該MPEG2−LII拡張コーダ705により多チャンネル表現に変換することができる。このデータは、MPEG2−LII多チャンネル拡張データと呼ばれる。
MPEG2−LII拡張コーダ705はSLSコーダ707に更に結合され、該コーダ707は全チャンネルに対しSLSを用いて残差信号を無損失で符号化する。
上記空間オーディオコーダ701、MPEG2レイヤIIコーダ703、MPEG2−LII拡張コーダ705及びSLSコーダ707は全て出力発生器709に結合され、該出力発生器はベースMPEG2レイヤIIデータ、MPEG2−LII多チャンネル拡張データ、SLSデータ及び空間オーディオを含むスケーラブル符号化ビットストリームを発生する。
図8は、このようなオーディオビットストリームを示している。図示のように、空間オーディオ符号化ビットストリーム成分は、MPEG2多チャンネル拡張及びSLSデータに取って代わることができる。MPEG2−LII波形ビットストリーム成分並びにMPEG2−LII多チャンネル拡張及びSLS波形ビットストリーム成分の組み合わせは、入力オーディオ信号の第1の高品質表現を形成する。MPEG2−LII波形ビットストリーム成分及び空間オーディオビットストリーム成分の組み合わせは、入力オーディオ信号の第2の低品質表現を形成する(より低いビットレートにおいてではあるが)。
このように、図8の第1の例では、全スケーラブルビットストリームが図示されている。該例において、SLS残差データはMPEG2−LII多チャンネル復号信号と元の信号との間の差に基づいている。ステレオダウン混合は前記空間エンコーダにより生成される。第2の例では、MPEG2−LII多チャンネルデータ及びSLSデータが、所要のビットレートの点で一層効率的な空間オーディオデータにより置換されている。
他の実施例では、SLS符号化をMPEG2−LII拡張ビットストリーム成分により置換することもできる。
上述した実施例はオーディオ信号の2つの代替的表現がスケーラブルビットストリームに含まれるような実施例に焦点を合わせたが、他の実施例では3以上の表現を使用することもできることが分かるであろう。例えば、エンコーダは、同一の基礎となるベースコーダのための拡張データを発生するSLSエンコーダ、パラメトリックコーダ、波形エンコーダを有することができる。
また、上述したビットストリームは異なる方法で適用することもできることが分かるであろう。例えば、ビットストリームは送信側で変換符号化することができるか(結果として、例えば低減された記憶又は伝送ビットレートとなる)、又は受信側で変換符号化することができる(結果として、例えば低減されたデコーダの複雑さ又は他のチャンネル構成に対するサポートとなる)。また、変換符号化は単にオプション的なもので、当該思想は如何なる変換符号化も関わることなく採用することができることも理解されよう。
図9は、本発明の幾つかの実施例によるオーディオ信号の通信のための伝送システム900を示している。伝送システム900は送信機901を有し、該送信機は特にはインターネットとすることができるネットワーク905を介して受信機903に結合されている。
特定の例では、上記送信機は信号記録装置である一方、上記受信機は信号再生装置であるが、他の実施例では送信機及び受信機は他の用途に使用することもできることが分かるであろう。例えば、上記送信機及び/又は受信機は、変換符号化(トランスコーディング)機能の一部とすることができると共に、例えば多の信号のソース若しくは宛先に対するインターフェース処理を提供することができる。
信号記録機能がサポートされるような特定の例においては、送信機901はデジタイザ907を有し、該デジタイザはサンプリング及びアナログ/デジタル変換によりデジタルPCM信号に変換されるアナログ信号を入力する。
送信機901は図1のエンコーダ100に結合され、該エンコーダは前述したようにして上記PCM信号を符号化する。エンコーダ100はネットワーク送信機909に結合され、該ネットワーク送信機は上記の符号化信号を入力すると共に、インターネットとインターフェースし、インターネット905を介して該符号化信号を受信機903に送信する。
受信機903はネットワーク受信機911を有し、該ネットワーク受信機はインターネット905とインターフェースして、送信機901から上記の符号化信号を受信する。
ネットワーク受信機911は図2のデコーダ200に結合されている。デコーダ200は、前述したようにして上記符号化信号を入力するとともに該符号化信号を復号する。特に、該デコーダ200は前記第1表現又は前記第2表現を復号することができる。
信号再生機能がサポートされるような特定の実施例においては、受信機903は信号再生器913を有し、該再生器はデコーダ200から復号されたオーディオ信号を入力すると共に、これをユーザに提供する。即ち、信号再生器913は、前記多チャンネルオーディオ信号を出力するための要件に応じて、デジタル/アナログ変換器、増幅器及びスピーカを有することができる。
上述した明瞭化のための記載は、本発明の実施例を異なる機能的ユニット及び処理を参照テスト説明したことが分かるであろう。しかしながら、異なる機能ユニット又は処理の間での機能の如何なる適切な分散も、本発明を損なうことなく採用することができることは明らかであろう。例えば、別個のプロセッサ又はコントローラにより実行されるように示された機能は、同一のプロセッサ又はコントローラにより実行することができる。従って、特定の機能ユニットに対する参照は、厳格な論理的又は物理的構成又は編成を示すというよりは、説明した機能を提供するための適切な手段に対する参照であるとしてのみ見られるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウエア又はこれらの何れかの組み合わせを含む如何なる適切な形態でも実施化することができる。本発明は、任意選択的に、少なくとも部分的には、1以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実施化することができる。本発明の実施例の構成要素及び構成部品は物理的に、機能的に及び論理的に如何なる好適な態様で実施化することもできる。確かに、機能は、単一ユニットにおいて、複数のユニットにおいて又は他の機能的ユニットの一部として実施化することができる。そのようであるので、本発明は単一のユニットで実施化することができると共に、異なるユニット及びプロセッサの間で物理的に及び機能的に分散させることもできる。
以上、本発明を幾つかの実施例に関連して説明したが、これは、ここで述べた特定の形態に限定しようと意図するものではない。むしろ、本発明の範囲は添付請求項によってのみ限定されるものである。更に、フィーチャは特定の実施例に関連して説明されているように見えるが、当業者であれば、上述した実施例の種々のフィーチャを本発明に従い組み合わせることができると理解するであろう。請求項において、"有する"なる文言は他の構成要素又はステップの存在を排除するものではない。
更に、個別に掲載されているが、複数の手段、構成要素又は方法ステップは例えば単位のユニット又はプロセッサにより実施化することもできる。更に、個々のフィーチャは異なる請求項に含まれているが、これらは恐らくは有利に組み合わせることができ、異なる請求項に含めたことは、フィーチャの組み合わせが可能ではない及び/又は有利ではないということを意味するものではない。また、1つの分類の請求項にフィーチャを含めたことは、この分類への限定を意味するものではなく、むしろ該フィーチャが他の請求項の分類に、適宜、等しく適用可能であることを示すものである。更に、請求項におけるフィーチャの順序は、斯かるフィーチャが実行されるべき如何なる特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、斯かるステップが、この順序で実行されねばならないことを意味するものではない。むしろ、これらステップは如何なる好適な順序で実施することもできる。更に、単一での参照は複数を排除するものではない。従って、単数表現、"第1の"及び"第2の"等は複数を除外するものではない。また、請求項内の符号は明瞭化する例としてのみ設けられたもので、請求項の範囲を決して限定するものと見なしてはならない。
図1は、本発明の幾つかの実施例によるエンコーダを示す。 図2は、本発明の幾つかの実施例によるデコーダを示す。 図3は、本発明の幾つかの実施例によるエンコーダの一例を示す。 図4aは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図4bは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図4cは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図5は、本発明の幾つかの実施例によるエンコーダの一例を示す。 図6aは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図6bは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図7は、本発明の幾つかの実施例によるエンコーダの一例を示す。 図8aは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図8bは、本発明の幾つかの実施例によるスケーラブルオーディオビットストリームの一例を示す。 図9は、本発明の幾つかの実施例によるオーディオ信号の伝送のための伝送システムを示す。

Claims (20)

  1. スケーラブルオーディオビットストリームから多チャンネルオーディオ信号を発生するデコーダにおいて、
    −波形に基づく第1ビットストリーム成分、第1多チャンネル拡張データを有する第2ビットストリーム成分及び第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを入力する手段であって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応する手段と、
    −前記波形に基づく第1ビットストリーム成分を復号することにより前記多チャンネルオーディオ信号の少なくとも第1チャンネルのための第1復号信号を発生する第1波形デコーダと、
    −前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第2デコーダと、
    −前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第3デコーダと、
    前記スケーラブルオーディオビットストリームの復号のために前記第2デコーダと前記第3デコーダとの間で選択を行う手段を有するデコーダ。
  2. 請求項1に記載のデコーダにおいて、前記第2ビットストリーム成分が波形に基づくビットストリーム成分であり、前記第2デコーダが波形デコーダであるデコーダ。
  3. 請求項1に記載のデコーダにおいて、前記第3ビットストリーム成分がパラメータに基づくビットストリーム成分であり、前記第3デコーダがパラメトリックデコーダであるデコーダ。
  4. 請求項1に記載のデコーダにおいて、前記第1表現の符号化品質が前記第2表現のものより高いデコーダ。
  5. 請求項1に記載のデコーダにおいて、前記第1波形デコーダが先進オーディオ符号化(AAC)デコーダであるデコーダ。
  6. 請求項1に記載のデコーダにおいて、前記第1波形デコーダがMPEG2のLIIデコーダであるデコーダ。
  7. 請求項1に記載のデコーダにおいて、前記第3デコーダがパラメトリックステレオ(PS)デコーダであるデコーダ。
  8. 請求項1に記載のデコーダにおいて、前記第3デコーダが空間オーディオコーダ(SAC)デコーダであるデコーダ。
  9. 請求項1に記載のデコーダにおいて、前記第2デコーダがMPEG2のLII多チャンネル拡張デコーダであるデコーダ。
  10. 多チャンネルオーディオ信号をスケーラブルオーディオビットストリームに符号化するエンコーダにおいて、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応する第2エンコーダと、
    −前記オーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応する第3エンコーダと、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段と、
    を有するエンコーダ。
  11. スケーラブルオーディオビットストリームから多チャンネルオーディオ信号を発生する方法において、
    −波形に基づく第1ビットストリーム成分、第1多チャンネル拡張データを有する第2ビットストリーム成分及び第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを入力するステップであって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応するステップと、
    −前記波形に基づく第1ビットストリーム成分を復号することにより前記多チャンネルオーディオ信号の少なくとも第1チャンネルのための第1復号信号を発生するステップと、
    −前記スケーラブルオーディオビットストリームの復号のために前記第2ビットストリーム成分と前記第3ビットストリーム成分との間で選択を行うステップと、
    −前記第2ビットストリーム成分が選択された場合、前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップと、
    −前記第3ビットストリーム成分が選択された場合、前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップと、
    を有する方法。
  12. 多チャンネルオーディオ信号をスケーラブルオーディオビットストリームに符号化する方法において、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応するステップと、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
    を有する方法。
  13. スケーラブル多チャンネルオーディオビットストリームを受信する受信機において、
    −第1多チャンネル拡張データを有する波形に基づく第1ビットストリーム成分、第2ビットストリーム成分及び第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを受信する手段であって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応する手段と、
    −前記波形に基づく第1ビットストリーム成分を復号することにより前記多チャンネルオーディオ信号の少なくとも第1チャンネルのための第1復号信号を発生する第1波形デコーダと、
    −前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第2デコーダと、
    −前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第3デコーダと、
    −前記スケーラブルオーディオビットストリームの復号のために前記第2デコーダと前記第3デコーダとの間で選択を行う手段と、
    を有する受信機。
  14. 多チャンネルオーディオ信号をスケーラブルオーディオビットストリームで送信する送信機であって、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応する第2エンコーダと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応する第3エンコーダと、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段と、
    −前記スケーラブルオーディオビットストリームを送信する手段と、
    を有する送信機。
  15. 多チャンネルオーディオ信号を伝送する伝送システムにおいて、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化する第1波形エンコーダ、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生する第2エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応する第2エンコーダ、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生する第3エンコーダであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応する第3エンコーダ、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生する手段、及び
    −前記スケーラブルオーディオビットストリームを送信する手段、
    を有する送信機、並びに
    −前記スケーラブルオーディオビットストリームを受信する手段、
    −前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生する第1波形デコーダ、及び
    −前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第2デコーダと、前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生する第3デコーダとのうちの少なくとも一方、
    を有する受信機、
    を有する伝送システム。
  16. スケーラブルオーディオビットストリームから多チャンネルオーディオ信号を受信する方法において、
    −波形に基づく第1ビットストリーム成分、第1多チャンネル拡張データを有する第2ビットストリーム成分及び第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを受信するステップであって、前記波形に基づく第1ビットストリーム成分及び前記第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応し、前記波形に基づく第1ビットストリーム成分及び前記第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応するステップと、
    −前記波形に基づく第1ビットストリーム成分を復号することにより前記多チャンネルオーディオ信号の少なくとも第1チャンネルのための第1復号信号を発生するステップと、
    −前記スケーラブルオーディオビットストリームの復号のために前記第2ビットストリーム成分と前記第3ビットストリーム成分との間で選択を行うステップと、
    −前記第2ビットストリーム成分が選択された場合、前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップと、
    −前記第3ビットストリーム成分が選択された場合、前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップと、
    を有する方法。
  17. 多チャンネルオーディオ信号をスケーラブルオーディオビットストリームで送信する方法において、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応するステップと、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
    −前記スケーラブルオーディオビットストリームを送信するステップと、
    を有する方法。
  18. 多チャンネルオーディオ信号を送信及び受信する方法において、
    −前記多チャンネルオーディオ信号の少なくとも第1チャンネルを波形に基づく第1ビットストリーム成分に符号化するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第1多チャンネル拡張データを有する第2ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第2ビットストリーム成分が前記多チャンネルオーディオ信号の第1表現に対応するステップと、
    −前記多チャンネルオーディオ信号を符号化して、前記波形に基づく第1ビットストリーム成分のための第2代替的多チャンネル拡張データを有する第3ビットストリーム成分を発生するステップであって、前記波形に基づく第1ビットストリーム成分及び該第3ビットストリーム成分が前記多チャンネルオーディオ信号の第2表現に対応するステップと、
    −前記波形に基づく第1ビットストリーム成分、前記第2ビットストリーム成分及び前記第3ビットストリーム成分を有する前記スケーラブルオーディオビットストリームを発生するステップと、
    −前記スケーラブルオーディオビットストリームを送信するステップと、
    −前記スケーラブルオーディオビットストリームを受信するステップと、
    −前記波形に基づく第1ビットストリーム成分を復号することにより第1復号信号を発生するステップと、
    −前記第2ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップ及び前記第3ビットストリーム成分に応答して前記第1復号信号を修正することにより前記多チャンネルオーディオ信号を発生するステップのうちの少なくとも一方と、
    を有する方法。
  19. 請求項1に記載のデコーダを有するオーディオ再生装置。
  20. 請求項10に記載のエンコーダを有するオーディオ記録装置。
JP2007550000A 2005-01-11 2006-01-06 オーディオ信号のスケーラブル符号化及び復号 Active JP5542306B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP05100124 2005-01-11
EP05100124.6 2005-01-11
EP05104571.4 2005-05-27
EP05104571 2005-05-27
PCT/IB2006/050055 WO2006075269A1 (en) 2005-01-11 2006-01-06 Scalable encoding/decoding of audio signals

Publications (3)

Publication Number Publication Date
JP2008527439A JP2008527439A (ja) 2008-07-24
JP2008527439A5 JP2008527439A5 (ja) 2009-02-19
JP5542306B2 true JP5542306B2 (ja) 2014-07-09

Family

ID=36112620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007550000A Active JP5542306B2 (ja) 2005-01-11 2006-01-06 オーディオ信号のスケーラブル符号化及び復号

Country Status (7)

Country Link
US (1) US7937272B2 (ja)
EP (1) EP1839297B1 (ja)
JP (1) JP5542306B2 (ja)
CN (1) CN101103393B (ja)
BR (1) BRPI0606387B1 (ja)
PL (1) PL1839297T3 (ja)
WO (1) WO2006075269A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1946517B1 (en) 2005-10-31 2012-11-28 SK Telecom Co., Ltd. Audio data packet format and decoding method thereof and method for correcting mobile communication terminal codec setup error and mobile communication terminal performing same
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
EP1881485A1 (en) * 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
JP2010516077A (ja) * 2007-01-05 2010-05-13 エルジー エレクトロニクス インコーポレイティド オーディオ信号処理方法及び装置
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
US8838443B2 (en) 2009-11-12 2014-09-16 Panasonic Intellectual Property Corporation Of America Encoder apparatus, decoder apparatus and methods of these
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及***
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
US20130286160A1 (en) * 2011-02-17 2013-10-31 Panasonic Corporation Video encoding device, video encoding method, video encoding program, video playback device, video playback method, and video playback program
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
CN104078048B (zh) * 2013-03-29 2017-05-03 北京天籁传音数字技术有限公司 一种声音解码装置及其方法
EP3503095A1 (en) * 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
EP2963649A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using horizontal phase correction
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
ES2771200T3 (es) * 2016-02-17 2020-07-06 Fraunhofer Ges Forschung Postprocesador, preprocesador, codificador de audio, decodificador de audio y métodos relacionados para mejorar el procesamiento de transitorios
BR112021003104A2 (pt) * 2018-08-21 2021-05-11 Dolby International Ab métodos, aparelho e sistemas para geração, transporte e processamento de quadros de reprodução imediata (ipfs)

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
US6728775B1 (en) 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
AU9404098A (en) 1997-09-23 1999-04-12 Voxware, Inc. Scalable and embedded codec for speech and audio signals
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US6366888B1 (en) 1999-03-29 2002-04-02 Lucent Technologies Inc. Technique for multi-rate coding of a signal containing information
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
US8498422B2 (en) * 2002-04-22 2013-07-30 Koninklijke Philips N.V. Parametric multi-channel audio representation
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7706544B2 (en) * 2002-11-21 2010-04-27 Fraunhofer-Geselleschaft Zur Forderung Der Angewandten Forschung E.V. Audio reproduction system and method for reproducing an audio signal
KR100561867B1 (ko) * 2003-03-07 2006-03-17 삼성전자주식회사 오디오 신호 처리 장치와 방법 및 컴퓨터 프로그램을저장하는 컴퓨터로 읽을 수 있는 기록 매체
WO2004114672A1 (en) * 2003-06-19 2004-12-29 Thomson Licensing S.A. Method and apparatus for low-complexity spatial scalable encoding
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding

Also Published As

Publication number Publication date
BRPI0606387A2 (pt) 2009-11-10
CN101103393B (zh) 2011-07-06
WO2006075269A1 (en) 2006-07-20
CN101103393A (zh) 2008-01-09
US20080154615A1 (en) 2008-06-26
BRPI0606387B1 (pt) 2019-11-26
EP1839297A1 (en) 2007-10-03
EP1839297B1 (en) 2018-11-14
US7937272B2 (en) 2011-05-03
JP2008527439A (ja) 2008-07-24
PL1839297T3 (pl) 2019-05-31

Similar Documents

Publication Publication Date Title
JP5542306B2 (ja) オーディオ信号のスケーラブル符号化及び復号
JP6407928B2 (ja) オーディオ処理システム
JP4772279B2 (ja) オーディオ信号のマルチチャネル/キュー符号化/復号化
RU2763374C2 (ru) Способ и система с использованием разности долговременных корреляций между левым и правым каналами для понижающего микширования во временной области стереофонического звукового сигнала в первичный и вторичный каналы
RU2672175C2 (ru) Устройство и способ кодирования метаданных объекта с малой задержкой
JP5281575B2 (ja) オーディオオブジェクトのエンコード及びデコード
US9966080B2 (en) Audio object encoding and decoding
JP5363488B2 (ja) マルチチャネル・オーディオのジョイント強化
US20080004883A1 (en) Scalable audio coding
Herre et al. MPEG-4 high-efficiency AAC coding [standards in a nutshell]
JP2016530788A (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
JP2008527439A5 (ja)
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
EP3997698A1 (en) Method and system for coding metadata in audio streams and for flexible intra-object and inter-object bitrate adaptation
US20230360660A1 (en) Seamless scalable decoding of channels, objects, and hoa audio content
Geiger et al. MPEG-4 Scalable to Lossless Audio Coding
TW202411984A (zh) 用於具有元資料之參數化經寫碼獨立串流之不連續傳輸的編碼器及編碼方法
TW202336739A (zh) 用於低延時沉浸式音頻編解碼器之較高階立體混響聲之空間寫碼
Chiang et al. Advances in Low Bit-Rate Audio Coding: A Digest of Selected Papers from Recent AES Conventions

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081226

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111108

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120206

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20120206

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120507

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130213

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130221

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20130426

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130815

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130820

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140227

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140507

R150 Certificate of patent or registration of utility model

Ref document number: 5542306

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250