JP6728154B2 - オーディオ信号のエンコードおよびデコード - Google Patents

オーディオ信号のエンコードおよびデコード Download PDF

Info

Publication number
JP6728154B2
JP6728154B2 JP2017520943A JP2017520943A JP6728154B2 JP 6728154 B2 JP6728154 B2 JP 6728154B2 JP 2017520943 A JP2017520943 A JP 2017520943A JP 2017520943 A JP2017520943 A JP 2017520943A JP 6728154 B2 JP6728154 B2 JP 6728154B2
Authority
JP
Japan
Prior art keywords
bitstream
frame
audio
audio signal
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017520943A
Other languages
English (en)
Other versions
JP2017532603A (ja
Inventor
クヨーリング,クリストファー
グロエシェル,アレクサンダー
プルンハーゲン,ヘイコ
ホーリッヒ,ホルガー
クラウス,クルト
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2017532603A publication Critical patent/JP2017532603A/ja
Application granted granted Critical
Publication of JP6728154B2 publication Critical patent/JP6728154B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

関連出願への相互参照
本願は2014年10月24日に出願された米国仮特許出願第62/068,187号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本稿で開示される発明はオーディオ信号のエンコードおよびデコードに関し、詳細には高いフレーム・レートについて有利なスケーリング挙動をもつオーディオ・ビットストリーム・フォーマットに関する。
今日利用可能なたいていの商業的アプリケーションにおいて使われるオーディオおよびビデオ・フレーム・レート(またはフレーム周波数)は、通信する当事者間でオーディオおよびビデオを伝送するための記録および再生ソフトウェア・プロダクト、ハードウェア・コンポーネントならびに合意されたフォーマットの両方において現われる別個の確立された業界標準に従っている。オーディオ・フレーム・レートは典型的には種々の符号化アルゴリズムに固有であり、44.1および48kHzのような特定のオーディオ・サンプリング周波数に関連付けられる。これらはそれぞれの地理的領域におけるビデオ・フレーム・レート29.97fps(NTSC)および25fps(PAL)と同じくらい有名である。さらなる標準的なビデオ・フレーム・レートは23.98、24および30fpsまたはより一般化された形では24、25、30fpsおよび(24,25,30)×1000/1001fpsを含む。オーディオ・フレーム・レートを統一するまたは調和させる試みは、アナログからデジタル頒布へのシフトにもかかわらず、まだうまくいっていない。このことは、オーディオ・フレーム(たとえばネットワークを通じた伝送のために好適なパケットまたは符号化単位)が一般にはオーディオビジュアル・データ・ストリームにおける整数個のビデオ・フレームに対応しないことを含意する。
オーディオビジュアル・データ・ストリームを同期させる必要性は、クロック・ドリフトの結果として、あるいはサーバーにおける共通の処理、編集またはスプライシングのために異なる源からいくつかのストリームが受領されるとき、絶えず生じている。こうした状況は放送局では頻繁に遭遇される。(たとえばスプライシングのためにストリームを整えるために)ストリームの一方におけるビデオ・フレームを複製するまたは脱落させることによって二つのオーディオビジュアル・データ・ストリーム間でビデオからビデオへの同期を改善する試みは、オーディオ・フレームとビデオ・フレームのサイズがマッチしない場合、典型的にはそのオーディオビジュアル・データ・ストリーム内でのオーディオからビデオのラグにつながる。一般に、たとえビデオ編集に対応するオーディオ・フレームが削除または複製されたとしても、(少なくともいくらかの0でない継続時間の)ラグは残る。
さらなる処理を代償として、同期中にオーディオを時間的にデコードして、フレームへの分割とは独立な低レベル・フォーマット、たとえばもとのサンプリング周波数の分解能のベースバンド・フォーマットまたはパルス符号変調(PCM)にすることによって、より大きな工夫の余地を作り出すことができる。しかしながら、そのようなデコードは、メタデータの、特定のオーディオ・セグメントへの厳密なアンカー付けをぼかし、「完璧な」中間フォーマットにデコードすることによっては是正できない情報損失を生じる。一例として、ダイナミックレンジ制御(DRC)は典型的にはモード依存かつ設備依存であり、したがって実際の再生の時点でのみ消費されることができる。オーディオ・パケットを通じてDRCの特性を支配するデータ構造は、同期が行なわれた後で忠実に復元するのは難しい。よって、相続くデコード、同期およびエンコード段を過ぎてこの型のメタデータを保存するタスクは、複雑さの制約条件を受ける場合には、簡単なタスクではない。
一層深刻な困難が、二チャネルPCM信号を担持するよう設計されており、よって符号化された形でしかマルチチャネル・コンテンツを扱えないレガシー・インフラストラクチャーとの関連で生じうる。
所与のフレームにおけるデータが、記録され、符号化されたオーディオビジュアル信号における同じ時間セグメントに正確に対応するという意味でフレーム同期的にオーディオおよびビデオ・データをエンコードすることがより便利であることは確かである。これはオーディオビジュアル・ストリームのフレームごとの操作、すなわち、ストリーム内の一つまたは複数の独立した符号化単位全体の複製または除去のもとで、オーディオからビデオへの同期を保存する。ドルビーE(商標)オーディオ・フォーマットにおいて利用可能なフレーム長はビデオ・フレーム長に一致する。だが、典型的なビットレート448kbpsでは、このフォーマットは、デジタル・ビデオ・カセットのようなハード・メディアを好ましい記憶態様として、主として業務用の制作のために設計された。
出願人の同時係属中の未公開の出願PCT/EP2014/056848では、フレーム同期的なオーディオビジュアル・フォーマットの一部として頒布目的に好適なオーディオ・フォーマットと互換なシステムおよび方法が提案されている。
フレーム同期的なオーディオビジュアル・フォーマットの一部として頒布目的に好適な代替的なオーディオ・フォーマットであって、高フレーム・レートについて改善されたスケーリング挙動をもつものが必要とされている。それと一緒に使うのに好適な符号化および復号設備も必要とされている。
下記において、例示的な実施形態が付属の図面を参照して、より詳細に記述される。
ある例示的実施形態に基づく、オーディオ信号をオーディオ・ビットストリームとして表現するためのオーディオ処理システムの一般化されたブロック図である。 ある例示的実施形態に基づく、オーディオ信号をオーディオ・ビットストリームとして表現する方法のフローチャートである。 例示的実施形態に基づく、図1に描かれたオーディオ処理システムによって提供されるオーディオ・ビットストリームの例を示す図である。 例示的実施形態に基づく、図1に描かれたオーディオ処理システムによって提供されるオーディオ・ビットストリームの例を示す図である。 ある例示的実施形態に基づく、ビットストリームによって表現されたオーディオ信号を再構成するためのオーディオ処理システムの一般化されたブロック図である。 ある例示的実施形態に基づく、ビットストリームによって表現されたオーディオ信号を再構成する方法のフローチャートである。 ある例示的実施形態に基づく、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システムの一般化されたブロック図である。 すべての図面は概略的であり、一般に本発明を明快にするために必要な部分を示すのみである。他の部分は省略されたり、あるいは単に示唆されたりすることがある。
本稿での用法では、オーディオ信号は、単体のオーディオ信号、オーディオビジュアル信号もしくはマルチメディア信号のオーディオ部分またはこれらのいずれかをメタデータと組み合わせたものでありうる。
〈I.概観――エンコーダ側〉
第一の側面によれば、例示的実施形態は、オーディオ信号をオーディオ・ビットストリームとして表現するためのオーディオ処理システム、方法およびコンピュータ・プログラム・プロダクトを提案する。第一の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。
例示的実施形態によれば、オーディオ信号をオーディオ・ビットストリームとして表現する方法が提供される。本方法は:前記オーディオ信号のセグメントを、オーディオ・データの一つのデコード可能な集合としてエンコードする段階を含む。これは少なくとも、本稿で基本ストライドと称されるストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによる。前記基本ストライドは前記オーディオ信号の第一のサンプル数に対応する。前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。本方法は:前記オーディオ・データのデコード可能な集合をN個の部分に分解し、N≧2であり、それぞれの部分を担持するN個のビットストリーム・フレームを形成することを含む。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本方法は:形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力することを含む。
オーディオビジュアル・データ・ストリームにおいて、オーディオ・フレームおよびビデオ・フレームは同期されていてもよく、等しい継続時間であってもよい。たとえばスプライシングまたはクロック・ドリフトの補償との関連でフレーム脱落やフレーム複製を容易にするためである。より高いビデオ・フレーム・レートについてオーディオビジュアル・データ・ストリームにおけるオーディオ・ビデオ同期を維持するために、オーディオ・フレーム・レートが上げられてもよい。しかしながら、ビデオ・フレーム・レートを高めるビット・レート・コストを低減するために予測符号化が典型的には用いられるところ、予測符号化は、オーディオ・フレームについてはそれほど効率的ではないことがある。ビデオ・コンテンツよりも、オーディオ・コンテンツはより短い時間スケールで変動しうるものであり、連続するフレーム間でのより低い度合いの相関に関連付けられうるからである。本開示の目的のためには、特に断わりのない限り、ビデオ・フレームは一つの完全な画面画像(たとえばシーケンス中のスチール画像)に対応し、一方、オーディオ・フレームは原則として、任意の継続時間をもつオーディオ信号セグメントに対応するオーディオ・データを担持しうる。
本方法が、第一の(より低い)フレーム・レートに関連付けられたオーディオ・データのデコード可能な集合を一緒になって担持する、第二の(より高い)フレーム・レートのN個のビットストリーム・フレームを提供できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本方法に従って増大したフレーム・レートで動作することは、典型的には、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いビットレートにつながる。したがって、本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび/またはクロック・ドリフトの補償を容易にすることがありうる。
実際、オーディオ・データのデコード可能な集合は、第一の(より低い)フレーム・レートの通常のオーディオ・フレームによって担持されるデータ量に対応してもよく、たとえN個のビットストリーム・フレームがフレーム・フォーマットに準拠するために必要な追加的な非ペイロード・データを含む必要があったとしても(後述)、エンコーダ側からデコーダ側に伝送されるデータの総量は、第二の(より高い)フレーム・レートをもつ通常のオーディオ・フレームを用いるのに比べて低減されうる。特に、より短いストライド(たとえばオーディオ信号の第二のサンプル数に対応するストライド)ではなく基本ストライドをもって信号解析を実行することが、デコーダ側でオーディオ信号を再び合成するために必要とされるデータの量を減らし、それによりデコーダ側にデータを伝送するために必要とされるビットレートを低減する。
オーディオ・ビットストリームの他のビットストリームとのスプライシングはたとえば、ビットストリーム・フレームによって担持されるオーディオ・データに関わりなく実行されてもよい。換言すれば、スプライシングを実行する装置またはユニットは、オーディオ信号のセグメントを再構成するためにN個のビットストリーム・フレームの全部が必要とされることがありうるという事実を知る必要はなく、たとえば、それらのビットストリーム・フレームを、あたかも独立してデコード可能であるかのうように扱ってもよい。スプライシングされたビットストリームにおいて生じうる欠けているビットストリーム・フレームは、たとえば、デコーダ側で、成功裏のデコードを許容しないかもしれないビットストリーム・フレームを隠蔽することによって対処されうる。
オーディオ・データのデコード可能な集合とは、オーディオ信号のセグメントをデコードするために十分であるオーディオ・データの集合を意味する。オーディオ・データのデコード可能な集合は、オーディオ信号のセグメントのデコードが、オーディオ信号の該セグメントに関係した追加的なデータなしに実行されうるという意味で完全であってもよい(一方、オーバーヘッド・ビット、ヘッダまたはプリアンブルといった非ペイロード・データはたとえば、デコーダ側でオーディオ・データのデコード可能な集合を識別するために用いられてもよい)。
オーディオ信号の第一のサンプル数に対応する基本ストライドをもって信号解析を実行するとは、信号解析がオーディオ信号のある数のサンプルの解析窓内で実行され、オーディオ信号の次のセグメントがエンコードされるときには解析窓は基本ストライドと同じサンプル数だけシフトされることを意味する。信号解析はたとえば、重なり合う解析窓をもって実行されてもよく、その場合、解析窓は基本ストライドより長くてもよい。別の例では、解析窓の長さは基本ストライドと一致してもよい。
オーディオ信号がマルチチャネル信号である場合、基本ストライドは、それぞれのチャネルのサンプルの合計としてではなく、チャネル毎に、オーディオ信号の第一のサンプル数に対応してもよい。
オーディオ信号のセグメントをエンコードする段階は、たとえば、複数のサブステップを含んでいてもよく、その一つまたは複数が基本ストライドでの信号解析を含んでいてもよい。
オーディオ・データのデコード可能な集合は、オーディオ信号の第一のサンプル数に対応するオーディオ信号のセグメントを表わしていてもよい。オーディオ・データのデコード可能な集合は第一のフレーム・レートをもつフレームに対応してもよい。
オーディオ・データのデコード可能な集合を分解することは、たとえば、データのデコード可能な集合をN個の少なくとも近似的に均等サイズの部分、たとえば少なくともほぼ同数のビットを有する部分に分割することを含んでいてもよい。
N部分のそれぞれは、一つの部分は、他の部分へのアクセスなしでは、オーディオ信号のセグメント(またはサブセグメント)をデコードするのに不十分であることがあるという意味で、オーディオ・データの不完全な集合でありうる。
N個のビットストリーム・フレームのそれぞれについて、前記N個のビットストリーム・フレームはたとえば、当該ビットストリーム・フレームを含み、そこからのオーディオ・データが結合されて当該ビットストリーム・フレームによって担持されるデータによって表現されるオーディオ信号のセグメントをデコードしうる、ビットストリーム・フレームの最小の集まりであってもよい。換言すれば、前記N個のビットストリーム・フレームは、同じオーディオ・データのデコード可能な集合にもともと含まれているデータを担持するものであってもよい。
前記ビットストリーム・フレームが第二の(より高い)フレーム・レートに対応するというのは、前記N個のビットストリーム・フレームが一緒になって、第一の(より低い)フレーム・レートに対応するオーディオ・データのデコード可能な集合と同じ、オーディオ信号のセグメントを表現するという意味においてである。
同様に、前記ビットストリーム・フレームがビットストリーム・フレーム当たり第二の(より少ない)サンプル数に対応するというのは、前記N個のビットストリーム・フレームが一緒になって、オーディオ・データのデコード可能な集合によっても表現される第一の(より多い)サンプル数を表わすという意味においてである。
ビットストリーム・フレームはたとえば、オーディオ信号の当該セグメントのスペクトル表現のそれぞれの部分を担持してもよいこと、ビットストリーム・フレームの一つと、オーディオ信号の第二の(より少ない)サンプル数との間には何のつながりもなくてもよいことは理解されるであろう。
前記N個のビットストリーム・フレームはたとえば、それらのビットストリーム・フレームが、エレメンタリー・ストリーム・レベルで、たとえば動画像専門家グループ(MPEG)エレメンタリー・ストリームにおいて提供されるようなオーディオ・フォーマットに準拠しているペイロードおよびメタデータを担持しうるという意味において、オーディオ・フォーマットに準拠していてもよい。この意味でオーディオ・フォーマットに準拠していても、これらのビットストリーム・フレームによって担持される、ペイロードと、メタデータの少なくとも一部とは、たとえば、当技術分野で知られているオーディオ・フレームとは異なる型および/またはフォーマットであってもよい。
前記N個の部分を担持する前記N個のビットストリーム・フレームはたとえば、前記ビットストリームにおいてN個の連続したビットストリーム・フレームとして出力されてもよい。
ある例示的実施形態では、信号解析(signal analysis)を実行することは、基本ストライドをもって:スペクトル解析;エネルギー解析;および/またはエントロピー解析を実行することを含んでいてもよい。基本ストライドを用いたスペクトル解析は、たとえば、オーディオ信号のセグメントを時間領域から周波数領域に変換するために実行されてもよい。基本ストライドを用いたエネルギー解析は、たとえば、オーディオ信号のセグメントを、エネルギー・ベースの符号化技法を用いてエンコードするために実行されてもよい。基本ストライドを用いたエントロピー解析は、たとえば、エントロピー・ベースの符号化技法を用いてオーディオ信号をエンコードするために実行されてもよい。
ある例示的実施形態では、オーディオ信号のセグメントをエンコードすることは:前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;および/またはダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することを含んでいてもよい。ここで、前記パラメータは、前記信号解析に基づいて計算される。
窓掛けされた変換はたとえば、たとえば重複変換窓を用いる、修正離散コサイン変換(MDCT)のような調和変換(harmonic transform)であってもよい。
前記オーディオ信号はたとえば、マルチチャネル・オーディオ信号であってもよく、前記ダウンミックス信号は前記マルチチャネル信号より少数のチャネルをもつ信号であってもよく、たとえば前記マルチチャネル信号のチャネルの線形結合として得られてもよい。前記ダウンミックス信号はたとえば、前記マルチチャネル・オーディオ信号のモノまたはステレオ・ダウンミックスであってもよい。
ある例示的実施形態では、本方法は:前記諸部分を担持する前記N個のビットストリーム・フレームのうちの少なくとも一つにメタデータを含めることを含んでいてもよい。前記メタデータは、オーディオ・データの完全なデコード可能な集合が、前記N個のビットストリーム・フレームによって担持される前記諸部分から取得可能であることを示してもよい。
前記N個のビットストリーム・フレームのそれぞれは、たとえば、そこからオーディオ・データのデコード可能な集合が取得可能なN個のビットストリーム・フレームのあるグループに属するものとして、該ビットストリーム・フレームを同定するメタデータを担持していてもよい。別の例では、それらのビットストリーム・フレームの一つが、前記N個のビットストリーム・フレームのすべてを同定するメタデータを担持していてもよく、一方、そのグループの他のN−1個のビットストリーム・フレームは必ずしもそのようなメタデータを担持しない。ビットストリームはたとえば、そのようなメタデータを担持しない他のビットストリーム・フレームを含んでいてもよい。
前記メタデータは、前記N個のビットストリーム・フレームが、互いに対してあらかじめ決定されていない位置に位置されることを許容しうる。前記メタデータは、前記N個のビットストリーム・フレームの間に他のビットストリーム・フレームを許容しうる。前記メタデータは、前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて、たとえばスプライシングまたはフレーム脱落のために欠けているときを検出することを許容しうる。
ある例示的実施形態では、オーディオ・ビットストリームはビデオ・フレームのストリームに関連付けられていてもよい。本方法はさらに:ビデオ・フレームの前記ストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、オーディオ・データの第二のデコード可能な集合としてエンコードすることを含んでいてもよい。これは少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによる。オーディオ・データの第二のデコード可能な集合は前記第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の第二のサンプル数に対応してもよい。本方法は:オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めることを含んでいてもよい。
デコーダ側でのビデオ・フレームのスプライシングされたシーケンスのデコードを容易にするために、ビデオ・フレームのストリームはたとえば、ある型のフレーム、たとえば独立して符号化されたビデオ・フレームに隣接する点においてスプライシングされてもよい。前記ある型のビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを第二のフレーム・レートに対応するオーディオ・データの第二のデコード可能な集合としてエンコードし、オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めるという手法は、デコーダ側でオーディオ信号のそのセグメントの独立したデコードを許容する。したがって、本例示的実施形態は、たとえば前記オーディオ・ビットストリームおよび前記ビデオ・フレームのストリームを含むオーディオビジュアル・ストリームを一つまたは複数の他のオーディオビジュアル・データ・ストリームとスプライシングした結果として、たとえばデコーダ側でオーディオ・ビットストリームからの先行するまたは後続のビットストリーム・フレームが欠けていることがありうる場合に、オーディオ信号のそのセグメントのデコードを容易にしうる。
前記ある型のビデオ・フレームに時間的に関係している前記オーディオ信号のセグメントは、たとえば、前記ある型のビデオ・フレームがディスプレイ上で再生されることが意図されている時点に対応してもよい。
ビデオ・フレームの前記ストリームはたとえば、独立して符号化されたフレームと、予測された符号化されたフレーム(一方向または双方向の、隣接するフレームへの依存性をもつ)とを含んでいてもよく、前記ある型のビデオ・フレームはたとえば独立して符号化されたビデオ・フレームであってもよい。
本方法はたとえば:ビデオ・フレームの前記ストリームにおいて前記ある型のビデオ・フレームの存在を検出することを含んでいてもよい。前記ある型のビデオ・フレームの存在はたとえば、ビデオ・エンコーダからの信号伝達を介して検出されてもよい。
前記短縮されたストライドをもって信号解析を実行することは、たとえば、前記短縮された信号ストライドを用いて:スペクトル解析;エネルギー解析;および/またはエントロピー解析を実行することを含んでいてもよい。
前記ある型のビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントをエンコードすることは、たとえば:前記短縮されたストライドを変換ストライドとしてもつ窓掛け変換を適用すること;および/またはダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することを含んでいてもよい。ここで、前記パラメータは、前記短縮されたストライドを用いた信号解析に基づいて計算される。
ある例示的実施形態では、本方法は:ビデオ・フレームの前記ストリームが前記ある型のビデオ・フレームを有することに応答して、前記オーディオ信号のN個の連続するセグメントを、オーディオ・データのそれぞれのデコード可能な集合としてエンコードすることを含んでいてもよい。これは、前記N個の連続したセグメントのそれぞれについて、少なくとも、前記短縮されたストライドを用いて信号解析を適用することによってであってもよい。前記ビデオ・フレームに時間的に関係した前記セグメントは、前記N個の連続したセグメントのうちの一つであってもよい。本方法は:前記N個の連続したセグメントに関連付けられたオーディオ・データのそれぞれのデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含めることを含んでいてもよい。
前記ビットストリームは、たとえば、一緒にデコード可能なオーディオ・データのそれぞれの部分を担持する、N個の連続したビットストリーム・フレームからなる諸グループを含んでいてもよい。したがって、デコーダ側では、前記ビットストリームのN個のビットストリーム・フレームが一度にデコードされうる。本例示的実施形態では、たとえば前記ビットストリームにおけるN個の連続したビットストリーム・フレームの前記諸グループの位置に対するビデオ・フレームの前記ストリームにおける前記ある型のビデオ・フレームの位置に関わりなく、N個のビットストリーム・フレームの諸グループの構造は、前記ある型のビデオ・フレームがビデオ・フレームの関連付けられたストリームにおいて生起するときにも保存されうる。
例示的実施形態によれば、オーディオ・ビットストリームによってオーディオ信号を表現するためのオーディオ処理システムが提供される。オーディオ処理システムは:前記オーディオ信号のセグメントをオーディオ・データの一つのデコード可能な集合としてエンコードするよう構成されたエンコード部を有する。該エンコードは少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによる。前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。本オーディオ処理システムは:前記オーディオ・データのデコード可能な集合をN個の部分に分解し、N≧2であり、それぞれの部分を担持するN個のビットストリーム・フレームを形成するよう構成されたフレーム構成し直し〔再フレーミング〕部を有する。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。フレーム構成し直し部は:形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力するよう構成される。
例示的実施形態によれば、第一の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
例示的実施形態によれば、N=2またはN=4が成り立ってもよい。すなわち、N個のビットストリーム・フレームは二つまたは四つのビットストリーム・フレームであってもよい。
〈II.概観――デコーダ側〉
第二の側面によれば、例示的実施形態は、ビットストリームによって表わされるオーディオ信号を再構成するためのオーディオ処理システムならびに方法およびコンピュータ・プログラム・プロダクトを提案する。第二の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。さらに、第一の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第二の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。
例示的実施形態によれば、ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成する方法が提供される。本方法は:N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合することを含み、N≧2である。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本方法は:前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードすることを含む。これは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する本稿で基本ストライドと称されるストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる。
オーディオビジュアル・データ・ストリームにおいて、オーディオ・フレームおよびビデオ・フレームは同期されていてもよく、等しい継続時間であってもよい。たとえばスプライシングまたはクロック・ドリフトの補償との関連でフレーム脱落やフレーム複製を容易にするためである。より高いビデオ・フレーム・レートについてオーディオビジュアル・データ・ストリームにおけるオーディオ・ビデオ同期を維持するために、オーディオ・フレーム・レートが上げられてもよい。しかしながら、ビデオ・フレーム・レートを高めるビット・レート・コストを低減するために予測符号化が典型的には用いられるところ、予測符号化は、オーディオ・フレームについてはそれほど効率的ではないことがある。ビデオ・コンテンツよりも、オーディオ・コンテンツはより短い時間スケールで変動しうるものであり、連続するフレーム間でのより低い度合いの相関に関連付けられうるからである。短すぎるオーディオ・フレーム長も、変換ストライドを制限することがあり、ひいては周波数分解能に制限を課すので、避けるべきである。
本方法が:第二の(より高い)フレーム・レートのN個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一の(より低い)フレーム・レートに関連するオーディオ・データの一つのデコード可能な集合に結合できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本方法に従って増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがありうる。本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび/またはクロック・ドリフトの補償を容易にすることがありうる。
より短いストライド(たとえばオーディオ信号の第二のサンプル数に対応するストライド)をもつ合成ではなく基本ストライドをもつ信号合成を用いることが、オーディオ信号を合成するために必要とされるデータの量を減らし、それによりデータを伝送するための必要とされるビットレートを低減する。
前記オーディオ・データのデコード可能な集合に結合されるデータの各集合は、他の集合へのアクセスなしでは、オーディオ信号のセグメント(またはサブセグメント)をデコードするのに不十分であることがあるという意味で、オーディオ・データの不完全な集合でありうる。
N個のビットストリーム・フレームのそれぞれについて、前記N個のビットストリーム・フレームはたとえば、そのビットストリーム・フレームを含み、そこからのオーディオ・データが結合されてそのビットストリーム・フレームによって担持されるデータによって表現されるオーディオ信号のセグメントをデコードしうる、ビットストリーム・フレームの最小の集まりであってもよい。
オーディオ・データのデコード可能な集合とは、オーディオ信号のセグメントをデコードするために十分であるオーディオ・データの集合を意味する。オーディオ・データのデコード可能な集合は、オーディオ信号のセグメントのデコードが、追加的なオーディオ・データなしに実行されうるという意味で完全であってもよい。
オーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合することは、たとえば、データのそれぞれの集合を表わすビットを順次配列することなどにより、それらのデータの集合を連結することを含んでいてもよい。
前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもつ信号合成を用いるとは、信号合成が前記オーディオ信号のある数のサンプルに対応する前記オーディオ信号のセグメントについて実行され、前記オーディオ信号の次のセグメントが再構成されるべきときは、信号合成プロセスは、前記基本ストライドと同数のサンプルだけシフトされた範囲についての出力を生成するということを意味する。
基本ストライドでの信号合成(signal synthesis)は、たとえば、オーディオ・データのデコード可能な集合に直接基づいて直接用いられてもよく、あるいはオーディオ・データのデコード可能な集合に間接的に基づいて、たとえばオーディオ・データのデコード可能な集合を処理することによって得られるオーディオ・データまたは信号に基づいて用いられてもよい。
オーディオ信号がマルチチャネル信号である場合、基本ストライドは、それぞれのチャネルのサンプルの合計としてではなく、チャネル毎に、オーディオ信号の第一のサンプル数に対応してもよい。
オーディオ・データのデコード可能な集合をデコードする段階は、たとえば、複数のサブステップを含んでいてもよく、その一つまたは複数が基本ストライドでの信号合成を含んでいてもよい。
前記N個のビットストリーム・フレームはたとえば、それらのビットストリーム・フレームが、エレメンタリー・ストリーム・レベルで、たとえば動画像専門家グループ(MPEG)エレメンタリー・ストリームにおいて提供されるようなオーディオ・フォーマットに準拠しているペイロードおよびメタデータを担持しうるという意味において、オーディオ・フォーマットに準拠していてもよい。この意味でオーディオ・フォーマットに準拠していても、これらのビットストリーム・フレームによって担持される、ペイロードと、メタデータの少なくとも一部とは、たとえば、当技術分野で知られているオーディオ・フレームとは異なる型および/またはフォーマットであってもよい。
エンコーダによって提供されるビットストリームはたとえば、デコーダ側に届く前に別のビットストリームとスプライシングされていてもよい。たとえば、前記N個のビットストリーム・フレームの一つまたは複数がたとえば、デコーダ側で受領されたビットストリームにおいて欠けていることがありうる。したがって、いくつかの例示的実施形態では、本オーディオ処理方法は、オーディオ・データの諸集合を結合して完全なデコード可能な集合にするもとになる前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて欠けているかどうかを検出することを含んでいてもよい。本方法はたとえば:前記N個のビットストリーム・フレームの一つまたは複数が前記ビットストリームにおいて欠けていることを検出することに応答して、誤り隠蔽〔エラー・コンシールメント〕を適用することを含んでいてもよい。誤り隠蔽はたとえば、受領されたビットストリーム・フレームの一つまたは複数によって担持されているオーディオ・データを0で置き換え、任意的にフェードアウトおよび/またはフェードインを適用することを含んでいてもよい。
ある例示的実施形態では、オーディオ・データのデコード可能な集合をデコードすることは:前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;および/またはオーディオ・データのデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号の前記セグメントの、前記基本ストライドでのパラメトリック再構成を実行することを含んでいてもよい。
窓掛けされた変換はたとえば、逆修正離散コサイン変換(MDCT)のような調和変換(harmonic transform)であってもよい。
前記オーディオ信号はたとえば、マルチチャネル・オーディオ信号であってもよく、前記ダウンミックス信号は前記マルチチャネル信号より少数のチャネルをもつ信号であってもよく、たとえば前記マルチチャネル信号のチャネルの線形結合として得られてもよい。前記ダウンミックス信号はたとえば、前記マルチチャネル・オーディオ信号のモノまたはステレオ・ダウンミックスであってもよい。前記オーディオ・データのデコード可能な集合はたとえば、前記オーディオ信号の前記セグメントのパラメトリック再構成のための前記ダウンミックス信号および前記関連するパラメータを含んでいてもよい。あるいはまた、前記オーディオ・データのデコード可能な集合は、前記ダウンミックス信号および前記関連するパラメータをたとえば量子化された形で含んでいてもよく、それから前記ダウンミックス信号および前記関連するパラメータが導出されてもよい。
ある例示的実施形態では、オーディオ・データの諸集合が結合されてオーディオ・データのデコード可能な集合にされるもとになる前記N個のビットストリーム・フレームは、N個の連続するビットストリーム・フレームであってもよい。オーディオ・データのデコード可能な集合に結合されるオーディオ・データの諸集合を担持するために連続するフレームを用いることは、オーディオ信号のデコードを容易にすることがあり、オーディオ・データのデコード可能な集合に結合されるべきデータを有するビットストリーム・フレームを同定するためのメタデータの必要性を軽減しうる。オーディオ・データのデコード可能な集合に結合されるオーディオ・データの諸集合を担持するために連続するフレームを用いることは、デコードを実行するためのデータをバッファリングする必要性を軽減しうる。
ある例示的実施形態では、ビットストリーム中のビットストリーム・フレームの少なくともいくつかによって担持されるメタデータに基づいて、ビットストリーム・フレームのグループを決定することを含んでいてもよい。該グループから、オーディオ・データの不完全な前記諸集合を結合して、前記オーディオ・データのデコード可能な集合にする。N個のビットストリーム・フレームからなる諸グループを同定するために、メタデータが、たとえば、すべてのビットストリーム・フレームによって担持されていてもよく、あるいはN個のビットストリーム・フレームのグループ毎に一つまたは複数のビットストリーム・フレームによって担持されていてもよい。前記N個のビットストリーム・フレーム自身はそのようなメタデータを担持しなくてもよく、ビットストリームがN個のフレームの諸グループを同定するメタデータを担持する他のフレームを含む実施形態も構想されうる。
ある例示的実施形態では、本方法はさらに:あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出し;前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、前記オーディオ信号のセグメントにデコードすることを含んでいてもよい。該デコードは、少なくとも、前記第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによる。
独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームが、たとえばスプライシング後および/またはフレーム脱落/複製後にビットストリームのデコードを容易にするために、用いられてもよい。本例示的実施形態での本方法が前記短縮されたストライドを使ってデコードできることは、本方法を、オーディオおよびビデオ・フレームの同期を容易にするビットストリーム・フォーマットと互換にしうる。
前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合をデコードすることは:前記短縮されたストライドを変換ストライドとしてもつ窓掛け変換を適用すること;および/または前記オーディオ・データの第二のデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号のセグメントの、前記短縮されたストライドでのパラメトリック再構成を実行することを含んでいてもよい。
あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかの検出は、たとえば、前記ビットストリーム・フレームによって担持されるメタデータに基づいていてもよく、あるいは前記ビットストリーム・フレーム内のメタデータの不在もしくは具体的な型に基づいていてもよい。
ある例示的実施形態では、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合をデコードすることは:遅延を設けることを含んでいてもよい。それにより、前記第二のフレーム・レートでのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、N個のビットストリーム・フレームのそのグループのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了する。本例示的実施形態は、前記基本ストライドを使って再構成された前記オーディオ信号のセグメントと、前記短縮されたストライドを使って再構成された前記オーディオ信号のセグメントとの間のなめらかな遷移を容易にし、聴取者によって知覚される再生品質を改善しうる。
ある例示的実施形態では、前記遅延は、前記第二のフレーム・レートに対応するオーディオ・データの少なくとも一つのデコード可能な集合をバッファリングすることまたは前記オーディオ信号の少なくとも一つのセグメントをバッファリングすることによって提供されてもよい。すなわち、前記遅延は、前記第二のフレーム・レートに対応する一つまたは複数のオーディオ・データのデコード可能な集合をバッファリングすることによって、信号合成を実行する前に、あるいは前記第二のフレーム・レートに対応する一つまたは複数のオーディオ・データのデコード可能な集合から再構成された前記オーディオ信号のセグメントの一つまたは複数をバッファリングすることによって、信号合成を実行した後に、提供されてもよい。
ある例示的実施形態では、前記ビットストリームは、前記第二のフレーム・レートに一致するフレーム・レートをもつビデオ・フレームのストリームに関連付けられていてもよい。本例示的実施形態では、ビットストリーム・フレームのフレーム・レートは、ビデオ・フレームのフレーム・レートに一致していてもよく、このことは前記ビットストリームおよびビデオ・フレームのストリームを含むオーディオビジュアル・データ・ストリームの、他のオーディオ・ビジュアル・データ・ストリームとの、スプライシングおよび/または同期を容易にしうる。
ある例示的実施形態では、前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて前記オーディオ信号のセグメントをデコードすることは:前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に対応する量子化されたスペクトル係数を受領する段階と;逆量子化およびそれに続く周波数から時間への変換を実行する段階であって、中間オーディオ信号の表現が得られる段階と;前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理ステップを実行する段階と;処理されたオーディオ信号のサンプリング・レートを目標サンプリング周波数に変更する段階であって、再構成されたオーディオ信号の時間領域表現が得られる、段階とを含んでいてもよい。
目標サンプリング周波数は、あらかじめ定義された量であってもよい。その量は、はいってくるビットストリームの属性(たとえばフレーム・レート)とは独立にユーザーまたはシステム設計者によって構成設定可能である。
逆量子化は、あらかじめ決定された量子化レベル(または再構成レベルまたは再構成点)をもって実行されてもよい。それらの量子化レベルは、音響心理学的考察に基づいてエンコーダ側で、たとえば所与の周波数(または周波数帯)についての量子化ノイズがマスキング閾値を超えないよう、選ばれていてもよい。マスキング閾値は周波数依存なので、経済的な観点から、エンコーダ側に、周波数に対して非一様な量子化レベルを選択させるのが好ましい。結果として、量子化および脱量子化は典型的には、最適な出力が生成される特定の物理的なサンプリング周波数を念頭において行なわれる。
前記少なくとも一つの処理ステップはたとえば、スペクトル帯域複製(SBR)および/またはダイナミックレンジ制御(DRC)に関連していてもよい。
前記少なくとも一つの処理ステップは周波数領域で実行されるので、本方法は:たとえば直交ミラーフィルター(QMF)解析フィルタバンクによって実行される時間から周波数への変換を実行して、前記中間オーディオ信号の周波数表現を得る段階と;たとえばQMF合成フィルタバンクによって実行される追加的な周波数から時間への変換を実行して、処理されたオーディオ信号をもとの時間領域に変換する段階とを含んでいてもよい。
ある例示的実施形態では、本方法は、前記第二のフレーム・レートについての少なくとも二つの異なる値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられている諸ビットストリームを受け入れてもよい。前記第二のフレーム・レートのそれぞれの値は最大で5%異なっていてもよい。前記周波数から時間の変換は、前記第二のフレーム・レートについての前記少なくとも二つの異なる値について、前記基本ストライドについての共通のあらかじめ定義された値を変換ストライドとしてもつ窓掛け変換を用いるよう構成された機能コンポーネントにおいて実行されてもよい。
データのオーディオビジュアル・ストリームにおいて、たとえばオーディオ・ビデオ同期および/またはスプライシングを容易にするために、オーディオ・フレーム・レートは、ビデオ・フレーム・レートに適合されてもよい(たとえば、一致してもよい)。したがって、本例示的実施形態において、異なるフレーム・レートをもつオーディオ・ビットストリームを受け入れることができることは、オーディオビジュアル・データ・ストリームのオーディオ・ビデオ同期および/またはスプライシングを容易にしうる。
臨界サンプリングされたシステムでは、物理的なサンプリング周波数は、オーディオ・フレームの物理的な継続時間と、それに含まれるスペクトル係数の数との比に対応する。前記逆量子化および前記周波数から時間の変換を実行する機能コンポーネント(単数または複数)は、オーディオ・データのデコード可能な集合における係数の物理的な継続時間を知っている必要はない。係数が同じオーディオ・データのデコード可能な集合に属するということだけでよい。第二のフレーム・レートの値は高々5%異なるので、結果として得られる内部サンプリング周波数は(物理的な単位において)ほとんど変化せず、最終的なサンプリング・レート変換において使われる再サンプリング因子は1に近くなる。よって、内部サンプリング周波数が一定しないことは、典型的には、再構成されたオーディオ信号のいかなる知覚可能な劣化にもつながらない。換言すれば、目標サンプリング周波数とはわずかに異なるサンプリング周波数で最適であるよう生成された中間オーディオ信号のわずかなアップサンプリングまたはダウンサンプリングは、音響心理学的に有意ではない。特に、逆量子化および/または周波数から時間の変換を実行する機能コンポーネント(単数または複数)の意図される物理的なサンプリング周波数とその下流の何らかのコンポーネントがチューニングされる物理的なサンプリング周波数との間のいくらかの不一致は、逸脱が限定的である限り、容認されてもよい。
例示的実施形態によれば、ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成するオーディオ処理システムが提供される。本オーディオ処理システムは:N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合するよう構成されたバッファを有し、N≧2である。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。本システムは:前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードするよう構成されたデコード部を有する。該デコードは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる。
例示的実施形態によれば、第二の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
例示的実施形態によれば、N=2またはN=4が成り立ってもよい。すなわち、N個のビットストリーム・フレームは二つまたは四つのビットストリーム・フレームであってもよい。
〈III.概観――トランスコード〉
第三の側面によれば、例示的実施形態は、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システムならびに方法およびコンピュータ・プログラム・プロダクトを提案する。第三の側面に基づく提案されるシステム、方法およびコンピュータ・プログラム・プロダクトは一般に、同じ特徴および利点を共有しうる。さらに、第一および/または第二の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第三の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの対応する特徴についても有効でありうる。
例示的実施形態によれば、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードする方法が提供される。ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含む。本方法は:前記ビットストリームからオーディオ・データのデコード可能な集合を抽出する段階と;オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階とを含む。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。この後、形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームが出力される。任意的に、オーディオ・データの前記デコード可能な集合を処理するステップが、該集合をN個の部分に分解するステップの前に実行される。処理の性質に依存して、これは初期にオーディオ・データを変換表現または波形表現にデコードすることを必要とすることがある。
本方法が、第一の(より低い)フレーム・レートに関連付けられたオーディオ・データのデコード可能な集合を一緒になって担持する、第二の(より高い)フレーム・レートのN個のビットストリーム・フレームを提供できることが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。本方法に従って増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがある。したがって、本方法は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび/またはクロック・ドリフトの補償を容易にすることがありうる。
本方法は、たとえば、オーディオ・データの前記デコード可能な集合の処理されたバージョンを、前記N個の部分に分割することを含んでいてもよい。
例示的実施形態によれば、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするオーディオ処理システムが提供される。ここで、ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含む。本オーディオ処理システムは:前記ビットストリームからオーディオ・データのデコード可能な集合を抽出するよう構成された受領部と;オーディオ・データの前記デコード可能な集合を処理するよう構成された任意的な処理部とを有する。本オーディオ処理システムは:オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階とを実行するよう構成されたフレーム構成し直し部を有する。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。フレーム構成し直し部は、形成されたN個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力するよう構成される。
例示的実施形態によれば、第三の側面の方法のいずれかを実行するためのコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクトが提供される。
例示的実施形態によれば、N=2またはN=4が成り立ってもよい。すなわち、N個のビットストリーム・フレームは二つまたは四つのビットストリーム・フレームであってもよい。
〈IV.概観――コンピュータ可読媒体〉
第四の側面によれば、例示的実施形態は、オーディオ信号を表わすコンピュータ可読媒体を提案する。第一、第二および/または第三の側面に基づくシステム、方法およびコンピュータ・プログラム・プロダクトの特徴について上記で呈示した利点は、一般に、第四の側面に基づくコンピュータ可読媒体の対応する特徴についても有効でありうる。
例示的実施形態によれば、オーディオ信号を表わし、ビットストリーム・フレームにセグメント分割されたコンピュータ可読媒体が提供される。本コンピュータ可読媒体において、前記ビットストリーム・フレームのN個が、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持し、N≧2である。前記オーディオ・データのデコード可能な集合は、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる。それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有する。第一のサンプル数は第二のサンプル数のN倍である。
第二の(より高い)フレーム・レートのN個のビットストリーム・フレームが一緒になって、第一の(より低い)フレーム・レートに関連するオーディオ・データのデコード可能な集合を担持することが、より高いビデオ・フレーム・レートについてオーディオ・ビジュアル同期を、ビットレート消費における対応する増大なしに、維持することを許容する。より精密には、本コンピュータ可読媒体に基づいて増大したフレーム・レートで動作するときのビットレートは、そのようなより高いフレーム・レートをもつ通常のオーディオ・フレームを使うときに必要とされるよりも低いことがありうる。よって、本コンピュータ可読媒体は、たとえば、オーディオビジュアル・データ・ストリームのスプライシングを容易にするおよび/またはクロック・ドリフトの補償を容易にすることがありうる。
オーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持する前記N個のビットストリーム・フレームは、たとえば、N個の連続するビットストリーム・フレームであってもよい。
ある例示的実施形態では、前記N個のビットストリーム・フレームの少なくとも一つが、そこからオーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合するビットストリーム・フレームのグループを指示するメタデータを担持していてもよい。
ある例示的実施形態では、本コンピュータ可読媒体はさらに、オーディオ・データの第二の集合を担持するビットストリーム・フレームを含んでいてもよい。前記オーディオ・データの第二の集合は、少なくとも、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドをもって、オーディオ・データの前記第二の集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる。
本例示的実施形態に基づく、独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームは、たとえば、スプライシング後および/またはフレーム脱落/複製後のビットストリームのデコードを容易にするために、用いられてもよい。
例示的実施形態によれば、N=2またはN=4が成り立ってもよい。すなわち、N個のビットストリーム・フレームは二つまたは四つのビットストリーム・フレームであってもよい。
〈V.例示的実施形態〉
図1は、ある例示的実施形態に基づく、オーディオ信号Xをオーディオ・ビットストリームBとして表現するためのオーディオ処理システム100の一般化されたブロック図である。
オーディオ処理システム100は、エンコード部110およびフレーム構成し直し部120を有する。エンコード部110はオーディオ信号Xのセグメントをオーディオ・データDの一つのデコード可能な集合としてエンコードする。これは少なくとも、オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってオーディオ信号Xの該セグメントに対して信号解析を実行することによる。
オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもって信号解析を実行するとは、信号解析がオーディオ信号Xのある数のサンプルの解析窓内で実行され、オーディオ信号Xの次のセグメントがエンコードされるときには解析窓は基本ストライドと同じサンプル数だけシフトされることを意味する。信号解析はたとえば、重なり合う解析窓をもって実行されてもよい。その場合、解析窓は基本ストライドより長くてもよい。別の例では、解析窓の長さは基本ストライドと一致してもよい。
オーディオ信号Xはここではマルチチャネル・オーディオ信号として例示される。本例示的実施形態では、エンコード部110は、オーディオ信号Xのそのセグメントの周波数領域表現を与えるために、オーディオ信号Xのそのセグメントに、基本ストライドを変換ストライドとした窓掛け変換、たとえば修正離散コサイン変換(MDCT)を適用する。次いで、周波数領域において、エンコード部110はダウンミックス信号(たとえばモノまたはステレオ・ダウンミックス)を、オーディオ信号Xのそれぞれのチャネルの線形結合として計算する。エンコード部110はまた、ダウンミックス信号からのマルチチャネル・オーディオ信号Xのパラメトリック再構成のためのパラメータをも決定する。本例示的実施形態では、オーディオ・データのデコード可能な集合Dは、前記ダウンミックス信号およびパラメトリック再構成のための前記パラメータを含む。
前記パラメータは、たとえば、周波数領域表現の信号解析に基づいて決定されてもよい。この信号解析は、基本ストライドを用いてもよい。すなわち、窓掛け変換と同じストライドを用いてもよい。信号解析(signal analysis)はたとえば、マルチチャネル・オーディオ信号Xのチャネルのエネルギーおよび/または共分散の計算を含んでいてもよい。
パラメトリック再構成のためのパラメータが窓掛け変換とは異なるストライドをもつ信号解析に基づいて決定される実施形態も構想されうる。たとえば、窓掛け変換が基本ストライドより短い変換ストライドをもち、パラメトリック再構成のためのパラメータが基本ストライドでの信号解析に基づいて決定される実施形態が構想されてもよい。
オーディオ・データのデコード可能な集合Dは第一のフレーム・レート、たとえば30fpsおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する。すなわち、データのデコード可能な集合Dは、前記オーディオ信号の第一の数のサンプルを表わし、第一のフレーム・レートに従うフレームに対応する。
フレーム構成し直し部120は、オーディオ・データのデコード可能な集合DをN個の部分D1、D2、…、DNに分解する。これはたとえば、オーディオ・データのデコード可能な集合DをN個の少なくともほぼ均等サイズの部分D1、D2、…、DNに分割することによる。Nはたとえば2または4であってもよく、あるいは2以上の任意の整数であってもよい。
本例示的実施形態では、オーディオ・データのデコード可能な集合Dは前記第一の数のサンプルの周波数領域表現である。よって、オーディオ・データのデコード可能な集合Dが均等サイズの部分D1、D2、…、DNに分割されるとき、これらの部分D1、D2、…、DNは周波数領域表現のそれぞれの部分集合を含んでいてもよい。該部分集合は、必ずしも、オーディオ信号の前記第一の数のサンプルのいかなる特定の部分集合にも対応しない。よって、部分D1、D2、…、DNは、部分D1、D2、…、DNのいずれもN個の部分D1、D2、…、DN全部へのアクセスなしにはデコードできないという意味で、オーディオ・データの不完全な集合である。
フレーム構成し直し部120は、それぞれの部分D1、D2、…、DNを担持するN個のビットストリーム・フレームF1、F2、…、FNを形成する。N個のビットストリーム・フレームF1、F2、…、FNはオーディオ・データのデコード可能な一つの集合Dを表わすので、ビットストリーム・フレームF1、F2、…、FNは、オーディオ・データのデコード可能な集合Dのフレーム・レートのN倍である第二のフレーム・レートを有する。同様に、ビットストリーム・フレームF1、F2、…、FNはそれ自身ではオーディオ信号Xのいずれかのサンプルを表わすものではないが、N個のビットストリーム・フレームF1、F2、…、FNはオーディオ・データのデコード可能な集合Dを表わし、よってフレーム当たり第二の数のサンプルに対応する。ここで、フレーム当たりの第一のサンプル数はフレーム当たりの第二のサンプル数のN倍である。
フレーム構成し直し部120は、形成されたN個のビットストリーム・フレームF1、F2、…、FNをN個の連続するビットストリーム・フレームとして含む諸ビットストリーム・フレームにセグメント分割されたビットストリームBを出力する。
オーディオ・データの部分D1、D2、…、DNに加えて、ビットストリーム・フレームF1、F2、…、FNは、ビットストリーム・フレームF1、F2、…、FNによって担持される部分D1、D2、…、DNからオーディオ・データのデコード可能な集合Dが取得可能であることを示すそれぞれのメタデータμ1、μ2、…、μNをも含む。ビットストリーム・フレームF1、F2、…、FNの各ビットストリーム・フレームのメタデータμ1、μ2、…、μNはたとえば、オーディオ・データのデコード可能な集合Dのどの部分がそのビットストリーム・フレームによって担持されているかを示してもよく、任意的には、オーディオ・データのデコード可能な集合Dの他のN−1個の部分を担持するビットストリーム・フレームをも指示してもよい。
図3および図4は、例示的実施形態に基づく、図1を参照して述べたオーディオ処理システム100によって提供されるビットストリームの例を示す。
図1に示されるオーディオ処理システム100によって出力されるビットストリームBは、ビデオ・フレームのストリームに関連付けられていてもよい。ビットストリームBは図3ではビットストリーム・フレームのストリームA1およびビデオ・フレームのストリームV1によって例示されている。ここで、右向き方向が増大する時間tに対応する。
ビデオ・フレームのストリームV1は、予測された符号化されたビデオ・フレームP(先行フレームのみに依存するフレームおよび/または先行フレームおよび後続フレームの両方に依存するいわゆる双方向フレームを含む)と、独立して符号化されたビデオ・フレームIとを含む。他のオーディオビジュアル・データ・ストリームとのスプライシングおよび/または同期を容易にするために、ビットストリーム・フレームのストリームA1は、ビデオ・フレームと同じフレーム・レートおよび同じ継続時間をもつビットストリーム・フレームを含む。
本例示的実施形態では、N=4であり、オーディオ処理システム100は、オーディオ・データのデコード可能な集合のそれぞれの部分を担持する四つのビットストリーム・フレーム311、312、313、314のグループ310の形でビットストリーム・フレームを提供する。しかしながら、ビデオ・フレームのストリームV1がビデオ・フレームの他のストリームとスプライシングされる場合、スプライシング後のビデオ・フレームのデコードを容易にするため、スプライシングは、独立して符号化されたビデオ・フレームIに隣接する点において実行されてもよい。オーディオ・ビデオ同期を維持するために、ビットストリーム・フレームのストリームA1は、ビデオ・フレームのストリームV1と同じスプライシング点においてスプライシングされてもよい。
別のビットストリーム・フレームのストリームとのスプライシング後のビットストリーム・フレームのデコードを容易にするために、オーディオ処理システム100は、独立して符号化されたビデオ・フレームIに時間的に関係したオーディオ信号Xのセグメントを、オーディオ・データのデコード可能な集合としてエンコードする。これは、オーディオ信号Xの前記第二のサンプル数に対応する短縮された変換ストライドを用いて信号解析を適用することによる。前記第二のサンプル数はたとえば、独立して符号化されたビデオIフレームの継続時間に対応してもよい。
基本ストライドでの信号解析が用いられるエンコードと同様に、短縮されたストライドでの信号解析を用いるエンコードは、短縮されたストライドを変換ストライドとしてもつ窓掛け変換、たとえばMDCTを適用し、ダウンミックス信号からのオーディオ信号のそのセグメントのパラメトリック再構成のためのパラメータを決定することを含んでいてもよい。ここで、パラメータは、短縮されたストライドでの信号解析に基づいて決定される。短縮されたストライドに関連するオーディオ・データのデコード可能な集合は、ダウンミックス信号およびパラメータを含んでいてもよい。
オーディオ処理システム100は、オーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム321を含む。該デコード可能な集合は、他のビットストリーム・フレームによって担持されるオーディオ・データへのアクセスなしに独立してデコードされうる。ビットストリーム・フレームのストリームA1において、ビットストリーム・フレーム321には、オーディオ・データのデコード可能な集合のそれぞれの部分を担持する四つのビットストリーム・フレーム331、332、333、334のもう一つのグループ330が続く。
オーディオ処理システム100はたとえば、短縮されたストライドでの信号解析を適用することによってオーディオ信号Xの諸セグメントをエンコードするよう構成された追加的なエンコード部(図1には示さず)を有していてもよい。あるいはまた、エンコード部110が、短縮されたストライドを用いるよう動作可能であってもよく、フレーム構成し直し部120は、短縮されたストライドに関連するオーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム321を、ビットストリームBに含めるよう動作可能であってもよい。
図3を参照して述べた例では、ある種の位置における独立して符号化されたビデオ・フレームIの存在が、短縮された変換ストライドに関連するオーディオ・データのデコード可能な集合を担持するビットストリーム・フレーム321を、四つのビットストリーム・フレームのグループ310、330の間に含めることによって扱われてもよい。しかしながら、少なくともいくつかの例示的なシナリオでは、独立して符号化されたビデオ・フレームIの位置は先験的には知られていないことがあり、および/または独立して符号化されたビデオ・フレームIは、四つのビットストリーム・フレームのグループの間の位置に一致しない位置に現われることがある。そのようなシナリオは図4に示されている。
ビットストリームBおよびビデオ・フレームの関連するストリームは図4では、ビットストリーム・フレームの別のビットストリームA2およびビデオ・フレームの別のストリームV2によって例示されている。ここで、時間tは右向きに伝搬する。
図3を参照して述べた例示的なシナリオと同様に、ビットストリーム・フレームは、オーディオ処理システム100によって、四つのビットストリーム・フレームのグループ410、430の形で提供される。しかしながら、ひとたびビデオ・フレームのストリームV2において独立して符号化されたビデオ・フレームIが検出されたら、四つの連続するビットストリーム・フレーム421、422、423、424がオーディオ処理システム100によって、各フレームについて短縮されたストライドを用いて、エンコードされる。ビデオ・フレームのストリームV2における独立して符号化されたビデオ・フレームIの位置に依存して、独立して符号化されたビデオ・フレームIは、短縮された変換ストライドを使って提供される四つのビットストリーム・フレームのグループ421、422、423、424のいずれかに対応しうる。今のシナリオでは、独立して符号化されたビットストリーム・フレーム423は、基本ストライドを使ってエンコードされたビットストリームA2における四つのビットストリーム・フレームのいずれかのグループに対するビデオ・フレームのストリームV2中での独立して符号化されたビデオ・フレームIの位置に関わりなく、独立して符号化されたビデオIに対応するビットストリームA2中の位置に与えられてもよい。今のシナリオでは、ビデオ・フレームのストリームV2における独立して符号化されたビデオ・フレームIの存在に関わりなく、ビットストリーム・フレームは四つのビットストリーム・フレームのグループの形で編成される。
図2は、ある実施形態に基づく、オーディオ信号をオーディオ・ビットストリームによって表現する方法200のフローチャートである。方法110はここでは、図1を参照して述べたオーディオ・エンコード・システム100によって実行される方法によって例示される。
方法200は、ビデオ・フレームのストリームV1の現在フレームが独立して符号化されているかどうかを検出すること210を含む。フローチャートにおいてNによって示されるように、現在フレームが独立して符号化されているのでなければ、方法200は、少なくとも基本ストライドでの信号解析を用いることによって、オーディオ信号Xのセグメントをオーディオ・データのデコード可能な集合Dとしてエンコードし220;オーディオ・データのデコード可能な集合DをN個の部分D1、D2、…、DNに分解し230;それぞれの部分D1、D2、…、DNを担持するN個のビットストリーム・フレームF1、F2、…、FNを形成し240;形成されたビットストリーム・フレームF1、F2、…、FNをビットストリームBの一部として出力する250ことによって続けられる。方法200は次いで、オーディオ信号Xの他のセグメントのエンコードに戻る。
他方、フローチャートにおいてYによって示されるように、ビデオ・フレームのストリームV1の現在フレームが独立して符号化されている場合には、方法200は、上記の代わりに、少なくとも短縮されたストライドでの信号解析を用いることによって、オーディオ信号Xのセグメントをオーディオ・データのデコード可能な集合Dとしてエンコードし260;オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームをビットストリームBに含める270ことによって続けられる。方法200は次いで、オーディオ信号Xの他のセグメントのエンコードに戻る。
図5は、ある例示的実施形態に基づく、ビットストリームによって表現されているオーディオ信号を再構成するためのオーディオ処理システム500の一般化されたブロック図である。
本例示的実施形態では、ビットストリームは、図1を参照して述べたオーディオ処理システム100によって出力されるビットストリームBによって例示される。下記では、オーディオ処理システム500によって受領される前にたとえばフレーム脱落および/またはフレーム複製によって修正されているビットストリームをオーディオ処理システム500が受領する例示的実施形態も記述される。
オーディオ処理システム500は、バッファ510およびデコード部520を有する。バッファ510はそれぞれのビットストリーム・フレームF1、F2、…、FNによって担持されるオーディオ・データの集合D1、D2、…、DNを、第一のフレーム・レート、たとえば30fpsおよびフレーム当たりオーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合Dに結合する。図1を参照して述べたように、ビットストリーム・フレームF1、F2、…、FNはビットストリーム・フレーム当たりオーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、第一のサンプル数は第二のサンプル数のN倍である。バッファ510は、結合されるべきオーディオ・データの集合D1、D2、…、DNを担持するフレームF1、F2、…、FNを識別するために、ビットストリーム・フレームによって担持されるメタデータμ1、μ2、…、μNを用いる。
デコード部520は、図1を参照して述べた基本ストライド、すなわちオーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってオーディオ・データのデコード可能な集合Dに基づいて信号合成を用いることによって、オーディオ・データのデコード可能な集合Dをオーディオ信号Xのセグメントにデコードする。オーディオ処理システム500は、オーディオ信号の再構成されたバージョン〔チルダ付きX〕を出力する。
図1を参照して述べたように、オーディオ信号Xはマルチチャネル・オーディオ信号であり、オーディオ・データのデコード可能な集合Dは、ダウンミックス信号と、オーディオ信号Xのパラメトリック再構成のための関連するアップミックス・パラメータとを含む。デコード部520は、基本ストライドを用いて、オーディオ信号Xのセグメントの周波数領域表現のパラメトリック再構成を実行する。デコード部520は、次いで、オーディオ信号Xのセグメントの時間領域表現を得るために変換ストライドとして基本ストライドをもつ窓掛け変換、たとえば逆MDCTを適用する。
パラメトリック再構成が窓掛け変換とは異なるストライドをもって実行される実施形態も構想されうる。たとえば、窓掛け変換が基本ストライドより短い変換ストライドを用い、パラメトリック再構成が基本ストライドをもって実行される実施形態が構想されてもよい。
図3および図4を参照して述べたように、ビットストリームBはオーディオ・データのデコード可能な集合、すなわち短縮されたストライドを用いることによって互いとは独立してデコード可能なオーディオ・データの諸集合を担持するビットストリーム・フレームを含んでいてもよい。オーディオ処理システム500はたとえば、短縮されたストライドを用いてオーディオ・データのデコード可能な集合をデコードするよう構成された追加的なデコード部(図5には示さず)を有していてもよい。あるいはまた、デコード部520が、短縮されたストライドを使ってオーディオ・デコーダのそのようなデコード可能な集合をデコードするよう動作可能であってもよく、バッファ510がオーディオ・データのそのようなデコード可能な集合を、他のビットストリーム・フレームからのオーディオ・データと結合することなく、デコード部520に転送するよう動作可能であってもよい。
短縮されたストライドを使ってデコードされたオーディオ信号Xのセグメントと基本ストライドを使ってデコードされたオーディオ信号Xのセグメントとの間のなめらかな切り換えを許容するために、オーディオ処理システム500はたとえば、遅延を設けてもよい。それにより、前記第二のフレーム・レートでの、すなわち短縮されたストライドを用いてのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、それらのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了する。バッファ510は、たとえば、そのような遅延を、オーディオ・データのデコード可能な集合をデコード部520への伝送前にバッファリングすることによって提供してもよい。あるいはまた、デコード部520が、該遅延を、オーディオ信号Xの再構成されたセグメントを、出力として与える前にバッファリングすることによって提供してもよい。
図1を参照して述べたオーディオ処理システム100によって出力されるオーディオ・ビットストリームBは、図5を参照して述べるオーディオ処理システム500によって受領される前に、たとえば他のビットストリームとのスプライシングによって、あるいはフレームのフレーム脱落/複製によって、修正されていてもよい。
図3を参照して述べたように、ビットストリーム・フレームは、ビデオ・フレームの関連するストリームV1における対応するビデオ・フレームと同じ継続時間を有していてもよい。オーディオビジュアル・データ・ストリームにおいてそのような同期されたオーディオ・ストリームA1およびビデオ・ストリームV1を用いることは、オーディオビジュアル・ストリームのスプライシングおよび/または同期を容易にする。
スプライシングを実行する装置またはコンポーネントは、スプライシング前または後にそれぞれの後にどの型のビットストリーム・フレームが配置されるかを考慮に入れる必要がないことがある。その代わり、オーディオ処理システム500は、オーディオ・データのデコード可能な集合Dのそれぞれの部分D1、D2、…、DNを担持するグループのN個のビットストリーム・フレームF1、F2、…、FNのいくつかが、たとえばスプライシングおよび/またはフレーム脱落/複製のために、受領されたビットストリームBにおいて欠けている状況に対処するよう適応されていてもよい。オーディオ処理システム500は、たとえばそれぞれのビットストリーム・フレームF1、F2、…、FNによって担持されるメタデータμ1、μ2、…、μNに基づいて、ビットストリーム・フレームが欠けていることを検出するよう構成されていてもよい。
ひとたびデコードのために必要とされるビットストリーム・フレームが欠けていることが検出されたら、オーディオ処理システム500はたとえば、オーディオ信号Xのデコードを続けるために、誤り隠蔽戦略を用いてもよい。隠蔽戦略はたとえば、ビットストリーム・フレームの不完全なグループ、すなわち受領されたビットストリームにおいて一つまたは複数のビットストリーム・フレームが欠けているグループにおいて、ビットストリーム・フレームによって担持されるオーディオ・データを無音によって(たとえばオーディオ信号Xについての周波数領域係数としての0によって)置き換えることを含んでいてもよい。オーディオ信号Xのデコード可能なセグメントとオーディオ信号Xのデコード可能でないセグメントを置換する無音との間の、聴取者によって知覚される、よりなめらかな遷移を与えるために、フェードアウトおよび/またはフェードインがたとえばオーディオ処理システム500によって用いられてもよい。
いくつかの例示的実施形態では、オーディオ処理システム500は、第二のフレーム・レートについての少なくとも二つの異なるあらかじめ定義された値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられているビットストリームを受け入れてもよい。このことは表1において、第二のフレーム・レートについての値59.940fpsおよび60.000fpsならびにフレーム当たりの第二のサンプル数についての共通の値768によって例示されている。そのようなフレーム・レートは、これらのフレーム・レートをもつビデオ・ストリームに関連するオーディオ・ストリームにとって有用であることがありうる。
Figure 0006728154
本例において、第二のフレーム・レートの値の相違は5%未満である。オーディオ処理システム500は、第二のフレーム・レートのこれら二つの異なる値について基本ストライドについてと同じ値を用いてオーディオ信号Xをデコードするよう適応されてもよい。出願人の同時係属中の未公開の特許出願PCT/EP2014/056848に記載されているように(特に同出願の節〈II.例示的実施形態〉の図1および表1を記述する部分を参照)、第二のフレーム・レートにおける相違によって引き起こされるデコード部520の内部サンプリング周波数の変動は典型的にはあまりに小さいことがあり、相変わらず、聴取者によって知覚される再構成されたオーディオ信号Xの受け入れ可能な再生品質がオーディオ処理システム500によって提供されうる。5%未満異なる第二のフレーム・レートの表1におけるもう一つの例は、第二のフレーム・レートについての値119.880fpsおよび120.000fpsならびにフレーム当たりの第二のサンプル数についての共通の値384によって与えられる。
表1に示されるように、ビデオ・フレーム・レートが60.00fpsである場合、第二のフレーム・レート60.000fpsをもつN=2個のビットストリーム・フレームが、第一のフレーム・レート30.000fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。同様に、ビデオ・フレーム・レートが59.940fpsである場合、第二のフレーム・レート59.940をもつN=2個のビットストリーム・フレームが、第一のフレーム・レート29.970fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。表1は、ビデオ・フレーム・レートが120fpsである場合、第二のフレーム・レート120.000をもつN=4個のビットストリーム・フレームが、第一のフレーム・レート30.000fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうることも示している。同様に、ビデオ・フレーム・レートが119.880fpsである場合、第二のフレーム・レート119.880fpsをもつN=4個のビットストリーム・フレームが、第一のフレーム・レート29.970fpsをもつオーディオ・データの一つのデコード可能な集合を表わすために用いられうる。
図6は、ある例示的実施形態に基づく、ビットストリームによって表現されるオーディオ信号を再構成するオーディオ処理方法600のフローチャートである。方法600はここでは、図5を参照して述べたオーディオ処理システム500によって実行される方法によって例示される。
方法600は、受領されたビットストリーム・フレームが、第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する610ことを含む。
フローチャートにおいてNによって示されるように、否定的である場合には、方法600は、N個のそれぞれのビットストリーム・フレームF1、F2、…、FNによって担持されるオーディオ・データの集合D1、D2、…、DNを、第一のフレーム・レートおよびフレーム当たりのオーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合Dに結合し620;少なくとも、オーディオ信号Xの第一のサンプル数に対応する基本ストライドをもってデータのデコード可能な集合Dに基づいて信号合成を用いることによって、オーディオ・データのデコード可能な集合Dをオーディオ信号Xのセグメントにデコードする630ことによって続けられる。次いで、方法600は、次の受領されたビットストリーム・フレームがオーディオ・データのデコード可能な集合を担持するかどうかを検出する610ことに戻る。
フローチャートにおいてYによって示されるように、肯定的である場合には、方法600は、上記の代わりに、第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を、少なくとも、オーディオ信号Xの第二のサンプル数に対応する短縮されたストライドを用いることによって、オーディオ・データXのセグメントにデコードすること640によって続けられる。次いで、方法600は、次の受領されたビットストリーム・フレームがオーディオ・データのデコード可能な集合を担持するかどうかを検出する610ことに戻る。
図7は、ある例示的実施形態に基づく、オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするためのオーディオ処理システム700の一般化されたブロック図である。
オーディオ処理システム700は、受領部710と、任意的な処理部720と、フレーム構成し直し部730とを有する。受領部710は、たとえば図1を参照して述べた、第一のフレーム・レートおよびフレーム当たりのオーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合Dのシーケンスを含むビットストリームB1を受領する。受領部710は、ビットストリームB1からオーディオ・データのデコード可能な集合Dを抽出する。
(任意的な)処理部720は、オーディオ・データのデコード可能な集合Dを処理する。処理の性質に依存して、これは、初期にオーディオ・データを変換表現または波形表現にデコードすることを必要とすることがある;次いで、処理部720は信号合成、処理、信号解析というシーケンスを実行してもよい。
フレーム構成し直し部730は、オーディオ・データの処理されたデコード可能な集合DをN個の部分D1、D2、…、DNに分解し、それぞれの部分D1、D2、…、DNを担持するN個のビットストリーム・フレームF1、F2、…、FNを形成する。本例示的実施形態では、フレーム構成し直し部730は、図1を参照して述べたオーディオ処理システム100におけるフレーム構成し直し部120と同じ動作を実行する。よって、ビットストリーム・フレームF1、F2、…、FNは、ビットストリーム・フレーム当たりオーディオ信号の第二のサンプル数に対応する第二のフレーム・レートをもち、フレーム構成し直し部730は、形成されたビットストリーム・フレームF1、F2、…、FNを含むビットストリーム・フレームにセグメント分割されたビットストリームB2を出力する。
オーディオ処理システム700によって出力されるビットストリームB2はたとえば、図1を参照して述べたオーディオ処理システム100によって出力されるビットストリームBと一致してもよい。オーディオ処理システム700によって受領されるビットストリームB1はたとえば、当技術分野で既知のオーディオ・エンコーダによって提供される30fpsのオーディオ・ビットストリームであってもよい。
図1および図5を参照して記述したビットストリームBおよび図3を参照して記述したビットストリーム・フレームのビットストリームA1は、例示的実施形態に基づく、オーディオ信号Xを表わし、ビットストリーム・フレームにセグメント分割されているコンピュータ可読媒体の例であることは理解されるであろう。
Nが1より大きな任意の整数でありうることも理解されるであろう。
〈VI.等価物、拡張、代替その他〉
本開示は特定の例示的実施形態を記述し、図示しているが、本発明はそうした特定の例に制約されるものではない。上記の例示的実施形態に対する修正および変形が、付属の請求項によってのみ定義される本発明の範囲から外れることなく、なされることができる。
請求項において、単語「有する/含む」は、他の要素やステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項において記載されているというだけの事実が、それらの施策の組み合わせが有利に使用できないことを示すものではない。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
上記で開示された装置および方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。むしろ、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって分散式に実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル・プロセッサ、信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。
いくつかの態様を記載しておく。
〔態様1〕
オーディオ信号をオーディオ・ビットストリームとして表現する方法であって:
前記オーディオ信号のセグメントを、少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって、オーディオ・データの一つのデコード可能な集合としてエンコードする段階であって、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、段階と;
前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と;
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを含む、
方法。
〔態様2〕
前記信号解析を実行することは、前記基本ストライドをもって:
スペクトル解析;
エネルギー解析;
エントロピー解析
からなる群のうちの少なくとも一つを実行することを含む、態様1記載の方法。
〔態様3〕
前記オーディオ信号のセグメントをエンコードすることは:
前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;
ダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することであって、前記パラメータは、前記信号解析に基づいて計算される、こと
からなる群のうちの少なくとも一つを含む、態様1または2記載の方法。
〔態様4〕
前記諸部分を担持する前記N個のビットストリーム・フレームのうちの少なくとも一つにメタデータを含めることをさらに含み、前記メタデータは、オーディオ・データの完全なデコード可能な集合が、前記N個のビットストリーム・フレームによって担持される前記諸部分から取得可能であることを示す、
態様1ないし3のうちいずれか一項記載の方法。
〔態様5〕
前記オーディオ・ビットストリームはビデオ・フレームのストリームに関連付けられており、当該方法はさらに:
ビデオ・フレームの前記ストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによって、オーディオ・データの第二のデコード可能な集合としてエンコードする段階であって、前記オーディオ・データの第二のデコード可能な集合は前記第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の前記第二のサンプル数に対応する、段階と;
前記オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階とを含む、
態様1ないし4のうちいずれか一項記載の方法。
〔態様6〕
ビデオ・フレームの前記ストリームが前記ある型のビデオ・フレームを有することに応答して、前記オーディオ信号のN個の連続するセグメントを、オーディオ・データのそれぞれのデコード可能な集合としてエンコードする段階であって、該エンコードが、前記N個の連続したセグメントのそれぞれについて、少なくとも、前記短縮されたストライドを用いて信号解析を適用することによって行なわれ、前記ビデオ・フレームに時間的に関係した前記セグメントは、前記N個の連続したセグメントのうちの一つである、段階と;
前記N個の連続したセグメントに関連付けられたオーディオ・データのそれぞれのデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階とを含む、
態様5記載の方法。
〔態様7〕
オーディオ信号をオーディオ・ビットストリームによって表現するためのオーディオ処理システムであって:
前記オーディオ信号のセグメントを、オーディオ・データの一つのデコード可能な集合としてエンコードするよう構成されたエンコード部であって、該エンコードは少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって行なわれ、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、エンコード部と;
フレーム構成し直し部とを有しており、前記フレーム構成し直し部は:
前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と;
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを実行するよう構成される、
システム。
〔態様8〕
ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成する方法であって:
N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合する段階であって、N≧2であり、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と;
前記オーディオ・データのデコード可能な集合を、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階とを含む、
方法。
〔態様9〕
前記オーディオ・データのデコード可能な集合をデコードすることは:
前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;
前記オーディオ・データのデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号の前記セグメントの、前記基本ストライドでのパラメトリック再構成を実行すること
からなる群のうちの少なくとも一つを含む、
態様8記載の方法。
〔態様10〕
オーディオ・データの諸集合が結合されてオーディオ・データのデコード可能な集合にされるもとになる前記N個のビットストリーム・フレームは、N個の連続するビットストリーム・フレームである、態様8または9記載の方法。
〔態様11〕
前記ビットストリーム中のビットストリーム・フレームの少なくともいくつかによって担持されるメタデータに基づいて、ビットストリーム・フレームのグループを決定する段階であって、該グループは、該グループから、オーディオ・データの不完全な前記諸集合を結合して、前記オーディオ・データのデコード可能な集合にするためのグループである、
態様8ないし10のうちいずれか一項記載の方法。
〔態様12〕
あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する段階と;
前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、少なくとも、前記第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階とをさらに含む、
態様8ないし11のうちいずれか一項記載の方法。
〔態様13〕
前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合をデコードすることは:遅延を設けることを含み、該遅延は、前記第二のフレーム・レートでのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、N個のビットストリーム・フレームのそのグループのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了するような遅延である、態様12記載の方法。
〔態様14〕
前記遅延は、前記第二のフレーム・レートに対応するオーディオ・データの少なくとも一つのデコード可能な集合をバッファリングすることまたは前記オーディオ信号の少なくとも一つのセグメントをバッファリングすることによって提供される、態様13記載の方法。
〔態様15〕
前記ビットストリームは、前記第二のフレーム・レートに一致するフレーム・レートをもつビデオ・フレームのストリームに関連付けられている、態様8ないし14のうちいずれか一項記載の方法。
〔態様16〕
前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて前記オーディオ信号のセグメントをデコードすることは:
前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に対応する量子化されたスペクトル係数を受領する段階と;
逆量子化およびそれに続く周波数から時間への変換を実行する段階であって、それにより中間オーディオ信号の表現が得られる段階と;
前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理ステップを実行する段階と;
処理されたオーディオ信号のサンプリング・レートを目標サンプリング周波数に変える段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含む、
態様8ないし15のうちいずれか一項記載の方法。
〔態様17〕
前記第二のフレーム・レートについての少なくとも二つの異なる値に関連付けられているが、フレーム当たりの前記第二のサンプル数についての共通の値に関連付けられている複数のビットストリームを受け入れる、態様16記載の方法であって、前記第二のフレーム・レートのそれぞれの値は高々5%異なり、前記周波数から時間の変換は、前記第二のフレーム・レートについての前記少なくとも二つの異なる値について、前記基本ストライドについての共通のあらかじめ定義された値を変換ストライドとしてもつ窓掛け変換を用いるよう構成された機能コンポーネントにおいて実行される、方法。
〔態様18〕
ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成するオーディオ処理システムであって:
N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合するよう構成されたバッファであって、N≧2であり、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、バッファと;
前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードするよう構成されたデコード部であって、該デコードは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる、デコード部とを有する、
システム。
〔態様19〕
オーディオ信号を表わすオーディオ・ビットストリームをトランスコードする方法であって、前記ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含み、当該方法は:
前記ビットストリームからオーディオ・データのデコード可能な集合を抽出する段階と;
オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と;
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを含む、
方法。
〔態様20〕
オーディオ信号を表わすオーディオ・ビットストリームをトランスコードするオーディオ処理システムであって、前記ビットストリームは、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データのデコード可能な諸集合のシーケンスを含み、当該オーディオ処理システムは:
前記ビットストリームからオーディオ・データのデコード可能な集合を抽出するよう構成された受領部と;
フレーム構成し直し部とを有し、前記フレーム構成し直し部は:
オーディオ・データの前記デコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階と;
前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを実行するよう構成される、
システム。
〔態様21〕
態様1ないし6、8ないし17および19のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
〔態様22〕
ビットストリーム・フレームにセグメント分割された、オーディオ信号を表わすコンピュータ可読媒体であって、
前記ビットストリーム・フレームのN個が、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合できる、オーディオ・データのそれぞれの集合を担持し、N≧2であり;
前記オーディオ・データのデコード可能な集合は、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができ;
それらのビットストリーム・フレームは、ビットストリーム・フレーム当たり前記オーディオ信号の第二のサンプル数に対応する第二のフレーム・レートを有し;
前記第一のサンプル数は前記第二のサンプル数のN倍である、
コンピュータ可読媒体。
〔態様23〕
前記N個のビットストリーム・フレームの少なくとも一つが、そこからオーディオ・データの諸集合をオーディオ・データのデコード可能な集合に結合するビットストリーム・フレームのグループを指示するメタデータを担持する、態様22記載のコンピュータ可読媒体。
〔態様24〕
オーディオ・データの第二の集合を担持するビットストリーム・フレームをさらに含み、前記オーディオ・データの第二の集合は、少なくとも、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドをもって、オーディオ・データの前記第二の集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードされることができる、態様22または23記載のコンピュータ可読媒体。
〔態様25〕
N=2またはN=4である、態様1ないし6、8ないし17および19のうちいずれか一項記載の方法、態様7、18および20のうちいずれか一項記載のシステム、態様21記載のコンピュータ・プログラム・プロダクトまたは態様22ないし24のうちいずれか一項記載のコンピュータ可読媒体。

Claims (20)

  1. オーディオ信号をオーディオ・ビットストリームとして表現する方法であって:
    前記オーディオ信号のセグメントを、少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって、オーディオ・データの一つのデコード可能な集合としてエンコードする段階であって、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、段階と;
    前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
    それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、前記N個のビットストリーム・フレームは、前記オーディオ・データのデコード可能な集合を表わし、フレーム当たり前記オーディオ信号の第二のサンプル数に対応し、フレーム当たりの前記第一のサンプル数はフレーム当たりの前記第二のサンプル数のN倍であり、前記N個のビットストリーム・フレームは、前記第一のフレーム・レートのN倍である第二のフレーム・レートをもつ、段階と;
    前に形成された前記N個のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階とを含み、
    当該方法はさらに:
    ビデオ・フレームのストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の前記第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによって、オーディオ・データの第二のデコード可能な集合としてエンコードする段階であって、前記オーディオ・データの第二のデコード可能な集合は前記第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の前記第二のサンプル数に対応する、段階と;
    前記オーディオ・データの第二のデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階であって、前記ビットストリーム・フレームは独立して前記オーディオ信号のセグメントまたはサブセグメントにデコード可能である、段階とを含む、
    方法。
  2. 前記信号解析を実行することは、前記基本ストライドをもって:
    スペクトル解析;
    エネルギー解析;
    エントロピー解析
    からなる群のうちの少なくとも一つを実行することを含む、請求項1記載の方法。
  3. 前記オーディオ信号のセグメントをエンコードすることは:
    前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;
    ダウンミックス信号と、該ダウンミックス信号からの前記オーディオ信号のパラメトリック再構成のためのパラメータとを計算することであって、前記パラメータは、前記信号解析に基づいて計算される、こと
    からなる群のうちの少なくとも一つを含む、請求項1または2記載の方法。
  4. 前記諸部分を担持する前記N個のビットストリーム・フレームのうちの少なくとも一つにメタデータを含めることをさらに含み、前記メタデータは、オーディオ・データの完全なデコード可能な集合が、前記N個のビットストリーム・フレームによって担持される前記諸部分から取得可能であることを示す、
    請求項1ないし3のうちいずれか一項記載の方法。
  5. ビデオ・フレームの前記ストリームが前記ある型のビデオ・フレームを有することに応答して、前記オーディオ信号のN個の連続するセグメントを、オーディオ・データのそれぞれのデコード可能な集合としてエンコードする段階であって、該エンコードが、前記N個の連続したセグメントのそれぞれについて、少なくとも、前記短縮されたストライドを用いて信号解析を適用することによって行なわれ、前記ビデオ・フレームに時間的に関係した前記セグメントは、前記N個の連続したセグメントのうちの一つである、段階と;
    前記N個の連続したセグメントに関連付けられたオーディオ・データのそれぞれのデコード可能な集合を担持するビットストリーム・フレームを前記ビットストリームに含める段階とを含む、
    請求項1ないし4のうちいずれか一項記載の方法。
  6. オーディオ信号をオーディオ・ビットストリームによって表現するためのオーディオ処理システムであって:
    前記オーディオ信号のセグメントを、オーディオ・データの一つのデコード可能な集合としてエンコードするよう構成されたエンコード部であって、該エンコードは少なくとも、前記オーディオ信号の第一のサンプル数に対応する基本ストライドをもって前記オーディオ信号の前記セグメントに対して信号解析を実行することによって行なわれ、前記オーディオ・データのデコード可能な集合は第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応する、エンコード部と;
    ビデオ・フレームのストリームがある型のビデオ・フレームを有することに応答して、前記ビデオ・フレームに時間的に関係した前記オーディオ信号のセグメントを、少なくとも、前記ビデオ・フレームに時間的に関係した前記オーディオ信号の前記セグメントに対して、前記オーディオ信号の第二のサンプル数に対応する短縮されたストライドを用いて信号解析を実行することによって、オーディオ・データの第二のデコード可能な集合としてエンコードするよう構成されたさらなるエンコード部であって、前記オーディオ・データの第二のデコード可能な集合は前記第一のフレーム・レートのN倍である第二のフレーム・レートおよびフレーム当たりの前記オーディオ信号の前記第二のサンプル数に対応する、さらなるエンコード部と;
    フレーム構成し直し部とを有しており、前記フレーム構成し直し部は:
    前記オーディオ・データのデコード可能な集合をN個の部分に分解する段階であって、N≧2である、段階と;
    それぞれの部分を担持するN個のビットストリーム・フレームを形成する段階であって、前記N個のビットストリーム・フレームは、前記オーディオ・データのデコード可能な集合を表わし、フレーム当たり前記オーディオ信号の第二のサンプル数に対応し、フレーム当たりの前記第一のサンプル数はフレーム当たりの前記第二のサンプル数のN倍であり、それらのビットストリーム・フレームは、前第一のフレーム・レートのN倍である前記第二のフレーム・レートをもつ、段階と;
    前に形成された前記N個のビットストリーム・フレームを含み、前記オーディオ・データの第二のデコード可能な集合を担持するビットストリーム中のビットストリーム・フレームを含むビットストリーム・フレームにセグメント分割されたビットストリームを出力する段階であって、前記ビットストリーム・フレームは独立して前記オーディオ信号のセグメントまたはサブセグメントにデコード可能である、段階とを実行するよう構成される、
    システム。
  7. ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成する方法であって:
    N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合する段階であって、N≧2であり、前記N個のビットストリーム・フレームは、前記オーディオ・データのデコード可能な集合を表わし、フレーム当たり前記オーディオ信号の第二のサンプル数に対応し、フレーム当たりの前記第一のサンプル数はフレーム当たりの前記第二のサンプル数のN倍であり、それらのビットストリーム・フレームは、前第一のフレーム・レートのN倍である第二のフレーム・レートをもつ、段階と;
    前記オーディオ・データのデコード可能な集合を、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階とを含み、
    当該方法はさらに:
    あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する段階と;
    前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、少なくとも、第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階であって、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階とをさらに含む、
    方法。
  8. 前記オーディオ・データのデコード可能な集合をデコードすることは:
    前記基本ストライドを変換ストライドとしてもつ窓掛け変換を適用すること;
    前記オーディオ・データのデコード可能な集合から得られるダウンミックス信号および関連するパラメータに基づいて、前記オーディオ信号の前記セグメントの、前記基本ストライドでのパラメトリック再構成を実行すること
    からなる群のうちの少なくとも一つを含む、
    請求項7記載の方法。
  9. オーディオ・データの諸集合が結合されてオーディオ・データのデコード可能な集合にされるもとになる前記N個のビットストリーム・フレームは、N個の連続するビットストリーム・フレームである、請求項7または8記載の方法。
  10. 前記ビットストリーム中のビットストリーム・フレームの少なくともいくつかによって担持されるメタデータに基づいて、ビットストリーム・フレームのグループを決定する段階であって、該グループは、該グループから、オーディオ・データの不完全な前記諸集合を結合して、前記オーディオ・データのデコード可能な集合にするためのグループである、
    請求項7ないし9のうちいずれか一項記載の方法。
  11. 前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合をデコードすることは:遅延を設けることを含み、該遅延は、前記第二のフレーム・レートでのN個の連続するビットストリーム・フレームのグループのデコードは、あたかも、N個のビットストリーム・フレームのそのグループのビットストリーム・フレームがそれぞれオーディオ・データのデコード可能な集合に結合することを必要とするオーディオ・データの諸集合を担持していたかのように、同時に完了するような遅延である、請求項7ないし10のうちいずれか一項記載の方法。
  12. 前記遅延は、前記第二のフレーム・レートに対応するオーディオ・データの少なくとも一つのデコード可能な集合をバッファリングすることまたは前記オーディオ信号の少なくとも一つのセグメントをバッファリングすることによって提供される、請求項11記載の方法。
  13. 前記ビットストリームは、前記第二のフレーム・レートに一致するフレーム・レートをもつビデオ・フレームのストリームに関連付けられている、請求項7ないし12のうちいずれか一項記載の方法。
  14. 前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて前記オーディオ信号のセグメントをデコードすることは:
    前記第一のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に対応する量子化されたスペクトル係数を受領する段階と;
    逆量子化およびそれに続く周波数から時間への変換を実行する段階であって、それにより中間オーディオ信号の表現が得られる段階と;
    前記中間オーディオ信号に対して周波数領域で少なくとも一つの処理ステップを実行する段階と;
    処理されたオーディオ信号のサンプリング・レートを目標サンプリング周波数に変える段階であって、それにより再構成されたオーディオ信号の時間領域表現が得られる、段階とを含む、
    請求項7ないし13のうちいずれか一項記載の方法。
  15. 前記第二のフレーム・レートについての少なくとも二つの異なる値に関連付けられているが、フレーム当たりの前記第一のサンプル数についての共通の値に関連付けられている複数のビットストリームを受け入れる、請求項14記載の方法であって、前記第二のフレーム・レートのそれぞれの値は高々5%異なり、前記周波数から時間の変換は、前記第二のフレーム・レートについての前記少なくとも二つの異なる値について、前記基本ストライドについての共通のあらかじめ定義された値を変換ストライドとしてもつ窓掛け変換を用いるよう構成された機能コンポーネントにおいて実行される、方法。
  16. ビットストリーム・フレームにセグメント分割されたビットストリームによって表わされるオーディオ信号を再構成するオーディオ処理システムであって:
    N個のそれぞれのビットストリーム・フレームによって担持されるオーディオ・データの諸集合を、第一のフレーム・レートおよびフレーム当たり前記オーディオ信号の第一のサンプル数に対応するオーディオ・データの一つのデコード可能な集合に結合するよう構成されたバッファであって、N≧2であり、前記N個のビットストリーム・フレームは、前記オーディオ・データのデコード可能な集合を表わし、フレーム当たり前記オーディオ信号の第二のサンプル数に対応し、フレーム当たりの前記第一のサンプル数はフレーム当たりの前記第二のサンプル数のN倍であり、それらのビットストリーム・フレームは、前第一のフレーム・レートのN倍である第二のフレーム・レートをもつ、バッファと;
    前記オーディオ・データのデコード可能な集合を前記オーディオ信号のセグメントにデコードするよう構成されたデコード部であって、該デコードは、少なくとも、前記オーディオ信号の前記第一のサンプル数に対応する基本ストライドをもって、前記データのデコード可能な集合に基づいて信号合成を用いることによる、デコード部とを有しており、
    当該オーディオ処理システムは:
    あるビットストリーム・フレームが、前記第二のフレーム・レートに対応するオーディオ・データのデコード可能な集合を担持するかどうかを検出する段階と;
    前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合を、少なくとも、第二のサンプル数に対応する短縮されたストライドをもって、前記第二のフレーム・レートに対応する前記オーディオ・データのデコード可能な集合に基づいて信号合成を用いることによって、前記オーディオ信号のセグメントにデコードする段階であって、前記第一のサンプル数は前記第二のサンプル数のN倍である、段階とを実行するよう構成されている、
    システム。
  17. 請求項1ないし5および7ないし15のうちいずれか一項記載の方法をコンピュータに実行させるためのコンピュータ・プログラム。
  18. N=2またはN=4である、請求項1ないし5および7ないし15のうちいずれか一項記載の方法
  19. N=2またはN=4である、請求項6または16記載のシステム
  20. N=2またはN=4である、請求項17記載のコンピュータ・プログラム。
JP2017520943A 2014-10-24 2015-10-23 オーディオ信号のエンコードおよびデコード Active JP6728154B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462068187P 2014-10-24 2014-10-24
US62/068,187 2014-10-24
PCT/EP2015/074623 WO2016062869A1 (en) 2014-10-24 2015-10-23 Encoding and decoding of audio signals

Publications (2)

Publication Number Publication Date
JP2017532603A JP2017532603A (ja) 2017-11-02
JP6728154B2 true JP6728154B2 (ja) 2020-07-22

Family

ID=54345511

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017520943A Active JP6728154B2 (ja) 2014-10-24 2015-10-23 オーディオ信号のエンコードおよびデコード

Country Status (8)

Country Link
US (1) US10304471B2 (ja)
EP (1) EP3210206B1 (ja)
JP (1) JP6728154B2 (ja)
KR (1) KR102474541B1 (ja)
CN (1) CN107112024B (ja)
ES (1) ES2709274T3 (ja)
RU (1) RU2708942C2 (ja)
WO (1) WO2016062869A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
WO2019089341A1 (en) * 2017-11-02 2019-05-09 Bose Corporation Low latency audio distribution
US20200020342A1 (en) * 2018-07-12 2020-01-16 Qualcomm Incorporated Error concealment for audio data using reference pools
US11416208B2 (en) * 2019-09-23 2022-08-16 Netflix, Inc. Audio metadata smoothing
WO2021119488A1 (en) * 2019-12-12 2021-06-17 SquadCast, Inc. Simultaneous recording and uploading of multiple audio files of the same conversation
WO2022179406A1 (zh) * 2021-02-26 2022-09-01 腾讯科技(深圳)有限公司 音频转码方法、装置、音频转码器、设备以及存储介质

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009236A (en) * 1994-09-26 1999-12-28 Mitsubishi Denki Kabushiki Kaisha Digital video signal record and playback device and method for giving priority to a center of an I frame
JPH09282849A (ja) * 1996-04-08 1997-10-31 Pioneer Electron Corp 情報記録媒体並びにその記録装置及び再生装置
US6137834A (en) * 1996-05-29 2000-10-24 Sarnoff Corporation Method and apparatus for splicing compressed information streams
US6262776B1 (en) * 1996-12-13 2001-07-17 Microsoft Corporation System and method for maintaining synchronization between audio and video
US7031348B1 (en) * 1998-04-04 2006-04-18 Optibase, Ltd. Apparatus and method of splicing digital video streams
US7091968B1 (en) * 1998-07-23 2006-08-15 Sedna Patent Services, Llc Method and apparatus for encoding a user interface
US7254824B1 (en) * 1999-04-15 2007-08-07 Sedna Patent Services, Llc Encoding optimization techniques for encoding program grid section of server-centric interactive programming guide
US6754271B1 (en) * 1999-04-15 2004-06-22 Diva Systems Corporation Temporal slice persistence method and apparatus for delivery of interactive program guide
US6651252B1 (en) * 1999-10-27 2003-11-18 Diva Systems Corporation Method and apparatus for transmitting video and graphics in a compressed form
US7096487B1 (en) * 1999-10-27 2006-08-22 Sedna Patent Services, Llc Apparatus and method for combining realtime and non-realtime encoded content
US20060093045A1 (en) * 1999-06-29 2006-05-04 Roger Anderson Method and apparatus for splicing
US7464394B1 (en) * 1999-07-22 2008-12-09 Sedna Patent Services, Llc Music interface for media-rich interactive program guide
WO2001031914A1 (en) * 1999-10-27 2001-05-03 Diva Systems Corporation Picture-in-picture and multiple video streams using slice-based encoding
US9094727B1 (en) * 1999-10-27 2015-07-28 Cox Communications, Inc. Multi-functional user interface using slice-based encoding
US6678332B1 (en) * 2000-01-04 2004-01-13 Emc Corporation Seamless splicing of encoded MPEG video and audio
CN1209744C (zh) * 2001-11-02 2005-07-06 松下电器产业株式会社 编码装置和解码装置
KR100547445B1 (ko) * 2003-11-11 2006-01-31 주식회사 코스모탄 디지털 오디오신호 및 오디오/비디오신호의 변속처리방법및 이를 이용한 디지털 방송신호의 변속재생방법
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
US7471337B2 (en) * 2004-06-09 2008-12-30 Lsi Corporation Method of audio-video synchronization
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US20070071091A1 (en) 2005-09-26 2007-03-29 Juh-Huei Lay Audio and video compression for wireless data stream transmission
US7809018B2 (en) * 2005-12-16 2010-10-05 Coding Technologies Ab Apparatus for generating and interpreting a data stream with segments having specified entry points
JP5174027B2 (ja) * 2006-09-29 2013-04-03 エルジー エレクトロニクス インコーポレイティド ミックス信号処理装置及びミックス信号処理方法
CN101548294B (zh) * 2006-11-30 2012-06-27 杜比实验室特许公司 提取视频和音频信号内容的特征以提供信号的可靠识别
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR20100061908A (ko) * 2008-12-01 2010-06-10 엘지전자 주식회사 영상표시장치, 영상전송장치, 영상전송방법 및 기록매체
KR20110106465A (ko) * 2009-01-28 2011-09-28 노키아 코포레이션 비디오 코딩 및 디코딩을 위한 방법 및 장치
US8848925B2 (en) * 2009-09-11 2014-09-30 Nokia Corporation Method, apparatus and computer program product for audio coding
US20110293021A1 (en) * 2010-05-28 2011-12-01 Jayant Kotalwar Prevent audio loss in the spliced content generated by the packet level video splicer
US8838262B2 (en) * 2011-07-01 2014-09-16 Dolby Laboratories Licensing Corporation Synchronization and switch over methods and systems for an adaptive audio system
US20130141643A1 (en) * 2011-12-06 2013-06-06 Doug Carson & Associates, Inc. Audio-Video Frame Synchronization in a Multimedia Stream
RU2602332C1 (ru) * 2013-01-21 2016-11-20 Долби Лабораторис Лайсэнзин Корпорейшн Перекодировка метаданных
CN105074818B (zh) * 2013-02-21 2019-08-13 杜比国际公司 音频编码***、用于产生比特流的方法以及音频解码器
US9959875B2 (en) * 2013-03-01 2018-05-01 Qualcomm Incorporated Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
TWI557727B (zh) * 2013-04-05 2016-11-11 杜比國際公司 音訊處理系統、多媒體處理系統、處理音訊位元流的方法以及電腦程式產品

Also Published As

Publication number Publication date
US20170243595A1 (en) 2017-08-24
WO2016062869A1 (en) 2016-04-28
RU2708942C2 (ru) 2019-12-12
RU2017117896A3 (ja) 2019-08-13
ES2709274T3 (es) 2019-04-15
KR20170076671A (ko) 2017-07-04
BR112017007833A2 (pt) 2017-12-26
JP2017532603A (ja) 2017-11-02
US10304471B2 (en) 2019-05-28
CN107112024A (zh) 2017-08-29
EP3210206B1 (en) 2018-12-05
RU2017117896A (ru) 2018-11-26
EP3210206A1 (en) 2017-08-30
KR102474541B1 (ko) 2022-12-06
CN107112024B (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
JP6728154B2 (ja) オーディオ信号のエンコードおよびデコード
JP6538128B2 (ja) オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
EP1667110B1 (en) Error reconstruction of streaming audio information
AU2006228821B2 (en) Device and method for producing a data flow and for producing a multi-channel representation
EP3127109B1 (en) Efficient coding of audio scenes comprising audio objects
US8527282B2 (en) Method and an apparatus for processing a signal
JP6190942B2 (ja) オーディオ・エンコーダおよびデコーダ
JP5032314B2 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
JP6190947B2 (ja) オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
EP3044877B1 (en) System aspects of an audio codec
CN102971788B (zh) 音频信号的样本精确表示的方法及编码器和解码器
EP1472889B1 (en) Audio coding
RU2383941C2 (ru) Способ и устройство для кодирования и декодирования аудиосигналов
JP4862136B2 (ja) 音声信号処理装置
BR112017007833B1 (pt) Método e sistema de processamento de áudio para representação de um sinal de áudio sob a forma de um fluxo de bits de áudio, método e sistema de processamento de áudio para reconstrução de um sinal de áudio representado por um fluxo de bits segmentado em quadros de fluxo de bits, e midia legível por computador

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A529

Effective date: 20170417

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181016

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200701

R150 Certificate of patent or registration of utility model

Ref document number: 6728154

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250