JP6088444B2 - 3次元オーディオサウンドトラックの符号化及び復号 - Google Patents

3次元オーディオサウンドトラックの符号化及び復号 Download PDF

Info

Publication number
JP6088444B2
JP6088444B2 JP2013558183A JP2013558183A JP6088444B2 JP 6088444 B2 JP6088444 B2 JP 6088444B2 JP 2013558183 A JP2013558183 A JP 2013558183A JP 2013558183 A JP2013558183 A JP 2013558183A JP 6088444 B2 JP6088444 B2 JP 6088444B2
Authority
JP
Japan
Prior art keywords
audio
signal
downmix signal
soundtrack
downmix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013558183A
Other languages
English (en)
Other versions
JP2014525048A (ja
Inventor
ジャン−マルク ジョット
ジャン−マルク ジョット
ゾラン フェイゾ
ゾラン フェイゾ
ジェームズ ディー ジョンストン
ジェームズ ディー ジョンストン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2014525048A publication Critical patent/JP2014525048A/ja
Application granted granted Critical
Publication of JP6088444B2 publication Critical patent/JP6088444B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • H04S3/004For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

〔関連出願との相互参照〕
本発明は、発明者であるJot他に付与された、2011年3月16日に出願された「3次元オーディオサウンドトラックの符号化及び再生」という名称の米国仮特許出願第61/453,461号の優先権を主張するものである。
〔連邦政府が支援する研究又は開発に関する記述〕
該当なし
本発明は、オーディオ信号の処理に関し、より具体的には、3次元オーディオサウンドトラックの符号化及び再生に関する。
空間オーディオ再生は、数十年にわたりオーディオ技術者及び家電業界の関心を集めてきた。空間オーディオ再生は、(コンサート演奏、動画シアター、家庭内hi−fi設定、コンピュータディスプレイ、個人用頭部装着型ディスプレイなどの)用途の背景に従って構成しなければならない2チャネル又はマルチチャネル電気音響システム(スピーカ又はヘッドホン)を必要とし、これについては、Jot、Jean−Marc著、「音楽、マルチメディア及び対話的人間−コンピュータ間インターフェイスのためのリアルタイム空間音響処理(Real−time Spatial Processing of Sounds for Music, Multimedia and Interactive Human−Computer Interfaces)」、IRCAM、1 place Igor−Stravinsky 1997年、[以下(Jot、1997)]にさらに記載されており、この文献は引用により本明細書に組み入れられる。このオーディオ再生システム構成では、マルチチャネルオーディオ信号内の方向性定位キュー(directional localization cues)を送信又は記憶のために符号化するための好適な技術又はフォーマットを定義しなければならない。
空間的に符号化されたサウンドトラックは、以下の2つの相補的方法により生成することができる。
(a)同じ場所にある又は狭い間隔で配置された(基本的にシーン内の仮想的なリスナの位置又はその近くに配置された)マイクシステムを使用して既存のオーディオシーンを録音すること。このマイクシステムは、例えば、ステレオマイクのペア、ダミーヘッド又は音場マイクとすることができる。このような収音技術では、所与の位置から取り込んだ録音シーン内に存在する音源の各々に関連する空間的聴覚キューを様々な忠実度で同時に符号化することができる。
(b)仮想オーディオシーンを合成すること。この方法では、個々のソース信号を受け取って、仮想音響シーンを記述するためのパラメータインターフェイスを提供する信号処理システムを使用することにより、各音源の定位及びルーム効果が人工的に再構築される。このようなシステムの例には、専門スタジオ用混合卓又はデジタルオーディオワークステーション(DAW)がある。制御パラメータは、各ソースの位置、向き及び方向性、並びに仮想ルーム又は空間の音響特性を含むことができる。この方法の例には、混合卓及び図1Aに示すような人工残響付加装置などの信号処理モジュールを使用したマルチトラックレコーディングの事後処理がある。
動画及び家庭用ビデオエンターテイメント業界のための録音及び再生技術が発達したことにより、マルチチャネル「サラウンドサウンド」レコーディングフォーマット(最も注目すべきは5.1及び7.1フォーマット)が標準化された。サラウンドサウンドフォーマットは、図1Bに示す「5.1」標準レイアウトなどの規定の幾何学的配置(LF、CF、RF、RS、LS及びSWは、それぞれ左前方、中央前方、右前方、右サラウンド、左サラウンド及びサブウーファスピーカを示す)でリスナの周囲の水平面に配置されたスピーカにそれぞれオーディオチャネル信号を供給すべきことを前提とする。この前提は、音源の近接性及びこれらの水平面よりも上への上昇、及び室内残響などの音場の空間的拡散成分の没入感を含む自然音場の3次元オーディオキューを確実かつ正確に符号化して再生する能力を本質的に制限する。
録音内の3次元オーディオキューを符号化するための様々な録音フォーマットが開発されてきた。これらの3−Dオーディオフォーマットとしては、Ambisonics、及び図1Cに示すNHK22.2フォーマットなどの上昇させたスピーカチャネルを含む離散的マルチチャネルオーディオフォーマットが挙げられる。しかしながら、これらの空間オーディオフォーマットは、レガシーな消費者向けサラウンドサウンド再生機器との互換性がなく、異なるスピーカ配置幾何形状及び異なるオーディオ復号技術を必要とする。レガシーな機器及び設定との非互換性は、既存の3−Dオーディオフォーマットの展開を成功させる上で致命的な障害である。
マルチチャネルオーディオ符号化フォーマット
カリフォルニア州カラバサのDTS社が提供するDTS−ES及びDTS−HDなどの様々なマルチチャネルデジタルオーディオフォーマットは、レガシーなデコーダにより復号でき、既存の再生機器上で再生できる後方互換性のあるダウンミックス、及び追加のオーディオチャネルを搬送する、レガシーなデコーダが無視するデータストリームの拡張をサウンドトラックデータストリームに含めることによってこれらの問題に対処する。DTS−HDデコーダは、これらの追加チャネルを回復し、後方互換性のあるダウンミックスにおけるこれらの寄与を減じ、後方互換性のあるフォーマットとは異なる、上昇させたスピーカ位置を含むことができる目標空間オーディオフォーマットでこれらをレンダリングすることができる。DTS−HDでは、後方互換性のあるミックスにおける、及び目標空間オーディオフォーマットでの追加チャネルの寄与が、(スピーカチャネル毎に1つの)混合係数の組によって記述される。サウンドトラックの対象となる目標空間オーディオフォーマットは、符号化段階で指定しなければならない。
この方法では、マルチチャネルオーディオサウンドトラックを、レガシーなサラウンドサウンドデコーダとの互換性があるデータストリームの形で、及び符号化/再生段階中に選択された1又は複数の別の目標空間オーディオフォーマットで符号化することができる。これらの別の目標フォーマットは、3次元オーディオキューの再生を改善するのに適したフォーマットを含むことができる。しかしながら、このスキームの1つの制約は、同じサウンドトラックを別の目標空間オーディオフォーマットに合わせて符号化する場合、新たなフォーマットのためにミキシングされた新たなバージョンのサウンドトラックを録音して符号化するために生産施設に戻る必要が生じる点である。
オブジェクトベースのオーディオシーン符号化
オブジェクトベースのオーディオシーン符号化は、目標空間オーディオフォーマットに左右されないサウンドトラック符号化のための一般的解決策を提示する。オブジェクトベースのオーディオシーン符号化システムの例には、MPEG−4 Advanced Audio Binary Format for Scenes(AABIFS)がある。この方法では、ソース信号の各々が、レンダーキューデータストリームと共に個別に送信される。このデータストリームは、図1Aに示すような空間オーディオシーンレンダリングシステムのパラメータの時変値を搬送する。このパラメータセットは、フォーマット非依存型オーディオシーン記述の形で提供することができ、この結果、このフォーマットに従ってレンダリングシステムを設計することにより、サウンドトラックをあらゆる目標空間オーディオフォーマットでレンダリングできるようになる。各ソース信号は、その関連するレンダーキューとの組み合わせによって「オーディオオブジェクト」を定義する。この方法の大きな利点は、各オーディオオブジェクトを、再生の最後に選択されるあらゆる目標空間オーディオフォーマットでレンダリングするために利用できる最も正確な空間オーディオ合成技術をレンダラが実装できる点である。オブジェクトベースのオーディオシーン符号化システムの別の利点は、リミキシング、音楽の再演奏(カラオケなど)、又はシーン内の仮想ナビゲーション(ゲームなど)のように、レンダリングしたオーディオシーンを復号段階で対話的に修正できる点である。
オブジェクトベースのオーディオシーン符号化は、フォーマット非依存型のサウンドトラック符号化及び再生を可能にするが、この方法には、(1)レガシーな消費者サラウンドサウンドシステムとの互換性がない点、(2)一般に計算コストの高い復号及びレンダリングシステムを必要とする点、及び(3)複数のソース信号を別個に搬送するために高い送信又は記憶データレートを必要とする点、といった2つの主な制約がある。
マルチチャネル空間オーディオ符号化
マルチチャネルオーディオ信号を低ビットレートで送信又は記憶する必要性は、バイノーラルキュー符号化(BCC)及びMPEGサラウンドを含む新たな周波数領域空間オーディオ符号化(SAC)技術を開発する動機付けになってきた。図1Dに示す例示的なSAC技術では、Mチャネルオーディオ信号が、元々のMチャネル信号内に存在するチャネル間関係(チャネル間相関及びレベル差)を時間−周波数領域で表す空間キューデータストリームを伴うダウンミックスオーディオ信号の形で符号化される。ダウンミックス信号が含むオーディオチャネルはMよりも少なく、空間キューデータレートはオーディオ信号データレートに比べて低いので、この符号化法では、データレートが全体的に大きく低減される。また、レガシー機器との後方互換性を容易にするようにダウンミックスフォーマットを選択することもできる。
米国特許出願第2007/0269063号に記載されるような、空間オーディオシーン符号化(SASC)と呼ばれるこの方法の変種では、デコーダに送信される時間−周波数空間キューデータがフォーマット非依存である。これにより、あらゆる目標空間オーディオフォーマットでの空間再生が可能になると同時に、符号化サウンドトラックデータストリーム内で後方互換性のあるダウンミックス信号を搬送する能力が保持される。しかしながら、この方法では、符号化サウンドトラックデータが、分離可能なオーディオオブジェクトを定義しない。ほとんどの録音では、サウンドシーン内の異なる位置に存在する複数の音源が、時間−周波数領域において同時に生じる。この場合、空間オーディオデコーダは、ダウンミックスオーディオ信号内におけるこれらの寄与を分離することができない。この結果、空間的定位エラーによってオーディオ再生の空間的忠実度が損なわれる恐れがある。
空間オーディオオブジェクト符号化
MPEG空間オーディオオブジェクト符号化(SAOC)は、符号化サウンドトラックデータストリームが、後方互換性のあるダウンミックスオーディオ信号及び時間−周波数キューデータストリームを含むという点でMPEGサラウンドに類似する。SAOCは、モノラル又は2チャネルダウンミックスオーディオ信号内のオーディオオブジェクトの数Mを送信するように設計された複数オブジェクト符号化技術である。SAOCダウンミックス信号と共に送信されるSAOCキューデータストリームは、モノラル又は2チャネルダウンミックス信号の各チャネル内の各オブジェクト入力信号に適用される混合係数を各周波数サブバンドに記述する時間−周波数オブジェクトミックスキューを含む。また、SAOCキューデータストリームは、デコーダ側でオーディオオブジェクトを個別に事後処理できるようにする周波数領域オブジェクト分離キューを含む。SAOCデコーダに設けられるオブジェクト事後処理機能は、オブジェクトベースの空間オーディオシーンレンダリングシステムの能力を模倣して、複数の目標空間オーディオフォーマットをサポートする。
SAOCは、複数のオーディオオブジェクト信号及びオブジェクトベースのフォーマット非依存型3次元オーディオシーン記述の低ビットレート送信及び計算効率の良い空間オーディオレンダリングのための方法を提供する。しかしながら、SAOC符号化ストリームのレガシーな互換性は、SAOCオーディオダウンミックス信号の2チャネルステレオ再生に制限され、従って既存のマルチチャネルサラウンドサウンド符号化フォーマットを拡張することには適していない。さらに、SAOCデコーダ内でオーディオオブジェクト信号に適用されるレンダリング動作が、人工残響などの特定のタイプの事後処理効果を含む場合、(これらの効果は、レンダリングシーン内では聞こえるが、未処理のオブジェクト信号を含むダウンミックス信号には同時に取り入れられないので)SAOCダウンミックス信号は、レンダリングされたオーディオシーンを知覚的に表現しない。
また、SAOCには、SAOCデコーダが、時間−周波数領域で同時に生じるオーディオオブジェクト信号をダウンミックス信号内で十分に分離できないという、SAC及びSASC技術と同じ制約がある。例えば、SAOCデコーダによりオブジェクトが大規模に増幅又は減衰されると、レンダリングされたシーンの音質が受け入れ難いほど低下する。
米国特許出願第2007/0269063号明細書 米国特許第5,974,380号明細書 米国特許第5,978,762号明細書 米国特許第6,487,535号明細書 米国特許出願第2010/0303246号明細書
Jot、Jean−Marc著、「音楽、マルチメディア及び対話的人間−コンピュータ間インターフェイスのためのリアルタイム空間音響処理(Real−time Spatial Processing of Sounds for Music, Multimedia and Interactive Human−Computer Interfaces)」、IRCAM、1 place Igor−Stravinsky 1997年 Jot、Jean−Marc他著、「インタラクティブオーディオのための複雑な音響シーンのバイノーラルシミュレーション(Binaural Simulation of Complex Acousitc Scenes for Interactive Audio)」、第121回AES会議、2006年10月5日〜8日 Jot他著、「空間オーディオシーン符号化に基づくバイノーラル3−Dオーディオレンダリング(Binaural 3−D audio rendering based on spatial audio scene coding)」、第123回AES会議、2007年10月5日〜8日 Jot他著、「マルチチャネルサラウンドフォーマット変換及び汎用アップミックス(Multichannel surround format conversion and generalized upmix)」、第30回AES国際会議、2007年3月15日〜17日
娯楽及び通信における空間オーディオ再生の関心及び利用がますます高まっていることを考えると、当業では、改善された3次元オーディオサウンドトラック符号化方法及び関連する空間オーディオシーン再生技術が必要とされている。
本発明は、空間オーディオサウンドトラックを作成し、符号化し、送信し、復号して再生するための新規のエンドツーエンドソリューションを提供するものである。提供するサウンドトラック符号化フォーマットは、レガシーなサラウンドサウンド符号化フォーマットとの互換性を有し、この新たなフォーマットで符号化されたサウンドトラックを、レガシーフォーマットに比べて音質を損なうことなくレガシー再生機器で復号して再生できるようにする。本発明では、サウンドトラックデータストリームが、後方互換性のあるミックス、及びこの後方互換性のあるミックスからデコーダが除去できる追加のオーディオチャネルを含む。本発明では、あらゆる目標空間オーディオフォーマットでサウンドトラックを再生することができる。符号化段階で目標空間オーディオフォーマットを指定する必要はなく、この目標空間オーディオフォーマットは、後方互換性のあるミックスのレガシーな空間オーディオフォーマットに依存しない。各追加のオーディオチャネルは、デコーダによりオブジェクトオーディオデータとして解釈され、サウンドトラック内におけるオーディオオブジェクトの寄与を知覚的に記述する、サウンドトラックデータストリーム内で送信されるオブジェクトレンダーキューに、目標空間オーディオフォーマットに関わりなく関連付けられる。
本発明では、サウンドトラックの製作者が、サウンドトラックの配信及び再生条件(記憶又は送信データレート、再生装置の能力及び再生システムの構成)によってのみ制約される、(今日存在する又は将来開発される)あらゆる目標空間オーディオフォーマットで最大限可能な忠実度でレンダリングされる1又はそれ以上の選択的なオーディオオブジェクトを定義することができる。提供するサウンドトラック符号化フォーマットは、柔軟性の高いオブジェクトベースの3次元オーディオ再生に加え、NHK22.2フォーマットなどの高解像度マルチチャネルオーディオフォーマットで生成されるサウンドトラックの妥協しない後方互換性及び前方互換性のある符号化を可能にする。
本発明の1つの実施形態では、オーディオサウンドトラックの符号化方法を提供する。この方法は、物理的な音を表すベースミックス信号と、各々がオーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームとを受け取ることによって開始する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームを利用して、オーディオオブジェクト成分をベースミックス信号に合成することにより、ダウンミックス信号を取得する。次に、この方法は、ダウンミックス信号、オブジェクトオーディオ信号、レンダーキューストリーム及びオブジェクトキューストリームを多重化して、サウンドトラックデータストリームを形成する。オブジェクトオーディオ信号は、ダウンミックス信号を出力する前に第1のオーディオ符号化プロセッサにより符号化することができる。オブジェクトオーディオ信号は、第1のオーディオ復号プロセッサにより復号することができる。ダウンミックス信号は、多重化される前に第2のオーディオ符号化プロセッサにより符号化することができる。第2のオーディオ符号化プロセッサは、不可逆的デジタル符号化プロセッサとすることができる。
本発明の別の実施形態では、物理的な音を表すオーディオサウンドトラックの復号方法を提供する。この方法は、オーディオシーンを表すダウンミックス信号と、オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームとを有するサウンドトラックデータストリームを受け取ることによって開始する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームを利用して、ダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得する。次に、この方法は、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力する。次に、この方法は、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、少なくとも1つのオブジェクトレンダリング信号を導出する。最後に、この方法は、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得する。オーディオオブジェクト成分は、ダウンミックス信号から減算することができる。オーディオオブジェクト成分は、ダウンミックス信号内でオーディオオブジェクト成分を知覚できないようにダウンミックス信号から部分的に除去することができる。ダウンミックス信号は、符号化オーディオ信号とすることができる。ダウンミックス信号は、オーディオデコーダにより復号することができる。オブジェクトオーディオ信号は、モノラルオーディオ信号とすることができる。オブジェクトオーディオ信号は、少なくとも2チャネルを有するマルチチャネルオーディオ信号とすることができる。オブジェクトオーディオ信号は、離散的スピーカフィードオーディオチャネルとすることができる。オーディオオブジェクト成分は、オーディオシーンの声、楽器、音響効果、又は他のいずれかの特徴とすることができる。空間オーディオフォーマットは、リスニング環境を表すことができる。
本発明の別の実施形態では、オーディオ符号化プロセッサを提供し、この符号化プロセッサは、物理的な音を表すベースミックス信号と、各々がオーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームとを受け取るための受信機プロセッサを含む。符号化プロセッサは、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームに基づいてオーディオオブジェクト成分をベースミックス信号と合成し、ダウンミックス信号を出力するための合成プロセッサをさらに含む。符号化プロセッサは、ダウンミックス信号、オブジェクトオーディオ信号、レンダーキューストリーム及びオブジェクトキューストリームを多重化してサウンドトラックデータストリームを形成するためのマルチプレクサプロセッサをさらに含む。本発明の別の実施形態では、オーディオ復号プロセッサを提供し、このオーディオ復号プロセッサは、オーディオシーンを表すダウンミックス信号と、オーディオシーンの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームとを受け取るための受信プロセッサを含む。
オーディオ復号プロセッサは、オブジェクトオーディオ信号及びオブジェクトミックスキューストリームに基づいてダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去し、残留ダウンミックス信号を出力するためのオブジェクトオーディオプロセッサをさらに含む。オーディオ復号プロセッサは、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するための空間フォーマット変換器をさらに含む。オーディオ復号プロセッサは、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを処理して少なくとも1つのオブジェクトレンダリング信号を導出するためのレンダリングプロセッサをさらに含む。オーディオ復号プロセッサは、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するための合成プロセッサをさらに含む。
本発明の別の実施形態では、物理的な音を表すオーディオサウンドトラックの別の復号方法を提供する。この方法は、オーディオシーンを表すダウンミックス信号と、オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームとを有するサウンドトラックデータストリームを受け取るステップと、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、ダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、残留ダウンミックス信号に空間フォーマット変換を適用することにより、空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、オブジェクトオーディオ信号及びオブジェクトレンダーキューストリームを利用して、少なくとも1つのオブジェクトレンダリング信号を導出するステップと、変換済み残留ダウンミックス信号とオブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップとを含む。
本明細書に開示する様々な実施形態のこれらの及びその他の特徴及び利点は、以下の説明及び全体を通じて同じ番号が同じ部分を示す図面に関してより良く理解されるであろう。
空間的録音物の録音及び再生のための先行技術によるオーディオ処理システムを示すブロック図である。 先行技術による標準的な「5.1」サラウンドサウンドマルチチャネルスピーカの配置構成を示す概略上面図である。 先行技術による「NHK22.2」3次元マルチチャネルスピーカの配置構成を示す概略図である。 先行技術による、空間オーディオ符号化、空間オーディオシーン符号化及び空間オーディオオブジェクト符号化システムの動作を示すブロック図である。 本発明の1つの態様によるエンコーダのブロック図である。 エンコーダの1つの態様による、オーディオオブジェクト包含を実行する処理ブロックのブロック図である。 エンコーダの1つの態様によるオーディオオブジェクトレンダラのブロック図である。 本発明の1つの態様によるデコーダのブロック図である。 デコーダの1つの態様による、オーディオオブジェクト除去を実行する処理ブロックのブロック図である。 デコーダの1つの態様によるオーディオオブジェクトレンダラのブロック図である。 デコーダの1つの実施形態によるフォーマット変換方法を示す概略図である。 デコーダの1つの実施形態によるフォーマット変換方法を示すブロック図である。
添付図面に関連して以下に示す詳細な説明は、現在のところ好ましい本発明の実施形態の説明として意図するものであり、本発明を構築又は利用できる唯一の形態を表すことを意図するものではない。この説明では、本発明を展開して動作させるための機能及びステップシーケンスを、例示の実施形態に関連して示す。しかしながら、異なる実施形態によって同じ又は同等の機能及びシーケンスを実現することもでき、これらの実施形態も本発明の思想及び範囲に含まれることが意図されていると理解されたい。さらに、第1の、及び第2のなどの関係語の使用については、あるエンティティを別のエンティティと区別するために使用しているにすぎず、このようなエンティティ間の実際のこのような関係又は順序を必ずしも必要とするものではないと理解されたい。
一般的定義
本発明は、いわゆる物理的な音を表す信号であるオーディオ信号の処理に関する。これらの信号は、デジタル電子信号によって表される。以下の説明では、概念を示すためにアナログ波形について図示又は説明することがあるが、本発明の典型的な実施形態は、アナログ信号又は(最終的には)物理的な音の離散近似を形成する時系列的なデジタルバイト又はワードとの関連において動作すると理解されたい。この離散的なデジタル信号は、周期的にサンプリングしたオーディオ波形のデジタル表現に対応する。当業で周知のように、均一なサンプリングのためには、関心のある周波数のナイキストのサンプリング定理を少なくとも満たすのに十分な速度で波形をサンプリングしなければならない。例えば、典型的な実施形態では、約44100サンプル/秒の均一なサンプリングレートを使用することができる。或いは、96khzなどの高サンプリングレートを使用することもできる。当業で周知の原理に従い、特定の用途の要件を満たすように定量化スキーム及びビット解像度を選択すべきである。通常、本発明の技術及び装置は、複数のチャネルにおいて互いに依存し合って適用される。例えば、本発明の技術及び装置は、(2つよりも多くのチャネルを有する)「サラウンド」オーディオシステムとの関連において使用することができる。
本明細書で使用する「デジタルオーディオ信号」又は「オーディオ信号」は、単なる数学的抽象概念を表すものではなく、機械又は装置により検出できる、物理媒体内に具体化される又は物理媒体によって運ばれる情報を示す。この用語は、録音信号又は送信信号を含み、限定するわけではないがパルスコード変調(PCM)を含むあらゆる形の符号化による搬送を含むと理解されたい。出力オーディオ信号又は入力オーディオ信号、或いは当然ながら中間オーディオ信号は、MPEG、ATRAC、AC3、又は米国特許第5,974,380号、5,978,762号及び6,487,535号に記載されるDTS社専用の方法を含む様々な既知の方法のいずれかによって符号化又は圧縮することができる。当業者には明らかなように、この特定の圧縮又は符号化方法に対応するには、何らかの計算の修正が必要になることがある。
本発明を、オーディオコーデックとして説明する。ソフトウェアでは、オーディオコーデックは、所与のオーディオファイルフォーマット又はストリーミングオーディオフォーマットに従ってデジタルオーディオデータをフォーマットするコンピュータプログラムである。ほとんどのコーデックは、QuickTime Player、XMMS、Winamp、Windows Media Player又はPro Logicなどの1又はそれ以上のマルチメディアプレーヤにインターフェイスで接続するライブラリとして実装される。ハードウェアでは、オーディオコーデックは、アナログオーディオをデジタル信号として符号化し、逆にデジタルをアナログに復号する単一の又は複数の装置を示す。換言すれば、オーディオコーデックは、同じクロックから外れて動作するADC及びDACを両方とも含む。
オーディオコーデックは、DVD又はBDプレーヤ、TVチューナ、CDプレーヤ、ハンドヘルドプレーヤ、インターネットオーディオ/ビデオ装置、ゲーム機又は携帯電話機などの消費者向け電子装置に実装することができる。消費者向け電子装置は、中央処理装置(CPU)を含み、このCPUは、IBM PowerPC、Intel Pentium(x86)プロセッサなどの1又はそれ以上の従来のタイプのこのようなプロセッサを表すことができる。CPUが行ったデータ処理動作の結果は、通常は専用メモリチャネルを介してCPUに相互接続されるランダムアクセスメモリ(RAM)に一時的に記憶される。消費者向け電子装置は、i/oバスを介してやはりCPUと通信するハードドライブなどの永久記憶装置を含むこともできる。テープドライブ、光学ディスクドライブなどの他のタイプの記憶装置を接続することもできる。CPUには、表示データを表す信号をディスプレイモニタに送信するグラフィクスカードもビデオバスを介して接続される。オーディオ再生システムには、USBポートを介してキーボード又はマウスなどの外部周辺データ入力装置を接続することもできる。USBポートに接続されたこれらの外部周辺装置のために、USBコントローラが、CPUへの及びCPUからのデータ及び命令を翻訳する。消費者向け電子装置には、プリンタ、マイク及びスピーカなどの追加装置を接続することもできる。
消費者向け電子装置は、ワシントン州レドモンドのMicrosoft社から提供されているWINDOWS、カリフォルニア州クパチーノのApple社から提供されているMAC OS、Androidなどのモバイルオペレーティングシステム向けに設計された様々なバージョンのモバイルGUIなどのグラフィックユーザインターフェイス(GUI)を有するオペレーティングシステムを利用することができる。消費者向け電子装置は、1又はそれ以上のコンピュータプログラムを実行することができる。一般に、オペレーティングシステム及びコンピュータプログラムは、ハードドライブを含む固定式及び/又は着脱式データ記憶装置の1又はそれ以上などのコンピュータ可読媒体内に有形的に具体化される。これらのオペレーティングシステム及びコンピュータプログラムは、いずれもCPUによる実行のために上述のデータ記憶装置からRAMにロードすることができる。コンピュータプログラムは、CPUに読み込まれ実行された時に、本発明のステップ又は機能を実行するためのステップをCPUに行わせる命令を含むことができる。
オーディオコーデックは、多くの異なる構成及びアーキテクチャを有することができる。このような構成又はアーキテクチャは、いずれも本発明の範囲から逸脱することなく容易に代用とすることができる。当業者であれば、コンピュータ可読媒体では上述のシーケンスが最も一般的に利用されているが、本発明の範囲から逸脱することなく代用できる既存のシーケンスは他にも存在すると認識するであろう。
オーディオコーデックの1つの実施形態の要素は、ハードウェア、ファームウェア、ソフトウェア、又はこれらのいずれかの組み合わせにより実装することができる。ハードウェアとして実装する場合、オーディオコーデックを1つのオーディオ信号プロセッサ上で使用してもよく、又は様々な処理要素に分散してもよい。ソフトウェア内に実装する場合、基本的に、本発明の実施形態の要素は、必要なタスクを行うためのコードセグメントとなる。ソフトウェアは、本発明の1つの実施形態で説明する動作を実行するための実際のコード、或いは動作をエミュレート又はシミュレートするコードを含むことが好ましい。これらのプログラム又はコードセグメントは、プロセッサ又は機械アクセス可能媒体に記憶することも、或いは搬送波内で具体化されたコンピュータデータ信号又は搬送体により変調された信号により、伝送媒体を介して送信することもできる。この「プロセッサ可読又はアクセス可能媒体」又は「機械可読又はアクセス可能媒体」は、情報を記憶、送信、又は転送できるあらゆる媒体を含むことができる。
プロセッサ可読媒体の例には、電子回路、半導体メモリ素子、リードオンリメモリ(ROM)、フラッシュメモリ、消去可能ROM、フロッピディスケット、コンパクトディスク(CD)ROM、光ディスク、ハードディスク、光ファイバメディア、高周波(RF)リンクなどがある。コンピュータデータ信号としては、電子ネットワークチャネル、光ファイバ、無線リンク、電磁リンク、RFリンクなどの伝送媒体を介して伝搬できるあらゆる信号を挙げることができる。コードセグメントは、インターネット、イントラネットなどのコンピュータネットワークを介してダウンロードすることができる。機械アクセス可能媒体は、製造の物品内で具体化することができる。機械アクセス可能媒体は、機械によってアクセスされた時に、以下で説明する動作を機械に実行させるデータを含むことができる。ここでは、「データ」という用語は、機械が読み取れるように符号化されたあらゆる種類の情報を意味する。従って、このデータは、プログラム、コード、データ、ファイルなどを含むことができる。
本発明の実施形態の全部又は一部を、ソフトウェアによって実装することもできる。ソフトウェアは、互いに結合された複数のモジュールを有することができる。1つのソフトウェアモジュールは、別のモジュールに結合されて、変数、パラメータ、引数、ポインタなどを受け取り、及び/又は結果、最新の変数、ポインタなどを生成し又は受け渡す。ソフトウェアモジュールは、プラットフォーム上で実行されるオペレーティングシステムと相互作用するためのソフトウェアドライバ又はインターフェイスであってもよい。ソフトウェアモジュールは、データを構成し、設定し、初期化し、ハードウェア装置との間で送受信するためのハードウェアドライバであってもよい。
本発明の1つの実施形態は、通常はフローチャート、フロー図、構造図又はブロック図として示されるプロセスとして説明することができる。ブロック図には、動作を逐次プロセスとして記載することがあるが、これらの動作の多くは、平行して又は同時に行うことができる。また、動作の順序を並べ替えることもできる。プロセスは、その動作が完了した時に終了する。プロセスは、方法、プログラム、手順などに対応することができる。
エンコーダの概要
ここで図1を参照すると、エンコーダの実装を示す概略図を示している。図1には、本発明による、サウンドトラックを符号化するためのエンコーダを示している。このエンコーダは、選択された空間オーディオフォーマットで録音された、ダウンミックス信号30の形の録音サウンドトラックを含むサウンドトラックデータストリーム40を生成する。以下の説明では、この空間オーディオフォーマットをダウンミックスフォーマットと呼ぶ。エンコーダの好ましい実施形態では、このダウンミックスフォーマットが、レガシーな消費者デコーダとの互換性があるサラウンドサウンドフォーマットであり、ダウンミックス信号30がデジタルオーディオエンコーダ32によって符号化されることにより、符号化ダウンミックス信号34が生成される。エンコーダ32の好ましい実施形態は、DTS社が提供するDTSデジタルサラウンド又はDTS−HDなどの後方互換性のあるマルチチャネルデジタルオーディオエンコーダである。
また、サウンドトラックデータストリーム40は、少なくとも1つのオーディオオブジェクト(本説明及び添付図では「オブジェクト1」と呼ぶ)を含む。以下の説明では、オーディオオブジェクトを、サウンドトラックのオーディオ成分として一般的に定義する。オーディオオブジェクトは、サウンドトラック内で聞こえる区別可能な音源(声、楽器、音響効果など)を表すことができる。各オーディオオブジェクトは、以下ではオブジェクトオーディオ信号と呼ぶ、サウンドトラックデータ内の一意の識別子を有するオーディオ信号(12a、12b)により特徴付けられる。エンコーダは、このオブジェクトオーディオ信号に加え、ダウンミックスフォーマットで提供されるマルチチャネルベースミックス信号10を任意に受け取る。このベースミックスは、例えば、バックグラウンドミュージック、録音アンビエンス、或いは録音又は合成したサウンドシーンを表すことができる。
ダウンミックス信号30内における全てのオーディオオブジェクトの寄与は、オブジェクトミックスキュー16により定義され、(以下でさらに詳細に説明する)オーディオオブジェクト包含処理ブロック24によりベースミックス信号10と共に合成される。エンコーダは、オブジェクトミックスキュー16に加え、オブジェクトレンダーキュー18を受け取り、これをオブジェクトミックスキュー16と共にキューエンコーダ36を介してサウンドトラックデータストリーム40に含める。このレンダーキュー18は、(以下で説明する)相補的デコーダが、ダウンミックスフォーマットとは異なる目標空間オーディオフォーマットでオーディオオブジェクトをレンダリングできるようにする。本発明の好ましい実施形態では、レンダーキュー18がフォーマット非依存型であることにより、デコーダが、あらゆる目標空間オーディオフォーマットでサウンドトラックをレンダリングするようになる。本発明の1つの実施形態では、オブジェクトオーディオ信号(12a、12b)、オブジェクトミックスキュー16、オブジェクトレンダーキュー18及びベースミックス10が、サウンドトラックの生成中にオペレータにより提供される。
各オブジェクトオーディオ信号(12a、12b)は、モノラル又はマルチチャネル信号として提示することができる。好ましい実施形態では、符号化サウンドトラック40の送信又は記憶に必要なデータレートを低減するために、オブジェクトオーディオ信号(12a、12b)及びダウンミックス信号30をサウンドトラックデータストリーム40に含める前に、これらの一部又は全部を低ビットレートオーディオエンコーダ(20a〜20b、32)により符号化する。好ましい実施形態では、不可逆低ビットレートデジタルオーディオエンコーダ(20a)を介して送信されたオブジェクトオーディオ信号(12a〜12b)を、オーディオオブジェクト包含処理ブロック24によって処理する前に、相補型デコーダ(22a)により続けて復号する。これにより、デコーダ側でダウンミックスからオブジェクトの寄与を正確に除去できるようになる(以下で説明する)。
次に、ブロック42により、符号化オーディオ信号(22a〜22b、34)及び符号化キュー38を多重化して、サウンドトラックデータストリーム40を形成する。マルチプレクサ42は、デジタルデータストリーム(22a〜22b、34、38)を、共有媒体を介して送信又は記憶するために単一のデータストリーム40に合成する。多重化データストリーム40は、物理送信媒体とすることができる通信チャネルを介して送信される。この多重化により、低レベル通信チャネルの容量が、転送すべきデータストリーム毎に1つの複数の高レベル論理チャネルに分割される。デコーダ側では、逆多重化として知られている可逆処理によって元々のデータストリームを抽出することができる。
オーディオオブジェクト包含
図2に、本発明の好ましい実施形態によるオーディオオブジェクト包含処理モジュールを示す。オーディオオブジェクト包含モジュール24は、オブジェクトオーディオ信号26a〜26b及びオブジェクトミックスキュー16を受け取ってこれらをオーディオオブジェクトレンダラ44に送信し、このオーディオオブジェクトレンダラ44が、これらのオーディオオブジェクトを合成してオーディオオブジェクトダウンミックス信号46に変換する。オーディオオブジェクトダウンミックス信号46は、ダウンミックスフォーマットで提供され、ベースミックス信号10と合成されてサウンドトラックダウンミックス信号30が生成される。各オブジェクトオーディオ信号26a〜26bは、モノラル又はマルチチャネル信号として提示することができる。本発明の1つの実施形態では、マルチチャネルオブジェクト信号が、複数の単一チャネルオブジェクト信号として処理される。
図3に、本発明の実施形態によるオーディオオブジェクトレンダラモジュールを示す。オーディオオブジェクトレンダラモジュール44は、オブジェクトオーディオ信号26a〜26b及びオブジェクトミックスキュー16を受け取ってオブジェクトダウンミックス信号46を導出する。オーディオオブジェクトレンダラ44は、オブジェクトオーディオ信号26a〜26bの各々をミキシングしてオーディオオブジェクトダウンミックス信号46に変換するために、例えば(Jot、1997)に記載されている当業で周知の原理に従って動作する。このミキシング動作は、ミックスキュー16により与えられる命令に従って行われる。各オブジェクトオーディオ信号(26a、26b)は、オブジェクトダウンミックス信号46を聞いた時に知覚される方向性定位をオーディオオブジェクトに割り当てる空間パニングモジュール(48a、48b)によって(それぞれ)処理される。ダウンミックス信号46は、オブジェクト信号パニングモジュール48a〜48bの出力信号を付加的に合成することにより形成される。レンダラの好ましい実施形態では、サウンドトラック内の各オーディオオブジェクトの相対的ラウドネスを制御するために、(図3にd1〜dnで示す)直接送信係数により、ダウンミックス信号46内の各オブジェクトオーディオ信号26a〜26bの直接的寄与もスケール調整される。
レンダラの1つの実施形態では、オブジェクトを空間的に広がった音源としてレンダリングすること、パニングモジュールの出力信号を聞いた時に知覚される制御可能な音心方向及び制御可能な空間的広がりを有することを可能にするために、オブジェクトパニングモジュール(48a)が構成される。当業では、空間的に広がったソースの再生方法が周知であり、例えば、第121回AES会議2006年10月5日〜8日において示された、Jot、Jean−Marc他著、「インタラクティブオーディオのための複雑な音響シーンのバイノーラルシミュレーション(Binaural Simulation of Complex Acousitc Scenes for Interactive Audio)」[以下(Jot、2006)]に記載されており、この文献は引用により本明細書に組み入れられる。オーディオオブジェクトに関連する空間的広がりは、空間的に広がった音源(すなわち、リスナを取り囲む音源)の感覚を再生するように設定することができる。
任意に、オーディオオブジェクトレンダラ44は、1又はそれ以上のオーディオオブジェクトの間接的オーディオオブジェクト寄与を生成するように構成される。この構成では、ダウンミックス信号46が、空間残響モジュールの出力信号も含む。オーディオオブジェクトレンダラ44の好ましい実施形態では、空間残響モジュールが、人工残響付加装置50の出力信号52に空間パニングモジュール54を適用することにより形成される。パニングモジュール54は、信号52をダウンミックスフォーマットに変換する一方で、任意にオーディオ残響出力信号52に、ダウンミックス信号30を聞いた時に知覚される方向的強調を与える。当業では、従来の人工残響付加装置50及び残響パニングモジュール54の設計方法が周知であり、本発明ではこれを利用することができる。或いは、処理モジュール(50)を、(エコー効果、フランジャー効果、又はリング変調器効果などの)一般に録音の再生に使用される別のタイプのデジタルオーディオ処理効果アルゴリズムとしてもよい。モジュール50は、各々が(図3にr1〜rnで示す)間接的送信係数によりスケール調整されたオブジェクトオーディオ信号26a〜26bを合成したものを受け取る。
また、当業では、各オーディオオブジェクトにより表される仮想音源の方向性及び配向の可聴効果、及び仮想オーディオシーン内の音響障害及び分離の効果をシミュレートするために、直接送信係数d1〜dn及び間接送信係数r1〜rnをデジタルフィルタとして実現することが周知である。これについては、(Jot、2006)にさらに記載されている。本発明の1つの実施形態では、複雑な音響環境をシミュレートするために、図3には示していないが、オブジェクトオーディオレンダラ44が、並列的に結び付いてオブジェクトオーディオ信号の異なる組み合わせにより供給される複数の空間残響モジュールを含む。
オーディオオブジェクトレンダラ44内の信号処理動作は、ミックスキュー16により与えられる命令に従って行われる。ミックスキュー16の例としては、各オブジェクトオーディオ信号26a〜26bの、ダウンミックス信号30の各チャネル内への寄与を記述する、パニングモジュール48a〜48bにおいて適用される混合係数を挙げることができる。より一般的には、オブジェクトミックスキューデータストリーム16は、オーディオオブジェクトレンダラ44によって行われる全ての信号処理動作を一意に特定する制御パラメータセットの時変値を搬送する。
デコーダの概要
ここで図4を参照すると、本発明の実施形態によるデコーダ処理を示している。このデコーダは、符号化サウンドトラックデータストリーム40を入力として受け取る。デマルチプレクサ56は、符号化ダウンミックス信号34、符号化オブジェクトオーディオ信号14a〜14c、及び符号化キューストリーム38dを回復するために、符号化入力40を分離する。各符号化信号及び/又はストリームは、図1に関連して説明した、サウンドトラックデータストリーム40を生成するために使用するサウンドトラックエンコーダ内の対応する信号及び/又はストリームを符号化するために使用するエンコーダを補完するデコーダ(それぞれ、58、62a〜62c及び64)により復号される。
復号ダウンミックス信号60、オブジェクトオーディオ信号26a〜26c及びオブジェクトミックスキューストリーム16dが、オーディオオブジェクト除去モジュール66に提供される。信号60及び26a〜26cは、ミキシング及びフィルタリング動作を可能にするあらゆる形で表される。例えば、特定の用途にとって十分なビット深度の線形PCMを好適に使用することができる。オーディオオブジェクト除去モジュール66は、オーディオオブジェクトの寄与が正確に、部分的に又は十分に除去された残留ダウンミックス信号68を生成する。残留ダウンミックス信号68はフォーマット変換器78に提供され、このフォーマット変換器78は、目標空間オーディオフォーマットで再生するのに適した変換済み残留ダウンミックス信号80を生成する。
また、復号オブジェクトオーディオ信号26a〜26c及びオブジェクトレンダーキューストリーム18dは、オーディオオブジェクトレンダラ70に提供され、このオーディオオブジェクトレンダラ70は、オーディオオブジェクトの寄与を目標空間オーディオフォーマットで再生するのに適したオブジェクトレンダリング信号76を生成する。目標空間オーディオフォーマットでのサウンドトラックレンダリング信号84を生成するために、オブジェクトレンダリング信号76と変換済み残留ダウンミックス信号80を合成する。本発明の1つの実施形態では、出力事後処理モジュール86が、サウンドトラックレンダリング信号84に任意の事後処理を適用する。本発明の1つの実施形態では、モジュール86が、周波数応答の補正、ラウドネス又はダイナミックレンジの補正、又は追加の空間オーディオフォーマット変換などの、オーディオ再生システムにおいて一般に適用可能な事後処理を含む。
当業者であれば、復号ダウンミックス信号60をフォーマット変換器78に直接送信し、オーディオオブジェクト除去66及びオーディオオブジェクトレンダラ70を省くことにより、目標空間オーディオフォーマットとの互換性があるサウンドトラック再生を達成できると容易に理解するであろう。別の実施形態では、フォーマット変換器78が省かれ、又は事後処理モジュール80に含まれる。ダウンミックスフォーマットと目標空間オーディオフォーマットが同等と見なされ、オーディオオブジェクトレンダラ70がデコーダ側におけるユーザインタラクションのためだけに採用される場合、このような異形の実施形態が適している。
ダウンミックスフォーマットと目標空間オーディオフォーマットが同等でない本発明の用途では、オーディオオブジェクトレンダラ70が、オーディオオブジェクトの寄与を目標空間フォーマットで直接レンダリングして、レンダラ70内でオーディオ再生システムの特定の構成に一致するオブジェクトレンダリング方法を採用することにより、オーディオオブジェクトの寄与を最適な忠実度及び空間精度で再生できるようにすることが特に有利である。この場合、既にオブジェクトレンダリングが目標空間オーディオフォーマットで行われているので、ダウンミックス信号をオブジェクトレンダリング信号76と合成する前に、残留ダウンミックス信号68にフォーマット変換78が適用される。
従来のオブジェクトベースのシーン符号化と同様に、サウンドトラック内の可聴イベントの全てが、レンダーキュー18dを伴うオブジェクトオーディオ信号14a〜14cの形でデコーダに提供される場合、サウンドトラックを目標空間オーディオフォーマットでレンダリングするために、ダウンミックス信号34及びオーディオオブジェクト除去66を設ける必要はない。サウンドトラックデータストリームに符号化ダウンミックス信号34を含める格別の利点は、サウンドトラックデータストリーム内に与えられるオブジェクト信号及びキューを廃棄又は無視するレガシーなサウンドトラックデコーダを使用した後方互換性のある再生が可能になる点である。
さらに、デコーダにオーディオオブジェクト除去機能を組み込む格別の利点は、オーディオオブジェクト除去ステップ66により、サウンドトラックを構成する全ての可聴イベントが再生される一方で、可聴イベントの選択部分のみがオーディオオブジェクトとして送信され、除去され、レンダリングされることにより、送信データレート及びデコーダの複雑性要件を大幅に低減できる点である。(図4には示していない)本発明の別の実施形態では、オーディオオブジェクトレンダラ70に送信されるオブジェクトオーディオ信号の1つ(26a)が、一定期間にわたってダウンミックス信号60のオーディオチャネル信号に等しい。この場合、この同じ期間にわたり、このオブジェクトのためのオーディオオブジェクト除去動作66は、単にダウンミックス信号60内のオーディオチャネル信号をミュートすることで構成され、オブジェクトオーディオ信号14aを受け取って復号する必要はない。これにより、送信データレート及びデコーダの複雑性がさらに低減される。
好ましい実施形態では、送信データレート又はサウンドトラック再生装置の計算能力に制限がある場合、デコーダ側(図4)で復号されレンダリングされたオブジェクトオーディオ信号セット14a〜14cが、エンコーダ側(図1)で符号化されたオブジェクトオーディオ信号セット14a〜14bの不完全部分になる。マルチプレクサ42において1又はそれ以上のオブジェクトを廃棄する(これにより送信データレートを低減する)こと、及び/又はデマルチプレクサ56において1又はそれ以上のオブジェクトを廃棄する(これによりデコーダの計算要件を低減する)こともできる。任意に、送信及び/又はレンダリングのためのオブジェクト選択を、キューデータストリーム38/38dに含まれる優先キューを各オブジェクトに割り当てる優先順位決定スキームによって自動的に決定することもできる。
オーディオオブジェクト除去
ここで図4及び図5を参照すると、本発明の実施形態によるオーディオオブジェクト除去処理モジュールを示している。オーディオオブジェクト除去処理モジュール66は、レンダリングされるように選択されたオブジェクトセットに対し、エンコーダ内に設けられたオーディオオブジェクト包含モジュールの可逆的動作を行う。このモジュールは、オブジェクトオーディオ信号26a〜26c及び関連するオブジェクトミックスキュー16dを受け取り、これらをオーディオオブジェクトレンダラ44dに送信する。オーディオオブジェクトレンダラ44dは、レンダリングされるように選択されたオブジェクトセットに対し、図3に関連して既に説明した符号化側に設けられるオーディオオブジェクトレンダラ44内で行われる信号処理動作を再現する。オーディオオブジェクトレンダラ44dは、これらの選択されたオーディオオブジェクトを合成してオーディオオブジェクトダウンミックス信号46dに変換し、これをダウンミックスフォーマットで供給し、ダウンミックス信号60から減算して残留ダウンミックス信号68を生成する。任意に、このオーディオオブジェクト除去は、オーディオオブジェクトレンダラ44dにより供給される残響出力信号52dも出力する。
オーディオオブジェクト除去は、正確な減算である必要はない。オーディオオブジェクト除去66の目的は、残留ダウンミックス信号68を聞いている時にこれらの選択されたオブジェクトセットが実質的に又は知覚的に認識されないようにすることである。従って、ダウンミックス信号60を可逆的デジタルオーディオフォーマットで符号化する必要はない。不可逆的デジタルオーディオフォーマットを使用してダウンミックス信号60を符号化及び復号する場合、復号ダウンミックス信号60からオーディオオブジェクトダウンミックス信号46dを算術的に減算することにより、残留ダウンミックス信号68からオーディオオブジェクトの寄与を厳密に排除できないことがある。しかしながら、その後にオブジェクトレンダリング信号76を合成してサウンドトラックレンダリング信号84に変換する結果、この残留ダウンミックス信号68は実質的にマスキングされるので、サウンドトラックレンダリング信号84を聞いている時に、実質的にこのエラーに気付くことはない。
従って、本発明によるデコーダの実現により、不可逆的オーディオデコーダ技術を使用したダウンミックス信号34の復号が不可能になることはない。ダウンミックス信号30(図1)を符号化するために、ダウンミックスオーディオエンコーダ32内で不可逆的デジタルオーディオオーデック技術を採用することにより、サウンドトラックデータを送信するために必要なデータレートが大幅に低減されることが有利である。サウンドトラックデータを可逆的フォーマット(例えば、高精細度又は可逆的DTS−HDフォーマットで送信されるダウンミックス信号データストリームのDTSコア復号)で送信する場合でも、ダウンミックス信号34の不可逆的復号を行うことにより、ダウンミックスオーディオデコーダ58の複雑性が低減されることがさらに有利である。
オーディオオブジェクトレンダリング
図6に、オーディオオブジェクトレンダラモジュール70の好ましい実施形態を示す。オーディオオブジェクトレンダラモジュール70は、オブジェクトオーディオ信号26a〜26c及びオブジェクトレンダーキュー18dを受け取ってオブジェクトレンダリング信号76を導出する。オーディオオブジェクトレンダラ70は、オブジェクトオーディオ信号26a〜26cの各々をミキシングしてオーディオオブジェクトレンダリング信号76に変換するために、図3に示すオーディオオブジェクトレンダラ44に関連して既に説明した当業で周知の原理に従って動作する。各オブジェクトオーディオ信号(26a、26c)は、オブジェクトレンダリング信号76を聞いた時に知覚される方向性定位をオーディオオブジェクトに割り当てる空間パニングモジュール(90a、90c)によって処理される。オブジェクトレンダリング信号76は、パニングモジュール90a〜90cの出力信号を付加的に合成することにより形成される。オブジェクトレンダリング信号76内における各オブジェクトオーディオ信号(26a、26c)の直接的な寄与は、直接送信係数(d1、dm)によりスケール調整される。また、オブジェクトレンダリング信号76は、オーディオオブジェクト除去モジュール66に含まれるオーディオオブジェクトレンダラ44dにより供給される残響出力信号52dを受け取る残響パニングモジュール92の出力信号を含む。
本発明の1つの実施形態では、(図5に示すオーディオオブジェクト除去モジュール66内の)オーディオオブジェクトレンダラ44dにより生成されるオーディオオブジェクトダウンミックス信号46dが、(図2に示すオーディオオブジェクト包含モジュール24内の)オーディオオブジェクトレンダラ44により生成されるオーディオオブジェクトダウンミックス信号46に含まれる間接的なオーディオオブジェクトの寄与を含まない。この場合、この間接的なオーディオオブジェクトの寄与が残留ダウンミックス信号68内に留まり、残響出力信号52dは供給されない。本発明のサウンドトラックデコーダオブジェクトのこの実施形態は、オーディオオブジェクトレンダラ44dにおける残響処理を必要とせずに、直接的なオブジェクトの寄与の位置的オーディオレンダリングを改善する。
オーディオオブジェクトレンダラモジュール70内の信号処理動作は、レンダーキュー18dによって与えられる命令に従って行われる。パニングモジュール(90a〜90c、92)は、目標空間オーディオフォーマット定義74に従って構成される。本発明の好ましい実施形態では、レンダーキュー18dが、フォーマット非依存型オーディオシーン記述の形で提供され、パニングモジュール(90a〜90c、92)及び送信係数(d1、dm)を含むオーディオオブジェクトレンダラモジュール70内の全ての信号処理動作は、選択された目標空間オーディオフォーマットに関わらず、オブジェクトレンダリング信号76が同一の知覚される空間オーディオシーンを再生するように構成される。本発明の好ましい実施形態では、このオーディオシーンが、オブジェクトダウンミックス信号46dにより再生されるオーディオシーンと同じものである。このような実施形態では、レンダーキュー18dを使用して、オーディオオブジェクトレンダラ44dに提供されるミックスキュー16dを導出又は置換すること、同様にレンダーキュー18を使用して、オーディオオブジェクトレンダラ44に提供されるミックスキュー16を導出又は置換することができ、従ってオブジェクトミックスキュー(16、16d)を提供する必要はない。
本発明の好ましい実施形態では、フォーマット非依存型オブジェクトレンダーキュー(18、18d)が、デカルト座標又は極座標で表される絶対的な、又はオーディオシーン内のリスナの仮想的な位置及び向きに対する相対的な各オーディオオブジェクトの知覚空間位置を含む。フォーマット非依存型レンダーキューの別の例は、OpenAL又はMPEG−4高度オーディオBIFSなどの様々なオーディオシーン記述標準において提供される。とりわけ、これらのシーン記述標準は、送信係数(図3のd1〜dn及び図5のr1〜rn)の値、並びに人工残響付加装置50及び残響パニングモジュール(54、92)の処理パラメータの値を一意に決定するのに十分な残響及び距離キューを含む。
本発明のデジタルオーディオサウンドトラックエンコーダ及びデコーダオブジェクトは、本来ダウンミックスフォーマットとは異なるマルチチャネルオーディオソースフォーマットで提供されていた録音の後方互換性及び前方互換性のある符号化に有利に適用することができる。ソースフォーマットは、例えば、各チャネル信号がスピーカフィード信号として意図されるNHK22.2フォーマットなどの高解像度離散的マルチチャネルオーディオフォーマットとすることができる。このフォーマットは、元々の録音の各チャネル信号をサウンドトラックエンコーダ(図1)に対応するスピーカの正しい位置を示すオブジェクトレンダーキューを伴う別個のオブジェクトオーディオ信号としてソースフォーマットで提供することにより実現することができる。マルチチャネルオーディオソースフォーマットが(追加のオーディオチャネルを含む)ダウンミックスフォーマットの上位集合である場合、ソースフォーマットである追加のオーディオチャネルの各々を、本発明による追加のオーディオオブジェクトとして符号化することができる。
本発明による符号化及び復号方法の別の利点は、再生されたオーディオシーンの任意のオブジェクトベースの修正が可能になる点である。この修正は、オーディオオブジェクトレンダラ70内で行われる信号処理を、オブジェクトレンダーキュー18dの一部を修正又は上書きできる図6に示すユーザインタラクションキュー72に従って制御することにより実現される。このようなユーザインタラクションの例としては、音楽リミキシング、仮想ソースリポジショニング、及びオーディオシーン内の仮想ナビゲーションが挙げられる。本発明の1つの実施形態では、キューデータストリーム38が、(「会話」又は「音響効果」などの)音源の性質を示す、又はオーディオオブジェクトセットをグループ(まとめて操作できる複合オブジェクト)として定義する、あるオブジェクトに関連する(人物名又は楽器名などの)音源を識別する特性を含む、各オブジェクトに一意に割り当てられたオブジェクトのプロパティを含む。このようなオブジェクトのプロパティをキューストリームに含めることにより、(オーディオオブジェクトレンダラ70内の会話オブジェクトオーディオ信号に特定の処理を適用する)会話理解度の強化などのさらなる用途が可能になる。
(図4には示していない)本発明の別の実施形態では、選択されたオブジェクトをダウンミックス信号68から除去し、対応するオブジェクトオーディオ信号(26a)を、別個に受け取られてオーディオオブジェクトレンダラ70に供給される異なるオーディオ信号に置き換える。この実施形態は、多言語の映画サウンドトラックの再生又はカラオケ、及び他の形の音楽再演奏などの用途において有利である。さらに、オーディオオブジェクトレンダラ70に、サウンドトラックデータストリーム40に含まれていない追加のオーディオオブジェクトを、オブジェクトレンダーキューに関連する追加のオーディオオブジェクト信号の形で別個に提供することもできる。本発明のこの実施形態は、例えば、双方向型ゲームの用途において有利である。このような実施形態では、オーディオオブジェクトレンダラ70が、オーディオオブジェクトレンダラ44の説明において上述した1又はそれ以上の空間残響モジュールを組み込むことが有利である。
ダウンミックスフォーマット変換
図4に関連して上述したように、サウンドトラックレンダリング信号84は、オブジェクトレンダリング信号76を、残留ダウンミックス信号68のフォーマット変換78により取得される変換済み残留ダウンミックスミックス信号80と合成することにより取得される。空間オーディオフォーマット変換78は、目標空間オーディオフォーマット定義74に従って構成され、残留ダウンミックス信号68によって表されるオーディオシーンを目標空間オーディオフォーマットで再生するのに適した技術により実施することができる。当業で周知のフォーマット変換技術としては、マルチチャネルアップミキシング、ダウンミキシング、リマッピング又は仮想化が挙げられる。
本発明の1つの実施形態では、図7に示すように、目標空間オーディオフォーマットが、スピーカ又はヘッドホンを介した2チャネル再生であり、ダウンミックスフォーマットが、5.1サラウンドサウンドフォーマットである。フォーマット変換は、引用により本明細書に組み入れられる米国特許出願第2010/0303246号に記載されるような仮想オーディオ処理装置によって行われる。図7に示すアーキテクチャは、仮想スピーカから音が出ている錯覚を生じる仮想オーディオスピーカの使用をさらに含む。当業で周知のように、これらの錯覚は、スピーカから耳への音響伝達関数、又は頭部伝達関数(HRTF)の測定値又は近似値を考慮して、オーディオ入力信号に変圧を加えることにより達成することができる。本発明によるフォーマット変換では、このような錯覚を利用することができる。
或いは、目標空間オーディオフォーマットがスピーカ又はヘッドホンを介した2チャネル再生である図7に示す実施形態では、図8に示すような周波数領域信号処理によってフォーマット変換器を実装することができる。引用により本明細書に組み入れられる、第123回AES会議、2007年10月5日〜8日において示された、Jot他著、「空間オーディオシーン符号化に基づくバイノーラル3−Dオーディオレンダリング(Binaural 3−D audio rendering based on spatial audio scene coding)」に記載されるように、SASCフレームワークに従う仮想オーディオ処理では、フォーマット変換器が、サラウンドから3Dフォーマットへの変換を行うことができ、変換済み残留ダウンミックス信号80は、ヘッドホン又はスピーカを介して聞いた時に、空間オーディオシーンの3次元展開を生じ、残留ダウンミックス信号68内の内部パンされた可聴イベントが、目標空間オーディオフォーマットでの上昇する可聴イベントとして再生される。
より一般的には、引用により本明細書に組み入れられる、第30回AES国際会議、2007年3月15日〜17日における、Jot他著、「マルチチャネルサラウンドフォーマット変換及び汎用アップミックス(Multichannel surround format conversion and generalized upmix)」に記載されるように、目標空間オーディオフォーマットが2つよりも多くのオーディオチャネルを含むフォーマット変換器78の実施形態では、周波数領域フォーマット変換処理を適用することができる。図8に、時間領域において提供される残留ダウンミックス信号68が短時間フーリエ変換ブロックにより周波数領域表現に変換される好ましい実施形態を示す。その後、STFT領域信号を周波数領域フォーマット変換ブロックに提供し、このブロックで、空間分析及び合成に基づくフォーマット変換を行い、STFT領域マルチチャネル出力信号を供給し、逆短時間フーリエ変換及び重畳加算処理を通じて変換済み残留ダウンミックス信号80を生成する。図8に示すように、周波数領域フォーマット変換ブロックには、このブロック内の受動的アップミックス、空間分析及び空間合成処理で使用するために、ダウンミックスフォーマット定義及び目標空間オーディオフォーマット定義74が提供される。フォーマット変換を、完全に周波数領域で動作するように示しているが、当業者であれば、実施形態によっては、代わりにいくつかの要素、特に受動的アップミックスを時間領域で実施できると認識するであろう。本発明は、このような変形形態も無制限に含む。
本明細書の事項は、本発明の実施形態の一例として、及び例示的な説明を目的として示したものであり、本発明の原理及び概念的側面の最も有用かつ容易に理解される説明であると思われるものを提供するために示したものである。この点に関し、本発明の基本的な理解に必要とされる以上に本発明の事項を詳細に示そうとはしておらず、図面と共に行った説明は、本発明のいくつかの形態をいかにして実際に具体化できるかを当業者に対して明らかにするものである。
10 ベースミックス
12a オブジェクト1オーディオ信号
12b オブジェクトnオーディオ信号
14a 符号化オブジェクトオーディオ信号
14b 符号化オブジェクトオーディオ信号
16 オブジェクトミックスキュー
18 オブジェクトレンダーキュー
20a オブジェクトオーディオ符号化
20b オブジェクトオーディオ符号化
22a 復号
22b 復号
24 オーディオオブジェクト包含
26a オブジェクトオーディオ信号
26b オブジェクトオーディオ信号
30 ダウンミックス信号
32 ダウンミックスオーディオ符号化
34 符号化ダウンミックス信号
36 キュー符号化
38 キューデータストリーム
40 サウンドトラックデータストリーム
42 多重化

Claims (23)

  1. オーディオサウンドトラックの符号化方法であって、
    物理的な音を表すベースミックス信号を受け取るステップと、
    各々が前記オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号を受け取るステップと、
    前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームを受け取るステップと、
    前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームを受け取るステップと、
    前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記オーディオオブジェクト成分を前記ベースミックス信号に合成することにより、ダウンミックス信号を取得する利用ステップと、
    前記ダウンミックス信号、前記オブジェクトオーディオ信号、前記レンダーキューストリーム及び前記オブジェクトミックスキューストリームを多重化して、サウンドトラックデータストリームを形成するステップと、
    を含むことを特徴とする方法。
  2. 前記オブジェクトオーディオ信号は、前記利用ステップの前に第1のオーディオ符号化プロセッサにより符号化される、
    ことを特徴とする請求項1に記載の方法。
  3. 前記オブジェクトオーディオ信号は、前記利用ステップの前に第1のオーディオ復号プロセッサにより復号される、
    ことを特徴とする請求項2に記載の方法。
  4. 前記ダウンミックス信号は、多重化される前に第2のオーディオ符号化プロセッサにより符号化される、
    ことを特徴とする請求項1に記載の方法。
  5. 前記第2のオーディオ符号化プロセッサは、不可逆的デジタル符号化プロセッサである、
    ことを特徴とする請求項4に記載の方法。
  6. 物理的な音を表すオーディオサウンドトラックの復号方法であって、
    オーディオシーンを表すダウンミックス信号と、
    前記オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、
    前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、
    前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームと、
    を有するサウンドトラックデータストリームを受け取るステップと、
    前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記ダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、
    前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、
    前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを利用して、少なくとも1つのオブジェクトレンダリング信号を導出するステップと、
    前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップと、
    を含むことを特徴とする方法。
  7. 前記オーディオオブジェクト成分は、前記ダウンミックス信号から減算される、
    ことを特徴とする請求項6に記載の方法。
  8. 前記オーディオオブジェクト成分は、前記ダウンミックス信号内で前記オーディオオブジェクト成分を知覚できないように前記ダウンミックス信号から部分的に除去される、
    ことを特徴とする請求項6に記載の方法。
  9. 前記ダウンミックス信号は、符号化オーディオ信号である、
    ことを特徴とする請求項6に記載の方法。
  10. 前記ダウンミックス信号は、オーディオデコーダにより復号される、
    ことを特徴とする請求項9に記載の方法。
  11. 前記オブジェクトオーディオ信号は、モノラルオーディオ信号である、
    ことを特徴とする請求項6に記載の方法。
  12. 前記オブジェクトオーディオ信号は、少なくとも2チャネルを有するマルチチャネルオーディオ信号である、
    ことを特徴とする請求項6に記載の方法。
  13. 前記オブジェクトオーディオ信号のそれぞれは、スピーカへの入力である離散的オーディオチャネルである、
    ことを特徴とする請求項6に記載の方法。
  14. 前記オーディオオブジェクト成分は、前記オーディオシーンの声、楽器又は音響効果である、
    ことを特徴とする請求項6に記載の方法。
  15. 前記空間オーディオフォーマットは、リスニング環境を表す、
    ことを特徴とする請求項6に記載の方法。
  16. オーディオ符号化プロセッサであって、
    物理的な音を表すベースミックス信号と、
    各々が前記オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、
    前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、
    前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームと、
    を受け取るための受信機プロセッサと、
    前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームに基づいて前記オーディオオブジェクト成分を前記ベースミックス信号と合成し、ダウンミックス信号を出力するための合成プロセッサと、
    前記ダウンミックス信号、前記オブジェクトオーディオ信号、前記レンダーキューストリーム及び前記オブジェクトミックスキューストリームを多重化してサウンドトラックデータストリームを形成するためのマルチプレクサプロセッサと、
    を含むことを特徴とするオーディオ符号化プロセッサ。
  17. 前記マルチプレクサプロセッサによる処理の前に前記オブジェクトオーディオ信号を符号化する第1のオーディオ符号化プロセッサをさらに含むことを特徴とする請求項16に記載のオーディオ符号化プロセッサ。
  18. 前記オブジェクトオーディオ信号は、第1のオーディオ復号プロセッサにより復号される、
    ことを特徴とする請求項17に記載のオーディオ符号化プロセッサ。
  19. 前記ダウンミックス信号は、多重化される前に第2のオーディオ符号化プロセッサにより符号化される、
    ことを特徴とする請求項16に記載のオーディオ符号化プロセッサ。
  20. オーディオ復号プロセッサであって、
    オーディオシーンを表すダウンミックス信号と、
    前記オーディオシーンの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、
    前記オブジェクトオーディオ信号のミキシングパラメータを定義する少なくとも1つのオブジェクトミックスキューストリームと、
    前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームと、
    を受け取るための受信プロセッサと、
    前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームに基づいて前記ダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去し、残留ダウンミックス信号を出力するためのオブジェクトオーディオプロセッサと、
    前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するための空間フォーマット変換器と、
    前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを処理して少なくとも1つのオブジェクトレンダリング信号を導出するためのレンダリングプロセッサと、
    前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するための合成プロセッサと、
    を含むことを特徴とするオーディオ復号プロセッサ。
  21. 前記オーディオオブジェクト成分は、前記ダウンミックス信号から減算される、
    ことを特徴とする請求項20に記載のオーディオ復号プロセッサ。
  22. 前記オーディオオブジェクト成分は、前記ダウンミックス信号内で前記オーディオオブジェクト成分を知覚できないように前記ダウンミックス信号から部分的に除去される、
    ことを特徴とする請求項20に記載のオーディオ復号プロセッサ。
  23. 物理的な音を表すオーディオサウンドトラックの復号方法であって、
    オーディオシーンを表すダウンミックス信号と、
    前記オーディオサウンドトラックの少なくとも1つのオーディオオブジェクト成分を有する少なくとも1つのオブジェクトオーディオ信号と、
    前記オブジェクトオーディオ信号のレンダリングパラメータを定義する少なくとも1つのオブジェクトレンダーキューストリームと、
    を有するサウンドトラックデータストリームを受け取るステップと、
    前記オブジェクトオーディオ信号及び前記オブジェクトミックスキューストリームを利用して、前記ダウンミックス信号から少なくとも1つのオーディオオブジェクト成分を部分的に除去することにより、残留ダウンミックス信号を取得するステップと、
    前記残留ダウンミックス信号に空間フォーマット変換を適用することにより、前記空間オーディオフォーマットを定義する空間パラメータを有する変換済み残留ダウンミックス信号を出力するステップと、
    前記オブジェクトオーディオ信号及び前記オブジェクトレンダーキューストリームを利用して、少なくとも1つのオブジェクトレンダリング信号を導出するステップと、
    前記変換済み残留ダウンミックス信号と前記オブジェクトレンダリング信号を合成してサウンドトラックレンダリング信号を取得するステップと、
    を含むことを特徴とする方法。
JP2013558183A 2011-03-16 2012-03-15 3次元オーディオサウンドトラックの符号化及び復号 Active JP6088444B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201161453461P 2011-03-16 2011-03-16
US61/453,461 2011-03-16
US201213421661A 2012-03-15 2012-03-15
US13/421,661 2012-03-15
PCT/US2012/029277 WO2012125855A1 (en) 2011-03-16 2012-03-15 Encoding and reproduction of three dimensional audio soundtracks

Publications (2)

Publication Number Publication Date
JP2014525048A JP2014525048A (ja) 2014-09-25
JP6088444B2 true JP6088444B2 (ja) 2017-03-01

Family

ID=46831101

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013558183A Active JP6088444B2 (ja) 2011-03-16 2012-03-15 3次元オーディオサウンドトラックの符号化及び復号

Country Status (8)

Country Link
US (1) US9530421B2 (ja)
EP (1) EP2686654A4 (ja)
JP (1) JP6088444B2 (ja)
KR (2) KR102374897B1 (ja)
CN (1) CN103649706B (ja)
HK (1) HK1195612A1 (ja)
TW (1) TWI573131B (ja)
WO (1) WO2012125855A1 (ja)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR112014017457A8 (pt) * 2012-01-19 2017-07-04 Koninklijke Philips Nv aparelho de transmissão de áudio espacial; aparelho de codificação de áudio espacial; método de geração de sinais de saída de áudio espacial; e método de codificação de áudio espacial
WO2014009878A2 (en) * 2012-07-09 2014-01-16 Koninklijke Philips N.V. Encoding and decoding of audio signals
WO2014013070A1 (en) * 2012-07-19 2014-01-23 Thomson Licensing Method and device for improving the rendering of multi-channel audio signals
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
KR20140047509A (ko) * 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
US9860663B2 (en) * 2013-01-15 2018-01-02 Koninklijke Philips N.V. Binaural audio processing
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
CN104019885A (zh) 2013-02-28 2014-09-03 杜比实验室特许公司 声场分析***
US9344826B2 (en) 2013-03-04 2016-05-17 Nokia Technologies Oy Method and apparatus for communicating with audio signals having corresponding spatial characteristics
US9979829B2 (en) 2013-03-15 2018-05-22 Dolby Laboratories Licensing Corporation Normalization of soundfield orientations based on auditory scene analysis
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
WO2014187987A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
CN104240711B (zh) 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、***和装置
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830326A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio prcessor for object-dependent processing
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
US9319819B2 (en) 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
CN105432098B (zh) 2013-07-30 2017-08-29 杜比国际公司 针对任意扬声器布局的音频对象的平移
CN117037811A (zh) 2013-09-12 2023-11-10 杜比国际公司 多声道音频内容的编码
WO2015056383A1 (ja) 2013-10-17 2015-04-23 パナソニック株式会社 オーディオエンコード装置及びオーディオデコード装置
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN109040946B (zh) 2013-10-31 2021-09-14 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
EP3444815B1 (en) * 2013-11-27 2020-01-08 DTS, Inc. Multiplet-based matrix mixing for high-channel count multichannel audio
JP6299202B2 (ja) * 2013-12-16 2018-03-28 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム及びオーディオ復号装置
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9779739B2 (en) * 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201726B1 (ko) * 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
CN109410962B (zh) 2014-03-21 2023-06-06 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
JP6439296B2 (ja) * 2014-03-24 2018-12-19 ソニー株式会社 復号装置および方法、並びにプログラム
JP6863359B2 (ja) * 2014-03-24 2021-04-21 ソニーグループ株式会社 復号装置および方法、並びにプログラム
CN106664500B (zh) 2014-04-11 2019-11-01 三星电子株式会社 用于渲染声音信号的方法和设备以及计算机可读记录介质
WO2016077320A1 (en) * 2014-11-11 2016-05-19 Google Inc. 3d immersive spatial audio systems and methods
AU2016214553B2 (en) 2015-02-02 2019-01-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an encoded audio signal
CN107211227B (zh) * 2015-02-06 2020-07-07 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染***和方法
CN106162500B (zh) 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现
MX365274B (es) * 2015-06-17 2019-05-29 Sony Corp Dispositivo de transmisión, método de transmisión, dispositivo de recepción, y método de recepción.
US9591427B1 (en) * 2016-02-20 2017-03-07 Philip Scott Lyren Capturing audio impulse responses of a person with a smartphone
US10325610B2 (en) 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
US10031718B2 (en) 2016-06-14 2018-07-24 Microsoft Technology Licensing, Llc Location based audio filtering
US9980077B2 (en) * 2016-08-11 2018-05-22 Lg Electronics Inc. Method of interpolating HRTF and audio output apparatus using same
JP2019533404A (ja) * 2016-09-23 2019-11-14 ガウディオ・ラボ・インコーポレイテッド バイノーラルオーディオ信号処理方法及び装置
US10659904B2 (en) 2016-09-23 2020-05-19 Gaudio Lab, Inc. Method and device for processing binaural audio signal
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10123150B2 (en) 2017-01-31 2018-11-06 Microsoft Technology Licensing, Llc Game streaming with spatial audio
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
KR102633727B1 (ko) 2017-10-17 2024-02-05 매직 립, 인코포레이티드 혼합 현실 공간 오디오
US10504529B2 (en) 2017-11-09 2019-12-10 Cisco Technology, Inc. Binaural audio encoding/decoding and rendering for a headset
MX2020005045A (es) 2017-11-17 2020-08-20 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar parametros de codificacion de audio direccional utilizando cuantificacion y codificacion entropica.
EP3503558B1 (en) 2017-12-19 2021-06-02 Spotify AB Audio content format selection
WO2019143867A1 (en) * 2018-01-18 2019-07-25 Dolby Laboratories Licensing Corporation Methods and devices for coding soundfield representation signals
CN116781827A (zh) 2018-02-15 2023-09-19 奇跃公司 混合现实虚拟混响
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
GB2572420A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
JP2021525980A (ja) 2018-05-30 2021-09-27 マジック リープ, インコーポレイテッドMagic Leap,Inc. フィルタパラメータに関するインデックススキーミング
WO2020037282A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal encoder
WO2020037280A1 (en) 2018-08-17 2020-02-20 Dts, Inc. Spatial audio signal decoder
MX2020009576A (es) 2018-10-08 2020-10-05 Dolby Laboratories Licensing Corp Transformación de señales de audio capturadas en diferentes formatos en un número reducido de formatos para simplificar operaciones de codificación y decodificación.
US10966046B2 (en) * 2018-12-07 2021-03-30 Creative Technology Ltd Spatial repositioning of multiple audio streams
US11418903B2 (en) 2018-12-07 2022-08-16 Creative Technology Ltd Spatial repositioning of multiple audio streams
EP3925236A1 (en) 2019-02-13 2021-12-22 Dolby Laboratories Licensing Corporation Adaptive loudness normalization for audio object clustering
WO2020176893A1 (en) * 2019-02-28 2020-09-03 Sonos, Inc. Playback transitions between audio devices
CN110099351B (zh) * 2019-04-01 2020-11-03 中车青岛四方机车车辆股份有限公司 一种声场回放方法、装置和***
EP3980993A1 (en) * 2019-06-06 2022-04-13 DTS, Inc. Hybrid spatial audio decoder
WO2021006871A1 (en) 2019-07-08 2021-01-14 Dts, Inc. Non-coincident audio-visual capture system
JP7279549B2 (ja) * 2019-07-08 2023-05-23 株式会社ソシオネクスト 放送受信装置
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
EP4049466A4 (en) 2019-10-25 2022-12-28 Magic Leap, Inc. REVERBER FOOTPRINT ESTIMATION
US11910183B2 (en) 2020-02-14 2024-02-20 Magic Leap, Inc. Multi-application audio rendering
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN113596704A (zh) * 2020-04-30 2021-11-02 上海风语筑文化科技股份有限公司 一种实时空间指向性立体声解码方法
CN115497485A (zh) * 2021-06-18 2022-12-20 华为技术有限公司 三维音频信号编码方法、装置、编码器和***
GB2613628A (en) * 2021-12-10 2023-06-14 Nokia Technologies Oy Spatial audio object positional distribution within spatial audio communication systems

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050087956A (ko) * 2004-02-27 2005-09-01 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
ES2376889T3 (es) * 2006-03-24 2012-03-20 Dolby International Ab Generación de mezclas descendentes espaciales a partir de representaciones paramétricas de señales multicanal
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
AU2008215232B2 (en) * 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US20100106271A1 (en) 2007-03-16 2010-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
WO2009054665A1 (en) * 2007-10-22 2009-04-30 Electronics And Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
CN102007532B (zh) 2008-04-16 2013-06-19 Lg电子株式会社 用于处理音频信号的方法和装置
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
WO2010064877A2 (en) 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec

Also Published As

Publication number Publication date
EP2686654A4 (en) 2015-03-11
EP2686654A1 (en) 2014-01-22
TWI573131B (zh) 2017-03-01
US9530421B2 (en) 2016-12-27
US20140350944A1 (en) 2014-11-27
CN103649706A (zh) 2014-03-19
CN103649706B (zh) 2015-11-25
TW201303851A (zh) 2013-01-16
WO2012125855A1 (en) 2012-09-20
HK1195612A1 (zh) 2014-11-14
JP2014525048A (ja) 2014-09-25
KR102374897B1 (ko) 2022-03-17
KR20200014428A (ko) 2020-02-10
KR20140027954A (ko) 2014-03-07

Similar Documents

Publication Publication Date Title
JP6088444B2 (ja) 3次元オーディオサウンドトラックの符号化及び復号
US10820134B2 (en) Near-field binaural rendering
CN112262585B (zh) 环境立体声深度提取
JP5688030B2 (ja) 三次元音場の符号化および最適な再現の方法および装置
TWI442789B (zh) 使用物件式元資料來產生音訊輸出信號之裝置與方法
EP1416769A1 (en) Object-based three-dimensional audio system and method of controlling the same
KR20140028094A (ko) 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US11924627B2 (en) Ambience audio representation and associated rendering
US20070297624A1 (en) Digital audio encoding
KR20050115800A (ko) 확장된 고해상도 오디오 신호 부호화 및 복호화 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150313

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160530

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170203

R150 Certificate of patent or registration of utility model

Ref document number: 6088444

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250