JP6062544B2 - 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP6062544B2
JP6062544B2 JP2015521834A JP2015521834A JP6062544B2 JP 6062544 B2 JP6062544 B2 JP 6062544B2 JP 2015521834 A JP2015521834 A JP 2015521834A JP 2015521834 A JP2015521834 A JP 2015521834A JP 6062544 B2 JP6062544 B2 JP 6062544B2
Authority
JP
Japan
Prior art keywords
basis function
audio signal
function coefficients
coefficients
sound field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015521834A
Other languages
English (en)
Other versions
JP2015522183A5 (ja
JP2015522183A (ja
Inventor
セン、ディパンジャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2015522183A publication Critical patent/JP2015522183A/ja
Publication of JP2015522183A5 publication Critical patent/JP2015522183A5/ja
Application granted granted Critical
Publication of JP6062544B2 publication Critical patent/JP6062544B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Description

米国特許法第119条に基づく優先権の主張
[0001]本特許出願は、2012年7月15日に出願され、本発明の譲受人に譲渡された「UNIFIED CHANNEL-, OBJECT-, AND SCENE-BASED SCALABLE 3D-AUDIO CODING USING HIERARCHICAL CODING」という名称の仮出願第61/671、791号に基づく優先権を主張する。
[0002]本開示は、空間オーディオコード化に関する。
[0003]サラウンドサウンドの進化は、近年、エンターテイメントのための多くの出力フォーマットを利用可能にしてきた。市場におけるサラウンド音響フォーマットの範囲は、ステレオ以上にリビングルームにまで手を付けた点で最も成功している、人気の5.1ホームシアターシステムフォーマットを含む。このフォーマットは、以下の6つのチャネル:前方左(L)、前方右(R)、中央または前方中央(C)、後方左またはサラウンド左(Ls)、後方右またはサラウンド右(Rs)、および低周波数効果(LFE: low frequency effect)、を含む。サラウンドサウンドフォーマットの他の例は、例えば、スーパーハイビジョン(Ultra High Difinition Television)の規格を用いた使用のための、NHK(Nippon Hoso Kyokai、すなわち日本放送協会)によって発展させられた、高まりつつある(growing)7.1フォーマットおよび未来型(futuristic)22.2フォーマットを含む。2次元および/または3次元でオーディオを符号化することは、サラウンドサウンドフォーマットにとって望ましい。
[0004]一般的な構成にしたがったオーディオ信号処理の方法は、第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化することを含む。この方法はまた、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第2の音場を記述する基底関数係数の第2のセットと基底関数係数の第1のセットを結合することを含む。特徴を読み取る機械にこのような方法を行わせる有体的な特徴を有するコンピュータ可読記憶媒体(例えば、非一時的な媒体)も開示されている。
[0005]一般的な構成にしたがったオーディオ信号処理のための装置は、第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するための手段と、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第2の音場を記述する基底関数係数の第2のセットと基底関数係数の第1のセットを結合するための手段とを含む。
[0006]別の一般的な構成にしたがったオーディオ信号処理のための装置は、第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するように構成されたエンコーダを含む。この装置はまた、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第2の音場を記述する基底関数係数の第2のセットと基底関数係数の第1のセットを結合するように構成された結合器を含む。
L個のオーディオオブジェクトの例を例示している。 1つのオブジェクトベースの(object-based)コード化手法の概略的な概要を図示している。 空間オーディオオブジェクトコード化(SAOC)の概略的な概要を図示している。 空間オーディオオブジェクトコード化(SAOC)の概略的な概要を図示している。 シーンベースの(scene-based)コード化の例を図示している。 MPEGコデックを使用した標準化のための一般的な構造を例示している。 次数0および1の球面調和基底関数(spherical harmonic basis function)の大きさの表面がメッシュのプロットの例を図示している。 次数2の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。 一般的な構成にしたがったオーディオ信号処理の方法M100に関するフローチャートを図示している。 タスクT100のインプリメンテーションT102のフローチャートを図示している。 タスクT100のインプリメンテーションT104のフローチャートを図示している。 タスクT100のインプリメンテーションT106のフローチャートを図示している。 方法M100のインプリメンテーションM110のフローチャートを図示している。 方法M100のインプリメンテーションM120のフローチャートを図示している。 方法M100のインプリメンテーションM300のフローチャートを図示している。 方法M100のインプリメンテーションM200のフローチャートを図示している。 一般的な構成にしたがったオーディオ信号処理の方法M400に関するフローチャートを図示している。 方法M200のインプリメンテーションM210のフローチャートを図示している。 方法M200のインプリメンテーションM220のフローチャートを図示している。 方法M400のインプリメンテーションM410のフローチャートを図示している。 一般的な構成にしたがったオーディオ信号処理のための装置MF100のブロック図を図示している。 手段F100のインプリメンテーションF102のブロック図を図示している。 手段F100のインプリメンテーションF104のブロック図を図示している。 タスクF100のインプリメンテーションF106のブロック図を図示している。 装置MF100のインプリメンテーションMF110のブロック図を図示している。 装置MF100のインプリメンテーションMF120のブロック図を図示している。 装置MF100のインプリメンテーションMF300のブロック図を図示している。 装置MF100のインプリメンテーションMF200のブロック図を図示している。 一般的な構成にしたがったオーディオ信号処理の装置MF400に関するブロック図を図示している。 一般的な構成にしたがったオーディオ信号処理のための装置A100のブロック図を図示している。 装置A100のインプリメンテーションA300のブロック図を図示している。 一般的な構成にしたがったオーディオ信号処理の装置A400に関するブロック図を図示している。 エンコーダ100のインプリメンテーション102のブロック図を図示している。 エンコーダ100のインプリメンテーション104のブロック図を図示している。 エンコーダ100のインプリメンテーション106のブロック図を図示している。 装置A100のインプリメンテーションA110のブロック図を図示している。 装置A100のインプリメンテーションA120のブロック図を図示している。 装置A100のインプリメンテーションA200のブロック図を図示している。 統合された(unified)コード化アーキテクチャに関するブロック図を図示している。 関連するアーキテクチャに関するブロック図を図示している。 統合されたエンコーダUE10のインプリメンテーションUE100のブロック図を図示している。 統合されたエンコーダUE100のインプリメンテーションUE300のブロック図を図示している。 統合されたエンコーダUE100のインプリメンテーションUE305のブロック図を図示している。 統合されたエンコーダUE300のインプリメンテーションUE310のブロック図を図示している。 統合されたエンコーダUE100のインプリメンテーションUE250のブロック図を図示している。 統合されたエンコーダUE250のインプリメンテーションUE350のブロック図を図示している。 分析器150aのインプリメンテーション160aのブロック図を図示している。 分析器150bのインプリメンテーション160bのブロック図を図示している。 統合されたエンコーダUE250のインプリメンテーションUE260のブロック図を図示している。 統合されたエンコーダUE350のインプリメンテーションUE360のブロック図を図示している。
詳細な説明
[0056]その文脈によって明示的に限定されない限り、「信号」という用語は、ワイヤ、バス、または他の送信媒体上で表現されるメモリロケーション(または、メモリロケーションのセット)の状態を含む、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「作り出す」という用語は、計算する、または、そうでなければ生成する等の、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「計算する」という用語は、計算する、評価する、推定する、および/または、複数の値から選択する等の、その一般的な意味のいずれも示すようにここで使用される。その文脈によって明示的に限定されない限り、「取得する」という用語は、計算する、導出する、(例えば、外部デバイスから)受信する、および/または、(例えば、記憶要素のアレイから)検索する等の、その一般的な意味のいずれも示すように使用される。その文脈によって明示的に限定されない限り、「選択する」という用語は、識別する、示す、適用する、および/または、2つ以上のセットのうちの少なくとも1つ、ならびに2つ以上のセットのうちの全てより少ない数(fewer than all, of a set of two or more)を使用する等の、その一般的な意味のいずれも示すように使用される。本説明および特許請求の範囲において、「備える」という用語が使用されている場合、それは、他の要素または動作を除外しない。「に基づく」という用語(「AはBに基づく」等)は、(i)「から導出する」(例えば、「Bは、Aの先行するものである」)、(ii)「に少なくとも基づいて」(例えば、「Aは少なくともBに基づく」)、および、特定の文脈で適切な場合、(iii)「に等しい」(例えば、「AはBに等しい」または「AはBと同じである」)というケースを含む、その一般的な意味のいずれも示すように使用される。同様に、「に応答して」という用語は、「に少なくとも応答して」を含む、その一般的な意味のいずれも示すように使用される。
[0057]マルチマイクロフォンのオーディオ感知デバイスのマイクロフォンの「ロケーション」に対する参照は、文脈によって他の方法で示されていない限り、マイクロフォンの音響的に感知できる面の中心のロケーションを示している。「チャネル」という用語は特定の文脈にしたがって、あるときには信号パスを示すように、および、またあるときにはこのようなパスによって搬送される信号を示すように使用される。他の方法で示されていない限り、「一連の」という用語は、2つ以上のアイテムのシーケンスを示すように使用される。「対数」という用語は、10を底とする対数を示すように使用されるが、このような動作の他の底への拡張は、本開示の範囲内にある。「周波数成分」という用語は、(例えば、高速フーリエ変換によって生成されるような)信号の周波数ドメイン表現のサンプル、または、信号のサブバンド(例えば、バーク尺度またはメル尺度のサブバンド)等の、信号の周波数帯域または周波数のセットの中の1つを示すように使用される。
[0058]他の方法で示されていない限り、特定の特徴を有する装置の動作のいずれの開示も、類似する特徴を有する方法を開示する(またその逆もまた同じである)ようにも明示的に意図されており、特定の構成にしたがった装置の動作のいずれの開示も、類似する構成にしたがった方法を開示する(またその逆もまた同じである)ようにも明示的に意図されている。「構成」という用語は、その特定の文脈によって示されているような、方法、装置、および/または、システムに関して使用されうる。「方法」、「プロセス」、「手順」、および、「技法」という用語は、特定の文脈によって他の方法で示されていない限り、包括的に、かつ交換可能に使用される。「装置」および「デバイス」という用語もまた、特定の文脈によって他の方法で示されていない限り、包括的に、かつ交換可能に使用される。通常、「要素」および「モジュール」という用語は、より大きな構成の一部を示すように使用される。その文脈によって明示的に限定されない限り、「システム」という用語は、「共通の目的を供給するために相互動作する要素のグループ」を含む、その一般的な意味のいずれも示すようにここで使用される。
[0059]文書の一部の参照による何らかの組み込みもまた、その一部の内で参照される用語の定義または変数を組み込むことが理解されるだろう。ここにおいて、そのような定義は、文書中、ならびに組み込まれている一部で参照されているいずれかの図面中、のどこかに登場する。決定的な項目によって最初に導入されない限り、請求項の要素を変更するために使用される序数の用語(例えば、「第1の」、「第2の」、「第3の」等)は、それ自体では、別の要素に対する請求項の要素のいずれの優先または順序を示さず、むしろ同じ名前を有する(しかしながら序数の用語を使用する)別の請求項の要素から請求項の要素を単に区別する。その文脈によって明示的に限定されない限り、「複数の」および「セット」という用語の各々は、1よりも大きい整数の量を示すようにここで使用される。
[0060]消費者オーディオの分野の現在の状況は、予め指定された位置でラウドスピーカ(loudspeaker)を通じて再生されることになっている、チャネルベースの(channel-based)サラウンドサウンドを使用する空間コード化である。チャネルベースのオーディオは、(例えば、5.1サラウンドサウンド/ホームシアターおよび22.2フォーマットのための)所定のロケーションに位置付けられることになっている、ラウドスピーカの各々のためのラウドスピーカフィードを伴う。
[0061]空間オーディオコード化に対する別の主要な手法は、(情報の中でも特に)空間におけるオブジェクトのロケーション座標を含む関連メタデータと共に、単一オーディオオブジェクトのための離散パルス符号変調(PCM)データを伴う、オブジェクトベースのオーディオである。オーディオオブジェクトは、個々のパルス符号変調(PCM)データストリームを、それらの3次元(3D)位置座標、およびメタデータとして符号化される他の空間情報と共に、カプセル化する。コンテンツ作成段階では、個々の空間オーディオオブジェクト(例えば、PCMデータ)およびそれらのロケーション情報は、別個に符号化される。図1Aは、Lつのオーディオオブジェクトの例を例示している。復号およびレンダリング側で、メタデータは、3D音場を再生成するために、PCMデータと結合される。
[0062]オブジェクトベースの原理を使用する2つの例が、参照のためにここで提供されている。図1Bは、各サウンドソースPCMストリームが、それらのそれぞれのメタデータ(例えば、空間データ)と共に、エンコーダOE10によって、個々に符号化され、送信される第1の例となるオブジェクトベースのコード化スキームの概略的な概要を図示している。レンダラ側で、PCMオブジェクトおよび関連するメタデータは、スピーカの位置に基づいて、スピーカフィードを計算するために(例えば、デコーダ/ミキサ/レンダラ ODM10によって)使用される。例えば、パンニング方法(例えば、ベクトル基底振幅パンニング(vector base amplitude panning)、すなわちVBAP)は、個々にPCMストリームをサラウンドサウンドミックスに戻すように空間化するために使用されうる。レンダラ側で、ミキサは大抵、編集可能な制御信号として、配列するPCMトラックおよび空間メタデータを有する、マルチトラックエディタの外観を有する。
[0063]図1Bで図示されているような手法は、最大のフレクシビリティを可能にするけれども、それはまた、潜在的な難点を有する。コンテンツ作成側から個々のPCMオーディオオブジェクトを取得することは困難であり、スキームは、デコーダ側が元のオーディオオブジェクトを容易に取得できるために、著作権で保護されたマテリアルに不十分なレベルの保護を提供しうる。現代の映画のサウンドトラックもまた、各PCMを個々に符号化することが、適度な数のオーディオオブジェクトを用いても、全てのデータを限定された帯域幅送信チャネルに合わせることに失敗しうるような、数百の重複するサウンドイベントを簡単に伴いうる。そのようなスキームはこの帯域幅の課題に対処しないので、この手法は帯域幅使用の観点で禁止でありうる。
[0064]第2の例は、全てのオブジェクトが、送信のために、モノラルまたはステレオPCMストリームにダウンミックスされる、空間オーディオオブジェクトコード化(SAOC)である。バイノーラルキューコード化(BCC: binaural cue coding)に基づく、そのようなスキームはまた、両耳間レベル差(ILD: interaural level difference)、両耳間時間差(ITD: interaural time difference)、およびチャネル間コヒーレンス(ICC:inter-channel coherence、ソースの拡散性または知覚されるサイズに関連する)のようなパラメータの値を含み、ならびにオーディオチャネルの10分の1ほど小さくまで(例えば、エンコーダOE20によって)符号化されうる、メタデータビットストリームを含む。図2Aは、デコーダOD20およびミキサOM20が別個のモジュールであるSAOCインプリメンテーションの概略的な図を図示している。図2Bは、一体化されたデコーダおよびミキサODM20を含むSAOCインプリメンテーションの概略図を図示している。
[0065]インプリメンテーションでは、SAOCは、5.1フォーマット信号の6つのチャネルが、レンダラでの残りのチャネルの合成を可能にする(ILD、ITD、ICC等の)対応するサイド情報で、モノラルまたはステレオPCMストリームにダウンミックスされる、MPEGサラウンド(MPS、ISO/IEC14496−3、高効率アドバンスドオーディオコード化、すなわちHeAACとも呼ばれる)と密に結合される。そのようなスキームが、送信中に極めて低いビットレートを有しうる一方で、空間レンダリングのフレクシビリティは、通常SAOCに限定される。オーディオオブジェクトの意図されるレンダリングロケーションが元のロケーションに非常に近くない限り、オーディオ品質が危険に晒されるだろうと予期されうる。また、オーディオオブジェクトの数が増加するとき、メタデータの助力でそれらの各々に対する個々の処理を行うことは困難になりうる。
[0066]オブジェクトベースのオーディオでは、音場を記述するための多くのオーディオオブジェクトが存在するときに伴われうる過剰なビットレートまたは帯域幅に対処することが望ましくありうる。同様に、チャネルベースのオーディオのコード化もまた、帯域幅制限が存在するときに課題となりうる。
[0067]空間オーディオコード化に対する(例えば、サラウンドサウンドコード化に対する)さらなる手法は、球面調和基底関数の係数を使用して音場を表すことを伴う、シーンベースのオーディオである。そのような係数は、「球面調和係数(spherical harmonic coefficients)」、すなわちSHCとも呼ばれる。シーンベースのオーディオは通常、Bフォーマットのような、アンビソニックス(Ambisonics)フォーマットを使用して符号化される。Bフォーマット信号のチャネルは、ラウドスピーカフィードに対してよりむしろ、音場の球面調和基底関数に対応する。第1の次数のBフォーマット信号は、4つのチャネル(無指向性チャネルWおよび3つの指向性チャネルX、Y、X)まで有する;第2の次数のBフォーマット信号は、9つのチャネル(4つの第1の次数のチャネルおよび5つの追加のチャネルR、S、T、U、V)まで有する;ならびに第3の次数のBフォーマット信号は、16つのチャネル(9つの第2の次数のチャネルおよび7つの追加のチャネルK、L、M、N、O、P、Q)までを有する。
[0068]図3Aは、シーンベースの手法を用いた、ストレートフォワード符号化および復号プロセスを描いている。この例では、シーンベースのエンコーダSE10は、(例えば、SHレンダラSR10によって)レンダリングするためにSHCを受信するように、送信(および/または記憶)され、かつシーンベースのデコーダSD10で復号されるSHCの記述を生成する。このような符号化は、(例えば、1つまたは複数のコードブックインデックスへの)量子化、誤り訂正コード化、冗長コード化等のような、帯域幅圧縮のための1つまたは複数の損失もしくは無損失コード化技法を含むことができる。さらに、あるいは代わりとして、このような符号化は、オーディオチャネル(例えば、マイクロフォン出力)を、Bフォーマット、Gフォーマット、または高次アンビソニックス(HOA)等の、アンビソニックフォーマットに符号化することを含むことができる。一般的に、エンコーダSE10は、(損失コード化または無損失コード化のどちらかに関する)係数および/または不適切さ(irrelecancies)の中の冗長性を利用する技法を使用してSHCを符号化することができる。
[0069]空間オーディオ情報の標準化されたビットストリームへの符号化、およびレンダラのロケーションでスピーカジオメトリおよび音響状況を知らず、かつロケーションでスピーカジオメトリおよび音響状況に適合可能な後に続く復号を提供することが望ましくありうる。そのような手法は、再生のために最終的に使用される特定のセットアップに関わらず、統一された傾聴エクスペリエンスの目的を提供することができる。図3Bは、MPEGコデックを使用した、そのような標準化のための一般的な構造を例示している。この例では、エンコーダMP10への入力オーディオソースは、例えば、チャネルベースのソース(例えば、1.0(モノフォリック)、2.0(ステレオフォニック)、5.1、7.1、11.1、22.2)、オブジェクトベースのソース、およびシーンベースのソース(例えば、高次球面調和、アンビソニックス)、のうちのいずれか1つまたは複数を含むことができる。同様に、デコーダ(およびレンダラ)MP20によって生成されるオーディオ出力は、例えば、モノフォニック、ステレオフォニック、5.1、7.1、および/または22.2のラウドスピーカアレイのためのフィード;不規則に分配されたラウドスピーカアレイのためのフィード;ヘッドフォンのためのフィード;相互動作オーディオ、のうちの1つまたは複数を含むことができる。
[0070]オーディオマテリアルが(例えば、コンテンツ作成側によって)一度作成され、異なる出力およびラウドスピーカセットアップに後に復号およびレンダリングされることができるフォーマットに符号化される、「一度生成、複数使用」の原理に従うことも望ましくありうる。例えばハリウッドのスタジオのようなコンテンツ作成側は通常、一度、映画のためのサウンドトラックを生成することを望み、各可能性のあるラウドスピーカ構成のためにそれをリミックスする労力は消費することは望まない。
[0071](i)チャネルベース、(ii)シーンベース、および(iii)オブジェクトベース、の3つのタイプの入力のいずれか1つを取ることになる標準化されたエンコーダを取得することが望ましくありうる。この開示は、チャネルベースのオーディオおよび/またはオブジェクトベースのオーディオの、後の符号化のための共通のフォーマットへの変換を取得するように使用されうる方法、システム、および装置を説明している。この手法では、オブジェクトベースのオーディオフォーマットのオーディオオブジェクト、および/またはチャネルベースのオーディオフォーマットのチャネルが、基底関数係数の階層のセットを取得するために基底関数のセットに対してそれらをプロジェクトすることによって変換される。1つのそのような例では、オブジェクトおよび/またはチャネルが、球面調和係数すなわちSHCの階層のセットを取得するために球面調和基底関数のセットに対してそれらをプロジェクトすることによって変換される。そのような手法は、例えば、(シーンベースのオーディオのための自然の入力もSHCであるため)統合されたビットストリームと同様に統合された符号化エンジンを許容するようにインプリメントされうる。図8は、以下で論じられるように、そのような統合されたエンコーダの1つの例AP150に関するブロック図を図示している。階層のセットの他の例は、ウェーブレット変換係数のセット、および多重解像度の基底関数(multiresolution basis functions)の係数の他のセットを含む。
[0072]そのような変換によって作り出された係数は、階層的である(つまり互いに対して定義された順序を有する)、それらをスケーラブルコード化の影響を受けやすくする利点を有する。送信される(および/または記憶される)係数の数は、例えば利用可能な帯域幅(および/または記憶容量)に比例して変化されうる。そのようなケースでは、より高い帯域幅(および/または記憶容量)が利用可能であるとき、より多くの係数が、レンダリング中により高い空間解像度を許容しながら、送信されうる。そのような送信はまた、表現のビットレートが、音場を構築するために使用されたオーディオオブジェクトの数から独立しうるように、係数の数が、音場を作り上げるオブジェクトの数から独立することを可能にする。
[0073]そのような変換の潜在的な利点は、それが、コンテンツプロバイダが、所有権を持つオーディオオブジェクトを、それらがエンドユーザによってアクセスされる可能性なく符号化のために利用可能になるようにすることを可能にすることである。そのような結果は、係数から元のオーディオオブジェクトへ戻る無損失逆変換が存在しないインプリメンテーションで取得されうる。例えば、そのような所有権を持つ情報の保護は、ハリウッドのスタジオの主要な関心事である。
[0074]音場を表すためにSHCのセットを使用することは、音場を表すために要素の階層のセットを使用する一般的な手法の特定の例である。SHCのセットのような要素の階層のセットは、低次要素(lower-ordered)の基本のセットが、モデルとされた音場の完全な表現を提供するように要素が順序付けされるセットである。そのセットが高次要素(higher-order)を含むように拡張されるため、空間における音場の表現は、より詳細となる。
[0075](例えば、図3Aで図示されているような)ソースSHCは、シーンベース対応の(scene-based-capable)録音スタジオにおいてミキシングエンジニアによってミックスされるソース信号でありうる。ソースSHCはまた、マイクロフォンアレイによって捕捉された信号から、またはラウドスピーカのサラウンドアレイによる音波表現(sonic presentation)の録音から作り出されうる。PCMストリームおよび関連するロケーション情報(例えば、オーディオオブジェクト)のSHCのソースセットへのコンバージョンもまた考慮される。
[0076]以下の式は、どのようにPCMオブジェクト
が、(ロケーション座標等を含む)そのメタデータと共に、SHCのセットに変換されうるかの例を図示しており、
ここで、
であり、cはサウンドのスピード(約343m/s)であり、
は、音場内の基準の点(または観測点)であり、
は、次数nの球ベッセル関数であり、
は、次数nおよび下位次数(suborder)mの球面調和基底関数である(SHCのいくつかの記述は、nを(すなわち、対応するルジャンドル多項式の)ディグリー(degree)と、ならびにmを次数と、呼ぶ(label))。角括弧内の用語が、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような、様々な時間周波数変換によって概算されうる信号(つまり
)の周波数ドメイン表現であることが認識されうる。
[0077]図4は、ディグリー0および1の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。関数
の大きさは、球面および無指向性である。関数
は、+yおよび‐yの方向にそれぞれ伸びる正および負の球状ローブ(spherical lobes)を有する。関数
は、+zおよび‐zの方向にそれぞれ伸びる正および負の球状ローブを有する。関数
は、+xおよび‐xの方向にそれぞれ伸びる正および負の球状ローブを有する。
[0079]図5は、ディグリー2の球面調和基底関数の大きさの表面がメッシュのプロットの例を図示している。関数
および
は、x−y面で伸びるローブを有する。関数
は、y−z面で伸びるローブを有し、関数
は、x−y面で伸びるローブを有する。関数
は、+zおよび‐z方向に伸びる正のローブ、およびx−y面で伸びるトロイダル形の(toroidal)負のローブを有する。
[0079]そのセットにおけるSHCの合計数は、様々な要因に依存しうる。シーンベースのオーディオでは、例えば、SHCの合計数は、録音アレイにおけるマイクロフォントランスデューサの数によって制限されうる。チャネルベースのオーディオおよびオブジェクトベースのオーディオでは、SHCの合計数は、利用可能な帯域幅によって決定されうる。1つの例では、各周波数に対して25つの係数を伴う4次(forth-order)式(つまり、
)が使用される。ここで説明されている手法を用いて使用されうる階層のセットの他の例は、ウェーブレット変換係数のセット、および多重解像度の基底関数の係数の他のセットを含む。
[0080]音場は、以下のような式を使用してSHCに関して表現されうる。
この式は、音場の任意の点
における圧力
がSHC
によって一意的に表現されうることを図示している。SHC
は、4面体または球面マイクロフォンアレイのような、様々なマイクロフォンアレイ構成のいずれかを使用して物理的に獲得(例えば、録音)される信号から導出されうる。この形態の入力は、提案されたエンコーダへのシーンベースのオーディオ入力を表す。非限定の例では、SHCエンコーダへの入力が、アイゲンマイク(mhアコースティックス LLC、サンフランシスコ、CA)のような、マイクロフォンアレイの異なる出力チャネルであることが前提とされる。アイゲンマイクアレイの1つの例は、em32アレイであり、それは、出力信号
の各々、ここでi=1から32である、がマイクロフォンiによって時間サンプルtにおいて録音された圧力であるように、直径8.4センチの球体の表面上に配列された32つのマイクロフォンを含む。
[0081]代わりとして、SHC
は、音場のチャネルベースの記述またはオブジェクトベースの記述から導出されうる。例えば、個々のオーディオオブジェクトに対応する音場に関する係数
は、
として表示され、ここにおいてiは
であり、
は、次数nの(第二種(second kind)の)球ハンケル関数であり、
はオブジェクトのロケーションであり、
は、周波数の関数としてのソースエネルギーである。当業者は、ラジアル成分(radial component)を含まない表現のような、係数
の(あるいは、同等に、対応する時間ドメイン係数
の)他の表現が使用されうることを認識するだろう。
[0082]周波数の関数としてソースエネルギー
を知ることは、我々が各PCMオブジェクトおよびそのロケーション
をSHC
にコンバートすることを可能にする。このソースエネルギーは、例えば、高速フーリエ変換(例えば、256−、−512−、または1024−ポイントのFFT)をPCMストリームに対して行うことによって等、時間周波数分析技法を使用して取得されうる。さらに、(上記が線形および直交分解であるため)各オブジェクトに関する係数
が加法式(additive)であることが図示されうる。この方法で、PCMオブジェクトの大きさは、
係数によって(例えば、個々のオブジェクトに関する係数ベクトルの合計として)表されうる。本来、これらの係数は、音場についての情報(3D座標の関数としての圧力)を含み、上記は、観測点
の近接において、個々のオブジェクトから全体の音場の表現への変換を表す。
[0083]当業者は、球面調和基底関数のいくつかのわずかに異なる定義(例えば、実数、複素数、基底(例えば、N3D)、半基底(例えば、SN3D)、ファースモーム(FuMaまたはFMH)等)が知られており、結果として式(1)(つまり、音場の球面調和分解)および式(2)(つまり、点ソースによって生成された音場の球面調和分解)がわずかに異なる形態で文字通り出現することを当業者は認識するだろう。本説明は、球面調和基底関数のいずれの特定の形態にも限定されず、実際要素の他の階層のセットにも一般的に適用可能である。
[0084]図6Aは、タスクT100およびT200を含む一般的な構成にしたがった方法M100のフローチャートを図示している。タスクT100は、第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号(例えば、ここで説明されているようなオーディオオブジェクトのオーディオストリーム)および(例えば、ここで説明されているようなオーディオオブジェクトのメタデータからの)オーディオ信号に関する空間情報を符号化する。タスクT200は、時間間隔中の第2の音場を記述する基底関数係数の第2のセット(例えば、SHCのセット)と基底関数係数の第1のセットを、時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、結合する。
[0085]タスクT100は、係数を計算する前に、オーディオ信号に時間−周波数分析を行うようにインプリメントされうる。図6Bは、サブタスクT110およびT120を含むタスクT100のこのようなインプリメンテーションT102のフローチャートを図示している。タスクT110は、オーディオ信号(例えば、PCMストリーム)の時間−周波数分析を行う。分析の結果およびオーディオ信号に関する空間情報(例えば、方向および/または距離等の、ロケーションデータ)に基づいて、タスクT120は、基底関数係数の第1のセットを計算する。図6Cは、タスクT110のT115を含むタスクT102のインプリメンテーションT104のフローチャートを図示している。タスクT115は、(例えば、ソースエネルギー
に関してここで説明されているように)複数の周波数の各々でオーディオ信号のエネルギーを計算する。そのようなケースでは、タスクT120は、(例えば、上記の式(3)のような式にしたがって)例えば、球面調和係数のセットとして係数の第1のセットを計算するようにインプリメントされうる。複数の周波数の各々でオーディオ信号の位相情報を計算するためにタスクT115をインプリメントすること、また同様にこの情報にしたがって係数のセットを計算するためにタスクT120をインプリメントすることが望ましくありうる。
[0086]図7Aは、サブタスクT130およびT140を含むタスクT100の代わりのインプリメンテーションT106のフローチャートを図示している。タスクT130は、中間係数のセットに生成するために、入力信号に最初の基底分解を行う。1つの例では、このような分解は、
として、時間ドメインで表示され、ここにおいて
は、時間サンプルt、次数n、および下位次数mの間の中間係数を指し、
は、入力ストリームiに関連付けられた高位(elevation)
および方位(azimuth)
(例えば、対応するマイクロフォンiのサウンド感知表面に対して垂直(normal)の高位および方位)に関する、次数nおよび下位次数mにおける球面基底関数を指す。特定の、しかしながら限定されない例では、25つの中間係数Dのセットが時間サンプルtの間に取得されるように、次数nの最大Nが4に等しい。タスクT130が周波数ドメインでも行われうることは明示的に留意されたい。
[0087]タスクT140は、係数のセットを生成するために、中間係数に波面モデル(wavefront model)を適用する。1つの例では、タスクT140は、球面調和係数のセットを生成するために、球波面モデルにしたがって中間係数をフィルタする。そのような動作は、
として表示され、ここにおいて、
は、時間サンプルtの間の次数nおよび下位次数mにおける時間ドメイン球面調和係数を指し、
は、球波面モデルのための次数nに関するフィルタの時間ドメインインパルス応答を指し、
は、時間ドメイン畳み込み演算の作用素(time-domain convolution operator)である。各フィルタ
ここにおいて、
は、有限インパルス応答フィルタ(finite-impulse-response filter)としてインプリメントされうる。1つの例では、各フィルタ
は、周波数ドメインフィルタの逆フーリエ変換としてインプリメントされ、
、kは波数
であり、rは関心の球面領域の半径(例えば、球面マイクロフォンアレイの半径)であり、
は、次数nの第二種の球ハンケル関数の(rに関する)微分係数(derivative)を指す。
[0088]別の例では、タスクT140は、球面調和係数のセットを生成するために、平面波面モデルにしたがって、中間係数をフィルタする。例えば、そのような動作は、
として表示され、ここにおいて、
は、時間サンプルtの間の次数nおよび下位次数mにおける時間ドメイン球面調和係数を指し、
は、平面波面モデルのための次数nに関するフィルタの時間ドメインインパルス応答を指す。各フィルタ
ここにおいて、
は、有限インパルス応答フィルタとしてインプリメントされうる。1つの例では、各フィルタ
は、周波数ドメインフィルタの逆フーリエ変換としてインプリメントされる。
タスクT140のこれらの例のどれかが周波数ドメインでも(例えば、乗算としても)行われうることは明示的に留意されたい。
[0089]図7Bは、タスクT200のインプリメンテーションT210を含む方法M100のインプリメンテーションM110のフローチャートを図示している。タスクT210は、結合されたセットを生成するために、要素毎の合計(例えば、ベクトル合計)を計算することによって係数の第1および第2のセットを結合する。別のインプリメンテーションでは代わりに、タスクT200は、第1および第2のセットを連結させるようにインプリメントされる。
[0090]タスクT200は、別のデバイスまたはプロセスによって生成されるような係数の第2のセット(例えば、アンビソニックスまたは他のSHCビットストリーム)と、タスクT100によって生成されるような、係数の第1のセットを結合するように構成されうる。代わりにまたは加えて、タスクT200は、(例えば、2つ以上のオーディオオブジェクトの各々に対応する)タスクT100の複数の例によって生成される係数のセットを結合するように構成されうる。したがって、タスクT100の複数の例を含むように方法M100をインプリメントすることが望ましくありうる。図8は、タスクT100(例えば、タスクT102、T104、またはT106)のL個の例T100a‐T100Lを含む方法M100のそのようなインプリメンテーションM200のフローチャートを図示している。方法M110はまた、結合されたセットを生成するために、基底関数係数のL個のセット(例えば、要素毎の合計として)結合するタスクT200(例えば、タスクT210)のインプリメンテーションT202を含む。方法M110は、例えば、基底関数係数の結合されたセット(例えば、SHC)に(例えば、図1Aで例示されているような)L個のオーディオオブジェクトのセットを符号化するように使用されうる。図9は、別のデバイスまたはプロセスによって生成されるような係数のセット(例えば、SHC)と、タスクT100a‐T100Lによって生成される係数のセットを結合する、タスクT202のインプリメンテーションT204を含む方法M200のインプリメンテーションM210のフローチャートを図示している。
[0091]タスクT200によって結合された係数のセットが同じ数の係数を有する必要がないことがここで考慮され、開示されている。セットのうちの1つが別のものよりも小さいケースに適応するために、階層的に最も低次の(lowest-order)係数で(例えば、球面調和基底関数
に対応する係数で)係数のセットを配置するようにタスクT210をインプリメントすることが望ましくありうる。
[0092]オーディオ信号を符号化するために使用される係数の数(例えば、最も高次の(highest-order)係数の数)は、信号毎で(from one signal to another)(例えば、オーディオオブジェクト毎で)異なりうる。例えば、1つのオブジェクトに対応する音場は、別のオブジェクトに対応する音場よりも低い解像度で符号化されうる。このようなバリエーションは、例えば、表現(例えば、フォアグラウンドの音声対バックグラウンドの効果音(effect))に対するオブジェクトの重要性、傾聴者の頭に対するオブジェクトのロケーション(例えば、傾聴者の頭の側面のオブジェクトは、傾聴者の頭の前方のオブジェクトよりも定位可能(localizable)ではないので、より低い空間解像度で符号化されうる)、および水平面に対するオブジェクトのロケーション(例えば、面の外で情報を符号化する係数がその中で情報を符号化するものよりもさほど重要でなくなりうるように、人間の聴覚システムがこの面の外の方がその中よりも低い定位能力を有する)、のうちのいずれか1つまたは複数を含みうる。
[0093]統合された空間オーディオコード化のコンテキストでは、チャネルベースの信号(またはラウドスピーカフィード)は単に、オブジェクトのロケーションがラウドスピーカの所定の位置であるオーディオ信号(例えば、PCMフィード)である。したがって、チャネルベースのオーディオは、オブジェクトの数がチャネルの数に固定され、空間情報がチャネル識別(例えば、L、C、R、Ls、Rs、LFE)に潜在する、オブジェクトベースのオーディオのサブジェクトとして単に扱われうる。
[0094]図7Cは、タスクT50を含む方法M100のインプリメンテーションM120のフローチャートを図示している。タスクT50は、マルチチャネルオーディオ入力のチャネルに関する空間情報を生成する。このケースでは、タスクT100(例えば、タスクT102、T104、またはT106)が空間情報で符号化されるオーディオ信号としてチャネルを受信するように構成される。タスクT50は、チャネルベースの入力のフォーマットに基づいて、空間情報(例えば、基準方向またはポイントに対する、対応するラウドスピーカの方向またはロケーション)を生成するようにインプリメントされうる。ただ1つのチャネルフォーマットが処理されることになるケース(例えば、5.1のみまたは7.1のみ)では、タスクT130は、チャネルに関する対応する固定された方向またはロケーションを生成するように構成されうる。複数のチャネルフォーマットが適応されることになるケースでは、タスクT130は、(例えば、5.1、7.1、または22.2フォーマットを示す)フォーマット識別子にしたがって、チャネルに関する空間情報を生成するようにインプリメントされうる。フォーマット識別子は、例えば、メタデータとして、あるいは、現在アクティブである入力PCMストリームの数の指示として受信されうる。
[0095]図10は、符号化タスクT120a‐T120Lに対する、チャネルベースの入力のフォーマットに基づいて各チャネルに関する空間情報(例えば、対応するラウドスピーカの方向またはロケーション)を生成する、タスクT50のインプリメンテーションT52を含む方法M200のインプリメンテーションM220のフローチャートを図示している。ただ1つのチャネルフォーマットが処理されることになるケース(例えば、5.1のみまたは7.1のみ)では、タスクT52はロケーションデータの対応する固定されたセットを生成するように構成されうる。複数のチャネルフォーマットが適応されることになるケースでは、タスクT52は、上記で説明されたフォーマット識別子にしたがって、各チャネルに関するロケーションデータを生成するようにインプリメントされうる。方法M220はまた、タスクT202がタスクT204の例であるようにインプリメントされうる。
[0096]さらなる例では、方法M220は、オーディオ入力信号が(例えば、入力ビットストリームのフォーマットによって示されているように)チャネルベースであるのか、オブジェクトベースであるのかをタスクT52が検出し、それに応じて(チャネルベースの入力では)タスクT52からの、または(オブジェクトベースの入力では)オーディオ入力からの、空間情報を使用するようにタスクT120a‐Lの各々を構成するよう、インプリメントされる。別のさらなる例では、オブジェクトベースの入力を処理するための方法M200の第1の例およびチャネルベースの入力を処理するための方法M200の(例えば、M220の)第2の例は、オブジェクトベースおよびチャネルベースの入力から計算される係数のセットが係数の結合されたセットを生成するために(例えば、各係数の次数での合計として)結合されるように、結合のタスクT202(またはT204)の共通の例を共有する。
[0097]図7Dは、タスクT300を含む方法M100のインプリメンテーションM300のフローチャートを図示している。タスクT300は、(例えば、送信および/または記憶のために)結合されたセットを符号化する。このような符号化は、帯域圧縮を含みうる。タスクT300は、(例えば、1つまたは複数のコードブックインデックスへの)量子化、誤り訂正コード化、冗長性コード化等のような、1つまたは複数の損失または無損失コード化技法、および/またはパケット化を適用することによってセットを符号化するようにインプリメントされうる。加えて、あるいは代わりとして、このような符号化は、Bフォーマット、Gフォーマット、または高次アンビソニックス(HOA)などの、アンビソニックフォーマットに符号化することを含みうる。1つの例では、タスクT300は、HOA Bフォーマットに係数を符号化し、アドバンスドオーディオコード化(AAC:例えば、ISO/IEC14496−3:2009の、スイスのジェノバにおける標準化のためのInt’l Orgによる「Information technology−−Coding of audio−visual objects−−Part 3: Audio」で定義される)を使用してBフォーマット信号を符号化するようにインプリメントされる。タスクT300によって行われうるSHCのセットを符号化するための他の方法の説明は、例えば、米国公開特許出願第2012/0155653号A1(Jax et al.)および第2012/0314878号A1(Daniel et al.)に発見されうる。タスクT300は、例えば、異なる時間における同じ次数の係数の間の差および/または異なる次数の係数の間の差として係数のセットを符号化するようにインプリメントされうる。
[0098]ここで説明されているような方法M200、M210、およびM220のインプリメンテーションのいずれもまた、(例えば、タスクT300の例を含むように)方法M300のインプリメンテーションとしてインプリメントされうる。(例えば、ストリーミング、ブロードキャスト、マルチキャスト、および/またはメディアマスタリング(例えば、CD、DVD、およびまたはブルーレイディスクのマスタリング)のためのビットストリームを生成するために)ここで説明されるような方法M300のインプリメンテーションを行うように、図3Bで図示されているようなMPEGエンコーダMP10をインプリメントすることが望ましくありうる。
[0099]別の例では、タスクT300は、各々が対応する異なる空間の領域(例えば、対応する異なるラウドスピーカロケーション)と関連づけられる複数のチャネル信号を生成するために、係数の結合されたセットの基本セットに対して変換を(例えば、可逆行列を使用して)行うようにインプリメントされる。例えば、タスクT300は、5.1フォーマットで5つの全帯域オーディオ信号に、5つの低次SHC(例えば、(m,n)=[(1,−1),(1,1),(2,−2),(2,2)]のような、5.1レンダリング面に集中される基底関数に対応する係数、および全方向係数(m,n)=(0,0))をコンバートするために可逆行列を適用するようにインプリメントされうる。可逆性を求める要望は、解像度の損失が無い状態か解像度の損失がほとんどない状態で、5つの全帯域オーディオ信号をSHCの基本セットに戻す変換を可能にすることである。タスクT300は、例えば、(例えば、損失MDCT圧縮を使用する、ATSC A/52またはドルビーデジタルとも呼ばれる、ワシントンDCにおけるアドバンスドテレビシステム委員会による2012年3月12日付のATSC規格:デジタルオーディオ圧縮、Doc./52:2012,23で説明されているような)AC3、(損失および無損失圧縮オプションを含む)ドルビーTrueHD、(これもまた、損失および無損失圧縮オプションを含む)DTS−HDマスタオーディオ、および/またはMPEGサラウンド(MPS,ISO/IEC14496−3、高効率アドバンスドオーディオコード化、すなわちHeAACとも呼ばれる)のような後方互換性コデックを使用して結果となるチャネル信号を符号化するようにインプリメントされうる。係数のセットの残りは、ビットストリームの拡張部分に(例えば、ACパケットまたはドルビーデジタルプラスビットストリームの拡張パケットの「auxdata」部分に)符号化されうる。
[0100]図8Bは、方法M300に対応し、かつタスクT400およびT500を含む一般的な構成にしたがった、復号の方法M400に関するフローチャートを図示している。タスクT400は、係数の結合されたセットを取得するために、(例えば、タスクT300によって符号化されたような)ビットストリームを復号する。ラウドスピーカアレイに関連する情報(例えば、ラウドスピーカの数および、それらの位置ならびに放射パターンの指示)に基づいて、タスクT500は、ラウドスピーカチャネルのセットを生成するために係数をレンダリングする。ラウドスピーカアレイは、係数の結合されたセットによって記述されるような音場を生成するために、ラウドスピーカチャネルのセットにしたがって駆動される。
[0101]望まれるラウドスピーカアレイジオメトリにSHCをレンダリングするための行列を決定するための1つの可能性のある方法が、「モード整合(mode-matching)」として知られる動作である。ここで、ラウドスピーカフィードは、各ラウドスピーカが球面波を生成することを前提とすることによって計算される。このようなシナリオでは、
番目のラウドスピーカに起因して、ある特定の位置
における(周波数の関数としての)圧力は、
によって与えられ、
ここで、
は、
番目のラウドスピーカの位置を表し、
は、(周波数領域における)
番目のスピーカのラウドスピーカフィードである。したがって、全てのL個のスピーカに起因した全圧力
は、
によって与えられる。
[0102]我々はまた、SHCに関する全圧力は、式
によって与えられることを知っている。
[0103]上記2つの式を等しいとみなすことは、以下のように、我々が、SHCに関するラウドスピーカフィードを表示するために変換行列を使用することを可能にする。
[0104]この式は、ラウドスピーカフィードと選ばれたSHCとの間に直接的な関係があることを表示している。変換行列は、例えば、どの係数が使用されたか、および球面調和基底関数のどの定義が使用されるかに依存して変化しうる。便宜上、この例は、2に等しい次数nの最大Nを表示しているけれども、いずれの他の最大次数も特定のインプリメンテーションに関して望まれるように使用されうる(例えば、4以上)ことに明示的に留意されたい。類似の方法で、選択された基本セットから異なるチャネルフォーマット(例えば、7.1、22.2)にコンバートするための変換行列が構築されうる。上記変換行列が「モード整合」基準から導出された一方で、代わりの変換行列が、圧力整合、エネルギー整合等の、他の基準からも導出されうる。式(12)が(複素共役によって証明されるような)複素基底関数の使用を表示しているけれども、その代わりに球面調和基底関数の実数値のセットの使用もまた、明示的に開示されている。
[0105]図11は、タスクT500の適合インプリメンテーションT510およびタスクT600を含む方法M400のインプリメンテーションM410のフローチャートを図示している。この例では、1つまたは複数のマイクロフォンのアレイMCAは、ラウドスピーカアレイLSAによって生成された音場SF内に配列され、タスクT600は、音場がレンダリングタスクT510の適合等化(例えば、時空間測定および/または他の推定技法に基づく局地等化)を行うことに応じてこれらのマイクロフォンによって生成された信号を処理する。
[0106]直交基底関数(例えば、SHC)の1つのセットの係数のセットを使用するこのような表現の潜在的な利点は、以下のものの1つまたは複数を含む:
[0107]i.係数は階層的である。したがって、帯域幅または記憶要件を満たすように、ある特定の切り捨てられた次数(truncted order)(例えば、n=N)まで伝送する、またはある特定の切り捨てられた次数(例えば、n=N)まで記憶することが可能である。より多くの帯域幅が利用可能になる場合、より高次の係数が伝送および/または記憶されうる。(より高次の)より多くの係数を伝送することは、切り捨て誤差を低減し、より良い解像度のレンダリングを可能にする。
[0108]ii.係数の数がオブジェクトの数から独立している−どれほど多くのオブジェクトが第2のシーンにあるとしても帯域幅要件をかなえるために係数の切り捨てられたセットをコード化することが可能であることを意味する。
[0109]iii.PCMオブジェクトのSHCへのコンバージョンは可逆ではない(少なくとも自明に可逆ではない)。この特徴は、著作権で保護されたオーディオの断片(snippet)(空間的効果音)等への乱れていないアクセスを可能にすることに関して懸念するコンテンツプロバイダによる不安を和らげることができる。
[0110]iv.部屋の反射、周囲/拡散サウンド、放射パターン、および他の音響特徴の効果音は、様々な方法で、
係数ベースの表現に全て組み込まれうる。
[0111]v.
係数ベースの音場/サラウンドサウンド表現は、特定のラウドスピーカジオメトリに結び付けられず、レンダリングはあらゆるラウドスピーカジオメトリに適合されうる。様々な追加のレンダリング技法オプションが、例えば、文献に発見されうる。
[0112]vi.SHC表現および骨組は、レンダリングシーンでの音響時空間特性を構成する(account for)適合および非適合等化を可能にする(例えば、方法M410を参照)。
[0113]ここで説明されている手法は、チャネルベースのオーディオ、シーンベースのオーディオ、およびオブジェクトベースのオーディオの3つのフォーマットの全てに関する統合された符号化/復号エンジンを許容するチャネルベースのオーディオおよび/またはオブジェクトベースのオーディオのための変換経路を提供するように使用されうる。このような手法は、変換された係数がオブジェクトまたはチャネルの数から独立するようにインプリメントされうる。このような手法は、統合された手法が採用されないときでさえ、チャネルベースのオーディオまたはオブジェクトベースのオーディオのどちらかのために使用されうる。そのフォーマットは、係数の数が利用可能なビットレートに適合されうる点でスケーラブルであるようにインプリメントされ、利用可能な帯域幅および/または記憶容量と品質をトレードオフする非常に容易な方法を可能にする。
[0114]SHC表現は、(例えば、人間の聴覚が、高位の/最も高い面よりも水平面でより高い鋭さを有するという事実を考慮に入れるために)水平音響情報を表すより多くの係数を伝送することによって操作されうる。傾聴者の頭の位置は、(例えば、人間が前頭面でより良い空間的鋭さを有するという事実を考慮に入れるために)傾聴者の知覚を最適化するように、レンダラおよびエンコーダの両方へのフィードバックとして(そのようなフィードバック経路が利用可能である場合)使用されうる。SHCは、人間の知覚(心理音響学)、冗長性等を考慮に入れるようにコード化されうる。方法M410で図示されているように、例えば、ここで説明されているような手法は、例えば球面調和を使用して、(傾聴者の近接における最終的な等化を含む)端から端までの解決策としてインプリメントされうる。
[0115]図12Aは一般的な構成にしたがった、装置MF100のブロック図を図示している。装置MF100は、(例えば、タスクT100のインプリメンテーションに関してここで説明されたように)第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するための手段F100を含む。装置MF100はまた、(例えば、タスクT100のインプリメンテーションに関してここで説明されたように)時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第2の音場を記述する基底関数係数の第2のセットと基底関数係数の第1のセットを結合するための手段F200を含む。
[0116]図12Bは、手段F100のインプリメンテーションF102のブロック図を図示している。手段F102は、(例えば、タスクT110のインプリメンテーションに関してここで説明されたように)オーディオ信号の時間周波数分析を行うための手段F110を含む。手段F102はまた、(例えば、タスクT120のインプリメンテーションに関してここで説明されたように)基底関数係数のセットを計算するための手段F120を含む。図12Cは、(例えば、タスクT115のインプリメンテーションに関してここで説明されたように)手段F110が複数の周波数の各々で、オーディオ信号のエネルギーを計算するための手段F115としてインプリメントされる手段F102のインプリメンテーションF104のブロック図を図示している。
[0117]図13Aは、手段F100のインプリメンテーションF106のブロック図を図示している。手段F106は、(例えば、タスクT130のインプリメンテーションに関してここで説明されたように)中間係数を計算するための手段F30を含む。手段F106はまた、(例えば、タスクT140のインプリメンテーションに関してここで説明されたように)中間係数に波面モデルを適用するための手段F140を含む。
[0118]図13Bは、(例えば、タスクT210のインプリメンテーションに関してここで説明されたように)手段F200が基底関数係数の第1のセットおよび第2のセットの要素毎の合計を計算するための手段F210としてインプリメントされる装置MF100のインプリメンンテーションMF110のブロック図を図示している。
[0119]図13Cは、装置MF100のインプリメンテーションMF120のブロック図を図示している。装置MF120は、(例えば、タスクT50のインプリメンテーションに関してここで説明されたように)マルチチャネルオーディオ入力のチャネルに関する空間情報を生成するための手段F50を含む。
[0120]図13Dは、装置MF100のインプリメンテーションMF300のブロック図を図示している。装置MF300は、(例えば、タスクT300のインプリメンテーションに関してここで説明されたように)基底関数係数の結合されたセットを符号化するための手段F300を含む。装置MF300はまた、手段F50の例を含むようにインプリメントされうる。
[0121]図14Aは、装置MF100のインプリメンテーションMF200のブロック図を図示している。装置MF200は、(例えば、方法M200およびタスクT202のインプリメンテーションに関してここで説明されたように)手段F100a‐F100Lによって生成される基底関数係数のセットを結合するための複数の例、手段F100のF100a−F100Lおよび手段F200のインプリメンテーションF202、を含む。
[0122]図14Bは、一般的な構成にしたがった、装置MF400のブロック図を図示している。装置MF400は、(例えば、タスクT400のインプリメンテーションに関してここで説明されたように)基底関数係数の結合されたセットを取得するためにビットストリームを復号するための手段F400を含む。装置MF400はまた、(例えば、タスクT500のインプリメンテーションに関してここで説明されたように)ラウドスピーカチャネルのセットを生成するために結合されたセットの係数をレンダリングするための手段F500を含む。
[0123]図14Cは、一般的な構成にしたがった、装置A100のブロック図を図示している。装置A100は、(例えば、タスクT100のインプリメンテーションに関してここで説明されたように)第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号およびオーディオ信号に関する空間情報を符号化するように構成されたエンコーダ100を含む。装置A100はまた、(例えば、タスクT100のインプリメンテーションに関してここで説明されたように)時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、時間間隔中に第2の音場を記述する基底関数係数の第2のセットと基底関数係数の第1のセットを結合するように構成された結合器200を含む。
[0124]図15Aは、装置A100のインプリメンテーションA300のブロック図を図示している。装置A300は、(例えば、タスクT300のインプリメンテーションに関してここで説明されたように)基底関数係数の結合されたセットを符号化するように構成されたチャネルエンコーダ300を含む。装置A300はまた、以下で説明されるように、アングルインジケータ50の例を含むようにインプリメントされうる。
[0125]図15Bは一般的な構成にしたがった、装置MF100のブロック図を図示している。装置MF400は、(例えば、タスクT400のインプリメンテーションに関してここで説明されたように)基底関数係数の結合されたセットを取得するためにビットストリームを復号するための手段F400を含む。装置MF400はまた、(例えば、タスクT500のインプリメンテーションに関してここで説明されたように)ラウドスピーカチャネルのセットを生成するために結合されたセットの係数をレンダリングするための手段F500を含む。
[0126]図15Cは、エンコーダ100のインプリメンテーション102のブロック図を図示している。エンコーダ102は、(例えば、タスクT110のインプリメンテーションに関してここで説明されたように)オーディオ信号の時間周波数分析を行うように構成された時間周波数分析器110を含む。エンコーダ102はまた、(例えば、タスクT120のインプリメンテーションに関してここで説明されたように)基底関数係数のセットを計算するように構成された係数計算器120を含む。図15Dは、(例えば、タスクT115のインプリメンテーションに関してここで説明されたように、信号に対して高速フーリエ変換を行うことによって)分析器110が複数の周波数の各々でオーディオ信号のエネルギーを計算するように構成されたエネルギー計算器115としてインプリメントされるエンコーダ102のインプリメンテーション104のブロック図を図示している。
[0127]図15Eは、エンコーダ100のインプリメンテーション106のブロック図を図示している。エンコーダ106は、(例えば、タスクT130のインプリメンテーションに関してここで説明されたように)中間係数を計算するように構成された中間係数計算器130を含む。エンコーダ106はまた、(例えば、タスクT140のインプリメンテーションに関してここで説明されたように)基底関数係数の第1のセットを生成するために、中間係数に波面モデルを適用するように構成されたフィルタ140を含む。
[0128]図16Aは、(例えば、タスクT210のインプリメンテーションに関してここで説明されたように)結合器200が基底関数係数の第1のセットおよび第2のセットの要素毎の合計を計算するように構成されたベクトル合計計算器210としてインプリメントされる装置A100のインプリメンテーションA110のブロック図を図示している。
[0129]図16Bは、装置A100のインプリメンテーションA120のブロック図を図示している。装置A120は、(例えば、タスクT50のインプリメンテーションに関してここで説明されたように)マルチチャネルオーディオ入力のチャネルに関する空間情報を生成するように構成されたアングルインジケータ50を含む。
[0130]図16Cは、装置A100のインプリメンテーションA200のブロック図を図示している。装置A200は、(例えば、方法M200およびタスクT202のインプリメンテーションに関してここで説明されたように)エンコーダ100a‐100Lによって生成される基底関数係数のセットを結合するように構成された結合器200のインプリメンテーション202およびエンコーダ100の複数の例100a‐100Lを含む。装置A200はまた、タスクT52に関して上記で説明されたように、フォーマット識別子によって示されうる、または予め決められうる入力フォーマットにしたがって、入力がチャネルベースである場合、各ストリームに関する対応するロケーションデータを生成するように構成されたチャネルロケーションデータ生成器を含むこともできる。
[0131]エンコーダ100a‐100Lの各々は、タスクT100a‐T100LおよびT120a‐T120Lに関して上記で説明されているように、(チャネルベースの入力では)チャネルロケーションデータ生成器によって、または(オブジェクトベースの入力では)メタデータによって提供されるような信号に関する空間情報(例えば、ロケーションデータ)に基づいて、対応する入力オーディオ信号(例えば、PCMストリーム)のためのSHCのセットを計算するように構成されうる。結合器202は、タスクT202に関して上記で説明されたように、結合されたセットを生成するために、SHCのセットの合計を計算するように構成される。装置A200はまた、タスクT300に関して上記で説明されたように、送信および/または記憶のための共通フォーマットに、シーンベースの入力から、および/または(オブジェクトベースおよびチャネルベースの入力では)結合器202から受信されたような、SHCの結合されたセットを符号化するように構成されたエンコーダ300の例を含むことができる。
[0132]図17Aは、統合されたコード化アーキテクチャに関するブロック図を図示している。この例では、統合されたエンコーダUE10は、統合された符号化された信号を生成し、統合されたデコーダUD10に送信チャネルを介して統合された符号化された信号を送信するように構成される。統合されたエンコーダUE10は、ここで説明されているように、チャネルベースの入力、オブジェクトベースの入力、および/またはシーンベースの(例えば、SHCベースの)入力から統合された符号化された信号を生成するようにインプリメントされうる。図17Bは、統合されたエンコーダUE10は、メモリME10に統合された符号化された信号を記憶するように構成される関連するアーキテクチャに関するブロック図を図示している。
[0133]図17Cは、球面調和(SH)分析器としてのエンコーダ100のインプリメンテーション150および結合器200のインプリメンテーション250を含む装置A100および統合されたエンコーダUE10のインプリメンテーションUE100のブロック図を図示している。分析器150は、(例えば、タスクT100に関してここで説明されているように)入力オーディオコード化された信号で符号化されたオーディオおよびロケーション情報に基づいてSHベースのコード化された信号を生成するように構成される。入力オーディオのコード化された信号は、例えば、チャネルベースの入力またはオブジェクトベースの入力でありうる。結合器250は、分析器150によって生成されるSHベースのコード化された信号および別のSHベースのコード化された信号(例えば、シーンベースの入力)の合計を生成するように構成される。
[0134]図17Dは、送信および/または記憶のための共通のフォーマットに、オブジェクトベースの入力、チャネルベースの入力、およびシーンベースの入力を処理するために使用されうる装置A300および統合されたエンコーダUE100のインプリメンテーションUE300のブロック図を図示している。エンコーダUE300は、エンコーダ300(例えば、統合された係数セットエンコーダ)のインプリメンテーション350を含む。統合された係数セットエンコーダ350は、統合された符号化された信号を生成するために、(例えば、係数セットエンコーダ300に関してここで説明されているように)合計された信号を符号化するように構成される。
[0135]シーンベースの入力はすでにSHC形態で符号化されうるため、転送および/または記憶のための共通のフォーマットに、(例えば、等化、誤り訂正コード化、冗長コード化等、および/またはパケット化によって)入力を処理することは統合されたエンコーダにとって十分でありうる。図17Eは、エンコーダ300のインプリメンテーション360が他のSHベースのコード化された信号を(例えば、そのような信号が結合器250からは利用可能でないケースで)符号化するように構成される統合されたエンコーダUE100のそのようなインプリメンテーションUE305のブロック図を図示している。
[0136]図18は、オーディオコード化された信号における情報に基づいてフォーマットインジケータFI10を生成するように構成されたフォーマット検出器B300、およびフォーマットインジケータの状態にしたがって分析器140へのオーディオコード化された信号の入力を有効または無効にするように構成されるスイッチB400を含む統合されたエンコーダUE10のインプリメンテーションUE310のブロック図を図示している。フォーマット検出器B300は、例えば、フォーマットインジケータFI10がオーディオコード化された信号がチャネルベースの入力であるときの第1の状態、およびオーディオコード化された信号がオブジェクトベースの入力であるときの第2の状態を有するようにインプリメントされうる。加えて、または代わりとして、フォーマット検出器B300は、チャネルベースの入力の特定のフォーマットを示すように(例えば、入力が5.1、7.1、または22.2フォーマットであることを示すように)インプリメントされうる。
[0137]図19Aは、第1のSHベースのコード化された信号にチャネルベースのオーディオコード化された信号を符号化するように構成される分析器150の第1のインプリメンテーション150aを含む統合されたエンコーダUE100のインプリメンテーションUE250のブロック図を図示している。統合されたエンコーダUE250はまた、第2のSHベースのコード化された信号にオブジェクトベースのオーディオコード化された信号を符号化するように構成される分析器150の第2のインプリメンテーション150bを含む。この例では、結合器250のインプリメンテーション260は、第1および第2のSHベースのコード化された信号の合計を生成するように構成される。
[0138]図19Bは、エンコーダ350が、結合器260によって生成された第1および第2のSHベースのコード化された信号の合計を符号化することによって、統合された符号化された信号を生成するように構成される統合されたエンコーダUE250およびUE300のインプリメンテーションUE350のブロック図を図示している。
[0139]図20は、オブジェクトベースの信号パーザCP(signal parser OP)10を含む分析器150aのインプリメンテーション160aのブロック図を図示している。パーザOP10は、オブジェクトベースの入力をその様々な成分オブジェクトにPCMストリームとして解析し、各オブジェクトに関するロケーションデータに関連するメタデータを復号するように構成されうる。分析器160aの他の要素は、装置A200に関してここで説明されているようにインプリメントされうる。
[0140]図21は、チャネルベースの信号パーザOP10を含む分析器150bのインプリメンテーション160bのブロック図を図示している。パーザCP10は、ここで説明されているように、アングルインジケータ50の例を含むようにインプリメントされうる。パーザCP10はまた、チャネルベースの入力をその様々な成分チャネルにPCMストリームとして解析するように構成されうる。分析器160bの他の要素は、装置A200に関してここで説明されているようにインプリメントされうる。
[0141]図22Aは、第1および第2のSHベースのコード化された信号ならびに入力SHベースのコード化された信号の合計(例えば、シーンベースの入力)を生成するように構成される、結合器260のインプリメンテーション270を含む統合されたエンコーダUE250のインプリメンテーションUE260のブロック図を図示している。図22Bは、統合されたエンコーダUE350の類似のインプリメンテーションUE360のブロック図を図示している。
[0142]例えば、ストリーミング、ブロードキャスト、マルチキャスト、および/またはメディアマスタリング(例えば、CD、DVD、およびまたはブルーレイディスクのマスタリング)のためのビットストリームを生成するために、ここで説明されているような統合されたエンコーダUE10(例えば、UE100、UE250、UE260、UE300、UE310、UE350、UE360)のインプリメンテーションとして図3Bで図示されるようにMPEGエンコーダMP10をインプリメントすることが望ましくありうる。別の例では、1つまたは複数のオーディオ信号は、SHCと同時の送信および/または記憶のためにコード化されうる(例えば、上記で説明されたような方法で取得される)。
[0143]ここで開示されている方法および装置は、概して、アプリケーションの移動型またはさもなければ携帯型の事例を含み、かつ/もしくは遠距離場のソースからの信号成分を感知する、任意のトランシーバで混信するおよび/またはオーディオ感知のアプリケーションに適用されうる。例えば、ここで開示された構成の範囲は、符号分割多元接続(CDMA)無線インタフェースを用いるように構成されたワイヤレス電話通信システムに存在する通信デバイスを含む。それにもかかわらず、ここで説明されているような特徴を有する方法および装置が、ワイヤード(wired)および/またはワイヤレス(例えば、CDMA、TDMA、FDMA、および/または、TD−SCDMA)送信チャネルをわたるボイスオーバーIP(VoIP)を用いるシステムのような、当業者に知られている幅広い範囲の技術を用いる様々な通信システムのどれにでも存在しうることは当業者によって理解されるだろう。
[0144]ここで開示されている通信デバイス(例えば、スマートフォン、タブレットコンピュータ)が、パケット交換(例えば、VoIPのようなプロトコルに従ってオーディオ送信を搬送するように構成されている、ワイヤードおよび/またはワイヤレスネットワーク)および/または回線交換であるネットワークでの使用のために適合されうることは、明示的に考慮され、ここに開示されている。また、ここで開示されている通信デバイスが、狭帯域コード化システム(例えば、約4または5キロヘルツのオーディオ周波数範囲を符号化するシステム)での使用のために、および/または、全帯域広帯域コード化システムおよび分割帯域広帯域コード化システムを含む、広帯域コード化システム(例えば、5キロヘルツよりも大きいオーディオ周波数を符号化するシステム)での使用のために、適合されうることも、明示的に考慮され、ここに開示されている。
[0145]先の説明された構成の提示は、いかなる当業者であっても、ここに開示されている方法および他の構造の製造または使用することができるようにするために提供される。ここで説明および図示されているフローチャート、ブロック図、および他の構造は、例にすぎず、これらの構造の他の変形もまた、本開示の範囲内にある。これらの構成に対する様々な修正が可能であり、ここで提示された一般的な原理は、他の構成にも適用されうる。したがって、本開示は、上記で表示された構成に限定されるようには意図されず、むしろ当初の開示の一部を形成する、提出される添付の特許請求の範囲を含む、何らかの形式でここに開示されている原理および新規な特徴と一致する最も広い範囲を与えられるべきである。
[0146]当業者は、情報および信号が、様々な異なる技術および技法のうちのいずれかを使用して表されうることを理解するであろう。例えば、上記説明の全体にわたって参照されうるデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁場または磁性粒子、光学場または光学粒子、あるいはこれらのあらゆる組み合わせによって表されうる。
[0147]ここで開示されているような構成のインプリメンテーションのための重要な設計要件は、特に、圧縮されたオーディオまたはオーディオビジュアル情報(例えば、ここで識別される例のうちの1つのような、圧縮フォーマットにしたがって符号化されたファイルまたはストリーム)の再生のような、計算集中的なアプリケーションに関する、または、広帯域通信(例えば、12、16、44.1、48、または192kHzのような、8キロヘルツよりも高いサンプリングレートでの音声通信)のためのアプリケーションに関する、(通常、百万命令毎秒(millions of intructions per second)、すなわちMIPSにおいて測定される)処理遅延および/または計算の複雑さを最小化することを含みうる。
[0148]マルチマイクロフォン処理システムの目的は、全体的なノイズ低減において10から12dBを達成すること、所望のスピーカの動きの間音声レベルおよび色を保つこと、積極的なノイズ除去の代わりにノイズがバックグラウンドに移されたという知覚を取得すること、スピーチの残響除去および/または、より積極的なノイズ低減のために後処理のオプションを可能にすることを含みうる。
[0149]ここで開示されている装置は(例えば、装置A100、A110、A120、A200、A300、A400、MF100、MF110、MF120、MF200、MF300、MF400、UE10、UD10、UE100、UE250、UE260、UE300、UE310、UE350、およびUE360のどれでも)、意図されるアプリケーションに適していると考えられるソフトウェアと、および/またはファームウェアとのハードウェアのあらゆる組み合わせにおいてインプリメントされうる。例えば、このような装置の要素は、例えば、同じチップ上またはチップセット中の2つ以上のチップの間に存在する、電子デバイスおよび/または光学デバイスとして組み立てられうる。このようなデバイスの1つの例は、トランジスタまたは論理ゲートのような、論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のどれも、1つまたは複数のこのようなアレイとしてインプリメントされうる。装置の要素のうちの任意の2つ以上、またはさらには全てが、同じ1つのアレイまたは複数のアレイ内でインプリメントされうる。このような1つのアレイまたは複数のアレイは、1つまたは複数のチップ内で(例えば、2つ以上のチップを含むチップセット内で)インプリメントされうる。
[0150]ここで開示されている装置(例えば、装置A100、A110、A120、A200、A300、A400、MF100、MF110、MF120、MF200、MF300、MF400、UE10、UD10、UE100、UE250、UE260、UE300、UE310、UE350、およびUE360のどれでも)の様々なインプリメンテーションのうちの1つまたは複数の要素はまた、その全体または一部において、マイクロプロセッサ、組み込まれたプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け規格製品)、およびASIC(特定用途向け集積回路)等の、論理要素の1つまたは複数の固定型またはプログラム可能アレイ上で実行するように構成された命令の1つまたは複数のセットとしてインプリメントされうる。ここで開示されているような装置のインプリメンテーションの様々な要素のうちのいずれも、1つまたは複数のコンピュータ(例えば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたは命令の1つまたは複数のシーケンスを実行するようにプログラムされている1つまたは複数のアレイを含む機械)として具現化され、これらの要素のうちの任意の2つ以上、またはさらには全てが、同じこのような1つのコンピュータまたは複数のコンピュータ内でインプリメントされうる。
[0151]ここで開示されているような処理のためのプロセッサまたは他の手段は、例えば、同じチップ上またはチップセット中の2つ以上のチップの間に存在する、1つまたは複数の電子デバイスおよび/または光学デバイスとして組み立てられうる。このようなデバイスの1つの例は、トランジスタまたは論理ゲートのような、論理要素の固定型アレイまたはプログラム可能アレイであり、このような要素のうちのいずれかが、1つまたは複数のこのようなアレイとしてインプリメントされうる。このような1つのアレイまたは複数のアレイは、1つまたは複数のチップ内で(例えば、2つ以上のチップを含むチップセット内で)インプリメントされうる。このようなアレイの例は、マイクロプロセッサ、組み込まれたプロセッサ、IPコア、DSP、FPGA、ASSP、およびASIC等の、論理要素の固定型アレイまたはプログラム可能アレイを含む。ここで開示されているような処理するためのプロセッサまたは他の手段はまた、1つまたは複数のコンピュータ(例えば、命令の1つまたは複数のセットまたは命令の1つまたは複数のシーケンスを実行するようにプログラムされている1つまたは複数のアレイを含む機械)あるいは他のプロセッサとして具現化されうる。ここで説明されているようなプロセッサが、プロセッサが組み込まれているデバイスまたはシステム(例えば、オーディオ感知デバイス)の別の動作に関連するタスクのような、ここで説明されているようなオーディオコード化手順に直接関連しない命令の他のセットを実行する、あるいはタスクを行うために使用されることは可能である。ここで開示されているような方法の一部が、オーディオ感知デバイスのプロセッサによって行われ、方法の別の部分が、1つまたは複数の他のプロセッサの制御下で行われることも可能である。
[0152]ここで開示されている構成に関係して説明されている、様々な例示的なモジュール、論理ブロック、回路およびテスト、ならびに、他の動作が、電子ハードウェア、コンピュータソフトウェア、または、双方の組み合わせたものとしてインプリメントされうることを当業者は認識するだろう。このようなモジュール、論理ブロック、回路、および、動作は、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICまたはASSP、FPGAまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェアコンポーネント、あるいは、ここで開示されているような構成を生成するように設計されたこれらのあらゆる組み合わせで、インプリメントされうる、あるいは行われうる。例えば、このような構成は、ハードワイヤード回路として、特定用途向け集積回路に組み立てられている回路構成として、あるいは、汎用プロセッサまたは他のデジタル信号処理ユニットのような、論理要素のアレイによって実行可能な命令であるコードのような、機械可読コードとしてデータ記憶媒体にまたはデータ記憶媒体からロードされたソフトウェアプログラム、もしくは不揮発性記憶装置にロードされたファームウェアプログラムとして少なくとも部分的にインプリメントされうる。汎用プロセッサは、マイクロプロセッサでありうるが、代わりとして、プロセッサは、何らかの従来のプロセッサ、コントローラ、マイクロコントローラ、または、ステートマシンでありうる。プロセッサはまた、例えば、DSPとマイクロプロセッサの組み合わせ、複数のマイクロプロセッサ、DSPコアと関連した1つまたは複数のマイクロプロセッサ、あるいはあらゆる他のこのような構成の、計算デバイスの組み合わせとしてインプリメントされうる。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読み取り専用メモリ)、フラッシュRAMのような不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、または、CD−ROM、あるいは、当技術分野では既知のあらゆる他の形態の記憶媒体のような、非一時的な記憶媒体に存在しうる。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代わりとして、記憶媒体は、プロセッサに一体(integral)でありうる。プロセッサおよび記憶媒体は、ASICに存在しうる。ASICは、ユーザ端末に存在しうる。代わりとして、プロセッサおよび記憶媒体は、ユーザ端末内にディスクリートコンポーネントとして存在しうる。
[0153]ここで開示されている様々な方法が(例えば、方法M100、M110、M120、M200、M300、およびM400のいずれも)、プロセッサのような論理要素のアレイによって行われうること、およびここで説明されているような装置の様々な要素が、このようなアレイ上で実行するように設計されているモジュールとしてインプリメントされうることに留意されたい。ここで使用されているように、「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェア、またはファームウェアの形態で、コンピュータ命令(例えば、論理表現)を含む、何らかの方法、装置、デバイス、ユニット、または、コンピュータ可読データ記憶媒体のことを称することができる。同じ機能を行うために、複数のモジュールまたはシステムが1つのモジュールまたはシステムに結合されうること、および1つのモジュールまたはシステムが、複数のモジュールまたはシステムに分けられうることは理解されるべきである。ソフトウェアまたは他のコンピュータ実行可能命令でインプリメントされるときに、プロセスの要素は本来、例えば、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造等で関連するタスクを行うためのコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の任意の1つまたは複数のセットまたはシーケンス、ならびに、このような例のあらゆる組み合わせを含むことは理解されるべきである。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶されうる、あるいは送信媒体または通信リンクをわたって搬送波(carrier wave)で具現化されるコンピュータデータ信号によって送信されうる。
[0154]ここで開示された、方法、スキーム、および技法のインプリメンテーションはまた、論理要素のアレイ(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または、他の有限ステートマシン)を含む機械によって実行可能な、ならびに/または読み取り可能な命令の1つまたは複数のセットとして、有体的に(例えば、ここで挙げられているような1つまたは複数のコンピュータ可読媒体で)具現化されうる。「コンピュータ可読媒体」という用語は、揮発性媒体、不揮発性媒体、リムーバブル媒体、および非リムーバブル記憶媒体を含む、情報を記憶または転送することができる何らかの媒体を含みうる。コンピュータ可読媒体の例は、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能なROM(EROM)、フロッピー(登録商標)ディスケットまたは他の磁気記憶装置、CD−ROM/DVDまたは他の光学記憶装置、ハードディスク、光ファイバ媒体、無線周波数(RF)リンク、あるいは、所望の情報を記憶するために使用され、かつアクセスされることができるあらゆる他の媒体を含む。コンピュータデータ信号は、例えば、電子ネットワークチャネル、光ファイバ、エア(air)、電磁気、RFリンク等の、送信媒体をわたって伝搬することができる何らかの信号を含むことができる。コードセグメントは、インターネットまたはイントラネットのようなコンピュータネットワークを介してダウンロードされうる。あらゆるケースで、本開示の範囲は、このような実施形態によって限定されるものとして解釈されるべきではない。
[0155]ここで説明されている方法のタスクの各々は、直接ハードウェアにおいて、プロセッサによって実行されるソフトウェアモジュールにおいて、またはこれら2つの組み合わせにおいて、具現化されうる。ここで開示されているような方法のインプリメンテーションの典型的なアプリケーションでは、論理要素(例えば、論理ゲート)のアレイは、方法の様々なタスクのうちの、1つ、1つより多くのもの、またさらには全てさえも行うように構成される。タスクのうちの1つまたは複数(場合によっては全て)は、コード(例えば、命令の1つまたは複数のセット)としてもインプリメントされることができ、論理要素(例えば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限ステートマシン)のアレイを含む機械(例えば、コンピュータ)によって読み取り可能な、および/または実行可能である、コンピュータプログラム製品(例えば、ディスク、フラッシュまたは他の不揮発性メモリカード、半導体メモリチップ等のような1つまたは複数のデータ記憶媒体)で具現化されることができる。ここで開示されているような方法のインプリメンテーションのタスクはまた、1つより多くのこのようなアレイまたは機械によって行われうる。これらのまたは他のインプリメンテーションでは、これらタスクは、このような通信能力を有するセルラ電話または他のデバイス等の、ワイヤレス通信のためのデバイス内で行われうる。このようなデバイスは、(例えば、VoIPのような1つまたは複数のプロトコルを使用する)回線交換ネットワークおよび/またはパケット交換ネットワークと通信するように構成されうる。例えば、このようなデバイスは、符号化されたフレームを受信および/または送信するように構成されたRF回路を含むことができる。
[0156]ここで開示されている様々な方法が、ハンドセット、ヘッドセット、または携帯情報端末(PDA)等の、携帯用通信デバイスによって行われうること、およびここで説明されている様々な装置がこのようなデバイス内に含まれうることが明示的に開示されている。典型的なリアルタイム(例えば、オンライン)アプリケーションは、このようなモバイルデバイスを使用して実施される電話会話である。
[0157]1つまたは複数の実例となる実施形態では、ここで説明されている動作は、ハードウェア、ソフトウェア、ファームウェア、またはこれらのあらゆる組み合わせにおいてインプリメントされうる。ソフトウェアでインプリメントされる場合、このような動作は、1つまたは複数の命令またはコードとして、コンピュータ可読媒体上に記憶されうる、またはコンピュータ可読媒体をわたって送信されうる。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体および通信(例えば、送信)媒体の両方を含む。限定ではなく例として、コンピュータ可読記憶媒体は、(限定はしないが、動的または静的なRAM、ROM、EEPROM、および/またはフラッシュRAMを含みうる)半導体メモリ、または、強誘電体、磁気抵抗、オボニック(ovonic)、高分子、または相転移メモリのような、記憶要素のアレイ、CD−ROMまたは他の光学ディスク記憶装置、および/または磁気ディスク記憶装置または他の磁気記憶デバイスを備えることができる。このような記憶媒体は、コンピュータによってアクセスされうるデータ構造または命令の形態で情報を記憶しうる。通信媒体は、1つの場所から別の場所へのコンピュータプログラムの転送を容易にするあらゆる媒体を含む、コンピュータによってアクセスされうる命令またはデータ構造の形態で所望のプログラムコードを搬送するために使用されうる任意の媒体を備えることができる。また、いずれの接続手段もコンピュータ可読媒体と適切に名付けられる。例えば、ソフトウェアが、ウェブサイト、サーバ、もしくは他の遠隔ソースから、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者線(DSL)、もしくは赤外線、無線、および/またはマイクロ波のようなワイヤレス技術を使用して送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、もしくは赤外線、無線、および/またはマイクロ波のようなワイヤレス技術は媒体の定義に含まれる。ここで使用されているように、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光学ディスク、デジタルバーサタイルディスク(DVD)、フロッピーディスクおよびブルーレイディスク(ブルーレイディスクアソシエィション、ユニバーサルシティ、CA)を含み、ここでディスク(disks)は、大抵磁気的にデータを再生し、一方ディスク(discs)は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。
[0158]ここで説明されているような音響信号処理装置(例えば、装置A100またはMF100)は、ある特定の動作を制御するためにスピーチ入力を受け入れる、あるいはそうでなければ、バックグラウンドノイズからの所望のノイズの分離から利益を得ることができる、通信デバイスのような電子デバイスに組み込まれることができる。多くのアプリケーションは、複数の方向から生じるバックグラウンドサウンドから、クリアな所望のサウンドを強化または分離することから、利益を得ることができる。このようなアプリケーションは、例えば、音声認識と検出、スピーチ強化と分離、音声によりアクティブ化される制御等の、能力を組み込む電子デバイスまたは計算デバイスにおけるヒューマンマシンインタフェースを含むことができる。限定された処理能力のみを提供するデバイスにおいて適しているように、そのような音響信号処理装置をインプリメントすることが望ましくありうる。
[0159]ここで説明されているモジュール、要素、およびデバイスの様々なインプリメンテーションの要素は、例えば、同じチップ上またはチップセット中の2つ以上のチップの間に存在する、電子デバイスおよび/または光学デバイスとして組み立てられうる。このようなデバイスの1つの例は、トランジスタまたはゲートのような、論理要素の固定型アレイまたはプログラマブルアレイである。ここで説明されている装置の様々なインプリメンテーションの1つまたは複数の要素はまた、その全体または一部において、マイクロプロセッサ、組み込まれたプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASIC等の、論理要素の1つまたは複数の固定型アレイまたはプログラマブルアレイ上で実行するように構成された命令の1つまたは複数のセットとしてインプリメントされうる。
[0160]ここで説明されているような装置のインプリメンテーションの1つまたは複数の要素が、装置が組み込まれているデバイスまたはシステムの別の動作に関連するタスクのような、装置の動作に直接的に関連しない命令の他のセットを実行する、あるいはタスクを行うために使用されることが可能である。このような装置のインプリメンテーションの1つまたは複数の要素が、共通の構造(例えば、異なる時間において、異なる要素に対応するコードの一部を実行するために使用されるプロセッサ、異なる時間において、異なる要素に対応するタスクを行うように実行される命令のセット、あるいは、異なる時間において、異なる要素に対する動作を行う、電子デバイスおよび/または光学デバイスの構成)を有することも可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[C1]
オーディオ信号処理の方法であって、前記方法は、
第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化することと、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第2の音場を記述する基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合することと、
を備える、方法。
[C2]
前記オーディオ信号は、オーディオサンプルの対応するストリームのフレームである、
C1に記載の方法。
[C3]
前記オーディオ信号は、パルス符号変調(PCM)ストリームのフレームである、
C1に記載の方法。
[C4]
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
C1に記載の方法。
[C5]
前記オーディオ信号に関する前記空間情報は、前記オーディオ信号のソースの空間におけるロケーションを示す、
C1に記載の方法。
[C6]
前記オーディオ信号に関する前記空間情報は、前記オーディオ信号の拡散率(diffusivity)を示す、
C1に記載の方法。
[C7]
前記オーディオ信号は、ラウドスピーカチャネルである、
C1に記載の方法。
[C8]
前記方法は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを取得することを含む、
C1に記載の方法。
[C9]
前記方法は、前記基底関数係数の第2のセットに、第2のオーディオ信号、および前記第2のオーディオ信号に関する空間情報を符号化することを含む、
C1に記載の方法。
[C10]
前記基底関数係数の第1のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
C1に記載の方法。
[C11]
前記基底関数係数の第1のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
C1に記載の方法。
[C12]
前記基底関数のセットは、第1の空間軸に沿う方が前記第1の空間軸に直交する第2の空間軸に沿うよりもより高い解像度で空間を記述する、
C10に記載の方法。
[C13]
前記基底関数係数の第1および第2のセットのうちの少なくとも1つは、第1の空間軸に沿う方が前記第1の空間軸に直交する第2の空間軸に沿うよりもより高い解像度で前記対応する音場を記述する、
C1に記載の方法。
[C14]
前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、
C1に記載の方法。
[C15]
前記基底関数係数の第1および第2のセットのうちの少なくとも1つは、3空間次元における前記対応する音場を記述する、
C1に記載の方法。
[C16]
前記基底関数係数の第1のセットにおける基底関数係数の合計数が、前記基底関数係数の第2のセットにおける基底関数係数の合計数より小さい、
C1に記載の方法。
[C17]
前記基底関数係数の結合されたセットにおける前記基底関数係数の数は、前記基底関数係数の第1のセットにおける基底関数係数の数に少なくとも等しく、前記基底関数係数の第2のセットにおける基底関数係数の数に少なくとも等しい、
C16に記載の方法。
[C18]
前記結合することは、前記基底関数係数の結合されたセットの少なくとも複数の前記基底関数係数の各々に関して、前記基底関数係数を生成するために、前記基底関数係数の第1のセットの対応する基底関数係数および前記基底関数係数の第2のセットの対応する基底関数係数を合計することを備える、
C1に記載の方法。
[C19]
有体的な特徴を読み取る機械にC1に記載の方法を行わせる前記特徴を有する非一時的なコンピュータ可読データ記憶媒体。
[C20]
オーディオ信号処理のための装置であって、前記装置は、
第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化するための手段と、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第2の音場を記述する基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合するための手段と、
を備える、装置。
[C21]
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
C20に記載の装置。
[C22]
前記オーディオ信号は、ラウドスピーカチャネルである、
C20に記載の装置。
[C23]
前記装置は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを解析するための手段を含む、
C20に記載の装置。
[C24]
前記基底関数係数の第1のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
C20に記載の装置。
[C25]
前記基底関数係数の第1のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
C20に記載の装置。
[C26]
前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、
C20に記載の装置。
[C27]
前記基底関数係数の第1および第2のセットのうちの少なくとも1つは、3空間次元における前記対応する音場を記述する、
C20に記載の装置。
[C28]
前記基底関数係数の第1のセットにおける基底関数係数の合計数が、前記基底関数係数の第2のセットにおける基底関数係数の合計数より小さい、
C20に記載の装置。
[C29]
オーディオ信号処理のための装置であって、前記装置は、
第1の音場を記述する基底関数係数の第1のセットに、オーディオ信号および前記オーディオ信号に関する空間情報を符号化するように構成されたエンコーダと、
時間間隔中に結合された音場を記述する基底関数係数の結合されたセットを生成するために、前記時間間隔中に第2の音場を記述する基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合するように構成された結合器と、
を備える、装置。
[C30]
前記オーディオ信号に関する前記空間情報は、空間における方向を示す、
C29に記載の装置。
[C31]
前記オーディオ信号は、ラウドスピーカチャネルである、
C29に記載の装置。
[C32]
前記装置は、前記オーディオ信号および前記オーディオ信号に関する前記空間情報を含むオーディオオブジェクトを解析するように構成されたパーザを含む、
C29に記載の装置。
[C33]
基底関数係数の前記第1のセットの各基底関数係数は、直交基底関数のセットのうちの一意的なものに対応する、
C29に記載の装置。
[C34]
前記基底関数係数の第1のセットの各基底関数係数は、球面調和基底関数のセットのうちの一意的なものに対応する、
C29に記載の装置。
[C35]
前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、
C29に記載の装置。
[C36]
前記基底関数係数の第1および第2のセットのうちの少なくとも1つは、3空間次元における前記対応する音場を記述する、C29に記載の装置。
[C37]
前記基底関数係数の第1のセットにおける基底関数係数の合計数が、前記基底関数係数の第2のセットにおける基底関数係数の合計数より小さい、
C29に記載の装置。

Claims (43)

  1. オーディオ信号処理の方法であって、前記方法は、
    第1の音場を記述する基底関数係数の第1のセットに、第1のオーディオ信号および前記第1のオーディオ信号に関する空間情報を変換することと、ここにおいて前記第1のオーディオ信号は、オブジェクトベースのフォーマットである、
    結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合することと、ここにおいて前記基底関数係数の第2のセットは、第2のオーディオ信号に関連付けられた第2の音場を記述し、前記第1のオーディオ信号の各々に関する前記空間情報は、前記第1のオーディオ信号のソースの空間におけるロケーションを示し、前記第1のオーディオ信号の前記ロケーションは、
    によって定義され、ここでr s は半径であり、θ s は高位アングルであり、φ s は方位アングルである、
    前記基底関数係数の結合されたセットを符号化することと、
    を備える、方法。
  2. 前記第1のオーディオ信号または前記第2のオーディオ信号のうちの少なくとも1つは、オーディオサンプルの対応するストリームのフレームである、請求項1に記載の方法。
  3. 前記第1のオーディオ信号または前記第2のオーディオ信号のうちの少なくとも1つは、パルス符号変調(PCM)ストリームのフレームである、請求項1に記載の方法。
  4. 前記基底関数係数の第2のセットは、前記第2のオーディオ信号および前記第2のオーディオ信号に関する空間情報を変換することによって作り出され、前記第2のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項1に記載の方法。
  5. 前記基底関数係数の第2のセットは、前記第2のオーディオ信号および前記第2のオーディオ信号に関する空間情報を変換することによって作り出され、前記第2のオーディオ信号に関するそれぞれの空間情報は、前記第2のオーディオ信号のソースの空間におけるロケーションを示す、請求項1に記載の方法。
  6. 前記基底関数係数の第2のセットは、前記第2のオーディオ信号および前記第2のオーディオ信号に関する空間情報を変換することによって作り出され、前記第1のオーディオ信号および前記第2のオーディオ信号の各々に関するそれぞれの空間情報は、前記第1のオーディオ信号または前記第2のオーディオ信号のそれぞれの拡散率(diffusivity)を示す、請求項1に記載の方法。
  7. 前記第1のオーディオ信号および前記第1のオーディオ信号に関する前記空間情報を含むオーディオオブジェクトを取得することをさらに備える、請求項1に記載の方法。
  8. 前記基底関数係数の第1のセットの各基底関数係数は、前記第1の音場の任意の点における圧力を一意的に表現する、請求項1に記載の方法。
  9. 前記基底関数係数の第1のセットは、第1の空間軸に沿う方が前記第1の空間軸に直交する第2の空間軸に沿うよりもより高い解像度で空間を記述する、請求項1に記載の方法。
  10. 前記基底関数係数の第1のセットまたは前記基底関数係数の第2のセットのうちの少なくとも1つは、第1の空間軸に沿う方が前記第1の空間軸に直交する第2の空間軸に沿うよりもより高い解像度で対応する音場を記述する、請求項1に記載の方法。
  11. 前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、請求項1に記載の方法。
  12. 前記基底関数係数の第1のセットまたは前記基底関数係数の第2のセットのうちの少なくとも1つは、3空間次元における対応する音場を記述する、請求項1に記載の方法。
  13. 前記基底関数係数の第1のセットに含まれる基底関数係数の合計数が、前記基底関数係数の第2のセットに含まれる基底関数係数の合計数より小さい、請求項1に記載の方法。
  14. 前記基底関数係数の結合されたセットに含まれる基底関数係数の合計数は、前記基底関数係数の第1のセットに含まれる前記基底関数係数の合計数と前記基底関数係数の第2のセットに含まれる前記基底関数係数の合計数との合計に等しい、請求項13に記載の方法。
  15. 前記基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合することは、前記基底関数係数の結合されたセットの少なくとも複数の前記基底関数係数の各々に関して、前記基底関数係数を生成するために、前記基底関数係数の第1のセットの対応する基底関数係数および前記基底関数係数の第2のセットの対応する基底関数係数を合計することを備える、請求項1に記載の方法。
  16. 命令を記憶した非一時的なコンピュータ可読データ記憶媒体であって、前記命令は、実行されると、オーディオ信号処理のためのデバイスの1つまたは複数のプロセッサに、
    第1の音場を記述する基底関数係数の第1のセットに、第1のオーディオ信号および前記第1のオーディオ信号に関する空間情報を変換することと、ここにおいて前記第1のオーディオ信号は、オブジェクトベースのフォーマットである、
    結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合することと、ここにおいて前記基底関数係数の第2のセットは、第2のオーディオ信号に関連付けられた第2の音場を記述前記第1のオーディオ信号の各々に関する前記空間情報は、前記第1のオーディオ信号のソースの空間におけるロケーションを示し、前記第1のオーディオ信号の前記ロケーションは、
    によって定義され、ここでr s は半径であり、θ s は高位アングルであり、φ s は方位アングルである、
    前記基底関数係数の結合されたセットを符号化することと、
    を行わせる、非一時的なコンピュータ可読データ記憶媒体。
  17. オーディオ信号処理のための装置であって、前記装置は、
    第1の音場を記述する基底関数係数の第1のセットに、第1のオーディオ信号および前記第1のオーディオ信号に関する空間情報を変換するための手段と、ここにおいて前記第1のオーディオ信号は、オブジェクトベースのフォーマットである、
    結合された音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合するための手段と、ここにおいて前記基底関数係数の第2のセットは、第2のオーディオ信号に関連付けられた第2の音場を記述前記第1のオーディオ信号に関する前記空間情報は、前記第1のオーディオ信号のソースの空間におけるロケーションを示し、前記第1のオーディオ信号の前記ロケーションは、
    によって定義され、ここでr s は半径であり、θ s は高位アングルであり、φ s は方位アングルである、
    前記基底関数係数の結合されたセットを符号化するための手段と、
    を備える、装置。
  18. 前記基底関数係数の第2のセットは、前記第2のオーディオ信号および前記第2のオーディオ信号に関する空間情報を変換することによって作り出され、前記第2のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項17に記載の装置。
  19. 前記装置は、前記第1のオーディオ信号および前記第1のオーディオ信号に関する前記第1の空間情報を含むオーディオオブジェクトを解析するための手段をさらに含む、請求項17に記載の装置。
  20. 前記基底関数係数の第1のセットの各基底関数係数は、前記第1の音場の任意の点における圧力を一意的に表現する、請求項17に記載の装置。
  21. 前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、請求項17に記載の装置。
  22. 前記基底関数係数の第1のセットまたは前記基底関数係数の第2のセットのうちの少なくとも1つは、3空間次元における対応する音場を記述する、請求項17に記載の装置。
  23. 前記基底関数係数の第1のセットにおける基底関数係数の合計数が、前記基底関数係数の第2のセットにおける基底関数係数の合計数より小さい、請求項17に記載の装置。
  24. オーディオ信号処理のためのデバイスであって、前記デバイスは、
    第1の音場を記述する基底関数係数の第1のセットに、第1のオーディオ信号および前記第1のオーディオ信号に関する空間情報を変換するように構成された分析器と、ここにおいて前記第1のオーディオ信号は、オブジェクトベースのフォーマットである、
    第2の音場を記述する基底関数係数の結合されたセットを生成するために、基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合するように構成された結合器と、ここにおいて前記基底関数係数の第2のセットは、第2のオーディオ信号に関連付けられた第2の音場を記述前記第1のオーディオ信号に関する前記空間情報は、前記第1のオーディオ信号のソースの空間におけるロケーションを示し、前記第1のオーディオ信号の前記ロケーションは、
    によって定義され、ここでr s は半径であり、θ s は高位アングルであり、φ s は方位アングルである、
    前記基底関数係数の結合されたセットを符号化するように構成されたエンコーダと、
    を備える、デバイス。
  25. 前記基底関数係数の第2のセットは、前記第2のオーディオ信号および前記第2のオーディオ信号に関する空間情報を変換することによって作り出され、前記第2のオーディオ信号に関する前記空間情報は、空間における方向を示す、請求項24に記載のデバイス。
  26. 前記第1のオーディオ信号および前記第1のオーディオ信号に関する前記第1の空間情報を含むオーディオオブジェクトを解析するように構成されたパーザをさらに備える、請求項24に記載のデバイス。
  27. 前記基底関数係数の第1のセットの各基底関数係数は、前記第1の音場の任意の点における圧力を一意的に表現する、請求項24に記載のデバイス。
  28. 前記基底関数係数の第1のセットは、少なくとも2空間次元における前記第1の音場を記述し、前記基底関数係数の第2のセットは、少なくとも2空間次元における前記第2の音場を記述する、請求項24に記載のデバイス。
  29. 前記基底関数係数の第1のセットまたは前記基底関数係数の第2のセットのうちの少なくとも1つは、3空間次元における対応する音場を記述する、請求項24に記載のデバイス。
  30. 前記基底関数係数の第1のセットにおける基底関数係数の合計数が、前記基底関数係数の第2のセットにおける基底関数係数の合計数より小さい、請求項24に記載のデバイス。
  31. 前記第1のオーディオ信号および前記第2のオーディオ信号を捕捉するように構成された1つまたは複数のマイクロフォンアレイをさらに備える、請求項24に記載のデバイス。
  32. 第3の音場を記述する基底関数係数の第3のセットに、第3のオーディオ信号および前記第3のオーディオ信号に関する空間情報を変換することをさらに備え、ここにおいて前記第3のオーディオ信号は、チャネルベースのフォーマットであり、
    前記基底関数係数の第2のセットと前記基底関数係数の第1のセットを結合することは、前記基底関数係数の結合されたセットを生成するために、前記基底関数係数の第2のセットおよび前記基底関数係数の第3のセットと前記基底関数係数の第1のセットを結合することを備える、
    請求項1に記載の方法。
  33. 前記チャネルベースのフォーマットに基づいて、前記第3のオーディオ信号に関する前記空間情報を生成することをさらに備える、請求項32に記載の方法。
  34. 前記基底関数係数の結合されたセットを符号化することが、前記基底関数係数の結合されたセットを、Gフォーマット、または高次アンビソニックスに符号化することを備える、請求項1に記載の方法。
  35. 前記第1のオーディオ信号のフォーマットを検出することをさらに備える、請求項1に記載の方法。
  36. 中間係数のセットを生成するために、前記第1のオーディオ信号に最初の基底分解を行うことと、
    前記基底関数係数の第1のセットを生成するために、前記中間係数のセットに球波面モデルを適用することと、
    をさらに備える、請求項1に記載の方法。
  37. 中間係数のセットを生成するために、前記第1のオーディオ信号に最初の基底分解を行うことと、
    前記基底関数係数の第1のセットを生成するために、前記中間係数のセットに平面波面モデルを適用することと、
    をさらに備える、請求項1に記載の方法。
  38. 第3の音場を記述する基底関数係数の第3のセットに、第3のオーディオ信号および前記第3のオーディオ信号に関する空間情報を変換するように構成されたエンコーダをさらに備え、ここにおいて前記第3のオーディオ信号は、チャネルベースのフォーマットであり、前記結合器は、前記基底関数係数の結合されたセットを生成するために、前記基底関数係数の第2のセットおよび前記基底関数係数の第3のセットと前記基底関数係数の第1のセットを結合するように構成された、
    請求項24に記載のデバイス。
  39. 前記チャネルベースのフォーマットに基づいて、前記第3のオーディオ信号に関する前記空間情報を生成するように構成されたチャネルロケーションデータ生成器をさらに備える、請求項38に記載のデバイス。
  40. 前記エンコーダが、前記基底関数係数の結合されたセットを、Gフォーマット、または高次アンビソニックスに符号化するように構成された、請求項24に記載のデバイス。
  41. 前記第1のオーディオ信号のフォーマットを検出するように構成されたフォーマット検出器をさらに備える、請求項24に記載のデバイス。
  42. 中間係数のセットを生成するために、前記第1のオーディオ信号に最初の基底分解を行うように構成された中間係数計算器と、
    前記基底関数係数の第1のセットを生成するために、前記中間係数のセットに球波面モデルを適用するように構成されたフィルタと、
    をさらに備える、請求項24に記載のデバイス。
  43. 中間係数のセットを生成するために、前記第1のオーディオ信号に最初の基底分解を行うように構成された中間係数計算器と、
    前記基底関数係数の第1のセットを生成するために、前記中間係数のセットに平面波面モデルを適用するように構成されたフィルタと、
    をさらに備える、請求項24に記載のデバイス。
JP2015521834A 2012-07-15 2013-07-12 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体 Expired - Fee Related JP6062544B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261671791P 2012-07-15 2012-07-15
US61/671,791 2012-07-15
US13/844,383 US9190065B2 (en) 2012-07-15 2013-03-15 Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US13/844,383 2013-03-15
PCT/US2013/050222 WO2014014757A1 (en) 2012-07-15 2013-07-12 Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients

Publications (3)

Publication Number Publication Date
JP2015522183A JP2015522183A (ja) 2015-08-03
JP2015522183A5 JP2015522183A5 (ja) 2016-03-24
JP6062544B2 true JP6062544B2 (ja) 2017-01-18

Family

ID=49914002

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015521834A Expired - Fee Related JP6062544B2 (ja) 2012-07-15 2013-07-12 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体

Country Status (5)

Country Link
US (2) US9190065B2 (ja)
EP (1) EP2873072B1 (ja)
JP (1) JP6062544B2 (ja)
CN (1) CN104428834B (ja)
WO (1) WO2014014757A1 (ja)

Families Citing this family (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8923997B2 (en) 2010-10-13 2014-12-30 Sonos, Inc Method and apparatus for adjusting a speaker system
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
US8811630B2 (en) 2011-12-21 2014-08-19 Sonos, Inc. Systems, methods, and apparatus to filter audio
US9084058B2 (en) 2011-12-29 2015-07-14 Sonos, Inc. Sound field calibration using listener localization
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9524098B2 (en) 2012-05-08 2016-12-20 Sonos, Inc. Methods and systems for subwoofer calibration
USD721352S1 (en) 2012-06-19 2015-01-20 Sonos, Inc. Playback device
US9668049B2 (en) 2012-06-28 2017-05-30 Sonos, Inc. Playback device calibration user interfaces
US9706323B2 (en) 2014-09-09 2017-07-11 Sonos, Inc. Playback device calibration
US9690539B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration user interface
US9106192B2 (en) 2012-06-28 2015-08-11 Sonos, Inc. System and method for device playback calibration
US9690271B2 (en) 2012-06-28 2017-06-27 Sonos, Inc. Speaker calibration
US9219460B2 (en) 2014-03-17 2015-12-22 Sonos, Inc. Audio settings based on environment
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
CN104471641B (zh) 2012-07-19 2017-09-12 杜比国际公司 用于改善对多声道音频信号的呈现的方法和设备
US8930005B2 (en) 2012-08-07 2015-01-06 Sonos, Inc. Acoustic signatures in a playback system
US8965033B2 (en) 2012-08-31 2015-02-24 Sonos, Inc. Acoustic optimization
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
USD721061S1 (en) 2013-02-25 2015-01-13 Sonos, Inc. Playback device
US9769586B2 (en) * 2013-05-29 2017-09-19 Qualcomm Incorporated Performing order reduction with respect to higher order ambisonic coefficients
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
KR101984356B1 (ko) * 2013-05-31 2019-12-02 노키아 테크놀로지스 오와이 오디오 장면 장치
EP2830046A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9264839B2 (en) 2014-03-17 2016-02-16 Sonos, Inc. Playback device configuration based on proximity detection
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
EP2928216A1 (en) 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US10134403B2 (en) * 2014-05-16 2018-11-20 Qualcomm Incorporated Crossfading between higher order ambisonic signals
US9367283B2 (en) 2014-07-22 2016-06-14 Sonos, Inc. Audio settings
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
USD883956S1 (en) 2014-08-13 2020-05-12 Sonos, Inc. Playback device
CN105657633A (zh) * 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US9910634B2 (en) 2014-09-09 2018-03-06 Sonos, Inc. Microphone calibration
US9952825B2 (en) 2014-09-09 2018-04-24 Sonos, Inc. Audio processing algorithms
US10127006B2 (en) 2014-09-09 2018-11-13 Sonos, Inc. Facilitating calibration of an audio playback device
US9891881B2 (en) 2014-09-09 2018-02-13 Sonos, Inc. Audio processing algorithm database
US9782672B2 (en) 2014-09-12 2017-10-10 Voyetra Turtle Beach, Inc. Gaming headset with enhanced off-screen awareness
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10140996B2 (en) * 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US11956035B2 (en) 2014-10-13 2024-04-09 Nxgen Partners Ip, Llc System and method for combining MIMO and mode-division multiplexing
US9998187B2 (en) * 2014-10-13 2018-06-12 Nxgen Partners Ip, Llc System and method for combining MIMO and mode-division multiplexing
CN106537942A (zh) * 2014-11-11 2017-03-22 谷歌公司 3d沉浸式空间音频***和方法
US9973851B2 (en) 2014-12-01 2018-05-15 Sonos, Inc. Multi-channel playback of audio content
WO2016172593A1 (en) 2015-04-24 2016-10-27 Sonos, Inc. Playback device calibration user interfaces
US10664224B2 (en) 2015-04-24 2020-05-26 Sonos, Inc. Speaker calibration user interface
USD886765S1 (en) 2017-03-13 2020-06-09 Sonos, Inc. Media playback device
USD768602S1 (en) 2015-04-25 2016-10-11 Sonos, Inc. Playback device
USD920278S1 (en) 2017-03-13 2021-05-25 Sonos, Inc. Media playback device with lights
USD906278S1 (en) 2015-04-25 2020-12-29 Sonos, Inc. Media player device
US20170085972A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Media Player and Media Player Design
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
US9729118B2 (en) 2015-07-24 2017-08-08 Sonos, Inc. Loudness matching
US9538305B2 (en) 2015-07-28 2017-01-03 Sonos, Inc. Calibration error conditions
US9712912B2 (en) 2015-08-21 2017-07-18 Sonos, Inc. Manipulation of playback device response using an acoustic filter
US9736610B2 (en) 2015-08-21 2017-08-15 Sonos, Inc. Manipulation of playback device response using signal processing
US9693165B2 (en) 2015-09-17 2017-06-27 Sonos, Inc. Validation of audio calibration using multi-dimensional motion check
WO2017049169A1 (en) 2015-09-17 2017-03-23 Sonos, Inc. Facilitating calibration of an audio playback device
US10249312B2 (en) 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
US9743207B1 (en) 2016-01-18 2017-08-22 Sonos, Inc. Calibration using multiple recording devices
US11106423B2 (en) 2016-01-25 2021-08-31 Sonos, Inc. Evaluating calibration of a playback device
US10003899B2 (en) 2016-01-25 2018-06-19 Sonos, Inc. Calibration with particular locations
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
US9864574B2 (en) 2016-04-01 2018-01-09 Sonos, Inc. Playback device calibration based on representation spectral characteristics
US9860662B2 (en) 2016-04-01 2018-01-02 Sonos, Inc. Updating playback device configuration information based on calibration data
US9763018B1 (en) 2016-04-12 2017-09-12 Sonos, Inc. Calibration of audio playback devices
EP3465681A1 (en) * 2016-05-26 2019-04-10 Telefonaktiebolaget LM Ericsson (PUBL) Method and apparatus for voice or sound activity detection for spatial audio
US9794710B1 (en) 2016-07-15 2017-10-17 Sonos, Inc. Spatial audio correction
US9860670B1 (en) 2016-07-15 2018-01-02 Sonos, Inc. Spectral correction using spatial calibration
US10372406B2 (en) 2016-07-22 2019-08-06 Sonos, Inc. Calibration interface
US10459684B2 (en) 2016-08-05 2019-10-29 Sonos, Inc. Calibration of a playback device based on an estimated frequency response
US9913061B1 (en) 2016-08-29 2018-03-06 The Directv Group, Inc. Methods and systems for rendering binaural audio content
USD851057S1 (en) 2016-09-30 2019-06-11 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
US10412473B2 (en) 2016-09-30 2019-09-10 Sonos, Inc. Speaker grill with graduated hole sizing over a transition area for a media device
USD827671S1 (en) 2016-09-30 2018-09-04 Sonos, Inc. Media playback device
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
CA3219540A1 (en) * 2017-10-04 2019-04-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
US11315578B2 (en) 2018-04-16 2022-04-26 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for encoding and decoding of directional sound sources
US11240623B2 (en) * 2018-08-08 2022-02-01 Qualcomm Incorporated Rendering audio data from independently controlled audio zones
US11432071B2 (en) 2018-08-08 2022-08-30 Qualcomm Incorporated User interface for controlling audio zones
US11206484B2 (en) 2018-08-28 2021-12-21 Sonos, Inc. Passive speaker authentication
US10299061B1 (en) 2018-08-28 2019-05-21 Sonos, Inc. Playback device calibration
US10575094B1 (en) * 2018-12-13 2020-02-25 Dts, Inc. Combination of immersive and binaural sound
US10734965B1 (en) 2019-08-12 2020-08-04 Sonos, Inc. Audio calibration of a portable playback device
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
EP3809709A1 (en) * 2019-10-14 2021-04-21 Koninklijke Philips N.V. Apparatus and method for audio encoding
US11152991B2 (en) 2020-01-23 2021-10-19 Nxgen Partners Ip, Llc Hybrid digital-analog mmwave repeater/relay with full duplex
US11348594B2 (en) * 2020-06-11 2022-05-31 Qualcomm Incorporated Stream conformant bit error resilience

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
FR2844894B1 (fr) * 2002-09-23 2004-12-17 Remy Henri Denis Bruno Procede et systeme de traitement d'une representation d'un champ acoustique
FR2862799B1 (fr) 2003-11-26 2006-02-24 Inst Nat Rech Inf Automat Dispositif et methode perfectionnes de spatialisation du son
DE102004028694B3 (de) * 2004-06-14 2005-12-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen eines Informationssignals in eine Spektraldarstellung mit variabler Auflösung
WO2006003891A1 (ja) 2004-07-02 2006-01-12 Matsushita Electric Industrial Co., Ltd. 音声信号復号化装置及び音声信号符号化装置
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
US20080004729A1 (en) * 2006-06-30 2008-01-03 Nokia Corporation Direct encoding into a directional audio coding format
MY145497A (en) 2006-10-16 2012-02-29 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008063034A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101422745B1 (ko) * 2007-03-30 2014-07-24 한국전자통신연구원 다채널로 구성된 다객체 오디오 신호의 인코딩 및 디코딩장치 및 방법
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
WO2009049895A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix
EP2624253A3 (en) 2007-10-22 2013-11-06 Electronics and Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
EP2250821A1 (en) 2008-03-03 2010-11-17 Nokia Corporation Apparatus for capturing and rendering a plurality of audio channels
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
ES2733878T3 (es) 2008-12-15 2019-12-03 Orange Codificación mejorada de señales de audio digitales multicanales
GB2476747B (en) 2009-02-04 2011-12-21 Richard Furse Sound system
EP2249334A1 (en) 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
CN102171754B (zh) 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
KR101805212B1 (ko) 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
TWI463485B (zh) 2009-09-29 2014-12-01 Fraunhofer Ges Forschung 音訊信號解碼器或編碼器、用以提供上混信號表示型態或位元串流表示型態之方法、電腦程式及機器可存取媒體
WO2011104463A1 (fr) 2010-02-26 2011-09-01 France Telecom Compression de flux audio multicanal
DE102010030534A1 (de) 2010-06-25 2011-12-29 Iosono Gmbh Vorrichtung zum Veränderung einer Audio-Szene und Vorrichtung zum Erzeugen einer Richtungsfunktion
US9111526B2 (en) * 2010-10-25 2015-08-18 Qualcomm Incorporated Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal
US9552840B2 (en) 2010-10-25 2017-01-24 Qualcomm Incorporated Three-dimensional sound capturing and reproducing with multi-microphones
US8855341B2 (en) * 2010-10-25 2014-10-07 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2666160A4 (en) 2011-01-17 2014-07-30 Nokia Corp AUDIO SCENE PROCESSING APPARATUS
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
US20140086416A1 (en) 2012-07-15 2014-03-27 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients

Also Published As

Publication number Publication date
WO2014014757A1 (en) 2014-01-23
US9190065B2 (en) 2015-11-17
US20160035358A1 (en) 2016-02-04
EP2873072A1 (en) 2015-05-20
CN104428834A (zh) 2015-03-18
US20140016786A1 (en) 2014-01-16
EP2873072B1 (en) 2016-11-02
JP2015522183A (ja) 2015-08-03
CN104428834B (zh) 2017-09-08
US9478225B2 (en) 2016-10-25

Similar Documents

Publication Publication Date Title
JP6062544B2 (ja) 基底関数係数を使用した3次元オーディオコード化のためのシステム、方法、装置、およびコンピュータ可読媒体
US9788133B2 (en) Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9761229B2 (en) Systems, methods, apparatus, and computer-readable media for audio object clustering
US9516446B2 (en) Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US20140086416A1 (en) Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) Loudspeaker position compensation with 3D-audio hierarchical coding
EP3360343B1 (en) Conversion from object-based audio to hoa
EP3400598B1 (en) Mixed domain coding of audio
TW202105164A (zh) 用於低頻率效應之音訊呈現
CN112823534B (zh) 信号处理设备和方法以及程序
US9466302B2 (en) Coding of spherical harmonic coefficients

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160201

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160201

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160201

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160816

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161214

R150 Certificate of patent or registration of utility model

Ref document number: 6062544

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees