JP2017513053A

JP2017513053A - 音場の記述へのオーディオチャンネルの挿入

Info

Publication number: JP2017513053A
Application number: JP2016557583A
Authority: JP
Inventors: ディパンジャン・セン; ニルズ・ギュンター・ピーターズ
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2014-03-21
Filing date: 2015-03-20
Publication date: 2017-05-25
Also published as: US20150271621A1; US10412522B2; KR20160136361A; WO2015143355A1; EP3120351A1; CN106104680B; CN106104680A

Abstract

概して、音場の記述にオーディオチャンネルを挿入するための技法が説明される。プロセッサを備えるデバイスは、その技法を実行するように構成され得る。プロセッサは、音場の高次アンビソニック表現とは別のオーディオチャンネルを取得するように構成され得る。プロセッサは、オーディオチャンネルが音場から抽出され得るように音場内の空間位置にオーディオチャンネルを挿入するようにさらに構成され得る。

Description

本出願は、各々その全体が参照により本明細書に組み込まれる、「INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS」と題する、2014年3月21日に出願された米国仮出願第61/969,011号、および「INSERTING AUDIO CHANNELS INTO DESCRIPTIONS OF SOUNDFIELDS」と題する、2014年3月24日に出願された米国仮出願第61/969,586号の利益を主張する。

本開示はオーディオデータに関し、より詳細には、高次アンビソニックスオーディオデータのコーディングに関する。

高次アンビソニックス(HOA)信号(複数の球面調和係数(SHC)または他の階層的要素によって表されることが多い)は、音場の3次元表現である。HOA表現またはSHC表現は、SHC信号からレンダリングされるマルチチャンネルオーディオ信号を再生するために使用される局所的なスピーカー配置とは無関係な方式で、音場を表現することができる。SHC信号はまた、後方互換性を円滑にすることができ、それは、SHC信号が、たとえば5.1オーディオチャンネルフォーマットまたは7.1オーディオチャンネルフォーマットのようなよく知られており広く採用されているマルチチャンネルフォーマットへとレンダリングされ得るからである。したがって、SHC表現は、後方互換性にも対応する音場のより良好な表現を可能にし得る。

国際特許出願公開第2014/194099号米国特許出願第14/594,533号

「Call for Proposals for 3D Audio」、ISO/IEC JTC1/SC29/WG11/N13411、2013年1月 Poletti, M、「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」、J. Audio Eng. Soc、Vol. 53、No. 11、2005年11月、1004-1025頁

概して、本開示は、高次アンビソニックスオーディオデータのコーディング用の技法を説明する。高次アンビソニックスオーディオデータは、1よりも大きい次数を有する球面調和基底関数に対応する、少なくとも1つの高次アンビソニック(HOA)係数を含む場合がある。

一態様では、デバイスは、音場とは別のオーディオチャンネルを含む音場の拡大高次アンビソニック表現を取得し、音場の拡大高次アンビソニック表現内の空間位置からオーディオチャンネルを抽出するように構成された1つまたは複数のプロセッサを備える。

別の態様では、方法は、音場とは別のオーディオチャンネルを含む音場の拡大高次アンビソニック表現を取得することと、音場の拡大高次アンビソニック表現内の空間位置からオーディオチャンネルを抽出することとを含む。

別の態様では、デバイスは、音場の高次アンビソニック表現とは別のオーディオチャンネルを取得し、オーディオチャンネルが音場から抽出され得るように音場内の空間位置にオーディオチャンネルを挿入するように構成された1つまたは複数のプロセッサを備える。

別の態様では、方法は、音場の高次アンビソニック表現とは別のオーディオチャンネルを取得することと、オーディオチャンネルが音場から抽出され得るように音場内の空間位置にオーディオチャンネルを挿入することとを含む。

本技法の1つまたは複数の態様の詳細が添付の図面および以下の説明において記載される。本技法の他の特徴、目的、および利点は、説明、図面、および特許請求の範囲から明らかになるであろう。

様々な次数および位数の球面調和基底関数を示す図である。本開示において説明される技法の様々な態様を実行することができるシステムを示す図である。本開示において説明される技法の様々な態様を各々実行することができる、図2に示されたオーディオ符号化デバイスの様々な例を示すブロック図である。本開示において説明される技法の様々な態様を各々実行することができる、図2に示されたオーディオ符号化デバイスの様々な例を示すブロック図である。本開示において説明される技法の様々な態様を各々実行することができる、図2に示されたオーディオ符号化デバイスの様々な例を示すブロック図である。本開示において説明される技法の様々な態様を実行することができる、図2に示されたオーディオ復号デバイスの様々な例を示すブロック図である。本開示において説明される技法の様々な態様を実行することができる、図2に示されたオーディオ復号デバイスの様々な例を示すブロック図である。本開示において説明される技法の様々な態様を実行することができる、図2に示されたオーディオ復号デバイスの様々な例を示すブロック図である。本開示において説明される挿入技法の様々な態様を実行する際のオーディオ符号化デバイスの挿入ユニットの例示的な動作を示す図である。本開示において説明される挿入技法の様々な態様を実行する際のオーディオ符号化デバイスの挿入ユニットの例示的な動作を示す図である。本開示において説明される挿入技法の様々な態様を実行する際のオーディオ符号化デバイスの挿入ユニットの例示的な動作を示す図である。本開示において説明される領域作成技法および挿入技法の様々な態様を実行する際のオーディオ符号化デバイスの挿入ユニットの例示的な動作を示すフローチャートである。本開示において説明されるオーディオチャンネル抽出技法の様々な態様を実行する際のオーディオ復号デバイスのオーディオチャンネル抽出ユニットの例示的な動作を示すフローチャートである。本開示において説明される技法に従って、オーディオオブジェクトが挿入され得る音場を示す図である。本開示において説明される技法に従って、オーディオオブジェクトが挿入され得る音場を示す図である。本開示において説明される技法に従って、オーディオオブジェクトが挿入され得る音場を示す図である。

サラウンドサウンドの進化は、娯楽に利用可能な多数の出力フォーマットを生み出した。そのような消費者向けのサラウンドサウンドフォーマットの例は、いくつかの幾何学的座標中のラウドスピーカーへのフィードを暗黙的に指定するという点で、大半が「チャンネル」ベースである。消費者向けサラウンドサウンドフォーマットには、一般的な5.1フォーマット(これは、フロントレフト(FL)、フロントライト(FR)、センターまたはフロントセンター、バックレフトまたはサラウンドレフト、バックライトまたはサラウンドライト、および低周波効果(LFE)という6つのチャンネルを含む)、成長している7.1フォーマット、および(たとえば、超解像度テレビジョン規格とともに使用するための)7.1.4フォーマットおよび22.2フォーマットのようなハイトスピーカーを含む様々なフォーマットがある。非消費者向けフォーマットは、「サラウンドアレイ」と呼ばれることが多い任意の数のスピーカー(対称的な、および非対称的な幾何学的配置の)に及び得る。そのようなアレイの一例は、切頭正二十面体の角に座標上で配置される32個のラウドスピーカーを含む。

将来のMPEGエンコーダへの入力は、任意選択で、(i)事前に指定された場所にあるラウドスピーカーを通じて再生されることが意図される(上で論じられたような)従来のチャンネルベースのオーディオ、(ii)(情報の中でもとりわけ)位置座標を含む関連するメタデータを有する、単一のオーディオオブジェクトのための個別のパルス符号変調(PCM)データを伴うオブジェクトベースのオーディオ、および、(iii)球面調和基底関数(「球面調和係数」すなわちSHC、「高次アンビソニックス」すなわちHOA、および「HOA係数」とも呼ばれる)の係数を使用して音場を表すことを伴うシーンベースのオーディオという3つの可能性のあるフォーマットの1つである。将来のMPEGエンコーダのさらなる詳細は、http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zipにおいて入手可能な、スイスのジュネーブにおいて2013年1月に公表された、国際標準化機構/国際電気標準会議(ISO)/(IEC) JTC1/SC29/WG11/N13411による、「Call for Proposals for 3D Audio」という表題の文書において見出され得る。

様々な「サラウンドサウンド」チャンネルベースのフォーマットが利用可能である。それらはたとえば、5.1ホームシアターシステム(ステレオよりもリビングルームに入り込んだという意味では最も成功している)から、NHK(日本放送協会)によって開発された22.2システムにまでわたる。コンテンツ作成者(たとえば、ハリウッドスタジオ)は、映画のサウンドトラックを1回で作成することを望み、各スピーカー構成に対するサウンドトラックをリミックスすることに労力を費やすことを望まない。最近、規格開発団体は、標準化されたビットストリームへの符号化と、スピーカーの幾何学的配置(および数)に適合可能であり依存しない後続の復号と、再生の位置における音響条件(レンダラを含む)とを提供するための方法を検討している。

コンテンツ作成者にそのような柔軟性を提供するために、音場を表すために要素の階層的なセットが使用され得る。要素の階層的なセットとは、より低次の要素の基本的なセットがモデル化された音場の完全な表現を提供するように要素が並べられる、要素のセットを指し得る。セットが高次の要素を含むように拡張されるにつれて、表現はより詳細になり、分解能が向上する。

要素の階層的なセットの一例は、球面調和係数(SHC)のセットである。次の式は、SHCを使用した音場の記述または表現を示す。

この式は、時間tにおける、音場の任意の点{r_r,θ_r,φ_r}における圧力p_iが、SHC
によって一意に表現され得ることを示す。ここで、
であり、cは音の速さ(約343m/s)であり、{r_r,θ_r,φ_r}は基準の点(または観測点)であり、j_n(・)は次数nの球面ベッセル関数であり、
は、次数nおよび位数mの球面調和基底関数である。角括弧の中の項は、離散フーリエ変換(DFT)、離散コサイン変換(DCT)、またはウェーブレット変換のような様々な時間-周波数の変換によって近似され得る、信号の周波数領域の表現(すなわち、S(ω,r_r,θ_r,φ_r))である。階層的なセットの他の例は、ウェーブレット変換係数のセットと、多分解能基底関数の係数の他のセットとを含む。

図1は、0次(n=0)から4次(n=4)までの球面調和基底関数を示す図である。図に見られるように、各次数に対して、示されてはいるが図示を簡単にするために図1の例では明示的に注記されていない、位数mの展開がある。

SHC
は、様々なマイクロフォンアレイ構成によって物理的に取得される(たとえば、記録される)ことが可能であり、または代替的には、音場のチャンネルベースまたはオブジェクトベースの記述から導出されることが可能である。SHCはシーンベースのオーディオを表し、ここでSHCは、より効率的な送信または記憶を促し得る符号化されたSHCを取得するための、オーディオエンコーダへの入力であり得る。たとえば、(1+4)²個(25個、したがって4次)の係数を伴う4次の表現が使用され得る。

上で述べられたように、SHCは、マイクロフォンアレイを使用したマイクロフォン録音から導出され得る。SHCがマイクロフォンアレイからどのように導出され得るかの様々な例は、Poletti, M、「Three-Dimensional Surround Sound Systems Based on Spherical Harmonics」、J. Audio Eng. Soc、Vol. 53、No. 11、2005年11月、1004-1025頁に記述されている。

SHCがオブジェクトベースの記述からどのように導出され得るかを示すために、次の式を検討する。個々のオーディオオブジェクトに対応する音場に対する係数
は、次のように表され得る。
ここでiは
であり、
は次数nの(第二種の)球ハンケル関数であり、{r_s,θ_s,φ_s}はオブジェクトの位置である。オブジェクトソースのエネルギーg(ω)を周波数の関数として(たとえば、PCMストリームに対する高速フーリエ変換の実行のような、時間-周波数分析技法を使用して)知ることによって、各PCMオブジェクトおよび対応する場所をSHC
へと変換することが可能になる。さらに、(上記は線形であり直交方向の分解であるので)各オブジェクトに対する
係数が加法的であることが示され得る。このようにして、多数のPCMオブジェクトが、
係数によって(たとえば、個々のオブジェクトに対する係数ベクトルの合計として)表され得る。基本的に、係数は音場についての情報(3D座標の関数としての圧力)を含み、上記は、観測点{r_r,θ_r,φ_r}の近傍における個々のオブジェクトから音場全体の表現への変換を表す。以下で、残りの図が、オブジェクトベースおよびSHCベースのオーディオコーディングの状況において説明される。

図2は、本開示において説明される技法の様々な態様を実行することができるシステム10を示す図である。図2の例に示されるように、システム10は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14とを含む。コンテンツ作成者デバイス12およびコンテンツ消費者デバイス14の状況で説明されるが、本技法は、SHC(HOA係数とも呼ばれ得る)または音場の任意の他の階層的表現がオーディオデータを表すビットストリームを形成するために符号化されるあらゆる状況において実施され得る。その上、コンテンツ作成者デバイス12は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、セットトップボックス、テレビジョン、オーディオ受信機、ポータブルコンピュータ、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な、任意の形態のコンピューティングデバイスを表すことができる。同様に、コンテンツ消費者デバイス14は、いくつか例を挙げると、ハンドセット(または携帯電話)、タブレットコンピュータ、スマートフォン、セットトップボックス、テレビジョン、オーディオ受信機、ポータブルコンピュータ、またはデスクトップコンピュータを含む、本開示において説明される技法を実施することが可能な任意の形態のコンピューティングデバイスを表し得る。

コンテンツ作成者デバイス12は、コンテンツ消費者デバイス14のようなコンテンツ消費者デバイスである操作者による消費のためにマルチチャンネルオーディオコンテンツを生成することができる、映画またはテレビジョンスタジオまたは他のエンティティによって操作され得る。いくつかの例では、コンテンツ作成者デバイス12は、HOA係数11を圧縮することを望む個人のユーザによって操作され得る。いくつかの例では、コンテンツ作成者デバイス12は、(解説などの)別のオーディオコンテンツ201でHOA係数11を拡大することができる。しばしば、コンテンツ作成者はビデオコンテンツとともにオーディオコンテンツを生成する。コンテンツ消費者デバイス14は、個人、たとえば、ユーザ7によって操作され得る。コンテンツ消費者デバイス14はオーディオ再生システム16を含んでよく、これは、マルチチャンネルオーディオコンテンツとしての再生のためにSHCをレンダリングすることが可能な任意の形態のオーディオ再生システムを指し得る。

コンテンツ作成者デバイス12は、オーディオ編集システム18を含む。コンテンツ作成者デバイス12は、様々なフォーマットのライブ録音(HOA係数として直接含む)およびオーディオオブジェクトを取得することができ、コンテンツ作成者デバイス12はオーディオ編集システム18を使用してこれらを編集することができる。コンテンツ作成者は、編集プロセスの間に、オーディオオブジェクト9からHOA係数11をレンダリングし、さらなる編集を必要とする音場の様々な態様を特定しようと試みて、レンダリングされたスピーカーフィードを聴取することができる。コンテンツ作成者デバイス12は次いで、(場合によっては、ソースHOA係数が上で説明された方式でそれから導出され得る、オーディオオブジェクト9の異なる1つの操作を通じて間接的に)HOA係数11を編集することができる。コンテンツ作成者デバイス12は、オーディオ編集システム18を利用してHOA係数11を生成することができる。オーディオ編集システム18は、1つまたは複数のソース球面調和係数として、オーディオデータを編集し、オーディオデータを出力することが可能な任意のシステムを表す。

編集プロセスが完了すると、コンテンツ作成者デバイス12は、HOA係数11に基づいてビットストリーム21を生成することができる。すなわち、コンテンツ作成者デバイス12は、ビットストリーム21を生成するために、本開示において説明された技法の様々な態様に従って、HOA係数11を符号化し、または別様に圧縮するように構成されるデバイスを表す、オーディオ符号化デバイス20を含む。オーディオ符号化デバイス20は、一例として、有線チャンネルまたはワイヤレスチャンネル、データ記憶デバイスなどであり得る送信チャンネルにわたる送信のために、ビットストリーム21を生成することができる。ビットストリーム21は、HOA係数11の符号化されたバージョンを表すことができ、主要ビットストリームと、サイドチャンネル情報と呼ばれ得る別のサイドビットストリームとを含み得る。

図2ではコンテンツ消費者デバイス14に直接送信されるものとして示されるが、コンテンツ作成者デバイス12は、コンテンツ作成者デバイス12とコンテンツ消費者デバイス14との間に配置された中間デバイスにビットストリーム21を出力することができる。中間デバイスは、コンテンツ消費者デバイス14へ後で配信するためにビットストリーム21を記憶することができ、コンテンツ消費者デバイス14はビットストリームを要求することができる。中間デバイスは、ファイルサーバ、Webサーバ、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン、または、オーディオデコーダによって後で取り出すためにビットストリーム21を記憶することが可能な任意の他のデバイスを備え得る。中間デバイスは、ビットストリーム21を要求するコンテンツ消費者デバイス14のような契約者に、ビットストリーム21をストリーミングすることが(場合によっては対応するビデオデータビットストリームを送信することとともに)可能なコンテンツ配信ネットワーク中に存在し得る。

代替的に、コンテンツ作成者デバイス12は、ビットストリーム21を、コンパクトディスク、デジタルビデオディスク、高品位ビデオディスク、または他の記憶媒体のような記憶媒体に記憶することができ、これらの大半がコンピュータによって読み取られることが可能であり、したがって、コンピュータ可読記憶媒体または非一時的コンピュータ可読記憶媒体と呼ばれ得る。この文脈では、送信チャンネルは、媒体に記憶されたコンテンツがそれによって送信されるチャンネルを指し得る(かつ、小売店または他の店舗ベースの配信機構を含み得る)。したがって、いずれにしても、本開示の技法はこの点に関して図2の例に限定されるべきではない。

図2の例にさらに示されるように、コンテンツ消費者デバイス14はオーディオ再生システム16を含む。オーディオ再生システム16は、マルチチャンネルオーディオデータを再生することが可能な任意のオーディオ再生システムを表し得る。オーディオ再生システム16は、いくつかの異なるレンダラ22を含み得る。レンダラ22は各々、異なる形式のレンダリングを提供することができ、ここで、異なる形式のレンダリングは、ベクトルベースの振幅パンニング(VBAP)を実行する様々な方法の1つまたは複数、および/または、音場合成を実行する様々な方法の1つまたは複数を含み得る。本明細書で使用される場合、「Aおよび/またはB」は「AまたはB」、または「AとB」の両方を意味する。

オーディオ再生システム16はさらに、オーディオ復号デバイス24を含み得る。オーディオ復号デバイス24は、ビットストリームを復号して、ビットストリーム21からHOA係数11'および別のオーディオコンテンツ201を生成するように構成されたデバイスを表すことができる。HOA係数11'は、HOA係数11と同様であり得るが、有損失の動作(たとえば、量子化)および/または送信チャンネルを介した送信が原因で異なり得る。

オーディオ再生システム16は、1つまたは複数のオーディオレンダラ22を使用してHOA係数11'をレンダリングして、ラウドスピーカーフィード25を出力することができる。オーディオ再生システム16は、1つまたは複数のオーディオレンダラ22を使用して別のオーディオコンテンツ201をレンダリングして、別のラウドスピーカーフィード203を出力することができる。オーディオ再生システム16は、別のラウドスピーカーフィード203をラウドスピーカーフィード25とミキシングして、それにより混合ラウドスピーカーフィード25'を生成するミキサー8をさらに含む場合がある。

適切なレンダラを選択するために、またはいくつかの例では、適切なレンダラを生成するために、オーディオ再生システム16は、ラウドスピーカーの数および/またはラウドスピーカーの空間的な配置を示すラウドスピーカー情報を取得することができる。いくつかの例では、オーディオ再生システム16は、基準マイクロフォンを使用してラウドスピーカー情報を取得し、ラウドスピーカー情報を動的に決定するような方式でラウドスピーカーを駆動することができる。他の例では、またはラウドスピーカー情報の動的な決定とともに、オーディオ再生システム16は、オーディオ再生システム16とインターフェースをとりラウドスピーカー情報を入力するようにユーザを促すことができる。

オーディオ再生システム16は次いで、ラウドスピーカー情報に基づいて、オーディオレンダラ22の1つまたは複数を選択することができる。いくつかの例では、オーディオ再生システム16は、オーディオレンダラ22のいずれもがラウドスピーカー情報において指定されるラウドスピーカーの幾何学的配置に対して何らかの閾値に類似する尺度(ラウドスピーカーの幾何学的配置の観点から)の範囲内にないとき、ラウドスピーカー情報に基づいてオーディオレンダラ22の1つを生成することができる。オーディオ再生システム16は、いくつかの例では、オーディオレンダラ22の既存の1つを選択することを最初に試みることなく、ラウドスピーカー情報に基づいてオーディオレンダラ22の1つを生成することができる。

オーディオ再生システム16は、それによりユーザ7がオーディオ再生システム16とインターフェースすることができるユニットを(リモートコントロールを介して、テキストベースおよび/または音声ベースのインターフェースなどを介して、図式的に)表す、ユーザインターフェースユニット6も含む。ユーザインターフェースユニット6は、ラウドスピーカーフィード25および別のオーディオコンテンツのラウドスピーカーフィード203の音量を制御する様々な方法を提示することができる。ユーザ7は、コマンドを入力して、HOA係数11'からレンダリングされるラウドスピーカーフィード25とは別のラウドスピーカーフィード203の音量をミュート、ミュート解除、および/または、大きくもしくは小さくすることができる。その上、ユーザインターフェースユニット6は、(別のオーディオコンテンツ201を指す別の方法であり得る)別のオーディオチャンネル201に関連するメタデータを提示することができる。メタデータは、別のオーディオチャンネル201自体の中で指定される場合がある。ユーザインターフェースユニット6は、別のオーディオチャンネル201を識別することに関係する解説者/スポーツキャスタなどの言語、タイプ、名前などを記述する任意の他の情報とともに、メタデータを提示することができる。2つ以上の別のオーディオチャンネル201が供給される場合、ユーザインターフェースユニット6は、チャンネル201の各々に対してこの情報を指定して、様々なチャンネル201間でユーザが選択し、これらのチャンネル201の各々を別々にミュートもしくはミュート解除し、またはこれらのチャンネル201の各々の音量を大きくもしくは小さくすることを容易にすることができる。その上、ユーザインターフェースユニット6は、どの物理的なスピーカーに別のオーディオチャンネルがミキシングされるべきかをユーザが選択することを可能にすることができる。

ユーザインターフェースユニット6は、ユーザ入力を受信すると、ミキサー8がHOA係数11'からレンダリングされるラウドスピーカーフィード25と別のラウドスピーカーフィード203を適切にミキシングできるように、ミキサー8とインターフェースすることができる。このようにして、本技法は、別のラウドスピーカーフィード203に対するよりきめ細かいユーザ制御を容易にすることができる。

言い換えれば、別の専用オーディオチャンネルを有することの潜在的な利点の1つは、放送局によって引用されているように、潜在的に柔軟かつ双方向に音量を小さくし、かつ/またはどの言語の解説を使用するべきかを選択することができることにおいて、リスナに提供することができる柔軟性である。これらの追加の解説「オブジェクト」を提供するには、通常、追加の帯域幅が必要になる。

本開示において説明される技法の様々な態様によって提供される解決策により、追加のチャンネルがHOAチャンネルまたはSHチャンネル内に組み込まれることが可能になり得る。これらのSH/HOAチャンネルは新しいMPEG-H規格において提案されたSH/HOAコーディング方式の一部としてコーディングおよび送信され得るので、一般に、上述された理由で必要とされる追加の帯域幅は存在しない。本技法により、通常、バックグラウンド情報または環境情報を表すSH/HOA係数によって表される音場記述に、オーディオ符号化デバイスがこれらのオブジェクト音を挿入することが可能になり得る。これを行う3つの例示的な方法が存在する。
1)空間的な「穴」が存在する音場の領域にオブジェクト音を挿入する。これには、エンコーダにおける音場分析、および場合によっては、オブジェクトが配置された仰角/方位角を送信することが必要である。
2)音場の「任意の」部分にオブジェクト音を挿入し、(SVDまたは他の手段などの音源分離アルゴリズムを使用して)明瞭な/フォアグラウンドのオブジェクトを分離して、それらを正確に抽出できるようにデコーダを当てにする。これは、オーディオオブジェクトがエンコーダからどこに挿入されたかに関する何らかの情報を送ることによって支援することもできる。
3)音場内の穴をこじ開け、その結果、いかなる有害な知覚的影響も課されない。オーディオオブジェクトは、これらの空間的な穴の中に配置されるはずである。エンコーダは、たとえば、デコーダに「メタデータ」を送ることによって、これらの穴がどこに作成されたかを示すはずである。

図3A〜図3Cは、本開示において説明される技法の様々な態様を実行することができる、図2の例に示されたオーディオ符号化デバイス20の例をより詳細に示すブロック図である。図3Aの例では、オーディオ符号化デバイス20Aは、コンテンツ分析ユニット26、ベクトルベースの分解ユニット27、および指向性ベースの分解ユニット28を含む。以下で簡単に説明されるが、オーディオ符号化デバイス20Aに関するさらなる情報およびHOA係数を圧縮または別様に符号化する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という表題の国際特許出願公開第2014/194099号において入手可能である。

コンテンツ分析ユニット26は、HOA係数11のコンテンツを分析して、HOA係数11が生の録音から生成されるコンテンツを表すかオーディオオブジェクトから生成されるコンテンツを表すかを特定するように構成されるユニットを表す。コンテンツ分析ユニット26は、HOA係数11が実際の音場の記録から生成されたか人工的なオーディオオブジェクトから生成されたかを決定することができる。いくつかの例では、フレーム化されたHOA係数11が録音から生成されたとき、コンテンツ分析ユニット26は、HOA係数11をベクトルベースの分解ユニット27に渡す。いくつかの例では、フレーム化されたHOA係数11が合成オーディオオブジェクトから生成されたとき、コンテンツ分析ユニット26は、HOA係数11を指向性ベースの合成ユニット28に渡す。指向性ベースの合成ユニット28は、HOA係数11の指向性ベースの合成を実行して指向性ベースのビットストリーム21を生成するように構成されるユニットを表し得る。

図3Aの例に示されるように、ベクトルベースの分解ユニット27は、線形可逆変換(LIT)ユニット30、パラメータ計算ユニット32、並べ替えユニット34、フォアグラウンド選択ユニット36、エネルギー補償ユニット38、音響心理学的オーディオコーダユニット40、ビットストリーム生成ユニット42、音場分析ユニット44、係数削減ユニット46、バックグラウンド(BG)選択ユニット48、空間-時間補間ユニット50、量子化ユニット52、および挿入ユニット234を含み得る。

線形可逆変換(LIT)ユニット30は、HOAチャンネルの形式でHOA係数11を受け取り、各チャンネルは、球面基底関数(これはHOA[k]と示されることがあり、kはサンプルの現在のフレームまたはブロックを示し得る)の所与の次数、位数と関連付けられる係数のブロックまたはフレームを表す。HOA係数11のマトリックスは、D: M x (N+1)²という次元を有し得る。

LITユニット30は、特異値分解と呼ばれるある形式の分析を実行するように構成されるユニットを表し得る。SVDに関して説明されるが、本開示において説明される技法は、線形的に相関付けられない、エネルギー圧縮された出力のセットを提供する、任意の同様の変換または分解に関して実行され得る。また、本開示における「セット」への言及は、特に反対のことが述べられていない限り0ではないセットを指すことが一般に意図されており、いわゆる「空集合」を含む伝統的な数学的な集合の定義を指すことは意図されていない。代替的な変換は、「PCA」と呼ばれることが多い主要成分分析を備え得る。状況に応じて、PCAは、いくつか例を挙げると、個別のカルーネンレーベ変換、ホテリング変換、固有直交分解(POD)、および固有値分解(EVD)のような、いくつかの異なる名称で呼ばれ得る。オーディオデータを圧縮するという背後の目標につながるそのような演算の特性は、マルチチャンネルオーディオデータの「エネルギー圧縮」および「非相関化」である。

いずれにしても、LITユニット30が例示を目的に特異値分解(これはやはり「SVD」と呼ばれ得る)を実行することを仮定すると、LITユニット30は、変換されたHOA係数の2つ以上のセットへとHOA係数11を変換することができる。変換されたHOA係数の「セット」は、変換されたHOA係数のベクトルを含み得る。図3Aの例では、LITユニット30は、HOA係数11に関してSVDを実行して、いわゆるV行列、S行列、およびU行列を生成することができる。線形代数において、SVDは、y対yの実数または複素数の行列X(ここでXはHOA係数11のようなマルチチャンネルオーディオデータを表し得る)の、次の形式での要素分解を表し得る。
X = USV*
Uは、y対yの実数または複素数の単位行列を表すことができ、ここで、Uのy個の列はマルチチャンネルオーディオデータの左特異ベクトルとして知られている。Sは対角線上に非負の実数を有するy対zの長方の対角行列を表すことができ、Sの対角方向の値はマルチチャンネルオーディオデータの特異値として知られている。V*(これはVの共役転置を示し得る)は、z対zの実数または複素数の単位行列を表すことができ、ここで、V*のz個の列はマルチチャンネルオーディオデータの右特異ベクトルとして知られている。

いくつかの例では、上で参照されたSVDの数学的表現におけるV*行列は、SVDが複素数を備える行列に適用され得ることを反映するために、V行列の共役転置として示される。実数だけを備える行列に適用されるとき、V行列の複素共役(または言い換えると、V*行列)はV行列の転置と見なされ得る。下では、図示を簡単にするために、HOA係数11は実数を備え、結果としてV*行列ではなくV行列がSVDを通じて出力されることが仮定される。その上、本開示ではV行列として示されるが、V行列への言及は、適切であればV行列の転置を指すものとして理解されるべきである。V行列であると仮定されるが、本技法は、複素数の係数を有するHOA係数11に同様の方式で適用されることが可能であり、このときSVDの出力はV*行列である。したがって、この点において、本技法は、V行列を生成するためにSVDを適用することだけに限定されるべきではなく、V*行列を生成するために複素数の成分を有するHOA係数11にSVDを適用することを含み得る。

このようにして、LITユニット30は、HOA係数11に関してSVDを実行して、次元D: M x (N+1)²を有するUS[k]ベクトル33(これはSベクトルとUベクトルの組み合わされたバージョンを表し得る)と、次元D:(N+1)² x (N+1)²を有するV[k]ベクトル35とを出力することができる。US[k]行列中の個々のベクトル要素はX_ps(k)とも呼ばれ得るが、V[k]行列の個々のベクトルはv(k)とも呼ばれ得る。

U行列、S行列、およびV行列の分析は、これらの行列がXによって上で表される背後の音場の空間的および時間的な特性を搬送または表現することを明らかにし得る。(M個のサンプルの長さの)Uの中のN個のベクトルの各々は、(M個のサンプルによって表される期間について)時間の関数として正規化された別々のオーディオ信号を表すことができ、これらのオーディオ信号は、互いに直交しており、あらゆる空間的な特性(これは指向性情報とも呼ばれ得る)に対して無関係にされている。空間的な形状および場所(r、θ、φ)を表す空間特性は代わりに、個々のi番目のベクトルv⁽ⁱ⁾(k)によって、V行列(各々長さが(N+1)²である)において表され得る。v⁽ⁱ⁾(k)ベクトルの各々の個々の要素は、関連するオーディオオブジェクトに対する音場の形状(幅を含む)および配置を記述するHOA係数を表し得る。U行列およびV行列の中のベクトルの両方が、それらの二乗平均平方根エネルギーが1に等しくなるように正規化される。したがって、Uの中のオーディオ信号のエネルギーは、Sの中の対角線上の要素によって表される。したがって、UとSを乗算してUS[k](個々のベクトル要素X_ps(k)を伴う)を形成することで、エネルギーを有するオーディオ信号が表される。SVD分解により、オーディオ時間信号(Uの中の)と、それらのエネルギー(Sの中の)と、それらの空間特性(Vの中の)とを無関係にできることで、本開示において説明される技法の様々な態様がサポートされ得る。さらに、US[k]とV[k]のベクトル乗算による、背後のHOA[k]係数Xを合成するモデルは、「ベクトルベースの分解」という用語を生じさせ、これは本文書の全体で使用される。

HOA係数11に関して直接実行されるものとして説明されるが、LITユニット30は、HOA係数11から導出されるものに線形可逆変換を適用することができる。たとえば、LITユニット30は、HOA係数11から導出されるパワースペクトル密度行列に関してSVDを適用することができる。係数自体ではなくHOA係数のパワースペクトル密度(PSD)に関してSVDを実行することによって、LITユニット30は、プロセッササイクルと記憶空間の1つまたは複数に関する、SVDの実行の計算的な複雑さを低減できる可能性がありながら、SVDがHOA係数に直接適用されているかのように、同じソースオーディオの符号化の効率を達成することができる。

パラメータ計算ユニット32は、相関パラメータ(R)、方向特性パラメータ(θ,φ,r)、およびエネルギー特性(e)のような様々なパラメータを計算するように構成されるユニットを表す。現在のフレームに対するパラメータの各々は、R[k]、θ[k]、φ[k]、r[k]、およびe[k]と示され得る。パラメータ計算ユニット32は、US[k]ベクトル33に関してエネルギー分析および/または相関付け(またはいわゆる相互相関付け)を実行して、パラメータを特定することができる。パラメータ計算ユニット32はまた、前のフレーム対するパラメータを決定することができ、ここで前のフレームパラメータは、US[k-1]ベクトルおよびV[k-1]ベクトルの前のフレームに基づいて、R[k-1]、θ[k-1]、φ[k-1]、r[k-1]、およびe[k-1]と示され得る。パラメータ計算ユニット32は、現在のパラメータ37および前のパラメータ39を並べ替えユニット34に出力することができる。

パラメータ計算ユニット32によって計算されるパラメータは、オーディオオブジェクトを並べ替えてオーディオオブジェクトの自然な評価または経時的な連続性を表すために、並べ替えユニット34によって使用され得る。並べ替えユニット34は、第1のUS[k]ベクトル33からのパラメータ37の各々を、第2のUS[k-1]ベクトル33に対するパラメータ39の各々に対して順番に比較することができる。並べ替えユニット34は、現在のパラメータ37および前のパラメータ39に基づいてUS[k]行列33およびV[k]行列35内の様々なベクトルを並べ替えて(一例として、ハンガリアンアルゴリズムを使用して)、並べ替えられたUS[k]行列33'(これは
と数学的に示され得る)と、並べ替えられたV[k]行列35'(これは
と数学的に示され得る)とを、フォアグラウンド音声(または支配的な音声-PS)選択ユニット36(「フォアグラウンド選択ユニット36」)およびエネルギー補償ユニット38に出力することができる。

音場分析ユニット44は、目標ビットレート41を潜在的に達成するために、HOA係数11に関して音場分析を実行するように構成されるユニットを表し得る。音場分析ユニット44は、分析および/または受信された目標ビットレート41に基づいて、音響心理学的なコーダの実体の総数(これは、環境またはバックグラウンドチャンネルの総数(BG_TOT)と、フォアグラウンドチャンネル、または言い換えると支配的なチャンネルの数との関数であり得る)を決定することができる。音響心理学的なコーダの実体の総数は、numHOATransportChannelsと示され得る。

音場分析ユニット44はまた、やはり目標ビットレート41を潜在的に達成するために、フォアグラウンドチャンネルの総数(nFG)45、バックグラウンド(または言い換えると環境)音場の最小の次数(N_BG、または代替的にMinAmbHOAorder)、バックグラウンド音場の最小の次数を表す実際のチャンネルの対応する数(nBGa = (MinAmbHOAorder + 1)²)、および送信すべき追加のBG HOAチャンネルのインデックス(i)(これらは図3Aの例ではバックグラウンドチャンネル情報43としてまとめて示され得る)を決定することができる。バックグラウンドチャンネル情報43はまた、環境チャンネル情報43と呼ばれ得る。numHOATransportChannels - nBGaにより残るチャンネルの各々は、「追加のバックグラウンド/環境チャンネル」、「アクティブなベクトルベースの支配的なチャンネル」、「アクティブな指向性ベースの支配的なチャンネル」、または「完全に非アクティブ」のいずれかであり得る。一態様では、チャンネルタイプは、2ビット(たとえば、00:指向性ベースの信号、01:ベクトルベースの支配的な信号、10:追加の環境信号、11:非アクティブ信号)による、(たとえば、「ChannelType」として)シンタックス要素で示され得る。バックグラウンド信号または環境信号の総数nBGaは、(MinAmbHOAorder +1)²+(上の例の)インデックス10がそのフレームのためのビットストリームにおいてチャンネルタイプとして現れる回数によって与えられ得る。

音場分析ユニット44は、目標ビットレート41に基づいてバックグラウンド(または言い換えると環境)チャンネルの数とフォアグラウンド(または言い換えると支配的な)チャンネルの数とを選択して、目標ビットレート41が比較的高いとき(たとえば、目標ビットレート41が512Kbps以上であるとき)より多数のバックグラウンドおよび/またはフォアグラウンドチャンネルを選択することができる。一態様では、ビットストリームのヘッダセクションでは、numHOATransportChannelsは8に設定され得るが、MinAmbHOAorderは1に設定され得る。この状況では、各フレームにおいて、4つのチャンネルが音場のバックグラウンド部分または環境部分を表すために専用であってよく、一方で他の4つのチャンネルは、たとえば、追加のバックグラウンド/環境チャンネルまたはフォアグラウンド/支配的なチャンネルのいずれかとして使用されることによって、フレームごとにチャンネルのタイプに応じて変化してよい。フォアグラウンド/支配的な信号は、上で説明されたように、ベクトルベースの信号または指向性ベースの信号の1つであり得る。

いくつかの例では、フレームに対するベクトルベースの支配的な信号の総数は、そのフレームのビットストリームにおいてChannelTypeインデックスが01である回数によって与えられ得る。上の態様では、各々の追加のバックグラウンド/環境チャンネル(たとえば、10というChannelTypeに対応する)に対して、可能性のあるHOA係数(最初の4つ以外)のいずれがそのチャンネルにおいて表され得るかの対応する情報。4次のHOAコンテンツに対するこの情報は、HOA係数5〜25を示すためのインデックスであり得る。最初の4つの環境HOA係数1〜4は、minAmbHOAorderが1に設定されるときはすべて送信され得るので、オーディオ符号化デバイスは、5〜25というインデックスを有する追加の環境HOA係数の1つを示すことだけが必要であり得る。したがって、この情報は、「CodedAmbCoeffIdx」と示され得る、(4次のコンテンツでは)5ビットのシンタックス要素を使用して送信され得る。いずれにしても、音場分析ユニット44は、バックグラウンドチャンネル情報43およびHOA係数11をバックグラウンド(BG)選択ユニット36に出力し、バックグラウンドチャンネル情報43を係数削減ユニット46およびビットストリーム生成ユニット42に出力し、nFG45をフォアグラウンド選択ユニット36に出力する。

バックグラウンド選択ユニット48は、バックグラウンドチャンネル情報(たとえば、バックグラウンド音場(N_BG)ならびに送信すべき追加のBG HOAチャンネルの数(nBGa)およびインデックス(i))に基づいて、バックグラウンドまたは環境HOA係数47を決定するように構成されるユニットを表し得る。たとえば、N_BGが1に等しいとき、バックグラウンド選択ユニット48は、1以下の次数を有するオーディオフレームの各サンプルに対するHOA係数11を選択することができる。この例では、バックグラウンド選択ユニット48は次いで、追加のBG HOA係数としてインデックス(i)の1つによって特定されるインデックスを有するHOA係数11を選択し、ここで、nBGaは、図2および図4の例において示されるオーディオ復号デバイス24のようなオーディオ復号デバイスが、ビットストリーム21からのバックグラウンドHOA係数47を解析することを可能にするために、ビットストリーム21において指定されることになるビットストリーム生成ユニット42に提供される。バックグラウンド選択ユニット48は次いで、環境HOA係数47をエネルギー補償ユニット38に出力することができる。環境HOA係数47は、D: M x [(N_BG+1)²+ nBGa]という次元を有し得る。環境HOA係数47はまた、「環境HOA係数47」とも呼ばれることがあり、環境HOA係数47の各々が、音響心理学的オーディオコーダユニット40によって符号化されるべき別の環境HOAチャンネル47に対応する。

フォアグラウンド選択ユニット36は、nFG45(これはフォアグラウンドベクトルを特定する1つまたは複数のインデックスを表し得る)に基づいて音場のフォアグラウンド成分または明瞭な成分を表す、並べ替えられたUS[k]行列33'および並べ替えられたV[k]行列35'を選択するように構成されるユニットを表し得る。フォアグラウンド選択ユニット36は、nFG信号49(並べ替えられたUS[k]_{1,…, nFG} 49、FG_{1,…, nfG}[k] 49、または
として示され得る)を音響心理学的オーディオコーダユニット40に出力することができ、ここでnFG信号49は次元D: M x nFGを有してよく、各々がモノオーディオオブジェクトを表す。フォアグラウンド選択ユニット36はまた、音場のフォアグラウンド成分に対応する並べ替えられたV[k]行列35'(またはv^(1..nFG)(k) 35')を空間-時間補間ユニット50に出力することができ、ここで、フォアグラウンド成分に対応する並べ替えられたV[k]行列35'のサブセットは、次元D:(N+1)² x nFGを有するフォアグラウンドV[k]行列51_k(これは、
として数学的に示され得る)として示され得る。

エネルギー補償ユニット38は、環境HOA係数47に関してエネルギー補償を実行して、バックグラウンド選択ユニット48によるHOAチャンネルの様々な1つの削除が原因のエネルギーの損失を補償するように構成されるユニットを表し得る。エネルギー補償ユニット38は、並べ替えられたUS[k]行列33'、並べ替えられたV[k]行列35'、nFG信号49、フォアグラウンドV[k]ベクトル51_k、および環境HOA係数47の1つまたは複数に関してエネルギー分析を実行し、次いで、エネルギー分析に基づいてエネルギー補償を実行してエネルギー補償された環境HOA係数47'を生成することができる。エネルギー補償ユニット38は、エネルギー補償された環境HOA係数47'を挿入ユニット234に出力することができる。

挿入ユニット234は、本開示において説明される技法の様々な態様に従って、拡大環境HOA係数205を生成するために、エネルギー補償環境HOA係数47'に別のオーディオチャンネル201を挿入するように構成されたユニットを表す。

上述されたように、挿入ユニット234は、エネルギー補償環境HOA係数47'に(HOA係数11によって記述されるオーディオコンテンツとは異なるオーディオコンテンツであることの観点から)別のオーディオチャンネルを挿入し、それにより拡大環境HOA係数205を生成するように構成されたユニットを表すことができる。挿入ユニット234は、エネルギー補償環境HOA係数47'を表すために割り振られたビットの量を増やすことなく(または無視できる影響を与えるだけで)、この別のオーディオチャンネル201を挿入することができる。言い換えれば、エネルギー補償環境HOA係数47'を表すために使用されるビットの数は、拡大HOA係数205を表すために使用されるビットの数と(まったく同じでないにしても)ほぼ同じであり得る。挿入ユニット234は、オーディオコンテンツが通常存在しないか、または音場を記述するために非常に重要である音場内の空間位置を選択し、これらの空間位置に別のオーディオチャンネル201を挿入し、それにより音場のこの態様を別のオーディオチャンネル201と置き換えることができる。場合によっては、これらの空間位置は音場の上部および/または下部にあり得る。

この別のオーディオチャンネル201は、いくつかの例では、アナウンサもしくはスポーツキャスタによる解説、または(広告などのための)任意の他のオーバーレイオーディオコンテンツなどの、ほとんど無指向性のコンテンツを有するオーディオコンテンツを指す、全方向オーディオコンテンツを表すことができる。いくつかの例では、この別のオーディオチャンネル201は、HOA係数11によって表される音場とは別の英語の解説、せりふ、または他のオーディオコンテンツを提供することができ、その結果、エンドユーザは、HOA係数11からレンダリングされるオーディオチャンネルの音量とは別に、オーディオチャンネル201によって提供される解説の音量をミュートまたは場合によっては調整することができる。いくつかの例では、挿入ユニット234は、エネルギー補償環境HOA係数47'に2つ以上の別のオーディオチャンネル201を挿入することができ、2つ以上の別のオーディオチャンネル201は、各々異なる言語で解説、せりふ、または他のオーディオコンテンツを提供することができる。同様に、挿入ユニット234は、いくつかの例では、エネルギー補償環境HOA係数47'に2つ以上の別のオーディオチャンネル201を挿入することができ、2つ以上の別のオーディオチャンネル201は、各々異なるスポーツキャスタまたは他の解説者からの解説、せりふ、または他のオーディオコンテンツを提供することができる。

単一の別のオーディオチャンネル201を挿入するように図示されているが、挿入ユニット234は、そのようなオーディオチャンネル201が挿入されることをエネルギー補償環境HOA係数47'が許す範囲の部分まで、エネルギー補償環境HOA係数47'に任意の数のオーディオチャンネル201を挿入することができる。例示のために、エネルギー補償環境HOA係数47'の次数が1であると仮定し、これは、4つのHOAチャンネル(0番目の次数、0番目の位数の基底関数に対応する係数用の1つ、1番目の次数、-1の位数の基底関数に対応する係数用の1つ、1番目の次数、0の位数の基底関数に対応する係数用の1つ、および1番目の次数、+1の位数の基底関数に対応する係数用の1つ)が存在することを意味する。この仮定の下で、音場の1次表現は、別のオーディオチャンネル201を配置する6個の空間位置((音場の一般的な形状である)球体の上部にある1つ、球体の下部にある1つ、球体を二等分する水平面に沿って配置された4つ)を提供することができる。

この1次表現では、多くのエンドユーザが球体の上部および下部においてオーディオを正確に再生するのに十分な3Dオーディオスピーカーのセットアップを有していないとすれば、挿入ユニット234は、これらのオーディオチャンネル201を球体の上部および下部に挿入する。高次の表現の場合、さらなる位置が利用可能であり、ビットストリーム21用の目標ビットレートに依存する。さらなる位置は、エネルギー補償環境HOA係数47'の(1次よりも高いことを意味する)高次表現を提供することができる、より高い目標ビットレートに対して利用可能になり得る。

いずれにしても、この別のオーディオチャンネル201は、特定の指向性に関して多くを有していないが、全方向オーバーレイオーディオコンテンツなので、挿入ユニット234は、エネルギー補償環境HOA係数47'によって記述された音場の任意の空間位置にこのコンテンツを挿入することができ、少なくともこの例では、音場の指向性を保持する必要がない。このようにして、挿入ユニット234は、エネルギー補償環境HOA係数47'を表すために割り振られたビットの量を増やすことなく(または無視できる影響を与えるだけで)、エネルギー補償環境HOA係数47'によって記述された音場に別のオーディオチャンネル201を挿入することができる。

別のオーディオチャンネル201を挿入するために、挿入ユニット234は、(たとえば、高密度Tデザイン行列を使用して)エネルギー補償環境HOA係数47'を球面調和領域から空間領域に変換することができる。挿入ユニット234は、変換されたエネルギー補償環境HOA係数47'内の(下部の空間位置などの)特定の空間位置に別のオーディオチャンネル201を挿入して、拡大変換環境HOA係数を生成するように構成され得る。次いで、挿入ユニット234は、拡大変換環境HOA係数を変換して空間領域から球面調和領域に戻して、拡大環境HOA係数205を生成することができる。このようにして、挿入ユニット234は、エネルギー補償環境HOA係数47'に別のオーディオチャンネル201を挿入して、拡大環境HOA係数205を生成することができる。次いで、挿入ユニット234は、拡大環境HOA係数205を音響心理学的オーディオコーダユニット40に出力することができる。

空間-時間補間ユニット50は、k番目のフレームに対するフォアグラウンドV[k]ベクトル51_kと前のフレーム(したがってk-1という表記である)に対するフォアグラウンドV[k-1]ベクトル51_k-1とを受信して、空間-時間補間を実行して補間されたフォアグラウンドV[k]ベクトルを生成するように構成されるユニットを表し得る。空間-時間補間ユニット50は、nFG信号49をフォアグラウンドV[k]ベクトル51_kと再び組み合わせて、並べ替えられたフォアグラウンドHOA係数を復元することができる。空間-時間補間ユニット50は次いで、並べ替えられたフォアグラウンドHOA係数を補間されたV[k]ベクトルによって除算し、補間されたnFG信号49'を生成することができる。空間-時間補間ユニット50はまた、オーディオ復号デバイス24のようなオーディオ復号デバイスが補間されたフォアグラウンドV[k]ベクトルを生成してそれによってフォアグラウンドV[k]ベクトル51_kを復元できるように、補間されたフォアグラウンドV[k]ベクトルを生成するために使用されたフォアグラウンドV[k]ベクトル51_kを出力することができる。補間されたフォアグラウンドV[k]を生成するために使用されるフォアグラウンドV[k]ベクトル51_kは、残りのフォアグラウンドV[k]ベクトル53として示される。同じV[k]およびV[k-1]が(補間されたベクトルV[k]を作成するために)エンコーダおよびデコーダにおいて使用されることを確実にするために、ベクトルの量子化された/逆量子化されたバージョンがエンコーダおよびデコーダにおいて使用され得る。空間-時間補間ユニット50は、補間nFG信号49'を音響心理学的オーディオコーダユニット40に出力し、補間フォアグラウンドV[k]ベクトル51_kを係数削減ユニット46に出力することができる。

係数削減ユニット46は、バックグラウンドチャンネル情報43に基づいて残りのフォアグラウンドV[k]ベクトル53に関する係数削減を実行して、削減されたフォアグラウンドV[k]ベクトル55を量子化ユニット52に出力するように構成されるユニットを表し得る。削減されたフォアグラウンドV[k]ベクトル55は、次元D: [(N+1)²-(N_BG+1)²-BG_TOT] x nFGを有し得る。係数削減ユニット46は、この点で、残りのフォアグラウンドV[k]ベクトル53の中の係数の数を削減するように構成されるユニットを表し得る。言い換えると、係数削減ユニット46は、指向性情報をほとんどまたはまったく有しないフォアグラウンドV[k]ベクトルの中の係数(これらが残りのフォアグラウンドV[k]ベクトル53を形成する)を除去するように構成されるユニットを表し得る。

いくつかの例では、1次および0次の基底関数(N_BGとして示され得る)に対応する、明瞭な、または言い換えるとフォアグラウンドのV[k]ベクトルの係数は、ほとんど指向性情報を提供しないので、フォアグラウンドVベクトルから(「係数削減」と呼ばれ得るプロセスを通じて)除去され得る。これらの例では、N_BGに対応する係数を特定するためだけではなく、[(N_BG+1)²+1,(N+1)²]のセットから追加のHOAチャンネル(変数TotalOfAddAmbHOAChanによって示され得る)を特定するためにも、より大きい柔軟性が提供され得る。

量子化ユニット52は、任意の形式の量子化を実行して削減されたフォアグラウンドV[k]ベクトル55を圧縮して、コーディングされたフォアグラウンドV[k]ベクトル57を生成し、コーディングされたフォアグラウンドV[k]ベクトル57をビットストリーム生成ユニット42に出力するように構成されるユニットを表し得る。動作において、量子化ユニット52は、音場の空間成分、すなわちこの例では削減されたフォアグラウンドV[k]ベクトル55の1つまたは複数を圧縮するように構成されるユニットを表し得る。量子化ユニット52は、「NbitsQ」と表記された量子化モードシンタックス要素によって示されたように、以下の12個の量子化モードのうちの任意の1つを実行することができる。
NbitsQの値量子化モードのタイプ
0-3: 予備
4: ベクトル量子化
5: ハフマンコーディングによらないスカラー量子化
6: ハフマンコーディングによる6ビットスカラー量子化
7: ハフマンコーディングによる7ビットスカラー量子化
8: ハフマンコーディングによる8ビットスカラー量子化
...
...
16: ハフマンコーディングによる16ビットスカラー量子化
量子化ユニット52はまた、量子化モードの上記のタイプのうちのいずれかの予測バージョンを実行することができ、前のフレームのVベクトルの要素(またはベクトル量子化が実行されたときの重み)と、現在フレームのVベクトルの要素(またはベクトル量子化が実行されたときの重み)との間の差分が決定される。次いで、量子化ユニット52は、現在フレームのVベクトルの要素の値自体ではなく、現在フレームの要素または重みと前のフレームの要素または重みとの間の差分を量子化することができる。

量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55の各々に対して複数の形態の量子化を実行して、削減されたフォアグラウンドV[k]ベクトル55の複数のコード化バージョンを取得することができる。量子化ユニット52は、削減されたフォアグラウンドV[k]ベクトル55のコード化バージョンのうちの1つを、コード化フォアグラウンドV[k]ベクトル57として選択することができる。言い換えれば、量子化ユニット52は、本開示において説明された基準の任意の組合せに基づいて、非予測ベクトル量子化Vベクトル、予測ベクトル量子化Vベクトル、非ハフマンコード化スカラー量子化Vベクトル、およびハフマンコード化スカラー量子化Vベクトルのうちの1つを選択して、出力切替え量子化Vベクトルとして使用することができる。

いくつかの例では、量子化ユニット52は、ベクトル量子化モード、および1つまたは複数のスカラー量子化モードを含む一組の量子化モードから量子化モードを選択し、選択された量子化モードに基づいて(または従って)、入力Vベクトルを量子化することができる。次いで、量子化ユニット52は、(たとえば、重み値またはそれを示すビットに関する)非予測ベクトル量子化Vベクトル、(たとえば、誤り値またはそれを示すビットに関する)予測ベクトル量子化Vベクトル、非ハフマンコード化スカラー量子化Vベクトル、およびハフマンコード化スカラー量子化Vベクトルのうちの選択された1つを、コード化フォアグラウンドV[k]ベクトル57としてビットストリーム生成ユニット42に供給することができる。量子化ユニット52はまた、量子化モードを示すシンタックス要素(たとえば、NbitsQシンタックス要素)、およびVベクトルを逆量子化または場合によっては復元するために使用される任意の他のシンタックス要素を供給することができる。

オーディオ符号化デバイス20A内に含まれる音響心理学的オーディオコーダユニット40は、音響心理学的オーディオコーダの複数の実体を表すことができ、これらの各々が、拡大環境HOA係数205と補間されたnFG信号49'の各々の異なるオーディオオブジェクトまたはHOAチャンネルを符号化して、符号化されたHOA係数59および符号化されたnFG信号61を生成するために使用される。音響心理学的オーディオコーダユニット40は、符号化された環境HOA係数59および符号化されたnFG信号61をビットストリーム生成ユニット42に出力することができる。

オーディオ符号化デバイス20A内に含まれるビットストリーム生成ユニット42は、既知のフォーマット(復号デバイスにより知られているフォーマットを指し得る)に合わせるためにデータをフォーマットし、それによってベクトルベースのビットストリーム21を生成するユニットを表す。ビットストリーム21は、言い換えると、上で説明された方式で符号化されている、符号化されたオーディオデータを表し得る。ビットストリーム生成ユニット42は、いくつかの例ではマルチプレクサを表すことがあり、マルチプレクサは、コーディングされたフォアグラウンドV[k]ベクトル57と、符号化された環境HOA係数59と、符号化されたnFG信号61と、バックグラウンドチャンネル情報43とを受け取ることができる。ビットストリーム生成ユニット42は次いで、コーディングされたフォアグラウンドV[k]ベクトル57、符号化された環境HOA係数59、符号化されたnFG信号61、およびバックグラウンドチャンネル情報43に基づいて、ビットストリーム21を生成することができる。このようにして、ビットストリーム生成ユニット42は、図7の例に関してより詳細に下記で説明されるように、それによりビットストリーム21内でベクトル57を指定して、ビットストリーム21を取得することができる。ビットストリーム21は、一次ビットストリームまたは主要ビットストリームと、1つまたは複数のサイドチャンネルビットストリームとを含み得る。

図3Aの例には示されないが、オーディオ符号化デバイス20Aはまた、現在のフレームが指向性ベースの合成を使用して符号化されるべきかベクトルベースの合成を使用して符号化されるべきかに基づいて、オーディオ符号化デバイス20Aからビットストリーム出力を(たとえば、指向性ベースのビットストリーム21とベクトルベースのビットストリーム21との間で)切り替える、ビットストリーム出力ユニットを含み得る。ビットストリーム出力ユニットは、(HOA係数11が合成オーディオオブジェクトから生成されたことを検出した結果として)指向性ベースの合成が実行されたか、または(HOA係数が記録されたことを検出した結果として)ベクトルベースの合成が実行されたかを示す、コンテンツ分析ユニット26によって出力されるシンタックス要素に基づいて、切替えを実行することができる。ビットストリーム出力ユニットは、ビットストリーム21のそれぞれの1つとともに、切替えを、または現在のフレームのために使用される現在の符号化を示すために、正しいヘッダシンタックスを指定することができる。

その上、上で述べられたように、音場分析ユニット44は、環境HOA係数47に対するBG_TOTを特定することができ、これはフレームごとに変化し得る(ただし、時には、BG_TOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。BG_TOTの変化は、削減されたフォアグラウンドV[k]ベクトル55において表される係数の変化をもたらし得る。BG_TOTの変化は、フレームごとに変化するバックグラウンドHOA係数(「環境HOA係数」とも呼ばれ得る)をもたらし得る(ただし、やはり時には、BG_TOTは2つ以上の(時間的に)隣接するフレームにわたって一定または同一のままであることがある)。この変化はしばしば、追加の環境HOA係数の追加または除去、および削減されたフォアグラウンドV[k]ベクトル55からの係数の対応する除去またはそれへの係数の対応する追加によって表される、音場の態様に対するエネルギーの変化をもたらし得る。

結果として、音場分析ユニット44はさらに、環境HOA係数がいつ変化するかをフレームごとに決定し、音場の環境成分を表すために使用されるという点で環境HOA係数に対する変化を示すフラグまたは他のシンタックス要素を生成することができる(ここでこの変化は、環境HOA係数の「遷移」または環境HOA係数の「遷移」とも呼ばれ得る)。具体的には、係数削減ユニット46は、フラグ(AmbCoeffTransitionフラグまたはAmbCoeffIdxTransitionフラグとして示され得る)を生成して、フラグがビットストリーム21に含まれ得るようにフラグをビットストリーム生成ユニット42に(場合によってはサイドチャンネル情報の一部として)提供することができる。

係数削減ユニット46はまた、環境係数遷移フラグを指定することに加えて、削減されたフォアグラウンドV[k]ベクトル55がどのように生成されるかを修正することができる。一例では、環境HOA係数の1つが現在のフレームの間に遷移中であると決定すると、係数削減ユニット46は、遷移中の環境HOA係数に対応する削減されたフォアグラウンドV[k]ベクトル55のVベクトルの各々に対するベクトル係数(「ベクトル要素」または「要素」とも呼ばれ得る)を指定することができる。やはり、遷移中の環境HOA係数は、バックグラウンド係数の総数BG_TOTを増大または減少させ得る。したがって、バックグラウンド係数の総数の結果として起こる変化は、環境HOA係数がビットストリームに含まれるか含まれないかに、および、Vベクトルの対応する要素が上で説明された第2および第3の構成モードにおいてビットストリーム中で指定されるVベクトルのために含まれるかどうかに、影響を与える。係数削減ユニット46が、どのように、削減されたフォアグラウンドV[k]ベクトル55を指定してエネルギーにおける変化を克服するかに関するより多くの情報は、2015年1月12日に出願された「TRANSITIONING OF AMBIENT HIGHER_ORDER AMBISONIC COEFFICIENTS」と題する米国特許出願第14/594,533号において提供される。

図3Bの例では、オーディオ符号化デバイス20Bの挿入ユニット234もV[k]ベクトル35を受信し、V[k]ベクトル35の分析を実行して、エネルギー補償環境HOA係数47'に別のオーディオチャンネル201を挿入する空間位置を識別することを除き、オーディオ符号化デバイス20Bは、図3Aの例において示されたオーディオ符号化デバイス20Aと同様である。いくつかの例では、V[k]ベクトル35全体を使用するのではなく、挿入ユニット234は、削減されたV[k]ベクトル55を受信し、別のオーディオチャンネル201が挿入されるべき空間位置を識別するために、削減されたV[k]ベクトル55の分析を実行することができる。このようにして、挿入ユニット234は、音場の高次アンビソニック表現のベクトルベースの分解の一部を分析して、音場内の空間位置を識別し、識別された空間位置にオーディオチャンネルを挿入することができる。

図3Cの例では、たとえば、オーディオ符号化デバイス20Bに関して上述されたことと同様に、挿入ユニット234が音場の分析を実行して、別のオーディオチャンネル201を挿入するべき空間位置を識別することを除き、オーディオ符号化デバイス20Cは、図3Aおよび図3Bにおいて示されたオーディオ符号化デバイス20Aおよび20Bと同様である。いくつかの例では、挿入ユニット234は、(ある位置での大きい音が近傍の位置、すなわちその大きい音の位置に近接する位置において発生する任意の音をマスクする場合の)空間マスキング、または(音が元の音と同じ持続時間の雑音すなわち不要な音によって聞き取れない場合の)同時マスキングが発生している位置を識別することができる。空間マスキング、同時マスキング、または他の形態のマスキングが発生しているこれらの位置に、挿入ユニット234は別のオーディオチャンネル201を挿入することができる。これらの形態のマスキングは音場内の異なる位置において発生する場合があり、挿入ユニット234は、別のオーディオチャンネル201が挿入された空間位置を識別する挿入情報207を生成することができる。挿入ユニット234は、挿入情報207をビットストリーム生成ユニット42に供給することができ、ビットストリーム生成ユニット42はビットストリーム21内で挿入情報207を指定することができる。

いくつかの例では、挿入ユニット234は、(たとえば、図3Bの例に関して上述された分析によって)別のオーディオチャンネル201が挿入された空間位置を識別するVベクトルを取得することができる。挿入ユニット234は、このVベクトルを挿入情報207としてビットストリーム生成ユニット42に供給することができ、その結果、ビットストリーム生成ユニット42は、ビットストリーム21内で別のオーディオチャンネル201に関連するVベクトルを指定することができる。言い換えれば、挿入情報207によって指定された空間位置は、Vベクトルを含むことができる。フォアグラウンドの(または言い換えれば、優勢な)オーディオオブジェクト用にビットストリーム21内で指定されるVベクトルとは異なり、Vベクトルを含む挿入情報207は、拡大環境HOA係数用にVベクトルを指定することができる。このようにして、オーディオ復号デバイス24は、拡大環境HOA係数内の別のオーディオチャンネル201の位置を識別するために、オーディオ符号化デバイス20Cと同様の分析を実行する必要がない場合がある。

マスキングが音場内に存在しないとき、挿入ユニット234は、音場を分析して、別のオーディオチャンネル201が挿入され得る、音場内の任意の(相対的に突出情報の不在を指す場合がある)「穴」を識別することができ、これは、上述されたオーディオ符号化デバイス20Bによって実行される分析と同様であり得る。挿入ユニット234は、ほぼ任意の形態の分析を実行して、これらの穴を識別し、次いで、これらの穴に別のオーディオチャンネル201を挿入することができる。挿入ユニット234は、これらの穴が音場内を移動する場合があるとすれば、挿入情報207を生成し、この挿入情報207をビットストリーム生成ユニット42に供給することができ、ビットストリーム生成ユニット42は、ビットストリーム21内でこの挿入情報207を指定することができる。

図3A〜図3Cの例では示されていないが、ビットストリーム生成ユニット42は、別のオーディオチャンネル201を記述するさらなるメタデータまたは他の情報を挿入することができる。このメタデータは、別のオーディオチャンネル201のタイプ、言語、解説者の名前、または他の特性を記述することができる、コンテンツ、言語、解説者の名前、または他のデータに関して、対応するオーディオチャンネル201を識別することができる。

言い換えれば、挿入ユニット234は、たとえば、Tデザイン行列と乗算することによって、(SH_ORIG(n,m,t)と表記され得る、ここで、nは対応する球面基底関数の次数を表記し、mは対応する球面基底関数の位数を表記し、tは時間を表記する)エネルギー補償環境HOA係数47'を3D空間に投影して、(P(θ,φ)と表記され得る)変換エネルギー補償環境HOA係数47'を生成することができる。

図5A〜図5Cは、本開示において説明される挿入技法の様々な態様を実行する際の挿入ユニット234の例示的な動作を示す図である。挿入ユニット234は、SH_ORIG(n,m,t)1000を受信し、SH_ORIG(n,m,t)1000を3D空間に投影して、P(θ,φ)1002を生成することができ(1004)、これは図5A〜図5Cの例において示されたグラフ1006に似ている場合がある。

図5Aのグラフ1006Aにおいて示されたように、挿入ユニット234は、音響活性の領域1010Aおよび1010Bが与えられると、グラフ1006において示された音場を分析して、(θ₁、φ₁|θ₂、φ₂|θ₃、φ₃|θ₄、φ₄によって識別されるそれぞれの位置を有する)4つの領域/穴1008A〜1008Dを識別することができる。次いで、挿入ユニット234は、以下を実行することによって、この空間に最大4つのオーディオオブジェクトを配置することができる。
1)これらのオーディオオブジェクトa_i(t)の各々について、以下のようにSH_iを計算する。
2)
3)(図3Cの例において示されたように)挿入情報207を、4つのθ_i、φ_iの組を指定することができるサイドチャンネル情報として送る。

いくつかの例では、サイドチャンネル情報は、SVDを実行して4つの追加オーディオオブジェクトを抽出する際に復号デバイス24A〜24Cを支援するために、挿入情報207を指定することができる。すなわち、挿入ユニット234は、音場にオーディオオブジェクト挿入することができ、たとえば、
であり、サイドチャンネル情報を介して、オブジェクトが挿入された4つのθ_i、φ_iの組を送ることができる。次いで、復号デバイス24Bまたは24Cは、SVD(または、固有値分解(EVD)、主成分分析(PCA)、KLT変換などを含む、上述された音源分離などの任意の他の形態の音源分離)を実行して、オーディオオブジェクトを抽出することができ、これは、追加オーディオチャンネルが挿入された場所を識別する4つのθ_i、φ_iの組を受信することによっても支援することができる。

図5Bの例では、挿入ユニット234は、別のオーディオチャンネル1012を取得し、領域1008Dに別のオーディオチャンネル1012を挿入して、グラフ1006Bによって表される音場の拡大を実行することができる。拡大の結果は、図5Cの例において示される。音場の拡大HOA表現はグラフ1006Cによって表され、拡大の後、表されるHOAは、空間位置θ₄、φ₄に別のオーディオチャンネル1012を含むように拡大される。空間位置θ₄、φ₄は、挿入情報207の一例を表すことができる。

挿入ユニット234はまた、上述されたように、音場内に穴を作成し、上述された方式でオーディオチャンネルを追加することができる。挿入ユニット234は、以下を実行することができる。
1)環境HOA係数の位置分析を行う。
2)位置分析に基づいて、知覚的影響をもたらさずにどの位置または領域が「空」にされ得るかを特定する(これらは、一例として、隣接する高エネルギー領域によって測定される「低エネルギー」領域、または、(一例として、下部もしくは下半球にラウドスピーカーがないために)しばしばレンダリングされない下部であり得る)。
3)これらの領域を0で埋めて、穴1008A〜1008Dを作成する。
領域作成および挿入のプロセスのこの態様の例示的な動作を示すフローチャートである図6に、以下のプロセスが示される。挿入ユニット234は、SH_ORIG(n,m,t)1000を受信し、SH_ORIG(n,m,t)1000を3D空間に投影して(1020)、P(θ,φ)1002を生成することができる。次いで、挿入ユニット234は、位置分析を実行して、空間の非突出領域1008A〜1008Dを識別し0で埋め、それによりP_ADJ(θ,φ)1012を生成することができる(1022)。次いで、挿入ユニット234は、(たとえば、Tデザイン行列を介して)P_ADJ(θ,φ)1012を変換して球面調和領域に戻して、SH_ADJ(n,m,t)1014を生成することができる(1024)。次いで、挿入ユニット234は、上述された数式に従って、SH_i(n,m,t)1015と表記されるオーディオオブジェクトをSH_ADJ(n,m,t)1014に追加して、SH_NEW(n,m,t)を生成することができる(1026)。

このようにして、本技法の様々な態様により、オーディオ符号化デバイス20A〜20C(「オーディオ符号化デバイス20」)が、音場の高次アンビソニック表現とは別のオーディオチャンネルを取得し、オーディオチャンネルが音場から抽出され得るように音場内の空間位置にオーディオチャンネルを挿入することが可能になる。

これらおよび他の例では、空間位置は音場の下部に位置する。

これらおよび他の例では、空間位置は音場の上部に位置する。

これらおよび他の例では、オーディオ符号化デバイス20は、音場を分析して、空間マスキングによって影響を受ける音場内の空間位置を識別し、識別された空間位置にオーディオチャンネルを挿入するように構成される。

これらおよび他の例では、音場の高次アンビソニック表現は、音場を記述する複数の高次アンビソニック係数を含み、オーディオ符号化デバイス20は、音場の空間領域表現を取得するために、複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、音場の空間領域表現内の空間位置にオーディオチャンネルを挿入するように構成される。

これらおよび他の例では、音場の高次アンビソニック表現は、音場を記述する複数の高次アンビソニック係数を含み、オーディオ符号化デバイス20は、音場の空間領域表現を取得するために、複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、音場の空間領域表現内の空間位置にオーディオチャンネルを挿入して、音場の拡大空間領域表現を取得し、音場の拡大空間領域表現を変換して空間領域から球面調和領域に戻して、音場の拡大高次アンビソニック表現を取得するように構成される。

これらおよび他の例では、オーディオ符号化デバイス20は、音場の高次アンビソニック表現を含むビットストリーム内で、オーディオチャンネルが挿入された空間位置を指定するようにさらに構成される。

これらおよび他の例では、オーディオ符号化デバイス20は、音場の高次アンビソニック表現を含むビットストリーム内で、オーディオチャンネルを記述する情報を指定するように構成される。

これらおよび他の例では、オーディオチャンネルを記述する情報は、スポーツキャスタを識別する情報を含む。

これらおよび他の例では、オーディオチャンネルを記述する情報は、オーディオチャンネル内に存在する解説が話される言語を識別する情報を含む。

これらおよび他の例では、オーディオチャンネルを記述する情報は、オーディオチャンネル内に存在するコンテンツのタイプを識別する情報を含む。

これらおよび他の例では、オーディオチャンネルは、スポーツキャスタからのオーディオチャンネルを含む。

これらおよび他の例では、オーディオチャンネルは、非放送局によって取得されるオーディオチャンネルを含む。

これらおよび他の例では、オーディオチャンネルは、非英語言語で解説を提供する非英語オーディオチャンネルを含む。

これらおよび他の例では、オーディオチャンネルは、英語言語で解説を提供する英語オーディオチャンネルを含む。

これらおよび他の例では、音場の高次アンビソニック表現は、音場の環境成分を記述する複数の高次アンビソニック係数を含む。

これらおよび他の例では、オーディオ符号化デバイス830は、音場の高次アンビソニック表現のベクトルベースの分解の一部を分析して、音場内の空間位置を識別し、識別された空間位置にオーディオチャンネルを挿入するように構成される。

これらおよび他の例では、デバイスはハンドセットを含む。これらおよび他の例では、デバイスはタブレットを含む。これらおよび他の例では、デバイスはスマートフォンを含む。

図4A〜図4Cは、図2のオーディオ復号デバイス24の異なる例をより詳細に示すブロック図である。図4Aの例に示されるように、オーディオ復号デバイス24Aは、抽出ユニット72と、指向性ベースの再構築ユニット90と、ベクトルベースの再構築ユニット92とを含み得る。以下で説明されるが、オーディオ復号デバイス24に関するさらなる情報およびHOA係数を展開または別様に復号する様々な態様は、2014年5月29日に出願された「INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD」という表題の国際特許出願公開第2014/194099号において入手可能である。

図4Aにおいて、抽出ユニット72は、ビットストリーム21を受信し、HOA係数11の様々な符号化されたバージョン(たとえば、指向性ベースの符号化されたバージョンまたはベクトルベースの符号化されたバージョン)を抽出するように構成されるユニットを表し得る。抽出ユニット72は、HOA係数11が様々な方向ベースまたはベクトルベースのバージョンを介して符号化されたかどうかを示す、シンタックス要素から決定することができる。指向性ベースの符号化が実行されたとき、抽出ユニット72は、HOA係数11の指向性ベースのバージョンと、符号化されたバージョンと関連付けられるシンタックス要素(これは図4Aの例では指向性ベースの情報91として示される)とを抽出し、指向性ベースの情報91を指向性ベースの再構築ユニット90に渡すことができる。指向性ベースの再構築ユニット90は、指向性ベースの情報91に基づいてHOA係数11'の形式でHOA係数を再構築するように構成されるユニットを表し得る。

HOA係数11がベクトルベースの合成を使用して符号化されたことをシンタックス要素が示すとき、抽出ユニット72は、(コード化重み57および/またはコードベクトル63もしくはスカラー量子化Vベクトルのインデックスを含む場合がある)コード化フォアグラウンドV[k]ベクトル57、符号化環境HOA係数59、ならびに、(符号化nFG信号61と呼ばれる場合もある)対応するオーディオオブジェクト61を抽出することができる。オーディオオブジェクト61は、各々ベクトル57のうちの1つに対応する。抽出ユニット72は、コーディングされたフォアグラウンドV[k]ベクトル57をVベクトル再構築ユニット74に、符号化された環境HOA係数59とともに符号化されたnFG信号61を音響心理学的復号ユニット80に渡すことができる。

Vベクトル復元ユニット74は、符号化フォアグラウンドV[k]ベクトル57からVベクトルを復元するように構成されるユニットを表すことができる。Vベクトル再構築ユニット74は、量子化ユニット52とは逆の方式で動作し得る。

音響心理学的復号ユニット80は、符号化された環境HOA係数59および符号化されたnFG信号61を復号し、それによって、エネルギー補償された環境HOA係数47'および補間されたnFG信号49'(補間されたnFGオーディオオブジェクト49'とも呼ばれ得る)を生成するために、図3Aの例に示される音響心理学的オーディオコーダユニット40とは逆の方式で動作することができる。音響心理学的復号ユニット80は、エネルギー補償環境HOA係数47'をオーディオチャンネル抽出ユニット282に渡し、nFG信号49'をフォアグラウンド編成ユニット78に渡すことができる。

オーディオチャンネル抽出ユニット282は、拡大環境HOA係数205を受信し、(このコンテキストでは、構成されていることを意味する)暗黙的に知られている空間位置(たとえば、下部位置または上部位置)から別のオーディオチャンネル201を抽出する。オーディオチャンネル抽出ユニット282は、別のオーディオチャンネル201を抽出するために、拡大環境HOA係数205を球面調和領域から空間領域に変換して、変換拡大環境HOA係数205を生成することができる。オーディオチャンネル抽出ユニット282は、変換拡大環境HOA係数205の暗黙的に知られている空間位置から別のオーディオチャンネル201を抽出し、変換エネルギー補償環境HOA係数47'を生成することができる。オーディオチャンネル抽出ユニット282は、変換エネルギー補償環境HOA係数47'を変換して空間領域から球面調和領域に戻すことができる。オーディオチャンネル抽出ユニット282は、エネルギー補償環境HOA係数47'をフェードユニット770に転送することができる。

空間-時間補間ユニット76は、空間-時間補間ユニット50に関して上で説明されたものと同様の方式で動作することができる。空間-時間補間ユニット76は、削減されたフォアグラウンドV[k]ベクトル55_kを受け取り、フォアグラウンドV[k]ベクトル55_kおよび削減されたフォアグラウンドV[k-1]ベクトル55_k-1に関して空間-時間補間を実行して、補間されたフォアグラウンドV[k]ベクトル55_k''を生成することができる。空間-時間補間ユニット76は、補間されたフォアグラウンドV[k]ベクトル55_k''をフェードユニット770に転送することができる。

抽出ユニット72はまた、環境HOA係数の1つが遷移中であることを示す信号757をフェードユニット770に出力することができ、フェードユニット770は次いで、SHC_BG47'(ここでSHC_BG47'は「環境HOAチャンネル47''」または「環境HOA係数47''」とも示され得る)と補間されたフォアグラウンドV[k]ベクトル55_k''の要素のどちらがフェードインまたはフェードアウトされるかを決定することができる。いくつかの例では、フェードユニット770は、環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55_k''の要素の各々に関して逆に動作することができる。すなわち、フェードユニット770は、環境HOA係数47'の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行しながら、補間されたフォアグラウンドV[k]ベクトル55_k''の要素の対応する1つに関するフェードインもしくはフェードアウト、またはフェードインとフェードアウトの両方を実行することができる。フェードユニット770は、調整された環境HOA係数47''をHOA係数編成ユニット82に出力し、調整されたフォアグラウンドV[k]ベクトル55_k''をフォアグラウンド編成ユニット78に出力することができる。この点において、フェードユニット770は、たとえば環境HOA係数47'および補間されたフォアグラウンドV[k]ベクトル55_k''の要素の形の、HOA係数の様々な態様またはHOA係数から導出されたものに関して、フェード動作を実行するように構成されるユニットを表す。

フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55_k'''および補間されたnFG信号49'に関して行列乗算を実行して、フォアグラウンドHOA係数65を生成するように構成される、ユニットを表し得る。この点において、フォアグラウンド編成ユニット78は、(補間nFG信号49'を表記する別の方法である)オーディオオブジェクト49'をベクトル55_k'''と結合して、HOA係数11'のフォアグラウンドの、言い換えれば優勢な態様を復元することができる。フォアグラウンド編成ユニット78は、調整されたフォアグラウンドV[k]ベクトル55_k'''によって補間されたnFG信号49'の行列乗算を実行することができる。

HOA係数編成ユニット82は、HOA係数11'を取得するために、フォアグラウンドHOA係数65を調整された環境HOA係数47''と組み合わせるように構成されるユニットを表すことができる。プライム記号は、HOA係数11'がHOA係数11と類似しているが同じではない可能性があることを反映する。HOA係数11と11'との間の差分は、有損失の送信媒体、量子化、または他の有損失の動作が原因の損失に起因し得る。

図4Bの例では、オーディオ復号デバイス24Bのオーディオチャンネル抽出ユニット282は、拡大環境HOA係数205と補間フォアグラウンドV[k]ベクトル55_k''の両方を受信することができる。この例では、オーディオチャンネル抽出ユニット282は、補間フォアグラウンドV[k]ベクトル55_k''を分析して、別のオーディオチャンネル201が挿入された空間位置を識別することができる。オーディオチャンネル抽出ユニット282は、この例では、拡大環境HOA係数205から別のオーディオチャンネル201を抽出することができる。暗黙的な空間位置およびHOA係数11のベクトルベースの分解の一部の分析を要する前の2つの例の場合、別のオーディオチャンネル201が挿入された空間位置を識別するためにビットストリーム21内でさらなる情報が指定されないとすれば、前の2つの例は、挿入情報207を要する以下の例と比較して、別のオーディオチャンネル201を含むHOA係数11のより効率的なコーディングを促進することができる。

図4Cの例では、オーディオ復号デバイス24Cの抽出ユニット282は、抽出ユニット72によってビットストリーム21から構文解析された後の挿入情報207を受信することができる。この挿入情報207に基づいて、オーディオチャンネル抽出ユニット282は、別のオーディオチャンネル201が挿入された空間位置を識別することができる。オーディオチャンネル抽出ユニット282は、上述された方式で、空間位置からこの別のオーディオチャンネル201を抽出することができる。ビットストリーム21内に挿入情報207を含めると、この挿入情報207を含まないビットストリーム21と比較して、最もコンパクトなビットストリームがもたらされない場合があるが、この情報207を含むと、オーディオチャンネル抽出ユニット282が空間位置を(処理サイクルの観点から)より効率的に識別することが可能になり得るし、暗黙的に知られていない位置にこれを挿入する柔軟性も可能になる。上述されたように、挿入情報207は、方位角および仰角ではなくVベクトルを含む場合がある。同様に上述されたように、Vベクトルは、拡大環境HOA係数内の別のオーディオチャンネル201の空間位置を識別することができる。

図7は、本開示において説明される技法の様々な態様を実行する際の図2のオーディオ復号デバイスの例示的な動作を示すフローチャートである。オーディオチャンネル抽出ユニット282は、図4A〜図4Cの例に関して上述された方法のうちの1つまたは複数を介して、拡大環境HOA係数205内の別のオーディオチャンネル201の特定の位置207を取得することができる(1050)。オーディオ復号デバイス20のオーディオチャンネル抽出ユニット282は、SH_NEW(θ,φ)1016と表記される場合がある、拡大環境HOA係数205を受信することができる。オーディオチャンネル抽出ユニット282は、拡大環境HOA係数205を3D空間に投影することによって、拡大環境HOA係数205を球面調和領域から空間領域に変換することができる(1052)。拡大環境HOA係数205の変換の結果は、P_ADJ(θ,φ)1012と表記される場合がある、変換拡大環境HOA係数205を生成することである。

オーディオチャンネル抽出ユニット282は、変換拡大環境HOA係数205(1054)の空間位置207から別のオーディオチャンネル201を抽出し、(図7の例においてP(θ,φ)(1002)と表記される)変換エネルギー補償環境HOA係数47'を生成することができる。オーディオチャンネル抽出ユニット282は、オーディオレンダラ22にさらなるオーディオチャンネル201を渡すことができる。さらなるオーディオチャンネル201は、SH_i(θ,φ)1015と表記される場合もある。オーディオチャンネル抽出ユニット282は、変換エネルギー補償環境HOA係数47'を変換して空間領域から球面調和領域に戻して(1056)、元のエネルギー補償環境HOA係数47'を出力することができる。エネルギー補償環境HOA係数47'は、SH_ORIG(n,m,t)1000と表記される場合もある。

図8A〜図8Cは、本開示において説明される技法に従って、オーディオオブジェクトが挿入され得る音場1100を示す図である。図8Aの例は、高いデシベル(dB)レベルを示す白の着色、比較的低いdBレベルを示す暗い黒色領域、および灰色の陰影が白に向かって減少するにつれて圧力が増大する領域を示す灰色の変化する陰影を有する、3次元の音場1100を示す。言い換えれば、図8Aの例において示された音場1100は、仮のスイートスポットにある球体に投影された音場1100を代表するHOA係数を表す。明るい/白い領域は、音場1100の圧力が高い領域を表記することができ、暗い/黒の領域は、音場1100の圧力が比較的低い領域を表記する。図8Bの例は、2次元の同じ音場1100の上半分を示す。

挿入ユニット234による音場1100の分析は、[45、30]、[180、60]、および[300、45]の方位角、仰角において、3つの突出または優勢オーディオ領域1102A〜1102Cを識別することができる。挿入ユニット234は、3つの突出または優勢オーディオ領域1102A〜1102Cのうちの1つまたは複数が、マスクされるか、または場合によっては0で埋められ得ることを識別することができる。挿入ユニット234は、上述された方式で、これらの領域1102A〜1102Cのうちの1つ、または突出オーディオ情報をほとんどもたないものと識別された別の領域(たとえば、完全またはほぼ完全な暗黒の領域)に、別のオーディオチャンネルを挿入することができる。

例示のために、挿入ユニット234は、音場1100を分析し、突出オーディオ領域1102Bによってマスクされているものとして突出オーディオ領域1102Cを識別することができる。挿入ユニット234は、エネルギー補償拡大HOA係数47'を球面調和領域から空間領域に変換することができる。図3A〜図3Bの例には示されていないが、挿入ユニット234は、エネルギー補償環境HOA係数47'ではなく、環境HOA係数47に関して本明細書において説明された分析および他の動作を実行することができる。

いずれにしても、挿入ユニット234は、突出オーディオ領域1102Cを0で埋めるか、または場合によっては削除し、オーディオ領域1102Cの位置に別のオーディオチャンネル201を挿入することができる。挿入ユニット234は、挿入を実行した後、拡大環境HOA係数205を取得することができる。拡大環境HOA係数205を取得した後、挿入ユニット234は、拡大環境HOA係数205を空間領域から球面調和領域に変換することができる。挿入ユニット234は、いくつかの例では、拡大環境HOA係数205のベクトルベースの分析(たとえば、SVD、EVD、PCA、KLTなど)を実行して、別のオーディオチャンネル201に関連するVベクトルを識別することができる。挿入ユニット234は、挿入情報207の少なくとも一部として、Vベクトルをビットストリーム生成ユニット42に供給することができる。ビットストリーム生成ユニット42は、ビットストリーム21内でVベクトルを含む挿入情報207を指定することができる。

代替として、音場1100は、拡大環境HOA係数205からの音場1100のレンダリングを表すことができる。音場1100の表現が拡大環境HOA係数205のレンダリングを表すことを考慮すると、突出オーディオオブジェクト1102A〜1102Cは、各々、エネルギー補償環境HOA係数47'に挿入された別のオーディオチャンネル201を表すことができる。

図8Cの例は、対応するVベクトル1104A〜1104Cの描写とともに3つの突出オーディオ領域1102A〜1102Cを含む音場1100の別の3次元ビューを提供する。Vベクトル1104A〜1104Cは、各々、HOA係数11の持続時間(たとえば、フレーム)の間の突出オーディオ領域1102A〜1102Cの方向、形状、幅、および音量を識別する。事実上、Vベクトル1104A〜1104Cは、各々、突出オーディオ情報の空間-時間ポケットを表すことができる。これらのポケットのうちの1つまたは複数は、非突出オーディオ情報の空間-時間ポケットを作成するために0で埋められる場合があり、それは別のオーディオチャンネル201で持続時間にわたって満たすことができる。

オーディオ復号デバイス24の観点から、オーディオチャンネル抽出ユニット282は、拡大環境HOA係数205および任意の付随する挿入情報207を受信し、逆プロセスを実行して別のオーディオチャンネル201を抽出することができる。例示のために、オーディオチャンネル抽出ユニット282は、拡大環境HOA係数205を球面調和領域から空間領域に変換することができる。次いで、オーディオチャンネル抽出ユニット282は、暗黙的に構成された位置(たとえば、拡大環境HOA係数205によって表される音場の上部もしくは下部)、(たとえば、拡大環境HOA係数205のベクトルベースの分析を実行することによって)明示的に導出された位置から、または少なくとも部分的に挿入情報207によって指定されたようにシグナリングされた位置を介して、別のオーディオチャンネル201を抽出することができる。

挿入情報207がVベクトルを含むとき、オーディオチャンネル抽出ユニット282は、Vベクトルを利用して、別のオーディオチャンネル201が挿入された(たとえば、上述された空間-時間ポケットを指定することができる)空間位置を識別することができる。場合によっては、Vベクトルは、0によって埋められ、別のオーディオチャンネル201を指定するために代わりに使用された、突出オーディオ領域1102A〜1102Cのうちの1つに対応する場合がある。オーディオチャンネル抽出ユニット282は、オーディオレンダラ22のうちの1つによってレンダリングされるべき別のオーディオチャンネル201を出力することができる。いくつかの例では、オーディオチャンネル抽出ユニット282は、Vベクトルを供給せずに、別のオーディオチャンネル201を出力する。結果として、別のオーディオチャンネル201は、対応するVベクトルを利用してレンダリングされない場合がある。

その上、オーディオチャンネル抽出ユニット282は、別のオーディオチャンネル201のHOA表現を編成するために、別のオーディオチャンネル201に対応するVベクトルを利用しない。別のオーディオチャンネル201が全方向オーディオコンテンツを表すとすれば、別のオーディオチャンネル201に対応するVベクトルは、別のオーディオチャンネル201の実際の位置、形状、および幅を正確に反映しない。代わりに、別のオーディオチャンネル201の位置、形状、および幅を識別する、別のオーディオチャンネル201に対応するVベクトルは、拡大環境HOA係数205によって表される音場に挿入されているが、別のオーディオチャンネル201のHOA表現を再編成するか、または別のオーディオチャンネル201をレンダリングするために利用されない。オーディオ再生システム16は、別のオーディオチャンネル201を個別にレンダリングして、スピーカーフィード203を生成し、オーディオ再生システム16は、ミキサー8を使用して再編成されたHOA係数11'からレンダリングされたスピーカーフィード25にスピーカーフィード203をミキシングする。

このようにして、本技法の様々な態様により、オーディオ復号デバイス24A〜24C(「オーディオ復号デバイス24」)が、音場とは別のオーディオチャンネルを含む音場の拡大高次アンビソニック表現を取得し、音場の拡大高次アンビソニック表現内の空間位置からオーディオチャンネルを抽出することが可能になり得る。

これらおよび他の例では、オーディオ復号デバイス24は、音場のベクトルベースの分析を実行して、音場内の空間位置を識別し、識別された空間位置からオーディオチャンネルを抽出するように構成される。

これらおよび他の例では、音場の拡大高次アンビソニック表現は、音場を記述する複数の高次アンビソニック係数を含み、オーディオ復号デバイスは、音場の拡大空間領域表現を取得するために、複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、音場の拡大空間領域表現内の空間位置からオーディオチャンネルを抽出するように構成される。

これらおよび他の例では、音場の拡大高次アンビソニック表現は、音場を記述する複数の高次アンビソニック係数を含み、オーディオ復号デバイス880は、音場の拡大空間領域表現を取得するために、複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、音場の拡大空間領域表現内の空間位置からオーディオチャンネルを抽出して、音場の空間領域表現を取得し、音場の空間領域表現を変換して空間領域から球面調和領域に戻して、音場の高次アンビソニック表現を取得するように構成される。

これらおよび他の例では、オーディオ復号デバイス24は、音場の拡大高次アンビソニック表現を含むビットストリームから、オーディオチャンネルが挿入された空間位置を特定するようにさらに構成される。

これらおよび他の例では、オーディオ復号デバイス24は、音場の拡大高次アンビソニック表現を含むビットストリームから、オーディオチャンネルを記述する情報を特定するようにさらに構成される。

これらおよび他の例では、デバイスはハンドセットを含む。

これらおよび他の例では、デバイスはタブレットを含む。

これらおよび他の例では、デバイスはスマートフォンを含む。

前述の技法は、任意の数の異なる状況およびオーディオエコシステムに関して実行され得る。いくつかの例示的な状況が下で説明されるが、本技法は例示的な状況に限定されるべきではない。1つの例示的なオーディオエコシステムは、オーディオコンテンツ、映画スタジオ、音楽スタジオ、ゲーミングオーディオスタジオ、チャンネルベースのオーディオコンテンツ、コーディングエンジン、ゲームオーディオステム、ゲームオーディオコーディング/レンダリングエンジン、および配信システムを含み得る。

映画スタジオ、音楽スタジオ、およびゲーミングオーディオスタジオは、オーディオコンテンツを受け取ることができる。いくつかの例では、オーディオコンテンツは、取得の成果を表し得る。映画スタジオは、デジタルオーディオワークステーション(DAW)を使用することなどによって、チャンネルベースのオーディオコンテンツ(たとえば、2.0、5.1、および7.1の)を出力することができる。音楽スタジオは、DAWを使用することなどによって、チャンネルベースのオーディオコンテンツ(たとえば、2.0および5.1の)を出力することができる。いずれの場合でも、コーディングエンジンは、配信システムによる出力のために、1つまたは複数のコーデック(たとえば、AAC、AC3、Dolby True HD、Dolby Digital Plus、およびDTS Master Audio)に基づいて、チャンネルベースのオーディオコンテンを受け取り符号化することができる。ゲーミングオーディオスタジオは、DAWを使用することなどによって、1つまたは複数のゲームオーディオステムを出力することができる。ゲームオーディオコーディング/レンダリングエンジンは、配信システムによる出力のために、オーディオステムをチャンネルベースのオーディオコンテンツへとコーディングおよびまたはレンダリングすることができる。本技法が実行され得る別の例示的な状況は、放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、消費者向けオンデバイスキャプチャ、HOAオーディオフォーマット、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを含み得る、オーディオエコシステムを備える。

放送用録音オーディオオブジェクト、プロフェッショナルオーディオシステム、および消費者向けオンデバイスキャプチャはすべて、HOAオーディオフォーマットを使用して出力をコーディングすることができる。このようにして、オーディオコンテンツは、オンデバイスレンダリング、消費者向けオーディオ、TV、アクセサリ、およびカーオーディオシステムを使用して再生され得る単一の表現へと、HOAオーディオフォーマットを使用してコーディングされ得る。言い換えると、オーディオコンテンツの単一の表現は、オーディオ再生システム16のような、一般的なオーディオ再生システムにおいて(すなわち、5.1、7.1などのような特定の構成を必要とするのではなく)再生され得る。

本技法が実行され得る状況の他の例は、取得要素および再生要素を含み得るオーディオエコシステムを含む。取得要素は、有線および/またはワイヤレス取得デバイス(たとえば、Eigenマイクロフォン)、オンデバイスサラウンドサウンドキャプチャ、およびモバイルデバイス(たとえば、スマートフォンおよびタブレット)を含み得る。いくつかの例では、有線および/またはワイヤレス取得デバイスは、有線および/またはワイヤレス通信チャンネルを介してモバイルデバイスに結合され得る。

本開示の1つまたは複数の技法によれば、モバイルデバイスは音場を取得するために使用され得る。たとえば、モバイルデバイスは、有線および/もしくはワイヤレス取得デバイスならびに/またはオンデバイスサラウンドサウンドキャプチャ(たとえば、モバイルデバイスに組み込まれた複数のマイクロフォン)を介して、音場を取得することができる。モバイルデバイスは次いで、再生要素の1つまたは複数による再生のために、取得された音場をHOA係数へとコーディングすることができる。たとえば、モバイルデバイスのユーザは、ライブイベント(たとえば、会合、会議、演劇、コンサートなど)を録音(ライブイベントの音場を取得)して、その録音をHOA係数へとコーディングすることができる。

モバイルデバイスはまた、再生要素の1つまたは複数を利用して、HOAコーディングされた音場を再生することができる。たとえば、モバイルデバイスは、HOAコーディングされた音場を復号し、再生要素の1つまたは複数に音場を再生成させる信号を再生要素の1つまたは複数に出力することができる。一例として、モバイルデバイスは、有線および/またはワイヤレス通信チャンネルを利用して、信号を1つまたは複数のスピーカー(たとえば、スピーカーアレイ、サウンドバーなど)に出力することができる。別の例として、モバイルデバイスは、ドッキングによる方法を利用して、1つまたは複数のドッキングステーションおよび/または1つまたは複数のドッキングされたスピーカー(たとえば、スマートカーおよび/またはスマートホームにおけるサウンドシステム)に信号を出力することができる。別の例として、モバイルデバイスは、たとえばリアルなバイノーラルサウンドを生成するために、ヘッドフォンレンダリングを利用して、ヘッドフォンのセットに信号を出力することができる。

いくつかの例では、特定のモバイルデバイスは、3D音場を取得することと、後で同じ3D音場を再生することとの両方を行うことができる。いくつかの例では、モバイルデバイスは、3D音場を取得し、3D音場をHOAへと符号化し、符号化された3D音場を再生のために1つまたは複数の他のデバイス(たとえば、他のモバイルデバイスおよび/または他の非モバイルデバイス)に送信することができる。

本技法が実行され得るさらに別の状況は、オーディオコンテンツ、ゲームスタジオ、コーディングされたオーディオコンテンツ、レンダリングエンジン、および配信システムを含み得る、オーディオエコシステムを含む。いくつかの例では、ゲームスタジオは、HOA信号の編集をサポートし得る、1つまたは複数のDAWを含み得る。たとえば、1つまたは複数のDAWは、1つまたは複数のゲームオーディオシステムとともに動作する(たとえば、機能する)ように構成され得る、HOAプラグインおよび/またはツールを含み得る。いくつかの例では、ゲームスタジオは、HOAをサポートする新たなステムフォーマットを出力することができる。いずれにしても、ゲームスタジオは、コーディングされたオーディオコンテンツを、配信システムによる再生のために音場をレンダリングし得るレンダリングエンジンに出力することができる。

本技法はまた、例示的なオーディオ取得デバイスに関して実行され得る。たとえば、本技法は、3D音場を記録するように全体的に構成される複数のマイクロフォンを含み得る、Eigenマイクロフォンに関して実行され得る。いくつかの例では、Eigenマイクロフォンの複数のマイクロフォンは、半径が約4cmの実質的に球形のボールの表面上に配置され得る。いくつかの例では、オーディオ符号化デバイス20は、マイクロフォンから直接ビットストリーム21を出力するために、Eigenマイクロフォンに統合され得る。

別の例示的なオーディオ取得の状況は、1つまたは複数のEigenマイクロフォンのような1つまたは複数のマイクロフォンから信号を受信するように構成され得る中継車を含み得る。中継車はまた、図2のオーディオエンコーダ20のようなオーディオエンコーダを含み得る。

モバイルデバイスはまた、いくつかの例では、3D音場を記録するように全体的に構成される複数のマイクロフォンを含み得る。言い換えると、複数のマイクロフォンは、X、Y、Zのダイバーシティを有し得る。いくつかの例では、モバイルデバイスは、モバイルデバイスの1つまたは複数の他のマイクロフォンに関してX、Y、Zのダイバーシティを提供するように回転され得る、マイクロフォンを含み得る。モバイルデバイスはまた、図2のオーディオエンコーダ20のようなオーディオエンコーダを含み得る。

高耐久性のビデオキャプチャデバイスがさらに、3D音場を記録するように構成され得る。いくつかの例では、高耐久性のビデオキャプチャデバイスは、活動に関与しているユーザのヘルメットに取り付けられ得る。たとえば、高耐久性のビデオキャプチャデバイスは、ホワイトウォーターラフティング中のユーザのヘルメットに取り付けられ得る。このようにして、高耐久性のビデオキャプチャデバイスは、ユーザの周囲の活動を表す3D音場(たとえば、ユーザの背後の水しぶき、ユーザの前にいる別のラフターの声など)をキャプチャすることができる。

本技法はまた、3D音場を記録するように構成され得る、アクセサリにより増強されたモバイルデバイスに関して実行され得る。いくつかの例では、モバイルデバイスは上で論じられたモバイルデバイスと同様であってよく、1つまたは複数のアクセサリが追加されている。たとえば、Eigenマイクロフォンは、アクセサリで増強されたモバイルデバイスを形成するために、上で述べられたモバイルデバイスに取り付けられ得る。このようにして、アクセサリで増強されたモバイルデバイスは、アクセサリで増強されたモバイルデバイスと一体のサウンドキャプチャコンポーネントを使用するだけの場合ではなく、高品質なバージョンの3D音場をキャプチャすることができる。

本開示において説明される本技法の様々な態様を実行し得る例示的なオーディオ再生デバイスが、下で論じられる。本開示の1つまたは複数の技法によれば、スピーカーおよび/またはサウンドバーは、3D音場を再生しながらでも、あらゆる任意の構成で並べられ得る。その上、いくつかの例では、ヘッドフォン再生デバイスが、有線接続またはワイヤレス接続のいずれかを介してデコーダ24に結合され得る。本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、スピーカー、サウンドバー、およびヘッドフォン再生デバイスの任意の組合せで音場をレンダリングするために利用され得る。

いくつかの異なる例示的なオーディオ再生環境も、本開示において説明される技法の様々な態様を実行するのに適していることがある。たとえば、5.1スピーカー再生環境、2.0(たとえば、ステレオ)スピーカー再生環境、フルハイトフロントラウドスピーカーを伴う9.1スピーカー再生環境、22.2スピーカー再生環境、16.0スピーカー再生環境、オートモーティブスピーカー再生環境、およびイヤホン再生環境を伴うモバイルデバイスが、本開示において説明される技法の様々な態様を実行するための適切な環境であり得る。

本開示の1つまたは複数の技法によれば、音場の単一の一般的な表現が、前述の再生環境のいずれかで音場をレンダリングするために利用され得る。加えて、本開示の技法は、上で説明されたもの以外の再生環境での再生のために、レンダラが一般的な表現から音場をレンダリングすることを可能にし得る。たとえば、設計上の考慮事項が7.1スピーカー再生環境に従ったスピーカーの適切な配置を妨げる場合(たとえば、右のサラウンドスピーカーを配置することが可能ではない場合)、本開示の技法は、6.1スピーカー再生環境での再生が達成され得るように、レンダラが他の6つのスピーカーによって補償することを可能にする。

その上、ユーザは、ヘッドフォンを装着しながらスポーツの試合を観ることがある。本開示の1つまたは複数の技法によれば、スポーツの試合の3D音場が取得されてよく(たとえば、1つまたは複数のEigenマイクロフォンが野球場の中および/または周囲に配置できることによって)、3D音場に対応するHOA係数が取得されデコーダに送信されてよく、デコーダがHOA係数に基づいて3D音場を再構築し、再構築された3D音場をレンダラに出力することができ、レンダラは、再生環境のタイプ(たとえば、ヘッドフォン)についての指示を取得し、再構築された3D音場を、ヘッドフォンにスポーツの試合の3D音場の表現を出力させる信号へとレンダリングすることができる。

上で説明された様々な例の各々において、オーディオ符号化デバイス20が、方法を実行してよく、またはそうでなければ、オーディオ符号化デバイス20が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備えてよい。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表し得る。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ符号化デバイス20が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供することができる。他の例では、プロセッサは、実質的にハードウェアベースであり、汎用プロセッサではない場合がある。

1つまたは複数の例において、説明される機能は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実装され得る。ソフトウェアで実装される場合、機能は、1つもしくは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され、またはコンピュータ可読媒体を介して送信されてよく、かつハードウェアに基づく処理ユニットによって実行されてよい。コンピュータ可読媒体は、データ記憶媒体のような有形媒体に対応する、コンピュータ可読記憶媒体を含み得る。データ記憶媒体は、本開示で説明された技法を実装するための命令、コード、および/またはデータ構造を取り出すために1つもしくは複数のコンピュータまたは1つもしくは複数のプロセッサによってアクセスされ得る任意の利用可能な媒体であってよい。コンピュータプログラム製品は、コンピュータ可読媒体を含み得る。

同様に、上で説明された様々な例の各々において、オーディオ復号デバイス24が、方法を実行してよく、またはそうでなければ、オーディオ復号デバイス24が実行するように構成される方法の各ステップを実行するための手段を備えてよいことを理解されたい。いくつかの例では、この手段は、1つまたは複数のプロセッサを備え得る。いくつかの例では、1つまたは複数のプロセッサは、非一時的コンピュータコンピュータ可読記憶媒体に記憶されている命令によって構成される、特別なプロセッサを表し得る。言い換えると、符号化の例のセットの各々における本技法の様々な態様は、実行されると、オーディオ復号デバイス24が実行するように構成されている方法を1つまたは複数のプロセッサに実行させる命令を記憶している、非一時的コンピュータ可読記憶媒体を提供することができる。

限定ではなく例として、そのようなコンピュータ可読記憶媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、フラッシュメモリ、または、命令もしくはデータ構造の形式の所望のプログラムコードを記憶するために使用され、コンピュータによってアクセスされ得る任意の他の媒体を含み得る。しかしながら、コンピュータ可読記憶媒体およびデータ記憶媒体は、接続、搬送波、信号、または他の一時的な媒体を含まず、代わりに非一時的な有形記憶媒体を指すことを理解されたい。本明細書で使用される場合、ディスク(disk)およびディスク(disc)は、コンパクトディスク(CD)、レーザーディスク(登録商標)、光ディスク、デジタル多用途ディスク(DVD)、フロッピーディスク、およびブルーレイディスクを含み、ディスク(disk)は通常、磁気的にデータを再生し、ディスク(disc)はレーザーで光学的にデータを再生する。上記の組合せも、コンピュータ可読媒体の範囲内に含まれるべきである。

命令は、1つまたは複数のデジタル信号プロセッサ(DSP)、汎用マイクロプロセッサ、特定用途向け集積回路(ASIC)、フィールドプログラマブル論理アレイ(FPGA)、または他の等価の集積論理回路もしくはディスクリート論理回路のような、1つまたは複数のプロセッサによって実行され得る。したがって、本明細書で使用される「プロセッサ」という用語は、前述の構造、または本明細書で説明される技法の実装に適した任意の他の構造のいずれかを指し得る。加えて、いくつかの態様では、本明細書で説明される機能は、符号化および復号のために構成された専用のハードウェアモジュールおよび/またはソフトウェアモジュール内に与えられてよく、あるいは複合コーデックに組み込まれ得る。また、技法は、1つまたは複数の回路または論理要素において完全に実装され得る。

本開示の技法は、ワイヤレスハンドセット、集積回路(IC)、またはICのセット(たとえば、チップセット)を含む、多種多様なデバイスまたは装置において実装され得る。本開示では、開示される技法を実行するように構成されたデバイスの機能的態様を強調するために、様々なコンポーネント、モジュール、またはユニットが説明されたが、それらのコンポーネント、モジュール、またはユニットは、必ずしも異なるハードウェアユニットによる実現を必要とするとは限らない。そうではなくて、上で説明されたように、様々なユニットは、コーデックハードウェアユニットにおいて結合されてよく、または適切なソフトウェアおよび/もしくはファームウェアとともに、前述のような1つもしくは複数のプロセッサを含む、相互動作可能なハードウェアユニットの集合によって提供されてよい。

本技法の様々な態様が説明されてきた。本技法のこれらのおよび他の態様は、以下の特許請求の範囲内に入る。

6 ユーザインターフェースユニット
7 ユーザ
8 ミキサー
9 オーディオオブジェクト
11 HOA係数
11' HOA係数
12 コンテンツ作成者デバイス
13 ラウドスピーカー情報
14 コンテンツ消費者デバイス
16 オーディオ再生システム
18 オーディオ編集システム
20 オーディオ符号化デバイス
20A オーディオ符号化デバイス
20B オーディオ符号化デバイス
20C オーディオ符号化デバイス
21 ビットストリーム
22 オーディオレンダラ
24 オーディオ復号デバイス
24A オーディオ復号デバイス
24B オーディオ復号デバイス
24C オーディオ復号デバイス
25 ラウドスピーカーフィード
25' 混合ラウドスピーカーフィード
26 コンテンツ分析ユニット
27 ベクトルベースの分解ユニット
28 指向性ベースの分解ユニット
30 線形可逆変換(LIT)ユニット
32 パラメータ計算ユニット
33 US[k]ベクトル
34 並べ替えユニット
35 V[k]ベクトル
36 フォアグラウンド選択ユニット
37 現在のパラメータ
38 エネルギー補償ユニット
39 前のパラメータ
40 音響心理学的オーディオコーダユニット
41 目標ビットレート
42 ビットストリーム生成ユニット
43 バックグラウンドチャンネル情報
44 音場分析ユニット
45 フォアグラウンドチャンネルの総数
46 係数削減ユニット
47 環境HOA係数
47' エネルギー補償環境HOA係数
49 nFG信号
49' 補間nFG信号
50 空間-時間補間ユニット
51_k フォアグラウンドV[k]行列
52 量子化ユニット
53 残りのフォアグラウンドV[k]ベクトル
55 削減されたフォアグラウンドV[k]ベクトル
55_k'' 補間フォアグラウンドV[k]ベクトル
55_k''' ベクトル
57 コーディングされたフォアグラウンドV[k]ベクトル
59 符号化されたHOA係数
61 符号化されたnFG信号
63 コードベクトル
65 フォアグラウンドHOA係数
72 抽出ユニット
74 Vベクトル復元ユニット
76 空間-時間補間ユニット
78 フォアグラウンド編成ユニット
80 音響心理学的復号ユニット
82 HOA係数編成ユニット
90 指向性ベースの再構築ユニット
91 指向性ベースの情報
92 ベクトルベースの再構築ユニット
201 別のオーディオコンテンツ(チャンネル)
203 別のラウドスピーカーフィード
205 拡大環境HOA係数
207 挿入情報
234 挿入ユニット
282 オーディオチャンネル抽出ユニット
770 フェードユニット
830 オーディオ符号化デバイス
880 オーディオ復号デバイス
1000 SH_ORIG(n,m,t)
1002 P(θ,φ)
1006 グラフ
1006A グラフ
1006B グラフ
1006C グラフ
1008A 領域/穴
1008B 領域/穴
1008C 領域/穴
1008D 領域/穴
1010A 音響活性の領域
1010B 音響活性の領域
1012 別のオーディオチャンネル
1012 P_ADJ(θ,Φ)
1014 SH_ADJ(n,m,t)
1015 SH_i(n,m,t)
1016 SH_NEW(n,m,t)
1100 音場
1102A 突出または優勢オーディオ領域
1102B 突出または優勢オーディオ領域
1102C 突出または優勢オーディオ領域
1104A Vベクトル
1104B Vベクトル
1104C Vベクトル

Claims

音場とは別のオーディオチャンネルを含む前記音場の拡大高次アンビソニック表現を取得し、前記音場の前記拡大高次アンビソニック表現内の空間位置からオーディオチャンネルを抽出するように構成された1つまたは複数のプロセッサと、
前記オーディオチャンネルを記憶するように構成されたメモリと
を備える、デバイス。
前記空間位置が、前記音場の下部または前記音場の上部のうちの1つに位置する、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場のベクトルベースの分析に基づいて、前記音場内の前記空間位置を識別するようにさらに構成される、請求項1に記載のデバイス。
前記音場の前記拡大高次アンビソニック表現が、前記音場を記述する複数の高次アンビソニック係数を含み、
前記1つまたは複数のプロセッサが、前記音場の拡大空間領域表現を取得するために、前記複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、前記音場の前記拡大空間領域表現内の前記空間位置から前記オーディオチャンネルを抽出するように構成される、
請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場の前記拡大高次アンビソニック表現を含むビットストリームから、前記オーディオチャンネルが挿入された前記空間位置を取得するようにさらに構成される、請求項1に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場の前記拡大高次アンビソニック表現を含むビットストリームから、前記オーディオチャンネルを記述する情報を取得するようにさらに構成される、請求項1に記載のデバイス。
前記オーディオチャンネルを記述する前記情報が、放送局を識別する情報、前記オーディオチャンネル内に存在する解説が話されている言語を識別する情報、または前記オーディオチャンネル内に存在するコンテンツのタイプを識別する情報のうちの1つを含む、請求項6に記載のデバイス。
前記別のオーディオチャンネルが、放送局からのオーディオチャンネル、非放送局によって取得されるオーディオチャンネル、非英語言語で解説を提供する非英語オーディオチャンネル、および英語言語で解説を提供する英語オーディオチャンネルのうちの1つを含む、請求項1に記載のデバイス。
前記音場の前記高次アンビソニック表現が、前記音場の環境成分を記述する複数の高次アンビソニック係数を含む、請求項1に記載のデバイス。
音場とは別のオーディオチャンネルを含む前記音場の拡大高次アンビソニック表現を取得するステップと、
前記音場の前記拡大高次アンビソニック表現内の空間位置からオーディオチャンネルを抽出するステップと
を含む、方法。
前記空間位置が、前記音場の下部または前記音場の上部のうちの1つに位置する、請求項10に記載の方法。
前記音場の前記拡大高次アンビソニック表現のベクトルベースの分析に基づいて、前記音場内の前記空間位置を識別するステップをさらに含む、請求項10に記載の方法。
前記音場の前記拡大高次アンビソニック表現が、前記音場を記述する複数の高次アンビソニック係数を含み、
前記オーディオチャンネルを抽出するステップが、
前記音場の拡大空間領域表現を取得するために、前記複数の高次アンビソニック係数を球面調和領域から空間領域に変換するステップと、
前記音場の前記拡大空間領域表現内の前記空間位置から前記オーディオチャンネルを抽出するステップと
を含む、請求項10に記載の方法。
前記音場の前記拡大高次アンビソニック表現を含むビットストリームから、前記オーディオチャンネルが挿入された前記空間位置を示す挿入情報を取得するステップをさらに含み、前記挿入情報が、前記オーディオチャンネルが挿入された前記空間位置を識別するVベクトルを含む、請求項10に記載の方法。
前記音場の前記拡大高次アンビソニック表現を含むビットストリームから、前記オーディオチャンネルを記述する情報を取得するステップをさらに含む、請求項10に記載の方法。
前記オーディオチャンネルを記述する前記情報が、スポーツキャスタを識別する情報、前記オーディオチャンネル内に存在する解説が話されている言語を識別する情報、または前記オーディオチャンネル内に存在するコンテンツのタイプを識別する情報のうちの1つを含む、請求項15に記載の方法。
前記別のオーディオチャンネルが、スポーツキャスタからのオーディオチャンネル、非放送局によって取得されるオーディオチャンネル、非英語言語で解説を提供する非英語オーディオチャンネル、および英語言語で解説を提供する英語オーディオチャンネルのうちの1つを含む、請求項10に記載の方法。
前記音場の前記高次アンビソニック表現が、前記音場の環境成分を記述する複数の高次アンビソニック係数を含む、請求項10に記載の方法。
音場の前記高次アンビソニック表現を記憶するように構成されたメモリと、
前記音場の前記高次アンビソニック表現とは別のオーディオチャンネルを取得し、前記オーディオチャンネルが前記音場から抽出され得るように前記音場内の空間位置に前記オーディオチャンネルを挿入するように構成された1つまたは複数のプロセッサと
を備える、デバイス。
前記空間位置が、前記音場の下部または前記音場の上部のうちの1つに位置する、請求項19に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場を分析して、マスキングによって影響を受ける前記音場内の前記空間位置を識別し、前記識別された空間位置に前記オーディオチャンネルを挿入するように構成され、
前記1つまたは複数のプロセッサが、前記音場の前記高次アンビソニック表現を含むビットストリーム内で、前記オーディオチャンネルが挿入された前記空間位置を指定するようにさらに構成される、
請求項19に記載のデバイス。
前記音場の前記高次アンビソニック表現が、前記音場を記述する複数の高次アンビソニック係数を含み、
前記1つまたは複数のプロセッサが、前記音場の空間領域表現を取得するために、前記複数の高次アンビソニック係数を球面調和領域から空間領域に変換し、前記音場の前記空間領域表現内の前記空間位置に前記オーディオチャンネルを挿入して、前記音場の拡大空間領域表現を取得し、前記音場の前記拡大空間領域表現を変換して前記空間領域から前記球面調和領域に戻して、前記音場の拡大高次アンビソニック表現を取得するように構成される、
請求項19に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場の前記高次アンビソニック表現を含むビットストリーム内で、前記オーディオチャンネルが挿入された前記空間位置を指定するようにさらに構成される、請求項19に記載のデバイス。
前記1つまたは複数のプロセッサが、前記音場を分析して、前記音場内の非突出領域を識別し、前記識別された非突出領域を0で埋め、前記識別された非突出領域に前記オーディオチャンネルを挿入するように構成される、請求項19に記載のデバイス。
音場の高次アンビソニック表現とは別のオーディオチャンネルを取得するステップと、
前記オーディオチャンネルが前記音場から抽出され得るように前記音場内の空間位置に前記オーディオチャンネルを挿入するステップと
を含む、方法。
前記空間位置が、前記音場の下部または前記音場の上部のうちの1つに位置する、請求項25に記載の方法。
前記オーディオチャンネルを挿入するステップが、
前記音場を分析して、マスキングによって影響を受ける前記音場内の前記空間位置を識別するステップと、
前記識別された空間位置に前記オーディオチャンネルを挿入するステップと
を含む、請求項25に記載の方法。
前記音場の前記高次アンビソニック表現が、前記音場を記述する複数の高次アンビソニック係数を含み、
前記オーディオチャンネルを挿入するステップが、
前記音場の空間領域表現を取得するために、前記複数の高次アンビソニック係数を球面調和領域から空間領域に変換するステップと、
前記音場の前記空間領域表現内の前記空間位置に前記オーディオチャンネルを挿入して、前記音場の拡大空間領域表現を取得するステップと、
前記音場の前記拡大空間領域表現を変換して前記空間領域から前記球面調和領域に戻して、前記音場の拡大高次アンビソニック表現を取得するステップと
を含む、請求項25に記載の方法。
前記音場の前記高次アンビソニック表現を含むビットストリーム内で、前記オーディオチャンネルが挿入された前記空間位置を示す挿入情報を指定するステップをさらに含み、前記挿入情報が、前記オーディオチャンネルが挿入された前記空間位置を識別するVベクトルを含む、請求項25に記載の方法。
前記オーディオチャンネルを挿入するステップが、
前記音場を分析して、前記音場内の非突出領域を識別し、前記識別された非突出領域を0で埋めるステップと、
前記識別された非突出領域に前記オーディオチャンネルを挿入するステップと
を含み、
前記方法が、前記音場の前記高次アンビソニック表現を含むビットストリーム内で、前記オーディオチャンネルが挿入された前記空間位置を指定するステップをさらに含む、
請求項25に記載の方法。