JP2020500480A

JP2020500480A - デバイス内の非対称配列の複数のマイクからの空間メタデータの分析

Info

Publication number: JP2020500480A
Application number: JP2019526614A
Authority: JP
Inventors: ユハヴィルカモ; ミッカヴィレルモ; ミッコタンミ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2016-11-18
Filing date: 2017-11-10
Publication date: 2020-01-09
Anticipated expiration: 2037-11-10
Also published as: GB2556093A; US10873814B2; GB201619573D0; JP7082126B2; WO2018091776A1; CN110337819A; CN110337819B; US20200068309A1; EP3542546A1; EP3542546A4

Abstract

所定の形状を有する装置であって、少なくとも３つのマイクとプロセッサとを備え、前記少なくとも３つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも１つの別のマイク対よりも、より短い距離だけ離間した２つのマイクを備え、前記プロセッサは、前記より短い距離だけ離間した２つのマイクからのマイクオーディオ信号を分析して不確定指向性を判定し、別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性以外の音特性を判定するように構成され、前記第１のマイク対と、前記少なくとも１つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも１つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した２つのマイクを備える。【選択図】図４

Description

本願は、非対称デバイスからのオーディオ信号のための空間メタデータを生成する装置および方法に関し、具体的にはユーザ機器における複数のマイクの非対称配置に関するが、これに限定するものではない。

背景

マイクアレイ信号からの知覚的に関連した空間情報（例えば、周波数帯における到来音の方向）の動的分析を利用した適応型空間オーディオキャプチャ（Spatial Audio Capture：ＳＰＡＣ）法が知られている。

空間オーディオキャプチャ（ＳＰＡＣ）は、取得されたオーディオ信号に由来する指向性メタデータ（または指向性情報）の動的分析を伴う。

この情報は、いわゆる空間メタデータと呼ばれるもので、元の録音音場と知覚的に類似した空間再生を動的に合成するために適用されてもよい。

従来のオーディオ信号キャプチャは、線形キャプチャ（従来型、静的）方法を用いて実施されてきた。このような線形キャプチャ方法は、非適応型ビームフォーミング技術からなり、球面高調波における中間信号表現を特徴とする線形ビームフォーミング技術であるアンビソニックスが含まれる。線形技術では、正確な空間音キャプチャのために拡張されたハードウェアが必要となる。例えば、線形再生にはアイゲンマイク（Eigenmike）（３２個の高ＳＮＲマイクが配された球面）が適している。

パラメトリックなオーディオ信号キャプチャ（知覚的、適応型）や空間メタデータ分析には、ＳＰＡＣや、指向性オーディオ符号化（Directional Audio Coding：ＤｉｒＡＣ）や高調平面波拡張（Harmonic plane wave expansion：Ｈａｒｐｅｘ）等の同様の方法を含むその他の適応型方法が挙げられる。これらの手法では、マイクオーディオ信号を分析して、到来音の方向等の空間的特性を、典型的には周波数帯に適応的に決定する。このように決定されたパラメータ情報によって、空間音の知覚的に正確な合成が可能になる。これらのパラメトリックキャプチャ技術は、線形技術と比較してＳＮＲやハードウェアに対する要件が非常に低い。

上述の空間キャプチャ方法は、対称形の、または対称に近い形のデバイスに実施するように設計されている。しかし、現実的には多くのデバイスにおいて、その寸法の内の少なくとも２つ（長さ、幅、高さ）は互いに大きく異なっている。例えば、スマートフォンやタブレットのようなデバイスは、水平面に近いある軸に向かって平坦でありうる。

このようにデバイスが非対称形であると、空間キャプチャにおいて問題が生じる。主な課題は、デバイスにおいてマイクの配置がたとえ最適化されていたとしても、当該デバイスに「短」空間軸があると、この軸におけるマイク間の差分情報を大きくとることが妨げられる点である。この信号の差分情報が小さいと、任意の干渉物（マイク自身のノイズ、デバイスのノイズ、風によるノイズ、振動によるノイズ等）による相対的影響が顕著になる。

摘要

第１の態様によると、所定の形状を有する装置が提供される。当該装置は、前記装置上または装置内に位置する少なくとも３つのマイクと、プロセッサと、を備え、前記少なくとも３つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも１つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した２つのマイクを備え、前記プロセッサは、前記少なくとも３つのマイクから、少なくとも３つのマイクオーディオ信号を受信し、少なくとも前記より短い距離だけ離間した２つのマイクからのマイクオーディオ信号を分析し、不確定指向性を判定し、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成され、前記第１のマイク対と、前記少なくとも１つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも１つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した２つのマイクを備える。

前記所定の形状は、前記装置の物理的形状であってもよい。

前記装置の物理的形状の少なくとも１つの寸法は、前記装置の物理的形状のその他の寸法より短くてもよい。

前記より短い距離だけ離間した２つのマイクは、前記装置の物理的形状の前記少なくとも１つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間してもよい。

前記所定の形状は、前記少なくとも３つのマイクの物理的配列であってもよい。

前記より短い距離だけ離間した２つのマイクは、前記装置の物理的形状のその他の寸法よりも短い前記装置の物理的形状の少なくとも１つの寸法とは異なる寸法に沿って配置されてもよい。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、少なくとも１つの前記別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定するようにさらに構成されてもよい。

前記プロセッサは、前記不確定指向性判定である、第１の空間メタデータ部分を判定し、前記不確定指向性以外の、前記少なくとも１つの音特性である第２の空間メタデータ部分を判定し、前記第１の空間メタデータ部分と、前記第２のメタデータ部分とを合成して、少なくとも３つのマイクオーディオ信号に関連付けられた空間メタデータを生成するように構成されてもよく、前記第２のメタデータ部分は、前記第１のメタデータ部分よりも広範囲の値を含んでもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定するように構成されてもよい。

前記不確定指向性以外の前記少なくとも１つの音特性は、前記到来音の方向角であり、前記方向角は不確定値を有し、前記不確定指向性判定により、前記不確定値が確定されてもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記方向角を判定するように構成された前記プロセッサは、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定し、前記少なくとも１つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化し、前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも２つの不確定方向角値を生成するように構成されてもよい。

前記正規化された遅延値に前記三角関数を適用して、前記少なくとも２つの不確定方向角値を生成するように構成された前記プロセッサは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも２つの不確定方向角値を生成するように構成されてもよい。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定するように構成された前記プロセッサは、前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定するように構成され、前記プロセッサは、前記遅延値の正負符号に基づいて、前記少なくとも２つ不確定方向角値を確定するように構成されてもよい。

前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定し、前記複数の相関値から、最大相関値を探索し、前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択するように構成されてもよい。

前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、前記マイクオーディオ信号間の位相差の周波数の導関数を判定し、前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定するように構成されてもよい。

前記不確定方向以外の、前記少なくとも１つの音特性がさらに、前記到来音の前記方向角に関連するエネルギー比を含んでもよい。

前記不確定方向以外の前記少なくとも１つの音特性がさらに、前記到来音の前記方向角に関連した一貫性を含む。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成されてもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成されてもよい。

前記少なくとも３つのマイクが４つのマイクを含んでもよく、前記少なくとも３つのマイクから少なくとも３つのマイクオーディオ信号を受信するように構成された前記プロセッサは、前記４つのマイクから４つのマイクオーディオ信号を受信するように構成されてもよく、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、少なくとも２つの前記別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも２つの遅延を判定し、前記少なくとも２つの遅延から、到来音の方位角および仰角方向を判定するように構成されてもよく、少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記判定された方位角および仰角方向に対して不確定指向性を判定するように構成されてもよい。方向値は方位角および仰角方向であってもよいが、方向値は、方位角および傾き、単位ベクトル等、任意の適切な方向または座標系であってもよい。

第２の態様によると、所定の形状を有する装置のための方法が提供される。当該装置は、前記装置上または装置内に位置する少なくとも３つのマイクを備え、前記少なくとも３つのマイクの内の少なくとも一対が、前記所定の形状の少なくとも１つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した２つのマイクを備える。前記方法は、前記少なくとも３つのマイクから少なくとも３つのマイクオーディオ信号を受信することと、少なくとも前記より短い距離だけ離間した２つのマイクからのマイクオーディオ信号を分析して、不確定指向性を判定することと、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することと、を含み、前記第１のマイク対と、前記少なくとも１つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも１つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した２つのマイクを備える。

前記装置の物理的形状の少なくとも１つの寸法は、前記装置の物理的形状のその他の寸法よりも短くてもよい。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、少なくとも１つの前記別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定することをさらに含んでもよい。

前記方法は、前記不確定指向性判定である、第１の空間メタデータ部分を判定することと、前記不確定指向性以外の、前記少なくとも１つの音特性である第２の空間メタデータ部分を判定することと、前記第１の空間メタデータ部分と、前記第２のメタデータ部分とを合成して、少なくとも３つのマイクオーディオ信号に関連付けられた空間メタデータを生成することとをさらに含んでもよく、前記第２のメタデータ部分は、前記第１のメタデータ部分よりも広範囲の値を含んでもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することは、前記少なくとも１つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定することを含んでもよい。

前記不確定指向性以外の前記少なくとも１つの音特性は、前記到来音の方向角であってもよく、前記方向角は不確定値を有してもよく、前記不確定指向性判定により、前記不確定値が確定されてもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記方向角を判定することは、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号間の遅延値を判定することと、前記少なくとも１つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化することと、前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも２つの不確定方向角値を生成することと、をさらに含んでもよい。

前記正規化された遅延値に前記三角関数を適用して、前記少なくとも２つの不確定方向角値を生成することは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも２つの不確定方向角値を生成することを含んでもよい。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定することは、前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定することを含んでもよく、ここで前記方法は、前記遅延値の正負符号に基づいて、前記少なくとも２つの不確定方向角値を確定することを含む。

前記マイクオーディオ信号間の遅延値を判定することは、前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定することと、前記複数の相関値から、最大相関値を探索することと、前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択することと、を含んでもよい。

前記マイクオーディオ信号間の遅延値を判定することは、前記マイクオーディオ信号間の位相差の周波数の導関数を判定することと、前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定することとを含んでもよい。

前記不確定指向性以外の前記少なくとも１つの音特性はさらに、前記到来音の前記方向角に関連するエネルギー比を含んでもよい。

前記不確定指向性以外の前記少なくとも１つの音特性はさらに、前記到来音の前記方向角に関連した一貫性を含んでもよい。

少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、周波数帯単位で、少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することを含んでもよい。

少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することは、周波数帯単位で、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することを含んでもよい。

前記少なくとも３つのマイクは４つのマイクを含んでもよく、前記少なくとも３つのマイクから少なくとも３つのマイクオーディオ信号を受信することは、前記４つのマイクから４つのマイクオーディオ信号を受信することを含んでもよく、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することは、少なくとも２つの前記別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも２つの遅延を判定することと、前記少なくとも２つの遅延から、到来音の方位角および仰角方向を判定することと、をさらに含んでもよく、少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定することは、前記判定された方位角および仰角方向に対して不確定指向性を判定することを含んでもよい。

媒体に格納されるコンピュータプログラムが、本明細書に記載の方法を装置に遂行させてもよい。

電子機器が本明細書に記載の装置を備えていてもよい。

チップセットが本明細書に記載の装置を備えていてもよい。

本願の実施形態は、当該技術分野における現状の問題に対処することを目的とする。

本願をよりよく理解すべく、例として以下の添付図面を参照されたい。
図１は、公知の空間オーディオキャプチャシステムに影響を及ぼすノイズによる生じた空間メタデータ誤差を示す。図２ａは、ある実施形態の実現に適した、非対称マイク配置オーディオキャプチャおよび処理装置を概略的に示す。図２ｂは、ある実施形態の実現に適した、非対称マイク配置オーディオキャプチャおよび処理装置を概略的に示す。図３は、ある実施形態の実現に適した、３つのマイクによる非対称配置オーディオキャプチャおよび処理装置を概略的に示す。図４は、ある実施形態の実現に適した、４つのマイクによる非対称配置オーディオキャプチャおよび処理装置を概略的に示す。図５は、ある実施形態の実現に適した、例示的オーディオキャプチャおよび処理装置の機能的処理要素を概略的に示す。図６は、ある実施形態に係る、図５に示す分析部の機能要素を概略的に示す。図７は、ある実施形態に係る、図６に示す装置内で実施される、軸に基づく分析動作のフローチャートである。図８は、ある実施形態に係る、図６に示す装置内で実施される、例示的遅延情報判定動作のフローチャートである。

デバイス上のマイクの非対称配置において、効果的な空間キャプチャ分析を実現するのに適した装置、および利用可能な機構を以下にさらに詳細に説明する。以下の例では、オーディオ信号およびオーディオキャプチャ信号が説明される。ただし、ある実施形態においては、当該デバイスまたは装置が、オーディオ信号を取得、あるいはオーディオ信号やその他の情報信号を受信するように構成された任意の適切な電子デバイスまたは装置の一部でありうる。

以下の開示では、適応型ＳＰＡＣ技術を具体的に説明する。これは、マイクアレイから典型的にはラウドスピーカやヘッドホンへの空間オーディオキャプチャの方法を表す。ここで、空間オーディオキャプチャ（ＳＰＡＣ）は、適応型時間周波数分析および処理により、マイクアレイ付きの任意のデバイス（例えば、ノキアＯＺＯまたは携帯電話）から高感知品質空間オーディオ再生を実現する技術を指す。水平面におけるＳＰＡＣキャプチャには、少なくとも３つのマイクが必要で、３Ｄキャプチャには、少なくとも４つのマイクが必要である。ＳＰＡＣ方法は適応型である。言い換えると、従来の最先端線形キャプチャ技術から空間的精度を向上する非線形手法が用いられる。

デバイスが非対称形であると（例えば、その寸法（長さ、幅、高さ等）の内の少なくとも２つが互いに大きく異なる場合）、線形キャプチャや従来のパラメトリック空間キャプチャにおいて問題が生じる。主要な課題は、デバイスが非対称構成であることにより、「短」空間軸が生じる点である。この「短」空間軸により、マイクの配置がたとえ最適化されていたとしても、マイク間の差分情報が非常に小さくなる。

例えば、典型的な形態の指向性オーディオ符号化（ＤｉｒＡＣ）技術により、推定音場強度ベクトルに基づいて、指向性推定を生成する。この強度ベクトルは、中間球面高調波信号表現から推定される。中間球面高調波信号表現における信号は、マイク信号間の差に基づいて生成される。差分情報の振幅は「短」軸において小さいため、当該軸における、球面高調波信号を得るための処理係数（または乗数）は、小さい振幅を補う必要がある。言い換えると、「短」軸の増幅のため、大きな乗数となる。小振幅を増幅するための大きな乗数または係数は、ノイズをも増幅してしまう。したがって、従来手法では、「短」軸での高ノイズ指向性推定による「誤差」が生じてしまう。

例えば、音源が単一の未処理の音場では、指向性推定におけるノイズは、該メタデータを使用して再生される音が、その位置で正確に特定不能でありうることを意味する。そのような例では、音が「埋もれており」、せいぜいおおよそ正しい方向から到達しているとしか知覚されない。言い換えると、再生された音声により、単一の音源が点音源として示されない可能性がある。

指向性推定変動による効果は、例えば、図１に示すものとなりうる。図１は、例えば、「短」寸法が表裏方向である例示的非対称装置９１と、「短」寸法と同方向の「高ノイズ」軸９３からノイズが受信されることを示している。例えばラウドスピーカマーク９５で示す音声のような、「短」寸法に対して主に直交する任意の到来音は、あらゆるノイズ源から影響を特に受けやすい。その結果、取得音声に関連する空間メタデータを判定する際に、パラメータ推定誤差が強調される。これを、例えば推定指向性パラメータに対する、「高ノイズ」軸９３上のノイズの大きな影響を示す、破線９７、９９で図１に表されている。

したがって、あらゆる非対称または不規則形状の装置に対応可能な空間メタデータ分析方法が必要なのである。

以下の説明では、装置は所定の形状を有する。所定の形状とは、装置の物理的形状または寸法、あるいは装置上または装置内に配置されたマイクの物理的配列を示しうる。ある実施形態において、前記装置の物理的形状が非対称ではないが、装置におけるマイクの配置は非対称である。

キャプチャデバイスの形状に適用したパラメトリック空間オーディオキャプチャの実施の概念を以下に説明する。該当するキャプチャデバイスは、小さなマイク間隔寸法を特徴とする。典型例としては、デバイスの少なくとも１つの寸法が該当する全ての軸について、マイクの妥当な空間的分離の選択肢を限定するような、スマートフォン、タブレット、携帯ＶＲカメラが挙げられる。上述のように、このような条件では空間オーディオキャプチャの典型的なパラメトリック技術は上手く機能しない。例えば、ＤｉｒＡＣ（およびその変形、例えば高次例えば、ＤｉｒＡＣ）と、Ｈａｒｐｅｘは、中間Ｂ−フォーマット（より一般的な名称として、球面高調波）信号表現を利用する。ほぼ平坦のデバイスでも球面高調波信号表現を実現することは理論上可能である。ただし、マイク距離により、１つの軸の球面高調波信号でＳＮＲが極めて低くなってしまう。このノイズにより、当該軸での空間分析が不安定となる。

パラメトリックキャプチャの追加的な特性として、中間球面高調波（あるいは同様の）表現を使用したあらゆる技術では、空間エイリアシング周波数未満の空間再生のみが可能であることが挙げられる。マイク間隔に対して、オーディオ波長が小さすぎるため、この周波数を越えると、球面高調波信号が生成できないのである。ＯＺＯ等の球形デバイスを使用すれば、空間エイリアシング周波数超では、音響陰影情報を利用して指向性情報を判断できる。しかし、音響陰影が全軸で強調されておらず、ユーザがどのように装置を持っているかによっても変動しうる、携帯電話のような装置では、音響陰影情報は信頼性が低くなる場合がある。本明細書に記載の例のさらなる利点として、空間エイリアシング周波数よりも高くても低くても機能することが挙げられる。

上述の概念は、ある実施形態において、３つ以上のマイクを備えるデバイス内に実施されてもよい。少なくとも３つのマイクがあれば、水平サラウンドメタデータが分析できる。少なくとも４つのマイクがあれば、高さメタデータもさらに分析できる。空間メタデータは、デバイスまたは装置が直接利用できる情報であってもよいし、レシーバデバイスに送信されてもよい。装置（例えば、空間メタデータを受信する装置）は、マイク位置および／またはキャプチャ装置の寸法を把握せずに、空間メタデータおよびオーディオ信号（元のマイク信号と異なりうる）を使用して、所望の出力を合成して、例えばヘッドホンまたはラウドスピーカから出力する空間音を合成する。例えば、キャプチャデバイスはいくつかのマイクを有しながら、チャネルの内の２つのみを記憶／送信するか、送信用にいくつかのチャネルを線形または適応的に合成するか、あるいは空間メタデータとともにオーディオ信号を送る前にチャネルを処理（イコライザー処理、ノイズ除去、ダイナミックプロセッシング等）してもよい。これらは、空間メタデータ（および、ある実施形態においては、頭部向き等のさらなる入力）を使用してオーディオ信号を処理し、合成された音響出力信号（複数可）を決定するさらなる装置により受信されてもよい。

本明細書に記載の実施形態の共通要素として、空間メタデータと、同一または同様の音場から何らかの方法で発生したいくつかのオーディオ信号が、合成段階で利用される（直接利用されてもよいし、送信／記憶／符号化等の後に利用されてもよい）ことが挙げられる。

本明細書に記載の実施形態に関連する中心的概念として、キャプチャデバイスは、典型的には周波数帯において、不確定（前後としても知られる）指向性オーディオ分析のみを実行するために選択されたキャプチャ軸を少なくとも１つ有するように構成される。このキャプチャ軸は、当該軸に沿った到来平面波からの、マイクにより生成されたオーディオ信号間の遅延が、別のキャプチャ軸を画定するマイクにより生成されたオーディオ信号間の最大遅延よりも小さい値となるものである。当該軸の例を、図２ａに示す。

図２ａは、「短」寸法軸２０３を有する例示的デバイス２０１を示す。デバイス２０１の「短」軸２０３（例えば、タブレットデバイスの厚さ方向）において、マイク間隔は、別の軸よりもかなり小さい。本明細書に記載の実施形態においては、この「短」寸法軸２０３は、不確定方向分析のみに使用される。したがって、任意選択された「短」寸法軸によって、正確な空間情報を生成する際に、低品質な空間メタデータが生成されてしまうことが防止される一方で、ロバストな不確定方向選択空間情報（例えば当該軸に関して、音が前方から到来するか、後方から到来するか）が生成可能となる。例えば音がデバイスの一方または他方から到来する場合、不確定方向選択は二者択一であってもよい。不確定方向選択において、３つ以上の選択肢があってもよい。ただし、不確定方向選択は、「肉厚方向」軸での、遅延またはその他の信号分析に基づくその他の分析から得られた精密な角度判定パラメータと比較して、より「選択」という意味合いが強いパラメータである。

図２ｂに示すように、例示的装置またはデバイス２０１は、４つのマイクを備えてもよい。図２ｂに示すマイクの配置は、本発明の概念を示すためのマイクの配置の単に一例であり、これらのマイクが任意の適切な分配で配置されてもよいことが理解されよう。図２ｂに示す例では、３つのマイクがデバイスの「前方」に設けられ、１つのマイクがデバイス２０１の「後方」に設けられている。さらに、第１の「前方」マイク２１１はデバイス２０１の１つの角部に設けられてもよく、第２の「前方」マイク２１３はデバイス２０１の隣接する角部に設けられてもよく、第３の「前方」マイク２１５はデバイス２０１の第１のマイク２１１と第２のマイク２１３との間の辺の反対側の辺の中間に設けられてもよい。図２ｂに示す「後方」マイク２１７は、第１の「前方」マイクと同じ角部であるが、第１の「前方」マイク２１１とは反対の面に設けられる。「前方」および「後方」という語は、装置のユーザに対して相対的な用語であり、これらは単なる例として選択されるものであることが理解されよう。

例示的デバイス２０１上のマイクの配置は、デバイスの前方への到来音２０２が、「前方」マイク、すなわち第１から第３のマイクによりそれぞれ、第１から第３のオーディオ信号として取得されるものである。その後、第１から第３のオーディオ信号を分析することで、空間メタデータが生成されてもよい。ある実施形態において、マイクの配置寸法またはマイク位置により、オーディオ信号に実行される分析の種類が選択可能となる。例えば、マイク２１１および２１５（あるいはマイク２１１および２１３、あるいはマイク２１３および２１５）の距離がロバストに分析可能となる（例えば指向性分析、したがってデバイス２０１に対する到来音２０２の方向が、オーディオ信号遅延分析により判定可能となる）ようなものである。一方で、マイク２１１および２１７の距離は、不確定指向性（例えば前後）判定分析が実行可能となるようなものである。

ある実施形態において、空間メタデータは、少なくとも１つのマイク対オーディオ信号の分析から判定可能な、少なくとも１つの音声特徴（方向以外）を含む。例えば、ある実施形態において、互いの距離が最大のマイク対の、相互相関分析を実行して、エネルギー比パラメータを判定できる。当該パラメータは、当該周波数帯において、デバイスが取得した全ての音エネルギーに対して判定された「音源」方向から到来する音エネルギーの推定部分を示す。ある実施形態においては、音エネルギーのその他の部分は無指向性（例えば反響音エネルギー）と判定されてもよい。

音方向等の空間メタデータと、周波数帯におけるエネルギー比は、取得音の知覚的に関連する空間情報を表すパラメータである。これは、知覚的に、高品質空間オーディオ合成を実行するために利用可能である。デバイスの肉薄方向軸において不確定指向性選択のみを行い、デバイスのその他の軸（複数可）において大部分の空間情報を判定する手法によると、極めて対称性が低いデバイスを利用しても、この一般化された空間情報を取得できる。空間オーディオプレーヤ（例えば、欧州特許出願第ＥＰ２６１７０３１Ａ１号に記載のプレーヤ）が、再生中に空間情報を使用して、キャプチャデバイスサイズまたはマイク位置に対する詳細の知識なしに、適切な空間オーディオ信号（両耳用、マルチチャネル）を合成できる。

図３に示す例示的デバイス３００では、３つのマイクが、上述のように少なくとも１つの軸でマイク配置が制限されるようなデバイスに配置されている。例えば、例示的デバイス３００は、２つの「前方」側マイクである第１マイク３０１および第３マイク３０５と、１つの「後方」側マイクである第２マイク３０３を有する携帯デバイスを表す。デバイスの形状としては、その「短」軸に沿った距離「ｃ」３１３により、第１マイク３０１と第２マイク３０３との距離が定義され、その「長」軸に沿った距離「ａ」３１１により、第１マイク３０１と第３マイク３０５との距離が定義されるものである。第２マイク３０３と第３マイク３０５との間の距離は、デバイスの「短」軸および「長」軸に対して対角線方向の距離「ｂ」３１５で定義される。すなわち、距離「ａ」３１１と、距離「ｃ」３１３との差が大きい。

ある実施形態において、空間メタデータを判定するために、マイクからのオーディオ信号に分析を実行する際、「短」軸で離間したマイクである第１マイク３０１および第２マイク３０３（したがって、マイクにより生成されたオーディオ信号）が選択されて、これらオーディオ信号に不確定指向性または「前後」分析のみが実行されるようにする。例えば、第１マイク３０１および第２マイク３０３からのオーディオ信号間の遅延分析の場合、音に関連した指向性情報を判定する際に、高ノイズ出力値が得られる。一方で、同じ遅延分析でも、「前後」不確定指向性情報を提供し、第１マイク３０１または第２マイク３０３のどちらに先に音が到来するかを、ある程度ロバストに推定できる。

「長」軸で離間したマイクである第１マイク３０１および第３マイク３０５（したがって、マイクにより生成されたオーディオ信号）は、マイク間距離が比較的大きい対（距離ａで離間）を形成しうる。したがって、第１マイク３０１および第３マイク３０５の対は、よりロバストに、空間方向情報を検出するのに使用できる。例えば、第１マイク３０１および第３マイク３０５との間の遅延分析により、水平面における到来音の方向を推定可能となる。

方向検出分析の対として、２つのマイク（第１マイク３０１および第３マイク３０５）のみが使用されるため、方向分析の結果は不確定となる。同じ遅延情報を、略（または正確な）鏡面対称角（マイク配置やデバイスの音響特性に依存する）において、デバイスの「表」側あるいは、「後ろ」または「裏」側から音源の音が到来する状況のために取得してもよい。この不確定性は、第１マイク３０１および第２マイク３０３の「短」距離対からの前後情報を使用して解消できる。

図４はさらに、４つのマイクを有する例示的デバイスを示す。図４には、このさらなる例示的デバイスの「後方」または「裏」面の全体を示す。「後方」面において、１つの角部に第３マイク４０５が配置され、その中央にディスプレイ４１１が配置される。「後方」面には、デバイスの長さおよび幅に対応する２つの「長」軸が示されている。反対側の、デバイス４００の「前方」面では、カメラ４１３が破線で示される。デバイス４００の「前方」面にはさらに、第３マイク４０５の反対側に、第１マイク４０１が配置される。この構成では、第１マイク４０１と第３マイク４０５との間の距離がデバイスの厚さ（デバイス４００の「短」軸とされる）である。「前方」面において、上記角部からデバイス幅方向に隣接する角部に、第２マイク４０３が配置される。さらに「前方」面において、上記角部sからデバイス高さ方向に隣接する角部に、第４マイク４０７が配置される。この例示的デバイスにおいて、４つのマイクを使用し、さらに指向性空間メタデータ判定を行うことで、高さ指向性情報についても判定可能となる。

この例示的デバイスにおいて、高さおよび幅軸よりも、厚さ軸４２１においてマイク間隔が狭い。この構成では、第１マイク４０１および第３マイク４０５のマイク対からのオーディオ信号が、上述のように不確定指向性前後分析のみを目的とした遅延分析に使用される。

図５は、ある実施形態に実施するに適した、図４に示す例示的オーディオキャプチャ装置またはデバイスの内部構成要素の例を示す。オーディオキャプチャ装置４００は、複数のマイク（マイクアレイ内のマイクとして定義されてもよい）を備える。図５に示す例のマイクアレイには、図４に示すのと同様に配列されたマイク４０１〜４０７が示されている。

マイク４０１、４０３、４０５、４０７は、音波を適切な電気オーディオ信号に変換するように構成されたものとして示される。ある実施形態において、マイクはオーディオ信号を取得して、適切なデジタル信号を出力可能である。別の実施形態では、マイクまたはマイクアレイは、任意の適切なマイクまたはオーディオキャプチャ手段を含みうる。その例としては、コンデンサマイク、キャパシタマイク、静電マイク、エレクトレットコンデンサマイク、ダイナミックマイク、リボンマイク、カーボンマイク、圧電マイク、または微小電気機械システム（Microelectrical-Mechanical System：ＭＥＭＳ）マイクが挙げられる。これらのマイクは、ある実施形態において、オーディオキャプチャされた信号をＡ／Ｄコンバータ（ＡＤＣ）１０３に出力可能である。

オーディオキャプチャ装置４００は、Ａ／Ｄコンバータ１０３をさらに備えてもよい。Ａ／Ｄコンバータ１０３は、各マイクからのオーディオ信号を受信し、それを処理に適した形式に変換するように構成されてもよい。ある実施形態において、マイクはＡＳＩＣを備えてもよく、この場合、各マイクにおいてＡ／Ｄ変換が行われてもよい。Ａ／Ｄコンバータ１０３は、任意の適切なＡ／Ｄ変換または処理手段でありうる。Ａ／Ｄコンバータ１０３は、オーディオ信号のデジタル表現を、プロセッサ１０７またはメモリ１１１に出力するように構成されてもよい。

オーディオキャプチャ装置４００の電子機器として、少なくとも１つのプロセッサまたはＣＰＵ１０７をさらに備えうる。プロセッサ１０７は、各種プログラムコードを実行するように構成できる。実行されるプログラムコードとしては、例えば、信号遅延分析、空間メタデータ処理、信号ミキシング、位相処理、振幅処理、非相関、中間信号生成、サイド信号生成、時間対周波数領域オーディオ信号変換、周波数対時間領域オーディオ信号変換、およびその他のアルゴリズムによるルーチンが挙げられる。

オーディオキャプチャ装置は、メモリ１１１をさらに備えうる。少なくとも１つのプロセッサ１０７がメモリ１１１に接続されうる。メモリ１１１は、任意の適切な記憶手段でありうる。メモリ１１１は、プロセッサ１０７で実行可能なプログラムコードを記憶するためのプログラムコード部を備えうる。さらに、メモリ１１１は、データ（例えば、処理済みデータまたは処理対象データ）を記憶するための記憶データ部をさらに備えうる。プログラムコード部内に記憶された、実行されたプログラムコードと、記憶データ部内に記憶されたデータとは、必要に応じてプロセッサ１０７によってメモリ−プロセッサ接続を介して取得されうる。

オーディオキャプチャ装置は、ユーザインタフェース１０５をさらに備えうる。ユーザインタフェース１０５は、ある実施形態において、プロセッサ（ＣＰＵ）１０７に接続可能である。ある実施形態において、プロセッサ１０７は、ユーザインタフェース１０５の動作を制御して、ユーザインタフェース１０５からの入力を受信可能である。ある実施形態において、ユーザインタフェース１０５はユーザに、例えばキーパッドを介してオーディオキャプチャ装置４００に対してコマンドを入力可能とする。ある実施形態において、ユーザインタフェース１０５はユーザに、装置４００からの情報を取得可能とする。例えば、ユーザインタフェース１０５は、装置４００からの情報をユーザに表示するように構成されたディスプレイを備えてもよい。ユーザインタフェース１０５は、ある実施形態において、タッチスクリーンまたはタッチインタフェースを備えてもよく、これらは装置４００への情報の入力と、装置４００のユーザへの情報の表示の両方を実現可能である。

実施形態によっては、オーディオキャプチャ装置４００は送受信部１０９を備える。当該実施形態において、送受信部１０９はプロセッサ１０７に接続されて、別の装置または電子デバイスと、例えば無線または固定回線通信ネットワークを介して通信可能とするように構成されうる。送受信部１０９または任意の適切な送受信部または送信および／または受信手段は、ある実施形態において、無線または有線接続を介して別の電子デバイスまたは装置と通信するように構成可能である。

送受信部１０９は別の装置と、任意の適切な公知の通信プロトコルによって通信可能である。例えばある実施形態において、送受信部１０９または送受信手段は、好適なユニバーサル移動体通信システム（Universal Mobile Telecommunications System：ＵＭＴＳ）プロトコル、例えばＩＥＥＥ８０２．Ｘ等の無線ローカルエリアネットワーク（Wireless Local Area Network：ＷＬＡＮ）プロトコル、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の好適な短距離無線周波数通信プロトコル、または赤外線データ通信経路（Infrared Data communication pathway：ＩＲＤＡ）を用いうる。

オーディオキャプチャ装置４００は、Ｄ／Ａコンバータ１１３をさらに備えてもよい。Ｄ／Ａコンバータ１１３は、プロセッサ１０７および／またはメモリ１１１に接続されて、（例えばプロセッサ１０７からの）オーディオ信号のデジタル表現を、オーディオサブシステム出力を介して提供するのに適した適切なアナログ形式に変換するように構成されてもよい。Ｄ／Ａコンバータ（ＤＡＣ）１１３または信号処理手段は、ある実施形態において、任意の適切なＤＡＣ技術でありうる。

さらにオーディオサブシステムは、ある実施形態において、オーディオサブシステム出力１１５をさらに備えうる。図５に示すような一例として、スピーカ１３１_１および１３１_２の対であってもよい。スピーカ１３１は、ある実施形態において、Ｄ／Ａコンバータ１１３からの出力を受信し、アナログオーディオ信号をユーザに届けるように構成可能である。ある実施形態において、スピーカ１３１は、例えばイヤフォンまたはコードレスイヤフォンのセットといったヘッドセットとして実施しうる。

さらにオーディオキャプチャ装置４００は、複数の到来音が存在するような環境または音響シーンで動作するように示される。図５に示す例では、環境は、第１の位置で話す人のような発声音源の第１の音１５１を含む。図５に示す環境はさらに、第２の位置でのトランペット演奏のような、楽器音源の第２の音１５３を含む。第１および第２の音１５１および１５３に対応する第１および第２の位置は、それぞれ異なっていてもよい。さらに、ある実施形態において、第１および第２の音は、異なるスペクトル特性のオーディオ信号を生成するものであってもよい。

オーディオキャプチャ装置４００は、オーディオキャプチャ構成要素、オーディオ提供構成要素の両方を有するように示されているが、装置４００はマイク（オーディオキャプチャ用）のみが存在するように、オーディオキャプチャ要素のみを有するものであってもよい。同様に、以下の例では、オーディオキャプチャ装置４００は後述する空間オーディオ信号処理の実行に適するように説明される。オーディオキャプチャ構成要素と、空間信号処理構成要素とは、互いに個別の要素であってもよい。言い換えると、オーディオ信号は、マイクアレイと適切な送信機を備える第１の装置により取得されてもよい。その後オーディオ信号は、受信機、プロセッサ、メモリを備える第２の装置にて受信され、本明細書に記載のとおりに処理されてもよい。

図６は、複数のマイクからの信号を処理して、２つのチャネルで信号を出力する処理を示す概略的ブロック図である。その他の複数マイクチャネル再生も可能である。マイクからの入力に加え、は頭部向きについての入力も使用可能である。

音声取得、処理、および再生のために、構成要素は様々な異なる配置を取りうる。

可能な一態様として、破線の左側は全てキャプチャデバイスにて実施され、破線の右側は全て視覚／聴覚デバイス（例えば、ヘッドホン付きＨＭＤ、タブレット、携帯電話、ノートパソコン等）で実施される。オーディオ信号および指向性メタデータは、符号化／記憶／ストリーミング／視覚デバイスへの送信が可能である。ある実施形態において、装置は空間メタデータとともに送信される、ステレオトラックまたはその他１つまたは複数のチャネルオーディオトラックを生成するように構成される。ある実施形態において、ステレオトラック（またはその他）は、マイク信号の組合せまたはサブセットであってもよい。図６には示さないが、ある実施形態において、オーディオトラックは、送信または記憶用に、例えばＡＡＣにより符号化されてもよく、方向分析部６０３からの空間メタデータは、ＡＡＣメタデータに埋め込まれてもよい。ＡＡＣ（またはその他）オーディオと、空間メタデータも、ｍｐ４コンテナのようなメディアコンテナに組み合わされてもよい。当該メディアコンテナは、ビデオトラックおよびその他の情報を含みうるものである。図６では不図示だが、ＡＡＣやｍｐ４ストリーム等である、送信された符号化オーディオおよびメタデータは、復号機側で復号されて、空間シンセサイザー６０７により処理されてもよい。上述の処理では、正逆フィルタバンクおよび正逆修正離散コサイン変換（Modified Discrete Cosine Transform：ＭＤＣＴ）のような、異なる様々なフィルタバンクや、オーディオ／ビデオ符号化、多重化、送信、分離、復号に一般的に利用される必要な処理が使用されうる。

装置、あるいはより具体的には空間シンセサイザー６０７のいくつかの最適な実施形態として、オーディオの直接音部分と、周囲音部分やその他任意の信号構成要素を空間合成用に分離して、個別に処理されるように構成されてもよい。別の実施形態では、直接音部分と、周囲音部分やその他任意の信号構成要素は、例えば適応型信号ミキシングや相関除去を利用した単一の包括的工程により、オーディオ信号から合成されてもよい。言い換えると、空間メタデータに応じた音声を処理して、所望の空間オーディオ出力を取得する様々な手段が存在する。

図３から５に示すようなデバイスであるキャプチャデバイスにおいて、全ての処理が実行されうる。キャプチャデバイスは、取得されたメディアを視聴するための、ディスプレイおよびヘッドホンコネクタ／スピーカを備えうる。オーディオ信号および指向性情報、あるいはオーディオ信号および指向性情報に応じた処理済みオーディオ出力は、符号化／キャプチャデバイスでの記憶が可能である。

キャプチャデバイスは例えば、複数のマイク信号を受信し、変換領域信号を空間シンセサイザー６０７および方向分析部６０３に出力するように構成されたフィルタバンク６０１を備える。フィルタバンクは、短時間フーリエ変換（Short Time Fourier Transform：ＳＴＦＴ）または複合ＱＭＦバンクのような、任意の適切な形態のフィルタバンクであってもよい。方向分析部６０３は、フィルタバンクからオーディオ信号を受信し、本明細書に記載のように遅延分析を実行して、音響シーンに関連した空間メタデータを判定するように構成されてもよい。この情報は、空間シンセサイザー６０７および方向回転部６０５に送られてもよい。ある実施形態において、キャプチャデバイスは、方向回転部６０５のような空間的プロセッサを備える。この方向回転部は、方向分析部６０３内で判定された指向性情報を受信し、頭部向き入力に基づいて、方向を「動かす」ように構成されてもよい。頭部向き入力は、ユーザが見ている方向を示しうるもので、ＨＭＤ内のヘッドトラッカー、または携帯電話、タブレット、ノートパソコン等における加速度計／マウス／タッチスクリーンを使用して検出されうる。

出力された「動かされた」空間メタデータは、空間シンセサイザー６０７に送られてもよい。空間シンセサイザー６０７は、フィルタバンク６０１からオーディオ信号を、方向分析部６０３および方向回転部６０５から空間メタデータを受信して、適切なオーディオ信号を生成または合成するように構成されてもよい。

出力信号は、何らかの形態（例えば符号化／記憶／ストリーミング／送信）により、視覚デバイスに送ることができる。

全ての処理は、視覚デバイスで実施されうる。上述のマイク信号は、図６に示す処理を実行する視覚デバイスに符号化／記憶／ストリーミング／送信される。逆フィルタバンク６０９の出力は、スピーカ／ヘッドホン／イヤフォン等の任意の適切な出力手段により出力されるように構成されてもよい。

図７のフローチャートにより、図６に示す方向分析部６０３、より大きな概念としては例示的なキャプチャまたは処理デバイス内に設けられる空間メタデータ分析部の動作をより詳細に説明する。

デバイス（ある実施形態においては空間メタデータ分析部／方向分析部）は、「肉薄方向」軸に関して、第１のマイク配置を選択したものとして示されている。第１のマイク配置は、実質的にある寸法または軸を画定する一対または３つ以上のマイクでありうる。ある実施形態において、デバイスは寸法または軸を選択し、この選択された寸法または軸から、後の分析に使用するマイクオーディオ信号を決定する。例えば、寸法または軸としては、２つのマイクが整列していないものが選択されうる。よって、オーディオ信号を合成することで、「合成」マイクが得られうる。

ある実施形態において、選択マイク間の遅延群の推定が行われてもよい。不確定指向性、すなわち「前後」の判定に、複数の対からの遅延情報が用いられてもよい。不確定指向性判定のために、複数の遅延推定を組み合わせる際のルールとしては、ヒューリスティック（人が調整した数式を使用）であってもよいし、デバイスからの測定データに基づく最適化（例えば最小二乗法最適化アルゴリズム）により行われてもよい。

選択マイク配置からのオーディオ信号間の遅延情報は、第１の空間メタデータ部分を判定するために使用されるように構成されてもよい。例えば、ある実施形態において第１の空間メタデータ部分は不確定指向性分析（前後判定等）であってもよい。

肉薄方向軸と、関連するマイク配置を選択し、選択したマイク配置によるオーディオ信号からの遅延情報を、不確定指向性情報の判定のみに使用する動作を、図７のステップ７０１に示す。

デバイス（ある実施形態においては空間メタデータ分析部／方向分析部）は、さらなるマイク配置を選択するように示されている。さらなるマイク配置は、「肉薄方向」軸以外の寸法または軸（すなわち「肉厚方向軸」または「肉厚方向寸法」）を実質的に画定するさらなるマイク対または３つ以上のマイクによるものであってもよい。

ある実施形態において、このさらに選択されるものは、「肉薄方向」軸以外の全てのマイク軸または寸法でありうる。

さらなる選択によるオーディオ信号間の遅延情報は、第２の空間メタデータ部分を判定するために使用されるように構成されてもよい。例えばある実施形態において、第２の空間メタデータ部分はロバストな指向性推定であってもよい。さらにある実施形態において、第１の空間メタデータ部分は、不確定指向性の用指向性推定（前後判定等）をさらに含んでもよい。

さらなるマイクを選択し、選択されたマイクオーディオ信号からの遅延情報を使用する動作を、図７のステップ７０３に示す。

その後システムは、第１および第２の空間メタデータ部分を合成して、ロバストなメタデータ出力を生成するようにしてもよい。例えば、さらなる配置によるマイクオーディオ信号からの指向性情報と、第１の配置によるマイクオーディオ信号からの不確定指向性検出とにより、ロバスト、すなわち確定的な指向性結果が生成されてもよい。

図７の例では、第１および第２の選択が実現されるマイクシステムが示されるが、これを、例えば例示的垂直および水平面を画定するさらなる選択に拡張してもよい。

第１および第２の空間メタデータ部分から出力された合成空間メタデータを判定する動作を、図７のステップ７０５に示す。

図８に、実施形態において使用される、遅延分析の第１の例を示す。以下の例では、遅延分析が、オーディオ信号の単一周波数帯に実行される。帯域単位で分析実行されるある実施形態においては、これらの動作は帯域単位で実行されてもよい。

ある実施形態において、デバイス（ある実施形態においては空間メタデータ分析部／方向分析部）は、マイク対により生成されたオーディオ信号間の遅延を判定する「探索」方法を適用するように構成されてもよい。この「探索」方法では、一組の異なる遅延となるマイク対により取得されたオーディオ信号の相互相関積が判定される。最大相互相関となる遅延が、推定遅延として選択される。

これは、例えば以下のとおりに実施される。ただし、ある実施形態においては、最大相互相関となる遅延を判断するのに任意の適切な探索方法を利用してもよい。

まず、遅延範囲が判定される。この遅延範囲は、正および負の遅延を含んでもよい。

遅延範囲を判定する動作を、図８のステップ８０１に示す。

その後、この遅延範囲から遅延が選択される。

遅延範囲から遅延を選択する動作を、図８のステップ８０３に示す。

その遅延をマイクオーディオ信号の１つに適用する。遅延の適用は、周波数領域の位相の調整として実施されてもよい。これは遅延調整に近いものである。

遅延をマイクオーディオ信号の１つに適用する動作を、図８のステップ８０５として示す。

非遅延マイクオーディオ信号と、遅延マイクオーディオ信号とに対して、相互相関積が判定される。

一対のオーディオ信号に対して相互相関積を判定する動作を、図８のステップ８０７として示す。

この方法ではその後、全ての遅延が選択されたか確認、判定される。遅延範囲内に遅延が残っている場合、方法はステップ８０３に戻り、さらなる遅延値が遅延範囲から選択される。

全ての遅延が選択されたかを確認する動作を、図８のステップ８０９として示す。

範囲内の全ての遅延が選択された場合、最大相互相関積値を実現する遅延が、遅延情報値として選択される。

最大相互相関積値を選択する動作を、図８のステップ８１１に示す。

遅延情報判定のさらなる例として、遅延情報値を判定するための位相導関数方法が挙げられる。この位相導関数方法では、マイク間の遅延が判定され、これはマイク間の位相差の周波数の導関数に対応する。したがって、この位相導関数を推定することで、推定遅延が得られる。

別の実施形態では、選択されたマイクオーディオ信号の対間の遅延情報を判定する任意の適切な方法を実施して、遅延情報を取得してもよい。

ある実施形態において、遅延情報を判定して、この遅延情報を利用して、空間メタデータを判定してもよい。

例えば、図３に示す３つのマイクによるデバイスの例では、選択された一対の第１マイク３０１および第３マイク３０５が十分に空間的に離間していることで、遅延情報を以下のようにして指向性または角度情報を判定するように使用されうる。具体的には、まず遅延パラメータを最大−遅延パラメータ（マイク対間のマイク距離と、音速に基づいて数式化）で正規化して、−１と１の間に限定された正規化遅延ｄ_ｎｏｒｍを得る。最大正規化遅延は、一対のマイクにより画定された軸から音声が到来することで得られる。さらに、角度情報が例えばａｃｏｓ（ｄ_ｎｏｒｍ）によって得られてもよい。

同じく図３に示すデバイスについて、選択された一対の第１マイク３０１および第２マイク３０３は、指向性分析が実行できるほど十分に空間的に離間してない可能性がある。それでも、この一対のマイクのオーディオ信号からの遅延情報により、不確定指向性判定（「前後」判定）が可能となりうる。すなわち、正規化された遅延パラメータの正負符号により判定可能となるのである。このように、前後情報と角度情報とを組み合わせることで、水平面における到来音の方向が得られる。

ある実施形態において、方向以外の空間メタデータ特性を判定してもよい。例えば、分析された方向から到来した音エネルギーの割合を示す比率パラメータを、マイクオーディオ信号間で計算された一貫性パラメータから判定してもよい。指向性音のみが、マイク間で一貫性を有する（遅延は異なりうる）。無指向性音は、いくつかの周波数では一貫性がなく、より低い周波数では部分的に一貫性を実現しうる。したがって、相関分析により、分析音の比率パラメータが得られる。

本明細書に記載の実施形態では、肉薄方向軸および非肉薄方向軸で選択されたマイク配置によるオーディオ信号に対して相関判定が実施されてもよい。比率パラメータ判定は、非肉薄方向軸で選択されたマイク配置によるオーディオ信号に対する相関判定を使用して、特に好ましく実施される。これは、より大きい距離を隔てた一対のマイクは、指向性音および非指向性音との相関間の差が大きくなるためである。ある実施形態において、チャネル１およびチャネル３間の正規化複素数相互相関をＣ_１３で表す。

式中、Ｅ［］は、典型的には平均または和をとることで実現される期待値演算子を示し、アステリスクは複素共益を示す。オーディオ信号ｘは、複素数周波数帯信号であって、添え字は、オーディオ信号のマイク音源を示す。

例えば指向性推定の安定性を利用するような、その他方法により、直接エネルギーの全体に対する比率（等）を推定してもよい。

４つのマイクを有する図４のデバイスの場合、さらに高さ指向性情報を判定可能である。上述のように、デバイスの厚み方向が、高さまたは幅軸とは異なる、「肉薄方向」軸マイク間隔を画定する。したがって、厚さ方向軸にのみ離間した任意のマイク配置が、不確定指向性空間メタデータ（例えば「前後」分析）の判定のみに適するように選択される。

したがって、例えば図４では、「肉薄方向」軸で離間した第１マイク４０１および第３マイク４０５のマイク対は、「不確定指向性」マイク配置として選択される。これら選択されたマイクからのオーディオ信号に対するあらゆる分析は、「不確定指向性」分析となる。「肉薄方向」軸の場合よりも互いに大きな距離を空けて離間した第１マイク４０１および第２マイク４０３（または第１マイク４０１および第４マイク４０７）のようなその他マイクを選択して、指向性（またはその他ロバストな）パラメータ判定のための遅延分析を実行してもよい。

したがって、第１マイク４０１、第２マイク４０３、第４マイク４０７を利用して、到来音の方向を検出できる。ただし、前後軸により定まるデバイスの両側のいずれから音が到来するかに関して、指向性の不確定性が伴う。この例では、マイク１および２の対と、マイク１および４の対とは、水平および垂直軸に完全に沿って配置されている。これは、簡潔に表現できる方向を推定する例示的方法を可能にする構成の例である。

この実施形態では、指向性情報は以下の数式を利用して、マイクオーディオ信号から判定できる。まず、全てのマイクオーディオチャネル間の遅延が判定されたと仮定して、ｄ_１がマイク１および２の対間の推定遅延として定義され、ｄ_２がマイク１および４の対間の推定遅延として定義され、ｄ_３がマイク１および３の対間の推定遅延として定義される。この例では、ｄ_３の正負符号から前後情報が推定可能である。

遅延から方向を判定する一つの方法として、ベクトル代数を利用することが挙げられる。例えば、単位ベクトルｖを、到来方向を示すように定義可能である。ロバストに推定された遅延ｄ_１およびｄ_２から、以下のように単位ベクトル軸１および２を判定してもよい。

式中、最大値は、該当する軸で生じうる最大遅延を示す。言い換えると、当該軸の方向で音が到来すると判定される遅延である。ｖの長さが１と定義されたことで、残る寸法が以下のとおりに得られる。

式中、最大演算子は、生じうる小推定誤差に対応するものであって、平方根内の数式により、負の値となりうるものである。ｄ_３の正負符号から不確定指向性判定、または当該軸における同様の不確定指向性判定が実現される。したがって、到来方向は、ベクトルｖの方向となる。ここで、推定方向がデバイスの反対側に鏡面対称となりうることを考慮し、ｖ_３の正負符号を選択するために前後パラメータが適用されている。

第１マイクおよび第２マイクは、大きく離れている（例えば、携帯デバイスでは４ｃｍ超離間する）ため、一貫性の検出に適する。この例では、第１マイクおよび第３マイクの対を除く任意の別の対が、一貫性分析に利用できる。さらに、数対間の複数のコヒーレンス分析も可能であり、比率パラメータ推定により当該コヒーレンス情報を統合できる。これにより、よりロバストな比率パラメータ推定を実現できる。

各周波数帯に対して個別に、方向、コヒーレンス、その他の音声特性を検出できる。本明細書に記載の空間メタデータは、指向性メタデータ、空間メタデータ、空間パラメータ情報等の名称で知られている。

不確定指向性（「前後」）分析のみのために、（デバイス形状およびマイク位置に基づいて）１つの軸を選択することの利点として、様々な本件技術を適用可能なデバイスが、正確な空間メタデータを判定可能となる。従来の方法の多くはこの判定に適さない。具体的には、本明細書に記載の方法により、少なくとも３つのマイクを有するスマートフォン、タブレット、またはその他同様のデバイスであって、当該デバイスの少なくとも１つの軸がその他の軸よりもかなり短いことが知られたデバイスによって、正確な空間メタデータが生成可能である。

例えば、デバイスの非対称性を考慮しない従来技術と比較して、本発明によると、デバイスの一方の側（例えば図２ｂに示す側）に、何も挟まずに存在する未処理の音源が、正確に取得されうる。従来技術の方法によると、「肉薄方向」軸で大きくなる「ノイズ」やその他誤差によって、指向性メタデータは大幅に変動しうる。このメタデータ変動により、空間再生が大きく影響される。

本明細書に記載の例では、マイク間の距離がわかっているが、ある実施形態においては、マイク間の距離はトレーニング手順を実現することで判定されてもよい。すなわち、デバイスが到来音をある方向範囲から「試験的に」取得し、遅延判定を利用して、マイク対間の最大遅延を発見し、マイク間の距離を定義するように構成される。

同様に、ある実施形態において、マイク間の実際の距離が判定されず、またはわかってもいない場合がある。その場合、現在マイクに生じている「最大」遅延に基づいて、マイク対を「不確定指向性」判定（「前後」判定等）のみに利用されうるのか、またはパラメータ値範囲（位置／向き、一貫性、または比率パラメータ）が判定されうる。当該実施形態では、遅延信号分析に基づいて「不確定指向性」を実行可能にするためのみに、マイク信号対を第１に選択してもよい。言い換えると、遅延の正負符号を利用して、不確定指向性判定を行うのである。しかし、最大遅延値が所定値（マイク対間に大きな空間的分離があることを示す）よりも大きい場合、選択されたマイク対を利用して、不確定指向性判定以上のものを判定してもよい。例えば、遅延値を利用して、空間メタデータ方向を判定してもよい。この最大値は、判定された最大遅延値でありうる。よって、マイク対が、現在のところ指向性メタデータの判定に、別のマイク対選択肢よりも適しているかを選択するものとなる。

空間音のパラメータ分析では、音モデルが、例えばある周波数帯における指向性音と周辺音と仮定されることが理解されたい。モデルパラメータ、すなわち空間メタデータを推定するようにアルゴリズムを組んだ。本明細書に記載の実施形態では、音モデルは、１つの空間軸での不確定指向性分析を利用して得られた、周波数帯の指向性パラメータと、その他の軸（複数可）でのその他の分析を含むものである。ある実施形態において、指向性パラメータ、またはその他メタデータは記憶、送信されることなく、分析され、空間合成に利用されて、その後破棄される。例えば、ある実施形態において、デバイスはマイクオーディオ信号を取得して、５．１チャネル出力を直接処理するように構成される。例えば、３０度左側のみに音源が存在する場合、システムはそれに応じて空間音モデルパラメータを推定し、音を当該方向のラウドスピーカ（複数可）に向ける。したがって、これにより、システムのある部分で空間メタデータ分析が実行され、空間的に正確な再生が可能となるが、この場合、空間メタデータは記憶も送信もされない。

ある実施形態において、メタデータは単にシステム内の一時的変数であって、合成のために直接適用される（例えばＨＲＴＦ選択、ラウドスピーカゲイン等）。これにより、空間音が生成される。これは、デバイスがキャプチャ／再生の両方を実行するように構成された場合の構成となる。したがって、この場合でもメタデータは推定されるが、どこにも記憶はされない。

ある実施形態において、キャプチャデバイスは、１つまたは複数のオーディオチャネル（マイクチャネルに基づく）と、分析されたメタデータを送信するように構成される。オーディオチャネルは、例えばＡＡＣにより符号化可能である。ＡＡＣによる符号化はＳＮＲ低下につながる（ただし知覚的マスキングにより、量子化ノイズは通常聴こえなくなる）。当該低下により、メタデータ分析精度も下がりうる。これがキャプチャデバイスで分析を実行するのが最適である理由の１つである。受信機は、オーディオとメタデータを取得し、例えば頭部追跡ヘッドホンまたはラウドスピーカに対して、空間的柔軟性を実現するように構成される。

ある実施形態において、デバイスはさらに、生のオーディオ波形をそのまま記憶してもよい。その場合、コンピュータソフトウェアのような別体によってメタデータ分析が行われる。例えば、携帯デバイスカメラ（１つまたは複数）と、マイクデータを、少なくとも１つのプロセッサのコードを実行するコンピュータにインポートし、そこでメタデータ分析、画像スティッチング等が全て実行される。このコードまたはソフトウェアは、どのデバイスが利用されているか知らされ、それに応じて自己設定を行う。

さらにある実施形態において、高ビットレートで符号化されたマイクチャネルを受信機に送り、そこでメタデータ分析および合成を実行してもよい。

パラメータ分析（すなわち、線形分析方法に対する改良）において、システムは空間パラメータ、すなわち空間メタデータを推定するように構成されるが、分析はシステム内の任意の適切な部分で実行されてもよい。例えば、ノキアＯＺＯデバイスのような仮想現実（Virtual Reality：ＶＲ）キャプチャデバイスの場合、分析および推定はコンピュータで実施されることが多く、携帯デバイスの場合は、当該デバイス自身で推定が実施されることが多い。

一般に、本発明の様々な実施形態が、ハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組合せで実装されてもよい。例えば、ある態様では、ハードウェアで実装されてもよく、一方別の態様では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。本発明の種々の態様は、ブロック図、フローチャート、または他の図的表現によって記述ないし図示されてもよい。本明細書に説明されるこれらのブロック、装置、システム、技術、または方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組合せで実装されてもよいと理解されるべきである。

本発明の実施形態は、プロセッサエンティティ内にあるような電子デバイスのデータプロセッサによって実行可能なコンピュータソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組合せによって実装されてもよい。またこの点に関して、添付する図面に示される論理フローの任意のブロックが、プログラムのステップや相互接続された論理回路・ブロック・機能、またはプログラムのステップ、論理回路・ブロック・機能の組合せを表現してもよいことに留意されたい。ソフトウェアは、メモリチップ等の物理メディアやプロセッサ内に実装されるメモリブロック、ハードディスクやフレキシブルディスク等の磁気メディア、ＤＶＤやそのデータ異形態であるＣＤ等の光学式メディアに格納されてもよい。

メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス、磁気メモリデバイス・システム、光学式メモリデバイス・システム、固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。データプロセッサは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ、特定用途向けコンピュータ、マイクロプロセッサ、デジタル信号プロセッサ（デジタル信号プロセッサ：ＤＳＰ）、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）、ゲートレベル回路、マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。

本発明の実施形態は、集積回路モジュールのような、様々な要素で実施されることもできる。集積回路の設計は多くは自動化されたプロセスである。論理レベルの設計を、半導体基板上にエッチング・形成するための半導体回路設計に変換する複雑で強力なソフトウェアツールが利用可能である。

カリフォルニア州マウンテンビューのＳｙｎｏｐｓｙｓ，Ｉｎｃや、カリフォルニア州サンノゼのＣａｄｅｎｃｅＤｅｓｉｇｎのような業者が提供するプログラムは、定評のある設計ルールと実績のある設計モジュールのライブラリに基づいて、半導体チップ上に導電経路や要素を配する。半導体回路の設計が完了すると、それは、ＯｐｕｓやＧＤＳＩＩ等の標準的な電子フォーマットの形で半導体製造設備または、いわゆるｆａｂに送られる。

前述の説明は、本発明の非限定的な実施例を十分かつ詳細に記述している。しかし、こうした前述の説明を、添付する図面および特許請求の範囲と併せて考慮すれば、種々の修正および変更が可能であることは、本願に関連する技術分野の当業者には明らかであろう。さらに、本発明が教示するこうした事項の全ておよび類似する変形は、添付の特許請求の範囲で定義されるように、その全てが本発明の範囲内にある。

Claims

所定の形状を有する装置であって、
前記装置上または装置内に位置する少なくとも３つのマイクと、
プロセッサと、を備え、
前記少なくとも３つのマイクの内の少なくとも一対は、前記所定の形状の少なくとも１つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した２つのマイクを備え、
前記プロセッサは、
前記少なくとも３つのマイクから、少なくとも３つのマイクオーディオ信号を受信し、
前記より短い距離だけ離間した２つのマイクからのマイクオーディオ信号を分析し、不確定指向性を判定し、
前記少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成され、
前記第１のマイク対と、前記少なくとも１つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも１つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した２つのマイクを備える、装置。
前記所定の形状は、前記装置の物理的形状である、請求項１に記載の装置。
前記装置の物理的形状の少なくとも１つの寸法が、前記装置の物理的形状のその他の寸法よりも短い、請求項２に記載の装置。
前記より短い距離だけ離間した２つのマイクは、前記装置の物理的形状の前記少なくとも１つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間する、請求項３に記載の装置。
前記所定の形状は、前記少なくとも３つのマイクの物理的配列である、請求項１に記載の装置。
前記より短い距離だけ離間した２つのマイクは、前記装置の物理的形状のその他の寸法よりも短い前記装置の物理的形状の少なくとも１つの寸法とは異なる寸法に沿って配置される、請求項５に記載の装置。
前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記少なくとも１つの別のマイク対からのマイクオーディオ信号を分析して、前記不確定指向性を判定するようにさらに構成される、請求項１から６のいずれかに記載の装置。
前記プロセッサは、
前記不確定指向性判定である、第１の空間メタデータ部分を判定し、
前記不確定指向性以外の、前記少なくとも１つの音特性である第２の空間メタデータ部分を判定し、
前記第１の空間メタデータ部分と、前記第２のメタデータ部分とを合成して、前記少なくとも３つのマイクオーディオ信号に関連付けられた空間メタデータを生成するように構成され、
前記第２のメタデータ部分は、前記第１のメタデータ部分よりも広範囲の値を含む、請求項１から７のいずれかに記載の装置。
前記少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、前記少なくとも１つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定するように構成される、請求項１から８のいずれかに記載の装置。
前記不確定指向性以外の前記少なくとも１つの音特性は、前記到来音の方向角であり、前記到来音の前記方向角は不確定値を有し、前記不確定指向性判定により、前記不確定値が確定される、請求項１から９のいずれかに記載の装置。
少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記到来音の前記方向角を判定するように構成された前記プロセッサは、
少なくとも１つの別のマイク対からの前記マイクオーディオ信号間の遅延値を判定し、
前記少なくとも１つの別のマイク対間の距離を移動する音波の遅延値に対して、前記遅延値を正規化し、
前記正規化された遅延値に三角関数を適用するか、前記正規化された遅延値をルックアップテーブル内で使用して、少なくとも２つの不確定方向角値を生成するように構成される、請求項１０に記載の装置。
前記正規化された遅延値に前記三角関数を適用して、前記少なくとも２つの不確定方向角値を生成するように構成された前記プロセッサは、前記正規化された遅延値に逆余弦関数を適用して、前記少なくとも２つの不確定方向角値を生成するように構成される、請求項１１に記載の装置。
前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性判定するように構成された前記プロセッサは、
前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号間の最大相関値に関連した遅延値の正負符号を判定するように構成され、
前記プロセッサは、前記遅延値の正負符号に基づいて、前記少なくとも２つの不確定方向角値を確定するようにさらに構成される、請求項１１または１２に記載の装置。
前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、
前記マイクオーディオ信号間の遅延値の範囲に対して、複数の相関値を判定し、
前記複数の相関値から、最大相関値を探索し、
前記遅延値の範囲から、前記最大相関値に関連する前記遅延値を選択するように構成される、請求項９、１１から１３のいずれかに記載の装置。
前記マイクオーディオ信号間の遅延値を判定するように構成された前記プロセッサは、
前記マイクオーディオ信号間の位相差の周波数の導関数を判定し、
前記位相差の周波数の前記導関数に基づいて、前記遅延値を判定するように構成される、請求項９、１１から１３のいずれかに記載の装置。
前記不確定指向性以外の前記少なくとも１つの音特性はさらに、前記到来音の前記方向角に関連するエネルギー比を含む、請求項１０から１５のいずれかに記載の装置。
前記不確定指向性以外の前記少なくとも１つの音特性はさらに、前記到来音の前記方向角に関連した一貫性を含む、請求項１０から１５のいずれかに記載の装置。
前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、周波数帯単位で、前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、前記不確定指向性を判定するように構成される、請求項１から１７のいずれかに記載の装置。
少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、周波数帯単位で、少なくとも１つの前記別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成される、請求項１から１８のいずれかに記載の装置。
前記少なくとも３つのマイクが４つのマイクを含み、
前記少なくとも３つのマイクから少なくとも３つのマイクオーディオ信号を受信するように構成された前記プロセッサは、前記４つのマイクから４つのマイクオーディオ信号を受信するように構成され、
少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定するように構成された前記プロセッサは、
少なくとも２つの別のマイク対からの前記マイクオーディオ信号を分析して、少なくとも２つの遅延を判定し、
前記少なくとも２つの遅延から、到来音の方位角および仰角方向を判定するように構成され、
少なくとも前記より短い距離だけ離間した２つのマイクからの前記マイクオーディオ信号を分析して、不確定指向性を判定するように構成された前記プロセッサは、前記判定された方位角および仰角方向に対して不確定指向性を判定するように構成される、請求項１から１９のいずれかに記載の装置。
所定の形状を有する装置であって、前記装置上または装置内に位置する少なくとも３つのマイクを備え、前記少なくとも３つのマイクの内の少なくとも一対が、前記所定の形状の少なくとも１つの別のマイク対よりも、前記所定の形状において、より短い距離だけ離間した２つのマイクを備える装置のための方法であって、
前記少なくとも３つのマイクから少なくとも３つのマイクオーディオ信号を受信することと、
前記より短い距離だけ離間した２つのマイクからのマイクオーディオ信号を分析して、不確定指向性を判定することと、
前記少なくとも１つの別のマイク対からの前記マイクオーディオ信号を分析して、前記不確定指向性以外の少なくとも１つの音特性を判定することと、を含み、
前記第１のマイク対と、前記少なくとも１つの別のマイク対とが空間オーディオ信号を取得するように構成されるように、前記少なくとも１つの別のマイク対は、前記所定の形状に沿って、より長い距離だけ離間した２つのマイクを備える、方法。
前記所定の形状は、前記装置の物理的形状である、請求項２１に記載の方法。
前記装置の物理的形状の少なくとも１つの寸法が、前記装置の物理的形状のその他の寸法よりも短い、請求項２２に記載の方法。
前記より短い距離だけ離間した２つのマイクは、前記装置の物理的形状の前記少なくとも１つの寸法が前記装置の物理的形状のその他の寸法よりも短いことにより、前記より短い距離だけ離間する、請求項２３に記載の方法。
前記所定の形状は、前記少なくとも３つのマイクの物理的配列である、請求項２１に記載の方法。