JP2024056955A

JP2024056955A - 光学式捕捉によるパーソナライズされたｈｒｔｆ

Info

Publication number: JP2024056955A
Application number: JP2024023315A
Authority: JP
Inventors: スティールジョイナー，マクレガー; ブランドメイヤー，アレックス; ダリー，スコット; ロスベイカー，ジェフリー; ファネッリ，アンドレア; アンキャリークラム，ポピー
Original assignee: ドルビーラボラトリーズライセンシングコーポレイション
Priority date: 2018-07-25
Filing date: 2024-02-20
Publication date: 2024-04-23
Also published as: US20210211825A1; CN112470497B; CN112470497A; JP2021532403A; CN116528141A; JP7442494B2; US11778403B2; EP3827603A1; US20240048932A1; WO2020023727A1

Abstract

【課題】パーソナライズされた頭部伝達関数（ＨＲＴＦ）を生成する装置及び方法を提供する。【解決手段】オーディオ・エコシステム１００は、ユーザー装置１１０（ユーザー入力装置１１０ａ及びユーザー出力装置１１０ｂ）及びクラウド装置１２０（パーソナライズ・サーバー１２０ａ及びコンテンツ・サーバー１２０ｂ）を含む。ユーザー入力装置が、ユーザーの生成データ１３０を捕捉し、パーソナライズ・サーバーが、ユーザー入力装置から生成データを受領して処理し、ユーザーについてのパーソナライズされたＨＲＴＦ１３２を生成し格納する。コンテンツ・サーバーは、ユーザー出力装置にコンテンツ１３４を提供する。ユーザー出力装置は、パーソナライズ・サーバーからパーソナライズされたＨＲＴＦを受領し、コンテンツ・サーバーからコンテンツを受領し、パーソナライズされたＨＲＴＦをコンテンツに適用してオーディオ出力１３６を生成する。【選択図】図１

Description

関連出願への相互参照
本願は、2018年7月25日に出願された「光学的捕捉によるパーソナライズされたHRTFに向けた方法および装置」のための米国仮出願第62/703,297号の利益を主張する。同出願は参照により本明細書に組み込まれる。

分野
本開示は、オーディオ処理に関し、特に、聴取者の人体測定学的および人口統計学的特性に応じてカスタム・オーディオを生成することに関する。

本明細書において別段の記載がない限り、本セクションに記載されたアプローチは、本願のクレームの先行技術ではなく、本セクションに含めることにより先行技術であると自認されるものではない。

さまざまな位置に音を配置し、ダミーヘッドを通して録音することによって、ヘッドフォンを通じたそのような録音の再生により、対応する、聴取者に対するさまざまな位置から来る音の知覚を達成することができる。このアプローチは、ヘッドフォンの代わりにスタンドアローンのラウドスピーカーを使用する場合には、こもった音を引き起こすという望まれない副作用をもつので、この技術は、しばしば、録音全体ではなく、マルチトラック録音の選択されたトラックのために使用される。この技術を改善するために、ダミー材料は、耳（耳介）の形状を含むことができ、本物の頭部および耳の音響反射率／吸収率に適合するように設計することができる。

あるいはまた、頭部伝達関数（head related transfer function、HRTF）を音源に適用して、ヘッドフォンで聞いたときに音が空間的に定位されるようにすることができる。一般に、HRTFは、三次元（3D）空間内の点と外耳道の入口との間の音響伝達関数に対応する。HRTFは、耳、頭、体の受動的なフィルタリング機能から生じ、最終的には脳が音の位置を推測するために使用される。HRTFは、オーディオ信号に加えられる、仰角および方位角（聴取者のまわりの回転）の関数としての絶対値および位相周波数応答からなる。ダミーヘッドのまわりの特定の位置で音を記録するのではなく、音は、従来のアプローチを含む多くの仕方で音を記録され、その後、所望の位置に現われるようにHRTFを用いて処理されることができる。もちろん、現実世界のオーディオ環境または単に芸術的意図のいずれかを再現するために、重ね合わせにより、さまざまな位置で同時に多くの音を生じさせることができる。さらに、録音する代わりに音をデジタル合成することもできる。

HRTFの概念の改良は、実際の人間の外耳道からの記録を含む。

実際の人間の外耳道から記録することによりHRTFを改善する過程で、肩のバルク、頭の大きさ、耳介の形、他の顔の特徴などの解剖構造の個人差に起因して、HRTFには人によって大きなばらつきがあることがわかった。さらに、単一の個人についても、左耳と右耳の間にわずかな違いがある。HRTFのこの個別的な挙動のため、ダミーヘッド、単一の個人、または多くの個人間の平均から設計されるような一般的なHRTFを使用する場合には問題が残る。一般的なHRTFの使用は、典型的には、位置精度の問題、たとえば、顔の前に音を配置することの困難さ、前後反転、頭部からの特定の距離の伝達、および角度精度をもたらす。さらに、一般的なHRTFは、音色またはスペクトルの自然さと、サウンドステージにおける全体的な奥行きの知覚において欠けていることが一般的に見出されている。このように理解が進んだ結果、多様な技術を介して、特定の聴取者のためのHRTFを得るための継続的な努力がなされている。

本稿は、知覚される音源の位置の精度を実質的に改善するために、バイノーラル・オーディオの再生をパーソナル化するためのシステムを記述する。ユーザーによって提供される人口統計学的情報に加えて、システムは、肩、頭、および耳介形状のようなユーザーの人体測定値の光学的画像捕捉を使用する。これらのデータは、ユーザーのためのパーソナライズされたHRTFを導出するために使用される。このパーソナライズされたHRTFは、位置決めされた音オブジェクトとして表現される音源を処理するために使用される。ここで、位置は、ピンポイントの位置から拡散した源までの範囲がありうる（たとえば、ドルビー（登録商標）アトモス（商標）システムのようにオーディオ・オブジェクトを使用する）。いくつかの実施形態では、音源は、マルチチャネル・フォーマット、あるいはさらにはステレオ音源を位置決めされた音オブジェクトに変換したものであってもよい。音源は、ビデオ、音楽、ダイアログ向上（dialogue enhancement）、ビデオゲーム、仮想現実（VR）、拡張現実（AR）アプリケーションなどのためである。

ある実施形態によれば、方法は、頭部伝達関数（HRTF）を生成する。本方法は、HRTF計算システムを生成して、該HRTF計算システムを使ってユーザーのためのパーソナライズされたHRTFを生成することを含む。HRTF計算システムを生成することは、複数のトレーニング対象の複数の3Dスキャンを測定し、該複数の3Dスキャンに対して音響散乱計算を実行することによって、前記複数のトレーニング対象についての複数のHRTFを生成し、前記複数のトレーニング対象の生成データ（generative data）を収集し、該生成データを前記複数のHRTFに変換するための前記HRTF計算システムのトレーニングを実行することを含む。パーソナライズされたHRTFを生成することは、ユーザーの生成データを収集し、ユーザーの生成データをHRTF計算システムに入力して、パーソナライズされたHRTFを得ることを含む。

トレーニングを実行することは、ラッソ正則化（Lasso regularization）による線形回帰を使用することを含んでいてもよい。

ユーザーの生成データは、人体測定測定値および人口統計学的データの少なくとも1つを含んでいてもよい。

人体測定測定値は、ユーザーの複数の画像を収集し、該複数の画像を用いて人体測定測定値を決定することによって得ることができる。複数の画像を使って人体測定測定値を決定することは、畳み込みニューラルネットワークを用いて実行されてもよい。本方法は、ユーザーの複数の画像のうちの少なくとも1つの画像内の参照オブジェクトを使用して、ユーザーの人体測定測定値をスケーリングすることをさらに含んでいてもよい。

本方法は、パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成することをさらに含んでいてもよい。

本方法は、サーバー装置によって、パーソナライズされたHRTFを記憶し、サーバー装置によって、パーソナライズされたHRTFをユーザー装置に送信することをさらに含んでいてもよく、ユーザー装置は、パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成する。

本方法は、ユーザー装置によって、パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成することを含んでいてもよく、ユーザー装置は、ヘッドセット、イヤホン、およびヒアラブル（hearables）のうちの1つを含む。

オーディオ信号は、位置情報を含む複数のオーディオ・オブジェクトを含んでいてもよく、本方法は、パーソナライズされたHRTFを複数のオーディオ・オブジェクトに適用することによって、バイノーラル・オーディオ出力を生成することをさらに含んでいてもよい。

別の実施形態によれば、非一時的なコンピュータ読み取り可能媒体が、プロセッサによって実行されるときに、上述した方法の一つまたは複数を含む処理を実行するように装置を制御するコンピュータ・プログラムを記憶する。

別の実施形態によれば、装置が、頭部伝達関数（HRTF）を生成する。本装置は、少なくとも1つのプロセッサおよび少なくとも1つのメモリを含む。少なくとも1つのプロセッサは、HRTF計算システムを生成して、該HRTF計算システムを使ってユーザーのためのパーソナライズされたHRTFを生成するよう本装置を制御するように構成される。HRTF計算システムを生成することは、複数のトレーニング対象の複数の3Dスキャンを測定し、該複数の3Dスキャンに対して音響散乱計算を実行することによって、前記複数のトレーニング対象についての複数のHRTFを生成し、前記複数のトレーニング対象の生成データ（generative data）を収集し、該生成データを前記複数のHRTFに変換するための前記HRTF計算システムのトレーニングを実行することを含む。パーソナライズされたHRTFを生成することは、ユーザーの生成データを収集し、ユーザーの生成データをHRTF計算システムに入力して、パーソナライズされたHRTFを得ることを含む。

ユーザーの生成データは、人体測定測定値および人口統計学的データの少なくとも1つを含んでいてもよい。本装置は、ユーザーの複数の画像を収集し、ユーザーの該複数の画像を使用してユーザーの人体測定測定値を決定するように構成されたユーザー入力装置をさらに有していてもよく、ユーザーの人体測定測定値は、ユーザーの複数の画像のうちの少なくとも1つの画像内の参照オブジェクトを使用してスケーリングされてもよい。

本装置は、パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成するように構成されたユーザー出力装置をさらに有していてもよい。

本装置は、HRTF計算システムを生成し、パーソナライズされたHRTFを生成し、パーソナライズされたHRTFを記憶し、パーソナライズされたHRTFをユーザー装置に送信するように構成されたサーバー装置をさらに有していてもよく、ユーザー装置は、パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成するように構成される。

本装置は、パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成するように構成されたユーザー装置を有していてもよく、ユーザー装置は、ヘッドセット、イヤホン、およびヒアラブル（hearables）のうちの1つを含む。

オーディオ信号は、位置情報を含む複数のオーディオ・オブジェクトを含んでいてもよく、前記少なくとも1つのプロセッサは、パーソナライズされたHRTFを複数のオーディオ・オブジェクトに適用することによって、バイノーラル・オーディオ出力を生成するように本装置を制御するように構成される。

本装置は、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置であって、サーバー装置は、写真測量コンポーネント、コンテキスト変換コンポーネント、ランドマーク検出コンポーネント、および人体測定コンポーネントを実行する、サーバー装置を有していてもよい。写真測量コンポーネントは、ユーザーの複数の構造的イメージを受け取り、動きからの構造（structure-from-motion）技法を使って、複数のカメラ変換および構造的画像集合を生成するように構成される。コンテキスト変換コンポーネントは、複数のカメラ変換および構造的画像集合を受領し、構造的画像集合を用いて複数のカメラ変換を並進および回転させることによって、変換された複数のカメラ変換を生成するように構成される。ランドマーク検出コンポーネントは、構造的画像集合および変換された複数のカメラ変換を受領し、構造的画像集合および変換された複数のカメラ変換を用いて識別されたユーザーの人体測定学的ランドマークに対応する3Dランドマーク集合を生成するように構成される。人体測定コンポーネントは、3Dランドマーク集合を受領し、3Dランドマーク集合から人体測定データを生成するように構成され、人体測定データは、3Dランドマーク集合の個々のランドマーク間で測定された距離および角度のセットに対応する。サーバー装置は、人体測定データをHRTF計算システムに入力することにより、ユーザーのためのパーソナライズされたHRTFを生成するように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、スケール測定コンポーネントを実行する。スケール測定コンポーネントは、スケール参照の画像を含むスケール画像を受領し、相同物測度（homologue measure）を生成するように構成される。サーバー装置は、相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、ランドマーク検出コンポーネント、3D投影コンポーネント、および角度および距離測定コンポーネントを実行する。ランドマーク検出コンポーネントは、ユーザーの人体測定学的ランドマークのクロッピングされた画像集合を受領し、クロッピングされた画像集合からユーザーの人体測定学的ランドマークのセットの2D座標のセットを生成するように構成される。3D投影コンポーネントは、2D座標のセットおよび複数のカメラ変換を受領し、カメラ変換を使用して、3D空間における各人体測定学的ランドマークの2D成分のセットに対応する3D座標のセットを生成するように構成される。角度および距離測定コンポーネントは、3D座標のセットを受領し、3D座標のセットから人体測定データを生成するように構成され、人体測定データは、3D座標のセットにおける人体測定学的ランドマークの角度および距離に対応する。サーバー装置は、人体測定データをHRTF計算システムに入力することにより、ユーザーのためのパーソナライズされたHRTFを生成するように構成される。

HRTF計算システムは、左耳HRTFおよび右耳HRTFの一方に対応するモデルをトレーニングするように構成されてもよく、この場合、パーソナライズされたHRTFは、前記モデルを使用して左耳のパーソナライズされたHRTFおよび右耳のパーソナライズされたHRTFの一方を生成し、前記モデルの反射を使用して、左耳のパーソナライズされたHRTFおよび右耳のパーソナライズされたHRTFのうちの他方を生成することによって生成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、データまとめコンポーネントを実行する。データまとめコンポーネントは、生成データの既知の部分から決定される推定値を使って生成データの欠落部分を埋める、生成データのたちのよい劣化（graceful degradation）を実装するように構成される。

本装置は、さらに、HRTF計算システムを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、次元削減コンポーネントを実行する。次元削減コンポーネントは、複数のトレーニング対象について複数のHRTFに対する主成分分析を実行することによって、HRTF計算システムのトレーニング実行の計算の複雑さを低減するように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、写真測量コンポーネントを実行する。写真測量コンポーネントは、ユーザーの複数の構造的イメージを受領し、複数の構造的イメージに対して顔ランドマーク検出プロセスを用いて、制約された画像特徴探索を実行し、動きからの構造（structure-from-motion）技法および制約された画像特徴探索の結果を用いて、複数のカメラ変換および構造的画像集合を生成するように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、コンテキスト変換コンポーネントを実行する。コンテキスト変換コンポーネントは、第1の複数のカメラ変換と、複数の顔ランドマークと、スケール測度とを受領し、複数の顔ランドマークを使用して複数のカメラ変換を並進および回転させて第2の複数のカメラ変換を生成し、スケール測度を使用して第2の複数のカメラ変換をスケーリングするように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、スケール測定コンポーネントを実行する。スケール測定コンポーネントは、レンジ撮像情報を受領し、レンジ撮像情報を使用して相同物測度を生成するように構成される。サーバー装置は、相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成される。

本装置は、ユーザー入力装置とサーバー装置とをさらに有していてもよい。ユーザー入力装置は、スピーカーおよびマイクロフォンと関連付けられている。サーバー装置は、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成され、サーバー装置は、スケール測定コンポーネントを実行する。スケール測定コンポーネントは、ユーザー入力装置から到着時刻情報を受領し、到着時刻情報を使用して相同物測度を生成するように構成され、到着時刻情報は、第1の位置にあるスピーカーにより出力され、第2の位置にあるマイクロフォンによって受信される音に関係し、第1の位置はユーザーに関連し、第2の位置はユーザー入力装置に関連する。サーバー装置は、相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成される。

本装置は、さらに、HRTF計算システムを使用してユーザーのためのパーソナライズされたHRTFを生成するように構成されたサーバー装置を有していてもよく、サーバー装置は、クロッピング・コンポーネントおよびランドマーク検出コンポーネントを実行する。クロッピング・コンポーネントおよびランドマーク検出コンポーネントを協調させて、ランドマークの複数の異なるセットをクロッピングして検出することによって、制約された再帰的ランドマーク検索を実行する。

本装置は、方法に関して上述したものと同様の詳細を含んでいてもよい。

以下の詳細な説明および添付の図面は、さまざまな実装の性質および利点のさらなる理解を提供する。

オーディオ・エコシステム100のブロック図である。頭部伝達関数（HRTF）を生成する方法200のフローチャートである。オーディオ環境300のブロック図である。人体測定システム400のブロック図である。 HRTF計算システム500のブロック図である。

本明細書には、頭部伝達関数（HRTF）を生成するための技術が記載される。以下の記述では、説明の目的のため、本開示の十全な理解を提供するために、多数の例および特定の詳細が記載されている。しかしながら、特許請求の範囲によって定義される本開示は、これらの例における特徴の一部または全部を単独で、または以下に記載される他の特徴と組み合わせて含んでいてもよく、さらに、本明細書に記載される特徴および概念の修正および均等物を含んでいてもよいことは、当業者にとって明らかであろう。

以下の記述では、さまざまな方法、プロセスおよび手順が詳細に説明されている。具体的なステップが、ある順序で記述されることがあるが、そのような順序は、主として、簡便のためである。特定のステップは、2回以上繰り返されてもよく、他のステップの前または後に（たとえそれらのステップが別の順序で記述されていても）行なわれてもよく、他のステップと並列して行なわれてもよい。第2のステップが第1のステップの後にくることが要求されるのは、第2のステップが開始される前に第1のステップが完了しなければならない場合にのみである。そのような状況は、コンテキストから明確でない場合には、具体的に指摘されるであろう。

本稿において、用語「および」、「または」および「および／または」が使われる。そのような用語は、包含的な意味を有するものとして読まれるべきである。たとえば、「AおよびB」は、少なくとも、「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「AまたはB」は、少なくとも、「少なくともA」、「少なくともB」、「AおよびBの両方」、「少なくともAおよびBの両方」を意味しうる。別の例として、「Aおよび／またはB」は、少なくとも、「AおよびB」、「AまたはB」を意味しうる。排他的離接が意図される場合は、その旨を具体的に記載する（たとえば、「AまたはBのいずれか一方のみ」、「AおよびBのうち高々一方」）。

この文書の目的のために、いくつかの用語を以下のように定義する。音響解剖構造（acoustic anatomy）とは、上半身、頭部、耳介を含む、人体のうち、音を音響的にフィルタリングし、HRTFに寄与する部分を指す。人体測定データ（anthropometric data）は、人の音響解剖構造を記述するために使用できる一組の顕著な幾何学的測定値を指す。人口統計学的データ（demographic data）とは、性別、年齢、人種、身長、および体重を含みうる、人によって提供される人口統計学的情報を指す。生成データ（generative data）とは、合わせて人のHRTFを推定するために使用できる、完全なまたは部分的な人体測定データと人口統計学的データとを組み合わせた集合である。HRTF計算システムは、任意の生成データを入力として受け、推定されたパーソナライズされたHRTFを出力として返す関数または一連の関数を指す。

本明細書においてより詳細に記載されるように、パーソナライズされたHRTFを生成する一般的なプロセスは、以下の通りである。まず、生成データの任意の集合と一意的な近似されたHRTFとの間の関係を表現するHRTF計算システムが用意される。次いで、システムは、カメラを含む携帯電話のような入力装置と、クラウド・パーソナライズ・サーバーのような処理装置とを使用して、生成データの集合を効率的に導出する。次いで、用意されたHRTF計算システムが新しい生成データに対して使用されて、ユーザーについてのパーソナライズされたHRTFを推定する。

本システムにおいて使用するためのHRTF計算システムを用意するために、トレーニング環境において以下の数学的プロセスが行なわれる。高解像度3Dスキャンで構成されたメッシュ・データのデータベースが、複数の個人について作成される。各個人についての人口統計学的データもデータベースに含められる。メッシュ・データから、HRTFで構成される対応するターゲット・データの集合が作成される。実施形態の一つでは、HRTFは、メッシュ・データのまわりの音場の数値シミュレーションを通じて得られる。たとえば、このシミュレーションは、境界要素法または有限要素法によって達成できる。メッシュを必要としない、HRTFを得るための別の適用可能な既知の方法は、音響測定である。しかしながら、音響測定は、非常に長い時間期間にわたって、対象となる人が無響録音環境において静止した状態で座るかまたは立つことを必要とし、人の動きおよびマイクロフォン・ノイズのために測定が誤差を受けやすい。さらに、音響測定は、測定される各源位置について個別に行なわれなければならないので、音響球のサンプリング分解能を増大させることが信じられないほど高価になることがある。これらの理由から、トレーニング環境における数値的にシミュレートしたHRTFの使用が、HRTFデータベース収集に対する改善と考えられる。さらに、人体測定データは、データベースにおいて各個人について収集され、人口統計学的データと組み合わされて、生成データの集合を形成する。次いで、機械学習プロセスは、生成データとターゲット・データとの間の近似関係、すなわちHRTF計算システムの一部として用いられるモデルを計算する。

ひとたびトレーニング環境において用意されると、HRTF計算システムは、メッシュ・データや音響測定の必要なしに、任意のユーザーについてのパーソナライズされたHRTFを生成するために使用されうる。システムは、人口統計学的データをユーザーに問い合わせ、一連の写真測量、コンピュータビジョン、画像処理、およびニューラルネットワーク技術を用いて、構造的イメージから人体測定データを抽出する。この説明の目的のためには、構造的イメージ（structural imagery）という用語は、ユーザーの音響解剖構造が可視である複数の画像を指し、これは、一連の画像であってもよく、または「バースト」画像またはビデオ映像から導出されてもよい。構造的イメージ内のオブジェクトを、それらの真の物理的スケールにスケーリングすることが必要であることがある。構造的イメージとは別個の、または構造的イメージの一部であってもよいスケーリング・イメージ（scaling imagery）が、本明細書にさらに記載されるように、この目的のために使用されてもよい。ある実施形態では、構造的イメージ、ならびに対応する人口統計学的データおよび任意の必要なスケーリング・イメージを捕捉するために、モバイル装置が容易に使用されうる。結果として得られる人体測定データおよび人口統計学的データは生成データにまとめられ、それがその後、用意されたHRTF計算システムによって使用されて、パーソナライズされたHRTFを生成する。

図5は、HRTF計算システム500のブロック図である。HRTF計算システム500は、パーソナライズ・サーバー120a（図1参照）によって、たとえば、一つまたは複数のコンピュータ・プログラムを実行することによって実装されうる。HRTF計算システム500は、HRTF生成コンポーネント330（図3参照）のような別のコンポーネントのサブコンポーネントとして実装されてもよい。HRTF計算システム500は、トレーニング環境502、データベース収集コンポーネント510、数値シミュレーション・コンポーネント520、メッシュ注釈付けコンポーネント522、次元削減コンポーネント524、機械学習コンポーネント526、推定コンポーネント530、次元復元コンポーネント532、および位相復元コンポーネント534を含む。

HRTF計算システム500は、一部のコンポーネントのためのコンピュータ・プログラムと、他のコンポーネントのための手動のデータ収集とを含むことができるトレーニング環境502において、後述するように、一度だけ用意されてもよい。一般に、トレーニング環境502は、いくつかの対象者（前半の数百）の測定された生成データ行列523と、それぞれのHRTFの値との間の関係を決定する。（この生成データ行列523およびHRTFは、後述するように、高解像度メッシュ・データ511に対応しうる。）システムは、フロントエンド生成データ近似を使用して、3Dモデリング、数学的シミュレーション、または音響測定の必要性を割愛する。機械学習コンポーネント526に「トレーニング」HRTFおよび比較的小さな生成データ行列523を提供することによって、システムは、HRTF集合543全体を合成するのに必要な値を推定するモデル533を生成し、これは、システムが、業界標準の空間配向音響（spatially oriented format for acoustics （SOFA）フォーマットに格納し、分配することができる。

データベース収集コンポーネント510では、人口統計学的データ513および3Dメッシュ・データ511が、少数（数百）のトレーニング対象512から収集される。高解像度メッシュ・スキャンを捕捉することは、時間がかかり、資源集約的なタスクである可能性がある。（これが、パーソナライズされたHRTFがより広く使用されない一つの理由であり、本明細書に記載される仕方のようなパーソナライズされたHRTFを生成するためのより簡単な方法を動機付ける一つの理由である。）たとえば、高解像度スキャンは、100,000個の三角形メッシュを用いるArtec 3Dスキャナを使用して捕捉されうる。
このスキャンは、対応するHRTFを数値的にシミュレートするために、1.5時間の熟練した後編集（post-editing）作業と、それに続く24時間の分散サーバー時間とを必要とすることがある。データベース収集コンポーネント510は、HRTFおよび生成データが、U.C. Davis CIPIC Interface Laboratoryからの画像処理および統合コンピューティング・センター（Center for Image Processing and Integrated Computing 、CIPIC） HRTFデータベースのような他のソースから直接、トレーニング環境における使用のために取得される場合には、不必要でありうる。

数値シミュレーション・コンポーネント520では、ある実施形態では、これらの「トレーニング」HRTFは、境界要素法を用いて計算されてもよく、ITD行列525およびH行列527として表わされてもよい。H行列527は、音源の任意の所与の位置について、HRTFの周波数インパルス応答から構成される、トレーニング対象512のすべてについての絶対値データの行列に対応する。ITD行列525は、音源の任意の所与の位置について、トレーニング対象512のすべてについての両耳間時差（inter-aural time differences、ITD、たとえば、左ITDおよび右ITD）の行列に対応する。ある実施形態で使用されるHRTFシミュレーション技術は、高度に洗練された3D画像捕捉およびきわめて面倒な量の数学的計算を必要とする。この理由で、トレーニング環境502は、有限量のトレーニング・データを用いて一度だけ用意されることが意図される。数値シミュレーション・コンポーネント520は、H行列527およびITD行列525を、次元削減コンポーネント524に提供する。

メッシュ注釈付けコンポーネント522は、メッシュ・データ511から同定された人体測定特性に対応する人体測定データ521を出力する。たとえば、メッシュ注釈付けコンポーネント522は、手動の注釈付けを使用してもよい（たとえば、オペレーターが人体測定特性を識別する）。メッシュ注釈付けコンポーネント522はまた、角度および距離測定コンポーネント（図4の418を参照）を使用して、注釈付けされた特性を人体測定データ521のための測定値に変換してもよい。人体測定データ521と人口統計学的データ513との合併〔和集合〕が、生成データ行列523である。

ある実施形態では、次元削減コンポーネント524は、機械学習問題の計算の複雑さを低減するために、H行列527およびITD行列525に対して主成分分析を実行してもよい。たとえば、H行列527は、240個の周波数についての周波数応答の絶対値を有していてもよく、次元削減コンポーネント524は、これらを20個の主成分に減らしてもよい。同様に、ITD行列525は、2500の源方向についての値を有していてもよく、次元削減コンポーネント524は、これらを10個の主成分に減らしてもよい。次元削減コンポーネント524は、H行列527およびITD行列525の集団的な主成分スコア529を機械学習コンポーネント526に提供する。主成分空間からHRTFを再構成するために必要とされる係数531は固定され、後述する次元復元コンポーネント532において使用するために保持される。機械学習コンポーネント526において使用されるアルゴリズムに依存して、他の実施形態は、次元削減コンポーネント524を省略してもよい。

機械学習コンポーネント526は、一般に、パーソナライズされたHRTFの一般化された計算において推定コンポーネント530が使用するモデル533を用意する。機械学習コンポーネント526は、生成データ行列523をH行列527およびITD行列525の集団的な主成分スコア529に適合させる（fit）ために、モデル533のトレーニングを実行する。機械学習コンポーネント526は、生成データ行列523からの約50個の予測子を使用してもよく、既知の逆方向、順方向、または最良サブセット選択方法を実施して、モデル533で使用するための最適な予測子を決定してもよい。

トレーニング環境502のコンポーネントが実行されたら、生成データとHRTFとの間の一般化可能な関係が確立されたことになる。関係は、モデル533を含み、次元削減が次元削減コンポーネント524を介して実行される場合は、係数531を含んでいてもよい。この関係は、後述するプロダクション・ステップにおける使用時に、生成データの任意の新しい集合に対応するパーソナライズされたHRTFを計算するために用いることができる。後述する諸プロダクション・ステップは、たとえば一つまたは複数のコンピュータ・プログラムを実行することによって、パーソナライズ・サーバー120a（図1参照）によって実装されてもよい。後述する諸プロダクション・ステップは、HRTF生成コンポーネント330（図3参照）のような別のコンポーネントのサブコンポーネントとして実装されてもよい。

推定コンポーネント530は、モデル533を生成データ535の集合に適用し、絶対値スペクトルおよびHRTFのITDの主成分537を生成する。生成データ535は、人口統計学的データ311と人体測定データ325（図3参照）の組み合わせに対応しうる。生成データ535は、生成データ427（図4参照）に対応しうる。次いで、次元復元コンポーネント532が、成分537に対して係数531を使用して次元削減プロセスを反転させ、その結果、完全な絶対値スペクトルのH行列541および音響球全体を記述するITDのITD行列539が得られる。次いで、位相復元コンポーネント534が、ITD行列539およびH行列541を使用して、位相および絶対値情報を有するHRTF集合543を記述するインパルス応答の集合を再構成する。ある実施形態では、位相復元コンポーネント534は、最小位相復元アルゴリズムを実装してもよい。最後に、機械学習システム500は、HRTF集合543を記述するインパルス応答の集合を使用して、SOFAフォーマットで表現されてもよいパーソナライズされたHRTFを生成する。

HRTF計算システム500のさらなる詳細は、以下の通りである。

ある実施形態では、機械学習システム526は、モデル533を適合させる（fit）ように線形回帰を実装してもよい。たとえば、一組の線形回帰重みが、生成データ行列523のすべてを、絶対値スコア行列の各個々の方向スライスに適合させる（fit）ように計算されてもよい。別の例として、一組の線形回帰重みが、生成データ行列523のすべてをITDスコアのベクトル全体に適合させる（fit）ように計算されてもよい。機械学習システム526は、zスコア正規化（normalization）を使用して、生成データ行列523の各予測子ベクトルを標準化してもよい。

正則化（regularization）方法として、回帰アルゴリズムは、最小絶対収縮および選択演算子（least absolute shrinkage and selection operator、「lasso」〔ラッソ〕）を使用してもよい。ラッソ・プロセスは、所与の諸位置でモデルに関連しないパラメータを識別し無視するように動作する（たとえば、それらの係数をゼロのほうに移すことによって）。たとえば、両耳間距離は、生成データの予測子として提供されることがあるが、ユーザーの右耳とユーザーの右に直接配置された音源との間のインパルス応答の大きさには、ほとんど、または全く影響しないことがありうる。同様に、生成データの予測子によって記述される耳介のより細かい細部は、両耳間時差にほとんど、または全く影響しないことがありうる。無関係なパラメータを無視することにより、過剰適合〔オーバーフィッティング〕が著しく減少し、したがってモデルの精度が改善される可能性がある。リッジ（ridge）回帰がすべての予測子の重みまたは寄与をスケーリングし、どの係数もゼロに設定しないという点で、ラッソ回帰はリッジ回帰と対照的である。

他の実施形態では、機械学習システム526は、諸HRTF集合を生成するために機械学習の他の方法を使用してもよい。たとえば、機械学習システム526は、絶対値スコアの行列全体を予測するよう、ニューラルネットワークをトレーニングしてもよい。別の例として、機械学習システム526は、ITDスコアのベクトル全体を予測するようにニューラルネットワークをトレーニングしてもよい。機械学習システム526は、ニューラルネットワークをトレーニングする前に、zスコア正規化を介してHRTFの値を標準化してもよい。

ある実施形態では、トレーニング環境502は、一方の耳の伝達関数に対して機械学習および／または次元削減を実行するだけによって最適化されてもよい。たとえば、頭部のまわりの球全体のための伝達関数を含む単一のHRTF集合は、2つの左耳HRTF集合の一方を単に、矢状面に関して反射させたものと考えられてもよい。この例では、数値シミュレーション・コンポーネント520が、音響球全体にわたって100人の対象者について、2つの耳を受領機として実施されれば、各対象者の右耳HRTF値を左耳の値に変換して、左耳HRTFの200例を含むHRTF値の集合を作成しうる。HRTFは、源位置の関数としてのインパルス応答、絶対値スペクトル、または両耳間遅延として表わされてもよく、各右耳位置は、その座標を矢状面に関して反射させることによって、左耳位置に直接マッピングすることができる。この変換は、右耳のHRTF値を反射された位置の行列インデックスに割り当てることによって実行できる。

モデル533をトレーニングするために使用される生成データ行列523の予測子はスカラー値であるため、これらの予測子も、それらが測定された身体の側とは独立だと考えられてもよい。よって、モデル533は、たとえば、左耳HRTFだけを近似するようにトレーニングされてもよい。ユーザーの右耳HRTFを生成するプロセスは、右耳の生成データを使用して生成されたHRTF集合の球座標をもとの座標にマッピングするのと同じくらい簡単である。よって、生成データおよび結果として得られるHRTFは対称的でないことがありうるものの、モデル533および次元削減は対称的であるといえる。全体的に、この反射プロセスは、ターゲット・データの複雑性を2分の1に低減し、H行列527およびITD行列525のサンプル・サイズを2倍に増大させるという望ましい結果を有する。このプロセスを使用することの重要な追加的な利点は、反射再構成されたHRTFがよりバランスが取れている可能性があることである。これは、反射プロセスが、次元削減コンポーネント524および機械学習コンポーネント526における過剰適合および誤差によって引き起こされるHRTF計算システム500内の任意のノイズの対称的な挙動につながるからである。

図1は、オーディオ・エコシステム100のブロック図である。オーディオ・エコシステム100は、一つまたは複数のユーザー装置110（ユーザー入力装置110aおよびユーザー出力装置110bの2つが図示されている）および一つまたは複数のクラウド装置120（パーソナライズ・サーバー120aおよびコンテンツ・サーバー120bの2つが図示されている）を含む。複数の装置が示されているが、これは説明の簡単のためである。単一のユーザー装置が、ユーザー入力装置110aおよびユーザー出力装置110bの機能を実装してもよい。同様に、パーソナライズ・サーバー120aおよびコンテンツ・サーバー120bの機能は、単一のサーバーによって、または分散型クラウド・システム内の複数のコンピュータによって実装されうる。オーディオ・エコシステム100の諸装置は、無線または有線ネットワーク（図示せず）によって接続されてもよい。オーディオ・エコシステム100の概括的な動作は、以下の通りである。

ユーザー入力装置110aが、ユーザーの生成データ130を捕捉する。ユーザー入力装置110aは、カメラを有する携帯電話であってもよい。生成データ130は、構造的イメージおよび／または人口統計学的データからなり、スケーリング・イメージをも含んでいてもよい。捕捉プロセスおよび生成データ130のさらなる詳細は後述する。

パーソナライズ・サーバー120aは、ユーザー入力装置110aから生成データ130を受領し、生成データ130を処理して、ユーザーについてのパーソナライズされたHRTF 132を生成し、パーソナライズされたHRTF 132を格納する。たとえば、パーソナライズ・サーバー120aは、推定コンポーネント530、次元復元コンポーネント532、および位相復元コンポーネント534（図5参照）を実装してもよい。パーソナライズされたHRTF 132の生成に関するさらなる詳細は、のちに与える。パーソナライズ・サーバー120aはまた、パーソナライズされたHRTF 132をユーザー出力装置110bに提供する。

コンテンツ・サーバー120bは、ユーザー出力装置110bにコンテンツ134を提供する。一般に、コンテンツ134はオーディオ・コンテンツを含む。オーディオ・コンテンツは、たとえばドルビー（登録商標）アトモス（商標）システムに従ったオーディオ・オブジェクトを含んでいてもよい。オーディオ・コンテンツは、位置決めされた音オブジェクトに変換されたマルチチャネル信号、たとえばステレオ信号を含んでいてもよい。コンテンツ134は、ビデオ・コンテンツをも含んでいてもよい。たとえば、コンテンツ・サーバー120bは、オーディオおよびビデオ・コンテンツを提供するマルチメディア・サーバー、ゲーム・コンテンツを提供するゲーム・サーバーなどであってもよい。コンテンツ134は、コンテンツ・サーバー120bから連続的に提供されてもよく、またはコンテンツ・サーバー120bはコンテンツ132を、現在の記憶および将来の出力のためにユーザー出力装置110bに提供してもよい。

ユーザー出力装置110bは、パーソナライズ・サーバー120aからパーソナライズされたHRTF 132を受領し、コンテンツ・サーバー120bからコンテンツ134を受領し、パーソナライズされたHRTF 132をコンテンツ134に適用してオーディオ出力136を生成する。ユーザー出力装置110bの例は、携帯電話（および付随するイヤーバッド）、ヘッドフォン、ヘッドセット、イヤーバッド、ヒアラブルなどを含む。ユーザー出力装置110bは、ユーザー入力装置110aと同じ装置であってもよい。たとえば、カメラを備えた携帯電話は、（ユーザー入力装置110aとして）生成データ130を捕捉してもよく、（ユーザー出力装置110bとして）パーソナライズされたHRTF 132を受領してもよく、オーディオ出力136を生成する一対のイヤーバッドに関連付けられてもよい。ユーザー出力装置110bは、そのユーザー入力装置110aとは異なる装置であってもよい。たとえば、カメラを備えた携帯電話が（ユーザー入力装置110aとして）生成データ130を捕捉してもよく、ヘッドセットが、（ユーザー出力装置110bとして）パーソナライズされたHRTF 132を受領してもよく、オーディオ出力136を生成してもよい。ユーザー出力装置110bは、コンピュータ、オーディオ／ビデオ受領機（AVR）、テレビなどの他の装置とも関連付けされてもよい。

オーディオ・エコシステム100は、システムがユーザーが現在使用しているどのような出力装置にも適応するので、「エコシステム」と呼ばれる。たとえば、ユーザーは、ユーザー識別子に関連付けられてもよく、ユーザーは、オーディオ・エコシステム100にログインしてもよい。パーソナライズ・サーバー120aは、ユーザー識別子を使用して、パーソナライズされたHRTF 132をユーザーと関連付けしてもよい。コンテンツ・サーバー120bは、ユーザー識別子を使用して、コンテンツ134についてのユーザーのサブスクリプション、選好等を管理してもよい。ユーザー出力装置110bは、ユーザー出力装置110bがユーザーのパーソナライズされたHRTF 132を受領すべきであることをパーソナライズ・サーバー120aに通信するために、ユーザー識別子を使用してもよい。たとえば、ユーザーが（ユーザー出力装置110bとして）新しいヘッドセットを購入するとき、ヘッドセットは、ユーザー識別子を使用して、ユーザーのパーソナライズされたHRTF 132をパーソナライズ・サーバー120aから得てもよい。

図2は、頭部伝達関数（HRTF）を生成する方法200のフローチャートである。方法200は、オーディオ・エコシステム100（図1参照）の一つまたは複数の装置によって、たとえば、一つまたは複数のコンピュータ・プログラムを実行することによって実行されてもよい。

202では、HRTF計算システムが生成される。一般に、HRTF計算システムは、解剖学的測定値とHRTFとの関係に対応する。HRTF計算システムは、たとえばHRTF計算システム500（図5参照）を実装することによって、パーソナライズ・サーバー120a（図1参照）によって生成されうる。HRTF計算システムの生成は、サブステップ204、206、208および210を含む。

204では、いくつかのトレーニング対象の3Dスキャンが測定される。一般に、3Dスキャンは、トレーニング対象者の高解像度スキャンのデータベースに対応し、測定値は、3Dスキャンで捕捉された解剖学的特性の測定値に対応する。3Dスキャンは、メッシュ・データ511（図5参照）に対応してもよい。パーソナライズ・サーバー120aは、高解像度スキャンのデータベースを記憶してもよい。

206では、3Dスキャンの測定値に対して音響散乱計算を実行することにより、トレーニング対象者のためのいくつかのHRTFが生成される。パーソナライズ・サーバー120aは、たとえば数値シミュレーション・コンポーネント520（図5参照）を実装することによって、HRTFを生成するための音響散乱計算を実行してもよい。

208では、トレーニング対象者の生成データが収集される。一般に、生成データは、トレーニング対象者の人体測定測定値および人口統計学的データに対応し、人体測定測定値は3Dスキャン・データから決定される。たとえば、生成データは、人口統計学的データ513、人体測定データ521、生成データ行列523（図5参照）のうちの一つまたは複数に対応しうる。人体測定データ521は、メッシュ・データ511（図5参照）に基づいてメッシュ注釈付けコンポーネント522によって生成されてもよい。

210では、生成データを複数のHRTFに変換するHRTF計算システムに対してトレーニングが実行される。一般に、機械学習プロセスは、HRTF計算システムにおいて使用するためのモデルを生成するために実行される。生成データ（208参照）は、該モデルによって、生成されるHRTF（206参照）の値を推定するために使用される。トレーニングは、以下に詳述するように、ラッソ正則化を用いた線形回帰を使用することを含んでいてもよい。パーソナライズ・サーバー120aは、たとえば、機械学習コンポーネント526（図5参照）を実装することによって、トレーニング・プロセスを実行してもよい。

212では、HRTF計算システムを使用して、ユーザーのために、パーソナライズされたHRTFが生成される。パーソナライズ・サーバー120aは、たとえばHRTF計算システム500（図5参照）を実装することによって、パーソナライズされたHRTFを生成してもよい。パーソナライズされたHRTFの生成は、サブステップ214および216を含む。

214では、ユーザーの生成データが収集される。一般に、生成データは、パーソナライズされたHRTFを生成するための、特定のユーザーの人体測定測定値および人口統計学的データに対応する（人体測定測定値は2D画像データから決定される）。たとえば、生成データは、生成データ535（図5参照）に対応してもよい。スケーリング目的のために、ユーザーとともに画像内で参照オブジェクトが捕捉されてもよい。ユーザーの生成データを収集するためにユーザー入力装置110a（図1参照）が使用されてもよい。たとえば、ユーザー入力装置110aは、カメラを含む携帯電話であってもよい。

216では、ユーザーの生成データが、パーソナライズされたHRTFを得るために、HRTF計算システムに入力される。パーソナライズ・サーバー120aは、たとえば推定コンポーネント530、次元復元コンポーネント532、および位相復元コンポーネント534（図5参照）を実装することによって、HRTF計算システムをトレーニング（210参照）した結果にユーザーの生成データ（214参照）を入力することによって、パーソナライズされたHRTFを得ることができる。

218では、ひとたびパーソナライズされたHRTFが生成されたら、それはユーザー出力装置に提供され、オーディオ出力を生成するときに使用されてもよい。たとえば、ユーザー出力装置110b（図1参照）は、パーソナライズ・サーバー120aからパーソナライズされたHRTF 132を受領してもよく、コンテンツ・サーバー120bからコンテンツ134内のオーディオ信号を受領してもよく、パーソナライズされたHRTF 132をオーディオ信号に適用することによってオーディオ出力136を生成してもよい。オーディオ信号は、位置情報を含むオーディオ・オブジェクトを含んでいてもよく、オーディオ出力は、パーソナライズされたHRTFを使用してオーディオ・オブジェクトをレンダリングすることによって生成されるバイノーラル・オーディオ出力に対応してもよい。たとえば、オーディオ・オブジェクトは、ドルビー（登録商標）アトモス（商標）オーディオ・オブジェクトを含んでいてもよい。

このプロセスのさらなる詳細は、以下に提供される。

図3は、オーディオ環境300のブロック図である。オーディオ環境300は、オーディオ環境100（図1参照）と同様であり、追加的な詳細を提供する。オーディオ環境100と同様に、オーディオ環境300は、たとえば方法200（図2参照）の一つまたは複数のステップを実行することによって、一つまたは複数の装置を使用して、パーソナライズされたHRTFを生成することができる。オーディオ環境300は、入力装置302、処理装置304、および出力装置306を含む。オーディオ環境100と比較して、オーディオ環境300の詳細が機能的に説明される。オーディオ環境300の諸装置の機能は、たとえば一つまたは複数のコンピュータ・プログラムを実行する一つまたは複数のプロセッサによって実装されてもよい。

入力装置302は一般に、ユーザーの入力データを捕捉する。（入力データは処理されて、構造的イメージ313および／または人口統計学的データ311のようなユーザーの生成データにされる。）入力装置302は、スケーリング・イメージ315をも捕捉してもよい。入力装置302は、カメラを備えた携帯電話であってもよい。入力装置302は、捕捉コンポーネント312と、フィードバックおよびローカル処理コンポーネント314とを含む。

捕捉コンポーネント312は、一般に、人口統計学的データ311およびユーザーの音響解剖構造の構造的イメージ313を捕捉する。次いで、構造的イメージ313を（のちにさらに述べるように）使用して、人体測定データ325の集合を生成する。さらなる処理の簡単のために、構造的イメージ313の捕捉は、静止バックグラウンドに対して実行されてもよい。

構造的イメージ313を捕捉するための1つのオプションは、以下の通りである。ユーザーが、入力装置302を眼の高さのすぐ下の安定した表面に置き、自分の音響解剖構造が捕捉フレーム内で可視となるように自分を位置決めする。入力装置302が、トーンまたは他のインジケータを生成し、ユーザーは、ゆっくりと360度回転する。ユーザーは、腕を横にして立位または座位で回転してもよい。

構造的イメージ313を捕捉するための別のオプションは、以下の通りである。ユーザーは、ユーザーの音響解剖構造をビデオ・フレームに入れて、入力装置302を腕を伸ばした先に保持する。入力装置302がユーザーの耳に面することろから始めて、ユーザーは、ビデオがユーザーの耳からユーザーの顔の正面にかけての諸画像を捕捉するように、腕を前方に掃引する。次いで、ユーザーは、身体の反対側でこのプロセスを繰り返す。

構造的イメージ313を捕捉するための別のオプションは、以下の通りである。上述の実施形態のように、ユーザーは、ユーザーの音響解剖構造をビデオ・フレームに入れて、入力装置302を腕を伸ばした先に保持する。しかしながら、この実施形態では、ユーザーは、不快さなしにできるだけ、頭を左右に回す。これにより、ユーザーの頭部と耳介を構造的イメージに捕捉することができる。

上記の諸オプションは、ユーザーが他人の助けを借りずに、自分自身の構造的イメージを捕捉することを可能にする。しかしながら、追加的な有効な実施形態は、動かずに立っているユーザーのまわりを、入力装置302のカメラをユーザーの音響解剖構造に向けて、第二の人物に歩いてもらうことであろう。

顔に対して複数の方位角または水平角度からの構造的イメージが存在する限り、構造的イメージが記録される範囲、順序、および方法は重要ではない。ある実施形態では、構造的イメージは、10度以下の間隔で、かつ、少なくともユーザーの顔の左側90度および右側90度の範囲にわたって捕捉されることが推奨される。

捕捉コンポーネント312は、捕捉プロセス中にユーザーにガイダンスを提供してもよい。たとえば、捕捉コンポーネント312は、入力装置302を上または下に傾けること、入力装置302をユーザーの耳に垂直になるように垂直にシフトさせること、掃引または回転プロセスの速度を増すまたは減じること、などのために、ビープ音または音声案内を出力してもよい。捕捉コンポーネント312は、構造的イメージをフィードバックおよびローカル処理コンポーネント314に提供する。

フィードバックおよびローカル処理コンポーネント314は、一般に、捕捉コンポーネント312によって捕捉された構造的イメージ313を評価し、捕捉したものに対してローカル処理を実行する。評価に関して、フィードバックおよびローカル処理コンポーネント314は、ユーザーがフレーム内に留まったこと、ユーザーの回転が速すぎなかったことなどのような、捕捉されたイメージのさまざまな基準を評価してもよい；基準が失敗を示す場合には、フィードバックおよびローカル処理コンポーネント314は、別の捕捉を実行するために、入力装置302の動作を捕捉コンポーネント312に戻すことができる。ローカル処理に関して、フィードバックおよびローカル処理コンポーネント314は、各画像からバックグラウンドを減算し、写真品質を保証するために、ぼけ／鮮鋭度評価、コントラスト評価、および明るさ評価のような他の画像処理機能を実行してもよい。フィードバックおよびローカル処理コンポーネント314はまた、最終的な構造的イメージ313がユーザーの音響解剖構造を十分に記述することを確実にするために、ビデオにおける顔の中心および耳の位置のようなキー・ランドマークの識別を実行してもよい。

その際、捕捉されたビデオは、複数の観点からのユーザーの音響解剖構造の構造的イメージを含む。次いで、入力装置302は、最終的な構造的イメージ313、および任意の人口統計学的データ311を処理装置304に送信する。入力装置302は、スケーリング・イメージ315をも処理装置304に送信してもよい。

処理装置304は、一般に、構造的イメージ313を処理して人体測定データ325を生成し、人体測定データ325および／または人口統計学的データ311から構成される生成データに基づいて、パーソナライズされたHRTFを生成する。処理装置304は、クラウド・ベースのサーバーによってホストされてもよい。あるいはまた、クラウド処理機能がローカルに実装されることが望ましい場合には、入力装置302は、処理装置304の一つまたは複数の機能を実装してもよい。処理装置304は、写真測量コンポーネント322、コンテキスト変換コンポーネント324、ランドマーク検出コンポーネント326、人体測定コンポーネント328、およびHRTF生成コンポーネント330を含む。

写真測量コンポーネント322は、フィードバックおよびローカル処理コンポーネント314から構造的イメージ313の最終バージョンを受け取り、動きからの構造（structure-from-motion、SfM）などの技術を用いて写真測量を実行して、カメラ変換317および構造的画像集合319を生成する。一般に、構造的画像集合319は、写真測量コンポーネント322がうまく位置決めされた構造的イメージ313のフレームに対応し、カメラ変換317は、構造的画像集合319内の各画像についての三次元的な位置および配向成分に対応する。写真測量コンポーネント322は、構造的画像集合319をコンテキスト変換コンポーネント324およびランドマーク検出コンポーネント326に提供する。写真測量コンポーネント322はまた、カメラ変換317をコンテキスト変換コンポーネント324に提供する。

コンテキスト変換コンポーネント324は、構造的画像集合319を使用して、カメラ変換317を並進および回転させて、カメラ変換321を生成する。コンテキスト変換コンポーネント324はまた、フィードバックおよびローカル処理コンポーネント314からのスケーリング・イメージ315をも受領してもよく；コンテキスト変換コンポーネント324は、カメラ変換321を生成する際に、スケーリング・イメージ315を使用してカメラ変換317をスケーリングしてもよい。

ランドマーク検出コンポーネント326は、構造的画像集合319およびカメラ変換321を受領および処理し、3Dランドマーク集合323を生成する。一般に、3Dランドマーク集合323は、ランドマーク検出コンポーネント326が構造的画像集合319およびカメラ変換321から識別した人体測定学的ランドマークに対応する。たとえば、これらの人体測定学的ランドマークは、各耳介の窩、耳甲介、耳珠、耳輪などの目に見える表面上のさまざまなランドマークの検出を含みうる。ランドマーク検出コンポーネント326によって検出されるユーザーの音響解剖構造の他の人体測定学的ランドマークは、眉、顎、および肩、ならびに適切なフレームにおける頭部および胴部の測定値を含んでいてもよい。ランドマーク検出コンポーネント326は、3Dランドマーク集合323を人体測定コンポーネント328に提供する。

人体測定コンポーネント328は、3Dランドマーク集合323を受け取り、人体測定データ325を生成する。一般に、人体測定データ325は、3Dランドマーク集合323の個々のランドマーク間で幾何学的に測定された距離および角度の集合に対応する。人体測定コンポーネント328は、人体測定データ325をHRTF生成コンポーネント330に提供する。

HRTF生成コンポーネント330は、人体測定データ325を受領し、パーソナライズされたHRTF 327を生成する。HRTFコンポーネント330は、人口統計学的データ311をも受領し、パーソナライズされたHRTF 327を生成する際にそれを使用してもよい。パーソナライズされたHRTF 327は、空間配向音響フォーマット（SOFA）ファイル・フォーマットであってもよい。HRTF生成コンポーネント330は、一般に、パーソナライズされたHTRF 327の生成の一部として、本明細書においてより詳細に議論される、以前に決定されたHRTF計算システム（たとえば、図5のHRTF計算システム500によってトレーニングされたモデル533）を使用する。HRTF生成コンポーネント330は、パーソナライズされたHRTF 327を出力装置306に提供する。

出力装置306は一般に、処理装置304からパーソナライズされたHRTF 327を受領し、パーソナライズされたHRTF 327をオーディオ・データに適用し、オーディオ出力329を生成する。出力装置306は、携帯電話および関連するスピーカー（たとえば、ヘッドセット、イヤーバッド等）であってもよい。出力装置306は、入力装置302と同じ装置であってもよい。クラウド処理機能がローカルに実装されることが望ましい場合には、出力装置306は、処理装置304の一つまたは複数の機能を実装してもよい。出力装置306は、レンダリング・コンポーネント340を含む。

レンダリング・コンポーネント340は、HRTF生成コンポーネント330からパーソナライズされたHRTF 327を受領し、パーソナライズされたHRTF 327を使用してオーディオ・データに対してバイノーラル・レンダリングを実行し、オーディオ出力329を生成する。

図4は、人体測定システム400のブロック図である。人体測定システム400は、オーディオ・エコシステム100のコンポーネント（たとえば、図1のパーソナライズ・サーバー120a）、オーディオ・エコシステム300のコンポーネント（たとえば、図3の処理装置304）などによって実装されうる。人体測定システム400は、方法200（図2参照）の一つまたは複数のステップを実装してもよい。人体測定システム400は、写真測量コンポーネント322、コンテキスト変換コンポーネント324、ランドマーク検出コンポーネント326、および人体測定コンポーネント328のような、処理装置304の一つまたは複数のコンポーネント（図3を参照）と同様に動作してもよい。人体測定システム400は、データ抽出コンポーネント402、写真測量コンポーネント404、スケール測定コンポーネント406、顔ランドマーク検出コンポーネント408、コンテキスト変換コンポーネント410、クロッピング・コンポーネント412、ランドマーク検出コンポーネント414、3D投影コンポーネント416、角度および距離コンポーネント418、およびデータまとめコンポーネント420を含む。人体測定システム400のコンポーネントの機能は、たとえば一つまたは複数のコンピュータ・プログラムを実行する一つまたは複数のプロセッサによって実装されてもよい。

データ抽出コンポーネント402は、入力データ401を受領し、データ抽出および選択を実行し、人口統計学的データ403、構造的イメージ405、およびスケール・イメージ407を生成する。入力データ401は、ユーザー入力装置110a（図1参照）または入力装置302（図3参照）から受領されてもよく、たとえば、携帯電話のカメラによって捕捉された画像データを含む（図2の214参照）。データ抽出コンポーネントは、人口統計学的データ403をデータまとめコンポーネント420に直接提供し、構造的イメージ405を写真測量コンポーネント404に、スケール・イメージ407をスケール測定コンポーネント406に提供する。

写真測量コンポーネント404は一般に、構造的イメージ405に対して動きからの構造（SfM）のような写真測量プロセスを実行し、カメラ変換411および画像集合409を生成する。写真測量プロセスは、構造的イメージ405を受け取り、構造的イメージ405のサブセットであってもよい画像集合409の各フレームに対応するカメラ変換411（たとえば、カメラの視点位置および視点配向）の集合を生成する。視点配向は、しばしば四元数または回転行列の形式のいずれかで表現されるが、本稿の目的のためには、数学的な例は回転行列の形式で表現される。画像集合409は、顔ランドマーク検出コンポーネント408およびクロッピング・コンポーネント412に渡される。カメラ変換411は、コンテキスト変換コンポーネント410に渡される。

写真測量コンポーネント404は、任意的に、SfMプロセスを実行する前に、制約された画像特徴探索を使用して構造的イメージ405に対して画像特徴検出を実行してもよい。制約された画像特徴探索は、捕捉プロセスにおけるユーザーの誤りを克服することによって、SfMプロセスの結果を改善しうる。

スケール測定コンポーネント406は、データ抽出コンポーネント402からのスケール・イメージ407を使用して、後にカメラ変換411をスケーリングする際に使用するための情報を生成する。相同物測度413と呼ばれるスケーリング情報は、要約すると、以下のように生成される。スケーリング・イメージは可視のスケール参照を含み、スケーリング測定コンポーネント406は、スケーリング・イメージの同じフレーム内および構造的イメージの一つまたは複数のフレーム内で可視であるスケール相同物（scale homologue）を測定するために、そのスケール参照を使用する。結果として得られるスケール相同物の測度は、相同物測度（homologue measure）413としてコンテキスト変換成分410に渡される。

顔ランドマーク検出コンポーネント408は、写真測量コンポーネント404から受け取った画像集合409のフレーム内の可視の顔ランドマークを探す。検出されたランドマークは、ユーザーの鼻上の諸点、ならびに瞳孔の位置を含んでいてもよく、これらは後に、画像集合409およびスケール・イメージ407の両方において見えるスケール相同物として使用されてもよい。結果として得られる顔ランドマーク415は、コンテキスト変換コンポーネント410に渡される。

コンテキスト変換コンポーネント410は、写真測量コンポーネント404からカメラ変換411を、スケール測定コンポーネント406から相同物測度413を、顔ランドマーク検出コンポーネント408から顔ランドマーク415の集合を受け取る。コンテキスト変換コンポーネント410は、カメラ変換411を、画像集合409の構造的イメージにおいて捕捉された音響解剖構造のコンテキストに合うように適切に中心合わせされ、配向され、かつスケーリングされた一組のカメラ変換417に実効的に変換する。要約すると、コンテキスト変換は、顔ランドマーク415および相同物測度413を使用してカメラ変換411の位置情報をスケーリングし、顔ランドマーク415を使用してカメラ変換411を3D空間内で回転させ、3D空間の原点をユーザーの頭部の中心に移動させるために、カメラ変換411の位置情報を並進させることによって達成される。結果として得られるカメラ変換417は、クロッピング・コンポーネント412および3D投影コンポーネント416に渡される。

クロッピング・コンポーネント412は、一般に、カメラ変換417を使用して、画像集合409からのフレームのサブセットを選択し、クロッピングする。適切に中心合わせされ、配向され、スケーリングされた後、クロッピング・コンポーネント412は、カメラ変換417を使用して、画像集合409からの画像のどのサブセットが、ユーザーの音響解剖構造の特定の特性の構造的イメージを含むかを推定する。さらに、クロッピング・コンポーネント412は、カメラ変換417を使用して、各画像のどの部分が特定の特性の構造的イメージを含むかを推定してもよい。クロッピング・コンポーネント412は、このように、画像集合409のサブセットの個々のフレームをクロッピングして、クロップ419という、結果として生じる画像データを生成するために使用できる。

ランドマーク検出コンポーネント414は、一般に、クロップ419の2D画像データ内に見えるユーザーの音響解剖構造の指定されたランドマークの予測される位置を提供する。よって、所与の画像フレーム内で可視であるランドマークは、順序付けられた2D点位置の対応する集合としてラベル付けされる。クロッピング・コンポーネント412およびランドマーク検出コンポーネント414は、画像集合409の異なるサブセット内で可視でありうるランドマークの複数の異なる集合をクロッピングおよび検出することによって、制約された再帰的ランドマーク検索を実装するように協調させられてもよい。ランドマーク検出コンポーネント414は、解剖学的ランドマークの、結果として得られた2D座標421を、3D投影コンポーネント416に渡す。

3D投影コンポーネント416は、一般に、カメラ変換417を使用して、各解剖学的ランドマークの一連の2D座標421を、3D空間内の単一の位置に変換する。3Dランドマーク位置のフルセットは、3D座標423として、角度および距離測定コンポーネント418に渡される。

角度および距離測定コンポーネント418は、3D座標423のさまざまな点の間の角度および距離を測定するために、あらかじめ決定された命令の集合を使用する。これらの測定は、単純なユークリッド幾何学を適用することによって達成されてもよい。結果として得られた測度は、実効的に人体測定データ425として使用でき、データまとめコンポーネント420に渡される。

データまとめコンポーネント420は、一般に、人口統計学的データ403を人体測定データ425と組み合わせて、生成データ427の完全な集合を形成する。これらの生成データ427は、その後、HRTF計算システム（たとえば、図5の生成データ535）において、ユーザーのためのパーソナライズされたHRTFを導出するために上述したように使用されてもよい。

人体測定システム400のさらなる詳細および例は、以下の通りである。

構造的イメージ405のフレームの全部が、写真測量コンポーネント404において使用されることができるが、システムは、計算効率のためにそれらを減らすことによって、よりよいパフォーマンスを達成してもよい。最良のフレームを選択するために、データ抽出コンポーネント402は、フレーム内容および鮮鋭度〔シャープネス〕メトリックを評価してもよい。フレーム内容選択の例は、冗長性を避けるための連続画像における類似性の探索であってもよい。鮮鋭度メトリックは、いくつかの鮮鋭度メトリックから選択されてもよく、一例は、2D空間周波数パワースペクトルを動径方向につぶして1Dパワースペクトルにしたものの使用である。データ抽出コンポーネント402は、構造的イメージ405の選択された集合を写真測量コンポーネント404に提供する。写真測量コンポーネント404は、時間集約的なプロセスを実装することがあるので、データ抽出コンポーネント402は、入力データ401からのスケーリング・イメージ407または人口統計学的データ403を収集する前に、構造的イメージ405を渡してもよい。システムが並列処理できる場合、この動作順序は、望ましい最適化の例でありうる。

SfMプロセスは、一連のフレーム（たとえば、構造的イメージ405、これは逐次順に順序付けられている必要はない）を入力し、入力された各フレームについて、捕捉プロセスにおいて撮像された想定される剛体オブジェクトの推定値（たとえば3D点群）ならびに計算された視点位置（x,y,z）および回転行列を出力する。これらの視点位置および回転行列は、各カメラが世界空間に関してどこに位置し、配向されているかを記述するため、本稿では、カメラ変換（camera transform）（たとえば、カメラ変換411）と称される。世界空間とは、あらゆるカメラ視点および構造的イメージを含む3D座標系についての一般的な用語である。本願では、3D点群自体はそれ以上使用される必要はないことを注意しておく。すなわち、ユーザーの人体測定測定値決定のどの部分についても、3Dメッシュ・オブジェクトを生成することは必要ない。SfMプロセスが、構造的イメージ405の最適集合内の画像の一つまたは複数についてカメラ変換を導出することに失敗することは珍しくない。この理由のため、失敗したフレームは後続の処理から省略されてもよい。オートフォーカス・カメラ・アプリケーションは、必ずしもこのシステムの捕捉条件のために最適化されていないので、画像捕捉コンポーネント（図3参照）が画像捕捉プロセス中にカメラ焦点距離を固定することが有用でありうる。

SfMプロセスは、耳介および頭部を本質的に剛体オブジェクトであると考える。これらのオブジェクトの形状および位置を決定する際に、SfMプロセスは、まず、SIFT（shift-invariant feature transform［シフト不変特徴変換］）、HA（Hessian Affine［ヘシアン・アフィン］特徴点検出器）、またはHOG（histogram of oriented gradients［配向勾配のヒストグラム］）などの一つまたは複数の既知の画像特徴検出アルゴリズムを実装する。結果として得られる画像特徴は、個別に事前トレーニングされたものではなく、音響解剖特徴のコンテキストに特有のものでないという点で、顔および解剖学的ランドマークとは異なる。ユーザーの身体の他の部分は、捕捉プロセスを通じて剛体のままでない可能性があるため、頭部の領域において検出された画像特徴のみを用いて幾何構成を推論するよう、写真測量プロセスをプログラムすることが有用である。画像特徴のこの選択は、写真測量コンポーネント404を実行する前に、顔ランドマーク検出コンポーネント408を実行することによって達成できる。たとえば、顔検出の既知の技術を使用して、各画像内の頭部または顔のバウンディングボックスによって定義されるランドマークを推定することができる。次いで、写真測量コンポーネント404は、各画像にマスクを適用して、対応するバウンディングボックス内部でコンピュータビジョンによって検出された画像特徴のみを含めることができる。別の実施形態では、顔ランドマークは、検出された画像特徴の代わりに、またはそれに加えて、写真測量コンポーネント404によって直接使用されてもよい。写真測量プロセスで使用される画像特徴の範囲を制約することによって、システムをより効率的にし、最適化することもできる。顔ランドマーク検出コンポーネント408が、写真測量コンポーネント404の前に実行される場合、顔ランドマーク検出コンポーネント408は、データ抽出コンポーネント402から直接、構造的イメージ405を、画像集合409の代わりに、受け取り、顔ランドマーク415を、写真測量コンポーネント404およびコンテキスト変換コンポーネント410の両方に渡すことができる。

写真測量コンポーネント404は、焦点距離補償コンポーネントをも含んでいてもよい。カメラの焦点距離は、耳の形状の深さを誇張するか（たとえば、短い焦点距離による樽形歪みによる）、またはそのような深さを減少させることがある（たとえば、長い焦点距離による糸巻き形歪みによる）。多くのスマートフォンカメラでは、そのような焦点距離歪みは、しばしば樽形歪みのタイプであり、それは、焦点距離および捕捉される像までの距離に応じて焦点距離補償コンポーネントが検出できる。この焦点距離補償プロセスは、既知の方法を使用して適用されて、画像集合409の歪みを除去してもよい。この補償は、ハンドヘルド捕捉方法からの構造的イメージを処理するときに特に有用でありうる。

スケール測定コンポーネント406のより詳細な説明は、以下の通りである。スケール参照（scale reference）という用語は、紙幣または身分証明カードのような既知のサイズの撮像されたオブジェクトを指す。スケール相同物（scale homologue）という用語は、2つ以上の画像に共通であり、各画像におけるオブジェクトの相対的なサイズまたはスケールを推測するために使用されうる撮像されたオブジェクトまたは距離を指す。このスケール相同物は、構造的イメージとも共有され、したがって、構造的イメージおよびそこで行なわれる任意の測定をスケーリングするために使用できる。多様なスケール相同体およびスケール参照が使用でき、下記の実施形態は一例である。

以下は、スケール測定コンポーネント406の例示的実施形態である。ユーザーは、既知のサイズ（たとえば、85.60mm×53.98mm）を有するカードをその顔のところに（たとえば、口の前で、顔の正面に対して垂直に）保持するユーザーの画像を捕捉してもよい。この画像は、構造的イメージ405の捕捉と同様の仕方で捕捉されてもよく（たとえば、構造的イメージ405の捕捉の前または後、他の仕方でカードが捕捉プロセスを妨げないように）、顔の正面に対して垂直な位置から捕捉されてもよい。次いで、カードは、ユーザーの瞳孔の間の物理的な瞳孔間距離をミリメートル単位で測定するためにスケール参照として使用されてもよく、瞳孔間距離は、後に、構造的イメージに絶対スケールを適用するために、スケール相同物としてコンテキスト変換コンポーネント410によって使用されてもよい。これは、構造的イメージ捕捉が、ユーザーの瞳孔が可視である一つまたは複数の画像を含むために可能である。スケール測定コンポーネント406は、スケール参照およびスケール相同物を検出および測定するために一つまたは複数のニューラルネットワークを実装してもよく、コンピュータビジョン・プロセスを適用して測定を洗練してもよい。

ある実施形態では、顔ランドマーク検出コンポーネント408で使用される顔検出アルゴリズムが、スケール・イメージ内のユーザーの瞳孔のピクセル座標を位置特定するためにも使用されうる。スケール測定コンポーネント406は、事前トレーニングされたニューラルネットワークおよび／またはコンピュータビジョン技術を用いて、スケール参照の境界および／またはランドマークを定義してもよい。この例示的な実施形態では、スケール測定コンポーネント406は、カードのコーナーを推定するために事前トレーニングされたニューラルネットワークを使用してもよい。次に、ニューラルネットワークによって検出されたカードのコーナーを記述する点の各対に、粗い線が適合（fit）されてもよい。これらの粗い線の間のピクセル距離を、ミリメートル単位でのスケール参照の既知の寸法によって除算して、カードの距離における画像のミリメートル当たりのピクセル数を導出しうる。

正確さのために、スケール測定コンポーネント406は、カードの測定を微調整するために、以下のコンピュータビジョン技術を実行してもよい。まず、キャニー・エッジ検出アルゴリズムを、スケール・イメージの正規化されたバージョンに適用してもよい。次いで、ハフ変換を用いて、スケール・イメージにおける細かい線を推測してもよい。それぞれの粗い線とそれぞれの細かい線との間の面積を算出することができる。次いで、閾値（たとえば、画像の寸法かける10ピクセル）を使用して、粗いニューラルネットワーク予測からの離間が小さな面積である細かい線のみを選択することができる。最後に、選択された細かい線の中央値が、カードの最終的な境界として選択されて、画像のミリメートル当たりのピクセル数を導出するために上述のように使用されてもよい。カードとユーザーの瞳孔はカメラから同様の距離にあるので、ユーザーの瞳孔間距離を実際のミリメートル単位で測定するために、ピクセル単位でのユーザーの瞳孔間の距離を、ミリメートル当たりのピクセル数計算で割ってもよい。このように、スケール測定コンポーネント406は、相同物測度413としてこの瞳孔間距離（interpupillary distance）をコンテキスト変換コンポーネント410に渡す。

スケーリング技術の上記の実施形態は、比較的正確であり、かつ標準的なカメラを含む広範囲の入力装置でアクセス可能であることが観察されている。以下の実施形態は、追加的なセンサーが入力装置にとって利用可能であり、スケール参照を必要とすることなくスケール情報を推論するために使用されうる場合の代替として提示される。スケール相同物を測定する第2のプロセスは、カメラだけでなく、マイクロフォンおよびスピーカー（たとえば、一対のイヤーバッド）も利用するマルチモーダル・アプローチであり、利用されるこれらはみな、捕捉装置（たとえば、携帯電話のような図1のユーザー入力装置110a）のコンポーネントであってもよい。音は、343m/sで確実に伝わることが知られているので、ユーザーの顔の隣のイヤーバッドで再生された信号音は、精密に音が電話機のマイクロフォンまで伝わるのに必要な量の遅延で、電話で記録されることが期待できる。すると、この遅延に音速を乗じて、電話から顔までの距離を求めることができる。音が発射されるのと同時に顔の画像が撮影されてもよく、この画像は、ユーザーの目のようなスケール相同物を含む。スケール測定コンポーネントは、ユーザーの瞳孔間の距離、または別の基準点の対の間の距離をメートル法単位で計算するために、何らかの単純な三角法を使用してもよい：
d＝delay*sos
w_mm＝2*tan(aov/2)*d
ipd_mm＝w_mm*ipd_pix/w_pix
（上記の式において、ipd_pixはユーザーの瞳孔の間のピクセル距離、ipd_mmはユーザーの瞳孔の間のミリメートル距離、sosはミリメートル毎ミリ秒単位の音速（speed of sound）、delayは信号音の再生から記録までのミリ秒単位での遅延、w_mmは距離dにおける撮像面の水平方向の寸法（ミリメートル単位）、w_pixは画像の水平方向の寸法（ピクセル単位）、aovは撮像するカメラの水平方向の視野角（angle of view）である。）

ワイヤレスのイヤーバッドや、おそらくは耳にかけるヘッドフォンが使用されてもよく、単に電源を入れることでプロセスを開始してもよい。記録された信号の音量は、イヤーバッドとマイクロフォンとの間の近接性の指標として使用されてもよい。イヤーバッドは、一般に、スケール相同物に近接して配置されうる。音信号は、人間の聴覚の閾値内、それより下、またはそれより上であってもよく、チャープ、周波数掃引、イルカの呼び声、または他のそのような魅力的で心地よい音などでありうる。音は極端に短い（たとえば1秒未満）のでもよく、冗長性、平均化、統計分析の目的のために多くの測定を（たとえば何秒もかけて）行なうことを許容する。

頭部のまわりでカメラを物理的に掃引する代替的な捕捉プロセスにおいて使用されうる、構造的イメージのスケールを確立するための別のオプションは、カメラ位置の間の絶対的な距離を確立するためにユーザー入力装置（たとえば、図1の110a）からの慣性測定ユニット（inertial measurement unit、IMU）データを使用することである（たとえば、受け入れられる公差をもつ加速度計、ジャイロスコープなど）。捕捉プロセスの実施形態のいずれかで使用されうる、構造的イメージのスケールを確立するための別のオプションは、多様な形の入力装置によって利用可能にされうる、画像レンジイメージング（image range imaging）を使用することである。たとえば、現代の携帯電話のようないくつかの入力装置は、構造化光、分割ピクセル、または干渉測定のような技術を利用するレンジカメラ（range camera）を備えている。これらの技術のいずれかが標準的なカメラと組み合わせて使用される場合、所与のピクセルの奥行きについて、既知の方法を介して推定値を導出することができる。よって、スケール相同物とカメラとの間の距離は、これらの技術を用いて直接推定されてもよく、スケール相同物を測定するためのその後のプロセスは、上述のように実施されてもよい。

顔ランドマーク検出コンポーネント408は、顔検出を以下のように実行してもよい。顔ランドマーク検出コンポーネント408は、配向勾配のヒストグラムを用いて画像集合409のクリアなフレームからランドマークを抽出してもよい。一例として、顔ランドマーク検出コンポーネント408は、非特許文献１に記載されるプロセスを実装してもよい。顔ランドマーク検出コンポーネント408は、抽出されたランドマークの分類のためのスライディング窓アプローチを有するサポートベクターマシン（SVM）を実装してもよい。顔ランドマーク検出コンポーネント408は、非最大抑制（non-max suppression）を使用して複数の検出を拒否してもよい。顔ランドマーク検出コンポーネント408は、多数の顔（たとえば、3000の顔）で事前にトレーニングされたモデルを使用してもよい。
Navneet Dalal and Bill Triggs、Histograms of Oriented Gradients for Human Detection、International Conference on Computer Vision & Pattern Recognition (CVPR '05), June 2005, San Diego, United States, pp.886-893

顔ランドマーク検出コンポーネント408は、回帰ツリーのアンサンブルを使用して2D座標検出を実行してもよい。一例として、顔ランドマーク検出コンポーネント408は、非特許文献２に記載されるプロセスを実装してもよい。顔ランドマーク検出コンポーネント408は、いくつかの顔ランドマーク（たとえば、各眼の内側エッジおよび外側エッジ、ならびに耳小柱などの5つのランドマーク）を識別してもよい。顔ランドマーク検出コンポーネント408は、多数の顔（たとえば、7198の顔）で事前にトレーニングされたモデルを使用して、顔ランドマークを識別してもよい。ランドマークは、顔のバウンディングボックスまたは境界（頬、顎などの外側）、眉、瞳孔、鼻（鼻柱、鼻孔など）、口などを画定する点のような、さまざまな顔の特徴に対応するいくつかの点を含んでいてもよい。
Vahid Kazemi and Josephine Sullivan、One Millisecond Face Alignment with an Ensemble of Regression Trees、The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2014, pp.1867-1874

別の実施形態では、畳み込みニューラルネットワークが、2D顔ランドマーク検出のために使用されてもよい。顔ランドマーク検出コンポーネント408は、注釈付けされた顔のデータベース上でトレーニングされたニューラルネットワークモデルを使用して、いくつかの顔ランドマーク（たとえば、5つ以上）を識別してもよい。ランドマークは、さまざまな顔ランドマークの2D座標を含んでいてもよい。

コンテキスト変換コンポーネント410は、一連の座標変換および配向変換を使用して、カメラ変換411をユーザーの頭部に関して正規化する。変換のコンテキストは、HRTFの生成において測定または計算される人間の頭部の位置決めおよび配向と同様である。たとえば、ある実施形態では、ターゲット・データ（図5のトレーニング環境502を参照）において使用されるHRTFは、ユーザーの両外耳道の間を走るx軸と、ユーザーの鼻を通るy軸とを用いて計算または測定される。

コンテキスト変換コンポーネント410は、まず、最小二乗アルゴリズムを使用して、カメラ変換411の位置データに最も適合する（fit）平面を見出す。次いで、コンテキスト変換コンポーネント410は、（カメラ変換411とともに）最良適合〔ベストフィット〕平面をxy平面上に（z軸が「上」および「下」として正確に記述されるように）回転させることができる。

絶対的スケーリングおよび他のその後の変換を完了するために、コンテキスト変換コンポーネント410は、世界空間における、瞳孔および鼻を含みうる顔ランドマーク415のいくつかのキー・ランドマークの位置を推定することができる。システムは、2D顔ランドマーク415のフルセットを使ってこれらのランドマークを位置決めするために、のちに詳述する3D投影コンポーネント416と同様のプロセスを使用することができる。ひとたび顔ランドマークの3D位置が決定されたら、以下の変換が実行されてもよい。

まず、世界空間の原点は、カメラ変換411の位置情報および顔ランドマーク415の3D位置から、眼の3D座標の算術平均を差し引くことによって、中心合わせされてもよい。次に、絶対的なスケールを世界空間に適用するために、コンテキスト変換コンポーネント410は、カメラ変換411における位置情報と、顔ランドマーク415の3D位置とに、スケーリング比を乗算してもよい。このスケーリング比は、相同物測度413を、各眼の左側および右側の3D位置、または瞳孔自身の3D位置を用いて計算された瞳孔間距離の推定値で割ることによって導出することができる。このスケーリング・プロセスにより、HRTF合成システム400は、実世界の（物理的な）距離を使用することができる。物理的距離は、特に、音波および音波のその後の反射、回折、吸収、および共鳴挙動に関係するためである。

この時点で、スケーリングされ、中心合わせされたカメラ変換は、z軸と称されることがある世界空間の垂直軸のまわりに配向される必要がある。写真の分野では、被写体の顔と鼻がまっすぐカメラに向けられた写真は普通、正面向きの写真と呼ばれる。カメラ変換411を世界空間のz軸のまわりに回転させて、画像集合409の正面向きのフレームが、世界空間の他の2つの軸のうちの1つ、たとえばy軸に対して0度に位置決めされたカメラ変換に対応するようにすることが有用でありうる。コンテキスト変換コンポーネント410は、画像集合409の正面向きのフレームを識別するために、以下のプロセスを実装してもよい。コンテキスト変換コンポーネント410は、「正面向きの」参照フレームを見つけるために、顔ランドマーク415の点非対称性を最小化する。たとえば、正面向きのフレームは、各対の瞳孔が鼻から等距離に最も近いフレームとして定義されてもよい。数学的な表現では、コンテキスト変換コンポーネント410は、非対称関数｜L－R｜/Fに従って非対称性を計算してもよい。ここで、Lは、左側のランドマークの重心であり、Rは、右側のランドマークの重心であり、Fは、すべての顔ランドマーク415の重心である。すると、正面向きのフレームは、非対称性が最小化されるフレームである。ひとたび正面向きのフレームが選択されると、カメラ変換411および顔ランドマーク415の3D位置は、z軸のまわりに回転されて、画像集合409の正面向きのフレームが、世界空間のy軸に対して0度に位置決めされたカメラ変換に対応するようにされてもよい。

最後に、コンテキスト変換コンポーネント410は、世界空間の原点が顔の中心ではなく、むしろ耳の間の推定点に対応するように、カメラ変換411を頭の中に並進させてもよい。これは単に、顔と両耳間軸の間の直交距離の平均値だけy軸に沿ってカメラ変換を並進させることによってできる。この値は、メッシュ・データベース（図5のメッシュ・データ511を参照）中の人間の人体測定データを使用して計算されうる。たとえば、著者らは、そのデータ集合の眉と耳の間の平均直交距離が106.3ミリメートルであることを見出した。ある実施形態では、頭部の角度ピッチを考慮に入れるために、カメラ変換は、両耳間軸、すなわち外耳道間の軸のまわりにも回転されてもよい。この回転は、鼻の3D位置がy軸に沿って位置するようになされてもよい。

上述のプロセスの結果として、コンテキスト変換コンポーネント410は、中心合わせされ、レベル合わせされ、およびスケーリングされたカメラ変換417を生成する。これらのカメラ変換417は、ユーザーの音響解剖構造を記述するさまざまな点が可視である画像を推定するために、クロッピング・コンポーネント412によって使用されてもよい。たとえば、カメラ変換417が世界空間のz軸のまわりに時計回りに30度から100度の間に位置決めされた画像は、ユーザーの鼻先が0度で世界空間のy軸と整列されていることを考えると、ユーザーの右耳の構造的画像を含む可能性が高い。ひとたびこれらの画像が画像集合409から選択されると、それらは、関心のあるランドマーク（単数または複数）の構造的イメージを含むと推定される画像の部分のみを含むようにクロッピングされうる。

各画像を適切な部分にクロッピングするために、クロッピング・コンポーネント412は、関心のある解剖学的ランドマークを含む3D点群の近似的な位置およびサイズを計算してもよい。たとえば、外耳道間の平均距離は約160ミリメートルであり、カメラ変換411は、この線の推定された二等分線を中心としている。よって、各耳の点群の位置は、ユーザーの鼻先が世界空間のy軸と整列していることを考えると、世界空間のx軸に沿った各方向に約80ミリメートルであると期待されうる。この例では、各3D点群のサイズは、直径が約65mmである可能性が高い。これは耳の平均長を記述する。

ここで、クロッピングは、以下の技術を用いて達成されうる。各カメラの変換の配向情報は、カメラの3軸が世界空間の3軸にどのように線形に関係するかを記述し、カメラの主軸は、通常、カメラの位置から画像フレームの中心を通過するベクトルを記述すると考えられる。ランドマーク線を、カメラの位置とランドマーク点群の推定位置との間の、世界空間における直線とする。カメラ変換の回転行列は、カメラ空間内のランドマーク線、または特定のカメラの3D座標系を直接表わすために使用されうる。カメラの視野角は、カメラの35ミリメートルの等価焦点距離または焦点距離とセンサー・サイズとを用いて計算できる固有のパラメータであり、いずれも、カメラ・ルックアップテーブルから、各画像と一緒にエンコードされたEXIFデータから、または捕捉の時点での入力装置自身から導出することができる。ランドマーク線は、カメラの視野角および画像のピクセル寸法を使用して、画像上に投影されてもよい。たとえば、画像平面における画像の中心とランドマークとの間の水平ピクセル距離（"x"）は、次のように近似されうる：
d_pix＝(w_pix/2)/tan(aov/2)
x_pix=d_pix*tan(fax/2)
（上記の式において、d_pixはカメラと画像平面との間のピクセル単位の距離、w_pixは画像の水平寸法、aovは撮像カメラの水平視野角、faxはランドマーク線の水平角度成分である。）

ひとたびランドマーク点群の中心のピクセル位置が近似されると、クロップの適切な幅および高さは、同様の方法を使用して計算されうる。たとえば、ほぼすべての耳は最も長い対角線に沿って100ミリメートル未満であるため、耳のランドマークを位置特定するためには100ミリメートルのクロップが合理的である。下記のステップで記載されるように、多くのニューラルネットワークは、正方形画像を入力として使用し、これは、最終的なクロッピングされた画像が同じ高さおよび幅を有することを意味する。したがって、この耳の例については、ランドマーク中心から垂直方向および水平方向に±50ミリメートルのクロップが適切でありうる。世界空間単位でのカメラから画像平面までの距離は、世界空間における、ランドマーク線の、カメラの主軸への直交投影の大きさを計算することによって計算されてもよい。この距離は上記でピクセル単位で計算されているので、ミリメートル当たりのピクセル数の比を計算し、50ミリメートルのクロッピング寸法に適用して、ピクセル単位でのクロップの境界を決定することができる。ひとたびクロッピング・コンポーネント412がこのクロッピング・プロセスを完了したら、画像は、下記に記載されるように、再スケーリングされ、ランドマーク検出コンポーネント414において使用されうる。

2D座標421を識別するために、ランドマーク検出コンポーネント414は、ニューラルネットワークを使用してもよい。たとえば、パーソナライズ・サーバー120a（図1を参照）またはユーザー入力装置110a（図1を参照）は、ニューラルネットワーク・コンポーネント326（図3を参照）、顔検出コンポーネント（図4の410を参照）、または顔ランドマーク検出コンポーネント（図4の408を参照）を実装する一部として、ニューラルネットワークを使用してもよい。ある実施形態によれば、システムは、解剖学的ランドマークのラベル付けを実行する畳み込みニューラルネットワーク（CNN）を実装する。システムは、ImageNetデータベース上で事前トレーニングされたMobileNetsアーキテクチャーを使用して、TensorFlow機械学習ソフトウェア・ライブラリの上にKerasニューラルネットワーク・ライブラリ（Pythonで書かれている）を実行することによって、CNNを実装することができる。MobileNetsアーキテクチャーは、0.25のアルファ乗数と1の解像度乗数とを使用してもよく、人体測定データ425を構築するための顔のランドマークを検出するために、構造的イメージのデータベース上でトレーニングされてもよい。

たとえば、画像（たとえば、構造的イメージ・フレーム313の1つ）は、より小さい解像度の画像にダウンサンプリングされてもよく、サイズ224×224×3を有するテンソル（多次元データ配列）として表現されてもよい。画像は、ランドマークの所与の集合を検出するようにトレーニングされたMobileNetsアーキテクチャーによって処理され、結果として、n個のランドマークのxおよびy座標を同定するサイズ1x(2*n)を有するテンソルを生じてもよい。たとえば、このプロセスは、18個の耳ランドマークおよび9個の胴体ランドマークについてのxおよびy座標を生成するために使用されてもよい。異なる実施形態では、Inception V3アーキテクチャー、または異なる畳み込みニューラルネットワーク・アーキテクチャーが使用されてもよい。クロッピング・コンポーネント412およびランドマーク検出コンポーネント414は、異なる画像および／またはランドマークの異なる集合について、反復的にまたは同時に使用されうる。

各ランドマークの座標について特異値を推定するために、ランドマーク検出コンポーネント414からの2D座標421が、カメラ変換417と一緒に3D投影コンポーネント416に渡される。3D投影コンポーネント416は、各カメラからの2D座標421を世界空間に投影し、次いで、各ランドマークについて投影された射線（ray）の集合の交わりを近似するために最小二乗計算を実行してもよい。たとえば、上記のクロッピング・コンポーネント412の説明は、一連の既知の写真測量方法を介して、世界空間内のランドマーク線がどのように画像平面に投影されうるかを詳述している。このプロセスは可逆的であり、画像平面内の各ランドマークが、世界空間内のランドマーク線として表現されてもよい。最小二乗解法のような、3D空間における複数の線の交差を推定するためのいくつかの既知の方法がある。3D投影コンポーネント416の終結時には、異なる視野範囲からおよび／または異なるニューラルネットワークを使用することによって収集されうる複数のランドマーク位置が、世界空間において計算された。3D座標423のこの集合は、各瞳孔の位置の上記の計算のような他の方法を介して計算された3D座標をも含んでいてもよい。

ある実施形態では、コンテキスト変換コンポーネント410、クロッピング・コンポーネント412、ランドマーク検出コンポーネント414、および3D投影コンポーネント416の処理を、逐次反復的洗練プロセスの一部として、繰り返すことが有用でありうる。たとえば、コンテキスト変換コンポーネント410の初期反復工程は、カメラ変換417の「粗い」位置決めおよび配向とみなすことができ、クロッピング・コンポーネント412の初期反復工程は、画像集合409からの「粗い」選択およびクロッピングとみなすことができる。3D座標423は、各耳の推定された位置を含んでいてもよく、これが、「細かい」反復工程においてコンテキスト変換コンポーネント410を反復するために使用されうる。好ましい実施形態では、「粗い」クロップは、ランドマーク線推定における誤差を斟酌するために、ランドマーク点群の推定されるサイズよりも有意に大きいものであってもよい。洗練プロセスの一部として、クロッピング・コンポーネント412は、コンテキスト変換コンポーネント410の細かい反復工程の後に、画像のよりタイトでより小さなクロップを用いて反復されてもよい。この洗練プロセスは、所望の回数だけ繰り返すことができるが、ある実施形態では、少なくとも1回の洗練反復工程が推奨される。これが推奨されるのは、ランドマーク検出コンポーネント414の精度が、クロッピング・コンポーネント412がよりタイトなクロップを使用する場合には、より高いことが著者らによって見出されているが、クロップは、ランドマーク集合全体の構造的イメージを含まなければならず、よって、ランドマーク線の正確な推定値を使用して設定されなければならないからである。

パーソナライズされたHRTFを生成するためにシステムが使用する実際の人体測定データは、解剖学的特性の長さおよび解剖学的特性間の角度を表わすスカラー値である。3D座標423の諸サブセットにわたるこれらの計算は、角度および距離測定コンポーネント418によって規定され、実行される。たとえば、角度および距離測定コンポーネント418は、3D座標集合423に属する「左肩」座標と「右肩」座標との間のユークリッド距離としての「肩幅」の計算を規定してもよい。別の例として、角度および距離測定コンポーネント418は、「耳甲介前（concha front）」座標と「上耳輪（superior helix）」座標との間のベクトルの水平成分の角度表現としての「耳介フレア角（pinna flare angle）」の計算を規定してもよい。HRTF計算において使用するための人体測定測度の既知の集合が提案されており、このプロセスの間に収集されうる。たとえば、3D座標423から決定される人体測定値は、ユーザーの各耳介について、耳介フレア角、耳介回転角、耳介裂け角（pinna cleft angle）、後方耳介オフセット（pinna offset back）、下方耳介オフセット（pinna offset down）、耳介高さ、第1の耳介幅、第2の耳介幅、第1の耳珠間幅、第2の耳珠間幅、窩高さ、耳甲介幅、耳甲介高さ、および耳甲介舟高さを含んでいてもよい。この時点で、データまとめコンポーネント420は、結果として得られた人体測定データ425および前述した人口統計学的データ403を集めて、パーソナライズされたHRTFを生成するのに必要な生成データ427を形成することができる。

データまとめコンポーネント〔データ・コンピレーション・コンポーネント〕420は、生成データ427をまとめる際に、たちのよい劣化（graceful degradation）と呼ばれるものを実行してもよい。人口統計学的データ403の一つまたは複数の予測子が提供されない場合、または生成データ427の一つまたは複数の予測子の同定が失敗する、または決定的でない場合に、たちのよい劣化が使用されうる。そのような場合、データまとめコンポーネント420は、生成データ427の他の既知の予測子に基づいて、欠けている予測子の推定値を生成してもよく、次いで、推定された予測子を、パーソナライズされたHRTFを生成することの一部として使用してもよい。たとえば、システムが肩幅についての測定値を決定できない場合、システムは、肩幅についての推定値を生成するために、人口統計学的データ（たとえば、年齢、性別、体重、身長など）を使用してもよい。別の例として、データまとめコンポーネント420は、信頼度の高いメトリック（たとえば、最小二乗解法における低い誤差）をもってなされたいくつかの耳介特性の計算を使用して、より低い信頼度をもって計算された他の耳介特性の値を推定してもよい。生成データ427の諸サブセットを他の諸サブセットを使用して推定することは、所定の関係を使用して達成されうる。たとえば、トレーニング環境（図5の502を参照）の一部として、システムは、高解像度メッシュ・データのトレーニング・データベースからの人体測定データを使用して、生成データのさまざまな集合の間で線形回帰を実行してもよい。別の例として、公表されている米国陸軍兵士の人体測定調査（Anthropometric Survey）（ANSUR 2またはANSUR II）は、生成データに予測子として含まれていてもよく、上述の線形回帰法で使用されうるある種の特性を含んでいる。要するに、データまとめコンポーネント420は、人口統計学的データ403および人体測定データ425内の利用可能な情報から欠けている値を推定することによって、欠損データの問題を回避する。生成データ427の完全な諸集合を使用することにより、HRTF計算システムにおいて、欠けているデータを考慮に入れる必要を回避する。

実装の詳細
実施形態は、ハードウェア、コンピュータ読み取り可能媒体上に記憶された実行可能モジュール、または両方の組み合わせ（たとえば、プログラマブル論理アレイ）において実施されてもよい。特に断わりのない限り、実施形態によって実行されるステップは、どの特定のコンピュータまたは他の装置にも本来的に関係する必要はないが、ある種の実施形態では関係することもある。特に、さまざまな汎用機械が、本明細書の教示に従って書かれたプログラムとともに使用でき、または、必要な方法ステップを実行するために、より特化した装置（たとえば、集積回路）を構築することがより便利であることもある。よって、実施形態は、それぞれが少なくとも1つのプロセッサ、少なくとも1つのデータ記憶システム（揮発性および不揮発性メモリおよび／または記憶要素を含む）、少なくとも1つの入力装置またはポート、および少なくとも1つの出力装置またはポートを有する、一つまたは複数のプログラム可能なコンピュータ・システム上で実行される一つまたは複数のコンピュータ・プログラムにおいて実装されてもよい。プログラムコードは、本明細書に記載の機能を実行し、出力情報を生成するために入力データに適用される。出力情報は、既知の仕方で一つまたは複数の出力装置に適用される。

そのようなコンピュータ・プログラムのそれぞれは、好ましくは、本明細書に記載される手順を実行するためにコンピュータ・システムによって記憶媒体またはデバイスが読み出されるときに、コンピュータを構成し、動作させるために、汎用または特殊目的のプログラム可能なコンピュータによって読出可能な記憶媒体またはデバイス（たとえば、固体メモリまたは媒体、または磁気または光学媒体）に記憶またはダウンロードされる。本発明のシステムは、コンピュータ・プログラムで構成されたコンピュータ読み取り可能な記憶媒体として実装されるとも考えられ、そのように構成された記憶媒体は、コンピュータ・システムを、本明細書に記載の機能を実行するために、特定のあらかじめ定義された仕方で動作させる。（ソフトウエア自体および無形または一時的な信号は、それらが特許性のない主題事項である場合には、除外される。）

上述の説明は、本開示のさまざまな側面がどのように実施されうるかの例とともに、本開示のさまざまな実施形態を例示する。上記の例および実施形態は、唯一の実施形態とみなされるべきではなく、特許請求の範囲によって定義される本開示の柔軟性および利点を例解するために提示されている。上述の開示および以下の特許請求の範囲に基づいて、他の構成、実施形態、実装および等価物が当業者には明らかであり、特許請求の範囲によって定義される開示の精神および範囲から逸脱することなく使用されうる。

いくつかの態様を記載しておく。
〔態様１〕
頭部伝達関数（HRTF）を生成する方法であって、当該方法は：
HRTF計算システムを生成する段階であって、該HRTF計算システムを生成することは：
複数のトレーニング対象の複数の3Dスキャンを測定し、
前記複数の3Dスキャンに対して音響散乱計算を実行することによって、前記複数のトレーニング対象についての複数のHRTFを生成し、
前記複数のトレーニング対象の生成データを収集し、
前記生成データを前記複数のHRTFに変換するための前記HRTF計算システムのトレーニングを実行することを含む、段階と；
前記HRTF計算システムを使ってユーザーのためのパーソナライズされたHRTFを生成する段階であって、該パーソナライズされたHRTFを生成することは：
ユーザーの生成データを収集し、
ユーザーの前記生成データを前記HRTF計算システムに入力して、パーソナライズされたHRTFを得ることを含む、段階とを含む、
方法。
〔態様２〕
前記トレーニングを実行することは、ラッソ正則化による線形回帰を使用することを含む、態様１に記載の方法。
〔態様３〕
ユーザーの前記生成データは、人体測定測定値および人口統計学的データの少なくとも1つを含む、態様１または２に記載の方法。
〔態様４〕
前記人体測定測定値は：
ユーザーの複数の画像を収集し、
前記複数の画像を用いて人体測定測定値を決定することによって得られる、
態様３に記載の方法。
〔態様５〕
前記複数の画像を用いて人体測定測定値を決定することは、畳み込みニューラルネットワークを用いて実行される、態様４に記載の方法。
〔態様６〕
ユーザーの前記複数の画像のうちの少なくとも1つの画像内の参照オブジェクトを使用して、ユーザーの前記人体測定測定値をスケーリングすることをさらに含む、
態様４に記載の方法。
〔態様７〕
前記パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成する段階をさらに含む、
態様１ないし６のうちいずれか一項に記載の方法。
〔態様８〕
サーバー装置によって、前記パーソナライズされたHRTFを記憶し；
前記サーバー装置によって、前記パーソナライズされたHRTFをユーザー装置に送信することをさらに含み、
前記ユーザー装置は、前記パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成する、
態様１ないし７のうちいずれか一項に記載の方法。
〔態様９〕
ユーザー装置によって、前記パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成することをさらに含み、前記ユーザー装置は、ヘッドセット、イヤーバッドの対、およびヒアラブルの対のうちの1つを含む、
態様１ないし８のうちいずれか一項に記載の方法。
〔態様１０〕
オーディオ信号が、位置情報を含む複数のオーディオ・オブジェクトを含み、
当該方法がさらに：
前記パーソナライズされたHRTFを前記複数のオーディオ・オブジェクトに適用することによって、バイノーラル・オーディオ出力を生成することをさらに含む、
態様１ないし９のうちいずれか一項に記載の方法。
〔態様１１〕
プロセッサによって実行されるときに態様１ないし１０のうちいずれか一項に記載の方法を含む処理を実行するように装置を制御するコンピュータ・プログラムを記憶している、非一時的なコンピュータ読み取り可能媒体。
〔態様１２〕
頭部伝達関数（HRTF）を生成する装置であって、当該装置は：
少なくとも1つのプロセッサ；および
少なくとも1つのメモリを有しており、
前記少なくとも1つのプロセッサは、HRTF計算システムを生成するよう当該装置を制御するように構成されており、前記HRTF計算システムを生成することは：
複数のトレーニング対象の複数の3Dスキャンを測定し、
前記複数の3Dスキャンに対して音響散乱計算を実行することによって、前記複数のトレーニング対象についての複数のHRTFを生成し、
前記複数のトレーニング対象の生成データを収集し、
前記生成データを前記複数のHRTFに変換するための前記HRTF計算システムのトレーニングを実行することを含み、
前記少なくとも1つのプロセッサは、前記HRTF計算システムを使ってユーザーのためのパーソナライズされたHRTFを生成するよう当該装置を制御するように構成されており、該パーソナライズされたHRTFを生成することは；
ユーザーの生成データを収集し、
ユーザーの前記生成データを前記HRTF計算システムに入力して、パーソナライズされたHRTFを得ることを含む、
装置。
〔態様１３〕
ユーザーの前記生成データは、人体測定測定値および人口統計学的データの少なくとも1つを含み、当該装置はさらに：
ユーザーの複数の画像を収集し、ユーザーの該複数の画像を使用してユーザーの人体測定測定値を決定するように構成されたユーザー入力装置を有しており、
ユーザーの前記人体測定測定値は、ユーザーの前記複数の画像のうちの少なくとも1つの画像内の参照オブジェクトを使用してスケーリングされる、
態様１２に記載の装置。
〔態様１４〕
前記パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成するように構成されたユーザー出力装置をさらに有する、
態様１２または１３に記載の装置。
〔態様１５〕
前記HRTF計算システムを生成し、前記パーソナライズされたHRTFを生成し、前記パーソナライズされたHRTFを記憶し、前記パーソナライズされたHRTFをユーザー装置に送信するように構成されたサーバー装置をさらに有しており、
前記ユーザー装置は、前記パーソナライズされたHRTFをオーディオ信号に適用することによって、オーディオ出力を生成するように構成されている、
態様１２ないし１４のうちいずれか一項に記載の装置。
〔態様１６〕
前記パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成するように構成されたユーザー装置をさらに有しており、
前記ユーザー装置は、ヘッドセット、イヤーバッドの対、およびヒアラブルの対のうちの1つを含む、
態様１２ないし１５のうちいずれか一項に記載の装置。
〔態様１７〕
オーディオ信号が、位置情報を含む複数のオーディオ・オブジェクトを含み、前記少なくとも1つのプロセッサは、前記パーソナライズされたHRTFを前記複数のオーディオ・オブジェクトに適用することによって、バイノーラル・オーディオ出力を生成するように当該装置を制御するように構成されている、態様１２ないし１６のうちいずれか一項に記載の装置。
〔態様１８〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、写真測量コンポーネント、コンテキスト変換コンポーネント、ランドマーク検出コンポーネント、および人体測定コンポーネントを実行し、
前記写真測量コンポーネントは、ユーザーの複数の構造的イメージを受け取り、動きからの構造技法を使って、複数のカメラ変換および構造的画像集合を生成するように構成されており、
前記コンテキスト変換コンポーネントは、前記複数のカメラ変換および前記構造的画像集合を受領し、前記構造的画像集合を用いて前記複数のカメラ変換を並進および回転させることによって、変換された複数のカメラ変換を生成するように構成されており、
前記ランドマーク検出コンポーネントは、前記構造的画像集合および前記変換された複数のカメラ変換を受領し、前記構造的画像集合および前記変換された複数のカメラ変換を用いて識別されたユーザーの人体測定学的特徴に対応する3Dランドマーク集合を生成するように構成されており、
前記人体測定コンポーネントは、前記3Dランドマーク集合を受領し、前記3Dランドマーク集合から人体測定データを生成するように構成されており、前記人体測定データは、前記3Dランドマーク集合の個々のランドマーク間で測定された距離および角度の集合に対応し、
前記サーバー装置は、前記人体測定データを前記HRTF計算システムに入力することにより、ユーザーのための前記パーソナライズされたHRTFを生成するように構成されている、
態様１２ないし１７のうちいずれか一項に記載の装置。
〔態様１９〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、スケール測定コンポーネントを実行し、
前記スケール測定コンポーネントは、スケール参照の画像を含むスケール・イメージを受領し、相同物測度を生成するように構成されており、
前記サーバー装置は、前記相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成されている、態様１２ないし１８のうちいずれか一項に記載の装置。
〔態様２０〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、ランドマーク検出コンポーネント、3D投影コンポーネント、ならびに角度および距離測定コンポーネントを実行し、
前記ランドマーク検出コンポーネントは、ユーザーの人体測定学的ランドマークのクロッピングされた画像集合を受領し、前記クロッピングされた画像集合からユーザーの人体測定学的ランドマークの前記集合の2D座標のセットを生成するように構成されており、
前記3D投影コンポーネントは、2D座標の前記セットおよび複数のカメラ変換を受領し、前記カメラ変換を使用して、3D空間における各人体測定学的ランドマークの2D成分のセットに対応する3D座標のセットを生成するように構成されており、
前記角度および距離測定コンポーネントは、3D座標の前記セットを受領し、3D座標の前記セットから人体測定データを生成するように構成されており、該人体測定データは、3D座標の前記セットにおける前記人体測定学的ランドマークの角度および距離に対応し、
前記サーバー装置は、前記人体測定データを前記HRTF計算システムに入力することにより、ユーザーのための前記パーソナライズされたHRTFを生成するように構成されている、
態様１２ないし１９のうちいずれか一項に記載の装置。
〔態様２１〕
前記HRTF計算システムは、左耳HRTFおよび右耳HRTFの一方に対応するモデルをトレーニングするように構成されてもよく、前記パーソナライズされたHRTFは、前記モデルを使用して左耳のパーソナライズされたHRTFおよび右耳のパーソナライズされたHRTFの一方を生成し、前記モデルの反射を使用して、前記左耳のパーソナライズされたHRTFおよび前記右耳のパーソナライズされたHRTFのうちの他方を生成することによって生成される、態様１２ないし２０のうちいずれか一項に記載の装置。
〔態様２２〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、データまとめコンポーネントを実行し、
前記データまとめコンポーネントは、前記生成データの既知の部分から決定される推定値を使って前記生成データの欠落部分を埋める、前記生成データのたちのよい劣化を実装するように構成されている、
態様１２ないし２１のうちいずれか一項に記載の装置。
〔態様２３〕
前記HRTF計算システムを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、次元削減コンポーネントを実行し、
前記次元削減コンポーネントは、前記複数のトレーニング対象について前記複数のHRTFに対する主成分分析を実行することによって、前記HRTF計算システムのトレーニングを実行する計算の複雑さを低減するように構成されている、
態様１２ないし２２のうちいずれか一項に記載の装置。
〔態様２４〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、写真測量コンポーネントを実行し、
前記写真測量コンポーネントは、ユーザーの複数の構造的イメージを受領し、前記複数の構造的イメージに対して顔ランドマーク検出プロセスを用いて、制約された画像特徴探索を実行し、動きからの構造技法および前記制約された画像特徴探索の結果を用いて、複数のカメラ変換および構造的画像集合を生成するように構成されている、
態様１２ないし２３のうちいずれか一項に記載の装置。
〔態様２５〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、コンテキスト変換コンポーネントを実行し、
前記コンテキスト変換コンポーネントは、第1の複数のカメラ変換と、複数の顔ランドマークと、スケール測度とを受領し、前記複数の顔ランドマークを使用して前記複数のカメラ変換を並進および回転させて第2の複数のカメラ変換を生成し、前記スケール測度を使用して前記第2の複数のカメラ変換をスケーリングするように構成されている、
態様１２ないし２４のうちいずれか一項に記載の装置。
〔態様２６〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、スケール測定コンポーネントを実行し、
前記スケール測定コンポーネントは、レンジ撮像情報を受領し、該レンジ撮像情報を使用して相同物測度を生成するように構成されており、
前記サーバー装置は、前記相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成されている、
態様１２ないし２５のうちいずれか一項に記載の装置。
〔態様２７〕
スピーカーおよびマイクロフォンと関連付けられているユーザー入力装置と；
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置とをさらに有しており、前記サーバー装置は、スケール測定コンポーネントを実行し、
前記スケール測定コンポーネントは、前記ユーザー入力装置から到着時刻情報を受領し、該到着時刻情報を使用して相同物測度を生成するように構成され、前記到着時刻情報は、第1の位置にある前記スピーカーにより出力され、第2の位置にある前記マイクロフォンによって受信される音に関係し、前記第1の位置はユーザーに関連し、前記第2の位置は前記ユーザー入力装置に関連し、
前記サーバー装置は、前記相同物測度を用いてユーザーの構造的イメージをスケーリングするように構成されている、
態様１２ないし２６のうちいずれか一項に記載の装置。
〔態様２８〕
前記HRTF計算システムを使用してユーザーのための前記パーソナライズされたHRTFを生成するように構成されたサーバー装置をさらに有しており、前記サーバー装置は、クロッピング・コンポーネントおよびランドマーク検出コンポーネントを実行し、
前記クロッピング・コンポーネントおよび前記ランドマーク検出コンポーネントは、ランドマークの複数の異なる集合をクロッピングして検出することによって、制約された再帰的ランドマーク探索を実施するよう協調させられる、
態様１２ないし２７のうちいずれか一項に記載の装置。
〔態様２９〕
パーソナライズされた頭部伝達関数（HRTF）を生成する方法であって、当該方法は：
ユーザーの複数の画像を受領し；
前記複数の画像を処理して、ユーザーの人体測定データを生成し；
前記人体測定データをHRTF計算システムに入力し、パーソナライズされたHRTFを得ることを含む、
方法。
〔態様３０〕
ユーザーのビデオ・データを捕捉する段階であって、前記ビデオ・データはユーザーの頭部の複数のビューを含む、段階と；
前記ビデオ・データを処理して前記複数の画像を抽出する段階とをさらに含む、
態様２９に記載の方法。
〔態様３１〕
前記ビデオ・データを捕捉することは、既知のサイズを有するオブジェクトの画像を捕捉することを含み、
前記複数の画像を処理して前記人体測定データを生成することは、前記既知のサイズを使って、前記人体測定データをピクセル測定値から絶対的な距離測定値に変換することを含む、
態様２９または３０に記載の方法。
〔態様３２〕
所与の距離にある装置が、ユーザーの前記ビデオ・データを捕捉し、当該方法がさらに：
ユーザーに近接して位置するヘッドフォンから音を出力してから、前記装置のマイクロフォンでその音を受領するまでの間の時間遅延を測定することによって前記所与の距離を決定することを含み、
前記複数の画像を処理して前記人体測定データを生成することは、前記所与の距離を使って前記人体測定データをピクセル測定値から絶対的な距離測定値に変換することを含む、
態様２９ないし３１のうちいずれか一項に記載の方法。
〔態様３３〕
前記複数の画像を処理して前記人体測定データを生成することは：
前記複数の画像を三次元点群モデルに変換し；
前記三次元点群モデルを用いて前記複数の画像のうちのキー画像フレームを選択し；
前記キー画像フレームから前記人体測定データを生成することを含む、
態様２９ないし３２のうちいずれか一項に記載の方法。
〔態様３４〕
前記複数の画像を処理してユーザーの人体測定データを生成することは：
前記複数の画像のうちの、ユーザーの顔に垂直なビューである第1のフレームを、該第1のフレーム内のキー点の非対称性を最小化することによって識別し；
前記複数の画像のうちの、ユーザーの第1の耳介に垂直なビューである第2のフレームを、前記第1のフレームから90度のビューに従って識別し；
前記複数の画像のうちの、ユーザーの第2の耳介に垂直なビューである第3のフレームを、前記第2のフレームから180度のビューに従って識別することを含む、
態様２９ないし３３のうちいずれか一項に記載の方法。
〔態様３５〕
前記第2のフレームは、前記第1の耳介に垂直なビューのまわりの＋45度および－45度の範囲内で前記複数の画像から選択される複数の第2のフレームのうちの1つであり；
前記第3のフレームは、前記第2の耳介に垂直なビューのまわりの＋45度および－45度の範囲内で前記複数の画像から選択される複数の第3のフレームのうちの1つである、
態様２９ないし３４のうちいずれか一項に記載の方法。
〔態様３６〕
前記複数の画像を処理してユーザーの人体測定データを生成することは：
前記複数の画像のうちのキー画像フレームを識別し；
前記キー画像フレームに対してニューラルネットワークを使用して、ユーザーの人体測定学的特徴を識別し；
前記人体測定学的特徴の測定値を決定することにより前記人体測定学的データを生成することを含む、
態様２９ないし３５のうちいずれか一項に記載の方法。
〔態様３７〕
前記パーソナライズされたHRTFを生成することが：
人体測定データおよび測定された絶対値／周波数応答の高分解能データベース上で、任意的にラッソ回帰を含む機械学習プロセスを実行することによってトレーニングされたHRTFモデルを提供し；
該HRTFモデルをユーザーの前記人体測定データに適用することにより、前記パーソナライズされたHRTFを生成することを含む、
態様２９ないし３６のうちいずれか一項に記載の方法。
〔態様３８〕
前記パーソナライズされたHRTFをサーバー装置上で生成し；
前記パーソナライズされたHRTFを前記サーバー装置からユーザー装置に送信することをさらに含む、
態様２９ないし３７のうちいずれか一項に記載の方法。
〔態様３９〕
ユーザー装置が、前記パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成し、前記ユーザー装置が、ヘッドセット、イヤーバッドの対、およびヒアラブルの対のうちの1つを含む、態様２９ないし３８のうちいずれか一項に記載の方法。
〔態様４０〕
前記人体測定データが、ユーザーの肩幅、ユーザーの頸幅、ユーザーの頸高、ユーザーの顔高、ユーザーの瞳孔間距離、およびユーザーの両頬骨間幅のうちの少なくとも1つを含む、態様２９ないし３９のうちいずれか一項に記載の方法。
〔態様４１〕
前記人体測定データは、ユーザーの各耳介について、耳介フレア角、耳介回転角、耳介裂け角、後方耳介オフセット、下方耳介オフセット、耳介高さ、耳介幅、第1の耳珠間幅、第2の耳珠間幅、窩高さ、耳甲介幅、耳甲介高さ、および耳甲介舟高さのうちの少なくとも1つを含む、態様２９ないし４０のうちいずれか一項に記載の方法。
〔態様４２〕
前記人体測定データは他のデータをさらに含み、前記他のデータは、ユーザーの年齢、ユーザーの体重、ユーザーの性別、およびユーザーの身長のうちの少なくとも1つを含み、前記他のデータは、前記複数の画像を処理すること以外の源から生じる、態様２９ないし４１のうちいずれか一項に記載の方法。
〔態様４３〕
前記オーディオ信号は、位置情報を含む複数のオーディオ・オブジェクトを含み、前記オーディオ出力を生成することは、前記複数のオーディオ・オブジェクトに前記パーソナライズされたHRTFを適用することによってバイノーラル・オーディオ出力を生成することに対応する、態様３９ないし４２のうちいずれか一項に記載の方法。
〔態様４４〕
プロセッサによって実行されると、態様２９ないし４３のうちいずれか一項に記載の方法を含む処理を実行するよう装置を制御するコンピュータ・プログラムを記憶している非一時的なコンピュータ読み取り可能媒体。
〔態様４５〕
パーソナライズされた頭部伝達関数（HRTF）を生成するための装置であって、当該装置は：
少なくとも1つのプロセッサ；および
少なくとも1つのメモリを有しており、
前記少なくとも1つのプロセッサは、ユーザーの複数の画像を受領するように当該装置を制御するように構成されており、
前記少なくとも1つのプロセッサは、前記複数の画像を処理してユーザーの人体測定データを生成するように当該装置を制御するように構成されており、
前記少なくとも1つのプロセッサは、前記人体測定データをHRTF計算システムに入力して、前記パーソナライズされたHRTFを得るように当該装置を制御するように構成されている、
装置。

Claims

電子装置上で、パーソナライズされた頭部伝達関数（HRTF）を生成する方法であって、当該方法は：
ユーザーのビデオ・データを捕捉する段階であって、前記ビデオ・データはユーザーの頭部の複数のビューを含む、段階と；
前記ビデオ・データを処理してユーザーの複数の画像を抽出する段階と；
ユーザーの前記複数の画像を受領する段階と；
前記複数の画像を処理して、ユーザーの人体測定データを生成する段階であって、前記複数の画像を処理してユーザーの人体測定データを生成することは：
前記複数の画像のうちのキー画像フレームを識別し；
前記キー画像フレームを使ってユーザーの人体測定特徴を識別し；
前記人体測定特徴の測定値を決定することによって前記人体測定データを生成することを含む、段階と；
前記人体測定データをHRTF計算システムに入力し、前記パーソナライズされたHRTFを得る段階とを含む、
方法。
前記ビデオ・データを捕捉することは、既知のサイズを有するオブジェクトの画像を捕捉することを含み、
前記複数の画像を処理して前記人体測定データを生成することは、前記既知のサイズを使って、前記人体測定データをピクセル測定値から絶対的な距離測定値に変換することを含む、
請求項１に記載の方法。
前記電子装置がカメラを含み、前記ビデオ・データを捕捉することは、前記カメラを使って実行される、請求項１に記載の方法。
所与の距離にある装置が、ユーザーの前記ビデオ・データを捕捉し、当該方法がさらに：
ユーザーに近接して位置するヘッドフォンから音を出力してから、前記装置のマイクロフォンでその音を受領するまでの間の時間遅延を測定することによって前記所与の距離を決定することを含み、
前記複数の画像を処理して前記人体測定データを生成することは、前記所与の距離を使って前記人体測定データをピクセル測定値から絶対的な距離測定値に変換することを含む、
請求項１に記載の方法。
前記複数の画像を処理して前記人体測定データを生成することは：
前記複数の画像を三次元点群モデルに変換し；
前記三次元点群モデルを用いて前記複数の画像のうちのキー画像フレームを選択し；
前記キー画像フレームに基づいて前記人体測定データを生成することを含む、
請求項１に記載の方法。
前記複数の画像を処理してユーザーの人体測定データを生成することは：
前記複数の画像のうちの、ユーザーの顔に垂直なビューである第1のフレームを、該第1のフレーム内のキー点の非対称性を最小化することによって識別し；
前記複数の画像のうちの、ユーザーの第1の耳介に垂直なビューである第2のフレームを、前記第1のフレームから90度のビューに従って識別し；
前記複数の画像のうちの、ユーザーの第2の耳介に垂直なビューである第3のフレームを、前記第2のフレームから180度のビューに従って識別することを含む、
請求項１に記載の方法。
前記第2のフレームは、前記第1の耳介に垂直なビューのまわりの＋45度および－45度の範囲内で前記複数の画像から選択される複数の第2のフレームのうちの1つであり；
前記第3のフレームは、前記第2の耳介に垂直なビューのまわりの＋45度および－45度の範囲内で前記複数の画像から選択される複数の第3のフレームのうちの1つである、
請求項６に記載の方法。
前記複数の画像のうちのキー画像フレームを識別または選択することは、フレーム内容および一つまたは複数の鮮鋭度メトリックに基づく、請求項１に記載の方法。
前記パーソナライズされたHRTFを生成することが：
人体測定データおよび測定された絶対値／周波数応答の高分解能データベース上で、機械学習プロセスを実行することによってトレーニングされたHRTFモデルを提供し；
該HRTFモデルをユーザーの前記人体測定データに適用することにより、前記パーソナライズされたHRTFを生成することを含む、
請求項１に記載の方法。
前記パーソナライズされたHRTFをサーバー装置上で生成し；
前記パーソナライズされたHRTFを前記サーバー装置からユーザー装置に送信することをさらに含む、
請求項１に記載の方法。
前記電子装置がユーザー装置であり、該ユーザー装置上で前記パーソナライズされたHRTFを生成することをさらに含む、請求項１に記載の方法。
前記複数の画像を処理して前記人体測定データを生成することは、前記電子装置の写真測量コンポーネント、コンテキスト変換コンポーネント、ランドマーク検出コンポーネント、および人体測定コンポーネントのうちの少なくとも一つを使用することを含む、請求項１に記載の方法。
前記複数の画像を処理して前記人体測定データを生成することは、ランドマーク検出コンポーネント、3D投影コンポーネント、ならびに角度および距離測定コンポーネントを使用することを含み、
前記ランドマーク検出コンポーネントは、ユーザーの人体測定学的ランドマークのクロッピングされた画像集合を受領し、前記クロッピングされた画像集合からのユーザーの人体測定学的ランドマークの2D座標のセットを生成し、
前記3D投影コンポーネントは、2D座標の前記セットおよび複数のカメラ変換を受領し、前記カメラ変換を使用して、3D空間における各人体測定学的ランドマークの2D座標のセットに対応する3D座標のセットを生成し、
前記角度および距離測定コンポーネントは、3D座標の前記セットを受領し、3D座標の前記セットから人体測定データを生成し、該人体測定データは、3D座標の前記セットにおける前記人体測定学的ランドマークの角度および距離に対応し、
前記電子装置は、前記人体測定データを前記HRTF計算システムに入力することにより、ユーザーのための前記パーソナライズされたHRTFを生成する、
請求項１に記載の方法。
前記ユーザー装置が、前記パーソナライズされたHRTFをオーディオ信号に適用することによってオーディオ出力を生成し、前記ユーザー装置が、ヘッドセット、イヤーバッドの対、およびヒアラブルの対のうちの1つを含む、請求項１１に記載の方法。
前記人体測定データが、ユーザーの肩幅、ユーザーの頸幅、ユーザーの頸高、ユーザーの顔高、ユーザーの瞳孔間距離、およびユーザーの両頬骨間幅のうちの少なくとも1つを含む、請求項１に記載の方法。
前記人体測定データは、ユーザーの各耳介について、耳介フレア角、耳介回転角、耳介裂け角、後方耳介オフセット、下方耳介オフセット、耳介高さ、耳介幅、第1の耳珠間幅、第2の耳珠間幅、窩高さ、耳甲介幅、耳甲介高さ、および耳甲介舟高さのうちの少なくとも1つを含む、請求項１に記載の方法。
前記人体測定データは他のデータをさらに含み、前記他のデータは、ユーザーの年齢、ユーザーの体重、ユーザーの性別、およびユーザーの身長のうちの少なくとも1つを含み、前記他のデータは、前記複数の画像を処理すること以外の源から得られる、請求項１に記載の方法。
前記オーディオ信号は、位置情報を含む複数のオーディオ・オブジェクトを含み、前記オーディオ出力を生成することは、前記複数のオーディオ・オブジェクトに前記パーソナライズされたHRTFを適用することによってバイノーラル・オーディオ出力を生成することに対応する、請求項１４に記載の方法。
一つまたは複数のプロセッサによって実行されると、
ユーザーのビデオ・データを捕捉する段階であって、前記ビデオ・データはユーザーの頭部の複数のビューを含む、段階と；
前記ビデオ・データを処理してユーザーの複数の画像を抽出する段階と；
ユーザーの前記複数の画像を受領する段階と；
前記複数の画像を処理して、ユーザーの人体測定データを生成する段階であって、前記複数の画像を処理してユーザーの人体測定データを生成することは：
前記複数の画像のうちのキー画像フレームを識別し；
前記キー画像フレームを使ってユーザーの人体測定特徴を識別し；
前記人体測定特徴の測定値を決定することによって前記人体測定データを生成することを含む、段階と；
前記人体測定データをHRTF計算システムに入力し、パーソナライズされた頭部伝達関数（HRTF）を得る段階とのための処理を実行するよう装置を制御する一つまたは複数のコンピュータ・プログラムを記憶している非一時的なコンピュータ読み取り可能媒体。
パーソナライズされた頭部伝達関数（HRTF）を生成するための装置であって、当該装置は：
少なくとも1つのプロセッサ；および
少なくとも1つのメモリを有しており、
前記少なくとも1つのプロセッサは、ユーザーの複数の画像を受領するように当該装置を制御するように構成されており、
前記少なくとも1つのプロセッサは、前記複数の画像を処理してユーザーの人体測定データを生成するように当該装置を制御するように構成されており、
前記少なくとも1つのプロセッサは、前記人体測定データをHRTF計算システムに入力して、パーソナライズされた頭部伝達関数（HRTF）を得るように当該装置を制御するように構成されている、
装置。