JP6609383B2

JP6609383B2 - オーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ

Info

Publication number: JP6609383B2
Application number: JP2018568745A
Authority: JP
Inventors: ボイル，チャールズ，エー．ジー．; マドセン，カレブ
Original assignee: Acoustic Knowledge LLC
Current assignee: Acoustic Knowledge LLC
Priority date: 2016-05-28
Filing date: 2017-05-30
Publication date: 2019-11-20
Anticipated expiration: 2037-05-30
Also published as: JP2019526956A; KR102036545B1; EP3465391B1; US20180247461A1; KR20190004809A; US10204457B2; NZ748891A; AU2017273462A1; AU2019279990B2; CN109564467A; EP3465391A1; EP3465391A4; AU2019279990A1; CA3025525A1; WO2017210228A1; US10477117B2; IL263302A; CA3025525C; IL263302B; US20170345216A1

Description

本発明は、デジタルカメラに関し、より詳細には、オーディオ、ビジュアル及びモーション入力を備えたデジタルカメラに関する。

デジタルカメラは、デジタル画像を生成するカメラである。生成されたデジタル画像は、コンピュータ内に記憶されたり、スクリーン上に表示されたり、印刷されたりし得る。今日販売されているほとんどのカメラはデジタルであり、デジタルカメラは、携帯情報端末（ＰＤＡ）や携帯電話（カメラ付き携帯電話）から車両に至るまで、多くの機器に組み込まれている。多くのデジタルカメラ（ビデオカメラと称されることもある）は、音（オーディオ）付きの動画を記録することもできる。スマートフォン、携帯電話、ＰＤＡ及びラップトップコンピュータ内に内蔵される場合、無圧縮ビデオのビットレートが比較的高くファイルサイズが大きいため、デジタルカメラでは画像を圧縮形式で保存することがよくある。

デジタルカメラ及びビデオカメラは、典型的には、固定絞り又は可変絞りを備えたレンズを使用して光を撮像素子上に集束させる光学系を共有している。絞り及びシャッターは、撮像素子に正確な光量が入ることを可能にし、それによって処理、記憶及び表示可能な出力を生成する。この処理は、典型的には、デジタル化された撮像素子（多くの場合、ＣＣＤセンサ）出力からＲＧＢ画像を生成することや、輝度、ホワイトバランス、シャープネス及びコントラストを調整することを含んでいる。いくつかのデジタルカメラは、画像の切り抜きや連結のような基本的な画像編集も実行可能である。

パワフルなコンピュータに接続されたデジタルカメラは、拡張現実（ＡＲ）を可能にする。拡張現実は、デジタル世界の構成要素を、人間が知覚する現実世界へと持ち込むものである。拡張現実（Augmented Reality、ＡＲ）は、多くの場合に複合現実（Mixed Reality、ＭＲ）と同義に用いられ、実世界と仮想世界とが融合することによって作り出されるハイブリッド現実を意味する。実世界と仮想世界との融合により、物理オブジェクトとデジタルオブジェクトとが共存してリアルタイムで相互作用する新たな環境及び映像が生成される。

いくつかのＡＲシステムでは、ＡＲ画像を表示するために、頭部の動きを追跡するヘッドマウントディスプレイを使用する。高度なＡＲ技術（例えば、コンピュータビジョン及び物体認識）を利用して、ユーザの周囲の現実世界に関する情報がインタラクティブになり、デジタル操作が可能となる。例えば、環境とそのオブジェクトに関する情報が、実際のディスプレイ上に重ね合わせられ得る。

スマートフォン、例えば、ｉＯＳ又はＡｎｄｒｏｉｄオペレーティングシステム上で動作する携帯電話では、単純なＡＲ技術は、「アプリ（app）」を使用して実装することができる。このような「アプリ」は、典型的には内蔵デジタルカメラの出力を操作するダウンロードされたアプリケーションプログラムである。例えば、ＰｏｋｅｍｏｎＧｏは、ｉＯＳやＡｎｄｒｏｉｄデバイス（例えば、スマートフォン及びパッド）用にカリフォルニア州サンフランシスコのＮｉａｎｔｉｃ社によって開発されたロケーションベースの拡張現実ゲームである。しかしながら、典型的なスマートフォンにおける処理能力及び知覚入力は限られているため、現実世界の映像に対する仮想物体の位置及び特性は、比較的雑になりがちである。

先行技術におけるこれら及び他の制限は、以下の詳細な説明を読解すると共に図面におけるいくつかの図を研究することによって、当業者には明らかとなるであろう。

本明細書及び図面の開示の範囲内において要素及び動作の様々な組み合わせを例示する目的で、様々な例が本明細書に記載される。当業者には明らかであるように、要素及び動作の他の組み合わせや、それらの変形もまた、本明細書にてサポートされる。

限定ではなく例として明記される実施形態では、オーディオ、ビジュアル及びモーション分析を備えたデジタルカメラは、カメラ本体と、レンズと、前記レンズと並ぶ撮像センサと、音センサと、モーションセンサと、入力処理システムとを含んでいる。非限定的な例では、前記入力処理システムは、（ａ）システムバスと、（ｂ）前記バスに結合されたデジタルプロセッサと、（ｃ）前記音センサの出力を前記バスに結合する音センササブシステムと、（ｄ）前記撮像センサの出力を前記バスに結合する撮像センササブシステムと、（ｅ）前記モーションセンサの出力を前記バスに結合するモーションセンササブシステムと、（ｆ）前記モーションセンササブシステム、前記撮像センササブシステム及び前記音センササブシステムに対して同期クロック信号を供給するための、システムクロックから分離された高精度クロックと、（ｇ）前記バスに結合された非一時的デジタルメモリであって、リアルタイムでのオーディオ、ビジュアル及びモーション分析のために、前記モーションセンササブシステム、前記撮像センササブシステム及び前記音センササブシステムから導出されるデータから、デジタルカメラの周囲環境のデジタルモデルを構築するよう、デジタルプロセッサによって実行可能なコードセグメントを含む、非一時的デジタルメモリとを含んでいる。

限定ではなく例として明記される別の実施形態では、デジタルカメラを用いて周囲環境をモデリングする方法は、撮像センサと、音センサと、モーションセンサとを少なくとも含む複数のセンサから、生の入力データを収集するステップと、前記生の入力データからメタデータを導出するステップと、前記デジタルカメラの前記周囲環境のモデルを構築するために、前記メタデータ及び前記生の入力データを処理するステップとを含んでいる。いくつかの実施形態では、前記生の入力データは、撮像センサデータ及び音センサデータのうち１つのみを含んでいる。

限定ではなく例として明記されるさらなる実施形態では、拡張現実（ＡＲ）表示をデジタルカメラ上に提供する方法は、撮像センサと、音センサと、モーションセンサとを少なくとも含むデジタルカメラを用いて、周囲環境を走査するステップと、前記デジタルカメラのデジタルプロセッサを用いて、前記撮像センサ、前記音センサ及び前記モーションセンサから導出されたデータから、複数の物理オブジェクト及びそれらの特性を含む周囲環境のモデルを構築するステップと、前記周囲環境を重ね合わせる拡張現実（ＡＲ）を構築するステップと
を含んでいる。特定の実施形態では、前記ＡＲは音を含んでおり、特定の別の実施形態では、前記ＡＲは画像を含んでおり、またさらなる特定の他の実施形態では、前記ＡＲは音及び画像の両方を含んでいる。

限定ではなく例として明記されるまたさらなる実施形態では、デジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体は、撮像センサと、音センサと、モーションセンサとを少なくとも含むデジタルカメラを用いて、周囲環境を走査するステップと、前記デジタルカメラのデジタルプロセッサを用いて、前記撮像センサ、前記音センサ及び前記モーションセンサから導出されたデータから、複数の物理オブジェクト及びそれらの特性を含む周囲環境のモデルを構築するステップと、前記周囲環境を重ね合わせる拡張現実（ＡＲ）を構築するステップとを行うためのものである。特定の実施形態では、前記ＡＲは音を含んでおり、特定の別の実施形態では、前記ＡＲは画像を含んでおり、またさらなる特定の他の実施形態では、前記ＡＲは音及び画像の両方を含んでいる。

本明細書にてサポートされる要素及び動作の組み合わせについてのこれらの例及び他の例、並びにそれらの目的及び利点は、以下の詳細な説明を読解すると共に図面におけるいくつかの図を研究することによって、当業者には明らかとなるであろう。

ここでは、図面を参照して複数の例を説明するが、同様の要素及び／又は動作には、同様の参照番号が付されている。これらの実施例は、本明細書に開示される概念を、限定ではなく例示することを意図している。これらの図面は、以下に示す図を含む。

図１Ａは、例示的なデジタルカメラの正面斜視図である。図１Ｂは、図１Ａの例示的なデジタルカメラの背面斜視図である。図２は、デジタルカメラ用のレンズ及び関連するアナログコンポジットビデオ回路からなる例示的な集合体のブロック図である。図３は、デジタルカメラ用の例示的な入力処理システムのブロック図である。図４は、図３の例示的な撮像センササブシステムのブロック図である。図５は、図３の例示的なモーションセンササブシステムのブロック図である。図６は、図３の例示的な音センササブシステムのブロック図である。図７は、図３の例示的な環境センササブシステムのブロック図である。図８は、図３の例示的な全地球測位システムサブシステムのブロック図である。図９は、図３の例示的な補助周辺サブシステムのブロック図である。図１０は、図３の例示的な共処理サブシステムのブロック図である。図１１は、図３の例示的な非揮発性記憶装置サブシステムのブロック図である。図１２は、図３の例示的なネットワークインタフェースサブシステムのブロック図である。図１３は、図３の例示的なユーザインタフェースサブシステムのブロック図である。図１４は、図３の例示的なビジュアル出力サブシステムのブロック図である。図１５は、図３の例示的な音出力サブシステムのブロック図である。図１６は、図３の例示的な電源サブシステムのブロック図である。図１７は、デジタルカメラの例示的なルート動作プロセスのフローチャートである。図１８は、図１７の例示的なメインループのフロー図である。図１９は、例示的なユーザインタフェース管理プロセスのフロー図である。図２０は、例示的なデータ取得プロセスを示す図である。図２１は、例示的なデータ処理プロセスを示す図である。図２２は、例示的なデータレンダリングプロセスを示す図である。図２３は、部屋の音響モデルを構築するためのデジタルカメラの使用例のフロー図である。図２４は、ＨＶＡＣシステムの音響モデルを構築するためのデジタルカメラの使用例のフロー図である。

図１Ａ及び図１Ｂはそれぞれ、例示的なデジタルカメラ１０の正面斜視図及び背面斜視図である。デジタルカメラ１０は、本体１２と、レンズ１４と、望遠レンズ鏡筒（絞り）１６と、シャッターボタン１８と、音センサ（例えば、マイク）入力２０と、ディスプレイ２２とを含む。この非限定的な例では、デジタルカメラ１０はまた、フラッシュ集合体２４と、種々の制御ボタン２６と、ＵＳＢポート２８等のＩ／Ｏポートを含み得る。カメラ本体１２内には、複数のコンポーネント（図示しない）が配置され、そのようなコンポーネントとしては、例えば、画像センサ、アナログビデオ回路及びデジタル画像を分析及び向上可能な入力処理システム等が挙げられる。特定の実施形態では、１つ以上の追加の音センサ２９が、例えば本体１２の前方、後方、上部、底部又は側部に配置される。また、広角カメラ、赤外線（ＩＲ）熱画像カメラ等のような、１つ以上の追加のカメラ３１も設けられ得る。これらの追加のカメラは、例えば、モーション追跡に有用であり得る。周囲環境における材料の散乱特性及び吸収特性を評価するために、デジタル粒子速度センサ３３が設けられ得る。さらに、デジタルカメラ１０の本体１２には、追加のＩ／Ｏポート３５もまた設けられ得る。追加のＩ／Ｏポート３５としては、例えば、ヘッドホンポート、スピーカ、プリンタポート、ビデオ出力ポート等が挙げられる。

デジタルカメラ１０は、本明細書で説明するように、静止画像をキャプチャする通常のカメラとして動作し得ると共に、画像解析、画像操作及び画像拡張（image augmentation）が可能な高度なビデオカメラとしても動作し得る。デジタルカメラ１０はまた、本明細書では広くデジタルカメラ又はデジタルカメラシステムと称されるが、ビデオカメラ又はビデオカメラシステム、拡張現実（ＡＲ）システム、仮想現実（ＶＲ）システム等と交換可能に記載されることもできると理解される。デジタルカメラ１０は、好ましくは、単一デバイス（例えば、外部コンポーネント又は追加の演算能力への接続を必要としない）であって、例えば、リアルタイムの拡張現実表示及び分析を提供するような目的のための計算集約的なオーディオ／ビジュアル処理が可能な単一デバイスである。

図２は、図１Ａ及び図１Ｂのデジタルカメラ１０用のレンズ１４及び関連するデジタル光撮像センサ３０の例示的な集合体のブロック図である。デジタル光撮像センサ３０は、この非限定的な例では、電荷結合素子（ＣＣＤ）画像センサ３２と、水平及び垂直駆動回路３４と、同期発生器３６と、ビデオアンプ３８と、ミキサー４０と、コンポジットビデオ出力４２と、アナログ−デジタル（Ａ／Ｄ）変換器４４とを含む。水平及び垂直駆動器３４は、ＣＣＤの画素マトリクスを駆動し、それによってアナログ信号をビデオアンプ３８へと供給する。ビデオアンプ３８の出力は、ミキサー４０において同期発生器３６からの同期発生器信号と混合され、アナログコンポジットビデオ出力４２を提供する。アナログコンポジットビデオ出力４２は、Ａ／Ｄ変換器４４によってデジタル化される。

図３は、図１Ａ及び図１Ｂのデジタルカメラ１０用の例示的な入力処理システム４６のブロック図である。入力処理システムは、この非限定的な例では、システムバス４８の周りに構築されており、中央処理装置（ＣＰＵ）５０と、ランダムアクセスメモリ（ＲＡＭ）５２と、不揮発性読み出し専用メモリ（ＲＯＭ）５４と、モーションセンササブシステム５６と、撮像センササブシステム５８と、音センササブシステム６０とを含む。この例では、モーションセンササブシステム５６、撮像センササブシステム５８及び音センササブシステム６０は、共通の同期高精度クロック６２によってそれぞれ駆動される。高精度クロック６２は、システムコンポーネントを同期させるための非常に正確な共通のタイミング基準を提供する。「高精度クロック」とは、クロックの周期が非常に規則的であることを意味し、例えば、サイクル毎に１％の数分の一も変化しないことを意味する。そのような高精度クロックは、通常、水晶クロックとして実装される。ＲＯＭ５４は、ＰＲＯＭ、ＥＥＰＲＯＭ及びフラッシュメモリ技術を含む数々の技術にて実装され得る。ＣＰＵ５０は、マイクロプロセッサ、マイクロコントローラ等として実装可能であり、本明細書では広く「デジタルプロセッサ」と称する。デジタル粒子速度センサ３３は、音センササブシステム６０の一部を構成し得る。

種々の代替となる入力処理システム４６の実施形態は、電源サブシステム６４と、共処理サブシステム６６と、不揮発性記憶装置サブシステム６８と、ネットワークインタフェースサブシステム７０と、ビジュアル出力サブシステム７２と、ユーザインタフェースサブシステム７４と、環境センササブシステム７６と、全地球測位システムサブシステム７８と、補助周辺サブシステム８０と、音出力サブシステム８２とを含む。

前述のように、入力処理システム４６は、デジタルカメラ１０の一部として実装されてもよく、スマートフォン又は他のモバイルデバイスにおいてインスタンス生成されてもよい。入力処理システム４６を（例えば）スマートフォンに実装する利点としては、電子部品及びファームウェアコンポーネントの多くが既に内蔵されており、及び／又は、周辺機器としてインタフェースを介して追加可能であり、スマートフォン「アプリ」を用いて該システムの機能を実装可能であることが挙げられる。今日のスマートフォンの欠点としては、ハードウェアの制約及び演算能力が挙げられる。

周波数シフトから相対運動を推定するプロセスは、ドップラー撮像として知られている。限定ではなく一例として示された実施形態では、ドップラー撮像は、位置及び速度の音響トラッキングのために使用される。ドップラー撮像から導出されるローカルモーション信号は、専用のモーションセンサと組み合わせて使用されてもよく、専用のモーションセンサを用いずに使用されてもよい。

ストラクチャーフロムモーション（ＳｆＭ）プロセスは、典型的には、ローカルモーション信号と結合され得る二次元画像シーケンスから三次元構造を推定するための写真測量レンジ撮像技術である。モーションから構造を見出すことには、ステレオビジョンから構造を見出すことと同様の問題がある。いずれの場合も、画像と３Ｄオブジェクトの再構成との間の対応関係は、アルゴリズム的に導出される。しかしながら、非限定的な例としての特定の実施形態では、ＳｆＭプロセスは、代わりに及び／又は追加的に音センサデータを使用して、例えば低光条件下における周囲環境の３Ｄモデルを構築することができる。すなわち、特定の非限定的な例では、画像センサデータは、ＳｆＭプロセスには必要とされない。

自動マッピングでは、同時局在化及びマッピング（ＳＬＡＭ）は、未知の環境のマップ又はモデルを構築又は更新しつつ、その中のエージェントの位置を同時に追跡し続ける、演算問題である。ロボットマッピングシステムにて使用されるいくつかのＳＬＡＭアルゴリズムがあり、そのようなＳＬＡＭアルゴリズムには、粒子フィルタアルゴリズム及び拡張カルマンフィルタアルゴリズムが含まれる。粒子フィルタ法には、信号処理及びベイズ統計的干渉において生じるフィルタリング問題を解決するための、一連の遺伝型粒子モンテカルロ法が含まれる。フィルタリング問題には、観測が部分的にしか行われなかった場合、及び、センサ入力にランダムな摂動（perturbation）が存在する場合において、動力学系の内部状態を推定することが含まれる。ＳＬＡＭアルゴリズムは複雑であるため、通常はカメラ自体とは別のコンピューティングシステムにて実行される。

図４は、図３の例示的な撮像センササブシステム５８のブロック図である。撮像センササブシステム５８は、高精度クロック６２と、システムバス４８とに結合されている。この非限定的な例では、撮像センササブシステム５８は、センササブシステムコントローラ８４に接続された複数のデジタル光撮像センサ３０を含むと共に、それぞれ同じくセンササブシステムコントローラ８４に接続された、複数のデジタルレンジ撮像センサ８６と、デジタルサーモグラフィセンサ８８と、発光ダイオード（ＬＥＤ）９０と、構造化光プロジェクタ９２と、無線周波数（ＲＦ）変調された発光器９４とを含む。この非限定的な例では、撮像センサ（３０，８６，８８）は、発光コンポーネント（９０，９２，９４）と併せて使用して、広い範囲の照明条件においてロバストな動作をサポートし得る。発光コンポーネントは、複数の構成で実装することができ、非限定的な例として、デジタルカメラ１０のフラッシュ集合体２４の一部として実装され得る。

図５は、図３の例示的なモーションセンササブシステム５６のブロック図である。この非限定的な例では、モーションセンササブシステム５６は、高精度クロック６２及びシステムバス４８に結合されたセンササブシステムコントローラ９６を含むと共に、それぞれ同じくセンササブシステムコントローラ９６に接続された、デジタル３軸加速度計９８と、デジタル３軸ジャイロメータ１００と、デジタル磁力計１０２とを含む。モーションセンササブシステムのデータは、例えば、相対慣性運動及び傾斜を測定するために使用され得る。

図６は、図３の例示的な音センササブシステム６０のブロック図である。この非限定的な例では、音センササブシステム６０は、センササブシステムコントローラ１０４と、Ｂフォーマットマイクカプセルアレイ１０６と、多チャンネルアナログ信号プリアンプ１０８と、多チャンネルアナログ−デジタル（Ａ／Ｄ）オーディオ変換器１１０と、デジタル粒子速度感知パッケージ１１２とを含む。この非限定的な例では、Ｂフォーマットマイクカプセルアレイ１０６は、多チャンネルアナログオーディオ信号プリアンプ１０８を介して多チャンネルＡ／Ｄ変換器１１０に接続される。Ｂフォーマットマイクカプセルアレイ１０６は、とりわけ、三次元音場をキャプチャするために使用され得る。デジタル粒子速度感知パッケージ１１２は、とりわけ、表面の音響散乱及び吸収特性を測定するために使用され得る。デジタル粒子速度感知パッケージ１１２はまた、Ｂフォーマットマイクカプセルアレイ１０６と併せて、例えば音響源方向ベクトルを計算するためにも使用され得る。デジタル粒子速度感知パッケージ１１２によって生成された音インパルスに対する音響応答は、Ｂフォーマットマイクカプセルアレイ１０６を使用して、例えば環境残響特性の分析を支援するためにもキャプチャされ得る。

図７は、図３の例示的な環境センササブシステム７６のブロック図である。任意選択である環境センササブシステム７６は、数多くの環境特性をキャプチャするために使用され得る。この非限定的な例では、環境センササブシステム７６は、高精度クロック６２及びシステムバス４８に結合されたセンササブシステムコントローラ１１４を含むと共に、デジタル加速度計１１６と、デジタル気圧計１１８と、デジタル電磁放射線センサ１２０と、デジタル微気圧計１２２と、デジタル湿度計１２４と、デジタル温度計１２６とを含む。

図８は、図３の例示的な全地球測位システム（ＧＰＳ）サブシステム７８のブロック図である。この非限定的な例では、ＧＰＳサブシステム７８は、高精度クロック６２及びシステムバス４８に結合されたセンササブシステムコントローラ１２８を含むと共に、ＧＰＳアンテナ１３０と、ＧＰＳ衛星受信器１３２とを含む。

図９は、図３の例示的な補助周辺サブシステム８０のブロック図である。この非限定的な例では、周辺インタフェースコントローラ１３４は、システムバス４８に結合されており、ＵＳＢコネクタ１３６及びＧＰＩＯコネクタ１３８等のＩ／Ｏポートは、周辺インタフェースコントローラ１３４に結合されている。任意には、補助周辺サブシステム８０は、図３に示すように、高精度クロック６２に結合される。

図１０は、図３の例示的な共処理サブシステム６６のブロック図である。この非限定的な例では、任意選択であるオーディオコプロセッサ１４０と、グラフィックスコプロセッサ１４２と、モーションコプロセッサ１４４と、物理コプロセッサ１４６とが、システムバス４８に結合されている。

図１１は、図３の例示的な不揮発性記憶装置サブシステム６８のブロック図である。この非限定的な例では、不揮発性記憶装置サブシステム６８は、固定記憶装置１５０とリムーバブル記憶装置１５２とをシステムバス４８に結合する周辺インタフェースコントローラ１４８を含む。

図１２は、図３の例示的なネットワークインタフェースサブシステム７０のブロック図である。この非限定的な例では、ネットワークインタフェースコントローラ（ＮＩＣ）１５４は、システムバス４８に結合されており、イーサネットトランシーバ１５６は、イーサネットコネクタ１５８をネットワークインタフェースコントローラ１５４に結合しており、Ｗｉ−Ｆｉトランシーバ１６０は、Ｗｉ−Ｆｉアンテナ１６２をネットワークインタフェースコントローラ１５４に結合しており、セルネットワークトランシーバ１６４は、セルネットワークアンテナ１６６をネットワークインタフェースコントローラ１５４に結合しており、Ｂｌｕｅｔｏｏｔｈトランシーバ１６８は、Ｂｌｕｅｔｏｏｔｈアンテナ１７０をネットワークインタフェースコントローラ１５４に結合している。ネットワークインタフェースサブシステム７０からのデータ（例えば、受信信号の強度であるが、これに限定されない）は、局在化及びマッピングの向上のために、ＳＬＡＭモジュール（後で説明する）によって使用されてもよく、例えば質量減衰係数を推定するために、物理特性モジュール（これも後で説明する）によって使用されてもよい。

図１３は、図３の例示的なユーザインタフェースサブシステム７４のブロック図である。この非限定的な例では、センササブシステムコントローラ１７２は、システムバス４８に結合されている。任意選択であるユーザインタフェースは、センササブシステムコントローラ１７２に結合されている。そのようなユーザインタフェースには、キーボード１７４と、ＸＹタッチパッド１７６と、タッチデジタイザ１７８と、物理スイッチ１８０と、リニアエンコーダ１８２と、ロータリエンコーダ１８４とが含まれる。

図１４は、図３の例示的なビジュアル出力サブシステム７２のブロック図である。この非限定的な例では、ビジュアル出力サブシステム７２は、ディスプレイ制御ユニット１８６を含み、ディスプレイ制御ユニット１８６は、システムバス４８をディスプレイアダプタコネクタ１８８に結合している。

図１５は、図３の例示的な音出力サブシステム８２のブロック図である。この非限定的な例では、音出力サブシステム８２は、システムバス４８に結合されたオーディオ出力コントローラ１９０と、デジタルオーディオ出力１９４をオーディオ出力コントローラ１９０に結合しているデジタルオーディオ信号フォーマットコンバータ１９２と、アナログオーディオ出力１９８をオーディオ出力コントローラ１９０に結合しているデジタル−アナログオーディオコンバータ１９６とを含む。

図１６は、図３の例示的な電源サブシステム６４のブロック図である。この非限定的な例では、電源サブシステム６４は、システムバス４８に結合された電力入力スイッチ２００と、電力入力スイッチ２００に結合されたバッテリ２０２と、電力入力スイッチ２００及びバッテリ２０２に結合されたバッテリ充電コントローラ２０４と、電力入力スイッチ２００に結合された外部電力入力２０６とを含む。

図１７は、デジタルカメラ１０用の例示的なルート動作プロセス２０８のフロー図である。このルート動作プロセス２０８は、例えば、図３のＣＰＵ５０上で実行され得る。最初にカメラの電源を投入すると、動作２１０は周辺機器を数え上げ、動作２１２はコードセグメントをロードし、動作２１４はユーザインタフェースを開始する。コードセグメントは、好ましくは、図３のメモリ５４のような不揮発性の読み出し専用メモリ内に記憶されるが、ＥＥＰＲＯＭＳ、フラッシュメモリ等を含む他の形態の不揮発性メモリが使用されてもよい。これらの初期化ステップの後、ルート動作プロセス２０８は、メインループ２１６に入る。割り込みハンドラ２１８は、イベントドリブン処理のためにメインループ２１６を中断し得る。データのタイムスタンプ付きフレームがセンササブシステムから利用可能になると、該フレームは処理のためにコードセグメントモジュールに渡される。

図１８は、図１７の例示的なメインループプロセス２１６のフロー図である。メインループプロセス２１６は、２２０にて開始し、動作２２２において任意の利用可能な新規データフレームがあるかどうかを決定する。ある場合には、動作２２４はモジュールに通知する。利用可能な新しいデータフレームがない場合又は動作２２４の後には、動作２２６は、データの後処理が必要であるかどうかを決定する。ある場合には、動作２２８はモジュールに通知する。データ後処理が必要でない場合又は動作２２８の後には、動作２３０は、デジタルカメラ１０を低電力「スリープ」モードに入らせ、プロセス制御は、動作２２２に戻される。

図１９は、図１７の例示的な開始ユーザインタフェースプロセス２１４のフロー図である。開始ユーザインタフェースプロセス２１４は、２３２にて開始し、動作２３４はユーザ入力（ＵＩ）が受信されたかどうかを決定する。受信された場合には、動作２３６はＵＩ入力に従う。受信されていない場合又は動作２３６の後には、動作２３８は、ＵＩ更新が必要かどうかを決定する。必要である場合には、動作２４０はＵＩを更新し、必要でない場合又は動作２４０の後には、スリープ動作２４２が実行される。プロセス制御は、その後、連続ループにおいて動作２３４に戻される。

デジタルカメラ１０の動作を制御するハードウェア及びコードセグメント（典型的には、ファームウェア）は、スチルカメラからビデオカメラに至るまで、また、環境をモデル化してリアルタイムの複合現実音及び画像を生成可能である高度な「スマート」カメラに至るまでの、多くのモードにおいてデジタルカメラを動作させることができるようにすることが理解されよう。後者は、仮想化モードに入り、環境の複数のセンサにより該環境を「スキャン」することによって、環境の物理現象をリアルタイム又は準リアルタイムで仮想化することにより達成される。例えば、環境は、デジタルカメラ１０を部屋の中心から円形パターンでパンすることによりスキャンされ得る。この例では、デジタルカメラ１０は、合成された特性、コンポーネント及び材料を環境に適用して、予想される現実世界の結果と繋ぎ合わせるシミュレーションを生成するために、環境の物理特性の測定値をキャプチャし得る。

非限定的な例では、デジタルカメラ１０は、拡張現実／複合現実アプリケーション用のリアルタイムのオーディオ向上を提供するために使用され得る。この例では、デジタルカメラ１０は、（例えば、部屋をスキャンすることによって）環境をアクティブに監視し、最適な没入品質のためのシミュレーション設定を連続的に調整する。複数のセンサ間の相関は、環境測定値に順応可能であり、システムにシミュレーション結果のための信頼水準を提供する。

音は時間に依存するため、音響モデリングでは、予測可能な変数及び周期的な特性が識別、分析及び解明され得る。この非限定的な例では、デジタルカメラ１０は、計算ソルバモジュール２８０を事前調整するために（過去に収集されたデータに加えて）環境についての現在の状態を使用し、それによって収束がより速くなり、リアルタイム又は準リアルタイムの正確な結果シミュレーションが可能になる。センササブシステムの少なくとも１つからのデータを用いて計算ソルバモジュール２８０を事前調整することにより、ＡＲ画像及び／又はＡＲ音を構築して周囲環境に重ね合わせるための演算プロセスが加速される。

非限定的な例では、デジタルカメラ１０は、盲人のための予測モデリングの基礎を提供し得る。このデバイスの構成は、視覚障害者にフィードバックを提供するのに使用可能な予測モデルを構築するために使用され得る。環境の物理形状をその特性と共にデバイスの様々なセンサを使用してリアルタイムでキャプチャすることによって、デバイスはそのような環境のコンポーネントの理解を表すモデルを構築し得る。このモデルは、コンテキスト認識となるように処理可能であり、該コンテキスト認識は、後ほど盲人に予測応答を提供するために使用され得る。

非限定的な例では、デジタルカメラ１０は、環境をスキャンして、カメラを保持する人が通りの角に立っていることを識別し、音センサを介して遠方の車の音を識別してもよい。その人が向いている方向及び対向車の音のような情報を通じて、デジタルカメラ１０は、この道路を通過するのに最適な時間であり得る時、又は、その人がその道路を横切るのを避けるべき時について、その人に通知し得る。

デジタルカメラ１０の高度なモデリング及び予測モデリングは、３つの基本ステップ又はステージにて達成され得る。この例では、ステージ１は、生の入力データを収集することであり、これについては図２０に関してより詳細に説明する。ステージ２は、ステージ１によって収集された生の入力からメタデータを導出することであり、図２１に関してより詳細に説明する。ステージ３は、該メタデータ及び生の入力データを総合して環境のモデルを作成することであり、図２２に関してより詳細に説明する。例えば、音響モデリングを用いて、新たな音がモデリングされた環境においてどのようにユーザに聞かれるかが予測され得る。

図２０は、例示的なデータ取得プロセス２４４を示す図であり、データ取得プロセス２４４は、任意選択である環境センササブシステム７６、音センササブシステム６０、モーションセンササブシステム５６及び撮像センササブシステム５８からの入力によって開始する。これらのセンササブシステムの出力は、物理特性データベース２５４、物理特性モジュール２５６、特徴ベクトルデータベース２５８、ＳＬＡＭモジュール２６０、画像分類データベース２６２及びコンピュータビジョンモジュール２６４を使用して処理される。物理特性モジュール２５６、ＳＬＡＭモジュール２６０及びコンピュータビジョンモジュール２６４の出力は、データ作成モジュール２６６に入力され、データ作成モジュール２６６は、データ作成データベース２６８に結合される。

同時局在化及びマッピング（ＳＬＡＭ）モジュール２６０は、モーションセンササブシステム５６からのデータを、撮像センササブシステム５８及び音センササブシステム６０等（これらに限定されない）の他のセンササブシステムからのデータと併せて処理し、それによって環境の三次元幾何形状モデルを構築し得る。データのフレームが、特徴抽出技術を使用して変換され得ると共に、結果として得られる局所化された特徴ベクトルは、運動中の装置の追跡された位置及び向きについての補正を支援するために、データベース２５８内に記憶され得る。

物理特性モジュール２５６は、音センササブシステム６０からのデータを処理し、それによって材料吸収及び散乱係数等（これらに限定されない）の環境内の物理特性、並びに、残響特性を評価し得る。物理特性モジュール２５６は、風速、空気圧、湿度及び温度等（これらに限定されない）の環境センササブシステム７６からのデータを処理し、それによって、例えば減衰及び音速を計算する際のシミュレーションモデルを改善し得ることが理解されよう。

物理特性モジュール２５６は、物理特性データベース２５４と協働することができる。そのような物理特性データベースとしては、以下に限定されないが、既定の質量減衰係数及び局所的な音響インパルス応答が挙げられる。コンピュータビジョンモジュール２６４は、撮像センササブシステム５８からのデータを、エッジ検出等（これに限定されない）の技術を使用して処理し得る。コンピュータビジョンモジュール２６４はまた、イメージセンササブシステム５８からのデータをオブジェクト画像の画像分類データベース２６２と併せて処理し、それによってスピーカ及びマイク等（これらに限定されない）の画像フレーム内における視覚的に認識可能なオブジェクトを分類して、環境内におけるそれらのポーズを推定し得る。コンピュータビジョンモジュール２６４はまた、撮像センササブシステム５８からのデータを材料画像の画像分類データベース２６２と併せて処理し、それによってレンガ及び木材等（これらに限定されない）の画像フレーム内における視覚的に認識可能な材料を分類し得る。データ作成モジュール２６６は、センササブシステムから出力されたデータのタイムスタンプ付きフレームを結合し、それによって計算ソルバモジュール２８０のためのシミュレーションモデルを作成する。計算ソルバモジュール２８０については、後に説明する。

シミュレーションモデルには、以下に限定されないが、幾何形状、材料特性、境界条件、並びに、スピーカ、トランスデューサ及びマイク等の発音器及び受音器の位置及び向き等のデータが含まれる。シミュレーションモデルは、スピーカ、音響処理材、家具等（これらに限定されない）の仮想コンテンツによって拡張され得る。データ作成モジュール２６６は、実際のセンサデータフレームを使用して、かつ、解決結果履歴等（これに限定されない）のデータセットを用いて訓練されたニューラルネットワークによって生成された合成データを使用して、センサ及びデータの融合を行い得る。データ作成モジュール２６６は、例えばセンササブシステムにおけるバイアスを補償することによってシミュレーションモデルを改善するために、電磁場強度及び超低ノイズ等（これらに限定されない）の環境センササブシステム７６からのデータを処理し得る。

図２０のデータ取得プロセス２４４は、各センサを通じてそれらの能力で世界に関する情報を収集する。非限定的な例では、撮像センサによってＲＧＢ−Ｄデータがキャプチャ可能であり、音センサによって聴覚データがキャプチャ可能であり、以下同様にキャプチャが行われ得る。センサ入力は、キャプチャされた情報に関する追加のメタデータを推測する様々なモジュールに送られる。例えば、壁は、音センサによって観察されて材料データベースからの過去の読取値と比較された後に、煉瓦から作られたものと識別され得る。さらに、「テクスチャ」等の視覚的特徴をコンピュータビジョンデータベースに対して処理し、それによって表面から表面均一性（例えば、煉瓦パターン）のような追加のメタデータを導出し得る。その後、データベース処理モジュールから生成されたメタデータを統合し、それによってスキャンされた環境のモデルを構築し得る。

図２１は、データ処理プロセス２７０の例を示す図である。データ処理プロセス２７０は、スピーカ指定データベース２７２と、スピーカモデリングモジュール２７４と、データ作成データベース２６８と、データ作成モジュール２６６と、計算ソルバモジュール２８０と、解法結果データベース２８２と、処理提案モジュール２８４と、処理モジュールデータベース２８６とを含む。

計算ソルバモジュール２８０は、データ作成モジュール２６６によって作成されたシミュレーションモデルを数多くの数値解法と併せて使用して、数値解を計算し得る。そのような数値解法としては、以下に限定されないが、レイトレーシングソルバ、境界要素法ソルバ及び有限要素法ソルバ等が挙げられる。計算ソルバモジュール２８０は、数値解の収束を加速するために、センササブシステム及びデジタルニューラルネットワークからの融合データを用いて事前調整し得る。

処理提案モジュール２８４は、データ作成モジュール２６６及び計算ソルバモジュール２８０と併せて使用して、音響処理装置の幾何学的特性及び材料的特性を計算し得る。処理提案モジュール２８４は、音響処理装置モデルのデータベース２８６を使用して、現場での（in situ）該装置のシミュレーション及び分析を支援し得る。

スピーカモデリングモジュール２７４は、データ作成モジュール２６６からの出力を、計算ソルバモジュール２８０からの出力と併せて使用して、任意の位置にある数多くのスピーカをシミュレートし得る。スピーカのモデリングモジュール２７４は、スピーカ指定データベース２７２を使用して、スピーカのシミュレーション及び分析を支援し得る。

データ作成モジュール２６６は、環境から収集されたデータを、示唆される音響修正に関するデータと共に統合する。示唆される音響修正としては、例えば、既存の又は潜在的なスピーカや、室内に存在し得る又は提案され得る任意の音響処理材が挙げられる。この情報は、計算ソルバモジュール２８０へと供給することができ、計算ソルバモジュール２８０は、その構成に起因する音響場の３Ｄ表現を提供し得る。この情報は、現実を修正することに対して時間、労力又は金銭を費やす前に、部屋の設定にて問題のある領域を特定するのに役立つ。したがって、このプロセスは、仮想スピーカ及び音響処理構成（例えば、低周波数を吸収するための壁の詰め物）があると仮定した場合に、部屋では音がどのように聞こえるかを予測することができる。

図２２は、例示的なデータレンダリングプロセス２８８の説明図である。データ作成モジュール２６６は、オーディオ触覚（audio tactile）レンダリングモジュール２９２、計算ソルバモジュール２８０、グラフィックレンダリングモジュール２９６及びデータエクスポータモジュール２９８に結合される。オーディオ触覚レンダリングモジュール２９２は、オーディオ畳み込みモジュール３００に供給される。頭部関連伝達関数（ＨＲＴＦ）データベース３０２及びＨＲＴＦレンダリングモジュール３０４は、オーディオ畳み込みモジュール３００の出力に結合される。幾何形状マッピングモジュール３０６及び両眼（binocular）レンダリングモジュール３０８は、グラフィックレンダリングモジュール２９６の出力に結合され、有限インパルス応答（ＦＩＲ）フィルタ生成モジュール３１０は、データエクスポータモジュール２９８の出力に結合される。出力は、ヘッドホン３１２と、スピーカ３１４と、トランスデューサ３１６と、プリンタ３１８と、スクリーンディスプレイ３２０と、２Ｄ／３Ｄプロジェクタ３２２と、複合現実ヘッドアップディスプレイ３２４と、仮想現実ヘッドアップディスプレイ３２６と、アウトボード信号プロセッサ３２８とを含む。

データエクスポータモジュール２９８は、以下に限定されないが、ＦＩＲフィルタ係数等の数多くのフォーマットについてのデータエクスポート機能を提供し得る。この非限定的な例では、ＦＩＲフィルタ生成モジュール３１０は、外部信号プロセッサ３２８と共に使用するためのＦＩＲフィルタ係数を生成し得る。

オーディオ触覚レンダリングモジュール２９２は、データ処理モジュール２６６からの出力を、演算ソルバモジュール２８０からの出力と併せて使用し、それによって、ヘッドホン３１２、スピーカ３１４及びトランスデューサ３１６等（これらの限定されない）の音響再生デバイスを介して配信するための空間的かつ触覚的なオーディオをレンダリングし得る。

この非限定的な例では、オーディオ畳み込みモジュール３００は、オーディオ触覚レンダリングモジュール２９２と協働して、シミュレートされた音響環境特性を実際の音響環境特性に畳み込み得る。

この非限定的な例では、頭部関連伝達関数は、両耳送達（binaural delivery）のための合成音の空間領域畳み込みに使用される。ＨＲＴＦレンダリングモジュール３０４は、この非限定的な例では、オーディオ触覚レンダリングモジュール２９２及びオーディオ畳み込みモジュール３００と協働して、両耳送達のための局在化されたオーディオ信号を畳み込み得る。ＨＲＴＦレンダリングモジュール３０４は、この非限定的な例では、個別化された両耳用畳み込みのために、ＨＲＴＦデータベース３０２を利用し得る。

この非限定的な例では、グラフィックレンダリングモジュール２９６は、データ作成モジュール２６６からの出力を計算ソルバモジュール２８０からの出力と併せて使用し、それによってプリンタ３１８又はスクリーンディスプレイ３２０に出力するためのグラフィック表示をレンダリングし得る。グラフィックレンダリングモジュール２９６はまた、この非限定的な例では、幾何形状マッピングモジュール３０６と協働し、それによって、２Ｄ又は３Ｄプロジェクタ３２２を介して出力するためにグラフィック出力を環境の幾何形状に畳み込み得る。この非限定的な例ではまた、グラフィックレンダリングモジュール２９６は、両眼レンダリングモジュール３０８と協働し、それによってヘッドアップディスプレイ３２４及び３２６等（これらに限定されない）の両眼ディスプレイ用のグラフィック出力をレンダリングし得る。

代替の非限定的な例では、シミュレーションモデルは、コンピュータ支援設計又は建物情報モデルのデータ等（これらに限定されない）の既存のデータを使用して構築され得る。代替の非限定的な例では、光検出及び測距（ＬＩＤＡＲ）等（これらに限定されない）の静的に位置決めされたレンジ撮像センサが、三次元幾何形状の再構築に使用され得る。代替の非限定的な例では、物質特性は、既定の質量減衰、吸収及び散乱係数データセットから割り当てられ得る。代替の非限定的な例では、音センササブシステム６０は、Ｂフォーマットアレイの代わりに、Ａフォーマットマイクカプセルアレイを使用し得る。代替の非限定的な例では、音センササブシステム６０は、Ｂフォーマットアレイの代わりに、単一のマイクカプセルを使用し得る。

前述の音響モデリングの例を続けると、カメラ１０は、統合された環境特性、既存のスピーカ及び仮想スピーカの特性、部屋の処理、並びに、種々の目的のための演算結果を活用する能力を有することが理解されよう。１つの例示的な目的は、現在の利用可能な環境の構成において、仮想環境を高精度でシミュレートすること（例えば、スピーカ位置を使用し、それによって位置的に正確な空間撮像を用いて自然音をシミュレートすること）である。別の例では、ユーザは、部屋に対する潜在的な変化の影響を、それらの変更がヘッドホンを介して適用される前に体験するために、拡張現実に入り得る。さらに別の使用場面では、既存の装置構成を使用して聴取体験を向上させるために、有限インパルス応答オーディオフィルタ係数が計算ソルバから導出されて既存の信号プロセッサ構成に適用され得る。

要約すると、デジタルカメラ１０は、例えば、室内において物理スピーカがある場所等の環境に関する多くの情報を知得しており、それによって以下を含む多くの有用なサービスを提供する。
・既存の物理スピーカを使用して、新たな３Ｄ位置環境をシミュレートする（それによって、例えば、音楽ホールのようなホームシアター音を作成する）
・ユーザに対して部屋を歩き回っている際のＡＲプレビューを提供することにより、部屋に対する任意の変化がその結果生じるオーディオに対して及ぼす影響をシミュレートする（例えば、新たなソファが部屋の音響に及ぼす影響をシミュレートする）。
・既存のシステム（例えば、サラウンド音システム）における問題点を決定して、その既存のシステムに適用するための矯正用オーディオカーブ（設定）を提供する。

部屋の音響モデリング
図２３を参照して、部屋を音響的にモデリングするためのプロセス３３０は、音響属性について部屋をスキャンする動作３３２から開始する。非限定的な例では、デジタルカメラ１０を保持するユーザは、カメラを部屋の周りにパンし、それによって対象の壁、床、天井及びオブジェクトをスキャンし得る。次に、動作３３４では、部屋の音響属性を診断及び処理する。最後に、動作３３６では、部屋の音響を改善するための提案をする。

さらなる非限定的な例としては、ユーザは歩いて部屋の中に入り、部屋のスキャンを開始する。センサ、例えば、１つ以上の構造化光プロジェクタ、デジタルレンジ撮像センサ、デジタル光撮像センサ、デジタル加速度計、デジタル気圧計、デジタル電磁放射線センサ、デジタル微気圧計、デジタル湿度計、デジタル温度計、Ｂフォーマットマイクカプセルアレイ、多チャンネルアナログ信号プリアンプ、多チャンネルアナログ−デジタルオーディオ変換器及びデジタル粒子速度感知パッケージは、ＳＬＡＭモジュールと共に、材料の吸収特性、材料の反射特性、音速等のような構築された三次元モデルの音響特性に関する情報を、ユーザに提供する。この情報によって、該情報が処理及び診断された後に、部屋の物理的特徴に重ね合わされたＡＲ映像がユーザに提供され得る。加えて、この処理された診断に基づいて、空間に追加可能な音響処理材等（これに限定されない）の空間の音響効果を改善するために実行可能な修正に関する提案が行われ得る。

図２４では、プロセス３３８は、動作３４０において最初にＨＶＡＣシステム属性をスキャンすることによって、ＨＶＡＣシステムの音響モデルを構築する。次に、動作３４２では、ＨＶＡＣシステムを診断及び処理する。次に、動作３４４では、ＨＶＡＣシステムを改善するための提案を行い得る。

非限定的な例では、プロセス３３８では、ユーザは部屋に入ってデジタルカメラ１０により部屋をスキャン開始し得る。デジタル気圧計、デジタル電磁放射線センサ、デジタル微気圧計、デジタル湿度計、デジタル温度計及びデジタルサーモグラフィセンサのうち１つ以上を含むセンサは、ＳＬＡＭモジュールと共に、ＨＶＡＣシステムに関する情報をユーザに提供する。そのような情報としては、例えば、気流、及び、熱気流と冷気流との比が挙げられる。この情報によって、該情報がカメラ画面上で処理及び診断された後に、空間に重ね合わされたＡＲ視覚化がユーザに提供され得る。加えて、この処理された診断に基づいて、ＨＶＡＣシステムを改善するために実行可能な修正に関する提案が行われ得る。そのような修正には、例えば、気流の最適化と音響の最適化（例えば、ＨＶＡＣシステムによって生成された部屋の騒音レベル）との両方が含まれる。

前述より、限定ではなく例として示される、デジタルカメラを用いて周囲環境をモデリングする方法は、以下のステップを含むことが理解されよう。
・撮像センサと、音センサと、モーションセンサとを少なくとも含む複数のセンサから、生の入力データを収集するステップ、
・生の入力データからメタデータを導出するステップ、及び、
・デジタルカメラの周囲環境のモデルを構築するために、メタデータ及び生の入力データを処理するステップ。

例えば、メタデータは、前述の同時局在化及びマッピング（ＳＬＡＭ）プロセス及び／又はストラクチャーフロムモーション（ＳｆＭ）プロセスを使用して導出され得る。ＳＬＡＭプロセス及び／又はＳｆＭプロセスのコードセグメントは、非限定的な例では、不揮発性の読み出し専用メモリ５４等の非一時的コンピュータ可読媒体内に記憶され得る。特定の実施形態では、生の入力データは、撮像センサデータ及び音センサデータのうち１つのみを含む。

前述より、限定ではなく例として示される、拡張現実（ＡＲ）表示をデジタルカメラ上に提供する方法は、以下のステップを含むことが理解されよう。
・撮像センサと、音センサと、モーションセンサとを少なくとも含むデジタルカメラを用いて、周囲環境を走査するステップ、
・デジタルカメラのデジタルプロセッサを用いて、撮像センサ、音センサ及びモーションセンサから導出されたデータから、複数の物理オブジェクト及びそれらの特性を含む周囲環境のモデルを構築するステップ、及び、
・周囲環境を重ね合わせる拡張現実（ＡＲ）を構築するステップ。

周囲環境のスキャンは、デジタルカメラをパンすることによって行われてもよい。このモデルは、前述の同時局在化及びマッピング（ＳＬＡＭ）プロセス及び／又はストラクチャーフロムモーション（ＳｆＭ）プロセスを使用して構築され得る。仮想オブジェクト及び仮想特性は、１つ以上のデータベース内に記憶され得る。ＳＬＡＭプロセス及び／又はＳｆＭプロセスのコードセグメントは、非限定的な例では、１つ以上のデータベースにおける仮想オブジェクト及び仮想特性と同様に、不揮発性の読み出し専用メモリ５４等の非一時的コンピュータ可読媒体内に記憶され得る。一実施形態では、ＡＲを構築するステップは、周囲環境の画像の上にＡＲ画像を重ね合わせるステップを備えており、ＡＲ画像は、周囲環境の複数の物理特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含む。別の実施形態では、ＡＲを構築するステップは、周囲環境の音の上にＡＲ音を重ね合わせるステップを備えており、ＡＲ音は、周囲環境の複数の物理特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含む。後者の実施形態は、視覚障害者にとって特に有用であり、またエンターテイメント体験の現実感を高めるためにも使用され得る。

種々の例について特定の用語及びデバイスを使用して説明したが、そのような説明は、単に例示のみを目的としている。使用される言葉は、限定ではなく説明の言葉である。当業者であれば、本明細書に記載された実施例の趣旨又は範囲から逸脱することなく、変更及び変形が可能であることが理解されよう。加えて、種々の他の例についての態様は、その全部または一部において置換可能であることを理解されたい。したがって、本明細書及び以下に示される特許請求の範囲は、それらの真の趣旨及び範囲に従って、限定及び禁反言されることなく解釈されることが意図される。

Claims

カメラ本体と、
前記カメラ本体によって支持されているレンズと、
前記カメラ本体によって、前記レンズと並んで支持されている撮像センサと、
前記カメラ本体によって支持されている音センサと、
前記カメラ本体によって支持されている入力処理システムであって、
（ａ）システムバス、
（ｂ）前記バスに結合されたデジタルプロセッサ、
（ｃ）前記音センサの出力を前記バスに結合する音センササブシステム、
（ｄ）前記音センササブシステムに対して同期クロック信号を供給するための、システムクロックから分離された高精度クロック、並びに、
（ｅ）前記バスに結合された非一時的デジタルメモリであって、リアルタイムでのオーディオ、ビジュアル及びモーション分析のために、前記音センササブシステムから導出されるデータから、デジタルカメラの周囲環境のデジタルモデルを構築するよう、デジタルプロセッサによって実行可能なコードセグメントを含む、非一時的デジタルメモリ
を含んでいる、入力処理システムと、
を備えている、オーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
前記撮像センサの出力を前記バスに結合する撮像センササブシステムと、前記カメラ本体によって支持されているモーションセンサと、前記モーションセンサの出力を前記バスに結合するモーションセンササブシステムとをさらに備えており、前記周囲環境の前記デジタルモデルは、前記撮像センササブシステム及び前記モーションセンササブシステムのうち少なくとも１つからのデータからも導出される、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
全地球測位センサ及び前記全地球測位センサを前記システムバスに結合する全地球測位センササブシステム、並びに、環境センサ及び前記環境センサを前記システムバスに結合する環境センササブシステムをさらに備えており、前記周囲環境の前記デジタルモデルは、前記全地球測位センササブシステム及び前記環境センササブシステムのうち少なくとも１つからのデータからも導出される、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
ストラクチャーフロムモーション（ＳｆＭ）プロセスを実装する複数のコードセグメントをさらに備えている、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
同時局在化及びマッピング（ＳＬＡＭ）プロセスを実装する複数のコードセグメントをさらに備えている、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
複数のセンサからの生の入力データから、前記周囲環境の前記デジタルモデルを構築するために使用されるメタデータを導出する複数のコードセグメントをさらに備えている、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
前記カメラ本体によって支持されている、前記周囲環境の画像を表示可能なディスプレイをさらに備えている、請求項１に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
前記周囲環境の画像の上に拡張現実（ＡＲ）画像を重ね合わせる複数のコードセグメントをさらに備えている、請求項７に記載のオーディオ、ビジュアル及びモーション分析を備えたデジタルカメラ。
デジタルカメラの撮像センサから、生の画像データを収集するステップと、
デジタルカメラの音センサから、生の音データを収集するステップと、
前記生の画像データ及び前記生の音データから、モーション信号と撮像信号との両方の合成を含むメタデータを導出するステップと、
ストラクチャーフロムモーション（ＳｆＭ）プロセスと同時局在化及びマッピング（ＳＬＡＭ）プロセスとのうち少なくとも１つを実施することによって前記デジタルカメラの周囲環境のモデルを構築するために、前記メタデータ及び前記生の音データを処理するステップと、
を備えている、デジタルカメラを用いて周囲環境をモデリングする方法。
ストラクチャーフロムモーション（ＳｆＭ）プロセスと同時局在化及びマッピング（ＳＬＡＭ）プロセスとのうち少なくとも１つを実施している間に、前記生の画像データを処理するステップをさらに備えている、請求項９に記載のデジタルカメラを用いて周囲環境をモデリングする方法。
ストラクチャーフロムモーション（ＳｆＭ）プロセスと同時局在化及びマッピング（ＳＬＡＭ）プロセスとのうち少なくとも１つを実施している間に、生のモーションデータを収集し、前記生のモーションデータを処理するステップをさらに備えている、請求項９に記載のデジタルカメラを用いて周囲環境をモデリングする方法。
前記モデルは、モーション信号と前記音データのみからの撮像信号との両方の合成を含んでいる、請求項９に記載のデジタルカメラを用いて周囲環境をモデリングする方法。
音センサを含むデジタルカメラを用いて、周囲環境を走査するステップと、
前記デジタルカメラのデジタルプロセッサを用いて、前記音センサから導出されたデータから、複数の物理オブジェクト及びそれらの特性を含む周囲環境のモデルを構築するステップと、
前記周囲環境を重ね合わせる拡張現実（ＡＲ）を構築するステップと、
を備えている、デジタルカメラを用いて拡張現実を提供する方法。
ＡＲを構築する前記ステップは、前記周囲環境の画像の上にＡＲ画像を重ね合わせるステップを備えており、前記ＡＲ画像は、前記周囲環境の複数の物理的特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含んでいる、請求項１３に記載のデジタルカメラを用いて拡張現実を提供する方法。
ＡＲを構築する前記ステップは、前記周囲環境の音の上にＡＲ音を重ね合わせるステップを備えており、前記ＡＲ音は、前記周囲環境の複数の物理的特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含んでいる、請求項１３に記載のデジタルカメラを用いて拡張現実を提供する方法。
ストラクチャーフロムモーション（ＳｆＭ）プロセスを実装するステップをさらに備えている、請求項１３に記載のデジタルカメラを用いて拡張現実を提供する方法。
同時局在化及びマッピング（ＳＬＡＭ）プロセスを実装するステップをさらに備えている、請求項１３に記載のデジタルカメラを用いて拡張現実を提供する方法。
仮想特性を備えた仮想オブジェクト及び物理特性を備えた物理オブジェクトのうち少なくとも１つを含むデータベースをさらに備えている、請求項１３に記載のデジタルカメラを用いて拡張現実を提供する方法。
音センサを含むデジタルカメラを用いて、周囲環境を走査するステップと、
前記デジタルカメラのデジタルプロセッサを用いて、前記音センサから導出されたデータから、複数の物理オブジェクト及びそれらの特性を含む周囲環境のモデルを構築するステップと、
前記周囲環境を重ね合わせる拡張現実（ＡＲ）を構築するステップと
を行うための、デジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
ＡＲを構築する前記ステップは、前記周囲環境の画像の上にＡＲ画像を重ね合わせるステップを備えており、前記ＡＲ画像は、前記周囲環境の複数の物理的特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含んでいる、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
ＡＲを構築する前記ステップは、前記周囲環境の音の上にＡＲ音を重ね合わせるステップを備えており、前記ＡＲ音は、前記周囲環境の複数の物理的特性に関連する複数の仮想特性を備えた複数の仮想オブジェクトを含んでいる、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
ストラクチャーフロムモーション（ＳｆＭ）プロセスを実装するステップをさらに備えている、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
同時局在化及びマッピング（ＳＬＡＭ）プロセスを実装するステップをさらに備えている、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
仮想特性を備えた仮想オブジェクト及び物理特性を備えた物理オブジェクトのうち少なくとも１つを含むデータベースをさらに備えている、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。
前記周囲環境を重ね合わせるＡＲを構築する前記ステップは、センサ入力又はニューラルネットワークのうち少なくとも１つを使用して、ＡＲ計算プロセスを加速することを含んでいる、請求項１９に記載のデジタルカメラのデジタルプロセッサ上で実行可能な複数のコードセグメントを備えた非一時的コンピュータ可読媒体。