JP2022506582A

JP2022506582A - パノラマ画像

Info

Publication number: JP2022506582A
Application number: JP2021524014A
Authority: JP
Inventors: ミッカタパニヴィレルモ; アルトユハニレフティニエミ; ラッセユハニラークソネン; タパニフィラヤクヤ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2018-11-07
Filing date: 2019-10-31
Publication date: 2022-01-17
Anticipated expiration: 2039-10-31
Also published as: JP7247338B2; CN112970244A; EP3651448B1; US20210344831A1; WO2020094499A1; CN112970244B; EP3651448A1; US11792512B2

Abstract

好適な実施形態の一例、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することとを含む。【選択図】図２

Description

本明細書は、複数の視覚画像から生成される、音声データが組み込まれたパノラマ画像に関する。

背景

パノラマ画像は、撮像機器（例えば、携帯電話カメラ等のカメラ）を使用して収集された複数の画像を使用して生成される。音声データは、当該撮像機器のマイクロホンによって収集して、パノラマ画像の一部として提供することができる。今のところ、そのようなパノラマ画像の提供には従来技術に代わる技術が必要である。

摘要

第１の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する手段（例えば、携帯電話等の機器）と、前記視覚画像に関連する音声データ（例えば、モノラル音声又はステレオ音声）を、音声収集開始時点から音声収集終了時点までの間に収集する手段と、を備える装置（例えば、画像収集装置）が本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。

いくつかの実施形態は、前記収集された音声データ内で１つ以上の焦点要素を定義する手段をさらに備えてもよい。前記焦点要素内の収集された音声は増幅されてもよい。前記焦点要素は、１つ以上の期間及び／又は１つ以上の区域を含んでもよい。前記１つ以上の焦点要素は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。いくつかの実施形態は、前記１つ以上の焦点要素を（例えば、ユーザ入力なしに、何らかの測定基準に従って重要な音声源を特定する等何らかの方法で１つ以上の音声源を特定することで）判定する手段をさらに備えてもよい。そのような焦点要素の前記判定は自動的に実行されてもよい。

いくつかの実施形態は、前記音声収集開始時点及び前記音声収集終了時点を定義する手段をさらに備えてもよい。当該手段は、ユーザ入力を含んでもよい。その代わりに、又はそれに加えて、当該手段は自動化されてもよい。前記音声収集開始時点及び終了時点は、システム定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び終了時点はユーザ定義であってもよい。いくつかの実施形態は、前記装置について軌道が滑らかな期間を判定する手段をさらに備え、前記音声収集開始時点は、前記軌道が滑らかな期間の開始により（又はそれに対して相対的に）定義され、かつ／あるいは前記音声収集終了時点は、前記軌道が滑らかな期間の終了により（又はそれに対して相対的に）定義される。前記軌道が滑らかな期間は、前記装置が、曲線経路に対し閾値量を超える違いがない滑らかな経路上を移動している、又は静止している期間であってもよい。

前記画像収集開始時点及び前記画像収集終了時点は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び前記音声収集終了時点は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。

いくつかの実施形態は、前記パノラマ画像とともに提示される音声データの視野を定義する手段をさらに備えてもよい。前記音声データの前記視野は、前記画像収集開始時点から前記画像収集終了時点までの第１の円弧と前記音声収集開始時点から前記音声収集終了時点までの第２の円弧との相対的な大きさによって測られてもよい。

いくつかの実施形態は、前記パノラマ画像の基準方向を定義する手段と、前記基準方向とは概ね反対の方向における音声を修正する手段と、をさらに備えてもよく、前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される。前記基準方向は、前記パノラマ画像の中点、及び／又は前記撮像収集開始と終了位置との中間点であってもよい。

第２の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する手段と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する手段と、前記受信された音声とともに前記生成されたパノラマ画像を提示する手段と、を備える装置（例えば、出力生成装置）が本明細書に記載される。いくつかの実施形態は、（例えば、前記受信された複数の視覚画像の少なくとも２つ以上から）前記パノラマ画像を生成する手段をさらに備えてもよい。

いくつかの実施形態は、前記音声データ内における１つ以上の焦点要素（例えば、期間又は領域）に関連するデータ受信する手段をさらに備えてもよく、前記受信された音声は、前記焦点要素に応じて修正される。前記焦点要素は、画像及び／又は音声の収集過程の間に（例えば、ユーザインタフェース上のボタンを押下することにより）定義されてもよい。

前記受信された音声は、受信された音声を前記焦点要素内で増幅することにより修正されてもよい。その他の音声は、増幅されないままであっても、（減衰させる、完全に除去する、又は指向性のない背景音声として提供される等の）他の方法で処理されてもよい。

上述の第１及び第２の態様では、前記各手段は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つのメモリと、を備えてもよく、当該少なくとも１つのメモリは、当該少なくとも１つのプロセッサと協働して、対応する前記動作を前記装置に実行させるように構成されたコンピュータプログラムコードを含む。

第３の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することと、を含む方法が、本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。

いくつかの実施形態は、前記収集された音声データ内で１つ以上の焦点要素を定義するステップをさらに備えてもよい。前記焦点要素内の収集された音声は増幅されてもよい。前記焦点要素は、１つ以上の期間及び／又は１つ以上の区域を含んでもよい。前記１つ以上の焦点要素は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。いくつかの実施形態は、前記１つ以上の焦点要素を（例えば、ユーザ入力なしに、何らかの測定基準に従って重要な音声源を特定する等何らかの方法で１つ以上の音声源を特定することで）判定する手段をさらに備える。そのような焦点要素の前記判定は自動的に実行されてもよい。

いくつかの実施形態は、前記音声収集開始時点及び前記音声収集終了時点を定義するステップをさらに備えてもよい。いくつかの実施形態は、軌道が滑らかな期間を判定するステップをさらに備え、前記音声収集開始時点と前記音声収集終了時点とが、それぞれ、前記軌道が滑らかな期間の開始と前記軌道が滑らかな期間の終了とにより（又はそれらに対して相対的に）定義されるか、前記音声収集開始時点のみが前記軌道が滑らかな期間の開始により（又はそれに対して相対的に）定義されるか、又は前記音声収集終了時点のみが前記軌道が滑らかな期間の終了により（又はそれに対して相対的に）定義される。

第４の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信するステップと、前記受信された音声とともに前記生成されたパノラマ画像を提示するステップと、を含む方法が本明細書に記載される。

いくつかの実施形態は、前記音声データ内における１つ以上の焦点要素（例えば、期間又は領域）に関連するデータ受信する手段をさらに備えてもよく、当該受信された音声が焦点要素に応じて修正される。前記焦点要素は、画像及び／又は音声の収集過程の間に（例えば、ユーザインタフェース上のボタンを押下することにより）定義されてもよい。

第３又は第４の態様では、前記画像収集開始時点及び前記画像収集終了時点は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び前記音声収集終了時点は、（例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した）ユーザ定義であってもよい。

第３又は第４の態様に係るいくつかの実施形態は、前記パノラマ画像とともに提示される音声データの視野を定義するステップをさらに備えてもよい。前記音声データの前記視野は、前記画像収集開始時点から前記画像収集終了時点までの第１の円弧と前記音声収集開始時点から前記音声収集終了時点までの第２の円弧との相対的な大きさによって測られてもよい。

第３又は第４の態様に係るいくつかの実施形態は、前記パノラマ画像の基準方向を定義するステップと、前記基準方向とは概ね反対の方向における音声を修正するステップと、をさらに備えてもよく、前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される。前記基準方向は、前記パノラマ画像の中点、及び／又は前記撮像収集開始と終了位置との中間点であってもよい。

第５の態様として、第３又は第４の態様として記載される任意の方法を実行するように構成された任意の装置が本明細書に記載される。

第６の態様として、計算装置によって実行された場合に、第３又は第４の態様として記載される任意の方法を当該計算装置に実行させるコンピュータ可読指示が本明細書に記載される。

第７の態様として、コンピュータに、少なくとも、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集するステップと、を実行させる指示を含むコンピュータプログラムが本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。

第８の態様として、コンピュータに、少なくとも、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信するステップと、前記受信された音声とともに前記生成されたパノラマ画像を提示するステップと、を実行させる指示を含むコンピュータプログラムが本明細書に記載される。

第９の態様として、第３又は第４の態様として記載された任意の方法を実行するためにプログラム指示を記憶して備えるコンピュータ可読媒体（非一時的コンピュータ可読媒体等）が本明細書に記載される。

第１０の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する画像収集機器（例えば、携帯電話等の機器又はカメラ）と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集する手段と、を備える装置（例えば、ユーザ機器）が本明細書に記載される。

第１１の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する第１の入力と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する第２の入力と、前記受信された音声とともに前記生成されたパノラマ画像を提示する出力モジュールと、を備える装置（例えば、サーバ側）が本明細書に記載される。いくつかの実施形態は、（例えば、前記受信された複数の視覚画像の少なくとも２つ以上から）前記パノラマ画像を生成するプロセッサをさらに備えてもよい。

本発明の十分な理解に供するために、以下の図面を参照して本発明の実施形態を説明する。
例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るシステムのブロック図である。例示的な実施形態に係るグラフである。例示的な実施形態に係るアルゴリズムを示すフローチャートである。例示的な実施形態に係るシステムの各構成要素のブロック図である。有形の媒体であって、コンピュータによって実行されると各実施形態に係る動作を行うコンピュータ可読コードを記憶する取り外し可能な不揮発性メモリ部を示す。有形の媒体であって、コンピュータによって実行されると各実施形態に係る動作を行うコンピュータ可読コードを記憶するコンパクトディスク（ＣＤ）を示す。

詳細説明

以下の説明及び図面の全体にわたって、同様の符号は同様の構成要素を示す。

図１は、例示的な実施形態に係る、全体を符号１０で示すシステムのブロック図である。システム１０は、ユーザ１と、カメラ（例えば携帯電話カメラ）等の撮像機器２とを含む。撮像機器２は、（図１に撮像機器の位置２ａ、２ｂ、２ｃ、２ｄ、２ｅとして示すように）画像収集開始時点から画像収集終了時点までの、複数の視覚画像を収集する。

画像収集開始時点は、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。これは、図１に第１のユーザ入力指示６として示されている。同様に、画像収集終了時点は、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。これは、図１に第２のユーザ入力指示７として示されている。

図１に示すように、撮像機器２は、位置２ａから位置２ｅまで（即ち、画像収集開始時点から画像収集終了時点までの間）、円弧４に沿って移動する。このようにして、パノラマ画像を生成するためにステッチされる複数の画像（例えば写真）が、カメラ２を使用して公知の方法で収集される。カメラ２は、音声データを収集するための１つ以上のマイクロホンを備えてもよい。パノラマ画像とともに提示するために、短い（モノラル音声又はステレオ音声等の）音声クリップが録音されてもよい。音声クリップは、音声収集開始時点から音声収集終了時点まで収集されてもよい。音声収集開始時点及び音声収集終了時点は、画像収集開始時点及び画像収集終了時点と同じであってもよいが、さらに後述するように、実施形態の全てにおいてこれが必須ということではない。

図２は、例示的な実施形態に係る、全体を符号２０で示すアルゴリズムのフローチャートである。

アルゴリズム２０は、視覚画像が、例えば上述の撮像機器２によって収集される動作２２で始まる。動作２４（動作２２と並行して行われてもよい）では、例えば撮像機器２によって音声が収集される。

動作２６では、動作２４で収集された音声データ（例えば、短い音声クリップ）とともに、動作２２で収集されてパノラマ画像を生成するためにステッチされる複数の画像を含むパノラマ画像出力が生成される。

空間オーディオが収集される場合に、パノラマ画像出力の一部を成す空間オーディオ再生において、音源の音が適切な方向から聞こえるようにする必要がある。画像とともに、画像内に見える音源の音が、画像内の発生場所に対応する方向から聞こえてくる必要がある。

パノラマ画像のために静止画を空間オーディオと組み合わせる際の問題点は、パノラマ画像が、異なる時点に異なる方向で（例えば、上述の動作２２において）収集された複数の画像で構成されることである。動作２４で収集された音声が画像と同じ機器（例えば携帯電話）で収集される場合、音声も、当該機器を異なる時点に異なる方向に向けて収集される。音声が収集されたままユーザに向けて再生される場合、音源の音は回転しているように聞こえるが、パノラマ画像は回転していない。したがって、収集中の機器の回転と逆行して、収集された音声において反対の方向に音源を回転してもよい。

音声を回転させる方法は多数あり、アンビソニックス方式に基づく回転、パラメータ表現音声による回転などがある。

パラメータ表現音声は、方向パラメータを含み、その方向パラメータを変化させることで直接回転させることができる。パラメータ表現音声フォーマットの例は、指向性オーディオ符号化（Directional Audio Coding：ＤｉｒＡＣ）である。ＤｉｒＡＣの一例では、一次アンビソニックス（First-Order Ambisonic：ＦＯＡ）信号又はその異形であるＢフォーマット信号から、方向や拡散度比（直接音全体比パラメータに相当する情報）を推定する。

の信号は、例えば、短時間フーリエ変換（Short-term Fourier Transform：ＳＴＦＴ）によって周波数バンドに変換され、時間周波数信号ｗ（ｋ，ｎ）、ｘ（ｋ，ｎ）、ｙ（ｋ，ｎ）、及びｚ（ｋ，ｎ）が得られる。ここで、ｋは周波数ビンのインデックス、ｎは時間インデックスである。ＤｉｒＡＣでは、次式により強度ベクトルを推定する。

ここで、「Ｒｅ」は実部を示し、アスタリスク「＊」は複素共役を示す。

方向パラメータは、強度ベクトルの実部の方向とは反対の方向である。方向パラメータを決定する前に、複数の時点インデックス及び／又は複数の周波数インデックスについて強度ベクトルを平均してもよい。

平均される場合の方向パラメータは、複数の周波数ビンｋを結合した、例えば、バーク周波数分解能を近似する周波数バンドにおいて決定されてもよい。

図３は、例示的な実施形態に係る、明細書全体において符号３０で示すシステムのブロック図である。

システム３０は、ユーザ１と、撮像機器２と、当該撮像機器の位置２ａ、２ｂ、２ｃ、２ｄ、２ｅと、撮像機器２が画像収集開始時点から画像収集終了時点までの移動する際に通る円弧４と、を備える。上述のシステム１０と同様に、画像収集開始時点は、例えば、第１のユーザ入力指示６によりユーザが指示し、画像収集終了時点は、例えば、第２のユーザ入力指示７によりユーザが指示する。

システム３０は、さらに、第１の音源１２及び第２の音源１４を備える。ここで、第１の音源（楽器）１２はユーザ１が収集したい音声信号を発しており、第２の音源（自動車）１４はユーザ１が抑制したい背景雑音を発していると仮定する。例えば、ユーザは、楽器１２からの音が継続的に重要であって、自動車１４からの音が継続的に背景雑音である、演奏会での一場面を収集してもよい。

撮像機器２は、円弧４に沿って移動し、収集された視覚画像の焦点は、当該撮像機器の方向に依存する。例えば、撮像機器が位置２ｃにある場合、その焦点は楽器１２に合っており、位置２ｄにある場合、その焦点は自動車１４に合っている。音声出力は、同様に撮像機器の方向にその焦点を合わせることもできる。しかしながら、そのようにすると、撮像機器が位置２ｃ又はその付近にある時点のみ、音声出力の焦点が楽器１２に合うという結果になる。

図４は、例示的な実施形態に係る、全体を符号４０で示すアルゴリズムのフローチャートである。アルゴリズム４０は、画像及び音声の収集が開始される動作４２から始まる。動作４２は、第１のユーザ入力指示６として示される画像収集開始時点に始まる。

動作４４では、焦点要素が定義される。焦点要素は、収集された音声データにおいてユーザが音声出力の焦点としたい１つ以上の期間又は領域を定義してもよい。

ユーザインタフェースを設けて、ユーザが１つ以上の焦点要素を定義できるようにしてもよい。例として、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが焦点開始時点を指示してもよい。これは、図３に第３のユーザ入力指示８として示されている。同様に、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが焦点終了時点を指示してもよい。これは、図３に第４のユーザ入力指示９として示されている。このように、第３のユーザ入力指示８及び第４のユーザ入力指示９で焦点期間が設定される。当然ながら、図３の例では１つの焦点期間が示されているが、多数の焦点期間を特定することも可能である。

動作４６では、音声データ及び視覚データの収集終了が指示される。動作４６は、第２のユーザ入力指示７が受信されると行われてもよい。

動作４８では、収集された音声データとともに、撮像機器２が、例えば、撮像機器位置２ａから撮像機器位置２ｅまで移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含むパノラマ画像出力が生成される。音声は、例えば、焦点区域内の音声の増幅及び／又は焦点区域外の音声の減衰を行って提供されてもよい。音声出力の焦点を合わせるための別の仕組みも可能である。

第３のユーザ入力指示８及び第４のユーザ入力指示９は、ユーザがパノラマ画像を撮影している間に、機器のディスプレイに（例えば、撮像機器のユーザインタフェースで）入力されてもよい。図３では２回の入力が示されているが、焦点期間の継続時間にわたって保持され得るような１回のユーザ入力が与えられてもよい。指示された区域にある音源（楽器１２等）が、ユーザの関心対象であると認識される。ユーザがパノラマ画像撮影中に機器のディスプレイに関心対象となる音源を見つける可能性があるため、入力操作は直感的に行えるものであってもよい。ユーザは、ディスプレイを（例えば、関心対象の音源に焦点が合っている継続時間にわたって）長押ししてもよいし、ディスプレイに２回（１回は焦点区域の開始を指示するため、もう１回はその終了を指示するため）触れるようにしてもよい。

機器の向きは、多くの異なる方法で検出できる。例えば、方位磁針を用いて直接的に機器の向きを検出する、加速度計を用いて機器の向きの経時的変化を検出する、異なる時刻に画像を撮影してそれらの画像間にどの程度の移動があるのかを検出した後に、その検出結果とレンズの焦点距離の情報とを結び付けて検出する、等のうち少なくとも１つの方法である。その他の選択可能な方法は、当業者には明らかであろう。

音声の増幅も、多くの異なる方法で実施してもよい。そのうちの２つの方法について下記に示す。

第１の方法では、音声は、パノラマ画像撮影中に２つ以上のマイクロホンで収集される。機器の向きが、例えば、パノラマ画像撮影中に方位磁針、加速度計、機器のカメラ等を（上述のとおり）用いて記録される。収集された音声から、ビーム形成されたモノラル音声信号が生成されてもよい。その場合、記録された機器の向きに基づいて、ビームが関心領域に向くようにビームの方向を変化させることで当該信号が生成される。ビーム形成された音声信号は、パノラマ画像に結合される。

上述のビーム形成されたモノラル信号に加えて、又は代えて、空間信号（ステレオ、バイノーラル、５．１チャンネル等）が、例えば、ＤｉｒＡＣ信号又はアンビソニックス信号を生成するための公知の方法を使用して、機器の２つ以上のマイクロホンから生成されてもよい。当該空間信号は、機器の移動と、空間信号のチャンネルのうち少なくとも一部、又は全チャンネルに付加された前記ビーム形成された信号に従って回転され得る。前記ビーム形成された信号は、付加される前に関心領域の方向にパンされ得る。ビーム形成された信号と空間信号との相対的な音量は、タッチ操作の圧力に依存してもよい。

上述のように、多数の音声焦点区域が可能とされてもよい。ユーザは、例えば、複数の音声焦点区域を（ユーザインタフェースを用いて）指示する。例えば、複数の焦点区域のそれぞれについてユーザ入力を与えてもよい。この入力は、関心のある音声信号が生じている領域にカメラが向いた時にユーザがボタンを単に押下（場合によっては長押し）するようにすれば、非常に直感的に行える。

上述のように、ユーザは、１つ以上の焦点区域を（例えば、画像収集機器のユーザインタフェースを使用して）指示する。ただし、実施形態の全てにおいてこれが必須ということではない。例えば、当該１つ以上の焦点要素を判定するための手段を設けてもよく、この手段は、ユーザ入力を必要とせずに焦点要素を判定してもよい。例えば、収集された画像から主要音源である可能性が高い１つ以上の音源を決定するためのアルゴリズムを設けてもよい。特定された１つ以上の主要音源の増幅及び／又はその他の音源の減衰が行われてもよい。各焦点区域における音声を増幅する、ビーム形成された信号を生成してもよい。各ビーム形成された信号は、焦点区域のある方向に対応する異なる方向にパンされてもよい。

上述のように、音声収集開始時点が画像収集開始時点と同時であってもよく、さらに／あるいは音声収集終了時点が画像収集終了時点と同時であってもよい。ただし、実施形態の全てにおいてこれが必須ということではない。

図５は、例示的な実施形態に係る、全体を符号５０で示すシステムのブロック図である。

システム５０は、ユーザ１と、撮像機器２と、当該撮像機器の上述の位置２ａ、２ｂ、２ｃ、２ｄ、２ｅとを備える。システム１０及び３０と同様に、画像収集機器は、位置２ａから位置２ｅまで移動する際に円弧４に沿って移動する。

図６は、例示的な実施形態に係る、全体を符号６０で示すアルゴリズムのフローチャートである。アルゴリズム６０は、システム５０の例示的な使用を示している。

アルゴリズム６０は、音声収集が開始される動作６１から始まる。例示的な実施形態では、第１のユーザ入力指示６により指示された時点に（即ち、画像収集機器が位置２ａにある時に）音声収集が開始される。

次に、動作６２では、視覚画像収集が開始される。例示的な実施形態では、第５のユーザ入力指示５１により指示された時点に（即ち、画像収集機器が位置２ｂにある時に）視覚画像収集が開始される。視覚画像収集は、アルゴリズム６０の動作６３で終了する。例示的な実施形態では、第６のユーザ入力指示５２により指示された時点に（画像収集機器が位置２ｄにある時に）視覚画像収集が終了する。

動作６４では、音声収集が終了する。例示的な実施形態では、第２のユーザ入力指示７により指示された時点に（即ち、画像収集機器が位置２ｅにある時に）音声収集が終了する。

音声収集及び視覚画像収集の両方が終了すると、動作６５では、音声とともにパノラマ画像出力が提供される。当該パノラマ画像出力は、撮像機器が第１のユーザ指示６から第２ユーザ指示７までの間に円弧４に沿って移動しながら収集した音声データとともに、撮像機器が第５のユーザ指示５１から第６のユーザ指示５２までの間に円弧５３に沿って移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含む。このように、アルゴリズム６０では、音声収集開始時点は画像収集開始時点とは異なり（即ち、より早い時点となり）、音声収集終了時点は画像収集終了時点とは異なる（即ち、より遅い時点となる）。

音声収集開始時点及び終了時点は、例えば、（ユーザ入力指示６及び７として示すように）ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。同様に、画像収集開始時点及び終了時点は、例えば、（ユーザ入力指示５１及び５２として示すように）ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。

図５に示すユーザ入力指示６、７、５１、及び５２は、例示のためのみに図示されたものである。これらの指示は、任意の時点に行うようにもできる。図７は、例示的な実施形態に係る、全体を符号７０で示すシステムのブロック図である。システム７０は、上述のユーザ１と、撮像機器７２（上述の撮像機器２と同様のもの）とを備える。撮像機器７２は経路７１に沿って移動する。経路７１に沿った複数の撮像機器位置７２ａ、７２ｂ、７２ｃ、７２ｄ、７２ｄが示されている。

音声開始方向７４は、音声収集が開始される撮像機器位置（アルゴリズム６０の動作６１）を示すことが図示されている。同様に、画像収集開始位置７５（動作６２）、画像収集終了位置７６（動作６３）及び音声収集終了位置７７（動作６４）が図示されている。位置７４～７７は非対称である。実際のところ、これらの位置はユーザ定義であってもよく、経路７１に沿った任意の位置であってもよい。

収集されて（例えば、上述の動作２６、４８及び６５で）パノラマ画像出力とともに提供される音声データは、ループ再生されても（即ち、パノラマ画像提供が継続している時間にわたって繰り返されても）よい。あるいは、収集された音声は、パノラマ画像を見た時に一度だけ再生されてもよい。いずれの場合であっても、例えば、パノラマ画像を見る人の没入体験感を高めるためには、音声信号が長いほうが好まれる可能性がある。短い音声クリップのループ再生は鬱陶しいと感じられかねず、短い音声クリップの一度のみの再生には音声収集範囲の情報を余り多く含まない可能性がある。アルゴリズム６０では、音声収集期間が画像収集期間より長いため、パノラマ画像とともに提供され得る音声クリップが長くなる。

実施形態によっては、音声信号をできる限り長く録音することが図られてもよい。例えば、画像収集機器２及び７２は、パノラマ画像アプリケーションの開始と同時に、又はそれ以前に、音声の録音を開始するようにもできる。この手法で問題になる可能性があるのは、ユーザが、パノラマ画像の取得を開始する前に機器（例えば、携帯電話等の撮像機器）を大きく移動させるかもしれないことである。そのような移動により機器の軌跡が非常に複雑になり、機器の移動に対応するように音声を回転させることが難しく（恐らく、不可能に近いほど難しく）なる。また、ユーザが音声収集機器の持ち方を変えるかもしれず、その場合は機器を扱う雑音が生じ得る。さらに、ユーザが、パノラマ画像を撮影する前に機器の扱いや被写体の位置について「ちょっと、あっちに動いて」というような発言をするかもしれない。そのような音声は、提供されるパノラマ画像においては望ましくないかもしれない。

図８は、例示的な実施形態に係る、全体を符号８０で示すシステムのブロック図である。

システム８０は、上述のユーザ１と、撮像機器８２（上述の撮像機器２及び７２と同様のもの）と、当該撮像機器の位置８２ａ、８２ｂ、８２ｃ、８２ｄ、８２ｅ、８２ｆとを備える。撮像機器は、位置８２ａから位置８２ｆまで移動する際に円弧８４に沿って移動する。

円弧８４は、撮像機器が滑らかではない軌跡で大きく移動する第１の部分８４ａと、撮像機器が滑らかな軌跡で移動する第２の部分８４ｂと、撮像機器が再び滑らかではない軌跡で大きく移動する第３の部分８４ｃとを有する。

図９は、例示的な実施形態に係る、全体を符号９０で示すアルゴリズムのフローチャートである。

アルゴリズム９０は、撮像機器８２の滑らかな軌跡の開始が判定される動作９１で始まる。このように、例示的なシステム８０では、動作９１によって円弧８４の第２の部分８４ｂの開始を判定する。動作９２において、音声収集が開始される。このように、音声収集は、滑らかな軌跡が判定されたことに応じて（例えば、画像収集機器が図８に示す位置８５にある時に）開始される。

次に、動作９３では、視覚画像収集が開始される。例示的な実施形態では、ユーザ入力指示により指示された時点に視覚画像収集が開始される。これは、画像収集機器が図８に示す位置８６にある時であってもよい。視覚画像収集は、アルゴリズム９０の動作９４で終了する。例示的な実施形態では、ユーザ入力指示により指示された時点に視覚画像収集が終了する。これは、画像収集機器が図８に示す位置８７にある時に行われてもよい。

動作９５において、撮像機器８２の滑らかな軌跡の終了を判定する。このように、例示的なシステム８０では、動作９５によって円弧８４の第２の部分８４ｂの終了を判定する。動作９６において、音声収集が終了する。このように、音声収集は、滑らかな軌跡の終了が判定されることに応じて（例えば、画像収集機器が図８に示す位置８２ｅにある時に）終了される。このように、前記滑らかな軌道に沿う期間の開始によって音声収集開始期間を定義してもよく、前記滑らかな軌道に沿う期間の終了によって音声収集終了時間を定義してもよい。

音声収集及び視覚画像収集の両方が終了すると、動作９７において、音声とともにパノラマ画像出力が提供される。パノラマ画像出力は、撮像機器が音声収集開始時点８５から音声収集終了時点８８までの間に円弧８４に沿って移動しながら収集した音声データとともに、撮像機器が画像収集開始時点８６から画像収集終了時点８７までの間に円弧８４ｂに沿って移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含む。

ある実施形態では、パノラマ画像アプリケーションが実行されている時間（又はそれより長い時間）では継続的に音声が収集されるが、音声データが記憶されるのは、機器が安定的に保持されている時又は滑らかな軌跡上（例えば、経路の第２の部分８４ｂ上）にある時のみである。収集された音声データのうち記憶されなかったデータは破棄されてもよい。

機器の軌跡は、多くの異なる方法で、例えば、方位磁針、加速度計、機器のカメラ等のうち少なくとも１つを使用して検出されてもよい。機器の軌跡の滑らかな部分は、機器の向き及び／又は位置の変化が、例えば、曲線経路の閾値量以下である場合の期間であってもよい。

アルゴリズム９０では、収集された音声は、モノラル音声、ステレオ音声、バイノーラル方式の音声、アンビソニックス方式の音声、マルチチャンネルの音声等であってもよい。

モノラル音声の場合、撮像機器８２が円弧８４に沿って移動する（即ち、円弧８４の第１の部分８４ａ、第２の部分８４ｂ、及び第３部分８４ｃにある）時に、少なくとも１つのマイクロホンで録音されてもよい。モノラル音声は、音声収集開始時点８５から音声収集終了時点８８までの間の部分に切り取られてもよい。

音声の録音に使用されるマイクロホンは、１つであっても複数であってもよい。音声は、回転できるものであれば、アンビソニックス方式、ＤｉｒＡＣ、ステレオ、５．１チャンネル、パラメトリック等のいずれであってもよい。音声収集開始時点８５から音声収集終了時点８８までの間の音声のみを使用してもよい。

本実施例においては、動作９７で生成されるパノラマ画像の左端部分を構成するために使用する画像（以下「左画像」と呼ぶ）及び動作９７で生成されるパノラマ画像の右端部分を構成するために使用する画像（以下「右画像」と呼ぶ）は、収集された音声をどのように回転させるかを決める際に、向きとともに使用されてもよい。

機器が左画像を撮影している時に収集された音声は、回転された後のカメラの前にある音源が左側にあるように聞こえるとともに他の方向にある音源がそれに応じて回転されるように、回転されてもよい。回転は水平面内で実行されてもよい。同様に、機器が右画像を撮影している時に収集された音声は、回転された後のカメラの前にある音源が右側にあるように聞こえるとともに他の方向にある音源がそれに応じて回転されるように、回転されてもよい。

パノラマ画像は、大抵の場合、撮像機器を左から右へ移動させながら撮影される。左側部分の前及び右側部分の後に音声があってもよい。左側部分の前（音声収集開始時点８５から画像収集開始時点８６までの間）及び右側部分の後（画像収集終了時点８７から音声収集終了時点８８までの間）の音声は、機器の方向に基づいて直接回転されてもよい。あるいは、音声収集開始時点８５から画像収集開始時点８６までの時点に機器のある方向が画像収集開始時点と同じであると仮定して、また、画像収集終了時点８７から音声収集終了時点８８までの時点に機器のある方向が画像収集終了時点と同じであると仮定して、固定された方向が使用されてもよい。

左側部分と右側部分との間の音声は、以下のように回転される。

まず、左画像が画像収集開始時点８６に撮影された時の機器の向き（例えば、カメラ方向）がα（αは、水平面上の角度）であると定義する。一般性を失うことなく、α＝０（度）が北、α＝９０が西、α＝－９０が東、α＝１８０が南を指すというように定義できる。同様に、右画像が画像収集終了時点８７に撮影された時のカメラ方向を指す角度としてβを定義する。さらに、左側部分と右側部分との間における音声の部分（「中間部分」と呼ぶ）に対応する機器の向きをθとする。

左側部分の音声は９０度回転され、右側部分の音声は－９０度回転される。

中間部分全体における音声は、

度回転される。

なお、前記で使用された場合の「北」は、実際の地理上の北である必要はなく任意の基準方向（例えば、パノラマ画像の中点）であってもよい。機器の向きは、例えば、機器の加速度計、方位磁針、又は機器のカメラ等を用いて検出できる。

同様の回転を示す式も、音声収集開始時点８５から音声収集終了時点８８までの間の音声に使用できる。

本明細書に説明するその他の実施形態において、同様の音声回転の仕組みが実施されてもよい。

パノラマ画像を撮影する場合、ユーザは、画像収集開始及び終了の時点を（上述のとおり）選択することでパノラマ画像の幅を制御してもよい。しかしながら、パノラマ画像に対応する音声の幅を制御するのは、それよりも難しい。

例えば、システム８０において、パノラマ音声における音源の幅は、パノラマ画像の幅に固定されていた。画像よりも左側にある音源は音声において左側に存在し、パノラマ画像よりも右側にある音源は音声において右側に存在した。ユーザは、各音源の場所、即ち、音声の幅を制御したいかもしれない。例えば、パノラマ画像の視野（Field Of View：ＦＯＶ）が狭い場合、重要な音声源が全て前方にあれば（例えば、画像が肖像写真又は一つの噴水等であれば）、ユーザは、音声も狭くしておきたいかもしれない。あるいは、音声収集範囲が非常に大きいことが自然（例えば、ユーザの周囲に騒がしい動物たちがいるジャングル又はユーザの周囲に芸人たちがいる大道芸等）であれば、ユーザは、パノラマ画像の視野に関係無く、パノラマの音声において音声収集範囲を広くしたいかもしれない。

図１０は、例示的な実施形態に係る、全体を符号１００で示すシステムのブロック図である。

システム１００は、上述のユーザ１と、（機器位置８２ａ、８２ｂ、８２ｃ、８２ｄ、８２ｅ、８２ｆを含む）撮像機器８２と、を備える。撮像機器８２は、位置８２ａから位置８２ｆまで移動する際に円弧８４に沿って移動する。上述したように、円弧８４は、撮像機器が滑らかではない軌跡で大きく移動する第１の部分８４ａと、撮像機器が滑らかな軌跡で移動する第２の部分８４ｂと、撮像機器が再び滑らかではない軌跡で大きく移動する第３の部分８４ｃとを有する。

上述のように、音声収集は、撮像機器８２の滑らかな軌跡の開始と同時に（例えば、機器位置８２ｂで）開始され、当該滑らかな軌跡の終了（例えば、機器位置８２ｅ）まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に（例えば、位置８６で）開始され、ユーザ入力指示で指示された時点に（例えば、位置８７で）終了する。

図１１は、例示的な実施形態に係る、全体を符号１１０で示すアルゴリズムのフローチャートである。

アルゴリズム１１０は動作１１２で開始する。動作１１２において、画像収集開始時点８６から画像収集終了時点８７までの間の第１の円弧の大きさが決定される。動作１１４において、音声収集開始時点から音声収集終了時点までの間の第２の円弧の大きさが決定される。なお、当然ながら、動作１１２と動作１１４との順番を逆にすることもできる。あるいは、これらの動作を並行して実行させることもできる。

動作１１６において、音声データの視野が、第１の円弧（画像収集開始時点から画像収集終了時点まで）と第２の円弧（音声収集開始時点から音声収集終了時点まで）との相対的な大きさによって測られる。

例えば、γを音声収集開始時点（例えば、滑らかな軌跡の開始）における機器の向きとし、機器の向きを、音声収集終了時点（例えば、滑らかな軌跡の終了）においてδとする。音声収集開始時点から音声収集終了時点までの部分における音声は、次の式に従って回転される。

単位は（度）である。α、β、及びθは、前記のように定義される。

この式は、音声の幅が、画像収集開始時点及び終了時点における機器の向きで定義される円弧の角度と、音声収集開始時点及び終了時点における機器の向きで定義される円弧の角度との比によって測られることを意味する。

図１２は、例示的な実施形態に係る、全体を符号１２０で示すシステムのブロック図である。

システム１２０は、上述のユーザ１と、撮像機器１２２（撮像機器８２と同様のもの）とを備える。撮像機器１２２は、機器位置１２２ａ、１２２ｂ、１２２ｃ、１２２ｄ、１２２ｅ、１２２ｆを含む。撮像機器１２２は、位置１２２ａから位置１２２ｆまで移動する際に円弧８４に沿って移動する。上述したように、円弧８４は、撮像機器が滑らかではない軌跡で大きく移動する第１の部分８４ａと、撮像機器が滑らかな軌跡で移動する第２の部分８４ｂと、撮像機器が再び滑らかではない軌跡で大きく移動する第３の部分８４ｃとを有する。

上述のとおり、音声収集は、撮像機器１２２の滑らかな軌跡の開始と同時に（機器位置１２２ｂで）開始され、当該滑らかな軌跡の終了（機器位置１２２ｅ）まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に（位置１２６で）開始され、ユーザ入力指示で指示された時点に（位置１２７で）終了する。

図１３は、例示的な実施形態に係る、全体を符号１３０で示すシステムのブロック図である。

システム１３０は、上述のユーザ１と、撮像機器１３２（撮像機器８２及び１２２と同様のもの）と、を備える。撮像機器１３２は、機器位置１３２ａ、１３２ｂ、１３２ｃ、１３２ｄ、１３２ｅ、１３２ｆを含む。撮像機器１３２は、位置１３２ａから位置１３２ｆまで移動する際に円弧８４に沿って移動する。上述したように、円弧８４は、撮像機器が滑らかではない軌跡で大きく移動する第１の部分８４ａと、撮像機器が滑らかな軌跡で移動する第２の部分８４ｂと、撮像機器が再び滑らかではない軌跡で大きく移動する第３の部分８４ｃとを有する。

上述のように、音声収集は、撮像機器１３２の滑らかな軌跡の開始と同時に（機器位置１３２ｂで）開始され、当該滑らかな軌跡の終了（機器位置１３２ｅ）まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に（位置１２６で）開始され、ユーザ入力指示で指示された時点に（位置１２７で）終了する。

視覚的収集範囲（大まかには、楽器１２４から自動車１２５まで広がる）はシステム１２０及び１３０において同じであり、上述の例示的なシステム１００における視覚的収集範囲よりも狭い。

上述したように、音声データの視野は、画像収集開始時点から画像収集終了時点までの第１の円弧と音声収集開始時点から音声収集終了時点までの第２の円弧との相対的な大きさによって測られる。その結果、音声データの視野は、システム１３０よりもシステム１２０のほうが大きい。

したがって、システム１００は広い視覚視野及び広い音声視野を有すると考えることもでき、システム１２０は狭い視覚視野及び広い音声視野を有すると考えることもでき、システム１３０は狭い視覚視野及び狭い音声視野を有すると考えることもできる。

なお、システム１００、１２０、及び１３０の音声収集開始時点及び音声収集終了時点を設定するための特定の仕組みが、音声出力の音声視野を制御する実施形態の全てにおいて必須ということではない。

ユーザは、パノラマ画像を収集する際、画像及び音声の収集機器までの距離を自分の手の届く範囲に保持しておくかもしれない。また、ユーザは、機器が軌跡上を移動している時、音を収集している間に機器に対して相対的に様々な位置にあるかもしれない（例えば、ユーザが静止したままで収集機器を動かす場合）。したがって、記録された空間オーディオにおけるユーザの声が、撮像機器が移動すると違う方向から聞こえるように提供される可能性がある。ユーザが機器に近過ぎるため、どのような固定のユーザ距離の想定でも問題を解決できずに音源距離が検出できなければ、問題は悪化する。

この問題は、音源までの距離を想定して、軌跡の辿る点の平均として軌跡の中点を計算して、それらに基づいて方向を固定することで、部分的には対処できる。そのような解決策は、遠くにある音源よりも、近くにある音源に対して影響が大きい。近くにある音源で最も重要なものは、通常はユーザ自身の声である。そのため、本発明者らは、その点を解決することに以下のように焦点を当てている。

パノラマ画像が再生される際に、通常は、当該パノラマ画像を撮影したユーザはパノラマ画像内で見ることができない。どのようなユーザの声も一定の場所から聞こえることが望ましい可能性がある。その目的を達成するには、機器の後ろ側である角度（例えば、１１０～２５０度）から入ってくる全ての音を修正して、機器の真後ろ（１８０度）に近い角度から入ってくるように再現する手法がある。この「機器の真後ろ」という方向は、パノラマ画像の中心への方向とは反対の方向として定義されてもよい。これを行うには、（上述のように）これまで回転された角度を追加の角度固定に適用する方法がある。図１４は、当該方法を達成する例示的な関数であって全体を符号１４０で示す関数を示す、例示的な実施形態に係るグラフである。関数１４０は、ｘ軸及びｙ軸上で１８０度位置の周辺の比較的平坦な区間と、機器の後ろ側の音方向を１８０度の固定された方向に進ませる後方左方向及び後方右方向におけるより傾斜が急な区間とによって特徴付けられる。

図１５は、例示的な実施形態に係る、全体を符号１５０で示すアルゴリズムのフローチャートである。

当該アルゴリズムは、機器が音声及び画像のデータを収集して、画像収集中の機器の向きを（例えば、加速度計又はカメラ画像を用いて）判定する動作１５２で始まる。動作１５４では、基準方向が判定される。基準方向は、例えば、パノラマ画像の中点である。

動作１５６では、機器は、音声及び画像を収集する過程の間に、判定された基準方向を向いていた時点インスタンスを判定する。動作１５８では、機器は、判定された時点インスタンスより前及び後に収集された音声について音声データを別々に回転させる。

動作１６０では、機器は、基準方向とは反対の方向の範囲にある音声を、当該範囲にある全ての音声がある一方向（例えば、基準方向とは正反対の方向）から聞こえるようにすることで修正する。

完全な説明のため、図１６は、全体を処理システム３００と称される、上述の少なくとも１つの例示的な実施形態の構成要素の模式図である。処理システム３００は、プロセッサ３０２と、当該プロセッサに近接して接続されてＲＡＭ３１４及びＲＯＭ３１２を含むメモリ３０４と、を備え、任意選択として、ユーザ入力部３１０及びディスプレイ３１８を備える。処理システム３００は、例えば、有線又は無線のモデムである、ネットワークや装置への接続に使用される少なくとも１つのネットワーク／装置インタフェース３０８を備えてもよい。インタフェース３０８は、ネットワーク側の装置ではない機器や装置のような他の装置への接続部としても機能してもよい。そのように、ネットワークを介在しない複数の機器や装置間の直接接続も可能である。ユーザ入力部３１０及びディスプレイ３１８は、地上管制局のようなリモートプロセッサに接続されてもよい。リモート接続が、リモートプロセッサとプロセッサとの間のＬＴＥ又は５Ｇの高速接続であってもよい。

プロセッサ３０２は、それ以外の各構成要素の動作を制御するために当該構成要素に接続される。

メモリ３０４は、ハードディスクドライブ（Hard Disk Drive：ＨＤＤ）又はソリッドステートドライブ（Solid State Drive：ＳＳＤ）等の不揮発性メモリを備えてもよい。メモリ３１４のＲＯＭ３１２は、特に重要なものとして、オペレーティングシステム３１５を記憶する。ＲＯＭ３１２は、ソフトウェアアプリケーション３１６を記憶してもよい。メモリ３０４のＲＡＭ３１４は、データの一時的な記憶のためにプロセッサ３０２により使用される。オペレーティングシステム３１５は、プロセッサにより実行された場合に、上述のアルゴリズム２０、４０、６０、９０、１１０、及び１５０の態様を実施するコードを含んでもよい。なお、小型の機器や装置の場合、当該メモリは、小型用途に好適なものとすることができ、即ち、必ずしもＨＤＤ又はＳＳＤが使われるわけではない。

プロセッサ３０２は、任意の好適な形態を取り得る。例えば、単一のマイクロコントローラ、複数のマイクロコントローラ、単一のプロセッサ、又は複数のプロセッサであってもよい。

処理システム３００は、スタンドアロンのコンピュータ、サーバ、コンソール、又はそれらのネットワークであってもよい。処理システム３００及び必要な構造的部分は、ＩｏＴ機器／装置等の機器／装置に全て内包されて（即ち、非常に小型化されて埋め込まれて）もよい。

例示的な実施形態によっては、処理システム３００は、外部の複数のソフトウェアアプリケーションに関連付けられていてもよい。それらのアプリケーションは、リモートサーバ機器／装置に記憶されるものでもよく、当該リモートサーバ機器／装置上で部分的に又は独占的に実行されてもよい。これらのアプリケーションは、クラウドホスト型アプリケーションと称されてもよい。処理システム３００は、当該リモートサーバ機器／装置に記憶されたソフトウェアアプリケーションを利用するためにこの機器／装置と通信を行ってもよい。

図１７Ａ及び図１７Ｂは、それぞれが取り外し可能な記憶部３６５及びコンパクトディスク（ＣＤ）３６８であり、コンピュータによって実行されると上述の例示的実施形態に係る方法を実施するコンピュータ可読コードを記憶する有形の媒体を示す図である。取り外し可能な記憶部３６５は、コンピュータ可読コードを記憶している内部メモリ３６６を有するメモリスティック（ＵＳＢメモリスティック等）であってもよい。メモリ３６６は、コネクタ３６７を介してコンピュータシステムによりアクセスされてもよい。ＣＤ３６８は、ＣＤ－ＲＯＭ又はＤＶＤ等であってもよい。他の形態の有形の記憶媒体が使用されてもよい。有形の媒体は、機器、装置、ネットワークとの間でやり取りできるデータや情報を記憶することが可能な任意の機器又は装置であってもよい。

本発明の実施形態は、ソフトウェア、ハードウェア及びアプリケーションロジックのいずれか、又はソフトウェア、ハードウェア及びアプリケーションロジック組合せにより実施されてもよい。当該ソフトウェア、アプリケーションロジック、及び／又はハードウェアは、メモリ又は任意のコンピュータ用媒体上に記憶されてもよい。例示的な実施形態においては、当該アプリケーションロジック、ソフトウェア、又は指示の集合は、種々の従来のコンピュータ可読媒体のうちいずれかに保持される。本明細書の文脈では、「メモリ」又は「コンピュータ可読媒体」は、コンピュータ等の指示実行システム、装置、又は機器によって使用されるため、又はそれらに接続されて、当該指示を収容、保存、通信、伝搬、又は移動できる任意の非一時的媒体又は手段であってもよい。

該当する場合については、「コンピュータ可読媒体」、「コンピュータプログラム製品」、「有形に実施されるコンピュータプログラム」等、又は「プロセッサ」、「処理回路」等という用語は、シングルプロセッサアーキテクチャ、マルチプロセッサアーキテクチャ、シーケンス制御装置、並列アーキテクチャ等の異なるアーキテクチャを有するコンピュータのみではなく、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array：ＦＰＧＡ）、特定用途向け集積回路（Application Specific Integrated Circuit：ＡＳＩＣ）等の専門回路、及び信号処理機器／装置等の機器／装置等も包含すると理解するべきである。また、「コンピュータプログラム」、「指示」、「コード」等の用語は、プロセッサのための指示としてハードウェア機器／装置のプログラム可能なコンテンツ等の、プログラム可能なプロセッサファームウェア用のソフトウェア、又は一定の機能の機器／装置、ゲートアレイ、又はプログラマブルロジック機器／装置等のための構成設定用のソフトウェアを表現すると考えるべきである。

本願で使用される場合、「回路群」は、以下に挙げる全てのことを指す。
（ａ）ハードウェアのみの回路実装（アナログ回路群及び／又はデジタル回路群のみでの実装等）
（ｂ）（該当する場合）以下のいずれかであるような、複数の回路とソフトウェア（及び／又はファームウェア）との組合せ
（ｉ）プロセッサ（複数可）の組合せ
（ｉｉ）サーバ等の装置に種々の機能を実行させるために協働するプロセッサ（複数可）／ソフトウェア（デジタル信号プロセッサ（複数可）等）、ソフトウェア、及びメモリ（複数可）のそれぞれの部分
（ｃ）ソフトウェア又はファームウェアが物理的に存在しない場合であっても、当該ソフトウェア又はファームウェアが作動することを要する、例えば、マイクロプロセッサ（複数可）又は少なくともその部分等である回路

必要に応じて、本明細書に記載する異なる機能は、順序を変えて、かつ／あるいは並行して行われてもよい。さらに、必要に応じて、上述の機能のうち１つ以上が任意選択的であってもよいし、統合されてもよい。同様に、当然のことながら、図２、４、６、９、１１及び１５のフロー図が一例に過ぎないこと、また、図中に示す種々の動作が省略、順番の変更、及び／又は統合の対象となってもよい。

当然のことながら、上述の例示的な実施形態は単なる例示であり、本発明の範囲を限定するものでなはない。その他の変更例や変形例は、本明細書を読むことで当業者に明らかになるであろう。

上述の実施形態において、撮像機器（図１に示す撮像機器２等）は、画像収集開始時点から画像収集終了時点まで円弧に沿って移動すると説明した。しかしながら、発明の形態全てにおいてこれが必須ということではない。例えば、撮像機器の（円弧に沿った移動ではない）回動又は直線的な移動等、その他の軌跡も可能である。

また、本願の開示は、本願又はそこから導出される応用例の実行に際して、本明細書に明示的又は示唆的に開示する任意の新規な特徴又はその任意の新規な組合せ、若しくはそれらの任意の一般化を包含すると理解すべきである。任意のそのような特徴及び／又はその組合せを包含するために新たな請求項が作られてもよい。

本発明の種々の態様は独立請求項に定められるが、本発明のその他の態様は、請求項に明示的に定められる特徴の組合せだけではなく、上述の例示的な実施形態及び／又は従属請求項に定められる特徴と独立請求項の特徴との明示的に示されていない組合せを包含する。

種々の例を説明してきたが、これらの説明は限定的であると考えるべきではないことも本明細書では留意すべきである。つまり、添付の請求項に定義される本発明の範囲から逸脱することなく実施することができる複数の変更例及び変形例が存在する。

Claims

パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する手段と、
前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集する手段と、
を備える装置。
前記収集された音声データ内の１つ以上の焦点要素を定義する手段をさらに備える、請求項１に記載の装置。
前記焦点要素は、１つ以上の期間及び／又は１つ以上の区域を含む、請求項２に記載の装置。
前記１つ以上の焦点要素がユーザ定義である、請求項２又は３に記載の装置。
前記１つ以上の焦点要素を判定する手段をさらに備える、請求項２から４のいずれか一項に記載の装置。
前記音声収集開始時点及び前記音声収集終了時点を定義する手段をさらに備える、請求項１から５のいずれか一項に記載の装置。
前記装置について軌道が滑らかな期間を判定する手段をさらに備え、
前記音声収集開始時点は、前記軌道が滑らかな期間の開始により定義され、かつ／あるいは前記音声収集終了時点は、前記軌道が滑らかな期間の終了により定義される、
請求項６に記載の装置。
パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する手段と、
前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する手段と、
前記受信された音声とともに前記生成されたパノラマ画像を提示する手段と、
を備える装置。
前記音声データ内の１つ以上の焦点要素に関連するデータを受信する手段をさらに備え、
前記受信された音声データは、前記焦点要素に応じて修正される、
請求項８に記載の装置。
前記受信された音声は、受信された音声を前記焦点要素内で増幅することにより修正される、請求項９に記載の装置。
前記画像収集開始時点と前記画像収集終了時点、及び／又は
前記音声収集開始時点と前記音声収集終了時点は、
ユーザ定義である、請求項１から１０のいずれか一項に記載の装置。
前記パノラマ画像とともに提示される音声データの視野を定義する手段をさらに備える、請求項１から１１のいずれか一項に記載の装置。
前記音声データの前記視野が、前記画像収集開始時点から前記画像収集終了時点までの第１の円弧と前記音声収集開始時点から前記音声収集終了時点までの第２の円弧との相対的な大きさによって測られる、請求項１２に記載の装置。
前記パノラマ画像の基準方向を定義する手段と、
前記基準方向とは概ね反対の方向における音声を修正する手段と、
をさらに備え、
前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される、
請求項１から１３のいずれか一項に記載の装置。
パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、
前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することと、
を含む方法。