JP2022506582A - パノラマ画像 - Google Patents

パノラマ画像 Download PDF

Info

Publication number
JP2022506582A
JP2022506582A JP2021524014A JP2021524014A JP2022506582A JP 2022506582 A JP2022506582 A JP 2022506582A JP 2021524014 A JP2021524014 A JP 2021524014A JP 2021524014 A JP2021524014 A JP 2021524014A JP 2022506582 A JP2022506582 A JP 2022506582A
Authority
JP
Japan
Prior art keywords
collection
image
audio
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021524014A
Other languages
English (en)
Other versions
JP7247338B2 (ja
Inventor
ミッカ タパニ ヴィレルモ
アルト ユハニ レフティニエミ
ラッセ ユハニ ラークソネン
タパニ フィラヤクヤ
Original Assignee
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2022506582A publication Critical patent/JP2022506582A/ja
Application granted granted Critical
Publication of JP7247338B2 publication Critical patent/JP7247338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/67Focus control based on electronic image sensor signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/62Control of parameters via user interfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/68Control of cameras or camera modules for stable pick-up of the scene, e.g. compensating for camera body vibrations
    • H04N23/681Motion detection
    • H04N23/6812Motion detection based on additional sensors, e.g. acceleration sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/698Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

好適な実施形態の一例、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することとを含む。【選択図】図2

Description

本明細書は、複数の視覚画像から生成される、音声データが組み込まれたパノラマ画像に関する。
背景
パノラマ画像は、撮像機器(例えば、携帯電話カメラ等のカメラ)を使用して収集された複数の画像を使用して生成される。音声データは、当該撮像機器のマイクロホンによって収集して、パノラマ画像の一部として提供することができる。今のところ、そのようなパノラマ画像の提供には従来技術に代わる技術が必要である。
摘要
第1の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する手段(例えば、携帯電話等の機器)と、前記視覚画像に関連する音声データ(例えば、モノラル音声又はステレオ音声)を、音声収集開始時点から音声収集終了時点までの間に収集する手段と、を備える装置(例えば、画像収集装置)が本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。
いくつかの実施形態は、前記収集された音声データ内で1つ以上の焦点要素を定義する手段をさらに備えてもよい。前記焦点要素内の収集された音声は増幅されてもよい。前記焦点要素は、1つ以上の期間及び/又は1つ以上の区域を含んでもよい。前記1つ以上の焦点要素は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。いくつかの実施形態は、前記1つ以上の焦点要素を(例えば、ユーザ入力なしに、何らかの測定基準に従って重要な音声源を特定する等何らかの方法で1つ以上の音声源を特定することで)判定する手段をさらに備えてもよい。そのような焦点要素の前記判定は自動的に実行されてもよい。
いくつかの実施形態は、前記音声収集開始時点及び前記音声収集終了時点を定義する手段をさらに備えてもよい。当該手段は、ユーザ入力を含んでもよい。その代わりに、又はそれに加えて、当該手段は自動化されてもよい。前記音声収集開始時点及び終了時点は、システム定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び終了時点はユーザ定義であってもよい。いくつかの実施形態は、前記装置について軌道が滑らかな期間を判定する手段をさらに備え、前記音声収集開始時点は、前記軌道が滑らかな期間の開始により(又はそれに対して相対的に)定義され、かつ/あるいは前記音声収集終了時点は、前記軌道が滑らかな期間の終了により(又はそれに対して相対的に)定義される。前記軌道が滑らかな期間は、前記装置が、曲線経路に対し閾値量を超える違いがない滑らかな経路上を移動している、又は静止している期間であってもよい。
前記画像収集開始時点及び前記画像収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び前記音声収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。
いくつかの実施形態は、前記パノラマ画像とともに提示される音声データの視野を定義する手段をさらに備えてもよい。前記音声データの前記視野は、前記画像収集開始時点から前記画像収集終了時点までの第1の円弧と前記音声収集開始時点から前記音声収集終了時点までの第2の円弧との相対的な大きさによって測られてもよい。
いくつかの実施形態は、前記パノラマ画像の基準方向を定義する手段と、前記基準方向とは概ね反対の方向における音声を修正する手段と、をさらに備えてもよく、前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される。前記基準方向は、前記パノラマ画像の中点、及び/又は前記撮像収集開始と終了位置との中間点であってもよい。
第2の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する手段と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する手段と、前記受信された音声とともに前記生成されたパノラマ画像を提示する手段と、を備える装置(例えば、出力生成装置)が本明細書に記載される。いくつかの実施形態は、(例えば、前記受信された複数の視覚画像の少なくとも2つ以上から)前記パノラマ画像を生成する手段をさらに備えてもよい。
いくつかの実施形態は、前記音声データ内における1つ以上の焦点要素(例えば、期間又は領域)に関連するデータ受信する手段をさらに備えてもよく、前記受信された音声は、前記焦点要素に応じて修正される。前記焦点要素は、画像及び/又は音声の収集過程の間に(例えば、ユーザインタフェース上のボタンを押下することにより)定義されてもよい。
前記受信された音声は、受信された音声を前記焦点要素内で増幅することにより修正されてもよい。その他の音声は、増幅されないままであっても、(減衰させる、完全に除去する、又は指向性のない背景音声として提供される等の)他の方法で処理されてもよい。
前記画像収集開始時点及び前記画像収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び前記音声収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。
いくつかの実施形態は、前記パノラマ画像とともに提示される音声データの視野を定義する手段をさらに備えてもよい。前記音声データの前記視野は、前記画像収集開始時点から前記画像収集終了時点までの第1の円弧と前記音声収集開始時点から前記音声収集終了時点までの第2の円弧との相対的な大きさによって測られてもよい。
いくつかの実施形態は、前記パノラマ画像の基準方向を定義する手段と、前記基準方向とは概ね反対の方向における音声を修正する手段と、をさらに備えてもよく、前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される。前記基準方向は、前記パノラマ画像の中点、及び/又は前記撮像収集開始と終了位置との中間点であってもよい。
上述の第1及び第2の態様では、前記各手段は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含む少なくとも1つのメモリと、を備えてもよく、当該少なくとも1つのメモリは、当該少なくとも1つのプロセッサと協働して、対応する前記動作を前記装置に実行させるように構成されたコンピュータプログラムコードを含む。
第3の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することと、を含む方法が、本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。
いくつかの実施形態は、前記収集された音声データ内で1つ以上の焦点要素を定義するステップをさらに備えてもよい。前記焦点要素内の収集された音声は増幅されてもよい。前記焦点要素は、1つ以上の期間及び/又は1つ以上の区域を含んでもよい。前記1つ以上の焦点要素は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。いくつかの実施形態は、前記1つ以上の焦点要素を(例えば、ユーザ入力なしに、何らかの測定基準に従って重要な音声源を特定する等何らかの方法で1つ以上の音声源を特定することで)判定する手段をさらに備える。そのような焦点要素の前記判定は自動的に実行されてもよい。
いくつかの実施形態は、前記音声収集開始時点及び前記音声収集終了時点を定義するステップをさらに備えてもよい。いくつかの実施形態は、軌道が滑らかな期間を判定するステップをさらに備え、前記音声収集開始時点と前記音声収集終了時点とが、それぞれ、前記軌道が滑らかな期間の開始と前記軌道が滑らかな期間の終了とにより(又はそれらに対して相対的に)定義されるか、前記音声収集開始時点のみが前記軌道が滑らかな期間の開始により(又はそれに対して相対的に)定義されるか、又は前記音声収集終了時点のみが前記軌道が滑らかな期間の終了により(又はそれに対して相対的に)定義される。
第4の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信するステップと、前記受信された音声とともに前記生成されたパノラマ画像を提示するステップと、を含む方法が本明細書に記載される。
いくつかの実施形態は、前記音声データ内における1つ以上の焦点要素(例えば、期間又は領域)に関連するデータ受信する手段をさらに備えてもよく、当該受信された音声が焦点要素に応じて修正される。前記焦点要素は、画像及び/又は音声の収集過程の間に(例えば、ユーザインタフェース上のボタンを押下することにより)定義されてもよい。
前記受信された音声は、受信された音声を前記焦点要素内で増幅することにより修正されてもよい。その他の音声は、増幅されないままであっても、(減衰させる、完全に除去する、又は指向性のない背景音声として提供される等の)他の方法で処理されてもよい。
第3又は第4の態様では、前記画像収集開始時点及び前記画像収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。その代わりに、又はそれに加えて、前記音声収集開始時点及び前記音声収集終了時点は、(例えば、ユーザインタフェース上のボタンの押下等のユーザ入力を介した)ユーザ定義であってもよい。
第3又は第4の態様に係るいくつかの実施形態は、前記パノラマ画像とともに提示される音声データの視野を定義するステップをさらに備えてもよい。前記音声データの前記視野は、前記画像収集開始時点から前記画像収集終了時点までの第1の円弧と前記音声収集開始時点から前記音声収集終了時点までの第2の円弧との相対的な大きさによって測られてもよい。
第3又は第4の態様に係るいくつかの実施形態は、前記パノラマ画像の基準方向を定義するステップと、前記基準方向とは概ね反対の方向における音声を修正するステップと、をさらに備えてもよく、前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される。前記基準方向は、前記パノラマ画像の中点、及び/又は前記撮像収集開始と終了位置との中間点であってもよい。
第5の態様として、第3又は第4の態様として記載される任意の方法を実行するように構成された任意の装置が本明細書に記載される。
第6の態様として、計算装置によって実行された場合に、第3又は第4の態様として記載される任意の方法を当該計算装置に実行させるコンピュータ可読指示が本明細書に記載される。
第7の態様として、コンピュータに、少なくとも、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集するステップと、を実行させる指示を含むコンピュータプログラムが本明細書に記載される。前記音声収集開始時点は前記画像収集開始時点と同じであっても違ってもよい。同様に、前記音声収集終了時点は前記画像収集終了時点と同じであっても違ってもよい。
第8の態様として、コンピュータに、少なくとも、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信するステップと、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信するステップと、前記受信された音声とともに前記生成されたパノラマ画像を提示するステップと、を実行させる指示を含むコンピュータプログラムが本明細書に記載される。
第9の態様として、第3又は第4の態様として記載された任意の方法を実行するためにプログラム指示を記憶して備えるコンピュータ可読媒体(非一時的コンピュータ可読媒体等)が本明細書に記載される。
第10の態様として、パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する画像収集機器(例えば、携帯電話等の機器又はカメラ)と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集する手段と、を備える装置(例えば、ユーザ機器)が本明細書に記載される。
第11の態様として、パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する第1の入力と、前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する第2の入力と、前記受信された音声とともに前記生成されたパノラマ画像を提示する出力モジュールと、を備える装置(例えば、サーバ側)が本明細書に記載される。いくつかの実施形態は、(例えば、前記受信された複数の視覚画像の少なくとも2つ以上から)前記パノラマ画像を生成するプロセッサをさらに備えてもよい。
本発明の十分な理解に供するために、以下の図面を参照して本発明の実施形態を説明する。
例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るシステムのブロック図である。 例示的な実施形態に係るグラフである。 例示的な実施形態に係るアルゴリズムを示すフローチャートである。 例示的な実施形態に係るシステムの各構成要素のブロック図である。 有形の媒体であって、コンピュータによって実行されると各実施形態に係る動作を行うコンピュータ可読コードを記憶する取り外し可能な不揮発性メモリ部を示す。 有形の媒体であって、コンピュータによって実行されると各実施形態に係る動作を行うコンピュータ可読コードを記憶するコンパクトディスク(CD)を示す。
詳細説明
以下の説明及び図面の全体にわたって、同様の符号は同様の構成要素を示す。
図1は、例示的な実施形態に係る、全体を符号10で示すシステムのブロック図である。システム10は、ユーザ1と、カメラ(例えば携帯電話カメラ)等の撮像機器2とを含む。撮像機器2は、(図1に撮像機器の位置2a、2b、2c、2d、2eとして示すように)画像収集開始時点から画像収集終了時点までの、複数の視覚画像を収集する。
画像収集開始時点は、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。これは、図1に第1のユーザ入力指示6として示されている。同様に、画像収集終了時点は、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。これは、図1に第2のユーザ入力指示7として示されている。
図1に示すように、撮像機器2は、位置2aから位置2eまで(即ち、画像収集開始時点から画像収集終了時点までの間)、円弧4に沿って移動する。このようにして、パノラマ画像を生成するためにステッチされる複数の画像(例えば写真)が、カメラ2を使用して公知の方法で収集される。カメラ2は、音声データを収集するための1つ以上のマイクロホンを備えてもよい。パノラマ画像とともに提示するために、短い(モノラル音声又はステレオ音声等の)音声クリップが録音されてもよい。音声クリップは、音声収集開始時点から音声収集終了時点まで収集されてもよい。音声収集開始時点及び音声収集終了時点は、画像収集開始時点及び画像収集終了時点と同じであってもよいが、さらに後述するように、実施形態の全てにおいてこれが必須ということではない。
図2は、例示的な実施形態に係る、全体を符号20で示すアルゴリズムのフローチャートである。
アルゴリズム20は、視覚画像が、例えば上述の撮像機器2によって収集される動作22で始まる。動作24(動作22と並行して行われてもよい)では、例えば撮像機器2によって音声が収集される。
動作26では、動作24で収集された音声データ(例えば、短い音声クリップ)とともに、動作22で収集されてパノラマ画像を生成するためにステッチされる複数の画像を含むパノラマ画像出力が生成される。
空間オーディオが収集される場合に、パノラマ画像出力の一部を成す空間オーディオ再生において、音源の音が適切な方向から聞こえるようにする必要がある。画像とともに、画像内に見える音源の音が、画像内の発生場所に対応する方向から聞こえてくる必要がある。
パノラマ画像のために静止画を空間オーディオと組み合わせる際の問題点は、パノラマ画像が、異なる時点に異なる方向で(例えば、上述の動作22において)収集された複数の画像で構成されることである。動作24で収集された音声が画像と同じ機器(例えば携帯電話)で収集される場合、音声も、当該機器を異なる時点に異なる方向に向けて収集される。音声が収集されたままユーザに向けて再生される場合、音源の音は回転しているように聞こえるが、パノラマ画像は回転していない。したがって、収集中の機器の回転と逆行して、収集された音声において反対の方向に音源を回転してもよい。
音声を回転させる方法は多数あり、アンビソニックス方式に基づく回転、パラメータ表現音声による回転などがある。
パラメータ表現音声は、方向パラメータを含み、その方向パラメータを変化させることで直接回転させることができる。パラメータ表現音声フォーマットの例は、指向性オーディオ符号化(Directional Audio Coding:DirAC)である。DirACの一例では、一次アンビソニックス(First-Order Ambisonic:FOA)信号又はその異形であるBフォーマット信号から、方向や拡散度比(直接音全体比パラメータに相当する情報)を推定する。
Figure 2022506582000002
Figure 2022506582000003
の信号は、例えば、短時間フーリエ変換(Short-term Fourier Transform:STFT)によって周波数バンドに変換され、時間周波数信号w(k,n)、x(k,n)、y(k,n)、及びz(k,n)が得られる。ここで、kは周波数ビンのインデックス、nは時間インデックスである。DirACでは、次式により強度ベクトルを推定する。
Figure 2022506582000004
ここで、「Re」は実部を示し、アスタリスク「*」は複素共役を示す。
方向パラメータは、強度ベクトルの実部の方向とは反対の方向である。方向パラメータを決定する前に、複数の時点インデックス及び/又は複数の周波数インデックスについて強度ベクトルを平均してもよい。
平均される場合の方向パラメータは、複数の周波数ビンkを結合した、例えば、バーク周波数分解能を近似する周波数バンドにおいて決定されてもよい。
図3は、例示的な実施形態に係る、明細書全体において符号30で示すシステムのブロック図である。
システム30は、ユーザ1と、撮像機器2と、当該撮像機器の位置2a、2b、2c、2d、2eと、撮像機器2が画像収集開始時点から画像収集終了時点までの移動する際に通る円弧4と、を備える。上述のシステム10と同様に、画像収集開始時点は、例えば、第1のユーザ入力指示6によりユーザが指示し、画像収集終了時点は、例えば、第2のユーザ入力指示7によりユーザが指示する。
システム30は、さらに、第1の音源12及び第2の音源14を備える。ここで、第1の音源(楽器)12はユーザ1が収集したい音声信号を発しており、第2の音源(自動車)14はユーザ1が抑制したい背景雑音を発していると仮定する。例えば、ユーザは、楽器12からの音が継続的に重要であって、自動車14からの音が継続的に背景雑音である、演奏会での一場面を収集してもよい。
撮像機器2は、円弧4に沿って移動し、収集された視覚画像の焦点は、当該撮像機器の方向に依存する。例えば、撮像機器が位置2cにある場合、その焦点は楽器12に合っており、位置2dにある場合、その焦点は自動車14に合っている。音声出力は、同様に撮像機器の方向にその焦点を合わせることもできる。しかしながら、そのようにすると、撮像機器が位置2c又はその付近にある時点のみ、音声出力の焦点が楽器12に合うという結果になる。
図4は、例示的な実施形態に係る、全体を符号40で示すアルゴリズムのフローチャートである。アルゴリズム40は、画像及び音声の収集が開始される動作42から始まる。動作42は、第1のユーザ入力指示6として示される画像収集開始時点に始まる。
動作44では、焦点要素が定義される。焦点要素は、収集された音声データにおいてユーザが音声出力の焦点としたい1つ以上の期間又は領域を定義してもよい。
ユーザインタフェースを設けて、ユーザが1つ以上の焦点要素を定義できるようにしてもよい。例として、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが焦点開始時点を指示してもよい。これは、図3に第3のユーザ入力指示8として示されている。同様に、例えば、ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが焦点終了時点を指示してもよい。これは、図3に第4のユーザ入力指示9として示されている。このように、第3のユーザ入力指示8及び第4のユーザ入力指示9で焦点期間が設定される。当然ながら、図3の例では1つの焦点期間が示されているが、多数の焦点期間を特定することも可能である。
動作46では、音声データ及び視覚データの収集終了が指示される。動作46は、第2のユーザ入力指示7が受信されると行われてもよい。
動作48では、収集された音声データとともに、撮像機器2が、例えば、撮像機器位置2aから撮像機器位置2eまで移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含むパノラマ画像出力が生成される。音声は、例えば、焦点区域内の音声の増幅及び/又は焦点区域外の音声の減衰を行って提供されてもよい。音声出力の焦点を合わせるための別の仕組みも可能である。
第3のユーザ入力指示8及び第4のユーザ入力指示9は、ユーザがパノラマ画像を撮影している間に、機器のディスプレイに(例えば、撮像機器のユーザインタフェースで)入力されてもよい。図3では2回の入力が示されているが、焦点期間の継続時間にわたって保持され得るような1回のユーザ入力が与えられてもよい。指示された区域にある音源(楽器12等)が、ユーザの関心対象であると認識される。ユーザがパノラマ画像撮影中に機器のディスプレイに関心対象となる音源を見つける可能性があるため、入力操作は直感的に行えるものであってもよい。ユーザは、ディスプレイを(例えば、関心対象の音源に焦点が合っている継続時間にわたって)長押ししてもよいし、ディスプレイに2回(1回は焦点区域の開始を指示するため、もう1回はその終了を指示するため)触れるようにしてもよい。
機器の向きは、多くの異なる方法で検出できる。例えば、方位磁針を用いて直接的に機器の向きを検出する、加速度計を用いて機器の向きの経時的変化を検出する、異なる時刻に画像を撮影してそれらの画像間にどの程度の移動があるのかを検出した後に、その検出結果とレンズの焦点距離の情報とを結び付けて検出する、等のうち少なくとも1つの方法である。その他の選択可能な方法は、当業者には明らかであろう。
音声の増幅も、多くの異なる方法で実施してもよい。そのうちの2つの方法について下記に示す。
第1の方法では、音声は、パノラマ画像撮影中に2つ以上のマイクロホンで収集される。機器の向きが、例えば、パノラマ画像撮影中に方位磁針、加速度計、機器のカメラ等を(上述のとおり)用いて記録される。収集された音声から、ビーム形成されたモノラル音声信号が生成されてもよい。その場合、記録された機器の向きに基づいて、ビームが関心領域に向くようにビームの方向を変化させることで当該信号が生成される。ビーム形成された音声信号は、パノラマ画像に結合される。
上述のビーム形成されたモノラル信号に加えて、又は代えて、空間信号(ステレオ、バイノーラル、5.1チャンネル等)が、例えば、DirAC信号又はアンビソニックス信号を生成するための公知の方法を使用して、機器の2つ以上のマイクロホンから生成されてもよい。当該空間信号は、機器の移動と、空間信号のチャンネルのうち少なくとも一部、又は全チャンネルに付加された前記ビーム形成された信号に従って回転され得る。前記ビーム形成された信号は、付加される前に関心領域の方向にパンされ得る。ビーム形成された信号と空間信号との相対的な音量は、タッチ操作の圧力に依存してもよい。
上述のように、多数の音声焦点区域が可能とされてもよい。ユーザは、例えば、複数の音声焦点区域を(ユーザインタフェースを用いて)指示する。例えば、複数の焦点区域のそれぞれについてユーザ入力を与えてもよい。この入力は、関心のある音声信号が生じている領域にカメラが向いた時にユーザがボタンを単に押下(場合によっては長押し)するようにすれば、非常に直感的に行える。
上述のように、ユーザは、1つ以上の焦点区域を(例えば、画像収集機器のユーザインタフェースを使用して)指示する。ただし、実施形態の全てにおいてこれが必須ということではない。例えば、当該1つ以上の焦点要素を判定するための手段を設けてもよく、この手段は、ユーザ入力を必要とせずに焦点要素を判定してもよい。例えば、収集された画像から主要音源である可能性が高い1つ以上の音源を決定するためのアルゴリズムを設けてもよい。特定された1つ以上の主要音源の増幅及び/又はその他の音源の減衰が行われてもよい。各焦点区域における音声を増幅する、ビーム形成された信号を生成してもよい。各ビーム形成された信号は、焦点区域のある方向に対応する異なる方向にパンされてもよい。
上述のように、音声収集開始時点が画像収集開始時点と同時であってもよく、さらに/あるいは音声収集終了時点が画像収集終了時点と同時であってもよい。ただし、実施形態の全てにおいてこれが必須ということではない。
図5は、例示的な実施形態に係る、全体を符号50で示すシステムのブロック図である。
システム50は、ユーザ1と、撮像機器2と、当該撮像機器の上述の位置2a、2b、2c、2d、2eとを備える。システム10及び30と同様に、画像収集機器は、位置2aから位置2eまで移動する際に円弧4に沿って移動する。
図6は、例示的な実施形態に係る、全体を符号60で示すアルゴリズムのフローチャートである。アルゴリズム60は、システム50の例示的な使用を示している。
アルゴリズム60は、音声収集が開始される動作61から始まる。例示的な実施形態では、第1のユーザ入力指示6により指示された時点に(即ち、画像収集機器が位置2aにある時に)音声収集が開始される。
次に、動作62では、視覚画像収集が開始される。例示的な実施形態では、第5のユーザ入力指示51により指示された時点に(即ち、画像収集機器が位置2bにある時に)視覚画像収集が開始される。視覚画像収集は、アルゴリズム60の動作63で終了する。例示的な実施形態では、第6のユーザ入力指示52により指示された時点に(画像収集機器が位置2dにある時に)視覚画像収集が終了する。
動作64では、音声収集が終了する。例示的な実施形態では、第2のユーザ入力指示7により指示された時点に(即ち、画像収集機器が位置2eにある時に)音声収集が終了する。
音声収集及び視覚画像収集の両方が終了すると、動作65では、音声とともにパノラマ画像出力が提供される。当該パノラマ画像出力は、撮像機器が第1のユーザ指示6から第2ユーザ指示7までの間に円弧4に沿って移動しながら収集した音声データとともに、撮像機器が第5のユーザ指示51から第6のユーザ指示52までの間に円弧53に沿って移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含む。このように、アルゴリズム60では、音声収集開始時点は画像収集開始時点とは異なり(即ち、より早い時点となり)、音声収集終了時点は画像収集終了時点とは異なる(即ち、より遅い時点となる)。
音声収集開始時点及び終了時点は、例えば、(ユーザ入力指示6及び7として示すように)ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。同様に、画像収集開始時点及び終了時点は、例えば、(ユーザ入力指示51及び52として示すように)ユーザインタフェース上のボタンを押下すること、又はユーザインタフェースを起動することにより、ユーザが指示してもよい。
図5に示すユーザ入力指示6、7、51、及び52は、例示のためのみに図示されたものである。これらの指示は、任意の時点に行うようにもできる。図7は、例示的な実施形態に係る、全体を符号70で示すシステムのブロック図である。システム70は、上述のユーザ1と、撮像機器72(上述の撮像機器2と同様のもの)とを備える。撮像機器72は経路71に沿って移動する。経路71に沿った複数の撮像機器位置72a、72b、72c、72d、72dが示されている。
音声開始方向74は、音声収集が開始される撮像機器位置(アルゴリズム60の動作61)を示すことが図示されている。同様に、画像収集開始位置75(動作62)、画像収集終了位置76(動作63)及び音声収集終了位置77(動作64)が図示されている。位置74~77は非対称である。実際のところ、これらの位置はユーザ定義であってもよく、経路71に沿った任意の位置であってもよい。
収集されて(例えば、上述の動作26、48及び65で)パノラマ画像出力とともに提供される音声データは、ループ再生されても(即ち、パノラマ画像提供が継続している時間にわたって繰り返されても)よい。あるいは、収集された音声は、パノラマ画像を見た時に一度だけ再生されてもよい。いずれの場合であっても、例えば、パノラマ画像を見る人の没入体験感を高めるためには、音声信号が長いほうが好まれる可能性がある。短い音声クリップのループ再生は鬱陶しいと感じられかねず、短い音声クリップの一度のみの再生には音声収集範囲の情報を余り多く含まない可能性がある。アルゴリズム60では、音声収集期間が画像収集期間より長いため、パノラマ画像とともに提供され得る音声クリップが長くなる。
実施形態によっては、音声信号をできる限り長く録音することが図られてもよい。例えば、画像収集機器2及び72は、パノラマ画像アプリケーションの開始と同時に、又はそれ以前に、音声の録音を開始するようにもできる。この手法で問題になる可能性があるのは、ユーザが、パノラマ画像の取得を開始する前に機器(例えば、携帯電話等の撮像機器)を大きく移動させるかもしれないことである。そのような移動により機器の軌跡が非常に複雑になり、機器の移動に対応するように音声を回転させることが難しく(恐らく、不可能に近いほど難しく)なる。また、ユーザが音声収集機器の持ち方を変えるかもしれず、その場合は機器を扱う雑音が生じ得る。さらに、ユーザが、パノラマ画像を撮影する前に機器の扱いや被写体の位置について「ちょっと、あっちに動いて」というような発言をするかもしれない。そのような音声は、提供されるパノラマ画像においては望ましくないかもしれない。
図8は、例示的な実施形態に係る、全体を符号80で示すシステムのブロック図である。
システム80は、上述のユーザ1と、撮像機器82(上述の撮像機器2及び72と同様のもの)と、当該撮像機器の位置82a、82b、82c、82d、82e、82fとを備える。撮像機器は、位置82aから位置82fまで移動する際に円弧84に沿って移動する。
円弧84は、撮像機器が滑らかではない軌跡で大きく移動する第1の部分84aと、撮像機器が滑らかな軌跡で移動する第2の部分84bと、撮像機器が再び滑らかではない軌跡で大きく移動する第3の部分84cとを有する。
図9は、例示的な実施形態に係る、全体を符号90で示すアルゴリズムのフローチャートである。
アルゴリズム90は、撮像機器82の滑らかな軌跡の開始が判定される動作91で始まる。このように、例示的なシステム80では、動作91によって円弧84の第2の部分84bの開始を判定する。動作92において、音声収集が開始される。このように、音声収集は、滑らかな軌跡が判定されたことに応じて(例えば、画像収集機器が図8に示す位置85にある時に)開始される。
次に、動作93では、視覚画像収集が開始される。例示的な実施形態では、ユーザ入力指示により指示された時点に視覚画像収集が開始される。これは、画像収集機器が図8に示す位置86にある時であってもよい。視覚画像収集は、アルゴリズム90の動作94で終了する。例示的な実施形態では、ユーザ入力指示により指示された時点に視覚画像収集が終了する。これは、画像収集機器が図8に示す位置87にある時に行われてもよい。
動作95において、撮像機器82の滑らかな軌跡の終了を判定する。このように、例示的なシステム80では、動作95によって円弧84の第2の部分84bの終了を判定する。動作96において、音声収集が終了する。このように、音声収集は、滑らかな軌跡の終了が判定されることに応じて(例えば、画像収集機器が図8に示す位置82eにある時に)終了される。このように、前記滑らかな軌道に沿う期間の開始によって音声収集開始期間を定義してもよく、前記滑らかな軌道に沿う期間の終了によって音声収集終了時間を定義してもよい。
音声収集及び視覚画像収集の両方が終了すると、動作97において、音声とともにパノラマ画像出力が提供される。パノラマ画像出力は、撮像機器が音声収集開始時点85から音声収集終了時点88までの間に円弧84に沿って移動しながら収集した音声データとともに、撮像機器が画像収集開始時点86から画像収集終了時点87までの間に円弧84bに沿って移動しながら収集した、パノラマ画像を生成するためにステッチされる複数の画像を含む。
ある実施形態では、パノラマ画像アプリケーションが実行されている時間(又はそれより長い時間)では継続的に音声が収集されるが、音声データが記憶されるのは、機器が安定的に保持されている時又は滑らかな軌跡上(例えば、経路の第2の部分84b上)にある時のみである。収集された音声データのうち記憶されなかったデータは破棄されてもよい。
機器の軌跡は、多くの異なる方法で、例えば、方位磁針、加速度計、機器のカメラ等のうち少なくとも1つを使用して検出されてもよい。機器の軌跡の滑らかな部分は、機器の向き及び/又は位置の変化が、例えば、曲線経路の閾値量以下である場合の期間であってもよい。
アルゴリズム90では、収集された音声は、モノラル音声、ステレオ音声、バイノーラル方式の音声、アンビソニックス方式の音声、マルチチャンネルの音声等であってもよい。
モノラル音声の場合、撮像機器82が円弧84に沿って移動する(即ち、円弧84の第1の部分84a、第2の部分84b、及び第3部分84cにある)時に、少なくとも1つのマイクロホンで録音されてもよい。モノラル音声は、音声収集開始時点85から音声収集終了時点88までの間の部分に切り取られてもよい。
音声の録音に使用されるマイクロホンは、1つであっても複数であってもよい。音声は、回転できるものであれば、アンビソニックス方式、DirAC、ステレオ、5.1チャンネル、パラメトリック等のいずれであってもよい。音声収集開始時点85から音声収集終了時点88までの間の音声のみを使用してもよい。
本実施例においては、動作97で生成されるパノラマ画像の左端部分を構成するために使用する画像(以下「左画像」と呼ぶ)及び動作97で生成されるパノラマ画像の右端部分を構成するために使用する画像(以下「右画像」と呼ぶ)は、収集された音声をどのように回転させるかを決める際に、向きとともに使用されてもよい。
機器が左画像を撮影している時に収集された音声は、回転された後のカメラの前にある音源が左側にあるように聞こえるとともに他の方向にある音源がそれに応じて回転されるように、回転されてもよい。回転は水平面内で実行されてもよい。同様に、機器が右画像を撮影している時に収集された音声は、回転された後のカメラの前にある音源が右側にあるように聞こえるとともに他の方向にある音源がそれに応じて回転されるように、回転されてもよい。
パノラマ画像は、大抵の場合、撮像機器を左から右へ移動させながら撮影される。左側部分の前及び右側部分の後に音声があってもよい。左側部分の前(音声収集開始時点85から画像収集開始時点86までの間)及び右側部分の後(画像収集終了時点87から音声収集終了時点88までの間)の音声は、機器の方向に基づいて直接回転されてもよい。あるいは、音声収集開始時点85から画像収集開始時点86までの時点に機器のある方向が画像収集開始時点と同じであると仮定して、また、画像収集終了時点87から音声収集終了時点88までの時点に機器のある方向が画像収集終了時点と同じであると仮定して、固定された方向が使用されてもよい。
左側部分と右側部分との間の音声は、以下のように回転される。
まず、左画像が画像収集開始時点86に撮影された時の機器の向き(例えば、カメラ方向)がα(αは、水平面上の角度)であると定義する。一般性を失うことなく、α=0(度)が北、α=90が西、α=-90が東、α=180が南を指すというように定義できる。同様に、右画像が画像収集終了時点87に撮影された時のカメラ方向を指す角度としてβを定義する。さらに、左側部分と右側部分との間における音声の部分(「中間部分」と呼ぶ)に対応する機器の向きをθとする。
左側部分の音声は90度回転され、右側部分の音声は-90度回転される。
中間部分全体における音声は、
Figure 2022506582000005
度回転される。
なお、前記で使用された場合の「北」は、実際の地理上の北である必要はなく任意の基準方向(例えば、パノラマ画像の中点)であってもよい。機器の向きは、例えば、機器の加速度計、方位磁針、又は機器のカメラ等を用いて検出できる。
同様の回転を示す式も、音声収集開始時点85から音声収集終了時点88までの間の音声に使用できる。
本明細書に説明するその他の実施形態において、同様の音声回転の仕組みが実施されてもよい。
パノラマ画像を撮影する場合、ユーザは、画像収集開始及び終了の時点を(上述のとおり)選択することでパノラマ画像の幅を制御してもよい。しかしながら、パノラマ画像に対応する音声の幅を制御するのは、それよりも難しい。
例えば、システム80において、パノラマ音声における音源の幅は、パノラマ画像の幅に固定されていた。画像よりも左側にある音源は音声において左側に存在し、パノラマ画像よりも右側にある音源は音声において右側に存在した。ユーザは、各音源の場所、即ち、音声の幅を制御したいかもしれない。例えば、パノラマ画像の視野(Field Of View:FOV)が狭い場合、重要な音声源が全て前方にあれば(例えば、画像が肖像写真又は一つの噴水等であれば)、ユーザは、音声も狭くしておきたいかもしれない。あるいは、音声収集範囲が非常に大きいことが自然(例えば、ユーザの周囲に騒がしい動物たちがいるジャングル又はユーザの周囲に芸人たちがいる大道芸等)であれば、ユーザは、パノラマ画像の視野に関係無く、パノラマの音声において音声収集範囲を広くしたいかもしれない。
図10は、例示的な実施形態に係る、全体を符号100で示すシステムのブロック図である。
システム100は、上述のユーザ1と、(機器位置82a、82b、82c、82d、82e、82fを含む)撮像機器82と、を備える。撮像機器82は、位置82aから位置82fまで移動する際に円弧84に沿って移動する。上述したように、円弧84は、撮像機器が滑らかではない軌跡で大きく移動する第1の部分84aと、撮像機器が滑らかな軌跡で移動する第2の部分84bと、撮像機器が再び滑らかではない軌跡で大きく移動する第3の部分84cとを有する。
上述のように、音声収集は、撮像機器82の滑らかな軌跡の開始と同時に(例えば、機器位置82bで)開始され、当該滑らかな軌跡の終了(例えば、機器位置82e)まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に(例えば、位置86で)開始され、ユーザ入力指示で指示された時点に(例えば、位置87で)終了する。
図11は、例示的な実施形態に係る、全体を符号110で示すアルゴリズムのフローチャートである。
アルゴリズム110は動作112で開始する。動作112において、画像収集開始時点86から画像収集終了時点87までの間の第1の円弧の大きさが決定される。動作114において、音声収集開始時点から音声収集終了時点までの間の第2の円弧の大きさが決定される。なお、当然ながら、動作112と動作114との順番を逆にすることもできる。あるいは、これらの動作を並行して実行させることもできる。
動作116において、音声データの視野が、第1の円弧(画像収集開始時点から画像収集終了時点まで)と第2の円弧(音声収集開始時点から音声収集終了時点まで)との相対的な大きさによって測られる。
例えば、γを音声収集開始時点(例えば、滑らかな軌跡の開始)における機器の向きとし、機器の向きを、音声収集終了時点(例えば、滑らかな軌跡の終了)においてδとする。音声収集開始時点から音声収集終了時点までの部分における音声は、次の式に従って回転される。
Figure 2022506582000006
単位は(度)である。α、β、及びθは、前記のように定義される。
この式は、音声の幅が、画像収集開始時点及び終了時点における機器の向きで定義される円弧の角度と、音声収集開始時点及び終了時点における機器の向きで定義される円弧の角度との比によって測られることを意味する。
図12は、例示的な実施形態に係る、全体を符号120で示すシステムのブロック図である。
システム120は、上述のユーザ1と、撮像機器122(撮像機器82と同様のもの)とを備える。撮像機器122は、機器位置122a、122b、122c、122d、122e、122fを含む。撮像機器122は、位置122aから位置122fまで移動する際に円弧84に沿って移動する。上述したように、円弧84は、撮像機器が滑らかではない軌跡で大きく移動する第1の部分84aと、撮像機器が滑らかな軌跡で移動する第2の部分84bと、撮像機器が再び滑らかではない軌跡で大きく移動する第3の部分84cとを有する。
上述のとおり、音声収集は、撮像機器122の滑らかな軌跡の開始と同時に(機器位置122bで)開始され、当該滑らかな軌跡の終了(機器位置122e)まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に(位置126で)開始され、ユーザ入力指示で指示された時点に(位置127で)終了する。
図13は、例示的な実施形態に係る、全体を符号130で示すシステムのブロック図である。
システム130は、上述のユーザ1と、撮像機器132(撮像機器82及び122と同様のもの)と、を備える。撮像機器132は、機器位置132a、132b、132c、132d、132e、132fを含む。撮像機器132は、位置132aから位置132fまで移動する際に円弧84に沿って移動する。上述したように、円弧84は、撮像機器が滑らかではない軌跡で大きく移動する第1の部分84aと、撮像機器が滑らかな軌跡で移動する第2の部分84bと、撮像機器が再び滑らかではない軌跡で大きく移動する第3の部分84cとを有する。
上述のように、音声収集は、撮像機器132の滑らかな軌跡の開始と同時に(機器位置132bで)開始され、当該滑らかな軌跡の終了(機器位置132e)まで継続する。さらに、視覚画像収集は、ユーザ入力指示で指示された時点に(位置126で)開始され、ユーザ入力指示で指示された時点に(位置127で)終了する。
視覚的収集範囲(大まかには、楽器124から自動車125まで広がる)はシステム120及び130において同じであり、上述の例示的なシステム100における視覚的収集範囲よりも狭い。
上述したように、音声データの視野は、画像収集開始時点から画像収集終了時点までの第1の円弧と音声収集開始時点から音声収集終了時点までの第2の円弧との相対的な大きさによって測られる。その結果、音声データの視野は、システム130よりもシステム120のほうが大きい。
したがって、システム100は広い視覚視野及び広い音声視野を有すると考えることもでき、システム120は狭い視覚視野及び広い音声視野を有すると考えることもでき、システム130は狭い視覚視野及び狭い音声視野を有すると考えることもできる。
なお、システム100、120、及び130の音声収集開始時点及び音声収集終了時点を設定するための特定の仕組みが、音声出力の音声視野を制御する実施形態の全てにおいて必須ということではない。
ユーザは、パノラマ画像を収集する際、画像及び音声の収集機器までの距離を自分の手の届く範囲に保持しておくかもしれない。また、ユーザは、機器が軌跡上を移動している時、音を収集している間に機器に対して相対的に様々な位置にあるかもしれない(例えば、ユーザが静止したままで収集機器を動かす場合)。したがって、記録された空間オーディオにおけるユーザの声が、撮像機器が移動すると違う方向から聞こえるように提供される可能性がある。ユーザが機器に近過ぎるため、どのような固定のユーザ距離の想定でも問題を解決できずに音源距離が検出できなければ、問題は悪化する。
この問題は、音源までの距離を想定して、軌跡の辿る点の平均として軌跡の中点を計算して、それらに基づいて方向を固定することで、部分的には対処できる。そのような解決策は、遠くにある音源よりも、近くにある音源に対して影響が大きい。近くにある音源で最も重要なものは、通常はユーザ自身の声である。そのため、本発明者らは、その点を解決することに以下のように焦点を当てている。
パノラマ画像が再生される際に、通常は、当該パノラマ画像を撮影したユーザはパノラマ画像内で見ることができない。どのようなユーザの声も一定の場所から聞こえることが望ましい可能性がある。その目的を達成するには、機器の後ろ側である角度(例えば、110~250度)から入ってくる全ての音を修正して、機器の真後ろ(180度)に近い角度から入ってくるように再現する手法がある。この「機器の真後ろ」という方向は、パノラマ画像の中心への方向とは反対の方向として定義されてもよい。これを行うには、(上述のように)これまで回転された角度を追加の角度固定に適用する方法がある。図14は、当該方法を達成する例示的な関数であって全体を符号140で示す関数を示す、例示的な実施形態に係るグラフである。関数140は、x軸及びy軸上で180度位置の周辺の比較的平坦な区間と、機器の後ろ側の音方向を180度の固定された方向に進ませる後方左方向及び後方右方向におけるより傾斜が急な区間とによって特徴付けられる。
図15は、例示的な実施形態に係る、全体を符号150で示すアルゴリズムのフローチャートである。
当該アルゴリズムは、機器が音声及び画像のデータを収集して、画像収集中の機器の向きを(例えば、加速度計又はカメラ画像を用いて)判定する動作152で始まる。動作154では、基準方向が判定される。基準方向は、例えば、パノラマ画像の中点である。
動作156では、機器は、音声及び画像を収集する過程の間に、判定された基準方向を向いていた時点インスタンスを判定する。動作158では、機器は、判定された時点インスタンスより前及び後に収集された音声について音声データを別々に回転させる。
動作160では、機器は、基準方向とは反対の方向の範囲にある音声を、当該範囲にある全ての音声がある一方向(例えば、基準方向とは正反対の方向)から聞こえるようにすることで修正する。
完全な説明のため、図16は、全体を処理システム300と称される、上述の少なくとも1つの例示的な実施形態の構成要素の模式図である。処理システム300は、プロセッサ302と、当該プロセッサに近接して接続されてRAM314及びROM312を含むメモリ304と、を備え、任意選択として、ユーザ入力部310及びディスプレイ318を備える。処理システム300は、例えば、有線又は無線のモデムである、ネットワークや装置への接続に使用される少なくとも1つのネットワーク/装置インタフェース308を備えてもよい。インタフェース308は、ネットワーク側の装置ではない機器や装置のような他の装置への接続部としても機能してもよい。そのように、ネットワークを介在しない複数の機器や装置間の直接接続も可能である。ユーザ入力部310及びディスプレイ318は、地上管制局のようなリモートプロセッサに接続されてもよい。リモート接続が、リモートプロセッサとプロセッサとの間のLTE又は5Gの高速接続であってもよい。
プロセッサ302は、それ以外の各構成要素の動作を制御するために当該構成要素に接続される。
メモリ304は、ハードディスクドライブ(Hard Disk Drive:HDD)又はソリッドステートドライブ(Solid State Drive:SSD)等の不揮発性メモリを備えてもよい。メモリ314のROM312は、特に重要なものとして、オペレーティングシステム315を記憶する。ROM312は、ソフトウェアアプリケーション316を記憶してもよい。メモリ304のRAM314は、データの一時的な記憶のためにプロセッサ302により使用される。オペレーティングシステム315は、プロセッサにより実行された場合に、上述のアルゴリズム20、40、60、90、110、及び150の態様を実施するコードを含んでもよい。なお、小型の機器や装置の場合、当該メモリは、小型用途に好適なものとすることができ、即ち、必ずしもHDD又はSSDが使われるわけではない。
プロセッサ302は、任意の好適な形態を取り得る。例えば、単一のマイクロコントローラ、複数のマイクロコントローラ、単一のプロセッサ、又は複数のプロセッサであってもよい。
処理システム300は、スタンドアロンのコンピュータ、サーバ、コンソール、又はそれらのネットワークであってもよい。処理システム300及び必要な構造的部分は、IoT機器/装置等の機器/装置に全て内包されて(即ち、非常に小型化されて埋め込まれて)もよい。
例示的な実施形態によっては、処理システム300は、外部の複数のソフトウェアアプリケーションに関連付けられていてもよい。それらのアプリケーションは、リモートサーバ機器/装置に記憶されるものでもよく、当該リモートサーバ機器/装置上で部分的に又は独占的に実行されてもよい。これらのアプリケーションは、クラウドホスト型アプリケーションと称されてもよい。処理システム300は、当該リモートサーバ機器/装置に記憶されたソフトウェアアプリケーションを利用するためにこの機器/装置と通信を行ってもよい。
図17A及び図17Bは、それぞれが取り外し可能な記憶部365及びコンパクトディスク(CD)368であり、コンピュータによって実行されると上述の例示的実施形態に係る方法を実施するコンピュータ可読コードを記憶する有形の媒体を示す図である。取り外し可能な記憶部365は、コンピュータ可読コードを記憶している内部メモリ366を有するメモリスティック(USBメモリスティック等)であってもよい。メモリ366は、コネクタ367を介してコンピュータシステムによりアクセスされてもよい。CD368は、CD-ROM又はDVD等であってもよい。他の形態の有形の記憶媒体が使用されてもよい。有形の媒体は、機器、装置、ネットワークとの間でやり取りできるデータや情報を記憶することが可能な任意の機器又は装置であってもよい。
本発明の実施形態は、ソフトウェア、ハードウェア及びアプリケーションロジックのいずれか、又はソフトウェア、ハードウェア及びアプリケーションロジック組合せにより実施されてもよい。当該ソフトウェア、アプリケーションロジック、及び/又はハードウェアは、メモリ又は任意のコンピュータ用媒体上に記憶されてもよい。例示的な実施形態においては、当該アプリケーションロジック、ソフトウェア、又は指示の集合は、種々の従来のコンピュータ可読媒体のうちいずれかに保持される。本明細書の文脈では、「メモリ」又は「コンピュータ可読媒体」は、コンピュータ等の指示実行システム、装置、又は機器によって使用されるため、又はそれらに接続されて、当該指示を収容、保存、通信、伝搬、又は移動できる任意の非一時的媒体又は手段であってもよい。
該当する場合については、「コンピュータ可読媒体」、「コンピュータプログラム製品」、「有形に実施されるコンピュータプログラム」等、又は「プロセッサ」、「処理回路」等という用語は、シングルプロセッサアーキテクチャ、マルチプロセッサアーキテクチャ、シーケンス制御装置、並列アーキテクチャ等の異なるアーキテクチャを有するコンピュータのみではなく、フィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA)、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の専門回路、及び信号処理機器/装置等の機器/装置等も包含すると理解するべきである。また、「コンピュータプログラム」、「指示」、「コード」等の用語は、プロセッサのための指示としてハードウェア機器/装置のプログラム可能なコンテンツ等の、プログラム可能なプロセッサファームウェア用のソフトウェア、又は一定の機能の機器/装置、ゲートアレイ、又はプログラマブルロジック機器/装置等のための構成設定用のソフトウェアを表現すると考えるべきである。
本願で使用される場合、「回路群」は、以下に挙げる全てのことを指す。
(a)ハードウェアのみの回路実装(アナログ回路群及び/又はデジタル回路群のみでの実装等)
(b)(該当する場合)以下のいずれかであるような、複数の回路とソフトウェア(及び/又はファームウェア)との組合せ
(i)プロセッサ(複数可)の組合せ
(ii)サーバ等の装置に種々の機能を実行させるために協働するプロセッサ(複数可)/ソフトウェア(デジタル信号プロセッサ(複数可)等)、ソフトウェア、及びメモリ(複数可)のそれぞれの部分
(c)ソフトウェア又はファームウェアが物理的に存在しない場合であっても、当該ソフトウェア又はファームウェアが作動することを要する、例えば、マイクロプロセッサ(複数可)又は少なくともその部分等である回路
必要に応じて、本明細書に記載する異なる機能は、順序を変えて、かつ/あるいは並行して行われてもよい。さらに、必要に応じて、上述の機能のうち1つ以上が任意選択的であってもよいし、統合されてもよい。同様に、当然のことながら、図2、4、6、9、11及び15のフロー図が一例に過ぎないこと、また、図中に示す種々の動作が省略、順番の変更、及び/又は統合の対象となってもよい。
当然のことながら、上述の例示的な実施形態は単なる例示であり、本発明の範囲を限定するものでなはない。その他の変更例や変形例は、本明細書を読むことで当業者に明らかになるであろう。
上述の実施形態において、撮像機器(図1に示す撮像機器2等)は、画像収集開始時点から画像収集終了時点まで円弧に沿って移動すると説明した。しかしながら、発明の形態全てにおいてこれが必須ということではない。例えば、撮像機器の(円弧に沿った移動ではない)回動又は直線的な移動等、その他の軌跡も可能である。
また、本願の開示は、本願又はそこから導出される応用例の実行に際して、本明細書に明示的又は示唆的に開示する任意の新規な特徴又はその任意の新規な組合せ、若しくはそれらの任意の一般化を包含すると理解すべきである。任意のそのような特徴及び/又はその組合せを包含するために新たな請求項が作られてもよい。
本発明の種々の態様は独立請求項に定められるが、本発明のその他の態様は、請求項に明示的に定められる特徴の組合せだけではなく、上述の例示的な実施形態及び/又は従属請求項に定められる特徴と独立請求項の特徴との明示的に示されていない組合せを包含する。
種々の例を説明してきたが、これらの説明は限定的であると考えるべきではないことも本明細書では留意すべきである。つまり、添付の請求項に定義される本発明の範囲から逸脱することなく実施することができる複数の変更例及び変形例が存在する。

Claims (15)

  1. パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集する手段と、
    前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集する手段と、
    を備える装置。
  2. 前記収集された音声データ内の1つ以上の焦点要素を定義する手段をさらに備える、請求項1に記載の装置。
  3. 前記焦点要素は、1つ以上の期間及び/又は1つ以上の区域を含む、請求項2に記載の装置。
  4. 前記1つ以上の焦点要素がユーザ定義である、請求項2又は3に記載の装置。
  5. 前記1つ以上の焦点要素を判定する手段をさらに備える、請求項2から4のいずれか一項に記載の装置。
  6. 前記音声収集開始時点及び前記音声収集終了時点を定義する手段をさらに備える、請求項1から5のいずれか一項に記載の装置。
  7. 前記装置について軌道が滑らかな期間を判定する手段をさらに備え、
    前記音声収集開始時点は、前記軌道が滑らかな期間の開始により定義され、かつ/あるいは前記音声収集終了時点は、前記軌道が滑らかな期間の終了により定義される、
    請求項6に記載の装置。
  8. パノラマ画像の生成に使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に受信する手段と、
    前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に受信する手段と、
    前記受信された音声とともに前記生成されたパノラマ画像を提示する手段と、
    を備える装置。
  9. 前記音声データ内の1つ以上の焦点要素に関連するデータを受信する手段をさらに備え、
    前記受信された音声データは、前記焦点要素に応じて修正される、
    請求項8に記載の装置。
  10. 前記受信された音声は、受信された音声を前記焦点要素内で増幅することにより修正される、請求項9に記載の装置。
  11. 前記画像収集開始時点と前記画像収集終了時点、及び/又は
    前記音声収集開始時点と前記音声収集終了時点は、
    ユーザ定義である、請求項1から10のいずれか一項に記載の装置。
  12. 前記パノラマ画像とともに提示される音声データの視野を定義する手段をさらに備える、請求項1から11のいずれか一項に記載の装置。
  13. 前記音声データの前記視野が、前記画像収集開始時点から前記画像収集終了時点までの第1の円弧と前記音声収集開始時点から前記音声収集終了時点までの第2の円弧との相対的な大きさによって測られる、請求項12に記載の装置。
  14. 前記パノラマ画像の基準方向を定義する手段と、
    前記基準方向とは概ね反対の方向における音声を修正する手段と、
    をさらに備え、
    前記基準方向とは概ね反対の前記方向における音声が、前記パノラマ画像とともに提示された修正後の前記音声が一方向から発生しているように聞こえるように修正される、
    請求項1から13のいずれか一項に記載の装置。
  15. パノラマ画像を生成するために使用される複数の視覚画像を、画像収集開始時点から画像収集終了時点までの間に収集することと、
    前記視覚画像に関連する音声データを、音声収集開始時点から音声収集終了時点までの間に収集することと、
    を含む方法。
JP2021524014A 2018-11-07 2019-10-31 パノラマ画像 Active JP7247338B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18205015.3 2018-11-07
EP18205015.3A EP3651448B1 (en) 2018-11-07 2018-11-07 Panoramas
PCT/EP2019/079849 WO2020094499A1 (en) 2018-11-07 2019-10-31 Panoramas

Publications (2)

Publication Number Publication Date
JP2022506582A true JP2022506582A (ja) 2022-01-17
JP7247338B2 JP7247338B2 (ja) 2023-03-28

Family

ID=64270632

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021524014A Active JP7247338B2 (ja) 2018-11-07 2019-10-31 パノラマ画像

Country Status (5)

Country Link
US (1) US11792512B2 (ja)
EP (1) EP3651448B1 (ja)
JP (1) JP7247338B2 (ja)
CN (1) CN112970244B (ja)
WO (1) WO2020094499A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3731541B1 (en) 2019-04-23 2024-06-26 Nokia Technologies Oy Generating audio output signals
EP4211494A2 (en) * 2020-09-11 2023-07-19 Fluke Corporation System and method for generating panoramic acoustic images and virtualizing acoustic imaging devices by segmentation
CN114945088A (zh) * 2022-05-11 2022-08-26 北京有竹居网络技术有限公司 三维模型生成方法、装置、拍摄终端和终端设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060028542A1 (en) * 2004-07-30 2006-02-09 Eyesee360, Inc. Telepresence using panoramic imaging and directional sound and motion
WO2008087721A1 (ja) * 2007-01-18 2008-07-24 Fujitsu Limited 画像合成装置、画像合成方法、プログラム
JP2009510837A (ja) * 2005-09-26 2009-03-12 イーストマン コダック カンパニー 画像キャプチャの方法およびデバイス
JP2010532610A (ja) * 2007-06-26 2010-10-07 トムソン ライセンシング 複数の写真の音列を生成する方法及びその音列を生成及び再生する装置
JP2012178807A (ja) * 2011-02-28 2012-09-13 Sanyo Electric Co Ltd 撮像装置
WO2014162171A1 (en) * 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
EP2849429A1 (en) * 2013-07-23 2015-03-18 LG Electronics Inc. Mobile terminal and panorama capturing method thereof
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011000409A1 (en) 2009-06-30 2011-01-06 Nokia Corporation Positional disambiguation in spatial audio
US9313599B2 (en) 2010-11-19 2016-04-12 Nokia Technologies Oy Apparatus and method for multi-channel signal playback
US9456289B2 (en) 2010-11-19 2016-09-27 Nokia Technologies Oy Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof
US20120162362A1 (en) 2010-12-22 2012-06-28 Microsoft Corporation Mapping sound spatialization fields to panoramic video
US20160286119A1 (en) 2011-04-18 2016-09-29 360fly, Inc. Mobile Device-Mountable Panoramic Camera System and Method of Displaying Images Captured Therefrom
JP5992210B2 (ja) * 2012-06-01 2016-09-14 任天堂株式会社 情報処理プログラム、情報処理装置、情報処理システム、および情報処理方法
IES20120509A2 (en) * 2012-11-27 2014-06-04 Digitaloptics Corp Europe Ltd Digital image capture device having a panorama mode
US9979885B2 (en) * 2015-02-09 2018-05-22 Steven Christopher Sparks Apparatus and method for capture of 360° panoramic video image and simultaneous assembly of 360° panoramic zoetropic video image
KR102576908B1 (ko) * 2016-02-16 2023-09-12 삼성전자주식회사 동적 파노라마 기능을 제공하는 방법 및 장치
US9881647B2 (en) 2016-06-28 2018-01-30 VideoStitch Inc. Method to align an immersive video and an immersive sound field

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060028542A1 (en) * 2004-07-30 2006-02-09 Eyesee360, Inc. Telepresence using panoramic imaging and directional sound and motion
JP2009510837A (ja) * 2005-09-26 2009-03-12 イーストマン コダック カンパニー 画像キャプチャの方法およびデバイス
WO2008087721A1 (ja) * 2007-01-18 2008-07-24 Fujitsu Limited 画像合成装置、画像合成方法、プログラム
JP2010532610A (ja) * 2007-06-26 2010-10-07 トムソン ライセンシング 複数の写真の音列を生成する方法及びその音列を生成及び再生する装置
JP2012178807A (ja) * 2011-02-28 2012-09-13 Sanyo Electric Co Ltd 撮像装置
WO2014162171A1 (en) * 2013-04-04 2014-10-09 Nokia Corporation Visual audio processing apparatus
EP2849429A1 (en) * 2013-07-23 2015-03-18 LG Electronics Inc. Mobile terminal and panorama capturing method thereof
JP2015139162A (ja) * 2014-01-23 2015-07-30 キヤノン株式会社 音響信号処理装置、動画撮影装置およびそれらの制御方法

Also Published As

Publication number Publication date
JP7247338B2 (ja) 2023-03-28
CN112970244A (zh) 2021-06-15
EP3651448B1 (en) 2023-06-28
US20210344831A1 (en) 2021-11-04
WO2020094499A1 (en) 2020-05-14
CN112970244B (zh) 2023-07-07
EP3651448A1 (en) 2020-05-13
US11792512B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
JP6367258B2 (ja) オーディオ処理装置
JP7247338B2 (ja) パノラマ画像
US9628908B2 (en) Sound collection method and electronic device
JP2015019371A5 (ja)
JP2013514696A (ja) 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
US20200312347A1 (en) Methods, apparatuses and computer programs relating to spatial audio
CN108141665A (zh) 信号处理装置、信号处理方法和程序
JP2012178807A (ja) 撮像装置
CN106200945B (zh) 内容重放装置、具有该重放装置的处理***及方法
CN111492342A (zh) 音频场景处理
JP2006287544A (ja) 映像音声記録再生装置
US11503226B2 (en) Multi-camera device
GB2563857A (en) Recording and rendering sound spaces
JP2009065319A (ja) 画像音声記録装置及び画像音声再生装置
JP2016092691A (ja) 画像処理装置及びその制御方法、プログラム、並びに記憶媒体
JP2009159073A (ja) 音響再生装置および音響再生方法
Bouillot et al. Rendering of Heterogeneous Spatial Audio Scenes
US11979732B2 (en) Generating audio output signals
EP3706432A1 (en) Processing multiple spatial audio signals which have a spatial overlap
JP2001008285A (ja) 音声帯域信号処理方法及び音声帯域信号処理装置
JP2012124843A (ja) 音声付き画像再生機器及び撮影機器

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220902

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230306

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230315

R150 Certificate of patent or registration of utility model

Ref document number: 7247338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150