JP2017102686A

JP2017102686A - 情報取得装置、情報取得方法及び情報取得プログラム

Info

Publication number: JP2017102686A
Application number: JP2015235177A
Authority: JP
Inventors: 康輔高橋; Kosuke Takahashi; 弾三上; Dan Mikami; 麻理子五十川; Mariko Isogawa; 明小島; Akira Kojima
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-01
Filing date: 2015-12-01
Publication date: 2017-06-08
Anticipated expiration: 2035-12-01
Also published as: JP6450305B2

Abstract

【課題】仮想視点画像の画質の低下を抑制する奥行を設定することができる情報取得装置、情報取得方法及び情報取得プログラムを提供する。
【解決手段】２つの撮像装置が撮影した複数の入力画像を取得し、所定の位置を仮想的な視点である仮想視点としてその仮想視点に対して設定された奥行に基づいて複数の入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、取得したオブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、主オブジェクトと仮想視点との距離に基づいて、入力画像を合成するために設定される仮想視点からの奥行を取得する奥行取得部とを備える。
【選択図】図２

Description

本発明は、複数のカメラからの画像データを処理する情報取得装置、情報取得方法及び情報取得プログラムに関する。

近年、周囲３６０度を含む全天の画像である全天球画像を撮影できるカメラ（以下、全天球カメラという。）およびその全天球画像の視聴において利用者が向いた方向を視聴することができるヘッドマウントディスプレイ（ＨＭＤ）が普及し始めている。そして、ネットワークを介して全天球画像を配信するサービスが注目を集めている。上記のような全天球画像は、ＨＭＤで視聴することで高い臨場感を得ることができ、スポーツやアーティストのライブ等のコンテンツの視聴における利用が期待されている。

一般に、これらの全天球画像は、所望の視点に全天球カメラを設置することで撮影することができる。しかしながら、競技中のサッカーコートの中やバスケットコートの中は、全天球カメラを設置しようとすると競技者の邪魔となるため、全天球カメラを設置することができない。しかし、競技中のサッカーコートの中やバスケットコートの中に立っているかのような映像を視聴してみたいという要望がある。そこで、通常では全天球カメラを設置することのできない場所に仮想的な視点である仮想視点を設定して、仮想視点を含む領域を撮影する複数のカメラを設置し、それらのカメラからの画像を合成することにより、この仮想視点において全天球カメラで撮影したかのような全天球画像を得る技術が考案されている（例えば、非特許文献１）。以下の説明において、仮想視点における全天球画像を、仮想全天球画像という。

仮想全天球画像を複数のカメラからの画像の合成によって得る画像処理システムの具体例について説明する。図１３は、従来の仮想全天球画像を得るための画像処理システムを示す図である。図１３に示すように、画像処理システム１は、全天球カメラ２と、Ｎ台の複数のカメラ３−１、３−２、３−３、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置４と、表示装置５とを備える。画像処理システム１は、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０の周囲に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、試合が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された背景画像２０は、画像処理装置４に入力されて蓄積される。

コート１０の周囲には、カメラ群３が設置されている。図１３においてＮは４以上の自然数である。カメラ群３は、各カメラがそれぞれ仮想視点１１を含む画角となるようにコート１０の周囲に設置されている。画像処理装置４は、背景画像２０に対して合成するためカメラ群３の各カメラが出力する入力画像に対して画像処理を行う。画像処理装置４は、全天球カメラ２より取得した背景画像２０に画像処理後の入力画像を合成して仮想全天球画像を生成する。表示装置５は、画像処理装置４で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ等である。

画像処理システム１における画像処理の具体例を説明する。図１４は、画像処理システム１における画像処理される画像の具体例を示す図である。図１４（Ａ）は、仮想視点１１の位置に設置された全天球カメラ２で撮影された背景画像２０の例を示す図である。仮想視点１１を中心とする３６０度の画像となっている。背景画像２０は、競技開始前に撮影される画像であるのでコート１０内に競技を行う選手等は映っていない。

図１４（Ｂ）は、左からカメラ３−１で撮影した入力画像２１と、カメラ３−２で撮影した入力画像２２と、カメラ３−３で撮影した入力画像２３とを示している。画像処理装置４は、入力画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、フットサルの選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置４は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。

画像処理装置４は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、仮想全天球画像２４を生成する。図１４（Ｃ）は、画像処理装置４が生成する仮想全天球画像２４の例を示す図である。図１４（Ｃ）に示すように、仮想全天球画像２４は、所定の領域に部分画像２１１ａ、２２１ａ、２３１ａを貼り付けているので、コート１０上で競技を行っているフットサルの選手が映っている画像である。

従来の画像処理システム１は、合成に用いているカメラ群３の光学中心および仮想視点１１において想定する仮想全天球カメラの光学中心はそれぞれ異なる。このため、合成された仮想全天球画像２４は幾何学的に正しくない画像を含む。これを防ぐためには、画像処理装置４は、部分画像２１１ａ、２２１ａ、２３１ａを、仮想視点１１からの距離を示す奥行きの一点で整合性が保たれるよう画像処理を行い背景画像２０に貼り付ける必要がある。しかしながら、整合性が保たれる奥行きに存在せずに別の奥行に存在している物体（例えば、競技中の選手）の部分画像を貼り付ける場合には、画像処理により奥行きの整合性を保つことができない。このような奥行に整合性のない物体は、仮想全天球画像２４において、その画像が分身（多重像）したり、消失したりする現象が発生する。

以下に、図面を用いて仮想全天球画像２４において、物体の画像が分身したり、消失したりする現象について説明する。図１５は、画像処理システム１における課題を説明するための図である。図１５において、撮影範囲４１は、カメラ３−１の撮影範囲の一部であって図１４（Ｂ）に示した領域２１１の撮影範囲を示す。撮影範囲４２は、カメラ３−２の撮影範囲の一部であって図１４（Ｂ）に示した領域２２１の撮影範囲を示す。撮影範囲４３は、カメラ３−３の撮影範囲の一部であって図１４（Ｂ）に示した領域２３１の撮影範囲を示す。また、仮想視点１１からの距離（奥行）が異なる３つの被写体（選手）４９〜５１が存在する。

図１５において破線で示している仮想視点１１からの第１の距離を示す奥行４６は、各撮影範囲４１〜４３が、重なりなく並んでいる。このような奥行４６に位置する被写体４９は、その画像が分身したり消失したりすることがなく、奥行に整合性のある被写体４９である。仮想視点１１からの第２の距離を示す奥行４７は、各撮影範囲４１〜４３が、横線部分４４に示すように重なっている。このような奥行４７に位置する被写体５０は、その画像が分身してしまうので、奥行に整合性のない被写体５０となる。仮想視点１１からの第３の距離を示す奥行４８は、各撮影範囲４１〜４３の間が斜線部分４５に示すように空いている。このような奥行４８に位置する被写体５１は、その画像の一部が消失してしまうので、奥行に整合性のない被写体５１となる。

このような被写体の画像が分身したり、消失したりする問題は、上述した仮想全天球画像２４を生成する場合に限られるものではない。例えば、カメラ３−１及びカメラ３−２からの２つの入力画像を合成して、仮想視点１１から被写体５０を撮影したかのような仮想視点画像を生成する場合にも生じる問題である。

高橋康輔、外３名、「複数カメラ映像を用いた仮想全天球映像合成に関する検討」、信学技報、2015年06月01日、vol.115, no.76、MVE2015-5、p.43-48

仮想全天球画像等の仮想視点画像において被写体が存在する領域は、視聴者が注視する領域である可能性が高く、その注視する領域において被写体の分身や消失が発生すると、仮想全天球画像等の仮想視点画像の画質が低下するという問題がある。

上記事情に鑑み、本発明は、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる情報取得装置、情報取得方法及び情報取得プログラムを提供することを目的としている。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、前記情報取得部が取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得部と、を備える情報取得装置である。

本発明の一態様は、前記の情報取得装置であって、２つの前記入力画像間において前記撮像装置の撮影範囲が重なっている重複領域がある場合に、前記画像合成処理は、設定された前記奥行に基づいて前記重複領域においてどちらか１つの入力画像のみ残るよう双方の入力画像に対して切り出し処理を行う。

本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野の中心に最も近いオブジェクトを、前記主オブジェクトとして特定する。

本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野情報取得部が取得した前記視野情報で特定される前記視野に含まれるオブジェクトを前記主オブジェクトとして特定し、前記奥行取得部は、前記オブジェクト特定部が特定した前記主オブジェクトに基づいて、前記視野の中心から各主オブジェクトまでの距離に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。

本発明の一態様は、前記の情報取得装置であって、前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部をさらに備え、前記オブジェクト特定部は、前記顕著度付与部が各オブジェクトに付与した前記顕著度に基づいて、前記主オブジェクトを特定する。

本発明の一態様は、前記の情報取得装置であって、前記オブジェクト特定部が前記顕著度に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトに付与された顕著度に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。

本発明の一態様は、前記の情報取得装置であって、前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部をさらに備え、前記オブジェクト特定部は、各オブジェクトの前記判定結果に基づいて、前記主オブジェクトを特定する。

本発明の一態様は、前記の情報取得装置であって、前記オブジェクト特定部が前記判定結果に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトの判定結果に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。

本発明の一態様は、前記の情報取得装置であって、前記情報取得部は、前記オブジェクトの大きさに関する情報であるサイズ情報又は前記オブジェクトの動きに関する情報である動き情報をさらに含むオブジェクト情報を取得し、前記奥行取得部は、前記サイズ情報又は前記動き情報に応じた重み係数をさらに用いて前記主オブジェクトを特定する。

本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部と、前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部と、前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部と、をさらに備え、前記オブジェクト特定部は、前記視野の中心から各オブジェクトまでの距離、各オブジェクトに付与された前記顕著度及び前記各オブジェクトの前記判定結果の少なくともいずれか２つに基づいて、主オブジェクトを特定する。

本発明の一態様は、前記の情報取得装置であって、前記広角画像は全天球画像である。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、を有する情報取得方法である。

本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置で実行される情報取得プログラムであって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、をコンピュータに実行させるための情報取得プログラムである。

本発明により、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる。

第１の実施形態における画像処理システム及び視聴システムの概略を示す図である。第１の実施形態における画像処理装置３０の構成例を示す図である。オブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。第１の実施形態における画像処理装置３０が１フレームの仮想全天球画像を作成する動作を示すフロー図である。第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明するフロー図である。第２の実施形態における画像処理システムの構成例を示す図である。第２の実施形態における画像処理装置３０Ａの構成例を示す図である。第２の実施形態における視野情報に基づいて主オブジェクトを特定する第１の方法を示す図である。図９に示すオブジェクトにおいて奥行取得部３２Ａが中心線６１に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。ＳａｌｉｅｎｃｙＭａｐの具体例を示す図である。第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する図である。従来の仮想全天球画像を得るための画像処理システムを示す図である。画像処理システム１における画像処理される画像の具体例を示す図である。画像処理システム１における課題を説明するための図である。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１は、第１の実施形態における画像処理システム及び視聴システムの概略を示す図である。図１に示す画像処理システム１Ａにおいて、図１３に示した従来の画像処理システム１と同じ構成には、同一符号を付しており、説明を簡略化する。

図１に示すように、画像処理システム１Ａは、全天球カメラ２と、Ｎ台（Ｎ≧２）の複数のカメラ３−１、３−２、３−３、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置３０と、表示装置５とを備える。画像処理システム１Ａは、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０の周囲に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、競技が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された背景画像２０は、画像処理装置４に入力されて蓄積される。全天球カメラ２は、競技中も仮想視点１１に設置したままだと競技の支障となるため、競技開始前に仮想視点１１の位置から取り除かれる。

コート１０の周囲には、カメラ群３が設置されている。カメラ群３の各カメラ３−１、３−２、３−３、…、３−Ｎは、入力画像を動画（映像）で撮影するカメラであり、それぞれ仮想視点１１を含む画角となるようにコート１０の周囲を取り囲むように設置されている。カメラ群３によって撮影された動画（映像）は、複数フレームの画像により構成されており、画像処理装置４は、動画（映像）に含まれる処理対象となるフレームの画像を入力画像としている。図１においてＮは、２以上の整数であり、同程度の画質の仮想全天球画像を得ようとするのであればコート１０が大きいほど大きな値となる。また、コート１０の大きさが同じであれば、Ｎの値が大きい程、合成領域（仮想全天球画像において、背景画像２０にカメラ群３からの画像を合成する領域）の面積が大きくなり、あるいは合成領域の大きさが同じであれば合成領域における画質が向上する。

画像処理装置３０は、カメラ群３の各カメラ３−１、３−２、３−３、…、３−Ｎからの入力画像に対して画像処理を施して、全天球カメラ２より取得した背景画像２０に画像処理後の入力画像を合成する処理を行う。表示装置５は、画像処理装置３０で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ、ヘッドマウントディスプレイ（ＨＭＤ）等である。

視聴システム９は、画像サーバ６と、ネットワーク７と、複数の視聴装置８とを備える。画像サーバ６は、ネットワーク７を介して画像処理装置３０が生成した仮想全天球画像を配信するサーバである。ネットワーク７は、例えばインターネット等の通信網である。視聴装置８は、ネットワーク７に接続可能なユーザ端末８１と、ユーザ端末８１に接続されたＨＭＤ８２とから構成される装置である。ユーザ端末８１は、ネットワーク７を介して画像サーバ６が配信する仮想全天球画像を受信する機能と、受信した仮想全天球画像をＨＭＤ８２で視聴可能な映像信号に変換してＨＭＤ８２へ出力する機能とを備える。なお、音声信号を処理する構成については図面を用いて説明していないが、公知の技術を用いて処理する構成であればよい。例えば、コート１０周辺の音声をマイクで集音して得た音声データを、仮想全天球画像の画像データとともに画像サーバ６が受信して、受信した音声データ及び仮想全天球画像の画像データから所定の信号形式の視聴用データを作成して視聴装置８へ配信する構成でよい。

ＨＭＤ８２は、ユーザ端末８１から映像信号等を受信する受信部と、受信部を介して受信した映像信号を表示する液晶ディスプレイ等で構成される画面と、視聴者の頭の動きを検出する検出部と、検出部が検出した結果をユーザ端末８１に送信する送信部とを備える。ＨＭＤ８２の画面に表示される映像は、仮想全天球画像に基づいた仮想全天球映像の一部であり視野と呼ぶ。ＨＭＤ８２は、検出部が検出した視聴者の頭の動きに応じて表示する映像の範囲である視野を変更する機能を有する。

頭を上下左右に動かすことに応じて視聴している映像が変化するので、ＨＭＤ８２を頭に装着した視聴者は、仮想視点１１の位置から競技を見ているかのような映像を視聴することができる。このように、ＨＭＤ８２を装着した視聴者は、あたかも仮想視点１１に立って競技を観戦しているかのような臨場感のある映像を視聴することができる。

画像処理システム１Ａにおいて処理される画像は、図１４に示した従来の画像処理システム１で処理される画像と同様であるので、図１４を用いて画像処理システム１Ａの動作について簡単に説明する。全天球カメラ２は、コート１０内の仮想視点１１に設置されて、図１４（Ａ）に示す背景画像２０を競技開始前に撮影する。競技が開始されるとカメラ群３の各カメラが撮影を開始する。例えば、カメラ群３内のカメラ３−１、３−２、３−３は、図１４（Ｂ）に示す入力画像２１〜２３を撮影する。

画像処理装置３０は、撮影された入力画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、競技中の選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置３０は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像処理装置３０は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、図１４（Ｃ）に示すような仮想全天球画像２４を生成する。

なお、視聴システム９は、図１に示す構成に限定されるものではない。視聴システム９は、画像処理装置３０が生成した仮想全天球画像を編集してから画像サーバ６へ出力する編集装置を備える構成等、仮想全天球画像をネットワーク７経由で配信可能な構成であればよい。視聴装置８の構成は、ネットワーク７を介して受信した仮想全天球画像の一部を歪みのない画像として画面に表示する構成であれば、どのような構成であってもよい。

次に、第１の実施形態における画像処理システム１Ａの画像処理装置３０の構成例について説明する。
図２は、第１の実施形態における画像処理装置３０の構成例を示す図である。図２に示すように、画像処理装置３０は、オブジェクト解析部３１と、奥行取得部３２と、合成情報取得部３３と、画像入力部３４と、画像切り出し部３５と、画像合成部３６と、表示処理部３７と、キーボードやマウス等で構成され、奥行に関する情報を入力する入力部３８と、カメラ群３の各カメラが撮影した入力画像を格納する入力画像格納部３０１と、背景画像２０を格納する背景画像格納部３０２と、オブジェクト情報格納部３０３と、合成情報テーブル３０４とを備える。

オブジェクト解析部３１は、入力画像格納部３０１に格納されている入力画像を入力とし、入力画像中に含まれるオブジェクトを抽出する。ここでオブジェクトとは、背景画像２０に含まれていないが入力画像に含まれている人物、物体（例えばボール）等である。オブジェクト解析部３１は、抽出したオブジェクトに対して当該オブジェクトを識別するための識別子であるＩＤを付与して、ＩＤ及び抽出したオブジェクトに関する情報を含むオブジェクト情報として出力する。

カメラ群３の各カメラで撮影される入力画像は、所定のフレーム周期を有する動画像であり、各フレームには撮影時間が関連付けられている。オブジェクト解析部３１は、入力された入力画像において時間方向に一連のフレームから抽出した同一オブジェクトに対して同じＩＤを付与し、撮影時刻も関連付けてオブジェクト情報として出力する。オブジェクト情報格納部３０３は、オブジェクト解析部３１が出力するオブジェクト情報を入力とし、オブジェクトを抽出する対象とした入力画像のフレーム毎の撮影時刻に関連付けてオブジェクト解析部３１が付与したＩＤを含むオブジェクトに関する情報を格納する。

例えば、オブジェクト解析部３１は、カメラ３−１が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２１から抽出したオブジェクトには、ＩＤ１の識別子を付与する。同様に、オブジェクト解析部３１は、カメラ３−２が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２２から抽出したオブジェクトには、ＩＤ２の識別子を付与し、カメラ３−３が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである入力画像２３から抽出したオブジェクトには、ＩＤ３の識別子を付与する。なお、オブジェクト解析部３１が、抽出したオブジェクトに付与するＩＤは、オブジェクトを特定するものである。例えば、カメラ３−１及びカメラ３−２が同じオブジェクトを撮影した入力画像を出力している場合は、オブジェクト解析部３１は、カメラ３−１及びカメラ３−２からの２つの入力画像を解析して、１つのＩＤを含む１つのオブジェクト情報を生成する。

オブジェクト解析部３１は、入力画像を解析してオブジェクトを抽出する際に、オブジェクトの属性を示すラベルと、オブジェクトのコート１０上の空間における三次元的な位置情報である三次元位置情報とを取得する。ラベルの具体例としては、人物であることを示す「人」、ボールであることを示す「ボール」、物体Ａであることを示す「物体Ａ」、物体Ｂであることを示す「物体Ｂ」、…等のカメラ群３の撮影範囲を移動する可能性のある物体を識別する情報を用いる。

オブジェクト解析部３１は、オブジェクトを抽出するために入力画像を解析処理することで、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定して、その判定結果をラベルとして出力する。なお、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定する手法としては、公知の画像解析技術を用いる。例えば、画像の解析により人を検出する技術を開示する文献として以下の公知文献１がある。
公知文献１：山内悠嗣、外２名、「[サーベイ論文] 統計的学習手法による人検出」、電子情報通信学会技術研究報告、vol.112、no.197、PRMU2012-43、pp.113-126、2012年9月

また、オブジェクト解析部３１は、入力画像内におけるオブジェクトの位置、オブジェクトを撮影したカメラ群３内の複数のカメラの位置及びその複数のカメラの撮影範囲（撮影方向及び画角）等の情報に基づいて、コート１０上の空間におけるオブジェクトの三次元位置を取得する。このオブジェクトの三次元位置を取得する手法としては、図示しない測距センサ（ＴｏＦ（Time of Flight）カメラなど）を用いる手法や、多視点カメラからの画像を利用する手法など公知の技術を用いる。また、カメラ群３で撮影した入力画像を表示装置５に表示させて、表示させた入力画像に基づいて、人が手入力により入力してもよい。また、オブジェクトの位置を特定する情報としては、三次元位置を特定する情報に替えて、コート１０上の位置をコート１０と平行な平面上の２次元座標で表して、その座標に基づいて２次元位置を特定する情報を用いてもよい。この２次元座標は、例えば、仮想視点１１に対応する点を原点とするものである。

オブジェクト情報格納部３０３は、オブジェクト解析部３１が抽出したオブジェクトに関する情報であるオブジェクト情報を、その撮影時刻に関連付けて格納する。オブジェクト情報は、オブジェクトを識別するＩＤと、オブジェクトの属性を示すラベルと、オブジェクトの三次元位置とを含む。

図３は、オブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。図３に示すように、入力画像の各フレームの撮影時刻ｔ、ｔ＋１、ｔ＋２、…に関連付けて複数のオブジェクト情報を格納している。撮影時刻ｔにおいては、オブジェクト１のオブジェクト情報として、ＩＤ１、ラベル１、三次元位置情報１が格納され、オブジェクト２のオブジェクト情報として、ＩＤ２、ラベル２、三次元位置情報２が格納されている。撮影時刻ｔ＋１、撮影時刻ｔ＋２においても、同じ情報が格納されている。

奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクト情報と、入力部３８から入力されるオブジェクト情報とを入力とする。奥行取得部３２は、オブジェクト情報格納部３０３よりオブジェクト情報を読み出して、各撮影時刻において、複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部３２は、仮想視点１１から特定した主オブジェクトまでの距離である奥行に関する奥行情報を取得し、出力する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトや、視聴者が注視する特定のオブジェクトなどである。

なお、主オブジェクトは１つのオブジェクトに限るものではなく、複数のオブジェクトを含むものであってもよい。主オブジェクトが複数のオブジェクトを含む場合は、奥行取得部３２は、例えば、仮想視点１１から特定した主オブジェクトである複数のオブジェクトまでの奥行の平均値を、主オブジェクトまでの奥行として出力する。奥行取得部３２は、複数のオブジェクトまでの奥行の平均値を求める方法以外にも、仮想視点１１から各オブジェクトまでの距離に重み係数を乗算してから加算平均して、主オブジェクトまでの奥行とする方法を用いてもよい。重み係数は、複数のオブジェクトにおける、仮想視点１１との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。

また、奥行取得部３２は、仮想視点１１から主オブジェクトまでの距離を奥行として取得したが、この限りではなく、仮想視点１１から全てのオブジェクトまでの距離の平均を奥行として取得してもよい。この場合も、仮想視点１１から各オブジェクトまでの距離に重み係数を乗算してから加算平均して奥行を取得してもよい。重み係数は、複数のオブジェクトにおける、仮想視点１１との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。

奥行取得部３２は、予め各撮影時刻における主オブジェクトを特定しておく。具体的には、仮想全天球画像を作成するコンテンツ作成者が、各撮影時刻において視聴者が注視すると推定される領域又は視聴者が注視すると推定されるオブジェクトを特定する情報を入力部３８から入力する。これにより、奥行取得部３２は、入力された情報に基づいて、各撮影時刻における主オブジェクトを特定する。奥行取得部３２において、主オブジェクトを特定する方法は、上述した方法に限定されるものではなく、色々な方法を用いてよい。例えば、撮影した入力画像における見る人の関心の度合いを示す顕著度を各画素で表したマップであるＳａｌｉｅｎｃｙＭａｐ（サリエンシーマップ）を奥行取得部３２に入力する。奥行取得部３２では、入力されたＳａｌｉｅｎｃｙＭａｐに基づいて、視覚的に顕著な領域に存在するオブジェクトを主オブジェクトとして特定しても良い。また、予め被験者に入力画像である動画を視聴させ、各撮影時刻においてどの領域を見ていたかという視聴ログを獲得し、その視聴ログを奥行取得部３２に入力し、入力された視聴ログに基づいて主オブジェクトを特定しても良い。

なお、ＳａｌｉｅｎｃｙＭａｐの求め方は公知の技術であり、例えば、以下の公知文献２に記載の技術を用いても良い。
公知文献２：Laurent Itti, Christof Koch, and Ernst Niebur,”A Model of Saliency-Based Visual Attention for Rapid Scene Analysis”,IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259 (1998)

合成情報テーブル３０４は、入力画像から仮想視点１１を含む領域を切り出すための切り出し領域に関する情報である切出領域情報と、その切り出し領域に応じて切り出した画像を部分画像に変換するための情報である変換情報とを含む合成情報を格納する。部分画像は、切り出した画像を背景画像２０の対応領域に違和感なく貼り付けるために、切り出した画像に対して上記変換情報に応じて拡大、縮小、回転等の変形処理を行って生成される。この変形処理は、例えば、画像に対してアフィン変換を施すことによって行う。画像に対してアフィン変換を施す場合の変換情報は、例えばアフィン変換行列である。以下、部分領域画像に対して行う変形処理としてアフィン変換を用いる例を示すが、変形処理はアフィン変換に限定される必要はなく、変換情報に応じて拡大、縮小、回転等による画像の変換を行う処理であればどのような処理であってもよい。合成情報テーブル３０４は、カメラ群３において処理対象となる入力画像を撮影したカメラを特定するカメラコードと、仮想視点１１からの奥行と、その奥行に応じたアフィン変換行列である変換情報と、その奥行に応じた切出領域情報とを対応づけて格納するテーブルである。

アフィン変換行列は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、仮想視点１１から複数種類の距離（奥行）の位置に格子模様のチェスボードを設置して、仮想視点１１に設置した全天球カメラ２で撮影したチェスボードを含む画像と、カメラ群３で撮影したチェスボードを含む画像とを比較する。そして両画像において、撮影したチェスボードの各格子が対応するように画像を変換するアフィン変換行列を求める。このようにして、チェスボードを設置した奥行に対応したアフィン変換行列を求める。

切出領域情報は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、カメラ群３の内の隣接する２つのカメラで撮影された入力画像に同一の被写体（チェスボード）が存在する重複している領域がある場合は、一方の領域のみ残るように双方のカメラの画像に対する切り出し領域を設定する。切り出し領域は、仮想視点１１から被写体（チェスボード）まで複数種類の距離について、カメラ群３に含まれるカメラ毎に求める。なお、双方のカメラの画像において、数画素〜数十画素の幅の重複領域を残すように切り出し領域を設定してもよい。

合成情報取得部３３は、奥行取得部３２が取得した奥行を入力とし、入力された奥行に基づいて、合成情報テーブル３０４から、カメラ群３の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得して、出力する。なお、合成情報テーブル３０４に格納されている奥行は数種類〜数十種類なので、奥行取得部３２が取得した奥行と同じ値の奥行のテーブルが無い場合が想定される。このような場合は、合成情報取得部３３は、奥行取得部３２が取得した奥行の前後の値となる合成情報テーブル３０４に記録済の２つの奥行の値に対応する合成情報（切出領域情報及び変換情報）を用いて、奥行取得部３２が取得した奥行に対応する合成情報を算出する。具体的には、上記記録済の２つの奥行の値に対応する切出領域情報の切り出し領域の座標値を線形補間することにより、その中間に位置する切り出し領域を特定する。上記記録済の２つの奥行の値に対応するアフィン変換行列の各係数を線形補間することにより、その中間値となるアフィン変換行列を算出する。

入力画像格納部３０１は、各カメラを特定するカメラコードに関連付けてカメラ群３の各カメラで撮影した入力画像を格納する。入力画像は、撮影時刻及び動画の画像データを含む。入力画像格納部３０１は、例えば、図１４（Ｂ）に示す入力画像２１を、カメラ３−１を特定するカメラコードに関連付けて格納し、入力画像２２を、カメラ３−３を特定するカメラコードに関連付けて格納し、入力画像２３を、カメラ３−３を特定するカメラコードに関連付けて格納する。

背景画像格納部３０２は、全天球カメラ２で撮影した全天球画像である背景画像２０を格納する。背景画像格納部３０２は、例えば、コート１０内の仮想視点１１に設置した全天球カメラ２で撮影した図１４（Ａ）に示す背景画像２０を格納する。格納する背景画像２０は、１フレーム分の画像データでも所定時間分の動画の画像データでもよい。所定時間分の画像データを格納する場合は、背景画像２０において周期的に変化する部分（例えば電光掲示板が映っている部分があり、かつ、電光掲示板の表示内容が周期的に変化している部分。）があれば、その周期に応じた時間分の画像データを背景画像２０として格納すればよい。

画像処理装置３０が全天球カメラ２から背景画像２０を取得する構成はどのような構成であってもよい。例えば、画像処理装置３０が全天球カメラ２と有線又は無線で通信可能な通信部を備えて、その通信部を介して背景画像２０を取得する構成であってもよい。また、全天球カメラ２に着脱可能な記録媒体を用いて当該記録媒体に背景画像２０を記録して、記録後の記録媒体を画像処理装置３０に接続して、画像処理装置３０が記録媒体から背景画像２０を読み出す構成により、背景画像２０を取得する構成であってもよい。また、画像処理装置３０が、カメラ群３から入力画像を取得する構成も全天球カメラ２の場合と同様にどのような構成であってもよい。

画像入力部３４は、入力画像格納部３０１に格納された入力画像と、背景画像格納部３０２に格納された背景画像２０とを入力とする。画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する。画像切り出し部３５は、画像入力部３４が出力する入力画像と、合成情報取得部３３が出力する合成情報とを入力とする。画像切り出し部３５は、合成情報取得部３３から入力された合成情報に含まれる切出領域情報に基づいて、カメラ群３の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像切り出し部３５は、例えば、図１４（Ｂ）に示す入力画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出す処理を行う。

画像合成部３６は、画像入力部３４が出力する背景画像２０と、画像切り出し部３５が切り出した画像と、合成情報取得部３３が取得した合成情報とを入力とし、画像切り出し部３５が切り出した画像に対して、合成情報取得部３３が取得した合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて、背景画像２０に貼り付けて合成することで仮想全天球画像を生成し、出力する。なお、アフィン変換行列は、背景画像２０において部分画像を貼り付ける領域を示す情報を含む。画像合成部３６は、生成した仮想全天球画像を画像サーバ６へ送信する機能を有する。

画像合成部３６は、例えば、図１４（Ｂ）に示す入力画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出した画像に対して、アフィン変換行列に基づいた変形処理を行うことで、部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像合成部３６は、例えば、背景画像２０に対して、部分画像２１１ａ、２２１ａ、２３１ａを所定の領域に貼り付けて合成することで図１４（Ｃ）に示す仮想全天球画像２４を生成する。

部分画像を背景画像２０に貼り付けて仮想全天球画像２４を生成した際に、隣り合う部分画像間の境界領域において重複が発生する場合がある。図４は、隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。図４に示すように、仮想全天球画像２４に貼り付けた部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している。なお、図４に示す部分画像２１１ｂと部分画像２２１ｂが、図１４（Ｃ）に示した部分画像２１１ａ及び部分画像２２１ａと比較して異なる点は、両画像に重複する領域がある点である。

図４に示すように、部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している場合には、画像合成部３６は、重複している境界領域２５に対して以下に示すブレンディング（Ｂｌｅｎｄｉｎｇ）処理を行う。画像合成部３６は、Ｂｌｅｎｄｉｎｇパラメータαを定め、（式１）に基づいて重複している境界領域２５の各ピクセルの値を算出する。
ｇ（ｘ、ｙ）＝αＩ_ｉ（ｘ、ｙ）＋（１−α）Ｉ_ｉ＋１（ｘ、ｙ） … （式１）

（式１）において、ｘ、ｙは、仮想全天球画像２４上における水平方向、垂直方向の座標である。ｇ（ｘ、ｙ）は、重複している境界領域２５内の座標（ｘ、ｙ）の画素値の値である。Ｉ_ｉ（ｘ、ｙ）とＩ_ｉ＋１（ｘ、ｙ）は、カメラ群３内のカメラ３−ｉおよびカメラ３−（ｉ＋１）（ｉは１≦ｉ≦Ｎ−１となる整数。）によって撮影された入力画像に基づいて、生成された部分画像の座標（ｘ、ｙ）の画素値の値を表す。また、このαの値は重複している境界領域２５で一定であるが、以下の（式２）に示すように変化させてもよい。
α（ｘ）＝（ｘ−ｘ_ｓ）／（ｘ_ｅ−ｘ_ｓ） … （式２）
（式２）において、ｘ_ｓおよびｘ_ｅは、図４に示すように重複している境界領域２５の両端のｘ座標であり、ｘ_ｓ＜ｘ_ｅである。

表示処理部３７は、画像合成部３６が出力する仮想全天球画像を入力とし、入力された仮想全天球画像を表示装置５において表示可能な映像信号に変換して出力する。仮想全天球画像２４は、図１４（Ｃ）に示す通り、歪みを含む画像であり、かつ、仮想視点１１を中心とする３６０度の景色を含む画像であるので、表示処理部３７は、仮想全天球画像から表示装置５に表示させる範囲の画像を切り出して、切り出した画像の歪みを補正する機能を有する。

画像処理装置３０は、入力画像格納部３０１及び背景画像格納部３０２を備える構成としたが、これに限定されるものではない。例えば、入力画像格納部３０１及び背景画像格納部３０２を備える画像格納装置を別に設け、画像処理装置３０は、画像格納装置から入力画像格納部３０１及び背景画像格納部３０２を取得する構成であってもよい。また、画像処理装置３０は、背景画像格納部３０２を備え、入力画像格納部３０１を備えずに、カメラ群３から入力される入力画像をリアルタイムで取得して、取得した入力画像を順次処理する構成としてもよい。

次に、画像処理システム１Ａにおいて１フレームの仮想全天球画像を作成する動作について説明する。図５は、第１の実施形態における画像処理装置３０が１フレームの仮想全天球画像を作成する動作を示すフロー図である。図５に示す動作は、各撮影時刻における仮想全天球画像を生成する処理の前に、予めオブジェクト情報、合成情報、背景画像２０及び入力画像を取得する処理も含まれる。

仮想視点１１に全天球カメラ２を設置し、仮想視点１１から所定の距離（奥行）にチェスボードを設置した後に、全天球カメラ２は、チェスボードを含む全天球画像を撮影する（ステップＳ１０１）。全天球カメラ２を仮想視点１１から取り去って、カメラ群３の各カメラで、仮想視点１１及びチェスボードを含む撮影範囲を撮影し、全天球カメラ２で撮影された全天球画像に含まれるチェスボードと、カメラ群３内の一つのカメラで撮影された画像に含まれるチェスボードとを対応させるための合成情報を求める（ステップＳ１０２）。なお、ステップＳ１０１、１０２におけるチェスボードの撮影は、仮想視点１１から複数種類の距離にチェスボードを設置して行われる。

仮想視点１１に全天球カメラ２を設置した後に、全天球カメラ２は、背景画像２０を撮影する（ステップＳ１０３）。撮影された背景画像２０は、背景画像格納部３０２に格納される。全天球カメラ２を仮想視点１１から取り去った後であって、例えば競技開始と共に、カメラ群３は撮影を開始する。これにより、画像処理装置３０は、カメラ群３が撮影した入力画像を入力画像格納部３０１に格納する。オブジェクト解析部３１は、入力画像格納部３０１から入力画像を読み出して解析処理し、解析結果をオブジェクト情報格納部３０３に格納する。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定する。奥行取得部３２は、仮想視点１１から特定した主オブジェクトまでの奥行情報を取得する（ステップＳ１０４）。

合成情報取得部３３は、奥行取得部３２が取得した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する（ステップＳ１０５）。ステップＳ１０５において、合成情報取得部３３は、奥行取得部３２が取得した奥行と同じ値の奥行のテーブルが無い場合は、奥行取得部３２が取得した奥行の前後の値となる奥行に対応する合成情報に基づいて、奥行取得部３２が取得した奥行に対応する合成情報を求める。

画像切り出し部３５は、合成情報取得部３３が取得した合成情報に含まれる切出領域情報に基づいて、カメラ群３の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて、背景画像２０に貼り付けて合成することで仮想全天球画像を生成する（ステップＳ１０６）。

画像合成部３６は、背景画像２０に貼り付ける２つの部分画像間の境界領域において重複している場合には、重複している境界領域に対してブレンディング処理を行う（ステップＳ１０７）。画像合成部３６が生成した仮想全天球画像は、例えば、画像サーバ６に蓄積される。画像サーバ６は、視聴装置８からの視聴要求に応じて蓄積した仮想全天球画像をネットワーク７経由で配信する。

上述した画像処理システム１Ａの動作の変形例として、カメラ群３で撮影した入力画像をリアルタイムで背景画像２０に合成して仮想全天球画像を生成する動作について説明する。リアルタイムで仮想全天球画像を生成する場合、画像処理システム１Ａは、図５の処理において、ステップＳ１０１〜Ｓ１０３までの処理を事前に行い、ステップＳ１０４以降の処理をリアルタイムで行う。ここでリアルタイムで仮想全天球画像を生成するとは、例えば、入力画像が１秒間に６０フレームを有する動画像であれば、画像処理システム１Ａが、その動画像の入力画像を処理して、１秒間に６０フレームを有する仮想全天球画像を生成することである。

次に、第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明する。図６は、第１の実施形態における画像処理装置３０が動画の仮想全天球画像を作成する動作について説明するフロー図である。図６の動作においては、図５に示したステップＳ１０１〜ステップＳ１０４における入力画像の撮影までの処理は既に終えているものとする。図６に示すように、画像処理装置３０は、最初の撮影時刻のフレームに対する処理を開始する（ステップＳ２０１）。

画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する（ステップＳ２０２）。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定して、特定した主オブジェクトまでの奥行を取得する（ステップＳ２０３）。

合成情報取得部３３は、奥行取得部３２が取得した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する合成情報を取得する（ステップＳ２０４）。画像切り出し部３５は、合成情報取得部３３が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成して、仮想全天球画像を生成する（ステップＳ２０５）。画像処理装置３０は、次の撮影時刻の入力画像があればステップＳ２０１に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する（ステップＳ２０６）。

以上に説明したように、第１の実施形態における画像処理装置３０は、視聴者が注目する主オブジェクトに対応した奥行を求めて、求めた奥行に対応した部分画像を生成し、生成した部分画像を背景画像２０に貼り付けることで仮想全天球画像を生成することができる。これにより、第１の実施形態における画像処理装置３０は、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第１の実施形態における画像処理装置３０は、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

第１の実施形態における画像処理装置３０は、仮想全天球画像を生成する場合以外にも、例えば、カメラ３−１及びカメラ３−２からの２つの入力画像を合成して、仮想視点１１から撮影したかのような仮想視点画像を生成する場合にも対応できる構成としてもよい。要は、画像合成部３６は、部分画像を背景画像２０への貼り付ける処理を必ずしも行う必要はない。この場合、第１の実施形態における画像処理装置３０と同様に、２つの入力画像に含まれる主オブジェクトに基づいた奥行を取得し、この取得した奥行に基づいて合成情報取得部３３が合成情報を取得する。

（第２の実施形態）
第２の実施形態における画像処理システムの構成例について説明する。
図７は、第２の実施形態における画像処理システムの構成例を示す図である。図７に示すとおり、第２の実施形態における画像処理システム１Ｂは、図１に示した第１の実施形態における画像処理システム１Ａとほぼ同じ構成であり、図１と機能等が異なる構成要素には図１と異なる符号を付与している。

ＨＭＤ８２Ａは、図１に示したＨＭＤ８２が有する機能に加えて、画面に表示中の被写体の範囲を示す仮想視点１１からの視野を検出する機能と、検出した視野に関する情報である視野情報をユーザ端末８１Ａに送信する機能とをさらに備える。ユーザ端末８１Ａは、図１に示したユーザ端末８１が有する機能に加えて、ＨＭＤ８２Ａから受信した視野情報をネットワーク７経由で画像サーバ６Ａに送信する機能をさらに備える。画像サーバ６Ａは、図１に示した画像サーバ６が有する機能に加えて、ユーザ端末８１Ａから受信した視野情報を画像処理システム１Ｂに送信する機能をさらに備える。

第２の実施形態における画像処理システム１Ｂは、ユーザ端末８１Ａ、ネットワーク７及び画像サーバ６Ａを経由してＨＭＤ８２Ａから受信した視野情報に基づいて主オブジェクトを特定する点が第１の実施形態における画像処理システム１Ａとは異なる。第２の実施形態における画像処理システム１Ｂは、受信した視野情報を用いることで、第１の実施形態の画像処理システム１Ａと比べて、視聴者が注目する領域又は主オブジェクトを精度良く特定することを目的としている。

次に、第２の実施形態における画像処理システム１Ｂが備える画像処理装置３０Ａの構成例について説明する。
図８は、第２の実施形態における画像処理装置３０Ａの構成例を示す図である。図８に示す画像処理装置３０Ａは、図２に示した第１の実施形態における画像処理装置３０と比較すると、オブジェクト解析部３１Ａと、奥行取得部３２Ａと、オブジェクト情報格納部３０３Ａとを備え、奥行に関する情報を入力する入力部３８を備えていない点で異なる。画像処理装置３０Ａにおいて、図２に示した画像処理装置３０と同じ構成部分には、同じ符号を付与して、それらの説明は簡略化又は省略する。画像処理装置３０Ａは、ＨＭＤ８２Ａを含む視聴装置８Ａからネットワーク７及び画像サーバ６Ａを介して視聴者の視野情報を受信する機能を有する。

図８に示すように、画像処理装置３０Ａは、オブジェクト解析部３１Ａと、奥行取得部３２Ａと、合成情報取得部３３と、画像入力部３４と、画像切り出し部３５と、画像合成部３６と、表示処理部３７と、カメラ群３の各カメラが撮影した入力画像を格納する入力画像格納部３０１と、背景画像２０を格納する背景画像格納部３０２と、オブジェクト情報格納部３０３Ａと、合成情報テーブル３０４とを備える。

オブジェクト解析部３１Ａは、画像サーバ６Ａ等を経由したＨＭＤ８２Ａからの視野情報と、入力画像格納部３０１に格納されている入力画像とを入力とし、オブジェクト情報を出力する。オブジェクト解析部３１Ａは、図２に示したオブジェクト解析部３１の機能に加えて、ＨＭＤ８２Ａから受信した視野情報に基づいて、オブジェクトを解析する機能をさらに備える。オブジェクト情報格納部３０３Ａは、図２に示したオブジェクト情報格納部３０３が格納する情報に加えて、視野情報に基づいた解析結果に関する情報をさらに格納する。奥行取得部３２Ａは、図２に示した奥行取得部３２の機能に加えて、ＨＭＤ８２Ａから受信した視野情報に基づいて、主オブジェクトを特定する機能をさらに備える。

奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａに格納されているオブジェクト情報と、画像サーバ６Ａから入力される視野情報とを入力とする。奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａよりオブジェクト情報を読み出して、各撮影時刻において、視野に含まれる複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部３２Ａは、仮想視点１１から特定した主オブジェクトまでの距離である奥行に関する奥行情報を取得し、出力する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトである。

奥行取得部３２Ａは、入力された視野情報と、オブジェクト情報格納部３０３Ａから参照するオブジェクト情報との少なくとも一つに基づいて主オブジェクトを特定する。以下の説明において、視野情報に基づいて主オブジェクトを特定する方法として、「第１の方法」〜「第４の方法」の４種類の方法について説明する。主オブジェクトは１つのオブジェクトに限るものではなく、複数のオブジェクトを含むものであってもよい。

主オブジェクトが複数のオブジェクトを含む場合は、奥行取得部３２Ａは、例えば、仮想視点１１から特定した主オブジェクトである複数のオブジェクトまでの奥行の平均値を、主オブジェクトまでの奥行として出力する。あるいは、奥行取得部３２Ａは、仮想視点１１から主オブジェクトである各オブジェクトまでの距離に重み係数を乗算してから加算平均して奥行として出力する方法を用いてもよい。重み係数は、複数のオブジェクトにおける、仮想視点との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。詳細は後述する。

なお、主オブジェクトを特定する方法は、「第１の方法」〜「第４の方法」の４種類の方法に限定されるものではなく、視聴者の注視する領域又はオブジェクトを推定（又は特定）して、その推定（又は特定）した領域にあるオブジェクト又は推定（又は特定）したオブジェクトを主オブジェクトとする構成であればよい。例えば、ボールを用いた競技の映像であれば、「ボール」のラベルを有するオブジェクトが存在する領域を視聴者が注視する領域として推定し、推定した領域に含まれるオブジェクトであって「人」のラベルを有するオブジェクトを主オブジェクトとする構成でもよい。

合成情報取得部３３は、奥行取得部３２Ａが取得した奥行に基づいて、合成情報テーブル３０４から、カメラ群３の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する。なお、合成情報取得部３３は、合成情報テーブル３０４に格納されている奥行は数種類〜数十種類なので、奥行取得部３２Ａが取得した奥行と同じ値のテーブルが無い場合が想定される。このような場合は、合成情報取得部３３は、奥行取得部３２Ａが取得した奥行の前後の値となる合成情報テーブル３０４に記録済の２つの奥行の値を用いて、奥行取得部３２Ａが取得した奥行に対応する合成情報を算出する（例えば線形補間等により算出する）。

（第１の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第１の方法」について説明する。
図９は、第２の実施形態における視野情報に基づいて主オブジェクトを特定する第１の方法を示す図である。図９に示すように、コート１０内の仮想視点１１の周りに、４つのオブジェクトＯＢ−１〜ＯＢ−４が存在する。このオブジェクトＯＢ−１〜ＯＢ−４は、例えば競技を行っている選手であり、「人」のラベルを有してオブジェクト情報格納部３０３Ａに格納されている。

破線６０で挟まれている領域が、ＨＭＤ８２Ａで利用者が視聴している視野の範囲を示している。「第１の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報を含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視線に関する情報とを含む。

まず、奥行取得部３２Ａは、視野情報に基づいて視野の中心となる中心線６１を求める。次に、奥行取得部３２Ａは、オブジェクト情報に基づいて、中心線６１に最も近い位置に存在するオブジェクトＯＢ−４を主オブジェクトとして特定する。次に、奥行取得部３２Ａは、仮想視点１１から主オブジェクトであるオブジェクトＯＢ−４までの距離を奥行として取得する。点線６２は、奥行取得部３２Ａが取得した奥行を示す。このようにして、奥行取得部３２Ａは、視野情報及びオブジェクト情報に基づいて主オブジェクトを特定して、主オブジェクトまでの奥行を取得する。

図１０は、図９に示すオブジェクトにおいて奥行取得部３２Ａが中心線６１（仮想視点１１に視聴者がいると仮定した場合の、視聴者の視線に相当）に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。図１０に示すように、奥行取得部３２Ａは、各オブジェクトＯＢ−１〜ＯＢ−４から中心線６１に対して垂線６３−１〜６３−４を引き、その垂線の長さが最短のオブジェクトを主オブジェクトとして特定する。図１０の例では、奥行取得部３２Ａは、垂線６３−４が最も短いので、オブジェクトＯＢ−４を主オブジェクトとして特定する。

また、奥行取得部３２Ａは、中心線６１に１番目に近い位置にあるオブジェクトＯＢ−４と、２番目に近い位置にあるオブジェクトＯＢ−１との２つのオブジェクトを主オブジェクトとして特定してもよい。この場合は、奥行取得部３２Ａは、仮想視点１１からオブジェクトＯＢ−１までの距離と、仮想視点１１からオブジェクトＯＢ−４までの距離との平均を奥行として取得する。また、奥行取得部３２Ａは、仮想視点１１からオブジェクトＯＢ−１までの距離と、仮想視点１１からオブジェクトＯＢ−４までの距離とに重み係数を乗算してから加算平均して奥行としてもよい。重み係数は、中心線６１からオブジェクトＯＢ−１、オブジェクトＯＢ−４までの距離に応じて設定される値である。具体的には、中心線６１から各オブジェクトまでの距離が短い程大きな値となるような重み係数を設定する。

「第１の方法」を用いることで、視聴者が注視している可能性の高い視野の中心線付近に位置するオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。第２の実施形態における画像処理装置３０Ａは、視聴者の注目する被写体（オブジェクト）の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。なお、「第１の方法」を行う場合は、オブジェクト解析部３１Ａ及びオブジェクト情報格納部３０３Ａは、視野情報に応じたオブジェクトの解析等を行う必要がないので、図２に示したオブジェクト解析部３１及びオブジェクト情報格納部３０３と同じ構成であってもよい。

（第２の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第２の方法」について説明する。「第２の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４内に存在する全てのオブジェクトの内、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報と、視野内のオブジェクトの顕著度とを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視野に関する情報とを含む。

図９と同じ配置でオブジェクトＯＢ−１〜ＯＢ−４が存在し、視野も破線６０で示す範囲である場合に、オブジェクト解析部３１Ａは、視野内に存在する入力画像に対してＳａｌｉｅｎｃｙＭａｐ（サリエンシーマップ）を作成して、入力画像に含まれる各オブジェクトに顕著度（重要度）を付与する。具体的には、オブジェクト解析部３１Ａは、視野に含まれる入力画像における人の関心の度合いである顕著度を各画素で表したマップ、あるいは、画素毎の顕著度に基づいてクラスタリングした領域別の顕著度を表したマップであるＳａｌｉｅｎｃｙＭａｐを作成する。入力画像における人の関心の度合いとは、人が入力画像を見た場合に関心を持つ度合いのことであり、例えば、入力画像に人の顔の画像の領域があれば、その領域は人が関心をもつ領域であり顕著度が高くなる。

オブジェクト解析部３１Ａは、作成したＳａｌｉｅｎｃｙＭａｐに基づいて、各オブジェクトに対応する顕著度を付与し、オブジェクト情報として出力する。ここで、顕著度は、例えば、０〜４の数値であり大きな値を有するオブジェクトほど顕著なオブジェクトである。オブジェクト情報格納部３０３Ａは、各オブジェクトの三次元位置の情報と、オブジェクト解析部３１Ａが各オブジェクトに付与した顕著度とを含むオブジェクト情報を入力とし、入力されたオブジェクト情報を格納する。

図１１は、ＳａｌｉｅｎｃｙＭａｐの具体例を示す図である。図１１においては、図９のオブジェクトＯＢ−１を含む入力画像と、図９のオブジェクトＯＢ−４を含む入力画像とに基づいて作成されたＳａｌｉｅｎｃｙＭａｐ１１０、１１１を示している。また、図１１に示すＳａｌｉｅｎｃｙＭａｐは、顕著度に応じて濃度が決まっており、濃度が薄い程その領域の顕著度が高い。ＳａｌｉｅｎｃｙＭａｐ１１０において、領域１１０Ａは他の領域よりも濃度が薄く顕著度＝３であり、その他の斜線部分の領域は顕著度＝０である。ＳａｌｉｅｎｃｙＭａｐ１１１において、領域１１１Ａは他の領域よりも濃度が薄く顕著度＝４であり、その他の斜線部分の領域は顕著度＝０である。

ＳａｌｉｅｎｃｙＭａｐ１１０の領域１１０Ａは、オブジェクトＯＢ−１に対応した領域であることから、オブジェクト解析部３１Ａは、オブジェクトＯＢ−１に顕著度＝３を付与する。ＳａｌｉｅｎｃｙＭａｐ１１１の領域１１１Ａは、オブジェクトＯＢ−４に対応した領域であることから、オブジェクト解析部３１Ａは、オブジェクトＯＢ−４に顕著度＝４を付与する。そして、奥行取得部３２Ａは、オブジェクト情報格納部３０３Ａからオブジェクト情報を参照して、顕著度が最も高いオブジェクトＯＢ−４を主オブジェクトとして特定する。奥行取得部３２Ａは、特定した主オブジェクトのオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点１１の位置に関する情報とに基づいて奥行を取得し、出力する。

オブジェクト解析部３１Ａは、カメラ群３の各カメラからの入力画像に対し、各入力画像の画素毎に顕著度を付与したＳａｌｉｅｎｃｙＭａｐを作成する。オブジェクト解析部３１Ａは、作成したＳａｌｉｅｎｃｙＭａｐに基づいて、各オブジェクトに顕著度を付与する。なお、奥行取得部３２Ａは、各オブジェクトの顕著度に応じた重み係数を、仮想視点１１から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。

オブジェクト解析部３１Ａは、入力画像中からオブジェクトＯｊの領域Ｒｉｊを特定し、入力画像に対応するＳａｌｉｅｎｃｙＭａｐにおける領域Ｒｉｊも特定する。オブジェクト解析部３１Ａは、ＳａｌｉｅｎｃｙＭａｐの各画素に対してＫ−ｍｅａｎｓ等のクラスタリング処理を行い、顕著度に応じた複数のクラスタに分類する。オブジェクト解析部３１Ａは、各クラスタに属する画素の顕著度に基づいて、各クラスタの顕著度を算出する。オブジェクト解析部３１Ａは、各領域Ｒｉｊに含まれるクラスタの顕著度に基づいて領域Ｒｉｊの顕著度を算出する。オブジェクト解析部３１Ａは、領域Ｒｉｊに対応するオブジェクトＯｊの顕著度を、複数のＳａｌｉｅｎｃｙＭａｐの領域Ｒｉｊの顕著度に基づいて算出する。上述したクラスタの顕著度、領域Ｒｉｊの顕著度及びオブジェクトＯｊの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。

オブジェクトＯｊの顕著度を算出する他の例として、オブジェクト解析部３１Ａは、領域Ｒｉｊに含まれる各画素の顕著度を算出し、各画素の顕著度に基づいて領域Ｒｉｊの顕著度を算出してもよい。オブジェクト解析部３１Ａは、各入力画像から得られる領域Ｒｉｊの顕著度に基づいて、オブジェクトＯｊの顕著度を算出する。本例における領域Ｒｉｊの顕著度及びオブジェクトＯｊの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。なお、添え字ｊはオブジェクトを特定する数字であり、添え字ｉは、カメラ３−１〜３−Ｎのいずれかを特定するカメラ３−ｉ（１≦ｉ≦Ｎ）を示す。

「第２の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、視野内で最も顕著度の高いオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。これにより、視聴者が視野の中央から離れた周辺領域に存在する特徴的な被写体を注視した場合に対応することができる。「第２の方法」を用いた第２の実施形態における画像処理装置３０Ａは、視聴者の注目する被写体（オブジェクト）の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

（第３の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第３の方法」について説明する。「第３の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視野に関する情報とを含む。

図９と同じ配置でオブジェクトＯＢ−１〜ＯＢ−４が存在し、視野も破線６０で示す範囲である場合に、奥行取得部３２Ａは、視野内に存在する各オブジェクトのオブジェクト情報を、オブジェクト情報格納部３０３Ａより入力されたオブジェクト情報の中から抽出する。奥行取得部３２Ａは、抽出したオブジェクト情報のうち、視野内に存在する各オブジェクトのラベルを参照して「人」のラベルのオブジェクトがあれば、そのオブジェクトを主オブジェクトとして特定する。奥行取得部３２Ａは、特定した主オブジェクトのオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点１１の位置に関する情報とに基づいて奥行を取得し、出力する。

図９において視野に含まれているオブジェクトＯＢ−１のラベルが「物体Ａ」であり、オブジェクトＯＢ−４のラベルが「人」である。このような場合に、奥行取得部３２Ａは、オブジェクトＯＢ−４を特定オブジェクトとして特定する。なお、奥行取得部３２Ａは、各オブジェクトのラベルに応じた重み係数を、仮想視点１１から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。

「第３の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、「人」のラベルを有するオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。「第３の方法」を用いた第２の実施形態における画像処理装置３０Ａは、物の被写体と、人の被写体との双方が視野内に存在する場合に、視聴者が注目すると推定される人の被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

上述した「第１の方法」〜「第３の方法」において、奥行取得部３２Ａは、中心線６１からオブジェクトまでの距離に応じた重み係数、各オブジェクトの顕著度に応じた重み係数及び各オブジェクトのラベルに応じた重み係数のいずれかを用いて奥行を取得しているが、更に、オブジェクトの大きさに応じた重み係数、オブジェクトの動きに応じた重み係数を用いて奥行を取得する構成としてもよい。オブジェクト解析部３１Ａは、オブジェクトの大きさに関する情報であるサイズ情報と、オブジェクトの動きに関する情報である動き情報とを取得する機能を有する。

（第４の方法）
第２の実施形態における視野情報に基づいて主オブジェクトを特定する「第４の方法」について説明する。「第４の方法」では、奥行取得部３２Ａは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像２４として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報及び視野内のオブジェクトの顕著度と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点１１の位置に関する情報と、視聴者の視線及び視野に関する情報とを含む。

奥行取得部３２Ａは、上述した「第１の方法」〜「第３の方法」を複合した以下の（式３）に示すコスト関数Ｃｊを用いて、Ｃｊの値が最大（最大コスト）となるオブジェクトを主オブジェクトとして特定する。なお、ａ、ｂ、ｃは任意の係数。
Ｃｊ＝ａ／（オブジェクトＯｊの視野の中心線からの距離）＋ｂ×（オブジェクトＯｊの顕著度）＋ｃ×（オブジェクトＯｊのラベルが人か否か） … （式３）

「第４の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトの奥行に応じて、画像切り出し部３５及び画像合成部３６の処理を行うことができる。「第４の方法」を用いた第２の実施形態における画像処理装置３０Ａは、係数ａ、ｂ、ｃの値を調整することで、「第１の方法」〜「第３の方法」をそれぞれ単体で利用する場合より精度よく視聴者が注目するオブジェクトを推定することができる。よって、「第４の方法」を用いた第２の実施形態における画像処理装置３０Ａは、視聴者に注目される被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者に注目される被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

次に、第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する。図１２は、第２の実施形態における画像処理装置３０Ａが動画の仮想全天球画像を作成する動作について説明する図である。図１２の動作においては、図５に示したステップＳ１０１〜ステップＳ１０４における入力画像の撮影までの処理は既に終えているものとする。図１２に示すように、画像処理装置３０Ａは、最初の撮影時刻のフレームに対する処理を開始する（ステップＳ３０１）。

画像入力部３４は、入力画像格納部３０１から入力画像を取得し、背景画像格納部３０２から背景画像２０を取得して、入力画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する（ステップＳ３０２）。画像処理装置３０Ａは、ＨＭＤ８２Ａを含む視聴装置８Ａからネットワーク７及び画像サーバ６Ａを介して視聴者の視野情報を取得する。オブジェクト解析部３１Ａは、ＨＭＤ８２Ａから受信した視野情報に基づいて、入力画像に含まれるオブジェクトを解析して、各オブジェクトに関する情報であるラベル、三次元位置情報及び顕著度等を取得する（ステップｓ３０３）。

奥行取得部３２Ａは、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、オブジェクト情報及び視野情報に基づいて主オブジェクトを特定して、特定した主オブジェクトまでの奥行を取得する（ステップＳ３０４）。

合成情報取得部３３は、奥行取得部３２Ａが取得した奥行に基づいて、合成情報テーブル３０４から、各入力画像に対応する合成情報を取得する（ステップＳ３０５）。画像切り出し部３５は、合成情報取得部３３が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成して、仮想全天球画像を生成する（ステップＳ３０６）。画像処理装置３０Ａは、次の撮影時刻の入力画像があればステップＳ３０１に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する（ステップＳ３０７）。

以上に説明したように、第２の実施形態における画像処理装置３０Ａは、視野情報を考慮して視聴者が注目する主オブジェクトを特定し、特定した主オブジェクトの奥行を求めて、求めた奥行に対応した部分画像の生成し、生成した部分画像を背景画像２０に貼り付けることで仮想全天球画像を生成することができる。これにより、第２の実施形態における画像処理装置３０Ａは、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第２の実施形態における画像処理装置３０Ａは、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

なお、ＨＭＤ８２Ａは、視聴者の視線を検出する機能と、検出した視聴者の視線に関する情報である視線情報をユーザ端末８１Ａに送信する機能とをさらに備えてもよい。この場合には、ユーザ端末８１Ａは、ＨＭＤ８２Ａから受信した視線情報をネットワーク７経由で画像サーバ６Ａに送信する機能をさらに備える。画像サーバ６Ａは、ユーザ端末８１Ａから受信した視線情報を画像処理システム１Ｂに送信する機能をさらに備える。画像処理システム１Ｂは、視野に関する情報に加えて視線情報も考慮して、主オブジェクトを選択する。

上述した第１の実施形態の画像処理システム１Ａ及び第２の実施形態の画像処理システム１Ｂは、仮想視点１１に設置した全天球カメラ２で撮影した全天球画像を背景画像２０としたが、仮想視点１１に広角で撮影可能な広角カメラを設置して撮影した広角画像を背景画像２０としてもよい。このような場合は、画像処理システム１Ａ又は画像処理システム１Ｂは、広角画像である背景画像２０に対して部分画像を合成することで仮想広角画像を生成する。ただし、視聴装置８又は視聴装置８Ａで視聴可能な範囲は、広角画像に含まれる広角カメラで撮影した範囲となる。

上述した第１の実施形態の画像処理装置３０及び第２の実施形態の画像処理装置３０Ａは、図２及び図８に具体的な構成を示したが、この構成に限定されるものではない。例えば、画像処理装置３０を、入力画像格納部３０１及び背景画像格納部３０２を備える画像蓄積装置と、オブジェクト解析部３１、オブジェクト情報格納部３０３、奥行取得部３２及び入力部３８を備える情報取得装置と、合成情報取得部３３、画像入力部３４、画像切り出し部３５、画像合成部３６、表示処理部３７及び合成情報テーブル３０４を備える画像合成装置とから構成してもよい。また、画像処理装置３０Ａを、入力画像格納部３０１及び背景画像格納部３０２を備える画像蓄積装置と、オブジェクト解析部３１Ａ、オブジェクト情報格納部３０３Ａ及び奥行取得部３２Ａを備える情報取得装置と、合成情報取得部３３、画像入力部３４、画像切り出し部３５、画像合成部３６、表示処理部３７及び合成情報テーブル３０４を備える画像合成装置とから構成されるようにしてもよい。

上述した第１の実施形態の画像処理システム１Ａ及び第２の実施形態の画像処理システム１Ｂは、全天球カメラ２を含む構成としたが、背景画像２０となる全天球画像を得ることができる構成であれば、全天球カメラ２を含まない構成でもよい。上述した第１の実施形態の画像処理装置３０及び第２の実施形態の画像処理装置３０Ａは、入力画像格納部３０１と、背景画像格納部３０２とを備える構成としたが、これに限定されるものではない。画像処理装置３０及び画像処理装置３０Ａは、入力画像格納部３０１及び背景画像格納部３０２を備えずに、入力画像格納部３０１及び背景画像格納部３０２を備える装置を別に設けてもよい。

第１の実施形態の視聴装置８及び第２の実施形態の視聴装置８Ａは、ＨＭＤ８２（又はＨＭＤ８２Ａ）を備える構成であったが、ＨＭＤに替えて携帯型の表示装置を備える構成であってもよい。携帯型の表示装置は、装置本体の動きを検出する検出部を備え、検出部が検出した装置本体の動きに応じて表示する映像の範囲である視野を変更する機能を有する。視聴装置８又は視聴装置８Ａは、携帯型の表示装置が通信機能や映像信号を処理する機能を有する場合は、ユーザ端末８１又はユーザ端末８１Ａを省略した構成としてもよい。

第１、第２の実施形態における画像処理システム１Ａ、１Ｂは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行のオブジェクト（人など）がシーン内に存在し、視聴している領域や注視しているオブジェクトの奥行と、部分画像を全天球画像に合成する際に設定した奥行とが必ずしも合わないという問題を解決することができる。

上述した第１の実施形態における画像処理装置３０又は第２の実施形態における画像処理装置３０Ａの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明の情報取得装置、情報取得方法及び情報取得プログラムは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行のオブジェクト（人など）がシーン内に存在する映像を仮想全天球映像として視聴者に視聴させるシステムを構築する場合に用いている。

１、１Ａ、１Ｂ…画像処理システム，２…全天球カメラ，３…カメラ群，３−１〜３−Ｎ…カメラ，４、３０、３０Ａ…画像処理装置，５…表示装置，６、６Ａ…画像サーバ，８、８Ａ…視聴装置，９、９Ａ…視聴システム，８２、８２Ａ…ＨＭＤ，２０…背景画像，３１、３１Ａ…オブジェクト解析部，３２、３２Ａ…奥行取得部，３３…合成情報取得部，３４…画像入力部，３５…画像切り出し部，３６…画像合成部，３０１…入力画像格納部，３０２…背景画像格納部，３０３、３０３Ａ…オブジェクト情報格納部，３０４…合成情報テーブル

Claims

所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、
前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、
前記情報取得部が取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、
前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得部と、
を備える情報取得装置。
２つの前記入力画像間において前記撮像装置の撮影範囲が重なっている重複領域がある場合に、前記画像合成処理は、設定された前記奥行に基づいて前記重複領域においてどちらか１つの入力画像のみ残るよう双方の入力画像に対して切り出し処理を行う請求項１に記載の情報取得装置。
前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、
前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野の中心線に最も近いオブジェクトを、前記主オブジェクトとして特定する請求項１又は請求項２に記載の情報取得装置。
前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、
前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野情報取得部が取得した前記視野情報で特定される前記視野に含まれるオブジェクトを前記主オブジェクトとして特定し、
前記奥行取得部は、前記オブジェクト特定部が特定した前記主オブジェクトに基づいて、前記視野の中心線から各主オブジェクトまでの距離に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項１又は請求項２に記載の情報取得装置。
前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部をさらに備え、
前記オブジェクト特定部は、前記顕著度付与部が各オブジェクトに付与した前記顕著度に基づいて、前記主オブジェクトを特定する請求項１又は請求項２に記載の情報取得装置。
前記オブジェクト特定部が前記顕著度に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトに付与された顕著度に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項５に記載の情報取得装置。
前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部をさらに備え、
前記オブジェクト特定部は、各オブジェクトの前記判定結果に基づいて、前記主オブジェクトを特定する請求項１又は請求項２に記載の情報取得装置。
前記オブジェクト特定部が前記判定結果に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトの判定結果に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項７に記載の情報取得装置。
前記情報取得部は、前記オブジェクトの大きさに関する情報であるサイズ情報又は前記オブジェクトの動きに関する情報である動き情報をさらに含むオブジェクト情報を取得し、
前記奥行取得部は、前記サイズ情報又は前記動き情報に応じた重み係数をさらに用いて前記主オブジェクトを特定する請求項４、６、８のいずれか一項に記載の情報取得装置。
前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部と、
前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部と、
前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部と、
をさらに備え、
前記オブジェクト特定部は、前記視野の中心線から各オブジェクトまでの距離、各オブジェクトに付与された前記顕著度及び前記各オブジェクトの前記判定結果の少なくともいずれか２つ以上に基づいて、主オブジェクトを特定する請求項１又は請求項２に記載の情報取得装置。
前記広角画像は全天球画像である請求項３、４、１０のいずれか一項に記載の情報取得装置。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、
前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、
前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、
前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、
を有する情報取得方法。
所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも２つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置で実行される情報取得プログラムであって、
前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、
前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、
前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、
をコンピュータに実行させるための情報取得プログラム。