JP2017102686A - 情報取得装置、情報取得方法及び情報取得プログラム - Google Patents

情報取得装置、情報取得方法及び情報取得プログラム Download PDF

Info

Publication number
JP2017102686A
JP2017102686A JP2015235177A JP2015235177A JP2017102686A JP 2017102686 A JP2017102686 A JP 2017102686A JP 2015235177 A JP2015235177 A JP 2015235177A JP 2015235177 A JP2015235177 A JP 2015235177A JP 2017102686 A JP2017102686 A JP 2017102686A
Authority
JP
Japan
Prior art keywords
image
information
depth
information acquisition
virtual viewpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015235177A
Other languages
English (en)
Other versions
JP6450305B2 (ja
Inventor
康輔 高橋
Kosuke Takahashi
康輔 高橋
弾 三上
Dan Mikami
弾 三上
麻理子 五十川
Mariko Isogawa
麻理子 五十川
明 小島
Akira Kojima
明 小島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015235177A priority Critical patent/JP6450305B2/ja
Publication of JP2017102686A publication Critical patent/JP2017102686A/ja
Application granted granted Critical
Publication of JP6450305B2 publication Critical patent/JP6450305B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

【課題】仮想視点画像の画質の低下を抑制する奥行を設定することができる情報取得装置、情報取得方法及び情報取得プログラムを提供する。
【解決手段】2つの撮像装置が撮影した複数の入力画像を取得し、所定の位置を仮想的な視点である仮想視点としてその仮想視点に対して設定された奥行に基づいて複数の入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、取得したオブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、主オブジェクトと仮想視点との距離に基づいて、入力画像を合成するために設定される仮想視点からの奥行を取得する奥行取得部とを備える。
【選択図】図2

Description

本発明は、複数のカメラからの画像データを処理する情報取得装置、情報取得方法及び情報取得プログラムに関する。
近年、周囲360度を含む全天の画像である全天球画像を撮影できるカメラ(以下、全天球カメラという。)およびその全天球画像の視聴において利用者が向いた方向を視聴することができるヘッドマウントディスプレイ(HMD)が普及し始めている。そして、ネットワークを介して全天球画像を配信するサービスが注目を集めている。上記のような全天球画像は、HMDで視聴することで高い臨場感を得ることができ、スポーツやアーティストのライブ等のコンテンツの視聴における利用が期待されている。
一般に、これらの全天球画像は、所望の視点に全天球カメラを設置することで撮影することができる。しかしながら、競技中のサッカーコートの中やバスケットコートの中は、全天球カメラを設置しようとすると競技者の邪魔となるため、全天球カメラを設置することができない。しかし、競技中のサッカーコートの中やバスケットコートの中に立っているかのような映像を視聴してみたいという要望がある。そこで、通常では全天球カメラを設置することのできない場所に仮想的な視点である仮想視点を設定して、仮想視点を含む領域を撮影する複数のカメラを設置し、それらのカメラからの画像を合成することにより、この仮想視点において全天球カメラで撮影したかのような全天球画像を得る技術が考案されている(例えば、非特許文献1)。以下の説明において、仮想視点における全天球画像を、仮想全天球画像という。
仮想全天球画像を複数のカメラからの画像の合成によって得る画像処理システムの具体例について説明する。図13は、従来の仮想全天球画像を得るための画像処理システムを示す図である。図13に示すように、画像処理システム1は、全天球カメラ2と、N台の複数のカメラ3−1、3−2、3−3、…、3−N(以下、カメラ群3とする。)と、画像処理装置4と、表示装置5とを備える。画像処理システム1は、フットサルのコート10内に仮想視点11を設定した場合に、コート10の周囲に設置したカメラ群3からの画像の合成によって仮想視点11における仮想全天球画像を得る。
全天球カメラ2は、全天球画像を撮影するカメラである。全天球カメラ2は、試合が行われる前のタイミングでコート10内の仮想視点11の位置に設置される。全天球カメラ2は、予め、仮想視点11の位置から仮想全天球画像の背景となる背景画像20を撮影する。全天球カメラ2で撮影された背景画像20は、画像処理装置4に入力されて蓄積される。
コート10の周囲には、カメラ群3が設置されている。図13においてNは4以上の自然数である。カメラ群3は、各カメラがそれぞれ仮想視点11を含む画角となるようにコート10の周囲に設置されている。画像処理装置4は、背景画像20に対して合成するためカメラ群3の各カメラが出力する入力画像に対して画像処理を行う。画像処理装置4は、全天球カメラ2より取得した背景画像20に画像処理後の入力画像を合成して仮想全天球画像を生成する。表示装置5は、画像処理装置4で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ等である。
画像処理システム1における画像処理の具体例を説明する。図14は、画像処理システム1における画像処理される画像の具体例を示す図である。図14(A)は、仮想視点11の位置に設置された全天球カメラ2で撮影された背景画像20の例を示す図である。仮想視点11を中心とする360度の画像となっている。背景画像20は、競技開始前に撮影される画像であるのでコート10内に競技を行う選手等は映っていない。
図14(B)は、左からカメラ3−1で撮影した入力画像21と、カメラ3−2で撮影した入力画像22と、カメラ3−3で撮影した入力画像23とを示している。画像処理装置4は、入力画像21〜23のそれぞれから仮想視点11を含み、かつ、フットサルの選手を含む領域211、221、231を切り出す。画像処理装置4は、切り出した領域211、221、231の画像に対して、画像処理を行うことで背景画像20に貼り付け可能な部分画像211a、221a、231aを生成する。
画像処理装置4は、背景画像20に対して部分画像211a、221a、231aを合成することで、仮想全天球画像24を生成する。図14(C)は、画像処理装置4が生成する仮想全天球画像24の例を示す図である。図14(C)に示すように、仮想全天球画像24は、所定の領域に部分画像211a、221a、231aを貼り付けているので、コート10上で競技を行っているフットサルの選手が映っている画像である。
従来の画像処理システム1は、合成に用いているカメラ群3の光学中心および仮想視点11において想定する仮想全天球カメラの光学中心はそれぞれ異なる。このため、合成された仮想全天球画像24は幾何学的に正しくない画像を含む。これを防ぐためには、画像処理装置4は、部分画像211a、221a、231aを、仮想視点11からの距離を示す奥行きの一点で整合性が保たれるよう画像処理を行い背景画像20に貼り付ける必要がある。しかしながら、整合性が保たれる奥行きに存在せずに別の奥行に存在している物体(例えば、競技中の選手)の部分画像を貼り付ける場合には、画像処理により奥行きの整合性を保つことができない。このような奥行に整合性のない物体は、仮想全天球画像24において、その画像が分身(多重像)したり、消失したりする現象が発生する。
以下に、図面を用いて仮想全天球画像24において、物体の画像が分身したり、消失したりする現象について説明する。図15は、画像処理システム1における課題を説明するための図である。図15において、撮影範囲41は、カメラ3−1の撮影範囲の一部であって図14(B)に示した領域211の撮影範囲を示す。撮影範囲42は、カメラ3−2の撮影範囲の一部であって図14(B)に示した領域221の撮影範囲を示す。撮影範囲43は、カメラ3−3の撮影範囲の一部であって図14(B)に示した領域231の撮影範囲を示す。また、仮想視点11からの距離(奥行)が異なる3つの被写体(選手)49〜51が存在する。
図15において破線で示している仮想視点11からの第1の距離を示す奥行46は、各撮影範囲41〜43が、重なりなく並んでいる。このような奥行46に位置する被写体49は、その画像が分身したり消失したりすることがなく、奥行に整合性のある被写体49である。仮想視点11からの第2の距離を示す奥行47は、各撮影範囲41〜43が、横線部分44に示すように重なっている。このような奥行47に位置する被写体50は、その画像が分身してしまうので、奥行に整合性のない被写体50となる。仮想視点11からの第3の距離を示す奥行48は、各撮影範囲41〜43の間が斜線部分45に示すように空いている。このような奥行48に位置する被写体51は、その画像の一部が消失してしまうので、奥行に整合性のない被写体51となる。
このような被写体の画像が分身したり、消失したりする問題は、上述した仮想全天球画像24を生成する場合に限られるものではない。例えば、カメラ3−1及びカメラ3−2からの2つの入力画像を合成して、仮想視点11から被写体50を撮影したかのような仮想視点画像を生成する場合にも生じる問題である。
高橋康輔、外3名、「複数カメラ映像を用いた仮想全天球映像合成に関する検討」、信学技報、2015年06月01日、vol.115, no.76、MVE2015-5、p.43-48
仮想全天球画像等の仮想視点画像において被写体が存在する領域は、視聴者が注視する領域である可能性が高く、その注視する領域において被写体の分身や消失が発生すると、仮想全天球画像等の仮想視点画像の画質が低下するという問題がある。
上記事情に鑑み、本発明は、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる情報取得装置、情報取得方法及び情報取得プログラムを提供することを目的としている。
本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、前記情報取得部が取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得部と、を備える情報取得装置である。
本発明の一態様は、前記の情報取得装置であって、2つの前記入力画像間において前記撮像装置の撮影範囲が重なっている重複領域がある場合に、前記画像合成処理は、設定された前記奥行に基づいて前記重複領域においてどちらか1つの入力画像のみ残るよう双方の入力画像に対して切り出し処理を行う。
本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野の中心に最も近いオブジェクトを、前記主オブジェクトとして特定する。
本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野情報取得部が取得した前記視野情報で特定される前記視野に含まれるオブジェクトを前記主オブジェクトとして特定し、前記奥行取得部は、前記オブジェクト特定部が特定した前記主オブジェクトに基づいて、前記視野の中心から各主オブジェクトまでの距離に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。
本発明の一態様は、前記の情報取得装置であって、前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部をさらに備え、前記オブジェクト特定部は、前記顕著度付与部が各オブジェクトに付与した前記顕著度に基づいて、前記主オブジェクトを特定する。
本発明の一態様は、前記の情報取得装置であって、前記オブジェクト特定部が前記顕著度に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトに付与された顕著度に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。
本発明の一態様は、前記の情報取得装置であって、前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部をさらに備え、前記オブジェクト特定部は、各オブジェクトの前記判定結果に基づいて、前記主オブジェクトを特定する。
本発明の一態様は、前記の情報取得装置であって、前記オブジェクト特定部が前記判定結果に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトの判定結果に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する。
本発明の一態様は、前記の情報取得装置であって、前記情報取得部は、前記オブジェクトの大きさに関する情報であるサイズ情報又は前記オブジェクトの動きに関する情報である動き情報をさらに含むオブジェクト情報を取得し、前記奥行取得部は、前記サイズ情報又は前記動き情報に応じた重み係数をさらに用いて前記主オブジェクトを特定する。
本発明の一態様は、前記の情報取得装置であって、前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部と、前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部と、前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部と、をさらに備え、前記オブジェクト特定部は、前記視野の中心から各オブジェクトまでの距離、各オブジェクトに付与された前記顕著度及び前記各オブジェクトの前記判定結果の少なくともいずれか2つに基づいて、主オブジェクトを特定する。
本発明の一態様は、前記の情報取得装置であって、前記広角画像は全天球画像である。
本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、を有する情報取得方法である。
本発明の一態様は、所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置で実行される情報取得プログラムであって、前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、をコンピュータに実行させるための情報取得プログラムである。
本発明により、設定した奥行に応じて複数の入力画像を合成して仮想視点からの仮想視点画像を生成する画像処理において、仮想視点画像の画質の低下を抑制する奥行を設定することができる。
第1の実施形態における画像処理システム及び視聴システムの概略を示す図である。 第1の実施形態における画像処理装置30の構成例を示す図である。 オブジェクト情報格納部303に格納するオブジェクト情報の一例を示す図である。 隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。 第1の実施形態における画像処理装置30が1フレームの仮想全天球画像を作成する動作を示すフロー図である。 第1の実施形態における画像処理装置30が動画の仮想全天球画像を作成する動作について説明するフロー図である。 第2の実施形態における画像処理システムの構成例を示す図である。 第2の実施形態における画像処理装置30Aの構成例を示す図である。 第2の実施形態における視野情報に基づいて主オブジェクトを特定する第1の方法を示す図である。 図9に示すオブジェクトにおいて奥行取得部32Aが中心線61に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。 Saliency Mapの具体例を示す図である。 第2の実施形態における画像処理装置30Aが動画の仮想全天球画像を作成する動作について説明する図である。 従来の仮想全天球画像を得るための画像処理システムを示す図である。 画像処理システム1における画像処理される画像の具体例を示す図である。 画像処理システム1における課題を説明するための図である。
以下、図面を参照して、本発明の実施形態について説明する。
(第1の実施形態)
図1は、第1の実施形態における画像処理システム及び視聴システムの概略を示す図である。図1に示す画像処理システム1Aにおいて、図13に示した従来の画像処理システム1と同じ構成には、同一符号を付しており、説明を簡略化する。
図1に示すように、画像処理システム1Aは、全天球カメラ2と、N台(N≧2)の複数のカメラ3−1、3−2、3−3、…、3−N(以下、カメラ群3とする。)と、画像処理装置30と、表示装置5とを備える。画像処理システム1Aは、フットサルのコート10内に仮想視点11を設定した場合に、コート10の周囲に設置したカメラ群3からの画像の合成によって仮想視点11における仮想全天球画像を得る。
全天球カメラ2は、全天球画像を撮影するカメラである。全天球カメラ2は、競技が行われる前のタイミングでコート10内の仮想視点11の位置に設置される。全天球カメラ2は、予め、仮想視点11の位置から仮想全天球画像の背景となる背景画像20を撮影する。全天球カメラ2で撮影された背景画像20は、画像処理装置4に入力されて蓄積される。全天球カメラ2は、競技中も仮想視点11に設置したままだと競技の支障となるため、競技開始前に仮想視点11の位置から取り除かれる。
コート10の周囲には、カメラ群3が設置されている。カメラ群3の各カメラ3−1、3−2、3−3、…、3−Nは、入力画像を動画(映像)で撮影するカメラであり、それぞれ仮想視点11を含む画角となるようにコート10の周囲を取り囲むように設置されている。カメラ群3によって撮影された動画(映像)は、複数フレームの画像により構成されており、画像処理装置4は、動画(映像)に含まれる処理対象となるフレームの画像を入力画像としている。図1においてNは、2以上の整数であり、同程度の画質の仮想全天球画像を得ようとするのであればコート10が大きいほど大きな値となる。また、コート10の大きさが同じであれば、Nの値が大きい程、合成領域(仮想全天球画像において、背景画像20にカメラ群3からの画像を合成する領域)の面積が大きくなり、あるいは合成領域の大きさが同じであれば合成領域における画質が向上する。
画像処理装置30は、カメラ群3の各カメラ3−1、3−2、3−3、…、3−Nからの入力画像に対して画像処理を施して、全天球カメラ2より取得した背景画像20に画像処理後の入力画像を合成する処理を行う。表示装置5は、画像処理装置30で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ、ヘッドマウントディスプレイ(HMD)等である。
視聴システム9は、画像サーバ6と、ネットワーク7と、複数の視聴装置8とを備える。画像サーバ6は、ネットワーク7を介して画像処理装置30が生成した仮想全天球画像を配信するサーバである。ネットワーク7は、例えばインターネット等の通信網である。視聴装置8は、ネットワーク7に接続可能なユーザ端末81と、ユーザ端末81に接続されたHMD82とから構成される装置である。ユーザ端末81は、ネットワーク7を介して画像サーバ6が配信する仮想全天球画像を受信する機能と、受信した仮想全天球画像をHMD82で視聴可能な映像信号に変換してHMD82へ出力する機能とを備える。なお、音声信号を処理する構成については図面を用いて説明していないが、公知の技術を用いて処理する構成であればよい。例えば、コート10周辺の音声をマイクで集音して得た音声データを、仮想全天球画像の画像データとともに画像サーバ6が受信して、受信した音声データ及び仮想全天球画像の画像データから所定の信号形式の視聴用データを作成して視聴装置8へ配信する構成でよい。
HMD82は、ユーザ端末81から映像信号等を受信する受信部と、受信部を介して受信した映像信号を表示する液晶ディスプレイ等で構成される画面と、視聴者の頭の動きを検出する検出部と、検出部が検出した結果をユーザ端末81に送信する送信部とを備える。HMD82の画面に表示される映像は、仮想全天球画像に基づいた仮想全天球映像の一部であり視野と呼ぶ。HMD82は、検出部が検出した視聴者の頭の動きに応じて表示する映像の範囲である視野を変更する機能を有する。
頭を上下左右に動かすことに応じて視聴している映像が変化するので、HMD82を頭に装着した視聴者は、仮想視点11の位置から競技を見ているかのような映像を視聴することができる。このように、HMD82を装着した視聴者は、あたかも仮想視点11に立って競技を観戦しているかのような臨場感のある映像を視聴することができる。
画像処理システム1Aにおいて処理される画像は、図14に示した従来の画像処理システム1で処理される画像と同様であるので、図14を用いて画像処理システム1Aの動作について簡単に説明する。全天球カメラ2は、コート10内の仮想視点11に設置されて、図14(A)に示す背景画像20を競技開始前に撮影する。競技が開始されるとカメラ群3の各カメラが撮影を開始する。例えば、カメラ群3内のカメラ3−1、3−2、3−3は、図14(B)に示す入力画像21〜23を撮影する。
画像処理装置30は、撮影された入力画像21〜23のそれぞれから仮想視点11を含み、かつ、競技中の選手を含む領域211、221、231を切り出す。画像処理装置30は、切り出した領域211、221、231の画像に対して、画像処理を行うことで背景画像20に貼り付け可能な部分画像211a、221a、231aを生成する。画像処理装置30は、背景画像20に対して部分画像211a、221a、231aを合成することで、図14(C)に示すような仮想全天球画像24を生成する。
なお、視聴システム9は、図1に示す構成に限定されるものではない。視聴システム9は、画像処理装置30が生成した仮想全天球画像を編集してから画像サーバ6へ出力する編集装置を備える構成等、仮想全天球画像をネットワーク7経由で配信可能な構成であればよい。視聴装置8の構成は、ネットワーク7を介して受信した仮想全天球画像の一部を歪みのない画像として画面に表示する構成であれば、どのような構成であってもよい。
次に、第1の実施形態における画像処理システム1Aの画像処理装置30の構成例について説明する。
図2は、第1の実施形態における画像処理装置30の構成例を示す図である。図2に示すように、画像処理装置30は、オブジェクト解析部31と、奥行取得部32と、合成情報取得部33と、画像入力部34と、画像切り出し部35と、画像合成部36と、表示処理部37と、キーボードやマウス等で構成され、奥行に関する情報を入力する入力部38と、カメラ群3の各カメラが撮影した入力画像を格納する入力画像格納部301と、背景画像20を格納する背景画像格納部302と、オブジェクト情報格納部303と、合成情報テーブル304とを備える。
オブジェクト解析部31は、入力画像格納部301に格納されている入力画像を入力とし、入力画像中に含まれるオブジェクトを抽出する。ここでオブジェクトとは、背景画像20に含まれていないが入力画像に含まれている人物、物体(例えばボール)等である。オブジェクト解析部31は、抽出したオブジェクトに対して当該オブジェクトを識別するための識別子であるIDを付与して、ID及び抽出したオブジェクトに関する情報を含むオブジェクト情報として出力する。
カメラ群3の各カメラで撮影される入力画像は、所定のフレーム周期を有する動画像であり、各フレームには撮影時間が関連付けられている。オブジェクト解析部31は、入力された入力画像において時間方向に一連のフレームから抽出した同一オブジェクトに対して同じIDを付与し、撮影時刻も関連付けてオブジェクト情報として出力する。オブジェクト情報格納部303は、オブジェクト解析部31が出力するオブジェクト情報を入力とし、オブジェクトを抽出する対象とした入力画像のフレーム毎の撮影時刻に関連付けてオブジェクト解析部31が付与したIDを含むオブジェクトに関する情報を格納する。
例えば、オブジェクト解析部31は、カメラ3−1が撮影した撮影時刻t、t+1、t+2、…の一連のフレームである入力画像21から抽出したオブジェクトには、ID1の識別子を付与する。同様に、オブジェクト解析部31は、カメラ3−2が撮影した撮影時刻t、t+1、t+2、…の一連のフレームである入力画像22から抽出したオブジェクトには、ID2の識別子を付与し、カメラ3−3が撮影した撮影時刻t、t+1、t+2、…の一連のフレームである入力画像23から抽出したオブジェクトには、ID3の識別子を付与する。なお、オブジェクト解析部31が、抽出したオブジェクトに付与するIDは、オブジェクトを特定するものである。例えば、カメラ3−1及びカメラ3−2が同じオブジェクトを撮影した入力画像を出力している場合は、オブジェクト解析部31は、カメラ3−1及びカメラ3−2からの2つの入力画像を解析して、1つのIDを含む1つのオブジェクト情報を生成する。
オブジェクト解析部31は、入力画像を解析してオブジェクトを抽出する際に、オブジェクトの属性を示すラベルと、オブジェクトのコート10上の空間における三次元的な位置情報である三次元位置情報とを取得する。ラベルの具体例としては、人物であることを示す「人」、ボールであることを示す「ボール」、物体Aであることを示す「物体A」、物体Bであることを示す「物体B」、…等のカメラ群3の撮影範囲を移動する可能性のある物体を識別する情報を用いる。
オブジェクト解析部31は、オブジェクトを抽出するために入力画像を解析処理することで、オブジェクトが「人」、「ボール」、「物体A」、「物体B」のいずれに該当するのかを解析・判定して、その判定結果をラベルとして出力する。なお、オブジェクトが「人」、「ボール」、「物体A」、「物体B」のいずれに該当するのかを解析・判定する手法としては、公知の画像解析技術を用いる。例えば、画像の解析により人を検出する技術を開示する文献として以下の公知文献1がある。
公知文献1:山内悠嗣、外2名、「[サーベイ論文] 統計的学習手法による人検出」、電子情報通信学会技術研究報告、vol.112、no.197、PRMU2012-43、pp.113-126、2012年9月
また、オブジェクト解析部31は、入力画像内におけるオブジェクトの位置、オブジェクトを撮影したカメラ群3内の複数のカメラの位置及びその複数のカメラの撮影範囲(撮影方向及び画角)等の情報に基づいて、コート10上の空間におけるオブジェクトの三次元位置を取得する。このオブジェクトの三次元位置を取得する手法としては、図示しない測距センサ(ToF(Time of Flight)カメラなど)を用いる手法や、多視点カメラからの画像を利用する手法など公知の技術を用いる。また、カメラ群3で撮影した入力画像を表示装置5に表示させて、表示させた入力画像に基づいて、人が手入力により入力してもよい。また、オブジェクトの位置を特定する情報としては、三次元位置を特定する情報に替えて、コート10上の位置をコート10と平行な平面上の2次元座標で表して、その座標に基づいて2次元位置を特定する情報を用いてもよい。この2次元座標は、例えば、仮想視点11に対応する点を原点とするものである。
オブジェクト情報格納部303は、オブジェクト解析部31が抽出したオブジェクトに関する情報であるオブジェクト情報を、その撮影時刻に関連付けて格納する。オブジェクト情報は、オブジェクトを識別するIDと、オブジェクトの属性を示すラベルと、オブジェクトの三次元位置とを含む。
図3は、オブジェクト情報格納部303に格納するオブジェクト情報の一例を示す図である。図3に示すように、入力画像の各フレームの撮影時刻t、t+1、t+2、…に関連付けて複数のオブジェクト情報を格納している。撮影時刻tにおいては、オブジェクト1のオブジェクト情報として、ID1、ラベル1、三次元位置情報1が格納され、オブジェクト2のオブジェクト情報として、ID2、ラベル2、三次元位置情報2が格納されている。撮影時刻t+1、撮影時刻t+2においても、同じ情報が格納されている。
奥行取得部32は、オブジェクト情報格納部303に格納されているオブジェクト情報と、入力部38から入力されるオブジェクト情報とを入力とする。奥行取得部32は、オブジェクト情報格納部303よりオブジェクト情報を読み出して、各撮影時刻において、複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部32は、仮想視点11から特定した主オブジェクトまでの距離である奥行に関する奥行情報を取得し、出力する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトや、視聴者が注視する特定のオブジェクトなどである。
なお、主オブジェクトは1つのオブジェクトに限るものではなく、複数のオブジェクトを含むものであってもよい。主オブジェクトが複数のオブジェクトを含む場合は、奥行取得部32は、例えば、仮想視点11から特定した主オブジェクトである複数のオブジェクトまでの奥行の平均値を、主オブジェクトまでの奥行として出力する。奥行取得部32は、複数のオブジェクトまでの奥行の平均値を求める方法以外にも、仮想視点11から各オブジェクトまでの距離に重み係数を乗算してから加算平均して、主オブジェクトまでの奥行とする方法を用いてもよい。重み係数は、複数のオブジェクトにおける、仮想視点11との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。
また、奥行取得部32は、仮想視点11から主オブジェクトまでの距離を奥行として取得したが、この限りではなく、仮想視点11から全てのオブジェクトまでの距離の平均を奥行として取得してもよい。この場合も、仮想視点11から各オブジェクトまでの距離に重み係数を乗算してから加算平均して奥行を取得してもよい。重み係数は、複数のオブジェクトにおける、仮想視点11との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。
奥行取得部32は、予め各撮影時刻における主オブジェクトを特定しておく。具体的には、仮想全天球画像を作成するコンテンツ作成者が、各撮影時刻において視聴者が注視すると推定される領域又は視聴者が注視すると推定されるオブジェクトを特定する情報を入力部38から入力する。これにより、奥行取得部32は、入力された情報に基づいて、各撮影時刻における主オブジェクトを特定する。奥行取得部32において、主オブジェクトを特定する方法は、上述した方法に限定されるものではなく、色々な方法を用いてよい。例えば、撮影した入力画像における見る人の関心の度合いを示す顕著度を各画素で表したマップであるSaliency Map(サリエンシー マップ)を奥行取得部32に入力する。奥行取得部32では、入力されたSaliency Mapに基づいて、視覚的に顕著な領域に存在するオブジェクトを主オブジェクトとして特定しても良い。また、予め被験者に入力画像である動画を視聴させ、各撮影時刻においてどの領域を見ていたかという視聴ログを獲得し、その視聴ログを奥行取得部32に入力し、入力された視聴ログに基づいて主オブジェクトを特定しても良い。
なお、Saliency Mapの求め方は公知の技術であり、例えば、以下の公知文献2に記載の技術を用いても良い。
公知文献2:Laurent Itti, Christof Koch, and Ernst Niebur,”A Model of Saliency-Based Visual Attention for Rapid Scene Analysis”,IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259 (1998)
合成情報テーブル304は、入力画像から仮想視点11を含む領域を切り出すための切り出し領域に関する情報である切出領域情報と、その切り出し領域に応じて切り出した画像を部分画像に変換するための情報である変換情報とを含む合成情報を格納する。部分画像は、切り出した画像を背景画像20の対応領域に違和感なく貼り付けるために、切り出した画像に対して上記変換情報に応じて拡大、縮小、回転等の変形処理を行って生成される。この変形処理は、例えば、画像に対してアフィン変換を施すことによって行う。画像に対してアフィン変換を施す場合の変換情報は、例えばアフィン変換行列である。以下、部分領域画像に対して行う変形処理としてアフィン変換を用いる例を示すが、変形処理はアフィン変換に限定される必要はなく、変換情報に応じて拡大、縮小、回転等による画像の変換を行う処理であればどのような処理であってもよい。合成情報テーブル304は、カメラ群3において処理対象となる入力画像を撮影したカメラを特定するカメラコードと、仮想視点11からの奥行と、その奥行に応じたアフィン変換行列である変換情報と、その奥行に応じた切出領域情報とを対応づけて格納するテーブルである。
アフィン変換行列は、以下に示す方法により予め取得して合成情報テーブル304に記憶しておく。例えば、仮想視点11から複数種類の距離(奥行)の位置に格子模様のチェスボードを設置して、仮想視点11に設置した全天球カメラ2で撮影したチェスボードを含む画像と、カメラ群3で撮影したチェスボードを含む画像とを比較する。そして両画像において、撮影したチェスボードの各格子が対応するように画像を変換するアフィン変換行列を求める。このようにして、チェスボードを設置した奥行に対応したアフィン変換行列を求める。
切出領域情報は、以下に示す方法により予め取得して合成情報テーブル304に記憶しておく。例えば、カメラ群3の内の隣接する2つのカメラで撮影された入力画像に同一の被写体(チェスボード)が存在する重複している領域がある場合は、一方の領域のみ残るように双方のカメラの画像に対する切り出し領域を設定する。切り出し領域は、仮想視点11から被写体(チェスボード)まで複数種類の距離について、カメラ群3に含まれるカメラ毎に求める。なお、双方のカメラの画像において、数画素〜数十画素の幅の重複領域を残すように切り出し領域を設定してもよい。
合成情報取得部33は、奥行取得部32が取得した奥行を入力とし、入力された奥行に基づいて、合成情報テーブル304から、カメラ群3の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得して、出力する。なお、合成情報テーブル304に格納されている奥行は数種類〜数十種類なので、奥行取得部32が取得した奥行と同じ値の奥行のテーブルが無い場合が想定される。このような場合は、合成情報取得部33は、奥行取得部32が取得した奥行の前後の値となる合成情報テーブル304に記録済の2つの奥行の値に対応する合成情報(切出領域情報及び変換情報)を用いて、奥行取得部32が取得した奥行に対応する合成情報を算出する。具体的には、上記記録済の2つの奥行の値に対応する切出領域情報の切り出し領域の座標値を線形補間することにより、その中間に位置する切り出し領域を特定する。上記記録済の2つの奥行の値に対応するアフィン変換行列の各係数を線形補間することにより、その中間値となるアフィン変換行列を算出する。
入力画像格納部301は、各カメラを特定するカメラコードに関連付けてカメラ群3の各カメラで撮影した入力画像を格納する。入力画像は、撮影時刻及び動画の画像データを含む。入力画像格納部301は、例えば、図14(B)に示す入力画像21を、カメラ3−1を特定するカメラコードに関連付けて格納し、入力画像22を、カメラ3−3を特定するカメラコードに関連付けて格納し、入力画像23を、カメラ3−3を特定するカメラコードに関連付けて格納する。
背景画像格納部302は、全天球カメラ2で撮影した全天球画像である背景画像20を格納する。背景画像格納部302は、例えば、コート10内の仮想視点11に設置した全天球カメラ2で撮影した図14(A)に示す背景画像20を格納する。格納する背景画像20は、1フレーム分の画像データでも所定時間分の動画の画像データでもよい。所定時間分の画像データを格納する場合は、背景画像20において周期的に変化する部分(例えば電光掲示板が映っている部分があり、かつ、電光掲示板の表示内容が周期的に変化している部分。)があれば、その周期に応じた時間分の画像データを背景画像20として格納すればよい。
画像処理装置30が全天球カメラ2から背景画像20を取得する構成はどのような構成であってもよい。例えば、画像処理装置30が全天球カメラ2と有線又は無線で通信可能な通信部を備えて、その通信部を介して背景画像20を取得する構成であってもよい。また、全天球カメラ2に着脱可能な記録媒体を用いて当該記録媒体に背景画像20を記録して、記録後の記録媒体を画像処理装置30に接続して、画像処理装置30が記録媒体から背景画像20を読み出す構成により、背景画像20を取得する構成であってもよい。また、画像処理装置30が、カメラ群3から入力画像を取得する構成も全天球カメラ2の場合と同様にどのような構成であってもよい。
画像入力部34は、入力画像格納部301に格納された入力画像と、背景画像格納部302に格納された背景画像20とを入力とする。画像入力部34は、入力画像格納部301から入力画像を取得し、背景画像格納部302から背景画像20を取得して、入力画像を画像切り出し部35へ出力し、背景画像20を画像合成部36へ出力する。画像切り出し部35は、画像入力部34が出力する入力画像と、合成情報取得部33が出力する合成情報とを入力とする。画像切り出し部35は、合成情報取得部33から入力された合成情報に含まれる切出領域情報に基づいて、カメラ群3の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部36へ出力する。画像切り出し部35は、例えば、図14(B)に示す入力画像21〜23のそれぞれから切り出し領域211、221、231を切り出す処理を行う。
画像合成部36は、画像入力部34が出力する背景画像20と、画像切り出し部35が切り出した画像と、合成情報取得部33が取得した合成情報とを入力とし、画像切り出し部35が切り出した画像に対して、合成情報取得部33が取得した合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部36は、生成した部分画像をアフィン変換行列に基づいて、背景画像20に貼り付けて合成することで仮想全天球画像を生成し、出力する。なお、アフィン変換行列は、背景画像20において部分画像を貼り付ける領域を示す情報を含む。画像合成部36は、生成した仮想全天球画像を画像サーバ6へ送信する機能を有する。
画像合成部36は、例えば、図14(B)に示す入力画像21〜23のそれぞれから切り出し領域211、221、231を切り出した画像に対して、アフィン変換行列に基づいた変形処理を行うことで、部分画像211a、221a、231aを生成する。画像合成部36は、例えば、背景画像20に対して、部分画像211a、221a、231aを所定の領域に貼り付けて合成することで図14(C)に示す仮想全天球画像24を生成する。
部分画像を背景画像20に貼り付けて仮想全天球画像24を生成した際に、隣り合う部分画像間の境界領域において重複が発生する場合がある。図4は、隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。図4に示すように、仮想全天球画像24に貼り付けた部分画像211bと部分画像221bとが境界領域25において重複している。なお、図4に示す部分画像211bと部分画像221bが、図14(C)に示した部分画像211a及び部分画像221aと比較して異なる点は、両画像に重複する領域がある点である。
図4に示すように、部分画像211bと部分画像221bとが境界領域25において重複している場合には、画像合成部36は、重複している境界領域25に対して以下に示すブレンディング(Blending)処理を行う。画像合成部36は、Blendingパラメータαを定め、(式1)に基づいて重複している境界領域25の各ピクセルの値を算出する。
g(x、y)=αI(x、y)+(1−α)Ii+1(x、y) … (式1)
(式1)において、x、yは、仮想全天球画像24上における水平方向、垂直方向の座標である。g(x、y)は、重複している境界領域25内の座標(x、y)の画素値の値である。I(x、y)とIi+1(x、y)は、カメラ群3内のカメラ3−iおよびカメラ3−(i+1)(iは1≦i≦N−1となる整数。)によって撮影された入力画像に基づいて、生成された部分画像の座標(x、y)の画素値の値を表す。また、このαの値は重複している境界領域25で一定であるが、以下の(式2)に示すように変化させてもよい。
α(x)=(x−x)/(x−x) … (式2)
(式2)において、xおよびxは、図4に示すように重複している境界領域25の両端のx座標であり、x<xである。
表示処理部37は、画像合成部36が出力する仮想全天球画像を入力とし、入力された仮想全天球画像を表示装置5において表示可能な映像信号に変換して出力する。仮想全天球画像24は、図14(C)に示す通り、歪みを含む画像であり、かつ、仮想視点11を中心とする360度の景色を含む画像であるので、表示処理部37は、仮想全天球画像から表示装置5に表示させる範囲の画像を切り出して、切り出した画像の歪みを補正する機能を有する。
画像処理装置30は、入力画像格納部301及び背景画像格納部302を備える構成としたが、これに限定されるものではない。例えば、入力画像格納部301及び背景画像格納部302を備える画像格納装置を別に設け、画像処理装置30は、画像格納装置から入力画像格納部301及び背景画像格納部302を取得する構成であってもよい。また、画像処理装置30は、背景画像格納部302を備え、入力画像格納部301を備えずに、カメラ群3から入力される入力画像をリアルタイムで取得して、取得した入力画像を順次処理する構成としてもよい。
次に、画像処理システム1Aにおいて1フレームの仮想全天球画像を作成する動作について説明する。図5は、第1の実施形態における画像処理装置30が1フレームの仮想全天球画像を作成する動作を示すフロー図である。図5に示す動作は、各撮影時刻における仮想全天球画像を生成する処理の前に、予めオブジェクト情報、合成情報、背景画像20及び入力画像を取得する処理も含まれる。
仮想視点11に全天球カメラ2を設置し、仮想視点11から所定の距離(奥行)にチェスボードを設置した後に、全天球カメラ2は、チェスボードを含む全天球画像を撮影する(ステップS101)。全天球カメラ2を仮想視点11から取り去って、カメラ群3の各カメラで、仮想視点11及びチェスボードを含む撮影範囲を撮影し、全天球カメラ2で撮影された全天球画像に含まれるチェスボードと、カメラ群3内の一つのカメラで撮影された画像に含まれるチェスボードとを対応させるための合成情報を求める(ステップS102)。なお、ステップS101、102におけるチェスボードの撮影は、仮想視点11から複数種類の距離にチェスボードを設置して行われる。
仮想視点11に全天球カメラ2を設置した後に、全天球カメラ2は、背景画像20を撮影する(ステップS103)。撮影された背景画像20は、背景画像格納部302に格納される。全天球カメラ2を仮想視点11から取り去った後であって、例えば競技開始と共に、カメラ群3は撮影を開始する。これにより、画像処理装置30は、カメラ群3が撮影した入力画像を入力画像格納部301に格納する。オブジェクト解析部31は、入力画像格納部301から入力画像を読み出して解析処理し、解析結果をオブジェクト情報格納部303に格納する。奥行取得部32は、オブジェクト情報格納部303に格納されているオブジェクトの中から、入力部38から入力された情報に基づいて主オブジェクトを特定する。奥行取得部32は、仮想視点11から特定した主オブジェクトまでの奥行情報を取得する(ステップS104)。
合成情報取得部33は、奥行取得部32が取得した奥行に基づいて、合成情報テーブル304から、各入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する(ステップS105)。ステップS105において、合成情報取得部33は、奥行取得部32が取得した奥行と同じ値の奥行のテーブルが無い場合は、奥行取得部32が取得した奥行の前後の値となる奥行に対応する合成情報に基づいて、奥行取得部32が取得した奥行に対応する合成情報を求める。
画像切り出し部35は、合成情報取得部33が取得した合成情報に含まれる切出領域情報に基づいて、カメラ群3の各カメラからの入力画像に対応する切り出し領域を特定し、入力画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部36へ出力する。画像合成部36は、画像切り出し部35が切り出した画像に対して、合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部36は、生成した部分画像をアフィン変換行列に基づいて、背景画像20に貼り付けて合成することで仮想全天球画像を生成する(ステップS106)。
画像合成部36は、背景画像20に貼り付ける2つの部分画像間の境界領域において重複している場合には、重複している境界領域に対してブレンディング処理を行う(ステップS107)。画像合成部36が生成した仮想全天球画像は、例えば、画像サーバ6に蓄積される。画像サーバ6は、視聴装置8からの視聴要求に応じて蓄積した仮想全天球画像をネットワーク7経由で配信する。
上述した画像処理システム1Aの動作の変形例として、カメラ群3で撮影した入力画像をリアルタイムで背景画像20に合成して仮想全天球画像を生成する動作について説明する。リアルタイムで仮想全天球画像を生成する場合、画像処理システム1Aは、図5の処理において、ステップS101〜S103までの処理を事前に行い、ステップS104以降の処理をリアルタイムで行う。ここでリアルタイムで仮想全天球画像を生成するとは、例えば、入力画像が1秒間に60フレームを有する動画像であれば、画像処理システム1Aが、その動画像の入力画像を処理して、1秒間に60フレームを有する仮想全天球画像を生成することである。
次に、第1の実施形態における画像処理装置30が動画の仮想全天球画像を作成する動作について説明する。図6は、第1の実施形態における画像処理装置30が動画の仮想全天球画像を作成する動作について説明するフロー図である。図6の動作においては、図5に示したステップS101〜ステップS104における入力画像の撮影までの処理は既に終えているものとする。図6に示すように、画像処理装置30は、最初の撮影時刻のフレームに対する処理を開始する(ステップS201)。
画像入力部34は、入力画像格納部301から入力画像を取得し、背景画像格納部302から背景画像20を取得して、入力画像を画像切り出し部35へ出力し、背景画像20を画像合成部36へ出力する(ステップS202)。奥行取得部32は、オブジェクト情報格納部303に格納されているオブジェクトの中から、入力部38から入力された情報に基づいて主オブジェクトを特定して、特定した主オブジェクトまでの奥行を取得する(ステップS203)。
合成情報取得部33は、奥行取得部32が取得した奥行に基づいて、合成情報テーブル304から、各入力画像に対応する合成情報を取得する(ステップS204)。画像切り出し部35は、合成情報取得部33が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部36へ出力する。画像合成部36は、画像切り出し部35が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部36は、生成した部分画像をアフィン変換行列に基づいて背景画像20に貼り付けて合成して、仮想全天球画像を生成する(ステップS205)。画像処理装置30は、次の撮影時刻の入力画像があればステップS201に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する(ステップS206)。
以上に説明したように、第1の実施形態における画像処理装置30は、視聴者が注目する主オブジェクトに対応した奥行を求めて、求めた奥行に対応した部分画像を生成し、生成した部分画像を背景画像20に貼り付けることで仮想全天球画像を生成することができる。これにより、第1の実施形態における画像処理装置30は、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第1の実施形態における画像処理装置30は、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。
第1の実施形態における画像処理装置30は、仮想全天球画像を生成する場合以外にも、例えば、カメラ3−1及びカメラ3−2からの2つの入力画像を合成して、仮想視点11から撮影したかのような仮想視点画像を生成する場合にも対応できる構成としてもよい。要は、画像合成部36は、部分画像を背景画像20への貼り付ける処理を必ずしも行う必要はない。この場合、第1の実施形態における画像処理装置30と同様に、2つの入力画像に含まれる主オブジェクトに基づいた奥行を取得し、この取得した奥行に基づいて合成情報取得部33が合成情報を取得する。
(第2の実施形態)
第2の実施形態における画像処理システムの構成例について説明する。
図7は、第2の実施形態における画像処理システムの構成例を示す図である。図7に示すとおり、第2の実施形態における画像処理システム1Bは、図1に示した第1の実施形態における画像処理システム1Aとほぼ同じ構成であり、図1と機能等が異なる構成要素には図1と異なる符号を付与している。
HMD82Aは、図1に示したHMD82が有する機能に加えて、画面に表示中の被写体の範囲を示す仮想視点11からの視野を検出する機能と、検出した視野に関する情報である視野情報をユーザ端末81Aに送信する機能とをさらに備える。ユーザ端末81Aは、図1に示したユーザ端末81が有する機能に加えて、HMD82Aから受信した視野情報をネットワーク7経由で画像サーバ6Aに送信する機能をさらに備える。画像サーバ6Aは、図1に示した画像サーバ6が有する機能に加えて、ユーザ端末81Aから受信した視野情報を画像処理システム1Bに送信する機能をさらに備える。
第2の実施形態における画像処理システム1Bは、ユーザ端末81A、ネットワーク7及び画像サーバ6Aを経由してHMD82Aから受信した視野情報に基づいて主オブジェクトを特定する点が第1の実施形態における画像処理システム1Aとは異なる。第2の実施形態における画像処理システム1Bは、受信した視野情報を用いることで、第1の実施形態の画像処理システム1Aと比べて、視聴者が注目する領域又は主オブジェクトを精度良く特定することを目的としている。
次に、第2の実施形態における画像処理システム1Bが備える画像処理装置30Aの構成例について説明する。
図8は、第2の実施形態における画像処理装置30Aの構成例を示す図である。図8に示す画像処理装置30Aは、図2に示した第1の実施形態における画像処理装置30と比較すると、オブジェクト解析部31Aと、奥行取得部32Aと、オブジェクト情報格納部303Aとを備え、奥行に関する情報を入力する入力部38を備えていない点で異なる。画像処理装置30Aにおいて、図2に示した画像処理装置30と同じ構成部分には、同じ符号を付与して、それらの説明は簡略化又は省略する。画像処理装置30Aは、HMD82Aを含む視聴装置8Aからネットワーク7及び画像サーバ6Aを介して視聴者の視野情報を受信する機能を有する。
図8に示すように、画像処理装置30Aは、オブジェクト解析部31Aと、奥行取得部32Aと、合成情報取得部33と、画像入力部34と、画像切り出し部35と、画像合成部36と、表示処理部37と、カメラ群3の各カメラが撮影した入力画像を格納する入力画像格納部301と、背景画像20を格納する背景画像格納部302と、オブジェクト情報格納部303Aと、合成情報テーブル304とを備える。
オブジェクト解析部31Aは、画像サーバ6A等を経由したHMD82Aからの視野情報と、入力画像格納部301に格納されている入力画像とを入力とし、オブジェクト情報を出力する。オブジェクト解析部31Aは、図2に示したオブジェクト解析部31の機能に加えて、HMD82Aから受信した視野情報に基づいて、オブジェクトを解析する機能をさらに備える。オブジェクト情報格納部303Aは、図2に示したオブジェクト情報格納部303が格納する情報に加えて、視野情報に基づいた解析結果に関する情報をさらに格納する。奥行取得部32Aは、図2に示した奥行取得部32の機能に加えて、HMD82Aから受信した視野情報に基づいて、主オブジェクトを特定する機能をさらに備える。
奥行取得部32Aは、オブジェクト情報格納部303Aに格納されているオブジェクト情報と、画像サーバ6Aから入力される視野情報とを入力とする。奥行取得部32Aは、オブジェクト情報格納部303Aよりオブジェクト情報を読み出して、各撮影時刻において、視野に含まれる複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定する。奥行取得部32Aは、仮想視点11から特定した主オブジェクトまでの距離である奥行に関する奥行情報を取得し、出力する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトである。
奥行取得部32Aは、入力された視野情報と、オブジェクト情報格納部303Aから参照するオブジェクト情報との少なくとも一つに基づいて主オブジェクトを特定する。以下の説明において、視野情報に基づいて主オブジェクトを特定する方法として、「第1の方法」〜「第4の方法」の4種類の方法について説明する。主オブジェクトは1つのオブジェクトに限るものではなく、複数のオブジェクトを含むものであってもよい。
主オブジェクトが複数のオブジェクトを含む場合は、奥行取得部32Aは、例えば、仮想視点11から特定した主オブジェクトである複数のオブジェクトまでの奥行の平均値を、主オブジェクトまでの奥行として出力する。あるいは、奥行取得部32Aは、仮想視点11から主オブジェクトである各オブジェクトまでの距離に重み係数を乗算してから加算平均して奥行として出力する方法を用いてもよい。重み係数は、複数のオブジェクトにおける、仮想視点との位置関係、画面内での大きさ、ラベル及びそれらの組み合わせのいずれかに基づいて決定される。詳細は後述する。
なお、主オブジェクトを特定する方法は、「第1の方法」〜「第4の方法」の4種類の方法に限定されるものではなく、視聴者の注視する領域又はオブジェクトを推定(又は特定)して、その推定(又は特定)した領域にあるオブジェクト又は推定(又は特定)したオブジェクトを主オブジェクトとする構成であればよい。例えば、ボールを用いた競技の映像であれば、「ボール」のラベルを有するオブジェクトが存在する領域を視聴者が注視する領域として推定し、推定した領域に含まれるオブジェクトであって「人」のラベルを有するオブジェクトを主オブジェクトとする構成でもよい。
合成情報取得部33は、奥行取得部32Aが取得した奥行に基づいて、合成情報テーブル304から、カメラ群3の各カメラで撮影された入力画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得する。なお、合成情報取得部33は、合成情報テーブル304に格納されている奥行は数種類〜数十種類なので、奥行取得部32Aが取得した奥行と同じ値のテーブルが無い場合が想定される。このような場合は、合成情報取得部33は、奥行取得部32Aが取得した奥行の前後の値となる合成情報テーブル304に記録済の2つの奥行の値を用いて、奥行取得部32Aが取得した奥行に対応する合成情報を算出する(例えば線形補間等により算出する)。
(第1の方法)
第2の実施形態における視野情報に基づいて主オブジェクトを特定する「第1の方法」について説明する。
図9は、第2の実施形態における視野情報に基づいて主オブジェクトを特定する第1の方法を示す図である。図9に示すように、コート10内の仮想視点11の周りに、4つのオブジェクトOB−1〜OB−4が存在する。このオブジェクトOB−1〜OB−4は、例えば競技を行っている選手であり、「人」のラベルを有してオブジェクト情報格納部303Aに格納されている。
破線60で挟まれている領域が、HMD82Aで利用者が視聴している視野の範囲を示している。「第1の方法」では、奥行取得部32Aは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像24として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報を含む。視野情報は、仮想視点11の位置に関する情報と、視聴者の視線に関する情報とを含む。
まず、奥行取得部32Aは、視野情報に基づいて視野の中心となる中心線61を求める。次に、奥行取得部32Aは、オブジェクト情報に基づいて、中心線61に最も近い位置に存在するオブジェクトOB−4を主オブジェクトとして特定する。次に、奥行取得部32Aは、仮想視点11から主オブジェクトであるオブジェクトOB−4までの距離を奥行として取得する。点線62は、奥行取得部32Aが取得した奥行を示す。このようにして、奥行取得部32Aは、視野情報及びオブジェクト情報に基づいて主オブジェクトを特定して、主オブジェクトまでの奥行を取得する。
図10は、図9に示すオブジェクトにおいて奥行取得部32Aが中心線61(仮想視点11に視聴者がいると仮定した場合の、視聴者の視線に相当)に最も近い位置に存在するオブジェクトを特定する方法の具体例を示す図である。図10に示すように、奥行取得部32Aは、各オブジェクトOB−1〜OB−4から中心線61に対して垂線63−1〜63−4を引き、その垂線の長さが最短のオブジェクトを主オブジェクトとして特定する。図10の例では、奥行取得部32Aは、垂線63−4が最も短いので、オブジェクトOB−4を主オブジェクトとして特定する。
また、奥行取得部32Aは、中心線61に1番目に近い位置にあるオブジェクトOB−4と、2番目に近い位置にあるオブジェクトOB−1との2つのオブジェクトを主オブジェクトとして特定してもよい。この場合は、奥行取得部32Aは、仮想視点11からオブジェクトOB−1までの距離と、仮想視点11からオブジェクトOB−4までの距離との平均を奥行として取得する。また、奥行取得部32Aは、仮想視点11からオブジェクトOB−1までの距離と、仮想視点11からオブジェクトOB−4までの距離とに重み係数を乗算してから加算平均して奥行としてもよい。重み係数は、中心線61からオブジェクトOB−1、オブジェクトOB−4までの距離に応じて設定される値である。具体的には、中心線61から各オブジェクトまでの距離が短い程大きな値となるような重み係数を設定する。
「第1の方法」を用いることで、視聴者が注視している可能性の高い視野の中心線付近に位置するオブジェクトの奥行に応じて、画像切り出し部35及び画像合成部36の処理を行うことができる。第2の実施形態における画像処理装置30Aは、視聴者の注目する被写体(オブジェクト)の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。なお、「第1の方法」を行う場合は、オブジェクト解析部31A及びオブジェクト情報格納部303Aは、視野情報に応じたオブジェクトの解析等を行う必要がないので、図2に示したオブジェクト解析部31及びオブジェクト情報格納部303と同じ構成であってもよい。
(第2の方法)
第2の実施形態における視野情報に基づいて主オブジェクトを特定する「第2の方法」について説明する。「第2の方法」では、奥行取得部32Aは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像24内に存在する全てのオブジェクトの内、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報と、視野内のオブジェクトの顕著度とを含む。視野情報は、仮想視点11の位置に関する情報と、視聴者の視野に関する情報とを含む。
図9と同じ配置でオブジェクトOB−1〜OB−4が存在し、視野も破線60で示す範囲である場合に、オブジェクト解析部31Aは、視野内に存在する入力画像に対してSaliency Map(サリエンシー マップ)を作成して、入力画像に含まれる各オブジェクトに顕著度(重要度)を付与する。具体的には、オブジェクト解析部31Aは、視野に含まれる入力画像における人の関心の度合いである顕著度を各画素で表したマップ、あるいは、画素毎の顕著度に基づいてクラスタリングした領域別の顕著度を表したマップであるSaliency Mapを作成する。入力画像における人の関心の度合いとは、人が入力画像を見た場合に関心を持つ度合いのことであり、例えば、入力画像に人の顔の画像の領域があれば、その領域は人が関心をもつ領域であり顕著度が高くなる。
オブジェクト解析部31Aは、作成したSaliency Mapに基づいて、各オブジェクトに対応する顕著度を付与し、オブジェクト情報として出力する。ここで、顕著度は、例えば、0〜4の数値であり大きな値を有するオブジェクトほど顕著なオブジェクトである。オブジェクト情報格納部303Aは、各オブジェクトの三次元位置の情報と、オブジェクト解析部31Aが各オブジェクトに付与した顕著度とを含むオブジェクト情報を入力とし、入力されたオブジェクト情報を格納する。
図11は、Saliency Mapの具体例を示す図である。図11においては、図9のオブジェクトOB−1を含む入力画像と、図9のオブジェクトOB−4を含む入力画像とに基づいて作成されたSaliency Map110、111を示している。また、図11に示すSaliency Mapは、顕著度に応じて濃度が決まっており、濃度が薄い程その領域の顕著度が高い。Saliency Map110において、領域110Aは他の領域よりも濃度が薄く顕著度=3であり、その他の斜線部分の領域は顕著度=0である。Saliency Map111において、領域111Aは他の領域よりも濃度が薄く顕著度=4であり、その他の斜線部分の領域は顕著度=0である。
Saliency Map110の領域110Aは、オブジェクトOB−1に対応した領域であることから、オブジェクト解析部31Aは、オブジェクトOB−1に顕著度=3を付与する。Saliency Map111の領域111Aは、オブジェクトOB−4に対応した領域であることから、オブジェクト解析部31Aは、オブジェクトOB−4に顕著度=4を付与する。そして、奥行取得部32Aは、オブジェクト情報格納部303Aからオブジェクト情報を参照して、顕著度が最も高いオブジェクトOB−4を主オブジェクトとして特定する。奥行取得部32Aは、特定した主オブジェクトのオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点11の位置に関する情報とに基づいて奥行を取得し、出力する。
オブジェクト解析部31Aは、カメラ群3の各カメラからの入力画像に対し、各入力画像の画素毎に顕著度を付与したSaliency Mapを作成する。オブジェクト解析部31Aは、作成したSaliency Mapに基づいて、各オブジェクトに顕著度を付与する。なお、奥行取得部32Aは、各オブジェクトの顕著度に応じた重み係数を、仮想視点11から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。
オブジェクト解析部31Aは、入力画像中からオブジェクトOjの領域Rijを特定し、入力画像に対応するSaliency Mapにおける領域Rijも特定する。オブジェクト解析部31Aは、Saliency Mapの各画素に対してK−means等のクラスタリング処理を行い、顕著度に応じた複数のクラスタに分類する。オブジェクト解析部31Aは、各クラスタに属する画素の顕著度に基づいて、各クラスタの顕著度を算出する。オブジェクト解析部31Aは、各領域Rijに含まれるクラスタの顕著度に基づいて領域Rijの顕著度を算出する。オブジェクト解析部31Aは、領域Rijに対応するオブジェクトOjの顕著度を、複数のSaliency Mapの領域Rijの顕著度に基づいて算出する。上述したクラスタの顕著度、領域Rijの顕著度及びオブジェクトOjの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。
オブジェクトOjの顕著度を算出する他の例として、オブジェクト解析部31Aは、領域Rijに含まれる各画素の顕著度を算出し、各画素の顕著度に基づいて領域Rijの顕著度を算出してもよい。オブジェクト解析部31Aは、各入力画像から得られる領域Rijの顕著度に基づいて、オブジェクトOjの顕著度を算出する。本例における領域Rijの顕著度及びオブジェクトOjの顕著度を算出する際には、顕著度の平均値、最大値、最小値及び中央値のいずれかを用いてよい。なお、添え字jはオブジェクトを特定する数字であり、添え字iは、カメラ3−1〜3−Nのいずれかを特定するカメラ3−i(1≦i≦N)を示す。
「第2の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、視野内で最も顕著度の高いオブジェクトの奥行に応じて、画像切り出し部35及び画像合成部36の処理を行うことができる。これにより、視聴者が視野の中央から離れた周辺領域に存在する特徴的な被写体を注視した場合に対応することができる。「第2の方法」を用いた第2の実施形態における画像処理装置30Aは、視聴者の注目する被写体(オブジェクト)の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。
(第3の方法)
第2の実施形態における視野情報に基づいて主オブジェクトを特定する「第3の方法」について説明する。「第3の方法」では、奥行取得部32Aは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像24として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点11の位置に関する情報と、視聴者の視野に関する情報とを含む。
図9と同じ配置でオブジェクトOB−1〜OB−4が存在し、視野も破線60で示す範囲である場合に、奥行取得部32Aは、視野内に存在する各オブジェクトのオブジェクト情報を、オブジェクト情報格納部303Aより入力されたオブジェクト情報の中から抽出する。奥行取得部32Aは、抽出したオブジェクト情報のうち、視野内に存在する各オブジェクトのラベルを参照して「人」のラベルのオブジェクトがあれば、そのオブジェクトを主オブジェクトとして特定する。奥行取得部32Aは、特定した主オブジェクトのオブジェクト情報に含まれる三次元位置の情報と、視野情報に含まれる仮想視点11の位置に関する情報とに基づいて奥行を取得し、出力する。
図9において視野に含まれているオブジェクトOB−1のラベルが「物体A」であり、オブジェクトOB−4のラベルが「人」である。このような場合に、奥行取得部32Aは、オブジェクトOB−4を特定オブジェクトとして特定する。なお、奥行取得部32Aは、各オブジェクトのラベルに応じた重み係数を、仮想視点11から各オブジェクトまでの距離に乗算してから加算平均した値を奥行として取得する構成であってもよい。
「第3の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトとして、「人」のラベルを有するオブジェクトの奥行に応じて、画像切り出し部35及び画像合成部36の処理を行うことができる。「第3の方法」を用いた第2の実施形態における画像処理装置30Aは、物の被写体と、人の被写体との双方が視野内に存在する場合に、視聴者が注目すると推定される人の被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。
上述した「第1の方法」〜「第3の方法」において、奥行取得部32Aは、中心線61からオブジェクトまでの距離に応じた重み係数、各オブジェクトの顕著度に応じた重み係数及び各オブジェクトのラベルに応じた重み係数のいずれかを用いて奥行を取得しているが、更に、オブジェクトの大きさに応じた重み係数、オブジェクトの動きに応じた重み係数を用いて奥行を取得する構成としてもよい。オブジェクト解析部31Aは、オブジェクトの大きさに関する情報であるサイズ情報と、オブジェクトの動きに関する情報である動き情報とを取得する機能を有する。
(第4の方法)
第2の実施形態における視野情報に基づいて主オブジェクトを特定する「第4の方法」について説明する。「第4の方法」では、奥行取得部32Aは、オブジェクト情報と、視野情報とを入力として、以下の処理によって奥行を取得する。オブジェクト情報は、仮想全天球画像24として撮影される撮影空間内に存在する全てのオブジェクトに関する三次元位置の情報と、視野情報で特定される視聴者の視野の範囲に含まれるオブジェクトに関する三次元位置の情報及び視野内のオブジェクトの顕著度と、各オブジェクトの属性を示すラベルとを含む。視野情報は、仮想視点11の位置に関する情報と、視聴者の視線及び視野に関する情報とを含む。
奥行取得部32Aは、上述した「第1の方法」〜「第3の方法」を複合した以下の(式3)に示すコスト関数Cjを用いて、Cjの値が最大(最大コスト)となるオブジェクトを主オブジェクトとして特定する。なお、a、b、cは任意の係数。
Cj=a/(オブジェクトOjの視野の中心線からの距離)+b×(オブジェクトOjの顕著度)+c×(オブジェクトOjのラベルが人か否か) … (式3)
「第4の方法」を用いることで、視聴者が注視している可能性の高いオブジェクトの奥行に応じて、画像切り出し部35及び画像合成部36の処理を行うことができる。「第4の方法」を用いた第2の実施形態における画像処理装置30Aは、係数a、b、cの値を調整することで、「第1の方法」〜「第3の方法」をそれぞれ単体で利用する場合より精度よく視聴者が注目するオブジェクトを推定することができる。よって、「第4の方法」を用いた第2の実施形態における画像処理装置30Aは、視聴者に注目される被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者に注目される被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。
次に、第2の実施形態における画像処理装置30Aが動画の仮想全天球画像を作成する動作について説明する。図12は、第2の実施形態における画像処理装置30Aが動画の仮想全天球画像を作成する動作について説明する図である。図12の動作においては、図5に示したステップS101〜ステップS104における入力画像の撮影までの処理は既に終えているものとする。図12に示すように、画像処理装置30Aは、最初の撮影時刻のフレームに対する処理を開始する(ステップS301)。
画像入力部34は、入力画像格納部301から入力画像を取得し、背景画像格納部302から背景画像20を取得して、入力画像を画像切り出し部35へ出力し、背景画像20を画像合成部36へ出力する(ステップS302)。画像処理装置30Aは、HMD82Aを含む視聴装置8Aからネットワーク7及び画像サーバ6Aを介して視聴者の視野情報を取得する。オブジェクト解析部31Aは、HMD82Aから受信した視野情報に基づいて、入力画像に含まれるオブジェクトを解析して、各オブジェクトに関する情報であるラベル、三次元位置情報及び顕著度等を取得する(ステップs303)。
奥行取得部32Aは、オブジェクト情報格納部303に格納されているオブジェクトの中から、オブジェクト情報及び視野情報に基づいて主オブジェクトを特定して、特定した主オブジェクトまでの奥行を取得する(ステップS304)。
合成情報取得部33は、奥行取得部32Aが取得した奥行に基づいて、合成情報テーブル304から、各入力画像に対応する合成情報を取得する(ステップS305)。画像切り出し部35は、合成情報取得部33が取得した合成情報に基づいて、入力画像から切り出し領域を切り出して、切り出した画像を画像合成部36へ出力する。画像合成部36は、画像切り出し部35が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部36は、生成した部分画像をアフィン変換行列に基づいて背景画像20に貼り付けて合成して、仮想全天球画像を生成する(ステップS306)。画像処理装置30Aは、次の撮影時刻の入力画像があればステップS301に戻りループを継続し、次の撮影時刻の入力画像がなければ、ループを終了する(ステップS307)。
以上に説明したように、第2の実施形態における画像処理装置30Aは、視野情報を考慮して視聴者が注目する主オブジェクトを特定し、特定した主オブジェクトの奥行を求めて、求めた奥行に対応した部分画像の生成し、生成した部分画像を背景画像20に貼り付けることで仮想全天球画像を生成することができる。これにより、第2の実施形態における画像処理装置30Aは、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。第2の実施形態における画像処理装置30Aは、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。
なお、HMD82Aは、視聴者の視線を検出する機能と、検出した視聴者の視線に関する情報である視線情報をユーザ端末81Aに送信する機能とをさらに備えてもよい。この場合には、ユーザ端末81Aは、HMD82Aから受信した視線情報をネットワーク7経由で画像サーバ6Aに送信する機能をさらに備える。画像サーバ6Aは、ユーザ端末81Aから受信した視線情報を画像処理システム1Bに送信する機能をさらに備える。画像処理システム1Bは、視野に関する情報に加えて視線情報も考慮して、主オブジェクトを選択する。
上述した第1の実施形態の画像処理システム1A及び第2の実施形態の画像処理システム1Bは、仮想視点11に設置した全天球カメラ2で撮影した全天球画像を背景画像20としたが、仮想視点11に広角で撮影可能な広角カメラを設置して撮影した広角画像を背景画像20としてもよい。このような場合は、画像処理システム1A又は画像処理システム1Bは、広角画像である背景画像20に対して部分画像を合成することで仮想広角画像を生成する。ただし、視聴装置8又は視聴装置8Aで視聴可能な範囲は、広角画像に含まれる広角カメラで撮影した範囲となる。
上述した第1の実施形態の画像処理装置30及び第2の実施形態の画像処理装置30Aは、図2及び図8に具体的な構成を示したが、この構成に限定されるものではない。例えば、画像処理装置30を、入力画像格納部301及び背景画像格納部302を備える画像蓄積装置と、オブジェクト解析部31、オブジェクト情報格納部303、奥行取得部32及び入力部38を備える情報取得装置と、合成情報取得部33、画像入力部34、画像切り出し部35、画像合成部36、表示処理部37及び合成情報テーブル304を備える画像合成装置とから構成してもよい。また、画像処理装置30Aを、入力画像格納部301及び背景画像格納部302を備える画像蓄積装置と、オブジェクト解析部31A、オブジェクト情報格納部303A及び奥行取得部32Aを備える情報取得装置と、合成情報取得部33、画像入力部34、画像切り出し部35、画像合成部36、表示処理部37及び合成情報テーブル304を備える画像合成装置とから構成されるようにしてもよい。
上述した第1の実施形態の画像処理システム1A及び第2の実施形態の画像処理システム1Bは、全天球カメラ2を含む構成としたが、背景画像20となる全天球画像を得ることができる構成であれば、全天球カメラ2を含まない構成でもよい。上述した第1の実施形態の画像処理装置30及び第2の実施形態の画像処理装置30Aは、入力画像格納部301と、背景画像格納部302とを備える構成としたが、これに限定されるものではない。画像処理装置30及び画像処理装置30Aは、入力画像格納部301及び背景画像格納部302を備えずに、入力画像格納部301及び背景画像格納部302を備える装置を別に設けてもよい。
第1の実施形態の視聴装置8及び第2の実施形態の視聴装置8Aは、HMD82(又はHMD82A)を備える構成であったが、HMDに替えて携帯型の表示装置を備える構成であってもよい。携帯型の表示装置は、装置本体の動きを検出する検出部を備え、検出部が検出した装置本体の動きに応じて表示する映像の範囲である視野を変更する機能を有する。視聴装置8又は視聴装置8Aは、携帯型の表示装置が通信機能や映像信号を処理する機能を有する場合は、ユーザ端末81又はユーザ端末81Aを省略した構成としてもよい。
第1、第2の実施形態における画像処理システム1A、1Bは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行のオブジェクト(人など)がシーン内に存在し、視聴している領域や注視しているオブジェクトの奥行と、部分画像を全天球画像に合成する際に設定した奥行とが必ずしも合わないという問題を解決することができる。
上述した第1の実施形態における画像処理装置30又は第2の実施形態における画像処理装置30Aの備える各機能部は、例えば、コンピュータで実現することができる。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明の情報取得装置、情報取得方法及び情報取得プログラムは、サッカー等のスポーツの映像やコンサート、ライブなどの映像のように、様々な奥行のオブジェクト(人など)がシーン内に存在する映像を仮想全天球映像として視聴者に視聴させるシステムを構築する場合に用いている。
1、1A、1B…画像処理システム, 2…全天球カメラ, 3…カメラ群,3−1〜3−N…カメラ, 4、30、30A…画像処理装置, 5…表示装置, 6、6A…画像サーバ, 8、8A…視聴装置, 9、9A…視聴システム,82、82A…HMD, 20…背景画像, 31、31A…オブジェクト解析部, 32、32A…奥行取得部, 33…合成情報取得部, 34…画像入力部, 35…画像切り出し部, 36…画像合成部, 301…入力画像格納部, 302…背景画像格納部, 303、303A…オブジェクト情報格納部, 304…合成情報テーブル

Claims (13)

  1. 所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置であって、
    前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得部と、
    前記情報取得部が取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定部と、
    前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得部と、
    を備える情報取得装置。
  2. 2つの前記入力画像間において前記撮像装置の撮影範囲が重なっている重複領域がある場合に、前記画像合成処理は、設定された前記奥行に基づいて前記重複領域においてどちらか1つの入力画像のみ残るよう双方の入力画像に対して切り出し処理を行う請求項1に記載の情報取得装置。
  3. 前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、
    前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野の中心線に最も近いオブジェクトを、前記主オブジェクトとして特定する請求項1又は請求項2に記載の情報取得装置。
  4. 前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部をさらに備え、
    前記オブジェクト特定部は、前記オブジェクト情報と前記視野情報取得部が取得した前記視野情報とに基づいて、前記視野情報取得部が取得した前記視野情報で特定される前記視野に含まれるオブジェクトを前記主オブジェクトとして特定し、
    前記奥行取得部は、前記オブジェクト特定部が特定した前記主オブジェクトに基づいて、前記視野の中心線から各主オブジェクトまでの距離に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項1又は請求項2に記載の情報取得装置。
  5. 前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部をさらに備え、
    前記オブジェクト特定部は、前記顕著度付与部が各オブジェクトに付与した前記顕著度に基づいて、前記主オブジェクトを特定する請求項1又は請求項2に記載の情報取得装置。
  6. 前記オブジェクト特定部が前記顕著度に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトに付与された顕著度に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項5に記載の情報取得装置。
  7. 前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部をさらに備え、
    前記オブジェクト特定部は、各オブジェクトの前記判定結果に基づいて、前記主オブジェクトを特定する請求項1又は請求項2に記載の情報取得装置。
  8. 前記オブジェクト特定部が前記判定結果に基づいて、複数の前記主オブジェクトを特定した場合に、前記奥行取得部は、各主オブジェクトの判定結果に応じた重み係数を、前記仮想視点から各主オブジェクトまでの距離に乗算した乗算結果を加算平均することで前記奥行を取得する請求項7に記載の情報取得装置。
  9. 前記情報取得部は、前記オブジェクトの大きさに関する情報であるサイズ情報又は前記オブジェクトの動きに関する情報である動き情報をさらに含むオブジェクト情報を取得し、
    前記奥行取得部は、前記サイズ情報又は前記動き情報に応じた重み係数をさらに用いて前記主オブジェクトを特定する請求項4、6、8のいずれか一項に記載の情報取得装置。
  10. 前記仮想視点画像は広角画像であり、前記広角画像の一部の画像を表示可能な表示装置に表示中の被写体の範囲を示す情報であって前記仮想視点からの視野に関する情報である視野情報を取得する視野情報取得部と、
    前記入力画像に含まれる各オブジェクトに対して、人の関心の度合いを示す顕著度を付与する顕著度付与部と、
    前記入力画像から検出した各オブジェクトの属性を判定して判定結果を出力する判定部と、
    をさらに備え、
    前記オブジェクト特定部は、前記視野の中心線から各オブジェクトまでの距離、各オブジェクトに付与された前記顕著度及び前記各オブジェクトの前記判定結果の少なくともいずれか2つ以上に基づいて、主オブジェクトを特定する請求項1又は請求項2に記載の情報取得装置。
  11. 前記広角画像は全天球画像である請求項3、4、10のいずれか一項に記載の情報取得装置。
  12. 所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置を用いた情報取得方法であって、
    前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、
    前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、
    前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、
    を有する情報取得方法。
  13. 所定の位置を含む領域が撮影範囲となるように前記所定の位置を含む領域の周囲に設置された少なくとも2つの撮像装置が撮影した画像を複数の入力画像として、前記所定の位置を仮想的な視点である仮想視点として前記仮想視点に対して設定された奥行に基づいて複数の前記入力画像を合成して仮想視点画像を生成する画像合成処理のための情報を取得する情報取得装置で実行される情報取得プログラムであって、
    前記入力画像より抽出された被写体であるオブジェクトに関する情報であるオブジェクト情報を取得する情報取得ステップと、
    前記情報取得ステップにおいて取得した前記オブジェクト情報に基づいて、人が注目するオブジェクトである主オブジェクトを特定するオブジェクト特定ステップと、
    前記主オブジェクトと前記仮想視点との距離に基づいて、前記入力画像を合成するために設定される前記仮想視点からの前記奥行を取得する奥行取得ステップと、
    をコンピュータに実行させるための情報取得プログラム。
JP2015235177A 2015-12-01 2015-12-01 情報取得装置、情報取得方法及び情報取得プログラム Active JP6450305B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015235177A JP6450305B2 (ja) 2015-12-01 2015-12-01 情報取得装置、情報取得方法及び情報取得プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015235177A JP6450305B2 (ja) 2015-12-01 2015-12-01 情報取得装置、情報取得方法及び情報取得プログラム

Publications (2)

Publication Number Publication Date
JP2017102686A true JP2017102686A (ja) 2017-06-08
JP6450305B2 JP6450305B2 (ja) 2019-01-09

Family

ID=59017348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015235177A Active JP6450305B2 (ja) 2015-12-01 2015-12-01 情報取得装置、情報取得方法及び情報取得プログラム

Country Status (1)

Country Link
JP (1) JP6450305B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816766A (zh) * 2017-11-20 2019-05-28 佳能株式会社 图像处理装置、图像处理方法及存储介质
KR20200062595A (ko) * 2018-11-27 2020-06-04 주식회사 카이 360도 영상을 2d 영상으로 변환하는 방법 및 장치

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245195A (ja) * 1996-03-08 1997-09-19 Canon Inc 画像処理方法およびその装置
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2011130323A (ja) * 2009-12-21 2011-06-30 Canon Inc 放送受信装置及びその制御方法
JP2015087851A (ja) * 2013-10-29 2015-05-07 日本電信電話株式会社 画像処理装置及び画像処理プログラム
WO2015125243A1 (ja) * 2014-02-19 2015-08-27 三菱電機株式会社 表示制御装置、表示制御装置の表示制御方法、視線方向検出システムおよび視線方向検出システムのキャリブレーション制御方法
WO2015156149A1 (ja) * 2014-04-10 2015-10-15 ソニー株式会社 画像処理装置および画像処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245195A (ja) * 1996-03-08 1997-09-19 Canon Inc 画像処理方法およびその装置
JP2005100367A (ja) * 2003-09-02 2005-04-14 Fuji Photo Film Co Ltd 画像生成装置、画像生成方法、及び画像生成プログラム
JP2011130323A (ja) * 2009-12-21 2011-06-30 Canon Inc 放送受信装置及びその制御方法
JP2015087851A (ja) * 2013-10-29 2015-05-07 日本電信電話株式会社 画像処理装置及び画像処理プログラム
WO2015125243A1 (ja) * 2014-02-19 2015-08-27 三菱電機株式会社 表示制御装置、表示制御装置の表示制御方法、視線方向検出システムおよび視線方向検出システムのキャリブレーション制御方法
WO2015156149A1 (ja) * 2014-04-10 2015-10-15 ソニー株式会社 画像処理装置および画像処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUETING WANG、外3名: ""映像コンテキストに基づく多視点映像の視点列推薦"", 電子情報通信学会技術研究報告, vol. 114, no. 73, JPN6018028508, 30 May 2014 (2014-05-30), JP, pages 111 - 116, ISSN: 0003932368 *
高橋 康輔、外3名: ""複数カメラ映像を用いた仮想全天球映像合成に関する検討"", 電子情報通信学会技術研究報告, vol. 115, no. 76, JPN6018028506, 1 June 2015 (2015-06-01), JP, pages 43 - 48, ISSN: 0003844735 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816766A (zh) * 2017-11-20 2019-05-28 佳能株式会社 图像处理装置、图像处理方法及存储介质
CN109816766B (zh) * 2017-11-20 2023-11-10 佳能株式会社 图像处理装置、图像处理方法及存储介质
KR20200062595A (ko) * 2018-11-27 2020-06-04 주식회사 카이 360도 영상을 2d 영상으로 변환하는 방법 및 장치
KR102130902B1 (ko) * 2018-11-27 2020-07-06 주식회사 카이 360도 영상을 2d 영상으로 변환하는 방법 및 장치

Also Published As

Publication number Publication date
JP6450305B2 (ja) 2019-01-09

Similar Documents

Publication Publication Date Title
US11217006B2 (en) Methods and systems for performing 3D simulation based on a 2D video image
US11663778B2 (en) Method and system for generating an image of a subject from a viewpoint of a virtual camera for a head-mountable display
JP7034666B2 (ja) 仮想視点画像の生成装置、生成方法及びプログラム
JP6599436B2 (ja) ユーザ選択可能な新規ビューを生成するためのシステムおよび方法
US10762653B2 (en) Generation apparatus of virtual viewpoint image, generation method, and storage medium
JP6894962B2 (ja) 自由視点映像用画像データのキャプチャ方法及び装置、プログラム
CN113784148A (zh) 数据处理方法、***、相关设备和存储介质
US8922718B2 (en) Key generation through spatial detection of dynamic objects
JP2018180655A (ja) 画像処理装置、画像生成方法及びプログラム
JP2019101795A (ja) 生成装置、生成方法及びプログラム
US20120120201A1 (en) Method of integrating ad hoc camera networks in interactive mesh systems
JP6392738B2 (ja) 情報取得装置、情報取得方法及び情報取得プログラム
CN112581627A (zh) 用于体积视频的用户控制的虚拟摄像机的***和装置
US20210233303A1 (en) Image processing apparatus and image processing method
JP7042571B2 (ja) 画像処理装置およびその制御方法、プログラム
JP2020086983A (ja) 画像処理装置、画像処理方法、及びプログラム
JP6450305B2 (ja) 情報取得装置、情報取得方法及び情報取得プログラム
CN110958463A (zh) 虚拟礼物展示位置的检测、合成方法、装置和设备
CN113542721B (zh) 深度图处理方法、视频重建方法及相关装置
JP2019103126A (ja) カメラシステム、カメラ制御装置、カメラ制御方法及びプログラム
JP6392739B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP6426594B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP5906165B2 (ja) 仮想視点画像合成装置、仮想視点画像合成方法及び仮想視点画像合成プログラム
GB2565301A (en) Three-dimensional video processing
JP6450306B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181207

R150 Certificate of patent or registration of utility model

Ref document number: 6450305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150