JP6411991B2

JP6411991B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP6411991B2
Application number: JP2015245463A
Authority: JP
Inventors: 麻理子五十川; 明小島; 弾三上; 康輔高橋
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2015-12-16
Filing date: 2015-12-16
Publication date: 2018-10-24
Anticipated expiration: 2035-12-16
Also published as: JP2017111619A

Description

本発明は、複数のカメラからの画像データを処理する画像処理装置、画像処理方法及び画像処理プログラムに関する。

近年、周囲３６０度を含む全天の画像である全天球画像を撮影できるカメラ（以下、全天球カメラという）及びその全天球画像の視聴において利用者が向いた方向を視聴することができるヘッドマウントディスプレイ（ＨＭＤ）が普及し始めている。そして、ネットワークを介して全天球画像を配信するサービスが注目を集めている。上記のような全天球画像は、ＨＭＤで視聴することで高い臨場感を得ることができ、スポーツやアーティストのライブ等のコンテンツの視聴における利用が期待されている。

一般に、これらの全天球画像は、所望の視点に全天球カメラを設置することで撮影することができる。しかしながら、競技中のサッカーコートの中やバスケットコートの中は、全天球カメラを設置しようとすると競技者の邪魔となるため、全天球カメラを設置することができない。しかし、競技中のサッカーコートの中やバスケットコートの中に立っているかのような映像を視聴してみたいという要望がある。そこで、通常では全天球カメラを設置することのできない場所に仮想的な視点である仮想視点を設定して、仮想視点を含む領域を撮影する複数のカメラを設置し、それらのカメラからの画像を合成することにより、この仮想視点において全天球カメラで撮影したかのような全天球画像を得る技術が考案されている（例えば、非特許文献１参照）。以下の説明において、仮想視点における全天球画像を、仮想全天球画像という。

仮想全天球画像を複数のカメラからの画像の合成によって得る画像処理システムの具体例について説明する。図９は、従来の仮想全天球画像を得るための画像処理システムを示す図である。図９に示すように、画像処理システム１は、全天球カメラ２と、Ｎ台（Ｎ≧１）のカメラ３−１、３−２、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置４と、表示装置５とを備える。画像処理システム１は、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０外に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。図１２では３台以上のカメラが記載されているが、仮想全天球画像の作成のためには前景生成用のカメラ３は少なくとも１台あればよい。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、試合が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された全天球画像である背景画像２０は、画像処理装置４に入力されて蓄積される。

コート１０の周囲には、カメラ群３が設置されている。図１０においてはＮは３とする。カメラ群３を構成するカメラの数は、多ければ多いほどよいが、最低数は１である。カメラ群３は、それぞれ仮想視点１１を含む画角となるようにコート１０の周囲に設置されている。画像処理装置４は、背景画像２０に対して合成するためカメラ群３のカメラそれぞれが出力する前景画像を含む切り出し画像に対して画像処理を行う。画像処理装置４は、全天球カメラ２より取得した背景画像２０に画像処理後の部分画像を合成して仮想全天球画像を生成する。表示装置５は、画像処理装置４で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ等である。

画像処理システム１における画像処理の具体例を説明する。図１３は、画像処理システム１における画像処理される画像の具体例を示す図である。図１３（Ａ）は、仮想視点１１の位置に設置された全天球カメラ２で撮影された背景画像２０の例を示す図である。仮想視点１１を中心とする３６０度の画像となっている。背景画像２０は、競技開始前に撮影される画像であるのでコート１０内に競技を行う選手等は映っていない。

図１３（Ｂ）は、左からカメラ３−１で撮影した部分画像２１と、カメラ３−２で撮影した部分画像２２と、カメラ３−３で撮影した部分画像２３とを示している。画像処理装置４は、部分画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、フットサルの選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置４は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。

画像処理装置４は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、仮想全天球画像２４を生成する。図１３（Ｃ）は、画像処理装置４が生成する仮想全天球画像２４の例を示す図である。図１３（Ｃ）に示すように、仮想全天球画像２４は、所定の領域に部分画像２１１ａ、２２１ａ、２３１ａを貼り付けているので、コート１０上で競技を行っているフットサルの選手が映っている画像である。

従来の画像処理システム１は、合成に用いているカメラ群３の光学中心及び仮想視点１１において想定する仮想全天球カメラの光学中心はそれぞれ異なる。このため、合成された仮想全天球画像２４は幾何学的に正しくない画像を含む。これを防ぐためには、画像処理装置４は、部分画像２１１ａ、２２１ａ、２３１ａを、仮想視点１１からの距離を示す奥行きの一点で整合性が保たれるよう画像処理を行い背景画像２０に貼り付ける必要がある。しかしながら、整合性が保たれる奥行きに存在せずに別の奥行に存在している物体（例えば、競技中の選手）の部分画像を貼り付ける場合には、画像処理により奥行きの整合性を保つことができない。このような奥行に整合性のない物体は、仮想全天球画像２４において、その画像が分身（多重像）したり、消失したりする現象が発生する。

以下に、図面を用いて仮想全天球画像２４において、物体の画像が分身したり、消失したりする現象について説明する。図１４は、画像処理システム１における課題を説明するための図である。図１４において、撮影範囲４１は、カメラ３−１の撮影範囲において図１３（Ｂ）に示した領域２１１の撮影範囲を示す。撮影範囲４２は、カメラ３−２の撮影範囲において図１３（Ｂ）に示した領域２２１の撮影範囲を示す。撮影範囲４３は、カメラ３−３の撮影範囲において図１３（Ｂ）に示した領域２３１の撮影範囲を示す。また、仮想視点１１からの距離（奥行）が異なる３つの被写体（選手）４９〜５１が存在する。

図１４において破線で示している仮想視点１１からの第１の距離を示す奥行４６は、各撮影範囲４１〜４３が、重なりなく並んでいる。このような奥行４６に位置する被写体４９は、その画像が分身したり消失したりすることがなく、奥行に整合性のある被写体４９である。仮想視点１１からの第２の距離を示す奥行４７は、各撮影範囲４１〜４３が、横線部分４４に示すように重なっている。このような奥行４７に位置する被写体５０は、その画像が分身してしまうので、奥行に整合性のない被写体５０となる。仮想視点１１からの第３の距離を示す奥行４８は、各撮影範囲４１〜４３の間が斜線部分４５に示すように空いている。このような奥行４８に位置する被写体５１は、その画像の一部が消失してしまうので、奥行に整合性のない被写体５１となる。

高橋康輔、外３名、「複数カメラ映像を用いた仮想全天球映像合成に関する検討」、信学技報、2015年06月01日、vol.115, no.76、MVE2015-5、p.43-48

以上のように、カメラを置くことができない位置（仮想視点）での映像を合成するために、従来は、予め撮影しておいた背景画像に対して、外部のカメラで撮影した映像を変化しながら貼り付ける合成を行っていた。そのため、背景が静止していることになり動画視聴時に違和感があるという問題がある。

本発明は、このような事情に鑑みてなされたもので、違和感のない背景画像を合成することにより視聴品質の低下を抑制した仮想全天球画像を生成することができる画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。

本発明の一態様は、全天球画像による背景映像を再生する画像処理装置であって、予め蓄積された映像中において、所定の映像区間を抽出し、つなぎ合わせて再生する際に、つなぎ目部分前後の部分映像が類似した映像となるように前記映像区間を抽出する背景映像再生手段を備え、前記背景映像再生手段は、予め蓄積された映像中において、類似する短時間区間を複数抽出し、前記短時間区間で始まり、他の短時間区間で終わる再生すべき映像区間の終わりと、次に続く前記映像区間の始まりが類似している前記短時間区間をつなぎ合わせて前記背景映像を生成して再生する画像処理装置である。

本発明の一態様は、前記画像処理装置であって、前記背景映像再生手段は、予め蓄積された映像中において類似する短時間区間を複数抽出し、抽出した前記短時間区間で始まり、他の前記短時間区間で終わる背景映像区間をつなぎ合わせて前記背景映像を生成して再生する。

本発明の一態様は、前記画像処理装置であって、前記背景映像再生手段は、予め蓄積された映像中において、類似する短時間区間を複数抽出し、前記短時間区間で始まり、他の短時間区間で終わる再生すべき映像区間の終わりと、次に続く前記映像区間の始まりが類似している前記短時間区間をつなぎ合わせて前記背景映像を生成して再生する。

本発明の一態様は、前記画像処理装置であって、前記背景映像再生手段は、前記短時間区間で始まり、他の前記短時間区間で終わる背景映像区間をランダムに選択してつなぎ合わせて再生する。

本発明の一態様は、前記画像処理装置であって、前記背景映像再生手段は、生成した前記背景映像を繰り返し再生する。

本発明の一態様は、全天球画像による背景映像を再生する画像処理装置が行う画像処理方法であって、予め蓄積された映像中において、所定の映像区間を抽出し、つなぎ合わせて再生する際に、つなぎ目部分前後の部分映像が類似した映像となるように前記映像区間を抽出する背景映像再生ステップを有し、前記背景映像再生ステップにおいて、予め蓄積された映像中において、類似する短時間区間を複数抽出し、前記短時間区間で始まり、他の短時間区間で終わる再生すべき映像区間の終わりと、次に続く前記映像区間の始まりが類似している前記短時間区間をつなぎ合わせて前記背景映像を生成して再生する画像処理方法である。

本発明の一態様は、コンピュータを、前記画像処理装置として機能させるための画像処理プログラムである。

本発明によれば、違和感のない背景画像を合成することにより視聴品質の低下を抑制した仮想全天球画像を生成することができるという効果が得られる。

本発明の一実施形態による画像処理装置の構成を示すブロック図である。画像処理装置３０の基本構成例を示す図である。オブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。画像処理システム１において１フレームの仮想全天球画像を作成する動作を示すフロー図である。画像処理装置３０が動画の仮想全天球画像を作成する動作について説明する図である。仮想全天球画像の生成処理を示す模式図である。背景画像を生成する動作を示す説明図である。背景画像を生成する動作を示す説明図である。背景画像を生成する動作を示す説明図である。背景画像を生成する動作を示す説明図である。従来の仮想全天球画像を得るための画像処理システムを示す図である。画像処理システム１における画像処理される画像の具体例を示す図である。画像処理システム１における課題を説明するための図である。

以下、図面を参照して、本発明の一実施形態による画像処理装置を説明する。図１は同実施形態による仮想全天球画像を視聴するためのシステム構成を示すブロック図である。この図において、図１２に示す従来の装置と同一の部分には同一の符号を付し、その説明を簡単に行う。仮想全天球画像を視聴するためのシステムは、画像処理システム１及び視聴システム９を備えている。

図１に示すように、画像処理システム１は、全天球カメラ２と、Ｎ台（Ｎ≧２）の複数のカメラ３−１、３−２、３−３、…、３−Ｎ（以下、カメラ群３とする。）と、画像処理装置３０と、表示装置５とを備える。画像処理システム１は、フットサルのコート１０内に仮想視点１１を設定した場合に、コート１０外に設置したカメラ群３からの画像の合成によって仮想視点１１における仮想全天球画像を得る。なお、以下の説明においてはＮは２以上の整数として説明するが、仮想全天球画像の作成のためには、仮想視点を含む方向を撮影するカメラ３が１台以上あればよい。

全天球カメラ２は、全天球画像を撮影するカメラである。全天球カメラ２は、競技が行われる前のタイミングでコート１０内の仮想視点１１の位置に設置される。全天球カメラ２は、予め、仮想視点１１の位置から仮想全天球画像の背景となる背景画像２０を撮影する。全天球カメラ２で撮影された背景画像２０は、画像処理装置４に入力されて蓄積される。全天球カメラ２は、競技中も仮想視点１１に設置したままだと競技の支障となるため、競技開始前に仮想視点１１の位置から取り除かれる。

コート１０の周囲には、カメラ群３が設置されている。カメラ群３の各カメラ３−１、３−２、３−３、…、３−Ｎは、背景画像２０に対して合成する前景画像を含む部分画像を動画（映像）で撮影するカメラであり、それぞれ仮想視点１１を含む画角となるようにコート１０の周囲を取り囲むように設置されている。Ｎ台のカメラ３−１、３−２、…、３−Ｎのそれぞれで撮影された動画は、複数フレームの画像により構成される。図１においてＮは、４以上の整数であり、同程度の画質の仮想全天球画像を得ようとするのであればコート１０が大きいほど大きな値となり、コート１０の大きさが同じであれば仮想全天球画像の画質を高いものにしようとするほど大きな値となる。

画像処理装置３０は、Ｎ台のカメラ３−１、３−２、…、３−Ｎのそれぞれで撮影された動画から入力画像を事前に取得する。撮影されたそれぞれの動画は複数フレームの画像で構成されており、本実施形態における画像処理装置３０は処理対象となるフレームの画像を入力画像として取得する。画像処理装置３０は、カメラ群３のＮ台のカメラ３−１、３−２、…、３−Ｎからの入力画像に対して画像処理を施して、全天球カメラ２より取得した背景画像２０に画像処理後の部分画像を合成する処理を行う。表示装置５は、画像処理装置３０で生成した仮想全天球画像を表示する装置であり、液晶ディスプレイ、ヘッドマウントディスプレイ（ＨＭＤ）等である。

視聴システム９は、画像サーバ６と、ネットワーク７と、複数の視聴装置８とを備える。画像サーバ６は、ネットワーク７を介して画像処理装置３０が生成した仮想全天球画像を配信するサーバである。ネットワーク７は、例えばインターネット等の通信網である。視聴装置８は、ネットワーク７に接続可能なユーザ端末８１と、ユーザ端末８１に接続されたＨＭＤ８２とから構成される装置である。ユーザ端末８１は、ネットワーク７を介して画像サーバ６が配信する仮想全天球画像を受信する機能と、受信した仮想全天球画像をＨＭＤ８２で視聴可能な映像信号に変換してＨＭＤ８２へ出力する機能とを備える。

ＨＭＤ８２は、ユーザ端末８１から映像信号等を受信する受信部と、受信部を介して受信した映像信号を表示する液晶ディスプレイ等で構成される画面と、視聴者の頭の動きを検出する検出部と、検出部が検出した結果をユーザ端末８１に送信する送信部とを備える。ＨＭＤ８２の画面に表示される映像は、仮想全天球画像に基づいた仮想全天球映像の一部であり視野と呼ぶ。ＨＭＤ８２は、検出部が検出した視聴者の頭の動きに応じて表示する映像の範囲である視野を変更する機能を有する。

頭を上下左右に動かすことに応じて視聴している映像が変化するので、ＨＭＤ８２を頭に装着した視聴者は、仮想視点１１の位置から競技を見ているかのような映像を視聴することができる。このように、ＨＭＤ８２を装着した視聴者は、あたかも仮想視点１１に立って競技を観戦しているかのような臨場感のある映像を視聴することができる。

画像処理システム１において処理される画像は、図１２に示した従来の画像処理システム１で処理される画像と同様であるので、図１２を用いて画像処理システム１の動作について簡単に説明する。全天球カメラ２は、コート１０内の仮想視点１１に設置されて、図１３（Ａ）に示す背景画像２０を競技開始前に撮影する。競技が開始されるとカメラ群３の各カメラが撮影を開始する。例えば、カメラ群３内のカメラ３−１、３−２、３−３は、図１３（Ｂ）に示す部分画像２１〜２３を撮影する。

画像処理装置３０は、撮影された部分画像２１〜２３のそれぞれから仮想視点１１を含み、かつ、競技中の選手を含む領域２１１、２２１、２３１を切り出す。画像処理装置３０は、切り出した領域２１１、２２１、２３１の画像に対して、画像処理を行うことで背景画像２０に貼り付け可能な部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像処理装置３０は、背景画像２０に対して部分画像２１１ａ、２２１ａ、２３１ａを合成することで、図１３（Ｃ）に示すような仮想全天球画像２４を生成する。

なお、視聴システム９は、図１に示す構成に限定されるものではない。視聴システム９は、画像処理装置３０が生成した仮想全天球画像を編集してから画像サーバ６へ出力する編集装置を備える構成等、仮想全天球画像をネットワーク７経由で配信可能な構成であればよい。視聴装置８の構成は、ネットワーク７を介して受信した仮想全天球画像を利用者が視聴できる構成であれば、どのような構成であってもよい。

次に、図１に示す画像処理装置３０の構成について説明する。図２は、画像処理装置３０の基本構成例を示す図である。図２に示すように、画像処理装置３０は、オブジェクト解析部３１と、奥行取得部３２と、合成情報取得部３３と、画像入力部３４と、画像切り出し部３５と、画像合成部３６と、表示処理部３７と、キーボードやマウス等で構成され、奥行に関する情報を入力する入力部３８と、貼り合わせる部分画像の境界（継ぎ目）を決定する境界決定部３９と、カメラ群３の各カメラが撮影した前景画像を含む部分画像を格納する前景画像格納部３０１と、背景画像２０を格納する背景画像格納部３０２と、オブジェクト情報格納部３０３と、合成情報テーブル３０４とを備える。

オブジェクト解析部３１は、前景画像格納部３０１に格納されている部分画像を入力とし、部分画像に含まれるオブジェクトを抽出して、出力する。ここでオブジェクトとは、背景画像２０に含まれていないが部分画像に含まれている人物、物体（例えばボール）等である。オブジェクト解析部３１は、抽出したオブジェクトに対して当該オブジェクトを識別するための識別子であるＩＤを付与する。

カメラ群３の各カメラで撮影される部分画像は、所定のフレーム周期を有する動画像であり、各フレームには撮影時間が関連付けられている。オブジェクト解析部３１は、時間方向に一連のフレームから抽出した同一オブジェクトに対して同じＩＤを付与する。オブジェクト情報格納部３０３は、オブジェクトを抽出する対象とした部分画像のフレーム毎の撮影時刻に関連付けてオブジェクト解析部３１が付与したＩＤを含むオブジェクトに関する情報を格納する。

例えば、オブジェクト解析部３１は、カメラ３−１が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである部分画像２１から抽出したオブジェクトには、ＩＤ１の識別子を付与する。同様に、オブジェクト解析部３１は、カメラ３−２が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである部分画像２２から抽出したオブジェクトには、ＩＤ２の識別子を付与し、カメラ３−３が撮影した撮影時刻ｔ、ｔ＋１、ｔ＋２、…の一連のフレームである部分画像２３から抽出したオブジェクトには、ＩＤ３の識別子を付与する。

オブジェクト解析部３１は、部分画像を解析してオブジェクトを抽出する際に、オブジェクトの属性を示すラベルと、オブジェクトのコート１０上の空間における３次元的な位置情報である３次元位置情報とを取得する。ラベルの具体例としては、人物であることを示す「人」、ボールであることを示す「ボール」、物体Ａであることを示す「物体Ａ」、物体Ｂであることを示す「物体Ｂ」、…等のカメラ群３の撮影範囲を移動する可能性のある物体を識別する情報を用いる。

オブジェクト解析部３１は、オブジェクトを抽出するために部分画像を解析処理することで、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定して、その判定結果をラベルとして出力する。なお、オブジェクトが「人」、「ボール」、「物体Ａ」、「物体Ｂ」のいずれに該当するのかを解析・判定する手法としては、公知の画像解析技術を用いる。例えば、画像の解析により人を検出する技術を開示する文献として以下の公知文献１がある。
公知文献１：山内悠嗣、外２名、「[サーベイ論文] 統計的学習手法による人検出」、電子情報通信学会技術研究報告、vol.112、no.197、PRMU2012-43、pp.113-126、2012年9月

また、オブジェクト解析部３１は、部分画像内におけるオブジェクトの位置、オブジェクトを撮影したカメラ群３内の複数のカメラの位置及びその複数のカメラの撮影範囲（撮影方向及び画角）等の情報に基づいて、コート１０上の空間におけるオブジェクトの３次元位置を取得する。このオブジェクトの３次元位置を取得する手法としては、公知の技術を用いる。また、取得位置情報は、２次元位置の情報であってもよい。

オブジェクト情報格納部３０３は、オブジェクト解析部３１が抽出したオブジェクトに関する情報であるオブジェクト情報を入力とし、オブジェクト情報をその撮影時刻に関連付けて格納する。オブジェクト情報は、オブジェクトを識別するＩＤと、オブジェクトの属性を示すラベルと、オブジェクトの３次元位置とを含む。

図３は、オブジェクト情報格納部３０３に格納するオブジェクト情報の一例を示す図である。図３に示すように、部分画像の各フレームの撮影時刻を示す時刻ｔ、ｔ＋１、ｔ＋２、…に関連付けて複数のオブジェクト情報を格納している。時刻ｔにおいては、オブジェクト１のオブジェクト情報として、ＩＤ１、ラベル１、３次元位置情報１が格納され、オブジェクト２のオブジェクト情報として、ＩＤ２、ラベル２、３次元位置情報２が格納されている。時刻ｔ＋１、時刻ｔ＋２においても、同じ情報が格納されている。

奥行取得部３２は、オブジェクト情報格納部３０３よりオブジェクト情報を読み出して、各撮影時刻において、複数のオブジェクトの中から重要なオブジェクトである主オブジェクトを特定して、出力する。奥行取得部３２は、仮想視点１１から特定した主オブジェクトまでの距離である奥行に関する奥行情報を取得する。重要なオブジェクトとは、例えば、仮想全天球画像の中で視聴者が注視する領域に存在するオブジェクトである。

奥行取得部３２は、予め各撮影時刻における主オブジェクトを特定しておく。具体的には、仮想全天球画像を作成するコンテンツ作成者が、各撮影時刻において視聴者が注視すると推定される領域または視聴者が注視すると推定されるオブジェクトを特定する情報を入力部３８から入力する。これにより、奥行取得部３２は、入力された情報に基づいて各撮影時刻における主オブジェクトを特定する。奥行取得部３２において、主オブジェクトを特定する方法は、上述した方法に限定されるものではなく、色々な方法を用いてよい。例えば、撮影した部分画像における視聴者の興味の度合いを領域別に表したマップであるＳａｌｉｅｎｃｙＭａｐを求めて奥行取得部３２に入力する。奥行取得部３２では、入力されたＳａｌｉｅｎｃｙＭａｐに基づいて視覚的に顕著な領域に存在するオブジェクトを主オブジェクトとして特定してもよい。また、予め被験者に部分画像である動画を視聴させ、各撮影時刻においてどの領域を見ていたかという視聴ログを獲得し、その視聴ログを奥行取得部３２に入力し、入力された視聴ログに基づいて主オブジェクトを特定してもよい。

なお、ＳａｌｉｅｎｃｙＭａｐの求め方は公知の技術であり、例えば、以下の公知文献２に記載の技術を用いてもよい。
公知文献２：Laurent Itti, Christof Koch, and Ernst Niebur,"A Model of Saliency-Based Visual Attention for Rapid Scene Analysis",IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11):1254-1259 (1998)

合成情報テーブル３０４は、部分画像から仮想視点１１を含む領域を切り出すための切り出し領域に関する情報である切出領域情報と、その切り出し領域に応じて切り出した画像を部分画像に変換するための情報である変換情報とを含む合成情報を格納する。部分画像は、切り出した画像を背景画像２０の対応領域に違和感なく貼り付けるために、切り出した画像に対して上記変換情報に応じて拡大、縮小、回転等の変形処理を行って生成される。この変形処理は、例えば、画像に対してアフィン変換を施すことによって行う。画像に対してアフィン変換を施す場合の変換情報は、例えばアフィン変換行列である。以下、部分領域画像に対して行う変形処理としてアフィン変換を用いる例を示すが、変形処理はアフィン変換に限定される必要はなく、変換情報に応じて拡大、縮小、回転等による画像の変換を行う処理であればどのような処理であってもよい。合成情報テーブル３０４は、カメラ群３において処理対象となる部分画像を撮影したカメラを特定するカメラコードと、仮想視点１１からの奥行と、その奥行に応じたアフィン変換行列である変換情報と、その奥行に応じた切出領域情報とを対応づけて格納するテーブルである。

アフィン変換行列は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、仮想視点１１から複数種類の距離（奥行）の位置に格子模様のチェスボードを設置して、仮想視点１１に設置した全天球カメラ２で撮影したチェスボードを含む画像と、カメラ群３で撮影したチェスボードを含む画像とを比較する。そして両画像において、撮影したチェスボードの各格子が対応するように画像を変形するアフィン変換行列を求める。このようにして、チェスボードを設置した奥行に対応したアフィン変換行列を求める。

切出領域情報は、以下に示す方法により予め取得して合成情報テーブル３０４に記憶しておく。例えば、カメラ群３の内の隣接する２つのカメラで撮影された部分画像に同一の被写体（チェスボード）が存在する重複している領域がある場合は、一方の領域のみ残るように双方のカメラの画像に対する切り出し領域を設定する。切り出し領域は、仮想視点１１から被写体（チェスボード）まで複数種類の距離（奥行）について、カメラ群３に含まれるカメラ毎に求める。なお、双方のカメラの画像において、数画素〜数十画素の幅の重複領域を残すように切り出し領域を設定してもよい。

合成情報取得部３３は、奥行取得部３２が取得した奥行を入力とし、奥行に基づいて、合成情報テーブル３０４から、カメラ群３の各カメラで撮影された部分画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得して、出力する。なお、合成情報テーブル３０４に格納されている奥行は数種類〜数十種類なので、奥行取得部３２が取得した奥行と同じ値の奥行のテーブルが無い場合が想定される。このような場合は、合成情報取得部３３は、奥行取得部３２が取得した奥行の前後の値となる合成情報テーブル３０４に記録済の２つの奥行の値に対応する合成情報（切出領域情報及び変換情報）を用いて、奥行取得部３２が取得した奥行に対応する合成情報を算出する。具体的には、上記記録済の２つの奥行の値に対応する切出領域情報の切り出し領域の座標値を線形補間することにより、その中間に位置する切り出し領域を特定する。上記記録済の２つの奥行の値に対応するアフィン変換行列の各係数を線形補間することにより、その中間値となるアフィン変換行列を算出する。

前景画像格納部３０１は、各カメラを特定するカメラコードに関連付けてカメラ群３の各カメラで撮影した前景画像を含む部分画像を格納する。部分画像は、撮影時刻及び動画の画像データを含む。前景画像格納部３０１は、例えば、図１３（Ｂ）に示す部分画像２１を、カメラ３−１を特定するカメラコードに関連付けて格納し、部分画像２２を、カメラ３−３を特定するカメラコードに関連付けて格納し、部分画像２３を、カメラ３−３を特定するカメラコードに関連付けて格納する。

背景画像格納部３０２は、全天球カメラ２で撮影した全天球画像である背景画像２０を格納する。背景画像格納部３０２は、例えば、コート１０内の仮想視点１１に設置した天球カメラ２で撮影した図１３（Ａ）に示す背景画像２０を格納する。格納する背景画像２０は、１フレーム分の画像データでも所定時間分の動画の画像データでもよい。所定時間分の画像データを格納する場合は、背景画像２０において周期的に変化する部分（例えば電光掲示板が映っている部分があり、かつ、電光掲示板の表示内容が周期的に変化している部分。）があれば、その周期に応じた時間分の画像データを背景画像２０として格納すればよい。

画像処理装置３０が全天球カメラ２から背景画像２０を取得する構成はどのような構成であってもよい。例えば、画像処理装置３０が全天球カメラ２と有線または無線で通信可能な通信部を備えて、その通信部を介して背景画像２０を取得する構成であってもよい。また、全天球カメラ２に着脱可能な記録媒体を用いて当該記録媒体に背景画像２０を記録して、記録後の記録媒体を画像処理装置３０に接続して、画像処理装置３０が記録媒体から背景画像２０を読み出す構成により、背景画像２０を取得する構成であってもよい。また、画像処理装置３０が、カメラ群３から部分画像を取得する構成も全天球カメラ２の場合と同様にどのような構成であってもよい。

画像入力部３４は、部分画像格納部３０１から部分画像を取得し、背景画像格納部３０２から背景画像２０を取得して、部分画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する。画像切り出し部３５は、合成情報取得部３３が取得した合成情報に含まれる切出領域情報に基づいて、カメラ群３の各カメラからの部分画像に対応する切り出し領域を特定し、部分画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像切り出し部３５は、例えば、図１３（Ｂ）に示す部分画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出す処理を行う。

画像合成部３６は、画像切り出し部３５が切り出した画像と合成情報取得部３３が取得した合成情報と、背景画像を入力とし、画像切り出し部３５が切り出した画像に対して、合成情報取得部３３が取得した合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成することで仮想全天球画像を生成し、出力する。なお、アフィン変換行列は、背景画像２０において部分画像を貼り付ける領域を示す情報を含む。画像合成部３６は、生成した仮想全天球画像を画像サーバ６へ送信する機能を有する。

画像合成部３６は、例えば、図１３（Ｂ）に示す部分画像２１〜２３のそれぞれから切り出し領域２１１、２２１、２３１を切り出した画像に対して、アフィン変換行列に基づいた変形処理を行うことで、部分画像２１１ａ、２２１ａ、２３１ａを生成する。画像合成部３６は、例えば、背景画像２０に対して、部分画像２１１ａ、２２１ａ、２３１ａを所定の領域に貼り付けて合成することで図１３（Ｃ）に示す仮想全天球画像２４を生成する。

部分画像を背景画像２０に貼り付けて仮想全天球画像２４を生成した際に、隣り合う部分画像間の境界領域において重複が発生する場合がある。図４は、隣り合う部分画像間の境界領域において重複が発生する場合の具体例を示す図である。図４に示すように、仮想全天球画像２４に貼り付けた部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している。なお、図４に示す部分画像２１１ｂと部分画像２２１ｂが、図１３（Ｃ）に示した部分画像２１１ａ及び部分画像２２１ａと比較して異なる点は、両画像に重複する領域がある点である。

図４に示すように、部分画像２１１ｂと部分画像２２１ｂとが境界領域２５において重複している場合には、画像合成部３６は、重複している境界領域２５に対して以下に示すブレンディング（Ｂｌｅｎｄｉｎｇ）処理を行う。画像合成部３６は、Ｂｌｅｎｄｉｎｇパラメータαを定め、（式１）に基づいて重複領域２５の各ピクセルの値を算出する。
ｇ（ｘ、ｙ）＝αＩ_ｉ（ｘ、ｙ）＋（１−α）Ｉ_ｉ＋１（ｘ、ｙ） … （式１）

（式１）において、ｘ、ｙは、仮想全天球画像２４上における水平方向、垂直方向の座標である。ｇ（ｘ、ｙ）は、境界領域２５内の座標（ｘ、ｙ）の画素値の値である。Ｉ_ｉ（ｘ、ｙ）とＩ_ｉ＋１（ｘ、ｙ）は、カメラ群３内のカメラ３−ｉ及びカメラ３−（ｉ＋１）によって撮影された部分画像に基づいて生成された部分画像の座標（ｘ、ｙ）の画素値の値を表す。また、このαの値は重複領域２５で一定であるが、以下の（式２）に示すように変化させてもよい。
α（ｘ）＝（ｘ−ｘｓ）／（ｘｅ−ｘｓ） … （式２）
（式２）において、ｘｓ及びｘｅは、図４に示すように重複領域２５の両端のｘ座標であり、ｘｓ＜ｘｅである。

表示処理部３７は、画像合成部３６が出力する仮想全天球画像を入力とし、仮想全天球画像を表示装置５において表示可能な映像信号に変換して出力する。仮想全天球画像２４は、図１３（Ｃ）に示す通り、歪みを含む画像であり、かつ、仮想視点１１を中心とする３６０度の景色を含む画像であるので、表示処理部３７は、仮想全天球画像から表示装置５に表示させる範囲の画像を切り出して、切り出した画像の歪みを補正する機能を有する。

画像処理装置３０は、前景画像格納部３０１及び背景画像格納部３０２を備える構成としたが、これに限定されるものではない。例えば、前景画像格納部３０１及び背景画像格納部３０２を備える画像格納装置を別に設け、画像処理装置３０は、画像格納装置から前景画像格納部３０１及び背景画像格納部３０２を取得する構成であってもよい。

境界決定部３９は、画像合成部３６が出力する仮想全天球画像と合成情報を入力とし、前述した境界領域に対して、ブレンディング処理を行うのではなく、目に付きにくい境界線とすることにより、自然な画像合成を行うための境界領域を決定し、出力する。

次に、画像処理システム１において１フレームの仮想全天球画像を作成する動作について説明する。図５は、画像処理システム１において１フレームの仮想全天球画像を作成する動作を示すフロー図である。図５に示す動作は、各撮影時刻における仮想全天球画像を生成する処理の前に、予めオブジェクト情報、合成情報、背景画像２０及び部分画像を取得する処理も含まれる。

仮想視点１１に全天球カメラ２を設置し、仮想視点１１から所定の距離（奥行）にチェスボードを設置した後に、全天球カメラ２は、チェスボードを含む全天球画像を撮影する（ステップＳ１０１）。全天球カメラ２を仮想視点１１から取り去って、カメラ群３の各カメラで、仮想視点１１及びチェスボードを含む撮影範囲を撮影し、全天球カメラ２で撮影された全天球画像に含まれるチェスボードと、カメラ群３内の一つのカメラで撮影された画像に含まれるチェスボードとを対応させるための合成情報を求める（ステップＳ１０２）。なお、ステップＳ１０１、１０２におけるチェスボードの撮影は、仮想視点１１から複数種類の距離にチェスボードを設置して行われる。

仮想視点１１に全天球カメラ２を設置した後に、全天球カメラ２は、背景画像２０を撮影する（ステップＳ１０３）。撮影された背景画像２０は、背景画像格納部３０２に格納される。全天球カメラ２を仮想視点１１から取り去った後であって、例えば競技開始と共に、カメラ群３は撮影を開始する。これにより、画像処理装置３０は、カメラ群３が撮影した部分画像を前景画像格納部３０１に格納する。オブジェクト解析部３１は、前景画像格納部３０１から部分画像を読み出して解析処理し、解析結果をオブジェクト情報格納部３０３に格納する。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定する。奥行取得部３２は、仮想視点１１から特定した主オブジェクトまでの奥行情報を取得する（ステップＳ１０４）。

合成情報取得部３３は、奥行取得部３２が取得した奥行を入力とし、奥行に基づいて、合成情報テーブル３０４から、各部分画像に対応する切り出し領域及びアフィン変換行列を含む合成情報を取得して、出力する（ステップＳ１０５）。ステップＳ１０５において、合成情報取得部３３は、奥行取得部３２が取得した奥行と同じ値の奥行のテーブルが無い場合は、奥行取得部３２が取得した奥行の前後の値となる奥行に対応する合成情報に基づいて、奥行取得部３２が取得した奥行に対応する合成情報を求める。

画像切り出し部３５は、合成情報取得部３３が取得した合成情報に含まれる切出領域情報を入力とし、切出領域情報に基づいて、カメラ群３の各カメラからの部分画像に対応する切り出し領域を特定し、部分画像から特定した切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像と合成情報取得部３３が取得した合成情報と背景画像を入力とし、画像切り出し部３５が切り出した画像に対して、合成情報に含まれる変換情報のアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成することで仮想全天球画像を生成し、出力する（ステップＳ１０６）。

画像合成部３６は、背景画像２０に貼り付ける２つの部分画像間の境界領域において重複している場合には、重複している境界領域に対してブレンディング処理を行う（ステップＳ１０７）。

次に、画像処理装置３０が動画の仮想全天球画像を作成する基本動作について説明する。図６は、画像処理装置３０が動画の仮想全天球画像を作成する動作について説明する図である。図６の動作においては、図５に示したステップＳ１０１〜ステップＳ１０４における部分画像の撮影までの処理は既に終えているものとする。図６に示すように、画像処理装置３０は、最初の撮影時刻のフレームに対する処理を開始する（ステップＳ２０１）。

画像入力部３４は、前景画像格納部３０１から部分画像を取得し、背景画像格納部３０２から背景画像２０を取得して、部分画像を画像切り出し部３５へ出力し、背景画像２０を画像合成部３６へ出力する（ステップＳ２０２）。奥行取得部３２は、オブジェクト情報格納部３０３に格納されているオブジェクトの中から、入力部３８から入力された情報に基づいて主オブジェクトを特定して、特定した主オブジェクトまでの奥行を取得する（ステップＳ２０３）。

合成情報取得部３３は、奥行取得部３２が取得した奥行を入力とし、奥行に基づいて、合成情報テーブル３０４から、各部分画像に対応する合成情報を取得して、出力する（ステップＳ２０４）。画像切り出し部３５は、合成情報取得部３３が取得した合成情報を入力とし、合成情報に基づいて、部分画像から切り出し領域を切り出して、切り出した画像を画像合成部３６へ出力する。画像合成部３６は、画像切り出し部３５が切り出した画像と合成情報取得部３３が取得した合成情報と背景画像を入力とし、画像切り出し部３５が切り出した画像に対して、合成情報に含まれるアフィン変換行列に基づいて変形処理を行い、部分画像を生成する。画像合成部３６は、生成した部分画像をアフィン変換行列に基づいて背景画像２０に貼り付けて合成して、仮想全天球画像を生成して出力する（ステップＳ２０５）。画像処理装置３０は、次の撮影時刻の部分画像があればステップＳ２０１に戻りループを継続し、次の撮影時刻の部分画像がなければ、ループを終了する（ステップＳ２０６）。

以上に説明したように画像処理装置３０は、視聴者が注目する主オブジェクトに対応した奥行を求めて、求めた奥行に対応した部分画像の生成し、生成した部分画像を背景画像２０に貼り付けることで仮想全天球画像を生成することができる。これにより、画像処理装置３０は、仮想全天球画像に含まれる主オブジェクトである被写体において分身が起こったり、消失が起こったりすることを抑制することができる。画像処理装置３０は、視聴者の注目する被写体の奥行に応じた合成処理を行うことで、仮想全天球画像に含まれる視聴者の注目する被写体における分身の発生を抑制することができ、視聴品質の低下を抑制した仮想全天球画像を視聴者に提供することができる。

＜第１の実施形態＞
次に、本発明の第１の実施形態による画像処理装置を説明する。第１の実施形態は、前述した合成処理に用いる合成情報を求める処理について変形を加えたものである。ここで、図７を参照して仮想全天球画像の生成処理について簡単に説明する。図７は、仮想全天球画像の生成処理を示す模式図である。まず、カメラＣ_ｉ−１、Ｃ_ｉ、Ｃ_ｉ＋１によって入力画像を事前に獲得する。そして、得られた入力画像から前景となる切り出し画像Ｓ_ｉ−１、Ｓ_ｉ、Ｓ_ｉ＋１を切り出す。ここで、ｉは、カメラが並んだ順に付与された順番号である。切り出し画像Ｓに付与されたｉについてもｉの値が同じカメラから切り出したことを示している。また、アフィン変換パラメータＡについてもｉの値が同じカメラの画像に用いるアフィン変換パラメータを示している。図７は、３枚の切り出し画像Ｓ_ｉ−１、Ｓ_ｉ、Ｓ_ｉ＋１を合成する例を示している。切り出し画像の最低数は１枚である。

次に、切り出し画像Ｓ_ｉ−１、Ｓ_ｉ、Ｓ_ｉ＋１に対して、予め求めてあるアフィン変換パラメータＡ_ｉ−１、Ａ_ｉ、Ａ_ｉ＋１によって画像変換を行い、部分画像Ｓ’_ｉ−１、Ｓ’_ｉ、Ｓ’_ｉ＋１を生成する。アフィン変換パラメータには、並進移動の項も含まれる。そして、予め撮影してあった全天球画像Ｂと合成処理を行う。このように合成するようにすることにより、仮想視点Ｐｖからみた仮想全天球画像を生成することが可能となる。この仮想全天球画像をＨＤＭ８２によって、ユーザが見たい場面の方向へ視線を向けることにより、あたかもコート１０内の仮想視点１１のからフットサルの試合を観戦することが可能となる。

従来は、背景の画像（全天球画像Ｂ）が予め撮像した静止画であったものを本実施形態では動画にする。ただし、短い周期で同じ動作を繰り返していたり、自然につながっていない動画になっていると違和感の原因となるため、このような問題を同時に解決する。

短時間のループが連続していると、背景において同じ挙動が繰り返されるため不自然になるので、このようにならないようにする。そのための処理動作を図８〜図１１を参照して説明する。

まず第１の背景画像生成の処理動作を図８を参照して説明する。図８は、背景画像を生成する動作を示す説明図である。
（１）画像入力部３４は、背景動画を背景画像格納部３０２から読み込む。
（２）背景動画中の所定のＭフレーム（Ｍは２以上の自然数。５〜１０程度あればよい。）以上連続したフレーム画像（Ｍフレームの映像。以下、短時間区間の部分画像と記載。）毎に、同一背景動画中の別のＭフレームの映像（短時間区間の部分画像）との類似度を求め、予め定めた類似度のしきい値以上類似しているか否かで、類似する２以上のＭフレームの映像（短時間区間の部分画像）を探し、抽出する。例えば、画像（フレーム）間の類似度を求め、Ｍフレーム分の類似度の積算によって映像間の類似度とし、この類似度が所定の類似度のしきい値以上であれば、類似度を求めた映像同士が類似すると判定する。なお、予め定めたしきい値以上類似しているか否かという探索基準は一例である。複数の尺度に基づいて類似度を求め、それらが所定の基準を満たすか否かで、類似しているか否かを判定するようにすればよい。図８は、５つの類似する短時間区間を探し出した例を示している。
（３）（２）で抽出された短時間区間の部分画像の中から、予め定めた一定時間以上離れている２つの短時間区間の部分画像の組み合わせを選択する。
（４）（３）で選択された、似ている部分画像の組をつなぎ合わせて短時間の動画をループ再生して違和感のない動画を作成する。図８では、左から５番目（最後の短時間区間）の短時間区間と１番目（先頭の短時間区間）の短時間区間の部分画像をつなぎ合わせてループ再生することにより背景画像とする。図８においては、５番目の短時間区間と１番目の短時間区間とをつなぎ合わせる例を説明したが、必ず５番目と１番目をつなぎ合わせるのではなく、１回目の再生は、５番目と１番目とをつなぎ合わせ、２回目の再生では、５番目と、１番目から４番目のいずれかをつなぎ合わせることにより、常に異なった背景画像を再生することが可能となる。繰り返し再生の度に、先頭部分を変化させることによって違和感のないループ再生を行うことが可能となる。

次に、図９を参照して、第２の背景画像生成の処理動作を説明する。図９は、背景画像を生成する動作を示す説明図である。２つの短時間区間の一つの組のうち、時間的に前の部分画像をｄｓｔ、後の部分画像をｓｒｃと称することにする。
（１）画像入力部３４は、背景動画を背景画像格納部３０２から読み込む。
（２）図８と同様に、予め定めた類似度のしきい値以上類似している所定の数のＭ（Ｍは２以上の自然数）フレームが連続した２つの部分画像を探す。図９は、５つの類似する短時間区間を探し出した例を示している。５つの短時間区間を左から短時間区間１〜５と称する。
（３）どこかの短時間区間Ｘ（例えば短時間区間２）から、短時間区間Ｘよりも後ろの短時間区間（短時間区間３〜５）のいずれかまで再生する。
（４）後ろの短時間区間（例えば短時間区間３）まで再生したらそのまま再生を続けるか別の短時間区間点（短時間区間１〜４）へ移動して再生するかをランダムに決めて再生する。
（５）最後の短時間区間５まで再生したら、短時間区間１〜４のいずれかに戻って、（３）、（４）、（５）の処理を繰り返す。

次に、図１０を参照して、第３の背景画像生成の処理動作を説明する。図１０は、背景画像を生成する動作を示す説明図である。第３の背景画像生成処理では、２パターンの似ている短時間区間（図１０に示す例では、○と△の２パターンを示している）を探索する。
（１）画像入力部３４は、背景動画を背景画像格納部３０２から読み込む。
（２）図８と同様に、予め定めた類似度のしきい値以上類似している所定の数のＭ（Ｍは２以上の自然数）フレームが連続した２つの部分画像を２パターン探し出す。図１０は、３つの類似する第１短時間区間（○）と３つの第２短時間区間（△）を探し出した例を示している。
（３）つなぎ目では第１短時間区間同士、または第２短時間区間同士をつなぎ合わせる。図１０に示す例では第１短時間区間１から第２短時間区間１まで再生し、そして、第２短時間区間１と第２短時間区間２とつなぎ合わせて、第２短時間区間２から第１短時間区間２まで再生するという動作を繰り返し行う。ただし、再生する区間の先頭は、第１または第２短時間区間であり、再生する区間の最後も第１または第２短時間区間であってもよい。

第３の背景画像生成処理においては、どの区間を選択するかはランダムに選択すればよいが、つなぎ目は、同じパターンの短時間区間同士をつなぎ合わせる。すなわち、○は○同士、△は△同士をつなぎ合わせる。このように、つなぎ目においては、似ている短時間区間をつなぎ合わせるため、違和感なく背景画像を再生することができる。

次に、図１１を参照して、第４の背景画像生成の処理動作を説明する。第３背景画像生成の処理おいては、２パターンの似ている短時間区間を探索したが、第４の背景画像生成処理では、３パターンの似ている短時間区間を探索して背景画像の再生を行う。
（１）画像入力部３４は、背景動画を背景画像格納部３０２から読み込む。
（２）図８と同様に、予め定めた類似度しきい値以上類似している所定の数のＭ（Ｍは２以上の自然数）フレームが連続した２つの部分画像を３パターン探し出す。図１０は、２つの類似する第１短時間区間（○）と３つの第２短時間区間（△）と２つの第３短時間区間（□）を探し出した例を示している。
（３）つなぎ目では第１短時間区間同士、または第２短時間区間同士、または第３短時間区間同士をつなぎ合わせて再生するという動作を繰り返し行う。ただし、再生する区間の先頭は、第１または第２または第３短時間区間であり、再生する区間の最後も第１または第２、または第３短時間区間であってもよい。

第４の背景画像生成処理においては、どの区間を選択するかはランダムに選択すればよいが、つなぎ目は、同じパターンの短時間区間同士をつなぎ合わせる。すなわち、○は○同士、△は△同士、□は□同士をつなぎ合わせる。なお、探索すべき似ている短時間区間のパターン数は、４以上であってもよい。このように、つなぎ目においては、似ている短時間区間をつなぎ合わせるため、違和感なく背景画像を再生することができる。

このように、入力映像中にある、類似する複数個の短時間区間（Ｍフレーム）のうち、最初の短時間区間から始まり、最後の短時間区間で終わる映像区間（短時間の動画）を得て、得られた映像区間（短時間の動画）を繰り返して繋ぎ合わせて再生用の背景映像（長時間映像）を得る。

また、入力映像中にある、類似する複数個の短時間区間（Ｍフレーム）のうち、何れか１つの短時間区間から始まり、それ以降にある短時間区間で終わる映像区間（短時間の動画）を複数個得て、得られた複数個の映像区間（短時間の動画）を重複を許してランダムに繋ぎ合わせて再生用の背景映像（長時間映像）を得る。

前述した処理動作において、共通する処理動作は、入力映像中にある、類似する複数個の短時間区間（Ｍフレーム）のうち、何れか１つの短時間区間から始まり、それ以降にある短時間区間を繋ぎ合わせて再生用の背景映像（長時間映像）を得る。

＜第２の実施形態＞
次に、本発明の第２の実施形態による画像処理装置を説明する。第２の実施形態では、複数領域に分割して、領域毎に第１の実施形態の処理動作を行う。第２の実施形態は、より周期が長い映像を作成するものである。領域間を移動するオブジェクトが存在しない小領域に分割して、第１の実施形態を適用する。例えばサッカーであれば、観客は水平方向への移動をほとんど含まないので複数の領域に分割することは容易である。複数の領域毎に、異なる周期のループで動画を作成すれば、全体を通してみると非常に長い周期の動画とすることができる。

第２の実施形態による画像入力部３４の処理動作（ａ）、（ｂ）を説明する。
（ａ）背景動画を背景画像格納部３０２から読み込む。
（ｂ）前景が領域外に移動しない複数の領域に分割する。すなわち、横切るオプティカルフローが存在しないように領域分割する。
以降は、第１の実施形態における背景画像生成処理と同様の処理動作を行う。
そして、最後に、領域毎に作成した映像を、合成する。

なお、繋ぎ合わせ部分等で、映像がうまく繋がるような映像の加工を施してもよい。例えば、よりきれいにするためにスムージングしてもよい。また、照明環境の変化が滑らかになるようにつなぐなどしてもよい。短時間区間１のＮフレームと短時間区間２のＮフレームを並べてつないでも、スムージングのためのαフレームを挟んでＮ＋α＋Ｎフレームとしてつないでも、片方の短時間区間のＮフレームを削除してつないでもよい。

以上説明したように、入力映像映像（＝再生したい時間よりは短時間の映像）から、全天球映像の背景映像などの長時間映像（＝なんとなく映像に見えればいい映像）を、簡易に生成するため、類似しているところをつなげば不連続点が気にならなくなるため、映像を見ている者に違和感を与えることがない。

前述した実施形態における画像処理装置の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるものであってもよく、ＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されるものであってもよい。

以上、図面を参照して本発明の実施の形態を説明してきたが、上記実施の形態は本発明の例示に過ぎず、本発明が上記実施の形態に限定されるものではないことは明らかである。したがって、本発明の技術思想及び範囲を逸脱しない範囲で構成要素の追加、省略、置換、その他の変更を行ってもよい。

違和感のない背景画像を合成することにより視聴品質の低下を抑制した仮想全天球画像を生成することが不可欠な用途にも適用できる。

１０・・・コート、１１・・・仮想視点、１・・・画像処理システム、２・・・全天球カメラ、３・・・カメラ群、５・・・表示装置、３０・・・画像処理装置、２０・・・背景画像、６・・・画像サーバ、７・・・ネットワーク、８・・・視聴装置、８１・・・ユーザ端末、８２・・・ＨＭＤ、９・・・視聴システム、３１・・・オブジェクト解析部、３２・・・奥行取得部、３３・・・合成情報取得部、３４・・・画像入力部、３５・・・画像切り出し部、３６・・・画像合成部、３７・・・表示処理部、３８・・・入力部、３０１・・・前景画像格納部、３０２・・・背景画像格納部、３０３・・・オブジェクト情報格納部、３０４・・・合成情報テーブル

Claims

全天球画像による背景映像を再生する画像処理装置であって、
予め蓄積された映像中において、所定の映像区間を抽出し、つなぎ合わせて再生する際に、つなぎ目部分前後の部分映像が類似した映像となるように前記映像区間を抽出する背景映像再生手段を備え、
前記背景映像再生手段は、
予め蓄積された映像中において、類似する短時間区間を複数抽出し、前記短時間区間で始まり、他の短時間区間で終わる再生すべき映像区間の終わりと、次に続く前記映像区間の始まりが類似している前記短時間区間をつなぎ合わせて前記背景映像を生成して再生する画像処理装置。
前記背景映像再生手段は、前記短時間区間で始まり、他の前記短時間区間で終わる背景映像区間をランダムに選択してつなぎ合わせて再生する請求項１に記載の画像処理装置。
前記背景映像再生手段は、
生成した前記背景映像を繰り返し再生する請求項１又は２に記載の画像処理装置。
全天球画像による背景映像を再生する画像処理装置が行う画像処理方法であって、
予め蓄積された映像中において、所定の映像区間を抽出し、つなぎ合わせて再生する際に、つなぎ目部分前後の部分映像が類似した映像となるように前記映像区間を抽出する背景映像再生ステップを有し、
前記背景映像再生ステップにおいて、
予め蓄積された映像中において、類似する短時間区間を複数抽出し、前記短時間区間で始まり、他の短時間区間で終わる再生すべき映像区間の終わりと、次に続く前記映像区間の始まりが類似している前記短時間区間をつなぎ合わせて前記背景映像を生成して再生する画像処理方法。
コンピュータを、請求項１から３のいずれか１項に記載の画像処理装置として機能させるための画像処理プログラム。