JP2018191254A

JP2018191254A - 画像処理装置、画像処理方法、情報処理装置、撮像装置および画像処理システム

Info

Publication number: JP2018191254A
Application number: JP2017094877A
Authority: JP
Inventors: 松崎　英一; Eiichi Matsuzaki; 英一松崎
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-05-11
Filing date: 2017-05-11
Publication date: 2018-11-29
Anticipated expiration: 2037-05-11
Also published as: US20180330163A1; JP6871801B2

Abstract

【課題】仮想視点画像の生成に用いるべきでない不適画像が含まれる場合であっても、仮想視点画像を生成できるようにする【解決手段】画像処理装置は、複数の撮像手段により得られた複数の撮像画像と仮想視点の位置および方向とに基づいて仮想視点画像を生成するための生成処理の一部を、当該撮像画像に対して行って処理済み情報を取得する。また当該撮像画像が仮想視点画像の生成に適しているか否かを判定する。そして、前記撮像画像が仮想視点画像の生成に適していると判定された場合には上記の処理済み情報を送信し、前記仮想視点画像の生成に適していないと判定された場合には、所定の不適情報を送信する。【選択図】図６

Description

本発明は、画像処理装置、画像処理方法、情報処理装置、撮像装置および画像処理システムに関する。

昨今、複数のカメラを異なる位置に設置して同期撮影を行い、当該撮影により得られた複数視点画像を用いて仮想視点コンテンツを生成する技術が注目されている。このような仮想視点コンテンツを生成する技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることが出来る。複数視点画像に基づく仮想視点コンテンツの生成は、複数のカメラが撮影した画像をサーバなどの画像処理部に集約し、この画像処理部にて三次元モデル生成、レンダリングなどの処理を施すことで実現される。特許文献１には、複数のカメラで同一の範囲を取り囲むように配置して、その同一の範囲を撮影した画像を用いて、仮想視点画像を生成することが開示されている。

特開２０１４−２１５８２８号公報

上記のような複数のカメラによる撮像画像の中には、仮想視点画像の生成のために用いるべきでない画像（不適画像）が存在する恐れがある。不適画像の例としては、例えば、カメラレンズに付着した異物が映り込んだ画像、カメラ前の観客が立ち上がった際に映り込んだ画像、及び、カメラ前の応援団が振る旗が映り込んだ画像などがある。複数のカメラの撮像画像に不適画像が含まれる場合であっても、仮想視点画像の生成を可能とするシステムが望まれる。

本発明は、上記の課題に鑑みてなされたものであり、仮想視点画像の生成のために設置された複数のカメラによる複数の撮像画像に、仮想視点画像の生成に用いるべきでない不適画像が含まれる場合であっても、仮想視点画像を生成できるようにすることを目的とする。

上記の目的を達成するための本発明の一態様による画像処理装置は以下の構成を備える。すなわち、
撮像手段が撮像した撮像画像を取得する取得手段と、
複数の撮像手段により得られた複数の画像と仮想視点の位置および方向とに基づいて仮想視点画像を生成するための生成処理の一部を、前記撮像画像に行って処理済み情報を得る処理手段と、
前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定する判定手段と、
前記判定手段により前記撮像画像が前記生成に適していると判定された場合には前記処理済み情報を送信し、前記判定手段により前記撮像画像が前記仮想視点画像の生成に適していないと判定された場合には、前記撮像画像が仮想視点画像の生成に適しないことを示す不適情報を送信する送信手段と、を備える。

本発明によれば、仮想視点画像の生成のために設置された複数のカメラによる複数の撮像画像に、仮想視点画像の生成に用いるべきでない不適画像が含まれる場合であっても、仮想視点画像を生成できる。

実施形態による仮想視点コンテンツを生成する画像処理システムの構成図。カメラアダプタの構成例を示すブロック図。第１実施形態のカメラアダプタにおける画像情報の処理を説明する図。自カメラ画像、オブジェクト抽出画像、背景画像の例を示す図。自カメラ画像、オブジェクト抽出画像、背景画像の例を示す図。第１実施形態に係るカメラアダプタの処理を示すフローチャート。仮想カメラ画像生成の処理を示すシーケンス図。仮想カメラ操作ＵＩによる処理を示すフローチャート。仮想カメラ操作ＵＩ３３０での表示画面の一例を示す図。仮想カメラの操作の一例を示す図。第２実施形態のカメラアダプタにおける画像情報の処理を説明する図。第２実施形態のカメラアダプタの処理を示すフローチャート。第３実施形態のカメラアダプタの処理を示すフローチャート。

＜第１実施形態＞
図１は、画像処理システム１００の構成例を示すブロック図である。画像処理システム１００では、競技場（スタジアム）やコンサートホールなどの施設に設置された複数のカメラ及びマイクを用いて撮影及び集音が行われる。画像処理システム１００は、センサシステム１１０ａ〜センサシステム１１０ｚ、画像コンピューティングサーバ２００、コントローラ３００、スイッチングハブ１８０、及びエンドユーザ端末１９０を有する。カメラアダプタ１２０ａ〜１２０ｚ、画像コンピューティングサーバ２００、コントローラ３００は、それぞれＣＰＵ、メモリを含むコンピュータ装置である。以下に説明されるカメラアダプタ１２０ａ〜１２０ｚ、画像コンピューティングサーバ２００、コントローラ３００の動作は、それぞれの装置においてＣＰＵがメモリに格納されたプログラムを実行することにより実現され得る。あるいは、各動作の一部または全体が専用のハードウエアにより実現されてもよい。

コントローラ３００は制御ステーション３１０と仮想カメラ操作ＵＩ３３０を有する情報処理装置である。制御ステーション３１０は画像処理システム１００を構成するそれぞれのブロックに対してネットワーク３１０ａ〜３１０ｃ、１８０ａ、１８０ｂ、及びデイジーチェーン１７０ａ〜１７０ｙを通じて動作状態の管理及びパラメータ設定制御などを行う。ここで、ネットワークはＥｔｈｅｒｎｅｔ（登録商標）であるＩＥＥＥ標準準拠のＧｂＥ（ギガビットイーサーネット）や１０ＧｂＥでもよいし、インターコネクトＩｎｆｉｎｉｂａｎｄ、産業用イーサーネット等を組合せて構成されてもよい。また、これらに限定されず、他の種別のネットワークであってもよい。

センサシステム１１０ａ〜センサシステム１１０ｚで得られた２６セットの画像及び音声をセンサシステム１１０ｚから画像コンピューティングサーバ２００へ送信する動作を説明する。本実施形態の画像処理システム１００は、センサシステム１１０ａ〜センサシステム１１０ｚがデイジーチェーン１７０ａ〜１７０ｙにより接続されている。

本明細書において、特別な説明がない場合は、センサシステム１１０ａからセンサシステム１１０ｚまでの２６セットのシステムを区別せずセンサシステム１１０と記載する。それぞれのセンサシステム１１０内の装置についても同様に、特に区別する必要がない場合は、マイク１１１、カメラ１１２、雲台１１３、外部センサ１１４、及びカメラアダプタ１２０と記載する。なお、センサシステムの台数として２６セットと記載しているが、あくまでも一例であり、台数をこれに限定するものではない。尚、本実施形態では、特に断りがない限り、画像という文言が、映像、動画、静止画の概念を含むものとして説明する。すなわち、本実施形態の画像処理システム１００は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像処理システム１００により提供される仮想視点コンテンツには、仮想視点画像と仮想視点音声が含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくても良い。また例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。

本実施形態のセンサシステム１１０ａ〜センサシステム１１０ｚは、それぞれ１台ずつのカメラ１１２ａ〜カメラ１１２ｚを有する。即ち、画像処理システム１００は、被写体を複数の方向から撮影するための複数のカメラを有する。複数のセンサシステム１１０同士はデイジーチェーンにより接続される。この接続形態により、撮影画像の４Ｋや８Ｋなどへの高解像度化及び高フレームレート化に伴う画像データの大容量化において、接続ケーブル数の削減や配線作業の省力化ができる効果がある。尚、これに限らず、接続形態として、センサシステム１１０ａ〜１１０ｚの各々がスイッチングハブ１８０に接続されて、スイッチングハブ１８０を経由してセンサシステム１１０間のデータ送受信を行うスター型のネットワーク構成としてもよい。

センサシステム１１０ａはマイク１１１ａ、カメラ１１２ａ、雲台１１３ａ、外部センサ１１４ａ、及びカメラアダプタ１２０ａを有する。尚、この構成に限定されるものではなく、センサシステム１１０ａは、少なくとも１台のカメラアダプタ１２０ａ、１台のカメラ１１２ａまたは１台のマイク１１１ａを有していれば良い。例えば、センサシステム１１０ａは１台のカメラアダプタ１２０ａと、複数のカメラ１１２ａで構成されてもよいし、１台のカメラ１１２ａと複数のカメラアダプタ１２０ａで構成されてもよい。即ち、画像処理システム１００内の複数のカメラ１１２と複数のカメラアダプタ１２０はＮ対Ｍ（ＮとＭは共に１以上の整数）で対応する。

外部センサ１１４ａは、カメラ１１２ａの振動を表す情報を取得する。外部センサ１１４ａは、たとえばジャイロなどで構成され得る。外部センサ１１４ａにより取得された振動情報は、カメラアダプタ１２０ａにおいて、カメラ１１２ａにて撮影された画像の振動を抑えるために用いることができる。マイク１１１ａにて集音された音声と、カメラ１１２ａにて撮影された画像は、カメラアダプタ１２０ａにおいて後述の画像処理が施された後、デイジーチェーン１７０ａを通してセンサシステム１１０ｂのカメラアダプタ１２０ｂに伝送される。同様にセンサシステム１１０ｂは、集音された音声と撮影された画像を、センサシステム１１０ａから取得した画像及び音声と合わせてセンサシステム１１０ｃに伝送する。

なお、センサシステム１１０は、マイク１１１、カメラ１１２、雲台１１３、外部センサ１１４、及びカメラアダプタ１２０以外の装置を含んでいてもよい。また、カメラ１１２とカメラアダプタ１２０が一体となって構成されていてもよい。さらに、カメラアダプタ１２０の機能の少なくとも一部をフロントエンドサーバ２３０が有していてもよい。本実施形態では、センサシステム１１０ｂ〜１１０ｚについては、センサシステム１１０ａと同様の構成を有する。なお、すべてのセンサシステム１１０が同じ構成である必要はなく、其々のセンサシステム１１０が異なる構成でもよい。

センサシステム１１０ａ〜センサシステム１１０ｚが取得した画像及び音声は、センサシステム１１０ｚから１８０ｂを用いてスイッチングハブ１８０に伝わり、その後、画像コンピューティングサーバ２００へ伝送される。尚、本実施形態では、カメラ１１２とカメラアダプタ１２０が分離された構成としているが、同一筺体で一体化されていてもよい。その場合、マイク１１１は一体化されたカメラ１１２に内蔵されてもよいし、カメラ１１２の外部に接続されていてもよい。

次に、画像コンピューティングサーバ２００の構成及び動作について説明する。本実施形態の画像コンピューティングサーバ２００は、センサシステム１１０ｚから取得したデータ（センサシステム１１０ａ〜センサシステム１１０ｚで取得された画像及び音声）の処理を行う。画像コンピューティングサーバ２００はフロントエンドサーバ２３０、データベース２５０、バックエンドサーバ２７０、タイムサーバ２９０を有する。

タイムサーバ２９０は時刻及び同期信号を配信する機能を有し、スイッチングハブ１８０を介してセンサシステム１１０ａ〜センサシステム１１０ｚに時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ１２０ａ〜１２０ｚは、カメラ１１２ａ〜１１２ｚを時刻と同期信号をもとにゲンロック（Ｇｅｎｌｏｃｋ）を行うことで画像フレーム同期を実現する。即ち、タイムサーバ２９０は、複数のカメラ１１２の撮影タイミングを同期させる。これにより、画像処理システム１００は同じタイミングで撮影された複数の撮影画像に基づいて仮想視点画像を生成できるため、撮影タイミングのずれによる仮想視点画像の品質低下を抑制できる。尚、本実施形態ではタイムサーバ２９０が複数のカメラ１１２の時刻同期を管理するものとするが、これに限らず、時刻同期のための処理を各々のカメラ１１２又は各々のカメラアダプタ１２０が独立して行ってもよい。

フロントエンドサーバ２３０は、センサシステム１１０ｚから取得した画像及び音声から、セグメント化された伝送パケットを再構成してデータ形式を変換した後に、カメラの識別子やデータ種別、フレーム番号に応じてデータベース２５０に書き込む。バックエンドサーバ２７０では、仮想カメラ操作ＵＩ３３０から受け付けた視点に基づいて、データベース２５０から対応する画像及び音声データを読み出し、レンダリング処理を行って仮想視点画像を生成する。

尚、画像コンピューティングサーバ２００の構成は上記に限らない。例えば、フロントエンドサーバ２３０、データベース２５０、及びバックエンドサーバ２７０のうち少なくとも２つが一体となって構成されていてもよい。また、フロントエンドサーバ２３０、データベース２５０、及びバックエンドサーバ２７０の少なくとも何れかが複数含まれていてもよい。また、画像コンピューティングサーバ２００内の任意の位置に上記の装置以外の装置が含まれていてもよい。さらに、画像コンピューティングサーバ２００の機能の少なくとも一部をエンドユーザ端末１９０や仮想カメラ操作ＵＩ３３０が有していてもよい。

レンダリング処理された画像は、バックエンドサーバ２７０からエンドユーザ端末１９０に送信される。これにより、エンドユーザ端末１９０を操作するユーザは視点の指定に応じた画像の閲覧及び音声の視聴が出来る。すなわち、バックエンドサーバ２７０は、複数のカメラ１１２により撮影された撮影画像（複数視点画像）と視点情報とに基づく仮想視点コンテンツを生成する。より具体的には、バックエンドサーバ２７０は、例えば複数のカメラアダプタ１２０により複数のカメラ１１２による撮影画像から抽出された所定領域の画像データと、ユーザ操作により指定された視点に基づいて、仮想視点コンテンツを生成する。バックエンドサーバ２７０は、生成した仮想視点コンテンツをエンドユーザ端末１９０に提供する。カメラアダプタ１２０による所定領域の抽出の詳細については後述する。

本実施形態における仮想視点コンテンツは、仮想的な視点から被写体を撮影した場合に得られる画像としての仮想視点画像を含むコンテンツである。言い換えると、仮想視点画像は、指定された視点における見えを表す画像であるとも言える。仮想的な視点（仮想視点）は、ユーザにより指定されても良いし、画像解析の結果等に基づいて自動的に指定されても良い。すなわち仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像（自由視点画像）が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で指定した視点に対応する画像も、仮想視点画像に含まれる。

尚、本実施形態では、仮想視点コンテンツに音声データ（オーディオデータ）が含まれる場合の例を中心に説明するが、必ずしも音声データが含まれていなくても良い。また、バックエンドサーバ２７０は、仮想視点画像をＨ．２６４やＨＥＶＣに代表される標準技術により圧縮符号化したうえで、ＭＰＥＧ−ＤＡＳＨプロトコルを使ってエンドユーザ端末１９０へ送信してもよい。また、仮想視点画像は、非圧縮でエンドユーザ端末１９０へ送信されてもよい。圧縮符号化を行う前者はエンドユーザ端末１９０としてスマートフォンやタブレットを想定しており、後者は非圧縮画像を表示可能なディスプレイを想定している。すなわち、バックエンドサーバ２７０は、エンドユーザ端末１９０の種別に応じて画像フォーマットを切り替え可能である。また、画像の送信プロトコルはＭＰＥＧ−ＤＡＳＨに限らず、例えば、ＨＬＳ（ＨＴＴＰＬｉｖｅＳｔｒｅａｍｉｎｇ）やその他の送信方法が用いられても良い。尚本構成に限らず、例えば、仮想カメラ操作ＵＩ３３０がセンサシステム１１０ａ〜１１０ｚから直接に画像を取得する事も可能である。

このように、画像処理システム１００においては、複数のカメラ１１２により被写体を複数の方向から撮影して得られた画像データに基づいて、バックエンドサーバ２７０が仮想視点画像を生成する。尚、本実施形態における画像処理システム１００は、上記で説明した物理的な構成に限定される訳ではなく、論理的に構成されていてもよい。

次に、本実施形態におけるカメラアダプタ１２０の構成例について図２を用いて説明する。カメラアダプタ１２０は、画像入力部１２１、データ受信部１２２、判定部１２３、分離部１２４、生成部１２５、記憶部１２６、符号化部１２７、及びデータ送信部１２８を有する。

画像入力部１２１は、ＳＤＩ（ＳｅｒｉａｌＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）等の規格に対応した入力インタフェースである。画像入力部１２１は、カメラアダプタ１２０に接続された撮像部としてのカメラ１１２が撮像した撮像画像（自カメラ画像）を受信し、記憶部１２６に書き込む。また、画像入力部１２１は、ＳＤＩに重畳される補助データ（ＡｎｃｉｌｌａｒｙＤａｔａ）を捕捉する。補助データには、ズーム率、露出、色温度などといったカメラパラメータやタイムコードなどが含まれる。補助データは、カメラアダプタ１２０に含まれる各処理ブロックで使用される。

データ受信部１２２は、上流のセンサシステム１１０におけるカメラアダプタ１２０と接続される。上流側のカメラアダプタ１２０で生成された前景画像（以後、上流前景画像）、背景画像（以後、上流背景画像）、三次元モデル情報（以後、上流三次元モデル情報）などを受信する。データ受信部１２２は、受信したデータを記憶部１２６へ書き込む。なお、前景画像（上流前景画像）は、オブジェクト抽出画像（上流オブジェクト抽出画像）ともいう。

判定部１２３は、自カメラ画像が仮想視点コンテンツを生成するのに不向きな画像であるか否かを判定する。以下、仮想視点コンテンツを生成するのに不向きな画像を不適画像と称する。判定部１２３は、記憶部１２６に格納されている自カメラ画像や上流オブジェクト抽出画像、分離部１２４が生成した背景画像などを用いて判定する。判定結果は、カメラアダプタ１２０に含まれる各処理ブロックに通知されるとともに、ネットワークを介してコントローラ３００に通知される。以下、不適画像と判定されたことを示す情報を不適情報と称する。

分離部１２４は、自カメラ画像を前景画像と背景画像に分離する。すなわち、カメラアダプタ１２０に含まれる分離部１２４は、複数のカメラ１１２のうち対応するカメラ１１２による撮影画像から所定領域を抽出する。所定領域は例えば撮影画像に対応するオブジェクト検出の結果により得られる前景画像であり、この抽出により分離部１２４は、撮影画像を前景画像と背景画像に分離する。尚、オブジェクトとは、例えば人物である。但し、オブジェクトが特定人物（選手、監督、及び／又は審判など）であっても良いし、ボールやゴールなど画像パターンが予め定められている物体であっても良い。また、オブジェクトとして動体が検出されるようにしても良い。

以上のように、人物等の重要なオブジェクトを含む前景画像とそのようなオブジェクトを含まない背景領域を分離して処理することで、画像処理システム１００において生成される仮想視点画像の上記のオブジェクトに該当する部分の画像の品質を向上できる。なお、背景画像に人物が含まれることもある。背景画像に含まれる人物として典型的な例は、観客である。また、審判をオブジェクトとして抽出しないケースも考えられる。また、前景と背景の分離をそれぞれのカメラアダプタ１２０で行うことで、複数のカメラ１１２を備えた画像処理システム１００における負荷を分散させることができる。なお、所定領域は前景画像に限らず、例えば背景画像であってもよい。

生成部１２５は、分離部１２４で分離された前景画像および記憶部１２６に格納されている上流前景画像を利用し、例えばステレオカメラの原理を用いて三次元モデルに関わる画像情報（以後、三次元モデル情報と呼ぶ）を生成する。記憶部１２６は、ハードディスクなどの磁気ディスク、不揮発性メモリや揮発性メモリなどの記憶装置である。記憶部１２６は、自カメラ画像、前景画像、背景画像、プログラム、データ受信部１２２を経由して上流のカメラアダプタから受信した画像群、などを記憶する。以上、分離部１２４で生成された前景画像および背景画像と、生成部１２５で生成された三次元モデル情報は、仮想視点コンテンツの生成に用いられる。すなわち、分離部１２４、生成部１２５は、複数の撮像装置により得られた複数の撮像画像を用いて仮想視点画像を生成するための生成処理の一部を、取得された撮像画像に行って処理済み情報を得る処理部の一例である。実施形態において、処理済み情報とは、前景画像、背景画像、三次元モデル情報である。

符号化部１２７は、自カメラで撮影された画像の圧縮符号化処理を行う。圧縮符号化処理はＪＰＥＧやＭＰＥＧに代表される標準技術を使って行われる。データ送信部１２８は、下流のセンサシステム１１０におけるカメラアダプタ１２０と接続され、符号化処理後の自カメラ画像や前景画像、背景画像、三次元モデル情報、上流のカメラアダプタから受信した画像群などを送信する。

次に、センサシステム１１０ｂのカメラアダプタ１２０ｂにて画像情報が処理される様子について図３を使用して説明する。経路４０１は、カメラ１１２ｂから入力される画像情報が処理される経路を示し、経路４０２は、カメラアダプタ１２０ａから受信したデータが処理される経路を示す。

カメラ１１２ｂから入力される画像情報は画像入力部１２１を介してカメラアダプタ１２０ｂに入力され、一旦、カメラアダプタ１２０ｂの記憶部１２６に保存される（経路４０１）。保存された画像情報は、たとえば、図２で説明した判定部１２３、分離部１２４、生成部１２５、符号化部１２７での処理に使用される。分離部１２４、生成部１２５、符号化部１２７にて生成された画像情報も記憶部１２６に記憶される。カメラアダプタ１２０ａからのデータは、データ受信部１２２を介してカメラアダプタ１２０ｂに入力され、一旦、記憶部１２６に保存される（経路４０２）。記憶部１２６に保存されたカメラアダプタ１２０ａからのデータは、たとえば、生成部１２５での三次元モデル情報生成等に使用される。記憶部１２６に保存されている自カメラ画像から生成した前景画像、背景画像、三次元モデル情報、及び上流のカメラアダプタ１２０ａから受信した画像群は、データ送信部１２８を介して下流のカメラアダプタ１２０ｃへ出力される（経路４０１，４０２）。

次に、図４と図５に示す画像群と、図６に示すフローチャート図を用いて、判定部１２３にて自カメラ画像が仮想視点コンテンツを生成するのに不向きな画像（不適画像）であると判定された場合のカメラアダプタ１２０の処理について説明する。

図４は、カメラ１１２ａにて撮影される画像、及びカメラアダプタ１２０ａにて生成される前景画像（オブジェクト画像）と背景画像の一例を示したものである。図４（ａ）に示すカメラ１１２ａにて撮影される自カメラ画像５００には、グランド５１１と、選手５１２、選手５１３、選手５１４、及びボール５１５のオブジェクトが含まれている。分離部１２４では、図４（Ａ）に示す自カメラ画像５００から図４（ｂ）に示す前景画像５１０と図４（ｃ）に示す背景画像５２０を分離、生成し、記憶部１２６に保存する。前景画像５１０には、選手５１２、選手５１３、選手５１４、及びボール５１５のオブジェクトのみが含まれており、背景部分５１６は、例えば黒などの単色で塗り潰されているものとする。一方、背景画像５２０には自カメラ画像５００から選手５１２、選手５１３、選手５１４、及びボール５１５のオブジェクトが除かれ、グランド５１１が再現されて含まれている。

カメラアダプタ１２０にて撮影された画像が処理される様子を、図６に示すフローチャートを用いて以下に説明する。まず、図４に示したように、カメラ１１２から得られた画像が不適画像ではない場合について説明する。

カメラアダプタ１２０において、カメラ１１２による撮影を実行するための指示（撮影指示）を受け付けると（Ｓ６０１）、画像入力部１２１はカメラ１１２からの画像（自カメラ画像）を１フレーム分取得する（Ｓ６０２）。なお、撮影指示は、たとえばデータ受信部１２２から受け付けることができる。分離部１２４は、自カメラ画像から前景画像５１０と背景画像５２０を生成する画像処理を実行し、生成した前景画像と背景画像を記憶部１２６に保存する（Ｓ６０３）。次に、判定部１２３は、自カメラ画像が仮想視点コンテンツを生成するのに不向きな不適画像であるかどうかの判定を行う（Ｓ６０４）。不適画像でなければ（Ｓ６０４でＮＯ）、符号化部１２７がＳ６０４で取得された前景画像５１０と背景画像５２０に圧縮符号化処理を施す（Ｓ６０５）。データ送信部１２８は、圧縮符号化された前景画像５１０と背景画像５２０を、音声データとともに伝送プロトコル規定のパケットサイズにセグメント化した上で、後段のセンサシステムへ出力する（Ｓ６０６）。

以上が、カメラ１１２から得られた画像が不適画像ではなかった場合の処理例である。次に、カメラ１１２から得られた画像が不適画像であった場合の処理例を、図５および図６を参照して説明する。

図５は、自カメラ画像が不適画像と判定される場合の画像例（（ａ）自カメラ画像、ｂＢ）前景画像、（ｃ）背景画像）を示す図である。図５（ａ）に示すカメラ１１２ｂにて撮影される自カメラ画像６００には、図４（ａ）で示したカメラ１１２ａの自カメラ画像５００と同様にグランド５１１と、選手５１２、５１３、５１４、及びボール５１５のオブジェクトと、旗５１７が含まれている。分離部１２４では、図５（ａ）に示す自カメラ画像６００から図５（ｂ）に示す前景画像６１０と図５（ｃ）に示す背景画像６２０が生成され、記憶部１２６に保存される。前景画像６１０には、旗５１７、選手５１２、選手５１３、選手５１４、及びボール５１５のオブジェクトのみが含まれており、背景部分６１６は、例えば黒などの単色で塗り潰されているものとする。背景画像６２０には自カメラ画像６００から旗５１７、選手５１２、選手５１３、選手５１４、及びボール５１５のオブジェクトが除かれ、グランド５１１が再現されて含まれている。

図５の例では、カメラ１１２にて撮影された自カメラ画像６００には、カメラ１１２ｂの近くで振られている旗５１７が撮影されている。このため、その旗５１７が選手５１２と重なってしまい、選手５１２が隠れてしまっている。これが原因で、カメラアダプタ１２０ｂにて生成される前景画像６１０を用いて仮想視点コンテンツ、特に選手５１２の仮想視点コンテンの生成を行おうとした場合、破綻したコンテンツとなってしまう。そこで判定部１２３では自カメラ画像６００が不適画像であると判断する（Ｓ６０４でＮＯ）。自カメラ画像６００が不適画像と判定されると、符号化部１２７はカメラ１１２からの自カメラ画像に圧縮符号化処理を施す（Ｓ６０７）。圧縮符号化された画像は、音声データと判定部１２３による不適情報とともに伝送プロトコル規定のパケットサイズにセグメント化した上でデータ送信部１２８を介して出力される（Ｓ６０８）。このように、本実施形態のカメラアダプタ１２０は、自カメラ画像を不適画像と判定した場合において、不適情報に加えて自カメラ画像（不適画像）を下流のカメラアダプタ１２０へ送信する。そして不適画像は、コントローラ３００にて表示される。このような構成によれば、コントローラ３００のユーザは、不適画像がどのような画像なのか、といったことや、なぜ不適画像と判定されているのかを目視によって確認することができるという効果がある。また、ユーザは、不適画像であるという判定結果が誤りである場合には、不適画像の判定を取り消すことができる。ただし、カメラアダプタ１２０が不適画像を送信することや、不適画像の判定の取消しは、いずれも必須の構成ではない。

Ｓ６０８において、データ送信部１２８から送信される圧縮符号化された撮像画像（不適画像）の送信データ量を、処理済み情報（前景画像、背景画像、三次元モデル情報）の送信データ量よりも低減させることが好ましい。他のカメラからの画像情報（処理済み情報）を優先的に伝送させることができるからである。これは、たとえば、符号化部１２７において、不適画像を圧縮することで実現できる。あるいは、データ送信部１２８が、不適画像を、処理済み情報のフレームレートよりも低い、フレームレートで送信することでも実現できる。あるいは、これらを組み合わせてもよい。不適画像の圧縮のためのパラメータは、あらかじめ定められたパラメータであっても良いし、圧縮後のデータ量があらかじめ定められたデータ量以下になるように動的にパラメータが決定されても良い。

判定部１２３において、自カメラ画像が仮想視点コンテンツを生成するのに不向きな画像（不適画像）であるか否かの判定は、例えば、図４に示した画像が上流のカメラアダプタにより得られた画像であるすると、次のように行われる。すなわち、判定部１２３は、上流のカメラアダプタから送られてくる前景画像（図４（ｂ））と自カメラ画像から生成された前景画像（図５（ｂ））との比較を行う。不適画像か否かは、例えば、画素値が不一致となる画素の数、画素値の統計情報（例えば輝度ヒストグラム等）の差分、自カメラ画像から生成された前景画像の大きさの変化、などから判断することができる。また、これらのうちの２つ以上の判定方法を組み合わせてもよい。また、不適画像の判定は、旗や観客などの画像パターンを予め記録しておき、撮像画像に対する当該画像パターンの検出結果に基づいてなされるようにしても良い。また、不適画像の判定方法の他の例として、時間的に前の撮像画像との差分に基づいて判定されるようにしても良い。例えば、第１時刻に撮像された第１撮像画像と、第１時刻より後の第２時刻に撮像された第２撮像画像とを比較し、平均輝度や色が大きく異なっている場合には第２撮像画像が不適画像であると判定されるようにしても良い。また例えば、センサシステム１１０に備わる外部センサ１１４（例えば振動センサ）のセンシング結果に基づいて、不適画像であるか否かが判定されるようにしても良い。

仮想視点コンテンツを生成するのに不向きな画像として、図５では旗５１７により選手５１２が隠れてしまう一例を示したが、このように障害物がオブジェクトの前に写りこんでしまうケース以外に次のようなケースも考えられる。たとえば、カメラ１１２のレンズにごみや水滴が付着した場合、カメラ１１２の故障によりカメラ１１２から全面黒の画像しか出力されない場合、カメラ１１２内の同期信号が乱れて垂直方向に流れる画像またはノイズのみが出力された場合、などが想定される。

図１に戻り、画像コンピューティングサーバ２００では、センサシステム１１０ｚから取得したデータをデータベース２５０に蓄積する。バックエンドサーバ２７０は、仮想カメラ操作ＵＩ３３０から視点の指定を受け付け、受け付けた視点に基づいてレンダリング処理を行って仮想視点画像を生成し、エンドユーザ端末１９０へ生成した仮想視点画像を送信する。仮想カメラ操作ＵＩ３３０は、バックエンドサーバ２７０から仮想視点画像を受信し、これを表示する。

図７は、オペレータが入力装置を操作して仮想カメラの画像を表示するまでの仮想カメラ操作ＵＩ３３０、バックエンドサーバ２７０、データベース２５０で実行される処理のシーケンスを示す。仮想カメラ操作ＵＩ３３０は、撮像装置を含む複数のセンサシステムから得られた複数の撮像画像に基づいて仮想視点画像を生成する生成処理により得られた仮想視点画像を、表示装置に表示させる表示制御を行う。ここで、仮想視点を生成する生成処理は、バックエンドサーバ２７０で実行される。

まず、オペレータが仮想カメラを操作するために仮想カメラ操作ＵＩ３３０を操作する（Ｓ７００）。仮想カメラ操作ＵＩ３３０の入力装置として例えば、ジョイスティック、ジョグダイヤル、タッチパネル、キーボード、マウスなどを用いることができる。仮想カメラ操作ＵＩ３３０は、入力された仮想カメラの位置や姿勢を表す仮想カメラパラメータを計算する（Ｓ７０１）。仮想カメラパラメータには、仮想カメラの位置と姿勢などを示す外部パラメータ、および仮想カメラのズーム倍率などを示す内部パラメータが含まれる。仮想カメラ操作ＵＩ３３０は、計算した仮想カメラパラメータをバックエンドサーバ２７０に送信する（Ｓ７０２）。

バックエンドサーバ２７０は、仮想カメラパラメータを受信するとデータベース２５０に対して三次元モデル情報群を要求する（Ｓ７０３）。データベース２５０は、この要求に応じて前景オブジェクトの位置情報を含む三次元モデル情報群をバックエンドサーバ２７０に送信する（Ｓ７０４）。バックエンドサーバ２７０は、仮想カメラパラメータと三次元モデル情報に含まれるオブジェクトの位置情報より仮想カメラの視野に入るオブジェクト群を幾何学的に算出する（Ｓ７０５）。バックエンドサーバ２７０は、算出したオブジェクト群の前景画像と三次元モデル情報と、背景画像と音声データ群をデータベース２５０に要求する（Ｓ７０６）。データベース２５０は、要求に応じてデータをバックエンドサーバ２７０に送信する（Ｓ７０７）。

バックエンドサーバ２７０は、データベース２５０から受信した前景画像、三次元モデル情報から仮想視点の前景画像、背景画像を生成し、合成して仮想カメラの全景画像を生成する（Ｓ７０８）。また、音声データ群から仮想カメラの位置に応じた音声データの合成を行い、仮想カメラの全景画像と統合して仮想視点コンテンツを生成する。バックエンドサーバ２７０は、生成した仮想カメラの画像と音声を仮想カメラ操作ＵＩ３３０に送信する（Ｓ７０９）。仮想カメラ操作ＵＩ３３０は、バックエンドサーバ２７０から受信した画像と音声を再生、表示する。こうして、仮想カメラ操作ＵＩ３３０における仮想コンテンツの再生が実現される。

上記の例によれば、カメラ１１２ｂの近くで振られている旗が、カメラ１１２ｂで撮影される画像において選手を隠してしまっていた（図５）。このため、カメラアダプタ１２０ｂは、その画像が仮想視点コンテンツを生成するのに不向きな不適画像であると判断し、音声データとともに不適情報と圧縮処理が施された自カメラ画像（不適画像）が出力される。この結果、画像コンピューティングサーバ２００では、センサシステム１１０ｂからの画像を除いたデータをデータベース２５０から読み出し、バックエンドサーバ２７０にてレンダリング処理を行って仮想視点画像を生成することとなる。生成される仮想視点画像は、センサシステム１１０ｂからの画像を用いずに生成されることとなるため、解像感や鮮鋭感などが劣化する。すなわち、不適画像が発生した場合の仮想視点画像は、すべてのカメラ画像を用いて生成された仮想視点画像よりも画質が劣化したものとなってしまう。したがって、不適画像の発生に対して適切で迅速な対策が要求される。このような要求に応じるべく、本実施形態では、不適画像が発生したカメラの特定と、不適画像の観察を可能としている。

図８は、コントローラ３００において、自カメラ画像が仮想視点画像生成には不向きな不適画像であると判定したセンサシステム１１０が存在する場合の処理を示したフローチャートである。図８では、仮想カメラの画像表示に替えて、センサシステムで不適画像と判断された画像を仮想カメラ操作ＵＩ３３０において表示させる処理が示されている。

まず、制御ステーション３１０は仮想カメラ操作ＵＩ３３０、バックエンドサーバ２７０、データベース２５０に対し、仮想カメラの画像表示開始を指示することで、図７に示した処理により仮想カメラの画像表示が開始される（Ｓ８０１）。制御ステーション３１０はネットワーク１８０ｂを介して送られてくるセンサシステム１１０ａ〜センサシステム１１０ｚの情報に不適画像の発生を示す不適情報を発信したセンサシステム１１０があるかどうかを判断する（Ｓ８０２）。不適情報を発信したセンサシステムがない場合には、制御ステーション３１０は仮想カメラの画像表示を継続する（Ｓ８０２でＮＯ）。不適情報が検出された場合（Ｓ８０２でＹＥＳ）、仮想カメラ操作ＵＩ３３０は不適情報を発信したセンサシステムを示す情報を表示し（Ｓ８０３）、オペレータに対し不適情報が発信されたことを通知する。

図９に、仮想カメラ操作ＵＩ３３０の有する表示画面上に表示される画像の一例を示す。図９（ａ）に示す表示画面例は、下記の３つの部分から構成されている。第１は仮想カメラの画像を表示する画像表示部９０１である。第２はネットワーク１８０ｂを介して制御ステーション３１０が受けたセンサシステム１１０ａ〜センサシステム１１０ｚの情報を表示するセンサシステム管理表示部（以下、管理表示部９０２）である。第３は仮想カメラの操作を行う仮想カメラ操作領域９０３である。

仮想カメラ操作ＵＩ３３０は、バックエンドサーバ２７０から入力される仮想カメラの画像を順次、画像表示部９０１に表示することで、オペレータが画像コンピューティングサーバ２００にて生成された仮想カメラの画像を確認することができる。この状態でオペレータは仮想カメラ操作領域９０３にて仮想カメラ９３１を操作することで自由な視点からの画像を得ることが可能となる。

図１０は仮想カメラ９３１を操作する一例を示した模式図である。オペレータは仮想カメラ９３１の１フレームごと位置や姿勢を、仮想カメラパス１００１して指定する。仮想カメラ操作ＵＩ３３０は指定された仮想カメラパス１００１の情報から仮想カメラパラメータを算出し、バックエンドサーバ２７０へ送信する。ここで仮想カメラ９３１の位置に対応する時間は１フレームごとに限ったものではなく、オペレータにより任意の時間に設定が可能なものとする。また、仮想カメラ９３１の操作はオペレータが手動で行う以外に予め決められている仮想カメラパスで自動操縦させることを選択可能である。たとえば、ＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）のボタン（図９（ａ）では、自動操縦ボタン９３２と手動操縦ボタン９３３）を設けることで手動操縦と自動操縦とを切り換えることを可能とすることもできる。

図９（ａ）に戻り、センサシステム１１０ｂから不適情報が発信された際の管理表示部９０２の表示の一例を示す。本例では管理表示部９０２には、接続されているセンサシステムとそれらの同期状態（ＳＹＮＣ）、及び時刻情報が時間（Ｈ）と分（Ｍ）と秒（Ｓ）で表示され、更に不適情報の発信有無が画像状態欄に表示される。図９（ａ）では、センサシステム１１０ｂから不適情報が発信されたため、センサシステム１１０ｂの画像状態がＮＧとして表示されている。更に本例では、仮想視点コンテンツを生成するのに不向きな画像であると判断された自カメラ画像（不適画像）を仮想カメラの画像表示に代えて表示させることができる。仮想カメラ操作ＵＩ３３０は、これを指示するための表示ボタン９２１をセンサシステム管理表示と併せて表示する（Ｓ８０３）。管理表示部９０２の画像状態の欄の「ＮＧ」、表示ボタン９２１の出現により、仮想カメラ操作ＵＩ３３０は不適情報を受信したことを報知する。

図８において、オペレータ（ユーザ）により表示ボタン９２１が選択されると（Ｓ８０４）、仮想カメラ操作ＵＩ３３０はバックエンドサーバ２７０に対し、センサシステム１１０ｂの不適画像の送信要求を出力する（Ｓ８０５）。バックエンドサーバ２７０は仮想カメラ操作ＵＩ３３０からセンサシステム１１０ｂの不適画像の送信要求を受信すると、データベース２５０へセンサシステム１１０ｂの不適画像出力を要求する（Ｓ８０５）。データベース２５０からセンサシステム１１０ｂの不適画像が送信されると、その画像情報を仮想カメラ操作ＵＩ３３０へ送信する。

仮想カメラ操作ＵＩ３３０はデータベース２５０からセンサシステム１１０ｂの不適画像が送信されるのを待ち（Ｓ８０６）、不適画像の受信が完了すると仮想カメラの画像表示に代えてセンサシステム１１０ｂの不適画像を表示する（Ｓ８０７）。仮想カメラ操作ＵＩ３３０では手動操縦ボタン９３３又は自動操縦ボタン９３２が操作されるまでセンサシステム１１０ｂの不適画像の表示を続ける（Ｓ８０８でＮＯ）。オペレータにより手動操縦ボタン９３３又は自動操縦ボタン９３２が操作された場合に、画像表示部９０１における表示を仮想カメラ画像に切り替える（Ｓ８０８でＹＥＳ、Ｓ８０１）。

なお、仮想カメラ画像に切り替えるタイミングはオペレータによる操作に限ったものでは無く、センサシステム１１０ｂから不適情報の発信が所定時間検出できなかったことにより仮想カメラ画像に切り替えるとしても良い。また、Ｓ８０４において、オペレータが表示ボタン９２１を選択しなかった場合は、処理はＳ８０２に戻って不適情報の受信を待つこととなる。

本例では、仮想カメラ操作ＵＩ３３０が表示画面を備え、そこに仮想視点コンテンツを生成するのに不向きな画像であると判断されたカメラ画像を表示してオペレータが確認できるとしたが、これに限定されない。エンドユーザ端末１９０を使って仮想視点コンテンツを生成するのに不向きな画像であると判断されたカメラ画像を表示することも可能である。さらに、エンドユーザ端末１９０を使って仮想視点コンテンツを生成するのに不向きな画像であると判断されたカメラ画像を表示する場合は、エンドユーザ端末１９０に操作ＵＩ部を実装してもよい。

また、本例ではセンサシステム１１０から不適情報が発信された場合、仮想カメラ操作ＵＩ３３０の表示画面上の管理表示部９０２の該当するセンサシステムの画像状態欄に「ＮＧ」と表示するとしている。しかしながら、不適画像と判断した理由をセンサシステム１１０は把握しているため、その判断理由を例えば数字に割り当てて不適情報として送信し、仮想カメラ操作ＵＩ３３０にてその番号を表示するとしても良い。たとえば、前景画像の面積が上流のセンサシステムから送信されてきた前景画像の面積に対して大きいため不適画像と判断された場合を「１」、カメラ１１２の故障が検出された場合を「２」などとすることができる。

図９（ｂ）は、表示ボタン９２１の操作に応じて仮想カメラの画像表示に替えてカメラ１１２ｂにて撮影された不適画像が表示された様子を示している。また、図９（ｂ）では、管理表示部９０２において、不適情報として得られた「１」が表示されている。このように表示することで、仮想カメラ操作ＵＩ３３０ではオペレータは不適画像を表示した際に不適画像と判断された原因を特定しやすくなる。

以上に述べたように、第１実施形態によれば、カメラで撮影した画像が仮想視点コンテンツを生成するのに不向きな画像（不適画像）であると判断された場合、不適情報とともにカメラで撮影された画像が画像コンピューティングサーバ２００へ伝送される。仮想カメラ操作ＵＩ３３０では、オペレータの指示により、生成された仮想視点コンテンツに代えて不適画像の表示を行うことで、不向きな画像と判断された画像を確認することが可能となる。それにより、ユーザは、仮想視点画像生成において不向きと判定された判定された原因を早急に把握し、対策を講じることが可能となる。

＜第２実施形態＞
第１実施形態では、カメラアダプタ１２０が、自カメラ画像が仮想視点コンテンツを生成するのに不向きな不適画像であるか否かを判定し、不適画像と判断された場合に、不適情報とともにその不適画像をサーバへ伝送する。これにより、仮想カメラ操作ＵＩ３３０において、生成された仮想視点コンテンツに替えて不適画像の表示を行うことが可能とした。第２実施形態では、カメラで撮影した画像が仮想視点コンテンツを生成するのに不向きな画像であるか否かを判定し、所定期間にわたって不向きな画像と判断された場合に、不適情報とともにカメラで撮影された画像をサーバへ伝送する。なお、第２実施形態の画像処理システム１００の構成は第１実施形態と同様である。

図１１は、第２実施形態において、カメラアダプタ１２０ｂで画像情報の処理される様子について説明した図である。図１１では、図３で説明した第１実施形態におけるカメラアダプタ１２０ｂでの画像情報の経路４０１，４０２に、上流からの画像情報をバイパスする経路４０３が加わっている。すなわち、第２実施形態のカメラアダプタ１２０ｂは、カメラアダプタ１２０ａから受信したデータを記憶部１２６に保存せずに、無条件に受信したデータを次のカメラアダプタ１２０ｃへ転送する機能を備える。以下、本機能をバイパス機能と呼ぶ。バイパス機能は、例えばカメラアダプタ１２０ｂがカメラの状態が撮影停止中やキャリブレーション中、エラー処理中であったり、画像入力部１２１や記憶部１２６の処理に動作不良など発生したりした場合に機能する。この場合、経路４０３に示すように、データ受信部１２２を介して受信した画像群はそのままデータ送信部１２８へ出力され、下流のカメラアダプタ１２０ｃへ転送される。

図１１には明記していないが、画像入力部１２１や記憶部１２６がエラーや停止状態にあることを検知するサブＣＰＵをカメラアダプタ１２０ｂに配備し、サブＣＰＵがエラー検知を行った場合にバイパス制御にする処理を加えても良い。これにより各機能ブロックのフォールト状態とバイパス制御を独立して制御できる効果がある。また、カメラ１１２の状態がキャリブレーション状態から撮影中に遷移した場合や、画像入力部１２１や記憶部１２６などの動作不良から復旧した場合に通常の伝送モードに遷移するとしてもよい。本機能により、不慮の故障などが発生しデータルーティングに係わる判断ができない場合でも次のカメラアダプタ１２０ｃへデータを転送する事ができる。

図１２は、第２実施形態におけるカメラアダプタ１２０での処理を示したフローチャート図である。

本例では、カメラアダプタ１２０は計時を行うタイマ（不図示）を有しており、処理の開始時にタイマがクリアされる（Ｓ１２０１）。Ｓ１２０２〜Ｓ１２０４の処理は、第１実施形態のＳ６０１〜Ｓ６０３と同様である。すなわち、カメラアダプタ１２０は、撮影指示に応じて（Ｓ１２０２）、カメラ１１２からの画像（自カメラ画像）を１フレーム分取得し（Ｓ１２０３）、前景画像と背景画像を生成し、生成した画像群を記憶部１２６に保存する（Ｓ１２０４）。

判定部１２３は、自カメラ画像が仮想視点コンテンツを生成するのに不向きな不適画像であるかどうかの判定を行う（Ｓ１２０５）。不適画像ではないと判断された場合には、データ送信部１２８を、通常処理モードに設定する（Ｓ１２０６）。すなわち、カメラ１１２から入力される画像情報の処理される経路４０１と、上流のカメラアダプタ１２０から受信したデータの処理される経路４０２とを用いた伝送を行うように設定する。そして、前景画像と背景画像に圧縮処理を施し（Ｓ１２０７）、音声データとともに伝送プロトコル規定のパケットサイズにセグメント化した上でデータ送信部１２８を介して出力する（Ｓ１２０８）。

Ｓ１２０５で不適画像であると判断された場合には、カメラアダプタ１２０ｂは、タイマによる計時を開始し（Ｓ１２０９）、所定の時間が経過したかどうか判断する（Ｓ１２１０）。Ｓ１２１０で所定時間が経過していないと判断された場合には、カメラアダプタ１２０ｂは、データ受信部１２２より受信した画像群をそのままデータ送信部１２８を介して伝送する経路４０３を用いるバイパス処理モードに設定する（Ｓ１２１１）。これにより、カメラアダプタ１２０ｂは、カメラアダプタ１２０ａから受信したデータを記憶部１２６に保存せずに、無条件に次のカメラアダプタ１２０ｃへ転送する。

Ｓ１２１０で所定時間が経過していると判断された場合には、カメラアダプタ１２０ｂは、タイマによる計時を停止するとともにタイマの値をクリアする（Ｓ１２１２）。そして、カメラアダプタ１２０ｂは、データ送信部１２８を、カメラ１１２から入力される画像情報と上流のカメラアダプタ１２０から受信したデータを経路４０１と経路４０２を用いて伝送する通常処理モードに設定する（Ｓ１２１３）。この通常処理モードにおいて、第１実施形態のＳ６０５〜Ｓ６０６と同様の処理であるＳ１２１４〜Ｓ１２１５が実行される。すなわち、カメラアダプタ１２０ｂは、カメラ１１２ｂからの自カメラ画像（不適画像）に圧縮符号化処理を施す（Ｓ１２１４）。そして、カメラアダプタ１２０ｂは、圧縮符号化された画像（不適画像）を音声データと不適情報とともに伝送プロトコルにより規定されるパケットサイズにセグメント化した上でデータ送信部１２８を介して出力する（Ｓ１２１５）。

以上に述べたように、第２実施形態によれば、所定期間にわたってカメラで撮影した画像が不適画像であると判断された場合に、不適画像が不適情報とともにサーバへ伝送される。それ以外の期間はバイパスモードとなり、不適切な画像であると判断されたカメラアダプタで撮影された画像は画像コンピューティングサーバへ伝送されない。そのため、バイパスモード処理中は伝送帯域を他の画像伝送に活用することが可能となる。例えば前景画像や背景画像の圧縮率を下げて、画質の向上を図ることが可能となる。

＜第３実施形態＞
第１実施形態および第２実施形態のカメラアダプタ１２０は、不適画像とともに不適情報を送信した。第３実施形態では、自カメラ画像が不適画像であると判断された場合に、まず、カメラアダプタ１２０は、不適情報を画像コンピューティングサーバ２００へ送信する。そして、仮想カメラ操作ＵＩ３３０へのオペレータの操作により不適画像の表示が指示された場合に、不適情報を出力したセンサシステム１１０に対して不適画像の送信要求を出力する。この要求を受けたカメラアダプタ１２０は、不適情報とともに不適画像と判定された自カメラ画像を送信する。仮想カメラ操作ＵＩ３３０では、カメラアダプタ１２０から送信された自カメラ画像（不適画像）を、仮想視点コンテンツに代えて表示する。

図１３は、第３実施形態におけるカメラアダプタでの処理を示したフローチャートである。Ｓ１３０１〜Ｓ１３０６の処理は第１実施形（図６）のＳ６０１〜Ｓ６０６と同様である。

カメラアダプタ１２０では、カメラ１１２からの画像の撮影指示がされると（Ｓ１３０１）、自カメラ画像を１フレーム分取得する（Ｓ１３０２）。分離部１２４は前景画像と背景画像を生成する画像処理を実行し、生成した画像群を記憶部１２６に保存する（Ｓ１３０３）。次に判定部１２３では、自カメラ画像が仮想視点コンテンツを生成するのに不向きな不適画像であるかどうかの判定を行う（Ｓ１３０４）。不適画像でないと判断された場合には、符号化部１２７は、前景画像と背景画像に圧縮符号化処理を施す（Ｓ１３０５）。データ送信部１２８は、符号化された前景画像と背景画像のデータを音声データとともに伝送プロトコル規定のパケットサイズにセグメント化して出力する（Ｓ１３０６）。

一方、Ｓ１３０４で不適画像であると判断された場合には、データ送信部１２８は、判定部１２３から出力される不適情報を伝送プロトコル規定のパケットサイズにセグメント化した上でデータ送信部１２８を介して出力する（Ｓ１３０７）。これにより仮想カメラ操作ＵＩ３３０では、図９（ａ）に示した管理表示部９０２がセンサシステム管理情報を表示し、センサシステムから不適情報が送信されたことを通知する。図９（ａ）の画面においてオペレータにより表示ボタン９２１が選択されると、制御ステーション３１０は、不適情報を発生したセンサシステム１１０に対して不適画像送信要求を、ネットワーク３１０ａを介して出力する。

不適情報を送信しているカメラアダプタ１２０において、制御ステーション３１０から不適画像送信要求が出力されたことを検出すると（Ｓ１３０８でＹＥＳ）、自カメラ画像（すなわち不適画像）を送信する。具体的には、符号化部１２７がカメラ１１２からの自カメラ画像に圧縮処理を施し（Ｓ１３０９）、データ送信部１２８が、圧縮された自カメラ画像を、音声データとともに伝送プロトコル規定のパケットサイズにセグメント化して出力する（Ｓ１３１０）。

制御ステーション３１０では不適情報を出力したカメラアダプタ１２０から不適画像が送信されたことを検出すると、その画像データを保持する。仮想カメラ操作ＵＩ３３０は、表示画面上に、バックエンドサーバ２７０から出力される仮想カメラの画像表示に替えて受信した不適画像を表示する。

以上に述べたように、第３実施形態によれば、カメラアダプタ１２０は自カメラ画像が仮想視点コンテンツを生成するのに不向きな不適画像である場合に、まず、不適情報を出力する。そして、オペレータの指示により不適画像の表示が支持された場合に、制御ステーション３１０が不適情報を出力したセンサシステムに対して不適画像の送信を要求する。したがって、不適画像の送信が必要時に限られるので、データ転送量を減らすことができる。また、サーバへ本発明のための処理を追加することなく不適画像の表示を行うことが可能となる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１００：画像処理システム、１１０ａ〜１１０ｚ：センサシステム、１１１ａ〜１１１ｚ：マイク、１１２ａ〜１１２ｚ：カメラ、１１３ａ〜１１３ｚ：雲台、１１４ａ〜１１４ｚ：外部センサ、１２０ａ〜１２０ｚ：カメラアダプタ、１２１：画像入力部、１２２：データ受信部、１２３：判定部、１２４：分離部、１２５：生成部、１２６：記憶部、１２７：符号化部、１２８：データ送信部

Claims

撮像手段が撮像した撮像画像を取得する取得手段と、
複数の撮像手段により得られた複数の画像と仮想カメラの位置及び姿勢とに基づいて仮想視点画像を生成するための生成処理の一部を、前記撮像画像に行って処理済み情報を得る処理手段と、
前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定する判定手段と、
前記判定手段により前記撮像画像が前記生成に適した画像であると判定された場合には前記処理済み情報を送信し、前記判定手段により前記撮像画像が前記生成に適していないと判定された場合には、前記撮像画像が仮想視点画像の生成に適しないことを示す不適情報を送信する送信手段と、を備えることを特徴とする画像処理装置。
前記送信手段は、前記判定手段により前記撮像画像が前記仮想視点画像の生成に適していないと判定された場合には、前記不適情報に加えて、前記撮像画像を送信することを特徴とする請求項１に記載の画像処理装置。
前記処理手段は、前記撮像画像から抽出したオブジェクト画像の情報を前記処理済み情報として生成し、
前記判定手段は、前記オブジェクト画像に基づいて、前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定することを特徴とする請求項１又は２に記載の画像処理装置。
前記送信手段は、前記処理済み情報として、前記オブジェクト画像と背景画像を圧縮して送信することを特徴とする請求項３に記載の画像処理装置。
前記送信手段は、前記撮像画像の送信データ量を前記処理済み情報の送信データ量よりも低減させることを特徴とする請求項２に記載の画像処理装置。
前記送信手段は、前記撮像画像を圧縮することを特徴とする請求項５に記載の画像処理装置。
前記送信手段は、前記撮像画像を、前記処理済み情報のフレームレートよりも低いフレームレートで送信することを特徴とする請求項５または６に記載の画像処理装置。
前記送信手段は、前記撮像画像が前記生成処理に適していない状態が所定時間にわたって継続した場合に前記不適情報を送信することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記送信手段は、前記判定手段により前記撮像画像が前記生成に適していないと判定された場合に前記不適情報を送信すると共に、外部からの要求に応じて前記不適情報に対応する撮像画像を送信することを特徴とする請求項１乃至６のいずれか１項に記載の画像処理装置。
前記判定手段は、各々が撮像手段を有する複数の画像処理装置がデイジーチェーンにより接続されている場合において、上流側の画像処理装置から受信したオブジェクト画像と、前記撮像画像から分離されたオブジェクト画像に基づいて前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定することを特徴とする請求項１乃至９のいずれか１項に記載の画像処理装置。
請求項１乃至１０のいずれか１項に記載の画像処理装置と、
前記撮像手段と、を備えることを特徴とする撮像装置。
各々が撮像装置を含む複数のセンサシステムから得られた複数の撮像画像と、仮想カメラの位置及び姿勢とに基づいて仮想視点画像を生成する生成処理により得られた仮想視点画像を、表示装置に表示させる表示制御手段と、
前記複数のセンサシステムのうち、前記仮想視点画像の生成に適さない撮像画像を撮像した撮像装置を有するセンサシステムが送信した不適情報を受信する受信手段と、を備え、
前記表示制御手段は、前記不適情報に対応する撮像画像を取得し、表示装置に表示させる、ことを特徴とする情報処理装置。
仮想カメラの位置と姿勢を指示する指示手段をさらに備え、
前記生成処理では、前記指示手段により指示された仮想カメラの位置と姿勢に基づく仮想視点画像を生成することを特徴とする請求項１２に記載の情報処理装置。
前記不適情報を受信したことを報知する報知手段をさらに備えることを特徴とする請求項１２または１３に記載の情報処理装置。
複数の撮像装置から得られた画像と仮想カメラの位置及び姿勢とに基づいて仮想視点画像を生成するための生成処理を行う画像処理システムであって、

前記生成処理の一部を、撮像手段から取得した撮像画像に行って処理済み情報を得る処理手段と、
前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定する判定手段と、
前記判定手段により適していると判定された場合には前記処理済み情報を送信し、前記判定手段により適していないと判定された場合には、前記撮像画像が生成に適しないことを示す不適情報を送信する送信手段と、を各々が有する複数のセンサシステムと、
前記複数のセンサシステムから送信された処理済み情報を受信し、受信した処理済み情報に基づいて仮想視点画像を生成するサーバ装置と、
前記サーバ装置により生成された仮想視点画像を表示装置に表示させる情報処理装置と、を備え、前記情報処理装置は、前記不適情報に対応する撮像画像を取得し、表示装置に表示させる、ことを特徴とする画像処理システム。
撮像手段が撮像した撮像画像を取得する取得工程と、
複数の撮像装置により得られた複数の画像と仮想カメラの位置及び姿勢とに基づいて仮想視点画像を生成するための生成処理の一部を、前記撮像画像に行って処理済み情報を得る処理工程と、
前記撮像画像が前記仮想視点画像の生成に適しているか否かを判定する判定工程と、
前記判定工程において前記撮像画像が前記生成に適した画像であると判定された場合には前記処理済み情報を送信し、前記判定工程において前記撮像画像が前記生成処理に適していないと判定された場合には、前記撮像画像が前記仮想視点画像の生成に適しないことを示す不適情報を送信する送信工程と、を有することを特徴とする画像処理方法。
コンピュータを請求項１乃至１０のうち何れか１項に記載の画像処理装置の各手段として動作させるためのプログラム。