JP2019022151A - Information processing apparatus, image processing system, control method, and program - Google Patents
Information processing apparatus, image processing system, control method, and program Download PDFInfo
- Publication number
- JP2019022151A JP2019022151A JP2017141208A JP2017141208A JP2019022151A JP 2019022151 A JP2019022151 A JP 2019022151A JP 2017141208 A JP2017141208 A JP 2017141208A JP 2017141208 A JP2017141208 A JP 2017141208A JP 2019022151 A JP2019022151 A JP 2019022151A
- Authority
- JP
- Japan
- Prior art keywords
- image
- unit
- foreground
- information
- camera
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、被写体を複数の方向から撮影するための複数のカメラを含む画像処理システムに関する。 The present invention relates to an image processing system including a plurality of cameras for photographing a subject from a plurality of directions.
昨今、複数のカメラを異なる位置に設置して多視点で同期撮影し、当該撮影により得られた複数視点画像を用いて仮想視点コンテンツを生成する技術が注目されている。このような技術によれば、例えば、サッカーやバスケットボールのハイライトシーンを様々な角度から視聴することが出来るため、通常の画像と比較してユーザに高臨場感を与えることができる。 In recent years, attention has been focused on a technique for installing a plurality of cameras at different positions, performing synchronous shooting from multiple viewpoints, and generating virtual viewpoint content using a plurality of viewpoint images obtained by the shooting. According to such a technique, for example, since a highlight scene of soccer or basketball can be viewed from various angles, it is possible to give the user a higher sense of realism than a normal image.
複数視点画像に基づく仮想視点コンテンツの生成においては、仮想視点画像が生成される。すなわち、複数のカメラが撮影した画像がサーバなどの画像処理部に集約され、当該画像処理部が、三次元モデル生成、レンダリングなどの処理を施し、仮想視点画像を生成する。そして、この仮想視点画像をユーザ端末に伝送することで、ユーザは仮想視点コンテンツの閲覧ができる。 In generating virtual viewpoint content based on a plurality of viewpoint images, a virtual viewpoint image is generated. That is, images taken by a plurality of cameras are collected in an image processing unit such as a server, and the image processing unit performs processing such as three-dimensional model generation and rendering to generate a virtual viewpoint image. Then, by transmitting this virtual viewpoint image to the user terminal, the user can browse the virtual viewpoint content.
この種の画像処理を行うシステムにおいては、カメラに付加される振動が当該カメラが捉える画像のブレとなって現われ、画像処理に影響する。このような振動への対策として、ジャイロ等の振動を検出可能なセンサの出力に基づいて、カメラシステムのレンズをシフトさせて撮影する光学的な補正処理がある。また、例えば、4Kの解像度から2Kの解像度の画像を切り出すことで、画像のブレを取り除いた電子的な補正処理もある。 In a system that performs this type of image processing, vibration added to the camera appears as blurring of an image captured by the camera, which affects image processing. As a countermeasure against such vibration, there is an optical correction process in which the lens of the camera system is shifted and photographed based on the output of a sensor capable of detecting vibration such as a gyro. Also, for example, there is an electronic correction process in which image blurring is removed by cutting out an image with a resolution of 2K from a resolution of 4K.
特許文献1には、立体視を可能にする複眼カメラが、光軸中心が水平方向に一致するように調整されており、複眼カメラで手振れ補正を行う技術が開示されている。個々のカメラで補正量に差が出ると、レンズの初期中心位置がずれて立体視ができなくなるため、光軸中心の位置がずれないように共通のサイズおよびアスペクト比で視点画像が切り出される構成が記載されている。
光学的補正処理または電子的補正処理のどちらかを利用して補正処理を実行していた従来のカメラシステムにおいては、検出した振動信号のうち、比較的振幅の小さなブレに対しては、十分に余裕を確保して補正することが可能であった。 In the conventional camera system that executes the correction process using either the optical correction process or the electronic correction process, it is sufficient to detect a vibration with a relatively small amplitude among the detected vibration signals. It was possible to correct with a margin.
しかしながら、例えば、スタジアムなどで観客がとび跳ねたりして発生した振幅の大きなブレに対しては、十分な補正の余裕を確保することが難しい。また、複数のカメラを備えた画像処理システムにおいては、カメラごとに振幅や周波数の異なる振動が付加される。このため、上記特許文献1に記載された技術のように、同じ補正量で各カメラの画像のブレを補正すると、各補正画像を統合して仮想視点画像を生成することが困難となる場合がある。
However, for example, it is difficult to secure a sufficient correction margin for a shake having a large amplitude caused by a spectator jumping at a stadium or the like. Further, in an image processing system including a plurality of cameras, vibrations having different amplitudes and frequencies are added for each camera. For this reason, as in the technique described in
本発明は、上記の課題に鑑みてなされたものであり、その目的は、複数のカメラを用いて仮想視点画像を生成するシステムにおいて、カメラが振動する場合であっても、画質の高い仮想視点画像を生成できるようにすることである。 The present invention has been made in view of the above problems, and an object of the present invention is to generate a virtual viewpoint with high image quality even when the camera vibrates in a system that generates a virtual viewpoint image using a plurality of cameras. It is to be able to generate an image.
上記課題を解決するため、本発明に係る情報処理装置は、撮影画像を取得する画像取得手段と、撮影画像を撮影した撮影装置に対する振動情報を取得する振動情報取得手段と、仮想視点画像の生成に用いる所定領域を撮影画像から切り出す切り出し手段と、振動情報に基づいて所定領域を決定する決定手段と、を備える。 In order to solve the above problems, an information processing apparatus according to the present invention includes an image acquisition unit that acquires a captured image, a vibration information acquisition unit that acquires vibration information for the imaging device that has captured the captured image, and a generation of a virtual viewpoint image. A cutout unit that cuts out a predetermined region used for the image from the captured image, and a determination unit that determines the predetermined region based on the vibration information.
本発明によれば、複数のカメラを用いて仮想視点画像を生成するシステムにおいて、カメラが振動する場合であっても、画質の高い仮想視点画像を生成できるようになる。 According to the present invention, in a system that generates a virtual viewpoint image using a plurality of cameras, a virtual viewpoint image with high image quality can be generated even when the camera vibrates.
以下図面に従って本発明に係る実施形態を詳細に説明する。なお、以下の実施形態において示す構成は一例に過ぎず、本発明は図示された構成に限定されるものではない。 Embodiments according to the present invention will be described below in detail with reference to the drawings. The configurations shown in the following embodiments are merely examples, and the present invention is not limited to the illustrated configurations.
競技場(スタジアム)やコンサートホールなどの施設に複数のカメラ及びマイクを設置し撮影及び集音を行うシステムについて、図1を用いて説明する。 A system for shooting and collecting sound by installing a plurality of cameras and microphones in facilities such as a stadium (stadium) and a concert hall will be described with reference to FIG.
<画像処理システム100の説明>
図1は、画像処理システム100の構成を説明するための図である。画像処理システム100は、センサシステム110a,…,110zと、画像コンピューティングサーバ200と、コントローラ300と、スイッチングハブ180と、エンドユーザ端末190とを含む。
<Description of
FIG. 1 is a diagram for explaining the configuration of the
コントローラ300は、制御ステーション310と、仮想カメラ操作UI330とを含む。制御ステーション310は、画像処理システム100を構成するそれぞれのブロックに対して、ネットワーク310a,310b,310c、180a、180b、及び170a,…,170yを通じて動作状態の管理及びパラメータ設定制御などを行う。
The
<センサシステム110の説明>
最初に、センサシステム110a,…,センサシステム110zの26セットの画像及び音声をセンサシステム110zから画像コンピューティングサーバ200へ送信する動作について説明する。
<Description of
First, the operation of transmitting 26 sets of images and sounds of the
画像処理システム100では、デイジーチェーンにより接続されたセンサシステム110を複数備える。ここで、本実施形態において、特別な説明がない場合は、センサシステム110aからセンサシステム110zまでの26セットのシステムを区別せずセンサシステム110と記載する。各センサシステム110内の装置についても同様に、特別な説明がない場合は区別せず、マイク111、カメラ112、雲台113、外部センサ114、及びカメラアダプタ120と記載する。なお、センサシステムの台数として26セットと記載しているが、あくまでも一例であり、台数をこれに限定するものではない。また、本実施形態では、特に断りがない限り、画像という文言が、動画と静止画の概念を含むものとして説明する。すなわち、本実施形態の画像処理システム100は、静止画及び動画の何れについても処理可能である。また、本実施形態では、画像処理システム100により提供される仮想視点コンテンツには、仮想視点画像と仮想視点音声が含まれる例を中心に説明するが、これに限らない。例えば、仮想視点コンテンツに音声が含まれていなくても良い。また、例えば、仮想視点コンテンツに含まれる音声が、仮想視点に最も近いマイクにより集音された音声であっても良い。また、本実施形態では、説明の簡略化のため、部分的に音声についての記載を省略しているが、基本的に画像と音声は共に処理されるものとする。また、情報処理装置は、例えば、カメラアダプタ120である。
The
センサシステム110a,…,110zは、それぞれ1台ずつのカメラ112a,…,112zを含む。すなわち、画像処理システム100は、被写体を複数の方向から撮影するための複数のカメラを有する。
Each of the
センサシステム110は、マイク111と、カメラ112と、雲台113と、外部センサ114と、カメラアダプタ120とを含んで構成されるが、この構成に限定するものではない。
The
マイク111aにて集音された音声と、カメラ112aにて撮影された画像は、カメラアダプタ120aにおいて後述の画像処理が施された後、デイジーチェーン170aを通してセンサシステム110bのカメラアダプタ120bに伝送される。同様に、センサシステム110bは、集音された音声と撮影された画像を、センサシステム110aから取得した画像及び音声と合わせてセンサシステム110cに伝送する。
The sound collected by the microphone 111a and the image photographed by the
前述した動作を続けることにより、センサシステム110a,…,110zが取得した画像及び音声は、センサシステム110zからネットワーク180bを用いてスイッチングハブ180に伝わり、その後、画像コンピューティングサーバ200へ伝送される。
By continuing the above-described operation, images and sounds acquired by the
なお、本実施形態では、カメラ112a,…,112zと、カメラアダプタ120a,…,120zが分離された構成にしているが、同一筺体で一体化されていてもよい。その場合、マイク111a,…,111zは一体化されたカメラ112に内蔵されてもよいし、カメラ112の外部に接続されていてもよい。
In the present embodiment, the
<画像コンピューティングサーバ200の説明>
次に、画像コンピューティングサーバ200の構成及び動作について説明する。画像コンピューティングサーバ200は、センサシステム110zから取得したデータの処理を行う。
<Description of
Next, the configuration and operation of the
画像コンピューティングサーバ200は、フロントエンドサーバ230と、データベース250(以下、DBと記載する場合がある。)と、バックエンドサーバ270と、タイムサーバ290とを含む。
The
タイムサーバ290は、時刻及び同期信号を配信する機能を有し、スイッチングハブ180を介してセンサシステム110a,…,110zに時刻及び同期信号を配信する。時刻と同期信号を受信したカメラアダプタ120a,…,120zは、カメラ112a,…,112zを、時刻と同期信号とをもとにGenlockさせ画像フレーム同期を行う。すなわち、タイムサーバ290は、複数のカメラ112の撮影タイミングを同期させる。
The
フロントエンドサーバ230は、センサシステム110zから取得した画像及び音声から、セグメント化された伝送パケットを再構成してデータ形式を変換した後に、カメラの識別子やデータ種別、フレーム番号に応じてデータベース250に書き込む。
The front-
バックエンドサーバ270は、仮想カメラ操作UI330から視点の指定を受け付け、受け付けられた視点に基づいて、データベース250から対応する画像及び音声データを読み出し、レンダリング処理を行って仮想視点画像を生成する。
The back-
なお、画像コンピューティングサーバ200の構成はこれに限らない。例えば、フロントエンドサーバ230、データベース250、及びバックエンドサーバ270のうち少なくとも2つが一体に構成されていてもよい。また、フロントエンドサーバ230、データベース250、及びバックエンドサーバ270の少なくとも何れかが複数存在していてもよい。また、画像コンピューティングサーバ200の任意の位置に、上記の装置以外の装置が含まれていてもよい。さらに、画像コンピューティングサーバ200の機能の少なくとも一部をエンドユーザ端末190や仮想カメラ操作UI330が有していてもよい。
The configuration of the
レンダリング処理された仮想視点画像は、バックエンドサーバ270からエンドユーザ端末190に送信され、エンドユーザ端末190を操作するユーザは視点の指定に応じた画像閲覧及び音声視聴が出来る。すなわち、バックエンドサーバ270は、複数のカメラ112により撮影された撮影画像(複数視点画像)と視点情報とに基づく仮想視点コンテンツを生成する。より具体的には、バックエンドサーバ270は、例えば、複数のカメラアダプタ120により複数のカメラ112による撮影画像から切り出された所定領域の画像データと、ユーザ操作により指定された視点に基づいて、仮想視点コンテンツを生成する。そして、バックエンドサーバ270は、生成した仮想視点コンテンツをエンドユーザ端末190に提供する。カメラアダプタ120による所定領域の切り出し処理の詳細については後述する。
The rendered virtual viewpoint image is transmitted from the back-
本実施形態における仮想視点コンテンツは、仮想的な視点から被写体を撮影した場合に得られる画像としての仮想視点画像を含むコンテンツである。言い換えると、仮想視点画像は、指定された視点における見えを表す画像であるとも言える。仮想的な視点(仮想視点)は、ユーザにより指定されても良いし、画像解析の結果等に基づいて自動的に指定されても良い。すなわち、仮想視点画像には、ユーザが任意に指定した視点に対応する任意視点画像(自由視点画像)が含まれる。また、複数の候補からユーザが指定した視点に対応する画像や、装置が自動で指定した視点に対応する画像も、仮想視点画像に含まれる。なお、本実施形態では、仮想視点コンテンツに音声データ(オーディオデータ)が含まれる場合の例を中心に説明するが、必ずしも音声データが含まれていなくても良い。 The virtual viewpoint content in the present embodiment is content including a virtual viewpoint image as an image obtained when a subject is photographed from a virtual viewpoint. In other words, it can be said that the virtual viewpoint image is an image representing the appearance at the designated viewpoint. The virtual viewpoint (virtual viewpoint) may be specified by the user, or may be automatically specified based on the result of image analysis or the like. That is, the virtual viewpoint image includes an arbitrary viewpoint image (free viewpoint image) corresponding to the viewpoint arbitrarily designated by the user. An image corresponding to the viewpoint designated by the user from a plurality of candidates and an image corresponding to the viewpoint automatically designated by the apparatus are also included in the virtual viewpoint image. In this embodiment, an example in which audio data (audio data) is included in the virtual viewpoint content will be mainly described. However, audio data may not necessarily be included.
仮想カメラ操作UI330は、バックエンドサーバ270を介してデータベース250にアクセスする。バックエンドサーバ270で画像生成処理に係わる共通処理を行い、操作UIに係わるアプリケーションの差分部分を仮想カメラ操作UI330で行っている。
The virtual
このように、画像処理システム100においては、被写体を複数の方向から撮影するための複数のカメラ112による撮影画像に基づいて、バックエンドサーバ270により仮想視点画像が生成される。なお、本実施形態における画像処理システム100は、上記で説明した物理的な構成に限定される訳ではなく、論理的に構成されていてもよい。
As described above, in the
<機能ブロック図の説明>
次に、画像処理システムシステム100における各ノード(カメラアダプタ120、フロントエンドサーバ230、データベース250、バックエンドサーバ270、仮想カメラ操作UI330、エンドユーザ端末190)の機能ブロック図を説明する。
<Explanation of functional block diagram>
Next, a functional block diagram of each node (
図2は、カメラアダプタ120の機能構成を説明するためのブロック図である。カメラアダプタ120は、ネットワークアダプタ6110と、伝送部6120と、画像処理部6130と、外部機器制御部6140と、を含む。ネットワークアダプタ6110は、データ送受信部6111と、時刻制御部6112とを含む。
FIG. 2 is a block diagram for explaining a functional configuration of the
データ送受信部6111は、デイジーチェーン170、ネットワーク291、及びネットワーク310aを介し、他のカメラアダプタ120、フロントエンドサーバ230、タイムサーバ290、及び制御ステーション310とデータ通信を行う。例えば、データ送受信部6111は、カメラ112による撮影画像から前景背景分離部6131により分離された前景画像と背景画像とを、別のカメラアダプタ120に対して出力する。出力先のカメラアダプタ120は、画像処理システム100のカメラアダプタ120のうち、データルーティング処理部6122の処理に応じて予め定められた順序における次のカメラアダプタ120である。各カメラアダプタ120が、前景画像及び背景画像を出力することで、複数の視点から撮影された前景画像と背景画像とに基づいた仮想視点画像が生成される。なお、撮影画像から分離した前景画像を出力して背景画像は出力しないカメラアダプタ120が存在してもよい。
The data transmission /
時刻制御部6112は、例えば、IEEE1588規格のOrdinay Clockに準拠し、タイムサーバ290との間で送受信したデータのタイムスタンプを保存する機能と、タイムサーバ290と時刻同期を行う機能とを有する。なお、IEEE1588に限定する訳ではなく、他のEtherAVB規格や、独自プロトコルによってタイムサーバとの時刻同期を実現してもよい。
The
伝送部6120は、データ圧縮・伸張部6121と、データルーティング処理部6122と、時刻同期制御部6123と、画像・音声伝送処理部6124と、データルーティング情報保持部6125とを含む。
The
データ圧縮・伸張部6121は、データ送受信部6111を介して送受信されるデータに対して所定の圧縮方式、圧縮率、及びフレームレートを適用した圧縮を行う機能と、圧縮されたデータを伸張する機能とを有している。
The data compression /
データルーティング処理部6122は、後述するデータルーティング情報保持部6125が保持するデータを利用し、データ送受信部6111が受信したデータ及び画像処理部6130で処理されたデータのルーティング先を決定する。さらに、決定したルーティング先へデータを送信する機能を有している。ルーティング先としては、同一の注視点にフォーカスされたカメラ112に対応するカメラアダプタ120とするのが、それぞれのカメラ112同士の画像フレーム相関が高いため画像処理を行う上で好適である。複数のカメラアダプタ120それぞれのデータルーティング処理部6122による決定に応じて、画像処理システム100において前景画像や背景画像をリレー形式で出力するカメラアダプタ120の順序が定まる。
The data
時刻同期制御部6123は、IEEE1588規格のPTP(Precision Time Protocol)に準拠し、タイムサーバ290と時刻同期に係わる処理を行う機能を有している。なお、PTPに限定するのではなく、他の同様のプロトコルを利用して時刻同期してもよい。
The time
画像・音声伝送処理部6124は、画像データ又は音声データを、データ送受信部6111を介して他のカメラアダプタ120またはフロントエンドサーバ230へ転送するためのメッセージを作成する機能を有している。メッセージには、画像データ又は音声データ、及び各データのメタ情報が含まる。本実施形態のメタ情報には、画像の撮影または音声のサンプリング時のタイムコードまたはシーケンス番号、データ種別、及びカメラ112やマイク111の個体を示す識別子などが含まれる。なお、送信する画像データまたは音声データは、データ圧縮・伸張部6121でデータ圧縮されていてもよい。また、画像・音声伝送処理部6124は、他のカメラアダプタ120からデータ送受信部6111を介してメッセージを受取る。そして、メッセージに含まれるデータ種別に応じて、伝送プロトコル規定のパケットサイズにフラグメントされたデータ情報を画像データまたは音声データに復元する。なお、データを復元した際にデータが圧縮されている場合は、データ圧縮・伸張部6121が伸張処理を行う。
The image / audio
データルーティング情報保持部6125は、データ送受信部6111で送受信されるデータの送信先を決定するためのアドレス情報を保持する機能を有する。
The data routing
外部機器制御部6140は、カメラアダプタ120に接続する機器を制御する機能を有し、カメラ制御部6141と、マイク制御部6142と、雲台制御部6143と、センサ制御部6144とを含む。
The external
カメラ制御部6141は、カメラ112と接続し、カメラ112の制御、撮影画像取得、同期信号提供、及び時刻設定などを行う機能を有している。カメラ112の制御には、例えば、撮影パラメータ(画素数、色深度、フレームレート、及びホワイトバランスなど)の設定及び参照、カメラ112の状態(撮影中、停止中、同期中、及びエラーなど)の取得、撮影の開始及び停止や、ピント調整などがある。同期信号提供は、時刻同期制御部6123がタイムサーバ290と同期した時刻を利用し、撮影タイミング(制御クロック)をカメラ112に提供することで行われる。時刻設定は、時刻同期制御部6123がタイムサーバ290と同期した時刻を、例えばSMPTE12Mのフォーマットに準拠したタイムコードで提供することで行われる。これにより、カメラ112から受取る画像データに提供したタイムコードが付与されることになる。
The
センサ制御部6144は、外部センサ114と接続し、外部センサ114がセンシングしたセンサ情報を取得する機能を有する。例えば、外部センサ114としてジャイロセンサが利用されると、振動を表す情報(以下、「振動情報」と呼ぶ。)を取得することができる。そして、センサ制御部6144が取得した振動情報を用い、画像処理部6130は、撮影画像から所定領域を切り出す。なお、センサシステム110のセンサは外部センサ114に限定するわけではなく、カメラアダプタ120に内蔵されたセンサであっても同様の効果が得られる。振動情報取得手段は、例えば、センサ制御部6144である。
The
振動情報は、外部センサ114で検出される物理的振動を、センサ制御部6144でアナログ情報からデジタル情報に変換したデータである。そして、画像処理部6130は、振動情報に基いた画像の切り出し処理(図3において詳述する。)および隣接設置されたカメラ112の画像との位置合わせを実行する。位置合わせは、例えば、隣接のカメラ画像をカメラの設置情報から射影変換し、各画像の輝度分布から特徴点を抽出し、当該特徴点同士をマッチングさせることで行う。なお、位置合わせと振動情報に基づく切り出し処理の実行順序は、装置のメモリや伝送速度などで適宜決定すればよい。
The vibration information is data obtained by converting physical vibration detected by the
また、振動検出可能な外部センサ114は、カメラごとではなく、所定の間隔で間引いた状態で設置してもよい。すなわち、外部センサ114の個数は、カメラの個数より少なくてもよい。外部センサ114の取付位置、カメラの取付位置、さらには振動発生源やセンサシステムを取り付ける構造物において予め測定しておく振動データに基づいて、外部センサがないカメラの振動情報を補完して生成してもよい。
Further, the
次に、図3を参照して、画像処理部6130の構成について詳述する。図3は、画像処理部6130の構成を説明するためのブロック図である。画像処理部6130は、前景背景分離部6131と、三次元モデル情報生成部6132と、キャリブレーション制御部6133とを含む。
Next, the configuration of the
キャリブレーション制御部6133は、上述したように入力された画像に対して切り出し処理や位置合わせを行う。本実施形態における画像処理システム100では、複数のカメラによる撮影範囲が重複しているため、各カメラで撮影された撮影画像全体を常に取得する必要はない。そこで、画像処理部6130は、各撮影画像から所定領域を切り出し、切り出した画像について画像処理を行う。カメラが振動しても常に同一の実空間の画像が切り出されるようにするため、キャリブレーション制御部6133は、振動情報に基づいて切り出す領域を決定する。
The
キャリブレーション制御部6133は、例えば、8Kカメラの画像データを、振動情報に基づいて、元の8Kサイズよりも小さいサイズで切り出して、隣接設置されたカメラ112の画像と位置合わせを行う。この結果、電子的に防振された画像を生成でき、画像コンピューティングサーバ200におけるカメラ112の台数分の位置合わせの処理負荷を軽減する効果が得られる。
For example, the
図4及び図5を参照して、振動情報に基づいた切り出し処理について説明する。キャリブレーション制御部6133は、上述したように、振動情報に基づいて撮影画像から所定領域(解像度)について切り出し処理を行う。具体的には、振動情報の各方向の振動振幅および回転方向に基づいて、その切り出し方向、原点からのシフト量を決定する。
With reference to FIG.4 and FIG.5, the extraction process based on vibration information is demonstrated. As described above, the
図4は、振動情報に基づいた回転処理について説明するための図である。外部センサ114は、2軸(X軸(水平)、Y軸(鉛直))について振動情報を出力する。これらの情報に基づいて、キャリブレーション制御部6133は、撮影画像1を回転させて補正処理画像2となるように補正する。なお、外部センサ114として、3軸(X軸、Y軸、Z軸)の情報が得られる場合は、上記に加えて図4の視点方向(奥行き方向)をZ軸方向として、補正することも可能である。また、外部センサ114は、ジャイロセンサや加速度センサなど、2軸または3軸で振動情報が出力できればどのようなものを用いてもよい。
FIG. 4 is a diagram for explaining the rotation processing based on the vibration information. The
図5は、振動情報に基づいた画像の切り出し処理を説明するための図である。図5(a)は、振動がない状態を示している。撮影画像501において、領域502で切り出し処理を行う。振動がない状態では、撮影画像501の所定位置(例えば、中央)に所定の解像度、すなわち所定のサイズの切り出し領域502を設定する。
FIG. 5 is a diagram for explaining an image clipping process based on vibration information. FIG. 5A shows a state where there is no vibration. In the captured
図5(b)は、振動が小さい状態で、振動がない場合の切り出し領域503と、振動情報に基づいてシフトさせた切り出し領域504とが示されている。図に示すように、解像度としては同一の範囲であるが、振動情報に基づいたシフト方向とシフト量で切り出し領域504が決定される。
FIG. 5B shows a
図5(c)は、振動が比較的大きい状態で、振動がない場合の切り出し領域503と、振動情報に基づいてシフトさせた切り出し領域506が示されている。ここで、切り出し領域506のうち斜線の領域507は、撮影画像501外であり、画像データがない領域である。画像データがない領域については、所定の解像度(所定のサイズの画像)となるようにパディングが施される。以上のように、キャリブレーション制御部6133で切り出された画像は、前景背景分離部6131へ入力される。
FIG. 5C shows a
図3に戻って、前景背景分離部6131について説明する。前景背景分離部6131は、切り出し画像を前景画像と背景画像とに分離する機能を有している。
Returning to FIG. 3, the foreground /
カメラアダプタ120の前景背景分離部6131は、まず対応するカメラ112による撮影画像(切り出し画像)から前景領域を抽出する。ここで、前景領域は、例えば、撮影画像に対するオブジェクト検出の結果、オブジェクトが検出された領域である。前景背景分離部6131は、撮影画像から抽出した前景領域内の画像を前景画像、前景領域以外の領域の画像(前景画像以外)を背景画像として、撮影画像を前景画像と背景画像とに分離する。なお、オブジェクトとは、例えば、人物である。ただし、これに限られず、オブジェクトは、特定の人物(選手、監督、及び/又は審判など)であっても良いし、ボール等の画像パターンが予め定められている物体であっても良い。また、オブジェクトとして、動体が検出されるようにしても良い。人物等の重要なオブジェクトを含む前景画像とそのようなオブジェクトを含まない背景画像を分離して処理することで、画像処理システム100において生成される仮想視点画像の上記のオブジェクトに該当する部分の画像の品質を向上できる。また、前景画像と背景画像の分離を複数のカメラアダプタ120それぞれが行うことで、複数のカメラ112を備えた画像処理システム100における負荷を分散させることができる。
The foreground /
前景背景分離部6131は、前景分離部5001と、背景更新部5003と、背景切出部5004と、振動判定部5010と、前景判定部5011とを有する。前景分離部5001は、入力された画像に対して、オブジェクト検出を行って前景領域を抽出する。例えば、背景画像5002と比較して得られた背景差分情報に基づいて、前景領域を抽出する。そして、前景領域の各画素を連結して前景画像を生成する。
The foreground /
背景更新部5003は、背景画像5002とキャリブレーション制御部6133によってカメラ112の位置合わせが行われた画像を用いて新しい背景画像を生成し、背景画像5002を新しい背景画像に更新する。
The
背景切出部5004は、背景画像の伝送のため、背景画像5002の一部を切り出す制御を行う。振動判定部5010は、外部センサ114の出力値を処理するセンサ制御部6144から振動情報の出力を読み込む。そして、振動情報の振幅について所定の閾値と比較処理を行う。前景判定部5011は、前景分離部5001で分離した前景画像であるオブジェクト全体が撮影画像内に存在するか否かの判断処理を実行する。そして、判断結果に基づき伝送部6120に前景画像を送る。
The
ここで、図6を参照して、前景判定部5011が行う判断処理について説明する。図6は、前景判定部5011が行う判断処理を説明するための図である。図6では、撮影画像601について、振動がない状態の切り出し領域602が示されている。
Here, the determination process performed by the
図6(a)において、矩形の領域603は、振動情報に基づいて領域602からシフトされた切り出し領域である。領域603においてオブジェクトが検出された領域が、白いシルエットで表されており、切り出し画像のうち、このシルエット内の画像が前景画像605である。切り出し領域603のうち、領域610は撮影画像601外であり、画像データがない領域である。
In FIG. 6A, a
図6(b)において、矩形の領域606は、振動情報に基づいて領域602からシフトされた切り出し領域である。領域606においてオブジェクト検出された領域が、白いシルエットで表されている。撮影画像601外の領域611は、画像データがない領域であり、前景画像607は、前景画像605に比べると領域611に係るシルエットの脚部分が切れている。
In FIG. 6B, a
前景判定部5011は、前景画像605及び607について、三次元モデル情報生成部6132へ伝送するか否かを、前景画像が後工程における三次元モデルの生成に有効であるか否かによって判定する。すなわち、前景画像として抽出したオブジェクトの全体が撮影画像内に収まっているか否かで判定する。例えば、検出されたオブジェクトの部分から全体の大きさを推定し、推定されたオブジェクトの全体が撮影画像に収まっている場合は、前景画像は三次元モデルの生成に使用できる(有効である)と判定する。また、前景判定部5011は、オブジェクトの全体について判定することに限らず、全体の90%、全体の80%のように全体の所定以上の割合が撮影画像に収まっている場合に、当該オブジェクトの前景画像が有効であると判定するようにしてもよい。
The
なお、上記に限らず、例えば、検出されたオブジェクトのエッジと、切り出し画像の端辺(撮影画像の端辺)とが重なる場合に、推定されるオブジェクトの全体は、撮影画像に収まっていないと判定するようにしてもよい。 Note that the present invention is not limited to the above. For example, when the edge of the detected object overlaps the edge of the cut-out image (the edge of the captured image), the estimated object is not entirely contained in the captured image. You may make it determine.
図6(a)では、前景画像605の下端604は、撮影画像601内であり、前景画像605は、人型のオブジェクト全体を表している。この場合、前景判定部5011は、前景画像605は後工程における三次元モデルの生成に有効であると判定する。
In FIG. 6A, the
図6(b)では、領域611を除いた領域606に係るシルエットから、人型のシルエットがオブジェクト全体の大きさとして推定される。この場合、前景判定部5011は、前景画像607はオブジェクト全体を表していないため、三次元モデルの生成に有効ではないと判定する。
In FIG. 6B, a humanoid silhouette is estimated as the size of the entire object from the silhouette related to the
なお、図6において切り出し領域が上下方向にシフトした場合について説明したが、切り出し領域が左右方向にシフトした場合についても、前景判定部5011は同様に前景画像が有効であるか否かを判定する。
Although the case where the cutout area is shifted in the vertical direction has been described with reference to FIG. 6, the
上述した前景判定部5011の判定結果に応じて、前景分離部5001で分離された前景画像が伝送部6120を介して三次元モデル情報生成部6132に伝送される。
Depending on the determination result of the
図3に戻って、三次元モデル情報生成部6132について説明する。三次元モデル情報生成部6132は、三次元モデル処理部5005と、他カメラ前景受信部5006と、カメラパラメータ受信部5007とを有する。
Returning to FIG. 3, the three-dimensional model
他カメラ前景受信部5006は、他のカメラアダプタ120で前景背景分離された前景画像を受信する。カメラパラメータ受信部5007は、カメラ固有の内部パラメータ(焦点距離、画像中心、及びレンズ歪みパラメータ等)と、カメラの位置姿勢を表す外部パラメータ(回転行列及び位置ベクトル等)を受信する。
The other camera
三次元モデル処理部5005は、前景分離部5001で分離された前景画像と、伝送部6120を介して受信した他のカメラ112の前景画像を用いて、例えば、ステレオカメラの原理等から三次元モデルに関わる画像情報を逐次生成する。
The 3D model processing unit 5005 uses the foreground image separated by the
次に、図7〜10を参照して、上述した画像処理部6130の処理の流れについて説明する。図7は、画像処理部6130内のキャリブレーション制御部6133及び前景背景分離部6131の処理を示すフローチャートである。ステップS101において、振動判定部5010は、外部センサ114の出力値を処理するセンサ制御部6144から振動情報を読み込む。
Next, with reference to FIGS. 7 to 10, the processing flow of the above-described
ステップS102において、振動判定部5010は、振動情報の振幅値について所定の閾値と比較処理を行う。この閾値は、カメラを取り付ける場所において、あらかじめ計測して設定される値であり、以降の画像処理が不可能となる振動振幅として設定されるものである。振動情報の振幅値が所定の閾値を超える場合(ステップS102において、NO)、処理はステップS103に進む。所定の閾値以下の場合(ステップS102において、YES)、処理はステップS104に進む。
In step S102, the
ステップS103では、振動判定部5010は、振動情報の振幅値が所定の閾値を超えた旨のエラー情報を撮像画像のメタ情報にセットする。撮像画像のメタ情報は伝送部6120に送られる。この処理によって、位置合わせや前景背景分離処理などの画像処理を実行せず、いち早くエラー状態として出力することが可能となる。そして、処理は終了する。
In step S103, the
ステップS104では、振動判定部5010は、伝送部6120を介して所定範囲内の一番近い隣接カメラから、そのさらに隣接カメラへと順次、撮像画像のメタ情報を読み出し、エラーの有無を調べる。そして、エラーの発生していないメタ情報を送信したカメラが所定範囲内かどうかを判断する。すなわち、エラーの無い(非エラーの)、最も近隣のカメラが所定範囲内に存在するかを判定する。なお、所定範囲内とは、そのカメラの画像を用いて、当該カメラの画像処理が実行可能である範囲であって、カメラの設置位置や設置角度などであらかじめ設定されるものである。そうして、所定範囲内のカメラで読み出し可能と判断された場合(ステップS104において、YES)は、ステップS106に進む。所定範囲外となった場合(ステップS104において、NO)は、ステップS105に進むことになる。
In step S104, the
ステップS105では、振動判定部5010は、読み出すべき隣接カメラが所定範囲外となった旨のエラー情報を撮像画像のメタ情報にセットする。撮像画像のメタ情報は伝送部6120に送られる。そして、処理は終了する。ステップS106では、キャリブレーション制御部6133は、エラー無しカメラの画像を読み出す。
In step S105, the
ステップS107では、キャリブレーション制御部6133は、撮影画像に対して切り出し処理を行う。すなわち、カメラに内蔵された加速度センサあるいはジャイロセンサなどのセンサからの振動情報に基づいて入力画像に対する画像位置のシフトや画像の回転処理を行い、所定の領域を切り出す処理を行う。これにより、フレーム画像間のブレが抑制されるが、ブレ補正の手法としてはその他の方法を用いてもよい。例えば、時間的に連続した複数のフレーム画像を比較することで画像の移動量を推定し補正するような画像処理による方法や、レンズシフト方式及びセンサシフト方式などのカメラの内部で実現する方法等でもよい。また、キャリブレーション制御部6133は、フロントエンドサーバ230から受信したパラメータに基づいて、入力画像の画素値にオフセット値を加算するなどの色補正処理も行う。
In step S107, the
ステップS108では、キャリブレーション制御部6133は、切り出し画像とステップS106で読み出した画像との位置合わせ処理を実行する。例えば、隣接のカメラ画像をカメラの設置情報から射影変換し、各画像の輝度分布から特徴点を抽出し、当該特徴点同士をマッチングさせる。
In step S108, the
ステップS109では、キャリブレーション制御部6133は、位置合わせ処理が成功したか否かを判断する。例えば、撮影範囲内に旗などの大きな物体があり、撮像画像が大きく異なっている等により、画像間で特徴点のマッチングがとれなかった場合は、位置合わせ処理が成功しなかった(失敗した)と判断する。位置合わせが成功しなかったと判断した場合(ステップS109において、NO)には、処理はステップS110に進む。位置合わせ処理が成功したと判断した場合(ステップS109において、YES)には、処理はステップS111に進む。
In step S109, the
ステップS110では、キャリブレーション制御部6133は、位置合わせ処理が成功しなかった旨のエラー情報を撮像画像のメタ情報にセットする。撮影画像のメタ情報は伝送部6120に送られる。そして、処理は終了する。
In step S110, the
ステップS111では、前景分離部5001は、キャリブレーション制御部6133から入力された画像について、前景画像と背景画像に分離する処理を実行する。
In step S111, the
ステップS112では、前景判定部5011は、振動情報に基づいてシフトされた切り出し領域全体が撮影画像に含まれるかどうかを判断する。例えば、撮影画像が表す矩形の座標情報と切り出し領域の座標情報とを比較すればよい。切り出し領域全体が撮影画像内にない場合(ステップS112において、NO)は、処理はステップS113に進む。切り出し領域全体が撮影画像内にある場合(ステップS112において、YES)は、処理はステップS115に進む。
In step S112, the
ステップS113では、前景判定部5011は、ステップS111で前景分離部5001が出力した前景画像のオブジェクト全体が撮影画像に含まれるかどうかを判断する。例えば、前景画像として抽出された人物やボール等のオブジェクト全体が撮影画像に含まれているかを、撮影画像が表す矩形の座標情報と前景画像の座標情報とを比較する。前景画像のオブジェクト全体が撮影画像に含まれていない場合(ステップS113において、NO)は、処理はステップS114に進む。前景画像のオブジェクト全体が撮影画像に含まれている場合(ステップS113において、YES)は、処理はステップS115に進む。
In step S113, the
ステップS114では、前景判定部5011は、撮像画像のメタ情報に前景画像のオブジェクト全体が撮影画像に含まれていない旨のエラー情報をセットする。この場合には前景画像の出力は行われない。
In step S114, the
ステップS115では、前景判定部5011は、前景分離部5001が出力した前景画像を、伝送部6120に送る。なお、ステップS103,S105,S110,S114でメタ情報にセットされたエラー情報は、他のカメラアダプタ120が実行するステップS104の判定に用いられる。また、ステップS107の切り出し処理は、位置合わせ処理が成功した後で行ってもよい。
In step S115, the
上述した処理により、あらかじめ設定された振動の大きさによって伝送をするかどうかを決めるよりも、以下の効果が期待できる。すなわち、リアルタイムのシーンの画像によって、前景画像のオブジェクト全体が撮影画像内にあるかどうかを判断してから伝送するかどうかを決定するので、実質的に振動に対して補正領域を拡大するのと同等の効果を得ることができる。言い換えると、本実施形態では、カメラの撮影画像を仮想視点画像の生成のために用いるべきか否かを、当該撮影画像内におけるオブジェクトの位置の情報を用いて判断する。これにより、単なるカメラの振動レベルに基づいて判断するよりも、画質の高い仮想視点画像を生成できる可能性が高まる。 By the processing described above, the following effects can be expected rather than determining whether or not to perform transmission according to the magnitude of vibration set in advance. In other words, the real-time scene image determines whether or not the entire foreground image object is in the captured image, and then determines whether or not to transmit. The same effect can be obtained. In other words, in this embodiment, it is determined using information on the position of the object in the captured image whether or not the captured image of the camera should be used for generating the virtual viewpoint image. This increases the possibility that a virtual viewpoint image with high image quality can be generated rather than making a determination based on a simple camera vibration level.
なお、本実施形態の前景分離部5001は、入力された画像の各画素と、背景画像5002内の対応する位置にある画素との画素値の差分に基づいて撮影画像から前景領域を抽出する。ここで、図8(A)に示した背景画像5002に対して、図8(B)のような、人物が映っている画像5102が入力されたとすると、人物が映っている領域の各画素においては差分が大きくなる。差分が閾値Lより大きい場合には、その画素が前景として設定される。そして、前景画素を連結することにより、前景領域が抽出される。連結方法としては、例えば、公知の領域成長法を用いることができる。なお、前景検出についてはこの他にも、特徴量や機械学習を用いる手法などさまざまな手法がある。前景分離部5001は、前景領域の画像(前景画像)を伝送部6120へ出力する。
Note that the
次に、背景更新部5003による背景更新処理(背景画像の生成処理)について説明する。背景更新部5003は、入力画像と、メモリに保存されている背景画像とを用いて、背景画像5002を更新する処理を行う。更新処理は各画素に対して行われる。より具体的には、背景更新部5003は、入力画像の各画素に対して、背景画像内の対応する位置にある画素との画素値の差分を導出する。そして、差分が定められた閾値Kより小さい画素は背景であると判断し、差分が閾値Kより大きい画素は、背景以外の何らかのオブジェクトが映っていると判断する。
Next, background update processing (background image generation processing) by the
次いで、背景更新部5003は、背景であると判断した画素について、入力画像の画素値と背景画像の画素値とを一定の比率で混合した値によって、背景画像を更新する。このようにして背景画像5002は生成される。なお、背景更新処理については他にも様々な手法が考えられる。
Next, the
背景更新部5003の処理の後、背景切出部5004は、背景画像5002からその一部を読み出し、伝送部6120へ送信する。スタジアム等でサッカーなどの競技を撮影する際に、フィールド全体を死角なく撮影できるようカメラ112を複数配置した場合、カメラ112間で背景情報の大部分が重複するという特徴がある。背景情報は膨大なため、伝送帯域制約の面から重複した部分は削除して伝送することで伝送量を削減することができる。次に、図9を参照して、背景切出部5004の処理を説明する。
After the processing of the
図9は、画像処理部6130内の背景切出部5004の処理を示すフローチャートである。ステップS401では、背景切出部5004は、例えば、図8(C)に示す部分領域3401のように、背景画像5002の中央部分を設定する。つまり、部分領域3401は自カメラ112が伝送を担当する背景画像の領域であり、それ以外の領域は、他のカメラ112が伝送を担当する。
FIG. 9 is a flowchart showing processing of the
ステップS402では、背景切出部5004は、設定された背景画像の部分領域3401を切り出す。
In step S402, the
ステップS403では、背景切出部5004は、部分背景画像を伝送部6120へ出力し、処理を終了する。
In step S403, the
出力された背景画像は画像コンピューティングサーバ200に集められ、背景モデルのテクスチャとして利用される。各カメラアダプタ120において背景画像5002を切出す位置は、背景モデルに対するテクスチャ情報が不足しないように、予め決められたパラメータ値に応じて設定されている。通常は伝送データ量をより少なくするため、切出す領域は必要最小限となるように設定される。これにより、膨大な背景情報の伝送量を削減できるという効果があり、高解像度化にも対応できるシステムにすることができる。
The output background images are collected by the
前景背景分離部6131の処理後、三次元モデル情報生成部6132は、前景画像を用いて三次元モデル情報の生成を行う。カメラアダプタが隣のカメラからの前景画像を受信すると、伝送部6120を介して他カメラ前景受信部5006にその前景画像が入力される。
After the processing of the foreground /
次に、図10を参照して、前景画像が入力されたときに三次元モデル処理部5005が実行する処理を説明する。ここで、画像コンピューティングサーバ200が各カメラ112の撮影画像を集め、画像処理を開始し仮想視点画像を生成する場合に、計算量が多く画像生成に係る時間が長くなることが考えられる。特に、三次元モデル生成における計算量が顕著に大きくなるおそれがある。そこで、図10に示す処理では、画像コンピューティングサーバ200における処理量を低減するために、カメラアダプタ120間をデイジーチェーンでつないでデータを伝送する中で、逐次三次元モデル情報を生成する方法について説明する。
Next, processing executed by the 3D model processing unit 5005 when a foreground image is input will be described with reference to FIG. Here, when the
図10は、画像処理部6130内の三次元モデル情報生成部6132の処理を示すフローチャートである。ステップS501では、他カメラ前景受信部5006は、他のカメラ112により撮影された前景画像を受信する。
FIG. 10 is a flowchart showing the processing of the 3D model
ステップS502では、三次元モデル処理部5005は、受信した前景画像を撮影したカメラ112が自カメラ112と同一注視点のグループに属し、且つ、隣接カメラであるかどうかを確認する。注視点が同一グループかつ隣接カメラである場合(ステップS502において、YES)、処理はステップS503に進む。そうでない場合(ステップS502において、NO)、三次元モデル処理部5005は、当該他カメラ112の前景画像との相関がないと判断し、処理は終了する。
In step S502, the 3D model processing unit 5005 confirms whether the
ステップS503では、三次元モデル処理部5005は、前景画像のデプス情報の導出を行う。前景画像のデプス情報の導出は、具体的には、まず前景分離部5001から受信した前景画像と他のカメラ112の前景画像との対応付けを行う。そして、対応付けされた各画素の座標値とカメラパラメータに基づいて、各前景画像上の各画素のデプス情報を導出する。ここで、画像の対応付けの手法としては、例えば、ブロックマッチング法が用いられる。ブロックマッチング法は良く知られた方法であるので詳細な説明は省く。また、対応付けの方法としてはその他にも、特徴点検出、特徴量算出、及びマッチング処理などを組み合わせて性能を向上させるようなさまざまな手法があり、どの手法を用いてもよい。
In step S503, the 3D model processing unit 5005 derives depth information of the foreground image. Specifically, the depth information of the foreground image is derived by first associating the foreground image received from the
ステップS504では、三次元モデル処理部5005は、前景画像の三次元モデル情報を導出する。三次元モデル情報の導出は、具体的には、前景画像の各画素について、ステップS503で導出したデプス情報と、カメラパラメータ受信部5007に格納されたカメラパラメータに基づいて画素の世界座標値を導出する。そして、世界座標値と画素値をセットとして、点群として構成される三次元モデルの1つの点データを設定する。以上の処理により、前景分離部5001から受信した前景画像から得られた三次元モデルの一部の点群情報と、他のカメラ112の前景画像から得られた三次元モデルの一部の点群情報とが得られる。
In step S504, the 3D model processing unit 5005 derives 3D model information of the foreground image. Specifically, for the derivation of the 3D model information, for each pixel of the foreground image, the world coordinate value of the pixel is derived based on the depth information derived in step S503 and the camera parameter stored in the camera
ステップS505では、三次元モデル処理部5005は、得られた三次元モデル情報にカメラ番号およびフレーム番号をメタ情報として付加し(メタ情報は、例えば、タイムコードや絶対時刻でもよい。)伝送部6120へ出力する。 In step S505, the 3D model processing unit 5005 adds a camera number and a frame number as meta information to the obtained 3D model information (the meta information may be a time code or an absolute time, for example). Output to.
これによって、カメラアダプタ120間がデイジーチェーンで接続され、かつ、複数の注視点が設定される場合でも、デイジーチェーンによってデータを伝送しながら、カメラ112間の相関に応じて画像処理を行い、三次元モデル情報を逐次生成することができる。その結果、処理が高速化される効果がある。
As a result, even when the
なお本実施形態では、以上に説明した各処理はカメラアダプタ120に実装されたFPGAまたはASICなどのハードウェアによって実行されるが、例えばCPU、GPU、DSPなどを用いてソフトウェア処理によって実行してもよい。また本実施形態ではカメラアダプタ120内で三次元モデル情報生成を実行したが、各カメラ112からの全ての前景画像が集められる画像コンピューティングサーバ200が三次元モデル情報の生成を行ってもよい。
In the present embodiment, each process described above is executed by hardware such as FPGA or ASIC mounted on the
<フロントエンドサーバ230の機能ブロック>
図11は、フロントエンドサーバ230の機能構成を説明するためのブロック図である。フロントエンドサーバ230は、制御部2110と、データ入力制御部2120と、データ同期部2130と、CADデータ記憶部2135と、キャリブレーション部2140と、画像処理部2150とを含む。さらに、フロントエンドサーバ230は、三次元モデル結合部2160と、画像結合部2170と、撮影データファイル生成部2180と、非撮影データファイル生成部2185と、DBアクセス制御部2190とを含む。
<Functional blocks of front-
FIG. 11 is a block diagram for explaining a functional configuration of the front-
制御部2110は、CPUやDRAM、プログラムデータや各種データを記憶したHDDやNANDメモリなどの記憶媒体、Ethernet(登録商標)等のハードウェアで構成される。そして、フロントエンドサーバ230の各機能ブロック及びフロントエンドサーバ230のシステム全体の制御を行う。また、モード制御を行って、キャリブレーション動作や撮影前の準備動作、及び撮影中動作などの動作モードを切り替える。また、例えば、ネットワーク310b(Ethernet(登録商標))を通じて制御ステーション310からの制御指示を受信し、各モードの切り替えやデータの入出力などを行う。また、同じくネットワーク310bを通じて制御ステーション310からスタジアムCADデータ(スタジアム形状データ)を取得し、スタジアムCADデータをCADデータ記憶部2135と撮影データファイル生成部2180に送信する。なお、本実施形態におけるスタジアムCADデータ(スタジアム形状データ)はスタジアムの形状を示す三次元データであり、メッシュモデルやその他の三次元形状を表すデータであればよく、CAD形式に限定されない。
The
データ入力制御部2120は、ネットワーク180a,180b(Ethernet(登録商標))等の通信路とスイッチングハブ180を介して、カメラアダプタ120とネットワーク接続されている。そして、データ入力制御部2120は、ネットワーク180a,180b、スイッチングハブ180を通してカメラアダプタ120から前景画像、背景画像、被写体の三次元モデル、音声データ、及びカメラキャリブレーション撮影画像データを取得する。また、データ入力制御部2120は、取得した前景画像及び背景画像を、データ同期部2130に送信し、カメラキャリブレーション撮影画像データをキャリブレーション部2140に送信する。
The data
データ同期部2130は、カメラアダプタ120から取得したデータをDRAM上に一次的に記憶し、前景画像、背景画像、音声データ及び三次元モデルデータが揃うまでバッファする。なお、前景画像、背景画像、音声データ及び三次元モデルデータをまとめて、以降では撮影データと称する。撮影データにはルーティング情報やタイムコード情報(時間情報)、カメラ識別子、位置合わせの可否、前景画像の撮影範囲内外の判定等のメタ情報が付与されており、データ同期部2130は、このメタ情報を元にデータの属性を確認する。これにより、データ同期部2130は、同一時刻のデータであることなどを判断してデータがそろったことを確認する。これは、ネットワークによって各カメラアダプタ120から転送されたデータについて、ネットワークパケットの受信順序は保証されず、ファイル生成に必要なデータが揃うまでバッファする必要があるためである。データがそろったら、データ同期部2130は、前景画像及び背景画像を画像処理部2150に、三次元モデルデータを三次元モデル結合部2160に、音声データを撮影データファイル生成部2180にそれぞれ送信する。
The
CADデータ記憶部2135は、制御部2110から受け取ったスタジアム形状を示す三次元データを、DRAMまたはHDDやNANDメモリ等の記憶媒体に保存する。そして、画像結合部2170に対して、スタジアム形状データの要求を受け取った際に保存されたスタジアム形状データを送信する。
The CAD
キャリブレーション部2140は、カメラのキャリブレーション動作を行い、キャリブレーションによって得られたカメラパラメータを後述する非撮影データファイル生成部2185に送る。また同時に、自身の記憶領域にもカメラパラメータを保持し、後述する三次元モデル結合部2160にカメラパラメータ情報を提供する。
The
画像処理部2150は、前景画像や背景画像に対して、カメラ間の色や輝度値の合わせこみ、RAW画像データが入力される場合には現像処理、及びカメラのレンズ歪みの補正等の処理を行う。そして、画像処理を行った前景画像は、撮影データファイル生成部2180に、背景画像は画像結合部2170にそれぞれ送信する。
The
三次元モデル結合部2160は、カメラアダプタ120から取得した同一時刻の三次元モデルデータをキャリブレーション部2140が生成したカメラパラメータを用いて結合する。そして、例えば、VisualHullと呼ばれる方法を用いて、スタジアム全体における前景画像の三次元モデルデータを生成する。生成した三次元モデルは撮影データファイル生成部2180に送信される。
The 3D
画像結合部2170は、画像処理部2150から背景画像を取得し、CADデータ記憶部2135からスタジアムの三次元形状データ(スタジアム形状データ)を取得し、取得したスタジアムの三次元形状データの座標に対する背景画像の位置を特定する。背景画像の各々についてスタジアムの三次元形状データの座標に対する位置が特定できると、背景画像を結合して1つの背景画像とする。なお、本背景画像の三次元形状データの作成については、バックエンドサーバ270が実施してもよい。
The
撮影データファイル生成部2180は、データ同期部2130から音声データを、画像処理部2150から前景画像を、三次元モデル結合部2160から三次元モデルデータを、画像結合部2170から三次元形状に結合された背景画像を取得する。そして、取得したこれらのデータをDBアクセス制御部2190に対して出力する。ここで、撮影データファイル生成部2180は、これらのデータをそれぞれの時間情報に基づいて対応付けて出力する。ただし、これらのデータの一部を対応付けて出力してもよい。例えば、撮影データファイル生成部2180は、前景画像と背景画像とを、前景画像の時間情報及び背景画像の時間情報に基づいて対応付けて出力する。また例えば、撮影データファイル生成部2180は、前景画像、背景画像、及び三次元モデルデータを、前景画像の時間情報、背景画像の時間情報、及び三次元モデルデータの時間情報に基づいて対応付けて撮影データとして出力する。
The shooting data file
非撮影データファイル生成部2185は、キャリブレーション部2140からカメラパラメータ、制御部2110からスタジアムの三次元形状データを取得し、ファイル形式に応じて成形した後にDBアクセス制御部2190に送信する。
The non-photographed data file
DBアクセス制御部2190は、InfiniBandなどにより高速な通信が可能となるようにデータベース250と接続される。そして、撮影データファイル生成部2180及び非撮影データファイル生成部2185から受信したファイルをデータベース250に対して送信する。本実施形態では、撮影データファイル生成部2180が時間情報に基づいて対応付けた撮影データは、フロントエンドサーバ230とネットワークを介して接続される記憶装置であるデータベース250へDBアクセス制御部2190を介して出力される。
The DB
本実施形態ではフロントエンドサーバ230が前景画像と背景画像の対応付けを行うものとするが、これに限らず、データベース250が対応付けを行ってもよい。例えば、データベース250はフロントエンドサーバ230から時間情報を有する前景画像及び背景画像を取得する。そしてデータベース250は、前景画像と背景画像とを前景画像の時間情報及び背景画像の時間情報に基づいて対応付けて、データベース250が備える記憶部に出力してもよい。
In the present embodiment, the front-
<データベース250の機能ブロック>
図12は、データベース250の機能構成を説明するためのブロック図である。データベース250は、制御部2410と、データ入力部2420と、データ出力部2430と、キャッシュ2440と、一次ストレージ2450とを有する。また、一次ストレージ2450は、二次ストレージ2460と接続されている。
<Functional blocks of
FIG. 12 is a block diagram for explaining the functional configuration of the
制御部2410は、CPUやDRAM、プログラムデータや各種データを記憶したHDDやNANDメモリなどの記憶媒体、及びEthernet(登録商標)等のハードウェアで構成される。そして、データベース250の各機能ブロック及びデータベース250のシステム全体の制御を行う。
The
データ入力部2420は、InfiniBand等の高速な通信によって、フロントエンドサーバ230から撮影データや非撮影データのファイルを受信する。受信したファイルは、キャッシュ2440に送られる。また、受信した撮影データのメタ情報を読み出し、メタ情報に記録されたタイムコード情報やルーティング情報、カメラ識別子等の情報を元に、取得したデータへのアクセスが可能になるようにデータベーステーブルを作成する。
The
データ出力部2430は、バックエンドサーバ270から要求されたデータが後述するキャッシュ2440、一次ストレージ2450、二次ストレージ2460のいずれに保存されているか判断する。そして、InfiniBand等の高速な通信によって、保存された先からデータを読み出してバックエンドサーバ270に送信する。
The
キャッシュ2440は、高速な入出力スループットを実現可能なDRAM等の記憶装置を有しており、データ入力部2420から取得した撮影データや非撮影データを記憶装置に格納する。格納されたデータは一定量保持され、それを超えるデータが入力される場合に、古いデータから随時一次ストレージ2450へと書き出され、書き出し済みのデータは新たなデータによって上書きされる。キャッシュされたデータはデータ出力部2430によって読み出される。
The
一次ストレージ2450は、SSD等のストレージメディアを並列につなぐなどして構成される。データ入力部2420からの大量のデータの書き込み及びデータ出力部2430からのデータ読み出しが同時に実現できる。そして、一次ストレージ2450には、キャッシュ2440上に格納されたデータの古いものから順に書き出される。
The
二次ストレージ2460は、HDDやテープメディア等で構成される。高速性よりも大容量が重視され、一次ストレージ2450と比較して安価で長期間の保存に適するメディアであることが求められる。二次ストレージ2460には、撮影が完了した後、データのバックアップとして一次ストレージ2450に格納されたデータが書き出される。
The
<バックエンドサーバ270の説明>
図13は、バックエンドサーバ270の機能構成を説明するためのブロック図である。バックエンドサーバ270は、データ受信部3001と、背景テクスチャ貼り付け部3002と、前景テクスチャ決定部3003と、テクスチャ境界色合わせ部3004と、仮想視点前景画像生成部3005と、レンダリング部3006とを有する。さらに、仮想視点音声生成部3007と、合成部3008と、画像出力部3009と、前景オブジェクト決定部3010と、要求リスト生成部3011と、要求データ出力部3012と、レンダリングモード管理部3014とを有する。
<Description of back-
FIG. 13 is a block diagram for explaining a functional configuration of the back-
データ受信部3001は、データベース250およびコントローラ300から送信されるデータを受信する。また、データベース250からは、スタジアムの形状を示す三次元データ(スタジアム形状データ)、前景画像、背景画像、前景画像の三次元モデル(以降、前景三次元モデルと称する)、及び音声を受信する。
また、データ受信部3001は、仮想視点画像の生成に係る視点を指定するコントローラ300から出力される仮想カメラパラメータを受信する。仮想カメラパラメータとは、仮想視点の位置や姿勢などを表すデータであり、例えば、外部パラメータの行列と内部パラメータの行列が用いられる。
The
In addition, the
背景テクスチャ貼り付け部3002は、背景メッシュモデル管理部3013から取得する背景メッシュモデル(スタジアム形状データ)で示される三次元空間形状に対して背景画像をテクスチャとして貼り付ける。そうすることでテクスチャ付き背景メッシュモデルを生成する。メッシュモデルとは、例えば、CADデータなど三次元の空間形状を面の集合で表現したデータのことである。テクスチャとは、物体の表面の質感を表現するために貼り付ける画像のことである。
The background
前景テクスチャ決定部3003は、前景画像及び前景三次元モデル群より前景三次元モデルのテクスチャ情報を決定する。前景テクスチャ境界色合わせ部3004は、各前景三次元モデルのテクスチャ情報と各三次元モデル群からテクスチャの境界の色合わせを行い、前景オブジェクト毎に色付き前景三次元モデル群を生成する。
The foreground
仮想視点前景画像生成部3005は、仮想カメラパラメータに基づいて、前景画像群を仮想視点からの見た目となるように透視変換する。レンダリング部3006は、レンダリングモード管理部3014で決定された、仮想視点画像の生成に用いられる生成方式に基づいて、背景画像と前景画像をレンダリングして全景の仮想視点画像を生成する。
The virtual viewpoint foreground
本実施形態では仮想視点画像の生成方式として、モデルベースレンダリング(Model−Based Rendering:MBR)とイメージベース(Image−Based Rendering:IBR)の2つのレンダリングモードが用いられる。 In the present embodiment, two rendering modes of model-based rendering (Model-Based Rendering: MBR) and image-based (Image-Based Rendering: IBR) are used as the generation method of the virtual viewpoint image.
MBRとは、被写体を複数の方向から撮影した複数の撮影画像に基づいて生成される三次元モデルを用いて仮想視点画像を生成する方式である。レンダリングモードがMBRの場合、背景メッシュモデルと前景テクスチャ境界色合わせ部3004で生成した前景三次元モデル群を合成することで全景モデルが生成され、その全景モデルから仮想視点画像が生成される。 MBR is a method for generating a virtual viewpoint image using a three-dimensional model generated based on a plurality of captured images obtained by capturing a subject from a plurality of directions. When the rendering mode is MBR, a foreground model is generated by combining the background mesh model and the foreground 3D model group generated by the foreground texture boundary color matching unit 3004, and a virtual viewpoint image is generated from the foreground model.
IBRとは、対象のシーンを複数視点から撮影した入力画像群を変形、合成することによって仮想視点からの見えを再現した仮想視点画像を生成する技術である。本実施形態では、IBRを用いる場合、MBRを用いて三次元モデルを生成するための複数の撮影画像より少ない1又は複数の撮影画像に基づいて仮想視点画像が生成される。レンダリングモードがIBRの場合、背景テクスチャモデルに基づいて仮想視点から見た背景画像が生成され、そこに仮想視点前景画像生成部3005で生成された前景画像を合成することで仮想視点画像が生成される。なお、レンダリング部3006はMBRとIBR以外のレンダリング手法を用いてもよい。
IBR is a technique for generating a virtual viewpoint image that reproduces the appearance from a virtual viewpoint by transforming and synthesizing an input image group obtained by photographing a target scene from a plurality of viewpoints. In the present embodiment, when using IBR, a virtual viewpoint image is generated based on one or a plurality of captured images that are fewer than a plurality of captured images for generating a three-dimensional model using MBR. When the rendering mode is IBR, a background image viewed from a virtual viewpoint is generated based on the background texture model, and a virtual viewpoint image is generated by synthesizing the foreground image generated by the virtual viewpoint foreground
レンダリングモード管理部3014は、仮想視点画像の生成に用いられる生成方式としてのレンダリングモードを決定し、決定結果を保持する。仮想視点音声生成部3007は、仮想カメラパラメータに基づいて、仮想視点において聞こえる音声(音声群)を生成する。合成部3008は、レンダリング部3006で生成された画像群と仮想視点音声生成部3007で生成された音声を合成して仮想視点コンテンツを生成する。
The rendering
画像出力部3009は、コントローラ300とエンドユーザ端末190へEthernet(登録商標)を用いて仮想視点コンテンツを出力する。ただし、外部への伝送手段はEthernet(登録商標)に限定されるものではなく、SDI、DisplayPort、及びHDMI(登録商標)などの信号伝送手段を用いてもよい。なお、バックエンドサーバ270は、レンダリング部3006で生成された、音声を含まない仮想視点画像を出力してもよい。
The
前景オブジェクト決定部3010は、仮想カメラパラメータと前景三次元モデルに含まれる前景オブジェクトの空間上の位置を示す前景オブジェクトの位置情報から、表示される前景オブジェクト群を決定して、前景オブジェクトリストを出力する。つまり、前景オブジェクト決定部3010は、仮想視点の画像情報を物理的なカメラ112にマッピングする処理を実施する。
The foreground object determination unit 3010 determines the foreground object group to be displayed from the virtual camera parameters and the position information of the foreground object indicating the position of the foreground object included in the foreground 3D model, and outputs the foreground object list To do. That is, the foreground object determination unit 3010 performs a process of mapping the virtual viewpoint image information to the
要求リスト生成部3011は、指定時間の前景オブジェクトリストに対応する前景画像群と前景三次元モデル群、及び背景画像と音声データをデータベース250に要求するための、要求リストを生成する。前景オブジェクトについては仮想視点を考慮して選択されたデータがデータベース250に要求されるが、背景画像と音声データについてはそのフレームに関する全てのデータが要求される。バックエンドサーバ270の起動後、背景メッシュモデルが取得されるまで背景メッシュモデルの要求リストが生成される。
The request list generation unit 3011 generates a request list for requesting the
要求データ出力部3012は、入力された要求リストを元に、データベース250に対してデータ要求のコマンドを出力する。背景メッシュモデル管理部3013は、データベース250から受信した背景メッシュモデルを記憶する。
The request
なお、本実施形態ではバックエンドサーバ270が仮想視点画像の生成方式の決定と仮想視点画像の生成の両方を行う場合を中心に説明するが、これに限らない。
In this embodiment, the case where the back-
図14は、仮想カメラ8001について説明するための図である。図14(a)において、仮想カメラ8001は、設置されたどのカメラ112とも異なる視点において撮影を行うことができる仮想的なカメラである。すなわち、画像処理システム100において生成される仮想視点画像が、仮想カメラ8001による撮影画像である。図14(a)において、円周上に配置された複数のセンサシステム110それぞれがカメラ112を有している。例えば、仮想視点画像を生成することにより、あたかもサッカーゴールの近くの仮想カメラ8001で撮影されたかのような画像を生成することができる。仮想カメラ8001の撮影画像である仮想視点画像は、設置された複数のカメラ112の画像を画像処理することで生成される。オペレータ(ユーザ)は仮想カメラ8001の位置等操作することで、自由な視点からの撮影画像を得ることができる。図14(b)において、仮想カメラパス8002は、仮想カメラ8001の1フレームごとの位置や姿勢を表す情報の列を示している。詳細は後述する。
FIG. 14 is a diagram for explaining the
図15は、仮想カメラ操作UI330の機能構成を説明するためのブロック図である。仮想カメラ操作UI330は、仮想カメラ管理部8130および操作UI部8120を有する。これらは同一機器上に実装されてもよいし、それぞれサーバとなる装置とクライアントとなる装置に別々に実装されてもよい。
FIG. 15 is a block diagram for explaining a functional configuration of the virtual
仮想カメラ操作部8101は、オペレータの仮想カメラ8001に対する操作、すなわち仮想視点画像の生成に係る視点を指定するためのユーザによる指示を受け付けて処理する。オペレータの操作内容は、例えば、位置の変更(移動)、姿勢の変更(回転)、及びズーム倍率の変更などである。
The virtual
仮想カメラパラメータ導出部8102は、仮想カメラ8001の位置や姿勢などを表す仮想カメラパラメータを導出する。仮想パラメータは、演算によって導出されてもよいし、ルックアップテーブルの参照などによって導出されてもよい。仮想カメラパラメータとして、例えば、外部パラメータを表す行列と内部パラメータを表す行列が用いられる。ここで、仮想カメラ8001の位置と姿勢は外部パラメータに含まれ、ズーム値は内部パラメータに含まれる。
A virtual camera
仮想カメラ制約管理部8103は、仮想カメラ操作部8101により受け付けられる指示に基づく視点の指定が制限される制限領域を特定するための情報を取得し管理する。この情報は例えば、仮想カメラ8001の位置や姿勢、ズーム値などに関する制約である。
The virtual camera
衝突判定部8104は、仮想カメラパラメータ導出部8102で導出された仮想カメラパラメータが仮想カメラ制約を満たしているかを判定する。制約を満たしていない場合は、例えば、オペレータによる操作入力をキャンセルし、制約を満たす位置から仮想カメラ8001が動かないよう制御したり、制約を満たす位置に仮想カメラ8001を戻したりする。
The
フィードバック出力部8105は、衝突判定部8104の判定結果をオペレータにフィードバックする。例えば、オペレータの操作により、仮想カメラ制約が満たされなくなる場合に、そのことをオペレータに通知する。例えば、オペレータが仮想カメラ8001を上方に移動しようと操作したが、移動先が仮想カメラ制約を満たさないとする。その場合、オペレータに、これ以上上方に仮想カメラ8001を移動できないことを通知する。
The
仮想カメラパス管理部8106は、オペレータの操作に応じた仮想カメラ8001のパス(仮想カメラパス8002)を管理する。図14(b)において示したように、仮想カメラパス8002とは、仮想カメラ8001の1フレームごと位置や姿勢を表す情報の列である。例えば、仮想カメラ8001の位置や姿勢を表す情報として仮想カメラパラメータが用いられる。例えば、60フレーム/秒のフレームレートの設定における1秒分の情報は、60個の仮想カメラパラメータの列となる。仮想カメラパス管理部8106は、衝突判定部8104で判定済みの仮想カメラパラメータを、バックエンドサーバ270に送信する。バックエンドサーバ270は、受信した仮想カメラパラメータを用いて、仮想視点画像及び仮想視点音声を生成する。
The virtual camera
オーサリング部8107は、オペレータがリプレイ画像を生成する際の編集機能を提供する。オーサリング部8107は、ユーザ操作に応じて、リプレイ画像用の仮想カメラパス8002の初期値として、仮想カメラパス管理部8106が保持する仮想カメラパス8002の一部を取り出す。
The
仮想カメラ画像・音声出力部8108は、バックエンドサーバ270から受け取った仮想カメラ画像・音声を出力する。オペレータは出力された画像及び音声を確認しながら仮想カメラ8001を操作する。
The virtual camera image /
図16は、エンドユーザ端末190の機能構成を説明するためのブロック図である。サービスアプリケーションが動作するエンドユーザ端末190は、例えば、PC(Personal Computer)である。なお、エンドユーザ端末190は、PCに限らず、スマートフォンやタブレット端末、高精細な大型ディスプレイでもよいものとする。
FIG. 16 is a block diagram for explaining a functional configuration of the
アプリケーション管理部10001は、基本ソフト部10002から入力されたユーザ入力情報を、バックエンドサーバ270のバックエンドサーバコマンドに変換して、基本ソフト部10002へ出力する。また、アプリケーション管理部10001は、基本ソフト部10002から入力された画像を、所定の表示領域に描画するための画像描画指示を、基本ソフト部10002へ出力する。
The
基本ソフト部10002は、例えば、OS(Operating System)であり、ユーザ入力部10004から入力されたユーザ入力情報を、アプリケーション管理部10001へ出力する。また、ネットワーク通信部10003から入力された画像や音声をアプリケーション管理部10001へ出力したり、アプリケーション管理部10001から入力されたバックエンドサーバコマンドをネットワーク通信部10003へ出力したりする。さらに、アプリケーション管理部10001から入力された画像描画指示を、画像出力部10005へ出力する。
The
ネットワーク通信部10003は、基本ソフト部10002から入力されたバックエンドサーバコマンドを、LANケーブル上で通信可能なLAN通信信号に変換して、バックエンドサーバ270へ出力する。そして、バックエンドサーバ270から受信した画像や音声データが加工可能となるように、基本ソフト部10002へデータを渡す。
The
ユーザ入力部10004は、キーボード入力(物理キーボード又はソフトキーボード)やボタン入力に基づくユーザ入力情報や、ユーザ入力機器からUSBケーブルを介して入力されたユーザ入力情報を取得し、基本ソフト部10002へ出力する。
The
画像出力部10005は、基本ソフト部10002から出力された画像表示指示に基づく画像を画像信号に変換して、外部ディスプレイや一体型のディスプレイなどに出力する。
The
音声出力部10006は、基本ソフト部10002から出力された音声出力指示に基づく音声データを外部スピーカあるいは一体型スピーカに出力する。 端末属性管理部10007は、端末の表示解像度、画像符号化コーデック種別、及び端末種別(スマートフォンなのか、大型ディスプレイなのかなど)を管理する。
The
サービス属性管理部10008は、エンドユーザ端末190に提供するサービス種別に関する情報を管理する。例えば、エンドユーザ端末190に搭載されるアプリケーションの種別や利用可能な画像配信サービスなどが管理される。課金管理部10009では、ユーザの画像配信サービスへの登録決済状況や課金金額に応じた、受信可能な画像配信シーン数の管理などが行われる。
The service
<ハードウェア構成について>
続いて、本実施形態を構成する各装置のハードウェア構成について説明する。上述の通り、本実施形態では、カメラアダプタ120がFPGA及び/又はASICなどのハードウェアを実装し、これらのハードウェアによって、上述した各処理を実行する場合の例を中心に説明した。それはセンサシステム110内の各種装置や、フロントエンドサーバ230、データベース250、バックエンドサーバ270、及びコントローラ300についても同様である。しかしながら、上記装置のうち、少なくとも何れかが、例えばCPU、GPU、DSPなどを用い、ソフトウェア処理によって本実施形態の処理を実行するようにしても良い。
<About hardware configuration>
Next, the hardware configuration of each device constituting this embodiment will be described. As described above, in the present embodiment, the
図17は、カメラアダプタ120のハードウェア構成を示すブロック図である。なお、フロントエンドサーバ230、データベース250、バックエンドサーバ270、制御ステーション310、仮想カメラ操作UI330、及びエンドユーザ端末190などの装置も、図17のハードウェア構成となりうる。カメラアダプタ120は、CPU1201と、ROM1202と、RAM1203と、補助記憶装置1204と、表示部1205と、操作部1206と、通信部1207と、バス1208とを有する。
FIG. 17 is a block diagram illustrating a hardware configuration of the
CPU1201は、ROM1202やRAM1203に格納されているコンピュータプログラムやデータを用いてカメラアダプタ120の全体を制御する。ROM1202は、変更を必要としないプログラムやパラメータを格納する。RAM1203は、補助記憶装置1204から供給されるプログラムやデータ、及び通信部1207を介して外部から供給されるデータなどを一時記憶する。補助記憶装置1204は、例えばハードディスクドライブ等で構成され、静止画や動画などのコンテンツデータを記憶する。
The
表示部1205は、例えば、液晶ディスプレイ等で構成され、ユーザがカメラアダプタ120を操作するためのGUI(Graphical User Interface)などを表示する。操作部1206は、例えば、キーボードやマウス等で構成され、ユーザによる操作を受けて各種の指示をCPU1201に入力する。通信部1207は、カメラ112やフロントエンドサーバ230などの外部の装置と通信を行う。バス1208は、カメラアダプタ120の各部を繋いで情報を伝達する。
The
上述の実施形態は、画像処理システム100が競技場やコンサートホールなどの施設に設置される場合の例を中心に説明した。施設の他の例としては、例えば、遊園地、公園、競馬場、競輪場、カジノ、プール、スケートリンク、スキー場、ライブハウスなどがある。また、各種施設で行われるイベントは、屋内で行われるものであっても屋外で行われるものであっても良い。また、本実施形態における施設は、一時的に(期間限定で)建設される施設も含む。
The above-described embodiment has been described mainly with respect to an example in which the
<他の実施形態>
振動情報に関わる処理は、カメラアダプタ120ではなく、フロントエンドサーバ230で行ってもよい。具体的には、データ入力制御部2120のサーバ画像処理部6230で実行することも可能である。
<Other embodiments>
The processing related to the vibration information may be performed by the
また、外部センサは各カメラに接続されなくてもよく、複数台のカメラにひとつの外部センサを設け、センサの情報を各カメラに通知しても構わない。 In addition, the external sensor may not be connected to each camera, and one external sensor may be provided for a plurality of cameras, and information about the sensor may be notified to each camera.
カメラアダプタ120では、例えば、振動情報のうち振動振幅が所定値を超える場合は、前景画像や背景画像に分離せず、全ての画像データおよび振動情報をメタ情報とともに送信する。そして、サーバ画像処理部6230は、カメラアダプタ120から受信した画像および振動情報に基づき、先述したような位置合わせ、前景画像に関する処理を実行する。
For example, when the vibration amplitude of the vibration information exceeds a predetermined value, the
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The present invention supplies a program that realizes one or more functions of the above-described embodiments to a system or apparatus via a network or a storage medium, and one or more processors in a computer of the system or apparatus read and execute the program This process can be realized. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
以上、上述した実施形態によれば、カメラ112の台数などのシステムを構成する装置の規模、及び撮影画像の出力解像度や出力フレームレートなどに依らず、仮想視点画像を簡便に生成することが出来る。以上、本発明の実施形態について詳述したが、本発明は上述の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形及び変更が可能である。
As described above, according to the above-described embodiment, it is possible to easily generate a virtual viewpoint image regardless of the scale of the apparatus constituting the system such as the number of
110 センサシステム、111 マイク、112 カメラ、113 雲台、120 カメラアダプタ、180 スイッチングハブ、190 エンドユーザ端末、230 フロントエンドサーバ、250 データベース、270 バックエンドサーバ、290 タイムサーバ、310 制御ステーション、330 仮想カメラ操作UI 110 sensor system, 111 microphone, 112 camera, 113 pan head, 120 camera adapter, 180 switching hub, 190 end user terminal, 230 front end server, 250 database, 270 back end server, 290 time server, 310 control station, 330 virtual Camera operation UI
Claims (24)
前記撮影画像を撮影した撮影装置に対する振動情報を取得する振動情報取得手段と、
仮想視点画像の生成に用いる所定領域を前記撮影画像から切り出す切り出し手段と、
前記振動情報に基づいて前記所定領域を決定する決定手段と、を備えることを特徴とする情報処理装置。 Image acquisition means for acquiring a captured image;
Vibration information acquisition means for acquiring vibration information for a photographing apparatus that has photographed the photographed image;
Clipping means for cutting out a predetermined region used for generating the virtual viewpoint image from the captured image;
An information processing apparatus comprising: determining means for determining the predetermined area based on the vibration information.
前記前景画像が、前記仮想視点画像を生成するのに有効であるか否かを判定する判定手段とを、さらに備えることを特徴とする請求項1に記載の情報処理装置。 Separation means for separating an object included in the cutout image from the cutout image as a foreground image;
The information processing apparatus according to claim 1, further comprising: a determination unit that determines whether or not the foreground image is effective for generating the virtual viewpoint image.
前記分離手段は、前記位置合わせ手段が前記位置合わせに失敗した場合に、前記前景画像の分離を行わないことを特徴とする請求項4に記載の情報処理装置。 The image processing apparatus further comprises alignment means for aligning the clipped image with an image acquired from another imaging device different from the imaging device that captured the acquired captured image,
The information processing apparatus according to claim 4, wherein the separation unit does not separate the foreground image when the alignment unit fails in the alignment.
前記撮影手段に対する振動情報を取得する振動情報取得手段と、
前記複数の撮影手段からの撮影画像に基づいて仮想視点画像を生成する画像生成手段と、
前記複数の撮影手段のうち1つ以上に対する前記振動情報に基づいて、前記複数の撮影手段のうち1つ以上による前記撮影画像のそれぞれについて前記仮想視点画像の生成に用いるか否かを判定する判定手段と、を備えることを特徴とする画像処理システム。 A plurality of photographing means;
Vibration information acquisition means for acquiring vibration information for the photographing means;
Image generating means for generating a virtual viewpoint image based on the photographed images from the plurality of photographing means;
Judgment to determine whether or not to use each of the photographed images by one or more of the plurality of photographing means to generate the virtual viewpoint image based on the vibration information for one or more of the plurality of photographing means. And an image processing system.
前記振動情報に基づいて前記所定領域を決定する決定手段と、
をさらに備えることを特徴とする請求項11に記載の画像処理システム。 Clipping means for cutting out a predetermined area used for generating the virtual viewpoint image from the captured image;
Determining means for determining the predetermined area based on the vibration information;
The image processing system according to claim 11, further comprising:
前記前景画像が、前記仮想視点画像を生成するのに有効か否かを判定する判定手段とを、さらに備えることを特徴とする請求項12に記載の画像処理システム。 Separation means for separating an object included in the cutout image from the cutout image as a foreground image;
The image processing system according to claim 12, further comprising determination means for determining whether or not the foreground image is effective for generating the virtual viewpoint image.
前記伝送手段は、前記背景画像を前記画像生成手段に伝送し、
前記画像生成手段は、前記複数の撮影手段の前記振動情報が示す振動振幅が所定の値より小さい場合に、前記伝送された背景画像に基づいて、前記仮想視点画像に用いる背景画像を更新することを特徴とする請求項15に記載の画像処理システム。 The separating means separates the cut-out image into the foreground image and a background image that is an image other than the foreground image,
The transmission means transmits the background image to the image generation means,
The image generation means updates a background image used for the virtual viewpoint image based on the transmitted background image when the vibration amplitude indicated by the vibration information of the plurality of photographing means is smaller than a predetermined value. The image processing system according to claim 15.
撮影画像を取得する画像取得工程と、
前記撮影画像を撮影した撮影装置に対する振動情報を取得する振動情報取得工程と、
仮想視点画像の生成に用いる所定領域を前記撮影画像から切り出す切り出し工程と、
前記振動情報に基づいて前記所定領域を決定する決定工程と、を備えることを特徴とする情報処理装置の制御方法。 A method for controlling an information processing apparatus, comprising:
An image acquisition process for acquiring a captured image;
A vibration information acquisition step of acquiring vibration information for the imaging device that captured the captured image;
A cutting-out step of cutting out a predetermined region used for generating the virtual viewpoint image from the captured image;
And a determination step of determining the predetermined area based on the vibration information.
複数の撮影手段から撮影画像を取得する工程と、
前記撮影手段に対する振動情報を取得する振動情報取得工程と、
前記複数の撮影手段からの前記撮影画像に基づいて仮想視点画像を生成する画像生成工程と、
前記複数の撮影手段それぞれに対する前記振動情報に基づいて、前記撮影画像のそれぞれについて前記仮想視点画像の生成に用いるか否かを判定する判定工程と、を備えることを特徴とする画像処理システムの制御方法。 A method for controlling an image processing system comprising:
Acquiring captured images from a plurality of imaging means;
A vibration information acquisition step of acquiring vibration information for the photographing means;
An image generation step of generating a virtual viewpoint image based on the captured images from the plurality of imaging means;
A control step of determining whether to use each of the captured images for generation of the virtual viewpoint image based on the vibration information for each of the plurality of imaging means. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141208A JP2019022151A (en) | 2017-07-20 | 2017-07-20 | Information processing apparatus, image processing system, control method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017141208A JP2019022151A (en) | 2017-07-20 | 2017-07-20 | Information processing apparatus, image processing system, control method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2019022151A true JP2019022151A (en) | 2019-02-07 |
Family
ID=65355894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017141208A Pending JP2019022151A (en) | 2017-07-20 | 2017-07-20 | Information processing apparatus, image processing system, control method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2019022151A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017212593A (en) * | 2016-05-25 | 2017-11-30 | キヤノン株式会社 | Information processing device, image processing system, information processing method, and program |
JP2020134973A (en) * | 2019-02-12 | 2020-08-31 | キヤノン株式会社 | Material generation apparatus, image generation apparatus and image processing apparatus |
WO2021171563A1 (en) * | 2020-02-28 | 2021-09-02 | 日本電気株式会社 | Billing control device, billing method, and non-transitory computer-readable medium |
WO2022050159A1 (en) * | 2020-09-02 | 2022-03-10 | 株式会社クレッセント | Stereography model generating system and stereography model generating method |
JP7406882B2 (en) | 2019-05-14 | 2023-12-28 | キヤノン株式会社 | Image processing device, control method, and program |
-
2017
- 2017-07-20 JP JP2017141208A patent/JP2019022151A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017212593A (en) * | 2016-05-25 | 2017-11-30 | キヤノン株式会社 | Information processing device, image processing system, information processing method, and program |
JP2020134973A (en) * | 2019-02-12 | 2020-08-31 | キヤノン株式会社 | Material generation apparatus, image generation apparatus and image processing apparatus |
JP7406882B2 (en) | 2019-05-14 | 2023-12-28 | キヤノン株式会社 | Image processing device, control method, and program |
WO2021171563A1 (en) * | 2020-02-28 | 2021-09-02 | 日本電気株式会社 | Billing control device, billing method, and non-transitory computer-readable medium |
WO2022050159A1 (en) * | 2020-09-02 | 2022-03-10 | 株式会社クレッセント | Stereography model generating system and stereography model generating method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102032082B1 (en) | Method and apparatus for generating a virtual image from a viewpoint selected by a user from a camera array with daisy chain connection | |
KR102502570B1 (en) | Method and apparatus for generating a virtual image from a viewpoint selected by the user, from a camera array with transmission of foreground and background images at different frame rates | |
KR102121931B1 (en) | Control device, control method and storage medium | |
KR102129792B1 (en) | Information processing device, image generation method, control method and program | |
KR102270429B1 (en) | Method and apparatus for generating a virtual image from a viewpoint selected by a user, from a camera array whose default parameters are associated with a selected type of sporting event | |
US11095871B2 (en) | System that generates virtual viewpoint image, method and storage medium | |
JP2019022151A (en) | Information processing apparatus, image processing system, control method, and program | |
JP7042571B2 (en) | Image processing device and its control method, program | |
JP2019103067A (en) | Information processing device, storage device, image processing device, image processing system, control method, and program | |
JP2019134428A (en) | Control device, control method, and program | |
JP6827996B2 (en) | Image processing device, control method, and program | |
JP2019140483A (en) | Image processing system, image processing system control method, transmission device, transmission method, and program | |
JP2022095791A (en) | Information processing device, generation method, and program | |
JP2023075859A (en) | Information processing apparatus, information processing method, and program | |
JP6632703B2 (en) | CONTROL DEVICE, CONTROL METHOD, AND PROGRAM | |
JP7104504B2 (en) | Image processing system, image processing device, image transmission method, and program | |
JP2019102940A (en) | Virtual viewpoint content generation system, voice processing device, control method for virtual viewpoint content generation system, and program | |
JP2019003325A (en) | Image processing system, image processing method and program | |
JP2021073799A (en) | Control device, control method, and program | |
JP2018191236A (en) | Information processing system, information processing method, apparatus, and program | |
JP2019096926A (en) | Image processing system, image processing method and program | |
JP2021068373A (en) | Control apparatus, image processing system, control method, and program |