JP2018073061A

JP2018073061A - 三次元動画生成装置、三次元動画データの配信装置、三次元動画生成方法、及び三次元動画生成プログラム

Info

Publication number: JP2018073061A
Application number: JP2016210877A
Authority: JP
Inventors: 和久野▲崎▼; Kazuhisa Nozaki; 利傑矯; Riketsu Kyo; 裕介増本; Yusuke Masumoto; 晶子米谷; Akiko Yonetani
Original assignee: Information Services International Dentsu Ltd
Current assignee: Information Services International Dentsu Ltd
Priority date: 2016-10-27
Filing date: 2016-10-27
Publication date: 2018-05-10

Abstract

【課題】複数の三次元画像センサで撮影されたフレームデータ群を合成して三次元動画像を生成する技術を提供する。【解決手段】同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信し、前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択する選択部と、前記選択されたフレームデータを合成して、合成フレームデータを作成し、時間的に連続する前記合成フレームデータを三次元動画データとして出力する。【選択図】図１

Description

本件は、三次元動画像を生成する技術に関する。

近年、三次元画像をコンピュータで扱う技術が種々提案されている。例えば、三次元座標上に配列される点群やメッシュ、面（サーフェス）によって物体の三次元形状を示し、当該物体の全周を観察できるようにする技術が知られている。

例えば、対象の物体（被写体）を撮影するカメラと、当該カメラで撮影した被写体像における各画素の位置（座標）を求めるための測定部を備えた三次元画像センサを用い、この三次元画像センサを被写体の周囲に複数配置して、複数の位置から被写体を撮影し、各画素の三次元座標上の位置を求めて合成する技術が提案されている。

再表２０１３／１８７２０４号公報特表２０１３−５３９６０８号公報

三次元データを生成する処理は、上記のように複数のセンサのデータを合成することになるため、負荷の高い処理であった。特に、三次元の動画像を生成しようとすると、複数の動画像をフレーム毎に合成することになるので、容易に処理できるものではなかった。

例えば、複数の三次元画像センサから同じ時刻に出力されたフレーム同士を合成しようとしても、これらのフレームが同じタイミングで撮影されたものであるとは限らない。これは、各三次元画像センサが被写体を撮影をしてからフレームを出力するまでの時間が三次元画像センサ毎に僅かに異なるためである。同じタイミングで撮影されたフレームでないと、動きのある被写体がブレてしまうため、適切に合成することができない。

また、各三次元画像センサが被写体を撮影をしてからフレームを出力するまでの時間は、一定でないため、一度、各三次元画像センサの撮影タイミングを合わせたとしても、その後に同じ時刻で出力されるフレームが同じタイミングで撮影されたものであるとは限らない。このため、フレームを合成して三次元動画像を生成するのが難しいという問題があった。なお、各三次元画像センサで撮影したフレームの内容を人が確認し、同じタイミングで撮影されたと判断したフレーム同士を合成して三次元動画像を作成することもできるが、多大な時間がかかるため、例えば、被写体を撮影しながらリアルタイムで三次元動画像を配信するようなことはできなかった。

そこで、本発明は、複数の三次元画像センサで撮影されたフレームデータ群を合成して三次元動画像を生成する技術の提供を目的とする。

上記課題を解決するため、本発明の三次元動画生成装置は、同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信するフレーム取得部と、前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含ま
れる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択する選択部と、前記選択されたフレームデータを合成して、合成フレームデータを作成する合成部と、時間的に連続する前記合成フレームデータを三次元動画データとして出力する出力部と、を備える。

また、上記課題を解決するため、本発明の三次元動画データの配信システムは、前記三次元動画生成装置によって作成された前記三次元動画データの配信要求を受け付ける配信受付部と、前記配信要求を受け付けたときに、前記三次元動画データを前記要求元に配信するデータ配信部と、を備える。

前記三次元動画データの配信システムは、前記三次元画像センサによる前記被写体の撮影と並行して、前記データ配信部が、所定量毎に分割された前記三次元動画データを所定の時間間隔で前記要求元へ追加データとして送信しても良い。

また、上記課題を解決するため、本発明の三次元動画生成方法は、同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信するステップと、前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択するステップと、前記選択されたフレームデータを合成して、合成フレームデータを作成するステップと、時間的に連続する前記合成フレームデータを三次元動画データとして出力するステップと、をコンピュータが実行する。

また、本発明は、上記三次元動画生成方法をコンピュータに実行させるための三次元動画生成プログラムであっても良い。更に、前記三次元動画プログラムは、コンピュータが読み取り可能な記憶媒体に記録されていても良い。

本発明は、複数の三次元画像センサで撮影されたフレームデータ群を合成して三次元動画像を生成する技術を提供できる。

図１は、三次元動画配信システムの概略図である。図２は、三次元動画配信システムの機能ブロック図である。図３は、計測部の説明図である。図４は、骨格情報の説明図である。図５Ａは、三次元画像センサの配置を示す図である。図５Ｂは、フレームを同一の時間軸上に並べて絞り込む例を示す図である。図６Ａはキャリブレーション用のパターンの説明図である。図６Ｂはキャリブレーション用のパターンの説明図である。図７は、キャリブレーション時に各三次元画像センサで撮影される画像の説明図である。図８は、三次元動画データの例を示す図である。図９は、三次元動画生成装置の構成図である。図１０は、画像サーバの構成図である。図１１は、ユーザ端末の構成図である。図１２は、三次元動画生成装置による三次元動画データの生成方法の説明図である。図１３は、画像サーバが、三次元動画データをユーザ端末へ配信する処理の説明図である。図１４は、三次元動画データの表示例を示す図である。図１５は、図１４の部分拡大図である。図１６は、複数のコンピュータで三次元動画生成装置を構成した例を示す図である。図１７は、撮影範囲を重複させて複数の三次元画像センサを配置した例を示す図である。図１８は、同期して撮影させたフレームデータの取得処理の一例を示す図である。図１９は、非同期で撮影させたフレームデータの取得処理の一例を示す図である。

以下、図面を参照して本発明の実施の形態について説明する。以下の実施の形態の構成は例示であり、本発明は実施の形態の構成に限定されない。

《システム構成》
図１は、三次元動画配信システムの概略図、図２は、三次元動画配信システムの機能ブロック図、図３は、計測部の説明図、図４は、骨格情報の説明図、図５Ａは、三次元画像センサの配置を示す図、図６Ａはキャリブレーション用のパターンの説明図、図７は、キャリブレーション時に各三次元画像センサで撮影される画像の説明図、図８は、三次元動画データの例を示す図、図９は、三次元動画生成装置の構成図、図１０は、画像サーバの構成図、図１１は、ユーザ端末の構成図である。

本例の三次元動画配信システム１００は、図１に示されるように、撮影装置１や画像サーバ２を備えている。

撮影装置１は、被写体を撮影して三次元動画データを生成し、画像サーバ２へ登録する。画像サーバ２は、撮影装置１によって登録された三次元動画データをユーザ端末３へ配信する。

本例の画像サーバ２は、インターネット等のネットワーク４を介して三次元画像データを配信する所謂ウェブサーバとして機能する。なお、三次元動画データを配信する手段は、World Wide Webに限らず、電子メールや専用のアプリケーションソフトウェアであっても良い。また、本例では、撮影装置１と画像サーバ２が別体に構成されたが、撮影装置１と画像サーバ２が一体的に構成され、三次元動画データを生成する機能と、三次元画像データを配信する機能を備えた装置とされても良い。

本例において被写体とは、三次元画像データを生成する対象の物体である。例えば、主に人を撮影する場合に、人が立っている床や背景として写り込む周囲の物体など、人と共に三次元画像データを生成する物体を被写体とする。なお、これに限らず、撮影装置１で撮影する物体のうち、人などの特定の物体を被写体としても良い。

撮影装置１は、図５Ａに示されるように複数の三次元画像センサ１１で被写体を撮影し、各三次元画像センサ１１から受信したフレームデータ群を合成して三次元動画データを生成する。このとき、複数の三次元画像センサから同じ時刻に出力されたフレーム同士を合成しようとしても、これらのフレームが同じタイミングで撮影されたものであるとは限
らない。このため、本例の撮影装置１は、一つの三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを他の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較する。そして、統一された座標系上において比較されたフレームデータ中の被写体の所定部位の位置が合致するフレームを選択し、選択されたフレームデータを合成して、三次元動画データを生成する。このように、本例の撮影装置１は、複数の三次元画像センサで撮影したフレーム中の被写体の位置によって、同じタイミングで撮影されたフレームを選択し、これらを合成することで、三次元動画像を生成することができる。これによりフレームの選択及び合成を人手を介さずに行うことができるため、本例の三次元動画配信システムは、三次元画像センサで被写体を撮影しながらリアルタイムに三次元動画データを配信することができる。なお、これらフレームの選択や合成、三次元動画データの配信の詳細については後述する。

撮影装置１は、図２に示されるように、三次元画像センサ１１や三次元動画生成装置１０を備えている。この三次元画像センサ１１は、カメラ１１Ａや、計測部１１Ｂ、骨格情報生成部１１Ｃを備えている。

カメラ１１Ａは、撮影レンズによってＣＭＯＳイメージセンサ等の撮像素子上に被写体像を形成し、撮像素子によって被写体像を電気信号に変換し、動画情報として出力する。この動画情報は、例えば１／３０ｆｐｓといった所定の周期で撮影されたフレーム（１コマの画像）のデータを含む。なお、各フレーム（Color Frame）のデータ（フレームデー
タとも称す）は、画素毎に色情報を有する。また、各フレームデータは、前記色情報に加え、画素毎に輝度情報を有しても良い。即ち、本例において、動画情報は、所定周期で取得された一連のフレームデータからなるフレームデータ群である。

計測部１１Ｂは、被写体の形状が特定できるように所定の密度で細分化した被写体の部位毎に位置を計測する。本例では、図３に示されるように、ＴｏＦ（Time Of Flight ）
距離画像センサを用い、光源１６から被写体へ計測光を照射し、被写体で反射された計測光を光学系１７で結像させ、受光素子１８の受光面上に被写体像を形成する。

このとき、光源１６から照射される計測光は、強度が変調されており、受光素子１８で受光される反射光と比べると、この変調された強度の位相が被写体と受光素子との距離（光路長）に応じてシフトする。例えば、被写体と受光素子との距離が長くなると、位相の遅延（シフト量）が大きくなる。そこで、演算部１９は、受光素子１８の各画素で受光した反射光における位相のシフト量に基づいて、被写体との距離を画素毎に求め、距離情報として出力する。この距離情報は、例えば１／３０ｆｐｓといった所定の周期（フレームレート）で撮影されたフレーム（１コマの画像）毎に求められ、各フレームの距離情報（Depth Frame）のデータ（フレームデータ）がフレームデータ群として出力される。

計測部１１Ｂは、ＴｏＦ距離画像センサに限らず、三次元レーザースキャナで対象物体をスキャンするものや、ステレオカメラで対象物体を撮影し、視差に基づいて画像中の物体との距離を求めるもの、所定のパターン光を対象物体に投影し、対象物体上に投影されたパターンの変化に応じて対象物体との距離を求めるものであっても良い。

図２の骨格情報生成部１１Ｃは、カメラ１１Ａで撮影した動画情報や計測部１１Ｂの計測結果に基づいて、被写体のうち、動きのある物体（以下、動体とも称する）の骨格情報を生成する。なお、動体は、動物や着ぐるみ、ロボット、乗り物、ボール等、画像内で少なくとも一部が動くものであれば良い。また、骨格情報とは、動体を動作部位毎に特定し、各動作部位の位置を示す情報である。

例えば、動体が人の場合、図４に示されるように、頭Ａ１、右肩Ａ２、左肩Ａ３、肩中
央（首の付け根）Ａ４、首Ａ２１、右肘Ａ５、右手首Ａ６、右手Ａ７、右手先端Ａ２２、右手親指Ａ２３、左肘Ａ８、左手首Ａ９、左手Ａ１０、左手先端Ａ２４、左手親指Ａ２５、脊柱Ａ１１、腰Ａ１２、右股関節Ａ１３、右膝Ａ１４、右足首Ａ１５、右足先Ａ１６、左股関節Ａ１７、左膝Ａ１８、左足首Ａ１９、左足先Ａ２０を動作部位として特定する。

この動作部位の特定は、例えば、人の頭、上腕、前腕、手、胴など、認識すべき部位の標準的な形状や大きさを標準データとして予め記憶しておき、ＴｏＦ距離画像センサの受光素子１８で撮影した画像から標準データと適合する部位をパターンマッチングによって特定する。また、上腕と前腕の接続部を肘、上腕の胴側の付け根を肩のように、パターンマッチングした部位の位置関係から動作部位を求めても良い。更に、頭に目や鼻、口が存在する場合、目や鼻、口が存在する側面を人の正面と認識し、この正面に向かって左側に位置する肩を右肩、正面に向かって右側に位置する手を左手のように、動作部位の左右を認識しても良い。

なお、動作部位は、肩、肘、膝、手首等を含むため、関節とも称される。但し、本例動作部位は、頭や手、足先等も含むため、厳密に関節に限定されるものではない。なお、図４では、人の例を示したが、犬や猫、鳥など、他の動物の場合には、その動物の種類に応じて、動作部位を設定してよい。また、着ぐるみのように、デフォルメされたものや、仮想のものは、その動作や特徴によって、任意に動作部位を設定してよい。更に、ボールや車等のように関節が存在しないものは、全体を動作部位としてもよい。

そして、骨格情報生成部１１Ｃは、各動作部位Ａ１〜Ａ２５の位置情報を求める。例えば、受光素子１８（図３）の各画素は、受光面上に配列されており、この受光面上の各画素の位置は、被写体が存在する空間における位置と対応している。このため、骨格情報生成部１１Ｃは、各動作部位が撮影された画素の受光面上の位置および当該画素における被写体との距離に基づき、被写体が存在する三次元空間内における各動作部位の三次元座標を求める。なお、各動作部位の三次元座標は、画素毎に求めなくてもよく、本例では各動作部位の基準となる一点の三次元座標を求めている。例えば、頭Ａ１であれば頭頂部、肩中央Ａ４であれば首の付け根の中心等である。骨格情報生成部１１Ｃは、これら動作部位Ａ１〜Ａ２５毎の位置情報を骨格情報として出力する。この骨格情報は、例えば１／３０ｆｐｓといった所定の周期で撮影されたフレーム（１コマの画像）毎に求められ、時間的に連続する各フレームの骨格情報（Body Frame）のデータが一連のフレームデータ群として出力される。

上記三次元画像センサ１１は、図５Ａに示されるように、被写体の周囲に複数台設けられ、各三次元画像センサ１１で取得したフレームデータ群が三次元動画生成装置１０に入力される。図５Ａでは、被写体を撮影する方向を異ならせて４台の三次元画像センサ１１を設けた例を示している。なお、各三次元画像センサを区別して説明する場合には、三次元画像センサ１１−１〜１１−４のように枝番を付して示し、共通の事項を説明する場合には、単に三次元画像センサ１１と示す。

また、三次元動画生成装置１０は、フレーム取得部１５や、フレーム選択部１２、合成部１３、出力部１４を備えている。

フレーム取得部１５は、同一の被写体を撮影する複数の三次元画像センサ１１からフレームデータ群を受信する。

フレーム選択部１２は、複数の三次元画像センサ１１から取得したフレームデータ群のうち、各三次元画像センサ１１において同一のタイミングで撮影されたと見なせるフレームを選択する。例えば、先ず、各三次元画像センサ１１で夫々撮影したフレームを撮影時
刻に基づいて同一の時間軸上に並べた場合に、所定期間内に撮影されたフレームを選択候補として絞り込む。そして、フレーム選択部１２は、選択候補のうち、第一の三次元画像センサ１１から受信されたフレームデータ群に含まれる各フレームデータを第二の三次元画像センサ１１から受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択する。

図５Ｂは、フレームを同一の時間軸上に並べて絞り込む例を示す図である。先ず、フレーム選択部１２は、各三次元画像センサ１１から取得した画像の撮影時刻を同一の時間軸で表すようにする。例えば、三次元画像センサ１１が各フレームの撮影タイミング（撮影時刻等）を記録し、フレームデータに付して三次元動画生成装置１０へ送信する場合には、三次元動画生成装置１０が各三次元画像センサ１１へ統一した時間情報を通知し、各三次元画像センサ１１が、この統一した時間情報に基づいてフレームデータに撮影タイミングの情報を付すことで各三次元画像センサの時間軸を統一する。

また、各三次元画像センサが画像を撮影し、フレームデータとして三次元動画生成装置１０が取得するまでのタイムラグを予め求めておき、三次元動画生成装置１０が、フレームデータの取得時間に基づいて各フレームの撮影時間を推定してもよい。そして、フレーム選択部１２は、図５Ｂに示すように、各三次元画像センサ１１から取得したフレームＦ１１〜１６，Ｆ２１〜２５，Ｆ３１〜３８，Ｆ４１〜４６を撮影時間に基づいて並べた場合に、所定の範囲内のフレーム同士を選択候補とする。図５Ｂの例では、三次元画像センサ１１−１のフレームを基準として、前後１／１５秒内に他の三次元画像センサ１１−２〜１１−４で撮影されたフレームを選択候補とする。なお、三次元画像センサ１１−１のフレームを基準とすることに限らず、他の三次元画像センサ１１−２〜１１−４のフレームの何れかを基準としてもよい。基準のフレームを設けず、１／３０秒毎など、所定の期間内に撮影されたフレーム同士を選択候補としてもよい。この選択候補を絞り込むための所定期間は、任意に設定してよいが、短くなり過ぎると候補となるフレームが少なくなり合成できない可能性が高くなり、所定期間が長すぎると処理負荷が増すため、例えばフレームレートの１／４倍〜２倍に設定してもよい。

更に、フレーム選択部１２は、各三次元画像センサ１１−１〜１１−４から受信した骨格情報（フレームデータ群）に含まれる人（動体）の頭の位置を統一された座標系における座標（以下、統一系座標とも称する）に変換する。そして、フレーム選択部１２は、第一の三次元画像センサ１１−１のフレームデータにおける人の頭の位置と他の第二の三次元画像センサ１１−２〜１１−４のフレームデータにおける人の頭の位置が、統一された座標系上で所定の許容値の範囲で合致するフレームを選択する。

なお、フレーム選択部１２は、複数の三次元画像センサ１１−１〜１１−４で撮影する撮影範囲の位置関係を予め取得し、この位置関係に基づいて、各三次元画像センサ１１−１〜１１−４から取得したフレームデータ群の三次元座標を統一系座標に変換する。例えば、図６Ａに示されるように、床等の基準面にキャリブレーション用のパターン９１を配置し、三次元画像センサ１１−１〜１１−４で撮影する。パターン９１は、頂点Ｐ１〜Ｐ４を有する矩形状であり、色の濃淡が異なる正方形が市松状に配列されている。なお、図６Ａでは、網掛けのある正方形が濃色の正方形を示し、網掛けのない正方形が淡色の正方形を示している。また、これら濃淡の正方形は、頂点Ｐ１から頂点Ｐ２の方向に４列並べられ、頂点Ｐ１から頂点Ｐ４の方向に３行並べられている。

このパターン９１を各三次元画像センサ１１−１〜１１−４で撮影した場合の画像が、図７（Ａ）〜図７（Ｄ）である。図７（Ａ）〜図７（Ｄ）に示されるように、濃淡の正方形の配列によってパターン９１の向きが特定できるため、三次元動画生成装置１０は、各
三次元画像センサ１１−１〜１１−４で撮影した場合の画像において、パターン９１の基準となる位置、例えば頂点Ｐ１〜Ｐ４を求める。そして、頂点Ｐ１を原点、頂点Ｐ１から頂点Ｐ２の方向をＸ軸、頂点Ｐ１から頂点Ｐ４の方向をＺ軸、頂点Ｐ１から垂直方向をＹ軸とし、これを統一された座標系として定める。この統一された座標系と三次元画像センサ１１−１〜１１−４で得られる座標との差異（対応関係）を予め求めておくことで、三次元動画生成装置１０は、三次元画像センサ１１−１〜１１−４で得た座標を前記対応関係に基づいて統一系座標に変換することができる。

なお、図６Ａでは、平面状のパターン９１を示したが、これに限らず、図６Ｂに示すように立体的なパターン９３を用いてキャリブレーションを行ってもよい。図６Ｂのパターン９３は、頂点Ｐ１１〜Ｐ１８を有する直方体（６面体）であり、底面以外の５面に色の濃淡が異なる正方形が市松状に配列されている。このパターン９３を各三次元画像センサ１１−１〜１１−４で撮影した場合、前述のパターン９１と同様に濃淡の正方形の配列によってパターン９３の向きが特定できるため、三次元動画生成装置１０は、各三次元画像センサ１１−１〜１１−４で撮影した場合の画像において、パターン９３の基準となる位置、例えば頂点Ｐ１１〜Ｐ１８を求める。

そして、頂点Ｐ１１を原点、頂点Ｐ１１から頂点Ｐ１２の方向をＸ軸、頂点Ｐ１１から頂点Ｐ１５の方向をＺ軸、頂点Ｐ１１から頂点Ｐ１３への垂直方向をＹ軸とし、これを統一された座標系として定める。この統一された座標系と三次元画像センサ１１−１〜１１−４で得られる座標との差異（対応関係）を予め求めておくことで、三次元動画生成装置１０は、三次元画像センサ１１−１〜１１−４で得た座標を前記対応関係に基づいて統一系座標に変換する。これにより、図６Ａに示した一つの面を基準にする場合と比べ、高さ方向において各三次元画像センサ１１で取得した画像の座標を精度良く合わせることができる。

また、図２の合成部１３は、フレーム選択部１２で選択されたフレームデータを合成して、合成フレームデータを作成する。例えば、合成部１３は、計測部１１Ｂで取得した距離情報（Depth Frame）から画素毎の三次元座標を求め、この三次元座標を統一系座標に
変換する。また、合成部１３は、この画素毎の情報に、カメラ１１Ａで撮影したフレーム（Color Frame）に基づいて色情報を追加する。図８は、画素毎に位置情報（統一系座標
）と色情報を持つデータの例を示す。合成部１３は、この画素毎に位置情報と色情報を有するフレームデータを合成し、合成フレームデータとする。そして、各三次元画像センサ１１により所定周期（フレームレート）で撮影された一連のフレームデータを順次合成し、一連の合成フレームデータを作成して三次元動画データとする。

出力部１４は、時間的に連続する前記合成フレームデータを三次元動画データとして出力する。本例の出力部１４は、三次元動画データを画像サーバ２へ送信する。なお、三次元画像センサ１１による撮影を長時間連続して行う場合には、三次元動画データを所定量毎に分割して画像サーバ２へ送信しても良い。例えば、撮影時間（再生時間）や、データ量、フレーム数などに応じて分割する。なお、三次元動画データを分割する場合、フレーム取得部１５でフレームデータ群を受信してから、フレーム選択部１２で選択された前記フレームデータを合成部１３で合成して三次元動画データを作成するまでにかかる時間（以下、データ処理時間とも称する）よりも分割された前記三次元動画データの再生時間が長くなるように、三次元動画データを分割してもよい。

画像サーバ２は、データ受付部２１や、配信受付部２２と、データ配信部２３を備えている。

データ受付部２１は、三次元動画生成装置から三次元動画データを受信し、特定のアド
レス、例えばＵＲＬと対応付けて記憶する。

配信受付部２２は、ユーザ端末３から、ＵＲＬ等によって指定されたコンテンツの配信要求を受信し、受信したＵＲＬが前記三次元動画データと対応するものであれば、当該三次元動画データの配信要求を受け付けたことをデータ配信部２３へ通知する。

データ配信部２３は、配信要求を受け付けたことを通知されると、三次元動画データを表示する表示プログラムとともに前記三次元動画データを要求元のユーザ端末３に配信する。また、データ配信部２３は、三次元画像センサ１１による前記被写体の撮影と並行して、所定量毎に分割された三次元動画データを所定の時間間隔で前記要求元のユーザ端末３へ追加データとして送信する。なお、所定の時間間隔とは、例えば、前記所定量毎に分割された三次元動画データの再生時間に相当する時間である。

ユーザ端末３は、配信要求部３１、データ受信部３２、表示制御部３３を備えている。

配信要求部３１は、ユーザの操作によって指定された配信要求を画像サーバ２へ送信する。例えば、ユーザによって、三次元動画データに対応するＵＲＬが入力された場合や、このＵＲＬを指定するハイパーリンクが選択された場合に、配信要求部３１は、当該ＵＲＬを配信要求として画像サーバ２へ送信する。

データ受信部３２は、画像サーバ２から三次元動画データや当該三次元動画データを表示する表示プログラムを受信する。

表示制御部３３は、画像サーバ２から受信した三次元動画データを表示装置に表示させる。本例の三次元動画データは、図８に示されるように、位置情報（統一系座標）及び色情報を有する点の集合のデータ、即ち点群データである。表示制御部３３は、点群データの各位置情報が示す位置に色情報が示す色の点を描画することで、三次元画像を表示する。また、この表示を所定のフレームレートで更新することで、動画として表示する。ここで、三次元動画データは、被写体の全周（３６０°）にわたってデータを有しているため、ユーザ等によって視点の位置が指定された場合には、この視点から視た場合の画像が表示される。

次に、三次元動画生成装置１０、画像サーバ２、ユーザ端末３の構成について説明する。
三次元動画生成装置１０は、汎用又は専用のコンピュータである、汎用のコンピュータとして、例えば、パーソナルコンピュータ（ＰＣ）やワークステーションを適用できる。専用コンピュータとして、例えばサーバマシンを適用できる。但し、三次元動画生成装置１０は、後述する機能を提供できる限り、上記例示のコンピュータに制限されない。

三次元動画生成装置１０は、図９に示すように、例えば、ＣＰＵ１１１にバスを介して接続されたメモリ１１２，入力装置１１３，出力装置１１４，及び通信インタフェース（通信ＩＦ）１１５を含む。

メモリ１１２は、主記憶装置と補助記憶装置とを含む。主記憶装置は、ＣＰＵ１１１の作業領域，プログラムやデータの記憶領域，通信データのバッファ領域として使用される。主記憶装置は、例えば、Random Access Memory（ＲＡＭ），或いはＲＡＭとRead Only Memory（ＲＯＭ）との組み合わせで形成される。

補助記憶装置は、ＣＰＵ１１１によって実行されるプログラム，及びプログラムの実行に際して使用されるデータを記憶する。補助記憶装置は、例えば、ハードディスクドライ
ブ（ＨＤＤ），Solid State Drive（ＳＳＤ），フラッシュメモリ，Electrically Erasable Programmable Read-Only Memory（ＥＥＰＲＯＭ）などである。また、補助記憶装置は、三次元動画生成装置１０に対して着脱自在な可搬性記憶媒体を含む。可搬性記憶媒体は、例えばUniversal Serial Bus(ＵＳＢ)メモリである。また、補助記憶装置は、ＣＤ−ＲＯＭやＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒなどのディスク記憶媒体及びディスク記憶媒体のドライブ装置を含む。ディスク記憶媒体は可搬性記憶媒体の一つである。

入力装置１１３は、三次元動画生成装置１０に情報やデータを入力するために使用される。入力装置１１３は、例えば、ボタン、キー、マウスなどのポインティングデバイス，タッチパネルなどを含む。入力装置１１３は、マイクロフォンのような音声入力装置を含み得る。

出力装置１１４は、情報やデータを出力する。出力装置は、例えば表示装置、プリンター、記憶メディアへの書き込み装置等である。出力装置１１４は、スピーカのような音声出力装置を含み得る。通信ＩＦ１１５は、ネットワーク４に接続され、他の装置との通信を行うためのインタフェースである。通信ＩＦ１１５は、例えばLocal Area Network（ＬＡＮ）カードである。

ＣＰＵ１１１は、本例において処理装置に相当する。ＣＰＵ１１１は、ＭＰＵ（Micro Processor Unit）、マイクロプロセッサ、プロセッサとも呼ばれる。ＣＰＵ１１１は、単一のプロセッサに限定される訳ではなく、マルチプロセッサ構成であってもよい。また、単一のソケットで接続される単一のＣＰＵがマルチコア構成を有していても良い。上記各部の少なくとも一部の処理は、ＣＰＵ以外のプロセッサ、例えば、Digital Signal Processor(DSP)、Graphics Processing Unit（GPU）、数値演算プロセッサ、ベクトルプロセッサ、画像処理プロセッサ等の専用プロセッサで行われても良い。また、上記各部の少なくとも一部の処理は、集積回路（ＩＣ）、その他のデジタル回路であっても良い。また、上記各部の少なくとも一部にアナログ回路が含まれても良い。集積回路は、ＬＳＩ，Application Specific Integrated Circuit（ASIC），プログラマブルロジックデバイス（ＰＬ
Ｄ）を含む。ＰＬＤは、例えば、Field-Programmable Gate Array(FPGA)を含む。上記各
部は、プロセッサと集積回路との組み合わせであっても良い。組み合わせは、例えば、ＭＣＵ（Micro Controller Unit），ＳｏＣ（System-on-a-chip），システムＬＳＩ，チッ
プセットなどと呼ばれる。

ＣＰＵ１１１は、メモリ１１２に記憶されたプログラムを主記憶装置にロードして実行する。メモリ１１２には、オペレーティングシステム及びアプリケーションプログラムがインストールされている。

ＣＰＵ１１１は、プログラムを実行することによって、前記フレーム取得部１５や、フレーム選択部１２、合成部１３、出力部１４として動作する。

画像サーバ２は、図１０に示すように、例えば、ＣＰＵ２１１にバスを介して接続されたメモリ２１２，入力装置２１３，出力装置２１４，及び通信インタフェース（通信ＩＦ）２１５を含む。ＣＰＵ２１１，メモリ２１２，入力装置２１３，出力装置２１４，通信ＩＦ２１５については、ＣＰＵ１１１，メモリ１１２，入力装置１１３及び出力装置１１４，通信ＩＦ１１５と同様のものを適用可能であるので、重ねての説明は省略する。

画像サーバ２は、三次元動画生成装置１０から、三次元動画データを受信して、メモリ２１２に格納する。これに限らず、画像サーバ２は、三次元動画データを外部の装置に格納しても良い。画像サーバ２は、例えば、１又は複数のサーバマシン、又は、ＰＣ（Personal Computer）等の汎用コンピュータによって実現される。

画像サーバ２のＣＰＵ２１１は、プログラムを実行することによって、前記データ受付部２１や、配信受付部２２と、データ配信部２３として動作する。これより、画像サーバ２は、ＨＴＴＰサーバとして動作する。

ユーザ端末３は、ネットワーク４に接続する機能を持つ端末であり、例えば、スマートフォン，フィーチャーフォン，無線ＬＡＮ端末，タブレット端末のような無線通信機能を備えた携帯端末、ＰＣ等の汎用コンピュータである。また、ユーザ端末３は、ＰＣやタブレット端末のように情報処理を主体とした装置に限らず、画像サーバ２から画像データを受信して表示出力できるものであればよい。例えば、ヘッドマウントディスプレイやメガネ型ディスプレイ、テレビ、デジタルサイネージ、ゲーム機、プロジェクターであってもよい。ユーザ端末３は、図１１に示すように、例えば、ＣＰＵ３１１にバスを介して接続されたメモリ３１２，入力装置３１３，出力装置３１４，及び通信インタフェース（通信ＩＦ）３１５、無線モジュール３１６を含む。ＣＰＵ３１１，メモリ３１２，入力装置３１３，出力装置３１４，通信ＩＦ３１５については、ＣＰＵ１１１，メモリ１１２，入力装置１１３及び出力装置１１４，通信ＩＦ１１５と同様のものを適用可能であるので、重ねての説明は省略する。

ユーザ端末３のＣＰＵ３１１は、プログラムを実行することによって、前記配信要求部３１や、データ受信部３２、表示制御部３３として動作する。本例において、配信要求部３１やデータ受信部３２は、所謂ウェブブラウザと称されるプログラムを実行することによって動作する。また、予めユーザ端末にインストールされたプログラムによって動作するものでも良いし、三次元動画データと共に配信されるプログラムを実行することによって動作するものでもよい。

上記三次元動画生成装置１０，画像サーバ２，ユーザ端末３は、図１に示すようにネットワーク４に接続され、これら各装置間における情報の伝達は、ネットワーク４を介したデータ通信で実現される。ネットワーク４の種類は、例えば、３Ｇ（3rd Generation）ネットワーク、インターネット、電話網、及び、専用網等であり、各データ通信に応じて、適宜選択される。なお、画像サーバ２からユーザ端末３への三次元動画データの配信は、ネットワーク４を介した通信に限らず、電波等による放送であっても良い。

《処理方法》
図１２は、三次元動画生成装置１０による三次元動画データの生成方法の説明図である。なお、三次元動画データの生成に先立って三次元画像センサ１１−１〜１１−４は、図５Ａに示されるように被写体の四方に配置され、キャリブレーションを行って、各三次元画像センサ１１−１〜１１−４で得られる座標と統一系座標との対応関係を求めておく。

操作者等による開始の指示を受けると、三次元動画生成装置１０は、図１２の処理を実行し、先ず三次元画像センサ１１による撮影を開始させ、カメラ１１Ａ及び計測部１１Ｂによって作成されたフレームデータ群を取得する（ステップＳ１０）。

また、三次元動画生成装置１０は、骨格情報生成部１１Ｃで生成された骨格情報を取得し、骨格情報に基づいてフレームデータ群に含まれる各フレームデータ中の被写体（動体）の所定部位の位置を取得する（ステップＳ２０）。なお、所定部位の位置は、骨格情報に含まれる部位（関節）の位置そのもの（例えば図４の頭Ａ１）であっても良いし、骨格情報から類推した位置であってもよい。本例では、骨格情報に基づいて、人の頭頂の位置を所定部位として取得している。

例えば、頭Ａ１を頭の中心とし、被写体の顎の位置を求めて、頭Ａ１に対して顎と反対
の位置を頭頂と推定する。同様に頭Ａ１に対して首Ａ２１と反対側で所定距離にある位置を頭頂としてもよい。また、人に限らず、操作者が、着ぐるみ、ボール等のように対象とする動体の種類を三次元動画生成装置１０に予め設定しておき、撮影装置１は、設定された物体の標準データと各三次元画像センサで取得したフレームデータを比較して、標準データと合致するものを動体として特定しても良い。そして、人の場合は、頭（頭頂部）、ボールの場合は中心点などのように、動体の種類に応じて基準とする部位を定めておき、この所定部位の位置を求める。これに限らず、当該フレームデータをそれ以前に撮影されたフレームデータと比較して異なる部分を動体として特定し、この動体の上端や中心等を所定部位とし、この所定部位の位置を求めるようにしてもよい。

なお、本例では、三次元画像センサ１１側の骨格情報生成部１１Ｃで骨格情報を生成したが、これに限らず、三次元動画生成装置１０側で骨格情報を生成しても良い。例えば、フレーム取得部１５が、カメラ１１Ａ及び計測部１１Ｂによって作成されたフレームデータ群を取得し、このフレームデータ群に基づき、前述の骨格情報生成部１１Ｃと同様に骨格情報を生成し、更に所定部位の位置を求めるようにしてもよい。本例において、所定部位は、撮影装置１から取得したフレームデータ群の座標系に対して統一された座標系において移動する動体の部分である。即ち、所定部位は、動体である被写体の部位である。なお、この動体は、常に動いているものに限らず、予め操作者が動体として設定した標準データと合致する部位であればよい。

次に三次元動画生成装置１０は、各三次元画像センサ１１から得たフレームデータのうち、図５Ｂのように統一した時間軸において所定期間内に撮影されたフレームデータを選択候補として絞り込む。例えば、第一の三次元画像センサ１１−１で取得したフレームデータを基準として前後所定時間（例えば１／１５秒）以内に第２の三次元画像センサ１１−２〜１１−４で撮影されたフレームデータを選択候補とする。

そして、三次元動画生成装置１０は、選択候補としたフレームデータのうち、第１の三次元画像センサ１１−１から得たフレームデータ中の被写体の所定部位の位置と、第２の三次元画像センサ１１−２〜１１−４から得たフレームデータの被写体の所定部位の位置とを比較し、統一された座標系上において、これら所定部位の位置が所定の許容値の範囲で合致するフレームデータを第２の三次元画像センサ１１−２〜１１−４から夫々一つずつ選択する（ステップＳ３０）。

なお、被写体中の動体（人）は、複数であってもよく、複数の人が認識された場合、それぞれの人の頭の位置を比較する。また、本例では、比較する所定部位の種類を一つとしたが、これに限らず、人の頭と肩と足等のように、ステップＳ２０で複数種類の所定部位の位置を求め、ステップＳ３０で、これら複数種類の所定部位の位置を比較してフレームデータを選択してもよい。また、これら複数の所定部位に優先度を設定し、最も優先度の高い部位（例えば頭）が各フレームで認識されていない場合には、次に優先度の高い部位（例えば足先）で位置を比較するようにしても良い。

また、優先度の高い部位の位置が合致するフレームが複数存在する場合に、次に優先度の高い部位の位置が合致するフレームを選択するようにしても良い。更に、人が静止し、第１の三次元画像センサ１１−１から得たフレームデータと合致するフレームデータが、各第２の三次元画像センサ１１−２〜１１−４において複数存在する場合や、一時的にフレーム中に人がいない（動くものがない）ために所定部位が検出できない場合、撮影時刻が第一の三次元画像センサ１１−１で取得したフレームデータと最も近いものを選択する。なお、人（動体）のデータを背景と分離して合成している場合、人がフレーム中にいなければ、合成の処理を行わなくてもよい。

次に、三次元動画生成装置１０は、ステップＳ３０で選択したフレームデータについて、図８に示すように画素毎に位置情報と色情報を求める（ステップＳ４０）。そして、三次元動画生成装置１０は、この画素毎に位置情報と色情報を有するフレームデータを合成し、合成フレームデータとする（ステップＳ５０）。

三次元動画生成装置１０は、ステップＳ５０で合成した合成フレームデータが所定量に達したか否かを判定し（ステップＳ６０）、所定量に達していなければステップＳ３０に戻り、ステップＳ３０〜Ｓ５０の処理を繰り返す。一方、ステップＳ６０で所定量に達したと判定した場合には、この所定量の合成フレームデータを三次元動画データとし、この三次元動画データを所定のデータフォーマットに変換する（ステップＳ７０）。例えば、図８に示されるようにテキストデータとなっている位置情報及び色情報をバイナリデータに変換する。そして、三次元動画生成装置１０は、変換後の（ステップＳ）て画像サーバ２へ送信する（ステップＳ８０）。このように、本例では、生成した三次元動画データを所定量毎に分割して送信する。

図１３は、画像サーバ２が、三次元動画データをユーザ端末３へ配信する処理の説明図である。なお、画像サーバ２は、前述のように三次元動画生成装置１０によって生成された三次元動画データを受信し、メモリ２１２に格納している。

先ず、ユーザの操作によって、三次元動画データに対応するＵＲＬが入力された場合や、このＵＲＬを指定するハイパーリンクが選択された場合に、ユーザ端末３は、画像サーバ２へ配信要求を送信する（ステップＳ１１０）。

画像サーバ２は、ユーザ端末３から配信要求を受信し（ステップＳ１２０）、受信したＵＲＬが三次元動画データと対応するものであれば、当該三次元動画データ及び三次元動画データを表示する表示プログラムをメモリ２１２から読み出す（ステップＳ１３０）。

そして、画像サーバ２は、三次元動画データ及び表示プログラムを要求元のユーザ端末３に配信する（ステップＳ１４０）。

ユーザ端末３は、この三次元動画データ及び表示プログラムを受信し（ステップＳ１５０）、この表示プログラムに従って三次元動画像を表示装置上に表示（再生）させる（ステップＳ１６０）。このように本例では、三次元動画像を表示するプログラムを三次元動画像とともに配信するので、ユーザ側で特殊なプログラムを用意しなくても三次元動画像を表示できる。また、データの送受信は、一般的なＨＴＴＰプロトコルを用いることができるため、所謂ウェブブラウザで三次元動画像を要求し、このウェブブラウザが表示するコンテンツの一部として三次元動画データの表示、即ち三次元動画の再生を行うことができる。なお、この三次元動画データは、ストリーミング用のプロトコル又はプログレッシブダウンロード方式によって配信されており、三次元動画データをダウンロードしながら再生することが可能となっている。なお、三次元動画データの配信及び再生は、ストリーミングに限定されるものではなく、全データをユーザ端末３にダウンロードした後に、再生を行うものであってもよい。

また、ユーザ端末３は、三次元動画データの再生を開始して所定時間経過後、或は三次元動画データの再生が終了する時刻の所定時間前の時刻に達した場合に次の三次元動画データの配信を要求する（ステップＳ１７０）。即ち、現在再生中の三次元動画データの再生が終了する前に次のデータのダウンロードを要求する。

画像サーバ２は、ユーザ端末３から追加の配信要求を受信した場合（ステップＳ１８０）、当該要求元へ前回送信した三次元動画データの次の三次元動画データをメモリ２１２
から読み出し（ステップＳ１９０）、要求元のユーザ端末へ送信する（ステップＳ２００）。なお、本例では、ユーザ端末３から追加の配信要求を受けて、この応答として追加の三次元動画データを送信する例を示したが、これに限らず、要求元のユーザ端末３に対して次の三次元動画データを提供するＵＲＬへリダイレクトさせることや、ウェブソケットを用いて画像サーバ２側から前記要求元のユーザ端末３へ所定の時間間隔で追加のデータをプッシュ送信してもよい。

ユーザ端末３は、追加の三次元動画データを受信した場合（ステップＳ２１０）、前回の三次元動画データに続けて次の三次元動画データをシームレスに表示（再生）させる（ステップＳ２２０）。

図１４は、三次元動画データの表示例を示す図、図１５は、図１４中の破線９２で示した部分の拡大図である。ユーザ端末３は、三次元動画データの各点（画素）の位置情報が示す座標に色情報が示す色の点を表示装置上に描画することで、図１４に示されるような三次元画像を表示する。また、この表示を所定のフレームレートで更新することで、動画として表示する。

なお、図７に示されるように、被写体を見る方向によってパースが異なるので、ユーザ端末３は、ユーザによって指定された視点から視た場合のパースで表示するように、各画素の表示位置を調整している。本例では、被写体を四方から撮影し、三次元動画データが、被写体の全周（３６０°）にわたるデータを有しているため、ユーザによって周方向の何処に視点が指定されても、この視点から視た場合の画像を表示することができる。なお、三次元動画データは、被写体の全周のデータを有するものに限定されるものではなく、正面を中心に１８０°など、所要のデータを有するものであれば良い。

また、視点を被写体に近づけることで、被写体を大きく表示させる、即ちズームインすることができ、視点を被写体から遠ざけることで、被写体を小さく表示させる、即ちズームアウトすることができる。

これによりユーザは、任意に視点を変えて、好みの視点からの画像を鑑賞することができる。なお、図１３のステップＳ２２０にて、追加の三次元動画データを表示する場合、ユーザ端末３は、前回の三次元動画データの再生が終了する際の視点の設定を引き継ぎ、同じ視点で追加の三次元動画データの再生を開始する。これにより、分割した三次元動画をシームレスに再生できる。

なお、本例では、三次元動画データに基づいて点群を表示させたが、これに限らず、三次元動画データが示す各点を頂点とするメッシュや面（サーフェス）を表示するようにしてもよい。

《実施形態の効果》
本例の三次元動画生成装置１０は、一つの三次元画像センサ１１−１から受信されたフレームデータ群に含まれる各フレームデータを他の三次元画像センサ１１−２〜１１−４から受信されたフレームデータ群に含まれるフレームデータと比較する。そして、統一された座標系上において比較されたフレームデータ中の被写体の所定部位の位置が合致するフレームを選択し、選択されたフレームデータを合成して、三次元動画データを生成する。このように、本例の三次元動画生成装置１０は、複数の三次元画像センサで撮影したフレーム中の被写体の位置によって、同じタイミングで撮影されたフレームを選択し、これらを合成することで、三次元動画像を生成することができる。これによりフレームの選択及び合成を人手を介さずに行うことができるため、本例の三次元動画配信システムは、三次元画像センサで被写体を撮影しながらリアルタイムに三次元動画データを配信すること
ができる。

《変形例》
上記の実施形態では、三次元動画生成装置１０を一台のコンピュータで構成したが、三次元動画生成装置１０を複数台のコンピュータで構成してもよい。図１６の例では、四台のフレーム取得装置１０Ａと、一台のフレーム合成装置１０Ｂで三次元動画生成装置１０を構成している。フレーム取得装置１０Ａ及びフレーム合成装置１０Ｂは、それぞれ図９と同様にＣＰＵやメモリ等を有するコンピュータである。

四台のフレーム取得装置１０Ａは、それぞれ三次元画像センサ１１と接続し、三次元画像センサ１１からフレームデータ群を受信するフレーム取得部１５の機能を有する。また、各フレーム取得装置１０Ａは、取得したフレームデータの撮影時刻を統一した時間軸に基づく時間に変換すると共に、フレームデータ中の点群の座標を統一した座標系に変換する。更に、各フレーム取得装置１０Ａは、各フレームデータにおける被写体（動体）の所定部位の位置（座標）を求める。

そして、フレーム合成装置１０Ｂは、フレーム選択部１２、合成部１３、出力部１４を備え、各フレーム取得装置１０Ａからフレームデータ群を取得し、前述と同様に同一のタイミングで撮影されたフレームを選択し、合成して出力する。

このように図１６の例では、複数の三次元画像センサ１１からフレームデータを取得して、統一した時間軸に従って記録し、統一した座標系に変換して、被写体の所定部位の位置を求めるまでの処理を複数のフレーム取得装置１０Ａで分散して行うので、三次元動画データの生成を遅滞なく行うことができる。なお、図１６では、五台のコンピュータで三次元動画生成装置１０を構成したが、図１６のフレーム合成装置１０Ｂとフレーム取得装置１０Ａのうち一つを一台のコンピュータで構成し、四台のコンピュータで三次元動画生成装置１０を構成してもよい。

なお、フレーム取得装置１０Ａ及びフレーム合成装置１０Ｂの時間を統一するためには、例えば、フレーム合成装置１０Ｂが、自己の時間情報を各フレーム取得装置１０Ａに通知し、同一の時間情報を設定させることで統一させる。このとき例えばＳＮＴＰ（Simple
Network Time Protocol）を用いてフレーム合成装置１０Ｂとフレーム取得装置１０Ａの時刻を同期させることで、ネットワークの遅延を補償してもよい。また、このようにフレーム合成装置１０Ｂに合わせるものに限らず、フレーム取得装置１０Ａ及びフレーム合成装置１０Ｂがそれぞれ、ＮＴＰサーバにアクセスして、ＮＴＰサーバの時刻（例えば協定世界時）に合わせることで、時間情報（時間軸）を統一してもよい。

図１７は、撮影範囲を重複させて複数の三次元画像センサを配置した例を示す図である。図１７（Ａ）の例では、図５Ａの三次元画像センサ１１−１〜１１−４に加えて、三次元画像センサ１１−５〜１１−８を配置した例を示している。

図１７（Ａ）の例において、三次元画像センサ１１−１と三次元画像センサ１１−５とは、ほぼ同じ範囲を撮影するように撮影範囲を重複させて設けられている。このように同じ範囲を撮影する三次元画像センサ１１を複数配置した、即ち撮影範囲を重複させた三次元画像センサ１１を複数配置したことで、一つの三次元画像センサ１１で撮影したフレームデータが合成に用いられなくても他の三次元画像センサ１１で撮影したフレームデータを用いることができる可能性があるため、合成したフレームの欠損（コマ落ち）を抑えることができる。なお、同じ範囲を撮影するように複数の三次元画像センサを配置する構成に限らず、各三次元画像センサ１１の撮影範囲を異ならせて、一部を重複させるように配置してもよい。

図１７（Ｂ）では、撮影範囲のほぼ半分を隣接する三次元画像センサ１１と重複させて八台の三次元画像センサ１１−１〜１１−８を配置している。この場合、三次元画像センサ１１−２で撮影したフレームデータが、合成できなくても、撮影範囲が重複する三次元画像センサ１１−５，１１−６で撮影したフレームデータが合成できれば、三次元画像センサ１１−２の撮影範囲をカバーできるため、フレームの欠損を抑えることができる。

図１８は、フレームデータの取得処理の一例を示す図である。図１８の例では、三次元動画生成装置１０（図１６ではフレーム合成装置１０Ｂ）が、各三次元画像センサ１１へ一斉に撮影タイミングを指示し（ステップＳ３０１）、この撮影指示に応じて各三次元センサ１１がそれぞれ撮影を行い（ステップＳ３０２）、フレームデータを三次元動画生成装置１０へ送信する（ステップＳ３０３）。

三次元動画生成装置１０は、取得したフレームデータを記憶すると共に、各撮影指示と対応するフレームデータの組み合わせ（対応関係）を記憶する（ステップＳ３０４）。

三次元動画生成装置１０は、上記のように各三次元画像センサ１１−１〜１１−４からフレームデータを取得した後、同様に次の撮影指示（ステップＳ３０１）〜記憶（ステップＳ３０４）を行う。即ち三次元動画生成装置１０は、各三次元画像センサ１１−１〜１１−４からのフレームデータが全て取得できるまで、次の撮影指示を行わない。そして、このステップＳ３０１〜ステップＳ３０４の処理を終了の指示があるまで繰り返す。このように、逐次、撮影指示を行うことで、各三次元画像センサ１１−１〜１１−４の撮影タイミングを同期させ、ほぼ同じタイミングで撮影したフレームデータの組み合わせを得ることができるので、この組み合わせに基づいて合成する候補を絞り込むことができる。なお、各撮影指示に応じて撮影されたフレームデータは、ほぼ同じタイミングで撮影されているはずであるが、この撮影指示を受けて実際に撮影を行い、フレームデータを出力するまでの時間は、三次元画像センサ毎に差があり、単純に同じ撮影指示に応じて撮影されたフレームデータを合成しても、正しい三次元画像データが得られるとは限らない。このため第一の三次元画像センサ１１−１で撮影したフレームデータと同じ撮影指示及び前後所定数（例えば１〜２回）の撮影指示に応じて第二の三次元画像センサで撮影されたフレームデータを選択候補とする。

そして、図１２に示したように、フレーム選択部１２が、前述と同様に選択候補のフレームデータのうち、所定部位の位置が合致するフレームデータを選択し、これを合成部１３が合成する。

なお、図１８では、四台の三次元画像センサ１１を用いた例を示したが、図１７のように三次元画像センサ１１の撮影範囲を重複させて設けた構成であってもよい。この場合、第一の三次元画像センサ１１−１で撮影したフレームデータと同じ撮影指示に応じて第二の三次元画像センサ１１−２〜１１−８で撮影されたフレームデータのみを選択候補としてもよい。

図１８では、三次元動画生成装置１０が、各三次元画像センサ１１−１〜１１−４に撮影指示を逐次送信することで撮影タイミングを同期させたが、これに限らず、各三次元画像センサ１１−１〜１１−４に非同期で撮影を行わせてもよい。図１９は、非同期で撮影させたフレームデータを取得する処理の例を示す図である。

図１９の例では、三次元動画生成装置１０（図１６ではフレーム合成装置１０Ｂ）が、各三次元画像センサ１１へ一斉に撮影タイミングを指示し（ステップＳ４０１）、この撮影指示に応じて各三次元センサ１１がそれぞれ撮影を行い（ステップＳ４０２）、フレー
ムデータを三次元動画生成装置１０へ送信する（ステップＳ４０３）。そして、各三次元センサ１１は、それぞれ所定の周期（例えば３０ｆｐｓ）で撮影のステップＳ４０２から送信のステップＳ４０３を繰り返す。

一方、三次元動画生成装置１０は、各三次元センサ１１−１〜１１−４からフレームデータを受信して記憶する（ステップＳ４０４）。なお、この処理は、各三次元センサ１１−１〜１１−４について同様に実行されるので、図１９では、三次元センサ１１−１からフレームデータを受信して記憶するステップＳ４０４を例示し、他の三次元センサ１１−２〜１１−４からフレームデータを受信して記憶するステップＳ４０４を省略して示した。そして、三次元動画生成装置１０が終了指示（ステップＳ４０５）を行うと、各三次元センサ１１−１〜１１−４が撮影を終了する。

このように、非同期で撮影を行わせたフレームデータを取得した場合でも、三次元動画生成装置１０は、図１２に示したように、被写体の所定部位の位置に基づいて、同時に撮影されたフレームデータを選択し、合成に用いることができる。

図１８の取得手法であれば、同期をとって撮影を行うので、図１２のステップＳ２０で選択候補とするフレームデータを絞り込むことができ、ステップＳ３０でフレームデータを選択する処理負荷を抑えることができる。一方、図１９の取得手法では、各三次元センサ１１が同期による待ち時間をとることなく撮影を行うので、フレームレートを比較的高く維持することができる。

《その他》
本発明は、上述の図示例にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。

１撮影装置
２画像サーバ
３ユーザ端末
４ネットワーク
１０三次元動画生成装置
１１三次元画像センサ
１１Ａカメラ
１１Ｂ計測部
１１Ｃ骨格情報生成部
１２フレーム選択部
１３合成部
１４出力部
１５フレーム取得部
２１データ受付部
２２配信受付部
２３データ配信部
３１配信要求部
３２データ受信部
３３表示制御部

Claims

同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信するフレーム取得部と、
前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の動体である被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択する選択部と、
前記選択されたフレームデータを合成して、合成フレームデータを作成する合成部と、
時間的に連続する前記合成フレームデータを三次元動画データとして出力する出力部と、
を備える三次元動画生成装置。
請求項１に記載の三次元動画生成装置によって作成された前記三次元動画データの配信要求を受け付ける配信受付部と、
前記配信要求を受け付けたときに、前記三次元動画データを要求元に配信するデータ配信部と、
を備える三次元動画データの配信装置。
前記三次元画像センサによる前記被写体の撮影と並行して、前記データ配信部が、所定量毎に分割された前記三次元動画データを所定の時間間隔で前記要求元へ追加データとして送信する請求項２に記載の三次元動画データの配信装置。
同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信するステップと、
前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択するステップと、
前記選択されたフレームデータを合成して、合成フレームデータを作成するステップと、
時間的に連続する前記合成フレームデータを三次元動画データとして出力するステップと、
をコンピュータが実行する三次元動画生成方法。
同一の被写体を撮影する複数の三次元画像センサからフレームデータ群を受信するステップと、
前記複数の三次元画像センサのうちの第１の三次元画像センサから受信されたフレームデータ群に含まれる各フレームデータを第２の三次元画像センサから受信されたフレームデータ群に含まれるフレームデータと比較し、統一された座標系上において前記比較されたフレームデータ中の被写体の所定部位の位置が所定の許容値の範囲で合致するフレームを選択するステップと、
前記選択されたフレームデータを合成して、合成フレームデータを作成するステップと、
時間的に連続する前記合成フレームデータを三次元動画データとして出力するステップと、
をコンピュータに実行させるための三次元動画生成プログラム。