JP2022516466A

JP2022516466A - 情報処理装置、情報処理方法、並びにプログラム

Info

Publication number: JP2022516466A
Application number: JP2021537751A
Authority: JP
Inventors: 宣浩綱島; 大資田原
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-14
Filing date: 2019-12-27
Publication date: 2022-02-28
Also published as: CN113272864A; EP3912135A1; US20200226787A1; US20220084244A1; WO2020149149A1

Abstract

【課題】複数台の撮像装置の位置を検出する。【解決手段】第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、第１の撮像装置と第２の撮像装置の第１の位置情報を検出する位置検出部と、第１の撮像装置の移動量を推定し、第２の位置情報を推定する位置推定部とを備える。身体的な特徴点は、被写体の関節から検出される。被写体は、人である。本技術は、複数台の撮像装置の位置を検出する情報処理装置に適用できる。

Description

本技術は情報処理装置、情報処理方法、並びにプログラムに関し、例えば、複数台の撮像装置が設置されているときに、撮像装置が設置されている位置を算出するようにした情報処理装置、情報処理方法、並びにプログラムに関する。

複数台の撮像装置で同一の物体やシーンなどを撮影し、撮影対象の３次元情報を取得する場合、複数台の撮像装置で撮影された対象の撮像装置毎の見え方の違いを用いて、各々の撮像装置から対象までの距離を算出する方法がある。

この方法により３次元情報を取得する場合、撮影に使用する複数台の撮像装置の位置関係が既知であることが必要となる。撮像装置の位置関係を求めることを、キャリブレーションと称する場合がある。

キャリブレーションの方法として、形や大きさが固定のパターンを印刷した専用のキャリブレーションボードと称されるボードを用い、そのキャリブレーションボードを、複数台の撮像装置で同時に撮影し、各撮像装置で撮影された画像を用いた解析を行うことで、撮像装置の位置関係が算出される。

キャリブレーションボードを用いないキャリブレーションの方法も提案されている。特許文献１では、画面に映っている人の頭と足の位置を、人を移動させながら時系列に複数検出して、それらの検出結果からキャリブレーションを行うことが提案されている。

特開2011-215082号公報

専用のキャリブレーションボードを用いて、キャリブレーションを行う場合、キャリブレーションボードがなければ、キャリブレーションを行えないため、キャリブレーションボードを予め用意しておく必要があり、キャリブレーションボードを用意するというユーザの手間がかかる。

また、複数台の撮像装置の位置を求めた後に、何らかの原因により撮像装置の位置が変わった場合、その位置を更新するためには、再度キャリブレーションボードを用いたキャリブレーションを行う必要があり、変化した位置を容易に修正することは困難であった。

また特許文献１による方法では、人が地面に対して垂直に立っている、地面が撮像装置の撮像範囲内にあるなど、種々の条件があり、使い勝手が低下してしまう可能性があった。

本技術は、このような状況に鑑みてなされたものであり、複数台の撮像装置の位置を容易に求めることができるようにするものである。

本技術の一側面の情報処理装置は、第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出する位置検出部と、前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する位置推定部とを備える。

本技術の一側面の情報処理方法は、撮像装置の位置を検出する情報処理装置が、第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する。

本技術の一側面のプログラムは、コンピュータに、第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する処理を実行させる。

本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、第１の撮像装置と第２の撮像装置の第１の位置情報が検出され、第１の撮像装置の移動量が推定されることで、第２の位置情報が推定される。

なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。

本技術を適用した情報処理システムの一実施の形態の構成を示す図である。撮像装置の構成例を示す図である。情報処理装置の構成例を示す図である。情報処理システムの機能構成例を示す図である。第１の実施の形態における情報処理装置の構成を示す図である。第１の実施の形態における情報処理装置の動作について説明するためのフローチャートである。外部パラメータの算出の仕方について説明するための図である。撮像装置の位置関係の一例を示す図である。身体的な特徴点について説明するための図である。位置情報の統合について説明するための図である。外部パラメータの検証について説明するための図である。第２の実施の形態における情報処理装置の構成を示す図である。第２の実施の形態における情報処理装置の動作について説明するためのフローチャートである。

以下に、本技術を実施するための形態（以下、実施の形態という）について説明する。

＜情報処理システムの構成＞
図１は、本技術を適用した情報処理システムの一実施の形態の構成を示す図である。本技術は、複数台の撮像装置が設置されている場合に、撮像装置が設置されている位置を求めるときに適用できる。また、複数台の撮像装置の位置が変化するようなときにも適用できる。

図１に示した情報処理システムは、撮像装置１１－１、撮像装置１１－２の２台の撮像装置と、情報処理装置１２を備える構成とされている。以下の説明において、撮像装置１１－１と撮像装置１１－２を個々に区別する必要がない場合、単に撮像装置１１と記述する。またここでは、２台の撮像装置１１が設置されている場合を例に挙げて説明を続けるが、本技術は、少なくとも２台の撮像装置１１があれば適用でき、また３台以上の撮像装置１１がある場合にも適用できる。

撮像装置１１は、被写体を撮像する機能を有する。撮像装置１１で撮像された被写体を含む画像データは、情報処理装置１２に供給される。情報処理装置１２は、画像を解析することで、撮像装置１１－１と撮像装置１１－２の位置関係を求める。

撮像装置１１と情報処理装置１２は、画像データの授受を行える構成とされている。撮像装置１１と情報処理装置１２は、有線または／および無線で構成されたネットワークを介して互いにデータの授受を行える構成とされている。

撮像装置１１は、静止画像、動画像を撮影する。以下の説明において、画像とは、撮像装置１１で撮像された静止画像、または動画像を構成する１フレーム分の画像を表す。

複数台の撮像装置１１で撮影した画像に対して幾何学的な処理、例えば被写体の３次元計測などを行う場合には、撮像装置１１間の外部パラメータを求めるキャリブレーションを行う必要がある。また、外部パラメータまで求めなくても、それらからなる基礎行列を求めることで、自由視点映像などの様々なアプリケーションを実現することができる。

情報処理システムに含まれる情報処理装置１２は、このようなキャリブレーションや、基礎行列を求めることができる。以下に、情報処理装置１２がキャリブレーションや基礎行列を求める場合を例に挙げて説明を続ける。

＜撮像装置の構成例＞
図２は、撮像装置１１の構成例を示す図である。撮像装置１１は、レンズ系３１等を含む光学系、撮像素子３２、カメラ信号処理部であるＤＳＰ回路３３、フレームメモリ３４、表示部３５、記録部３６、操作系３７、電源系３８、および通信部３９等を有している。

そして、ＤＳＰ回路３３、フレームメモリ３４、表示部３５、記録部３６、操作系３７、電源系３８、および通信部３９がバスライン４０を介して相互に接続された構成となっている。ＣＰＵ４１は、撮像装置１１内の各部を制御する。

レンズ系３１は、被写体からの入射光（像光）を取り込んで撮像素子３２の撮像面上に結像する。撮像素子３２は、レンズ系３１によって撮像面上に結像された入射光の光量を画素単位で電気信号に変換して画素信号として出力する。この撮像素子３２として、以下に説明する画素を含む撮像素子（イメージセンサ）を用いることができる。

表示部３５は、液晶表示部や有機ＥＬ（electro luminescence)表示部等のパネル型表示部からなり、撮像素子３２で撮像された動画または静止画を表示する。記録部３６は、撮像素子３２で撮像された動画または静止画を、ＨＤＤ（Hard Disk Drive）やＤＶＤ（Digital Versatile Disk）等の記録媒体に記録する。

操作系３７は、ユーザによる操作の下に、本撮像装置が持つ様々な機能について操作指令を発する。電源系３８は、ＤＳＰ回路３３、フレームメモリ３４、表示部３５、記録部３６、操作系３７、および通信部３９の動作電源となる各種の電源を、これら供給対象に対して適宜供給する。通信部３９は、情報処理装置１２と所定の通信方式で通信を行う。

＜情報処理装置の構成例＞
図３は、情報処理装置１２のハードウエアの構成例を示す図である。情報処理装置１２は、例えば、パーソナルコンピュータで構成することができる。情報処理装置１２においては、ＣＰＵ（Central Processing Unit）６１、ＲＯＭ（Read Only Memory）６２、ＲＡＭ（Random Access Memory）６３は、バス６４により相互に接続されている。バス６４には、さらに、入出力インタフェース６５が接続されている。入出力インタフェース６５には、入力部６６、出力部６７、記憶部６８、通信部６９、およびドライブ７０が接続されている。

入力部６６は、キーボード、マウス、マイクロフォンなどよりなる。出力部６７は、ディスプレイ、スピーカなどよりなる。記憶部６８は、ハードディスクや不揮発性のメモリなどよりなる。通信部６９は、ネットワークインタフェースなどよりなる。ドライブ７０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体７１を駆動する。

＜情報処理システムの機能＞
図４は、情報処理システムの機能に関する構成例を示す図である。撮像装置１１は、撮像部１０１と通信制御部１０２を備える。情報処理装置１２は、画像入力部１２１、人検出部１２２、同一人物判定部１２３、特徴点検出部１２４、位置検出部１２５、位置統合部１２６、および位置追跡部１２７を備える。

撮像装置１１の撮像部１０１は、図２に示した撮像装置１１のレンズ系３１や撮像素子３２などを制御し、被写体の画像を撮像する機能を有する。通信制御部１０２は、通信部３９（図２）を制御し、撮像部１０１により撮像された画像の画像データを、情報処理装置１２に送信する。

情報処理装置１２の画像入力部１２１は、撮像装置１１から送信されてきた画像データを受信し、人検出部１２２と位置追跡部１２７に供給する。人検出部１２２は、画像データに基づく画像から人を検出する。同一人物判定部１２３は、複数の撮像装置１１で撮像された画像から検出された人が、同一人物であるか否かを判定する。

特徴点検出部１２４は、同一人物判定部１２３により同一人物であると判定された人から、特徴点を検出し、位置検出部１２５に供給する。詳細は後述するが、人の身体的特徴、例えば肘や膝などの箇所が特徴点として抽出される。

位置検出部１２５は、撮像装置１１の位置情報を検出する。詳細は後述するが、撮像装置１１の位置情報とは、複数台の撮像装置１１同士の相対的な位置や、実空間における位置を表す。位置統合部１２６は、複数の撮像装置１１の位置情報を統合し、それぞれの撮像装置１１の位置を特定する。

位置追跡部１２７は、所定の方法により、また位置検出部１２５とは異なる方法で、撮像装置１１の位置情報を検出する。

以下の説明においては、図１に示したように、２台の撮像装置１１からの情報を処理する情報処理装置１２を例に挙げて説明を続ける。また、以下に説明する実施の形態においては、被写体として人が撮影され、人の身体的な特徴が検出される場合を例に挙げて説明を続けるが、身体的な特徴が得られる物体であれば、被写体は人に限らず本技術に適用できる。例えば、人の形を模写した所謂マネキン人形やぬいぐるみなどでも、上記した人の代わりに用いることができる。また、動物なども本技術に適用できる。

＜第１の実施の形態＞
第１の実施の形態として、人を撮像し、撮像された人から特徴点を検出し、検出された特徴点を用いて、撮像装置１１の位置を特定する方法と、自己位置推定の技術により撮像装置１１の位置を特定する方法を併用する情報処理装置について説明する。

２台の撮像装置１１からの情報を処理する情報処理装置１２の場合、図５に示すように、画像入力部１２１、人検出部１２２、特徴点検出部１２４、位置追跡部１２７は、撮像装置１１毎に設けられる。第１の実施の形態における情報処理装置１２は、情報処理装置１２ａと記述する。

図５を参照するに、情報処理装置１２ａは、撮像装置１１－１からの画像データを入力する画像入力部１２１－１、撮像装置１１－２からの画像データを入力する画像入力部１２１－２を備える。

画像入力部１２１－１に入力された画像データは、人検出部１２２－１と位置追跡部１２７－１に供給される。同じく、画像入力部１２１－２に入力された画像データは、人検出部１２２－２と位置追跡部１２７－２に供給される。

人検出部１２２－１は、供給された画像データに基づく画像内から人を検出する。同様に、人検出部１２２－２は、供給された画像データに基づく画像内から人を検出する。人検出部１２２は、例えば顔を検出したり、人物の特徴点を検出したりすることで、人を検出する。人が検出された場合、同一人物判定部１２３により、同一人物であるか否かが判定される。

同一人物判定部１２３は、人検出部１２２－１で検出された人と、人検出部１２２－２で検出された人が同一人物であるか否かを判定する。この判定は、顔認識により人物の特定を行ったり、服装から人物の特定を行ったりすることで行うことができる。

特徴点検出部１２４－１は、撮像装置１１－１で撮像された画像から特徴点を抽出し、位置検出部１２５に供給する。特徴点は、人の身体的な特徴を表す箇所から検出されるため、人検出部１２２－１により人と判定された領域内の画像だけを対象として処理が行われれば良い。同様に特徴点検出部１２４－２は、撮像装置１１－２で撮像された画像から特徴点を抽出し、位置検出部１２５に供給する。

なお、人検出部１２２において人物の特徴点を検出して人を検出する場合、人検出部１２２を特徴点検出部１２４として用い、特徴点検出部１２４を削除した構成とすることもできる。また、１人の人を撮像し、位置情報の検出を行う場合には、人検出部１２２と同一人物判定部１２３を削除した構成とすることもできる。

位置検出部１２５には、撮像装置１１－１で撮像された画像から抽出された特徴点と、撮像装置１１－２で撮像された画像から抽出された特徴点が供給され、供給された特徴点を用いて、撮像装置１１－１と撮像装置１１－２との相対的な位置を検出する。位置検出部１２５－１で検出された撮像装置１１－１と撮像装置１１－２との相対的な位置に関する位置情報は、位置統合部１２６に供給される。

位置情報とは、複数台の撮像装置１１同士の相対的な位置や、実空間における位置を表す情報である。また、位置情報は、撮像装置１１のＸ座標、Ｙ座標、Ｚ座標である。また、光軸のＸ軸周りの回転角、光軸のＹ軸周りの回転角、光軸のＺ軸周りの回転角である。位置情報としては、これらの６個の情報が含まれるとして説明を続けるが、これら６個の情報のうちの数個の情報が取得される場合であっても本技術を適用できる。

また、以下および上記した説明において、撮像装置１１の位置、位置情報、相対的な位置といった記載をした場合、撮像装置１１の座標で表される位置情報だけでなく光軸の回転角を含む記載であるとする。

位置追跡部１２７－１は、撮像装置１１－１の位置情報を推定する位置推定部として機能し、推定を継続して行うことで撮像装置１１－１の位置情報を追跡する。位置追跡部１２７－１は、例えば、ＳＬＡＭ（Simultaneous Localization and Mapping）等の技術を用いて撮像装置１１－１の自己位置を推定し、推定し続けることで、撮像装置１１－１を追跡する。同様に、位置追跡部１２７－２は、撮像装置１１－２の位置情報を、例えば、ＳＬＡＭ等の技術を用いて推定し、撮像装置１１－２を追跡する。

なお、複数台の撮像装置１１の全ての位置情報を推定する構成でなくても良く、複数台の撮像装置のうちの数台の撮像装置１１の位置情報を推定する構成とすることもできる。例えば、図５では、撮像装置１１－１の位置を推定するために位置追跡部１２７－１を備え、撮像装置１１－２の位置を推定するために位置追跡部１２７－２を備える構成を例に挙げているが、撮像装置１１－１または撮像装置１１－２のどちらかの位置情報を推定する１つの位置追跡部１２７を備える構成とすることもできる。

位置検出部１２５、位置追跡部１２７－１、および位置追跡部１２７－２からの位置情報は、位置統合部１２６に供給される。位置統合部１２６は、複数台の撮像装置１１の位置関係、この場合、撮像装置１１－１と撮像装置１１－２の位置関係を統合する。

図６のフローチャートを参照し、情報処理装置１２ａの動作について説明する。

ステップＳ１０１において、画像入力部１２１は、画像データを入力する。画像入力部１２１－１は、撮像装置１１－１からの画像データを入力し、画像入力部１２１－２は、撮像装置１１－２からの画像データを入力する。

ステップＳ１０２において、人検出部１２２は、画像入力部１２１により入力された画像データに基づく画像から人を検出する。人の検出は、人（情報処理装置１２ａを使うユーザ）が指定することで行われても良いし、所定のアルゴリズムを用いて行われても良い。例えば、ユーザがモニタに映し出された画像を見ながら、マウスなどの入力デバイスを操作し、人が写っている領域を指定することで、人が検出されるようにしても良い。

また、所定のアルゴリズムを用いて画像を解析することで、人が検出されるようにしても良い。所定のアルゴリズムとして、顔認識技術や人の身体的な特徴を検出する技術があり、それらの技術を適用することができるため、ここではその詳細な説明は省略する。

ステップＳ１０２において、人検出部１２２－１により撮像装置１１－１で撮像された画像から人が検出され、その検出結果は、同一人物判定部１２３に供給される。また、人検出部１２２－２により撮像装置１１－２で撮像された画像から人が検出され、その検出結果も、同一人物判定部１２３に供給される。

ステップＳ１０３において、同一人物判定部１２３は、人検出部１２２－１で検出された人と、人検出部１２２－２で検出された人が、同一人物であるか否かを判定する。複数の人が検出された場合には、検出された人の組み合わせを変えて同一人物であるか否かが判定される。

ステップＳ１０３において、同一人物判定部１２３により、同一人物であると判定された場合、ステップＳ１０４に処理が進められ、同一人物ではないと判定された場合、ステップＳ１１０に処理が進められる。

ステップＳ１０４において、特徴点検出部１２４は、画像入力部１２１に入力された画像データに基づく画像から、特徴点を検出する。この場合、人検出部１２２により、画像から人が検出されているため、その検出されている人の領域内を対象として特徴点の検出が行われる。また、処理対象とされる人は、同一人物判定部１２３により同一人物であると判定された人である。例えば、複数の人が検出されていた場合、同一人物であると判定されなかった人は、処理対象から除外される。

特徴点検出部１２４－１は、画像入力部１２１－１に入力された撮像装置１１－１で撮像された画像から特徴点を抽出する。特徴点検出部１２４－２は、画像入力部１２１－２に入力された撮像装置１１－２で撮像された画像から特徴点を抽出する。

特徴点として抽出されるのは、人の身体的な特徴がある部分とすることができる。例えば、人の関節を特徴点として検出するようにすることができる。後述するように、位置検出部１２５では、撮像装置１１－１で撮像された画像から検出された特徴点と、撮像装置１１－２で撮像された画像から検出された特徴点との対応関係から、撮像装置１１－１と撮像装置１１－２の相対的な位置関係が検出される。

すなわち、位置検出部１２５では、一方の画像から検出された特徴点としての関節情報と、位置が対応する他方の画像から検出された特徴点としての関節情報を組み合わせることにより、位置検出が行われる。このような特徴点を用いた位置検出が行われる場合、人の関節といった関節情報を特徴点として用いることで、被写体の向き、例えば、正面や背面等の向きに係わらず、また顔が画角内に収まっていないような場合であっても、撮像装置１１の位置情報を求めることが可能となる。

人の関節以外にも、眼、鼻などの身体的な特徴点も検出されるようにしてももちろん良い。より具体的には、人の左肩、右肩、左肘、右肘、左手首、右手首、首元、左腰、右腰、左膝、右膝、左足首、右足首、右目、左目、鼻、口、右耳、左耳などが特徴点として検出されるようにすることができる。なおここに身体的な特徴としてあげた部分は、一例であり、他の部分、例えば、指の関節、指先、頭頂部といった部分が、上記した部分の代わりに検出されたり、上記した部分にさらに加えて検出されたりする構成とすることも可能である。

なお、ここでは特徴点との記載を行うが、ある程度の大きさを有する領域であったり、エッジなどの線分であったりしても良い。例えば、特徴点として眼が検出される場合、眼の中央の位置（黒目の中央）を特徴点として検出しても良いし、眼（眼球）の領域を特徴点として検出しても良いし、眼球とまぶたの境界（エッジ）部分を特徴点として検出しても良い。

特徴点の検出は、人が指定することで行われても良いし、所定のアルゴリズムを用いて行われても良い。例えば、人がモニタに映し出された画像を見ながら、マウスなどの入力デバイスを操作し、上記した左肩や右肩といった身体的な特徴を表す部分を特徴点として指定することで、特徴点が検出（設定）されるようにしても良い。人手により特徴点を検出（設定）する場合、誤った特徴点を検出する可能性は低く、精度良く検出できるという利点がある。

所定のアルゴリズムを用いて画像を解析することで、特徴点が検出されるようにしても良い。所定のアルゴリズムとして、例えば以下の文献１に記載があり、Open Poseなどと称される技術を適用することができる。
文献１ Zhe Cao and Tomas Simon and Shih-En Wei and Yaser Sheikh. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR, 2017.

文献１で開示されている技術は、人の姿勢推定を行う技術であり、姿勢推定を行うのに上記したような人の身体的な特徴がある部分（例えば、関節）を、検出する。文献１以外の他の技術を本技術に適用することもでき、他の方法により特徴点が検出されるようにすることも可能である。

文献１で開示されている技術は、簡便に記載すると、１枚の画像から関節位置がディープラーニング（Deep Learning）が用いられて推定され、関節毎に確信度マップ（confidence map）が求められる。例えば、１８個の関節位置が検出される場合、１８個の確信度マップが生成される。そして関節を繋ぎ合わせることで、人の姿勢情報が得られる。

特徴点検出部１２４（図５）においては、特徴点、すなわちこの場合、関節位置が検出できれば良いため、ここまでの処理が実行されれば良い。また、検出された検出位置が、肩であるのか、肘であるのかといった情報、さらには左肩であるのか右肩であるのかといった情報が後段の処理で必要だが、このような情報が得られれば、関節を繋ぎ合わせ、姿勢が推定されるといった処理は省略することも可能である。

また文献１によれば、画像に複数の人が写っている場合にも対応できる。複数の人が撮影されている場合には、関節の繋ぎ合わせを実行する際、以下の処理も実行される。

画像に複数の人が写っている場合、例えば左肩と左肘の繋ぎ方の組み合わせが複数存在する可能性がある。例えば、人Ａの左肩が、人Ａの左肘、人Ｂの左肘、人Ｃの左肘などと組み合わされる可能性がある。複数の組み合わせが存在するときに、正しい組み合わせを推定するためにPAFs（Part Affinity Fields）と称される手法が用いられる。この手法によれば、関節間の繋がり得る可能性を方向ベクトルマップとして予測することで、正しい組み合わせが推定される。

撮影されている人が１人である場合、PAFs手法による推定の処理などは省略することができる。

ステップＳ１０４において、特徴点検出部１２４により画像内から、人の身体的な特徴を表す箇所が特徴点として検出される。この検出に、所定のアルゴリズムを用いる場合、後段の処理、具体的には、位置検出部１２５で行う後述する処理が行える程度の特徴点が精度良く検出されれば良い。すなわち、上記した処理（一例として文献１に記載されている処理）の全てを実行する必要はなく、位置検出部１２５で行う後述する処理が行える程度の特徴点が精度良く検出されるための処理だけが実行されれば良い。

所定のアルゴリズムを用いて画像を解析することで、特徴点が検出されるようにした場合、人の関節位置などの身体的な特徴を、ユーザの手を煩わせることなく検出させることができる。一方で、誤検出や検出漏れが起こる可能性がある。

人による特徴点の検出と、所定のアルゴリズムを用いた特徴点の検出を組み合わせても良い。例えば、所定のアルゴリズムを用いた画像解析により特徴点を検出した後、人により検出された特徴点が正しいか否かの検証、誤検出の場合には補正、検知漏れがあるときには追加などが行われるようにしても良い。

また、所定のアルゴリズムを用いて特徴点を検出する場合、顔認証に用いられる画像解析も用いて、顔の部分と体の部分で異なるアルゴリズムを適用して、顔の部分からと体の部分からとで、それぞれ特徴点を検出するようにしても良い。

ステップＳ１０４（図６）において、特徴点検出部１２４は、画像から人の身体的な特徴点を検出する。ここでは、人の左肩、右肩、左肘、右肘、左手首、右手首、首元、左腰、右腰、左膝、右膝、左足首、右足首、右目、左目、鼻、口、右耳、左耳の１８点が特徴点として検出される場合を例に挙げて説明を続ける。

ステップＳ１０５において、位置検出部１２５によりパラメータが算出される。位置検出部１２５は、特徴点検出部１２４－１により撮像装置１１－１で撮像された画像から検出された特徴点と、特徴点検出部１２４－２により撮像装置１１－２で撮像された画像から検出された特徴点が供給され、供給された特徴点を用いて撮像装置１１－１と撮像装置１１－２の相対的な位置を算出する。上記したように、相対的な位置とは、この場合、撮像装置１１－１を基準としたとき、その撮像装置１１－１に対する撮像装置１１－２の位置である。

位置検出部１２５は、撮像装置１１の相対的な位置として、外部パラメータと称されるパラメータを算出する。撮像装置１１の外部パラメータ（一般的にカメラの外部パラメータと称されるパラメータ）とは、回転と並進（回転ベクトルと並進ベクトル）である。回転ベクトルは、撮像装置１１の向きを表し、並進ベクトルは、撮像装置１１の位置情報を表す。また、外部パラメータは、撮像装置１１の座標系の原点は、光学的中心にあり、Ｘ軸とＹ軸でイメージ平面が定義されている。

外部パラメータを求め、外部パラメータを用いて撮像装置１１のキャリブレーションが行える。ここで、外部パラメータの求め方について説明を加える。外部パラメータは、８点アルゴリズムと称されるアルゴリズムを用いて求めることが可能である。

図７に示すように３次元空間中に３次元点ｐが存在するとし、それらを撮像装置１１－１と撮像装置１１－２で撮影した際の画像平面上における投影点を、それぞれｑ０，ｑ１としたとき、これらの間には以下のような関係式（１）が成り立つ。

式（１）において、ＦはFundamental Matrix（基礎行列）である。この基礎行列Ｆは（ｑ０，ｑ１）のように、ある三次元点をそれぞれの撮像装置１１で撮影したときの座標値のペアを８組以上用意し、８点アルゴリズムなどを適用することで求めることが可能である。

さらに、焦点距離や画像中心といった撮像装置１１に固有のパラメータである内部パラメータ（Ｋ０，Ｋ１）と、基本行列Ｅ（Essential Matrix）を用いると、式（１）は、次式（２）のように展開できる。さらに式（２）から式（３）へと展開できる。

内部パラメータ（Ｋ０，Ｋ１）が既知である場合、上記対応点の組からＥ行列を求めることができる。さらに、このＥ行列は特異値分解を行うことで外部パラメータに分解することができる。また、この基本行列Ｅは、撮像装置の座標系における点ｐを表すベクトルをｐ０，ｐ１としたとき、以下の式（４）を満たす。

このとき撮像装置１１が透視投影の撮像装置である場合、次式（５）が成り立つ。

このときＥ行列は（ｐ０，ｐ１）のペアあるいは（ｑ０，ｑ１）のペアに対して８点アルゴリズムを適用することで求めることが可能である。以上のことから、複数の撮像装置１１で撮像される画像間で得られる対応点の組から、Fundamental Matrixおよび外部パラメータを求めることができる。

位置検出部１２５は、このような８点アルゴリズムを適用した処理を行うことで、外部パラメータを算出する。上記した説明において、８点アルゴリズムに用いる８組の対応点は、人の身体的な特徴の位置として検出された特徴点の組となる。ここで、特徴点の組について説明を加える。

特徴点の組みについて説明するために、図８に示すような状況において検出される特徴点を例に挙げて説明する。図８に示すように、撮像装置１１－１と撮像装置１１－２は、１８０度の位置に配置され、人を撮影している。撮像装置１１－１は、人を正面から撮影し、撮像装置１１－２は、人を後ろ側から撮影している状態である。このように撮像装置１１が配置されているときに、撮像装置１１－１で撮像された画像（画像から検出された特徴点）を、図９の左図に示し、撮像装置１１－２で撮像された画像（画像から検出された特徴点）を、図９の右図に示す。

撮像装置１１－１は、被写体（人）を正面から撮像しているため、図９の左図に示したように、特徴点として１８個検出される。特徴点検出部１２４は、検出された特徴点が人のどの部分から検出された特徴点であるのか示す情報（特徴点位置と記述する）と、特徴点を識別するための情報（特徴点識別子と記述する）を付与する。

特徴点識別子は、個々の特徴点を識別できる情報であれば良く、例えば、番号やアルファベットなどが割り当てられる。図９では、アルファベットが特徴点識別子として付与される場合を例に挙げて説明する。また、特徴点位置に関連付けた識別子、例えば、右足首には、特徴点識別子としてａを割り当てるという規則を設けておけば、特徴点識別子ａは、右足首の部分から検出された特徴点であることが一意に識別できる。以下、特徴点ａなどの記載は、特徴点識別子がａであり、所定の位置、例えば右足首の部分から検出された特徴点であることを表すとして説明を続ける。

図９の左図を参照するに、撮像装置１１－１で撮像された画像１１－１からは特徴点ａ乃至ｒが検出される。特徴点ａは、右足首の部分から検出された特徴点であり、特徴点ｂは、左足首の部分から検出された特徴点である。特徴点ｃは、右膝の部分から検出された特徴点であり、特徴点ｄは、左膝の部分から検出された特徴点である。

特徴点ｅは、右腰の部分から検出された特徴点であり、特徴点ｆは、左腰の部分から検出された特徴点である。特徴点ｇは、右手首の部分から検出された特徴点であり、特徴点ｈは、左手首の部分から検出された特徴点である。特徴点ｉは、右肘の部分から検出された特徴点であり、特徴点ｊは、左肘の部分から検出された特徴点である。

特徴点ｋは、右肩の部分から検出された特徴点であり、特徴点ｌは、左肩の部分から検出された特徴点である。特徴点ｍは、首の部分から検出された特徴点である。特徴点ｎは、右耳の部分から検出された特徴点であり、特徴点ｏは、左耳の部分から検出された特徴点である。特徴点ｐは、右目の部分から検出された特徴点であり、特徴点ｑは、左目の部分から検出された特徴点である。特徴点ｒは、鼻の部分から検出された特徴点である。

図９の右図を参照するに、撮像装置１１－２で撮像された画像１１－２からは特徴点ａ’乃至ｏ’が検出される。画像１１－２から検出された特徴点（特徴点識別子）には、ダッシュを付して記述し、同一の識別子は同一箇所、例えば、識別子ａと識別子ａ’は、右足首から検出された特徴点であることを示す。

撮像装置１１－２は、人の背面から撮影しているため、顔の部分から検出される目や鼻は検出されないため、特徴点ｐ’、特徴点ｑ’、特徴点ｒ’は図示していない。

位置検出部１２５（図５）には、図９を参照して説明した特徴点が入力される。位置検出部１２５には、特徴点に関する情報として、上記した特徴点位置や特徴点識別子といった情報の他に、どの撮像装置１１で撮像されたかを表す情報（撮像装置特定情報と記述する）や撮影フレーム番号などの情報も含まれる。

撮影フレーム番号は、処理対象とされている画像を識別するための情報であり、例えば撮像装置１１での撮影が開始されてから順次フレーム毎に割り振られる番号とすることができる。撮像装置特定情報と撮影フレーム番号は、撮像装置１１から画像データとともに（画像データに含まれて）送信されてくる。撮影時間などの他の情報も、画像データとともに送信されてくるようにしても良い。

位置検出部１２５は、これら供給される情報を用いて、撮像装置１１－１と撮像装置１１－２でそれぞれ撮影された画像から抽出された特徴点間の対応付けを行う。対応付けられるのは、同一箇所から抽出された特徴点、換言すれば、特徴点位置が同一の特徴点が対応付けられる。例えば、図９に示したような場合、右足首から検出された特徴点ａと特徴点ａ’が対応付けられ、左足首から検出された特徴点ｂと特徴点ｂ’が対応付けられる。以下、対応付けられた２点の特徴点を、対応点と記述する。

上記した８点アルゴリズムを用いて、外部パラメータを算出する場合、対応点が８組あれば良い。画像１１－１からは、１８個の特徴点が検出され、画像１１－２からは、１５点の特徴点が検出されているため、１５組の対応点が得られる。この１５組の対応点のうち、８組の対応点が用いられ、上記したようにして外部パラメータが算出される。

８点アルゴリズムは、２台の撮像装置１１の相対的な回転や位置情報の変化を求めるものである。よって、２台以上の複数台の撮像装置の位置情報を求めるためには、例えば、図１０に示すように３台の撮像装置１１－１乃至１１－３の位置情報を求めるためには、１台の撮像装置１１を基準とし、その基準とされた撮像装置１１との相対的な位置が求められる。

図５に示した情報処理装置１２ａは、２台の撮像装置１１の位置関係を求めるときの構成のため、位置検出部１２５は、１個必要となる。Ｎ台の撮像装置１１の位置情報を求めるためには、（Ｎ－１）個の位置検出部１２５が情報処理装置１２に設けられる。例えば、３台の撮像装置１１－１乃至１１－３の位置情報を求める場合、位置検出部１２５－１と位置検出部１２５－２の２個必要となる。

図１０左図は、位置検出部１２５で検出された位置関係を表し、図１０右図は、位置統合部１２６で統合された位置関係を表す。図１０左図を参照するに、位置検出部１２５－１により、撮像装置１１－１に対する撮像装置１１－２の位置情報が検出される。撮像装置１１－１の位置情報が位置Ｐ１である場合、位置Ｐ１に対する撮像装置１１－２の位置Ｐ２が、位置検出部１２５－１により検出される。図１０に示した例では、撮像装置１１－１の左側であり、少し上側の位置に撮像装置１１－２が位置していることが検出される。また、撮像装置１１－１の光軸に対して、撮像装置１１－２の光軸は、右上方に傾きを有する方向にあることも検出される。

同様に位置検出部１２５－２により、撮像装置１１－１に対する撮像装置１１－３の位置情報が検出される。撮像装置１１－１の位置が位置Ｐ１である場合、位置Ｐ１に対する撮像装置１１－３の位置Ｐ３が、位置検出部１２５－２により検出される。図１０に示した例では、撮像装置１１－１の右側であり、少し上側の位置に撮像装置１１－３が位置していることが検出される。また、撮像装置１１－１の光軸に対して、撮像装置１１－３の光軸は、左上方に傾きを有する方向にあることも検出される。

位置統合部１２６は、位置検出部１２５－１から、撮像装置１１－１を基準としたときの撮像装置１１－２の相対的な位置に関する情報（位置Ｐ２の情報）と、位置検出部１２５－２から、撮像装置１１－１を基準としたときの撮像装置１１－３の相対的な位置に関する情報（位置Ｐ３の情報）を取得する。位置統合部１２６は、撮像装置１１－１を基準とし、撮像装置１１－２と撮像装置１１－３の位置情報を統合することで、図１０の右図に示したような位置関係を検出する。

位置統合部１２６において、撮像装置１１－１を基準とし、換言すれば位置Ｐ１を基準とし、位置Ｐ２に撮像装置１１－２が位置し、位置Ｐ３に撮像装置１１－３が位置しているという情報が生成される。

このように、情報処理装置１２ａにおいては、複数台の撮像装置１１のうちの１台の撮像装置１１の位置を基準とし、その基準とされた撮像装置１１と他の撮像装置１１の相対的な位置関係を検出し、統合することで、複数台の撮像装置１１の位置関係を検出する。

ここでは２台の撮像装置１１の場合を例に挙げて説明しているため、情報処理装置１２ａは、図５に示したような構成となる。図５に示した情報処理装置１２ａの動作についての説明に戻り、ステップＳ１０５（図６）において、位置検出部１２５により撮像装置１１－１と撮像装置１１－２の相対的な位置（外部パラメータ）が求められる。

ここまでの処理で、撮像装置１１－１と撮像装置１１－２の相対的な位置が検出されたため、この時点で検出されている相対的な位置を位置統合部１２６に供給し、撮像装置１１－１と撮像装置１１－２の位置情報を統合する処理に移行しても良い。

位置統合部１２６における統合には、図１０を参照して説明したように、３以上の複数台の撮像装置１１がある場合には、所定の撮像装置１１を基準としたときの他の撮像装置１１の相対的な位置を統合する処理が含まれる。また、位置統合部１２６における統合には、位置検出部１２５で検出された撮像装置１１－１と撮像装置１１－２の相対的な位置、位置追跡部１２７－１で追跡されている撮像装置１１－１の位置情報、および位置追跡部１２７－２で追跡されている撮像装置１１－２の位置情報を統合する処理も含まれる。この統合については、後述する。

ステップＳ１０５において、位置検出部１２５により算出された外部パラメータの精度を高める処理がさらに実行されるようにしても良い。上記した処理では、８組の対応点を用いて外部パラメータを求めたが、８組以上の対応点を用い、より多くの情報から外部パラメータが算出されるようにすることで、算出される外部パラメータの精度を上げることができる。

８組以上の対応点を用いて撮像装置１１の外部パラメータの精度を上げる処理について説明を加える。外部パラメータの精度を上げるために、算出された外部パラメータが正しいか否かの検証が行われる。

算出される外部パラメータの精度を上げるために、任意またはランダムに選択された８組の対応点から求められた外部パラメータから、残りの特徴点の位置との整合性が最も高い外部パラメータが選択されるようにする。この場合の整合性とは、算出された撮像装置１１の外部パラメータが正しければ、外部パラメータの計算に用いた８組の対応点以外の対応点を、上記した式（１）に代入したとき、右辺は０になり、正しくなければ、誤差Ｅが発生することを意味する。

例えば、特徴点ａ乃至ｈと特徴点ａ’乃至ｈ’の８組の対応点で外部パラメータを求め、その求められた外部パラメータと、特徴点ｉ乃至ｏと特徴点ｉ’乃至ｏ’の対応点のいずれか１組の対応点を式（１）に代入したとき、その結果が０となった場合、正しい外部パラメータが算出されたと判定でき、０以外の誤差Ｅとなった場合、誤った外部パラメータが算出されたと判定できる。

代入結果が、誤差Ｅである場合、先に外部パラメータを算出したときに用いた特徴点ａ乃至ｈと特徴点ａ’乃至ｈ’の８組の対応点以外の対応点、例えば、特徴点ａ乃至ｇ，ｉと特徴点ａ’乃至ｇ’，ｉの８組の対応点で外部パラメータを求め、その求められた外部パラメータと、特徴点ａ乃至ｇ，ｉと特徴点ａ’乃至ｇ’，ｉの８組の対応点以外の対応点を式（１）に代入し、誤差Ｅが発生するか否かを判定する。

０または誤差Ｅが最も小さな値となった外部パラメータが、最も精度が良く算出された外部パラメータであると推定できる。このような処理を行う場合について、再度図１１を参照して説明する。

時刻Ｔ１において、特徴点ａ乃至ｈと特徴点ａ’乃至ｈ’の８組の対応点で外部パラメータが求められ、基礎行列Ｆ１が算出される。この基礎行列Ｆ１を式（１）のＦとし、特徴点ｉと特徴点ｉ’の対応点を、式（１）に代入する。このときの計算結果を誤差Ｅ１ｉとする。同じく、基礎行列Ｆ１を式（１）のＦとし、特徴点ｊと特徴点ｊ’の対応点を、式（１）に代入し、誤差Ｅ１ｊが算出される。

基礎行列Ｆ１を式（１）のＦとした計算が、特徴点ｋ乃至ｏと特徴点ｋ‘乃至ｏ’のそれぞれの対応点において実行されることで、誤差Ｅ１ｋ乃至誤差Ｅ１ｏが算出される。算出された誤差Ｅ１ｉ乃至誤差Ｅ１ｏを全て加算した値を、誤差Ｅ１とする。

時刻Ｔ２において特徴点ａ乃至ｇ，ｉと特徴点ａ’乃至ｇ’，ｉの８組の対応点で外部パラメータが求められ、基礎行列Ｆ２が算出される。この基礎行列Ｆ２を式（１）のＦとし、特徴点ｈと特徴点ｈ’の対応点を、式（１）に代入し、誤差Ｅ２ｈが算出される。同じく、基礎行列Ｆ２を式（１）のＦとした計算が、特徴点ｊ乃至ｏと特徴点ｊ‘乃至ｏ’のそれぞれの対応点において実行されることで、誤差Ｅ２ｊ乃至誤差Ｅ２ｏが算出される。算出された誤差Ｅ２ｈと誤差Ｅ２ｊ乃至誤差Ｅ１ｏを全て加算した値を、誤差Ｅ２とする。

このように、８組の対応点を用いて外部パラメータを算出し、その算出された外部パラメータを、算出に用いた８組の対応点以外の対応点を用いて誤差Ｅをそれぞれ算出し、最終的に合計値を算出する。このような処理が、外部パラメータを算出するのに用いる８組の対応点を変えながら、繰り返し行われる。

１５組の対応点から、８組の対応点を選択し、外部パラメータを算出する場合、全ての対応点を対象として外部パラメータを算出すると、組み合わせの公式から、１５Ｃ８個の外部パラメータが算出され、誤差Ｅが算出される。これらの１５Ｃ８個の誤差Ｅのうち、最も小さい値の誤差Ｅが算出されたときの外部パラメータが、最も精度良く算出された外部パラメータである。

そして、この最も精度良く算出された外部パラメータが用いられて、後段の処理が行われることで、撮像装置１１の位置情報を精度良く算出することができる。

ここでは、８組の対応点を用いて外部パラメータを算出し、その算出された外部パラメータを、算出に用いた８組の対応点以外の対応点を用いて誤差Ｅを算出し、その合算値を比較するとした。その他の方法として合算せずに、上記した説明においては合算前の各対応点が代入されたときに得られた誤差Ｅのうちの最大値が比較されるようにしても良い。

誤差Ｅの最大値を比較したとき、その値が最も小さい誤差Ｅが抽出され、その誤差Ｅが算出されたときの外部パラメータが、最も精度良く算出された外部パラメータであるとして算出されるようにしても良い。例えば、上記した例では、誤差Ｅ１ｉ乃至誤差Ｅ１ｏのうちの最大値と、誤差Ｅ２ｈと誤差Ｅ２ｊ乃至誤差Ｅ１ｏのうちの最大値が比較され、小さい方の誤差Ｅが算出されたときの外部パラメータが、最も精度良く算出された外部パラメータとして設定されるようにしても良い。

また誤差Ｅの最大値ではなく、誤差Ｅの中央値や、誤差Ｅの平均値が用いられ、最も精度良く算出された外部パラメータが算出されるようにしても良い。

また、誤差Ｅの最大値、中央値、または平均値を用いる場合、外れ値を除外するために、予め閾値処理で、誤差が大きい特徴点を除く処理が行われるようにしても良い。例えば、図１１の時刻Ｔ１において、誤差Ｅ１ｉ乃至誤差Ｅ１ｏが算出されるが、この誤差Ｅ１ｉ乃至誤差Ｅ１ｏのうち、例えば誤差Ｅ１ｏが閾値以上である場合、誤差Ｅ１ｏを除いた誤差Ｅ１ｉ乃至誤差Ｅ１ｎが用いられ、最大値、中央値、または平均値が算出されるようにしても良い。

また、上記した文献１に基づく処理（特徴点を算出する処理）によれば、各特徴点の信頼度も付加情報として算出することができる。この信頼度を加味して外部パラメータが算出されるようにしても良い。人を撮像し、特徴点を検出する場合、人の姿勢や人に対する撮像装置の位置や角度により、検出される特徴点の信頼度は異なる。

例えば、図９に示したように、正面から撮像したときの右目の位置の特徴点nの信頼度は高いが、背面から撮像したときの右目の位置の特徴点ｎ’は、仮に検出された場合でも信頼度は低い。

例えば、信頼度の高い特徴点の上位８組の対応点を用いて外部パラメータを求めるようにしても良い。また、上記した外部パラメータの精度を向上させる処理を実行する場合、信頼度が所定の閾値以上の特徴点だけを用いて処理が実行されるようにしても良い。すなわち、信頼度が所定の閾値以上の特徴点のうち８組の対応点が用いられて外部パラメータが求められ、その外部パラメータを算出した８組の対応点以外の対応点であり、信頼度が所定の閾値以上の特徴点からなる対応点が用いられて誤差Ｅが算出されるようにしても良い。

また、信頼度を重み付けとして用いるようにしても良い。例えば、外部パラメータの精度を向上させる処理において、誤差Ｅの合計値を算出し、比較するようにした場合、合計値を算出する際に信頼度が高い特徴点から算出された誤差Ｅは、重み付けを重くし、信頼度が低い特徴点から算出された誤差Ｅは、重み付けを低くして合計値を算出するようにしても良い。すなわち、信頼度が高い特徴点を用いた計算において算出された誤差Ｅは、誤差Ｅ自体も信頼度が高く、信頼度が低い特徴点を用いた計算において算出された誤差Ｅは、誤差Ｅ自体も信頼度が低いとして扱われるようにし、誤差Ｅの合計値が算出されるようにしても良い。

信頼度を用いた計算を行うことで、外部パラメータの信頼度、すなわち精度を向上させることができる。

ステップＳ１０５（図６）において、位置検出部１２５（図５）により算出された位置情報（外部パラメータ）は、位置統合部１２６に供給される。ステップＳ１０６において、位置統合部１２６は、位置情報を統合する。

このような処理が行われるのと並行して、位置追跡部１２７における処理も実行される。画像入力部１２１に入力された画像は、位置追跡部１２７にも供給され、位置追跡部１２７による処理も、人検出部１２２乃至位置検出部１２５において実行されるステップＳ１０２乃至Ｓ１０５の処理と並行して行われる。

ステップＳ１０７乃至Ｓ１１２の処理は、基本的に、位置追跡部１２７において実行される処理である。位置追跡部１２７－１と位置追跡部１２７－２において実行される処理は、扱う画像データが異なるだけで処理としては同一であるため、位置追跡部１２７の処理として説明を続ける。

ステップＳ１０７において、位置追跡部１２７は、全ての撮像装置１１は静止しているか否かを判定する。ここでは、撮像装置１１は２台である場合を例に挙げて説明しているため、２台の撮像装置１１が静止している状態であるか否かが判定される。

ステップＳ１０７においては、２台の撮像装置がともに静止している状態であるか否かが判定されるため、２台とも動いている場合や１台が動いている場合には、ステップＳ１０７においてはＮＯと判定される。ステップＳ１０７において、２台の撮像装置１１は静止している状態であると判定された場合、ステップＳ１０８に処理が進められる。

ステップＳ１０８において、位置追跡部１２７における位置情報の追跡は初期化される。この場合、２台の撮像装置１１の１台または２台が動いている状態である場合には、位置追跡部１２７において実行されている撮像装置１１の位置情報の追跡（位置情報の検出）が初期化される。

位置追跡部１２７は、ＳＬＡＭなどと称される自己位置推定の技術を適用して撮像装置１１の移動量を推定し、位置を推定する。ＳＬＡＭは、各種センサから取得した情報から、自己位置推定と地図作成を同時に行う技術であり、自律移動ロボットなどに利用されている技術である。位置追跡部１２７は、自己位置推定を行えれば良く、ＳＬＡＭを適用して自己位置推定を行う場合、地図作成は行わなくても良い。

位置追跡部１２７の自己位置推定に関する処理の一例を説明する。位置追跡部１２７は、撮像装置１１で撮像された画像内から特徴点を抽出し、その特徴点と一致する前フレームの画像から抽出された特徴点を探索し、特徴点の対応ペアを生成する。特徴点として抽出されるのは、不動体である被写体からの特徴点であることが好ましく、例えば、建物、木、道路の白線などである。

この場合も特徴点が抽出されるとして説明を続けるが、点ではなく、領域であっても良い。例えば、画像内からエッジの部分を抽出し、そのエッジがある領域を特徴がある領域として抽出し、後段の処理に用いられるようにしても良い。

またここでは、１フレーム前の画像から抽出された特徴点と現フレームの画像から抽出された特徴点が比較される場合を例に挙げて説明を続けるが、１フレーム前ではなく、数フレーム前と現フレームとが比較される場合にも本技術を適用できる。また、フレーム（画像）が取得されるタイミングは、一般的なタイミング、例えば１秒間に３０フレームなどのタイミングであってももちろん良いが、他のタイミングであっても良い。

特徴点が検出されると、特徴点の対応ペアが用いられて、自己の位置、この場合、撮像装置１１の位置が推定される。この推定結果は、撮像装置１１の位置情報、姿勢などである。特徴点の対応ペアが用いられ、１フレーム前の特徴点が、現フレーム内では、どの位置に撮影されているかを予測することで、移動方向が推定される。

位置追跡部１２７は、このような処理をフレーム（画像）が供給される毎に行うことで、撮像装置１１の位置情報を推定し続ける。このように、画像内の特徴点の相対的な移動量から、撮像装置１１自身の移動量を算出する場合、撮像装置１１の相対位置を時間方向に積分していくことになり、誤差が発生すると、その誤差も蓄積されてしまう可能性がある。

誤差が蓄積されないように、所定のタイミングで初期化が行われるようにする。また、初期化が行われた場合、追跡していた撮像装置１１の位置情報が失われるため、撮像装置１１の最初の位置情報は、位置検出部１２５から供給されるようにする。

この初期化のタイミングとして、ステップＳ１０７（図６）において、全ての撮像装置１１は、静止しているか否かが判定され、静止していると判定された場合、ステップＳ１０８に処理が進められ、追跡の初期化が行われる。

複数の撮像装置１１があり、それら複数の撮像装置１１が静止している状態のときには、ステップＳ１０２乃至Ｓ１０５において実行される位置検出、換言すれば、位置検出部１２５により検出される位置情報が、優先的に用いられるようにする。撮像装置１１が静止している状態のときには、位置検出部１２５における位置情報の検出精度は高いと考えられ、そのようなときには、位置検出部１２５により検出される位置情報が、優先的に用いられるようにする。

ステップＳ１０７において、撮像装置１１が静止しているか否かが判定されるが、このことを換言すれば、撮像装置１１が動いているか否かが判定されることになる。撮像装置１１が動いているとは、物理的に移動していることである。また、撮像装置１１において、ズーム機能が実行されているときも、撮像装置１１が動いている場合に含まれるとする。

ズーム機能が実行されているときには、位置追跡部１２７における撮像装置１１の位置推定の精度が落ちる可能性がある。例えば、撮像装置１１で所定の建物Ａを撮像している場合を考える。建物Ａに対して、撮像装置１１が近づく方向で移動した場合、撮像装置１１で撮像されている画像内で、建物Ａが占める割合は大きくなる。すなわち、撮像装置１１が建物Ａに近づくことで、建物Ａが大きく撮像されることになる。

一方、撮像装置１１が、静止している状態で建物Ａを撮像しているときにズーム機能が実行された場合も同様に、撮像装置１１で撮像されている画像内で、建物Ａが占める割合は大きくなる。すなわち、撮像装置１１がズーム機能を実行することで、撮像装置１１が建物Ａに近づく場合と同じく、建物Ａが大きく撮像されることになる。このように、画像内で建物Ａが撮像されている領域が拡大するような場合、その拡大が、撮像装置１１が移動することによるものか、ズーム機能によるものかは、画像だけから判断するのは困難である。

このようなことから、撮像装置１１がズーム中のときの位置追跡部１２７による追跡結果は、信頼度が低いものとなってしまう。このようなことに対応するために、位置統合部１２６において、ズームが実行されたときは、位置追跡部１２７による自己位置推定の結果は用いられないようにする。

ステップＳ１０７において、撮像装置１１が動いていると判断されるのは、物理的に移動しているときと、ズーム機能が実行されているときである。本技術によれば、撮像装置１１がズーム機能を実行しているために、位置追跡部１２７による自己位置推定の精度が低下していても、その自己位置推定結果を用いずに、位置検出部１２５により検出される位置情報を用いることにより、撮像装置１１の位置を特定することができる。

位置検出部１２５は、上記したように、人の身体的な特徴点を検出し、その特徴点を用いて撮像装置１１の位置情報を検出する。撮像装置１１がズーム中であっても、ズームによる画角の変化がわかっていれば、位置検出部１２５による位置情報の検出はできる。一般的に撮像装置１１のズームは、撮像装置１１の撮影タイミングとは非同期で動作するため、ズーム中の画角を正確に決定するのは困難である。

しかしながら、ズームスピードから、おおよその値は推定できる。ズーム中は、撮像装置１１の位置の検出精度は低下する可能性があるが、ズーム中でも、位置検出部１２５による位置情報の検出を継続して行うことができる。また、ズーム中に位置情報の検出精度が低下したとしても、ズーム終了後に、位置情報の検出精度を元に戻すこことは可能である。

本技術によれば、位置検出部１２５により検出される位置情報と、位置追跡部１２７により検出される位置情報がある。撮像装置１１がズーム機能を実行しているときには、位置検出部１２５により検出される位置情報を用い、位置検出部１２５により検出される位置情報を用いないようにすることができる。

また、撮像装置１１がズーム機能を実行していないときには、位置検出部１２５により検出される位置情報と、位置追跡部１２７により検出される位置情報の両方が用いられるようにすることができる。

また撮像装置１１が静止しているときには、位置検出部１２５により検出される位置情報が、位置追跡部１２７により検出される位置情報よりも優先して用いられるようにし、そのときに、位置追跡部１２７による位置追跡が初期化され、誤差が解消されるようにすることができる。

このような処理が行われる場合について、図６のフローチャートを参照した説明に戻り説明を続ける。ステップＳ１０７において、全ての撮像装置１１は、静止しているか否かが判定される。複数台の撮像装置１１のうち、１台でも動いていると判定された場合、ステップＳ１０９に処理が進められる。

撮像装置１１が物理的に動いているか否かは、位置追跡部１２７により検出することができる。図５では、矢印を記載していないが、位置追跡部１２７同士で、撮像装置１１が移動しているか否かの判定結果を授受できるように構成されている。

ステップＳ１０９において、位置追跡部１２７は、位置情報の追跡を継続して行う。すなわちこの場合、撮像装置１１が動いているときには、位置追跡部１２７による位置追跡が継続して行われる。

ステップＳ１１０において、全ての撮像装置１１は、静止しているか否かが判定される。このステップＳ１１０における判定は、ステップＳ１０７における判定と同一である。ステップＳ１１０の処理には、ステップＳ１０７において、撮像装置１１のうち動いている撮像装置１１があると判定された場合、またはステップＳ１０３において、同一人物はいないと判定されたときにくる。

ステップＳ１０７において、動いている撮像装置１１があると判定され、ステップＳ１１０に処理が来た場合、ステップＳ１１０においても、動いている撮像装置１１があると判定され、処理は、ステップＳ１１１に進められる。ステップＳ１１１において、位置追跡部１２７における追跡結果の位置情報が、位置統合部１２６に出力される。

一方で、ステップＳ１０３において、同一人物はいないと判定され、ステップＳ１１０に処理が来た場合、位置検出部１２５による位置情報の検出ができない状態のときである。このような場合に、ステップＳ１１０において、動いている撮像装置１１があると判定された場合、ステップＳ１１１に進められ、位置追跡部１２７における追跡結果の位置情報が、位置統合部１２６に出力される。

一方で、ステップＳ１１０において、複数台の撮像装置１１の全てが静止していると判定された場合、ステップＳ１１２に処理が進められる。ステップＳ１１２において、前回と同一の位置情報が、位置追跡部１２７から位置統合部１２６に出力される。

この場合、位置検出部１２５による位置情報の検出ができない状態であり、位置追跡部１２７による位置情報が初期化された場合である。撮像装置１１が動いていないため、撮像装置１１の位置情報の変化はないため、位置追跡部１２７により前回検出されていた位置情報、換言すれば初期化が行われる直前の位置情報が、位置統合部１２６に出力される。

ここでは、ステップＳ１１２においては、前回の検出結果が出力されるとして説明を続けるが、位置情報を出力しないようにしても良い。上記したように、撮像装置１１の位置情報に変化がないため、出力しなくても、位置統合部１２６は、前回と同一の情報を用いることができる。換言すれば、位置統合部１２６は、位置情報を保持しておき、位置検出部１２５や位置追跡部１２７からの位置情報が入力されないときには、保持している位置情報を用いることができる。

位置統合部１２６は、ステップＳ１０６において、位置検出部１２５と位置追跡部１２７からそれぞれ出力された位置情報を統合することで、撮像装置１１の位置を特定する。

この統合には、図１０を参照して説明したように、３台以上の撮像装置１１が処理対象とされていた場合、基準となる撮像装置１１を設定し、その基準となる撮像装置１１に対する他の撮像装置１１の位置情報を特定していくことで、複数台の撮像装置１１の位置情報を統合する処理が含まれる。この統合は、位置検出部１２５が複数ある場合であり、その複数の位置検出部１２５からの位置情報を統合する場合である。

また、図５に示した情報処理装置１２ａの構成のように、位置検出部１２５、位置追跡部１２７－１、および位置追跡部１２７－２があるような構成の場合、これらの部分から出力される位置情報を統合する処理もある。

ステップＳ１０６には、ステップＳ１０５において位置検出部１２５によりパラメータが算出され、ステップＳ１１１において、位置追跡部１２７により位置情報が出力された場合に来る（ケース１とする）。

また、ステップＳ１０６には、ステップＳ１０５において位置検出部１２５によりパラメータが算出され、ステップＳ１１２において、位置追跡部１２７により前回と同一の位置情報が出力された場合（ステップＳ１０８において初期化された場合）に来る（ケース２とする）。

また、ステップＳ１０６には、ステップＳ１０３において、同一人物が検出されなかった場合であり、ステップＳ１１１において、位置追跡部１２７により位置情報が出力された場合に来る（ケース３とする）。

また、ステップＳ１０６には、ステップＳ１０３において、同一人物が検出されなかった場合であり、ステップＳ１１２において、位置追跡部１２７により前回と同一の位置情報が出力された場合（ステップＳ１０８において初期化された場合）に来る（ケース４とする）。

位置統合部１２６は、これらケース１乃至４に応じて、位置情報を選択したり、統合したりする。基本的な動作としては、ケース１やケース２の場合のように、ステップＳ１０５までの処理が実行されることで、位置検出部１２５により撮像装置１１－１と撮像装置１１－２の相対的な位置（外部パラメータ）が算出されたときには、その位置検出部１２５により検出された位置情報が、位置統合部１２６により選択され、出力される。すなわち、位置検出部１２５により位置情報が検出されたときには、検出された他の位置情報よりも優先的に、位置検出部１２５により検出された位置情報が出力される。

より具体的にはケース１の場合、位置統合部１２６には、位置追跡部１２７－１から撮像装置１１－１の位置情報が供給され、位置追跡部１２７－２から撮像装置１１－２の位置情報が供給され、位置検出部１２５から撮像装置１１－１と撮像装置１１－２の相対的な位置に関する位置情報が供給される状況である。

このような状況の場合、位置統合部１２６は、位置追跡部１２７－１からの位置情報、位置追跡部１２７－２からの位置情報、および位置検出部１２５からの位置情報を、後述するような重み付けの処理などを実行して統合し、出力する。

ケース２の場合、位置統合部１２６には、位置追跡部１２７－１から撮像装置１１－１の前回の位置情報が供給され、位置追跡部１２７－２から撮像装置１１－２の前回の位置情報が供給され、位置検出部１２５から撮像装置１１－１と撮像装置１１－２の相対的な位置に関する位置情報が供給される状況である。

ケース２の場合、位置追跡部１２７－１からの位置情報と位置追跡部１２７－２からの位置情報は、前回の位置情報であるため、統合せずに位置検出部１２５からの位置情報のみが選択され、出力されるようにしても良い。

ステップＳ１１２において、位置情報を出力しないという処理を実行するように構成することも可能である。このように構成されている場合、位置統合部１２６には、位置検出部１２５からの位置情報のみが供給される状態であるため、位置検出部１２５からの位置情報が出力される。

ケース３の場合、位置統合部１２６には、位置追跡部１２７－１から撮像装置１１－１の位置情報が供給され、位置追跡部１２７－２から撮像装置１１－２の位置情報が供給され、位置検出部１２５からの位置情報は供給されない状況である。

このような状況の場合、位置統合部１２６は、位置追跡部１２７－１からの位置情報と位置追跡部１２７－２からの位置情報を統合して出力する。

ケース４の場合、位置統合部１２６には、位置追跡部１２７－１から撮像装置１１－１の前回の位置情報が供給され、位置追跡部１２７－２から撮像装置１１－２の前回の位置情報が供給され、位置検出部１２５からの位置情報は供給されない状況である。

またはケース４の場合、位置追跡部１２７－１からの位置情報と位置追跡部１２７－２からの位置情報は、前回の位置情報であるため、統合せずに前回の出力結果と同一の位置情報が出力されるようにしても良い。

また、ステップＳ１１２において、位置情報を出力しないという処理を実行するように構成することも可能である。このように構成されている場合、位置統合部１２６には、位置追跡部１２７－１、位置追跡部１２７－２、および位置検出部１２５のいずれからも位置情報が供給されない状況となる。このような状況の場合、位置統合部１２６に保持されている前回の位置情報が出力される。

ケース１乃至ケース４のいずれのケースの場合であっても、撮像装置１１でズーム機能が実行されていると判定されたときには、位置追跡部１２７からの位置情報は用いないように制御される。すなわち、ズームが実行されていると位置統合部１２６が判定した場合、位置追跡部１２７からの位置情報が供給されても、その供給された位置情報は用いずに統合の処理が実行される。

このように、本技術によれば、位置検出部１２５と位置追跡部１２７で、異なる方式で位置情報を検出し、状況に応じて、精度が高いとされる位置情報を選択して出力することができる。

すなわち、位置検出部１２５は、人を撮像し、人の身体的な特徴点を検出し、その検出された特徴点を用いて撮像装置１１の位置関係を検出するため、人が撮像されていないときには、位置情報の検出が正常に行えない。このようなときでも、自己位置推定を行う位置追跡部１２７による位置情報の検出は行えるため、位置追跡部１２７による検出結果を用いることができる。

また、位置追跡部１２７は、時間経過とともに誤差が蓄積される可能性があったり、ズーム機能が実行されると、位置情報の検出が正常に行えなかったりする。このようなときでも、位置検出部１２５による位置情報の検出は行えるため、位置検出部１２５による検出結果を用いることができる。

上記した処理において、位置検出部１２５により検出される位置の精度を向上させるために、時間方向に平滑化する処理が含まれるようにしても良い。平滑化について説明するために、再度図１０を参照する。図１０に示したように、３台の撮像装置１１－１乃至１１－３で人を撮影し、撮影された画像から人の身体的特徴となる特徴点を検出し、その特徴点を用いて、撮像装置１１－１乃至１１－３の位置情報を特定する。ここで、３台の撮像装置１１－１乃至１１－３で、同一人物が同時刻に撮影されていれば、位置検出部１２５の処理で、撮像装置１１－１乃至１１－３のそれぞれの位置情報を特定できる。

しかしながら、撮像装置１１－１乃至１１－３で、同一人物が同時刻に撮影されていない可能性もある。例えば時刻ｔにおいて、撮像装置１１－１と撮像装置１１－２では人Ａを撮影していたが、撮像装置１１－３では人Ａを撮影していなかったような状況が発生する可能性がある。このような状況の場合、撮像装置１１－３で撮影された画像からは特徴点が検出されず、撮像装置１１－１で撮影された画像から検出された特徴点との対応点を求めることができない。

このような状況が発生したときに時刻ｔではない時刻において検出された特徴点を用いて位置情報が算出される。人は、動くため、所定の時刻ｔにおいては撮像装置１１－３により撮影されていなくても、他の時刻では、撮像装置１１－３でも撮影されている可能性が高い。

よって、時刻ｔにおいて、撮像装置１１－３からの画像から特徴点が検出できなかった場合、その前の時点で撮影できていたときに得られた画像から検出された特徴点や、その後の時点で撮影できるようになったときに得られた画像から検出された特徴点を用いて撮像装置１１－３の位置情報が算出されるようにする。

位置検出部１２５の後段であり、位置統合部１２６の前の部分に位置平滑化部を設ける。そして位置平滑部は、位置検出部１２５で最新の時刻ｔでの位置情報が取得できたときには、その位置情報を用い、位置情報が取得できなかったときには、１つ前の時刻ｔ－１の結果を蓄積しておき、その蓄積している結果を用いる。

このような処理が位置平滑化部により行われることで、複数台の撮像装置１１の全てにおいて視野に重なりがある状態で設置されていなくても、換言すれば、同時刻に同一人物を撮影できる位置に複数台の撮像装置１１の全てが設置されていなくても、撮像装置１１の相対的な位置を算出することができる。

換言すれば、基準となる撮像装置１１と視野が重なるように配置されていれば、基準とされていない撮像装置１１同士で重なる視野がない状態で配置されていても、人が動き回ることにより、複数台の撮像装置１１のそれぞれの位置情報を算出することができる。

このように時間方向に平滑化する処理を行うようにしても良い。時間方向に平滑化することで、より位置検出の精度を向上させることができる。

上記した処理において、位置統合部１２６に、位置追跡部１２７－１から撮像装置１１－１の位置情報が供給され、位置追跡部１２７－２から撮像装置１１－２の位置情報が供給され、位置検出部１２５からも位置情報が供給された場合、これらの位置情報に重み付けを行った統合を行い、統合後の最終的な位置情報（特定された位置）が、出力されるようにすることができる。

重み付けを行う場合に、重み付けに用いる係数は、固定値であっても良いし、可変値であっても良い。可変値とした場合について説明を加える。

位置検出部１２５による位置検出は、特徴点検出部１２４により人の身体的な特徴点が検出され、その検出された特徴点が用いられて行われる。また位置追跡部１２７による位置情報の検出は、建物や木といった特徴がある箇所から特徴点が検出され、その特徴点の移動方向が推測されることで行われる。このように、位置検出部１２５と位置追跡部１２７は、ともに特徴点を用いた処理を行う。

位置検出部１２５と位置追跡部１２７は、特徴点の数が多いほど高精度に位置情報を検出できる。そこで重み付けの係数は、特徴点の数に応じた係数とすることができる。

人の身体的な特徴点を用いた撮像装置１１の位置情報の検出方法は、撮像された人の数が多くない場合や人全体が映っていない場合などで特徴点が少なくなる可能性があり、位置情報の検出精度が低くなってしまう可能性がある。

また、撮像装置１１の自己位置追跡は、映像内の特徴点が多い方が安定して検出できる。そこで、位置検出部１２５の出力と位置追跡部１２７の出力が、位置統合部１２６に入力された場合、両者の出力を統合し、その統合を行うとき、特徴点の数に応じて設定される係数が用いられて重み付けが行われるようにする。

具体的には、信頼度を計算し、その信頼度に応じた重み付け係数が設定される。例えば、位置検出部１２５は、人の身体的な特徴量が多く求められている方が高精度だが、人の姿勢や映り方によって求めるべき全ての身体的な特徴点が検出されているわけではない。そこで、全ての身体的な特徴点の個数をＪmax、検出された身体的な特徴点の個数をＪdetとすると、信頼度Ｒｊは次式（６）で決定される。

Ｒj＝Ｊdet／Ｊmax・・・（６）

位置追跡部１２７の信頼度Ｒｓは次のようにして求める。撮像装置１１で撮像された映像内で求められた全ての特徴点をＴmax、そのうち撮像装置１１の位置情報の推定に用いられた正しい特徴点の数をＴdetとすると信頼度Ｒｓは次式（７）のようになる。

Ｒｓ＝Ｔdet／Ｔmax・・・（７）

この信頼度Ｒjと信頼度Ｒｓは、それぞれ０から１までの数値となる。これを用いて、重み付けの係数αを、次式（８）のように定義する。

α＝Ｒｊ/（Ｒｊ＋Ｒｓ) ・・・（８）

位置検出部１２５からの出力を出力Ｐｊとし、位置追跡部１２７からの出力を出力Ｐｓとする。出力Ｐjと出力Ｐsはそれぞれｘ，ｙ，ｚ位置情報を表す３つの値を持つベクトルである。これらから重み係数αを用いて、出力値Ｐoutを次式（９）で算出する。

Ｐout＝α×Ｐj＋（１－α）×Ｐs ・・・（９）

このようにして統合された出力値Ｐoutが、位置統合部１２６からの出力として、後段の処理部（不図示）に出力される。

撮像装置１１が静止しているときは、人物の身体的な特徴量による撮像装置１１の位置情報の検出において時間方向に平滑化することで、位置情報の検出精度を向上させることができる。また、撮像装置１１が移動を始めると、移動する直前の撮像装置１１の位置情報を初期値として位置追跡部１２７が追跡を始めるようにすることができる。

また位置追跡部１２７は、時間の経過とともに誤差が蓄積されることがあるが、位置検出部１２５の情報を加味することで誤差の増加を抑えることができる。また、ズーム時は、位置追跡部１２７による位置情報の検出精度が低下するため、検出される位置情報を用いないようにすることができる。その間も、位置検出部１２５の情報が得られるため、位置情報を途切れることがないようにすることができ、また精度を維持した位置情報の検出を継続して行うことができる。

＜第２の実施の形態＞
次に、第２の実施の形態における情報処理装置１２ｂについて説明する。図１２は、第２の実施の形態における情報処理装置１２ｂの構成を示す図である。図１２に示した情報処理装置１２ｂの構成は、図５に示した第１の実施の形態における情報処理装置１２ａと同じく、２台の撮像装置１１－１と撮像装置１１－２からの画像を処理する場合の構成を示している。図６に示した第１の実施の形態における情報処理装置１２ａと同じ部分には、同一の符号を付し適宜説明は省略する。

第１の実施の形態においては、例えば、ＳＬＡＭなどと称される画像解析を行うことで自己位置の推定を行う技術を適用した場合を例に挙げて説明した。第２の実施の形態においては、慣性計測装置（ＩＭＵ：Inertial Measurement Unit）からの計測結果を用いて、自己位置を推定する点が、第１の実施の形態と異なる。

図１２を参照するに、情報処理装置１２ｂにおいて、人の身体的な特徴点を用いて撮像装置１１の位置情報を特定する部分は、第１の実施の形態における情報処理装置１２ａと同様の構成である。すなわち、情報処理装置１２ｂは、画像入力部１２１、人検出部１２２、同一人物判定部１２３、特徴点検出部１２４、および位置検出部１２５を備える。

情報処理装置１２ｂは、撮像装置１１側から慣性計測装置により計測された結果を入力する計測結果入力部２０１を備え、その計測結果入力部２０１に入力された計測結果を用いて、撮像装置１１の位置情報を検出する位置追跡部２０２を備える。

位置統合部２０３は、位置検出部１２５、位置追跡部２０２－１、および位置追跡部２０２－２から、それぞれ位置情報の供給をうけ、それらの位置情報を用いて、最終的な位置情報を生成し（位置を特定し）、後段の処理部（不図示）に出力する。

慣性計測装置は、３軸のジャイロと３方向の加速度計によって、３次元の角速度と加速度が求める装置である。また圧力計、流量計、ＧＰＳ（Global Positioning System）などのセンサが搭載されていても良い。このような慣性計測装置を撮像装置１１に装着し、情報処理装置１２ｂは、慣性計測装置からの計測結果を取得できるようにする。慣性計測装置を撮像装置１１に装着することで、撮像装置１１のどの方向に、どの程度移動したかといった移動情報を得ることができる。

情報処理装置１２ｂは、慣性計測装置で計測された撮像装置１１のＸ，Ｙ，Ｚ軸方向のそれぞれの加速度や傾きの情報を得ることができる。位置追跡部２０２は、撮像装置１１の加速度から、撮像装置１１の速度を算出し、算出された速度と経過時間から撮像装置１１の移動距離を算出することができる。このような技術を用いることで、撮像装置１１の移動時の位置変化を捉えることができる。

このように、慣性計測装置で計測される結果を用いて撮像装置１１の移動方向や距離を求める場合、相対的な移動量が求められるため、初期位置情報を与える必要がある。初期位置情報は、位置検出部１２５により検出される位置情報とすることができる。

慣性計測装置の計測結果を用いて撮像装置１１の位置情報を求める場合、第１の実施の形態の場合と異なり、撮像装置１１のズーム機能が実行されているか否かに係わらず、撮像装置１１の移動量を求めることができる。そこで、第２の実施の形態においては、撮像装置１１が移動しているときには、位置検出部１２５と位置追跡部２０２の両方の出力を用い、移動していないときには、位置検出部１２５からの出力が優先的に用いられるようにする。

図１３のフローチャートを参照し、図１２に示した情報処理装置１２ｂの動作について説明する。

ステップＳ２０１乃至Ｓ２０６の処理は、位置検出部１２５が撮像装置１１の位置情報を検出するための処理であり、第１の実施の形態と同じ処理である。ステップＳ２０１乃至Ｓ２０６の処理は、ステップＳ１０１乃至Ｓ１０６（図６）と同様の処理であり、既に説明したので、ここではその説明を省略する。

ステップＳ２０７において、計測結果入力部２０１は、撮像装置１１に装着されている慣性計測装置からの計測結果を入力する。計測結果入力部２０１－１は、撮像装置１１－１に装着されている慣性計測装置からの計測結果を入力し、計測結果入力部２０１－２は、撮像装置１１－２に装着されている慣性計測装置からの計測結果を入力する。

ステップＳ２０８において、位置追跡部２０２は、計測結果を用いて撮像装置１１の位置情報を検出する。位置追跡部２０２－１は、撮像装置１１－１により撮像された画像を解析することで、撮像装置１１－１の位置情報を検出する。また、位置追跡部２０２－２は、撮像装置１１－２により撮像された画像を解析することで、撮像装置１１－２の位置情報を検出する。位置追跡部２０２－１と位置追跡部２０２－２でそれぞれ検出された位置情報は、位置統合部２０３に供給される。

ステップＳ２０６において、位置統合部２０３により、位置情報の統合が行われる。ステップＳ２０６における位置統合部２０３の処理について説明する。

ステップＳ２０６には、ステップＳ２０８において位置検出部１２５によりパラメータが算出され、ステップＳ２０８において、位置追跡部２０２により位置情報が出力された場合に来る（ケース１とする）。

また、ステップＳ２０６には、ステップＳ２０３において、同一人物が検出されなかった場合であり、ステップＳ２０８において、位置追跡部２０２により位置情報が出力された場合に来る（ケース２とする）。

位置統合部１２６は、ケース１またはケース２に応じて、位置情報を選択したり、統合したりする。ケース１の場合、位置統合部１２６には、位置追跡部２０２－１から撮像装置１１－１の位置情報が供給され、位置追跡部２０２－２から撮像装置１１－２の位置情報が供給され、位置検出部１２５から撮像装置１１－１と撮像装置１１－２の相対的な位置の位置情報が供給される。このような状況の場合、位置統合部１２６は、位置追跡部２０２－１からの位置情報、位置追跡部２０２－２からの位置情報、および位置検出部１２５から撮像装置１１－１と撮像装置１１－２の位置情報を統合し、出力する。

この統合は、第１の実施の形態のところで説明したように、重み付けが行われた計算が行われることで行われる。位置追跡部２０２からの位置情報の信頼度は、常に１として計算される。位置追跡部２０２からの位置情報の信頼度は、上記した信頼度Ｒｓに該当し、この信頼度Ｒｓ＝１として、式（８）と式（９）に基づく演算が行われる。

ケース２の場合、位置統合部１２６には、位置追跡部２０２－１から撮像装置１１－１の位置情報が供給され、位置追跡部２０２－２から撮像装置１１－２の位置情報が供給され、位置検出部１２５からの位置情報は供給されない。このような状況の場合、位置統合部１２６は、位置追跡部２０２－１からの位置情報と位置追跡部２０２－２からの位置情報を統合して出力する。

このように、本技術によれば、位置検出部１２５と位置追跡部２０２で、異なる方式で位置情報を検出し、状況に応じて、精度が高いとされる位置情報を選択して出力することができる。

すなわち、位置検出部１２５は、人を撮像し、人の身体的な特徴点を検出し、その検出された特徴点を用いて撮像装置１１の位置関係を検出するため、人が撮像されていないときには、位置情報の検出が正常に行えない。このようなときでも、自己位置推定を行う位置追跡部２０２による位置情報の検出は行えるため、位置追跡部２０２による検出結果を用いることができる。

＜第３の実施の形態＞
次に、第３の実施の形態における情報処理装置１２ｃについて説明する。

第１の実施の形態のおける情報処理装置１２ａまたは第２の実施の形態における情報処理装置１２ｂによると、撮像装置１１が動いていても、撮像装置１１の相対的な位置や光軸の向きを検出することができる。複数台の撮像装置１１のそれぞれが動いた場合、複数台の撮像装置１１の相対的な位置関係は、上記した実施の形態により検出し続けることはできるが、撮像装置１１が存在する実空間においては、どこに撮像装置１１が位置するのか検出できなくなってしまう可能性がある。

そこで、複数台の撮像装置１１のうち、少なくとも１台は実空間において固定し、その固定されている撮像装置１１を基準として、他の撮像装置１１の位置情報を検出する。固定された撮像装置１１の位置情報や光軸の向きを、予め初期位置情報として取得しておき、その初期位置情報を基準として他の撮像装置１１の位置情報を検出することで、撮像装置１１が存在する空間内での任意の撮像装置１１の位置情報を検出することができる。

第１の実施の形態や第２の実施の形態と比較し、第３の実施の形態は、実空間において固定された撮像装置１１を基準として他の撮像装置１１の位置情報を検出する点が異なる。

第３の実施の形態は、第１の実施の形態と組み合わせることができ、第１の実施の形態と組み合わせた場合、情報処理装置１２ｃの構成は、第１の実施の形態における情報処理装置１２ａ（図５）と同様の構成とすることができる。

また、第３の実施の形態における情報処理装置１２ｃの動作は、第１の実施の形態における情報処理装置１２ａの動作（図６に示したフローチャートを参照して説明した動作）と同様の動作とすることができる。

ただし、位置検出部１２５が撮像装置１１の位置情報を検出するとき、基準となる撮像装置１１は、固定されている撮像装置１１とされる。例えば、第１の実施の形態の説明においては、基準となる撮像装置１１は、撮像装置１１－１であるとして説明したため、この撮像装置１１－１が、固定されている撮像装置１１であるとして処理が行われれば良い。

第３の実施の形態は、第２の実施の形態と組み合わせることができ、第２の実施の形態と組み合わせた場合、情報処理装置１２ｃの構成は、第２の実施の形態における情報処理装置１２ｂ（図１２）と同様の構成とすることができる。

また、第３の実施の形態における情報処理装置１２ｃの動作は、第２の実施の形態における情報処理装置１２ｂの動作（図１３に示したフローチャートを参照して説明した動作）と同様の動作とすることができる。

ただし、位置検出部１２５が撮像装置１１の位置情報を検出するとき、基準となる撮像装置１１は、固定されている撮像装置１１とされる。この場合も、基準となる撮像装置１１を、撮像装置１１－１であるとした場合、この撮像装置１１－１が、固定されている撮像装置１１であるとして処理が行われれば良い。

このように、実空間において固定されている撮像装置１１を基準として処理を行う場合、固定されている撮像装置１１は、予め手動で設定されているようにしても良いし、検出されるようにしても良い。検出される場合、撮像装置１１の手振れ補正に用いられている技術を適用して検出することができる。

複数台の撮像装置１１のなかから固定されている撮像装置１１を検出する方法としては、撮像装置１１で撮像された画像を複数の小領域に分割し、前後の時間での小領域の移動量をマッチング等の方法により求める。撮像装置の視野の大部分が、静止している背景である場合、前後の時間での小領域の移動量は０となる。一方で、撮像装置１１が移動していたり、ズーム機能を実行していたりした場合、撮像されている背景も移動するため、前後の時間での小領域の移動量はある値を有する。

複数台の撮像装置１１から得られる複数の画像をそれぞれ処理し、前後の時間での小領域の移動量が０となる画像があった場合、その画像を撮像した撮像装置１１を、固定されている撮像装置１１であるとして検出する。

このようにして固定されている撮像装置１１が検出された後は、その撮像装置１１の位置を基準の位置として、他の撮像装置１１の位置情報が検出される。

固定された撮像装置１１であっても、旋回といった動きがあっても良いし、ズーム機能が実行されても良い。固定された撮像装置１１が、旋回やズーム機能を実行した場合であっても、上記した処理において、固定された撮像装置１１として扱うことができる。

一般的に、撮像装置１１の旋回やズーム機能は、撮像装置１１自体が制御を行い、その旋回角度やズームの再現性はあるので、旋回やズームをしても、初期位置に戻ってくる（初期位置を算出して、設定する）ことができる。

また、その場合でも、撮像装置１１の位置は変わらない、換言すれば、撮像装置１１は初期位置で旋回やズームを行っているだけであり、初期位置から離れていない。すなわち、撮像装置１１の存在している空間内での位置が旋回やズームにより変化することはない。よって、固定されている撮像装置１１においても、旋回やズームといった動きは制限されることなく行うことが可能である。

本技術によれば、複数台の撮像装置に映っている人の身体的な特徴点を用いた撮像装置の位置推定を行うことができる。また、そのような位置推定と、撮像装置自身の位置追跡技術を併用することができる。

よって、撮像装置で人が撮影されない状態であっても、位置追跡技術により位置情報を検出し続けることができる。また、位置追跡技術による位置の検出に誤差が生じるようなときには、人の身体的な特徴点を用いた位置推定により、リセットをかけることが可能となる。

また本技術によれば、複数台の撮像装置が動いているような状況であっても、その動きを追従しながら位置情報の検出を行うことが可能となる。

＜記録媒体について＞
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例は、図３に示した情報処理装置１２とすることができる。情報処理装置１２（パーソナルコンピュータ）では、ＣＰＵ６１が、例えば、記憶部６８に記憶されているプログラムを、入出力インタフェース６５およびバス６４を介して、ＲＡＭ６３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ６１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体７１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体７１をドライブ７０に装着することにより、入出力インタフェース６５を介して、記憶部６８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部６９で受信し、記憶部６８にインストールすることができる。その他、プログラムは、ＲＯＭ６２や記憶部６８に、予めインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

なお、本技術は以下のような構成もとることができる。
（１）
第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出する位置検出部と、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する位置推定部と
を備える情報処理装置。
（２）
前記身体的な特徴点は、前記被写体の関節から検出される
前記（１）に記載の情報処理装置。
（３）
前記被写体の関節は、前記被写体から検出された身体的な特徴点に基づく姿勢推定処理により特定される
前記（２）に記載の情報処理装置。
（４）
前記被写体は、人である
前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
前記位置推定部は、前記第１の撮像装置で異なる時刻に撮像された画像に基づいて検出された前記撮像された画像に含まれる特徴点の移動量から前記第１の撮像装置の前記第２の位置情報を推定する
前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記位置推定部は、ＳＬＡＭ（Simultaneous Localization and Mapping）により前記第１の撮像装置の前記第２の位置情報を推定する
前記（１）乃至（５）のいずれかに記載の情報処理装置。
（７）
前記第１の撮像装置が動いている場合、前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合することで、前記第１の撮像装置と前記第２の撮像装置の位置を特定する位置統合部をさらに備える
前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
前記第１の撮像装置と前記第２の撮像装置が静止している場合、前記位置統合部は、前記位置検出部により検出された前記第１の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定し、前記位置推定部は、推定されている前記第２の位置情報を、前記位置検出部により検出された前記第１の位置情報に基づいて初期化する
前記（７）に記載の情報処理装置。
（９）
前記第１の撮像装置または前記第２の撮像装置がズーム機能を実行している場合、前記位置統合部は、前記位置検出部により検出された前記第１の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
前記（７）に記載の情報処理装置。
（１０）
前記位置統合部は、前記位置検出部が前記第１の位置情報の検出に用いた特徴点の数と、前記位置推定部が前記第２の位置情報の推定に用いた特徴点の数から算出される係数を用いた重み付け演算を行う
前記（７）に記載の情報処理装置。
（１１）
前記位置検出部は、前記第１の撮像装置で撮像された被写体と前記第２の撮像装置で撮像された被写体が一致する場合に、前記第１の撮像装置と前記第２の撮像装置の前記第１の位置情報を検出し、
前記位置統合部は、前記位置検出部により前記第１の位置情報が検出されなかった場合、前記位置推定部により推定された前記第２の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
前記（７）に記載の情報処理装置。
（１２）
前記位置推定部は、前記第１の撮像装置の移動情報を取得し、前記移動情報を用いて、前記第１の撮像装置の前記第２の位置情報を推定する
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
前記移動情報は、前記第１の撮像装置に装着されている慣性計測装置による計測に基づいて得られる
前記（１２）に記載の情報処理装置。
（１４）
前記慣性計測装置は、３軸のジャイロと３方向の加速度計を備え、
前記移動情報は、３次元の角速度と加速度である
前記（１３）に記載の情報処理装置。
（１５）
前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合する位置統合部をさらに備え、
前記位置検出部は、前記第１の撮像装置で撮像された被写体と前記第２の撮像装置で撮像された被写体が同一人物である場合に、前記第１の撮像装置と前記第２の撮像装置の前記第１の位置情報を検出し、
前記位置統合部は、前記位置検出部により前記第１の位置情報が検出された場合、前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合することで、前記第１の撮像装置と前記第２の撮像装置の位置を特定し、前記位置検出部により前記第１の位置情報が検出されなかった場合、前記位置推定部により推定された前記第２の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
前記（１２）に記載の情報処理装置。
（１６）
複数の撮像装置のうち少なくとも１台の撮像装置は実空間において位置が固定されている場合、前記位置検出部は実空間の位置が固定された撮像装置の位置を基準として他の撮像装置の位置情報を検出する
前記（１）に記載の情報処理装置。
（１７）
前記位置検出部により検出された位置情報を時間方向に平滑化する
前記（１）に記載の情報処理装置。
（１８）
前記位置検出部は、検出された位置情報を、前記位置の検出に用いた特徴点以外の特徴点を用いて検証する
前記（１）に記載の情報処理装置。
（１９）
撮像装置の位置を検出する情報処理装置が、
第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する
情報処理方法。
（２０）
コンピュータに、
第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する
処理を実行させるためのプログラム。

１１撮像装置，１２情報処理装置，３１レンズ系，３２撮像素子，３３ＤＳＰ回路，３４フレームメモリ，３５表示部，３６記録部，３７操作系，３８電源系，３９通信部，４０バスライン，４１ＣＰＵ，６１ＣＰＵ，６２ＲＯＭ，６３ＲＡＭ，６４バス，６５入出力インタフェース，６６入力部，６７出力部，６８記憶部，６９通信部，７０ドライブ，７１リムーバブル記録媒体，１０１撮像部，１０２通信制御部，１２１画像入力部，１２２人検出部，１２３同一人物判定部，１２４特徴点検出部，１２５位置検出部，１２６位置統合部，１２７位置追跡部，２０１計測結果入力部，２０２位置追跡部，２０３位置統合部

Claims

第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出する位置検出部と、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する位置推定部と
を備える情報処理装置。
前記身体的な特徴点は、前記被写体の関節から検出される
請求項１に記載の情報処理装置。
前記被写体の関節は、前記被写体から検出された身体的な特徴点に基づく姿勢推定処理により特定される
請求項２に記載の情報処理装置。
前記被写体は、人である
請求項１に記載の情報処理装置。
前記位置推定部は、前記第１の撮像装置で異なる時刻に撮像された画像に基づいて検出された前記撮像された画像に含まれる特徴点の移動量から前記第１の撮像装置の前記第２の位置情報を推定する
請求項１に記載の情報処理装置。
前記位置推定部は、ＳＬＡＭ（Simultaneous Localization and Mapping）により前記第１の撮像装置の前記第２の位置情報を推定する
請求項１に記載の情報処理装置。
前記第１の撮像装置が動いている場合、前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合することで、前記第１の撮像装置と前記第２の撮像装置の位置を特定する位置統合部をさらに備える
請求項１に記載の情報処理装置。
前記第１の撮像装置と前記第２の撮像装置が静止している場合、前記位置統合部は、前記位置検出部により検出された前記第１の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定し、前記位置推定部は、推定されている前記第２の位置情報を、前記位置検出部により検出された前記第１の位置情報に基づいて初期化する
請求項７に記載の情報処理装置。
前記第１の撮像装置または前記第２の撮像装置がズーム機能を実行している場合、前記位置統合部は、前記位置検出部により検出された前記第１の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
請求項７に記載の情報処理装置。
前記位置統合部は、前記位置検出部が前記第１の位置情報の検出に用いた特徴点の数と、前記位置推定部が前記第２の位置情報の推定に用いた特徴点の数から算出される係数を用いた重み付け演算を行う
請求項７に記載の情報処理装置。
前記位置検出部は、前記第１の撮像装置で撮像された被写体と前記第２の撮像装置で撮像された被写体が一致する場合に、前記第１の撮像装置と前記第２の撮像装置の前記第１の位置情報を検出し、
前記位置統合部は、前記位置検出部により前記第１の位置情報が検出されなかった場合、前記位置推定部により推定された前記第２の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
請求項７に記載の情報処理装置。
前記位置推定部は、前記第１の撮像装置の移動情報を取得し、前記移動情報を用いて、前記第１の撮像装置の前記第２の位置情報を推定する
請求項１に記載の情報処理装置。
前記移動情報は、前記第１の撮像装置に装着されている慣性計測装置による計測に基づいて得られる
請求項１２に記載の情報処理装置。
前記慣性計測装置は、３軸のジャイロと３方向の加速度計を備え、
前記移動情報は、３次元の角速度と加速度である
請求項１３に記載の情報処理装置。
前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合する位置統合部をさらに備え、
前記位置検出部は、前記第１の撮像装置で撮像された被写体と前記第２の撮像装置で撮像された被写体が同一人物である場合に、前記第１の撮像装置と前記第２の撮像装置の前記第１の位置情報を検出し、
前記位置統合部は、前記位置検出部により前記第１の位置情報が検出された場合、前記位置検出部により検出された前記第１の位置情報と前記位置推定部により推定された前記第２の位置情報を統合することで、前記第１の撮像装置と前記第２の撮像装置の位置を特定し、前記位置検出部により前記第１の位置情報が検出されなかった場合、前記位置推定部により推定された前記第２の位置情報に基づいて、前記第１の撮像装置と前記第２の撮像装置の位置を特定する
請求項１２に記載の情報処理装置。
複数の撮像装置のうち少なくとも１台の撮像装置は実空間において位置が固定されている場合、前記位置検出部は実空間の位置が固定された撮像装置の位置を基準として他の撮像装置の位置情報を検出する
請求項１に記載の情報処理装置。
前記位置検出部により検出された位置情報を時間方向に平滑化する
請求項１に記載の情報処理装置。
前記位置検出部は、検出された位置情報を、前記位置の検出に用いた特徴点以外の特徴点を用いて検証する
請求項１に記載の情報処理装置。
撮像装置の位置を検出する情報処理装置が、
第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する
情報処理方法。
コンピュータに、
第１の撮像装置で撮像された被写体の身体的な特徴点と第２の撮像装置で撮像された被写体の身体的な特徴点に基づいて、前記第１の撮像装置と前記第２の撮像装置の第１の位置情報を検出し、
前記第１の撮像装置の移動量を推定し、第２の位置情報を推定する
処理を実行させるためのプログラム。