JP2018120283A

JP2018120283A - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: JP2018120283A
Application number: JP2017009453A
Authority: JP
Inventors: 矢野　光太郎; Kotaro Yano; 光太郎矢野; 内山　寛之; Hiroyuki Uchiyama; 寛之内山; 一郎梅田; Ichiro Umeda
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-01-23
Filing date: 2017-01-23
Publication date: 2018-08-02

Abstract

【課題】オブジェクトの検出精度を向上させることを目的とする。【解決手段】第１の撮像装置によりオブジェクトが撮影された第１の画像と、第１の画像の座標系と第２の撮像装置によりオブジェクトが撮影された第２の画像の座標系との対応関係と、に基づいて、第２の画像におけるオブジェクトの撮影方向を推定する推定手段と、推定手段により推定された撮影方向に基づいて、第２の画像におけるオブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、第２の画像に含まれるオブジェクトの画像に基づいて、決定手段により決定された認識モデルを学習する学習手段と、を有する。【選択図】図４

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。

近年、セキュリティのために店舗等の施設内への監視カメラ等の撮像装置の設置が急速に普及している。そのような撮像装置を使って、画像を取得するだけでなく、画像中の人物等のオブジェクトを検出することによって混雑度を計測したり、オブジェクトの動線を解析することによって店舗のマーケティング調査に使用したりすることが提案されている。また、街頭に設置されている撮像装置により撮影された画像から特定のオブジェクトを検索したいという要望もある。
このような画像解析を行う場合、オブジェクトの検出精度が十分でないと役に立つ情報が得られない。画像から人物等のオブジェクトを検出する方法としては非特許文献１にあるような方法が提案されている。しかしながら、撮影するシーンによってはオブジェクトがカメラから遠い位置に立っているため十分な解像度が得られなかったり、オブジェクトが重なり合って一部が隠れたりするため、十分な検出精度が得られないという問題がある。

この問題に対し、非特許文献２には、視野が重複する複数の撮像装置で互いにオブジェクトを検出し、それらの検出結果を統合することでより高精度の検出結果を得ることが開示されている。
一方、人物の見えは撮影方向や姿勢によって大きく変化する。そこで、非特許文献３には、人体をパーツに分けてパーツ毎に撮影方向別の複数の認識モデルを使用することで検出精度を上げる技術が開示されている。

ＤａｌａｌａｎｄＴｒｉｇｇｓ．ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓｆｏｒＨｕｍａｎＤｅｔｅｃｔｉｏｎ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２００５）Ｌｅｉｓｔｎｅｒら．ＶＩＳＵＡＬＯＮ−ＬＩＮＥＬＥＡＲＮＩＮＧＩＮＤＩＳＴＲＩＢＵＴＥＤＣＡＭＥＲＡＮＥＴＷＯＲＫＳ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｉｓｔｒｉｂｕｔｅｄＳｍａｒｔＣａｍｅｒａｓ（２００８）ＹａｎｇａｎｄＲａｍａｎａｎ．Ａｒｔｉｃｕｌａｔｅｄｐｏｓｅｅｓｔｉｍａｔｉｏｎｗｉｔｈｆｌｅｘｉｂｌｅｍｉｘｔｕｒｅｓ−ｏｆ−ｐａｒｔｓ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＩＥＥＥＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ（２０１１）徐剛、辻三郎著．「３次元ビジョン」．共立出版（１９９８）Ｂａｇａｒｉｎａｏら．ＡｄａｐｔｉｎｇＳＶＭＩｍａｇｅＣｌａｓｓｉｆｉｅｒｓｔｏＣｈａｎｇｅｓｉｎＩｍａｇｉｎｇＣｏｎｄｉｔｉｏｎｓＵｓｉｎｇＩｎｃｒｅｍｅｎｔａｌＳＶＭ：ＡｎＡｐｐｌｉｃａｔｉｏｎｔｏＣａｒＤｅｔｅｃｔｉｏｎ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ９ｔｈＡｓｉａｎＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔｅｒＶｉｓｉｏｎ（２００９）ＯｚａａｎｄＲｕｓｓｅｌｌ．ＯｎｌｉｎｅＢａｇｇｉｎｇａｎｄＢｏｏｓｔｉｎｇ．ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ（２００１）Ｓｚｅｌｉｓｋｉ著、玉木他訳．「コンピュータビジョンアルゴリズムと応用」．共立出版（２０１３）

非特許文献２には、更に、以下の技術が開示されている。即ち、あるカメラに撮影された画像についてのオブジェクトの検出結果を用いて、別のカメラに撮影された画像におけるオブジェクトの位置を推定する。そして、別のカメラにより撮影された画像における推定した位置の画像を学習サンプルとして、別のカメラにより撮影された画像についてのオブジェクトの認識モデルを学習する技術である。これにより、設置シーンにオブジェクトの認識モデルを適応させて精度向上を図ることができるとしている。
一方、店舗等の施設内や街頭を歩いている人物等のオブジェクトを検出する場合は姿勢の変化はそれほど大きくはないが、撮影する方向によって見えが大きく変わる。したがって、撮影方向によって複数の認識モデルを持つことが望ましい。また、その際、設置シーンに認識モデルを適応させることが望ましい。
しかし、オブジェクトの認識に複数の認識モデルを利用する場合、非特許文献２に記載の技術では、あるカメラに撮影された画像についてのオブジェクトの検出結果から求められた学習サンプルがどの認識モデルに適した学習サンプルであるかを特定できなかった。そのため、認識モデルを適した学習サンプルで学習できずに、オブジェクトの検出精度が向上できなかった。

本発明の目的は、複数の撮像装置で撮影された画像から、オブジェクトを精度良く検出できるようにすることを目的とする。

本発明の情報処理装置は、第１の撮像装置によりオブジェクトが撮影された第１の画像と、前記第１の画像の座標系と第２の撮像装置により前記オブジェクトが撮影された第２の画像の座標系との対応関係と、に基づいて、前記第２の画像における前記オブジェクトの撮影方向を推定する推定手段と、前記推定手段により推定された前記撮影方向に基づいて、前記第２の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、前記第２の画像に含まれる前記オブジェクトの画像に基づいて、前記決定手段により決定された前記認識モデルを学習する学習手段と、を有する。

本発明によれば、オブジェクトの検出精度を向上させることができる。

情報処理装置のハードウェア構成の一例を示す図である。情報処理装置の機能構成等の一例を示す図である。撮影シーンの一例を示す図である。情報処理装置の処理の一例を示すフローチャートである。検出部の一例の詳細を示す図である。検出部の処理の一例を示すフローチャートである。認識モデルに対応する画像の一例を示す図である。キャリブレーションパターンの一例を示す図である。画像中の領域の対応関係の一例を説明する図である。情報処理装置の機能構成等の一例を示す図である。情報処理装置の処理の一例を示すフローチャートである。視野制御部の一例の詳細を示す図である。視野制御部の処理の一例を示すフローチャートである。重複領域の評価方法の一例を説明する図である。撮影された画像の一例を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

＜実施形態１＞
図１は、本実施形態に係る情報処理装置１０のハードウェア構成の一例を示す図である。情報処理装置１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、記憶装置１２、入力装置１３、及び出力装置１４を含む。なお、各構成要素は、互いに通信可能に、バス等を介して接続されている。
ＣＰＵ１１は、情報処理装置１０の動作をコントロールし、記憶装置１２に格納されたプログラムの実行等を行う中央演算装置である。記憶装置１２は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、ＣＰＵ１１の動作にもとづき読み込まれるプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、ＣＰＵ１１が、記憶装置１２に格納されたプログラムの手順に従って処理を行うことによって、図２で後述する情報処理装置１０の機能及び図４、６で後述するフローチャートに係る処理等が実現される。記憶装置１２は、また、本実施形態に係る情報処理装置１０が処理対象とする画像および検出結果を記憶する。

入力装置１３は、マウス、キーボード、タッチパネルデバイス、ボタン等の入力装置であり、ユーザからの各種の入力を受け付ける。入力装置１３は、また、図２で後述するカメラ１１１、１１２等の撮像装置との間の情報のやり取りを行うためのインターフェースを含む。出力装置１４は、液晶パネル、外部モニタ等の表示装置、音声出力装置等であり、各種の情報を出力する。
なお、情報処理装置１０のハードウェア構成は、図１の構成に限られるものではない。例えば、情報処理装置１０は、各種の装置間で通信を行うためのＩ／Ｏ装置を含むこととしてもよい。例えば、Ｉ／Ｏ装置は、メモリーカード、ＵＳＢケーブル等の入出力装置、有線、無線等による送受信装置等である。

図２は、情報処理装置１０の機能構成等の一例を示す図である。情報処理装置１０の処理及び機能は、ＣＰＵ１１により実現される。
情報処理装置１０は、撮影情報取得部１２１、１２２、画像取得部１３１、１３２、検出部１４１、１４２、位置関係算出部１５０、位置推定部１６０、抽出部１７０、学習部１８０、選択部１９０、統合部２００を含む。
撮影情報取得部１２１、１２２は、それぞれ、カメラ１１１、１１２から撮影情報を取得する。画像取得部１３１、１３２は、それぞれ、カメラ１１１、１１２により撮影された画像を取得する。検出部１４１、１４２は、それぞれ、カメラ１１１、１１２により撮影された画像から人物を検出する。位置関係算出部１５０は、カメラ１１１により撮影された画像の位置座標と、カメラ１１２により撮影された画像の位置座標と、の対応関係を算出する。位置推定部１６０は、カメラ１１２により撮影された画像内における検出部１４１により検出された人物の位置に対応する位置座標を推定する。抽出部１７０は、カメラ１１２により撮影された画像から部分画像を抽出する。学習部１８０は、人物の検出に用いられる認識モデルを学習する。選択部１９０は、学習対象である認識モデルを決定する。統合部２００は、検出部１４１、１４２による検出結果を統合する。

カメラ１１１、１１２は、監視対象のシーンを撮影する撮像装置である。
撮影情報取得部１２１、１２２は、それぞれ、カメラ１１１、カメラ１１２の撮影情報を取得する。撮影情報とは、撮像装置により撮影された画像の位置座標と、撮影されたシーンの三次元空間座標と、を対応付ける情報であり、撮像装置の撮影倍率、撮像装置が撮影する方向から決定される。
画像取得部１３１、１３２は、それぞれ、カメラ１１１、カメラ１１２により撮影された画像を取得する。画像取得部１３１、１３２は、取得した各画像の情報を、記憶装置１２に記憶する。
検出部１４１、１４２は、それぞれ、画像取得部１３１、画像取得部１３２により取得された画像から検出対象のオブジェクトを検出する。本実施形態では、検出対象のオブジェクトは、人物であるとするが、荷物、車両、ドローン等の物体でもよいし、犬、猫、家畜等の動物でもよい。
位置関係算出部１５０は、撮影情報取得部１２１、及び撮影情報取得部１２２により取得された撮影情報に基づいて、以下の処理を行う。即ち、位置関係算出部１５０は、カメラ１１１により撮影された画像における座標系を、カメラ１１２により撮影された画像における座標系に変換するための座標変換パラメータを算出する。算出される座標変換パラメータは、カメラ１１１により撮影された画像における座標系と、カメラ１１２により撮影された画像における座標系と、を対応付ける対応情報の一例である。

位置推定部１６０は、位置関係算出部１５０により算出された座標変換パラメータを用いて、カメラ１１２により撮影された画像内における検出部１４１により検出された人物の位置に対応する座標を推定する。
抽出部１７０は、画像取得部１３２により取得された、カメラ１１２により撮影された画像から部分画像を抽出する。
学習部１８０は、抽出部１７０により抽出された部分画像を用いて、検出部１４２による人物の検出処理に用いられる認識モデルを学習する。
選択部１９０は、検出部１４２による人物の検出処理に用いられる複数の認識モデルから学習部１８０により学習される認識モデルを選択する。
統合部２００は、検出部１４１及び検出部１４２による検出処理の結果を統合する。

以下では、情報処理装置１０の処理について説明する。なお、カメラ１１１及びカメラ１１２は、図３に示すように撮影シーンに対して同じ人物を撮影可能なように視野が重複するように設置されている。本実施形態では、カメラ１１１及びカメラ１１２の視野は固定であるとする。また、カメラ１１１及びカメラ１１２の撮影情報も、固定であるとする。カメラ１１１及びカメラ１１２の撮影情報は、予め設定されている。また、カメラ１１１により撮影された画像における位置座標からカメラ１１２により撮影された画像における位置座標への変換に用いられる座標変換パラメータは、位置関係算出部１５０により予め算出されているとする。
図４は、情報処理装置１０の処理の一例を示すフローチャートである。
Ｓ４０１において、画像取得部１３１、画像取得部１３２は、それぞれ、カメラ１１１、カメラ１１２により撮影された画像を取得する。Ｓ４０１で取得される画像は、例えば、ＲＧＢ各８ビットで表現されるビットマップデータである。また、カメラ１１１、カメラ１１２は、撮影のタイミングが一致するように、同期されている。そのため、画像取得部１３１、画像取得部１３２は、それぞれ、カメラ１１１、カメラ１１２により同じタイミングで撮影された画像を取得する。しかし、画像取得部１３１、画像取得部１３２は、それぞれ、カメラ１１１、カメラ１１２により設定された期間（例えば、ある時刻を中心に０．１秒間の期間等）内に撮影された画像を取得することとしてもよい。画像取得部１３１、画像取得部１３２は、取得した各画像を、記憶装置１２に記憶する。以下では、画像取得部１３１により取得されたカメラ１１１により撮影された画像を第１の画像とする。また、以下では、画像取得部１３２により取得されたカメラ１１２により撮影された画像を第２の画像とする。

Ｓ４０２において、検出部１４１は、第１の画像から検出対象のオブジェクトである人物を検出する。検出部１４１の詳細を図５に示す。
検出部１４１は、部分画像取得部１４１１、特徴抽出部１４１２、パターン識別部１４１３、パラメータ取得部１４１４、検出結果出力部１４１５を含む。部分画像取得部１４１１は、第１の画像から人物を検出するための部分画像を取得する。特徴抽出部１４１２は、部分画像取得部１４１１により取得された部分画像から特徴量を抽出する。パターン識別部１４１３は、特徴抽出部１４１２により抽出された特徴量と、パラメータ取得部１４１４により取得された識別パラメータと、に基づいて、部分画像取得部１４１１により取得された部分画像が人物の画像か否かを識別する。パラメータ取得部１４１４は、人物を認識するための認識モデルから識別パラメータを取得する。検出結果出力部１４１５は、パターン識別部１４１３により人物と識別された場合に部分画像の矩形を表す４つの頂点の位置座標を出力する。

図６は、検出部１４１の処理の一例を示すフローチャートである。以下では、図６を参照してＳ４０２の人物検出処理の詳細を説明する。
Ｓ６０１において、パラメータ取得部１４１４は、人物を認識するための認識モデルから１つを設定し、設定した認識モデルに応じた識別パラメータや探索範囲等のパラメータを取得する。識別パラメータとは、その認識モデルに対応するオブジェクトの識別処理に用いられるパラメータであり、例えば、その認識モデルから抽出される特徴量等である。本実施形態では、人物の認識に用いられる認識モデルには、正面モデルＭ１、側面モデルＭ２、平面モデルＭ３の３つがある。各モデルの情報は、予め、記憶装置１２に記憶されており、パラメータ取得部１４１４により管理されている。図７に各モデルが認識対象とする人物画像の一例を示す。正面モデルＭ１は、図７（ａ）に示すように人物を正面方向から撮影した画像を認識対象とする認識モデルである。本実施形態では、情報処理装置１０は、人物の輪郭を捉える特徴量を用いて識別処理を行うこととする。そのため、正面モデルＭ１は、人物を前方から撮影した画像に加えて輪郭が類似する人物を後方から撮影した画像も認識可能なように事前学習によって得られたものである。また、側面モデルＭ２、平面モデルＭ３は、それぞれ図７（ｂ）、（ｃ）に示した人物画像を認識対象とする認識モデルである。

このように人物は、その撮影される方向によって見えが異なるが、本実施形態では、情報処理装置１０は、撮影される方向の異なる複数の認識モデルを用いることで、人物の見えの変動に対応している。図７（ｃ）に示すように、平面モデルＭ３は、厳密に人物の上方から撮影された画像のみを認識対象とするという訳ではなく、人物の上方の周辺の方向から撮影された画像も認識対象とするように学習されている。
平面モデルＭ３は、例えば、設定された範囲（例えば、水平方向から７０度〜９０度の範囲等）の俯角で撮影された人物を認識対象として学習されている。また、正面モデルＭ１についても、厳密に人物の前方から撮影された画像のみを認識対象とするという訳ではなく、人物の前方の周辺の方向から撮影された画像も認識対象とするように学習されている。正面モデルＭ１は、例えば、人物の前方方向を基準方位として、設定された範囲（例えば、−１０度〜１０度、及び１７０度〜１９０度の範囲等）の方位角で撮影された人物を認識対象として学習されている。また、側面モデルＭ２についても、厳密に人物の側面から撮影された画像のみを認識対象とするという訳ではなく、人物の側面方向の周辺の方向から撮影された画像も認識対象とするように学習されている。側面モデルＭ２は、例えば、人物の側面方向を基準方位として、設定された範囲（例えば、−１０度〜１０度、及び１７０度〜１９０度の範囲等）の方位角で撮影された人物を認識対象として学習されている。

また、図７に示すように人物の画像は、撮影の際の状況により、見えだけでなく、人物を囲む領域の形状も異なる。本実施形態では、情報処理装置１０は、画像中の矩形領域についてパターン照合を行い、その矩形領域が人物か否かの識別を行い、照合対象の矩形領域の縦横のサイズを照合に用いられる認識モデルによって変更する。更に、特定のシーンを撮影するカメラにより撮影された画像では、画像中の位置に応じて人物の見える方向に偏りがある。そこで本実施形態では、情報処理装置１０は、認識モデルに応じて、人物を探索する画像中の範囲である探索範囲を変更するようにしている。以上のような処理を行うため、人物の各認識モデル（認識モデルＭ１〜Ｍ３）は、パターン識別処理に用いられる識別パラメータに加えて、照合対象とする矩形領域の縦横サイズ、画像中の探索範囲の情報等のパラメータを含む。これらのパラメータがパラメータ取得部１４１４によって取得される。本実施形態では、情報処理装置１０は、３つの認識モデルを順次切り替えて、以下のＳ６０２〜Ｓ６０５の処理を繰り返す。対応する撮影方向をより細かく分割して多くの認識モデルで人物のモデルを構成した方が識別精度は有利であるが、処理量は増加する。このような構成においても本実施形態の処理は、適用できるが、本実施形態では３つの認識モデルで人物モデルを構成する。

Ｓ６０２において、部分画像取得部１４１１は、第１の画像から人物を検出するための部分領域画像を取得する。画像からオブジェクトを検出するには、例えば、画像から探索ウィンドウと呼ばれる所定の部分領域の画像を取得し、取得した画像と検出対象のオブジェクトを表すモデルとの照合を行う。そして、探索ウィンドウを画像中で順次移動させ、照合を繰り返すことによって画像中からオブジェクトを検出する。本実施形態でも、情報処理装置１０は、このような方法でオブジェクトを検出する。即ち、情報処理装置１０は、Ｓ６０２で部分領域画像を取得し、以下に示すＳ６０３〜Ｓ６０５の処理を行うことを繰り返す。
Ｓ６０３において、特徴抽出部１４１２は、Ｓ６０２で取得された部分領域の画像から人物を検出するための特徴量を抽出する。本実施形態では、特徴抽出部１４１２は、非特許文献１にあるような勾配方向ヒストグラム特徴（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）を抽出する。勾配方向ヒストグラム特徴は、画像の輝度勾配の和を方向別に求めることによってエッジ形状を表現する特徴量の一つであり、人物画像においては主にその輪郭を捉えるのに有用である。情報処理装置１０は、人物の識別に用いる特徴量として、勾配方向ヒストグラム特徴に限られない。情報処理装置１０は、勾配方向ヒストグラム特徴の他にも、例えば、Ｈａａｒ−ｌｉｋｅ特徴、ＬＢＰＨ特徴（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎＨｉｓｔｏｇｒａｍ）等を用いてもよいし、それらを組み合せた特徴量を用いてもよい。

Ｓ６０４において、パターン識別部１４１３は、Ｓ６０３で特徴抽出部１４１２により抽出された特徴量と、Ｓ６０１でパラメータ取得部１４１４により取得された識別パラメータと、に基づいて、以下の処理を行う。即ち、パターン識別部１４１３は、Ｓ６０２で部分画像取得部１４１１により取得された部分領域画像が人物か否かを識別する。非特許文献１ではサポートベクターマシンによって人物識別器を学習し、識別に用いる方法が示されており、本実施形態においても、情報処理装置１０は、その方法を適用する。但し、非特許文献１では、様々な方向から見た人物の画像を一つの認識モデルで識別する方法が示されている。しかし、本実施形態では、情報処理装置１０は、撮影される方向毎に複数の認識モデルを用いて、照合対象の部分画像を、それぞれの認識モデルとの照合を行って、対応する方向から撮影された人物を識別するようにした。Ｓ６０４では、パターン識別部１４１３は、一つの認識モデルとの照合をＳ６０１でパラメータ取得部１４１４により取得された識別パラメータを用いて行う。パターン識別部１４１３は、例えば、以下の式１を用いて、線形サポートベクターマシンによるパターン識別処理を行う。
ｙ＝ｓｉｇｎ＜ｘ、ｗ＞（式１）
式１で、ｘは、Ｓ６０３で特徴抽出部１４１２により抽出された勾配方向ヒストグラム特徴である。また、ｗは、Ｓ６０１でパラメータ取得部１４１４により取得された識別パラメータであり、ｘと次元数の同じベクトルである。また、＜＞は、ベクトルの内積演算を示す演算子である。また、ｓｉｇｎは、符号演算を表す演算子であり、正の値の場合＋１、負の値の場合−１を返す。また、ｙは、識別結果であり、＋１であれば人物、−１であれば人物以外を表す。パターン識別部１４１３は、計算結果であるｙの値に基づいて、画像が人物であるか否かを識別する。パターン識別部１４１３は、Ｓ６０４で式１を用いる識別方法の他にも、カーネル演算を用いたサポートベクターマシンやアダブースト識別器、ランダム分類木（ＲａｎｄｏｍｉｚｅｄＴｒｅｅ）等を用いた識別方法を行ってもよい。

Ｓ６０５において、検出結果出力部１４１５は、Ｓ６０２で取得された部分画像がＳ６０４でパターン識別部１４１３により人物と識別された場合、その部分画像の矩形を表す４つの頂点の第１の画像内における位置座標を出力する。
Ｓ６０６において、部分画像取得部１４１１は、第１の画像におけるＳ６０１で取得された探索範囲の情報が示す範囲から取得できる部分画像の全てについて、Ｓ６０３〜Ｓ６０５の処理を行ったか否かを判定する。部分画像取得部１４１１は、行ったと判定した場合、Ｓ６０７の処理に進む。また、部分画像取得部１４１１は、行っていないと判定した場合、Ｓ６０２の処理に進み、まだ取得していない部分画像を取得する。
Ｓ６０７において、パラメータ取得部１４１４は、全ての認識モデルについて、Ｓ６０１〜Ｓ６０６の処理を行ったか否かを判定する。パラメータ取得部１４１４は、行ったと判定した場合、図６の処理を終了し、Ｓ４０３の処理に進む。パラメータ取得部１４１４は、行っていないと判定した場合、Ｓ６０１の処理に進み、まだ用いていない認識モデルから識別パラメータ等を取得する。

Ｓ４０３において、位置推定部１６０は、位置関係算出部１５０により算出された座標変換パラメータを用いて、Ｓ４０２で検出部１４１により検出された人物に対応する第２の画像における位置座標を推定する。まず、位置推定部１６０は、検出部１４１により出力された人物である部分画像の矩形を表す４つの頂点の第１の画像における位置座標に対して、座標変換パラメータを適用して第２の画像中のそれぞれのエピポーラ線を推定する。そして、位置推定部１６０は、推定したエピポーラ線に沿って相関法による対応付けを行ってそれぞれ対応する第２の画像の位置座標を算出する。
位置推定部１６０は、例えば、非特許文献４に開示されている座標変換パラメータを用いたエピポーラ線の推定及び相関法による対応付けの方法を行う。但し、カメラ１１１とカメラ１１２間で人物の見えの違いによっては、相関法による対応付けが困難になる。このような場合は、画像取得部１３１、１３２は、第１の画像、第２の画像の取得と同期して距離画像取得を行う。そして、位置推定部１６０は、座標変換パラメータと、取得された距離画像と、に基づいて、第２の画像の人物領域の位置座標を推定する。距離画像を取得するための手段としては、例えば、ＴＯＦ（ＴｉｍｅｏｆＦｌｉｇｈｔ）方式、パターン投光方式の距離センサー等がある。

ここで、位置関係算出部１５０が座標変換パラメータを事前に算出する方法の一例について説明する。
まず、画像取得部１３１は、カメラ１１１により撮影された形状が既知のキャリブレーションパターンの画像を取得する。キャリブレーションパターンは、例えば図８に示すような点が格子状に並んで描かれているボードであり、各点の位置関係は、既知である。図８のキャリブレーションパターンを撮影シーン中に配置し、カメラ１１１で撮影した画像を画像取得部１３１が取得する。撮影情報取得部１２１は、画像取得部１３１により取得された画像からキャリブレーションパターンの各点の画像中における位置座標を抽出する。撮影情報取得部１２１は、例えば、取得された画像を出力装置１４に表示し、入力装置１３を介したユーザによる各点のポインティングを受け付けることで位置座標を取得する。位置座標は、各点の画像中の重心位置である。また、撮影情報取得部１２１は、各点の位置座標を図８に示す点Ｏからの相対座標として表す。そして、撮影情報取得部１２１は、カメラ１１１により撮影された画像の位置座標と撮影するシーンの三次元空間座標とを対応付ける撮影情報を取得する。

キャリブレーションパターンをそのまま配置し、撮影情報取得部１２２は、撮影情報取得部１２１と同様に、カメラ１１２により撮影されたキャリブレーションパターンの画像に基づいて、以下の処理を行う。即ち、撮影情報取得部１２２は、カメラ１１２により撮影された画像の位置座標と撮影するシーンの三次元空間座標とを対応付ける撮影情報を取得する。
次に、位置関係算出部１５０は、撮影情報取得部１２１及び１２２によりそれぞれ取得された撮影情報から第１の画像における座標系と第２の画像における座標系とを対応付ける座標変換パラメータを算出する。位置関係算出部１５０は、例えば、非特許文献４に開示されている両眼視のカメラ校正の方法を用いて、座標変換パラメータを算出する。なお、本実施形態では、位置関係算出部１５０は、三次元空間座標と画像中の位置座標が線形関係にあると仮定して座標系の変換を行うようにしたが、カメラの光学的幾何歪みが大きい場合には歪曲を考慮して撮影情報及び位置関係を算出してもよい。

Ｓ４０４において、選択部１９０は、Ｓ４０３で位置推定部１６０により推定された位置座標に基づいて、学習部１８０により学習される認識モデルを選択する。ここで選択される認識モデルは、検出部１４２が管理する複数の認識モデルのうちの一つである。なお、本実施形態では検出部１４２の詳細は、図５に示される検出部１４１の詳細と同様である。検出部１４２は、認識モデルとして、正面モデル、側面モデル、平面モデルの３つの認識モデルを管理する。
以下、本実施形態における認識モデルの選択方法について図９を用いて説明する。図９の中の点Ａ、Ｂ、Ｃ、Ｄは、検出部１４１により検出された第１の画像中の人物の領域の頂点である。また、点Ａ'、Ｂ'、Ｃ'、Ｄ'は、それぞれ位置推定部１６０により推定された点Ａ、Ｂ、Ｃ、Ｄに対応する第２の画像中の頂点である。本実施形態では、選択部１９０は、点Ａ'、Ｂ'、Ｃ'、Ｄ'で特定される領域のアスペクト比に基づいて、人物がどの方向から撮影されたかを推定し、推定した方向に基づいて、認識モデルの選択を行う。画像における人物等のオブジェクトが撮影された方向を、オブジェクトの撮影方向とする。
画像における人物が占める領域は、人物が正面から撮影された場合、上方から撮影された場合に比べて、縦長な領域となる。また、画像における人物が占める領域は、横から撮影された場合、正面から撮影された場合に比べて、横幅に比べて縦幅がより長い領域となる。このように、画像における人物が撮影された方向は、その画像においてその人物が占める領域のアスペクト比と相関が認められる。

点Ａ'、Ｂ'、Ｃ'、Ｄ'の第２の画像における位置座標を、それぞれ（ｕＡ，ｖＡ）、（ｕＢ，ｖＢ）、（ｕＣ，ｖＣ）、（ｕＤ，ｖＤ）とする。本実施形態では、選択部１９０は、以下の式２を用いて四角形Ａ'Ｂ'Ｃ'Ｄ'の擬似的なアスペクト比Ｒを算出する。
Ｒ＝｜（（ｖ＿Ａ＋ｖ＿Ｂ）−（ｖ＿Ｃ＋ｖ＿Ｄ））／（（ｕ＿Ｂ＋ｕ＿Ｄ）−（ｕ＿Ａ＋ｕ＿Ｃ））｜（式２）
式２中の｜｜は、絶対値を表す演算子である。そして、選択部１９０は、算出したＲに対応する認識モデルを選択する。本実施形態では、記憶装置１２は、予め、各認識モデルに対応するＲの範囲を示す情報を記憶している。選択部１９０は、記憶装置１２に記憶されている各認識モデルに対応するＲの範囲を示す情報に基づいて、算出したＲの値がどの認識モデルに対応するかを決定する。各認識モデルに対応するＲの範囲を示す情報は、例えば、Ｒの値が設定された第１の閾値未満であれば、平面モデルに対応することを示す。また、各認識モデルに対応するＲの範囲を示す情報は、Ｒの値が設定された第１の閾値以上であり第１の閾値よりも大きい設定された第２の閾値未満であれば、正面モデルに対応することを示す。また、各認識モデルに対応するＲの範囲を示す情報は、例えば、Ｒの値が設定された第２の閾値以上であれば、側面モデルに対応することを示す。
図９の例では、検出部１４１は、正面モデルに基づいて、人物を検出した。この人物領域が図９の四角形Ａ'Ｂ'Ｃ'Ｄ'のように対応する場合、カメラ１１２が人物を上方から撮影したと推測される。なぜなら、四角形Ａ'Ｂ'Ｃ'Ｄ'から求まるアスペクト比Ｒが、平面モデルのアスペクト比に適合するためである。

選択部１９０は、算出したＲの値に対応する認識モデルを選択し、決定した認識モデルを、学習部１８０により学習される認識モデルとして決定する。
本実施形態では、選択部１９０は、第２の画像における変換後の人物領域のアスペクト比に基づいて、認識モデルを選択するようにした。しかし、例えば、選択部１９０は、検出部１４１により検出された人物領域と、検出部１４１による検出に用いられた認識モデルと、位置関係算出部１５０により算出された座標変換パラメータと、に基づいて、以下の処理を行うこととしてもよい。即ち、選択部１９０は、検出部１４１による検出に用いられた認識モデルに基づいて、人物が第１の画像においてどの方向から撮影されたかを推定する。そして、選択部１９０は、検出部１４１により人物が検出された位置と位置関係算出部１５０により算出された座標変換パラメータとに基づいて、第１の画像における人物が第２の画像において、向きがどのように変化するかを特定する。そして、選択部１９０は、特定した第１の画像において人物が撮影された方向と、第１の画像における人物の第２の画像における向きの変化と、に基づいて、直接人物が第２の画像において、どのような方向から撮影されたかを推定する。そして、選択部１９０は、推定した方向に対応する認識モデルを選択し、選択した認識モデルを、学習部１８０により学習される認識モデルとして決定してもよい。

Ｓ４０５において、抽出部１７０は、Ｓ４０１で画像取得部１３２により取得された第２の画像から、Ｓ４０３で位置推定部１６０により推定された頂点座標に基づいて部分画像を抽出する。この処理で抽出される画像は、Ｓ４０２で第１の画像中から人物領域として検出された部分画像に対応する第２の画像中の部分画像であり、人物が写っている可能性のある領域の画像である。なお、抽出される部分画像の縦横のアスペクト比は、Ｓ４０４で選択された認識モデルに対応する値となる。

Ｓ４０６において、学習部１８０は、Ｓ４０５で抽出部１７０により抽出された部分画像を用いて、Ｓ４０４で選択部１９０により学習部１８０により学習される認識モデルとして決定された認識モデルを学習する。本実施形態では、学習部１８０は、抽出部１７０により抽出された部分画像から特徴抽出部１４１２と同様の処理を行い、勾配方向ヒストグラム特徴を抽出して、抽出した勾配方向ヒストグラム特徴を追加学習サンプルとする。そして、学習部１８０は、選択部１９０により選択された認識モデルに対して追加学習を行う。学習部１８０は、例えば非特許文献５に開示されているサポートベクターマシンの追加型学習法により、追加学習を行う。Ｓ４０６で適用される学習処理は、検出部１４２により行われる識別処理に従う。例えば、検出部１４２による識別処理がアダブースト識別器を用いる識別処理の場合、学習部１８０は、非特許文献６に開示されているオンラインブースティングを用いて学習する。このように本実施形態においては、学習部１８０は、カメラ１１２により撮影された画像から抽出された部分画像に対応する認識モデルを選択して追加学習を行うようにした。したがって、学習部１８０は、人物が撮影される方向に応じて見えの類似したサンプルで対応する認識モデルの追加学習を行うので、複数の認識モデルで構成される認識モデルの長所を損なうことなく、識別処理の精度を向上できる。

Ｓ４０７において、検出部１４２は、第２の画像から人物を検出する。検出部１４２の詳細は、図５に示す検出部１４１の詳細と同様である。また、検出部１４２の処理は、図６に示す検出部１４１の処理と同様である。但し、Ｓ４０７の処理では、検出部１４２は、Ｓ４０６で追加学習された認識モデルを用いる。したがって、本実施形態では、検出部１４２は、検出部１４１により検出された人物領域に対応する第２の画像中の人物画像の影響を加味して、カメラ１１２により撮影されたシーンに適応するように人物検出処理を行うので精度向上が期待できる。

Ｓ４０８において、統合部２００は、検出部１４１及び検出部１４２による検出処理の結果を統合する。Ｓ４０８で統合される検出処理の結果は、検出部１４１により第１の画像から検出され、位置推定部１６０により推定された第２の画像中の人物の領域と、検出部１４２により第２の画像から検出された人物領域と、である。統合部２００は、人物領域が検出されなかった場合や１つしか検出されなかった場合には、処理を行わず、そのまま結果を出力する。統合部２００は、人物領域として検出した結果が複数ある場合には、非特許文献１に開示されている重複した領域を１つにまとめる処理（Ｎｏｎ−ＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ）を適用することで、検出した人物領域を統合する。
統合部２００は、例えば、情報処理装置１０の出力装置１４に統合処理の結果を示す情報を表示することで出力する。また、統合部２００は、例えば、記憶装置１２に統合処理の結果を示す情報を記憶することで出力する。また、統合部２００は、例えば、設定された送信先に統合処理の結果を示す情報を送信することで出力する。

Ｓ４０９において、統合部２００は、カメラ１１１及びカメラ１１２による撮影が終了したか否かを判定する。統合部２００は、カメラ１１１及びカメラ１１２による撮影が終了したと判定した場合、図４の処理を終了する。統合部２００は、カメラ１１１及びカメラ１１２による撮影が終了していないと判定した場合、Ｓ４０１の処理に進む。
以上の処理により、情報処理装置１０は、Ｓ４０１〜Ｓ４０８の処理を、カメラ１１１及びカメラ１１２により画像が撮影される度に繰り返し行う。

本実施形態では、情報処理装置１０は、カメラ１１１により撮影された画像についての人物の検出結果を用いてカメラ１１２により撮影された画像について用いられる認識モデルを学習し、検出精度を向上させ、それらの検出結果を統合することとした。情報処理装置１０は、カメラ１１２により撮影された画像についての人物検出の結果を用いて、カメラ１１１により撮影された画像について用いられる認識モデルを学習することとしてもよい。また、情報処理装置１０は、カメラ１１１、カメラ１１２により撮影された画像についての人物の検出結果を相互に利用して、それぞれのカメラについて用いられる認識モデルの学習を行うこととしてもよい。
また、本実施形態では、認識モデルは、異なる方向から撮影された人物の画像毎の認識モデルを含むこととした。認識モデルが、例えば、人物の高解像度画像と低解像度画像別の認識モデルを含む構成の場合や、人物が他の物体によって隠れる隠れ領域別に認識モデルを含む構成の場合でも、情報処理装置１０は、本実施形態の処理を適用できる。情報処理装置１０は、本実施形態の処理を行い、認識モデルを学習する際に追加学習の学習サンプルに対して適切な認識モデルを選択するようにすればよい。

以上、本実施形態では、情報処理装置１０は、カメラ１１１により撮影された画像についての人物の検出結果と、カメラ１１１の視野とカメラ１１２の視野との対応関係と、に基づいて、学習されるカメラ１１２により撮影された画像用の認識モデルを決定した。そして、情報処理装置１０は、カメラ１１１により撮影された画像についての人物の検出結果に対応するカメラ１１２により撮影された画像の部分画像を用いて、決定した認識モデルを学習することとした。このように、情報処理装置１０は、より適切にカメラ１１２により撮影された画像用の認識モデルを学習することができる。これにより、情報処理装置１０は、カメラ１１２により撮影された画像からの人物の検出処理の精度を向上させることができる。

＜実施形態２＞
実施形態１では、カメラ１１１の視野とカメラ１１２の視野とは、同じオブジェクトを撮影可能なように予め重複しているものとした。しかし、カメラ１１１が設置されている状況に、新たにカメラ１１２が設置されるような場合、カメラ１１２の視野が、カメラ１１１の視野と同じオブジェクトを撮影可能なように重複するとは限らない。
そこで、本実施形態の情報処理装置１０は、カメラ１１１とカメラ１１２との視野を適切に重複させるように、カメラ１１１の視野を制御する処理を行う。
本実施形態の情報処理装置１０のハードウェア構成は、実施形態１と同様である。本実施形態では、ＣＰＵ１１が、記憶装置１２に格納されたプログラムの手順に従って処理を行うことによって、図１０で後述する情報処理装置１０の機能及び図１１、１２、１４で後述するフローチャートに係る処理等が実現される。

図１０は、本実施形態の情報処理装置１０の機能構成の一例を示す図である。図１０に示される本実施形態の情報処理装置１０の機能構成は、図２に示される実施形態１の機能構成と比べて、ＰＴＺ制御部３００を含む点で異なる。
ＰＴＺ制御部３００は、カメラ１１１の駆動系を制御する制御部である。図１０の機能構成要素のうち、図２と共通するものは、図２と同様である。

以下、本実施形態における情報処理装置１０の処理について説明する。図１１は、本実施形態の情報処理装置１０の処理の一例を示すフローチャートである。以下では、カメラ１１１が設置されている状況に、新規にカメラ１１２が設置される場合において、カメラ１１２の検出部１４２を撮影するシーンに最適化させ、カメラ１１１の検出結果と統合させる処理について説明する。
Ｓ１１０１において、ＰＴＺ制御部３００は、カメラ１１１の視野と、カメラ１１２の視野と、が重複するように、カメラ１１１のパン、チルト、ズーム駆動系を制御することで、カメラ１１１の視野を制御する。
Ｓ１１０２において、位置関係算出部１５０は、カメラ１１１及びカメラ１１２の位置関係を表す座標変換パラメータを算出する。Ｓ１１０１〜Ｓ１１０２の詳細については、図１３等で後述する。以降、Ｓ４０１〜Ｓ４０９の処理において、情報処理装置１０は、Ｓ１１０２で視野を制御されたカメラ１１１により撮影された画像に基づいて処理を行うことになる。Ｓ４０１〜Ｓ４０９の処理は、実施形態１と同様である。

ＰＴＺ制御部３００の詳細を図１２に示す。
ＰＴＺ制御部３００は、対応点抽出部３１０、重複領域評価部３２０、制御信号生成部３３０を含む。対応点抽出部３１０は、カメラ１１１により撮影された画像と、カメラ１１２により撮影された画像と、の間で対応する点を抽出する。重複領域評価部３２０は、対応点抽出部３１０により抽出された点に基づいて、カメラ１１１により撮影された画像と、カメラ１１２により撮影された画像と、の間で重複する領域の大きさを評価する。制御信号生成部３３０は、重複領域評価部３２０による評価に基づいて、カメラ１１１の視野を制御するための制御信号を生成する。
ＰＴＺ制御部３００が行うＰＴＺ制御処理の詳細を図１３に示す。以下、図１３を参照して、Ｓ１１０１のＰＴＺ制御処理の詳細を説明する。
Ｓ１３０１において、対応点抽出部３１０は、カメラ１１２により撮影された画像を画像取得部１３２から取得する。

Ｓ１３０２において、対応点抽出部３１０は、Ｓ１３０１で取得された画像から局所特徴量を抽出する。局所特徴量とは、画像中の局所領域に着目して抽出されるエッジ等の他の部分と区別のつく特徴である。本実施形態では、対応点抽出部３１０は、Ｓ１３０１で取得された画像からＳＩＦＴ特徴量を抽出する。ＳＩＦＴ特徴量は、画像中の輝度分布が極値を取る位置の近傍領域から方向別に輝度勾配を求めてヒストグラム化した特徴量で、画像シフト、変倍、回転に対する不変性に優れている特徴量である。対応点抽出部３１０は、Ｓ１３０２で抽出した局所特徴量をＰＴＺ制御処理の間、一時的に記憶装置１２に記憶しておく。
Ｓ１３０３において、対応点抽出部３１０は、カメラ１１１により撮影された画像を画像取得部１３１から取得する。以下では、Ｓ１３０３で取得されたカメラ１１１により撮影された画像を、第３の画像とする。また、以下では、Ｓ１３０１で取得されたカメラ１１２により撮影された画像を、第４の画像とする。
Ｓ１３０４において、対応点抽出部３１０は、Ｓ１３０２と同様の処理で、Ｓ１３０３で取得された画像から局所特徴量を抽出する。

Ｓ１３０５において、対応点抽出部３１０は、Ｓ１３０２及びＳ１３０４で抽出された局所特徴量に基づいて、第３の画像と第４の画像とから、対応する点を抽出する。対応点抽出部３１０は、例えば、第３の画像中のある点に対応する局所特徴量と第４の画像中のある点に対応する局所特徴量との類似度を算出し、類似度が所定の閾値以上である場合、それらの点を対応付ける。対応付けられた点を、対応点とする。対応点抽出部３１０は、局所特徴量間の類似度として、例えば、ベクトル同士の内積値やヒストグラムインターセクションを用いる。また、対応点抽出部３１０は、抽出した対応点の組に対してＲＡＮＳＡＣアルゴリズムによって信頼度の低い対応点を削除することができる。
以上の対応点抽出部３１０の処理の詳細は、非特許文献７に開示されている。

Ｓ１３０６において、重複領域評価部３２０は、Ｓ１３０５で抽出された第３の画像と第４の画像との間の対応点の組から、第３の画像と第４の画像との間で重複する領域の大きさを評価する。以下、重複領域の評価方法について説明する。
ある人物がカメラ１１１、カメラ１１２により撮影されたとする。その場合の第３の画像、及び第４の画像の一例を、それぞれ図１４（ａ）、（ｂ）に示す。図１４の例では、（Ｐ１１、Ｐ２１）、（Ｐ１２、Ｐ２２）、（Ｐ１３、Ｐ２３）、（Ｐ１４、Ｐ２４）、（Ｐ１５、Ｐ２５）が対応点の組である。
図１４（ｃ）のＲ１に示した領域は、第３の画像と第４の画像との重複領域の一例である。重複領域評価部３２０は、対応点の組に基づいて、例えば、以下のような処理で、第３の画像と第４の画像との重複領域Ｒ１を取得する。即ち、重複領域評価部３２０は、対応点の組から第４の画像内の位置座標から第３の画像内の位置座標への変換パラメータを算出する。そして、重複領域評価部３２０は、第４の画像の４隅の点の位置座標を第３の画像内の位置座標に変換し、変換された４つの点で囲まれた領域と第３の画像とが重複している領域を、第３の画像と第４の画像との重複領域として取得する。また、重複領域評価部３２０は、第３の画像内の対応点を全て含む設定された領域を、第３の画像と第４の画像との重複領域として取得してもよい。即ち、重複領域評価部３２０は、対応点の座標から第３の画像中のカメラ１１２により撮影可能な領域を推定し、その面積を求める。
そして、重複領域評価部３２０は、取得した第３の画像と第４の画像との重複領域の大きさが設定された閾値より大きい場合、カメラ１１１とカメラ１１２との視野が十分に重複しているとして図１３のＰＴＺ制御処理を終了する。また、重複領域評価部３２０は、取得した第３の画像と第４の画像との重複領域の大きさが設定された閾値以下である場合、カメラ１１１とカメラ１１２との視野が十分に重複していないとして、Ｓ１３０７の処理に進む。

Ｓ１３０７において、制御信号生成部３３０は、Ｓ１３０６で取得された重複領域に基づいて、カメラ１１１の視野とカメラ１１２の視野との重複が増大するように、カメラ１１１のＰＴＺ駆動量を求める。例えば、図１４（ｃ）のような状況であれば、制御信号生成部３３０は、カメラ１１１の視野を、領域Ｒ１が視野の中心になるようにカメラ１１１の撮像系のパン及びチルトの駆動量を求める。また、制御信号生成部３３０は、領域Ｒ１が視野全体となるようにカメラ１１１のズームの駆動量を求める。
Ｓ１３０８において、制御信号生成部３３０は、Ｓ１３０７で求められたＰＴＺ駆動量に応じて撮像系を駆動させる制御信号を、カメラ１１１に送出する。カメラ１１１は、創出されたＰＴＺ駆動量の制御信号に応じて、撮像系のパン、チルト、ズームの機構を駆動する。そして、制御信号生成部３３０は、Ｓ１３０１の処理に進む。なお、カメラ１１１の向きを制御している間に被写体が動くことがあるため、Ｓ１３０３ではなくＳ１３０１に戻るようにする。
以上、図１３の処理によって、情報処理装置１０は、カメラ１１１とカメラ１１２との視野が重複するようにカメラ１１１のパン、チルト、ズーム駆動系の制御を行うことで、カメラ１１１の視野を制御する。図１３の処理の後にカメラ１１１により撮影される画像は、例えば図１５に示すようなシーンであり、人物の全体像が撮像されており、図１４（ｂ）とシーンが重複していることが分かる。

Ｓ１１０２において、位置関係算出部１５０は、図１３の処理の後、実施形態１と同様の処理で、カメラ１１１により撮影された画像の座標系からカメラ１１２により撮影された画像の座標系への座標変換パラメータを求める。また、位置関係算出部１５０は、例えば、カメラ１１１により撮影された画像と、カメラ１１２により撮影された画像と、からＳ１３０５と同様の処理で、対応点を抽出する。そして、位置関係算出部１５０は、抽出した対応点同士の位置座標に基づいて、カメラ１１１により撮影された画像の位置座標からカメラ１１２により撮影された画像の位置座標への変換パラメータを算出することとしてもよい。

以上、本実施形態の処理により、情報処理装置１０は、カメラ１１１とカメラ１１２との視野を適切に重複させることができる。例えば、カメラ１１１が既に設置されている状況にカメラ１１２を新規に設置する等の場合、設置されたカメラ１１２と既存のカメラ１１１との視野が重複するか否かが不明である。情報処理装置１０は、このような場合でも、カメラ１１１とカメラ１１２との視野を適切に重複させ、同じオブジェクトを撮影可能なようにすることができる。
本実施形態では、カメラ１１１をＰＴＺ制御して視野をカメラ１１２と重複するようにしたが、カメラ１１２の近傍に複数のカメラが既に設置されている場合、情報処理装置１０は、それらの中から最適なカメラを選択して本実施形態の処理を適用できる。また、情報処理装置１０は、複数のカメラを制御して視野を重複させ、追加学習を行うようにしてもよい。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置１０の機能構成の一部又は全てをハードウェアとして情報処理装置１０に実装してもよい。

１０情報処理装置
１１ＣＰＵ
１１１カメラ１１２カメラ

Claims

第１の撮像装置によりオブジェクトが撮影された第１の画像と、前記第１の画像の座標系と第２の撮像装置により前記オブジェクトが撮影された第２の画像の座標系との対応関係と、に基づいて、前記第２の画像における前記オブジェクトの撮影方向を推定する推定手段と、
前記推定手段により推定された前記撮影方向に基づいて、前記第２の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、
前記第２の画像に含まれる前記オブジェクトの画像に基づいて、前記決定手段により決定された前記認識モデルを学習する学習手段と、
を有する情報処理装置。
前記第１の画像における前記オブジェクトの領域と、前記対応関係と、に基づいて、前記第２の画像における前記オブジェクトの領域を取得する取得手段を更に有し、
前記推定手段は、前記取得手段により取得された領域に基づいて、前記第２の画像における前記オブジェクトの撮影方向を推定する請求項１記載の情報処理装置。
前記オブジェクトは人物であり、前記推定手段は、前記第２の画像における前記人物の領域のアスペクト比に基づいて前記第２の画像における前記オブジェクトの撮影方向を推定する請求項２記載の情報処理装置。
前記学習手段は、前記第２の画像における前記取得手段により取得された領域の部分に基づいて、前記決定手段により決定された認識モデルを学習する請求項２又は３記載の情報処理装置。
前記決定手段は、前記推定手段により推定された前記撮影方向に基づいて、設定された複数の認識モデルから前記学習対象の認識モデルを選択することで、前記学習対象の認識モデルを決定する請求項１乃至４何れか１項記載の情報処理装置。
前記第１の撮像手段により撮影された第３の画像と、前記第２の撮像手段により撮影された第４の画像と、に基づいて、前記第１の撮像手段の視野と前記第２の撮像手段の視野とが重複する領域が増大するように、前記第１の撮像手段の視野を制御する制御手段を更に有する請求項１乃至５何れか１項記載の情報処理装置。
前記制御手段は、前記第３の画像における局所特徴量と、前記第４の画像における局所特徴量と、に基づいて、前記第１の撮像手段の視野と前記第２の撮像手段の視野とが重複する領域が増大するように、前記第１の撮像手段の視野を制御する請求項６記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
第１の撮像装置によりオブジェクトが撮影された第１の画像と、前記第１の画像の座標系と第２の撮像装置により前記オブジェクトが撮影された第２の画像の座標系との対応関係と、に基づいて、前記第２の画像における前記オブジェクトの撮影方向を推定する推定ステップと、
前記推定ステップで推定された前記撮影方向に基づいて、前記第２の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定ステップと、
前記第２の画像に含まれる前記オブジェクトの画像に基づいて、前記決定ステップで決定された前記認識モデルを学習する学習ステップと、
を含む情報処理方法。
コンピュータを、請求項１乃至７何れか１項記載の情報処理装置の各手段として、機能させるためのプログラム。