JP2018120283A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2018120283A JP2018120283A JP2017009453A JP2017009453A JP2018120283A JP 2018120283 A JP2018120283 A JP 2018120283A JP 2017009453 A JP2017009453 A JP 2017009453A JP 2017009453 A JP2017009453 A JP 2017009453A JP 2018120283 A JP2018120283 A JP 2018120283A
- Authority
- JP
- Japan
- Prior art keywords
- image
- unit
- information processing
- camera
- processing apparatus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Studio Devices (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
- Closed-Circuit Television Systems (AREA)
Abstract
【課題】オブジェクトの検出精度を向上させることを目的とする。【解決手段】第1の撮像装置によりオブジェクトが撮影された第1の画像と、第1の画像の座標系と第2の撮像装置によりオブジェクトが撮影された第2の画像の座標系との対応関係と、に基づいて、第2の画像におけるオブジェクトの撮影方向を推定する推定手段と、推定手段により推定された撮影方向に基づいて、第2の画像におけるオブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、第2の画像に含まれるオブジェクトの画像に基づいて、決定手段により決定された認識モデルを学習する学習手段と、を有する。【選択図】図4
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、セキュリティのために店舗等の施設内への監視カメラ等の撮像装置の設置が急速に普及している。そのような撮像装置を使って、画像を取得するだけでなく、画像中の人物等のオブジェクトを検出することによって混雑度を計測したり、オブジェクトの動線を解析することによって店舗のマーケティング調査に使用したりすることが提案されている。また、街頭に設置されている撮像装置により撮影された画像から特定のオブジェクトを検索したいという要望もある。
このような画像解析を行う場合、オブジェクトの検出精度が十分でないと役に立つ情報が得られない。画像から人物等のオブジェクトを検出する方法としては非特許文献1にあるような方法が提案されている。しかしながら、撮影するシーンによってはオブジェクトがカメラから遠い位置に立っているため十分な解像度が得られなかったり、オブジェクトが重なり合って一部が隠れたりするため、十分な検出精度が得られないという問題がある。
このような画像解析を行う場合、オブジェクトの検出精度が十分でないと役に立つ情報が得られない。画像から人物等のオブジェクトを検出する方法としては非特許文献1にあるような方法が提案されている。しかしながら、撮影するシーンによってはオブジェクトがカメラから遠い位置に立っているため十分な解像度が得られなかったり、オブジェクトが重なり合って一部が隠れたりするため、十分な検出精度が得られないという問題がある。
この問題に対し、非特許文献2には、視野が重複する複数の撮像装置で互いにオブジェクトを検出し、それらの検出結果を統合することでより高精度の検出結果を得ることが開示されている。
一方、人物の見えは撮影方向や姿勢によって大きく変化する。そこで、非特許文献3には、人体をパーツに分けてパーツ毎に撮影方向別の複数の認識モデルを使用することで検出精度を上げる技術が開示されている。
一方、人物の見えは撮影方向や姿勢によって大きく変化する。そこで、非特許文献3には、人体をパーツに分けてパーツ毎に撮影方向別の複数の認識モデルを使用することで検出精度を上げる技術が開示されている。
Dalal and Triggs. Histograms of Oriented Gradients for Human Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2005)
Leistnerら. VISUAL ON−LINE LEARNING IN DISTRIBUTED CAMERA NETWORKS. Proceedings of the International Conference on Distributed Smart Cameras (2008)
Yang and Ramanan. Articulated pose estimation with flexible mixtures−of−parts. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2011)
徐剛、辻三郎著.「3次元ビジョン」.共立出版(1998)
Bagarinaoら. Adapting SVM Image Classifiers to Changes in Imaging Conditions Using Incremental SVM: An Application to Car Detection. Proceedings of the 9th Asian Conference on Computer Vision(2009)
Oza and Russell. Online Bagging and Boosting. Proceedings of the Artificial Intelligence and Statistics(2001)
Szeliski著、玉木他訳.「コンピュータビジョン アルゴリズムと応用」.共立出版(2013)
非特許文献2には、更に、以下の技術が開示されている。即ち、あるカメラに撮影された画像についてのオブジェクトの検出結果を用いて、別のカメラに撮影された画像におけるオブジェクトの位置を推定する。そして、別のカメラにより撮影された画像における推定した位置の画像を学習サンプルとして、別のカメラにより撮影された画像についてのオブジェクトの認識モデルを学習する技術である。これにより、設置シーンにオブジェクトの認識モデルを適応させて精度向上を図ることができるとしている。
一方、店舗等の施設内や街頭を歩いている人物等のオブジェクトを検出する場合は姿勢の変化はそれほど大きくはないが、撮影する方向によって見えが大きく変わる。したがって、撮影方向によって複数の認識モデルを持つことが望ましい。また、その際、設置シーンに認識モデルを適応させることが望ましい。
しかし、オブジェクトの認識に複数の認識モデルを利用する場合、非特許文献2に記載の技術では、あるカメラに撮影された画像についてのオブジェクトの検出結果から求められた学習サンプルがどの認識モデルに適した学習サンプルであるかを特定できなかった。そのため、認識モデルを適した学習サンプルで学習できずに、オブジェクトの検出精度が向上できなかった。
一方、店舗等の施設内や街頭を歩いている人物等のオブジェクトを検出する場合は姿勢の変化はそれほど大きくはないが、撮影する方向によって見えが大きく変わる。したがって、撮影方向によって複数の認識モデルを持つことが望ましい。また、その際、設置シーンに認識モデルを適応させることが望ましい。
しかし、オブジェクトの認識に複数の認識モデルを利用する場合、非特許文献2に記載の技術では、あるカメラに撮影された画像についてのオブジェクトの検出結果から求められた学習サンプルがどの認識モデルに適した学習サンプルであるかを特定できなかった。そのため、認識モデルを適した学習サンプルで学習できずに、オブジェクトの検出精度が向上できなかった。
本発明の目的は、複数の撮像装置で撮影された画像から、オブジェクトを精度良く検出できるようにすることを目的とする。
本発明の情報処理装置は、第1の撮像装置によりオブジェクトが撮影された第1の画像と、前記第1の画像の座標系と第2の撮像装置により前記オブジェクトが撮影された第2の画像の座標系との対応関係と、に基づいて、前記第2の画像における前記オブジェクトの撮影方向を推定する推定手段と、前記推定手段により推定された前記撮影方向に基づいて、前記第2の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、前記第2の画像に含まれる前記オブジェクトの画像に基づいて、前記決定手段により決定された前記認識モデルを学習する学習手段と、を有する。
本発明によれば、オブジェクトの検出精度を向上させることができる。
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
図1は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。情報処理装置10は、CPU(Central Processing Unit)11、記憶装置12、入力装置13、及び出力装置14を含む。なお、各構成要素は、互いに通信可能に、バス等を介して接続されている。
CPU11は、情報処理装置10の動作をコントロールし、記憶装置12に格納されたプログラムの実行等を行う中央演算装置である。記憶装置12は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、CPU11の動作にもとづき読み込まれるプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、CPU11が、記憶装置12に格納されたプログラムの手順に従って処理を行うことによって、図2で後述する情報処理装置10の機能及び図4、6で後述するフローチャートに係る処理等が実現される。記憶装置12は、また、本実施形態に係る情報処理装置10が処理対象とする画像および検出結果を記憶する。
図1は、本実施形態に係る情報処理装置10のハードウェア構成の一例を示す図である。情報処理装置10は、CPU(Central Processing Unit)11、記憶装置12、入力装置13、及び出力装置14を含む。なお、各構成要素は、互いに通信可能に、バス等を介して接続されている。
CPU11は、情報処理装置10の動作をコントロールし、記憶装置12に格納されたプログラムの実行等を行う中央演算装置である。記憶装置12は、磁気記憶装置、半導体メモリ等のストレージデバイスであり、CPU11の動作にもとづき読み込まれるプログラム、長時間記憶しなくてはならないデータ等を記憶する。本実施形態では、CPU11が、記憶装置12に格納されたプログラムの手順に従って処理を行うことによって、図2で後述する情報処理装置10の機能及び図4、6で後述するフローチャートに係る処理等が実現される。記憶装置12は、また、本実施形態に係る情報処理装置10が処理対象とする画像および検出結果を記憶する。
入力装置13は、マウス、キーボード、タッチパネルデバイス、ボタン等の入力装置であり、ユーザからの各種の入力を受け付ける。入力装置13は、また、図2で後述するカメラ111、112等の撮像装置との間の情報のやり取りを行うためのインターフェースを含む。出力装置14は、液晶パネル、外部モニタ等の表示装置、音声出力装置等であり、各種の情報を出力する。
なお、情報処理装置10のハードウェア構成は、図1の構成に限られるものではない。例えば、情報処理装置10は、各種の装置間で通信を行うためのI/O装置を含むこととしてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力装置、有線、無線等による送受信装置等である。
なお、情報処理装置10のハードウェア構成は、図1の構成に限られるものではない。例えば、情報処理装置10は、各種の装置間で通信を行うためのI/O装置を含むこととしてもよい。例えば、I/O装置は、メモリーカード、USBケーブル等の入出力装置、有線、無線等による送受信装置等である。
図2は、情報処理装置10の機能構成等の一例を示す図である。情報処理装置10の処理及び機能は、CPU11により実現される。
情報処理装置10は、撮影情報取得部121、122、画像取得部131、132、検出部141、142、位置関係算出部150、位置推定部160、抽出部170、学習部180、選択部190、統合部200を含む。
撮影情報取得部121、122は、それぞれ、カメラ111、112から撮影情報を取得する。画像取得部131、132は、それぞれ、カメラ111、112により撮影された画像を取得する。検出部141、142は、それぞれ、カメラ111、112により撮影された画像から人物を検出する。位置関係算出部150は、カメラ111により撮影された画像の位置座標と、カメラ112により撮影された画像の位置座標と、の対応関係を算出する。位置推定部160は、カメラ112により撮影された画像内における検出部141により検出された人物の位置に対応する位置座標を推定する。抽出部170は、カメラ112により撮影された画像から部分画像を抽出する。学習部180は、人物の検出に用いられる認識モデルを学習する。選択部190は、学習対象である認識モデルを決定する。統合部200は、検出部141、142による検出結果を統合する。
情報処理装置10は、撮影情報取得部121、122、画像取得部131、132、検出部141、142、位置関係算出部150、位置推定部160、抽出部170、学習部180、選択部190、統合部200を含む。
撮影情報取得部121、122は、それぞれ、カメラ111、112から撮影情報を取得する。画像取得部131、132は、それぞれ、カメラ111、112により撮影された画像を取得する。検出部141、142は、それぞれ、カメラ111、112により撮影された画像から人物を検出する。位置関係算出部150は、カメラ111により撮影された画像の位置座標と、カメラ112により撮影された画像の位置座標と、の対応関係を算出する。位置推定部160は、カメラ112により撮影された画像内における検出部141により検出された人物の位置に対応する位置座標を推定する。抽出部170は、カメラ112により撮影された画像から部分画像を抽出する。学習部180は、人物の検出に用いられる認識モデルを学習する。選択部190は、学習対象である認識モデルを決定する。統合部200は、検出部141、142による検出結果を統合する。
カメラ111、112は、監視対象のシーンを撮影する撮像装置である。
撮影情報取得部121、122は、それぞれ、カメラ111、カメラ112の撮影情報を取得する。撮影情報とは、撮像装置により撮影された画像の位置座標と、撮影されたシーンの三次元空間座標と、を対応付ける情報であり、撮像装置の撮影倍率、撮像装置が撮影する方向から決定される。
画像取得部131、132は、それぞれ、カメラ111、カメラ112により撮影された画像を取得する。画像取得部131、132は、取得した各画像の情報を、記憶装置12に記憶する。
検出部141、142は、それぞれ、画像取得部131、画像取得部132により取得された画像から検出対象のオブジェクトを検出する。本実施形態では、検出対象のオブジェクトは、人物であるとするが、荷物、車両、ドローン等の物体でもよいし、犬、猫、家畜等の動物でもよい。
位置関係算出部150は、撮影情報取得部121、及び撮影情報取得部122により取得された撮影情報に基づいて、以下の処理を行う。即ち、位置関係算出部150は、カメラ111により撮影された画像における座標系を、カメラ112により撮影された画像における座標系に変換するための座標変換パラメータを算出する。算出される座標変換パラメータは、カメラ111により撮影された画像における座標系と、カメラ112により撮影された画像における座標系と、を対応付ける対応情報の一例である。
撮影情報取得部121、122は、それぞれ、カメラ111、カメラ112の撮影情報を取得する。撮影情報とは、撮像装置により撮影された画像の位置座標と、撮影されたシーンの三次元空間座標と、を対応付ける情報であり、撮像装置の撮影倍率、撮像装置が撮影する方向から決定される。
画像取得部131、132は、それぞれ、カメラ111、カメラ112により撮影された画像を取得する。画像取得部131、132は、取得した各画像の情報を、記憶装置12に記憶する。
検出部141、142は、それぞれ、画像取得部131、画像取得部132により取得された画像から検出対象のオブジェクトを検出する。本実施形態では、検出対象のオブジェクトは、人物であるとするが、荷物、車両、ドローン等の物体でもよいし、犬、猫、家畜等の動物でもよい。
位置関係算出部150は、撮影情報取得部121、及び撮影情報取得部122により取得された撮影情報に基づいて、以下の処理を行う。即ち、位置関係算出部150は、カメラ111により撮影された画像における座標系を、カメラ112により撮影された画像における座標系に変換するための座標変換パラメータを算出する。算出される座標変換パラメータは、カメラ111により撮影された画像における座標系と、カメラ112により撮影された画像における座標系と、を対応付ける対応情報の一例である。
位置推定部160は、位置関係算出部150により算出された座標変換パラメータを用いて、カメラ112により撮影された画像内における検出部141により検出された人物の位置に対応する座標を推定する。
抽出部170は、画像取得部132により取得された、カメラ112により撮影された画像から部分画像を抽出する。
学習部180は、抽出部170により抽出された部分画像を用いて、検出部142による人物の検出処理に用いられる認識モデルを学習する。
選択部190は、検出部142による人物の検出処理に用いられる複数の認識モデルから学習部180により学習される認識モデルを選択する。
統合部200は、検出部141及び検出部142による検出処理の結果を統合する。
抽出部170は、画像取得部132により取得された、カメラ112により撮影された画像から部分画像を抽出する。
学習部180は、抽出部170により抽出された部分画像を用いて、検出部142による人物の検出処理に用いられる認識モデルを学習する。
選択部190は、検出部142による人物の検出処理に用いられる複数の認識モデルから学習部180により学習される認識モデルを選択する。
統合部200は、検出部141及び検出部142による検出処理の結果を統合する。
以下では、情報処理装置10の処理について説明する。なお、カメラ111及びカメラ112は、図3に示すように撮影シーンに対して同じ人物を撮影可能なように視野が重複するように設置されている。本実施形態では、カメラ111及びカメラ112の視野は固定であるとする。また、カメラ111及びカメラ112の撮影情報も、固定であるとする。カメラ111及びカメラ112の撮影情報は、予め設定されている。また、カメラ111により撮影された画像における位置座標からカメラ112により撮影された画像における位置座標への変換に用いられる座標変換パラメータは、位置関係算出部150により予め算出されているとする。
図4は、情報処理装置10の処理の一例を示すフローチャートである。
S401において、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により撮影された画像を取得する。S401で取得される画像は、例えば、RGB各8ビットで表現されるビットマップデータである。また、カメラ111、カメラ112は、撮影のタイミングが一致するように、同期されている。そのため、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により同じタイミングで撮影された画像を取得する。しかし、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により設定された期間(例えば、ある時刻を中心に0.1秒間の期間等)内に撮影された画像を取得することとしてもよい。画像取得部131、画像取得部132は、取得した各画像を、記憶装置12に記憶する。以下では、画像取得部131により取得されたカメラ111により撮影された画像を第1の画像とする。また、以下では、画像取得部132により取得されたカメラ112により撮影された画像を第2の画像とする。
図4は、情報処理装置10の処理の一例を示すフローチャートである。
S401において、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により撮影された画像を取得する。S401で取得される画像は、例えば、RGB各8ビットで表現されるビットマップデータである。また、カメラ111、カメラ112は、撮影のタイミングが一致するように、同期されている。そのため、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により同じタイミングで撮影された画像を取得する。しかし、画像取得部131、画像取得部132は、それぞれ、カメラ111、カメラ112により設定された期間(例えば、ある時刻を中心に0.1秒間の期間等)内に撮影された画像を取得することとしてもよい。画像取得部131、画像取得部132は、取得した各画像を、記憶装置12に記憶する。以下では、画像取得部131により取得されたカメラ111により撮影された画像を第1の画像とする。また、以下では、画像取得部132により取得されたカメラ112により撮影された画像を第2の画像とする。
S402において、検出部141は、第1の画像から検出対象のオブジェクトである人物を検出する。検出部141の詳細を図5に示す。
検出部141は、部分画像取得部1411、特徴抽出部1412、パターン識別部1413、パラメータ取得部1414、検出結果出力部1415を含む。部分画像取得部1411は、第1の画像から人物を検出するための部分画像を取得する。特徴抽出部1412は、部分画像取得部1411により取得された部分画像から特徴量を抽出する。パターン識別部1413は、特徴抽出部1412により抽出された特徴量と、パラメータ取得部1414により取得された識別パラメータと、に基づいて、部分画像取得部1411により取得された部分画像が人物の画像か否かを識別する。パラメータ取得部1414は、人物を認識するための認識モデルから識別パラメータを取得する。検出結果出力部1415は、パターン識別部1413により人物と識別された場合に部分画像の矩形を表す4つの頂点の位置座標を出力する。
検出部141は、部分画像取得部1411、特徴抽出部1412、パターン識別部1413、パラメータ取得部1414、検出結果出力部1415を含む。部分画像取得部1411は、第1の画像から人物を検出するための部分画像を取得する。特徴抽出部1412は、部分画像取得部1411により取得された部分画像から特徴量を抽出する。パターン識別部1413は、特徴抽出部1412により抽出された特徴量と、パラメータ取得部1414により取得された識別パラメータと、に基づいて、部分画像取得部1411により取得された部分画像が人物の画像か否かを識別する。パラメータ取得部1414は、人物を認識するための認識モデルから識別パラメータを取得する。検出結果出力部1415は、パターン識別部1413により人物と識別された場合に部分画像の矩形を表す4つの頂点の位置座標を出力する。
図6は、検出部141の処理の一例を示すフローチャートである。以下では、図6を参照してS402の人物検出処理の詳細を説明する。
S601において、パラメータ取得部1414は、人物を認識するための認識モデルから1つを設定し、設定した認識モデルに応じた識別パラメータや探索範囲等のパラメータを取得する。識別パラメータとは、その認識モデルに対応するオブジェクトの識別処理に用いられるパラメータであり、例えば、その認識モデルから抽出される特徴量等である。本実施形態では、人物の認識に用いられる認識モデルには、正面モデルM1、側面モデルM2、平面モデルM3の3つがある。各モデルの情報は、予め、記憶装置12に記憶されており、パラメータ取得部1414により管理されている。図7に各モデルが認識対象とする人物画像の一例を示す。正面モデルM1は、図7(a)に示すように人物を正面方向から撮影した画像を認識対象とする認識モデルである。本実施形態では、情報処理装置10は、人物の輪郭を捉える特徴量を用いて識別処理を行うこととする。そのため、正面モデルM1は、人物を前方から撮影した画像に加えて輪郭が類似する人物を後方から撮影した画像も認識可能なように事前学習によって得られたものである。また、側面モデルM2、平面モデルM3は、それぞれ図7(b)、(c)に示した人物画像を認識対象とする認識モデルである。
S601において、パラメータ取得部1414は、人物を認識するための認識モデルから1つを設定し、設定した認識モデルに応じた識別パラメータや探索範囲等のパラメータを取得する。識別パラメータとは、その認識モデルに対応するオブジェクトの識別処理に用いられるパラメータであり、例えば、その認識モデルから抽出される特徴量等である。本実施形態では、人物の認識に用いられる認識モデルには、正面モデルM1、側面モデルM2、平面モデルM3の3つがある。各モデルの情報は、予め、記憶装置12に記憶されており、パラメータ取得部1414により管理されている。図7に各モデルが認識対象とする人物画像の一例を示す。正面モデルM1は、図7(a)に示すように人物を正面方向から撮影した画像を認識対象とする認識モデルである。本実施形態では、情報処理装置10は、人物の輪郭を捉える特徴量を用いて識別処理を行うこととする。そのため、正面モデルM1は、人物を前方から撮影した画像に加えて輪郭が類似する人物を後方から撮影した画像も認識可能なように事前学習によって得られたものである。また、側面モデルM2、平面モデルM3は、それぞれ図7(b)、(c)に示した人物画像を認識対象とする認識モデルである。
このように人物は、その撮影される方向によって見えが異なるが、本実施形態では、情報処理装置10は、撮影される方向の異なる複数の認識モデルを用いることで、人物の見えの変動に対応している。図7(c)に示すように、平面モデルM3は、厳密に人物の上方から撮影された画像のみを認識対象とするという訳ではなく、人物の上方の周辺の方向から撮影された画像も認識対象とするように学習されている。
平面モデルM3は、例えば、設定された範囲(例えば、水平方向から70度〜90度の範囲等)の俯角で撮影された人物を認識対象として学習されている。また、正面モデルM1についても、厳密に人物の前方から撮影された画像のみを認識対象とするという訳ではなく、人物の前方の周辺の方向から撮影された画像も認識対象とするように学習されている。正面モデルM1は、例えば、人物の前方方向を基準方位として、設定された範囲(例えば、−10度〜10度、及び170度〜190度の範囲等)の方位角で撮影された人物を認識対象として学習されている。また、側面モデルM2についても、厳密に人物の側面から撮影された画像のみを認識対象とするという訳ではなく、人物の側面方向の周辺の方向から撮影された画像も認識対象とするように学習されている。側面モデルM2は、例えば、人物の側面方向を基準方位として、設定された範囲(例えば、−10度〜10度、及び170度〜190度の範囲等)の方位角で撮影された人物を認識対象として学習されている。
平面モデルM3は、例えば、設定された範囲(例えば、水平方向から70度〜90度の範囲等)の俯角で撮影された人物を認識対象として学習されている。また、正面モデルM1についても、厳密に人物の前方から撮影された画像のみを認識対象とするという訳ではなく、人物の前方の周辺の方向から撮影された画像も認識対象とするように学習されている。正面モデルM1は、例えば、人物の前方方向を基準方位として、設定された範囲(例えば、−10度〜10度、及び170度〜190度の範囲等)の方位角で撮影された人物を認識対象として学習されている。また、側面モデルM2についても、厳密に人物の側面から撮影された画像のみを認識対象とするという訳ではなく、人物の側面方向の周辺の方向から撮影された画像も認識対象とするように学習されている。側面モデルM2は、例えば、人物の側面方向を基準方位として、設定された範囲(例えば、−10度〜10度、及び170度〜190度の範囲等)の方位角で撮影された人物を認識対象として学習されている。
また、図7に示すように人物の画像は、撮影の際の状況により、見えだけでなく、人物を囲む領域の形状も異なる。本実施形態では、情報処理装置10は、画像中の矩形領域についてパターン照合を行い、その矩形領域が人物か否かの識別を行い、照合対象の矩形領域の縦横のサイズを照合に用いられる認識モデルによって変更する。更に、特定のシーンを撮影するカメラにより撮影された画像では、画像中の位置に応じて人物の見える方向に偏りがある。そこで本実施形態では、情報処理装置10は、認識モデルに応じて、人物を探索する画像中の範囲である探索範囲を変更するようにしている。以上のような処理を行うため、人物の各認識モデル(認識モデルM1〜M3)は、パターン識別処理に用いられる識別パラメータに加えて、照合対象とする矩形領域の縦横サイズ、画像中の探索範囲の情報等のパラメータを含む。これらのパラメータがパラメータ取得部1414によって取得される。本実施形態では、情報処理装置10は、3つの認識モデルを順次切り替えて、以下のS602〜S605の処理を繰り返す。対応する撮影方向をより細かく分割して多くの認識モデルで人物のモデルを構成した方が識別精度は有利であるが、処理量は増加する。このような構成においても本実施形態の処理は、適用できるが、本実施形態では3つの認識モデルで人物モデルを構成する。
S602において、部分画像取得部1411は、第1の画像から人物を検出するための部分領域画像を取得する。画像からオブジェクトを検出するには、例えば、画像から探索ウィンドウと呼ばれる所定の部分領域の画像を取得し、取得した画像と検出対象のオブジェクトを表すモデルとの照合を行う。そして、探索ウィンドウを画像中で順次移動させ、照合を繰り返すことによって画像中からオブジェクトを検出する。本実施形態でも、情報処理装置10は、このような方法でオブジェクトを検出する。即ち、情報処理装置10は、S602で部分領域画像を取得し、以下に示すS603〜S605の処理を行うことを繰り返す。
S603において、特徴抽出部1412は、S602で取得された部分領域の画像から人物を検出するための特徴量を抽出する。本実施形態では、特徴抽出部1412は、非特許文献1にあるような勾配方向ヒストグラム特徴(Histograms of Oriented Gradients)を抽出する。勾配方向ヒストグラム特徴は、画像の輝度勾配の和を方向別に求めることによってエッジ形状を表現する特徴量の一つであり、人物画像においては主にその輪郭を捉えるのに有用である。情報処理装置10は、人物の識別に用いる特徴量として、勾配方向ヒストグラム特徴に限られない。情報処理装置10は、勾配方向ヒストグラム特徴の他にも、例えば、Haar−like特徴、LBPH特徴(Local Binary Pattern Histogram)等を用いてもよいし、それらを組み合せた特徴量を用いてもよい。
S603において、特徴抽出部1412は、S602で取得された部分領域の画像から人物を検出するための特徴量を抽出する。本実施形態では、特徴抽出部1412は、非特許文献1にあるような勾配方向ヒストグラム特徴(Histograms of Oriented Gradients)を抽出する。勾配方向ヒストグラム特徴は、画像の輝度勾配の和を方向別に求めることによってエッジ形状を表現する特徴量の一つであり、人物画像においては主にその輪郭を捉えるのに有用である。情報処理装置10は、人物の識別に用いる特徴量として、勾配方向ヒストグラム特徴に限られない。情報処理装置10は、勾配方向ヒストグラム特徴の他にも、例えば、Haar−like特徴、LBPH特徴(Local Binary Pattern Histogram)等を用いてもよいし、それらを組み合せた特徴量を用いてもよい。
S604において、パターン識別部1413は、S603で特徴抽出部1412により抽出された特徴量と、S601でパラメータ取得部1414により取得された識別パラメータと、に基づいて、以下の処理を行う。即ち、パターン識別部1413は、S602で部分画像取得部1411により取得された部分領域画像が人物か否かを識別する。非特許文献1ではサポートベクターマシンによって人物識別器を学習し、識別に用いる方法が示されており、本実施形態においても、情報処理装置10は、その方法を適用する。但し、非特許文献1では、様々な方向から見た人物の画像を一つの認識モデルで識別する方法が示されている。しかし、本実施形態では、情報処理装置10は、撮影される方向毎に複数の認識モデルを用いて、照合対象の部分画像を、それぞれの認識モデルとの照合を行って、対応する方向から撮影された人物を識別するようにした。S604では、パターン識別部1413は、一つの認識モデルとの照合をS601でパラメータ取得部1414により取得された識別パラメータを用いて行う。パターン識別部1413は、例えば、以下の式1を用いて、線形サポートベクターマシンによるパターン識別処理を行う。
y = sign<x、 w> (式1)
式1で、xは、S603で特徴抽出部1412により抽出された勾配方向ヒストグラム特徴である。また、wは、S601でパラメータ取得部1414により取得された識別パラメータであり、xと次元数の同じベクトルである。また、<>は、ベクトルの内積演算を示す演算子である。また、signは、符号演算を表す演算子であり、正の値の場合+1、負の値の場合−1を返す。また、yは、識別結果であり、+1であれば人物、−1であれば人物以外を表す。パターン識別部1413は、計算結果であるyの値に基づいて、画像が人物であるか否かを識別する。パターン識別部1413は、S604で式1を用いる識別方法の他にも、カーネル演算を用いたサポートベクターマシンやアダブースト識別器、ランダム分類木(Randomized Tree)等を用いた識別方法を行ってもよい。
y = sign<x、 w> (式1)
式1で、xは、S603で特徴抽出部1412により抽出された勾配方向ヒストグラム特徴である。また、wは、S601でパラメータ取得部1414により取得された識別パラメータであり、xと次元数の同じベクトルである。また、<>は、ベクトルの内積演算を示す演算子である。また、signは、符号演算を表す演算子であり、正の値の場合+1、負の値の場合−1を返す。また、yは、識別結果であり、+1であれば人物、−1であれば人物以外を表す。パターン識別部1413は、計算結果であるyの値に基づいて、画像が人物であるか否かを識別する。パターン識別部1413は、S604で式1を用いる識別方法の他にも、カーネル演算を用いたサポートベクターマシンやアダブースト識別器、ランダム分類木(Randomized Tree)等を用いた識別方法を行ってもよい。
S605において、検出結果出力部1415は、S602で取得された部分画像がS604でパターン識別部1413により人物と識別された場合、その部分画像の矩形を表す4つの頂点の第1の画像内における位置座標を出力する。
S606において、部分画像取得部1411は、第1の画像におけるS601で取得された探索範囲の情報が示す範囲から取得できる部分画像の全てについて、S603〜S605の処理を行ったか否かを判定する。部分画像取得部1411は、行ったと判定した場合、S607の処理に進む。また、部分画像取得部1411は、行っていないと判定した場合、S602の処理に進み、まだ取得していない部分画像を取得する。
S607において、パラメータ取得部1414は、全ての認識モデルについて、S601〜S606の処理を行ったか否かを判定する。パラメータ取得部1414は、行ったと判定した場合、図6の処理を終了し、S403の処理に進む。パラメータ取得部1414は、行っていないと判定した場合、S601の処理に進み、まだ用いていない認識モデルから識別パラメータ等を取得する。
S606において、部分画像取得部1411は、第1の画像におけるS601で取得された探索範囲の情報が示す範囲から取得できる部分画像の全てについて、S603〜S605の処理を行ったか否かを判定する。部分画像取得部1411は、行ったと判定した場合、S607の処理に進む。また、部分画像取得部1411は、行っていないと判定した場合、S602の処理に進み、まだ取得していない部分画像を取得する。
S607において、パラメータ取得部1414は、全ての認識モデルについて、S601〜S606の処理を行ったか否かを判定する。パラメータ取得部1414は、行ったと判定した場合、図6の処理を終了し、S403の処理に進む。パラメータ取得部1414は、行っていないと判定した場合、S601の処理に進み、まだ用いていない認識モデルから識別パラメータ等を取得する。
S403において、位置推定部160は、位置関係算出部150により算出された座標変換パラメータを用いて、S402で検出部141により検出された人物に対応する第2の画像における位置座標を推定する。まず、位置推定部160は、検出部141により出力された人物である部分画像の矩形を表す4つの頂点の第1の画像における位置座標に対して、座標変換パラメータを適用して第2の画像中のそれぞれのエピポーラ線を推定する。そして、位置推定部160は、推定したエピポーラ線に沿って相関法による対応付けを行ってそれぞれ対応する第2の画像の位置座標を算出する。
位置推定部160は、例えば、非特許文献4に開示されている座標変換パラメータを用いたエピポーラ線の推定及び相関法による対応付けの方法を行う。但し、カメラ111とカメラ112間で人物の見えの違いによっては、相関法による対応付けが困難になる。このような場合は、画像取得部131、132は、第1の画像、第2の画像の取得と同期して距離画像取得を行う。そして、位置推定部160は、座標変換パラメータと、取得された距離画像と、に基づいて、第2の画像の人物領域の位置座標を推定する。距離画像を取得するための手段としては、例えば、TOF(Time of Flight)方式、パターン投光方式の距離センサー等がある。
位置推定部160は、例えば、非特許文献4に開示されている座標変換パラメータを用いたエピポーラ線の推定及び相関法による対応付けの方法を行う。但し、カメラ111とカメラ112間で人物の見えの違いによっては、相関法による対応付けが困難になる。このような場合は、画像取得部131、132は、第1の画像、第2の画像の取得と同期して距離画像取得を行う。そして、位置推定部160は、座標変換パラメータと、取得された距離画像と、に基づいて、第2の画像の人物領域の位置座標を推定する。距離画像を取得するための手段としては、例えば、TOF(Time of Flight)方式、パターン投光方式の距離センサー等がある。
ここで、位置関係算出部150が座標変換パラメータを事前に算出する方法の一例について説明する。
まず、画像取得部131は、カメラ111により撮影された形状が既知のキャリブレーションパターンの画像を取得する。キャリブレーションパターンは、例えば図8に示すような点が格子状に並んで描かれているボードであり、各点の位置関係は、既知である。図8のキャリブレーションパターンを撮影シーン中に配置し、カメラ111で撮影した画像を画像取得部131が取得する。撮影情報取得部121は、画像取得部131により取得された画像からキャリブレーションパターンの各点の画像中における位置座標を抽出する。撮影情報取得部121は、例えば、取得された画像を出力装置14に表示し、入力装置13を介したユーザによる各点のポインティングを受け付けることで位置座標を取得する。位置座標は、各点の画像中の重心位置である。また、撮影情報取得部121は、各点の位置座標を図8に示す点Oからの相対座標として表す。そして、撮影情報取得部121は、カメラ111により撮影された画像の位置座標と撮影するシーンの三次元空間座標とを対応付ける撮影情報を取得する。
まず、画像取得部131は、カメラ111により撮影された形状が既知のキャリブレーションパターンの画像を取得する。キャリブレーションパターンは、例えば図8に示すような点が格子状に並んで描かれているボードであり、各点の位置関係は、既知である。図8のキャリブレーションパターンを撮影シーン中に配置し、カメラ111で撮影した画像を画像取得部131が取得する。撮影情報取得部121は、画像取得部131により取得された画像からキャリブレーションパターンの各点の画像中における位置座標を抽出する。撮影情報取得部121は、例えば、取得された画像を出力装置14に表示し、入力装置13を介したユーザによる各点のポインティングを受け付けることで位置座標を取得する。位置座標は、各点の画像中の重心位置である。また、撮影情報取得部121は、各点の位置座標を図8に示す点Oからの相対座標として表す。そして、撮影情報取得部121は、カメラ111により撮影された画像の位置座標と撮影するシーンの三次元空間座標とを対応付ける撮影情報を取得する。
キャリブレーションパターンをそのまま配置し、撮影情報取得部122は、撮影情報取得部121と同様に、カメラ112により撮影されたキャリブレーションパターンの画像に基づいて、以下の処理を行う。即ち、撮影情報取得部122は、カメラ112により撮影された画像の位置座標と撮影するシーンの三次元空間座標とを対応付ける撮影情報を取得する。
次に、位置関係算出部150は、撮影情報取得部121及び122によりそれぞれ取得された撮影情報から第1の画像における座標系と第2の画像における座標系とを対応付ける座標変換パラメータを算出する。位置関係算出部150は、例えば、非特許文献4に開示されている両眼視のカメラ校正の方法を用いて、座標変換パラメータを算出する。なお、本実施形態では、位置関係算出部150は、三次元空間座標と画像中の位置座標が線形関係にあると仮定して座標系の変換を行うようにしたが、カメラの光学的幾何歪みが大きい場合には歪曲を考慮して撮影情報及び位置関係を算出してもよい。
次に、位置関係算出部150は、撮影情報取得部121及び122によりそれぞれ取得された撮影情報から第1の画像における座標系と第2の画像における座標系とを対応付ける座標変換パラメータを算出する。位置関係算出部150は、例えば、非特許文献4に開示されている両眼視のカメラ校正の方法を用いて、座標変換パラメータを算出する。なお、本実施形態では、位置関係算出部150は、三次元空間座標と画像中の位置座標が線形関係にあると仮定して座標系の変換を行うようにしたが、カメラの光学的幾何歪みが大きい場合には歪曲を考慮して撮影情報及び位置関係を算出してもよい。
S404において、選択部190は、S403で位置推定部160により推定された位置座標に基づいて、学習部180により学習される認識モデルを選択する。ここで選択される認識モデルは、検出部142が管理する複数の認識モデルのうちの一つである。なお、本実施形態では検出部142の詳細は、図5に示される検出部141の詳細と同様である。検出部142は、認識モデルとして、正面モデル、側面モデル、平面モデルの3つの認識モデルを管理する。
以下、本実施形態における認識モデルの選択方法について図9を用いて説明する。図9の中の点A、B、C、Dは、検出部141により検出された第1の画像中の人物の領域の頂点である。また、点A'、B'、C'、D'は、それぞれ位置推定部160により推定された点A、B、C、Dに対応する第2の画像中の頂点である。本実施形態では、選択部190は、点A'、B'、C'、D'で特定される領域のアスペクト比に基づいて、人物がどの方向から撮影されたかを推定し、推定した方向に基づいて、認識モデルの選択を行う。画像における人物等のオブジェクトが撮影された方向を、オブジェクトの撮影方向とする。
画像における人物が占める領域は、人物が正面から撮影された場合、上方から撮影された場合に比べて、縦長な領域となる。また、画像における人物が占める領域は、横から撮影された場合、正面から撮影された場合に比べて、横幅に比べて縦幅がより長い領域となる。このように、画像における人物が撮影された方向は、その画像においてその人物が占める領域のアスペクト比と相関が認められる。
以下、本実施形態における認識モデルの選択方法について図9を用いて説明する。図9の中の点A、B、C、Dは、検出部141により検出された第1の画像中の人物の領域の頂点である。また、点A'、B'、C'、D'は、それぞれ位置推定部160により推定された点A、B、C、Dに対応する第2の画像中の頂点である。本実施形態では、選択部190は、点A'、B'、C'、D'で特定される領域のアスペクト比に基づいて、人物がどの方向から撮影されたかを推定し、推定した方向に基づいて、認識モデルの選択を行う。画像における人物等のオブジェクトが撮影された方向を、オブジェクトの撮影方向とする。
画像における人物が占める領域は、人物が正面から撮影された場合、上方から撮影された場合に比べて、縦長な領域となる。また、画像における人物が占める領域は、横から撮影された場合、正面から撮影された場合に比べて、横幅に比べて縦幅がより長い領域となる。このように、画像における人物が撮影された方向は、その画像においてその人物が占める領域のアスペクト比と相関が認められる。
点A'、B'、C'、D'の第2の画像における位置座標を、それぞれ(uA,vA)、(uB,vB)、(uC,vC)、(uD,vD)とする。本実施形態では、選択部190は、以下の式2を用いて四角形A'B'C'D'の擬似的なアスペクト比Rを算出する。
R=|((v_A+v_B)−(v_C+v_D))/((u_B+u_D)−(u_A+u_C))| (式2)
式2中の||は、絶対値を表す演算子である。そして、選択部190は、算出したRに対応する認識モデルを選択する。本実施形態では、記憶装置12は、予め、各認識モデルに対応するRの範囲を示す情報を記憶している。選択部190は、記憶装置12に記憶されている各認識モデルに対応するRの範囲を示す情報に基づいて、算出したRの値がどの認識モデルに対応するかを決定する。各認識モデルに対応するRの範囲を示す情報は、例えば、Rの値が設定された第1の閾値未満であれば、平面モデルに対応することを示す。また、各認識モデルに対応するRの範囲を示す情報は、Rの値が設定された第1の閾値以上であり第1の閾値よりも大きい設定された第2の閾値未満であれば、正面モデルに対応することを示す。また、各認識モデルに対応するRの範囲を示す情報は、例えば、Rの値が設定された第2の閾値以上であれば、側面モデルに対応することを示す。
図9の例では、検出部141は、正面モデルに基づいて、人物を検出した。この人物領域が図9の四角形A'B'C'D'のように対応する場合、カメラ112が人物を上方から撮影したと推測される。なぜなら、四角形A'B'C'D'から求まるアスペクト比Rが、平面モデルのアスペクト比に適合するためである。
R=|((v_A+v_B)−(v_C+v_D))/((u_B+u_D)−(u_A+u_C))| (式2)
式2中の||は、絶対値を表す演算子である。そして、選択部190は、算出したRに対応する認識モデルを選択する。本実施形態では、記憶装置12は、予め、各認識モデルに対応するRの範囲を示す情報を記憶している。選択部190は、記憶装置12に記憶されている各認識モデルに対応するRの範囲を示す情報に基づいて、算出したRの値がどの認識モデルに対応するかを決定する。各認識モデルに対応するRの範囲を示す情報は、例えば、Rの値が設定された第1の閾値未満であれば、平面モデルに対応することを示す。また、各認識モデルに対応するRの範囲を示す情報は、Rの値が設定された第1の閾値以上であり第1の閾値よりも大きい設定された第2の閾値未満であれば、正面モデルに対応することを示す。また、各認識モデルに対応するRの範囲を示す情報は、例えば、Rの値が設定された第2の閾値以上であれば、側面モデルに対応することを示す。
図9の例では、検出部141は、正面モデルに基づいて、人物を検出した。この人物領域が図9の四角形A'B'C'D'のように対応する場合、カメラ112が人物を上方から撮影したと推測される。なぜなら、四角形A'B'C'D'から求まるアスペクト比Rが、平面モデルのアスペクト比に適合するためである。
選択部190は、算出したRの値に対応する認識モデルを選択し、決定した認識モデルを、学習部180により学習される認識モデルとして決定する。
本実施形態では、選択部190は、第2の画像における変換後の人物領域のアスペクト比に基づいて、認識モデルを選択するようにした。しかし、例えば、選択部190は、検出部141により検出された人物領域と、検出部141による検出に用いられた認識モデルと、位置関係算出部150により算出された座標変換パラメータと、に基づいて、以下の処理を行うこととしてもよい。即ち、選択部190は、検出部141による検出に用いられた認識モデルに基づいて、人物が第1の画像においてどの方向から撮影されたかを推定する。そして、選択部190は、検出部141により人物が検出された位置と位置関係算出部150により算出された座標変換パラメータとに基づいて、第1の画像における人物が第2の画像において、向きがどのように変化するかを特定する。そして、選択部190は、特定した第1の画像において人物が撮影された方向と、第1の画像における人物の第2の画像における向きの変化と、に基づいて、直接人物が第2の画像において、どのような方向から撮影されたかを推定する。そして、選択部190は、推定した方向に対応する認識モデルを選択し、選択した認識モデルを、学習部180により学習される認識モデルとして決定してもよい。
本実施形態では、選択部190は、第2の画像における変換後の人物領域のアスペクト比に基づいて、認識モデルを選択するようにした。しかし、例えば、選択部190は、検出部141により検出された人物領域と、検出部141による検出に用いられた認識モデルと、位置関係算出部150により算出された座標変換パラメータと、に基づいて、以下の処理を行うこととしてもよい。即ち、選択部190は、検出部141による検出に用いられた認識モデルに基づいて、人物が第1の画像においてどの方向から撮影されたかを推定する。そして、選択部190は、検出部141により人物が検出された位置と位置関係算出部150により算出された座標変換パラメータとに基づいて、第1の画像における人物が第2の画像において、向きがどのように変化するかを特定する。そして、選択部190は、特定した第1の画像において人物が撮影された方向と、第1の画像における人物の第2の画像における向きの変化と、に基づいて、直接人物が第2の画像において、どのような方向から撮影されたかを推定する。そして、選択部190は、推定した方向に対応する認識モデルを選択し、選択した認識モデルを、学習部180により学習される認識モデルとして決定してもよい。
S405において、抽出部170は、S401で画像取得部132により取得された第2の画像から、S403で位置推定部160により推定された頂点座標に基づいて部分画像を抽出する。この処理で抽出される画像は、S402で第1の画像中から人物領域として検出された部分画像に対応する第2の画像中の部分画像であり、人物が写っている可能性のある領域の画像である。なお、抽出される部分画像の縦横のアスペクト比は、S404で選択された認識モデルに対応する値となる。
S406において、学習部180は、S405で抽出部170により抽出された部分画像を用いて、S404で選択部190により学習部180により学習される認識モデルとして決定された認識モデルを学習する。本実施形態では、学習部180は、抽出部170により抽出された部分画像から特徴抽出部1412と同様の処理を行い、勾配方向ヒストグラム特徴を抽出して、抽出した勾配方向ヒストグラム特徴を追加学習サンプルとする。そして、学習部180は、選択部190により選択された認識モデルに対して追加学習を行う。学習部180は、例えば非特許文献5に開示されているサポートベクターマシンの追加型学習法により、追加学習を行う。S406で適用される学習処理は、検出部142により行われる識別処理に従う。例えば、検出部142による識別処理がアダブースト識別器を用いる識別処理の場合、学習部180は、非特許文献6に開示されているオンラインブースティングを用いて学習する。このように本実施形態においては、学習部180は、カメラ112により撮影された画像から抽出された部分画像に対応する認識モデルを選択して追加学習を行うようにした。したがって、学習部180は、人物が撮影される方向に応じて見えの類似したサンプルで対応する認識モデルの追加学習を行うので、複数の認識モデルで構成される認識モデルの長所を損なうことなく、識別処理の精度を向上できる。
S407において、検出部142は、第2の画像から人物を検出する。検出部142の詳細は、図5に示す検出部141の詳細と同様である。また、検出部142の処理は、図6に示す検出部141の処理と同様である。但し、S407の処理では、検出部142は、S406で追加学習された認識モデルを用いる。したがって、本実施形態では、検出部142は、検出部141により検出された人物領域に対応する第2の画像中の人物画像の影響を加味して、カメラ112により撮影されたシーンに適応するように人物検出処理を行うので精度向上が期待できる。
S408において、統合部200は、検出部141及び検出部142による検出処理の結果を統合する。S408で統合される検出処理の結果は、検出部141により第1の画像から検出され、位置推定部160により推定された第2の画像中の人物の領域と、検出部142により第2の画像から検出された人物領域と、である。統合部200は、人物領域が検出されなかった場合や1つしか検出されなかった場合には、処理を行わず、そのまま結果を出力する。統合部200は、人物領域として検出した結果が複数ある場合には、非特許文献1に開示されている重複した領域を1つにまとめる処理(Non−Maximum Suppression)を適用することで、検出した人物領域を統合する。
統合部200は、例えば、情報処理装置10の出力装置14に統合処理の結果を示す情報を表示することで出力する。また、統合部200は、例えば、記憶装置12に統合処理の結果を示す情報を記憶することで出力する。また、統合部200は、例えば、設定された送信先に統合処理の結果を示す情報を送信することで出力する。
統合部200は、例えば、情報処理装置10の出力装置14に統合処理の結果を示す情報を表示することで出力する。また、統合部200は、例えば、記憶装置12に統合処理の結果を示す情報を記憶することで出力する。また、統合部200は、例えば、設定された送信先に統合処理の結果を示す情報を送信することで出力する。
S409において、統合部200は、カメラ111及びカメラ112による撮影が終了したか否かを判定する。統合部200は、カメラ111及びカメラ112による撮影が終了したと判定した場合、図4の処理を終了する。統合部200は、カメラ111及びカメラ112による撮影が終了していないと判定した場合、S401の処理に進む。
以上の処理により、情報処理装置10は、S401〜S408の処理を、カメラ111及びカメラ112により画像が撮影される度に繰り返し行う。
以上の処理により、情報処理装置10は、S401〜S408の処理を、カメラ111及びカメラ112により画像が撮影される度に繰り返し行う。
本実施形態では、情報処理装置10は、カメラ111により撮影された画像についての人物の検出結果を用いてカメラ112により撮影された画像について用いられる認識モデルを学習し、検出精度を向上させ、それらの検出結果を統合することとした。情報処理装置10は、カメラ112により撮影された画像についての人物検出の結果を用いて、カメラ111により撮影された画像について用いられる認識モデルを学習することとしてもよい。また、情報処理装置10は、カメラ111、カメラ112により撮影された画像についての人物の検出結果を相互に利用して、それぞれのカメラについて用いられる認識モデルの学習を行うこととしてもよい。
また、本実施形態では、認識モデルは、異なる方向から撮影された人物の画像毎の認識モデルを含むこととした。認識モデルが、例えば、人物の高解像度画像と低解像度画像別の認識モデルを含む構成の場合や、人物が他の物体によって隠れる隠れ領域別に認識モデルを含む構成の場合でも、情報処理装置10は、本実施形態の処理を適用できる。情報処理装置10は、本実施形態の処理を行い、認識モデルを学習する際に追加学習の学習サンプルに対して適切な認識モデルを選択するようにすればよい。
また、本実施形態では、認識モデルは、異なる方向から撮影された人物の画像毎の認識モデルを含むこととした。認識モデルが、例えば、人物の高解像度画像と低解像度画像別の認識モデルを含む構成の場合や、人物が他の物体によって隠れる隠れ領域別に認識モデルを含む構成の場合でも、情報処理装置10は、本実施形態の処理を適用できる。情報処理装置10は、本実施形態の処理を行い、認識モデルを学習する際に追加学習の学習サンプルに対して適切な認識モデルを選択するようにすればよい。
以上、本実施形態では、情報処理装置10は、カメラ111により撮影された画像についての人物の検出結果と、カメラ111の視野とカメラ112の視野との対応関係と、に基づいて、学習されるカメラ112により撮影された画像用の認識モデルを決定した。そして、情報処理装置10は、カメラ111により撮影された画像についての人物の検出結果に対応するカメラ112により撮影された画像の部分画像を用いて、決定した認識モデルを学習することとした。このように、情報処理装置10は、より適切にカメラ112により撮影された画像用の認識モデルを学習することができる。これにより、情報処理装置10は、カメラ112により撮影された画像からの人物の検出処理の精度を向上させることができる。
<実施形態2>
実施形態1では、カメラ111の視野とカメラ112の視野とは、同じオブジェクトを撮影可能なように予め重複しているものとした。しかし、カメラ111が設置されている状況に、新たにカメラ112が設置されるような場合、カメラ112の視野が、カメラ111の視野と同じオブジェクトを撮影可能なように重複するとは限らない。
そこで、本実施形態の情報処理装置10は、カメラ111とカメラ112との視野を適切に重複させるように、カメラ111の視野を制御する処理を行う。
本実施形態の情報処理装置10のハードウェア構成は、実施形態1と同様である。本実施形態では、CPU11が、記憶装置12に格納されたプログラムの手順に従って処理を行うことによって、図10で後述する情報処理装置10の機能及び図11、12、14で後述するフローチャートに係る処理等が実現される。
実施形態1では、カメラ111の視野とカメラ112の視野とは、同じオブジェクトを撮影可能なように予め重複しているものとした。しかし、カメラ111が設置されている状況に、新たにカメラ112が設置されるような場合、カメラ112の視野が、カメラ111の視野と同じオブジェクトを撮影可能なように重複するとは限らない。
そこで、本実施形態の情報処理装置10は、カメラ111とカメラ112との視野を適切に重複させるように、カメラ111の視野を制御する処理を行う。
本実施形態の情報処理装置10のハードウェア構成は、実施形態1と同様である。本実施形態では、CPU11が、記憶装置12に格納されたプログラムの手順に従って処理を行うことによって、図10で後述する情報処理装置10の機能及び図11、12、14で後述するフローチャートに係る処理等が実現される。
図10は、本実施形態の情報処理装置10の機能構成の一例を示す図である。図10に示される本実施形態の情報処理装置10の機能構成は、図2に示される実施形態1の機能構成と比べて、PTZ制御部300を含む点で異なる。
PTZ制御部300は、カメラ111の駆動系を制御する制御部である。図10の機能構成要素のうち、図2と共通するものは、図2と同様である。
PTZ制御部300は、カメラ111の駆動系を制御する制御部である。図10の機能構成要素のうち、図2と共通するものは、図2と同様である。
以下、本実施形態における情報処理装置10の処理について説明する。図11は、本実施形態の情報処理装置10の処理の一例を示すフローチャートである。以下では、カメラ111が設置されている状況に、新規にカメラ112が設置される場合において、カメラ112の検出部142を撮影するシーンに最適化させ、カメラ111の検出結果と統合させる処理について説明する。
S1101において、PTZ制御部300は、カメラ111の視野と、カメラ112の視野と、が重複するように、カメラ111のパン、チルト、ズーム駆動系を制御することで、カメラ111の視野を制御する。
S1102において、位置関係算出部150は、カメラ111及びカメラ112の位置関係を表す座標変換パラメータを算出する。S1101〜S1102の詳細については、図13等で後述する。以降、S401〜S409の処理において、情報処理装置10は、S1102で視野を制御されたカメラ111により撮影された画像に基づいて処理を行うことになる。S401〜S409の処理は、実施形態1と同様である。
S1101において、PTZ制御部300は、カメラ111の視野と、カメラ112の視野と、が重複するように、カメラ111のパン、チルト、ズーム駆動系を制御することで、カメラ111の視野を制御する。
S1102において、位置関係算出部150は、カメラ111及びカメラ112の位置関係を表す座標変換パラメータを算出する。S1101〜S1102の詳細については、図13等で後述する。以降、S401〜S409の処理において、情報処理装置10は、S1102で視野を制御されたカメラ111により撮影された画像に基づいて処理を行うことになる。S401〜S409の処理は、実施形態1と同様である。
PTZ制御部300の詳細を図12に示す。
PTZ制御部300は、対応点抽出部310、重複領域評価部320、制御信号生成部330を含む。対応点抽出部310は、カメラ111により撮影された画像と、カメラ112により撮影された画像と、の間で対応する点を抽出する。重複領域評価部320は、対応点抽出部310により抽出された点に基づいて、カメラ111により撮影された画像と、カメラ112により撮影された画像と、の間で重複する領域の大きさを評価する。制御信号生成部330は、重複領域評価部320による評価に基づいて、カメラ111の視野を制御するための制御信号を生成する。
PTZ制御部300が行うPTZ制御処理の詳細を図13に示す。以下、図13を参照して、S1101のPTZ制御処理の詳細を説明する。
S1301において、対応点抽出部310は、カメラ112により撮影された画像を画像取得部132から取得する。
PTZ制御部300は、対応点抽出部310、重複領域評価部320、制御信号生成部330を含む。対応点抽出部310は、カメラ111により撮影された画像と、カメラ112により撮影された画像と、の間で対応する点を抽出する。重複領域評価部320は、対応点抽出部310により抽出された点に基づいて、カメラ111により撮影された画像と、カメラ112により撮影された画像と、の間で重複する領域の大きさを評価する。制御信号生成部330は、重複領域評価部320による評価に基づいて、カメラ111の視野を制御するための制御信号を生成する。
PTZ制御部300が行うPTZ制御処理の詳細を図13に示す。以下、図13を参照して、S1101のPTZ制御処理の詳細を説明する。
S1301において、対応点抽出部310は、カメラ112により撮影された画像を画像取得部132から取得する。
S1302において、対応点抽出部310は、S1301で取得された画像から局所特徴量を抽出する。局所特徴量とは、画像中の局所領域に着目して抽出されるエッジ等の他の部分と区別のつく特徴である。本実施形態では、対応点抽出部310は、S1301で取得された画像からSIFT特徴量を抽出する。SIFT特徴量は、画像中の輝度分布が極値を取る位置の近傍領域から方向別に輝度勾配を求めてヒストグラム化した特徴量で、画像シフト、変倍、回転に対する不変性に優れている特徴量である。対応点抽出部310は、S1302で抽出した局所特徴量をPTZ制御処理の間、一時的に記憶装置12に記憶しておく。
S1303において、対応点抽出部310は、カメラ111により撮影された画像を画像取得部131から取得する。以下では、S1303で取得されたカメラ111により撮影された画像を、第3の画像とする。また、以下では、S1301で取得されたカメラ112により撮影された画像を、第4の画像とする。
S1304において、対応点抽出部310は、S1302と同様の処理で、S1303で取得された画像から局所特徴量を抽出する。
S1303において、対応点抽出部310は、カメラ111により撮影された画像を画像取得部131から取得する。以下では、S1303で取得されたカメラ111により撮影された画像を、第3の画像とする。また、以下では、S1301で取得されたカメラ112により撮影された画像を、第4の画像とする。
S1304において、対応点抽出部310は、S1302と同様の処理で、S1303で取得された画像から局所特徴量を抽出する。
S1305において、対応点抽出部310は、S1302及びS1304で抽出された局所特徴量に基づいて、第3の画像と第4の画像とから、対応する点を抽出する。対応点抽出部310は、例えば、第3の画像中のある点に対応する局所特徴量と第4の画像中のある点に対応する局所特徴量との類似度を算出し、類似度が所定の閾値以上である場合、それらの点を対応付ける。対応付けられた点を、対応点とする。対応点抽出部310は、局所特徴量間の類似度として、例えば、ベクトル同士の内積値やヒストグラムインターセクションを用いる。また、対応点抽出部310は、抽出した対応点の組に対してRANSACアルゴリズムによって信頼度の低い対応点を削除することができる。
以上の対応点抽出部310の処理の詳細は、非特許文献7に開示されている。
以上の対応点抽出部310の処理の詳細は、非特許文献7に開示されている。
S1306において、重複領域評価部320は、S1305で抽出された第3の画像と第4の画像との間の対応点の組から、第3の画像と第4の画像との間で重複する領域の大きさを評価する。以下、重複領域の評価方法について説明する。
ある人物がカメラ111、カメラ112により撮影されたとする。その場合の第3の画像、及び第4の画像の一例を、それぞれ図14(a)、(b)に示す。図14の例では、(P11、P21)、(P12、P22)、(P13、P23)、(P14、P24)、(P15、P25)が対応点の組である。
図14(c)のR1に示した領域は、第3の画像と第4の画像との重複領域の一例である。重複領域評価部320は、対応点の組に基づいて、例えば、以下のような処理で、第3の画像と第4の画像との重複領域R1を取得する。即ち、重複領域評価部320は、対応点の組から第4の画像内の位置座標から第3の画像内の位置座標への変換パラメータを算出する。そして、重複領域評価部320は、第4の画像の4隅の点の位置座標を第3の画像内の位置座標に変換し、変換された4つの点で囲まれた領域と第3の画像とが重複している領域を、第3の画像と第4の画像との重複領域として取得する。また、重複領域評価部320は、第3の画像内の対応点を全て含む設定された領域を、第3の画像と第4の画像との重複領域として取得してもよい。即ち、重複領域評価部320は、対応点の座標から第3の画像中のカメラ112により撮影可能な領域を推定し、その面積を求める。
そして、重複領域評価部320は、取得した第3の画像と第4の画像との重複領域の大きさが設定された閾値より大きい場合、カメラ111とカメラ112との視野が十分に重複しているとして図13のPTZ制御処理を終了する。また、重複領域評価部320は、取得した第3の画像と第4の画像との重複領域の大きさが設定された閾値以下である場合、カメラ111とカメラ112との視野が十分に重複していないとして、S1307の処理に進む。
ある人物がカメラ111、カメラ112により撮影されたとする。その場合の第3の画像、及び第4の画像の一例を、それぞれ図14(a)、(b)に示す。図14の例では、(P11、P21)、(P12、P22)、(P13、P23)、(P14、P24)、(P15、P25)が対応点の組である。
図14(c)のR1に示した領域は、第3の画像と第4の画像との重複領域の一例である。重複領域評価部320は、対応点の組に基づいて、例えば、以下のような処理で、第3の画像と第4の画像との重複領域R1を取得する。即ち、重複領域評価部320は、対応点の組から第4の画像内の位置座標から第3の画像内の位置座標への変換パラメータを算出する。そして、重複領域評価部320は、第4の画像の4隅の点の位置座標を第3の画像内の位置座標に変換し、変換された4つの点で囲まれた領域と第3の画像とが重複している領域を、第3の画像と第4の画像との重複領域として取得する。また、重複領域評価部320は、第3の画像内の対応点を全て含む設定された領域を、第3の画像と第4の画像との重複領域として取得してもよい。即ち、重複領域評価部320は、対応点の座標から第3の画像中のカメラ112により撮影可能な領域を推定し、その面積を求める。
そして、重複領域評価部320は、取得した第3の画像と第4の画像との重複領域の大きさが設定された閾値より大きい場合、カメラ111とカメラ112との視野が十分に重複しているとして図13のPTZ制御処理を終了する。また、重複領域評価部320は、取得した第3の画像と第4の画像との重複領域の大きさが設定された閾値以下である場合、カメラ111とカメラ112との視野が十分に重複していないとして、S1307の処理に進む。
S1307において、制御信号生成部330は、S1306で取得された重複領域に基づいて、カメラ111の視野とカメラ112の視野との重複が増大するように、カメラ111のPTZ駆動量を求める。例えば、図14(c)のような状況であれば、制御信号生成部330は、カメラ111の視野を、領域R1が視野の中心になるようにカメラ111の撮像系のパン及びチルトの駆動量を求める。また、制御信号生成部330は、領域R1が視野全体となるようにカメラ111のズームの駆動量を求める。
S1308において、制御信号生成部330は、S1307で求められたPTZ駆動量に応じて撮像系を駆動させる制御信号を、カメラ111に送出する。カメラ111は、創出されたPTZ駆動量の制御信号に応じて、撮像系のパン、チルト、ズームの機構を駆動する。そして、制御信号生成部330は、S1301の処理に進む。なお、カメラ111の向きを制御している間に被写体が動くことがあるため、S1303ではなくS1301に戻るようにする。
以上、図13の処理によって、情報処理装置10は、カメラ111とカメラ112との視野が重複するようにカメラ111のパン、チルト、ズーム駆動系の制御を行うことで、カメラ111の視野を制御する。図13の処理の後にカメラ111により撮影される画像は、例えば図15に示すようなシーンであり、人物の全体像が撮像されており、図14(b)とシーンが重複していることが分かる。
S1308において、制御信号生成部330は、S1307で求められたPTZ駆動量に応じて撮像系を駆動させる制御信号を、カメラ111に送出する。カメラ111は、創出されたPTZ駆動量の制御信号に応じて、撮像系のパン、チルト、ズームの機構を駆動する。そして、制御信号生成部330は、S1301の処理に進む。なお、カメラ111の向きを制御している間に被写体が動くことがあるため、S1303ではなくS1301に戻るようにする。
以上、図13の処理によって、情報処理装置10は、カメラ111とカメラ112との視野が重複するようにカメラ111のパン、チルト、ズーム駆動系の制御を行うことで、カメラ111の視野を制御する。図13の処理の後にカメラ111により撮影される画像は、例えば図15に示すようなシーンであり、人物の全体像が撮像されており、図14(b)とシーンが重複していることが分かる。
S1102において、位置関係算出部150は、図13の処理の後、実施形態1と同様の処理で、カメラ111により撮影された画像の座標系からカメラ112により撮影された画像の座標系への座標変換パラメータを求める。また、位置関係算出部150は、例えば、カメラ111により撮影された画像と、カメラ112により撮影された画像と、からS1305と同様の処理で、対応点を抽出する。そして、位置関係算出部150は、抽出した対応点同士の位置座標に基づいて、カメラ111により撮影された画像の位置座標からカメラ112により撮影された画像の位置座標への変換パラメータを算出することとしてもよい。
以上、本実施形態の処理により、情報処理装置10は、カメラ111とカメラ112との視野を適切に重複させることができる。例えば、カメラ111が既に設置されている状況にカメラ112を新規に設置する等の場合、設置されたカメラ112と既存のカメラ111との視野が重複するか否かが不明である。情報処理装置10は、このような場合でも、カメラ111とカメラ112との視野を適切に重複させ、同じオブジェクトを撮影可能なようにすることができる。
本実施形態では、カメラ111をPTZ制御して視野をカメラ112と重複するようにしたが、カメラ112の近傍に複数のカメラが既に設置されている場合、情報処理装置10は、それらの中から最適なカメラを選択して本実施形態の処理を適用できる。また、情報処理装置10は、複数のカメラを制御して視野を重複させ、追加学習を行うようにしてもよい。
本実施形態では、カメラ111をPTZ制御して視野をカメラ112と重複するようにしたが、カメラ112の近傍に複数のカメラが既に設置されている場合、情報処理装置10は、それらの中から最適なカメラを選択して本実施形態の処理を適用できる。また、情報処理装置10は、複数のカメラを制御して視野を重複させ、追加学習を行うようにしてもよい。
<その他の実施形態>
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置10の機能構成の一部又は全てをハードウェアとして情報処理装置10に実装してもよい。
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読み出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置10の機能構成の一部又は全てをハードウェアとして情報処理装置10に実装してもよい。
10 情報処理装置
11 CPU
111 カメラ112 カメラ
11 CPU
111 カメラ112 カメラ
Claims (9)
- 第1の撮像装置によりオブジェクトが撮影された第1の画像と、前記第1の画像の座標系と第2の撮像装置により前記オブジェクトが撮影された第2の画像の座標系との対応関係と、に基づいて、前記第2の画像における前記オブジェクトの撮影方向を推定する推定手段と、
前記推定手段により推定された前記撮影方向に基づいて、前記第2の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定手段と、
前記第2の画像に含まれる前記オブジェクトの画像に基づいて、前記決定手段により決定された前記認識モデルを学習する学習手段と、
を有する情報処理装置。 - 前記第1の画像における前記オブジェクトの領域と、前記対応関係と、に基づいて、前記第2の画像における前記オブジェクトの領域を取得する取得手段を更に有し、
前記推定手段は、前記取得手段により取得された領域に基づいて、前記第2の画像における前記オブジェクトの撮影方向を推定する請求項1記載の情報処理装置。 - 前記オブジェクトは人物であり、前記推定手段は、前記第2の画像における前記人物の領域のアスペクト比に基づいて前記第2の画像における前記オブジェクトの撮影方向を推定する請求項2記載の情報処理装置。
- 前記学習手段は、前記第2の画像における前記取得手段により取得された領域の部分に基づいて、前記決定手段により決定された認識モデルを学習する請求項2又は3記載の情報処理装置。
- 前記決定手段は、前記推定手段により推定された前記撮影方向に基づいて、設定された複数の認識モデルから前記学習対象の認識モデルを選択することで、前記学習対象の認識モデルを決定する請求項1乃至4何れか1項記載の情報処理装置。
- 前記第1の撮像手段により撮影された第3の画像と、前記第2の撮像手段により撮影された第4の画像と、に基づいて、前記第1の撮像手段の視野と前記第2の撮像手段の視野とが重複する領域が増大するように、前記第1の撮像手段の視野を制御する制御手段を更に有する請求項1乃至5何れか1項記載の情報処理装置。
- 前記制御手段は、前記第3の画像における局所特徴量と、前記第4の画像における局所特徴量と、に基づいて、前記第1の撮像手段の視野と前記第2の撮像手段の視野とが重複する領域が増大するように、前記第1の撮像手段の視野を制御する請求項6記載の情報処理装置。
- 情報処理装置が実行する情報処理方法であって、
第1の撮像装置によりオブジェクトが撮影された第1の画像と、前記第1の画像の座標系と第2の撮像装置により前記オブジェクトが撮影された第2の画像の座標系との対応関係と、に基づいて、前記第2の画像における前記オブジェクトの撮影方向を推定する推定ステップと、
前記推定ステップで推定された前記撮影方向に基づいて、前記第2の画像における前記オブジェクトの検出に用いられる、学習対象の認識モデルを決定する決定ステップと、
前記第2の画像に含まれる前記オブジェクトの画像に基づいて、前記決定ステップで決定された前記認識モデルを学習する学習ステップと、
を含む情報処理方法。 - コンピュータを、請求項1乃至7何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017009453A JP2018120283A (ja) | 2017-01-23 | 2017-01-23 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017009453A JP2018120283A (ja) | 2017-01-23 | 2017-01-23 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018120283A true JP2018120283A (ja) | 2018-08-02 |
Family
ID=63043823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017009453A Pending JP2018120283A (ja) | 2017-01-23 | 2017-01-23 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018120283A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200120035A (ko) * | 2019-04-11 | 2020-10-21 | 주식회사 디오 | 오랄 스캔 영상에서의 치아 오브젝트 검출 방법 및 장치 |
KR20200120036A (ko) * | 2019-04-11 | 2020-10-21 | 주식회사 디오 | 치아 오브젝트를 이용한 영상 정합 방법 및 장치 |
JP2021013111A (ja) * | 2019-07-08 | 2021-02-04 | セコム株式会社 | カメラ配置評価装置、カメラ配置評価方法、及びコンピュータプログラム |
CN113645902A (zh) * | 2019-04-11 | 2021-11-12 | 株式会社迪耀 | 牙齿目标检测方法及利用牙齿目标的影像整合方法及装置 |
JP2022542204A (ja) * | 2019-07-31 | 2022-09-30 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 画像座標系の変換方法並びにその、装置、機器およびコンピュータプログラム |
US11842466B2 (en) | 2020-09-16 | 2023-12-12 | Canon Kabushiki Kaisha | Information processing device and information processing method |
-
2017
- 2017-01-23 JP JP2017009453A patent/JP2018120283A/ja active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200120035A (ko) * | 2019-04-11 | 2020-10-21 | 주식회사 디오 | 오랄 스캔 영상에서의 치아 오브젝트 검출 방법 및 장치 |
KR20200120036A (ko) * | 2019-04-11 | 2020-10-21 | 주식회사 디오 | 치아 오브젝트를 이용한 영상 정합 방법 및 장치 |
KR102284623B1 (ko) * | 2019-04-11 | 2021-08-02 | 주식회사 디오 | 오랄 스캔 영상에서의 치아 오브젝트 검출 방법 및 장치 |
KR102322634B1 (ko) * | 2019-04-11 | 2021-11-08 | 주식회사 디오 | 치아 오브젝트를 이용한 영상 정합 방법 및 장치 |
CN113645902A (zh) * | 2019-04-11 | 2021-11-12 | 株式会社迪耀 | 牙齿目标检测方法及利用牙齿目标的影像整合方法及装置 |
US11978203B2 (en) | 2019-04-11 | 2024-05-07 | Dio Corporation | Dental object detection method, and image matching method and device using dental object |
JP2021013111A (ja) * | 2019-07-08 | 2021-02-04 | セコム株式会社 | カメラ配置評価装置、カメラ配置評価方法、及びコンピュータプログラム |
JP7332363B2 (ja) | 2019-07-08 | 2023-08-23 | セコム株式会社 | カメラ配置評価装置、カメラ配置評価方法、及びコンピュータプログラム |
JP2022542204A (ja) * | 2019-07-31 | 2022-09-30 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 画像座標系の変換方法並びにその、装置、機器およびコンピュータプログラム |
JP7266106B2 (ja) | 2019-07-31 | 2023-04-27 | テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド | 画像座標系の変換方法並びにその、装置、機器およびコンピュータプログラム |
US11928800B2 (en) | 2019-07-31 | 2024-03-12 | Tencent Technology (Shenzhen) Company Limited | Image coordinate system transformation method and apparatus, device, and storage medium |
US11842466B2 (en) | 2020-09-16 | 2023-12-12 | Canon Kabushiki Kaisha | Information processing device and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10198823B1 (en) | Segmentation of object image data from background image data | |
JP6942488B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
JP6700752B2 (ja) | 位置検出装置、位置検出方法及びプログラム | |
US9646212B2 (en) | Methods, devices and systems for detecting objects in a video | |
CN108292362B (zh) | 用于光标控制的手势识别 | |
JP6428266B2 (ja) | 色補正装置、色補正方法および色補正用プログラム | |
JP2018120283A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP6590609B2 (ja) | 画像解析装置及び画像解析方法 | |
EP2704056A2 (en) | Image processing apparatus, image processing method | |
US20110187703A1 (en) | Method and system for object tracking using appearance model | |
JP2016099982A (ja) | 行動認識装置、行動学習装置、方法、及びプログラム | |
JP7334432B2 (ja) | 物体追跡装置、監視システムおよび物体追跡方法 | |
JP7354767B2 (ja) | 物体追跡装置および物体追跡方法 | |
CN111382637A (zh) | 行人检测跟踪方法、装置、终端设备及介质 | |
CN106406507B (zh) | 图像处理方法以及电子设备 | |
JP6606340B2 (ja) | 画像検出装置、画像検出方法およびプログラム | |
JP2019046278A (ja) | 情報処理装置、制御方法、コンピュータプログラム、記憶媒体、及びモデル作成装置 | |
JP4942197B2 (ja) | テンプレート作成装置及び表情認識装置並びにその方法、プログラム及び記録媒体 | |
SrirangamSridharan et al. | Object localization and size estimation from RGB-D images | |
CN117238039B (zh) | 基于顶视视角的多任务人体行为分析方法及*** | |
Le et al. | Geometry-Based 3D Object Fitting and Localizing in Grasping Aid for Visually Impaired | |
EP4287123A1 (en) | Method of estimating a three-dimensional position of an object | |
Kornelly et al. | Mobile phone optical sensor usage for navigation tasks | |
Shenoy et al. | Stereovision based 3D hand gesture recognition for pervasive computing applications | |
Heidari et al. | Fusion of spatial and visual information for object tracking on iPhone |