WO2021166290A1

WO2021166290A1 - 物体検出装置、物体検出システム、および、物体検出方法

Info

Publication number: WO2021166290A1
Application number: PCT/JP2020/032521
Authority: WO
Inventors: 聡笹谷; 佐々木　剛志; 誠也伊藤
Original assignee: 株式会社日立製作所
Priority date: 2020-02-20
Filing date: 2020-08-28
Publication date: 2021-08-26
Also published as: JP2021131734A; JP7358269B2

Abstract

計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援する。物体検出装置１は、物体検出の対象である実画像データとは別の学習画像データの集合と、各学習画像データに対してタグ付けされた学習シーンデータとを有する辞書データ１２Ｄの記憶部と、物体検出の対象である実画像データから、辞書データ１２Ｄにより物体を検出する物体検出部１５と、物体検出部１５の物体検出結果から実画像データにタグ付けする実シーンデータを推定する実シーン推定部１６と、推定された実シーンデータと、辞書データ１２Ｄの学習シーンデータとの類似度を算出するシーン類似度算出部１７と、追加学習に必要な学習要素データを出力する追加学習要素出力部１８とを有する。

Description

物体検出装置、物体検出システム、および、物体検出方法

　本発明は、物体検出装置、物体検出システム、および、物体検出方法に関する。

　映像認識技術により監視カメラなどが取得した映像データを解析することで、検出対象やその周囲の物体を認識することができる。一般的な映像認識技術として、畳み込みニューラルネットワークなどの機械学習により作成した辞書データを用いる方法がある。
　その機械学習の辞書データを作成するため、事前に学習用の画像データを収集する必要がある。そして収集された大量の画像データに対して、各画像データに写っている物体の種類、位置、大きさなどの説明データをタグデータとして、画像データに付与する作業（アノテーションと呼ばれる）が手動で行われる。

　本来は様々な地点に設置した監視カメラの多様なシーンを大量に学習できればよいものの、現実的な工数を踏まえると地点やシーンのバリエーションは制限される。そのため、監視カメラの設置環境によっては、構築した辞書データによる物体検出精度が低下する場面が多々ある。本対策として、現地のカメラ画角や撮影シーンに類似した画像を追加学習することで事前に構築した辞書データを更新する方法が挙げられる。

　しかし、追加学習には画像へのアノテーションなど新規の作業が発生するため、効率的に精度の高い辞書データを構築する方法が求められる。特許文献１では、現地映像に対して、複数のカメラ方向で撮影した検出対象の画像データから作成した辞書データを適用し、最も高い尤度を出力した辞書データを元に追加学習をするシステムが記載されている。

特開２０１６－１５０４５号公報

　同じ空間内に複数の監視カメラが設置されたイベント会場などでは、同じ被写体を撮影した画像データであっても、各監視カメラの設置環境のちがいによって画像データ内の被写体の撮影結果がそれぞれ違うこともある。また、同じ監視カメラで時間をずらして撮影した複数の画像データであっても、各時間での被写体の位置のちがいによって画像データ内の被写体の撮影結果がそれぞれ違うこともある。

　よって、実際に監視対象となる被写体が写る画像データ（実画像データ）と照合するための辞書データは、なるべく実画像データと近い環境下の画像データ集合から学習したものを用いることで、実画像データから被写体の検出精度が高くなる。
　しかし、従来の技術では、実画像データの環境に適応した辞書データを選択するという観点では、機械学習がなされていなかった。特許文献１では、検出対象の向き情報を活用して追加学習の元になる辞書データを選定するだけである。

　そこで、本発明は、計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援することを、主な課題とする。

　前記課題を解決するために、本発明の物体検出装置は、以下の特徴を有する。
　本発明は、学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、
　物体検出の対象である実計測データから、前記辞書データにより物体を検出する物体検出部と、
　前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
　推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
　前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
　前記追加学習要素出力部が、
　前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
　前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする。
　その他の手段は、後記する。

　本発明によれば、計測範囲内の被写体の検出精度を向上させるための辞書データの構築を支援することができる。

本発明の実施例１に関する物体検出装置の構成図である。本発明の実施例１に関する学習シーン取得部の構成図である。本発明の実施例１に関する追加学習要素出力部の構成図である。本発明の実施例１に関する学習画像データの一例を示す図である。本発明の実施例１に関する図４の学習画像データに付与された学習シーンデータである。本発明の実施例１に関するアノテーションデータ解析部の説明図である。本発明の実施例１に関する実画像データの一例を示す図である。本発明の実施例１に関する図７の実画像データに付与された実シーンデータである。本発明の実施例１に関する実シーン推定部の説明図である。本発明の実施例１に関する第２の実画像データの一例を示す図である。本発明の実施例１に関する第２の実シーンデータである。本発明の実施例１に関する実シーン推定部の第２の説明図である。本発明の実施例１に関する学習シーン解析部の処理を示すフローチャートである。本発明の実施例２に関する物体検出装置の構成図である。

　以下、本発明の具体的な実施形態（実施例１，２）について、図面を参照しながら説明する。

　図１は、物体検出装置１の構成図である。
　物体検出装置１は演算装置としてのＣＰＵ（Central Processing Unit）、主記憶装置としてのメモリ、および、外部記憶装置としてのハードディスクを有する計算機として構成される。
　この計算機は、ＣＰＵが、メモリ上に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、各処理部により構成される制御部（制御手段）を動作させる。

　カメラ２は、計測現場に設置され、物体検出の対象となる撮影した実画像データ（実計測データ）を、カメラ情報取得部１４に出力する計測装置である。物体検出装置１はカメラ２と同一筐体としてもよいし、カメラ２とは別の筐体としてもよい。なお、実施例１では、計測装置をモノラルのカメラ２とした場合について説明するが、計測装置はこれに限定されるものではなく、ステレオカメラや距離センサなどの他のセンサに応用可能である。

　学習画像データ３（詳細は図４）は、物体検出のために実画像データと照合される学習画像データ（学習計測データ）の集合である。つまり、画像データは、物体検出の対象となる実画像データと、機械学習により辞書データ１２Ｄを構築する素材となる学習画像データとに分類される。
　以下、画像データの集合を構成する１枚の画像データ（フレーム）を「シーン」と呼ぶ。シーンデータは、各シーンの画像データごとに、アノテーションにより付与されるタグデータである。例えば、実画像データに対しては実シーンデータが付与されるとともに、学習画像データに対しては学習シーンデータが付与される。
　よって、物体検出装置１は、学習シーンデータと、実シーンデータとを比較することで、辞書データ１２Ｄの追加学習のために必要な学習画像データを特定するデータ（以下、「学習要素データ」）を出力する。

　物体検出装置１は、アノテーション部１１と、辞書生成部１２と、辞書データ１２Ｄの記憶部と、学習シーン取得部１３と、カメラ情報取得部１４と、物体検出部１５と、実シーン推定部１６と、シーン類似度算出部１７と、追加学習要素出力部１８とを有する。
　アノテーション部１１は、学習画像データ３を構成する１枚ずつの各学習画像データに対して、学習シーンデータをタグ付け（アノテーション）する（詳細は図５）。
　辞書生成部１２は、アノテーション部１１により生成された学習シーンデータと、学習画像データ３との組み合わせデータを、辞書データ１２Ｄとして構築する。
　学習シーン取得部１３は、学習画像データ３から各シーンを選択し、その選択したシーンごとの学習シーンデータを辞書データ１２Ｄから取得する。

　図２は、学習シーン取得部１３の構成図である。
　学習シーン取得部１３は、アノテーションデータ解析部１３１と、映像解析部１３２と、カメラパラメータ取得部１３３と、学習シーン解析部１３４とを有する。
　アノテーションデータ解析部１３１は、取得した学習シーンデータを解析することで、検出対象の位置分布マップを取得する（詳細は図６）。
　映像解析部１３２は、学習画像データ３内の画像を解析し、画質などの撮影条件を撮影環境情報として取得する。
　カメラパラメータ取得部１３３は、学習画像データ３内の画像を撮影したカメラ２のパラメータを取得する。
　学習シーン解析部１３４は、アノテーションデータ解析部１３１の位置分布マップと、映像解析部１３２の撮影環境情報と、カメラパラメータ取得部１３３のカメラパラメータとを元に学習シーンを解析し、その解析結果を学習シーンデータとする（詳細は図１３）。

　図１に戻り、物体検出装置１の各構成要素の概要を説明する。
　カメラ情報取得部１４は、カメラ２の撮像画像である実画像データに加え、その実画像データに付与する実シーンデータとして、例えば、撮影環境情報、および、カメラパラメータを取得する。撮影環境情報は、実画像データの撮影条件を示す情報であり、例えば、撮影時間帯情報、撮影場所情報である。なお、実シーンデータは学習シーンデータと同等なデータであり、その内容は特に限定しない。
　物体検出部１５は、辞書データ１２Ｄを用いて実画像データ中に存在する検出対象の物体を検出する（詳細は図５）。
　実シーン推定部１６は、カメラ情報取得部１４が取得した撮影環境情報およびカメラパラメータと、物体検出部１５の物体検出結果とをもとに、実画像データに付与する実シーンデータを推定する。
　シーン類似度算出部１７は、学習シーン取得部１３が取得した学習シーンデータと、実シーン推定部１６が推定した実シーンデータとを比較することで、両シーン間の類似度を算出する。

　図３は追加学習要素出力部１８の構成図である。
　追加学習要素出力部１８は、シーン類似度算出部１７が算出した類似度から、辞書データ１２Ｄの追加学習のために必要な学習要素データを出力する。追加学習要素出力部１８は、辞書適応度取得部１８１と、追加学習判定部１８２と、追加学習要素決定部１８３とを有する。
　辞書適応度取得部１８１は、現在使用している辞書データ１２Ｄの実シーンデータへの適応度を取得する。
　追加学習判定部１８２は、辞書適応度取得部１８１の適応度に応じて追加学習が必要か否かを判定する。
　追加学習要素決定部１８３は、追加学習判定部１８２により追加学習が必要と判定された場合に、追加学習に必要となる学習要素データを決定し、その学習要素データをユーザまたは他システムに出力する。

　図４は、学習画像データ３の一例を示す図である。
　この学習画像データ３ａには、２人の検出対象（本例では人物１１１，１２１）が写っている。検知枠１１２，１２２は各人物１１１，１２１を囲う矩形であり、始点座標１１３，１２３は、検知枠１１２，１２２の学習画像データ３ａにおける始点（左上点）の座標である。

　図５は、図４の学習画像データに付与された学習シーンデータである。
　アノテーション部１１は、シーンごとの学習画像データの各人物１１１，１２１に対して、ＧＵＩなどを利用し、手動により検知枠１１２，１２２の入力を受け付ける。さらに、アノテーション部１１は、検知枠１１２，１２２で指定された各人物１１１，１２１の詳細情報の入力を受け付ける。以下、詳細情報の一例である。
　・その対象が何かを示すクラス情報（ここでは人物を示す「Person」）と、そのクラス情報である確率を示す信頼度
　・検知枠の始点座標１１３，１２３
　・検知枠のサイズ（横幅情報と縦幅情報）
　これらの入力された各情報は、学習シーンデータとして学習画像データに付与される。

　辞書生成部１２は、学習画像データ３と対応するタグデータ（学習シーンデータ）から、機械学習などを活用することで、画像中の人物を検出可能な辞書データ１２Ｄを生成する。換言すると、辞書生成部１２は、学習シーンデータを正解ラベルとして学習画像データ３を入力データとする推論モデルを辞書データ１２Ｄとして生成することで、物体検出部１５が実画像データを入力データとする推論モデル（辞書データ１２Ｄ）により、実シーンデータ（検出する物体）を特定可能とする。
　なお、本実施例では、複数の学習画像データ３とタグデータのペアから、予め複数の事象を生成してもよい。また、辞書データ１２Ｄを生成する際のアルゴリズムについても、畳み込みニューラルネットワークやＡｄａＢｏｏｓｔなど一般的なものでよく、特に限定しない。

　図６は、アノテーションデータ解析部１３１の説明図である。アノテーションデータ解析部１３１は、図５の検知枠の情報（始点Ｘ，始点Ｙ，横幅、縦幅）から、検出対象のクラスごとの位置分布マップを学習画像データごとに算出する。位置分布マップの生成方法としては、例えば、以下の手順１～手順３に従う。
　（手順１）学習画像データ３の位置分布２１０を複数の小領域（ここでは６×６個のセル）に分割する。左側の人物１１１の検知枠１１２が領域２１１に対応し、右側の人物１２１の検知枠１２２が領域２１２に対応する。
　（手順２）各セルごとに、検知枠との重なり具合を割合で算出する。例えば、領域２１１は、縦４セル×横１セル分に重なっている。その１番上のセルとはほぼ（90%）重なり、上から２番目のセルとは100%重なり、上から３番目のセルとは100%重なり、上から４番目のセルとは40%重なっている。
　（手順３）手順２の重なり具合をもとに、位置分布マップ２２０を生成する。ここでは、位置分布マップ２２０のセル値として100%の重なり具合を「1」とし、0%の重なり具合を「0」とした。

　なお、セルの分割数は特に限定せず、処理を実行するＰＣのスペックなどを考慮して決めてよく、また予め学習画像データ３の解像度を縮小した後複数の領域に分割し位置分布マップを生成してもよい。また、位置分布マップの値としては、セル内に各クラスの対象が存在する割合を示すものであれば、特に限定せず、検知枠との重なり具合を使用するのではなく、検知枠の中央座標が含まれるセルの値を「１」とし、矩形端が「０」となるような正規分布を生成して各領域の存在率を算出する方法など特に限定しない。

　図２の映像解析部１３２は、学習画像データ３の映像を解析することで撮影環境情報を抽出する。撮影環境情報の種類としては、物体検出精度に影響し、かつ映像を解析することで取得可能条件であれば特に限定せず、例えば、シーン認識技術を活用することで屋外、屋内などの設置場所の情報、画像の輝度情報の解析による昼間、夜間などの撮影時間帯の情報、画像解析により推定したレンズぼけの情報などが挙げられる。

　カメラパラメータ取得部１３３は、学習画像データ３の映像を撮影したカメラのカメラパラメータを取得する。取得するパラメータの種類としては、焦点距離やレンズ歪係数などの内部パラメータとカメラの俯角や設置高さなどの外部パラメータが挙げられ、全てのパラメータを取得する事が好まれるが、一部のパラメータのみ取得するだけでもよい。なお、カメラパラメータ取得部１３３において、カメラパラメータの一部を画像解析により推定してもよく、例えば、画像の消失点情報を活用しカメラの外部パラメータを推定するなどの方法を採用してもよい。

　ここまでの説明では、１枚の画像データが１つのシーンを示すものとした。一方、辞書データ１２Ｄに大量の学習画像データが含まれている場合、シーン類似度算出部１７による実シーンデータと学習シーンデータとの比較処理は、学習シーンデータの数に応じて計算量も増大してしまう。そこで、学習シーン解析部１３４は、複数の学習シーンを１つの学習シーンとしてグルーピングすることで、比較処理の回数を削減してもよい（詳細は図１３）。

　以上、図４～図６を参照して、学習シーンデータについて説明した。以下、図７～図１２を参照して、実シーンデータについて説明する。
　学習画像データと実画像データとの違いとして、学習画像データでは正解データである学習シーンデータを外部のユーザからアノテーション部１１を介して教えてもらえるが、実画像データの実シーンデータは自動的に解析して取得する必要がある。

　図７は、実画像データの一例を示す図である。この実画像データ２ａには、１人の検出対象（本例では人物１３１）が写っている。検知枠１３２は人物１３１を囲う矩形である。
　図８は、図７の実画像データに付与された実シーンデータである。実シーン推定部１６は、物体検出部１５によって実画像データ２ａから検出された人物１３１の検知枠１３２を示す検知枠情報を用いて、カメラ２が設置された現場の実シーンデータを示す情報を取得する。

　図９は、実シーン推定部１６の説明図である。
　実シーン推定部１６による実シーンデータを構成する位置分布マップ２４０の取得処理は、図６で示したアノテーションデータ解析部１３１による位置分布マップ２２０の検出処理と類似する。具体的には、実シーン推定部１６は、検知枠１３２に対応する領域２３１を含む位置分布マップ２３０を作成する。そして、実シーン推定部１６は、位置分布マップ２３０の領域２３１の各セル値に対して図８の信頼度「0.8」を重み付け（乗算）した領域２４１を含む信頼度付き位置分布マップ２４０を、実シーンデータの一部として取得する。
　また、実シーン推定部１６は、カメラ映像中の複数の撮像画像に対しても、信頼度付き位置分布マップ２４０の生成処理と同様の処理を行うことで信頼度付き位置分布マップを算出し、カメラ情報取得部１４によって取得した撮影環境情報とカメラパラメータの情報を合わせて出力する。

　以上、図７～図９の実画像データおよび実シーンデータは、図４～図６の学習画像データおよび学習シーンデータとの間のシーン類似度が高いデータの一例として説明した。つまり、図７の実画像データ内の検知枠１３２と、図４の学習画像データ内の検知枠１１２とが略一致するために、両方の撮影環境情報も類似することで、実画像データ内の人物１３１と学習画像データ内の人物１１１とが同一人物か否かが判定しやすい。

　一方、図１０～図１２の実画像データおよび実シーンデータは、シーン類似度が低いデータの一例である。
　同じカメラ２で撮影しているものの、図７の実画像データ２ａ内の左側の人物１３１が、図１０の実画像データ２ｂ内では中央奥側の人物１４１として移動してしまった。よって、図１０の人物１４１の検知枠１４２に対応する図１１の実シーンデータでは、検知枠１４２が小さいためにその信頼度も図８の「0.8」よりも小さい「0.7」となる。
　また、実シーン推定部１６は、図１１の検知枠情報の検知枠１４２に対応する領域２５１を含む図１２の位置分布マップ２５０を作成し、その位置分布マップ２５０に信頼度「0.7」を重み付け（乗算）した領域２６１を含む信頼度付き位置分布マップ２６０を作成する。

　なお、取得する位置分布マップの数が多いほど実シーンデータを正確に把握できるものの、処理コストの低減のために取得する位置分布マップ数を削減する処理を追加してもよい。以下、位置分布マップ数を削減する処理を例示する。
　・信頼度の高い位置分布マップのみを採用する方法。
　・学習シーン解析部１３４のようにグルーピングを行う方法。例えば、位置分布マップ間の差分総和を算出し、差分が予め定めた閾値以下である場合は類似シーンとして扱い複数のグループに分類した後、各グループにおいて差分が中間値を示す位置分布マップを実シーンにおける代表の位置分布マップとする方法
　・学習シーン解析部１３４のようにグルーピングを行う別の方法として、撮影環境情報を考慮したグルーピング（撮影環境情報が互いに類似するメンバの集合を束ねる）を行い、各グループで代表の位置分布マップのみ出力する方法。

　シーン類似度算出部１７は、学習シーンと実シーンにおける位置分布マップ、撮影条件、カメラパラメータの情報から、以下に例示する方法で、シーン間の類似度を算出する。
　・位置分布マップの差分総和が小さいものが類似度が高いと判定する方法
　・撮影環境情報やカメラパラメータが近いものを類似度が高いと判定する方法
　・複数の類似度を足し合わせた値を最終的な類似度とする方法

　なお、図６の位置分布マップ２２０に対して、図９の位置分布マップ２４０は、互いに対応する画像左下側の検知結果（領域２４１と領域２２１）が類似しているため、シーン類似度は高いものとして算出される。
　一方、図１２の位置分布マップ２６０に対しては、画像中央上側の検知結果（領域２６１）が図６の位置分布マップ２２０には存在しないため（領域２６１に対応する位置分布マップ２２０のセル値が「０」であるため）、シーン類似度は低いものとして算出される。

　なお、シーン類似度算出部１７で説明した「類似度」とは、１枚の実画像データ（の実シーンデータ）と１枚の学習画像データ（の学習シーンデータ）との間で比較されるのシーンごとの指標である。
　一方、これから追加学習要素出力部１８で説明する「適応度」とは、１枚の実画像データに対する、Ｎ枚の学習画像データ（からの学習結果である辞書データ１２Ｄ）との間で計算される指標である。
　適応度は、実画像データから人物などを検出する精度について、現在の辞書データ１２Ｄに対して追加学習が必要か否かを判定するために用いられる。換言すると、現在の辞書データ１２Ｄを用いても、所定の実画像データから人物などを検出する精度が高いなら、追加学習は不要である。
　一方、類似度は、追加学習が必要と判定された後で、どのような追加学習の学習要素データをユーザに知らせて学習画像データを追加させるかを特定させるために用いられる。

　図３の辞書適応度取得部１８１は、辞書生成部１２により構築した辞書データ１２Ｄの実シーンへの適応度を取得する。適応度の取得方法としては、予め実シーンデータを付与（アノテーション）したカメラ２の実画像データを用意し、実画像データ内の全体の検出対象数における辞書データ１２Ｄによる物体検出数の割合などの物体検出精度を採用する方法などがある。

　追加学習判定部１８２は、辞書適応度取得部１８１より取得した辞書データ１２Ｄの実シーンへの適応度が予め定めた閾値より低い場合に追加学習が必要と判定する。なお、辞書適応度取得部１８１を省略する代わりに、カメラ２の撮像画像に対する検知枠などの検出結果をユーザにより目視確認することで、ユーザが追加学習が必要か否かを判断する構成としてもよい。

　追加学習要素決定部１８３は、シーン類似度算出部１７が求めた類似度情報を元に、以下に例示する内容の学習要素データを決定する。
　・追加学習に必要な学習画像データの種類を示す画像種類情報。
　・学習シーンデータのアノテーション方法などの学習方法情報。
　・辞書データ１２Ｄの構築に関する情報を示す辞書種類情報。

　そのため、追加学習要素決定部１８３は、類似度情報から学習要素データを決定する。以下に例示する方法は、位置分布マップの類似度情報が閾値より高い場合の、類似度の計算に使用された学習シーンデータに基づく学習要素データの決定方法である。
　・類似度情報の計算に使用された（該当の）グループの学習画像データをユーザに提示し、ユーザが類似した画像を手動収集したものに決定する方法
　・該当のグループの学習画像データに対応する学習シーンデータの位置分布マップを参考に、画像内の人物領域を他のグループの学習画像内の人物領域に置き換え自動で学習画像を作成する方法

　一方、以下に例示する方法は、位置分布マップの類似度情報が閾値以下の場合の、類似度の計算に使用された実シーンデータに基づく学習要素データの決定方法である。
　・実シーンデータの位置分布マップや検知枠の情報をユーザに明示し、ユーザが類似した画像を手動収集する方法
　・画像に対して辞書データ１２Ｄによる物体検出の位置分布マップを生成し、実シーンデータの位置分布マップと類似度が高い画像を探索した後、類似度が高い画像があればその画像に対してアノテーションを実施するようユーザに明示する方法

　また、辞書生成部１２において異なる学習画像データ３から辞書データ１２Ｄを複数生成している場合は、実シーンの位置分布マップと最も類似度が高い学習画像データ３を探索し、該当の学習画像データ３に対応する辞書データ１２Ｄを使用するようユーザに明示する方法などもある。
　さらに、実シーンの位置分布マップと最も類似度が高い学習画像データ３はあるものの、類似度が閾値より低い場合は、該当の辞書データ１２Ｄと必要な学習画像をユーザに提示する方法を採用してもよい。
　また、追加学習要素決定部１８３は、異種の物体の位置分布マップ、物体検出部１５が検出に失敗した対象の位置分布マップ、および、物体検出部１５が誤って検出した対象の位置分布マップのいずれかを用いて、学習要素データを決定してもよい。

　図１３は、学習シーン解析部１３４の処理を示すフローチャートである。以下に示すように、学習シーン解析部１３４は、アノテーションデータ解析部１３１、映像解析部１３２、カメラパラメータ取得部１３３からの出力情報を用いて、学習シーンデータを解析する。
　以下、図１３のフローチャートにおけるカウンタ変数として、学習画像データ３の集合を構成する学習画像データごとの変数ｎと、グルーピングの結果として生成されるグループごとの変数ｍとを用いる。

　まず初期化処理として、学習シーン解析部１３４は、学習画像データ３の集合から１枚の学習画像データ（ｎ＝１）を抽出し、その抽出したｎ＝１を含む新規グループ（ｍ＝１）を作成する（Ｓ１０１）。グループ（ｍ＝１）には、学習画像データ（ｎ＝１）に加えて、その学習シーンデータ（位置分布マップなどの情報）も対応づけられている。

　以下、Ｓ１０２～Ｓ１２１で示す外側のループでは、学習画像データ（ｎ＝２，…，Ｎ）を順に選択し、選択した学習画像データに対応する学習シーンデータ（位置分布マップ、撮影環境情報、カメラパラメータ）を取得してから（Ｓ１０３）、学習シーン解析部１３４は内側のループを実行する。
　Ｓ１１１～Ｓ１１７で示す内側のループでは、学習シーン解析部１３４は、すでに作成したグループ（ｍ＝１，…，Ｍ）を順に選択する。
　学習シーン解析部１３４は、選択したグループｍ内の位置分布マップの差分総和を算出し（Ｓ１１２）、その差分総和が閾値未満か否かを判定する（Ｓ１１３）。Ｓ１１３でYesならＳ１１４に進み、NoならＳ１０２に戻る。

　学習シーン解析部１３４は、全てのグループ（ｍ＝１，…，Ｍ）の探索を完了したなら（Ｓ１１４，Yes）、現在選択中の学習画像データｎは既存のグループｍのどこにも該当しないので、新規グループ（ｍ＝Ｍ＋１）を作成し、その新規グループに現在選択中の学習画像データｎを割り当てる（Ｓ１１５）。まだ未探索のグループが存在するなら（Ｓ１１４，No）、既存のグループｍに現在選択中の学習画像データｎを割り当てる（Ｓ１１６）。
　以上、Ｓ１０２～Ｓ１２１で示す外側のループを実行することで、学習画像データ３の各学習画像データを、学習シーンデータのグループに割り当てる。

　学習シーン解析部１３４は、作成された学習シーンの各グループ（ｍ＝１，…，Ｍ）において、撮影環境情報とカメラパラメータとによりグループ内の学習画像をさらに分類してもよい（Ｓ１２２）。この分類方法としては、特に限定せず、屋内と屋外に分類する方法や撮影時間帯の情報から分類する方法などがある。カメラパラメータを分類に使用する場合は、例えば、カメラ俯角の情報から、０～１０度、１０～４５度、４５～８０度、８０～９０度などの４つに分類するなどの方法があり、特に限定しない。
　また、学習シーン解析部１３４において、学習シーンのグループ数を学習シーンを分類する際に予め最大グループ数を決めておいてもよく、Ｋ－ｍｅａｎｓ法により全学習画像間の位置分布マップの差分情報から学習画像をクラスタリングする方法などを用いてもよく、特に限定しない。

　以上説明した実施例１により、計測範囲内の物体を検出するような物体検出装置１において、シーン類似度算出部１７が実シーンデータと学習シーンデータとの間の類似度を算出することで、実画像データ内の物体を高精度に認識する辞書データ１２Ｄを生成するための学習要素データを出力できる。
　なお、実施例１では、位置分布マップを使用して学習シーンと実シーンとの間の検出対象の位置情報を比較したが、画像中の検出対象間の位置関係を比較可能な方法であれば、特に限定しない。

　また、実施例１では、検出対象を人物に限定した場合について述べたが、検出対象はこれに限らず、検出対象を複数のクラスとして各クラス間の位置分布マップを比較することで追加学習要素を決定してもよく、また、クラス間の位置分布マップを結合し各クラス間の重なり度合などを算出することで、シーンデータの詳細な分析が可能となり実シーンとの類似度が高い画像の探索を効率的に実施するなどの方法を採用してもよい。

　さらに、実施例１において、学習シーンと実シーン間を比較する際に、検出対象のみの位置分布マップを使用したが、検出対象以外の位置分布マップを作成し、シーン間の比較に活用してもよい。例えば、本来は人物のみ検出対象である場合においても、人物周囲にある家具や障害物などの位置分布マップを作成し学習シーンと比較することで、学習シーンと実シーン間のより詳細な比較を実施してもよい。
　また、実施例１において、位置分布マップを作成する際に全検知枠や検知枠の情報を使用したが、情報を削減する処理を追加してもよい。例えば、学習シーンを分類する際にグループ数が肥大化しないよう、一定のサイズ以下の検知枠は無視するなどの処理を加えてもよい。

　図１４は、実施例２の物体検出装置１０の構成図である。
　物体検出装置１０と図１の物体検出装置１とを比較すると、物体検出装置１０は、物体検出装置１から追加学習要素出力部１８を削除し、テストデータ生成部１９Ａと、辞書データ再構成部１９Ｂとを追加している。

　テストデータ生成部１９Ａは、カメラ情報取得部１４から出力されたカメラ２の実画像データの集合をもとに、テストデータを生成する。テストデータは、各実画像データに加え、辞書データ１２Ｄの検出精度を検証するための実シーンデータ（以下、「テストシーンデータ」）がアノテーション部１１により付与されている。実画像データの集合の選定方法としては、位置分布マップの分散が大きくなるように選定する方法など、特に限定しない。

　辞書データ再構成部１９Ｂは、シーン類似度算出部１７が算出するテストシーンデータと学習シーンデータとの類似度と、辞書適応度取得部１８１が算出するテストデータにおける辞書データ１２Ｄの物体検出精度とから、辞書データ１２Ｄの再構成（修正）の内容を決定する。
　辞書データ１２Ｄの再構成処理として、辞書データ１２Ｄに使用するグループ（図１３のｍ＝１，…，Ｍ）を入れ替えるといった修正内容を提示し、辞書データ１２Ｄを再構成するという方法がある。そのため、辞書データ再構成部１９Ｂは、学習シーンの種類について、位置分布マップによって複数の学習シーンのグループが存在し、かつ、生成した辞書データ１２Ｄが全てのグループを使用して生成したもので無い場合に、実シーンデータと類似度の高い（つまり検出精度が向上すると予測される）グループを探索する。

　辞書データ１２Ｄの学習シーンデータ（タグデータ）の修正処理として、辞書データ再構成部１９Ｂは、一部の検出対象にのみアノテーション部１１からアノテーションすることで工数を削減できる。そのため、辞書データ再構成部１９Ｂは、例えば顧客要件や目視確認の容易さなどからアノテーションする学習シーンデータを決定する。
　このように、辞書データ再構成部１９Ｂは、辞書データ１２Ｄの構成を入れ替えたり、辞書データ１２Ｄの学習シーンデータを修正したりして、実シーンデータと類似度の高いグループが探索できるように、辞書データ１２Ｄを繰り返し更新する。これにより、アノテーション作業工数を抑えつつ効率的に検出精度の高い辞書データ１２Ｄを構築できる。

　以上説明した実施例２により、辞書データ１２Ｄの物体検出精度が高くなるような学習シーンの修正方法をユーザに提示することで、アノテーション作業を可能な限り抑えつつ効率的に検出精度の高い辞書データ１２Ｄを構築できる。
　なお、実施例２において、テストデータにおける辞書データ１２Ｄの検出精度を求める際に、未検出であった検出対象の位置分布マップを生成し、辞書データ再構成部１９Ｂによって未検出の位置分布マップと類似度が高い位置分布マップを持つ学習シーンのグループに対して、アノテーションを追加するようユーザに提示する方法を採用してもよく、本手法により効率的に高精度な辞書データ１２Ｄを生成できる。

　また、テストデータにおいて誤検出が生じた検出対象クラスの位置分布マップを生成し、辞書データ再構成部１９Ｂによって、誤検出の位置分布マップと類似度が高い位置分布マップを持つ学習シーンのグループと、現在のグループを入れ替えるといった修正内容を提示してもよい。
　さらに、実施例２において、タグデータを修正する際に最新の辞書データ１２Ｄによる検出結果を活用してもよい。例えば、該当の学習画像に対して最新の辞書データ１２Ｄにより物体を検出し検知枠がついた学習画像をＧＵＩ画面などに出力することで、ユーザがアノテーション作業をする際の補助情報として使用するなどの方法がある。

　また、実施例２において、学習画像データ３内にある学習画像に対してタグデータを付与するのではなく、一部の学習画像にのみアノテーションを実施し、辞書データ再構成部１９Ｂにより徐々に学習画像を増やしていくという構成を採用してもよい。具体的には、アノテーションを付与していない学習画像に最新の辞書データ１２Ｄにより物体検出を実施し位置分布マップを作成した後、実シーンの位置分布マップに近い学習画像を追加するようユーザに提示する方法などがある。本手法を繰り返し実施することで、アノテーション作業を実施する学習画像の枚数を抑えつつ、効率的に高精度な辞書データ１２Ｄを生成できる。

　さらに、実施例２において、顧客要件に応じて効率的な辞書データ１２Ｄを生成できるような構成としてもよい。例えば、目標精度や最終的な辞書データ１２Ｄが必要な期限などの情報に基づき、学習画像データ３の枚数を最小限にしつつ実施例２に示す辞書データ１２Ｄの再構成処理の繰り返し回数を増やす。これにより、辞書データ再構成部１９Ｂが辞書データ１２Ｄの生成に使用する学習シーンのグループの組み合わせを変更することで、目標精度を達成する辞書データ１２Ｄを効率的に構築できる。

　なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
　また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
　また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
　また、前記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。

　各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）などの記録装置、または、ＩＣ（Integrated Circuit）カード、ＳＤカード、ＤＶＤ（Digital Versatile Disc）などの記録媒体におくことができる。
　また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
　さらに、各装置を繋ぐ通信手段は、無線ＬＡＮに限定せず、有線ＬＡＮやその他の通信手段に変更してもよい。

　１　　　物体検出装置
　２　　　カメラ
　３　　　学習画像データ（学習計測データ）
　１０　　物体検出装置
　１１　　アノテーション部
　１２　　辞書生成部
　１２Ｄ　辞書データ（記憶部）
　１３　　学習シーン取得部
　１４　　カメラ情報取得部
　１５　　物体検出部
　１６　　実シーン推定部
　１７　　シーン類似度算出部
　１８　　追加学習要素出力部
　１９Ａ　テストデータ生成部
　１９Ｂ　辞書データ再構成部
　１３１　アノテーションデータ解析部
　１３２　映像解析部
　１３３　カメラパラメータ取得部
　１３４　学習シーン解析部
　１８１　辞書適応度取得部
　１８２　追加学習判定部
　１８３　追加学習要素決定部

Claims

　学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、
　物体検出の対象である実計測データから、前記辞書データにより物体を検出する物体検出部と、
　前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
　推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
　前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
　前記追加学習要素出力部は、
　前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
　前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
　物体検出装置。
　前記学習シーンデータおよび前記実シーンデータは、それぞれ画像データ内の検出対象の位置情報と大きさを示す検知枠情報から抽出される画像データ内の位置分布マップを有しており、
　前記シーン類似度算出部は、前記位置分布マップ間の類似度を算出することを特徴とする
　請求項１に記載の物体検出装置。
　前記追加学習要素出力部は、異種の物体の前記位置分布マップ、前記物体検出部が検出に失敗した対象の前記位置分布マップ、および、前記物体検出部が誤って検出した対象の前記位置分布マップのいずれかを用いて、前記学習要素データを決定することを特徴とする
　請求項２に記載の物体検出装置。
　前記物体検出装置は、さらに、前記辞書データの前記学習計測データの集合に対して、前記各学習計測データの前記位置分布マップ間で類似する前記学習計測データの集合をグルーピングし、そのグルーピングで生成されたグループごとの前記学習シーンデータを用いて類似度を前記シーン類似度算出部に算出させる学習シーン取得部を有することを特徴とする
　請求項２に記載の物体検出装置。
　前記追加学習要素出力部は、前記物体検出部による物体を検出する精度である適応度をもとに、前記物体検出部が用いた前記辞書データの修正要否を判定することを特徴とする
　請求項１に記載の物体検出装置。
　前記物体検出装置は、さらに、前記物体検出部による物体を検出する精度である適応度をもとに、前記物体検出部が用いた前記辞書データの再構成の内容を決定する辞書データ再構成部を有することを特徴とする
　請求項１に記載の物体検出装置。
　前記シーン類似度算出部は、撮影時間帯情報、撮影場所情報、および、カメラパラメータのうちの少なくとも１つをシーンデータとして用いて、前記実シーンデータと前記学習シーンデータとの類似度を算出することを特徴とする
　請求項１に記載の物体検出装置。
　前記追加学習要素出力部は、追加学習に必要な前記学習計測データの種類を示す画像種類情報、前記学習シーンデータの学習方法情報、および、前記辞書データの構築に関する辞書種類情報のうちの少なくとも１つを前記学習要素データとして出力することを特徴とする
　請求項１に記載の物体検出装置。
　物体検出装置と、計測装置とを有する物体検出システムであって、
　前記計測装置は、モノラルカメラ、ステレオカメラ、および、距離センサのいずれかであり、
　前記物体検出装置は、
　学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、
　物体検出の対象として前記計測装置により計測された実計測データから、前記辞書データにより物体を検出する物体検出部と、
　前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定する実シーン推定部と、
　推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出するシーン類似度算出部と、
　前記辞書データの追加学習に必要な学習要素データを出力する追加学習要素出力部とを有しており、
　前記追加学習要素出力部は、
　前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
　前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
　物体検出システム。
　学習計測データの集合と、前記各学習計測データに対してタグ付けされた学習シーンデータとを有する辞書データの記憶部と、物体検出部と、実シーン推定部と、シーン類似度算出部と、追加学習要素出力部とを有する物体検出装置により実行される物体検出方法であって、
　前記物体検出部は、物体検出の対象である実計測データから、前記辞書データにより物体を検出し、
　前記実シーン推定部は、前記物体検出部の物体検出結果から前記実計測データにタグ付けする実シーンデータを推定し、
　前記シーン類似度算出部は、推定された前記実シーンデータと、前記辞書データの前記学習シーンデータとの類似度を算出し、
　前記追加学習要素出力部は、前記辞書データの追加学習に必要な学習要素データを出力するときに、
　前記シーン類似度算出部が算出した類似度が所定閾値よりも高い場合、類似度の計算に使用された前記学習シーンデータに基づく前記学習要素データを出力し、
　前記シーン類似度算出部が算出した類似度が所定閾値以下の場合、類似度の計算に使用された前記実シーンデータに基づく前記学習要素データを出力することを特徴とする
　物体検出方法。