JP7340487B2

JP7340487B2 - プログラム作成装置、対象物検知システム、アンカー設定方法及びアンカー設定プログラム

Info

Publication number: JP7340487B2
Application number: JP2020063281A
Authority: JP
Inventors: 聡飯尾; 喜一杉本; 健太中尾
Original assignee: Mitsubishi Heavy Industries Ltd
Current assignee: Mitsubishi Heavy Industries Ltd
Priority date: 2020-03-31
Filing date: 2020-03-31
Publication date: 2023-09-07
Anticipated expiration: 2040-03-31
Also published as: CN113470040A; US11769322B2; JP2021163127A; US20210303823A1; DE102021201031A1

Description

本開示は、プログラム作成装置、対象物検知システム、アンカー設定方法及びアンカー設定プログラムに関するものである。

取得した画像から物体を検出するシステムとして、多数の画像で深層学習（機械学習）させた学習済みプログラムを用いて物体を検出するシステムがある。一般的な深層学習を用いた物体検出では、まず入力となる画像に対して特定のフィルタ係数を用いた畳み込み処理を行い特徴量の抽出を行う。次に、畳み込み処理の過程で得られた解像度の異なる特徴量空間において、アンカーと呼ばれる矩形領域（バウンディングボックス）を配置し、アンカー毎に領域内の特徴量から対象物らしさを表すスコアを算出する。算出したスコアを用いて、スコアがしきい値以上となるアンカーを回帰処理によってサイズ調整し、検出結果として出力する。

特開２０１８－２２４８４号公報特許第５１７２７４９号公報

深層学習ではアンカーの形状を複数種類設定し、異なる形状のアンカーを用いて、対象物の検出を行うことで、対象物の検出の精度を向上することができる。しかしながら、アンカーの数が多くなると、演算処理の処理量も増加する。このため、処理能力と演算結果が求められるまでの時間の長さに応じて、使用できるアンカーの数が限られる。以上より、設定するアンカーの数の増加を抑制しつつ、対象物の検出の精度を高めることが求められている。

本開示の少なくとも一実施形態は、上記課題を解決するために、アンカーの形状を適切に設定し、高い精度で対象物を検知できるプログラム作成装置、対象物検知システム、アンカー設定方法及びアンカー設定プログラムを提供することを課題とする。

本開示は、画像に対象物が含まれているかを検出する対象物検知プログラムを作成するプログラム作成装置であって、対象物のエリア情報が含まれた複数の画像データを含む教師データと、画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカーを設定する設定部と、設定部の情報に基づいて、教師データを機械学習し、画像から対象物を抽出する学習済みプログラムを作成する学習部と、を含み、前記設定部は、前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出し、算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するプログラム作成装置を提供する。

また、本開示は、上記に記載のプログラム作成装置と、前記プログラム作成装置で作成された学習済みプログラムを実行する演算部、画像を取得するカメラ部、オペレータに報知を行う報知部と、を含み、前記演算部は、前記カメラ部で取得した画像と前記学習済みプログラムで解析し、前記画像の対象物が含まれていることを検知した場合、前記報知部から報知する対象物検知装置と、を備える対象物検知システムを提供する。

また、本開示は、画像に対象物が含まれているかを検出する対象物検知プログラムに用いるアンカーを設定するアンカー設定方法であって、対象物のエリア情報が含まれた複数の画像データを含む教師データを取得するステップと、画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカー情報を取得するステップと、前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出するステップと、算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するステップと、を含むアンカー設定方法を提供する。

また、本開示は、画像に対象物が含まれているかを検出する対象物検知プログラムに用いるアンカーを設定させる処理を実行させるアンカー設定プログラムであって、対象物のエリア情報が含まれた複数の画像データを含む教師データを取得するステップと、画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカー情報を取得するステップと、前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出するステップと、算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するステップと、を実行させるアンカー設定プログラムを提供する。

上記構成とすることで、アンカーの形状を適切に設定することができ、高い精度で対象物を検知できるという効果を奏する。

図１は、対象物検知システムの一例を示すブロック図である。図２は、対象物検知システムの画像処理の一例を説明するための説明図である。図３は、画像処理の一例を説明するための説明図である。図４は、画像処理の一例を説明するための説明図である。図５は、画像処理の一例を説明するための説明図である。図６は、アンカーを説明するための説明図である。図７は、アンカーを説明するための説明図である。図８は、アンカー設定部の処理の一例を示すフローチャートである。図９は、アンカー設定部の処理の一例を説明するための説明図である。図１０は、アンカー設定部の処理の一例を説明するための説明図である。図１１は、アンカーのサイズと採用率との関係の一例を示すグラフである。図１２は、それぞれのアンカーのサイズについて、検知率と誤検知率との関係の一例を示すグラフである。図１３は、学習部の動作の一例を示すフローチャートである。図１４は、対象物検知装置の動作の一例を示すフローチャートである。図１５は、アンカー設定部の処理の他の例を示すフローチャートである。図１６は、アンカー設定部の処理の他の例を説明するための説明図である。図１７は、アンカー設定部の処理の他の例を示すフローチャートである。図１８は、アンカー設定部の処理の他の例を説明するための説明図である。

以下に、本開示に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。

＜対処物検知システム＞
図１は、対象物検知システムの一例を示すブロック図である。本実施形態に係る対象物検知システム１００は、プログラム作成装置１０と、対象物検知装置１０２と、を含む。対象物検知システム１００は、プログラム作成装置１０で、機械学習、たとえば深層学習を用いて画像から対象物の検知を行う画像判定処理を実行できる学習済みプログラムを作成し、対象物検知装置１０２で学習済みプログラムを実行して対象物の検知を行う。対象物検知装置１０２は、例えば、車両や飛行体等の移動体や、建造物に設置される。

プログラム作成装置１０は、入力部１２と、出力部１４と、演算部１６と、記憶部１８と、を含む。入力部１２は、キーボード及びマウス、タッチパネル、またはオペレータからの発話を集音するマイク等の入力装置を含み、オペレータが入力装置に対して行う操作に対応する信号を演算部１６へ出力する。出力部１４は、ディスプレイ等の表示装置を含み、演算部１６から出力される表示信号に基づいて、処理結果や処理対象の画像等、各種情報を含む画面を表示する。また、出力部１４は、データを記録媒体で出力する記録装置を含んでもよい。また、プログラム作成装置１０は、入力部１２及び出力部１４として、通信インターフェースを用いて、データの送信を行う通信部を含んでいてもよい。通信部は、外部機器と通信を行い取得した各種データ、プログラムを記憶部１６に送り、保存する。通信部は、有線の通信回線で外部機器と接続しても、無線の通信回線で外部機器と接続してもよい。

演算部１６は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の集積回路（プロセッサ）と、作業領域となるメモリとを含み、これらのハードウェア資源を用いて各種プログラムを実行することによって各種処理を実行する。具体的に、演算部１６は、記憶部１８に記憶されているプログラムを読み出してメモリに展開し、メモリに展開されたプログラムに含まれる命令をプロセッサに実行させることで、各種処理を実行する。演算部１６は、教師データ作成部（データ作成部の一例）３０と、アンカー設定部（設定部の一例）３２と、学習部３４と、対象物検知処理部（処理部の一例）３６と、を含む。演算部１６の各部の説明の前に記憶部１８について説明する。

記憶部１８は、磁気記憶装置や半導体記憶装置等の不揮発性を有する記憶装置からなり、各種のプログラムおよびデータを記憶する。記憶部１８は、画像データ４０と、設定データ４２と、学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、学習済みプログラム５０と、を含む。

また、記憶部１８に記憶されるデータとしては、画像データ４０と、設定データ４２と、が含まれる。画像データ４０は、学習に使用する教師データを含む。教師データは、画像のデータと、画像に対象物が含まれる場合、対象物が表示される領域（バウンディングボックス）とが対応付けられたデータである。教師データの画像は、学習に用いるデータと、学習後のプログラムの精度の評価するデータとに分かれていてもよい。また、画像データは、対象物を検出する必要がある画像データを含んでいてもよい。設定データ４２は、後述するアンカーの設定情報や、学習済みプログラムを実行するための条件の情報等を含む。

記憶部１８に記憶されるプログラムとしては、学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、学習済みプログラム５０と、がある。

学習実行プログラム４４は、画像データ４０に含まれる教師データを、設定データ４２の設定に基づいて深層学習処理を行い、学習済みプログラム５０を作成する。深層学習モデルとしては、Ｒ－ＣＮＮ（ＲｅｇｉｏｎｓｗｉｔｈＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）やＹＯＬＯ（ＹｏｕＯｎｌｙＬｏｏｋＯｎｃｅ）、ＳＳＤ（ＳｉｎｇｌｅＳｈｏｔｍｕｌｔｉｂｏｘＤｅｔｅｃｔｏｒ）等、いわゆるアンカーと言われるバウンディングボックスを画像に対して設定し、設定に基づいたアンカー内の特徴量を処理することで、画像に対象物が含まれているかを検出する深層学習モデルを用いることができる。

アンカー設定プログラム４６は、学習実行プログラム４４及び学習済みプログラムで、深層学習モデルを用いて画像処理を実行する際に用いるアンカーを設定する処理を実行する。アンカー設定プログラム４６は、アンカーのサイズを設定する処理を実行する。さらにアンカー設定プログラム４６は、アンカーのアスペクト比、用いるアンカーの数を設定する処理を実行することが好ましい。アンカー設定プログラム４６で設定した情報は、設定データ４２に記憶される。

対象物検知プログラム４８は、学習済みプログラム５０を用いて、対象物の検出処理を実行するプログラムである。対象物検知プログラム４８は、画像の取得処理と、判定結果の出力処理も設定されている。対象物検知プログラム４８は、画像データを加工する処理を設定いてもよい。学習済みプログラム５０は、学習実行プログラム４４を実行して作成されたプログラムである。対象物検知プログラム４８は、学習済みプログラム５０を、画像処理を行う演算部で実行することで、学習した判断基準の特徴量（スコア）を算出でき、特徴量に基づいて対象物を検出する処理を実行することができる。

記憶部１８は、記録媒体に記録された学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、を読み込むことで、学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、がインストールされてもよいし、ネットワーク上で提供される学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、を読み込むことで、学習実行プログラム４４と、アンカー設定プログラム４６と、対象物検知プログラム４８と、がインストールされてもよい。

演算部１６の各部の機能について説明する。演算部１６の各部は、記憶部１８に記憶されるプログラムを実行することで、実行することができる。教師データ作成部３０は、画像データに対象物がある場合、対象物の領域を示す枠情報（バウンディングボックス）を対応付ける。設定される枠は、矩形である。教師データ作成部３０は、例えば画像を出力部１４に表示させた状態で、入力部１２に入力される操作から枠情報を設定する。入力部１２に入力される操作は、オペレータが画像を見ながら枠の位置（対象物）を囲う位置の情報を入力する操作である。また、教師データ作成部３０は、対象物検知処理部３６で実行した画像の抽出処理の結果を取得してもよい。この場合、抽出した枠の位置が、教師データの正解のデータできるか判定するオペレータの操作を検出し、オペレータにより枠の位置が正しいと判定されたデータを教師データとして取得するようにしてもよい。

アンカー設定部３２は、アンカー設定プログラム４６の処理を実行し、学習部３４、対象物検知処理部３６で実行する深層学習モデルの画像処理で使用するアンカーの情報を設定する。アンカー設定部３２の処理は後述する。

学習部３４は、アンカー設定部３２で設定したアンカーの設定を用いて、学習実行プログラム４４の処理を実行して、画像データ４０の教師データとして深層学習を行い、学習済みプログラムを作成する。学習部３４の処理は後述する。

対象物検知処理部３６は、対象物検知プログラム４８を用いて、学習済みプログラム５０を処理し、取得した画像に対象物が含まれているかを判定する処理、つまり対象物検知処理を実行する。対象物検知処理部３６の処理は後述する。

なお、本実施形態では、プログラム作成部１０に、教師データ作成部３０と、対象物検知処理部３６と、を備える構成としたが、プログラム作成装置１０が備えていなくてもよい。つまり、教師データは、別の装置で作成してもよい。また、画像から対象物を検出する処理を実行する対象物検知処理部３６は、対象物検知装置１０２のみに備えていてもよい。

対象物検知装置１０２は、上述したように移動体や建造物に設置される。対象物検知装置１０２は、プログラム作成装置１０と通信可能としてもよいが、通信機能を備えなくてもよい。通信機能を備えない対象物検知装置１０２は、各種処理条件が予め設定され、設定された条件に基づいて対象物の検知処理を実行する。対象物検知装置１０２は、検出した結果を設置されている機構を制御する制御装置に出力してもよい。これにより、例えば移動体の場合、対象物を検知した場合、停止する処理や、対象物を回避する処理等を実行することができる。

対象物検知装置１０２は、対象物検知装置１０２は、カメラ部１１２と、演算部１１４と、記憶部１１６と、報知部１１８と、を含む。カメラ部１１２は、対象視野の画像を取得する。カメラ部１１２は、所定のフレームレートで連続して画像を取得しても、所定の操作をトリガーとして画像を取得してもよい。

演算部１１４は、ＣＰＵ、ＧＰＵ等の集積回路（プロセッサ）と、作業領域となるメモリとを含み、これらのハードウェア資源を用いて各種プログラムを実行することによって各種処理を実行する。具体的に、演算部１６は、記憶部１８に記憶されているプログラムを読み出してメモリに展開し、メモリに展開されたプログラムに含まれる命令をプロセッサに実行させることで、各種処理を実行する。演算部１６は、記憶部１１６に記憶されているプログラムを実行することで、画像から対象物を検出する処理を実行する。

記憶部１１６は、磁気記憶装置や半導体記憶装置等の不揮発性を有する記憶装置からなり、各種のプログラムおよびデータを記憶する。記憶部１１６は、対象物検知プログラム１２０と、学習済みプログラム１２２を記憶する。

報知部１１８は、オペレータに報知する。報知部１１８は、スピーカ、発光装置、ディスプレイ等である。報知部１１８は、演算部１１４で処理を実行し、画像に含まれる対象物を検出した場合、対象物があることをオペレータに通知する。対象物が人である場合、検知の対象である人に通知してもよい。

図２は、対象物検知システムの画像処理の一例を説明するための説明図である。図３から図５は、それぞれ画像処理の一例を説明するための説明図である。

本実施形態の対象物検知処理部３６は、設定されている深層学習による画像処理を行うことで、画像に対象物が含まれているかを判定する。学習部３４は、教師データ作成部３０で作成した教師データを用いて、機械学習、例えば深層学習を行うことで、対象物検知処理部３６で実行する学習済みプログラムを作成する。

ここで、本実施形態の深層学習は、対象の画像に対して畳み込み処理を行い、複数の画素から得られる特徴量を１つのセル情報とする。そして、図２に示すように複数のセルから得られる特徴量をまた１つのセル情報とする処理を繰り返す。こうして画像に対してセルサイズが異なる複数の特徴量マップを取得することができる。深層学習は、特徴量マップの取得時に各セルに割り当てられたアンカーを用いた処理を実行し、対象物を検出する。

つまり、１つの画像を図２に示すように、特徴量マップ（分割マップ）２０２を処理して、画像データ２０２よりも分割数が少ない特徴量マップ２０２Ａを作成する。特徴量マップ２０２Ａは、１つのセル２１０Ａが、セル２１０よりも画像全体に対して占める割合が大きい。特徴量マップ２０２Ａに対して同様の処理を複数回実行して、１つのセル（領域）２１０Ｂのみ設定された特徴量マップ２０２Ｂを生成する。ここで、異なる分割数に移行する際の処理は、深層学習で実行される演算処理で各種パラメータが設定される。

ここで、深層学習の設定では、１つのセルの評価を算出するために、情報を取得する枠の情報として、アンカー２１２が設定される。本実施形態のアンカー２１２は、評価対象のセルの中心と、中心が一致するように設定される。また、アンカー２１２は、セルに対する大きさが設定されており、セルが大きくなると、アンカー２１２も大きくなる。また、深層学習で処理を行うアンカー２１２は、複数設定される。

次に、教師データについて説明する。図３は、犬２３０と、猫２３２と、が含まれる画像２２０である。対象物の検知では、対象物を犬とする場合、犬２３０が表示されている領域に枠２２４を設定する。枠２２４は、領域情報であり、対象物が表示されていることを示す情報、つまりバウンディングボックスである。枠２２４は、画像２２０上での位置情報となる。また、対象物を猫とする場合、猫２３２が表示されている領域に枠２２６を設定する。また、対象物が動物である場合、枠２２４と枠２２６の両方を１つの画像２２０に対して設定する場合がある。図３に示すように、画像２２０に対象物を囲う枠２２４、２２６の情報が対応付けられた情報が正解データ、教師データの画像データとなる。

対象物検知プログラム１００は、画像データの枠２２４、２２６の情報を含む画像２２０を含む複数の画像のデータを教師データに対して、設定されたアンカーを各セルに適応させつつ学習処理を行うことで、対象物を抽出することができる学習済みモデルを作成する。

図４及び図５は、図３の画像を解析する状態を模式的に示している。図４に示す特徴量マップ（分割マップ）２４０は、８行８列で画像を分割している。図５示す特徴量マップ２４０ａは、４行４列で分割される。特徴量マップ２４０は、セル２５２に対応するアンカーユニット２４２に示すように各セルに対してアスペクト比が異なる複数のアンカー２５０ａ、２５０ｂ、２５０ｃ、２５０ｄが適用され、それぞれのアンカーについてアンカーの領域に含まれる画像の特徴量の比較が行われる。特徴量マップ２４０ａも同様である。

図３に示す画像２２０の場合、猫２３２の枠２２６は、図４に示す特徴量マップ２４０で、画像の領域をセル２４２の大きさで分割したアンカーユニット２４４に一致するアンカーが検出される。犬２３０の枠２２４に対応するアンカーは、特徴量マップ２４０のアンカーでは、大きさが異なるため、検出されない。犬２３０の枠２２４に対応するアンカーは、分割数が少ない特徴量マップ２４０ａで設定さえるアンカーユニット２４６に含まれるアンカーで検出される。

このように、対象物検知システム１００は、特徴量マップのセルのそれぞれにアンカーを適用して、アンカー内の画像を深層学習で処理することで、画像データ内に対象物が含まれるかを検出する。

ここで、対象物が表示される領域、教師データではバウンディングボックスとアンカーとの重なる割合である一致度が、高い状態を維持できると、学習の精度も高くなり、対象物を高い精度で検出することができる。ここで、一致度は、ＩｏＵ（ＩｎｔｅｒｓｅｃｔｉｏｎｏｖｅｒＵｎｉｏｎ）で評価される。具体的には、（バウンディングボックスとアンカーの一致部分）／（バウンディングボックスとアンカーの和集合）の１００分率である。一方、対象物が表示される領域、教師データではバウンディングボックスが、アンカーの境界にあると、深層学習時のいずれのアンカーでも一致度が低くなり、深層学習での学習量が増加せず、学習済みプログラムでの対象物が検出できなくなる場合が生じる。また、実際の検出時も、対象物が含まれる領域と高い一致率となるアンカーが生じないことになり検出ができない場合が生じる。これに対して、対象物検知システム１００は、下記の処理を実行している。

＜アンカー設定方法＞
次に、図６から図１２を用いて、アンカーの設定方法について説明する。図６及び図７は、それぞれアンカーを説明するための説明図である。図８は、アンカー設定部の処理の一例を示すフローチャートである。図９及び図１０は、それぞれアンカー設定部の処理の一例を説明するための説明図である。図１１は、アンカーのサイズと採用率との関係の一例を示すグラフである。図１２は、それぞれのアンカーのサイズについて、検知率と誤検知率との関係の一例を示すグラフである。

図６及び図７に示す例では、アンカー２１２は、４つの形状のアンカー２１２ａ、２１２ｂ、２１２ｃ、２１２ｄが設定される。アンカー２１２ａ、２１２ｂ、２１２ｃ、２１２ｄは、面積が同じで、アスペクト比が異なる。アンカー２１２ａ、２１２ｂ、２１２ｃ、２１２ｄは、セル２８２に対して設定される状態を示している。アンカー２１２ａ、２１２ｂ、２１２ｃ、２１２ｄは、この順で縦方向の大きさが小さくなる。アンカー２１２ａは、縦長の矩形である。アンカー２１２ｄは、横長の矩形である。

深層学習では、アンカー２１２の形状を複数の形状とすることで、対象物が含まれると設定されている領域であるバウンディングボックス２８０、２８０ａの形状に近いアンカーを設けることができる。例えば、図６の場合、バウンディングボックス２８０とアンカー２１２ａの一致度が４５％であり、バウンディングボックス２８０とアンカー２１２ｂの一致度が８０％であり、バウンディングボックス２８０とアンカー２１２ｃの一致度が６０％であり、バウンディングボックス２８０とアンカー２１２ｄの一致度が３０％である。また、図７の場合、バウンディングボックス２８０ａとアンカー２１２ａの一致度が３０％であり、バウンディングボックス２８０ａとアンカー２１２ｂの一致度が３０％であり、バウンディングボックス２８０ａとアンカー２１２ｃの一致度が３０％であり、バウンディングボックス２８０ａとアンカー２１２ｄの一致度が５％である。ここで、一致度はＩｏＵで評価される。

本実施形態のアンカー設定部３２は、教師データのバウンディングボックスに基づいて、アンカーを設定することで、対象物の検知精度を高くすることができる。図８を用いて、アンカーの設定処理について説明する。図８に示す処理は、アンカー設定部３２が処理を実行することで実現することができる。

アンカー処理部３２は、対象物の領域情報、つまりバウンディングボックスの情報を含む、教師データを取得する（ステップＳ１２）。アンカー処理部３２は、アンカーの設定を読み出す（ステップＳ１４）。ここで、アンカーの設定は、学習で使用する全てのアンカーについての、アンカーのアスペクト比、セルに対する基準のサイズの情報である。

ここで、図９と図１０は、セル２８５ａとセル２８５ｂとにまたがってバウンディングボックス２８４が配置されている場合を示している。図９と図１０は、同じセル２８５ａとセル２８５ｂとに対応付けるアンカーの大きさが異なる場合を示している。図９は、セル２８５ａで使用するアンカー２８６ａと、セル２８５ａに隣接するセル２８５ｂで使用するアンカー２８６ｂとを示している。図１０は、セル２８５ａで使用するアンカー２８８ａと、セル２８５ａに隣接するセル２８５ｂで使用するアンカー２８８ｂとを示している。図１０のアンカー２８８ａ、２８８ｂは、図９のアンカー２８６ａ、２８６ｂよりもサイズが大きい。なお、図１０のアンカー２８８ａ、２８８ｂのアスペクト比は、図９のアンカー２８６ａ、２８６ｂのアスペクト比と同一である。図９及び図１０は、セル２８５ａ、２８５ｂにまたがって、対象物のバウンディングボックス２８４が設定されている。

図９に示すように、アンカー２８６ａと隣接するアンカー２８６ｂとの間に隙間がある大きさでは、対象物のバウンディングボックスとの面積の一致率が高くなりにくい傾向がある。これに対して、図１０に示すように、アンカー２８８ａと隣接するアンカー２８８ｂとの間に隙間がない大きさでは、位置により、対象物のバウンディングボックスとの面積の一致率が極端に低くなることが減り、検出率が高くなりやすい傾向がある。そのため、アンカーの大きさは、図１０のように、アンカー２８８ａと隣接するアンカー２８８ｂとの間に隙間がない大きさを中心として、大きさを大きくした場合と、小さくした場合について、評価することが好ましい。

アンカー設定部３２は、対象物の領域情報と、アンカーの情報に基づいて、各位置でのＩｏＵを算出する（ステップＳ１６）。

アンカー処理部３２は、全てのアンカーのサイズの評価が終了したかを判定する（ステップＳ１８）。アンカー処理部３２は、全てのアンカーのサイズの評価が終了していない（ステップＳ１８でＮｏ）と判定した場合、アンカーのサイズを変化させ（ステップＳ２０）、ステップＳ１６の処理に戻る。つまり、評価していないサイズにアンカーを変化せて、変化させたサイズについて、ＩｏＵを算出する。

アンカー処理部３２は、全てのアンカーのサイズの評価が終了した（ステップＳ１８でＹｅｓ）と判定した場合、評価結果に基づいて、アンカーの大きさ（サイズ）を決定する（ステップＳ２２）。

アンカー処理部３２は、アンカーのサイズを異なる大きさとした場合について、アンカーと対象物の領域情報との比較を行い、採用率を評価することで、教師データに含まれる対象物の領域情報を抽出できるアンカーの大きさを検出することができる。

図１１に示すように、ＩｏＵの閾値（ＩｏＵ閾値）を種々の値とした場合に、教師データの対象領域の採用率を算出する。採用率は、（ＩｏＵが閾値以上となる対象物の数）／（教師データの全画像データに含まれる対象物の数）である。アンカー処理部３２は、設定されたサイズで作成した複数のアンカーのそれぞれと対象物の領域情報を比較し、いずれか１つのアンカーで、ＩｏＵが閾値以上となると、ＩｏＵが閾値以上となる画像データの数に含める。アンカー処理部３２は、例えば、この値にＩｏＵの閾値がそれぞれの場合について、最も採用率が高くなるアンカーのサイズを算出する。

図１２は、ＩｏＵの閾値をＩｏＵ閾値条件Ｄ、ＩｏＵ閾値条件Ｅ、ＩｏＵ閾値条件Ｆとした場合に、採用率が高かったサイズのアンカーを設定し、評価用の画像データの評価を行い、検出率と誤検出率を算出した結果である。ここで、検出率と誤検出率の評価は、図１３で説明する学習済みプログラムの作成方法で、学習済みプログラムを作成し、作成した学習済みプログラムを用いて、評価用の画像データのユニットの対象物の抽出処理を行った結果から抽出することができる。図１２に示すように、同じ誤検知率で比較すると、いずれの場合も基準よりも高い検知率とすることができる。ここで、ＩｏＵ閾値は、深層学習の学習時パラメータになる。ＩｏＵ閾値は、図１２に示すグラフの結果に基づいて、所望の検知率及び誤検知率となるＩｏＵ閾値を決定する。決定したＩｏＵ閾値は、学習時のパラメータとする。なお、アンカー処理部３２は、図１２の検出率、誤検出率を算出せずに図１１の情報のみでアンカーのサイズを決定してもよい。

＜学習済みプログラム作成方法＞
図１３は、学習部の動作の一例を示すフローチャートである。図１３に示す処理は、学習部３４が学習実行プログラムを演算処理することで実行する。学習部３４は、アンカー処理部３２決定したアンカーのサイズの情報を用いて、学習済みプログラムを作成する。また、学習部３４は、アンカー処理部３２でアンカーのサイズを決定する処理、つまり上述したステップＳ２２でアンカーを決定する際に、候補となるアンカーのサイズの情報を用いて、学習済みプログラムを作成することもある。

学習部３４は、対象物の領域情報を含む、教師データを取得する（ステップＳ３０）。学習部３４は、アンカーの設定を読み出す（ステップＳ３２）。つまり、学習部３４は、アンカー設定部３２で設定したアンカーのサイズ情報、アスペクト比の情報を読み出す。学習部３４は、教師データとアンカーの情報に基づいて深層学習を実行する（ステップＳ３４）。学習部３４は、教師データの画像をアンカーの情報に基づいて深層学習モデルを設定し、設定したモデルを用いて、教師データの画像の学習を行う。これにより、学習部３４は、教師データを用いた学習を実行した学習済みプログラムを生成する。

学習部３４は、学習結果を評価用の画像で評価する（ステップＳ３６）。ここで、評価用の画像は、対象物を含んでいる画像、含んでいない画像の両方を含んだデータセットである。評価用の画像は、対象物が含んでいるか含んでいないかを示す情報が対応付けられている。学習部３４は、評価時点の学習済みプログラムで評価用画像についての対象物の検出を行うことで、対象物が含まれている評価用画像の対象物が検出できているか、対象物が含まれていない評価用画像について対象物が含まれているという誤検出を行っているか等を評価する。学習部３４は、評価として、検出率、誤検出率等を算出する。

学習部３４は、評価を算出したら、学習を終了するかを判定する（ステップＳ３８）。学習終了の評価基準は、任意に設定することができ、例えば、学習を行った回数や、演算量を基準としてもよく、検出率、誤検出率が設定した性能を満たした場合に処理終了としてもよい。

学習部３４は、学習終了ではない（ステップＳ３８でＮｏ）と判定した場合、深層学習の条件を調整し（ステップＳ４０）、ステップＳ３４に戻る。これにより、再度学習処理を実行する。ここで、深層学習の条件としては、特に限定されないが、ステップＳ３４で学習開始時の学習プログラムとして、現時点の学習プログラムを設定することや、教師データの画像の一部入れ替え等がある。学習部３４は、学習終了である（ステップＳ３８でＹｅｓ）と判定した場合、学習結果のプログラムを学習済みプログラムに設定し（ステップＳ４２）、処理を終了する。

学習部３４は、以上のように、アンカー設定部３２で設定したアンカーを用いて、深層学習処理を実行し、学習済みプログラムを作成する。

＜対象物検知方法＞
次に、図１４を用いて、学習済みプログラムを用いた対象物検知方法について説明する。図１４は、対象物検知装置の動作の一例を示すフローチャートである。図１４の処理は、対象物検知装置１０２で実行する処理として説明するが、プログラム作成装置１０に画像データを供給し、対象物検知処理部３６で同様の処理を実行してもよい。

対象物検知装置１０２は、学習済みプログラムを読み込む（ステップＳ５０）。対象物検知装置１０２は、プログラム作成装置１０で作成した学習済みプログラムを取得する。対象物検知装置１０２は、画像データを取得する（ステップＳ５２）。具体的には、対象物検知装置１０２は、カメラ部１１２で画像を取得する。

対象物検知装置１０２は、学習済プログラムに基づいて画像データを解析する（ステップＳ５４）。対象物検知装置１０２は、演算部１１４で、アンカー設定部３２でアンカーを設定し、その設定したアンカーの条件で深層学習を行って作成した学習済みプログラムを用いて、画像データに対象物が含まれているかを検出する。

対象物検知装置１０２は、ステップＳ５４の解析結果から対象物があるかを判定する（ステップＳ５６）。対象物検知装置１０２は、対象物がある（ステップＳ５６でＹｅｓ）と判定した場合、対象物を検出したことを報知部１１８から報知する（ステップＳ５８）。対象物検知装置１０２は、対象物がない（ステップＳ５６でＮｏ）と判定した場合、またはステップＳ５８の処理を実行した後、処理終了かを判定する（ステップＳ６０）。対象物検知装置１０２は、処理終了ではない（ステップＳ６０でＮｏ）と判定した場合、ステップＳ５２に戻り、次の画像データを取得し、対象物の検知処理を行う。対象物検知装置１０２は、処理終了である（ステップＳ６０でＹｅｓ）と判定した場合、本処理を終了する。

本実施形態は、以上のように、教師データの対象物の領域情報を用いて、アンカーの大きさ（スケール）を変化させた種々の場合について、領域同士の比較を行って、一致率を算出し、閾値以上の割合で一致するアンカーが多くなる、アンカーの大きさを算出し、算出したアンカーの大きさで深層学習を行う。これにより、対象物の検出精度をより高くすることができる。また、領域比較を行う処理で、アンカーの大きさを決定することで、アンカーについて、種々の組み合わせについて深層学習を行い、最適な条件を見つける場合よりも大幅に少ない計算で、対象物の検出精度をより高くできる、アンカーの大きさを決定することができる。また、領域情報が設定されている教師データの情報を用いることで、新たなデータを作成せずに処理を実行することができる。

＜アンカー設定方法の他の例＞
ここで、アンカー設定部３２は、アンカーのアスペクト比を教師データの対象領域の枠の情報に基づいて、決定してもよい。図１５は、アンカー設定部の処理の他の例を示すフローチャートである。図１６は、アンカー設定部の処理の他の例を説明するための説明図である。

アンカー設定部３２は、教師データを取得する（ステップＳ７０）。アンカー設定部３２は、対象物の領域のアスペクト比の分布を抽出する（ステップＳ７２）。アンカー設定部３２は、教師データの全ての画像について、設定されている領域のアスペクト比を検出する。アンカー設定部３２は、アスペクト比の情報が予め設定されている場合、設定されているアスペクト比の情報を読み込んでもよい。

アンカー設定部３２は、アスペクト比の分布を算出する（ステップＳ７４）。これにより、図１６に示すように、学習データである教師データに設定されているバウンディングボックスのアスペクト比の分布が算出される。

アンカー設定部３２は、アスペクト比の分布に基づいて、アンカーの複数のアスペクト比を決定する（ステップＳ７６）。具体的には、教師データのアスペクト比の分布に基づいて、例えば、分布の割合の２％の位置と９８％の位置と、その２つの位置を基準として、等分に分割したアスペクト比の位置を、使用するアンカーのアスペクト比とする。また、分布のピーク位置を使用するアンカーのアスペクト比としてもよい。

このように、アンカーのアスペクト比を、教師データのアスペクト比の分布に基づいて、設定することで、検出する対象物の画像上でのアスペクト比を基準として、アンカーのアスペクト比を決定することができる。これにより、アンカーでの対象物の検出精度をより高くすることができる。

＜アンカー設定方法の他の例＞
また、アンカー設定部３２は、アンカーのサイズを決定した後、使用するアンカーを評価し、アンカーの数を減少させてもよい。つまり、使用するアンカーのアスペクト比の組み合わせを評価し、検出率への影響が小さいアスペクト比のアンカーを使用しない設定としてもよい。図１７は、アンカー設定部の処理の他の例を示すフローチャートである。図１８は、アンカー設定部の処理の他の例を説明するための説明図である。

アンカー設定部３２は、図８に示すアンカーの大きさ（サイズ）を決定した後に本処理を実行する。アンカー設定部３２は、アンカーのサイズ情報を取得する（ステップＳ８０）。アンカー設定部３２は、教師データ（学習データ）の読み出しを行う（ステップＳ８２）。アンカー設定部３２は、アンカーのアスペクト比のそれぞれの組み合わせについて学習データの採用率を算出する（ステップＳ８４）。

例えば、図１８に示す例では、初期設定では、パターンＰ_１に示すように、アスペクト比が、３、２、１、１／２、１／３の、アスペクト比の異なる５つのアンカーを用いる設定となっている。これに対して、４つのアンカーを用いた場合の採用率を算出する。パターンＰ_２は、アスペクト比が２、１、１／２、１／３と、アスペクト比が３のアンカー以外の組み合わせである。パターンＰ_３は、アスペクト比が３、１、１／２、１／３と、アスペクト比が２のアンカー以外の組み合わせである。パターンＰ_４は、アスペクト比が３、２、１／２、１／３と、アスペクト比が１のアンカー以外の組み合わせである。パターンＰ_５は、アスペクト比が３、２、１、１／３と、アスペクト比が１／２のアンカー以外の組み合わせである。パターンＰ_６は、アスペクト比が３、２、１、１／２と、アスペクト比が１／３のアンカー以外の組み合わせである。アンカー設定部３２は、全てのパターについて、採用率を算出する。

アンカー設定部３２は、それぞれのアンカーの組み合わせでの採用率を比較する（ステップＳ８６）。アンカー設定部３２は、図１８に示すように、それぞれのパターンでの学習データの採用率を比較する。アンカー設定部３２は、使用するアスペクト比の組み合わせを決定する（ステップＳ８８）。アンカー設定部３２は、学習データの採用率の低減が閾値以内で、かつ、使用するアンカーの数がより少なくなる組み合わせを、使用する使用するアスペクト比の組み合わせとする。アンカーの数は同じ場合、最も学習データの採用率が高い組み合わせを、使用するアスペクト比のアンカーの組み合わせとする。図１８に示す例では、Ｐ_６のアンカーの組み合わせを採用する。

このように、アンカー設定部３２は、アンカーの組み合わせを評価し、採用率の低減を抑止しつつ、使用するアンカーを減らす組み合わせを考慮することで、対象物の検出の精度の低減を抑制しつつ、計算量を低減することができる。また、教師データを用いて、評価を行うことで、対象物の検出に適したアンカーの組み合わせとすることができる。

１０プログラム作成装置
１２入力部
１４出力部
１６演算部
１８記憶部
３０教師データ作成部
３２アンカー設定部
３４学習部
３６対象物検知処理部
４０画像データ
４２設定データ
４４学習実行プログラム
４６アンカー設定プログラム
４８、１２０対象物検知プログラム
５０、１２２学習済みプログラム
１００対象物検知システム
１０２対象物検知装置
１１２カメラ部
１１４演算部
１１６記憶部
１１８報知部
２１２アンカー
２３０、２３２バウンディングボックス

Claims

画像に対象物が含まれているかを検出する対象物検知プログラムを作成するプログラム作成装置であって、
対象物のエリア情報が含まれた複数の画像データを含む教師データと、
画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカーを設定する設定部と、
設定部の情報に基づいて、教師データを機械学習し、画像から対象物を抽出する学習済みプログラムを作成する学習部と、を含み、
前記設定部は、前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出し、
算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するプログラム作成装置。
前記設定部は、閾値を複数の一致度の値として、それぞれの採用率を算出し、算出した結果に基づいて、複数のアンカーのサイズを決定する請求項１に記載のプログラム作成装置。
前記設定部は、閾値に基づいて、採用率が最も高いアンカーのサイズを、決定するアンカーのサイズとする請求項１または請求項２に記載のプログラム作成装置。
前記設定部は、前記教師データの対象領域のアスペクト比を算出し、対象領域のアスペクト比の分布に基づいて、前記アンカーのアスペクト比を決定する請求項１から請求項３のいずれか一項に記載のプログラム作成装置。
前記設定部は、決定したアンカーのサイズに基づいて、教師データに対して、設定されたアスペクト比のそれぞれについて検出率を算出し、
算出した結果に基づいて、学習済みプログラムで使用するアンカーのアスペクト比の組み合わせを決定する請求項１から請求項４のいずれか一項に記載のプログラム作成装置。
前記設定部は、検出率を算出したアスペクト比のアンカーのうち一部のアンカーを、学習済みプログラムで使用するアンカーとする請求項５に記載のプログラム作成装置。
請求項１から請求項６のいずれか一項に記載のプログラム作成装置と、
前記プログラム作成装置で作成された学習済みプログラムを実行する演算部、画像を取得するカメラ部、オペレータに報知を行う報知部と、を含み、前記演算部は、前記カメラ部で取得した画像と前記学習済みプログラムで解析し、前記画像の対象物が含まれていることを検知した場合、前記報知部から報知する対象物検知装置と、を備える対象物検知システム。
画像に対象物が含まれているかを検出する対象物検知プログラムに用いるアンカーを設定するアンカー設定方法であって、
対象物のエリア情報が含まれた複数の画像データを含む教師データを取得するステップと、
画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカー情報を取得するステップと、
前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出するステップと、
算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するステップと、を含むアンカー設定方法。
画像に対象物が含まれているかを検出する対象物検知プログラムに用いるアンカーを設定させる処理を実行させるアンカー設定プログラムであって、
対象物のエリア情報が含まれた複数の画像データを含む教師データを取得するステップと、
画像から対象物の有無を検出するセルごとの領域を特定する枠の情報であるアンカー情報を取得するステップと、
前記教師データの対象領域と、アンカーのアスペクト比の情報を取得し、アンカーのサイズを変化させつつ、各アスペクト比での、アンカーと対象領域の一致度を算出し、一致度が閾値以上となる割合である前記対象領域の採用率を算出するステップと、
算出した結果に基づいて、学習済みプログラムで使用するアンカーのサイズを決定するステップと、を実行させるアンカー設定プログラム。