JP2020017136A

JP2020017136A - 物体検出認識装置、方法、及びプログラム

Info

Publication number: JP2020017136A
Application number: JP2018140533A
Authority: JP
Inventors: 泳青孫; Yongqing Sun; 慎吾安藤; Shingo Ando; 杵渕　哲也; Tetsuya Kinebuchi; 哲也杵渕
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2020-01-30
Also published as: WO2020022329A1

Abstract

【課題】サイズの小さな物体についても精度よく検出及び認識ができる。【解決手段】物体の検出の対象となる画像を取得し、画像に含まれる背景と物体が写った前景とを分離し、分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出し、抽出された物体候補領域に基づいて、物体候補領域及び物体候補領域の周辺に対応する複数の入力画像を生成し、生成された複数の入力画像の各々を、予め学習された物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力して、入力画像の各々について入力画像に含まれる物体の位置を検出すると共に、入力画像の各々について検出された物体のカテゴリを認識し、入力画像の各々の物体のカテゴリの認識結果に基づいて、物体のカテゴリの認識結果を統合する。【選択図】図１

Description

本発明は、物体検出認識装置、方法、及びプログラムに係り、特に、画像の物体を検出し、認識するための物体検出認識装置、方法、及びプログラムに関する。

映像や画像の中から物体を検出し、検出した物体のカテゴリ（クラス）を認識する技術がある。この技術は、映像や画像のシーン内容を解析し理解するために用いられるものである。一般的な処理の流れとしては、まず、映像や画像から被写体（物体や人物）を表す物体候補領域を抽出する。そして、物体候補領域において物体の特徴量を求め、当該特徴量を用いてカテゴリの認識を行う。また、個々の物体候補領域の認識結果を統合することにより映像や画像中の物体の検出及び認識を実現する。例えば、深層学習による物体検出と認識検出は次のような方法がある。

まず、入力画像をＳ＊Ｓのセルの領域に分割し、領域ごとに幅と長さの異なるＰ個のバウンディングボックスを予め決めておく。次に、入力画像をＣＮＮ（Convolutional Neural Network）などのニューラルネットワークのモデル（例えば、ＶＧＧ（Visual Geometry Group））において、Ｓ＊Ｓ領域内の物体があるカテゴリに属する確率と、セルに対応するＰ個のバウンディングボックスと、信頼度（信頼度の指標はバウンディングボックスの長さ、高さ、及び座標に応じて定まる）の高い真の物体の領域を表すバウンディングボックスとを同時に導出することで、物体の検出及び認識とを実現できる。

"You Only Look Once: Unified, Real-Time Object Detection", Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi, CVPR2016

もっとも、実環境で撮影された画像や映像には、複雑な背景がある場合や、サイズの小さい物体が映されている場合がよくある。例えば、図４に示すような森や山の映像や、飛んでいるドローンや道路シーンにおいて小さな道路標識はよく挙げられる物体の検出と認識の対象である。

上記の非特許文献１に示すような従来手法は画像全体を固定サイズの候補領域に分割し、それぞれの分割領域ごとに物体の種類と領域推定を行っている。そのため、物体候補領域に複数の物体が映っている場合やサイズの小さい物体があった場合、ＣＮＮの層が深くなるにつれて出力の特徴マップにおけるそれらの物体を表現するための情報量（特徴量）が少なくなるため、検出及び認識の精度が低くなる問題が生じる。

本発明は、上記問題点を解決するために成されたものであり、サイズの小さな物体についても精度よく検出及び認識ができる物体検出認識装置、方法、及びプログラムを提供することを目的とする。

上記目的を達成するために、第１の発明に係る物体検出認識装置は、物体の検出の対象となる画像を取得し、前記画像に含まれる背景と物体が写った前景とを分離する分離部と、前記分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出する物体候補領域抽出部と、前記抽出された物体候補領域に基づいて、前記物体候補領域及び前記物体候補領域の周辺に対応する複数の入力画像を生成する入力画像生成部と、生成された前記複数の入力画像の各々を、予め学習された物体の検出及び前記物体のカテゴリの認識を行うためのＣＮＮ（Convolutional Neural Network）に入力して、前記入力画像の各々について前記入力画像に含まれる前記物体の位置を検出すると共に、前記入力画像の各々について検出された前記物体のカテゴリを認識し、前記入力画像の各々の前記物体のカテゴリの認識結果に基づいて、前記物体のカテゴリの前記認識結果を統合する検出認識部と、を含んで構成されている。

また、第１の発明に係る物体検出認識装置において、前記画像は、物体の検出の対象となる映像のシーンごとに取得し、前記シーンの画像ごとに、前記分離部、物体候補領域抽出部、入力画像生成部、及び検出認識部の各処理を行うようにしてもよい。

また、第１の発明に係る物体検出認識装置において、前記入力画像生成部は、前記抽出された物体候補領域及び前記物体候補領域の周辺から得られる複数の領域をアップサンプリングすることにより前記複数の入力画像を生成するようにしてもよい。

また、第１の発明に係る物体検出認識装置において、前記検出認識部の前記認識結果の統合は、前記入力画像の各々についてのカテゴリの認識において算出されるカテゴリの各々の信頼度から求められる、カテゴリごとの前記信頼度の最大値、又は平均値を用いて、最も前記信頼度が高いカテゴリを求め、統合した認識結果とするようにしてもよい。

また、第１の発明に係る物体検出認識装置において、前記検出認識部で前記画像から検出された物体、及び前記物体のカテゴリを用いて、前記ＣＮＮを学習する学習部を更に含み、前記検出認識部により、学習した前記ＣＮＮを用いて、前記検出及び前記認識を行うようにしてもよい。

第２の発明に係る物体検出認識方法は、分離部が、物体の検出の対象となる画像を取得し、前記画像に含まれる背景と物体が写った前景とを分離するステップと、物体候補領域抽出部が、前記分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出するステップと、入力画像生成部が、前記抽出された物体候補領域に基づいて、前記物体候補領域及び前記物体候補領域の周辺に対応する複数の入力画像を生成するステップと、検出認識部が、生成された前記複数の入力画像の各々を、予め学習された物体の検出及び前記物体のカテゴリの認識を行うためのＣＮＮ（Convolutional Neural Network）に入力して、前記入力画像の各々について前記入力画像に含まれる前記物体の位置を検出すると共に、前記入力画像の各々について検出された前記物体のカテゴリを認識し、前記入力画像の各々の前記物体のカテゴリの認識結果に基づいて、前記物体のカテゴリの前記認識結果を統合するステップと、を含んで実行することを特徴とする。

第３の発明に係るプログラムは、コンピュータを、第１の発明に記載の物体検出認識装置の各部として機能させるためのプログラムである。

本発明の物体検出認識装置、方法、及びプログラムによれば、物体の検出の対象となる画像を取得し、画像に含まれる背景と物体が写った前景とを分離し、分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出し、抽出された物体候補領域に基づいて、物体候補領域及び物体候補領域の周辺に対応する複数の入力画像を生成し、生成された複数の入力画像の各々を、予め学習された物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力して、入力画像の各々について入力画像に含まれる物体の位置を検出すると共に、入力画像の各々について検出された物体のカテゴリを認識し、入力画像の各々の物体のカテゴリの認識結果に基づいて、物体のカテゴリの認識結果を統合することにより、サイズの小さな物体についても精度よく検出及び認識ができる、という効果が得られる。

本発明の実施の形態に係る物体検出認識装置の構成を示すブロック図である。物体候補領域から複数の領域を生成する場合の一例を示す図である。本発明の実施の形態に係る物体検出認識装置における物体検出認識処理ルーチンを示すフローチャートである。物体の検出と認識の対象となる画像の一例を示す図である。

以下、図面を参照して本発明の実施の形態を詳細に説明する。

＜本発明の実施の形態に係る概要＞

まず、本発明の実施の形態における概要を説明する。上述した課題に対し、映像や画像において背景と物体が写った前景とを分離し、前景からサイズの小さい物体を表す物体候補領域を抽出して、抽出された物体候補領域だけを対象にして物体の検出及び認識を行う手法はサイズの小さい物体検出に対して有効であると考えられる。

本発明の実施の形態では、映像や画像中の背景と前景とを分離する分離手段と、前景から一定サイズ以下の物体候補領域を抽出する手段と、Deep Learningベースで予め学習した物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力する入力画像を生成する手段とを設けることで、サイズの小さい物体を精度よく検出及び認識できるようにする。

＜本発明の実施の形態に係る物体検出認識装置の構成＞

次に、本発明の実施の形態に係る物体検出認識装置の構成について説明する。図１に示すように、本発明の実施の形態に係る物体検出認識装置１００は、ＣＰＵと、ＲＡＭと、後述する物体検出認識処理ルーチンを実行するためのプログラムや各種データを記憶したＲＯＭと、を含むコンピュータで構成することが出来る。この物体検出認識装置１００は、機能的には図１に示すように、蓄積部２０と、取得部２２と、分離部３０と、物体候補領域抽出部３２と、入力画像生成部３４と、検出認識部３６と、学習部３８とを含んで構成されている。

蓄積部２０には、物体の検出及び認識の対象となる映像を蓄積する。蓄積部２０は、処理対象の取得部２２から処理指示を受け取ると、処理対象の取得部２２に対して映像を出力する。また、検出認識部３６で求められた検出結果及び認識結果を蓄積部２０に格納する。なお、蓄積部２０に映像でなく画像を蓄積し、画像ごとに分離部３０、物体候補領域抽出部３２、入力画像生成部３４、及び検出認識部３６による物体の検出及び認識の処理を行ってもよい。

取得部２２は、蓄積部２０に検出及び認識の処理指示を出力し、蓄積部２０に格納された映像を取得し、取得した映像を分離部３０へ出力する。また、検出認識部３６の処理後に、蓄積部２０に学習の処理指示を出力し、蓄積部２０に格納された、入力画像の各々の検出結果、及びカテゴリの認識結果を統合したものを取得し、学習部３８に出力する。

分離部３０は、物体の検出の対象となる画像を映像のシーンごとに取得し、画像に含まれる背景と物体が写った前景とを分離する。分離部３０では、まず、取得部２２から受け取った映像において、一定の時間間隔のフレームで画像（ｖ_１,ｖ_２，...，ｖ_Ｎ）を抽出する。次に、時系列順に前後のフレーム間の動的な特徴量を用いて、画像中において背景と物体の写る前景とを分離する。分離には、例えば、画像処理のライブラリOpenCVのcv2.absdiff()の処理を用いればよい。分離された前景を物体候補領域抽出部３２へ出力する。

物体候補領域抽出部３２は、分離部３０で分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出し、入力画像生成部３４へ出力する。
具体的には、まず下記非特許文献２に示すようなエッジ情報を用いた物体領域抽出手法を用いて、前景を表す領域を抽出する。

非特許文献２：Edge Boxes: Locating Object Proposals from Edges, C.LawrenceZitnickPiotrDollar,ECCV 2014

次に、物体候補領域抽出部３２は、抽出した前景を表す領域の個々のサイズを計算する。例えば、前景を表す領域のバウンディングボックスの面積を計算すればよい。そして、所定のサイズ以下（例えば、50*50pixel以下）の領域を物体候補領域として抽出する。

入力画像生成部３４は、抽出された物体候補領域に基づいて、物体候補領域及び物体候補領域の周辺に対応する複数の入力画像を生成する。例えば、抽出された物体候補領域及び物体候補領域の周辺から得られる複数の領域をアップサンプリングすることにより複数の入力画像を生成する。具体的には、図２に示すように、ｅのボックスを一つの物体候補領域として、ｅと同じ面積を持つ左上に隣接した領域をａの領域として生成する、同じく、左下、右上、及び右下の周辺領域を用いて、ｂ，ｃ，ｄのような複数の領域を生成することができる。次に、ａ，ｂ，ｃ，ｄ，ｅの領域に対してアップサンプリング処理する。例えば、画像処理の最近傍補間（Nearest neighbor）やバイリニア補間（bilinear）処理を用いれば領域を拡大することができる。そして、アップサンプリングされたａ，ｂ，ｃ，ｄ，ｅの領域を入力画像として検出認識部３６へ出力する。このように複数の領域を用いることで認識の精度を高められる。また、後述する学習部３８において、解像度の高い画像やトレーニング用の複数の画像を用いて、Deep Learningベースで学習した物体の検出及び物体のカテゴリの認識を行うためのＣＮＮのパラメータのチューニングをすることができる。ＣＮＮのパラメータのチューニングにより、検出及び認識の精度が高くなることが見込めるため、上記ｅの領域を含め、データ量を増やす目的で、周辺領域のａ，ｂ，ｃ，ｄの領域の入力画像は生成されるのである。図２は一つの態様であり、応用ニーズに応じて、データを増やす他の方法を取り入れてもよい。例えば、ｅの領域を拡大した領域を生成してデータを増やしてもよい。

検出認識部３６は、入力画像生成部３４で生成された複数の入力画像の各々を、予め学習された物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力して、入力画像の各々について入力画像に含まれる物体の位置を検出すると共に、入力画像の各々について検出された物体のカテゴリを認識し、入力画像の各々の物体のカテゴリの認識結果に基づいて、物体のカテゴリの認識結果を統合する。ＣＮＮを用いた検出及び認識の手法としては、例えば非特許文献１に記載のＹｏｌｏを用いる。同手法では、例えば、入力画像の各々について、セルごとの物体検出確率が算出されると共に、カテゴリの認識において、複数のバウンディングボックスの各々に対して、カテゴリの各々の信頼度が算出される。そこで、入力画像の各々について算出したカテゴリの各々の信頼度から、カテゴリごとの信頼度の最大値を求め、最大値が最も高いカテゴリを、カテゴリの認識結果を統合したものとすればよい。もしくは、入力画像の各々についてのカテゴリごとの信頼度の平均値を用いて、信頼度の平均値が最も高いカテゴリを、カテゴリの認識結果を統合したものとしてもよい。

検出認識部３６は、上記の入力画像の各々の物体の検出結果、及びカテゴリの認識結果を統合したものを蓄積部２０に格納する。

学習部３８は、取得部２２から、蓄積部２０に格納された、入力画像の各々の検出結果、及びカテゴリの認識結果を統合したものを受け取り、検出結果、及び認識結果を用いて、物体の検出及び物体のカテゴリの認識を行うためのＣＮＮのパラメータをチューニングし、学習結果を検出認識部３６にフィードバックする。学習は誤差逆伝播法などの一般的なＣＮＮの学習手法を用いればよい。学習部３８の学習により、検出認識部３６では、パラメータがチューニングされたＣＮＮを用いて物体の検出及び認識をすることができる。

なお、学習部３８の処理については、取得部２２、分離部３０、物体候補領域抽出部３２、入力画像生成部３４、及び検出認識部３６による一連の物体の検出及び認識の処理とは別個に、任意のタイミングで行えばよい。

＜本発明の実施の形態に係る物体検出認識装置の作用＞

次に、本発明の実施の形態に係る物体検出認識装置１００の物体の検出及び認識に関する作用について説明する。物体検出認識装置１００は、図３に示す物体検出認識処理ルーチンを実行する。

まず、ステップＳ１００では、取得部２２は、蓄積部２０に検出及び認識の処理指示を出力し、蓄積部２０に格納された映像を取得し、取得した映像を分離部３０へ出力する。

次に、ステップＳ１０２では、分離部３０は、映像のシーンごとに、一定の時間間隔のフレームから、物体の検出の対象となる画像（ｖ_１,ｖ_２，...，ｖ_Ｎ）を抽出する。

ステップＳ１０４では、分離部３０は、対象の画像ｖ_ｉを選択する。

ステップＳ１０６では、分離部３０は、対象の画像ｖ_ｉについて、時系列順に前後のフレーム間の動的な特徴量を用いて、画像中において背景と物体の写る前景とを分離する。

ステップＳ１０８では、物体候補領域抽出部３２は、ステップＳ１０６で分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出し、入力画像生成部３４へ出力する。

ステップＳ１１０では、入力画像生成部３４は、対象の画像ｖ_ｉについて、抽出された物体候補領域に基づいて、物体候補領域及び物体候補領域の周辺に対応する複数の入力画像を生成する。

ステップＳ１１２では、検出認識部３６は、対象の画像ｖ_ｉについて、ステップＳ１１０で生成された複数の入力画像の各々を、予め学習された物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力して、入力画像の各々について入力画像に含まれる物体の位置を検出すると共に、入力画像の各々について検出された物体のカテゴリを認識し、入力画像の各々の物体のカテゴリの認識結果に基づいて、物体のカテゴリの認識結果を統合する。

ステップＳ１１４では、検出認識部３６は、対象の画像ｖ_ｉについて、入力画像の各々の物体の検出結果、及びカテゴリの認識結果を統合したものを蓄積部２０に格納する。

ステップＳ１１６では、検出認識部３６は、全ての対象の画像ｖ_ｉについて処理を終了したかを判定し、終了していれば物体検出認識処理ルーチンを終了し、終了していなければステップＳ１０４に戻って次の対象の画像ｖ_ｉを選択して処理を繰り返す。

以上説明したように、本発明の実施の形態に係る物体検出認識装置によれば、物体の検出の対象となる画像を取得し、画像に含まれる背景と物体が写った前景とを分離し、分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出し、抽出された物体候補領域に基づいて、物体候補領域及び物体候補領域の周辺に対応する複数の入力画像を生成し、生成された複数の入力画像の各々を、予め学習された物体の検出及び物体のカテゴリの認識を行うためのＣＮＮに入力して、入力画像の各々について入力画像に含まれる物体の位置を検出すると共に、入力画像の各々について検出された物体のカテゴリを認識し、入力画像の各々の物体のカテゴリの認識結果に基づいて、物体のカテゴリの認識結果を統合することにより、サイズの小さな物体についても精度よく検出及び認識ができる。

なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

例えば、上述した実施の形態では、学習部３８を物体検出認識装置１００に含める場合を例に説明したが、これに限定されるものではなく、物体検出認識装置１００とは別個の学習装置として構成するようにしてもよい。

２０蓄積部
２２取得部
３０分離部
３２物体候補領域抽出部
３４入力画像生成部
３６検出認識部
３８学習部
１００物体検出認識装置

Claims

物体の検出の対象となる画像を取得し、前記画像に含まれる背景と物体が写った前景とを分離する分離部と、
前記分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出する物体候補領域抽出部と、
前記抽出された物体候補領域に基づいて、前記物体候補領域及び前記物体候補領域の周辺に対応する複数の入力画像を生成する入力画像生成部と、
生成された前記複数の入力画像の各々を、予め学習された物体の検出及び前記物体のカテゴリの認識を行うためのＣＮＮ（Convolutional Neural Network）に入力して、前記入力画像の各々について前記入力画像に含まれる前記物体の位置を検出すると共に、前記入力画像の各々について検出された前記物体のカテゴリを認識し、前記入力画像の各々の前記物体のカテゴリの認識結果に基づいて、前記物体のカテゴリの前記認識結果を統合する検出認識部と、
物体検出認識装置。
前記画像は、物体の検出の対象となる映像のシーンごとに取得し、前記シーンの画像ごとに、前記分離部、物体候補領域抽出部、入力画像生成部、及び検出認識部の各処理を行う請求項１に記載の物体検出認識装置。
前記入力画像生成部は、前記抽出された物体候補領域及び前記物体候補領域の周辺から得られる複数の領域をアップサンプリングすることにより前記複数の入力画像を生成する請求項１又は請求項２に記載の物体検出認識装置。
前記検出認識部の前記認識結果の統合は、前記入力画像の各々についてのカテゴリの認識において算出されるカテゴリの各々の信頼度から求められる、カテゴリごとの前記信頼度の最大値、又は平均値を用いて、最も前記信頼度が高いカテゴリを求め、統合した認識結果とする請求項１〜請求項３の何れか１項に記載の物体検出認識装置。
前記検出認識部で前記画像から検出された物体、及び前記物体のカテゴリを用いて、前記ＣＮＮを学習する学習部を更に含み、
前記検出認識部により、学習した前記ＣＮＮを用いて、前記検出及び前記認識を行う請求項１〜請求項４の何れか１項に記載の物体検出認識装置。
分離部が、物体の検出の対象となる画像を取得し、前記画像に含まれる背景と物体が写った前景とを分離するステップと、
物体候補領域抽出部が、前記分離された前景を表す領域のうち、所定のサイズ以下の領域を物体候補領域として抽出するステップと、
入力画像生成部が、前記抽出された物体候補領域に基づいて、前記物体候補領域及び前記物体候補領域の周辺に対応する複数の入力画像を生成するステップと、
検出認識部が、生成された前記複数の入力画像の各々を、予め学習された物体の検出及び前記物体のカテゴリの認識を行うためのＣＮＮ（Convolutional Neural Network）に入力して、前記入力画像の各々について前記入力画像に含まれる前記物体の位置を検出すると共に、前記入力画像の各々について検出された前記物体のカテゴリを認識し、前記入力画像の各々の前記物体のカテゴリの認識結果に基づいて、前記物体のカテゴリの前記認識結果を統合するステップと、
物体検出認識方法。
コンピュータを、請求項１〜請求項５のいずれか１項に記載の物体検出認識装置の各部として機能させるためのプログラム。