JP6557783B2 - オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク - Google Patents

オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク Download PDF

Info

Publication number
JP6557783B2
JP6557783B2 JP2018523012A JP2018523012A JP6557783B2 JP 6557783 B2 JP6557783 B2 JP 6557783B2 JP 2018523012 A JP2018523012 A JP 2018523012A JP 2018523012 A JP2018523012 A JP 2018523012A JP 6557783 B2 JP6557783 B2 JP 6557783B2
Authority
JP
Japan
Prior art keywords
scale
classifier
convolution
convolutional
interest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018523012A
Other languages
English (en)
Other versions
JP2018538612A (ja
Inventor
ウォングン チョイ、
ウォングン チョイ、
ファン ヤン、
ファン ヤン、
ユェンチン リン、
ユェンチン リン、
シルヴィオ サヴァレッセ、
シルヴィオ サヴァレッセ、
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Laboratories America Inc
Original Assignee
NEC Laboratories America Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Laboratories America Inc filed Critical NEC Laboratories America Inc
Publication of JP2018538612A publication Critical patent/JP2018538612A/ja
Application granted granted Critical
Publication of JP6557783B2 publication Critical patent/JP6557783B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Description

関連出願情報
本出願は2015年11月4日に出願された米国特許出願第62/250,750号の優先権を主張し、参照により完全に本明細書に引用したものとする。
技術分野
本発明は画像処理に関し、特にオブジェクト検出のためのスケール依存プーリングおよびカスケード型拒否分類器を使用している畳み込みニューラルネットワークに関する。
関連技術の説明
畳み込みニューラルネットワーク(CNN)は、異なるレベルのデータ粒度で特徴を学習するその能力のため、各種のコンピュータビジョン課題克服に貢献してきた。CNN特徴を有している領域(R−CNN)が、オブジェクト検出のために提案されてきたが、その中では予め訓練を受けたネットワークは何千ものオブジェクト候補を分類するために微調整される。しかしながら、訓練およびテストは両方とも、ネットワークがすべてのオブジェクト候補および/または層のそれぞれに、オーバラップせずに独立にフォワードパスを実行するので、効率が低いという欠点がある。
計算のコストを減らすために、最近のCNNベースのオブジェクト検出器(例えばFast RCNNおよび空間ピラミッドプーリングネットワーク(SPPnet))は、畳み込み層によって生成される特徴を共有して、各候補境界ボックスに対してマルチクラス分類器を適用する。Fast RCNNは全部の特徴に一度だけ実行される畳み込み動作を使用し、そして、オブジェクト候補は最後の畳み込み層だけからプールされて、完全接続(FC)層に入れられてオブジェクトカテゴリの尤度を評価する。
しかしながら、Fast RCNNは、小さなオブジェクトをうまく扱うことができない。例えば、候補境界ボックスが標準的なサイズに歪ませてではなくむしろ、最後の畳み込み特徴マップから直接的にプールされるので、ボックスが小さ過ぎる場合、それらは決定のための十分な情報を含まない。マルチスケール入力方式は、メモリ制約のため深層アーキテクチャの適用可能性を制限し、プロセスに追加的な計算の負担をもたらす。その結果、膨大な数の候補境界ボックスをプールして、それらを高次元FC層に入れるには、極めて時間がかかることになり得る。
本発明の原理の一態様によれば、畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ実行方法が提供される。方法は画像から関心領域を受信することと、画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有する1つまたは複数の畳み込み層を生成することと、少なくとも1つのカスケード型拒否分類器を関心領域に適用して関心領域のサブセットを生成することと、スケール依存プーリングをサブセットの中の畳み込み特徴に適用してオブジェクトカテゴリの尤度を決定することとを含む。
本発明の原理の別の態様によれば、畳み込みニューラルネットワーク(CNN)を訓練するシステムが提示される。システムは、メモリおよびメモリと通信するプロセッサを含んでおり、プロセッサは、画像から関心領域を受信し、画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有している1つまたは複数の畳み込み層を生成し、少なくとも1つのカスケード型拒否分類器を関心領域に適用して関心領域のサブセットを生成し、サブセットの中の畳み込み特徴にスケール依存プーリングを適用してオブジェクトカテゴリの尤度を判定するように構成される。
本発明の原理の別の態様によれば、畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ可読プログラムを含んでいる非一時的コンピュータ可読記憶媒体が示され、コンピュータ可読プログラムは、コンピュータ上で実行されると、コンピュータに、画像から関心領域を受信するステップ、画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有する1つまたは複数の畳み込み層を生成するステップ、少なくとも1つのカスケード型拒否分類器を関心領域に適用して関心領域のサブセットを生成するステップ、およびスケール依存プーリングをサブセットの中の畳み込み特徴に適用してオブジェクトカテゴリの尤度を決定するステップを実行させる。
これらおよびその他の特徴および利点は、添付図面との関連で読み取られるべき例証的実施態様の以下の詳述から明らかになる。
本開示は、以下の図面を参照して好適な実施形態の詳細を以下の記述に示す。
本発明の実施形態による、畳み込みニューラルネットワーク(CNN)を訓練するためのシステム/方法を例示するブロック/フロー図である。 本発明の実施形態による、畳み込みニューラルネットワーク(CNN)を訓練するためのシステム/方法を例示するブロック/フロー図である。 本発明の実施形態による、畳み込みニューラルネットワーク(CNN)を訓練するためのシステム/方法を例示するブロック/フロー図である。 本発明の実施形態による、本発明の原理が適用されてもよい例示的な処理システムのブロック/フロー図である。 本発明の実施形態による、畳み込みニューラルネットワーク(CNN)を訓練するためのシステム/方法を例示するフロー図である。
本発明の実施形態は、効率的かつ正確なオブジェクト検出のためのスケール依存プーリングを伴うカスケード型拒否分類器を使用した、所与の画像の中の視覚的オブジェクトの検出のための従来のニューラルネットワーク(CNN)に対するシステムおよび方法を提供する。加えて、本発明は、画像を与えられての視覚的オブジェクトの検出のための畳み込みニューラルネットワーク(CNN)を訓練する、方法およびシステムを提案する。
いくつかの実施形態において、本明細書において記載されているシステム/方法は、畳み込みニューラルネットワークを使用して画像の中のオブジェクトの表示を学習し、そして、スケール依存プーリングおよび/または層依存のカスケード型拒否分類器を使用して表示を改善する。ある実施形態においては、異なるネットワークを結合するのではなくむしろ、単一のネットワークの中の異なる畳み込み層からの特徴を利用することによって、カスケード型拒否分類器(CRC)が使用される。さらに別の実施形態では、スケール依存プーリング(SDP)は画像ごとの単一の畳み込み特徴の共有を可能とする一方で、画像の中のオブジェクトのスケールバリエーションを効率的に処理する。
本発明は、画像の中の関心オブジェクト(例えば、車、歩行者など)を正確に識別/認識して、画像の中のこのようなオブジェクトが効率的に間隔を置く位置を推定してもよい。本発明を適用することができる例示的な用途/使用法は、オブジェクト検出/認識、オブジェクト分類、場面分類、画像検索などの視覚認識を含むが、これに限定されるものではない。いくつかの実施形態では、カスケード型拒否分類器(CRC)が効果的に畳み込み特徴を利用して、高精度を維持すると共に、オブジェクト検出の速度を大幅に上げるカスケード型方法でネガティブ境界ボックスを除去する。加えて、スケール依存プーリング(SDP)は、オブジェクト候補となりそうなもののスケールに応じて適切な畳み込み特徴を利用することによって、検出精度を改善することができる。都合のよいことに、本発明はより正確に、そして、効率的に各種の運転シナリオ(例えば、自律車両アプリケーション、先進運転支援システム(ADAS)など)においてオブジェクトを検出することができる。例えば、小さなオブジェクトは検出精度がほぼ5〜20%増加してより正確に検出される一方で、このような画像を従来の方法より非常に速く(例えば、二倍高速に)処理する。
本明細書において記載される実施形態は、完全にハードウェアであっても、完全にソフトウェアであっても、またはハードウェアおよびソフトウェア要素の両方を含んでいてもよい。好適な実施形態においては、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されるものではないソフトウェアで行う。
実施形態は、コンピュータまたは任意の命令実行システムによって、または、それに関連して用いるためのプログラムコードを提供している、コンピュータが使用可能なまたはコンピュータ可読の媒体からアクセスできるコンピュータプログラム製品を含んでいてもよい。コンピュータが使用可能なまたはコンピュータ可読の媒体は、命令実行システム、装置またはデバイスによって、または、それに関連して用いるためのプログラムを記憶するか、通信するか、伝播するかまたは、移送するいかなる装置を含んでいてもよい。媒体は、磁気、光学、電子、電磁気、赤外線、または半導体のシステム(もしくは装置やデバイス)または伝搬媒体であることができる。媒体は、コンピュータ可読記憶媒体(例えば半導体または固体メモリ)、磁気テープ、着脱可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、磁気ハードディスクおよび光ディスク、などを含んでいてもよい。
各コンピュータプログラムは、記憶媒体またはデバイスがコンピュータによって読み出されて本明細書において記載されている手順を実行するときに、コンピュータの動作を構成して、制御するために、汎用または特殊目的のプログラム可能なコンピュータによって読み出し可能な、機械可読の記憶装置媒体またはデバイス(例えば、プログラムメモリまたは磁気ディスク)に有形に格納されてもよい。本発明のシステムはまた、コンピュータプログラムと共に構成されるコンピュータ可読記憶媒体において実施されると考えてもよく、そのように構成された記憶媒体は、コンピュータが特定の定義済みの方法で作動して、本明細書において記載されている機能を実行するようにさせる。
プログラムコードを記憶および/または実行するのに適しているデータ処理システムは、直接または間接的にシステムバスを介して記憶素子に連結されている少なくとも1つのプロセッサを含んでいてもよい。記憶素子は、プログラムコードの実際の実行の間に使用されるローカルメモリ、大容量記憶装置、および実行の間にコードが大容量記憶装置から読み出される回数を減らすための、少なくともいくつかのプログラムコードの一時記憶を提供するキャッシュメモリを含むことができる。入力/出力または入出力デバイス(キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これに限定されるものではない)は、システムに直接、または、介在するI/Oコントローラによって、連結されていてもよい。
ネットワークアダプタがまた、システムに連結されていて、データ処理システムが介在する私設であるか公共のネットワークによって他のデータ処理システムまたはリモートプリンタまたは記憶装置に連結されるようになることを可能にしていてもよい。モデム、ケーブルモデムおよびイーサネット(登録商標)カードは、ネットワークアダプタの現在利用可能なタイプのうちのごく少数である。
ここで詳細に、同様の数字が同一または類似の要素を表している図、そして、まず図1を参照すると、畳み込みニューラルネットワーク(CNN)をオブジェクト検出のために訓練するシステム/方法100が、本発明の原理の一実施形態にしたがって、例証的に表される。本明細書において記載されているシステム/方法100は、すべての畳み込み層103の畳み込み特徴105を利用してカスケード型拒否分類器108を介して簡単なネガティブを拒否して、スケール依存プーリング116を使用して残存している候補を評価する。
オブジェクト認識/検出は、画像および/またはビデオシーケンスのオブジェクトを見つけて、識別するためのコンピュータビジョンの分野である。いかなる所与の画像および/またはビデオシーケンスにおいても、オブジェクト認識はすべてのオブジェクト、例えばデータセットに依存しているオブジェクトの制限されたクラスを検出し、そして、各オブジェクトはラベルによって識別される境界ボックスを使用してローカライズされる。境界ボックスは、所与の画像および/またはビデオシーケンスの中の関心領域(ROI)を表すものであってもよい。例えば、境界ボックスは、画像空間の中で車、自転車、歩行者などを識別することができる。オブジェクト検出において、各画像画素は、それが特定の種別(例えば、車、自転車、歩行者など)に帰属するか否かについて、例えば、ピクセルを一緒にグループ化して境界ボックスを形成することによって、分類され得る。
一実施形態において、スケール依存プーリングおよび/またはカスケード型拒否分類器を含んでいる畳み込みニューラルネットワーク(CNN)が提供される。通常、CNNは、入力画像の複数の層(例えば、畳み込み層)を使用して、層をオーバラップさせて画像の表示を判定することで、リアルタイムの視覚的オブジェクト検出を可能にする。CNNは、入力画像の一部を処理する小さなニューロンコレクションであってもよい受容野の複数の層を含む。それから、これらのコレクションの出力は平滑化され、これによりそれらの入力領域がオーバラップしてオリジナル画像のより良好な表示を取得し、それはこのような畳み込み層ごとに繰り返される。
CNNアーキテクチャは、通常、微分可能な関数によって入力ボリュームを出力ボリューム(例えば、クラススコアを保持している)に変換する、畳み込み層などの別個の層のスタックによって形成される。CNNの別の概念は、非線形ダウンサンプリングの形であるプーリングを含む。最大プーリングなどのプーリングは、入力画像を非オーバラップ長方形のセットに分割し、各サブ領域が最大値を出力する。プーリング層は表示の空間サイズを徐々に減らして、CNNにおいて実行されるパラメータおよび計算の量を減らす。プーリング層は、入力画像のあらゆる畳み込み層において独立して作動して、空間的に各畳み込み層のサイズを変更する。いくつかの畳み込みおよび最大プーリング層が処理されたあと、CNNの推論は完全接続(FC)層を介して達成される。FC層のニューロンは、以前の層のすべてのアクティベーションへの完全な接続を有している。
一実施形態において、画像および/またはビデオシーケンス101(以下これらをまとめて「画像」と呼ぶ)が受信される。画像101は場面を表している複数のピクセルを有しているいかなる画像であることもでき、場面は画像の中の1つまたは複数のオブジェクト、例えば車、自転車、歩行者などを有している。各画像は、1つまたは複数の関心領域(ROI)104、106、例えば小さなROI104および大きなROI106を含むことができる。ROI104、106は、特定の目的のために識別されるデータセットの中のサンプルの選択されたサブセットを含むことができる。例えば、ROI104、106は、境界ボックス候補方法、例えばSelective Search、EdgeboxまたはRegion Proposal Networkによって提供され得る。
いくつかの実施形態では、ROI104、106は、考察中のオブジェクトの境界(例えば、波形上の時間または周波数間隔、画像の中のオブジェクトの境界、オブジェクトの輪郭を描いている外形または表面、時間ボリュームの特定の時間間隔での、または、その間のオブジェクトの輪郭など)を定めることができる。いくつかの実施形態では、ROI104、106が受信されてもよい。一実施形態において、ROI104、106は、1つまたは複数の境界ボックス(例えば、小さな境界ボックス、大きな境界ボックスなど)として表されてもよい。境界ボックス104、106は、例えば、各ROIの中の多くのピクセルに基づいて判定されてもよい。このようなROIおよび/または境界ボックスは、多くの誤検知を含んでいる可能性のある「オブジェクト」候補を表す。
一実施形態において、画像101は、複数の畳み込み層103(例えば、103a〜103d)に分けられる。例えば、図1で図示するように、画像101は、複数の連続した畳み込み層103a〜103d(例えば、convl、conv2、conv3、conv4など)に分けられ、ここでconv4は最後の畳み込み層である。各畳み込み層は、関心領域(ROI)104、106の中の少なくとも1つの畳み込み特徴105を含んでいる。畳み込み層103の出力は、畳み込み特徴105である。各畳み込み層103は、入力(空間格子の形で、例えば、画像101または以前の畳み込み層の出力である)を取り込み、畳み込み特徴マップを生成する。
畳み込み特徴105は、各畳み込み層の中の抽出された特徴である。畳み込み特徴105は、例えば、1つまたは複数の畳み込み層にわたって持ち運ぶことができる特定の密度の領域を含むことができる。一実施形態において、畳み込み動作(例えば、畳み込み層の分離)は画像101当たり一度だけ実行されて、いかなる冗長な特徴抽出も行われないようにする。したがって、画像101のための1セットの畳み込み特徴/層だけが生成される。畳み込み層103の各出力は、次の後続の畳み込み層103に対する入力になる。例えば、conv2層103bに対する入力は、convl層103aのアクティベーションマップである。各アクティベーションマップは、画像の中のますます多くの複雑な特徴を表す。
いくつかの実施形態では、ROIプーリング層(図示せず)は各畳み込み層103に最大プーリングを実行して、任意の有効なROI104、106の内側の畳み込み特徴105を、高さHに幅Wを乗じた固定空間範囲を有する小さな特徴マップに変換する。ここでHおよびWはいかなる特定のROIもから独立している層ハイパパラメータである。ROIプーリングの出力はSDPモジュールに渡すことができる。畳み込み層特徴105はこのように、空間的にサブサンプルをとる層があるので各畳み込み層103が生成されるにつれて、より小さくなる(例えば最大プーリングまたは1を超える空間ストライドサイズを有する畳み込み)。
図1に例示説明したとおり、各後続の畳み込み層103は、したがって、以前の畳み込み層103よりも小さい。例えば、conv4層103dはconv3層103cよりも小さく、conv3層103cはconv2層103bよりも小さく、conv2層103bはconvl層103aよりも小さい。畳み込み層の特徴マップは、最大プーリングまたはストライド化畳み込みのため、より小さくなる。後の畳み込み層のチャネル数がよりかなり大きいので、計算の負担を減らすためにより小さなマップを有することは有益であってもよい。
オブジェクトの視覚の意味論的な概念は、画像101の中のターゲットオブジェクトのサイズに応じて、異なる畳み込み層103において現れることができる。これらの視覚の意味論的な概念は、例えば、ターゲットオブジェクトの一部を表す畳み込み特徴105を含むことができる。ターゲットオブジェクトは、車または歩行者などの画像の中で検出されるオブジェクトを含んでいてもよい。視覚の意味論的な概念は、抽象的な可視要素、例えばオブジェクト(例えば、目、車輪など)の小部分または低レベルの顕著な特徴(例えば、端、角、材質など)を含む。例えば、画像101の中のターゲットオブジェクト(例えば、歩行者)が小さい場合、オブジェクトの特定の部分をコード化する初期の畳み込み層103c(例えば、conv3)に、畳み込みニューロン(例えば、畳み込み特徴105)の強いアクティベーションは存在してもよい。一方で、ターゲットオブジェクトが大きい場合(例えば、車)、同じ部分概念は後続の畳み込み層103d(例えば、conv4)において現れてもよい。
畳み込み層103ごとに、入力ROI104、106のセットは各畳み込み層の特徴105および少なくとも1つのカスケード型拒否分類器(CRC)を用いて徐々に減じられ、入力ROI104、106のサブセットであるROI110の新規なセットを生成する。例えば、入力ROIが小さなROI104であると仮定して、カスケード型拒否分類器108は、ROI110のサブセットを生成するための境界ボックス候補の数を減らす。すべての畳み込み層103が処理されてしまったあとにその終わりで残っているオブジェクト候補の数がより少なくなるように、このプロセスはすべての畳み込み層103に対して繰り返すことができる。例えば、ROI110およびCRC108の新規なセットは、図1にて図示したように、さらに後続の畳み込み層のROIの数を減らして、ROIの新しいサブセット(例えば、サブセットROI112、サブセットROI114など)を生成するために使用することができる。
カスケード型拒否分類器(CRC)108は、何百または何千もの特定のオブジェクト(例えば、自転車、車、歩行者など)の「ポジティブ」サンプルビュー、およびほぼ同一サイズを有しているオブジェクトの任意の「ネガティブ」画像を含むことができる。命題分類器108は画像の中の関心領域に適用されて当該オブジェクトを検出することができるだけではなく、また、特定のオブジェクトが見つからない/位置検出されないあらゆる関心領域を拒否することもできる。例えば、自転車のCRC108は、自転車の特徴(例えば、車輪、ハンドルバーなど)を有するROIを検出するために用いることができ、また自転車の特徴を有していないROI(例えば、空などの、非オブジェクト候補)を除去することもできる。
カスケーディング方向は、CNNの畳み込み層103のセット全体に定めることができる。一実施形態において、初期の畳み込み層103内の畳み込み特徴105は、弱分類器および/またはブースティング分類器として定義されることができ、および/またはそれを表すことができる。初期の畳み込み層103からの特徴105がオブジェクトカテゴリの強い評価をするには弱すぎる可能性があるにもかかわらず、このような特徴105は短時間で簡単なネガティブを拒否するために役立ち得る。拒否分類器108が訓練されたあと、分類器108は画像の領域に適用されて当該ターゲットオブジェクトを検出することができる。すべての画像101のオブジェクトを検索するために、探索ウィンドウは画像101全体にわたって移動され、分類器のあらゆる場所を点検することができる。このように、CRC108は、分類器108を含まない各サブセットの中のいかなるROI104、106および/または領域も拒否することによって、ROIの数を効果的に減らすことができる。例えば、拒否分類器が歩行者を表すデータを含んでいる場合、CRC108は、ROI104、106をROI110のサブセットに減らすことができ、ここでROI110のサブセットは歩行者を表すデータを含み、そして歩行者を表すデータを含まないあらゆるROIを除去する。
比較すると、Fast RCNNはあらゆるオブジェクト候補がROIプーリング層によってプールされて、FC層に入れられることを必要とし、FC層の候補およびニューロンの数が膨大であると想定すれば、それは計算コストが高い。真のオブジェクトは、通常、オブジェクト候補の合計数よりもずっと少ない。数千または何万ものオブジェクト候補を想定すれば、それらのほとんどは、オブジェクトを含まない背景領域をカバーしており、一方で、それらのうちの比較的少ない数だけしか、真のオブジェクトに実際に対応しない。背景候補がROIプーリングおよびFC層を通過する前に早く除去することができる場合、FC層計算のための時間は大幅に減らすことができる。都合のよいことに、本発明に記載されているカスケード型拒否分類器は、最終オブジェクト分類器より非常に高速であるので、ROIの数が減少したことによる効率増加が、拒否分類器によって導かれるいかなる付加的な計算よりも非常に大きい。
したがって、カスケード型拒否分類器108は特定のROIをフィルタ除去し、そして、追加的な畳み込み層103からのより多くの特徴を用いる以降の評価に対して残す難しいネガティブがずっと少ない。異なる畳み込み層103が情報の異なるレベルを捕えるので、より下位であるか中間の畳み込み層103で畳み込み特徴を検査することによって、いくつかの非オブジェクト候補(例えば、適合していない畳み込み特徴)は見つけられて、拒否することができる。適合していない畳み込み特徴は、CRCの中で前に定義済みの特徴に一致しない要素である。このように、本発明は拒否分類器108を使用して、カスケード型方法によって各畳み込み層103で非オブジェクト候補を拒否する。都合のよいことに、カスケード型拒否分類器(CRC)108は効果的に畳み込み特徴を利用して、カスケード型方法によってネガティブ境界ボックスを除去し、それが高精度を維持しながら大幅に検出の速度を上げる。
ここで図2を参照すると、カスケード型拒否分類器を適用する詳細な構造が例証として表される。ROI104、106のセットおよび対応する畳み込み特徴マップを与えられて、CRCモジュールは、各ROI104、106の中の特徴105のセットを抽出することができて、それを保つべきであるかまたは無視するべきかどうかを決定することができる。抽出された特徴は、出力スコアを作成するブースティング分類器を介して集約される。したがって、出力スコアは、ROIを保持すべきかどうか決定するために用いる。各CRCプロセスによって保持されているROIは、次の畳み込み層のCRCモジュールに渡される。
図2において、連続した畳み込み層103a〜cは、最大プーリング層102a〜bを使用している画像101に対して生成される。畳み込み層103a〜cごとに特徴105a〜cが抽出され、そして、対応する拒否分類器108が分類スコアを取得するために適用される。分類スコアは、ROIを保つべきであるかまたは特定のROIを放棄するべきかどうか決定するため用いられる、CRCの各ROIに対する出力スコアである。拒否閾値より小さな分類スコアを有するオブジェクト候補は、放棄することができる。したがって、ROIの各サブセットは、以前のROIよりも小さい。
一実施形態において、カスケード型拒否分類器(CRC)108は、カスケード型方法において各畳み込み層103で非オブジェクト候補を拒否するために学習される。これを行うため、SDP分岐を有している予め訓練を受けたモデルは、グループに分けられたオブジェクト候補を使用して微調整され、各候補のための特徴マップからの特徴105は各畳み込み層103で抽出される。オブジェクトを含んでいる候補をポジティブサンプルとみなす一方で、背景を含んでいる候補をネガティブサンプルとしてみなし、バイナリ分類器は、オブジェクトを背景と区別するために畳み込み層103の候補のグループごとに対して訓練される。拒否基準を、例えば、99.9%のポジティブを保ち、30%のネガティブを拒否するように設定することによって、小さな分類スコアを有する簡単なネガティブが初期段階でフィルタ除去されるように拒否閾値は取得され、その一方で、閾値を超える分類スコアを有する拒否基準は引き続いて、拒否分類器108を後続の畳み込み層103に対して訓練するために用いる。
より正式には、特定のサイズグループに属しているスケールグループs、B=[B,B,…,B])に属するN個の候補があると仮定する。オブジェクトを含む場合にラベルy=1で、そうでない場合にy=0を有する候補B∈Bを想定して、それをROIプーリングによってl番目の畳み込み層Lからプールして、結果としてm×m×c直平行六面体となる。ここでmはROIプーリングの後の候補の固定サイズであり、cは層Lの特徴マップのチャンネル数である。直平行六面体をベクトル化することによって、候補Biに対するID特徴ベクトル
Figure 0006557783
が取得される。全体として、訓練セット
Figure 0006557783
ならびにラベルセットY={0,1}∈Rは、拒否分類器を学習するために取得される。別々のAdaboost分類器が、その効率のために拒否分類器として用いられてもよい。拒否基準を満たす候補は、分類器を続く層のために訓練するために保たれる。テストフェーズのフォワードパスの間、各畳み込み層103の後で、候補がROIプーリングによってプールアウトされ、特徴105が抽出され、そして、対応する拒否分類器108が分類スコアを取得するために適用される。拒否閾値より小さな分類スコアを有するそれらの候補は、放棄することができる。したがって、多数のネガティブは連続的な畳み込み層103によって徐々に拒否されてSDPを通過せず、それが劇的に処理の速度を上げる。
さらに計算を加速するために、一連のネットワーク層は、拒否分類器が全体としてネットワーク構造に含まれることができて、グラフィック処理ユニット(GPU)で実行することができるように、拒否分類器の動作を近似するために、使用される。線形ブースティング分類器Fは、
Figure 0006557783
と記述することができ、ここで、hは弱学習器であり、wは対応する重みであり、出力は分類スコアである。弱学習器hは特定のv番目の特徴寸法の値xが決定閾値δを超える場合1を出力し、そうでなければ−1を出力する決定株であり、h(x)=sign(x−δ)として表される。
弱学習器を近似するために、特徴マップ上の特定の位置で特徴をプーリングすることだけによってROIプーリング層から適合されて、m×m×c直平行六面体よりもむしろT次元ベクトルを形成する特徴プーリング層が実装される。特徴をプールする位置は、ブースティング分類器により選択された特徴寸法を畳み込み特徴マップに後方投射することによって、事前算出することができる。特徴プーリング層は、ブースティング分類器が学習される対応する畳み込み層に接続されてもよく、その後にFC層および双曲線の(双曲線正接:tanh)層が続く。FC層の重みは単位行列であり、一方、バイアスは−δに初期化される。双曲線の層は良好な近似を符号関数に提供して、あらゆる場所で弁別可能であり、それは勾配が下位レイヤーに誤差逆伝播することができることを保証する。弱学習器近似に加えて、別のFC層が、分類器Fを作成するために使用される。ここで重みはwによる対角行列として初期化され、バイアスはネガティブ拒否閾値である。特徴プーリング層の入力として候補および畳み込み特徴マップを与えられると、すべての近似の出力は、候補が拒否されるべきか否かを指し示している数である。特徴プーリング層、双曲線の層および2つのFC層を用いることにより、拒否分類器はネットワークに容易に組み込まれることができて、GPU上で動作するネットワークモジュールによって近似されてもよい。
訓練された拒否分類器だけが、テストフェーズにおける効果的な検出のためにネットワーク層に変換されている。それにもかかわらず、拒否分類器はまた、それらがどのサンプルが分類するのが困難であるかについての情報を提供し、それらの難しいサンプルに焦点を当てるためにネットワークを強化する、という点で、ネットワークの微調整を補足するために使用される。特に、微調整は、難しいサンプルを提供することならびに、拒否分類器からの情報を誤差逆伝播することで畳み込みフィルタをより判別可能にすることよって整えられる。これを達成するために、入力として拒否分類器の出力インジケータ(例えば、ネットワーク層を使用して近似される)およびオブジェクト候補をとって、後続の層の候補に対する新規なおよびより小さなセットを出力する、選択層が実装される。候補の新規なセットにおいて、多数の候補が除去されている一方で、残存しているものは大部分が真のポジティブおよび難しいネガティブである。選択層の後で残存している候補は分類するのがより困難であり得て、それらからより判別可能なパターンをネットワークが明示的に学習するようにさせる。
続けて図1を参照すると、スケール依存プーリング(SDP)116は、各畳み込み層103に対してすべての残存しているROIの中の畳み込み特徴に実行されて、オブジェクトカテゴリの尤度を決定する。例えば、SDP116は、畳み込み特徴が歩行者、車などであるというパーセンテージ尤度を決定することができる。いくつかの実施形態では、サイズグループ当たり複数(例えば、小さい、中程度、および大きいROIに対しては3つ)のSDPモジュールが存在し得る。各SDPは、対応するサイズグループに分類される複数のROIを処理する。SDPは単一の畳み込み層に接続され、これは、1つのSDPが単一の畳み込み層から畳み込み特徴をプールすることを意味する。
スケール依存プーリング116に関する事項は、以下に図2を参照してより詳細に説明される。SDP116は、オブジェクト候補になりそうなもののスケールに応じて適切な畳み込み特徴105を利用することによっていくつかの畳み込み層103の後に接続されるスケールに特有の分岐でネットワークを微調整することによって、特に小さいオブジェクトについて、検出精度を改善する。オブジェクト候補のスケールまたはサイズが各畳み込み層103の全体にわたって変化し得るので、スケールバリエーションは視覚認識の基本的な挑戦課題である。
従来の方法、例えばR−CNN、SPPnetおよびFastRCNNは、オブジェクトを記述する特徴として、最後の層の畳み込み出力を取り扱い、および/または、最後の畳み込み層での特徴をプールする。したがって、従来の方法は、困難で、付加的な計算の負担をもたらす画像ピラミッドまたは総当たり学習方法を介して、スケールバリエーションに対処する。一実施形態において、本発明において開示されるSDPフィルタは、そのスケールに対応する層からプールされる畳み込み特徴を用いて候補オブジェクト境界ボックスを決定するために、使用することができる。したがって、SDPは、ROI当たりのオブジェクトカテゴリの尤度(例えば、車90%、人5%など)を決定する。
ここで図3を参照すると、スケール依存プーリングを使用してCNNを訓練するシステム/方法300は、本発明の原理の実施形態にしたがって、例証として表される。図3において、画像301が提供され/取得されて、連続した畳み込み層303a〜303eが図1に関して上述したように首尾よく生成される。ここで、conv5は最後の畳み込み層を表す。最大プーリング層302a〜302dは畳み込み層303ごとに最大プーリングを実行し、そして、畳み込み特徴305c〜eは各畳み込み層303c〜eから抽出される。
一実施形態において、スケール依存プーリング(SDP)は、異なるサイズのオブジェクト候補に対して異なる畳み込み層303から、追加のFC層308を外へ分岐することによって実行される。例えば、オブジェクト候補は、小さなROI 304a、中程度のサイズのROI304bおよび/または大きなROI304cを含むことができる。例えば、小さなROI304aは0〜64のピクセル高さを含んでいてもよく、中程度のROI304bは64〜128のピクセル高さを含んでいてもよく、大きなROI304cは128を超えるピクセル高さのいずれも含んでいてもよい。しかしながら、スケールグループの特定の定義は、適用シナリオに依存していてもよい。
図3に説明したとおり、SDPは、各オブジェクト候補のスケール(例えば、高さ)を決定して、スケール/高さに応じて対応する畳み込み層303から特徴305c〜eをプールすることによって、例えば、畳み込み層conv3 303c、conv4 303dおよびconv5 303eに実行される。例えば、高さ0と64ピクセルの間のオブジェクト候補は、最後の畳み込み層(例えば、conv5)よりもむしろ下位の畳み込み層(例えば、conv3)から外へプールされる。同様に、高さ64と128ピクセルの間のオブジェクト候補は、より以前に(例えば、conv4)外へプールすることができる。
比較的大きな下位の畳み込み層303から小さなオブジェクト候補をプールすることによって、検出のための充分な情報を保存するより多くのニューロンが存在する。各分岐がオブジェクト候補の特定のスケールに焦点を当てるので、学習プロセスはオブジェクト候補の各種のスケールによる混乱の傾向がない。加えて、高レベルの意味論的な概念(例えば、畳み込み特徴305c〜e)は、オブジェクトのサイズに応じて、異なる畳み込み層303において現れてもよい。例えば、オブジェクトが小さなスケールである場合、オブジェクトの一部は下位または中間の畳み込み層303のニューロンによって捕えられてもよく、必ずしも最後の畳み込み層(例えば、conv5)によってでなくてもよい。共同でスケールに特有のFC層を学習して、畳み込み層303を微調整することによって、より判別可能な畳み込み特徴を取得することができる。従来の方法とは異なり、本発明は、異なる層303から畳み込み特徴305を単に組み合せるかまたはコード化するのではなく、むしろFC層308を追加して、畳み込み特徴305を強化して、微調整の間にスケールに特有のパターンを学習する。
図3において、SDPプロセスは、入力ROI304のスケールを調べて、3つの異なる分類器の中の対応する分類器を提供する。したがって、すべての残存しているROIは、適切なオブジェクト分類器によって評価される。例えば、ターゲットROIが小さい(例えば、64ピクセル未満の)場合、conv3で接続される分類器が選択されてもよい。一方で、ターゲットRoIが大きい場合、conv5で接続される分類器が選択されてもよい。分類器のスコア出力を使用して、予め定められた閾値より高いスコアを有する検出出力が生成される。
例えば、SDPは、conv3、conv4およびconv5の後に3つの分岐を生成する。各分岐は、クラススコア310および境界ボックス回帰子312を算出するための2つの連続するFC層308に接続しているROIプーリング層306およびROIプーリング特徴307を含んでいる。微調整プロセスは、予め訓練を受けたネットワークから始まる。微調整の間、入力オブジェクト候補は、最初にそれらの高さに基づいて3つのグループに分解されて、それから対応するROIプーリング層に入れられて、異なる特徴マップから畳み込み特徴をプールする。勾配は3つの分岐から誤差逆伝播されて、対応するFC層および畳み込みフィルタを更新する。ニューロンを明示的に強化してオブジェクタの異なるスケールに対して学習することによって、畳み込み層203は、初期段階で小さなオブジェクトを検出して、従来の方法と比較して小さなオブジェクト上の検出精度を効果的に改善することが可能である。
都合のよいことに、画像当たり一度だけ畳み込み特徴305を計算すると共に、ターゲットオブジェクトのスケールバリエーションは効率的に割り当てられてもよい。入力画像の中で人工的に大きさを変更して適当な特徴記述を取得する代わりに、SDPは、適当な特徴層303を効率的に選択してオブジェクト候補を記述する。したがって、SDPは冗長な畳み込み動作によって生じる計算のコストおよびメモリオーバヘッドを削減し、結果としてオブジェクト候補の簡潔で一貫した表示を得る。
ここで図4を参照すると、本発明の原理が適用されてもよい例示的な処理システム400は、本発明の原理の一実施形態にしたがって、例証として表される。処理システム400は、システムバス402を介して他の構成要素に動作上連結された少なくとも1つのプロセッサ(「CPU」)404を含む。キャッシュ406、読み出し専用メモリ(「ROM」)408、ランダムアクセスメモリ(「RAM」)410、入出力(「I/O」)アダプタ420、音響アダプタ430、ネットワークアダプタ440、ユーザインタフェースアダプタ450およびディスプレイアダプタ460が、システムバス402に動作上連結されている。
記憶装置422および第2の記憶装置424は、入出力アダプタ420によってシステムバス402に動作上連結されている。記憶装置422および424は、ディスク記憶装置(例えば、磁気または光学的ディスク記憶装置)、固体磁気装置などのいずれかであることができる。記憶装置422および424は、同じタイプの記憶装置または異なるタイプの記憶装置であることができる。いくつかの実施形態では、CNNは、記憶装置422、424またはネットワーク接続ストレージなどの、システム400によってアクセス可能なストレージに記憶することができる。
スピーカ432は、音響アダプタ330によってシステムバス402に動作上連結されている。トランシーバ442は、ネットワークアダプタ440によってシステムバス402に動作上連結されている。ディスプレイ装置462は、ディスプレイアダプタ460によってシステムバス402に動作上連結されている。
第1のユーザ入力デバイス452、第2のユーザ入力デバイス454および第3のユーザ入力デバイス456は、ユーザインタフェースアダプタ450によってシステムバス402に動作上連結されている。ユーザ入力デバイス452、454および456は、キーボード、マウス、キーパッド、画像キャプチャ装置、動作感知デバイス、マイクロホン、前記のデバイスの少なくとも2つの機能性を組み込んでいるデバイス、などのいずれかであることができる。もちろん、他のタイプの入力デバイスが用いられることもできる。ユーザ入力デバイス452、454および456は、同じタイプのユーザ入力デバイスまたは異なるタイプのユーザ入力デバイスであることができる。ユーザ入力デバイス452、454および456は、システム400との間の情報の入出力をするために用いる。
もちろん、処理システム400はまた、当業者によって直ちに予測されるように、他の要素(図示せず)を含んでいてもよく、また特定の要素を省略してもよい。例えば、当業者によって直ちに理解されるように、各種の他の入力デバイスおよび/または出力デバイスは、その特定の実装によって、処理システム400に含まれ得る。例えば、様々なタイプの無線および/またはワイヤード入力および/または出力デバイスを用いることができる。さらに、当業者によって直ちに理解されるように、追加プロセッサ、コントローラ、メモリなどは各種の構成において利用されることもできる。処理システム400のこれらの、そしてまた他のバリエーションは、ここに提供されている本発明の原理の教示を与えられる当業者によって直ちに考察される。
処理システム400が、例えば、図5の方法500の少なくとも一部を含んで本明細書において記載されている方法の少なくとも一部を実行してもよいということが認識される。
図5は、本発明の実施形態にしたがって、畳み込みニューラルネットワーク(CNN)を訓練する方法のブロック/フロー図である。
ブロック502で、画像が受信される。いくつかの実施形態では、画像の中の関心領域(ROI)、例えば小さな、中程度のおよび/または、大きなROIが受信されてもよい。ブロック504において、各画像のための畳み込み層は、連続して生成される。各畳み込み層は、関心領域の中の少なくとも1つの畳み込み特徴を含む。
ブロック506で、1つまたは複数のカスケード型拒否分類器(CRC)は関心領域を入力して関心領域の新しいサブセットを生成するために適用される。CRCは、各畳み込み層のそれぞれの畳み込み特徴を用いて、各畳み込み層に適用されてもよい。いくつかの実施形態では、複数の畳み込み層の上の複数のセットのCRCが使用されてもよい。各CRCが入力ROIのうち小さな断片だけを拒否してもよい一方で、複数のCRCは、多くの簡単なネガティブを早期に効率的に取り除くことができ、より高い計算の効率を与える。
ブロック508において、スケール依存プーリング(SDP)は関心領域のサブセットの中の畳み込み特徴に実行されて、オブジェクトカテゴリの尤度を決定する。
前述したことは、あらゆる点で説明的および例示的であるが、制限的ではないと理解されるべきであり、そして、本明細書において開示される本発明の範囲は詳細な説明から判断されるべきではなく、むしろ、特許法によって許される完全な広がりにしたがって解釈される請求項から判断されるべきである。本明細書において図と共に記載される実施形態が本発明の原理を説明するだけであり、そして、当業者が本発明の範囲および精神から逸脱せずに、各種の修正を実行してもよいことを理解すべきである。当業者は、本発明の範囲および精神から逸脱せずに、各種の他の特徴の組合せを実施することができよう。このように本発明の態様を記載してきて、特許法によって求められる詳細および特殊性により、特許状によって保護されている、請求されることおよび要求されることは、添付の請求の範囲に記載される。

Claims (20)

  1. 畳み込みニューラルネットワーク(CNN)を訓練するコンピュータ実行方法であって、
    画像から関心領域を受信することと、
    前記画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有する1つまたは複数の畳み込み層を生成することと、
    少なくとも1つのカスケード型拒否分類器を前記関心領域に適用して前記関心領域のサブセットを生成することと、
    スケール依存プーリングを、前記サブセットの中の畳み込み特徴に適用してオブジェクトカテゴリの尤度を決定することと
    を含む方法。
  2. 前記少なくとも1つのカスケード型拒否分類器は、それぞれの畳み込み層で非オブジェクト候補を拒否する、請求項1に記載の方法。
  3. 前記少なくとも1つのカスケード型拒否分類器は、ネガティブ境界ボックスを除去し、前記ネガティブ境界ボックスは適合していない畳み込み特徴を含む、請求項1に記載の方法。
  4. 前記画像から前記1つまたは複数の畳み込み層を生成することは冗長な特徴抽出を避けるために1回実行される、請求項1に記載の方法。
  5. 初期の畳み込み層の前記畳み込み特徴は弱分類器を表す、請求項1に記載の方法。
  6. 前記スケール依存プーリングは、各畳み込み層の中の各オブジェクト候補のスケールを決定し、前記スケールに依存している対応する畳み込み層から前記特徴をプールする、請求項1に記載の方法。
  7. 前記スケール依存プーリングは、前記スケールに基づいてオブジェクト分類器を選択して前記オブジェクトカテゴリを識別することを含む、請求項6に記載の方法。
  8. 畳み込みニューラルネットワーク(CNN)を訓練するためのシステムであって、
    メモリと、
    前記メモリと通信するプロセッサであって、
    画像から関心領域を受信し、
    前記画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有する1つまたは複数の畳み込み層を生成し、
    少なくとも1つのカスケード型拒否分類器を前記関心領域に適用して前記関心領域のサブセットを生成し、
    スケール依存プーリングを前記サブセットの中の畳み込み特徴に適用してオブジェクトカテゴリの尤度を決定する
    ように構成されるプロセッサと
    を含む、システム。
  9. 前記少なくとも1つのカスケード型拒否分類器は各畳み込み層で非オブジェクト候補を拒否する、請求項8に記載のシステム。
  10. 前記少なくとも1つのカスケード型拒否分類器は、ネガティブ境界ボックスを除去し、前記ネガティブ境界ボックスは適合していない畳み込み特徴を含む、請求項8に記載のシステム。
  11. 前記プロセッサは、冗長な特徴抽出を避けるために前記画像から前記1つまたは複数の畳み込み層を1回生成する、請求項8に記載のシステム。
  12. 初期の畳み込み層の前記畳み込み特徴は弱分類器を表す、請求項8に記載のシステム。
  13. 前記スケール依存プーリングは、各畳み込み層の中の各オブジェクト候補のスケールを決定して、前記スケールに依存している対応する畳み込み層から前記特徴をプールする、請求項8に記載のシステム。
  14. 前記スケール依存プーリングは、前記スケールに基づいてオブジェクト分類器を選択して前記オブジェクトカテゴリを識別することを含む、請求項13に記載のシステム。
  15. 畳み込みニューラルネットワーク(CNN)を訓練するためのコンピュータ可読プログラムを含んでいる非一時的コンピュータ可読記憶媒体であって、前記コンピュータ可読プログラムはコンピュータ上で実行されると、前記コンピュータに、
    画像から関心領域を受信するステップと、
    前記画像から、それぞれが関心領域の中の少なくとも1つの畳み込み特徴を有する1つまたは複数の畳み込み層を生成するステップと、
    少なくとも1つのカスケード型拒否分類器を前記関心領域に適用して前記関心領域のサブセットを生成するステップと、
    スケール依存プーリングを、前記サブセットの中の畳み込み特徴に適用してオブジェクトカテゴリの尤度を決定するステップと
    を実行させる、非一時的コンピュータ可読記憶媒体。
  16. 前記少なくとも1つのカスケード型拒否分類器は、各畳み込み層で非オブジェクト候補を拒否する、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  17. 前記少なくとも1つのカスケード型拒否分類器は、ネガティブ境界ボックスを除去し、前記ネガティブ境界ボックスは適合していない畳み込み特徴を含む、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  18. 初期の畳み込み層の前記畳み込み特徴は弱分類器を表す、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  19. 前記スケール依存プーリングは、各畳み込み層の中の各オブジェクト候補のスケールを決定して、前記スケールに依存している対応する畳み込み層から前記特徴をプールする、請求項15に記載の非一時的コンピュータ可読記憶媒体。
  20. 前記スケール依存プーリングは、前記スケールに基づいてオブジェクト分類器を選択して前記オブジェクトカテゴリを識別することを含む、請求項19に記載の非一時的コンピュータ可読記憶媒体。
JP2018523012A 2015-11-04 2016-11-04 オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク Active JP6557783B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562250750P 2015-11-04 2015-11-04
US62/250,750 2015-11-04
US15/343,017 2016-11-03
US15/343,017 US20170124409A1 (en) 2015-11-04 2016-11-03 Cascaded neural network with scale dependent pooling for object detection
PCT/US2016/060470 WO2017079521A1 (en) 2015-11-04 2016-11-04 Cascaded neural network with scale dependent pooling for object detection

Publications (2)

Publication Number Publication Date
JP2018538612A JP2018538612A (ja) 2018-12-27
JP6557783B2 true JP6557783B2 (ja) 2019-08-07

Family

ID=58635680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018523012A Active JP6557783B2 (ja) 2015-11-04 2016-11-04 オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク

Country Status (4)

Country Link
US (1) US20170124409A1 (ja)
JP (1) JP6557783B2 (ja)
DE (1) DE112016005062T5 (ja)
WO (1) WO2017079521A1 (ja)

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10104345B2 (en) 2014-12-16 2018-10-16 Sighthound, Inc. Data-enhanced video viewing system and methods for computer vision processing
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
US9928875B2 (en) * 2016-03-22 2018-03-27 Nec Corporation Efficient video annotation with optical flow based estimation and suggestion
KR20170118520A (ko) * 2016-04-15 2017-10-25 삼성전자주식회사 인터페이스 뉴럴 네트워크
US11461919B2 (en) * 2016-04-21 2022-10-04 Ramot At Tel Aviv University Ltd. Cascaded neural network
US10366328B2 (en) * 2017-09-19 2019-07-30 Gyrfalcon Technology Inc. Approximating fully-connected layers with multiple arrays of 3x3 convolutional filter kernels in a CNN based integrated circuit
US10339445B2 (en) * 2016-10-10 2019-07-02 Gyrfalcon Technology Inc. Implementation of ResNet in a CNN based digital integrated circuit
US10360470B2 (en) * 2016-10-10 2019-07-23 Gyrfalcon Technology Inc. Implementation of MobileNet in a CNN based digital integrated circuit
CN115097937A (zh) * 2016-11-15 2022-09-23 奇跃公司 用于长方体检测的深度学习***
JP6888950B2 (ja) * 2016-12-16 2021-06-18 フォルシアクラリオン・エレクトロニクス株式会社 画像処理装置、外界認識装置
US10296794B2 (en) * 2016-12-20 2019-05-21 Jayant Rtti On-demand artificial intelligence and roadway stewardship system
GB201701919D0 (en) * 2017-02-06 2017-03-22 Univ London Queen Mary Method of image analysis
US10108850B1 (en) 2017-04-24 2018-10-23 Intel Corporation Recognition, reidentification and security enhancements using autonomous machines
DE102017109698A1 (de) * 2017-05-05 2018-11-08 Carl Zeiss Microscopy Gmbh Bestimmen von Kontextinformation für Wechselkomponenten eines optischen Systems
DE102017208718A1 (de) 2017-05-23 2018-11-29 Conti Temic Microelectronic Gmbh Verfahren zur Erkennung von Objekten in einem Bild einer Kamera
CN107341517B (zh) * 2017-07-07 2020-08-11 哈尔滨工业大学 基于深度学习层级间特征融合的多尺度小物体检测方法
CN107341523A (zh) * 2017-07-13 2017-11-10 浙江捷尚视觉科技股份有限公司 基于深度学习的快递单信息识别方法和***
CN107403192B (zh) * 2017-07-18 2020-09-29 四川长虹电器股份有限公司 一种基于多分类器的快速目标检测方法及***
JP6929734B2 (ja) * 2017-08-08 2021-09-01 キヤノン株式会社 判別演算装置、判別演算方法及びプログラム
KR102463175B1 (ko) 2017-09-04 2022-11-04 삼성전자주식회사 객체 인식 방법 및 장치
US9984325B1 (en) * 2017-10-04 2018-05-29 StradVision, Inc. Learning method and learning device for improving performance of CNN by using feature upsampling networks, and testing method and testing device using the same
US9934440B1 (en) * 2017-10-04 2018-04-03 StradVision, Inc. Method for monitoring blind spot of monitoring vehicle and blind spot monitor using the same
US9947228B1 (en) * 2017-10-05 2018-04-17 StradVision, Inc. Method for monitoring blind spot of vehicle and blind spot monitor using the same
US11263782B2 (en) 2017-10-11 2022-03-01 Qualcomm Incorporated Image signal processor for processing images
US10643306B2 (en) * 2017-10-11 2020-05-05 Qualcomm Incoporated Image signal processor for processing images
US10007865B1 (en) * 2017-10-16 2018-06-26 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same
US10614574B2 (en) * 2017-10-16 2020-04-07 Adobe Inc. Generating image segmentation data using a multi-branch neural network
US9953437B1 (en) * 2017-10-18 2018-04-24 StradVision, Inc. Method and device for constructing a table including information on a pooling type and testing method and testing device using the same
US11055576B2 (en) * 2017-11-01 2021-07-06 Toyota Research Institute, Inc. System and method for system-aware classifiers
KR102585216B1 (ko) 2017-12-14 2023-10-05 삼성전자주식회사 영상 인식 방법 및 그 장치
WO2019136623A1 (en) * 2018-01-10 2019-07-18 Nokia Technologies Oy Apparatus and method for semantic segmentation with convolutional neural network
CN108256498A (zh) * 2018-02-01 2018-07-06 上海海事大学 一种基于EdgeBoxes和FastR-CNN的非机动车辆目标检测方法
US10375407B2 (en) 2018-02-05 2019-08-06 Intel Corporation Adaptive thresholding for computer vision on low bitrate compressed video streams
US11282389B2 (en) 2018-02-20 2022-03-22 Nortek Security & Control Llc Pedestrian detection for vehicle driving assistance
US11544348B2 (en) 2018-03-05 2023-01-03 Tata Consultancy Services Limited Neural network based position estimation of target object of interest in video frames
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
CN109002753B (zh) * 2018-06-01 2022-07-08 上海大学 一种基于卷积神经网络级联的大场景监控图像人脸检测方法
CN108830224B (zh) * 2018-06-19 2021-04-02 武汉大学 一种基于深度学习的高分辨率遥感影像舰船目标检测方法
CN108921840A (zh) * 2018-07-02 2018-11-30 北京百度网讯科技有限公司 显示屏***电路检测方法、装置、电子设备及存储介质
US10748035B2 (en) 2018-07-05 2020-08-18 Mitsubishi Electric Research Laboratories, Inc. Visually aided active learning for training object detector
GB2575852B (en) * 2018-07-26 2021-06-09 Advanced Risc Mach Ltd Image processing
US11080542B2 (en) * 2018-07-27 2021-08-03 International Business Machines Corporation Sparse region-of-interest pooling for object detection
CN110837760B (zh) * 2018-08-17 2022-10-14 北京四维图新科技股份有限公司 目标检测方法、用于目标检测的训练方法和装置
US11429824B2 (en) 2018-09-11 2022-08-30 Intel Corporation Method and system of deep supervision object detection for reducing resource usage
CN110895692B (zh) * 2018-09-13 2023-04-07 浙江宇视科技有限公司 车辆品牌识别方法、装置及可读存储介质
CN109284782B (zh) * 2018-09-13 2020-10-02 北京地平线机器人技术研发有限公司 用于检测特征的方法和装置
CN109389078B (zh) 2018-09-30 2022-06-21 京东方科技集团股份有限公司 图像分割方法、相应的装置及电子设备
US10474930B1 (en) * 2018-10-05 2019-11-12 StradVision, Inc. Learning method and testing method for monitoring blind spot of vehicle, and learning device and testing device using the same
US20210357640A1 (en) * 2018-10-12 2021-11-18 Nokia Technologies Oy Method, apparatus and computer readable media for object detection
CN109544534B (zh) 2018-11-26 2020-10-16 上海联影智能医疗科技有限公司 一种病灶图像检测装置、方法和计算机可读存储介质
JP2020091662A (ja) * 2018-12-05 2020-06-11 富士ゼロックス株式会社 情報処理装置及びプログラム
US10748033B2 (en) 2018-12-11 2020-08-18 Industrial Technology Research Institute Object detection method using CNN model and object detection apparatus using the same
CN111353515B (zh) * 2018-12-21 2024-01-26 湖南工业大学 一种基于多尺度分级的列车轮对踏面损伤分类识别方法
CN109766887B (zh) * 2019-01-16 2022-11-11 中国科学院光电技术研究所 一种基于级联沙漏神经网络的多目标检测方法
US10346693B1 (en) * 2019-01-22 2019-07-09 StradVision, Inc. Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same
US10402692B1 (en) * 2019-01-22 2019-09-03 StradVision, Inc. Learning method and learning device for fluctuation-robust object detector based on CNN using target object estimating network adaptable to customers' requirements such as key performance index, and testing device using the same
US10325185B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for online batch normalization, on-device learning, and continual learning applicable to mobile devices or IOT devices additionally referring to one or more previous batches to be used for military purpose, drone or robot, and testing method and testing device using the same
US10325352B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Method and device for transforming CNN layers to optimize CNN parameter quantization to be used for mobile devices or compact networks with high precision via hardware optimization
US10387753B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for convolutional neural network using 1×1 convolution for image recognition to be used for hardware optimization, and testing method and testing device using the same
US10387754B1 (en) * 2019-01-23 2019-08-20 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×H convolution to be used for hardware optimization, and testing method and testing device using the same
US10395140B1 (en) * 2019-01-23 2019-08-27 StradVision, Inc. Learning method and learning device for object detector based on CNN using 1×1 convolution to be used for hardware optimization, and testing method and testing device using the same
CN109784293B (zh) * 2019-01-24 2021-05-14 苏州科达科技股份有限公司 多类目标对象检测方法、装置、电子设备、存储介质
US10496899B1 (en) * 2019-01-25 2019-12-03 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10410120B1 (en) * 2019-01-25 2019-09-10 StradVision, Inc. Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
US10373323B1 (en) * 2019-01-29 2019-08-06 StradVision, Inc. Method and device for merging object detection information detected by each of object detectors corresponding to each camera nearby for the purpose of collaborative driving by using V2X-enabled applications, sensor fusion via multiple vehicles
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
US10803333B2 (en) * 2019-01-30 2020-10-13 StradVision, Inc. Method and device for ego-vehicle localization to update HD map by using V2X information fusion
CN109978036A (zh) * 2019-03-11 2019-07-05 华瑞新智科技(北京)有限公司 目标检测深度学习模型训练方法以及目标检测方法
CN110059554B (zh) * 2019-03-13 2022-07-01 重庆邮电大学 一种基于交通场景的多支路目标检测方法
JP6965298B2 (ja) * 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
JP6965299B2 (ja) * 2019-03-18 2021-11-10 株式会社東芝 物体検出装置、物体検出方法、プログラム、および移動体
JP7346885B2 (ja) * 2019-04-12 2023-09-20 株式会社Ihi 形状生成装置および形状生成方法
CN110008927A (zh) * 2019-04-15 2019-07-12 河南大华安防科技股份有限公司 一种基于深度学习模型Fast-Rcnn改进的警情自动化判定方法
EP3973445A1 (en) * 2019-05-20 2022-03-30 Flir Commercial Systems, Inc. Neural network and classifier selection systems and methods
KR20200133863A (ko) 2019-05-20 2020-12-01 삼성전자주식회사 첨단 운전자 지원 장치, 이의 캘리브레이션 방법 및 이의 객체를 검출하는 방법
CN110348297B (zh) * 2019-05-31 2023-12-26 纵目科技(上海)股份有限公司 一种用于识别立体停车库的检测方法、***、终端和存储介质
CN118196828A (zh) * 2019-06-06 2024-06-14 华为技术有限公司 物体识别方法及装置
CN110427970B (zh) * 2019-07-05 2023-08-01 平安科技(深圳)有限公司 图像分类方法、装置、计算机设备和存储介质
CN110472728B (zh) * 2019-07-30 2023-05-23 腾讯科技(深圳)有限公司 目标信息确定方法、目标信息确定装置、介质及电子设备
KR20210036715A (ko) 2019-09-26 2021-04-05 삼성전자주식회사 뉴럴 프로세싱 장치 및 뉴럴 프로세싱 장치에서 뉴럴 네트워크의 풀링을 처리하는 방법
US11288507B2 (en) * 2019-09-27 2022-03-29 Sony Corporation Object detection in image based on stochastic optimization
DE102019215255A1 (de) * 2019-10-02 2021-04-08 Robert Bosch Gmbh Vorrichtung und Verfahren zum Verarbeiten von Daten eines neuronalen Netzes
US11144790B2 (en) * 2019-10-11 2021-10-12 Baidu Usa Llc Deep learning model embodiments and training embodiments for faster training
US11341635B2 (en) 2019-10-31 2022-05-24 Tencent America LLC Computer aided diagnosis system for detecting tissue lesion on microscopy images based on multi-resolution feature fusion
US11295211B2 (en) 2019-12-02 2022-04-05 International Business Machines Corporation Multi-scale object detection with a trained neural network
CN111611861B (zh) * 2020-04-22 2023-05-05 杭州电子科技大学 一种基于多尺度特征关联的图像变化检测方法
JP6970863B1 (ja) * 2020-09-23 2021-11-24 株式会社デンソーテン モデル生成装置及びモデル生成方法
CN111931920A (zh) * 2020-09-25 2020-11-13 北京智芯微电子科技有限公司 基于级联神经网络的目标检测方法、装置及存储介质
CN112529095B (zh) * 2020-12-22 2023-04-07 合肥市正茂科技有限公司 一种基于卷积区域重配准的单阶段目标检测方法
KR20230072487A (ko) 2020-12-24 2023-05-24 후아웨이 테크놀러지 컴퍼니 리미티드 분할 정보의 시그널링으로 디코딩
CN112884788B (zh) * 2021-03-08 2022-05-10 中南大学 基于丰富上下文网络的视杯视盘分割方法及成像方法
CN113628245B (zh) * 2021-07-12 2023-10-31 中国科学院自动化研究所 多目标跟踪方法、装置、电子设备和存储介质
US11417069B1 (en) * 2021-10-05 2022-08-16 Awe Company Limited Object and camera localization system and localization method for mapping of the real world
CN114495042B (zh) * 2022-01-27 2023-08-29 北京百度网讯科技有限公司 目标检测方法和装置
CN114972798B (zh) * 2022-08-01 2022-11-15 南京航空航天大学 一种基于特征纹理增强的目标检测方法
US11776206B1 (en) 2022-12-23 2023-10-03 Awe Company Limited Extended reality system and extended reality method with two-way digital interactive digital twins

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2884008A1 (fr) * 2005-03-31 2006-10-06 France Telecom Systeme et procede de localisation de points d'interet dans une image d'objet mettant en oeuvre un reseau de neurones
US7519567B2 (en) * 2005-10-31 2009-04-14 Hewlett-Packard Development Company, L.P. Enhanced classification of marginal instances
US8861842B2 (en) * 2010-02-05 2014-10-14 Sri International Method and apparatus for real-time pedestrian detection for urban driving
US9430829B2 (en) * 2014-01-30 2016-08-30 Case Western Reserve University Automatic detection of mitosis using handcrafted and convolutional neural network features

Also Published As

Publication number Publication date
US20170124409A1 (en) 2017-05-04
DE112016005062T5 (de) 2018-07-12
WO2017079521A1 (en) 2017-05-11
JP2018538612A (ja) 2018-12-27

Similar Documents

Publication Publication Date Title
JP6557783B2 (ja) オブジェクト検出のためのスケール依存プーリングによるカスケード型ニューラルネットワーク
Kaur et al. A comprehensive review of object detection with deep learning
Trnovszky et al. Animal recognition system based on convolutional neural network
CN107527007B (zh) 在车辆图像处理***中检测关注对象的方法
Zeng et al. Multi-stage contextual deep learning for pedestrian detection
Fukui et al. Pedestrian detection based on deep convolutional neural network with ensemble inference network
AlDahoul et al. Real‐Time Human Detection for Aerial Captured Video Sequences via Deep Models
Prakash et al. Face recognition with convolutional neural network and transfer learning
CN109033994B (zh) 一种基于卷积神经网络的人脸表情识别方法
CN109002755B (zh) 基于人脸图像的年龄估计模型构建方法及估计方法
Yoo et al. Fast training of convolutional neural network classifiers through extreme learning machines
Benkaddour et al. Human age and gender classification using convolutional neural network
CN109063626A (zh) 动态人脸识别方法和装置
Ayachi et al. To perform road signs recognition for autonomous vehicles using cascaded deep learning pipeline
CN113033523A (zh) 跌倒判断模型的构建方法及***、跌倒判断方法及***
CN115280373A (zh) 使用结构化丢弃来管理孪生网络跟踪中的遮挡
Syafeeza et al. Convolutional neural networks with fused layers applied to face recognition
Uthaib et al. Multiclassification of license plate based on deep convolution neural networks
Subarna et al. Real time facial expression recognition based on deep convolutional spatial neural networks
Pham et al. CNN-based character recognition for license plate recognition system
Putro et al. Fast face-CPU: a real-time fast face detector on CPU using deep learning
Nimbarte et al. Biased face patching approach for age invariant face recognition using convolutional neural network
Thangaraj et al. Deep Learning based Real-Time Face Detection and Gender Classification using OpenCV and Inception v3
Plemakova Vehicle detection based on convolutional neural networks
Deng et al. Nested shallow cnn-cascade for face detection in the wild

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190618

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190625

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190712

R150 Certificate of patent or registration of utility model

Ref document number: 6557783

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350