JP2019204505A - オブジェクト検出装置及び方法及び記憶媒体 - Google Patents

オブジェクト検出装置及び方法及び記憶媒体 Download PDF

Info

Publication number
JP2019204505A
JP2019204505A JP2019091606A JP2019091606A JP2019204505A JP 2019204505 A JP2019204505 A JP 2019204505A JP 2019091606 A JP2019091606 A JP 2019091606A JP 2019091606 A JP2019091606 A JP 2019091606A JP 2019204505 A JP2019204505 A JP 2019204505A
Authority
JP
Japan
Prior art keywords
spatial relationship
candidate
object detection
image
spatial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019091606A
Other languages
English (en)
Other versions
JP6823686B2 (ja
Inventor
ホァーン ヤオハイ
Yaohai Huang
ホァーン ヤオハイ
ツァン ヤン
Jan Yan
ツァン ヤン
リー ヤン
Yan Li
リー ヤン
ジャン ジーユエン
Zhuyen Zhang
ジャン ジーユエン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2019204505A publication Critical patent/JP2019204505A/ja
Application granted granted Critical
Publication of JP6823686B2 publication Critical patent/JP6823686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

【課題】関連オブジェクトをより良く検出するオブジェクト検出装置及び方法及び記憶媒体を提供する。【解決手段】オブジェクト検出装置は、画像から特徴を抽出する抽出部と、抽出した特徴に基づき画像における個別の特徴点間の空間的関係を判定する判定部と、判定した空間の関係に基づき、画像内のオブジェクトの領域を検出する検出部とを有する。ここでオブジェクトは、画像内の関連付けられたオブジェクトである。【選択図】図2

Description

本発明は、画像処理、とりわけ例えばオブジェクトの検出処理に関するものである。
監視システムでは、一般に人が主要な監視対象となる。一般に、人は日常的に何らかの物体(例えば、眼鏡、バッグ、スーツケース、車椅子等)を身に着けたり、手に持ったり、使用したりするので、これらの物体は補助的方法で人を監視するために利用される。本明細書では、これらの物体は、例えば、関連人物の付属物と呼ばれる。監視処理では、一般に人物認識処理が主な処理動作であり、人物の認識処理に使用される、最も必要な基本的な情報は、動画像中の人物の位置や関連物などの情報である。それ故、高い再現率でビデオ/画像から人物および関連オブジェクトを検出することができるかどうかは、人物認識処理の精度に直接影響を及ぼすことになる。本明細書では、人物認識処理とは、例えば、人物の属性認識、人物の照合(対象者のIDの検証)、人物画像の検索、人物の行動・行動の認識または分析(例えば、対象者が何か物体を持っているかどうか、および対象者と他のオブジェクトとの間の動作の分析など)が含まれる。
高い再現率でビデオ/画像から人物及び関連物を検出するための例示的な物体検出技術が非特許文献1に開示されている。概ね、次のとおりである。まず、ニューラルネットワークを用いて、入力画像からさまざまなレベルの特徴を抽出する。たとえば、小スケールオブジェクトの低レベル特徴、中スケールのオブジェクトの中レベル特徴、 大スケールのオブジェクトのための高レベル特徴を抽出する。次に、対応する事前生成候補領域生成ネットワークを用いて、各レベルの特徴から、オブジェクトの候補領域の関連情報(例えば、候補領域の位置、候補領域のスコア、及び、候補領域の特徴)を抽出する。
オブジェクト検出技術(例えば、上記の例示技術)においては、一般に、予め設定された閾値を下回らないスコアを持つ候補領域のみ、又は、上位Nにランク付けされるスコアの候補領域のみが、最終出力となる。換言すれば、最終出力の候補領域は、その画像から検出できるオブジェクト(人及び物体)の領域として見なされることになる。しかしながら、例えば、関係者によって遮られているスーツケース、座っている人によって遮られている車椅子、地面に置いた影の影響を受けるバッグ等、画像中の他の物体によって遮られている物体や照明の影響を受けている物体の場合、それらオブジェクトの特徴はその画像から完全に抽出することができない。故に、上記例示の技術を用いて画像からそれらオブジェクトの候補が検出できたとしても、それらオブジェクトの候補領域のスコアは低くなるので、それらオブジェクトの候補領域のスコアが予め設定された閾値を下回る、或いは、それらオブジェクトの候補領域のスコアが上位Nにランク付けされなくなる。結果、そのようなオブジェクトの候補領域が最終出力とはならず、画像からのオブジェクトが検出できず、最終的にそのオブジェクトの高い再現率に影響を与えることになる。
"Feature Pyramid Networks for Object Detection" (Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, CVPR 2017).
上記関連技術に鑑み、本発明は上記問題の少なくとも1つを解決する。
本発明の1つの形態にて提供されるオブジェクト検出装置は、画像から特徴を抽出する抽出手段と、抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定手段と、判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出手段とを有し、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトであることを特徴とする。
本発明の他の形態にて提供されるオブジェクト検出方法は、画像から特徴を抽出する抽出ステップと、抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定ステップと、判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出ステップとを有し、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトであることを特徴とする。
本発明の更なる態様にて提供されるオブジェクト検出装置は、ビデオ内の現ビデオフレームから特徴を抽出する特徴抽出手段と、抽出した特徴に基づき、前記現ビデオフレームからオブジェクトの候補領域を検出する候補領域検出手段と、前記現ビデオフレームの前ビデオフレームの検出結果に基づき、前記候補領域の間の空間的関係を判定する空間的関係判定手段と、前記候補領域間の空間的関係に基づき、前記候補領域の順位を判定し、当該順位の判定後の候補領域を、前記オブジェクトの領域する順位判定手段とを有し、前記現ビデオフレームの前ビデオフレームの検出結果は、上述したオブジェクト検出装置を用いて得られることを特徴とする。
本発明の更なる他の形態では、上記のオブジェクト検出方法を可能にするため、プロセッサによって実行可能な命令を記憶する記憶媒体が提供される。
本発明において、個々の特徴点間の空間的関係がオブジェクトの領域の検出を規制するように、その空間的関係がオブジェクトの領域を検出するときに用いられる。これにより、関連するオブジェクトをよりよく検出することが可能になる。関連するオブジェクトは一般に監視プロセス中における人を監視するのにより有用であるので、オブジェクト検出の再現率だけでなく、人を監視する効果も本発明に従って改善することができる。
本発明の更なる他の特徴及び効果は、添付図面を参照して以下に説明される実施形態から明らかにする。
添付図面は、本明細書に組み込まれてその一部を構成するものであり、本発明の原理を説明するために、本発明の実施形態を例示するものである。
本発明の実施形態に係る技術を実施可能なハードウェア構成を示すブロック図である。 本発明の第1の実施形態に係るオブジェクト検出装置の構成を示すブロック図である。 図2に示された、検出部230の構成を示すブロック図である。 本発明の第1の実施形態にかかるオブジェクト検出のフローチャートを示す図である。 図4のフローチャートにて利用される事前生成モデルの概略構成図である。 本発明の第1の実施形態にかかる、図4に示された検出ステップのフローチャートを示す図である。 本発明の第1の実施形態にかかる図6に示された、順位判定ステップのフローチャートを示す図である。 本発明の第2の実施形態にかかるオブジェクト検出装置の構成を示すブロック図である。 本発明に適用可能なモデルを生成する生成方法のフローチャートを示す図である。
以下に添付図面を参照しながら、本発明に好適な実施形態を詳細に説明する。以下の説明は、本質的に単なる例示かつ例示的なものであり、本発明およびその用途または使用を限定することを意図するものではない点に留意されたい。実施形態に記載されている構成要素やステップの相対配置、数値表現、数値などは、特に記載がない限り、本発明の範囲を限定するものではない。さらに、当業者に知られている技術、方法、および装置は詳細には論じられないかもしれないが、適切な場合は明細書の一部であるべきものである。
なお、図面において同様の参照番号および文字は同様の項目を示すものである。それ故、1つの図において1つの項目が定義されると、それを以下の図において論じる必要はないことに留意されたい。
本発明者は、オブジェクト検出の実際のシーンにて、一般に互いに特定の関係(特に空間的関係)を有するいくつかのオブジェクトが存在し、これらのオブジェクトは一般に関連オブジェクトとして参照されることを見出した。さらに、一方では、相互作用するケース(例えば、互いに遮られている等)は、関連オブジェクト間で発生する可能性が高い。一方、監視処理では、関連オブジェクトは人物の監視に役立つ。このように、本発明者は、オブジェクト検出プロセスにおいて、関連オブジェクト間に存在するこの特定の関係(特に空間的関係)は、例えば、いくつかの関連オブジェクトが遮蔽されている場合であっても、そのオブジェクトの領域の検出を規制(constrain)することができることを見出した。この結果、オブジェクト検出の再現率を向上させることができ、さらには人物を監視する効果を高めることができる。本発明では、女性とその女性が引いているスーツケース、男性とその男性が腰かけている車椅子等のような、人物(例えば対象者)と人物が身にまとっている/握っている/用いているオブジェクトは、関連オブジェクトとして見なすことができる。女性とその女性が抱えている子供や、前後に位置する、重なっている二人も、関連オブジェクトとして見なすことができる。隣接オブジェクト(例えば対象オブジェクトとその対象オブジェクトの隣の他のオブジェクト)、例えばスーツケースとその上に置かれたバッグ、人物の影とその影で一部もしくは全部が覆われたバッグなどもまた、関連オブジェクトと見なすことができる。しかしながら、これに限定される必要がないのは明らかである。
本発明において、関連オブジェクト間に存在する空間的関係は、それら関連オブジェクト間の空間的規制(spatial constraint)を表す。例えば2つの関連オブジェクトにて、それらの間の空間的関係(例えば、その2つの関連オブジェクトに対応する領域間の空間的制約)は、少なくとも、次に示す幾つかの規制を少なくとも含む。
・2つのオブジェクト間の相対位置関係(Relative positional relationship)(例えば、方向関係、距離関係等)
例えば、机の上に置かれたコンピュータの場合、そのコンピュータと机との方向関係は、“机の上(on the desk)”となる。例えば、芝生上の人物/動物の場合、その人物/動物と芝生との方向関係は“芝生の上(on the grass)”となる。例えば、子供の手を握って歩くように導いている女性の場合、女性と子供との間の距離関係は“隣接して、近くに(adjacent to, close to)”である。しかし、これに限定される必要がないのは明らかである。
・2つのオブジェクト間の位相関係(Topological relationship)(たとえば、重複関係(overlapping relationship)、包含関係(inclusion relationship)、隣接関係(adjacency relationship)など)
例えば、車いすに座っている男性の場合、その男性と車椅子との位相関係は“重複関係”となる。例えば子供を抱えている女性の場合、その女性と子供との位相関係は“包含関係”となる。パラソルを持つ女性の場合、その女性とパラソルとの位相関係は“隣接関係”となる。しかし、これに限定される必要がないのは明らかである。
・2つのオブジェクト間の相対形状関係(Relative shape relationship)
例えば、車椅子に座っている男性のように、人と車椅子間の空間的規制が、“相対形状関係”にもなる。しかし、これに限定される必要がないのは明らかである。
本発明は、上記の考察結果に鑑みて提案されたものであり、以下に添付図面を参照しながら詳細に説明する。
[ハードウェア構成]
まず、以下で説明される具術を実現可能なハードウェア構成について、図1を参照して説明する。
ハードウェア構成100は、例えば、中央処理装置(CPU)110、ランダムアクセスメモリ(RAM)120、リードオンリメモリ(ROM)130、ハードディスク140、入力デバイス150、出力デバイス160、ネットワークインタフェース170、および、システムバス180を含む。更に、ハードウェア構成100は、例えば、カメラ、ビデオカメラ、パーソナルデジタルアシスタント(PDA)、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータ、或いは、他の適当な電子デバイスに実装しても構わない。
一つの実装法における、本発明のオブジェクト検出処理はハードウェアもしくはファームウェアによって構成され、ハードウェア構成100のモジュールもしくはコンポーネントとして機能する。例えば、図2を参照して以下に詳細に説明するオブジェクト検出装置200、及び、図8を参照して以下に詳細に説明するオブジェクト検出装置800は、ハードウェア構成100のモジュールもしくはコンポーネントとして利用される。他の実装法における、本発明のオブジェクト検出処理は、ROM130又はハードディスク140に格納されるソフトウェアによって構成され、CPU110によって実行されるものである。例えば、詳細は図4を参照して説明する処理400、及び、詳細は図90を参照して説明する処理900が、ROM130又はハードディスク140に格納されるプログラムとして利用される。
CPU110はプロセッサなどの、任意の適切なプログラム可能な制御装置であり、ROM130またはハードディスク140(メモリなど)に格納されたさまざまなアプリケーションプログラムを実行することによって、後述する様々な機能を実行することができる。RAM120は、ROM130またはハードディスク140からロードされたプログラムやデータを一時的に記憶するとともに、CPU110が実行する各種の処理(例えば、後述する図3から図7および図9の技術等)や他の利用可能な機能を実行する空間としても使用される。ハードディスク140は、オペレーティングシステム(OS)、各種アプリケーション、制御プログラム、ビデオ、画像、事前生成モデル(pre-generated models)、事前定義されたデータ(例えば、閾値群(THs))などの様々な情報を格納する。
1つの実施形態では、入力デバイス150は、ユーザに対し、ハードウェア構成100と情報交換することを許容する。1つの実施形態では、ユーザは入力デバイス150を通じて、画像/ビデオ/データを入力できる。他の実施形態では、ユーザは、入力デバイス150を通じて、本発明の対応する処理を起動することができる。更に、入力装置150は、ボタン、キーボード、またはタッチスクリーンなどの多様な形態を採用することができる。 別の実施形態では、入力装置150は、デジタルカメラ、ビデオカメラ、および/またはネットワークカメラなどの特殊な電子装置から出力される画像/ビデオを受信するために利用される。
1つの実施形態において、出力デバイス160は、検出結果(オブジェクトの検出された領域の位置、スコア、特徴等)をユーザに対する表示するために利用される。更に、出力デバイス160は、CRT(Cathode Ray Tube)、液晶ディスプレイなど、様々な形態を採用することができる。他の実施形態では、出力装置160は、検出結果を、人認識処理(例えば、人物属性認識、人物マッチング、人物画像検索、および人物の行動/行動の認識または分析など)などの後続の処理に出力するために利用される。
ネットワークインタフェース170は、ハードウェア構成100をネットワークに接続するインタフェースを提供する。例えば、ハードウェア構成100は、ネットワークインタフェース170を介して、ネットワークを介して接続された他の電子機器とデータ通信を行うことができる。或いは、ハードウェア構成100は、無線データ通信を行うための無線インタフェースを備えてもよい。システムバス180は、CPU110、RAM120、ROM130、ハードディスク140、入力デバイス150、出力デバイス160、ネットワークインタフェース170等の間の、互いのデータ転送のためのデータ転送路を提供する。システムバス180はバスと呼ばれるが、特定のデータ伝送技術に限定されない。
上記のハードウェア構成100は、単なる例示であり、本発明およびその用途または使用を限定することを意図としていない。更に、簡潔にするために、図1には1つのハードウェア構成しか示されていない。 しかし、必要に応じて複数のハードウェア構成を使用することができる。
[オブジェクト検出]
次に、本発明におけるオブジェクト検出を、図2乃至図8を参照して説明する。
図2は、本発明の第1の実施形態におけるオブジェクト検出装置200の構成を示すブロック図である。ここで、図2に示されるモジュールの幾つかもしくは全部は専用のハードウェアでもって実現しても良い。図2に示されるように、オブジェクト検出装置200は、抽出部210、判定部220、及び、検出部230を含む。
まず、図1に示さてる入力デバイス150は、特定の電子デバイス(例えば、ビデオカメラ等)から出力される画像を受信する。次に、入力デバイス150はシステムバス180を介して、受信した画像をオブジェクト検出装置200に転送する。
そして、図2に示されるように、抽出ユニット210は受信した画像から特徴を抽出する。ここで、抽出部210は、既存の特徴抽出アルゴリズム、例えば、ローカルバイナリパターン(LBP)アルゴリズム、Gaborアルゴリズム、スケール不変の特徴変換(SIFT)アルゴリズム、ニューラルネットワーク(NN)アルゴリズムなどを用いて、画像から特徴を抽出することができる。ここで、抽出された特徴は、例えば、画像内の勾配特徴(gradient features)、エッジ特徴(edge feature)、見かけの特徴(apparent features)、意味的特徴(semantic feature)などであっても良い。
判定部220は、抽出した特徴に基づき、画像内の個々の特徴点間の空間的関係を判定する。ここで特徴点は抽出された特徴上の点である。また任意の2つの特徴点間の空間的関係としては、その2つの特徴点が同じ領域又は異なる領域に属するかに従って、その特徴点間の空間的相関は、“同じ領域内の位置的相関(すなわち、イントラカテゴリの位置関係)”、及び、“異なる領域間の位置的関係(すなわち、インターカテゴリの位置関係)”にカテゴリ分けされる。更に、判定された特徴点間の空間的関係は、それに応じた空間的関係値を有する。ここで、2つの特徴点間の空間関係の場合、対応する空間関係値はその2つの特徴点がその空間関係に属する確率(probability)を表す。
1つの実施形態では、判定部220は、予め定義されたルールに従い、抽出した特徴に基づく特徴点間の空間的関係を判定しても良い。ここでの予め定義されたルールは、対応する記録デバイス、例えば図2に示される記憶デバイス240に記憶されても良い。ここで、記憶デバイス240は、図1に示されるROM130またはハードディスク140で良いし、オブジェクト検出装置200にネットワーク(不図示)を介して接続されるサーバまたは外部記憶デバイスであっても良い。このように、実施形態において、判定部220はまず記録デバイス240から予め定義されたルールを取得し、そして、空間的関係の対応する判定処理を行うことになる。
他の実施形態としては、様々なシーンにおける空間的関係を便利に決定するようにするために、特徴点間の空間的関係を判定するために利用されるモデル(すなわち事前生成モデル)が、空間関係がラベル付けされたトレーニングサンプルに従って事訓練/事前生成され、対応する記憶デバイス(例えば、記憶デバイス240)に格納されることである。ここで、事前生成モデルの生成方法は、その詳細については図9を参照して後述する。一方、判定部220は事前生成のモデルを用いることで、抽出された特徴に基づく特徴点間の空間的関係を判定する。
更に、オブジェクト検出の処理速度を改善するため、上記の事前生成モデルが図9に参照されるように生成される。ここでは事前生成モデルは、特徴抽出するための部分と、加えて空間的関係を判定する部分を含む。これに替えて、抽出部210が、事前生成モデルを用いて画像からも特徴を抽出しても良い。この場合、一方で、抽出部210は記憶デバイス20から事前生成モデルを取得し、他方、抽出部210はその事前生成モデルを用いて画像から特徴を抽出する。更に、この場合、判定部220は、記憶ユニット240から対応する事前生成モデルを特に取得せずに、抽出部210が記憶デバイス240から取得した事前生成モデルをそのまま用いてもよい。
図2の説明に戻る。個々の特徴点間の空間的関係が判定された後、検出部230は判定した空間的関係に基づき画像内のオブジェクトの領域を検出する。ここでオブジェクトは、好ましくは画像内の関連オブジェクトであり、検出したオブジェクトの領域は例えば領域の位置、領域のスコア、及び、領域によって包含される特徴を含む。ここで、1つの領域のスコアは、その領域が或るカテゴリのオブジェクトに属する確率を示し、1つの領域に包含される特徴は、その領域に属する抽出部210によって抽出された特徴のうちの特徴である。
1つの実施形態において、検出部230は、判定された空間的関係を直接利用して、画像からオブジェクトの領域を検出しても良い。具体的には、まず、検出部230は、判定した空間的関係に基づいて個々の特徴点をクラスタリングする。ここでクラスタリング結果は1つの領域と見なすことでき、各クラスタリング結果における特徴点間の空間的関係は先に説明した“イントラカテゴリの空間的関係”に属する。そして、検出部230は、異なるクラスタリング結果に属する特徴点間の空間的関係(すなわち、上記の“インターカテゴリの空間的関係”)に基づいて、対応する領域を、オブジェクトの最終的な検出領域として判定する。ここで、互いの距離が所定の閾値(例えばTH1)未満であるクラスタリング結果は、オブジェクトの最終的な検出領域と見なすことができ、互いに重なり合うクラスタリング結果は、たとえば最終的な検出と見なすことができる。
他の実施形態において、より関連性の高いオブジェクトの領域を優先的に出力することができ、検出されたオブジェクトの領域の位置をより正確にするため、検出部230は、図3に示すように、候補領域検出部231および順位決定部232を含んでも良い。
図3に示すように、候補領域検出部231は、検出部210により検出された特徴に基づき、画像からオブジェクトの候補領域を検出する。ここで、候補領域検出部231は、既存の領域検出アルゴリズム、例えば、選択的検索アルゴリズム(selective search algorithm)、エッジボックスアルゴリズム(EdgeBoxes algorithm)、物体アルゴリズム(Objectness algorithm)などを用いて、画像から候補領域を検出することができる。更に、上記のごとく、先に示した事前生成モデルは特徴抽出する部分及び空間的関係を判定する部分を含んでもよく、オブジェクト検出の処理速度を更に上げるために、事前生成モデルは、それが図9に示されるように生成されるときにオブジェクトの候補領域の検出する部分を含んでも良い。そのため、候補領域検出部231は、事前生成モデルを用いて抽出された特徴に基づいて、画像からオブジェクトの候補領域を検出してもよい。この場合、候補領域検出部231は、検出部210が記憶デバイス240から取得した事前生成モデルを用いて、画像からオブジェクトの候補領域を検出しても良い。ここで、オブジェクトの検出された候補領域は、例えば候補領域の位置、候補領域のスコア、候補領域を包含する特徴をも含む。ここで、1つの候補領域のスコアは、その候補領域が或るカテゴリのオブジェクトに属する確率を示すものであり、例えば、候補領域のスコアは、候補領域をカテゴリ分けすることによって得ても良い。
次に、図3に示すように、画像から候補領域が検出された後、順位判定部232は、判定部220により判定された空間的関係に基づき、検出された候補領域の順位を判定し、順位判定後の候補領域を、オブジェクトの検出領域とする。
更に、上記の事前生成モデルは、オブジェクトの候補領域の検出する部分に加えて、そのオブジェクトが図9に示されるように生成されるときのオブジェクトの領域を直接的に検出する部分を含んでもよい。それ故、他の実施形態では、検出部230は、事前生成モデルを直接用いて判定された空間的関係に基づき、画像内のオブジェクトの領域を検出しても良い。この場合、検出部230は、抽出部210が記憶デバイス240から取得した事前生成モデルを用いて画像からオブジェクトの領域を検出しても良い。
図2に戻って、オブジェクトの領域が画像から検出された後、検出部230は、予め定義されや閾値以上のスコアを持つオブジェクトの領域を最終的な検出結果とする、或いは、上位N個にランク付けスコアを持つ領域を最終的な検出結果とし、図1に示されるシステムバス180を介して、その最終的な検出結果を出力デバイス160に転送し、最終的なオブジェクトの検出結果(例えば領域の位置、スコア、特徴)をユーザに向けて表示、もしくは、人物認識処理(例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い/行動等の認識もしくは解析等)のような後続する処理にオブジェクトの検出領域を出力する。
図4に示されるフローチャート400は、図2に示されるオブジェクト検出装置200の対応する処理である。以下は、事前生成モデルを用いた対応する処理を行う抽出部210、判定部220及び検出部230で行われる説明である。ここで、処理にて用いられる事前生成モデルの概略構成は例えば図5に示す通りである。しかし、これに限定される必要性が無いことは明らかである。
図4に示すように、抽出ステップS410にて、抽出部210は記憶デバイス240から事前生成モデルを取得し、取得した事前生成モデル(特に、その中の特徴抽出する部分)を用いて受信した画像から特徴を抽出する。
判定ステップS420にて、判定部220は、事前生成モデル(特にその中の空間的関係の判定する部分)を利用して、抽出された特徴に基づく特徴点間の空間的関係を判定する。
検出ステップS430にて、検出部230は、取得した事前生成モデルと用いて、画像からオブジェクトの領域を検出する。ここでオブジェクトは、好ましくは画像内の関連付けられたオブジェクトである。上述のように、より関連性の高いオブジェクトの領域を優先的に出力するため、及び、オブジェクトの検出された領域の位置をより正確にするため、1つの実施フェイでは、検出部230は、図6に従って、画像内のオブジェクトの領域を検出する。
図6に示されるように、候補領域検出ステップS431にて、候補領域検出部231は、事前生成モデル(特に、その中の候補領域を検出する部分)を用いて、抽出部210により抽出された特徴に基づき、画像からオブジェクトの候補領域を検出する。順位判定ステップS432にて、順位判定部232は、判定部220で判定された空間的関係に基づき候補領域の順位を判定し、その順位判定後の候補領域を、オブジェクトの最終的な検出領域とする。1つの実施形態では、順位判定部232は図7に従って候補領域の順位を判定する。
図7に示されるように、ステップS4321にて、順位判定部232は、候補領域検出部231によって検出された候補領域間の空間的関係を判定する。具体的には、任意の2つの候補領域について、順位判定部232は、その2つの候補領域に含まれる特徴点間の相互の空間的関係に基づき、その2つの候補領域間の空間的関係を判定する。ここで、2つの候補領域内に特定の空間的関係を有する2つの対応する特徴点がある限り、その2つの候補領域は特定の空間的関係を有すると見なすことができる。
1つの実施形態では、任意の2つの候補領域について、順位判定部232は、その2つの候補領域間の任意の2つの特徴点間の空間的関係を、その2つの候補領域間の空間的関係として判定する。好ましくは、例えば、これら2つの候補領域の中心の位置における2つの特徴点間の空間的関係を、その2つの候補領域間の空間的関係として決定されてよい。ここで、2つの候補領域間の空間的関係の空間関係値は、その2つの候補領域間の空間的関係の空間的関係値として見なす。例えば、最大の空間的関係値を持つ2つの特徴点間の空間的関係は、その2つの候補領域間の空間的関係として判定される。ここで、最大の空間的関係値は、2つの候補間の空間的関係の空間的関係値として、見なされるものである。
他の実施形態では、順位決定部232は、任意の2つの候補領域について、その2つの候補領域間に存在する特徴点間の全ての空間的関係を用いて、その2つの候補領域間の空間的関係を決定する。好ましくは、例えば、一方において、特徴点間の空間的関係が投票され、最も多数の投票を有する空間的関係がその2つの候補領域間の空間的関係として決定される。一方、投票数が最も多い空間関係に属するすべての空間関係値は、平均化、重み付け合算され、或いは、最大化され、得られた値は、その2つの候補領域間の空間関係の空間関係値とみなされる。
図7に戻る。ステップS4322にて、順位判定部232は、候補領域間の判定後の空間的関係の空間的関係値に基づき、候補領域のスコアを更新する。1つの実施形態において、順位判定部232は行列間の算出演算によって候補領域のスコアを更新しても良い。具体的には、例えば候補領域間の判定された空間的関係の空間的関係値からなる行列と、候補領域のスコアからなる行列が数学的演算(例えば行列の乗算)される。そして、その演算後に得られる結果が候補領域の更新後のスコアとする。他の実施形態においては、検出しようとしている対象オブジェクト(例えば対象人物)が特定される場合、順位判定部232は、その対象オブジェクトに関連するオブジェクト(例えば、対象人物の付属物)の候補領域のスコアを更新するだけで良い。具体的には。例えば、まず最大空間関係値を有する1つの関連オブジェクトは対象オブジェクトに対して空間的関係を持つ関連オブジェクトから判定され、そして、最大空間的関係値は、候補領域のスコアを更新するために判定された関連オブジェクトの候補領域のスコアに重ね合わされる。
更に、処理速度を向上させるために候補領域間の空間的関係の判定範囲を狭くするため、図7に示すように、ステップS4320がS4321の前(すなわち、候補領域間の空間的関係を判定する前)に含まれるようにしても良い。図7に示すように、ステップS4320にて、順位判定部232は対応する補助情報を取得する。この補助情報は、例えば、特定検知タスクについての情報、特定の検知シーンについての情報などである。
特定検出タスクとしては、一般に、検出対象の対象オブジェクト(例えば対象人物)が特定される、すなわち、対象オブジェクトの位置情報およびカテゴリ情報が一般的に与えられる。更には、一般に、優先的に検出されるオブジェクトは、対象オブジェクトに関連する他のオブジェクト(例えば、対象人物の周囲にある付属物)であることが望ましい。
したがって、特定検出タスクに関しては、順位決定部232が取得する補助情報は、例えば、少なくとも1つの対象オブジェクトの位置情報およびカテゴリ情報である。更に、その一方で、対象オブジェクトのカテゴリ情報は分かっているので、順位判定部232は対象オブジェクトと他のオブジェクト間に存在する空間的関係のタイプを明確に判定しても良い。例えば、対象オブジェクトが対象人物である場合、対象オブジェクトと他のオブジェクト間の空間的関係は、“或る人物とその他の人物間の空間的関係”、及び、“或る人物と他のオブジェクト間の空間的関係”のみとなり、“或るオブジェクトと或るオブジェクト間の空間的関係”とはならない。他方、対象オブジェクトの位置情報は分かっているので、順位判定部232は、全ての候補領域間の空間的関係を判定せずに、どの候補領域間の空間的関係を決定すればよいかを大まかに定義することができる。したがって、順位判定部232が、ステッS4321にて、候補領域間の空間的関係を判定するとき、特定の候補領域間の空間的関係のみが判定されればよく、これにより処理速度を向上させることができる。
また、特定検出タスクに関して、対象オブジェクトが対象人物である場合、順位判定部232によって得られる補助情報は、例えば、少なくとも1つの対象オブジェクト(すなわち、対象人物)の関節点情報(joint point information)である。ここで、対象人物の関節点情報は、手動ラベリングや関節点検出方法を用いて取得することができる。更に順位判定部232は、対象人物の関節点をカテゴリ分け又は認識することにより、対象人物とその対象人物に関連付けられた人物/オブジェクト間の空間的関係に対応する動作を取得しても良い。例えば、対象人物がスーツケースを引っ張っている場合、対象人物とスーツケースとの間の空間的関係に対応する動作は“引っ張る”である。したがって、順位判定部232が、S4321にて、候補領域間の特定の空間的関係を判定するとき、その特定候補領域間の特定空間的関係のみが判定され、更に、特定の動きに対応する特定の空間的関係のみを判定され、これにより、処理速度がさらに向上できる。
特定の検出シーンに関しては、一般に、特定の空間的関係がそのシーンとシーン中のオブジェクト(例えば人物、動物等)間に存在する。例えば、草/大草原では、飛んでいる動物(例えば鳥など)は一般に空中を飛んでおり、地面を歩いている可能性は低い。また、人又は歩行する動物(例えば羊など)は一般に地面を歩くものであり、空中を飛ぶことはまずない。したがって、特定検出シーンについては、順位決定部232によって取得される補助情報は、例えば、シーン情報(すなわち入力画像の背景情報)である。さらに、順位判定部232は、具体的に、シーン情報に従って、或る特定のオブジェクトとシーン間の特定の空間的関係を判定しても良い。したがって、順位判定部232がS4321にて候補領域間の空間的関係を判定するとき、全ての空間的関係を判定せずに、特定の空間的関係のみが判定されるようにしても良い。この結果、処理速度は向上できる。
図4に戻る。画像からオブジェクトの領域が検出されると、検出部230は、閾値以上のスコアを持つ、或いは、上位N個にライク付けされたオブジェクトの検出領域を最終的な検出結果とし、図1に示したシステムバス180を介して出力デバイス160に検出結果を送出し、最終的なオブジェクトの検出結果(例えば領域の位置、スコア、特徴)をユーザに向けて表示、もしくは、人物認識処理(例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い/行動等の認識もしくは解析等)などの後続処理にオブジェクトの検出領域を出力する。例えば、人物の振る舞い/行動等の認識もしくは解析については、図2に示されるオブジェクト検出装置200で検出されたオブジェクトの領域は、好ましくは、対象人物、及び、その対象人物が身にまとった/握った/用いた付属物、及び、その対象人物の近接する他の人物の領域であり、これにより、対象人物と付属物又は隣接人物間の振る舞い/行動が、その領域間の空間的関係から直接的に認識もしくは解析できる。また、例えば、対象人物とその対象人物に隣接する他の人物についての場合、領域間の空間的関係が“包含関係(inclusion relationship)”である場合、対象人物の行動は、例えば、“抱いている(holding)”として推察できる。また、対象人物とその対象人物の付属物について、領域間の空間的関係が“隣接関係(adjacency relationship)”である場合、対象人物の行動は例えば“握っている(grasping)”であると推察できる。また、ビデオのセグメント内の人物画像サーチにおいて、対象人物とその対象人物の付属物間の空間的関係は一般にそれほど変動しない。それ故、検出された領域間の空間的関係を有するビデオのセグメント内の対象人物は類似しているかどうかのみを判定しても良い。例えば、ビデオのセグメント内のスーツケースを引っ張っている対象人物が類似しているかどうかのみが判定される。
本発明の第1の実施形態に従えば、画像内の個々の特徴点間の空間的関係はオブジェクト領域が検出されるときに利用されるので、これら空間的関係はオブジェクトの領域検出を規制することになり、それ故、関連するオブジェクトをより良く検出することを可能にする。関連するオブジェクトは一般に監視プロセス中に人物の監視に有用であるので、オブジェクト検出の再現率だけでなく、人を監視する効果も本発明に従って改善することができる。
本発明の第1の実施形態において、オブジェクトの検出操作は1つの画像内で実行される。オブジェクト間の空間的関係は、一般に、短い継続時間内では大きくは変化しないので、本発明はビデオのセグメント内のオブジェクト検出を実行するためにも利用できる。図8は本発明の第2の実施形態におけるオブジェクト検出装置800の構成を示すブロック図である。ここで、図8に示される幾つか、もしくは全てのモジュールは、専用のハードウェアで実現しても良い。図8に示すように、オブジェクト検出装置800は、特徴抽出部810、候補領域検出部820、空間的関係判定部830及び順位判定部840を含む。
まず、図1に示される入力デバイス150は、特定の電子デバイス(例えばビデオカメラ等)から出力される、またはユーザか入力されたビデオのセグメントを受信する。次に、入力デバイス150は、受信したビデオを、システムバス180を介して、オブジェクト検出装置800に転送する。
次に、図8に示されるように、特徴抽出部810は、受信したビデオ内の現ビデオフレームから特徴を抽出する。特徴抽出部810の動作は、図2に示した抽出部210のそれと同じであるので、その説明はここでは繰り返さない。
候補領域検出部820は、特徴抽出部810によって抽出された特徴に基づき、現ビデオフレームからオブジェクトの候補領域を検出する。候補領域検出部820の動作は、図3に示した候補領域検出部231と同じなので、その説明はここでは説明しない。
空間的関係判定部830は、現ビデオフレームに対するそれ以前のフレームの検出結果に基づき、候補領域検出部820により検出した候補領域間の空間的関係を判定する。ここでは、現ビデオフレームに対するそれ以前のフレームの検出結果は、本発明の第1の実施形態に従って得ても良い。1つの実施形態では、例えば前ビデオフレームのいずれかから検出したオブジェクトの領域間の空間的関係は、現ビデオフレーム内の候補領域間の空間的関係であるとする。他の実施形態では、例えば、前ビデオフレームのN個のビデオフレームから検出されたオブジェクトの領域間の空間的関係の広範囲な結果(例えば、重み付けまたは平均化などの数学的演算の実行で得られる)が、現ビデオフレーム内の候補領域間の空間的関係となっているとする。
順位判定部840は、空間的関係判定部830で判定された候補領域間の空間的関係に基づき、候補領域検出部820で検出した候補領域の順位を判定し、
順位判定後の候補領域を、オブジェクトの領域とする。
オブジェクトの領域が、現ビデオフレームから検出されると、順位判定部840は、予め定義された閾値以上のスコアを持つオブジェクトの領域を最終的な検出結果とする、もしくは、上位N個にランク付けられた領域を最終的な検出結果とし、図1のシステムバス180を介して出力デバイス160にその最終的な検出結果を転送し、現ビデオフレームの最終的に検出されたオブジェクトの領域(例えば領域の位置、スコア、特徴)をユーザに向けて表示、もしくは、人物認識処理(例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い/行動等の認識もしくは解析等)などの後続処理にオブジェクトの検出領域を出力する。
本発明の第2実施形態の応用例として、図8に示したオブジェクト検出装置800は、ビデオ内の人物を追跡するために利用しても良い。具体的には、ビデオ内の現ビデオフレームにおいて、現ビデオフレーム内の人物が、一般的に使われる人物追跡装置を用いて首尾よく追跡できる場合、現ビデオフレーム内の人物は、一般的に使われる人物追跡装置を用いて検出される。また、現ビデオフレーム内の人物が一般的に使われる人物追跡装置を用いて首尾よく追跡できない場合、現ビデオフレーム中の人物を、図8に示すオブジェクト検出装置800を用いて検出しても良い。これにより、ビデオ全体における人物の追跡が達成される。
[モデル生成]
本発明の第1の実施形態にて説明したように、本発明に適用可能なモデル(すなわち、事前生成モデル)は、空間的関係がラベル付けされたサンプルの学習にしたがって事前学習/事前生成される。ここで、上記のように、本発明の処理速度を向上させるため、例えば、図5に示すように、本発明に適用する事前生成モデルは、例えば、特徴抽出する部分、空間的関係を判定する部分、及び、領域/候補領域を検出する部分を含む。本発明において、事前学習モデルは、ディープラーニング法(例えば、ニューラルネットワーク法)を用いて、空間的関係がラベル付けされたサンプルのトレーニングに基づき生成されても良い。ここで、本発明における事前生成モデルの各部分は、複数レイヤのネットワークで構成され、例えば、特徴を抽出する部分はNレイヤネットワークで構成され、空間的関係を判定する部分はMレイヤネットワークで構成され、領域/候補領域を検出する部分はTレイヤネットワークで構成されても良い。ここで、N,M,Tは自然数であって、それらが示す値は同じでも異なっても良い。
1つの実施形態では、事前生成モデルの生成に係る時間を短くするため、モデル内の、特徴を抽出する部分、空間的関係を判定する部分、及び、領域/候補領域を検出する部分は、バックプロパゲーション手段によって同時に更新される。図9は、本発明に適用可能なモデルを生成する生成法を概略的に示すフローチャート900である。図9に示されるフローチャート900にて、本発明に適用できるモデルを生成するニューラルネットワークを利用する例を使って説明する。しかし、これに限定される必要がないのは明らかである。ここで、図9に従った生成方法は、図1に示されるハードウェア構成100によって実行することもできる。
図9に示すように、まず、図1に示されるCPU110は、初期のニューラルネットワークと、入力デバイス150によって事前にセットされている複数のトレーニングサンプルを取得する。ここで、各トレーニングサンプルは空間的関係、領域位置、及び、オブジェクトカテゴリでラベル付けされているものである。そして、トレーニングサンプルにてラベル付けされた空間的関係は、例えば、“空間的関係の有り/無し”、“どのカテゴリに空間的関係が属しているか”等である。
次に、ステップS910にて、一方で、CPU110は、トレーニングサンプルを、特徴を抽出するための部分の現ニューラルネットワーク(例えば、初期ニューラルネットワーク)、および、空間的関係を判定する部分の現ニューラルネットワーク(初期ニューラルネットワーク)に通過させ、 トレーニングサンプル中に存在する空間的関係を得る。一方、CPU110は、得られた空間的関係とサンプル空間的関係間の損失(例えば第1の損失Loss1)を判定する。ここでサンプル空間的関係は、トレーニングサンプルにおいてラベル付けされた空間的関係に従って得ても良い。第1の損失Loss1は現ニューラルネットワークを用いて得られる予測空間的関係の空間的関係値と、サンプル空間的関係の空間関係値(すなわち、実空間的関係値)との誤差を表し、ここで誤差は例えば距離により測定される。例えば、第1の損失Loss1は次式(1)によって得ることができる。
ここで、jはトレーニングサンプルにおけるオブジェクトが属する空間的関係カテゴリの番号を示し、Cは空間的関係カテゴリの最大数を表し、yjは空間的関係カテゴリjのオブジェクトの実空間的関係値を表し、Pjは空間的関係カテゴリjのオブジェクトの予測空間的カテゴリ値を示す。
ステップS920にて、一方、CPU110は、トレーニングサンプルを全ての現ニューラルネットワーク(例えば初期ニューラルネットワーク)に通過させ、オブジェクトの領域/候領域位置と、オブジェクトのオブジェクトカテゴリを得る。すなわち、CPU110は、トレーニングサンプルを、特徴抽出する部分の現ニューラルネットワーク、空間的関係を判定する部分の現ニューラルネットワーク、及び、オブジェクトの領域/候補領域を検出するための部分のニューラルネットワークに通過させて、オブジェクトの領域/候補領域位置と、オブジェクトのオブジェクトカテゴリを得る。他方、得られたオブジェクトの領域/候補領域位置について、CPU110は、得られたオブジェクトの領域/候補領域の位置とサンプル領域位置間の損失(例えば第2の損失Loss2)を判定する。ここで、サンプル領域位置は、トレーニングサンプルにラベル付けされた領域の位置に従って得ることができる。ここで、第2の損失Loss2は、現ニューラルネットワークを用いて得られる予測領域/候補領域位置とサンプル領域位置との間の誤差を表し、その誤差は距離によって計測される。例えば、第2の損失Loss2は次式(2)及び(3)により得られる。
ここで、smoothL1(x)は領域/候補領域位置とオブジェクトの実領域位置との間の差を表し、xはオブジェクトの領域/候補領域の位置の左上隅の横座標を表し、yはオブジェクトの領域/候補領域の位置の左上隅の縦座標を表し、wはオブジェクトの領域/候補領域の幅を表し、hはオブジェクトの領域/候補領域の高さを表し、tn iはオブジェクトカテゴリがnのオブジェクトの領域/候補領域位置を表し、vn iはオブジェクトカテゴリがnのオブジェクトの実領域位置を表す。
得られたオブジェクトのオブジェクトカテゴリについて、CPU119は得られたオブジェクトのオブジェクトカテゴリとサンプルオブジェクトカテゴリ間の損失(例えば第2の損失Loss3)を判定する。ここで、サンプルオブジェクトカテゴリはトレーニングサンプルにてラベル付けされたオブジェクトカテゴリに従って得ることができる。また、この第3の損失Loss3は、現ニューラルネットワークを用いて得られる予測オブジェクトカテゴリと、サンプルオブジェクトカテゴリ(すなわち、実オブジェクトカテゴリ)との誤差を表し、この誤差は例えば距離によって計測できる。例えば第3の損失Loss3は次式(4)によって得られる。
ここで、mはトレーニングサンプルが属するオブジェクトのオブジェクトカテゴリの番号を表し、Mはトレーニングサンプルが属するオブジェクトのオブジェクトカテゴリの最大数を表し、ymはオブジェクトカテゴリmのオブジェクトの実オブジェクトカテゴリを表し、pmはオブジェクトカテゴリmのオブジェクトの予測オブジェクトカテゴリを表す。
図9に戻って、ステップS930にて、CPU110は全ての現ニューラルネットワークが判定によって得られる全損失(すなわち、第1の損失Loss1、第2の損失Loss2及び第3の損失Loss3)に基づき、所定の条件を満たすかどうかを判定する。例えば、3つの損失の合計もしは重みづけ合計が閾値(例えばTH2)と比較され、3つの損失の合計/重みづけ合計がTH2以下の場合は、全ての現ニューラルネットワークが所定の条件を満たすと判定され、最終的なニューラルネットワーク(すなわち、事前生成モデル)として出力される。ここで最終的なニューラルネットワークは、例えば、図2乃至図8を参照して説明したオブジェクト検出のために、図2に示した記憶デバイス240に出力される。3つの損失の合計/重みづけ合計がTH2より大きい場合、全ての現ニューラルネットワークは所定の条件を満たしていないと判定され、生成処理はステップS940に進む。
ステップS940にて、CPU110は第1の損失Loss1に基づき空間的半径を判定する部分の現ニューラルネットワークの各レイヤのパラメータを更新する。ここで各レイヤのパラメータは、例えば、現ニューラルネットワークの各コンボリューションレイヤの重みである。1つの例では、各レイヤのパラメータは、例えば確率的勾配降下法(stochastic gradient descent method)を用いることによって、第1の損失Loss1に基づいて更新される。
ステップS950にて、CPU110は、第2の損失Loss2及び第3の損失Loss3に基づき、オブジェクトの領域/候補領域を検出する部分の現ニューラルネットワークにおける各レイヤのパラメータを更新する。ここでの各レイヤのパラメータも、例えば、現ニューラルネットワークにおけるコンボリューションレイヤの重みである。1つの実施形態では、各レイヤのパラメータは、例えば確率的勾配降下法を用い、第2の損失Loss2及び第3の損失Loss3に基づき更新される。
ステップS960にて、CPU110は、第1の損失Loss1、第2の損失Loss2及び第3の損失Loss3に基づき、特徴抽出する部分の現ニューラルネットワークの各レイヤのパラメータを更新する。ここで、各レイヤのパラメータは、例えば現ニューラルネットワークにおける各コンボリューションレイヤにおける重みでもある。1つの例において、各レイヤのパラメータは、また、確率的勾配降下法を用いて、第1の損失Loss1.第2の損失Loss2及び第3の損失Loss3に基づいて更新される。その後、生成処理は再度ステップS910に進む。
図9に示されるフローチャートにおいては、第1の損失Loss1、第2の損失Loss2及び第3の損失Loss3の3つの損失の合計/重み合計が所定の条件を満たすかどうかの条件は、現ニューラルネットワークの更新を停止する条件とした。しかし、これに限定される必要がないのは明らかである。例えば、ステップS930を省略するものの、現ニューラルネットワークへの更新回数が所定回数に達した後、対応する更新動作を停止する。
上記のすべてのユニットは、本開示に記載の処理を実施するための例示的および/または好ましいモジュールである。 これらのユニットは、フィールドプログラマブルゲートアレイ(FPGA)、デジタル信号プロセッサ、特定用途向け集積回路などのようなハードウェアユニット、および/またはコンピュータ可読プログラムのようなソフトウェアモジュールであり得る。各ステップを実施するためのユニットについては、上記では詳細に説明されていない。しかしながら、特定のプロセスを実行するステップがあるとき、同じプロセスを実施するための対応する機能モジュールまたはユニット(ハードウェアおよび/またはソフトウェアによって実施される)であってもよい。説明によるステップのすべての組み合わせの技術的解決策およびこれらのステップに対応するユニットは、それらによって構成される技術的解決策が完全で適用可能である限り、本願の開示内容に含まれる。
本発明の方法、及び、装置は複数のやり方で実施することができる。例えば、本発明の方法および装置は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせによって実施しても良い。本方法のステップの上記の順序は単なる例示であることを意図しており、本発明の方法のステップは、特に明記しない限り、上記で具体的に説明した順序に限定されない。さらに、いくつかの実施形態において、本発明はまた、本発明による方法を実施するためのマシン可読命令を含む記録媒体に記録されたプログラムとして実施することもできる。したがって、本発明は、本発明による方法を実施するためのプログラムを記録した記録媒体も包含するものである。
本発明のいくつかの特定の実施形態を例示で詳述したが、上記の実施形態は単なる例示的であり、本発明の範囲を限定するものではないことを当業者は理解するべきである。当業者には当然のことながら、本発明の範囲および精神から逸脱することなく、上記の実施形態を修正することができる。本発明の範囲は、付随する特許請求の範囲によって規定されるものである。

Claims (21)

  1. オブジェクト検出装置であって、
    画像から特徴を抽出する抽出手段と、
    抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定手段と、
    判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出手段と、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトである
    を有することを特徴とするオブジェクト検出装置。
  2. 前記判定手段は、事前生成モデルを用いて、前記抽出された特徴に基づき、前記特徴点間の空間的関係とその空間的関係値とを判定することを特徴とする請求項1に記載のオブジェクト検出装置。
  3. 前記検出手段は、
    抽出した特徴に基づき画像からオブジェクトの候補領域を検出する候補領域検出手段と、
    判定した空間的関係に基づいて前記候補領域の順位を判定し、当該順位判定後の候補領域を前記オブジェクトの領域とする順位判定手段と
    を有することを特徴とする請求項1に記載のオブジェクト検出装置。
  4. 前記判定手段は、事前生成モデルを用いて、抽出された特徴に基づく前記特徴点間の空間的関係及びその空間的関係値を判定することを特徴とする請求項3に記載のオブジェクト検出装置。
  5. 前記順位判定手段は、前記候補領域の間の空間的関係の空間的関係値に基づき、前記候補領域のスコアを更新することを特徴とする請求項4に記載のオブジェクト検出装置。
  6. 任意の2つの候補領域における、当該2つの候補猟奇間の空間的関係は、その2つの候補領域に含まれる特徴点間の相互の空間的関係に基づいて判定されることを特徴とする請求項5に記載のオブジェクト検出装置。
  7. 任意の2つの候補領域における、当該2つの候補領域間の空間的関係は、更に、
    前記2つの候補領域における少なくとも1つの対象オブジェクトの位置情報およびカテゴリ情報、
    前記2つの候補領域内の少なくとも1つの対象オブジェクトの結合点情報、
    前記画像の背景情報、
    の少なくとも1つに基づき判定されることを特徴とする請求項6に記載のオブジェクト検出装置。
  8. 2つの候補領域間の空間的関係は当該2つの候補領域間の空間的拘束を表し、
    前記空間的拘束は、少なくとも
    前記2つの候補領域間の相対的な位置関係、
    前記2つの候補領域間の位相関係、
    前記2つの候補領域間の相対形状関係
    の1つを少なくとも含むことを特徴とする請求項5に記載のオブジェクト検出装置。
  9. 前記抽出手段は、事前生成モデルを用いて、前記画像から特徴を抽出し、
    前記検出手段は、前記事前生成モデルを用いて、前記画像からオブジェクトの領域を検出する
    ことを特徴とする請求項2又は4に記載のオブジェクト検出装置。
  10. 前記事前生成モデルは、ディープラーニング法を用い、空間的関係がラベル付けされたトレーニングサンプルに基づいて生成されることを特徴とする請求項9に記載のオブジェクト検出装置。
  11. 前記事前生成モデルは、特徴を抽出するための部分、空間的関係を判定するための部分、オブジェクトの領域を検出するための部分の少なくとも3つの部分を有し、
    前記事前生成モデルの生成処理にて、特徴を抽出する現在の部分、空間的関係を判定するための現在の部分、オブジェクトの領域を検出するための現在の部分が、バックプロパゲーションの手段により同時に更新される
    ことを特徴とする請求項10に記載のオブジェクト検出装置。
  12. オブジェクト検出方法であって、
    画像から特徴を抽出する抽出ステップと、
    抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定ステップと、
    判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出ステップと、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトである
    を有することを特徴とするオブジェクト検出方法。
  13. 前記判定ステップでは、事前生成モデルを用いて、前記抽出された特徴に基づき、前記特徴点間の空間的関係とその空間的関係値とを判定されることを特徴とする請求項12に記載のオブジェクト検出方法。
  14. 前記検出ステップは、
    抽出した特徴に基づき画像からオブジェクトの候補領域を検出する候補領域検出ステップと、
    判定した空間的関係に基づいて前記候補領域の順位を判定し、当該順位判定後の候補領域を前記オブジェクトの領域とする順位判定ステップと
    を有することを特徴とする請求項12に記載のオブジェクト検出方法。
  15. 前記判定ステップでは、事前生成モデルを用いて、抽出された特徴に基づく前記特徴点間の空間的関係及びその空間的関係値が判定されることを特徴とする請求項14に記載のオブジェクト検出方法。
  16. 前記順位判定ステップでは、前記候補領域の間の空間的関係の空間的関係値に基づき、前記候補領域のスコアが更新されることを特徴とする請求項15に記載のオブジェクト検出方法。
  17. 任意の2つの候補領域における、当該2つの候補猟奇間の空間的関係は、その2つの候補領域に含まれる特徴点間の相互の空間的関係に基づいて判定されることを特徴とする請求項16に記載のオブジェクト検出方法。
  18. 2つの候補領域間の空間的関係はその2つの候補領域間の空間的拘束を表し、
    前記空間的拘束は、少なくとも
    前記2つの候補領域間の相対的な位置関係、
    前記2つの候補領域間の位相関係、
    前記2つの候補領域間の相対形状関係
    の1つを少なくとも含むことを特徴とする請求項16に記載のオブジェクト検出方法。
  19. 前記抽出ステップでは、事前生成モデルを用いて、前記特徴が前記画像からを抽出され、
    前記検出ステップでは、前記事前生成モデルを用いて、前記オブジェクトの領域が前記画像から検出される
    ことを特徴とする請求項13又は15に記載のオブジェクト検出方法。
  20. ビデオ内の現ビデオフレームから特徴を抽出する特徴抽出手段と、
    抽出した特徴に基づき、前記現ビデオフレームからオブジェクトの候補領域を検出する候補領域検出手段と、
    前記現ビデオフレームの前ビデオフレームの検出結果に基づき、前記候補領域の間の空間的関係を判定する空間的関係判定手段と、
    前記候補領域間の空間的関係に基づき、前記候補領域の順位を判定し、当該順位の判定後の候補領域を、前記オブジェクトの領域する順位判定手段とを有し、
    前記現ビデオフレームの前ビデオフレームの検出結果は、請求項1乃至11のいずれか1つのオブジェクト検出装置を用いて得られることを特徴とするオブジェクト検出装置。
  21. コンピュータが実行したとき、請求項12乃至19のいずれか1項に記載のオブジェクト検出方法を実行される命令を記憶する記憶媒体。
JP2019091606A 2018-05-25 2019-05-14 オブジェクト検出装置及び方法及び記憶媒体 Active JP6823686B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810516451.9A CN110532838A (zh) 2018-05-25 2018-05-25 对象检测装置和方法及存储介质
CN201810516451.9 2018-05-25

Publications (2)

Publication Number Publication Date
JP2019204505A true JP2019204505A (ja) 2019-11-28
JP6823686B2 JP6823686B2 (ja) 2021-02-03

Family

ID=68656802

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019091606A Active JP6823686B2 (ja) 2018-05-25 2019-05-14 オブジェクト検出装置及び方法及び記憶媒体

Country Status (2)

Country Link
JP (1) JP6823686B2 (ja)
CN (1) CN110532838A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633069A (zh) * 2020-11-26 2021-04-09 贝壳技术有限公司 物体检测方法及装置
CN113011377A (zh) * 2021-04-06 2021-06-22 新疆爱华盈通信息技术有限公司 行人属性识别方法、装置、电子设备及存储介质
KR20210136138A (ko) * 2019-12-30 2021-11-16 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 이미지 처리 방법, 장치, 저장 매체 및 전자 기기
WO2022249351A1 (ja) * 2021-05-26 2022-12-01 日本電信電話株式会社 位置推定装置、位置推定学習装置、位置推定方法、位置推定学習方法、位置推定プログラム、及び位置推定学習プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003136A (ja) * 2009-06-22 2011-01-06 Sony Corp 操作制御装置および操作制御方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007025900A (ja) * 2005-07-13 2007-02-01 Canon Inc 画像処理装置、画像処理方法
WO2013136395A1 (ja) * 2012-03-12 2013-09-19 日本電気株式会社 検知装置、検知方法、プログラムが格納された記憶媒体
JP6708368B2 (ja) * 2014-04-25 2020-06-10 コンデュエント ビジネス サービシーズ エルエルシー 変形可能部分モデルを使用した車両追跡における部分的隠蔽処理方法及びシステム
CN106355182A (zh) * 2015-07-14 2017-01-25 佳能株式会社 用于对象检测和图像处理的方法和装置
CN107766867A (zh) * 2016-08-15 2018-03-06 佳能株式会社 对象形状检测装置及方法、图像处理装置及***、监视***
US10467459B2 (en) * 2016-09-09 2019-11-05 Microsoft Technology Licensing, Llc Object detection based on joint feature extraction

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011003136A (ja) * 2009-06-22 2011-01-06 Sony Corp 操作制御装置および操作制御方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
山村敦 外1名: "ファジー推論ニューラルネットワークによる位置関係を考慮した風景画像の認識", 電気学会論文誌C 電子・情報・システム部門誌, vol. 第122-C巻 第3号, JPN6020018342, 1 March 2002 (2002-03-01), pages 506 - 511, ISSN: 0004345141 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210136138A (ko) * 2019-12-30 2021-11-16 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 이미지 처리 방법, 장치, 저장 매체 및 전자 기기
KR102432204B1 (ko) * 2019-12-30 2022-08-12 상하이 센스타임 린강 인텔리전트 테크놀로지 컴퍼니 리미티드 이미지 처리 방법, 장치, 저장 매체 및 전자 기기
CN112633069A (zh) * 2020-11-26 2021-04-09 贝壳技术有限公司 物体检测方法及装置
CN113011377A (zh) * 2021-04-06 2021-06-22 新疆爱华盈通信息技术有限公司 行人属性识别方法、装置、电子设备及存储介质
WO2022249351A1 (ja) * 2021-05-26 2022-12-01 日本電信電話株式会社 位置推定装置、位置推定学習装置、位置推定方法、位置推定学習方法、位置推定プログラム、及び位置推定学習プログラム

Also Published As

Publication number Publication date
CN110532838A (zh) 2019-12-03
JP6823686B2 (ja) 2021-02-03

Similar Documents

Publication Publication Date Title
JP6823686B2 (ja) オブジェクト検出装置及び方法及び記憶媒体
US11704907B2 (en) Depth-based object re-identification
US8929600B2 (en) Action recognition based on depth maps
CN106127120B (zh) 姿势估计方法和装置、计算机***
WO2021227726A1 (zh) 面部检测、图像检测神经网络训练方法、装置和设备
US9846845B2 (en) Hierarchical model for human activity recognition
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
WO2019222401A2 (en) Gradient adversarial training of neural networks
WO2020015752A1 (zh) 一种对象属性识别方法、装置、计算设备及***
Chhetri et al. Deep learning for vision‐based fall detection system: Enhanced optical dynamic flow
CN110555481A (zh) 一种人像风格识别方法、装置和计算机可读存储介质
Luo et al. Shape constrained network for eye segmentation in the wild
Park et al. Attributed grammars for joint estimation of human attributes, part and pose
JP6948851B2 (ja) 情報処理装置、情報処理方法
CN110689030A (zh) 属性识别装置和方法及存储介质
US20200242404A1 (en) Image searching apparatus, classifier training method, and recording medium
WO2019205729A1 (zh) 用于识别物体的方法、设备和计算机可读存储介质
CN110738650B (zh) 一种传染病感染识别方法、终端设备及存储介质
Raj et al. Image based bird species identification using convolutional neural network
Go et al. Fine-grained multi-class object counting
Li et al. Personrank: Detecting important people in images
Venkatachalam et al. Bimodal HAR-An efficient approach to human activity analysis and recognition using bimodal hybrid classifiers
Rao et al. A multi-view human gait recognition using hybrid whale and gray wolf optimization algorithm with a random forest classifier
Dufourq A survey on factors affecting facial expression recognition based on convolutional neural networks
Zhou et al. Learning a superpixel-driven speed function for level set tracking

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201211

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210108

R151 Written notification of patent or utility model registration

Ref document number: 6823686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151