JP2019204505A

JP2019204505A - オブジェクト検出装置及び方法及び記憶媒体

Info

Publication number: JP2019204505A
Application number: JP2019091606A
Authority: JP
Inventors: ホァーンヤオハイ; Yaohai Huang; ツァンヤン; Jan Yan; リーヤン; Yan Li; ジャンジーユエン; Zhuyen Zhang
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-05-25
Filing date: 2019-05-14
Publication date: 2019-11-28
Anticipated expiration: 2039-05-14
Also published as: CN110532838A; JP6823686B2

Abstract

【課題】関連オブジェクトをより良く検出するオブジェクト検出装置及び方法及び記憶媒体を提供する。【解決手段】オブジェクト検出装置は、画像から特徴を抽出する抽出部と、抽出した特徴に基づき画像における個別の特徴点間の空間的関係を判定する判定部と、判定した空間の関係に基づき、画像内のオブジェクトの領域を検出する検出部とを有する。ここでオブジェクトは、画像内の関連付けられたオブジェクトである。【選択図】図２

Description

本発明は、画像処理、とりわけ例えばオブジェクトの検出処理に関するものである。

監視システムでは、一般に人が主要な監視対象となる。一般に、人は日常的に何らかの物体（例えば、眼鏡、バッグ、スーツケース、車椅子等）を身に着けたり、手に持ったり、使用したりするので、これらの物体は補助的方法で人を監視するために利用される。本明細書では、これらの物体は、例えば、関連人物の付属物と呼ばれる。監視処理では、一般に人物認識処理が主な処理動作であり、人物の認識処理に使用される、最も必要な基本的な情報は、動画像中の人物の位置や関連物などの情報である。それ故、高い再現率でビデオ／画像から人物および関連オブジェクトを検出することができるかどうかは、人物認識処理の精度に直接影響を及ぼすことになる。本明細書では、人物認識処理とは、例えば、人物の属性認識、人物の照合（対象者のＩＤの検証）、人物画像の検索、人物の行動・行動の認識または分析（例えば、対象者が何か物体を持っているかどうか、および対象者と他のオブジェクトとの間の動作の分析など）が含まれる。

高い再現率でビデオ／画像から人物及び関連物を検出するための例示的な物体検出技術が非特許文献１に開示されている。概ね、次のとおりである。まず、ニューラルネットワークを用いて、入力画像からさまざまなレベルの特徴を抽出する。たとえば、小スケールオブジェクトの低レベル特徴、中スケールのオブジェクトの中レベル特徴、大スケールのオブジェクトのための高レベル特徴を抽出する。次に、対応する事前生成候補領域生成ネットワークを用いて、各レベルの特徴から、オブジェクトの候補領域の関連情報（例えば、候補領域の位置、候補領域のスコア、及び、候補領域の特徴）を抽出する。

オブジェクト検出技術（例えば、上記の例示技術）においては、一般に、予め設定された閾値を下回らないスコアを持つ候補領域のみ、又は、上位Ｎにランク付けされるスコアの候補領域のみが、最終出力となる。換言すれば、最終出力の候補領域は、その画像から検出できるオブジェクト（人及び物体）の領域として見なされることになる。しかしながら、例えば、関係者によって遮られているスーツケース、座っている人によって遮られている車椅子、地面に置いた影の影響を受けるバッグ等、画像中の他の物体によって遮られている物体や照明の影響を受けている物体の場合、それらオブジェクトの特徴はその画像から完全に抽出することができない。故に、上記例示の技術を用いて画像からそれらオブジェクトの候補が検出できたとしても、それらオブジェクトの候補領域のスコアは低くなるので、それらオブジェクトの候補領域のスコアが予め設定された閾値を下回る、或いは、それらオブジェクトの候補領域のスコアが上位Ｎにランク付けされなくなる。結果、そのようなオブジェクトの候補領域が最終出力とはならず、画像からのオブジェクトが検出できず、最終的にそのオブジェクトの高い再現率に影響を与えることになる。

"Feature Pyramid Networks for Object Detection" (Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie, CVPR 2017).

上記関連技術に鑑み、本発明は上記問題の少なくとも１つを解決する。

本発明の１つの形態にて提供されるオブジェクト検出装置は、画像から特徴を抽出する抽出手段と、抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定手段と、判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出手段とを有し、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトであることを特徴とする。

本発明の他の形態にて提供されるオブジェクト検出方法は、画像から特徴を抽出する抽出ステップと、抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定ステップと、判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出ステップとを有し、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトであることを特徴とする。

本発明の更なる態様にて提供されるオブジェクト検出装置は、ビデオ内の現ビデオフレームから特徴を抽出する特徴抽出手段と、抽出した特徴に基づき、前記現ビデオフレームからオブジェクトの候補領域を検出する候補領域検出手段と、前記現ビデオフレームの前ビデオフレームの検出結果に基づき、前記候補領域の間の空間的関係を判定する空間的関係判定手段と、前記候補領域間の空間的関係に基づき、前記候補領域の順位を判定し、当該順位の判定後の候補領域を、前記オブジェクトの領域する順位判定手段とを有し、前記現ビデオフレームの前ビデオフレームの検出結果は、上述したオブジェクト検出装置を用いて得られることを特徴とする。

本発明の更なる他の形態では、上記のオブジェクト検出方法を可能にするため、プロセッサによって実行可能な命令を記憶する記憶媒体が提供される。

本発明において、個々の特徴点間の空間的関係がオブジェクトの領域の検出を規制するように、その空間的関係がオブジェクトの領域を検出するときに用いられる。これにより、関連するオブジェクトをよりよく検出することが可能になる。関連するオブジェクトは一般に監視プロセス中における人を監視するのにより有用であるので、オブジェクト検出の再現率だけでなく、人を監視する効果も本発明に従って改善することができる。

本発明の更なる他の特徴及び効果は、添付図面を参照して以下に説明される実施形態から明らかにする。

添付図面は、本明細書に組み込まれてその一部を構成するものであり、本発明の原理を説明するために、本発明の実施形態を例示するものである。
本発明の実施形態に係る技術を実施可能なハードウェア構成を示すブロック図である。本発明の第１の実施形態に係るオブジェクト検出装置の構成を示すブロック図である。図２に示された、検出部２３０の構成を示すブロック図である。本発明の第１の実施形態にかかるオブジェクト検出のフローチャートを示す図である。図４のフローチャートにて利用される事前生成モデルの概略構成図である。本発明の第１の実施形態にかかる、図４に示された検出ステップのフローチャートを示す図である。本発明の第１の実施形態にかかる図６に示された、順位判定ステップのフローチャートを示す図である。本発明の第２の実施形態にかかるオブジェクト検出装置の構成を示すブロック図である。本発明に適用可能なモデルを生成する生成方法のフローチャートを示す図である。

以下に添付図面を参照しながら、本発明に好適な実施形態を詳細に説明する。以下の説明は、本質的に単なる例示かつ例示的なものであり、本発明およびその用途または使用を限定することを意図するものではない点に留意されたい。実施形態に記載されている構成要素やステップの相対配置、数値表現、数値などは、特に記載がない限り、本発明の範囲を限定するものではない。さらに、当業者に知られている技術、方法、および装置は詳細には論じられないかもしれないが、適切な場合は明細書の一部であるべきものである。

なお、図面において同様の参照番号および文字は同様の項目を示すものである。それ故、１つの図において１つの項目が定義されると、それを以下の図において論じる必要はないことに留意されたい。

本発明者は、オブジェクト検出の実際のシーンにて、一般に互いに特定の関係（特に空間的関係）を有するいくつかのオブジェクトが存在し、これらのオブジェクトは一般に関連オブジェクトとして参照されることを見出した。さらに、一方では、相互作用するケース（例えば、互いに遮られている等）は、関連オブジェクト間で発生する可能性が高い。一方、監視処理では、関連オブジェクトは人物の監視に役立つ。このように、本発明者は、オブジェクト検出プロセスにおいて、関連オブジェクト間に存在するこの特定の関係（特に空間的関係）は、例えば、いくつかの関連オブジェクトが遮蔽されている場合であっても、そのオブジェクトの領域の検出を規制（constrain）することができることを見出した。この結果、オブジェクト検出の再現率を向上させることができ、さらには人物を監視する効果を高めることができる。本発明では、女性とその女性が引いているスーツケース、男性とその男性が腰かけている車椅子等のような、人物（例えば対象者）と人物が身にまとっている／握っている／用いているオブジェクトは、関連オブジェクトとして見なすことができる。女性とその女性が抱えている子供や、前後に位置する、重なっている二人も、関連オブジェクトとして見なすことができる。隣接オブジェクト（例えば対象オブジェクトとその対象オブジェクトの隣の他のオブジェクト）、例えばスーツケースとその上に置かれたバッグ、人物の影とその影で一部もしくは全部が覆われたバッグなどもまた、関連オブジェクトと見なすことができる。しかしながら、これに限定される必要がないのは明らかである。

本発明において、関連オブジェクト間に存在する空間的関係は、それら関連オブジェクト間の空間的規制（spatial constraint）を表す。例えば２つの関連オブジェクトにて、それらの間の空間的関係（例えば、その２つの関連オブジェクトに対応する領域間の空間的制約）は、少なくとも、次に示す幾つかの規制を少なくとも含む。
・２つのオブジェクト間の相対位置関係（Relative positional relationship）（例えば、方向関係、距離関係等）
例えば、机の上に置かれたコンピュータの場合、そのコンピュータと机との方向関係は、“机の上（on the desk)”となる。例えば、芝生上の人物／動物の場合、その人物／動物と芝生との方向関係は“芝生の上（on the grass）”となる。例えば、子供の手を握って歩くように導いている女性の場合、女性と子供との間の距離関係は“隣接して、近くに（adjacent to, close to）”である。しかし、これに限定される必要がないのは明らかである。
・２つのオブジェクト間の位相関係（Topological relationship）（たとえば、重複関係(overlapping relationship)、包含関係(inclusion relationship)、隣接関係(adjacency relationship)など）
例えば、車いすに座っている男性の場合、その男性と車椅子との位相関係は“重複関係”となる。例えば子供を抱えている女性の場合、その女性と子供との位相関係は“包含関係”となる。パラソルを持つ女性の場合、その女性とパラソルとの位相関係は“隣接関係”となる。しかし、これに限定される必要がないのは明らかである。
・２つのオブジェクト間の相対形状関係（Relative shape relationship）
例えば、車椅子に座っている男性のように、人と車椅子間の空間的規制が、“相対形状関係”にもなる。しかし、これに限定される必要がないのは明らかである。

本発明は、上記の考察結果に鑑みて提案されたものであり、以下に添付図面を参照しながら詳細に説明する。

［ハードウェア構成］
まず、以下で説明される具術を実現可能なハードウェア構成について、図１を参照して説明する。

ハードウェア構成１００は、例えば、中央処理装置（ＣＰＵ）１１０、ランダムアクセスメモリ（ＲＡＭ）１２０、リードオンリメモリ（ＲＯＭ）１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１６０、ネットワークインタフェース１７０、および、システムバス１８０を含む。更に、ハードウェア構成１００は、例えば、カメラ、ビデオカメラ、パーソナルデジタルアシスタント（ＰＤＡ）、スマートフォン、タブレット、ラップトップ、デスクトップコンピュータ、或いは、他の適当な電子デバイスに実装しても構わない。

一つの実装法における、本発明のオブジェクト検出処理はハードウェアもしくはファームウェアによって構成され、ハードウェア構成１００のモジュールもしくはコンポーネントとして機能する。例えば、図２を参照して以下に詳細に説明するオブジェクト検出装置２００、及び、図８を参照して以下に詳細に説明するオブジェクト検出装置８００は、ハードウェア構成１００のモジュールもしくはコンポーネントとして利用される。他の実装法における、本発明のオブジェクト検出処理は、ＲＯＭ１３０又はハードディスク１４０に格納されるソフトウェアによって構成され、ＣＰＵ１１０によって実行されるものである。例えば、詳細は図４を参照して説明する処理４００、及び、詳細は図９０を参照して説明する処理９００が、ＲＯＭ１３０又はハードディスク１４０に格納されるプログラムとして利用される。

ＣＰＵ１１０はプロセッサなどの、任意の適切なプログラム可能な制御装置であり、ＲＯＭ１３０またはハードディスク１４０（メモリなど）に格納されたさまざまなアプリケーションプログラムを実行することによって、後述する様々な機能を実行することができる。ＲＡＭ１２０は、ＲＯＭ１３０またはハードディスク１４０からロードされたプログラムやデータを一時的に記憶するとともに、ＣＰＵ１１０が実行する各種の処理（例えば、後述する図３から図７および図９の技術等）や他の利用可能な機能を実行する空間としても使用される。ハードディスク１４０は、オペレーティングシステム（ＯＳ）、各種アプリケーション、制御プログラム、ビデオ、画像、事前生成モデル(pre-generated models)、事前定義されたデータ（例えば、閾値群（ＴＨs））などの様々な情報を格納する。

１つの実施形態では、入力デバイス１５０は、ユーザに対し、ハードウェア構成１００と情報交換することを許容する。１つの実施形態では、ユーザは入力デバイス１５０を通じて、画像／ビデオ／データを入力できる。他の実施形態では、ユーザは、入力デバイス１５０を通じて、本発明の対応する処理を起動することができる。更に、入力装置１５０は、ボタン、キーボード、またはタッチスクリーンなどの多様な形態を採用することができる。別の実施形態では、入力装置１５０は、デジタルカメラ、ビデオカメラ、および／またはネットワークカメラなどの特殊な電子装置から出力される画像／ビデオを受信するために利用される。

１つの実施形態において、出力デバイス１６０は、検出結果（オブジェクトの検出された領域の位置、スコア、特徴等）をユーザに対する表示するために利用される。更に、出力デバイス１６０は、ＣＲＴ（Cathode Ray Tube）、液晶ディスプレイなど、様々な形態を採用することができる。他の実施形態では、出力装置１６０は、検出結果を、人認識処理（例えば、人物属性認識、人物マッチング、人物画像検索、および人物の行動／行動の認識または分析など）などの後続の処理に出力するために利用される。

ネットワークインタフェース１７０は、ハードウェア構成１００をネットワークに接続するインタフェースを提供する。例えば、ハードウェア構成１００は、ネットワークインタフェース１７０を介して、ネットワークを介して接続された他の電子機器とデータ通信を行うことができる。或いは、ハードウェア構成１００は、無線データ通信を行うための無線インタフェースを備えてもよい。システムバス１８０は、ＣＰＵ１１０、ＲＡＭ１２０、ＲＯＭ１３０、ハードディスク１４０、入力デバイス１５０、出力デバイス１６０、ネットワークインタフェース１７０等の間の、互いのデータ転送のためのデータ転送路を提供する。システムバス１８０はバスと呼ばれるが、特定のデータ伝送技術に限定されない。

上記のハードウェア構成１００は、単なる例示であり、本発明およびその用途または使用を限定することを意図としていない。更に、簡潔にするために、図１には１つのハードウェア構成しか示されていない。しかし、必要に応じて複数のハードウェア構成を使用することができる。

［オブジェクト検出］
次に、本発明におけるオブジェクト検出を、図２乃至図８を参照して説明する。

図２は、本発明の第１の実施形態におけるオブジェクト検出装置２００の構成を示すブロック図である。ここで、図２に示されるモジュールの幾つかもしくは全部は専用のハードウェアでもって実現しても良い。図２に示されるように、オブジェクト検出装置２００は、抽出部２１０、判定部２２０、及び、検出部２３０を含む。

まず、図１に示さてる入力デバイス１５０は、特定の電子デバイス（例えば、ビデオカメラ等）から出力される画像を受信する。次に、入力デバイス１５０はシステムバス１８０を介して、受信した画像をオブジェクト検出装置２００に転送する。

そして、図２に示されるように、抽出ユニット２１０は受信した画像から特徴を抽出する。ここで、抽出部２１０は、既存の特徴抽出アルゴリズム、例えば、ローカルバイナリパターン（ＬＢＰ）アルゴリズム、Ｇａｂｏｒアルゴリズム、スケール不変の特徴変換（ＳＩＦＴ）アルゴリズム、ニューラルネットワーク（ＮＮ）アルゴリズムなどを用いて、画像から特徴を抽出することができる。ここで、抽出された特徴は、例えば、画像内の勾配特徴(gradient features)、エッジ特徴(edge feature)、見かけの特徴(apparent features)、意味的特徴(semantic feature)などであっても良い。

判定部２２０は、抽出した特徴に基づき、画像内の個々の特徴点間の空間的関係を判定する。ここで特徴点は抽出された特徴上の点である。また任意の２つの特徴点間の空間的関係としては、その２つの特徴点が同じ領域又は異なる領域に属するかに従って、その特徴点間の空間的相関は、“同じ領域内の位置的相関（すなわち、イントラカテゴリの位置関係）”、及び、“異なる領域間の位置的関係（すなわち、インターカテゴリの位置関係）”にカテゴリ分けされる。更に、判定された特徴点間の空間的関係は、それに応じた空間的関係値を有する。ここで、２つの特徴点間の空間関係の場合、対応する空間関係値はその２つの特徴点がその空間関係に属する確率（probability）を表す。

１つの実施形態では、判定部２２０は、予め定義されたルールに従い、抽出した特徴に基づく特徴点間の空間的関係を判定しても良い。ここでの予め定義されたルールは、対応する記録デバイス、例えば図２に示される記憶デバイス２４０に記憶されても良い。ここで、記憶デバイス２４０は、図１に示されるＲＯＭ１３０またはハードディスク１４０で良いし、オブジェクト検出装置２００にネットワーク（不図示）を介して接続されるサーバまたは外部記憶デバイスであっても良い。このように、実施形態において、判定部２２０はまず記録デバイス２４０から予め定義されたルールを取得し、そして、空間的関係の対応する判定処理を行うことになる。

他の実施形態としては、様々なシーンにおける空間的関係を便利に決定するようにするために、特徴点間の空間的関係を判定するために利用されるモデル（すなわち事前生成モデル）が、空間関係がラベル付けされたトレーニングサンプルに従って事訓練／事前生成され、対応する記憶デバイス（例えば、記憶デバイス２４０）に格納されることである。ここで、事前生成モデルの生成方法は、その詳細については図９を参照して後述する。一方、判定部２２０は事前生成のモデルを用いることで、抽出された特徴に基づく特徴点間の空間的関係を判定する。

更に、オブジェクト検出の処理速度を改善するため、上記の事前生成モデルが図９に参照されるように生成される。ここでは事前生成モデルは、特徴抽出するための部分と、加えて空間的関係を判定する部分を含む。これに替えて、抽出部２１０が、事前生成モデルを用いて画像からも特徴を抽出しても良い。この場合、一方で、抽出部２１０は記憶デバイス２０から事前生成モデルを取得し、他方、抽出部２１０はその事前生成モデルを用いて画像から特徴を抽出する。更に、この場合、判定部２２０は、記憶ユニット２４０から対応する事前生成モデルを特に取得せずに、抽出部２１０が記憶デバイス２４０から取得した事前生成モデルをそのまま用いてもよい。

図２の説明に戻る。個々の特徴点間の空間的関係が判定された後、検出部２３０は判定した空間的関係に基づき画像内のオブジェクトの領域を検出する。ここでオブジェクトは、好ましくは画像内の関連オブジェクトであり、検出したオブジェクトの領域は例えば領域の位置、領域のスコア、及び、領域によって包含される特徴を含む。ここで、１つの領域のスコアは、その領域が或るカテゴリのオブジェクトに属する確率を示し、１つの領域に包含される特徴は、その領域に属する抽出部２１０によって抽出された特徴のうちの特徴である。

１つの実施形態において、検出部２３０は、判定された空間的関係を直接利用して、画像からオブジェクトの領域を検出しても良い。具体的には、まず、検出部２３０は、判定した空間的関係に基づいて個々の特徴点をクラスタリングする。ここでクラスタリング結果は１つの領域と見なすことでき、各クラスタリング結果における特徴点間の空間的関係は先に説明した“イントラカテゴリの空間的関係”に属する。そして、検出部２３０は、異なるクラスタリング結果に属する特徴点間の空間的関係（すなわち、上記の“インターカテゴリの空間的関係”）に基づいて、対応する領域を、オブジェクトの最終的な検出領域として判定する。ここで、互いの距離が所定の閾値（例えばＴＨ１）未満であるクラスタリング結果は、オブジェクトの最終的な検出領域と見なすことができ、互いに重なり合うクラスタリング結果は、たとえば最終的な検出と見なすことができる。

他の実施形態において、より関連性の高いオブジェクトの領域を優先的に出力することができ、検出されたオブジェクトの領域の位置をより正確にするため、検出部２３０は、図３に示すように、候補領域検出部２３１および順位決定部２３２を含んでも良い。

図３に示すように、候補領域検出部２３１は、検出部２１０により検出された特徴に基づき、画像からオブジェクトの候補領域を検出する。ここで、候補領域検出部２３１は、既存の領域検出アルゴリズム、例えば、選択的検索アルゴリズム（selective search algorithm）、エッジボックスアルゴリズム（EdgeBoxes algorithm）、物体アルゴリズム（Objectness algorithm）などを用いて、画像から候補領域を検出することができる。更に、上記のごとく、先に示した事前生成モデルは特徴抽出する部分及び空間的関係を判定する部分を含んでもよく、オブジェクト検出の処理速度を更に上げるために、事前生成モデルは、それが図９に示されるように生成されるときにオブジェクトの候補領域の検出する部分を含んでも良い。そのため、候補領域検出部２３１は、事前生成モデルを用いて抽出された特徴に基づいて、画像からオブジェクトの候補領域を検出してもよい。この場合、候補領域検出部２３１は、検出部２１０が記憶デバイス２４０から取得した事前生成モデルを用いて、画像からオブジェクトの候補領域を検出しても良い。ここで、オブジェクトの検出された候補領域は、例えば候補領域の位置、候補領域のスコア、候補領域を包含する特徴をも含む。ここで、１つの候補領域のスコアは、その候補領域が或るカテゴリのオブジェクトに属する確率を示すものであり、例えば、候補領域のスコアは、候補領域をカテゴリ分けすることによって得ても良い。

次に、図３に示すように、画像から候補領域が検出された後、順位判定部２３２は、判定部２２０により判定された空間的関係に基づき、検出された候補領域の順位を判定し、順位判定後の候補領域を、オブジェクトの検出領域とする。

更に、上記の事前生成モデルは、オブジェクトの候補領域の検出する部分に加えて、そのオブジェクトが図９に示されるように生成されるときのオブジェクトの領域を直接的に検出する部分を含んでもよい。それ故、他の実施形態では、検出部２３０は、事前生成モデルを直接用いて判定された空間的関係に基づき、画像内のオブジェクトの領域を検出しても良い。この場合、検出部２３０は、抽出部２１０が記憶デバイス２４０から取得した事前生成モデルを用いて画像からオブジェクトの領域を検出しても良い。

図２に戻って、オブジェクトの領域が画像から検出された後、検出部２３０は、予め定義されや閾値以上のスコアを持つオブジェクトの領域を最終的な検出結果とする、或いは、上位Ｎ個にランク付けスコアを持つ領域を最終的な検出結果とし、図１に示されるシステムバス１８０を介して、その最終的な検出結果を出力デバイス１６０に転送し、最終的なオブジェクトの検出結果（例えば領域の位置、スコア、特徴）をユーザに向けて表示、もしくは、人物認識処理（例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い／行動等の認識もしくは解析等）のような後続する処理にオブジェクトの検出領域を出力する。

図４に示されるフローチャート４００は、図２に示されるオブジェクト検出装置２００の対応する処理である。以下は、事前生成モデルを用いた対応する処理を行う抽出部２１０、判定部２２０及び検出部２３０で行われる説明である。ここで、処理にて用いられる事前生成モデルの概略構成は例えば図５に示す通りである。しかし、これに限定される必要性が無いことは明らかである。

図４に示すように、抽出ステップＳ４１０にて、抽出部２１０は記憶デバイス２４０から事前生成モデルを取得し、取得した事前生成モデル（特に、その中の特徴抽出する部分）を用いて受信した画像から特徴を抽出する。

判定ステップＳ４２０にて、判定部２２０は、事前生成モデル（特にその中の空間的関係の判定する部分）を利用して、抽出された特徴に基づく特徴点間の空間的関係を判定する。

検出ステップＳ４３０にて、検出部２３０は、取得した事前生成モデルと用いて、画像からオブジェクトの領域を検出する。ここでオブジェクトは、好ましくは画像内の関連付けられたオブジェクトである。上述のように、より関連性の高いオブジェクトの領域を優先的に出力するため、及び、オブジェクトの検出された領域の位置をより正確にするため、１つの実施フェイでは、検出部２３０は、図６に従って、画像内のオブジェクトの領域を検出する。

図６に示されるように、候補領域検出ステップＳ４３１にて、候補領域検出部２３１は、事前生成モデル（特に、その中の候補領域を検出する部分）を用いて、抽出部２１０により抽出された特徴に基づき、画像からオブジェクトの候補領域を検出する。順位判定ステップＳ４３２にて、順位判定部２３２は、判定部２２０で判定された空間的関係に基づき候補領域の順位を判定し、その順位判定後の候補領域を、オブジェクトの最終的な検出領域とする。１つの実施形態では、順位判定部２３２は図７に従って候補領域の順位を判定する。

図７に示されるように、ステップＳ４３２１にて、順位判定部２３２は、候補領域検出部２３１によって検出された候補領域間の空間的関係を判定する。具体的には、任意の２つの候補領域について、順位判定部２３２は、その２つの候補領域に含まれる特徴点間の相互の空間的関係に基づき、その２つの候補領域間の空間的関係を判定する。ここで、２つの候補領域内に特定の空間的関係を有する２つの対応する特徴点がある限り、その２つの候補領域は特定の空間的関係を有すると見なすことができる。

１つの実施形態では、任意の２つの候補領域について、順位判定部２３２は、その２つの候補領域間の任意の２つの特徴点間の空間的関係を、その２つの候補領域間の空間的関係として判定する。好ましくは、例えば、これら２つの候補領域の中心の位置における２つの特徴点間の空間的関係を、その２つの候補領域間の空間的関係として決定されてよい。ここで、２つの候補領域間の空間的関係の空間関係値は、その２つの候補領域間の空間的関係の空間的関係値として見なす。例えば、最大の空間的関係値を持つ２つの特徴点間の空間的関係は、その２つの候補領域間の空間的関係として判定される。ここで、最大の空間的関係値は、２つの候補間の空間的関係の空間的関係値として、見なされるものである。

他の実施形態では、順位決定部２３２は、任意の２つの候補領域について、その２つの候補領域間に存在する特徴点間の全ての空間的関係を用いて、その２つの候補領域間の空間的関係を決定する。好ましくは、例えば、一方において、特徴点間の空間的関係が投票され、最も多数の投票を有する空間的関係がその２つの候補領域間の空間的関係として決定される。一方、投票数が最も多い空間関係に属するすべての空間関係値は、平均化、重み付け合算され、或いは、最大化され、得られた値は、その２つの候補領域間の空間関係の空間関係値とみなされる。

図７に戻る。ステップＳ４３２２にて、順位判定部２３２は、候補領域間の判定後の空間的関係の空間的関係値に基づき、候補領域のスコアを更新する。１つの実施形態において、順位判定部２３２は行列間の算出演算によって候補領域のスコアを更新しても良い。具体的には、例えば候補領域間の判定された空間的関係の空間的関係値からなる行列と、候補領域のスコアからなる行列が数学的演算（例えば行列の乗算）される。そして、その演算後に得られる結果が候補領域の更新後のスコアとする。他の実施形態においては、検出しようとしている対象オブジェクト（例えば対象人物）が特定される場合、順位判定部２３２は、その対象オブジェクトに関連するオブジェクト（例えば、対象人物の付属物）の候補領域のスコアを更新するだけで良い。具体的には。例えば、まず最大空間関係値を有する１つの関連オブジェクトは対象オブジェクトに対して空間的関係を持つ関連オブジェクトから判定され、そして、最大空間的関係値は、候補領域のスコアを更新するために判定された関連オブジェクトの候補領域のスコアに重ね合わされる。

更に、処理速度を向上させるために候補領域間の空間的関係の判定範囲を狭くするため、図７に示すように、ステップＳ４３２０がＳ４３２１の前（すなわち、候補領域間の空間的関係を判定する前）に含まれるようにしても良い。図７に示すように、ステップＳ４３２０にて、順位判定部２３２は対応する補助情報を取得する。この補助情報は、例えば、特定検知タスクについての情報、特定の検知シーンについての情報などである。

特定検出タスクとしては、一般に、検出対象の対象オブジェクト（例えば対象人物）が特定される、すなわち、対象オブジェクトの位置情報およびカテゴリ情報が一般的に与えられる。更には、一般に、優先的に検出されるオブジェクトは、対象オブジェクトに関連する他のオブジェクト（例えば、対象人物の周囲にある付属物）であることが望ましい。

したがって、特定検出タスクに関しては、順位決定部２３２が取得する補助情報は、例えば、少なくとも１つの対象オブジェクトの位置情報およびカテゴリ情報である。更に、その一方で、対象オブジェクトのカテゴリ情報は分かっているので、順位判定部２３２は対象オブジェクトと他のオブジェクト間に存在する空間的関係のタイプを明確に判定しても良い。例えば、対象オブジェクトが対象人物である場合、対象オブジェクトと他のオブジェクト間の空間的関係は、“或る人物とその他の人物間の空間的関係”、及び、“或る人物と他のオブジェクト間の空間的関係”のみとなり、“或るオブジェクトと或るオブジェクト間の空間的関係”とはならない。他方、対象オブジェクトの位置情報は分かっているので、順位判定部２３２は、全ての候補領域間の空間的関係を判定せずに、どの候補領域間の空間的関係を決定すればよいかを大まかに定義することができる。したがって、順位判定部２３２が、ステッＳ４３２１にて、候補領域間の空間的関係を判定するとき、特定の候補領域間の空間的関係のみが判定されればよく、これにより処理速度を向上させることができる。

また、特定検出タスクに関して、対象オブジェクトが対象人物である場合、順位判定部２３２によって得られる補助情報は、例えば、少なくとも１つの対象オブジェクト（すなわち、対象人物）の関節点情報（joint point information）である。ここで、対象人物の関節点情報は、手動ラベリングや関節点検出方法を用いて取得することができる。更に順位判定部２３２は、対象人物の関節点をカテゴリ分け又は認識することにより、対象人物とその対象人物に関連付けられた人物／オブジェクト間の空間的関係に対応する動作を取得しても良い。例えば、対象人物がスーツケースを引っ張っている場合、対象人物とスーツケースとの間の空間的関係に対応する動作は“引っ張る”である。したがって、順位判定部２３２が、Ｓ４３２１にて、候補領域間の特定の空間的関係を判定するとき、その特定候補領域間の特定空間的関係のみが判定され、更に、特定の動きに対応する特定の空間的関係のみを判定され、これにより、処理速度がさらに向上できる。

特定の検出シーンに関しては、一般に、特定の空間的関係がそのシーンとシーン中のオブジェクト（例えば人物、動物等）間に存在する。例えば、草／大草原では、飛んでいる動物（例えば鳥など）は一般に空中を飛んでおり、地面を歩いている可能性は低い。また、人又は歩行する動物（例えば羊など）は一般に地面を歩くものであり、空中を飛ぶことはまずない。したがって、特定検出シーンについては、順位決定部２３２によって取得される補助情報は、例えば、シーン情報（すなわち入力画像の背景情報）である。さらに、順位判定部２３２は、具体的に、シーン情報に従って、或る特定のオブジェクトとシーン間の特定の空間的関係を判定しても良い。したがって、順位判定部２３２がＳ４３２１にて候補領域間の空間的関係を判定するとき、全ての空間的関係を判定せずに、特定の空間的関係のみが判定されるようにしても良い。この結果、処理速度は向上できる。

図４に戻る。画像からオブジェクトの領域が検出されると、検出部２３０は、閾値以上のスコアを持つ、或いは、上位Ｎ個にライク付けされたオブジェクトの検出領域を最終的な検出結果とし、図１に示したシステムバス１８０を介して出力デバイス１６０に検出結果を送出し、最終的なオブジェクトの検出結果（例えば領域の位置、スコア、特徴）をユーザに向けて表示、もしくは、人物認識処理（例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い／行動等の認識もしくは解析等）などの後続処理にオブジェクトの検出領域を出力する。例えば、人物の振る舞い／行動等の認識もしくは解析については、図２に示されるオブジェクト検出装置２００で検出されたオブジェクトの領域は、好ましくは、対象人物、及び、その対象人物が身にまとった／握った／用いた付属物、及び、その対象人物の近接する他の人物の領域であり、これにより、対象人物と付属物又は隣接人物間の振る舞い／行動が、その領域間の空間的関係から直接的に認識もしくは解析できる。また、例えば、対象人物とその対象人物に隣接する他の人物についての場合、領域間の空間的関係が“包含関係（inclusion relationship）”である場合、対象人物の行動は、例えば、“抱いている（holding）”として推察できる。また、対象人物とその対象人物の付属物について、領域間の空間的関係が“隣接関係（adjacency relationship）”である場合、対象人物の行動は例えば“握っている（grasping）”であると推察できる。また、ビデオのセグメント内の人物画像サーチにおいて、対象人物とその対象人物の付属物間の空間的関係は一般にそれほど変動しない。それ故、検出された領域間の空間的関係を有するビデオのセグメント内の対象人物は類似しているかどうかのみを判定しても良い。例えば、ビデオのセグメント内のスーツケースを引っ張っている対象人物が類似しているかどうかのみが判定される。

本発明の第１の実施形態に従えば、画像内の個々の特徴点間の空間的関係はオブジェクト領域が検出されるときに利用されるので、これら空間的関係はオブジェクトの領域検出を規制することになり、それ故、関連するオブジェクトをより良く検出することを可能にする。関連するオブジェクトは一般に監視プロセス中に人物の監視に有用であるので、オブジェクト検出の再現率だけでなく、人を監視する効果も本発明に従って改善することができる。

本発明の第１の実施形態において、オブジェクトの検出操作は１つの画像内で実行される。オブジェクト間の空間的関係は、一般に、短い継続時間内では大きくは変化しないので、本発明はビデオのセグメント内のオブジェクト検出を実行するためにも利用できる。図８は本発明の第２の実施形態におけるオブジェクト検出装置８００の構成を示すブロック図である。ここで、図８に示される幾つか、もしくは全てのモジュールは、専用のハードウェアで実現しても良い。図８に示すように、オブジェクト検出装置８００は、特徴抽出部８１０、候補領域検出部８２０、空間的関係判定部８３０及び順位判定部８４０を含む。

まず、図１に示される入力デバイス１５０は、特定の電子デバイス（例えばビデオカメラ等）から出力される、またはユーザか入力されたビデオのセグメントを受信する。次に、入力デバイス１５０は、受信したビデオを、システムバス１８０を介して、オブジェクト検出装置８００に転送する。

次に、図８に示されるように、特徴抽出部８１０は、受信したビデオ内の現ビデオフレームから特徴を抽出する。特徴抽出部８１０の動作は、図２に示した抽出部２１０のそれと同じであるので、その説明はここでは繰り返さない。

候補領域検出部８２０は、特徴抽出部８１０によって抽出された特徴に基づき、現ビデオフレームからオブジェクトの候補領域を検出する。候補領域検出部８２０の動作は、図３に示した候補領域検出部２３１と同じなので、その説明はここでは説明しない。

空間的関係判定部８３０は、現ビデオフレームに対するそれ以前のフレームの検出結果に基づき、候補領域検出部８２０により検出した候補領域間の空間的関係を判定する。ここでは、現ビデオフレームに対するそれ以前のフレームの検出結果は、本発明の第１の実施形態に従って得ても良い。１つの実施形態では、例えば前ビデオフレームのいずれかから検出したオブジェクトの領域間の空間的関係は、現ビデオフレーム内の候補領域間の空間的関係であるとする。他の実施形態では、例えば、前ビデオフレームのＮ個のビデオフレームから検出されたオブジェクトの領域間の空間的関係の広範囲な結果（例えば、重み付けまたは平均化などの数学的演算の実行で得られる）が、現ビデオフレーム内の候補領域間の空間的関係となっているとする。

順位判定部８４０は、空間的関係判定部８３０で判定された候補領域間の空間的関係に基づき、候補領域検出部８２０で検出した候補領域の順位を判定し、
順位判定後の候補領域を、オブジェクトの領域とする。

オブジェクトの領域が、現ビデオフレームから検出されると、順位判定部８４０は、予め定義された閾値以上のスコアを持つオブジェクトの領域を最終的な検出結果とする、もしくは、上位Ｎ個にランク付けられた領域を最終的な検出結果とし、図１のシステムバス１８０を介して出力デバイス１６０にその最終的な検出結果を転送し、現ビデオフレームの最終的に検出されたオブジェクトの領域（例えば領域の位置、スコア、特徴）をユーザに向けて表示、もしくは、人物認識処理（例えば人物属性認識、人物マッチング、人物画像検索、人物の振る舞い／行動等の認識もしくは解析等）などの後続処理にオブジェクトの検出領域を出力する。

本発明の第２実施形態の応用例として、図８に示したオブジェクト検出装置８００は、ビデオ内の人物を追跡するために利用しても良い。具体的には、ビデオ内の現ビデオフレームにおいて、現ビデオフレーム内の人物が、一般的に使われる人物追跡装置を用いて首尾よく追跡できる場合、現ビデオフレーム内の人物は、一般的に使われる人物追跡装置を用いて検出される。また、現ビデオフレーム内の人物が一般的に使われる人物追跡装置を用いて首尾よく追跡できない場合、現ビデオフレーム中の人物を、図８に示すオブジェクト検出装置８００を用いて検出しても良い。これにより、ビデオ全体における人物の追跡が達成される。

［モデル生成］
本発明の第１の実施形態にて説明したように、本発明に適用可能なモデル（すなわち、事前生成モデル）は、空間的関係がラベル付けされたサンプルの学習にしたがって事前学習／事前生成される。ここで、上記のように、本発明の処理速度を向上させるため、例えば、図５に示すように、本発明に適用する事前生成モデルは、例えば、特徴抽出する部分、空間的関係を判定する部分、及び、領域／候補領域を検出する部分を含む。本発明において、事前学習モデルは、ディープラーニング法（例えば、ニューラルネットワーク法）を用いて、空間的関係がラベル付けされたサンプルのトレーニングに基づき生成されても良い。ここで、本発明における事前生成モデルの各部分は、複数レイヤのネットワークで構成され、例えば、特徴を抽出する部分はＮレイヤネットワークで構成され、空間的関係を判定する部分はＭレイヤネットワークで構成され、領域／候補領域を検出する部分はＴレイヤネットワークで構成されても良い。ここで、Ｎ，Ｍ，Ｔは自然数であって、それらが示す値は同じでも異なっても良い。

１つの実施形態では、事前生成モデルの生成に係る時間を短くするため、モデル内の、特徴を抽出する部分、空間的関係を判定する部分、及び、領域／候補領域を検出する部分は、バックプロパゲーション手段によって同時に更新される。図９は、本発明に適用可能なモデルを生成する生成法を概略的に示すフローチャート９００である。図９に示されるフローチャート９００にて、本発明に適用できるモデルを生成するニューラルネットワークを利用する例を使って説明する。しかし、これに限定される必要がないのは明らかである。ここで、図９に従った生成方法は、図１に示されるハードウェア構成１００によって実行することもできる。

図９に示すように、まず、図１に示されるＣＰＵ１１０は、初期のニューラルネットワークと、入力デバイス１５０によって事前にセットされている複数のトレーニングサンプルを取得する。ここで、各トレーニングサンプルは空間的関係、領域位置、及び、オブジェクトカテゴリでラベル付けされているものである。そして、トレーニングサンプルにてラベル付けされた空間的関係は、例えば、“空間的関係の有り／無し”、“どのカテゴリに空間的関係が属しているか”等である。

次に、ステップＳ９１０にて、一方で、ＣＰＵ１１０は、トレーニングサンプルを、特徴を抽出するための部分の現ニューラルネットワーク（例えば、初期ニューラルネットワーク）、および、空間的関係を判定する部分の現ニューラルネットワーク（初期ニューラルネットワーク）に通過させ、トレーニングサンプル中に存在する空間的関係を得る。一方、ＣＰＵ１１０は、得られた空間的関係とサンプル空間的関係間の損失（例えば第１の損失Ｌｏｓｓ１）を判定する。ここでサンプル空間的関係は、トレーニングサンプルにおいてラベル付けされた空間的関係に従って得ても良い。第１の損失Ｌｏｓｓ１は現ニューラルネットワークを用いて得られる予測空間的関係の空間的関係値と、サンプル空間的関係の空間関係値（すなわち、実空間的関係値）との誤差を表し、ここで誤差は例えば距離により測定される。例えば、第１の損失Ｌｏｓｓ１は次式（１）によって得ることができる。

ここで、ｊはトレーニングサンプルにおけるオブジェクトが属する空間的関係カテゴリの番号を示し、Ｃは空間的関係カテゴリの最大数を表し、ｙ_jは空間的関係カテゴリｊのオブジェクトの実空間的関係値を表し、Ｐ_jは空間的関係カテゴリｊのオブジェクトの予測空間的カテゴリ値を示す。

ステップＳ９２０にて、一方、ＣＰＵ１１０は、トレーニングサンプルを全ての現ニューラルネットワーク（例えば初期ニューラルネットワーク）に通過させ、オブジェクトの領域／候領域位置と、オブジェクトのオブジェクトカテゴリを得る。すなわち、ＣＰＵ１１０は、トレーニングサンプルを、特徴抽出する部分の現ニューラルネットワーク、空間的関係を判定する部分の現ニューラルネットワーク、及び、オブジェクトの領域／候補領域を検出するための部分のニューラルネットワークに通過させて、オブジェクトの領域／候補領域位置と、オブジェクトのオブジェクトカテゴリを得る。他方、得られたオブジェクトの領域／候補領域位置について、ＣＰＵ１１０は、得られたオブジェクトの領域／候補領域の位置とサンプル領域位置間の損失（例えば第２の損失Ｌｏｓｓ２）を判定する。ここで、サンプル領域位置は、トレーニングサンプルにラベル付けされた領域の位置に従って得ることができる。ここで、第２の損失Ｌｏｓｓ２は、現ニューラルネットワークを用いて得られる予測領域／候補領域位置とサンプル領域位置との間の誤差を表し、その誤差は距離によって計測される。例えば、第２の損失Ｌｏｓｓ２は次式(２)及び（３）により得られる。

ここで、ｓｍｏｏｔｈ_L1(x)は領域／候補領域位置とオブジェクトの実領域位置との間の差を表し、ｘはオブジェクトの領域／候補領域の位置の左上隅の横座標を表し、ｙはオブジェクトの領域／候補領域の位置の左上隅の縦座標を表し、ｗはオブジェクトの領域／候補領域の幅を表し、ｈはオブジェクトの領域／候補領域の高さを表し、ｔⁿ _iはオブジェクトカテゴリがｎのオブジェクトの領域／候補領域位置を表し、ｖⁿ _iはオブジェクトカテゴリがｎのオブジェクトの実領域位置を表す。

得られたオブジェクトのオブジェクトカテゴリについて、ＣＰＵ１１９は得られたオブジェクトのオブジェクトカテゴリとサンプルオブジェクトカテゴリ間の損失（例えば第２の損失Ｌｏｓｓ３）を判定する。ここで、サンプルオブジェクトカテゴリはトレーニングサンプルにてラベル付けされたオブジェクトカテゴリに従って得ることができる。また、この第３の損失Ｌｏｓｓ３は、現ニューラルネットワークを用いて得られる予測オブジェクトカテゴリと、サンプルオブジェクトカテゴリ（すなわち、実オブジェクトカテゴリ）との誤差を表し、この誤差は例えば距離によって計測できる。例えば第３の損失Ｌｏｓｓ３は次式（４）によって得られる。

ここで、ｍはトレーニングサンプルが属するオブジェクトのオブジェクトカテゴリの番号を表し、Ｍはトレーニングサンプルが属するオブジェクトのオブジェクトカテゴリの最大数を表し、ｙ_mはオブジェクトカテゴリｍのオブジェクトの実オブジェクトカテゴリを表し、ｐ_mはオブジェクトカテゴリｍのオブジェクトの予測オブジェクトカテゴリを表す。

図９に戻って、ステップＳ９３０にて、ＣＰＵ１１０は全ての現ニューラルネットワークが判定によって得られる全損失（すなわち、第１の損失Ｌｏｓｓ１、第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３）に基づき、所定の条件を満たすかどうかを判定する。例えば、３つの損失の合計もしは重みづけ合計が閾値（例えばＴＨ２）と比較され、３つの損失の合計／重みづけ合計がＴＨ２以下の場合は、全ての現ニューラルネットワークが所定の条件を満たすと判定され、最終的なニューラルネットワーク（すなわち、事前生成モデル）として出力される。ここで最終的なニューラルネットワークは、例えば、図２乃至図８を参照して説明したオブジェクト検出のために、図２に示した記憶デバイス２４０に出力される。３つの損失の合計／重みづけ合計がＴＨ２より大きい場合、全ての現ニューラルネットワークは所定の条件を満たしていないと判定され、生成処理はステップＳ９４０に進む。

ステップＳ９４０にて、ＣＰＵ１１０は第１の損失Ｌｏｓｓ１に基づき空間的半径を判定する部分の現ニューラルネットワークの各レイヤのパラメータを更新する。ここで各レイヤのパラメータは、例えば、現ニューラルネットワークの各コンボリューションレイヤの重みである。１つの例では、各レイヤのパラメータは、例えば確率的勾配降下法（stochastic gradient descent method）を用いることによって、第１の損失Ｌｏｓｓ１に基づいて更新される。

ステップＳ９５０にて、ＣＰＵ１１０は、第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３に基づき、オブジェクトの領域／候補領域を検出する部分の現ニューラルネットワークにおける各レイヤのパラメータを更新する。ここでの各レイヤのパラメータも、例えば、現ニューラルネットワークにおけるコンボリューションレイヤの重みである。１つの実施形態では、各レイヤのパラメータは、例えば確率的勾配降下法を用い、第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３に基づき更新される。

ステップＳ９６０にて、ＣＰＵ１１０は、第１の損失Ｌｏｓｓ１、第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３に基づき、特徴抽出する部分の現ニューラルネットワークの各レイヤのパラメータを更新する。ここで、各レイヤのパラメータは、例えば現ニューラルネットワークにおける各コンボリューションレイヤにおける重みでもある。１つの例において、各レイヤのパラメータは、また、確率的勾配降下法を用いて、第１の損失Ｌｏｓｓ１．第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３に基づいて更新される。その後、生成処理は再度ステップＳ９１０に進む。

図９に示されるフローチャートにおいては、第１の損失Ｌｏｓｓ１、第２の損失Ｌｏｓｓ２及び第３の損失Ｌｏｓｓ３の３つの損失の合計／重み合計が所定の条件を満たすかどうかの条件は、現ニューラルネットワークの更新を停止する条件とした。しかし、これに限定される必要がないのは明らかである。例えば、ステップＳ９３０を省略するものの、現ニューラルネットワークへの更新回数が所定回数に達した後、対応する更新動作を停止する。

上記のすべてのユニットは、本開示に記載の処理を実施するための例示的および／または好ましいモジュールである。これらのユニットは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、デジタル信号プロセッサ、特定用途向け集積回路などのようなハードウェアユニット、および／またはコンピュータ可読プログラムのようなソフトウェアモジュールであり得る。各ステップを実施するためのユニットについては、上記では詳細に説明されていない。しかしながら、特定のプロセスを実行するステップがあるとき、同じプロセスを実施するための対応する機能モジュールまたはユニット（ハードウェアおよび／またはソフトウェアによって実施される）であってもよい。説明によるステップのすべての組み合わせの技術的解決策およびこれらのステップに対応するユニットは、それらによって構成される技術的解決策が完全で適用可能である限り、本願の開示内容に含まれる。

本発明の方法、及び、装置は複数のやり方で実施することができる。例えば、本発明の方法および装置は、ソフトウェア、ハードウェア、ファームウェア、またはそれらの任意の組み合わせによって実施しても良い。本方法のステップの上記の順序は単なる例示であることを意図しており、本発明の方法のステップは、特に明記しない限り、上記で具体的に説明した順序に限定されない。さらに、いくつかの実施形態において、本発明はまた、本発明による方法を実施するためのマシン可読命令を含む記録媒体に記録されたプログラムとして実施することもできる。したがって、本発明は、本発明による方法を実施するためのプログラムを記録した記録媒体も包含するものである。

本発明のいくつかの特定の実施形態を例示で詳述したが、上記の実施形態は単なる例示的であり、本発明の範囲を限定するものではないことを当業者は理解するべきである。当業者には当然のことながら、本発明の範囲および精神から逸脱することなく、上記の実施形態を修正することができる。本発明の範囲は、付随する特許請求の範囲によって規定されるものである。

Claims

オブジェクト検出装置であって、
画像から特徴を抽出する抽出手段と、
抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定手段と、
判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出手段と、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトである
を有することを特徴とするオブジェクト検出装置。
前記判定手段は、事前生成モデルを用いて、前記抽出された特徴に基づき、前記特徴点間の空間的関係とその空間的関係値とを判定することを特徴とする請求項１に記載のオブジェクト検出装置。
前記検出手段は、
抽出した特徴に基づき画像からオブジェクトの候補領域を検出する候補領域検出手段と、
判定した空間的関係に基づいて前記候補領域の順位を判定し、当該順位判定後の候補領域を前記オブジェクトの領域とする順位判定手段と
を有することを特徴とする請求項１に記載のオブジェクト検出装置。
前記判定手段は、事前生成モデルを用いて、抽出された特徴に基づく前記特徴点間の空間的関係及びその空間的関係値を判定することを特徴とする請求項３に記載のオブジェクト検出装置。
前記順位判定手段は、前記候補領域の間の空間的関係の空間的関係値に基づき、前記候補領域のスコアを更新することを特徴とする請求項４に記載のオブジェクト検出装置。
任意の２つの候補領域における、当該２つの候補猟奇間の空間的関係は、その２つの候補領域に含まれる特徴点間の相互の空間的関係に基づいて判定されることを特徴とする請求項５に記載のオブジェクト検出装置。
任意の２つの候補領域における、当該２つの候補領域間の空間的関係は、更に、
前記２つの候補領域における少なくとも１つの対象オブジェクトの位置情報およびカテゴリ情報、
前記２つの候補領域内の少なくとも１つの対象オブジェクトの結合点情報、
前記画像の背景情報、
の少なくとも１つに基づき判定されることを特徴とする請求項６に記載のオブジェクト検出装置。
２つの候補領域間の空間的関係は当該２つの候補領域間の空間的拘束を表し、
前記空間的拘束は、少なくとも
前記２つの候補領域間の相対的な位置関係、
前記２つの候補領域間の位相関係、
前記２つの候補領域間の相対形状関係
の１つを少なくとも含むことを特徴とする請求項５に記載のオブジェクト検出装置。
前記抽出手段は、事前生成モデルを用いて、前記画像から特徴を抽出し、
前記検出手段は、前記事前生成モデルを用いて、前記画像からオブジェクトの領域を検出する
ことを特徴とする請求項２又は４に記載のオブジェクト検出装置。
前記事前生成モデルは、ディープラーニング法を用い、空間的関係がラベル付けされたトレーニングサンプルに基づいて生成されることを特徴とする請求項９に記載のオブジェクト検出装置。
前記事前生成モデルは、特徴を抽出するための部分、空間的関係を判定するための部分、オブジェクトの領域を検出するための部分の少なくとも３つの部分を有し、
前記事前生成モデルの生成処理にて、特徴を抽出する現在の部分、空間的関係を判定するための現在の部分、オブジェクトの領域を検出するための現在の部分が、バックプロパゲーションの手段により同時に更新される
ことを特徴とする請求項１０に記載のオブジェクト検出装置。
オブジェクト検出方法であって、
画像から特徴を抽出する抽出ステップと、
抽出した特徴に基づき前記画像における個別の特徴点間の空間的関係を判定する判定ステップと、
判定した空間的関係に基づき、前記画像内のオブジェクトの領域を検出する検出ステップと、ここで前記オブジェクトは前記画像内の関連付けられたオブジェクトである
を有することを特徴とするオブジェクト検出方法。
前記判定ステップでは、事前生成モデルを用いて、前記抽出された特徴に基づき、前記特徴点間の空間的関係とその空間的関係値とを判定されることを特徴とする請求項１２に記載のオブジェクト検出方法。
前記検出ステップは、
抽出した特徴に基づき画像からオブジェクトの候補領域を検出する候補領域検出ステップと、
判定した空間的関係に基づいて前記候補領域の順位を判定し、当該順位判定後の候補領域を前記オブジェクトの領域とする順位判定ステップと
を有することを特徴とする請求項１２に記載のオブジェクト検出方法。
前記判定ステップでは、事前生成モデルを用いて、抽出された特徴に基づく前記特徴点間の空間的関係及びその空間的関係値が判定されることを特徴とする請求項１４に記載のオブジェクト検出方法。
前記順位判定ステップでは、前記候補領域の間の空間的関係の空間的関係値に基づき、前記候補領域のスコアが更新されることを特徴とする請求項１５に記載のオブジェクト検出方法。
任意の２つの候補領域における、当該２つの候補猟奇間の空間的関係は、その２つの候補領域に含まれる特徴点間の相互の空間的関係に基づいて判定されることを特徴とする請求項１６に記載のオブジェクト検出方法。
２つの候補領域間の空間的関係はその２つの候補領域間の空間的拘束を表し、
前記空間的拘束は、少なくとも
前記２つの候補領域間の相対的な位置関係、
前記２つの候補領域間の位相関係、
前記２つの候補領域間の相対形状関係
の１つを少なくとも含むことを特徴とする請求項１６に記載のオブジェクト検出方法。
前記抽出ステップでは、事前生成モデルを用いて、前記特徴が前記画像からを抽出され、
前記検出ステップでは、前記事前生成モデルを用いて、前記オブジェクトの領域が前記画像から検出される
ことを特徴とする請求項１３又は１５に記載のオブジェクト検出方法。
ビデオ内の現ビデオフレームから特徴を抽出する特徴抽出手段と、
抽出した特徴に基づき、前記現ビデオフレームからオブジェクトの候補領域を検出する候補領域検出手段と、
前記現ビデオフレームの前ビデオフレームの検出結果に基づき、前記候補領域の間の空間的関係を判定する空間的関係判定手段と、
前記候補領域間の空間的関係に基づき、前記候補領域の順位を判定し、当該順位の判定後の候補領域を、前記オブジェクトの領域する順位判定手段とを有し、
前記現ビデオフレームの前ビデオフレームの検出結果は、請求項１乃至１１のいずれか１つのオブジェクト検出装置を用いて得られることを特徴とするオブジェクト検出装置。
コンピュータが実行したとき、請求項１２乃至１９のいずれか１項に記載のオブジェクト検出方法を実行される命令を記憶する記憶媒体。