JP2023512359A

JP2023512359A - 関連対象検出方法、及び装置

Info

Publication number: JP2023512359A
Application number: JP2021536266A
Authority: JP
Inventors: 学森 ▲張▼; 柏▲潤▼ 王; 春▲亞▼ ▲劉▼; 景▲煥▼ ▲陳▼
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-29
Filing date: 2021-04-28
Publication date: 2023-03-27
Also published as: CN113544701B; US20220207261A1; KR20220098310A; AU2021203870A1; CN113544701A; KR102580281B1

Abstract

本発明は、関連対象検出方法、及び装置を提供する。検出方法は、検出待ち画像内から、少なくとも２つの目標対象を含むマッチング対象組を、少なくとも１つ検出して得ること、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得すること、各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定すること、を含む。本発明の検出方法は、関連対象の検出精度を向上させる。【選択図】図１

Description

本発明は、コンピュータ視覚技術の分野に関し、具体的には、関連対象検出方法、及び装置に関する。

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年１２月２９日であり、出願番号が１０２０２０１３１６９Ｑであり、発明名称が「関連対象検出方法、及び装置」であるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。

目標検出は、インテリジェントなビデオ分析の重要な部分であり、たとえば、ビデオフレームまたは場面画像内の人体や人顔を検出する。関連技術では、ＦａｓｔｅｒＲＣＮＮ（Ｒｅｇｉｏｎ―ＣＮＮ、領域畳み込みニューラルネットワーク）などの目標検出器を使用してビデオフレームまたは場面画像内の目標検出フレームを取得し、さらに目標検出を実現することができる。

しかしながら、密集した場面では、異なる目標間が互いに遮蔽される可能性がある。人々が比較的密集している場面を例にとると、異なる人の間で体の部位が遮蔽される可能性があり、このような場合に、目標検出器は精度が高い場面の検出要件を満たすことができない。

本発明の実施形態は、関連対象検出方法、装置、電子デバイス、及び記録媒体を提供する。

第１態様によると、本発明の実施形態は、関連対象検出方法を提供し、前記方法は、検出待ち画像内から、少なくとも２つの目標対象を含むマッチング対象組を、少なくとも１つ検出して得ること、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得すること、各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定すること、を含む。

いくつかの実施形態において、検出待ち画像内からマッチング対象組を少なくとも１つ検出して得ることは、前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得ること、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも１つ得ること、を含む。

いくつかの実施形態において、各前記マッチング対象組中の各前記目標対象の視覚情報を取得することは、前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得ることを含む。

いくつかの実施形態において、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得することは、前記検出待ち画像内から各前記目標対象の検出フレームを検出して得ること、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成すること、を含む。

いくつかの実施形態において、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成することは、前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成すること、前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定すること、同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を得ること、を含む。

いくつかの実施形態において、前記補助バウンディングフレームは、前記マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである。

いくつかの実施形態において、各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、各マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得ること、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定すること、を含む。

いくつかの実施形態において、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも２つの目標対象同士の間の関連度スコアを得ること、同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定すること、前記目標マッチング対象組中の前記少なくとも２つの目標対象を関連目標対象として確定すること、を含む。

いくつかの実施形態において、前記目標対象が人体部位である場合、前記各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、同じマッチング対象組中の各人体部位が１つの人体に属するか否かを確定することを含む。

いくつかの実施形態において、前記方法は、サンプル画像セットを取得することであって、前記サンプル画像セットは、少なくとも１つのサンプル画像を含み、各前記サンプル画像は、少なくとも１つのサンプルマッチング対象組および前記サンプルマッチング対象組に対応するラベル情報を含み、各前記サンプルマッチング対象組は、少なくとも２つのサンプル目標対象を含み、前記ラベル情報は、前記サンプルマッチング対象組中の各サンプル目標対象の関連結果を示すこと、トレーニング待ちの関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、前記サンプル画像内から前記サンプルマッチング対象組を検出して得ること、トレーニング待ちの対象検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の各前記サンプル目標対象の視覚情報を得、トレーニング待ちの前記関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の前記少なくとも２つのサンプル目標対象の空間情報を得ること、トレーニング待ちの前記関連検出ネットワークを利用して、各前記サンプルマッチング対象組中の前記少なくとも２つのサンプル目標対象の前記視覚情報および前記空間情報に基づいて、各前記サンプルマッチング対象組の関連性検出結果を得ること、各前記サンプルマッチング対象組の前記関連性検出結果と対応するラベル情報との間の誤差を確定し、前記誤差が収束するまで、前記誤差に基づいて前記関連検出ネットワークおよび前記対象検出ネットワークの中の少なくとも１つのネットワークパラメータを調整すること、をさらに含む。

第２態様によると、本発明の実施形態は、関連対象検出装置を提供し、当該装置は、検出待ち画像内から、少なくとも２つの目標対象を含むマッチング対象組を、少なくとも１つ検出して得るための検出モジュールと、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得するための取得モジュールと、各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定するための確定モジュールと、を備える。

いくつかの実施形態において、前記検出モジュールは、前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得るための検出サブモジュールと、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも１つ得るための組合せサブモジュールと、を備える。

いくつかの実施形態において、前記取得モジュールは、さらに、前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得る。

いくつかの実施形態において、前記取得モジュールは、さらに、前記検出待ち画像内から各前記目標対象の検出フレームを検出して得、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成する。

いくつかの実施形態において、前記取得モジュールは、さらに、前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成し、前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を得る。

いくつかの実施形態において、前記確定モジュールは、各マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュールと、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定するための確定サブモジュールと、を備える。

いくつかの実施形態において、前記確定サブモジュールは、さらに、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも２つの目標対象同士の間の関連度スコアを得、同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、前記目標マッチング対象組中の前記少なくとも２つの目標対象を関連目標対象として確定する。

いくつかの実施形態において、前記目標対象が人体部位である場合、前記確定モジュールは、さらに、同じ前記マッチング対象組中の各人体部位が１つの人体に属するか否かを確定する。

第３態様によると、本発明の実施形態は、電子デバイスを提供し、当該電子デバイスは、プロセッサと、前記プロセッサと通信可能に接続され、前記プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、を備え、前記コンピュータ命令が前記プロセッサによってアクセスされるときに、前記プロセッサが第１態様の任意の実施形態に記載の方法を実行するようにする。

第４態様によると、本発明の実施形態は、コンピュータ可読命令が格納されている記録媒体を提供し、前記コンピュータ可読命令は、コンピュータが第１態様の任意の実施形態に記載の方法を実行するようにする。

第５態様によると、本発明の実施形態は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子デバイスで運行されるときに、前記電子デバイスのプロセッサが第１態様の任意の実施形態に記載の方法を実行するようにする。

本発明の実施形態の関連対象検出方法によると、検出待ち画像内から少なくとも２つの目標対象を含むマッチング対象組を少なくとも１つ検出して得、各マッチング対象組の各目標対象の視覚情報および各マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得することによって、視覚情報および空間情報に基づいて各マッチング対象組中の各目標対象同士の間が関連目標対象であるか否かを確定する。同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助することによって、複雑な場面での目標検出精度を向上させることができ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。

以下、本発明の具体的な実施形態の技術的解決策をより明確に説明するために、具体的な実施形態の説明に使用する必要がある図面を簡単に紹介する。明らかに、以下の説明における図面は、本発明のいくつかの実施形態であり、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明のいくつかの実施形態に係る関連対象検出方法のフローチャートである。本発明のいくつかの実施形態に係るマッチング対象組を検出する方法のフローチャートである。本発明のいくつかの実施形態に係る視覚情報抽出方法のフローチャートである。本発明のいくつかの実施形態に係る検出ネットワークの構成を示す模式図である。本発明のいくつかの実施形態に係る関連対象検出方法の原理の模式図である。本発明のいくつかの実施形態に係る関連検出ネットワークの模式図である。本発明のいくつかの実施形態に係るマッチング対象組中の目標対象が関連しているか否かを確定する方法のフローチャートである。本発明のいくつかの実施形態に係る関連対象の検出結果の視覚的出力の模式図である。本発明のいくつかの実施形態に係る検出関連対象のニューラルネットワークのトレーニングのフローの模式図である。本発明のいくつかの実施形態に係る関連対象検出装置の構成のブロック図である。本発明のいくつかの実施形態に係る関連対象検出装置の検出モジュールの構成のブロック図である。本発明のいくつかの実施形態に係る関連対象検出装置の確定モジュールの構成のブロック図である。本発明の関連対象検出方法の実装に適したコンピュータシステムの構成図である。

以下、図面を参照して本発明の技術的解決策を明確かつ完全に説明する。明らかに、説明される実施形態は、すべての実施形態ではなく、本発明の一部の実施形態に過ぎない。本発明の実施形態に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本開示の保護範囲内に入るはずである。なお、以下に説明される本発明の異なる実施形態で言及される技術的特徴は、互いに矛盾しない限り、互いに組み合わせることができる。

関連対象の検出は、インテリジェントなビデオ分析にとって重要な研究意義を持っている。人体検出を例にとると、人がより多い複雑な場面で、人々の間が互いに遮蔽されるため、単一の人体に対する検出方法を採用すると、その誤検出率がより高く、要件を満たすのは困難である。関連対象の検出は、「人顔―人体関連」を利用してマッチング対象組を確定し、同じマッチング対象組に含まれた人顔および人体が１人に属するか否かを確定することによって、目標対象（すなわち、人顔および人体）の検出を実現し、複雑な場面での目標検出精度を向上させることができる。

目標対象の検出は、ＦａｓｔｅｒＲＣＮＮ（Ｒｅｇｉｏｎ―ＣＮＮ、領域畳み込みニューラルネットワーク）などの目標検出器を採用してビデオフレームまたは場面の画像内の人顔および人体の検出フレームを取得することができ、さらに、人顔および人体の視覚特徴に基づいて分類器をトレーニングし、分類器を使用して予測関連結果を得ることができる。類似な方法では関連検出精度に限界があり、たとえば、マルチプレイヤーゲーム場面などの高い精度の検出場面の場合、場面内の人物が部分的に遮蔽されることが多いだけでなく、ユーザの人顔、人体、手、さらにはゲーム小道具が関連しているか否かを確定する必要があり、このようにしてどのユーザが関連動作をとったかを認識し、一旦関連に失敗されると大きな損失さえ引き起こす。したがって、関連技術中の関連検出精度は、精度が高い場面の使用要求を満たすのが困難である。

本発明の実施形態は、関連対象検出方法、装置、電子デバイス、及び記録媒体を提供して、関連対象の検出精度を向上させる。

第１態様によると、本発明の実施形態は、関連対象検出方法を提供する。本発明の実施形態の検出方法の実行主体は、端末デバイス、サーバ、または他の処理デバイスであり得、たとえば端末デバイスは、ユーザデバイス、モバイルデバイス、ユーザ端末、携帯電話、車載デバイス、パーソナルデジタルアシスタント、ハンドヘルドデバイス、コンピューティングデバイス、ウェアラブルデバイスなどであり得る。いくつかの実施形態において、当該検出方法は、さらに、プロセッサによってメモリに格納されたコンピュータ可読命令を呼び出す方法によって実装され得、本発明はこれに対して限定しない。

図１は、本発明のいくつかの実施形態に係る関連対象検出方法を示し、以下、図１を参照して本発明の方法を説明する。

図１に示すように、いくつかの実施形態において、本発明の関連対象検出方法は、以下のステップを含む。

Ｓ１１０において、検出待ち画像内から少なくとも２つの目標対象を含むマッチング対象組を少なくとも１つ検出して得る。

具体的に言えば、検出待ち画像は、１つの自然的な場面の画像であり得、該画像から所定の関連目標対象が検出しようとする。本発明に記載の「関連目標対象」とは、我々が注目している場面において、関連性を持つ２つまたはもっと多い目標対象を指すことが理解できる。たとえば、人体検出での人顔と人体との関連の例をとると、検出待ち画像内には複数の人顔および複数の人体が含まれており、１人に属する「人顔」および「人体」を関連目標対象と呼ぶことができる。また、たとえば、複数人の乗馬のエンターテインメント場面において、検出待ち画像内には、複数の人体および複数の馬が含まれており、乗り関係を持つ「人体」および「馬」を関連目標対象と呼ぶことができる。当業者は、これに対して理解でき、本発明は繰り返して説明しない。

検出待ち画像は、たとえばカメラなど画像収集デバイスを利用して収集して得ることができる。具体的に言えば、検出待ち画像は、画像収集デバイスによって撮影された単一のフレームの画像であり得、さらに、画像収集デバイスによって撮影されたビデオストリーム中のフレームの画像を含み得、本発明はこれに対して限定しない。

本発明の実施形態において、検出待ち画像内から少なくとも２つの目標対象を含むマッチング対象組を少なくとも１つ検出して得ることができる。前記マッチング対象組とは、関連しているか否かを確認する必要がある少なくとも２つの目標対象から構成されたセットを指す。

図２に示すように、いくつかの実施形態において、検出待ち画像内からマッチング対象組を少なくとも１つ検出して得ることは、以下のステップを含み得る。

Ｓ１１１において、検出待ち画像内から各目標対象、および、各目標対象の対象タイプを検出して得る。

Ｓ１１２において、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の対象タイプ中の各目標対象と組み合わせて、少なくとも同じマッチング対象組を得る。

１つの例において、「人顔―人体」の関連検出の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人顔タイプ」および「人体タイプ」であり、「人顔タイプ」の目標対象はｍ個の人顔を含み、「人体タイプ」の目標対象はｎ個の人体を含む。ｍ個の人顔の中の各々の人顔に対して、それぞれｎ個の人体と２つずつ組み合わせて、合計ｍ＊ｎ個の人顔人体ペアを得る。その中で、「人顔」および「人体」が検出して得られた目標対象であり、人顔および人体を２つずつ組み合わせて得たｍ＊ｎ個の「人顔人体ペア」が前記マッチング対象組であり、その中で、ｍおよびｎは、正の整数である。

もう１つの例において、マルチプレイヤーゲーム場面において、各人には、乗馬のエンターテインメントの場面での馬、卓上ゲーム場面でのゲーム小道具などの、関連物体がさらに関連され、本発明の方法は、「人体―物体」の関連検出にも同様に適用される。乗馬のエンターテインメントの場面の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人体タイプ」および「物体タイプ」であり、「人体タイプ」の目標対象はｐ個の人体を含み、「物体タイプ」の目標対象はｑ個の馬を含む。ｐ個の人体の中の各々の人体に対して、それぞれｑ個の馬と２つずつ組み合わせて、合計ｐ＊ｑ個の人体物体ペアを得る。その中で、「人体」および「物体」が検出して得られた前記目標対象であり、人体および馬を２つずつ組み合わせて得たｐ＊ｑ個の「人体物体ペア」が前記マッチング対象組であり、その中で、ｐおよびｑは、正の整数である。

別の１つの例において、「人手―人顔―人体」の関連検出の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人手タイプ」、「人顔タイプ」、および、「人体タイプ」であり、ここで、各対象タイプは、いずれも、当該タイプに属する少なくとも１つの目標対象を含む。各対象タイプ中の各目標対象をそれぞれ他の２つの対象タイプ中の目標対象と３つずつ組み合わせて、すなわち、１つの人手、１つの人顔、および、１つの人体を３つずつ組み合わせて得た複数の「人手人顔人体組」が前記マッチング対象組である。例を挙げて言えば、人手タイプの目標対象は、ｋ個の人手を含み、人顔タイプの目標対象は、ｍ個の人顔を含み、人体タイプの目標対象は、ｎ個の人体を含む。ｋ個の人手の中の各々の人手に対して、それぞれｍ個の人顔およびｎ個の人体と３つずつ組み合わせて、合計ｋ＊ｍ＊ｎ個の人手人顔人体組を得、その中で、ｋ、ｍおよびｎは、正の整数である。

上記の例から理解できるように、本発明の実施形態においては、マッチング対象組中の目標対象の数を限定する必要がなく、目標対象のタイプを限定する必要もない。マッチング対象組には、少なくとも２つの目標対象が含まれ得、たとえば２個、３個、４個、または、もっと多い目標対象が含まれ得る。目標対象は、人体または各人体部位であり得、さらに人体と関連される物体であってもよいし、場面での人体と関連がない実体であってもよく、本発明はこれに対して限定しない。

１つの例において、関連検出ネットワークを利用して検出待ち画像に対して処理を実行して、検出待ち画像内から少なくとも同じマッチング対象組を得る。詳細については後述し、ここでは一旦省略する。

Ｓ１２０において、各マッチング対象組中の各目標対象の視覚情報および各マッチング対象組中の少なくとも２つの目標対象の空間情報を取得する。

具体的に言えば、視覚情報とは、画像内の各目標対象の視覚的特徴情報を意味し、一般的には画像のピクセル値に基づいて得られる画像特徴である。たとえば、検出待ち画像に対して視覚特徴抽出を実行して、画像内の人顔、人手、人体、または、物体の画像特徴情報を得る。空間情報は、マッチング対象組中の目標対象の空間的位置における特徴情報および／またはマッチング対象組中の目標対象の姿勢情報を含み得る。または、空間情報は、マッチング対象組中の各目標対象同士の間の空間的位置関係情報または相対姿勢情報を含み得、たとえば、画像内の人顔と人体、人顔と人手、人体と物体などの空間相対的位置特徴情報および／または相対向け情報などを含み得る。

１つの例において、検出待ち画像内の各目標対象が位置している領域に対して視覚特徴抽出を実行し、たとえば、特徴点を抽出し、特徴点のピクセル値を目標対象の視覚特徴に変換する。各目標対象の境界の画像における位置に基づいて目標対象の位置特徴情報を生成し、目標対象の標準姿勢モデルに従って各目標対象の姿勢を分析して、目標対象の姿勢情報を得ることによって、目標対象の空間情報を得ることができる。オプションとして、マッチング対象組中の各目標対象同士の間の相対位置および／または相対姿勢に対して分析を実行して得られる空間情報は、各目標対象と他の目標対象との間の相対位置情報および／または相対姿勢情報をさらに含み得る。

１つの例において、検出待ち画像を処理する過程で、対象検出ネットワークを利用してまず検出待ち画像に対して視覚特徴抽出を実行して特徴マップを得、さらに特徴マップに基づいて各目標対象の視覚情報を抽出して得ることができる。

１つの例において、検出待ち画像を処理する過程で、関連検出ネットワークを利用して検出待ち画像に対して処理を実行して、各マッチング対象組中の少なくとも２つの目標対象の空間情報を得ることができる。

上記の例中のネットワーク構成および実装原理は、後続で詳細に説明し、ここでは一旦詳述しない。

Ｓ１３０において、各マッチング対象組中の少なくとも２つの目標対象の視覚情報および空間情報に基づいて、各マッチング対象組中の少なくとも２つの目標対象が関連しているか否かを確定する。

特定の同じマッチング対象組の場合、たとえば人顔人体マッチング対象組の場合、当該マッチング対象組中の人体と人顔とに関連が存在するか否かを確定することを目的とし、つまり人体と人顔とが同じ人に属するかを確定する。マッチング対象組中の少なくとも２つの目標対象の視覚情報および空間情報を得た後に、視覚情報と空間情報を組み合わせて当該マッチング対象組中の少なくとも２つの目標対象が関連しているか否かを確定する。

本発明の方法の少なくとも１つの発明概念は、視覚情報に基づいて、マッチング対象組中の目標対象の空間情報を組み合わせて、目標対象の関連性を確定することであることを説明する必要がある。人顔と人体との関連検出の例をとると、人顔の人体における位置分布が固定されているため、人体と人顔の視覚情報を考慮して、人顔と人体の空間的位置情報を組み合わせて関連を補助することによって、複数の人の複雑な場面での遮蔽問題に対処する場合、より良いロバスト性を有し、人体と人顔の関連精度を向上させる。

また、上記の発明概念に基づいて、本発明の方法中の関連目標対象は、空間的位置において関連性を有する対象を指し、したがって、検出待ち画像内から信頼性が高い空間情報を抽出して得ることができ、マッチング対象組中の目標対象の数およびタイプに対して限定する必要がなく、当該タイプは人体部位、動物、小道具などの他の任意の空間的位置における関連性を有する対象であり得、本発明はこれに対して繰り返して説明しないことを理解できる。

１つの例において、関連検出ネットワークを利用して（たとえば、図４中の「ＰａｉｒＨｅａｄ」）各々のマッチング対象組中の少なくとも２つの目標対象の視覚情報および空間情報に対して融合処理を実行して、融合特徴に基づいて関連性分類処理を実行することによって、特定のマッチング対象組中の少なくとも２つの目標対象が関連しているか否かを確定することができる。後続で詳細に説明し、ここでは一旦詳述しない。

上記から分かるように、本発明の関連対象検出方法によると、同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助し、複雑な場面での目標検出精度を向上させ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。

いくつかの実施形態において、マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して、目標対象の視覚情報を得ることができる。

具体的に言えば、図３は、目標対象に対して視覚情報抽出を実行する過程を示し、図４は、本発明の方法の検出ネットワークのアーキテクチャを示し、以下、図３および図４を組み合わせて本発明の方法をさらに説明する。

図３に示すように、いくつかの実施形態において、上記関連対象検出方法は、以下のステップを含む。

Ｓ３１０において、検出待ち画像に対して視覚特徴抽出を実行して、検出待ち画像の特徴マップを得る。

具体的に言えば、図４に示すように、本発明の検出ネットワークは、対象検出ネットワーク１００と関連検出ネットワーク２００とを含み、対象検出ネットワーク１００は、トレーニングを通じたニューラルネットワークであり得、検出待ち画像内の目標対象に対して視覚特徴抽出を実行して目標対象の視覚情報を得るために使用される。

本実施形態において、対象検出ネットワーク１００は、バックボーンネットワーク（ｂａｃｋｂｏｎｅ）とＦＰＮ（ＦｅａｔｕｒｅＰｙｒａｍｉｄＮｅｔｗｏｒｋｓ、特徴ピラミッドネットワーク）とを含み得る。検出待ち画像がバックボーンネットワークおよびＦＰＮによって順に処理されて、検出待ち画像の特徴マップ（ｆｅａｔｕｒｅ）を得られる。

１つの例において、バックボーンネットワークは、ＶＧＧＮｅｔ、ＲｅｓＮｅｔなどを使用することができる。ＦＰＮは、バックボーンネットワークで得られた特徴マップに基づいて、複数層のピラミッド構造の特徴マップに変換することができる。バックボーンネットワークｂａｃｋｂｏｎｅは、画像特徴を抽出する部分であり、ＦＰＮは、特徴強調処理を実行し、ｂａｃｋｂｏｎｅによって抽出された浅層特徴を強調することができる。上記のネットワークは、１例に過ぎず、本発明の技術的解決策を限定しないし、たとえば、他の実施形態において、バックボーンネットワークは他の任意の形式の特徴抽出ネットワークを採用することができ、また、たとえば、他の実施形態において、図４中のＦＰＮを使用せずに、バックボーンネットワークによって抽出された特徴マップを直接検出待ち画像の特徴マップ（ｆｅａｔｕｒｅ）として使用することができ、本発明はこれに対して限定しないことを理解できる。

Ｓ３２０において、特徴マップに基づいて各目標対象の検出フレームを検出して得る。

Ｓ３３０において、検出フレームに基づいて各マッチング対象組中の各目標対象の視覚情報を抽出して得る。

具体的に言えば、引き続き図４を参照すると、対象検出ネットワーク１００は、ＲＰＮ（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ、領域生成ネットワーク）をさらに含む。検出待ち画像の特徴マップを得た後に、ＲＰＮは、ＦＰＮによって出力された特徴マップ（ｆｅａｔｕｒｅ）に基づいて各目標対象の検出フレーム（ａｎｃｈｏｒ）および目標対象の対象タイプを予測して得ることができる。たとえば、人顔と人体との関連検出の場合、ＲＰＮネットワークは、特徴マップに基づいて検出待ち画像内の人体および人顔の検出フレーム、および、当該検出フレーム領域の目標対象が属している「人顔」または「人体」のタイプを計算し得る。

本実施形態において、対象検出ネットワーク１００は、ＲＣＮＮ（ＲｅｇｉｏｎＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、領域畳み込みニューラルネットワーク）をさらに含み、ＲＣＮＮは、特徴マップに基づいて各目標対象検出フレームに対するバウンディングフレーム（ｂｂｏｘ、ｂｏｕｎｄｉｎｇｂｏｘ）のオフセット量を計算し得、ｂｂｏｘのオフセット量に基づいて目標対象の検出フレームに対して境界回帰処理を実行することによって、より正確な目標対象の検出フレームを得る。

各目標対象の検出フレームを得た後に、特徴マップおよび各検出フレームに基づいて各目標対象の視覚特徴情報を抽出して得る。たとえば、特徴マップに基づいて、各検出フレームに対してそれぞれさらなる特徴抽出を実行して、各検出フレームの特徴情報を得て、対応する目標対象の視覚特徴情報とすることができる。または、特徴マップおよび各検出フレームを視覚特徴抽出ネットワークに入力して、各検出フレームの視覚特徴情報を得、すなわち各目標対象の視覚特徴を得る。

１つの例において、人顔と人体との関連検出の例をとると、入力された検出待ち画像は、図５に示したとおりである。ＲＰＮおよびＲＣＮＮネットワークは、検出待ち画像の特徴マップに基づいて、検出待ち画像内の各人顔および各人体の検出フレームを得、ここで、検出フレームは長方形であり得る。

図５に示すように、検出待ち画像内には、合計３個の人体および３個の人顔が含まれており、ＲＰＮおよびＲＣＮＮの処理を通じて３個の人顔検出フレーム２０１、２０２、２０３、および、３個の人体検出フレーム２１１、２１２、２１３を得、各人体および人顔の検出フレームに基づいて各人体および人顔の視覚情報を抽出して得る。

関連検出ネットワーク（たとえば、図４中の「ＰａｉｒＨｅａｄ」）２００も、トレーニングを通じたニューラルネットワークであり得、得られた目標対象の検出フレームおよび対象タイプに基づいて、異なるタイプの目標対象を組み合わせて、各マッチング対象組を得る。たとえば、人顔と人体との関連検出の場面において、得られた人顔と人体の検出フレームおよび対象タイプに基づいて、各人顔および人体をランダムに組み合わせて、各人顔人体マッチング対象組を得る。図５の例をとると、３個の人顔検出フレーム２０１、２０２、２０３、および、３個の人体検出フレーム２１１、２１２、２１３を、それぞれ２つずつ組み合わせて、合計９個の人顔人体マッチング対象組を得る。続いて、各人顔人体マッチング対象組の位置特徴を確定する必要がある。

各マッチング対象組に対して、まず、マッチング対象組中の各目標対象の検出フレームに基づいて、補助バウンディングフレームを構築する。図５中の人顔検出フレーム２０１および人体検出フレーム２１２から構成されたマッチング対象組の例をとると、まず、この２つの検出フレームに基づいて、この２つの検出フレームを同時に含むことができ、かつ、面積が最小である１つのｕｎｉｏｎフレーム（ユニオンボックス）を補助バウンディングフレームとして確定し、すなわち、図５で点線によって示された補助バウンディングフレーム２３１を確定する。

ここで、補助バウンディングフレームの目的は、後続でマッチング対象組中の各目標対象の空間情報を計算するためであり、本実施形態ではマッチング対象組中の各目標対象の検出フレームをカバーする補助バウンディングフレームを選択して、後続で得られる各目標対象の空間情報に自体が属しているマッチング対象組中の他の目標対象の空間情報が融合されているようにして、実際に関連される目標対象間の潜在的な空間的位置関係に基づいて関連対象検出を実行することができて、情報がよりコンパクトになり、他の位置の干渉情報を減らし、計算量が削減されることを説明する必要がある。さらに、マッチング対象組中の各目標対象の検出フレームをカバーする補助バウンディングフレームの中で最小面積を持つ補助バウンディングフレームを選択することができる。他の実施形態において、補助バウンディングフレーム２３１がマッチング対象組中の目標対象を少なくともカバーすることが保証されていればよく、当業者はこれを理解すべきである。

補助バウンディングフレームを得た後に、目標対象の検出フレームおよび補助バウンディングフレームに基づいて目標対象の位置特徴情報を生成する。図５で、人顔検出フレーム２０１および補助バウンディングフレーム２３１に基づいて人顔マスク情報を生成し、人顔マスク情報は、マッチング対象組中の人顔検出フレーム２０１の補助バウンディングフレーム２３１に対する空間的位置特徴情報を表す。同様に、人体検出フレーム２１２および補助バウンディングフレーム２３１に基づいて人体マスク情報を生成し、人体マスク情報は、マッチング対象組中の人体検出フレーム２１２の補助バウンディングフレーム２３１に対する空間的位置特徴情報を表す。

１つの例において、人顔および人体の位置特徴情報を計算するときに、人顔検出フレーム２０１および人体検出フレーム２１２に位置するピクセル値を１に設定し、補助バウンディングフレーム２３１に位置する初期ピクセル値を０に設定することによって、ピクセル値を検出することで人顔および人体の補助バウンディングフレームに対する位置特徴情報を得ることができる。

目標対象の位置特徴情報を得た後に、マッチング対象組中の少なくとも２つの目標対象の位置特徴情報に対して接合または他の方法の融合を実行することで、マッチング対象組中の目標対象の空間情報を得ることができる。

上記のように、人顔検出フレーム２０１内の人顔および人体の検出フレーム２１２内の人体から構成されたマッチング対象組を説明した。他のマッチング対象組の位置特徴の計算は上記と同様であり、順に上記の過程を実行することで各マッチング対象組の位置特徴を得ることができ、本発明はこれに対して繰り返して説明しない。

人顔対象と人体対象から構成されたマッチング対象組の例をとると、視覚情報および空間情報を得た後に、関連検出ネットワーク（たとえば、図４中の「ＰａｉｒＨｅａｄ」）は、当該マッチング対象組の視覚情報および空間情報に基づいて目標対象が関連しているか否かを確定する。

関連検出ネットワーク（ＰａｉｒＨｅａｄ）のネットワーク構成は、図６に示したとおりである。人顔検出フレーム２０１および人体検出フレーム２１２の視覚情報を、関心領域プーリング層（Ｒｅｇｉｏｎｏｆｉｎｔｅｒｅｓｔｐｏｏｌｉｎｇ、Ｒｏｉｐｏｏｌｉｎｇ）を利用して処理してそれぞれ人顔視覚特徴１３１および人体視覚特徴１３２を得、空間情報特徴に基づいて空間特徴１３３を変換して得る。本実施形態において、人顔視覚特徴１３１は、サイズが６４＊７＊７である特徴マップによって表され、人体視覚特徴１３２も、同様にサイズが６４＊７＊７である特徴マップによって表され、空間特徴１３３は、サイズが２＊７＊７である特徴マップによって表される。

人顔視覚特徴１３１、人体視覚特徴１３２、および、空間特徴１３３を融合して、当該マッチング対象組の融合特徴を得、各マッチング対象組の融合特徴に対して関連性分類処理を実行することで、マッチング対象組中の目標対象の間が関連しているか否かを確定することができる。

いくつかの実施形態において、図７に示すように、マッチング対象組中の目標対象が関連しているか否かを確定することは、以下のステップを含み得る。

Ｓ７１０において、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各マッチング対象組中の少なくとも２つの目標対象同士の間の関連度スコアを得る。

Ｓ７２０において、同じ目標対象が属している複数のマッチング対象組に対して、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定する。

Ｓ７３０において、目標マッチング対象組中の少なくとも２つの目標対象を関連目標対象として確定する。

具体的に言えば、依然として図４～図６に示すネットワーク構成の例をとって説明する。各マッチング対象組の融合特徴を得た後に、融合特徴に対して完全結合層（ＦｕｌｌｙＣｏｎｎｅｃｔｅｄＬａｙｅｒ、ＦＣＬ）１４０を利用して関連性分類処理を実行することで、各マッチング対象組中の目標対象同士の間の関連度スコアを得ることができる。

たとえば、図５に示すように、完全結合層１４０を利用して分類処理を実行した後に、合計９個のマッチング対象組の予測スコアを得る。１つの人顔または人体の場合、それぞれ３個のマッチング対象組に属され、たとえば２０１はそれぞれ人体２１１、２１２、２１３から構成された３個のマッチング対象組に属され、この３個のマッチング対象組の中で、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として選択する。たとえば、本例において、人顔２０１と人体２１１から構成されたマッチング対象組の関連度スコアが最も高いと、当該マッチング対象組を目標マッチング対象組として使用し、人顔２０１と人体２１１を関連目標対象として確定し、すなわち、人顔２０１と人体２１１が１人に属する。

また、いくつかの実施形態において、モデルの視覚的出力を考慮して、関連目標対象を確定した後に、画像内で関連目標対象を視覚的出力することができる。

１つの例において、画像の視覚的出力は、図８に示したとおりである。図８の例で、マルチプレイヤー卓上ゲームの場面の例をとると、関連対象の検出は、「人顔―人体―人手」の関連検出を含み、当業者は、上記を参照して、上記の実施形態を利用して複数の「人顔人体人手」の目標マッチング対象組を得ることができ、本発明はこれに対して繰り返して説明しない。

目標マッチング対象組を得た後に、目標マッチング対象組に含まれた人顔、人体、および人手の検出フレームを画像内に表示することができる。たとえば、図８には、３個の人顔検出フレーム２０１、２０２、２０３、３個の人体検出フレーム２１１、２１２、２１３、５個の人手検出フレーム２２１、２２２、２２３、２２４、２２５が含まれている。１つの例において、異なるタイプの検出フレームをそれぞれ異なる色で示す。図８はグレースケールイメージであるため、色を明確に表示できないが、当業者はこれを理解でき、本発明は繰り返して説明しない。

同じ目標マッチング対象組中の関連目標対象の場合、結線を利用して関連目標対象を接続して表示することができる。たとえば、図８の例で、同じ目標マッチング対象組中の人手検出フレームの中心点および人顔検出フレームの中心点を人体検出フレームの中心点と点線で接続することによって、画像内の関連している目標対象を明確に示すことができ、直感的な視覚的結果をもたらす。

いくつかの実施形態において、マッチング対象組の視覚情報および空間情報に対して特徴融合を実行する前に、さらに、それぞれ１層の完全結合層を利用して次元削減処理を実行して、特徴を固定長さ特徴にマッピングしてから融合を実行することができ、本発明はこれに対して繰り返して説明しない。

いくつかの実施形態において、本発明の方法は、図４に示すニューラルネットワークのトレーニング過程をさらに含み、トレーニング過程は図９に示したとおりである。以下、図４および図９を参照してニューラルネットワークのトレーニング過程を説明する。

Ｓ９１０において、サンプル画像セットを取得する。

Ｓ９２０において、トレーニング待ちの関連検出ネットワークを利用して、サンプル画像セット中のサンプル画像に対して処理を実行して、サンプル画像内から少なくとも１つのサンプルマッチング対象組を検出して得る。

Ｓ９３０において、トレーニング待ちの対象検出ネットワークを利用して、サンプル画像に対して処理を実行して、各サンプルマッチング対象組の各サンプル目標対象の視覚情報を得、トレーニング待ちの関連検出ネットワークを利用して、サンプル画像に対して処理を実行して、各サンプルマッチング対象組中の少なくとも２つのサンプル目標対象の空間情報を得る。

Ｓ９４０において、トレーニング待ちの関連検出ネットワークを利用して、各サンプルマッチング対象組中の少なくとも２つのサンプル目標対象の視覚情報および空間情報に基づいて、各サンプルマッチング対象組の関連性検出結果を得る。

Ｓ９５０において、各サンプルマッチング対象組の関連性検出結果とラベル情報との間の誤差を確定し、誤差が収束するまで、誤差に基づいて関連検出ネットワークおよび対象検出ネットワークの中の少なくとも１つのネットワークパラメータを調整する。

具体的に言えば、サンプル画像セットは、少なくとも１つのサンプル画像を含み、各サンプル画像は、少なくとも１つの検出できるサンプルマッチング対象組を含み、たとえば少なくとも１つの「人顔人体ペア」、「人顔人手ペア」、「人体物体ペア」、「人手人顔人体組」などを含み、各サンプルマッチング対象組は、少なくとも２つのサンプル目標対象を含み、サンプル目標対象は、少なくとも２つの対象タイプに対応し、サンプル目標対象は、人顔、人手、人体、体、または、物体などであり、対応する対象タイプは、人顔タイプ、人手タイプ、物体タイプなどである。同時に、サンプル画像は、各サンプルマッチング対象組のラベル情報を含み、ラベル情報は、サンプルマッチング対象組の真の値であり、当該サンプルマッチング対象組中の各サンプル目標対象の実際の関連性を示し、すなわち、サンプルマッチング対象組中のサンプル目標対象が実際に関連している目標対象であるか否かを示し、ラベル情報は、手動ラベリングまたはニューラルネットワークラベリングなどの方法によって得られる。

サンプル画像セットを図４に示すネットワークに入力して、順にトレーニング待ちの対象検出ネットワーク１００および関連検出ネットワーク２００を経て、最終に各サンプルマッチング対象組の関連性検出結果の出力値が出力される。対象検出ネットワークおよび関連検出ネットワークの処理過程は、上記を参照すればよく、ここでは繰り返して説明しない。

各サンプルマッチング対象組の関連性検出結果の出力値を得た後に、出力値とラベル情報との間の誤差を確定することができ、誤差が収束するまで、誤差逆伝播に従ってネットワークパラメータを調整することで、対象検出ネットワークおよび関連検出ネットワークのトレーニングを完了することができる。

上記の例を参照して本発明の方法を詳細に説明したが、本発明の関連対象検出方法は上記の例の場面に限定されず、さらに、他の任意の空間的位置関連性を持つ目標対象関連検出に適用されることができ、本発明はこれに対して繰り返して説明しないことを、当業者は理解できる。

第２態様によると、本発明の実施形態は、関連対象検出装置を提供する。図１０は、本発明のいくつかの実施形態に係る関連対象検出装置を示す。

図１０に示すように、いくつかの実施形態において、本発明の検出装置は、
検出待ち画像内から少なくとも２つの目標対象を含むマッチング対象組を少なくとも１つ検出して得るための検出モジュール４１０と、
各マッチング対象組中の各目標対象の視覚情報および各マッチング対象組中の少なくとも２つの目標対象の空間情報を取得するための取得モジュール４２０と、
各マッチング対象組中の少なくとも２つの目標対象の視覚情報および空間情報に基づいて、各マッチング対象組中の少なくとも２つの目標対象が関連しているか否かを確定するための確定モジュール４３０と、を備える。

図１１に示すように、いくつかの実施形態において、検出モジュール４１０は、
検出待ち画像内から各目標対象、および、各目標対象の対象タイプを検出して得るための検出サブモジュール４１１と、
対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の対象タイプ中の各目標対象と組み合わせて、少なくとも同じマッチング対象組を得るための組合せサブモジュール４１２と、を備え得る。

いくつかの実施形態において、取得モジュール４２０は、さらに、
マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して、目標対象の視覚情報を得る。

いくつかの実施形態において、取得モジュール４２０は、さらに、
検出待ち画像内から各目標対象の検出フレームを検出して得、
各マッチング対象組に対して、マッチング対象組中の少なくとも２つの目標対象の検出フレームの位置情報に基づいて、マッチング対象組中の少なくとも２つの目標対象の空間情報を生成する。

いくつかの実施形態において、取得モジュール４２０は、さらに、
マッチング対象組の補助バウンディングフレームを生成し、ここで、補助バウンディングフレームは、マッチング対象組中の各目標対象の検出フレームをカバーし、
補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、
同じマッチング対象組中の各目標対象の位置特徴情報を融合して、マッチング対象組中の少なくとも２つの目標対象の空間情報を得る。

いくつかの実施形態において、補助バウンディングフレームは、マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである。

図１２に示すように、いくつかの実施形態において、確定モジュール４３０は、
各マッチング対象組中の少なくとも２つの目標対象の視覚情報および空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュール４３１と、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、マッチング対象組中の少なくとも２つの目標対象が関連しているか否かを確定するための確定サブモジュール４３２と備え得る。

いくつかの実施形態において、確定サブモジュール４３２は、具体的に、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各マッチング対象組中の少なくとも２つの目標対象同士の間の関連度スコアを得、
同じ目標対象が属している複数のマッチング対象組に対して、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、
目標マッチング対象組中の少なくとも２つの目標対象を関連目標対象として確定する。

いくつかの実施形態において、目標対象が人体部位である場合、確定モジュール４３０は、具体的に、
同じマッチング対象組中の各人体部位が１つの人体に属するか否かを確定する。

上記から分かるように、本発明の関連対象検出装置によると、同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助し、複雑な場面での目標検出精度を向上させ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。

第３態様によると、本発明の実施形態は、電子デバイスを提供し、当該電子デバイスは、
プロセッサと、
プロセッサと通信可能に接続され、プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、コンピュータ命令がプロセッサによってアクセスされると、プロセッサが第１態様の任意の実施形態の方法を実行するようにする。

第４態様によると、本発明の実施形態は、コンピュータ可読命令が格納されている記録媒体を提供し、コンピュータ可読命令は、コンピュータが第１態様の任意の実施形態の方法を実行するようにする。

具体的に言うと、図１３は、本発明の方法を実装するのに適したコンピュータシステム６００の構成を示す模式図であり、図１３に示すシステムは、上記のプロセッサおよび記録媒体に該当する機能を実装することができる。

図１３に示すように、コンピュータシステム６００は、プロセッサ（ＣＰＵ）６０１を含み、読み取り専用メモリ（ＲＯＭ）６０２内に記憶されているプログラム、または、記憶部６０８からランダムアクセスメモリ（ＲＡＭ）６０３にロードしたプログラムに応じて、さまざまな適切な動作および処理を実行する。ＲＡＭ６０３には、システム６００の操作に必要なさまざまなプログラムおよびデータが記憶されている。ＣＰＵ６０１、ＲＯＭ６０２、および、ＲＡＭ６０３は、バス６０４を介して互いに接続される。入力／出力（Ｉ／Ｏ）インターフェース６０５もバス６０４に接続される。

キーボード、マウスなどを含む入力部６０６、カソード光線管（ＣＲＴ）、液晶ディスプレイ（ＬＤＣ）などおよびスピーカーなどを含む出力部６０７、ハードディスクなどを含む記憶部６０８、および、ＬＡＮカード、モデムなどのネットワークインターフェースカードを含む通信部６０９が、Ｉ／Ｏインターフェース６０５に接続される。通信部６０９は、インターネットなどのネットワークを介して通信処理を実行する。ドライバ６１０も、必要に応じてＩ／Ｏインターフェース６０５に接続される。磁気ディスク、光学ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体６１１は、必要に応じてドライバ６１０に取り付けることによって、読み取られたコンピュータプログラムが必要に応じて記憶部６０８にインストールされる。

特に、本発明の実施形態によれば、上記の方法は、コンピュータソフトウェアプログラムとして実装され得る。たとえば、本発明の実施形態は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に含まれたコンピュータプログラムを含み、コンピュータプログラムは、上記の方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部６０９を介してネットワークからダウンロードしてインストールされるか、および／または、取り外し可能な媒体６１１からインストールされ得る。

図面におけるフローチャート及びブロック図は、本発明の複数の実施形態に係るシステム、方法及びコンピュータプログラム製品の実施可能な体系アーキテクチャ、機能及び操作を示す。この点では、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント又は命令の一部を代表してもよい。前記モジュール、プログラムセグメント又は命令の一部は、規定された論理機能を実施するための１つ又は複数の実行可能命令を含む。幾つかの代替としての実施形態において、ブロック中にマークされた機能は、図面に示された順番と異なる順番で発生してもよい。例えば、２つの連続するブロックは、実に、基本的に並行に実行されてもよく、そして、逆の順番で実行されるときもあり、これは、かかる機能に応じて定められる。注意すべきことは、ブロック図及び／又はフローチャートにおける各ブロック、並びに、ブロック図及び／又はフローチャートにおけるブロックの組み合わせは、規定の機能又は動作を実行する専用のハードウェアに基づくシステムにて実現されてもよく、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。

明らかに、上記の実施形態は、明確な説明のための例に過ぎず、実施形態を限定することを意図するものではない。当業者にとって、上記の説明に基づいて、異なる形態の他の変更または修正を行うことができる。ここにすべての実装方法をリストすることは不要であり、不可能ある。これに起因する明らかな変更または変動は、依然として本開示の保護範囲内にある。

Claims

関連対象検出方法であって、
検出待ち画像内から、少なくとも２つの目標対象を含むマッチング対象組を、少なくとも１つ検出して得ること、
各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得すること、
各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定すること、を含む
ことを特徴とする関連対象検出方法。
検出待ち画像内からマッチング対象組を少なくとも１つ検出して得ることは、
前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得ること、
前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも１つ得ること、を含む
ことを特徴とする請求項１に記載の前記方法。
各前記マッチング対象組中の各前記目標対象の視覚情報を取得することは、
前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得ることを含む
ことを特徴とする請求項１に記載の前記方法。
各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得することは、
前記検出待ち画像内から各前記目標対象の検出フレームを検出して得ること、
各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成すること、を含む
ことを特徴とする請求項１に記載の前記方法。
各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成することは、
前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成すること、
前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定すること、
同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を得ること、を含む
ことを特徴とする請求項４に記載の前記方法。
前記補助バウンディングフレームは、前記マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである
ことを特徴とする請求項５に記載の前記方法。
各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、
各マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得ること、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定すること、を含む
ことを特徴とする請求項１から６のいずれか１項に記載の前記方法。
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも２つの目標対象同士の間の関連度スコアを得ること、
同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定すること、
前記目標マッチング対象組中の前記少なくとも２つの目標対象を関連目標対象として確定すること、を含む
ことを特徴とする請求項７に記載の前記方法。
前記目標対象が人体部位である場合、前記各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定することは、
同じ前記マッチング対象組中の各人体部位が１つの人体に属するか否かを確定することを含む
ことを特徴とする請求項１に記載の前記方法。
サンプル画像セットを取得することであって、前記サンプル画像セットは、少なくとも１つのサンプル画像を含み、各前記サンプル画像は、少なくとも１つのサンプルマッチング対象組および前記サンプルマッチング対象組に対応するラベル情報を含み、各前記サンプルマッチング対象組は、少なくとも２つのサンプル目標対象を含み、前記ラベル情報は、前記サンプルマッチング対象組中の各サンプル目標対象の関連結果を示すこと、
トレーニング待ちの関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、前記サンプル画像内から前記サンプルマッチング対象組を検出して得ること、
トレーニング待ちの対象検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の各前記サンプル目標対象の視覚情報を得、トレーニング待ちの前記関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の前記少なくとも２つのサンプル目標対象の空間情報を得ること、
トレーニング待ちの前記関連検出ネットワークを利用して、各前記サンプルマッチング対象組中の前記少なくとも２つのサンプル目標対象の前記視覚情報および前記空間情報に基づいて、各前記サンプルマッチング対象組の関連性検出結果を得ること、
各前記サンプルマッチング対象組の前記関連性検出結果と対応するラベル情報との間の誤差を確定し、前記誤差が収束するまで、前記誤差に基づいて前記関連検出ネットワークおよび前記対象検出ネットワークの中の少なくとも１つのネットワークパラメータを調整すること、をさらに含む
ことを特徴とする請求項１に記載の前記方法。
関連対象検出装置であって、
検出待ち画像内から、少なくとも２つの目標対象を含むマッチング対象組を、少なくとも１つ検出して得るための検出モジュールと、
各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも２つの目標対象の空間情報を取得するための取得モジュールと、
各前記マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定するための確定モジュールと、を備える
ことを特徴とする関連対象検出装置。
前記検出モジュールは、
前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得るための検出サブモジュールと、
前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも１つ得るための組合せサブモジュールと、を備える
ことを特徴とする請求項１１に記載の前記装置。
前記取得モジュールは、さらに、
前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得る
ことを特徴とする請求項１１に記載の前記装置。
前記取得モジュールは、さらに、
前記検出待ち画像内から各前記目標対象の検出フレームを検出して得、
各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を生成する
ことを特徴とする請求項１１に記載の前記装置。
前記取得モジュールは、さらに、
前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成し、
前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、
同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも２つの目標対象の前記空間情報を得る
ことを特徴とする請求項１４に記載の前記装置。
前記確定モジュールは、
各マッチング対象組中の前記少なくとも２つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュールと、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも２つの目標対象が関連しているか否かを確定するための確定サブモジュールと、を備える
ことを特徴とする請求項１１～１５のいずれか１項に記載の前記装置。
前記確定サブモジュールは、さらに、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも２つの目標対象同士の間の関連度スコアを得、
同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、
前記目標マッチング対象組中の前記少なくとも２つの目標対象を関連目標対象として確定する
ことを特徴とする請求項１６に記載の前記装置。
電子デバイスであって、
プロセッサと、
前記プロセッサと通信可能に接続され、前記プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、を備え、
前記コンピュータ命令が前記プロセッサによってアクセスされるときに、前記プロセッサが請求項１から１０のいずれか１項に記載の方法を実行するようにする
ことを特徴とする電子デバイス。
コンピュータ可読命令が格納されている記録媒体であって、
前記コンピュータ可読命令は、コンピュータが請求項１から１０のいずれか１項に記載の方法を実行するようにする
ことを特徴とする記録媒体。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子デバイスで運行されるときに、前記電子デバイスのプロセッサが請求項１から１０のいずれか１項に記載の方法を実装するようにする
ことを特徴とするコンピュータプログラム。