JP2021502645A

JP2021502645A - 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体

Info

Publication number: JP2021502645A
Application number: JP2020526040A
Authority: JP
Inventors: ポーリー; ウェイウー
Original assignee: ベイジンセンスタイムテクノロジーディベロップメントカンパニーリミテッド
Priority date: 2017-11-12
Filing date: 2018-11-09
Publication date: 2021-01-28
Anticipated expiration: 2038-11-09
Also published as: SG11202004324WA; KR20200087784A; PH12020550588A1; US20200265255A1; JP7165731B2; US11455782B2; WO2019091464A1; CN108230359A; CN108230359B

Abstract

本開示の実施例は、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体を開示する。目標検出方法は、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することとを含む。本開示の実施例は、目標追跡の速度と正確性を高めることができる。

Description

本開示は、コンピュータビジョン技術に関し、特に、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体に関する。
＜関連出願の相互参照＞
本願は、２０１７年１１月１２日に中国特許局に提出された、出願番号ＣＮ２０１７１１１１０５８７．１、発明の名称「目標検出方法及び装置、トレーニング方法、電子機器、プログラム並びに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。

単一目標追跡は、人工知能分野の重要な課題となっており、自動運転、多目標追跡等の一連のタスクに用いられる。単一目標追跡の主なタスクは、ビデオシーケンスのセグメント内の１フレームの画像において追跡される目標を指定し、その後のフレーム画像においてこの指定された目標を継続的に追跡することである。

本開示の実施例は、目標追跡を行うための技術的手段を提供する。

本開示の実施例の一方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含む目標追跡方法を提供する。

本開示の実施例の別の方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第１の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第１の特徴を前記局所領域検出器の分類の重みとし、第２の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第２の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層をトレーニングすることと、を含む目標検出ネットワークのトレーニング方法を提供する。

本開示の実施例のまた１つの方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第１の特徴を局所領域検出器の分類の重みとするための第１の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第２の特徴を前記局所領域検出器の回帰の重みとするための第２の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含む目標検出装置を提供する。

本開示の実施例の更なる別の方面によれば、本開示の実施例のいずれか１つに記載の前記目標検出装置を含む電子機器を提供する。

本開示の実施例の更なる別の方面によれば、
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより、本開示の実施例のいずれか１つに記載の前記方法の操作を完成するためのプロセッサと、を含む別の電子機器を提供する。

本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、本開示の実施例のいずれか１つに記載の前記方法の操作が実現されるコンピュータ記憶媒体を提供する。

本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、前記コンピュータ読取可能コマンドが機器上で作動すると、前記機器におけるプロセッサに本開示の実施例のいずれか１つに記載の前記方法におけるステップを実現するための実行可能コマンドを実行させるコンピュータプログラムを提供する。

本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

以下、図面及び実施例によって本開示の技術的手段をさらに詳しく説明する。

明細書の一部を構成する図面は、本開示の実施例を説明するためのものであって、また、実施例に対する説明と共に本開示の原理を解釈するためのものである。
図面を伴う以下の詳細な説明により、本開示をより明瞭に理解することができる。
本開示の目標検出方法の一実施例のフローチャートである。本開示の目標検出方法の別の実施例のフローチャートである。本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。本開示の目標検出装置の一実施例の構成模式図である。本開示の目標検出装置の別の実施例の構成模式図である。本開示の目標検出装置のまた１つの実施例の構成模式図である。本開示の目標検出装置の一適用実施例の構成模式図である。本開示の目標検出装置の別の適用実施例の構成模式図である。本開示の電子機器の一適用実施例の構成模式図である。

ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。

更に、本開示の実施例では、「複数」は２つ又は２つ以上を指してよく、「少なくとも１つ」は１つ、２つ又は２つ以上を指してよいことを理解すべきである。

本願の実施例における「第１の」、「第２の」等の用語は、異なるステップ、機器又はモジュール等を区別するためのものに過ぎず、特定の技術的意味を表したり、必然的な論理的順序を表したりすることではないことが当業者にとって理解可能である。

更に、本開示で言及された任意の部材、データ又は構造は、明確に限定されない限り又は明細書の前後で反対的なものが示唆されない限り、一般的には１つ又は複数と理解してよいことを理解すべきである。

更に、本開示では、各実施例について、相違点を強調して説明し、同一又は類似的な点について、相互に参照することができるので、簡潔化するために、繰り返して説明しないことを理解すべきである。

同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。

以下の少なくとも一つの例示的な実施例に対する説明は、実質的に、説明するためのものに過ぎず、本開示及びその適用または使用をなんら限定するものではない。

関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部としての援用と見なすべきである。

なお、以下の図面において、類似する符号及び英文字は類似項目を表し、ある項目がある図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。

本開示の実施例は端末装置、コンピュータシステム、サーバ等の電子機器に適用可能であり、それは他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。端末装置、コンピュータシステム、サーバ等の電子機器と共に使用するのに適する公知の端末装置、コンピューティングシステム、環境及び／または構成の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記システムのいずれかを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。

端末装置、コンピュータシステム、サーバ等の電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド（例えば、プログラムモジュール）の一般的なコンテキストで記述できる。通常、プログラムモジュールは特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータシステム／サーバは分散型クラウドコンピューティング環境において実施されてよい。分散型クラウドコンピューティング環境において、タスクは通信ネットワークを介してリンクされる遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたはリモートのコンピューティングシステムの記憶媒体に存在してよい。

図１は本開示の目標検出方法の一実施例のフローチャートである。図１に示すように、該実施例の目標検出方法は以下の操作を含む。

１０２、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の各実施例の一実施形態では、該領域画像の大きさがテンプレートフレームの画像より大きく、例えば、該領域画像はテンプレートフレームの画像の中心点を中心点として、大きさがテンプレートフレーム画像の大きさの２−４倍であってよい。

本開示の各実施例の一実施形態では、テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであり、ビデオシーケンスにおいて目標追跡を行う開始フレームであってよく、該開始フレームのビデオフレームシーケンスでの位置が柔軟に設定され、例えばビデオフレームシーケンスにおける先頭フレーム又は任意の中間フレームであってよい。検出フレームは目標追跡を行うフレームであり、検出フレームの画像において目標対象物の検出枠が特定された後、該検出フレームにおける検出枠に対応する画像を次の検出フレームのテンプレートフレームの画像としてよい。

本開示の各実施例の一実施形態では、該操作１０２において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。

選択可能な一例において、該操作１０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。

１０４、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。

本開示の各実施例の一実施形態では、第１の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を局所領域検出器の分類の重みとするようにしてもよい。

例えば、選択可能な一例では、第１の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の２ｋ（ｋが０より大きい整数である）倍になる第１の特徴を取得するように、局所領域検出器の分類の重みを取得することができる。

本開示の各実施例の一実施形態では、第２の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を局所領域検出器の回帰の重みとするようにしてもよい。

例えば、選択可能な一例では、第２の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の４ｋ（ｋが０より大きい整数である）倍になる第２の特徴を取得するように、局所領域検出器の回帰の重みを取得することができる。

選択可能な一例において、該操作１０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第１の畳み込み層と第２の畳み込み層により実行されてもよい。

１０６、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。

本開示の各実施例の選択可能な一例では、上記複数の候補枠は、検出フレームの各位置でのＫ個の候補枠を含んでよい。ここで、Ｋが予め設定された、１より大きい整数である。Ｋ個の候補枠の長さと幅の割合はそれぞれ異なっており、例えば、Ｋ個の候補枠の長さと幅の割合は、１：１、２：１、２：１、３：１、１：３等を含んでよい。分類結果は、各位置でのＫ個の候補枠が目標対象物の検出枠である確率値を表すためのものである。

本開示の目標検出方法の選択可能な一実施例では、該操作１０６によって複数の候補枠が目標対象物の検出枠である確率値を取得した後、更に、該分類結果に対して正規化処理を行って、各候補枠が目標対象物の検出枠である確率値の和を１にすることを含んでよい。このように、各候補枠が目標対象物の検出枠であるか否かを容易に判断することに寄与する。

本開示の各実施例の選択可能な一例では、回帰結果は検出フレーム画像の各位置でのＫ個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を含み、このずれ量は位置と大きさの変化量を含んでよく、この位置は中心点の位置であってもよく、基準枠の４つの頂点の位置等であってもよい。

第２の特徴のチャンネル数がテンプレートフレームの特徴のチャンネル数の４ｋ倍になる場合に、各候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量は、例えば中心点の位置の横座標のずれ量（ｄｘ）、中心点の位置の縦座標のずれ量（ｄｙ）、高さの変化量（ｄｈ）及び幅の変化量（ｄｗ）を含んでよい。

本開示の各実施例の一実施形態では、該操作１０６には、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。

選択可能な一例において、該操作１０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。

１０８、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。

選択可能な一例において、該操作１０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。

本開示の上記実施例の目標検出方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

本開示の実施例では、テンプレートフレームに基づいて、局所領域検出器は検出フレームから大量の候補枠を高速に生成し、且つ検出フレームの各位置でのＫ個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

本開示の目標検出方法の別の実施例では、
ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも１つの他の検出フレームの特徴を抽出することと、
上記少なくとも１つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される上記少なくとも１つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に上記少なくとも１つの他の検出フレームの特徴に対して操作１０６を実行することと、
上記少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、上記少なくとも１つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に上記少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作１０８を実行することと、を更に含んでよい。

本開示の目標検出方法のまた１つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、更に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び／又は幅がそれぞれテンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して検出フレームとすることを含んでよい。

図２は本開示の目標検出方法の別の実施例のフローチャートである。図２に示すように、該実施例の目標検出方法は以下の操作を含む。

２０２、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。

本開示の各実施例の一実施形態では、該操作２０２において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。

選択可能な一例において、該操作２０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。

２０４、第３の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第３の特徴を取得し、第４の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第４の特徴を取得する。

選択可能な一例において、該操作２０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第３の畳み込み層と第４の畳み込み層により実行されてもよい。

２０６、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。

ここで、操作２０６と２０４は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。

選択可能な一例において、該操作２０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第１の畳み込み層と第２の畳み込み層により実行されてもよい。

２０８、分類の重みを用いて第３の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第４の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。

選択可能な一例において、該操作２０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。

２１０、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。

選択可能な一例において、該操作２１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。

本開示の各実施例の一実施形態では、操作１０８又は２１０には、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。

選択可能な一例では、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から１つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から１つの候補枠を選択するように実現することができる。

別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。例えば、位置の変化量が大きく（即ち、位置移動が大きく）、大きさの変化量が大きい（即ち、形状変化が大きい）候補枠の確率値に対してペナルティを与えて、その確率値を低くする。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から１つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。

選択可能な一例において、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する上記操作は、プロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。

図３は本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第１の畳み込み層及び第２の畳み込み層を含む。図３に示すように、該実施例のトレーニング方法は以下の操作を含む。

３０２、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。

本開示の各実施例の一実施形態では、該操作３０２において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。

選択可能な一例において、該操作３０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。

３０４、第１の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を局所領域検出器の分類の重みとし、第２の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を局所領域検出器の回帰の重みとする。

選択可能な一例において、該操作３０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第１の畳み込み層と第２の畳み込み層により実行されてもよい。

３０６、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。

本開示の各実施例の一実施形態では、該操作３０６は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。

選択可能な一例において、該操作３０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する領域検出器によって実行されてもよい。

３０８、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。

選択可能な一例において、該操作３０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。

３１０、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第１の畳み込み層及び第２の畳み込み層をトレーニングする。

選択可能な一例において、該操作３１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。

本開示の上記実施例の目標検出ネットワークのトレーニング方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

本開示のトレーニング方法の別の実施例では、ニューラルネットワークによりビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも１つの他の検出フレームの特徴を抽出することと、
少なくとも１つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される少なくとも１つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に少なくとも１つの他の検出フレームの特徴に対して操作３０６を実行することと、
少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、少なくとも１つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作３０８を実行することと、を更に含んでよい。

本開示のトレーニング方法のまた１つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び／又は幅がそれぞれテンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して検出フレームとすることを更に含んでよい。

図４は本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第１の畳み込み層、第２の畳み込み層、第３の畳み込み層及び第４の畳み込み層を含む。図４に示すように、該実施例のトレーニング方法は以下の操作を含む。

４０２、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。

本開示の各実施例の一実施形態では、該操作４０２において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。

選択可能な一例において、該操作４０２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。

４０４、第３の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第３の特徴を取得し、第４の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第４の特徴を取得する。

選択可能な一例において、該操作４０４はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第３の畳み込み層と第４の畳み込み層により実行されてもよい。

４０６、第１の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を局所領域検出器の分類の重みとし、第２の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を局所領域検出器の回帰の重みとする。

ここで、操作４０６と４０４は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。

選択可能な一例において、該操作４０６はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第１の畳み込み層と第２の畳み込み層により実行されてもよい。

４０８、分類の重みを用いて第３の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第４の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。

選択可能な一例において、該操作４０８はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。

４１０、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。

選択可能な一例において、該操作４１０はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する第１の特徴抽出ユニット７０１によって実行されてもよい。

４１２、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、ラベリングされた検出フレームでの目標対象物の検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第１の畳み込み層及び第２の畳み込み層の重み値を調整する。

選択可能な一例において、該操作４１２はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。

本開示の各実施例の一実施形態では、操作３０８又は４１０には、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。

選択可能な一例では、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から１つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から確率値が高くてずれ量が小さい候補枠を選択するように実現することができる。

別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から１つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。

選択可能な一例において、上記回帰結果の位置と大きさの変化量により候補枠の確率値を調整する操作はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。

選択可能な一例では、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から１つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値とずれ量に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から１つの候補枠を選択するように実現することができる。

本開示の各実施例では、局所領域検出器は、第３の畳み込み層、第４の畳み込み層及び２つの畳み込み操作ユニットを含んでよい。ここで、局所領域検出器と第１の畳み込み層、第２の畳み込み層が結合されて形成された局所領域検出器はリージョンプロポーザルネットワーク（ＲｅｇｉｏｎＰｒｏｐｏｓａｌＮｅｔｗｏｒｋ）と呼んでもよい。

本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはデータ処理能力を有するいかなる適切な機器によって実行されてもよく、機器は端末装置とサーバ等を含むが、それらに限定されない。又は、本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはプロセッサによって実行されてもよく、例えば、プロセッサはメモリに記憶された対応のコマンドを呼び出すことで本開示の実施例に係わる目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つを実行する。以下、詳細な説明を省略する。

当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解すべき、前記プログラムは、ＲＯＭ、ＲＡＭ、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムが実行されると、上記方法の実施例を含むステップを実行する。

図５は本開示の目標検出装置の一実施例の構成模式図である。本開示の各実施例の目標検出装置は、本開示の上記の各目標検出方法の実施例を実現するために利用可能である。図５に示すように、該実施例の目標検出装置はニューラルネットワーク、第１の畳み込み層、第２の畳み込み層、局所領域検出器及び取得ユニットを含む。

ニューラルネットワークは、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するために用いられる。ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。テンプレートフレームと検出フレームの特徴を抽出するニューラルネットワークは同一のニューラルネットワークであってもよいし、同じ構成を有する別々のニューラルネットワークであってもよい。

第１の畳み込み層は、前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を前記局所領域検出器の分類の重みとするために用いられる。

第２の畳み込み層は、第２の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を前記局所領域検出器の回帰の重みとするために用いられる。

局所領域検出器は、検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するために用いられ、ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。

取得ユニットは、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得するために用いられる。

本開示の上記実施例の目標検出装置によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

本開示の目標検出装置の各実施例の一実施形態では、局所領域検出器は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられる。

検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の目標検出装置の別の実施例では、テンプレートフレームの中心点を中心点として、現在フレームから長さ及び／又は幅がそれぞれテンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して検出フレームとするための前処理ユニットを更に含んでよい。図６に示すように、本開示の目標検出装置の別の実施例の構成模式図である。

また、図６を再度参照し、本開示の目標検出装置のまた１つの実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第３の特徴を取得するための第３の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、分類の重みを用いて第３の特徴に対して畳み込み操作を行うために用いられる。

また、図６を再度参照し、本開示の目標検出装置の更なる別の実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第４の特徴を取得するための第４の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、回帰の重みを用いて第４の特徴に対して畳み込み操作を行うために用いられる。

本開示の目標検出装置の各実施例の別の実施形態では、取得ユニットは、分類結果と回帰結果により複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得するために用いられる。

例示的には、取得ユニットは分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から１つの候補枠を選択するために用いられる。

また、図６を再度参照し、本開示の目標検出装置の更なる別の実施例では、回帰結果により分類結果を調整するための調整ユニットを更に含んでよい。それに対応して、取得ユニットは分類結果と回帰結果により複数の候補枠から１つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から１つの候補枠を選択するために用いられる。

図７は本開示の目標検出装置の更なる別の実施例の構成模式図である。該実施例の目標検出装置は、本開示の図３〜図４の目標検出ネットワークのトレーニング方法の実施例のいずれか一つを実現するために利用可能である。図７に示すように、図５又は図６に示す実施例と比べると、該実施例の目標検出装置は、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第１の畳み込み層及び第２の畳み込み層をトレーニングするためのトレーニングユニットを更に含む。

一実施形態では、検出フレームのラベリング情報は、ラベリングされた検出フレームでの目標対象物の検出枠の位置と大きさを含む。それに対応して、該実施形態では、トレーニングユニットは、ラベリングされた検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第１の畳み込み層及び第２の畳み込み層の重み値を調整するために用いられる。

本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。

図８は本開示の目標検出装置の一適用実施例の構成模式図である。図９は本開示の目標検出装置の別の適用実施例の構成模式図である。図８及び図９では、ＬｘＭｘＮ（例えば、２５６ｘ２０ｘ２０）において、Ｌはチャンネル数を表し、ＭとＮはそれぞれ高さ（即ち、長さ）と幅を表す。

本開示の実施例は、本開示の上記実施例のいずれか１つの目標検出装置を含む電子機器を更に提供する。

本開示の実施例は、実行可能コマンドを記憶するためのメモリと、メモリと通信して、実行可能コマンドを実行することにより本開示の上記実施例のいずれか１つの目標検出方法又は目標検出ネットワークのトレーニング方法の操作を完成するためのプロセッサと、を含む別の電子機器を更に提供する。

図１０は本開示の電子機器の一適用実施例の構成模式図である。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器の構成模式図を示す図１０を参照する。図１０に示すように、該電子機器は１つ又は複数のプロセッサ、通信部などを含む。前記１つ又は複数のプロセッサは、例えば、１つ又は複数の中央処理ユニット（ＣＰＵ）、及び／又は１つ又は複数の画像プロセッサ（ＧＰＵ）などであり、プロセッサは、読み取り専用メモリ（ＲＯＭ）に記憶された実行可能コマンド又は記憶部からランダムアクセスメモリ（ＲＡＭ）にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはＩＢ（Ｉｎｆｉｎｉｂａｎｄ）ネットワークカードを含んでよいが、それに限定されない。プロセッサは実行可能コマンドを実行するように読み取り専用メモリ及び／又はランダムアクセスメモリと通信し、バスを介して通信部に接続され、通信部を介して他の対象装置と通信して、本開示の実施例で提供される方法のいずれか一項に対応する操作を完成してよい。例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得する。更に、例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、第１の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第１の特徴を前記局所領域検出器の分類の重みとし、第２の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第２の特徴を前記局所領域検出器の回帰の重みとし、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得し、取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層をトレーニングする。

また、ＲＡＭには、装置の動作に必要な様々なプログラムやデータが格納されていてもよい。ＣＰＵ、ＲＯＭ及びＲＡＭは、バスを介して相互に接続される。ＲＡＭを有する場合に、ＲＯＭは選択可能なモジュールである。ＲＡＭはプロセッサに本開示の上記方法のいずれか一項に対応する操作を実行させるための実行可能コマンドを格納するか、または動作時当該実行可能コマンドをＲＯＭに書き込む。入力／出力（Ｉ／Ｏ）インターフェイスもバスに接続される。通信部は、集積的に設置されてもよく、複数のサブモジュール（例えば複数のＩＢネットワークカード）を有し、且つバスを介してリンクされるように設置されてもよい。

キーボード、マウスなどを含む入力部と、例えば陰極線管（ＣＲＴ）、液晶ディスプレイー（ＬＣＤ）など及びスピーカなどを含む出力部と、ハードディスクなどを含む記憶部と、例えばＬＡＮカード、モデムなどのネットワークインターフェイスカードを含む通信部とがＩ／Ｏインターフェイスに接続されている。通信部は例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブも必要に応じてＩ／Ｏインターフェイスに接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体は、必要に応じてドライブ上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部にインストールする。

なお、図１０に示すアーキテクチャは選択可能な一実施形態に過ぎない。具体的な実践過程では、実際の必要に応じて上記図１０の部品の数及び種類を選択、削除、追加、または置換することができる。異なる機能の部品の設置について、個別な設置または集積な設置などの実現方式を採用でき、例えばＧＰＵとＣＰＵは、個別に設置されるかまたはＧＰＵをＣＰＵに集積させて、通信部は、個別に設置されるか、またはＣＰＵやＧＰＵに集積的に設置されることなどが可能です。これらの代替的な実施形態はすべて本願の保護範囲に含まれる。

また、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、該コマンドが実行されると、本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか１つの操作が実現されるコンピュータ記憶媒体を更に提供する。

また、本開示の実施例は、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、該コンピュータ読取可能コマンドが機器上で作動すると、該機器におけるプロセッサに本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか１つの操作を実現するための実行可能コマンドを実行させるコンピュータプログラムを更に提供する。

本開示の実施例は単一目標追跡を行うことができる。例えば、多目標追跡システムにおいて、フレームごとに目標検出を行わなくてもよく、所定の検出間隔、例えば１０フレームごとに一回検出し、その間の９フレームについては単一目標追跡によって中間フレームでの目標の位置を特定するようにしてもよい。本開示の実施例のアルゴリズムは速度が速いので、全体的に多目標追跡システムに追跡をより速く完了させ、よりよい効果を達成することができる。

本明細書における様々な実施例は漸進的に説明され、各実施例について他の実施例との相違点に集中して説明したが、各実施例の同一または類似の部分については相互に参照すればよい。システム実施例については、基本的に方法実施例に対応するので、簡単に説明したが、関連部分は方法実施例の説明の一部を参照すればよい。

本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェア、またはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップの上記順序は単に説明するためのものであり、他の形態で特に説明しない限り、本開示の方法のステップは、上記具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。

本願の説明は、例示及び説明のためのものであり、漏れなくまたは本願を開示された形式に限定するものではない。当業者にとっては多くの修正及び変形が明らかなことである。実施例を選択し説明する目的は、本願の原理及び実際応用をより好適に説明し、当業者に本願を理解させて特定用途に適する各種の修正を加えた各種の実施例を設計させることにある。

Claims

検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含むことを特徴とする目標検出方法。
前記ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも１つの他の検出フレームの特徴を抽出することと、
前記少なくとも１つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも１つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも１つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項１に記載の方法。
ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項１又は２に記載の方法。
前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項１〜３のいずれか一項に記載の方法。
前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項１〜４のいずれか一項に記載の方法。
前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び／又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項５に記載の方法。
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みを取得することは、
第１の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を前記局所領域検出器の分類の重みとすることを含むことを特徴とする請求項１〜６のいずれか一項に記載の方法。
前記テンプレートフレームの特徴に基づいて局所領域検出器の回帰の重みを取得することは、
第２の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を前記局所領域検出器の回帰の重みとすることを含むことを特徴とする請求項１〜７のいずれか一項に記載の方法。
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項１〜８のいずれか一項に記載の方法。
前記検出フレームの特徴を抽出した後に、第３の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第３の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第３の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項９に記載の方法。
前記テンプレートフレームの特徴を抽出した後に、第４の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第４の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第４の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項９又は１０に記載の方法。
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項１〜１１のいずれか一項に記載の方法。
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から１つの候補枠を選択することを含むことを特徴とする請求項１２に記載の方法。
回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から１つの候補枠を選択することを含むことを特徴とする請求項１２に記載の方法。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第１の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第１の特徴を前記局所領域検出器の分類の重みとし、第２の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第２の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層をトレーニングすることと、を含むことを特徴とする目標検出ネットワークのトレーニング方法。
前記ニューラルネットワークによりビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも１つの他の検出フレームの特徴を抽出することと、
前記少なくとも１つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも１つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも１つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも１つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項１５に記載の方法。
ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項１５又は１６に記載の方法。
前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項１５〜１７のいずれか一項に記載の方法。
前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項１５〜１８のいずれか一項に記載の方法。
前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び／又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項１９に記載の方法。
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項１５〜２０のいずれか一項に記載の方法。
前記検出フレームの特徴を抽出した後に、
第３の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第３の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第３の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項２１に記載の方法。
前記テンプレートフレームの特徴を抽出した後に、
第４の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第４の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第４の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項２１に記載の方法。
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項１５〜２３のいずれか一項に記載の方法。
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から１つの候補枠を選択することを含むことを特徴とする請求項２４に記載の方法。
回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から１つの候補枠を選択することを含むことを特徴とする請求項２５に記載の方法。
前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて、前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層をトレーニングすることは、
前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層の重み値を調整することを含むことを特徴とする請求項１５〜２６のいずれか一項に記載の方法。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第１の特徴を局所領域検出器の分類の重みとするための第１の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第２の特徴を前記局所領域検出器の回帰の重みとするための第２の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含むことを特徴とする目標検出装置。
前記ニューラルネットワークは、同じ構成を有し、前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出するために用いられる別々のニューラルネットワークを含むことを特徴とする請求項２８に記載の装置。
前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項２８又は２９に記載の装置。
前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項２８〜３０のいずれか一項に記載の装置。
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び／又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び／又は幅より大きい領域画像を切り出して前記検出フレームとするための前処理ユニットを更に含むことを特徴とする請求項３１に記載の装置。
前記局所領域検出器は、前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられることを特徴とする請求項２８〜３２のいずれか一項に記載の装置。
前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第３の特徴を取得するための第３の畳み込み層と、
前記分類の重みを用いて前記第３の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項３３に記載の装置。
前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第４の特徴を取得するための第４の畳み込み層と、
前記回帰の重みを用いて前記第４の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項３３に記載の装置。
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得するために用いられることを特徴とする請求項２８〜３５のいずれか一項に記載の装置。
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択する時に、前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から１つの候補枠を選択するために用いられることを特徴とする請求項３６に記載の装置。
前記回帰結果により前記分類結果を調整するための調整ユニットを更に含み、
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から１つの候補枠を選択する時に、調整後の分類結果により前記複数の候補枠から１つの候補枠を選択するために用いられることを特徴とする請求項３６に記載の装置。
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層をトレーニングするためのトレーニングユニットを更に含むことを特徴とする請求項２８〜３８のいずれか一項に記載の装置。
前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
前記トレーニングユニットは、前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第１の畳み込み層及び前記第２の畳み込み層の重み値を調整するために用いられることを特徴とする請求項３９に記載の装置。
請求項２８〜４０のいずれか一項に記載の目標検出装置を含むことを特徴とする電子機器。
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより請求項１〜２７のいずれか一項に記載の方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、請求項１〜２７のいずれか一項に記載の方法の操作が実現されることを特徴とするコンピュータ記憶媒体。