JP2021502645A - 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 - Google Patents

目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 Download PDF

Info

Publication number
JP2021502645A
JP2021502645A JP2020526040A JP2020526040A JP2021502645A JP 2021502645 A JP2021502645 A JP 2021502645A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2021502645 A JP2021502645 A JP 2021502645A
Authority
JP
Japan
Prior art keywords
frame
detection frame
detection
regression
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020526040A
Other languages
English (en)
Other versions
JP7165731B2 (ja
Inventor
ポー リー
ポー リー
ウェイ ウー
ウェイ ウー
Original Assignee
ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド, ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド filed Critical ベイジン センスタイム テクノロジー ディベロップメント カンパニー リミテッド
Publication of JP2021502645A publication Critical patent/JP2021502645A/ja
Application granted granted Critical
Publication of JP7165731B2 publication Critical patent/JP7165731B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本開示の実施例は、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体を開示する。目標検出方法は、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することとを含む。本開示の実施例は、目標追跡の速度と正確性を高めることができる。

Description

本開示は、コンピュータビジョン技術に関し、特に、目標検出方法及び装置、トレーニング方法、電子機器並びに媒体に関する。
<関連出願の相互参照>
本願は、2017年11月12日に中国特許局に提出された、出願番号CN201711110587.1、発明の名称「目標検出方法及び装置、トレーニング方法、電子機器、プログラム並びに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
単一目標追跡は、人工知能分野の重要な課題となっており、自動運転、多目標追跡等の一連のタスクに用いられる。単一目標追跡の主なタスクは、ビデオシーケンスのセグメント内の1フレームの画像において追跡される目標を指定し、その後のフレーム画像においてこの指定された目標を継続的に追跡することである。
本開示の実施例は、目標追跡を行うための技術的手段を提供する。
本開示の実施例の一方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含む目標追跡方法を提供する。
本開示の実施例の別の方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含む目標検出ネットワークのトレーニング方法を提供する。
本開示の実施例のまた1つの方面によれば、
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含む目標検出装置を提供する。
本開示の実施例の更なる別の方面によれば、本開示の実施例のいずれか1つに記載の前記目標検出装置を含む電子機器を提供する。
本開示の実施例の更なる別の方面によれば、
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより、本開示の実施例のいずれか1つに記載の前記方法の操作を完成するためのプロセッサと、を含む別の電子機器を提供する。
本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、本開示の実施例のいずれか1つに記載の前記方法の操作が実現されるコンピュータ記憶媒体を提供する。
本開示の実施例の更なる別の方面によれば、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、前記コンピュータ読取可能コマンドが機器上で作動すると、前記機器におけるプロセッサに本開示の実施例のいずれか1つに記載の前記方法におけるステップを実現するための実行可能コマンドを実行させるコンピュータプログラムを提供する。
本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
以下、図面及び実施例によって本開示の技術的手段をさらに詳しく説明する。
明細書の一部を構成する図面は、本開示の実施例を説明するためのものであって、また、実施例に対する説明と共に本開示の原理を解釈するためのものである。
図面を伴う以下の詳細な説明により、本開示をより明瞭に理解することができる。
本開示の目標検出方法の一実施例のフローチャートである。 本開示の目標検出方法の別の実施例のフローチャートである。 本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。 本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。 本開示の目標検出装置の一実施例の構成模式図である。 本開示の目標検出装置の別の実施例の構成模式図である。 本開示の目標検出装置のまた1つの実施例の構成模式図である。 本開示の目標検出装置の一適用実施例の構成模式図である。 本開示の目標検出装置の別の適用実施例の構成模式図である。 本開示の電子機器の一適用実施例の構成模式図である。
ここで、図面を参照しながら本開示の様々な例示的な実施例を詳細に説明する。なお、特に断らない限り、これらの実施例で記述した部材及びステップの相対的配置、数式及び値は本開示の範囲を限定するものではないことに注意すべきである。
更に、本開示の実施例では、「複数」は2つ又は2つ以上を指してよく、「少なくとも1つ」は1つ、2つ又は2つ以上を指してよいことを理解すべきである。
本願の実施例における「第1の」、「第2の」等の用語は、異なるステップ、機器又はモジュール等を区別するためのものに過ぎず、特定の技術的意味を表したり、必然的な論理的順序を表したりすることではないことが当業者にとって理解可能である。
更に、本開示で言及された任意の部材、データ又は構造は、明確に限定されない限り又は明細書の前後で反対的なものが示唆されない限り、一般的には1つ又は複数と理解してよいことを理解すべきである。
更に、本開示では、各実施例について、相違点を強調して説明し、同一又は類似的な点について、相互に参照することができるので、簡潔化するために、繰り返して説明しないことを理解すべきである。
同時に、説明の便宜上、図面に示した各部分の寸法は実際の比例関係に従って描いたものではないことを理解すべきである。
以下の少なくとも一つの例示的な実施例に対する説明は、実質的に、説明するためのものに過ぎず、本開示及びその適用または使用をなんら限定するものではない。
関連分野の当業者に既知の技術、方法及び機器については、詳細に説明しない場合があるが、場合によって、前記技術、方法及び機器は明細書の一部としての援用と見なすべきである。
なお、以下の図面において、類似する符号及び英文字は類似項目を表し、ある項目がある図面において定義されれば、以降の図面においてそれをさらに説明する必要がないことに注意すべきである。
本開示の実施例は端末装置、コンピュータシステム、サーバ等の電子機器に適用可能であり、それは他の多くの汎用または専用コンピューティングシステム環境または構成で動作可能である。端末装置、コンピュータシステム、サーバ等の電子機器と共に使用するのに適する公知の端末装置、コンピューティングシステム、環境及び/または構成の例としては、パーソナルコンピュータシステム、サーバコンピュータシステム、シンクライアント、ファットクライアント、手持ちまたはラップトップデバイス、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者用電子機器、ネットワークパソコン、小型コンピュータシステム、大型コンピュータシステム及び前記システムのいずれかを含む分散型クラウドコンピューティング技術環境などを含むが、これらに限定されない。
端末装置、コンピュータシステム、サーバ等の電子機器はコンピュータシステムにより実行されるコンピュータシステム実行可能コマンド(例えば、プログラムモジュール)の一般的なコンテキストで記述できる。通常、プログラムモジュールは特定のタスクを実行するかまたは特定の抽象データ型を実現するルーチン、プログラム、目的プログラム、コンポーネント、ロジック、データ構造などを含んでよい。コンピュータシステム/サーバは分散型クラウドコンピューティング環境において実施されてよい。分散型クラウドコンピューティング環境において、タスクは通信ネットワークを介してリンクされる遠隔処理機器により実行される。分散型クラウドコンピューティング環境において、プログラムモジュールは記憶機器を含むローカルまたはリモートのコンピューティングシステムの記憶媒体に存在してよい。
図1は本開示の目標検出方法の一実施例のフローチャートである。図1に示すように、該実施例の目標検出方法は以下の操作を含む。
102、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の各実施例の一実施形態では、該領域画像の大きさがテンプレートフレームの画像より大きく、例えば、該領域画像はテンプレートフレームの画像の中心点を中心点として、大きさがテンプレートフレーム画像の大きさの2−4倍であってよい。
本開示の各実施例の一実施形態では、テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであり、ビデオシーケンスにおいて目標追跡を行う開始フレームであってよく、該開始フレームのビデオフレームシーケンスでの位置が柔軟に設定され、例えばビデオフレームシーケンスにおける先頭フレーム又は任意の中間フレームであってよい。検出フレームは目標追跡を行うフレームであり、検出フレームの画像において目標対象物の検出枠が特定された後、該検出フレームにおける検出枠に対応する画像を次の検出フレームのテンプレートフレームの画像としてよい。
本開示の各実施例の一実施形態では、該操作102において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。
選択可能な一例において、該操作102はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。
104、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。
本開示の各実施例の一実施形態では、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとするようにしてもよい。
例えば、選択可能な一例では、第1の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の2k(kが0より大きい整数である)倍になる第1の特徴を取得するように、局所領域検出器の分類の重みを取得することができる。
本開示の各実施例の一実施形態では、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとするようにしてもよい。
例えば、選択可能な一例では、第2の畳み込み層によってテンプレートフレームの特徴のチャンネル数を増加して、チャンネル数がテンプレートフレームの特徴のチャンネル数の4k(kが0より大きい整数である)倍になる第2の特徴を取得するように、局所領域検出器の回帰の重みを取得することができる。
選択可能な一例において、該操作104はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。
106、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
本開示の各実施例の選択可能な一例では、上記複数の候補枠は、検出フレームの各位置でのK個の候補枠を含んでよい。ここで、Kが予め設定された、1より大きい整数である。K個の候補枠の長さと幅の割合はそれぞれ異なっており、例えば、K個の候補枠の長さと幅の割合は、1:1、2:1、2:1、3:1、1:3等を含んでよい。分類結果は、各位置でのK個の候補枠が目標対象物の検出枠である確率値を表すためのものである。
本開示の目標検出方法の選択可能な一実施例では、該操作106によって複数の候補枠が目標対象物の検出枠である確率値を取得した後、更に、該分類結果に対して正規化処理を行って、各候補枠が目標対象物の検出枠である確率値の和を1にすることを含んでよい。このように、各候補枠が目標対象物の検出枠であるか否かを容易に判断することに寄与する。
本開示の各実施例の選択可能な一例では、回帰結果は検出フレーム画像の各位置でのK個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を含み、このずれ量は位置と大きさの変化量を含んでよく、この位置は中心点の位置であってもよく、基準枠の4つの頂点の位置等であってもよい。
第2の特徴のチャンネル数がテンプレートフレームの特徴のチャンネル数の4k倍になる場合に、各候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量は、例えば中心点の位置の横座標のずれ量(dx)、中心点の位置の縦座標のずれ量(dy)、高さの変化量(dh)及び幅の変化量(dw)を含んでよい。
本開示の各実施例の一実施形態では、該操作106には、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。
選択可能な一例において、該操作106はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。
108、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。
選択可能な一例において、該操作108はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。
本開示の上記実施例の目標検出方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
本開示の実施例では、テンプレートフレームに基づいて、局所領域検出器は検出フレームから大量の候補枠を高速に生成し、且つ検出フレームの各位置でのK個の候補枠のそれぞれの、テンプレートフレームにおける目標対象物の検出枠からのずれ量を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
本開示の目標検出方法の別の実施例では、
ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
上記少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される上記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの特徴に対して操作106を実行することと、
上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、上記少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作108を実行することと、を更に含んでよい。
本開示の目標検出方法のまた1つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、更に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとすることを含んでよい。
図2は本開示の目標検出方法の別の実施例のフローチャートである。図2に示すように、該実施例の目標検出方法は以下の操作を含む。
202、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
本開示の各実施例の一実施形態では、該操作202において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。
選択可能な一例において、該操作202はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。
204、第3の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得し、第4の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得する。
選択可能な一例において、該操作204はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第3の畳み込み層と第4の畳み込み層により実行されてもよい。
206、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得する。
本開示の各実施例の一実施形態では、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとするようにしてもよい。
本開示の各実施例の一実施形態では、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとするようにしてもよい。
ここで、操作206と204は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。
選択可能な一例において、該操作206はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。
208、分類の重みを用いて第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
選択可能な一例において、該操作208はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。
210、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。
選択可能な一例において、該操作210はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。
本開示の各実施例の一実施形態では、操作108又は210には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。
選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から1つの候補枠を選択するように実現することができる。
別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。例えば、位置の変化量が大きく(即ち、位置移動が大きく)、大きさの変化量が大きい(即ち、形状変化が大きい)候補枠の確率値に対してペナルティを与えて、その確率値を低くする。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。
選択可能な一例において、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する上記操作は、プロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。
図3は本開示の目標検出ネットワークのトレーニング方法の一実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層を含む。図3に示すように、該実施例のトレーニング方法は以下の操作を含む。
302、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
本開示の各実施例の一実施形態では、該操作302において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。
選択可能な一例において、該操作302はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。
304、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとし、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとする。
選択可能な一例において、該操作304はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。
306、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
本開示の各実施例の一実施形態では、該操作306は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含んでよい。
選択可能な一例において、該操作306はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する領域検出器によって実行されてもよい。
308、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。
選択可能な一例において、該操作308はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する取得ユニットによって実行されてもよい。
310、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層をトレーニングする。
選択可能な一例において、該操作310はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。
本開示の上記実施例の目標検出ネットワークのトレーニング方法によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
本開示のトレーニング方法の別の実施例では、ニューラルネットワークによりビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に少なくとも1つの他の検出フレームの特徴に対して操作306を実行することと、
少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作308を実行することと、を更に含んでよい。
本開示のトレーニング方法のまた1つの実施例では、検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、予めテンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとすることを更に含んでよい。
図4は本開示の目標検出ネットワークのトレーニング方法の別の実施例のフローチャートである。本開示の実施例の目標検出ネットワークは、本開示の実施例のニューラルネットワーク、第1の畳み込み層、第2の畳み込み層、第3の畳み込み層及び第4の畳み込み層を含む。図4に示すように、該実施例のトレーニング方法は以下の操作を含む。
402、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出する。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
本開示の各実施例の一実施形態では、該操作402において、同一のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよいし、同じ構成を有する別々のニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出してもよい。
選択可能な一例において、該操作402はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するニューラルネットワークによって実行されてもよい。
404、第3の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得し、第4の畳み込み層によって検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得する。
選択可能な一例において、該操作404はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第3の畳み込み層と第4の畳み込み層により実行されてもよい。
406、第1の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を局所領域検出器の分類の重みとし、第2の畳み込み層によってテンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を局所領域検出器の回帰の重みとする。
ここで、操作406と404は実行順序が限定されなく、同時に実行されてもよいし、任意の先後順序で実行されてもよい。
選択可能な一例において、該操作406はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、それぞれプロセッサで作動する第1の畳み込み層と第2の畳み込み層により実行されてもよい。
408、分類の重みを用いて第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得し、回帰の重みを用いて第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得する。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
選択可能な一例において、該操作408はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する局所領域検出器によって実行されてもよい。
410、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。
選択可能な一例において、該操作410はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する第1の特徴抽出ユニット701によって実行されてもよい。
412、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、ラベリングされた検出フレームでの目標対象物の検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層の重み値を調整する。
選択可能な一例において、該操作412はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動するトレーニングユニットによって実行されてもよい。
本開示の各実施例の一実施形態では、操作308又は410には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。
選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値と分類結果の重み係数との積と、ずれ量と回帰結果の重み係数との積との和に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から確率値が高くてずれ量が小さい候補枠を選択するように実現することができる。
別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。
選択可能な一例において、上記回帰結果の位置と大きさの変化量により候補枠の確率値を調整する操作はプロセッサによりメモリに記憶された対応のコマンドを呼び出して実行されてもよく、プロセッサで作動する調整ユニットによって実行されてもよい。
本開示の各実施例の一実施形態では、操作308又は410には、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得することを含んでよい。
選択可能な一例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択し、例えば、分類結果と回帰結果の重み係数により、それぞれ各候補枠の確率値とずれ量に基づいて総合的スコアを算出し、上記複数の候補枠の総合的スコアにより上記複数の候補枠から1つの候補枠を選択するように実現することができる。
別の選択可能な例では、上記各実施例によって回帰結果を取得した後に、更に、回帰結果の位置と大きさの変化量により候補枠の確率値を調整することを含んでよい。例えば、回帰結果の位置と大きさの変化量により候補枠の確率値を調整する。例えば、位置の変化量が大きく(即ち、位置移動が大きく)、大きさの変化量が大きい(即ち、形状変化が大きい)候補枠の確率値に対してペナルティを与えて、その確率値を低くする。それに対応して、この例では、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択し、例えば、調整後の確率値により複数の候補枠から確率値が最も高い候補枠を選択するように実現することができる。
本開示の各実施例では、局所領域検出器は、第3の畳み込み層、第4の畳み込み層及び2つの畳み込み操作ユニットを含んでよい。ここで、局所領域検出器と第1の畳み込み層、第2の畳み込み層が結合されて形成された局所領域検出器はリージョンプロポーザルネットワーク(Region Proposal Network)と呼んでもよい。
本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはデータ処理能力を有するいかなる適切な機器によって実行されてもよく、機器は端末装置とサーバ等を含むが、それらに限定されない。又は、本開示の実施例で提供される目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つはプロセッサによって実行されてもよく、例えば、プロセッサはメモリに記憶された対応のコマンドを呼び出すことで本開示の実施例に係わる目標検出方法、目標検出ネットワークのトレーニング方法のいずれか一つを実行する。以下、詳細な説明を省略する。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解すべき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムが実行されると、上記方法の実施例を含むステップを実行する。
図5は本開示の目標検出装置の一実施例の構成模式図である。本開示の各実施例の目標検出装置は、本開示の上記の各目標検出方法の実施例を実現するために利用可能である。図5に示すように、該実施例の目標検出装置はニューラルネットワーク、第1の畳み込み層、第2の畳み込み層、局所領域検出器及び取得ユニットを含む。
ニューラルネットワークは、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するために用いられる。ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。テンプレートフレームと検出フレームの特徴を抽出するニューラルネットワークは同一のニューラルネットワークであってもよいし、同じ構成を有する別々のニューラルネットワークであってもよい。
第1の畳み込み層は、前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとするために用いられる。
第2の畳み込み層は、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとするために用いられる。
局所領域検出器は、検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するために用いられ、ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
取得ユニットは、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得するために用いられる。
本開示の上記実施例の目標検出装置によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得する。本開示の実施例では、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
本開示の目標検出装置の各実施例の一実施形態では、局所領域検出器は、分類の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、回帰の重みを用いて検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられる。
検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の目標検出装置の別の実施例では、テンプレートフレームの中心点を中心点として、現在フレームから長さ及び/又は幅がそれぞれテンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して検出フレームとするための前処理ユニットを更に含んでよい。図6に示すように、本開示の目標検出装置の別の実施例の構成模式図である。
また、図6を再度参照し、本開示の目標検出装置のまた1つの実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第3の特徴を取得するための第3の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、分類の重みを用いて第3の特徴に対して畳み込み操作を行うために用いられる。
また、図6を再度参照し、本開示の目標検出装置の更なる別の実施例では、検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が検出フレームの特徴のチャンネル数と同様な第4の特徴を取得するための第4の畳み込み層を更に含んでよい。それに対応して、該実施例では、局所領域検出器は、回帰の重みを用いて第4の特徴に対して畳み込み操作を行うために用いられる。
本開示の目標検出装置の各実施例の別の実施形態では、取得ユニットは、分類結果と回帰結果により複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により選択された候補枠を回帰させ、検出フレームにおける目標対象物の検出枠を取得するために用いられる。
例示的には、取得ユニットは分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、分類結果と回帰結果の重み係数により複数の候補枠から1つの候補枠を選択するために用いられる。
また、図6を再度参照し、本開示の目標検出装置の更なる別の実施例では、回帰結果により分類結果を調整するための調整ユニットを更に含んでよい。それに対応して、取得ユニットは分類結果と回帰結果により複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により複数の候補枠から1つの候補枠を選択するために用いられる。
図7は本開示の目標検出装置の更なる別の実施例の構成模式図である。該実施例の目標検出装置は、本開示の図3〜図4の目標検出ネットワークのトレーニング方法の実施例のいずれか一つを実現するために利用可能である。図7に示すように、図5又は図6に示す実施例と比べると、該実施例の目標検出装置は、取得された検出フレームにおける目標対象物の検出枠を予測検出枠とし、検出フレームのラベリング情報と予測検出枠に基づいてニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層をトレーニングするためのトレーニングユニットを更に含む。
一実施形態では、検出フレームのラベリング情報は、ラベリングされた検出フレームでの目標対象物の検出枠の位置と大きさを含む。それに対応して、該実施形態では、トレーニングユニットは、ラベリングされた検出枠の位置及び大きさと予測検出枠の位置及び大きさとの差により、ニューラルネットワーク、第1の畳み込み層及び第2の畳み込み層の重み値を調整するために用いられる。
本開示の上記実施例によれば、ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出し、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、検出フレームの特徴を局所領域検出器に入力し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、検出フレームにおける目標対象物の検出枠を取得し、検出フレームのラベリング情報と予測検出枠に基づいて目標検出ネットワークをトレーニングする。本開示の実施例に基づいてトレーニングされた目標検出ネットワークによれば、同一のニューラルネットワーク又は同じ構成を有するニューラルネットワークにより同一の目標対象物の類似特徴をよりよく抽出でき、異なるフレームから抽出された目標対象物の特徴変化が小さく、検出フレームにおける目標対象物の検出結果の正確性を高めることに寄与する。また、テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することにより、局所領域検出器は検出フレームの複数の候補枠の分類結果と回帰結果を取得し、更に検出フレームにおける前記目標対象物の検出枠を取得することができ、目標対象物の位置と大きさの変化をよりよく推定でき、検出フレームでの目標対象物の位置をより精確に確定でき、目標追跡の速度や正確性が高くなり、追跡効果に優れ、速度が速い。
図8は本開示の目標検出装置の一適用実施例の構成模式図である。図9は本開示の目標検出装置の別の適用実施例の構成模式図である。図8及び図9では、LxMxN(例えば、256x20x20)において、Lはチャンネル数を表し、MとNはそれぞれ高さ(即ち、長さ)と幅を表す。
本開示の実施例は、本開示の上記実施例のいずれか1つの目標検出装置を含む電子機器を更に提供する。
本開示の実施例は、実行可能コマンドを記憶するためのメモリと、メモリと通信して、実行可能コマンドを実行することにより本開示の上記実施例のいずれか1つの目標検出方法又は目標検出ネットワークのトレーニング方法の操作を完成するためのプロセッサと、を含む別の電子機器を更に提供する。
図10は本開示の電子機器の一適用実施例の構成模式図である。以下、本願の実施例の端末装置又はサーバを実現するのに適する電子機器の構成模式図を示す図10を参照する。図10に示すように、該電子機器は1つ又は複数のプロセッサ、通信部などを含む。前記1つ又は複数のプロセッサは、例えば、1つ又は複数の中央処理ユニット(CPU)、及び/又は1つ又は複数の画像プロセッサ(GPU)などであり、プロセッサは、読み取り専用メモリ(ROM)に記憶された実行可能コマンド又は記憶部からランダムアクセスメモリ(RAM)にロードされた実行可能コマンドによって各種の適切な動作及び処理を実現することができる。通信部はネットワークカードを含んでよいが、それに限定されなく、前記ネットワークカードはIB(Infiniband)ネットワークカードを含んでよいが、それに限定されない。プロセッサは実行可能コマンドを実行するように読み取り専用メモリ及び/又はランダムアクセスメモリと通信し、バスを介して通信部に接続され、通信部を介して他の対象装置と通信して、本開示の実施例で提供される方法のいずれか一項に対応する操作を完成してよい。例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得し、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得する。更に、例えば、ニューラルネットワークにより、検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出し、第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとし、前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得し、取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングする。
また、RAMには、装置の動作に必要な様々なプログラムやデータが格納されていてもよい。CPU、ROM及びRAMは、バスを介して相互に接続される。RAMを有する場合に、ROMは選択可能なモジュールである。RAMはプロセッサに本開示の上記方法のいずれか一項に対応する操作を実行させるための実行可能コマンドを格納するか、または動作時当該実行可能コマンドをROMに書き込む。入力/出力(I/O)インターフェイスもバスに接続される。通信部は、集積的に設置されてもよく、複数のサブモジュール(例えば複数のIBネットワークカード)を有し、且つバスを介してリンクされるように設置されてもよい。
キーボード、マウスなどを含む入力部と、例えば陰極線管(CRT)、液晶ディスプレイー(LCD)など及びスピーカなどを含む出力部と、ハードディスクなどを含む記憶部と、例えばLANカード、モデムなどのネットワークインターフェイスカードを含む通信部とがI/Oインターフェイスに接続されている。通信部は例えばインターネットのようなネットワークを介して通信処理を実行する。ドライブも必要に応じてI/Oインターフェイスに接続される。例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどのリムーバブル媒体は、必要に応じてドライブ上に装着され、そこから読み出されたコンピュータプログラムを必要に応じて記憶部にインストールする。
なお、図10に示すアーキテクチャは選択可能な一実施形態に過ぎない。具体的な実践過程では、実際の必要に応じて上記図10の部品の数及び種類を選択、削除、追加、または置換することができる。異なる機能の部品の設置について、個別な設置または集積な設置などの実現方式を採用でき、例えばGPUとCPUは、個別に設置されるかまたはGPUをCPUに集積させて、通信部は、個別に設置されるか、またはCPUやGPUに集積的に設置されることなどが可能です。これらの代替的な実施形態はすべて本願の保護範囲に含まれる。
また、本開示の実施例は、コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、該コマンドが実行されると、本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか1つの操作が実現されるコンピュータ記憶媒体を更に提供する。
また、本開示の実施例は、コンピュータ読取可能コマンドを含むコンピュータプログラムであって、該コンピュータ読取可能コマンドが機器上で作動すると、該機器におけるプロセッサに本開示の上記実施例の目標検出方法又は目標検出ネットワークのトレーニング方法のいずれか1つの操作を実現するための実行可能コマンドを実行させるコンピュータプログラムを更に提供する。
本開示の実施例は単一目標追跡を行うことができる。例えば、多目標追跡システムにおいて、フレームごとに目標検出を行わなくてもよく、所定の検出間隔、例えば10フレームごとに一回検出し、その間の9フレームについては単一目標追跡によって中間フレームでの目標の位置を特定するようにしてもよい。本開示の実施例のアルゴリズムは速度が速いので、全体的に多目標追跡システムに追跡をより速く完了させ、よりよい効果を達成することができる。
当業者であれば、上記方法の実施例を実現する全てまたは一部のステップはプログラムによって関連ハードウェアに命令を出すことにより完成できることを理解すべき、前記プログラムは、ROM、RAM、磁気ディスクまたは光ディスクなどのプログラムコードを記憶可能である様々な媒体を含むコンピュータ読み取り可能記憶媒体に記憶可能であり、該プログラムが実行されると、上記方法の実施例を含むステップを実行する。
本明細書における様々な実施例は漸進的に説明され、各実施例について他の実施例との相違点に集中して説明したが、各実施例の同一または類似の部分については相互に参照すればよい。システム実施例については、基本的に方法実施例に対応するので、簡単に説明したが、関連部分は方法実施例の説明の一部を参照すればよい。
本開示の方法及び装置は、様々な形態で実現され得る。例えば、ソフトウェア、ハードウェア、ファームウェア、またはソフトウェア、ハードウェア、ファームウェアの任意の組合わせによって本開示の方法及び装置を実現することができる。前記方法のステップの上記順序は単に説明するためのものであり、他の形態で特に説明しない限り、本開示の方法のステップは、上記具体的に説明した順序に限定されない。また、いくつかの実施例では、本開示は記録媒体に記憶されたプログラムとしてもよく、これらのプログラムは本開示の方法を実現するための機械可読コマンドを含む。従って、本開示は本開示の方法を実行するためのプログラムが記憶された記録媒体も含む。
本願の説明は、例示及び説明のためのものであり、漏れなくまたは本願を開示された形式に限定するものではない。当業者にとっては多くの修正及び変形が明らかなことである。実施例を選択し説明する目的は、本願の原理及び実際応用をより好適に説明し、当業者に本願を理解させて特定用途に適する各種の修正を加えた各種の実施例を設計させることにある。

Claims (43)

  1. 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
    前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
    前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
    前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含むことを特徴とする目標検出方法。
  2. 前記ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
    前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
    前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項1に記載の方法。
  3. ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
    同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
    同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項1又は2に記載の方法。
  4. 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項1〜3のいずれか一項に記載の方法。
  5. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項1〜4のいずれか一項に記載の方法。
  6. 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
    前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項5に記載の方法。
  7. 前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みを取得することは、
    第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとすることを含むことを特徴とする請求項1〜6のいずれか一項に記載の方法。
  8. 前記テンプレートフレームの特徴に基づいて局所領域検出器の回帰の重みを取得することは、
    第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることを含むことを特徴とする請求項1〜7のいずれか一項に記載の方法。
  9. 前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
    前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。
  10. 前記検出フレームの特徴を抽出した後に、第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
    前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項9に記載の方法。
  11. 前記テンプレートフレームの特徴を抽出した後に、第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
    前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項9又は10に記載の方法。
  12. 前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
    前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項1〜11のいずれか一項に記載の方法。
  13. 前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
    前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。
  14. 回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
    前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。
  15. 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
    第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることと、
    前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
    前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
    取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含むことを特徴とする目標検出ネットワークのトレーニング方法。
  16. 前記ニューラルネットワークによりビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
    前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
    前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項15に記載の方法。
  17. ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
    同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
    同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項15又は16に記載の方法。
  18. 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項15〜17のいずれか一項に記載の方法。
  19. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項15〜18のいずれか一項に記載の方法。
  20. 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
    前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項19に記載の方法。
  21. 前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
    前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項15〜20のいずれか一項に記載の方法。
  22. 前記検出フレームの特徴を抽出した後に、
    第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
    前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項21に記載の方法。
  23. 前記テンプレートフレームの特徴を抽出した後に、
    第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
    前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項21に記載の方法。
  24. 前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
    前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項15〜23のいずれか一項に記載の方法。
  25. 前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
    前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項24に記載の方法。
  26. 回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
    前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項25に記載の方法。
  27. 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
    取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることは、
    前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整することを含むことを特徴とする請求項15〜26のいずれか一項に記載の方法。
  28. 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
    前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
    前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
    前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
    前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含むことを特徴とする目標検出装置。
  29. 前記ニューラルネットワークは、同じ構成を有し、前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出するために用いられる別々のニューラルネットワークを含むことを特徴とする請求項28に記載の装置。
  30. 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項28又は29に記載の装置。
  31. 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項28〜30のいずれか一項に記載の装置。
  32. 前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとするための前処理ユニットを更に含むことを特徴とする請求項31に記載の装置。
  33. 前記局所領域検出器は、前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられることを特徴とする請求項28〜32のいずれか一項に記載の装置。
  34. 前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得するための第3の畳み込み層と、
    前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。
  35. 前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得するための第4の畳み込み層と、
    前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。
  36. 前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得するために用いられることを特徴とする請求項28〜35のいずれか一項に記載の装置。
  37. 前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。
  38. 前記回帰結果により前記分類結果を調整するための調整ユニットを更に含み、
    前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。
  39. 取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングするためのトレーニングユニットを更に含むことを特徴とする請求項28〜38のいずれか一項に記載の装置。
  40. 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
    前記トレーニングユニットは、前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整するために用いられることを特徴とする請求項39に記載の装置。
  41. 請求項28〜40のいずれか一項に記載の目標検出装置を含むことを特徴とする電子機器。
  42. 実行可能コマンドを記憶するためのメモリと、
    前記メモリと通信して、前記実行可能コマンドを実行することにより請求項1〜27のいずれか一項に記載の方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。
  43. コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、請求項1〜27のいずれか一項に記載の方法の操作が実現されることを特徴とするコンピュータ記憶媒体。
JP2020526040A 2017-11-12 2018-11-09 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 Active JP7165731B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201711110587.1 2017-11-12
CN201711110587.1A CN108230359B (zh) 2017-11-12 2017-11-12 目标检测方法和装置、训练方法、电子设备、程序和介质
PCT/CN2018/114884 WO2019091464A1 (zh) 2017-11-12 2018-11-09 目标检测方法和装置、训练方法、电子设备和介质

Publications (2)

Publication Number Publication Date
JP2021502645A true JP2021502645A (ja) 2021-01-28
JP7165731B2 JP7165731B2 (ja) 2022-11-04

Family

ID=62655730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526040A Active JP7165731B2 (ja) 2017-11-12 2018-11-09 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体

Country Status (7)

Country Link
US (1) US11455782B2 (ja)
JP (1) JP7165731B2 (ja)
KR (1) KR20200087784A (ja)
CN (1) CN108230359B (ja)
PH (1) PH12020550588A1 (ja)
SG (1) SG11202004324WA (ja)
WO (1) WO2019091464A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108230359B (zh) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
US11430312B2 (en) * 2018-07-05 2022-08-30 Movidius Limited Video surveillance with neural networks
CN109584276B (zh) * 2018-12-04 2020-09-25 北京字节跳动网络技术有限公司 关键点检测方法、装置、设备及可读介质
CN109726683B (zh) 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN110136107B (zh) * 2019-05-07 2023-09-05 上海交通大学 基于dssd和时域约束x光冠脉造影序列自动分析方法
CN110399900A (zh) * 2019-06-26 2019-11-01 腾讯科技(深圳)有限公司 对象检测方法、装置、设备及介质
CN110533184B (zh) * 2019-08-31 2023-01-06 南京人工智能高等研究院有限公司 一种网络模型的训练方法及装置
CN110598785B (zh) * 2019-09-11 2021-09-07 腾讯科技(深圳)有限公司 一种训练样本图像的生成方法及装置
CN110647938B (zh) * 2019-09-24 2022-07-15 北京市商汤科技开发有限公司 图像处理方法及相关装置
US11429809B2 (en) 2019-09-24 2022-08-30 Beijing Sensetime Technology Development Co., Ltd Image processing method, image processing device, and storage medium
CN111860090A (zh) * 2019-11-06 2020-10-30 北京嘀嘀无限科技发展有限公司 一种车辆验证方法及装置
CN110866509B (zh) 2019-11-20 2023-04-28 腾讯科技(深圳)有限公司 动作识别方法、装置、计算机存储介质和计算机设备
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation
CN110942065B (zh) * 2019-11-26 2023-12-12 Oppo广东移动通信有限公司 文本框选方法、装置、终端设备及计算机可读存储介质
KR102311798B1 (ko) * 2019-12-12 2021-10-08 포항공과대학교 산학협력단 다중 객체 추적 방법 및 장치
JP7490359B2 (ja) * 2019-12-24 2024-05-27 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
CN111383244B (zh) * 2020-02-28 2023-09-01 浙江大华技术股份有限公司 一种目标检测跟踪方法
CN111898701B (zh) * 2020-08-13 2023-07-25 网易(杭州)网络有限公司 模型训练、帧图像生成、插帧方法、装置、设备及介质
CN112215899B (zh) * 2020-09-18 2024-01-30 深圳市瑞立视多媒体科技有限公司 帧数据在线处理方法、装置和计算机设备
CN112381136B (zh) * 2020-11-12 2022-08-19 深兰智能科技(上海)有限公司 目标检测方法和装置
CN112464797B (zh) * 2020-11-25 2024-04-02 创新奇智(成都)科技有限公司 一种吸烟行为检测方法、装置、存储介质及电子设备
CN112465691A (zh) * 2020-11-25 2021-03-09 北京旷视科技有限公司 图像处理方法、装置、电子设备和计算机可读介质
CN112465868B (zh) * 2020-11-30 2024-01-12 浙江华锐捷技术有限公司 一种目标检测跟踪方法、装置、存储介质及电子装置
CN112580474B (zh) * 2020-12-09 2021-09-24 云从科技集团股份有限公司 基于计算机视觉的目标对象检测方法、***、设备及介质
CN112528932B (zh) * 2020-12-22 2023-12-08 阿波罗智联(北京)科技有限公司 用于优化位置信息的方法、装置、路侧设备和云控平台
CN112906478B (zh) * 2021-01-22 2024-01-09 北京百度网讯科技有限公司 目标对象的识别方法、装置、设备和存储介质
CN113128564B (zh) * 2021-03-23 2022-03-22 武汉泰沃滋信息技术有限公司 一种基于深度学习的复杂背景下典型目标检测方法及***
CN113076923A (zh) * 2021-04-21 2021-07-06 山东大学 基于轻量型网络MobileNet-SSD的口罩佩戴检测方法、设备及存储介质
CN113221962B (zh) * 2021-04-21 2022-06-21 哈尔滨工程大学 一种解耦分类与回归任务的三维点云单阶段目标检测方法
CN113160247B (zh) * 2021-04-22 2022-07-05 福州大学 基于频率分离的抗噪孪生网络目标跟踪方法
CN113327253B (zh) * 2021-05-24 2024-05-24 北京市遥感信息研究所 一种基于星载红外遥感影像的弱小目标检测方法
CN113065618A (zh) * 2021-06-03 2021-07-02 常州微亿智造科技有限公司 工业质检中的检测方法、检测装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026108A (ja) * 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
WO2005098739A1 (en) * 2004-04-08 2005-10-20 Mobileye Technologies Limited Pedestrian detection
CN104424634B (zh) * 2013-08-23 2017-05-03 株式会社理光 对象跟踪方法和装置
EP3089081A4 (en) * 2014-02-10 2017-09-20 Mitsubishi Electric Corporation Hierarchical neural network device, learning method for determination device, and determination method
CN106355188B (zh) * 2015-07-13 2020-01-21 阿里巴巴集团控股有限公司 图像检测方法及装置
CN105740910A (zh) * 2016-02-02 2016-07-06 北京格灵深瞳信息技术有限公司 一种车辆物件检测方法及装置
US11144761B2 (en) * 2016-04-04 2021-10-12 Xerox Corporation Deep data association for online multi-class multi-object tracking
CN105976400B (zh) * 2016-05-10 2017-06-30 北京旷视科技有限公司 基于神经网络模型的目标跟踪方法及装置
CN106326837B (zh) * 2016-08-09 2019-09-17 北京旷视科技有限公司 对象追踪方法和装置
CN106650630B (zh) * 2016-11-11 2019-08-23 纳恩博(北京)科技有限公司 一种目标跟踪方法及电子设备
CN106709936A (zh) * 2016-12-14 2017-05-24 北京工业大学 一种基于卷积神经网络的单目标跟踪方法
CN107066990B (zh) * 2017-05-04 2019-10-11 厦门美图之家科技有限公司 一种目标跟踪方法及移动设备
CN108230359B (zh) * 2017-11-12 2021-01-26 北京市商汤科技开发有限公司 目标检测方法和装置、训练方法、电子设备、程序和介质
CN109726683B (zh) * 2018-12-29 2021-06-22 北京市商汤科技开发有限公司 目标对象检测方法和装置、电子设备和存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018026108A (ja) * 2016-08-08 2018-02-15 パナソニックIpマネジメント株式会社 物体追跡方法、物体追跡装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LUCA BERTINETTO, JACK VALMADRE, JOAO F. HENRIQUES: "Fully-Convolutional Siamese Networks for Object Tracking", ARXIV [ONLINE], vol. arXiv:1606.09549v1, JPN6022007195, 30 January 2016 (2016-01-30), ISSN: 0004888247 *

Also Published As

Publication number Publication date
SG11202004324WA (en) 2020-06-29
KR20200087784A (ko) 2020-07-21
PH12020550588A1 (en) 2021-04-26
US20200265255A1 (en) 2020-08-20
JP7165731B2 (ja) 2022-11-04
US11455782B2 (en) 2022-09-27
WO2019091464A1 (zh) 2019-05-16
CN108230359A (zh) 2018-06-29
CN108230359B (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
JP2021502645A (ja) 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体
JP6999028B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
US11170210B2 (en) Gesture identification, control, and neural network training methods and apparatuses, and electronic devices
US20210398294A1 (en) Video target tracking method and apparatus, computer device, and storage medium
JP7153090B2 (ja) 目標オブジェクト検出方法、及び装置、電子機器、並びに記憶媒体
US11222236B2 (en) Image question answering method, apparatus and system, and storage medium
US10885365B2 (en) Method and apparatus for detecting object keypoint, and electronic device
TWI773189B (zh) 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體
US10915741B2 (en) Time domain action detecting methods and system, electronic devices, and computer storage medium
US11055535B2 (en) Method and device for video classification
CN109117831B (zh) 物体检测网络的训练方法和装置
US11062453B2 (en) Method and system for scene parsing and storage medium
US11270158B2 (en) Instance segmentation methods and apparatuses, electronic devices, programs, and media
WO2018153323A1 (zh) 用于检测视频中物体的方法、装置和电子设备
Xu et al. Centernet heatmap propagation for real-time video object detection
US11030750B2 (en) Multi-level convolutional LSTM model for the segmentation of MR images
JP7093427B2 (ja) オブジェクト追跡方法および装置、電子設備並びに記憶媒体
CN113971751A (zh) 训练特征提取模型、检测相似图像的方法和装置
KR102305023B1 (ko) 키 프레임 스케줄링 방법 및 장치, 전자 기기, 프로그램과 매체
JP7163372B2 (ja) 目標トラッキング方法及び装置、電子機器並びに記憶媒体
CN113766330A (zh) 基于视频生成推荐信息的方法和装置
JP2022185144A (ja) 対象検出方法、対象検出モデルのレーニング方法および装置
CN116310356B (zh) 深度学习模型的训练方法、目标检测方法、装置及设备
CN111967403A (zh) 视频移动区域确定方法、装置及电子设备
Bhunia et al. Detection based multipath correlation filter for visual object tracking

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200508

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200508

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210727

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221004

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221024

R150 Certificate of patent or registration of utility model

Ref document number: 7165731

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150