JP2021502645A - 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 - Google Patents
目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 Download PDFInfo
- Publication number
- JP2021502645A JP2021502645A JP2020526040A JP2020526040A JP2021502645A JP 2021502645 A JP2021502645 A JP 2021502645A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2020526040 A JP2020526040 A JP 2020526040A JP 2021502645 A JP2021502645 A JP 2021502645A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- detection frame
- detection
- regression
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 449
- 238000000034 method Methods 0.000 title claims abstract description 82
- 238000012549 training Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 70
- 238000002372 labelling Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
Description
<関連出願の相互参照>
本願は、2017年11月12日に中国特許局に提出された、出願番号CN201711110587.1、発明の名称「目標検出方法及び装置、トレーニング方法、電子機器、プログラム並びに媒体」の中国特許出願の優先権を主張し、その開示の全てが参照によって本願に組み込まれる。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含む目標追跡方法を提供する。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含む目標検出ネットワークのトレーニング方法を提供する。
検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含む目標検出装置を提供する。
実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより、本開示の実施例のいずれか1つに記載の前記方法の操作を完成するためのプロセッサと、を含む別の電子機器を提供する。
図面を伴う以下の詳細な説明により、本開示をより明瞭に理解することができる。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像の大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。検出フレームが目標対象物の検出を行う現在フレームにおける目標対象物の存在可能な領域画像である場合に、本開示の各実施例の一実施形態では、該領域画像の大きさがテンプレートフレームの画像より大きく、例えば、該領域画像はテンプレートフレームの画像の中心点を中心点として、大きさがテンプレートフレーム画像の大きさの2−4倍であってよい。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
上記少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される上記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの特徴に対して操作106を実行することと、
上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、上記少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に上記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作108を実行することと、を更に含んでよい。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
少なくとも1つの他の検出フレームの特徴を局所領域検出器に順に入力し、局所領域検出器から出力される少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得し、即ち、順に少なくとも1つの他の検出フレームの特徴に対して操作306を実行することと、
少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、少なくとも1つの他の検出フレームにおける目標対象物の検出枠を順に取得し、即ち、順に少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果に対して操作308を実行することと、を更に含んでよい。
ここで、テンプレートフレームは目標対象物の検出枠の画像であり、テンプレートフレームの画像大きさが検出フレームより小さく、検出フレームは、目標対象物の検出を行う現在フレーム又は現在フレームにおける目標対象物の存在可能な領域画像である。テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームである。
ここで、分類結果は各候補枠のそれぞれの目標対象物の検出枠である確率値を含み、回帰結果は各候補枠のテンプレートフレームに対応する検出枠からのずれ量を含む。
Claims (43)
- 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みと回帰の重みを取得することと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、を含むことを特徴とする目標検出方法。 - 前記ニューラルネットワークにより、ビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項1に記載の方法。 - ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項1又は2に記載の方法。 - 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項1〜3のいずれか一項に記載の方法。
- 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項1〜4のいずれか一項に記載の方法。
- 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項5に記載の方法。 - 前記テンプレートフレームの特徴に基づいて局所領域検出器の分類の重みを取得することは、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとすることを含むことを特徴とする請求項1〜6のいずれか一項に記載の方法。 - 前記テンプレートフレームの特徴に基づいて局所領域検出器の回帰の重みを取得することは、
第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることを含むことを特徴とする請求項1〜7のいずれか一項に記載の方法。 - 前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項1〜8のいずれか一項に記載の方法。 - 前記検出フレームの特徴を抽出した後に、第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項9に記載の方法。 - 前記テンプレートフレームの特徴を抽出した後に、第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項9又は10に記載の方法。 - 前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項1〜11のいずれか一項に記載の方法。 - 前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。 - 回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項12に記載の方法。 - 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をニューラルネットワークによりそれぞれ抽出することと、
第1の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第1の特徴を前記局所領域検出器の分類の重みとし、第2の畳み込み層によって前記テンプレートフレームの特徴に対して畳み込み操作を行い、畳み込み操作により取得された第2の特徴を前記局所領域検出器の回帰の重みとすることと、
前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することと、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することと、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることと、を含むことを特徴とする目標検出ネットワークのトレーニング方法。 - 前記ニューラルネットワークによりビデオシーケンスにおいて時系列的に前記検出フレームの後に位置する少なくとも1つの他の検出フレームの特徴を抽出することと、
前記少なくとも1つの他の検出フレームの特徴を前記局所領域検出器に順に入力し、前記局所領域検出器から出力される前記少なくとも1つの他の検出フレームにおける複数の候補枠及び各候補枠の分類結果と回帰結果を順に取得することと、
前記少なくとも1つの他の検出フレームの複数の候補枠の分類結果と回帰結果により、前記少なくとも1つの他の検出フレームにおける前記目標対象物の検出枠を順に取得することと、を更に含むことを特徴とする請求項15に記載の方法。 - ニューラルネットワークによりテンプレートフレームと検出フレームの特徴をそれぞれ抽出することは、
同一のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出すること、又は、
同じ構成を有する別々のニューラルネットワークにより前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出することを含むことを特徴とする請求項15又は16に記載の方法。 - 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項15〜17のいずれか一項に記載の方法。
- 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項15〜18のいずれか一項に記載の方法。
- 前記検出フレームが前記目標対象物の検出を行う現在フレームにおける前記目標対象物の存在可能な領域画像である場合に、
前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとすることを更に含むことを特徴とする請求項19に記載の方法。 - 前記検出フレームの特徴を前記局所領域検出器に入力し、前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果を取得することは、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することと、を含むことを特徴とする請求項15〜20のいずれか一項に記載の方法。 - 前記検出フレームの特徴を抽出した後に、
第3の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得することを更に含み、
前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することは、前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することを含むことを特徴とする請求項21に記載の方法。 - 前記テンプレートフレームの特徴を抽出した後に、
第4の畳み込み層によって前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得することを更に含み、
前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することは、前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することを含むことを特徴とする請求項21に記載の方法。 - 前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得することは、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得することを含むことを特徴とする請求項15〜23のいずれか一項に記載の方法。 - 前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、
前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項24に記載の方法。 - 回帰結果を取得した後に、前記回帰結果により前記分類結果を調整することを更に含み、
前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択することは、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択することを含むことを特徴とする請求項25に記載の方法。 - 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングすることは、
前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整することを含むことを特徴とする請求項15〜26のいずれか一項に記載の方法。 - 検出フレームと、目標対象物の検出枠の画像であって、画像の大きさが前記検出フレームより小さいテンプレートフレームの特徴をそれぞれ抽出するためのニューラルネットワークと、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第1の特徴を局所領域検出器の分類の重みとするための第1の畳み込み層と、
前記テンプレートフレームの特徴のチャンネルを増加し、得られた第2の特徴を前記局所領域検出器の回帰の重みとするための第2の畳み込み層と、
前記検出フレームの特徴により複数の候補枠の分類結果と回帰結果を出力するための局所領域検出器と、
前記局所領域検出器から出力される複数の候補枠の分類結果と回帰結果により、前記検出フレームにおける前記目標対象物の検出枠を取得するための取得ユニットと、を含むことを特徴とする目標検出装置。 - 前記ニューラルネットワークは、同じ構成を有し、前記テンプレートフレームと前記検出フレームの特徴をそれぞれ抽出するために用いられる別々のニューラルネットワークを含むことを特徴とする請求項28に記載の装置。
- 前記テンプレートフレームは、ビデオシーケンスにおいて検出タイミングが前記検出フレームより前に位置し且つ目標対象物の検出枠が特定されたフレームであることを特徴とする請求項28又は29に記載の装置。
- 前記検出フレームは、前記目標対象物の検出を行う現在フレーム又は現在フレームにおける前記目標対象物の存在可能な領域画像であることを特徴とする請求項28〜30のいずれか一項に記載の装置。
- 前記テンプレートフレームの中心点を中心点とし、現在フレームから長さ及び/又は幅がそれぞれ前記テンプレートフレームの画像の長さ及び/又は幅より大きい領域画像を切り出して前記検出フレームとするための前処理ユニットを更に含むことを特徴とする請求項31に記載の装置。
- 前記局所領域検出器は、前記分類の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の分類結果を取得することと、前記回帰の重みを用いて前記検出フレームの特徴に対して畳み込み操作を行い、複数の候補枠の回帰結果を取得することとに用いられることを特徴とする請求項28〜32のいずれか一項に記載の装置。
- 前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第3の特徴を取得するための第3の畳み込み層と、
前記分類の重みを用いて前記第3の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。 - 前記検出フレームの特徴に対して畳み込み操作を行い、チャンネル数が前記検出フレームの特徴のチャンネル数と同様な第4の特徴を取得するための第4の畳み込み層と、
前記回帰の重みを用いて前記第4の特徴に対して畳み込み操作を行うための前記局所領域検出器と、を更に含むことを特徴とする請求項33に記載の装置。 - 前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択し、選択された候補枠のずれ量により前記選択された候補枠を回帰させ、前記検出フレームにおける前記目標対象物の検出枠を取得するために用いられることを特徴とする請求項28〜35のいずれか一項に記載の装置。
- 前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、前記分類結果と前記回帰結果の重み係数により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。
- 前記回帰結果により前記分類結果を調整するための調整ユニットを更に含み、
前記取得ユニットは、前記分類結果と前記回帰結果により前記複数の候補枠から1つの候補枠を選択する時に、調整後の分類結果により前記複数の候補枠から1つの候補枠を選択するために用いられることを特徴とする請求項36に記載の装置。 - 取得された前記検出フレームにおける前記目標対象物の検出枠を予測検出枠とし、前記検出フレームのラベリング情報と前記予測検出枠に基づいて前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層をトレーニングするためのトレーニングユニットを更に含むことを特徴とする請求項28〜38のいずれか一項に記載の装置。
- 前記検出フレームのラベリング情報は、ラベリングされた前記検出フレームでの前記目標対象物の検出枠の位置と大きさを含み、
前記トレーニングユニットは、前記ラベリングされた検出枠の位置及び大きさと前記予測検出枠の位置及び大きさとの差により、前記ニューラルネットワーク、前記第1の畳み込み層及び前記第2の畳み込み層の重み値を調整するために用いられることを特徴とする請求項39に記載の装置。 - 請求項28〜40のいずれか一項に記載の目標検出装置を含むことを特徴とする電子機器。
- 実行可能コマンドを記憶するためのメモリと、
前記メモリと通信して、前記実行可能コマンドを実行することにより請求項1〜27のいずれか一項に記載の方法の操作を完成するためのプロセッサと、を含むことを特徴とする電子機器。 - コンピュータ読取可能コマンドを記憶するためのコンピュータ記憶媒体であって、前記コマンドが実行されると、請求項1〜27のいずれか一項に記載の方法の操作が実現されることを特徴とするコンピュータ記憶媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711110587.1 | 2017-11-12 | ||
CN201711110587.1A CN108230359B (zh) | 2017-11-12 | 2017-11-12 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
PCT/CN2018/114884 WO2019091464A1 (zh) | 2017-11-12 | 2018-11-09 | 目标检测方法和装置、训练方法、电子设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021502645A true JP2021502645A (ja) | 2021-01-28 |
JP7165731B2 JP7165731B2 (ja) | 2022-11-04 |
Family
ID=62655730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020526040A Active JP7165731B2 (ja) | 2017-11-12 | 2018-11-09 | 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11455782B2 (ja) |
JP (1) | JP7165731B2 (ja) |
KR (1) | KR20200087784A (ja) |
CN (1) | CN108230359B (ja) |
PH (1) | PH12020550588A1 (ja) |
SG (1) | SG11202004324WA (ja) |
WO (1) | WO2019091464A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
US11430312B2 (en) * | 2018-07-05 | 2022-08-30 | Movidius Limited | Video surveillance with neural networks |
CN109584276B (zh) * | 2018-12-04 | 2020-09-25 | 北京字节跳动网络技术有限公司 | 关键点检测方法、装置、设备及可读介质 |
CN109726683B (zh) | 2018-12-29 | 2021-06-22 | 北京市商汤科技开发有限公司 | 目标对象检测方法和装置、电子设备和存储介质 |
CN111435432B (zh) * | 2019-01-15 | 2023-05-26 | 北京市商汤科技开发有限公司 | 网络优化方法及装置、图像处理方法及装置、存储介质 |
CN110136107B (zh) * | 2019-05-07 | 2023-09-05 | 上海交通大学 | 基于dssd和时域约束x光冠脉造影序列自动分析方法 |
CN110399900A (zh) * | 2019-06-26 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、设备及介质 |
CN110533184B (zh) * | 2019-08-31 | 2023-01-06 | 南京人工智能高等研究院有限公司 | 一种网络模型的训练方法及装置 |
CN110598785B (zh) * | 2019-09-11 | 2021-09-07 | 腾讯科技(深圳)有限公司 | 一种训练样本图像的生成方法及装置 |
CN110647938B (zh) * | 2019-09-24 | 2022-07-15 | 北京市商汤科技开发有限公司 | 图像处理方法及相关装置 |
US11429809B2 (en) | 2019-09-24 | 2022-08-30 | Beijing Sensetime Technology Development Co., Ltd | Image processing method, image processing device, and storage medium |
CN111860090A (zh) * | 2019-11-06 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种车辆验证方法及装置 |
CN110866509B (zh) | 2019-11-20 | 2023-04-28 | 腾讯科技(深圳)有限公司 | 动作识别方法、装置、计算机存储介质和计算机设备 |
US11080833B2 (en) * | 2019-11-22 | 2021-08-03 | Adobe Inc. | Image manipulation using deep learning techniques in a patch matching operation |
CN110942065B (zh) * | 2019-11-26 | 2023-12-12 | Oppo广东移动通信有限公司 | 文本框选方法、装置、终端设备及计算机可读存储介质 |
KR102311798B1 (ko) * | 2019-12-12 | 2021-10-08 | 포항공과대학교 산학협력단 | 다중 객체 추적 방법 및 장치 |
JP7490359B2 (ja) * | 2019-12-24 | 2024-05-27 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN111383244B (zh) * | 2020-02-28 | 2023-09-01 | 浙江大华技术股份有限公司 | 一种目标检测跟踪方法 |
CN111898701B (zh) * | 2020-08-13 | 2023-07-25 | 网易(杭州)网络有限公司 | 模型训练、帧图像生成、插帧方法、装置、设备及介质 |
CN112215899B (zh) * | 2020-09-18 | 2024-01-30 | 深圳市瑞立视多媒体科技有限公司 | 帧数据在线处理方法、装置和计算机设备 |
CN112381136B (zh) * | 2020-11-12 | 2022-08-19 | 深兰智能科技(上海)有限公司 | 目标检测方法和装置 |
CN112464797B (zh) * | 2020-11-25 | 2024-04-02 | 创新奇智(成都)科技有限公司 | 一种吸烟行为检测方法、装置、存储介质及电子设备 |
CN112465691A (zh) * | 2020-11-25 | 2021-03-09 | 北京旷视科技有限公司 | 图像处理方法、装置、电子设备和计算机可读介质 |
CN112465868B (zh) * | 2020-11-30 | 2024-01-12 | 浙江华锐捷技术有限公司 | 一种目标检测跟踪方法、装置、存储介质及电子装置 |
CN112580474B (zh) * | 2020-12-09 | 2021-09-24 | 云从科技集团股份有限公司 | 基于计算机视觉的目标对象检测方法、***、设备及介质 |
CN112528932B (zh) * | 2020-12-22 | 2023-12-08 | 阿波罗智联(北京)科技有限公司 | 用于优化位置信息的方法、装置、路侧设备和云控平台 |
CN112906478B (zh) * | 2021-01-22 | 2024-01-09 | 北京百度网讯科技有限公司 | 目标对象的识别方法、装置、设备和存储介质 |
CN113128564B (zh) * | 2021-03-23 | 2022-03-22 | 武汉泰沃滋信息技术有限公司 | 一种基于深度学习的复杂背景下典型目标检测方法及*** |
CN113076923A (zh) * | 2021-04-21 | 2021-07-06 | 山东大学 | 基于轻量型网络MobileNet-SSD的口罩佩戴检测方法、设备及存储介质 |
CN113221962B (zh) * | 2021-04-21 | 2022-06-21 | 哈尔滨工程大学 | 一种解耦分类与回归任务的三维点云单阶段目标检测方法 |
CN113160247B (zh) * | 2021-04-22 | 2022-07-05 | 福州大学 | 基于频率分离的抗噪孪生网络目标跟踪方法 |
CN113327253B (zh) * | 2021-05-24 | 2024-05-24 | 北京市遥感信息研究所 | 一种基于星载红外遥感影像的弱小目标检测方法 |
CN113065618A (zh) * | 2021-06-03 | 2021-07-02 | 常州微亿智造科技有限公司 | 工业质检中的检测方法、检测装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018026108A (ja) * | 2016-08-08 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 物体追跡方法、物体追跡装置およびプログラム |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6192360B1 (en) * | 1998-06-23 | 2001-02-20 | Microsoft Corporation | Methods and apparatus for classifying text and for building a text classifier |
WO2005098739A1 (en) * | 2004-04-08 | 2005-10-20 | Mobileye Technologies Limited | Pedestrian detection |
CN104424634B (zh) * | 2013-08-23 | 2017-05-03 | 株式会社理光 | 对象跟踪方法和装置 |
EP3089081A4 (en) * | 2014-02-10 | 2017-09-20 | Mitsubishi Electric Corporation | Hierarchical neural network device, learning method for determination device, and determination method |
CN106355188B (zh) * | 2015-07-13 | 2020-01-21 | 阿里巴巴集团控股有限公司 | 图像检测方法及装置 |
CN105740910A (zh) * | 2016-02-02 | 2016-07-06 | 北京格灵深瞳信息技术有限公司 | 一种车辆物件检测方法及装置 |
US11144761B2 (en) * | 2016-04-04 | 2021-10-12 | Xerox Corporation | Deep data association for online multi-class multi-object tracking |
CN105976400B (zh) * | 2016-05-10 | 2017-06-30 | 北京旷视科技有限公司 | 基于神经网络模型的目标跟踪方法及装置 |
CN106326837B (zh) * | 2016-08-09 | 2019-09-17 | 北京旷视科技有限公司 | 对象追踪方法和装置 |
CN106650630B (zh) * | 2016-11-11 | 2019-08-23 | 纳恩博(北京)科技有限公司 | 一种目标跟踪方法及电子设备 |
CN106709936A (zh) * | 2016-12-14 | 2017-05-24 | 北京工业大学 | 一种基于卷积神经网络的单目标跟踪方法 |
CN107066990B (zh) * | 2017-05-04 | 2019-10-11 | 厦门美图之家科技有限公司 | 一种目标跟踪方法及移动设备 |
CN108230359B (zh) * | 2017-11-12 | 2021-01-26 | 北京市商汤科技开发有限公司 | 目标检测方法和装置、训练方法、电子设备、程序和介质 |
CN109726683B (zh) * | 2018-12-29 | 2021-06-22 | 北京市商汤科技开发有限公司 | 目标对象检测方法和装置、电子设备和存储介质 |
-
2017
- 2017-11-12 CN CN201711110587.1A patent/CN108230359B/zh active Active
-
2018
- 2018-11-09 WO PCT/CN2018/114884 patent/WO2019091464A1/zh active Application Filing
- 2018-11-09 SG SG11202004324WA patent/SG11202004324WA/en unknown
- 2018-11-09 KR KR1020207016026A patent/KR20200087784A/ko not_active Application Discontinuation
- 2018-11-09 JP JP2020526040A patent/JP7165731B2/ja active Active
-
2020
- 2020-05-06 US US16/868,427 patent/US11455782B2/en active Active
- 2020-05-07 PH PH12020550588A patent/PH12020550588A1/en unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018026108A (ja) * | 2016-08-08 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 物体追跡方法、物体追跡装置およびプログラム |
Non-Patent Citations (1)
Title |
---|
LUCA BERTINETTO, JACK VALMADRE, JOAO F. HENRIQUES: "Fully-Convolutional Siamese Networks for Object Tracking", ARXIV [ONLINE], vol. arXiv:1606.09549v1, JPN6022007195, 30 January 2016 (2016-01-30), ISSN: 0004888247 * |
Also Published As
Publication number | Publication date |
---|---|
SG11202004324WA (en) | 2020-06-29 |
KR20200087784A (ko) | 2020-07-21 |
PH12020550588A1 (en) | 2021-04-26 |
US20200265255A1 (en) | 2020-08-20 |
JP7165731B2 (ja) | 2022-11-04 |
US11455782B2 (en) | 2022-09-27 |
WO2019091464A1 (zh) | 2019-05-16 |
CN108230359A (zh) | 2018-06-29 |
CN108230359B (zh) | 2021-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021502645A (ja) | 目標検出方法及び装置、トレーニング方法、電子機器並びに媒体 | |
JP6999028B2 (ja) | 目標トラッキング方法及び装置、電子機器並びに記憶媒体 | |
US11170210B2 (en) | Gesture identification, control, and neural network training methods and apparatuses, and electronic devices | |
US20210398294A1 (en) | Video target tracking method and apparatus, computer device, and storage medium | |
JP7153090B2 (ja) | 目標オブジェクト検出方法、及び装置、電子機器、並びに記憶媒体 | |
US11222236B2 (en) | Image question answering method, apparatus and system, and storage medium | |
US10885365B2 (en) | Method and apparatus for detecting object keypoint, and electronic device | |
TWI773189B (zh) | 基於人工智慧的物體檢測方法、裝置、設備及儲存媒體 | |
US10915741B2 (en) | Time domain action detecting methods and system, electronic devices, and computer storage medium | |
US11055535B2 (en) | Method and device for video classification | |
CN109117831B (zh) | 物体检测网络的训练方法和装置 | |
US11062453B2 (en) | Method and system for scene parsing and storage medium | |
US11270158B2 (en) | Instance segmentation methods and apparatuses, electronic devices, programs, and media | |
WO2018153323A1 (zh) | 用于检测视频中物体的方法、装置和电子设备 | |
Xu et al. | Centernet heatmap propagation for real-time video object detection | |
US11030750B2 (en) | Multi-level convolutional LSTM model for the segmentation of MR images | |
JP7093427B2 (ja) | オブジェクト追跡方法および装置、電子設備並びに記憶媒体 | |
CN113971751A (zh) | 训练特征提取模型、检测相似图像的方法和装置 | |
KR102305023B1 (ko) | 키 프레임 스케줄링 방법 및 장치, 전자 기기, 프로그램과 매체 | |
JP7163372B2 (ja) | 目標トラッキング方法及び装置、電子機器並びに記憶媒体 | |
CN113766330A (zh) | 基于视频生成推荐信息的方法和装置 | |
JP2022185144A (ja) | 対象検出方法、対象検出モデルのレーニング方法および装置 | |
CN116310356B (zh) | 深度学习模型的训练方法、目标检测方法、装置及设备 | |
CN111967403A (zh) | 视频移动区域确定方法、装置及电子设备 | |
Bhunia et al. | Detection based multipath correlation filter for visual object tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200508 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200508 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220530 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221024 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7165731 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |