JP2023512359A - 関連対象検出方法、及び装置 - Google Patents

関連対象検出方法、及び装置 Download PDF

Info

Publication number
JP2023512359A
JP2023512359A JP2021536266A JP2021536266A JP2023512359A JP 2023512359 A JP2023512359 A JP 2023512359A JP 2021536266 A JP2021536266 A JP 2021536266A JP 2021536266 A JP2021536266 A JP 2021536266A JP 2023512359 A JP2023512359 A JP 2023512359A
Authority
JP
Japan
Prior art keywords
target
matching
detection
objects
matching object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2021536266A
Other languages
English (en)
Inventor
学森 ▲張▼
柏▲潤▼ 王
春▲亞▼ ▲劉▼
景▲煥▼ ▲陳▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/053488 external-priority patent/WO2022144601A1/en
Publication of JP2023512359A publication Critical patent/JP2023512359A/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/086Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • G06T7/0014Biomedical image inspection using an image reference approach
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、関連対象検出方法、及び装置を提供する。検出方法は、検出待ち画像内から、少なくとも2つの目標対象を含むマッチング対象組を、少なくとも1つ検出して得ること、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得すること、各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定すること、を含む。本発明の検出方法は、関連対象の検出精度を向上させる。【選択図】図1

Description

本発明は、コンピュータ視覚技術の分野に関し、具体的には、関連対象検出方法、及び装置に関する。
<関連出願の互いに引用>
本発明は、出願日が2020年12月29日であり、出願番号が10202013169Qであり、発明名称が「関連対象検出方法、及び装置」であるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
目標検出は、インテリジェントなビデオ分析の重要な部分であり、たとえば、ビデオフレームまたは場面画像内の人体や人顔を検出する。関連技術では、Faster RCNN(Region―CNN、領域畳み込みニューラルネットワーク)などの目標検出器を使用してビデオフレームまたは場面画像内の目標検出フレームを取得し、さらに目標検出を実現することができる。
しかしながら、密集した場面では、異なる目標間が互いに遮蔽される可能性がある。人々が比較的密集している場面を例にとると、異なる人の間で体の部位が遮蔽される可能性があり、このような場合に、目標検出器は精度が高い場面の検出要件を満たすことができない。
本発明の実施形態は、関連対象検出方法、装置、電子デバイス、及び記録媒体を提供する。
第1態様によると、本発明の実施形態は、関連対象検出方法を提供し、前記方法は、検出待ち画像内から、少なくとも2つの目標対象を含むマッチング対象組を、少なくとも1つ検出して得ること、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得すること、各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定すること、を含む。
いくつかの実施形態において、検出待ち画像内からマッチング対象組を少なくとも1つ検出して得ることは、前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得ること、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも1つ得ること、を含む。
いくつかの実施形態において、各前記マッチング対象組中の各前記目標対象の視覚情報を取得することは、前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得ることを含む。
いくつかの実施形態において、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得することは、前記検出待ち画像内から各前記目標対象の検出フレームを検出して得ること、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成すること、を含む。
いくつかの実施形態において、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成することは、前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成すること、前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定すること、同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を得ること、を含む。
いくつかの実施形態において、前記補助バウンディングフレームは、前記マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである。
いくつかの実施形態において、各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、各マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得ること、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定すること、を含む。
いくつかの実施形態において、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも2つの目標対象同士の間の関連度スコアを得ること、同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定すること、前記目標マッチング対象組中の前記少なくとも2つの目標対象を関連目標対象として確定すること、を含む。
いくつかの実施形態において、前記目標対象が人体部位である場合、前記各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、同じマッチング対象組中の各人体部位が1つの人体に属するか否かを確定することを含む。
いくつかの実施形態において、前記方法は、サンプル画像セットを取得することであって、前記サンプル画像セットは、少なくとも1つのサンプル画像を含み、各前記サンプル画像は、少なくとも1つのサンプルマッチング対象組および前記サンプルマッチング対象組に対応するラベル情報を含み、各前記サンプルマッチング対象組は、少なくとも2つのサンプル目標対象を含み、前記ラベル情報は、前記サンプルマッチング対象組中の各サンプル目標対象の関連結果を示すこと、トレーニング待ちの関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、前記サンプル画像内から前記サンプルマッチング対象組を検出して得ること、トレーニング待ちの対象検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の各前記サンプル目標対象の視覚情報を得、トレーニング待ちの前記関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の前記少なくとも2つのサンプル目標対象の空間情報を得ること、トレーニング待ちの前記関連検出ネットワークを利用して、各前記サンプルマッチング対象組中の前記少なくとも2つのサンプル目標対象の前記視覚情報および前記空間情報に基づいて、各前記サンプルマッチング対象組の関連性検出結果を得ること、各前記サンプルマッチング対象組の前記関連性検出結果と対応するラベル情報との間の誤差を確定し、前記誤差が収束するまで、前記誤差に基づいて前記関連検出ネットワークおよび前記対象検出ネットワークの中の少なくとも1つのネットワークパラメータを調整すること、をさらに含む。
第2態様によると、本発明の実施形態は、関連対象検出装置を提供し、当該装置は、検出待ち画像内から、少なくとも2つの目標対象を含むマッチング対象組を、少なくとも1つ検出して得るための検出モジュールと、各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得するための取得モジュールと、各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定するための確定モジュールと、を備える。
いくつかの実施形態において、前記検出モジュールは、前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得るための検出サブモジュールと、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも1つ得るための組合せサブモジュールと、を備える。
いくつかの実施形態において、前記取得モジュールは、さらに、前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得る。
いくつかの実施形態において、前記取得モジュールは、さらに、前記検出待ち画像内から各前記目標対象の検出フレームを検出して得、各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成する。
いくつかの実施形態において、前記取得モジュールは、さらに、前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成し、前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を得る。
いくつかの実施形態において、前記補助バウンディングフレームは、前記マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである。
いくつかの実施形態において、前記確定モジュールは、各マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュールと、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定するための確定サブモジュールと、を備える。
いくつかの実施形態において、前記確定サブモジュールは、さらに、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも2つの目標対象同士の間の関連度スコアを得、同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、前記目標マッチング対象組中の前記少なくとも2つの目標対象を関連目標対象として確定する。
いくつかの実施形態において、前記目標対象が人体部位である場合、前記確定モジュールは、さらに、同じ前記マッチング対象組中の各人体部位が1つの人体に属するか否かを確定する。
第3態様によると、本発明の実施形態は、電子デバイスを提供し、当該電子デバイスは、プロセッサと、前記プロセッサと通信可能に接続され、前記プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、を備え、前記コンピュータ命令が前記プロセッサによってアクセスされるときに、前記プロセッサが第1態様の任意の実施形態に記載の方法を実行するようにする。
第4態様によると、本発明の実施形態は、コンピュータ可読命令が格納されている記録媒体を提供し、前記コンピュータ可読命令は、コンピュータが第1態様の任意の実施形態に記載の方法を実行するようにする。
第5態様によると、本発明の実施形態は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子デバイスで運行されるときに、前記電子デバイスのプロセッサが第1態様の任意の実施形態に記載の方法を実行するようにする。
本発明の実施形態の関連対象検出方法によると、検出待ち画像内から少なくとも2つの目標対象を含むマッチング対象組を少なくとも1つ検出して得、各マッチング対象組の各目標対象の視覚情報および各マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得することによって、視覚情報および空間情報に基づいて各マッチング対象組中の各目標対象同士の間が関連目標対象であるか否かを確定する。同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助することによって、複雑な場面での目標検出精度を向上させることができ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。
以下、本発明の具体的な実施形態の技術的解決策をより明確に説明するために、具体的な実施形態の説明に使用する必要がある図面を簡単に紹介する。明らかに、以下の説明における図面は、本発明のいくつかの実施形態であり、当業者は創造的な作業なしにこれら図面に基づいて他の図面を得ることができる。
本発明のいくつかの実施形態に係る関連対象検出方法のフローチャートである。 本発明のいくつかの実施形態に係るマッチング対象組を検出する方法のフローチャートである。 本発明のいくつかの実施形態に係る視覚情報抽出方法のフローチャートである。 本発明のいくつかの実施形態に係る検出ネットワークの構成を示す模式図である。 本発明のいくつかの実施形態に係る関連対象検出方法の原理の模式図である。 本発明のいくつかの実施形態に係る関連検出ネットワークの模式図である。 本発明のいくつかの実施形態に係るマッチング対象組中の目標対象が関連しているか否かを確定する方法のフローチャートである。 本発明のいくつかの実施形態に係る関連対象の検出結果の視覚的出力の模式図である。 本発明のいくつかの実施形態に係る検出関連対象のニューラルネットワークのトレーニングのフローの模式図である。 本発明のいくつかの実施形態に係る関連対象検出装置の構成のブロック図である。 本発明のいくつかの実施形態に係る関連対象検出装置の検出モジュールの構成のブロック図である。 本発明のいくつかの実施形態に係る関連対象検出装置の確定モジュールの構成のブロック図である。 本発明の関連対象検出方法の実装に適したコンピュータシステムの構成図である。
以下、図面を参照して本発明の技術的解決策を明確かつ完全に説明する。明らかに、説明される実施形態は、すべての実施形態ではなく、本発明の一部の実施形態に過ぎない。本発明の実施形態に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本開示の保護範囲内に入るはずである。なお、以下に説明される本発明の異なる実施形態で言及される技術的特徴は、互いに矛盾しない限り、互いに組み合わせることができる。
関連対象の検出は、インテリジェントなビデオ分析にとって重要な研究意義を持っている。人体検出を例にとると、人がより多い複雑な場面で、人々の間が互いに遮蔽されるため、単一の人体に対する検出方法を採用すると、その誤検出率がより高く、要件を満たすのは困難である。関連対象の検出は、「人顔―人体関連」を利用してマッチング対象組を確定し、同じマッチング対象組に含まれた人顔および人体が1人に属するか否かを確定することによって、目標対象(すなわち、人顔および人体)の検出を実現し、複雑な場面での目標検出精度を向上させることができる。
目標対象の検出は、Faster RCNN(Region―CNN、領域畳み込みニューラルネットワーク)などの目標検出器を採用してビデオフレームまたは場面の画像内の人顔および人体の検出フレームを取得することができ、さらに、人顔および人体の視覚特徴に基づいて分類器をトレーニングし、分類器を使用して予測関連結果を得ることができる。類似な方法では関連検出精度に限界があり、たとえば、マルチプレイヤーゲーム場面などの高い精度の検出場面の場合、場面内の人物が部分的に遮蔽されることが多いだけでなく、ユーザの人顔、人体、手、さらにはゲーム小道具が関連しているか否かを確定する必要があり、このようにしてどのユーザが関連動作をとったかを認識し、一旦関連に失敗されると大きな損失さえ引き起こす。したがって、関連技術中の関連検出精度は、精度が高い場面の使用要求を満たすのが困難である。
本発明の実施形態は、関連対象検出方法、装置、電子デバイス、及び記録媒体を提供して、関連対象の検出精度を向上させる。
第1態様によると、本発明の実施形態は、関連対象検出方法を提供する。本発明の実施形態の検出方法の実行主体は、端末デバイス、サーバ、または他の処理デバイスであり得、たとえば端末デバイスは、ユーザデバイス、モバイルデバイス、ユーザ端末、携帯電話、車載デバイス、パーソナルデジタルアシスタント、ハンドヘルドデバイス、コンピューティングデバイス、ウェアラブルデバイスなどであり得る。いくつかの実施形態において、当該検出方法は、さらに、プロセッサによってメモリに格納されたコンピュータ可読命令を呼び出す方法によって実装され得、本発明はこれに対して限定しない。
図1は、本発明のいくつかの実施形態に係る関連対象検出方法を示し、以下、図1を参照して本発明の方法を説明する。
図1に示すように、いくつかの実施形態において、本発明の関連対象検出方法は、以下のステップを含む。
S110において、検出待ち画像内から少なくとも2つの目標対象を含むマッチング対象組を少なくとも1つ検出して得る。
具体的に言えば、検出待ち画像は、1つの自然的な場面の画像であり得、該画像から所定の関連目標対象が検出しようとする。本発明に記載の「関連目標対象」とは、我々が注目している場面において、関連性を持つ2つまたはもっと多い目標対象を指すことが理解できる。たとえば、人体検出での人顔と人体との関連の例をとると、検出待ち画像内には複数の人顔および複数の人体が含まれており、1人に属する「人顔」および「人体」を関連目標対象と呼ぶことができる。また、たとえば、複数人の乗馬のエンターテインメント場面において、検出待ち画像内には、複数の人体および複数の馬が含まれており、乗り関係を持つ「人体」および「馬」を関連目標対象と呼ぶことができる。当業者は、これに対して理解でき、本発明は繰り返して説明しない。
検出待ち画像は、たとえばカメラなど画像収集デバイスを利用して収集して得ることができる。具体的に言えば、検出待ち画像は、画像収集デバイスによって撮影された単一のフレームの画像であり得、さらに、画像収集デバイスによって撮影されたビデオストリーム中のフレームの画像を含み得、本発明はこれに対して限定しない。
本発明の実施形態において、検出待ち画像内から少なくとも2つの目標対象を含むマッチング対象組を少なくとも1つ検出して得ることができる。前記マッチング対象組とは、関連しているか否かを確認する必要がある少なくとも2つの目標対象から構成されたセットを指す。
図2に示すように、いくつかの実施形態において、検出待ち画像内からマッチング対象組を少なくとも1つ検出して得ることは、以下のステップを含み得る。
S111において、検出待ち画像内から各目標対象、および、各目標対象の対象タイプを検出して得る。
S112において、前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の対象タイプ中の各目標対象と組み合わせて、少なくとも同じマッチング対象組を得る。
1つの例において、「人顔―人体」の関連検出の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人顔タイプ」および「人体タイプ」であり、「人顔タイプ」の目標対象はm個の人顔を含み、「人体タイプ」の目標対象はn個の人体を含む。m個の人顔の中の各々の人顔に対して、それぞれn個の人体と2つずつ組み合わせて、合計m*n個の人顔人体ペアを得る。その中で、「人顔」および「人体」が検出して得られた目標対象であり、人顔および人体を2つずつ組み合わせて得たm*n個の「人顔人体ペア」が前記マッチング対象組であり、その中で、mおよびnは、正の整数である。
もう1つの例において、マルチプレイヤーゲーム場面において、各人には、乗馬のエンターテインメントの場面での馬、卓上ゲーム場面でのゲーム小道具などの、関連物体がさらに関連され、本発明の方法は、「人体―物体」の関連検出にも同様に適用される。乗馬のエンターテインメントの場面の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人体タイプ」および「物体タイプ」であり、「人体タイプ」の目標対象はp個の人体を含み、「物体タイプ」の目標対象はq個の馬を含む。p個の人体の中の各々の人体に対して、それぞれq個の馬と2つずつ組み合わせて、合計p*q個の人体物体ペアを得る。その中で、「人体」および「物体」が検出して得られた前記目標対象であり、人体および馬を2つずつ組み合わせて得たp*q個の「人体物体ペア」が前記マッチング対象組であり、その中で、pおよびqは、正の整数である。
別の1つの例において、「人手―人顔―人体」の関連検出の例をとると、検出待ち画像内から複数の目標対象、および、各目標対象の対象タイプを検出して得、対象タイプは、「人手タイプ」、「人顔タイプ」、および、「人体タイプ」であり、ここで、各対象タイプは、いずれも、当該タイプに属する少なくとも1つの目標対象を含む。各対象タイプ中の各目標対象をそれぞれ他の2つの対象タイプ中の目標対象と3つずつ組み合わせて、すなわち、1つの人手、1つの人顔、および、1つの人体を3つずつ組み合わせて得た複数の「人手人顔人体組」が前記マッチング対象組である。例を挙げて言えば、人手タイプの目標対象は、k個の人手を含み、人顔タイプの目標対象は、m個の人顔を含み、人体タイプの目標対象は、n個の人体を含む。k個の人手の中の各々の人手に対して、それぞれm個の人顔およびn個の人体と3つずつ組み合わせて、合計k*m*n個の人手人顔人体組を得、その中で、k、mおよびnは、正の整数である。
上記の例から理解できるように、本発明の実施形態においては、マッチング対象組中の目標対象の数を限定する必要がなく、目標対象のタイプを限定する必要もない。マッチング対象組には、少なくとも2つの目標対象が含まれ得、たとえば2個、3個、4個、または、もっと多い目標対象が含まれ得る。目標対象は、人体または各人体部位であり得、さらに人体と関連される物体であってもよいし、場面での人体と関連がない実体であってもよく、本発明はこれに対して限定しない。
1つの例において、関連検出ネットワークを利用して検出待ち画像に対して処理を実行して、検出待ち画像内から少なくとも同じマッチング対象組を得る。詳細については後述し、ここでは一旦省略する。
S120において、各マッチング対象組中の各目標対象の視覚情報および各マッチング対象組中の少なくとも2つの目標対象の空間情報を取得する。
具体的に言えば、視覚情報とは、画像内の各目標対象の視覚的特徴情報を意味し、一般的には画像のピクセル値に基づいて得られる画像特徴である。たとえば、検出待ち画像に対して視覚特徴抽出を実行して、画像内の人顔、人手、人体、または、物体の画像特徴情報を得る。空間情報は、マッチング対象組中の目標対象の空間的位置における特徴情報および/またはマッチング対象組中の目標対象の姿勢情報を含み得る。または、空間情報は、マッチング対象組中の各目標対象同士の間の空間的位置関係情報または相対姿勢情報を含み得、たとえば、画像内の人顔と人体、人顔と人手、人体と物体などの空間相対的位置特徴情報および/または相対向け情報などを含み得る。
1つの例において、検出待ち画像内の各目標対象が位置している領域に対して視覚特徴抽出を実行し、たとえば、特徴点を抽出し、特徴点のピクセル値を目標対象の視覚特徴に変換する。各目標対象の境界の画像における位置に基づいて目標対象の位置特徴情報を生成し、目標対象の標準姿勢モデルに従って各目標対象の姿勢を分析して、目標対象の姿勢情報を得ることによって、目標対象の空間情報を得ることができる。オプションとして、マッチング対象組中の各目標対象同士の間の相対位置および/または相対姿勢に対して分析を実行して得られる空間情報は、各目標対象と他の目標対象との間の相対位置情報および/または相対姿勢情報をさらに含み得る。
1つの例において、検出待ち画像を処理する過程で、対象検出ネットワークを利用してまず検出待ち画像に対して視覚特徴抽出を実行して特徴マップを得、さらに特徴マップに基づいて各目標対象の視覚情報を抽出して得ることができる。
1つの例において、検出待ち画像を処理する過程で、関連検出ネットワークを利用して検出待ち画像に対して処理を実行して、各マッチング対象組中の少なくとも2つの目標対象の空間情報を得ることができる。
上記の例中のネットワーク構成および実装原理は、後続で詳細に説明し、ここでは一旦詳述しない。
S130において、各マッチング対象組中の少なくとも2つの目標対象の視覚情報および空間情報に基づいて、各マッチング対象組中の少なくとも2つの目標対象が関連しているか否かを確定する。
特定の同じマッチング対象組の場合、たとえば人顔人体マッチング対象組の場合、当該マッチング対象組中の人体と人顔とに関連が存在するか否かを確定することを目的とし、つまり人体と人顔とが同じ人に属するかを確定する。マッチング対象組中の少なくとも2つの目標対象の視覚情報および空間情報を得た後に、視覚情報と空間情報を組み合わせて当該マッチング対象組中の少なくとも2つの目標対象が関連しているか否かを確定する。
本発明の方法の少なくとも1つの発明概念は、視覚情報に基づいて、マッチング対象組中の目標対象の空間情報を組み合わせて、目標対象の関連性を確定することであることを説明する必要がある。人顔と人体との関連検出の例をとると、人顔の人体における位置分布が固定されているため、人体と人顔の視覚情報を考慮して、人顔と人体の空間的位置情報を組み合わせて関連を補助することによって、複数の人の複雑な場面での遮蔽問題に対処する場合、より良いロバスト性を有し、人体と人顔の関連精度を向上させる。
また、上記の発明概念に基づいて、本発明の方法中の関連目標対象は、空間的位置において関連性を有する対象を指し、したがって、検出待ち画像内から信頼性が高い空間情報を抽出して得ることができ、マッチング対象組中の目標対象の数およびタイプに対して限定する必要がなく、当該タイプは人体部位、動物、小道具などの他の任意の空間的位置における関連性を有する対象であり得、本発明はこれに対して繰り返して説明しないことを理解できる。
1つの例において、関連検出ネットワークを利用して(たとえば、図4中の「Pair Head」)各々のマッチング対象組中の少なくとも2つの目標対象の視覚情報および空間情報に対して融合処理を実行して、融合特徴に基づいて関連性分類処理を実行することによって、特定のマッチング対象組中の少なくとも2つの目標対象が関連しているか否かを確定することができる。後続で詳細に説明し、ここでは一旦詳述しない。
上記から分かるように、本発明の関連対象検出方法によると、同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助し、複雑な場面での目標検出精度を向上させ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。
いくつかの実施形態において、マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して、目標対象の視覚情報を得ることができる。
具体的に言えば、図3は、目標対象に対して視覚情報抽出を実行する過程を示し、図4は、本発明の方法の検出ネットワークのアーキテクチャを示し、以下、図3および図4を組み合わせて本発明の方法をさらに説明する。
図3に示すように、いくつかの実施形態において、上記関連対象検出方法は、以下のステップを含む。
S310において、検出待ち画像に対して視覚特徴抽出を実行して、検出待ち画像の特徴マップを得る。
具体的に言えば、図4に示すように、本発明の検出ネットワークは、対象検出ネットワーク100と関連検出ネットワーク200とを含み、対象検出ネットワーク100は、トレーニングを通じたニューラルネットワークであり得、検出待ち画像内の目標対象に対して視覚特徴抽出を実行して目標対象の視覚情報を得るために使用される。
本実施形態において、対象検出ネットワーク100は、バックボーンネットワーク(backbone)とFPN(Feature Pyramid Networks、特徴ピラミッドネットワーク)とを含み得る。検出待ち画像がバックボーンネットワークおよびFPNによって順に処理されて、検出待ち画像の特徴マップ(feature)を得られる。
1つの例において、バックボーンネットワークは、VGGNet、ResNetなどを使用することができる。FPNは、バックボーンネットワークで得られた特徴マップに基づいて、複数層のピラミッド構造の特徴マップに変換することができる。バックボーンネットワークbackboneは、画像特徴を抽出する部分であり、FPNは、特徴強調処理を実行し、backboneによって抽出された浅層特徴を強調することができる。上記のネットワークは、1例に過ぎず、本発明の技術的解決策を限定しないし、たとえば、他の実施形態において、バックボーンネットワークは他の任意の形式の特徴抽出ネットワークを採用することができ、また、たとえば、他の実施形態において、図4中のFPNを使用せずに、バックボーンネットワークによって抽出された特徴マップを直接検出待ち画像の特徴マップ(feature)として使用することができ、本発明はこれに対して限定しないことを理解できる。
S320において、特徴マップに基づいて各目標対象の検出フレームを検出して得る。
S330において、検出フレームに基づいて各マッチング対象組中の各目標対象の視覚情報を抽出して得る。
具体的に言えば、引き続き図4を参照すると、対象検出ネットワーク100は、RPN(Region Proposal Network、領域生成ネットワーク)をさらに含む。検出待ち画像の特徴マップを得た後に、RPNは、FPNによって出力された特徴マップ(feature)に基づいて各目標対象の検出フレーム(anchor)および目標対象の対象タイプを予測して得ることができる。たとえば、人顔と人体との関連検出の場合、RPNネットワークは、特徴マップに基づいて検出待ち画像内の人体および人顔の検出フレーム、および、当該検出フレーム領域の目標対象が属している「人顔」または「人体」のタイプを計算し得る。
本実施形態において、対象検出ネットワーク100は、RCNN(Region Convolutional Neural Networks、領域畳み込みニューラルネットワーク)をさらに含み、RCNNは、特徴マップに基づいて各目標対象検出フレームに対するバウンディングフレーム(bbox、bounding box)のオフセット量を計算し得、bboxのオフセット量に基づいて目標対象の検出フレームに対して境界回帰処理を実行することによって、より正確な目標対象の検出フレームを得る。
各目標対象の検出フレームを得た後に、特徴マップおよび各検出フレームに基づいて各目標対象の視覚特徴情報を抽出して得る。たとえば、特徴マップに基づいて、各検出フレームに対してそれぞれさらなる特徴抽出を実行して、各検出フレームの特徴情報を得て、対応する目標対象の視覚特徴情報とすることができる。または、特徴マップおよび各検出フレームを視覚特徴抽出ネットワークに入力して、各検出フレームの視覚特徴情報を得、すなわち各目標対象の視覚特徴を得る。
1つの例において、人顔と人体との関連検出の例をとると、入力された検出待ち画像は、図5に示したとおりである。RPNおよびRCNNネットワークは、検出待ち画像の特徴マップに基づいて、検出待ち画像内の各人顔および各人体の検出フレームを得、ここで、検出フレームは長方形であり得る。
図5に示すように、検出待ち画像内には、合計3個の人体および3個の人顔が含まれており、RPNおよびRCNNの処理を通じて3個の人顔検出フレーム201、202、203、および、3個の人体検出フレーム211、212、213を得、各人体および人顔の検出フレームに基づいて各人体および人顔の視覚情報を抽出して得る。
関連検出ネットワーク(たとえば、図4中の「Pair Head」)200も、トレーニングを通じたニューラルネットワークであり得、得られた目標対象の検出フレームおよび対象タイプに基づいて、異なるタイプの目標対象を組み合わせて、各マッチング対象組を得る。たとえば、人顔と人体との関連検出の場面において、得られた人顔と人体の検出フレームおよび対象タイプに基づいて、各人顔および人体をランダムに組み合わせて、各人顔人体マッチング対象組を得る。図5の例をとると、3個の人顔検出フレーム201、202、203、および、3個の人体検出フレーム211、212、213を、それぞれ2つずつ組み合わせて、合計9個の人顔人体マッチング対象組を得る。続いて、各人顔人体マッチング対象組の位置特徴を確定する必要がある。
各マッチング対象組に対して、まず、マッチング対象組中の各目標対象の検出フレームに基づいて、補助バウンディングフレームを構築する。図5中の人顔検出フレーム201および人体検出フレーム212から構成されたマッチング対象組の例をとると、まず、この2つの検出フレームに基づいて、この2つの検出フレームを同時に含むことができ、かつ、面積が最小である1つのunionフレーム(ユニオンボックス)を補助バウンディングフレームとして確定し、すなわち、図5で点線によって示された補助バウンディングフレーム231を確定する。
ここで、補助バウンディングフレームの目的は、後続でマッチング対象組中の各目標対象の空間情報を計算するためであり、本実施形態ではマッチング対象組中の各目標対象の検出フレームをカバーする補助バウンディングフレームを選択して、後続で得られる各目標対象の空間情報に自体が属しているマッチング対象組中の他の目標対象の空間情報が融合されているようにして、実際に関連される目標対象間の潜在的な空間的位置関係に基づいて関連対象検出を実行することができて、情報がよりコンパクトになり、他の位置の干渉情報を減らし、計算量が削減されることを説明する必要がある。さらに、マッチング対象組中の各目標対象の検出フレームをカバーする補助バウンディングフレームの中で最小面積を持つ補助バウンディングフレームを選択することができる。他の実施形態において、補助バウンディングフレーム231がマッチング対象組中の目標対象を少なくともカバーすることが保証されていればよく、当業者はこれを理解すべきである。
補助バウンディングフレームを得た後に、目標対象の検出フレームおよび補助バウンディングフレームに基づいて目標対象の位置特徴情報を生成する。図5で、人顔検出フレーム201および補助バウンディングフレーム231に基づいて人顔マスク情報を生成し、人顔マスク情報は、マッチング対象組中の人顔検出フレーム201の補助バウンディングフレーム231に対する空間的位置特徴情報を表す。同様に、人体検出フレーム212および補助バウンディングフレーム231に基づいて人体マスク情報を生成し、人体マスク情報は、マッチング対象組中の人体検出フレーム212の補助バウンディングフレーム231に対する空間的位置特徴情報を表す。
1つの例において、人顔および人体の位置特徴情報を計算するときに、人顔検出フレーム201および人体検出フレーム212に位置するピクセル値を1に設定し、補助バウンディングフレーム231に位置する初期ピクセル値を0に設定することによって、ピクセル値を検出することで人顔および人体の補助バウンディングフレームに対する位置特徴情報を得ることができる。
目標対象の位置特徴情報を得た後に、マッチング対象組中の少なくとも2つの目標対象の位置特徴情報に対して接合または他の方法の融合を実行することで、マッチング対象組中の目標対象の空間情報を得ることができる。
上記のように、人顔検出フレーム201内の人顔および人体の検出フレーム212内の人体から構成されたマッチング対象組を説明した。他のマッチング対象組の位置特徴の計算は上記と同様であり、順に上記の過程を実行することで各マッチング対象組の位置特徴を得ることができ、本発明はこれに対して繰り返して説明しない。
人顔対象と人体対象から構成されたマッチング対象組の例をとると、視覚情報および空間情報を得た後に、関連検出ネットワーク(たとえば、図4中の「Pair Head」)は、当該マッチング対象組の視覚情報および空間情報に基づいて目標対象が関連しているか否かを確定する。
関連検出ネットワーク(Pair Head)のネットワーク構成は、図6に示したとおりである。人顔検出フレーム201および人体検出フレーム212の視覚情報を、関心領域プーリング層(Region of interest pooling、Roi pooling)を利用して処理してそれぞれ人顔視覚特徴131および人体視覚特徴132を得、空間情報特徴に基づいて空間特徴133を変換して得る。本実施形態において、人顔視覚特徴131は、サイズが64*7*7である特徴マップによって表され、人体視覚特徴132も、同様にサイズが64*7*7である特徴マップによって表され、空間特徴133は、サイズが2*7*7である特徴マップによって表される。
人顔視覚特徴131、人体視覚特徴132、および、空間特徴133を融合して、当該マッチング対象組の融合特徴を得、各マッチング対象組の融合特徴に対して関連性分類処理を実行することで、マッチング対象組中の目標対象の間が関連しているか否かを確定することができる。
いくつかの実施形態において、図7に示すように、マッチング対象組中の目標対象が関連しているか否かを確定することは、以下のステップを含み得る。
S710において、各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各マッチング対象組中の少なくとも2つの目標対象同士の間の関連度スコアを得る。
S720において、同じ目標対象が属している複数のマッチング対象組に対して、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定する。
S730において、目標マッチング対象組中の少なくとも2つの目標対象を関連目標対象として確定する。
具体的に言えば、依然として図4~図6に示すネットワーク構成の例をとって説明する。各マッチング対象組の融合特徴を得た後に、融合特徴に対して完全結合層(Fully Connected Layer、FCL)140を利用して関連性分類処理を実行することで、各マッチング対象組中の目標対象同士の間の関連度スコアを得ることができる。
たとえば、図5に示すように、完全結合層140を利用して分類処理を実行した後に、合計9個のマッチング対象組の予測スコアを得る。1つの人顔または人体の場合、それぞれ3個のマッチング対象組に属され、たとえば201はそれぞれ人体211、212、213から構成された3個のマッチング対象組に属され、この3個のマッチング対象組の中で、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として選択する。たとえば、本例において、人顔201と人体211から構成されたマッチング対象組の関連度スコアが最も高いと、当該マッチング対象組を目標マッチング対象組として使用し、人顔201と人体211を関連目標対象として確定し、すなわち、人顔201と人体211が1人に属する。
また、いくつかの実施形態において、モデルの視覚的出力を考慮して、関連目標対象を確定した後に、画像内で関連目標対象を視覚的出力することができる。
1つの例において、画像の視覚的出力は、図8に示したとおりである。図8の例で、マルチプレイヤー卓上ゲームの場面の例をとると、関連対象の検出は、「人顔―人体―人手」の関連検出を含み、当業者は、上記を参照して、上記の実施形態を利用して複数の「人顔人体人手」の目標マッチング対象組を得ることができ、本発明はこれに対して繰り返して説明しない。
目標マッチング対象組を得た後に、目標マッチング対象組に含まれた人顔、人体、および人手の検出フレームを画像内に表示することができる。たとえば、図8には、3個の人顔検出フレーム201、202、203、3個の人体検出フレーム211、212、213、5個の人手検出フレーム221、222、223、224、225が含まれている。1つの例において、異なるタイプの検出フレームをそれぞれ異なる色で示す。図8はグレースケールイメージであるため、色を明確に表示できないが、当業者はこれを理解でき、本発明は繰り返して説明しない。
同じ目標マッチング対象組中の関連目標対象の場合、結線を利用して関連目標対象を接続して表示することができる。たとえば、図8の例で、同じ目標マッチング対象組中の人手検出フレームの中心点および人顔検出フレームの中心点を人体検出フレームの中心点と点線で接続することによって、画像内の関連している目標対象を明確に示すことができ、直感的な視覚的結果をもたらす。
いくつかの実施形態において、マッチング対象組の視覚情報および空間情報に対して特徴融合を実行する前に、さらに、それぞれ1層の完全結合層を利用して次元削減処理を実行して、特徴を固定長さ特徴にマッピングしてから融合を実行することができ、本発明はこれに対して繰り返して説明しない。
いくつかの実施形態において、本発明の方法は、図4に示すニューラルネットワークのトレーニング過程をさらに含み、トレーニング過程は図9に示したとおりである。以下、図4および図9を参照してニューラルネットワークのトレーニング過程を説明する。
S910において、サンプル画像セットを取得する。
S920において、トレーニング待ちの関連検出ネットワークを利用して、サンプル画像セット中のサンプル画像に対して処理を実行して、サンプル画像内から少なくとも1つのサンプルマッチング対象組を検出して得る。
S930において、トレーニング待ちの対象検出ネットワークを利用して、サンプル画像に対して処理を実行して、各サンプルマッチング対象組の各サンプル目標対象の視覚情報を得、トレーニング待ちの関連検出ネットワークを利用して、サンプル画像に対して処理を実行して、各サンプルマッチング対象組中の少なくとも2つのサンプル目標対象の空間情報を得る。
S940において、トレーニング待ちの関連検出ネットワークを利用して、各サンプルマッチング対象組中の少なくとも2つのサンプル目標対象の視覚情報および空間情報に基づいて、各サンプルマッチング対象組の関連性検出結果を得る。
S950において、各サンプルマッチング対象組の関連性検出結果とラベル情報との間の誤差を確定し、誤差が収束するまで、誤差に基づいて関連検出ネットワークおよび対象検出ネットワークの中の少なくとも1つのネットワークパラメータを調整する。
具体的に言えば、サンプル画像セットは、少なくとも1つのサンプル画像を含み、各サンプル画像は、少なくとも1つの検出できるサンプルマッチング対象組を含み、たとえば少なくとも1つの「人顔人体ペア」、「人顔人手ペア」、「人体物体ペア」、「人手人顔人体組」などを含み、各サンプルマッチング対象組は、少なくとも2つのサンプル目標対象を含み、サンプル目標対象は、少なくとも2つの対象タイプに対応し、サンプル目標対象は、人顔、人手、人体、体、または、物体などであり、対応する対象タイプは、人顔タイプ、人手タイプ、物体タイプなどである。同時に、サンプル画像は、各サンプルマッチング対象組のラベル情報を含み、ラベル情報は、サンプルマッチング対象組の真の値であり、当該サンプルマッチング対象組中の各サンプル目標対象の実際の関連性を示し、すなわち、サンプルマッチング対象組中のサンプル目標対象が実際に関連している目標対象であるか否かを示し、ラベル情報は、手動ラベリングまたはニューラルネットワークラベリングなどの方法によって得られる。
サンプル画像セットを図4に示すネットワークに入力して、順にトレーニング待ちの対象検出ネットワーク100および関連検出ネットワーク200を経て、最終に各サンプルマッチング対象組の関連性検出結果の出力値が出力される。対象検出ネットワークおよび関連検出ネットワークの処理過程は、上記を参照すればよく、ここでは繰り返して説明しない。
各サンプルマッチング対象組の関連性検出結果の出力値を得た後に、出力値とラベル情報との間の誤差を確定することができ、誤差が収束するまで、誤差逆伝播に従ってネットワークパラメータを調整することで、対象検出ネットワークおよび関連検出ネットワークのトレーニングを完了することができる。
上記の例を参照して本発明の方法を詳細に説明したが、本発明の関連対象検出方法は上記の例の場面に限定されず、さらに、他の任意の空間的位置関連性を持つ目標対象関連検出に適用されることができ、本発明はこれに対して繰り返して説明しないことを、当業者は理解できる。
上記から分かるように、本発明の関連対象検出方法によると、同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助し、複雑な場面での目標検出精度を向上させ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。
第2態様によると、本発明の実施形態は、関連対象検出装置を提供する。図10は、本発明のいくつかの実施形態に係る関連対象検出装置を示す。
図10に示すように、いくつかの実施形態において、本発明の検出装置は、
検出待ち画像内から少なくとも2つの目標対象を含むマッチング対象組を少なくとも1つ検出して得るための検出モジュール410と、
各マッチング対象組中の各目標対象の視覚情報および各マッチング対象組中の少なくとも2つの目標対象の空間情報を取得するための取得モジュール420と、
各マッチング対象組中の少なくとも2つの目標対象の視覚情報および空間情報に基づいて、各マッチング対象組中の少なくとも2つの目標対象が関連しているか否かを確定するための確定モジュール430と、を備える。
図11に示すように、いくつかの実施形態において、検出モジュール410は、
検出待ち画像内から各目標対象、および、各目標対象の対象タイプを検出して得るための検出サブモジュール411と、
対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の対象タイプ中の各目標対象と組み合わせて、少なくとも同じマッチング対象組を得るための組合せサブモジュール412と、を備え得る。
いくつかの実施形態において、取得モジュール420は、さらに、
マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して、目標対象の視覚情報を得る。
いくつかの実施形態において、取得モジュール420は、さらに、
検出待ち画像内から各目標対象の検出フレームを検出して得、
各マッチング対象組に対して、マッチング対象組中の少なくとも2つの目標対象の検出フレームの位置情報に基づいて、マッチング対象組中の少なくとも2つの目標対象の空間情報を生成する。
いくつかの実施形態において、取得モジュール420は、さらに、
マッチング対象組の補助バウンディングフレームを生成し、ここで、補助バウンディングフレームは、マッチング対象組中の各目標対象の検出フレームをカバーし、
補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、
同じマッチング対象組中の各目標対象の位置特徴情報を融合して、マッチング対象組中の少なくとも2つの目標対象の空間情報を得る。
いくつかの実施形態において、補助バウンディングフレームは、マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである。
図12に示すように、いくつかの実施形態において、確定モジュール430は、
各マッチング対象組中の少なくとも2つの目標対象の視覚情報および空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュール431と、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、マッチング対象組中の少なくとも2つの目標対象が関連しているか否かを確定するための確定サブモジュール432と備え得る。
いくつかの実施形態において、確定サブモジュール432は、具体的に、
各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各マッチング対象組中の少なくとも2つの目標対象同士の間の関連度スコアを得、
同じ目標対象が属している複数のマッチング対象組に対して、関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、
目標マッチング対象組中の少なくとも2つの目標対象を関連目標対象として確定する。
いくつかの実施形態において、目標対象が人体部位である場合、確定モジュール430は、具体的に、
同じマッチング対象組中の各人体部位が1つの人体に属するか否かを確定する。
上記から分かるように、本発明の関連対象検出装置によると、同じマッチング対象組中の目標対象同士の間の関連特徴を利用して目標検出を補助し、複雑な場面での目標検出精度を向上させ、たとえば人顔と人体の関連検出によって複数の人の場面での人体検出を実現し、検出の正確性を向上させる。また、関連検出において、目標対象の視覚情報と空間情報とを組み合わせて、目標対象の関連検出精度を向上させ、たとえば、人顔と人体との関連検出で、人顔および人体の視覚特徴情報を採用するだけでなく、さらに人顔と人体の空間的位置特徴情報も考慮して、空間的位置特徴を利用して人顔と人体の関連を補助し、人顔と人体の関連の正確性を向上させ、さらに、目標検出の精度を向上させる。
第3態様によると、本発明の実施形態は、電子デバイスを提供し、当該電子デバイスは、
プロセッサと、
プロセッサと通信可能に接続され、プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、コンピュータ命令がプロセッサによってアクセスされると、プロセッサが第1態様の任意の実施形態の方法を実行するようにする。
第4態様によると、本発明の実施形態は、コンピュータ可読命令が格納されている記録媒体を提供し、コンピュータ可読命令は、コンピュータが第1態様の任意の実施形態の方法を実行するようにする。
具体的に言うと、図13は、本発明の方法を実装するのに適したコンピュータシステム600の構成を示す模式図であり、図13に示すシステムは、上記のプロセッサおよび記録媒体に該当する機能を実装することができる。
図13に示すように、コンピュータシステム600は、プロセッサ(CPU)601を含み、読み取り専用メモリ(ROM)602内に記憶されているプログラム、または、記憶部608からランダムアクセスメモリ(RAM)603にロードしたプログラムに応じて、さまざまな適切な動作および処理を実行する。RAM603には、システム600の操作に必要なさまざまなプログラムおよびデータが記憶されている。CPU601、ROM602、および、RAM603は、バス604を介して互いに接続される。入力/出力(I/O)インターフェース605もバス604に接続される。
キーボード、マウスなどを含む入力部606、カソード光線管(CRT)、液晶ディスプレイ(LDC)などおよびスピーカーなどを含む出力部607、ハードディスクなどを含む記憶部608、および、LANカード、モデムなどのネットワークインターフェースカードを含む通信部609が、I/Oインターフェース605に接続される。通信部609は、インターネットなどのネットワークを介して通信処理を実行する。ドライバ610も、必要に応じてI/Oインターフェース605に接続される。磁気ディスク、光学ディスク、磁気光学ディスク、半導体メモリなどの取り外し可能な媒体611は、必要に応じてドライバ610に取り付けることによって、読み取られたコンピュータプログラムが必要に応じて記憶部608にインストールされる。
特に、本発明の実施形態によれば、上記の方法は、コンピュータソフトウェアプログラムとして実装され得る。たとえば、本発明の実施形態は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に含まれたコンピュータプログラムを含み、コンピュータプログラムは、上記の方法を実行するためのプログラムコードを含む。このような実施形態において、当該コンピュータプログラムは、通信部609を介してネットワークからダウンロードしてインストールされるか、および/または、取り外し可能な媒体611からインストールされ得る。
図面におけるフローチャート及びブロック図は、本発明の複数の実施形態に係るシステム、方法及びコンピュータプログラム製品の実施可能な体系アーキテクチャ、機能及び操作を示す。この点では、フローチャート又はブロック図における各ブロックは、1つのモジュール、プログラムセグメント又は命令の一部を代表してもよい。前記モジュール、プログラムセグメント又は命令の一部は、規定された論理機能を実施するための1つ又は複数の実行可能命令を含む。幾つかの代替としての実施形態において、ブロック中にマークされた機能は、図面に示された順番と異なる順番で発生してもよい。例えば、2つの連続するブロックは、実に、基本的に並行に実行されてもよく、そして、逆の順番で実行されるときもあり、これは、かかる機能に応じて定められる。注意すべきことは、ブロック図及び/又はフローチャートにおける各ブロック、並びに、ブロック図及び/又はフローチャートにおけるブロックの組み合わせは、規定の機能又は動作を実行する専用のハードウェアに基づくシステムにて実現されてもよく、専用ハードウェアとコンピュータ命令との組み合わせで実現されてもよい。
明らかに、上記の実施形態は、明確な説明のための例に過ぎず、実施形態を限定することを意図するものではない。当業者にとって、上記の説明に基づいて、異なる形態の他の変更または修正を行うことができる。ここにすべての実装方法をリストすることは不要であり、不可能ある。これに起因する明らかな変更または変動は、依然として本開示の保護範囲内にある。

Claims (20)

  1. 関連対象検出方法であって、
    検出待ち画像内から、少なくとも2つの目標対象を含むマッチング対象組を、少なくとも1つ検出して得ること、
    各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得すること、
    各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定すること、を含む
    ことを特徴とする関連対象検出方法。
  2. 検出待ち画像内からマッチング対象組を少なくとも1つ検出して得ることは、
    前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得ること、
    前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも1つ得ること、を含む
    ことを特徴とする請求項1に記載の前記方法。
  3. 各前記マッチング対象組中の各前記目標対象の視覚情報を取得することは、
    前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得ることを含む
    ことを特徴とする請求項1に記載の前記方法。
  4. 各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得することは、
    前記検出待ち画像内から各前記目標対象の検出フレームを検出して得ること、
    各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成すること、を含む
    ことを特徴とする請求項1に記載の前記方法。
  5. 各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成することは、
    前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成すること、
    前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定すること、
    同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を得ること、を含む
    ことを特徴とする請求項4に記載の前記方法。
  6. 前記補助バウンディングフレームは、前記マッチング対象組中の各目標対象をカバーするバウンディングフレームの中の最小面積を持つバウンディングフレームである
    ことを特徴とする請求項5に記載の前記方法。
  7. 各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、
    各マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得ること、
    各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定すること、を含む
    ことを特徴とする請求項1から6のいずれか1項に記載の前記方法。
  8. 各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、
    各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも2つの目標対象同士の間の関連度スコアを得ること、
    同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定すること、
    前記目標マッチング対象組中の前記少なくとも2つの目標対象を関連目標対象として確定すること、を含む
    ことを特徴とする請求項7に記載の前記方法。
  9. 前記目標対象が人体部位である場合、前記各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定することは、
    同じ前記マッチング対象組中の各人体部位が1つの人体に属するか否かを確定することを含む
    ことを特徴とする請求項1に記載の前記方法。
  10. サンプル画像セットを取得することであって、前記サンプル画像セットは、少なくとも1つのサンプル画像を含み、各前記サンプル画像は、少なくとも1つのサンプルマッチング対象組および前記サンプルマッチング対象組に対応するラベル情報を含み、各前記サンプルマッチング対象組は、少なくとも2つのサンプル目標対象を含み、前記ラベル情報は、前記サンプルマッチング対象組中の各サンプル目標対象の関連結果を示すこと、
    トレーニング待ちの関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、前記サンプル画像内から前記サンプルマッチング対象組を検出して得ること、
    トレーニング待ちの対象検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の各前記サンプル目標対象の視覚情報を得、トレーニング待ちの前記関連検出ネットワークを利用して、前記サンプル画像に対して処理を実行して、各前記サンプルマッチング対象組中の前記少なくとも2つのサンプル目標対象の空間情報を得ること、
    トレーニング待ちの前記関連検出ネットワークを利用して、各前記サンプルマッチング対象組中の前記少なくとも2つのサンプル目標対象の前記視覚情報および前記空間情報に基づいて、各前記サンプルマッチング対象組の関連性検出結果を得ること、
    各前記サンプルマッチング対象組の前記関連性検出結果と対応するラベル情報との間の誤差を確定し、前記誤差が収束するまで、前記誤差に基づいて前記関連検出ネットワークおよび前記対象検出ネットワークの中の少なくとも1つのネットワークパラメータを調整すること、をさらに含む
    ことを特徴とする請求項1に記載の前記方法。
  11. 関連対象検出装置であって、
    検出待ち画像内から、少なくとも2つの目標対象を含むマッチング対象組を、少なくとも1つ検出して得るための検出モジュールと、
    各前記マッチング対象組中の各前記目標対象の視覚情報、および、各前記マッチング対象組中の前記少なくとも2つの目標対象の空間情報を取得するための取得モジュールと、
    各前記マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に基づいて、各前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定するための確定モジュールと、を備える
    ことを特徴とする関連対象検出装置。
  12. 前記検出モジュールは、
    前記検出待ち画像内から各前記目標対象、および、各前記目標対象の対象タイプを検出して得るための検出サブモジュールと、
    前記対象タイプごとに、前記対象タイプ中の各目標対象をそれぞれ他の前記対象タイプ中の各前記目標対象と組み合わせて、前記マッチング対象組を少なくとも1つ得るための組合せサブモジュールと、を備える
    ことを特徴とする請求項11に記載の前記装置。
  13. 前記取得モジュールは、さらに、
    前記マッチング対象組中の各目標対象に対して視覚特徴抽出を実行して前記目標対象の視覚情報を得る
    ことを特徴とする請求項11に記載の前記装置。
  14. 前記取得モジュールは、さらに、
    前記検出待ち画像内から各前記目標対象の検出フレームを検出して得、
    各前記マッチング対象組に対して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記検出フレームの位置情報に基づいて、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を生成する
    ことを特徴とする請求項11に記載の前記装置。
  15. 前記取得モジュールは、さらに、
    前記マッチング対象組中の各目標対象の検出フレームをカバーする、前記マッチング対象組の補助バウンディングフレームを、生成し、
    前記補助バウンディングフレームおよび各目標対象の検出フレームに基づいて、前記マッチング対象組中の各目標対象の位置特徴情報をそれぞれ確定し、
    同じマッチング対象組中の各目標対象の前記位置特徴情報を融合して、前記マッチング対象組中の前記少なくとも2つの目標対象の前記空間情報を得る
    ことを特徴とする請求項14に記載の前記装置。
  16. 前記確定モジュールは、
    各マッチング対象組中の前記少なくとも2つの目標対象の前記視覚情報および前記空間情報に対して融合処理を実行して、各マッチング対象組の融合特徴を得るための融合サブモジュールと、
    各マッチング対象組の融合特徴に対して関連性分類処理を実行して、前記マッチング対象組中の前記少なくとも2つの目標対象が関連しているか否かを確定するための確定サブモジュールと、を備える
    ことを特徴とする請求項11~15のいずれか1項に記載の前記装置。
  17. 前記確定サブモジュールは、さらに、
    各マッチング対象組の融合特徴に対して関連性分類処理を実行して、各前記マッチング対象組中の前記少なくとも2つの目標対象同士の間の関連度スコアを得、
    同じ目標対象が属している複数のマッチング対象組に対して、前記関連度スコアが最も高いマッチング対象組を目標マッチング対象組として確定し、
    前記目標マッチング対象組中の前記少なくとも2つの目標対象を関連目標対象として確定する
    ことを特徴とする請求項16に記載の前記装置。
  18. 電子デバイスであって、
    プロセッサと、
    前記プロセッサと通信可能に接続され、前記プロセッサによってアクセス可能なコンピュータ命令が格納されているメモリと、を備え、
    前記コンピュータ命令が前記プロセッサによってアクセスされるときに、前記プロセッサが請求項1から10のいずれか1項に記載の方法を実行するようにする
    ことを特徴とする電子デバイス。
  19. コンピュータ可読命令が格納されている記録媒体であって、
    前記コンピュータ可読命令は、コンピュータが請求項1から10のいずれか1項に記載の方法を実行するようにする
    ことを特徴とする記録媒体。
  20. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子デバイスで運行されるときに、前記電子デバイスのプロセッサが請求項1から10のいずれか1項に記載の方法を実装するようにする
    ことを特徴とするコンピュータプログラム。
JP2021536266A 2020-12-29 2021-04-28 関連対象検出方法、及び装置 Ceased JP2023512359A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013169Q 2020-12-29
SG10202013169Q 2020-12-29
PCT/IB2021/053488 WO2022144601A1 (en) 2020-12-29 2021-04-28 Method and apparatus for detecting associated objects

Publications (1)

Publication Number Publication Date
JP2023512359A true JP2023512359A (ja) 2023-03-27

Family

ID=78092818

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536266A Ceased JP2023512359A (ja) 2020-12-29 2021-04-28 関連対象検出方法、及び装置

Country Status (5)

Country Link
US (1) US20220207261A1 (ja)
JP (1) JP2023512359A (ja)
KR (1) KR102580281B1 (ja)
CN (1) CN113544701B (ja)
AU (1) AU2021203870A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114973334A (zh) * 2022-07-29 2022-08-30 浙江大华技术股份有限公司 人体部件关联方法、装置、电子装置和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271522A (ja) * 2007-04-18 2008-11-06 Fuji Xerox Co Ltd ノンリニアビデオ再生制御方法およびノンリニアビデオ再生制御プログラム
WO2012014590A1 (ja) * 2010-07-28 2012-02-02 パイオニア株式会社 映像処理装置及び方法
JP2013253717A (ja) * 2012-06-05 2013-12-19 Hitachi Appliances Inc 空気調和機、及び空気調和機の制御方法
JP2015176253A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 ジェスチャ認識装置およびジェスチャ認識装置の制御方法
JP2018125670A (ja) * 2017-01-31 2018-08-09 森ビル株式会社 空中監視装置、空中監視方法及びプログラム
JP2020149111A (ja) * 2019-03-11 2020-09-17 オムロン株式会社 物体追跡装置および物体追跡方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740617B2 (en) * 2017-12-19 2020-08-11 Intel Corporation Protection and recovery of identities in surveillance camera environments
CN108710885B (zh) * 2018-03-29 2021-07-23 百度在线网络技术(北京)有限公司 目标对象的检测方法和装置
CN110889314B (zh) * 2018-09-10 2022-09-13 北京市商汤科技开发有限公司 图像处理方法、装置、电子设备、服务器及***
CN110163889A (zh) * 2018-10-15 2019-08-23 腾讯科技(深圳)有限公司 目标跟踪方法、目标跟踪装置、目标跟踪设备
KR102251704B1 (ko) * 2019-05-29 2021-05-12 에스케이텔레콤 주식회사 관계형 질의를 이용한 객체 검출방법 및 그 장치
CN110533685B (zh) * 2019-08-30 2023-10-24 腾讯科技(深圳)有限公司 对象跟踪方法和装置、存储介质及电子装置
CN110705478A (zh) * 2019-09-30 2020-01-17 腾讯科技(深圳)有限公司 人脸跟踪方法、装置、设备及存储介质
CN110717476A (zh) * 2019-10-22 2020-01-21 上海眼控科技股份有限公司 图像处理方法、装置、计算机设备和计算机可读存储介质
CN111091091A (zh) * 2019-12-16 2020-05-01 北京迈格威科技有限公司 目标对象重识别特征的提取方法、装置、设备及存储介质
CN111178261B (zh) * 2019-12-30 2023-05-16 武汉恩智电子科技有限公司 一种基于视频编码技术的人脸检测加速方法
CN111754368A (zh) * 2020-01-17 2020-10-09 天津师范大学 一种高校教学评估方法及基于边缘智能的高校教学评估***
CN111275002A (zh) * 2020-02-18 2020-06-12 上海商汤临港智能科技有限公司 一种图像处理方法、装置及电子设备
US10846857B1 (en) * 2020-04-20 2020-11-24 Safe Tek, LLC Systems and methods for enhanced real-time image analysis with a dimensional convolution concept net
CN111709974B (zh) * 2020-06-22 2022-08-02 苏宁云计算有限公司 基于rgb-d图像的人体跟踪方法及装置
WO2022134120A1 (zh) * 2020-12-26 2022-06-30 西安科锐盛创新科技有限公司 基于目标活动预测的停车场管控方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271522A (ja) * 2007-04-18 2008-11-06 Fuji Xerox Co Ltd ノンリニアビデオ再生制御方法およびノンリニアビデオ再生制御プログラム
WO2012014590A1 (ja) * 2010-07-28 2012-02-02 パイオニア株式会社 映像処理装置及び方法
JP2013253717A (ja) * 2012-06-05 2013-12-19 Hitachi Appliances Inc 空気調和機、及び空気調和機の制御方法
JP2015176253A (ja) * 2014-03-13 2015-10-05 オムロン株式会社 ジェスチャ認識装置およびジェスチャ認識装置の制御方法
JP2018125670A (ja) * 2017-01-31 2018-08-09 森ビル株式会社 空中監視装置、空中監視方法及びプログラム
JP2020149111A (ja) * 2019-03-11 2020-09-17 オムロン株式会社 物体追跡装置および物体追跡方法

Also Published As

Publication number Publication date
CN113544701B (zh) 2024-06-14
US20220207261A1 (en) 2022-06-30
KR20220098310A (ko) 2022-07-12
AU2021203870A1 (en) 2022-07-14
CN113544701A (zh) 2021-10-22
KR102580281B1 (ko) 2023-09-18

Similar Documents

Publication Publication Date Title
JP7265034B2 (ja) 人体検出用の方法及び装置
EP3576017A1 (en) Method, apparatus, and device for determining pose of object in image, and storage medium
US11238272B2 (en) Method and apparatus for detecting face image
Rekimoto Matrix: A realtime object identification and registration method for augmented reality
WO2018137623A1 (zh) 图像处理方法、装置以及电子设备
CN108388882B (zh) 基于全局-局部rgb-d多模态的手势识别方法
WO2022156626A1 (zh) 一种图像的视线矫正方法、装置、电子设备、计算机可读存储介质及计算机程序产品
JP2003525504A (ja) モデルを使用して画像内のオブジェクトの位置を特定するシステム及び方法
CN105095853B (zh) 图像处理装置及图像处理方法
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
CN111325107A (zh) 检测模型训练方法、装置、电子设备和可读存储介质
CN111784658A (zh) 一种用于人脸图像的质量分析方法和***
US20240161461A1 (en) Object detection method, object detection apparatus, and object detection system
JP2023512359A (ja) 関連対象検出方法、及び装置
Lupión et al. 3D Human Pose Estimation from multi-view thermal vision sensors
JP7501747B2 (ja) 情報処理装置、制御方法、及びプログラム
WO2024001617A1 (zh) 玩手机行为识别方法及装置
CN112329663A (zh) 一种基于人脸图像序列的微表情时刻检测方法及装置
CN111274854B (zh) 一种人体动作识别方法和视觉增强处理***
CN111709269A (zh) 一种深度图像中基于二维关节信息的人手分割方法和装置
CN113139504B (zh) 身份识别方法、装置、设备及存储介质
CN114998743A (zh) 一种视觉地图点的构建方法、装置、设备及介质
CN113628148A (zh) 红外图像降噪方法和装置
KR101844367B1 (ko) 부분 포즈 추정에 의하여 개략적인 전체 초기설정을 사용하는 머리 포즈 추정 방법 및 장치
CN113128277A (zh) 一种人脸关键点检测模型的生成方法及相关设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210621

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210621

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230328

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231003

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20240222