JP7105383B2 - 画像処理方法、装置、記憶媒体及び電子機器 - Google Patents

画像処理方法、装置、記憶媒体及び電子機器 Download PDF

Info

Publication number
JP7105383B2
JP7105383B2 JP2021557461A JP2021557461A JP7105383B2 JP 7105383 B2 JP7105383 B2 JP 7105383B2 JP 2021557461 A JP2021557461 A JP 2021557461A JP 2021557461 A JP2021557461 A JP 2021557461A JP 7105383 B2 JP7105383 B2 JP 7105383B2
Authority
JP
Japan
Prior art keywords
interaction
target
keypoint
image
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021557461A
Other languages
English (en)
Other versions
JP2022520498A (ja
Inventor
ユエ リアオ
フェイ ワン
イエンジエ チェン
チェン チエン
スー リウ
Original Assignee
シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2022520498A publication Critical patent/JP2022520498A/ja
Application granted granted Critical
Publication of JP7105383B2 publication Critical patent/JP7105383B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Description

[関連出願への相互参照]
本願は、2019年12月30日に中国特許局に提出された、出願番号が201911404450.6である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
[技術分野]
本発明は、画像処理技術に関し、具体的に、画像処理方法、装置、記憶媒体及び電子機器に関する。
画像内の人と物体との間のインタラクション動作関係を検出するために、通常、最初に検出器を介して画像内の人及び物体を検出し、信頼度が特定の閾値より高い人及び物体を選択し、選択された人と物体とをペアリングして、人-物体ペアを形成し、関係分類ネットワークを介して各人-物体ペアを分類し、動作関係カテゴリを出力する。
上記の処理プロセスでは、検出の信頼度のみを考慮し、人と物体間のインタラクション動作の可能性を考慮しないため、実際のインタラクション動作関係を有する人又は物体を欠落する可能性があり、即ち、実際のインタラクション動作関係を有する人-物体ペアを欠落する可能性があり、実際のインタラクション動作関係を有しない人-物体ペアを大量生成する。また、通常の状況では、1枚の画像にはインタラクション動作関係を有する人と物体が非常に少ないため、画像からM人とN個の物体を検出した場合、上記の処理方式を採用すれば、M×N個の人-物体ペアが生成され、この場合、関係分類ネットワークは、各人-物体ペアに対応する動作関係カテゴリを決定する必要があるため、不要な処理及び消費が増加する。
本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供する。
本発明の実施例は、画像処理方法を提供し、前記方法は、第1画像の特徴データを抽出することと、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であることと、前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表すことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。
本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定することとを含み、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。
本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含み、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。
本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。
本発明のいくつかの例示的な実施例において、前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。
本発明のいくつかの例示的な実施例において、前記方法は、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む。
本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。
本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含み、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。
本発明のいくつかの例示的な実施例において、前記画像処理方法は、ニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。
本発明のいくつかの例示的な実施例において、サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測することと、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。
本発明の実施例は、画像処理装置を更に提供し、前記装置は、抽出ユニット、第1決定ユニット、第2決定ユニット及び第3決定ユニットを備え、ここで、
前記抽出ユニットは、第1画像の特徴データを抽出するように構成され、
前記第1決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
前記第2決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第3決定ユニットは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得し、ここで、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第3決定ユニットは更に、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定するように構成される。
本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。
本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得し、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定するように構成され、前記第1決定ユニットは更に、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。
本発明のいくつかの例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。
本発明のいくつかの例示的な実施例において、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニットを備え、前記トレーニングユニットは、具体的には、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を更に提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の方法のステップを実現する。
本発明の実施例は、電子機器を更に提供し、前記電子機器は、メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行するときに、本発明の実施例に記載の方法のステップを実現する。
本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の方法のステップを実行させる。
本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供し、前記方法は、第1画像の特徴データを抽出することと、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である、ことと、前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す、ことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも2つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づき、前記第1画像内のターゲット間のインタラクション関係を決定することにより、人-物体ペアを生成する必要もなく、人-物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人-物体ペアを欠落するという問題も回避することができる。更に、最初に人及び物体を検出し、次に人と物体とをのペアリングした後、関係分類ネットワークを介して各人-物体ペアに対して分類検出を実行する従来の方式と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。
本発明の実施例に係る画像処理方法の例示的なフローチャートである。 本発明の実施例に係る画像処理方法の応用の概略図である。 本発明の実施例に係る画像処理方法の別の応用の概略図である。 本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートである。 本発明の実施例に係る画像処理装置の構成の第1概略構造図である。 本発明の実施例に係る画像処理装置の構成の第2概略構造図である。 本発明の実施例に係る電子機器のハードウェア構成の概略構造図である。
以下、図面および具体的な実施例を参照して、本発明をさらに詳細に説明する。
本発明の実施例は、画像処理方法を提供する。図1は、本発明の実施例に係る画像処理方法の例示的なフローチャートであり、図1に示されたように、前記画像処理方法は、次のステップを含む。
ステップ101において、第1画像の特徴データを抽出する。
ステップ102において、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定し、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である。
ステップ103において、前記特徴データに基づいて、少なくとも2つのオフセットを決定し、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。
ステップ104において、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。
本実施例では、第1画像は複数のターゲットを含み得、ここで、前記複数のターゲットの各ターゲット間にはインタラクション関係を有しない可能性があるか、又は、前記複数のターゲットは、インタラクション関係を有する少なくとも1つのグループのターゲットを含み得る。ここで、前記インタラクション関係を有するターゲットは、具体的には、少なくとも2つのターゲットであり、例示的に、前記少なくとも2つのターゲットは、少なくとも、1つのターゲット人物を有する。例えば、インタラクション関係を有する2つのターゲットは、インタラクション関係を有する2つのターゲット人物であるか、又は、インタラクション関係を有する2つのターゲットは、インタラクション関係を有する1つのターゲット人物と1つのターゲット物体である。理解できることとして、前記インタラクション関係を有する少なくとも2つのターゲットは、具体的には、インタラクション動作に関する2つのターゲットであってもよく、ここで、前記インタラクション動作に関する2つのターゲットは、直接インタラクション動作又は暗黙的なインタラクション動作に関する2つのターゲットであってもよい。一例として、第1画像に含まれたターゲット人物がタバコを手に持っている場合、当該ターゲット人物とターゲット物体であるタバコとの間には、直接動作関係があると見なすことができ、この例では、ターゲット人物とターゲットオブジェクトとの間には、直接動作関係がある。別の例として、第1画像に含まれるターゲット人物がボールを打ち、ターゲット人物が打ち動作を行い、ボールがターゲット人物の手の下の空中にある場合、当該ターゲット人物とターゲット物体であるボールとの間には、暗黙の動作関係があると見なすことができる。
本発明の実施例に係る画像処理方法において、画像内のターゲットがインタラクション関係を有するかどうかを決定する場合、ターゲットの中心点及びインタラクションキーポイントを決定するステップ(点を検出するステップ)と、オフセットを決定するステップ(点をマッチングするステップ)とを同時に実行することができ、その後、決定されたオフセット、決定された中心点、及びインタラクションキーポイントに従って、インタラクション関係を有するターゲット及びそのインタラクション動作カテゴリを最終的に決定し、それにより、インタラクション関係検出効率を向上させる。
本発明の一例示的な実施例において、ステップ101について、前記第1画像の特徴データを抽出することは、深層ニューラルネットワークモデルを介して、前記第1画像の特徴データを抽出することを含む。例示的に、第1画像を入力データとして深層ニューラルネットワークモデルに入力して、前記第1画像の特徴データを取得する。ここで、理解できることとして、深層ニューラルネットワークモデルは、複数の畳み込み層を含み得、各畳み込み層を介して第1画像に対して畳み込み処理を順次実行することにより、第1画像の特徴データを取得する。
本実施例では、事前トレーニングによって得られた第1ブランチネットワークを介してステップ102を実行でき、即ち、第1ブランチネットワークを介して、前記特徴データに基づいて、各ターゲットの中心点及び各インタラクションキーポイントを決定する。理解できることとして、前記第1画像の特徴データを入力データとして前記第1ブランチネットワークに入力することにより、前記第1画像内の各ターゲットの中心点及び各インタラクションキーポイントを取得する。例えば、第1画像に含まれるターゲットがすべてターゲット人物である場合、前記第1ブランチネットワークを介して、前記特徴データを処理して、各ターゲット人物の中心点及び各インタラクションキーポイントを取得する。別の例では、第1画像に含まれるターゲットがターゲット人物及びターゲット物体を含む場合、前記第1ブランチネットワークを介して、前記特徴データを処理して、ターゲット人物の中心点、ターゲット物体の中心点及び各インタラクションキーポイントを取得する。
ここで、いくつかの実施例において、ターゲットの中心点の後、第1ブランチネットワークは、ターゲットの検出ボックスの長さと幅を回帰し、ターゲットの検出ボックスは、ターゲットの中心点及びターゲットの検出ボックスの長さと幅に従って決定される。図2に示されたように、第1画像は、2つのターゲット人物及び2つのターゲット物体(2つのターゲット物体は2つのボールである)を含み、両者を区別するために、ターゲット人物の中心点を第1中心点として記録し、ターゲット物体の中心点を第2中心点として記録する。
ここで、いくつかの実施例において、インタラクションキーポイントは、1つのインタラクション動作における2つのターゲットの中心点間の連結線において、当該連結線の中点からプリセットされた範囲内の点である。一例として、前記インタラクションキーポイントは、1つのインタラクション動作における2つのターゲットの中心点の連結線の中点であってもよい。図2に示されたように、1つのインタラクションキーポイントは、1つのインタラクション動作におけるターゲット人物の第1中心点とターゲット物体の第2中心点の連結線の中点であってもよい。
本実施例では、事前トレーニングによって得られた第2ブランチネットワークを介してステップ103を実行することができ、即ち、第2ブランチネットワークを介して、前記特徴データに基づいて、少なくとも2つのオフセットを決定することができる。ここで、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。理解できることとして、第1画像の特徴データを入力データとして前記第2ブランチネットワークに入力することにより、第1画像内の各点の少なくとも2つのオフセットを取得する。
実際の応用では、各点に対応する少なくとも2つのオフセットはオフセット行列で表すことができる。ステップ102で決定された各インタラクションキーポイントに基づいて、各インタラクションキーポイントに対応する少なくとも2つのオフセットを決定することができる。いくつかの実施例において、各インタラクションキーポイントの座標、及び各点に対応するオフセット行列に従って、各インタラクションキーポイントに対応する少なくとも2つのオフセットを決定することができる。
図2に示されたように、例示的に、1つのオフセットは、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを表し、もう1つのオフセットは、前記インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを表し、両者を区別するために、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを第1オフセットとして記録し、前記インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを第2オフセットとして記録し、この例では、第1オフセットは、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを表し、第2オフセットは、インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを表す。もちろん、他の例において、2つのターゲットをそれぞれ第1ターゲット及び第2ターゲットに記録することもでき、この場合、第1オフセットは、インタラクション動作におけるインタラクションキーポイントと第1ターゲットの中心点の間のオフセットを表し、第2オフセットは、インタラクション動作におけるインタラクションキーポイントと第2ターゲットの中心点の間のオフセットを表す。
本実施例では、ステップ104について、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲットに従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。
本実施例では、ステップ103で決定された少なくとも2つのオフセットは、インタラクション動作(即ち、インタラクション関係)に関する少なくとも2つのターゲットを決定するために使用される。ステップ102で決定された各ターゲットの中心点及び各インタラクションキーポイントを通して、インタラクション動作に関するターゲットを知ることはできない。これに基づいて、本実施例では、各インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定する。
例示的に、任意のインタラクションキーポイント(ここでは第1インタラクションキーポイントとして記録する)を例にとると、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する1つのオフセット(例えば、第1オフセット)に基づいて、第1位置を決定することができ、前記第1位置は、理論的には、第1インタラクションキーポイントと一致する1つのターゲットの中心点(例えば、第1中心点)の位置として使用でき、ここで、前記第1位置を第1予測中心点として記録する。同様に、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する別のオフセット(例えば、第2オフセット)に基づいて、第2位置を決定することができ、ここで、前記第2位置を第2予測中心点として記録する。
さらに、中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第1ターゲットの中心点と上記の第1予測中心点との間の距離がプリセットされた距離閾値より小さく、第2ターゲットの中心点と上記の第2プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第1ターゲット及び前記第2ターゲットが、上記の第1インタラクションキーポイントに対応する2つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、1つのインタラクションキーポイントに対応するターゲットが2つ又は2つ以上存在する可能性がある。
本実施例では、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、当該インタラクションキーポイントに対応する少なくとも2つのターゲット間のインタラクション関係を決定することができる。理解できることとして、第1ブランチネットワークを介して特徴データを処理して、第1画像内の各インタラクションキーポイントを取得する場合、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度も取得することができ、前記プリセットされたインタラクション動作カテゴリの信頼度に基づいて、少なくとも2つのターゲット間のインタラクション関係を決定することができる。
本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも2つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づき、前記第1画像内のターゲット間のインタラクション関係を決定することにより、人-物体ペアを生成する必要もなく、人-物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人-物体ペアを欠落するという問題も回避することができる。本実施例は、インタラクション関係を有するターゲットを直接取得するため、関係分類ネットワークを介して各人-物体ペアに対して分類検出を実行する従来の方法と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。
以下、図1に示される画像処理方法の各ステップについて詳細に説明する。
本発明の一例示的な実施例において、ステップ102について、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含む。前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。
本実施例では、前記第1画像の特徴データをダウンサンプリング処理し、前記ダウンサンプリング処理は、例えば、特徴データを含む特徴マップに対して画像縮小処理を実行すること、即ち、特徴マップのサイズを縮小することであり得、これにより、ダウンサンプリング後に取得されたヒットマップ内の各点と第1画像内の各点は、1対1で対応しない。例えば、第1画像のサイズは128x128であり、第1画像内のターゲット人物の中心点は(10,10)であるが、ヒットマップはダウンサンプリングによって取得されたものであるため、32x32に4倍ダウンサンプリングすると、ターゲット人物の中心点は(10/4、10/4)=(2.5、2.5)にマッピングされるが、ヒットマップにおける点の座標は整数であるため、ヒットマップにおいて予測されるターゲット人物の中心点は、座標の小数点以下を切り捨てた点であり、即ち、座標は(2、2)である。つまり、ダウンサンプリングすると、ターゲット人物の中心点の位置の位置オフセットが発生する。
したがって、第1ブランチネットワークを介して、前記特徴データを処理することができ、具体的には、まず、特徴データが含まれた特徴マップをダウンサンプリングしてヒットマップ(Heatmap)を取得し、その後、ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することができる。理解できることとして、特徴データを第1ブランチネットワークの入力データとして使用し、特徴データをダウンサンプリングすることによりヒットマップを取得した後、第1ブランチネットワークは、ヒットマップに基づいて、第1画像内の各点の位置オフセット(offset)、第1画像内の各ターゲットの中心点、各ターゲットの検出ボックスの高さと幅[height、width]及び各ターゲットが各カテゴリに属する信頼度、及び第1画像内の各インタラクションキーポイント及び各インタラクションキーポイントが各プリセットされたインタラクション動作カテゴリに属する信頼度を決定する。
本実施例では、いくつかの実施例において、前記特徴データに基づいて、前記第1画像内の各点の位置オフセットを決定した後、インタラクション関係を有するターゲットの中心点の位置オフセットに基づいて、当該中心点の位置を補正することができる。例示的に、取得されたターゲットの中心点と対応する位置オフセットを加算して、補正後のターゲットの中心点の位置を取得することができる。これに対応して、ターゲットの中心点の補正後の位置及び検出ボックスの高さと幅に従って、当該ターゲットの検出ボックスを取得することにより、インタラクション関係を有するターゲットの検出ボックスを出力する。
例示的に、図2を参照すると、図2の第1中心点は補正後の位置であり、当該第1中心点を通る垂直の点線は、検出ボックスの高さ(height)を示し、当該第1中心点を通る水平の点線は、検出ボックスの幅(width)を示す。
本発明の一例示的な実施例において、ステップ102について、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点に基づいて、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。
本実施例では、第1ブランチネットワークを介して特徴データを処理することができ、例示的に、第1ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を取得することができ、ここで、前記ターゲットの信頼度は、前記第1画像に前記ターゲットがある信頼度であってもよい。これに対応して、第1ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第1画像内の各インタラクションキーポイント及び各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度を取得することもでき、ここで、前記プリセットされたインタラクション動作カテゴリは、事前に設定された任意のインタラクション動作カテゴリ、例えば、喫煙インタラクション動作、ボールを打つインタラクション動作などであってもよい。さらに、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。
これに基づいて、本発明の一例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含む。前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。
本実施例では、第1ブランチネットワークを介して特徴データを処理することができ、例示的に、第1ブランチネットワークの複数の畳み込み層を介して、特徴データに対して畳み込み処理を実行して、第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を取得することができる。ここで、第1画像内のターゲットが属するカテゴリは、人、車両、ボールなどの任意のカテゴリを含み得、前記ターゲットが各カテゴリに属する信頼度は、前記第1画像の前記ターゲットが当該カテゴリに属する信頼度であり、すなわち、第1画像内の特定の位置に特定のカテゴリに属するターゲットがある信頼度である。本実施例では、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。
本発明の一例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。
本実施例では、任意のインタラクションキーポイント(ここでは第1インタラクションキーポイントとして記録する)を例にとると、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する1つのオフセット(例えば、第1オフセット)に基づいて第1位置を決定することができ、ここで、前記第1位置を第1予測中心点として記録する。同様に、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する別のオフセット(例えば、第2オフセット)に基づいて第2位置を決定することができ、ここで、前記第2位置を第2予測中心点として記録する。
さらに、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に基づいて、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定する。
本発明の一例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。
本実施例では、ターゲットの中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第1ターゲットの中心点と上記の第1予測中心点との間の距離がプリセットされた距離閾値より小さく、第2ターゲットの中心点と上記の第2プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第1ターゲット及び前記第2ターゲットが、上記の第1インタラクションキーポイントに対応する2つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、1つのインタラクションキーポイントに対応するターゲットが2つ又は2つ以上存在する可能性がある。さらに、各インタラクションキーポイントに対応する少なくとも2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定する。
本発明の一例示的な実施例において、前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットが対応するカテゴリに属する信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、対応するカテゴリとは、2つのターゲット間のインタラクションがプリセットされたインタラクション動作カテゴリに属する場合、2つのターゲットが属するカテゴリを指す(例えば、プリセットされた動作カテゴリがバレーボールである場合、1つのターゲットが属する対応するカテゴリは人であり、もう1つのターゲットが属する対応するカテゴリはボールであり、プリセットされた動作カテゴリが電話を掛けることである場合、1つのターゲットが属する対応するカテゴリは人であり、もう1つのターゲットが属する対応するカテゴリは電話である)ことと、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。
本発明の一例示的な実施例において、前記画像処理方法は、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む。
本実施例では、1つのインタラクションキーポイントが少なくとも2つのターゲットに対応し、複数のターゲット間のインタラクション関係を決定するプロセスでは、まず、上記の技術案を採用して、複数のターゲットのうちの2つのターゲット間のインタラクション関係を決定し、当該2つのターゲット間のインタラクション関係が、対応するインタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属するかどうかを決定することができる。例えば、1つのインタラクションキーポイントに対応する3つのターゲットがあり、それぞれ、ターゲット1、ターゲット2及びターゲット3と記録し、この場合、上記の技術案を採用して、ターゲット1とターゲット2の間のインタラクション関係、ターゲット2とターゲット3の間のインタラクション関係、及びターゲット3とターゲット1の間のインタラクション関係をそれぞれ決定することができる。
図3は、本発明の実施例に係る画像処理方法の別の応用の概略図であり、図3に示されたように、ニューラルネットワークは、特徴抽出ネットワーク、第1ブランチネットワーク及び第2ブランチネットワークを含み得、ここで、特徴抽出ネットワークは、入力画像に対して特徴抽出を実行して、特徴データを取得するために使用される。第1ブランチネットワークは、特徴データをダウンサンプリングしてヒットマップを取得し、その後、ヒットマップに従って入力画像内の各ターゲットの中心点及び各インタラクションキーポイントを決定し、各点の位置オフセット(offset)及び各ターゲットの検出ボックスの高さと幅[高さ,幅]、各ターゲットがカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得するために使用される。第2ブランチネットワークは、特徴データを処理して入力画像内の各点の少なくとも2つのオフセットを取得するために使用され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。
一実施形態において、第1ブランチネットワークを介して、特徴データを含む特徴マップをダウンサンプリングして、ヒットマップを取得する。この例の入力画像内のターゲットがターゲット人物及びターゲット物体を含むことを例にとると、両者を区別するために、ターゲット人物の中心点を第1中心点として記録し、ターゲット物体の中心点を第2中心点として記録すると、第1中心点を含む第1ヒットマップ、第2中心点を含む第2ヒットマップ及び各インタラクションキーポイントを含む第3ヒットマップをそれぞれ取得することができる。つまり、第1ブランチネットワークの出力データは、上記の第1ヒットマップ、第2ヒットマップ、第3ヒットマップ、入力画像内の各点の位置オフセット、及びターゲット人物及びターゲット物体の検出ボックスの高さと幅を含み得る。
具体的には、第1ブランチネットワークを介して、各ターゲットの中心点及びそのカテゴリ、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得することもできる。
一実施形態において、第2ブランチネットワークを介して、特徴データを含む特徴マップを処理して、各インタラクションキーポイントに対応する2つのオフセットを取得し、両者を区別するために、インタラクションキーポイントとインタラクション動作におけるターゲット人物の第1中心点との間のオフセットを第1オフセットとして記録し、インタラクションキーポイントとインタラクション動作におけるターゲット物体の第2中心点との間のオフセットを第2オフセットとして記録する。
1つのインタラクションキーポイント及び当該インタラクションキーポイントに対応する第1オフセット及び第2オフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点(それぞれ第1予測中心点及び第2予測中心点として記録する)を決定し、第1予測中心点について、各第1中心点と第1予測中心点との距離をそれぞれ決定し、当該第1予測中心点との距離がプリセットされた距離閾値より小さい第1中心点を決定する。これに対応して、第2予測中心点について、各第2中心点と第2予測中心点との距離をそれぞれ決定し、当該第2予測中心点との距離がプリセットされた距離閾値より小さい第2中心点を決定する。
図3における2つのインタラクションキーポイントについて、各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度と、前記インタラクションキーポイントに対応するターゲット人物の信頼度及びターゲット物体の信頼度とをそれぞれ乗算して、第1信頼度を取得し、第1信頼度が信頼度閾値お超える場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属すると決定し、第1信頼度が信頼度閾値を超えない場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属しないと決定する。
この例では、第1ブランチネットワークによって出力された入力画像内の各点の位置オフセットに基づいて、ターゲット人物の第1中心点及びターゲット物体の第2中心点の位置を補正して、インタラクション関係を有するターゲット人物の第1中心点の補正後の位置、及びターゲット物体の第2中心点の補正後の位置を取得し、入力画像においてインタラクション関係を有するターゲット人物の第1中心点の補正後の位置及びその検出ボックスの高さと幅[高さ、幅]、ターゲット物体の第2中心点の補正後の位置及びその検出ボックスの高さと幅[高さ、幅]に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定する。ニューラルネットワークの出力結果は、ターゲット人物の第1中心点の補正後の位置及びその対応する検出ボックス、ターゲット物体の第2中心点の補正後の位置及びその対応する検出ボックス、及びターゲット人物とターゲット物体のインタラクション関係(即ち、インタラクション動作カテゴリ)を含む。入力画像においてインタラクション関係を有しないターゲットの場合、検出ボックスを出力しない。
本発明の一例示的な実施例において、本実施例の前記画像処理方法はニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点(即ち、ターゲットの検出ボックスの中心)及びマークされたインタラクションキーポイント(インタラクション関係を有するターゲットの検出ボックスの中心の連結線の中点)は、マークされた検出ボックスに従って決定され、マークされたオフセットは、サンプル画像のサイズ及びサンプル画像に従って決定されたヒットマップのサイズに従って決定される。これに基づいて、本発明の実施例は、ニューラルネットワークのトレーニング方法を更に提供する。図4は、本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートであり、図4に示されたように、前記方法は、次のステップを含む。
ステップ201において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出する。
ステップ202において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得する。
ステップ203において、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測する。
ステップ204において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも2つのオフセットを予測する。
ステップ205において、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測する。
ステップ206において、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整する。
本実施例のステップ201~ステップ205の詳細については、上記の実施例を参照でき、ここでは繰り返して説明しない。
本実施例ステップ206では、いくつかの実施例において、ニューラルネットワークの第1ブランチネットワークについて、予測されたサンプル画像においてインタラクション関係を有するターゲットの予測された中心点、予測された検出ボックスの高さと幅、及び予測されたインタラクションキーポイント、及びインタラクション関係を有するターゲットのマークされた検出ボックスとマークされた位置オフセットに従って、1つの損失関数を決定でき、当該損失関数に基づいて第1ブランチネットワークのネットワークパラメータを調整することができる。
いくつかの実施例において、ニューラルネットワークの第2ブランチネットワークについて、インタラクションキーポイントに対応する予測されたオフセット及びマークされたオフセットに従って、1つの損失関数を決定でき、当該損失関数に基づいて第2ブランチネットワークのネットワークパラメータを調整することができる。
いくつかの実施例において、予測された位置オフセット及びマークされた位置オフセットに基づいて1つの損失関数を決定し、当該損失関数を介して、特徴データを含む特徴マップをダウンサンプリングすることによる位置オフセットを補正することで、ダウンサンプリングのよる損失を最小限に抑えることにより、取得された各点の位置オフセット(offset)をより正確にすることができる。これに基づいて、当該損失関数を介して第1ブランチネットワークのネットワークパラメータを調整する。
本実施例では、前述した各実施例におけるパラメータ調整方式を用いて、ニューラルネットワークのネットワークパラメータ値を調整することができる。
本発明の実施例は、画像処理装置を更に提供する。図5は、本発明の実施例に係る画像処理装置の構成の第1概略構造図であり、図5に示されたように、前記装置は、抽出ユニット41、第1決定ユニット42、第2決定ユニット43及び第3決定ユニット44を備え、ここで、
前記抽出ユニット41は、第1画像の特徴データを抽出するように構成され、
前記第1決定ユニット42は、前記抽出ユニット41によって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
前記第2決定ユニット43は、前記抽出ユニット41によって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
前記第3決定ユニット44は、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第3決定ユニット44は、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第3決定ユニット44は、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明の一例示的な実施例において、前記第3決定ユニット44は、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
本発明の一例示的な実施例において、前記第3決定ユニット44は、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得し、ここで、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。
本発明の一例示的な実施例において、前記第3決定ユニット44は更に、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定するように構成される。
本発明の一例示的な実施例において、前記第3決定ユニット44は、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。
本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得し、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定ように構成され、前記第1決定ユニット42は更に、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。
本発明の一例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。
本発明の一例示的な実施例において、図6に示されたように、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニット45を備え、前記トレーニングユニット45は、具体的に、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。
本発明の実施例では、前記装置の抽出ユニット41、第1決定ユニット42、第2決定ユニット43、第3決定ユニット44及びトレーニングユニット45は、実際の応用ではすべて前記装置の中央処理装置(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、マイクロコントローラユニット(MCU:Microcontroller Unit)又はフィールド(FPGA、Field-Programmable Gate Array)で実現できる。
上記の実施例に係る画像処理装置が画像処理を実行することについて、上述の各プログラムモジュールの分割のみを例に挙げて説明しているが、実際の応用では、必要に応じて、上述の処理を異なるプログラムモジュールに割り当てて完了することができ、即ち、装置の内部構造を異なるプログラムモジュールに分割して、上記の処理の全てまたは一部を完了することができることに留意されたい。なお、上述の実施例で提供される画像処理装置の実施例は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。
本発明の実施例は、電子機器を更に提供する。図7は、本発明の実施例に係る電子機器のハードウェアの構成の概略構造図であり、図7に示されたように、前記電子機器は、メモリ52と、プロセッサ51と、メモリ52に記憶された、プロセッサ51によって実行可能なコンピュータプログラムとを備え、前記プロセッサ51は、前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実行する。
例示的に、電子機器の各コンポーネントは、バスシステム53を介して結合される。バスシステム53は、これらのコンポーネント間の接続通信を具現するために使用されることを理解されたい。データバスに加えて、バスシステム53は、電力バス、制御バスおよび状態信号バスをさらに備える。しかしながら、説明を明確にするために、図7では様々なバスをすべてバスシステム53として表記する。
メモリ52は、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性および不揮発性メモリの両方を含んでもよいことを理解されたい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、強磁性ランダムアクセスメモリ(FRAM:Ferromagnetic Random Access Memory)フラッシュメモリ(Flash Memory)、磁気メモリ、コンパクトディスク、または読み取り専用コンパクトディスク(CD-ROM:Compact Disc Read-Only Memory)であり得、磁気メモリは、磁気ディスクメモリまたは磁気テープメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。例示的であるが限定的な説明ではないが、例えば、スタティックランダムアクセスメモリ(SRAM:Static RAM)、同期スタティックランダムアクセスメモリ(SSRAM:Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate Synchronous Dynamic Random Access Memory)、強化された同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced Synchronous Dynamic Random Access Memory)、ダイナミックランダムアクセスメモリの同期接続(SLDRAM:SyncLink Dynamic Random Access Memory)およびダイレクトメモリバスランダムアクセスメモリ(DRRAM:Direct Rambus Random Access Memory)など様々な形のRAMを使用することができる。本発明の実施例に記載のメモリ52は、これらおよび任意の他の適切なタイプのメモリを含むが、これらに限定されないことを意図する。
上記の本発明の実施例で開示された方法は、プロセッサ51に適用されてもよく、またはプロセッサ51によって実現されてもよい。プロセッサ51は、信号処理機能を備える集積回路チップであり得る。具現プロセスにおいて、上記した方法の各ステップは、プロセッサ51におけるハードウェアの集積論理回路またはソフトウェアの形の命令を介して完了されることができる。上記のプロセッサ51は、汎用プロセッサ、DSP、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ51は、本発明の実施例で開示された各方法、ステップおよび論理ブロック図を実現または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。本発明の実施例を組み合たせて開示された方法のステップは、直接に、ハードウェア復号化プロセッサによって実行されて完了すると具現されることができ、または復号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完了する。ソフトウェアモジュールは記憶媒体に配置されることができ、当該記憶媒体は、メモリ52に配置され、プロセッサ51は、メモリ52内の情報を読み取り、そのハードウェアと組み合わせて前記方法のステップを完成する。
例示的な実施例において、電子機器は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP)、プログラマブルロジックデバイス(PLD)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、FPGA、汎用プロセッサ、コントローラ、MCU、マイクロプロセッサ(Microprocessor)または他の電子素子によって実現されることができる。
例示的な実施例において、本発明の実施例は、コンピュータプログラム命令を含むメモリ52などの不揮発性コンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラムは、電子機器のプロセッサ51によって実行されて上記の方法を完了することができる。コンピュータ記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁気表面メモリ、光ディスク、またはCD-ROMなどのメモリであってもよいし、上記のメモリのうちの1つ又は任意に組み合わせた様々な機器であってもよい。
本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の画像処理方法のステップを実現する。
本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の画像処理方法のステップを実行させる。
本願で提供されるいくつかの方法の実施例に開示された方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。
本願で提供されるいくつかの製品の実施例に開示された技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。
本願で提供されるいくつかの方法又は機器の実施例に開示された特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。
本願で提供されたいくつかの実施例において、開示された機器及び方法は、他の方式で実現できることを理解されたい。上記で説明された機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。なお、表示または議論された各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。
上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。
なお、本発明の各実施例における各機能ユニットは、全部1つの処理ユニットに統合してもよいし、各ユニットを別々に1つのユニットとして使用してもよいし、2つ以上のユニットを1つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。
当業者は、上記した方法の実施例の全てまたは一部のステップは、プログラム命令に関連するハードウェアによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるとき、上記の方法の実施例のステップを実行し、前記記憶媒体は、モバイル記憶機器、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。
あるいは、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る)に、本開示の各実施例に記載の方法の全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。
上記の内容は、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims (14)

  1. 画像処理装置に適用される画像処理方法であって、
    第1画像の特徴データを抽出することと、
    前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である、ことと、
    前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す、ことと、
    各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む、前記画像処理方法。
  2. 前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、
    前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、
    前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
    前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
    各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む、
    請求項1に記載の画像処理方法。
  3. 前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、
    前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することと、
    前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
    各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む、
    請求項2に記載の画像処理方法。
  4. 前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
    1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、
    前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、
    各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、
    各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む、
    請求項2又は3に記載の画像処理方法。
  5. 前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、
    1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、
    前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、
    前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む、
    請求項4に記載の画像処理方法。
  6. 前記画像処理方法は、
    1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む、
    請求項5に記載の画像処理方法。
  7. 前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、
    1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、
    中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む、
    請求項46のいずれか項に記載の画像処理方法。
  8. 前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、
    前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、
    前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、
    前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、
    前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、
    前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む、
    請求項17のいずれか項に記載の画像処理方法。
  9. 前記画像処理装置は、ニューラルネットワークを介して前記画像処理方法を実行し、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される、
    請求項8に記載の画像処理方法。
  10. サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、
    前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、
    前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、
    前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、
    前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも2つのオフセットを予測することと、
    前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、
    予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む、
    請求項9に記載の画像処理方法。
  11. 画像処理装置であって、
    抽出ユニット、第1決定ユニット、第2決定ユニット及び第3決定ユニットを備え、
    前記抽出ユニットは、第1画像の特徴データを抽出するように構成され、
    前記第1決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
    前記第2決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
    前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される、前記画像処理装置。
  12. コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
    当該プログラムがプロセッサによって実行されるときに、請求項1-10のいずれか1項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
  13. 電子機器であって、
    メモリ、プロセッサ、およびメモリに記憶された、コンピュータによって実行可能なコンピュータプログラムを含み、前記プロセッサが、前記プログラムを実行するときに、請求項1-10のいずれか1項に記載の方法を実現する、前記電子機器。
  14. コンピュータ可読コードを含むコンピュータプログラムであって、
    前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1-10のいずれか1項に記載の方法を実行させる、前記コンピュータプログラム。
JP2021557461A 2019-12-30 2020-09-22 画像処理方法、装置、記憶媒体及び電子機器 Active JP7105383B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911404450.6 2019-12-30
CN201911404450.6A CN111104925B (zh) 2019-12-30 2019-12-30 图像处理方法、装置、存储介质和电子设备
PCT/CN2020/116889 WO2021135424A1 (zh) 2019-12-30 2020-09-22 图像处理方法、装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
JP2022520498A JP2022520498A (ja) 2022-03-30
JP7105383B2 true JP7105383B2 (ja) 2022-07-22

Family

ID=70424673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557461A Active JP7105383B2 (ja) 2019-12-30 2020-09-22 画像処理方法、装置、記憶媒体及び電子機器

Country Status (4)

Country Link
JP (1) JP7105383B2 (ja)
KR (1) KR102432204B1 (ja)
CN (1) CN111104925B (ja)
WO (1) WO2021135424A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104925B (zh) * 2019-12-30 2022-03-11 上海商汤临港智能科技有限公司 图像处理方法、装置、存储介质和电子设备
CN111695519B (zh) 2020-06-12 2023-08-08 北京百度网讯科技有限公司 关键点定位方法、装置、设备以及存储介质
CN112560726B (zh) * 2020-12-22 2023-08-29 阿波罗智联(北京)科技有限公司 目标检测置信度确定方法、路侧设备及云控平台
CN116258722B (zh) * 2023-05-16 2023-08-11 青岛奥维特智能科技有限公司 基于图像处理的桥梁建筑智能检测方法
CN116862980B (zh) * 2023-06-12 2024-01-23 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、***、介质及终端
CN117523645B (zh) * 2024-01-08 2024-03-22 深圳市宗匠科技有限公司 一种人脸关键点检测方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072939A (ja) 2016-10-25 2018-05-10 東芝デジタルソリューションズ株式会社 映像処理プログラム、映像処理方法、及び映像処理装置
US10089556B1 (en) 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
JP2019057836A (ja) 2017-09-21 2019-04-11 キヤノン株式会社 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体
JP2019179459A (ja) 2018-03-30 2019-10-17 株式会社Preferred Networks 推定処理装置、推定モデル生成装置、推定モデル、推定方法およびプログラム
WO2019235350A1 (ja) 2018-06-06 2019-12-12 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870523B2 (en) * 2016-01-26 2018-01-16 Kabushiki Kaisha Toshiba Image forming system and image forming apparatus
CN109726808B (zh) * 2017-10-27 2022-12-09 腾讯科技(深圳)有限公司 神经网络训练方法和装置、存储介质及电子装置
CN108268863B (zh) * 2018-02-13 2020-12-01 北京市商汤科技开发有限公司 一种图像处理方法、装置和计算机存储介质
JP2019148865A (ja) * 2018-02-26 2019-09-05 パナソニックIpマネジメント株式会社 識別装置、識別方法、識別プログラムおよび識別プログラムを記録した一時的でない有形の記録媒体
CN110532838A (zh) * 2018-05-25 2019-12-03 佳能株式会社 对象检测装置和方法及存储介质
CN109241835A (zh) * 2018-07-27 2019-01-18 上海商汤智能科技有限公司 图像处理方法及装置、电子设备和存储介质
CN109255296A (zh) * 2018-08-06 2019-01-22 广东工业大学 一种基于深度卷积神经网络的日常人体行为识别方法
KR101969050B1 (ko) * 2019-01-16 2019-04-15 주식회사 컨티넘 자세 추정
CN109685041B (zh) * 2019-01-23 2020-05-15 北京市商汤科技开发有限公司 图像分析方法及装置、电子设备和存储介质
CN110232706B (zh) * 2019-06-12 2022-07-29 睿魔智能科技(深圳)有限公司 多人跟拍方法、装置、设备及存储介质
CN110348335B (zh) * 2019-06-25 2022-07-12 平安科技(深圳)有限公司 行为识别的方法、装置、终端设备及存储介质
CN111104925B (zh) * 2019-12-30 2022-03-11 上海商汤临港智能科技有限公司 图像处理方法、装置、存储介质和电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072939A (ja) 2016-10-25 2018-05-10 東芝デジタルソリューションズ株式会社 映像処理プログラム、映像処理方法、及び映像処理装置
US10089556B1 (en) 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
JP2019057836A (ja) 2017-09-21 2019-04-11 キヤノン株式会社 映像処理装置、映像処理方法、コンピュータプログラム、及び記憶媒体
JP2019179459A (ja) 2018-03-30 2019-10-17 株式会社Preferred Networks 推定処理装置、推定モデル生成装置、推定モデル、推定方法およびプログラム
WO2019235350A1 (ja) 2018-06-06 2019-12-12 日本電気株式会社 情報処理システム、情報処理方法及び記憶媒体

Also Published As

Publication number Publication date
CN111104925B (zh) 2022-03-11
WO2021135424A1 (zh) 2021-07-08
CN111104925A (zh) 2020-05-05
KR102432204B1 (ko) 2022-08-12
KR20210136138A (ko) 2021-11-16
JP2022520498A (ja) 2022-03-30

Similar Documents

Publication Publication Date Title
JP7105383B2 (ja) 画像処理方法、装置、記憶媒体及び電子機器
CN109948497B (zh) 一种物体检测方法、装置及电子设备
CN108875511B (zh) 图像生成的方法、装置、***及计算机存储介质
TWI658730B (zh) 圖像焦距檢測方法及其裝置
CN108875510B (zh) 图像处理的方法、装置、***及计算机存储介质
CN108875493B (zh) 人脸识别中相似度阈值的确定方法以及确定装置
CN109376631B (zh) 一种基于神经网络的回环检测方法及装置
CN112036381B (zh) 视觉跟踪方法、视频监控方法及终端设备
CN110969045B (zh) 一种行为检测方法、装置、电子设备和存储介质
CN111652054A (zh) 关节点检测方法、姿态识别方法及装置
CN113642639B (zh) 活体检测方法、装置、设备和存储介质
CN111753826B (zh) 车辆与车牌的关联方法、装置和电子***
CN112037254A (zh) 目标跟踪方法及相关装置
CN109961103B (zh) 特征提取模型的训练方法、图像特征的提取方法及装置
CN111401335B (zh) 一种关键点检测方法及装置、存储介质
CN112132110A (zh) 一种智能判断人体姿态的方法及看护设备
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
CN112989932A (zh) 基于改进原型网络的少样本森林火灾烟雾识别方法及装置
JP2020173781A (ja) 番号認識装置、方法及び電子機器
CN110895691B (zh) 图像处理方法、装置及电子设备
CN112581500A (zh) 用于在目标跟踪中匹配行人和人脸的方法和装置
CN111368624A (zh) 基于生成对抗网络的回环检测方法和装置
CN116980744B (zh) 基于特征的摄像头追踪方法、装置、电子设备及存储介质
US20240144729A1 (en) Generation method and information processing apparatus
CN116259072B (zh) 一种动物识别方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211001

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150