JP7105383B2 - Image processing method, device, storage medium and electronic equipment - Google Patents

Image processing method, device, storage medium and electronic equipment Download PDF

Info

Publication number
JP7105383B2
JP7105383B2 JP2021557461A JP2021557461A JP7105383B2 JP 7105383 B2 JP7105383 B2 JP 7105383B2 JP 2021557461 A JP2021557461 A JP 2021557461A JP 2021557461 A JP2021557461 A JP 2021557461A JP 7105383 B2 JP7105383 B2 JP 7105383B2
Authority
JP
Japan
Prior art keywords
interaction
target
keypoint
image
center point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021557461A
Other languages
Japanese (ja)
Other versions
JP2022520498A (en
Inventor
ユエ リアオ
フェイ ワン
イエンジエ チェン
チェン チエン
スー リウ
Original Assignee
シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド filed Critical シャンハイ センスタイム リンガン インテリジェント テクノロジー カンパニー リミテッド
Publication of JP2022520498A publication Critical patent/JP2022520498A/en
Application granted granted Critical
Publication of JP7105383B2 publication Critical patent/JP7105383B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

[関連出願への相互参照]
本願は、2019年12月30日に中国特許局に提出された、出願番号が201911404450.6である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
[技術分野]
本発明は、画像処理技術に関し、具体的に、画像処理方法、装置、記憶媒体及び電子機器に関する。
[Cross reference to related application]
This application is filed based on a Chinese patent application numbered 201911404450.6 filed with the Chinese Patent Office on December 30, 2019, and claims priority to the Chinese patent application; The entire content of the Chinese patent application is incorporated herein by reference.
[Technical field]
The present invention relates to image processing technology, and more specifically to an image processing method, device, storage medium, and electronic equipment.

画像内の人と物体との間のインタラクション動作関係を検出するために、通常、最初に検出器を介して画像内の人及び物体を検出し、信頼度が特定の閾値より高い人及び物体を選択し、選択された人と物体とをペアリングして、人-物体ペアを形成し、関係分類ネットワークを介して各人-物体ペアを分類し、動作関係カテゴリを出力する。 In order to detect the interaction action relationship between people and objects in an image, we usually first detect the people and objects in the image through a detector, and select the people and objects whose confidence is higher than a certain threshold. Select and pair the selected person and object to form a person-object pair, classify each person-object pair through a relationship classification network, and output an action relationship category.

上記の処理プロセスでは、検出の信頼度のみを考慮し、人と物体間のインタラクション動作の可能性を考慮しないため、実際のインタラクション動作関係を有する人又は物体を欠落する可能性があり、即ち、実際のインタラクション動作関係を有する人-物体ペアを欠落する可能性があり、実際のインタラクション動作関係を有しない人-物体ペアを大量生成する。また、通常の状況では、1枚の画像にはインタラクション動作関係を有する人と物体が非常に少ないため、画像からM人とN個の物体を検出した場合、上記の処理方式を採用すれば、M×N個の人-物体ペアが生成され、この場合、関係分類ネットワークは、各人-物体ペアに対応する動作関係カテゴリを決定する必要があるため、不要な処理及び消費が増加する。 The above processing process only considers the reliability of detection and does not consider the possibility of interaction motion between people and objects, so there is a possibility of missing people or objects with actual interaction motion relationships, namely: There is a possibility of missing person-object pairs that have actual interaction motion relationships, and a large number of person-object pairs that do not have actual interaction motion relationships are generated. In addition, under normal circumstances, there are very few people and objects that have an interaction motion relationship in one image. M×N person-object pairs are generated, where the relationship classification network must determine the action relationship category corresponding to each person-object pair, increasing unnecessary processing and consumption.

本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供する。 Embodiments of the present invention provide an image processing method, apparatus, storage medium and electronic equipment.

本発明の実施例は、画像処理方法を提供し、前記方法は、第1画像の特徴データを抽出することと、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であることと、前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表すことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。 An embodiment of the present invention provides an image processing method, the method extracting feature data of a first image; Determining a center point, an interaction key point is a point on the connecting line within a preset range from the midpoint of the connecting line, and the connecting line is two targets in one interaction action. and determining at least two offsets based on the feature data, one offset being an interaction key point in one interaction action and one offset in the interaction action. representing offsets between center points of two targets; and determining interaction relationships between targets in the first image based on each target center point, the interaction keypoint and the at least two offsets. ,including.

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定することとを含み、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。 In some exemplary embodiments of the present invention, determining a center point of each interaction keypoint and each target of the first image based on the feature data comprises: based on the feature data, the first Determining a center point of each target in an image and a confidence level of each target, and based on the feature data, interaction keypoints in the first image and each interaction action corresponding to each interaction keypoint. determining an interaction relationship between targets in the first image based on the center point of each target, the interaction keypoint and the at least two offsets, comprising: in the first image based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint; determining interaction relationships between the targets of

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含み、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。 In some exemplary embodiments of the invention, determining a center point of each target in the first image and a confidence level of each target in the first image based on the feature data comprises: determining the center point of each target in the first image and its category, and a confidence that each target belongs to each category, wherein the center point of each target, the interaction key point, the at least two offsets; Determining an interaction relationship between targets in the first image based on the confidence of each target and the confidence of each preset interaction action category corresponding to each interaction keypoint includes: and based on its category, the interaction keypoint, the at least two offsets, the confidence that each target belongs to each category, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the first Including determining interaction relationships between targets in the image.

本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。 In some exemplary embodiments of the present invention, each preset interaction corresponding to the center point of each target, the interaction keypoint, the at least two offsets, the confidence level of each target, and each interaction keypoint Determining an interaction relationship between targets in the first image based on the confidence of the action category includes, for one interaction keypoint, determining two offsets corresponding to the interaction keypoint; Determining two prediction center points corresponding to said interaction key points according to an interaction key point and two offsets corresponding to said interaction key points, and two predictions corresponding to each target center point and each interaction key point. Determining two targets corresponding to each interaction keypoint according to the center point, two targets corresponding to each interaction keypoint, the confidence of each target, and each preset interaction corresponding to each interaction keypoint. determining an interaction relationship between targets in the first image according to the confidence of the action category.

本発明のいくつかの例示的な実施例において、前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。 In some exemplary embodiments of the present invention, according to the two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint. , determining an interaction relationship between targets in said first image includes, for an interaction keypoint, corresponding to said interaction keypoint with a confidence of one preset interaction action category corresponding to said interaction keypoint; and the confidence of the two targets to obtain a first confidence, wherein the first confidence is the preset interaction relationship between the two targets corresponding to the interaction keypoint. and the first confidence exceeds a confidence threshold, the interaction relationship between the two targets corresponding to the interaction keypoint is the preset interaction. and in response to determining that the first confidence does not exceed a confidence threshold, an interaction relationship between two targets corresponding to the interaction keypoint falls within the preset interaction behavior category. and determining that it does not belong to

本発明のいくつかの例示的な実施例において、前記方法は、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む。 In some exemplary embodiments of the present invention, after determining that an interaction relationship between two targets corresponding to one interaction keypoint does not belong to each preset interaction behavior category, the method includes: Further comprising determining that there is no interaction relationship between the two targets corresponding to the keypoint.

本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。 In some exemplary embodiments of the present invention, determining two targets corresponding to each interaction keypoint according to the center point of each target and two predicted center points corresponding to each interaction keypoint includes: determining a distance between each target center point and said predicted center point for one predicted center point; , using as targets corresponding to interaction keypoints corresponding to the prediction center point.

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含み、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。 In some exemplary embodiments of the invention, determining the center point of each target in the first image based on the feature data comprises downsampling the feature data to Obtaining a hit map and determining the position offset of each point in the first image, the center point of each target in the first image and the height and width of the detection box of each target according to the hit map. and, after determining the center point of each target in the first image based on the feature data, the image processing method includes: position offsets of the center points of targets having an interaction relationship in the first image; correcting the position of the center point of the target having the interaction relationship in the first image to obtain the corrected position of the center point of the target having the interaction relationship in the first image according to; determining the detection box of the target with interaction relationship in the first image according to the corrected position of the center point of the target with interaction relationship in and the height and width of the detection box.

本発明のいくつかの例示的な実施例において、前記画像処理方法は、ニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。 In some exemplary embodiments of the present invention, said image processing method is performed by a neural network, said neural network obtained by training with sample images, wherein said sample images are: a detection box of a target with an interaction relationship is marked, and a marked center point and a marked interaction key point of a target with an interaction relationship in the sample image are determined and marked according to the marked detection box The offset is determined according to the marked center point and the marked interaction key point of the target with interaction relationship.

本発明のいくつかの例示的な実施例において、サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測することと、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。 In some exemplary embodiments of the invention, training the neural network using sample images includes using the neural network to extract feature data of the sample images; to obtain a hitmap of the sample image by downsampling the feature data of the sample image using , predicting the position offset of each interaction keypoint in the sample image, the center point of each target in the sample image, the height and width of a detection box for each target in the sample image; a center point of each target in the sample image, the interaction keypoint in the sample image and at least two offsets in the sample image; predicting interaction relationships between targets in the sample image based on the offsets; predicting position offsets, predicted center points of targets with interactions in the sample images, and predicted heights of detection boxes; width, a predicted interaction keypoint and its corresponding predicted offset corresponding to the target with interaction relationship in the sample image, and a marked position offset and target with interaction relationship marked in the sample image. and adjusting network parameter values of the neural network according to the detection box.

本発明の実施例は、画像処理装置を更に提供し、前記装置は、抽出ユニット、第1決定ユニット、第2決定ユニット及び第3決定ユニットを備え、ここで、
前記抽出ユニットは、第1画像の特徴データを抽出するように構成され、
前記第1決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
前記第2決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
An embodiment of the present invention further provides an image processing device, said device comprising an extraction unit, a first determination unit, a second determination unit and a third determination unit, wherein:
the extraction unit is configured to extract feature data of the first image;
The first determination unit is configured to determine a center point of each interaction keypoint and each target in the first image based on the feature data extracted by the extraction unit, an interaction keypoint is a point on the connecting line within a preset range from the midpoint of the connecting line, the connecting line being the connecting line between the center points of two targets in one interaction action;
The second determination unit is configured to determine at least two offsets based on the feature data extracted by the extraction unit, one offset being an interaction key point in one interaction action and the interaction action. represents the offset between the center points of one target at
The third determining unit is configured to determine an interaction relationship between targets in the first image based on each target's center point, the interaction key point and the at least two offsets.

本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
In some exemplary embodiments of the present invention, the first determining unit determines a center point of each target in the first image and a confidence level of each target based on the feature data, and configured to determine, based on feature data, an interaction keypoint in the first image and a confidence level for each interaction action category corresponding to each interaction keypoint;
The third determining unit is based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint. to determine interaction relationships between targets in said first image.

本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第3決定ユニットは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
In some exemplary embodiments of the present invention, the first determining unit determines, based on the feature data, the center point of each target in the first image and its category, and the preset configured to determine the degree of confidence belonging to a category,
The third determining unit determines a center point of each target and its category, the interaction keypoint, the at least two offsets, a confidence that each target belongs to each preset category, and each preset corresponding to each interaction keypoint. determining an interaction relationship between targets in the first image based on the determined confidence of the interaction action category.

本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。 In some exemplary embodiments of the present invention, the third determining unit determines, for one interaction keypoint, two offsets corresponding to the interaction keypoint, the interaction keypoint and the interaction keypoint. determining two predicted center points corresponding to said interaction key points according to two offsets corresponding to each interaction key point according to each target center point and two predicted center points corresponding to each interaction key point; in the first image according to the two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint; is configured to determine interaction relationships between targets of

本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得し、ここで、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。 In some exemplary embodiments of the present invention, the third determining unit determines, for an interaction keypoint, a confidence level of a preset interaction action category corresponding to the interaction keypoint and the interaction keypoint. to obtain a first confidence, where the first confidence is the interaction relationship between the two targets corresponding to the interaction keypoint is the interaction a confidence belonging to an action category, wherein an interaction relationship between two targets corresponding to said interaction keypoint belongs to said preset interaction action category in response to said first confidence exceeding a confidence threshold. and determining that the interaction relationship between the two targets corresponding to the interaction keypoint does not belong to the preset interaction action category in response to the first confidence not exceeding the confidence threshold. configured as

本発明のいくつかの例示的な実施例において、前記第3決定ユニットは更に、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定するように構成される。 In some exemplary embodiments of the present invention, the third determining unit further determines that the interaction relationship between two targets corresponding to one interaction keypoint does not belong to each preset interaction action category. and then determining that there is no interaction relationship between the two targets corresponding to said interaction key point.

本発明のいくつかの例示的な実施例において、前記第3決定ユニットは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。 In some exemplary embodiments of the present invention, said third determining unit determines, for one predicted center point, a distance between a center point of each target and said predicted center point; A target having a distance between it and a predicted center point that is less than a preset distance threshold is configured to be used as a target corresponding to an interaction keypoint corresponding to said predicted center point.

本発明のいくつかの例示的な実施例において、前記第1決定ユニットは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得し、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定するように構成され、前記第1決定ユニットは更に、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。 In some exemplary embodiments of the present invention, the first determining unit downsamples the feature data to obtain a hitmap of the first image, and according to the hitmap, configured to determine the position offset of each point, the center point of each target in the first image and the height and width of the detection box of each target, the first determining unit further based on the feature data: After determining the center point of each target in the first image, determine the position of the center point of the target with the interaction relationship in the first image according to the position offset of the center point of the target with the interaction relationship in the first image. obtaining a corrected position of the center point of the target having an interaction relationship in the first image, and obtaining the corrected position of the center point of the target having an interaction relationship in the first image and the height of the detection box thereof determining a detection box of a target with an interaction relationship in the first image according to the size and width.

本発明のいくつかの例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。 In some exemplary embodiments of the present invention, each functional unit of the image processing device is implemented by a neural network, the neural network is obtained by training with sample images, The sample image is marked with detection boxes of targets with interaction relationships, and marked center points and marked interaction key points of targets with interaction relationships in the sample images are determined according to the marked detection boxes. , the marked offset is determined according to the marked center point and the marked interaction key point of the target with interaction relationship.

本発明のいくつかの例示的な実施例において、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニットを備え、前記トレーニングユニットは、具体的には、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。 In some exemplary embodiments of the invention, the apparatus further comprises a training unit configured to train the neural network using sample images, the training unit specifically comprising the extracting feature data of the sample image using a neural network; down-sampling the feature data of the sample image using the neural network to obtain a hit map of the sample image; , based on the hitmap of the sample image, the position offset of each point in the sample image, each interaction keypoint in the sample image, the center point of each target in the sample image, each target in the sample image and using the neural network to predict at least two offsets based on the feature data of the sample image, the center point of each target in the sample image, predicting interaction relationships between targets in the sample images based on the interaction keypoints of and at least two offsets in the sample images; center points and predicted detection box height and width, predicted interaction key points corresponding to targets with interaction relationships in the sample image and their corresponding predicted offsets, and marked position offsets and the configured to adjust network parameter values of the neural network according to target detection boxes with interaction relationships marked in the sample image;

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を更に提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の方法のステップを実現する。 Embodiments of the invention further provide a computer-readable storage medium having a computer program stored thereon, which, when executed by a processor, implements the steps of the method described in the embodiments of the invention.

本発明の実施例は、電子機器を更に提供し、前記電子機器は、メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行するときに、本発明の実施例に記載の方法のステップを実現する。 Embodiments of the present invention further provide an electronic device, the electronic device comprising a memory, a processor, and a computer program stored in the memory and executable by a computer, the processor executing the program. When doing so, the method steps described in the embodiments of the present invention are implemented.

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の方法のステップを実行させる。 An embodiment of the present invention further provides a computer program product comprising computer readable code for, when executed by an electronic device, instructing a processor of the electronic device to perform a method according to an embodiment of the present invention. perform the steps.

本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供し、前記方法は、第1画像の特徴データを抽出することと、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である、ことと、前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す、ことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも2つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づき、前記第1画像内のターゲット間のインタラクション関係を決定することにより、人-物体ペアを生成する必要もなく、人-物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人-物体ペアを欠落するという問題も回避することができる。更に、最初に人及び物体を検出し、次に人と物体とをのペアリングした後、関係分類ネットワークを介して各人-物体ペアに対して分類検出を実行する従来の方式と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。 Embodiments of the present invention provide an image processing method, apparatus, storage medium and electronic equipment, the method comprising: extracting feature data of a first image; determining the center point of each interaction keypoint and each target, wherein one interaction keypoint is a point on the connecting line within a preset range from the midpoint of the connecting line, and the connecting line is: is a connecting line between the center points of two targets in one interaction motion; and determining at least two offsets based on the feature data, one offset in one interaction motion representing an offset between an interaction keypoint and a center point of one target in said interaction motion; and based on each target center point, said interaction keypoint and said at least two offsets, in said first image: determining interaction relationships between targets. Adopting the technical solution of an embodiment of the present invention, defining an interaction keypoint for an interaction action, determining at least two offsets associated with the interaction keypoint, furthermore, the center point of each target, the interaction keypoint and performing interaction motion detection using person-object pairs without the need to generate person-object pairs by determining interaction relationships between targets in the first image based on the at least two offsets. It is also possible to avoid the problem of missing person-object pairs with real interaction relationships caused by this. Furthermore, compared to the conventional schemes that first detect people and objects, then pair people and objects, and then perform classification detection for each person-object pair through a relational classification network, This embodiment greatly improves the detection speed and improves the detection efficiency.

本発明の実施例に係る画像処理方法の例示的なフローチャートである。4 is an exemplary flow chart of an image processing method according to an embodiment of the present invention; 本発明の実施例に係る画像処理方法の応用の概略図である。FIG. 4 is a schematic diagram of an application of an image processing method according to an embodiment of the present invention; 本発明の実施例に係る画像処理方法の別の応用の概略図である。FIG. 5 is a schematic diagram of another application of the image processing method according to an embodiment of the present invention; 本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートである。4 is an exemplary flow chart of a neural network training method in an image processing method according to an embodiment of the present invention; 本発明の実施例に係る画像処理装置の構成の第1概略構造図である。1 is a first schematic structural diagram of the configuration of an image processing apparatus according to an embodiment of the present invention; FIG. 本発明の実施例に係る画像処理装置の構成の第2概略構造図である。FIG. 4 is a second schematic structural diagram of the configuration of the image processing apparatus according to the embodiment of the present invention; 本発明の実施例に係る電子機器のハードウェア構成の概略構造図である。1 is a schematic structural diagram of a hardware configuration of an electronic device according to an embodiment of the present invention; FIG.

以下、図面および具体的な実施例を参照して、本発明をさらに詳細に説明する。 The invention will now be described in more detail with reference to the drawings and specific examples.

本発明の実施例は、画像処理方法を提供する。図1は、本発明の実施例に係る画像処理方法の例示的なフローチャートであり、図1に示されたように、前記画像処理方法は、次のステップを含む。 An embodiment of the present invention provides an image processing method. FIG. 1 is an exemplary flowchart of an image processing method according to an embodiment of the present invention, as shown in FIG. 1, the image processing method includes the following steps.

ステップ101において、第1画像の特徴データを抽出する。 At step 101, feature data of the first image is extracted.

ステップ102において、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定し、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である。 In step 102, each interaction keypoint and each target center point of the first image are determined based on the feature data, one interaction keypoint being within a preset range from the midpoint of the connecting line. A point on a connecting line, said connecting line being the connecting line between the center points of two targets in one interaction action.

ステップ103において、前記特徴データに基づいて、少なくとも2つのオフセットを決定し、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。 In step 103, at least two offsets are determined based on the feature data, one offset representing an offset between an interaction keypoint in one interaction motion and a center point of one target in the interaction motion.

ステップ104において、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。 At step 104, an interaction relationship between targets in the first image is determined based on the center point of each target, the interaction keypoint and the at least two offsets.

本実施例では、第1画像は複数のターゲットを含み得、ここで、前記複数のターゲットの各ターゲット間にはインタラクション関係を有しない可能性があるか、又は、前記複数のターゲットは、インタラクション関係を有する少なくとも1つのグループのターゲットを含み得る。ここで、前記インタラクション関係を有するターゲットは、具体的には、少なくとも2つのターゲットであり、例示的に、前記少なくとも2つのターゲットは、少なくとも、1つのターゲット人物を有する。例えば、インタラクション関係を有する2つのターゲットは、インタラクション関係を有する2つのターゲット人物であるか、又は、インタラクション関係を有する2つのターゲットは、インタラクション関係を有する1つのターゲット人物と1つのターゲット物体である。理解できることとして、前記インタラクション関係を有する少なくとも2つのターゲットは、具体的には、インタラクション動作に関する2つのターゲットであってもよく、ここで、前記インタラクション動作に関する2つのターゲットは、直接インタラクション動作又は暗黙的なインタラクション動作に関する2つのターゲットであってもよい。一例として、第1画像に含まれたターゲット人物がタバコを手に持っている場合、当該ターゲット人物とターゲット物体であるタバコとの間には、直接動作関係があると見なすことができ、この例では、ターゲット人物とターゲットオブジェクトとの間には、直接動作関係がある。別の例として、第1画像に含まれるターゲット人物がボールを打ち、ターゲット人物が打ち動作を行い、ボールがターゲット人物の手の下の空中にある場合、当該ターゲット人物とターゲット物体であるボールとの間には、暗黙の動作関係があると見なすことができる。 In this example, the first image may include a plurality of targets, wherein each target of the plurality of targets may have no interaction relationship, or the plurality of targets may have an interaction relationship at least one group of targets having Here, the targets having an interaction relationship are specifically at least two targets, and illustratively, the at least two targets have at least one target person. For example, two targets with an interaction relationship are two target persons with an interaction relationship, or two targets with an interaction relationship are one target person and one target object with an interaction relationship. It can be understood that the at least two targets having an interaction relationship may specifically be two targets with an interaction action, wherein the two targets with an interaction action can be a direct interaction action or an implicit There may be two targets for any interaction action. For example, if the target person included in the first image is holding a cigarette, it can be considered that there is a direct operational relationship between the target person and the target object, i.e., the cigarette. , there is a direct operational relationship between the target person and the target object. As another example, when the target person included in the first image hits a ball, the target person performs a hitting motion, and the ball is in the air under the target person's hand, the target person and the ball, which is the target object, can be viewed as having an implied operational relationship between

本発明の実施例に係る画像処理方法において、画像内のターゲットがインタラクション関係を有するかどうかを決定する場合、ターゲットの中心点及びインタラクションキーポイントを決定するステップ(点を検出するステップ)と、オフセットを決定するステップ(点をマッチングするステップ)とを同時に実行することができ、その後、決定されたオフセット、決定された中心点、及びインタラクションキーポイントに従って、インタラクション関係を有するターゲット及びそのインタラクション動作カテゴリを最終的に決定し、それにより、インタラクション関係検出効率を向上させる。 In the image processing method according to the embodiment of the present invention, when determining whether a target in an image has an interaction relationship, determining a center point of the target and an interaction key point (detecting points); (matching points), and then, according to the determined offset, the determined center point, and the interaction keypoint, determine the target with interaction relationship and its interaction action category finally determined, thereby improving the interaction relationship detection efficiency.

本発明の一例示的な実施例において、ステップ101について、前記第1画像の特徴データを抽出することは、深層ニューラルネットワークモデルを介して、前記第1画像の特徴データを抽出することを含む。例示的に、第1画像を入力データとして深層ニューラルネットワークモデルに入力して、前記第1画像の特徴データを取得する。ここで、理解できることとして、深層ニューラルネットワークモデルは、複数の畳み込み層を含み得、各畳み込み層を介して第1画像に対して畳み込み処理を順次実行することにより、第1画像の特徴データを取得する。 In one exemplary embodiment of the present invention, extracting feature data of the first image for step 101 includes extracting feature data of the first image via a deep neural network model. Exemplarily, a first image is input to a deep neural network model as input data to obtain feature data of the first image. Here, it can be understood that the deep neural network model may include a plurality of convolution layers, and the feature data of the first image is obtained by sequentially performing convolution processing on the first image through each convolution layer. do.

本実施例では、事前トレーニングによって得られた第1ブランチネットワークを介してステップ102を実行でき、即ち、第1ブランチネットワークを介して、前記特徴データに基づいて、各ターゲットの中心点及び各インタラクションキーポイントを決定する。理解できることとして、前記第1画像の特徴データを入力データとして前記第1ブランチネットワークに入力することにより、前記第1画像内の各ターゲットの中心点及び各インタラクションキーポイントを取得する。例えば、第1画像に含まれるターゲットがすべてターゲット人物である場合、前記第1ブランチネットワークを介して、前記特徴データを処理して、各ターゲット人物の中心点及び各インタラクションキーポイントを取得する。別の例では、第1画像に含まれるターゲットがターゲット人物及びターゲット物体を含む場合、前記第1ブランチネットワークを介して、前記特徴データを処理して、ターゲット人物の中心点、ターゲット物体の中心点及び各インタラクションキーポイントを取得する。 In this embodiment, step 102 can be performed via the first branch network obtained by pre-training, i.e., via the first branch network, based on the feature data, the center point of each target and each interaction key determine the point. As can be seen, the feature data of the first image is input into the first branch network as input data to obtain the center point of each target and each interaction keypoint in the first image. For example, if the targets contained in the first image are all target persons, the feature data are processed through the first branch network to obtain the center point of each target person and each interaction key point. In another example, if the target included in the first image includes a target person and a target object, the feature data is processed through the first branch network to obtain a target person center point, a target object center point and get each interaction key point.

ここで、いくつかの実施例において、ターゲットの中心点の後、第1ブランチネットワークは、ターゲットの検出ボックスの長さと幅を回帰し、ターゲットの検出ボックスは、ターゲットの中心点及びターゲットの検出ボックスの長さと幅に従って決定される。図2に示されたように、第1画像は、2つのターゲット人物及び2つのターゲット物体(2つのターゲット物体は2つのボールである)を含み、両者を区別するために、ターゲット人物の中心点を第1中心点として記録し、ターゲット物体の中心点を第2中心点として記録する。 Here, in some embodiments, after the target's center point, the first branch network regresses the length and width of the target's detection box, the target's detection box being the target's center point and the target's detection box. determined according to the length and width of the As shown in FIG. 2, the first image contains two target persons and two target objects (the two target objects are two balls), and the center points of the target persons are is recorded as the first center point and the center point of the target object is recorded as the second center point.

ここで、いくつかの実施例において、インタラクションキーポイントは、1つのインタラクション動作における2つのターゲットの中心点間の連結線において、当該連結線の中点からプリセットされた範囲内の点である。一例として、前記インタラクションキーポイントは、1つのインタラクション動作における2つのターゲットの中心点の連結線の中点であってもよい。図2に示されたように、1つのインタラクションキーポイントは、1つのインタラクション動作におけるターゲット人物の第1中心点とターゲット物体の第2中心点の連結線の中点であってもよい。 Here, in some embodiments, an interaction keypoint is a point within a preset range from the midpoint of the connecting line on the connecting line between the center points of two targets in one interaction action. As an example, the interaction keypoint may be the midpoint of a connecting line of the centerpoints of two targets in one interaction action. As shown in FIG. 2, one interaction key point may be the midpoint of the connecting line between the first center point of the target person and the second center point of the target object in one interaction action.

本実施例では、事前トレーニングによって得られた第2ブランチネットワークを介してステップ103を実行することができ、即ち、第2ブランチネットワークを介して、前記特徴データに基づいて、少なくとも2つのオフセットを決定することができる。ここで、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。理解できることとして、第1画像の特徴データを入力データとして前記第2ブランチネットワークに入力することにより、第1画像内の各点の少なくとも2つのオフセットを取得する。 In this embodiment, step 103 can be performed via a second branch network obtained by pre-training, i.e. determining at least two offsets based on said feature data via a second branch network. can do. Here, one offset represents the offset between an interaction keypoint in one interaction action and the center point of one target in said interaction action. As can be seen, by inputting the feature data of the first image as input data into the second branch network, at least two offsets of each point in the first image are obtained.

実際の応用では、各点に対応する少なくとも2つのオフセットはオフセット行列で表すことができる。ステップ102で決定された各インタラクションキーポイントに基づいて、各インタラクションキーポイントに対応する少なくとも2つのオフセットを決定することができる。いくつかの実施例において、各インタラクションキーポイントの座標、及び各点に対応するオフセット行列に従って、各インタラクションキーポイントに対応する少なくとも2つのオフセットを決定することができる。 In practical applications, at least two offsets corresponding to each point can be represented by an offset matrix. Based on each interaction keypoint determined in step 102, at least two offsets corresponding to each interaction keypoint can be determined. In some embodiments, at least two offsets corresponding to each interaction keypoint can be determined according to the coordinates of each interaction keypoint and the offset matrix corresponding to each point.

図2に示されたように、例示的に、1つのオフセットは、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを表し、もう1つのオフセットは、前記インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを表し、両者を区別するために、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを第1オフセットとして記録し、前記インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを第2オフセットとして記録し、この例では、第1オフセットは、インタラクション動作におけるインタラクションキーポイントと第1中心点の間のオフセットを表し、第2オフセットは、インタラクション動作におけるインタラクションキーポイントと第2中心点の間のオフセットを表す。もちろん、他の例において、2つのターゲットをそれぞれ第1ターゲット及び第2ターゲットに記録することもでき、この場合、第1オフセットは、インタラクション動作におけるインタラクションキーポイントと第1ターゲットの中心点の間のオフセットを表し、第2オフセットは、インタラクション動作におけるインタラクションキーポイントと第2ターゲットの中心点の間のオフセットを表す。 As shown in FIG. 2, illustratively, one offset represents the offset between an interaction keypoint in an interaction motion and a first center point, and another offset represents the interaction keypoint in the interaction motion. In order to represent the offset between the second center point and distinguish between the two, the offset between the interaction key point and the first center point in the interaction action is recorded as the first offset, and the interaction key point and the first center point in said interaction action are recorded as the first offset. The offset between the two center points is recorded as the second offset, where in this example the first offset represents the offset between the interaction keypoint and the first center point in the interaction motion, and the second offset represents the Represents the offset between the interaction keypoint and the second center point. Of course, in other examples, two targets can be recorded in the first target and the second target, respectively, in which case the first offset is the distance between the interaction keypoint in the interaction movement and the center point of the first target. The second offset represents the offset between the interaction keypoint and the center point of the second target in the interaction motion.

本実施例では、ステップ104について、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲットに従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。 In this embodiment, for step 104, determining an interaction relationship between targets in the first image based on the center point of each target, the interaction key point and the at least two offsets is an interaction determining, for a keypoint, two offsets corresponding to the interaction keypoint; and determining two predicted center points corresponding to the interaction keypoint according to the interaction keypoint and two offsets corresponding to the interaction keypoint. determining two targets corresponding to each interaction keypoint according to the center point of each target and two predicted center points corresponding to each interaction keypoint; and two targets corresponding to each interaction keypoint. determining interaction relationships between targets in the first image according to the targets.

本実施例では、ステップ103で決定された少なくとも2つのオフセットは、インタラクション動作(即ち、インタラクション関係)に関する少なくとも2つのターゲットを決定するために使用される。ステップ102で決定された各ターゲットの中心点及び各インタラクションキーポイントを通して、インタラクション動作に関するターゲットを知ることはできない。これに基づいて、本実施例では、各インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定する。 In this embodiment, the at least two offsets determined in step 103 are used to determine at least two targets for interaction behavior (ie interaction relationships). Through the center point of each target and each interaction keypoint determined in step 102, the target for the interaction action cannot be known. Based on this, in this embodiment, two offsets corresponding to each interaction keypoint are determined, and two offsets corresponding to the interaction keypoint are determined according to the interaction keypoint and the two offsets corresponding to the interaction keypoint. Determine the prediction center point.

例示的に、任意のインタラクションキーポイント(ここでは第1インタラクションキーポイントとして記録する)を例にとると、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する1つのオフセット(例えば、第1オフセット)に基づいて、第1位置を決定することができ、前記第1位置は、理論的には、第1インタラクションキーポイントと一致する1つのターゲットの中心点(例えば、第1中心点)の位置として使用でき、ここで、前記第1位置を第1予測中心点として記録する。同様に、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する別のオフセット(例えば、第2オフセット)に基づいて、第2位置を決定することができ、ここで、前記第2位置を第2予測中心点として記録する。 Illustratively, taking an arbitrary interaction keypoint (here recorded as the first interaction keypoint), the position of the first interaction keypoint and one offset corresponding to the first interaction keypoint (for example, Based on the first offset), a first position can be determined, said first position theoretically being a center point of one target coincident with the first interaction keypoint (e.g., first center point ), where the first position is recorded as the first predicted center point. Similarly, a second position can be determined based on the position of the first interaction keypoint and another offset (eg, a second offset) corresponding to the first interaction keypoint, where the second Record the position as the second predicted center point.

さらに、中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第1ターゲットの中心点と上記の第1予測中心点との間の距離がプリセットされた距離閾値より小さく、第2ターゲットの中心点と上記の第2プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第1ターゲット及び前記第2ターゲットが、上記の第1インタラクションキーポイントに対応する2つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、1つのインタラクションキーポイントに対応するターゲットが2つ又は2つ以上存在する可能性がある。 Further, the target whose distance between the center point and the obtained predicted center point is smaller than the preset distance threshold is used as the target corresponding to the interaction keypoint corresponding to the predicted center point. Exemplarily, the distance between the center point of the first target and the first predicted center point is less than a preset distance threshold, and the distance between the center point of the second target and the second preset center point is If the distance between is less than the preset distance threshold, it may indicate that the first target and the second target are two targets corresponding to the first interaction keypoint. It can be understood that there may be multiple numbers of target center points whose distance from a particular predicted center point is less than a preset distance threshold, i.e., there may be two or two targets corresponding to one interaction key point. There may be more than one.

本実施例では、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、当該インタラクションキーポイントに対応する少なくとも2つのターゲット間のインタラクション関係を決定することができる。理解できることとして、第1ブランチネットワークを介して特徴データを処理して、第1画像内の各インタラクションキーポイントを取得する場合、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度も取得することができ、前記プリセットされたインタラクション動作カテゴリの信頼度に基づいて、少なくとも2つのターゲット間のインタラクション関係を決定することができる。 In this embodiment, based on the reliability of each preset interaction action category corresponding to each interaction keypoint, the interaction relationship between at least two targets corresponding to the interaction keypoint can be determined. It can be seen that when processing the feature data through the first branch network to obtain each interaction keypoint in the first image, the confidence of each preset interaction action category corresponding to each interaction keypoint is also and determining an interaction relationship between at least two targets based on the reliability of the preset interaction action categories.

本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも2つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づき、前記第1画像内のターゲット間のインタラクション関係を決定することにより、人-物体ペアを生成する必要もなく、人-物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人-物体ペアを欠落するという問題も回避することができる。本実施例は、インタラクション関係を有するターゲットを直接取得するため、関係分類ネットワークを介して各人-物体ペアに対して分類検出を実行する従来の方法と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。 Adopting the technical solution of an embodiment of the present invention, defining an interaction keypoint for an interaction action, determining at least two offsets associated with the interaction keypoint, furthermore, the center point of each target, the interaction keypoint and performing interaction motion detection using person-object pairs without the need to generate person-object pairs by determining interaction relationships between targets in the first image based on the at least two offsets. It is also possible to avoid the problem of missing person-object pairs with real interaction relationships caused by this. Compared with the conventional method of performing classification detection for each person-object pair via a relational classification network, the present embodiment can improve the detection speed because the present embodiment directly acquires targets with interaction relationships. Greatly improve and improve the detection efficiency.

以下、図1に示される画像処理方法の各ステップについて詳細に説明する。 Each step of the image processing method shown in FIG. 1 will be described in detail below.

本発明の一例示的な実施例において、ステップ102について、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含む。前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。 In one exemplary embodiment of the invention, determining the center point of each target in the first image based on the feature data for step 102 comprises downsampling the feature data to the first Obtaining an image hitmap, and determining the position offset of each point in the first image, the center point of each target in the first image, and the height and width of each target's detection box according to the hitmap. including doing and After determining the center point of each target in the first image based on the feature data, the image processing method performs: correcting the position of the center point of the target having the interaction relationship in the image to obtain the corrected position of the center point of the target having the interaction relationship in the first image; and having the interaction relationship in the first image. Determining a detection box of a target having an interaction relationship in the first image according to the corrected position of the center point of the target and the height and width of the detection box.

本実施例では、前記第1画像の特徴データをダウンサンプリング処理し、前記ダウンサンプリング処理は、例えば、特徴データを含む特徴マップに対して画像縮小処理を実行すること、即ち、特徴マップのサイズを縮小することであり得、これにより、ダウンサンプリング後に取得されたヒットマップ内の各点と第1画像内の各点は、1対1で対応しない。例えば、第1画像のサイズは128x128であり、第1画像内のターゲット人物の中心点は(10,10)であるが、ヒットマップはダウンサンプリングによって取得されたものであるため、32x32に4倍ダウンサンプリングすると、ターゲット人物の中心点は(10/4、10/4)=(2.5、2.5)にマッピングされるが、ヒットマップにおける点の座標は整数であるため、ヒットマップにおいて予測されるターゲット人物の中心点は、座標の小数点以下を切り捨てた点であり、即ち、座標は(2、2)である。つまり、ダウンサンプリングすると、ターゲット人物の中心点の位置の位置オフセットが発生する。 In this embodiment, the feature data of the first image is down-sampled, and the down-sampling process is, for example, performing an image reduction process on the feature map containing the feature data, that is, reducing the size of the feature map. The downsampling may be so that each point in the hitmap obtained after downsampling does not correspond one-to-one with each point in the first image. For example, the size of the first image is 128x128 and the center point of the target person in the first image is (10,10), but the hit map is obtained by downsampling, so it is quadrupled to 32x32. Downsampling maps the center point of the target person to (10/4, 10/4) = (2.5, 2.5), but since the coordinates of points in the hitmap are integers, the hitmap has The center point of the predicted target person is the point obtained by truncating the decimal point of the coordinates, ie, the coordinates are (2, 2). That is, downsampling introduces a positional offset in the position of the center point of the target person.

したがって、第1ブランチネットワークを介して、前記特徴データを処理することができ、具体的には、まず、特徴データが含まれた特徴マップをダウンサンプリングしてヒットマップ(Heatmap)を取得し、その後、ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することができる。理解できることとして、特徴データを第1ブランチネットワークの入力データとして使用し、特徴データをダウンサンプリングすることによりヒットマップを取得した後、第1ブランチネットワークは、ヒットマップに基づいて、第1画像内の各点の位置オフセット(offset)、第1画像内の各ターゲットの中心点、各ターゲットの検出ボックスの高さと幅[height、width]及び各ターゲットが各カテゴリに属する信頼度、及び第1画像内の各インタラクションキーポイント及び各インタラクションキーポイントが各プリセットされたインタラクション動作カテゴリに属する信頼度を決定する。 Therefore, the feature data can be processed through the first branch network. Specifically, first, the feature map containing the feature data is downsampled to obtain a heatmap, , the position offset of each point in the first image, the center point of each target in the first image and the height and width of the detection box of each target can be determined according to the hit map. It can be seen that after using the feature data as input data for the first branch network and obtaining a hitmap by downsampling the feature data, the first branch network, based on the hitmap, generates The position offset of each point, the center point of each target in the first image, the height and width [height, width] of the detection box of each target and the confidence that each target belongs to each category, and the , and the confidence that each interaction keypoint belongs to each preset interaction action category.

本実施例では、いくつかの実施例において、前記特徴データに基づいて、前記第1画像内の各点の位置オフセットを決定した後、インタラクション関係を有するターゲットの中心点の位置オフセットに基づいて、当該中心点の位置を補正することができる。例示的に、取得されたターゲットの中心点と対応する位置オフセットを加算して、補正後のターゲットの中心点の位置を取得することができる。これに対応して、ターゲットの中心点の補正後の位置及び検出ボックスの高さと幅に従って、当該ターゲットの検出ボックスを取得することにより、インタラクション関係を有するターゲットの検出ボックスを出力する。 In this embodiment, in some embodiments, after determining the position offset of each point in the first image based on the feature data, based on the position offset of the center point of the target having an interaction relationship, The position of the center point can be corrected. Illustratively, the obtained center point of the target and the corresponding position offset can be added to obtain the position of the center point of the target after correction. Correspondingly, according to the corrected position of the center point of the target and the height and width of the detection box, the detection box of the target is obtained, and the detection box of the target with interaction relationship is output.

例示的に、図2を参照すると、図2の第1中心点は補正後の位置であり、当該第1中心点を通る垂直の点線は、検出ボックスの高さ(height)を示し、当該第1中心点を通る水平の点線は、検出ボックスの幅(width)を示す。 Exemplarily, referring to FIG. 2, the first center point in FIG. 2 is the corrected position, the vertical dotted line passing through the first center point indicates the height of the detection box, and the first A horizontal dashed line through one center point indicates the width of the detection box.

本発明の一例示的な実施例において、ステップ102について、前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点に基づいて、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。
In an exemplary embodiment of the invention, for step 102, based on the feature data, determining a center point of each interaction keypoint and each target in the first image comprises: determining a center point of each target in the first image and a confidence level for each target; and based on the feature data, an interaction keypoint in the first image and each corresponding to each interaction keypoint. determining confidence levels for preset interaction behavior categories;
determining an interaction relationship between targets in the first image based on the center point of each target, the interaction key point and the at least two offsets; determining an interaction relationship between points, the at least two offsets, the confidence of each target and the confidence of each preset interaction action category corresponding to each interaction keypoint, and targets in the first image.

本実施例では、第1ブランチネットワークを介して特徴データを処理することができ、例示的に、第1ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を取得することができ、ここで、前記ターゲットの信頼度は、前記第1画像に前記ターゲットがある信頼度であってもよい。これに対応して、第1ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第1画像内の各インタラクションキーポイント及び各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度を取得することもでき、ここで、前記プリセットされたインタラクション動作カテゴリは、事前に設定された任意のインタラクション動作カテゴリ、例えば、喫煙インタラクション動作、ボールを打つインタラクション動作などであってもよい。さらに、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。 In this embodiment, the feature data may be processed through the first branch network, illustratively performing a convolution process on the feature data through multiple convolution layers of the first branch network to obtain a second A center point of each target in one image and a confidence of each target may be obtained, wherein the confidence of the target may be a confidence that the target is in the first image. Correspondingly, a convolution process is performed on the feature data through multiple convolution layers of the first branch network to obtain each interaction keypoint in the first image and a preset number corresponding to each interaction keypoint. A confidence level of an interaction action category may also be obtained, wherein the preset interaction action category is any preset interaction action category, such as a smoking interaction action, a ball-hitting interaction action, etc. may Further, based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the first Determine interaction relationships between targets in the image.

これに基づいて、本発明の一例示的な実施例において、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含む。前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む。 Based on this, in one exemplary embodiment of the present invention, determining a center point of each target in the first image and a confidence level of each target in the first image based on the feature data includes: Based on this, determining the center point of each target in the first image and its category, and the confidence that each target belongs to each category. based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the first image; Determining the interaction relationship between targets in corresponds to each target's center point and its category, said interaction keypoint, said at least two offsets, confidence that each target belongs to each category, and each interaction keypoint determining interaction relationships between targets in the first image based on the confidence of each preset interaction action category.

本実施例では、第1ブランチネットワークを介して特徴データを処理することができ、例示的に、第1ブランチネットワークの複数の畳み込み層を介して、特徴データに対して畳み込み処理を実行して、第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を取得することができる。ここで、第1画像内のターゲットが属するカテゴリは、人、車両、ボールなどの任意のカテゴリを含み得、前記ターゲットが各カテゴリに属する信頼度は、前記第1画像の前記ターゲットが当該カテゴリに属する信頼度であり、すなわち、第1画像内の特定の位置に特定のカテゴリに属するターゲットがある信頼度である。本実施例では、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定する。 In this embodiment, the feature data may be processed through the first branch network, illustratively performing a convolution process on the feature data through multiple convolution layers of the first branch network to The center point of each target in the first image and its category and the confidence that each target belongs to each category can be obtained. Here, the category to which the target in the first image belongs can include arbitrary categories such as people, vehicles, and balls, and the confidence that the target in the first image belongs to each category is belonging confidence, ie confidence that there is a target belonging to a particular category at a particular position in the first image. In this embodiment, the center point of each target and its category, the interaction keypoint, the at least two offsets, the confidence that each target belongs to each category, and each preset interaction action category corresponding to each interaction keypoint. determine the interaction relationship between the targets in the first image based on the confidence of .

本発明の一例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む。 In an exemplary embodiment of the present invention, each preset interaction action category corresponding to the center point of each target, the interaction keypoint, the at least two offsets, the confidence level of each target, and each interaction keypoint Determining an interaction relationship between targets in the first image based on the confidence in the first image includes, for one interaction keypoint, determining two offsets corresponding to the interaction keypoint; Determining two predicted center points corresponding to said interaction key points according to points and two offsets corresponding to said interaction key points; and two predicted center points corresponding to each target center point and each interaction key point. and two targets corresponding to each interaction keypoint, the confidence that each target belongs to each category, and each preset corresponding to each interaction keypoint. determining an interaction relationship between targets in the first image according to the confidence of the interaction action category obtained.

本実施例では、任意のインタラクションキーポイント(ここでは第1インタラクションキーポイントとして記録する)を例にとると、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する1つのオフセット(例えば、第1オフセット)に基づいて第1位置を決定することができ、ここで、前記第1位置を第1予測中心点として記録する。同様に、第1インタラクションキーポイントの位置及び当該第1インタラクションキーポイントに対応する別のオフセット(例えば、第2オフセット)に基づいて第2位置を決定することができ、ここで、前記第2位置を第2予測中心点として記録する。 In this embodiment, taking an arbitrary interaction keypoint (here recorded as the first interaction keypoint) as an example, the position of the first interaction keypoint and one offset corresponding to the first interaction keypoint (for example , first offset), wherein said first position is recorded as the first predicted center point. Similarly, a second position can be determined based on the position of the first interaction keypoint and another offset (e.g., a second offset) corresponding to the first interaction keypoint, wherein the second position is recorded as the second predicted center point.

さらに、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に基づいて、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定する。 Further, based on the center point of each target and the two predicted center points corresponding to each interaction keypoint, determine two targets corresponding to each interaction keypoint, and two targets corresponding to each interaction keypoint, each Determine the interaction relationship between the targets in the first image according to the confidence that the target belongs to each category and the confidence of each preset interaction action category corresponding to each interaction key point.

本発明の一例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。 In an exemplary embodiment of the present invention, determining two targets corresponding to each interaction keypoint according to the center point of each target and two predicted center points corresponding to each interaction keypoint includes: For predicted center points, determining a distance between a center point of each target and said predicted center point; using as a target corresponding to the interaction keypoint corresponding to the prediction center point.

本実施例では、ターゲットの中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第1ターゲットの中心点と上記の第1予測中心点との間の距離がプリセットされた距離閾値より小さく、第2ターゲットの中心点と上記の第2プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第1ターゲット及び前記第2ターゲットが、上記の第1インタラクションキーポイントに対応する2つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、1つのインタラクションキーポイントに対応するターゲットが2つ又は2つ以上存在する可能性がある。さらに、各インタラクションキーポイントに対応する少なくとも2つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定する。 In this embodiment, a target whose distance between the center point of the target and the obtained predicted center point is smaller than a preset distance threshold is used as the target corresponding to the interaction keypoint corresponding to the predicted center point. Exemplarily, the distance between the center point of the first target and the first predicted center point is less than a preset distance threshold, and the distance between the center point of the second target and the second preset center point is If the distance between is less than the preset distance threshold, it may indicate that the first target and the second target are two targets corresponding to the first interaction keypoint. It can be understood that there may be multiple numbers of target center points whose distance from a particular predicted center point is less than a preset distance threshold, i.e., there may be two or two targets corresponding to one interaction key point. There may be more than one. Further, according to at least two targets corresponding to each interaction keypoint, a confidence that each target belongs to each category, and a confidence of each preset interaction action category corresponding to each interaction keypoint, Determine interaction relationships between targets.

本発明の一例示的な実施例において、前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットが対応するカテゴリに属する信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、対応するカテゴリとは、2つのターゲット間のインタラクションがプリセットされたインタラクション動作カテゴリに属する場合、2つのターゲットが属するカテゴリを指す(例えば、プリセットされた動作カテゴリがバレーボールである場合、1つのターゲットが属する対応するカテゴリは人であり、もう1つのターゲットが属する対応するカテゴリはボールであり、プリセットされた動作カテゴリが電話を掛けることである場合、1つのターゲットが属する対応するカテゴリは人であり、もう1つのターゲットが属する対応するカテゴリは電話である)ことと、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。 In an exemplary embodiment of the present invention, according to the two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the Determining an interaction relationship between targets in the first image includes, for an interaction keypoint, a confidence level of one preset interaction action category corresponding to said interaction keypoint and a confidence level of 2 corresponding to said interaction keypoint. multiplying the confidence that one target belongs to the corresponding category to obtain a first confidence, wherein the first confidence is the interaction relationship between the two targets corresponding to the interaction key point is the confidence belonging to the interaction action category, and the corresponding category refers to the category to which two targets belong if the interaction between the two targets belongs to a preset interaction action category (e.g., preset action category is volleyball, the corresponding category to which one target belongs is people, the corresponding category to which another target belongs is ball, and the preset action category is to make a phone call, then one target the corresponding category to which the target belongs is people and the corresponding category to which the other target belongs is phone) and the first confidence exceeds the confidence threshold, corresponding to the interaction keypoint determining that the interaction relationship between the two targets belongs to the preset interaction behavior category; and in response to the first confidence not exceeding a confidence threshold, two corresponding to the interaction keypoints determining that an interaction relationship between two targets does not belong to the preset interaction behavior category.

本発明の一例示的な実施例において、前記画像処理方法は、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む。 In an exemplary embodiment of the present invention, after determining that the interaction relationship between two targets corresponding to one interaction keypoint does not belong to each preset interaction action category, the image processing method includes: Further comprising determining that there is no interaction relationship between the two targets corresponding to the keypoint.

本実施例では、1つのインタラクションキーポイントが少なくとも2つのターゲットに対応し、複数のターゲット間のインタラクション関係を決定するプロセスでは、まず、上記の技術案を採用して、複数のターゲットのうちの2つのターゲット間のインタラクション関係を決定し、当該2つのターゲット間のインタラクション関係が、対応するインタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属するかどうかを決定することができる。例えば、1つのインタラクションキーポイントに対応する3つのターゲットがあり、それぞれ、ターゲット1、ターゲット2及びターゲット3と記録し、この場合、上記の技術案を採用して、ターゲット1とターゲット2の間のインタラクション関係、ターゲット2とターゲット3の間のインタラクション関係、及びターゲット3とターゲット1の間のインタラクション関係をそれぞれ決定することができる。 In this embodiment, one interaction keypoint corresponds to at least two targets, and the process of determining the interaction relationship between multiple targets first adopts the above technical solution to An interaction relationship between two targets can be determined, and whether the interaction relationship between the two targets belongs to a preset interaction action category corresponding to corresponding interaction keypoints. For example, there are three targets corresponding to one interaction keypoint, respectively recorded as target 1, target 2 and target 3, in this case, adopting the above technical solution, An interaction relationship, an interaction relationship between targets 2 and 3, and an interaction relationship between targets 3 and 1 can be determined, respectively.

図3は、本発明の実施例に係る画像処理方法の別の応用の概略図であり、図3に示されたように、ニューラルネットワークは、特徴抽出ネットワーク、第1ブランチネットワーク及び第2ブランチネットワークを含み得、ここで、特徴抽出ネットワークは、入力画像に対して特徴抽出を実行して、特徴データを取得するために使用される。第1ブランチネットワークは、特徴データをダウンサンプリングしてヒットマップを取得し、その後、ヒットマップに従って入力画像内の各ターゲットの中心点及び各インタラクションキーポイントを決定し、各点の位置オフセット(offset)及び各ターゲットの検出ボックスの高さと幅[高さ,幅]、各ターゲットがカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得するために使用される。第2ブランチネットワークは、特徴データを処理して入力画像内の各点の少なくとも2つのオフセットを取得するために使用され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す。 FIG. 3 is a schematic diagram of another application of the image processing method according to an embodiment of the present invention, as shown in FIG. 3, the neural network comprises a feature extraction network, a first branch network and a second branch network where the feature extraction network is used to perform feature extraction on the input image to obtain feature data. The first branch network downsamples the feature data to obtain a hitmap, then determines the center point of each target and each interaction keypoint in the input image according to the hitmap, and the position offset of each point and used to obtain the height and width [height, width] of the detection box for each target, the confidence that each target belongs to a category, and the confidence for each preset interaction behavior category corresponding to each interaction keypoint be done. A second branch network is used to process the feature data to obtain at least two offsets for each point in the input image, one offset for an interaction key point in one interaction action and one offset for the interaction action. Represents the offset between the center points of two targets.

一実施形態において、第1ブランチネットワークを介して、特徴データを含む特徴マップをダウンサンプリングして、ヒットマップを取得する。この例の入力画像内のターゲットがターゲット人物及びターゲット物体を含むことを例にとると、両者を区別するために、ターゲット人物の中心点を第1中心点として記録し、ターゲット物体の中心点を第2中心点として記録すると、第1中心点を含む第1ヒットマップ、第2中心点を含む第2ヒットマップ及び各インタラクションキーポイントを含む第3ヒットマップをそれぞれ取得することができる。つまり、第1ブランチネットワークの出力データは、上記の第1ヒットマップ、第2ヒットマップ、第3ヒットマップ、入力画像内の各点の位置オフセット、及びターゲット人物及びターゲット物体の検出ボックスの高さと幅を含み得る。 In one embodiment, a hit map is obtained by down-sampling a feature map containing feature data through a first branch network. Taking for example that the target in the input image in this example includes a target person and a target object, in order to distinguish between the two, the center point of the target person is recorded as the first center point, and the center point of the target object is If recorded as the second center point, a first hit map containing the first center point, a second hit map containing the second center point, and a third hit map containing each interaction key point can be obtained respectively. That is, the output data of the first branch network are the above-mentioned first hitmap, second hitmap, third hitmap, the position offset of each point in the input image, and the height of the detection box of the target person and target object. May contain width.

具体的には、第1ブランチネットワークを介して、各ターゲットの中心点及びそのカテゴリ、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得することもできる。 Specifically, through the first branch network, each target's center point and its category, the confidence that each target belongs to each category, and the confidence of each preset interaction action category corresponding to each interaction key point can also be obtained.

一実施形態において、第2ブランチネットワークを介して、特徴データを含む特徴マップを処理して、各インタラクションキーポイントに対応する2つのオフセットを取得し、両者を区別するために、インタラクションキーポイントとインタラクション動作におけるターゲット人物の第1中心点との間のオフセットを第1オフセットとして記録し、インタラクションキーポイントとインタラクション動作におけるターゲット物体の第2中心点との間のオフセットを第2オフセットとして記録する。 In one embodiment, through a second branch network, a feature map containing feature data is processed to obtain two offsets corresponding to each interaction keypoint, and to distinguish between the two, the interaction keypoint and the interaction The offset between the first center point of the target person in motion is recorded as the first offset, and the offset between the interaction keypoint and the second center point of the target object in the interaction motion is recorded as the second offset.

1つのインタラクションキーポイント及び当該インタラクションキーポイントに対応する第1オフセット及び第2オフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点(それぞれ第1予測中心点及び第2予測中心点として記録する)を決定し、第1予測中心点について、各第1中心点と第1予測中心点との距離をそれぞれ決定し、当該第1予測中心点との距離がプリセットされた距離閾値より小さい第1中心点を決定する。これに対応して、第2予測中心点について、各第2中心点と第2予測中心点との距離をそれぞれ決定し、当該第2予測中心点との距離がプリセットされた距離閾値より小さい第2中心点を決定する。 According to one interaction keypoint and a first offset and a second offset corresponding to the interaction keypoint, two prediction center points corresponding to the interaction keypoint (recorded as first prediction center point and second prediction center point, respectively) ), and for each first predicted center point, determine the distance between each first center point and the first predicted center point, and determine the first Determine the center point. Correspondingly, for each of the second predicted center points, a distance between each second center point and the second predicted center point is determined, and a second distance between the second predicted center point and the second predicted center point is less than a preset distance threshold. 2 Determine the center point.

図3における2つのインタラクションキーポイントについて、各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度と、前記インタラクションキーポイントに対応するターゲット人物の信頼度及びターゲット物体の信頼度とをそれぞれ乗算して、第1信頼度を取得し、第1信頼度が信頼度閾値お超える場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属すると決定し、第1信頼度が信頼度閾値を超えない場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属しないと決定する。 For the two interaction keypoints in FIG. 3, the confidence of the preset interaction action category corresponding to each interaction keypoint is multiplied by the confidence of the target person and the confidence of the target object corresponding to said interaction keypoint, respectively. and obtaining a first reliability, if the first reliability exceeds the reliability threshold, the interaction relationship between the target person and the target object corresponding to the interaction keypoint is a preset corresponding to the interaction keypoint and if the first reliability does not exceed the reliability threshold, the interaction relationship between the target person and the target object corresponding to the interaction keypoint corresponds to the interaction keypoint. Decide not to belong to a preset interaction behavior category.

この例では、第1ブランチネットワークによって出力された入力画像内の各点の位置オフセットに基づいて、ターゲット人物の第1中心点及びターゲット物体の第2中心点の位置を補正して、インタラクション関係を有するターゲット人物の第1中心点の補正後の位置、及びターゲット物体の第2中心点の補正後の位置を取得し、入力画像においてインタラクション関係を有するターゲット人物の第1中心点の補正後の位置及びその検出ボックスの高さと幅[高さ、幅]、ターゲット物体の第2中心点の補正後の位置及びその検出ボックスの高さと幅[高さ、幅]に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定する。ニューラルネットワークの出力結果は、ターゲット人物の第1中心点の補正後の位置及びその対応する検出ボックス、ターゲット物体の第2中心点の補正後の位置及びその対応する検出ボックス、及びターゲット人物とターゲット物体のインタラクション関係(即ち、インタラクション動作カテゴリ)を含む。入力画像においてインタラクション関係を有しないターゲットの場合、検出ボックスを出力しない。 In this example, based on the positional offset of each point in the input image output by the first branch network, the positions of the first center point of the target person and the second center point of the target object are corrected, and the interaction relationship is obtaining the corrected position of the first center point of the target person and the corrected position of the second center point of the target object, and obtaining the corrected position of the first center point of the target person having the interaction relationship in the input image and an interaction relationship in the first image according to the height and width [height, width] of its detection box, the corrected position of the second center point of the target object and the height and width [height, width] of its detection box determine the detection box of the target with The output result of the neural network is the corrected position of the first center point of the target person and its corresponding detection box, the corrected position of the second center point of the target object and its corresponding detection box, and the target person and the target. Contains the object's interaction relationship (ie, interaction action category). For targets that have no interaction relationship in the input image, no detection box is output.

本発明の一例示的な実施例において、本実施例の前記画像処理方法はニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点(即ち、ターゲットの検出ボックスの中心)及びマークされたインタラクションキーポイント(インタラクション関係を有するターゲットの検出ボックスの中心の連結線の中点)は、マークされた検出ボックスに従って決定され、マークされたオフセットは、サンプル画像のサイズ及びサンプル画像に従って決定されたヒットマップのサイズに従って決定される。これに基づいて、本発明の実施例は、ニューラルネットワークのトレーニング方法を更に提供する。図4は、本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートであり、図4に示されたように、前記方法は、次のステップを含む。 In an exemplary embodiment of the present invention, the image processing method of this embodiment is performed by a neural network, the neural network is obtained by training with a sample image, and the sample image is , the detection box of the target with interaction relationship is marked, the marked center point of the target with interaction relationship (i.e. the center of the target's detection box) and the marked interaction key point (interaction relationship ) is determined according to the marked detection box, the marked offset is determined according to the size of the sample image and the size of the hit map determined according to the sample image be. Based on this, embodiments of the present invention further provide a neural network training method. FIG. 4 is an exemplary flow chart of a neural network training method in an image processing method according to an embodiment of the present invention, as shown in FIG. 4, the method includes the following steps.

ステップ201において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出する。 At step 201, the neural network is used to extract feature data of the sample image.

ステップ202において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得する。 At step 202, the neural network is used to down-sample the feature data of the sample image to obtain a hit map of the sample image.

ステップ203において、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測する。 In step 203, using the neural network to determine the position offset of each point in the sample image, the interaction keypoint in the sample image, the position offset of each target in the sample image, based on the hit map of the sample image. Estimate the center point, height and width of the detection box for each target in the sample image.

ステップ204において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも2つのオフセットを予測する。 At step 204, the neural network is used to predict at least two offsets based on feature data of the sample image.

ステップ205において、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測する。 In step 205, predict interaction relationships between targets in the sample image based on the center point of each target in the sample image, the interaction keypoint in the sample image and at least two offsets in the sample image. do.

ステップ206において、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整する。 In step 206, the predicted position offset, the predicted center point of the target with the interaction relationship in the sample image and the height and width of the predicted detection box, the predicted position offset corresponding to the target with the interaction relationship in the sample image. adjusting the network parameter values of the neural network according to the detected interaction keypoints and their corresponding predicted offsets, and the target detection box with the marked positional offsets and interaction relations marked on the sample image.

本実施例のステップ201~ステップ205の詳細については、上記の実施例を参照でき、ここでは繰り返して説明しない。 The details of steps 201 to 205 in this embodiment can be referred to the above embodiments and will not be repeated here.

本実施例ステップ206では、いくつかの実施例において、ニューラルネットワークの第1ブランチネットワークについて、予測されたサンプル画像においてインタラクション関係を有するターゲットの予測された中心点、予測された検出ボックスの高さと幅、及び予測されたインタラクションキーポイント、及びインタラクション関係を有するターゲットのマークされた検出ボックスとマークされた位置オフセットに従って、1つの損失関数を決定でき、当該損失関数に基づいて第1ブランチネットワークのネットワークパラメータを調整することができる。 In this embodiment step 206, in some embodiments, for the first branch network of the neural network, the predicted center point of the target with interaction relationship in the predicted sample image, the height and width of the predicted detection box , and the predicted interaction keypoint, and the marked detection box and marked position offset of the target with interaction relationship, a loss function can be determined, and based on the loss function, the network parameters of the first branch network can be adjusted.

いくつかの実施例において、ニューラルネットワークの第2ブランチネットワークについて、インタラクションキーポイントに対応する予測されたオフセット及びマークされたオフセットに従って、1つの損失関数を決定でき、当該損失関数に基づいて第2ブランチネットワークのネットワークパラメータを調整することができる。 In some embodiments, a loss function can be determined according to the predicted offsets and marked offsets corresponding to the interaction keypoints for the second branch network of the neural network; Network parameters of the network can be adjusted.

いくつかの実施例において、予測された位置オフセット及びマークされた位置オフセットに基づいて1つの損失関数を決定し、当該損失関数を介して、特徴データを含む特徴マップをダウンサンプリングすることによる位置オフセットを補正することで、ダウンサンプリングのよる損失を最小限に抑えることにより、取得された各点の位置オフセット(offset)をより正確にすることができる。これに基づいて、当該損失関数を介して第1ブランチネットワークのネットワークパラメータを調整する。 In some embodiments, a loss function is determined based on the predicted position offsets and the marked position offsets, and the position offsets by downsampling the feature map containing the feature data through the loss function. can make the position offset of each acquired point more accurate by minimizing the loss due to downsampling. Based on this, the network parameters of the first branch network are adjusted via the loss function.

本実施例では、前述した各実施例におけるパラメータ調整方式を用いて、ニューラルネットワークのネットワークパラメータ値を調整することができる。 In this embodiment, the network parameter values of the neural network can be adjusted using the parameter adjustment method in each of the embodiments described above.

本発明の実施例は、画像処理装置を更に提供する。図5は、本発明の実施例に係る画像処理装置の構成の第1概略構造図であり、図5に示されたように、前記装置は、抽出ユニット41、第1決定ユニット42、第2決定ユニット43及び第3決定ユニット44を備え、ここで、
前記抽出ユニット41は、第1画像の特徴データを抽出するように構成され、
前記第1決定ユニット42は、前記抽出ユニット41によって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
前記第2決定ユニット43は、前記抽出ユニット41によって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
前記第3決定ユニット44は、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
Embodiments of the present invention further provide an image processing apparatus. FIG. 5 is a first schematic structural diagram of the configuration of an image processing device according to an embodiment of the present invention, as shown in FIG. comprising a determining unit 43 and a third determining unit 44, wherein:
said extraction unit 41 is configured to extract feature data of the first image,
The first determination unit 42 is configured to determine a center point of each interaction keypoint and each target in the first image based on the feature data extracted by the extraction unit 41, and an interaction a key point is a point on the connecting line within a preset range from the midpoint of the connecting line, the connecting line being the connecting line between the center points of two targets in one interaction action;
The second determining unit 43 is configured to determine at least two offsets based on the feature data extracted by the extracting unit 41, one offset being an interaction key point in one interaction action and the represents the offset between the center points of one target in an interaction motion;
The third determining unit 44 is configured to determine an interaction relationship between targets in the first image based on each target's center point, the interaction key point and the at least two offsets.

本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第3決定ユニット44は、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
In an exemplary embodiment of the invention, the first determining unit 42 determines a center point of each target in the first image and a confidence level of each target based on the feature data, and configured to determine, based on data, an interaction keypoint in the first image and a confidence level for each interaction action category corresponding to each interaction keypoint;
The third determining unit 44 determines the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint. based on which interaction relationships between targets in said first image are determined.

本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第3決定ユニット44は、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。
In one exemplary embodiment of the present invention, the first determination unit 42 determines the center point of each target in the first image and its category, and the category each target is in each preset category, based on the feature data. configured to determine the confidence belonging to
The third determining unit 44 determines the center point of each target and its category, the interaction keypoint, the at least two offsets, the confidence that each target belongs to each preset category, and each target corresponding to each interaction keypoint. It is configured to determine an interaction relationship between targets in the first image based on confidence levels of preset interaction action categories.

本発明の一例示的な実施例において、前記第3決定ユニット44は、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定し、各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される。 In an exemplary embodiment of the present invention, the third determining unit 44 determines, for one interaction keypoint, two offsets corresponding to the interaction keypoint, the interaction keypoint and determining two predicted center points corresponding to the interaction key points according to the corresponding two offsets, and corresponding to each interaction key point according to the center point of each target and the two predicted center points corresponding to each interaction key point; determining two targets, and determining two targets in the first image according to two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint; configured to determine interaction relationships between targets;

本発明の一例示的な実施例において、前記第3決定ユニット44は、1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得し、ここで、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。 In an exemplary embodiment of the present invention, the third determining unit 44 determines, for an interaction keypoint, the reliability of one preset interaction action category corresponding to the interaction keypoint and the interaction keypoint. multiplied by the confidence of the corresponding two targets to obtain a first confidence, wherein the first confidence is the interaction relationship between the two targets corresponding to the interaction keypoint is the interaction action; a confidence that the interaction relationship between the two targets corresponding to the interaction keypoint belongs to the preset interaction behavior category in response to the first confidence exceeding a confidence threshold. and determining that an interaction relationship between two targets corresponding to the interaction keypoint does not belong to the preset interaction behavior category in response to the first confidence not exceeding a confidence threshold. configured to

本発明の一例示的な実施例において、前記第3決定ユニット44は更に、1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定するように構成される。 In an exemplary embodiment of the present invention, after the third determining unit 44 further determines that the interaction relationship between two targets corresponding to one interaction keypoint does not belong to each preset interaction action category. , determining that there is no interaction relationship between two targets corresponding to said interaction keypoint.

本発明の一例示的な実施例において、前記第3決定ユニット44は、1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。 In one exemplary embodiment of the present invention, the third determining unit 44 determines, for one prediction center point, the distance between each target center point and the prediction center point, and A target whose distance from the center point is less than a preset distance threshold is configured to be used as a target corresponding to the interaction keypoint corresponding to the predicted center point.

本発明の一例示的な実施例において、前記第1決定ユニット42は、前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得し、前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定ように構成され、前記第1決定ユニット42は更に、前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。 In one exemplary embodiment of the present invention, the first determining unit 42 downsamples the feature data to obtain a hitmap of the first image, and according to the hitmap, each configured to determine a point position offset, a center point of each target in the first image, and a height and width of a detection box for each target, the first determining unit 42 further based on the feature data, the After determining the center point of each target in the first image, correct the position of the center point of the target with interaction relationship in the first image according to the position offset of the center point of the target with interaction relationship in the first image. to obtain the corrected position of the center point of the target having an interaction relationship in the first image, and the corrected position of the center point of the target having an interaction relationship in the first image and the height of the detection box thereof It is configured to determine a detection box of a target with an interaction relationship in said first image according to the width.

本発明の一例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。 In an exemplary embodiment of the present invention, each functional unit of the image processing device is implemented by a neural network, the neural network is obtained by training using sample images, and the sample images are An image is marked with detection boxes of targets with an interaction relationship, and marked center points and marked interaction key points of targets with an interaction relationship in the sample image are determined according to the marked detection boxes, and marking The marked offset is determined according to the marked center point and the marked interaction key point of the target with interaction relationship.

本発明の一例示的な実施例において、図6に示されたように、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニット45を備え、前記トレーニングユニット45は、具体的に、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも2つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。 In an exemplary embodiment of the invention, as shown in Figure 6, the apparatus further comprises a training unit 45 configured to train the neural network using sample images, the training unit 45 specifically uses the neural network to extract the feature data of the sample image, and uses the neural network to down-sample the feature data of the sample image to obtain a hit map of the sample image. and using the neural network to determine the position offset of each point in the sample image, each interaction keypoint in the sample image, and the center point of each target in the sample image based on the hitmap of the sample image. predicting the height and width of a detection box for each target in the sample image; using the neural network to predict at least two offsets based on feature data of the sample image; predicting an interaction relationship between targets in the sample image based on the center point of the sample image, the interaction keypoint in the sample image and at least two offsets in the sample image; a predicted center point and predicted detection box height and width of a target with an interaction relationship in the sample image, a predicted interaction keypoint corresponding to a target with an interaction relationship in the sample image and a corresponding predicted offset; and adjusting the network parameter values of the neural network according to the marked position offset and the detection box of the target with the interaction relation marked on the sample image.

本発明の実施例では、前記装置の抽出ユニット41、第1決定ユニット42、第2決定ユニット43、第3決定ユニット44及びトレーニングユニット45は、実際の応用ではすべて前記装置の中央処理装置(CPU:Central Processing Unit)、デジタル信号プロセッサ(DSP:Digital Signal Processor)、マイクロコントローラユニット(MCU:Microcontroller Unit)又はフィールド(FPGA、Field-Programmable Gate Array)で実現できる。 In an embodiment of the present invention, the extracting unit 41, the first determining unit 42, the second determining unit 43, the third determining unit 44 and the training unit 45 of the apparatus are all central processing units (CPUs) of the apparatus in practical applications. : Central Processing Unit), Digital Signal Processor (DSP), Microcontroller Unit (MCU) or field (FPGA, Field-Programmable Gate Array).

上記の実施例に係る画像処理装置が画像処理を実行することについて、上述の各プログラムモジュールの分割のみを例に挙げて説明しているが、実際の応用では、必要に応じて、上述の処理を異なるプログラムモジュールに割り当てて完了することができ、即ち、装置の内部構造を異なるプログラムモジュールに分割して、上記の処理の全てまたは一部を完了することができることに留意されたい。なお、上述の実施例で提供される画像処理装置の実施例は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。 The execution of image processing by the image processing apparatus according to the above embodiment has been described using only the division of each program module as an example. can be assigned and completed in different program modules, ie the internal structure of the device can be divided into different program modules to complete all or part of the above processing. It should be noted that the embodiments of the image processing apparatus provided in the above embodiments belong to the same concept as the embodiments of the image processing method, and the specific implementation process thereof can refer to the embodiments of the method, which will be repeated here. not explained.

本発明の実施例は、電子機器を更に提供する。図7は、本発明の実施例に係る電子機器のハードウェアの構成の概略構造図であり、図7に示されたように、前記電子機器は、メモリ52と、プロセッサ51と、メモリ52に記憶された、プロセッサ51によって実行可能なコンピュータプログラムとを備え、前記プロセッサ51は、前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実行する。 Embodiments of the present invention further provide an electronic device. FIG. 7 is a schematic structural diagram of the hardware configuration of an electronic device according to an embodiment of the present invention. As shown in FIG. and a computer program stored therein executable by a processor 51, said processor 51, when executing said program, performing the steps of the image processing method according to the embodiments of the invention.

例示的に、電子機器の各コンポーネントは、バスシステム53を介して結合される。バスシステム53は、これらのコンポーネント間の接続通信を具現するために使用されることを理解されたい。データバスに加えて、バスシステム53は、電力バス、制御バスおよび状態信号バスをさらに備える。しかしながら、説明を明確にするために、図7では様々なバスをすべてバスシステム53として表記する。 Illustratively, each component of the electronic equipment is coupled via a bus system 53 . It should be understood that bus system 53 is used to implement connection communication between these components. In addition to the data bus, bus system 53 further comprises a power bus, a control bus and a status signal bus. However, for clarity of explanation, all of the various buses are denoted as bus system 53 in FIG.

メモリ52は、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性および不揮発性メモリの両方を含んでもよいことを理解されたい。ここで、不揮発性メモリは、読み取り専用メモリ(ROM:Read-Only Memory)、プログラム可能な読み取り専用メモリ(PROM:Programmable ROM)、消去可能なプログラム可能な読み取り専用メモリ(EPROM:Erasable Programmable Read-Only Memory)、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM:Electrically Erasable Programmable Read-Only Memory)、強磁性ランダムアクセスメモリ(FRAM:Ferromagnetic Random Access Memory)フラッシュメモリ(Flash Memory)、磁気メモリ、コンパクトディスク、または読み取り専用コンパクトディスク(CD-ROM:Compact Disc Read-Only Memory)であり得、磁気メモリは、磁気ディスクメモリまたは磁気テープメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ(RAM:Random Access Memory)であってもよい。例示的であるが限定的な説明ではないが、例えば、スタティックランダムアクセスメモリ(SRAM:Static RAM)、同期スタティックランダムアクセスメモリ(SSRAM:Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM:Dynamic Random Access Memory)、同期ダイナミックランダムアクセスメモリ(SDRAM:Synchronous Dynamic Random Access Memory)、ダブルデータレートの同期ダイナミックランダムアクセスメモリ(DDRSDRAM:Double Data Rate Synchronous Dynamic Random Access Memory)、強化された同期ダイナミックランダムアクセスメモリ(ESDRAM:Enhanced Synchronous Dynamic Random Access Memory)、ダイナミックランダムアクセスメモリの同期接続(SLDRAM:SyncLink Dynamic Random Access Memory)およびダイレクトメモリバスランダムアクセスメモリ(DRRAM:Direct Rambus Random Access Memory)など様々な形のRAMを使用することができる。本発明の実施例に記載のメモリ52は、これらおよび任意の他の適切なタイプのメモリを含むが、これらに限定されないことを意図する。
上記の本発明の実施例で開示された方法は、プロセッサ51に適用されてもよく、またはプロセッサ51によって実現されてもよい。プロセッサ51は、信号処理機能を備える集積回路チップであり得る。具現プロセスにおいて、上記した方法の各ステップは、プロセッサ51におけるハードウェアの集積論理回路またはソフトウェアの形の命令を介して完了されることができる。上記のプロセッサ51は、汎用プロセッサ、DSP、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ51は、本発明の実施例で開示された各方法、ステップおよび論理ブロック図を実現または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。本発明の実施例を組み合たせて開示された方法のステップは、直接に、ハードウェア復号化プロセッサによって実行されて完了すると具現されることができ、または復号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完了する。ソフトウェアモジュールは記憶媒体に配置されることができ、当該記憶媒体は、メモリ52に配置され、プロセッサ51は、メモリ52内の情報を読み取り、そのハードウェアと組み合わせて前記方法のステップを完成する。
It should be appreciated that memory 52 may be volatile memory, non-volatile memory, or may include both volatile and non-volatile memory. Here, non-volatile memory includes read-only memory (ROM), programmable read-only memory (PROM), and erasable programmable read-only memory (EPROM). Memory), electrically erasable programmable read-only memory (EEPROM), ferromagnetic random access memory (FRAM), flash memory, magnetic memory, It may be a compact disc, or a compact disc read-only memory (CD-ROM), and the magnetic memory may be a magnetic disk memory or a magnetic tape memory. Volatile memory can be Random Access Memory (RAM), which is used as an external cache. By way of example but not limitation, static random access memory (SRAM), synchronous static random access memory (SSRAM), dynamic random access memory (DRAM), for example. Synchronous Dynamic Random Access Memory (SDRAM), Double Data Rate Synchronous Dynamic Random Access Memory (DDRSDRAM), Enhanced Synchronous Dynamic Random Access Memory (Dynamic Random Access Memory) Various types of Memory Access Memory, such as Enhanced Synchronous Dynamic Random Access Memory (ESDRAM), SyncLink Dynamic Random Access Memory (SLDRAM), and Direct Rambus Random Access Memory (DRRAM). can do. The memory 52 described in embodiments of the present invention is intended to include, but not be limited to, these and any other suitable types of memory.
The methods disclosed in the embodiments of the present invention above may be applied to processor 51 or implemented by processor 51 . Processor 51 may be an integrated circuit chip with signal processing functionality. In an implementation process, each step of the method described above can be completed via instructions in the form of hardware integrated logic circuits or software in processor 51 . Processor 51, described above, may be a general purpose processor, DSP, or other programmable logic device, discrete gate or transistor logic device, discrete hardware component, or the like. Processor 51 is capable of implementing or executing each method, step and logic block diagram disclosed in an embodiment of the invention. A general-purpose processor may be a microprocessor, any conventional processor, or the like. The steps of the method disclosed in combination with the embodiments of the present invention can be directly embodied when executed and completed by a hardware decoding processor, or can be implemented by hardware and software modules in the decoding processor. Runs and completes by combination. The software modules may be located in a storage medium, such storage medium being located in the memory 52, the processor 51 reading the information in the memory 52 and combining with its hardware to complete the steps of the method.

例示的な実施例において、電子機器は、上記の方法を実行するために、1つまたは複数の特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、デジタル信号プロセッサ(DSP)、プログラマブルロジックデバイス(PLD)、複合プログラマブルロジックデバイス(CPLD:Complex Programmable Logic Device)、FPGA、汎用プロセッサ、コントローラ、MCU、マイクロプロセッサ(Microprocessor)または他の電子素子によって実現されることができる。 In an exemplary embodiment, the electronic device includes one or more Application Specific Integrated Circuits (ASICs), Digital Signal Processors (DSPs), Programmable Logic Devices ( PLD), Complex Programmable Logic Device (CPLD), FPGA, general purpose processor, controller, MCU, microprocessor or other electronic device.

例示的な実施例において、本発明の実施例は、コンピュータプログラム命令を含むメモリ52などの不揮発性コンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラムは、電子機器のプロセッサ51によって実行されて上記の方法を完了することができる。コンピュータ記憶媒体は、FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁気表面メモリ、光ディスク、またはCD-ROMなどのメモリであってもよいし、上記のメモリのうちの1つ又は任意に組み合わせた様々な機器であってもよい。 In an exemplary embodiment, embodiments of the present invention further provide a non-volatile computer readable storage medium, such as memory 52, containing computer program instructions, said computer program being executed by processor 51 of the electronic device to perform said method can be completed. The computer storage medium may be memory such as FRAM, ROM, PROM, EPROM, EEPROM, Flash Memory, magnetic surface memory, optical disk, or CD-ROM, or any one or any combination of the above memories. It may be a variety of devices.

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の画像処理方法のステップを実現する。 An embodiment of the present invention provides a computer readable storage medium storing a computer program, which, when executed by a processor, implements the steps of the image processing method described in the embodiments of the present invention.

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の画像処理方法のステップを実行させる。 An embodiment of the present invention provides a computer program product comprising computer readable code for instructing a processor of an electronic device, when said computer readable code is executed by said electronic device, to perform an image processing method according to an embodiment of the present invention. step.

本願で提供されるいくつかの方法の実施例に開示された方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。 The methods disclosed in several method embodiments provided herein can be arbitrarily combined without conflict to obtain new method embodiments.

本願で提供されるいくつかの製品の実施例に開示された技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。 The technical features disclosed in several product embodiments provided in the present application can be arbitrarily combined without conflict to obtain new product embodiments.

本願で提供されるいくつかの方法又は機器の実施例に開示された特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。 Features disclosed in several method or apparatus embodiments provided herein may be combined in any way without conflict to obtain new method embodiments or apparatus embodiments.

本願で提供されたいくつかの実施例において、開示された機器及び方法は、他の方式で実現できることを理解されたい。上記で説明された機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。なお、表示または議論された各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。 It should be appreciated that in some of the examples provided herein, the disclosed apparatus and methods can be implemented in other ways. The above-described device embodiments are only exemplary, for example, the division of the units is only the division of logical functions, and in actual implementation, there are other division methods, such as multiple Units or components may be integrated or integrated into another system, or some features may be ignored or not performed. It should be noted that mutual couplings or direct couplings or communication connections between each component shown or discussed may be indirect couplings or communication connections through some interface, device or unit, electrical, mechanical or otherwise. can be of the form

上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、1箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。 The units described as separate members above may or may not be physically separate, and the members shown as units may or may not be physical units, and may or may not be in one place. It can be arranged or distributed in multiple network units, and some or all of them can be selected according to actual needs to achieve the purpose of the technical solution of this embodiment. be able to.

なお、本発明の各実施例における各機能ユニットは、全部1つの処理ユニットに統合してもよいし、各ユニットを別々に1つのユニットとして使用してもよいし、2つ以上のユニットを1つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。 In addition, each functional unit in each embodiment of the present invention may be integrated into one processing unit, each unit may be used separately as one unit, or two or more units may be combined into one unit. may be combined into one unit. The above integrated units can be embodied in the form of hardware or in the form of hardware and software functional units.

当業者は、上記した方法の実施例の全てまたは一部のステップは、プログラム命令に関連するハードウェアによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるとき、上記の方法の実施例のステップを実行し、前記記憶媒体は、モバイル記憶機器、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。 A person skilled in the art will understand that all or part of the steps of the above method embodiments can be completed by hardware associated with program instructions, and the program can be stored in a computer-readable storage medium. , when the program is run, it performs the steps of the above method embodiments, and the storage medium is a mobile storage device, a ROM, a RAM, a magnetic memory or an optical disc, which can store the program code. Including media.

あるいは、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータ機器(パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る)に、本開示の各実施例に記載の方法の全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ROM、RAM、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。 Alternatively, the above integrated units of the present invention may be implemented in the form of software functional modules and stored on a computer readable storage medium when sold or used as a stand-alone product. Based on this understanding, the essential part of the technical solution of the embodiments of the present invention, that is, the part that contributes to the prior art, can be embodied in the form of a software product, and the computer software The product can be stored on a single storage medium and stored on a computer device (which can be a personal computer, server, network device, etc.) to perform all or part of the method described in each embodiment of the present disclosure. including instructions for The aforementioned storage media include various media capable of storing program code such as removable storage, ROM, RAM, magnetic memory or optical discs.

上記の内容は、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。
The above contents are only specific embodiments of the present invention, and the protection scope of the present invention is not limited thereto. Any modification or replacement that a person skilled in the art can easily conceive within the technical scope disclosed in the present invention should fall within the protection scope of the present disclosure. Therefore, the protection scope of the present invention shall be subject to the protection scope of the claims.

Claims (14)

画像処理装置に適用される画像処理方法であって、
第1画像の特徴データを抽出することと、
前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線である、ことと、
前記特徴データに基づいて、少なくとも2つのオフセットを決定することであって、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表す、ことと、
各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む、前記画像処理方法。
An image processing method applied to an image processing device ,
extracting feature data of the first image;
determining a center point of each interaction keypoint and each target in the first image based on the feature data, wherein one interaction keypoint is within a preset range from a midpoint of a connecting line; a point on a connecting line, said connecting line being the connecting line between the center points of two targets in one interaction action;
determining at least two offsets based on the feature data, one offset representing an offset between an interaction keypoint in an interaction motion and a center point of a target in the interaction motion; and
determining an interaction relationship between targets in the first image based on each target's center point, the interaction keypoint and the at least two offsets.
前記特徴データに基づいて、前記第1画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、
前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、
前記特徴データに基づいて、前記第1画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む、
請求項1に記載の画像処理方法。
Determining a center point of each interaction keypoint and each target in the first image based on the feature data includes:
determining a center point of each target in the first image and a confidence level for each target based on the feature data;
determining, based on the feature data, an interaction keypoint in the first image and a confidence level for each preset interaction action category corresponding to each interaction keypoint;
Determining an interaction relationship between targets in the first image based on the center point of each target, the interaction keypoint and the at least two offsets includes:
in the first image based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint; including determining interaction relationships between the targets of
The image processing method according to claim 1.
前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、
前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することと、
前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することを含む、
請求項2に記載の画像処理方法。
Determining a center point of each target in the first image and a confidence level of each target based on the feature data includes:
determining, based on the feature data, the center point of each target in the first image and its category, and the confidence that each target belongs to each category;
based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the first image; Determining interaction relationships between targets in
based on the center point of each target and its category, the interaction keypoint, the at least two offsets, the confidence that each target belongs to each category, and the confidence of each preset interaction action category corresponding to each interaction keypoint. to determine interaction relationships between targets in the first image;
3. The image processing method according to claim 2.
前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも2つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第1画像内のターゲット間のインタラクション関係を決定することは、
1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する2つのオフセットを決定することと、
前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する2つのオフセットに従って、前記インタラクションキーポイントに対応する2つの予測中心点を決定することと、
各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することと、
各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することと、を含む、
請求項2又は3に記載の画像処理方法。
based on the center point of each target, the interaction keypoint, the at least two offsets, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint, the first image; Determining interaction relationships between targets in
determining, for an interaction keypoint, two offsets corresponding to the interaction keypoint;
determining two predicted center points corresponding to the interaction keypoint according to the interaction keypoint and two offsets corresponding to the interaction keypoint;
determining two targets corresponding to each interaction keypoint according to the center point of each target and two predicted center points corresponding to each interaction keypoint;
Determine the interaction relationship between the targets in the first image according to the two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint. to, including
4. The image processing method according to claim 2 or 3.
前記各インタラクションキーポイントに対応する2つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第1画像内のターゲット間のインタラクション関係を決定することは、
1つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する1つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する2つのターゲットの信頼度とを乗算して、第1信頼度を取得することであって、前記第1信頼度は、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、
前記第1信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、
前記第1信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む、
請求項4に記載の画像処理方法。
determining the interaction relationship between the targets in the first image according to the two targets corresponding to each interaction keypoint, the confidence of each target, and the confidence of each preset interaction action category corresponding to each interaction keypoint; to decide
For an interaction keypoint, multiply the confidence of one preset interaction action category corresponding to said interaction keypoint by the confidence of two targets corresponding to said interaction keypoint to obtain a first confidence. obtaining, wherein the first confidence is a confidence that an interaction relationship between two targets corresponding to the interaction keypoint belongs to the preset interaction action category;
determining that an interaction relationship between two targets corresponding to the interaction keypoint belongs to the preset interaction behavior category in response to the first confidence exceeding a confidence threshold;
determining that an interaction relationship between two targets corresponding to the interaction keypoint does not belong to the preset interaction behavior category in response to the first confidence not exceeding a confidence threshold. include,
5. The image processing method according to claim 4.
前記画像処理方法は、
1つのインタラクションキーポイントに対応する2つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する2つのターゲット間にインタラクション関係がないと決定することを更に含む、
請求項5に記載の画像処理方法。
The image processing method includes
After determining that the interaction relationship between two targets corresponding to an interaction keypoint does not belong to each preset interaction action category, determining that there is no interaction relationship between the two targets corresponding to said interaction keypoint. further comprising
6. The image processing method according to claim 5.
前記各ターゲットの中心点及び各インタラクションキーポイントに対応する2つの予測中心点に従って、各インタラクションキーポイントに対応する2つのターゲットを決定することは、
1つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、
中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む、
請求項46のいずれか項に記載の画像処理方法。
Determining two targets corresponding to each interaction keypoint according to the center point of each target and two predicted center points corresponding to each interaction keypoint;
determining, for a predicted center point, the distance between each target center point and the predicted center point;
using a target whose distance between a center point and the predicted center point is less than a preset distance threshold as a target corresponding to an interaction keypoint corresponding to the predicted center point;
The image processing method according to any one of claims 4-6.
前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定することは、
前記特徴データをダウンサンプリングして前記第1画像のヒットマップを取得することと、
前記ヒットマップに従って、前記第1画像内の各点の位置オフセット、前記第1画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、
前記特徴データに基づいて、前記第1画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、
前記第1画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第1画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、
前記第1画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第1画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む、
請求項17のいずれか項に記載の画像処理方法。
Determining a center point of each target in the first image based on the feature data comprises:
down-sampling the feature data to obtain a hit map of the first image;
determining the position offset of each point in the first image, the center point of each target in the first image, and the height and width of each target's detection box according to the hit map;
After determining the center point of each target in the first image based on the feature data, the image processing method comprises:
Correcting the position of the center point of the target with interaction relationship in the first image according to the position offset of the center point of the target with interaction relationship in the first image, and the center of the target with interaction relationship in the first image. obtaining a corrected position of the point;
determining the detection box of the target with interaction relationship in the first image according to the corrected position of the center point of the target with interaction relationship in the first image and the height and width of the detection box thereof. ,
The image processing method according to any one of claims 1-7 .
前記画像処理装置は、ニューラルネットワークを介して前記画像処理方法を実行し、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される、
請求項8に記載の画像処理方法。
The image processing device performs the image processing method through a neural network, the neural network is obtained by training with a sample image, and the sample image has an interaction relationship. A detection box of the target is marked, a marked center point and a marked interaction key point of the target having an interaction relationship in the sample image are determined according to the marked detection box, and a marked offset indicates the interaction relationship. determined according to the marked center point and the marked interaction key point of the target with
The image processing method according to claim 8.
サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、
前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも2つのオフセットを予測することと、
前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも2つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、
予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む、
請求項9に記載の画像処理方法。
Training the neural network with sample images includes:
extracting feature data of the sample image using the neural network;
down-sampling the feature data of the sample image using the neural network to obtain a hit map of the sample image;
Using the neural network, based on a hit map of the sample image, the position offset of each point in the sample image, each interaction keypoint in the sample image, the center point of each target in the sample image, the predicting the height and width of the detection box for each target in the sample image;
using the neural network to predict at least two offsets based on feature data of the sample image;
predicting interaction relationships between targets in the sample images based on the center point of each target in the sample images, the interaction keypoints in the sample images, and at least two offsets in the sample images;
A predicted position offset, a predicted center point and a predicted detection box height and width of a target with an interaction relationship in the sample image, a predicted interaction key point corresponding to a target with an interaction relationship in the sample image. and adjusting network parameter values of the neural network according to the corresponding predicted offsets and target detection boxes with marked positional offsets and interaction relationships marked on the sample images;
10. The image processing method according to claim 9.
画像処理装置であって、
抽出ユニット、第1決定ユニット、第2決定ユニット及び第3決定ユニットを備え、
前記抽出ユニットは、第1画像の特徴データを抽出するように構成され、
前記第1決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第1画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、1つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、1つのインタラクション動作における2つのターゲットの中心点間の連結線であり、
前記第2決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも2つのオフセットを決定するように構成され、1つのオフセットは、1つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における1つのターゲットの中心点の間のオフセットを表し、
前記第3決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも2つのオフセットに基づいて、前記第1画像内のターゲット間のインタラクション関係を決定するように構成される、前記画像処理装置。
An image processing device,
comprising an extraction unit, a first determination unit, a second determination unit and a third determination unit;
the extraction unit is configured to extract feature data of the first image;
The first determination unit is configured to determine a center point of each interaction keypoint and each target in the first image based on the feature data extracted by the extraction unit, an interaction keypoint is a point on the connecting line within a preset range from the midpoint of the connecting line, the connecting line being the connecting line between the center points of two targets in one interaction action;
The second determination unit is configured to determine at least two offsets based on the feature data extracted by the extraction unit, one offset being an interaction key point in one interaction action and the interaction action. represents the offset between the center points of one target at
The image processing, wherein the third determining unit is configured to determine an interaction relationship between targets in the first image based on each target's center point, the interaction key point and the at least two offsets. Device.
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサによって実行されるときに、請求項1-10のいずれか1項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
A computer readable storage medium having a computer program stored thereon,
Said computer readable storage medium implementing the method of any one of claims 1-10 when said program is executed by a processor.
電子機器であって、
メモリ、プロセッサ、およびメモリに記憶された、コンピュータによって実行可能なコンピュータプログラムを含み、前記プロセッサが、前記プログラムを実行するときに、請求項1-10のいずれか1項に記載の方法を実現する、前記電子機器。
an electronic device,
comprising a memory, a processor, and a computer program executable by a computer stored in the memory, said processor implementing the method of any one of claims 1-10 when executing said program , said electronic device.
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項1-10のいずれか1項に記載の方法を実行させる、前記コンピュータプログラム。
A computer program comprising computer readable code,
Said computer program, causing a processor of said electronic device to perform the method of any one of claims 1-10 when said computer readable code is executed on said electronic device.
JP2021557461A 2019-12-30 2020-09-22 Image processing method, device, storage medium and electronic equipment Active JP7105383B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201911404450.6A CN111104925B (en) 2019-12-30 2019-12-30 Image processing method, image processing apparatus, storage medium, and electronic device
CN201911404450.6 2019-12-30
PCT/CN2020/116889 WO2021135424A1 (en) 2019-12-30 2020-09-22 Image processing method and apparatus, storage medium, and electronic device

Publications (2)

Publication Number Publication Date
JP2022520498A JP2022520498A (en) 2022-03-30
JP7105383B2 true JP7105383B2 (en) 2022-07-22

Family

ID=70424673

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021557461A Active JP7105383B2 (en) 2019-12-30 2020-09-22 Image processing method, device, storage medium and electronic equipment

Country Status (4)

Country Link
JP (1) JP7105383B2 (en)
KR (1) KR102432204B1 (en)
CN (1) CN111104925B (en)
WO (1) WO2021135424A1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104925B (en) * 2019-12-30 2022-03-11 上海商汤临港智能科技有限公司 Image processing method, image processing apparatus, storage medium, and electronic device
CN111695519B (en) * 2020-06-12 2023-08-08 北京百度网讯科技有限公司 Method, device, equipment and storage medium for positioning key point
CN112560726B (en) * 2020-12-22 2023-08-29 阿波罗智联(北京)科技有限公司 Target detection confidence determining method, road side equipment and cloud control platform
CN116258722B (en) * 2023-05-16 2023-08-11 青岛奥维特智能科技有限公司 Intelligent bridge building detection method based on image processing
CN116862980B (en) * 2023-06-12 2024-01-23 上海玉贲智能科技有限公司 Target detection frame position optimization correction method, system, medium and terminal for image edge
CN117523645B (en) * 2024-01-08 2024-03-22 深圳市宗匠科技有限公司 Face key point detection method and device, electronic equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072939A (en) 2016-10-25 2018-05-10 東芝デジタルソリューションズ株式会社 Video processing program, video processing method, and video processing apparatus
US10089556B1 (en) 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
JP2019057836A (en) 2017-09-21 2019-04-11 キヤノン株式会社 Video processing device, video processing method, computer program, and storage medium
JP2019179459A (en) 2018-03-30 2019-10-17 株式会社Preferred Networks Estimation processing device, estimation model generation device, estimation model, estimation method, and program
WO2019235350A1 (en) 2018-06-06 2019-12-12 日本電気株式会社 Information processing system, information processing method, and storage medium

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9870523B2 (en) * 2016-01-26 2018-01-16 Kabushiki Kaisha Toshiba Image forming system and image forming apparatus
CN109726808B (en) * 2017-10-27 2022-12-09 腾讯科技(深圳)有限公司 Neural network training method and device, storage medium and electronic device
CN108268863B (en) * 2018-02-13 2020-12-01 北京市商汤科技开发有限公司 Image processing method and device and computer storage medium
JP2019148865A (en) * 2018-02-26 2019-09-05 パナソニックIpマネジメント株式会社 Identification device, identification method, identification program and non-temporary tangible recording medium recording identification program
CN110532838A (en) * 2018-05-25 2019-12-03 佳能株式会社 Object test equipment and method and storage medium
CN109241835A (en) * 2018-07-27 2019-01-18 上海商汤智能科技有限公司 Image processing method and device, electronic equipment and storage medium
CN109255296A (en) * 2018-08-06 2019-01-22 广东工业大学 A kind of daily Human bodys' response method based on depth convolutional neural networks
KR101969050B1 (en) * 2019-01-16 2019-04-15 주식회사 컨티넘 Pose estimation
CN109685041B (en) * 2019-01-23 2020-05-15 北京市商汤科技开发有限公司 Image analysis method and device, electronic equipment and storage medium
CN110232706B (en) * 2019-06-12 2022-07-29 睿魔智能科技(深圳)有限公司 Multi-person follow shooting method, device, equipment and storage medium
CN110348335B (en) * 2019-06-25 2022-07-12 平安科技(深圳)有限公司 Behavior recognition method and device, terminal equipment and storage medium
CN111104925B (en) * 2019-12-30 2022-03-11 上海商汤临港智能科技有限公司 Image processing method, image processing apparatus, storage medium, and electronic device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018072939A (en) 2016-10-25 2018-05-10 東芝デジタルソリューションズ株式会社 Video processing program, video processing method, and video processing apparatus
US10089556B1 (en) 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
JP2019057836A (en) 2017-09-21 2019-04-11 キヤノン株式会社 Video processing device, video processing method, computer program, and storage medium
JP2019179459A (en) 2018-03-30 2019-10-17 株式会社Preferred Networks Estimation processing device, estimation model generation device, estimation model, estimation method, and program
WO2019235350A1 (en) 2018-06-06 2019-12-12 日本電気株式会社 Information processing system, information processing method, and storage medium

Also Published As

Publication number Publication date
KR20210136138A (en) 2021-11-16
CN111104925B (en) 2022-03-11
WO2021135424A1 (en) 2021-07-08
KR102432204B1 (en) 2022-08-12
CN111104925A (en) 2020-05-05
JP2022520498A (en) 2022-03-30

Similar Documents

Publication Publication Date Title
JP7105383B2 (en) Image processing method, device, storage medium and electronic equipment
CN108875511B (en) Image generation method, device, system and computer storage medium
CN109948497B (en) Object detection method and device and electronic equipment
CN108875510B (en) Image processing method, device, system and computer storage medium
CN108875493B (en) Method and device for determining similarity threshold in face recognition
CN109376631B (en) Loop detection method and device based on neural network
TW201841491A (en) Image focal length detection method and device thereof
CN110969045B (en) Behavior detection method and device, electronic equipment and storage medium
EP3712825A1 (en) Model prediction method and device
JP2005118543A5 (en)
CN112036381B (en) Visual tracking method, video monitoring method and terminal equipment
CN111652054A (en) Joint point detection method, posture recognition method and device
CN113642639B (en) Living body detection method, living body detection device, living body detection equipment and storage medium
CN111753826B (en) Vehicle and license plate association method, device and electronic system
CN112037254A (en) Target tracking method and related device
CN111353325A (en) Key point detection model training method and device
CN111401335B (en) Key point detection method and device and storage medium
CN112132110A (en) Method for intelligently judging human body posture and nursing equipment
JP6713422B2 (en) Learning device, event detection device, learning method, event detection method, program
CN112989932A (en) Improved prototype network-based less-sample forest fire smoke identification method and device
CN110895691B (en) Image processing method and device and electronic equipment
CN115527083B (en) Image annotation method and device and electronic equipment
CN111368624A (en) Loop detection method and device based on generation of countermeasure network
CN116980744B (en) Feature-based camera tracking method and device, electronic equipment and storage medium
US20240144729A1 (en) Generation method and information processing apparatus

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211001

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20211001

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220621

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R150 Certificate of patent or registration of utility model

Ref document number: 7105383

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150