JP7105383B2

JP7105383B2 - 画像処理方法、装置、記憶媒体及び電子機器

Info

Publication number: JP7105383B2
Application number: JP2021557461A
Authority: JP
Inventors: ユエリアオ; フェイワン; イエンジエチェン; チェンチエン; スーリウ
Original assignee: シャンハイセンスタイムリンガンインテリジェントテクノロジーカンパニーリミテッド
Priority date: 2019-12-30
Filing date: 2020-09-22
Publication date: 2022-07-22
Anticipated expiration: 2040-09-22
Also published as: CN111104925B; WO2021135424A1; CN111104925A; KR102432204B1; KR20210136138A; JP2022520498A

Description

［関連出願への相互参照］
本願は、２０１９年１２月３０日に中国特許局に提出された、出願番号が２０１９１１４０４４５０．６である中国特許出願に基づいて提出されるものであり、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が引用によって本願に組み込まれる。
［技術分野］
本発明は、画像処理技術に関し、具体的に、画像処理方法、装置、記憶媒体及び電子機器に関する。

画像内の人と物体との間のインタラクション動作関係を検出するために、通常、最初に検出器を介して画像内の人及び物体を検出し、信頼度が特定の閾値より高い人及び物体を選択し、選択された人と物体とをペアリングして、人－物体ペアを形成し、関係分類ネットワークを介して各人－物体ペアを分類し、動作関係カテゴリを出力する。

上記の処理プロセスでは、検出の信頼度のみを考慮し、人と物体間のインタラクション動作の可能性を考慮しないため、実際のインタラクション動作関係を有する人又は物体を欠落する可能性があり、即ち、実際のインタラクション動作関係を有する人－物体ペアを欠落する可能性があり、実際のインタラクション動作関係を有しない人－物体ペアを大量生成する。また、通常の状況では、１枚の画像にはインタラクション動作関係を有する人と物体が非常に少ないため、画像からＭ人とＮ個の物体を検出した場合、上記の処理方式を採用すれば、Ｍ×Ｎ個の人－物体ペアが生成され、この場合、関係分類ネットワークは、各人－物体ペアに対応する動作関係カテゴリを決定する必要があるため、不要な処理及び消費が増加する。

本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供する。

本発明の実施例は、画像処理方法を提供し、前記方法は、第１画像の特徴データを抽出することと、前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線であることと、前記特徴データに基づいて、少なくとも２つのオフセットを決定することであって、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表すことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む。

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第１画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定することとを含み、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することを含む。

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含み、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することを含む。

本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することと、各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む。

本発明のいくつかの例示的な実施例において、前記各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する１つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する２つのターゲットの信頼度とを乗算して、第１信頼度を取得することであって、前記第１信頼度は、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、前記第１信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第１信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。

本発明のいくつかの例示的な実施例において、前記方法は、１つのインタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する２つのターゲット間にインタラクション関係がないと決定することを更に含む。

本発明のいくつかの例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することは、１つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。

本発明のいくつかの例示的な実施例において、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第１画像のヒットマップを取得することと、前記ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含み、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。

本発明のいくつかの例示的な実施例において、前記画像処理方法は、ニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。

本発明のいくつかの例示的な実施例において、サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも２つのオフセットを予測することと、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも２つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む。

本発明の実施例は、画像処理装置を更に提供し、前記装置は、抽出ユニット、第１決定ユニット、第２決定ユニット及び第３決定ユニットを備え、ここで、
前記抽出ユニットは、第１画像の特徴データを抽出するように構成され、
前記第１決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第１画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線であり、
前記第２決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも２つのオフセットを決定するように構成され、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表し、
前記第３決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第１決定ユニットは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第１画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第３決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第１決定ユニットは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第３決定ユニットは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第３決定ユニットは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定し、各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第３決定ユニットは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する１つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する２つのターゲットの信頼度とを乗算して、第１信頼度を取得し、ここで、前記第１信頼度は、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第１信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第１信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第３決定ユニットは更に、１つのインタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する２つのターゲット間にインタラクション関係がないと決定するように構成される。

本発明のいくつかの例示的な実施例において、前記第３決定ユニットは、１つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。

本発明のいくつかの例示的な実施例において、前記第１決定ユニットは、前記特徴データをダウンサンプリングして前記第１画像のヒットマップを取得し、前記ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定するように構成され、前記第１決定ユニットは更に、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定した後、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。

本発明のいくつかの例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。

本発明のいくつかの例示的な実施例において、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニットを備え、前記トレーニングユニットは、具体的には、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも２つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも２つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を更に提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の方法のステップを実現する。

本発明の実施例は、電子機器を更に提供し、前記電子機器は、メモリと、プロセッサと、メモリに記憶された、コンピュータによって実行可能なコンピュータプログラムと、を備え、前記プロセッサが前記プログラムを実行するときに、本発明の実施例に記載の方法のステップを実現する。

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを更に提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の方法のステップを実行させる。

本発明の実施例は、画像処理方法、装置、記憶媒体及び電子機器を提供し、前記方法は、第１画像の特徴データを抽出することと、前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線である、ことと、前記特徴データに基づいて、少なくとも２つのオフセットを決定することであって、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表す、ことと、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む。本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも２つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づき、前記第１画像内のターゲット間のインタラクション関係を決定することにより、人－物体ペアを生成する必要もなく、人－物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人－物体ペアを欠落するという問題も回避することができる。更に、最初に人及び物体を検出し、次に人と物体とをのペアリングした後、関係分類ネットワークを介して各人－物体ペアに対して分類検出を実行する従来の方式と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。

本発明の実施例に係る画像処理方法の例示的なフローチャートである。本発明の実施例に係る画像処理方法の応用の概略図である。本発明の実施例に係る画像処理方法の別の応用の概略図である。本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートである。本発明の実施例に係る画像処理装置の構成の第１概略構造図である。本発明の実施例に係る画像処理装置の構成の第２概略構造図である。本発明の実施例に係る電子機器のハードウェア構成の概略構造図である。

以下、図面および具体的な実施例を参照して、本発明をさらに詳細に説明する。

本発明の実施例は、画像処理方法を提供する。図１は、本発明の実施例に係る画像処理方法の例示的なフローチャートであり、図１に示されたように、前記画像処理方法は、次のステップを含む。

ステップ１０１において、第１画像の特徴データを抽出する。

ステップ１０２において、前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定し、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線である。

ステップ１０３において、前記特徴データに基づいて、少なくとも２つのオフセットを決定し、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表す。

ステップ１０４において、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定する。

本実施例では、第１画像は複数のターゲットを含み得、ここで、前記複数のターゲットの各ターゲット間にはインタラクション関係を有しない可能性があるか、又は、前記複数のターゲットは、インタラクション関係を有する少なくとも１つのグループのターゲットを含み得る。ここで、前記インタラクション関係を有するターゲットは、具体的には、少なくとも２つのターゲットであり、例示的に、前記少なくとも２つのターゲットは、少なくとも、１つのターゲット人物を有する。例えば、インタラクション関係を有する２つのターゲットは、インタラクション関係を有する２つのターゲット人物であるか、又は、インタラクション関係を有する２つのターゲットは、インタラクション関係を有する１つのターゲット人物と１つのターゲット物体である。理解できることとして、前記インタラクション関係を有する少なくとも２つのターゲットは、具体的には、インタラクション動作に関する２つのターゲットであってもよく、ここで、前記インタラクション動作に関する２つのターゲットは、直接インタラクション動作又は暗黙的なインタラクション動作に関する２つのターゲットであってもよい。一例として、第１画像に含まれたターゲット人物がタバコを手に持っている場合、当該ターゲット人物とターゲット物体であるタバコとの間には、直接動作関係があると見なすことができ、この例では、ターゲット人物とターゲットオブジェクトとの間には、直接動作関係がある。別の例として、第１画像に含まれるターゲット人物がボールを打ち、ターゲット人物が打ち動作を行い、ボールがターゲット人物の手の下の空中にある場合、当該ターゲット人物とターゲット物体であるボールとの間には、暗黙の動作関係があると見なすことができる。

本発明の実施例に係る画像処理方法において、画像内のターゲットがインタラクション関係を有するかどうかを決定する場合、ターゲットの中心点及びインタラクションキーポイントを決定するステップ（点を検出するステップ）と、オフセットを決定するステップ（点をマッチングするステップ）とを同時に実行することができ、その後、決定されたオフセット、決定された中心点、及びインタラクションキーポイントに従って、インタラクション関係を有するターゲット及びそのインタラクション動作カテゴリを最終的に決定し、それにより、インタラクション関係検出効率を向上させる。

本発明の一例示的な実施例において、ステップ１０１について、前記第１画像の特徴データを抽出することは、深層ニューラルネットワークモデルを介して、前記第１画像の特徴データを抽出することを含む。例示的に、第１画像を入力データとして深層ニューラルネットワークモデルに入力して、前記第１画像の特徴データを取得する。ここで、理解できることとして、深層ニューラルネットワークモデルは、複数の畳み込み層を含み得、各畳み込み層を介して第１画像に対して畳み込み処理を順次実行することにより、第１画像の特徴データを取得する。

本実施例では、事前トレーニングによって得られた第１ブランチネットワークを介してステップ１０２を実行でき、即ち、第１ブランチネットワークを介して、前記特徴データに基づいて、各ターゲットの中心点及び各インタラクションキーポイントを決定する。理解できることとして、前記第１画像の特徴データを入力データとして前記第１ブランチネットワークに入力することにより、前記第１画像内の各ターゲットの中心点及び各インタラクションキーポイントを取得する。例えば、第１画像に含まれるターゲットがすべてターゲット人物である場合、前記第１ブランチネットワークを介して、前記特徴データを処理して、各ターゲット人物の中心点及び各インタラクションキーポイントを取得する。別の例では、第１画像に含まれるターゲットがターゲット人物及びターゲット物体を含む場合、前記第１ブランチネットワークを介して、前記特徴データを処理して、ターゲット人物の中心点、ターゲット物体の中心点及び各インタラクションキーポイントを取得する。

ここで、いくつかの実施例において、ターゲットの中心点の後、第１ブランチネットワークは、ターゲットの検出ボックスの長さと幅を回帰し、ターゲットの検出ボックスは、ターゲットの中心点及びターゲットの検出ボックスの長さと幅に従って決定される。図２に示されたように、第１画像は、２つのターゲット人物及び２つのターゲット物体（２つのターゲット物体は２つのボールである）を含み、両者を区別するために、ターゲット人物の中心点を第１中心点として記録し、ターゲット物体の中心点を第２中心点として記録する。

ここで、いくつかの実施例において、インタラクションキーポイントは、１つのインタラクション動作における２つのターゲットの中心点間の連結線において、当該連結線の中点からプリセットされた範囲内の点である。一例として、前記インタラクションキーポイントは、１つのインタラクション動作における２つのターゲットの中心点の連結線の中点であってもよい。図２に示されたように、１つのインタラクションキーポイントは、１つのインタラクション動作におけるターゲット人物の第１中心点とターゲット物体の第２中心点の連結線の中点であってもよい。

本実施例では、事前トレーニングによって得られた第２ブランチネットワークを介してステップ１０３を実行することができ、即ち、第２ブランチネットワークを介して、前記特徴データに基づいて、少なくとも２つのオフセットを決定することができる。ここで、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表す。理解できることとして、第１画像の特徴データを入力データとして前記第２ブランチネットワークに入力することにより、第１画像内の各点の少なくとも２つのオフセットを取得する。

実際の応用では、各点に対応する少なくとも２つのオフセットはオフセット行列で表すことができる。ステップ１０２で決定された各インタラクションキーポイントに基づいて、各インタラクションキーポイントに対応する少なくとも２つのオフセットを決定することができる。いくつかの実施例において、各インタラクションキーポイントの座標、及び各点に対応するオフセット行列に従って、各インタラクションキーポイントに対応する少なくとも２つのオフセットを決定することができる。

図２に示されたように、例示的に、１つのオフセットは、インタラクション動作におけるインタラクションキーポイントと第１中心点の間のオフセットを表し、もう１つのオフセットは、前記インタラクション動作におけるインタラクションキーポイントと第２中心点の間のオフセットを表し、両者を区別するために、インタラクション動作におけるインタラクションキーポイントと第１中心点の間のオフセットを第１オフセットとして記録し、前記インタラクション動作におけるインタラクションキーポイントと第２中心点の間のオフセットを第２オフセットとして記録し、この例では、第１オフセットは、インタラクション動作におけるインタラクションキーポイントと第１中心点の間のオフセットを表し、第２オフセットは、インタラクション動作におけるインタラクションキーポイントと第２中心点の間のオフセットを表す。もちろん、他の例において、２つのターゲットをそれぞれ第１ターゲット及び第２ターゲットに記録することもでき、この場合、第１オフセットは、インタラクション動作におけるインタラクションキーポイントと第１ターゲットの中心点の間のオフセットを表し、第２オフセットは、インタラクション動作におけるインタラクションキーポイントと第２ターゲットの中心点の間のオフセットを表す。

本実施例では、ステップ１０４について、前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することと、各インタラクションキーポイントに対応する２つのターゲットに従って、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む。

本実施例では、ステップ１０３で決定された少なくとも２つのオフセットは、インタラクション動作（即ち、インタラクション関係）に関する少なくとも２つのターゲットを決定するために使用される。ステップ１０２で決定された各ターゲットの中心点及び各インタラクションキーポイントを通して、インタラクション動作に関するターゲットを知ることはできない。これに基づいて、本実施例では、各インタラクションキーポイントに対応する２つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定する。

例示的に、任意のインタラクションキーポイント（ここでは第１インタラクションキーポイントとして記録する）を例にとると、第１インタラクションキーポイントの位置及び当該第１インタラクションキーポイントに対応する１つのオフセット（例えば、第１オフセット）に基づいて、第１位置を決定することができ、前記第１位置は、理論的には、第１インタラクションキーポイントと一致する１つのターゲットの中心点（例えば、第１中心点）の位置として使用でき、ここで、前記第１位置を第１予測中心点として記録する。同様に、第１インタラクションキーポイントの位置及び当該第１インタラクションキーポイントに対応する別のオフセット（例えば、第２オフセット）に基づいて、第２位置を決定することができ、ここで、前記第２位置を第２予測中心点として記録する。

さらに、中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第１ターゲットの中心点と上記の第１予測中心点との間の距離がプリセットされた距離閾値より小さく、第２ターゲットの中心点と上記の第２プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第１ターゲット及び前記第２ターゲットが、上記の第１インタラクションキーポイントに対応する２つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、１つのインタラクションキーポイントに対応するターゲットが２つ又は２つ以上存在する可能性がある。

本実施例では、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、当該インタラクションキーポイントに対応する少なくとも２つのターゲット間のインタラクション関係を決定することができる。理解できることとして、第１ブランチネットワークを介して特徴データを処理して、第１画像内の各インタラクションキーポイントを取得する場合、各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度も取得することができ、前記プリセットされたインタラクション動作カテゴリの信頼度に基づいて、少なくとも２つのターゲット間のインタラクション関係を決定することができる。

本発明の実施例の技術的解決策を採用すると、インタラクション動作に関するインタラクションキーポイントを定義し、インタラクションキーポイントに関連する少なくとも２つのオフセットを決定し、更に、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づき、前記第１画像内のターゲット間のインタラクション関係を決定することにより、人－物体ペアを生成する必要もなく、人－物体ペアを用いてインタラクション動作検出を実行することにより引き起こされる、実際のインタラクション関係を有する人－物体ペアを欠落するという問題も回避することができる。本実施例は、インタラクション関係を有するターゲットを直接取得するため、関係分類ネットワークを介して各人－物体ペアに対して分類検出を実行する従来の方法と比較すると、本実施例は、検出速度を大幅に向上させ、検出効率を向上させる。

以下、図１に示される画像処理方法の各ステップについて詳細に説明する。

本発明の一例示的な実施例において、ステップ１０２について、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定することは、前記特徴データをダウンサンプリングして前記第１画像のヒットマップを取得することと、前記ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、を含む。前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む。

本実施例では、前記第１画像の特徴データをダウンサンプリング処理し、前記ダウンサンプリング処理は、例えば、特徴データを含む特徴マップに対して画像縮小処理を実行すること、即ち、特徴マップのサイズを縮小することであり得、これにより、ダウンサンプリング後に取得されたヒットマップ内の各点と第１画像内の各点は、１対１で対応しない。例えば、第１画像のサイズは１２８ｘ１２８であり、第１画像内のターゲット人物の中心点は（１０，１０）であるが、ヒットマップはダウンサンプリングによって取得されたものであるため、３２ｘ３２に４倍ダウンサンプリングすると、ターゲット人物の中心点は（１０／４、１０／４）＝（２．５、２．５）にマッピングされるが、ヒットマップにおける点の座標は整数であるため、ヒットマップにおいて予測されるターゲット人物の中心点は、座標の小数点以下を切り捨てた点であり、即ち、座標は（２、２）である。つまり、ダウンサンプリングすると、ターゲット人物の中心点の位置の位置オフセットが発生する。

したがって、第１ブランチネットワークを介して、前記特徴データを処理することができ、具体的には、まず、特徴データが含まれた特徴マップをダウンサンプリングしてヒットマップ（Ｈｅａｔｍａｐ）を取得し、その後、ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することができる。理解できることとして、特徴データを第１ブランチネットワークの入力データとして使用し、特徴データをダウンサンプリングすることによりヒットマップを取得した後、第１ブランチネットワークは、ヒットマップに基づいて、第１画像内の各点の位置オフセット（ｏｆｆｓｅｔ）、第１画像内の各ターゲットの中心点、各ターゲットの検出ボックスの高さと幅［ｈｅｉｇｈｔ、ｗｉｄｔｈ］及び各ターゲットが各カテゴリに属する信頼度、及び第１画像内の各インタラクションキーポイント及び各インタラクションキーポイントが各プリセットされたインタラクション動作カテゴリに属する信頼度を決定する。

本実施例では、いくつかの実施例において、前記特徴データに基づいて、前記第１画像内の各点の位置オフセットを決定した後、インタラクション関係を有するターゲットの中心点の位置オフセットに基づいて、当該中心点の位置を補正することができる。例示的に、取得されたターゲットの中心点と対応する位置オフセットを加算して、補正後のターゲットの中心点の位置を取得することができる。これに対応して、ターゲットの中心点の補正後の位置及び検出ボックスの高さと幅に従って、当該ターゲットの検出ボックスを取得することにより、インタラクション関係を有するターゲットの検出ボックスを出力する。

例示的に、図２を参照すると、図２の第１中心点は補正後の位置であり、当該第１中心点を通る垂直の点線は、検出ボックスの高さ（ｈｅｉｇｈｔ）を示し、当該第１中心点を通る水平の点線は、検出ボックスの幅（ｗｉｄｔｈ）を示す。

本発明の一例示的な実施例において、ステップ１０２について、前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、前記特徴データに基づいて、前記第１画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点に基づいて、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度、前記第１画像内のターゲット間のインタラクション関係を決定することを含む。

本実施例では、第１ブランチネットワークを介して特徴データを処理することができ、例示的に、第１ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第１画像内の各ターゲットの中心点及び各ターゲットの信頼度を取得することができ、ここで、前記ターゲットの信頼度は、前記第１画像に前記ターゲットがある信頼度であってもよい。これに対応して、第１ブランチネットワークの複数の畳み込み層を介して特徴データに対して畳み込み処理を実行して、第１画像内の各インタラクションキーポイント及び各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度を取得することもでき、ここで、前記プリセットされたインタラクション動作カテゴリは、事前に設定された任意のインタラクション動作カテゴリ、例えば、喫煙インタラクション動作、ボールを打つインタラクション動作などであってもよい。さらに、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定する。

これに基づいて、本発明の一例示的な実施例において、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することを含む。前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することを含む。

本実施例では、第１ブランチネットワークを介して特徴データを処理することができ、例示的に、第１ブランチネットワークの複数の畳み込み層を介して、特徴データに対して畳み込み処理を実行して、第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を取得することができる。ここで、第１画像内のターゲットが属するカテゴリは、人、車両、ボールなどの任意のカテゴリを含み得、前記ターゲットが各カテゴリに属する信頼度は、前記第１画像の前記ターゲットが当該カテゴリに属する信頼度であり、すなわち、第１画像内の特定の位置に特定のカテゴリに属するターゲットがある信頼度である。本実施例では、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定する。

本発明の一例示的な実施例において、前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定することと、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定することと、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することと、各インタラクションキーポイントに対応する２つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む。

本実施例では、任意のインタラクションキーポイント（ここでは第１インタラクションキーポイントとして記録する）を例にとると、第１インタラクションキーポイントの位置及び当該第１インタラクションキーポイントに対応する１つのオフセット（例えば、第１オフセット）に基づいて第１位置を決定することができ、ここで、前記第１位置を第１予測中心点として記録する。同様に、第１インタラクションキーポイントの位置及び当該第１インタラクションキーポイントに対応する別のオフセット（例えば、第２オフセット）に基づいて第２位置を決定することができ、ここで、前記第２位置を第２予測中心点として記録する。

さらに、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に基づいて、各インタラクションキーポイントに対応する２つのターゲットを決定し、各インタラクションキーポイントに対応する２つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定する。

本発明の一例示的な実施例において、前記各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することは、１つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む。

本実施例では、ターゲットの中心点と取得された予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、当該予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用する。例示的に、第１ターゲットの中心点と上記の第１予測中心点との間の距離がプリセットされた距離閾値より小さく、第２ターゲットの中心点と上記の第２プリセットされた中心点との間の距離が前記プリセットされた距離閾値より小さい場合、前記第１ターゲット及び前記第２ターゲットが、上記の第１インタラクションキーポイントに対応する２つのターゲットであることを示し得る。理解できることとして、特定の予測中心点との距離がプリセットされた距離閾値より小さいターゲットの中心点の数が複数である場合があり、つまり、１つのインタラクションキーポイントに対応するターゲットが２つ又は２つ以上存在する可能性がある。さらに、各インタラクションキーポイントに対応する少なくとも２つのターゲット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定する。

本発明の一例示的な実施例において、前記各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することは、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する１つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する２つのターゲットが対応するカテゴリに属する信頼度とを乗算して、第１信頼度を取得することであって、前記第１信頼度は、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、対応するカテゴリとは、２つのターゲット間のインタラクションがプリセットされたインタラクション動作カテゴリに属する場合、２つのターゲットが属するカテゴリを指す（例えば、プリセットされた動作カテゴリがバレーボールである場合、１つのターゲットが属する対応するカテゴリは人であり、もう１つのターゲットが属する対応するカテゴリはボールであり、プリセットされた動作カテゴリが電話を掛けることである場合、１つのターゲットが属する対応するカテゴリは人であり、もう１つのターゲットが属する対応するカテゴリは電話である）ことと、前記第１信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、前記第１信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む。

本発明の一例示的な実施例において、前記画像処理方法は、１つのインタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する２つのターゲット間にインタラクション関係がないと決定することを更に含む。

本実施例では、１つのインタラクションキーポイントが少なくとも２つのターゲットに対応し、複数のターゲット間のインタラクション関係を決定するプロセスでは、まず、上記の技術案を採用して、複数のターゲットのうちの２つのターゲット間のインタラクション関係を決定し、当該２つのターゲット間のインタラクション関係が、対応するインタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属するかどうかを決定することができる。例えば、１つのインタラクションキーポイントに対応する３つのターゲットがあり、それぞれ、ターゲット１、ターゲット２及びターゲット３と記録し、この場合、上記の技術案を採用して、ターゲット１とターゲット２の間のインタラクション関係、ターゲット２とターゲット３の間のインタラクション関係、及びターゲット３とターゲット１の間のインタラクション関係をそれぞれ決定することができる。

図３は、本発明の実施例に係る画像処理方法の別の応用の概略図であり、図３に示されたように、ニューラルネットワークは、特徴抽出ネットワーク、第１ブランチネットワーク及び第２ブランチネットワークを含み得、ここで、特徴抽出ネットワークは、入力画像に対して特徴抽出を実行して、特徴データを取得するために使用される。第１ブランチネットワークは、特徴データをダウンサンプリングしてヒットマップを取得し、その後、ヒットマップに従って入力画像内の各ターゲットの中心点及び各インタラクションキーポイントを決定し、各点の位置オフセット（ｏｆｆｓｅｔ）及び各ターゲットの検出ボックスの高さと幅［高さ，幅］、各ターゲットがカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得するために使用される。第２ブランチネットワークは、特徴データを処理して入力画像内の各点の少なくとも２つのオフセットを取得するために使用され、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表す。

一実施形態において、第１ブランチネットワークを介して、特徴データを含む特徴マップをダウンサンプリングして、ヒットマップを取得する。この例の入力画像内のターゲットがターゲット人物及びターゲット物体を含むことを例にとると、両者を区別するために、ターゲット人物の中心点を第１中心点として記録し、ターゲット物体の中心点を第２中心点として記録すると、第１中心点を含む第１ヒットマップ、第２中心点を含む第２ヒットマップ及び各インタラクションキーポイントを含む第３ヒットマップをそれぞれ取得することができる。つまり、第１ブランチネットワークの出力データは、上記の第１ヒットマップ、第２ヒットマップ、第３ヒットマップ、入力画像内の各点の位置オフセット、及びターゲット人物及びターゲット物体の検出ボックスの高さと幅を含み得る。

具体的には、第１ブランチネットワークを介して、各ターゲットの中心点及びそのカテゴリ、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を取得することもできる。

一実施形態において、第２ブランチネットワークを介して、特徴データを含む特徴マップを処理して、各インタラクションキーポイントに対応する２つのオフセットを取得し、両者を区別するために、インタラクションキーポイントとインタラクション動作におけるターゲット人物の第１中心点との間のオフセットを第１オフセットとして記録し、インタラクションキーポイントとインタラクション動作におけるターゲット物体の第２中心点との間のオフセットを第２オフセットとして記録する。

１つのインタラクションキーポイント及び当該インタラクションキーポイントに対応する第１オフセット及び第２オフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点（それぞれ第１予測中心点及び第２予測中心点として記録する）を決定し、第１予測中心点について、各第１中心点と第１予測中心点との距離をそれぞれ決定し、当該第１予測中心点との距離がプリセットされた距離閾値より小さい第１中心点を決定する。これに対応して、第２予測中心点について、各第２中心点と第２予測中心点との距離をそれぞれ決定し、当該第２予測中心点との距離がプリセットされた距離閾値より小さい第２中心点を決定する。

図３における２つのインタラクションキーポイントについて、各インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリの信頼度と、前記インタラクションキーポイントに対応するターゲット人物の信頼度及びターゲット物体の信頼度とをそれぞれ乗算して、第１信頼度を取得し、第１信頼度が信頼度閾値お超える場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属すると決定し、第１信頼度が信頼度閾値を超えない場合、当該インタラクションキーポイントに対応するターゲット人物とターゲット物体との間のインタラクション関係が前記インタラクションキーポイントに対応するプリセットされたインタラクション動作カテゴリに属しないと決定する。

この例では、第１ブランチネットワークによって出力された入力画像内の各点の位置オフセットに基づいて、ターゲット人物の第１中心点及びターゲット物体の第２中心点の位置を補正して、インタラクション関係を有するターゲット人物の第１中心点の補正後の位置、及びターゲット物体の第２中心点の補正後の位置を取得し、入力画像においてインタラクション関係を有するターゲット人物の第１中心点の補正後の位置及びその検出ボックスの高さと幅［高さ、幅］、ターゲット物体の第２中心点の補正後の位置及びその検出ボックスの高さと幅［高さ、幅］に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定する。ニューラルネットワークの出力結果は、ターゲット人物の第１中心点の補正後の位置及びその対応する検出ボックス、ターゲット物体の第２中心点の補正後の位置及びその対応する検出ボックス、及びターゲット人物とターゲット物体のインタラクション関係（即ち、インタラクション動作カテゴリ）を含む。入力画像においてインタラクション関係を有しないターゲットの場合、検出ボックスを出力しない。

本発明の一例示的な実施例において、本実施例の前記画像処理方法はニューラルネットワークによって実行され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点（即ち、ターゲットの検出ボックスの中心）及びマークされたインタラクションキーポイント（インタラクション関係を有するターゲットの検出ボックスの中心の連結線の中点）は、マークされた検出ボックスに従って決定され、マークされたオフセットは、サンプル画像のサイズ及びサンプル画像に従って決定されたヒットマップのサイズに従って決定される。これに基づいて、本発明の実施例は、ニューラルネットワークのトレーニング方法を更に提供する。図４は、本発明の実施例に係る画像処理方法におけるニューラルネットワークのトレーニング方法の例示的なフローチャートであり、図４に示されたように、前記方法は、次のステップを含む。

ステップ２０１において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出する。

ステップ２０２において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得する。

ステップ２０３において、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測する。

ステップ２０４において、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも２つのオフセットを予測する。

ステップ２０５において、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも２つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測する。

ステップ２０６において、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整する。

本実施例のステップ２０１～ステップ２０５の詳細については、上記の実施例を参照でき、ここでは繰り返して説明しない。

本実施例ステップ２０６では、いくつかの実施例において、ニューラルネットワークの第１ブランチネットワークについて、予測されたサンプル画像においてインタラクション関係を有するターゲットの予測された中心点、予測された検出ボックスの高さと幅、及び予測されたインタラクションキーポイント、及びインタラクション関係を有するターゲットのマークされた検出ボックスとマークされた位置オフセットに従って、１つの損失関数を決定でき、当該損失関数に基づいて第１ブランチネットワークのネットワークパラメータを調整することができる。

いくつかの実施例において、ニューラルネットワークの第２ブランチネットワークについて、インタラクションキーポイントに対応する予測されたオフセット及びマークされたオフセットに従って、１つの損失関数を決定でき、当該損失関数に基づいて第２ブランチネットワークのネットワークパラメータを調整することができる。

いくつかの実施例において、予測された位置オフセット及びマークされた位置オフセットに基づいて１つの損失関数を決定し、当該損失関数を介して、特徴データを含む特徴マップをダウンサンプリングすることによる位置オフセットを補正することで、ダウンサンプリングのよる損失を最小限に抑えることにより、取得された各点の位置オフセット（ｏｆｆｓｅｔ）をより正確にすることができる。これに基づいて、当該損失関数を介して第１ブランチネットワークのネットワークパラメータを調整する。

本実施例では、前述した各実施例におけるパラメータ調整方式を用いて、ニューラルネットワークのネットワークパラメータ値を調整することができる。

本発明の実施例は、画像処理装置を更に提供する。図５は、本発明の実施例に係る画像処理装置の構成の第１概略構造図であり、図５に示されたように、前記装置は、抽出ユニット４１、第１決定ユニット４２、第２決定ユニット４３及び第３決定ユニット４４を備え、ここで、
前記抽出ユニット４１は、第１画像の特徴データを抽出するように構成され、
前記第１決定ユニット４２は、前記抽出ユニット４１によって抽出された前記特徴データに基づいて、前記第１画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線であり、
前記第２決定ユニット４３は、前記抽出ユニット４１によって抽出された前記特徴データに基づいて、少なくとも２つのオフセットを決定するように構成され、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表し、
前記第３決定ユニット４４は、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明の一例示的な実施例において、前記第１決定ユニット４２は、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定し、前記特徴データに基づいて、前記第１画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各インタラクション動作カテゴリの信頼度を決定するように構成され、
前記第３決定ユニット４４は、各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明の一例示的な実施例において、前記第１決定ユニット４２は、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各プリセットされたカテゴリに属する信頼度を決定するように構成され、
前記第３決定ユニット４４は、各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各プリセットされたカテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明の一例示的な実施例において、前記第３決定ユニット４４は、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定し、前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定し、各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定し、各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される。

本発明の一例示的な実施例において、前記第３決定ユニット４４は、１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する１つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する２つのターゲットの信頼度とを乗算して、第１信頼度を取得し、ここで、前記第１信頼度は、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記インタラクション動作カテゴリに属する信頼度であり、前記第１信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定し、前記第１信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定するように構成される。

本発明の一例示的な実施例において、前記第３決定ユニット４４は更に、１つのインタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する２つのターゲット間にインタラクション関係がないと決定するように構成される。

本発明の一例示的な実施例において、前記第３決定ユニット４４は、１つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定し、中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用するように構成される。

本発明の一例示的な実施例において、前記第１決定ユニット４２は、前記特徴データをダウンサンプリングして前記第１画像のヒットマップを取得し、前記ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定ように構成され、前記第１決定ユニット４２は更に、前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定した後、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得し、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定するように構成される。

本発明の一例示的な実施例において、前記画像処理装置の各機能ユニットは、ニューラルネットワークで実現され、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される。

本発明の一例示的な実施例において、図６に示されたように、前記装置は更に、サンプル画像を用いて前記ニューラルネットワークをトレーニングするように構成されるトレーニングユニット４５を備え、前記トレーニングユニット４５は、具体的に、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得し、前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測し、前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて少なくとも２つのオフセットを予測し、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも２つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測し、予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整するように構成される。

本発明の実施例では、前記装置の抽出ユニット４１、第１決定ユニット４２、第２決定ユニット４３、第３決定ユニット４４及びトレーニングユニット４５は、実際の応用ではすべて前記装置の中央処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、デジタル信号プロセッサ（ＤＳＰ：ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、マイクロコントローラユニット（ＭＣＵ：ＭｉｃｒｏｃｏｎｔｒｏｌｌｅｒＵｎｉｔ）又はフィールド（ＦＰＧＡ、Ｆｉｅｌｄ－ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）で実現できる。

上記の実施例に係る画像処理装置が画像処理を実行することについて、上述の各プログラムモジュールの分割のみを例に挙げて説明しているが、実際の応用では、必要に応じて、上述の処理を異なるプログラムモジュールに割り当てて完了することができ、即ち、装置の内部構造を異なるプログラムモジュールに分割して、上記の処理の全てまたは一部を完了することができることに留意されたい。なお、上述の実施例で提供される画像処理装置の実施例は、画像処理方法の実施例と同じ構想に属し、その具体的な実現プロセスについては、方法の実施例を参照でき、ここでは繰り返して説明しない。

本発明の実施例は、電子機器を更に提供する。図７は、本発明の実施例に係る電子機器のハードウェアの構成の概略構造図であり、図７に示されたように、前記電子機器は、メモリ５２と、プロセッサ５１と、メモリ５２に記憶された、プロセッサ５１によって実行可能なコンピュータプログラムとを備え、前記プロセッサ５１は、前記プログラムを実行するときに、本発明の実施例に記載の画像処理方法のステップを実行する。

例示的に、電子機器の各コンポーネントは、バスシステム５３を介して結合される。バスシステム５３は、これらのコンポーネント間の接続通信を具現するために使用されることを理解されたい。データバスに加えて、バスシステム５３は、電力バス、制御バスおよび状態信号バスをさらに備える。しかしながら、説明を明確にするために、図７では様々なバスをすべてバスシステム５３として表記する。

メモリ５２は、揮発性メモリまたは不揮発性メモリであってもよいし、揮発性および不揮発性メモリの両方を含んでもよいことを理解されたい。ここで、不揮発性メモリは、読み取り専用メモリ（ＲＯＭ：Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、プログラム可能な読み取り専用メモリ（ＰＲＯＭ：ＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ：ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、電気的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ：ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、強磁性ランダムアクセスメモリ（ＦＲＡＭ：ＦｅｒｒｏｍａｇｎｅｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）フラッシュメモリ（ＦｌａｓｈＭｅｍｏｒｙ）、磁気メモリ、コンパクトディスク、または読み取り専用コンパクトディスク（ＣＤ－ＲＯＭ：ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）であり得、磁気メモリは、磁気ディスクメモリまたは磁気テープメモリであり得る。揮発性メモリは、外部キャッシュとして使用されるランダムアクセスメモリ（ＲＡＭ：ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であってもよい。例示的であるが限定的な説明ではないが、例えば、スタティックランダムアクセスメモリ（ＳＲＡＭ：ＳｔａｔｉｃＲＡＭ）、同期スタティックランダムアクセスメモリ（ＳＳＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ：ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、同期ダイナミックランダムアクセスメモリ（ＳＤＲＡＭ：ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダブルデータレートの同期ダイナミックランダムアクセスメモリ（ＤＤＲＳＤＲＡＭ：ＤｏｕｂｌｅＤａｔａＲａｔｅＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、強化された同期ダイナミックランダムアクセスメモリ（ＥＳＤＲＡＭ：ＥｎｈａｎｃｅｄＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ダイナミックランダムアクセスメモリの同期接続（ＳＬＤＲＡＭ：ＳｙｎｃＬｉｎｋＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびダイレクトメモリバスランダムアクセスメモリ（ＤＲＲＡＭ：ＤｉｒｅｃｔＲａｍｂｕｓＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）など様々な形のＲＡＭを使用することができる。本発明の実施例に記載のメモリ５２は、これらおよび任意の他の適切なタイプのメモリを含むが、これらに限定されないことを意図する。
上記の本発明の実施例で開示された方法は、プロセッサ５１に適用されてもよく、またはプロセッサ５１によって実現されてもよい。プロセッサ５１は、信号処理機能を備える集積回路チップであり得る。具現プロセスにおいて、上記した方法の各ステップは、プロセッサ５１におけるハードウェアの集積論理回路またはソフトウェアの形の命令を介して完了されることができる。上記のプロセッサ５１は、汎用プロセッサ、ＤＳＰ、または他のプログラマブルロジックデバイス、ディスクリートゲートまたはトランジスタロジックデバイス、ディスクリートハードウェアコンポーネントなどであってもよい。プロセッサ５１は、本発明の実施例で開示された各方法、ステップおよび論理ブロック図を実現または実行することができる。汎用プロセッサは、マイクロプロセッサであってもよいし、任意の従来のプロセッサなどであってもよい。本発明の実施例を組み合たせて開示された方法のステップは、直接に、ハードウェア復号化プロセッサによって実行されて完了すると具現されることができ、または復号化プロセッサにおけるハードウェアおよびソフトウェアモジュールの組み合わせによって実行して完了する。ソフトウェアモジュールは記憶媒体に配置されることができ、当該記憶媒体は、メモリ５２に配置され、プロセッサ５１は、メモリ５２内の情報を読み取り、そのハードウェアと組み合わせて前記方法のステップを完成する。

例示的な実施例において、電子機器は、上記の方法を実行するために、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ：ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、デジタル信号プロセッサ（ＤＳＰ）、プログラマブルロジックデバイス（ＰＬＤ）、複合プログラマブルロジックデバイス（ＣＰＬＤ：ＣｏｍｐｌｅｘＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）、ＦＰＧＡ、汎用プロセッサ、コントローラ、ＭＣＵ、マイクロプロセッサ（Ｍｉｃｒｏｐｒｏｃｅｓｓｏｒ）または他の電子素子によって実現されることができる。

例示的な実施例において、本発明の実施例は、コンピュータプログラム命令を含むメモリ５２などの不揮発性コンピュータ可読記憶媒体を更に提供し、上述のコンピュータプログラムは、電子機器のプロセッサ５１によって実行されて上記の方法を完了することができる。コンピュータ記憶媒体は、ＦＲＡＭ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦｌａｓｈＭｅｍｏｒｙ、磁気表面メモリ、光ディスク、またはＣＤ－ＲＯＭなどのメモリであってもよいし、上記のメモリのうちの１つ又は任意に組み合わせた様々な機器であってもよい。

本発明の実施例は、コンピュータプログラムが記憶されているコンピュータ可読記憶媒体を提供し、当該プログラムがプロセッサによって実行されるときに、本発明の実施例に記載の画像処理方法のステップを実現する。

本発明の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードが電子機器によって実行されるときに、前記電子機器のプロセッサに、本発明の実施例に記載の画像処理方法のステップを実行させる。

本願で提供されるいくつかの方法の実施例に開示された方法は、競合することなく任意に組み合わせて、新しい方法の実施例を取得することができる。

本願で提供されるいくつかの製品の実施例に開示された技術的特徴は、競合することなく任意に組み合わせて、新しい製品の実施例を取得することができる。

本願で提供されるいくつかの方法又は機器の実施例に開示された特徴は、競合することなく任意に組み合わせて、新しい方法の実施例又は機器の実施例を取得することができる。

本願で提供されたいくつかの実施例において、開示された機器及び方法は、他の方式で実現できることを理解されたい。上記で説明された機器の実施例は例示的なものに過ぎず、例えば、前記ユニットの分割は、論理機能の分割に過ぎず、実際の実現では、他の分割方法があり、例えば、複数のユニット又はコンポーネントを別のシステムに統合又は集積したり、又は一部の特徴を無視したり、又は実行しないことができる。なお、表示または議論された各構成要素間の相互結合または直接結合または通信接続は、いくつかのインターフェース、機器またはユニットを介した間接な結合または通信接続であり得、電気的、機械的または他の形態であり得る。

上記の分離部材として説明されたユニットは、物理的に分離されている場合とされていない場合があり、ユニットとして表示された部材は、物理ユニットである場合もそうでない場合もあり、１箇所に配置される場合もあれば、複数のネットワークユニットに分散される場合もあり、実際の必要に応じて、その一部またはすべてのユニットを選択して、本実施例の技術案の目的を具現することができる。

なお、本発明の各実施例における各機能ユニットは、全部１つの処理ユニットに統合してもよいし、各ユニットを別々に１つのユニットとして使用してもよいし、２つ以上のユニットを１つのユニットに統合してもよい。上記の統合されたユニットは、ハードウェアの形態で、またはハードウェアおよびソフトウェア機能ユニットの形態で具現することができる。

当業者は、上記した方法の実施例の全てまたは一部のステップは、プログラム命令に関連するハードウェアによって完了することができ、前記プログラムは、コンピュータ読み取り可能な記憶媒体に記憶されることができ、前記プログラムが実行されるとき、上記の方法の実施例のステップを実行し、前記記憶媒体は、モバイル記憶機器、ＲＯＭ、ＲＡＭ、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。

あるいは、本発明の上記の統合されたユニットがソフトウェア機能モジュールの形で実現され、スタンドアロン製品として販売または使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されてもよい。このような理解に基づいて、本発明の実施例の技術的解決策の本質的な部分、すなわち、先行技術に貢献のある部分は、ソフトウェア製品の形で具現されることができ、当該コンピュータソフトウェア製品は、１つの記憶媒体に記憶され、コンピュータ機器（パーソナルコンピュータ、サーバ、又はネットワーク機器等であり得る）に、本開示の各実施例に記載の方法の全部又は一部を実行させるためのいくつかの命令を含む。前述した記憶媒体は、リムーバブルストレージ、ＲＯＭ、ＲＡＭ、磁気メモリまたは光ディスクなどのプログラムコードを記憶することができる様々な媒体を含む。

上記の内容は、本発明の具体的な実施形態に過ぎず、本発明の保護範囲はこれに限定されない。当業者は、本発明に開示された技術的範囲内で容易に想到し得る変更又は置換は、すべて本開示の保護範囲内に含まれるべきである。したがって、本発明の保護範囲は、特許請求の範囲の保護範囲に従うものとする。

Claims

画像処理装置に適用される画像処理方法であって、
第１画像の特徴データを抽出することと、
前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することであって、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線である、ことと、
前記特徴データに基づいて、少なくとも２つのオフセットを決定することであって、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表す、ことと、
各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む、前記画像処理方法。
前記特徴データに基づいて、前記第１画像の各インタラクションキーポイント及び各ターゲットの中心点を決定することは、
前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点、及び各ターゲットの信頼度を決定することと、
前記特徴データに基づいて、前記第１画像内のインタラクションキーポイント、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度を決定することと、を含み、
前記各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、
各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することを含む、
請求項１に記載の画像処理方法。
前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及び各ターゲットの信頼度を決定することは、
前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点及びそのカテゴリ、及び各ターゲットが各カテゴリに属する信頼度を決定することと、
前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、
各ターゲットの中心点及びそのカテゴリ、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットが各カテゴリに属する信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することを含む、
請求項２に記載の画像処理方法。
前記各ターゲットの中心点、前記インタラクションキーポイント、前記少なくとも２つのオフセット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に基づいて、前記第１画像内のターゲット間のインタラクション関係を決定することは、
１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する２つのオフセットを決定することと、
前記インタラクションキーポイント及び前記インタラクションキーポイントに対応する２つのオフセットに従って、前記インタラクションキーポイントに対応する２つの予測中心点を決定することと、
各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することと、
各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することと、を含む、
請求項２又は３に記載の画像処理方法。
前記各インタラクションキーポイントに対応する２つのターゲット、各ターゲットの信頼度、及び各インタラクションキーポイントに対応する各プリセットされたインタラクション動作カテゴリの信頼度に従って、前記第１画像内のターゲット間のインタラクション関係を決定することは、
１つのインタラクションキーポイントについて、前記インタラクションキーポイントに対応する１つのプリセットされたインタラクション動作カテゴリの信頼度と前記インタラクションキーポイントに対応する２つのターゲットの信頼度とを乗算して、第１信頼度を取得することであって、前記第１信頼度は、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属する信頼度であることと、
前記第１信頼度が信頼度閾値を超えることに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属すると決定することと、
前記第１信頼度が信頼度閾値を超えないことに応答して、前記インタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が前記プリセットされたインタラクション動作カテゴリに属しないと決定することと、を含む、
請求項４に記載の画像処理方法。
前記画像処理方法は、
１つのインタラクションキーポイントに対応する２つのターゲット間のインタラクション関係が各プリセットされたインタラクション動作カテゴリに属しないと決定した後、前記インタラクションキーポイントに対応する２つのターゲット間にインタラクション関係がないと決定することを更に含む、
請求項５に記載の画像処理方法。
前記各ターゲットの中心点及び各インタラクションキーポイントに対応する２つの予測中心点に従って、各インタラクションキーポイントに対応する２つのターゲットを決定することは、
１つの予測中心点について、各ターゲットの中心点と前記予測中心点との間の距離を決定することと、
中心点と前記予測中心点との間の距離がプリセットされた距離閾値より小さいターゲットを、前記予測中心点に対応するインタラクションキーポイントに対応するターゲットとして使用することと、を含む、
請求項４－６のいずれか１項に記載の画像処理方法。
前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定することは、
前記特徴データをダウンサンプリングして前記第１画像のヒットマップを取得することと、
前記ヒットマップに従って、前記第１画像内の各点の位置オフセット、前記第１画像内の各ターゲットの中心点及び各ターゲットの検出ボックスの高さと幅を決定することと、
前記特徴データに基づいて、前記第１画像内の各ターゲットの中心点を決定した後、前記画像処理方法は、
前記第１画像においてインタラクション関係を有するターゲットの中心点の位置オフセットに従って、前記第１画像においてインタラクション関係を有するターゲットの中心点の位置を補正して、前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置を取得することと、
前記第１画像においてインタラクション関係を有するターゲットの中心点の補正後の位置及びその検出ボックスの高さと幅に従って、前記第１画像においてインタラクション関係を有するターゲットの検出ボックスを決定することと、を更に含む、
請求項１－７のいずれか１項に記載の画像処理方法。
前記画像処理装置は、ニューラルネットワークを介して前記画像処理方法を実行し、前記ニューラルネットワークは、サンプル画像を用いてトレーニングすることによって得られたものであり、前記サンプル画像には、インタラクション関係を有するターゲットの検出ボックスがマークされ、前記サンプル画像においてインタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントは、マークされた検出ボックスに従って決定され、マークされたオフセットは、インタラクション関係を有するターゲットのマークされた中心点及びマークされたインタラクションキーポイントに従って決定される、
請求項８に記載の画像処理方法。
サンプル画像を用いて前記ニューラルネットワークをトレーニングすることは、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データを抽出することと、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データをダウンサンプリングして前記サンプル画像のヒットマップを取得することと、
前記ニューラルネットワークを用いて、前記サンプル画像のヒットマップに基づいて、前記サンプル画像内の各点の位置オフセット、前記サンプル画像内の各インタラクションキーポイント、前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の各ターゲットの検出ボックスの高さと幅を予測することと、
前記ニューラルネットワークを用いて、前記サンプル画像の特徴データに基づいて、少なくとも２つのオフセットを予測することと、
前記サンプル画像内の各ターゲットの中心点、前記サンプル画像内の前記インタラクションキーポイント及び前記サンプル画像内の少なくとも２つのオフセットに基づいて、前記サンプル画像内のターゲット間のインタラクション関係を予測することと、
予測された位置オフセット、前記サンプル画像においてインタラクション関係を有するターゲットの予測された中心点及び予測された検出ボックスの高さと幅、前記サンプル画像においてインタラクション関係を有するターゲットに対応する予測されたインタラクションキーポイント及びそれに対応する予測されたオフセット、及びマークされた位置オフセット及び前記サンプル画像にマークされたインタラクション関係を有するターゲットの検出ボックスに従って、前記ニューラルネットワークのネットワークパラメータ値を調整することと、を含む、
請求項９に記載の画像処理方法。
画像処理装置であって、
抽出ユニット、第１決定ユニット、第２決定ユニット及び第３決定ユニットを備え、
前記抽出ユニットは、第１画像の特徴データを抽出するように構成され、
前記第１決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、前記第１画像内の各インタラクションキーポイント及び各ターゲットの中心点を決定するように構成され、１つのインタラクションキーポイントは、連結線の中点からプリセットされた範囲内の前記連結線上の一点であり、前記連結線は、１つのインタラクション動作における２つのターゲットの中心点間の連結線であり、
前記第２決定ユニットは、前記抽出ユニットによって抽出された前記特徴データに基づいて、少なくとも２つのオフセットを決定するように構成され、１つのオフセットは、１つのインタラクション動作におけるインタラクションキーポイントと前記インタラクション動作における１つのターゲットの中心点の間のオフセットを表し、
前記第３決定ユニットは、各ターゲットの中心点、前記インタラクションキーポイント及び前記少なくとも２つのオフセットに基づいて、前記第１画像内のターゲット間のインタラクション関係を決定するように構成される、前記画像処理装置。
コンピュータプログラムが記憶されているコンピュータ可読記憶媒体であって、
当該プログラムがプロセッサによって実行されるときに、請求項１－１０のいずれか１項に記載の方法を実現する、前記コンピュータ可読記憶媒体。
電子機器であって、
メモリ、プロセッサ、およびメモリに記憶された、コンピュータによって実行可能なコンピュータプログラムを含み、前記プロセッサが、前記プログラムを実行するときに、請求項１－１０のいずれか１項に記載の方法を実現する、前記電子機器。
コンピュータ可読コードを含むコンピュータプログラムであって、
前記コンピュータ可読コードが電子機器で実行されるときに、前記電子機器のプロセッサに、請求項１－１０のいずれか１項に記載の方法を実行させる、前記コンピュータプログラム。