JP2023511243A

JP2023511243A - 画像処理方法と装置、電子デバイス、及び記録媒体

Info

Publication number: JP2023511243A
Application number: JP2021536381A
Authority: JP
Inventors: 柏▲潤▼ 王; 学森 ▲張▼; 春▲亞▼ ▲劉▼; 景▲煥▼ ▲陳▼; ▲帥▼ 伊
Original assignee: Sensetime International Pte Ltd
Current assignee: Sensetime International Pte Ltd
Priority date: 2020-12-31
Filing date: 2021-05-19
Publication date: 2023-03-17
Also published as: AU2021203869B2; CN113597614A; US20220207266A1; AU2021203869A1; KR20220098315A

Abstract

本発明は、画像処理方法及び装置、ニューラルネットワークのトレーニング方法及び装置、動作認識方法及び装置、電子デバイス、及び記録媒体を提供する。前記画像処理方法は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定することと、を含み、その中で、前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す。【選択図】図１

Description

＜関連出願の互いに引用＞
本発明は、出願日が２０２０年１２月３１日であり、出願番号が１０２０２０１３２６６Ｓであり、発明名称が「画像処理方法と装置、電子デバイス、及び記録媒体」であるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、画像処理技術の分野に関し、特に、画像処理方法と装置、電子デバイス、及び記録媒体に関する。

人工知能技術の発展に伴い、ニューラルネットワークはデータの検出および判別にますます広く使用され、これによって人件費が削減され、効率および精度が向上している。ニューラルネットワークのトレーニングでは、トレーニングセットとして大規模のラベル付きトレーニングサンプルを使用する必要がある。そのうち、人体部位との間の関連関係を認識するニューラルネットワークは、人体の各部位のラベリング情報が含まれた画像を使用する必要があるが、現状では、画像内の人体部位を効率的かつ正確にラベリングすることができないため、十分なトレーニングサンプルを得ることが難しく、モデルトレーニングの効率と正確性がすべて悪影響を受けている。

本発明は、関連技術での不足を解決するために、画像処理方法と装置、電子デバイス、及び記録媒体を提供する。

本発明の第１態様によると、画像処理方法を提供し、当該方法は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定することと、を含み、その中で、前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す。

本発明の第２態様によると、ニューラルネットワークのトレーニング方法を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記方法は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第１態様に記載の方法によって確定される。

本発明の第３態様によると、動作認識方法を提供し、前記方法は、画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、その中で、前記関連関係情報は、第２態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。

本発明の第４態様によると、画像処理装置を提供し、前記装置は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得するためのキーポイント取得モジュールと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュールと、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定するための関連関係確定モジュールと、を備え、その中で、前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す。

本発明の第５態様によると、ニューラルネットワークのトレーニング装置を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記装置は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備え、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第１態様に記載の方法によって確定される。

本発明の第６態様によると、動作認識装置を提供し、前記装置は、画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを備え、その中で、前記関連関係情報は、第２態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。

本発明の第７態様によると、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、第１態様、第２態様、または、第３態様に記載の方法を実現する。

本発明の第８態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、第１態様、第２態様、または、第３態様に記載の方法を実現する。

上記の実施例から分かるように、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することによって、画像内のすべての人体に対応する人体検出ボックスを精確に取得することができ、また、各人体検出ボックスと関連している目標キーポイントを取得することができる。さらに目標キーポイントおよび前記人体検出ボックスに基づいて目標身体部位の目標検出ボックスを生成する。最後に、事前にラベリングした第１身体部位と人体検出ボックスとの第２関連関係情報および上記第１関連関係情報に基づいて、目標身体部位と第１身体部位との第３関連関係情報を確定することによって、目標身体部位と第１身体部位との自動的な関連付を実現する。確定された第３関連関係情報は画像内の目標身体部位のラベリング情報として使用され得、手作業による非効率的なラベリングの問題を解決し、画像内の身体部位間の関連性ラベリング効率を向上させた。

上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。

ここでの図面は、明細書に組み込まれて、本明細書の一部を構成する。これら図面は、本発明に合致する実施例を示し、明細書ともに本発明の実施例を説明するために用いられる。
本発明の実施例に係る画像処理方法を示すフローチャートである。本発明の実施例に係る画像の処理結果を示す模式図である。本発明の実施例に係る画像処理装置の構成を示す模式図である。本発明の実施例に係る電子デバイスの構成を示す模式図である。

ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。

本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および／または」という用語は、１つまたは複数の関連するリストされたアイテムの任意の１つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。

本発明では、第１、第２、第３などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限定されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第１の情報は、第２の情報とも呼ばれ得、同様に、第２の情報は、第１の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。

人工知能技術の発展に伴い、ニューラルネットワークは、データの検出および判別を実行することができ、人件費を削減し、効率および精度を向上させた。ニューラルネットワークのトレーニングは、トレーニングセットとして、大規模のラベル付きトレーニングサンプルを使用する必要がある。動作認識モデルをトレーニングするための人体画像は、人体の各部位をラベリングする必要があり、関連技術では上記ラベリングを効率的かつ正確に実行することができないため、モデルトレーニングの効率と正確性がすべて悪影響を受けている。

これに鑑みて、第１態様によると、本発明の少なくとも１つの実施例は、画像処理方法を提供し、図１を参照すると、当該方法のフローを示し、ステップＳ１０１～ステップＳ１０３を含む。

その中で、当該画像処理方法に使用される画像は、ニューラルネットワークモデルをトレーニングするための画像であり得、ニューラルネットワークモデルは、人体動作を認識するためのモデルであり得、たとえば当該モデルは、卓上ゲームの場面のゲームプレイヤーの動作を認識するために使用され得る。１つの例示的な適用場面において、卓上ゲーム過程にビデオを録画した後に、ビデオを上記モデルに入力し、モデルによりビデオ中の各フレームの画像内の各人の動作を認識することができる。モデルは、人体のいくつかの部位を認識することによって動作認識を実行することができる。当該画像処理方法に使用される画像は、少なくとも１つの人体を含み、また、人体のいくつかの身体部位の位置は、事前に長方形ボックスなどによってラベリングされている。

ステップＳ１０１において、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得する。

その中で、画像内には、少なくとも１つの人体が含まれ、各人体は、１つの人体検出ボックスに対応され、人体検出ボックスは、対応する人体を完全に囲むことができ、人体検出ボックスは、対応する人体を囲む最小のボックスであり得る。人体検出ボックスの形状は、長方形または他の合理的な形状であり得、本発明は、これに対して具体的に限定しない。人体検出ボックス内には、少なくとも１つの目標キーポイントが含まれ、これら目標キーポイントは、手首、肩、肘部などの身体部位などの、人体の目標身体部位に対応される。人体の１つの目標身体部位は、少なくとも１つの目標キーポイントに対応される。人体の異なる目標身体部位に対応する目標キーポイントの数は、同一でも異なってもよく、本発明は、これに対して具体的に限定しない。

本ステップにおいて、以下の方法に従って、人体検出ボックスを取得することができ、すなわち、画像内から人体キーポイントを検出し、人体対象のエッジを確定し、さらに、人体対象を囲む人体検出ボックス構築することによって、人体検出ボックスの画像における位置を確定することができる。具体的に、人体検出ボックスが長方形である場合、長方形ボックスの４つの頂点の座標の位置を取得することができる。

目標身体部位に対応する目標キーポイントを取得することは、目標キーポイントの画像における位置情報を取得することを含み得、たとえば目標キーポイントに対応する１つまたは複数のピクセル点の位置座標を取得することができる。目標身体部位の人体における相対的な位置特徴に基づいて、人体検出ボックスに対して目標キーポイント検出を実行するか、または、画像内で目標キーポイント検出を実行することによって、目標キーポイントの位置を確定することができる。

目標キーポイントと人体検出ボックスとの第１関連関係情報は、目標キーポイントと人体検出ボックスに対応する人体との帰属関係を含み、すなわち、目標キーポイントが人体検出ボックス内の人体に属する場合、目標キーポイントと人体検出ボックスとを関連付ける。逆に、目標キーポイントが人体検出ボックス内の人体に属しない場合、目標キーポイントと人体検出ボックスとを関連付けない。人体検出ボックスと目標キーポイントの位置に基づいて第１関連関係情報を確定することができる。

１つの例において、目標身体部位は、人顔、人手、肘、膝、肩、および、人足の中の任意の１つを含み、これに応じて、目標身体部位に対応する目標キーポイントは、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントの中の任意の１つを含む。

ステップＳ１０２において、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成する。

その中で、目標身体部位は、画像内のラベリングする必要がある位置および／または関連している人体または他の人体の身体部位であり得る。取得された目標キーポイントの位置に基づいて、当該目標キーポイントを囲む包囲ボックスを対応する目標身体部位の検出ボックスとして生成することができる。

ラベリングする必要がある目標身体部位が複数ある場合、これら目標身体部位に対して一括してラベリングを実行することができる。したがって、本ステップでは、これら目標身体部位の検出ボックスを一括して確定することができ、また、これら目標身体部位はさらに順にラベリングすることができ、したがって、本ステップでは、目標身体部位の検出ボックスを１つずつ確定することができる。

その中で、目標身体部位に対応する目標キーポイントは、１つまたは複数あることができるため、本ステップでは、１つまたは複数の目標キーポイントおよび対応する人体検出ボックスに基づいて目標身体部位の検出ボックスを確定することができる。目標身体部位の検出ボックスを目標身体部位の位置ラベルとすることができる。

例として、図２は、目標身体部位の検出ボックスを示す模式図である。図２に示すように、画像内には、２１０、２２０、及び２３０の３つの人体、および、人体２１０に対応する肘の検出ボックス２１２、人体２２０に対応する肘の検出ボックス２２２、及び人体２３０に対応する肘の検出ボックス２３２が含まれ得、また、この中の肘の検出ボックス２１２、２２２、および２３２はすべてペアであり、すなわち左肘および右肘を含む。

ステップＳ１０３において、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定し、その中で、前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す。

その中で、第１身体部位は、既にラベリングされた身体部位であり得、そのラベリング情報は、第１身体部位の検出ボックスの位置、および、当該第１身体部位と人体との間の関係を含み得る。オプションとして、第１身体部位のラベリング情報は、部位名称、方位区別情報の中の少なくとも１つをさらに含むが、これらに限定されない。

前記第２関連関係情報は、第１身体部位のラベリング情報に基づいて得られ、第１身体部位と人体検出ボックスとの間の関連関係は、当該第１身体部位と当該人体検出ボックス内の人体との関連関係に基づいて確定され得る。

以下の方法に従って、第３関連関係情報を確定することができ、すなわち、人体検出ボックスと当該人体検出ボックスと関連している目標検出ボックスとを関連付け、当該人体検出ボックスと目標検出ボックスとの間の関連結果、および、第２関連関係情報に基づいて、同じ人体検出ボックスと関連している目標検出ボックスと第１身体部位の第１検出ボックスとを関連付けることによって、第３関連関係情報を得る。

１つの例において、第１身体部位が人顔であり、目標身体部位が肘であると、上記方法に従って人顔と肘との第３関連関係情報を確定することができる。具体的には図２を参照することができ、図２では、２１０、２２０、および、２３０の３つの人体を示し、人体２１０の第１身体部位は人顔２１１であり、人体２１０の目標身体部位は肘２１２であり、人顔２１１と肘２１２との第３関連関係情報を確定することができる。同様に、人体２２０の第１身体部位が人顔２２１であり、人体２２０の目標身体部位が肘２２２であるため、人顔２２１と肘２２２との第３関連関係情報を確定することができ、人体２３０の第１身体部位が人顔２３１であり、人体２３０の目標身体部位が肘２３２であるため、人顔２３１と肘２３２との第３関連関係情報を確定することができる。

肘は、目標身体部位の１つの例に過ぎず、実際の適用において、目標身体部位は、さらに、手首、肩、首、膝などの部位であり得ることを理解できる。いくつかの場面において、人顔情報は、異なる人を区分するために使用され、人の身分情報と関連付けることができる。上記方法は、人体検出ボックスを媒介として、画像内の既にラベリングされた人顔を利用して、同じ人体の人顔と肘とを関連付けることによって、肘に対応する人体の身分情報を確定することができ、画像内から人顔以外の他の身体部位と人顔との関連関係を検出することに役立ち、したがって、他の身体部位に対応する人の身分情報を確定することができる。

もう１つの例において、第１身体部位が人手であり、目標身体部位が肘であると、人手と肘との第３関連関係情報を確定することができる。具体的に、図２を参照すると、図面では、２１０、２２０、および、２３０の３つの人体を示し、人体２１０の第１身体部位は人手２１３であり、人体２１０の目標身体部位は肘２１２であるため、人手２１３と肘２１２との第３関連関係情報を確定することができる。人体２２０の第１身体部位が人手２２３であり、人体２２０の目標身体部位が肘２２２であるため、人手２２３と肘２２２との第３関連関係情報を確定することができる。人体２３０の第１身体部位が人手２３３であり、人体２３０の目標身体部位が肘２３２であるため、人手２３３と肘２３２との第３関連関係情報を確定することができる。

上記目標検出ボックスおよび第３関連関係情報は、画像内の目標身体部位のラベリング情報として使用され得るため、上記方法は画像内の目標身体部位の自動的なラベリングを実現した。画像に基づいて人体動作を認識するかまたは身体部位を認識するためニューラルネットワークをトレーニングときに、大量の画像を高速かつ自動的にラベリングすることができ、ニューラルネットワークのトレーニングのために、十分なトレーニングサンプルを提供することができ、ニューラルネットワークのトレーニングサンプルを取得する困難さを軽減した。

上記の実施例から分かるように、画像の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得し、さらに目標キーポイントおよび前記人体検出ボックスに基づいて目標身体部位の目標検出ボックスを生成し、最後に、事前にラベリングした人体検出ボックスと第１身体部位との間の第２関連関係情報および上記第１関連関係情報に基づいて、目標検出ボックスと前記第１身体部位の第１検出ボックスとの間の第３関連関係情報を確定することによって、目標身体部位と第１身体部位の自動的な関連付を実現し、さらに目標身体部位と第１身体部位の関連関係のラベリングを実現し、手作業による非効率的なラベリングの問題を解決し、画像内の身体部位間の関連性ラベリング効率を向上させた。

本発明のいくつかの実施例において、以下の方法を採用して画像内の人体検出ボックス、目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することができ、すなわち、まず、画像内の人体検出ボックスおよび前記人体検出ボックス内の人体キーポイントを取得し、次に、前記人体キーポイントの中の目標身体部位に対応する目標キーポイントを抽出し、最後に、前記人体検出ボックスと抽出した前記目標キーポイントとの第１関連関係情報を生成する。

そのうち、人体検出ボックス内には、少なくとも１つの人体キーポイントが含まれ、これら人体キーポイントは、手首、肩、肘部、人手、人足、人顔などの身体部位などの、人体の少なくとも１つの身体部位に対応される。人体の１つの身体部位は、少なくとも１つの人体キーポイントに対応される。人体の異なる身体部位に対応する人体キーポイントの数は、同一でも異なってもよく、本発明は、これに対して具体的に限定しない。

本ステップにおいて、以下の方法に従って、人体キーポイントを取得することができ、すなわち、前記画像を画像内の人体対象を検出するためのニューラルネットワークを入力し、当該ニューラルネットワークによって出力される人体キーポイントの位置情報を取得する。オプションとして、当該ニューラルネットワークは、人体検出ボックスの位置情報をさらに出力することができる。その中で、前記画像内の人体対象を検出するためのニューラルネットワークは、大量のデータを利用してトレーニングしたモデルであり得、画像各位置の特徴を正確に抽出し、抽出した特徴認識画像内の人体キーポイントなどの、抽出した特徴認識画像の内容に基づいて、人体キーポイントの位置情報を確定することができ、オプションとして、さらに、抽出した特徴認識画像内の人体検出ボックスに基づいて、人体キーポイントの位置情報を確定することができる。

本ステップにおいて、さらに、検出された人体キーポイントの位置情報に基づいて、対応する人体のエッジを確定し、人体を囲む人体検出ボックスを構築することによって、人体検出ボックスの画像における位置を確定することができる。画像内の人体検出ボックスと人体キーポイントとの位置包含関係に基づいて、人体検出ボックスと人体キーポイントとの帰属関係を確定することができる。

１つの例において、得られた人体キーポイントに対応する身体部位は、人顔、人手、肘、膝、肩、および、人足の中の少なくとも１つを含み、これに応じて、人体キーポイントは、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントの中の少なくとも１つを含む。

本ステップにおいて、目標身体部位の人体における相対的な位置特徴に基づいて、全ての人体キーポイントの位置情報をスクリーニングすることによって、目標身体部位の相対的な位置特徴にマッチングされる人体キーポイントを目標キーポイントとして確定することができる。１つの例において、人体検出ボックス内には、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントが含まれ、目標部位が肘である場合、上記人体キーポイントの中から肘キーポイントを目標キーポイントとして抽出することができる。

本ステップにおいて、抽出した目標キーポイントと人体検出ボックスとの帰属関係に基づいて、目標キーポイントと人体検出ボックスとの間の第１関連関係情報を確定することができる。

本発明のいくつかの実施例において、前記目標検出ボックスは、前記目標キーポイントを位置決め点とし、前記人体検出ボックスおよび所定の検出ボックスの中の少なくとも１つと所定の面積比関係を満たし、その中で、前記所定の検出ボックスは、事前にラベリングした所定の身体部位の検出ボックスである。

その中で、目標検出ボックスの位置決め点は、検出ボックスの中心であり得、つまり、目標キーポイントを目標検出ボックスの中心として設定する。

その中で、所定の面積比関係は、エルゴノミクスなどの事前知識に基づいて得られた、所定の比例区間内におり、また、いくつかの画像内の目標身体部位、所定の身体部位、および、人体の面積比の統計値に基づいて確定されたものである。異なる目標身体部位の検出ボックスと人体検出ボックスとの所定の面積比関係は、異なることができ、すなわち、各目標検出ボックスと人体検出ボックスとの所定の面積比関係は、いずれも個別に設定され得る。目標身体部位と異なる所定の身体部位の検出ボックスとの所定の面積比関係は、異なることができ、すなわち、目標検出ボックスと異なる所定の検出ボックスとの所定の面積比関係は、いずれも個別に設定され得る。

上記方法に従って、目標検出ボックスを高速に構築して、目標身体部位の位置のラベリングを実装することができる。

本ステップにおいて、目標検出ボックスの面積は、以下のパラメータに基づいて確定することができ、当該パラメータは、前記人体検出ボックスの第１重み、前記人体検出ボックスと前記目標検出ボックスとの所定の面積比関係、前記人体検出ボックスの面積、前記所定の検出ボックスの第２重み、前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比関係、および、前記所定の検出ボックスの面積を含む。つまり、目標検出ボックスは、人体検出ボックスのみと所定の面積比関係を満たすことができ、すなわち、第１重みが１であり、第２重みが０であり得る。さらに、所定の検出ボックスのみと所定の面積比関係を満たすことができ、すなわち、第１重みが０であり得、第２重みが１であり得る。さらに、人体検出ボックスおよび所定の検出ボックスとそれぞれ対応する所定の面積比関係を満たすことができ、すなわち、第１重みおよび第２重みがいずれも０から１までの比例であり、また両者の合計が１である。

具体的に、以下の式に従って目標検出ボックスの面積を確定することができる。

その中で、Ｓは、目標検出ボックスの面積であり、Ｗ_１は、第１重みであり、ｔ_１は前記人体検出ボックスと前記目標検出ボックスとの所定の面積比であり、Ｓ_１は前記人体検出ボックスの面積であり、Ｗ_２は第２重みであり、ｔ_２は前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比であり、Ｓ_２は前記所定の検出ボックスの面積である。

目標検出ボックスは、人体検出ボックスと形状が同じであり得、たとえば、人体検出ボックスの形状が長方形であり、目標検出ボックスも長方形であり得、また、人体検出ボックスの縦横比が前記目標検出ボックスの縦横比と等しい。たとえば、目標身体部位の肘の目標検出ボックスと人体検出ボックスとの所定の面積比関係が１:９であり、人体検出ボックスの形状が長方形である場合、人体検出ボックスの長辺と短辺をそれぞれ同じ比率で１／３に縮小して、目標検出ボックスの長辺と短辺を得ることができる。

目標検出ボックスは、対応する人体検出ボックスの形状と異なることができ、異なる部位に応じて該当する検出ボックスの形状を事前に設定することができ、たとえば、人体検出ボックスは長方形であり、人顔の検出ボックスが円であり得る。目標検出ボックスおよび人体検出ボックスの形状がいずれも長方形である場合、縦横比は異なることができ、異なる身体部位に応じて長方形検出ボックスの縦横比を事前に設定することができる。

いくつかの場面において、人顔の大きさは、人体の深層情報をある程度示し、すなわち、人顔の検出ボックスの面積は、人体の深層情報を示すことができ、したがって、人顔を所定の身体部位とすることができ、つまり、人体検出ボックスおよび人顔検出ボックスの２つを組み合わせて、目標検出ボックスの面積を確定することができる。

本発明の実施例において、目標検出ボックスを確定することは、目標身体部位の検出ボックスの画像における位置を確定することであり得、たとえば、当検出ボックスが長方形であると、検出ボックスの４つの頂点の座標を確定することができる。本実施例において、形状、面積、所定の重み、および、位置決め点の位置などの複数の拘束条件に基づいて、目標検出ボックスを生成することができ、精度がより高い目標検出ボックスを得ることができ、さらに目標検出ボックスに基づいて生成した目標身体部位のラベリング情報もより高い精度を有する。また、上記方法は、目標身体部位の目標検出ボックスを自動的に生成するため、手作業による非効率的なラベリングの問題を解決し、目標身体部位のラベリング効率を向上させた。

人体の部位は、人顔、首などの単独的な部位だけでなく、人手、肘、膝、肩、および、人足などの対称的な部位も含む。対称的な部位は、ペアで存在し、また方位区別情報を有し、方位区別情報は身体部位の人体における方位を判別するために使用される。たとえば、左および右の場合、例示的な、左手、左肘、左臂の方位区別情報は左であり、右手、右肘、右臂の方位区別情報は右である。さらに、第１身体部位は、単独的な部位であり得、対称的な部位でもあり得る。目標身体部位は、単独的な部位でありえ、対称的な部位でもあり得る。これに対して、第１身体部位および目標身体部位の種類によって第３関連関係情報の生成する方法を決定されることができ、具体的に言えば、以下の４つの場合が存在する。

第１の場合、前記第１身体部位が１つの単独的な部位を含み、前記目標身体部位が１つの単独的な部位を含む場合、以下の方法を採用して、第３関連関係情報を生成することができ、すなわち、前記人体検出ボックスと関連している第１身体部位の第１検出ボックスと目標身体部位の目標検出ボックスとを関連付けて、第３関連関係情報を生成する。たとえば、第１身体部位が人顔であり、目標身体部位が首であると、人顔と首との第３関連関係情報を確定する。

第２の場合、前記第１身体部位が１つの単独的な部位を含み、前記目標身体部位が同じ人体の２つの第１対称的な部位の中の少なくとも１つを含む場合、以下の方法に従って、第３関連関係情報を確定し、すなわち、まず、目標身体部位の方位区別情報を取得し、次に、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて、同じ人体検出ボックスと関連している第１検出ボックスと目標検出ボックスとを関連付けて、第３関連関係情報を生成する。その中で、目標検出ボックス、第３関連関係情報、および、目標身体部位の方位区別情報は、画像内の目標身体部位のラベリング情報として使用することができる。

たとえば、第１身体部位が人顔であり、目標身体部位が左肘および右肘を含むと、人顔と左肘との第３関連関係情報および人顔と右肘との第３関連関係情報を確定し、さらに、左肘の検出ボックス、人顔と左肘との第３関連関係情報、および、方位区別情報（左）を、左肘のラベリング情報として使用し、右肘の検出ボックス、人顔と右肘との第３関連関係情報、および、方位区別情報（右）を、右肘のラベリング情報として使用することができる。

第３の場合、前記第１身体部位が同じ人体の２つの第２対称的な部位の中の少なくとも１つを含み、前記目標身体部位が１つの単独的な部位を含む場合、以下の方法に従って、第３関連関係情報を確定することができ、すなわち、まず、第１身体部位の方位区別情報を取得し、次に、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて、同じ人体検出ボックスと関連している第１検出ボックスと目標検出ボックスとを関連付けて、第３関連関係情報を生成する。その中で、目標検出ボックス、第３関連関係情報、および、第１身体部位の方位区別情報を、画像内の目標身体部位のラベリング情報として使用することができる。

たとえば、目標身体部位が人顔であり、第１身体部位が左肘を含むと、人顔と左肘との第３関連関係情報を確定し、さらに、人顔の検出ボックス、人顔と左肘との第３関連関係情報、および、方位区別情報（左）を人顔のラベリング情報として使用することができる。

第４の場合、前記目標身体部位が同じ人体の２つの第１対称的な部位の中の少なくとも１つを含み、前記第１身体部位が同じ人体の２つの第２対称的な部位の中の少なくとも１つを含む場合、以下の方法に従って、第３関連関係情報を確定することができ、すなわち、まず、前記目標身体部位の方位区別情報を取得し、前記第１身体部位の方位区別情報を取得し、次に、前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて、同じ人体検出ボックスと関連しており、方位区別情報が同一である第１検出ボックスと、目標検出ボックスと、を関連付け、最後に、前記第１検出ボックスと目標検出ボックスとの関連結果に基づいて第３関連関係情報を生成する。その中で、目標検出ボックス、第３関連関係情報、および、目標身体部位の方位区別情報は、画像内の目標身体部位のラベリング情報として使用することができる。

たとえば、第１身体部位が左手および右手を含み、目標身体部位が左肘および右肘を含むと、検出された左手、右手、および、左手および右手のそれぞれと程度肘との間の相対位置関係に基づいて、左手と左肘との第３関連関係情報および右手と右肘との第３関連関係情報を確定し、さらに、左肘の検出ボックス、左手と左肘の第３関連関係情報、および、方位区別情報（左）を、左肘のラベリング情報として使用し、右肘の検出ボックス、右手と右肘との第３関連関係情報、および、方位区別情報（右）を右肘のラベリング情報として使用することができる。

その中で、第２関連関係情報は、第１身体部位のラベリング情報に基づいて得ることができ、つまり、第１身体部位のラベリング情報は、第１身体部位と人体と人体検出ボックスのとの間の対応関係を含み得る。第２関連関係情報は、さらに、人体検出ボックスと人体検出ボックス内の人体キーポイントの対応関係から得ることができ、具体的に言えば、第１身体部位とその中の人体キーポイントとの対応関係、および、上記人体キーポイントと人体検出ボックスの対応関係に基づいて、第１身体部位と人体と人体検出ボックスとの対応関係を得ることができる。

その中で、第１身体部位のラベリング情報は、さらに少なくとも１つの第２対称的な部位に対応する方位区別情報を含み得、つまり、少なくとも１つの第２対称的な部位に対して左または右を対応的にラベリングすることができ、したがって、第１身体部位の方位区別情報を第１身体部位のラベリング情報から取得することができる。第１身体部位の方位区別情報は、前記人体検出ボックスおよび前記第１身体部位に対応する人体キーポイントに基づいて確定することができ、つまり、２つの第２対称的な部位は異なる人体キーポイントを有するため、それ自体に含まれた人体キーポイントの位置情報などに基づいて第２対称的な部位の方向区分情報を確定することができる。すなわち、人体キーポイントの方向が左であると、対応する第２対称的な部位の方位区別情報が左であり、人体キーポイントの方向が右であると、対応する第２対称的な部位の方位区別情報が右である。目標身体部位の方位区別情報は、前記人体検出ボックスおよび前記目標身体部位に対応する目標キーポイントに基づいて確定することができ、具体的な取得方法は第１身体部位の方位区別情報の取得方法と同じであり、ここでこれ以上繰り返して説明しない。

その中で、位置帰属関係に従って同じ人体検出ボックスと関連している目標身体部位の目標検出ボックスおよび第１身体部位の第１検出ボックスを確定することができ、すなわち、同じ人体検出ボックスに含まれた目標検出ボックスおよび第１検出ボックスを、同じ人体検出ボックスと関連している目標検出ボックスおよび第１検出ボックスとして使用することができる。

本発明の実施例において、第１身体部位および目標身体部位の異なる種類に対して、それぞれ異なる方法によって第３関連関係情報を確定することによって、第１身体部位および目標身体部位の関連関係の正確性を向上させた。

本発明の実施例において、さらに、第３関連関係情報を確定した後に、前記第３関連関係情報および前記目標身体部位の方位区別情報に基づいて前記目標身体部位の関連性ラベルを生成することができる。

その中で、画像に基づいて人体動作を認識するかまたは身体部位を認識するためのニューラルネットワークをトレーニングする場合、関連性ラベルを画像内の目標身体部位のラベルの１つとすることができる。さらに、関連性ラベルは、方位区別情報を含み得、したがって、対称的な身体部位の方位を判別することができ、さらに目標身体部位のラベリングの正確性を向上させ、ニューラルネットワークのトレーニング効率およびトレーニング品質を向上させることができる。

発明のいくつかの実施例において、前記画像処理方法は、前記第２関連関係情報および事前にラベリングした第４関連関係情報に基づいて第５関連関係情報を生成することをさらに含み、その中で、第４関連関係情報は、第２身体部位と前記人体検出ボックスとの関連関係を示し、前記第５関連関係情報は、前記目標検出ボックスと前記第２身体部位の第２検出ボックスとの間の関連関係を示す。

その中で、第２身体部位が既にラベリングされた身体部位であり、そのラベリング情報は、第２身体部位の検出ボックスの位置、部位名称、方位区別情報、人体との対応関係などを含み得る。したがって、第４関連関係情報は、第２身体部位のラベリング情報に基づいて得ることができ、すなわち、第２身体部位と人体検出ボックスとの間の関連関係は、第２身体部位と人体検出ボックス内の人体との関連関係によって確定され得る。

その中で、第４関連関係情報は、さらに、人体検出ボックスと人体検出ボックス内の人体キーポイントとの対応関係から取得することができ、具体的な取得方法は、第１身体部位の取得方法と同じであり、ここではこれ以上繰り返して説明しない。

その中で、第１身体部位および第２身体部位のタイプに基づいて、４つの状況に分けられることができ、すなわち、第１身体部位および第２身体部位がいずれも単独的な部位である第１の状況、第１身体部位が対称的な部位であり、第２身体部位が単独的な部位である第２の状況、第１身体部位が単独的な部位であり、第２身体部位が対称的な部位である第３の状況、および、第１身体部位が対称的な部位であり、第２身体部位が対称的な部位である第４の状況に分けられることができる。当業者は、上記の４つの状況に第５関連関係情報を確定する方法は第３関連関係情報の確定方法を参照することができ、ここでこれ以上繰り返して説明しないことを理解できる。

１つの例において、前記第１身体部位は、前記第２身体部位と異なり、前記第２身体部は、人顔、人手、肘、膝、肩、および、人足の中の１つである。

たとえば、第１身体部位が人顔であり、第２身体部位が人手であると、人顔と人手との第５関連関係情報を確定することができる。具体的に、図２を参照すると、図面に、２１０、２２０、および、２３０の３つの人体を示し、人体２１０の第１身体部位が人顔２１１であり、人体２１０の第２身体部位が人手２１３であると、人顔２１１と人手２１３との第５関連関係情報を確定することができる。人体２２０の第１身体部位が人顔２２１であり、人体２２０の第２身体部位が人手２２３であると、人顔２２１と人手２２３との第５関連関係情報を確定することができる。人体２３０の第１身体部位が人顔２３１であり、人体２３０の第２身体部位が人手２３３であると、人顔２３１と人手２３３との第５関連関係情報を確定することができる。

本発明の実施例において、第５関連関係情報を確定することによって、画像のラベリング情報をさらに豊富にすることができるため、当該画像は、マルチタスクニューラルネットワークのトレーニングに適用されることができ、たとえば肘と人顔および人手との関連性を検出するためのニューラルネットワークをトレーニングすることができ、マルチタスクニューラルネットワークのトレーニング中のサンプルの収集の困難さを軽減し、マルチタスクニューラルネットワークのトレーニングの品質を向上させるのに役立つ。

本発明のいくつかの実施例において、前記画像処理方法は、前記第３関連関係情報、または、前記第２関連関係情報と前記第３関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示することをさらに含む。

その中で、関連関係標示情報は、結線の形態で表示することができ、つまり、第３関連関係情報は、目標身体部位の目標検出ボックスと第１身体部位の第１検出ボックスとの結線で表示することができる。

１つの例において、目標身体部位が左手であり、第１身体部位が左肘であり、左手と左肘との間の第３関連関係情報を確定した後に、左手の検出ボックスと左肘の検出ボックスとを結線で接続して、対応する関連関係標示情報として使用することができ、具体的には図２を参照することができる。図面には、２１０、２２０、および、２３０の３つの人体が示され、人体２１０の目標身体部位は左手２１３であり、人体２１０の第１身体部位は左肘２１２であり、左手２１３の検出ボックスと左肘２１２の検出ボックスとを結線で接続して、両者間の第３関連関係情報の標示情報として使用することができる。人体２２０の目標身体部位が左手２２３であり、人体２２０の第１身体部位が左肘２２２であり、左手２２３の検出ボックスと左肘２２２の検出ボックスとを結線で接続して、両者間の第３関連関係情報の標示情報として使用することができる。人体２３０の目標身体部位が左手２３３であり、人体２３０の第１身体部位が左肘２３２であると、左手２３３の検出ボックスと左肘２３２の検出ボックスとを結線で接続して、両者間の第３関連関係情報の標示情報として使用することができる。

これに応じて、第５関連関係情報、または、第４関連関係情報と第５関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示することができる。その中で、第５関連関係情報は、第２身体部位の第２検出ボックスと第１身体部位の第１検出ボックスとの結線を採用して表示することができる。

第３関連関係情報および第５関連関係情報をすべて画像に表示した後に、第１身体部位、目標身体部位、および、第２身体部位の関連関係標示情報が形成され、たとえば、第１身体部位が人顔であり、目標身体部位が左肘であり、第２身体部位が左手であると、人顔、左肘、および、左手の３つの関連関係標示情報が形成される。具体的には、図２を参照すると、図面には、２１０、２２０、および、２３０の３つの人体が示され、人体２１０の第１身体部位が人顔２１１であり、人体２１０の目標身体部位が左肘２１２であり、人体２１０の第２身体部位が左手２１３であると、人顔２１１の検出ボックスと左肘２１２の検出ボックスと左手２１３の検出ボックスとを順に接続して、人顔２１１、左肘２１２、および、左手２１３の関連関係標示情報を形成することができる。人体２２０の第１身体部位が人顔２２１であり、人体２２０の目標身体部位が左肘２２２であり、人体２２０の第２身体部位が左手２２３であると、人顔２２１の検出ボックスと左肘２２２の検出ボックスと左手２２３の検出ボックスとを順に接続して、人顔２２１、左肘２２２、および、左手２２３の関連関係標示情報を形成することができる。人体２３０の第１身体部位が人顔２３１であり、人体２３０の目標身体部位が左肘２３２であり、人体２３０の第２身体部位が左手２３３であると、人顔２３１の検出ボックスと左肘２３２の検出ボックスと左手２３３の検出ボックスとを順に接続して、人顔２３１、左肘２３２、および、左手２３３の関連関係標示情報を形成することができる。

上記関連関係標示情報の表示は、結線を採用する表示方法に限定されず、さらに、同じ色の検出ボックスを利用して、同じ人体に関連している異なる身体部位を標示し、同じ人体の異なる部位に対応する人の身分識別子などを標示することができる。

本発明の実施例において、第３関連関係情報および第５関連関係情報中の少なくとも１つを表示することによって、ラベリング結果を直感的に表示することができ、ラベリング人員の関連性ラベリング結果のチェックを容易にし、人体動作検出および追跡に適用する場合、関連関係標示情報を使用して人体動作および追跡結果を表示することができ、関連関係の検出結果の評価を便利にする。

本発明の実施例の第２態様によると、ニューラルネットワークのトレーニング方法を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記方法は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第１態様に記載の方法によって確定される。

上記の画像処理方法によって得られた第３関連関係情報は、画像トレーニングセット中の画像をラベリングするために使用され、比較的に正確かつ信頼的なラベリング情報をえることができるため、トレーニングして得られた画像内の身体部位間の関連関係を検出するためのニューラルネットワークは、比較的に高い精度を有する。

本発明の実施例の第３態様によると、動作認識方法を提供し、前記方法は、画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、その中で、前記関連関係情報は、第２態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。

上記の画像内の身体部位間の関連関係を検出するためのニューラルネットワークに基づいて予測した人体部位との間の関連関係情報は、人体動作検出で同じ人体の異なる身体部位を正確に関連付けることができ、したがって、同じ人体の異なる身体部位間の相対位置および角度関係の分析に役立ち、さらに人体動作を確定し、比較的に正確な人体動作認識結果を得ることができる。

図３を参照すると、本発明の実施例の第４態様は、画像処理装置を提供し、当該装置は、
画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得するためのキーポイント取得モジュール３０１と、
前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュール３０２と、
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定するための関連関係確定モジュール３０３と、を備え、その中で、前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す。

本発明の実施例の第５態様によると、ニューラルネットワークのトレーニング装置を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記装置は、
画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備える。

その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第１態様に記載の方法によって確定される。

本発明の実施例の第６態様によると、動作認識装置を提供し、前記装置は、
画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを備え、その中で、前記関連関係情報は、第２態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。

上記の実施例の装置について、その中の各モジュールが操作を実行する具体的な方式は、既に第３態様の関連される方法の実施例で詳細に説明したため、ここでは繰り返して詳細に説明しない。

図４を参照すると、本発明の実施例の第７態様は、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサで運行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、第１態様、第２態様、または、第３態様に記載の方法を実現する。

本発明の実施例の第８態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されると、第１態様、第２態様、または、第３態様に記載の方法が実現される。

本発明において、「第１」および「第２」という用語は、説明の目的でのみ使用され、相対的な重要性を示したり暗示したりするものとして理解することはできない。「複数」という用語は、特に断らない限り、２つ以上を指す。

当業者は、明細書を検討し、本明細書に開示された開示を実行した後、本発明の他の実施形態を容易に考えるであろう。本発明は、本発明のあらゆる変形、用途または適応的変更を包含することを意図しており、これらの変形、用途または適応的変更は、本発明の一般原理に従い、技術の分野における一般的な知識または従来の技術的手段を含む。明細書および実施例は、単なる例示と見なされるべきであり、本発明の真の範囲および精神は、以下の特許請求の範囲によって指摘される。

本発明は、上記および図面に示された精確な構造に限定されるものではなく、本発明の範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。本開示の範囲は、添付の特許請求の範囲によってのみ限定される。

Claims

画像処理方法であって、
画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することと、
前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定することと、を含み、
前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、
前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の第１検出ボックスとの関連関係を示す
ことを特徴とする画像処理方法。
前記画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得することは、
前記画像内の人体検出ボックスおよび前記人体検出ボックス内の人体キーポイントを取得することと、
前記人体キーポイントの中の前記目標身体部位に対応する目標キーポイントを抽出することと、
前記人体検出ボックスと抽出した前記目標キーポイントとの第１関連関係情報を生成することと、を含む
ことを特徴とする請求項１に記載の画像処理方法。
前記目標検出ボックスは、前記目標キーポイントを位置決め点とし、前記人体検出ボックスおよび所定の検出ボックスの中の少なくとも１つと所定の面積比関係を満たし、
前記所定の検出ボックスは、事前にラベリングした所定の身体部位の検出ボックスである
ことを特徴とする請求項１に記載の画像処理方法。
前記目標検出ボックスの面積は、次のパラメータによって確定され、
前記パラメータは、
前記人体検出ボックスの第１重み、
前記人体検出ボックスと前記目標検出ボックスとの所定の面積比関係、
前記人体検出ボックスの面積、
前記所定の検出ボックスの第２重み、
前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比関係、および
前記所定の検出ボックスの面積を含む
ことを特徴とする請求項３に記載の画像処理方法。
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定することは、
前記人体検出ボックスと関連している第１検出ボックスと前記目標検出ボックスとを関連付けて、第３関連関係情報を生成することを含む
ことを特徴とする請求項１から４のいずれか１項に記載の画像処理方法。
前記目標身体部位が同じ人体の２つの第１対称的な部位の中の少なくとも１つを含む場合、前記目標身体部位の方位区別情報を取得することをさらに含む
ことを特徴とする請求項１から５のいずれか１項に記載の画像処理方法。
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定することは、
前記第１身体部位が同じ人体の２つの第２対称的な部位の中の少なくとも１つを含む場合、前記第１身体部位の方位区別情報を取得することと、
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて、前記人体検出ボックスと関連しており、かつ方位区別情報が同一である前記第１検出ボックスと、前記目標検出ボックスとを、関連付けることと、
前記第１検出ボックスおよび目標検出ボックスの関連結果に基づいて第３関連関係情報を生成することと、を含む
ことを特徴とする請求項６に記載の画像処理方法。
前記目標身体部位の方位区別情報を取得することは、
前記人体検出ボックスおよび前記目標身体部位に対応する目標キーポイントに基づいて、前記目標身体部位の方位区別情報を確定することを含む
ことを特徴とする請求項６または７に記載の画像処理方法。
前記第３関連関係情報および前記目標身体部位の方位区別情報に基づいて前記目標身体部位の関連性ラベルを生成することをさらに含む
ことを特徴とする請求項６から８のいずれか１項に記載の画像処理方法。
前記第１身体部位および前記目標身体部位は、人顔、人手、肘、膝、肩、および、人足の中の１つである
ことを特徴とする請求項１から９のいずれか１項に記載の画像処理方法。
前記第２関連関係情報および事前にラベリングした第４関連関係情報に基づいて第５関連関係情報を生成することをさらに含み、
前記第４関連関係情報は、第２身体部位と前記人体検出ボックスとの関連関係を示し、
前記第５関連関係情報は、前記目標検出ボックスと前記第２身体部位の第２検出ボックスとの間の関連関係を示す
ことを特徴とする請求項１から１０のいずれか１項に記載の画像処理方法。
前記第１身体部位は、前記第２身体部位と異なり、
前記第２身体部は、人顔、人手、肘、膝、肩、および、人足の中の１つである
ことを特徴とする請求項１１に記載の画像処理方法。
前記第３関連関係情報、または、前記第２関連関係情報と前記第３関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示する
ことを特徴とする請求項１から１２のいずれか１項に記載の画像処理方法。
ニューラルネットワークのトレーニング方法であって、
前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、
前記ニューラルネットワークのトレーニング方法は、
画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、
前記画像トレーニングセット中の画像は、ラベリング情報を含み、
前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、
前記関連関係情報は、請求項１から１３のいずれか１項に記載の前記方法によって確定される
ことを特徴とするニューラルネットワークのトレーニング方法。
動作認識方法であって、
画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、
前記関連関係情報は、請求項１４に記載の前記方法によってトレーニングしたニューラルネットワークに基づいて得られる
ことを特徴とする動作認識方法。
画像処理装置であって、
画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第１関連関係情報を取得するためのキーポイント取得モジュールと、
前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュールと、
前記第１関連関係情報および事前にラベリングした第２関連関係情報に基づいて第３関連関係情報を確定するための関連関係確定モジュールと、を備え、
前記第２関連関係情報は、第１身体部位と前記人体検出ボックスとの関連関係を示し、前記第３関連関係情報は、前記目標検出ボックスと前記第１身体部位の検出ボックスとの関連関係を示す
ことを特徴とする画像処理装置。
ニューラルネットワークのトレーニング装置であって、
前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、
前記ニューラルネットワークのトレーニング装置は、
画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備え、
前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第１身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、請求項１から１３のいずれか１項に記載の前記方法によって確定される
ことを特徴とするニューラルネットワークのトレーニング装置。
動作認識装置であって、
画像内の第１身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを含み、
前記関連関係情報は、請求項１４に記載の前記方法によってトレーニングしたニューラルネットワークに基づいて得られる
ことを特徴とする動作認識装置。
電子デバイスであって、
メモリとプロセッサとを備え、
前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を格納し、
前記プロセッサは、前記コンピュータ命令を実行するときに請求項１から１５のいずれか１項に記載の方法を実現する
ことを特徴とする電子デバイス。
コンピュータプログラムが記録されているコンピュータ可読記録媒体であって、
前記コンピュータプログラムがプロセッサによって実行されるときに、請求項１から１5のいずれか１項に記載の前記方法の操作が実現される
ことを特徴とするコンピュータ可読記録媒体。