JP2023511243A - 画像処理方法と装置、電子デバイス、及び記録媒体 - Google Patents

画像処理方法と装置、電子デバイス、及び記録媒体 Download PDF

Info

Publication number
JP2023511243A
JP2023511243A JP2021536381A JP2021536381A JP2023511243A JP 2023511243 A JP2023511243 A JP 2023511243A JP 2021536381 A JP2021536381 A JP 2021536381A JP 2021536381 A JP2021536381 A JP 2021536381A JP 2023511243 A JP2023511243 A JP 2023511243A
Authority
JP
Japan
Prior art keywords
detection box
target
body part
information
relationship information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2021536381A
Other languages
English (en)
Inventor
柏▲潤▼ 王
学森 ▲張▼
春▲亞▼ ▲劉▼
景▲煥▼ ▲陳▼
▲帥▼ 伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sensetime International Pte Ltd
Original Assignee
Sensetime International Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sensetime International Pte Ltd filed Critical Sensetime International Pte Ltd
Priority claimed from PCT/IB2021/054306 external-priority patent/WO2022144607A1/en
Publication of JP2023511243A publication Critical patent/JP2023511243A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、画像処理方法及び装置、ニューラルネットワークのトレーニング方法及び装置、動作認識方法及び装置、電子デバイス、及び記録媒体を提供する。前記画像処理方法は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定することと、を含み、その中で、前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す。【選択図】図1

Description

<関連出願の互いに引用>
本発明は、出願日が2020年12月31日であり、出願番号が10202013266Sであり、発明名称が「画像処理方法と装置、電子デバイス、及び記録媒体」であるシンガポール特許出願の優先権を主張し、当該シンガポール特許出願の全ての内容が参照として本願に組み入れられる。
本発明は、画像処理技術の分野に関し、特に、画像処理方法と装置、電子デバイス、及び記録媒体に関する。
人工知能技術の発展に伴い、ニューラルネットワークはデータの検出および判別にますます広く使用され、これによって人件費が削減され、効率および精度が向上している。ニューラルネットワークのトレーニングでは、トレーニングセットとして大規模のラベル付きトレーニングサンプルを使用する必要がある。そのうち、人体部位との間の関連関係を認識するニューラルネットワークは、人体の各部位のラベリング情報が含まれた画像を使用する必要があるが、現状では、画像内の人体部位を効率的かつ正確にラベリングすることができないため、十分なトレーニングサンプルを得ることが難しく、モデルトレーニングの効率と正確性がすべて悪影響を受けている。
本発明は、関連技術での不足を解決するために、画像処理方法と装置、電子デバイス、及び記録媒体を提供する。
本発明の第1態様によると、画像処理方法を提供し、当該方法は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定することと、を含み、その中で、前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す。
本発明の第2態様によると、ニューラルネットワークのトレーニング方法を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記方法は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第1態様に記載の方法によって確定される。
本発明の第3態様によると、動作認識方法を提供し、前記方法は、画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、その中で、前記関連関係情報は、第2態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。
本発明の第4態様によると、画像処理装置を提供し、前記装置は、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得するためのキーポイント取得モジュールと、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュールと、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定するための関連関係確定モジュールと、を備え、その中で、前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す。
本発明の第5態様によると、ニューラルネットワークのトレーニング装置を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記装置は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備え、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第1態様に記載の方法によって確定される。
本発明の第6態様によると、動作認識装置を提供し、前記装置は、画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを備え、その中で、前記関連関係情報は、第2態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。
本発明の第7態様によると、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、第1態様、第2態様、または、第3態様に記載の方法を実現する。
本発明の第8態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記コンピュータプログラムがプロセッサによって実行されると、第1態様、第2態様、または、第3態様に記載の方法を実現する。
上記の実施例から分かるように、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することによって、画像内のすべての人体に対応する人体検出ボックスを精確に取得することができ、また、各人体検出ボックスと関連している目標キーポイントを取得することができる。さらに目標キーポイントおよび前記人体検出ボックスに基づいて目標身体部位の目標検出ボックスを生成する。最後に、事前にラベリングした第1身体部位と人体検出ボックスとの第2関連関係情報および上記第1関連関係情報に基づいて、目標身体部位と第1身体部位との第3関連関係情報を確定することによって、目標身体部位と第1身体部位との自動的な関連付を実現する。確定された第3関連関係情報は画像内の目標身体部位のラベリング情報として使用され得、手作業による非効率的なラベリングの問題を解決し、画像内の身体部位間の関連性ラベリング効率を向上させた。
上記の一般的な叙述と以下の細部の叙述は、例示的および解釈的なもの過ぎず、本発明に対する限定ではないことを理解すべきである。
ここでの図面は、明細書に組み込まれて、本明細書の一部を構成する。これら図面は、本発明に合致する実施例を示し、明細書ともに本発明の実施例を説明するために用いられる。
本発明の実施例に係る画像処理方法を示すフローチャートである。 本発明の実施例に係る画像の処理結果を示す模式図である。 本発明の実施例に係る画像処理装置の構成を示す模式図である。 本発明の実施例に係る電子デバイスの構成を示す模式図である。
ここで例示的な実施例を詳細に説明し、その例を図面に示す。以下の説明が図面を言及している場合、特に明記しない限り、異なる図面における同一の数字は、同一または類似な要素を示す。以下の例示的な実施例で叙述される実施形態は、本発明と一致するすべての実施形態を代表しない。逆に、それらは、添付された特許請求の範囲に記載された、本発明のいくつかの態様と一致する装置及び方法の例に過ぎない。
本発明で使用される用語は、特定の実施例を説明することのみを目的としており、本発明を限定することを意図するものではない。本発明および添付の特許請求の範囲で使用される「一種」、「前記」、「当該」などの単数形は、文脈が他の意味を明確に示さない限り、複数形を含むことを意図している。本明細書で使用される「および/または」という用語は、1つまたは複数の関連するリストされたアイテムの任意の1つまたはすべての可能な組み合わせを含むことを指すことを理解すべきである。
本発明では、第1、第2、第3などの用語を使用して様々な情報を記述することがあるが、これら情報はこれら用語によって限定されるべきではないことを理解すべきである。これら用語は、同じ種類の情報を互いに区別するためにのみ使用される。たとえば、本開示の範囲から逸脱することなく、第1の情報は、第2の情報とも呼ばれ得、同様に、第2の情報は、第1の情報とも呼ばれ得る。文脈に応じて、本明細書で使用される「もし」という単語は、「…場合」、「…すると」、または、「…ことに応答して」と解釈することができる。
人工知能技術の発展に伴い、ニューラルネットワークは、データの検出および判別を実行することができ、人件費を削減し、効率および精度を向上させた。ニューラルネットワークのトレーニングは、トレーニングセットとして、大規模のラベル付きトレーニングサンプルを使用する必要がある。動作認識モデルをトレーニングするための人体画像は、人体の各部位をラベリングする必要があり、関連技術では上記ラベリングを効率的かつ正確に実行することができないため、モデルトレーニングの効率と正確性がすべて悪影響を受けている。
これに鑑みて、第1態様によると、本発明の少なくとも1つの実施例は、画像処理方法を提供し、図1を参照すると、当該方法のフローを示し、ステップS101~ステップS103を含む。
その中で、当該画像処理方法に使用される画像は、ニューラルネットワークモデルをトレーニングするための画像であり得、ニューラルネットワークモデルは、人体動作を認識するためのモデルであり得、たとえば当該モデルは、卓上ゲームの場面のゲームプレイヤーの動作を認識するために使用され得る。1つの例示的な適用場面において、卓上ゲーム過程にビデオを録画した後に、ビデオを上記モデルに入力し、モデルによりビデオ中の各フレームの画像内の各人の動作を認識することができる。モデルは、人体のいくつかの部位を認識することによって動作認識を実行することができる。当該画像処理方法に使用される画像は、少なくとも1つの人体を含み、また、人体のいくつかの身体部位の位置は、事前に長方形ボックスなどによってラベリングされている。
ステップS101において、画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得する。
その中で、画像内には、少なくとも1つの人体が含まれ、各人体は、1つの人体検出ボックスに対応され、人体検出ボックスは、対応する人体を完全に囲むことができ、人体検出ボックスは、対応する人体を囲む最小のボックスであり得る。人体検出ボックスの形状は、長方形または他の合理的な形状であり得、本発明は、これに対して具体的に限定しない。人体検出ボックス内には、少なくとも1つの目標キーポイントが含まれ、これら目標キーポイントは、手首、肩、肘部などの身体部位などの、人体の目標身体部位に対応される。人体の1つの目標身体部位は、少なくとも1つの目標キーポイントに対応される。人体の異なる目標身体部位に対応する目標キーポイントの数は、同一でも異なってもよく、本発明は、これに対して具体的に限定しない。
本ステップにおいて、以下の方法に従って、人体検出ボックスを取得することができ、すなわち、画像内から人体キーポイントを検出し、人体対象のエッジを確定し、さらに、人体対象を囲む人体検出ボックス構築することによって、人体検出ボックスの画像における位置を確定することができる。具体的に、人体検出ボックスが長方形である場合、長方形ボックスの4つの頂点の座標の位置を取得することができる。
目標身体部位に対応する目標キーポイントを取得することは、目標キーポイントの画像における位置情報を取得することを含み得、たとえば目標キーポイントに対応する1つまたは複数のピクセル点の位置座標を取得することができる。目標身体部位の人体における相対的な位置特徴に基づいて、人体検出ボックスに対して目標キーポイント検出を実行するか、または、画像内で目標キーポイント検出を実行することによって、目標キーポイントの位置を確定することができる。
目標キーポイントと人体検出ボックスとの第1関連関係情報は、目標キーポイントと人体検出ボックスに対応する人体との帰属関係を含み、すなわち、目標キーポイントが人体検出ボックス内の人体に属する場合、目標キーポイントと人体検出ボックスとを関連付ける。逆に、目標キーポイントが人体検出ボックス内の人体に属しない場合、目標キーポイントと人体検出ボックスとを関連付けない。人体検出ボックスと目標キーポイントの位置に基づいて第1関連関係情報を確定することができる。
1つの例において、目標身体部位は、人顔、人手、肘、膝、肩、および、人足の中の任意の1つを含み、これに応じて、目標身体部位に対応する目標キーポイントは、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントの中の任意の1つを含む。
ステップS102において、前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成する。
その中で、目標身体部位は、画像内のラベリングする必要がある位置および/または関連している人体または他の人体の身体部位であり得る。取得された目標キーポイントの位置に基づいて、当該目標キーポイントを囲む包囲ボックスを対応する目標身体部位の検出ボックスとして生成することができる。
ラベリングする必要がある目標身体部位が複数ある場合、これら目標身体部位に対して一括してラベリングを実行することができる。したがって、本ステップでは、これら目標身体部位の検出ボックスを一括して確定することができ、また、これら目標身体部位はさらに順にラベリングすることができ、したがって、本ステップでは、目標身体部位の検出ボックスを1つずつ確定することができる。
その中で、目標身体部位に対応する目標キーポイントは、1つまたは複数あることができるため、本ステップでは、1つまたは複数の目標キーポイントおよび対応する人体検出ボックスに基づいて目標身体部位の検出ボックスを確定することができる。目標身体部位の検出ボックスを目標身体部位の位置ラベルとすることができる。
例として、図2は、目標身体部位の検出ボックスを示す模式図である。図2に示すように、画像内には、210、220、及び230の3つの人体、および、人体210に対応する肘の検出ボックス212、人体220に対応する肘の検出ボックス222、及び人体230に対応する肘の検出ボックス232が含まれ得、また、この中の肘の検出ボックス212、222、および232はすべてペアであり、すなわち左肘および右肘を含む。
ステップS103において、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定し、その中で、前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す。
その中で、第1身体部位は、既にラベリングされた身体部位であり得、そのラベリング情報は、第1身体部位の検出ボックスの位置、および、当該第1身体部位と人体との間の関係を含み得る。オプションとして、第1身体部位のラベリング情報は、部位名称、方位区別情報の中の少なくとも1つをさらに含むが、これらに限定されない。
前記第2関連関係情報は、第1身体部位のラベリング情報に基づいて得られ、第1身体部位と人体検出ボックスとの間の関連関係は、当該第1身体部位と当該人体検出ボックス内の人体との関連関係に基づいて確定され得る。
以下の方法に従って、第3関連関係情報を確定することができ、すなわち、人体検出ボックスと当該人体検出ボックスと関連している目標検出ボックスとを関連付け、当該人体検出ボックスと目標検出ボックスとの間の関連結果、および、第2関連関係情報に基づいて、同じ人体検出ボックスと関連している目標検出ボックスと第1身体部位の第1検出ボックスとを関連付けることによって、第3関連関係情報を得る。
1つの例において、第1身体部位が人顔であり、目標身体部位が肘であると、上記方法に従って人顔と肘との第3関連関係情報を確定することができる。具体的には図2を参照することができ、図2では、210、220、および、230の3つの人体を示し、人体210の第1身体部位は人顔211であり、人体210の目標身体部位は肘212であり、人顔211と肘212との第3関連関係情報を確定することができる。同様に、人体220の第1身体部位が人顔221であり、人体220の目標身体部位が肘222であるため、人顔221と肘222との第3関連関係情報を確定することができ、人体230の第1身体部位が人顔231であり、人体230の目標身体部位が肘232であるため、人顔231と肘232との第3関連関係情報を確定することができる。
肘は、目標身体部位の1つの例に過ぎず、実際の適用において、目標身体部位は、さらに、手首、肩、首、膝などの部位であり得ることを理解できる。いくつかの場面において、人顔情報は、異なる人を区分するために使用され、人の身分情報と関連付けることができる。上記方法は、人体検出ボックスを媒介として、画像内の既にラベリングされた人顔を利用して、同じ人体の人顔と肘とを関連付けることによって、肘に対応する人体の身分情報を確定することができ、画像内から人顔以外の他の身体部位と人顔との関連関係を検出することに役立ち、したがって、他の身体部位に対応する人の身分情報を確定することができる。
もう1つの例において、第1身体部位が人手であり、目標身体部位が肘であると、人手と肘との第3関連関係情報を確定することができる。具体的に、図2を参照すると、図面では、210、220、および、230の3つの人体を示し、人体210の第1身体部位は人手213であり、人体210の目標身体部位は肘212であるため、人手213と肘212との第3関連関係情報を確定することができる。人体220の第1身体部位が人手223であり、人体220の目標身体部位が肘222であるため、人手223と肘222との第3関連関係情報を確定することができる。人体230の第1身体部位が人手233であり、人体230の目標身体部位が肘232であるため、人手233と肘232との第3関連関係情報を確定することができる。
上記目標検出ボックスおよび第3関連関係情報は、画像内の目標身体部位のラベリング情報として使用され得るため、上記方法は画像内の目標身体部位の自動的なラベリングを実現した。画像に基づいて人体動作を認識するかまたは身体部位を認識するためニューラルネットワークをトレーニングときに、大量の画像を高速かつ自動的にラベリングすることができ、ニューラルネットワークのトレーニングのために、十分なトレーニングサンプルを提供することができ、ニューラルネットワークのトレーニングサンプルを取得する困難さを軽減した。
上記の実施例から分かるように、画像の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得し、さらに目標キーポイントおよび前記人体検出ボックスに基づいて目標身体部位の目標検出ボックスを生成し、最後に、事前にラベリングした人体検出ボックスと第1身体部位との間の第2関連関係情報および上記第1関連関係情報に基づいて、目標検出ボックスと前記第1身体部位の第1検出ボックスとの間の第3関連関係情報を確定することによって、目標身体部位と第1身体部位の自動的な関連付を実現し、さらに目標身体部位と第1身体部位の関連関係のラベリングを実現し、手作業による非効率的なラベリングの問題を解決し、画像内の身体部位間の関連性ラベリング効率を向上させた。
本発明のいくつかの実施例において、以下の方法を採用して画像内の人体検出ボックス、目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することができ、すなわち、まず、画像内の人体検出ボックスおよび前記人体検出ボックス内の人体キーポイントを取得し、次に、前記人体キーポイントの中の目標身体部位に対応する目標キーポイントを抽出し、最後に、前記人体検出ボックスと抽出した前記目標キーポイントとの第1関連関係情報を生成する。
そのうち、人体検出ボックス内には、少なくとも1つの人体キーポイントが含まれ、これら人体キーポイントは、手首、肩、肘部、人手、人足、人顔などの身体部位などの、人体の少なくとも1つの身体部位に対応される。人体の1つの身体部位は、少なくとも1つの人体キーポイントに対応される。人体の異なる身体部位に対応する人体キーポイントの数は、同一でも異なってもよく、本発明は、これに対して具体的に限定しない。
本ステップにおいて、以下の方法に従って、人体キーポイントを取得することができ、すなわち、前記画像を画像内の人体対象を検出するためのニューラルネットワークを入力し、当該ニューラルネットワークによって出力される人体キーポイントの位置情報を取得する。オプションとして、当該ニューラルネットワークは、人体検出ボックスの位置情報をさらに出力することができる。その中で、前記画像内の人体対象を検出するためのニューラルネットワークは、大量のデータを利用してトレーニングしたモデルであり得、画像各位置の特徴を正確に抽出し、抽出した特徴認識画像内の人体キーポイントなどの、抽出した特徴認識画像の内容に基づいて、人体キーポイントの位置情報を確定することができ、オプションとして、さらに、抽出した特徴認識画像内の人体検出ボックスに基づいて、人体キーポイントの位置情報を確定することができる。
本ステップにおいて、さらに、検出された人体キーポイントの位置情報に基づいて、対応する人体のエッジを確定し、人体を囲む人体検出ボックスを構築することによって、人体検出ボックスの画像における位置を確定することができる。画像内の人体検出ボックスと人体キーポイントとの位置包含関係に基づいて、人体検出ボックスと人体キーポイントとの帰属関係を確定することができる。
1つの例において、得られた人体キーポイントに対応する身体部位は、人顔、人手、肘、膝、肩、および、人足の中の少なくとも1つを含み、これに応じて、人体キーポイントは、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントの中の少なくとも1つを含む。
本ステップにおいて、目標身体部位の人体における相対的な位置特徴に基づいて、全ての人体キーポイントの位置情報をスクリーニングすることによって、目標身体部位の相対的な位置特徴にマッチングされる人体キーポイントを目標キーポイントとして確定することができる。1つの例において、人体検出ボックス内には、人顔キーポイント、人手キーポイント、肘キーポイント、膝キーポイント、肩キーポイント、および、人足キーポイントが含まれ、目標部位が肘である場合、上記人体キーポイントの中から肘キーポイントを目標キーポイントとして抽出することができる。
本ステップにおいて、抽出した目標キーポイントと人体検出ボックスとの帰属関係に基づいて、目標キーポイントと人体検出ボックスとの間の第1関連関係情報を確定することができる。
本発明のいくつかの実施例において、前記目標検出ボックスは、前記目標キーポイントを位置決め点とし、前記人体検出ボックスおよび所定の検出ボックスの中の少なくとも1つと所定の面積比関係を満たし、その中で、前記所定の検出ボックスは、事前にラベリングした所定の身体部位の検出ボックスである。
その中で、目標検出ボックスの位置決め点は、検出ボックスの中心であり得、つまり、目標キーポイントを目標検出ボックスの中心として設定する。
その中で、所定の面積比関係は、エルゴノミクスなどの事前知識に基づいて得られた、所定の比例区間内におり、また、いくつかの画像内の目標身体部位、所定の身体部位、および、人体の面積比の統計値に基づいて確定されたものである。異なる目標身体部位の検出ボックスと人体検出ボックスとの所定の面積比関係は、異なることができ、すなわち、各目標検出ボックスと人体検出ボックスとの所定の面積比関係は、いずれも個別に設定され得る。目標身体部位と異なる所定の身体部位の検出ボックスとの所定の面積比関係は、異なることができ、すなわち、目標検出ボックスと異なる所定の検出ボックスとの所定の面積比関係は、いずれも個別に設定され得る。
上記方法に従って、目標検出ボックスを高速に構築して、目標身体部位の位置のラベリングを実装することができる。
本ステップにおいて、目標検出ボックスの面積は、以下のパラメータに基づいて確定することができ、当該パラメータは、前記人体検出ボックスの第1重み、前記人体検出ボックスと前記目標検出ボックスとの所定の面積比関係、前記人体検出ボックスの面積、前記所定の検出ボックスの第2重み、前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比関係、および、前記所定の検出ボックスの面積を含む。つまり、目標検出ボックスは、人体検出ボックスのみと所定の面積比関係を満たすことができ、すなわち、第1重みが1であり、第2重みが0であり得る。さらに、所定の検出ボックスのみと所定の面積比関係を満たすことができ、すなわち、第1重みが0であり得、第2重みが1であり得る。さらに、人体検出ボックスおよび所定の検出ボックスとそれぞれ対応する所定の面積比関係を満たすことができ、すなわち、第1重みおよび第2重みがいずれも0から1までの比例であり、また両者の合計が1である。
具体的に、以下の式に従って目標検出ボックスの面積を確定することができる。
Figure 2023511243000002
その中で、Sは、目標検出ボックスの面積であり、Wは、第1重みであり、tは前記人体検出ボックスと前記目標検出ボックスとの所定の面積比であり、Sは前記人体検出ボックスの面積であり、Wは第2重みであり、tは前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比であり、Sは前記所定の検出ボックスの面積である。
目標検出ボックスは、人体検出ボックスと形状が同じであり得、たとえば、人体検出ボックスの形状が長方形であり、目標検出ボックスも長方形であり得、また、人体検出ボックスの縦横比が前記目標検出ボックスの縦横比と等しい。たとえば、目標身体部位の肘の目標検出ボックスと人体検出ボックスとの所定の面積比関係が1:9であり、人体検出ボックスの形状が長方形である場合、人体検出ボックスの長辺と短辺をそれぞれ同じ比率で1/3に縮小して、目標検出ボックスの長辺と短辺を得ることができる。
目標検出ボックスは、対応する人体検出ボックスの形状と異なることができ、異なる部位に応じて該当する検出ボックスの形状を事前に設定することができ、たとえば、人体検出ボックスは長方形であり、人顔の検出ボックスが円であり得る。目標検出ボックスおよび人体検出ボックスの形状がいずれも長方形である場合、縦横比は異なることができ、異なる身体部位に応じて長方形検出ボックスの縦横比を事前に設定することができる。
いくつかの場面において、人顔の大きさは、人体の深層情報をある程度示し、すなわち、人顔の検出ボックスの面積は、人体の深層情報を示すことができ、したがって、人顔を所定の身体部位とすることができ、つまり、人体検出ボックスおよび人顔検出ボックスの2つを組み合わせて、目標検出ボックスの面積を確定することができる。
本発明の実施例において、目標検出ボックスを確定することは、目標身体部位の検出ボックスの画像における位置を確定することであり得、たとえば、当検出ボックスが長方形であると、検出ボックスの4つの頂点の座標を確定することができる。本実施例において、形状、面積、所定の重み、および、位置決め点の位置などの複数の拘束条件に基づいて、目標検出ボックスを生成することができ、精度がより高い目標検出ボックスを得ることができ、さらに目標検出ボックスに基づいて生成した目標身体部位のラベリング情報もより高い精度を有する。また、上記方法は、目標身体部位の目標検出ボックスを自動的に生成するため、手作業による非効率的なラベリングの問題を解決し、目標身体部位のラベリング効率を向上させた。
人体の部位は、人顔、首などの単独的な部位だけでなく、人手、肘、膝、肩、および、人足などの対称的な部位も含む。対称的な部位は、ペアで存在し、また方位区別情報を有し、方位区別情報は身体部位の人体における方位を判別するために使用される。たとえば、左および右の場合、例示的な、左手、左肘、左臂の方位区別情報は左であり、右手、右肘、右臂の方位区別情報は右である。さらに、第1身体部位は、単独的な部位であり得、対称的な部位でもあり得る。目標身体部位は、単独的な部位でありえ、対称的な部位でもあり得る。これに対して、第1身体部位および目標身体部位の種類によって第3関連関係情報の生成する方法を決定されることができ、具体的に言えば、以下の4つの場合が存在する。
第1の場合、前記第1身体部位が1つの単独的な部位を含み、前記目標身体部位が1つの単独的な部位を含む場合、以下の方法を採用して、第3関連関係情報を生成することができ、すなわち、前記人体検出ボックスと関連している第1身体部位の第1検出ボックスと目標身体部位の目標検出ボックスとを関連付けて、第3関連関係情報を生成する。たとえば、第1身体部位が人顔であり、目標身体部位が首であると、人顔と首との第3関連関係情報を確定する。
第2の場合、前記第1身体部位が1つの単独的な部位を含み、前記目標身体部位が同じ人体の2つの第1対称的な部位の中の少なくとも1つを含む場合、以下の方法に従って、第3関連関係情報を確定し、すなわち、まず、目標身体部位の方位区別情報を取得し、次に、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて、同じ人体検出ボックスと関連している第1検出ボックスと目標検出ボックスとを関連付けて、第3関連関係情報を生成する。その中で、目標検出ボックス、第3関連関係情報、および、目標身体部位の方位区別情報は、画像内の目標身体部位のラベリング情報として使用することができる。
たとえば、第1身体部位が人顔であり、目標身体部位が左肘および右肘を含むと、人顔と左肘との第3関連関係情報および人顔と右肘との第3関連関係情報を確定し、さらに、左肘の検出ボックス、人顔と左肘との第3関連関係情報、および、方位区別情報(左)を、左肘のラベリング情報として使用し、右肘の検出ボックス、人顔と右肘との第3関連関係情報、および、方位区別情報(右)を、右肘のラベリング情報として使用することができる。
第3の場合、前記第1身体部位が同じ人体の2つの第2対称的な部位の中の少なくとも1つを含み、前記目標身体部位が1つの単独的な部位を含む場合、以下の方法に従って、第3関連関係情報を確定することができ、すなわち、まず、第1身体部位の方位区別情報を取得し、次に、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて、同じ人体検出ボックスと関連している第1検出ボックスと目標検出ボックスとを関連付けて、第3関連関係情報を生成する。その中で、目標検出ボックス、第3関連関係情報、および、第1身体部位の方位区別情報を、画像内の目標身体部位のラベリング情報として使用することができる。
たとえば、目標身体部位が人顔であり、第1身体部位が左肘を含むと、人顔と左肘との第3関連関係情報を確定し、さらに、人顔の検出ボックス、人顔と左肘との第3関連関係情報、および、方位区別情報(左)を人顔のラベリング情報として使用することができる。
第4の場合、前記目標身体部位が同じ人体の2つの第1対称的な部位の中の少なくとも1つを含み、前記第1身体部位が同じ人体の2つの第2対称的な部位の中の少なくとも1つを含む場合、以下の方法に従って、第3関連関係情報を確定することができ、すなわち、まず、前記目標身体部位の方位区別情報を取得し、前記第1身体部位の方位区別情報を取得し、次に、前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて、同じ人体検出ボックスと関連しており、方位区別情報が同一である第1検出ボックスと、目標検出ボックスと、を関連付け、最後に、前記第1検出ボックスと目標検出ボックスとの関連結果に基づいて第3関連関係情報を生成する。その中で、目標検出ボックス、第3関連関係情報、および、目標身体部位の方位区別情報は、画像内の目標身体部位のラベリング情報として使用することができる。
たとえば、第1身体部位が左手および右手を含み、目標身体部位が左肘および右肘を含むと、検出された左手、右手、および、左手および右手のそれぞれと程度肘との間の相対位置関係に基づいて、左手と左肘との第3関連関係情報および右手と右肘との第3関連関係情報を確定し、さらに、左肘の検出ボックス、左手と左肘の第3関連関係情報、および、方位区別情報(左)を、左肘のラベリング情報として使用し、右肘の検出ボックス、右手と右肘との第3関連関係情報、および、方位区別情報(右)を右肘のラベリング情報として使用することができる。
その中で、第2関連関係情報は、第1身体部位のラベリング情報に基づいて得ることができ、つまり、第1身体部位のラベリング情報は、第1身体部位と人体と人体検出ボックスのとの間の対応関係を含み得る。第2関連関係情報は、さらに、人体検出ボックスと人体検出ボックス内の人体キーポイントの対応関係から得ることができ、具体的に言えば、第1身体部位とその中の人体キーポイントとの対応関係、および、上記人体キーポイントと人体検出ボックスの対応関係に基づいて、第1身体部位と人体と人体検出ボックスとの対応関係を得ることができる。
その中で、第1身体部位のラベリング情報は、さらに少なくとも1つの第2対称的な部位に対応する方位区別情報を含み得、つまり、少なくとも1つの第2対称的な部位に対して左または右を対応的にラベリングすることができ、したがって、第1身体部位の方位区別情報を第1身体部位のラベリング情報から取得することができる。第1身体部位の方位区別情報は、前記人体検出ボックスおよび前記第1身体部位に対応する人体キーポイントに基づいて確定することができ、つまり、2つの第2対称的な部位は異なる人体キーポイントを有するため、それ自体に含まれた人体キーポイントの位置情報などに基づいて第2対称的な部位の方向区分情報を確定することができる。すなわち、人体キーポイントの方向が左であると、対応する第2対称的な部位の方位区別情報が左であり、人体キーポイントの方向が右であると、対応する第2対称的な部位の方位区別情報が右である。目標身体部位の方位区別情報は、前記人体検出ボックスおよび前記目標身体部位に対応する目標キーポイントに基づいて確定することができ、具体的な取得方法は第1身体部位の方位区別情報の取得方法と同じであり、ここでこれ以上繰り返して説明しない。
その中で、位置帰属関係に従って同じ人体検出ボックスと関連している目標身体部位の目標検出ボックスおよび第1身体部位の第1検出ボックスを確定することができ、すなわち、同じ人体検出ボックスに含まれた目標検出ボックスおよび第1検出ボックスを、同じ人体検出ボックスと関連している目標検出ボックスおよび第1検出ボックスとして使用することができる。
本発明の実施例において、第1身体部位および目標身体部位の異なる種類に対して、それぞれ異なる方法によって第3関連関係情報を確定することによって、第1身体部位および目標身体部位の関連関係の正確性を向上させた。
本発明の実施例において、さらに、第3関連関係情報を確定した後に、前記第3関連関係情報および前記目標身体部位の方位区別情報に基づいて前記目標身体部位の関連性ラベルを生成することができる。
その中で、画像に基づいて人体動作を認識するかまたは身体部位を認識するためのニューラルネットワークをトレーニングする場合、関連性ラベルを画像内の目標身体部位のラベルの1つとすることができる。さらに、関連性ラベルは、方位区別情報を含み得、したがって、対称的な身体部位の方位を判別することができ、さらに目標身体部位のラベリングの正確性を向上させ、ニューラルネットワークのトレーニング効率およびトレーニング品質を向上させることができる。
発明のいくつかの実施例において、前記画像処理方法は、前記第2関連関係情報および事前にラベリングした第4関連関係情報に基づいて第5関連関係情報を生成することをさらに含み、その中で、第4関連関係情報は、第2身体部位と前記人体検出ボックスとの関連関係を示し、前記第5関連関係情報は、前記目標検出ボックスと前記第2身体部位の第2検出ボックスとの間の関連関係を示す。
その中で、第2身体部位が既にラベリングされた身体部位であり、そのラベリング情報は、第2身体部位の検出ボックスの位置、部位名称、方位区別情報、人体との対応関係などを含み得る。したがって、第4関連関係情報は、第2身体部位のラベリング情報に基づいて得ることができ、すなわち、第2身体部位と人体検出ボックスとの間の関連関係は、第2身体部位と人体検出ボックス内の人体との関連関係によって確定され得る。
その中で、第4関連関係情報は、さらに、人体検出ボックスと人体検出ボックス内の人体キーポイントとの対応関係から取得することができ、具体的な取得方法は、第1身体部位の取得方法と同じであり、ここではこれ以上繰り返して説明しない。
その中で、第1身体部位および第2身体部位のタイプに基づいて、4つの状況に分けられることができ、すなわち、第1身体部位および第2身体部位がいずれも単独的な部位である第1の状況、第1身体部位が対称的な部位であり、第2身体部位が単独的な部位である第2の状況、第1身体部位が単独的な部位であり、第2身体部位が対称的な部位である第3の状況、および、第1身体部位が対称的な部位であり、第2身体部位が対称的な部位である第4の状況に分けられることができる。当業者は、上記の4つの状況に第5関連関係情報を確定する方法は第3関連関係情報の確定方法を参照することができ、ここでこれ以上繰り返して説明しないことを理解できる。
1つの例において、前記第1身体部位は、前記第2身体部位と異なり、前記第2身体部は、人顔、人手、肘、膝、肩、および、人足の中の1つである。
たとえば、第1身体部位が人顔であり、第2身体部位が人手であると、人顔と人手との第5関連関係情報を確定することができる。具体的に、図2を参照すると、図面に、210、220、および、230の3つの人体を示し、人体210の第1身体部位が人顔211であり、人体210の第2身体部位が人手213であると、人顔211と人手213との第5関連関係情報を確定することができる。人体220の第1身体部位が人顔221であり、人体220の第2身体部位が人手223であると、人顔221と人手223との第5関連関係情報を確定することができる。人体230の第1身体部位が人顔231であり、人体230の第2身体部位が人手233であると、人顔231と人手233との第5関連関係情報を確定することができる。
本発明の実施例において、第5関連関係情報を確定することによって、画像のラベリング情報をさらに豊富にすることができるため、当該画像は、マルチタスクニューラルネットワークのトレーニングに適用されることができ、たとえば肘と人顔および人手との関連性を検出するためのニューラルネットワークをトレーニングすることができ、マルチタスクニューラルネットワークのトレーニング中のサンプルの収集の困難さを軽減し、マルチタスクニューラルネットワークのトレーニングの品質を向上させるのに役立つ。
本発明のいくつかの実施例において、前記画像処理方法は、前記第3関連関係情報、または、前記第2関連関係情報と前記第3関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示することをさらに含む。
その中で、関連関係標示情報は、結線の形態で表示することができ、つまり、第3関連関係情報は、目標身体部位の目標検出ボックスと第1身体部位の第1検出ボックスとの結線で表示することができる。
1つの例において、目標身体部位が左手であり、第1身体部位が左肘であり、左手と左肘との間の第3関連関係情報を確定した後に、左手の検出ボックスと左肘の検出ボックスとを結線で接続して、対応する関連関係標示情報として使用することができ、具体的には図2を参照することができる。図面には、210、220、および、230の3つの人体が示され、人体210の目標身体部位は左手213であり、人体210の第1身体部位は左肘212であり、左手213の検出ボックスと左肘212の検出ボックスとを結線で接続して、両者間の第3関連関係情報の標示情報として使用することができる。人体220の目標身体部位が左手223であり、人体220の第1身体部位が左肘222であり、左手223の検出ボックスと左肘222の検出ボックスとを結線で接続して、両者間の第3関連関係情報の標示情報として使用することができる。人体230の目標身体部位が左手233であり、人体230の第1身体部位が左肘232であると、左手233の検出ボックスと左肘232の検出ボックスとを結線で接続して、両者間の第3関連関係情報の標示情報として使用することができる。
これに応じて、第5関連関係情報、または、第4関連関係情報と第5関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示することができる。その中で、第5関連関係情報は、第2身体部位の第2検出ボックスと第1身体部位の第1検出ボックスとの結線を採用して表示することができる。
第3関連関係情報および第5関連関係情報をすべて画像に表示した後に、第1身体部位、目標身体部位、および、第2身体部位の関連関係標示情報が形成され、たとえば、第1身体部位が人顔であり、目標身体部位が左肘であり、第2身体部位が左手であると、人顔、左肘、および、左手の3つの関連関係標示情報が形成される。具体的には、図2を参照すると、図面には、210、220、および、230の3つの人体が示され、人体210の第1身体部位が人顔211であり、人体210の目標身体部位が左肘212であり、人体210の第2身体部位が左手213であると、人顔211の検出ボックスと左肘212の検出ボックスと左手213の検出ボックスとを順に接続して、人顔211、左肘212、および、左手213の関連関係標示情報を形成することができる。人体220の第1身体部位が人顔221であり、人体220の目標身体部位が左肘222であり、人体220の第2身体部位が左手223であると、人顔221の検出ボックスと左肘222の検出ボックスと左手223の検出ボックスとを順に接続して、人顔221、左肘222、および、左手223の関連関係標示情報を形成することができる。人体230の第1身体部位が人顔231であり、人体230の目標身体部位が左肘232であり、人体230の第2身体部位が左手233であると、人顔231の検出ボックスと左肘232の検出ボックスと左手233の検出ボックスとを順に接続して、人顔231、左肘232、および、左手233の関連関係標示情報を形成することができる。
上記関連関係標示情報の表示は、結線を採用する表示方法に限定されず、さらに、同じ色の検出ボックスを利用して、同じ人体に関連している異なる身体部位を標示し、同じ人体の異なる部位に対応する人の身分識別子などを標示することができる。
本発明の実施例において、第3関連関係情報および第5関連関係情報中の少なくとも1つを表示することによって、ラベリング結果を直感的に表示することができ、ラベリング人員の関連性ラベリング結果のチェックを容易にし、人体動作検出および追跡に適用する場合、関連関係標示情報を使用して人体動作および追跡結果を表示することができ、関連関係の検出結果の評価を便利にする。
本発明の実施例の第2態様によると、ニューラルネットワークのトレーニング方法を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記方法は、画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第1態様に記載の方法によって確定される。
上記の画像処理方法によって得られた第3関連関係情報は、画像トレーニングセット中の画像をラベリングするために使用され、比較的に正確かつ信頼的なラベリング情報をえることができるため、トレーニングして得られた画像内の身体部位間の関連関係を検出するためのニューラルネットワークは、比較的に高い精度を有する。
本発明の実施例の第3態様によると、動作認識方法を提供し、前記方法は、画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、その中で、前記関連関係情報は、第2態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。
上記の画像内の身体部位間の関連関係を検出するためのニューラルネットワークに基づいて予測した人体部位との間の関連関係情報は、人体動作検出で同じ人体の異なる身体部位を正確に関連付けることができ、したがって、同じ人体の異なる身体部位間の相対位置および角度関係の分析に役立ち、さらに人体動作を確定し、比較的に正確な人体動作認識結果を得ることができる。
図3を参照すると、本発明の実施例の第4態様は、画像処理装置を提供し、当該装置は、
画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得するためのキーポイント取得モジュール301と、
前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュール302と、
前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定するための関連関係確定モジュール303と、を備え、その中で、前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す。
本発明の実施例の第5態様によると、ニューラルネットワークのトレーニング装置を提供し、前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、前記装置は、
画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備える。
その中で、前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、第1態様に記載の方法によって確定される。
本発明の実施例の第6態様によると、動作認識装置を提供し、前記装置は、
画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを備え、その中で、前記関連関係情報は、第2態様に記載の方法によってトレーニングしたニューラルネットワークに基づいて得られる。
上記の実施例の装置について、その中の各モジュールが操作を実行する具体的な方式は、既に第3態様の関連される方法の実施例で詳細に説明したため、ここでは繰り返して詳細に説明しない。
図4を参照すると、本発明の実施例の第7態様は、電子デバイスを提供し、前記電子デバイスは、メモリとプロセッサとを備え、前記メモリは、プロセッサで運行可能なコンピュータ命令を格納し、前記プロセッサは、前記コンピュータ命令を実行するときに、第1態様、第2態様、または、第3態様に記載の方法を実現する。
本発明の実施例の第8態様によると、コンピュータプログラムが格納されているコンピュータ可読記録媒体を提供し、前記プログラムがプロセッサによって実行されると、第1態様、第2態様、または、第3態様に記載の方法が実現される。
本発明において、「第1」および「第2」という用語は、説明の目的でのみ使用され、相対的な重要性を示したり暗示したりするものとして理解することはできない。「複数」という用語は、特に断らない限り、2つ以上を指す。
当業者は、明細書を検討し、本明細書に開示された開示を実行した後、本発明の他の実施形態を容易に考えるであろう。本発明は、本発明のあらゆる変形、用途または適応的変更を包含することを意図しており、これらの変形、用途または適応的変更は、本発明の一般原理に従い、技術の分野における一般的な知識または従来の技術的手段を含む。明細書および実施例は、単なる例示と見なされるべきであり、本発明の真の範囲および精神は、以下の特許請求の範囲によって指摘される。
本発明は、上記および図面に示された精確な構造に限定されるものではなく、本発明の範囲から逸脱することなく、様々な修正および変更を行うことができることを理解されたい。 本開示の範囲は、添付の特許請求の範囲によってのみ限定される。

Claims (20)

  1. 画像処理方法であって、
    画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することと、
    前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成することと、
    前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定することと、を含み、
    前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、
    前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の第1検出ボックスとの関連関係を示す
    ことを特徴とする画像処理方法。
  2. 前記画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得することは、
    前記画像内の人体検出ボックスおよび前記人体検出ボックス内の人体キーポイントを取得することと、
    前記人体キーポイントの中の前記目標身体部位に対応する目標キーポイントを抽出することと、
    前記人体検出ボックスと抽出した前記目標キーポイントとの第1関連関係情報を生成することと、を含む
    ことを特徴とする請求項1に記載の画像処理方法。
  3. 前記目標検出ボックスは、前記目標キーポイントを位置決め点とし、前記人体検出ボックスおよび所定の検出ボックスの中の少なくとも1つと所定の面積比関係を満たし、
    前記所定の検出ボックスは、事前にラベリングした所定の身体部位の検出ボックスである
    ことを特徴とする請求項1に記載の画像処理方法。
  4. 前記目標検出ボックスの面積は、次のパラメータによって確定され、
    前記パラメータは、
    前記人体検出ボックスの第1重み、
    前記人体検出ボックスと前記目標検出ボックスとの所定の面積比関係、
    前記人体検出ボックスの面積、
    前記所定の検出ボックスの第2重み、
    前記所定の検出ボックスと前記目標検出ボックスとの所定の面積比関係、および
    前記所定の検出ボックスの面積を含む
    ことを特徴とする請求項3に記載の画像処理方法。
  5. 前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定することは、
    前記人体検出ボックスと関連している第1検出ボックスと前記目標検出ボックスとを関連付けて、第3関連関係情報を生成することを含む
    ことを特徴とする請求項1から4のいずれか1項に記載の画像処理方法。
  6. 前記目標身体部位が同じ人体の2つの第1対称的な部位の中の少なくとも1つを含む場合、前記目標身体部位の方位区別情報を取得することをさらに含む
    ことを特徴とする請求項1から5のいずれか1項に記載の画像処理方法。
  7. 前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定することは、
    前記第1身体部位が同じ人体の2つの第2対称的な部位の中の少なくとも1つを含む場合、前記第1身体部位の方位区別情報を取得することと、
    前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて、前記人体検出ボックスと関連しており、かつ方位区別情報が同一である前記第1検出ボックスと、前記目標検出ボックスとを、関連付けることと、
    前記第1検出ボックスおよび目標検出ボックスの関連結果に基づいて第3関連関係情報を生成することと、を含む
    ことを特徴とする請求項6に記載の画像処理方法。
  8. 前記目標身体部位の方位区別情報を取得することは、
    前記人体検出ボックスおよび前記目標身体部位に対応する目標キーポイントに基づいて、前記目標身体部位の方位区別情報を確定することを含む
    ことを特徴とする請求項6または7に記載の画像処理方法。
  9. 前記第3関連関係情報および前記目標身体部位の方位区別情報に基づいて前記目標身体部位の関連性ラベルを生成することをさらに含む
    ことを特徴とする請求項6から8のいずれか1項に記載の画像処理方法。
  10. 前記第1身体部位および前記目標身体部位は、人顔、人手、肘、膝、肩、および、人足の中の1つである
    ことを特徴とする請求項1から9のいずれか1項に記載の画像処理方法。
  11. 前記第2関連関係情報および事前にラベリングした第4関連関係情報に基づいて第5関連関係情報を生成することをさらに含み、
    前記第4関連関係情報は、第2身体部位と前記人体検出ボックスとの関連関係を示し、
    前記第5関連関係情報は、前記目標検出ボックスと前記第2身体部位の第2検出ボックスとの間の関連関係を示す
    ことを特徴とする請求項1から10のいずれか1項に記載の画像処理方法。
  12. 前記第1身体部位は、前記第2身体部位と異なり、
    前記第2身体部は、人顔、人手、肘、膝、肩、および、人足の中の1つである
    ことを特徴とする請求項11に記載の画像処理方法。
  13. 前記第3関連関係情報、または、前記第2関連関係情報と前記第3関連関係情報に基づいて、前記画像に対応する関連関係標示情報を表示する
    ことを特徴とする請求項1から12のいずれか1項に記載の画像処理方法。
  14. ニューラルネットワークのトレーニング方法であって、
    前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、
    前記ニューラルネットワークのトレーニング方法は、
    画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングすることを含み、
    前記画像トレーニングセット中の画像は、ラベリング情報を含み、
    前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、
    前記関連関係情報は、請求項1から13のいずれか1項に記載の前記方法によって確定される
    ことを特徴とするニューラルネットワークのトレーニング方法。
  15. 動作認識方法であって、
    画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識することを含み、
    前記関連関係情報は、請求項14に記載の前記方法によってトレーニングしたニューラルネットワークに基づいて得られる
    ことを特徴とする動作認識方法。
  16. 画像処理装置であって、
    画像内の人体検出ボックス、目標身体部位に対応する目標キーポイント、および、前記人体検出ボックスと前記目標キーポイントとの第1関連関係情報を取得するためのキーポイント取得モジュールと、
    前記目標キーポイントおよび前記人体検出ボックスに基づいて、前記目標身体部位の目標検出ボックスを生成するための検出ボックス生成モジュールと、
    前記第1関連関係情報および事前にラベリングした第2関連関係情報に基づいて第3関連関係情報を確定するための関連関係確定モジュールと、を備え、
    前記第2関連関係情報は、第1身体部位と前記人体検出ボックスとの関連関係を示し、前記第3関連関係情報は、前記目標検出ボックスと前記第1身体部位の検出ボックスとの関連関係を示す
    ことを特徴とする画像処理装置。
  17. ニューラルネットワークのトレーニング装置であって、
    前記ニューラルネットワークは、画像内の身体部位間の関連関係を検出するために使用され、
    前記ニューラルネットワークのトレーニング装置は、
    画像トレーニングセットを利用して前記ニューラルネットワークをトレーニングするためのトレーニングモジュールを備え、
    前記画像トレーニングセット中の画像は、ラベリング情報を含み、前記ラベリング情報は、画像内の第1身体部位と目標身体部位との間の関連関係情報を含み、前記関連関係情報は、請求項1から13のいずれか1項に記載の前記方法によって確定される
    ことを特徴とするニューラルネットワークのトレーニング装置。
  18. 動作認識装置であって、
    画像内の第1身体部位および目標身体部位の関連関係情報に基づいて画像内の人体の動作を認識するための認識モジュールを含み、
    前記関連関係情報は、請求項14に記載の前記方法によってトレーニングしたニューラルネットワークに基づいて得られる
    ことを特徴とする動作認識装置。
  19. 電子デバイスであって、
    メモリとプロセッサとを備え、
    前記メモリは、前記プロセッサによって実行可能なコンピュータ命令を格納し、
    前記プロセッサは、前記コンピュータ命令を実行するときに請求項1から15のいずれか1項に記載の方法を実現する
    ことを特徴とする電子デバイス。
  20. コンピュータプログラムが記録されているコンピュータ可読記録媒体であって、
    前記コンピュータプログラムがプロセッサによって実行されるときに、請求項1から15のいずれか1項に記載の前記方法の操作が実現される
    ことを特徴とするコンピュータ可読記録媒体。
JP2021536381A 2020-12-31 2021-05-19 画像処理方法と装置、電子デバイス、及び記録媒体 Withdrawn JP2023511243A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SG10202013266S 2020-12-31
SG10202013266S 2020-12-31
PCT/IB2021/054306 WO2022144607A1 (en) 2020-12-31 2021-05-19 Methods, devices, electronic apparatuses and storage media of image processing

Publications (1)

Publication Number Publication Date
JP2023511243A true JP2023511243A (ja) 2023-03-17

Family

ID=78242853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021536381A Withdrawn JP2023511243A (ja) 2020-12-31 2021-05-19 画像処理方法と装置、電子デバイス、及び記録媒体

Country Status (4)

Country Link
US (1) US20220207266A1 (ja)
JP (1) JP2023511243A (ja)
KR (1) KR20220098315A (ja)
AU (1) AU2021203869B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457644B (zh) * 2022-11-10 2023-04-28 成都智元汇信息技术股份有限公司 一种基于扩展空间映射获得目标的识图方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108710868B (zh) * 2018-06-05 2020-09-04 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测***及方法
CN111950567B (zh) * 2020-08-18 2024-04-09 创新奇智(成都)科技有限公司 一种提取器训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
AU2021203869B2 (en) 2023-02-02
CN113597614A (zh) 2021-11-02
US20220207266A1 (en) 2022-06-30
AU2021203869A1 (en) 2022-07-14
KR20220098315A (ko) 2022-07-12

Similar Documents

Publication Publication Date Title
CN105512627B (zh) 一种关键点的定位方法及终端
Devanne et al. 3-d human action recognition by shape analysis of motion trajectories on riemannian manifold
CN103718175B (zh) 检测对象姿势的设备、方法和介质
CN106030610B (zh) 移动设备的实时3d姿势识别和跟踪***
US20110025834A1 (en) Method and apparatus of identifying human body posture
US20210312523A1 (en) Analyzing facial features for augmented reality experiences of physical products in a messaging system
US10776978B2 (en) Method for the automated identification of real world objects
US11521334B2 (en) Augmented reality experiences of color palettes in a messaging system
Rallis et al. Extraction of key postures from 3D human motion data for choreography summarization
US11915305B2 (en) Identification of physical products for augmented reality experiences in a messaging system
CN114998934B (zh) 基于多模态智能感知和融合的换衣行人重识别和检索方法
KR102668172B1 (ko) 메시징 시스템에서의 증강 현실 경험을 위한 물리적 제품들의 식별
US20210312678A1 (en) Generating augmented reality experiences with physical products using profile information
Hu et al. Exemplar-based recognition of human–object interactions
CN107247920A (zh) 交互控制方法、装置和计算机可读存储介质
CN110135304A (zh) 人***姿识别方法及装置
Hu et al. Human interaction recognition using spatial-temporal salient feature
JP2023511243A (ja) 画像処理方法と装置、電子デバイス、及び記録媒体
CN113557546B (zh) 图像中关联对象的检测方法、装置、设备和存储介质
JP5536124B2 (ja) 画像処理システム及び画像処理方法
CN114565976A (zh) 一种训练智能测试方法以及装置
CN112381118B (zh) 一种大学舞蹈考试测评方法及装置
WO2023098635A1 (zh) 图像处理
CN110910478A (zh) Gif图生成方法、装置、电子设备及存储介质
CN113597614B (zh) 图像处理方法和装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210622

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210622

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230209