JP7277855B2 - 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム - Google Patents

被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム Download PDF

Info

Publication number
JP7277855B2
JP7277855B2 JP2022501524A JP2022501524A JP7277855B2 JP 7277855 B2 JP7277855 B2 JP 7277855B2 JP 2022501524 A JP2022501524 A JP 2022501524A JP 2022501524 A JP2022501524 A JP 2022501524A JP 7277855 B2 JP7277855 B2 JP 7277855B2
Authority
JP
Japan
Prior art keywords
subject
feature point
maps
vector field
feature points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022501524A
Other languages
English (en)
Other versions
JPWO2021166181A1 (ja
Inventor
誠明 松村
肇 能登
良規 草地
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2021166181A1 publication Critical patent/JPWO2021166181A1/ja
Application granted granted Critical
Publication of JP7277855B2 publication Critical patent/JP7277855B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/18143Extracting features based on salient regional features, e.g. scale invariant feature transform [SIFT] keypoints
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

本発明は、被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラムに関する。
デジタルカメラやビデオカメラ等の撮影装置で撮影された画像内に写された被写体毎に、画像内における被写体の関節、目、耳及び鼻等の特徴点の二次元座標を推定し、被写体別に特徴点を分離する手法が提案されている。このような技術分野には、広くDeep learningを用いた機械学習が使用されている。例えば、画像内にて各特徴点の現れる座標にピークが立つように構成されたヒートマップと、各特徴点の接続関係を記述するベクトル場等を学習させた学習済みモデルを用いて、特徴点を被写体毎に分離する手法が使用されている。以下、特徴点を被写体毎に分離することを被写体別特徴点分離と呼ぶ。
被写体の特徴点は図6のようなツリー状の階層構造で記述される。図6は、MS COCO(Microsoft Common Object in Context)データセットにおいて定義された各特徴点の例を示す図である。各特徴点の接続関係を記述するベクトル場には階層構造における子の特徴点から親の特徴点方向へのベクトルを生成するように学習がなされる。特徴点110は、鼻の位置を表す特徴点である。特徴点111は、左目の位置を表す特徴点である。特徴点112は、右目の位置を表す特徴点である。特徴点113-126は、被写体に定められた他の部位の位置をそれぞれ表す特徴点である。
非特許文献1では、Part Affinity Fieldと呼ぶ特徴点の接続関係を記述するベクトル場を学習させ、ベクトル場の線積分により特徴点同士の接続関係の確からしさを計算し、被写体別特徴点分離を高速に行う手法が提案されている。
非特許文献2では、3つのベクトル場と、マスクとを用いて、被写体別特徴点分離精度を高める手法が提案されている。具体的には、非特許文献2では、まずShort-range offsets、Mid-range offsets及びLong-range offsetsの3つのベクトル場に加え、画像内の被写体領域をシルエット状にマスクしたPerson segmentation maskを生成する。次に、非特許文献2では、Short-range offsets及びMid-range offsetsの2つのベクトル場を用いて特徴点同士の接続関係を生成する。そして、非特許文献2では、Short-range offsets、Long-range offsets及びPerson segmentation maskを用いて被写体の人数で画像内を領域分割する。これにより、非特許文献2では、被写体別特徴点分離精度を高めている。なお、非特許文献2では、親と子の接続関係を記述するベクトル場はMid-range offsetsのみである。Short-range offsetsは、各特徴点を中心に向くよう記述された補正用のベクトル場である。Long-range offsetsは、Person segmentation maskに囲まれた領域が、被写体の鼻の座標を向くよう記述されたベクトル場である。
Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y.: OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. In: arXiv preprint arXiv:1812.08008, 2018. G. Papandreou, T. Zhu, L.-C. Chen, S. Gidaris, J. Tompson, and K. Murphy. PersonLab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. arXiv:1803.08225, 2018.
従来手法では、特徴点間の接続関係を記述し被写体別に特徴点を分離するため複数のベクトル場を用いている。そのため、ベクトル場の記述にはx軸とy軸それぞれの方向を表す2つの行列が必要である。したがって、ベクトル場の出力解像度×ベクトル場の数×2(ベクトル場を記述する行列の数)のデータを扱う必要があるため大量のメモリを必要とする。特にDeep learningを用いた機械学習時には、予測時よりも多くのメモリを要するため複雑なネットワークの学習が困難になる。
例えば、非特許文献2におけるMid-range offsetsのベクトル場は図7のように構成される。図7は、従来手法におけるベクトル場の行列の一例を示す図である。図7に示すように、従来手法では、扱うデータ数が多くなってしまい大量のメモリの容量を必要としてしまうという問題があった。
上記事情に鑑み、本発明は、被写体別特徴点分離を行う際に使用するメモリの容量を削減することができる技術の提供を目的としている。
本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の第1の特徴点からの距離が第2の特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行部と、前記推論実行部から出力された前記複数の第1のマップと、前記複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、を備える被写体別特徴点分離装置である。
本発明の一態様は、被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の第1の特徴点からの距離が第2の特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行ステップと、前記推論実行ステップにおいて出力された前記複数の第1のマップと、前記複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、を有する被写体別特徴点分離方法である。
本発明の一態様は、上記の被写体別特徴点分離装置として機能させるためのコンピュータプログラムである。
本発明により、被写体別特徴点分離を行う際に使用するメモリの容量を削減することが可能となる。
本発明における被写体別特徴点分離装置の機能構成の具体例を示すブロック図である。 本発明における学習装置の機能構成の具体例を示すブロック図である。 実施形態において学習される勾配マップの一例を示す図である。 実施形態における被写体別特徴点分離装置の処理の流れを示すフローチャートである。 本発明におけるベクトルの算出方法を説明するための図である。 MS COCOデータセットにおいて定義された各特徴点の例を示す図である。 従来手法におけるベクトル場の行列の一例を示す図である。
以下、本発明の一実施形態を、図面を参照しながら説明する。
図1は、本発明における被写体別特徴点分離装置10の機能構成の具体例を示すブロック図である。被写体別特徴点分離装置10は、被写体となる人物が撮影された画像(以下「撮影画像」という。)内における被写体の特徴点を被写体別に分離する装置である。より具体的には、被写体別特徴点分離装置10は、撮影画像と、機械学習により生成された学習済みモデルとを用いて、被写体別に特徴点の分離を行う。本実施形態における被写体の特徴点は、被写体の関節、目、耳及び鼻等の被写体に定められた部位である。
本実施形態において学習済みモデルとは、撮影画像を入力として、勾配マップ群とヒートマップ群とを出力するように学習されたモデルデータである。勾配マップ群とは、撮影画像により生成される勾配マップ(第1のマップ)それぞれを全ての特徴点についてまとめた集合である。ヒートマップ群とは、撮影画像により生成されるヒートマップ(第2のマップ)それぞれを全ての特徴点についてまとめた集合である。ここで学習済みモデルによる動作について説明する。具体的には、まず学習済みモデルでは、入力した撮影画像から、被写体の各特徴点に関する勾配マップ及び各特徴点に関するヒートマップを生成する。その後、学習済みモデルでは、生成した勾配マップから得られる勾配マップ群と、生成したヒートマップから得られるヒートマップ群とを出力する。
勾配マップは、例えば、ベクトル場と同等の縦横サイズを持ち、被写体の特徴点において第1の特徴点(親の特徴点)からの距離(例えば、ピクセル数)が第2の特徴点(子の特徴点)周辺のみ行列の値として格納されているマップである。ヒートマップは、被写体の特徴点の現れる座標にピークが立つように構成されたマップである。ヒートマップは、従来の被写体別特徴点分離で使用されているヒートマップと同様である。本発明では、従来1つのベクトル場を記述するために2つの行列が必要だったものに代えて、勾配マップ(ベクトル場と同等の縦横サイズを持つものとする)を1つの行列で記述することを特徴としている。被写体別特徴点分離装置10は、例えばパーソナルコンピュータ等の情報処理装置を用いて構成される。
被写体別特徴点分離装置10は、バスで接続されたCPU(Central Processing Unit)やメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、被写体別特徴点分離装置10は、推論実行部101、ベクトル場生成部102、被写体別分離部103を備える装置として機能する。なお、被写体別特徴点分離装置10の各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。
推論実行部101は、撮影画像と、学習済みモデルとを入力とする。推論実行部101は、入力した撮影画像と、学習済みモデルとを用いて、ヒートマップ群及び勾配マップ群を出力する。推論実行部101は、ヒートマップ群を被写体別分離部103に出力し、勾配マップ群をベクトル場生成部102に出力する。
ベクトル場生成部102は、勾配マップ群を入力とする。ベクトル場生成部102は、入力した勾配マップ群を用いて、勾配マップ毎にベクトル場マップを生成する。勾配マップから任意座標におけるベクトルは、当該座標周辺の行列値における勾配から方向を、座標値から大きさを与えることで生成することができる。ベクトル場生成部102は、生成した勾配マップ毎のベクトル場マップを、全ての特徴点についてまとめた集合であるベクトル場マップ群として被写体別分離部103に出力する。
被写体別分離部103は、ヒートマップ群及びベクトル場マップ群を入力とする。被写体別分離部103は、入力した各特徴点のヒートマップ及びベクトル場マップを用いて、被写体別に特徴点の分離を行う。被写体別分離部103は、特徴点をツリー状の階層構造として被写体別に分離し、その結果を示す座標群(被写体別に分離された特徴点の座標群)を外部に出力する。
図2は、本発明における学習装置20の機能構成の具体例を示すブロック図である。
学習装置20は、被写体別特徴点分離装置10で利用する学習済みモデルを生成する装置である。学習装置20は、被写体別特徴点分離装置10と通信可能に接続される。
学習装置20は、バスで接続されたCPUやメモリや補助記憶装置などを備え、プログラムを実行する。プログラムの実行によって、学習装置20は、学習モデル記憶部201、教師データ入力部202、学習部203を備える装置として機能する。なお、学習装置20の各機能の全て又は一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。また、プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。また、プログラムは、電気通信回線を介して送受信されてもよい。
学習モデル記憶部201は、磁気記憶装置や半導体記憶装置などの記憶装置を用いて構成される。学習モデル記憶部201は、機械学習の学習モデルを予め記憶している。ここで、学習モデルとは、入力データと出力データとの関係性を学習する際に使用する機械学習アルゴリズムを示す情報である。教師有り学習の学習アルゴリズムには、種々の回帰分析法や、決定木、k近傍法、ニューラルネットワーク、サポートベクターマシン、ディープラーニングなどをはじめとする様々なアルゴリズムがあるが、本実施形態では、ディープラーニングを用いる場合について説明する。なお、学習アルゴリズムは、上記のその他の学習モデルが用いられてもよい。
教師データ入力部202は、入力される複数の教師データからランダムにサンプルを選出し、選出したサンプルを学習部203に出力する機能を有する。教師データは、教師有り学習に用いられる学習用のデータであり、入力データと、その入力データに対して相関性を有すると想定される出力データとの組み合わせによって表されるデータである。ここでは、入力データは撮影画像であり、出力データは当該撮影画像と対になるヒートマップ群及び勾配マップ群となる。
教師データ入力部202は、教師データ群を記憶している外部装置(図示せず)と通信可能に接続され、その通信インタフェースを介して外部装置から教師データ群を入力する。また例えば、教師データ入力部202は、予め教師データ群を記憶している記録媒体(例えば、USB(Universal Serial Bus)メモリやハードディスク等)から教師データ群を読み出すことによって教師データ群を入力するように構成されてもよい。
学習部203は、教師データ入力部202から出力される教師データのサンプルにおける撮影画像に対し、学習モデルに基づいて変換することで得られるヒートマップ群及び勾配マップ群と、教師データにおけるヒートマップ群及び勾配マップ群の誤差を最小化するよう学習することにより学習済みモデルを生成する。生成された学習済みモデルは被写体別特徴点分離装置10に入力される。なお、被写体別特徴点分離装置10に対する学習済みモデルの入力は、被写体別特徴点分離装置10と学習装置20との通信を介して行われてもよいし、学習済みモデルを記録した記録媒体を介して行われてもよい。
図3は、実施形態において学習される勾配マップの一例を示す図である。図3に示す画像21は、被写体が撮影された撮影画像である。画像21に示される被写体の特徴点211“右手首”であり、特徴点212は右ひじである。ここで、右手首が子の特徴点であり、右ひじが親の特徴点であるとする。この場合、子の特徴点211(右手首)から見た親の特徴点212(右ひじ)方向のベクトル場は画像22のようになる。
図3における画像23は211(右手首)のヒートマップを表し、画像24は特徴点212(右ひじ)を中心とした距離を示す勾配マップを表す。画像23におけるヒートマップの領域231に基づいて生成されるマスク画像と、画像24における勾配マップとを組み合わせて画像25が生成される。この画像25が、学習部203によって学習される勾配マップである。勾配マップは、図3に示すように、親の特徴点における正解座標値からの距離(ピクセル数)を行列の値として格納している。例えば、子の特徴点から見た親の特徴点方向を記述する勾配マップの場合、勾配マップは親の特徴点の正解座標を中心とした放射状の同心円グラデーションとなり、子の特徴点周辺の行列値のみを残して、それ以外の行列値は0になるよう学習する。
図4は、実施形態における被写体別特徴点分離装置10の処理の流れを示すフローチャートである。
推論実行部101は、外部から撮影画像と、学習済みモデルとを入力する(ステップS101)。撮影画像と、学習済みモデルとは、同じタイミングで入力される必要はない。推論実行部101は、図4の処理を開始する前に、学習装置20から事前に学習済みモデルを取得している場合には、ステップS101の処理で撮影画像のみを入力する。
推論実行部101は、入力した学習済みモデルに撮影画像を入力することによって、撮影画像に撮影されている被写体のヒートマップ群及び勾配マップ群を出力する(ステップS102)。推論実行部101は、ヒートマップ群を被写体別分離部103に出力する。推論実行部101は、勾配マップ群をベクトル場生成部102に出力する。
ベクトル場生成部102は、推論実行部101から出力された勾配マップ群からベクトル場マップ群を生成する(ステップS103)。例えば、図5を用いて説明すると、ステップS103の処理で算出するベクトル(図5におけるV及びV)について、ベクトル場生成部102は、親の特徴点の中心の座標値から距離を算出し、勾配マップ30における親の特徴点の座標値周辺の3×3ブロック(図5におけるS及びS)における値に対して、縦横方向にソーベルフィルタ(F及びF)を適用して求めた軸別の勾配強度dx,dyから方向を式(1)及び(2)に基づいて算出する。なお、本実施形態では、親の特徴点の座標値周辺の3×3ブロックを対象としているが、これは一例であり、ブロックの大きさは特に限定されない。
Figure 0007277855000001
Figure 0007277855000002
図5は、本発明におけるベクトルの算出方法を説明するための図である。なお、ベクトル場生成部102が、1点のみ参照してベクトルを生成した場合は機械学習の推論実行時に重畳するノイズの影響を受ける可能性がある。そのため、ベクトル場生成部102は、親の特徴点の座標値の周辺の値を用いて複数のベクトルを求め、平均値を用いることで精度を高めることができる。
ベクトル場生成部102は、全ての勾配マップ(勾配マップ群)においてベクトル場マップを生成したか否かを判定する(ステップS104)。全ての勾配マップにおいてベクトル場マップを生成していない場合(ステップS104-NO)、ステップS103の処理が繰り返し実行される。具体的には、ベクトル場生成部102は、ベクトル場マップを生成していない勾配マップを用いてベクトル場マップを生成する。全ての勾配マップにおいてベクトル場マップを生成した場合(ステップS104-YES)、ベクトル場生成部102は生成したベクトル場マップ群を被写体別分離部103に出力する。
被写体別分離部103は、推論実行部101から出力されたヒートマップ群と、ベクトル場生成部102から出力されたベクトル場マップ群とを用いて、被写体別に特徴点の分離を行う(ステップS105)。被写体別分離部103は、被写体別に分離された特徴点の座標群を出力する。
以上のように構成された被写体別特徴点分離装置10によれば、被写体別特徴点分離を行う際に使用するメモリの容量を削減することができる。具体的には、被写体別特徴点分離装置10は、撮影画像を入力として、学習済みモデルに撮影画像を入力することにより被写体の勾配マップ群及びヒートマップ群を取得する。そして、被写体別特徴点分離装置10は、取得した勾配マップ群及びヒートマップ群に基づいて、被写体別に特徴点の分離を行う。従来の一般的な被写体別特徴点分離装置の推論実行部の出力が直接ベクトル場群であるのに対し、本発明における被写体別特徴点分離装置10では勾配マップ群を出力としている。すなわち、従来はベクトル場の各座標に対してx軸方向の値を表す行列とy軸方向の値を表す行列の合計2つの行列を用いていたが、被写体別特徴点分離装置10では勾配マップを用いることにより、1つのベクトル場を計算するために必要だった2つの行列を1つの行列で記述することができる。そのため、被写体別特徴点分離を行う際に使用するメモリの容量を削減することが可能になる。
被写体別特徴点分離装置10では、推論実行部101から出力された勾配マップ群を用いて各勾配マップにおけるベクトル場マップを生成するベクトル場生成部102と、推論実行部101から出力されたヒートマップ群と、ベクトル場生成部102によって生成されたベクトル場マップ群とを組み合わせて、被写体別に特徴点の分離を行う被写体別分離部103とを備える。これにより、ベクトル場生成部102にて従来の一般的な被写体別特徴点分離装置における推論実行部の出力に変換することで被写体別分離部103の処理を変更することなく導入することができる。したがって、一般的な被写体別特徴点分離装置の一部を変更するだけで本発明における被写体別特徴点分離装置10を実現することができる。
本実施形態で利用する勾配マップが、親の特徴点における座標値から子の特徴点における座標値へのピクセル数が行列の値で表されたマップである。これにより、1つのベクトル場を計算するために必要だった2つの行列を1つの行列で記述することができる。そのため、被写体別特徴点分離を行う際に使用するメモリの容量を削減することが可能になる。
(変形例)
被写体別特徴点分離装置10と、学習装置20とは一体化されて構成されてもよい。具体的には、被写体別特徴点分離装置10が、学習装置20の学習機能を備えるように構成されてもよい。このように構成される場合、被写体別特徴点分離装置10は、学習モードと推論モードを有し、各モードに応じた動作を実行する。具体的には、学習モードでは、被写体別特徴点分離装置10は、学習装置20が行う処理と同じ処理を行うことによって学習済みモデルを生成する。推論モードでは、被写体別特徴点分離装置10は、生成した学習済みモデルを用いて図4に示す処理を実行する。
ベクトル場生成部102と被写体別分離部103は、1つの機能部で実現されてもよい。この場合、被写体別特徴点分離装置10は、推論実行部101と、被写体別特徴点分離部とを備える。被写体別特徴点分離部は、ベクトル場生成部102と被写体別分離部103の両方の機能を備える。すなわち、被写体別特徴点分離部は、推論実行部101から出力された勾配マップ群を用いて、勾配マップ毎にベクトル場マップを生成する。さらに、被写体別特徴点分離部は、生成したベクトル場マップ群と、推論実行部101から出力されたヒートマップ群とを用いて、被写体別に分離された特徴点の座標群を出力する。
上記の実施形態では、ベクトル場生成部102において、勾配マップ毎にベクトル場マップを生成する構成を示した。これに対して、ベクトル場生成部102において事前にベクトル場マップ群を生成することなく、被写体別分離部103の入力をベクトル場群から勾配マップ群に置き換え、被写体別分離部103の内部処理にて必要に応じてベクトルを都度生成するように構成されてもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、被写体が撮影された画像から検出される被写体の特徴点を被写体毎に分離する技術に適用できる。
10…被写体別特徴点分離装置, 20…学習装置, 101…推論実行部, 102…ベクトル場生成部, 103…被写体別分離部, 201…学習モデル記憶部, 202…教師データ入力部, 203…学習部

Claims (6)

  1. 被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の第1の特徴点からの距離が第2の特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行部と、
    前記推論実行部から出力された前記複数の第1のマップと、前記複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離部と、
    を備える被写体別特徴点分離装置。
  2. 前記被写体別特徴点分離部は、
    前記推論実行部から出力された前記複数の第1のマップを用いて前記複数の第1のマップにおける複数のベクトル場を生成するベクトル場生成部と、
    前記推論実行部から出力された前記複数の第2のマップと、前記ベクトル場生成部によって生成された前記複数のベクトル場とを組み合わせて、前記被写体別に特徴点の分離を行う被写体別分離部とで構成される、請求項1に記載の被写体別特徴点分離装置。
  3. 前記推論実行部は、前記複数の第1のマップとして、前記第1の特徴点からの距離を表すピクセル数が前記第2の特徴点周辺のみ行列の値で表されたマップを出力する、請求項1又は2に記載の被写体別特徴点分離装置。
  4. 前記ベクトル場生成部は、前記複数の第1のマップにおいて、前記第1の特徴点の座標値から距離の大きさを算出し、前記第1の特徴点の座標周辺の所定のブロックにおける座標値に対して、前記所定のブロックと同じ大きさの所定のフィルタを適用して縦軸及び横軸それぞれの勾配強度を算出することによって複数のベクトル場を生成する、請求項2に記載の被写体別特徴点分離装置。
  5. 被写体が撮影された撮影画像を入力として、入力した前記撮影画像から、前記被写体の第1の特徴点からの距離が第2の特徴点周辺のみ格納された複数の第1のマップと、前記被写体の特徴点の現れる座標にピークが立つように構成されたヒートマップを表す複数の第2のマップとを出力するように学習された学習済みモデルを用いて、前記複数の第1のマップと、前記複数の第2のマップとを出力する推論実行ステップと、
    前記推論実行ステップにおいて出力された前記複数の第1のマップと、前記複数の第2のマップとに基づいて、被写体別に特徴点の分離を行う被写体別特徴点分離ステップと、
    を有する被写体別特徴点分離方法。
  6. コンピュータを、請求項1から4のいずれか一項に記載の被写体別特徴点分離装置として機能させるためのコンピュータプログラム。
JP2022501524A 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム Active JP7277855B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/006882 WO2021166181A1 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
JPWO2021166181A1 JPWO2021166181A1 (ja) 2021-08-26
JP7277855B2 true JP7277855B2 (ja) 2023-05-19

Family

ID=77390769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022501524A Active JP7277855B2 (ja) 2020-02-20 2020-02-20 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム

Country Status (3)

Country Link
US (1) US20230100088A1 (ja)
JP (1) JP7277855B2 (ja)
WO (1) WO2021166181A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114663714B (zh) * 2022-05-23 2022-11-04 阿里巴巴(中国)有限公司 图像分类、地物分类方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Eldar Insafutdinov et al.,DeeperCut: A Deeper, Stronger, and Faster Multi-Person Pose Estimation Model, arXiv[オンライン],2016年11月30日,https://arxiv.org/pdf/1605.03170.pdf,[検索日:2020.05.14]
George Papandreou et al.,PersonLab: Person Pose Estimation and Instance Segmentation with a Bottom-Up, Part-Based, Geometric,arXiv[オンライン],2018年03月22日,https://arxiv.org/pdf/1803.08225.pdf,[検索日:2020.05.14]
Yang Bai et al., ACPNET:ANCHOR-CENTER BASED PERSON NETWORK FOR HUMAN POSE ESTIMATION AND INSTANCE SEGMENTATION,2019 IEEE International Conference on Multimedia and Expo (ICME),IEEE,2019年08月05日,pp.1072-1077,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8784943,[検索日:2020.05.14]
Zhe Cao et al.,OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,arXiv[オンライン],2019年05月30日,https://arxiv.org/pdf/1812.08008.pdf,[検索日:2020.05.14]

Also Published As

Publication number Publication date
WO2021166181A1 (ja) 2021-08-26
US20230100088A1 (en) 2023-03-30
JPWO2021166181A1 (ja) 2021-08-26

Similar Documents

Publication Publication Date Title
JP2022526750A (ja) オブジェクト追跡方法、オブジェクト追跡装置、コンピュータプログラム、及び電子機器
US10984225B1 (en) Masked face recognition
JP6392478B1 (ja) 情報処理装置、情報処理プログラム、及び、情報処理方法
JP2009140009A (ja) 情報処理装置および情報処理方法、プログラム、並びに記録媒体
KR102386444B1 (ko) 이미지 심도 결정 방법 및 생체 식별 방법, 회로, 디바이스, 및 매체
Wang et al. Paul: Procrustean autoencoder for unsupervised lifting
JP7277855B2 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
Gu et al. Bias-compensated integral regression for human pose estimation
JP7487224B2 (ja) 手動作の対称性の認識方法及びシステム
JP6393495B2 (ja) 画像処理装置および物体認識方法
JP6840968B2 (ja) 形状推定方法、形状推定装置および形状推定プログラム
JP2019159470A (ja) 推定装置、推定方法、及び推定プログラム
JP7489247B2 (ja) プログラム、情報処理方法、情報処理装置及びモデル生成方法
Kausar et al. A novel mathematical modeling and parameterization for sign language classification
JP7364959B2 (ja) 被写体別特徴点分離装置、被写体別特徴点分離方法及びコンピュータプログラム
Athavale et al. One eye is all you need: Lightweight ensembles for gaze estimation with single encoders
CN114266691A (zh) 过滤方法、过滤程序和过滤装置
KR102382883B1 (ko) 3차원 손 자세 인식 장치 및 방법
Yang et al. Ego-downward and ambient video based person location association
Yamanaka et al. Multi-Scale Estimation for Omni-Directional Saliency Maps Using Learnable Equator Bias
Anitta et al. CNN—Forest Based Person Identification and Head Pose Estimation for AI Based Applications
Luo et al. Multi-View RGB-D Based 3D Point Cloud Face Model Reconstruction System
WO2023100774A1 (ja) 訓練方法、訓練システム及び訓練プログラム
JP2019125128A (ja) 情報処理装置、制御方法、及びプログラム
Leong et al. Empirical Study of U-Net Based Models for 2D Face Recovery from Face-Mask Occlusions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220607

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230417

R150 Certificate of patent or registration of utility model

Ref document number: 7277855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150