JP7480920B2 - 学習装置、推定装置、学習方法、推定方法及びプログラム - Google Patents
学習装置、推定装置、学習方法、推定方法及びプログラム Download PDFInfo
- Publication number
- JP7480920B2 JP7480920B2 JP2023550828A JP2023550828A JP7480920B2 JP 7480920 B2 JP7480920 B2 JP 7480920B2 JP 2023550828 A JP2023550828 A JP 2023550828A JP 2023550828 A JP2023550828 A JP 2023550828A JP 7480920 B2 JP7480920 B2 JP 7480920B2
- Authority
- JP
- Japan
- Prior art keywords
- person
- image
- visible
- processed image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 34
- 238000012549 training Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 8
- 238000012937 correction Methods 0.000 description 30
- 238000010586 diagram Methods 0.000 description 29
- 238000013528 artificial neural network Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000002093 peripheral effect Effects 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 5
- 210000002683 foot Anatomy 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 210000003371 toe Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/75—Determining position or orientation of objects or cameras using feature-based methods involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Description
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置が提供される。
コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法が提供される。
コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラムが提供される。
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置が提供される。
コンピュータが、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法が提供される。
コンピュータを、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラムが提供される。
<概要>
本実施形態の学習装置10は、画像において見えていないキーポイントの情報を除いて学習することで、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減する。
まず、非特許文献1に記載の技術と比較しながら、本実施形態の技術の特徴、具体的には「画像において見えていないキーポイントの情報を除いた学習」を実現するための構成を説明する。
最初に、非特許文献1に記載の技術を説明する。図3に示すように、非特許文献1に記載の技術の場合、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、非特許文献1に記載のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。
次に、本実施形態の技術を、非特許文献1に記載の技術と比較しながら説明する。図8に示すように、本実施形態の技術においても、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、本実施形態のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。
次に、本実施形態の学習装置の機能構成を説明する。図13に、学習装置10の機能ブロック図の一例を説明する。図示するように、学習装置10は、取得部11と、学習部12と、記憶部13とを有する。なお、図14の機能ブロック図に示すように、学習装置10は記憶部13を有さなくてもよい。この場合、学習装置10と通信可能に構成された外部装置が記憶部13を備える。
次に、学習装置10のハードウエア構成の一例を説明する。学習装置10の各機能部は、任意のコンピュータのCPU(Central Processing Unit)、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット(あらかじめ装置を出荷する段階から格納されているプログラムのほか、CD(Compact Disc)等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる)、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
本実施形態の学習装置10が学習する推定モデルは、複数のキーポイント各々が画像において見えているか否かを示す隠れ情報のデータを出力するという特徴を有する。そして、当該推定モデルは、隠れ情報のデータで見えていないことが示されているキーポイントの位置情報を出力しないという特徴をさらに有する。また、学習装置10は、当該推定モデルを学習する際、キーポイントの位置情報の学習データに関して、キーポイントが画像に見えている位置情報のみを与えられればよいという特徴を有する。学習装置10は、このような推定モデルから出力された結果と正解ラベル(学習データ)とに基づき、推定モデルのパラメータを最適化する。このような学習装置10によれば、画像において見えていないキーポイントの情報を除いて正しく学習することが可能となる。結果、学習データの中にキーポイントの一部が見えていない画像が含まれている場合に推定精度が低下する問題を軽減できる。
本実施形態の推定装置は、第1の実施形態の学習装置により学習された推定モデルを用いて、画像に含まれる各人物の複数のキーポイント各々の画像内の位置を推定する。以下、詳細に説明する。
(ステップ2):人位置の尤度のデータに基づき、各人物の、人の中心位置(図19のP11)が位置する(含まれる)格子(図19のP1)を特定する。具体的には、尤度が閾値以上の格子を特定する。
(ステップ3):人位置の修正量のデータから、(ステップ2)で特定した格子の位置に対応する修正量(図19のP10)を取得する。
(ステップ4):(ステップ2)で特定した格子の位置(格子の中心位置も含む)、及び(ステップ3)で取得した修正量に基づき、処理画像に含まれる人毎に、処理画像内の人の中心位置(図19のP11)を特定する。これにより、各人物の身体の中心位置が特定される。
(ステップ6):各キーポイントの隠れ情報のデータから、(ステップ2)で特定した格子の位置に対応するデータを取得する。これにより、各人物の各キーポイントにおける見えていないという情報及び見えているという情報が特定される。
(ステップ7):各キーポイントの相対位置のデータから、(ステップ6)でキーポイントが見えていると特定された格子の位置に対応するデータのみ(図19のP12)を取得する。これにより、各人物の、見えているキーポイント各々における相対位置のみが取得される。
(ステップ8):(ステップ2)で特定された格子の中心と、(ステップ7)で取得したデータとを用いて、見えているキーポイント各々の処理画像内の位置(図19のP2)を特定する。これにより、各人物の、見えているキーポイント各々における処理画像内の位置が特定される。
(ステップ10):キーポイントの位置の修正量のデータから、(ステップ9)で特定した格子の位置に対応する修正量(図20のP6)を取得する。
(ステップ11):(ステップ9)で特定した格子の位置(格子の中心位置も含む)、及び(ステップ10)で取得した修正量に基づき、処理画像に含まれるキーポイント各々の処理画像内の位置(図20のP5)を特定する。
(ステップ12):(ステップ8)で求めた各人物の処理画像内のキーポイントの位置と、(ステップ11)で求めた処理画像内のキーポイントの位置に対し、同じ種類のキーポイントで距離が近いもの(例:距離が閾値以下のもの)を対応付け、対応付けた位置の統合により、(ステップ8)で求めた各人物の処理画像内のキーポイントの位置を補正することで、処理画像において各人物の見えている複数のキーポイント各々の処理画像内における位置を算出する。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示される。
以下、いくつかの変形例を説明する。上記実施形態は、以下の複数の変形例の中の1つ又は複数を採用した構成とすることもできる。
推定部21は、推定された各人物に対する、処理画像において見えていると推定されたキーポイントの数、及び、処理画像において見えていないと推定されたキーポイントの数の少なくとも一方に基づき、推定された人物毎に、処理画像において人物の身体が見えている程度、及び、処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算し、出力してもよい。
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の隠れ方の状態をさらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の隠れ方の状態がさらに示される。見えていないキーポイントの隠れ方の状態は、例えば、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態、を含むことができる。
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の重なり方の状態を、当該キーポイントを隠している物体の数として、さらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の重なり方の状態が、当該キーポイントを隠している物体の数として、さらに示される。
1. 人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置。
2. 前記正解ラベルにおいて、前記教師画像において見えていない前記キーポイントの前記教師画像内の位置は示されない1に記載の学習装置。
3. 前記学習手段は、
学習中の前記推定モデルに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報、を推定し、
各人物の位置を示す情報の推定結果と、前記正解ラベルで示される各人物の位置を示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報の推定結果と、前記正解ラベルで示される各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報の推定結果と、前記正解ラベルで示される複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置から得られたキーポイント各々の位置に関する情報との差を、前記正解ラベルで示される前記教師画像において見えているキーポイントのみに対して、最小化するように前記推定モデルのパラメータを調整する1又は2に記載の学習装置。
4. 前記正解ラベルは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに示し、
前記推定モデルは、前記処理画像において人物毎の見えていない前記キーポイント各々の前記状態をさらに推定する1から3のいずれかに記載の学習装置。
5. 前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む4に記載の学習装置。
6. 前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す4に記載の学習装置。
7. 1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置。
8. 前記推定手段は、前記推定モデルを用いて、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを推定し、当該推定の結果を用いて、前記処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する7に記載の推定装置。
9. 前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、人物毎に見えていないキーポイントの種類を出力する、もしくは、前記見えていないキーポイントの種類を人を模したオブジェクトに表し人物毎に表示する8に記載の推定装置。
10. 前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、見えていないキーポイントを特定し、予め定義された人に対する複数のキーポイントの接続関係に基づき、前記特定された見えていないキーポイントと直接繋がる見えているキーポイントを特定し、前記特定された見えているキーポイントの処理画像内の位置に基づき、前記特定された見えていないキーポイントの処理画像内の位置を推定する8又は9に記載の推定装置。
11. 前記推定手段は、
推定された各人物に対する、前記処理画像において見えていると推定された前記キーポイントの数、及び、前記処理画像において見えていないと推定された前記キーポイントの数の少なくとも一方に基づき、推定された人物毎に、前記処理画像において人物の身体が見えている程度、及び、前記処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算する7から10のいずれかに記載の推定装置。
12. 前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する11に記載の推定装置。
13. 前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を指定の閾値に基づいて、人物毎の隠れなし/隠れありという情報に変換し、その変換された情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する11に記載の推定装置。
14. 前記推定手段は、人物毎の各キーポイントを隠している前記物体の数において、人物毎に最大値を計算し、計算された最大値を人物毎の重なり方の状態として算出し、算出された人物毎の重なり方の状態を、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示する、もしくは、人物毎の重なり方の状態に色/模様を割り当てて、人物単位のキーポイントを割り当てた色で表示する7に記載の推定装置。
15. コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法。
16. コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラム。
17. コンピュータが、
1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法。
18. コンピュータを、
1から6のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラム。
11 取得部
12 学習部
13 記憶部
20 推定装置
21 推定部
22 記憶部
1A プロセッサ
2A メモリ
3A 入出力I/F
4A 周辺回路
5A バス
Claims (10)
- 人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置。 - 前記正解ラベルにおいて、前記教師画像において見えていない前記キーポイントの前記教師画像内の位置は示されない請求項1に記載の学習装置。
- 前記正解ラベルは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに示し、
前記推定モデルは、前記処理画像において人物毎の見えていない前記キーポイント各々の前記状態をさらに推定する請求項1又は2に記載の学習装置。 - 前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む請求項3に記載の学習装置。
- 前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す請求項3に記載の学習装置。
- 請求項1から5のいずれか1項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置。
- コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法。 - コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラム。 - コンピュータが、
請求項1から5のいずれか1項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法。 - コンピュータを、
請求項1から5のいずれか1項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024066640A JP2024083602A (ja) | 2021-09-29 | 2024-04-17 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2021/035782 WO2023053249A1 (ja) | 2021-09-29 | 2021-09-29 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024066640A Division JP2024083602A (ja) | 2021-09-29 | 2024-04-17 | 情報処理装置、情報処理方法及びプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JPWO2023053249A1 JPWO2023053249A1 (ja) | 2023-04-06 |
JPWO2023053249A5 JPWO2023053249A5 (ja) | 2023-11-01 |
JP7480920B2 true JP7480920B2 (ja) | 2024-05-10 |
Family
ID=85781547
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023550828A Active JP7480920B2 (ja) | 2021-09-29 | 2021-09-29 | 学習装置、推定装置、学習方法、推定方法及びプログラム |
JP2024066640A Pending JP2024083602A (ja) | 2021-09-29 | 2024-04-17 | 情報処理装置、情報処理方法及びプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024066640A Pending JP2024083602A (ja) | 2021-09-29 | 2024-04-17 | 情報処理装置、情報処理方法及びプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240119711A1 (ja) |
EP (1) | EP4276742A4 (ja) |
JP (2) | JP7480920B2 (ja) |
WO (1) | WO2023053249A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020123105A (ja) | 2019-01-30 | 2020-08-13 | セコム株式会社 | 学習装置、学習方法、学習プログラム、及び対象物認識装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004295436A (ja) | 2003-03-26 | 2004-10-21 | Fujitsu Ltd | ドキュメント管理装置およびドキュメント管理プログラム |
WO2018058419A1 (zh) * | 2016-09-29 | 2018-04-05 | 中国科学院自动化研究所 | 二维图像人体关节点定位模型的构建方法及定位方法 |
CN111340932A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 图像处理方法以及信息处理设备 |
JP7304235B2 (ja) * | 2019-08-16 | 2023-07-06 | セコム株式会社 | 学習済みモデル、学習装置、学習方法、及び学習プログラム |
-
2021
- 2021-09-29 WO PCT/JP2021/035782 patent/WO2023053249A1/ja active Application Filing
- 2021-09-29 JP JP2023550828A patent/JP7480920B2/ja active Active
- 2021-09-29 EP EP21959297.9A patent/EP4276742A4/en active Pending
- 2021-09-29 US US18/275,791 patent/US20240119711A1/en active Pending
-
2024
- 2024-04-17 JP JP2024066640A patent/JP2024083602A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020123105A (ja) | 2019-01-30 | 2020-08-13 | セコム株式会社 | 学習装置、学習方法、学習プログラム、及び対象物認識装置 |
Also Published As
Publication number | Publication date |
---|---|
US20240119711A1 (en) | 2024-04-11 |
JP2024083602A (ja) | 2024-06-21 |
EP4276742A4 (en) | 2024-04-24 |
WO2023053249A1 (ja) | 2023-04-06 |
EP4276742A1 (en) | 2023-11-15 |
JPWO2023053249A1 (ja) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111797753B (zh) | 图像驱动模型的训练、图像生成方法、装置、设备及介质 | |
US10572072B2 (en) | Depth-based touch detection | |
US20150325046A1 (en) | Evaluation of Three-Dimensional Scenes Using Two-Dimensional Representations | |
US10325184B2 (en) | Depth-value classification using forests | |
CN110069129B (zh) | 确定***和确定方法 | |
JP6612486B1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
US20230237777A1 (en) | Information processing apparatus, learning apparatus, image recognition apparatus, information processing method, learning method, image recognition method, and non-transitory-computer-readable storage medium | |
JP7031685B2 (ja) | モデル学習装置、モデル学習方法及びコンピュータプログラム | |
CN112418310B (zh) | 文本风格迁移模型训练方法和***及图像生成方法和*** | |
US20240134499A1 (en) | Image template-based ar form experiences | |
JP7480920B2 (ja) | 学習装置、推定装置、学習方法、推定方法及びプログラム | |
JP2021144359A (ja) | 学習装置、推定装置、学習方法、及びプログラム | |
WO2012144813A2 (ko) | 지수함수 기반의 입자 리샘플링 방법 및 그 방법을 이용한 영상객체 추적방법 | |
US11663761B2 (en) | Hand-drawn diagram recognition using visual arrow-relation detection | |
JP2021022159A (ja) | 説明支援装置、および、説明支援方法 | |
US20220182738A1 (en) | Device and method for providing contents based on augmented reality | |
US20220004904A1 (en) | Deepfake detection models utilizing subject-specific libraries | |
WO2024128124A1 (ja) | 学習装置、推定装置、学習方法、推定方法ならびに記録媒体 | |
JP6954070B2 (ja) | 判別プログラム、判別方法および判別装置 | |
JP2023043341A (ja) | 推定モデル生成プログラム、推定モデル生成方法および情報処理装置 | |
WO2022181251A1 (ja) | 関節点検出装置、関節点検出方法、及びコンピュータ読み取り可能な記録媒体 | |
US20240078832A1 (en) | Joint detection apparatus, learning-model generation apparatus, joint detection method, learning-model generation method, and computer readable recording medium | |
WO2022181253A1 (ja) | 関節点検出装置、学習モデル生成装置、関節点検出方法、学習モデル生成方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2017021753A (ja) | グラフ表示装置、グラフ表示プログラム及びグラフ表示プログラムが記憶されたコンピュータ読取可能な記憶媒体 | |
KR102236802B1 (ko) | 진단 모델용 데이터의 특징 추출 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230802 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230802 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7480920 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |