JP7480920B2

JP7480920B2 - 学習装置、推定装置、学習方法、推定方法及びプログラム

Info

Publication number: JP7480920B2
Application number: JP2023550828A
Authority: JP
Inventors: 浩雄池田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-05-10
Anticipated expiration: 2041-09-29
Also published as: US20240119711A1; JP2024083602A; EP4276742A4; WO2023053249A1; EP4276742A1; JPWO2023053249A1

Description

本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。

特許文献１及び非特許文献１には、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術が開示されている。

特許文献１の技術では、身体の一部が他の遮蔽物に隠れて見えていない画像を学習データとする場合、見えていない部分のキーポイントの位置情報も正解データとして与える。このようにすることで、他の遮蔽物で隠れて見えていないキーポイントも検出可能になると記載されている。

非特許文献１の技術では、画像を格子状に分割したマップに対して、人の位置（人の中心位置）を尤度として示すマップと、人の位置を示すマップ位置に位置の修正量及び人のサイズを示したマップと、人の位置を示すマップ位置に関節の種類毎の相対位置を示したマップと、関節の種類毎に関節位置を尤度として示すマップと、関節位置を示すマップ位置に関節位置の修正量を示したマップとを、出力するニューラルネットワークを構成する。そして、非特許文献１の技術では、入力を画像とし、上記の各マップを出力するニューラルネットワークを用いて、画像から人の関節位置を推定する。なお、非特許文献１の技術については、以下で、図面を用いてより詳細に説明する。

特開２００４－２９５４３６号公報

Xingyi Zhou他、Objects as Points、［Online］、提出日２０１９年４月１６日、検索日２０２１年４月２３日、https://arxiv.org/abs/1904.07850

従来技術の場合、キーポイントの一部が見えていない画像が学習データの中に含まれていると、推定精度が低下するという問題がある。以下、理由を説明する。

まず、学習データは、図１に示すように、人物が含まれる教師画像と、人物の身体の複数のキーポイント各々の教師画像内の位置を示す正解ラベルとを紐付けたデータとなる。図中、丸印で、複数のキーポイント各々の教師画像内の位置を示している。なお、図示するキーポイントの種類及び数は一例であり、これに限定されない。

キーポイントの一部が見えていない教師画像を学習データとして利用する場合、従来技術においては、図２に示すように、見えているキーポイントの教師画像内の位置のみならず、見えていないキーポイントの教師画像内の位置をも示す正解ラベルを用意して学習することとなる。図２では、手前に位置する人物の足元が遮蔽物により隠れて見えていない。しかし、この人物の足元のキーポイントがこの人物の足元を隠す遮蔽物上で指定されている。例えば、オペレータが、人物の身体の見えている部分に基づき、見えていないキーポイントの教師画像内の位置を予測し、図２に示すような正解ラベルを作成する。

このように構成した場合、見えていないキーポイントに関しては、そのキーポイントの外観の特徴が示されていない画像パターンでそのキーポイントの位置を学習することとなる。また、画像において実際に見えていないキーポイントの教師画像内の位置をオペレータが予測して正解ラベルを作成することになるので、実際のキーポイントの位置とずれが発生する恐れがある。例えばこれらの理由から、従来技術の場合、キーポイントの一部が見えていない画像が学習データの中に含まれていると、推定精度が低下するという問題がある。

本発明は、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術において、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減することを課題とする。

本発明によれば、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置が提供される。

また、本発明によれば、
コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法が提供される。

また、本発明によれば、
コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラムが提供される。

また、本発明によれば、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置が提供される。

また、本発明によれば、
コンピュータが、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法が提供される。

また、本発明によれば、
コンピュータを、
前記学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラムが提供される。

本発明によれば、学習済モデルを用いて画像から人物の身体のキーポイントを抽出する技術において、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減できる。

本実施形態の技術の特徴を説明するための図である。本実施形態の技術の特徴を説明するための図である。従来技術を説明するための図である。従来技術を説明するための図である。従来技術を説明するための図である。従来技術を説明するための図である。従来技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の学習装置の機能ブロック図の一例である。本実施形態の学習装置の機能ブロック図の一例である。本実施形態の学習装置の処理の流れの一例を示すフローチャートである。本実施形態の学習装置及び推定装置のハードウエア構成の一例を示す図である。本実施形態の推定装置の機能ブロック図の一例である。本実施形態の推定装置の機能ブロック図の一例である。本実施形態の推定装置の処理を説明するための図である。本実施形態の推定装置の処理を説明するための図である。本実施形態の推定装置の処理の流れの一例を示すフローチャートである。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。本実施形態の技術を説明するための図である。

以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。

「第１の実施形態」
＜概要＞
本実施形態の学習装置１０は、画像において見えていないキーポイントの情報を除いて学習することで、キーポイントの一部が見えていない画像が学習データの中に含まれている場合に推定精度が低下する問題を軽減する。

＜本実施形態の技術の特徴＞
まず、非特許文献１に記載の技術と比較しながら、本実施形態の技術の特徴、具体的には「画像において見えていないキーポイントの情報を除いた学習」を実現するための構成を説明する。

－非特許文献１に記載の技術－
最初に、非特許文献１に記載の技術を説明する。図３に示すように、非特許文献１に記載の技術の場合、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、非特許文献１に記載のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。

図３に示す複数のデータの中の「人位置の尤度」、「人位置の修正量」、「サイズ」、「キーポイントａの相対位置」、「キーポイントｂの相対位置」の一例を図４に示す。図５に、図４のデータの元となった画像に、図４のデータ各々の概念を示す説明を追記した図を示す。

「人位置の尤度」のデータは、人の身体の中心位置の画像内の位置の尤度を示すデータである。例えば、人の身体の外観の特徴量に基づき人の身体が画像内で検出され、検出結果に基づき人の身体の中心位置の尤度を示すデータが出力される。図示するように、当該データでは、画像を分割して得られた複数の格子各々に人の身体の中心位置が位置する尤度が示される。なお、画像を格子状に分割する手法は設計的事項であり、図示する格子の数及び大きさは一例に過ぎない。図４に示すデータによれば、「左から３つ目、下から３つ目の格子」と、「右から２つ目、上から３つ目の格子」が、人の身体の中心位置が位置する格子として特定される。図５に示すように複数の人物が含まれる画像が入力された場合、複数の人物各々の身体の中心位置が位置する格子が特定される。

「人位置の修正量」のデータは、人の身体の中心位置が位置すると特定された格子の中心から人の身体の中心位置に移動するまでのｘ方向の移動量、及びｙ方向の移動量を示すデータである。図５に示すように、人の身体の中心位置は、１つの格子の中のある位置に存在する。人位置の尤度と、人位置の修正量を利用することで、画像内における人の身体の中心位置を特定することができる。

「サイズ」のデータは、人の身体を包含する矩形エリアの縦横の長さを示すデータである。

「キーポイントの相対位置」のデータは、複数のキーポイント各々の画像内の位置を示すデータである。具体的には、複数のキーポイント各々と、身体の中心位置が位置する格子の中心との相対的な位置関係を示す。なお、図４及び図５では人物毎に２つのキーポイントの位置が示されているが、キーポイントの数は３以上となり得る。

次に、図３に示す複数のデータの中の「キーポイントａの位置の尤度」、「キーポイントｂの位置の尤度」、「キーポイントの位置の修正量」の一例を図６に示す。図７に、図６のデータの元となった画像に、図６のデータ各々の概念を示す説明を追記した図を示す。

「キーポイントの位置の尤度」のデータは、複数のキーポイント各々の画像内の位置の尤度を示すデータである。例えば、複数のキーポイント各々の外観の特徴量に基づき各キーポイントが画像内で検出され、検出結果に基づき各キーポイントの位置の尤度を示すデータが出力される。図示するように、キーポイント毎に当該データが出力される。そして、当該データでは、画像を分割して得られた複数の格子各々に各キーポイントが位置する尤度が示される。なお、図示する格子の数は一例に過ぎない。図７に示すように複数の人物が含まれる画像が入力された場合、複数の人物各々のキーポイントが位置する尤度が示される。図６に示すデータによれば、「左から４つ目、下から１つ目の格子」と、「右から２つ目、上から４つ目の格子」が、キーポイントａが位置する格子として特定される。また、「左から４つ目、下から４つ目の格子」と、「右から２つ目、上から２つ目の格子」が、キーポイントｂが位置する格子として特定される。なお、図では２つのキーポイントのデータが示されているが、キーポイントの数は３以上となり得る。そして、キーポイント毎に上述したようなデータが出力される。

「キーポイントの位置の修正量」のデータは、複数のキーポイント各々が位置すると特定された格子の中心から各キーポイントの位置に移動するまでのｘ方向の移動量、及びｙ方向の移動量を示すデータである。図７に示すように、各キーポイントは、１つの格子の中のある位置に存在する。各キーポイントの位置の尤度と、各キーポイントの位置の修正量を利用することで、画像内における各キーポイントの位置を特定することができる。

非特許文献１に記載の技術では、入力された画像から上述のような複数のデータを出力した後、当該複数のデータと、予め与えられた正解ラベルとに基づき、所定の損失関数の値を最小化することで、推定モデルのパラメータを算出（学習）する。また、推定時においては、各キーポイントの画像内の位置を２つの手法（図４に示す格子の中心位置からの相対位置、図６に示す尤度と修正量）で特定されているが、例えば、２つの手法各々で算出した位置を統合した結果が、複数のキーポイント各々の位置として利用される。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示される。

－本実施形態の技術－
次に、本実施形態の技術を、非特許文献１に記載の技術と比較しながら説明する。図８に示すように、本実施形態の技術においても、画像がニューラルネットワークに入力されると、図示するような複数のデータが出力される。換言すれば、本実施形態のニューラルネットワークは、図示するような複数のデータを出力する複数の層で構成される。

図３と図８の比較から明らかなように、本実施形態の技術は、出力されるデータの中に、複数のキーポイント各々に対応した「隠れ情報」のデータを含む点で、非特許文献１に記載の技術と異なる。

図８に示す複数のデータの中の「人位置の尤度」、「人位置の修正量」、「サイズ」、「キーポイントａの隠れ情報」、「キーポイントａの相対位置」、「キーポイントｂの隠れ情報」、「キーポイントｂの相対位置」の一例を図９に示す。図１０に、図９のデータの元となった画像に、図９のデータ各々の概念を示す説明を追記した図を示す。

「人位置の尤度」、「人位置の修正量」及び「サイズ」のデータは、非特許文献１に記載の技術と同じ概念である。

「キーポイントの隠れ情報」のデータは、各キーポイントが画像において隠れているか否か、すなわち各キーポイントが画像において見えているか否かを示すデータである。キーポイントが画像において見えていない状態は、キーポイントが画像外に位置する状態、及び、キーポイントが画像内に位置するが他の物体（他の人物及びその他の物体等）に隠れている状態を含む。

図９に示すように、キーポイント毎に当該データが出力される。図示する例では見えているキーポイントに「０」の値が付与され、見えていないキーポイントに「１」の値が付与されている。図１０に示す例の場合、手前に位置する人物１のキーポイントａは他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図９に示すように人物１のキーポイントａの隠れ情報として「１」を付与したデータが出力されるようになる。

なお、図では２つのキーポイントのデータが示されているが、キーポイントの数は３以上となり得る。そして、キーポイント毎に上述したようなデータが出力される。

「キーポイントの相対位置」のデータは、複数のキーポイント各々の画像内の位置を示すデータである。本実施形態の「キーポイントの相対位置」のデータは、キーポイントの隠れ情報のデータで見えていることが示されているキーポイントのデータを含み、キーポイントの隠れ情報のデータで見えていないことが示されているキーポイントのデータを含まない点で、非特許文献１に記載の技術と異なる。その他は、非特許文献１に記載の技術と同じ概念である。

図１０に示す例の場合、手前に位置する人物１のキーポイントａ（足元のキーポイント）は他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図９に示すように人物１のキーポイントａの相対位置のデータを含まないキーポイントａの相対位置のデータが出力されるようになる。図９に示すキーポイントａの相対位置のデータは、図１０に示す人物２のキーポイントａの相対位置のデータのみを含んでいる。

次に、図８に示す複数のデータの中の「キーポイントａの位置の尤度」、「キーポイントｂの位置の尤度」、「キーポイントの位置の修正量」の一例を図１１に示す。図１２に、図１１のデータの元となった画像に、図１１のデータ各々の概念を示す説明を追記した図を示す。

「キーポイントの位置の尤度」のデータは、非特許文献１に記載の技術と同じ概念である。図１２に示す例の場合、手前に位置する人物１のキーポイントａは他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図１１に示すように人物１のキーポイントａの位置の尤度のデータを含まないキーポイントａの位置の尤度のデータが出力されるようになる。図１１に示すキーポイントａの位置の尤度のデータは、図１２に示す人物２のキーポイントａの位置の尤度のデータのみを含んでいる。

「キーポイントの位置の修正量」のデータは、非特許文献１に記載の技術と同じ概念である。図１２に示す例の場合、手前に位置する人物１のキーポイントａ（足元のキーポイント）は他の物体に隠れて見えていない。このため、本実施形態の学習済みのニューラルネットワークを利用すると、図１１に示すように人物１のキーポイントａの位置の修正量のデータを含まないキーポイントａの位置の修正量のデータが出力されるようになる。

以上、本実施形態の技術は、少なくとも、複数のキーポイント各々の隠れ情報のデータを出力する点、及び、隠れ情報で見えていないことが示されているキーポイントの位置のデータを出力しない点で、非特許文献１に記載の技術と異なる。そして、本実施形態の技術では、非特許文献１に記載の技術が有さないこれらの特徴を備えることで、画像において見えていないキーポイントの情報を除いた学習を実現する。

＜機能構成＞
次に、本実施形態の学習装置の機能構成を説明する。図１３に、学習装置１０の機能ブロック図の一例を説明する。図示するように、学習装置１０は、取得部１１と、学習部１２と、記憶部１３とを有する。なお、図１４の機能ブロック図に示すように、学習装置１０は記憶部１３を有さなくてもよい。この場合、学習装置１０と通信可能に構成された外部装置が記憶部１３を備える。

取得部１１は、教師画像と正解ラベルとを紐付けた学習データを取得する。教師画像は、人物が含まれる。教師画像は、１人の人物のみを含んでもよいし、複数の人物を含んでもよい。正解ラベルは、少なくとも、人物の身体の複数のキーポイント各々が教師画像において見えているか否か、及び、教師画像において見えているキーポイントの教師画像内の位置を示す。正解ラベルは、教師画像において見えていないキーポイントの教師画像内の位置は示さない。なお、正解ラベルは、例えば人の位置や人のサイズ等のその他の情報を含んでもよい。また、正解ラベルは、元の正解ラベルを加工した新しい正解ラベルでもよい。例えば、上記キーポイントの教師画像内の位置と上記キーポイントの隠れ情報から加工した図８に示される複数のデータという正解ラベルでもよい。

例えば、正解ラベルを作成するオペレータは、画像内で見えているキーポイントのみを画像内で指定する作業等を行えばよい。そして、オペレータは、他の物体に隠れて見えていないキーポイントの画像内の位置を予測して、画像内で指定する等の面倒な作業を行わなくてもよい。

キーポイントは、関節部分、所定のパーツ部分（目、鼻、口、へそ等）、身体の末端部分（頭の先、足先、手先等）の中の少なくとも一部であってもよい。また、キーポイントは、その他の部分であってもよい。キーポイントの数や位置の定義の仕方は様々であり、特段制限されない。

例えば、記憶部１３に多数の学習データが記憶されている。そして、取得部１１は、記憶部１３から学習データを取得することができる。

学習部１２は、学習データに基づき推定モデルを学習する。記憶部１３が推定モデルを記憶する。推定モデルは、図８を用いて説明したニューラルネットワークを含んで構成される。推定モデルは、図８に示される複数のデータを出力する。図８に示される複数のデータは、各人物の位置を示す情報、処理画像に含まれる各人物の複数のキーポイント各々が処理画像において見えているか否かを示す情報、及び、前記処理画像において見えているキーポイントの処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報等を示す。キーポイント各々の位置に関係する情報は、各キーポイントの相対位置、各キーポイントの位置の尤度、各キーポイントの位置の修正量等を示す。

そして、当該推定モデルが出力した複数のデータを用いて、各種推定処理を行うことができる。例えば、推定部（例えば、以下の実施形態で説明する推定部２１）は、図８乃至図１２を用いて説明したような複数のデータの一部に基づく所定の演算処理を行う。推定部は、処理画像において見えているキーポイントの処理画像内の位置を推定することができる。例えば、推定部は、図９に示す人の位置（人の中心位置）の尤度と中心位置からの相対位置で示される各キーポイントの位置に基づき特定される各キーポイントの処理画像内の位置と、図１１に示す各キーポイントの位置の尤度と修正量に基づき特定される各キーポイントの処理画像内の位置とを統合した結果を、複数のキーポイント各々の処理画像内の位置として算出する。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示されるがこれらに限定されない。

学習部１２は、学習データの隠れ情報や学習データのキーポイントの位置情報において、見えていることが示されているキーポイントの情報のみを用いて、すなわち、学習データの隠れ情報や学習データのキーポイントの位置情報において、見えていないことが示されているキーポイントの情報を用いずに学習する。例えば、学習部１２は、キーポイントの位置に関する学習の際、学習データでキーポイントが見えていることを示す格子上の位置に対して、学習中の推定モデルから出力されるキーポイントの位置情報と、学習データ（正解ラベル）のキーポイントの位置情報との誤差を最小化するように推定モデルのパラメータを調整する。

ここで、学習部１２による学習の手法の具体例を説明する。

学習部１２は、人の位置（中心位置）の尤度のデータについては、学習中の推定モデルから出力される人の位置の尤度を示すマップと、学習データの人の位置の尤度を示すマップとの誤差を最小化するように学習する。また、学習部１２は、人の位置の修正量、人のサイズ、各キーポイントの隠れ情報のデータについては、学習データの人の位置を示す格子上の位置のみに対して、学習中の推定モデルから出力される人の位置の修正量、人のサイズ、各キーポイントの隠れ情報と、学習データの人の位置の修正量、人のサイズ、各キーポイントの隠れ情報との誤差を最小化するように学習する。

また、学習部１２は、各キーポイントの相対位置のデータについては、学習データの人の位置を示す格子上の位置の中で、さらに学習データの各キーポイントの隠れ情報で隠れていないことを示す格子上の位置のみに対して、学習中の推定モデルから出力される各キーポイントの相対位置と、学習データの各キーポイントの相対位置との誤差を最小化するように学習する。

また、学習部１２は、各キーポイントの位置の尤度のデータについては、学習中の推定モデルから出力される各キーポイントの位置の尤度を示すマップと、学習データの各キーポイントの位置の尤度を示すマップとの誤差を最小化するように学習する。また、学習部１２は、各キーポイントの位置の修正量のデータについては、学習データの各キーポイントの位置を示す格子上の位置のみに対して、学習中の推定モデルから出力される各キーポイントの位置の修正量と、学習データの各キーポイントの位置の修正量との誤差を最小化するように学習する。学習データの各キーポイントの位置の尤度、及び、学習データのキーポイントの位置の修正量は、見えているキーポイントしか示されていないので、おのずと見えているキーポイントのみで学習することになる。

このように、学習部１２は、キーポイントの位置に関する学習の際、学習データでキーポイントが見えていることを示す格子上の位置に対して、学習中の推定モデルから出力されるキーポイントの位置情報と、学習データ（正解ラベル）のキーポイントの位置情報との誤差を最小化するように推定モデルのパラメータを調整する。

図１５を用いて、学習装置１０の処理の流れの一例を説明する。

Ｓ１０では、学習装置１０は、教師画像と正解ラベルとを紐付けた学習データを取得する。当該処理は、取得部１１により実現される。取得部１１が実行する処理の詳細は上述した通りである。

Ｓ１１では、学習装置１０は、Ｓ１０で取得した学習データを用いて推定モデルを学習する。当該処理は、学習部１２により実現される。学習部１２が実行する処理の詳細は上述した通りである。

学習装置１０は、終了条件をみたすまで、Ｓ１０及びＳ１１のループを繰り返す。終了条件は、例えば損失関数の値等を用いて定義される。

＜ハードウエア構成＞
次に、学習装置１０のハードウエア構成の一例を説明する。学習装置１０の各機能部は、任意のコンピュータのＣＰＵ（Central Processing Unit）、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ（Compact Disc）等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図１６は、学習装置１０のハードウエア構成を例示するブロック図である。図１６に示すように、学習装置１０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。学習装置１０は周辺回路４Ａを有さなくてもよい。なお、学習装置１０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

バス５Ａは、プロセッサ１Ａ、メモリ２Ａ、周辺回路４Ａ及び入出力インターフェイス３Ａが相互にデータを送受信するためのデータ伝送路である。プロセッサ１Ａは、例えばＣＰＵ、ＧＰＵ（Graphics Processing Unit）などの演算処理装置である。メモリ２Ａは、例えばＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリである。入出力インターフェイス３Ａは、入力装置、外部装置、外部サーバ、外部センサ、カメラ等から情報を取得するためのインターフェイスや、出力装置、外部装置、外部サーバ等に情報を出力するためのインターフェイスなどを含む。入力装置は、例えばキーボード、マウス、マイク、物理ボタン、タッチパネル等である。出力装置は、例えばディスプレイ、スピーカ、プリンター、メーラ等である。プロセッサ１Ａは、各モジュールに指令を出し、それらの演算結果をもとに演算を行うことができる。

＜作用効果＞
本実施形態の学習装置１０が学習する推定モデルは、複数のキーポイント各々が画像において見えているか否かを示す隠れ情報のデータを出力するという特徴を有する。そして、当該推定モデルは、隠れ情報のデータで見えていないことが示されているキーポイントの位置情報を出力しないという特徴をさらに有する。また、学習装置１０は、当該推定モデルを学習する際、キーポイントの位置情報の学習データに関して、キーポイントが画像に見えている位置情報のみを与えられればよいという特徴を有する。学習装置１０は、このような推定モデルから出力された結果と正解ラベル（学習データ）とに基づき、推定モデルのパラメータを最適化する。このような学習装置１０によれば、画像において見えていないキーポイントの情報を除いて正しく学習することが可能となる。結果、学習データの中にキーポイントの一部が見えていない画像が含まれている場合に推定精度が低下する問題を軽減できる。

「第２の実施形態」
本実施形態の推定装置は、第１の実施形態の学習装置により学習された推定モデルを用いて、画像に含まれる各人物の複数のキーポイント各々の画像内の位置を推定する。以下、詳細に説明する。

図１７に、推定装置２０の機能ブロック図の一例を示す。図示するように、推定装置２０は、推定部２１と、記憶部２２とを有する。なお、図１８の機能ブロック図に示すように、推定装置２０は記憶部２２を有さなくてもよい。この場合、推定装置２０と通信可能に構成された外部装置が記憶部２２を備える。

推定部２１は、任意の画像を処理画像として取得する。例えば、推定部２１は、監視カメラが撮影した画像を処理画像として取得してもよい。

そして、推定部２１は、学習装置１０により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定し、出力する。第１の実施形態で説明した通り、推定モデルは、画像が入力されると、図８乃至図１１を用いて説明したデータを出力する。推定部２１は、この推定モデルで出力されたデータを用いて、さらに推定処理を行うことで、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定し、推定結果として出力する。学習済みの推定モデルは、記憶部２２に記憶されている。推定結果の出力は、ディスプレイ、投影装置、プリンター、電子メール等のあらゆる手段を利用して実現される。また、推定部２１は、推定モデルで出力されたデータをそのまま推定結果として出力してもよい。

なお、推定部２１は、推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々が処理画像において見えているか否かを推定し、当該推定の結果を用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定するという特徴を有する。以下、推定部２１が行う処理の一例を、図１９及び図２０を用いて説明する。

（ステップ１）：処理画像を推定モデルで処理し、図８乃至図１１に示すような複数のデータを得る。
（ステップ２）：人位置の尤度のデータに基づき、各人物の、人の中心位置（図１９のＰ１１）が位置する（含まれる）格子（図１９のＰ１）を特定する。具体的には、尤度が閾値以上の格子を特定する。
（ステップ３）：人位置の修正量のデータから、（ステップ２）で特定した格子の位置に対応する修正量（図１９のＰ１０）を取得する。
（ステップ４）：（ステップ２）で特定した格子の位置（格子の中心位置も含む）、及び（ステップ３）で取得した修正量に基づき、処理画像に含まれる人毎に、処理画像内の人の中心位置（図１９のＰ１１）を特定する。これにより、各人物の身体の中心位置が特定される。

（ステップ５）：サイズのデータから、（ステップ２）で特定した格子の位置に対応する人物のサイズを取得する。これにより、各人物のサイズが特定される。
（ステップ６）：各キーポイントの隠れ情報のデータから、（ステップ２）で特定した格子の位置に対応するデータを取得する。これにより、各人物の各キーポイントにおける見えていないという情報及び見えているという情報が特定される。
（ステップ７）：各キーポイントの相対位置のデータから、（ステップ６）でキーポイントが見えていると特定された格子の位置に対応するデータのみ（図１９のＰ１２）を取得する。これにより、各人物の、見えているキーポイント各々における相対位置のみが取得される。
（ステップ８）：（ステップ２）で特定された格子の中心と、（ステップ７）で取得したデータとを用いて、見えているキーポイント各々の処理画像内の位置（図１９のＰ２）を特定する。これにより、各人物の、見えているキーポイント各々における処理画像内の位置が特定される。

（ステップ９）：キーポイントの位置の尤度のデータに基づき、各キーポイント（図２０のＰ５）が位置する（含まれる）格子（図２０のＰ４）を特定する。具体的には、尤度が閾値以上の格子を特定する。
（ステップ１０）：キーポイントの位置の修正量のデータから、（ステップ９）で特定した格子の位置に対応する修正量（図２０のＰ６）を取得する。
（ステップ１１）：（ステップ９）で特定した格子の位置（格子の中心位置も含む）、及び（ステップ１０）で取得した修正量に基づき、処理画像に含まれるキーポイント各々の処理画像内の位置（図２０のＰ５）を特定する。
（ステップ１２）：（ステップ８）で求めた各人物の処理画像内のキーポイントの位置と、（ステップ１１）で求めた処理画像内のキーポイントの位置に対し、同じ種類のキーポイントで距離が近いもの（例：距離が閾値以下のもの）を対応付け、対応付けた位置の統合により、（ステップ８）で求めた各人物の処理画像内のキーポイントの位置を補正することで、処理画像において各人物の見えている複数のキーポイント各々の処理画像内における位置を算出する。統合の手法としては、平均、加重平均、どちらか一方の選択、等が例示される。

（ステップ１２）で算出されたキーポイント各々の処理画像内における位置と、人の位置を示す格子の位置は、（ステップ８）で対応づけられているので、算出されたキーポイント各々の処理画像内における位置は、どの人物に対応しているかが分かることになる。また、（ステップ７）では、（ステップ６）でキーポイントが見えていると特定された格子の位置に対応するデータのみを取得したが、見えていないと特定された格子の位置も含めてデータを取得してもよい。

なお、推定部２１は、処理画像内において各人物の、見えていない複数のキーポイント各々の処理画像内における位置を推定してもよいし、推定しなくてもよい。推定しない場合、各人物に対して、見えていないキーポイントの種類が分かっているので、その情報（見えていないキーポイントの種類）を人物毎に出力することも可能である。さらには、図２４のＰ４０に示すように、人物毎の見えていないキーポイントの種類を人を模したオブジェクトに表し人物毎に表示することも可能である。

推定する場合、推定する処理としては、例えば、次のようなものが考えられる。推定部２１は、予め定義された人に対する複数のキーポイントの接続関係に基づき、見えていないキーポイントと直接繋がる見えているキーポイントを特定する。そして、推定部２１は、見えていないキーポイントと直接繋がる見えているキーポイントの処理画像内の位置に基づき、見えていないキーポイントの処理画像内の位置を推定する。その詳細は様々であり、あらゆる技術を利用して実現することができる。

また、推定された見えていないキーポイントの処理画像内の位置は、その位置を中心とする円の範囲として表示することもできる。推定された見えていないキーポイントの処理画像内の位置は、実際にはおおよその位置であるため、それを表現できる表示方法である。円の範囲は、キーポイントが属する人物に対応するキーポイントの位置の広がりに基づいて算出してもよいし、固定でもよい。ちなみに、推定された見えているキーポイントの処理画像内の位置は、正確であるため、その位置を一点で示せるオブジェクト（点、図形など）で表示すればよい。

次に、図２１のフローチャートを用いて、推定装置２０の処理の流れの一例を説明する。

Ｓ２０では、推定装置２０は、処理画像を取得する。例えば、オペレータが処理画像を推定装置２０に入力する。そして、推定装置２０は、入力された処理画像を取得する。

Ｓ２１では、推定装置２０は、学習装置１０により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定する。当該処理は、推定部２１により実現される。推定部２１が実行する処理の詳細は上述した通りである。

Ｓ２２では、推定装置２０は、Ｓ２１の推定結果を出力する。推定装置２０は、ディスプレイ、投影装置、プリンター、電子メール等のあらゆる手段を利用することができる。

次に、推定装置２０のハードウエア構成の一例を説明する。推定装置２０の各機能部は、任意のコンピュータのＣＰＵ、メモリ、メモリにロードされるプログラム、そのプログラムを格納するハードディスク等の記憶ユニット（あらかじめ装置を出荷する段階から格納されているプログラムのほか、ＣＤ等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムをも格納できる）、ネットワーク接続用インターフェイスを中心にハードウエアとソフトウエアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。

図１６は、推定装置２０のハードウエア構成を例示するブロック図である。図１６に示すように、推定装置２０は、プロセッサ１Ａ、メモリ２Ａ、入出力インターフェイス３Ａ、周辺回路４Ａ、バス５Ａを有する。周辺回路４Ａには、様々なモジュールが含まれる。推定装置２０は周辺回路４Ａを有さなくてもよい。なお、推定装置２０は物理的及び／又は論理的に分かれた複数の装置で構成されてもよい。この場合、複数の装置各々が上記ハードウエア構成を備えることができる。

以上説明した本実施形態の推定装置２０によれば、画像において見えていないキーポイントの情報を除いて正しく学習した推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の処理画像内の位置を推定することができる。このような推定装置２０によれば、当該推定の精度が向上する。

「変形例」
以下、いくつかの変形例を説明する。上記実施形態は、以下の複数の変形例の中の１つ又は複数を採用した構成とすることもできる。

－第１の変形例－
推定部２１は、推定された各人物に対する、処理画像において見えていると推定されたキーポイントの数、及び、処理画像において見えていないと推定されたキーポイントの数の少なくとも一方に基づき、推定された人物毎に、処理画像において人物の身体が見えている程度、及び、処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算し、出力してもよい。

例えば、推定部２１は、推定された人物毎の（キーポイントの総数）に対する（処理画像において見えていると推定されたキーポイントの数）の割合を、推定された各人物に対する処理画像において人物の身体が見えている程度を示す情報として算出してもよい。

その他、推定部２１は、推定された人物毎の（キーポイントの総数）に対する（処理画像において見えていないと推定されたキーポイントの数）の割合を、推定された各人物に対する処理画像において人物の身体が隠れている程度を示す情報として算出してもよい。

上記に示す、計算された人物毎の身体が見えている/見えていない程度を示す情報（もしくは、割合）は、図２２のＰ３０に示すように、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示されてもよい。また、その情報（もしくは、割合）を指定の閾値に基づいて、人物毎の隠れなし/隠れありという情報に変換し、その変換された情報を上記と同様な方法で表示してもよい（図２３のＰ３１）。さらに、人物毎の隠れなし/隠れありという情報に色/模様を割り当てて、図２３のＰ３２に示すように、人物単位のキーポイントをその色で表示してもよい。

－第２の変形例－
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の隠れ方の状態をさらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の隠れ方の状態がさらに示される。見えていないキーポイントの隠れ方の状態は、例えば、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態、を含むことができる。

当該変形例を実現する一例として、隠れ情報にこれらの情報を付加する例が考えられる。例えば、上記実施形態では、隠れ情報において、見えているキーポイントに「０」の値が付与され、見えていないキーポイントに「１」の値が付与された。変形例では、隠れ情報において、例えば、見えているキーポイントに「０」の値が付与され、画像外に位置する状態のため見えていないキーポイントに「１」の値が付与され、画像内に位置するが他の物体に隠れている状態のため見えていないキーポイントに「２」の値が付与され、画像内に位置するが自身の部位に隠れている状態のため見えていないキーポイントに「３」の値が付与されてもよい。隠れ情報の１以上が、見えていないキーポイントを示す。

－第３の変形例－
上述した実施形態の推定モデルは、各人物の、複数のキーポイント各々が処理画像において見えているか否かを学習し推定した。変形例として、推定モデルは、上述した隠れ情報の代わりに、又は上述した隠れ情報に加えて、処理画像において見えていないキーポイント各々の重なり方の状態を、当該キーポイントを隠している物体の数として、さらに学習し推定してもよい。当該変形例では、学習データの正解ラベルにおいて、教師画像において見えていないキーポイント各々の重なり方の状態が、当該キーポイントを隠している物体の数として、さらに示される。

当該変形例を実現する一例として、隠れ情報にこれらの情報を付加する例が考えられる。例えば、上記実施形態では、隠れ情報において、見えているキーポイントに「０」の値が付与され、見えていないキーポイントに「１」の値が付与された。変形例では、隠れ情報において、例えば、見えているキーポイントに「０」の値が付与され、見えていないキーポイントにはそのキーポイントを隠している物体の数Ｍに応じた値、例えば「Ｍ」の値が付与される。隠れ情報の1以上が、見えていないキーポイントを示す。

上記に示す、人物毎の各キーポイントを隠している物体の数において、人物毎に最大値を計算し、計算された最大値を人物毎の重なり方の状態として算出する。算出された人物毎の重なり方の状態（もしくは、最大値）は、図２５のＰ３５に示すように、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示されてもよい。また、人物毎の重なり方の状態に色/模様を割り当てて、図２５のＰ３６に示すように、人物単位のキーポイントをその色で表示してもよい。

上記に示す、人物毎の各キーポイントを隠している物体の数、もしくは、人物毎の重なり方の状態（もしくは、最大値）がわかるので、それらの情報に基づき、人物単位またはキーポイント単位の奥行情報を構築することも可能である。ここで示す奥行情報とは、カメラからの距離の順番を示す。

なお、第３の変形例は、第２の変形例と組み合わせることもできる。

以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。

なお、本明細書において、「取得」とは、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置が他の装置や記憶媒体に格納されているデータを取りに行くこと（能動的な取得）」、たとえば、他の装置にリクエストまたは問い合わせして受信すること、他の装置や記憶媒体にアクセスして読み出すこと等、および、ユーザ入力に基づき、又は、プログラムの指示に基づき、「自装置に他の装置から出力されるデータを入力すること（受動的な取得）」、たとえば、配信（または、送信、プッシュ通知等）されるデータを受信すること、また、受信したデータまたは情報の中から選択して取得すること、及び、「データを編集（テキスト化、データの並び替え、一部データの抽出、ファイル形式の変更等）などして新たなデータを生成し、当該新たなデータを取得すること」の少なくともいずれか一方を含む。

上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
１．人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置。
２．前記正解ラベルにおいて、前記教師画像において見えていない前記キーポイントの前記教師画像内の位置は示されない１に記載の学習装置。
３．前記学習手段は、
学習中の前記推定モデルに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報、を推定し、
各人物の位置を示す情報の推定結果と、前記正解ラベルで示される各人物の位置を示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報の推定結果と、前記正解ラベルで示される各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す情報との差を最小化するように前記推定モデルのパラメータを調整し、
複数の前記キーポイント各々の前記教師画像内の位置を算出するためのキーポイント各々の位置に関する情報の推定結果と、前記正解ラベルで示される複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置から得られたキーポイント各々の位置に関する情報との差を、前記正解ラベルで示される前記教師画像において見えているキーポイントのみに対して、最小化するように前記推定モデルのパラメータを調整する１又は２に記載の学習装置。
４．前記正解ラベルは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに示し、
前記推定モデルは、前記処理画像において人物毎の見えていない前記キーポイント各々の前記状態をさらに推定する１から３のいずれかに記載の学習装置。
５．前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む４に記載の学習装置。
６．前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す４に記載の学習装置。
７．１から６のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置。
８．前記推定手段は、前記推定モデルを用いて、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを推定し、当該推定の結果を用いて、前記処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する７に記載の推定装置。
９．前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、人物毎に見えていないキーポイントの種類を出力する、もしくは、前記見えていないキーポイントの種類を人を模したオブジェクトに表し人物毎に表示する８に記載の推定装置。
１０．前記推定手段は、前記処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かという前記推定された情報を用いて、見えていないキーポイントを特定し、予め定義された人に対する複数のキーポイントの接続関係に基づき、前記特定された見えていないキーポイントと直接繋がる見えているキーポイントを特定し、前記特定された見えているキーポイントの処理画像内の位置に基づき、前記特定された見えていないキーポイントの処理画像内の位置を推定する８又は９に記載の推定装置。
１１．前記推定手段は、
推定された各人物に対する、前記処理画像において見えていると推定された前記キーポイントの数、及び、前記処理画像において見えていないと推定された前記キーポイントの数の少なくとも一方に基づき、推定された人物毎に、前記処理画像において人物の身体が見えている程度、及び、前記処理画像において人物の身体が隠れている程度の少なくとも一方を示す情報を計算する７から１０のいずれかに記載の推定装置。
１２．前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する１１に記載の推定装置。
１３．前記推定手段は、前記計算された人物の身体が見えている程度、及び、人物の身体が隠れている程度の少なくとも一方を示す情報を指定の閾値に基づいて、人物毎の隠れなし/隠れありという情報に変換し、その変換された情報を、各人物の中心位置もしくは指定したキーポイント位置に基づき、人物毎に表示する１１に記載の推定装置。
１４．前記推定手段は、人物毎の各キーポイントを隠している前記物体の数において、人物毎に最大値を計算し、計算された最大値を人物毎の重なり方の状態として算出し、算出された人物毎の重なり方の状態を、各人物の中心位置もしくは指定したキーポイントの位置に基づき、人物毎に表示する、もしくは、人物毎の重なり方の状態に色/模様を割り当てて、人物単位のキーポイントを割り当てた色で表示する７に記載の推定装置。
１５．コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法。
１６．コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラム。
１７．コンピュータが、
１から６のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法。
１８．コンピュータを、
１から６のいずれかに記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラム。

１０学習装置
１１取得部
１２学習部
１３記憶部
２０推定装置
２１推定部
２２記憶部
１Ａプロセッサ
２Ａメモリ
３Ａ入出力Ｉ／Ｆ
４Ａ周辺回路
５Ａバス

Claims

人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段と、
を有する学習装置。
前記正解ラベルにおいて、前記教師画像において見えていない前記キーポイントの前記教師画像内の位置は示されない請求項１に記載の学習装置。
前記正解ラベルは、前記教師画像において人物毎の見えていない前記キーポイント各々の状態をさらに示し、
前記推定モデルは、前記処理画像において人物毎の見えていない前記キーポイント各々の前記状態をさらに推定する請求項１又は２に記載の学習装置。
前記状態は、画像外に位置する状態、画像内に位置するが他の物体に隠れている状態、画像内に位置するが自身の部位に隠れている状態を含む請求項３に記載の学習装置。
前記状態は、前記教師画像もしくは前記処理画像において見えていない前記キーポイントを隠している物体の数を示す請求項３に記載の学習装置。
請求項１から５のいずれか１項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段を有する推定装置。
コンピュータが、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得工程と、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習工程と、
を実行する学習方法。
コンピュータを、
人物が含まれる教師画像と、各人物の位置を示す正解ラベル、各人物の身体の複数のキーポイント各々が前記教師画像において見えているか否かを示す正解ラベル、及び、複数の前記キーポイントの中の前記教師画像において見えている前記キーポイントの前記教師画像内の位置を示す正解ラベル、とを紐付けた学習データを取得する取得手段、
前記学習データに基づき、各人物の位置を示す情報、処理画像に含まれる各人物の複数の前記キーポイント各々が前記処理画像において見えているか否かを示す情報、及び、前記処理画像において見えている前記キーポイントの前記処理画像内の位置を算出するためのキーポイント各々の位置に関係する情報、を推定する推定モデルを学習する学習手段、
として機能させるプログラム。
コンピュータが、
請求項１から５のいずれか１項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定工程を実行する推定方法。
コンピュータを、
請求項１から５のいずれか１項に記載の学習装置により学習された推定モデルを用いて、処理画像に含まれる各人物の複数のキーポイント各々の前記処理画像内の位置を推定する推定手段として機能させるプログラム。