JP7235133B2

JP7235133B2 - 運動認識方法、運動認識プログラムおよび情報処理装置

Info

Publication number: JP7235133B2
Application number: JP2021550902A
Authority: JP
Inventors: 将嵩藤崎; 卓也佐藤; 彰彦矢吹; 昇一桝井; 崇本田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-10-03
Filing date: 2019-10-03
Publication date: 2023-03-08
Anticipated expiration: 2039-10-03
Also published as: WO2021064963A1; CN114514559A; EP4040387A1; EP4040387A4; US20220207921A1; JPWO2021064963A1

Description

本発明は、運動認識方法、運動認識プログラムおよび情報処理装置に関する。

体操や医療などの幅広い分野において、選手や患者などの人物の骨格情報を用いて、人物の動作を自動で認識することが行われている。例えば、体操競技における現状の採点方法は複数の審判による目視で行っているが、器具の進化やトレーニング方法の改善により、動きの複雑化をともなう技の高度化が進み、審判による技の認識が困難となる場合が現れている。この結果、審判ごとに選手の採点結果が異なるなど採点の公平性や正確性の維持に懸念が生じている。

このため、近年では、選手の３次元骨格座標（以降では、「骨格情報」と記載する場合がある）を用いた自動採点技術が利用されている。例えば、３Ｄ（Three－Dimensional）レーザセンサにより選手の３次元点群データを取得し、３次元点群データを用いて選手の骨格情報を算出する。そして、骨格情報の時系列情報から実施された「技」を自動的に認識し、審判に自動採点結果を提供することで、採点の公平性や正確性の担保を行う。

このような技の自動認識を体操競技のあん馬を例にして説明すると、予め、あん馬の器具の１つであるポメルが設置される周辺を領域ごとに分類する。例えば、ポメル１の左側を領域１、ポメル１の上を領域２、ポメル１とポメル２の間を領域３、ポメル２の上を領域４、ポメル２の右側を領域５に分類する。

そして、骨格情報から演技者の骨格を認識し、骨格認識結果から得られる左右の手首の位置がどの領域に位置するかにより、手首の支持位置を推定する。そして、時系列の骨格情報から生成される時系列の骨格認識結果と、推定された手首の支持位置とを用いて、技のルールにしたがって、技の認識や技の精度などを評価し、自動採点を実行する。

国際公開第２０１８／０７０４１４号

しかしながら、上記技術では、３Ｄレーザセンサのセンシングにノイズが含まれる場合や複数のセンシング結果を統合する際のずれなどにより、センシング結果を用いた骨格認識処理の精度が低下し、各関節の位置の推定精度を保証することが難しい。

一方で、運動を認識するうえで、現実世界に存在する物体と被写体の部位の位置関係を正確に認識することが要求されることがある。例えば、あん馬の領域Ａに演技者の手首が存在するのか、あん馬の領域Ｂに演技者の手首が存在するのかで、最終的な運動認識結果が変わる場合などがある。つまり、動き自体は同じでも、手が領域Ａを支持していると技Ｔと認識され、手が領域Ｂを支持していると技Ｓと認識される場合などがある。

上記技術では、骨格認識結果から得られる部位の位置をそのまま使って、物体上のどの領域に位置するかを分類していた。しかし、骨格認識結果に誤差がある場合、割り当てた領域が正しくない場合がある。例えば、あん馬において、骨格認識結果が示す手首では領域１に割り当てられたが、本来は領域２に手をついていたなどがある。このような事態が発生すると、結果として、技Ｓを技Ｔと認識するなど、運動の認識結果が誤ってしまうことがある。

そこで、本発明は、一つの側面において、被写体の特定の部位と、現実世界に存在する物体における複数領域との位置関係に対する推定精度を向上させることで、当該位置関係を用いた運動の認識精度を向上させる運動認識方法、運動認識プログラムおよび情報処理装置を提供することを目的とする。

第１の案では、運動認識方法は、コンピュータが、運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得する処理を実行する。運動認識方法は、コンピュータが、前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定する処理を実行する。運動認識方法は、コンピュータが、前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、認識結果を出力する処理を実行する。

一つの側面では、被写体の特定の部位と、現実世界に存在する物体における複数領域との位置関係を用いた運動の認識精度を向上させることができる。

図１は、実施例１にかかるシステムの全体構成例を示す図である。図２は、実施例１にかかる学習装置の機能構成を示す機能ブロック図である。図３は、距離画像を説明する図である。図４は、骨格定義を説明する図である。図５は、骨格データを説明する図である。図６は、あん馬に関連する骨格情報を説明する図である。図７は、クラス分類を説明する図である。図８は、横向き旋回時の支持位置による関節動作の差を説明する図である。図９は、ロシアンを演技時の支持位置による関節動作の差を説明する図である。図１０は、支持位置による足首のｚ値の変化を説明する図である。図１１は、学習データの生成を説明する図である。図１２は、学習データの整形を説明する図である。図１３は、クラス分類モデルの学習を説明する図である。図１４は、学習する特徴量の例を説明する図である。図１５は、実施例１にかかる認識装置の機能構成を示す機能ブロック図である。図１６は、クラス分類処理を説明する図である。図１７は、時系列のクラス分類結果を説明する図である。図１８は、実施例１にかかる採点装置の機能構成を示す機能ブロック図である。図１９は、学習処理の流れを示すフローチャートである。図２０は、自動採点処理の流れを示すフローチャートである。図２１は、クラス分類処理の流れを示すフローチャートである。図２２は、ハードウェア構成例を説明する図である。

以下に、本発明にかかる運動認識方法、運動認識プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

［全体構成］
図１は、実施例１にかかるシステムの全体構成例を示す図である。図１に示すように、このシステムは、３Ｄ（Three－Dimensional）レーザセンサ５、学習装置１０、認識装置５０、採点装置９０を有し、被写体である演技者１の３次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。

一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、３Ｄレーザセンサを使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、３Ｄレーザセンサにより選手の３次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を３Ｄモデルにより表示することで、採点者が演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。

ここで、３Ｄレーザセンサのセンシングにノイズが含まれる場合などにより、センシング結果を用いた骨格認識処理の精度が低下し、関節位置の推定精度を保証することが難しいことがある。しかし、自動採点システムにおいて、関節位置の推定精度が低下することは、システムの信頼性の低下に繋がるので、ノイズの影響を小さくし、推定精度の低下を抑制させる取り組みが重要である。

そこで、実施例１にかかる自動採点システムでは、学習装置１０が、クラス分類モデルを学習し、認識装置５０が、学習済みのクラス分類モデルを用いて、演技者１の関節位置の推定や技認識を実行することで、体操競技における関節位置の推定精度や技の認識精度を向上させる。この結果、採点装置９０による、正確な認識結果を用いた正確な自動採点を実現する。

すなわち、演技者１の関節位置の推定に、ＡＩ（Artificial Intelligence）技術を導入することにより、ノイズの影響を小さくし、演技者１の関節位置と、現実世界に存在するあん馬上の各領域との位置関係に対する推定精度を向上させる。

ここで、クラス分類モデルは、あん馬上の位置を複数のクラスに分類しておき、時系列で取得される複数の骨格情報を説明変数、演技者の特定関節が位置するクラスを目的変数として学習されたニューラルネットワークである。つまり、クラス分類モデルは、演技者の骨格情報の時系列の変化を特徴として学習することで、骨格認識結果から演技者の特定関節の位置を直接特定するのではなく、演技者１の身体全体の関節位置から特定関節の位置を推定する。

認識装置５０は、このようなクラス分類モデルを用いることで、３Ｄレーザセンサのセンシングにノイズ混入が疑われる場合であっても、関節位置を正確に推定し、演技者１の演技における技の認識精度の向上させることができる。この結果、自動採点システムの信頼性の低下を抑制することができる。

［機能構成］
次に、図１に示したシステムが有する各装置の機能構成につて説明する。なお、ここでは、学習装置１０、認識装置５０、採点装置９０のそれぞれについて説明する。

（学習装置１０の構成）
図２は、実施例１にかかる学習装置１０の機能構成を示す機能ブロック図である。図２に示すように、学習装置１０は、通信部１１、記憶部１２、制御部２０を有する。

通信部１１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部１１は、３Ｄレーザセンサ５により撮影された演技者１の距離画像を受信し、管理者端末などから各種データや指示を受信し、認識装置５０に学習済みのクラス分類モデルを送信する。

記憶部１２は、データや制御部２０が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部１２は、距離画像１３、骨格定義１４、骨格データ１５、クラス分類モデル１６を記憶する。

距離画像１３は、３Ｄレーザセンサ５により撮像される演技者１の距離画像である。図３は、距離画像１３を説明する図である。図３に示すように、距離画像１３は、３Ｄレーザセンサ５から画素までの距離が含まれるデータであり、３Ｄレーザセンサ５からの距離が近いほど、濃い色で表示される。なお、距離画像１３は、演技者１の演技中に随時撮像される。

骨格定義１４は、骨格モデル上の各関節を特定するための定義情報である。ここで記憶される定義情報は、３Ｄレーザセンサによる３Ｄセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。

図４は、骨格定義１４を説明する図である。図４に示すように、骨格定義１４は、公知の骨格モデルで特定される各関節をナンバリングした、１８個（０番から１７番）の定義情報を記憶する。例えば、図４に示すように、右肩関節（SHOULDER＿RIGHT）には７番が付与され、左肘関節（ELBOW＿LEFT）には５番が付与され、左膝関節（KNEE＿LEFT）には１１番が付与され、右股関節（HIP＿RIGHT）には１４番が付与される。ここで、実施例では、７番の右肩関節のＸ座標をＸ７、Ｙ座標をＹ７、Ｚ座標をＺ７と記載する場合がある。なお、例えば、Ｚ軸は、３Ｄレーザセンサ５から対象に向けた距離方向、Ｙ軸は、Ｚ軸に垂直な高さ方向、Ｘ軸は、水平方向をと定義することができる。

骨格データ１５は、各距離画像を用いて生成される骨格に関する情報を含むデータである。具体的には、骨格データ１５は、距離画像を用いて取得された、骨格定義１４に定義される各関節の位置を含む。図５は、骨格データ１５を説明する図である。図５に示すように、骨格データ１５は、「フレーム、画像情報、骨格情報」が対応付けられる情報である。

ここで、「フレーム」は、３Ｄレーザセンサ５による撮像される各フレームを識別する識別子であり、「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の３次元の位置情報であり、図４に示した１８個の各関節に対応する関節位置（３次元座標）である。図５の例では、距離画像である「画像データＡ１」には、ＨＥＡＤの座標「Ｘ３，Ｙ３，Ｚ３」などを含む１８個の関節の位置が既知であることを示す。なお、関節位置は、例えば、予め学習された学習モデルであって、距離画像から各関節位置を抽出する学習モデルなどを用いて抽出することもできる。

ここで、本実施例で対象とするあん馬の演技においては、１８個の関節を用いることもできるが、あん馬の演技に特に関連する関節のみを用いることもできる。図６は、あん馬に関連する骨格情報を説明する図である。図６に示すように、あん馬の演技に大きく関連する骨格情報（関節）としては、頭、右肩、左肩、背骨、右肘、左肘、腰、右膝、左膝、右足首、左足首が挙げられる。

頭は、頭を上げるまたは下げるという動きを示す。肩は、体幹と腕の位置関係を示す。背骨は、体の曲りを示し、体操における屈伸や伸身を示す。肘は、腕の曲りや力の入り方を示す。手首は、物をつかんだ位置など示す。腰は、体のほぼ重心を示す。膝は、体幹と脚の関係を示し、開脚と閉脚の違いが特定できる。足首は、歩行状態、走行状態やあん馬回転運動の軌跡を示す。

あん馬の競技は、手でポメルを掴んだ状態で行う演技や馬背に手をついた状態で行う演技が混在し、同じような動きをしたとしても、手の位置により技や難易度が変わる。一方、ポメルは馬背上に存在することから、一連の演技の中で、手の位置だけでポメルなのか馬背なのかを自動で判定することが難しい。そこで、実施例１では、図６に示す関節全体の動きから、特に足首の上がり幅などを考慮して、手の位置を推定することで、関節位置の推定精度を向上させる。

クラス分類モデル１６は、時系列の骨格情報に基づき、演技者１の手首の位置を推定する学習モデルであり、後述する学習部２３によって学習されるニューラルネットワークなどを用いたモデルである。例えば、クラス分類モデル１６は、あん馬上の位置を複数のクラスに分類しておき、演技者の骨格情報の時系列の変化を特徴量として学習することで、演技者１の手首の支持位置を推定する。

図７は、クラス分類を説明する図である。図７に示すように、実施例１では、一例としてクラス０からクラス５の６クラスに領域を分割する例を説明する。具体的には、クラス１（ａ１）は、馬端Ａとポメル１の間の馬背の領域であり、クラス２（ａ２）は、ポメル１上の領域である。クラス３（ａ３）は、ポメル１とポメル２の間の馬背の領域であり、クラス４（ａ４）は、ポメル２上の領域である。クラス５は、ポメル２と馬端Ｂの間の馬背の領域であり、クラス０（ａ０）は、クラス１からクラス５以外の領域である。

制御部２０は、学習装置１０全体を司る処理部であり、例えばプロセッサなどである。制御部２０は、取得部２１、学習データ生成部２２、学習部２３を有し、クラス分類モデル１６の学習を実行する。なお、取得部２１、学習データ生成部２２、学習部２３は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。

取得部２１は、各種データを取得する処理部である。例えば、取得部２１は、３Ｄレーザセンサ５から距離画像を取得して記憶部１２に格納する。また、取得部２１は、管理者端末などから、骨格データを取得して記憶部１２に格納する。

学習データ生成部２２は、クラス分類モデル１６の学習に利用する学習データを生成する処理部である。具体的には、学習データ生成部２２は、時系列の骨格情報を説明変数、手首の支持位置（クラス）を目的変数とする学習データを生成して、記憶部１２に格納し、学習部２３に出力する。

ここで、時系列の骨格情報を特徴量として学習する理由として、支持位置による関節動作の差を説明する。図８は、横向き旋回時の支持位置による関節動作の差を説明する図であり、図９は、ロシアンを演技時の支持位置による関節動作の差を説明する図である。

図８に示すように、縦向き旋回は、正面支持、背面支持、正面支持の順で旋回する動きである。技番１３に示すように、手首の支持位置が馬背位置での縦向き旋回は、背面支持でポメルを避けるために足を高く上げ、その後の正面支持では背面支持で足を上げた反動で足が下がりやすい。一方、技番１４に示すように、手首の支持位置がポメルでの縦向き旋回は、背面支持でポメルの分だけ上体が高くなっているので足を高く上げる必要はなく、その後の正面支持でも背面支持とだいたい同じ高さで旋回できる。すなわち、手首の支持位置により、足首のｚ値の変化量が変わる。

また、図９に示すように、ロシアンは、下向き支持で旋回にあわせて向きが変わる動きである。技番１０４から１０６に示すように、手首の支持位置が馬背位置でのロシアンは、馬背に置いた手を軸にして旋回することから、足の位置が馬背よりも低い位置となる。技番１１０から１１２に示すように、手首の支持位置がポメルでのロシアンは、ポメルに置いた手を軸にして旋回することから、手首の支持位置が馬背位置でのロシアンよりも足の位置が高い位置となる。すなわち、手首の支持位置により、足首のｚ値の変化量が変わる。

次に、足首のｚ値の変化を具体的に説明する。図１０は、支持位置による足首のｚ値の変化を説明する図である。図１０には、ポメルの縦向き旋回（技番１４）、ポメルのロシアン（技番１１０）、馬背の縦向き旋回（技番１３）、馬背のロシアン（技番１０４）を順に演技したときの足首のｚ値を示している。図１０に示すように、ポメルを支持位置とする場合の足首のｚ値の変化（振り幅）は小さく、馬背を支持位置とする場合の足首のｚ値の変化は大きい。つまり、ｚ値の変化を学習することにより、支持位置の推定精度が向上すると考えることができる。

このようなことから、学習データ生成部２２は、時系列の骨格情報を説明変数、手首の支持位置（クラス）を目的変数とする学習データを生成する。図１１は、学習データの生成を説明する図である。図１１に示すように、学習データ生成部２２は、骨格データ１５の骨格情報を参照し、各フレームの骨格情報に両手の支持位置情報として、右手の支持位置の座標を示す「ＷＲ」と左手の支持位置の座標を示す「ＷＬ」を付与する。

例えば、学習データ生成部２２は、ｔｉｍｅ＝０のフレームの骨格情報（Ｊ０）に対して、骨格情報から右手首（関節位置＝９番）の座標値（Ｒ０）と左手首（関節位置＝６番）の座標値（Ｌ０）を取得する。その後、学習データ生成部２２は、右手首の座標値（Ｒ０）と左手首の座標値（Ｌ０）と、予め設定しておいたあん馬の各クラスに属する座標値とを比較して、右手クラス（クラス２）と左手クラス（クラス４）を設定する。

同様に、学習データ生成部２２は、ｔｉｍｅ＝１のフレームの骨格情報（Ｊ１）に対して、骨格情報から右手首の座標値（Ｒ１）と左手首の座標値（Ｌ１）を取得する。その後、学習データ生成部２２は、右手首の座標値（Ｒ１）と左手首の座標値（Ｌ１）と、各クラスに属する座標値とを比較して、右手クラス（クラス２）と左手クラス（クラス４）を設定する。

このようにして、学習データ生成部２２は、時系列で取得された各フレームの骨格情報に正解情報である右手クラスと左手クラスを付与する。なお、図１１では、説明を簡略化するために、骨格情報をＪ０などと記載したが、実際は、１８関節ごとにｘ、ｙ、ｚ値の座標（合計１８×３＝５４個）が設定されている。

学習部２３は、学習データ生成部２２により生成された学習データを用いて、クラス分類モデル１６の学習を実行する処理部である。具体的には、学習部２３は、学習データを用いた教師有学習によってクラス分類モデル１６のパラメータを最適化し、学習済みのクラス分類モデル１６を記憶部１２に格納し、認識装置５０に送信する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。

このような学習部２３は、時系列の骨格情報として例えば３０フレームを１つの入力データとしてクラス分類モデル１６に入力することから、パディングなどにより学習データの整形を実行する。図１２は、学習データの整形を説明する図である。図１２に示すように、ｔｉｍｅ＝０のフレーム０からｔｉｍｅ＝ｔのフレームｔまでのｔ個の骨格情報が存在するオリジナルデータから、１つずつずらして所定数ずつを学習データとして取得する場合、各学習データの数を合わせるために、先頭フレームのデータのデータをコピーするとともに、最終フレームのデータをコピーして学習データの数を増やす。

例えば、学習部２３は、フレーム０のデータ「骨格情報（Ｊ０），支持位置情報「ＷＲ（Ｒ０），ＷＬ（Ｌ０）」をフレーム０より前にコピーして、フレーム（－１）やフレーム（－２）などを生成する。同様に、学習部２３は、フレームｔのデータ「骨格情報（Ｊｔ），支持位置情報「ＷＲ（Ｒｔ），ＷＬ（Ｌｔ）」をフレームｔより後ろにコピーして、フレーム（ｔ＋１）やフレーム（ｔ＋２）などを生成する。なお、パディング数は、学習に利用するフレーム数（length）の半分などとする。

このようして、学習部２３は、学習データの整形を実行した上で、クラス分類モデル１６の学習を実行する。図１３は、クラス分類モデル１６の学習を説明する図である。図１３に示すように、学習部２３は、Ｌ個の時系列の骨格情報の学習データを説明変数として取得し、中間に位置する学習データの「右手クラス、左手クラス」を目的変数として取得する。そして、学習部２３は、Ｌ個の学習データをクラス分類モデル１６に入力し、クラス分類モデル１６の出力結果と目的変数「右手クラス、左手クラス」との誤差に基づく誤差逆伝搬法などにより、出力結果と目的変数とが一致するようにクラス分類モデル１６を学習する。

例えば、学習部２３は、フレームＮを中間とするフレーム（Ｎ－１５）からフレーム（Ｎ－１４）までの３０個のフレームの骨格情報を説明変数として取得するとともに、フレームＮの「右手クラス（クラス２）、左手クラス（クラス４）」を目的変数として取得する。そして、学習部２３は、取得した３０個のフレームを１つの入力データとしてクラス分類モデル１６に入力し、クラス分類モデル１６の出力結果として、右手クラスが各クラスに該当する確率（尤度）と左手クラスが各クラスに該当する確率（尤度）とを取得する。

その後、学習部２３は、右手クラスの確率のうち目的変数であるクラス２が最も確率が高くなるとともに、左手クラスの確率のうち目的変数であるクラス４が最も確率が高くなるように、クラス分類モデル１６を学習する。

このように、学習部２３は、学習データを１フレームずつずらした学習データを用いて学習することにより、骨格情報の変化を１つの特徴量として学習させる。図１４は、学習する特徴量の例を説明する図である。図１４では、横軸はフレーム番号（時間）であり、縦軸が座標値（ｘ軸、ｙ軸、ｚ軸）であり、１８関節の座標値の時系列の変化を示している。例えば、範囲を±１０フレームとし、１２８０フレーム目のクラス分類を認識する場合、１２７０から１２９０フレーム間の「２０×（１８関節×３軸（ｘ，ｙ，ｚ）＝５４）＝１０８０」の骨格情報を入力して、クラス分類モデル１６を学習する。また、１３１０フレーム目のクラス分類を認識する場合、１３００から１３２０フレーム間の「２０×（１８関節×３軸（ｘ，ｙ，ｚ）＝５４）＝１０８０」の骨格情報を入力して、クラス分類モデル１６を学習する。

（認識装置５０の構成）
図１５は、実施例１にかかる認識装置５０の機能構成を示す機能ブロック図である。図１５に示すように、認識装置５０は、通信部５１、記憶部５２、制御部６０を有する。

通信部５１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部５１は、３Ｄレーザセンサ５により撮影された演技者１の距離画像を受信し、学習装置１０から学習済みのクラス分類モデルを受信し、各種認識結果を採点装置に送信する。

記憶部５２は、データや制御部６０が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部５２は、距離画像５３、骨格定義５４、骨格データ５５、学習済みのクラス分類モデル５６を記憶する。

距離画像５３は、３Ｄレーザセンサ５により撮像される演技者１の距離画像であり、例えば採点対象の演技者の演技を撮像した距離画像である。骨格定義５４は、骨格モデル上の各関節を特定するための定義情報である。なお、骨格定義５４は、図４と同様なので、詳細な説明は省略する。

骨格データ５５は、後述するデータ生成部６２によりフレームごとに生成される骨格に関する情報を含むデータである。具体的には、骨格データ５５は、図５と同様、「フレーム、画像情報、骨格情報」が対応付けられる情報である。

学習済みのクラス分類モデル５６は、学習装置１０により学習されたクラス分類モデルである。この学習済みのクラス分類モデル５６は、時系列の骨格情報に基づき、演技者１の手首の位置を推定する学習モデルである。

制御部６０は、認識装置５０全体を司る処理部であり、例えばプロセッサなどである。制御部６０は、取得部６１、データ生成部６２、推定部６３、技認識部６４を有し、手首の位置の推定や演技者１が演技した技の認識を実行する。なお、取得部６１、データ生成部６２、推定部６３、技認識部６４は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。

取得部６１は、各種データや各種指示を取得する処理部である。例えば、取得部６１は、３Ｄレーザセンサ５による計測結果（３次元点群データ）に基づく距離画像を取得して記憶部５２に格納する。また、取得部６１は、学習装置１０などから、学習済みのクラス分類モデル５６を取得して記憶部５２に格納する。

データ生成部６２は、各距離画像から、１８個の関節の位置を含む骨格情報を生成する処理部である。例えば、データ生成部６２は、距離画像から骨格情報を認識する学習済みのモデルを用いて、１８個の関節位置を特定した骨格情報を生成する。そして、データ生成部６２は、距離画像に対応するフレームの番号と、距離画像と、骨格情報とを対応付けた骨格データ５５を記憶部５２に格納する。また、学習装置１０における骨格データ１５における骨格情報も同様の手法により生成することができる。

推定部６３は、演技者１の時系列の骨格情報と、学習済みのクラス分類モデル５６とを用いて、演技者１の手首の支持位置を推定する処理部である。具体的には、推定部６３は、学習時と同じフレーム数を１つの入力データとして学習済みのクラス分類モデル５６に入力し、学習済みのクラス分類モデル５６の出力結果に基づいて、演技者１の手首の支持位置を推定し、推定結果を技認識部６４や採点装置９０に出力する。

図１６は、クラス分類処理を説明する図である。図１６に示すように、推定部６３は、データ生成部６２により生成された骨格情報をオリジナルデータとして、図１２と同様の手法によりデータパディングを行って、パディングデータを生成する。そして、推定部６３は、先頭から３０フレームを取得して、学習済みのクラス分類モデル５６に入力する。

その後、推定部６２は、学習済みのクラス分類モデル５６の出力結果から、右手クラスの確率のうち最も確率が高い「クラス２」と、左手クラスの確率のうち最も確率が高い「クラス３」とを取得する。そして、推定部６２は、「右手＝クラス２、左手＝クラス３」を演技者１の手首の支持位置と推定する。このように、推定部６２は、フレームを１つずつずらして入力することで、演技中の各状態の手首の支持位置を推定する。

図１７は、時系列のクラス分類結果を説明する図である。図１７では、推定部６２による両手首の支持位置の推定結果を図示している。図１７に示すように、識別対象となる関節（手首）位置を、複数の関節位置の時系列情報を使って認識することで、精度を向上する。時刻ｔ４のタイミングで手首の位置がノイズにより、クラス４（ａ４）からクラス３（ａ３）と判定される位置にずれたとしても、肩や腰の連続した動きによりクラス４（ａ４）であると認識するように分類することができる。

図１５に戻り、技認識部６４は、推定部６２の推定結果やデータ生成部６２により生成された骨格データ５５を用いて、演技者１が演技した各技を自動で認識する処理部である。例えば、技認識部６４は、国際公開第２０１８／０７０４１４号に公開される手法を用いて、演技者１の体躯の位置や技と技の区切りの姿勢の検出、正面支持や着地位置の特定、分節点の判断、分節点間の情報を用いた基本運動の判定などを実行し、演技者１が演技した各技を自動で認識して、採点装置９０に送信する。

例えば、技認識部６４は、各フレームの骨格情報を用いて、各関節間の向きを示すベクトルデータを算出し、身体の向きや動きを特定する特徴量を算出する。そして、技認識部６４は、算出した特徴量と予め定めておいた技認識のルールとを比較して技を認識する。例えば、技認識部６４は、各分節間の骨格情報に基づき、特徴量Ａ、特徴量Ｂを算出し、特徴量Ａと特徴量Ｂの組み合わせにより技Ａと認識する。

また、技認識部６４は、推定部６２による手首の支持位置の推定結果を用いて、支持位置が変わった場所を分節点として特定し、技の区切りを特定する。なお、技認識部６４は、時系列の骨格情報を入力として技名を出力する学習モデルなどを用いて、技認識を実行することもできる。

（採点装置９０の構成）
図１８は、実施例１にかかる採点装置９０の機能構成を示す機能ブロック図である。図１８に示すように、採点装置９０は、通信部９１、記憶部９２、制御部９４を有する。通信部９１は、認識装置５０から技の認識結果や手首の支持位置の推定結果、演技者の骨格情報（３次元の骨格位置情報）などを受信する。

記憶部９２は、データや制御部９４が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部９２は、技情報９３を記憶する。技情報９３は、技の名前、難易度、得点、各関節の位置、関節の角度、採点ルールなどを対応付けた情報である。また、技情報９３には、採点に利用される他の様々な情報が含まれる。

制御部９４は、採点装置９０全体を司る処理部であり、例えばプロセッサなどである。この制御部９４は、採点部９５と出力制御部９６とを有し、認識装置５０から入力された情報にしたがって、演技者の採点などを行う。

採点部９５は、演技者の技の採点や演技者の演技の採点を実行する処理部である。具体的には、採点部９５は、認識装置５０から随時送信される技の認識結果や手首の支持位置の推定結果、演技者の骨格情報などと、技情報９３とを比較して、演技者１が演技した技や演技の採点を実行する。例えば、採点部９５は、ＤスコアやＥスコアを算出する。そして、採点部９５は、採点結果を出力制御部９６に出力する。なお、採点部９５は、広く利用されている採点ルールを用いた採点を実行することもできる。

出力制御部９６は、採点部９５の採点結果などをディスプレイ等に表示する処理部である。例えば、出力制御部９６は、認識装置５０から、各３Ｄレーザセンサによる撮像された距離画像、３次元の骨格情報、演技者１が演技中の各画像データ、採点結果などの各種情報を取得して、所定の画面に表示する。

［学習処理］
図１９は、学習処理の流れを示すフローチャートである。図１９に示すように、学習装置１０の学習データ生成部２２は、各骨格データ１５に含まれる各骨格情報を取得し（Ｓ１０１）、両手首の支持位置の正解情報を生成するアノテーションを実行する（Ｓ１０２）。

続いて、学習データ生成部２２は、一定区間のフレームに分割したり、パディングを実行したりする学習データの整形を実行する（Ｓ１０３）。そして、学習データ生成部２２は、学習データを訓練に使用する学習用データ（訓練データ）と評価に利用する評価用データとに分割する（Ｓ１０４）。

その後、学習データ生成部２２は、あん馬の器具座標軸毎に回転や反転、ランダムノイズの追加、支持位置の正解値の分布調整などを含む学習データの拡張を実行する（Ｓ１０５）。続いて、学習データ生成部２２は、正規化や標準化などを含むスケール調整を実行する（Ｓ１０６）。

そして、学習部２３は、クラス分類モデル１６のアルゴリズム、ネットワーク、ハイパーパラメータ等を決定し、学習データを用いて、クラス分類モデル１６の学習を実行する（Ｓ１０７）。このとき、学習部２３は、１エポックごとに、評価用データを用いて、学習中のクラス分類モデル１６の学習精度（評価誤差）を評価する。

その後、学習部２３は、学習回数が閾値を越えたり、評価誤差が一定値以下になるなどの所定条件を満たすと、学習を終了する（Ｓ１０８）。そして、学習部２３は、評価誤差が最小になったときのクラス分類モデル１６を選択する（Ｓ１０９）。

［自動採点処理］
図２０は、自動採点処理の流れを示すフローチャートである。図２０に示すように、認識装置５０は、処理対象のフレーム数を、フレーム番号に１を加算した値によって更新する（Ｓ２０１）。

続いて、認識装置５０は、予め設定しておいた情報を参照し、演技中の種目がクラス分類の処理に該当する種目か否かを判定する（Ｓ２０２）。ここで、認識装置５０は、あん馬や平行棒などのように、クラス分類に該当する種目の場合（Ｓ２０２：Ｙｅｓ）、骨格データ５５を読み込み（Ｓ２０３）、クラス分類処理を実行する（Ｓ２０４）。一方、認識装置５０は、つり輪や跳馬などのようにクラス分類に該当しない種目の場合（Ｓ２０２：Ｎｏ）、骨格データ５５を読み込む（Ｓ２０５）。

その後、認識装置５０は、クラス分類結果や骨格データ５５内の骨格情報などを用いて、演技者の体躯の位置や姿勢を検出し（Ｓ２０６）、正面支持フラグや着地フラグの設定、分節点の判断、基本運動の判定などを実行し、演技者１が演技した技の特定を実行する（Ｓ２０７）。

そして、採点装置９０は、特定された技等を用いて難易度を判定し（Ｓ２０８）、演技実施点を評価してＥスコアを算出する（Ｓ２０９）。その後、演技が継続している間（Ｓ２１０：Ｎｏ）、Ｓ２０１以降が繰り返される。

一方、演技が終了すると（Ｓ２１０：Ｙｅｓ）、採点装置９０は、採点に利用した各種フラグやカウントのリセットを実行し（Ｓ２１１）、演技全体から技難度の集計を実行してＤスコアとＥスコアを算出する（Ｓ２１２）。その後、採点装置９０は、評価結果などを記憶部９２に格納したり、ディスプレイなどの表示装置に表示したりする（Ｓ２１３）。

（クラス分類処理）
図２１は、クラス分類処理の流れを示すフローチャートである。なお、この処理は、図２０のＳ２０４で実行される。

図２１に示すように、認識装置５０のデータ生成部６２は、学習時と同様、一定区間のフレームに分割したり、パディングを実行したりする分類対象のデータ整形を実行する（Ｓ３０１）。続いて、データ生成部６２は、正規化や標準化などを含むスケール調整を実行する（Ｓ３０２）。

そして、認識装置５０の推定部６３は、時系列の骨格情報を学習済みのクラス分類モデル５６を使ってクラス分類を実施する（Ｓ３０３）。その後、推定部６３は、分類結果に基づき、両手（両手首）の支持位置を特定する（Ｓ３０４）。

［効果］
上述したように、認識装置５０は、あん馬を演技時の手首のように識別対象となる関節の位置情報だけでなく、頭、肩、背骨、肘、腰、膝、足首といった人の動きに関わる関節位置の時系列情報を入力としたクラス分類器を使って支持位置決定することができる。

また、体操競技におけるあん馬では、同じ動きであっても支持領域によって認識される技が異なり、結果として難易度が変わる場合がある。しかし、実施例１にかかる認識装置５０では、センサデータにおけるノイズにより、支持領域が誤判定される場合において、支持に関わる部位だけでなく、動き自身の持つ特徴を反映した部位の動きを含めて支持位置を識別することで、よりロバストな技認識を実現することができる。

したがって、自動採点システムでは、演技者１の骨格情報や正確な支持位置を用いて演技を認識することができ、認識精度を向上させることができる。また、認識精度の向上により、審判に正確な自動採点結果を提供することができ、採点の公平性や正確性の担保を提供することができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

［適用例］
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、上記実施例では、両手の手首の支持位置を推定する例を説明したが、これに限定されるものではなく、１８関節のいずれかの関節位置や関節間の位置などの推定にも適用することができる。

［３Ｄレーザセンサ］
３Ｄレーザセンサ５は撮影装置の一例であり、ビデオカメラ等を用いてもよい。ビデオカメラを用いる場合、距離画像１３および距離画像５３はＲＧＢ画像となる。ＲＧＢ画像から骨格情報を得る手段としてOpenPose等の公知の技術を用いることもできる。

［骨格情報］
また、上記実施例では、１８個の各関節の位置を用いる学習や認識を行う例を説明したが、これに限定されるものではなく、１個以上の関節を指定して学習等を実行することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節間の向き（ベクトル）、各関節の角度、手足の向き、顔の向きなどを採用することができる。

［数値等］
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、フレームの数やクラスの数等も一例であり、任意に設定変更することができる。また、モデルには、ニューラルネットワークに限らず、様々な機械学習や深層学習を用いることができる。

［クラス分類］
上記実施例では、ニューラルネットワークなどの機械学習を適用したクラス分類モデルを用いて、特定関節の支持位置を推定する例を説明したが、これに限定されるものではない。例えば、推定対象である両手首の位置と残りの１６個の関節位置とを対応付けたルールを用いて、両手首の位置を推定することもできる。つまり、推定対象の両手首の位置に対応する骨格情報だけではなく、人の関節全体の位置情報を用いて、両手首の位置を推定することができる。

［フレーム数］
上記実施例では、時系列のフレーム数として、３０などの予め設定したフレーム数を用いて、クラス分類モデルの学習やクラス分類モデルによる推定を実行したが、これに限定されるものではない。例えば、演技や技など所定の動作単位のフレーム数を用いて、クラス分類モデルの学習やクラス分類モデルによる推定を実行することができる。

［システム］
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、各３Ｄレーザセンサは、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。

例えば、技認識と組み合わせ評価は、別々の装置で実装することもできる。また、学習装置１０、認識装置５０、採点装置９０は、任意に組み合わせた装置で実現することもできる。なお、取得部６１は、取得部の一例であり、推定部６３は、推定部の一例であり、技認識部６４は、認識部の一例である。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

［ハードウェア］
次に、学習装置１０、認識装置５０、採点装置９０などのコンピュータのハードウェア構成について説明する。なお、各装置は同様の構成を有するので、ここでは、コンピュータ１００として説明し、具体例は認識装置５０を例示する。

図２２は、ハードウェア構成例を説明する図である。図２２に示すように、コンピュータ１００は、通信装置１００ａ、ＨＤＤ（Hard Disk Drive）１００ｂ、メモリ１００ｃ、プロセッサ１００ｄを有する。また、図２２に示した各部は、バス等で相互に接続される。なお、ＨＤＤはＳＳＤ（Solid State Drive）等の記憶装置を用いてもよい。

通信装置１００ａは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。ＨＤＤ１００ｂは、図１５等に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１００ｄは、図１５に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１００ｂ等から読み出してメモリ１００ｃに展開することで、図１５等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、認識装置５０が有する各処理部と同様の機能を実行する。具体的には、認識装置５０を例にすると、プロセッサ１００ｄは、取得部６１、データ生成部６２、推定部６３、技認識部６４等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｄは、取得部６１、データ生成部６２、推定部６３、技認識部６４等と同様の処理を実行するプロセスを実行する。

このようにコンピュータ１００は、プログラムを読み出して実行することで認識方法を実行する情報処理装置として動作する。また、コンピュータ１００は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ１００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

１０学習装置
１１通信部
１２記憶部
１３距離画像
１４骨格定義
１５骨格データ
１６クラス分類モデル
２０制御部
２１取得部
２２学習データ生成部
２３学習部
５０認識装置
５１通信部
５２記憶部
５３距離画像
５４骨格定義
５５骨格データ
５６学習済みのクラス分類モデル
６０制御部
６１取得部
６２データ生成部
６３推定部
６４技認識部

Claims

コンピュータが、
運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得し、
前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定し、
前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、
認識結果を出力する、
処理を実行し、
前記推定する処理は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする運動認識方法。
前記推定する処理は、時系列の骨格情報を説明変数、前記特定の関節が位置するクラスを目的変数とする学習データを用いて学習された前記クラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする請求項１に記載の運動認識方法。
前記推定する処理は、前記時系列の骨格情報を所定の動作単位で取得し、取得された前記所定の動作単位に該当する各骨格情報を前記クラス分類モデルに入力して得られる出力結果に基づき、前記特定の関節が位置するクラスを推定することを特徴とする請求項１に記載の運動認識方法。
前記運動は、体操の演技であって、
前記被写体は、前記体操の演技者であって、
前記物体は、前記体操に用いられる器具であって、
前記認識する処理は、前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記演技者が演技する技を認識することを特徴とする請求項１に記載の運動認識方法。
コンピュータに、
運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得し、
前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定し、
前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、
認識結果を出力する、
処理を実行させ、
前記推定する処理は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする運動認識プログラム。
運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得する取得部と、
前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定する推定部と、
前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識する認識部と、
認識結果を出力する出力部と、を有し、
前記推定部は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする情報処理装置。