JP7235133B2 - 運動認識方法、運動認識プログラムおよび情報処理装置 - Google Patents

運動認識方法、運動認識プログラムおよび情報処理装置 Download PDF

Info

Publication number
JP7235133B2
JP7235133B2 JP2021550902A JP2021550902A JP7235133B2 JP 7235133 B2 JP7235133 B2 JP 7235133B2 JP 2021550902 A JP2021550902 A JP 2021550902A JP 2021550902 A JP2021550902 A JP 2021550902A JP 7235133 B2 JP7235133 B2 JP 7235133B2
Authority
JP
Japan
Prior art keywords
information
unit
class
skeleton
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021550902A
Other languages
English (en)
Other versions
JPWO2021064963A1 (ja
Inventor
将嵩 藤崎
卓也 佐藤
彰彦 矢吹
昇一 桝井
崇 本田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2021064963A1 publication Critical patent/JPWO2021064963A1/ja
Application granted granted Critical
Publication of JP7235133B2 publication Critical patent/JP7235133B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B24/00Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
    • A63B24/0062Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/215Motion-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B24/00Electric or electronic controls for exercising apparatus of preceding groups; Controlling or monitoring of exercises, sportive games, training or athletic performances
    • A63B24/0062Monitoring athletic performances, e.g. for determining the work of a user on an exercise apparatus, the completed jogging or cycling distance
    • A63B2024/0071Distinction between different activities, movements, or kind of sports performed
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63BAPPARATUS FOR PHYSICAL TRAINING, GYMNASTICS, SWIMMING, CLIMBING, OR FENCING; BALL GAMES; TRAINING EQUIPMENT
    • A63B2220/00Measuring of physical parameters relating to sporting activity
    • A63B2220/05Image processing for measuring physical parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30221Sports video; Sports image

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Physical Education & Sports Medicine (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、運動認識方法、運動認識プログラムおよび情報処理装置に関する。
体操や医療などの幅広い分野において、選手や患者などの人物の骨格情報を用いて、人物の動作を自動で認識することが行われている。例えば、体操競技における現状の採点方法は複数の審判による目視で行っているが、器具の進化やトレーニング方法の改善により、動きの複雑化をともなう技の高度化が進み、審判による技の認識が困難となる場合が現れている。この結果、審判ごとに選手の採点結果が異なるなど採点の公平性や正確性の維持に懸念が生じている。
このため、近年では、選手の3次元骨格座標(以降では、「骨格情報」と記載する場合がある)を用いた自動採点技術が利用されている。例えば、3D(Three-Dimensional)レーザセンサにより選手の3次元点群データを取得し、3次元点群データを用いて選手の骨格情報を算出する。そして、骨格情報の時系列情報から実施された「技」を自動的に認識し、審判に自動採点結果を提供することで、採点の公平性や正確性の担保を行う。
このような技の自動認識を体操競技のあん馬を例にして説明すると、予め、あん馬の器具の1つであるポメルが設置される周辺を領域ごとに分類する。例えば、ポメル1の左側を領域1、ポメル1の上を領域2、ポメル1とポメル2の間を領域3、ポメル2の上を領域4、ポメル2の右側を領域5に分類する。
そして、骨格情報から演技者の骨格を認識し、骨格認識結果から得られる左右の手首の位置がどの領域に位置するかにより、手首の支持位置を推定する。そして、時系列の骨格情報から生成される時系列の骨格認識結果と、推定された手首の支持位置とを用いて、技のルールにしたがって、技の認識や技の精度などを評価し、自動採点を実行する。
国際公開第2018/070414号
しかしながら、上記技術では、3Dレーザセンサのセンシングにノイズが含まれる場合や複数のセンシング結果を統合する際のずれなどにより、センシング結果を用いた骨格認識処理の精度が低下し、各関節の位置の推定精度を保証することが難しい。
一方で、運動を認識するうえで、現実世界に存在する物体と被写体の部位の位置関係を正確に認識することが要求されることがある。例えば、あん馬の領域Aに演技者の手首が存在するのか、あん馬の領域Bに演技者の手首が存在するのかで、最終的な運動認識結果が変わる場合などがある。つまり、動き自体は同じでも、手が領域Aを支持していると技Tと認識され、手が領域Bを支持していると技Sと認識される場合などがある。
上記技術では、骨格認識結果から得られる部位の位置をそのまま使って、物体上のどの領域に位置するかを分類していた。しかし、骨格認識結果に誤差がある場合、割り当てた領域が正しくない場合がある。例えば、あん馬において、骨格認識結果が示す手首では領域1に割り当てられたが、本来は領域2に手をついていたなどがある。このような事態が発生すると、結果として、技Sを技Tと認識するなど、運動の認識結果が誤ってしまうことがある。
そこで、本発明は、一つの側面において、被写体の特定の部位と、現実世界に存在する物体における複数領域との位置関係に対する推定精度を向上させることで、当該位置関係を用いた運動の認識精度を向上させる運動認識方法、運動認識プログラムおよび情報処理装置を提供することを目的とする。
第1の案では、運動認識方法は、コンピュータが、運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得する処理を実行する。運動認識方法は、コンピュータが、前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定する処理を実行する。運動認識方法は、コンピュータが、前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、認識結果を出力する処理を実行する。
一つの側面では、被写体の特定の部位と、現実世界に存在する物体における複数領域との位置関係を用いた運動の認識精度を向上させることができる。
図1は、実施例1にかかるシステムの全体構成例を示す図である。 図2は、実施例1にかかる学習装置の機能構成を示す機能ブロック図である。 図3は、距離画像を説明する図である。 図4は、骨格定義を説明する図である。 図5は、骨格データを説明する図である。 図6は、あん馬に関連する骨格情報を説明する図である。 図7は、クラス分類を説明する図である。 図8は、横向き旋回時の支持位置による関節動作の差を説明する図である。 図9は、ロシアンを演技時の支持位置による関節動作の差を説明する図である。 図10は、支持位置による足首のz値の変化を説明する図である。 図11は、学習データの生成を説明する図である。 図12は、学習データの整形を説明する図である。 図13は、クラス分類モデルの学習を説明する図である。 図14は、学習する特徴量の例を説明する図である。 図15は、実施例1にかかる認識装置の機能構成を示す機能ブロック図である。 図16は、クラス分類処理を説明する図である。 図17は、時系列のクラス分類結果を説明する図である。 図18は、実施例1にかかる採点装置の機能構成を示す機能ブロック図である。 図19は、学習処理の流れを示すフローチャートである。 図20は、自動採点処理の流れを示すフローチャートである。 図21は、クラス分類処理の流れを示すフローチャートである。 図22は、ハードウェア構成例を説明する図である。
以下に、本発明にかかる運動認識方法、運動認識プログラムおよび情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
[全体構成]
図1は、実施例1にかかるシステムの全体構成例を示す図である。図1に示すように、このシステムは、3D(Three-Dimensional)レーザセンサ5、学習装置10、認識装置50、採点装置90を有し、被写体である演技者1の3次元データを撮像し、骨格等を認識して正確な技の採点を行うシステムである。なお、本実施例では、一例として、体操競技における演技者の骨格情報を認識する例で説明する。
一般的に、体操競技における現在の採点方法は、複数の採点者によって目視で行われているが、技の高度化に伴い、採点者の目視では採点が困難な場合が増加している。近年では、3Dレーザセンサを使った、採点競技の自動採点システムや採点支援システムが知られている。例えば、これらのシステムにおいては、3Dレーザセンサにより選手の3次元データである距離画像を取得し、距離画像から選手の各関節の向きや各関節の角度などである骨格を認識する。そして、採点支援システムにおいては、骨格認識の結果を3Dモデルにより表示することで、採点者が演技者の細部の状況を確認するなどにより、より正しい採点を実施することを支援する。また、自動採点システムにおいては、骨格認識の結果から、演技した技などを認識し、採点ルールに照らして採点を行う。
ここで、3Dレーザセンサのセンシングにノイズが含まれる場合などにより、センシング結果を用いた骨格認識処理の精度が低下し、関節位置の推定精度を保証することが難しいことがある。しかし、自動採点システムにおいて、関節位置の推定精度が低下することは、システムの信頼性の低下に繋がるので、ノイズの影響を小さくし、推定精度の低下を抑制させる取り組みが重要である。
そこで、実施例1にかかる自動採点システムでは、学習装置10が、クラス分類モデルを学習し、認識装置50が、学習済みのクラス分類モデルを用いて、演技者1の関節位置の推定や技認識を実行することで、体操競技における関節位置の推定精度や技の認識精度を向上させる。この結果、採点装置90による、正確な認識結果を用いた正確な自動採点を実現する。
すなわち、演技者1の関節位置の推定に、AI(Artificial Intelligence)技術を導入することにより、ノイズの影響を小さくし、演技者1の関節位置と、現実世界に存在するあん馬上の各領域との位置関係に対する推定精度を向上させる。
ここで、クラス分類モデルは、あん馬上の位置を複数のクラスに分類しておき、時系列で取得される複数の骨格情報を説明変数、演技者の特定関節が位置するクラスを目的変数として学習されたニューラルネットワークである。つまり、クラス分類モデルは、演技者の骨格情報の時系列の変化を特徴として学習することで、骨格認識結果から演技者の特定関節の位置を直接特定するのではなく、演技者1の身体全体の関節位置から特定関節の位置を推定する。
認識装置50は、このようなクラス分類モデルを用いることで、3Dレーザセンサのセンシングにノイズ混入が疑われる場合であっても、関節位置を正確に推定し、演技者1の演技における技の認識精度の向上させることができる。この結果、自動採点システムの信頼性の低下を抑制することができる。
[機能構成]
次に、図1に示したシステムが有する各装置の機能構成につて説明する。なお、ここでは、学習装置10、認識装置50、採点装置90のそれぞれについて説明する。
(学習装置10の構成)
図2は、実施例1にかかる学習装置10の機能構成を示す機能ブロック図である。図2に示すように、学習装置10は、通信部11、記憶部12、制御部20を有する。
通信部11は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部11は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、管理者端末などから各種データや指示を受信し、認識装置50に学習済みのクラス分類モデルを送信する。
記憶部12は、データや制御部20が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部12は、距離画像13、骨格定義14、骨格データ15、クラス分類モデル16を記憶する。
距離画像13は、3Dレーザセンサ5により撮像される演技者1の距離画像である。図3は、距離画像13を説明する図である。図3に示すように、距離画像13は、3Dレーザセンサ5から画素までの距離が含まれるデータであり、3Dレーザセンサ5からの距離が近いほど、濃い色で表示される。なお、距離画像13は、演技者1の演技中に随時撮像される。
骨格定義14は、骨格モデル上の各関節を特定するための定義情報である。ここで記憶される定義情報は、3Dレーザセンサによる3Dセンシングによって演技者ごとに測定してもよく、一般的な体系の骨格モデルを用いて定義してもよい。
図4は、骨格定義14を説明する図である。図4に示すように、骨格定義14は、公知の骨格モデルで特定される各関節をナンバリングした、18個(0番から17番)の定義情報を記憶する。例えば、図4に示すように、右肩関節(SHOULDER_RIGHT)には7番が付与され、左肘関節(ELBOW_LEFT)には5番が付与され、左膝関節(KNEE_LEFT)には11番が付与され、右股関節(HIP_RIGHT)には14番が付与される。ここで、実施例では、7番の右肩関節のX座標をX7、Y座標をY7、Z座標をZ7と記載する場合がある。なお、例えば、Z軸は、3Dレーザセンサ5から対象に向けた距離方向、Y軸は、Z軸に垂直な高さ方向、X軸は、水平方向をと定義することができる。
骨格データ15は、各距離画像を用いて生成される骨格に関する情報を含むデータである。具体的には、骨格データ15は、距離画像を用いて取得された、骨格定義14に定義される各関節の位置を含む。図5は、骨格データ15を説明する図である。図5に示すように、骨格データ15は、「フレーム、画像情報、骨格情報」が対応付けられる情報である。
ここで、「フレーム」は、3Dレーザセンサ5による撮像される各フレームを識別する識別子であり、「画像情報」は、関節などの位置が既知である距離画像のデータである。「骨格情報」は、骨格の3次元の位置情報であり、図4に示した18個の各関節に対応する関節位置(3次元座標)である。図5の例では、距離画像である「画像データA1」には、HEADの座標「X3,Y3,Z3」などを含む18個の関節の位置が既知であることを示す。なお、関節位置は、例えば、予め学習された学習モデルであって、距離画像から各関節位置を抽出する学習モデルなどを用いて抽出することもできる。
ここで、本実施例で対象とするあん馬の演技においては、18個の関節を用いることもできるが、あん馬の演技に特に関連する関節のみを用いることもできる。図6は、あん馬に関連する骨格情報を説明する図である。図6に示すように、あん馬の演技に大きく関連する骨格情報(関節)としては、頭、右肩、左肩、背骨、右肘、左肘、腰、右膝、左膝、右足首、左足首が挙げられる。
頭は、頭を上げるまたは下げるという動きを示す。肩は、体幹と腕の位置関係を示す。背骨は、体の曲りを示し、体操における屈伸や伸身を示す。肘は、腕の曲りや力の入り方を示す。手首は、物をつかんだ位置など示す。腰は、体のほぼ重心を示す。膝は、体幹と脚の関係を示し、開脚と閉脚の違いが特定できる。足首は、歩行状態、走行状態やあん馬回転運動の軌跡を示す。
あん馬の競技は、手でポメルを掴んだ状態で行う演技や馬背に手をついた状態で行う演技が混在し、同じような動きをしたとしても、手の位置により技や難易度が変わる。一方、ポメルは馬背上に存在することから、一連の演技の中で、手の位置だけでポメルなのか馬背なのかを自動で判定することが難しい。そこで、実施例1では、図6に示す関節全体の動きから、特に足首の上がり幅などを考慮して、手の位置を推定することで、関節位置の推定精度を向上させる。
クラス分類モデル16は、時系列の骨格情報に基づき、演技者1の手首の位置を推定する学習モデルであり、後述する学習部23によって学習されるニューラルネットワークなどを用いたモデルである。例えば、クラス分類モデル16は、あん馬上の位置を複数のクラスに分類しておき、演技者の骨格情報の時系列の変化を特徴量として学習することで、演技者1の手首の支持位置を推定する。
図7は、クラス分類を説明する図である。図7に示すように、実施例1では、一例としてクラス0からクラス5の6クラスに領域を分割する例を説明する。具体的には、クラス1(a1)は、馬端Aとポメル1の間の馬背の領域であり、クラス2(a2)は、ポメル1上の領域である。クラス3(a3)は、ポメル1とポメル2の間の馬背の領域であり、クラス4(a4)は、ポメル2上の領域である。クラス5は、ポメル2と馬端Bの間の馬背の領域であり、クラス0(a0)は、クラス1からクラス5以外の領域である。
制御部20は、学習装置10全体を司る処理部であり、例えばプロセッサなどである。制御部20は、取得部21、学習データ生成部22、学習部23を有し、クラス分類モデル16の学習を実行する。なお、取得部21、学習データ生成部22、学習部23は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
取得部21は、各種データを取得する処理部である。例えば、取得部21は、3Dレーザセンサ5から距離画像を取得して記憶部12に格納する。また、取得部21は、管理者端末などから、骨格データを取得して記憶部12に格納する。
学習データ生成部22は、クラス分類モデル16の学習に利用する学習データを生成する処理部である。具体的には、学習データ生成部22は、時系列の骨格情報を説明変数、手首の支持位置(クラス)を目的変数とする学習データを生成して、記憶部12に格納し、学習部23に出力する。
ここで、時系列の骨格情報を特徴量として学習する理由として、支持位置による関節動作の差を説明する。図8は、横向き旋回時の支持位置による関節動作の差を説明する図であり、図9は、ロシアンを演技時の支持位置による関節動作の差を説明する図である。
図8に示すように、縦向き旋回は、正面支持、背面支持、正面支持の順で旋回する動きである。技番13に示すように、手首の支持位置が馬背位置での縦向き旋回は、背面支持でポメルを避けるために足を高く上げ、その後の正面支持では背面支持で足を上げた反動で足が下がりやすい。一方、技番14に示すように、手首の支持位置がポメルでの縦向き旋回は、背面支持でポメルの分だけ上体が高くなっているので足を高く上げる必要はなく、その後の正面支持でも背面支持とだいたい同じ高さで旋回できる。すなわち、手首の支持位置により、足首のz値の変化量が変わる。
また、図9に示すように、ロシアンは、下向き支持で旋回にあわせて向きが変わる動きである。技番104から106に示すように、手首の支持位置が馬背位置でのロシアンは、馬背に置いた手を軸にして旋回することから、足の位置が馬背よりも低い位置となる。技番110から112に示すように、手首の支持位置がポメルでのロシアンは、ポメルに置いた手を軸にして旋回することから、手首の支持位置が馬背位置でのロシアンよりも足の位置が高い位置となる。すなわち、手首の支持位置により、足首のz値の変化量が変わる。
次に、足首のz値の変化を具体的に説明する。図10は、支持位置による足首のz値の変化を説明する図である。図10には、ポメルの縦向き旋回(技番14)、ポメルのロシアン(技番110)、馬背の縦向き旋回(技番13)、馬背のロシアン(技番104)を順に演技したときの足首のz値を示している。図10に示すように、ポメルを支持位置とする場合の足首のz値の変化(振り幅)は小さく、馬背を支持位置とする場合の足首のz値の変化は大きい。つまり、z値の変化を学習することにより、支持位置の推定精度が向上すると考えることができる。
このようなことから、学習データ生成部22は、時系列の骨格情報を説明変数、手首の支持位置(クラス)を目的変数とする学習データを生成する。図11は、学習データの生成を説明する図である。図11に示すように、学習データ生成部22は、骨格データ15の骨格情報を参照し、各フレームの骨格情報に両手の支持位置情報として、右手の支持位置の座標を示す「WR」と左手の支持位置の座標を示す「WL」を付与する。
例えば、学習データ生成部22は、time=0のフレームの骨格情報(J0)に対して、骨格情報から右手首(関節位置=9番)の座標値(R0)と左手首(関節位置=6番)の座標値(L0)を取得する。その後、学習データ生成部22は、右手首の座標値(R0)と左手首の座標値(L0)と、予め設定しておいたあん馬の各クラスに属する座標値とを比較して、右手クラス(クラス2)と左手クラス(クラス4)を設定する。
同様に、学習データ生成部22は、time=1のフレームの骨格情報(J1)に対して、骨格情報から右手首の座標値(R1)と左手首の座標値(L1)を取得する。その後、学習データ生成部22は、右手首の座標値(R1)と左手首の座標値(L1)と、各クラスに属する座標値とを比較して、右手クラス(クラス2)と左手クラス(クラス4)を設定する。
このようにして、学習データ生成部22は、時系列で取得された各フレームの骨格情報に正解情報である右手クラスと左手クラスを付与する。なお、図11では、説明を簡略化するために、骨格情報をJ0などと記載したが、実際は、18関節ごとにx、y、z値の座標(合計18×3=54個)が設定されている。
学習部23は、学習データ生成部22により生成された学習データを用いて、クラス分類モデル16の学習を実行する処理部である。具体的には、学習部23は、学習データを用いた教師有学習によってクラス分類モデル16のパラメータを最適化し、学習済みのクラス分類モデル16を記憶部12に格納し、認識装置50に送信する。なお、学習を終了するタイミングは、所定数以上の学習データを用いた学習が完了した時点や復元誤差が閾値未満となった時点など、任意に設定することができる。
このような学習部23は、時系列の骨格情報として例えば30フレームを1つの入力データとしてクラス分類モデル16に入力することから、パディングなどにより学習データの整形を実行する。図12は、学習データの整形を説明する図である。図12に示すように、time=0のフレーム0からtime=tのフレームtまでのt個の骨格情報が存在するオリジナルデータから、1つずつずらして所定数ずつを学習データとして取得する場合、各学習データの数を合わせるために、先頭フレームのデータのデータをコピーするとともに、最終フレームのデータをコピーして学習データの数を増やす。
例えば、学習部23は、フレーム0のデータ「骨格情報(J0),支持位置情報「WR(R0),WL(L0)」をフレーム0より前にコピーして、フレーム(-1)やフレーム(-2)などを生成する。同様に、学習部23は、フレームtのデータ「骨格情報(Jt),支持位置情報「WR(Rt),WL(Lt)」をフレームtより後ろにコピーして、フレーム(t+1)やフレーム(t+2)などを生成する。なお、パディング数は、学習に利用するフレーム数(length)の半分などとする。
このようして、学習部23は、学習データの整形を実行した上で、クラス分類モデル16の学習を実行する。図13は、クラス分類モデル16の学習を説明する図である。図13に示すように、学習部23は、L個の時系列の骨格情報の学習データを説明変数として取得し、中間に位置する学習データの「右手クラス、左手クラス」を目的変数として取得する。そして、学習部23は、L個の学習データをクラス分類モデル16に入力し、クラス分類モデル16の出力結果と目的変数「右手クラス、左手クラス」との誤差に基づく誤差逆伝搬法などにより、出力結果と目的変数とが一致するようにクラス分類モデル16を学習する。
例えば、学習部23は、フレームNを中間とするフレーム(N-15)からフレーム(N-14)までの30個のフレームの骨格情報を説明変数として取得するとともに、フレームNの「右手クラス(クラス2)、左手クラス(クラス4)」を目的変数として取得する。そして、学習部23は、取得した30個のフレームを1つの入力データとしてクラス分類モデル16に入力し、クラス分類モデル16の出力結果として、右手クラスが各クラスに該当する確率(尤度)と左手クラスが各クラスに該当する確率(尤度)とを取得する。
その後、学習部23は、右手クラスの確率のうち目的変数であるクラス2が最も確率が高くなるとともに、左手クラスの確率のうち目的変数であるクラス4が最も確率が高くなるように、クラス分類モデル16を学習する。
このように、学習部23は、学習データを1フレームずつずらした学習データを用いて学習することにより、骨格情報の変化を1つの特徴量として学習させる。図14は、学習する特徴量の例を説明する図である。図14では、横軸はフレーム番号(時間)であり、縦軸が座標値(x軸、y軸、z軸)であり、18関節の座標値の時系列の変化を示している。例えば、範囲を±10フレームとし、1280フレーム目のクラス分類を認識する場合、1270から1290フレーム間の「20×(18関節×3軸(x,y,z)=54)=1080」の骨格情報を入力して、クラス分類モデル16を学習する。また、1310フレーム目のクラス分類を認識する場合、1300から1320フレーム間の「20×(18関節×3軸(x,y,z)=54)=1080」の骨格情報を入力して、クラス分類モデル16を学習する。
(認識装置50の構成)
図15は、実施例1にかかる認識装置50の機能構成を示す機能ブロック図である。図15に示すように、認識装置50は、通信部51、記憶部52、制御部60を有する。
通信部51は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどである。例えば、通信部51は、3Dレーザセンサ5により撮影された演技者1の距離画像を受信し、学習装置10から学習済みのクラス分類モデルを受信し、各種認識結果を採点装置に送信する。
記憶部52は、データや制御部60が実行するプログラムなどを記憶する記憶装置であり、例えばメモリやプロセッサなどである。この記憶部52は、距離画像53、骨格定義54、骨格データ55、学習済みのクラス分類モデル56を記憶する。
距離画像53は、3Dレーザセンサ5により撮像される演技者1の距離画像であり、例えば採点対象の演技者の演技を撮像した距離画像である。骨格定義54は、骨格モデル上の各関節を特定するための定義情報である。なお、骨格定義54は、図4と同様なので、詳細な説明は省略する。
骨格データ55は、後述するデータ生成部62によりフレームごとに生成される骨格に関する情報を含むデータである。具体的には、骨格データ55は、図5と同様、「フレーム、画像情報、骨格情報」が対応付けられる情報である。
学習済みのクラス分類モデル56は、学習装置10により学習されたクラス分類モデルである。この学習済みのクラス分類モデル56は、時系列の骨格情報に基づき、演技者1の手首の位置を推定する学習モデルである。
制御部60は、認識装置50全体を司る処理部であり、例えばプロセッサなどである。制御部60は、取得部61、データ生成部62、推定部63、技認識部64を有し、手首の位置の推定や演技者1が演技した技の認識を実行する。なお、取得部61、データ生成部62、推定部63、技認識部64は、プロセッサなどの電子回路の一例やプロセッサなどが有するプロセスの一例である。
取得部61は、各種データや各種指示を取得する処理部である。例えば、取得部61は、3Dレーザセンサ5による計測結果(3次元点群データ)に基づく距離画像を取得して記憶部52に格納する。また、取得部61は、学習装置10などから、学習済みのクラス分類モデル56を取得して記憶部52に格納する。
データ生成部62は、各距離画像から、18個の関節の位置を含む骨格情報を生成する処理部である。例えば、データ生成部62は、距離画像から骨格情報を認識する学習済みのモデルを用いて、18個の関節位置を特定した骨格情報を生成する。そして、データ生成部62は、距離画像に対応するフレームの番号と、距離画像と、骨格情報とを対応付けた骨格データ55を記憶部52に格納する。また、学習装置10における骨格データ15における骨格情報も同様の手法により生成することができる。
推定部63は、演技者1の時系列の骨格情報と、学習済みのクラス分類モデル56とを用いて、演技者1の手首の支持位置を推定する処理部である。具体的には、推定部63は、学習時と同じフレーム数を1つの入力データとして学習済みのクラス分類モデル56に入力し、学習済みのクラス分類モデル56の出力結果に基づいて、演技者1の手首の支持位置を推定し、推定結果を技認識部64や採点装置90に出力する。
図16は、クラス分類処理を説明する図である。図16に示すように、推定部63は、データ生成部62により生成された骨格情報をオリジナルデータとして、図12と同様の手法によりデータパディングを行って、パディングデータを生成する。そして、推定部63は、先頭から30フレームを取得して、学習済みのクラス分類モデル56に入力する。
その後、推定部62は、学習済みのクラス分類モデル56の出力結果から、右手クラスの確率のうち最も確率が高い「クラス2」と、左手クラスの確率のうち最も確率が高い「クラス3」とを取得する。そして、推定部62は、「右手=クラス2、左手=クラス3」を演技者1の手首の支持位置と推定する。このように、推定部62は、フレームを1つずつずらして入力することで、演技中の各状態の手首の支持位置を推定する。
図17は、時系列のクラス分類結果を説明する図である。図17では、推定部62による両手首の支持位置の推定結果を図示している。図17に示すように、識別対象となる関節(手首)位置を、複数の関節位置の時系列情報を使って認識することで、精度を向上する。時刻t4のタイミングで手首の位置がノイズにより、クラス4(a4)からクラス3(a3)と判定される位置にずれたとしても、肩や腰の連続した動きによりクラス4(a4)であると認識するように分類することができる。
図15に戻り、技認識部64は、推定部62の推定結果やデータ生成部62により生成された骨格データ55を用いて、演技者1が演技した各技を自動で認識する処理部である。例えば、技認識部64は、国際公開第2018/070414号に公開される手法を用いて、演技者1の体躯の位置や技と技の区切りの姿勢の検出、正面支持や着地位置の特定、分節点の判断、分節点間の情報を用いた基本運動の判定などを実行し、演技者1が演技した各技を自動で認識して、採点装置90に送信する。
例えば、技認識部64は、各フレームの骨格情報を用いて、各関節間の向きを示すベクトルデータを算出し、身体の向きや動きを特定する特徴量を算出する。そして、技認識部64は、算出した特徴量と予め定めておいた技認識のルールとを比較して技を認識する。例えば、技認識部64は、各分節間の骨格情報に基づき、特徴量A、特徴量Bを算出し、特徴量Aと特徴量Bの組み合わせにより技Aと認識する。
また、技認識部64は、推定部62による手首の支持位置の推定結果を用いて、支持位置が変わった場所を分節点として特定し、技の区切りを特定する。なお、技認識部64は、時系列の骨格情報を入力として技名を出力する学習モデルなどを用いて、技認識を実行することもできる。
(採点装置90の構成)
図18は、実施例1にかかる採点装置90の機能構成を示す機能ブロック図である。図18に示すように、採点装置90は、通信部91、記憶部92、制御部94を有する。通信部91は、認識装置50から技の認識結果や手首の支持位置の推定結果、演技者の骨格情報(3次元の骨格位置情報)などを受信する。
記憶部92は、データや制御部94が実行するプログラムなどを記憶する記憶装置の一例であり、例えばメモリやハードディスクなどである。この記憶部92は、技情報93を記憶する。技情報93は、技の名前、難易度、得点、各関節の位置、関節の角度、採点ルールなどを対応付けた情報である。また、技情報93には、採点に利用される他の様々な情報が含まれる。
制御部94は、採点装置90全体を司る処理部であり、例えばプロセッサなどである。この制御部94は、採点部95と出力制御部96とを有し、認識装置50から入力された情報にしたがって、演技者の採点などを行う。
採点部95は、演技者の技の採点や演技者の演技の採点を実行する処理部である。具体的には、採点部95は、認識装置50から随時送信される技の認識結果や手首の支持位置の推定結果、演技者の骨格情報などと、技情報93とを比較して、演技者1が演技した技や演技の採点を実行する。例えば、採点部95は、DスコアやEスコアを算出する。そして、採点部95は、採点結果を出力制御部96に出力する。なお、採点部95は、広く利用されている採点ルールを用いた採点を実行することもできる。
出力制御部96は、採点部95の採点結果などをディスプレイ等に表示する処理部である。例えば、出力制御部96は、認識装置50から、各3Dレーザセンサによる撮像された距離画像、3次元の骨格情報、演技者1が演技中の各画像データ、採点結果などの各種情報を取得して、所定の画面に表示する。
[学習処理]
図19は、学習処理の流れを示すフローチャートである。図19に示すように、学習装置10の学習データ生成部22は、各骨格データ15に含まれる各骨格情報を取得し(S101)、両手首の支持位置の正解情報を生成するアノテーションを実行する(S102)。
続いて、学習データ生成部22は、一定区間のフレームに分割したり、パディングを実行したりする学習データの整形を実行する(S103)。そして、学習データ生成部22は、学習データを訓練に使用する学習用データ(訓練データ)と評価に利用する評価用データとに分割する(S104)。
その後、学習データ生成部22は、あん馬の器具座標軸毎に回転や反転、ランダムノイズの追加、支持位置の正解値の分布調整などを含む学習データの拡張を実行する(S105)。続いて、学習データ生成部22は、正規化や標準化などを含むスケール調整を実行する(S106)。
そして、学習部23は、クラス分類モデル16のアルゴリズム、ネットワーク、ハイパーパラメータ等を決定し、学習データを用いて、クラス分類モデル16の学習を実行する(S107)。このとき、学習部23は、1エポックごとに、評価用データを用いて、学習中のクラス分類モデル16の学習精度(評価誤差)を評価する。
その後、学習部23は、学習回数が閾値を越えたり、評価誤差が一定値以下になるなどの所定条件を満たすと、学習を終了する(S108)。そして、学習部23は、評価誤差が最小になったときのクラス分類モデル16を選択する(S109)。
[自動採点処理]
図20は、自動採点処理の流れを示すフローチャートである。図20に示すように、認識装置50は、処理対象のフレーム数を、フレーム番号に1を加算した値によって更新する(S201)。
続いて、認識装置50は、予め設定しておいた情報を参照し、演技中の種目がクラス分類の処理に該当する種目か否かを判定する(S202)。ここで、認識装置50は、あん馬や平行棒などのように、クラス分類に該当する種目の場合(S202:Yes)、骨格データ55を読み込み(S203)、クラス分類処理を実行する(S204)。一方、認識装置50は、つり輪や跳馬などのようにクラス分類に該当しない種目の場合(S202:No)、骨格データ55を読み込む(S205)。
その後、認識装置50は、クラス分類結果や骨格データ55内の骨格情報などを用いて、演技者の体躯の位置や姿勢を検出し(S206)、正面支持フラグや着地フラグの設定、分節点の判断、基本運動の判定などを実行し、演技者1が演技した技の特定を実行する(S207)。
そして、採点装置90は、特定された技等を用いて難易度を判定し(S208)、演技実施点を評価してEスコアを算出する(S209)。その後、演技が継続している間(S210:No)、S201以降が繰り返される。
一方、演技が終了すると(S210:Yes)、採点装置90は、採点に利用した各種フラグやカウントのリセットを実行し(S211)、演技全体から技難度の集計を実行してDスコアとEスコアを算出する(S212)。その後、採点装置90は、評価結果などを記憶部92に格納したり、ディスプレイなどの表示装置に表示したりする(S213)。
(クラス分類処理)
図21は、クラス分類処理の流れを示すフローチャートである。なお、この処理は、図20のS204で実行される。
図21に示すように、認識装置50のデータ生成部62は、学習時と同様、一定区間のフレームに分割したり、パディングを実行したりする分類対象のデータ整形を実行する(S301)。続いて、データ生成部62は、正規化や標準化などを含むスケール調整を実行する(S302)。
そして、認識装置50の推定部63は、時系列の骨格情報を学習済みのクラス分類モデル56を使ってクラス分類を実施する(S303)。その後、推定部63は、分類結果に基づき、両手(両手首)の支持位置を特定する(S304)。
[効果]
上述したように、認識装置50は、あん馬を演技時の手首のように識別対象となる関節の位置情報だけでなく、頭、肩、背骨、肘、腰、膝、足首といった人の動きに関わる関節位置の時系列情報を入力としたクラス分類器を使って支持位置決定することができる。
また、体操競技におけるあん馬では、同じ動きであっても支持領域によって認識される技が異なり、結果として難易度が変わる場合がある。しかし、実施例1にかかる認識装置50では、センサデータにおけるノイズにより、支持領域が誤判定される場合において、支持に関わる部位だけでなく、動き自身の持つ特徴を反映した部位の動きを含めて支持位置を識別することで、よりロバストな技認識を実現することができる。
したがって、自動採点システムでは、演技者1の骨格情報や正確な支持位置を用いて演技を認識することができ、認識精度を向上させることができる。また、認識精度の向上により、審判に正確な自動採点結果を提供することができ、採点の公平性や正確性の担保を提供することができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
[適用例]
上記実施例では、体操競技を例にして説明したが、これに限定されるものではなく、選手が一連の技を行って審判が採点する他の競技にも適用することができる。他の競技の一例としては、フィギュアスケート、新体操、チアリーディング、水泳の飛び込み、空手の型、モーグルのエアーなどがある。また、上記実施例では、両手の手首の支持位置を推定する例を説明したが、これに限定されるものではなく、18関節のいずれかの関節位置や関節間の位置などの推定にも適用することができる。
[3Dレーザセンサ]
3Dレーザセンサ5は撮影装置の一例であり、ビデオカメラ等を用いてもよい。ビデオカメラを用いる場合、距離画像13および距離画像53はRGB画像となる。RGB画像から骨格情報を得る手段としてOpenPose等の公知の技術を用いることもできる。
[骨格情報]
また、上記実施例では、18個の各関節の位置を用いる学習や認識を行う例を説明したが、これに限定されるものではなく、1個以上の関節を指定して学習等を実行することもできる。また、上記実施例では、骨格情報の一例として各関節の位置を例示して説明したが、これに限定されるものではなく、各関節間の向き(ベクトル)、各関節の角度、手足の向き、顔の向きなどを採用することができる。
[数値等]
上記実施例で用いた数値などがあくまで一例であり、実施例を限定するものではなく、任意に設定変更することができる。また、フレームの数やクラスの数等も一例であり、任意に設定変更することができる。また、モデルには、ニューラルネットワークに限らず、様々な機械学習や深層学習を用いることができる。
[クラス分類]
上記実施例では、ニューラルネットワークなどの機械学習を適用したクラス分類モデルを用いて、特定関節の支持位置を推定する例を説明したが、これに限定されるものではない。例えば、推定対象である両手首の位置と残りの16個の関節位置とを対応付けたルールを用いて、両手首の位置を推定することもできる。つまり、推定対象の両手首の位置に対応する骨格情報だけではなく、人の関節全体の位置情報を用いて、両手首の位置を推定することができる。
[フレーム数]
上記実施例では、時系列のフレーム数として、30などの予め設定したフレーム数を用いて、クラス分類モデルの学習やクラス分類モデルによる推定を実行したが、これに限定されるものではない。例えば、演技や技など所定の動作単位のフレーム数を用いて、クラス分類モデルの学習やクラス分類モデルによる推定を実行することができる。
[システム]
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。また、各3Dレーザセンサは、各装置に内蔵されていてもよく、各装置の外部装置として通信等で接続されていてもよい。
例えば、技認識と組み合わせ評価は、別々の装置で実装することもできる。また、学習装置10、認識装置50、採点装置90は、任意に組み合わせた装置で実現することもできる。なお、取得部61は、取得部の一例であり、推定部63は、推定部の一例であり、技認識部64は、認識部の一例である。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[ハードウェア]
次に、学習装置10、認識装置50、採点装置90などのコンピュータのハードウェア構成について説明する。なお、各装置は同様の構成を有するので、ここでは、コンピュータ100として説明し、具体例は認識装置50を例示する。
図22は、ハードウェア構成例を説明する図である。図22に示すように、コンピュータ100は、通信装置100a、HDD(Hard Disk Drive)100b、メモリ100c、プロセッサ100dを有する。また、図22に示した各部は、バス等で相互に接続される。なお、HDDはSSD(Solid State Drive)等の記憶装置を用いてもよい。
通信装置100aは、ネットワークインタフェースカードなどであり、他のサーバとの通信を行う。HDD100bは、図15等に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ100dは、図15に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100cに展開することで、図15等で説明した各機能を実行するプロセスを動作させる。すなわち、このプロセスは、認識装置50が有する各処理部と同様の機能を実行する。具体的には、認識装置50を例にすると、プロセッサ100dは、取得部61、データ生成部62、推定部63、技認識部64等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100dは、取得部61、データ生成部62、推定部63、技認識部64等と同様の処理を実行するプロセスを実行する。
このようにコンピュータ100は、プログラムを読み出して実行することで認識方法を実行する情報処理装置として動作する。また、コンピュータ100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、コンピュータ100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
10 学習装置
11 通信部
12 記憶部
13 距離画像
14 骨格定義
15 骨格データ
16 クラス分類モデル
20 制御部
21 取得部
22 学習データ生成部
23 学習部
50 認識装置
51 通信部
52 記憶部
53 距離画像
54 骨格定義
55 骨格データ
56 学習済みのクラス分類モデル
60 制御部
61 取得部
62 データ生成部
63 推定部
64 技認識部

Claims (6)

  1. コンピュータが、
    運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得し、
    前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定し、
    前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、
    認識結果を出力する
    処理を実行し、
    前記推定する処理は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする運動認識方法。
  2. 前記推定する処理は、時系列の骨格情報を説明変数、前記特定の関節が位置するクラスを目的変数とする学習データを用いて学習された前記クラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする請求項に記載の運動認識方法。
  3. 前記推定する処理は、前記時系列の骨格情報を所定の動作単位で取得し、取得された前記所定の動作単位に該当する各骨格情報を前記クラス分類モデルに入力して得られる出力結果に基づき、前記特定の関節が位置するクラスを推定することを特徴とする請求項に記載の運動認識方法。
  4. 前記運動は、体操の演技であって、
    前記被写体は、前記体操の演技者であって、
    前記物体は、前記体操に用いられる器具であって、
    前記認識する処理は、前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記演技者が演技する技を認識することを特徴とする請求項1に記載の運動認識方法。
  5. コンピュータに、
    運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得し、
    前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定し、
    前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識し、
    認識結果を出力する、
    処理を実行させ、
    前記推定する処理は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする運動認識プログラム。
  6. 運動を行う被写体の特定の関節を含む複数の関節それぞれの位置情報に基づく骨格情報を、時系列で取得する取得部と、
    前記時系列の骨格情報それぞれに含まれる前記複数の関節の位置情報を用いて、前記運動で使用される物体の領域を分割した複数の領域のうち、特定の関節が位置する領域を推定する推定部と、
    前記時系列の骨格情報と、推定された前記特定の関節の位置とを用いて、前記被写体の運動を認識する認識部と、
    認識結果を出力する出力部と、を有し、
    前記推定部は、複数の骨格情報の入力に対して前記複数の領域を示す各クラスに該当する尤度を出力するクラス分類モデルを用いて、前記特定の関節が位置する領域を推定することを特徴とする情報処理装置。
JP2021550902A 2019-10-03 2019-10-03 運動認識方法、運動認識プログラムおよび情報処理装置 Active JP7235133B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/039201 WO2021064963A1 (ja) 2019-10-03 2019-10-03 運動認識方法、運動認識プログラムおよび情報処理装置

Publications (2)

Publication Number Publication Date
JPWO2021064963A1 JPWO2021064963A1 (ja) 2021-04-08
JP7235133B2 true JP7235133B2 (ja) 2023-03-08

Family

ID=75337859

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021550902A Active JP7235133B2 (ja) 2019-10-03 2019-10-03 運動認識方法、運動認識プログラムおよび情報処理装置

Country Status (5)

Country Link
US (1) US20220207921A1 (ja)
EP (1) EP4040387A4 (ja)
JP (1) JP7235133B2 (ja)
CN (1) CN114514559A (ja)
WO (1) WO2021064963A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114846511A (zh) * 2020-01-24 2022-08-02 富士通株式会社 运动识别方法、运动识别程序以及信息处理装置
WO2022244135A1 (ja) * 2021-05-19 2022-11-24 日本電信電話株式会社 学習装置、推定装置、学習モデルデータ生成方法、推定方法及びプログラム
JP7362076B2 (ja) 2021-05-25 2023-10-17 ソフトバンク株式会社 情報処理装置、情報処理方法及び情報処理プログラム
WO2024111430A1 (ja) * 2022-11-25 2024-05-30 日本電気株式会社 処理装置、処理システム、学習済みモデルの構築方法及びプログラム
CN116563951B (zh) * 2023-07-07 2023-09-26 东莞先知大数据有限公司 一种单杠悬挂动作规范确定方法、装置、设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070414A1 (ja) 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2019016106A (ja) 2017-07-05 2019-01-31 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8761437B2 (en) * 2011-02-18 2014-06-24 Microsoft Corporation Motion recognition
EP3527268A1 (en) * 2016-10-11 2019-08-21 Fujitsu Limited Scoring support program, scoring support apparatus, and scoring support method
EP3693923A4 (en) * 2017-10-03 2020-12-16 Fujitsu Limited RECOGNITION PROGRAM, RECOGNITION PROCESS AND RECOGNITION DEVICE
WO2019108250A1 (en) * 2017-12-03 2019-06-06 Facebook, Inc. Optimizations for dynamic object instance detection, segmentation, and structure mapping
CN111480178B (zh) * 2017-12-14 2024-02-20 富士通株式会社 存储技巧识别程序的存储介质、技巧识别方法以及技巧识别***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018070414A1 (ja) 2016-10-11 2018-04-19 富士通株式会社 運動認識装置、運動認識プログラムおよび運動認識方法
JP2019016106A (ja) 2017-07-05 2019-01-31 富士通株式会社 情報処理プログラム、情報処理装置、情報処理方法、及び情報処理システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Adrian Bulat and Georgios Tzimiropoulos,Human pose estimation via Convolutional Part Heatmap Regression,[online],2016年09月06日,https://arxiv.org/abs/1609.01743

Also Published As

Publication number Publication date
WO2021064963A1 (ja) 2021-04-08
CN114514559A (zh) 2022-05-17
EP4040387A1 (en) 2022-08-10
EP4040387A4 (en) 2022-09-21
US20220207921A1 (en) 2022-06-30
JPWO2021064963A1 (ja) 2021-04-08

Similar Documents

Publication Publication Date Title
JP7235133B2 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
CN109863535B (zh) 运动识别装置、存储介质以及运动识别方法
JP6973388B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP6082101B2 (ja) 身体動作採点装置、ダンス採点装置、カラオケ装置及びゲーム装置
Chaudhari et al. Yog-guru: Real-time yoga pose correction system using deep learning methods
JP7367764B2 (ja) 骨格認識方法、骨格認識プログラムおよび情報処理装置
JP6943294B2 (ja) 技認識プログラム、技認識方法および技認識システム
CN112970074A (zh) 身体活动量化和监测
JP7164045B2 (ja) 骨格認識方法、骨格認識プログラムおよび骨格認識システム
JP7014304B2 (ja) 認識方法、認識プログラム、認識装置および学習方法
US20220222975A1 (en) Motion recognition method, non-transitory computer-readable recording medium and information processing apparatus
US11995845B2 (en) Evaluation method, storage medium, and information processing apparatus
JP7272470B2 (ja) 運動認識方法、運動認識プログラムおよび情報処理装置
Pai et al. Home Fitness and Rehabilitation Support System Implemented by Combining Deep Images and Machine Learning Using Unity Game Engine.
JP2021099666A (ja) 学習モデルの生成方法
WO2022208859A1 (ja) 技認識方法、技認識装置および体操採点支援システム
JP7388576B2 (ja) 骨格推定装置、骨格推定方法および体操採点支援システム
WO2024111430A1 (ja) 処理装置、処理システム、学習済みモデルの構築方法及びプログラム
US20220343649A1 (en) Machine learning for basketball rule violations and other actions
Ursu et al. A literature review on virtual character assessment
CN115578786A (zh) 运动视频检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230206

R150 Certificate of patent or registration of utility model

Ref document number: 7235133

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150