JP7482471B2

JP7482471B2 - 学習モデルの生成方法

Info

Publication number: JP7482471B2
Application number: JP2019231158A
Authority: JP
Inventors: 勝彦植田; 祐樹永野; 良明白井; 伸敬島田
Original assignee: Sumitomo Rubber Industries Ltd; Ritsumeikan Trust
Current assignee: Sumitomo Rubber Industries Ltd; Ritsumeikan Trust
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2024-05-14
Anticipated expiration: 2039-12-23
Also published as: JP2021099666A

Description

本発明は、物体の動作を解析するための学習モデルの生成方法及び装置、並びに、同学習モデルを用いて物体の動作を解析する動作解析装置、方法及びプログラムに関する。

従来より、ゴルフスイングをカメラで撮影し、このときの画像に基づいてゴルフスイングを解析する装置が公知である（特許文献１等）。解析の結果は、ゴルファーに適したゴルフクラブのフィッティングや、ゴルファーのフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。また、近年では、深度画像を計測可能な距離画像センサが普及している。特許文献１は、距離画像センサにより撮影された深度画像を、ニューラルネットワークで構成される学習モデルに入力し、同学習モデルから物体の動作を表す動作値を導出することが開示されている。

特開２０１８－２６１３１号公報

特許文献１のように、学習モデルにより解析を行う場合、その解析の精度は、精度のよい学習モデルを構築できるかに依存する。さらに、精度のよい学習モデルを構築できるかは、学習に使用される教師データに依存する。すなわち、教師データの量が少なかったり、あるいは、質的に不十分な教師データしか集められなければ、精度のよい学習モデルを得ることができない。なお、このことは、冒頭に例示したゴルフスイングの解析の場面だけでなく、物体の動作を解析する場面全般に当てはまる。

本発明は、精度のよい学習モデルを容易に生成するための方法及び装置、並びに、同学習モデルを用いて物体の動作を解析する動作解析装置、方法及びプログラムを提供することを目的とする。

第１観点に係る学習モデルの生成方法は、物体の動作を解析するための学習モデルの生成方法であって、以下の（１）～（５）を含む。
（１）前記物体の骨格を表すボーンデータを取得すること
（２）前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス（ＣＧ）データを作成すること
（３）前記三次元ＣＧデータに基づいて、前記物体の多数の深度画像を作成すること
（４）前記多数の深度画像にそれぞれ対応する、前記物体における１又は複数の所定の部位の動作を表す多数の動作値を取得すること
（５）前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させること

第２観点に係る学習モデルの生成方法は、第１観点に係る学習モデルの生成方法であって、（４）は、前記ボーンデータ及び前記三次元ＣＧデータの少なくとも一方に基づいて、前記多数の動作値を導出することを含む。

第３観点に係る学習モデルの生成方法は、第１観点又は第２観点に係る学習モデルの生成方法であって、（２）は、同じ１つの骨格に対し異なる態様で肉付けし、異なる体型を表す前記三次元ＣＧデータを作成することを含む。

第４観点に係る学習モデルの生成方法は、第１観点から第３観点のいずれかに係る学習モデルの生成方法であって、（３）は、同じ１つのシーンにおける前記三次元ＣＧデータに基づいて、視点の異なる複数の深度画像を作成することを含む。

第５観点に係る学習モデルの生成方法は、第１観点から第４観点のいずれかに係る学習モデルの生成方法であって、以下の（６）～（８）をさらに含む。
（６）前記距離画像センサにより撮影された前記物体の多数の深度画像を取得すること
（７）前記距離画像センサにより撮影された前記多数の深度画像にそれぞれ対応する、多数の前記動作値を取得すること
（８）前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の前記多数のデータセットを教師データとして、前記ニューラルネットワークを学習させた後に、前記距離画像センサにより撮影された前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、前記ニューラルネットワークを学習させること

第６観点に係る学習モデルの生成方法は、第１観点から第５観点のいずれかに係る学習モデルの生成方法であって、前記ボーンデータは、ゴルフスイング中のゴルファーの骨格を表すデータである。

第７観点に係る学習モデルの生成装置は、物体の動作を解析するための学習モデルの生成装置であって、前記物体の骨格を表すボーンデータを取得する第１取得部と、前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス（ＣＧ）データを作成するＣＧ作成部と、前記三次元ＣＧデータに基づいて、前記物体の多数の深度画像を作成する画像作成部と、前記多数の深度画像にそれぞれ対応する、前記物体における１又は複数の所定の部位の動作を表す多数の動作値を取得する第２取得部と、前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させる学習部とを備える。

第８観点に係る動作解析装置は、物体の動作を解析する動作解析装置であって、前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、前記取得された深度画像を、第１観点から第７観点のいずれかに係る生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出する導出部とを備える。

第９観点に係る動作解析方法は、物体の動作を解析する動作解析方法であって、以下のことを含む。また、第１０観点に係る動作解析プログラムは、以下のことをコンピュータに実行させる。
（２－１）前記物体の動作を距離画像センサにより撮影した深度画像を取得すること
（２－２）前記取得された深度画像を、第１観点から第７観点のいずれかに係る生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出すること

第１観点によれば、物体の骨格を表すボーンデータに基づいて、物体の体型を表す三次元ＣＧデータが作成され、このような三次元ＣＧデータに基づいて、物体の多数の深度画像が作成される。そして、このような多数の深度画像を含む教師データに基づいて、ニューラルネットワークが学習される。以上により、精度のよい学習モデルを容易に生成することが可能になる。

本発明の一実施形態に係る学習モデルの学習装置及び動作解析装置（コンピュータ）を含む動作解析システムの全体構成を示す図。動作解析システムの機能ブロック図。ゴルファーの身体に取り付けられたマーカーの位置を示す図。ニューラルネットワークのモデル構成を示す図。ニューラルネットワークに基づく動作解析処理の流れを示すフローチャート。正規化された深度画像の例を示す図。ニューラルネットワークに基づく腰の回転角度の推定値のグラフ。ニューラルネットワークの学習処理の流れを示すフローチャート。ボーンデータの例を示す図。三次元ＣＧデータの例を示す図。腰の回転角度の導出方法を説明する図。

以下、図面を参照しつつ、本発明の一実施形態に係る学習モデルの生成方法及び装置、並びに、動作解析装置、方法及びプログラムについて説明する。以下の実施形態は、ゴルフスイングを解析する場面を例に説明される。

＜１．動作解析システムの概要＞
図１及び図２に、本実施形態に係る動作解析装置であるコンピュータ１を含む動作解析システム１００の全体構成図を示す。動作解析システム１００は、ゴルファー７によるゴルフクラブ５のスイング動作を深度画像として撮影し、当該深度画像に基づいてスイング動作を解析するためのシステムである。以上の撮影は、距離画像センサ２により行われる。コンピュータ１は、距離画像センサ２とともに動作解析システム１００を構成し、距離画像センサ２により取得される深度画像を解析することにより、スイング動作を解析する。コンピュータ１による解析の結果は、ゴルファー７に適したゴルフクラブ５のフィッティングや、ゴルファー７のフォームの改善、ゴルフ用品の開発等、様々な用途で利用される。

スイング動作の解析は、深度画像を入力とするニューラルネットワーク８に基づいて行われる。ニューラルネットワーク８は、スイング動作を解析するための学習モデルであり、スイング動作を表す動作値Ｗ₁を出力する。ニューラルネットワーク８は、事前学習により構築される。

以下では、ニューラルネットワーク８に基づく動作の解析だけでなく、ニューラルネットワーク８の学習（学習モデルの生成）についても、動作解析システム１００が行うものとする。すなわち、本実施形態に係る動作解析装置として機能するコンピュータ１は、本実施形態に係る学習モデルの生成装置としても機能する。しかしながら、このような動作解析処理と事前の学習処理とは、別々のハードウェアシステムにより実行されてもよい。図１及び図２では、学習処理でのみ使用されるハードウェア構成、具体的には、モーションキャプチャシステム３及び角速度センサ４が、点線で示されている（図１では、モーションキャプチャシステム３は省略されている）。よって、ニューラルネットワーク８が学習され、記憶部１３内に保存された後においては、これらの計測装置３及び４は、動作解析システム１００から省略することができる。

以下、動作解析システム１００の各部の詳細について述べた後、ニューラルネットワーク８のモデル構成、ニューラルネットワーク８に基づく動作解析処理、及びニューラルネットワーク８の学習処理について順に説明する。

＜２．各部の詳細＞
＜２－１．距離画像センサ＞
距離画像センサ２は、測距機能を有するカメラであり、ゴルフクラブ５を試打するゴルファー７までの距離を測定する。従って、距離画像センサ２は、深度画像を出力することができる。深度画像とは、カメラの光軸方向の被写体の奥行きのデータ（深度データ）を、カメラの光軸に直交する撮像範囲内の画素に割り当てた画像である。

これに限定されないが、本実施形態で使用される距離画像センサ２では、赤外線を用いたタイムオブフライト方式やドットパターン投影方式等の方式が採用される。従って、図１に示すように、距離画像センサ２は、赤外線を前方に向けて発光するＩＲ発光部２１と、ＩＲ発光部２１から照射され、被写体に反射して戻ってきた赤外線を受光するＩＲ受光部２２とを有する。ＩＲ受光部２２は、光学系及び撮像素子等を有するカメラである。ドットパターン投影方式では、ＩＲ発光部２１から照射された赤外線のドットパターンをＩＲ受光部２２で読み取り、距離画像センサ２内部での画像処理によりドットパターンを検出し、これに基づいて奥行きが計算される。本実施形態では、ＩＲ発光部２１及びＩＲ受光部２２は、同じ筐体２０内に収容され、筐体２０の前方に配置されている。本実施形態では、距離画像センサ２は、ゴルファー７を正面側から撮影すべく、ゴルファー７の前方に設置され、ＩＲ発光部２１及びＩＲ受光部２２がゴルファー７に向けられている。

距離画像センサ２には、距離画像センサ２の動作全体を制御するＣＰＵ２３の他、撮影された画像データを少なくとも一時的に記憶するメモリ２４が内蔵されている。距離画像センサ２の動作を制御する制御プログラムは、メモリ２４内に格納されている。また、距離画像センサ２には、通信部２５も内蔵されており、通信部２５は、撮影された画像データを有線又は無線の通信線１７を介して、コンピュータ１等の外部のデバイスへと出力する。本実施形態では、ＣＰＵ２３及びメモリ２４も、ＩＲ発光部２１及びＩＲ受光部２２とともに、筐体２０内に収納されている。

＜２－２．コンピュータ＞
図２を参照しつつ、コンピュータ１の構成について説明する。コンピュータ１は、ハードウェアとしては汎用のコンピュータであり、例えば、デスクトップ型コンピュータ、ラップトップ型コンピュータ、タブレットコンピュータ、スマートフォンとして実現される。コンピュータ１は、ＣＤ－ＲＯＭ、ＵＳＢメモリ等のコンピュータで読み取り可能な記録媒体から、或いはインターネット等のネットワークを介して、プログラム６を汎用のコンピュータにインストールすることにより製造される。プログラム６は、距離画像センサ２から送られてくる画像データに基づいてゴルフスイングを解析するためのソフトウェアであり、コンピュータ１に後述する動作を実行させる。また、プログラム６には、コンピュータ１に後述する学習処理を実行させるためのプログラムモジュールも含まれる。

コンピュータ１は、表示部１１、入力部１２、記憶部１３、制御部１４及び通信部１５を備える。これらの部１１～１５は、互いにバス線１６を介して接続されており、相互に通信可能である。表示部１１は、液晶ディスプレイ等で構成することができ、ゴルフスイングの解析の結果等をユーザに対し表示する。なお、ここでいうユーザとは、ゴルファー７自身やそのインストラクター、ゴルフ用品の開発者等、ゴルフスイングの解析の結果を必要とする者の総称である。入力部１２は、マウス、キーボード、タッチパネル等で構成することができ、コンピュータ１に対するユーザからの操作を受け付ける。

記憶部１３は、ハードディスク等で構成することができる。記憶部１３内には、プログラム６が格納されている。また、記憶部１３内には、後述する学習処理で学習され、後述する動作解析処理で使用されるニューラルネットワーク８を定義する情報が格納される。制御部１４は、ＣＰＵ、ＲＯＭおよびＲＡＭ等から構成することができる。制御部１４は、記憶部１３内のプログラム６を読み出して実行することにより、仮想的に第１取得部１４ａ、第２取得部１４ｂ、第３取得部１４ｃ、第４取得部１４ｄ、ＣＧ作成部１４ｅ、画像作成部１４ｆ、学習部１４ｇ、第５取得部１４ｈ、導出部１４ｉ及び表示制御部１４ｊとして動作する。各部１４ａ～１４ｊの動作の詳細については、後述する。通信部１５は、距離画像センサ２やモーションキャプチャシステム３、角速度センサ４等の外部のデバイスから通信線１７を介してデータを受信する通信インターフェースとして機能する。

＜２－３．モーションキャプチャシステム＞
本実施形態では、学習過程で使用される教師データを作成するために、モーションキャプチャシステム３が使用される。モーションキャプチャシステム３は、学習過程でのみ使用される。モーションキャプチャシステム３は、複数台のカメラ３１，３１，・・・を備える。複数台のカメラ３１，３１，・・・は、ゴルファー７によるスイング動作の三次元計測が可能なように、ゴルファー７がゴルフクラブ５をスイングする様子を様々な方向から撮影することができる位置に配置される。モーションキャプチャシステム３としては、例えば、ＶＩＣＯＮ社製の三次元動作分析システムを好ましく使用することができる。

本実施形態では、カメラ３１，３１，・・・によりゴルファー７の身体の挙動を捉え易いように、身体における複数の所定の部位にマーカーが取り付けられる。より具体的には、図３に示すように、ゴルファー７の頭、手首、手の指先、肘、肩、腰、膝、踝、脚の指先等の所定の部位に、光反射性の球体のマーカー３０，３０，・・・が取り付けられる。この例では、マーカー３０，３０，・・・は、ゴルファー７が着用するボディスーツに取り付けられる。

カメラ３１，３１，・・・は、ゴルファー７がゴルフクラブ５を使用してスイング動作を行う間、その様子を所定のサンプリング周波数で連続撮影する。サンプリング周波数は、例えば、５００Ｈｚとすることができる。本実施形態では、少なくともアドレスから、トップ、インパクトを順に経て、フィニッシュまでの時系列の画像データが撮影される。カメラ３１，３１，・・・による撮影は、同期が取られており、同じ時刻に様々な方向から見たゴルフスイングが撮影される。

特に図示されないが、モーションキャプチャシステム３には、カメラ３１，３１，・・・の他、カメラ３１，３１，・・・により撮影された画像データを画像処理し、画像データに捉えられた複数のマーカーの位置情報（三次元座標）を算出するコンピュータも搭載されている。また、モーションキャプチャシステム３には、算出された位置情報を、通信線１７を介して外部のデバイスであるコンピュータ１に送信するための通信装置も搭載されている。通信装置は、スイング動作の妨げにならないように無線式とすることもできるし、ケーブルを介して有線式にコンピュータ１に接続することもできる。モーションキャプチャシステム３により計測された位置情報は、通信装置を介してリアルタイムにコンピュータ１に送信される。

＜２－４．角速度センサ＞
本実施形態では、学習過程で使用される教師データを作成するために、モーションキャプチャシステム３の他、角速度センサ４も使用される。角速度センサ４も、学習過程でのみ使用される。詳細は後述するが、本実施形態では、動作解析処理において、スイング動作中のゴルファー７の腰の回転動作が解析される。そのため、角速度センサ４は、ゴルファー７の腰に取り付けられ、腰の回転角度の真値を表す教師信号として、角速度データを計測する。角速度センサ４は、三軸角速度センサであり、ここでの角速度データには、三次元直交座標系における角速度の値が含まれる。

角速度センサ４は、ゴルファー７がゴルフクラブ５を使用してスイング動作を行う間、その様子を所定のサンプリング周波数で連続計測する。サンプリング周波数は、例えば、１０００Ｈｚとすることができる。本実施形態では、角速度センサ４は、少なくともアドレスからフィニッシュまでの時系列の角速度データを計測する。

特に図示されないが、角速度センサ４には、通信線１７を介して外部のデバイスであるコンピュータ１に角速度データを送信するための通信装置も搭載されている。通信装置は、スイング動作の妨げにならないように無線式とすることもできるし、ケーブルを介して有線式にコンピュータ１に接続することもできる。角速度センサ４により計測された時系列の角速度データは、通信装置を介してリアルタイムにコンピュータ１へ出力される。

＜３．ニューラルネットワークのモデル構成＞
図４は、ニューラルネットワーク８のモデル構成を示す。ニューラルネットワーク８は、上述したとおり、深度画像を入力とし、スイング動作を表す動作値Ｗ₁を出力とするネットワークである。本実施形態では、ニューラルネットワーク８により、スイング動作中のゴルファー７の腰の回転動作が解析され、より具体的には、腰の回転角度が動作値Ｗ₁として定量的に導出される。

ニューラルネットワーク８のモデル構成は、様々に設計することができ、特に限定されないが、本実施形態では、図４に示す通り、以下のように設計される。ニューラルネットワーク８は、ＲｅｓＮｅｔ５０と呼ばれるニューラルネットワークであり、畳み込み（図４中、ＣＯＶと表される）層、バッチノーマライゼーション（図４中、バッチＮＯＲＭと表される）層、及びプーリング層を経た後、３つの畳み込み層のセットを１６回繰り返す、計５０層（バッチノーマライゼーション層を除く）の層構成を有する。なお、図４中、各畳み込み層に付されている「数値×数値」は、カーネルのサイズを意味している。また、ＲｅｓＮｅｔ５０で学習されるデータは、入力と出力との差である残差になるため、３つの畳み込み層を含む各セットの最後では、入力（図４中、ｘ：スキップコネクションで示される）と残差（図４中、Ｆ（ｘ）で示される）とが足し合わされる。ＲｅｓＮｅｔ５０の最終層である、２０４８個のユニットから構成される全結合層は、１つの出力層に結合され、最終的に、１次元の動作値Ｗ₁が出力される。

＜４．ニューラルネットワークに基づく動作解析処理＞
以下、図５を参照しつつ、ゴルフスイングの動作解析処理について説明する。既に述べたとおり、本実施形態では、ニューラルネットワーク８に基づいて、スイング動作中のゴルファー７の腰の回転角度を定量的に表す動作値Ｗ₁が導出される。なお、解析の対象となる深度画像は、動画として時系列に取得される。従って、以下、深度画像を、深度フレームということがあり、単にフレームということもある。

まず、ステップＳ１において、ゴルファー７にゴルフクラブ５を試打させ、このときのスイング動作の様子を距離画像センサ２により動画として撮影する。これにより取得された時系列の深度フレームは、距離画像センサ２からコンピュータ１に送信される。コンピュータ１側では、第５取得部１４ｈが、この深度フレームを取得し、記憶部１３内に格納する。

続いて、導出部１４ｉは、スイング動作中の各タイミングでの深度フレームを正規化する（ステップＳ２）。ここでいう正規化とは、ゴルファー７を含む被写体の深度に合わせて、深度フレームの階調のスケール変換を行う処理である。具体的には、導出部１４ｉは、記憶部１３内に格納されている時系列の深度フレームを読み出す。このとき、深度フレームの画素値である深度データは、距離画像センサ２の規格に従う階調を有しており、本実施形態では、１画素に１６ビットが割り当てられ、各画素は、０～６５５３５の画素値をとる。また、距離画像センサ２の奥行き方向の撮像範囲も、距離画像センサ２の規格により定められている。一方で、ゴルファー７の腰の回転角度を推定するために、ゴルファー７以外の深度データは特に必要とされない。そのため、深度フレームの中からゴルファー７を捉えた領域（以下、人物領域という）に含まれる画素値が、０～６５５３５の範囲内の値をとるように、深度フレームの階調をスケール変換する。

距離画像センサ２の設置位置及びゴルファー７の立ち位置は、凡そ固定されている。従って、人物領域において深度データが取り得る値の範囲（以下、人物深度範囲という）を、予め設定することができる。本実施形態では、導出部１４ｉは、深度フレーム内の各画素の画素値（深度データ）を下式に従って、スケール変換する。ただし、人物深度範囲をｍｉｎ_z～ｍａｘ_zとし、右辺のｚを深度フレーム内の各画素の画素値とする。左辺のｚは、変換後の画素値である。

以上のスケール変換は、深度フレームから人物深度範囲内の画素値を有する領域を抽出する処理である。図６は、以上のスケール変換後のある特定のタイミングでの深度フレームである。同図から分かるように、スケール変換後の深度フレーム内では、主としてゴルファー７以外を捉えた領域、すなわち、背景領域には、画素値「０」（黒色）が与えられる。その結果、以上のスケール変換により、人物領域が抽出される。

続いて、導出部１４ｉは、ステップＳ２で正規化された深度フレームから、スイング動作中の各タイミングでのゴルファー７の腰の近傍の領域（以下、腰領域）を抽出する（ステップＳ３）。具体的には、導出部１４ｉは、ステップＳ２で正規化された所定のサイズ（本実施形態では、５１２×４２４ピクセル）の深度フレームから、人物領域に外接する矩形領域を抽出し、矩形領域内の所定の位置における所定のサイズ（本実施形態では、１２８×６４ピクセル）の領域を、腰領域として切り出す。スイング動作中の人体を所定の角度から捉えたとき、人体全体の中で腰が占める範囲は概ね定まるため、このような範囲内の領域が腰領域として切り出される。

注目される腰の動きと、肩や足、腕等の他の部位の動きとは独立的である。従って、人体全体が写っている画像に基づいてニューラルネットワーク８を学習すると、腰の見え方に対応した特徴の検出の精度が低下する虞がある。また、画像のサイズが大き過ぎると、ニューラルネットワーク８による解析が困難になり得る。ステップＳ３は、ニューラルネットワーク８に基づいて腰の動作の特徴を精度よく検出できるように、解析の対象となる深度フレームから、腰領域を抽出している。

続くステップＳ４では、導出部１４ｉは、ステップＳ３で抽出されたスイング動作中の時系列の腰領域の画像を、順次、ニューラルネットワーク８に入力する。これにより、ニューラルネットワーク８の出力層からは、順次、スイング動作を定量的に表す動作値Ｗ₁、本実施形態では、ゴルファー７の腰の回転角度Ｗ₁が出力される。なお、本実施形態では、ステップＳ３までで取得された所定サイズ（本実施形態では、１２８×６４ピクセル）の画像は、所定のサイズ（本実施形態では、６４×３２ピクセル）まで圧縮された後、ニューラルネットワーク８へ入力される。

続いて、導出部１４ｉは、ステップＳ４で導出された回転角度Ｗ₁の時系列データの平滑化及び補間を行う（ステップＳ５）。図７は、５点の移動平均により平滑化し、３３ｍｓ間隔のデータを１ｍｓ間隔のデータに変換するスプライン補間を行った例を示している。これにより、平滑化及び補間された滑らかな回転角度Ｗ₁の時系列データが取得される。

その後、表示制御部１４ｊは、ステップＳ４及びＳ５で導出されたスイング動作中の時系列の平滑化及び補完の前後の回転角度Ｗ₁及びその時系列変化、並びに図７に示すようなこれらのグラフを表示部１１上に表示させる（ステップＳ６）。これにより、ユーザは、ゴルファー７の腰の回転の動作を把握することができる。

＜５．ニューラルネットワークの学習処理＞
次に、図８を参照しつつ、ニューラルネットワーク８の学習処理について説明する。この学習処理では、教師データの作成と、これに基づく学習とが行われる。本実施形態では、転移学習のため、教師データとして、２種類の学習用データセットが作成され、それぞれに基づく学習が行われる。以下、区別のため、ステップＳ１１～Ｓ１４で取得される学習用データセットを、第１学習用データセットと呼び、これとは別にステップＳ１６及びＳ１７で取得される学習用データセットを、第２学習用データセットと呼ぶことがある。すなわち、本実施形態では、転移学習が行われ、まず、第１学習用データセットに基づきニューラルネットワーク８のパラメータが学習され（ステップＳ１５）、その後、ここで学習されたパラメータを初期値として、第２学習用データセットに基づくさらなる学習（ステップＳ１８）が行われる。

具体的には、まず、ゴルファー７にゴルフクラブ５を試打させる。ステップＳ１１では、このときのスイング動作の様子が、モーションキャプチャシステム３により計測され、ゴルファー７の身体に取り付けられた複数のマーカー３０の時系列の位置情報が取得される。ここでは、モーションキャプチャシステム３に含まれる複数台のカメラ３１，３１，・・・により同時に異なる視点から撮影が行われ、位置情報として三次元座標が取得される。以上の通りに計測された複数のマーカー３０の時系列の位置情報は、モーションキャプチャシステム３からコンピュータ１に送信される。コンピュータ１側では、第１取得部１４ａが、この位置情報を取得し、記憶部１３内に格納する。

第１取得部１４ａは、記憶部１３内に格納された複数のマーカー３０の時系列の位置情報を順次処理することにより、ゴルフスイング中のゴルファー７の身体の骨格を表す時系列のボーンデータＤ１を取得する。ボーンデータＤ１とは、典型的には、図９に示す通り、複数のジョイント（関節）とこれらを連結するボーン（骨）とを組み合わせたデータであり、全体として物体の骨格を表し、スケルトンデータと呼ばれることもある。第１取得部１４ａは、ゴルファー７の身体においてマーカー３０が取り付けられた複数の所定の部位の三次元座標を適宜連結することにより、ボーンデータＤ１を作成する。

続くステップＳ１２では、ＣＧ作成部１４ｅは、時系列のボーンデータＤ１を順次、最適化することにより、ゴルフスイング中のゴルファー７の体型を表す時系列の三次元コンピュータ・グラフィックス（ＣＧ）データＤ２（図１０参照）を作成する。より具体的には、ＣＧ作成部１４ｅは、予め用意されている体型を規定する体型データをボーンデータＤ１に適用し、ボーンデータＤ１により表される骨格を肉付けすることにより、ゴルファー７の体型を再現する。ここでは、同じ１つの骨格に対し異なる態様で肉付けが行われ、同じ１つの骨格を表すボーンデータＤ１から、異なる体型を表す三次元ＣＧデータＤ２が作成される。例えば、同じ１つの骨格を表すボーンデータＤ１から、「太っている」「普通」及び「痩せている」タイプ等、複数の体型に対応する三次元ＣＧデータＤ２が作成される。

続くステップＳ１３では、画像作成部１４ｆは、時系列の三次元ＣＧデータＤ２に基づいて、ゴルフスイング中のゴルファー７の身体の多数の深度画像を作成する。より具体的には、三次元ＣＧデータＤ２により表されるゴルファー７の身体を、所定の方向から視たときの深度画像が作成される。ここでいう所定の方向とは、典型的には、動作解析処理において距離画像センサ２がゴルファー７のスイング動作を撮影するときの方向である。

本実施形態では、同じ１つのシーン（タイミング）における三次元ＣＧデータＤ２から、視点の異なる複数の深度画像が作成される。例えば、同じ１つのシーンを表す三次元ＣＧデータＤ２から、ゴルファー７に対する方向は同じであるが、ゴルファー７までの距離が異なる複数の視点にそれぞれ対応する複数の深度画像が作成される。また、同じ１つのシーン（タイミング）を表す三次元ＣＧデータＤ２から、上述した所定の方向からやや左右にずれた複数の視点にそれぞれ対応する複数の深度画像が作成される。

本実施形態では、以上の通りに作成された各深度画像を、動作解析処理に含まれるステップＳ２及びＳ３と同様に正規化し、腰領域の画像を抽出する。すなわち、動作解析処理においてニューラルネットワーク８に入力される深度画像と同様の深度画像を用意する。以下、ここで正規化され、取得された腰領域の画像も、単に深度画像と呼ぶことがある。

続くステップＳ１４では、第２取得部１４ｂは、ステップＳ１３で作成された多数の深度画像（正規化された腰領域の画像）にそれぞれ対応する、多数の動作値Ｗ₁を取得する。ここでいう動作値Ｗ₁とは、上記の通り、ゴルフスイング中のゴルファー７の腰の回転角度である。本実施形態では、ここでの動作値Ｗ₁は、ボーンデータＤ１及び／又は三次元ＣＧデータＤ２に基づいて導出される。より具体的には、ボーンデータＤ１及び／又は三次元ＣＧデータＤ２から、左股関節及び右股関節（図９及び図１０において実線の丸印で示される）の三次元座標を取得し、図１１に示すように、平面視においてこれらを結ぶ直線の基準線に対する傾きθを導出し、これを腰の回転角度Ｗ₁とする。第２取得部１４ｂは、ステップＳ１１で取得された時系列のボーンデータＤ１及び／又はステップＳ１２で作成された時系列の三次元ＣＧデータＤ２から順次、動作値Ｗ₁を導出し、各動作値Ｗ₁を、ステップＳ１３で同じデータＤ１及び／又はＤ２から作成された深度画像に関連付ける。これにより、三次元ＣＧデータＤ２に基づく深度画像と、これに対応する動作値Ｗ₁との組み合わせである第１学習用データセットが多数用意される。

続くステップＳ１５では、学習部１４ｇは、多数の第１学習用データセットを教師データとして、ニューラルネットワーク８を学習させる。より具体的には、学習部１４ｇは、第１学習用データセットに含まれる深度画像（正規化された腰領域の画像）を現在のニューラルネットワーク８に入力し、出力値として動作値Ｗ₁を取得し、この動作値Ｗ₁と、同じ第１学習用データセットに含まれる動作値Ｗ₁との誤差を最小化するように、ニューラルネットワーク８のパラメータを更新する。そして、ステップＳ１１～Ｓ１４で作成された多数の第１学習用データセットを次々と適用しながら、ニューラルネットワーク８を最適化してゆく。

続くステップＳ１６では、第３取得部１４ｃは、ゴルファー７によるゴルフスイング中に距離画像センサ２により撮影された多数の深度画像を取得する。具体的には、ステップＳ１１と同様に、ゴルファー７にゴルフクラブ５を試打させる。ステップＳ１６では、このときのスイング動作の様子が、距離画像センサ２により動画として撮影される。以上の通りに計測された時系列の深度フレームは、距離画像センサ２からコンピュータ１に送信される。コンピュータ１側では、第３取得部１４ｃが、この画像データを取得し、記憶部１３内に格納する。なお、ステップＳ１６における距離画像センサ２による計測は、ステップＳ１１における計測と同時に、同じゴルファー７によるゴルフスイングに対し実行されてもよい。

本実施形態では、以上の通りに取得された各深度画像を、動作解析処理に含まれるステップＳ２及びＳ３と同様に正規化し、腰領域の画像を抽出する。すなわち、動作解析処理においてニューラルネットワーク８に入力される深度画像と同様の深度画像を用意する。以下、ここで正規化され、取得された腰領域の画像も、単に深度画像と呼ぶことがある。

続くステップＳ１７では、第４取得部１４ｄは、ステップＳ１６で取得された多数の深度画像（正規化された腰領域の画像）にそれぞれ対応する、多数の動作値Ｗ₁を取得する。ここでいう動作値Ｗ₁とは、上記の通り、ゴルフスイング中のゴルファー７の腰の回転角度である。本実施形態では、ここでの動作値Ｗ₁は、角速度センサ４により計測された時系列の角速度データに基づいて取得される。より具体的には、ステップＳ１６において距離画像センサ２によりゴルフスイングが撮影される間、角速度センサ４による計測も行われる。このとき、角速度センサ４は、ゴルフスイング中のゴルファー７の腰の回転角度を表す角速度データを連続的に計測する。こうして計測された時系列の角速度データは、角速度センサ４からコンピュータ１に送信される。コンピュータ１側では、第４取得部１４ｄが、この角速度データを取得し、記憶部１３内に格納する。

第４取得部１４ｄは、ステップＳ１６で取得された各深度画像（正規化された腰領域の画像）に対し、同深度画像が距離画像センサ２により撮影されたタイミングで取得された角速度データを関連付ける。これにより、距離画像センサ２により撮影された深度画像と、これに対応する動作値Ｗ₁との組み合わせである第２学習用データセットが多数用意される。

続くステップＳ１８では、ステップＳ１５と同様に、学習部１４ｇは、多数の第２学習用データセットを教師データとして、ニューラルネットワーク８を学習させる。より具体的には、学習部１４ｇは、第２学習用データセットに含まれる深度画像（正規化された腰領域の画像）を現在のニューラルネットワーク８に入力し、出力値として動作値Ｗ₁を取得し、この動作値Ｗ₁と、同じ第２学習用データセットに含まれる動作値Ｗ₁との誤差を最小化するように、ニューラルネットワーク８のパラメータを更新する。そして、ステップＳ１６及びＳ１７で作成された多数の第２学習用データセットを次々と適用しながら、ニューラルネットワーク８を最適化してゆく。以上により、学習処理が終了する。

＜６．変形例＞
以上、本発明のいくつかの実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、その趣旨を逸脱しない限りにおいて、種々の変更が可能である。例えば、以下の変更が可能である。また、以下の変形例の要旨は、適宜組み合わせることができる。

＜６－１＞
上記実施形態では、ゴルフスイングが解析されたが、解析の対象はこれに限られず、同様の方法で、テニスや野球等の打具のスイング動作を解析することもできる。また、スイング動作に含まれる人体の動作に代えて又は加えて、スイング動作に含まれる打具の動作を解析の対象とすることができる。また、解析の対象は、スポーツの動作でなくても、人体の動作でなくてもよく、任意の物体の任意の動作を解析の対象とすることができる。

＜６－２＞
ニューラルネットワーク８から出力される動作値Ｗ₁は、注目部位の回転角度に限られず、注目部位の位置（座標）、回転速度、回転加速度、速度及び加速度等であってもよい。また、注目部位も、ゴルファー７の腰に限られず、ゴルファー７の肩、腕、頭、重心等であってもよい。また、ニューラルネットワーク８の出力として、複数の部位の動作値Ｗ₁が導出されてもよい。例えば、身体の多数の所定の部位の位置情報（座標）のセットが導出されてもよいし、身体における多数の関節の位置情報（座標）を含むボーンデータが導出されてもよい。

例えば、動作値Ｗ₁として、肩の回転角度を導出する場合を考える。この場合、動作解析処理では、ステップＳ３で、深度フレームから肩の近傍の領域（肩領域）の画像を抽出し、ステップＳ４で、これをニューラルネットワーク８に入力すればよい。また、これに先立つ学習処理では、ステップＳ１３で、肩領域の深度画像を用意し、ステップＳ１４で、これに対応する動作値Ｗ₁として、ボーンデータＤ１及び／又は三次元ＣＧデータＤ２から肩の回転角度を導出すればよい。このとき、ボーンデータＤ１及び／又は三次元ＣＧデータＤ２から左肩及び右肩の三次元座標を取得し、平面視においてこれらを結ぶ直線の基準線に対する傾きθを導出し、これを肩の回転角度Ｗ₁とすることができる。さらに、ステップＳ１６でも、肩領域の深度画像を用意し、ステップＳ１７で、これに対応する動作値Ｗ₁として、肩の回転角度を取得すればよい。ここでの肩の回転角度は、例えば、角速度センサ４をゴルファー７の腰から肩に付け替えておくことにより、角速度センサ４から取得することができる。

以上の例のように、動作解析処理で動作値Ｗ₁として、身体における多数の関節の位置情報（二次元又は三次元座標）が導出される場合、これらの位置情報は、身体の重心の位置情報（二次元又は三次元座標）を導出することに利用することができる。この場合、動作解析処理では、ステップＳ３で、深度フレームから主としてゴルファーの占める領域（人物領域）の画像を抽出し、ステップＳ４で、これをニューラルネットワーク８に入力すればよい。また、これに先立つ学習処理では、ステップＳ１３で、人物領域の深度画像を用意し、ステップＳ１４で、これに対応する動作値Ｗ₁として、ボーンデータＤ１及び／又は三次元ＣＧデータＤ２から身体における多数の関節の位置情報を導出すればよい。さらに、ステップＳ１６でも、人物領域の深度画像を用意し、ステップＳ１７で、これに対応する動作値Ｗ₁として、例えば距離画像センサ２による計測と同時に行ったモーションキャプチャシステム３による計測の結果に基づいて、身体における多数の関節の位置情報を取得すればよい。

そして、動作解析処理で動作値Ｗ₁として導出された多数の関節の位置情報に基づいて、身体の重心の位置情報が導出される。このとき、例えば、身体を頭部、胴部、左右の上腕、左右の前腕、左右の手、左右の大腿、左右の下腿、及び左右の足の１４個の部位（以下、分割部位という）に仮想的に分ける。そして、予め、男女別に、身体全体に対する各部位の質量比と、各部位において重心が存在する位置を規定する割合である重心位置比とを定めておく。そして、これらの質量比及び重心位置比と、動作解析処理で導出された動作値Ｗ₁とから、身体の重心の位置情報（座標）を導出することができる。より具体的には、例えば、頭部の重心位置比が４６％とする。この場合、頭部の重心位置のｘ座標は、（頭部の頂点のｘ座標）＋０．４６×（頭部の頂点のｘ座標－首のｘ座標）として導出され、頭部の重心位置のｙ及びｚ座標についても、同様に導出される。頭部の頂点及び首のｘ，ｙ及びｚ座標は、動作値Ｗ₁に含まれる。同様にして、１４個の分割部位の重心の三次元座標を算出する。ここで、１４個の分割部位の質量比をそれぞれ、m₁，m₂，・・・，m₁₄とする。また、１４個の分割部位の重心の三次元座標をそれぞれ、（x₁，y₁，z₁），（x₂，y₂，z₂），・・・，（x₁₄，y₁₄，z₁₄）とする。このとき、身体の重心の三次元座標は、以下の通り算出される。

＜６－３＞
上記実施形態では、ボーンデータは、モーションキャプチャシステム３により取得された位置情報から取得されたが、例えば、距離画像センサの１つであるＫｉｎｅｃｔ（登録商標）は、深度フレームからスケルトンデータを導出し、これを深度フレームとともに出力する機能を有している。よって、このようなスケルトンデータを、上記のボーンデータとして使用することもできる。

＜６－４＞
上記実施形態では、ニューラルネットワーク８に入力される画像は、１枚の深度画像であった。しかしながら、時系列の複数枚の深度画像をセットとしてニューラルネットワーク８に入力するようにしてもよい。例えば、連続的に撮影された３枚の深度画像を、ＲＧＢのように１つのセットにすることができる。この場合、動作値Ｗ₁の時間変化も考慮に入れて、ニューラルネットワーク８を学習させることができ、動作値Ｗ₁の予測精度が向上する。

１コンピュータ（学習モデルの生成装置、動作解析装置）
１４ａ第１取得部
１４ｂ第２取得部
１４ｃ第３取得部
１４ｄ第４取得部
１４ｅＣＧ作成部
１４ｆ画像作成部
１４ｇ学習部
１４ｈ第５取得部（取得部）
１４ｉ導出部
１４ｊ表示制御部
２距離画像センサ
３モーションキャプチャシステム
４角速度センサ
５ゴルフクラブ
６プログラム（動作解析プログラム）
７ゴルファー（物体）
８ニューラルネットワーク
１００動作解析システム
Ｄ１ボーンデータ
Ｄ２三次元ＣＧデータ

Claims

物体の動作を解析するための学習モデルの生成方法であって、
前記物体の骨格を表すボーンデータを取得することと、
前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス（ＣＧ）データを作成することと、
前記三次元ＣＧデータに基づいて、前記物体の多数の深度画像を作成することと、
前記多数の深度画像にそれぞれ対応する、前記物体における１又は複数の所定の部位の動作を表す多数の動作値を取得することと、
前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させることと
を含み、
前記多数の深度画像を作成することは、同じ１つのシーンにおける前記三次元ＣＧデータに基づいて、視点の異なる複数の深度画像を作成することを含む、
学習モデルの生成方法。
前記多数の動作値を取得することは、前記ボーンデータ及び前記三次元ＣＧデータの少なくとも一方に基づいて、前記多数の動作値を導出することを含む、
請求項１に記載の学習モデルの生成方法。
前記三次元ＣＧデータを作成することは、同じ１つの骨格に対し異なる態様で肉付けし、異なる体型を表す前記三次元ＣＧデータを作成することを含む、
請求項１又は２に記載の学習モデルの生成方法。
前記距離画像センサにより撮影された前記物体の多数の深度画像を取得することと、
前記距離画像センサにより撮影された前記多数の深度画像にそれぞれ対応する、多数の前記動作値を取得することと、
前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の前記多数のデータセットを教師データとして、前記ニューラルネットワークを学習させた後に、前記距離画像センサにより撮影された前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、前記ニューラルネットワークを学習させることと
をさらに含む、
請求項１から３のいずれかに記載の学習モデルの生成方法。
前記ボーンデータは、ゴルフスイング中のゴルファーの骨格を表すデータである、
請求項１から４のいずれかに記載の学習モデルの生成方法。
物体の動作を解析するための学習モデルの生成装置であって、
前記物体の骨格を表すボーンデータを取得する第１取得部と、
前記ボーンデータに基づいて、前記物体の体型を表す三次元コンピュータ・グラフィックス（ＣＧ）データを作成するＣＧ作成部と、
前記三次元ＣＧデータに基づいて、前記物体の多数の深度画像を作成する画像作成部と、
前記多数の深度画像にそれぞれ対応する、前記物体における１又は複数の所定の部位の動作を表す多数の動作値を取得する第２取得部と、
前記三次元ＣＧデータに基づく前記深度画像及びこれに対応する前記動作値の多数のデータセットを教師データとして、距離画像センサにより撮影される前記物体の深度画像を入力とし、前記動作値を出力とするニューラルネットワークを学習させる学習部と
を備え、
前記画像作成部は、同じ１つのシーンにおける前記三次元ＣＧデータに基づいて、視点の異なる複数の深度画像を作成する、
学習モデルの生成装置。
物体の動作を解析する動作解析装置であって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得する取得部と、
前記取得された深度画像を、請求項１から５のいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出する導出部と
を備える、
動作解析装置。
物体の動作を解析する動作解析方法であって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得することと、
前記取得された深度画像を、請求項１から５のいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出することと
を含む、
動作解析方法。
物体の動作を解析する動作解析プログラムであって、
前記物体の動作を距離画像センサにより撮影した深度画像を取得することと、
前記取得された深度画像を、請求項１から５のいずれかに記載の生成方法を用いて生成された前記ニューラルネットワークに入力することにより、前記動作値を導出することと
をコンピュータに実行させる、
動作解析プログラム。