WO2023032422A1

WO2023032422A1 - 処理方法、プログラムおよび処理装置

Info

Publication number: WO2023032422A1
Application number: PCT/JP2022/024693
Authority: WO
Inventors: 頌平栗山; 敏行須藤; 友美子久野; 高幸柴田
Original assignee: キヤノン株式会社
Priority date: 2021-09-03
Filing date: 2022-06-21
Publication date: 2023-03-09
Also published as: JP2023037162A

Abstract

【課題】演奏者の演奏動作の改善点を見つけ易くする処理を行う。【解決手段】処理方法は、同じ又は同種の楽器で同じ楽曲を演奏する第１の演奏者と第２の演奏者の身体部位がそれぞれ含まれる第１の動画データおよび第２の動画データを取得するステップ（Ｓ６０１、Ｓ６０２）と、第１の動画データから第１の演奏者の身体部位の位置を取得し、第２の動画データから第２の演奏者の身体部位の位置を取得するステップ（Ｓ６０３、Ｓ６０４）と、取得された位置を用いて、楽曲の同じ区間を演奏する第１および第２の演奏者の身体部位の比較を可能とする比較データを生成するステップ（Ｓ６０５）とを有する。

Description

処理方法、プログラムおよび処理装置

　本発明は、楽器の演奏者による使用に好適な処理技術に関する。

　ピアノ、ヴァイオリン、チェロ、ギターおよびドラム等の楽器の演奏者の演奏技術を向上させる方法として、演奏中の演奏者を動画撮像し、得られた動画から演奏者の演奏動作（身体部位の位置や動作等）の改善点を見つける方法がある。特許文献１には、手本となる演奏者の動画と教習者としての演奏者の動画とを並べて表示することで、それらを見比べることを可能とする方法が開示されている。また、特許文献２には、演奏者の動画から演奏者の身体部位（手や指等）の位置を認識し、その認識結果から演奏された音を自動で楽譜化する方法が開示されている。

特開２０１９－０５３１７０号公報特開２０２０－０４６５００号公報

　しかしながら、特許文献１の方法のように演奏者の動画を見比べ可能とするだけでは、また特許文献２の方法のように演奏者の身体部位の位置を認識して楽譜を生成するだけでは、演奏動作の改善点を容易かつ十分に知ることは難しい。

　本発明は、演奏者の演奏動作の改善点を見つけ易くする処理を行うことが可能な処理方法等を提供する。

　本発明の一側面としての処理方法は、楽器で同じ楽曲を演奏する第１の演奏者と第２の演奏者の身体部位の動作がそれぞれ含まれる第１の動画データおよび第２の動画データを取得するステップと、第１の動画データから第１の演奏者の身体部位の位置を取得し、第２の動画データから第２の演奏者の身体部位の位置を取得するステップと、取得された位置を用いて、第１および第２の演奏者の上記位置および動作のうち少なくとも一方の比較を可能とする比較データを生成するステップとを有することを特徴とする。なお、コンピュータに、上記処理方法に従う処理を実行させるプログラムも、本発明の他の一側面を構成する。

　また、本発明の他の一側面としての処理装置は、楽器で同じ楽曲を演奏する第１の演奏者と第２の演奏者の身体部位の動作がそれぞれ含まれる第１の動画データおよび第２の動画データを取得する動画データ取得手段と、第１の動画データから第１の演奏者の身体部位の位置を取得し、第２の動画データから第２の演奏者の身体部位の位置を取得する位置取得手段と、取得された位置を用いて、第１および第２の演奏者の上記位置および動作のうち少なくとも一方の比較を可能とする比較データを生成する生成手段とを有することを特徴とする。

　本発明は、演奏者の演奏動作の改善点を見つけ易くするための処理を提供することができる。

実施例１の情報処理システムの構成を示すブロック図。実施例１における端末装置の構成を示すブロック図。実施例１における情報処理装置の構成を示すブロック図。実施例１における位置比較データ表示部の構成を示すブロック図。実施例１における演奏者の身体部位の位置を認識するための特徴点を示す図。実施例１における位置比較データ生成処理を示すフローチャート。実施例１における表示処理を示すフローチャート。実施例１における文章生成処理を示すフローチャート。実施例１における解説動画生成処理を示すフローチャート。実施例１における解説楽譜生成処理を示すフローチャート。実施例１における表示部での表示例を示す図。実施例１における表示部での別の表示例を示す図。実施例１における位置抽出処理を示すフローチャート。実施例１における演奏位置／速度合わせ処理を示すフローチャート。実施例１における位置変換処理を示すフローチャート。実施例１における位置変換処理を示す図。実施例１における手に関する解析を行うための指標を示す図。実施例１における上半身に関する解析を行うための指標を示す図。実施例２における位置変換処理を示すフローチャート。実施例２における表示部での表示例を示す図。

　以下、本発明の実施例について図面を参照しながら説明する。

　図１は、実施例１の情報処理システムの構成を示している。本システムは、複数の端末装置１１、ネットワーク１２、データサーバ１３および情報処理装置１４を有する。

　複数の端末装置１１は、それぞれのユーザが情報の取得、入力および送信を行ったり、送られてきた情報を閲覧可能にしたりするための装置であり、パーソナルコンピュータ、タブレット端末、スマートフォン等である。端末装置１１の詳細については後述する。

　本実施例において、ユーザは各種楽器の演奏者であり、演奏者には、演奏を習う教習者、演奏を指導する指導者、プロ演奏家等の様々な演奏者を含む。本システムは、主として、教習者が指導者やプロ演奏家の演奏動作を手本として演奏技術を向上させることができるようにするものである。また、ユーザは、自身は演奏しないが、他の２人以上のユーザ（演奏者）の演奏動作を比較したり評価したりする者であってもよい。

　ネットワーク１２は、端末装置１１、データサーバ１３および情報処理装置１４を相互に接続する通信経路であり、インターネット、公衆回線およびＬＡＮ等を含む。端末装置１１は、プロバイダを介してインターネットと接続される。データサーバ１３および情報処理装置１４は、ＬＡＮ等により互いに接続され、ＬＡＮを介してインターネットと接続される。端末装置１１で入力された情報は、ネットワーク１２を介してデータサーバ１３や情報処理装置１４に送信されて処理される。処理された結果は、端末装置１１からデータサーバ１３や情報処理装置１４にアクセスしたりデータサーバ１３や情報処理装置１４から端末装置１１にダウンロードしたりすることで閲覧することができる。

　データサーバ１３は、ユーザが端末装置１１からネットワーク上にアップロードしたデータを蓄積するための装置である。データは、ユーザの情報、ユーザが撮像により作製した動画データ、楽曲の楽譜データ等を含み、データ名に対応付けられてデータベースにおいて管理される。データサーバ１３に蓄積されたデータは、情報処理装置１４により読み出されて処理される。

　情報処理装置１４は、後述する各種情報処理を行うコンピュータである。情報処理装置１４は、他の装置とは別個に設けられた装置であってもよいし、端末装置１１の一部に組み込まれて端末装置１１を情報処理装置として機能させてもよい。また、情報処理装置１４をクラウド上にソフトウェアにより構成してもよい。情報処理装置１４の詳細については後述する。

　図２は、端末装置１１の構成を示している。端末装置１１は、制御・演算部２１、記憶部２２、通信部２３、動画撮像部２４、入力部２５および表示部（表示手段）２６を有する。制御・演算部２１は、ＣＰＵ、ＲＡＭおよびＲＯＭ等から構成されている。ＲＯＭには、ＣＰＵにより読み込まれプログラム等が記憶されている。ＲＡＭは、ＣＰＵのワークメモリとして用いられる。ＣＰＵは、ＲＯＭに記憶されたプログラムに従って様々な処理を実行してコマンドを発行することによって端末装置１１全体を制御する。

　記憶部２２は、ハードディスクや半導体メモリ等の記憶媒体である。記憶部２２は、後述する動画撮像部２４により生成された動画データ等を保存することができる。通信部２３は、インターネットを介して他の装置と通信するための通信モジュールや通信用コネクタ等を有する。通信部２３による通信は、ＵＳＢ通信等の有線通信、Wi-Fi（登録商標）等の無線ＬＡＮ、Bluetooth（登録商標）、ZigBee（登録商標）、４Ｇ／５Ｇ（第４／５世代移動通信システム）、ブロードバンド等の無線通信を含む。

　動画撮像部２４は、撮像レンズ、撮像レンズにより形成された被写体像を撮像する撮像素子および画像処理ＬＳＩ等を含み、撮像により動画や静止画を生成可能なカメラ機能と音声を記録するマイク機能とを有する。動画撮像部２４により生成された動画データは、情報処理装置１４での処理に用いられる。なお、動画撮像部２４は、必ずしも端末装置１１に設けられていなくてもよい。この場合、情報処理装置１４で用いられる動画データは、端末装置１１とは別の撮像機器による撮像により生成されたのでもよい。

　入力部２５は、ユーザによる端末装置１１に対する操作入力を受け付け、その操作入力に応じた入力信号を生成して制御・演算部２１に出力する。制御・演算部２１は、入力信号に対応した演算処理や端末装置１１の制御を行う。入力部２５としては、表示部２６と一体に構成されたタッチパネル、トラックパッドやタッチパッドと称されて表示部２６とは別体のタッチセンサを有するポインティングデバイス、キーボードおよびマウス等がある。

　表示部２６は、例えば、ＬＣＤパネル、プラズマディスプレスパネル、有機ＥＬパネル等により構成された表示デバイスであり、端末装置１１のユーザインターフェースや後述する比較画像、解説文章、解説画像および解説楽譜画像を表示可能である。

　図３は、情報処理装置１４の構成を示している。情報処理装置１４は、動画データ取得部（動画データ取得手段）３０１、位置抽出部（位置取得手段）３０２、位置比較データ生成部（生成手段）３０３および楽譜データ取得部３０４を有する。また情報処理装置１４は、音認識部３０５、楽器認識部３０６、文章生成部３０７、解説動画生成部３０８および解説楽譜生成部３０９を有する。

　動画データ取得部３０１は、複数の端末装置１１における動画撮像部２４で撮像された、楽器で楽曲を演奏する演奏者の身体部位がそれぞれ含まれる複数の動画データ（以下、演奏動画という）を取得する。楽器には、ピアノや電子ピアノ等の鍵盤楽器やヴァイオリン、チェロ、ギター等の弦楽器その他の様々な種類の楽器が含まれる。なお、後述する位置比較データの生成対象となる複数の動画データで演奏される楽器は、互いに同じ楽器（例えばピアノ）であることが好ましいが、必ずしも同じ楽器でなくてもよく、例えばピアノと電子ピアノのように鍵盤楽器として同種の楽器であってもよい。また、該複数の動画データで演奏される楽曲は、同じ楽曲である。以下の説明では、同じ楽曲が鍵盤楽器で演奏される場合を例として説明する。

　端末装置１１による演奏動画の撮像時には、演奏者の身体部位としての手の様子がよく映るように端末装置１１（または撮像装置）を鍵盤楽器の上方に設置して手を真上から撮像する。また、手の左右方向や奥手前方向の動き、さらには鍵盤の領域を二次元情報として取得する。なお、撮像装置として３Ｄ撮像が可能なステレオカメラや赤外線等を用いて距離を測定可能な測距カメラを使用して、演奏者の手だけではなく肘、肩および上半身の動きを三次元情報として取得してもよい。このとき、演奏動画から鍵盤楽器の位置を認識するために、鍵盤楽器の所定位置に目印となるマーカ等を設けておいてもよい。

　図１に示したデータサーバ１３には、様々な演奏者が端末装置１１からネットワーク上にアップロードされた演奏動画が多数保存されている。情報処理装置１４を利用したい演奏者（例えば教習者）が自身の端末装置１１からデータサーバ１３にアクセスして任意の演奏動画を選択することができる。動画データ取得部３０１では、このようにして選択された演奏動画を取得することも可能である。

　楽譜データ取得部３０４は、演奏動画において演奏されている楽曲の楽譜データを取得する。楽譜データとしては、印刷や製本された楽譜をスキャンして画像データ化されたものや、各音符がデータ化されておりそれらの読み取りや楽譜画像としての表示が可能なもの等がある。

　位置抽出部３０２は、動画データ取得部３０１で取得した演奏動画を解析して、演奏者の身体部位の位置を抽出（取得）する。具体的には、演奏動画のフレーム画像ごと又は所定のフレーム数ごとに身体部位の位置を解析することにより位置を抽出する。身体部位の位置として、身体部位の各関節の位置を抽出する場合は、画像認識によるモーションキャプチャ技術を用いることができる。モーションキャプチャ技術は、人間の骨格の特徴点として各関節の位置を画像を用いて機械学習させることにより、身体にセンサを付けることなく画像データから骨格を認識することができる技術である。

　図５（ａ）は、手の骨格を認識するための特徴点の例として、指先Ａ１、指の各関節Ａ２および手首Ａ３を示している。図５（ｂ）は、上半身の骨格を認識するための特徴点の例として、手首Ｂ１、肘Ｂ２、肩Ｂ３および腰Ｂ４を示している。なお、身体の特徴点に相当する位置に画像上で認識可能なマーカを付けるモーションキャプチャ技術を用いてもよい。

　また、位置抽出部３０２は、抽出した位置から各身体部位の角度を取得してもよい。例えば、後に図を用いて説明するが、抽出した複数の位置のうち２つの位置を結ぶ直線と該２つの位置のうち一方と別の位置を結ぶ直線の角度を取得してもよい。さらに、抽出した位置と演奏動画の各フレームに対応した時間の情報から各身体部位の動きの速度や加速度を算出してもよい。例えば、あるフレームに対応した時間をｔ１、その次のフレームに対応した時間をｔ２とし、ｔ１～ｔ２でのある身体部位の位置をそれぞれｘ１、ｘ２とする。このとき、（ｘ２－ｘ１）／（ｔ２－ｔ１）により速度を算出できる。また、この速度を（ｔ２－ｔ１）で除することで加速度を算出することができる。

　速度や加速度を算出する際には、抽出した位置にノイズとして含まれる検出誤差や人間の動きの細かなぶれ成分を平滑化する処理を行ってもよい。このような処理として、演奏動画の各フレームでの位置の移動平均を算出する処理や、位置抽出での空間周波数における高周波成分をローパスフィルタで除去する処理等がある。

　位置抽出部３０２は、特徴点をＰ１、Ｐ２、Ｐ３、…、Ｐｎとして、それらのフレーム画像上での位置（座標ｘ，ｙ）をＰｉ（ｘｉ，ｙｉ）として抽出する。さらにその位置における奥行きｚを推定または測定して、Ｐｉ（ｘｉ，ｙｉ，ｚｉ）として抽出してもよい。また位置抽出部３０２は、フレーム画像から実空間上での基準位置を認識し、その基準位置に対する実空間上での位置Ｐｉ（ｘｉ，ｙｉ，ｚｉ）を抽出してもよい。

　音認識部３０５は、動画データ取得部３０１で取得された演奏動画に含まれる演奏音を認識して音データを生成する。音データとして、演奏者が演奏に電子ピアノを使用している場合は、電子ピアノにパーソナルコンピュータとMIDIケーブルをつなぐことで、どの時刻にどの鍵盤を押したかを記録したMIDIデータを取得することができる。また、機械学習を活用した音認識技術により、演奏音がどの時刻にどの鍵盤を押したかを認識する技術を用いて音データを生成してもよい。

　楽器認識部３０６は、動画データ取得部３０１で取得された演奏動画から、楽器において演奏者による演奏操作が行われる領域（以下、演奏操作領域という）を認識する。演奏操作領域は、鍵盤楽器においては演奏者が打鍵する鍵盤領域である。演奏操作領域の認識方法としては、予め用意された鍵盤領域の特徴的なパターン画像を用いたパターンマッチングを用いたり、鍵盤領域の黒と白のエッジを画像解析で認識させる方法を用いたり、機械学習による画像認識を用いたりすることができる。また、鍵盤領域の周辺に目印となるマーカを設けておき、その撮像により得られた画像から画像認識により演奏操作領域を認識させてもよい。さらに、演奏者が画像上で手動より指定した演奏操作領域を認識させてもよい。このようにして楽器認識部３０６は、演奏動画に映る楽器の演奏操作領域を二次元的または三次元的に認識する。

　また、位置抽出部３０２が演奏者の身体部位の位置を抽出する際に、音認識部３０５で生成された音データを補助として使用してもよい。図１２のフローチャートは、音データを使用した位置抽出処理を示している。動画データ取得部３０１、位置抽出部３０２、音認識部３０５および楽器認識部３０６は、プログラムに従って本処理を実行する。

　ステップ１２０１において、動画データ取得部３０１は、演奏動画を取得する。

　次にステップ１２０２では、楽器認識部３０６は、演奏動画から演奏者の身体部位の位置と楽器の演奏操作領域を取得する。またステップ１２０３では、音認識部３０５は、音データから、演奏操作領域のうち演奏者により操作（打鍵）された局所領域を取得する。ここで、鍵盤領域のうち１つの鍵盤が打鍵されていると認識できたにもかかわらず、演奏者の身体部位を示す位置がその鍵盤を含む局所領域にない場合がある。このような状況は、例えば演奏者の親指が手のひらの下に曲げられて隠れてしまい、親指の位置が得られなかったときに発生する。また、演奏者の頭で手の一部が隠れてしまったときにも発生する。

　ステップ１２０４では、位置抽出部３０２は、操作されているはずの局所領域において身体部位の位置が抽出されたか否かを判定し、位置が抽出された場合はステップ１２０６に進み、局所領域を操作している身体部位とその位置を格納する。

　一方、位置が抽出されていない場合は、位置抽出部３０２は、ステップ１２０５に進み、局所領域を操作している身体部位の位置を推定する。例えば、親指が手のひらの下に隠れている場合は、親指の位置が局所領域にあると推定すればよい。また、演奏者の頭で手の一部が隠れてしまった場合は、その隠れた手が局所領域にあると推定すればよい。これにより、身体部位が演奏動画に映っていない場合でも、その位置を正確に取得することが可能となる。

　ステップ１２０５からはステップ１２０６に進んで推定した位置を格納する。その後、位置抽出部３０２は本処理を終了する。

　位置比較データ生成部３０３は、位置抽出処理により第１の演奏者（手本となる演奏者）の演奏動画から抽出された身体部位の位置と第２の演奏者（教習者等）の演奏動画から抽出された身体部位の位置とを用いて位置比較データを生成する。第１および第２の演奏者は、同じ又は同種の楽器（鍵盤楽器）で同じ楽曲を演奏する演奏者である。

　位置比較データは、演奏される楽曲の同じ演奏区間における第１および第２の演奏者の身体部位の比較を可能とするデータである。例えば、第１および第２の演奏者の身体部位の位置や角度を共に（並べて）表示するためのデータや、それら第１および第２の演奏者の身体部位の位置や角度の比較結果（例えば、差）を示すデータである。位置や角度の差を示すデータは、単純に身体部位の位置や角度を並べて表示する場合に比べて、より明確に両演奏者の演奏動作の違いを表すことができる。

　また、前述したように第１および第２の演奏者の身体部位の位置から算出される身体部位の動作の速度や加速度またはこれらの差を位置比較データに含めてもよい。これにより、両演奏者の演奏動作の違いをより詳しく分析することが可能となる。

　図６のフローチャートは、図１２に示した位置抽出処理を含む位置比較データ生成処理を示している。動画データ取得部３０１、位置抽出部３０２および位置比較データ生成部３０３は、プログラムに従って本処理を実行する。

　ステップ６０１において、動画データ取得部３０１は、第１の演奏者の演奏動画（第１の動画データ：以下、第１の演奏動画という）を取得する。またステップ６０２では、動画データ取得部３０１は、第２の演奏者の演奏動画（第２の動画データ：以下、第２の演奏動画という）を取得する。

　次にステップ６０３では、位置抽出部３０２は、第１の演奏動画に対して上述した位置抽出処理を行って、第１の演奏者の身体部位の位置を取得する。またステップ６０４では、第２の演奏動画に対して上述した位置抽出処理を行って、第２の演奏者の身体部位の位置を取得する。

　次にステップ６０５では、位置比較データ生成部３０３は、同一フレームにおいて抽出された第１の演奏者の身体部位の位置（第１の位置）と第２の演奏者の身体部位の位置（第２の位置）とを用いて位置比較データを生成する。具体的には、演奏中の第１および第２の演奏者の同一の手（特徴点）の位置を抽出し、演奏動画のｉ番目のフレームでの第１の演奏者の手の位置を示す数値ｘ１ｉと第２の演奏者の手の位置を示す数値ｘ２ｉとを比較可能に並べて表示するためのデータを生成する。また、連続した複数フレームにおける数値ｘ１ｉ、ｘ２ｉのそれぞれの変化（手の動き）を比較可能に並べて表示するためのデータも生成する。

　さらに第１および第２の演奏者の演奏動作を比較可能とする位置比較データとして、ｉ番目のフレームの数値ｘ１ｉ、ｘ２ｉの差（ｘ２ｉ－ｘ１ｉ）を示すデータや、該差の連続した複数フレームでの変化を示すデータを生成してもよい。この際、第１の演奏者と第２の演奏者のどちらを基準とした差のデータとするかは、第２の演奏者が図２に示した入力部２５を通じて選択することができる。その後、位置比較データ生成部３０３は本処理を終了する。

　文章生成部３０７は、位置比較データ生成部３０３で生成された位置比較データに基づいて解説文章を生成する。解説文章は、第１および第２の演奏者の演奏動作の違いを分かり易く伝えるための文章である。特に、第１および第２の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを文章で明確に伝えることができる。

　図８のフローチャートは、文章生成部３０７がプログラムに従って実行する文章作成処理を示している。

　ステップ８０１において、文章生成部３０７は、第１および第２の演奏動画のうち位置比較データにおける身体部位の位置（数値）の差が大きいフレーム範囲を特定する。具体的には、例えば、両演奏動画における比較対象の演奏区間内で位置比較データにおける位置の差が最も大きい又は所定値（閾値）よりも大きいフレームを含む複数のフレームの範囲を特定する。

　次にステップ８０２では、文章生成部３０７は、ステップ８０１で特定したフレーム範囲のフレーム番号を格納する。

　次にステップ８０３では、文章生成部３０７は、ステップ８０１でのフレーム範囲の特定において用いた位置比較データのデータ名を格納する。データ名には、少なくとも位置を比較した身体部位の名称と該位置を区別するための名称を含めることが望ましい。例えば、位置比較データが右手首の左右方向での位置（傾き角）を比較するデータであれば、少なくとも「右手首の傾き」を含むデータ名とする。

　次にステップ８０４では、文章生成部３０７は、第１および第２の演奏者のうち位置比較データの生成に際して基準となる演奏者の情報を格納する。この基準演奏者は、前述したように図２に示した入力部２５を通じて第２の演奏者により選択される。

　次にステップ８０５では、文章生成部３０７は、ステップ８０４で選択された基準演奏者（例えば第１の演奏者）を基準とした他方の演奏者（比較演奏者：例えば第２の演奏者）の身体部位の位置の差の情報を格納する。なお、身体部位の位置には、座標で表される位置だけでなく、角度（例えば傾き角や開き角）も含まれる。例えば、「右手首の傾き」データにおける基準演奏者を基準とした比較演奏者の右手首の傾き角の差を示す情報を格納する。

　次にステップ８０６では、文章生成部３０７は、ステップ８０２～８０５で格納した情報に基づいて解説文章を生成して格納する。例えば、ステップ８０２で格納したフレーム範囲に対応する「時間」において、ステップ８０３で格納したデータ名から得られる「身体部位」と「位置」について、ステップ８０４で格納した「基準演奏者」に比べて「比較演奏者」に、ステップ８０５で格納した「位置差」があることを示す解説文章を生成する。その後、文章生成部３０７は本処理を終了する。

　解説動画生成部３０８は、位置比較データ生成部３０３で生成された位置比較データに基づく解説情報を演奏動画に付加（重畳等）して解説画像としての解説動画を生成する。解説動画は、第１および第２の演奏者の演奏動作の違いを分かり易く伝えるための動画である。特に、第１および第２の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを解説情報が付加された解説動画で明確に伝えることができる。

　図９のフローチャートは、解説動画生成部３０８がプログラムに従って実行する解説動画生成処理を示している。

　ステップ９０１において、解説動画生成部３０８は、文章生成部３０７がステップ８０１で行ったのと同様に、第１および第２の演奏動画のうち位置比較データにおける身体部位の位置差が大きいフレーム範囲を特定する。

　次に、ステップ９０２では、解説動画生成部３０８は、動画データ取得部３０１で取得された第１および第２の演奏動画を格納する。

　次にステップ９０３では、解説動画生成部３０８は、ステップ９０１で特定したフレーム範囲のフレーム番号を格納する。

　次にステップ９０４では、解説動画生成部３０８は、各演奏動画において位置比較データに基づいて生成される解説情報を重畳させる位置を決定して格納する。例えば、ステップ９０３で特定したフレーム範囲における位置比較データ内での身体部位の位置の平均値を算出することにより、演奏動画中に解説情報を重ねて表示する位置を決定することができる。

　次にステップ９０５では、解説動画生成部３０８は、解説情報を生成した位置比較データのデータ名を格納する。データ名の具体例は、文章生成部３０７がステップ８０３で格納したデータ名と同様である。

　次にステップ９０６では、解説動画生成部３０８は、文章生成部３０７がステップ８０４で行ったのと同様に、第１および第２の演奏者のうち位置比較データにおいて位置に関する差を表す際に基準とする基準演奏者の情報を格納する。

　次にステップ９０７では、解説動画生成部３０８は、ステップ９０６で選択された基準演奏者を基準とした比較演奏者の身体部位の位置差を画像として表示するための解説情報を生成して格納する。解説情報は、例えば、「手首関節の左右動き」データにおける基準演奏者を基準とした比較演奏者の手首の動きの差を画像として表示するための情報である。

　次にステップ９０８では、解説動画生成部３０８は、ステップ９０２で格納した第１および第２の演奏動画のうちステップ９０３で格納したフレーム番号のフレーム画像におけるステップ９０４で決定した位置にステップ９０７で生成した解説情報を重畳した解説動画を生成して格納する。その後、解説動画生成部３０８は本処理を終了する。

　解説楽譜生成部３０９は、位置比較データ生成部３０３で生成された位置比較データに基づいて得られる解説楽譜情報を楽譜データに付加（重畳等）して解説楽譜画像を生成する。解説楽譜画像は、第１および第２の演奏者の演奏動作の違いを分かり易く伝えるために楽譜を利用した画像である。特に、第１および第２の演奏動画を見比べるだけでは演奏動作の違いが分かりにくい場合に該違いを解説楽譜情報が付加された楽譜を通して明確に伝えることができる。

　図１０のフローチャートは、解説楽譜生成部３０９がプログラムに従って実行する解説楽譜生成処理を示している。

　ステップ１００１において、解説楽譜生成部３０９は、文章生成部３０７がステップ８０１で行ったのと同様に、第１および第２の演奏動画のうち位置比較データにおける身体部位の位置差が大きいフレーム範囲を特定する。

　次にステップ１００２では、解説楽譜生成部３０９は、楽譜データ取得部３０４で取得された楽譜データを格納する。

　次にステップ１００３では、解説楽譜生成部３０９は、ステップ１００１で特定したフレーム範囲のフレーム番号を格納する。

　次にステップ１００４では、解説楽譜生成部３０９は、ステップ１００２で格納した楽譜データにおけるステップ１００３で格納したフレーム番号に対応する演奏位置を特定して格納する。具体的には、音認識部３０５で認識された音データを楽譜データと照合することより演奏位置を特定する。

　次にステップ１００５では、解説楽譜生成部３０９は、楽譜データにおいて位置比較データに基づいて生成される解説楽譜情報を重畳させる位置を決定して格納する。例えば、位置比較データの生成に用いられた身体部位（指）の位置に対応する鍵盤（音符）の位置から解説楽譜情報を重畳させる位置を決定する。ステップ１００４で演奏区間は決まっているので、その演奏区間における音符の位置から楽譜上のどの音符の近くに解説楽譜情報を重畳表示するかを決定することができる。

　次にステップ１００６では、解説楽譜生成部３０９は、解説楽譜情報を生成した位置比較データのデータ名を格納する。データ名の具体例は、文章生成部３０７がステップ８０３で格納したデータ名と同様である。

　次にステップ１００７では、解説楽譜生成部３０９は、文章生成部３０７がステップ８０４で行ったのと同様に、第１および第２の演奏者のうち位置比較データにおいて位置に関する差を算出する際に基準とする基準演奏者の情報を格納する。

　次にステップ１００８では、解説楽譜生成部３０９は、ステップ１００７で選択された基準演奏者を基準とした比較演奏者の身体部位の位置差に対応する解説楽譜情報を生成して格納する。解説楽譜情報は、例えば、基準演奏者と比較演奏者の身体部位の位置や動作に差が生じた楽譜上の演奏位置を表示するための情報である。

　次にステップ１００９では、解説楽譜生成部３０９は、ステップ１００２で格納した楽譜データのうちステップ１００４で格納した演奏区間におけるステップ１００５で決定した位置にステップ１００８で生成した解説楽譜情報を重畳した解説楽譜画像を生成して格納する。その後、解説楽譜生成部３０９は本処理を終了する。

　ここで、位置比較データ生成部３０３において位置比較データを生成する際には、第１および第２の演奏動画の比較を容易かつ正確に行うために、両演奏動画内での演奏位置と演奏速度が互いに一致し、さらには楽器の演奏操作領域の位置と大きさが互いに一致していることが望ましい。

　図１３のフローチャートは、第１および第２の演奏動画における演奏位置（楽譜上の位置）と演奏速度を合わせる演奏位置／速度合わせ処理を示している。位置抽出部３０２は、プログラムに従って本処理を実行する。

　ステップ１３０１において、位置抽出部３０２は、入力部２５を通じて第２の演奏者により指定された、第１の演奏動画から抽出する演奏区間の情報を取得し、さらにその演奏区間の時間長さを取得する。演奏区間の指定は、例えば、演奏される楽曲の小節番号や楽曲全体を指定することにより行われる。

　次にステップ１３０２では、位置抽出部３０２は、音認識部３０５で認識された音データと楽譜データ取得部３０４で取得された楽譜データを用いて、第２の演奏動画のうちステップ１３０１で指定された演奏区間に対応する演奏区間を特定してその時間長さを取得する。

　次にステップ１３０３では、位置抽出部３０２は、第１および第２の演奏動画のうち演奏速度を合わせるための基準とする演奏動画の情報を取得する。この基準演奏動画も、入力部２５を通じて第２の演奏者により選択される。

　次にステップ１３０４では、位置抽出部３０２は、第１および第２の演奏動画のうち基準演奏動画を基準として演奏速度が調整される調整演奏動画における上記演奏区間の時間長さを拡大または縮小して、両演奏動画における同一演奏区間の演奏速度を合わせる。例えば、基準演奏動画において抽出された演奏区間の長さがｔ１、調整演奏動画における対応演奏区間の時間長さがｔ２であるとき、調整演奏動画における対応演奏区間の時間長さをｔ１／ｔ２倍する。この際、演奏音のピッチが保たれるように音の周波数も変換することが好ましい。

　この後、位置抽出部３０２は、演奏速度が調整された演奏区間の動画を保存して位置比較データ生成部３０３による位置比較データの生成において使用可能とし、本処理を終了する。

　図１４のフローチャートは、演奏動画に含まれる演奏操作領域および演奏者の身体部位の位置を変換する位置変換処理を示している。位置抽出部３０２は、プログラムに従って本処理を実行する。

　ステップ１４０１において、位置抽出部３０２は、演奏動画内で楽器の演奏操作領域（鍵盤領域）を配置する位置を決定する。ここにいう位置は、例えば鍵盤領域の四隅の位置であり、この位置を決めることで鍵盤領域の大きさも決まる。このように位置比較データ生成部３０３が扱う演奏動画における鍵盤領域の位置と大きさを決めて、動画データ取得部３０１で取得される様々な演奏動画をそれに合うように画像変換することで、位置比較データの生成が容易となる。具体的には、演奏動画内に鍵盤領域とそこを操作する演奏者の身体部位とがバランス良く映る位置と大きさを演奏動画内での鍵盤領域の位置として決定するとよい。また、手本となる第１の演奏動画に映っている鍵盤領域を、位置比較データ生成部３０３が扱う演奏動画における鍵盤領域の位置と決定してもよい。

　次にステップ１４０２では、位置抽出部３０２は、第１の演奏動画から、鍵盤領域の位置と第１の演奏者の身体部位の位置を取得する。第１の演奏動画における鍵盤領域の位置は、楽器認識部３０６を通じて取得できる。

　次にステップ１４０３では、位置抽出部３０２は、第２の演奏動画から、鍵盤領域の位置と第２の演奏者の身体部位の位置を取得する。第２の演奏動画における鍵盤領域の位置も、楽器認識部３０６を通じて取得できる。

　次にステップ１４０４では、位置抽出部３０２は、ステップ１４０２とステップ１４０３で取得した鍵盤領域の位置と大きさが、ステップ１４０１で決定された位置と大きさとなるように第１および第２の演奏動画を画像変換する。この際、ステップ１４０１で決定された位置と大きさが第１の演奏動画の鍵盤領域の位置と大きさである場合は、第２の演奏動画を画像変換する。

　次にステップ１４０５では、位置抽出部３０２は、第１および第２の演奏動画中の身体部位の位置をステップ１４０４での画像変換に対応するように座標変換する。この際、第１の演奏動画に対してステップ１４０４で画像変換が行われていない場合は、第２の演奏動画中の身体部位の位置を座標変換する。身体部位の位置の座標変換は、例えば、演奏画像上の座標に対して行列を乗じる幾何変換で行うことができる。図１５は、ステップ１４０４での画像変換とステップ１４０５での座標変換を示している。

　図１５の左上に示した画像変換と座標変換の対象である演奏画像１５０１中には、楽器の鍵盤領域１５０２と演奏者の身体部位１５０３が映っている。また、図の右側には、ステップ１４０１で決定された位置に鍵盤領域（以下、決定鍵盤領域という）１５０５がある基準画像１５０４を示している。

　位置抽出部３０２は、演奏画像１５０１内での鍵盤領域１５０２が楽器認識部３０６により認識されると、該鍵盤領域１５０２の四隅の演奏画像１５０１内での座標を取得する。また、位置抽出部３０２は、基準画像１５０４内の決定鍵盤領域１５０５の四隅の座標を取得する。そして位置抽出部３０２は、鍵盤領域１５０２の四隅の座標が決定鍵盤領域１５０５の四隅の座標に一致するように演奏画像１５０１に対する画像変換を行うとともに、その画像変換に対応する幾何変換行列を求める。さらに位置抽出部３０２は、求めた幾何変換行列を演奏画像１５０１内の演奏者の身体部位１５０３の座標に乗じる。これにより、図中の右下に示す変換後の演奏画像１５０６が得られる。変換後の演奏画像１５０６では、鍵盤領域１５０７の位置が決定鍵盤領域１５０５の位置に一致し、かつ鍵盤領域１５０７と演奏者の身体部位１５０８との位置関係が変換前の演奏画像１５０１内での鍵盤領域１５０２と身体部位１５０３との位置関係と一致している。

　演奏者の演奏技術を向上させるためには、位置抽出部３０２は演奏者の様々な身体部位の位置を取得できることが望ましい。図１６（ａ）、（ｂ）は、位置抽出部３０２の位置解析で得られた演奏者の右手のうち手のひらの中心１６０１、指先１６０２、手首の根元１６０３の位置を示している。また図１７は、演奏者の身体のうち手首１７００、肘１７０１、肩１７０２および腰１７０３の位置を示している。

　図１６（ａ）に示す手のひらの中心１６０１の位置の情報は、楽器の鍵盤領域に沿った面内での左右方向および奥手前方向での手の移動に関する情報を取得するために用いられる。手のひらの中心１６０１の位置は、例えば、手のひらの複数箇所の関節の位置を抽出してその平均値の位置として取得することができる。

　また、同図に示す指先１６０２の位置の情報は、演奏時に各鍵盤をどの指で打鍵するかという運指の情報や、各鍵盤の幅方向と奥手前方向における打鍵位置の情報を取得するために用いられる。さらに指先１６０２の三次元位置の情報は、各鍵盤に対する打鍵深さや打鍵速度のように打鍵方向の情報を取得するために用いられる。

　また、図１６（ｂ）に示す手首の根元１６０３の三次元位置の情報は、鍵盤領域（各鍵盤の上面）に沿った面に直交する方向での手首の位置（高さ）の情報を取得するために用いられる。また、手首の根元１６０３と手のひらの中心１６０１の位置とを結んだ直線が鍵盤の奥手前方向に平行で根元１６０３の位置を通る直線に対してなす角度１６０４は、鍵盤領域に沿った面内での手首の傾き角の情報を取得するために用いられる。

　また、図１７に示す手首１７００、肘１７０１、肩１７０２および腰１７０３の位置の情報は、演奏者の姿勢の情報を取得するために用いられる。姿勢は、演奏動作に影響を与える。例えば、手首１７００と肘１７０１を結んだ直線と肘１７０１と肩１７０２を結んだ直線とがなす前肘開き角度１７０４や、肘１７０１と肩１７０２を結んだ直線と肩１７０２と腰１７０３とを結んだ直線とがなす脇開き角１７０５の情報を取得することができる。

　なお、先にも説明したが、身体部位の位置からは、位置差、速度および加速度等の位置に関する情報が得られる。

　図４は、図２に示した端末装置１１の表示部２６に、前述した位置比較データ、解説文章、解説動画および解説楽譜情報等を表示する表示画面４００の構成を示している。表示画面４００は、位置比較データ表示部４０１、文章表示部４０２、解説動画表示部４０３および解説楽譜表示部４０４により構成されている。図１１Ａおよび図１１Ｂは、表示画面４００の表示例を示している。

　図７は、端末装置１１（制御・演算部２１）がプログラムに従って実行する表示処理を示している。ステップ７０１では、端末装置１１は、図１１Ａおよび図１１Ｂに示すように位置比較データ表示部４０１（４０１ａ）に、位置比較データに基づいて生成された比較画像を表示する。比較画像は、位置比較データ生成部３０３により生成された位置比較データを数値化またはグラフ化した画像である。端末装置１１は、位置比較データ生成部３０３において生成されて情報処理装置１４から送信された比較画像を受信して位置比較データ表示部４０１ａに表示する。

　次にステップ７０２では、端末装置１１は、図１１Ａおよび図１１Ｂに示すように位置比較データ表示部４０１（４０１ｂ）に、ステップ７０１で表示した比較画像における比較対象（指標）を表示する。

　次にステップ７０３では、端末装置１１は、入力部２５を通じて、位置比較データの内容を解説する文章の表示が選択されているか否かを判定する。文章表示が選択されている場合は、端末装置１１はステップ７０４に進み、文章生成部３０７で図８に示した文章生成処理により生成された解説文章を情報処理装置１４から取得（受信）する。そしてステップ７０５では、取得した解説文章を、図１１Ａおよび図１１Ｂに示すように文章表示部４０２に表示する。

　ステップ７０３で文章表示が選択されていない場合およびステップ７０５で文章表示を行った場合は、端末装置１１はステップ７０６に進み、位置比較データの内容を動画での表示が選択されているか否かを判定する。動画表示が選択されている場合は、端末装置１１はステップ７０７に進み、解説動画生成部３０８で図９に示した解説動画生成処理により生成された解説動画を情報処理装置１４から取得する。そしてステップ７０８では、取得した解説動画を図１１Ａおよび図１１Ｂに示すように解説動画表示部４０３に表示する。

　ステップ７０６で動画表示が選択されていない場合およびステップ７０８で動画表示を行った場合は、端末装置１１はステップ７０９に進み、解説楽譜生成部３０９で図１０に示した解説楽譜生成処理により生成された解説楽譜画像を情報処理装置１４から取得する。そしてステップ７１１では、取得した解説楽譜画像を図１１Ａおよび図１１Ｂに示すように解説楽譜表示部４０４に表示する。この後、端末装置１１は本処理を終了する。

　なお、端末装置１１は、情報処理装置１４から送信された位置比較データを受信し、該位置比較データから端末装置１１内のプログラム（アプリケーション）により比較画像、解説文章、解説動画および解説楽譜画像を生成して表示部２６に表示してもよい。

　図１１Ａに示した各表示部についてさらに詳しく説明する。位置比較データ表示部４０１ａには、先に説明した「右手首の傾き」データから生成された、第１の演奏者と第２の演奏者のそれぞれの右手首の傾き角の時間変化を示すグラフ（比較画像）が表示されている。また、位置比較データ表示部４０１ｂには、「右手首の傾き」データのデータ名に基づく「鍵盤上面に平行な面での右手首の傾き」を示す図１６（ｂ）の手の図と文が表示されている。

　上記グラフの横軸は、演奏動画内での時間を示し、縦軸は右手首の傾き角を示している。破線は第１の演奏者の右手首の傾き角を、実線は第２の演奏者の右手首の傾き角を示している。また、一点鎖線は、第２の演奏者の右手首の傾き角から第１の演奏者の右手首の傾き角を引いた値（差）を示している。さらにグラフ中には、第１の演奏者と第２の演奏者の右手首の傾き角の差が大きい等の注目すべき箇所（以下、注目箇所という）を示す枠１１０２Ｂも表示されている。後述するように解説動画表示部４０３には解説動画を静止させて表示しており、グラフ中には演奏動画を静止させた時点を示す縦線１１０２Ａも表示されている。第２の演奏者は、このような位置比較データ表示部４０１ａ、４０１ｂの表示を見ることで、自身の右手首の傾き角の第１の演奏者との差異やそれが大きくなった時間を容易に認識することができる。

　文章表示部４０２には、位置比較データ表示部４０１ａに表示された注目箇所に対応する時間と、第２の演奏者の右手首の傾き角が第１の演奏者の右手首の傾き角に対してどれだけの差異があるかをより具体的に解説する解説文章が表示されている。第２の演奏者は、このような文章表示部４０２の表示を見ることで、自身の右手首の傾き角の第１の演奏者との差異の程度やその差異が生じた時間をより明確に理解することができる。

　解説動画表示部４０３には、第１の演奏者の演奏動画に解説情報が重畳された解説動画１１０４と第２の演奏者の演奏動画に解説情報が重畳された解説動画１１０５のうち注目箇所に対応するフレームの静止画像が表示されている。第１の演奏者の解説動画と第２の解説動画にはそれぞれ、楽器（鍵盤）１１０４Ａ、１１０５Ａとこれを演奏する左右の手１１０４Ｂ、１１０５Ｂが映っている。さらにそれぞれの右手上には、右手首の傾き角を示す解説情報１１０４Ｃ、１１０５Ｃが重畳表示されている。第２の演奏者は、このような解説動画表示部４０３の表示を見ることで、自身の右手首の傾き角の第１の演奏者との差異の程度を視覚的に認識することができる。

　解説楽譜表示部４０４には、演奏動画内で演奏された楽曲の楽譜に、注目箇所に対応する演奏区間を示す解説楽譜情報としての枠１１０３Ｂが重畳された解説楽譜画像が表示されている。楽譜上には演奏動画を静止させた時点を示す縦線１１０３Ａも表示されている。第２の演奏者は、このような解説楽譜表示部４０４の表示を見ることで、第１の演奏者との右手首の傾き角の大きな差異がどの演奏区間で生じたかを楽譜上で確認することができる。

　図１１Ａの表示画面４００にどの表示部を表示させるかは、図７に示した表示処理で説明したように、第２の演奏者が入力部２５を通じて選択することができる。

　また、図１１Ｂには、解説動画表示部４０３に、第１の演奏者の演奏動画と第２の演奏者の演奏動画とを重ねた解説動画の静止フレーム画像が表示された表示例を示している。他の表示部４０１、４０２、４０４の表示は、図１１Ａと同じである。

　図１１Ｂにおいて、解説動画には、楽器１１０４Ａ、１１０５Ａが重なって映っており、これを演奏する第１および第２の演奏者の左右の手１１０４Ｂ、１１０５Ｂが互いにずれた状態で重なって映っている。さらに右手上には、第１および第２の演奏者の右手首の傾き角を示す解説情報１１０４Ｃ、１１０５Ｃが重畳表示されている。第２の演奏者は、このような解説動画表示部４０３の表示を見ることで、第１の演奏者との差異の程度を視覚的に認識することができる。解説動画表示部４０３に、図１１Ａのような表示を行わせるか図１１Ｂのような表示を行わせるかは、第２の演奏者が入力部２５を通じて選択することができる。

　本実施例によれば、第２の演奏者は、その演奏動作における第１の演奏者との差異、つまりは改善点を容易に認識または理解することができ、演奏技術を向上させることができる。

　なお、本実施例で説明した第１の演奏者は、１人の演奏者に限らず、複数の演奏者であってもよい。また、第２の演奏者も、１人の演奏者に限らず、複数の演奏者であってもよい。

　（変形例）
　上述した実施例１では第１の演奏者と第２の演奏者を別々の演奏者（別人物）である場合について説明したが、第１の演奏者と第２の演奏者は同じ演奏者（同一人物）であってもよい。すなわち、同じ演奏者が異なる時間にて演奏したときの第１の演奏動画と第２の演奏動画に対して実施例１で説明した各処理を行ってもよい。これにより、該演奏者は自身の演奏技術の変化を確認することができる。

　また、実施例１では演奏動画が、楽器を演奏している演奏者の身体部位を撮像することで得られた撮像動画である場合について説明した。しかし、演奏動画として、ＣＧ（Computer Graphics）等により仮想的に（つまりは撮像によらずに）に生成されて記録された動画データを用いてもよい。例えば、ＣＧ動画として、前述したモーションキャプチャ技術により得られる位置のデータを利用したものであってもよい。さらにＣＧ動画として、演奏者の身体部位の位置を三次元情報として取得した後に視点を変えて再構成されたものを用いてもよい。これらの場合、ＣＧ動画を別途用意して端末装置１１の動画撮像部２４を通じて情報処理装置１４の動画データ取得部３０１から読み込むようにしてもよいし、動画データ取得部３０１で直接取得するようにしてもよい。また、身体部位の位置の情報を仮想的に生成し、情報処理装置１４において動画データ取得部３０１を通じて位置抽出部３０２に読み込ませてもよい。このように動画データとして撮像により生成されたものに限らないことで、位置比較データを生成する際の比較対象の選択肢を広げることができる。

　また、実施例１では、位置比較データ生成部３０３で第１および第２の演奏動画を比較する際に、図１３の演奏位置／速度合わせ処理により音認識部３０５で認識される音と楽譜データ取得部３０４で取得された楽譜データを用いて、演奏区間を特定し、演奏位置や演奏速度を合わせる場合について説明した。しかし、必ずしも楽譜データを用いなくても演奏区間を特定したり演奏位置や演奏速度を合わせたりすることは可能である。具体的には、図１３のステップ１３０２において、楽譜データを取得するのではなく、第１の演奏動画と第２の演奏動画での演奏楽曲が互いに同じであるという情報を取得できればよい。この場合、例えばステップ１３０１で第１の演奏動画から抽出した演奏区間での演奏音と同じ又は類似の演奏音の演奏区間をステップ１３０２で第２の演奏動画から探索して特定し、演奏位置や演奏速度を第１の演奏動画と合わせるようにすればよい。

　次に、実施例２について説明する。実施例１では鍵盤楽器が演奏される場合について説明したが、演奏される楽器は弦楽器でもよい。弦楽器が演奏される場合でも、演奏者の身体部位の位置を認識するための特徴点としては図５（ａ）、（ｂ）で説明したものと同様であり、それら特徴点を用いて実施例１と同様の位置比較データ生成処理等を行うことができる。

　ただし、弦楽器が演奏される場合には、楽器を認識する処理が鍵盤楽器が演奏される場合とは異なる。図１８のフローチャートは、演奏動画に含まれる弦楽器の演奏操作領域を認識してその位置を変換する位置変換処理を示している。図１８の処理（ステップ１８０１～１８０５）は、鍵盤楽器に対応した図１４の処理（ステップ１４０１～１４０５）における鍵盤領域を、弦楽器の演奏操作領域に置き換えたものに相当する。弦楽器の演奏操作領域は、弦を指で押さえる指板、弓を弦に当てる駒に近い弦の領域および弦を擦る弓を含む領域等である。

　本実施例でも、楽器認識部３０６により、演奏動画内の弦楽器の表板全体、弦全体または指板全体等を認識して演奏操作領域の位置を特定できればよい。具体的には、弦楽器の演奏操作領域の形状パターンを保持しておき、パターンマッチングで演奏操作領域の位置を認識させたり、機械学習による画像認識を用いて演奏操作領域の位置を認識させたりすることができる。また、弦楽器の所定位置に目印となるマーカを設けておき、演奏動画内のマーカを認識することによってことによって演奏操作領域の位置を特定させてもよい。さらに、演奏者に開放弦で演奏する音以外の特定の基準音を演奏させ、そのときの手指の位置を記録することで、楽器の演奏操作領域を認識させてもよい。また、演奏者が画像上で手動より指定した演奏操作領域を認識させてもよい。

　このようにして第１および第２の演奏動画内での演奏操作領域を合わせて演奏者の身体部位の位置も変換することで、位置比較データ、解説文章、解説動画および解説楽譜画像を生成することができるようになる。

　図１９は、本実施例における表示画面４００′（表示部２６）での表示例を示している。ここでは、各演奏動画に右手で弓を持って弦楽器を演奏する演奏者が映っている場合の表示例を示している。位置比較データ表示部４０１ａには、位置比較データから生成された、第１の演奏者と第２の演奏者のそれぞれの右脇の開き角の時間変化を示すグラフ（比較画像）が表示されている。また、位置比較データ表示部４０１ｂには、「右脇の開き角」を示す図と文が表示されている。上記グラフの横軸は、演奏動画内での時間を示し、縦軸は右脇の開き角を示している。破線は第１の演奏者の右脇の開き角を、実線は第２の演奏者の右手首の傾き角を示している。また、一点鎖線は、第２の演奏者の右脇の開き角から第１の演奏者の右脇の開き角を引いた値（差）を示している。さらにグラフ中には、第１の演奏者と第２の演奏者の右脇の開き角の差が大きい等の注目箇所を示す枠１９０２Ｂや解説動画の表示を静止させた時点を示す縦線１９０２Ａも表示されている。

　文章表示部４０２には、位置比較データ表示部４０１ａに表示された注目箇所に対応する時間と、第２の演奏者の右脇の開き角が第１の演奏者の右脇の開き角に対してどれだけの差異があるかをより具体的に解説する解説文章が表示されている。

　解説動画表示部４０３には、第１の演奏者の演奏動画に解説情報が重畳された解説動画１９０４と第２の演奏者の演奏動画に解説情報が重畳された解説動画１９０５のうち注目箇所に対応するフレームの静止画像が表示されている。第１の演奏者の解説動画と第２の解説動画にはそれぞれ、弦楽器１９０４Ａ、１９０５Ａとこれを演奏する演奏者１９０４Ｂ、１９０５Ｂの全体が映っている。さらにそれぞれの演奏者の右脇上には、右脇の開き角を示す解説情報１９０４Ｃ、１９０５Ｃが重畳表示されている。

　解説楽譜表示部４０４には、演奏動画内で演奏された楽曲の楽譜に、注目箇所に対応する演奏区間を示す解説楽譜情報としての枠１９０３Ｂが重畳された解説楽譜画像が表示されている。楽譜上には演奏動画を静止させた時点を示す縦線１９０３Ａも表示されている。

　本実施例でも、第２の演奏者は、その演奏動作における第１の演奏者との差異、つまりは改善点を容易に認識または理解することができ、演奏技術を向上させることができる。

　なお、上記各実施例で説明した処理と同様の処理を、鍵盤楽器および弦楽器以外の楽器の演奏に適用してもよい。
（その他の実施例）
　本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

　以上説明した各実施例は代表的な例にすぎず、本発明の実施に際しては、各実施例に対して種々の変形や変更が可能である。

Claims

　同じ又は同種の楽器で同じ楽曲を演奏する第１の演奏者と第２の演奏者の身体部位がそれぞれ含まれる第１の動画データおよび第２の動画データを取得するステップと、
　前記第１の動画データから前記第１の演奏者の前記身体部位の位置を取得し、前記第２の動画データから前記第２の演奏者の前記身体部位の位置を取得するステップと、
　取得された前記位置を用いて、前記楽曲の同じ区間を演奏する前記第１および第２の演奏者の前記身体部位の比較を可能とする比較データを生成するステップとを有することを特徴とする処理方法。
　前記比較データは、前記第１および第２の演奏者のそれぞれの前記身体部位の位置、角度、速度、加速度またはこれらの差を示すデータであることを特徴とする請求項１に記載の処理方法。
　前記第１および第２の動画データは、撮像により生成された又は撮像によらずに生成された動画データであることを特徴とする請求項１または２に記載の処理方法。
　前記第１の演奏者と前記第２の演奏者が同じ演奏者である場合を含むことを特徴とする請求項１または２に記載の処理方法。
　前記比較データを生成する際に、前記第１および第２の動画データのうち少なくとも一方の動画データにおける音データを用いて、前記第１および第２の動画データのうち一方で指定された前記区間と同じ区間を他方の動画データにおいて特定するステップをさらに有することを特徴とする請求項１から４のいずれか一項に記載の処理方法。
　前記比較データを生成する際に、前記第１および第２の動画データのうち少なくとも一方における音データを用いて、前記第１および第２の動画データにおける前記区間での演奏位置と演奏速度を合わせる処理を行うステップをさらに有することを特徴とする請求項１から５のいずれか一項に記載の処理方法。
　前記比較データを生成する際に、前記第１および第２の動画データ内での前記楽器の演奏操作領域の位置と大きさを合わせる処理を行うステップをさらに有することを特徴とする請求項１から６のいずれか一項に記載の処理方法。
　前記比較データに基づいて、前記比較のための数値およびグラフのうち少なくとも一方を含む比較画像を生成するステップをさらに有することを特徴とする請求項１から７のいずれか一項に記載の処理方法。
　前記比較データに基づいて、前記比較のための文章を生成するステップをさらに有することを特徴とする請求項１から８のいずれか一項に記載の処理方法。
　前記第１および第２の動画データに、前記比較データに基づいて得られる前記比較のための情報が付加された解説画像を生成するステップをさらに有することを特徴とする請求項１から９のいずれか一項に記載の処理方法。
　前記楽曲の楽譜データに、前記比較データに基づいて得られる前記比較のための情報が付加された解説楽譜画像を生成するステップをさらに有することを特徴とする請求項１から１０のいずれか一項に記載の処理方法。
　前記比較データの生成に用いられる前記位置として、前記第１および第２の動画データのうち少なくとも一方の動画データに含まれていない前記身体部位の位置を、該少なくとも一方の動画データにおける音データを用いて取得するステップをさらに有することを特徴とする請求項１から１１のいずれか一項に記載の処理方法。
　前記身体部位は、手、指、手首、肘、肩および腰のうち少なくとも１つを含むことを特徴とする請求項１から１２のいずれか一項に記載の処理方法。
　前記身体部位の位置は、前記楽器の演奏操作領域に沿った面内での位置であることを特徴とする請求項１から１３のいずれか一項に記載の処理方法。
　前記身体部位の位置は、前記演奏操作領域に沿った面に直交する方向での位置を含むことを特徴とする請求項１４に記載の処理方法。
　前記楽器は、鍵盤楽器であることを特徴とする請求項１から１５のいずれか一項に記載の処理方法。
　前記比較データに基づいて生成された画像および文章のうち少なくとも１つを、前記比較を行うユーザが使用する端末装置に表示させるステップをさらに有することを特徴とする請求項１から１６のいずれか一項に記載の処理方法。
　コンピュータに、請求項１から１７のいずれか一項に記載の処理方法に従う処理を実行させることを特徴とするプログラム。
　同じ又は同種の楽器で同じ楽曲を演奏する第１の演奏者と第２の演奏者の身体部位がそれぞれ含まれる第１の動画データおよび第２の動画データを取得する動画データ取得手段と、
　前記第１の動画データから前記第１の演奏者の前記身体部位の位置を取得し、前記第２の動画データから前記第２の演奏者の前記身体部位の位置を取得する位置取得手段と、
　取得された前記位置を用いて、前記楽曲の同じ区間を演奏する前記第１および第２の演奏者の前記身体部位の比較を可能とする比較データを生成する生成手段と有することを特徴とする処理装置。
　請求項１９に記載の処理装置を利用して前記比較を行うユーザにより使用される端末装置であって、
　前記比較データに基づいて生成された画像および文章のうち少なくとも１つを表示する表示手段を有することを特徴とする端末装置。