JP7488704B2

JP7488704B2 - 触覚メタデータ生成装置、映像触覚連動システム、及びプログラム

Info

Publication number: JP7488704B2
Application number: JP2020105700A
Authority: JP
Inventors: 正樹高橋; 真希子東; 拓也半田; 雅規佐野
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-06-18
Filing date: 2020-06-18
Publication date: 2024-05-22
Anticipated expiration: 2040-06-18
Also published as: JP2021197110A

Description

本発明は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。

放送映像等の一般的なカメラ映像の映像コンテンツは、視覚と聴覚の２つの感覚に訴える情報を提供するメディアである。しかし、視覚障害者や聴覚障害者に対しては視聴覚情報だけでは不十分であり、番組コンテンツの状況を正確に伝えることができない。そのため、テレビを持っていない、若しくは持っていても視聴しない障害者も多い。そこで、映像コンテンツに対し、視覚・聴覚以外の“触覚”で感じられる情報を提示することで、視覚又は聴覚の障害者もテレビ放送を理解できるシステムの構築が望まれる。

また、視覚・聴覚の感覚を有する健常者にとっても、また、触覚刺激を提示することにより放送番組の視聴時の臨場感や没入感の向上が期待できる。特に、スポーツコンテンツにおける人物の動きは重要な情報であり、これを触覚刺激で提示することにより、コンテンツ視聴における臨場感が高まる。

例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第３の感覚として期待されている。

特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、プレーの種類、タイミング、状況などに関する選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。そして、視覚又は聴覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。

このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。

収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。

近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを３次元的に追跡し、ジャッジに絡むＩＮ／ＯＵＴの判定を行っている。また２０１４年のＦＩＦＡワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設定し、フィールド内の全選手をリアルタイムに追跡するＴＲＡＣＡＢシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。

一方で、動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている（例えば、特許文献１，２参照）。

例えば、特許文献１では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の３次元位置を計測する装置が開示されている。また、特許文献２には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。

また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている（例えば、特許文献３参照）。特許文献３の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設定したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。

ところで、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。

特開２００２－８０６３号公報特開２００２－２５３７１８号公報特開２０１８－１８７３８３号公報

上述したように、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。

しかし、従来技術では、リアルタイムで映像コンテンツの映像解析のみから、触覚メタデータを生成することが困難である。即ち、映像のみから触覚メタデータを生成する場合には、カメラ映像からリアルタイムで人物オブジェクトの動きを解析する必要がある。リアルタイムのスポーツ競技では、その競技に影響を与えることは好ましくないため、マーカー装着によるモーションキャプチャー方式や、撮影距離に制限のある深度センサなどを用いずに、撮影条件に制限の無い汎用的な放送カメラ映像のみから触覚メタデータを生成することが望ましい。

つまり、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成する技法が望まれる。

また、人物オブジェクトの動きを高精度に検出するために、人物以外の動オブジェクト（例えば、バドミントン競技であればシャトル、ラケット）を参考する技法も考えられるが、参考とする人物以外の動オブジェクトが存在しない競技（例えば、柔道やレスリング等）においても、人物オブジェクトの動きを高精度に検出する技法が望まれる。

尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト（選手等）の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。

本発明の目的は、上述の問題に鑑みて、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成する触覚メタデータ生成装置、生成した触覚メタデータを基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。

本発明の触覚メタデータ生成装置は、映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第１の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、当該各人物オブジェクトの骨格の位置及びサイズを示す領域の周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第２の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、前記現フレーム画像を基準に、当該複数フレーム分のフレーム画像における骨格軌跡集合を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量を算出するとともに、骨格検出の成否、人物骨格の重心の移動量、及び前記探索範囲を表す骨格外接矩形のアスペクト比の変化量を算出し、これらを要素とする特徴ベクトルを、動作状況を表す動作状況特徴量として生成する動作状況計測手段と、前記骨格軌跡集合の軌跡特徴量と、当該骨格軌跡集合の軌跡特徴量に対応する動作状況特徴量とを基に、機械学習により、触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、前記現フレーム画像に対応して、前記人物動作認識手段から得られる当該触覚提示デバイスを作動させる衝撃提示用の情報を含む第１の触覚メタデータを生成し、フレーム単位で外部出力する第１のメタデータ生成手段と、前記現フレーム画像に対応して、前記動作状況計測手段から得られる各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第２の触覚メタデータを生成し、フレーム単位で外部出力する第２のメタデータ生成手段と、を備えることを特徴とする。

また、本発明の触覚メタデータ生成装置において、前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする。

また、本発明の触覚メタデータ生成装置において、前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量と、その選定した骨格軌跡集合に対応する動作状況特徴量とを基に、機械学習により、人物オブジェクト毎の衝撃提示用のタイミング及び速さを示す情報を検出することを特徴とする。

また、本発明の映像触覚連動システムは、本発明の触覚メタデータ生成装置と、触覚刺激を提示する触覚提示デバイスと、前記触覚メタデータ生成装置から得られる第１及び第２の触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。

更に、本発明のプログラムは、コンピュータを、本発明の触覚メタデータ生成装置として機能させるためのプログラムとして構成する。

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができる。そして、人物オブジェクトに生じる「衝撃の種類とタイミング」を表す第１の触覚メタデータだけでなく、人物オブジェクトに係る連続的な「動作状況」を表す第２の触覚メタデータをも自動生成できるようになる。これにより、スポーツ映像のリアルタイム視聴時での触覚刺激の提示が可能となり、更には、人物オブジェクトの重なりやオクルージョンが生じやすい柔道等の試合映像での詳細な触覚提示も可能となる。つまり、視覚・聴覚への情報提供のみならず、触覚にも訴えることで、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。さらに、視覚・聴覚の感覚を有する健常者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。

特に、スポーツ映像視聴に際し、各選手の識別、位置座標、及びチーム競技であればその分類、並びに、触覚提示デバイスを作動させる種類（衝撃強度の種類）とタイミング（速さを含む）、並びに動作状況を示す情報を含む触覚メタデータを生成することで、触覚提示デバイスにより、動作の状況変化とともに、プレーの種類、タイミング、強度などに関する触覚刺激をユーザに提示できるようになる。これにより、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外でも、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能になる。

本発明による一実施形態の触覚メタデータ生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。本発明による一実施形態の触覚メタデータ生成装置の処理例を示すフローチャートである。本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する説明図である。（ａ）は１フレーム画像を例示する図であり、（ｂ）は本発明による一実施形態の触覚メタデータ生成装置における１フレーム画像における人物骨格抽出例を示す図である。（ａ），（ｂ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。本発明による一実施形態の触覚メタデータ生成装置における軌跡特徴量の説明図である。本発明による一実施形態の触覚メタデータ生成装置における動オブジェクト検出のために生成する差分画像例を示す図である。（ａ）乃至（ｃ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置における動作状況検出処理に関する人物動きの状況変化量の説明図である。本発明による一実施形態の映像触覚連動システムにおける制御ユニットの概略構成を示すブロック図である。

（システム構成）
以下、図面を参照して、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１について詳細に説明する。図１は、本発明による一実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１の概略構成を示すブロック図である。

図１に示す映像触覚連動システム１は、カメラや記録装置等の映像出力装置１０から映像を入力し、入力された映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータ（第１の触覚メタデータと第２の触覚メタデータの２種類）を同期して自動生成する触覚メタデータ生成装置１２と、生成した触覚メタデータを基に、本例では２台の触覚提示デバイス１４Ｌ，１４Ｒと、各触覚提示デバイス１４Ｌ，１４Ｒを個別に駆動制御する制御ユニット１３と、を備える。

まず、映像出力装置１０が出力する映像は、一例として柔道競技をリアルタイムで撮影されたものとしてディスプレイ１１に表示され、ユーザＵによって視覚されるものとする。

柔道競技は、二人の選手が組み合って、「抑え込み」や「投げ」などの技を競うスポーツであり、各人物に衝撃が生じた瞬間や各人物の動きの状況変化を触覚提示デバイス１４Ｌ，１４Ｒにより触覚刺激としてユーザＵに提示することで、より臨場感を高め、また視聴覚障害者にも試合状況を伝えることが可能である。

特に、柔道競技では、映像上で選手同士の重なりやオクルージョンが多数生じるため、各選手に生じる衝撃の種類に応じたタイミングと速さ以外にも、各選手の押し引きなどの組み合い、投げ等に係る動作状況を連続的に触覚提示できるようにすることで、視覚や聴覚の障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。

そこで、ユーザＵは、左手ＨＬで触覚提示デバイス１４Ｌを把持し、右手ＨＲで触覚提示デバイス１４Ｒを把持して、本例では映像解析に同期した振動刺激が提示されるものとする。制御ユニット１３は、触覚メタデータ生成装置１２から得られる各人物オブジェクトＯｐ１，Ｏｐ２に生じる衝撃の種類に応じたタイミングと速さを示す衝撃提示用の情報を含む第１の触覚メタデータと、各人物オブジェクトＯｐ１，Ｏｐ２に係る連続的な「動作状況」を表す動作状況提示用の情報を含む第２の触覚メタデータを基に、各人物オブジェクトＯｐ１，Ｏｐ２に対応付けられた２台の触覚提示デバイス１４Ｌ，１４Ｒの触覚提示を個別に制御する。ただし、制御ユニット１３は、１台の触覚提示デバイスに対してのみ駆動制御する形態でもよいし、３台以上の触覚提示デバイスに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット１３は、映像内の人物オブジェクトＯｐ１（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｌで、人物オブジェクトＯｐ２（選手）の動きに対応した振動刺激は触覚提示デバイス１４Ｒで提示するように分類して制御するものとする。

触覚提示デバイス１４Ｌ，１４Ｒは、球状のケース１４１内に、制御ユニット１３の制御によって振動刺激を提示可能な振動アクチュエーター１４２が収容されている。尚、触覚提示デバイス１４Ｌ，１４Ｒは、振動刺激の他、電磁気パルス刺激を提示するものでもよい。本例では、制御ユニット１３と各触覚提示デバイス１４Ｌ，１４Ｒとの間は有線接続され、触覚メタデータ生成装置１２と制御ユニット１３との間も有線接続されている形態を例に説明するが、それぞれ近距離無線通信で無線接続されている形態としてもよい。

触覚メタデータ生成装置１２は、複数フレーム抽出部１２１、人物骨格抽出部１２２、人物識別部１２３、軌跡特徴量生成部１２４、動オブジェクト検出部１２５、人物動作認識部１２６、第１のメタデータ生成部１２７、動作状況計測部１２８、及び第２のメタデータ生成部１２９を備える。

複数フレーム抽出部１２１は、入力された映像について、現フレーム画像を含むＴ（Ｔは２以上の整数）フレーム分の過去のフレーム画像を抽出し、人物骨格抽出部１２２及び動オブジェクト検出部１２５に出力する。

人物骨格抽出部１２２は、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト（以下、単に「人物」とも称する。）Ｏｐ１，Ｏｐ２の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成し、現フレーム画像を含むＴフレーム分のフレーム画像とともに、人物識別部１２３に出力する。

人物識別部１２３は、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に探索範囲（詳細は後述する。）を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成し、軌跡特徴量生成部１２４に出力する。

軌跡特徴量生成部１２４は、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格座標集合Ｐ^ｉ _ｂを時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成し、動オブジェクト検出部１２５、人物動作認識部１２６、及び動作状況計測部１２８に出力する。

動オブジェクト検出部１２５は、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部１２４から得られる全ての人物の骨格軌跡集合Ｔ^ｉ _ｂを用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成し、人物動作認識部１２６に出力する。

動作状況計測部１２８は、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格軌跡集合Ｔ^ｉ _ｂを基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量Ｋ（ｔ）を算出して第２のメタデータ生成部１２９に出力するとともに、骨格検出の成否Ｄ（ｔ）、人物骨格の重心の移動量（縦Ｇｖ（ｔ）、横Ｇｈ（ｔ））、及び当該探索範囲を表す骨格外接矩形のアスペクト比の変化量Ｓ（ｔ）を算出し、これらのＫ（ｔ），Ｄ（ｔ），Ｇｖ（ｔ），Ｇｈ（ｔ），Ｓ（ｔ）を要素とする特徴ベクトルを、動作状況を表す動作状況特徴量Ｍ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）として生成し、人物動作認識部１２６に出力する。

人物動作認識部１２６は、動オブジェクト情報を基に、全ての人物の骨格軌跡集合Ｔ^ｉ _ｂのうち、触覚提示デバイスを作動させるための骨格軌跡集合Ｔ^ｉ _ｂを選定し、選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量と、その選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量に対応する動作状況特徴量Ｍ^ｉ _ｂとを基に、機械学習（サポートベクターマシン、又はニューラルネットワーク等）により、現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を検出し、第１のメタデータ生成部１２７に出力する。

第１のメタデータ生成部１２７は、現フレーム画像に対応して、人物動作認識部１２６から得られる、現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む第１の触覚メタデータ（衝撃提示用）を生成し、フレーム単位で制御ユニット１３に出力する。

第２のメタデータ生成部１２９は、現フレーム画像に対応して、動作状況計測部１２８から得られる各人物オブジェクトの人物動きの状況変化量Ｋ（ｔ）を示す動作状況提示用の情報を含む第２の触覚メタデータ（動作状況提示用）を生成し、フレーム単位で制御ユニット１３に出力する。

以下、より具体的に、図２を基に、図３乃至図８を参照しながら、触覚メタデータ生成装置１２における触覚メタデータ生成処理について説明する。

（触覚メタデータ生成処理）
図２は、本発明による一実施形態の触覚メタデータ生成装置１２の処理例を示すフローチャートである。そして、図３は、触覚メタデータ生成装置１２における人物骨格抽出処理に関する説明図である。また、図４（ａ）は１フレーム画像を例示する図であり、図４（ｂ）は触覚メタデータ生成装置１２における１フレーム画像における人物骨格抽出例を示す図である。図５（ａ），（ｂ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置１２における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。図６は、触覚メタデータ生成装置１２における軌跡特徴量の説明図である。図７は、本発明による一実施形態の触覚メタデータ生成装置１２における動オブジェクト検出のために生成する差分画像例を示す図である。そして、図８（ａ）乃至（ｃ）は、それぞれ本発明による一実施形態の触覚メタデータ生成装置１２における動作状況検出処理に関する人物動きの状況変化量の説明図である。

図２に示すように、触覚メタデータ生成装置１２は、まず、複数フレーム抽出部１２１により、入力された映像について、現フレーム画像を含むＴ（Ｔは２以上の整数）フレーム分の過去のフレーム画像を抽出する（ステップＳ１）。

続いて、触覚メタデータ生成装置１２は、人物骨格抽出部１２２により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトＯｐ１，Ｏｐ２の骨格座標集合Ｐ^ｎ _ｂ（ｎ：検出人数、ｂ：骨格ＩＤ）を生成する（ステップＳ２）。

近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose（NextSystem社）に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部１２２は、VisionPoseを用いて、図３に示すように、フレーム画像毎に人物の骨格３０点を検出し、その位置座標を示す骨格座標集合Ｐ^ｎ _ｂを生成する。

VisionPoseでは、図３において、Ｐ^ｎ _１：“頭”、Ｐ^ｎ _２：“鼻”、Ｐ^ｎ _３：“左目”、Ｐ^ｎ _４：“右目”、Ｐ^ｎ _５：“左耳”、Ｐ^ｎ _６：“右耳”、Ｐ^ｎ _７：“首”、Ｐ^ｎ _８：“背骨（肩）”、Ｐ^ｎ _９：“左肩”、Ｐ^ｎ _１０：“右肩”、Ｐ^ｎ _１１：“左肘”、Ｐ^ｎ _１２：“右肘”、Ｐ^ｎ _１３：“左手首”、Ｐ^ｎ _１４：“右手首”、Ｐ^ｎ _１５：“左手”、Ｐ^ｎ _１６：“右手”、Ｐ^ｎ _１７：“左親指”、Ｐ^ｎ _１８：“右親指”、Ｐ^ｎ _１９：“左指先”、Ｐ^ｎ _２０：“右指先”、Ｐ^ｎ _２１：“背骨（中央）”、Ｐ^ｎ _２２：“背骨（基端部）”、Ｐ^ｎ _２３：“左尻部”、Ｐ^ｎ _２４：“右尻部”、Ｐ^ｎ _２５：“左膝”、Ｐ^ｎ _２６：“右膝”、Ｐ^ｎ _２７：“左足首”、Ｐ^ｎ _２８：“右足首”、Ｐ^ｎ _２９：“左足”、及び、Ｐ^ｎ _３０：“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。

このVisionPoseの骨格検出アルゴリズムに基づき、図４（ａ）に示す柔道競技の１フレーム画像Ｆに対して、人物の骨格抽出を行ったフレーム画像Ｆａを図４（ｂ）に示している。図４（ａ）に示すフレーム画像Ｆには、各人物オブジェクトＯｐ１，Ｏｐ２（選手）のみが映り込んでいる様子を示しているが、その他の人物オブジェクトである審判の動オブジェクトが映り込むことや、別のスポーツ競技であれば人物以外の動オブジェクト（バドミントン競技であればラケットやシャトル等）、或いは観客等のオブジェクト（実質的には、静オブジェクト）が写り込むことがある。しかし、VisionPoseの骨格検出アルゴリズムを適用すると、選手及び審判の人物オブジェクトの人物についてのみ人物の骨格抽出を抽出することができる。本例では、図４（ｂ）に示すように、人物オブジェクトＯｐ１，Ｏｐ２にそれぞれ対応する骨格座標集合Ｐ^１ _ｂ，Ｐ^２ _ｂを推定して生成することができる。図４（ｂ）からも理解されるように、柔道競技においても、比較的精度よく各人物の骨格を推定できる。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚メタデータ生成装置１２は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を軌跡特徴量として定量化し、時間軸を考慮した高精度な動作認識を行う。

続いて、触覚メタデータ生成装置１２は、人物識別部１２３により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂを基に探索範囲を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する（ステップＳ３）。

前述した人物骨格抽出部１２２により、現フレーム画像を含むＴフレーム分のフレーム画像の各々について、骨格座標集合Ｐ^ｎ _ｂとして、１以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合Ｐ^ｎ _ｂでは、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合Ｐ^ｎ _ｂの座標付近の画像情報を利用する。即ち、人物識別部１２３は、骨格座標集合Ｐ^ｎ _ｂを基に、各人物の骨格の位置及びサイズと、その周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を抽出することにより、人物を識別し、人物ＩＤを付与した骨格座標集合Ｐ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する。

例えば、柔道では白と青の道着で試合が行われるが、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置付近の画像情報として、フレーム画像Ｆにおける色情報を参照することで、選手の識別が可能になる。また、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合Ｐ^ｎ _ｂの骨格の位置がフレーム画像Ｆにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。

従って、人物骨格抽出部１２２における骨格検出アルゴリズムは静止画単位での推定に留まるが、骨格座標集合Ｐ^ｎ _ｂを基に動オブジェクトとしての人物を認識することができ、各骨格位置の推移を軌跡特徴として扱うことで、時間軸を考慮した高精度な動作認識を可能となる。

尚、前述した人物骨格抽出部１２２では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報（色情報、及び顔又は背付近のテクスチャ情報）を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。

ところで、本実施形態の人物識別部１２３は、各人物の重なりやオクルージョンにも対応するため、フレーム画像単位で探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）を可変設定する。例えば、図５（ａ）に示す人物オブジェクトＯｐ１，Ｏｐ２（選手）と、人物オブジェクトＯｐ３（審判）について、人物骨格抽出部１２２により各骨格座標集合Ｐ^ｎ _ｂ（図示略）の抽出が行われると、人物識別部１２３は、フレーム画像単位で人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉを可変設定することができる。この探索範囲Ｒ^ｉは、図５（ａ）において、人物ＩＤ（ｉ）ごとに設定し、フレーム画像の画像座標上での人物の位置座標、及び人物の大きさ（幅及び高さ）を有するものとして外接矩形で表している。また、各人物の腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）を囲む領域を注目探索範囲Ｒｂ^ｉとして表している。

より具体的には、本実施形態の人物識別部１２３は、各フレーム画像で人物の探索範囲を、最大で人物骨格の全体を囲む人物探索範囲Ｒ^ｉに限定し、最小で人物骨格のうち所定領域（本例では腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）を囲む領域）を注目探索範囲Ｒｂ^ｉとして定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Ｒｂ^ｉを含むように探索範囲を決定して、当該人物オブジェクトを識別する処理を行う。これにより、例えば図５（ｂ）に示すように各人物の動作が変化した場合やフレーム画像に対する相対的な人物の大きさが変化した場合でも、他の人物の誤認識を防ぎ、また処理速度も向上できる。特に、柔道のように識別対象の人物の重なりが激しく、背景も複雑な映像から精度よく選手を識別するには探索範囲の利用が有効である。

つまり、本実施形態の人物識別部１２３は、各選手及び審判の人物オブジェクトのＯｐ１，Ｏｐ２，Ｏｐ３における各骨格座標集合Ｐ^ｎ _ｂのうち、色識別を可能とする所定範囲（本例では腰領域（Ｐ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４）の色（青、白、茶色））を注目探索範囲Ｒｂ^ｉとして予め定めているので、検出した複数の人物の骨格座標集合Ｐ^ｎ _ｂが重なる場合には注目探索範囲Ｒｂ^ｉに絞って探索することで、各フレーム画像で精度よく人物を抽出・追跡できる。尚、背景に解析対象以外の骨格を検出する場合もあるため、解析対象の人物の骨格には、人物ＩＤ（ｉ）を付与して判別することで、追跡対象の人物の骨格座標Ｐ^ｉ _ｂを識別できる。

そして、探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）の広さや形の決定は、カルマンフィルタやパーティクルフィルタなどの状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Ｒｂ^ｉ（本例では、各人物の腰領域）を含むように決定する。

そして、探索範囲（人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉ）の安定検出時には範囲を狭め、検出が不安定な際には範囲を広げることができ、例えば、人物ＩＤ（ｉ）ごとに人物の骨格の状態遷移推定値に基づいて定めた探索範囲を設定し、その状態遷移推定値が直前フレームから所定値以内であれば安定とし、そうでなければ不安定とすることや、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、Ｔフレーム分の時間窓間に、検出に成功した割合を計算し、その割合が所定値以上であれば安定とし、当該所定値を下回った場合に不安定とすることで、探索範囲を可変設定することができる。

続いて、触覚メタデータ生成装置１２は、軌跡特徴量生成部１２４により、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格座標集合Ｐ^ｉ _ｂを時系列に連結し、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）を生成する（ステップＳ４）。

ここで、骨格軌跡集合Ｔ^ｉ _ｂの生成にあたって、まず、任意のフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（ｔ）とし、現フレーム画像をｔ＝０として現フレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（０）で表し、過去Ｔフレームのフレーム画像における骨格座標集合Ｐ^ｉ _ｂをＰ^ｉ _ｂ（Ｔ）で表す。つまり、軌跡特徴量生成部１２４は、現フレーム画像のフレーム番号をｔ＝０として、過去Ｔフレームまでのフレーム番号をｔ＝Ｔで表すと、現フレーム画像を基準に、ｔ＝０，１，…，Ｔの各フレーム画像Ｆを用いて、人物毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合Ｔ^ｉ _ｂを生成することができる。尚、骨格軌跡集合Ｔ^ｉ _ｂは、人物探索範囲Ｒ^ｉ及び注目探索範囲Ｒｂ^ｉのそれぞれについて分けて軌跡を算出できる。

尚、骨格軌跡集合Ｔ^ｉ _ｂの生成に用いる骨格座標は、必ずしも図３に示す３０点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。また、骨格軌跡集合Ｔ^ｉ _ｂとしては、骨格座標集合Ｐ^ｉ _ｂの座標表現そのものを連結したものとしてもよいが、人物毎の骨格の軌跡を示すものであればよいことから、各競技のルールや撮影状況を考慮し、軌跡特徴を表わすのに適切な情報（動き量や移動加速度等）に変換したものとしてもよい。

例えば、骨格軌跡集合Ｔ^ｉ _ｂは、各骨格の移動量の二階微分を作成し、加速度に相当する値に変換するのが好適である。そこで、骨格座標集合Ｐ^ｉ _ｂの軌跡として、加速度に相当する骨格軌跡集合Ｔ^ｉ _ｂで表すことで、後段の人物動作認識部１２６における動作認識の精度を向上させることができる。

まず、式（１）に示すように、隣接する画像フレーム間で、対応する骨格座標集合Ｐ^ｉ _ｂ（ｔ），Ｐ^ｉ _ｂ（ｔ＋１）の位置座標の差（ユークリッド距離）を取り、その移動量Ｄ^ｉ _ｂ（ｔ）を求める。

ここで、Ｐ^ｉ _ｂ（ｔ），ｘはＰ^ｉ _ｂ（ｔ）におけるｘ座標、Ｐ^ｉ _ｂ（ｔ），ｙはＰ^ｉ _ｂ（ｔ）におけるｙ座標を表す。

Ｄ^ｉ _ｂ（ｔ）は、各座標点の速度に相当する特徴量となるが、式（２）に示すように、更にその差の絶対値をとることで、加速度に相当する特徴量Ａ^ｉ _ｂ（ｔ）が得られる。ここで、abs()は、絶対値を返す関数である。

この加速度に相当する特徴量Ａ^ｉ _ｂ（ｔ）を用いて各人物の動作を追跡した軌跡を示す骨格軌跡集合Ｔ^ｉ _ｂを生成することができ、図６には、或るフレーム画像における人物オブジェクトＯｐ１，Ｏｐ２にそれぞれ対応する骨格座標集合の軌跡特徴量Ｔ^１ _ｂ，Ｔ^２ _ｂを分かり易く描画したフレーム画像Ｆｂを示している。

続いて、触覚メタデータ生成装置１２は、動作状況計測部１２８により、現フレーム画像を基準に、Ｔフレーム分のフレーム画像における骨格軌跡集合Ｔ^ｉ _ｂを基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量Ｋ（ｔ）を算出して第２のメタデータ生成部１２９に出力するとともに、骨格検出の成否Ｄ（ｔ）、人物骨格の重心の移動量（縦Ｇｖ（ｔ）、横Ｇｈ（ｔ））、及び当該探索範囲を表す骨格外接矩形のアスペクト比の変化量Ｓ（ｔ）を算出し、これらのＫ（ｔ），Ｄ（ｔ），Ｇｖ（ｔ），Ｇｈ（ｔ），Ｓ（ｔ）を要素とする特徴ベクトルを、動作状況を表す動作状況特徴量Ｍ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）として生成し、人物動作認識部１２６に出力する（ステップＳ５）。

例えば柔道では、組手の状態から相手の隙を伺い、急激に投げの動作に入ることが多い。この閑から急に至る状況を触覚刺激として提示することで、映像コンテンツ視聴における臨場感を高めることができる。Ｔフレーム分のフレーム画像における骨格軌跡集合Ｔ^ｉ _ｂを基準とした各人物オブジェクト（選手）間の距離、及び人物オブジェクト（選手）毎の各関節のオプティカルフロー量から各各人物オブジェクト（選手）の人物動きの状況変化量Ｋ（ｔ）を算出できる。

より具体的には、人物動きの状況変化量Ｋ（ｔ）を以下に示す式（３）のように定義する。この人物動きの状況変化量Ｋ（ｔ）は、第２のメタデータ生成部１２９により、第２の第２の触覚メタデータ（動作状況提示用）として外部出力される。

ここで、ｄ（ｔ）は各人物オブジェクト（選手）間の距離を表し、Ｆ（ｔ）は、現フレーム画像の時刻ｔと直前フレームの時刻ｔ－１における人物オブジェクトごとの骨格３０点のオプティカルフローの平均値を表す。ｄ（ｔ）を算出する際のｇは、重心（本例では、腰の位置であるＰ^ｎ _２２，Ｐ^ｎ _２３，Ｐ^ｎ _２４の中央値座標）を表している。従って、Ｐ^１ _ｇ（ｔ）は、現フレーム画像の時刻ｔにおけるｉ＝１の人物ＩＤの人物オブジェクトＯｐ１の重心位置を表し、Ｐ^２ _ｇ（ｔ）は、そのフレーム画像の時刻ｔにおけるｉ＝２の人物ＩＤの人物オブジェクトＯｐ２の重心位置を表す。また、Ｌは双方の人物オブジェクトＯｐ１，Ｏｐ２の骨格３０点のうち両選手の首から腰までの距離の平均値であり、Ｌで正規化することにより各選手の撮影サイズによる影響を排除できる。

一方、動作状況を表す動作状況特徴量Ｍ^ｉ _ｂ（ｉ：人物ＩＤ、ｂ：骨格ＩＤ）は、それぞれ式（４）、式（５）、式（６）、式（７）に示すように、骨格検出の成否Ｄ（ｔ）、人物骨格の重心の移動量（縦Ｇｖ（ｔ）、横Ｇｈ（ｔ））、及び骨格外接矩形（人物探索範囲）のアスペクト比の変化量Ｓ（ｔ）を算出し、人物動きの状況変化量Ｋ（ｔ）に加えて、Ｄ（ｔ），Ｇｖ（ｔ），Ｇｈ（ｔ），Ｓ（ｔ）を要素として生成する。

ここで、Ｒ^ｉ（ｔ）は、時刻ｔのフレーム画像Ｆ（ｔ）における人物オブジェクトＯｐ１の当該探索範囲を表す骨格外接矩形を表し、その左上座標（ｘ，ｙ）と、幅（width）及び高さ（height）の情報を有し、“aaa.bbb”は、aaaのbbb成分を表す。

柔道の「投げ」動作時は、急に重心が下がり、画像上で横長のアスペクト比になることが多い。また不自然な体勢になることも多く、しばしば骨格検出に失敗する。さらに、関節の移動量が全体的に増加する。そこで、人物動きの状況変化量Ｋ（ｔ）に加えて、Ｄ（ｔ），Ｇｖ（ｔ），Ｇｈ（ｔ），Ｓ（ｔ）の要素からなる動作状況を表す動作状況特徴量Ｍ^ｉ _ｂを、後段の人物動作認識部１２６における機械学習の識別器に用いることで、例えば「投げ」動作を精度よく検出できる。

続いて、触覚メタデータ生成装置１２は、動オブジェクト検出部１２５により、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち軌跡特徴量生成部１２４から得られる全ての人物の骨格軌跡集合Ｔ^ｉ _ｂを用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する（ステップＳ６）。図７に示す差分画像Ｆｃに示されているように、人物オブジェクトＯｐ１’，Ｏｐ２’が検出できていることが分かる。

後段の人物動作認識部１２６では、骨格軌跡集合Ｔ^ｉ _ｂを用いて人物の動作認識を行うことが可能であるが、人物（選手）の動作は多種多様であり、誤検出や検出漏れが発生するケースも少なくない。そこで、動オブジェクト検出部１２５は、現フレーム画像を含むＴフレーム分のフレーム画像の各々を用いて、解析対象とする人物の動オブジェクトの位置や動きに関する情報を抽出する（尚、バドミントン競技などの人物以外のラケットやシャトル等の動オブジェクトも参考とすることができるときは、その動オブジェクトも利用できる。）。この情報を利用することで、後段の人物動作認識部１２６は、動作認識の精度をより向上させることができる。

続いて、触覚メタデータ生成装置１２は、人物動作認識部１２６により、動オブジェクト情報を基に、全ての人物の骨格軌跡集合Ｔ^ｉ _ｂのうち、触覚提示デバイスを作動させるための骨格軌跡集合Ｔ^ｉ _ｂを選定し、選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量と、その選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量に対応する動作状況特徴量Ｍ^ｉ _ｂとを基に、機械学習（サポートベクターマシン、又はニューラルネットワーク等）により触覚提示デバイス１４Ｒ，１４Ｌを作動させる衝撃提示用の情報を検出する（ステップＳ７）。衝撃提示用の情報には、現フレーム画像内の各人物の識別、位置座標（及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報が含まれる。

機械学習（サポートベクターマシン、又はニューラルネットワーク等）時には、事前に学習用の軌跡特徴量を作成して学習させておく。例えば、サポートベクターマシンを利用するときは、衝撃を表す瞬間の軌跡特徴量を正例、それ以外の軌跡特徴量を負例として学習することで、人物動作認識部１２６は、触覚提示デバイス１４Ｒ，１４Ｌを作動させるタイミング及び速さを示す情報を動作認識として検出することが可能となる。更に、人物動作認識部１２６は、選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量から、動作認識の精度を高めるとともに、どの選手がどのような衝撃を受けているか等、現フレーム画像内の各人物の識別、位置座標、（及びチーム分類）の情報も検出することも可能である。

更に、動作状況特徴量Ｍ^ｉ _ｂを機械学習の識別器に加えることで、柔道などでの投げ動作などの動きに応じて生じる衝撃を認識することが可能となる。従って、人物動作認識部１２６は、その動作認識において、人物以外の動オブジェクトの情報を参照する技法もあるが、本例では人物以外の動オブジェクトを参照できない場合でも、高精度に柔道競技等の人物を認識するため、動作状況特徴量Ｍ^ｉ _ｂを用いるようにしている。この動作状況特徴量Ｍ^ｉ _ｂを加味することで、人物の動きの検出精度や動きの種類の判別を向上させている。

ただし、これらの選定した骨格軌跡集合Ｔ^ｉ _ｂの軌跡特徴量及び動作状況特徴量Ｍ^ｉ _ｂの各特徴量の変化は、その全特徴量が同時刻に変化するように発生するとは限らない。そこで、Ｔ＝１５フレームなど一定時間の時間窓を設けた特徴量とする。一定時間内の各特徴量を用いてＳＶＭなどで機械学習を行うことで、各特徴量の変化に時間的なズレが生じても頑健な識別器を構成することができる。

最終的に、触覚メタデータ生成装置１２は、第１のメタデータ生成部１２７により、現フレーム画像に対応して、各人物の識別、位置座標、（及びチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の情報を含む第１の触覚メタデータ（衝撃提示用）を生成し、フレーム単位で制御ユニット１３に出力する（ステップＳ８）。

また、触覚メタデータ生成装置１２は、第２のメタデータ生成部１２９により、現フレーム画像に対応して、各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第２の触覚メタデータ（動作状況提示用）を生成し、フレーム単位で制御ユニット１３に出力する（ステップＳ９）。

そして、触覚メタデータ生成装置１２は、映像出力装置１０から映像のフレーム画像が入力される度に、ステップＳ１乃至Ｓ９の処理を繰り返す。

人物動きの状況変化量Ｋ（ｔ）による第２の触覚メタデータに応じて制御ユニット１３が触覚提示デバイス１４Ｌ，１４Ｒを制御することで、各選手が組み合った際の近接時、且つ投げようと体が大きく動いた際に対応する触覚提示デバイスを大きく振動させることができる。制御ユニット１３は、第１の触覚メタデータについては衝撃を表す単発的な刺激を与えるに留まるが、動作状況を示す第２の触覚メタデータを併せて取得し、対応する触覚提示デバイスを制御することで、映像コンテンツの状況を連続値で恒常的に提示することができ、ユーザＵは、常に各人物オブジェクトＯｐ１，Ｏｐ２の動作状況を把握することができるようになる。

人物動きの状況変化量Ｋ（ｔ）を可視化した例を図８に示している。図８（ａ）の左図は、人物オブジェクトＯｐ１，Ｏｐ２（選手）と人物オブジェクトＯｐ３（審判）の動作状況“組み合い”の様子が見て取れる現フレームのフレーム画像Ｆであり、図８（ａ）の右図は、過去のフレーム画像の時刻ｔｐから現フレーム画像の時刻ｔｃまで（１５フレームの経過期間）の最大値１００で正規化した人物動きの状況変化量Ｋ（ｔ）の大きさを表している。図８（ａ）の右図から理解されるように、“組み合い”の動作状況時（投げの動作状況時も同様）には人物動きの状況変化量Ｋ（ｔ）が時間経過とともに大きくなり、各人物の動作量が増えていることが判別できる。

また、図８（ｂ）の左図は、人物オブジェクトＯｐ１，Ｏｐ２（選手）と人物オブジェクトＯｐ３（審判）の動作状況“抑え込み”の様子が見て取れる現フレームのフレーム画像Ｆであり、図８（ｂ）の右図は、過去のフレーム画像の時刻ｔｐから現フレーム画像の時刻ｔｃまで（１５フレームの経過期間）の最大値１００で正規化した人物動きの状況変化量Ｋ（ｔ）の大きさを表している。図８（ｂ）の右図から理解されるように、“抑え込み”の動作状況時には人物動きの状況変化量Ｋ（ｔ）が時間経過とともに小さくなり、各人物の動作量が減少していることが判別できる。

また、図８（ｃ）の左図は、人物オブジェクトＯｐ１，Ｏｐ２（選手）と人物オブジェクトＯｐ３（審判）の動作状況“待て”の様子が見て取れる現フレームのフレーム画像Ｆであり、図８（ｃ）の右図は、過去のフレーム画像の時刻ｔｐから現フレーム画像の時刻ｔｃまで（１５フレームの経過期間）の最大値１００で正規化した人物動きの状況変化量Ｋ（ｔ）の大きさを表している。図８（ｃ）の右図から理解されるように、“待て”の動作状況時（試合開始前、両選手の距離が離れている際も同様）には人物動きの状況変化量Ｋ（ｔ）が時間経過を経ても小さく、各人物の動作量がほとんどないことが判別できる。

また、人物動きの状況変化量Ｋ（ｔ）は動作状況特徴量Ｍ^ｉ _ｂに含まれる要素であり、この動作状況特徴量Ｍ^ｉ _ｂを用いることで、式（４）に示すようなif-thenルールを用いても各人物の動作認識を高精度に行うことができるようになる。即ち、図８（ｃ）に示すように、選手２人と審判を独立に認識し、各人の関節の推移を軌跡特徴量から判別することで、審判が手を挙げて「待て」の動作を自動認識することが可能となる。触覚メタデータ生成装置１２が、「待て」の動作に応じた第１及び第２の触覚メタデータを触覚提示デバイス１４Ｌ，１４Ｒに出力することで、触覚提示デバイス１４Ｌ，１４Ｒを利用するユーザＵは、連続した一定量の刺激提示からほぼゼロの刺激提示に強制的に示すことが可能となり、「待て」の前後の動作で、試合開始前であるかのような試合状況を誤解させるおそれも少なくなる。従って、本実施形態の触覚メタデータ生成装置１２は、スポーツ映像のリアルタイム視聴時でも触覚刺激を人物の動きに応じて提示することが可能となる。

（制御ユニット）
図９は、本発明による一実施形態の映像触覚連動システム１における制御ユニット１３の概略構成を示すブロック図である。制御ユニット１３は、メタデータ受信部１３１、解析部１３２、記憶部１３３、及び駆動部１３４‐１，１３４‐２を備える。

メタデータ受信部１３１は、触覚メタデータ生成装置１２から第１の触覚メタデータ（衝撃提示用）及び第２の触覚メタデータ（動作状況提示用）を入力し、解析部１３２に出力する機能部である。第１の触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、（及びチーム競技であればそのチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む。第２の触覚メタデータは、図８に例示した動作状況の情報を含む。

解析部１３２は、触覚メタデータ生成装置１２から得られる第１及び第２の触覚メタデータを基に、予め定めた駆動基準データを参照し、駆動部１３４‐１，１３４‐２を介して、対応する各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するよう制御する機能部である。例えば、解析部１３２は、一方の選手が組合から投げ動作に移行するときは、第２の触覚メタデータにおける動作状況に応じた振動提示に加えて、第１の触覚メタデータにおける人物の識別、位置座標、（及びチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さから、予め定めた駆動基準データを参照して、触覚提示デバイス１４Ｌの振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間を決定して駆動制御する。

記憶部１３３は、第１及び第２の触覚メタデータに基づいた駆動部１３４‐１，１３４‐２の駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、第１及び第２の触覚メタデータに対応付けられた触覚刺激としての振動アクチュエーター１４２の作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部１３３は、制御ユニット１３の機能を実現するためのプログラムを記憶している。即ち、制御ユニット１３を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット１３の機能を実現する。

駆動部１３４‐１，１３４‐２は、各触覚提示デバイス１４Ｌ，１４Ｒの振動アクチュエーター１４２を駆動するドライバである。

このように、本実施形態の触覚メタデータ生成装置１２を備える映像触覚連動システム１によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させることができるようになる。そして、人物オブジェクトに生じる「衝撃の種類とタイミング」を表す第１の触覚メタデータだけでなく、人物オブジェクトに係る連続的な「動作状況」を表す第２の触覚メタデータをも自動生成できるようになる。これにより、スポーツ映像のリアルタイム視聴時での触覚刺激の提示が可能となり、更には、人物オブジェクトの重なりやオクルージョンが生じやすい柔道等の試合映像での詳細な触覚提示も可能となる。つまり、視覚・聴覚への情報提供のみならず、触覚にも訴えることで、より詳細に、視覚や聴覚に障害を持つ方々へもスポーツの状況を分かりやすく伝えることが可能となる。さらに、視覚・聴覚の感覚を有する健常者の方々にとっても、従来の映像視聴では伝えきれない臨場感や没入感を提供することができる。特に、スポーツ映像視聴に際し、各選手の識別、位置座標、（及びチーム分類）、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す情報を含む触覚メタデータを生成することで、より精度よく、より詳細に、１台以上の触覚提示デバイスにより、プレーの種類、タイミング、強度などに関する触覚刺激をユーザＵに提示できるようになる。

尚、上述した一実施形態の触覚メタデータ生成装置１２をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置（ＣＰＵ）などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態の触覚メタデータ生成装置１２の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主としてバドミントン競技の映像解析を例に説明したが、柔道や卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いたパブリックビューイング、エンターテインメント、将来の触覚放送などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。

本発明によれば、映像から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイスと映像を連動させる用途に有用である。

１映像触覚連動システム
１０映像出力装置
１１ディスプレイ
１２触覚メタデータ生成装置
１３制御ユニット
１４Ｌ，１４Ｒ触覚提示デバイス
１２１複数フレーム抽出部
１２２人物骨格抽出部
１２３人物識別部
１２４軌跡特徴量生成部
１２５動オブジェクト検出部
１２６人物動作認識部
１２７第１のメタデータ生成部
１２８動作状況計測部
１２９第２のメタデータ生成部
１３１メタデータ受信部
１３２解析部
１３３記憶部
１３４‐１，１３４‐２駆動部
１４１ケース
１４２振動アクチュエーター

Claims

映像から人物オブジェクトを抽出し、動的な人物オブジェクトに対応する触覚メタデータを生成する触覚メタデータ生成装置であって、
入力された映像について、現フレーム画像を含む複数フレーム分の過去のフレーム画像を抽出する複数フレーム抽出手段と、
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第１の骨格座標集合を生成する人物骨格抽出手段と、
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々について、前記第１の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、当該各人物オブジェクトの骨格の位置及びサイズを示す領域の周辺画像情報を抽出することにより人物オブジェクトを識別し、人物ＩＤを付与した第２の骨格座標集合を生成する人物識別手段と、
前記現フレーム画像を基準に、前記複数フレーム分のフレーム画像における前記第２の骨格座標集合を時系列に連結し、人物オブジェクト毎の骨格の軌跡を示す軌跡特徴量の集合として骨格軌跡集合を生成する軌跡特徴量生成手段と、
前記現フレーム画像を基準に、当該複数フレーム分のフレーム画像における骨格軌跡集合を基準とした各人物オブジェクト間の距離、及び人物オブジェクト毎の各関節のオプティカルフロー量から各人物オブジェクトの人物動きの状況変化量を算出するとともに、骨格検出の成否、人物骨格の重心の移動量、及び前記探索範囲を表す骨格外接矩形のアスペクト比の変化量を算出し、これらを要素とする特徴ベクトルを、動作状況を表す動作状況特徴量として生成する動作状況計測手段と、
前記骨格軌跡集合の軌跡特徴量と、当該骨格軌跡集合の軌跡特徴量に対応する動作状況特徴量とを基に、機械学習により、触覚提示デバイスを作動させる衝撃提示用の情報を検出する人物動作認識手段と、
前記現フレーム画像に対応して、前記人物動作認識手段から得られる当該触覚提示デバイスを作動させる衝撃提示用の情報を含む第１の触覚メタデータを生成し、フレーム単位で外部出力する第１のメタデータ生成手段と、
前記現フレーム画像に対応して、前記動作状況計測手段から得られる各人物オブジェクトの人物動きの状況変化量を示す動作状況提示用の情報を含む第２の触覚メタデータを生成し、フレーム単位で外部出力する第２のメタデータ生成手段と、
を備えることを特徴とする触覚メタデータ生成装置。
前記人物識別手段は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする、請求項１に記載の触覚メタデータ生成装置。
前記現フレーム画像を含む複数フレーム分のフレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち全ての人物オブジェクトの前記骨格軌跡集合を用いて特定の動オブジェクトを選定し、各差分画像から得られる特定の動オブジェクトの座標位置、大きさ、移動方向を要素とし連結した動オブジェクト情報を生成する動オブジェクト検出手段を更に備え、
前記人物動作認識手段は、前記動オブジェクト情報を基に、全ての人物オブジェクトの前記骨格軌跡集合のうち前記触覚提示デバイスを作動させるための骨格軌跡集合を選定し、選定した骨格軌跡集合の軌跡特徴量と、その選定した骨格軌跡集合に対応する動作状況特徴量とを基に、機械学習により、人物オブジェクト毎の衝撃提示用のタイミング及び速さを示す情報を検出することを特徴とする、請求項１又は２に記載の触覚メタデータ生成装置。
請求項１から３のいずれか一項に記載の触覚メタデータ生成装置と、
触覚刺激を提示する触覚提示デバイスと、
前記触覚メタデータ生成装置から得られる第１及び第２の触覚メタデータを基に、予め定めた駆動基準データを参照し、前記触覚提示デバイスを駆動するよう制御する制御ユニットと、
を備えることを特徴とする映像触覚連動システム。
コンピュータを、請求項１から３のいずれか一項に記載の触覚メタデータ生成装置として機能させるためのプログラム。