JP6045549B2

JP6045549B2 - 感情および行動を認識するための方法およびシステム

Info

Publication number: JP6045549B2
Application number: JP2014230124A
Authority: JP
Inventors: カオチェン; ツァンヨンミャン; グハイソン
Original assignee: コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド
Priority date: 2013-12-31
Filing date: 2014-11-12
Publication date: 2016-12-14
Anticipated expiration: 2034-11-12
Also published as: US9489570B2; EP2889805A3; JP2015130151A; EP2889805A2; US20150186713A1

Description

発明の分野
本開示は、感情および行動を認識するための方法およびシステムであって、感情の検出を含み、人間の感情および行動をリアルタイムでモニターすることに適用することができるもの、に関する。

背景
顔の表情および人間の動作が、感情および行動の検出のために利用されることができる。動作の認識はまた、人間の動作の自動的な認識および／またはビデオ監視、人間とコンピュータの相互作用、および感情検出のような様々な実用的応用のための感情の検出のために利用されることができる。３Ｄセンサーおよび姿勢の推定といった新たな技術により、伝統的なカラービデオベースの方法に代替可能な、深さおよび骨格の情報に基づく動作認識アプローチを行うことができる。

概要
上述の点を考慮すると、計算時間を削減するとともに身体接合情報に依存可能な、身振り検出の方法およびシステムを利用して、感情および行動を検出する方法およびシステムを有することが望ましい。

実施形態の例として、行動を認識する方法が開示される。当該方法は、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および／または感情として単一の列ベクトルを分類する段階と、を有する。

実施形態の例として、行動を認識するシステムが開示される。当該システムは、一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して単一の列ベクトルを生成し、および行動および／または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有する。

実施形態の例として、行動の認識のためのコンピュータ読み取り可能なコードを有するプログラムが開示される。当該コードは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、行動および／または感情として単一の列ベクトルを分類する手順と、を有する。

図面の簡単な説明
添付の図面は発明のさらなる理解を提供するために含まれており、また、組み込まれて本明細書の一部を構成する。図面は発明の実施形態を図示しており、明細書とともに発明の本質を説明することに寄与する。図面においては、
図１は、実施形態の例による、行動の検出のためのシステムを示す。図２は、実施形態の例による、システムのフローチャートを示す。図３は、実施形態の例による、３Ｄセンサーにより得られた、１５個の接合部を有する人体であって、各点に対し三次元位置（Ｘ，Ｙ，Ｄ）が得られるものを示す。図４は、実施形態の例により、ビデオ入力からどのように姿勢、速度、および動作の特徴を抽出できるかを表わすチャートを示す。図５は、実施形態の例による、一組の接合部の同心球ビン（ｃｏｎｃｅｎｔｒｉｃｓｐｈｅｒｉｃａｌｂｉｎ）の表現を示す。図６は、実施形態の例による、ヒストグラムシーケンスのエネルギーギャップの表現であって、Ｘ軸はフレーム長、Ｙ軸は基本的特徴から計算された方位のビンである。図７は、実施形態の例による、例としての感情および／または行動のデータセットにおけるサンプルプロファイルを示す。

詳細な説明
本発明の実施形態についてここに詳細に言及される。実施形態の例が添付された図面により示されている。同じまたは類似の部分を指すために、図面および明細書において可能な限り同じ参照番号が使用されている。

実施形態の例により、身振りおよび動作による感情および行動の検出のための方法およびシステムが開示される。方法およびシステムは、三次元（３Ｄ）空間における身体関節の対応する動きと組み合わされる身振りの検出に基づいて感情および行動を検出するために使用される。

実施形態の例によれば、一以上の被検者が一連の動きを行う際、身体動作を記録するために、３Ｄセンサー／ビデオカメラまたはビデオ入力を使用することができる。例えば、身体関節は、図３に示すように、１５個の身体関節（またはポイント）から構成されることができ、それらは、センサーの機能としての３Ｄビデオの各フレームから推定することができる。実施形態の例によれば、姿勢、速度、および動きのような基本的な特徴は、被検者の動きを描写するために、フレームごとに抽出されることができる。それらの抽出された特徴（例えば、姿勢、速度、および動き）は、一以上の関節の組合せの大きさおよび位置から算出することができる。ヒストグラムのシーケンスは、抽出された特徴の統計的投射として形成されることができ、方向づけられた勾配のヒストグラムのアルゴリズム（ＨＯＧ）が、ビデオにおいて検出された感情および行動に対応し、またはこれらを描写するベクトルディスクリプターを得るシーケンスに採用されることができる。リニアＳＶＭのような分類エンジンが、生成されたベクトルディスクリプターを感情および／または動作として分類するために使用されることができる。

実施形態の例によれば、本開示は、身体関節の組合せに対応する動きの検出に基づいて感情および行動を認識するシステムおよび方法に関する。行動認識システム１００は、例えば、ビデオプロセスモジュール１１２、行動認識モジュール１１４、オフライン分析モジュール１１６、および分類データベースモジュール１１８を含む処理モジュールまたはシステム１１０を含むことができる。各モジュール１１２、１１４、１１６、１１８は、メモリー、プロセッサー、オペレーティングシステム、および／またはソフトウェアおよび／または光グラフィカルユーザーインターフェース（ＧＵＩ）および／またはディスプレイを有する一以上のコンピュータまたは処理デバイスを含むことができる。例えば、各モジュール１１２、１１４、１１６、１１８は、例えばスタンドアロンのコンピュータといった一つのコンピュータデバイスに組み込まれることができ、または、一つ以上のコンピュータデバイスであってそれぞれメモリー、プロセッサー、オペレーティングシステム、および／またはソフトウェア、およびグラフィカルユーザーインターフェース（ＧＵＩ）またはディスプレイを有するものの中に含まれることができる。

図１に示すように、処理モジュールまたはシステム１１０は、オンラインビデオ処理モジュール１１２、行動認識モジュール１１４、オフライン分析モジュール１１６、およびデータベースモジュール１１８を含む。実施形態の例によれば、オンラインビデオ処理モジュール１１２は、ビデオカメラ１２０から受信されるビデオストリーム１２２から受信されるビデオフレームから、身体骨格関節データ（図３）をモニターし、キャプチャーし、抽出するために使用されることができる。オフライン分析モジュール１１６は、キャプチャーされた骨格フレームを一以上のファイルに保存し、行動分類データベースモジュール１１８を管理するためのデータベースマネージメントインターフェースを提供する。実施形態の例によれば、オンラインビデオ処理モジュール１１２は、一以上の被検者７１０（図７）を描写する当初のビデオストリーム１２２から受信された未処理の入力データから行動の特徴を抽出する。抽出された行動の特徴は、行動認識モジュール１１４に入力されることができ、行動認識モジュール１１４は、基本的な特徴抽出２４０（図４）、球ビン投射２５０（図５）、方向づけられたヒストグラムシーケンス２６０（図６）、および、単一の列ベクトルまたはディスクリプターを得るための、方向づけられた勾配のヒストグラム（ＨＯＧ）の方向づけられたヒストグラムシーケンス２６０への適用を行う。被検者７１０のビデオ入力１２２と関連する感情または行動の認識または検出のために、単一の列ベクトルまたはディスクリプターは、機械学習分類器に入力（すなわち、それにより解析）される。実施形態の例によれば、機械学習分類器は、データベースモジュール１１８内で提供されることができる。

実施形態の例によれば、オフライン分析モジュール１１６は、行動分類データベースモジュール１１８を手動で登録および管理するためのユーザーインターフェースを提供することができる。行動分類データベースモジュール１１８は、例えば、分類された行動および／または感情と関連させることができる単一の列ベクトルまたはディスクリプターといった特定可能な特徴のデータベースを含んで構成されることができる。例えば、実施形態の例によれば、システム１００は、例えば、医療における検出および予防のために使用できる、転倒のような行動および／または全体的な雰囲気または感情の検出が可能な、可変環境人間行動検出システムとして使用されることができる。

実施形態の例によれば、当初のビデオストリームまたはビデオ入力１２２は、ビデオカメラ１２０と例えば組み合わされる、一以上の動きおよび／または深さセンサー、および／または他の既知の動きおよび深さセンサーおよび／またはデバイスを使用して生成されることができる。実施形態の例によれば、ビデオカメラと組み合わされた単体の動きおよび深さセンサーよりもむしろ、３Ｄ（三次元の）ビデオカメラ技術を使用して、当初のビデオストリーム１２２を得ることができる。当初のビデオストリーム１２０から抽出されたデータはファイルに保存されることができ、および／または３Ｄビデオカメラ１２０からビデオ処理モジュール１１２および／または行動認識モジュール１１４へ直接入力されることができる。

図２は、実施形態の例による、感情の検出を含む行動を検出するための、行動認識システム２００のフローチャートである。図２に示すように、システム２００は、被検者７１０（図７）の行動、感情、および／または動作２１０を含むビデオ入力またはビデオストリーム１２２を含む。被検者７１０は、例えば、人間、動物、および／または他の生き物であることができる。

実施形態の例によれば、ビデオ入力１２２は、ビデオ入力１２２を処理してキャプチャーされたデータ２２０にするビデオ処理モジュール１１２に入力される。キャプチャーされたデータ２２０は、行動認識モジュール１１６に送信２２２されることができる。行動認識モジュール１１６は、キャプチャーされたデータから、各フレームに関する身体関節フレーム２３０、および、身体関節３１０（図３）の一以上の組合せの姿勢、速度、および動きを含む基本的な特徴２４０を抽出することができる一以上のモジュールを含むことができる。

実施形態の例によれば、姿勢、速度、および動きを含む基本的な特徴２４０の抽出の後、基本的な特徴２４０のそれぞれのために、球ビン投射ユニット２５０を使用して、オリジナルのデカルト座標から抽出された各特徴に関するデルタユニット（すなわち、三次元位置（Ｘ，Ｙ，Ｄ）における変化）が球座標に投射される。各球ビン投射は、次に、方向づけされたヒストグラムシーケンスユニット２６０を使用してエネルギーマップ６００（図６）に変換される。ヒストグラムシーケンスはエネルギーマップ６００として動作し、方向を動かす関節と、動作の時間的変化とを表示する。

方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズム２６２は、次に、複数のエネルギーマップ６００に適用されることで、単一の列ベクトル（またはディスクリプターベクトル）２７０を得ることができる。単一の列ベクトルまたはディスクリプターベクトル２７０は、動作の分類の学習および認識のために、分類データベースモジュール１１８内で例えば提供されることができる機械学習アルゴリズム（学習分類器）２８０に入力されることができる。実施形態の例によれば、機械学習アルゴリズム２８０は、ベクトル２７０を認識し、動作または感情２１０を分類する。

図３は、実施例による、センサーおよび／またはビデオカメラまたは３Ｄセンサー／カメラ１２２と向かい合う典型的なユーザーの例についての骨格表現３００を図示する。図３に示すように、人間の骨格は、人体の頭、肩、手足を表わす、１５個の接合（またはポイント）３１０および１１の対応する線分３２０から構成されることができる。図３に示すように、線分３２０は接合３１０により互いに接続され、一方の線分３２０は他方により動きが制約され得る。さらに、例えば、他方が頭の動きのように比較的固定のままである一方で、いくつかの部分または線分３２０は独立の動きを行い得る。実施形態の例によれば、例えば、胸の胴（中央ポイント）は、ここに記載されるように、方法および工程の基準点として使用されることができる。人間以外の動物の検知または認識のために、例えば犬または猫の類似の骨格を生成し得ることは理解できる。

実施形態の例によれば、３Ｄにおける各身体関節の相対的な位置を特定可能な、３Ｄセンサーまたはビデオ入力を使用して、人間の動作または感情をキャプチャーすることができる。例えば、実施形態の例によれば、１５個の各接合３１０および対応する線分３２０は、動作の各フレームについてキャプチャーされることができる。加えて、各接合３１０について、三次元位置（Ｘ，Ｙ，Ｄ）を得ることができる。実施形態の例によれば、各接合３１０の三次元位置は、デカルト座標系の（Ｘ，Ｙ，Ｄ）として記述されることができる。

図４は、実施形態の例による、姿勢、速度、および動きの特徴をどのように抽出するかを表示するチャートを示す。図４に示すように、Ｔ個のフレームと各フレームのＮ個の接合を伴うアクションビデオは、下記式（数１）として記載される一組の３Ｄポイントのシーケンスとして表現されることができる。

実施形態の例によれば、例えば、１５個の接合（またはポイント）３１０および１１個の対応する線分３２０から構成される人間の骨格により、システム１００は、Ｎ＝１５、および各異なるシーケンスで変化するＴを含むことができる。人間の骨格は、１５個の接合３１０および１１個の対応する線分３２０より多いまたは少ない接合３１０および線分３２０を含んでもよく、対応する計算は、接合３１０の数および対応する線分３２０の数に基づいて変更および／または調整されることができると考えられる。

実施形態の例によれば、特徴の抽出の第一段階は、一つのフレームにおける各接合の姿勢、速度、および動きの情報を表現する、各フレームにおける基本的特徴を演算することである。

実施形態の例によれば、例えば、下記式（数２）の姿勢の特徴４１は、接合ｎと各フレームｔにおける各他の接合との間の相対的位置を、下記式（数３）のように記述することができる。

例えば、各Ｎ接合について、フレームごとに、（Ｎ−１）の寸法要素（減算結果）を伴うＴ長のシーケンスが存在する。姿勢の特徴は、各フレームにおける身体の姿勢をキャプチャーできる。

実施形態の例によれば、下記式（数４）の速度の特徴４２０は、フレームｔにおける接合と先行するフレーム（ｔ−ｋ）における各接合との間の相対的位置を表現することができる。ここで、ｋは、速度推定ステップサイズのパラメータである。

このパラメーターは、記録されたアクションビデオのフレームレートに依存することができ、かつ、その間に著しい動作があった場合に、接合ｎについて明らかな動きを示すための、フレーム（ｔ−ｋ）とフレームｔとの間の最小のギャップであり得る。実施形態の例によれば、速度の特徴は、下記式（式５）のように記載できる。

その名前が暗示するように、速度の特徴４２０は、各フレームにおいてどのくらい速く身体が動いているかという情報を供給する。

実施形態の例によれば、下記式（数６）の動きの特徴４３０は、フレームｔにおける接合ｎと最初のフレームにおける各接合との間の相対的位置を表現することができる。

動きの特徴４３０は、下記式のように記述できる。

例えば、十分にセグメント化またはアライメントされたアクションビデオについては、開始のフレームは、最初は静止していること、すなわち、動きのないという特徴であることが望ましい。実施形態の例によれば、動きの特徴４３０は、最初の状態と比較された各フレームにおける身体の動きをキャプチャーすることができる。

実施形態の例によれば、各接合が３Ｄ座標情報（Ｘ，Ｙ，Ｄ）を含むため、下記式（数８）のすべての減算単位もまた、三次元のデルタユニット（ΔＸ，ΔＹ，ΔＤ）という結果となることができる。

基本的特徴の抽出後、当初のデカルト座標からの各デルタユニットは、例えば、（ΔＸ，ΔＹ，ΔＺ）→（ｒ，θ，φ）というように、球座標に投影されることができ、ビンヒストグラムがこれらの球面角を表現するために使用されることができる。図５は、実施形態の例による、一組の接合５１０、５１２の同心球ビン５００の表現を示す。図５に示すように、各ポイント（または小さい円）５１０、５１２は接合を示し、線５２０はこれらを接続するリンクを示す。例えば、一方の接合５１０は、球を形成するための原点（または基点）として設定されることができ、他方の接合５１２は、座標値（ｒ，θ，φ）をもつことができる。

実施形態の例によれば、球５００は、経度と緯度の両方の角度により、３２個の等しいビン５３０に切り分けられることができる。球５００は、例えば、２、４、８、１６、３２、６２、１２８など、２のべき乗としていくらにでも切り分けられることができると理解される。実施形態の例によれば、例えば、一組の接合５１０、５１２は、これらのビン５３０の一つ以上に配置されることができる。さらに、小さなムーブメントノイズを除外するために、３３番目のビン５４０が半径Ｒの内部のボールまたは球として追加されることができる。線長ｒ＜Ｒの場合、状態は、２つの接合間で「隣接」と称する。これは、３２個の方位ビン以外の独立状態である。パラメータＲはビンの分配と釣り合うように設定される。例えば、基本的特徴からのサンプルの３Ｄ値は、データの１／３３が「隣接」のビンとなるようにＲが設定される。

図６は、３０個のフレームをもつサンプルビデオからのこれらのヒストグラムシーケンス６００のうちの一つを示す。実施形態の例によれば、ヒストグラムの統計値は、各フレームｔにおける各参照ポイント（原点としてとられる）ｎとともに下記式に基づくことができる。

例えば、アクションビデオについて、長さＴの３Ｎヒストグラムシーケンスを、システムはそれぞれもつことができる。

実施形態の例によれば、ヒストグラムシーケンスは、方向を動かす接合、および動作の時間的変化を表示するためのエネルギーマップ６００として機能する。実施形態の例によれば、機械学習のためのより簡明な時空間ディスクリプターをさらに抽象化するために、方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズム２６２がマップに採用されて、単一の列ベクトル２７０を得ることができる。実施形態の例によれば、マップ６００は、数個の５０％重複領域（すなわち、「セル」）に均等に分割されることができる。セル内の各ポイントについて、Ｙ−勾配はＹ軸において隣接する上と下との差であることができ、Ｘ−勾配はＸ軸において隣接する右と左との差であることができる。Ｙ−勾配／Ｘ−勾配によるタンジェント角度が演算され、セル内にヒストグラムを形成するためにいくつかのビンに投射される。ＨＯＧディスクリプターは、すべてのセルについてのヒストグラムの連結であることができる。

例えば、アクションビデオについて、３Ｎヒストグラムシーケンスは３ＮのＨＯＧ表現という結果となるであろう。ここで、Ｎは検出された接合の数である。実施形態の例によれば、例えば、機械学習アルゴリズムを使用する動作の分類のための最終的なビデオディスクリプターとして単一の列ベクトルを形成するために、複数のＨＯＧ表現が連結されることができる。実施形態の例によれば、線形ＳＶＭが、動作分類の学習および認識のための機械学習アルゴリズムとして採用されることができる。トレーニング／テスティングセットにおける全部のＶビデオのうちのビデオｖについて、開示された方法により演算されたディスクリプターはｄ_νであり、カテゴリーラベルはｃ＝１ポジティブおよびｃ＝−１ネガティブである。実施形態の例によれば、システムの目的は、すべてのポジティブのラベルが付されたデータについてｗ・ｄ_ν＞０で、かつすべてのネガティブのラベルが付されたデータについてｗ・ｄ_ν＜０である線形分類器ｗを、下記式を最適化することにより、見出すことであり得る。

全部でＣ個のカテゴリーがある場合、１−対−全部（１−ｖｓ−ａｌｌ）戦略を通じて、下記式のトレーニングされたＣ分類が存在することになるであろう。

認識の決定のルールは、下記式にｄ_νが属することである。

実施形態の例によれば、例えば、ここに開示される方法およびシステムにおいて、シーケンスごとに平均５０個のフレームをもち、方法およびシステムに関する各フレームにおける接合の数が１５である、１０００個のビデオシーケンス（接合の位置はすでに評価されている）についての開示された特徴抽出方法のランニングタイムの推定ができる。例えば、２．５ＧＨｚのＣＰＵおよび６ＧＢメモリのＰＣ上でＣ＋＋コードの実行によれば、特徴抽出時間は、シーケンスごとに４３．０７ミリ秒であり得る。このように、実施形態の例によれば、ここに開示された方法およびシステムは、リアルタイムの動作認識システムとして使用されることができる。

図７は、実施形態の例による、例としての感情および／または行動のデータセット７００におけるサンプルプロファイルを示す。実施形態の例によれば、３Ｄセンサーを通じての人間の感情の状態の認識に注目したデータセットが集められた。６人の被検者７１０が感情動作を行うように依頼され、一人の被検者は、一つの動作を二回行うように依頼され、その結果、１３２の動作シーケンスとなった。開始のフレームと終了のフレームに手動でラベルを付すことにより、各動作の有効なシーケンスが得られた。有効なシーケンスの平均の長さは、データセットについて動作ごとに約８６フレームだった。

実施形態の例によれば、６個の感情状態に属する１１個の動作を集めた。心理学的研究の要素に基づいて、これらの状態は一様に文化を超えて認識されることができ、それゆえに被検者の感情を解析しようとする際に非常に有益である。データセットの詳細な情報は、表１に示されている。図７は、我々のデータセットにおける感情状態のプロファイル画像をさらに示す。

実施形態の例によれば、我々のデータセットの感情検出のタスクのための線形ＳＶＭの例が提案される。このデータセットの動作の種類により、ｌｅａｖｅ−ｏｎｅ−ｏｕｔｃｒｏｓｓｓｕｂｊｅｃｔ試験が行われた。例えば、５人の被検者がトレーニングに使用され、残りが試験に使用されることができる。実施形態の例によれば、すべての可能なトレーニング／試験を分けて平均を計算する。認識率の平均は７３．５％である。

実施形態の例によれば、一般的な動作認識のための最も評判のよい公共のデータセットにおける認識の正確性、および本願における最先端の提案との比較が評価された。

実施形態の例によれば、ＭＳＲアクション３Ｄデータセットは、各フレームにおいて２０個の接合をもつ１０人の被検者により行われた２０個の動作を有した。２０個の動作は、動作認識の３個のタスクのために、３個のサブセットに分割された。各タスクについては、半分の被検者がトレーニングに使用され、他の半分が試験に使用された。計算結果は表２に示されている。

実施形態の例によれば、行動の認識のためのコンピュータ読み取り可能なコードを有するコンピュータプログラムを含むコンピュータ読み取り可能な記憶媒体が開示される。コンピュータプログラムは、少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、行動および／または感情として単一の列ベクトルを分類する段階と、を有する。

実施形態の例によれば、コンピュータ読み取り可能な記憶媒体は磁気記録媒体、光磁気記録媒体、または将来開発されるであろう他の記録媒体であることができ、これらのすべては、本発明をすべて同様な方法で適用できると考えられる。
そのような媒体の、最初のおよび二次的な複製製品その他を含む複製物は上記媒体と同等と考えられることは疑いもない。さらに、本発明の実施形態がソフトウェアとハードウェアとの組合せである場合でも、本発明の概念から全く逸脱しない。本発明は、そのソフトウェア部分が事前に記録媒体に記載されることにより実装されることができ、作業において要求されるときに読み出される。

ここに開示された行動認識のための方法およびシステムは、ハードウェア、ソフトウェア、またはその組合せを使用して実行されることができる。加えて、ここに開示された行動認識のための方法およびシステムは、一以上のコンピュータシステムまたは他の処理システムに実装されることができ、または個人用デジタル補助装置（ＰＤＡ）のような処理システムにおいて部分的に実行されることができる。さらに他の実施形態においては、本発明はハードウェアおよびソフトウェアの組合せを使用して実行される。

当業者であれば、本発明の範囲および精神から逸脱せずに本発明の構成に対して多様な変更および変形が可能であることは明らかであろう。上記観点から、本発明は、本発明の変更および変更が以下のクレームおよびその均等物の範囲内に含まれている限り、それらの発明をも包含することが意図されている。

Claims

行動を認識する方法であって、
一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーする段階と、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出する段階と、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する段階と、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する段階と、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する段階と、
方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する段階と、
行動および／または感情として単一の列ベクトルを分類する段階と、
を有する方法。
抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項１に記載の方法。
姿勢の特徴は、各フレームｔにおける接合ｎと他の接合との間の相対的位置を表現する、請求項２に記載の方法。
速度の特徴は、フレームｔにおける接合ｎと、先行するフレーム（ｔ−ｋ）における各接合との間の相対的位置を表現し、ｋは速度推定ステップサイズのパラメータである、請求項２または３に記載の方法。
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合ｎについての明確な動作を示すために、フレーム（ｔ−ｋ）とフレームｔとの間の最小のギャップである、請求項４に記載の方法。
動作の特徴は、フレームｔにおける接合ｎと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項２〜５のいずれか一つに記載の方法。
複数の球ビンは、複数の等しいビンに分割される、請求項１〜６のいずれか一項に記載の方法。
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する段階を有する、請求項７に記載の方法。
エネルギーマップを複数の重複領域に等しく分割する段階であって、重複領域における各ポイントは、Ｙ−勾配はＹ軸において隣接する上と下で異なり、Ｘ−勾配はＸ軸において隣接する右と左で異なる、段階と、
Ｙ−勾配／Ｘ−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する段階と、
を有する請求項１〜８のいずれか一項に記載の方法。
重複領域内に各ヒストグラムを結び付けることにより単一の列ベクトルを得る段階を有する請求項９に記載の方法。
行動を認識するシステムであって、
一以上の被検者について、少なくとも一つのビデオデータストリームをキャプチャーするように構成されたビデオカメラと、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出し、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算し、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成し、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成し、
方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成し、
行動および／または感情として単一の列ベクトルを分類する、ための実行可能命令を有する、一以上のモジュールと、を有するシステム。
抽出された身体の骨格データについて特徴の抽出を演算する段階は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算する、請求項１１に記載のシステム。
姿勢の特徴は、各フレームｔにおける接合ｎと他の接合のそれぞれとの間の相対的位置を表現し、
速度の特徴は、フレームｔにおける接合ｎと、先行するフレーム（ｔ−ｋ）における各接合との間の相対的位置を表現し、ｋは速度推定ステップサイズのパラメータであり、
動作の特徴は、フレームｔにおける接合ｎと、最初のフレームにおける各接合との間の相対的な位置を表現する、請求項１２に記載のシステム。
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合ｎについての明確な動作を示すために、フレーム（ｔ−ｋ）とフレームｔとの間の最小のギャップである、請求項１３に記載のシステム。
複数の球ビンは、複数の等しいビンに分割され、
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する、請求項１１〜１４のいずれか一項に記載のシステム。
エネルギーマップを複数の重複領域に等しく分割し、重複領域における各ポイントは、Ｙ−勾配はＹ軸において隣接する上と下で異なり、Ｘ−勾配はＸ軸において隣接する右と左で異なり、
Ｙ−勾配／Ｘ−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する、
請求項１１〜１５のいずれか一項に記載のシステム。
行動を認識するためのコンピュータ読み取り可能なコードを有するプログラムであって、前記コードは、
少なくとも一つのビデオデータストリームから身体の骨格データを抽出する手順と、
抽出された身体の骨格データの各フレームについて複数の三次元のデルタユニットを生成するために、抽出した身体の骨格データについて特徴の抽出を演算する手順と、
複数の球ビンを有する球座標系に各フレームについての複数の三次元のデルタユニットを投影することにより、各フレームについて複数のヒストグラムシーケンスを生成する手順と、
時間に対し複数の球ビンをマッピングすることにより、複数のヒストグラムシーケンスのそれぞれについてのエネルギーマップを生成する手順と、
方向づけられた勾配のヒストグラム（ＨＯＧ）のアルゴリズムを複数のエネルギーマップに適用して、単一の列ベクトルを生成する手順と、
行動および／または感情として単一の列ベクトルを分類する手順と、
を有するプログラム。
抽出された身体の骨格データについて特徴の抽出を演算する手順は、抽出された身体の骨格データの各フレームについて、姿勢の特徴、速度の特徴、および動作の特徴を演算し、
姿勢の特徴は、各フレームｔにおける接合ｎと他の接合のそれぞれとの間の相対的位置を表現し、
速度の特徴は、フレームｔにおける接合ｎと、先行するフレーム（ｔ−ｋ）における各接合との間の相対的位置を表現し、ｋは速度推定ステップサイズのパラメータであり、
動作の特徴は、フレームｔにおける接合ｎと、最初のフレームにおける各接合との間の相対的な位置を表現し、
パラメータは記録されたアクションビデオのフレームレートに依存し、かつ、期間内に顕著な動作を有する場合に、接合ｎについての明確な動作を示すために、パラメータはフレーム（ｔ−ｋ）とフレームｔとの間の最小のギャップである、請求項１７に記載のプログラム。
複数の球ビンは、複数の等しいビンに分割され、
複数の等しいビンから離隔されている内部球ビンを追加することにより動作ノイズを除外する手順を有する、請求項１７または１８に記載のプログラム。
エネルギーマップを複数の重複領域に等しく分割する手順であって、重複領域における各ポイントは、Ｙ−勾配はＹ軸において隣接する上と下で異なり、Ｘ−勾配はＸ軸において隣接する右と左で異なる、手順と、
Ｙ−勾配／Ｘ−勾配によるタンジェント角度を演算し、タンジェント角度をいくつかのビンに投射して重複領域内にヒストグラムを形成する手順と、
を有する請求項１７〜１９のいずれか一項に記載のプログラム。
請求項１７〜２０のいずれか一項に記載のプログラムを記録したコンピュータ読取可能な記録媒体。