JP6719745B2

JP6719745B2 - モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム

Info

Publication number: JP6719745B2
Application number: JP2017058796A
Authority: JP
Inventors: 大塚　和弘; 和弘大塚; 将吾岡田
Original assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Current assignee: Nippon Telegraph and Telephone Corp; Tokyo Institute of Technology NUC
Priority date: 2017-03-24
Filing date: 2017-03-24
Publication date: 2020-07-08
Anticipated expiration: 2037-03-24
Also published as: JP2018163400A

Description

本発明は、モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラムに関する。

コミュニケーションに用いられる自然なジェスチャの認識・生成技術はインターフェース、会話ロボット、エージェントなどの実現に必要不可欠である。また、表出された非言語情報と、プレゼンテ―ションの能力を含むコミュニケーションへの効果の関連性をモデル化する研究も行われている。

しかし非言語情報、とりわけハンドジェスチャの認識・生成モデルの構築は以下の二つの理由で容易ではない。第一に、ハンドジェスチャは、発話内容だけでなく、発話者の態度や、談話調整といった様々なコンテキストに関連して生成されている。第二に、会話中に観測される手の動かし方、手を動かす頻度、ジェスチャを行うタイミングには個人差があり、汎用的なモデルを構築することが難しい。

この問題が故に、従来のジェスチャ認識に関する研究では、被験者に予め同じジェスチャを行うよう教示し、訓練データを収集し、モデルを構築していた。このデータ収集アプローチでは会話中の自然なジェスチャをモデル化することは困難であった。

この分野の従来技術として、予め動作やジェスチャのカテゴリを定義して認識を行う方法として、モーションキャプチャやカメラといったデバイスを用いて手の動作特徴量を抽出し、条件付き確率場（Conditional Random Fields、非特許文献１）や、潜在動的条件付き確率場（Latent Dynamic Conditional Random Fields、非特許文献２）といった時系列データの構造を捉えることができる学習モデルを用いる方法が知られている。また、近年では深層学習(Deep learning、非特許文献３）も利用されている。

一方、一連の動作データよりパターンを発見する教師無し学習のアプローチでジェスチャを解析する方法も提案されている。Zhouらは連続時系列データの分節化と、分節化されたパターンのクラスタリングを交互に行うことでパターンを発見するHACA（hierarchical aligned cluster analysis、非特許文献４）アルゴリズムを提案している。Bozkurtらは、並列隠れマルコフモデル（PHMMs, parallel hidden Markov models、非特許文献５）を提案し、手の動作のプリミティブパターンを発見する方法を提案した。Joshiらはジェスチャ分類に基づいて時系列データを分節化する方法を提案している（非特許文献６）。

S. Wang, A. Quattoni, L.-P. Morency, D. Demirdjian, and T. Darrell. Hidden conditional random fields for gesture recognition. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, volume 2, pages 1521.1527, 2006. L.-P. Morency, A. Quattoni, and T. Darrell. Latent-dynamic discriminative models for continuous gesture recognition. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2007. S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE transactions on pattern analysis and machine intelligence, 35(1):221.231, 2013. F. Zhou, F. De la Torre, and J. K. Hodgins. Aligned cluster analysis for temporal segmentation of human motion. In Automatic Face & Gesture Recognition, 2008. FG’08. 8th IEEE International Conference on, pages 1.7. IEEE, 2008 E. Bozkurt, S. Asta, S. O ¨ zkul, Y. Yemez, and E. Erzin. Multimodal analysis of speech prosody and upper body gestures using hidden semimarkov models. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 3652.3656. IEEE, 2013. A. Joshi, C. Monnier, M. Betke, and S. Sclaroff. A random forest approach to segmenting and classifying gestures. In Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on, volume 1, pages 1.7. IEEE, 2015. Y. Li, C. Fermuller, Y. Aloimonos, and H. Ji. Learning shift-invariant sparse representation of actions. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 2630-2637, 2010.

上記の研究では、教師あり・無し学習によるアプローチの違いはあるものの、対話中に表出するジェスチャの認識・理解に焦点をあてていない。

そこで本発明では、発話中に行われたジェスチャの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャの特徴量から発話単語を推定するモデルを生成するモデル学習装置を提供する。

本発明のモデル学習装置は、ジェスチャ特徴取得部と、単語ベクトル取得部と、ジェスチャ単語対応付部を含む。

ジェスチャ特徴取得部は、身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得する。単語ベクトル取得部は、発話から抽出された単語の単語ベクトルを取得する。ジェスチャ単語対応付部は、ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、単語毎のモデルであって、ジェスチャ特徴を入力とし、入力されたジェスチャ特徴がモデルに対応付けられた単語と対応するか否かを分類するモデルを生成する。

本発明のモデル学習装置によれば、発話中に行われたジェスチャの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャの特徴量から発話単語を推定するモデルを生成することができる。

実施例１のモデル学習装置の構成を示すブロック図。実施例１のモデル学習装置の動作を示すフローチャート。実施例１のジェスチャ特徴取得部の動作を示すフローチャート。実施例１の単語ベクトル取得部の動作を示すフローチャート。実施例２の発話単語推定装置の構成を示すブロック図。実施例２の発話単語推定装置の動作を示すフローチャート。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

以下、図１を参照して実施例１のモデル学習装置について説明する。同図に示すように本実施例のモデル学習装置１は、ジェスチャ特徴取得部１１と、単語ベクトル取得部１２と、ジェスチャ単語対応付部１３と、モデル記憶部１４を含む構成である。

ジェスチャ特徴取得部１１は、ジェスチャ入力部１１１と、ジェスチャ区間抽出部１１２と、ジェスチャ特徴抽出部１１３を含む。ジェスチャ特徴抽出部１１３は、動作軌跡特徴抽出部１１３１と、ジェスチャフェーズ特徴取得部１１３２と、動作プリミティブパターン特徴抽出部１１３３を含む。

単語ベクトル取得部１２は、音声信号入力部１２１と、発話区間検出部１２２と、音声認識部１２３と、単語ベクトル構築部１２４を含む。

＜モデル学習装置１の動作の概要＞
以下、図２を参照してモデル学習装置１の動作の概要を説明する。同図に示すように、ジェスチャ特徴取得部１１は、身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得する（Ｓ１１）。単語ベクトル取得部１２は、発話から抽出された単語の単語ベクトルを取得する（Ｓ１２）。ジェスチャ単語対応付部１３は、ジェスチャ特徴と単語ベクトル（単語）をそれらの時間共起に基づいて対応付け、単語毎のモデルであって、ジェスチャ特徴を入力とし、入力されたジェスチャ特徴がモデルに対応付けられた単語と対応するか否かを分類するモデルを生成し、モデル記憶部１４に記憶する（Ｓ１３）。

以下、図３を参照してジェスチャ特徴取得部１１内の各構成要件の動作について説明する。

＜ジェスチャ入力部１１１＞
ジェスチャ入力部１１１は、ジェスチャを取得する（Ｓ１１１）。ジェスチャ入力部１１１は例えば、光学式モーションキャプチャシステムでよい。ジェスチャ入力部１１１を光学式モーションキャプチャシステムとした場合、被験者の両手首に装着したマーカーの３次元座標の時系列データをジェスチャとして取得することができる。より詳細には、両腕のマーカーから取得した三次元座標、計６次元のベクトルの時系列データをジェスチャとして用いることができる。

＜ジェスチャ区間抽出部１１２＞
ジェスチャ区間抽出部１１２は、入力されたジェスチャからジェスチャの動作区間を抽出する（Ｓ１１２）。より詳細には、ジェスチャ区間抽出部１１２は、膝の上または膝付近で手が静止している状態が継続する区間を静止区間と定義し、それ以外の区間を動作区間と定義し、入力された各時刻のジェスチャを何れかの区間に分類する。ジェスチャ区間抽出部１１２はこの２クラス分類の手法として、隠れマルコフモデルを用いることができる。

＜ジェスチャ特徴抽出部１１３＞
ジェスチャ特徴抽出部１１３は、ジェスチャの動作区間に含まれるジェスチャの特徴量を抽出する（Ｓ１１３）。ジェスチャ特徴抽出部１１３は、手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、動作プリミティブパターンに関する特徴量の３種類の特徴量のいずれか、または全部を計算する。これらの特徴量はそれぞれ動作軌跡特徴抽出部１１３１、ジェスチャフェーズ特徴抽出部１１３２、動作プリミティブパターン特徴抽出部１１３３により計算される。

＜動作軌跡特徴抽出部１１３１＞
動作軌跡特徴抽出部１１３１は、手の動作軌跡に関する特徴量を抽出する（Ｓ１１３１）。動作軌跡特徴抽出部１１３１を構成するための学習モデルとして、隠れマルコフモデルを用いてもよい。

より詳細には、動作軌跡特徴抽出部１１３１は、ジェスチャ入力部１１１が取得した６次元のベクトルの時系列データを、最初に話者の重心（両肩のマーカーの三次元座標の平均値）位置を原点とする座標系に変換する。動作軌跡特徴抽出部１１３１は、この時系列データに対して一定の窓幅のフィルタを適用し、時系列データを平滑化する。フィルタとしては、例えば窓幅50msのガウシアンフィルタが利用可能である。動作軌跡特徴抽出部１１３１は、この時系列データ中に一定時間以下の欠損が観測された場合には、データの補間を行う。この欠損の条件として、500ms以下の時間長が利用できる。また、補間方法として、線形補間が利用可能である。

フレームtにおける左右のマーカーの三次元座標は

と表され、座標の時系列データは

と表される。ここでpに基づいて、速度ベクトル（フレーム間微分）を計算し、

と表す。ただし

とする。次に、個人差を正規化した座標時系列データを計算し、

と表す。ここで、

とする。meanIは、被験者iのセッション中に観測される時系列データの平均ベクトルを示し、stdIは標準偏差を示す。右腕のマーカーに関しても、P_l,VP_l,IP_lと同様にP_r,VP_r,IP_rを計算する。次に、左右両腕のマーカーの座標の差分ベクトルを

として表す。ここで

とする。動作軌跡特徴抽出部１１３１は、計７種類、２１次元の時系列データを動作軌跡の特徴量MTFとして定義して、特徴量MTFを計算する。

＜ジェスチャフェーズ特徴抽出部１１３２＞
ジェスチャフェーズ特徴抽出部１１３２は、ジェスチャフェーズに関する特徴量を抽出する（Ｓ１１３２）。

より詳細には、ジェスチャフェーズ特徴抽出部１１３２は、ジェスチャ区間抽出部１１２で抽出されたジェスチャの動作区間を隠れマルコフモデルを用いて、ストローク、ホールドと呼ばれるジェスチャフェーズに分類する。ジェスチャフェーズ特徴抽出部１１３２は、ストローク、ホールドの各々について、その時間長、頻度、及び、それらの区間が全体に占める時間割合を特徴量として計算する。

ジェスチャフェーズには、準備と復帰のフェーズを含めることもできる。具体的には、ジェスチャフェーズ特徴抽出部１１３２は、ジェスチャセグメントの時間長(MT)を動作区間のフレーム数TDとして計算する。ジェスチャフェーズ特徴抽出部１１３２は、ストローク・ホールドセグメントの頻度として、動作区間に含まれるストローク・ホールドのセグメントの回数をMTで割った値を頻度

とそれぞれ定義して計算する。ジェスチャフェーズ特徴抽出部１１３２は、ストローク・ホールドの占める時間割合として、ホールドジェスチャの時間共起割合を計算する。

T^H _iはi番目のホールドセグメントのフレーム長である。ジェスチャフェーズ特徴抽出部１１３２は、同様にストロークセグメントの総時間長Sd_Lも計算する。ジェスチャフェーズの特徴量を

と定義する。

＜動作プリミティブパターン特徴抽出部１１３３＞
動作プリミティブパターン特徴抽出部１１３３は、手の動作軌跡に含まれる共通の短い時系列パターン（動作プリミティブパターン）に関する特徴量を抽出する（Ｓ１１３３）。

動作プリミティブパターン特徴抽出部１１３３は、動作系列から教師なし学習で動作プリミティブパターンに関する特徴量を抽出する。そのため動作プリミティブパターン特徴抽出部１１３３は、移動不変疎符号化（Sift Invariant Sparse Coding,SISC）により抽出した特徴を用いることができる。移動不変疎符号化の学習には、サポートベクターマシンを用いることができる。

SISCは辞書学習手法の一つであり、辞書に含まれる各コードが短い時系列パターンに対応しており、時系列データを複数の短い時系列パターンの集合として分解する。この時系列パターンをプリミティブと呼称する。

SISCは複数のプリミティブの生起する時刻とプリミティブの形状を交互に学習するように定式化される。本実施例の方法では、片手だけ無意味な動きが観測される場合に、ノイズとなる不要な次元の値が得られる可能性があるため、多次元パターンとしてではなく、各次元ごとにプリミティブパターンを学習する。パラメータの最適化には、非特許文献７の近接勾配法（Gradient Descent,GD）を用いることができる。

２１次元の時系列データMTFをSISCの入力とする。f_m[n]をMTFにおけるm次元目の固定長のプリミティブパターンとする。信号の長さをN、0<n<Nとすると、f_m[n]は以下で表される。

ここで、φ^k _d[m]はd番目のプリミティブとする(0<d<D,0<m<M)。一般的に、そのパターン長（ベクトル長）は短くM≪Nとなる。活性化系列：α^k _d[n]はスパース応答を構成する。その活性化系列はそのd番目のプリミティブが生起する時刻を表している。α^k _d[n]の時間長は入力時系列データの長さNに等しい。φ^k _d[m]の*は畳み込み作用素を示しており、α^k _d[n]の値を各プリミティブに畳み込むことで、各プリミティブと各時刻での活性度の間の相関を計算するために用いられる。

学習では、モデルパラメータφ^k _d[m]とα^k _d[n]の最適化が行われる。実際の入力時系列データとfm_k[n]の二乗誤差を最小化することで最適化を行う。ここで、正則化項にl₁ノルムを採用することで、αの多くの値は0になる。全体的な最適化問題は次で表される。

ここで、

はαのl₁ノルムを示しており、その項の重みを制御するλはラグランジェ乗数である。また、制約として||φ||² _F≦1が用いられる。ここでは、目的関数（式(3)）は非凸な目的関数であるが、αとφのどちらかが固定されている場合、凸関数になることが知られている。ここでは相互最適化を行う。SISCの学習が終了した後、αとφから特徴量を構成する。プリミティブ特徴量SFはS_iの時間長を持つ動作区間iに対して、

と計算される。δはディラックのデルタ関数を示す。

次に、辞書特徴量DFはS_iの時間長を持つ動作区間iに対して、

として計算される。SF_i,d,kはプリミティブパターンdの疎な度合いを示しており、df_i,d,kはプリミティブパターンdの活性化度合いを示している。ジェスチャプリミティブ特徴量は

と定義される。

以下、図４を参照して単語ベクトル取得部１２内の各構成要件の動作について説明する。

＜音声信号入力部１２１＞
音声信号入力部１２１は、音声信号を取得する（Ｓ１２１）。音声信号入力部１２１として、例えばマイクロホンを用いることができる。

＜発話区間検出部１２２＞
発話区間検出部１２２は、入力された音声信号から発話区間を検出する（Ｓ１２２）。発話区間検出部１２２は、例えば零点交差法により発話区間の候補を抽出し、事前に発話区間／非発話区間を学習しておいた混合ガウシアンモデルを用いて発話区間を検出してもよい。

＜音声認識部１２３＞
音声認識部１２３は、発話区間に含まれる単語を抽出する（Ｓ１２３）。音声認識部１２３として、音声信号に基づく自動音声認識処理が利用できる。また、自動処理の代わりに人間による書き起し処理が利用できる。例えば、700ms以下の短い音声断片を削除した結果を発話区間として抽出し、その後、手動にてアノテーションする方法を用いてもよい。

＜単語ベクトル構築部１２４＞
単語ベクトル構築部１２４は、認識された単語列の形態素解析に基づき、発話区間ごとに単語ベクトルを構築する（Ｓ１２４）。より詳細には、単語ベクトル構築部１２４は、音声認識部１２３において得られる文字列を入力とし、形態素解析により、発話に含まれる単語セットを構築し、各発話断片に含まれる単語集合から単語ベクトル（Bag of Words:BoW）を構成する。

以下、ジェスチャ単語対応付部１３の動作の詳細について説明する。

＜ジェスチャ単語対応付部１３＞
ジェスチャ単語対応付部１３は、ジェスチャの動作区間と発話断片の時間的な共起関係に基づいて、ジェスチャ特徴と単語とを対応付けてモデルを生成し（Ｓ１３）、当該モデルをモデル記憶部１４に記憶する。以下のルールが利用可能である。
（１）発話断片U_yと動作区間G_xが時間的に共起している場合、それらを対応付ける。
（２）発話断片U_yに含まれる単語ベクトルを

とし、その中で、アクティブとなっているすべての単語（w_n>1）と共起した動作区間G_x内の特徴量

をペアとする。
（３）w_nとMF_xは教師付き学習の目的変数(Y)と入力ベクトル（X）に対応する。

ジェスチャ単語対応付部１３は、上記（１）〜（３）の手順を全ての発話断片について行い、データセットを構築する。

＜モデル、モデル記憶部１４＞
モデルは、ジェスチャ特徴を入力として、そのジェスチャが所定の単語に対応するか否かを分類（２値分類）し、出力する分類器である。モデルは、各単語につき一つずつ学習される。

図１の例では、モデル記憶部１４は、Ｎ個のモデル１４−１〜１４−Ｎ（モデルＷ１、…、モデルＷＮ）を記憶している。モデル１４−１〜１４−Ｎは抽出された特徴量MF_xを訓練データとして機械学習を行うことで構成することができる。

MTF_xは時系列データであるため、モデルとして、時系列データのための学習モデルである隠れマルコフモデルを用いることができる。GFF_x,GPF_xは固定長の多変量ベクトルであるため、モデルとして線形サポートベクターマシンを用いることができる。それぞれのモデルについて、ジェスチャの断片と、単語ベクトルとを時間同期させ対応づけ、各単語をカテゴリに対応させて、各単語に対応する動作断片と、それ以外に対応する動作断片との間で２値分類器を訓練することによりモデルを構成することができる。

＜効果＞
本実施例のモデル学習装置１によれば、ジェスチャ特徴から発話単語を推定するためのモデルを学習することができる。説明を行う状況など話者がジェスチャを表出する場面をモデル学習装置１によって解析することにより、発話中の単語とジェスチャ、手の動作の特徴量の対応付けを学習し、ジェスチャと同時に発話される単語を推定するモデルを構築することができる。

以下、図５、図６を参照して、実施例２の発話単語推定装置の構成および動作について説明する。図５に示すように、発話単語推定装置２は、ジェスチャ特徴取得部１１と、発話単語推定部２３と、モデル記憶部１４を含み、ジェスチャ特徴取得部１１と、モデル記憶部１４は実施例１と同じ機能を有する。

本実施例の発話単語推定装置２は、実施例１のモデル学習装置１が学習したモデルを利用する装置である。ジェスチャ特徴取得部１１は実施例１と同様に動作して、ジェスチャ特徴を取得する（Ｓ１１）。発話単語推定部２３は、予めモデル記憶部１４に記憶されたモデルに基づいて、入力されたジェスチャ特徴と対応する単語を推定する（Ｓ２３）。

なお、モデル学習装置１と発話単語推定装置２の機能を兼ね備える装置を実現することもできる。モデル学習装置１と発話単語推定装置２の機能を兼ね備える装置とする場合、図１におけるジェスチャ単語対応付部１３に、発話単語推定部２３の機能を追加すればよい。

＜効果＞
本実施例の発話単語推定装置２によれば、予め学習されたモデルを用いて、ジェスチャ特徴から発話単語を推定することができる。

＜性能評価実験＞
上述のモデル学習装置１、発話単語推定装置２の性能評価実験について説明する。この実験では、グループ対話タスクとして、動画を事前に観察した被験者（説明者）がその動画を見ていない被験者（聞き手）に動画の内容を説明するというタスクが設定された。動画として、ワーナーブラザーズ（登録商標）社の“Canary Row”というアニメーションが用意された。グループ対話タスクでは、アニメーションの情景、猫・鳥などの登場人物の動作を表現するためのハンドジェスチャが発言に伴って観測された。被験者の発話を取得するために、指向性無線マイクと録音機材を用いた。被験者の顔の向き、ハンドジェスチャをセンシングするために、モーションアナリシス（登録商標）社製の光学式モーションキャプチャシステムMac3Dを用いた。

１６人の被験者の動作データから、発話区間と時間共起する４４３個の動作断片が抽出された。発話データの形態素解析の結果、１６人による説明に含まれた語彙数（単語数）の合計は８８９単語であった。この８８９単語のうち、「は」、「の」といった格助詞は削除した。また１０回未満の低頻度単語に関しても、充分な訓練データが得られないため対象から除外した。最終的に３５６単語が対象となった。

３５６単語と共起する動作断片を訓練データのペアとして構成し、二値分類を行った。すなわち、３５６個の二値分類器を訓練・構築し、評価した。ある単語のカテゴリがジェスチャ特徴から高精度に分類できた場合、発言中の単語を表現する共通のジェスチャ特徴が存在するという仮説を立てるものとした。実験は５分割交差検定により行われた。動作断片と共起する単語は１対多対応なので、問題設定は、多重ラベル分類タスクとなる。単純に多クラス分類の精度を算出することは難しいため、評価尺度は、正例、負例両方のカテゴリの分類精度の平均を採用した。

評価の結果、３５６単語の分類器に関して、８０単語の分類器に関しては６０．０％以上の分類性能を得た。２値分類のベースラインは全サンプル数を考慮すると５６．１％であった。この精度はp<0.01の水準でランダム５０％より精度が高い閾値であり、以降ランダムベースラインと定義する。最大で６０．０％以上の精度を得られた８０単語（分類器）に関する平均精度として、ジェスチャフェーズとSCISに基づく１次元プリミティブ特徴量を用いた方法では、６３．４％であり、７６個の単語を６０％以上の精度で分類することができた。これは、ランダムベースライン５６．１％を上回る他、SCISの１次元プリミティブ特徴量のみを使用したモデルの平均精度５８．０％、SCISの多次元プリミティブ特徴量のモデルの平均精度４４．９％を上回る。以上により、実施例に記載の装置、方法の有効性が示された。

また、８０単語の分類精度の内、６５％以上の精度が得られた単語について、分析を行った結果、６５％以上の精度を有した名詞は「それ」、「次」、「よう」、「服」、「上」、「そこ」、「感じ」、「時」であった。多くの場合、最大の精度はジェスチャフェーズの特徴量を用いたモデルで得られ、「よう」だけはSISCに基づく特徴量を用いたモデルで得られた。

６５％以上の精度を有した動詞は「入る」、「異なる」、「する」、「行く」、「試す」、「つかまえる」、「くる」、「かんがえる」、「たたく」であった。多くの場合、最大の精度はジェスチャフェーズの特徴量を用いたモデルで得られた。これらの動詞は説明課題の元のビデオのキャラクターの動作を示すものであり、それらを良く表す特徴量はジェスチャフェーズ、プリミティブパターンの特徴量であった。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
発話から抽出された単語の単語ベクトルを取得する単語ベクトル取得部と、
ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される２値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するジェスチャ単語対応付部を含む
モデル学習装置。
請求項１に記載のモデル学習装置であって、
前記ジェスチャ特徴は、
手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
モデル学習装置。
身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される２値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定する発話単語推定部を含む
発話単語推定装置。
請求項３に記載の発話単語推定装置であって、
前記ジェスチャ特徴は、
手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
発話単語推定装置。
モデル学習装置が実行するモデル学習方法であって、
身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
発話から抽出された単語の単語ベクトルを取得するステップと、
ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される２値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するステップを含む
モデル学習方法。
発話単語推定装置が実行する発話単語推定方法であって、
身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される２値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定するステップを含む
発話単語推定方法。
コンピュータを、請求項１または２に記載のモデル学習装置として機能させるプログラム。
コンピュータを、請求項３または４に記載の発話単語推定装置として機能させるプログラム。