JP6719745B2 - モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム - Google Patents

モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム Download PDF

Info

Publication number
JP6719745B2
JP6719745B2 JP2017058796A JP2017058796A JP6719745B2 JP 6719745 B2 JP6719745 B2 JP 6719745B2 JP 2017058796 A JP2017058796 A JP 2017058796A JP 2017058796 A JP2017058796 A JP 2017058796A JP 6719745 B2 JP6719745 B2 JP 6719745B2
Authority
JP
Japan
Prior art keywords
gesture
word
model
feature
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017058796A
Other languages
English (en)
Other versions
JP2018163400A (ja
Inventor
大塚 和弘
和弘 大塚
将吾 岡田
将吾 岡田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Original Assignee
Nippon Telegraph and Telephone Corp
Tokyo Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, Tokyo Institute of Technology NUC filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017058796A priority Critical patent/JP6719745B2/ja
Publication of JP2018163400A publication Critical patent/JP2018163400A/ja
Application granted granted Critical
Publication of JP6719745B2 publication Critical patent/JP6719745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Description

本発明は、モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラムに関する。
コミュニケーションに用いられる自然なジェスチャの認識・生成技術はインターフェース、会話ロボット、エージェントなどの実現に必要不可欠である。また、表出された非言語情報と、プレゼンテ―ションの能力を含むコミュニケーションへの効果の関連性をモデル化する研究も行われている。
しかし非言語情報、とりわけハンドジェスチャの認識・生成モデルの構築は以下の二つの理由で容易ではない。第一に、ハンドジェスチャは、発話内容だけでなく、発話者の態度や、談話調整といった様々なコンテキストに関連して生成されている。第二に、会話中に観測される手の動かし方、手を動かす頻度、ジェスチャを行うタイミングには個人差があり、汎用的なモデルを構築することが難しい。
この問題が故に、従来のジェスチャ認識に関する研究では、被験者に予め同じジェスチャを行うよう教示し、訓練データを収集し、モデルを構築していた。このデータ収集アプローチでは会話中の自然なジェスチャをモデル化することは困難であった。
この分野の従来技術として、予め動作やジェスチャのカテゴリを定義して認識を行う方法として、モーションキャプチャやカメラといったデバイスを用いて手の動作特徴量を抽出し、条件付き確率場(Conditional Random Fields、非特許文献1)や、潜在動的条件付き確率場(Latent Dynamic Conditional Random Fields、非特許文献2)といった時系列データの構造を捉えることができる学習モデルを用いる方法が知られている。また、近年では深層学習(Deep learning、非特許文献3)も利用されている。
一方、一連の動作データよりパターンを発見する教師無し学習のアプローチでジェスチャを解析する方法も提案されている。Zhouらは連続時系列データの分節化と、分節化されたパターンのクラスタリングを交互に行うことでパターンを発見するHACA(hierarchical aligned cluster analysis、非特許文献4)アルゴリズムを提案している。Bozkurtらは、並列隠れマルコフモデル(PHMMs, parallel hidden Markov models、非特許文献5)を提案し、手の動作のプリミティブパターンを発見する方法を提案した。Joshiらはジェスチャ分類に基づいて時系列データを分節化する方法を提案している(非特許文献6)。
S. Wang, A. Quattoni, L.-P. Morency, D. Demirdjian, and T. Darrell. Hidden conditional random fields for gesture recognition. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, volume 2, pages 1521.1527, 2006. L.-P. Morency, A. Quattoni, and T. Darrell. Latent-dynamic discriminative models for continuous gesture recognition. In Proc. IEEE Conference on Computer Vision and Pattern Recognition, 2007. S. Ji, W. Xu, M. Yang, and K. Yu. 3d convolutional neural networks for human action recognition. IEEE transactions on pattern analysis and machine intelligence, 35(1):221.231, 2013. F. Zhou, F. De la Torre, and J. K. Hodgins. Aligned cluster analysis for temporal segmentation of human motion. In Automatic Face & Gesture Recognition, 2008. FG’08. 8th IEEE International Conference on, pages 1.7. IEEE, 2008 E. Bozkurt, S. Asta, S. O ¨ zkul, Y. Yemez, and E. Erzin. Multimodal analysis of speech prosody and upper body gestures using hidden semimarkov models. In 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, pages 3652.3656. IEEE, 2013. A. Joshi, C. Monnier, M. Betke, and S. Sclaroff. A random forest approach to segmenting and classifying gestures. In Automatic Face and Gesture Recognition (FG), 2015 11th IEEE International Conference and Workshops on, volume 1, pages 1.7. IEEE, 2015. Y. Li, C. Fermuller, Y. Aloimonos, and H. Ji. Learning shift-invariant sparse representation of actions. In Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on, pages 2630-2637, 2010.
上記の研究では、教師あり・無し学習によるアプローチの違いはあるものの、対話中に表出するジェスチャの認識・理解に焦点をあてていない。
そこで本発明では、発話中に行われたジェスチャの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャの特徴量から発話単語を推定するモデルを生成するモデル学習装置を提供する。
本発明のモデル学習装置は、ジェスチャ特徴取得部と、単語ベクトル取得部と、ジェスチャ単語対応付部を含む。
ジェスチャ特徴取得部は、身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得する。単語ベクトル取得部は、発話から抽出された単語の単語ベクトルを取得する。ジェスチャ単語対応付部は、ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、単語毎のモデルであって、ジェスチャ特徴を入力とし、入力されたジェスチャ特徴がモデルに対応付けられた単語と対応するか否かを分類するモデルを生成する。
本発明のモデル学習装置によれば、発話中に行われたジェスチャの特徴量と発話に含まれる単語の単語ベクトルとの間の時間的対応関係に基づいて、ジェスチャの特徴量から発話単語を推定するモデルを生成することができる。
実施例1のモデル学習装置の構成を示すブロック図。 実施例1のモデル学習装置の動作を示すフローチャート。 実施例1のジェスチャ特徴取得部の動作を示すフローチャート。 実施例1の単語ベクトル取得部の動作を示すフローチャート。 実施例2の発話単語推定装置の構成を示すブロック図。 実施例2の発話単語推定装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
以下、図1を参照して実施例1のモデル学習装置について説明する。同図に示すように本実施例のモデル学習装置1は、ジェスチャ特徴取得部11と、単語ベクトル取得部12と、ジェスチャ単語対応付部13と、モデル記憶部14を含む構成である。
ジェスチャ特徴取得部11は、ジェスチャ入力部111と、ジェスチャ区間抽出部112と、ジェスチャ特徴抽出部113を含む。ジェスチャ特徴抽出部113は、動作軌跡特徴抽出部1131と、ジェスチャフェーズ特徴取得部1132と、動作プリミティブパターン特徴抽出部1133を含む。
単語ベクトル取得部12は、音声信号入力部121と、発話区間検出部122と、音声認識部123と、単語ベクトル構築部124を含む。
<モデル学習装置1の動作の概要>
以下、図2を参照してモデル学習装置1の動作の概要を説明する。同図に示すように、ジェスチャ特徴取得部11は、身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得する(S11)。単語ベクトル取得部12は、発話から抽出された単語の単語ベクトルを取得する(S12)。ジェスチャ単語対応付部13は、ジェスチャ特徴と単語ベクトル(単語)をそれらの時間共起に基づいて対応付け、単語毎のモデルであって、ジェスチャ特徴を入力とし、入力されたジェスチャ特徴がモデルに対応付けられた単語と対応するか否かを分類するモデルを生成し、モデル記憶部14に記憶する(S13)。
以下、図3を参照してジェスチャ特徴取得部11内の各構成要件の動作について説明する。
<ジェスチャ入力部111>
ジェスチャ入力部111は、ジェスチャを取得する(S111)。ジェスチャ入力部111は例えば、光学式モーションキャプチャシステムでよい。ジェスチャ入力部111を光学式モーションキャプチャシステムとした場合、被験者の両手首に装着したマーカーの3次元座標の時系列データをジェスチャとして取得することができる。より詳細には、両腕のマーカーから取得した三次元座標、計6次元のベクトルの時系列データをジェスチャとして用いることができる。
<ジェスチャ区間抽出部112>
ジェスチャ区間抽出部112は、入力されたジェスチャからジェスチャの動作区間を抽出する(S112)。より詳細には、ジェスチャ区間抽出部112は、膝の上または膝付近で手が静止している状態が継続する区間を静止区間と定義し、それ以外の区間を動作区間と定義し、入力された各時刻のジェスチャを何れかの区間に分類する。ジェスチャ区間抽出部112はこの2クラス分類の手法として、隠れマルコフモデルを用いることができる。
<ジェスチャ特徴抽出部113>
ジェスチャ特徴抽出部113は、ジェスチャの動作区間に含まれるジェスチャの特徴量を抽出する(S113)。ジェスチャ特徴抽出部113は、手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、動作プリミティブパターンに関する特徴量の3種類の特徴量のいずれか、または全部を計算する。これらの特徴量はそれぞれ動作軌跡特徴抽出部1131、ジェスチャフェーズ特徴抽出部1132、動作プリミティブパターン特徴抽出部1133により計算される。
<動作軌跡特徴抽出部1131>
動作軌跡特徴抽出部1131は、手の動作軌跡に関する特徴量を抽出する(S1131)。動作軌跡特徴抽出部1131を構成するための学習モデルとして、隠れマルコフモデルを用いてもよい。
より詳細には、動作軌跡特徴抽出部1131は、ジェスチャ入力部111が取得した6次元のベクトルの時系列データを、最初に話者の重心(両肩のマーカーの三次元座標の平均値)位置を原点とする座標系に変換する。動作軌跡特徴抽出部1131は、この時系列データに対して一定の窓幅のフィルタを適用し、時系列データを平滑化する。フィルタとしては、例えば窓幅50msのガウシアンフィルタが利用可能である。動作軌跡特徴抽出部1131は、この時系列データ中に一定時間以下の欠損が観測された場合には、データの補間を行う。この欠損の条件として、500ms以下の時間長が利用できる。また、補間方法として、線形補間が利用可能である。
フレームtにおける左右のマーカーの三次元座標は
Figure 0006719745
と表され、座標の時系列データは
Figure 0006719745
と表される。ここでpに基づいて、速度ベクトル(フレーム間微分)を計算し、
Figure 0006719745
と表す。ただし
Figure 0006719745
とする。次に、個人差を正規化した座標時系列データを計算し、
Figure 0006719745
と表す。ここで、
Figure 0006719745
とする。meanIは、被験者iのセッション中に観測される時系列データの平均ベクトルを示し、stdIは標準偏差を示す。右腕のマーカーに関しても、Pl,VPl,IPlと同様にPr,VPr,IPrを計算する。次に、左右両腕のマーカーの座標の差分ベクトルを
Figure 0006719745
として表す。ここで
Figure 0006719745
とする。動作軌跡特徴抽出部1131は、計7種類、21次元の時系列データを動作軌跡の特徴量MTFとして定義して、特徴量MTFを計算する。
<ジェスチャフェーズ特徴抽出部1132>
ジェスチャフェーズ特徴抽出部1132は、ジェスチャフェーズに関する特徴量を抽出する(S1132)。
より詳細には、ジェスチャフェーズ特徴抽出部1132は、ジェスチャ区間抽出部112で抽出されたジェスチャの動作区間を隠れマルコフモデルを用いて、ストローク、ホールドと呼ばれるジェスチャフェーズに分類する。ジェスチャフェーズ特徴抽出部1132は、ストローク、ホールドの各々について、その時間長、頻度、及び、それらの区間が全体に占める時間割合を特徴量として計算する。
ジェスチャフェーズには、準備と復帰のフェーズを含めることもできる。具体的には、ジェスチャフェーズ特徴抽出部1132は、ジェスチャセグメントの時間長(MT)を動作区間のフレーム数TDとして計算する。ジェスチャフェーズ特徴抽出部1132は、ストローク・ホールドセグメントの頻度として、動作区間に含まれるストローク・ホールドのセグメントの回数をMTで割った値を頻度
Figure 0006719745
とそれぞれ定義して計算する。ジェスチャフェーズ特徴抽出部1132は、ストローク・ホールドの占める時間割合として、ホールドジェスチャの時間共起割合を計算する。
Figure 0006719745
TH iはi番目のホールドセグメントのフレーム長である。ジェスチャフェーズ特徴抽出部1132は、同様にストロークセグメントの総時間長SdLも計算する。ジェスチャフェーズの特徴量を
Figure 0006719745
と定義する。
<動作プリミティブパターン特徴抽出部1133>
動作プリミティブパターン特徴抽出部1133は、手の動作軌跡に含まれる共通の短い時系列パターン(動作プリミティブパターン)に関する特徴量を抽出する(S1133)。
動作プリミティブパターン特徴抽出部1133は、動作系列から教師なし学習で動作プリミティブパターンに関する特徴量を抽出する。そのため動作プリミティブパターン特徴抽出部1133は、移動不変疎符号化(Sift Invariant Sparse Coding,SISC)により抽出した特徴を用いることができる。移動不変疎符号化の学習には、サポートベクターマシンを用いることができる。
SISCは辞書学習手法の一つであり、辞書に含まれる各コードが短い時系列パターンに対応しており、時系列データを複数の短い時系列パターンの集合として分解する。この時系列パターンをプリミティブと呼称する。
SISCは複数のプリミティブの生起する時刻とプリミティブの形状を交互に学習するように定式化される。本実施例の方法では、片手だけ無意味な動きが観測される場合に、ノイズとなる不要な次元の値が得られる可能性があるため、多次元パターンとしてではなく、各次元ごとにプリミティブパターンを学習する。パラメータの最適化には、非特許文献7の近接勾配法(Gradient Descent,GD)を用いることができる。
21次元の時系列データMTFをSISCの入力とする。fm[n]をMTFにおけるm次元目の固定長のプリミティブパターンとする。信号の長さをN、0<n<Nとすると、fm[n]は以下で表される。
Figure 0006719745
ここで、φk d[m]はd番目のプリミティブとする(0<d<D,0<m<M)。一般的に、そのパターン長(ベクトル長)は短くM≪Nとなる。活性化系列:αk d[n]はスパース応答を構成する。その活性化系列はそのd番目のプリミティブが生起する時刻を表している。αk d[n]の時間長は入力時系列データの長さNに等しい。φk d[m]の*は畳み込み作用素を示しており、αk d[n]の値を各プリミティブに畳み込むことで、各プリミティブと各時刻での活性度の間の相関を計算するために用いられる。
学習では、モデルパラメータφk d[m]とαk d[n]の最適化が行われる。実際の入力時系列データとfmk[n]の二乗誤差を最小化することで最適化を行う。ここで、正則化項にl1ノルムを採用することで、αの多くの値は0になる。全体的な最適化問題は次で表される。
Figure 0006719745
ここで、
Figure 0006719745
はαのl1ノルムを示しており、その項の重みを制御するλはラグランジェ乗数である。また、制約として||φ||2 F≦1が用いられる。ここでは、目的関数(式(3))は非凸な目的関数であるが、αとφのどちらかが固定されている場合、凸関数になることが知られている。ここでは相互最適化を行う。SISCの学習が終了した後、αとφから特徴量を構成する。プリミティブ特徴量SFはSiの時間長を持つ動作区間iに対して、
Figure 0006719745
と計算される。δはディラックのデルタ関数を示す。
次に、辞書特徴量DFはSiの時間長を持つ動作区間iに対して、
Figure 0006719745
として計算される。SFi,d,kはプリミティブパターンdの疎な度合いを示しており、dfi,d,kはプリミティブパターンdの活性化度合いを示している。ジェスチャプリミティブ特徴量は
Figure 0006719745
と定義される。
以下、図4を参照して単語ベクトル取得部12内の各構成要件の動作について説明する。
<音声信号入力部121>
音声信号入力部121は、音声信号を取得する(S121)。音声信号入力部121として、例えばマイクロホンを用いることができる。
<発話区間検出部122>
発話区間検出部122は、入力された音声信号から発話区間を検出する(S122)。発話区間検出部122は、例えば零点交差法により発話区間の候補を抽出し、事前に発話区間/非発話区間を学習しておいた混合ガウシアンモデルを用いて発話区間を検出してもよい。
<音声認識部123>
音声認識部123は、発話区間に含まれる単語を抽出する(S123)。音声認識部123として、音声信号に基づく自動音声認識処理が利用できる。また、自動処理の代わりに人間による書き起し処理が利用できる。例えば、700ms以下の短い音声断片を削除した結果を発話区間として抽出し、その後、手動にてアノテーションする方法を用いてもよい。
<単語ベクトル構築部124>
単語ベクトル構築部124は、認識された単語列の形態素解析に基づき、発話区間ごとに単語ベクトルを構築する(S124)。より詳細には、単語ベクトル構築部124は、音声認識部123において得られる文字列を入力とし、形態素解析により、発話に含まれる単語セットを構築し、各発話断片に含まれる単語集合から単語ベクトル(Bag of Words:BoW)を構成する。
以下、ジェスチャ単語対応付部13の動作の詳細について説明する。
<ジェスチャ単語対応付部13>
ジェスチャ単語対応付部13は、ジェスチャの動作区間と発話断片の時間的な共起関係に基づいて、ジェスチャ特徴と単語とを対応付けてモデルを生成し(S13)、当該モデルをモデル記憶部14に記憶する。以下のルールが利用可能である。
(1)発話断片Uyと動作区間Gxが時間的に共起している場合、それらを対応付ける。
(2)発話断片Uyに含まれる単語ベクトルを
Figure 0006719745
とし、その中で、アクティブとなっているすべての単語(wn>1)と共起した動作区間Gx内の特徴量
Figure 0006719745
をペアとする。
(3)wnとMFxは教師付き学習の目的変数(Y)と入力ベクトル(X)に対応する。
ジェスチャ単語対応付部13は、上記(1)〜(3)の手順を全ての発話断片について行い、データセットを構築する。
<モデル、モデル記憶部14>
モデルは、ジェスチャ特徴を入力として、そのジェスチャが所定の単語に対応するか否かを分類(2値分類)し、出力する分類器である。モデルは、各単語につき一つずつ学習される。
図1の例では、モデル記憶部14は、N個のモデル14−1〜14−N(モデルW1、…、モデルWN)を記憶している。モデル14−1〜14−Nは抽出された特徴量MFxを訓練データとして機械学習を行うことで構成することができる。
MTFxは時系列データであるため、モデルとして、時系列データのための学習モデルである隠れマルコフモデルを用いることができる。GFFx,GPFxは固定長の多変量ベクトルであるため、モデルとして線形サポートベクターマシンを用いることができる。それぞれのモデルについて、ジェスチャの断片と、単語ベクトルとを時間同期させ対応づけ、各単語をカテゴリに対応させて、各単語に対応する動作断片と、それ以外に対応する動作断片との間で2値分類器を訓練することによりモデルを構成することができる。
<効果>
本実施例のモデル学習装置1によれば、ジェスチャ特徴から発話単語を推定するためのモデルを学習することができる。説明を行う状況など話者がジェスチャを表出する場面をモデル学習装置1によって解析することにより、発話中の単語とジェスチャ、手の動作の特徴量の対応付けを学習し、ジェスチャと同時に発話される単語を推定するモデルを構築することができる。
以下、図5、図6を参照して、実施例2の発話単語推定装置の構成および動作について説明する。図5に示すように、発話単語推定装置2は、ジェスチャ特徴取得部11と、発話単語推定部23と、モデル記憶部14を含み、ジェスチャ特徴取得部11と、モデル記憶部14は実施例1と同じ機能を有する。
本実施例の発話単語推定装置2は、実施例1のモデル学習装置1が学習したモデルを利用する装置である。ジェスチャ特徴取得部11は実施例1と同様に動作して、ジェスチャ特徴を取得する(S11)。発話単語推定部23は、予めモデル記憶部14に記憶されたモデルに基づいて、入力されたジェスチャ特徴と対応する単語を推定する(S23)。
なお、モデル学習装置1と発話単語推定装置2の機能を兼ね備える装置を実現することもできる。モデル学習装置1と発話単語推定装置2の機能を兼ね備える装置とする場合、図1におけるジェスチャ単語対応付部13に、発話単語推定部23の機能を追加すればよい。
<効果>
本実施例の発話単語推定装置2によれば、予め学習されたモデルを用いて、ジェスチャ特徴から発話単語を推定することができる。
<性能評価実験>
上述のモデル学習装置1、発話単語推定装置2の性能評価実験について説明する。この実験では、グループ対話タスクとして、動画を事前に観察した被験者(説明者)がその動画を見ていない被験者(聞き手)に動画の内容を説明するというタスクが設定された。動画として、ワーナーブラザーズ(登録商標)社の“Canary Row”というアニメーションが用意された。グループ対話タスクでは、アニメーションの情景、猫・鳥などの登場人物の動作を表現するためのハンドジェスチャが発言に伴って観測された。被験者の発話を取得するために、指向性無線マイクと録音機材を用いた。被験者の顔の向き、ハンドジェスチャをセンシングするために、モーションアナリシス(登録商標)社製の光学式モーションキャプチャシステムMac3Dを用いた。
16人の被験者の動作データから、発話区間と時間共起する443個の動作断片が抽出された。発話データの形態素解析の結果、16人による説明に含まれた語彙数(単語数)の合計は889単語であった。この889単語のうち、「は」、「の」といった格助詞は削除した。また10回未満の低頻度単語に関しても、充分な訓練データが得られないため対象から除外した。最終的に356単語が対象となった。
356単語と共起する動作断片を訓練データのペアとして構成し、二値分類を行った。すなわち、356個の二値分類器を訓練・構築し、評価した。ある単語のカテゴリがジェスチャ特徴から高精度に分類できた場合、発言中の単語を表現する共通のジェスチャ特徴が存在するという仮説を立てるものとした。実験は5分割交差検定により行われた。動作断片と共起する単語は1対多対応なので、問題設定は、多重ラベル分類タスクとなる。単純に多クラス分類の精度を算出することは難しいため、評価尺度は、正例、負例両方のカテゴリの分類精度の平均を採用した。
評価の結果、356単語の分類器に関して、80単語の分類器に関しては60.0%以上の分類性能を得た。2値分類のベースラインは全サンプル数を考慮すると56.1%であった。この精度はp<0.01の水準でランダム50%より精度が高い閾値であり、以降ランダムベースラインと定義する。最大で60.0%以上の精度を得られた80単語(分類器)に関する平均精度として、ジェスチャフェーズとSCISに基づく1次元プリミティブ特徴量を用いた方法では、63.4%であり、76個の単語を60%以上の精度で分類することができた。これは、ランダムベースライン56.1%を上回る他、SCISの1次元プリミティブ特徴量のみを使用したモデルの平均精度58.0%、SCISの多次元プリミティブ特徴量のモデルの平均精度44.9%を上回る。以上により、実施例に記載の装置、方法の有効性が示された。
また、80単語の分類精度の内、65%以上の精度が得られた単語について、分析を行った結果、65%以上の精度を有した名詞は「それ」、「次」、「よう」、「服」、「上」、「そこ」、「感じ」、「時」であった。多くの場合、最大の精度はジェスチャフェーズの特徴量を用いたモデルで得られ、「よう」だけはSISCに基づく特徴量を用いたモデルで得られた。
65%以上の精度を有した動詞は「入る」、「異なる」、「する」、「行く」、「試す」、「つかまえる」、「くる」、「かんがえる」、「たたく」であった。多くの場合、最大の精度はジェスチャフェーズの特徴量を用いたモデルで得られた。これらの動詞は説明課題の元のビデオのキャラクターの動作を示すものであり、それらを良く表す特徴量はジェスチャフェーズ、プリミティブパターンの特徴量であった。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (8)

  1. 身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
    発話から抽出された単語の単語ベクトルを取得する単語ベクトル取得部と、
    ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するジェスチャ単語対応付部を含む
    モデル学習装置。
  2. 請求項1に記載のモデル学習装置であって、
    前記ジェスチャ特徴は、
    手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
    モデル学習装置。
  3. 身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
    各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定する発話単語推定部を含む
    発話単語推定装置。
  4. 請求項3に記載の発話単語推定装置であって、
    前記ジェスチャ特徴は、
    手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
    発話単語推定装置。
  5. モデル学習装置が実行するモデル学習方法であって、
    身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
    発話から抽出された単語の単語ベクトルを取得するステップと、
    ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するステップを含む
    モデル学習方法。
  6. 発話単語推定装置が実行する発話単語推定方法であって、
    身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
    各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定するステップを含む
    発話単語推定方法。
  7. コンピュータを、請求項1または2に記載のモデル学習装置として機能させるプログラ ム。
  8. コンピュータを、請求項3または4に記載の発話単語推定装置として機能させるプログラム。
JP2017058796A 2017-03-24 2017-03-24 モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム Active JP6719745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017058796A JP6719745B2 (ja) 2017-03-24 2017-03-24 モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017058796A JP6719745B2 (ja) 2017-03-24 2017-03-24 モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム

Publications (2)

Publication Number Publication Date
JP2018163400A JP2018163400A (ja) 2018-10-18
JP6719745B2 true JP6719745B2 (ja) 2020-07-08

Family

ID=63860232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017058796A Active JP6719745B2 (ja) 2017-03-24 2017-03-24 モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム

Country Status (1)

Country Link
JP (1) JP6719745B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1026999A (ja) * 1996-07-10 1998-01-27 Nec Shizuoka Ltd 手話翻訳装置
JPH1173297A (ja) * 1997-08-29 1999-03-16 Hitachi Ltd 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法
US7069215B1 (en) * 2001-07-12 2006-06-27 At&T Corp. Systems and methods for extracting meaning from multimodal inputs using finite-state devices
KR100948600B1 (ko) * 2006-12-04 2010-03-24 한국전자통신연구원 제스처/음성 융합 인식 시스템 및 방법
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US9946354B2 (en) * 2014-08-29 2018-04-17 Microsoft Technology Licensing, Llc Gesture processing using a domain-specific gesture language

Also Published As

Publication number Publication date
JP2018163400A (ja) 2018-10-18

Similar Documents

Publication Publication Date Title
Nguyen et al. Deep spatio-temporal feature fusion with compact bilinear pooling for multimodal emotion recognition
Pei et al. Multivariate time-series classification using the hidden-unit logistic model
Cohen et al. Facial expression recognition from video sequences: temporal and static modeling
CN109598231B (zh) 一种视频水印的识别方法、装置、设备及存储介质
Bhattacharya et al. Speech2affectivegestures: Synthesizing co-speech gestures with generative adversarial affective expression learning
Pieropan et al. Audio-visual classification and detection of human manipulation actions
Arumugam Emotion classification using facial expression
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Jachimski et al. A comparative study of English viseme recognition methods and algorithms
Roh et al. Human gesture recognition using a simplified dynamic Bayesian network
Kumar et al. Bird species classification from images using deep learning
Adewopo et al. Baby physical safety monitoring in smart home using action recognition system
Rahul et al. An efficient technique for facial expression recognition using multistage hidden Markov model
Kelly et al. Recognition of spatiotemporal gestures in sign language using gesture threshold hmms
Vaijayanthi et al. Human emotion recognition from body posture with machine learning techniques
JP6172755B2 (ja) 感情情報推定装置、方法及びプログラム
JP6719745B2 (ja) モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム
Pagariya et al. Facial emotion recognition in videos using hmm
Lan et al. Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar
Mestri et al. Analysis of feature extraction and classification models for lip-reading
Hussain et al. Deep learning for audio visual emotion recognition
De et al. Computational intelligence for human action recognition
Sucharta et al. A survey on various pattern recognition methods for the identification of a Different types of images
Okada et al. Recognizing words from gestures: Discovering gesture descriptors associated with spoken utterances
Ravinder et al. An approach for gesture recognition based on a lightweight convolutional neural network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20170324

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20181130

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200121

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200603

R150 Certificate of patent or registration of utility model

Ref document number: 6719745

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250