JP6719745B2 - モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム - Google Patents
モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム Download PDFInfo
- Publication number
- JP6719745B2 JP6719745B2 JP2017058796A JP2017058796A JP6719745B2 JP 6719745 B2 JP6719745 B2 JP 6719745B2 JP 2017058796 A JP2017058796 A JP 2017058796A JP 2017058796 A JP2017058796 A JP 2017058796A JP 6719745 B2 JP6719745 B2 JP 6719745B2
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- word
- model
- feature
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 28
- 230000033001 locomotion Effects 0.000 claims description 59
- 239000013598 vector Substances 0.000 claims description 33
- 239000012634 fragment Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 9
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 description 35
- 238000012545 processing Methods 0.000 description 17
- 239000000284 extract Substances 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000271566 Aves Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000287219 Serinus canaria Species 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Description
以下、図2を参照してモデル学習装置1の動作の概要を説明する。同図に示すように、ジェスチャ特徴取得部11は、身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得する(S11)。単語ベクトル取得部12は、発話から抽出された単語の単語ベクトルを取得する(S12)。ジェスチャ単語対応付部13は、ジェスチャ特徴と単語ベクトル(単語)をそれらの時間共起に基づいて対応付け、単語毎のモデルであって、ジェスチャ特徴を入力とし、入力されたジェスチャ特徴がモデルに対応付けられた単語と対応するか否かを分類するモデルを生成し、モデル記憶部14に記憶する(S13)。
ジェスチャ入力部111は、ジェスチャを取得する(S111)。ジェスチャ入力部111は例えば、光学式モーションキャプチャシステムでよい。ジェスチャ入力部111を光学式モーションキャプチャシステムとした場合、被験者の両手首に装着したマーカーの3次元座標の時系列データをジェスチャとして取得することができる。より詳細には、両腕のマーカーから取得した三次元座標、計6次元のベクトルの時系列データをジェスチャとして用いることができる。
ジェスチャ区間抽出部112は、入力されたジェスチャからジェスチャの動作区間を抽出する(S112)。より詳細には、ジェスチャ区間抽出部112は、膝の上または膝付近で手が静止している状態が継続する区間を静止区間と定義し、それ以外の区間を動作区間と定義し、入力された各時刻のジェスチャを何れかの区間に分類する。ジェスチャ区間抽出部112はこの2クラス分類の手法として、隠れマルコフモデルを用いることができる。
ジェスチャ特徴抽出部113は、ジェスチャの動作区間に含まれるジェスチャの特徴量を抽出する(S113)。ジェスチャ特徴抽出部113は、手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、動作プリミティブパターンに関する特徴量の3種類の特徴量のいずれか、または全部を計算する。これらの特徴量はそれぞれ動作軌跡特徴抽出部1131、ジェスチャフェーズ特徴抽出部1132、動作プリミティブパターン特徴抽出部1133により計算される。
動作軌跡特徴抽出部1131は、手の動作軌跡に関する特徴量を抽出する(S1131)。動作軌跡特徴抽出部1131を構成するための学習モデルとして、隠れマルコフモデルを用いてもよい。
ジェスチャフェーズ特徴抽出部1132は、ジェスチャフェーズに関する特徴量を抽出する(S1132)。
動作プリミティブパターン特徴抽出部1133は、手の動作軌跡に含まれる共通の短い時系列パターン(動作プリミティブパターン)に関する特徴量を抽出する(S1133)。
音声信号入力部121は、音声信号を取得する(S121)。音声信号入力部121として、例えばマイクロホンを用いることができる。
発話区間検出部122は、入力された音声信号から発話区間を検出する(S122)。発話区間検出部122は、例えば零点交差法により発話区間の候補を抽出し、事前に発話区間/非発話区間を学習しておいた混合ガウシアンモデルを用いて発話区間を検出してもよい。
音声認識部123は、発話区間に含まれる単語を抽出する(S123)。音声認識部123として、音声信号に基づく自動音声認識処理が利用できる。また、自動処理の代わりに人間による書き起し処理が利用できる。例えば、700ms以下の短い音声断片を削除した結果を発話区間として抽出し、その後、手動にてアノテーションする方法を用いてもよい。
単語ベクトル構築部124は、認識された単語列の形態素解析に基づき、発話区間ごとに単語ベクトルを構築する(S124)。より詳細には、単語ベクトル構築部124は、音声認識部123において得られる文字列を入力とし、形態素解析により、発話に含まれる単語セットを構築し、各発話断片に含まれる単語集合から単語ベクトル(Bag of Words:BoW)を構成する。
ジェスチャ単語対応付部13は、ジェスチャの動作区間と発話断片の時間的な共起関係に基づいて、ジェスチャ特徴と単語とを対応付けてモデルを生成し(S13)、当該モデルをモデル記憶部14に記憶する。以下のルールが利用可能である。
(1)発話断片Uyと動作区間Gxが時間的に共起している場合、それらを対応付ける。
(2)発話断片Uyに含まれる単語ベクトルを
(3)wnとMFxは教師付き学習の目的変数(Y)と入力ベクトル(X)に対応する。
モデルは、ジェスチャ特徴を入力として、そのジェスチャが所定の単語に対応するか否かを分類(2値分類)し、出力する分類器である。モデルは、各単語につき一つずつ学習される。
本実施例のモデル学習装置1によれば、ジェスチャ特徴から発話単語を推定するためのモデルを学習することができる。説明を行う状況など話者がジェスチャを表出する場面をモデル学習装置1によって解析することにより、発話中の単語とジェスチャ、手の動作の特徴量の対応付けを学習し、ジェスチャと同時に発話される単語を推定するモデルを構築することができる。
本実施例の発話単語推定装置2によれば、予め学習されたモデルを用いて、ジェスチャ特徴から発話単語を推定することができる。
上述のモデル学習装置1、発話単語推定装置2の性能評価実験について説明する。この実験では、グループ対話タスクとして、動画を事前に観察した被験者(説明者)がその動画を見ていない被験者(聞き手)に動画の内容を説明するというタスクが設定された。動画として、ワーナーブラザーズ(登録商標)社の“Canary Row”というアニメーションが用意された。グループ対話タスクでは、アニメーションの情景、猫・鳥などの登場人物の動作を表現するためのハンドジェスチャが発言に伴って観測された。被験者の発話を取得するために、指向性無線マイクと録音機材を用いた。被験者の顔の向き、ハンドジェスチャをセンシングするために、モーションアナリシス(登録商標)社製の光学式モーションキャプチャシステムMac3Dを用いた。
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
Claims (8)
- 身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
発話から抽出された単語の単語ベクトルを取得する単語ベクトル取得部と、
ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するジェスチャ単語対応付部を含む
モデル学習装置。 - 請求項1に記載のモデル学習装置であって、
前記ジェスチャ特徴は、
手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
モデル学習装置。 - 身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するジェスチャ特徴取得部と、
各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定する発話単語推定部を含む
発話単語推定装置。 - 請求項3に記載の発話単語推定装置であって、
前記ジェスチャ特徴は、
手の動作軌跡に関する特徴量、ジェスチャフェーズに関する特徴量、前記手の動作軌跡に含まれる共通の短い時系列パターンである動作プリミティブパターンに関する特徴量の少なくとも何れかを含む
発話単語推定装置。 - モデル学習装置が実行するモデル学習方法であって、
身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
発話から抽出された単語の単語ベクトルを取得するステップと、
ジェスチャ特徴と単語ベクトルをそれらの時間共起に基づいて対応付け、各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルを生成するステップを含む
モデル学習方法。 - 発話単語推定装置が実行する発話単語推定方法であって、
身体動作の時系列データであるジェスチャの特徴量であるジェスチャ特徴を取得するステップと、
各単語につき一つずつ学習され、各単語に対応する動作断片と、それ以外に対応する動作断片との間で訓練される2値分類器であるモデルであって、前記ジェスチャ特徴を入力とし、入力された前記ジェスチャ特徴が前記モデルに対応付けられた単語と対応するか否かを分類するモデルに基づいて、前記ジェスチャ特徴と対応する単語を推定するステップを含む
発話単語推定方法。 - コンピュータを、請求項1または2に記載のモデル学習装置として機能させるプログラ ム。
- コンピュータを、請求項3または4に記載の発話単語推定装置として機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017058796A JP6719745B2 (ja) | 2017-03-24 | 2017-03-24 | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017058796A JP6719745B2 (ja) | 2017-03-24 | 2017-03-24 | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018163400A JP2018163400A (ja) | 2018-10-18 |
JP6719745B2 true JP6719745B2 (ja) | 2020-07-08 |
Family
ID=63860232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017058796A Active JP6719745B2 (ja) | 2017-03-24 | 2017-03-24 | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6719745B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1026999A (ja) * | 1996-07-10 | 1998-01-27 | Nec Shizuoka Ltd | 手話翻訳装置 |
JPH1173297A (ja) * | 1997-08-29 | 1999-03-16 | Hitachi Ltd | 音声とジェスチャによるマルチモーダル表現の時間的関係を用いた認識方法 |
US7069215B1 (en) * | 2001-07-12 | 2006-06-27 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
KR100948600B1 (ko) * | 2006-12-04 | 2010-03-24 | 한국전자통신연구원 | 제스처/음성 융합 인식 시스템 및 방법 |
US9152376B2 (en) * | 2011-12-01 | 2015-10-06 | At&T Intellectual Property I, L.P. | System and method for continuous multimodal speech and gesture interaction |
US9946354B2 (en) * | 2014-08-29 | 2018-04-17 | Microsoft Technology Licensing, Llc | Gesture processing using a domain-specific gesture language |
-
2017
- 2017-03-24 JP JP2017058796A patent/JP6719745B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018163400A (ja) | 2018-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | Deep spatio-temporal feature fusion with compact bilinear pooling for multimodal emotion recognition | |
Pei et al. | Multivariate time-series classification using the hidden-unit logistic model | |
Cohen et al. | Facial expression recognition from video sequences: temporal and static modeling | |
CN109598231B (zh) | 一种视频水印的识别方法、装置、设备及存储介质 | |
Bhattacharya et al. | Speech2affectivegestures: Synthesizing co-speech gestures with generative adversarial affective expression learning | |
Pieropan et al. | Audio-visual classification and detection of human manipulation actions | |
Arumugam | Emotion classification using facial expression | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
Jachimski et al. | A comparative study of English viseme recognition methods and algorithms | |
Roh et al. | Human gesture recognition using a simplified dynamic Bayesian network | |
Kumar et al. | Bird species classification from images using deep learning | |
Adewopo et al. | Baby physical safety monitoring in smart home using action recognition system | |
Rahul et al. | An efficient technique for facial expression recognition using multistage hidden Markov model | |
Kelly et al. | Recognition of spatiotemporal gestures in sign language using gesture threshold hmms | |
Vaijayanthi et al. | Human emotion recognition from body posture with machine learning techniques | |
JP6172755B2 (ja) | 感情情報推定装置、方法及びプログラム | |
JP6719745B2 (ja) | モデル学習装置、発話単語推定装置、モデル学習方法、発話単語推定方法、プログラム | |
Pagariya et al. | Facial emotion recognition in videos using hmm | |
Lan et al. | Low level descriptors based DBLSTM bottleneck feature for speech driven talking avatar | |
Mestri et al. | Analysis of feature extraction and classification models for lip-reading | |
Hussain et al. | Deep learning for audio visual emotion recognition | |
De et al. | Computational intelligence for human action recognition | |
Sucharta et al. | A survey on various pattern recognition methods for the identification of a Different types of images | |
Okada et al. | Recognizing words from gestures: Discovering gesture descriptors associated with spoken utterances | |
Ravinder et al. | An approach for gesture recognition based on a lightweight convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20170324 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20181130 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191007 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191126 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200121 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200603 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6719745 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |