JP2019049829A

JP2019049829A - 目的区間判別装置、モデル学習装置、及びプログラム

Info

Publication number: JP2019049829A
Application number: JP2017173318A
Authority: JP
Inventors: 小島　真一; Shinichi Kojima; 真一小島; 博幸森▲崎▼; Hiroyuki Morisaki; 和久永石; Kazuhisa Nagaishi
Original assignee: Aisin Seiki Co Ltd; Toyota Central R&D Labs Inc
Current assignee: Toyota Central R&D Labs Inc; Aisin Corp
Priority date: 2017-09-08
Filing date: 2017-09-08
Publication date: 2019-03-28

Abstract

【課題】短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる目的区間判別装置、モデル学習装置、及びプログラムを提供する。【解決手段】目的区間判別装置１０は、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部１６と、画像特徴量抽出部１６により抽出された画像特徴量から、予め求められた、画像特徴量の個人差成分を表現するための個人差基底及び画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部１８と、個人内変動パラメータ推定部１８により推定された個人内変動パラメータに基づいて、顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部２０と、を備える。【選択図】図１

Description

本発明は、目的区間判別装置、モデル学習装置、及びプログラムに係り、特に、個人の顔の少なくとも一部を撮影した画像が目的区間であるか否かを判別するための目的区間判別装置、モデル学習装置、及びプログラムに関する。

従来、話者の唇を含む画像をカメラにより連続的に撮影し、撮影された画像により得られる唇の動きから話者が発話している発話区間を検出する技術が研究されている。

例えば、特許文献１には、話者の唇を含んだ画像をカメラで連続的に撮影すると共に、話者が発話した音声を集音し、連続的に撮影した画像に基づいて唇の形状が変形した度合いを示す変形量を導出する技術が記載されている。この特許文献１に記載の技術によれば、画像に基づいてカメラから話者までの距離及びカメラに対する話者の顔の向きを導出し、導出した距離が所定範囲内で、かつ、顔の向きがカメラに対して所定角度範囲内であり、かつ、集音した音声の強度が所定レベル以上である場合に、導出した変形量に基づいて話者が発話している発話区間の判別に用いる変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間が検出される。

また、特許文献２には、連続的に撮影された画像中の、特定の画像における***パターンと、特定の画像の直前に撮影された連続した複数の画像の中の***包含パターンとを比較し、これらの相関値を算出し、算出された変動量に基づいて発話区間であるか否かを検出する技術が記載されている。

また、特許文献３には、集音された音響情報に基づく音響情報の特徴量と撮像された画像情報に基づく唇特徴量を時間軸方向に平滑化した視覚特徴量とを統合して発話区間を検出し、検出された発話区間に基づき発話を認識する技術が記載されている。

特許第４７１５７３８号公報特許第４６５０８８８号公報特開２０１１−１９１４２３号公報

しかしながら、上記の特許文献１に記載の技術では、話者の顔の向きや距離により補正が行われるため、顔の基本的な形状に基づく個人差の影響は除去されていない。従って、発話区間の検出精度が低下する場合がある。

また、上記の特許文献２、３に記載の技術では、時間的に変化する複数の画像を用いるため、処理に時間がかかり、発話区間の検出に時間的な遅れが発生する場合がある。

このため、口をはじめ、個人の顔の少なくとも一部を対象とした場合に、発話区間等の目的区間を、短い処理時間で、精度良く判別できることが望まれている。

本発明は、上記の問題点を解決するためになされたもので、短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる目的区間判別装置、モデル学習装置、及びプログラムを提供することを目的とする。

上記目的を達成するために、請求項１に係る目的区間判別装置は、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部と、前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部と、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部と、を備える。

また、請求項２に係る目的区間判別装置は、請求項１に記載の発明において、前記個人差基底が、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の基準の状態を表す複数の学習用画像の画像特徴量に基づいて求められ、前記個人内変動基底が、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の状態を表す複数の学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去した画像特徴量に基づいて求められるものである。

また、請求項３に係る目的区間判別装置は、請求項１又は２に記載の発明において、前記目的区間判別部が、予め学習された、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを用いて、前記目的区間であるか否かを判別するものである。

また、請求項４に係る目的区間判別装置は、請求項１〜３のいずれか１項に記載の発明において、前記個人の音声から音声特徴量を抽出する音声特徴量抽出部を更に備え、前記目的区間判別部が、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータと、前記音声特徴量抽出部により抽出された前記音声特徴量とに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別するものである。

また、請求項５に係る目的区間判別装置は、請求項１〜４のいずれか１項に記載の発明において、前記個人の顔の少なくとも一部が、口とされ、前記目的区間が、前記口が開いた状態を表す発話区間とされている。

一方、上記目的を達成するために、請求項６に記載のモデル学習装置は、個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部と、前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部と、目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部と、を備える。

一方、上記目的を達成するために、請求項７に記載のプログラムは、コンピュータを、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部、前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部、及び前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部として機能させるためのプログラムである。

更に、上記目的を達成するために、請求項８に記載のプログラムは、コンピュータを、個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部、前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部、及び目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部、として機能させるためのプログラムである。

以上説明したように、本発明の目的区間判別装置、モデル学習装置、及びプログラムによれば、短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる。

第１の実施形態に係る目的区間判別装置の機能的な構成の一例を示すブロック図である。第１の実施形態に係る目的区間判別装置として機能するコンピュータの構成の一例を示すブロック図である。第１の実施形態に係るモデル学習装置の機能的な構成の一例を示すブロック図である。第１の実施形態に係るモデル学習装置として機能するコンピュータの構成の一例を示すブロック図である。（Ａ）実施形態に係る口を閉じた状態の学習用画像の一例を示す図、（Ｂ）実施形態に係る口を閉じた状態及び口を開いた状態を含む学習用画像の一例を示す図である。実施形態に係る学習用画像から得られる複数の特徴点の一例を示す図である。第１の実施形態に係る目的区間判別処理プログラムの処理の流れの一例を示すフローチャートである。第１の実施形態に係るモデル学習処理プログラムの処理の流れの一例を示すフローチャートである。（Ａ）〜（Ｄ）実施形態に係るモデル学習装置により得られる解像度毎の個人差基底の一例を示す図である。（Ａ）〜（Ｄ）実施形態に係るモデル学習装置により得られる解像度毎の個人内変動基底の一例を示す図である。第２の実施形態に係る目的区間判別装置の機能的な構成の一例を示すブロック図である。

以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。なお、本実施形態では、一例として、個人の顔の少なくとも一部を口とし、目的区間を発話区間として、撮影対象とされる個人の口を含む口画像から発話区間を判別する場合について説明する。

[第１の実施形態]
図１は、第１の実施形態に係る目的区間判別装置１０の機能的な構成の一例を示すブロック図である。
図１に示すように、第１の実施形態に係る目的区間判別装置１０は、入力部１２、特徴点検出部１４、画像特徴量抽出部１６、個人内変動パラメータ推定部１８、目的区間判別部２０、出力部２２、及び記憶部２４を備える。

入力部１２は、カメラ３０により撮影された、個人の口を含む口画像の入力を受け付ける。なお、口画像は、少なくとも１つあればよい。

特徴点検出部１４は、入力部１２により入力された口画像から、例えば、パターンマッチング法等の周知の領域検出技術を用いて、口を表す口領域を検出する。そして、特徴点検出部１４は、検出した口領域から、例えば、周知のパターンマッチング法等を用いて、予め定められた判別モデル（後述）における複数の特徴点に対応する複数の特徴点を検出する。なお、口画像における複数の特徴点の場所及び数は、特に限定されるものではないが、判別モデルにおける複数の特徴点の場所及び数と一致させておく。

画像特徴量抽出部１６は、特徴点検出部１４により検出された複数の特徴点から、口画像の画像特徴量を抽出する。なお、口画像の画像特徴量としては、一例として、複数の特徴点の各々の座標を（Ｘ，Ｙ）、特徴点の数をＮとした場合、以下の２Ｎ次元の特徴ベクトルとして求められる。但し、Ｔは転置を表す。

[Ｘ_１Ｙ_１・・・Ｘ_ＮＹ_Ｎ]^Ｔ

個人内変動パラメータ推定部１８は、画像特徴量抽出部１６により抽出された画像特徴量から、予め求められた個人差基底及び個人内変動基底に基づいて、個人内変動基底に関する個人内変動パラメータを推定する。

ここで、個人差基底とは、画像特徴量の個人差成分を表現するための複数の基底ベクトルからなる行列として示される。個人差基底は、後述するモデル学習装置４０により、複数の被験者の口が基準の状態を表す複数の学習用画像の画像特徴量に基づいて予め求められる。なお、口の基準の状態とは、例えば、口が閉じた状態を示す。

一方、個人内変動基底とは、画像特徴量の個人内の変動成分を表現するための複数の基底ベクトルからなる行列として示される。個人内変動基底は、モデル学習装置４０により、複数の被験者の口の状態を表す複数の学習用画像の画像特徴量から、個人差基底を用いて個人差成分を除去した画像特徴量に基づいて予め求められる。この場合、口の状態には、口が閉じた状態、口が開いた状態、口が半開きの状態等の様々な状態が含まれる。

これらの個人差基底及び個人内変動基底は、記憶部２４に予め記憶されている。また、記憶部２４には、画像特徴量の平均値を表す特徴量平均が記憶されている。この特徴量平均は、モデル学習装置４０により、複数の学習用画像から得られる複数の特徴ベクトルを平均して得られる、予め求められたベクトルである。

ここで、個人差基底を表す行列をＰ_ｂ、個人内変動基底を表す行列をＰ_ｗ、特徴量平均を表す複数の特徴ベクトルの平均値を

とする。そして、入力を受け付けた口画像の特徴ベクトルをｘ、個人差基底Ｐ_ｂに関する個人差パラメータをｐ_ｂ、個人内変動基底Ｐ_ｗに関する個人内変動パラメータをｐ_ｗとした場合、以下の関係が成立する。但し、Ｐ_ｂｐ_ｂは、個人差成分を表し、Ｐ_ｗｐ_ｗは、個人内の変動成分を表す。個人差パラメータｐ_ｂは、式（２）で表される。個人内変動パラメータｐ_ｗは、式（４）で表される。なお、個人内変動パラメータｐ_ｗを求める際に、個人差パラメータｐ_ｂを必ずしも求める必要はない。

なお、Ｐ_ｂを直交基底とした場合、上記式（２）は以下のようにして導出される。

ここで、上記式（４）により求まる個人内変動パラメータｐ_ｗは、個人内変動基底Ｐ_ｗ及び個人差基底Ｐ_ｂを用いて表されるが、後述するように、個人内変動基底Ｐ_ｗは、学習用画像の画像特徴量から個人差成分を除去したものから求められている。従って、個人内変動パラメータｐ_ｗは、入力を受け付けた口画像の特徴ベクトルｘから、個人差の影響を除去した特徴ベクトル（個人内変動成分）に関するパラメータとされる。

次に、目的区間判別部２０は、個人内変動パラメータ推定部１８により推定された個人内変動パラメータに基づいて、入力を受け付けた口画像に含まれる口が発話区間であるか否かを判別する。具体的には、記憶部２４に予め記憶されている判別モデルを用いて、判別される。この判別モデルは、モデル学習装置４０により、複数の学習用画像を用いて予め学習されたモデルであり、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルである。

出力部２２は、目的区間判別部２０による判別結果を表す信号を出力する。この判別結果を表す信号としては、発話区間と非発話区間とを識別可能な信号であればよく、例えば、「０」及び「１」のいずれかを表す信号としてもよい。

図２は、第１の実施形態に係る目的区間判別装置１０として機能するコンピュータの構成の一例を示すブロック図である。
図２に示すように、本実施形態に係る目的区間判別装置１０は、ＣＰＵ(Central Processing Unit)１０Ａ及び内部メモリ１０Ｂを含む汎用的なコンピュータとして構成される。

内部メモリ１０Ｂには、本実施形態に係る目的区間判別処理プログラムが格納されている。この目的区間判別処理プログラムは、例えば、目的区間判別装置１０に予めインストールされていてもよい。また、目的区間判別処理プログラムは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布し、目的区間判別装置１０に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、ＣＤ-ＲＯＭ(Compact Disc Read Only Memory)、光磁気ディスク、ＨＤＤ(Hard Disk Drive)、ＤＶＤ-ＲＯＭ(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。

ＣＰＵ１０Ａは、図１に示す入力部１２、特徴点検出部１４、画像特徴量抽出部１６、個人内変動パラメータ推定部１８、目的区間判別部２０、及び出力部２２として機能する。ＣＰＵ１０Ａは、内部メモリ１０Ｂから目的区間判別処理プログラムを読み出して実行することで、これら各部として機能する。また、ＣＰＵ１０Ａは、カメラ３０、外部システム３２、及び外部記憶装置３４の各々と接続されている。外部システム３２は、例えば、対話システム等であり、ＣＰＵ１０Ａ（出力部２２）からの判別結果を表す信号を受信して各種の処理を行う。外部記憶装置３４には、本実施形態に係る目的区間判別処理に用いる各種のデータが記憶される。

次に、判別モデルを学習するためのモデル学習装置４０について説明する。

図３は、第１の実施形態に係るモデル学習装置４０の機能的な構成の一例を示すブロック図である。
図３に示すように、本実施形態に係るモデル学習装置４０は、入力部４２、特徴点検出部４４、画像特徴量抽出部４６、個人差基底算出部４８、個人内変動基底算出部５０、及びモデル生成部５２を備える。

図４は、第１の実施形態に係るモデル学習装置４０として機能するコンピュータの構成の一例を示すブロック図である。
図４に示すように、本実施形態に係るモデル学習装置４０は、ＣＰＵ４０Ａ及び内部メモリ４０Ｂを含む汎用的なコンピュータとして構成される。

内部メモリ４０Ｂには、本実施形態に係るモデル学習処理プログラムが格納されている。このモデル学習処理プログラムは、例えば、モデル学習装置４０に予めインストールされていてもよい。また、モデル学習処理プログラムは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布し、モデル学習装置４０に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、上記と同様に、ＣＤ-ＲＯＭ、光磁気ディスク、ＨＤＤ、ＤＶＤ-ＲＯＭ、フラッシュメモリ、メモリカード等が想定される。

ＣＰＵ４０Ａは、図３に示す入力部４２、特徴点検出部４４、画像特徴量抽出部４６、個人差基底算出部４８、個人内変動基底算出部５０、及びモデル生成部５２として機能する。ＣＰＵ４０Ａは、内部メモリ１０Ｂからモデル学習処理プログラムを読み出して実行することで、これら各部として機能する。また、ＣＰＵ４０Ａは、外部記憶装置３４と接続されている。

図５（Ａ）は、本実施形態に係る口を閉じた状態の学習用画像の一例を示す図である。図５（Ｂ）は、本実施形態に係る口を閉じた状態及び口を開いた状態を含む学習用画像の一例を示す図である。

図５（Ａ）及び図５（Ｂ）に示す学習用画像の各々は、左右の口端の中点を中心として、左右の口端の座標値の差をｗとした場合に、一例として、（ｗ＋１０）×（ｗ＋１０）の正方形状を切り出した画像である。

外部記憶装置３４には、図５（Ａ）及び図５（Ｂ）に示すような、被験者の口を含む口画像が、学習用画像として記憶されている。図５（Ａ）に示す口を閉じた状態のみの学習用画像（以下、口閉じ画像という。）は、個人差基底の算出に用いられ、図５（Ｂ）に示す口を閉じた状態及び口を開いた状態を含む画像（以下、全体画像という。）は、個人内変動基底の算出に用いられる。

まず、複数の学習用画像から個人差基底を求める方法について説明する。この場合、図５（Ａ）に示す複数の口閉じ画像が用いられる。

入力部４２は、外部記憶装置３４から複数（例えばＭ個）の口閉じ画像の入力を受け付ける。

図６は、本実施形態に係る学習用画像から得られる複数の特徴点の一例を示す図である。
図６に示す例では、口を開いた状態の学習用画像における複数の特徴点を示すが、口を閉じた状態の学習用画像でも、口を開いた状態と同一の場所及び数の複数の特徴点が用いられる。

特徴点検出部４４は、入力部４２により入力された口閉じ画像から、口領域を検出し、検出した口領域から、一例として図６に示すように、複数の特徴点の各々の座標（ｘ，ｙ）を検出する。

画像特徴量抽出部４６は、特徴点検出部４４により検出された複数の特徴点から、口閉じ画像の画像特徴量を抽出する。口閉じ画像の画像特徴量としては、一例として、サンプリングした特徴点の数をＮ個とした場合、以下の２Ｎ次元の特徴ベクトルとして求められる。

[ｘ_１ｙ_１・・・ｘ_Ｎｙ_Ｎ]^Ｔ

本実施形態に係る個人差基底算出部４８は、上記の２Ｎ次元の特徴ベクトルがＭ個の口閉じ画像の各々について得られるため、Ｍ個の口閉じ画像についての特徴ベクトルを表す、２Ｎ×Ｍの行例（以下、行列Ａ_１という。）を求める。そして、求めた行列Ａ_１について、行ごとに平均値を求める。これにより、Ｍ個の口閉じ画像についての特徴量平均が得られる。

個人差基底算出部４８は、上記で求めた行列Ａ_１に対して主成分分析を行い、主成分分析で得られた固有ベクトルを大きさが１になるように正規化してから固有値の大きい順に並べ、固有値の大きい方からｎ_１個の固有ベクトルを取り出して並べた２Ｎ×ｎ_１の行列を生成する。この２Ｎ×ｎ_１の行列を個人差基底（すなわち、個人差基底Ｐ_ｂ）とする。なお、ｎ_１の決め方としては、固有値の寄与率が一定割合（例えば８０％）以上になるように選択する方法や、経験的に個数を決める方法等がある。

次に、複数の学習用画像から個人内変動基底を求める方法について説明する。この場合、図５（Ｂ）に示す複数の全体画像が用いられる。

本実施形態に係る個人内変動基底算出部５０は、個人差基底の場合と同様に、上記の２Ｎ次元の特徴ベクトルがＭ個の全体画像の各々について得られるため、Ｍ個の全体画像についての特徴ベクトルを表す、２Ｎ×Ｍの行列（以下、行列Ａ_２という。）を求める。そして、求めた行列Ａ_２について、行ごとに平均値を求める。これにより、Ｍ個の全体画像についての特徴量平均が得られる。本実施形態では、全体画像についての特徴量平均、及び、口閉じ画像についての特徴量平均のいずれを用いてもよいが、様々な口の状態に対応した全体画像についての特徴量平均を用いることが望ましい。

個人内変動基底算出部５０は、Ｍ個の全体画像についての画像特徴量（行列Ａ_２）と、個人差基底算出部４８により算出された個人差基底（個人差基底Ｐ_ｂ）とに基づいて、Ｍ個の全体画像についての画像特徴量（行列Ａ_２）から、個人差基底を用いて個人差成分を除去する。一例として、以下の式５が適用される。

Ａ_３＝Ａ_２−(Ａ_２×Ｐ_ｂ×Ｐ_ｂ ^Ｔ）（５）

上記式５に従って算出された行列Ａ_３は、行列Ａ_２と同じ次元の２Ｎ×Ｍ行列で、行列Ａ_２から個人差成分が除去され、個人差基底の影響が除かれたものになる。なお、この例では、個人差成分として、Ａ_２×Ｐ_ｂ×Ｐ_ｂ ^Ｔ、が除去されている。

そして、個人内変動基底算出部５０は、個人差成分を除去した画像特徴量（行列Ａ_３）に基づいて、個人内変動基底を算出する。つまり、個人内変動基底算出部５０は、行列Ａ_３に対して主成分分析を行い、主成分分析で得られた固有ベクトルを大きさが１になるように正規化してから固有値の大きい順に並べ、固有値の大きい方からｎ_２個の固有ベクトルを取り出して並べた２Ｎ×ｎ_２の行列を生成する。この２Ｎ×ｎ_２の行列を個人内変動基底（すなわち、個人内変動基底Ｐ_ｗ）とする。なお、ｎ_２の決め方としては、ｎ_１と同様であり、固有値の寄与率が一定割合（例えば８０％）以上になるように選択する方法や、経験的に個数を決める方法等がある。

モデル生成部５２は、複数のモデル学習用画像の各々から抽出された画像特徴量と、個人差基底算出部４８により算出された個人差基底と、個人内変動基底算出部５０により算出された個人内変動基底とに基づいて、モデル学習用画像の各々について、個人内変動基底に関する個人内変動パラメータを推定する。なお、モデル学習用画像とは、上述の学習用画像と同様に、被験者の口を含む口画像であり、発話区間であるか否かを示す情報として、例えばフラグが付与されている。このモデル学習用画像には、発話区間であるか否かを示す情報が付与されていれば、個人内変動基底の算出処理に用いた全体画像（図５（Ｂ）を参照）を利用してもよいし、当該全体画像とは異なる画像を用いてもよい。また、個人内変動パラメータは、上述の式（４）を用いて算出される。

そして、モデル生成部５２は、モデル学習用画像の各々について推定された個人内変動パラメータと、モデル学習用画像の各々に付与された、発話区間であるか否かを示すフラグとに基づいて、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルを学習する。これにより、発話区間を判別するための判別モデルが生成される。

ここで、複数の特徴点の取り方によっては、口を閉じた状態と口を開けた状態とで画素値の変化が大きい特徴点と、口を閉じた状態と口を開けた状態とで画素値の変化が小さい特徴点と、が存在する場合がある。この場合、モデル生成部５２により、判別モデルとして、画素値の変化が大きい特徴点には、変化の度合いをより強調するための重み係数が付与され、画素値の変化が小さい特徴点には、変化の度合いをより低減するための重み係数が付与される。

本実施形態によれば、１つの入力画像から発話区間であるか否かを判別できるため、連続した複数の画像を用いる場合と比べて、処理時間を短縮することができる。また、入力画像から得られる画像特徴量から個人差の影響が除去されているため、発話区間と非発話区間とを精度良く判別することができる。

次に、図７を参照して、第１の実施形態に係る目的区間判別装置１０の作用を説明する。なお、図７は、第１の実施形態に係る目的区間判別処理プログラムの処理の流れの一例を示すフローチャートである。

まず、図７のステップ１００では、入力部１２が、対象とされる個人の口をカメラ３０で撮影した口画像の入力を受け付ける。

ステップ１０２では、特徴点検出部１４が、入力部１２により入力を受け付けた口画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。

ステップ１０４では、画像特徴量抽出部１６が、特徴点検出部１４により検出された複数の特徴点から、画像特徴量として、例えば、２Ｎ次元の特徴ベクトルを抽出する。

ステップ１０６では、個人内変動パラメータ推定部１８が、画像特徴量抽出部１６により抽出された画像特徴量、並びに、記憶部２４に予め記憶されている個人差基底及び個人内変動基底に基づいて、上記式（４）に従って、個人内変動基底に関する個人内変動パラメータを推定する。

ステップ１０８では、目的区間判別部２０が、個人内変動パラメータ推定部１８により推定された個人内変動パラメータに基づいて、入力を受け付けた口画像に含まれる口が発話区間であるか否かを、記憶部２４に予め記憶されている判別モデルを用いて判別する。発話区間と判別された場合（肯定判定の場合）、ステップ１１０に移行し、非発話区間と判別された場合（否定判定の場合）、ステップ１１２に移行する。

ステップ１１０では、出力部２２が、目的区間判別部２０による判別結果を表す信号として、発話区間を表す信号を出力し、一連の目的区間判別処理プログラムの処理を終了する。

一方、ステップ１１２では、出力部２２が、目的区間判別部２０による判別結果を表す信号として、非発話区間を表す信号を出力し、一連の目的区間判別処理プログラムの処理を終了する。

次に、図８を参照して、第１の実施形態に係るモデル学習装置４０の作用を説明する。なお、図８は、第１の実施形態に係るモデル学習処理プログラムの処理の流れの一例を示すフローチャートである。

まず、図８のステップ２００では、入力部４２が、外部記憶装置３４からＭ個の学習用画像（口閉じ画像）の入力を順番に受け付ける。なお、口閉じ画像とは、例えば、図５（Ａ）に示される口画像である。

ステップ２０２では、特徴点検出部４４が、入力部４２により入力を受け付けた口閉じ画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。

ステップ２０４では、画像特徴量抽出部４６が、特徴点検出部４４により検出された複数の特徴点から、画像特徴量として、例えば、２Ｎ次元の特徴ベクトルを抽出する。

ステップ２０６では、画像特徴量抽出部４６が、Ｍ個の口閉じ画像の全てについて画像特徴量を抽出する処理が終了したか否かを判定する。Ｍ個の口閉じ画像の全てについて処理が終了したと判定した場合（肯定判定の場合）、ステップ２０８に移行する。一方、Ｍ個の口閉じ画像の全てについては処理が終了していないと判定した場合（否定判定の場合）、ステップ２００に戻り処理を繰り返す。

ステップ２０８では、個人差基底算出部４８が、画像特徴量抽出部４６により抽出されたＭ個の画像特徴量から行列Ａ_１を求め、求めた行列Ａ_１に対して主成分分析を行って、個人差基底Ｐ_ｂを算出し、ステップ２１０に移行する。

次に、ステップ２１０では、入力部４２が、外部記憶装置３４からＭ個の学習用画像（全体画像）の入力を順番に受け付ける。なお、全体画像とは、例えば、図５（Ｂ）に示される口画像である。

ステップ２１２では、特徴点検出部４４が、入力部４２により入力を受け付けた全体画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。

ステップ２１４では、画像特徴量抽出部４６が、特徴点検出部４４により検出された複数の特徴点から、画像特徴量として、例えば、２Ｎ次元の特徴ベクトルを抽出する。

ステップ２１６では、画像特徴量抽出部４６が、Ｍ個の全体画像の全てについて画像特徴量を抽出する処理が終了したか否かを判定する。Ｍ個の全体画像の全てについて処理が終了したと判定した場合（肯定判定の場合）、ステップ２１８に移行する。一方、Ｍ個の全体画像の全てについては処理が終了していないと判定した場合（否定判定の場合）、ステップ２１０に戻り処理を繰り返す。

ステップ２１８では、個人内変動基底算出部５０が、画像特徴量抽出部４６により抽出されたＭ個の画像特徴量から行列Ａ_２を求め、求めた行列Ａ_２から、上記式（５）に従って、個人差基底算出部４８により算出された個人差基底を用いて個人差成分を除去して行列Ａ_３を求める。そして、個人差成分を除去した行列Ａ_３に対して主成分分析を行って、個人内変動基底Ｐ_ｗを算出し、ステップ２２０に移行する。

次に、ステップ２２０では、入力部４２が、外部記憶装置３４からＭ個のモデル学習用画像の入力を順番に受け付ける。

ステップ２２２では、特徴点検出部４４が、入力部４２により入力を受け付けたモデル学習用画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。

ステップ２２４では、画像特徴量抽出部４６が、特徴点検出部４４により検出された複数の特徴点から、画像特徴量として、例えば、２Ｎ次元の特徴ベクトルを抽出する。なお、モデル学習用画像として、上述の個人内変動基底の算出処理に用いた全体画像を利用した場合には、ステップ２２０〜ステップ２２４の処理が省略される。

ステップ２２６では、モデル生成部５２が、画像特徴量抽出部４６により抽出された画像特徴量と、個人差基底算出部４８により算出された個人差基底と、個人内変動基底算出部５０により算出された個人内変動基底とに基づいて、上記式（４）に従って、個人内変動パラメータを推定する。

ステップ２２８では、モデル生成部５２が、Ｍ個のモデル学習用画像の全てについて個人内変動パラメータを推定する処理が終了したか否かを判定する。Ｍ個のモデル学習用画像の全てについて処理が終了したと判定した場合（肯定判定の場合）、ステップ２３０に移行する。一方、Ｍ個のモデル学習用画像の全てについては処理が終了していないと判定した場合（否定判定の場合）、ステップ２２０に戻り処理を繰り返す。

ステップ２３０では、モデル生成部５２が、Ｍ個のモデル学習用画像の各々について推定された個人内変動パラメータと、モデル学習用画像の各々に付与された、発話区間であるか否かを示すフラグとに基づいて、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルを学習する。これにより、発話区間を判別するための判別モデルが生成される。そして、ステップ２３０の処理の後、一連のモデル学習処理プログラムの処理を終了する。

なお、上記の実施形態では、特徴点の座標値を用いて、口画像の特徴ベクトルを表したが、これに限定されるものではなく、口画像の各画素値からなる特徴ベクトルを用いてもよい。この場合には、図９（Ａ）〜（Ｄ）に示すような個人差基底が得られる。図９（Ａ）〜（Ｄ）は、本実施形態に係るモデル学習装置４０により得られる解像度毎の個人差基底の一例を示す図である。

図９（Ａ）は、８×８の画素で表した場合であり、図９（Ｂ）は、１６×１６の画素で表した場合であり、図９（Ｃ）は、３２×３２の画素で表した場合であり、図９（Ｄ）は、６４×６４の画素で表した場合である。

図１０（Ａ）〜（Ｄ）は、本実施形態に係るモデル学習装置４０により得られる解像度毎の個人内変動基底の一例を示す図である。

図１０（Ａ）は、８×８の画素で表した場合であり、図１０（Ｂ）は、１６×１６の画素で表した場合であり、図１０（Ｃ）は、３２×３２の画素で表した場合であり、図１０（Ｄ）は、６４×６４の画素で表した場合である。

[第２の実施形態]
図１１は、第２の実施形態に係る目的区間判別装置１１の機能的な構成の一例を示すブロック図である。
図１１に示すように、第２の実施形態に係る目的区間判別装置１１は、音声特徴量抽出部２６を備える点が第１の実施形態に係る目的区間判別装置１０と相違する。このため、同じ符号を付した構成要素については繰り返しの説明を省略する。

音声特徴量抽出部２６は、マイク３６と接続されている。音声特徴量抽出部２６は、マイク３６から入力される、対象とされる個人の音声から音声特徴量を抽出する。

目的区間判別部２０は、個人内変動パラメータ推定部１８により推定された個人内変動パラメータと、音声特徴量抽出部２６により抽出された音声特徴量とに基づいて、口画像に含まれる個人の口が発話区間であるか否かを判別する。音声特徴量としては、一例として、ＭＳＬＳ(Mel Scale Logarithmic Spectrum：メルスケール対数スペクトル)が抽出される。このＭＳＬＳは、音声認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient：メル周波数ケプストラム係数)を逆離散コサイン変換することで得られる。この音声特徴量を用いた発話区間か否かの判別には、周知の技術が用いられる。この場合、音声特徴量により発話区間と判別され、かつ、個人内変動パラメータが判別モデルにより発話区間と判別された場合に、発話区間と判別される。

また、単に音声の強度を用いてもよい。この場合、音声の強度が所定レベル以上であり、かつ、個人内変動パラメータが判別モデルにより発話区間と判別された場合に、発話区間と判別される。

本実施形態によれば、対象とされた個人の口を含む口画像の画像特徴量に加え、当該個人の音声の音声特徴量を用いることで、発話区間の判別をより高精度に行うことができる。

なお、上記の各実施形態では、顔の少なくとも一部として、口を対象とした場合について説明したが、目を対象としてもよい。目を対象とした場合、目的区間は、一例として、目を開いた状態とされる。また、顔の表情を対象としてもよい。顔の表情を対象とした場合、目的区間は、一例として、笑っている状態とされる。

以上、実施形態として目的区間判別装置及びモデル学習装置を例示して説明した。実施形態は、コンピュータを、目的区間判別装置、又は、モデル学習装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。

その他、上記実施形態で説明した目的区間判別装置及びモデル学習装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。

また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。

また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。

１０、１１目的区間判別装置
１０ＡＣＰＵ
１０Ｂ内部メモリ
１２入力部
１４特徴点検出部
１６画像特徴量抽出部
１８個人内変動パラメータ推定部
２０目的区間判別部
２２出力部
２４記憶部
２６音声特徴量抽出部
３０カメラ
３２外部システム
３４外部記憶装置
３６マイク
４０モデル学習装置
４０ＡＣＰＵ
４０Ｂ内部メモリ
４２入力部
４４特徴点検出部
４６画像特徴量抽出部
４８個人差基底算出部
５０個人内変動基底算出部
５２モデル生成部

Claims

個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部と、
前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部と、
前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部と、
を備えた目的区間判別装置。
前記個人差基底は、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の基準の状態を表す複数の学習用画像の画像特徴量に基づいて求められ、
前記個人内変動基底は、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の状態を表す複数の学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去した画像特徴量に基づいて求められる請求項１に記載の目的区間判別装置。
前記目的区間判別部は、予め学習された、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを用いて、前記目的区間であるか否かを判別する請求項１又は２に記載の目的区間判別装置。
前記個人の音声から音声特徴量を抽出する音声特徴量抽出部を更に備え、
前記目的区間判別部は、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータと、前記音声特徴量抽出部により抽出された前記音声特徴量とに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する請求項１〜３のいずれか１項に記載の目的区間判別装置。
前記個人の顔の少なくとも一部は、口であり、
前記目的区間は、前記口が開いた状態を表す発話区間である請求項１〜４のいずれか１項に記載の目的区間判別装置。
個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部と、
前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部と、
目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部と、
を備えたモデル学習装置。
コンピュータを、
個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部、
前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部、及び
前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部、
として機能させるためのプログラム。
コンピュータを、
個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部、
前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部、及び
目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部、
として機能させるためのプログラム。