JP2019049829A - 目的区間判別装置、モデル学習装置、及びプログラム - Google Patents

目的区間判別装置、モデル学習装置、及びプログラム Download PDF

Info

Publication number
JP2019049829A
JP2019049829A JP2017173318A JP2017173318A JP2019049829A JP 2019049829 A JP2019049829 A JP 2019049829A JP 2017173318 A JP2017173318 A JP 2017173318A JP 2017173318 A JP2017173318 A JP 2017173318A JP 2019049829 A JP2019049829 A JP 2019049829A
Authority
JP
Japan
Prior art keywords
individual
intra
image feature
individual variation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017173318A
Other languages
English (en)
Inventor
小島 真一
Shinichi Kojima
真一 小島
博幸 森▲崎▼
Hiroyuki Morisaki
博幸 森▲崎▼
和久 永石
Kazuhisa Nagaishi
和久 永石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Aisin Corp
Original Assignee
Aisin Seiki Co Ltd
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aisin Seiki Co Ltd, Toyota Central R&D Labs Inc filed Critical Aisin Seiki Co Ltd
Priority to JP2017173318A priority Critical patent/JP2019049829A/ja
Publication of JP2019049829A publication Critical patent/JP2019049829A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる目的区間判別装置、モデル学習装置、及びプログラムを提供する。【解決手段】目的区間判別装置10は、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部16と、画像特徴量抽出部16により抽出された画像特徴量から、予め求められた、画像特徴量の個人差成分を表現するための個人差基底及び画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部18と、個人内変動パラメータ推定部18により推定された個人内変動パラメータに基づいて、顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部20と、を備える。【選択図】図1

Description

本発明は、目的区間判別装置、モデル学習装置、及びプログラムに係り、特に、個人の顔の少なくとも一部を撮影した画像が目的区間であるか否かを判別するための目的区間判別装置、モデル学習装置、及びプログラムに関する。
従来、話者の唇を含む画像をカメラにより連続的に撮影し、撮影された画像により得られる唇の動きから話者が発話している発話区間を検出する技術が研究されている。
例えば、特許文献1には、話者の唇を含んだ画像をカメラで連続的に撮影すると共に、話者が発話した音声を集音し、連続的に撮影した画像に基づいて唇の形状が変形した度合いを示す変形量を導出する技術が記載されている。この特許文献1に記載の技術によれば、画像に基づいてカメラから話者までの距離及びカメラに対する話者の顔の向きを導出し、導出した距離が所定範囲内で、かつ、顔の向きがカメラに対して所定角度範囲内であり、かつ、集音した音声の強度が所定レベル以上である場合に、導出した変形量に基づいて話者が発話している発話区間の判別に用いる変形量の閾値を決定し、決定した閾値を用いて導出した変形量から発話区間が検出される。
また、特許文献2には、連続的に撮影された画像中の、特定の画像における***パターンと、特定の画像の直前に撮影された連続した複数の画像の中の***包含パターンとを比較し、これらの相関値を算出し、算出された変動量に基づいて発話区間であるか否かを検出する技術が記載されている。
また、特許文献3には、集音された音響情報に基づく音響情報の特徴量と撮像された画像情報に基づく唇特徴量を時間軸方向に平滑化した視覚特徴量とを統合して発話区間を検出し、検出された発話区間に基づき発話を認識する技術が記載されている。
特許第4715738号公報 特許第4650888号公報 特開2011−191423号公報
しかしながら、上記の特許文献1に記載の技術では、話者の顔の向きや距離により補正が行われるため、顔の基本的な形状に基づく個人差の影響は除去されていない。従って、発話区間の検出精度が低下する場合がある。
また、上記の特許文献2、3に記載の技術では、時間的に変化する複数の画像を用いるため、処理に時間がかかり、発話区間の検出に時間的な遅れが発生する場合がある。
このため、口をはじめ、個人の顔の少なくとも一部を対象とした場合に、発話区間等の目的区間を、短い処理時間で、精度良く判別できることが望まれている。
本発明は、上記の問題点を解決するためになされたもので、短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる目的区間判別装置、モデル学習装置、及びプログラムを提供することを目的とする。
上記目的を達成するために、請求項1に係る目的区間判別装置は、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部と、前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部と、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部と、を備える。
また、請求項2に係る目的区間判別装置は、請求項1に記載の発明において、前記個人差基底が、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の基準の状態を表す複数の学習用画像の画像特徴量に基づいて求められ、前記個人内変動基底が、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の状態を表す複数の学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去した画像特徴量に基づいて求められるものである。
また、請求項3に係る目的区間判別装置は、請求項1又は2に記載の発明において、前記目的区間判別部が、予め学習された、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを用いて、前記目的区間であるか否かを判別するものである。
また、請求項4に係る目的区間判別装置は、請求項1〜3のいずれか1項に記載の発明において、前記個人の音声から音声特徴量を抽出する音声特徴量抽出部を更に備え、前記目的区間判別部が、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータと、前記音声特徴量抽出部により抽出された前記音声特徴量とに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別するものである。
また、請求項5に係る目的区間判別装置は、請求項1〜4のいずれか1項に記載の発明において、前記個人の顔の少なくとも一部が、口とされ、前記目的区間が、前記口が開いた状態を表す発話区間とされている。
一方、上記目的を達成するために、請求項6に記載のモデル学習装置は、個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部と、前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部と、目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部と、を備える。
一方、上記目的を達成するために、請求項7に記載のプログラムは、コンピュータを、個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部、前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部、及び前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部として機能させるためのプログラムである。
更に、上記目的を達成するために、請求項8に記載のプログラムは、コンピュータを、個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部、前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部、及び目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部、として機能させるためのプログラムである。
以上説明したように、本発明の目的区間判別装置、モデル学習装置、及びプログラムによれば、短い処理時間で、個人の顔の少なくとも一部が目的区間であるか否かを精度良く判別することができる。
第1の実施形態に係る目的区間判別装置の機能的な構成の一例を示すブロック図である。 第1の実施形態に係る目的区間判別装置として機能するコンピュータの構成の一例を示すブロック図である。 第1の実施形態に係るモデル学習装置の機能的な構成の一例を示すブロック図である。 第1の実施形態に係るモデル学習装置として機能するコンピュータの構成の一例を示すブロック図である。 (A)実施形態に係る口を閉じた状態の学習用画像の一例を示す図、(B)実施形態に係る口を閉じた状態及び口を開いた状態を含む学習用画像の一例を示す図である。 実施形態に係る学習用画像から得られる複数の特徴点の一例を示す図である。 第1の実施形態に係る目的区間判別処理プログラムの処理の流れの一例を示すフローチャートである。 第1の実施形態に係るモデル学習処理プログラムの処理の流れの一例を示すフローチャートである。 (A)〜(D)実施形態に係るモデル学習装置により得られる解像度毎の個人差基底の一例を示す図である。 (A)〜(D)実施形態に係るモデル学習装置により得られる解像度毎の個人内変動基底の一例を示す図である。 第2の実施形態に係る目的区間判別装置の機能的な構成の一例を示すブロック図である。
以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。なお、本実施形態では、一例として、個人の顔の少なくとも一部を口とし、目的区間を発話区間として、撮影対象とされる個人の口を含む口画像から発話区間を判別する場合について説明する。
[第1の実施形態]
図1は、第1の実施形態に係る目的区間判別装置10の機能的な構成の一例を示すブロック図である。
図1に示すように、第1の実施形態に係る目的区間判別装置10は、入力部12、特徴点検出部14、画像特徴量抽出部16、個人内変動パラメータ推定部18、目的区間判別部20、出力部22、及び記憶部24を備える。
入力部12は、カメラ30により撮影された、個人の口を含む口画像の入力を受け付ける。なお、口画像は、少なくとも1つあればよい。
特徴点検出部14は、入力部12により入力された口画像から、例えば、パターンマッチング法等の周知の領域検出技術を用いて、口を表す口領域を検出する。そして、特徴点検出部14は、検出した口領域から、例えば、周知のパターンマッチング法等を用いて、予め定められた判別モデル(後述)における複数の特徴点に対応する複数の特徴点を検出する。なお、口画像における複数の特徴点の場所及び数は、特に限定されるものではないが、判別モデルにおける複数の特徴点の場所及び数と一致させておく。
画像特徴量抽出部16は、特徴点検出部14により検出された複数の特徴点から、口画像の画像特徴量を抽出する。なお、口画像の画像特徴量としては、一例として、複数の特徴点の各々の座標を(X,Y)、特徴点の数をNとした場合、以下の2N次元の特徴ベクトルとして求められる。但し、Tは転置を表す。
[X・・・X]
個人内変動パラメータ推定部18は、画像特徴量抽出部16により抽出された画像特徴量から、予め求められた個人差基底及び個人内変動基底に基づいて、個人内変動基底に関する個人内変動パラメータを推定する。
ここで、個人差基底とは、画像特徴量の個人差成分を表現するための複数の基底ベクトルからなる行列として示される。個人差基底は、後述するモデル学習装置40により、複数の被験者の口が基準の状態を表す複数の学習用画像の画像特徴量に基づいて予め求められる。なお、口の基準の状態とは、例えば、口が閉じた状態を示す。
一方、個人内変動基底とは、画像特徴量の個人内の変動成分を表現するための複数の基底ベクトルからなる行列として示される。個人内変動基底は、モデル学習装置40により、複数の被験者の口の状態を表す複数の学習用画像の画像特徴量から、個人差基底を用いて個人差成分を除去した画像特徴量に基づいて予め求められる。この場合、口の状態には、口が閉じた状態、口が開いた状態、口が半開きの状態等の様々な状態が含まれる。
これらの個人差基底及び個人内変動基底は、記憶部24に予め記憶されている。また、記憶部24には、画像特徴量の平均値を表す特徴量平均が記憶されている。この特徴量平均は、モデル学習装置40により、複数の学習用画像から得られる複数の特徴ベクトルを平均して得られる、予め求められたベクトルである。
ここで、個人差基底を表す行列をP、個人内変動基底を表す行列をP、特徴量平均を表す複数の特徴ベクトルの平均値を
とする。そして、入力を受け付けた口画像の特徴ベクトルをx、個人差基底Pに関する個人差パラメータをp、個人内変動基底Pに関する個人内変動パラメータをpとした場合、以下の関係が成立する。但し、Pは、個人差成分を表し、Pは、個人内の変動成分を表す。個人差パラメータpは、式(2)で表される。個人内変動パラメータpは、式(4)で表される。なお、個人内変動パラメータpを求める際に、個人差パラメータpを必ずしも求める必要はない。
なお、Pを直交基底とした場合、上記式(2)は以下のようにして導出される。
ここで、上記式(4)により求まる個人内変動パラメータpは、個人内変動基底P及び個人差基底Pを用いて表されるが、後述するように、個人内変動基底Pは、学習用画像の画像特徴量から個人差成分を除去したものから求められている。従って、個人内変動パラメータpは、入力を受け付けた口画像の特徴ベクトルxから、個人差の影響を除去した特徴ベクトル(個人内変動成分)に関するパラメータとされる。
次に、目的区間判別部20は、個人内変動パラメータ推定部18により推定された個人内変動パラメータに基づいて、入力を受け付けた口画像に含まれる口が発話区間であるか否かを判別する。具体的には、記憶部24に予め記憶されている判別モデルを用いて、判別される。この判別モデルは、モデル学習装置40により、複数の学習用画像を用いて予め学習されたモデルであり、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルである。
出力部22は、目的区間判別部20による判別結果を表す信号を出力する。この判別結果を表す信号としては、発話区間と非発話区間とを識別可能な信号であればよく、例えば、「0」及び「1」のいずれかを表す信号としてもよい。
図2は、第1の実施形態に係る目的区間判別装置10として機能するコンピュータの構成の一例を示すブロック図である。
図2に示すように、本実施形態に係る目的区間判別装置10は、CPU(Central Processing Unit)10A及び内部メモリ10Bを含む汎用的なコンピュータとして構成される。
内部メモリ10Bには、本実施形態に係る目的区間判別処理プログラムが格納されている。この目的区間判別処理プログラムは、例えば、目的区間判別装置10に予めインストールされていてもよい。また、目的区間判別処理プログラムは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布し、目的区間判別装置10に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、HDD(Hard Disk Drive)、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が想定される。
CPU10Aは、図1に示す入力部12、特徴点検出部14、画像特徴量抽出部16、個人内変動パラメータ推定部18、目的区間判別部20、及び出力部22として機能する。CPU10Aは、内部メモリ10Bから目的区間判別処理プログラムを読み出して実行することで、これら各部として機能する。また、CPU10Aは、カメラ30、外部システム32、及び外部記憶装置34の各々と接続されている。外部システム32は、例えば、対話システム等であり、CPU10A(出力部22)からの判別結果を表す信号を受信して各種の処理を行う。外部記憶装置34には、本実施形態に係る目的区間判別処理に用いる各種のデータが記憶される。
次に、判別モデルを学習するためのモデル学習装置40について説明する。
図3は、第1の実施形態に係るモデル学習装置40の機能的な構成の一例を示すブロック図である。
図3に示すように、本実施形態に係るモデル学習装置40は、入力部42、特徴点検出部44、画像特徴量抽出部46、個人差基底算出部48、個人内変動基底算出部50、及びモデル生成部52を備える。
図4は、第1の実施形態に係るモデル学習装置40として機能するコンピュータの構成の一例を示すブロック図である。
図4に示すように、本実施形態に係るモデル学習装置40は、CPU40A及び内部メモリ40Bを含む汎用的なコンピュータとして構成される。
内部メモリ40Bには、本実施形態に係るモデル学習処理プログラムが格納されている。このモデル学習処理プログラムは、例えば、モデル学習装置40に予めインストールされていてもよい。また、モデル学習処理プログラムは、不揮発性の記憶媒体に記憶して、又はネットワークを介して配布し、モデル学習装置40に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、上記と同様に、CD-ROM、光磁気ディスク、HDD、DVD-ROM、フラッシュメモリ、メモリカード等が想定される。
CPU40Aは、図3に示す入力部42、特徴点検出部44、画像特徴量抽出部46、個人差基底算出部48、個人内変動基底算出部50、及びモデル生成部52として機能する。CPU40Aは、内部メモリ10Bからモデル学習処理プログラムを読み出して実行することで、これら各部として機能する。また、CPU40Aは、外部記憶装置34と接続されている。
図5(A)は、本実施形態に係る口を閉じた状態の学習用画像の一例を示す図である。 図5(B)は、本実施形態に係る口を閉じた状態及び口を開いた状態を含む学習用画像の一例を示す図である。
図5(A)及び図5(B)に示す学習用画像の各々は、左右の口端の中点を中心として、左右の口端の座標値の差をwとした場合に、一例として、(w+10)×(w+10)の正方形状を切り出した画像である。
外部記憶装置34には、図5(A)及び図5(B)に示すような、被験者の口を含む口画像が、学習用画像として記憶されている。図5(A)に示す口を閉じた状態のみの学習用画像(以下、口閉じ画像という。)は、個人差基底の算出に用いられ、図5(B)に示す口を閉じた状態及び口を開いた状態を含む画像(以下、全体画像という。)は、個人内変動基底の算出に用いられる。
まず、複数の学習用画像から個人差基底を求める方法について説明する。この場合、図5(A)に示す複数の口閉じ画像が用いられる。
入力部42は、外部記憶装置34から複数(例えばM個)の口閉じ画像の入力を受け付ける。
図6は、本実施形態に係る学習用画像から得られる複数の特徴点の一例を示す図である。
図6に示す例では、口を開いた状態の学習用画像における複数の特徴点を示すが、口を閉じた状態の学習用画像でも、口を開いた状態と同一の場所及び数の複数の特徴点が用いられる。
特徴点検出部44は、入力部42により入力された口閉じ画像から、口領域を検出し、検出した口領域から、一例として図6に示すように、複数の特徴点の各々の座標(x,y)を検出する。
画像特徴量抽出部46は、特徴点検出部44により検出された複数の特徴点から、口閉じ画像の画像特徴量を抽出する。口閉じ画像の画像特徴量としては、一例として、サンプリングした特徴点の数をN個とした場合、以下の2N次元の特徴ベクトルとして求められる。
[x・・・x]
本実施形態に係る個人差基底算出部48は、上記の2N次元の特徴ベクトルがM個の口閉じ画像の各々について得られるため、M個の口閉じ画像についての特徴ベクトルを表す、2N×Mの行例(以下、行列Aという。)を求める。そして、求めた行列Aについて、行ごとに平均値を求める。これにより、M個の口閉じ画像についての特徴量平均が得られる。
個人差基底算出部48は、上記で求めた行列Aに対して主成分分析を行い、主成分分析で得られた固有ベクトルを大きさが1になるように正規化してから固有値の大きい順に並べ、固有値の大きい方からn個の固有ベクトルを取り出して並べた2N×nの行列を生成する。この2N×nの行列を個人差基底(すなわち、個人差基底P)とする。なお、nの決め方としては、固有値の寄与率が一定割合(例えば80%)以上になるように選択する方法や、経験的に個数を決める方法等がある。
次に、複数の学習用画像から個人内変動基底を求める方法について説明する。この場合、図5(B)に示す複数の全体画像が用いられる。
本実施形態に係る個人内変動基底算出部50は、個人差基底の場合と同様に、上記の2N次元の特徴ベクトルがM個の全体画像の各々について得られるため、M個の全体画像についての特徴ベクトルを表す、2N×Mの行列(以下、行列Aという。)を求める。そして、求めた行列Aについて、行ごとに平均値を求める。これにより、M個の全体画像についての特徴量平均が得られる。本実施形態では、全体画像についての特徴量平均、及び、口閉じ画像についての特徴量平均のいずれを用いてもよいが、様々な口の状態に対応した全体画像についての特徴量平均を用いることが望ましい。
個人内変動基底算出部50は、M個の全体画像についての画像特徴量(行列A)と、個人差基底算出部48により算出された個人差基底(個人差基底P)とに基づいて、M個の全体画像についての画像特徴量(行列A)から、個人差基底を用いて個人差成分を除去する。一例として、以下の式5が適用される。
=A−(A×P×P ) (5)
上記式5に従って算出された行列Aは、行列Aと同じ次元の2N×M行列で、行列Aから個人差成分が除去され、個人差基底の影響が除かれたものになる。なお、この例では、個人差成分として、A×P×P 、が除去されている。
そして、個人内変動基底算出部50は、個人差成分を除去した画像特徴量(行列A)に基づいて、個人内変動基底を算出する。つまり、個人内変動基底算出部50は、行列Aに対して主成分分析を行い、主成分分析で得られた固有ベクトルを大きさが1になるように正規化してから固有値の大きい順に並べ、固有値の大きい方からn個の固有ベクトルを取り出して並べた2N×nの行列を生成する。この2N×nの行列を個人内変動基底(すなわち、個人内変動基底P)とする。なお、nの決め方としては、nと同様であり、固有値の寄与率が一定割合(例えば80%)以上になるように選択する方法や、経験的に個数を決める方法等がある。
モデル生成部52は、複数のモデル学習用画像の各々から抽出された画像特徴量と、個人差基底算出部48により算出された個人差基底と、個人内変動基底算出部50により算出された個人内変動基底とに基づいて、モデル学習用画像の各々について、個人内変動基底に関する個人内変動パラメータを推定する。なお、モデル学習用画像とは、上述の学習用画像と同様に、被験者の口を含む口画像であり、発話区間であるか否かを示す情報として、例えばフラグが付与されている。このモデル学習用画像には、発話区間であるか否かを示す情報が付与されていれば、個人内変動基底の算出処理に用いた全体画像(図5(B)を参照)を利用してもよいし、当該全体画像とは異なる画像を用いてもよい。また、個人内変動パラメータは、上述の式(4)を用いて算出される。
そして、モデル生成部52は、モデル学習用画像の各々について推定された個人内変動パラメータと、モデル学習用画像の各々に付与された、発話区間であるか否かを示すフラグとに基づいて、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルを学習する。これにより、発話区間を判別するための判別モデルが生成される。
ここで、複数の特徴点の取り方によっては、口を閉じた状態と口を開けた状態とで画素値の変化が大きい特徴点と、口を閉じた状態と口を開けた状態とで画素値の変化が小さい特徴点と、が存在する場合がある。この場合、モデル生成部52により、判別モデルとして、画素値の変化が大きい特徴点には、変化の度合いをより強調するための重み係数が付与され、画素値の変化が小さい特徴点には、変化の度合いをより低減するための重み係数が付与される。
本実施形態によれば、1つの入力画像から発話区間であるか否かを判別できるため、連続した複数の画像を用いる場合と比べて、処理時間を短縮することができる。また、入力画像から得られる画像特徴量から個人差の影響が除去されているため、発話区間と非発話区間とを精度良く判別することができる。
次に、図7を参照して、第1の実施形態に係る目的区間判別装置10の作用を説明する。なお、図7は、第1の実施形態に係る目的区間判別処理プログラムの処理の流れの一例を示すフローチャートである。
まず、図7のステップ100では、入力部12が、対象とされる個人の口をカメラ30で撮影した口画像の入力を受け付ける。
ステップ102では、特徴点検出部14が、入力部12により入力を受け付けた口画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。
ステップ104では、画像特徴量抽出部16が、特徴点検出部14により検出された複数の特徴点から、画像特徴量として、例えば、2N次元の特徴ベクトルを抽出する。
ステップ106では、個人内変動パラメータ推定部18が、画像特徴量抽出部16により抽出された画像特徴量、並びに、記憶部24に予め記憶されている個人差基底及び個人内変動基底に基づいて、上記式(4)に従って、個人内変動基底に関する個人内変動パラメータを推定する。
ステップ108では、目的区間判別部20が、個人内変動パラメータ推定部18により推定された個人内変動パラメータに基づいて、入力を受け付けた口画像に含まれる口が発話区間であるか否かを、記憶部24に予め記憶されている判別モデルを用いて判別する。発話区間と判別された場合(肯定判定の場合)、ステップ110に移行し、非発話区間と判別された場合(否定判定の場合)、ステップ112に移行する。
ステップ110では、出力部22が、目的区間判別部20による判別結果を表す信号として、発話区間を表す信号を出力し、一連の目的区間判別処理プログラムの処理を終了する。
一方、ステップ112では、出力部22が、目的区間判別部20による判別結果を表す信号として、非発話区間を表す信号を出力し、一連の目的区間判別処理プログラムの処理を終了する。
次に、図8を参照して、第1の実施形態に係るモデル学習装置40の作用を説明する。なお、図8は、第1の実施形態に係るモデル学習処理プログラムの処理の流れの一例を示すフローチャートである。
まず、図8のステップ200では、入力部42が、外部記憶装置34からM個の学習用画像(口閉じ画像)の入力を順番に受け付ける。なお、口閉じ画像とは、例えば、図5(A)に示される口画像である。
ステップ202では、特徴点検出部44が、入力部42により入力を受け付けた口閉じ画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。
ステップ204では、画像特徴量抽出部46が、特徴点検出部44により検出された複数の特徴点から、画像特徴量として、例えば、2N次元の特徴ベクトルを抽出する。
ステップ206では、画像特徴量抽出部46が、M個の口閉じ画像の全てについて画像特徴量を抽出する処理が終了したか否かを判定する。M個の口閉じ画像の全てについて処理が終了したと判定した場合(肯定判定の場合)、ステップ208に移行する。一方、M個の口閉じ画像の全てについては処理が終了していないと判定した場合(否定判定の場合)、ステップ200に戻り処理を繰り返す。
ステップ208では、個人差基底算出部48が、画像特徴量抽出部46により抽出されたM個の画像特徴量から行列Aを求め、求めた行列Aに対して主成分分析を行って、個人差基底Pを算出し、ステップ210に移行する。
次に、ステップ210では、入力部42が、外部記憶装置34からM個の学習用画像(全体画像)の入力を順番に受け付ける。なお、全体画像とは、例えば、図5(B)に示される口画像である。
ステップ212では、特徴点検出部44が、入力部42により入力を受け付けた全体画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。
ステップ214では、画像特徴量抽出部46が、特徴点検出部44により検出された複数の特徴点から、画像特徴量として、例えば、2N次元の特徴ベクトルを抽出する。
ステップ216では、画像特徴量抽出部46が、M個の全体画像の全てについて画像特徴量を抽出する処理が終了したか否かを判定する。M個の全体画像の全てについて処理が終了したと判定した場合(肯定判定の場合)、ステップ218に移行する。一方、M個の全体画像の全てについては処理が終了していないと判定した場合(否定判定の場合)、ステップ210に戻り処理を繰り返す。
ステップ218では、個人内変動基底算出部50が、画像特徴量抽出部46により抽出されたM個の画像特徴量から行列Aを求め、求めた行列Aから、上記式(5)に従って、個人差基底算出部48により算出された個人差基底を用いて個人差成分を除去して行列Aを求める。そして、個人差成分を除去した行列Aに対して主成分分析を行って、個人内変動基底Pを算出し、ステップ220に移行する。
次に、ステップ220では、入力部42が、外部記憶装置34からM個のモデル学習用画像の入力を順番に受け付ける。
ステップ222では、特徴点検出部44が、入力部42により入力を受け付けたモデル学習用画像から、口領域を検出し、検出した口領域から複数の特徴点を検出する。
ステップ224では、画像特徴量抽出部46が、特徴点検出部44により検出された複数の特徴点から、画像特徴量として、例えば、2N次元の特徴ベクトルを抽出する。なお、モデル学習用画像として、上述の個人内変動基底の算出処理に用いた全体画像を利用した場合には、ステップ220〜ステップ224の処理が省略される。
ステップ226では、モデル生成部52が、画像特徴量抽出部46により抽出された画像特徴量と、個人差基底算出部48により算出された個人差基底と、個人内変動基底算出部50により算出された個人内変動基底とに基づいて、上記式(4)に従って、個人内変動パラメータを推定する。
ステップ228では、モデル生成部52が、M個のモデル学習用画像の全てについて個人内変動パラメータを推定する処理が終了したか否かを判定する。M個のモデル学習用画像の全てについて処理が終了したと判定した場合(肯定判定の場合)、ステップ230に移行する。一方、M個のモデル学習用画像の全てについては処理が終了していないと判定した場合(否定判定の場合)、ステップ220に戻り処理を繰り返す。
ステップ230では、モデル生成部52が、M個のモデル学習用画像の各々について推定された個人内変動パラメータと、モデル学習用画像の各々に付与された、発話区間であるか否かを示すフラグとに基づいて、個人内変動パラメータに基づいて発話区間であるか否かを判別するためのモデルを学習する。これにより、発話区間を判別するための判別モデルが生成される。そして、ステップ230の処理の後、一連のモデル学習処理プログラムの処理を終了する。
なお、上記の実施形態では、特徴点の座標値を用いて、口画像の特徴ベクトルを表したが、これに限定されるものではなく、口画像の各画素値からなる特徴ベクトルを用いてもよい。この場合には、図9(A)〜(D)に示すような個人差基底が得られる。図9(A)〜(D)は、本実施形態に係るモデル学習装置40により得られる解像度毎の個人差基底の一例を示す図である。
図9(A)は、8×8の画素で表した場合であり、図9(B)は、16×16の画素で表した場合であり、図9(C)は、32×32の画素で表した場合であり、図9(D)は、64×64の画素で表した場合である。
図10(A)〜(D)は、本実施形態に係るモデル学習装置40により得られる解像度毎の個人内変動基底の一例を示す図である。
図10(A)は、8×8の画素で表した場合であり、図10(B)は、16×16の画素で表した場合であり、図10(C)は、32×32の画素で表した場合であり、図10(D)は、64×64の画素で表した場合である。
[第2の実施形態]
図11は、第2の実施形態に係る目的区間判別装置11の機能的な構成の一例を示すブロック図である。
図11に示すように、第2の実施形態に係る目的区間判別装置11は、音声特徴量抽出部26を備える点が第1の実施形態に係る目的区間判別装置10と相違する。このため、同じ符号を付した構成要素については繰り返しの説明を省略する。
音声特徴量抽出部26は、マイク36と接続されている。音声特徴量抽出部26は、マイク36から入力される、対象とされる個人の音声から音声特徴量を抽出する。
目的区間判別部20は、個人内変動パラメータ推定部18により推定された個人内変動パラメータと、音声特徴量抽出部26により抽出された音声特徴量とに基づいて、口画像に含まれる個人の口が発話区間であるか否かを判別する。音声特徴量としては、一例として、MSLS(Mel Scale Logarithmic Spectrum:メルスケール対数スペクトル)が抽出される。このMSLSは、音声認識の特徴量としてスペクトル特徴量を用い、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)を逆離散コサイン変換することで得られる。この音声特徴量を用いた発話区間か否かの判別には、周知の技術が用いられる。この場合、音声特徴量により発話区間と判別され、かつ、個人内変動パラメータが判別モデルにより発話区間と判別された場合に、発話区間と判別される。
また、単に音声の強度を用いてもよい。この場合、音声の強度が所定レベル以上であり、かつ、個人内変動パラメータが判別モデルにより発話区間と判別された場合に、発話区間と判別される。
本実施形態によれば、対象とされた個人の口を含む口画像の画像特徴量に加え、当該個人の音声の音声特徴量を用いることで、発話区間の判別をより高精度に行うことができる。
なお、上記の各実施形態では、顔の少なくとも一部として、口を対象とした場合について説明したが、目を対象としてもよい。目を対象とした場合、目的区間は、一例として、目を開いた状態とされる。また、顔の表情を対象としてもよい。顔の表情を対象とした場合、目的区間は、一例として、笑っている状態とされる。
以上、実施形態として目的区間判別装置及びモデル学習装置を例示して説明した。実施形態は、コンピュータを、目的区間判別装置、又は、モデル学習装置が備える各部として機能させるためのプログラムの形態としてもよい。実施形態は、このプログラムを記憶したコンピュータが読み取り可能な記憶媒体の形態としてもよい。
その他、上記実施形態で説明した目的区間判別装置及びモデル学習装置の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10、11 目的区間判別装置
10A CPU
10B 内部メモリ
12 入力部
14 特徴点検出部
16 画像特徴量抽出部
18 個人内変動パラメータ推定部
20 目的区間判別部
22 出力部
24 記憶部
26 音声特徴量抽出部
30 カメラ
32 外部システム
34 外部記憶装置
36 マイク
40 モデル学習装置
40A CPU
40B 内部メモリ
42 入力部
44 特徴点検出部
46 画像特徴量抽出部
48 個人差基底算出部
50 個人内変動基底算出部
52 モデル生成部

Claims (8)

  1. 個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部と、
    前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部と、
    前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部と、
    を備えた目的区間判別装置。
  2. 前記個人差基底は、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の基準の状態を表す複数の学習用画像の画像特徴量に基づいて求められ、
    前記個人内変動基底は、前記顔の少なくとも一部と同一の部分を撮影した、複数の個人の状態を表す複数の学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去した画像特徴量に基づいて求められる請求項1に記載の目的区間判別装置。
  3. 前記目的区間判別部は、予め学習された、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを用いて、前記目的区間であるか否かを判別する請求項1又は2に記載の目的区間判別装置。
  4. 前記個人の音声から音声特徴量を抽出する音声特徴量抽出部を更に備え、
    前記目的区間判別部は、前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータと、前記音声特徴量抽出部により抽出された前記音声特徴量とに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する請求項1〜3のいずれか1項に記載の目的区間判別装置。
  5. 前記個人の顔の少なくとも一部は、口であり、
    前記目的区間は、前記口が開いた状態を表す発話区間である請求項1〜4のいずれか1項に記載の目的区間判別装置。
  6. 個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部と、
    前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部と、
    目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部と、
    を備えたモデル学習装置。
  7. コンピュータを、
    個人の顔の少なくとも一部を撮影した画像から画像特徴量を抽出する画像特徴量抽出部、
    前記画像特徴量抽出部により抽出された前記画像特徴量から、予め求められた、前記画像特徴量の個人差成分を表現するための個人差基底及び前記画像特徴量の個人内の変動成分を表現するための個人内変動基底に基づいて、前記個人内変動基底に関する個人内変動パラメータを推定する個人内変動パラメータ推定部、及び
    前記個人内変動パラメータ推定部により推定された前記個人内変動パラメータに基づいて、前記顔の少なくとも一部が目的区間であるか否かを判別する目的区間判別部、
    として機能させるためのプログラム。
  8. コンピュータを、
    個人の顔の少なくとも一部を撮影した、複数の状態のいずれかを表す学習用画像の各々のうち、前記複数の状態の中の基準の状態を表す学習用画像の各々から抽出される画像特徴量に基づいて、前記画像特徴量の個人差成分を表現するための個人差基底を算出する個人差基底算出部、
    前記複数の状態のいずれかを表す学習用画像の各々から抽出される画像特徴量と、前記個人差基底算出部により算出された前記個人差基底とに基づいて、前記学習用画像の画像特徴量から、前記個人差基底を用いて個人差成分を除去し、前記個人差成分を除去した画像特徴量に基づいて、個人内の変動成分を表現するための個人内変動基底を算出する個人内変動基底算出部、及び
    目的区間であるか否かが付与され、前記個人の顔の少なくとも一部を撮影したモデル学習用画像の各々から抽出された画像特徴量と、前記個人差基底算出部により算出された前記個人差基底と、前記個人内変動基底算出部により算出された前記個人内変動基底とに基づいて、前記モデル学習用画像の各々について、前記個人内変動基底に関する個人内変動パラメータを推定し、前記モデル学習用画像の各々について推定された前記個人内変動パラメータと、前記モデル学習用画像の各々に付与された、前記目的区間であるか否かとに基づいて、前記個人内変動パラメータに基づいて前記目的区間であるか否かを判別するためのモデルを学習するモデル生成部、
    として機能させるためのプログラム。
JP2017173318A 2017-09-08 2017-09-08 目的区間判別装置、モデル学習装置、及びプログラム Pending JP2019049829A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017173318A JP2019049829A (ja) 2017-09-08 2017-09-08 目的区間判別装置、モデル学習装置、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017173318A JP2019049829A (ja) 2017-09-08 2017-09-08 目的区間判別装置、モデル学習装置、及びプログラム

Publications (1)

Publication Number Publication Date
JP2019049829A true JP2019049829A (ja) 2019-03-28

Family

ID=65905652

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017173318A Pending JP2019049829A (ja) 2017-09-08 2017-09-08 目的区間判別装置、モデル学習装置、及びプログラム

Country Status (1)

Country Link
JP (1) JP2019049829A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922570B1 (en) 2019-07-29 2021-02-16 NextVPU (Shanghai) Co., Ltd. Entering of human face information into database
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922570B1 (en) 2019-07-29 2021-02-16 NextVPU (Shanghai) Co., Ltd. Entering of human face information into database
JP2021022351A (ja) * 2019-07-29 2021-02-18 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. データベースに顔情報を入力する方法及び装置
CN114466179A (zh) * 2021-09-09 2022-05-10 马上消费金融股份有限公司 语音与图像同步性的衡量方法及装置

Similar Documents

Publication Publication Date Title
JP5176572B2 (ja) 画像処理装置および方法、並びにプログラム
CN111386531A (zh) 利用人工智能的多模式情绪识别装置、方法以及存储介质
KR100988326B1 (ko) 사용자 맞춤형 표정 인식 방법 및 장치
JP2011191423A (ja) 発話認識装置、発話認識方法
WO2012020591A1 (ja) 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
JP2011059186A (ja) 音声区間検出装置及び音声認識装置、プログラム並びに記録媒体
Saldanha et al. Vocal fold pathology assessment using mel-frequency cepstral coefficients and linear predictive cepstral coefficients features
JP7370050B2 (ja) 読唇装置及び読唇方法
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
JP7515121B2 (ja) 発話区間検出装置、発話区間検出方法、および発話区間検出プログラム
US11107476B2 (en) Speaker estimation method and speaker estimation device
Holden et al. Automatic facial point detection
Nath et al. Lip contour extraction scheme using morphological reconstruction based segmentation
Mok et al. Lip features selection with application to person authentication
JP7511374B2 (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
WO2022049704A1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
Nainan et al. Synergy in voice and lip movement for automatic person recognition
Usoltsev et al. Full video processing for mobile audio-visual identity verification
KR100795947B1 (ko) 치열영상을 이용한 생체인식 시스템과 그 인식 방법 및이를 기록한 기록매체
Bendris et al. Introduction of quality measures in audio-visual identity verification
JP7293826B2 (ja) 問題検出装置、問題検出方法および問題検出プログラム
Lee et al. Visual speech recognition using weighted dynamic time warping
JP4725884B2 (ja) 口画像に対する任意変形に関するパラメータを推定する方法
Abdulla et al. Lips tracking biometrics for speaker recognition
Lucey et al. Problems associated with current area-based visual speech feature extraction techniques