JP2002197465A - 自動口形状検出装置とそれを用いた自動単語認識装置 - Google Patents

自動口形状検出装置とそれを用いた自動単語認識装置

Info

Publication number
JP2002197465A
JP2002197465A JP2001100023A JP2001100023A JP2002197465A JP 2002197465 A JP2002197465 A JP 2002197465A JP 2001100023 A JP2001100023 A JP 2001100023A JP 2001100023 A JP2001100023 A JP 2001100023A JP 2002197465 A JP2002197465 A JP 2002197465A
Authority
JP
Japan
Prior art keywords
image
word
unit
data
lip
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001100023A
Other languages
English (en)
Inventor
Yasuyuki Nakada
康之 中田
Moritoshi Ando
護俊 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001100023A priority Critical patent/JP2002197465A/ja
Publication of JP2002197465A publication Critical patent/JP2002197465A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 騒音下などで発話された発話意図や単語を認
識するために、発話者の口の形状を検出するのに好適な
汎用性の高い口形状検出装置と、また口の形状変化から
発話された単語を認識する単語認識装置を提供する。 【解決手段】 発話者の顔面をカラー撮像して取得した
画素の色情報と、予め取得した顔面部位の正規化した色
情報との比較をして、撮像データを肌・唇・口腔・歯の
領域に分割する。取得した口腔と歯領域とを合成して唇
の内周輪郭を算出し口形状を検出する。また単語を発す
る発話者の変化する***部をカラー撮像して動画像列を
得、固有空間法で求めた固有画像が取得した***画像中
に含まれる割合の時間応答特性を用いて、発話単語の応
答特性と予め辞書登録されている単語の応答特性とを比
較し、類似単語を識別して発話単語を認識する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、発話された発話意
図や単語を認識するために、発話者の口形状を自動的に
検出する装置と、口形状の変化の状態から発声された単
語を自動的に認識する装置に関する。
【0002】
【従来の技術】利用者とコンピュータとのインターフェ
ースとして音声を用いる、各種の音声対話システムが開
発されている。その場合、利用者である発話者の音声の
騒音下での音声認識率の向上やその発話意図を検出する
ために、コンピュータなどの情報処理機器に、口形状検
出機能や口の動きから発話された言葉・単語を認識する
読唇機能を搭載する試みがなされている。
【0003】先ず、前者の口形状検出機能に関し、従
来、大別すると次のような2種類の方法が検討されてき
た。
【0004】(1)色抽出処理により、唇の輪郭を検出
し、口の形状を検出する方法。
【0005】この方法を用いた例として、正面顔の中心
線の色分布から唇を自動検出する方法(従来例1、「情
報処理学会論文誌、Vol.39,No.12,pp.
3232〜,顔画像情報と音声情報の統合による発話認
識」)や、YIQ表色系を用いた口の輪郭検出方法(従
来例2、「電気学会論文誌D:Vol.119,No.
1,pp.37〜,口のカラー動画像を用いた音韻認
識」)がある。
【0006】(2)フォトセンシング方式により、口の
開閉を検知する方法。
【0007】この方法を用いた例として、ハンドセット
の送話部(音声入力部)に取り付けたLEDからの光を
***に照射してその反射光をフォトトランジスタで受光
し、その受光電力の信号から***の動きを認識し、それ
より発声区間を検出して音声認識率向上に適用する装置
(従来例3、特開平8−76792)がある。
【0008】また、音声対話システムにおいて、コンピ
ュータ側が発話中に利用者が割り込んで音声を発してコ
マンドなどを入力した場合、システムでの音声認識率が
低下するといった課題がある。これは音声対話システム
のスピーカから発せられた合成音声と利用者の声とが重
なってマイクロフォンに入った場合、合成音声がノイズ
となり、利用者の声の抽出が困難になる事による。
【0009】この問題に対処するために、従来より次の
ような各種方法が提案されてきた。すなわち、 (3)マイクロフォンに入る背景音パワーと合成音パワ
ーとの和の閾値音声パワーレベルを予め求めておき、こ
れよりもマイクロフォンへの入力が大きくなったときに
合成音を遮断する方法(従来例4、特開平5−3239
93)。
【0010】(4)手元のスイッチを用いて合成音を遮
断する方法(従来例5、特開平8−314492)。
【0011】(5)利用者の音声・頭の動き・視線・表
情(口の大きさ、形状を含む)によって動作状態を認識
して、認識結果に応じて発話権が利用者側にあるかコン
ピュータ側にあるかを判定し、利用者側に発話権がある
場合はコンピュータの合成音出力を停止するなどのコン
ピュータ応答を制御する方法(従来例6、特開平9−2
69889)。
【0012】などの提案である。
【0013】一方、後者の読唇機能に関し、カメラで発
話者の顔ないし***の画像を取得し、その画像をコンピ
ュータ等で自動解析して発話内容を認識する方法として
は、従来、大別して、二つの方法が提案されている。
【0014】その一つは唇の輪郭形状を検出する方法で
あるが、発話者の違いを吸収できるという利点はあるも
のの唇の形状しか利用していないため、発話中の舌や歯
の見え具合等の情報が反映されないという問題がある。
もう一つの方法である取得した画像をそのまま用いる方
法であり、これは舌や歯の見え具合を含めて解析するた
め、一般に認識率が良いとされる。その方法の代表的な
提案例としては、濃淡画像のパターンをニューラルネッ
トで処理する方法や、固有空間法を用いた方法(従来例
7、「Pattern Recognition Le
tters17,1996,Moving Objec
t Recognition inEigenspac
e Representation:GaitAnal
ysis and Lip Reading」、や従来
例8、「Computer Vision and I
mage Under−standing,Vol.6
5,No.2,1997.Speech−readin
g using Probabilistic Mod
els」)がある。特に固有空間法を用いた方法は、顔
認識処理でも効果をあげており、顔や唇のような不定形
の物体を認識するのに適した方法であるといえる。
【0015】
【発明が解決しようとする課題】しかしながら、口の形
状を検出するための従来例1の方法では、正面顔の中心
線を基準にして自動色抽出を行うことから、顔の横ぶれ
が生じた場合における対応などの点から汎用性に乏しい
と言える。また従来例2の方法では、自動色検出機能を
備えていないため、照明条件や個人差などの僅かな違い
によって、口の輪郭が変動する場合がある。従来例3の
方法の場合、LEDからの照明光を常時かつ確実に口に
照射する必要があるが、自動追従機構が無いためにこの
照射保証がなされていない、といった問題点がある。
【0016】一方、利用者の音声とコンピュータからの
合成音と重畳による認識率低下を回避するための各種の
従来方法に関しても、以下のような課題がある。従来例
4の方法では、背景音や合成音の音量パワーが変化する
たびに、閾値を変更する必要があり、利用者の負担が大
きくなる。従来例5の方法に関しては、利用者が発話す
るとき、その都度、手元スイッチを押す必要があり、利
用者負担が大きいといった課題がある。
【0017】従来例6の方法においては、口の大きさ・
形状を含めた利用者の表情に応じて発話権を認識し、利
用者に発話権が移ったときにコンピュータ側からの合成
音出力を停止するとしている。しかしマイクロフォンの
音声入力制御については考慮されていないため、利用者
の音声の認識がうまくいかない場合がある。通常の音声
認識装置において、利用者が発話していない時のマイク
ロフォンに捉えられる音量情報をノイズ成分として判断
し、これを用いて利用者音声がマイクロフォンに入力さ
れたときのノイズ低減信号処理を行っている。そのた
め、利用者の発話時のみ合成音を停止しても、利用者の
音声の大きさによっては、音声入力ができないといった
不具合が生じる。
【0018】また、読唇機能を実現する方法に関し、特
に固有空間法を用いた提案のうち、従来例7では、***
画像を複数の固有ベクトルが張る多次元空間の1点で表
し、画像が変わるたびに点を結ぶことで動画列を固有ベ
クトル空間の曲線として表す。つまり発話者が発話した
単語は固有ベクトル空間の曲線として表されるため、曲
線の類似度を比較することで単語が識別できる。しかし
この方法では時間に関する情報が欠落するため、単語の
長短を表現することができないといった問題がある。
【0019】また従来例8では、まず固有空間法を用い
て入力した***画像と「視音素画像」との対応付けを行
い、次に隠れマルコフ・モデルを使用して入力単語の
「視音素画像」の並び方と辞書単語との並び方を確率的
に比較することで単語を認識する。この方法では口の形
状の変化を「視音素」という離散的な系列で表現するた
め、ある発音から次の発音を発声する際に口形状が連続
的に変化するときの変化量を細かく表現できないといっ
た問題がある。
【0020】よって、本発明の目的の一つは、従来方法
の問題点を考慮して、より汎用性があり、また自動検出
が可能な、新たな自動口形状検出装置を提供することで
あり、さらに、この新たな自動口形状検出装置を用い
て、音声対話システムにおける、利用者の音声とコンピ
ュータからの合成音と重畳による認識率低下を回避す
る、従来方法に比べより音声認識率を増加させることが
できる、新たな音声対話システムを提供することにあ
る。
【0021】そして、本発明の他の目的は、上記のよう
な従来例にみられる不具合点を考慮し、発話者の口周辺
の動画像を取得し、入力された***画像中に固有空間法
で求めた固有画像がどの程度含まれているかを求め、そ
の時間応答を比較するといった方法を導入することで、
単語の長短を含んだ認識と口形状の連続的な変化を認識
して、発話単語が登録単語の中のどの単語に類似してい
るかを識別し、発話単語を自動的に識別する自動単語識
別装置を提供することにある。
【0022】さらに、本発明の自動口形状検出装置と自
動単語認識装置との組合せにより、より精度の高い単語
認識の装置を提供することにも、発明の目的がある。
【0023】
【課題を解決するための手段】本発明は、上記の目的を
達成するために提案されたものである。まず、自動口形
状検出装置に関しては、本発明の自動口形状検出装置
は、カラー撮像して検出対象の顔面画像データを取得す
る撮像部と、前記顔面画像データの各画素の画素データ
を、色成分データと輝度成分データとに分離して格納す
る画像入力部と、前記色成分データを前記輝度成分デー
タで正規化し輝度正規化色情報データに変換して格納す
る色情報算出部と、前記輝度成分データと前記輝度正規
化色情報データとに基づいて、前記検出対象顔面全域の
各部位の画素を特定する部位領域データに分割処理して
格納する領域分割部と、前記部位領域データから唇内周
領域算出処理をおこなって前記唇の内周輪郭領域データ
を抽出して格納する口輪郭検出部とを備えることを特徴
としている。
【0024】このような構成とすることにより、会話者
の顔面部分をカラー撮像し、そのデータから、その顔面
内のそれぞれの部分が持っている固有の色データをもと
に、会話者の口の輪郭の抽出を的確に行うことが可能と
なる。
【0025】そして、この自動口形状検出装置は、前記
唇の内周輪郭領域データから、口の開口形状を表す指標
データを算出し、かつ出力する口形状指標算出・出力部
を備え、前記指標データは、前記唇の内周輪郭領域デー
タから算出される、唇の内周輪郭の縦横比、または唇の
内周輪郭の上下端点間の距離、または唇の内周輪郭の左
右端点間の距離、または唇の内周輪郭領域の面積のいず
れか、もしくはそれらの組み合わせ、であることが望ま
しい。
【0026】このことにより、口輪郭の検出後、口の開
閉状況をもとに計算機処理などを実施するのに適した指
標データを算出することができる。
【0027】また、前記部位領域データへの分割処理
は、前記輝度成分データと前記輝度正規化情報データと
の相関から部位別色分布と、前記部位別色分布から部位
別閾値関数とを算出し、前記輝度正規化色情報データと
比較して前記検出対象顔面全域の各部位の画素を特定す
る部位領域データへの分割処理、であることを特徴とし
ていることが望ましい。
【0028】また、前記部位別色分布で相互に重なりが
あるときは重なり分離処理をおこない、前記重なり分離
処理は前記重なり部分の中点を算出して分離をおこなう
処理、または前記重なり部分を直線で分離をおこなう処
理、であることを特徴としていることが望ましく、ま
た、前記唇内周領域算出処理は、前記口腔の部位領域と
前記歯の部位領域を合成して前記唇の内周輪郭領域デー
タとする処理、であることを特徴としているものである
ことが望ましい。
【0029】このように装置を構成することで、対象と
する会話者のカラーの顔面動画像を取得し、その顔面内
の色や輝度情報をもとに、唇・口腔・歯の領域分割処理
によって唇の内周輪郭による口の形状、つまり会話者の
開口状況を、人手を介すること無く、自動検出すること
が可能な装置を構成することができる。
【0030】そして、本発明の音声対話システムは、利
用者の顔面から口の開閉状態を検知する前記の自動口形
状検出装置と、前記利用者から発せられる音声を音声入
力信号として取得し記憶制御する、記憶部を備える音声
入力源制御部と、音声信号から認識単語に変換するため
の辞書部を備える、前記音声入力信号を認識する音声認
識部と、前記音声認識部による認識に基づいて音声応答
データを生成制御する音声対話制御部と、前記音声応答
データにより音出力信号を出力制御する、音信号出力源
制御部とを備えることを特徴とする音声対話システムで
ある。
【0031】そして前記利用者の口を開口状態と検知し
たときは、前記音声入力源制御部を音声入力可能のよう
に制御し、または前記音信号出力源制御部を音信号出力
不可能のように制御し、また前記利用者の口を閉口状態
と検知したときは、前記音声入力源制御部を音声入力不
可能のように制御し、または前記音信号出力源制御部を
音信号出力可能のように制御することを特徴とした音声
対話システムであることが望ましい。
【0032】この様に構成することによって、音声認識
率の向上した音声対話システムを実現することができ
る。
【0033】さらに、本音声対話システムは、利用者の
口を閉口状態と検知したときにおいて、前記利用者の周
囲の背景音を、前記音声入力源制御部の前記記憶部に、
背景音信号として予め記憶し、前記利用者の口を開口状
態と検知したとき、前記音声入力源制御部に取得される
音声入力信号を前記記憶部に記憶し、前記音声入力信号
から前記背景音信号を除去することを特徴とする、音声
対話システムであることが望ましい。
【0034】こうすることで、合成音以外に同時に入力
されるバックグラウンドにある騒音など、とくに定常的
な騒音がある場合は、音声認識率向上に効果的となる。
【0035】また、本音声対話システムの、前記辞書部
は、前記音声認識部において認識結果として得る単語の
先頭音が両唇音であるとき、前記先頭音の母音のみに変
換して作成された単語および前記先頭音を除いて作成さ
れた単語とを、音声入力単語の認識範囲として含めて辞
書登録されていることを特徴とする、音声対話システム
であることが望ましい。
【0036】これによって、本音声対話システムの方法
に生じやすい、先頭音が両唇音の場合の誤認識を低減す
ることができ、従って、このシステムの音声認識レベル
の更なるアップを実現できる。
【0037】そして、本発明の自動単語認識装置は、カ
ラー撮像して検出対象の***画像データを取得する***
画像撮像部と、前記***画像データをサンプリング取得
して動画像列データ化する動画像列生成部と、前記***
画像データの各画素値を一次元の画像ベクトルに変換す
る画像ベクトル生成部と、前記***画像データより生成
した画像ベクトルを用いて前記各画素を要素とする入力
行列を生成する入力行列生成部と、前記入力行列に対し
て主成分分析を行って固有画像を算出する固有画像算出
部と、前記固有画像を格納する固有画像記憶部と、所定
の時間に応じて時刻信号を送出する時間制御部と、前記
画像ベクトルと前記固有画像より固有画像含有率を算出
し、前記時刻信号に応答して算出された前記固有画像含
有率の時間的な連なりである固有画像含有率波形を生成
する固有画像含有率波形算出部と、前記固有画像含有率
波形とそれに対応する単語とを格納する辞書波形記憶部
と、発話者の***画像データより得られた単語の固有画
像含有率波形と、前記辞書波形記憶部に格納された前記
固有画像含有率波形との波形比較をして対応する単語を
認識し出力する単語認識部とを、備えることを特徴とし
ている。
【0038】この様な構成とすることにより、以下に述
べる手順により、認識をするための単語辞書の作成と発
話された単語の認識を行なうことが可能となる。
【0039】すなわち、***画像撮像部では、カラーテ
レビカメラ等の撮像素子によって、言葉を発した人(発
話者)の***画像を取得し、所定のタイミングでその画
像を取り込むことで、動画像列生成部で動画像列を生成
する。
【0040】入力行列生成部では、取得したすべての画
像の画素を要素とする入力行列を生成する。
【0041】固有画像算出部では、主成分分析を用い
て、入力行列に対する固有ベクトル(以下、固有画像)
を算出する。
【0042】固有画像記憶部では、辞書作成時には固有
画像算出部で算出された固有画像を記憶し、単語認識時
には、記憶されている固有画像を出力する。
【0043】時間制御部では次に述べる固有画像含有率
の時間応答波形を生成するために、動画列を取得したと
きのサンプリング時間に同期した経過時間を生成する。
【0044】固有画像含有率波形算出部では、先ず、取
得した画像と固有画像との内積を計算し、各固有画像が
取得画像中にどの程度含まれているのか(含有率)を算
出する。次に、各画像について時系列順に同様の操作を
行なうことで、含有率の算出を実行する。
【0045】辞書波形記憶部では、辞書作成時には、固
有画像含有率波形算出部で算出した含有率の時間応答波
形(辞書波形)を、発話者が発話した単語と対応付けて
記憶する。認識時には記憶してある辞書波形と波形に対
応する単語を出力する。
【0046】画像ベクトル生成部では、画素を要素とす
る1次元ベクトルを生成する。
【0047】単語認識部は、発話者が発話した未知単語
の固有画像含有率波形と辞書波形との類似度を算出し、
最も類似度の大きい辞書波形に対応する単語を出力す
る。
【0048】以上のような構成をとることにより、辞書
作成時には、各単語に対応する固有画像含有率波形を辞
書波形として記憶し、認識時には、発話者が発話した未
知単語の固有画像含有率波形と辞書波形とを比較して最
も確からしい単語を出力する。このため、発話中の口周
辺の形状変化や舌・歯の見え具合の変化を反映し、かつ
単語の長短や口形状の連続的な遷移状態を含めて単語を
認識することが可能となる。
【0049】また、この自動単語認識装置は、前記動画
像列生成部で得た動画像列データから本発明の自動口形
状検出装置により、発話者の***の画像表示位置の補正
を行う***画像補正部を備えることを特徴とするもので
ある。
【0050】本来固有空間法による画像マッチングを用
いている本発明の自動単語認識装置においては、口の表
示位置や表示サイズが変化すると認識率が低下すること
場合があり、そこで本構成によりカメラで収集した画像
の***部分が常に同じ条件で表示されるように補正を行
ない認識率の低下を防ぐことが可能となる。つまり本発
明の自動口形状検出装置により、取得カラー画像におけ
る肌・唇・歯・口腔の色の違いを利用して、画像からそ
れぞれの領域を検出し、最終的には唇の内周輪郭および
上下・左右端点を得る。それらの端点を使用して補正処
理を行なうことで、発話者の顔が前後・左右に動いて口
の撮像位置や大きさが変わっても、取得画像内の位置・
大きさを一定に保つことができ、認識率低下を防ぐこと
ができることとなる。
【0051】また、この自動単語認識装置は、前記固有
画像含有率波形算出部において前記固有画像含有率を算
出するとき重み付け処理を付加することを特徴とするも
のであることが望ましい。
【0052】この構成により、微妙な口の動きの違い
を、画像中に含まれる固有画像の割合について重みを変
えて処理を行なったり、あるいは時間区分によって重み
を変えて処理を行なう等の方法を用いることで識別を
し、認識率の向上を図ることができる。
【0053】また、この自動単語認識装置は、前記単語
認識部において前記波形比較を行うとき比較の差分に所
定の閾値を設けて、前記辞書波形記憶部に格納された、
前記閾値以下のすべての前記固有画像含有率波形を有す
る対応した単語を出力することを特徴とするものである
ことが望ましい。
【0054】この構成によって出力された複数の単語の
データを、一般的な音声認識処理装置と組み合わせるこ
とによって、発話された単語の認識率を向上することが
可能となる。つまり本発明の自動単語認識装置は、口の
形状変化を検出して単語を認識する装置のため、単語の
音に違いがあっても口の形が類似した単語を識別すると
き、誤認識する場合がある。そこで、一般的な音声認識
処理装置で発話された音声から認識導出された最も近い
単語群と、上記構成の本発明から認識導出された単語群
とのマッチングを実施することで、より認識率の高い結
果を得ることができる。
【0055】
【発明の実施の形態】自動口形状検出装置 図1に本発明の自動口形状検出装置の、実施形態の機能
部別ブロック図を示す。白色光などの照明を当てられた
顔面(検出対象顔面)は、撮像部1でカラー撮像され、
取得された情報は画像入力部2に送られ入力処理が行わ
れる。画像入力部2で処理された情報は色情報算出部3
に送られ色情報に関する算出処理が実施され、領域分割
部4に送られる。領域分割部4で顔面の部位別の領域が
分割処理され、この情報は口輪郭検出部5に送られて、
口の輪郭の検出処理が行われ、口の形状の検出結果を得
る。さらに、この情報は口形状指標算出・出力部に送ら
れ、所定指標の算出・出力が実行される。この指標デー
タは、これを用いてさらに情報処理を行う、コンピュー
タなどの電子機器に対し出力される。
【0056】上記の各部の実施機能について、以下に詳
細に述べる。
【0057】(撮像部)撮像部1では、CCD素子など
からなるカラーテレビカメラなどによって検出対象であ
る顔面のカラー画像を取得し、この画像データを内蔵す
るメモリなどの記憶装置に格納し、次の処理部である画
像入力部2に送出を行う。
【0058】(画像入力部)画像入力部2において、撮
像部1で取得した顔面のカラー画像データを、画素ごと
に色成分と輝度成分に分離して内蔵する記憶装置に格納
する。
【0059】図2に取得した顔面のカラー画像の座標定
義の方法を示す。図中の四角内の画素座標は、整数i,
jの座標(i,j)で示される。
【0060】ただし、i=1,2,・・・m j=1,2,・・・n ここにおいて、座標(i,j)の画素は、赤成分
(R)、緑成分(G)、青成分(B)、輝度成分(Y)
の階調値が、それぞれ、ディジタル値R(i,j)、G
(i,j)、B(i,j)、Y(i,j)に分離され、
格納される。
【0061】(色情報算出部)色情報算出部3において
は、画像入力部2から出力される色成分値・輝度成分値
をもとに、本発明になる本装置固有の口形状検出処理を
する上で必要な色情報、すなわち下記に述べる、正規化
色情報を算出して、記憶装置に格納する。
【0062】RGB値は、撮像時の照明光の強度の影響
を受けやすいため、カラー画像を処理する場合は、他の
色情報へ変換されることが多い。例えば、前述の従来例
1においては、RGB値を、HSV表色系のH成分に変
換して、照明光の強度の影響を提言している。
【0063】本発明においては、色成分を輝度で正規化
した、輝度正規化色情報を新たに提案し、これを用いる
こととする。
【0064】画素位置(i,j)のRGB値を、前述の
ように、R(i,j)、G(i,j)、B(i,j)、
輝度値をY(i,j)としたとき、輝度正規化RGB
値、R norm(i,j)、Gnorm(i,j)、B
norm(i,j)は次式で与えられる。ただし、画面サイ
ズは、m×n画素とする。
【0065】Y(i,j) = 0.299・R(i,j) + 0.587・G(i,j)
+ 0.114・B(i,j) R norm(i,j) = R(i,j)/Y(i,j) G norm(i,j) = G(i,j)/Y(i,j) B norm(i,j) = B(i,j)/Y(i,j) i = 1,2,・・・m j = 1,2,・・・n 図3に、肌色領域の輝度依存特性に関する説明図を示
す。図3(a)は、人の肌色領域のRGB値の輝度依存
性の測定方法を説明する図、図3(b)はその測定結果
の一例を示す図、図3(c)は、輝度正規化RGB値の
輝度依存性の一例を示す図である。図3(a)におい
て、顔面のカラー画像3−1の肌の測定領域3−2をカ
ラーカメラ3−3で撮像し、得られたR,G,Bデータ
をA/Dコンバータ3−4でデジタル変換しコンピュー
タ3−5に送り、内蔵する記憶装置にカラー画像として
格納する。このとき、1画素について、RGBそれぞれ
の信号の強さを表すデジタル値が与えられる。肌の測定
領域3−2の全画素について、測定した結果の一例が図
3(b)であり、横軸に輝度(階調値)、縦軸にRGB
値(階調値)としてプロットしたものである。これらの
値をもとに、横軸に輝度(階調値)、縦軸に輝度正規化
RGB値に再プロットしたものが図3(c)である。本
図3(c)から明らかのように、輝度に対して輝度正規
化RGB値がほぼフラットとなり、したがって、この輝
度正規化RGB値を用いると撮像時の明るさに対する影
響が低減され、本算出部以降の取り扱いが簡単になる。
【0066】かように、色情報算出部3では、カラーの
撮像部1で取得した顔面の各画素ににおける色について
の情報を、上記の輝度正規化色情報を形に統一して算出
をおこない、記憶装置に格納する。
【0067】なお、従来例2に示されている様に、YI
Q表色系のQ成分が唇の色を強調することが知られてい
る。本発明では、輝度正規化色情報を統一した値とする
ため、上記と同様に、正規化されたQ成分 Q
norm(i,j)を用い、これは次式で与えられる。
【0068】Q norm(i,j) = 0.211 ・R norm(i,j) - 0.
522 ・G norm(i,j) + 0.311 ・B norm (i,j) (領域分割部)領域分割部4においては、色情報算出部
3から出力される色情報、すなわち輝度正規化色情報を
使用して、顔面画像を、顔の各部位、肌・唇・口腔・歯
などの領域に分割して、記憶装置に格納する。
【0069】顔面の肌・唇・歯などの各部位の領域の色
情報を、輝度を横軸、色情報を縦軸とする二次元平面に
プロットすると、各部位の色の違いによって、その分布
に偏りが生じる。したがって、各部位についての色分布
範囲に該当する画素を、取得した画像から抽出し、画像
処理を施すことによって、目的とする領域を獲得するこ
とができる。顔面の部位の色の違いによって,画素を部
位に分類する具体的方法について、次に示す。
【0070】まず、抽出する領域の色分布は閾値関数に
よって決定する。この閾値関数の算出方法を説明する図
を図4に示す。顔面のサンプル画像の適当な領域を手動
で決める。例えば、図4(a)に示すように、顔面のサ
ンプル画像4−1において肌の色分布を求めるときは、
斜線部で示したような参照領域4−2を設定する。な
お、サンプル画像は、照明条件を変えた複数の画像や、
異なる人の顔面の画像を用いても良く、また手動で設定
する参照領域の形状も任意で良い。参照領域の色分布
を、横軸に輝度Y、縦軸に正規化された色成分として二
次元平面にプロットする。例えば、輝度正規化R値を縦
軸とすると、図4(b)の参照領域の色分布の例に示す
ような、不定形で囲まれた、(a)の肌の参照領域の色
分布4−3が得られる。ある輝度Yについて、色分布の
最大値をfref2(Y)、最小値をfre f1(Y)とおく。
ref2(Y)、fref1(Y)は、輝度Yの関数であり、
参照領域内の画素(i,j)の輝度がYのとき、輝度正
規化色情報 Rnorm(i,j)は、次式を満たす。
【0071】 fref1(Y)≦Rnorm(i,j)≦fref2(Y) このとき、関数fref1(Y)、fref2(Y)は、参照領
域の色分布の閾値関数であり、ある画素が求める顔面部
位領域内にあることは、上下限fref1(Y)、f
ref2(Y)によって挟まれているかどうかで判定するこ
とができる。つまり、抽出する顔面部位(例えば、肌、
唇、口腔、歯など)の閾値関数が、fref1(Y)、f
ref2(Y)で与えられ、画像入力部に格納されている顔
面画像内の任意の画素(i,j)の輝度正規化色情報が
norm(i,j)、輝度がYのとき、2値化画像C
(i,j)は、次のように算出される。
【0072】fref1(Y)≦Rnorm(i,j)≦fref2
(Y)のとき、 C(i,j)=1 fref1(Y)≧Rnorm(i,j)またはRnorm(i,
j)≧fref2(Y)のとき、 C(i,j)=0 上述の説明では、輝度正規化色情報 Rnorm について
説明したが、他の色成分 Gnorm, Bnorm などにつ
いても同様の処理を行うことができる。そこで、以下の
説明では、輝度正規化色情報を表す一般的な記号とし
て、Nnorm を用いることとする。
【0073】ところで、輝度正規化色情報によって、顔
面の部位の色分布が完全に分離できない場合、つまり、
色分布に重なりが生じる場合がある。このときは、2値
化画像C(i,j)において、抽出したい顔面の部位領
域以外の部位の画素(i,j)においても、C(i,
j)=1となっている。こういった場合において、顔面
の妥当な部位を判定する方法について検討および実験を
おこなった。以下にその方法を記す。(イ)粒子解析における最大面積粒子による判定方法
画像解析においては、粒子解析の手法が知られている。
粒子解析の方法を説明する図を図5に示す。取得した2
値化画像(図5(a)参照)を左上から右下まで順に走
査して、お互いに接触している「1」の画素の固まり、
つまり粒子にラベル(記号A,B,C・・・など)を付
与する。先ず1行目については、「1」が現れたらラベ
ルAを与え、以後「1」が続いている限り同じラベルA
を与える。同一行内で「1」が途切れて、再び「1」が
現れれば新しいラベルBを付ける。この操作を行の終わ
りまで続ける。第2行以下では、「1」が現れたら前行
で与えたラベル値から、次のようなラベル付けを行う。
(図5(b)参照) (1)前行のラベルと全く隣接していない場合は、新し
いラベルを付ける。 (2)前行の一つのラベルとだけ隣接している場合は、
そのラベル値を付ける。 (3)前行の二つ以上のラベルと隣接している場合は、
一番若いラベルを付け、これらのラベルは同じラベルで
あるものとして記憶しておく。 こうして右下まで処理した後、画面を再び走査し直し
て、(3)で記憶しておいた同一ラベルであるべきもの
を書き換える。(図5(c)参照) 上記の処理によって、同一領域に属する点の固まりを同
じ粒子と見做すことができる。
【0074】このような粒子解析によって、2値化画像
中の粒子の中で、最大面積の粒子を目的の顔面の部位と
見做す。このことは、閾値条件を満たし、かつ、各画素
同士が連結している粒子は、抽出しようとしている領域
に合致すると考えられるためである。唇領域の2値化画
像に粒子解析を適用した場合の処理例を図6に示す。図
6(a)は唇近傍の2値化画像の例であり、図6(b)
はこの2値化画像を粒子解析し、最大面積領域部を表示
した例である。唇領域が抽出されていることが解る。(ロ)色分布の重なりの中点による判定方法 別の部位
判定方法として、色分布の重なりの中点を求め、これを
基準として判定する方法が考えられる。図7に閾値関数
を色分布重なりの中点から算出する方法を説明する図を
示す。図7は先に図4(b)で示した図と同様に、横軸
に輝度Y、縦軸に輝度正規化色情報Nnormとして二次元
平面にプロットする。例えば、ある顔面の部位領域の色
分布が分布V7−1で示される不定形で囲まれた分布と
し、他の部位領域の色分布が分布W7−2で示される不
定形で囲まれた分布とし、このとき2つの分布に図示さ
れたような重なりがあるとする。図に示すように、色分
布V7−1の最小値、最大値の関数を、fV1(Y)、f
V2(Y)、色分布W7−2の最小値、最大値の関数を、
W1(Y)、fW2(Y)とする。このとき、色分布V7
−1の最小値の関数f V1(Y)と、色分布W7−2の最
大値の関数fW2(Y)を用いて、閾値関数fre f (Y)
を次式で求める。
【0075】 fref (Y)=(fV1(Y)+fW2(Y))/2 求めた閾値関数によって、顔面部位領域を色で分離する
場合、色分布V7−1に相当する領域を抜き出すとき
は、例えば、輝度正規化色情報 Nnorm(i,j)が、 fref (Y)≦Nnorm(i,j)≦fV2(Y) を満たす画素を選択すればよい。(ハ)色分布の重なりを直線で近似することによる判定
方法 上述の最大値・最小値・および中点を用いた閾値
関数は、通常複雑な形状となる。そこで、最小二乗法な
どを用いて、直線で近似することで、閾値関数f
ref (Y)を簡単な形式で表現することができる。図8
に本方法を説明する図を示す。図8は図7と同様に、横
軸に輝度Y、縦軸に輝度正規化色情報Nnormとして二次
元平面にプロットする。例えば、ある顔面の部位領域の
色分布が分布V8−1で示される不定形で囲まれた分布
とし、他の部位領域の色分布が分布W8−2で示される
不定形で囲まれた分布とし、このとき2つの分布に図示
されたような重なりがあるとする。図にあるように、色
分布V8−1と色分布W8−2との判別のための閾値関
数f ref (Y)を傾きaをもった直線で近似するとき、 fref (Y)=a・Y+b a,bは定数 また、閾値関数fref (Y)を固定値とすると、更に簡
単に表現でき、 fref (Y)=c cは定数 となる。ただし、直線や固定値を用いると、色分布の分
離性が劣化することがある。
【0076】以上3種類の方法について述べたが、どの
方法を採用するかは、実際のシステム化の段階におい
て、求められる精度・速度や装置価格などを勘案し、適
宜選択すれば良い。 (口輪郭検出部)口輪郭検出部5においては、先の領域
分割部4で顔面の部位領域に分割された顔面画像データ
をもとに、唇の内周輪郭領域の抽出を行う。
【0077】一般に、取得した顔面の画像には、顔面以
外の部分、つまり背景が同時に取得され、そこには顔面
部位と同じ色分布を示す領域が含まれる可能性がある。
そこで、以下のような手順で、先ず、その領域の誤認識
の除外を行い、順次唇の内周輪郭領域の抽出を行う。
【0078】図9、図10に、口輪郭検出部の処理過程
を説明する図を示す。図9(a)に顔面の取得画像の例
を示し、本抽出に関わる顔面部位である、肌9−1、唇
(上下)9−2、歯9−3、口腔(唇の内周領域内で歯
以外の暗い部分)9−4をそれぞれ示す。この取得画像
から、先ず、顔面領域を決定するため、領域分割部4で
求めた、肌領域9−1を抽出する。肌の部位の色分布に
おける閾値関数を、f skin1 (Y)、fskin2 (Y)と
し、次式を満たす輝度正規化色情報を持つ画素に、1を
与え、それ以外を0とすることで、肌領域9−1の2値
化画像Cskinを獲得する。
【0079】fskin1 (Y)≦Nnorm(i,j)≦f
skin2 (Y)のとき Cskin(i,j)=1 この肌領域の2値化画像の例を図9(b)に示す。図に
おいて、上記の式の1は白、0は黒で示し、したがっ
て、図中の白領域が、Cskin(i,j)=1を満たす領
域となる。
【0080】肌領域Cskinの輪郭内部の領域を表す、肌
輪郭領域Askinを、肌領域の2値化画像の画像処理を行
うことで算出できる。すなわち、肌輪郭領域Askinは、
肌領域Cskinの外周輪郭を結んだ内側の領域である。し
たがって、肌領域Cskinには、例えば、唇領域は色が異
なるため含まれないが、肌輪郭領域Askinでは、外周輪
郭を結んだ内側の画素が全て含まれるため、唇領域も含
まれる。この例を図9(c)に示す。図中Askin=1を
満たす領域を白で示し、0を黒で示す。
【0081】以上の処理によって、背景に含まれる可能
性のある顔面部位と同じ色分布を示す領域を排除するた
めに、顔面領域のみを特定することができる。
【0082】次に、肌輪郭領域Askin内に限定して、唇
領域を検出する。肌領域の抽出と同様に、唇の色の閾値
関数を、flip1(Y)、flip2(Y)とし、次式を満た
す輝度正規化色情報を持つ画素に、1を与え、それ以外
を0とすることで、唇領域9−2の2値化画像Clip
獲得する。
【0083】flip1(Y)≦Nnorm(i,j)≦flip2
(Y)、ただし、画素(i,j)∈Askinのとき Clip (i,j)=1 この唇領域の2値化画像の例を図9(d)に示す。図に
おいて、上記の式の1は白、0は黒で示し、したがっ
て、図中の白領域が、Clip (i,j)=1を満たす領
域となる。
【0084】唇の両脇は、唇の厚さが細くなるため、唇
領域は上唇と下唇とで分離する場合が多い。従って唇領
域の輪郭を単純に口の輪郭としてもちいることはできな
い。そこで、さらに、唇領域の位置・大きさをもとに、
歯と口腔(唇内周領域内の歯以外の暗い部分)を抽出
し、両者を合成して唇の内周輪郭を求めることで口形状
とする。
【0085】粒子解析によって、唇領域の2値化画像C
lip から取り出した最大面積をもつ粒子は、通常、下唇
領域Clower-lip となる。下唇領域Clower-lip の中心
点を基準として、適当な矩形領域Alip を設け、この矩
形領域の中から歯領域と口腔領域を抽出する。
【0086】歯の色の閾値関数を、ftooth1(Y)、f
tooth2(Y)とし、次式を満たす輝度正規化色情報を持
つ画素に、1を与え、それ以外を0とすることで、歯領
域9−3の2値化画像Ctooth を獲得する。
【0087】ftooth1(Y)≦Nnorm(i,j)≦f
tooth2(Y)、ただし、画素(i,j)∈Alip のとき Ctooth (i,j)=1 この歯領域の2値化画像の例を図10(a)に示す。図
において、上記の式の1は白、0は黒で示し、したがっ
て、図中の白領域が、Ctooth (i,j)=1を満たす
領域となる。
【0088】歯領域Ctooth の内部輪郭の領域を表す、
歯輪郭領域Atooth は、2値化画像Ctooth の画像処理
をおこなうことによって算出できる。この算出された歯
輪郭領域Atooth の例を、図10(b)に示す。図中A
tooth =1を満たす領域を白で示し、0を黒で示す。
【0089】口腔の色の閾値関数を、f
cavity1 (Y)、fcavity2 (Y)とし、次式を満たす
輝度正規化色情報を持つ画素に、1を与え、それ以外を
0とすることで、口腔領域9−4の2値化画像Ccavity
を獲得する。
【0090】fcavity1 (Y)≦Nnorm(i,j)≦f
cavity2 (Y)、ただし、画素(i,j)∈Alip のと
き Ccavity(i,j)=1 この口腔領域の2値化画像の例を図10(c)に示す。
図において、上記の式の1は白、0は黒で示し、したが
って、図中の白領域が、Ccavity(i,j)=1を満た
す領域となる。
【0091】口腔領域Ccavityの内部輪郭の領域を表
す、口腔輪郭領域Acavityは、2値化画像Ccavityの画
像処理をおこなうことによって算出できる。この算出さ
れた口腔輪郭領域Acavityの例も、同じく、図10
(c)に示す。図中Atooth =1を満たす領域を白で示
し、0を黒で示す。口腔領域において、実質的に色の変
化が無い場合、口腔領域Ccavityと口腔輪郭領域A
cavityとは、同一と見做される場合が多い。
【0092】こうして得られた、歯輪郭領域Atooth
口腔輪郭領域Acavityの合成領域が、唇の内部輪郭領域
に相当し、これを、口輪郭領域Amouth となる。口輪郭
領域Amouth の2値化画像の例を図10(d)に示す。
図中Amouth =1を満たす領域を白で示し、0を黒で示
す。(口形状指標算出・出力部)口輪郭検出部5で求め
た口輪郭領域Amouth だけでは、音声認識などの実際の
処理に用いることはできない。このため、口輪郭領域A
mouth から、次のような口形状指標を、この処理部で算
出し、出力する。
【0093】図11に口形状指標の説明のための図を示
す。図11(a)に示すように、口輪郭領域Amouth
1−1の左右端点距離Dh 11−2を、最右端の画素と
最左端の画素との距離を算出することにより求めること
ができる。また、上下端点距離Dv 11−3を、最上端
の画素と最下端の画素との距離を算出することにより求
めることができる。これらから、次式により縦横比I
aspectを算出できる。
【0094】Iaspect = Dv /Dh また、図11(b)に示すように、口輪郭領域Amouth
の開口面積S 11−4に関して、画像処理手法を用い
ることによって、これを求めることが可能となる。な
お、開口面積S 11−4は、左右端点距離Dh 11−
2と、上下端点距離Dv 11−3の積によって近似でき
る。
【0095】例えば、縦横比Iaspectを用い、口の開閉
状態は、適当な閾値Ithを設定することにより判定す
る。
【0096】 Iaspect ≧ Ith を満たすとき、口は開いた状態 Iaspect < Ith を満たすとき、口は閉じた状態 とする。図12(a)に、単語「あさひ」を発声したと
きの、縦横比Iaspectの時間応答と閾値Ithの設定、図
12(b)に設定閾値Ithによる口の開閉状態、すなわ
ち、開口状態(Mopen)、または閉口状態(Mclose
の判定結果についての例を示す。
【0097】以上述べたような、各種指標を、必要に応
じて算出・出力が可能とし、また口の開閉状態の判定が
可能となる。
【0098】なお、これまでの実施の形態の説明におい
ては、静的な画像のデータの取り扱いの如くに理解され
る可能性があるが、言うまでも無く、本発明の装置は、
カラービデオカメラなどで顔面画像を取得して行うとい
った、動画像を取り込み、各フレーム毎に上記に説明し
た機能を実現することは、勿論可能であることは明らか
である。したがって、本装置は動的な画像処理対応で、
かつ自動取得可能な口形状の検出装置であるといえる。音声対話システム 次に、本発明の音声対話システムの実施形態の機能別ブ
ロック図を、図13に示す。利用者の顔面から、先述し
た自動口形状検出装置100で口の開閉状態(図12に
おける開口状態 Mopen、または閉口状態 Mclose
を検出する。
【0099】一方利用者が発声した音声は、マイクロフ
ォン101を介して、記憶部102−1を備える音声入
力源制御部102に入力される。音声入力源制御部10
2で制御・処理された音声データは、辞書部105−1
を備える音声認識部105に送られて、音声認識処理さ
れる。その処理されたデータは音声対話制御部106に
送られて、対話処理とそれに対応した音声出力データが
生成され、音信号出力源制御部104に送られ、スピー
カ103を介して合成音出力が行われる。自動口形状検
出装置100で検出された口の開閉状態(Mopen、M
close )のデータは、音声入力源制御部102と音信号
出力源制御部104に送られ、各音声入力および音信号
出力などの制御に用いられる。
【0100】主要な各部の実施機能の詳細について、以
下に述べる。 (音声入力源制御部)音声入力源制御部102では、検
出した口の開閉状態に連動させて、マイクロフォン10
1の入力レベルを制御する。開口状態(Mopen)のとき
は入力レベルA、閉口状態(Mclose )のときは入力レ
ベルBにすることで開閉状態に応じて任意に入力レベル
を変化できる。例えば入力レベルAの値を正の適当な
値、入力レベルBをゼロとすることにより、利用者が口
を閉じているときは、マイクロフォン入力をオフ(入力
不可能)とし、口を開いた瞬間にオン(入力可能)とす
ることが可能となる。こういった制御をすることによ
り、利用者が発声した音声以外は、音声認識部105へ
送出されないため、誤認識が低下し、音声認識率が向上
する。 (音信号出力制御部)音信号出力源制御部104では、
自動口形状検出装置100で検出した口の開閉状態に連
動させてスピーカ103から出力する合成音の音量のレ
ベルを制御する。開口状態(Mopen)のときは出力レベ
ルC、閉口状態(Mclose )のときは出力レベルDにす
ることで開閉状態に応じて任意に出力レベルを変化でき
る。例えば出力レベルCをゼロ、出力レベルDの値を正
の適当な値とすることによって、利用者が口を閉じてい
るときは、スピーカ103から合成音が出力され、口を
開いた瞬間に消音することが可能となる。この制御によ
って、利用者が発声している間は、合成音の音が消える
ため、合成音によるノイズは含まれず、利用者の声のみ
を抽出することができ、音声認識率が向上する。
【0101】したがって、上記2つの制御部における制
御の組合せ、つまり利用者の口が開いているときは、音
声入力源制御部102でマイクロフォン101をオン状
態とし、かつ音信号出力源制御部104でスピーカ10
3からの出力をゼロとし、また利用者の口が閉じている
ときは、音声入力源制御部102でマイクロフォン10
1をオフ状態とし、かつ音信号出力源制御部104でス
ピーカ103からの合成音出力ができる状態とすること
により、音声認識率をより向上することが可能となる。 (音声認識部)音声認識部105は、通常、ソフトウェ
アで実現される。ソフトウェアの種類によっては利用者
の非発声区間中に同時に入力される音信号(以下、背景
音と言う)を利用して、発声区間の音信号から背景音を
除き、利用者の音声のみを取り出すような信号処理を行
うものがある。上記の本発明の実施例において、利用者
が口を閉じているときのマイクロフォン101への入力
をオフ(入力不可能)状態にして、従って、音声認識部
105へ入力される音声信号値はゼロとした。利用者の
発声区間(利用者が開口状態のとき)は、スピーカ10
3から出力されずに合成音は重畳されないが、利用者の
周囲で発生している、上記の合成音以外の音(ノイズ)
である背景音は除去できない。そこで、こういった背景
音の低減処理を行う音声認識部105を使用するとき
に、予め取得しておいた背景音信号により除去処理を行
うことで音声認識率が向上する。
【0102】図13のブロック図において、利用者の口
が閉じているとき、上記の背景音をマイクロフォン10
1を介して音声入力源制御部102の記憶部102−1
に予め記憶しておく。次に、利用者が発声するためにそ
の口が開くと、音声入力源制御部102の制御によりマ
イクロフォン101を介して、利用者の音声と背景音の
信号が入力されるが、記憶部102−1に記憶された背
景音の信号を出力し、これをもとに、音声認識部105
において背景音を取り除く処理を実行する。この背景音
除去処理は、背景音が定常音のときに特に有効である。
【0103】また、口の形状から利用者の発声状況を判
断して音声入力の可否制御をする本実施形態において
は、「ま」、「も」、「ば」などの様に、一旦、口を閉
じてから口を開くのとほぼ同時に発声を行う両唇音が単
語の先頭音である場合(例えば「もどれ」など)、先頭
音(「も」)がうまく入力されない場合がある。これ
は、自動口形状検出装置で画像処理を用いており、一画
像の画像を入力するのに時間(例えば、33ミリ秒程
度)を要するため、発声が始まった後で、口の開きが検
出されるためである。そこで、こうした単語を認識する
ことを考慮して、音声認識部105に備わる辞書部10
5−1に、認識結果として得る単語の先頭音が両唇音で
あるとき、その先頭音の母音のみに変換して作成された
単語と、その先頭音を除いて作成された単語とを、音声
入力単語の認識範囲として含めて登録するしておき、そ
の認識結果は、元の単語を出力するようにすると良い。
【0104】
【0105】
【表1】
【0106】表1に、両唇音が単語の先頭の場合の認識
例を示す。これは、「もどれ」と発声されたときに、認
識用辞書に「もどれ」、「おどれ」(先頭音を母音に変
換)、「どれ」(先頭音を除く)を有し、認識結果とし
て「もどれ」を出力する例である。この例に限らず、同
様に辞書に単語を備えることで、音声認識率の向上をは
かることができる。自動単語認識装置 図14に本発明の自動単語認識装置の、実施形態の機能
部別ブロック図を示す。図14(a)は、辞書作成時の
ものであり、図14(b)は認識時のものである。
【0107】図14(a)の辞書作成時において、発話
者の***部分は、***画像撮像部201でカラー撮像さ
れ、所定のタイミングで撮像画像が受付られ動画像列生
成部202において動画像列化される。この動画像列
は、一方で入力行列生成部204において内蔵する画像
べクトル生成部で画像ベクトル化され、これを元に入力
行列化される。この結果をもとに固有画像算出部205
において主成分分析を用いて固有画像が算出され、これ
が固有画像記憶部206に格納される。動画像列生成部
202からの動画像列は、他の画像ベクトル生成部20
3において画像ベクトルが生成され、その結果が固有画
像含有率波形算出部208に入力される。ここでは、各
画像の固有画像含有率が固有画像記憶部206の格納デ
ータを元に算出され、かつそれが時間制御部207で規
定されるタイミングの時系列として算出され、結果とし
て含有率の時間応答波形として、固有画像含有率波形が
算出される。辞書波形記憶部209では、算出された固
有画像含有率波形を辞書波形として、発話者が発話した
単語と対応付けて記憶する。このような処理を必要単語
すべてについて行ない、辞書波形−単語の対を辞書波形
記憶部209に格納する。
【0108】図14(b)の認識時においては、発話者
から発せられた未知の単語は、図に示した様に、上記と
同様な処理プロセスを先ず踏んで未知の単語の固有画像
含有率波形が同算出部208にて固有画像記憶部206
の固有画像データを用いて算出される。この波形に対応
する波形と辞書波形記憶部209にある波形を単語認識
部210にて比較し、かつ対応付けをもとに単語を認識
し、出力する。
【0109】次に、各ブロックの機能について詳細に述
べる。 (***画像撮像部・動画像列生成部)***画像撮像部2
01では、CCD素子などからなるカラーテレビカメラ
などによって、発話する発話者の***画像を取得し、取
得した画像をコンピュータのメモリなどの記憶装置に格
納する。動画像列生成部201で、画像は一定のサンプ
リング時間間隔(例えば、33ms)で取得し、画像の
時間系列、つまり動画像列を生成する。
【0110】画像の一つの画素は、カラー画像の場合、
赤成分(R)、緑成分(G)、青成分(B)の階調値
で、白黒画像の場合、輝度(Y)の階調値で与えられ
る。例えば、整数i、jで示される座標(i,j)の画
素では、赤成分(R)、緑成分(G)、青成分(B)、
輝度(Y)の階調値は、それぞれ、ディジタル値R
(i,j)、G(i,j)、B(i,j)、Y(i,
j)で与えられる。 (画像ベクトル生成部・入力行列生成部)まず,2次元
で表現された画像の画素値を、1次元の画像ベクトルに
変換する(画像ベクトル生成部203、および入力行列
生成部204に内在する画像ベクトル生成部)。つまり
画像の横方向の画素数がm個(i=1,2,・・・,
m)、縦方向の画素数がn個(j=1,2,・・・,
n)のとき、第k番目の画像の画像ベクトルxk は、輝
度Y(i,j)を用いて次の数1のように与えられる。
【0111】
【数1】
【0112】次に、入力行列Aは、取得した全ての画像
の画像ベクトルを用いて、次の数2で与えられる。ただ
し、画像の総数を、kmax とする。
【0113】
【数2】
【0114】従って、入力行列Aは、行数がm×n個、
列数がkmax 個の行列となる。これらの処理が入力行列
生成部204で行なわれる。 (固有画像算出部)入力行列Aに対して、主成分分析を
施して固有画像(固有ベクトル)を算出する。先ず行列
Aから共分散行列Cを算出する。kmax 個の画像の平均
ベクトルを数3とすると、
【0115】
【数3】
【0116】これは、数4と表せる。
【0117】
【数4】
【0118】共分散行列Cは、次の数5から算出され
る。
【0119】
【数5】
【0120】このとき、固有ベクトルμk は、固有値を
λk とすると、次の数6の固有値問題を解くことで求め
ることができる。
【0121】
【数6】
【0122】数1によってベクトルxk を求めたときと
逆の手順を用いて、固有ベクトルを画像に変換すると、
固有画像となる。以上の算出処理を固有画像算出部20
5で行なう。 (固有画像記憶部)固有値λk を値の大きい順に並べ、
λk に対応する固有ベクトルμk をP個選択する(P<
max )。固有画像記憶部206にP個の固有ベクトル
μp を格納する。 (時間制御部)時間制御部207では、後述の固有画像
含有率の時間応答波形を生成するために、動画列を取得
したときの一定のサンプリング時間間隔に同期した経過
時間を生成する。例えば、画像の取得開始時の時刻を、
0 (=0)とし、第qサンプリング時の時刻をtq
する。qの最大値qmax は、画像の取得時間Tをサンプ
リング時間ts で割った値、数7で与えられる。
【0123】
【数7】
【0124】(固有画像含有率波形算出部)カメラで取
得したL個の画像は、P個の固有画像によって表すこと
ができる。画像ベクトルxk と固有ベクトルμp の内積
をbp(=xk ・μp )とすると、xk は次の数8のよ
うに近似できる。
【0125】
【数8】
【0126】このとき、P個の内積bp は、画像xk
含まれる固有画像の割合に相当することから、内積bp
の集合ベクトルを固有画像含有率Bと呼ぶことにする。
これは次の数9で表せる。
【0127】
【数9】
【0128】発話者が発話中の***画像は、時間と共に
変わるため、各時刻tの***画像に対応する固有画像含
有率Bも時間によって変化する。そこで固有画像含有率
の時間応答波形、つまり固有画像含有率波形B(tq
を、時間制御部で生成された時刻tq を用いて、次の数
10のように表す。
【0129】
【数10】
【0130】ただし、q=0,1,2・・・,qmax これらの算出処理を、固有画像含有率波形算出部208
で行なう。 (辞書波形記憶部)発話者が発話したときの***状態や
歯・舌の見え具合は、単語によって異なる。従って固有
画像含有率波形B(tq )も単語特有の形状になる。そ
こで、既知の単語を発話したときの固有画像含有率波形
B(tq )をその単語と対にして辞書波形記憶部209
に記憶することにより、辞書を作成することができる。
表2に辞書波形記憶部の格納例を示す。
【0131】
【表2】
【0132】ある既知の単語wを複数回発話したときの
固有画像含有率波形B(tq )から、辞書波形を数11
で表されるとする。
【0133】
【数11】
【0134】これは、次の数12のようにして求める。
【0135】
【数12】
【0136】ただし、発話回数を、V回とする。 (単語認識部)単語認識部210では、発話者の発した
未知の単語が、登録されている辞書(辞書波形記憶部2
09)中のどの単語に最も近いのかを計算して、認識結
果を出力する。未知単語の固有画像含有率波形を、Bu
(tq )とすると、Bu (tq )は次のように求める。
ある時刻の未知単語の画像ベクトルxk と固有画像記憶
部に格納されている固有ベクトルμp の内積bp (=x
k ・μp )とする。このとき、画像xk に含まれる固有
画像の割合、つまり固有画像含有率Bu が数9と同様
に、数13のように求められる。
【0137】
【数13】
【0138】未知単語の固有画像含有率波形B
u (tq )は、固有画像含有率Bu を時間制御部207
で生成された時刻tq を用いて、時間応答とすること
で、次の数14のように表される。
【0139】
【数14】
【0140】ただし、q=0,1,2,・・・,qmax 辞書波形記憶部209に格納されている辞書波形である
数11と、数14で表した式で求めた未知単語の波形B
u (tq )との差分sw を、次の数15のように全単語
についてそれぞれ求める。
【0141】
【数15】
【0142】ただし、‖v‖は、ベクトルvの長さを表
す。認識結果は、差分の最小値を与える辞書波形に対応
する単語である。 (辞書作成時の処理の流れ)以上の個々の機能ブロック
の詳細記述により、本発明の自動単語認識装置におけ
る、辞書作成時の処理の流れを、整理して、図15に示
す。すなわち、先ず(a)登録する全ての単語をV回づ
つユーザ(発話者)が発話する。単語を発話する順序
は、次の2つのパターンのいずれでも、あるいは、全く
ランダムに発話しても良い。
【0143】パターン1:はちのへ、はちのへ、・・
・、はちのへ、さっぽろ、さっぽろ、・・・、さっぽ
ろ、・・・ パターン2:はちのへ、さっぽろ、あさひ、・・・、は
ちのへ、さっぽろ、あさひ、・・・ 次に、(b)撮像部(***画像撮像部)において、発話
時の***画像(動画像列)を収集する。例えば、サンプ
リング時間を、33msとし、収録時間を単語1つにつ
いて3秒間に設定する。この場合は、単語1個の動画像
列は90枚である。そして、(c)入力行列生成部にお
いて、収集した画像から、画像ベクトルx k に変換し、
ベクトルxk を列とする入力行列Aを求める。次に、
(d)固有画像算出部において、入力行列Aを共分散行
列Cへ変換し、次に行列Cの固有値λと固有ベクトルμ
を求める。次に、(e)固有画像記憶部において、固有
値の大きい順にP個の固有画像(固有ベクトル)を選択
し、格納する。次に、(f)固有画像含有率波形算出部
において、固有画像(固有ベクトル)とそれぞれの単語
についての画像ベクトル列との内積を計算し、時間制御
部で生成された時刻tqを用いて、固有ベクトル総数分
のP個の時間応答波形を固有画像含有率波形B(tq
を求める。次に、(g)V個の同一単語の固有画像含有
率波形B(tq )の平均を計算して、辞書波形(数1
1)とする。次に、(h)辞書波形記憶部に、単語と、
その単語の辞書波形(数11)を対にして記憶する。そ
して、(i)全ての単語の文字列と辞書波形を辞書波形
記憶部に格納したか否かを判断し、否であるなら、先の
(g)からの処理を繰り返し、全て格納したならば、辞
書作成処理を終了する。 (認識時の処理の流れ)次いで、本発明の自動単語認識
装置における、単語認識時の処理の流れを、整理して、
図16に示す。すなわち、先ず(a)ユーザ(発話者)
が単語1個を一回発話する。ただし、発話する単語は辞
書作成時に登録した単語の中から選ぶ。(b)撮像部
(***画像撮像部)で、発話者の発話時の***画像を収
集する。例えばサンプリング時間ts を33msとし、
取得時間Tを3秒間に設定すると、認識時に収集する動
画像列は、qmax =90枚となる。次に、(c)画像ベ
クトル生成部において収集した画像を画像ベクトルに変
換する。次に、(d)固有画像含有率波形算出部におい
て、ユーザ(発話者)が発話した単語の固有画像含有率
波形を算出する。この算出においては、取得画像の時系
列順に、固有画像記憶部に格納されている固有画像(固
有ベクトル)との内積計算を実行する。次に、(e)単
語認識部において、ユーザ(発話者)が発話した単語の
固有画像含有率波形と、辞書波形記憶部に格納されてい
る全ての辞書波形との差分を計算し、算出した差分の値
が最小になる辞書波形をサーチする。そして、(f)検
出した辞書波形に対応する単語を認識結果とし、単語の
文字列を出力する。
【0144】以上、本発明の自動単語認識装置の構成に
ついて記したが、これを用いて、更に認識率を向上や効
率化ができるようにするための装置構成について以下に
述べる。(i)***画像の位置・大きさの補正 本発明の自動単
語認識装置では、基本的に固有空間法による画像マッチ
ングを用いているため、口の表示位置や表示サイズが変
化すると認識率が低下する場合がある。そのために、カ
メラで収集した画像の***部分が常に同じ条件で表示さ
れるような補正を行ない、認識率の低下を防ぐことがで
きる。
【0145】このために、前述の実施の形態のブロック
図(図14)において、***画像修正部の機能ブロック
を、辞書作成時には、入力行列生成部の前に、認識時に
は画像ベクトル生成部の前に設け、本補正部で、収集し
た動画像中の口を検出し、基準とする***画像の口の位
置・大きさに対して同じ条件で表示されるように補正処
理を行なう。これら構成を表す図を、図17の***画像
修正部を用いたときの実施の形態のブロック図に示す。
図17(a)は辞書作成時の、図17(b)は認識時の
自動認識装置を構成する一部ブロック図である。同図か
ら明らかの様に***画像補正部211が(a)では入力
行列生成部204の前に、(b)では画像ベクトル生成
部203の前に設けられている。本***画像補正部21
1の機能について、以下に詳細を示す。 (***画像補正部)***画像補正部211において、唇
の上下ないし左右端点の画素座標位置の検出と、それを
もとに補正処理を行なう機能を有している。前者の、収
集した画像から口を検出する機能は、本発明の自動口形
状検出装置を用いる。これによれば、カラー画像におい
て、肌・唇・歯・口腔の色の違いを利用して、画像から
それぞれの領域を検出し、唇の内周輪郭、従って、その
上下・左右端点の画素座標を検出することができる。そ
して、この端点座標をもとに補正処理を行なう。
【0146】唇の左右端点を使用して補正する機能につ
いて、以下に述べる。図18に唇の左右端点の説明図を
示し、図18(a)は基準画像の唇の左右端点の画素座
標を表し、図18(b)は入力画像の唇の左右端点の画
素座標を表す。基準画像における唇の左右端点の画素座
標を、同図に示すように、(iRorg,jRorg)、(i
Lorg,jLorg)、補正前の入力画像における唇の左右端
点の画素座標を、(iRin ,jRin )、(iLin ,j
Lin )とする。画像の基準位置を基準画像の右端点(i
Rorg,jRorg)とし、入力画像の拡縮率を、αとおく
と、入力画像の画素(iLin ,jLin )は次の数16に
よって変換される。
【0147】
【数16】
【0148】数16のような補正を***画像補正部で施
すことによって、発話者の顔が前後・左右に動いて口の
表示位置や大きさが変わっても、画像での位置・大きさ
を一定に保つことができる。なお上記の例では唇の左右
端点を使用したが、唇の上下端点や中心点、また左右の
目の中心点、鼻の穴の中心点(2点)などを使用しても
良い。 (位置ずらし固有画像記憶部・位置ずらし固有画像位置
補正部)上記の***画像補正部211(図17)を設け
て***画像の位置補正を実施しても、顔の凹凸に起因す
る陰影変化や、端点の検出ミスなどによって、検出位置
にバラツキが生じることがある。検出位置に誤りがある
と固有画像含有率を正しく算出できないため、認識率が
低下する。そこで、前記の***画像補正部に加えて、更
に精密に位置補正をする構成を適用することで認識率の
向上をはかることができる。この基本的な構成は、前記
の***画像補正部を設けて得た固有画像をもとに、画面
上における固有画像の位置を移動した「位置ずらし固有
画像」を生成する。更に「位置ずらし固有画像」を用い
て再構成した***画像と、入力***画像とを比較し、両
者の類似度が最も近い時の「位置ずらし固有画像」か
ら、入力***画像の位置ずれを推定することにより行な
う。
【0149】図19の位置ずらし固有画像を用いたとき
の実施の形態のブロック図に、この新たな補正機能を設
けた自動単語認識装置を示し、図19(a)に辞書作成
時、図19(b)認識時の構成をそれぞれ示す。図から
明らかなように、図19(a)において、固有画像記憶
部206からのデータを、位置ずらし固有画像記憶部2
12で受けて処理をし、その結果を位置ずらし固有画像
位置補正部213に送付し、そこでの処理結果を固有画
像含有率波形算出部208に送付するように構成する。
また図19(b)において、位置ずらし固有画像記憶部
212の格納データを位置ずらし固有画像位置補正部2
13に取り込んで補正処理をし、結果を固有画像含有率
波形算出部に送付するように構成する。
【0150】位置ずらし固有画像記憶部212での処理
の詳細は以下のとおりである。すなわち、***画像補正
を行なった固有画像記憶部206中の固有画像に、先
ず、有効画像域を設定し、次に有効画像域内の画像デー
タを画面上で移動し、移動後の画像データを位置ずらし
固有画像として、位置ずらし固有画像記憶部212に格
納する。
【0151】有効画像域の位置移動方法を、図20の位
置ずらし固有画像を用いたときの有効画像域の説明図に
従って説明する。先ず図20(a)有効画像域の位置関
係を参照し、***画像補正後で得た固有画像のi方向
(紙面左右方向)の大きさを、SiORG、j方向(紙面上
下方向)の大きさを、SjORG、とする。単位は画素(整
数)である。有効画像域の、i方向の大きさを、S
iCLIP 、j方向の大きさを、SjCLIP 、とする。また有
効画像域の元の画像に対する左上隅の点、PA から測っ
た点、PC 、のオフセット量を、δi 、δj とする。位
置ずらし固有画像は、有効画像域をオフセット量、
δi 、δj の値を次の数17の範囲で変化させて、移動
した画像である。なお、有効画像域以外の領域はゼロと
する。
【0152】
【数17】
【0153】例えば、オフセット量を、(δi 、δj
=(0,0)、(δi 、δj )=(1,0)、(δi
δj )=(1,1)と与えると、図20(b)、
(c)、(d)のような位置ずらし固有画像を生成でき
る。位置ずらし固有画像記憶部212には、オフセット
量δi 、δj を数17に示した値で変化させたときに生
成される全ての位置ずらし固有画像を格納する。また、
上記の処理は、***画像補正で生成されるP個の固有画
像全てに対しても同様に行なう。なお、位置ずらし固有
画像記憶部に格納するときは、先の数1に示した変換方
式を用いて、次に述べるベクトルの形式で保存する。
【0154】第p固有画像を、δi 、δj だけ移動した
ときの位置ずらし固有画像ベクトル:μp (δi
δj ) 位置ずらし固有画像位置補正部213では、位置ずらし
固有画像記憶部212に格納されている位置ずらし固有
画像μp (δi 、δj )を用いて、画像ベクトル生成部
203から入力された***画像xk の位置補正を行な
う。先ず、前述の数8と同様な方法で、位置ずらし固有
画像を用いて、次の数18のように、入力画像xk を近
似的に表す。
【0155】
【数18】
【0156】ただし、μp (δi 、δj )は上述したμ
p (δi 、δj )のベクトル値、bp(δi 、δj
は、入力画像と位置ずらし固有画像の内積xk ・μ
p (δi 、δ j )である。入力画像ベクトルxk と、近
似画像ベクトルxk (δi 、δj )との差を計算し、そ
の逆数を、2つの画像間の類似度ξ(δi 、δj )と定
義すると、次の数19のように表すことができる。
【0157】
【数19】
【0158】類似度ξ(δi 、δj )が最大になるとき
のオフセット量δi 、δj が、入力画像の位置ずれに相
当する。次に、オフセット量δi 、δj を使用して、入
力画像の位置を補正する方法を以下に記す。基準画像の
オフセット量を、δiBASE 、δjBASE とし、補正対象の
入力画像のオフセット量を、δiIN 、δjIN とする。こ
のとき、入力画像の画素座標(iIN,jIN)を下記の数
20に示すように変換する。
【0159】
【数20】
【0160】こうした処理を、位置ずらし固有画像位置
補正部213で行なうことにより、画面上の口の位置
を、常に基準画像と同じ位置に補正することができるた
め、後段の固有画像含有率波形算出部208において、
波形のバラツキを低減することができ、認識率を上げる
ことが可能となる。(ii)辞書波形作成時間の短縮 図14(a)における
固有画像算出部205において実行する、数4、数5、
数6の演算処理は、画像の数が増加すると計算時間が非
常に長くなる性質がある。そこで、辞書波形を作成する
ときに、登録する単語の動画像列が含まれない単語群か
ら生成された固有画像を予め用意しておくことで、辞書
作成に要する時間を短縮することができる。例えば、1
00個の地名(はちのへ、さっぽろ、あさひ・・・)の
辞書波形を作成するときに、10個の数字(いち、に、
さん、・・・、じゅう)から作成した固有画像を用いて
固有画像含有率波形を算出することで、単語100個の
固有画像の算出処理を省略することができる。これにつ
いて、図21に示す、登録単語と異なる単語群を用いた
ときの辞書作成に関するブロック図に従って詳述する。
【0161】先ず、固有画像を予め用意しておくため、
適当な個数の単語からなる単語群Aの動画像列を収集す
る。図15の流れ図における、(c)〜(e)で示した
手順と同じ手順で、単語群Aの固有画像を算出し固有画
像記憶部206に格納する。次に、辞書に登録する単語
の集まり(単語群B)を発声し、動画像列を収集する。
収集した各単語の動画像列それぞれについて、画像ベク
トル生成部203において画像ベクトルを算出する。固
有画像含有率波形を固有画像含有率波形算出部208
で、固有画像記憶部206に格納されている単語Aの固
有画像と、単語群Bの各単語の画像ベクトルの内積から
求める。単語群B中の単語を複数回発声したときは、数
12の式を用いて固有画像含有率波形の平均をとり、辞
書波形とし、この辞書波形を辞書波形記憶部209に格
納する。(iii)重み付け処理による認識率の向上 微妙な口の動きの違いを重み付け処理を行なって識別す
ることで、認識率を向上することができる。
【0162】先ず、各固有画像に重み付けを行なう構成
を示す。固有画像含有率波形算出部208(図14参
照)において、画像ベクトルxk と固有ベクトルμp
内積bp を求め、内積bp の集合ベクトルから固有画像
含有率を求めた。(数9参照)固有画像含有率Bを算出
する際、重み係数βp を用いて、数9を次の数21のよ
うに変形することで、固有画像についての重み付けを行
なうことができる。
【0163】
【数21】
【0164】例えば、β1 =1、β2 =β3 =・・・=
βp =0と置くと、固有画像μ1 のみで認識処理を行な
うことができる。
【0165】次に、時間区分によって重みを変える構成
について示す。固有画像含有率波形算出部208(図1
4参照)において、適当な重み時間関数γ(tq )を用
いて、数10を次の数22のように変形することで、時
間区間に関する重み付けを行なうことができる。
【0166】
【数22】
【0167】例えば、次の数23のように、γ(tq
を与える。
【0168】
【数23】
【0169】すると、有る時間区間tqa≦tq <tqb
のみを使用して認識処理を実行することができる。(iv)音声認識処理との結合 本発明の自動単語認識装置では、口の形状変化を検出し
て単語を認識する。このために、単語の音に違いがあっ
ても口の形状が類似している単語を認識するときに誤認
識が生じる。例えば、数字の「きゅう」「じゅう」の口
形状には殆ど差が無いため、本発明の構成で認識するこ
とは困難となる。そこで、発話者の音声をデータとして
取り込み、各種処理を行なってその発話単語を認識す
る、音声認識処理と結合して、単語認識を行ない、認識
率を向上する構成について、以下に述べる図22に、一
般的な音声認識処理のブロック図を示す。発話者からの
言葉(単語)はマイクをとおして音声認識部301に取
り込まれる。音声認識部301では登録されている辞書
(音声認識用辞書302)の中から、発話された単語に
最も近い単語を選択して認識結果として出力する。
【0170】図23に、本発明の自動単語認識装置と、
音声認識処理との結合方法を説明するブロック図を示
す。この図において、先ずカメラなどを用いた***画像
撮像部201の動画列に基づいて本発明の自動単語認識
装置の単語認識部210から認識結果の単語を出力す
る。このとき、認識の困難な単語がある場合(例えば、
「きゅう」と「じゅう」など)は複数の単語群として出
力する。出力された単語群は、音声認識用辞書302に
登録される。音声認識部301ではマイクから入力され
た音声信号に基づいて音声認識処理を実行する。この
際、辞書として前述の自動単語認識装置が出力した、音
声認識用辞書302中の単語群を使用し、発話された単
語に最も近い単語をこの辞書から選択し、認識結果とし
て出力する。このような結合を行なうことによって、自
動単語認識装置に辞書として登録されている単語が、単
語認識部によって選定されて音声認識用の辞書として出
力され、音声認識処理によって更に認識結果が絞り込ま
れるため、誤認識の割合を低減することができる。
【0171】単語認識部210において、複数の単語を
認識結果として出力する構成を以下に示す。認識結果の
単語を1個とするときは、数15において、辞書波形で
ある数11と、未知単語の波形Bu (tq )との差分s
w が、最小値を与える辞書波形である数11に対応する
単語wを出力していた。一方、識別が困難な単語が複数
ある場合には、正解ではない単語の差分sw が、正解で
ある単語の差分より小さくなることがある。そこで閾値
thよりも小さな差分を与える辞書波形である数11に
対応する単語を全て認識結果とすることで、複数の単語
を出力する自動単語認識装置を実現できる。つまり、閾
値をsth とすると、数24を満たす辞書波形の数11
に対応するすべての単語wを出力結果として、音声認識
用の辞書として登録する。
【0172】
【数24】
【0173】(付記1) カラー撮像して検出対象の顔
面画像データを取得する撮像部と、前記顔面画像データ
の各画素の画素データを、色成分データと輝度成分デー
タとに分離して格納する画像入力部と、前記色成分デー
タを前記輝度成分データで正規化し輝度正規化色情報デ
ータに変換して格納する色情報算出部と、前記輝度成分
データと前記輝度正規化色情報データとに基づいて、前
記検出対象顔面全域の各部位の画素を特定する部位領域
データに分割処理して格納する領域分割部と、前記部位
領域データから唇内周領域算出処理をおこなって前記唇
の内周輪郭領域データを抽出して格納する口輪郭検出部
とを備えることを特徴とする自動口形状検出装置。
【0174】(付記2) 前記唇の内周輪郭領域データ
から、口の開口形状を表す指標データを算出し、かつ出
力する口形状指標算出・出力部を備え、前記指標データ
は、前記唇の内周輪郭領域データから算出される、唇の
内周輪郭の縦横比、または唇の内周輪郭の上下端点間の
距離、または唇の内周輪郭の左右端点間の距離、または
唇の内周輪郭領域の面積のいずれか、もしくはそれらの
組み合わせ、であることを特徴とする付記1記載の自動
口形状検出装置。
【0175】(付記3) 前記部位領域データへの分割
処理は、前記輝度成分データと前記輝度正規化情報デー
タとの相関から部位別色分布と、前記部位別色分布から
部位別閾値関数とを算出し、前記輝度正規化色情報デー
タと比較して前記検出対象顔面全域の各部位の画素を特
定する部位領域データへの分割処理、であることを特徴
とする付記1記載の自動口形状検出装置。
【0176】(付記4) 前記部位別色分布で相互に重
なりがあるときは重なり分離処理をおこない、前記重な
り分離処理は前記重なり部分の中点を算出して分離をお
こなう処理、または前記重なり部分を直線で分離をおこ
なう処理、であることを特徴とする付記1記載の自動口
形状検出装置。
【0177】(付記5) 前記唇内周領域算出処理は、
前記口腔の部位領域と前記歯の部位領域を合成して前記
唇の内周輪郭領域データとする処理、であることを特徴
とする付記1記載の自動口形状検出装置。
【0178】(付記6) 利用者の顔面から口の開閉状
態を検知する付記1記載の自動口形状検出装置と、前記
利用者から発せられる音声を音声入力信号として取得し
記憶制御する、記憶部を備える音声入力源制御部と、音
声信号から認識単語に変換するための辞書部を備える、
前記音声入力信号を認識する音声認識部と、前記音声認
識部による認識に基づいて音声応答データを生成制御す
る音声対話制御部と、前記音声応答データにより音出力
信号を出力制御する、音信号出力源制御部とを備えるこ
とを特徴とする音声対話システム。
【0179】(付記7) 前記利用者の口を開口状態と
検知したときは、前記音声入力源制御部を音声入力可能
のように制御し、または前記音信号出力源制御部を音信
号出力不可能のように制御し、また前記利用者の口を閉
口状態と検知したときは、前記音声入力源制御部を音声
入力不可能のように制御し、または前記音信号出力源制
御部を音信号出力可能のように制御することを特徴とし
た付記6記載の音声対話システム。
【0180】(付記8) 利用者の口を閉口状態と検知
したときにおいて、前記利用者の周囲の背景音を、前記
音声入力源制御部の前記記憶部に、背景音信号として予
め記憶し、前記利用者の口を開口状態と検知したとき、
前記音声入力源制御部に取得される音声入力信号を前記
記憶部に記憶し、前記音声入力信号から前記背景音信号
を除去することを特徴とする、付記6記載の音声対話シ
ステム。
【0181】(付記9) 前記辞書部は、前記音声認識
部において認識結果として得る単語の先頭音が両唇音で
あるとき、前記先頭音の母音のみに変換して作成された
単語および前記先頭音を除いて作成された単語とを、音
声入力単語の認識範囲として含めて辞書登録されている
ことを特徴とする、付記6記載の音声対話システム。
【0182】(付記10) カラー撮像して検出対象の
***画像データを取得する***画像撮像部と、前記***
画像データをサンプリング取得して動画像列データ化す
る動画像列生成部と、前記***画像データの各画素値を
一次元の画像ベクトルに変換する画像ベクトル生成部
と、前記***画像データより生成した画像ベクトルを用
いて前記各画素を要素とする入力行列を生成する入力行
列生成部と、前記入力行列に対して主成分分析を行って
固有画像を算出する固有画像算出部と、前記固有画像を
格納する固有画像記憶部と、所定の時間に応じて時刻信
号を送出する時間制御部と、前記画像ベクトルと前記固
有画像より固有画像含有率を算出し、前記時刻信号に応
答して算出された前記固有画像含有率の時間的な連なり
である固有画像含有率波形を生成する固有画像含有率波
形算出部と、前記固有画像含有率波形とそれに対応する
単語とを格納する辞書波形記憶部と、発話者の***画像
データより得られた単語の固有画像含有率波形と、前記
辞書波形記憶部に格納された前記固有画像含有率波形と
の波形比較をして対応する単語を認識し出力する単語認
識部とを備えることを特徴とする自動単語認識装置。
【0183】(付記11) 前記動画像列生成部で得た
動画像列データから付記1記載の自動口形状検出装置に
より、発話者の***の画像表示位置の補正を行う***画
像補正部を備えることを特徴とする付記10記載の自動
単語認識装置。
【0184】(付記12) 前記固有画像含有率波形算
出部において前記固有画像含有率を算出するとき重み付
け処理を付加することを特徴とする付記10記載の自動
単語認識装置。
【0185】(付記13) 前記単語認識部において前
記波形比較を行うとき比較の差分に所定の閾値を設け
て、前記辞書波形記憶部に格納された、前記閾値以下の
すべての前記固有画像含有率波形を有する対応した単語
を出力することを特徴とする付記10記載の自動単語認
識装置。
【0186】
【発明の効果】以上の説明から明かなように、本発明の
自動口形状検出装置によって、発話時の口形状の自動検
出・逐次検出が可能となるため、会話者が発話しようと
しているか否かの意図や、単語による口形状の遷移状態
などをセンシングすることが、従来のものに比べ、使用
状態の制限などが少なく、より汎用性がある形で自動検
出が可能な新たな口形状検出装置を提供することができ
る。また、口形状を示す、幾つかの口形状指標を出力可
能としたことで、上記のような各種認識処理がより行い
易くなる。
【0187】そして、この自動口形状検出装置と音声入
力源制御・音信号出力源制御・音声認識などの機能を有
する機能部とからなる本発明の音声対話システムによ
り、例えば、発話者である利用者が発声したときにだ
け、音声入力を可能にし、かつ合成音の出力をゼロにす
るなどのスイッチング操作が可能となり、入力された音
声に含まれる背景音の影響を抑制でき、また入力された
音声の単語の先頭音が両唇音であるときの誤認識を防ぐ
ことが可能となって、音声認識率の向上することができ
る。
【0188】また、本発明の自動単語認識装置によっ
て、辞書作成時には、各単語に対応する固有画像含有率
波形を辞書波形として記憶し、認識時には、利用者が発
話した未知単語の固有画像含有率波形と辞書波形とを比
較して最も確からしい単語を出力するため、発話中の口
周辺の形状変化や、舌・歯の見え具合の変化を反映し、
かつ、単語の長短や口形状の連続的な遷移状態を含め
て、単語を認識することが可能となる。
【0189】さらには、この単語認識装置は、テレビカ
メラで撮像した画像を用いて視覚的に単語を認識できる
ため、周囲の騒音が大きいなどの理由でマイクからの音
声入力による音声認識処理で単語を認識することが困難
な場合でも、コンピュータへの入力などをキーボードや
マウスを操作せずに実行できることにもなる。
【図面の簡単な説明】
【図1】 自動口形状検出装置の実施の形態のブロック
【図2】 顔面のカラー画像の座標定義
【図3】 肌色領域の輝度依存特性
【図4】 閾値関数の算出方法に関する説明図
【図5】 粒子解析の説明
【図6】 粒子解析処理例
【図7】 閾値関数を色分布重なりの中点から算出する
方法
【図8】 閾値関数を直線で表す方法
【図9】 口輪郭検出部の処理過程の説明図(その1)
【図10】 口輪郭検出部の処理過程の説明図(その
2)
【図11】 口形状指標の説明図
【図12】 開閉状態の判定結果例
【図13】 音声対話システムの実施の形態のブロック
【図14】 自動単語認識装置の実施形態のブロック図
【図15】 辞書作成時の処理の流れ
【図16】 認識時の処理の流れ
【図17】 ***画像補正部を用いたときの実施形態の
ブロック図
【図18】 唇の左右端点の説明
【図19】 位置ずらし固有画像を用いたときの実施形
態のブロック図
【図20】 位置ずらし固有画像を用いたときの有効画
像域の説明図
【図21】 登録単語と異なる単語群を用いたときの辞
書作成ブロック図
【図22】 一般的な音声認識処理のブロック図
【図23】 音声認識処理との結合方法を説明するブロ
ック図
【符号の説明】
1 撮像部 2 画像入力部 3 色情報算出部 4 領域分割部 5 口輪郭検出部 6 口形状指標算出・出力部 100 自動口形状検出装置 101 マイクロフォン 102 音声入力源制御部 102−1 記憶部 103 スピーカ 104 音信号出力源制御部 105 音声認識部 105−1 辞書部 106 音声対話制御部 201 ***画像撮像部 202 動画像列生成部 203 画像ベクトル生成部 204 入力行列生成部 205 固有画像算出部 206 固有画像記憶部 207 時間制御部 208 固有画像含有率波形算出部 209 辞書波形記憶部 210 単語認識部 211 ***画像補正部 212 位置ずらし固有画像記憶部 213 位置ずらし固有画像位置補正部 301 音声認識部 302 音声認識用辞書
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/24 Fターム(参考) 5B057 AA20 BA11 CA01 CA08 CA12 CA16 CB17 CC03 CE09 CE12 DC03 DC04 DC25 5D015 LL07 5L096 AA02 AA06 BA08 BA16 BA18 CA04 DA02 EA12 EA18 EA37 EA43 FA06 FA59 FA66 FA69 GA40 HA04 HA08 HA13 JA11

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 カラー撮像して検出対象の顔面画像デー
    タを取得する撮像部と、 前記顔面画像データの各画素の画素データを、色成分デ
    ータと輝度成分データとに分離して格納する画像入力部
    と、 前記色成分データを前記輝度成分データで正規化し輝度
    正規化色情報データに変換して格納する色情報算出部
    と、 前記輝度成分データと前記輝度正規化色情報データとに
    基づいて、前記検出対象顔面全域の各部位の画素を特定
    する部位領域データに分割処理して格納する領域分割部
    と、 前記部位領域データから唇内周領域算出処理をおこなっ
    て前記唇の内周輪郭領域データを抽出して格納する口輪
    郭検出部とを備えることを特徴とする自動口形状検出装
    置。
  2. 【請求項2】 カラー撮像して検出対象の***画像デー
    タを取得する***画像撮像部と、 前記***画像データをサンプリング取得して動画像列デ
    ータ化する動画像列生成部と、 前記***画像データの各画素値を一次元の画像ベクトル
    に変換する画像ベクトル生成部と、 前記***画像データより生成した画像ベクトルを用いて
    前記各画素を要素とする入力行列を生成する入力行列生
    成部と、 前記入力行列に対して主成分分析を行って固有画像を算
    出する固有画像算出部と、 前記固有画像を格納する固有画像記憶部と、 所定の時間に応じて時刻信号を送出する時間制御部と、 前記画像ベクトルと前記固有画像より固有画像含有率を
    算出し、前記時刻信号に応答して算出された前記固有画
    像含有率の時間的な連なりである固有画像含有率波形を
    生成する固有画像含有率波形算出部と、 前記固有画像含有率波形とそれに対応する単語とを格納
    する辞書波形記憶部と、 発話者の***画像データより得られた単語の固有画像含
    有率波形と、前記辞書波形記憶部に格納された前記固有
    画像含有率波形との波形比較をして対応する単語を認識
    し出力する単語認識部とを備えることを特徴とする自動
    単語認識装置。
  3. 【請求項3】 前記動画像列生成部で得た動画像列デー
    タから、請求項1記載の自動口形状検出装置により発話
    者の***の画像表示位置の補正を行う***画像補正部を
    備えることを特徴とする請求項2記載の自動単語認識装
    置。
JP2001100023A 2000-03-31 2001-03-30 自動口形状検出装置とそれを用いた自動単語認識装置 Withdrawn JP2002197465A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001100023A JP2002197465A (ja) 2000-03-31 2001-03-30 自動口形状検出装置とそれを用いた自動単語認識装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2000097768 2000-03-31
JP2000317116 2000-10-17
JP2000-97768 2000-10-17
JP2000-317116 2000-10-17
JP2001100023A JP2002197465A (ja) 2000-03-31 2001-03-30 自動口形状検出装置とそれを用いた自動単語認識装置

Publications (1)

Publication Number Publication Date
JP2002197465A true JP2002197465A (ja) 2002-07-12

Family

ID=27342924

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001100023A Withdrawn JP2002197465A (ja) 2000-03-31 2001-03-30 自動口形状検出装置とそれを用いた自動単語認識装置

Country Status (1)

Country Link
JP (1) JP2002197465A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006059162A (ja) * 2004-08-20 2006-03-02 Noritsu Koki Co Ltd 歯画像補正方法及び装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP2007047949A (ja) * 2005-08-08 2007-02-22 Advanced Telecommunication Research Institute International 口トラッキング装置及びコンピュータプログラム
JP2007272298A (ja) * 2006-03-30 2007-10-18 Fujifilm Corp 顔検出方法およびこれを用いた撮影装置
US7508959B2 (en) 2003-04-09 2009-03-24 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
CN107430857A (zh) * 2015-04-07 2017-12-01 索尼公司 信息处理设备、信息处理方法和程序
JP2018156316A (ja) * 2017-03-16 2018-10-04 日立造船株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP2020035137A (ja) * 2018-08-29 2020-03-05 カシオ計算機株式会社 開閉状態判定装置、方法、プログラム、音声認識装置、及びロボット
JP7414262B2 (ja) 2020-01-23 2024-01-16 国立大学法人電気通信大学 口腔認識装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7508959B2 (en) 2003-04-09 2009-03-24 Toyota Jidosha Kabushiki Kaisha Change information recognition apparatus and change information recognition method
JP2006059162A (ja) * 2004-08-20 2006-03-02 Noritsu Koki Co Ltd 歯画像補正方法及び装置
JP2006079456A (ja) * 2004-09-10 2006-03-23 Nippon Signal Co Ltd:The 発話識別方法及びこれを用いたパスワード照合装置
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
JP2007047949A (ja) * 2005-08-08 2007-02-22 Advanced Telecommunication Research Institute International 口トラッキング装置及びコンピュータプログラム
JP2007272298A (ja) * 2006-03-30 2007-10-18 Fujifilm Corp 顔検出方法およびこれを用いた撮影装置
CN107430857A (zh) * 2015-04-07 2017-12-01 索尼公司 信息处理设备、信息处理方法和程序
CN107430857B (zh) * 2015-04-07 2021-08-06 索尼公司 信息处理设备、信息处理方法和程序
JP2018156316A (ja) * 2017-03-16 2018-10-04 日立造船株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP2020035137A (ja) * 2018-08-29 2020-03-05 カシオ計算機株式会社 開閉状態判定装置、方法、プログラム、音声認識装置、及びロボット
JP7196467B2 (ja) 2018-08-29 2022-12-27 カシオ計算機株式会社 開閉状態判定装置、開閉状態判定方法及びプログラム
JP7414262B2 (ja) 2020-01-23 2024-01-16 国立大学法人電気通信大学 口腔認識装置

Similar Documents

Publication Publication Date Title
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及***
JP3688879B2 (ja) 画像認識装置、画像認識方法及びその記録媒体
US20100332229A1 (en) Apparatus control based on visual lip share recognition
US4975960A (en) Electronic facial tracking and detection system and method and apparatus for automated speech recognition
EP2955662A1 (en) Image processing device, imaging device, image processing method
WO2015158017A1 (zh) 智能交互及心理慰藉机器人服务***
Scanlon et al. Feature analysis for automatic speechreading
JP2007257087A (ja) 肌色領域検出装置及び肌色領域検出方法
KR101187600B1 (ko) 스테레오 카메라 기반의 3차원 실시간 입술 특징점 추출을 이용한 음성 인식 장치 및 음성 인식 방법
JP2002197465A (ja) 自動口形状検出装置とそれを用いた自動単語認識装置
Reda et al. Svbicomm: sign-voice bidirectional communication system for normal,“deaf/dumb” and blind people based on machine learning
JP2005276230A (ja) 画像認識装置
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
CN116092157A (zh) 一种智能面舌诊方法、***及智能设备
WO2023035969A1 (zh) 语音与图像同步性的衡量方法、模型的训练方法及装置
Stanciu et al. Emotional states recognition by interpreting facial features
KR100532129B1 (ko) 음성 인식을 위한 입술영역 검출 및 이를 이용한입술모양정보 획득방법
Talea et al. Automatic combined lip segmentation in color images
CN114466179A (zh) 语音与图像同步性的衡量方法及装置
KR20110124568A (ko) 음성 및 영상 인식 기능을 갖는 로봇 시스템 및 그의 인식 방법
Ibrahim A novel lip geometry approach for audio-visual speech recognition
JP2008287340A (ja) 発話内容識別装置及び個人識別装置
Talea et al. Automatic visual speech segmentation
Jothibalaji et al. Silent Speech Interface Using Lip-Reading Methods
JP4160554B2 (ja) 画像認識装置及び画像認識装置方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080603