JP2002197465A

JP2002197465A - 自動口形状検出装置とそれを用いた自動単語認識装置

Info

Publication number: JP2002197465A
Application number: JP2001100023A
Authority: JP
Inventors: Yasuyuki Nakada; 康之中田; Moritoshi Ando; 護俊安藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2000-03-31
Filing date: 2001-03-30
Publication date: 2002-07-12

Abstract

(57)【要約】【課題】騒音下などで発話された発話意図や単語を認
識するために、発話者の口の形状を検出するのに好適な
汎用性の高い口形状検出装置と、また口の形状変化から
発話された単語を認識する単語認識装置を提供する。【解決手段】発話者の顔面をカラー撮像して取得した
画素の色情報と、予め取得した顔面部位の正規化した色
情報との比較をして、撮像データを肌・唇・口腔・歯の
領域に分割する。取得した口腔と歯領域とを合成して唇
の内周輪郭を算出し口形状を検出する。また単語を発す
る発話者の変化する***部をカラー撮像して動画像列を
得、固有空間法で求めた固有画像が取得した***画像中
に含まれる割合の時間応答特性を用いて、発話単語の応
答特性と予め辞書登録されている単語の応答特性とを比
較し、類似単語を識別して発話単語を認識する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、発話された発話意
図や単語を認識するために、発話者の口形状を自動的に
検出する装置と、口形状の変化の状態から発声された単
語を自動的に認識する装置に関する。

【０００２】

【従来の技術】利用者とコンピュータとのインターフェ
ースとして音声を用いる、各種の音声対話システムが開
発されている。その場合、利用者である発話者の音声の
騒音下での音声認識率の向上やその発話意図を検出する
ために、コンピュータなどの情報処理機器に、口形状検
出機能や口の動きから発話された言葉・単語を認識する
読唇機能を搭載する試みがなされている。

【０００３】先ず、前者の口形状検出機能に関し、従
来、大別すると次のような２種類の方法が検討されてき
た。

【０００４】（１）色抽出処理により、唇の輪郭を検出
し、口の形状を検出する方法。

【０００５】この方法を用いた例として、正面顔の中心
線の色分布から唇を自動検出する方法（従来例１、「情
報処理学会論文誌、Ｖｏｌ．３９，Ｎｏ．１２，ｐｐ．
３２３２〜，顔画像情報と音声情報の統合による発話認
識」）や、ＹＩＱ表色系を用いた口の輪郭検出方法（従
来例２、「電気学会論文誌Ｄ：Ｖｏｌ．１１９，Ｎｏ．
１，ｐｐ．３７〜，口のカラー動画像を用いた音韻認
識」）がある。

【０００６】（２）フォトセンシング方式により、口の
開閉を検知する方法。

【０００７】この方法を用いた例として、ハンドセット
の送話部（音声入力部）に取り付けたＬＥＤからの光を
***に照射してその反射光をフォトトランジスタで受光
し、その受光電力の信号から***の動きを認識し、それ
より発声区間を検出して音声認識率向上に適用する装置
（従来例３、特開平８−７６７９２）がある。

【０００８】また、音声対話システムにおいて、コンピ
ュータ側が発話中に利用者が割り込んで音声を発してコ
マンドなどを入力した場合、システムでの音声認識率が
低下するといった課題がある。これは音声対話システム
のスピーカから発せられた合成音声と利用者の声とが重
なってマイクロフォンに入った場合、合成音声がノイズ
となり、利用者の声の抽出が困難になる事による。

【０００９】この問題に対処するために、従来より次の
ような各種方法が提案されてきた。すなわち、（３）マイクロフォンに入る背景音パワーと合成音パワ
ーとの和の閾値音声パワーレベルを予め求めておき、こ
れよりもマイクロフォンへの入力が大きくなったときに
合成音を遮断する方法（従来例４、特開平５−３２３９
９３）。

【００１０】（４）手元のスイッチを用いて合成音を遮
断する方法（従来例５、特開平８−３１４４９２）。

【００１１】（５）利用者の音声・頭の動き・視線・表
情（口の大きさ、形状を含む）によって動作状態を認識
して、認識結果に応じて発話権が利用者側にあるかコン
ピュータ側にあるかを判定し、利用者側に発話権がある
場合はコンピュータの合成音出力を停止するなどのコン
ピュータ応答を制御する方法（従来例６、特開平９−２
６９８８９）。

【００１２】などの提案である。

【００１３】一方、後者の読唇機能に関し、カメラで発
話者の顔ないし***の画像を取得し、その画像をコンピ
ュータ等で自動解析して発話内容を認識する方法として
は、従来、大別して、二つの方法が提案されている。

【００１４】その一つは唇の輪郭形状を検出する方法で
あるが、発話者の違いを吸収できるという利点はあるも
のの唇の形状しか利用していないため、発話中の舌や歯
の見え具合等の情報が反映されないという問題がある。
もう一つの方法である取得した画像をそのまま用いる方
法であり、これは舌や歯の見え具合を含めて解析するた
め、一般に認識率が良いとされる。その方法の代表的な
提案例としては、濃淡画像のパターンをニューラルネッ
トで処理する方法や、固有空間法を用いた方法（従来例
７、「ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎＬｅ
ｔｔｅｒｓ１７，１９９６，ＭｏｖｉｎｇＯｂｊｅｃ
ｔＲｅｃｏｇｎｉｔｉｏｎｉｎＥｉｇｅｎｓｐａｃ
ｅＲｅｐｒｅｓｅｎｔａｔｉｏｎ：ＧａｉｔＡｎａｌ
ｙｓｉｓａｎｄＬｉｐＲｅａｄｉｎｇ」、や従来
例８、「ＣｏｍｐｕｔｅｒＶｉｓｉｏｎａｎｄＩ
ｍａｇｅＵｎｄｅｒ−ｓｔａｎｄｉｎｇ，Ｖｏｌ．６
５，Ｎｏ．２，１９９７．Ｓｐｅｅｃｈ−ｒｅａｄｉｎ
ｇｕｓｉｎｇＰｒｏｂａｂｉｌｉｓｔｉｃＭｏｄ
ｅｌｓ」）がある。特に固有空間法を用いた方法は、顔
認識処理でも効果をあげており、顔や唇のような不定形
の物体を認識するのに適した方法であるといえる。

【００１５】

【発明が解決しようとする課題】しかしながら、口の形
状を検出するための従来例１の方法では、正面顔の中心
線を基準にして自動色抽出を行うことから、顔の横ぶれ
が生じた場合における対応などの点から汎用性に乏しい
と言える。また従来例２の方法では、自動色検出機能を
備えていないため、照明条件や個人差などの僅かな違い
によって、口の輪郭が変動する場合がある。従来例３の
方法の場合、ＬＥＤからの照明光を常時かつ確実に口に
照射する必要があるが、自動追従機構が無いためにこの
照射保証がなされていない、といった問題点がある。

【００１６】一方、利用者の音声とコンピュータからの
合成音と重畳による認識率低下を回避するための各種の
従来方法に関しても、以下のような課題がある。従来例
４の方法では、背景音や合成音の音量パワーが変化する
たびに、閾値を変更する必要があり、利用者の負担が大
きくなる。従来例５の方法に関しては、利用者が発話す
るとき、その都度、手元スイッチを押す必要があり、利
用者負担が大きいといった課題がある。

【００１７】従来例６の方法においては、口の大きさ・
形状を含めた利用者の表情に応じて発話権を認識し、利
用者に発話権が移ったときにコンピュータ側からの合成
音出力を停止するとしている。しかしマイクロフォンの
音声入力制御については考慮されていないため、利用者
の音声の認識がうまくいかない場合がある。通常の音声
認識装置において、利用者が発話していない時のマイク
ロフォンに捉えられる音量情報をノイズ成分として判断
し、これを用いて利用者音声がマイクロフォンに入力さ
れたときのノイズ低減信号処理を行っている。そのた
め、利用者の発話時のみ合成音を停止しても、利用者の
音声の大きさによっては、音声入力ができないといった
不具合が生じる。

【００１８】また、読唇機能を実現する方法に関し、特
に固有空間法を用いた提案のうち、従来例７では、***
画像を複数の固有ベクトルが張る多次元空間の１点で表
し、画像が変わるたびに点を結ぶことで動画列を固有ベ
クトル空間の曲線として表す。つまり発話者が発話した
単語は固有ベクトル空間の曲線として表されるため、曲
線の類似度を比較することで単語が識別できる。しかし
この方法では時間に関する情報が欠落するため、単語の
長短を表現することができないといった問題がある。

【００１９】また従来例８では、まず固有空間法を用い
て入力した***画像と「視音素画像」との対応付けを行
い、次に隠れマルコフ・モデルを使用して入力単語の
「視音素画像」の並び方と辞書単語との並び方を確率的
に比較することで単語を認識する。この方法では口の形
状の変化を「視音素」という離散的な系列で表現するた
め、ある発音から次の発音を発声する際に口形状が連続
的に変化するときの変化量を細かく表現できないといっ
た問題がある。

【００２０】よって、本発明の目的の一つは、従来方法
の問題点を考慮して、より汎用性があり、また自動検出
が可能な、新たな自動口形状検出装置を提供することで
あり、さらに、この新たな自動口形状検出装置を用い
て、音声対話システムにおける、利用者の音声とコンピ
ュータからの合成音と重畳による認識率低下を回避す
る、従来方法に比べより音声認識率を増加させることが
できる、新たな音声対話システムを提供することにあ
る。

【００２１】そして、本発明の他の目的は、上記のよう
な従来例にみられる不具合点を考慮し、発話者の口周辺
の動画像を取得し、入力された***画像中に固有空間法
で求めた固有画像がどの程度含まれているかを求め、そ
の時間応答を比較するといった方法を導入することで、
単語の長短を含んだ認識と口形状の連続的な変化を認識
して、発話単語が登録単語の中のどの単語に類似してい
るかを識別し、発話単語を自動的に識別する自動単語識
別装置を提供することにある。

【００２２】さらに、本発明の自動口形状検出装置と自
動単語認識装置との組合せにより、より精度の高い単語
認識の装置を提供することにも、発明の目的がある。

【００２３】

【課題を解決するための手段】本発明は、上記の目的を
達成するために提案されたものである。まず、自動口形
状検出装置に関しては、本発明の自動口形状検出装置
は、カラー撮像して検出対象の顔面画像データを取得す
る撮像部と、前記顔面画像データの各画素の画素データ
を、色成分データと輝度成分データとに分離して格納す
る画像入力部と、前記色成分データを前記輝度成分デー
タで正規化し輝度正規化色情報データに変換して格納す
る色情報算出部と、前記輝度成分データと前記輝度正規
化色情報データとに基づいて、前記検出対象顔面全域の
各部位の画素を特定する部位領域データに分割処理して
格納する領域分割部と、前記部位領域データから唇内周
領域算出処理をおこなって前記唇の内周輪郭領域データ
を抽出して格納する口輪郭検出部とを備えることを特徴
としている。

【００２４】このような構成とすることにより、会話者
の顔面部分をカラー撮像し、そのデータから、その顔面
内のそれぞれの部分が持っている固有の色データをもと
に、会話者の口の輪郭の抽出を的確に行うことが可能と
なる。

【００２５】そして、この自動口形状検出装置は、前記
唇の内周輪郭領域データから、口の開口形状を表す指標
データを算出し、かつ出力する口形状指標算出・出力部
を備え、前記指標データは、前記唇の内周輪郭領域デー
タから算出される、唇の内周輪郭の縦横比、または唇の
内周輪郭の上下端点間の距離、または唇の内周輪郭の左
右端点間の距離、または唇の内周輪郭領域の面積のいず
れか、もしくはそれらの組み合わせ、であることが望ま
しい。

【００２６】このことにより、口輪郭の検出後、口の開
閉状況をもとに計算機処理などを実施するのに適した指
標データを算出することができる。

【００２７】また、前記部位領域データへの分割処理
は、前記輝度成分データと前記輝度正規化情報データと
の相関から部位別色分布と、前記部位別色分布から部位
別閾値関数とを算出し、前記輝度正規化色情報データと
比較して前記検出対象顔面全域の各部位の画素を特定す
る部位領域データへの分割処理、であることを特徴とし
ていることが望ましい。

【００２８】また、前記部位別色分布で相互に重なりが
あるときは重なり分離処理をおこない、前記重なり分離
処理は前記重なり部分の中点を算出して分離をおこなう
処理、または前記重なり部分を直線で分離をおこなう処
理、であることを特徴としていることが望ましく、ま
た、前記唇内周領域算出処理は、前記口腔の部位領域と
前記歯の部位領域を合成して前記唇の内周輪郭領域デー
タとする処理、であることを特徴としているものである
ことが望ましい。

【００２９】このように装置を構成することで、対象と
する会話者のカラーの顔面動画像を取得し、その顔面内
の色や輝度情報をもとに、唇・口腔・歯の領域分割処理
によって唇の内周輪郭による口の形状、つまり会話者の
開口状況を、人手を介すること無く、自動検出すること
が可能な装置を構成することができる。

【００３０】そして、本発明の音声対話システムは、利
用者の顔面から口の開閉状態を検知する前記の自動口形
状検出装置と、前記利用者から発せられる音声を音声入
力信号として取得し記憶制御する、記憶部を備える音声
入力源制御部と、音声信号から認識単語に変換するため
の辞書部を備える、前記音声入力信号を認識する音声認
識部と、前記音声認識部による認識に基づいて音声応答
データを生成制御する音声対話制御部と、前記音声応答
データにより音出力信号を出力制御する、音信号出力源
制御部とを備えることを特徴とする音声対話システムで
ある。

【００３１】そして前記利用者の口を開口状態と検知し
たときは、前記音声入力源制御部を音声入力可能のよう
に制御し、または前記音信号出力源制御部を音信号出力
不可能のように制御し、また前記利用者の口を閉口状態
と検知したときは、前記音声入力源制御部を音声入力不
可能のように制御し、または前記音信号出力源制御部を
音信号出力可能のように制御することを特徴とした音声
対話システムであることが望ましい。

【００３２】この様に構成することによって、音声認識
率の向上した音声対話システムを実現することができ
る。

【００３３】さらに、本音声対話システムは、利用者の
口を閉口状態と検知したときにおいて、前記利用者の周
囲の背景音を、前記音声入力源制御部の前記記憶部に、
背景音信号として予め記憶し、前記利用者の口を開口状
態と検知したとき、前記音声入力源制御部に取得される
音声入力信号を前記記憶部に記憶し、前記音声入力信号
から前記背景音信号を除去することを特徴とする、音声
対話システムであることが望ましい。

【００３４】こうすることで、合成音以外に同時に入力
されるバックグラウンドにある騒音など、とくに定常的
な騒音がある場合は、音声認識率向上に効果的となる。

【００３５】また、本音声対話システムの、前記辞書部
は、前記音声認識部において認識結果として得る単語の
先頭音が両唇音であるとき、前記先頭音の母音のみに変
換して作成された単語および前記先頭音を除いて作成さ
れた単語とを、音声入力単語の認識範囲として含めて辞
書登録されていることを特徴とする、音声対話システム
であることが望ましい。

【００３６】これによって、本音声対話システムの方法
に生じやすい、先頭音が両唇音の場合の誤認識を低減す
ることができ、従って、このシステムの音声認識レベル
の更なるアップを実現できる。

【００３７】そして、本発明の自動単語認識装置は、カ
ラー撮像して検出対象の***画像データを取得する***
画像撮像部と、前記***画像データをサンプリング取得
して動画像列データ化する動画像列生成部と、前記***
画像データの各画素値を一次元の画像ベクトルに変換す
る画像ベクトル生成部と、前記***画像データより生成
した画像ベクトルを用いて前記各画素を要素とする入力
行列を生成する入力行列生成部と、前記入力行列に対し
て主成分分析を行って固有画像を算出する固有画像算出
部と、前記固有画像を格納する固有画像記憶部と、所定
の時間に応じて時刻信号を送出する時間制御部と、前記
画像ベクトルと前記固有画像より固有画像含有率を算出
し、前記時刻信号に応答して算出された前記固有画像含
有率の時間的な連なりである固有画像含有率波形を生成
する固有画像含有率波形算出部と、前記固有画像含有率
波形とそれに対応する単語とを格納する辞書波形記憶部
と、発話者の***画像データより得られた単語の固有画
像含有率波形と、前記辞書波形記憶部に格納された前記
固有画像含有率波形との波形比較をして対応する単語を
認識し出力する単語認識部とを、備えることを特徴とし
ている。

【００３８】この様な構成とすることにより、以下に述
べる手順により、認識をするための単語辞書の作成と発
話された単語の認識を行なうことが可能となる。

【００３９】すなわち、***画像撮像部では、カラーテ
レビカメラ等の撮像素子によって、言葉を発した人（発
話者）の***画像を取得し、所定のタイミングでその画
像を取り込むことで、動画像列生成部で動画像列を生成
する。

【００４０】入力行列生成部では、取得したすべての画
像の画素を要素とする入力行列を生成する。

【００４１】固有画像算出部では、主成分分析を用い
て、入力行列に対する固有ベクトル（以下、固有画像）
を算出する。

【００４２】固有画像記憶部では、辞書作成時には固有
画像算出部で算出された固有画像を記憶し、単語認識時
には、記憶されている固有画像を出力する。

【００４３】時間制御部では次に述べる固有画像含有率
の時間応答波形を生成するために、動画列を取得したと
きのサンプリング時間に同期した経過時間を生成する。

【００４４】固有画像含有率波形算出部では、先ず、取
得した画像と固有画像との内積を計算し、各固有画像が
取得画像中にどの程度含まれているのか（含有率）を算
出する。次に、各画像について時系列順に同様の操作を
行なうことで、含有率の算出を実行する。

【００４５】辞書波形記憶部では、辞書作成時には、固
有画像含有率波形算出部で算出した含有率の時間応答波
形（辞書波形）を、発話者が発話した単語と対応付けて
記憶する。認識時には記憶してある辞書波形と波形に対
応する単語を出力する。

【００４６】画像ベクトル生成部では、画素を要素とす
る１次元ベクトルを生成する。

【００４７】単語認識部は、発話者が発話した未知単語
の固有画像含有率波形と辞書波形との類似度を算出し、
最も類似度の大きい辞書波形に対応する単語を出力す
る。

【００４８】以上のような構成をとることにより、辞書
作成時には、各単語に対応する固有画像含有率波形を辞
書波形として記憶し、認識時には、発話者が発話した未
知単語の固有画像含有率波形と辞書波形とを比較して最
も確からしい単語を出力する。このため、発話中の口周
辺の形状変化や舌・歯の見え具合の変化を反映し、かつ
単語の長短や口形状の連続的な遷移状態を含めて単語を
認識することが可能となる。

【００４９】また、この自動単語認識装置は、前記動画
像列生成部で得た動画像列データから本発明の自動口形
状検出装置により、発話者の***の画像表示位置の補正
を行う***画像補正部を備えることを特徴とするもので
ある。

【００５０】本来固有空間法による画像マッチングを用
いている本発明の自動単語認識装置においては、口の表
示位置や表示サイズが変化すると認識率が低下すること
場合があり、そこで本構成によりカメラで収集した画像
の***部分が常に同じ条件で表示されるように補正を行
ない認識率の低下を防ぐことが可能となる。つまり本発
明の自動口形状検出装置により、取得カラー画像におけ
る肌・唇・歯・口腔の色の違いを利用して、画像からそ
れぞれの領域を検出し、最終的には唇の内周輪郭および
上下・左右端点を得る。それらの端点を使用して補正処
理を行なうことで、発話者の顔が前後・左右に動いて口
の撮像位置や大きさが変わっても、取得画像内の位置・
大きさを一定に保つことができ、認識率低下を防ぐこと
ができることとなる。

【００５１】また、この自動単語認識装置は、前記固有
画像含有率波形算出部において前記固有画像含有率を算
出するとき重み付け処理を付加することを特徴とするも
のであることが望ましい。

【００５２】この構成により、微妙な口の動きの違い
を、画像中に含まれる固有画像の割合について重みを変
えて処理を行なったり、あるいは時間区分によって重み
を変えて処理を行なう等の方法を用いることで識別を
し、認識率の向上を図ることができる。

【００５３】また、この自動単語認識装置は、前記単語
認識部において前記波形比較を行うとき比較の差分に所
定の閾値を設けて、前記辞書波形記憶部に格納された、
前記閾値以下のすべての前記固有画像含有率波形を有す
る対応した単語を出力することを特徴とするものである
ことが望ましい。

【００５４】この構成によって出力された複数の単語の
データを、一般的な音声認識処理装置と組み合わせるこ
とによって、発話された単語の認識率を向上することが
可能となる。つまり本発明の自動単語認識装置は、口の
形状変化を検出して単語を認識する装置のため、単語の
音に違いがあっても口の形が類似した単語を識別すると
き、誤認識する場合がある。そこで、一般的な音声認識
処理装置で発話された音声から認識導出された最も近い
単語群と、上記構成の本発明から認識導出された単語群
とのマッチングを実施することで、より認識率の高い結
果を得ることができる。

【００５５】

【発明の実施の形態】自動口形状検出装置図１に本発明の自動口形状検出装置の、実施形態の機能
部別ブロック図を示す。白色光などの照明を当てられた
顔面（検出対象顔面）は、撮像部１でカラー撮像され、
取得された情報は画像入力部２に送られ入力処理が行わ
れる。画像入力部２で処理された情報は色情報算出部３
に送られ色情報に関する算出処理が実施され、領域分割
部４に送られる。領域分割部４で顔面の部位別の領域が
分割処理され、この情報は口輪郭検出部５に送られて、
口の輪郭の検出処理が行われ、口の形状の検出結果を得
る。さらに、この情報は口形状指標算出・出力部に送ら
れ、所定指標の算出・出力が実行される。この指標デー
タは、これを用いてさらに情報処理を行う、コンピュー
タなどの電子機器に対し出力される。

【００５６】上記の各部の実施機能について、以下に詳
細に述べる。

【００５７】（撮像部）撮像部１では、ＣＣＤ素子など
からなるカラーテレビカメラなどによって検出対象であ
る顔面のカラー画像を取得し、この画像データを内蔵す
るメモリなどの記憶装置に格納し、次の処理部である画
像入力部２に送出を行う。

【００５８】（画像入力部）画像入力部２において、撮
像部１で取得した顔面のカラー画像データを、画素ごと
に色成分と輝度成分に分離して内蔵する記憶装置に格納
する。

【００５９】図２に取得した顔面のカラー画像の座標定
義の方法を示す。図中の四角内の画素座標は、整数ｉ，
ｊの座標（ｉ，ｊ）で示される。

【００６０】ただし、ｉ＝１，２，・・・ｍｊ＝１，２，・・・ｎここにおいて、座標（ｉ，ｊ）の画素は、赤成分
（Ｒ）、緑成分（Ｇ）、青成分（Ｂ）、輝度成分（Ｙ）
の階調値が、それぞれ、ディジタル値Ｒ（ｉ，ｊ）、Ｇ
（ｉ，ｊ）、Ｂ（ｉ，ｊ）、Ｙ（ｉ，ｊ）に分離され、
格納される。

【００６１】（色情報算出部）色情報算出部３において
は、画像入力部２から出力される色成分値・輝度成分値
をもとに、本発明になる本装置固有の口形状検出処理を
する上で必要な色情報、すなわち下記に述べる、正規化
色情報を算出して、記憶装置に格納する。

【００６２】ＲＧＢ値は、撮像時の照明光の強度の影響
を受けやすいため、カラー画像を処理する場合は、他の
色情報へ変換されることが多い。例えば、前述の従来例
１においては、ＲＧＢ値を、ＨＳＶ表色系のＨ成分に変
換して、照明光の強度の影響を提言している。

【００６３】本発明においては、色成分を輝度で正規化
した、輝度正規化色情報を新たに提案し、これを用いる
こととする。

【００６４】画素位置（ｉ，ｊ）のＲＧＢ値を、前述の
ように、Ｒ（ｉ，ｊ）、Ｇ（ｉ，ｊ）、Ｂ（ｉ，ｊ）、
輝度値をＹ（ｉ，ｊ）としたとき、輝度正規化ＲＧＢ
値、Ｒ _norm（ｉ，ｊ）、Ｇ_norm（ｉ，ｊ）、Ｂ
_norm（ｉ，ｊ）は次式で与えられる。ただし、画面サイ
ズは、ｍ×ｎ画素とする。

【００６５】Y(i,j) = 0.299・R(i,j) + 0.587・G(i,j)
+ 0.114・B(i,j) R _norm(i,j) = R(i,j)/Y(i,j) G _norm(i,j) = G(i,j)/Y(i,j) B _norm(i,j) = B(i,j)/Y(i,j) i = 1,2,・・・m j = 1,2,・・・n 図３に、肌色領域の輝度依存特性に関する説明図を示
す。図３（ａ）は、人の肌色領域のＲＧＢ値の輝度依存
性の測定方法を説明する図、図３（ｂ）はその測定結果
の一例を示す図、図３（ｃ）は、輝度正規化ＲＧＢ値の
輝度依存性の一例を示す図である。図３（ａ）におい
て、顔面のカラー画像３−１の肌の測定領域３−２をカ
ラーカメラ３−３で撮像し、得られたＲ，Ｇ，Ｂデータ
をＡ／Ｄコンバータ３−４でデジタル変換しコンピュー
タ３−５に送り、内蔵する記憶装置にカラー画像として
格納する。このとき、１画素について、ＲＧＢそれぞれ
の信号の強さを表すデジタル値が与えられる。肌の測定
領域３−２の全画素について、測定した結果の一例が図
３（ｂ）であり、横軸に輝度（階調値）、縦軸にＲＧＢ
値（階調値）としてプロットしたものである。これらの
値をもとに、横軸に輝度（階調値）、縦軸に輝度正規化
ＲＧＢ値に再プロットしたものが図３（ｃ）である。本
図３（ｃ）から明らかのように、輝度に対して輝度正規
化ＲＧＢ値がほぼフラットとなり、したがって、この輝
度正規化ＲＧＢ値を用いると撮像時の明るさに対する影
響が低減され、本算出部以降の取り扱いが簡単になる。

【００６６】かように、色情報算出部３では、カラーの
撮像部１で取得した顔面の各画素ににおける色について
の情報を、上記の輝度正規化色情報を形に統一して算出
をおこない、記憶装置に格納する。

【００６７】なお、従来例２に示されている様に、ＹＩ
Ｑ表色系のＱ成分が唇の色を強調することが知られてい
る。本発明では、輝度正規化色情報を統一した値とする
ため、上記と同様に、正規化されたＱ成分Ｑ
_norm（ｉ，ｊ）を用い、これは次式で与えられる。

【００６８】Q _norm(i,j) = 0.211 ・R _norm(i,j) - 0.
522 ・G _norm(i,j) + 0.311 ・B _norm (i,j) （領域分割部）領域分割部４においては、色情報算出部
３から出力される色情報、すなわち輝度正規化色情報を
使用して、顔面画像を、顔の各部位、肌・唇・口腔・歯
などの領域に分割して、記憶装置に格納する。

【００６９】顔面の肌・唇・歯などの各部位の領域の色
情報を、輝度を横軸、色情報を縦軸とする二次元平面に
プロットすると、各部位の色の違いによって、その分布
に偏りが生じる。したがって、各部位についての色分布
範囲に該当する画素を、取得した画像から抽出し、画像
処理を施すことによって、目的とする領域を獲得するこ
とができる。顔面の部位の色の違いによって，画素を部
位に分類する具体的方法について、次に示す。

【００７０】まず、抽出する領域の色分布は閾値関数に
よって決定する。この閾値関数の算出方法を説明する図
を図４に示す。顔面のサンプル画像の適当な領域を手動
で決める。例えば、図４（ａ）に示すように、顔面のサ
ンプル画像４−１において肌の色分布を求めるときは、
斜線部で示したような参照領域４−２を設定する。な
お、サンプル画像は、照明条件を変えた複数の画像や、
異なる人の顔面の画像を用いても良く、また手動で設定
する参照領域の形状も任意で良い。参照領域の色分布
を、横軸に輝度Ｙ、縦軸に正規化された色成分として二
次元平面にプロットする。例えば、輝度正規化Ｒ値を縦
軸とすると、図４（ｂ）の参照領域の色分布の例に示す
ような、不定形で囲まれた、（ａ）の肌の参照領域の色
分布４−３が得られる。ある輝度Ｙについて、色分布の
最大値をｆ_ref2（Ｙ）、最小値をｆ_re _f1（Ｙ）とおく。
ｆ_ref2（Ｙ）、ｆ_ref1（Ｙ）は、輝度Ｙの関数であり、
参照領域内の画素（ｉ，ｊ）の輝度がＹのとき、輝度正
規化色情報Ｒ_norm（ｉ，ｊ）は、次式を満たす。

【００７１】ｆ_ref1（Ｙ）≦Ｒ_norm（ｉ，ｊ）≦ｆ_ref2（Ｙ）このとき、関数ｆ_ref1（Ｙ）、ｆ_ref2（Ｙ）は、参照領
域の色分布の閾値関数であり、ある画素が求める顔面部
位領域内にあることは、上下限ｆ_ref1（Ｙ）、ｆ
_ref2（Ｙ）によって挟まれているかどうかで判定するこ
とができる。つまり、抽出する顔面部位（例えば、肌、
唇、口腔、歯など）の閾値関数が、ｆ_ref1（Ｙ）、ｆ
_ref2（Ｙ）で与えられ、画像入力部に格納されている顔
面画像内の任意の画素（ｉ，ｊ）の輝度正規化色情報が
Ｒ_norm（ｉ，ｊ）、輝度がＹのとき、２値化画像Ｃ
（ｉ，ｊ）は、次のように算出される。

【００７２】ｆ_ref1（Ｙ）≦Ｒ_norm（ｉ，ｊ）≦ｆ_ref2
（Ｙ）のとき、Ｃ（ｉ，ｊ）＝１ｆ_ref1（Ｙ）≧Ｒ_norm（ｉ，ｊ）またはＲ_norm（ｉ，
ｊ）≧ｆ_ref2（Ｙ）のとき、Ｃ（ｉ，ｊ）＝０上述の説明では、輝度正規化色情報Ｒ_norm について
説明したが、他の色成分Ｇ_norm，Ｂ_norm などにつ
いても同様の処理を行うことができる。そこで、以下の
説明では、輝度正規化色情報を表す一般的な記号とし
て、Ｎ_norm を用いることとする。

【００７３】ところで、輝度正規化色情報によって、顔
面の部位の色分布が完全に分離できない場合、つまり、
色分布に重なりが生じる場合がある。このときは、２値
化画像Ｃ（ｉ，ｊ）において、抽出したい顔面の部位領
域以外の部位の画素（ｉ，ｊ）においても、Ｃ（ｉ，
ｊ）＝１となっている。こういった場合において、顔面
の妥当な部位を判定する方法について検討および実験を
おこなった。以下にその方法を記す。（イ）粒子解析における最大面積粒子による判定方法
画像解析においては、粒子解析の手法が知られている。
粒子解析の方法を説明する図を図５に示す。取得した２
値化画像（図５（ａ）参照）を左上から右下まで順に走
査して、お互いに接触している「１」の画素の固まり、
つまり粒子にラベル（記号Ａ，Ｂ，Ｃ・・・など）を付
与する。先ず１行目については、「１」が現れたらラベ
ルＡを与え、以後「１」が続いている限り同じラベルＡ
を与える。同一行内で「１」が途切れて、再び「１」が
現れれば新しいラベルＢを付ける。この操作を行の終わ
りまで続ける。第２行以下では、「１」が現れたら前行
で与えたラベル値から、次のようなラベル付けを行う。
（図５（ｂ）参照）（１）前行のラベルと全く隣接していない場合は、新し
いラベルを付ける。（２）前行の一つのラベルとだけ隣接している場合は、
そのラベル値を付ける。（３）前行の二つ以上のラベルと隣接している場合は、
一番若いラベルを付け、これらのラベルは同じラベルで
あるものとして記憶しておく。こうして右下まで処理した後、画面を再び走査し直し
て、（３）で記憶しておいた同一ラベルであるべきもの
を書き換える。（図５（ｃ）参照）上記の処理によって、同一領域に属する点の固まりを同
じ粒子と見做すことができる。

【００７４】このような粒子解析によって、２値化画像
中の粒子の中で、最大面積の粒子を目的の顔面の部位と
見做す。このことは、閾値条件を満たし、かつ、各画素
同士が連結している粒子は、抽出しようとしている領域
に合致すると考えられるためである。唇領域の２値化画
像に粒子解析を適用した場合の処理例を図６に示す。図
６（ａ）は唇近傍の２値化画像の例であり、図６（ｂ）
はこの２値化画像を粒子解析し、最大面積領域部を表示
した例である。唇領域が抽出されていることが解る。（ロ）色分布の重なりの中点による判定方法別の部位
判定方法として、色分布の重なりの中点を求め、これを
基準として判定する方法が考えられる。図７に閾値関数
を色分布重なりの中点から算出する方法を説明する図を
示す。図７は先に図４（ｂ）で示した図と同様に、横軸
に輝度Ｙ、縦軸に輝度正規化色情報Ｎ_normとして二次元
平面にプロットする。例えば、ある顔面の部位領域の色
分布が分布Ｖ７−１で示される不定形で囲まれた分布と
し、他の部位領域の色分布が分布Ｗ７−２で示される不
定形で囲まれた分布とし、このとき２つの分布に図示さ
れたような重なりがあるとする。図に示すように、色分
布Ｖ７−１の最小値、最大値の関数を、ｆ_V1（Ｙ）、ｆ
_V2（Ｙ）、色分布Ｗ７−２の最小値、最大値の関数を、
ｆ_W1（Ｙ）、ｆ_W2（Ｙ）とする。このとき、色分布Ｖ７
−１の最小値の関数ｆ _V1（Ｙ）と、色分布Ｗ７−２の最
大値の関数ｆ_W2（Ｙ）を用いて、閾値関数ｆ_re _f（Ｙ）
を次式で求める。

【００７５】ｆ_ref（Ｙ）＝（ｆ_V1（Ｙ）＋ｆ_W2（Ｙ））／２求めた閾値関数によって、顔面部位領域を色で分離する
場合、色分布Ｖ７−１に相当する領域を抜き出すとき
は、例えば、輝度正規化色情報Ｎ_norm（ｉ，ｊ）が、ｆ_ref（Ｙ）≦Ｎ_norm（ｉ，ｊ）≦ｆ_V2（Ｙ）を満たす画素を選択すればよい。（ハ）色分布の重なりを直線で近似することによる判定
方法上述の最大値・最小値・および中点を用いた閾値
関数は、通常複雑な形状となる。そこで、最小二乗法な
どを用いて、直線で近似することで、閾値関数ｆ
_ref（Ｙ）を簡単な形式で表現することができる。図８
に本方法を説明する図を示す。図８は図７と同様に、横
軸に輝度Ｙ、縦軸に輝度正規化色情報Ｎ_normとして二次
元平面にプロットする。例えば、ある顔面の部位領域の
色分布が分布Ｖ８−１で示される不定形で囲まれた分布
とし、他の部位領域の色分布が分布Ｗ８−２で示される
不定形で囲まれた分布とし、このとき２つの分布に図示
されたような重なりがあるとする。図にあるように、色
分布Ｖ８−１と色分布Ｗ８−２との判別のための閾値関
数ｆ _ref（Ｙ）を傾きａをもった直線で近似するとき、ｆ_ref（Ｙ）＝ａ・Ｙ＋ｂａ，ｂは定数また、閾値関数ｆ_ref（Ｙ）を固定値とすると、更に簡
単に表現でき、ｆ_ref（Ｙ）＝ｃｃは定数となる。ただし、直線や固定値を用いると、色分布の分
離性が劣化することがある。

【００７６】以上３種類の方法について述べたが、どの
方法を採用するかは、実際のシステム化の段階におい
て、求められる精度・速度や装置価格などを勘案し、適
宜選択すれば良い。（口輪郭検出部）口輪郭検出部５においては、先の領域
分割部４で顔面の部位領域に分割された顔面画像データ
をもとに、唇の内周輪郭領域の抽出を行う。

【００７７】一般に、取得した顔面の画像には、顔面以
外の部分、つまり背景が同時に取得され、そこには顔面
部位と同じ色分布を示す領域が含まれる可能性がある。
そこで、以下のような手順で、先ず、その領域の誤認識
の除外を行い、順次唇の内周輪郭領域の抽出を行う。

【００７８】図９、図１０に、口輪郭検出部の処理過程
を説明する図を示す。図９（ａ）に顔面の取得画像の例
を示し、本抽出に関わる顔面部位である、肌９−１、唇
（上下）９−２、歯９−３、口腔（唇の内周領域内で歯
以外の暗い部分）９−４をそれぞれ示す。この取得画像
から、先ず、顔面領域を決定するため、領域分割部４で
求めた、肌領域９−１を抽出する。肌の部位の色分布に
おける閾値関数を、ｆ _skin1（Ｙ）、ｆ_skin2（Ｙ）と
し、次式を満たす輝度正規化色情報を持つ画素に、１を
与え、それ以外を０とすることで、肌領域９−１の２値
化画像Ｃ_skinを獲得する。

【００７９】ｆ_skin1（Ｙ）≦Ｎ_norm（ｉ，ｊ）≦ｆ
_skin2（Ｙ）のときＣ_skin（ｉ，ｊ）＝１この肌領域の２値化画像の例を図９（ｂ）に示す。図に
おいて、上記の式の１は白、０は黒で示し、したがっ
て、図中の白領域が、Ｃ_skin（ｉ，ｊ）＝１を満たす領
域となる。

【００８０】肌領域Ｃ_skinの輪郭内部の領域を表す、肌
輪郭領域Ａ_skinを、肌領域の２値化画像の画像処理を行
うことで算出できる。すなわち、肌輪郭領域Ａ_skinは、
肌領域Ｃ_skinの外周輪郭を結んだ内側の領域である。し
たがって、肌領域Ｃ_skinには、例えば、唇領域は色が異
なるため含まれないが、肌輪郭領域Ａ_skinでは、外周輪
郭を結んだ内側の画素が全て含まれるため、唇領域も含
まれる。この例を図９（ｃ）に示す。図中Ａ_skin＝１を
満たす領域を白で示し、０を黒で示す。

【００８１】以上の処理によって、背景に含まれる可能
性のある顔面部位と同じ色分布を示す領域を排除するた
めに、顔面領域のみを特定することができる。

【００８２】次に、肌輪郭領域Ａ_skin内に限定して、唇
領域を検出する。肌領域の抽出と同様に、唇の色の閾値
関数を、ｆ_lip1（Ｙ）、ｆ_lip2（Ｙ）とし、次式を満た
す輝度正規化色情報を持つ画素に、１を与え、それ以外
を０とすることで、唇領域９−２の２値化画像Ｃ_lipを
獲得する。

【００８３】ｆ_lip1（Ｙ）≦Ｎ_norm（ｉ，ｊ）≦ｆ_lip2
（Ｙ）、ただし、画素（ｉ，ｊ）∈Ａ_skinのときＣ_lip（ｉ，ｊ）＝１この唇領域の２値化画像の例を図９（ｄ）に示す。図に
おいて、上記の式の１は白、０は黒で示し、したがっ
て、図中の白領域が、Ｃ_lip（ｉ，ｊ）＝１を満たす領
域となる。

【００８４】唇の両脇は、唇の厚さが細くなるため、唇
領域は上唇と下唇とで分離する場合が多い。従って唇領
域の輪郭を単純に口の輪郭としてもちいることはできな
い。そこで、さらに、唇領域の位置・大きさをもとに、
歯と口腔（唇内周領域内の歯以外の暗い部分）を抽出
し、両者を合成して唇の内周輪郭を求めることで口形状
とする。

【００８５】粒子解析によって、唇領域の２値化画像Ｃ
_lipから取り出した最大面積をもつ粒子は、通常、下唇
領域Ｃ_lower-lipとなる。下唇領域Ｃ_lower-lipの中心
点を基準として、適当な矩形領域Ａ_lipを設け、この矩
形領域の中から歯領域と口腔領域を抽出する。

【００８６】歯の色の閾値関数を、ｆ_tooth1（Ｙ）、ｆ
_tooth2（Ｙ）とし、次式を満たす輝度正規化色情報を持
つ画素に、１を与え、それ以外を０とすることで、歯領
域９−３の２値化画像Ｃ_toothを獲得する。

【００８７】ｆ_tooth1（Ｙ）≦Ｎ_norm（ｉ，ｊ）≦ｆ
_tooth2（Ｙ）、ただし、画素（ｉ，ｊ）∈Ａ_lipのときＣ_tooth（ｉ，ｊ）＝１この歯領域の２値化画像の例を図１０（ａ）に示す。図
において、上記の式の１は白、０は黒で示し、したがっ
て、図中の白領域が、Ｃ_tooth（ｉ，ｊ）＝１を満たす
領域となる。

【００８８】歯領域Ｃ_toothの内部輪郭の領域を表す、
歯輪郭領域Ａ_toothは、２値化画像Ｃ_toothの画像処理
をおこなうことによって算出できる。この算出された歯
輪郭領域Ａ_toothの例を、図１０（ｂ）に示す。図中Ａ
_tooth＝１を満たす領域を白で示し、０を黒で示す。

【００８９】口腔の色の閾値関数を、ｆ
_cavity1（Ｙ）、ｆ_cavity2（Ｙ）とし、次式を満たす
輝度正規化色情報を持つ画素に、１を与え、それ以外を
０とすることで、口腔領域９−４の２値化画像Ｃ_cavity
を獲得する。

【００９０】ｆ_cavity1（Ｙ）≦Ｎ_norm（ｉ，ｊ）≦ｆ
_cavity2（Ｙ）、ただし、画素（ｉ，ｊ）∈Ａ_lipのと
きＣ_cavity（ｉ，ｊ）＝１この口腔領域の２値化画像の例を図１０（ｃ）に示す。
図において、上記の式の１は白、０は黒で示し、したが
って、図中の白領域が、Ｃ_cavity（ｉ，ｊ）＝１を満た
す領域となる。

【００９１】口腔領域Ｃ_cavityの内部輪郭の領域を表
す、口腔輪郭領域Ａ_cavityは、２値化画像Ｃ_cavityの画
像処理をおこなうことによって算出できる。この算出さ
れた口腔輪郭領域Ａ_cavityの例も、同じく、図１０
（ｃ）に示す。図中Ａ_tooth＝１を満たす領域を白で示
し、０を黒で示す。口腔領域において、実質的に色の変
化が無い場合、口腔領域Ｃ_cavityと口腔輪郭領域Ａ
_cavityとは、同一と見做される場合が多い。

【００９２】こうして得られた、歯輪郭領域Ａ_toothと
口腔輪郭領域Ａ_cavityの合成領域が、唇の内部輪郭領域
に相当し、これを、口輪郭領域Ａ_mouthとなる。口輪郭
領域Ａ_mouthの２値化画像の例を図１０（ｄ）に示す。
図中Ａ_mouth＝１を満たす領域を白で示し、０を黒で示
す。（口形状指標算出・出力部）口輪郭検出部５で求め
た口輪郭領域Ａ_mouthだけでは、音声認識などの実際の
処理に用いることはできない。このため、口輪郭領域Ａ
_mouthから、次のような口形状指標を、この処理部で算
出し、出力する。

【００９３】図１１に口形状指標の説明のための図を示
す。図１１（ａ）に示すように、口輪郭領域Ａ_mouth１
１−１の左右端点距離Ｄ_h１１−２を、最右端の画素と
最左端の画素との距離を算出することにより求めること
ができる。また、上下端点距離Ｄ_v１１−３を、最上端
の画素と最下端の画素との距離を算出することにより求
めることができる。これらから、次式により縦横比Ｉ
_aspectを算出できる。

【００９４】Ｉ_aspect ＝Ｄ_v／Ｄ_h また、図１１（ｂ）に示すように、口輪郭領域Ａ_mouth
の開口面積Ｓ１１−４に関して、画像処理手法を用い
ることによって、これを求めることが可能となる。な
お、開口面積Ｓ１１−４は、左右端点距離Ｄ_h１１−
２と、上下端点距離Ｄ_v１１−３の積によって近似でき
る。

【００９５】例えば、縦横比Ｉ_aspectを用い、口の開閉
状態は、適当な閾値Ｉ_thを設定することにより判定す
る。

【００９６】Ｉ_aspect ≧ Ｉ_th を満たすとき、口は開いた状態Ｉ_aspect ＜Ｉ_th を満たすとき、口は閉じた状態とする。図１２（ａ）に、単語「あさひ」を発声したと
きの、縦横比Ｉ_aspectの時間応答と閾値Ｉ_thの設定、図
１２（ｂ）に設定閾値Ｉ_thによる口の開閉状態、すなわ
ち、開口状態（Ｍ_open）、または閉口状態（Ｍ_close）
の判定結果についての例を示す。

【００９７】以上述べたような、各種指標を、必要に応
じて算出・出力が可能とし、また口の開閉状態の判定が
可能となる。

【００９８】なお、これまでの実施の形態の説明におい
ては、静的な画像のデータの取り扱いの如くに理解され
る可能性があるが、言うまでも無く、本発明の装置は、
カラービデオカメラなどで顔面画像を取得して行うとい
った、動画像を取り込み、各フレーム毎に上記に説明し
た機能を実現することは、勿論可能であることは明らか
である。したがって、本装置は動的な画像処理対応で、
かつ自動取得可能な口形状の検出装置であるといえる。音声対話システム次に、本発明の音声対話システムの実施形態の機能別ブ
ロック図を、図１３に示す。利用者の顔面から、先述し
た自動口形状検出装置１００で口の開閉状態（図１２に
おける開口状態Ｍ_open、または閉口状態Ｍ_close）
を検出する。

【００９９】一方利用者が発声した音声は、マイクロフ
ォン１０１を介して、記憶部１０２−１を備える音声入
力源制御部１０２に入力される。音声入力源制御部１０
２で制御・処理された音声データは、辞書部１０５−１
を備える音声認識部１０５に送られて、音声認識処理さ
れる。その処理されたデータは音声対話制御部１０６に
送られて、対話処理とそれに対応した音声出力データが
生成され、音信号出力源制御部１０４に送られ、スピー
カ１０３を介して合成音出力が行われる。自動口形状検
出装置１００で検出された口の開閉状態（Ｍ_open、Ｍ
_close）のデータは、音声入力源制御部１０２と音信号
出力源制御部１０４に送られ、各音声入力および音信号
出力などの制御に用いられる。

【０１００】主要な各部の実施機能の詳細について、以
下に述べる。（音声入力源制御部）音声入力源制御部１０２では、検
出した口の開閉状態に連動させて、マイクロフォン１０
１の入力レベルを制御する。開口状態（Ｍ_open）のとき
は入力レベルＡ、閉口状態（Ｍ_close）のときは入力レ
ベルＢにすることで開閉状態に応じて任意に入力レベル
を変化できる。例えば入力レベルＡの値を正の適当な
値、入力レベルＢをゼロとすることにより、利用者が口
を閉じているときは、マイクロフォン入力をオフ（入力
不可能）とし、口を開いた瞬間にオン（入力可能）とす
ることが可能となる。こういった制御をすることによ
り、利用者が発声した音声以外は、音声認識部１０５へ
送出されないため、誤認識が低下し、音声認識率が向上
する。（音信号出力制御部）音信号出力源制御部１０４では、
自動口形状検出装置１００で検出した口の開閉状態に連
動させてスピーカ１０３から出力する合成音の音量のレ
ベルを制御する。開口状態（Ｍ_open）のときは出力レベ
ルＣ、閉口状態（Ｍ_close）のときは出力レベルＤにす
ることで開閉状態に応じて任意に出力レベルを変化でき
る。例えば出力レベルＣをゼロ、出力レベルＤの値を正
の適当な値とすることによって、利用者が口を閉じてい
るときは、スピーカ１０３から合成音が出力され、口を
開いた瞬間に消音することが可能となる。この制御によ
って、利用者が発声している間は、合成音の音が消える
ため、合成音によるノイズは含まれず、利用者の声のみ
を抽出することができ、音声認識率が向上する。

【０１０１】したがって、上記２つの制御部における制
御の組合せ、つまり利用者の口が開いているときは、音
声入力源制御部１０２でマイクロフォン１０１をオン状
態とし、かつ音信号出力源制御部１０４でスピーカ１０
３からの出力をゼロとし、また利用者の口が閉じている
ときは、音声入力源制御部１０２でマイクロフォン１０
１をオフ状態とし、かつ音信号出力源制御部１０４でス
ピーカ１０３からの合成音出力ができる状態とすること
により、音声認識率をより向上することが可能となる。（音声認識部）音声認識部１０５は、通常、ソフトウェ
アで実現される。ソフトウェアの種類によっては利用者
の非発声区間中に同時に入力される音信号（以下、背景
音と言う）を利用して、発声区間の音信号から背景音を
除き、利用者の音声のみを取り出すような信号処理を行
うものがある。上記の本発明の実施例において、利用者
が口を閉じているときのマイクロフォン１０１への入力
をオフ（入力不可能）状態にして、従って、音声認識部
１０５へ入力される音声信号値はゼロとした。利用者の
発声区間（利用者が開口状態のとき）は、スピーカ１０
３から出力されずに合成音は重畳されないが、利用者の
周囲で発生している、上記の合成音以外の音（ノイズ）
である背景音は除去できない。そこで、こういった背景
音の低減処理を行う音声認識部１０５を使用するとき
に、予め取得しておいた背景音信号により除去処理を行
うことで音声認識率が向上する。

【０１０２】図１３のブロック図において、利用者の口
が閉じているとき、上記の背景音をマイクロフォン１０
１を介して音声入力源制御部１０２の記憶部１０２−１
に予め記憶しておく。次に、利用者が発声するためにそ
の口が開くと、音声入力源制御部１０２の制御によりマ
イクロフォン１０１を介して、利用者の音声と背景音の
信号が入力されるが、記憶部１０２−１に記憶された背
景音の信号を出力し、これをもとに、音声認識部１０５
において背景音を取り除く処理を実行する。この背景音
除去処理は、背景音が定常音のときに特に有効である。

【０１０３】また、口の形状から利用者の発声状況を判
断して音声入力の可否制御をする本実施形態において
は、「ま」、「も」、「ば」などの様に、一旦、口を閉
じてから口を開くのとほぼ同時に発声を行う両唇音が単
語の先頭音である場合（例えば「もどれ」など）、先頭
音（「も」）がうまく入力されない場合がある。これ
は、自動口形状検出装置で画像処理を用いており、一画
像の画像を入力するのに時間（例えば、３３ミリ秒程
度）を要するため、発声が始まった後で、口の開きが検
出されるためである。そこで、こうした単語を認識する
ことを考慮して、音声認識部１０５に備わる辞書部１０
５−１に、認識結果として得る単語の先頭音が両唇音で
あるとき、その先頭音の母音のみに変換して作成された
単語と、その先頭音を除いて作成された単語とを、音声
入力単語の認識範囲として含めて登録するしておき、そ
の認識結果は、元の単語を出力するようにすると良い。

【０１０４】

【０１０５】

【表１】

【０１０６】表１に、両唇音が単語の先頭の場合の認識
例を示す。これは、「もどれ」と発声されたときに、認
識用辞書に「もどれ」、「おどれ」（先頭音を母音に変
換）、「どれ」（先頭音を除く）を有し、認識結果とし
て「もどれ」を出力する例である。この例に限らず、同
様に辞書に単語を備えることで、音声認識率の向上をは
かることができる。自動単語認識装置図１４に本発明の自動単語認識装置の、実施形態の機能
部別ブロック図を示す。図１４（ａ）は、辞書作成時の
ものであり、図１４（ｂ）は認識時のものである。

【０１０７】図１４（ａ）の辞書作成時において、発話
者の***部分は、***画像撮像部２０１でカラー撮像さ
れ、所定のタイミングで撮像画像が受付られ動画像列生
成部２０２において動画像列化される。この動画像列
は、一方で入力行列生成部２０４において内蔵する画像
べクトル生成部で画像ベクトル化され、これを元に入力
行列化される。この結果をもとに固有画像算出部２０５
において主成分分析を用いて固有画像が算出され、これ
が固有画像記憶部２０６に格納される。動画像列生成部
２０２からの動画像列は、他の画像ベクトル生成部２０
３において画像ベクトルが生成され、その結果が固有画
像含有率波形算出部２０８に入力される。ここでは、各
画像の固有画像含有率が固有画像記憶部２０６の格納デ
ータを元に算出され、かつそれが時間制御部２０７で規
定されるタイミングの時系列として算出され、結果とし
て含有率の時間応答波形として、固有画像含有率波形が
算出される。辞書波形記憶部２０９では、算出された固
有画像含有率波形を辞書波形として、発話者が発話した
単語と対応付けて記憶する。このような処理を必要単語
すべてについて行ない、辞書波形−単語の対を辞書波形
記憶部２０９に格納する。

【０１０８】図１４（ｂ）の認識時においては、発話者
から発せられた未知の単語は、図に示した様に、上記と
同様な処理プロセスを先ず踏んで未知の単語の固有画像
含有率波形が同算出部２０８にて固有画像記憶部２０６
の固有画像データを用いて算出される。この波形に対応
する波形と辞書波形記憶部２０９にある波形を単語認識
部２１０にて比較し、かつ対応付けをもとに単語を認識
し、出力する。

【０１０９】次に、各ブロックの機能について詳細に述
べる。（***画像撮像部・動画像列生成部）***画像撮像部２
０１では、ＣＣＤ素子などからなるカラーテレビカメラ
などによって、発話する発話者の***画像を取得し、取
得した画像をコンピュータのメモリなどの記憶装置に格
納する。動画像列生成部２０１で、画像は一定のサンプ
リング時間間隔（例えば、３３ｍｓ）で取得し、画像の
時間系列、つまり動画像列を生成する。

【０１１０】画像の一つの画素は、カラー画像の場合、
赤成分（Ｒ）、緑成分（Ｇ）、青成分（Ｂ）の階調値
で、白黒画像の場合、輝度（Ｙ）の階調値で与えられ
る。例えば、整数ｉ、ｊで示される座標（ｉ，ｊ）の画
素では、赤成分（Ｒ）、緑成分（Ｇ）、青成分（Ｂ）、
輝度（Ｙ）の階調値は、それぞれ、ディジタル値Ｒ
（ｉ，ｊ）、Ｇ（ｉ，ｊ）、Ｂ（ｉ，ｊ）、Ｙ（ｉ，
ｊ）で与えられる。（画像ベクトル生成部・入力行列生成部）まず，２次元
で表現された画像の画素値を、１次元の画像ベクトルに
変換する（画像ベクトル生成部２０３、および入力行列
生成部２０４に内在する画像ベクトル生成部）。つまり
画像の横方向の画素数がｍ個（ｉ＝１，２，・・・，
ｍ）、縦方向の画素数がｎ個（ｊ＝１，２，・・・，
ｎ）のとき、第ｋ番目の画像の画像ベクトルｘ_kは、輝
度Ｙ（ｉ，ｊ）を用いて次の数１のように与えられる。

【０１１１】

【数１】

【０１１２】次に、入力行列Ａは、取得した全ての画像
の画像ベクトルを用いて、次の数２で与えられる。ただ
し、画像の総数を、ｋ_maxとする。

【０１１３】

【数２】

【０１１４】従って、入力行列Ａは、行数がｍ×ｎ個、
列数がｋ_max個の行列となる。これらの処理が入力行列
生成部２０４で行なわれる。（固有画像算出部）入力行列Ａに対して、主成分分析を
施して固有画像（固有ベクトル）を算出する。先ず行列
Ａから共分散行列Ｃを算出する。ｋ_max個の画像の平均
ベクトルを数３とすると、

【０１１５】

【数３】

【０１１６】これは、数４と表せる。

【０１１７】

【数４】

【０１１８】共分散行列Ｃは、次の数５から算出され
る。

【０１１９】

【数５】

【０１２０】このとき、固有ベクトルμ_kは、固有値を
λ_kとすると、次の数６の固有値問題を解くことで求め
ることができる。

【０１２１】

【数６】

【０１２２】数１によってベクトルｘ_kを求めたときと
逆の手順を用いて、固有ベクトルを画像に変換すると、
固有画像となる。以上の算出処理を固有画像算出部２０
５で行なう。（固有画像記憶部）固有値λ_kを値の大きい順に並べ、
λ_kに対応する固有ベクトルμ_kをＰ個選択する（Ｐ＜
ｋ_max）。固有画像記憶部２０６にＰ個の固有ベクトル
μ_pを格納する。（時間制御部）時間制御部２０７では、後述の固有画像
含有率の時間応答波形を生成するために、動画列を取得
したときの一定のサンプリング時間間隔に同期した経過
時間を生成する。例えば、画像の取得開始時の時刻を、
ｔ₀（＝０）とし、第ｑサンプリング時の時刻をｔ_qと
する。ｑの最大値ｑ_maxは、画像の取得時間Ｔをサンプ
リング時間ｔ_sで割った値、数７で与えられる。

【０１２３】

【数７】

【０１２４】（固有画像含有率波形算出部）カメラで取
得したＬ個の画像は、Ｐ個の固有画像によって表すこと
ができる。画像ベクトルｘ_kと固有ベクトルμ_pの内積
をｂ_p（＝ｘ_k・μ_p）とすると、ｘ_kは次の数８のよ
うに近似できる。

【０１２５】

【数８】

【０１２６】このとき、Ｐ個の内積ｂ_pは、画像ｘ_kに
含まれる固有画像の割合に相当することから、内積ｂ_p
の集合ベクトルを固有画像含有率Ｂと呼ぶことにする。
これは次の数９で表せる。

【０１２７】

【数９】

【０１２８】発話者が発話中の***画像は、時間と共に
変わるため、各時刻ｔの***画像に対応する固有画像含
有率Ｂも時間によって変化する。そこで固有画像含有率
の時間応答波形、つまり固有画像含有率波形Ｂ（ｔ_q）
を、時間制御部で生成された時刻ｔ_qを用いて、次の数
１０のように表す。

【０１２９】

【数１０】

【０１３０】ただし、ｑ＝０，１，２・・・，ｑ_max これらの算出処理を、固有画像含有率波形算出部２０８
で行なう。（辞書波形記憶部）発話者が発話したときの***状態や
歯・舌の見え具合は、単語によって異なる。従って固有
画像含有率波形Ｂ（ｔ_q）も単語特有の形状になる。そ
こで、既知の単語を発話したときの固有画像含有率波形
Ｂ（ｔ_q）をその単語と対にして辞書波形記憶部２０９
に記憶することにより、辞書を作成することができる。
表２に辞書波形記憶部の格納例を示す。

【０１３１】

【表２】

【０１３２】ある既知の単語ｗを複数回発話したときの
固有画像含有率波形Ｂ（ｔ_q）から、辞書波形を数１１
で表されるとする。

【０１３３】

【数１１】

【０１３４】これは、次の数１２のようにして求める。

【０１３５】

【数１２】

【０１３６】ただし、発話回数を、Ｖ回とする。（単語認識部）単語認識部２１０では、発話者の発した
未知の単語が、登録されている辞書（辞書波形記憶部２
０９）中のどの単語に最も近いのかを計算して、認識結
果を出力する。未知単語の固有画像含有率波形を、Ｂ_u
（ｔ_q）とすると、Ｂ_u（ｔ_q）は次のように求める。
ある時刻の未知単語の画像ベクトルｘ_kと固有画像記憶
部に格納されている固有ベクトルμ_pの内積ｂ_p（＝ｘ
_k・μ_p）とする。このとき、画像ｘ_kに含まれる固有
画像の割合、つまり固有画像含有率Ｂ_uが数９と同様
に、数１３のように求められる。

【０１３７】

【数１３】

【０１３８】未知単語の固有画像含有率波形Ｂ
_u（ｔ_q）は、固有画像含有率Ｂ_uを時間制御部２０７
で生成された時刻ｔ_qを用いて、時間応答とすること
で、次の数１４のように表される。

【０１３９】

【数１４】

【０１４０】ただし、ｑ＝０，１，２，・・・，ｑ_max 辞書波形記憶部２０９に格納されている辞書波形である
数１１と、数１４で表した式で求めた未知単語の波形Ｂ
_u（ｔ_q）との差分ｓ_wを、次の数１５のように全単語
についてそれぞれ求める。

【０１４１】

【数１５】

【０１４２】ただし、‖ｖ‖は、ベクトルｖの長さを表
す。認識結果は、差分の最小値を与える辞書波形に対応
する単語である。（辞書作成時の処理の流れ）以上の個々の機能ブロック
の詳細記述により、本発明の自動単語認識装置におけ
る、辞書作成時の処理の流れを、整理して、図１５に示
す。すなわち、先ず（ａ）登録する全ての単語をＶ回づ
つユーザ（発話者）が発話する。単語を発話する順序
は、次の２つのパターンのいずれでも、あるいは、全く
ランダムに発話しても良い。

【０１４３】パターン１：はちのへ、はちのへ、・・
・、はちのへ、さっぽろ、さっぽろ、・・・、さっぽ
ろ、・・・パターン２：はちのへ、さっぽろ、あさひ、・・・、は
ちのへ、さっぽろ、あさひ、・・・次に、（ｂ）撮像部（***画像撮像部）において、発話
時の***画像（動画像列）を収集する。例えば、サンプ
リング時間を、３３ｍｓとし、収録時間を単語１つにつ
いて３秒間に設定する。この場合は、単語１個の動画像
列は９０枚である。そして、（ｃ）入力行列生成部にお
いて、収集した画像から、画像ベクトルｘ _kに変換し、
ベクトルｘ_kを列とする入力行列Ａを求める。次に、
（ｄ）固有画像算出部において、入力行列Ａを共分散行
列Ｃへ変換し、次に行列Ｃの固有値λと固有ベクトルμ
を求める。次に、（ｅ）固有画像記憶部において、固有
値の大きい順にＰ個の固有画像（固有ベクトル）を選択
し、格納する。次に、（ｆ）固有画像含有率波形算出部
において、固有画像（固有ベクトル）とそれぞれの単語
についての画像ベクトル列との内積を計算し、時間制御
部で生成された時刻ｔ_qを用いて、固有ベクトル総数分
のＰ個の時間応答波形を固有画像含有率波形Ｂ（ｔ_q）
を求める。次に、（ｇ）Ｖ個の同一単語の固有画像含有
率波形Ｂ（ｔ_q）の平均を計算して、辞書波形（数１
１）とする。次に、（ｈ）辞書波形記憶部に、単語と、
その単語の辞書波形（数１１）を対にして記憶する。そ
して、（ｉ）全ての単語の文字列と辞書波形を辞書波形
記憶部に格納したか否かを判断し、否であるなら、先の
（ｇ）からの処理を繰り返し、全て格納したならば、辞
書作成処理を終了する。（認識時の処理の流れ）次いで、本発明の自動単語認識
装置における、単語認識時の処理の流れを、整理して、
図１６に示す。すなわち、先ず（ａ）ユーザ（発話者）
が単語１個を一回発話する。ただし、発話する単語は辞
書作成時に登録した単語の中から選ぶ。（ｂ）撮像部
（***画像撮像部）で、発話者の発話時の***画像を収
集する。例えばサンプリング時間ｔ_sを３３ｍｓとし、
取得時間Ｔを３秒間に設定すると、認識時に収集する動
画像列は、ｑ_max＝９０枚となる。次に、（ｃ）画像ベ
クトル生成部において収集した画像を画像ベクトルに変
換する。次に、（ｄ）固有画像含有率波形算出部におい
て、ユーザ（発話者）が発話した単語の固有画像含有率
波形を算出する。この算出においては、取得画像の時系
列順に、固有画像記憶部に格納されている固有画像（固
有ベクトル）との内積計算を実行する。次に、（ｅ）単
語認識部において、ユーザ（発話者）が発話した単語の
固有画像含有率波形と、辞書波形記憶部に格納されてい
る全ての辞書波形との差分を計算し、算出した差分の値
が最小になる辞書波形をサーチする。そして、（ｆ）検
出した辞書波形に対応する単語を認識結果とし、単語の
文字列を出力する。

【０１４４】以上、本発明の自動単語認識装置の構成に
ついて記したが、これを用いて、更に認識率を向上や効
率化ができるようにするための装置構成について以下に
述べる。（ｉ）***画像の位置・大きさの補正本発明の自動単
語認識装置では、基本的に固有空間法による画像マッチ
ングを用いているため、口の表示位置や表示サイズが変
化すると認識率が低下する場合がある。そのために、カ
メラで収集した画像の***部分が常に同じ条件で表示さ
れるような補正を行ない、認識率の低下を防ぐことがで
きる。

【０１４５】このために、前述の実施の形態のブロック
図（図１４）において、***画像修正部の機能ブロック
を、辞書作成時には、入力行列生成部の前に、認識時に
は画像ベクトル生成部の前に設け、本補正部で、収集し
た動画像中の口を検出し、基準とする***画像の口の位
置・大きさに対して同じ条件で表示されるように補正処
理を行なう。これら構成を表す図を、図１７の***画像
修正部を用いたときの実施の形態のブロック図に示す。
図１７（ａ）は辞書作成時の、図１７（ｂ）は認識時の
自動認識装置を構成する一部ブロック図である。同図か
ら明らかの様に***画像補正部２１１が（ａ）では入力
行列生成部２０４の前に、（ｂ）では画像ベクトル生成
部２０３の前に設けられている。本***画像補正部２１
１の機能について、以下に詳細を示す。（***画像補正部）***画像補正部２１１において、唇
の上下ないし左右端点の画素座標位置の検出と、それを
もとに補正処理を行なう機能を有している。前者の、収
集した画像から口を検出する機能は、本発明の自動口形
状検出装置を用いる。これによれば、カラー画像におい
て、肌・唇・歯・口腔の色の違いを利用して、画像から
それぞれの領域を検出し、唇の内周輪郭、従って、その
上下・左右端点の画素座標を検出することができる。そ
して、この端点座標をもとに補正処理を行なう。

【０１４６】唇の左右端点を使用して補正する機能につ
いて、以下に述べる。図１８に唇の左右端点の説明図を
示し、図１８（ａ）は基準画像の唇の左右端点の画素座
標を表し、図１８（ｂ）は入力画像の唇の左右端点の画
素座標を表す。基準画像における唇の左右端点の画素座
標を、同図に示すように、（ｉ_Rorg，ｊ_Rorg）、（ｉ
_Lorg，ｊ_Lorg）、補正前の入力画像における唇の左右端
点の画素座標を、（ｉ_Rin，ｊ_Rin）、（ｉ_Lin，ｊ
_Lin）とする。画像の基準位置を基準画像の右端点（ｉ
_Rorg，ｊ_Rorg）とし、入力画像の拡縮率を、αとおく
と、入力画像の画素（ｉ_Lin，ｊ_Lin）は次の数１６に
よって変換される。

【０１４７】

【数１６】

【０１４８】数１６のような補正を***画像補正部で施
すことによって、発話者の顔が前後・左右に動いて口の
表示位置や大きさが変わっても、画像での位置・大きさ
を一定に保つことができる。なお上記の例では唇の左右
端点を使用したが、唇の上下端点や中心点、また左右の
目の中心点、鼻の穴の中心点（２点）などを使用しても
良い。（位置ずらし固有画像記憶部・位置ずらし固有画像位置
補正部）上記の***画像補正部２１１（図１７）を設け
て***画像の位置補正を実施しても、顔の凹凸に起因す
る陰影変化や、端点の検出ミスなどによって、検出位置
にバラツキが生じることがある。検出位置に誤りがある
と固有画像含有率を正しく算出できないため、認識率が
低下する。そこで、前記の***画像補正部に加えて、更
に精密に位置補正をする構成を適用することで認識率の
向上をはかることができる。この基本的な構成は、前記
の***画像補正部を設けて得た固有画像をもとに、画面
上における固有画像の位置を移動した「位置ずらし固有
画像」を生成する。更に「位置ずらし固有画像」を用い
て再構成した***画像と、入力***画像とを比較し、両
者の類似度が最も近い時の「位置ずらし固有画像」か
ら、入力***画像の位置ずれを推定することにより行な
う。

【０１４９】図１９の位置ずらし固有画像を用いたとき
の実施の形態のブロック図に、この新たな補正機能を設
けた自動単語認識装置を示し、図１９（ａ）に辞書作成
時、図１９（ｂ）認識時の構成をそれぞれ示す。図から
明らかなように、図１９（ａ）において、固有画像記憶
部２０６からのデータを、位置ずらし固有画像記憶部２
１２で受けて処理をし、その結果を位置ずらし固有画像
位置補正部２１３に送付し、そこでの処理結果を固有画
像含有率波形算出部２０８に送付するように構成する。
また図１９（ｂ）において、位置ずらし固有画像記憶部
２１２の格納データを位置ずらし固有画像位置補正部２
１３に取り込んで補正処理をし、結果を固有画像含有率
波形算出部に送付するように構成する。

【０１５０】位置ずらし固有画像記憶部２１２での処理
の詳細は以下のとおりである。すなわち、***画像補正
を行なった固有画像記憶部２０６中の固有画像に、先
ず、有効画像域を設定し、次に有効画像域内の画像デー
タを画面上で移動し、移動後の画像データを位置ずらし
固有画像として、位置ずらし固有画像記憶部２１２に格
納する。

【０１５１】有効画像域の位置移動方法を、図２０の位
置ずらし固有画像を用いたときの有効画像域の説明図に
従って説明する。先ず図２０（ａ）有効画像域の位置関
係を参照し、***画像補正後で得た固有画像のｉ方向
（紙面左右方向）の大きさを、Ｓ_iORG、ｊ方向（紙面上
下方向）の大きさを、Ｓ_jORG、とする。単位は画素（整
数）である。有効画像域の、ｉ方向の大きさを、Ｓ
_iCLIP、ｊ方向の大きさを、Ｓ_jCLIP、とする。また有
効画像域の元の画像に対する左上隅の点、Ｐ_Aから測っ
た点、Ｐ_C、のオフセット量を、δ_i、δ_jとする。位
置ずらし固有画像は、有効画像域をオフセット量、
δ_i、δ_jの値を次の数１７の範囲で変化させて、移動
した画像である。なお、有効画像域以外の領域はゼロと
する。

【０１５２】

【数１７】

【０１５３】例えば、オフセット量を、（δ_i、δ_j）
＝（０，０）、（δ_i、δ_j）＝（１，０）、（δ_i、
δ_j）＝（１，１）と与えると、図２０（ｂ）、
（ｃ）、（ｄ）のような位置ずらし固有画像を生成でき
る。位置ずらし固有画像記憶部２１２には、オフセット
量δ_i、δ_jを数１７に示した値で変化させたときに生
成される全ての位置ずらし固有画像を格納する。また、
上記の処理は、***画像補正で生成されるＰ個の固有画
像全てに対しても同様に行なう。なお、位置ずらし固有
画像記憶部に格納するときは、先の数１に示した変換方
式を用いて、次に述べるベクトルの形式で保存する。

【０１５４】第ｐ固有画像を、δ_i、δ_jだけ移動した
ときの位置ずらし固有画像ベクトル：μ_p（δ_i、
δ_j）位置ずらし固有画像位置補正部２１３では、位置ずらし
固有画像記憶部２１２に格納されている位置ずらし固有
画像μ_p（δ_i、δ_j）を用いて、画像ベクトル生成部
２０３から入力された***画像ｘ_kの位置補正を行な
う。先ず、前述の数８と同様な方法で、位置ずらし固有
画像を用いて、次の数１８のように、入力画像ｘ_kを近
似的に表す。

【０１５５】

【数１８】

【０１５６】ただし、μ_p（δ_i、δ_j）は上述したμ
_p（δ_i、δ_j）のベクトル値、ｂ_p（δ_i、δ_j）
は、入力画像と位置ずらし固有画像の内積ｘ_k・μ
_p（δ_i、δ _j）である。入力画像ベクトルｘ_kと、近
似画像ベクトルｘ_k（δ_i、δ_j）との差を計算し、そ
の逆数を、２つの画像間の類似度ξ（δ_i、δ_j）と定
義すると、次の数１９のように表すことができる。

【０１５７】

【数１９】

【０１５８】類似度ξ（δ_i、δ_j）が最大になるとき
のオフセット量δ_i、δ_jが、入力画像の位置ずれに相
当する。次に、オフセット量δ_i、δ_jを使用して、入
力画像の位置を補正する方法を以下に記す。基準画像の
オフセット量を、δ_iBASE、δ_jBASEとし、補正対象の
入力画像のオフセット量を、δ_iIN、δ_jINとする。こ
のとき、入力画像の画素座標（ｉ_IN，ｊ_IN）を下記の数
２０に示すように変換する。

【０１５９】

【数２０】

【０１６０】こうした処理を、位置ずらし固有画像位置
補正部２１３で行なうことにより、画面上の口の位置
を、常に基準画像と同じ位置に補正することができるた
め、後段の固有画像含有率波形算出部２０８において、
波形のバラツキを低減することができ、認識率を上げる
ことが可能となる。（ii）辞書波形作成時間の短縮図１４（ａ）における
固有画像算出部２０５において実行する、数４、数５、
数６の演算処理は、画像の数が増加すると計算時間が非
常に長くなる性質がある。そこで、辞書波形を作成する
ときに、登録する単語の動画像列が含まれない単語群か
ら生成された固有画像を予め用意しておくことで、辞書
作成に要する時間を短縮することができる。例えば、１
００個の地名（はちのへ、さっぽろ、あさひ・・・）の
辞書波形を作成するときに、１０個の数字（いち、に、
さん、・・・、じゅう）から作成した固有画像を用いて
固有画像含有率波形を算出することで、単語１００個の
固有画像の算出処理を省略することができる。これにつ
いて、図２１に示す、登録単語と異なる単語群を用いた
ときの辞書作成に関するブロック図に従って詳述する。

【０１６１】先ず、固有画像を予め用意しておくため、
適当な個数の単語からなる単語群Ａの動画像列を収集す
る。図１５の流れ図における、（ｃ）〜（ｅ）で示した
手順と同じ手順で、単語群Ａの固有画像を算出し固有画
像記憶部２０６に格納する。次に、辞書に登録する単語
の集まり（単語群Ｂ）を発声し、動画像列を収集する。
収集した各単語の動画像列それぞれについて、画像ベク
トル生成部２０３において画像ベクトルを算出する。固
有画像含有率波形を固有画像含有率波形算出部２０８
で、固有画像記憶部２０６に格納されている単語Ａの固
有画像と、単語群Ｂの各単語の画像ベクトルの内積から
求める。単語群Ｂ中の単語を複数回発声したときは、数
１２の式を用いて固有画像含有率波形の平均をとり、辞
書波形とし、この辞書波形を辞書波形記憶部２０９に格
納する。（iii）重み付け処理による認識率の向上微妙な口の動きの違いを重み付け処理を行なって識別す
ることで、認識率を向上することができる。

【０１６２】先ず、各固有画像に重み付けを行なう構成
を示す。固有画像含有率波形算出部２０８（図１４参
照）において、画像ベクトルｘ_kと固有ベクトルμ_pの
内積ｂ_pを求め、内積ｂ_pの集合ベクトルから固有画像
含有率を求めた。（数９参照）固有画像含有率Ｂを算出
する際、重み係数β_pを用いて、数９を次の数２１のよ
うに変形することで、固有画像についての重み付けを行
なうことができる。

【０１６３】

【数２１】

【０１６４】例えば、β₁＝１、β₂＝β₃＝・・・＝
β_p＝０と置くと、固有画像μ₁のみで認識処理を行な
うことができる。

【０１６５】次に、時間区分によって重みを変える構成
について示す。固有画像含有率波形算出部２０８（図１
４参照）において、適当な重み時間関数γ（ｔ_q）を用
いて、数１０を次の数２２のように変形することで、時
間区間に関する重み付けを行なうことができる。

【０１６６】

【数２２】

【０１６７】例えば、次の数２３のように、γ（ｔ_q）
を与える。

【０１６８】

【数２３】

【０１６９】すると、有る時間区間ｔ_qa≦ｔ_q＜ｔ_qb
のみを使用して認識処理を実行することができる。（iv）音声認識処理との結合本発明の自動単語認識装置では、口の形状変化を検出し
て単語を認識する。このために、単語の音に違いがあっ
ても口の形状が類似している単語を認識するときに誤認
識が生じる。例えば、数字の「きゅう」「じゅう」の口
形状には殆ど差が無いため、本発明の構成で認識するこ
とは困難となる。そこで、発話者の音声をデータとして
取り込み、各種処理を行なってその発話単語を認識す
る、音声認識処理と結合して、単語認識を行ない、認識
率を向上する構成について、以下に述べる図２２に、一
般的な音声認識処理のブロック図を示す。発話者からの
言葉（単語）はマイクをとおして音声認識部３０１に取
り込まれる。音声認識部３０１では登録されている辞書
（音声認識用辞書３０２）の中から、発話された単語に
最も近い単語を選択して認識結果として出力する。

【０１７０】図２３に、本発明の自動単語認識装置と、
音声認識処理との結合方法を説明するブロック図を示
す。この図において、先ずカメラなどを用いた***画像
撮像部２０１の動画列に基づいて本発明の自動単語認識
装置の単語認識部２１０から認識結果の単語を出力す
る。このとき、認識の困難な単語がある場合（例えば、
「きゅう」と「じゅう」など）は複数の単語群として出
力する。出力された単語群は、音声認識用辞書３０２に
登録される。音声認識部３０１ではマイクから入力され
た音声信号に基づいて音声認識処理を実行する。この
際、辞書として前述の自動単語認識装置が出力した、音
声認識用辞書３０２中の単語群を使用し、発話された単
語に最も近い単語をこの辞書から選択し、認識結果とし
て出力する。このような結合を行なうことによって、自
動単語認識装置に辞書として登録されている単語が、単
語認識部によって選定されて音声認識用の辞書として出
力され、音声認識処理によって更に認識結果が絞り込ま
れるため、誤認識の割合を低減することができる。

【０１７１】単語認識部２１０において、複数の単語を
認識結果として出力する構成を以下に示す。認識結果の
単語を１個とするときは、数１５において、辞書波形で
ある数１１と、未知単語の波形Ｂ_u（ｔ_q）との差分ｓ
_wが、最小値を与える辞書波形である数１１に対応する
単語ｗを出力していた。一方、識別が困難な単語が複数
ある場合には、正解ではない単語の差分ｓ_wが、正解で
ある単語の差分より小さくなることがある。そこで閾値
ｓ_thよりも小さな差分を与える辞書波形である数１１に
対応する単語を全て認識結果とすることで、複数の単語
を出力する自動単語認識装置を実現できる。つまり、閾
値をｓ_th とすると、数２４を満たす辞書波形の数１１
に対応するすべての単語ｗを出力結果として、音声認識
用の辞書として登録する。

【０１７２】

【数２４】

【０１７３】（付記１）カラー撮像して検出対象の顔
面画像データを取得する撮像部と、前記顔面画像データ
の各画素の画素データを、色成分データと輝度成分デー
タとに分離して格納する画像入力部と、前記色成分デー
タを前記輝度成分データで正規化し輝度正規化色情報デ
ータに変換して格納する色情報算出部と、前記輝度成分
データと前記輝度正規化色情報データとに基づいて、前
記検出対象顔面全域の各部位の画素を特定する部位領域
データに分割処理して格納する領域分割部と、前記部位
領域データから唇内周領域算出処理をおこなって前記唇
の内周輪郭領域データを抽出して格納する口輪郭検出部
とを備えることを特徴とする自動口形状検出装置。

【０１７４】（付記２）前記唇の内周輪郭領域データ
から、口の開口形状を表す指標データを算出し、かつ出
力する口形状指標算出・出力部を備え、前記指標データ
は、前記唇の内周輪郭領域データから算出される、唇の
内周輪郭の縦横比、または唇の内周輪郭の上下端点間の
距離、または唇の内周輪郭の左右端点間の距離、または
唇の内周輪郭領域の面積のいずれか、もしくはそれらの
組み合わせ、であることを特徴とする付記１記載の自動
口形状検出装置。

【０１７５】（付記３）前記部位領域データへの分割
処理は、前記輝度成分データと前記輝度正規化情報デー
タとの相関から部位別色分布と、前記部位別色分布から
部位別閾値関数とを算出し、前記輝度正規化色情報デー
タと比較して前記検出対象顔面全域の各部位の画素を特
定する部位領域データへの分割処理、であることを特徴
とする付記１記載の自動口形状検出装置。

【０１７６】（付記４）前記部位別色分布で相互に重
なりがあるときは重なり分離処理をおこない、前記重な
り分離処理は前記重なり部分の中点を算出して分離をお
こなう処理、または前記重なり部分を直線で分離をおこ
なう処理、であることを特徴とする付記１記載の自動口
形状検出装置。

【０１７７】（付記５）前記唇内周領域算出処理は、
前記口腔の部位領域と前記歯の部位領域を合成して前記
唇の内周輪郭領域データとする処理、であることを特徴
とする付記１記載の自動口形状検出装置。

【０１７８】（付記６）利用者の顔面から口の開閉状
態を検知する付記１記載の自動口形状検出装置と、前記
利用者から発せられる音声を音声入力信号として取得し
記憶制御する、記憶部を備える音声入力源制御部と、音
声信号から認識単語に変換するための辞書部を備える、
前記音声入力信号を認識する音声認識部と、前記音声認
識部による認識に基づいて音声応答データを生成制御す
る音声対話制御部と、前記音声応答データにより音出力
信号を出力制御する、音信号出力源制御部とを備えるこ
とを特徴とする音声対話システム。

【０１７９】（付記７）前記利用者の口を開口状態と
検知したときは、前記音声入力源制御部を音声入力可能
のように制御し、または前記音信号出力源制御部を音信
号出力不可能のように制御し、また前記利用者の口を閉
口状態と検知したときは、前記音声入力源制御部を音声
入力不可能のように制御し、または前記音信号出力源制
御部を音信号出力可能のように制御することを特徴とし
た付記６記載の音声対話システム。

【０１８０】（付記８）利用者の口を閉口状態と検知
したときにおいて、前記利用者の周囲の背景音を、前記
音声入力源制御部の前記記憶部に、背景音信号として予
め記憶し、前記利用者の口を開口状態と検知したとき、
前記音声入力源制御部に取得される音声入力信号を前記
記憶部に記憶し、前記音声入力信号から前記背景音信号
を除去することを特徴とする、付記６記載の音声対話シ
ステム。

【０１８１】（付記９）前記辞書部は、前記音声認識
部において認識結果として得る単語の先頭音が両唇音で
あるとき、前記先頭音の母音のみに変換して作成された
単語および前記先頭音を除いて作成された単語とを、音
声入力単語の認識範囲として含めて辞書登録されている
ことを特徴とする、付記６記載の音声対話システム。

【０１８２】（付記１０）カラー撮像して検出対象の
***画像データを取得する***画像撮像部と、前記***
画像データをサンプリング取得して動画像列データ化す
る動画像列生成部と、前記***画像データの各画素値を
一次元の画像ベクトルに変換する画像ベクトル生成部
と、前記***画像データより生成した画像ベクトルを用
いて前記各画素を要素とする入力行列を生成する入力行
列生成部と、前記入力行列に対して主成分分析を行って
固有画像を算出する固有画像算出部と、前記固有画像を
格納する固有画像記憶部と、所定の時間に応じて時刻信
号を送出する時間制御部と、前記画像ベクトルと前記固
有画像より固有画像含有率を算出し、前記時刻信号に応
答して算出された前記固有画像含有率の時間的な連なり
である固有画像含有率波形を生成する固有画像含有率波
形算出部と、前記固有画像含有率波形とそれに対応する
単語とを格納する辞書波形記憶部と、発話者の***画像
データより得られた単語の固有画像含有率波形と、前記
辞書波形記憶部に格納された前記固有画像含有率波形と
の波形比較をして対応する単語を認識し出力する単語認
識部とを備えることを特徴とする自動単語認識装置。

【０１８３】（付記１１）前記動画像列生成部で得た
動画像列データから付記１記載の自動口形状検出装置に
より、発話者の***の画像表示位置の補正を行う***画
像補正部を備えることを特徴とする付記１０記載の自動
単語認識装置。

【０１８４】（付記１２）前記固有画像含有率波形算
出部において前記固有画像含有率を算出するとき重み付
け処理を付加することを特徴とする付記１０記載の自動
単語認識装置。

【０１８５】（付記１３）前記単語認識部において前
記波形比較を行うとき比較の差分に所定の閾値を設け
て、前記辞書波形記憶部に格納された、前記閾値以下の
すべての前記固有画像含有率波形を有する対応した単語
を出力することを特徴とする付記１０記載の自動単語認
識装置。

【０１８６】

【発明の効果】以上の説明から明かなように、本発明の
自動口形状検出装置によって、発話時の口形状の自動検
出・逐次検出が可能となるため、会話者が発話しようと
しているか否かの意図や、単語による口形状の遷移状態
などをセンシングすることが、従来のものに比べ、使用
状態の制限などが少なく、より汎用性がある形で自動検
出が可能な新たな口形状検出装置を提供することができ
る。また、口形状を示す、幾つかの口形状指標を出力可
能としたことで、上記のような各種認識処理がより行い
易くなる。

【０１８７】そして、この自動口形状検出装置と音声入
力源制御・音信号出力源制御・音声認識などの機能を有
する機能部とからなる本発明の音声対話システムによ
り、例えば、発話者である利用者が発声したときにだ
け、音声入力を可能にし、かつ合成音の出力をゼロにす
るなどのスイッチング操作が可能となり、入力された音
声に含まれる背景音の影響を抑制でき、また入力された
音声の単語の先頭音が両唇音であるときの誤認識を防ぐ
ことが可能となって、音声認識率の向上することができ
る。

【０１８８】また、本発明の自動単語認識装置によっ
て、辞書作成時には、各単語に対応する固有画像含有率
波形を辞書波形として記憶し、認識時には、利用者が発
話した未知単語の固有画像含有率波形と辞書波形とを比
較して最も確からしい単語を出力するため、発話中の口
周辺の形状変化や、舌・歯の見え具合の変化を反映し、
かつ、単語の長短や口形状の連続的な遷移状態を含め
て、単語を認識することが可能となる。

【０１８９】さらには、この単語認識装置は、テレビカ
メラで撮像した画像を用いて視覚的に単語を認識できる
ため、周囲の騒音が大きいなどの理由でマイクからの音
声入力による音声認識処理で単語を認識することが困難
な場合でも、コンピュータへの入力などをキーボードや
マウスを操作せずに実行できることにもなる。

【図面の簡単な説明】

【図１】自動口形状検出装置の実施の形態のブロック
図

【図２】顔面のカラー画像の座標定義

【図３】肌色領域の輝度依存特性

【図４】閾値関数の算出方法に関する説明図

【図５】粒子解析の説明

【図６】粒子解析処理例

【図７】閾値関数を色分布重なりの中点から算出する
方法

【図８】閾値関数を直線で表す方法

【図９】口輪郭検出部の処理過程の説明図（その１）

【図１０】口輪郭検出部の処理過程の説明図（その
２）

【図１１】口形状指標の説明図

【図１２】開閉状態の判定結果例

【図１３】音声対話システムの実施の形態のブロック
図

【図１４】自動単語認識装置の実施形態のブロック図

【図１５】辞書作成時の処理の流れ

【図１６】認識時の処理の流れ

【図１７】 ***画像補正部を用いたときの実施形態の
ブロック図

【図１８】唇の左右端点の説明

【図１９】位置ずらし固有画像を用いたときの実施形
態のブロック図

【図２０】位置ずらし固有画像を用いたときの有効画
像域の説明図

【図２１】登録単語と異なる単語群を用いたときの辞
書作成ブロック図

【図２２】一般的な音声認識処理のブロック図

【図２３】音声認識処理との結合方法を説明するブロ
ック図

【符号の説明】

１撮像部２画像入力部３色情報算出部４領域分割部５口輪郭検出部６口形状指標算出・出力部１００自動口形状検出装置１０１マイクロフォン１０２音声入力源制御部１０２−１記憶部１０３スピーカ１０４音信号出力源制御部１０５音声認識部１０５−１辞書部１０６音声対話制御部２０１ ***画像撮像部２０２動画像列生成部２０３画像ベクトル生成部２０４入力行列生成部２０５固有画像算出部２０６固有画像記憶部２０７時間制御部２０８固有画像含有率波形算出部２０９辞書波形記憶部２１０単語認識部２１１ ***画像補正部２１２位置ずらし固有画像記憶部２１３位置ずらし固有画像位置補正部３０１音声認識部３０２音声認識用辞書

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/24 Ｆターム(参考） 5B057 AA20 BA11 CA01 CA08 CA12 CA16 CB17 CC03 CE09 CE12 DC03 DC04 DC25 5D015 LL07 5L096 AA02 AA06 BA08 BA16 BA18 CA04 DA02 EA12 EA18 EA37 EA43 FA06 FA59 FA66 FA69 GA40 HA04 HA08 HA13 JA11

Claims

【特許請求の範囲】

【請求項１】カラー撮像して検出対象の顔面画像デー
タを取得する撮像部と、前記顔面画像データの各画素の画素データを、色成分デ
ータと輝度成分データとに分離して格納する画像入力部
と、前記色成分データを前記輝度成分データで正規化し輝度
正規化色情報データに変換して格納する色情報算出部
と、前記輝度成分データと前記輝度正規化色情報データとに
基づいて、前記検出対象顔面全域の各部位の画素を特定
する部位領域データに分割処理して格納する領域分割部
と、前記部位領域データから唇内周領域算出処理をおこなっ
て前記唇の内周輪郭領域データを抽出して格納する口輪
郭検出部とを備えることを特徴とする自動口形状検出装
置。
【請求項２】カラー撮像して検出対象の***画像デー
タを取得する***画像撮像部と、前記***画像データをサンプリング取得して動画像列デ
ータ化する動画像列生成部と、前記***画像データの各画素値を一次元の画像ベクトル
に変換する画像ベクトル生成部と、前記***画像データより生成した画像ベクトルを用いて
前記各画素を要素とする入力行列を生成する入力行列生
成部と、前記入力行列に対して主成分分析を行って固有画像を算
出する固有画像算出部と、前記固有画像を格納する固有画像記憶部と、所定の時間に応じて時刻信号を送出する時間制御部と、前記画像ベクトルと前記固有画像より固有画像含有率を
算出し、前記時刻信号に応答して算出された前記固有画
像含有率の時間的な連なりである固有画像含有率波形を
生成する固有画像含有率波形算出部と、前記固有画像含有率波形とそれに対応する単語とを格納
する辞書波形記憶部と、発話者の***画像データより得られた単語の固有画像含
有率波形と、前記辞書波形記憶部に格納された前記固有
画像含有率波形との波形比較をして対応する単語を認識
し出力する単語認識部とを備えることを特徴とする自動
単語認識装置。
【請求項３】前記動画像列生成部で得た動画像列デー
タから、請求項１記載の自動口形状検出装置により発話
者の***の画像表示位置の補正を行う***画像補正部を
備えることを特徴とする請求項２記載の自動単語認識装
置。