JP2003029777A

JP2003029777A - 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体

Info

Publication number: JP2003029777A
Application number: JP2001215451A
Authority: JP
Inventors: Hiroyuki Takahashi; 広行高橋
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2001-07-16
Filing date: 2001-07-16
Publication date: 2003-01-31
Anticipated expiration: 2021-07-16
Also published as: JP4675514B2

Abstract

(57)【要約】【課題】音声認識に基づく言語を文字列及び制御情報等
として使い分けることが可能な音声処理装置を提供す
る。【解決手段】ＣＣＤカメラ１により話者が撮像されてい
ないときには、制御部２により第１変換モードを設定
し、マイクロホン４から音声を入力し、この音声によっ
て示される言語を音声認識部５により認識して、この言
語に対応する制御情報をコマンド変換部７５により検索
し、またＣＣＤカメラ１により話者が撮像されたときに
は、第２変換モードを設定し、音声によって示される言
語を認識して、この言語に対応する文字列を文字変換部
７０により検索しているので、音声認識に基づく言語を
文字列及び制御情報等として使い分けることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声を入力し、こ
の音声によって表される言語を認識するための音声処理
装置、音声処理方法、及びその方法を実施するためのプ
ログラムを記録した記録媒体に関する。

【０００２】

【従来の技術】この種の従来の装置においては、音声入
力を指示するためのボタンを押下している間に、音声を
マイクロホンを通じて入力し、この入力された音声を認
識して、言語を出力していた。これにより、ボタンを押
下していないときには、雑音をマイクロホンを通じて入
力したり認識せずに済む。

【０００３】また、特開平５−１８８９９３号公報に記
載の装置では、ＣＣＤカメラによって話者が撮像されて
いる間に、音声の入力と認識を行い、これにより雑音の
入力及び認識を防止している。あるいは、撮像された話
者の口元の動きを音声認識のための補助情報として利用
し、音声認識率の向上を図っている。

【０００４】

【発明が解決しようとする課題】ところで、パーソナル
コンピュータ等の情報処理端末装置においては、音声認
識の結果を文字列や制御情報として用いることが考えら
れる。しかしながら、従来は、音声認識の結果の用途を
切り替ていなかった。

【０００５】例えば、図１７に示すような一般的なテキ
スト入力用のウィンドウ２０１においては、カーソル２
０２、ウインドウ２０１の最小化を示す操作アイコン２
０３、ウインドウ２０１の最大化を示す操作アイコン２
０４、ウィンドウ２０１の終了を示す操作アイコン２０
５等が表示されており、所望の文字列がウインドウ２０
１内に記入される。

【０００６】ここで、音声認識を利用すれば、音声をマ
イクロホンを通じて入力するだけで、この音声によって
示される言語が文字列となってウインドウ２０１内に記
入される。

【０００７】ところが、音声認識に基づく言語を文字列
及び制御情報のいずれにも用いるならば、先に述べた様
に音声認識の結果の用途を切り替ていないために、例え
ば「ＳＡＩＤＡＩＫＡ」という音声を入力したときに、
この音声によって示される言語を「最大化」という文字
列として扱うべきか、最大化を示す操作アイコン２０４
を指示する制御情報として扱うべきかを特定することが
できなかった。

【０００８】そこで、本発明は、上記従来の問題点に鑑
みてなされたものであり、音声認識に基づく言語を文字
列及び制御情報等として使い分けることが可能な音声処
理装置、音声処理方法、及びその方法を実施するための
プログラムを記録した記録媒体を提供することを目的と
する。

【０００９】

【課題を解決するための手段】上記課題を解決するため
に、本発明の音声処理装置は、音声を入力する音声入力
手段と、入力された音声を認識して、この音声によって
表される言語を出力する音声認識手段と、音声認識手段
の作動を入力指示する入力指示手段と、話者を撮像する
ための撮像手段と、撮像された画像に基づいて、話者を
認識する画像認識手段と、指示入力手段によって音声認
識手段の作動が指示されたときには、画像認識手段によ
る認識結果に基づいて、予め設定された第１及び第２モ
ードのいずれかを選択し、この選択したモードで音声認
識された言語を用いる制御手段とを備えている。

【００１０】この様な構成の本発明によれば、画像認識
手段による認識結果に基づいて、第１及び第２モードの
いずれかを選択し、この選択したモードで音声認識され
た言語を用いている。このため、音声認識を２種類の用
途に切り替えることができる。

【００１１】また、本発明の装置においては、第１モー
ドでは、音声認識された言語を制御情報として用い、第
２モードでは、音声認識された言語を文字列として用い
ている。

【００１２】従って、音声認識された言語を制御情報及
び文字列のいずれかとして用いることができる。

【００１３】更に、本発明の装置においては、音声入力
手段は、話者が用いるマイクを有し、画像認識手段は、
撮像手段によって撮像された画像にマイクが含まれるか
否かに基づいて、話者を認識している。

【００１４】この様に撮像された画像にマイクが含まれ
るか否かに基づいて、話者を認識するのであれば、形状
や色が分かっているマイクを画像処理により識別すれば
良いので、画像処理が簡単化される。

【００１５】一方、本発明の情報処理方法は、音声を入
力する音声入力ステップと、入力された音声を認識し
て、この音声によって表される言語を出力する音声認識
ステップと、音声認識の作動を入力指示する入力指示ス
テップと、話者を撮像するための撮像ステップと、撮像
された画像に基づいて、話者を認識する画像認識ステッ
プと、指示入力ステップにおいて音声認識の作動が指示
されたときには、画像認識ステップにおける認識結果に
基づいて、予め設定された第１及び第２モードのいずれ
かを選択し、この選択したモードで音声認識された言語
を用いる制御ステップとを含んでいる。

【００１６】この様な本発明の方法によっても、音声認
識の結果を２種類の用途に切り替えて用いることができ
る。

【００１７】また、本発明の記録媒体は、上記情報処理
方法を実施するためのプログラムを記録している。

【００１８】すなわち、本発明は、音声処理装置及び音
声処理方法だけではなく、この方法を実施するためのプ
ログラムを記録した記録媒体を包含する。この様な記録
媒体を用いれば、本発明の情報処理装置及び情報処理方
法と同様の作用並びに効果を達成することができる。

【００１９】尚、記録媒体としては、マスクＲＯＭ、Ｅ
ＰＲＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭといった半
導体記憶素子、ＩＣカード、ハードディスク、フロッピ
ー（登録商標）ディスク、あるいはＭＯ、ＣＤ、ＭＤ、
ＤＶＤ等の光ディスク、磁気テープ等を挙げることがで
き、プログラムを記録することが可能であれば他の種類
の記録媒体であっても良い。

【００２０】

【発明の実施の形態】以下、本発明の実施形態を添付図
面を参照して詳細に説明する。

【００２１】図１は、本発明の音声処理装置の一実施形
態を示すブロック図である。本実施形態の音声処理装置
は、音声を入力するマイクロホン４と、マイクロホン４
からの音声信号を入力する音声入力部３と、各種の音声
に対応するそれぞれの言語を予め登録した音声辞書６
と、音声信号によって示される入力音声を音声辞書６内
の各種の音声と照合し、入力音声に対応する言語を音声
辞書６から検索する音声認識部５と、音声認識部５の作
動を指示するための入力ボタン１０と、話者を撮像する
ためのＣＣＤカメラ１と、ＣＣＤカメラ１からの画像を
入力する画像入力部８と、画像に基づいて、話者が居る
か否かを判定したり、話者の口元の動きの有無を判定す
る画像認識部９と、入力ボタン１０の出力及び画像認識
部９の出力に基づいて、音声入力部３及び音声認識部５
を制御する制御部２と、各種の言語に対応するそれぞれ
の文字列を予め登録したかな漢字辞書７１と、音声認識
部５により認識された言語を受け取り、この言語をかな
漢字辞書７１内の各種の言語と照合し、この言語に対応
する文字列をかな漢字辞書７１から検索する文字変換部
７０と、各種の言語に対応するそれぞれの制御情報を予
め登録したコマンド辞書７６と、音声認識部５により認
識された言語を受け取り、この言語をコマンド辞書７６
内の各種の言語と照合し、この言語に対応する制御情報
をコマンド辞書７６から検索するコマンド変換部７５と
を備えている。

【００２２】ここで、画像認識部９は、ＣＣＤカメラ１
によって撮像された画像を画像入力部８を通じて受け取
り、この画像に話者が入っているか否かを判定する。例
えば、音声入力に際しては、話者がマイクロホン４を装
着していることに着目し、画像においてマイクロホン４
をその形状や色等により認識し、図２（ａ）に示す様に
マイクロホン４が予め設定された画像領域１１に入って
いるか、あるいは図２（ｂ）に示す様にマイクロホン４
が画像領域１１に入っていないかを判定する。そして、
画像認識部９は、マイクロホン４を話者とみなし、マイ
クロホン４が画像領域１１に入っているか否か、つまり
話者が入っているか否かを制御部２に通知する。また、
画像認識部９は、話者が入っていれば、話者の口元を画
像から抽出して、この口元の動きの有無を判定し、口元
の動きの有無を制御部２に通知する。

【００２３】制御部２は、話者が入っていないことを画
像認識部９から通知されると、第１変換モードを音声認
識部５に指示し、話者が入っていることを画像認識部９
から通知されると、第２変換モードを音声認識部５に指
示する。

【００２４】更に、制御部２は、第１変換モードを音声
認識部５に指示した上で、入力ボタン１０が押下される
と、音声入力部３を作動させ、音声を音声認識部５に入
力させる。音声認識部５は、入力音声に対応する言語を
音声辞書６から検索し、第１変換モードの指示を受けて
いることから、この検索した言語をコマンド変換部７５
に通知する。コマンド変換部７５は、この言語に対応す
る制御情報をコマンド辞書７６から検索して、この制御
情報を上位システム８０に通知する。上位システム８０
では、この制御情報に対応する処理を実行する。

【００２５】また、制御部２は、第２変換モードを音声
認識部５に指示した上で、更に口元の動きが有ることを
画像認識部９から通知されるか、入力ボタン１０が押下
されると、音声入力部３を作動させ、音声を音声認識部
５に入力させる。音声認識部５は、入力音声に対応する
言語を音声辞書６から検索し、第２変換モードの指示を
受けていることから、この検索した言語を文字変換部７
０に通知する。文字変換部７０は、この言語に対応する
文字列をかな漢字辞書７１から検索して、この文字列を
上位システム８０に通知する。上位システム８０では、
例えば該文字列を表示装置の表示画面上に表示する。

【００２６】従って、ＣＣＤカメラ１によって撮像され
た画像に基づいて、話者が入っていないと判定される
と、第１変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム８
０に通知される。また、ＣＣＤカメラ１によって撮像さ
れた画像に基づいて、話者が入っていると判定される
と、第２変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る文字列が検索され、この文字列が上位システム８０に
通知される。

【００２７】次に、図３に示すフローチャートに従っ
て、音声処理装置の制御部２による制御を更に詳しく説
明する。

【００２８】まず、音声処理装置の電源が投入される
と、制御部２は、変数ＶＯＮを音声入力部３の作動を示
す値「１」に初期設定すると共に、変数Ｍｏｄｅを第１
変換モードを示す値「０」に初期設定する（ステップＳ
１）。

【００２９】このとき、制御部２は、変数ＶＯＮが値
「１」であるから、音声入力部３を作動させ、また変数
Ｍｏｄｅが値「０」であるから、第１変換モードを音声
認識部５に指示する。これにより、第１変換モードが設
定されて、音声認識が行われ、入力音声に対応する言語
が検索され、この言語がコマンド変換部７５に通知さ
れ、ここで該言語に対応する制御情報が検索され、この
制御情報が上位システム８０に通知される。

【００３０】また、入力ボタン１０が押下されると（ス
テップＳ２で「Ｙｅｓ」）、制御部２は、変数ＶＯＮを
値「０」に反転し（ステップＳ３）、この変数ＶＯＮの
値「０」に応じて（ステップＳ４で「Ｎｏ」）、音声入
力部３を停止させる（ステップＳ６）。

【００３１】更に、入力ボタン１０が２度目に押下され
たときには（ステップＳ２で「Ｙｅｓ」）、変数ＶＯＮ
が値「１」に反転される（ステップＳ３）。制御部２
は、この変数ＶＯＮの値「１」に応じて（ステップＳ４
で「Ｙｅｓ」）、音声入力部３を再び作動させる（ステ
ップＳ５）。これにより、音声認識が再び開始されて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム８
０に通知される。

【００３２】従って、入力ボタン１０が押下される度
に、音声認識が行われたり停止される。また、変数Ｍｏ
ｄｅが値「０」に設定されているときには、第１変換モ
ードの動作、つまり入力音声に対応する言語の検索、こ
の言語に対応する制御情報の検索、上位システム８０へ
の該制御情報の通知が行われる。

【００３３】一方、入力ボタン１０が押下されなければ
（ステップＳ２で「Ｎｏ」）、制御部２は、話者が入っ
ているか否かの通知を画像認識部９から受け、この通知
に基づいて、話者の出入りの有無を判定する（ステップ
Ｓ７）。そして、話者の出入りが有れば（ステップＳ７
で「Ｙｅｓ」）、制御部２は、変数ＶＯＮが音声入力部
３の作動を示す値「１」に設定されているか否かを判定
し（ステップＳ８）、変数ＶＯＮが値「１」に設定され
ていれば（ステップＳ８で「Ｙｅｓ」）、音声入力部３
からの音声信号のレベルが予め設定されたレベルに低下
するまで待機してから（ステップＳ９）、変数Ｍｏｄｅ
の値を反転する（ステップＳ１０）。この待機により、
音声入力部３の作動中に、つまり音声の入力中に、変数
Ｍｏｄｅの値が反転されて、第１及び第２変換モードの
切り換えが行われずに済む。また、変数ＶＯＮが音声入
力部３の停止を示す値「０」に設定されていれば（ステ
ップＳ８で「Ｎｏ」）、音声が入力されていないので、
ステップＳ９を省略して、変数Ｍｏｄｅの値を直ちに反
転する（ステップＳ１０）。

【００３４】これにより、話者が入って来ると、変数Ｍ
ｏｄｅの値が「１」に反転され、話者が出て行くと、変
数Ｍｏｄｅの値が「０」に反転され、第１及び第２変換
モードのいずれかが音声認識部５に指示される（ステッ
プＳ１１）。

【００３５】この後、入力ボタン１０が押下されると
（ステップＳ２で「Ｙｅｓ」）、制御部２は、変数ＶＯ
Ｎの値を反転し（ステップＳ３）、変数ＶＯＮの値が
「０」であれば（ステップＳ４で「Ｎｏ」）、音声入力
部３を停止させ（ステップＳ６）、また変数ＶＯＮの値
が「１」であれば（ステップＳ４で「Ｙｅｓ」）、音声
入力部３を作動させる（ステップＳ５）。そして、音声
入力部３の作動に際しては、変数Ｍｏｄｅが値「０」で
あって、第１変換モードが設定されていれば、入力音声
に対応する言語の検索、この言語に対応する制御情報の
検索、上位システム８０への該制御情報の通知が行われ
る。また、変数Ｍｏｄｅが値「１」であって、第２変換
モードが設定されていれば、入力音声に対応する言語が
検索され、この言語が文字変換部７０に通知され、ここ
で該言語に対応する文字列が検索され、この文字列が上
位システム８０に通知される。

【００３６】また、入力ボタン１０が押下されず（ステ
ップＳ２で「Ｎｏ」）、更に話者の出入りが無ければ
（ステップＳ７で「Ｎｏ」）、制御部２は、変数Ｍｏｄ
ｅが第２変換モードを示す値「１」であるか否かを判定
する（ステップＳ１２）。そして、制御部２は、変数Ｍ
ｏｄｅが第２変換モードを示す値「１」であれば、つま
り話者が入ったままの状態が継続されていれば、口元の
動きが開始されたことを画像認識部９から通知されたと
きに（ステップＳ１３で「Ｙｅｓ」）、変数ＶＯＮが値
「１」であることを確認し（ステップＳ１４）、値
「１」でなければ（ステップＳ１４で「Ｎｏ」）、音声
入力部３を作動させて、変数ＶＯＮを値「１」に反転し
てから（ステップＳ１５、Ｓ１６）、ステップＳ２に戻
る。これにより、音声認識が開始されて、入力音声に対
応する言語が検索され、この言語が文字変換部７０に通
知され、ここで該言語に対応する文字列が検索され、こ
の文字列が上位システム８０に通知される。

【００３７】また、制御部２は、口元の動きが停止する
と（ステップＳ１７で「Ｙｅｓ」）、変数ＶＯＮが値
「０」であることを確認し（ステップＳ１８）、値
「０」でなければ（ステップＳ１８で「Ｎｏ」）、音声
入力部３を停止させて、変数ＶＯＮを値「０」に反転し
てから（ステップＳ１９、Ｓ２０）、ステップＳ２に戻
る。

【００３８】入力ボタン１０が押下されず（ステップＳ
２で「Ｎｏ」）、話者が入ったままの状態が継続されて
いる限り（ステップＳ７で「Ｎｏ」、ステップＳ１２で
「Ｙｅｓ」）、口元の動きが開始されたときに、ステッ
プＳ１３〜Ｓ１６の処理が行われて、入力音声に対応す
る言語が検索され、この言語に対応する文字列が検索さ
れ、この文字列が上位システム８０に通知される。ま
た、口元の動きが停止すると、ステップＳ１７〜Ｓ２０
の処理が行われ、音声認識が中断される。

【００３９】この様に話者が入って来たときには、第２
変換モードを設定し、入力音声によって示される言語を
認識して、この言語に対応する文字列を検索し、また話
者が出て行ったときには、第１変換モードを設定し、入
力音声によって示される言語を認識して、この言語に対
応する制御情報を検索しているので、音声認識に基づく
言語を文字列及び制御情報等として容易に使い分けるこ
とができる。

【００４０】また、制御情報の種類が文字列の種類より
も格段に少ないことに着目して、入力ボタン１０の操作
により制御情報を示す音声の入力期間を指定している。
つまり、入力ボタン１０の操作により指示された音声の
入力期間（音声入力部３の作動期間）が実際の音声の発
声期間と多少ずれて、言語の認識に誤差が生じたとして
も、制御情報の種類が少ないので、言語に対応する制御
情報を特定し易い。これに対して言語に対応する文字列
を特定する場合は、文字列の種類が格段に多いことか
ら、話者の口が動いている期間を正確に検出して、音声
の入力期間を実際の音声の発声期間と正確に一致させ、
言語の認識率を高めて、文字列の識別精度を高めてい
る。

【００４１】尚、従来の装置では、入力の段階で、音声
認識の結果を制御情報及び文字列のいずれとして用いる
かを決定しておらず、例えば音声認識の結果が制御情報
に該当しなければ、この音声認識の結果を文字列として
扱ったり、逆に音声認識の結果が文字列に該当しなけれ
ば、この音声認識の結果を制御情報として扱っていた。
このため、同等の処理を繰り返すことがあり、装置全体
としての使用効率が悪かった。

【００４２】次に、図４に示すフローチャートに従っ
て、音声処理装置の音声認識部５による制御を詳しく説
明する。

【００４３】まず、音声認識部５は、変数Ｍｏｄｅを第
１変換モードを示す値「０」に初期設定する（ステップ
Ｓ５０）。そして、音声認識部５は、変数Ｍｏｄｅの値
を制御部２から指示されると（ステップＳ５１で「Ｙｅ
ｓ」）、この指示に応じて変数Ｍｏｄｅの値を切換える
（ステップＳ５２）。また、音声認識部５は、音声入力
部３からの音声信号を入力すると（ステップＳ５３で
「Ｙｅｓ」）、この音声信号によって示される音声を認
識し、この音声に対応する言語を音声辞書６から検索す
る（ステップＳ５４）。そして、音声認識部５は、変数
Ｍｏｄｅの値を参照し、この値が「０」であれば（ステ
ップＳ５５で「Ｙｅｓ」）、第１変換モードが指示され
ているので、検索した言語をコマンド変換部７５に通知
し（ステップＳ５７）、また該値が「１」であれば（ス
テップＳ５５で「Ｎｏ」）、第２変換モードが指示され
ているので、検索した言語を文字変換部７０に通知する
（ステップＳ５６）。

【００４４】図５の図表は、コマンド辞書７６の登録内
容を例示している。ここでは、制御情報として、トウロ
ク命令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シ
ュウリョウ命令があり、各命令毎に、命令を示す複数の
言語が登録され、また該各命令に対応するそれぞれのコ
マンド番号ＣＮｏが登録されている。

【００４５】コマンド変換部７５は、音声認識部５から
の言語を受け取ると、この言語をコマンド辞書７６内の
各種の言語と照合し、この言語に対応する命令のコマン
ド番号ＣＮｏを検索し、このコマンド番号ＣＮｏを上位
システム８０に通知する。

【００４６】尚、コマンド辞書の実際の登録内容は、よ
り複雑な形式を有している。また、登録内容を複数の上
位システムにより共用し、それぞれの上位システムが登
録内容のうちから使用するコマンド群を指定しても構わ
ない。

【００４７】上位システム８０では、例えば文字列を記
憶したり、コマンド番号ＣＮｏに応じて、各種のデバイ
スや各種のプログラムを起動しており、これらの処理の
度に、図１２乃至図１６に示す様なエージェントキャラ
クタ（表示オブジェクト）を表示画面に表示する。

【００４８】図６は、上位システム８０による制御を示
すフローチャートである。

【００４９】まず、上位システム８０は、その電源が投
入されると、文字列を記憶するメモリの変数域Ｍｅｍを
初期化し、図１２に示す様に表示画面上のメモ領域２１
及びエージェントキャラクタ２２を初期化する（ステッ
プＳ１０１、Ｓ１０２）。そして、上位システム８０
は、文字変換部７０からの文字列及びコマンド変換部７
５からの制御情報を入力するまで待機する。

【００５０】例えば、上位システム８０は、文字列を文
字変換部７０から入力すると（ステップＳ１０３で「Ｙ
ｅｓ」）、この文字列をメモリの変数域Ｍｅｍに追加し
て記録し（ステップＳ１０４）、また該文字列を表示画
面上のメモ領域２１に追加して表示し（ステップＳ１０
５）、この後にステップＳ１０３に戻る。

【００５１】また、上位システム８０は、トウロク命
令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シュウ
リョウ命令のいずれかに対応するコマンド番号ＣＮｏを
コマンド変換部７５から入力すると（ステップＳ１０６
〜Ｓ１１０のいずれかで「Ｙｅｓ」）、図７乃至図１１
に示す各フローチャートの処理のいずれかに移る。

【００５２】尚、より多数のコマンドがコマンド辞書７
６に予め登録されている場合は、ステップＳ１０６〜Ｓ
１１０に引き続く他の各判定ステップＳ１１１と、これ
らの判定ステップから移行するそれぞれの処理が予め設
定される。他のコマンドとしては、文字の削除、カーソ
ルの移動、文字の編集等を命令するものがある。

【００５３】例えば、上位システム８０は、トウロク命
令に対応するコマンド番号ＣＮｏをコマンド変換部７５
から入力すると（ステップＳ１０６で「Ｙｅｓ」）、図
７に示すフローチャートの処理に移り、メモリの変数域
Ｍｅｍに文字列が記憶されているか否かをチェックし
（ステップＳ１２０）、記憶されていなければ（ステッ
プＳ１２０で「Ｙｅｓ」）、図１４に示す様なエージェ
ントキャラクタ２２を表示し（ステップＳ１２１）、利
用者が認識するのに要する時間（例えば１秒）を経過し
てから（ステップＳ１２５）、図１２に示す様なエージ
ェントキャラクタ２２を表示して（ステップＳ１２
６）、図６のステップＳ１０３に戻る。このとき、入力
エラーをより明確に報知するために、例えば「よくわか
んない〜！」という音声メッセージを発音しても構わな
い。

【００５４】また、メモリの変数域Ｍｅｍに文字列が記
憶されていれば（ステップＳ１２０で「Ｎｏ」）、図１
３に示す様なエージェントキャラクタ２２を表示し（ス
テップＳ１２２）、変数域Ｍｅｍの文字列をハードディ
スク等の不揮発性メモリに記憶してから（ステップＳ１
２３）、変数域Ｍｅｍを初期化し（ステップＳ１２
４）、更に利用者の認識時間を経過した後に（ステップ
Ｓ１２５）、図１２に示す様なエージェントキャラクタ
２２を表示して（ステップＳ１２６）、図６のステップ
Ｓ１０３に戻る。このとき、トウロク命令の実行をより
明確に報知するために、例えば「ＯＫ。まかせなさい
！」という音声メッセージを発音しても構わない。

【００５５】次に、上位システム８０は、ヘルプ命令に
対応するコマンド番号ＣＮｏをコマンド変換部７５から
入力すると（ステップＳ１０７で「Ｙｅｓ」）、図８に
示すフローチャートの処理に移り、メモリの変数域Ｍｅ
ｍに文字列が記憶されているか否かをチェックし（ステ
ップＳ１３０）、記憶されていなければ（ステップＳ１
３０で「Ｙｅｓ」）、図１４に示す様なエージェントキ
ャラクタ２２を表示し（ステップＳ１３１）、利用者の
認識時間を経過した後に（ステップＳ１３５）、図１２
に示す様なエージェントキャラクタ２２を表示して（ス
テップＳ１３６）、図６のステップＳ１０３に戻る。

【００５６】また、メモリの変数域Ｍｅｍに文字列が記
憶されていれば（ステップＳ１３０で「Ｎｏ」）、図１
３に示す様なエージェントキャラクタ２２を表示し（ス
テップＳ１３２）、変数域Ｍｅｍの文字列をパラメータ
として、ヘルププログラムを起動してから（ステップＳ
１３３）、変数域Ｍｅｍを初期化し（ステップＳ１３
４）、更に利用者の認識時間を経過した後に（ステップ
Ｓ１３５）、図１２に示す様なエージェントキャラクタ
２２を表示して（ステップＳ１３６）、図６のステップ
Ｓ１０３に戻る。

【００５７】次に、上位システム８０は、サイセイ命令
に対応するコマンド番号ＣＮｏをコマンド変換部７５か
ら入力すると（ステップＳ１０８で「Ｙｅｓ」）、図９
に示すフローチャートの処理に移り、ＣＤドライブ装置
が既に作動中（音楽ＣＤの再生中）であるか否かをチェ
ックすると共に（ステップＳ１４０）、ＣＤがＣＤドラ
イブ装置に挿入されているか否かをチェックし（ステッ
プＳ１４１）、ＣＤドライブ装置が既に作動中であった
り（ステップＳ１４０で「Ｙｅｓ」）、ＣＤがＣＤドラ
イブ装置に挿入されていなければ（ステップＳ１４１で
「Ｎｏ」）、図１４に示す様なエージェントキャラクタ
２２を表示し（ステップＳ１４２）、利用者の認識時間
を経過した後に（ステップＳ１４５）、図１２に示す様
なエージェントキャラクタ２２を表示し（ステップＳ１
４６）、更に図１６に示す様に変数域Ｍｅｍの内容を表
示画面上のメモ領域２１に表示し直してから（ステップ
Ｓ１４７）、図６のステップＳ１０３に戻る。

【００５８】また、ＣＤドライブ装置が作動しておらず
（ステップＳ１４０で「Ｎｏ」）、かつＣＤがＣＤドラ
イブ装置に挿入されていれば（ステップＳ１４１で「Ｙ
ｅｓ」）、図１３に示す様なエージェントキャラクタ２
２を表示して（ステップＳ１４３）、ＣＤドライブ装置
を作動させて、音楽ＣＤの再生を開始し（ステップＳ１
４４）、利用者の認識時間を経過した後に（ステップＳ
１４５）、図１２に示す様なエージェントキャラクタ２
２を表示し（ステップＳ１４６）、更に図１６に示す様
に変数域Ｍｅｍの内容を表示画面上のメモ領域２１に表
示し直してから（ステップＳ１４７）、図６のステップ
Ｓ１０３に戻る。

【００５９】次に、上位システム８０は、ヘンコウ命令
に対応するコマンド番号ＣＮｏをコマンド変換部７５か
ら入力すると（ステップＳ１０９で「Ｙｅｓ」）、図１
０に示すフローチャートの処理に移り、ＣＤドライブ装
置が作動中であるか否かをチェックし（ステップＳ１５
０）、ＣＤドライブ装置が作動中でなければ（ステップ
Ｓ１５０で「Ｎｏ」）、図１４に示す様なエージェント
キャラクタ２２を表示し（ステップＳ１５１）、利用者
の認識時間を経過した後に（ステップＳ１５４）、図１
２に示す様なエージェントキャラクタ２２を表示し（ス
テップＳ１５５）、更に図１６に示す様に変数域Ｍｅｍ
の内容を表示画面上のメモ領域２１に表示し直してから
（ステップＳ１５６）、図６のステップＳ１０３に戻
る。

【００６０】また、ＣＤドライブ装置が作動していれば
（ステップＳ１５０で「Ｙｅｓ」）、図１３に示す様な
エージェントキャラクタ２２を表示して（ステップＳ１
５２）、次曲の選択をＣＤドライブ装置に命令し（ステ
ップＳ１５３）、利用者の認識時間を経過した後に（ス
テップＳ１５４）、図１２に示す様なエージェントキャ
ラクタ２２を表示し（ステップＳ１５５）、更に図１６
に示す様に変数域Ｍｅｍの内容を表示画面上のメモ領域
２１に表示し直してから（ステップＳ１５６）、図６の
ステップＳ１０３に戻る。

【００６１】次に、上位システム８０は、シュウリョウ
命令に対応するコマンド番号ＣＮｏをコマンド変換部７
５から入力すると（ステップＳ１１０で「Ｙｅｓ」）、
図１１に示すフローチャートの処理に移り、ＣＤドライ
ブ装置が作動中であるか否かをチェックし（ステップＳ
１６０）、ＣＤドライブ装置が作動中であれば（ステッ
プＳ１６０で「Ｙｅｓ」）、図１３に示す様なエージェ
ントキャラクタ２２を表示し（ステップＳ１６１）、再
生の停止をＣＤドライブ装置に命令し（ステップＳ１６
２）、利用者の認識時間を経過した後に（ステップＳ１
６５）、図１２に示す様なエージェントキャラクタ２２
を表示し（ステップＳ１６６）、更に図１６に示す様に
変数域Ｍｅｍの内容を表示画面上のメモ領域２１に表示
し直してから（ステップＳ１６７）、図６のステップＳ
１０３に戻る。

【００６２】また、ＣＤドライブ装置が作動中でなけれ
ば（ステップＳ１６０で「Ｎｏ」）、メモリの変数域Ｍ
ｅｍに文字列が記憶されているか否かをチェックし（ス
テップＳ１６３）、記憶されていなければ（ステップＳ
１６３で「Ｙｅｓ」）、変数域Ｍｅｍを初期化し（ステ
ップＳ１６４）、利用者の認識時間を経過した後に（ス
テップＳ１６５）、図１２に示す様なエージェントキャ
ラクタ２２を表示し（ステップＳ１６６）、更に変数域
Ｍｅｍの内容を表示画面上のメモ領域２１に表示し直し
てから（ステップＳ１６７）、図６のステップＳ１０３
に戻る。ただし、このときには、ステップＳ１６４で変
数域Ｍｅｍを初期化しているので、ステップＳ１６７の
処理に実質的な意味がない。

【００６３】また、メモリの変数域Ｍｅｍに文字列が記
憶されていれば（ステップＳ１６３で「Ｎｏ」）、図１
５に示す様なエージェントキャラクタ２２を表示し（ス
テップＳ１６８）、十分な長さの認識時間（先の他の認
識時間よりも長い）を経過した後に（ステップＳ１６
９）、エージェントキャラクタ２２を消去し（ステップ
Ｓ１７０）、処理を終了する。

【００６４】この様に上位システム８０では、入力音声
の認識により特定された文字列や制御情報を受け取っ
て、文字列を表示したり、各種のプログラムを起動する
ことができる。先に述べた様に制御情報の種類が文字列
の種類よりも格段に少ないことから、言語に対応する制
御情報を特定し易い。このため、話者の口の動きが分か
らなくても、音声により各種の命令を正確に入力するこ
とができる。従って、例えば入力ボタン１０及びマイク
ロホン４の出力を長いコードやコードレスにより伝送す
れば、音声処理装置から離れた位置からでも、音声によ
り命令を上位システム８０に入力することができる。例
えば、寝そべりながら、ＣＤドライブ装置を操作するこ
とが可能になる。

【００６５】尚、本発明は、上記実施形態の音声処理装
置だけではなく、音声処理方法、及びその方法を実施す
るためのプログラムを記録した記録媒体を包含する。

【００６６】プログラムは、磁気ディスク、光ディス
ク、コンピュータに内蔵のハードディスク等の記録媒体
に記録されたり、通信ネットワークを通じて送受され
る。コンピュータ等は、プログラムを記録媒体から読み
出したり、あるいはプログラムを通信ネットワークを通
じて受信してから、プログラムを記録媒体に書き込んだ
り読み出し、このプログラムを実行して、本発明を実施
することができる。複数のコンピュータやインターネッ
トからなるシステムにおいては、複数の処理を複数の端
末に分散して行い得る。従って、プログラムは、コンピ
ュータ等の単一の端末だけではなく、システムにも適用
し得る。

【００６７】記録媒体としては、マスクＲＯＭ、ＥＰＲ
ＯＭ、ＥＥＰＲＯＭ、フラッシュＲＯＭといった半導体
記憶素子、ＩＣカード、ハードディスク、フロッピーデ
ィスク、あるいはＭＯ、ＣＤ、ＭＤ、ＤＶＤ等の光ディ
スク、磁気テープ等を挙げることができ、プログラムを
記録することが可能であれば他の種類の記録媒体であっ
ても良い。

【００６８】

【発明の効果】以上説明した様に本発明によれば、画像
認識手段による認識結果に基づいて、第１及び第２モー
ドのいずれかを選択し、この選択したモードで音声認識
された言語を用いている。このため、音声認識を２種類
の用途に切り替えることができる。

【００６９】また、本発明によれば、第１モードでは、
音声認識された言語を制御情報として用い、第２モード
では、音声認識された言語を文字列として用いている。
従って、音声認識された言語を制御情報及び文字列のい
ずれかとして用いることができる。

【００７０】更に、本発明によれば、撮像された画像に
マイクが含まれるか否かに基づいて、話者を認識するの
で、形状や色が分かっているマイクを画像処理により識
別すれば良く、画像処理が簡単化される。

【図面の簡単な説明】

【図１】本発明の音声処理装置の一実施形態を示すブロ
ック図である。

【図２】（ａ）はマイクロホンが予め設定された画像領
域に入って来た状態を示す図であり、（ｂ）はマイクロ
ホンが画像領域から出て行った状態を示す図である。

【図３】本実施形態の音声処理装置の制御部による制御
を示すフローチャートである。

【図４】本実施形態の音声処理装置の音声認識部による
制御を示すフローチャートである。

【図５】本実施形態の音声処理装置により認識される各
制御情報を例示する図である。

【図６】本実施形態の音声処理装置の上位システムによ
る制御を示すフローチャートである。

【図７】上位システムにおけるトウロク命令の応答処理
を示すフローチャートである。

【図８】上位システムにおけるヘルプ命令の応答処理を
示すフローチャートである。

【図９】上位システムにおけるサイセイ命令の応答処理
を示すフローチャートである。

【図１０】上位システムにおけるヘンコウ命令の応答処
理を示すフローチャートである。

【図１１】上位システムにおけるシュウリョウ命令の応
答処理を示すフローチャートである。

【図１２】上位システムの表示画面に表示される表示オ
ブジェクトの一例を示す図である。

【図１３】上位システムの表示画面に表示される表示オ
ブジェクトの他の例を示す図である。

【図１４】上位システムの表示画面に表示される表示オ
ブジェクトの別の例を示す図である。

【図１５】上位システムの表示画面に表示される表示オ
ブジェクトの更に他の例を示す図である。

【図１６】上位システムの表示画面に表示される表示オ
ブジェクトの更に別の例を示す図である。

【図１７】一般的なテキスト入力用のウィンドウを例示
する図である。

【符号の説明】

１ＣＣＤカメラ２制御部３音声入力部４マイクロホン５音声認識部６音声辞書８画像入力部９画像認識部１０入力ボタン７０文字変換部７１かな漢字辞書７５コマンド変換部７６コマンド辞書８０上位システム

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５７１Ｊ５７１Ｋ

Claims

【特許請求の範囲】

【請求項１】音声を入力する音声入力手段と、入力された音声を認識して、この音声によって表される
言語を出力する音声認識手段と、音声認識手段の作動を入力指示する入力指示手段と、話者を撮像するための撮像手段と、撮像された画像に基づいて、話者を認識する画像認識手
段と、指示入力手段によって音声認識手段の作動が指示された
ときには、画像認識手段による認識結果に基づいて、予
め設定された第１及び第２モードのいずれかを選択し、
この選択したモードで音声認識された言語を用いる制御
手段とを備えることを特徴とする音声処理装置。
【請求項２】第１モードでは、音声認識された言語を
制御情報として用い、第２モードでは、音声認識された
言語を文字列として用いることを特徴とする請求項１に
記載の音声処理装置。
【請求項３】音声入力手段は、話者が用いるマイクを
有し、画像認識手段は、撮像手段によって撮像された画像にマ
イクが含まれるか否かに基づいて、話者を認識すること
を特徴とする請求項１に記載の音声処理装置。
【請求項４】音声を入力する音声入力ステップと、入力された音声を認識して、この音声によって表される
言語を出力する音声認識ステップと、音声認識の作動を入力指示する入力指示ステップと、話者を撮像するための撮像ステップと、撮像された画像に基づいて、話者を認識する画像認識ス
テップと、指示入力ステップにおいて音声認識の作動が指示された
ときには、画像認識ステップにおける認識結果に基づい
て、予め設定された第１及び第２モードのいずれかを選
択し、この選択したモードで音声認識された言語を用い
る制御ステップとを含むことを特徴とする音声処理方
法。
【請求項５】請求項４に記載の音声処理方法を実施す
るためのプログラムを記録した記録媒体。