JP2003029777A - 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体 - Google Patents

音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体

Info

Publication number
JP2003029777A
JP2003029777A JP2001215451A JP2001215451A JP2003029777A JP 2003029777 A JP2003029777 A JP 2003029777A JP 2001215451 A JP2001215451 A JP 2001215451A JP 2001215451 A JP2001215451 A JP 2001215451A JP 2003029777 A JP2003029777 A JP 2003029777A
Authority
JP
Japan
Prior art keywords
voice
language
input
recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001215451A
Other languages
English (en)
Other versions
JP2003029777A5 (ja
JP4675514B2 (ja
Inventor
Hiroyuki Takahashi
広行 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2001215451A priority Critical patent/JP4675514B2/ja
Publication of JP2003029777A publication Critical patent/JP2003029777A/ja
Publication of JP2003029777A5 publication Critical patent/JP2003029777A5/ja
Application granted granted Critical
Publication of JP4675514B2 publication Critical patent/JP4675514B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】音声認識に基づく言語を文字列及び制御情報等
として使い分けることが可能な音声処理装置を提供す
る。 【解決手段】CCDカメラ1により話者が撮像されてい
ないときには、制御部2により第1変換モードを設定
し、マイクロホン4から音声を入力し、この音声によっ
て示される言語を音声認識部5により認識して、この言
語に対応する制御情報をコマンド変換部75により検索
し、またCCDカメラ1により話者が撮像されたときに
は、第2変換モードを設定し、音声によって示される言
語を認識して、この言語に対応する文字列を文字変換部
70により検索しているので、音声認識に基づく言語を
文字列及び制御情報等として使い分けることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声を入力し、こ
の音声によって表される言語を認識するための音声処理
装置、音声処理方法、及びその方法を実施するためのプ
ログラムを記録した記録媒体に関する。
【0002】
【従来の技術】この種の従来の装置においては、音声入
力を指示するためのボタンを押下している間に、音声を
マイクロホンを通じて入力し、この入力された音声を認
識して、言語を出力していた。これにより、ボタンを押
下していないときには、雑音をマイクロホンを通じて入
力したり認識せずに済む。
【0003】また、特開平5−188993号公報に記
載の装置では、CCDカメラによって話者が撮像されて
いる間に、音声の入力と認識を行い、これにより雑音の
入力及び認識を防止している。あるいは、撮像された話
者の口元の動きを音声認識のための補助情報として利用
し、音声認識率の向上を図っている。
【0004】
【発明が解決しようとする課題】ところで、パーソナル
コンピュータ等の情報処理端末装置においては、音声認
識の結果を文字列や制御情報として用いることが考えら
れる。しかしながら、従来は、音声認識の結果の用途を
切り替ていなかった。
【0005】例えば、図17に示すような一般的なテキ
スト入力用のウィンドウ201においては、カーソル2
02、ウインドウ201の最小化を示す操作アイコン2
03、ウインドウ201の最大化を示す操作アイコン2
04、ウィンドウ201の終了を示す操作アイコン20
5等が表示されており、所望の文字列がウインドウ20
1内に記入される。
【0006】ここで、音声認識を利用すれば、音声をマ
イクロホンを通じて入力するだけで、この音声によって
示される言語が文字列となってウインドウ201内に記
入される。
【0007】ところが、音声認識に基づく言語を文字列
及び制御情報のいずれにも用いるならば、先に述べた様
に音声認識の結果の用途を切り替ていないために、例え
ば「SAIDAIKA」という音声を入力したときに、
この音声によって示される言語を「最大化」という文字
列として扱うべきか、最大化を示す操作アイコン204
を指示する制御情報として扱うべきかを特定することが
できなかった。
【0008】そこで、本発明は、上記従来の問題点に鑑
みてなされたものであり、音声認識に基づく言語を文字
列及び制御情報等として使い分けることが可能な音声処
理装置、音声処理方法、及びその方法を実施するための
プログラムを記録した記録媒体を提供することを目的と
する。
【0009】
【課題を解決するための手段】上記課題を解決するため
に、本発明の音声処理装置は、音声を入力する音声入力
手段と、入力された音声を認識して、この音声によって
表される言語を出力する音声認識手段と、音声認識手段
の作動を入力指示する入力指示手段と、話者を撮像する
ための撮像手段と、撮像された画像に基づいて、話者を
認識する画像認識手段と、指示入力手段によって音声認
識手段の作動が指示されたときには、画像認識手段によ
る認識結果に基づいて、予め設定された第1及び第2モ
ードのいずれかを選択し、この選択したモードで音声認
識された言語を用いる制御手段とを備えている。
【0010】この様な構成の本発明によれば、画像認識
手段による認識結果に基づいて、第1及び第2モードの
いずれかを選択し、この選択したモードで音声認識され
た言語を用いている。このため、音声認識を2種類の用
途に切り替えることができる。
【0011】また、本発明の装置においては、第1モー
ドでは、音声認識された言語を制御情報として用い、第
2モードでは、音声認識された言語を文字列として用い
ている。
【0012】従って、音声認識された言語を制御情報及
び文字列のいずれかとして用いることができる。
【0013】更に、本発明の装置においては、音声入力
手段は、話者が用いるマイクを有し、画像認識手段は、
撮像手段によって撮像された画像にマイクが含まれるか
否かに基づいて、話者を認識している。
【0014】この様に撮像された画像にマイクが含まれ
るか否かに基づいて、話者を認識するのであれば、形状
や色が分かっているマイクを画像処理により識別すれば
良いので、画像処理が簡単化される。
【0015】一方、本発明の情報処理方法は、音声を入
力する音声入力ステップと、入力された音声を認識し
て、この音声によって表される言語を出力する音声認識
ステップと、音声認識の作動を入力指示する入力指示ス
テップと、話者を撮像するための撮像ステップと、撮像
された画像に基づいて、話者を認識する画像認識ステッ
プと、指示入力ステップにおいて音声認識の作動が指示
されたときには、画像認識ステップにおける認識結果に
基づいて、予め設定された第1及び第2モードのいずれ
かを選択し、この選択したモードで音声認識された言語
を用いる制御ステップとを含んでいる。
【0016】この様な本発明の方法によっても、音声認
識の結果を2種類の用途に切り替えて用いることができ
る。
【0017】また、本発明の記録媒体は、上記情報処理
方法を実施するためのプログラムを記録している。
【0018】すなわち、本発明は、音声処理装置及び音
声処理方法だけではなく、この方法を実施するためのプ
ログラムを記録した記録媒体を包含する。この様な記録
媒体を用いれば、本発明の情報処理装置及び情報処理方
法と同様の作用並びに効果を達成することができる。
【0019】尚、記録媒体としては、マスクROM、E
PROM、EEPROM、フラッシュROMといった半
導体記憶素子、ICカード、ハードディスク、フロッピ
ー(登録商標)ディスク、あるいはMO、CD、MD、
DVD等の光ディスク、磁気テープ等を挙げることがで
き、プログラムを記録することが可能であれば他の種類
の記録媒体であっても良い。
【0020】
【発明の実施の形態】以下、本発明の実施形態を添付図
面を参照して詳細に説明する。
【0021】図1は、本発明の音声処理装置の一実施形
態を示すブロック図である。本実施形態の音声処理装置
は、音声を入力するマイクロホン4と、マイクロホン4
からの音声信号を入力する音声入力部3と、各種の音声
に対応するそれぞれの言語を予め登録した音声辞書6
と、音声信号によって示される入力音声を音声辞書6内
の各種の音声と照合し、入力音声に対応する言語を音声
辞書6から検索する音声認識部5と、音声認識部5の作
動を指示するための入力ボタン10と、話者を撮像する
ためのCCDカメラ1と、CCDカメラ1からの画像を
入力する画像入力部8と、画像に基づいて、話者が居る
か否かを判定したり、話者の口元の動きの有無を判定す
る画像認識部9と、入力ボタン10の出力及び画像認識
部9の出力に基づいて、音声入力部3及び音声認識部5
を制御する制御部2と、各種の言語に対応するそれぞれ
の文字列を予め登録したかな漢字辞書71と、音声認識
部5により認識された言語を受け取り、この言語をかな
漢字辞書71内の各種の言語と照合し、この言語に対応
する文字列をかな漢字辞書71から検索する文字変換部
70と、各種の言語に対応するそれぞれの制御情報を予
め登録したコマンド辞書76と、音声認識部5により認
識された言語を受け取り、この言語をコマンド辞書76
内の各種の言語と照合し、この言語に対応する制御情報
をコマンド辞書76から検索するコマンド変換部75と
を備えている。
【0022】ここで、画像認識部9は、CCDカメラ1
によって撮像された画像を画像入力部8を通じて受け取
り、この画像に話者が入っているか否かを判定する。例
えば、音声入力に際しては、話者がマイクロホン4を装
着していることに着目し、画像においてマイクロホン4
をその形状や色等により認識し、図2(a)に示す様に
マイクロホン4が予め設定された画像領域11に入って
いるか、あるいは図2(b)に示す様にマイクロホン4
が画像領域11に入っていないかを判定する。そして、
画像認識部9は、マイクロホン4を話者とみなし、マイ
クロホン4が画像領域11に入っているか否か、つまり
話者が入っているか否かを制御部2に通知する。また、
画像認識部9は、話者が入っていれば、話者の口元を画
像から抽出して、この口元の動きの有無を判定し、口元
の動きの有無を制御部2に通知する。
【0023】制御部2は、話者が入っていないことを画
像認識部9から通知されると、第1変換モードを音声認
識部5に指示し、話者が入っていることを画像認識部9
から通知されると、第2変換モードを音声認識部5に指
示する。
【0024】更に、制御部2は、第1変換モードを音声
認識部5に指示した上で、入力ボタン10が押下される
と、音声入力部3を作動させ、音声を音声認識部5に入
力させる。音声認識部5は、入力音声に対応する言語を
音声辞書6から検索し、第1変換モードの指示を受けて
いることから、この検索した言語をコマンド変換部75
に通知する。コマンド変換部75は、この言語に対応す
る制御情報をコマンド辞書76から検索して、この制御
情報を上位システム80に通知する。上位システム80
では、この制御情報に対応する処理を実行する。
【0025】また、制御部2は、第2変換モードを音声
認識部5に指示した上で、更に口元の動きが有ることを
画像認識部9から通知されるか、入力ボタン10が押下
されると、音声入力部3を作動させ、音声を音声認識部
5に入力させる。音声認識部5は、入力音声に対応する
言語を音声辞書6から検索し、第2変換モードの指示を
受けていることから、この検索した言語を文字変換部7
0に通知する。文字変換部70は、この言語に対応する
文字列をかな漢字辞書71から検索して、この文字列を
上位システム80に通知する。上位システム80では、
例えば該文字列を表示装置の表示画面上に表示する。
【0026】従って、CCDカメラ1によって撮像され
た画像に基づいて、話者が入っていないと判定される
と、第1変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム8
0に通知される。また、CCDカメラ1によって撮像さ
れた画像に基づいて、話者が入っていると判定される
と、第2変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る文字列が検索され、この文字列が上位システム80に
通知される。
【0027】次に、図3に示すフローチャートに従っ
て、音声処理装置の制御部2による制御を更に詳しく説
明する。
【0028】まず、音声処理装置の電源が投入される
と、制御部2は、変数VONを音声入力部3の作動を示
す値「1」に初期設定すると共に、変数Modeを第1
変換モードを示す値「0」に初期設定する(ステップS
1)。
【0029】このとき、制御部2は、変数VONが値
「1」であるから、音声入力部3を作動させ、また変数
Modeが値「0」であるから、第1変換モードを音声
認識部5に指示する。これにより、第1変換モードが設
定されて、音声認識が行われ、入力音声に対応する言語
が検索され、この言語がコマンド変換部75に通知さ
れ、ここで該言語に対応する制御情報が検索され、この
制御情報が上位システム80に通知される。
【0030】また、入力ボタン10が押下されると(ス
テップS2で「Yes」)、制御部2は、変数VONを
値「0」に反転し(ステップS3)、この変数VONの
値「0」に応じて(ステップS4で「No」)、音声入
力部3を停止させる(ステップS6)。
【0031】更に、入力ボタン10が2度目に押下され
たときには(ステップS2で「Yes」)、変数VON
が値「1」に反転される(ステップS3)。制御部2
は、この変数VONの値「1」に応じて(ステップS4
で「Yes」)、音声入力部3を再び作動させる(ステ
ップS5)。これにより、音声認識が再び開始されて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム8
0に通知される。
【0032】従って、入力ボタン10が押下される度
に、音声認識が行われたり停止される。また、変数Mo
deが値「0」に設定されているときには、第1変換モ
ードの動作、つまり入力音声に対応する言語の検索、こ
の言語に対応する制御情報の検索、上位システム80へ
の該制御情報の通知が行われる。
【0033】一方、入力ボタン10が押下されなければ
(ステップS2で「No」)、制御部2は、話者が入っ
ているか否かの通知を画像認識部9から受け、この通知
に基づいて、話者の出入りの有無を判定する(ステップ
S7)。そして、話者の出入りが有れば(ステップS7
で「Yes」)、制御部2は、変数VONが音声入力部
3の作動を示す値「1」に設定されているか否かを判定
し(ステップS8)、変数VONが値「1」に設定され
ていれば(ステップS8で「Yes」)、音声入力部3
からの音声信号のレベルが予め設定されたレベルに低下
するまで待機してから(ステップS9)、変数Mode
の値を反転する(ステップS10)。この待機により、
音声入力部3の作動中に、つまり音声の入力中に、変数
Modeの値が反転されて、第1及び第2変換モードの
切り換えが行われずに済む。また、変数VONが音声入
力部3の停止を示す値「0」に設定されていれば(ステ
ップS8で「No」)、音声が入力されていないので、
ステップS9を省略して、変数Modeの値を直ちに反
転する(ステップS10)。
【0034】これにより、話者が入って来ると、変数M
odeの値が「1」に反転され、話者が出て行くと、変
数Modeの値が「0」に反転され、第1及び第2変換
モードのいずれかが音声認識部5に指示される(ステッ
プS11)。
【0035】この後、入力ボタン10が押下されると
(ステップS2で「Yes」)、制御部2は、変数VO
Nの値を反転し(ステップS3)、変数VONの値が
「0」であれば(ステップS4で「No」)、音声入力
部3を停止させ(ステップS6)、また変数VONの値
が「1」であれば(ステップS4で「Yes」)、音声
入力部3を作動させる(ステップS5)。そして、音声
入力部3の作動に際しては、変数Modeが値「0」で
あって、第1変換モードが設定されていれば、入力音声
に対応する言語の検索、この言語に対応する制御情報の
検索、上位システム80への該制御情報の通知が行われ
る。また、変数Modeが値「1」であって、第2変換
モードが設定されていれば、入力音声に対応する言語が
検索され、この言語が文字変換部70に通知され、ここ
で該言語に対応する文字列が検索され、この文字列が上
位システム80に通知される。
【0036】また、入力ボタン10が押下されず(ステ
ップS2で「No」)、更に話者の出入りが無ければ
(ステップS7で「No」)、制御部2は、変数Mod
eが第2変換モードを示す値「1」であるか否かを判定
する(ステップS12)。そして、制御部2は、変数M
odeが第2変換モードを示す値「1」であれば、つま
り話者が入ったままの状態が継続されていれば、口元の
動きが開始されたことを画像認識部9から通知されたと
きに(ステップS13で「Yes」)、変数VONが値
「1」であることを確認し(ステップS14)、値
「1」でなければ(ステップS14で「No」)、音声
入力部3を作動させて、変数VONを値「1」に反転し
てから(ステップS15、S16)、ステップS2に戻
る。これにより、音声認識が開始されて、入力音声に対
応する言語が検索され、この言語が文字変換部70に通
知され、ここで該言語に対応する文字列が検索され、こ
の文字列が上位システム80に通知される。
【0037】また、制御部2は、口元の動きが停止する
と(ステップS17で「Yes」)、変数VONが値
「0」であることを確認し(ステップS18)、値
「0」でなければ(ステップS18で「No」)、音声
入力部3を停止させて、変数VONを値「0」に反転し
てから(ステップS19、S20)、ステップS2に戻
る。
【0038】入力ボタン10が押下されず(ステップS
2で「No」)、話者が入ったままの状態が継続されて
いる限り(ステップS7で「No」、ステップS12で
「Yes」)、口元の動きが開始されたときに、ステッ
プS13〜S16の処理が行われて、入力音声に対応す
る言語が検索され、この言語に対応する文字列が検索さ
れ、この文字列が上位システム80に通知される。ま
た、口元の動きが停止すると、ステップS17〜S20
の処理が行われ、音声認識が中断される。
【0039】この様に話者が入って来たときには、第2
変換モードを設定し、入力音声によって示される言語を
認識して、この言語に対応する文字列を検索し、また話
者が出て行ったときには、第1変換モードを設定し、入
力音声によって示される言語を認識して、この言語に対
応する制御情報を検索しているので、音声認識に基づく
言語を文字列及び制御情報等として容易に使い分けるこ
とができる。
【0040】また、制御情報の種類が文字列の種類より
も格段に少ないことに着目して、入力ボタン10の操作
により制御情報を示す音声の入力期間を指定している。
つまり、入力ボタン10の操作により指示された音声の
入力期間(音声入力部3の作動期間)が実際の音声の発
声期間と多少ずれて、言語の認識に誤差が生じたとして
も、制御情報の種類が少ないので、言語に対応する制御
情報を特定し易い。これに対して言語に対応する文字列
を特定する場合は、文字列の種類が格段に多いことか
ら、話者の口が動いている期間を正確に検出して、音声
の入力期間を実際の音声の発声期間と正確に一致させ、
言語の認識率を高めて、文字列の識別精度を高めてい
る。
【0041】尚、従来の装置では、入力の段階で、音声
認識の結果を制御情報及び文字列のいずれとして用いる
かを決定しておらず、例えば音声認識の結果が制御情報
に該当しなければ、この音声認識の結果を文字列として
扱ったり、逆に音声認識の結果が文字列に該当しなけれ
ば、この音声認識の結果を制御情報として扱っていた。
このため、同等の処理を繰り返すことがあり、装置全体
としての使用効率が悪かった。
【0042】次に、図4に示すフローチャートに従っ
て、音声処理装置の音声認識部5による制御を詳しく説
明する。
【0043】まず、音声認識部5は、変数Modeを第
1変換モードを示す値「0」に初期設定する(ステップ
S50)。そして、音声認識部5は、変数Modeの値
を制御部2から指示されると(ステップS51で「Ye
s」)、この指示に応じて変数Modeの値を切換える
(ステップS52)。また、音声認識部5は、音声入力
部3からの音声信号を入力すると(ステップS53で
「Yes」)、この音声信号によって示される音声を認
識し、この音声に対応する言語を音声辞書6から検索す
る(ステップS54)。そして、音声認識部5は、変数
Modeの値を参照し、この値が「0」であれば(ステ
ップS55で「Yes」)、第1変換モードが指示され
ているので、検索した言語をコマンド変換部75に通知
し(ステップS57)、また該値が「1」であれば(ス
テップS55で「No」)、第2変換モードが指示され
ているので、検索した言語を文字変換部70に通知する
(ステップS56)。
【0044】図5の図表は、コマンド辞書76の登録内
容を例示している。ここでは、制御情報として、トウロ
ク命令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シ
ュウリョウ命令があり、各命令毎に、命令を示す複数の
言語が登録され、また該各命令に対応するそれぞれのコ
マンド番号CNoが登録されている。
【0045】コマンド変換部75は、音声認識部5から
の言語を受け取ると、この言語をコマンド辞書76内の
各種の言語と照合し、この言語に対応する命令のコマン
ド番号CNoを検索し、このコマンド番号CNoを上位
システム80に通知する。
【0046】尚、コマンド辞書の実際の登録内容は、よ
り複雑な形式を有している。また、登録内容を複数の上
位システムにより共用し、それぞれの上位システムが登
録内容のうちから使用するコマンド群を指定しても構わ
ない。
【0047】上位システム80では、例えば文字列を記
憶したり、コマンド番号CNoに応じて、各種のデバイ
スや各種のプログラムを起動しており、これらの処理の
度に、図12乃至図16に示す様なエージェントキャラ
クタ(表示オブジェクト)を表示画面に表示する。
【0048】図6は、上位システム80による制御を示
すフローチャートである。
【0049】まず、上位システム80は、その電源が投
入されると、文字列を記憶するメモリの変数域Memを
初期化し、図12に示す様に表示画面上のメモ領域21
及びエージェントキャラクタ22を初期化する(ステッ
プS101、S102)。そして、上位システム80
は、文字変換部70からの文字列及びコマンド変換部7
5からの制御情報を入力するまで待機する。
【0050】例えば、上位システム80は、文字列を文
字変換部70から入力すると(ステップS103で「Y
es」)、この文字列をメモリの変数域Memに追加し
て記録し(ステップS104)、また該文字列を表示画
面上のメモ領域21に追加して表示し(ステップS10
5)、この後にステップS103に戻る。
【0051】また、上位システム80は、トウロク命
令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シュウ
リョウ命令のいずれかに対応するコマンド番号CNoを
コマンド変換部75から入力すると(ステップS106
〜S110のいずれかで「Yes」)、図7乃至図11
に示す各フローチャートの処理のいずれかに移る。
【0052】尚、より多数のコマンドがコマンド辞書7
6に予め登録されている場合は、ステップS106〜S
110に引き続く他の各判定ステップS111と、これ
らの判定ステップから移行するそれぞれの処理が予め設
定される。他のコマンドとしては、文字の削除、カーソ
ルの移動、文字の編集等を命令するものがある。
【0053】例えば、上位システム80は、トウロク命
令に対応するコマンド番号CNoをコマンド変換部75
から入力すると(ステップS106で「Yes」)、図
7に示すフローチャートの処理に移り、メモリの変数域
Memに文字列が記憶されているか否かをチェックし
(ステップS120)、記憶されていなければ(ステッ
プS120で「Yes」)、図14に示す様なエージェ
ントキャラクタ22を表示し(ステップS121)、利
用者が認識するのに要する時間(例えば1秒)を経過し
てから(ステップS125)、図12に示す様なエージ
ェントキャラクタ22を表示して(ステップS12
6)、図6のステップS103に戻る。このとき、入力
エラーをより明確に報知するために、例えば「よくわか
んない〜!」という音声メッセージを発音しても構わな
い。
【0054】また、メモリの変数域Memに文字列が記
憶されていれば(ステップS120で「No」)、図1
3に示す様なエージェントキャラクタ22を表示し(ス
テップS122)、変数域Memの文字列をハードディ
スク等の不揮発性メモリに記憶してから(ステップS1
23)、変数域Memを初期化し(ステップS12
4)、更に利用者の認識時間を経過した後に(ステップ
S125)、図12に示す様なエージェントキャラクタ
22を表示して(ステップS126)、図6のステップ
S103に戻る。このとき、トウロク命令の実行をより
明確に報知するために、例えば「OK。まかせなさい
!」という音声メッセージを発音しても構わない。
【0055】次に、上位システム80は、ヘルプ命令に
対応するコマンド番号CNoをコマンド変換部75から
入力すると(ステップS107で「Yes」)、図8に
示すフローチャートの処理に移り、メモリの変数域Me
mに文字列が記憶されているか否かをチェックし(ステ
ップS130)、記憶されていなければ(ステップS1
30で「Yes」)、図14に示す様なエージェントキ
ャラクタ22を表示し(ステップS131)、利用者の
認識時間を経過した後に(ステップS135)、図12
に示す様なエージェントキャラクタ22を表示して(ス
テップS136)、図6のステップS103に戻る。
【0056】また、メモリの変数域Memに文字列が記
憶されていれば(ステップS130で「No」)、図1
3に示す様なエージェントキャラクタ22を表示し(ス
テップS132)、変数域Memの文字列をパラメータ
として、ヘルププログラムを起動してから(ステップS
133)、変数域Memを初期化し(ステップS13
4)、更に利用者の認識時間を経過した後に(ステップ
S135)、図12に示す様なエージェントキャラクタ
22を表示して(ステップS136)、図6のステップ
S103に戻る。
【0057】次に、上位システム80は、サイセイ命令
に対応するコマンド番号CNoをコマンド変換部75か
ら入力すると(ステップS108で「Yes」)、図9
に示すフローチャートの処理に移り、CDドライブ装置
が既に作動中(音楽CDの再生中)であるか否かをチェ
ックすると共に(ステップS140)、CDがCDドラ
イブ装置に挿入されているか否かをチェックし(ステッ
プS141)、CDドライブ装置が既に作動中であった
り(ステップS140で「Yes」)、CDがCDドラ
イブ装置に挿入されていなければ(ステップS141で
「No」)、図14に示す様なエージェントキャラクタ
22を表示し(ステップS142)、利用者の認識時間
を経過した後に(ステップS145)、図12に示す様
なエージェントキャラクタ22を表示し(ステップS1
46)、更に図16に示す様に変数域Memの内容を表
示画面上のメモ領域21に表示し直してから(ステップ
S147)、図6のステップS103に戻る。
【0058】また、CDドライブ装置が作動しておらず
(ステップS140で「No」)、かつCDがCDドラ
イブ装置に挿入されていれば(ステップS141で「Y
es」)、図13に示す様なエージェントキャラクタ2
2を表示して(ステップS143)、CDドライブ装置
を作動させて、音楽CDの再生を開始し(ステップS1
44)、利用者の認識時間を経過した後に(ステップS
145)、図12に示す様なエージェントキャラクタ2
2を表示し(ステップS146)、更に図16に示す様
に変数域Memの内容を表示画面上のメモ領域21に表
示し直してから(ステップS147)、図6のステップ
S103に戻る。
【0059】次に、上位システム80は、ヘンコウ命令
に対応するコマンド番号CNoをコマンド変換部75か
ら入力すると(ステップS109で「Yes」)、図1
0に示すフローチャートの処理に移り、CDドライブ装
置が作動中であるか否かをチェックし(ステップS15
0)、CDドライブ装置が作動中でなければ(ステップ
S150で「No」)、図14に示す様なエージェント
キャラクタ22を表示し(ステップS151)、利用者
の認識時間を経過した後に(ステップS154)、図1
2に示す様なエージェントキャラクタ22を表示し(ス
テップS155)、更に図16に示す様に変数域Mem
の内容を表示画面上のメモ領域21に表示し直してから
(ステップS156)、図6のステップS103に戻
る。
【0060】また、CDドライブ装置が作動していれば
(ステップS150で「Yes」)、図13に示す様な
エージェントキャラクタ22を表示して(ステップS1
52)、次曲の選択をCDドライブ装置に命令し(ステ
ップS153)、利用者の認識時間を経過した後に(ス
テップS154)、図12に示す様なエージェントキャ
ラクタ22を表示し(ステップS155)、更に図16
に示す様に変数域Memの内容を表示画面上のメモ領域
21に表示し直してから(ステップS156)、図6の
ステップS103に戻る。
【0061】次に、上位システム80は、シュウリョウ
命令に対応するコマンド番号CNoをコマンド変換部7
5から入力すると(ステップS110で「Yes」)、
図11に示すフローチャートの処理に移り、CDドライ
ブ装置が作動中であるか否かをチェックし(ステップS
160)、CDドライブ装置が作動中であれば(ステッ
プS160で「Yes」)、図13に示す様なエージェ
ントキャラクタ22を表示し(ステップS161)、再
生の停止をCDドライブ装置に命令し(ステップS16
2)、利用者の認識時間を経過した後に(ステップS1
65)、図12に示す様なエージェントキャラクタ22
を表示し(ステップS166)、更に図16に示す様に
変数域Memの内容を表示画面上のメモ領域21に表示
し直してから(ステップS167)、図6のステップS
103に戻る。
【0062】また、CDドライブ装置が作動中でなけれ
ば(ステップS160で「No」)、メモリの変数域M
emに文字列が記憶されているか否かをチェックし(ス
テップS163)、記憶されていなければ(ステップS
163で「Yes」)、変数域Memを初期化し(ステ
ップS164)、利用者の認識時間を経過した後に(ス
テップS165)、図12に示す様なエージェントキャ
ラクタ22を表示し(ステップS166)、更に変数域
Memの内容を表示画面上のメモ領域21に表示し直し
てから(ステップS167)、図6のステップS103
に戻る。ただし、このときには、ステップS164で変
数域Memを初期化しているので、ステップS167の
処理に実質的な意味がない。
【0063】また、メモリの変数域Memに文字列が記
憶されていれば(ステップS163で「No」)、図1
5に示す様なエージェントキャラクタ22を表示し(ス
テップS168)、十分な長さの認識時間(先の他の認
識時間よりも長い)を経過した後に(ステップS16
9)、エージェントキャラクタ22を消去し(ステップ
S170)、処理を終了する。
【0064】この様に上位システム80では、入力音声
の認識により特定された文字列や制御情報を受け取っ
て、文字列を表示したり、各種のプログラムを起動する
ことができる。先に述べた様に制御情報の種類が文字列
の種類よりも格段に少ないことから、言語に対応する制
御情報を特定し易い。このため、話者の口の動きが分か
らなくても、音声により各種の命令を正確に入力するこ
とができる。従って、例えば入力ボタン10及びマイク
ロホン4の出力を長いコードやコードレスにより伝送す
れば、音声処理装置から離れた位置からでも、音声によ
り命令を上位システム80に入力することができる。例
えば、寝そべりながら、CDドライブ装置を操作するこ
とが可能になる。
【0065】尚、本発明は、上記実施形態の音声処理装
置だけではなく、音声処理方法、及びその方法を実施す
るためのプログラムを記録した記録媒体を包含する。
【0066】プログラムは、磁気ディスク、光ディス
ク、コンピュータに内蔵のハードディスク等の記録媒体
に記録されたり、通信ネットワークを通じて送受され
る。コンピュータ等は、プログラムを記録媒体から読み
出したり、あるいはプログラムを通信ネットワークを通
じて受信してから、プログラムを記録媒体に書き込んだ
り読み出し、このプログラムを実行して、本発明を実施
することができる。複数のコンピュータやインターネッ
トからなるシステムにおいては、複数の処理を複数の端
末に分散して行い得る。従って、プログラムは、コンピ
ュータ等の単一の端末だけではなく、システムにも適用
し得る。
【0067】記録媒体としては、マスクROM、EPR
OM、EEPROM、フラッシュROMといった半導体
記憶素子、ICカード、ハードディスク、フロッピーデ
ィスク、あるいはMO、CD、MD、DVD等の光ディ
スク、磁気テープ等を挙げることができ、プログラムを
記録することが可能であれば他の種類の記録媒体であっ
ても良い。
【0068】
【発明の効果】以上説明した様に本発明によれば、画像
認識手段による認識結果に基づいて、第1及び第2モー
ドのいずれかを選択し、この選択したモードで音声認識
された言語を用いている。このため、音声認識を2種類
の用途に切り替えることができる。
【0069】また、本発明によれば、第1モードでは、
音声認識された言語を制御情報として用い、第2モード
では、音声認識された言語を文字列として用いている。
従って、音声認識された言語を制御情報及び文字列のい
ずれかとして用いることができる。
【0070】更に、本発明によれば、撮像された画像に
マイクが含まれるか否かに基づいて、話者を認識するの
で、形状や色が分かっているマイクを画像処理により識
別すれば良く、画像処理が簡単化される。
【図面の簡単な説明】
【図1】本発明の音声処理装置の一実施形態を示すブロ
ック図である。
【図2】(a)はマイクロホンが予め設定された画像領
域に入って来た状態を示す図であり、(b)はマイクロ
ホンが画像領域から出て行った状態を示す図である。
【図3】本実施形態の音声処理装置の制御部による制御
を示すフローチャートである。
【図4】本実施形態の音声処理装置の音声認識部による
制御を示すフローチャートである。
【図5】本実施形態の音声処理装置により認識される各
制御情報を例示する図である。
【図6】本実施形態の音声処理装置の上位システムによ
る制御を示すフローチャートである。
【図7】上位システムにおけるトウロク命令の応答処理
を示すフローチャートである。
【図8】上位システムにおけるヘルプ命令の応答処理を
示すフローチャートである。
【図9】上位システムにおけるサイセイ命令の応答処理
を示すフローチャートである。
【図10】上位システムにおけるヘンコウ命令の応答処
理を示すフローチャートである。
【図11】上位システムにおけるシュウリョウ命令の応
答処理を示すフローチャートである。
【図12】上位システムの表示画面に表示される表示オ
ブジェクトの一例を示す図である。
【図13】上位システムの表示画面に表示される表示オ
ブジェクトの他の例を示す図である。
【図14】上位システムの表示画面に表示される表示オ
ブジェクトの別の例を示す図である。
【図15】上位システムの表示画面に表示される表示オ
ブジェクトの更に他の例を示す図である。
【図16】上位システムの表示画面に表示される表示オ
ブジェクトの更に別の例を示す図である。
【図17】一般的なテキスト入力用のウィンドウを例示
する図である。
【符号の説明】
1 CCDカメラ 2 制御部 3 音声入力部 4 マイクロホン 5 音声認識部 6 音声辞書 8 画像入力部 9 画像認識部 10 入力ボタン 70 文字変換部 71 かな漢字辞書 75 コマンド変換部 76 コマンド辞書 80 上位システム
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G10L 15/28 G10L 3/00 571J 571K

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 音声を入力する音声入力手段と、 入力された音声を認識して、この音声によって表される
    言語を出力する音声認識手段と、 音声認識手段の作動を入力指示する入力指示手段と、 話者を撮像するための撮像手段と、 撮像された画像に基づいて、話者を認識する画像認識手
    段と、 指示入力手段によって音声認識手段の作動が指示された
    ときには、画像認識手段による認識結果に基づいて、予
    め設定された第1及び第2モードのいずれかを選択し、
    この選択したモードで音声認識された言語を用いる制御
    手段とを備えることを特徴とする音声処理装置。
  2. 【請求項2】 第1モードでは、音声認識された言語を
    制御情報として用い、第2モードでは、音声認識された
    言語を文字列として用いることを特徴とする請求項1に
    記載の音声処理装置。
  3. 【請求項3】 音声入力手段は、話者が用いるマイクを
    有し、 画像認識手段は、撮像手段によって撮像された画像にマ
    イクが含まれるか否かに基づいて、話者を認識すること
    を特徴とする請求項1に記載の音声処理装置。
  4. 【請求項4】 音声を入力する音声入力ステップと、 入力された音声を認識して、この音声によって表される
    言語を出力する音声認識ステップと、 音声認識の作動を入力指示する入力指示ステップと、 話者を撮像するための撮像ステップと、 撮像された画像に基づいて、話者を認識する画像認識ス
    テップと、 指示入力ステップにおいて音声認識の作動が指示された
    ときには、画像認識ステップにおける認識結果に基づい
    て、予め設定された第1及び第2モードのいずれかを選
    択し、この選択したモードで音声認識された言語を用い
    る制御ステップとを含むことを特徴とする音声処理方
    法。
  5. 【請求項5】 請求項4に記載の音声処理方法を実施す
    るためのプログラムを記録した記録媒体。
JP2001215451A 2001-07-16 2001-07-16 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体 Expired - Fee Related JP4675514B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001215451A JP4675514B2 (ja) 2001-07-16 2001-07-16 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001215451A JP4675514B2 (ja) 2001-07-16 2001-07-16 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体

Publications (3)

Publication Number Publication Date
JP2003029777A true JP2003029777A (ja) 2003-01-31
JP2003029777A5 JP2003029777A5 (ja) 2008-08-28
JP4675514B2 JP4675514B2 (ja) 2011-04-27

Family

ID=19050088

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001215451A Expired - Fee Related JP4675514B2 (ja) 2001-07-16 2001-07-16 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4675514B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005348006A (ja) * 2004-06-02 2005-12-15 Nec Corp 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
JP2009081509A (ja) * 2007-09-25 2009-04-16 Funai Electric Co Ltd デジタル放送受信装置
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置
JP2015525933A (ja) * 2012-07-26 2015-09-07 ゼットティーイー コーポレーションZte Corporation 端末音声補助編集方法及び装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60122430A (ja) * 1984-11-07 1985-06-29 Hitachi Ltd 音声入力装置
JPH08106519A (ja) * 1994-09-01 1996-04-23 Sharp Corp 顔方向判定装置及びそれを用いた画像表示装置
JPH08322796A (ja) * 1995-05-29 1996-12-10 Sharp Corp 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2001013994A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
JP2001129864A (ja) * 1999-08-23 2001-05-15 Meiki Co Ltd 射出成形機の音声入力装置およびその制御方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60122430A (ja) * 1984-11-07 1985-06-29 Hitachi Ltd 音声入力装置
JPH08106519A (ja) * 1994-09-01 1996-04-23 Sharp Corp 顔方向判定装置及びそれを用いた画像表示装置
JPH08322796A (ja) * 1995-05-29 1996-12-10 Sharp Corp 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置
JP2000347692A (ja) * 1999-06-07 2000-12-15 Sanyo Electric Co Ltd 人物検出方法、人物検出装置及びそれを用いた制御システム
JP2001013994A (ja) * 1999-06-30 2001-01-19 Toshiba Corp 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両
JP2001129864A (ja) * 1999-08-23 2001-05-15 Meiki Co Ltd 射出成形機の音声入力装置およびその制御方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005348006A (ja) * 2004-06-02 2005-12-15 Nec Corp 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法
JP4600643B2 (ja) * 2004-06-02 2010-12-15 日本電気株式会社 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法
WO2006080161A1 (ja) * 2005-01-28 2006-08-03 Kyocera Corporation 発声内容認識装置及び発声内容認識方法
JP2006208751A (ja) * 2005-01-28 2006-08-10 Kyocera Corp 発声内容認識装置
KR100931418B1 (ko) * 2005-01-28 2009-12-11 교세라 가부시키가이샤 발성 내용 인식 장치 및 발성 내용 인식 방법
US7979276B2 (en) 2005-01-28 2011-07-12 Kyocera Corporation Speech recognition apparatus and speech recognition method
CN101111886B (zh) * 2005-01-28 2011-11-16 京瓷株式会社 发声内容识别装置与发声内容识别方法
JP2009081509A (ja) * 2007-09-25 2009-04-16 Funai Electric Co Ltd デジタル放送受信装置
JP2011070224A (ja) * 2010-12-24 2011-04-07 Kyocera Corp 発声内容認識装置
JP2015525933A (ja) * 2012-07-26 2015-09-07 ゼットティーイー コーポレーションZte Corporation 端末音声補助編集方法及び装置

Also Published As

Publication number Publication date
JP4675514B2 (ja) 2011-04-27

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
US20190027144A1 (en) Method for controlling speech-recognition text-generation system and method for controlling mobile terminal
JP6134803B2 (ja) 映像記録装置およびカメラ機能制御プログラム
US5953008A (en) Source file editing apparatus
JP4031255B2 (ja) ジェスチャコマンド入力装置
WO2005094437A2 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP7406874B2 (ja) 電子機器、その制御方法、およびそのプログラム
JP2003264786A (ja) デジタルビデオ編集装置および方法
JP2008145693A (ja) 情報処理装置及び情報処理方法
JP2003029777A (ja) 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体
WO2020044479A1 (ja) 情報処理装置及び情報処理方法
JP6314272B2 (ja) 映像記録装置および映像記録方法
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
JP4904691B2 (ja) カメラ装置、及び撮影方法
US11570349B2 (en) Image pickup apparatus that controls operations based on voice, control method, and storage medium
JP4235635B2 (ja) データ検索装置及びその制御方法
CN108735212A (zh) 语音控制方法及装置
JP6794872B2 (ja) 音声取引システムおよび連携制御装置
JP2000155595A (ja) 撮像装置
JP3698635B2 (ja) 音声認識処理装置
WO2024093512A1 (zh) 对象处理方法、装置、电子设备以及可读存储介质
JP2006310967A (ja) 情報記録装置および情報記録システム
JP2000069348A (ja) 撮像装置
JPH07219591A (ja) 音声処理装置および方法
JP2000076241A (ja) 音声認識装置及び音声入力方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080710

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080710

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101015

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20101015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110126

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees