JP2003029777A - 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体 - Google Patents
音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体Info
- Publication number
- JP2003029777A JP2003029777A JP2001215451A JP2001215451A JP2003029777A JP 2003029777 A JP2003029777 A JP 2003029777A JP 2001215451 A JP2001215451 A JP 2001215451A JP 2001215451 A JP2001215451 A JP 2001215451A JP 2003029777 A JP2003029777 A JP 2003029777A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- language
- input
- recognition
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
として使い分けることが可能な音声処理装置を提供す
る。 【解決手段】CCDカメラ1により話者が撮像されてい
ないときには、制御部2により第1変換モードを設定
し、マイクロホン4から音声を入力し、この音声によっ
て示される言語を音声認識部5により認識して、この言
語に対応する制御情報をコマンド変換部75により検索
し、またCCDカメラ1により話者が撮像されたときに
は、第2変換モードを設定し、音声によって示される言
語を認識して、この言語に対応する文字列を文字変換部
70により検索しているので、音声認識に基づく言語を
文字列及び制御情報等として使い分けることができる。
Description
の音声によって表される言語を認識するための音声処理
装置、音声処理方法、及びその方法を実施するためのプ
ログラムを記録した記録媒体に関する。
力を指示するためのボタンを押下している間に、音声を
マイクロホンを通じて入力し、この入力された音声を認
識して、言語を出力していた。これにより、ボタンを押
下していないときには、雑音をマイクロホンを通じて入
力したり認識せずに済む。
載の装置では、CCDカメラによって話者が撮像されて
いる間に、音声の入力と認識を行い、これにより雑音の
入力及び認識を防止している。あるいは、撮像された話
者の口元の動きを音声認識のための補助情報として利用
し、音声認識率の向上を図っている。
コンピュータ等の情報処理端末装置においては、音声認
識の結果を文字列や制御情報として用いることが考えら
れる。しかしながら、従来は、音声認識の結果の用途を
切り替ていなかった。
スト入力用のウィンドウ201においては、カーソル2
02、ウインドウ201の最小化を示す操作アイコン2
03、ウインドウ201の最大化を示す操作アイコン2
04、ウィンドウ201の終了を示す操作アイコン20
5等が表示されており、所望の文字列がウインドウ20
1内に記入される。
イクロホンを通じて入力するだけで、この音声によって
示される言語が文字列となってウインドウ201内に記
入される。
及び制御情報のいずれにも用いるならば、先に述べた様
に音声認識の結果の用途を切り替ていないために、例え
ば「SAIDAIKA」という音声を入力したときに、
この音声によって示される言語を「最大化」という文字
列として扱うべきか、最大化を示す操作アイコン204
を指示する制御情報として扱うべきかを特定することが
できなかった。
みてなされたものであり、音声認識に基づく言語を文字
列及び制御情報等として使い分けることが可能な音声処
理装置、音声処理方法、及びその方法を実施するための
プログラムを記録した記録媒体を提供することを目的と
する。
に、本発明の音声処理装置は、音声を入力する音声入力
手段と、入力された音声を認識して、この音声によって
表される言語を出力する音声認識手段と、音声認識手段
の作動を入力指示する入力指示手段と、話者を撮像する
ための撮像手段と、撮像された画像に基づいて、話者を
認識する画像認識手段と、指示入力手段によって音声認
識手段の作動が指示されたときには、画像認識手段によ
る認識結果に基づいて、予め設定された第1及び第2モ
ードのいずれかを選択し、この選択したモードで音声認
識された言語を用いる制御手段とを備えている。
手段による認識結果に基づいて、第1及び第2モードの
いずれかを選択し、この選択したモードで音声認識され
た言語を用いている。このため、音声認識を2種類の用
途に切り替えることができる。
ドでは、音声認識された言語を制御情報として用い、第
2モードでは、音声認識された言語を文字列として用い
ている。
び文字列のいずれかとして用いることができる。
手段は、話者が用いるマイクを有し、画像認識手段は、
撮像手段によって撮像された画像にマイクが含まれるか
否かに基づいて、話者を認識している。
るか否かに基づいて、話者を認識するのであれば、形状
や色が分かっているマイクを画像処理により識別すれば
良いので、画像処理が簡単化される。
力する音声入力ステップと、入力された音声を認識し
て、この音声によって表される言語を出力する音声認識
ステップと、音声認識の作動を入力指示する入力指示ス
テップと、話者を撮像するための撮像ステップと、撮像
された画像に基づいて、話者を認識する画像認識ステッ
プと、指示入力ステップにおいて音声認識の作動が指示
されたときには、画像認識ステップにおける認識結果に
基づいて、予め設定された第1及び第2モードのいずれ
かを選択し、この選択したモードで音声認識された言語
を用いる制御ステップとを含んでいる。
識の結果を2種類の用途に切り替えて用いることができ
る。
方法を実施するためのプログラムを記録している。
声処理方法だけではなく、この方法を実施するためのプ
ログラムを記録した記録媒体を包含する。この様な記録
媒体を用いれば、本発明の情報処理装置及び情報処理方
法と同様の作用並びに効果を達成することができる。
PROM、EEPROM、フラッシュROMといった半
導体記憶素子、ICカード、ハードディスク、フロッピ
ー(登録商標)ディスク、あるいはMO、CD、MD、
DVD等の光ディスク、磁気テープ等を挙げることがで
き、プログラムを記録することが可能であれば他の種類
の記録媒体であっても良い。
面を参照して詳細に説明する。
態を示すブロック図である。本実施形態の音声処理装置
は、音声を入力するマイクロホン4と、マイクロホン4
からの音声信号を入力する音声入力部3と、各種の音声
に対応するそれぞれの言語を予め登録した音声辞書6
と、音声信号によって示される入力音声を音声辞書6内
の各種の音声と照合し、入力音声に対応する言語を音声
辞書6から検索する音声認識部5と、音声認識部5の作
動を指示するための入力ボタン10と、話者を撮像する
ためのCCDカメラ1と、CCDカメラ1からの画像を
入力する画像入力部8と、画像に基づいて、話者が居る
か否かを判定したり、話者の口元の動きの有無を判定す
る画像認識部9と、入力ボタン10の出力及び画像認識
部9の出力に基づいて、音声入力部3及び音声認識部5
を制御する制御部2と、各種の言語に対応するそれぞれ
の文字列を予め登録したかな漢字辞書71と、音声認識
部5により認識された言語を受け取り、この言語をかな
漢字辞書71内の各種の言語と照合し、この言語に対応
する文字列をかな漢字辞書71から検索する文字変換部
70と、各種の言語に対応するそれぞれの制御情報を予
め登録したコマンド辞書76と、音声認識部5により認
識された言語を受け取り、この言語をコマンド辞書76
内の各種の言語と照合し、この言語に対応する制御情報
をコマンド辞書76から検索するコマンド変換部75と
を備えている。
によって撮像された画像を画像入力部8を通じて受け取
り、この画像に話者が入っているか否かを判定する。例
えば、音声入力に際しては、話者がマイクロホン4を装
着していることに着目し、画像においてマイクロホン4
をその形状や色等により認識し、図2(a)に示す様に
マイクロホン4が予め設定された画像領域11に入って
いるか、あるいは図2(b)に示す様にマイクロホン4
が画像領域11に入っていないかを判定する。そして、
画像認識部9は、マイクロホン4を話者とみなし、マイ
クロホン4が画像領域11に入っているか否か、つまり
話者が入っているか否かを制御部2に通知する。また、
画像認識部9は、話者が入っていれば、話者の口元を画
像から抽出して、この口元の動きの有無を判定し、口元
の動きの有無を制御部2に通知する。
像認識部9から通知されると、第1変換モードを音声認
識部5に指示し、話者が入っていることを画像認識部9
から通知されると、第2変換モードを音声認識部5に指
示する。
認識部5に指示した上で、入力ボタン10が押下される
と、音声入力部3を作動させ、音声を音声認識部5に入
力させる。音声認識部5は、入力音声に対応する言語を
音声辞書6から検索し、第1変換モードの指示を受けて
いることから、この検索した言語をコマンド変換部75
に通知する。コマンド変換部75は、この言語に対応す
る制御情報をコマンド辞書76から検索して、この制御
情報を上位システム80に通知する。上位システム80
では、この制御情報に対応する処理を実行する。
認識部5に指示した上で、更に口元の動きが有ることを
画像認識部9から通知されるか、入力ボタン10が押下
されると、音声入力部3を作動させ、音声を音声認識部
5に入力させる。音声認識部5は、入力音声に対応する
言語を音声辞書6から検索し、第2変換モードの指示を
受けていることから、この検索した言語を文字変換部7
0に通知する。文字変換部70は、この言語に対応する
文字列をかな漢字辞書71から検索して、この文字列を
上位システム80に通知する。上位システム80では、
例えば該文字列を表示装置の表示画面上に表示する。
た画像に基づいて、話者が入っていないと判定される
と、第1変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム8
0に通知される。また、CCDカメラ1によって撮像さ
れた画像に基づいて、話者が入っていると判定される
と、第2変換モードが設定され、音声認識が行われて、
入力音声に対応する言語が検索され、この言語に対応す
る文字列が検索され、この文字列が上位システム80に
通知される。
て、音声処理装置の制御部2による制御を更に詳しく説
明する。
と、制御部2は、変数VONを音声入力部3の作動を示
す値「1」に初期設定すると共に、変数Modeを第1
変換モードを示す値「0」に初期設定する(ステップS
1)。
「1」であるから、音声入力部3を作動させ、また変数
Modeが値「0」であるから、第1変換モードを音声
認識部5に指示する。これにより、第1変換モードが設
定されて、音声認識が行われ、入力音声に対応する言語
が検索され、この言語がコマンド変換部75に通知さ
れ、ここで該言語に対応する制御情報が検索され、この
制御情報が上位システム80に通知される。
テップS2で「Yes」)、制御部2は、変数VONを
値「0」に反転し(ステップS3)、この変数VONの
値「0」に応じて(ステップS4で「No」)、音声入
力部3を停止させる(ステップS6)。
たときには(ステップS2で「Yes」)、変数VON
が値「1」に反転される(ステップS3)。制御部2
は、この変数VONの値「1」に応じて(ステップS4
で「Yes」)、音声入力部3を再び作動させる(ステ
ップS5)。これにより、音声認識が再び開始されて、
入力音声に対応する言語が検索され、この言語に対応す
る制御情報が検索され、この制御情報が上位システム8
0に通知される。
に、音声認識が行われたり停止される。また、変数Mo
deが値「0」に設定されているときには、第1変換モ
ードの動作、つまり入力音声に対応する言語の検索、こ
の言語に対応する制御情報の検索、上位システム80へ
の該制御情報の通知が行われる。
(ステップS2で「No」)、制御部2は、話者が入っ
ているか否かの通知を画像認識部9から受け、この通知
に基づいて、話者の出入りの有無を判定する(ステップ
S7)。そして、話者の出入りが有れば(ステップS7
で「Yes」)、制御部2は、変数VONが音声入力部
3の作動を示す値「1」に設定されているか否かを判定
し(ステップS8)、変数VONが値「1」に設定され
ていれば(ステップS8で「Yes」)、音声入力部3
からの音声信号のレベルが予め設定されたレベルに低下
するまで待機してから(ステップS9)、変数Mode
の値を反転する(ステップS10)。この待機により、
音声入力部3の作動中に、つまり音声の入力中に、変数
Modeの値が反転されて、第1及び第2変換モードの
切り換えが行われずに済む。また、変数VONが音声入
力部3の停止を示す値「0」に設定されていれば(ステ
ップS8で「No」)、音声が入力されていないので、
ステップS9を省略して、変数Modeの値を直ちに反
転する(ステップS10)。
odeの値が「1」に反転され、話者が出て行くと、変
数Modeの値が「0」に反転され、第1及び第2変換
モードのいずれかが音声認識部5に指示される(ステッ
プS11)。
(ステップS2で「Yes」)、制御部2は、変数VO
Nの値を反転し(ステップS3)、変数VONの値が
「0」であれば(ステップS4で「No」)、音声入力
部3を停止させ(ステップS6)、また変数VONの値
が「1」であれば(ステップS4で「Yes」)、音声
入力部3を作動させる(ステップS5)。そして、音声
入力部3の作動に際しては、変数Modeが値「0」で
あって、第1変換モードが設定されていれば、入力音声
に対応する言語の検索、この言語に対応する制御情報の
検索、上位システム80への該制御情報の通知が行われ
る。また、変数Modeが値「1」であって、第2変換
モードが設定されていれば、入力音声に対応する言語が
検索され、この言語が文字変換部70に通知され、ここ
で該言語に対応する文字列が検索され、この文字列が上
位システム80に通知される。
ップS2で「No」)、更に話者の出入りが無ければ
(ステップS7で「No」)、制御部2は、変数Mod
eが第2変換モードを示す値「1」であるか否かを判定
する(ステップS12)。そして、制御部2は、変数M
odeが第2変換モードを示す値「1」であれば、つま
り話者が入ったままの状態が継続されていれば、口元の
動きが開始されたことを画像認識部9から通知されたと
きに(ステップS13で「Yes」)、変数VONが値
「1」であることを確認し(ステップS14)、値
「1」でなければ(ステップS14で「No」)、音声
入力部3を作動させて、変数VONを値「1」に反転し
てから(ステップS15、S16)、ステップS2に戻
る。これにより、音声認識が開始されて、入力音声に対
応する言語が検索され、この言語が文字変換部70に通
知され、ここで該言語に対応する文字列が検索され、こ
の文字列が上位システム80に通知される。
と(ステップS17で「Yes」)、変数VONが値
「0」であることを確認し(ステップS18)、値
「0」でなければ(ステップS18で「No」)、音声
入力部3を停止させて、変数VONを値「0」に反転し
てから(ステップS19、S20)、ステップS2に戻
る。
2で「No」)、話者が入ったままの状態が継続されて
いる限り(ステップS7で「No」、ステップS12で
「Yes」)、口元の動きが開始されたときに、ステッ
プS13〜S16の処理が行われて、入力音声に対応す
る言語が検索され、この言語に対応する文字列が検索さ
れ、この文字列が上位システム80に通知される。ま
た、口元の動きが停止すると、ステップS17〜S20
の処理が行われ、音声認識が中断される。
変換モードを設定し、入力音声によって示される言語を
認識して、この言語に対応する文字列を検索し、また話
者が出て行ったときには、第1変換モードを設定し、入
力音声によって示される言語を認識して、この言語に対
応する制御情報を検索しているので、音声認識に基づく
言語を文字列及び制御情報等として容易に使い分けるこ
とができる。
も格段に少ないことに着目して、入力ボタン10の操作
により制御情報を示す音声の入力期間を指定している。
つまり、入力ボタン10の操作により指示された音声の
入力期間(音声入力部3の作動期間)が実際の音声の発
声期間と多少ずれて、言語の認識に誤差が生じたとして
も、制御情報の種類が少ないので、言語に対応する制御
情報を特定し易い。これに対して言語に対応する文字列
を特定する場合は、文字列の種類が格段に多いことか
ら、話者の口が動いている期間を正確に検出して、音声
の入力期間を実際の音声の発声期間と正確に一致させ、
言語の認識率を高めて、文字列の識別精度を高めてい
る。
認識の結果を制御情報及び文字列のいずれとして用いる
かを決定しておらず、例えば音声認識の結果が制御情報
に該当しなければ、この音声認識の結果を文字列として
扱ったり、逆に音声認識の結果が文字列に該当しなけれ
ば、この音声認識の結果を制御情報として扱っていた。
このため、同等の処理を繰り返すことがあり、装置全体
としての使用効率が悪かった。
て、音声処理装置の音声認識部5による制御を詳しく説
明する。
1変換モードを示す値「0」に初期設定する(ステップ
S50)。そして、音声認識部5は、変数Modeの値
を制御部2から指示されると(ステップS51で「Ye
s」)、この指示に応じて変数Modeの値を切換える
(ステップS52)。また、音声認識部5は、音声入力
部3からの音声信号を入力すると(ステップS53で
「Yes」)、この音声信号によって示される音声を認
識し、この音声に対応する言語を音声辞書6から検索す
る(ステップS54)。そして、音声認識部5は、変数
Modeの値を参照し、この値が「0」であれば(ステ
ップS55で「Yes」)、第1変換モードが指示され
ているので、検索した言語をコマンド変換部75に通知
し(ステップS57)、また該値が「1」であれば(ス
テップS55で「No」)、第2変換モードが指示され
ているので、検索した言語を文字変換部70に通知する
(ステップS56)。
容を例示している。ここでは、制御情報として、トウロ
ク命令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シ
ュウリョウ命令があり、各命令毎に、命令を示す複数の
言語が登録され、また該各命令に対応するそれぞれのコ
マンド番号CNoが登録されている。
の言語を受け取ると、この言語をコマンド辞書76内の
各種の言語と照合し、この言語に対応する命令のコマン
ド番号CNoを検索し、このコマンド番号CNoを上位
システム80に通知する。
り複雑な形式を有している。また、登録内容を複数の上
位システムにより共用し、それぞれの上位システムが登
録内容のうちから使用するコマンド群を指定しても構わ
ない。
憶したり、コマンド番号CNoに応じて、各種のデバイ
スや各種のプログラムを起動しており、これらの処理の
度に、図12乃至図16に示す様なエージェントキャラ
クタ(表示オブジェクト)を表示画面に表示する。
すフローチャートである。
入されると、文字列を記憶するメモリの変数域Memを
初期化し、図12に示す様に表示画面上のメモ領域21
及びエージェントキャラクタ22を初期化する(ステッ
プS101、S102)。そして、上位システム80
は、文字変換部70からの文字列及びコマンド変換部7
5からの制御情報を入力するまで待機する。
字変換部70から入力すると(ステップS103で「Y
es」)、この文字列をメモリの変数域Memに追加し
て記録し(ステップS104)、また該文字列を表示画
面上のメモ領域21に追加して表示し(ステップS10
5)、この後にステップS103に戻る。
令、ヘルプ命令、サイセイ命令、ヘンコウ命令、シュウ
リョウ命令のいずれかに対応するコマンド番号CNoを
コマンド変換部75から入力すると(ステップS106
〜S110のいずれかで「Yes」)、図7乃至図11
に示す各フローチャートの処理のいずれかに移る。
6に予め登録されている場合は、ステップS106〜S
110に引き続く他の各判定ステップS111と、これ
らの判定ステップから移行するそれぞれの処理が予め設
定される。他のコマンドとしては、文字の削除、カーソ
ルの移動、文字の編集等を命令するものがある。
令に対応するコマンド番号CNoをコマンド変換部75
から入力すると(ステップS106で「Yes」)、図
7に示すフローチャートの処理に移り、メモリの変数域
Memに文字列が記憶されているか否かをチェックし
(ステップS120)、記憶されていなければ(ステッ
プS120で「Yes」)、図14に示す様なエージェ
ントキャラクタ22を表示し(ステップS121)、利
用者が認識するのに要する時間(例えば1秒)を経過し
てから(ステップS125)、図12に示す様なエージ
ェントキャラクタ22を表示して(ステップS12
6)、図6のステップS103に戻る。このとき、入力
エラーをより明確に報知するために、例えば「よくわか
んない〜!」という音声メッセージを発音しても構わな
い。
憶されていれば(ステップS120で「No」)、図1
3に示す様なエージェントキャラクタ22を表示し(ス
テップS122)、変数域Memの文字列をハードディ
スク等の不揮発性メモリに記憶してから(ステップS1
23)、変数域Memを初期化し(ステップS12
4)、更に利用者の認識時間を経過した後に(ステップ
S125)、図12に示す様なエージェントキャラクタ
22を表示して(ステップS126)、図6のステップ
S103に戻る。このとき、トウロク命令の実行をより
明確に報知するために、例えば「OK。まかせなさい
!」という音声メッセージを発音しても構わない。
対応するコマンド番号CNoをコマンド変換部75から
入力すると(ステップS107で「Yes」)、図8に
示すフローチャートの処理に移り、メモリの変数域Me
mに文字列が記憶されているか否かをチェックし(ステ
ップS130)、記憶されていなければ(ステップS1
30で「Yes」)、図14に示す様なエージェントキ
ャラクタ22を表示し(ステップS131)、利用者の
認識時間を経過した後に(ステップS135)、図12
に示す様なエージェントキャラクタ22を表示して(ス
テップS136)、図6のステップS103に戻る。
憶されていれば(ステップS130で「No」)、図1
3に示す様なエージェントキャラクタ22を表示し(ス
テップS132)、変数域Memの文字列をパラメータ
として、ヘルププログラムを起動してから(ステップS
133)、変数域Memを初期化し(ステップS13
4)、更に利用者の認識時間を経過した後に(ステップ
S135)、図12に示す様なエージェントキャラクタ
22を表示して(ステップS136)、図6のステップ
S103に戻る。
に対応するコマンド番号CNoをコマンド変換部75か
ら入力すると(ステップS108で「Yes」)、図9
に示すフローチャートの処理に移り、CDドライブ装置
が既に作動中(音楽CDの再生中)であるか否かをチェ
ックすると共に(ステップS140)、CDがCDドラ
イブ装置に挿入されているか否かをチェックし(ステッ
プS141)、CDドライブ装置が既に作動中であった
り(ステップS140で「Yes」)、CDがCDドラ
イブ装置に挿入されていなければ(ステップS141で
「No」)、図14に示す様なエージェントキャラクタ
22を表示し(ステップS142)、利用者の認識時間
を経過した後に(ステップS145)、図12に示す様
なエージェントキャラクタ22を表示し(ステップS1
46)、更に図16に示す様に変数域Memの内容を表
示画面上のメモ領域21に表示し直してから(ステップ
S147)、図6のステップS103に戻る。
(ステップS140で「No」)、かつCDがCDドラ
イブ装置に挿入されていれば(ステップS141で「Y
es」)、図13に示す様なエージェントキャラクタ2
2を表示して(ステップS143)、CDドライブ装置
を作動させて、音楽CDの再生を開始し(ステップS1
44)、利用者の認識時間を経過した後に(ステップS
145)、図12に示す様なエージェントキャラクタ2
2を表示し(ステップS146)、更に図16に示す様
に変数域Memの内容を表示画面上のメモ領域21に表
示し直してから(ステップS147)、図6のステップ
S103に戻る。
に対応するコマンド番号CNoをコマンド変換部75か
ら入力すると(ステップS109で「Yes」)、図1
0に示すフローチャートの処理に移り、CDドライブ装
置が作動中であるか否かをチェックし(ステップS15
0)、CDドライブ装置が作動中でなければ(ステップ
S150で「No」)、図14に示す様なエージェント
キャラクタ22を表示し(ステップS151)、利用者
の認識時間を経過した後に(ステップS154)、図1
2に示す様なエージェントキャラクタ22を表示し(ス
テップS155)、更に図16に示す様に変数域Mem
の内容を表示画面上のメモ領域21に表示し直してから
(ステップS156)、図6のステップS103に戻
る。
(ステップS150で「Yes」)、図13に示す様な
エージェントキャラクタ22を表示して(ステップS1
52)、次曲の選択をCDドライブ装置に命令し(ステ
ップS153)、利用者の認識時間を経過した後に(ス
テップS154)、図12に示す様なエージェントキャ
ラクタ22を表示し(ステップS155)、更に図16
に示す様に変数域Memの内容を表示画面上のメモ領域
21に表示し直してから(ステップS156)、図6の
ステップS103に戻る。
命令に対応するコマンド番号CNoをコマンド変換部7
5から入力すると(ステップS110で「Yes」)、
図11に示すフローチャートの処理に移り、CDドライ
ブ装置が作動中であるか否かをチェックし(ステップS
160)、CDドライブ装置が作動中であれば(ステッ
プS160で「Yes」)、図13に示す様なエージェ
ントキャラクタ22を表示し(ステップS161)、再
生の停止をCDドライブ装置に命令し(ステップS16
2)、利用者の認識時間を経過した後に(ステップS1
65)、図12に示す様なエージェントキャラクタ22
を表示し(ステップS166)、更に図16に示す様に
変数域Memの内容を表示画面上のメモ領域21に表示
し直してから(ステップS167)、図6のステップS
103に戻る。
ば(ステップS160で「No」)、メモリの変数域M
emに文字列が記憶されているか否かをチェックし(ス
テップS163)、記憶されていなければ(ステップS
163で「Yes」)、変数域Memを初期化し(ステ
ップS164)、利用者の認識時間を経過した後に(ス
テップS165)、図12に示す様なエージェントキャ
ラクタ22を表示し(ステップS166)、更に変数域
Memの内容を表示画面上のメモ領域21に表示し直し
てから(ステップS167)、図6のステップS103
に戻る。ただし、このときには、ステップS164で変
数域Memを初期化しているので、ステップS167の
処理に実質的な意味がない。
憶されていれば(ステップS163で「No」)、図1
5に示す様なエージェントキャラクタ22を表示し(ス
テップS168)、十分な長さの認識時間(先の他の認
識時間よりも長い)を経過した後に(ステップS16
9)、エージェントキャラクタ22を消去し(ステップ
S170)、処理を終了する。
の認識により特定された文字列や制御情報を受け取っ
て、文字列を表示したり、各種のプログラムを起動する
ことができる。先に述べた様に制御情報の種類が文字列
の種類よりも格段に少ないことから、言語に対応する制
御情報を特定し易い。このため、話者の口の動きが分か
らなくても、音声により各種の命令を正確に入力するこ
とができる。従って、例えば入力ボタン10及びマイク
ロホン4の出力を長いコードやコードレスにより伝送す
れば、音声処理装置から離れた位置からでも、音声によ
り命令を上位システム80に入力することができる。例
えば、寝そべりながら、CDドライブ装置を操作するこ
とが可能になる。
置だけではなく、音声処理方法、及びその方法を実施す
るためのプログラムを記録した記録媒体を包含する。
ク、コンピュータに内蔵のハードディスク等の記録媒体
に記録されたり、通信ネットワークを通じて送受され
る。コンピュータ等は、プログラムを記録媒体から読み
出したり、あるいはプログラムを通信ネットワークを通
じて受信してから、プログラムを記録媒体に書き込んだ
り読み出し、このプログラムを実行して、本発明を実施
することができる。複数のコンピュータやインターネッ
トからなるシステムにおいては、複数の処理を複数の端
末に分散して行い得る。従って、プログラムは、コンピ
ュータ等の単一の端末だけではなく、システムにも適用
し得る。
OM、EEPROM、フラッシュROMといった半導体
記憶素子、ICカード、ハードディスク、フロッピーデ
ィスク、あるいはMO、CD、MD、DVD等の光ディ
スク、磁気テープ等を挙げることができ、プログラムを
記録することが可能であれば他の種類の記録媒体であっ
ても良い。
認識手段による認識結果に基づいて、第1及び第2モー
ドのいずれかを選択し、この選択したモードで音声認識
された言語を用いている。このため、音声認識を2種類
の用途に切り替えることができる。
音声認識された言語を制御情報として用い、第2モード
では、音声認識された言語を文字列として用いている。
従って、音声認識された言語を制御情報及び文字列のい
ずれかとして用いることができる。
マイクが含まれるか否かに基づいて、話者を認識するの
で、形状や色が分かっているマイクを画像処理により識
別すれば良く、画像処理が簡単化される。
ック図である。
域に入って来た状態を示す図であり、(b)はマイクロ
ホンが画像領域から出て行った状態を示す図である。
を示すフローチャートである。
制御を示すフローチャートである。
制御情報を例示する図である。
る制御を示すフローチャートである。
を示すフローチャートである。
示すフローチャートである。
を示すフローチャートである。
理を示すフローチャートである。
答処理を示すフローチャートである。
ブジェクトの一例を示す図である。
ブジェクトの他の例を示す図である。
ブジェクトの別の例を示す図である。
ブジェクトの更に他の例を示す図である。
ブジェクトの更に別の例を示す図である。
する図である。
Claims (5)
- 【請求項1】 音声を入力する音声入力手段と、 入力された音声を認識して、この音声によって表される
言語を出力する音声認識手段と、 音声認識手段の作動を入力指示する入力指示手段と、 話者を撮像するための撮像手段と、 撮像された画像に基づいて、話者を認識する画像認識手
段と、 指示入力手段によって音声認識手段の作動が指示された
ときには、画像認識手段による認識結果に基づいて、予
め設定された第1及び第2モードのいずれかを選択し、
この選択したモードで音声認識された言語を用いる制御
手段とを備えることを特徴とする音声処理装置。 - 【請求項2】 第1モードでは、音声認識された言語を
制御情報として用い、第2モードでは、音声認識された
言語を文字列として用いることを特徴とする請求項1に
記載の音声処理装置。 - 【請求項3】 音声入力手段は、話者が用いるマイクを
有し、 画像認識手段は、撮像手段によって撮像された画像にマ
イクが含まれるか否かに基づいて、話者を認識すること
を特徴とする請求項1に記載の音声処理装置。 - 【請求項4】 音声を入力する音声入力ステップと、 入力された音声を認識して、この音声によって表される
言語を出力する音声認識ステップと、 音声認識の作動を入力指示する入力指示ステップと、 話者を撮像するための撮像ステップと、 撮像された画像に基づいて、話者を認識する画像認識ス
テップと、 指示入力ステップにおいて音声認識の作動が指示された
ときには、画像認識ステップにおける認識結果に基づい
て、予め設定された第1及び第2モードのいずれかを選
択し、この選択したモードで音声認識された言語を用い
る制御ステップとを含むことを特徴とする音声処理方
法。 - 【請求項5】 請求項4に記載の音声処理方法を実施す
るためのプログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001215451A JP4675514B2 (ja) | 2001-07-16 | 2001-07-16 | 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001215451A JP4675514B2 (ja) | 2001-07-16 | 2001-07-16 | 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2003029777A true JP2003029777A (ja) | 2003-01-31 |
JP2003029777A5 JP2003029777A5 (ja) | 2008-08-28 |
JP4675514B2 JP4675514B2 (ja) | 2011-04-27 |
Family
ID=19050088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001215451A Expired - Fee Related JP4675514B2 (ja) | 2001-07-16 | 2001-07-16 | 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4675514B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005348006A (ja) * | 2004-06-02 | 2005-12-15 | Nec Corp | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
WO2006080161A1 (ja) * | 2005-01-28 | 2006-08-03 | Kyocera Corporation | 発声内容認識装置及び発声内容認識方法 |
JP2009081509A (ja) * | 2007-09-25 | 2009-04-16 | Funai Electric Co Ltd | デジタル放送受信装置 |
JP2011070224A (ja) * | 2010-12-24 | 2011-04-07 | Kyocera Corp | 発声内容認識装置 |
JP2015525933A (ja) * | 2012-07-26 | 2015-09-07 | ゼットティーイー コーポレーションZte Corporation | 端末音声補助編集方法及び装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60122430A (ja) * | 1984-11-07 | 1985-06-29 | Hitachi Ltd | 音声入力装置 |
JPH08106519A (ja) * | 1994-09-01 | 1996-04-23 | Sharp Corp | 顔方向判定装置及びそれを用いた画像表示装置 |
JPH08322796A (ja) * | 1995-05-29 | 1996-12-10 | Sharp Corp | 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置 |
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
JP2001013994A (ja) * | 1999-06-30 | 2001-01-19 | Toshiba Corp | 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両 |
JP2001129864A (ja) * | 1999-08-23 | 2001-05-15 | Meiki Co Ltd | 射出成形機の音声入力装置およびその制御方法 |
-
2001
- 2001-07-16 JP JP2001215451A patent/JP4675514B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60122430A (ja) * | 1984-11-07 | 1985-06-29 | Hitachi Ltd | 音声入力装置 |
JPH08106519A (ja) * | 1994-09-01 | 1996-04-23 | Sharp Corp | 顔方向判定装置及びそれを用いた画像表示装置 |
JPH08322796A (ja) * | 1995-05-29 | 1996-12-10 | Sharp Corp | 視線方向検出方法及び装置及びそれを含むマンマシンインターフェース装置 |
JP2000347692A (ja) * | 1999-06-07 | 2000-12-15 | Sanyo Electric Co Ltd | 人物検出方法、人物検出装置及びそれを用いた制御システム |
JP2001013994A (ja) * | 1999-06-30 | 2001-01-19 | Toshiba Corp | 複数搭乗者機器用音声制御装置、複数搭乗者機器用音声制御方法及び車両 |
JP2001129864A (ja) * | 1999-08-23 | 2001-05-15 | Meiki Co Ltd | 射出成形機の音声入力装置およびその制御方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005348006A (ja) * | 2004-06-02 | 2005-12-15 | Nec Corp | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
JP4600643B2 (ja) * | 2004-06-02 | 2010-12-15 | 日本電気株式会社 | 文字表示機能を有するテレビ電話装置及びテレビ電話装置における音声の文字変換表示方法 |
WO2006080161A1 (ja) * | 2005-01-28 | 2006-08-03 | Kyocera Corporation | 発声内容認識装置及び発声内容認識方法 |
JP2006208751A (ja) * | 2005-01-28 | 2006-08-10 | Kyocera Corp | 発声内容認識装置 |
KR100931418B1 (ko) * | 2005-01-28 | 2009-12-11 | 교세라 가부시키가이샤 | 발성 내용 인식 장치 및 발성 내용 인식 방법 |
US7979276B2 (en) | 2005-01-28 | 2011-07-12 | Kyocera Corporation | Speech recognition apparatus and speech recognition method |
CN101111886B (zh) * | 2005-01-28 | 2011-11-16 | 京瓷株式会社 | 发声内容识别装置与发声内容识别方法 |
JP2009081509A (ja) * | 2007-09-25 | 2009-04-16 | Funai Electric Co Ltd | デジタル放送受信装置 |
JP2011070224A (ja) * | 2010-12-24 | 2011-04-07 | Kyocera Corp | 発声内容認識装置 |
JP2015525933A (ja) * | 2012-07-26 | 2015-09-07 | ゼットティーイー コーポレーションZte Corporation | 端末音声補助編集方法及び装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4675514B2 (ja) | 2011-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0887788B1 (en) | Voice recognition apparatus for converting voice data present on a recording medium into text data | |
US20190027144A1 (en) | Method for controlling speech-recognition text-generation system and method for controlling mobile terminal | |
JP6134803B2 (ja) | 映像記録装置およびカメラ機能制御プログラム | |
US5953008A (en) | Source file editing apparatus | |
JP4031255B2 (ja) | ジェスチャコマンド入力装置 | |
WO2005094437A2 (en) | System and method for automatically cataloguing data by utilizing speech recognition procedures | |
JP7406874B2 (ja) | 電子機器、その制御方法、およびそのプログラム | |
JP2003264786A (ja) | デジタルビデオ編集装置および方法 | |
JP2008145693A (ja) | 情報処理装置及び情報処理方法 | |
JP2003029777A (ja) | 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録した記録媒体 | |
WO2020044479A1 (ja) | 情報処理装置及び情報処理方法 | |
JP6314272B2 (ja) | 映像記録装置および映像記録方法 | |
JP4622728B2 (ja) | 音声再生装置および音声再生処理プログラム | |
JP4904691B2 (ja) | カメラ装置、及び撮影方法 | |
US11570349B2 (en) | Image pickup apparatus that controls operations based on voice, control method, and storage medium | |
JP4235635B2 (ja) | データ検索装置及びその制御方法 | |
CN108735212A (zh) | 语音控制方法及装置 | |
JP6794872B2 (ja) | 音声取引システムおよび連携制御装置 | |
JP2000155595A (ja) | 撮像装置 | |
JP3698635B2 (ja) | 音声認識処理装置 | |
WO2024093512A1 (zh) | 对象处理方法、装置、电子设备以及可读存储介质 | |
JP2006310967A (ja) | 情報記録装置および情報記録システム | |
JP2000069348A (ja) | 撮像装置 | |
JPH07219591A (ja) | 音声処理装置および方法 | |
JP2000076241A (ja) | 音声認識装置及び音声入力方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080710 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080710 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101015 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101015 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110126 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140204 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |