JPWO2007077703A1

JPWO2007077703A1 - 音声認識装置、表示方法及び表示処理プログラム

Info

Publication number: JPWO2007077703A1
Application number: JP2007552884A
Authority: JP
Inventors: 外山　聡一; 聡一外山
Original assignee: Pioneer Corp
Current assignee: Pioneer Corp
Priority date: 2006-01-06
Filing date: 2006-12-01
Publication date: 2009-06-11
Anticipated expiration: 2026-12-01
Also published as: EP2447942B1; EP3618065A1; EP1970896A4; EP3618065B1; EP2447941B1; WO2007077703A1; EP2447941A1; JP4781368B2; EP2447942A1; EP3043349A1; EP3043349B1; EP1970896A1

Abstract

発話可能な言葉の一覧を見ながらでも、ユーザが発話するタイミングを容易に認識することができる音声認識装置、表示方法及び表示処理プログラムを提供する。発話ボタンがユーザにより押下されたときから音声認識部１１４による音声認識処理が開始するまでの間は、システム制御部１１６が、発話リスト１と同列に配列されるような位置に発話禁止を意味する発話禁止メッセージ２ａを表示するとともに、発話禁止を意味する発話禁止マーク３を発話リスト１と重なる位置表示し、音声認識部１１４による音声認識処理が開始された後は、その発話禁止メッセージ２ａ及び発話禁止マーク３を画面上から消去する。

Description

本願は、ユーザの発話音声を入力し当該入力された音声に基づいてユーザが発した言葉を認識する音声認識装置、当該音声認識装置における表示方法及び表示処理プログラムの技術分野に関する。

従来より、発話音声を解析してユーザの話した言葉を認識する音声認識処理を行い、その認識した言葉に対応して各種の処理を実行するような音声認識装置が実用化されている。

上記音声認識装置を具備したものとして、例えば、移動体の経路誘導を行うナビゲーションシステムの場合には、ユーザの発話音声をシステムに対する命令や目的地の指定等として認識することにより、ユーザが指定した目的地を探索したり、地図の表示態様を変更したり、渋滞情報を表示する等といった処理を行うようになっている。

こうした音声認識装置の中には、当該装置の状態等に応じて、そのときに認識可能（発話可能）な言葉の一覧を画面に表示するようになっているものが存在する。この一覧表示された言葉の中から、ユーザは必要な言葉を選択して発話することにより、迷うことなくスムーズに装置に対する命令操作等を行うことができるようになっている。

また、音声認識装置の中には、常時ユーザの発話音声を入力して音声認識処理を行うのではなく、例えば、発話ボタンの押下（押す動作）などユーザが当該処理の開始を指示するための所定の操作を行ったときに音声認識処理を行うような仕様となっているものが少なからず存在する。このような仕様となっている理由の一つには、例えば、普通の会話等のように音声認識装置に対する命令等ではない言葉をユーザが発しているような場合でも、常時音声認識処理を行っていると、それを装置に対する命令等として認識してしまうことにより、ユーザの意図しない処理を実行してしまう場合があるからである。

ところが、音声認識処理を行うためには、例えば、音声認識処理用のプログラムを記録媒体等から読み出したり、入力した音声を音声情報として記憶するための領域を確保したり等といった準備処理、初期化処理等が必要となることから、発話ボタンの押下等の操作を行ってから実際に音声認識処理を開始するまでに時間を要する場合が少なくない。しかし、その装置の操作に慣れていないようなユーザは、発話ボタンを押下等した直後に装置に対する命令等の言葉を発することがあり、その音声を適切に入力することができないという問題があった。

こうしたことから、従来から、音声によって発話するタイミングをユーザに通知するというようなことが一般的に行われている（例えば、「ピッと鳴ったらお話ください。」等）。

また、例えば、特許文献１には、例えば、画面の隅などの所定の領域に動き等を伴う画像を表示させ、その画像の動き等により、音声入力が可能になるまでの時間を直感的にユーザに通知する技術が開示されている。
特開２００３−１７７７８９号公報

しかしながら、装置の操作に慣れていないようなユーザは、何を発話して良いのか分からないので、画面に表示された発話可能な言葉の一覧を注視しながら発話する言葉を探すことが多い。そうした事情の下において所定領域に動き等を伴う画像をいくら表示したとしても、ユーザの意識は発話可能な言葉の一覧の方に集中しているので、当該画像が視認され難くなり、ユーザが発話するタイミングを認識することが困難となる。

本願は、以上の点に鑑みてなされたものであり、その課題の一例は、画面に表示された発話可能な言葉の一覧等を見ながらでも、ユーザが発話するタイミングを容易に認識することができる音声認識装置、表示方法及び表示処理プログラムを提供することを目的とする。

上記課題を解決するために、本願の一つの観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置において、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段を備えることを特徴とする。

本願の他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置における表示方法であって、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行う工程と、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する工程と、を備えることを特徴とする。

本願の更に他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置に含まれるコンピュータを、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段として機能させることを特徴とする。

本実施形態に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は発話ボタンを押下した直後の画面であり、（ｂ）は音声認識処理を開始した後の画面である。本実施形態に係るナビゲーション装置１００の概要構成の一例を示すブロック図である。本実施形態に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートである。本実施形態の変形例に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は最初の発話ボタンを押下した直後の画面であり、（ｂ）はガイダンス音声が再生された後の画面である。本実施形態の変形例に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートである。

符号の説明

１発話リスト
２ａ発話禁止メッセージ
２ｂ発話許可メッセージ
３発話禁止マーク
４ガイダンスメッセージ
５発話ボタン押下待ちメッセージ
１００ナビゲーション装置
１０１ＧＰＳ受信部
１０２センサ部
１０３インターフェース部
１０４ＶＩＣＳデータ受信部
１０５ＨＤドライブ
１０６ＤＶＤドライブ
１０７音声処理部
１０８スピーカ
１０９操作部
１１０表示部
１１１バッファメモリ
１１２表示制御部
１１３マイクロホン
１１４音声認識部
１１５システム状態監視部
１１６システム制御部
１１７ＲＡＭ／ＲＯＭ

以下、図面を参照して本願の最良の実施形態について詳細に説明する。なお、以下に説明する実施の形態は、車の経路誘導を行うナビゲーション装置に対して本願を適用した場合の実施形態である。
［１．画面構成］
本実施形態に係るナビゲーション装置は、ユーザの発話音声を入力して音声認識処理を行うことにより、ユーザの発した言葉を当該装置に対する命令や目的地の指定等と認識し、当該認識結果に対応した動作を行うものであり、このとき、音声認識処理の開始を指示する発話ボタンをユーザが押下してから実際に音声認識処理を開始するまでの間、発話禁止を意味するメッセージ及びマークを画面に表示する。初めに、この表示画面の構成について、図１を用いて説明する。

図１は、本実施形態に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は発話ボタンを押下した直後の画面であり、（ｂ）は音声認識処理を開始した後の画面である。

先ず、ユーザが発話ボタンを押下した直後は、まだ音声認識処理を実行することができない状態である。このとき、図１（ａ）に示すように、画面中央付近に発話リスト１（認識可能文字の一例）が表示される。また、当該リストの上部に発話禁止メッセージ２ａ（禁止文字の一例）が表示される。更に、発話リスト１と重ねられて発話禁止マーク３（禁止画像の一例）が表示され、画面下部にガイダンスメッセージ４が表示されるようになっている。

発話リスト１は、ナビゲーション装置が認識することができる言葉を横書きで縦一列に並べて表示したものであり、これらの言葉は時々の状況に応じて変化する。例えば、通常の命令を受け付ける状態であれば、「行き先を探す」、「地図操作」、「ルート操作」等が表示され、例えば、行き先のジャンルを受け付ける状態であれば、「駅」、「野球場」、「遊園地」等が表示される、といった具合である。

発話禁止メッセージ２ａは、ユーザによる発話を禁止することを意味する言葉を表した文字である（例えば、「まだ発話できません」等）。当該文字は、発話リスト１と同列の一番上に表示される。また、発話禁止メッセージ２ａのフォント、文字の大きさ、文字の太さ、文字色、背景色といった表示態様を、発話リスト１とは異なるものとしている。具体的には、発話リスト１を角ばったフォントとし、発話禁止メッセージ２ａは丸みがかったフォントとした。また、発話禁止メッセージ２ａを発話リスト１より大きめの太い文字にした。また、発話リスト１の文字色は白色とし、発話禁止メッセージ２ａの文字色は赤色とした。更に、発話リスト１の背景は濃紺色とし、発話禁止メッセージ２ａの背景色はピンク色とした。

ユーザ（特にナビゲーション装置の操作に慣れていない初心者等）は、画面に表示された発話リスト１の中から発話しようとする言葉を探そうとする。その際、一般的には、発話リスト１の一番上の文字から読み始め、順次下の文字まで読み進んでいくものである。ここで、発話禁止メッセージ２ａが発話リスト１と同列に、しかも、一番上に表示されているので、ユーザは、当該文字を最初に読む可能性が高い。もし、ユーザが発話リスト１の中間あたりから読み始めたり、一番下から読み始めたりしたような場合であっても、発話禁止メッセージ２ａが発話リスト１と同列に表示されているので、ユーザが、発話リスト１を一通り読む間に発話禁止メッセージ２ａも読む可能性が高いのである。更に、発話禁止メッセージ２ａの表示態様が発話リスト１とは異なるので、発話禁止メッセージ２ａが目立ち、ユーザに読まれる可能性がより高くなる。こうしたことにより、ユーザは、現在発話してはならないことを容易に認識することができる。また、発話禁止メッセージ２ａの文字色や背景色が、禁止や危険等を暗示する赤色やピンク色となっているので、当該文字を完全には読まなくても発話禁止であることを認識しやすくなっている。

発話禁止マーク３は、ユーザによる発話を禁止することを示すマークである。図１（ａ）に示す例においては、交通標識等に見られる禁止標識のように、唇の絵が赤色の円形枠で囲まれ、更に、当該唇上に斜線が引かれている。そして、発話禁止マーク３は発話リスト１と重ねて表示されることで、ユーザが発話リスト１の全体を眺めたり、当該リストを一通り読んでいる間に当該マークを必然的に視認することとなる。従って、発話禁止マーク３によってもユーザは現在発話してはならないことを容易に認識することができる。なお、発話禁止マーク３は、発話リスト１全体と重なる必要は無く、当該リストの一部に重なるように表示されることにより発話リスト１と一体に視認されるような位置であっても良い。

ガイダンスメッセージ４は、操作の案内や画面説明等（例えば、「ピッと鳴ったらお話ください」等）として表示される。

次に、ナビゲーション装置による音声認識処理が開始されると、図１（ｂ）に示すように、今まで発話禁止メッセージ２ａが表示されていた位置に、発話許可メッセージ２ｂ（許可文字の一例）が表示される。また、発話禁止マーク３は画面上から消去される。

発話許可メッセージ２ｂは、ユーザによる発話を許可することを意味する言葉を表した文字であり（例えば、「発話できます」等）、文字色は青色、背景色は水色である。発話許可メッセージ２ｂも発話禁止メッセージ２ａと同様に発話リスト１と同列に表示されるので、ユーザが発話しても良いことを容易に認識することができる。また、発話許可メッセージ２ｂの文字色及び背景色を発話禁止メッセージ２ａとは変わって、許可や安全等を暗示する青色や水色としたので、発話禁止から発話許可に変化したことをイメージしやすいのである。

また、今まで表示されていた発話禁止マーク３が消去されるので、これによっても、ユーザが発話しても良いことを容易に認識することができる。

なお、発話許可メッセージ２ｂを必ずしも表示する必要はなく、発話禁止メッセージ２ａが画面上から消去されたことで、発話しても良いことをユーザに認識させることは可能である。一方、発話許可を示すマークを発話禁止マーク３が表示されていた位置に表示するようにしても良い。

以上説明したように、本実施形態においては、図１（ａ）及び（ｂ）に示すような画面構成とすることにより、ユーザが発話リスト１を見ながらでも、発話タイミングを容易に認識することができるようになっている。

なお、発話禁止メッセージ２ａ及び発話許可メッセージ２ｂは、発話リスト１の上に表示するのではなく、例えば、当該リストの中間あたりや、当該リストの下に表示されても良い。

また、発話リスト１は、横書き縦一列表示ではなく、縦書き横一列に表示しても良いし、複数列に表示しても良いし、または、碁盤の目のようにして表示しても良い。つまりは、ナビゲーション装置が認識することができる言葉が何らかの形で配列されていれば良いのである。

その際、発話禁止メッセージ２ａ及び発話許可メッセージ２ｂは、発話リスト１と同列に配列（配置）されるような位置であれば、どの位置に表示するかは任意である。例えば、発話リスト１の先頭（例えば、一番上、左等）の延長上や末尾（例えば、一番下、右等）の延長上に表示しても良いし、発話リスト１自身に含めて表示しても良い（例えば、発話リスト１の中間等）。つまり、発話リスト１を読み進める間に、自然とユーザが読むような位置や、発話リスト１全体を一望したときに当該リストと一体として視認されるような位置等に表示されれば良い。

また、発話リスト１と発話禁止メッセージ２ａ及び発話許可メッセージ２ｂとを同一の態様で表示しても良いが、これらを区別して認識しやすいように、異なる態様で表示することが好ましく、その際には、上述したフォント、大きさ、太さ、文字色、背景色を変えることに限られず、例えば、文字を斜体にしたり、下線を引いたりしても良いし、例えば、発話リスト１を日本語で表示し、発話禁止メッセージ２ａ等を英語で表示しても良いし、背景の画像や模様を変えても良い。また、発話禁止メッセージ２ａと発話許可メッセージ２ｂとの間においても、発話禁止と許可とを区別して認識しやすいように表示することが好ましく、その際には、上述した文字色、背景色を変えることに限られるものではない。

更にまた、図１（ａ）の画面において、発話禁止メッセージ２ａ及び発話禁止マーク３の双方を必ずしも表示する必要は無く、どちらか一方を表示するだけでも、発話するタイミングをユーザに認識させることは可能である。
［２．ナビゲーション装置の構成及び機能］
次に、本実施形態に係るナビゲーション装置１００の具体的な構成及び機能について、図２を用いて説明する。

図２は、本実施形態に係るナビゲーション装置１００の概要構成の一例を示すブロック図である。

図１に示すように、ナビゲーション装置１００は、ＧＰＳ（Global Positioning System）データを受信するＧＰＳ受信部１０１と、車両の走行速度、加速度、進行方向などの走行データを検出するセンサ部１０２と、ＧＰＳデータおよび走行データに基づいて自車位置を算出するインターフェース部１０３と、ＶＩＣＳ（Vehicle Information Communication System）データを受信するＶＩＣＳデータ受信部１０４と、地図データ等の各種データが格納されたＨＤ（Hard Disk）に対してデータの書き込み及び読み出しを行うＨＤドライブ１０５と、ＤＶＤディスク（Digital Versatile Disk）から各種データを読み出すＤＶＤドライブ１０６と、経路誘導や操作ガイダンス等の音声を生成する音声処理部１０７と、音声処理部１０７により生成された音声を可聴周波数の音波として出力するスピーカ１０８と、ユーザがシステムに対する命令を入力する際に用いられる操作部１０９と、地図データおよび車両の位置等を表示する表示部１１０と、バッファメモリ１１１を用いて表示部１１０を制御する表示制御部１１２と、ユーザの音声を集音するマイクロホン１１３と、マイクロホン１１３により集音された音声からユーザの発した言葉をシステムに対する命令等として認識する音声認識部１１４と、主として音声認識処理に関するナビゲーション装置１００のシステムの状態を検出するシステム状態監視部１１５と、システム全体を制御するシステム制御部１１６と、ＲＡＭ（Random Access Memory）／ＲＯＭ（Read Only Memory）１１７と、により構成され、システム制御部１１６と各部とはシステムバスにより相互に接続されている。

また、表示部１１０は、本願に係る表示手段の一例を構成し、操作部１０９は、本願に係る指示手段の一例を構成し、マイクロホン１１３は、本願に係る音声入力手段の一例を構成し、音声認識部１１４は、本願に係る音声認識手段の一例を構成し、システム制御部１１６は、本願に係る表示制御手段の一例を構成する。

操作部１０９は、発話ボタンを含む各種ボタン、数字キー、カーソルキー等の有するリモートコントロール装置等により構成されており、ユーザの入力操作に対応した指示信号をシステム制御部１１６に出力するようになっている。

表示部１１０は、例えば、液晶パネルまたは有機ＥＬ（Electro Luminescence）パネル等により構成され、表示制御部１１２の制御により地図データ等を画面に表示するとともに、これに重畳して自車位置等の経路案内に必要な各種情報を表示するようになっている。また、表示部１１０は、ユーザにより発話ボタンが押下されたときには、図１（ａ）に示す画像を表示し、音声認識部１１４により音声認識処理が開始された後は、図２（ｂ）に示す画像を表示するようになっている。

表示制御部１１２は、システム制御部１１６による制御に基づいて入力されたデータに対応する画像データをバッファメモリ１１１に生成するとともに、所定のタイミングでバッファメモリ１１１から画像データを読み出して表示部１１０に出力するようになっている。これにより、図１に示すような画面が表示部１１０により表示される。

マイクロホン１１３は、ユーザの発話音声を集音し、電気信号（音声信号）として音声認識部１１４に入力するようになっている。

音声認識部１１４は、システム制御部１１６による制御に基づいて音声認識処理を行うようになっている。具体的には、システム制御部１１６から音声認識処理の開始指示を示す制御信号を入力すると、セットアップ（音声認識処理を実行するための準備処理）を行い、当該セットアップが完了した時点（音声認識処理が実施可能となった時点）で、マイクロホン１１３から音声信号の入力を開始する。そして、当該音声信号をデジタル信号に変換し、音声情報として当該音声認識部１１４内部に搭載されているメモリ等に記憶させつつ、当該記憶された音声情報を解析してユーザの発した言葉を認識する。そして、例えば、認識された言葉と所定の命令パターンのリスト等とを比較することによりユーザが言葉として発した命令を認識し、この認識された命令に対応する制御信号をシステム制御部１１６に出力するようになっている。

システム状態監視部１１５は、操作部１０９から出力される指示信号及び音声認識部１１４による動作状態を監視しており、発話ボタンが押下された時、音声認識部１１４がセットアップを完了し音声認識処理を開始した時及び終了した時にその状態に対応した制御信号をシステム制御部１１６に出力するようになっている。

システム制御部１１６は、主としてＣＰＵ（Central Processing Unit）により構成されるとともに、ＧＰＳ受信ポート、キー入力ポート等の各種入出力ポートを含んで構成されている。

このシステム制御部１１６は、ナビゲーション装置１００全体を制御するようになっており、ＨＤドライブ１０５、ＲＡＭ／ＲＯＭ１１７等に格納された制御プログラム（例えば、表示処理プログラム等）を読み出して各種処理を実行するとともに、このＲＡＭ／ＲＯＭ１１７に処理中のデータを一時的に保存するようになっている。

例えば、システム制御部１１６は、経路誘導を行う際に、インターフェース部１０３から出力された自車位置データと、ＨＤドライブ１０５を制御してＨＤから読み出した地図データに基づいてマップマッチング等の補正処理を行うとともに、表示部１１０において車両の現在位置を含む周辺地域を示す地図上に経路誘導情報が表示されるように制御し、音声処理部１０７から経路誘導情報が音声として出力されるように制御するようになっている。

また、システム制御部１１６は、システム状態監視部１１５から出力される制御信号に基づいて、音声認識部１１４を制御しつつ図１に示す画像が表示部１１０において表示されるように制御するとともに、音声処理部１０７から操作ガイダンス等が音声として出力されるように制御するようになっている。

なお、表示処理プログラム、音声認識処理プログラム及び音声生成処理プログラム等は、例えば、ＤＶＤ−ＲＯＭ等の記録媒体に記録されてＤＶＤドライブ１０６を介して読み込まれるようにしても良いし、予めＲＡＭ／ＲＯＭ１１７のＲＯＭに記録させるようにしても良い。

また、表示処理プログラム、音声認識処理プログラム及び音声生成処理プログラム等のソフトウェアで実現できる処理は、システム制御部１１６と同一のＣＰＵ上で動作させても良い。
［３．ナビゲーション装置の動作］
次に、ナビゲーション装置１００の動作について、図３を用いて説明する。

図３は、本実施形態に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートである。

ユーザが、ナビゲーション装置１００に対する命令を話そうとして発話ボタンを押下すると、図３に示すように、システム状態監視部１１５が、発話ボタンの押下を検出し、システム制御部１１６に制御信号を出力する（ステップＳ１）。

当該制御信号を入力したシステム制御部１１６は、音声認識処理を開始するよう音声認識部１１４を制御し、これによって、音声認識部１１４によるセットアップが開始される（ステップＳ２）。

また、システム制御部１１６は、発話リスト１、発話禁止メッセージ２ａ、発話禁止マーク３、及び「ピッと鳴ったらお話ください」というガイダンスメッセージ４が画面に表示されるように表示制御部１１２を制御する。これによって、図１（ａ）に示す画像が表示部１１０により表示される（ステップＳ３）。このとき、システム制御部１１６は、ガイダンスメッセージ４と同じ内容が音声として出力されるように、音声処理部１０７を制御する。これによって、スピーカ１０８から、「ピッと鳴ったらお話ください」という音声が出力される。

そして、セットアップが完了した音声認識部１１４は、音声認識処理を開始する（ステップＳ４）。

この音声認識処理の開始を検出したシステム状態監視部１１５は、その動作状態に対応した制御信号をシステム制御部１１６に出力し、当該制御信号を入力したシステム制御部１１６は、発話禁止メッセージ２ａ及び発話禁止マーク３が画面上から消去されるとともに、発話許可メッセージ２ｂが画面に表示されるように表示制御部１１２を制御することにより、図１（ｂ）に示す画像が表示部１１０により表示される（ステップＳ５）。

その後、音声認識部１１４による音声認識処理が終了すると（ステップＳ６）、その動作状態に対応した制御信号がシステム状態監視部１１５からシステム制御部１１６に出力される。

そして、システム制御部１１６は、音声認識部１１４により認識された命令等を音声認識部１１４から入力し、当該命令等に対応する動作を行うために、更にユーザによる次の操作（音声入力によるものも含む）が必要であるか否かを判定する（ステップＳ７）。例えば、命令として「行き先を探す」を入力すると、行き先までの経路探索を行うためには、その行き先を指定する操作が必要となる。このような場合には（ステップＳ７：ＹＥＳ）、再度上記ステップＳ２〜Ｓ６と同様の処理が繰り返される。このとき、発話リスト１として、例えば、行き先のジャンルを示す「駅」、「遊園地」、「野球場」等が表示される。そして、例えば、ユーザの発話により最終的な行き先が指定され、次の操作が必要ではないと判断されると（ステップＳ７：ＮＯ）、システム制御部１１６は、音声認識処理結果に対応した動作が実行されるようにナビゲーション装置１００の各部を制御する（ステップＳ８）。

以上説明したように、本実施形態によれば、発話ボタンがユーザにより押下されたときから音声認識部１１４による音声認識処理が開始するまでの間は、システム制御部１１６が、発話リスト１と同列に配列されるような位置に発話禁止を意味する発話禁止メッセージ２ａを表示するとともに、発話禁止を意味する発話禁止マーク３を発話リスト１と重なる位置に表示し、音声認識部１１４による音声認識処理が開始された後は、その発話禁止メッセージ２ａ及び発話禁止マーク３を画面上から消去するようになっている。

従って、ユーザは、画面に表示された発話リスト１を読むときに、発話禁止メッセージ２ａをも読むこととなり、発話リスト１を見ながらでも発話してはならないことを容易に認識することができる。そして、音声認識処理が開始された後は、先ほど視認した発話禁止メッセージ２ａが消去されることで、発話しても良いことを容易に認識することができる。また、ユーザは、画面に表示された発話リスト１を読むときに、発話禁止マーク３を必然的に視認することとなり、発話リスト１を見ながらでも発話してはならないことを容易に認識することができる。そして、音声認識処理が開始された後は、先ほど視認した発話禁止マーク３が消去されることで、発話しても良いことを容易に認識することができる。

また、システム制御部１１６が、音声認識部１１４による音声認識処理が開始された後、今まで発話禁止メッセージ２ａが表示されていた位置に、発話許可を意味する発話許可メッセージ２ｂが表示されるようにしたので、ユーザは発話しても良いことをより容易に認識することができる。

更に、発話禁止メッセージ２ａや発話許可メッセージ２ｂのフォント、文字の大きさや太さ、文字色、背景色等の表示態様を発話リスト１とは異なるものとしたので、発話リスト１と同じ配列に含まれながらも、発話禁止メッセージ２ａ等をその他の文字と区別して視認しやすくなり、ユーザは発話するタイミングをより容易に認識することができる。
［４．変形例］
次に、本実施形態に係る変形例について説明する。

上記説明した実施形態において、音声認識部１１４は、セットアップが完了したら自動的に音声認識処理を開始するようになっていたが、以下においては、発話ボタンが再度押下されるまでは音声認識処理を開始しない場合について説明する。

音声認識装置の中には、ユーザの発話音声を音声情報等として記憶させるメモリの容量の関係等から、音声認識処理を実施する時間が制限されているものが少なくない。そうすると、例えば、ユーザが発話リストを読んでいる間に音声認識処理が開始され、その後発話しようとしたときに音声認識処理が終了してしまい、ユーザの発話した言葉を十分に認識できない場合がある。一方、ユーザはこれを回避するために、制限時間内に発話を間に合わせようとすると、急いで発話リストを読まなければならなかったり、発話リストを十分に読めないような場合がある。

そこで、本変形例に係るナビゲーション装置においては、音声認識部１１４によるセットアップが完了しても、発話ボタンが再度押下されるまでは音声認識処理を開始しないようにした。

先ず、本変形例の表示画面の構成について、図４を用いて説明する。

図４は、本実施形態の変形例に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は最初の発話ボタンを押下した直後の画面であり、（ｂ）はガイダンス音声が再生された後の画面であり、同図において図１と同様の要素については同様の符号を付してある。

最初にユーザが発話ボタンを押下した直後は、図４（ａ）に示すように、発話リスト１、発話禁止メッセージ２ａ及び発話禁止マーク３が、図１（ａ）と同様の態様で表示される。また、ガイダンスメッセージ４として、例えば、「コマンドリストを表示します」等が表示される。このとき、再度の発話ボタンを押下することを促すガイダンス音声（例えば、「もう一度発話ボタンを押してお話ください」等）が再生される。

そして、ガイダンス音声の再生が終了した後は、図４（ｂ）に示すように、発話禁止マーク３の表示位置が、発話リスト１と重ならない位置に変わる（例えば、画面左端等）。最初に発話リスト１と重なる位置に発話禁止マーク３が表示されたことで、当該マークはユーザに視認されているから、その後、発話リスト１と重ならない位置に変えて表示し直すことで、発話禁止であることは認識されつつも、発話リスト１が読みやすくなる。なお、図４（ｂ）に示す発話禁止マーク３のデザインは、必ずしも図４（ａ）に示す発話禁止マーク３のデザインと同一にする必要は無い。

また、画面には、発話ボタンの押下を促す発話ボタン押下待ちメッセージ５（例えば、「発話ボタンを押してお話ください。」等）が表示される。なお、発話ボタン押下待ちメッセージ５を表示するタイミングは、ガイダンス音声が再生された後に限られるものではなく、例えば、発話ボタンが押下された直後や当該ボタンが押下されてから所定時間が経過した後に表示しても良いし、セットアップが完了して音声認識処理が開始できる状態になったときに表示しても良い。

ここで、音声認識部は、セットアップが完了しても、少なくとも発話ボタンが再度押下されるまでは音声認識処理を開始しない。こうすることで、発話タイミングをユーザ側が握ることとなり、ユーザは発話リスト１をじっくり読むことができる。

その後、ユーザにより発話ボタンが押下されると、図１（ａ）と同様の表示画面となる。この時点で、ユーザは、発話しようとする言葉を決めているはずであり、発話リスト１を読む必要は無いのであるから、発話禁止マーク３を元の発話リスト１と重なる位置に表示しても問題はなく、当該マークの視認の容易さを考慮すれば、発話リスト１と重なる位置に表示した方が良い。

そして、音声認識処理が開始されると、図１（ｂ）と同様の表示画面となる。なお、発話ボタンが再度押下された時点でセットアップが既に完了している場合には、図１（ａ）の画面表示は省略しても良い。

次に、ナビゲーション装置１００の動作について、図５を用いて説明する。

図５は、本実施形態の変形例に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートであり、同図において図３と同様の要素については同様の符号を付してある。

図１と同様にして、システム状態監視部１１５が発話ボタンの押下を検出すると（ステップＳ１）、音声認識部１１４によるセットアップが開始される（ステップＳ２）。

また、システム制御部１１６は、発話リスト１、発話禁止メッセージ２ａ、発話禁止マーク３、及びガイダンスメッセージ４が画面に表示されるように表示制御部１１２を制御することにより、図４（ａ）に示す画像が表示される（ステップＳ３）。

そして、システム制御部１１６は、再度の発話ボタンを押下することを促すガイダンス音声が出力されるように音声処理部１０７を制御すると、スピーカ１０８から、「もう一度発話ボタンを押してお話ください」という音声が出力される（ステップＳ１１）。

そして、ガイダンス音声の再生が終了すると、システム制御部１１６は、発話不可マーク３を発話リスト１と重ならない位置に表示されるように表示制御部１１２を制御するとともに（ステップＳ１２）、発話ボタン押下待ちメッセージ５が表示されるように表示制御部１１２を制御することにより、図４（ｂ）に示す画像が表示される（ステップＳ１３）。

次いで、システム制御部１１６は、発話ボタンの押下待ちに移行し（ステップＳ１４）、ユーザにより発話ボタンが押下されたことがシステム状態監視部１１５により検出されると（ステップＳ１４：ＹＥＳ）、システム制御部１１６は、音声認識部１１４によるセットアップが完了しているか否かを判定する（ステップＳ１５）。ここで、発話ボタンが押下される前にセットアップが完了したことをシステム状態監視部１１５が検出していた場合（ステップＳ１４：ＹＥＳ）、システム制御部１１６は、音声認識部１１４による音声認識処理を開始させる（ステップＳ４）。

一方、音声認識部１１４によるセットアップが完了していない場合（ステップＳ１４：ＮＯ）、システム制御部１１６は、発話ボタン押下待ちメッセージ５を消去するとともに、発話禁止マーク３が元の発話リスト１に重なる位置に表示されるように表示制御部１１２を制御することにより、図１（ａ）に示す画像が表示される（ステップＳ１６）。そして、セットアップが完了した音声認識部１１４は、音声認識処理を開始する（ステップＳ４）。

その後は、図３と同様に、図１（ｂ）に示す画像の表示、音声認識処理の終了した後に次の操作が必要であるか否かの判定が行われ（ステップＳ５〜Ｓ７）、次の操作が必要である場合は（ステップＳ７：ＹＥＳ）、ステップＳ２〜Ｓ６までの処理が繰り返され、次の操作が必要でない場合は（ステップＳ７：ＮＯ）、音声認識処理結果に対応した動作が実行される（ステップＳ８）。

以上説明したように、本変形例によれば、発話ボタンがユーザにより押下されたときに、システム制御部１１６が、発話禁止マーク３を発話リスト１と重なるように表示させた後、当該マークを発話リスト１と重ならない位置に変えて表示させるようにしたので、発話禁止であることはユーザに認識されつつも、発話リスト１が読みやすくなる。

また、システム制御部１１６は、発話禁止メッセージ２ａ及び発話禁止マーク３を表示させた後、発話ボタンが再度押下されるまでは音声認識部１１４による音声認識処理を開始させないようにしたので、ユーザは発話リスト１をじっくり読んだ後に発話を開始することができる。

なお、上記説明した実施形態においては、本願に係る音声認識装置をナビゲーション装置に適用していたが、これに限られるものではなく、例えば、認識可能な言葉の一覧を画面に表示し、且つ所定の操作等をきっかけとして音声認識処理を実行するような構成となっている各種装置にも適用することができる。

また、本発明は、上記実施形態に限定されるものではない。上記実施形態は、例示であり、本発明の請求の範囲に記載された技術的思想と実質的に同一な構成を有し、同様な作用効果を奏するものは、いかなるものであっても本発明の技術的範囲に包含される。

また、２００６年１月６日に出願された明細書、特許請求の範囲、図面、要約を含む日本の特許出願（No.2006-1845）の全ての開示は、その全てを参照することよって、ここに組み込まれる。

【０００３】
理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置において、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段を備え、前記表示制御手段は、前記表示手段に前記禁止画像を表示した後、前記認識可能文字と重ならない位置に変えて表示することを特徴とする。
［００１２］
本願の他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置における表示方法であって、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行う工程と、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する工程と、前記禁止画像が表示された後、前記認識可能文字と重ならない位置に変えて表示する工程と、を備えることを特徴とする。
［００１３］
本願の更に他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置に含まれるコンピュータを、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表

【０００４】
示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段として機能させ、さらに前記表示制御手段が、前記表示手段に前記禁止画像を表示した後、前記認識可能文字と重ならない位置に変えて表示するように機能させることを特徴とする。
図面の簡単な説明
［００１４］
［図１］本実施形態に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は発話ボタンを押下した直後の画面であり、（ｂ）は音声認識処理を開始した後の画面である。
［図２］本実施形態に係るナビゲーション装置１００の概要構成の一例を示すブロック図である。
［図３］本実施形態に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートである。
［図４］本実施形態の変形例に係るナビゲーション装置による画面構成例を示す図であり、（ａ）は最初の発話ボタンを押下した直後の画面であり、（ｂ）はガイダンス音声が再生された後の画面である。
［図５］本実施形態の変形例に係るナビゲーション装置１００の処理の流れの一例を示すフローチャートである。
符号の説明
［００１５］
１発話リスト
２ａ発話禁止メッセージ
２ｂ発話許可メッセージ
３発話禁止マーク
４ガイダンスメッセージ
５発話ボタン押下待ちメッセージ

上記課題を解決するために、本願の一つの観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置において、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示し、更に前記音声認識処理が開始された後は、前記禁止画像を前記画面上から消去する表示制御手段を備え、前記表示制御手段は、前記表示手段に前記禁止画像を表示した後、前記認識可能文字と重ならない位置に変えて表示することを特徴とする。

本願の他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置における表示方法であって、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示する工程と、更に前記音声認識処理が開始された後は、前記禁止画像を前記画面上から消去する工程と、前記禁止画像が表示された後、前記認識可能文字と重ならない位置に変えて表示する工程と、を備えることを特徴とする。

本願の更に他の観点では、ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置に含まれるコンピュータを、少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示し、更に前記音声認識処理が開始された後は、前記禁止画像を前記画面上から消去する表示制御手段として機能させ、さらに前記表示制御手段が、前記表示手段に前記禁止画像を表示した後、前記認識可能文字と重ならない位置に変えて表示するように機能させることを特徴とする。

Claims

ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置において、
少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、
更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段を備えることを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記表示制御手段は、前記認識可能文字とは異なる態様で前記禁止文字を表示することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記表示制御手段は、前記認識手段による前記音声認識処理が開始された後、前記禁止文字が表示されていた位置に発話許可を意味する許可文字を前記表示手段に表示することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記表示制御手段は、前記表示手段に前記禁止画像を表示した後、前記認識可能文字と重ならない位置に変えて表示することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記認識手段は、前記禁止文字または前記禁止画像が表示された後、少なくとも前記指示信号が再度出力されるまでは前記音声認識処理を開始しないことを特徴とする音声認識装置。
ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置における表示方法であって、
少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行う工程と、
更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する工程と、
を備えることを特徴とする表示方法。
ユーザの発話音声を入力する音声入力手段と、前記入力された音声に基づいてユーザにより発せられた言葉を認識する音声認識処理を行う認識手段と、前記認識手段に対して前記音声認識処理の開始を指示する指示信号を出力する指示手段と、前記認識手段が認識することができる言葉のうち少なくとも一つを認識可能文字として画面上に配列して表示する表示手段と、を備える音声認識装置に含まれるコンピュータを、
少なくとも前記指示信号が出力されたときから前記認識手段における前記音声認識処理が実行可能となるまでの間、前記認識可能文字と同列に配列されるような位置に発話禁止を意味する禁止文字を前記表示手段に表示するか、または、前記認識可能文字の少なくとも一部と重なる位置に発話禁止を意味する禁止画像を前記表示手段に表示するか、の少なくともいずれか一方を行い、
更に前記音声認識処理が開始された後は、前記禁止文字または禁止画像の少なくともいずれか一方を前記画面上から消去する表示制御手段として機能させることを特徴とする表示処理プログラム。