JPWO2010070781A1

JPWO2010070781A1 - ナビゲーション装置

Info

Publication number: JPWO2010070781A1
Application number: JP2010542807A
Authority: JP
Inventors: 谷口　琢也; 琢也谷口; 貴久青柳; 善彦森; 朝子表
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2008-12-16
Filing date: 2009-08-11
Publication date: 2012-05-24
Anticipated expiration: 2029-08-11
Also published as: DE112009003645T8; CN102246136B; JP5355591B2; DE112009003645B4; US20110213553A1; DE112009003645T5; CN102246136A; WO2010070781A1; US8618958B2

Abstract

外部通信機器との間で信号を送受信する通信モジュール１１と、外部通信機器から通信モジュール１１を介して送られてくるプッシュトーン信号を識別するトーン信号識別部４２と、トーン信号識別部４２で識別された情報に応じて、外部通信機器から通信モジュール１１を介して送られてくる音声信号に対する音声認識を行う音声認識部４１を備えている。

Description

本発明は、ユーザを目的地まで案内するナビゲーション装置に関し、特に、通話相手の音声を認識することにより地点などを自動的に抽出する技術に関する。

従来、音声認識機能を備えたナビゲーション装置が知られている。このナビゲーション装置においては、音声認識中は、認識させたい音声以外の音声が誤って認識されるのを防止するために、ハンズフリー電話をかけることができなかった。このような問題を解消するために、特許文献１は、ハンズフリー電話中であっても、音声認識を可能とした車載用情報装置を開示している。

この車載用情報装置は、通信網を介して相手側と通信可能な通信部と、マイクロフォンを介して入力される音声を認識する音声認識部と、音声認識部で認識された音声に基づき道路情報を案内するナビゲーション機能および通信部の通信動作を制御するメイン処理部と、マイクロフォンを介して入力される音声を音声認識部の音声認識用として用いるか否かを切り換える認識用スイッチを備え、通信部はデータ通信および音声通話可能な携帯電話からなり、マイクロフォンを介して入力される音声は、音声通話用および音声認識用として携帯電話および音声認識部のそれぞれに送られ、メイン処理部は、携帯電話の音声通話中に認識用スイッチが音声認識側に切り換えられるとナビゲーション機能を音声認識部で認識された音声に基づき実行させ、認識用スイッチが復帰側に切り換えられると携帯電話の音声通話を復帰させる。

特開２００２−２５７５７４号公報

上述した特許文献１に開示された車載用情報装置では、ハンズフリー通話中にナビゲーション装置の使用者の音声を認識することはできるが、通話相手の音声を認識することはできない。そのため、通話相手からナビゲーション装置に登録したい地点情報を直接に音声認識させることはできない。したがって、ナビゲーション装置の使用者は、通話相手から聞いた地点名称などを覚えておき、改めてナビゲーション装置の使用者が音声認識させる必要があるので手間がかかる。そこで、通話相手から聞いた地点情報を直接に認識できるナビゲーション装置の開発が望まれている。

この発明は、上述した要請に応えるためになされたものであり、その課題は、通話相手の音声を認識して地点情報または個人情報などを取得できるナビゲーション装置を提供することにある。

この発明に係るナビゲーション装置は、上記課題を解決するために、外部通信機器との間で信号を送受信する通信モジュールと、外部通信機器から通信モジュールを介して送られてくるプッシュトーン信号を識別するトーン信号識別部と、トーン信号識別部で識別された情報に応じて、外部通信機器から通信モジュールを介して送られてくる音声信号に対する音声認識を行う音声認識部を備えている。

この発明に係るナビゲーション装置によれば、通話相手の外部通信機器から発信されたプッシュトーン信号にしたがって音声認識を行うことができるので、通話相手からの音声に対して音声認識を行うことにより、通話相手の意図通りの地点情報または個人情報などを直接に取得することができる。その結果、ナビゲーション装置の使用者は、通話相手から聞いた情報を覚えたりメモしたりする手間を省くことができる。また、プッシュトーン信号に応じた情報を利用して音声認識を行うことができるので、音声認識のみを用いて音声認識を行う場合よりも誤認識を起こす確率を下げることができる。

この発明の実施の形態１に係るナビゲーション装置の構成を示すブロック図である。この発明の実施の形態１に係るナビゲーション装置で行われるハンズフリー通話処理を示すフローチャートである。この発明の実施の形態１に係るナビゲーション装置で行われるハンズフリー通話処理の中の使用者の声に対する音声認識処理の詳細を示すフローチャートである。この発明の実施の形態１に係るナビゲーション装置で行われるハンズフリー通話処理の中の通話相手の声に対する音声認識処理の詳細を示すフローチャートである。この発明の実施の形態２に係るナビゲーション装置で行われるハンズフリー通話処理の中の通話相手の声に対する音声認識処理の詳細を示すフローチャートである。この発明の実施の形態３に係るナビゲーション装置で行われるハンズフリー通話処理の中の通話相手の声に対する音声認識処理の詳細を示すフローチャートである。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、この発明の実施の形態１に係るナビゲーション装置の構成を示すブロック図である。このナビゲーション装置は、ナビゲーションユニット１、マイクロフォン２、ＧＰＳ（Global Positioning System）受信機３、タッチパネル４、モニタ５およびスピーカ６を備えている。このナビゲーションユニット１には、携帯電話７が接続されている。

ナビゲーションユニット１は、ナビゲーション装置の中核をなし、その全体を制御する。このナビゲーションユニット１の詳細は後述する。マイクロフォン２は、送話用と音声認識用とに兼用される。このマイクロフォン２は、入力された音声を電気信号に変換し、音声信号としてナビゲーションユニット１に送る。

ＧＰＳ受信機３は、ＧＰＳ衛星から送信される電波を受信し、自己の現在位置を検出する。このＧＰＳ受信機３で検出された自己の現在位置は、現在位置信号としてナビゲーションユニット１に送られる。タッチパネル４は、モニタ５の画面上に載置されており、タッチされた位置を検出する。この検出された位置は、タッチパネルデータとしてナビゲーションユニット１に送られる。

モニタ５は、例えば液晶パネルから構成されており、ナビゲーションユニット１から送られてくる映像信号に基づき種々の画像を表示する。スピーカ６は、受話用と音声案内用とに兼用される。このスピーカ６は、ナビゲーションユニット１から送られてくる音声信号を音声に変換して出力する。

携帯電話７は、ナビゲーションユニット１との間で音声またはデータを含む信号を送受するとともに、通話相手の携帯電話８との間で通信を行う。これら携帯電話７および携帯電話８は、この発明の外部通信機器に対応する。

次に、ナビゲーションユニット１の詳細を説明する。ナビゲーションユニット１は、通信モジュール１１、ＤＳＰ（Digital Signal Processor）１２、補助記憶装置１３、アンプ１４、電話認識ボタン１５、音声認識ボタン１６、取消ボタン１７およびＣＰＵ（Central Processing Unit）１８を備えている。

通信モジュール１１は、Bluetoothモジュールまたは電話コネクタから構成されており、受話部２１および送話部２２を備えている。受話部２１は、携帯電話７から送られてくる信号を受け取り、受話信号としてＤＳＰ１２およびＣＰＵ１８に送る。送話部２２は、ＤＳＰ１２から送られてくる送話信号を受け取り、携帯電話７に送る。

ＤＳＰ１２は、送話音声および受話音声に、ナビゲーション機能などのための案内音声を混ぜる。これにより、通話相手に対して送話音声および案内音声を送ることができるとともに、このナビゲーション装置の使用者（以下、単に「使用者」という）に対して受話音声および案内音声を出力することができる。

このＤＳＰ１２は、第１減衰器３１、第１混合器３２、エコーキャンセラ３３、第２減衰器３４および第２混合器３５を備えている。第１減衰器３１および第２減衰器３４は、この発明の音量制御部に対応する。

第１減衰器３１は、ＣＰＵ１８からの指示に応じて、通信モジュール１１の受話部２１から送られてくる受話信号を減衰させ、第１混合器３２に送る。この第１減衰器３１により、受話音声の音量を小さくすることができるので、使用者の声に対する音声認識における誤認識を防止することができ、また、使用者に対する案内音声の明瞭度を上げることができる。

第１混合器３２は、第１減衰器３１から送られてくる受話信号とＣＰＵ１８から送られてくる案内音声信号とを混合し、エコーキャンセラ３３およびアンプ１４に送る。エコーキャンセラ３３は、マイクロフォン２から送られてくる音声信号から、スピーカ６から出力されてマイクロフォン２に回り込んだ音の成分を除去し、第２減衰器３４およびＣＰＵ１８に送る。このエコーキャンセラ３３により、ハンズフリー通話時などにおいて、送話音声にスピーカ６から出力される案内音声および受話音声が入ることを防ぐことができる。同時にこのエコーキャンセラ３３は、スピーカ６から出力された受話音声がＣＰＵ１８に送られることも防ぐことができ、その結果、ハンズフリー通話中の使用者の声に対する音声認識において、誤認識を防止することができる。

第２減衰器３４は、ＣＰＵ１８からの指示に応じて、エコーキャンセラ３３から送られてくる信号を減衰させ、第２混合器３５に送る。この第２減衰器３４により、送話音声の音量を小さくすることができるので、音声認識中に、通話相手が案内音声を聞きやすくすることができる。第２混合器３５は、第２減衰器３４から送られてくる信号とＣＰＵ１８から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２に送る。

補助記憶装置１３は、例えばＨＤＤ（Hard Disk Drive）から構成されており、ナビゲーション用の地図データおよび音声認識用の辞書データを記憶している。この補助記憶装置１３に記憶されている地図データおよび辞書データは、必要に応じて、ＣＰＵ１８によってアクセスされる。アンプ１４は、ＤＳＰ１２の第１混合器３２から送られてくる受話信号と案内音声信号とが混合された信号を増幅し、音声信号としてスピーカ６に送る。

電話認識ボタン１５は、通話相手の声に対する音声認識を開始させるために使用される。この電話認識ボタン１５の押下によって発生された電話認識ボタンデータは、ＣＰＵ１８に送られる。音声認識ボタン１６は、使用者の声に対する音声認識を開始させるために使用される。この音声認識ボタン１６の押下によって発生された音声認識ボタンデータは、ＣＰＵ１８に送られる。取消ボタン１７は、音声認識の結果を取り消すために使用される。この取消ボタン１７の押下によって発生された取消ボタンデータは、ＣＰＵ１８に送られる。

ＣＰＵ１８は、音声認識部４１、トーン信号識別部４２、操作制御部４３、音声案内出力部４４、ナビゲーション部４５および画像処理部４６を備えている。これら各構成要素は、ＣＰＵ１８で実行されるプログラムによって実現されている。なお、これら各構成要素は、ハードウェアによって構成することもできる。

音声認識部４１は、携帯電話７から通信モジュール１１の受話部２１を介して送られてくる受話信号に対し、補助記憶装置１３から読み込んだ辞書データを用いて音声認識を実行する。また、音声認識部４１は、マイクロフォン２からＤＳＰ１２のエコーキャンセラ３３を介して送られてくる音声信号に対し、補助記憶装置１３から読み込んだ辞書データを用いて音声認識を実行する。この音声認識部４１における音声認識結果、つまり音声認識を実行することにより得られた文字またはコマンドなどは、音声認識データとして操作制御部４３に送られる。

トーン信号識別部４２は、携帯電話７から通信モジュール１１の受話部２１を介して送られてくるプッシュトーン信号を解析し、信号の周波数によって携帯電話７に接続された携帯電話８の押されたボタンを認識する。このトーン信号識別部４２で認識されたボタンを表すトーン信号識別データは、操作制御部４３に送られる。

操作制御部４３は、音声認識部４１から送られてくる音声認識データ、トーン信号識別部４２から送られてくるトーン信号識別データ、電話認識ボタン１５から送られてくる電話認識ボタンデータ、音声認識ボタン１６から送られてくる音声認識ボタンデータ、取消ボタン１７から送られてくる取消ボタンデータ、タッチパネル４から送られてくるタッチパネルデータおよびナビゲーション部４５からの要求コマンドを受け付けて所定の処理を実行する。そして、処理の結果に応じて、音声案内出力部４４、ナビゲーション部４５、画像処理部４６、ならびに、ＤＳＰ１２の第１減衰器３１および第２減衰器３４を制御する。

音声案内出力部４４は、操作制御部４３からの指示に応答して案内音声信号を生成し、ＤＳＰ１２の第１混合器３２および第２混合器３５に送る。これにより、送話音声に案内音声が混合された送話信号が携帯電話７に送られるので、通話相手に対して音声案内を出すことができるとともに、携帯電話７からの受話信号に案内音声が混合された信号がスピーカ６から出力されるので、使用者に対しても音声案内を出すことができる。

ナビゲーション部４５は、操作制御部４３からの指示に応答して、ナビゲーション機能を実現するための処理を実行する。例えば、ナビゲーション部４５は、目的地および経由地の設定、または、地点の登録などを行う。また、操作制御部４３に要求を出すことにより、音声認識の結果を取得し、経路探索および経路案内などの処理を実行して音声案内を出力させる。また、地図を表示する場合は、画像処理部４６に指示を出して、モニタ５に地図を表示させる。さらに、ナビゲーションを行う場合は、ＧＰＳ受信機３から現在位置信号を取得して自車位置を特定する。

画像処理部４６は、ナビゲーション部４５および操作制御部４３からの指示に応答して、音声認識の結果、地図、その他のナビゲーションに必要な情報を表示するための画像を生成し、映像信号としてモニタ５に送る。これにより、モニタ５に、音声認識の結果、地図、その他のナビゲーションに必要な情報が表示される。

次に、上記のように構成される、この発明の実施の形態１に係るナビゲーション装置の動作を、ハンズフリー通話を実現するためのハンズフリー通話処理を中心に、図２〜図４に示すフローチャートを参照しながら説明する。ハンズフリー通話処理は、使用者からの発信または通話相手の携帯電話８からの着信により開始される。

ハンズフリー通話処理が開始されると、まず、音声認識ボタン１６が押下されたかどうかが調べられる（ステップＳＴ１１）。すなわち、ＣＰＵ１８の操作制御部４３は、音声認識ボタン１６から音声認識ボタンデータが送られてきたかどうかを調べる。このステップＳＴ１１において、音声認識ボタン１６が押下されたことが判断されると、使用者の声に対する音声認識が行われる（ステップＳＴ１２）。このステップＳＴ１２の処理の詳細は後述する。その後、シーケンスはステップＳＴ１５に進む。

一方、ステップＳＴ１１において、音声認識ボタン１６が押下されていないことが判断されると、次いで、電話認識ボタン１５が押下されたかどうかが調べられる（ステップＳＴ１３）。すなわち、ＣＰＵ１８の操作制御部４３は、電話認識ボタン１５から電話認識ボタンデータが送られてきたかどうかを調べる。このステップＳＴ１３において、電話認識ボタン１５が押下されたことが判断されると、通話相手の声に対する音声認識が行われる（ステップＳＴ１４）。このステップＳＴ１４の処理の詳細は後述する。その後、シーケンスはステップＳＴ１５に進む。上記ステップＳＴ１３において、電話認識ボタン１５が押下されていないことが判断された場合も、シーケンスはステップＳＴ１５に進む。

ステップＳＴ１５においては、通話終了であるかどうかが調べられる。すなわち、操作制御部４３は、タッチパネル４から、通話を終了する操作がなされたことを表すタッチパネルデータが送られてきたかどうか、または、携帯電話７と携帯電話８との間の通信が切断されたかどうかを調べる。このステップＳＴ１５において、通話終了でないことが判断されると、シーケンスはステップＳＴ１１に戻り、上述した処理が繰り返される。一方、ステップＳＴ１５において、通話終了であることが判断されると、ハンズフリー通話処理は終了する。

次に、上記ステップＳＴ１２で行われる使用者の声に対する音声認識処理の詳細を、図３に示すフローチャートを参照しながら説明する。

使用者の声に対する音声認識処理では、まず、通話音声（「送話音声」および「受話音声」の両方をいう）の音量が絞られる（ステップＳＴ２１）。すなわち、操作制御部４３は、第１減衰器３１および第２減衰器３４に対して音声を絞るように指示する。これにより、第１減衰器３１は、通信モジュール１１の受話部２１から送られてくる受話信号を減衰させ、第１混合器３２に送る。また、第２減衰器３４は、エコーキャンセラ３３から送られてくる信号を減衰させ、第２混合器３５に送る。これにより、通話相手に対する送話音声および通話相手からの受話音声の音量が絞られる。

次いで、通話相手に使用者が音声認識中である旨の音声案内を送信する（ステップＳＴ２２）。すなわち、操作制御部４３は、音声案内出力部４４に対して、使用者が音声認識中である旨の音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、使用者が音声認識中である旨の音声案内を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、使用者が音声認識中である旨の音声案内、例えば「ただいま音声認識操作中です。しばらくそのままでお待ちください。」という音声案内が出力される。

次いで、音声認識開始を指示する音声案内が出力される（ステップＳＴ２３）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識の開始を表す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識の開始を指示する音声案内を表す案内音声信号を生成し、ＤＳＰ１２の第１混合器３２に送る。第１混合器３２は、第１減衰器３１から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、アンプ１４に送る。アンプ１４は、第１混合器３２から送られてくる受話信号と案内音声信号とが混合された信号を増幅し、音声信号としてスピーカ６に送る。これにより、スピーカ６から、音声認識開始を指示する音声案内、例えば「音声認識を開始します。ピッと鳴ったらお話ください。」という音声案内が出力される。

以上のステップＳＴ２１〜ＳＴ２３の処理により、通話相手に対し、使用者が音声認識中である旨の音声案内を流すことができる。また、使用者および通話相手の双方ともに、相手の声の音量が小さくなるので、音声案内の聞き取りに集中することができるようになる。

次いで、使用者の声に対する音声認識が行われる（ステップＳＴ２４）。すなわち、音声認識部４１は、マイクロフォン２からエコーキャンセラ３３を介して送られてくる音声信号に対し、補助記憶装置１３から読み込んだ辞書データを用いて音声認識を実行し、得られた文字またはコマンドを、音声認識データとして操作制御部４３に送る。

次いで、音声認識結果が音声で出力される（ステップＳＴ２５）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識結果を表す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識データによって示される文字またはコマンドを含む案内音声信号を生成し、ＤＳＰ１２の第１混合器３２に送る。第１混合器３２は、第１減衰器３１から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、アンプ１４に送る。アンプ１４は、第１混合器３２から送られてくる信号を増幅し、音声信号としてスピーカ６に送る。これにより、スピーカ６から、音声認識の結果が音声で出力される。

次いで、音声認識結果が表示される（ステップＳＴ２６）。すなわち、操作制御部４３は、画像処理部４６に対して、音声認識データによって示される音声認識結果を表す文字またはコマンドを作成するように指示する。画像処理部４６は、この指示に応答して、音声認識結果の文字またはコマンドを表す画像を生成し、映像信号としてモニタ５に送る。これにより、モニタ５に、音声認識の結果が表示される。

次いで、取消ボタン１７が押下されたかどうかが調べられる（ステップＳＴ２７）。すなわち、操作制御部４３は、取消ボタン１７から取消ボタンデータが送られてきたかどうかを調べる。このステップＳＴ２７において、取消ボタン１７が押下されたことが判断されると、音声認識結果は誤りであることが認識され、取消の音声案内が出力される（ステップＳＴ２８）。すなわち、操作制御部４３は、音声案内出力部４４に対して、取消を表す音声案内を作成するように指示する。音声案内出力部４４は、操作制御部４３からの指示に応答して、取消を表す案内音声信号を生成し、ＤＳＰ１２の第１混合器３２に送る。第１混合器３２は、第１減衰器３１から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、アンプ１４に送る。アンプ１４は、第１混合器３２から送られてくる信号を増幅し、音声信号としてスピーカ６に送る。これにより、スピーカ６から、取消を表す音声案内が出力される。その後、シーケンスはステップＳＴ２４に戻り、音声認識処理が再び実行される。

上記ステップＳＴ２７において、取消ボタン１７が押下されていないことが判断されると、音声認識結果は正しいことが認識され、通話相手に対して、音声認識操作が終了した旨の音声案内が送信される（ステップＳＴ２９）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識が終了した旨の音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識が終了した旨の音声案内を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、使用者が音声認識を終了した旨の音声案内、例えば「音声認識操作を終了しました。」という音声案内が出力される。

次いで、通話音声の音量が元に戻される（ステップＳＴ３０）。すなわち、操作制御部４３は、第１減衰器３１および第２減衰器３４に対して音声を戻すように指示する。これにより、第１減衰器３１は、通信モジュール１１の受話部２１から送られてくる受話信号の減衰量を元に戻し、第１混合器３２に送る。また、第２減衰器３４は、エコーキャンセラ３３から送られてくる信号の減衰量を元に戻し、第２混合器３５に送る。これにより、通話相手に対する送話音声および通話相手からの受話音声が元の音量に戻される。その後、シーケンスは、ハンズフリー通話処理にリターンする。

次に、上記ステップＳＴ１４で行われる通話相手の声に対する音声認識処理の詳細を、図４に示すフローチャートを参照しながら説明する。

通話相手の声に対する音声認識処理では、まず、通話音声の音量が絞られる（ステップＳＴ３１）。このステップＳＴ３１の処理は、上述したステップＳＴ２１の処理と同じである。

次いで、通話相手に音声認識操作が可能になった旨の音声案内が送信される（ステップＳＴ３２）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識操作が可能になった旨の音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識操作が可能になった旨の音声案内を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識操作が可能になった旨の音声案内、例えば「登録したい場所の音声入力ができます。」という音声案内が出力される。

次いで、通話相手に発話を促す音声案内が送信される（ステップＳＴ３３）。すなわち、操作制御部４３は、音声案内出力部４４に対して、発話を促す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、発話を促す音声案内を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識操作が可能になった旨の音声案内、例えば「住所、キーワードで探す場合は１を、電話番号で探す場合は２を、郵便番号で探す場合は３を押してお話ください。」という、語句の種類の選択を指示する音声案内が出力される。

この音声案内に応答して、通話相手である携帯電話８では、発話内容の種類を選択するために、「１」〜「３」のいずれかのボタンが押される。これにより、押されたボタンに応じたプッシュトーン信号が発信され、携帯電話７を介してナビゲーションユニット１に送られる。また、携帯電話８は、自らトーンダイヤル信号を発信し、携帯電話７を介してナビゲーションユニット１に送ることにより、発話の準備ができたことを通知する。ナビゲーションユニット１では、携帯電話７から送られてきたプッシュトーン信号は、通信モジュール１１の受話部２１を介してトーン信号識別部４２に送られる。トーン信号識別部４２は、送られてきたプッシュトーン信号を解析して、押されたボタンを認識し、トーン信号識別データとして操作制御部４３に送る。

次いで、音声認識が行われる（ステップＳＴ３４）。すなわち、操作制御部４３は、トーン信号識別部４２から受け取ったトーン信号識別データによって示される語句の種類の範囲で音声認識を行うように設定した後に、音声認識部４１に対して音声認識の開始を指示する。音声認識部４１は、プッシュトーン信号に引き続いて、携帯電話７から通信モジュール１１の受話部２１を介して送られてくる受話信号に対し、補助記憶装置１３から読み込んだ辞書データを用いて音声認識を実行し、得られた文字またはコマンドを、音声認識データとして操作制御部４３に送る。

次いで、通話相手に認識結果を表す音声案内が送信される（ステップＳＴ３５）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識結果を表す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識データによって示される文字またはコマンドを含む案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識結果を示す音声案内、例えば「○○○で正しいなら１を、間違っているなら２を押してください。」という音声案内が出力される。

次いで、認識結果が正しいかどうかが調べられる（ステップＳＴ３６）。すなわち、通話相手である携帯電話８において、「１」または「２」のボタンが押されると、押されたボタンに応じたプッシュトーン信号が発信され、携帯電話７を介してナビゲーションユニット１に送られる。ナビゲーションユニット１では、携帯電話７から送られてきたプッシュトーン信号は、通信モジュール１１の受話部２１を介してトーン信号識別部４２に送られる。トーン信号識別部４２は、送られてきたプッシュトーン信号を解析して、押されたボタンを認識し、トーン信号識別データとして操作制御部４３に送る。操作制御部４３は、トーン信号識別データによって示される押されたボタンが「認識結果が正しい」（上記音声案内の例では「１」）であるかどうかを調べる。

このステップＳＴ３６において、認識結果が正しくないことが判断されると、通話相手に、音声認識を再度行うための音声案内が送信される（ステップＳＴ３７）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識を再度行うことを表す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識を再度行うことを表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識を再度行うための音声案内、例えば「取り消しました。もう一度お願いします。」という音声案内が出力される。その後、シーケンスはステップＳＴ３３に戻り、上述した処理が繰り返される。

一方、ステップＳＴ３６において、認識結果が正しいことが判断されると、通話相手に、音声認識完了の音声案内が送信される（ステップＳＴ３８）。すなわち、操作制御部４３は、音声案内出力部４４に対して、音声認識完了の音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識完了を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識完了の音声案内、例えば「登録しました。」という音声案内が出力される。

次いで、音声認識された地点がモニタ５に表示され、読み上げられる（ステップＳＴ３９）。すなわち、操作制御部４３は、画像処理部４６に対して、音声認識結果を表す文字列（地点を示す文字列）と、前記文字列が示す地点の周辺の地図を作成するように指示する。画像処理部４６は、この指示に応答して、音声認識結果の文字を表す画像と、前記文字列が示す地点の周辺の地図の画像とを生成し、映像信号としてモニタ５に送る。これにより、モニタ５に、音声認識された地点を表す文字列と、前記地点の周辺の地図が表示される。また、操作制御部４３は、音声案内出力部４４に対して、音声認識結果を示す音声案内を作成するように指示する。音声案内出力部４４は、この指示に応答して、音声認識結果を表す案内音声信号を生成し、ＤＳＰ１２の第１混合器３２に送る。第１混合器３２は、第１減衰器３１から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、アンプ１４に送る。アンプ１４は、第１混合器３２から送られてくる信号を増幅し、音声信号としてスピーカ６に送る。これにより、スピーカ６から、音声認識結果を示す音声案内が出力される。

次いで、通話音声の音量が元に戻される（ステップＳＴ４０）。このステップＳＴ４０の処理は、上述したステップＳＴ３０の処理と同じである。その後、シーケンスは、ハンズフリー通話処理にリターンする。

以上説明したように、この発明の実施の形態１に係るナビゲーション装置によれば、通話中に使用者の声に対する音声認識だけでなく、通話相手の声に対する音声認識を行うことができる。また、通話相手に認識結果を提示し、正しいか誤っているかを判断してもらうことができ、誤っている場合には相手に再度話してもらえるように音声案内をすることができるので、通話相手が意図した音声認識結果を得ることができる。

実施の形態２．
この発明の実施の形態２に係るナビゲーション装置の構成は、上述した実施の形態１に係るナビゲーション装置の構成と同じである。

次に、実施の形態２に係るナビゲーション装置の動作を説明する。この実施の形態２に係るナビゲーション装置のハンズフリー通話処理および使用者の声に対する音声認識処理は、実施の形態１に係るハンズフリー通話処理（図２参照）および使用者の声に対する音声認識処理（図３参照）と同じである。

図５は、実施の形態２に係るナビゲーション装置で行われる、通話相手の声に対する音声認識処理を示すフローチャートである。

通話相手の声に対する音声認識処理では、まず、使用者が認識させる言葉の種類が選択される（ステップＳＴ４１）。すなわち、使用者は、認識させる言葉の種類を、タッチパネル４を操作して選択する。この場合のタッチパネル４は、この発明の選択部に対応する。操作制御部４３は、この選択操作に応答して、タッチパネル４から送られてくるタッチパネルデータを受け取り、音声認識の対象とする言葉の種類を決定する。

次いで、通話相手への送話音声の音量が絞られる（ステップＳＴ４２）。すなわち、操作制御部４３は、第２減衰器３４に対して音声を絞るように指示する。この指示に応答して、第２減衰器３４は、エコーキャンセラ３３から送られてくる信号を減衰させ、第２混合器３５に送る。これにより、通話相手に対する送話音声の音量が絞られる。

次いで、通話相手に発話を促す音声案内と合図音が送信される（ステップＳＴ４３）。すなわち、操作制御部４３は、音声案内出力部４４に対して、発話を促す音声案内および合図音を作成するように指示する。音声案内出力部４４は、この指示に応答して、発話を促す音声案内および合図音を表す案内音声信号を生成し、ＤＳＰ１２の第２混合器３５に送る。第２混合器３５は、第２減衰器３４から送られてくる信号と音声案内出力部４４から送られてくる案内音声信号とを混合し、通信モジュール１１の送話部２２を介して携帯電話７に送る。携帯電話７は、送話部２２から送られてくる案内音声信号を通話相手の携帯電話８に送信する。これにより、通話相手の携帯電話８において、音声認識操作が可能になった旨の音声案内、例えば「ピッと鳴ったら住所をお話ください。」という音声案内とピッという合図音が出力される。

この音声案内に応答して、通話相手が発話することにより、音声信号が、携帯電話８から携帯電話７を介してナビゲーションユニット１に送られる。ナビゲーションユニット１においては、携帯電話７から送られてきた音声信号が、通信モジュール１１の受話部２１を介して音声認識部４１に送られる。

次いで、通話相手の声に対する音声認識が行われる（ステップＳＴ４４）。すなわち、音声認識部４１は、携帯電話７から通信モジュール１１の受話部２１を介して送られてくる受話信号に対し、補助記憶装置１３から読み込んだ辞書データを用いて音声認識を実行し、得られた文字またはコマンドを、音声認識データとして操作制御部４３に送る。この際、通話相手への送話音声の音量を小さくして音声案内が入れられるので、通話相手に音声案内を聞きやすくさせることができる。

次いで、音声認識結果が音声で出力される（ステップＳＴ４５）。このステップＳＴ４５の処理は、上述したステップＳＴ２５の処理と同じである。次いで、音声認識結果が表示される（ステップＳＴ４６）。このステップＳＴ４６の処理は、上述したステップＳＴ２６の処理と同じである。

次いで、送話音声の音量が元に戻される（ステップＳＴ４７）。すなわち、操作制御部４３は、第２減衰器３４に対して音声を戻すように指示する。これにより、第２減衰器３４は、エコーキャンセラ３３から送られてくる信号の減衰量を元に戻し、第２混合器３５に送る。これにより、通話相手に対する送話音声および通話相手からの受話音声が元の音量に戻される。

次いで、取消ボタン１７が押下されたかどうかが調べられる（ステップＳＴ４８）。このステップＳＴ４８の処理は、上述したステップＳＴ２７の処理と同じである。このステップＳＴ４８において取消ボタン１７が押下されたことが判断されると、認識結果が正しくない旨が認識され、シーケンスはステップＳＴ４２に戻って、再度、音声認識のやり直しが行われる。

一方、ステップＳＴ４８において、取消ボタン１７が押下されなかったことが判断されると、認識結果が正しい旨が認識され、次いで、音声認識された地点がモニタ５に表示され、読み上げられる（ステップＳＴ４９）。このステップＳＴ４９の処理は、上述したステップＳＴ３９の処理と同じである。その後、シーケンスは、ハンズフリー通話処理にリターンする。

以上説明したように、この発明の実施の形態２に係るナビゲーション装置によれば、実施の形態１に係るナビゲーション装置に比べて、通話相手に対する音声案内の時間が少なくなるので、音声認識中に相手と通話ができなくなる時間を減らすことができる。

また、音声認識中に通話相手からの受話音声の音量が小さくされないので、使用者は、通話相手の音声（音声認識の対象とされる音声）を聞くことができる。したがって、通話相手の声に対する音声認識が失敗したとしても、使用者は、通話相手が認識させようとした言葉を理解できるので、使用者自身の発話で音声認識操作を行うことができ、通話相手にわずらわしい音声認識操作を再度お願いする必要がなくなる。

さらに、実施の形態２に係るナビゲーション装置によれば、ＣＰＵ１８に含まれるトーン信号識別部４２は不要となるので、ＣＰＵ１８の構成を簡単化することができる。

なお、上述した実施の形態１および実施の形態２に係るナビゲーション装置においては、携帯電話８において音声認識のための操作が開始または終了されたときは、通話相手が音声認識操作中である旨をスピーカ６から音声で出力するように構成できる。この構成によれば、使用者は、通話の可または不可を判別しやすくなる。

また、携帯電話８において、音声認識のための操作が行われている場合は、通話相手が音声認識中である旨をモニタ５に表示するように構成できる。この構成によれば、使用者は、通話の可または不可を判別しやすくなる。

実施の形態３．
この発明の実施の形態３に係るナビゲーション装置の構成は、上述した実施の形態１に係るナビゲーション装置の構成と同じである。

次に、実施の形態３に係るナビゲーション装置の動作を説明する。この実施の形態３に係るナビゲーション装置のハンズフリー通話処理および使用者の声に対する音声認識処理は、実施の形態１に係るハンズフリー通話処理（図２参照）および使用者の声に対する音声認識処理（図３参照）と同じである。

図６は、実施の形態３に係るナビゲーション装置で行われる、通話相手の声に対する音声認識処理を示すフローチャートである。

通話相手の声に対する音声認識処理では、まず、使用者が認識させる言葉の種類が選択される（ステップＳＴ５１）。このステップＳＴ５１の処理は、上述したステップＳＴ４１の処理と同じである。その後、通話相手に音声案内を送ることなく、また、通話音声の音量も小さくすることなく、通話相手の声に対する音声認識が行われる（ステップＳＴ５２）。このステップＳＴ５２の処理は、上述したステップＳＴ４４の処理と同じである。

次いで、音声認識結果が表示される（ステップＳＴ５３）。このステップＳＴ５３の処理は、上述したステップＳＴ４６の処理と同じである。次いで、取消ボタン１７が押下されたかどうかが調べられる（ステップＳＴ５４）。このステップＳＴ５４の処理は、上述したステップＳＴ４８の処理と同じである。このステップＳＴ５４において取消ボタン１７が押下されたことが判断されると、認識結果が正しくない旨が認識され、シーケンスは、ハンズフリー通話処理にリターンする。この場合、音声認識は中止され、通常の通話状態に戻る。

一方、ステップＳＴ５４において取消ボタン１７が押下されていないことが判断されると、認識結果が正しい旨が認識され、次いで、音声認識された地点がモニタ５に表示され、読み上げられる（ステップＳＴ５５）。このステップＳＴ５５の処理は、上述したステップＳＴ４９の処理と同じである。その後、シーケンスは、ハンズフリー通話処理にリターンする。

以上説明したように、この発明の実施の形態３に係るナビゲーション装置によれば、通話相手に対する音声案内が行われないため、通話相手とは無関係に、使用者の都合で通話相手の声を音声認識させることができる。また、実施の形態３に係るナビゲーション装置によれば、ＣＰＵ１８に含まれるトーン信号識別部４２は不要となるので、ＣＰＵ１８の構成を簡単化することができる。

この発明に係るナビゲーション装置は、通話相手からの音声に対して音声認識を行うことにより、通話相手の意図通りの地点情報または個人情報などを直接に取得することができる。そのため、ユーザを目的地まで案内し、特に、通話相手の音声を認識することにより地点などを自動的に抽出するナビゲーション装置等に用いるのに適している。

特開２００２−２５７５７４号公報

この発明に係るナビゲーション装置は、外部通信機器との間で信号を送受信する通信モジュールと、外部通信機器から通信モジュールを介して送られてくるプッシュトーン信号を識別するトーン信号識別部と、前記トーン信号識別部で識別された情報を利用して、前記外部通信機器から通信モジュールを介して送られてくる音声信号に対する音声認識を行う音声認識部と、前記外部通信機器から前記通信モジュールを介して音声信号を受け取っている場合に、前記外部通信機器に送信する送話音声の音量を小さくする音量制御部を備えたものである。

この発明に係るナビゲーション装置によれば、音声認識中に、通話相手が案内音声を聞きやすくすることができる。

Claims

外部通信機器との間で信号を送受信する通信モジュールと、
前記外部通信機器から前記通信モジュールを介して送られてくるプッシュトーン信号を識別するトーン信号識別部と、
前記トーン信号識別部で識別された情報を利用して、前記外部通信機器から前記通信モジュールを介して送られてくる音声信号に対する音声認識を行う音声認識部
とを備えたナビゲーション装置。
音声認識部は、トーン信号識別部で識別された情報によって示される音声認識の対象とする語句の種類の範囲で、外部通信機器から通信モジュールを介して送られてくる音声信号に対する音声認識を行う
ことを特徴とする請求項１記載のナビゲーション装置。
音声認識部は、トーン信号識別部にプッシュトーン信号が送られてきたタイミングで音声認識を開始する
ことを特徴とする請求項１記載のナビゲーション装置。
音声案内を出力する音声案内出力部を備え、
前記音声案内出力部から出力された音声案内を表す信号は、通信モジュールを介して外部通信機器に送信される
ことを特徴とする請求項１記載のナビゲーション装置。
音声案内出力部は、音声認識部における認識結果の正誤を確認する音声案内を出力する
ことを特徴とする請求項４記載のナビゲーション装置。
外部通信機器から通信モジュールを介して音声信号を受け取っている場合に、前記外部通信機器に送信する送話音声の音量を小さくする音量制御部
を備えたことを特徴とする請求項１記載のナビゲーション装置。
外部通信機器において音声認識の操作が開始または終了されたときは、その旨を音声で出力するスピーカ
を備えたことを特徴とする請求項１記載のナビゲーション装置。
外部通信機器において音声認識の操作を行っている場合は、その旨を表示するモニタ
を備えたことを特徴とする請求項１記載のナビゲーション装置。
外部通信機器との間で信号を送受信する通信モジュールと、
音声認識させる言葉の種類を選択する選択部と、
音声認識の開始を指示する電話認識ボタンと、
前記電話認識ボタンが押されたタイミングで、前記選択部で選択された種類の範囲で、前記通信機器から前記通信モジュールを介して送られてくる音声信号に対する音声認識を行う音声認識部
とを備えたナビゲーション装置。