JP2006039954A - データベース検索装置、プログラム及びナビゲーション装置 - Google Patents
データベース検索装置、プログラム及びナビゲーション装置 Download PDFInfo
- Publication number
- JP2006039954A JP2006039954A JP2004218970A JP2004218970A JP2006039954A JP 2006039954 A JP2006039954 A JP 2006039954A JP 2004218970 A JP2004218970 A JP 2004218970A JP 2004218970 A JP2004218970 A JP 2004218970A JP 2006039954 A JP2006039954 A JP 2006039954A
- Authority
- JP
- Japan
- Prior art keywords
- search
- unit
- database
- character string
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】話者にとってできるだけ使い勝手の良いデータベース検索装置等を提供する。
【解決手段】あいまい検索部17は音声認識部13等を介して入力された文字列を照合キーとし、検索対象データベース16を所定の距離尺度に従って照合する。そして、距離の近い上位M個の候補を照合結果として候補表示・選択部18へ出力する。この所定の距離尺度として、文字列間距離または文字列間距離とNベストの併用の少なくとも何れか一方を用いるため、本来は「あいちぼくじょう」と音声入力されたにもかかわらず、入力音量が小さい等の事情によって最後まで認識できず「あいちぼ」という文字列しかあいまい検索部17に入力されなかった場合であっても、あいまい検索部17では、その「あいちぼ」という文字列を照合キーとし、距離の近い上位M個の候補を照合結果として出力するため、「あいちぼくじょう」を候補に残すことができ、再度の音声入力を不要となる。
【選択図】 図1
【解決手段】あいまい検索部17は音声認識部13等を介して入力された文字列を照合キーとし、検索対象データベース16を所定の距離尺度に従って照合する。そして、距離の近い上位M個の候補を照合結果として候補表示・選択部18へ出力する。この所定の距離尺度として、文字列間距離または文字列間距離とNベストの併用の少なくとも何れか一方を用いるため、本来は「あいちぼくじょう」と音声入力されたにもかかわらず、入力音量が小さい等の事情によって最後まで認識できず「あいちぼ」という文字列しかあいまい検索部17に入力されなかった場合であっても、あいまい検索部17では、その「あいちぼ」という文字列を照合キーとし、距離の近い上位M個の候補を照合結果として出力するため、「あいちぼくじょう」を候補に残すことができ、再度の音声入力を不要となる。
【選択図】 図1
Description
本発明は、話者によって入力された音声に基づいてデータベースを検索して検索結果を得る装置等に関する。
話者によって入力された音声に基づいてデータベースを検索して検索結果を得る装置が広く知られている。この場合の音声認識に関しては、音素単位の比較対象パターンを記憶している認識辞書を用いて話者の意図する単音節を一単音節ずつ決定する手法がある。例えばカーナビゲーション装置においては、施設名称で目的地を設定する際に、その名称をリモコンやタッチパネルにて一文字ずつ入力していくのはわずらわしいため、文字入力に音声認識を用いることが考えられ、実現されている。このようなタイプの音声認識は、単語(複数の単音節からなる語)単位の音声認識のように音声認識を行う単語全てに対応する単語辞書を予め備えている必要がないため、最終的な認識結果の集合(例えば文)としては事実上、どのようなものでも認識させることができるという利点がある。しかし、単音節の音声を認識する場合は、単語単位の音声認識に比較して認識手がかりが少ないため、一般的に認識率が低い。そのため、このような単音節の音声を認識する音声認識手法では、より認識精度を向上させるために様々な工夫が施されている。例えば、特許文献1に開示された技術では、音声認識して複数の音節列を生成し、n−gram辞書を用いて複数の単語列を生成し初期候補及び複数の次候補として格納しておく。そして、単語列を表示してユーザから誤認識文字列が指定されると、誤認識文字列の文字位置に相当する全ての文字列だけが文字変更された単語列を次候補から検索して表示するようにしている。
特開2002−140094号公報
しかしながら、特許文献1に開示された技術の場合、誤認識の中でも特に、音声が途中で切れてしまった場合には全く対応できない。例えば音声を発声した際の音量が小さかったり、ノイズの影響などで、音声認識における音声区間検出を誤ってしまう場合がある。この場合、話者が発した音声を実質的に削ってしまうと、正しく認識できなくなってしまう。例えば、「あいちぼくじょう」と発声したとき、認識時における音声区間を誤って「あいちぼ」としてしまうような場合である。
このような誤認識においては、特許文献1における技術では認識されていない箇所を指定することはできないため、誤認識文字列を指定すること自体ができず、結局、もう一度同じ内容を発声し直す必要がある。
本発明は、このような問題に鑑みなされたものであり、ユーザにとってできるだけ使い勝手の良いデータベース検索装置等を提供することを目的とする。
上記課題を解決するためになされた請求項1に記載のデータベース検索装置は、文字列入力部と、検索対象データベースと、あいまい検索部とを備える。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
そして、あいまい検索部は、文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力する。
なお、この所定の距離尺度の例としては、例えば文字列入力部を介して入力された文字列における、検索対象データベース中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である文字列間距離、または、文字列間距離と音声認識部の認識結果の複数の候補を尤度の高い順に並べた場合の上位N個の候補であるNベストの併用の少なくとも何れか一方を用いることが考えられる。
このような構成を備える本発明のデータベース検索装置によれば、本来は「あいちぼくじょう」と音声入力されたにもかかわらず、文字列入力部では例えば音声認識時の誤認識等によって「あいちぼ」としか入力できなかった場合であっても、あいまい検索部では、その「あいちぼ」という文字列を照合キーとし、距離の近い上位M個の候補を照合結果として出力するため、「あいちぼくじょう」を候補に残すことができる。したがって、上述した特許文献1における技術のように、結局もう一度同じ内容を発声し直さなくてはならないという不便さもなく、使い勝手が向上する。
なお、あいまい検索部から出力された照合結果の利用方法は種々考えられるが、例えば請求項7に示すように利用することが考えられる。つまり、候補表示・選択部が、あいまい検索部から照合結果を受け取って画面上に表示し、話者にその一つを選択させて検索キーとして出力する。データ検索部は、候補表示・選択部から受け取った検索キーを用いて検索対象データベースを検索し、検索された情報を検索結果として出力する。そして、検索結果提示部は、データ検索部から受け取った検索結果を話者に提示する。
請求項2に記載のデータベース検索装置は、文字列入力部と、検索対象データベースと、あいまい検索指示部と、あいまい検索部と、候補表示・選択部と、データ検索部と、検索結果提示部とを備える。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
あいまい検索指示部は、話者の操作に基づいて、あいまい検索を実行するか否かを指示する。あいまい検索部と、候補表示・選択部と、データ検索部は、このあいまい検索指示部によってあいまい検索の実行が指示されているか否かによって次のような動作をする。
あいまい検索部は、あいまい検索指示部によってあいまい検索の実行が指示された場合には、文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力する。また、候補表示・選択部は、あいまい検索指示部によってあいまい検索の実行が指示された場合には、あいまい検索部から照合結果を受け取って画面上に表示し、話者にその一つを選択させて検索キーとして出力する。
データ検索部は、あいまい検索指示部によってあいまい検索の実行が指示された場合には、候補表示・選択部から受け取った検索キーを用いて検索対象データベースを検索し、一方、あいまい検索指示部によってあいまい検索の実行が指示されない場合には、文字列入力部にて入力された文字列を受け取り、その文字列を用いて検索対象データベースを検索し、検索された情報を検索結果として出力する。
検索結果提示部は、データ検索部から受け取った検索結果を話者に提示する。
本発明のデータベース検索装置によれば、話者があいまい検索を実行するか否かを指示することができる。あいまい検索を常に実行した方がよいというものではなく、一意に決めた方がよい場合もあれば、複数の候補を残した方がよい場合もある。一意に決まりやすいのであれば、あえて複数候補を残さない方がよい。例えば話者の発音の特徴や認識対象語彙の特徴によって誤認識され易さは変化するため、誤認識されにくい状況であれば、あいまい検索をしない方がよい。したがって、あいまい検索を実行するか否かを話者が選択指示できるようにすれば、より使い勝手がよくなる。
本発明のデータベース検索装置によれば、話者があいまい検索を実行するか否かを指示することができる。あいまい検索を常に実行した方がよいというものではなく、一意に決めた方がよい場合もあれば、複数の候補を残した方がよい場合もある。一意に決まりやすいのであれば、あえて複数候補を残さない方がよい。例えば話者の発音の特徴や認識対象語彙の特徴によって誤認識され易さは変化するため、誤認識されにくい状況であれば、あいまい検索をしない方がよい。したがって、あいまい検索を実行するか否かを話者が選択指示できるようにすれば、より使い勝手がよくなる。
なお、話者の発音の特徴としては、「発音のくせ」が挙げられる。例えば誤認識され易いような発音のくせを持つような場合にはあいまい検索を実行した方がよいが、例えばアナウンサーのような滑舌がよく誤認識されにくい話者の場合にはあいまい検索を実行しないようにする、といったことである。一方、認識対象語彙の特徴としては、元々発音内容が誤認識し易いものなのか否かということが挙げられる。例えば、発音自体は正確であっても、「ぱ」と「ま」のように一般的に誤認識され易い対象語彙がある。したがって、通常はあいまい検索を実行しないようにしている人であっても、認識対象語彙の特徴によって誤認識の可能性が相対的に高いのであれば、あいまい検索を実行した方がよいとも考えられる。
請求項3に記載のデータベース検索装置は、文字列入力部と、検索対象データベースと、あいまい検索部と、誤りやすさデータベースとを備える。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
あいまい検索部は、文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力する。
そして、誤りやすさデータベースは、各音素に対応する音声認識の誤りやすさをデータとして保持しており、あいまい検索部は、誤りやすさデータベースにおける各音素に対応する音声認識の誤りやすさを加味した距離尺度を用いて、照合を行う。
このようにすれば、あいまい検索部における照合の結果、音声認識を誤りやすい候補ほど上位の照合結果として出力することができる。
この「誤りやすさデータベースが保持する各音素に対応する音声認識の誤りやすさを示すデータ」としては、請求項4に示すような音素別距離のデータを採用することが考えられる。すなわち、文字列入力部を介して入力された文字列における、検索対象データベース中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である文字列間距離を計算するために用いられる音素別距離のデータであって、挿入、脱落、置換という誤りが生じやすい音素についてはそれ以外の音素よりも音素別距離を小さく設定したデータである。
この「誤りやすさデータベースが保持する各音素に対応する音声認識の誤りやすさを示すデータ」としては、請求項4に示すような音素別距離のデータを採用することが考えられる。すなわち、文字列入力部を介して入力された文字列における、検索対象データベース中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である文字列間距離を計算するために用いられる音素別距離のデータであって、挿入、脱落、置換という誤りが生じやすい音素についてはそれ以外の音素よりも音素別距離を小さく設定したデータである。
また、この「誤りやすさデータベースが保持する各音素に対応する音声認識の誤りやすさを示すデータ」については、話者の個人差があるので、話者毎にカスタマイズできるようになっていると好ましい。そこで請求項5に示すように、さらに、候補表示・選択部と、データ検索部と、誤りやすさ補正部とを備えるようにすることが考えられる。候補表示・選択部は、あいまい検索部から照合結果を受け取って画面上に表示し、話者にその一つを選択させて検索キーとして出力する。データ検索部は、候補表示・選択部から受け取った検索キーを用いて検索対象データベースを検索し、検索された情報を検索結果として出力する。検索結果提示部は、データ検索部から受け取った検索結果を話者に提示する。
そして、誤りやすさ補正部は、音声認識部から出力される第1位の認識結果と、候補表示・選択部から出力される検索キーとを受け取り、両者の違いに基づいて誤りやすさデータベースにおける各音素に対応する音声認識の誤りやすさを示すデータ補正する。
請求項6に記載のデータベース検索装置は、文字列入力部と、検索対象データベースと、あいまい箇所指定部と、あいまい検索部とを備える。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
文字列入力部は、少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び音声入力部が入力した音声を分析し、認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも音声認識部における認識結果を文字列として入力する。検索対象データベースは、検索対象のデータを保持している。
そして、あいまい箇所指定部は、話者の操作に基づいて、文字列入力部にて入力された文字列の内であいまい検索の対象とすべき箇所を指定する。あいまい検索部は、文字列入力部にて入力された文字列を受け取って照合キーとし、あいまい箇所指定部によってあいまい検索対象箇所の指定がされていない場合には照合キーを用いて検索対象データベースを所定の距離尺度に従って照合し、一方、あいまい箇所指定部によってあいまい検索対象箇所の指定がされている場合には照合キー中の当該指定されたあいまい検索対象箇所を用いて検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力する。
本発明のデータベース検索装置によれば、話者があいまい検索の対象とすべき箇所を指定できるため、その指定された部分を対象としたあいまい検索を実行することで、より話者の意図する検索結果を得やすくなる。
あいまい検索部が照合の際に用いる距離尺度については、文字列間距離や文字列間距離とNベストの組み合わせがあることは上述したが、請求項9に示すように、照合手法選択部を備えるようにしてもよい。この照合手法選択部は、話者の操作に基づき、あいまい検索部における照合に際して、文字列間距離を用いるか、あるいは文字列間距離とNベストの併用とするかを選択する。そして、あいまい検索部は、照合手法選択部にて選択された照合手法を用いて照合を実行する。
文字列入力部については、音声認識による文字列の入力ができることが前提であるが、例えば請求項10に示すように、話者の操作に基づく文字列入力も可能に構成されていてもよい。ユーザは、用途等に応じて両者を選択的に使用したり併用したりすることも考えられるからである。
ところで、請求項11に記載のような、請求項1〜10の何れかに記載のデータベース検索装置におけるあいまい検索部として機能させるためのプログラムを、データベース検索装置が内蔵するコンピュータに実行させるようになっていてもよい。このようになっていれば、例えば、フレキシブルディスク、光磁気ディスク、CD−ROM、ハードディスク、ROM、RAM等のコンピュータが読みとり可能な記録媒体にプログラムを記録し、そのプログラムを必要に応じてコンピュータにロードして起動することによりデータベース検索装置におけるあいまい検索部として機能させることができる。また、プログラムはネットワーク等を用いて流通させることも可能であるため、データベース検索装置の機能向上も容易である。
また、請求項12に記載のような、請求項5に記載のデータベース検索装置におけるあいまい検索部及び誤りやすさ補正部として機能させるためのプログラムについても同様である。もちろん、このようなプログラムは、記憶媒体に記憶させてもよい。
ところで、データベース検索装置は、請求項13に記載のように、ナビゲーション装置と連携するようになっており、データベース検索装置が得る検索結果を用いてナビゲーション装置がナビゲーション処理を実行するようになっているとよい。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、経路設定や、設定された経路にしたがって経路案内を実行する経路案内処理等である。例えば地図表示をさせたい地名や、経路設定の際の目的地等を検索する場合にデータベース検索装置を用いることができる。
以下に本発明の実施形態を図面と共に説明する。
[第1実施形態]
図1は、第1実施形態のデータベース検索装置の概略構成を示すブロック図である。
[第1実施形態]
図1は、第1実施形態のデータベース検索装置の概略構成を示すブロック図である。
本実施形態のデータベース検索装置は、音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えている。
音声入力部11は、話者の発声した音声を入力するためのものであり、図示しないマイクロフォンから入力された音声信号をデジタルデータに変換して音声認識部13へ出力する。なお、音声入力部11は、入力した音声の特徴量を分析するため、例えば数10ms程度の区間のフレーム信号を一定間隔で切り出し、その入力信号が音声の含まれている音声区間であるのか音声の含まれていない雑音区間であるのか判定する。マイクロフォンから入力される信号は、認識対象の音声だけでなく雑音も混在したものであるため、音声区間と雑音区間の判定を行なう。この判定方法としては従来から多くの手法が提案されており、例えば入力信号の短時間パワーを一定時間毎に抽出していき、所定の閾値以上の短時間パワーが一定以上継続したか否かによって音声区間であるか雑音区間であるかを判定する手法がよく採用されている。そして、音声区間であると判定された場合には、その入力信号が音声認識部13へ出力されることとなる。
認識辞書12は、音素単位の比較対象パターンを記憶している。音声認識部13は、音声入力部11を介して入力される音声信号に基づき、認識辞書12を用いて認識した結果(文字列)を認識結果として文字列表示部15及びあいまい検索部17へ出力する。
文字入力部14は、例えばタッチスイッチやキーボード等の(音声入力ではなく)話者の操作に基づく文字入力を受け付けるためのものであり、この文字入力部14にて入力された文字列も文字列表示部15及びあいまい検索部17へ出力される。例えば図8においては画面にひらがなの50音表示がされており、所望のひらがな部分をタッチすると、表示面と一体に構成されたタッチスイッチによって当該操作が検出され、文字入力が実現されることとなる。
なお、音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14とが特許請求の範囲における「文字列入力部」に相当する。
文字列表示部15は、音声認識部13または文字入力部14から出力された文字列を表示するためのものであり、例えば図8においては「なかしまや」という文字列が表示されている。
文字列表示部15は、音声認識部13または文字入力部14から出力された文字列を表示するためのものであり、例えば図8においては「なかしまや」という文字列が表示されている。
検索対象データベース16は、検索対象のデータを保持している。具体的には、タウンページに登録されているすべてあるいはその一部の施設名称のデータ、または、ハローページに登録されている個人名のデータなどを指している。
あいまい検索部17は、音声認識部13または文字入力部14を介して入力された文字列を照合キーとし、その照合キーを用いて検索対象データベース16を所定の距離尺度に従って照合する。そして、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として候補表示・選択部18へ出力する。本実施形態においては、この所定の距離尺度として、文字列間距離、または、文字列間距離とNベストの併用の少なくとも何れか一方を用いる。
Nベストとは、音声認識部13の認識結果の複数の候補を尤度の高い順に並べた場合の上位N個の候補である。
また、文字列間距離は、音声認識部13または文字入力部14を介して入力された文字列における、検索対象データベース16中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である。具体例を説明する。例えば、入力文字列が「はいちむけ」、候補文字列が「あいちけん」であった場合には、候補文字列の「あ」が「は」に置換され、入力文字列の「む」が挿入され、候補文字列の「ん」が脱落している。したがって文字列間距離は1+1+1+=3となる。なお、挿入、脱落、置換した文字の特定には、DPマッチングを用いることができる。
また、文字列間距離は、音声認識部13または文字入力部14を介して入力された文字列における、検索対象データベース16中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である。具体例を説明する。例えば、入力文字列が「はいちむけ」、候補文字列が「あいちけん」であった場合には、候補文字列の「あ」が「は」に置換され、入力文字列の「む」が挿入され、候補文字列の「ん」が脱落している。したがって文字列間距離は1+1+1+=3となる。なお、挿入、脱落、置換した文字の特定には、DPマッチングを用いることができる。
また、「距離の近い上位M個の候補」については上述の説明からもわかるように、同音意義語をさすのではなく、「たかしまや」という発声に対して、「たかしまや」「かしまや」「なかしまや」など音響的もしくは文字列として近い候補を意味する。
候補表示・選択部18は、あいまい検索部17から照合結果を受け取って画面上に表示し、話者にその一つを選択させて検索キーとしてデータ検索部19へ出力する。例えば図8に示す画面例で言えば、中島屋・高島屋・鹿島屋という3つの照合結果があいまい検索部17から送られてくるので、それを表示する。そして、話者が例えば高島屋と表示された部分をタッチすると、表示面と一体に構成されたタッチパネルによってその操作が検出され、選択操作となる。そして、その選択された「高島屋」が検索キーとしてデータ検索部19へ出力される。
データ検索部19は、候補表示・選択部18から受け取った検索キーを用いて検索対象データベース16を検索し、検索された情報を検索結果として検索結果提示部20へ出力する。検索結果提示部20は、データ検索部19から受け取った検索結果を話者に提示する。
このような構成を備える本実施形態のデータベース検索装置によれば、あいまい検索部17が、音声認識部13または文字入力部14を介して入力された文字列を照合キーとし、その照合キーを用いて検索対象データベース16を文字列間距離、または、文字列間距離とNベストの併用の少なくとも何れか一方を用いて照合し、距離の近い上位M個の候補を照合結果として候補表示・選択部18へ出力する。そのため、例えば、本来は「あいちぼくじょう」と音声入力されたにもかかわらず、入力音量が小さい、あるいはノイズによってかき消された等の事情によって最後まで認識できず「あいちぼ」という文字列しかあいまい検索部17に入力されなかった場合であっても、あいまい検索部17では、その「あいちぼ」という文字列を照合キーとし、距離の近い上位M個の候補を照合結果として出力するため、「あいちぼくじょう」を候補に残すことができる。従来手法の場合、このような状況では別候補として「あいちぼくじょう」を準備することができないため、結局もう一度同じ内容を発声し直さなくてはならないという不便さがあった。それに対して本実施例の場合には、再度の音声入力がなくても、「あいちぼくじょう」を候補に残すことができるため、使い勝手が向上する。
[ナビゲーション装置へ適用した場合の概略構成]
本実施形態のデータベース検索装置は種々の装置と連携することが可能であるが、その一例として、ナビゲーション装置と連携した場合について説明する。ナビゲーション装置と連携する場合には、データベース検索装置が得る検索結果を用いてナビゲーション装置がナビゲーション処理を実行する。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、経路設定や、設定された経路にしたがって経路案内を実行する経路案内処理等である。例えば地図表示をさせたい地名や、経路設定の際の目的地等を検索する場合にデータベース検索装置を用いることができる。
本実施形態のデータベース検索装置は種々の装置と連携することが可能であるが、その一例として、ナビゲーション装置と連携した場合について説明する。ナビゲーション装置と連携する場合には、データベース検索装置が得る検索結果を用いてナビゲーション装置がナビゲーション処理を実行する。ここで言うナビゲーション処理というのは、例えば、地図を表示させて更にその地図上に現在地を表示させる処理や、経路設定や、設定された経路にしたがって経路案内を実行する経路案内処理等である。例えば地図表示をさせたい地名や、経路設定の際の目的地等を検索する場合にデータベース検索装置を用いることができる。
それでは、本実施形態のデータベース検索装置を備え、そのデータベース検索装置によって得られた検索結果をナビゲーション処理に用いるナビゲーション装置50に関して、図11を参照して説明する。
ナビゲーション装置50は車両に搭載され、車両の現在位置を検出する位置検出器51と、ユーザーからの各種指示を入力するための操作スイッチ群52と、操作スイッチ群52と同様に各種指示を入力可能であってナビゲーション装置50とは別体となったリモートコントロール端末(以下、リモコンと称す)53aと、リモコン53aからの信号を入力するリモコンセンサ53bと、地図データや各種の情報を記録した地図記憶媒体から地図データ等を入力する地図データ入力器55と、地図や各種情報の表示を行うための表示部56と、各種のガイド音声等を出力するための音声出力部57と、音声を入力して音声情報を出力するマイクロフォン58と、音声認識関連データを入出力する音声認識関連データ入出力器60と、上述した位置検出器51,操作スイッチ群52,リモコンセンサ53b,地図データ入力器55,マイクロフォン58,音声認識関連データ入出力器60からの入力に応じて各種処理を実行し、表示部56,音声出力部57,音声認識関連データ入出力器60を制御する制御部59とを備えている。
位置検出器51は、GPS(Global Positioning System)用の人工衛星からの送信電波をGPSアンテナを介して受信し、車両の位置,方位,速度等を検出するGPS受信機51aと、車両に加えられる回転運動の大きさを検出するジャイロスコープ51bと、車両の前後方向の加速度等から走行した距離を検出するための距離センサ51cと、地磁気から進行方位を検出するための地磁気センサ51dとを備えている。そして、これら各センサ等51a〜51dは、各々が性質の異なる誤差を有しているため、互いに補完しながら使用するように構成されている。
操作スイッチ群52は、表示部56の表示面と一体に構成されたタッチパネル及び表示部56の周囲に設けられたメカニカルなキースイッチ等から構成される。尚、タッチパネルと表示部56とは積層一体化されており、タッチパネルには、感圧方式,電磁誘導方式,静電容量方式,あるいはこれらを組み合わせた方式など各種の方式があるが、その何れを用いてもよい。
地図データ入力器55は、図示しない地図記憶媒体に記憶された各種データを入力するための装置である。地図記憶媒体には、地図データ(道路データ、地形データ、マークデータ、交差点データ、施設のデータ等)、案内用の音声データ、音声認識データ等が記憶されている。このようなデータを記憶する地図記憶媒体の種類としては、CD−ROMやDVD等が一般的であるが、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いても良い。
表示部56は、カラー表示装置であり、液晶ディスプレイ,有機ELディスプレイ,CRTなどがあるが、その何れを用いてもよい。表示部56の表示画面には、位置検出器51にて検出した車両の現在位置と地図データ入力器55より入力された地図データとから特定した現在地を示すマーク、目的地までの誘導経路、名称、目印、各種施設のマーク等の付加データとを重ねて表示することができる。また、施設のガイド等も表示できる。
音声出力部57は、地図データ入力器55より入力した施設のガイドや各種案内の音声を出力することができる。
マイクロフォン58は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部59に出力するものである。利用者はこのマイクロフォン58に様々な音声を入力することにより、ナビゲーション装置50を操作することができる。
マイクロフォン58は、利用者が音声を入力(発話)するとその入力した音声に基づく電気信号(音声信号)を制御部59に出力するものである。利用者はこのマイクロフォン58に様々な音声を入力することにより、ナビゲーション装置50を操作することができる。
音声認識関連データ入出力器60は、図示しない音声認識関連データ記憶媒体に記憶された各種データを入出力するための装置である。音声認識関連データ記憶媒体には、音声認識のための音素単位の特徴パラメータ等からなる認識辞書、検索対象データベースが記憶されている。このようなデータを記憶する記憶媒体の種類としては、ハードディスクなどの磁気記憶装置やメモリカード等の媒体を用いると良い。
制御部59は、CPU,ROM,RAM,I/O及びこれらの構成を接続するバスラインなどからなる周知のマイクロコンピュータを中心に構成されており、ROM及びRAMに記憶されたプログラムに基づいて各種処理を実行する。例えば、位置検出器51からの各検出信号に基づき座標及び進行方向の組として車両の現在位置を算出し、地図データ入力器55を介して読み込んだ現在位置付近の地図等を表示部56に表示する表示処理や、地図データ入力器55に格納された地点データと、操作スイッチ群52やリモコン53a等の操作に従って設定された目的地とに基づいて、現在位置から目的地までの最適な経路を算出し、その算出した経路を案内する経路案内処理を行う。また、制御部59は上述したデータベース検索装置における音声認識処理をはじめ、各種処理を実行することができる。
ここまででナビゲーション装置50の概略構成を説明したが、ナビゲーション装置50の各部と図1に示すデータベース検索装置の各部との対応を示す。マイクロフォン58が音声入力部11に相当し、表示部56が文字列表示部15、候補表示・選択部18及び検索結果提示部20に相当し、操作スイッチ群52が文字入力部14、候補表示・選択部18及びあいまい検索指示部25に相当し、制御部59が音声認識部13、あいまい検索部17及びデータ検索部19に相当し、音声認識関連データ入出力器60によってデータ入出力する対象の音声認識関連データ記憶媒体が認識辞書12及び検索対象データベース16に相当する。
[第2実施形態]
図2は、第2実施形態のデータベース検索装置の概略構成を示すブロック図である。
[第2実施形態]
図2は、第2実施形態のデータベース検索装置の概略構成を示すブロック図である。
上述した第1実施形態のデータベース検索装置と同様の構成部分については同じ符号を付して詳しい説明は省略し、相違点についてのみ詳しく説明する。
第2実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、あいまい検索指示部25を備えている。あいまい検索指示部25は、話者の操作に基づいて、あいまい検索を実行するか否かを指示するためのものである。
第2実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、あいまい検索指示部25を備えている。あいまい検索指示部25は、話者の操作に基づいて、あいまい検索を実行するか否かを指示するためのものである。
そしてさらに、音声認識部13または文字入力部14を介して入力された文字列の行き先として、第1実施形態と同じようにあいまい検索部17へ振り分けるか、あるいは直接データ検索部19へ振り分けるかを選択できるように構成されている。つまり、あいまい検索指示部25からあいまい検索指示が出されていない場合には、音声認識部13または文字入力部14を介して入力された文字列があいまい検索部17へは出力されずにデータ検索部19へ出力されるルートとなる。一方、あいまい検索指示部25からあいまい検索指示が出された場合には、音声認識部13または文字入力部14を介して入力された文字列は第1実施形態と同様あいまい検索部17へは出力される。したがって、その後、候補表示・選択部18を介してデータ検索部19へ出力されるルートとなる。
あいまい検索指示部25は、例えばタッチスイッチにて構成することが考えられる。例えば図8においては、画面中の右上付近に「あいまい検索」という表示がされており、その表示部分をタッチすると、表示面と一体に構成されたタッチスイッチによって当該操作が検出され、あいまい検索の実行指示を受け付けたこととなる。
本実施形態のデータベース検索装置におけるあいまい検索部17と、候補表示・選択部18と、データ検索部19は、このあいまい検索指示部25によってあいまい検索の実行が指示されているか否かによって次のような動作をする。
あいまい検索指示部25によってあいまい検索の実行が指示された場合には、あいまい検索部17は、音声認識部13または文字入力部14を介して入力された文字列を受け取って照合キーとし、その照合キーを用いて検索対象データベース16を所定の距離尺度(例えば上記第1実施形態と同様に、文字列間距離、または、文字列間距離とNベストの併用の少なくとも何れか一方)に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力する。また、候補表示・選択部18は、あいまい検索指示部25によってあいまい検索の実行が指示された場合には、あいまい検索部17から照合結果を受け取って画面上に表示し、話者にその一つを選択させて検索キーとして出力する。データ検索部19は、あいまい検索指示部25によってあいまい検索の実行が指示された場合には、候補表示・選択部18から受け取った検索キーを用いて検索対象データベース16を検索する。
一方、あいまい検索指示部25によってあいまい検索の実行が指示されない場合には、音声認識部13または文字入力部14を介して入力された文字列はあいまい検索部17へは出力されず、直接データ検索部19へ出力される。したがって、データ検索部19は、その入力された文字列を受け取り、その文字列を用いて検索対象データベース16を検索する。
本実施形態のデータベース検索装置によれば、話者があいまい検索指示部25を操作することで、あいまい検索を実行するか否かを指示することができる。あいまい検索は常に実行した方がよいというものではなく、一意に決めた方がよい場合もあれば、複数の候補を残した方がよい場合もある。一意に決まりやすいのであれば、あえて複数候補を残さない方がよい。例えば音声認識部13における音声認識について考察してみると、話者の発音の特徴や認識対象語彙の特徴によって誤認識され易さは変化する。例えば、話者の発音の特徴としては「発音のくせ」が挙げられる。誤認識され易いような発音のくせを持つような場合にはあいまい検索を実行した方がよいが、滑舌がよく誤認識されにくい話者の場合にはあいまい検索を実行しないようにする、といったことである。一方、認識対象語彙の特徴としては、元々発音内容が誤認識し易いものなのか否かということが挙げられる。例えば、発音自体は正確であっても、「ぱ」と「ま」のように一般的に誤認識され易い対象語彙がある。したがって、通常はあいまい検索を実行しないようにしている人であっても、認識対象語彙の特徴によって誤認識の可能性が相対的に高いのであれば、あいまい検索を実行した方がよいとも考えられる。このような事情があるため、あいまい検索を実行するか否かを話者が選択指示できるようにすれば、より使い勝手がよくなる。
図9に示す例で説明する。話者が「たかしまや」と発声したにもかかわらず音声認識部13から出力された文字列が「なかしまや」であったとする(図9(a)参照)。このような誤認識が発生したとしても再度「たかしまや」と話者が発声を繰り返す必要はなく、あいまい検索指示部25、すなわち図9で言えば「あいまい検索ボタン」部分を押すだけでよい。その場合、あいまい検索部17が音声認識部13から入力された文字列に基づいてあいまい検索を実行することによって、図9(b)に示すように「たかしまや」も候補に現れる。
[第3実施形態]
図3は、第3実施形態のデータベース検索装置の概略構成を示すブロック図である。
[第3実施形態]
図3は、第3実施形態のデータベース検索装置の概略構成を示すブロック図である。
上述した第1実施形態のデータベース検索装置と同様の構成部分については同じ符号を付して詳しい説明は省略し、相違点についてのみ詳しく説明する。
第3実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、誤りやすさデータベース30を備えている。この誤りやすさデータベース30は、あいまい検索部17があいまい検索に際して参照するためのものであり、各音素に対応する音声認識の誤りやすさをデータとして保持している。あいまい検索部17は、誤りやすさデータベース30における各音素に対応する音声認識の誤りやすさを加味した距離尺度を用いて、照合を行う。
第3実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、誤りやすさデータベース30を備えている。この誤りやすさデータベース30は、あいまい検索部17があいまい検索に際して参照するためのものであり、各音素に対応する音声認識の誤りやすさをデータとして保持している。あいまい検索部17は、誤りやすさデータベース30における各音素に対応する音声認識の誤りやすさを加味した距離尺度を用いて、照合を行う。
この「誤りやすさデータベースが保持する各音素に対応する音声認識の誤りやすさを示すデータ」として、本実施形態では音素別距離のデータを採用している。図4を参照してさらに説明する。図4(a)は置換、脱落誤りの音素別距離を示す表であり、図4(b)は挿入誤りの音素別距離を示す表である。
第1実施形態における文字列間距離の説明においては、1個の挿入、脱落、置換をそれぞれ距離1として計算したが、図4(a)(b)に示すように、本実施形態においては、挿入、脱落、置換という誤りが生じやすい音素についてはそれ以外の音素よりも音素別距離を小さく(つまり1未満)設定してある。図4(a)の表で具体例を説明すると、音素が置換または脱落した場合、通常距離は1であるが、「ま」が「ぱ」に置換されたときの距離が0.5となっている。また、脱落しやすい「ん」については脱落したときの距離が0.1となっている。一方、図4(b)の表で具体例を説明すると、音素が挿入された場合、通常距離は1であるが、挿入エラーのおきやすい「つ」「な」が挿入されたときの距離がそれぞれ0.6、0.7となっている。
このような誤りやすさデータベース30を用いてあいまい検索部17があいまい検索を実行することによって、音声認識を誤りやすい候補ほど上位の照合結果として出力することができる。具体例を挙げて説明する。例えば「ま」は「ぱ」と誤認識されることが多いので、図4(a)に示すように置換誤りの距離が0.5に設定されている。理解を容易にするために、他の置換誤りの距離をすべて1と仮定した場合を想定すると、入力文字列が「ぱいたうん」だった場合、以下の2つの候補文字列1,2との間の距離はそれぞれ0.5、1.0となる。したがって、正解が「まいたうん」である確率の方が、「けいたうん」である確率よりも高くなる。
入力文字列: ぱいたうん
候補文字列1: まいたうん → (「ま」が「ぱ」に置換された)距離=0.5
候補文字列2: けいたうん → (「け」が「ぱ」に置換された)距離=1.0
[第4実施形態]
図5は、第4実施形態のデータベース検索装置の概略構成を示すブロック図である。
候補文字列1: まいたうん → (「ま」が「ぱ」に置換された)距離=0.5
候補文字列2: けいたうん → (「け」が「ぱ」に置換された)距離=1.0
[第4実施形態]
図5は、第4実施形態のデータベース検索装置の概略構成を示すブロック図である。
上述した第3実施形態のデータベース検索装置と同様の構成部分については同じ符号を付して詳しい説明は省略し、相違点についてのみ詳しく説明する。
相違点は、図3に示す第3実施形態のデータベース検索装置に、誤りやすさ補正部35を追加した点である。この誤りやすさ補正部35は、音声認識部13から出力される第1位の認識結果(1位候補)と、候補表示・選択部18から出力される検索キーとを受け取り、両者の違いに基づいて誤りやすさデータベース30における音素別距離のデータを補正する。
相違点は、図3に示す第3実施形態のデータベース検索装置に、誤りやすさ補正部35を追加した点である。この誤りやすさ補正部35は、音声認識部13から出力される第1位の認識結果(1位候補)と、候補表示・選択部18から出力される検索キーとを受け取り、両者の違いに基づいて誤りやすさデータベース30における音素別距離のデータを補正する。
具体的には、認識結果として「ぱいたうん」が出力され、候補表示・選択部から「まいたうん」が出力された場合、入力「ぱ」が候補「ま」に間違えやすいと考え、誤りやすさデータベースに登録されている入力「ぱ」と候補「ま」に登録されている数値0.5に対し、例えば、0.5−kと補正する。このときkは、例えば、0.01のような値とする。ただし、前記数値の上限値と下限値を設けることで行き過ぎた補正を抑止する。このようにすることで、「ぱ」を「ま」に間違えやすいことを誤りやすさデータベースに反映できる。
このように誤りやすさデータベース30における音素別距離のデータを補正する意図は次の通りである。つまり、この音素別距離は音声認識の誤りやすさに対応しているが、話者の個人差があると考えられる。したがって、話者毎にカスタマイズできるようになっていると好ましい点に鑑み、このデータを補正するのである。
[第5実施形態]
図6は、第5実施形態のデータベース検索装置の概略構成を示すブロック図である。
[第5実施形態]
図6は、第5実施形態のデータベース検索装置の概略構成を示すブロック図である。
上述した第1実施形態のデータベース検索装置と同様の構成部分については同じ符号を付して詳しい説明は省略し、相違点についてのみ詳しく説明する。
第5実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、あいまい箇所指定部40を備えている。
第5実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、あいまい箇所指定部40を備えている。
あいまい箇所指定部40は、話者の操作に基づいて、入力文字列の内であいまい検索の対象とすべき箇所を指定するためのものである。あいまい箇所指定部40は、例えばタッチスイッチにて構成することが考えられる。例えば図10においては、画面中の左上付近に文字列表示部15が存在し、図10では「あいちぼくじゃう」と表示されている。この表示部分の内でユーザが修正したいと考える部分をタッチすると、表示面と一体に構成されたタッチスイッチによって当該操作が検出され、あいまい箇所の指定を受け付けたこととなる。図10の例では「じゃ」という部分があいまい箇所として指定された状態を示している。
本実施形態のデータベース検索装置におけるあいまい検索部17は、あいまい箇所指定部40によってあいまい検索の対象箇所が指定されていない場合には、通常通り、入力された文字列を照合キーとして検索対象データベース16を所定の距離尺度に従って照合する。一方、あいまい箇所指定部40によってあいまい検索対象箇所の指定がされている場合には、照合キー中の当該指定されたあいまい検索対象箇所を用いて検索対象データベース16を所定の距離尺度に従って照合する。したがって、図10の例で言えば、「あいちぼくじゃう」という文字列の「じゃ」の部分をあいまい検索箇所として指定すれば、その部分のあいまい検索の結果、「あいちぼくじょう」が照合結果として出力されることとなる。
[第6実施形態]
図7は、第6実施形態のデータベース検索装置の概略構成を示すブロック図である。
[第6実施形態]
図7は、第6実施形態のデータベース検索装置の概略構成を示すブロック図である。
上述した第1実施形態のデータベース検索装置と同様の構成部分については同じ符号を付して詳しい説明は省略し、相違点についてのみ詳しく説明する。
第6実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、照合手法選択部45を備えている。
第6実施形態のデータベース検索装置は、第1実施形態と同様の構成である音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20とを備えるとともに、照合手法選択部45を備えている。
あいまい検索部17が照合の際に用いる距離尺度については、文字列間距離、または、文字列間距離とNベストの併用があることは上述したが、照合手法選択部45は、話者の操作に基づいて、あいまい検索部17における照合に際して文字列間距離を用いるか、あるいは文字列間距離とNベストの併用とするかを選択するためのものである。照合手法選択部45としては、タッチスイッチ、キーボード等、種々の操作受付手段を採用することが考えられる。
あいまい検索部17は、照合手法選択部45にて選択された照合手法を用いて照合を実行する。
[その他]
以上、本発明のいくつかの実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の技術的範囲に属する限り様々な態様にて実施することが可能である。
[その他]
以上、本発明のいくつかの実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の技術的範囲に属する限り様々な態様にて実施することが可能である。
(1)上記実施形態では、音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14とを備え、それらが特許請求の範囲における「文字列入力部」に相当する旨を説明した。しかし、文字入力部14については無くもよく、音声入力のみが可能なデータベース検索装置として実現してもよい。但し、実際の使い勝手を考慮すると音声入力のみでなく、手入力も併用した方が好ましい。
(2)上記第2実施形態においては、通常は、あいまい検索を実行しないモードに設定されており、あいまい検索指示部25によってあいまい検索を指示した場合にのみあいまい検索を実行するようにした。つまり、あいまい検索指示があると、その指示の直後のみあいまい検索を実行する。
しかし、このような実施形態に限られず、例えばモード切替を指示し、切替指示がない限り従前の設定モードを維持するようにしてもよい。つまり、あいまい検索指示部25はあいまい検索モードのオン・オフを切り替え指示するようになっており、あいまい検索モードへの切り替え指示(あいまい検索モードのオン)があった場合には、それを解除する指示(あいまい検索モードのオフ)があるまで、あいまい検索モードを維持する。
(3)上記各実施形態はそれぞれ個別に実現することもできるが、2つ以上の実施形態を組み合わせて実行することも可能である。例えば、全ての実施形態を組み合わせた場合には、音声入力部11と、認識辞書12と、音声認識部13と、文字入力部14と、文字列表示部15と、検索対象データベース16と、あいまい検索部17と、候補表示・選択部18と、データ検索部19と、検索結果提示部20と、あいまい検索指示部25と、誤りやすさデータベース30と、誤りやすさ補正部35と、照合手法選択部45とを備えるデータベース検索装置となる。
(4)上記第1実施形態においてナビゲーション装置への適用を説明したが、他の実施形態においても同様にナビゲーション装置への適用は可能である。もちろん、他の装置への適用も可能である。
11…音声入力部、12…認識辞書、13…音声認識部、14…文字入力部、15…文字列表示部、16…検索対象データベース、17…あいまい検索部、18…候補表示・選択部、19…データ検索部、20…検索結果提示部、25…検索指示部、30…誤りやすさデータベース、35…誤りやすさ補正部、40…あいまい箇所指定部、45…照合手法選択部、50…ナビゲーション装置、51…位置検出器、51a…GPS受信機、51b…ジャイロスコープ、51c…距離センサ、51d…地磁気センサ、52…操作スイッチ群、53a…リモコン、53b…リモコンセンサ、55…地図データ入力器、56…表示部、57…音声出力部、58…マイクロフォン、59…制御部、60…音声認識関連データ入出力器。
Claims (13)
- 少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び前記音声入力部が入力した音声を分析し、前記認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも前記音声認識部における前記認識結果を文字列として入力する文字列入力部と、
検索対象のデータを保持する検索対象データベースと、
前記文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて前記検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力するあいまい検索部と、
を備えることを特徴とするデータベース検索装置。 - 少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び前記音声入力部が入力した音声を分析し、前記認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも前記音声認識部における前記認識結果を文字列として入力する文字列入力部と、
検索対象のデータを保持する検索対象データベースと、
話者の操作に基づいて、あいまい検索を実行するか否かを指示するあいまい検索指示部と、
前記あいまい検索指示部によってあいまい検索の実行が指示された場合には、前記文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて前記検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力するあいまい検索部と、
前記あいまい検索指示部によってあいまい検索の実行が指示された場合には、前記あいまい検索部から照合結果を受け取って画面上に表示し、前記話者にその一つを選択させて検索キーとして出力する候補表示・選択部と、
前記あいまい検索指示部によってあいまい検索の実行が指示された場合には、前記候補表示・選択部から受け取った前記検索キーを用いて前記検索対象データベースを検索し、一方、前記あいまい検索指示部によってあいまい検索の実行が指示されない場合には、前記文字列入力部にて入力された文字列を受け取り、その文字列を用いて前記検索対象データベースを検索し、検索された情報を検索結果として出力するデータ検索部と、
前記データ検索部から受け取った前記検索結果を話者に提示する検索結果提示部と、
を備えることを特徴とするデータベース検索装置。 - 少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び前記音声入力部が入力した音声を分析し、前記認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも前記音声認識部における前記認識結果を文字列として入力する文字列入力部と、
検索対象のデータを保持する検索対象データベースと、
前記文字列入力部にて入力された文字列を受け取って照合キーとし、その照合キーを用いて前記検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力するあいまい検索部と、
各音素に対応する音声認識の誤りやすさをデータとして保持する誤りやすさデータベースと、を備え、
前記あいまい検索部は、前記誤りやすさデータベースにおける各音素に対応する音声認識の誤りやすさを加味した前記距離尺度を用いて、前記照合を行うこと
を備えることを特徴とするデータベース検索装置。 - 請求項3に記載のデータベース検索装置において、
前記誤りやすさデータベースが保持する各音素に対応する音声認識の誤りやすさを示すデータは、前記文字列入力部を介して入力された文字列における、前記検索対象データベース中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である文字列間距離を計算するために用いられる音素別距離のデータを保持するデータベースであって、挿入、脱落、置換という誤りが生じやすい音素についてはそれ以外の音素よりも音素別距離を小さく設定したデータであること
を備えることを特徴とするデータベース検索装置。 - 請求項3または4に記載のデータベース検索装置において、
さらに、
前記あいまい検索部から照合結果を受け取って画面上に表示し、前記話者にその一つを選択させて検索キーとして出力する候補表示・選択部と、
前記候補表示・選択部から受け取った前記検索キーを用いて前記検索対象データベースを検索し、検索された情報を検索結果として出力するデータ検索部と、
前記データ検索部から受け取った前記検索結果を話者に提示する検索結果提示部と、
前記音声認識部から出力される第1位の認識結果と、前記候補表示・選択部から出力される検索キーとを受け取り、両者の違いに基づいて前記誤りやすさデータベースにおける前記各音素に対応する音声認識の誤りやすさを示すデータの補正をする誤りやすさ補正部を備えること
を特徴とするデータベース検索装置。 - 少なくとも、話者の発声した音声を入力する音声入力部、音声認識に用いる音素単位の比較対象パターンを記憶している認識辞書、及び前記音声入力部が入力した音声を分析し、前記認識辞書を用いて認識した結果を認識結果として出力する音声認識部を備え、少なくとも前記音声認識部における前記認識結果を文字列として入力する文字列入力部と、
検索対象のデータを保持する検索対象データベースと、
話者の操作に基づいて、前記前記文字列入力部にて入力された文字列の内であいまい検索の対象とすべき箇所を指定するあいまい箇所指定部と、
前記文字列入力部にて入力された文字列を受け取って照合キーとし、前記あいまい箇所指定部によってあいまい検索対象箇所の指定がされていない場合には前記照合キーを用いて前記検索対象データベースを所定の距離尺度に従って照合し、一方、前記あいまい箇所指定部によってあいまい検索対象箇所の指定がされている場合には前記照合キー中の当該指定されたあいまい検索対象箇所を用いて前記検索対象データベースを所定の距離尺度に従って照合し、距離の近い上位M(MはM>0を満たす自然数)個の候補を照合結果として出力するあいまい検索部と、
を備えることを特徴とするデータベース検索装置。 - 請求項1,3,4,6の何れかに記載のデータベース検索装置において、
さらに、
前記あいまい検索部から照合結果を受け取って画面上に表示し、前記話者にその一つを選択させて検索キーとして出力する候補表示・選択部と、
前記候補表示・選択部から受け取った前記検索キーを用いて前記検索対象データベースを検索し、検索された情報を検索結果として出力するデータ検索部と、
前記データ検索部から受け取った前記検索結果を話者に提示する検索結果提示部と、
を備えることを特徴とするデータベース検索装置。 - 請求項1,2,6の何れかに記載のデータベース検索装置において、
前記あいまい検索部は、前記照合に際して、前記文字列入力部を介して入力された文字列における、前記検索対象データベース中の候補文字列を基準にした場合の挿入、脱落、置換した文字の個数の合計である文字列間距離、または文字列間距離と前記音声認識部の認識結果の複数の候補を尤度の高い順に並べた場合の上位N個の候補であるNベストと前記文字列間距離の併用の何れか一方を前記所定の距離尺度として用いること
を特徴とするデータベース検索装置。 - 請求項8に記載のデータベース検索装置において、
話者の操作に基づき、前記あいまい検索部における照合に際して、前記文字列間距離を用いるか、あるいは前記文字列間距離とNベストの併用とするかを選択する照合手法選択部を備え、
前記あいまい検索部は、前記照合手法選択部にて選択された照合手法を用いて照合を実行すること
を特徴とするデータベース検索装置。 - 請求項1〜9の何れかに記載のデータベース検索装置において、
前記文字列入力部は、話者の操作に基づく文字列入力も可能に構成されていること
を特徴とするデータベース検索装置。 - コンピュータを、請求項1〜10の何れかに記載のデータベース検索装置におけるあいまい検索部として機能させるためのプログラム。
- コンピュータを、請求項5に記載のデータベース検索装置におけるあいまい検索部及び誤りやすさ補正部として機能させるためのプログラム。
- 所定のナビゲーション処理を実行するナビゲーション装置であって、
請求項1〜10の何れかに記載のデータベース検索装置を備え、そのデータベース検索装置によって得られた検索結果を前記ナビゲーション処理に用いることを特徴とするナビゲーション装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004218970A JP2006039954A (ja) | 2004-07-27 | 2004-07-27 | データベース検索装置、プログラム及びナビゲーション装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004218970A JP2006039954A (ja) | 2004-07-27 | 2004-07-27 | データベース検索装置、プログラム及びナビゲーション装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006039954A true JP2006039954A (ja) | 2006-02-09 |
Family
ID=35904889
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004218970A Pending JP2006039954A (ja) | 2004-07-27 | 2004-07-27 | データベース検索装置、プログラム及びナビゲーション装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006039954A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
JP2009145548A (ja) * | 2007-12-13 | 2009-07-02 | Mitsubishi Electric Corp | 音声検索装置 |
JP2009271117A (ja) * | 2008-04-30 | 2009-11-19 | Mitsubishi Electric Corp | 音声検索装置および音声検索方法 |
JP2010123005A (ja) * | 2008-11-20 | 2010-06-03 | Kddi Corp | 文書データ検索装置 |
JP2012226220A (ja) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2013109061A (ja) * | 2011-11-18 | 2013-06-06 | Hitachi Ltd | 音声データ検索システムおよびそのためのプログラム |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63163496A (ja) * | 1986-12-26 | 1988-07-06 | 日本電信電話株式会社 | 並列検索照合型認識システム |
JPH01197797A (ja) * | 1988-02-02 | 1989-08-09 | Ricoh Co Ltd | 音節認識結果選択方式 |
JPH02304495A (ja) * | 1989-05-19 | 1990-12-18 | Hitachi Ltd | 音声認識単語セットの評価システム |
JPH1011461A (ja) * | 1996-06-26 | 1998-01-16 | Sharp Corp | 音声認識による検索装置 |
JPH1124695A (ja) * | 1997-06-27 | 1999-01-29 | Sony Corp | 音声認識処理装置および音声認識処理方法 |
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2000163427A (ja) * | 1998-11-25 | 2000-06-16 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
JP2002140094A (ja) * | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2002297181A (ja) * | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
JP2003255992A (ja) * | 2002-03-06 | 2003-09-10 | Canon Inc | 対話システムおよびその制御方法 |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
-
2004
- 2004-07-27 JP JP2004218970A patent/JP2006039954A/ja active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63163496A (ja) * | 1986-12-26 | 1988-07-06 | 日本電信電話株式会社 | 並列検索照合型認識システム |
JPH01197797A (ja) * | 1988-02-02 | 1989-08-09 | Ricoh Co Ltd | 音節認識結果選択方式 |
JPH02304495A (ja) * | 1989-05-19 | 1990-12-18 | Hitachi Ltd | 音声認識単語セットの評価システム |
JPH1011461A (ja) * | 1996-06-26 | 1998-01-16 | Sharp Corp | 音声認識による検索装置 |
JPH1124695A (ja) * | 1997-06-27 | 1999-01-29 | Sony Corp | 音声認識処理装置および音声認識処理方法 |
JP2000056795A (ja) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | 音声認識装置 |
JP2000163427A (ja) * | 1998-11-25 | 2000-06-16 | Sony Corp | 情報処理装置および方法、並びに提供媒体 |
JP2000250585A (ja) * | 1999-02-25 | 2000-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体 |
JP2002140094A (ja) * | 2000-11-01 | 2002-05-17 | Mitsubishi Electric Corp | 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2002297181A (ja) * | 2001-03-30 | 2002-10-11 | Kddi Corp | 音声認識語彙登録判定方法及び音声認識装置 |
JP2003255992A (ja) * | 2002-03-06 | 2003-09-10 | Canon Inc | 対話システムおよびその制御方法 |
JP2003271629A (ja) * | 2002-03-18 | 2003-09-26 | National Institute Of Advanced Industrial & Technology | 音声入力によるテキスト検索方法およびその装置 |
Non-Patent Citations (1)
Title |
---|
村木 一至: "OCRの認識誤り訂正に於けるテキスト適合性の評価", 電子情報通信学会技術研究報告 VOL.92 NO.255, vol. 第92巻 第255号, JPN6009027578, 15 October 1992 (1992-10-15), JP, ISSN: 0001340571 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008203296A (ja) * | 2007-02-16 | 2008-09-04 | Denso Corp | 音声認識装置及びナビゲーション装置 |
JP4672686B2 (ja) * | 2007-02-16 | 2011-04-20 | 株式会社デンソー | 音声認識装置及びナビゲーション装置 |
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
JP2009145548A (ja) * | 2007-12-13 | 2009-07-02 | Mitsubishi Electric Corp | 音声検索装置 |
JP2009271117A (ja) * | 2008-04-30 | 2009-11-19 | Mitsubishi Electric Corp | 音声検索装置および音声検索方法 |
JP2010123005A (ja) * | 2008-11-20 | 2010-06-03 | Kddi Corp | 文書データ検索装置 |
JP2012226220A (ja) * | 2011-04-21 | 2012-11-15 | Ntt Docomo Inc | 音声認識装置、音声認識方法及び音声認識プログラム |
JP2013109061A (ja) * | 2011-11-18 | 2013-06-06 | Hitachi Ltd | 音声データ検索システムおよびそのためのプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6937982B2 (en) | Speech recognition apparatus and method using two opposite words | |
US9123327B2 (en) | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input | |
JP4997796B2 (ja) | 音声認識装置、及びナビゲーションシステム | |
JP4466379B2 (ja) | 車載音声認識装置 | |
KR101063607B1 (ko) | 음성인식을 이용한 명칭 검색 기능을 가지는 네비게이션시스템 및 그 방법 | |
US7295923B2 (en) | Navigation device and address input method thereof | |
JP2010039099A (ja) | 音声認識および車載装置 | |
JP2006039954A (ja) | データベース検索装置、プログラム及びナビゲーション装置 | |
JP2008076811A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP5455355B2 (ja) | 音声認識装置及びプログラム | |
JP2002350146A (ja) | ナビゲーション装置 | |
JP2005275228A (ja) | ナビゲーション装置 | |
JP2011232668A (ja) | 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法 | |
JP2008164809A (ja) | 音声認識装置 | |
JP4453377B2 (ja) | 音声認識装置、プログラム及びナビゲーション装置 | |
JP3624698B2 (ja) | 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム | |
US20110218809A1 (en) | Voice synthesis device, navigation device having the same, and method for synthesizing voice message | |
JP3500948B2 (ja) | 音声認識装置 | |
JP2010038751A (ja) | ナビゲーション装置 | |
JP3925368B2 (ja) | 制御システム | |
JPWO2006028171A1 (ja) | データ提示装置、データ提示方法、データ提示プログラムおよびそのプログラムを記録した記録媒体 | |
JP4645708B2 (ja) | コード認識装置および経路探索装置 | |
JP2007025076A (ja) | 車載用音声認識装置 | |
JP2004061754A (ja) | 音声制御装置 | |
JP3911835B2 (ja) | 音声認識装置及びナビゲーションシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060912 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090609 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090807 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091020 |