JP2008197338A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2008197338A
JP2008197338A JP2007031960A JP2007031960A JP2008197338A JP 2008197338 A JP2008197338 A JP 2008197338A JP 2007031960 A JP2007031960 A JP 2007031960A JP 2007031960 A JP2007031960 A JP 2007031960A JP 2008197338 A JP2008197338 A JP 2008197338A
Authority
JP
Japan
Prior art keywords
data
dictionary data
place name
name
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007031960A
Other languages
English (en)
Inventor
Osamu Kanematsu
修 兼松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Corp
Original Assignee
Denso Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Corp filed Critical Denso Corp
Priority to JP2007031960A priority Critical patent/JP2008197338A/ja
Publication of JP2008197338A publication Critical patent/JP2008197338A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】ユーザが発話により指定した地名を認識するものにあって、ユーザが必ずしも階層構造の上位から地名の指定を行わずとも、認識可能個数以内の辞書データに基づいて、認識処理を良好に行う。
【解決手段】地名辞書生成部9は、初期状態において、データベース7の最上位階層から複数の階層(全階層)のグループA〜Eに跨る地名データを抽出し、且つ、そのうち下の階層のグループ(グループC、D、E)については、認識可能最大個数Nを超えないように、該グループ内の、現在地算出部4により入力された現在位置を含む区域に関しての地名データを優先して抽出することにより、現在地地名辞書データを生成する。このとき、現在地地名辞書データには、全国的に有名な地名の特別グループA及び「都道府県名」のグループBの全体が常に含まれる。
【選択図】図1

Description

本発明は、例えばカーナビゲーション装置に組込まれ、ユーザが発話により指定した地名を認識する音声認識装置に関する。
例えば自動車に搭載されるカーナビゲーション装置においては、ルート案内の際の目的地等の地名の指定を、ユーザ(運転者)が音声入力することができる音声認識装置を組込んだものが供されている。このような地名用の音声認識装置は、マイクから入力された入力音声信号を、例えば、ケプストラムデータに変換し、DPマッチング法を用いて標準パターンとの距離が最小となる単語名を地名用の辞書データと照合することに基づいて認識処理を行うようになっている。
この場合、日本全国の全ての地名データを記憶するデータベースには、都道府県名、市区町村名、大字名、小字名を含めて例えば10万語以上の地名が記憶されているが、それら全ての地名を認識対象とすることは、性能的に不可能な事情があり、音声認識可能なデータ数は、2000〜3000程度に制限されている。そこで、従来では、認識対象となる語句(地名)の数を絞り込むために、設定された経路の周辺地域に存在する地名を検索して、それら地名を認識対象とすることが考えられている(例えば特許文献1参照)。
また、別の手法として、対象となる地名を、「都道府県名」、「市区町村名」、「大字名」、「小字名」といった階層に分け、ユーザが、住所の地名を上位階層から下位階層に順に発話していく技術が考えられている(例えば特許文献2参照)。一例をあげると、例えば「愛知県名古屋市中区栄」を指定したい場合には、ユーザは、「愛知県」(都道府県名)、「名古屋市」(市区町村名)、「中区」(大字名)、「栄」(小字名)の順に発話を行うようになっている。
特開平8−202386号公報 特開平11−125533号公報
上記した認識対象となる地名を絞り込むための手法のうち、前者の経路の周辺の地名を認識対象とする手法では、経路が設定されていない場合や、経路周辺以外の地名が発話された場合には、認識できない問題がある。また、後者の、上位階層から順にユーザに発話させるものでは、ユーザが、「都道府県名」から順に地名全体を知っている場合は良いものの、例えば大字名を知らない場合には、地名を特定できない不具合があった。上記の例では、ユーザが、「栄」という地名は知っていても「中区」であることを知らない場合があり、いきなり「栄」と発話しても、音声認識に失敗してしまうことになる。
本発明は上記事情に鑑みてなされたもので、その目的は、ユーザが発話により指定した地名を認識するものにあって、ユーザが、必ずしも階層構造の上位から地名の指定を行わずとも、認識可能個数以内の辞書データに基づいて、認識処理を良好に行うことができる音声認識装置を提供するにある。
上記目的を達成するために、本発明の音声認識装置は、ユーザが発話により指定した地名を認識するものにあって、ユーザが音声入力を行うための音声入力手段と、装置の現在位置のデータを入力する位置データ入力手段と、日本全国の地名データを、行政区画等に従って広域を表す地名から狭域を表す地名まで複数階層にグループ化した状態で記憶するデータベースと、このデータベース中の地名のデータを、認識可能最大個数N以下となるように抽出して認識用の辞書データを生成する辞書データ生成手段と、前記音声入力手段による入力データを前記辞書データと照合することによって音声認識を行う認識手段とを備えると共に、前記辞書データ生成手段は、未だ地名が指定されていない初期状態においては、最上位階層から複数の階層のグループに跨る地名データを抽出し、且つ、そのうち下の階層のグループについては、前記認識可能最大個数Nを超えないように、該グループ内の、前記位置データ入力手段により入力された現在位置を含む区域に関しての地名データを優先して抽出することにより、前記辞書データとして現在地地名辞書データを生成するように構成されているところに特徴を有する(請求項1の発明)。
これによれば、未だ地名が指定されていない初期状態においては、認識手段による音声認識に用いられる辞書データは、複数の階層の地名を含んでいる現在地地名辞書データとされる。このとき、辞書データ生成手段が、辞書データを生成する際には、認識可能最大個数Nを越えないようにデータ数を制限する必要があるが、下位の階層に関しては、現在位置に関連性の高い地名が選択的に残されるようにして現在地地名辞書データが生成される。
ここで、下位の階層に属している地名の場合、ユーザの生活圏にある地名、或いは現在ユーザが居る地点の付近の地名については、全く離れた別の地域の地名に比べて、発話(指定)される確率が十分に高いものと考えられるので、ユーザが発話(指定)した地名が含まれる可能性の高い地名データから辞書データを構築することができる。この結果、ユーザが指定したい地名の階層構造を理解していないような場合でも、認識可能個数N以内の辞書データに基づいて、認識処理を良好に行うことが可能となる。
本発明においては、前記データベースに、第1の階層として「都道府県名」のグループを設けると共に、階層に関係なく全国的に有名な地名やエリア名を含んだ特別なグループを設け、前記辞書データ生成手段を、初期状態においては、特別グループ及び第1階層のグループの全体を含むように現在地地名辞書データを生成するように構成することができる(請求項2の発明)。特別グループ及び第1階層のグループは、指定される確率が最も高いものであるため、これらを含むように現在地地名辞書データを構築することにより、認識処理を良好に行うことができる。
前記辞書データ生成手段が現在地地名辞書データを生成するにあたり、全ての階層のグループに跨るようにすることもできる(請求項3の発明)。これにより、ユーザがいきなり下位の階層の地名を指定した場合でも、現在位置に関連する地名であれば認識処理が可能となり、より広く対応することができる。
前記辞書データ生成手段を、上位の階層における地名の指定があった場合に、当該地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとして指定地域辞書データを生成するように構成することもできる(請求項4の発明)。これにより、ユーザが階層的に地名を指定する場合に、辞書データを、次に指定される確率が十分に高い地名から構成することができる。
前記音声入力手段により、複数の地名を含んだ音声入力があった場合には、前記認識手段により、最初の地名の認識処理を前記現在地地名辞書データを用いて実行し、最初の地名が認識された場合には、前記辞書データ生成手段により、認識された地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとしての指定地域辞書データを生成し、辞書データを当該指定地域辞書データに切替えた上で前記認識手段による次の地名の認識処理が行われるように構成しても良い(請求項5の発明)。ユーザが、広域と狭域との複数の地名を含んだ発話を一度に行っても、認識処理を良好に行うことが可能となる。
また、ユーザとの対話により広域地名を確認する対話手段を設け、上記した手法による地名の認識処理が失敗した場合には、この対話手段により広域地名を確認した後に、前記辞書データ生成手段により、当該広域地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとしての指定地域辞書データを生成し、辞書データを当該指定地域辞書データに切替えた上で前記認識手段による認識処理を再度おこなうように構成することもできる(請求項6の発明)。これにより、初期における認識処理の失敗をカバーしながら、認識処理を進めていくことが可能となる。
以下、本発明の一実施例について、図面を参照しながら説明する。尚、この実施例では、本実施例に係る音声認識装置を、自動車等の車両に搭載されるカーナビゲーション装置に組込んで構成した場合を例としている。まず、詳しく図示はしないが、本実施例に係る音声認識装置1(図1参照)が組込まれたカーナビゲーション装置の全体構成について簡単に述べておく。
カーナビゲーション装置は、位置検出器2、地図データベース、操作スイッチ群、これらに接続されたマイクロコンピュータを主体としてなる制御装置(ナビECU)3、この制御装置3に接続された外部メモリ、例えばフルカラー液晶ディスプレイからなる表示装置、外部(例えばVICSセンタ)との間で通信を行う通信装置、並びに、本実施例に係る音声認識装置1を備えて構成されている。
そのうち位置検出器2は、周知構成の地磁気センサ、ジャイロセンサ、距離センサ、及び、衛星からの電波に基づいて車両の位置を検出するGPS(Global Positioning System )のためのGPS受信機などから構成されており、それらからの信号は、制御装置3の現在地算出部4に入力されるようになっている。現在地算出部4は、それらの信号から、車両の現在位置、進行方向、速度や走行距離等を高精度で検出するようになっている。この場合、位置検出器2及び現在地算出部4から、位置データ入力手段が構成されるようになっている。
前記地図データベースは、道路地図データや、位置検出の精度向上のための所謂マップマッチング用データ等を含む各種データを記憶した記憶媒体からデータを入力するためのドライブ装置からなり、その記憶媒体としては、例えばCD−ROMやDVD等の大容量記憶媒体が用いられる。尚、前記道路地図データは、道路形状、道路幅、道路名、建造物、各種施設、それらの電話番号、地名、地形等のデータを含むと共に、その道路地図を前記表示装置の表示画面上に再生するためのデータを含んで構成されている。
前記操作スイッチ群は、ユーザ(運転者)が、目的地の指定や、表示装置に表示される道路地図の選択等の各種のコマンドを入力するためのもので、前記表示装置の画面上に設けられたタッチパネルや、表示装置の近傍に設けられた各種のメカニカルスイッチから構成されている。
前記表示装置の画面には、各種縮尺の道路地図が表示されると共に、その表示に重ね合わせて、車両の現在位置及び進行方向を示すポインタが表示されるようになっている。また、ユーザが目的地などを入力するための各種の入力用画面や、各種のメッセージやインフォメーション等も表示されるようになっている。さらには、目的地までの案内を行なうルートガイダンス機能の実行時には、道路地図に重ね合わせて進むべき経路等が表示されるようになっている。
そして、前記制御装置3は、上述のように、地図データベースからの道路地図データに基づいて表示装置に道路地図を表示させると共に、位置検出器2の検出に基づいて車両の現在位置及び進行方向を示すポインタを表示させるようになっている。このとき、車両の現在位置を道路上にのせるマップマッチングが行なわれるようになっている。また、ユーザのコマンド入力に基づいて、表示装置に表示させる地図の種類(縮尺)の切替え等を行なうようになっている。
さらに、制御装置3は、ユーザによる目的地の入力に基づいて、自動ルート探索及びルートガイダンスの機能を実行するようになっている。詳しい説明は省略するが、自動ルート探索の機能は、車両の現在位置からユーザにより入力された目的地までの推奨する走行経路を自動的に算出するものであり、ルートガイダンスの機能は、上述のように、表示装置の画面にその走行経路を表示して目的地まで案内するものであり、このとき、後述する音声認識装置1の音声合成の機能を用いて、例えば「200m先の交差点を左です」といった音声をスピーカ5から出力させる音声案内も併せて行うことができるようになっている。
図1は、本実施例に係る音声認識装置1の構成を概略的に示している。音声認識装置1は、上記カーナビゲーション装置に対する目的地などの指示を、前記操作スイッチ群の手動操作に代えて、ユーザ(運転者)が前を見たまま音声入力することによって、同様に行なうことができるようにし、安全性,利便性を向上させるための装置として設けられている。
この音声認識装置1は、前記制御装置3、この制御装置3に接続された前記スピーカ5、ユーザが音声を入力するための音声入力手段たるマイクロホン6(以下単に「マイク6」という)、地名データを記憶するデータベース7、照合用の辞書データが書換え可能に構築される辞書データメモリ8を備えている。尚、図示はしないが、前記マイク6は、車両の例えばステアリングコラムカバーの上面部や運転席側のサンバイザー等の運転者の音声を拾いやすい位置に設けられるようになっている。
そして、前記制御装置3は、CPU,ROM,RAM等からなるマイクロコンピュータを主体として構成され、音声認識装置1の制御部を兼用している。このとき、制御装置3は、その機能構成(ソフトウエア構成及びハードウエア構成)によって、辞書データ生成手段としての地名辞書生成部9、並びに、認識手段としての音声認識エンジン10を備えている。また、図示はしないが、制御装置3には、合成音声をスピーカ5から発声させるための音声合成部や、ユーザとの対話を行うための対話手段としての対話制御部が設けられている。
前記データベース7には、日本全国の地名のデータが記憶されている。このデータベース7に記憶されている地名データは、行政区画等に従って、広域を表す地名から狭域を表す地名まで複数階層にグループ化されている。具体的には、図3〜図9等に示すように、上の階層から順に、「都道府県名」のグループB、「市区町村名」のグループC、「大字名」のグループD、「小字名」のグループEに階層化されている。
さらに、本実施例では、データベース7には、行政区画の種別に関係のない特別な階層(グループ)として、全国的に有名な地名やエリア名を含んだ特別グループAが設けられている。行政区画上に存在する有名な地名については、上記グループB〜Eと重複して記憶されている。また、前記エリア名とは、行政区画上の地名以外の、複数の県を含む広域の地域名や、特定地域の慣用的な呼び名、例えば、「首都圏」、「東北」、「四国」、「湘南」などを意味している。ちなみに、この特別グループAの地名の数は、1438個となっている。
前記地名辞書生成部9は、前記データベース7中の地名のデータを、認識可能最大個数N(例えば3000)以下となるように抽出して辞書データメモリ8に認識用の辞書データを生成するようになっている。この地名辞書生成部9には、前記現在地算出部4からの現在位置のデータが入力されるようになっている。本実施例では、この地名辞書生成部9は、辞書データとして、現在地地名辞書データ(図3(a)等参照)及び指定地域辞書データ(図3(b)等参照)を生成する(自在に切替える)ようになっている。この辞書データの生成の詳細については後述する。
前記音声認識エンジン10は、前記マイク6からの入力データを前記辞書データと照合することによって音声認識を行うものである。周知のように、この音声認識は、前記マイク6から入力された音声入力信号を、例えば数10ms程度間隔のフレーム信号として切出し、各フレーム信号をフーリエ変換して短時間パワースペクトルデータとし、その短時間スペクトルデータを対数化し更に逆フーリエ変換して各フレーム信号に関するケプストラムを求め、ケプストラム時系列を単語単位に切出し、例えばDPマッチング法を用いて標準パターン(テンプレート)とのマッチングを行ない、標準パターンとの距離が最小となる単語名を辞書データと照合することにより行われる。
尚、音声認識エンジン10は、音声認識結果を、カーナビゲーション装置における自動ルート探索の目的地等のデータとして出力すると共に、その音声認識結果に基づいて、前記音声合成部に応答音声(トークバック)の発声の指示を行なうようになっている。また、本実施例では、前記対話制御部により、ユーザとの対話を実行し地名(広域地名)の確認処理ができるようになっている。
さて、上記構成の音声認識装置1により、ユーザ(車両の運転者)は、発話により目的地の地名を指定することができるのであるが、詳しくは後の作用説明で述べるように、前記地名辞書生成部9は、未だ地名が指定されていない初期状態においては、データベース7の最上位階層から複数の階層(全階層)のグループA〜Eに跨る地名データを抽出し、且つ、そのうち下の階層のグループ(グループC、D、E)については、認識可能最大個数Nを超えないように、該グループ内の、前記現在地算出部4により入力された現在位置を含む区域に関しての地名データを優先して抽出することにより、現在地地名辞書データを生成するように構成されている。このとき、現在地地名辞書データには、前記特別グループA及び「都道府県名」のグループBの全体が常に含まれるようになっている。
そして、上位の階層における地名の指定があった場合には、前記地名辞書生成部9は、当該地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとして指定地域辞書データを生成し、切替えるようになっている。また、マイク6から複数の地名を含んだ音声入力があった場合には、前記音声認識エンジン10は、最初の地名の認識処理を前記現在地地名辞書データを用いて実行し、最初の地名が認識された場合には、辞書データが前記地名辞書生成部9により生成された指定地域辞書データ切替えられた上で次の地名の認識処理を行うようになっている。
さらに、音声認識エンジン10による地名の認識処理が失敗した場合に、対話制御部の対話機能により、ユーザと対話して広域地名を確認し、前記地名辞書生成部9により、当該広域地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データが抽出されて指定地域辞書データが生成され、音声認識エンジン10により、その指定地域辞書データを用いて再度認識処理が行われるようになっている。
次に、上記構成の作用について、図2ないし図8も参照して述べる。まず、例えば、認識可能最大個数Nを3000とした場合の、上記現在地地名辞書データ、並びに、指定地域辞書データの具体例について述べる。図3(a)は、車両の現在位置が、「愛知県名古屋市中区栄」にある場合の、現在地地名辞書データの構造を示している。
ここで、上記のように、現在地地名辞書データには、常に、特別グループA(1438件)及び「都道府県名」のグループB(47件)が含まれる。次に、「市区町村名」のグループCについては、現在地のある都道府県(愛知県)下の市区町村名のデータ(65件)が抽出され、現在地地名辞書データに採用される。「大字名」のグループDについては、愛知県全体のデータ(D1)では5306個もの膨大な数(全体でNを越える)となるため、階層を1段下げて、現在地のある市区町村(名古屋市)下の大字名のデータ(D2)が抽出され、現在地地名辞書データに採用される。
「小字名」のグループEについては、やはり愛知県全体のデータ(E1)では膨大な数となり、階層を1段下げて名古屋市全体のデータ(E2)を採用しても、やはり全体でNを越えるため、階層を2段下げて、現在地のある大字(中区)下の小字名のデータ(E3)が抽出され、現在地地名辞書データに採用される。これにより、全体のデータの個数(1666件)が認識可能最大個数N(3000)以下である現在地地名辞書データが生成される。
図4は、現在地地名辞書データの生成の手法をまとめたものである。図4(a)に示すように、グループAからグループCと、現在地のある都道府県下の大字名のデータ(D1)及び現在地のある都道府県下の小字名のデータ(E1)との、地名データの個数の和がN以下であれば、それらを抽出した現在地地名辞書データが生成される。これに対し、上記地名データの個数の和がNを超えた場合、図4(b)に示すように、グループEに関して、現在地のある市区町村下の小字名のデータ(E2)に置換えたときに合計のデータの個数がN以下となる場合には、グループEに関してはE2のデータを抽出して現在地地名辞書データが生成される。
グループEに関して現在地のある市区町村下の小字名のデータ(E2)に置換えたにも拘らず、合計のデータ数がNを超える場合には、図4(c)に示すように、グループDに関しても、現在地のある都道府県下の大字名のデータ(D1)から、現在地のある市区町村下の大字名のデータ(D2)に置換えられ、それらを抽出した現在地地名辞書データが生成されるようになっている。尚、これでも合計のデータ数がNを超える場合には、図3(a)のように、グループEに関して現在地のある大字下の小字名のデータ(E3)に置換えられる。このようにして、車両の現在位置に関連性の高い地名が選択的に残されるようにして、認識可能最大個数N以下の現在地地名辞書データが生成されるのである。
次に、図3(b)は、都道府県名(神奈川県)、或いは、市区町村名(横浜市)が指定(確認)された場合に、地名辞書生成部9が生成する指定地域辞書データの構成の具体例を示している。この指定地域辞書データは、指定された地名の属する階層よりも下の階層の地名データをやはり認識可能最大個数N(3000)以下となるように抽出することにより生成される。
今、「神奈川県」が既に指定された場合には、「市区町村名」のグループCについては、指定された都道府県(神奈川県)下の市区町村名の全データ(37件)が抽出され、指定地域辞書データに採用される。「大字名」のグループDについては、神奈川県全体のデータ(D1)を抽出してもNを越えないため、神奈川県全体のデータ(D1)が指定地域辞書データに採用される。「小字名」のグループE(E1)については、全体でNを超えてしまうので、指定地域辞書データには採用されないものとなる。
「横浜市」が既に指定された場合には、「大字名」のグループDについては、横浜市下の大字名のデータ(D2)が抽出され、指定地域辞書データに採用される。「小字名」のグループEについては、横浜市下の小字名のデータ(E2)を採用しても、全体でNを越えないので、そのまま指定地域辞書データに採用される。これにより、やはり、全体のデータの個数(1149件或いは2327件)が認識可能最大個数N(3000)以下である指定地域辞書データ生成される。
図5、図6、図7は、指定地域辞書データの生成の手法をまとめたものであり、図5は「都道府県名」が指定された場合、図6は「市区町村名」が指定された場合、図7は「大字名」が指定された場合を夫々示している。詳しい説明は省略するが、全体のデータ数が認識可能最大個数N以下となり、且つ、極力複数階層に跨るように指定地域辞書データが生成される。尚、指定された大字下での小字名のデータ(E3)については、現状の認識可能最大個数N(3000)を超えることはありえない。
さて、図2のフローチャートは、本実施例において音声認識装置1が実行する、地名を音声認識する際の処理手順の具体例を示している。上記のように、未だ地名が指定されていない初期状態においては、地名辞書生成部9により、現在地算出部4から入力される現在地のデータに基づいて、辞書データメモリ8内に現在地地名辞書データが生成される。この場合、車両が走行しているときには、現在位置は時間と共に変動するが、それに伴って辞書データメモリ8内の現在地地名辞書データも逐次書替えられていくようになる。
今、ユーザ(運転者)が、目的地を指定すべく地名を発話した場合には、マイク6からの音声データが入力される(ステップS1)。次のステップS2では、音声認識エンジン10により、現在地地名辞書データを用いた音声認識が行われる。この場合、現在地地名辞書データには、有名な地名の特別グループA及び「都道府県名」のグループBが含まれるので、ユーザが、指定したい地名の住所を上位階層から順に知っていて「愛知県」など都道府県名を発話した場合に、音声認識が可能となることは勿論、例えば「横浜」、「湘南」、「新宿」、「首都圏」といった有名な地名やエリア名であれば、音声認識が可能となる。
そして、ユーザがいきなり市区町村名や大字名、小字名といった下位の階層に属している地名を発話(指定)した場合でも、現在地地名辞書データには、「市区町村名」、「大字名」、「小字名」のグループC、D、Eに関しても、現在位置に関連の深い(現在位置付近の)地名のデータが含まれているので、ある程度の認識が可能となる。このとき、下位の階層に属している地名の場合、ユーザの生活圏にある地名、或いは現在ユーザが居る地点の付近の地名については、全く離れた別の地域の地名に比べて、発話(指定)される確率が十分に高いものと考えられる。
ステップS3は、ステップS2の音声認識の結果を判断するステップであり、認識成功、認識失敗、一部認識の3つの判断がなされる。音声認識が成功した場合には、ステップS4にて、地名の特定が成功したとして処理を終了する。尚、目的地入力の場合には、ユーザにより例えば「愛知県」といった広域の地名が発話されたとすると、引続き、「名古屋市」、「中区」といったように、音声入力が階層的に行われるので、指定された地名(この場合愛知県)に関する指定地域辞書データに切替えられた上で、音声入力、音声認識の処理が繰返される。
これに対し、ユーザが、現在位置から離れ且つ他の都道府県の下位の階層(市や大字)の有名でない地名を発話した場合、現在地地名辞書データを用いた認識処理では認識が失敗してしまう(ステップS3で「認識できず」)。このような場合には、次のステップS5にて、対話による都道府県・エリア名の確認の処理が実行される。この対話処理は、ユーザに、ステップS1にて発生した地名の属する都道府県・エリア名を聞きだすようにして行われ、確認できたならば、次のステップS6に進む。
また、ステップS3にて一部認識と判断された場合にも、ステップS6に進む。ここでいう一部認識とは、例えばユーザが複数の地名を含んだ発話(音声入力)を行った場合など、一部(最初)地名が認識されることをいう。具体例をあげると、図8に示すように、ユーザが、「三重の白子」或いは「湘南の鵠沼」等と発話した場合がこれに相当し、現在地地名辞書データを用いて、「三重県」或いは「湘南」を認識することができるが、「白子」、「鵠沼」は認識できない。この場合、都道府県名(三重県)或いはエリア名(湘南)は確認されることになるので、それら確認された都道府県・エリア名に関する指定地域辞書データを用いて、以下、後半部の音声認識が行われることになる。
図2に戻って、ステップS6では、地名辞書生成部9により、辞書データが、確認された都道府県・エリア名に関する指定地域辞書データに切替えられた上で、再度、音声認識エンジン10による音声認識(照合)の処理が実行される。この場合、ステップS1でユーザが発話した下位の階層の地名の属する都道府県が確認され、その都道府県に関する指定地域辞書データに切替えられているので、認識処理が良好に行われる。次のステップS7では、認識成功か、認識失敗かの判断がなされる。認識成功の場合には、ステップS4にて、地名の特定が成功したとして処理が終了される。
ステップS7にて、認識失敗と判断された場合には、次のステップS8にて、ステップS6の認識処理に用いた辞書データ(指定地域辞書データ)に、当該都道府県の全小字名のデータが含まれていたかどうかが判断される。全部の小字名のデータが含まれていたにも拘らず、認識に失敗した場合には、ステップS9に進み、地名が特定できなかった(エラー)として処理が終了される。一方、指定地域辞書データに、全ての小字名のデータが含まれていなかった場合には、ステップS10に進み、今度は、対話による市区町村名の確認の処理が実行される。
市区町村名が確認されると、ステップS11にて、地名辞書生成部9により、辞書データが、確認された市区町村名に関する指定地域辞書データに切替えられた上で、みたび、音声認識エンジン10による音声認識(照合)の処理が実行される。但し、この場合も、指定地域辞書データに、その市区町村の全ての小字名が含まれているとは限らないため、認識処理に失敗する虞がある。ステップS12では、認識が成功したかどうかが判断され、認識成功の場合には、ステップS4にて、地名の特定が成功したとして処理が終了される。
このステップS12でも、認識失敗と判断された場合には、ステップS13にて、ステップS11の認識処理に用いた辞書データ(指定地域辞書データ)に、当該市区町村の全小字名のデータが含まれていたかどうかが判断される。全部の小字名のデータが含まれていたにも拘らず、認識に失敗した場合には、ステップS9に進み、地名が特定できなかった(エラー)として処理が終了される。
指定地域辞書データに、全ての小字名のデータが含まれていなかった場合には、ステップS14に進み、今度は、対話による大字名の確認の処理が実行される。そして、大字名が確認されると、ステップS15にて、地名辞書生成部9により、辞書データが、確認された大字名に関する指定地域辞書データ(その大字下の全ての小字名のデータ)に切替えられた上で、音声認識エンジン10による音声認識(照合)の処理が実行される。
ステップS16では、認識が成功したかどうかが判断され、認識成功の場合には、ステップS4にて、地名の特定が成功したとして処理が終了され、認識失敗の場合には、ステップS9に進み、地名が特定できなかった(エラー)として処理が終了される。尚、地名が特定できなかった場合(ステップS9)、ユーザの発話に誤り等があったことも考えられるので、ユーザに再度の発話を促すような音声出力が行われる。
このように本実施例によれば、初期状態における照合用の辞書データとして、全国的有名な地名のグループAを含むと共に、現在地算出部4が算出した現在位置を含む区域に関しての下位の階層までの地名を含んだ現在地地名辞書データを生成するように構成した。これにより、ユーザが階層的な地名を知らずに、いきなり下位の階層に属する地名を発話した場合でも、ユーザが発話(指定)した地名が含まれる可能性の高い地名データから現在地地名辞書データを構築することができる。
この結果、ユーザが指定したい地名の階層構造を理解していないような場合でも、認識可能個数N以内の辞書データに基づいて、認識処理を良好に行うことが可能となるという優れた効果を得ることができる。また、特に本実施例では、上位の階層における地名の指定があった場合に、辞書データとして指定地域辞書データを生成し切替えるように構成したので、認識処理をより一層良好に行うことができるものである。
尚、本発明は上記実施例に限定されるものではなく、例えば、カーナビゲーション装置に限定されず、例えばパソコン等の情報機器に組込まれる音声認識装置全般に適用することができる。この場合、現在位置の位置データをユーザが入力するような構成としても良い。さらには、現在地地名辞書データの構造、指定地域辞書データの構造、認識可能個数N等についても、一例を示したに過ぎず、適宜変更することが可能である等、本発明は要旨を逸脱しない範囲内で適宜変更して実施し得るものである。
本発明の一実施例を示すもので、音声認識装置の構成を概略的に示すブロック図 音声認識処理の処理手順を示すフローチャート 現在地地名辞書データ(a)及び指定地域辞書データ(b)の具体例を示す図 現在地地名辞書データの生成の手法を説明するための図 「都道府県名」が指定された場合の指定地域辞書データの生成の手法を説明するための図 「市区町村名」が指定された場合の指定地域辞書データの生成の手法を説明するための図 「大字名」が指定された場合の指定地域辞書データの生成の手法を説明するための図 ユーザが複数の地名を含んだ発話(音声入力)を行った場合のデータの切替えの様子を示す図
符号の説明
図面中、1は音声認識装置、2は位置検出器、3は制御装置、4は現在地算出部(位置データ入力手段)、6はマイクロホン(音声入力手段)、7はデータベース、8は辞書データメモリ、9は地名辞書生成部(辞書データ生成手段)、10は音声認識エンジン(認識手段)を示す。

Claims (6)

  1. ユーザが発話により指定した地名を認識する音声認識装置であって、
    ユーザが音声入力を行うための音声入力手段と、
    装置の現在位置のデータを入力する位置データ入力手段と、
    日本全国の地名データを、行政区画等に従って広域を表す地名から狭域を表す地名まで複数階層にグループ化した状態で記憶するデータベースと、
    このデータベース中の地名のデータを、認識可能最大個数N以下となるように抽出して認識用の辞書データを生成する辞書データ生成手段と、
    前記音声入力手段による入力データを前記辞書データと照合することによって音声認識を行う認識手段とを備えると共に、
    前記辞書データ生成手段は、未だ地名が指定されていない初期状態においては、最上位階層から複数の階層のグループに跨る地名データを抽出し、且つ、そのうち下の階層のグループについては、前記認識可能最大個数Nを超えないように、該グループ内の、前記位置データ入力手段により入力された現在位置を含む区域に関しての地名データを優先して抽出することにより、前記辞書データとして現在地地名辞書データを生成するように構成されていることを特徴とする音声認識装置。
  2. 前記データベースには、第1の階層として「都道府県名」のグループが設けられていると共に、階層に関係なく全国的に有名な地名やエリア名を含んだ特別なグループが設けられており、前記辞書データ生成手段は、前記初期状態においては、前記特別グループ及び第1階層のグループの全体を含むように現在地地名辞書データを生成することを特徴とする請求項1記載の音声認識装置。
  3. 前記辞書データ生成手段は、前記現在地地名辞書データを、全ての階層のグループに跨るように生成することを特徴とする請求項1又は2記載の音声認識装置。
  4. 前記辞書データ生成手段は、上位の階層における地名の指定があった場合には、当該地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとして指定地域辞書データを生成するように構成されていることを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
  5. 前記音声入力手段から複数の地名を含んだ音声入力があった場合には、前記認識手段は、最初の地名の認識処理を前記現在地地名辞書データを用いて実行し、最初の地名が認識された場合には、前記辞書データ生成手段により、認識された地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとしての指定地域辞書データが生成され、辞書データが当該指定地域辞書データに切替えられた上で前記認識手段による次の地名の認識処理が行われることを特徴とする請求項1ないし3のいずれかに記載の音声認識装置。
  6. 前記認識手段による地名の認識処理が失敗した場合に、ユーザとの対話により広域地名を確認する対話手段を備え、この対話手段により広域地名が確認できた場合には、前記辞書データ生成手段により、当該広域地名の地域に関して、当該地名が属するグループの階層よりも下の階層の地名データを抽出して前記辞書データとしての指定地域辞書データが生成され、辞書データが当該指定地域辞書データに切替えられた上で前記認識手段による認識処理が再度行われることを特徴とする請求項1ないし5のいずれかに記載の音声認識装置。
JP2007031960A 2007-02-13 2007-02-13 音声認識装置 Pending JP2008197338A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007031960A JP2008197338A (ja) 2007-02-13 2007-02-13 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007031960A JP2008197338A (ja) 2007-02-13 2007-02-13 音声認識装置

Publications (1)

Publication Number Publication Date
JP2008197338A true JP2008197338A (ja) 2008-08-28

Family

ID=39756346

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007031960A Pending JP2008197338A (ja) 2007-02-13 2007-02-13 音声認識装置

Country Status (1)

Country Link
JP (1) JP2008197338A (ja)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202386A (ja) * 1995-01-23 1996-08-09 Sony Corp 音声認識方法、音声認識装置、およびナビゲーション装置
JPH08320697A (ja) * 1995-05-23 1996-12-03 Hitachi Ltd 音声認識装置
JPH11125533A (ja) * 1997-10-21 1999-05-11 Sony Corp ナビゲーション装置及びナビゲート方法
JPH11183190A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp ナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置
JP2000075877A (ja) * 1998-08-31 2000-03-14 Fujitsu Ten Ltd 音声合成システム
JP2000089782A (ja) * 1998-09-17 2000-03-31 Kenwood Corp 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP2000137729A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2001215994A (ja) * 2000-01-31 2001-08-10 Matsushita Electric Ind Co Ltd 音声認識住所検索装置と車載ナビゲーション装置
JP2002073075A (ja) * 2000-09-05 2002-03-12 Pioneer Electronic Corp 音声認識装置ならびにその方法
JP2002123284A (ja) * 2000-10-12 2002-04-26 Pioneer Electronic Corp 音声認識装置ならびに方法
JP2002268673A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 音声認識装置、音声認識方法、及び音声認識プログラム
JP2003015687A (ja) * 2001-06-29 2003-01-17 Clarion Co Ltd ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
JP2006330577A (ja) * 2005-05-30 2006-12-07 Alpine Electronics Inc 音声認識装置及び音声認識方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202386A (ja) * 1995-01-23 1996-08-09 Sony Corp 音声認識方法、音声認識装置、およびナビゲーション装置
JPH08320697A (ja) * 1995-05-23 1996-12-03 Hitachi Ltd 音声認識装置
JPH11125533A (ja) * 1997-10-21 1999-05-11 Sony Corp ナビゲーション装置及びナビゲート方法
JPH11183190A (ja) * 1997-12-24 1999-07-09 Toyota Motor Corp ナビゲーション用音声認識装置および音声認識機能付きナビゲーション装置
JP2000075877A (ja) * 1998-08-31 2000-03-14 Fujitsu Ten Ltd 音声合成システム
JP2000089782A (ja) * 1998-09-17 2000-03-31 Kenwood Corp 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
JP2000137729A (ja) * 1998-11-02 2000-05-16 Fujitsu Ltd 辞書検索装置及び辞書検索プログラムを記録した記録媒体
JP2001215994A (ja) * 2000-01-31 2001-08-10 Matsushita Electric Ind Co Ltd 音声認識住所検索装置と車載ナビゲーション装置
JP2002073075A (ja) * 2000-09-05 2002-03-12 Pioneer Electronic Corp 音声認識装置ならびにその方法
JP2002123284A (ja) * 2000-10-12 2002-04-26 Pioneer Electronic Corp 音声認識装置ならびに方法
JP2002268673A (ja) * 2001-03-13 2002-09-20 Mitsubishi Electric Corp 音声認識装置、音声認識方法、及び音声認識プログラム
JP2003015687A (ja) * 2001-06-29 2003-01-17 Clarion Co Ltd ナビゲーション装置及び方法並びにナビゲーション用ソフトウェア
JP2006330577A (ja) * 2005-05-30 2006-12-07 Alpine Electronics Inc 音声認識装置及び音声認識方法

Similar Documents

Publication Publication Date Title
JP2644376B2 (ja) 車両用音声ナビゲーション方法
JP3573907B2 (ja) 音声合成装置
US6064323A (en) Navigation apparatus, navigation method and automotive vehicles
JP4116233B2 (ja) 音声認識装置ならびにその方法
US20140100847A1 (en) Voice recognition device and navigation device
US9123327B2 (en) Voice recognition apparatus for recognizing a command portion and a data portion of a voice input
JP2004325936A (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
JP4914632B2 (ja) ナビゲーション装置
JP4262837B2 (ja) 音声認識機能を用いたナビゲーション方法
JP3700533B2 (ja) 音声認識装置及び処理システム
JP5455355B2 (ja) 音声認識装置及びプログラム
JP2947143B2 (ja) 音声認識装置及びナビゲーション装置
JP4639990B2 (ja) 音声対話装置及び音声理解結果生成方法
JP3677833B2 (ja) ナビゲーション装置,ナビゲート方法及び自動車
JP2011232668A (ja) 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法
JP2008197338A (ja) 音声認識装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
US20110218809A1 (en) Voice synthesis device, navigation device having the same, and method for synthesizing voice message
JP4004885B2 (ja) 音声制御装置
JP2005114964A (ja) 音声認識方法および音声認識処理装置
JPH08328584A (ja) 音声認識装置、音声認識方法及びナビゲーション装置
JP2005227369A (ja) 音声認識装置および方法と車載ナビゲーション装置
JP4550207B2 (ja) 音声認識装置および音声認識ナビゲーション装置
KR20060098673A (ko) 음성 인식 방법 및 장치
KR20170120365A (ko) 음성 인식 장치, 이를 포함하는 차량 및 그 제어방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120529