JP2005173109A

JP2005173109A - 音声認識装置

Info

Publication number: JP2005173109A
Application number: JP2003411881A
Authority: JP
Inventors: Daisuke Saito; 大介斎藤; Mitsunobu Kaminuma; 充伸神沼
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-12-10
Filing date: 2003-12-10
Publication date: 2005-06-30

Abstract

【課題】音声認識性能が高い音声認識装置を提供する。
【解決手段】使用者が発話する音声を入力する音声入力手段と、音声を認識する音声認識手段と、音声認識手段の認識対象となる語彙を記述した言語辞書を記憶する言語辞書手段と、使用者の周辺の映像を撮像する撮像手段と、映像の中から識別情報画像を抽出し、識別情報文字列に変換する識別情報抽出手段と、識別情報文字列を用いて使用者が次に発話する音声の候補語彙（次発話候補語彙）を決定する次発話予測手段と、次発話候補語彙を用いて言語辞書を変更する言語辞書変更手段とを有する。
【選択図】図１

Description

本発明は、音声認識装置に係り、特に、移動体用ナビゲーション装置に搭載される音声認識装置に係る。

人間の発声した音声を認識する音声認識装置が従来から知られており、この音声認識装置を、例えば、移動体用ナビゲーション装置に搭載する様々な技術が提案されている。

音声認識装置が移動体用ナビゲーション装置に搭載される場合、音声認識装置の認識対象となる語彙（認識対象語彙）を記述した言語辞書には、全国の地名及び施設名等が含まれることになり、その認識対象語彙は膨大な数となる。この膨大な数の認識対象語彙の中から、音声認識結果として最も確からしいものを効率的に決定することは、計算量及び使用するメモリ容量の観点から非常に困難である。

この問題に対して、予め言語辞書に記述された語彙を地域ごとにグループ化し、車両の現在地からの距離に応じて、各グループの優先順位を決定する装置（例えば特許文献１等参照）や、車両の現在地及び進行方向や走行中の道路の種類等に応じて、認識対象語彙を絞り込む装置（例えば特許文献２等参照）などが提案されている。

上記装置によれば、特定の地域の地名及び施設名等(以降、「識別情報」と呼ぶ)が優先して認識されるように言語辞書を変更することができるため、認識性能を低下させることなく、音声を用いた制御が可能となる。
特開平１１−３２５９４５号公報特開平１１−１８３１９０号公報

しかしながら、上記装置では、例えば全国の施設名称のうち、現在地若しくは進行予定経路上の所定の範囲に含まれる認識対象語彙が絞込まれ、そこに含まれる識別情報が優先的に認識されるように言語辞書が変更される。したがって、市街地等、施設密集地域では、認識対象単語を十分に絞込めず、大量の識別情報が含まれたままとなり、認識性能を向上させることができない場合がある。

本発明は上記課題に鑑みて成されたものであり、その目的は、音声認識性能が高い音声認識装置を提供することである。

本発明の特徴は、使用者が発話する音声を入力する音声入力手段と、音声を認識する音声認識手段と、音声認識手段の認識対象となる語彙を記述した言語辞書を記憶する言語辞書手段と、使用者の周辺の映像を撮像する撮像手段と、映像の中から識別情報画像を抽出し、識別情報文字列に変換する識別情報抽出手段と、識別情報文字列を用いて使用者が次に発話する音声の候補語彙（次発話候補語彙）を決定する次発話予測手段と、次発話候補語彙を用いて言語辞書を変更する言語辞書変更手段とを有する音声認識装置であることを要旨とする。

本発明によれば、音声認識性能が高い音声認識装置を提供することができる。

以下図面を参照して、本発明の実施の形態を説明する。図面の記載において同一あるいは類似部分には同一あるいは類似な符号を付している。

本発明の実施の形態では、移動体用ナビゲーション装置に搭載される音声認識装置について説明する。さらに、移動体として音声認識装置の使用者が乗車する車両を例に取り、カーナビゲーション装置に搭載された音声認識装置について説明する。

（第１の実施の形態）
図１は、本発明の第１の実施の形態に係る音声認識装置を示し、図２は、図１に示した音声認識装置の一実施例を示す。本発明の第１の実施の形態に係る音声認識装置は、使用者が発話する音声（発話音声Ａ）を入力する音声入力手段６００と、発話音声Ａを認識する音声認識手段１００と、音声認識手段１００の認識対象となる語彙を記述した言語辞書４０を記憶する言語辞書手段７００と、使用者の周辺の映像（映像Ｃ）を撮像する撮像手段３００と、映像Ｃの中から識別情報画像を抽出し、識別情報文字列に変換する識別情報抽出手段４００と、識別情報文字列を用いて、使用者が次に発話する音声の候補語彙（次発話候補語彙）を決定する次発話予測手段５００と、次発話候補語彙を用いて言語辞書４０を変更する言語辞書変更手段２００とを有する。ここで撮像手段３００は、使用者が乗車する車両の周辺の映像Ｃ、即ち車両周囲の景観を撮像する。

音声入力手段６００は、使用者が発話した音声Ａを収集し、扱いやすい離散的な音声信号にＡＤ変換する。具体的には、音声入力手段６００は、図２に示すように、音声をアナログ電気信号に変換する為のマイクロホン３１及びアナログ電気信号をデジタル電気信号に変換するＡ／Ｄ変換部３３を単数或いは複数個組み合わせることで実現される。

音声認識手段１００は、音声入力手段６００から転送された音声信号を認識して、認識結果を例えば文字列や連携する機器の制御信号等Ｂとして送出する。制御信号等Ｂは、例えばテキストなどの情報形態に変換されている。音声認識手段１００は、図２の演算装置３４及び記憶装置３５を単数或いは複数個組み合われることで実現される。演算装置０４としては、例えば一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成する中央演算処理装置（ＣＰＵ）、マイクロプロセッサユニット（ＭＰＵ）、デジタルシグナルプロセッサ（ＤＳＰ）等を用いればよく、実時間処理が可能な演算能力を有していることが望ましい。また、記憶装置３５もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、読み出し専用メモリ（ＲＯＭ）等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。音声認識手段１００から送出された制御信号等Ｂは使用者に対して提示する情報に変換したり、他の機器の操作信号に変換して用いられる。

言語辞書手段７００は音声認識手段１００が認識の対象とする語彙及び文法を記述した言語辞書４０を記憶する手段であり、図２の記憶装置３５を用いて実現される。言語辞書４０には、例えば、統計的な単語の発生確率及び連鎖確率として記述した統計的言語辞書、或いは受理する単語と単語同志の結合関係をネットワークの形で記述したネットワーク文法型言語辞書等がある。ネットワーク文法型言語辞書については図４を参照して後述する。

撮像手段３００は車両の周囲の映像Ｃを撮像するものであり、例えば図２のカメラ３２とＡＤ変換部３３を単数或いは複数個組み合わせることで実現される。

識別情報抽出手段４００は、撮像手段３００が撮像した映像Ｃから、識別情報画像と一致する画像部分（一致画像部分）を抽出し、識別情報画像に対応する識別情報文字列を抽出する。詳細は後述する。識別情報抽出手段４００は、図２の演算装置３４と記憶装置３５を組み合わせることで実現される。ここで識別情報とは、施設や地名などを識別できる情報を指す。例えば、文字看板、ロゴ看板、施設外観、標識などがあり、使用者が視認することで施設や地名を識別できる情報であることが好ましい。

次発話予測手段５００は、識別情報抽出手段４００から得られた識別情報文字列に基づいて、識別情報文字列の全て或いは一部から、次発話候補となり得る語彙（次発話候補語彙）を生成する。具体的には、図２の演算装置３４と記憶装置３５を組み合わせることで実現される。

言語辞書変更手段２００は、次発話予測手段５００から得られた次発話候補語彙に基づいて、言語辞書手段７００に記憶されている言語辞書４０に対して変更を加える。具体的には、図２の演算装置３４と記憶装置３５を組み合わせることで実現される。

図３に示すように、図１の識別情報抽出手段４００は、識別情報画像とこの識別情報画像に対応する識別情報文字列とを記憶する識別情報記憶部４０２と、図１の撮像手段３００が撮像した映像Ｃと識別情報画像とを照合し、映像Ｃ内に識別情報画像と一致する一致画像部分を抽出する照合部４０１と、一致画像部分を映像Ｃから切り出し、記憶する画像抽出記憶部４０３とを有する。

識別情報記憶部４０２には、文字看板、ロゴ看板、施設外観、標識や施設外観等の画像である識別情報画像と、それぞれに対応する識別情報文字列とが記憶されている。具体例については図８を参照して後述する。

照合部４０１は、識別情報記憶部４０２に含まれる識別情報画像を順次参照し、図１の撮像手段３００により取得された映像の全部もしくは一部から、識別情報画像に一致する部分（一致画像部分）を照合する。照合の結果一致する識別情報画像があった場合に、識別情報記憶部４０２の識別情報画像に対応して記憶されている識別情報文字列を次発話予測手段５００へ送出する。

画像抽出記憶部４０３は、照合部４０１が一致画像部分を検出した場合、その一致画像部分を映像Ｃから抽出し、一致した識別情報画像に対応する識別情報文字列と共に記憶する。

なお、画像の照合は、公知の画像認識手法を用いて実現することができる。周囲の物体や空間の状況を直接触れずに可視光に代表される電磁波の特性を利用して認識する技術は、リモートセンシングと呼ばれる。リモートセンシングに用いられる画像処理方法については、上記に示す方法以外に、次の２つの文献に詳しい記載がある。

（１）第１の文献：高木幹雄、下田陽久監修（１９９１）「画像解析ハンドブック」東京大学出版会
（２）第２の文献：（財）資源・環境観測解析センター（１９９６）「新編リモートセンシング用語辞典」
また、照合する映像Ｃには文字列が含まれていることが考えられるため、ＯＣＲ等の文字認識手法を併せて用いることが望ましい。即ち、ロゴマーク看板や建物外観等は画像認識手法で認識、抽出し、標識や文字看板は文字認識手法で認識、抽出するようにすることが好ましい。

図４は、図１の言語辞書４０としてネットワーク文法型言語辞書の一例を示す。ここで示す例では、日本の地名を都道府県、市町村、町名、番地の順に第１乃至第４階層に階層構造化している。したがって例えば、「神奈川県横須賀市夏島町１丁目」などの連続した入力音声を認識することができる。即ち、先ず第１階層において「神奈川県」を認識し、神奈川県に接続された「横須賀市」を第２階層において認識し、横須賀市に接続された「夏島町」を第３階層において認識し、夏島町に接続された「１丁目」を第４階層において認識する。

以上説明した第１の実施の形態に係る音声認識装置の動作を図５のフローチャートを参照して説明する。なお、図５のフローチャートでは、識別情報から次発話候補語彙を抽出して言語辞書を変更する「言語辞書変更処理」（Ｓ１０１〜Ｓ１０９）と、言語辞書を参照して音声認識を行う「音声認識処理」（Ｓ１１１〜Ｓ１１８）とを併せて記してあるが、双方の処理は独立して行われるものである。

先ず、言語辞書変更処理の流れについて説明する。

（イ）システム（音声認識装置）が動作を開始すると、先ずステップＳ１０１において初期化処理を行う。このとき、初期状態として、Ｔ＝０番目の言語辞書４１が読込まれ、メモリ上に展開される。

（ロ）ステップＳ１０２において、撮像手段３００は車両周囲の映像Ｃを撮像する。撮像された映像Ｃは、識別情報抽出手段４００へ送出される。

（ハ）ステップＳ１０３において、識別情報抽出手段４００は、映像Ｃから識別情報画像を抽出する。ステップＳ１０４において、識別情報抽出手段４００は、識別情報画像を識別情報文字列へ変換する。

（ニ）ステップＳ１０５において、識別情報文字列（文字列群）を用いて次発話予測手段５００が次発話予測処理を行う。例えば、識別情報文字列をそのまま次発話候補語彙としたり、或いは識別情報文字列に関連する文字列を合成して次発話候補語彙としたりする。ステップＳ１０６において、次発話予測処理によって決定された次発話候補語彙を取得する。

（ホ）ステップＳ１０７において、次発話候補語彙を言語辞書４０に記述された語彙と比較し、一致する語彙があれば（Ｓ１０７においてＹＥＳ）、ステップＳ１０８へ進む。一方、言語辞書と一致しない語彙があれば（Ｓ１０７においてＮＯ）、ステップＳ１０９へ進む。

（へ）ステップＳ１０８において、言語辞書変更手段２００は次発話候補語彙に基づいて言語辞書変更処理を行う。

（ト）ステップＳ１０９において、対象となる語彙を次発話候補語彙から破棄する。

以上説明した撮像処理から言語辞書変更処理に至る一連の処理は、車両の走行中に繰り返し実行され、その時点での周囲環境に応じて言語辞書が変更されていく。そしてある時点では、Ｔ＝ｎ状態の言語辞書４２に変更されている。

なお、ステップＳ１０８における言語辞書４２の変更処理は、次発話候補語彙の更新時の差分に基づいて変更するように構成することが望ましい。これにより、次発話候補語彙に追加、削除があった場合のみ、言語辞書変更処理が行われる。

次に、音声認識処理の流れについて説明する。

（ａ）システム（音声認識装置）が動作を開始すると、先ずステップＳ１１１において初期化処理を行う。このとき、初期状態として、Ｔ＝０番目の言語辞書４１が読込まれ、メモリ上に展開される。

（ｂ）ステップＳ１１２において、音声入力手段６００は、入力された音信号が音声かどうかを判断する。音声であれば（Ｓ１１２にてＹＥＳ）ステップＳ１１３に進み、音声でなければ（Ｓ１１２にてＮＯ）音声入力手段６００は音声が入力されるまで待ち受ける。即ち、ステップＳ１１２において、音声入力手段６００は、音声操作の検出を監視する。

（ｃ）音声操作を検出すると（Ｓ１１２にてＹＥＳ）、ステップＳ１１３において、音声認識手段１００は、初期状態の言語辞書４１を用いて音声認識を行う。ステップＳ１１４において、音声認識処理の結果を受け取り、後段のナビゲーション装置等へ送出する。以降、言語辞書４１が変更された場合は、該変更後の言語辞書４２を用いて音声認識処理を行う。

（ｄ）ステップＳ１１５において、音声入力手段６００は、再び音声操作の検出を監視する。音声操作を検出すると（Ｓ１１５にてＹＥＳ）、ステップＳ１１６において、Ｔ＝ｎ状態の言語辞書４２が読込まれ、メモリ上に展開される。

（ｅ）ステップＳ１１７において、変更後の言語辞書４２を用いて音声認識処理を行う。ステップＳ１１８において、音声認識処理の結果を受け取り、後段のナビゲーション装置等へ送出する。以上をもって音声認識処理が終了する。

次に、図１に示す音声認識装置の各構成要素が行う具体的な各処理について述べる。

図６は、代表的な周囲環境における走行中の車両から撮像手段３００が撮像する撮像範囲を示す。走行中の車両から撮像手段３００が撮像する撮像範囲は、周囲環境によって異なる。太い矢印は車両及びその進行方向を示す。四角印は道路周辺の建物を示し、第１乃至第３の領域４３〜４５は代表的な周囲環境を示し、第１の領域４３は「街中」を示し、第２の領域４４は「街中の交差点付近」を示し、第３の領域４５は「郊外」を示す。斜線部は第１乃至第３の領域４３〜４５において撮像手段３００が撮像する第１乃至第３の撮像範囲４６〜４８を示す。

例えば、第１の領域４３では両脇を建物に囲まれているため側方の遠方は遮られ見ることができない。従って、先方撮像用のカメラ３２を用い、車両前方のみを撮像範囲とすればよい。また、第２の領域４４では、使用者が交差する道路沿いの施設等を視認することが考えられる為、前方撮像用のカメラ３２に加え、側方撮像用のカメラ３２も用いて前方と側方を撮像範囲とする。更に、第３の領域４５では、道路沿いに建物が少なく、前方を中心に斜め方向の施設等も視認することが可能である。従って、斜め前方の映像も取得するようにしなければならない。このように、撮像範囲は、走行する周囲の環境に合わせて使用者が視認する範囲に限定することが好ましい。

図７は、図６の第１の領域４３において撮像手段３００が撮像する第１の撮像範囲４６の映像例を示す。識別情報抽出手段４００は、撮像手段３００が撮像する映像から、識別情報画像を抽出する。具体的には、図３の識別情報記憶部４０２に格納された識別情報画像を順次参照して、撮像された図７の映像から部分画像１１Ａ〜１１Ｅを探索する。なお、図６の第２の領域４４については図６に示すような映像が正面方向に加え左右方向分についても得られる。

図８は、図３の識別情報記憶部４０２に格納された識別情報画像とそれに対応する識別情報文字列の一例を示す。識別情報記憶部４０２に格納された識別情報は、ＩＤ、識別情報画像、及び識別情報文字列（語彙）から構成されている。識別情報抽出手段４００は、ＩＤ＝１の識別情報画像から順に照合していった結果、図７の映像のなかからＩＤ＝３に対応する識別情報画像に一致する一致画像部分１１Ｄが識別される。また、図７の部分画像１１Ｂに含まれる識別情報画像は、識別情報記憶部４０２に格納された識別情報画像の何れとも照合しない為、識別することが出来ない。更に、図７の部分画像１１Ｃには、図８の「スーパー１」に対する識別情報画像が含まれているが、現時点の図７に示す映像からは、識別情報画像が小さすぎるため識別することが出来ない。以上の画像認識処理により、図７に示す映像から識別情報文字列「スーパー１」が抽出される。これに並行して文字認識処理が行われ、その結果、図７の映像のうち部分画像１１Ａから「□△ストア」、部分画像１１Ｅから「スーパー○×」が認識され、識別情報文字列「□△ストア」、「スーパー○×」が抽出される。

図９は、図８の識別情報を用いて図７の映像から最終的に抽出された識別情報文字列を示す。最終的に抽出された識別情報文字列は、「スーパー１」、「□△ストア」及び「スーパー○×」である。これらの識別情報文字列は、次発話予測手段５００へ送出される。

図１０は、図６の第３の領域４５において撮像手段３００が撮像する第３の撮像範囲４８の映像例を示す。識別情報抽出手段４００は、図１０の映像から「スーパーＡ」の看板１２Ａ、「デパートＢ」の看板１２Ｂ、「地名Ｃ」が標記された道路標識１２Ｃなどの識別情報画像を抽出し、識別情報記憶部４０２に記憶された識別情報を用いて「スーパーＡ」、「デパートＢ」及び「地名Ｃ」などの識別情報文字列を次発話予測手段５００へ送出する。部分画像１２Ｄは、図１０の映像からでは距離が遠く抽出されない。

なお、図１１に示すように、第３の領域４５において、車両４９からの第３の撮像範囲４８に、スーパーＡの看板１２ａ、デパートＢの看板１２ｂ、地名Ｃが標記された道路標識１２ｃは含まれるが、識別情報画像１２ｄは含まれない。したがって、識別情報抽出手段４００は部分画像１２ｄを抽出しない。

識別情報抽出手段４００が図７の映像から図９の識別情報文字列を抽出すると、続いて次発話予測手段５００は、次発話候補語彙を予測する。ここでは、図９の識別情報文字列「スーパー１」についてそのまま次発話候補語彙とする。また、文字認識処理において抽出された識別情報文字列「□△ストア」及び「スーパー○×」については、識別情報が網羅された図示しない識別情報データベースを参照し、データベースに存在するもののみを次発話候補語彙とする。識別情報データベースとしては、例えば一般的なナビゲーション装置が持ち合わせている施設情報等から構築することが好ましい。更に、選択された次発話候補語彙について、それらを分割或いは補完することで、次発話候補語彙に関連する語彙を抽出しても構わない。例えば、使用者が多角経営企業の店舗看板「○×ホテル」を視認したとき、「○×ストア」、「○×百貨店」、「○×不動産」等を連想する可能性が考えられるからである。したがって、識別情報抽出手段４００において識別情報文字列「○×ホテル」が抽出された場合は、識別情報データベースを検索し、「○×ホテル」から「○×」部分を含む他の文字列を抽出する。文検索の結果、「○×ホテル」、「○×ストア」、「○×百貨店」、「○×不動産」等が見つかり、次発話候補語彙となる。

なお、識別情報抽出手段４００の処理と次発話予測手段５００の処理とは同期が取られる。即ち、識別情報抽出手段４００が識別情報を抽出する度に、次発話予測手段５００が次発話を予測する。そして、特定の識別情報、例えば「スーパー１」が抽出されている間は次発話候補語彙として保持され、抽出されなくなった時点で次発話候補語彙から除外される。

そして最終段階として、言語辞書変更手段２００は、次発話候補語彙を用いて言語辞書４０を変更する。ここで、言語辞書４０に含まれない語彙が次発話候補語彙として提供された場合は、その次発話候補語彙を破棄するようにしても良いし、使用者に新規登録するか否かを提示するようにしても良い。

図１２乃至図１４を参照して、ネットワーク文法型言語辞書の変更例を以下に示す。ここでは、次発話候補語彙に「スーパー１」が設定された場合について説明する。図１２は、変更前の初期状態の言語辞書（ネットワーク文法型言語辞書）の例を示す。図１２の言語辞書を用いた場合、使用者が「スーパー１」を認識させるタスクを達成する為には、「買い物」「スーパー」「スーパー１」の３単語を、この順で連続に発話するか、もしくはこの順に単独で３回発話をしなければならない。

言語辞書変更手段２００は、次発話候補語彙「スーパー１」を用いて図１２のネットワーク文法型言語辞書を変更する。図１３は、図１２に示すネットワーク文法型言語辞書に対する第１及び第２の変更法５１、５２を示す。

「第１の変更法」５１は、言語辞書中の次発話候補語彙を上位階層へ移動する方法である。具体的には、第３階層にある「スーパー１」を上位階層（例えば第１階層）に再配置する。この結果、「スーパー１」という入力タスクを達成する為に、使用者は、「スーパー１」と一回だけ発話すれば良いことになる。移動先は上位階層であればよく、第１階層に限定されず第２階層であってもよい。

「第２の変更法」５２は、接続する上位階層ごと上位階層に移動する方法である。具体的には、第３の階層にある「スーパー１」に上位階層で接続された語彙である「スーパー」を対象とし、この「スーパー」に接続された下位階層のネットワークを伴って、上位階層（例えば第１階層）へ再配置する。これにより、ジャンル選択「スーパー」が単独で認識できるようになるとともに、「スーパー」に接続される下位階層「スーパー１」及び「スーパー２」等は「スーパー」「スーパー１」及び「スーパー」「スーパー２」の２単語の発話でそれぞれ認識できるようになる。

次に、図１４（ａ）及び図１４（ｂ）を参照してネットワーク文法型言語辞書に対する第３の変更法について説明する。「第３の変更法」は、次発話候補語彙が優先して認識されるよう、言語辞書中の各語彙の出現確率や遷移確率を変更する方法である。図１４（ａ）には単語（語彙）と発生確率を共に記した言語辞書の例を示す。各データは「語彙：出現確率（発生確率）」で表現されている。図１４（ａ）は、初期状態での各語彙の出現確率を示している。これに対して、言語辞書変更手段２００は、次発話候補語彙「スーパー１」を用いて図１４（ｂ）に示すように言語辞書を変更する。即ち、第２階層の「デパート」の発生確率を０．５から０．４へ減少させ、第２階層の「スーパー」の発生確率を０．５から０．６へ増加させる。そして、第３階層の「スーパー１」の発生確率を０．５から０．７へ増加させ、第３階層の「スーパー２」の発生確率を０．５から０．３へ増加させる。これにより、図１４（ａ）に示す初期状態に比較して、「買い物」「スーパー」「スーパー１」の３単語を入力した際の認識スコアが増加し、優先して認識されるようになる。なお、第３の変更法では各単語の出現確率を変更しているが、単語同士の連鎖確率の確率を変更するようにしてもよい。

なお、第１乃至第３の変更法は、適宜組み合わせて用いることが好ましい。また、言語辞書が変更された際に、次発話候補語彙の抽出源となった一致画像部分を、図３の画像抽出記憶部４０３から読み出して表示する、またはガイダンス音などを用いて候補語彙が抽出されたことを使用者に報知するようにしても良い。

本発明の第１の実施の形態によって、言語辞書は撮像された映像に含まれる識別情報が認識され易いように変更される。これにより、使用者は、車両乗車中に視認した識別情報について認識させ易くなり、利便性が向上する。

以上説明したように、言語辞書から優先的な認識対象語彙を絞り込む方法を使用者の次の発話を予測する方法として捉え、次発話として入力される可能性の高い情報を獲得し、この情報を用いて言語辞書を適応させることができれば、認識性能を向上させることができる。若しくは、発話者の発話言語を簡略化させることができる。即ち、車外から取得する言語は、既に言語辞書の中にある言語となるため、造語、施設や地名に無関係な文字列、抽出を誤った文字列など言語辞書に含まれないような変わった言語を抽出することがない（図５：Ｓ１０７）。

また、使用者の知らない地域などの識別情報は発話される可能性が低く、次発話予測の精度向上に余地がある。そこで、次発話の予測に、発話者の目視による認知情報を利用する。すなわち、使用者によって視認される情報に基づき、次発話の候補を抽出する。発話者の知らない地域においては、視認した識別情報が視認されない情報に比べ、次発話になる可能性が高い。従って、視認する情報を利用すればより適切に次発話を予測できる。

このようにして、車両周囲の映像に基づいて適切に使用者の次発話候補を推定し、音声認識装置の音声認識性能の向上を実現することができる。

（第２の実施の形態）
第２の実施の形態に係る音声認識装置は、図１及び図２に示した音声認識装置と同様な主要構成を有する。第２の実施の形態において、図１の識別情報抽出手段４００は、図１５に示すように、照合部４０１と、識別情報記憶部４０２と、部分画像抽出記憶部４０４と、抽出処理命令部４０５と、文字列変換部４０６とを有する。

抽出処理命令部４０５は、車両の速度の増加に伴い、識別情報文字列に変換する処理の間隔を短くすることを照合部４０１に対して命令する。具体的には、抽出処理命令部４０５は、車両の速度を検出し、得られた車両速度に基づき、識別情報抽出処理を行う時間間隔、すなわち抽出周期Ｆを決定する。そして、車両の速度の増加に伴い、識別情報文字列に変換する処理の間隔（抽出周期Ｆ）を短くする。ここで、車両速度は、車両の速度センサ等の情報を利用しても良いし、撮像画像の差分から推定するようにしても良い。また、抽出周期Ｆは、車両の進行に伴い均一に情報が抽出できるように決定される。

図１６（ａ）及び図１６（ｂ）は、抽出周期Ｆの違いによる識別情報抽出範囲（撮像範囲）の相違を示す。図１６（ａ）では抽出周期Ｆが長く（Ｆ＝２ｘ）、図１６（ｂ）では抽出周期Ｆが短い（Ｆ＝ｘ）。換言すれば、図１６（ａ）ではサンプリング周波数が低く、図１６（ｂ）ではサンプリング周波数が高い。なお、車両４９の速度は図１６（ａ）及び図１６（ｂ）で同じである。

図１６（ａ）に示すように、車両４９は、先ずＴ回目の撮像においてＴ回目の撮像範囲５４ａを撮像し、抽出周期（Ｆ＝２ｘ）後に（Ｔ＋１）回目の撮像において（Ｔ＋１）回目の撮像範囲５４ｂを撮像する。道路脇にあるデパートＡの看板１２ａは、Ｔ回目の撮像範囲５４ａ及び（Ｔ＋１）回目の撮像範囲５４ｂの何れにも含まれないので、認識・抽出することが出来ない。

一方、図１６（ｂ）に示すように、抽出周期（Ｆ＝ｘ）を半分に短くした場合、撮像間隔が短くなり、Ｔ回目の撮像範囲５３ａ、（Ｔ＋１）回目の撮像範囲５３ｂ及び（Ｔ＋２）回目の撮像範囲５３ｃが途切れることなく連続する為、デパートＡの看板１２ａは、何れかの撮像範囲に含まれることになる。ここでは、看板１２ａは、（Ｔ＋１）回目の撮像範囲５３ｂに含まれる。即ち、使用者の視界に入る識別情報画像を見逃さずに撮像することができる。このように、抽出周期Ｆは、通過する周辺映像を均一に取り込むよう決定されることが好ましい。車両速度から一定時間毎の移動距離を算出し、例えば１０ｍ間隔で抽出処理が行われるように抽出周期Ｆを決定するようにしても良い。

なお、上記手法において、撮像手段３００は常に連続的に撮像するのではなく、識別情報抽出手段４００の抽出周期Ｆとの撮像周期とを同期させ、撮像処理と識別情報抽出処理とを一連の処理として実行するように構成しても良い。

以上のような構成により、速度に応じて、適切な間隔で識別情報抽出処理を行うことができる。したがって、速度が増加し、抽出される識別情報が頻繁に変化する状況となっても、正確に識別情報を抽出することができる。一方、速度が減少し、抽出される識別情報がほとんど変化しない状況では、識別情報抽出処理の間隔を拡大し、処理負荷を軽減することができる。

また、車両速度のみならず、周辺環境による要因によって抽出周期を変更することも考えられる。例えば、自車位置情報と、地図情報を用いて、走行中の周辺建築物の密度を算出する機構を新たに備え、抽出周期Ｆに適用するようにしても良い。

これにより、市街地等では、映像に含まれる識別情報の密度が高く、かつ頻繁に変化すると考えられるため、抽出周期を短く設定し、郊外の道等、映像に含まれる識別情報が頻繁に更新される可能性が低いと考えられる場所では、抽出周期を長く設定する等の制御が行える。

このように、本発明では、車から見えた情報が発話者に発話する言語のヒントを与える、というところから考案されたものである。よって景色が変わると共に、取得した認識言語としての情報の重要度が変わってくる。このことから，車速・周辺環境等に対応して車外から情報を取得するタイミングを変更する。

（第３の実施の形態）
第３の実施の形態に係る音声認識装置は、図１及び図２に示した音声認識装置と同様な主要構成を有する。第３の実施の形態において、図１の次発話予測手段５００は、図１７に示すように、次発話候補選択部５０１と、次発話候補記憶部５０２と、車両現在地算出部５０３と、地図情報を格納した地図情報記憶部５０４とを有している。次発話候補選択部５０１は、識別情報文字列と地図情報と照合して、地図上に存在する識別情報文字列を次発話候補語彙と判定する。

地図情報記憶部５０４には、各種道路形状、道路種別、地名、及び施設名といった情報が、それぞれの位置情報とともに記録されている。

車両現在地算出部５０３は、地図情報記憶部５０４に記録された地図情報と、ＧＰＳセンサ、車速センサ、及びジャイロスコープ等の情報を利用し、車両の現在位置を算出する。算出した現在位置を次発話候補選択部５０１へ送出する。

次発話候補選択部５０１は、識別情報抽出手段４００により抽出された識別情報文字列を受け取る。そしてこの識別情報文字列を用いて、次発話候補語彙を生成する。具体的には、地図情報記憶部５０４の地図情報を参照し、抽出された識別情報文字列が地図情報上の所定範囲内に存在するか否かを判定する。この時参照する地図範囲は、例えば、車両現在地算出部５０３により算出された現在位置を中心として、半径２０ｋｍの範囲等とすることが好ましい。判定により識別情報文字列が地図情報に存在した場合、その識別情報文字列を次発話候補語彙と決定し、次発話候補記憶部５０２に記憶する。

次に、図１７に示した次発話予測手段５００の処理動作を含む撮像処理及びを図１８のフローチャートを用いて説明する。

（イ）先ずステップＳ１９１において、撮像手段３００は車両周囲の映像を撮像する。撮像された映像は、識別情報抽出手段４００へ送出される。

（ロ）ステップＳ１９２において、識別情報抽出手段４００は、映像から識別情報画像を抽出し、識別情報画像を識別情報文字列へ変換する。

（ハ）ステップＳ１９３において、言語辞書を参照し、識別情報文字列（文字列群）を用いて次発話予測手段５００が識別情報文字列を含む関連語彙となる文字列を生成する。生成手法は第１の実施の形態と同様とする。

（ニ）ステップＳ１９４において、車両現在地算出部５０３は車両の現在位置を取得する。

（ホ）ステップＳ１９５において、車両の現在位置に基づき車両周辺地図情報を参照する。あるいは参照された地図情報に含まれる識別情報のみを取得するようにしてもよい。

（へ）ステップＳ１９６において、識別情報文字列を含む関連語彙となる文字列と自車位置に基づく所定範囲の地図情報とを照合する。照合の結果、文字列と地図情報とが一致した場合（Ｓ１９６においてＹＥＳ）、ステップＳ１９７において該文字列を次発話候補語彙と決定し、次発話候補語彙と決定された語彙を次発話候補記憶部５０２に記憶する。文字列が地図情報に存在しない場合 (Ｓ１９６においてＮＯ)、ステップＳ１９８において該文字列を破棄する。

Ｓ１９６において車両周辺地図情報上に識別情報文字列を含む関連語彙となる文字列が存在しない状況としては、（１）次発話予測手段５００にて生成された文字列に係る施設等が周辺に無い場合、（２）識別情報抽出手段４００が誤った情報を抽出した場合、（３）撮像された看板等が、企業広告等であり、実際にその企業関連の施設は周辺地域に存在しない場合などが有る。こうした情報に基づき使用者が目的地を発話する可能性は低いと考えられる。したがって、上記に示した構成により、抽出された識別情報のうち、通常目的地として発話される可能性の低い語彙を次発話候補語彙から除外するので、認識対象となる語彙を絞り込むことができ、認識性能が向上する。

また、周辺地図情報を用いることで、別の効果を期待できる。例えば、抽出した識別情報が次発話候補語彙に選択された時に、この次発話候補語彙と、該次発話候補語彙の地図上での位置を対応させて次発話候補記憶部５０２に記憶する機構を設けることができる。こうすることで、例えば複数のスーパーを自車の周辺から抽出し、「左に見えるスーパーの情報を見る」等、方向に関する指示語を用いた音声を認識した際に、更に識別情報を絞り込める可能性が高くなり、使用者にとっての利便性が向上する。

第３の実施の形態では、地図情報を基にしていることから、自車両周辺情報として取得された場合は、使用者は詳細な位置関係まで把握できることができる。

（第４の実施の形態）
第４の実施の形態に係る音声認識装置は、図１及び図２に示した音声認識装置と同様な主要構成を有する。第４の実施の形態において、図１の次発話予測手段５００は、図１９に示すように、識別情報文字列から言語辞書に存在する語彙を次発話候補語彙として選択する次発話候補選択部５０１と、次発話候補語彙と次発話候補語彙が候補として保持される保持時間とを記憶する次発話候補記憶部５０２と、保持時間が経過した次発話候補語彙を次発話候補記憶部５０２から削除する次発話候補差分算出部５０５とを有する。

次発話候補選択部５０１は、識別情報抽出手段４００より得られた識別情報文字列を受け取り、識別情報文字列を含む関連語彙を次発話候補語彙として生成する。

次発話候補記憶部５０２は、次発話候補語彙を、それぞれの文字列の該記憶部５０２内での保持時間と共に記憶する。

次発話候補差分算出部５０５は、次発話候補選択部５０１が新たに送出してくる次発話候補語彙群Ａと既に次発話候補記憶部５０２に記録されて選択済みの次発話候補語彙群Ｂとを比較し、以下のような処理を行う。

（１）次発話候補語彙群Ａにあって次発話候補語彙群Ｂに無い語彙群Ｃが存在した場合、新たに抽出された次発話候補語彙群Ｃを次発話候補語彙群として言語辞書変更手段２００へ送出する。

（２）次発話候補語彙群Ａにあり、且つ次発話候補語彙群Ｂにもある語彙群Ｄが存在した場合、前回以前の処理で次発話候補語彙と抽出され、且つ今回も抽出された語彙群Ｄを次発話候補語彙群として言語辞書変更手段２００へ送出する。

（３）次発話候補語彙群Ａに無く、次発話候補語彙群Ｂにある語彙群Ｅが存在した場合、前回以前の処理では次発話候補語彙と抽出され今回の処理で抽出されなかった語彙群Ｅのうち最後に検出されてからの経過時間が保持時間を超えていない語彙群Ｆについて、該語彙群Ｆを次発話候補語彙群として言語辞書変更手段へ送出する。

（４）語彙群Ｅのうち、最後に検出されてからの経過時間が保持時間に達した語彙群Ｇを次発話候補記憶部５０２から削除する。

ここで、次発話候補語彙の保持時間は、全ての次発話候補語彙に対して一律に決定するようにしてもよいし、その時の走行状況（速度や走行する地域の建物の密度等）、或いは使用者の次発話候補語彙の発話履歴、発話頻度等に基づいて各次発話候補語彙毎に保持時間を決定するようにしても良い。

図２０は、走行中の車両からの撮像範囲の遷移を示す。車両は現在時間Ｔ＝ｎの位置におり、ｎ回目（現在）の撮像範囲５５ｃからは識別情報１３Ｃのみが抽出できる。抽出された識別情報に係る次発話候補語彙は、その保持時間の間、次発話候補記憶部５０２に記憶されるため、Ｔ＝ｎ−１回目の撮像において（ｎ−１）回目の撮像範囲５５ｂに含まれる識別情報１３ｂは、現在時間Ｔ＝ｎにおいても次発話候補語彙として次発話候補記憶部５０２に保持することができる。一方、保持時間を経過したＴ＝ｎ−２回目に抽出した識別情報１３ａに係る語彙は次発話候補語彙から削除される。

このように、一定期間過去から現在までの撮像結果を用いて次発話候補語彙が決定、言語辞書が変更されるため、使用者が視認してから発話するまでに時間間隔があり、撮像範囲から逸脱していた場合や、一旦撮像され次発話候補語彙となった識別情報が障害物に隠れる等して一時的に撮像できない状況になった場合でも、該発話が優先して認識される可能性が上がり、音声認識性能が向上する。

（第５の実施の形態）
第５の実施の形態に係る音声認識装置は、図１及び図２に示した音声認識装置と同様な主要構成を有する。第５の実施の形態において、図１の識別情報抽出手段４００は、図２１に示すように、照合部４０１と、識別情報記憶部４０２と、部分画像抽出記憶部４０４と、文字列変換部４０６と、抽出頻度算出部４０７と、抽出サイズ算出部４０８とを有する。

照合部４０１は、撮像手段３００から送出された映像と識別情報記憶部４０２に記憶された識別情報画像とを照合し、識別情報画像に合致する部分画像を探索する。探索の結果、合致する画像部分があった場合に、文字列変換部４０６は、画像部分を抽出文字列（識別情報文字列）に変換する。

抽出頻度算出部４０７は、識別情報が抽出される頻度を算出する。ここで、抽出頻度を計る期間は一連のドライブ中等とし、一連のドライブが終了し数時間以上経過した場合に頻度算出結果を初期化するようにすることが好ましい。なお、ここで抽出頻度が高い場合としては、一つの識別情報（施設）が連続的長い期間抽出され続けている状況、及び同じ種類の複数の識別情報（例えばコンビニ等）が頻繁に検出される状況の双方が含まれる。

抽出サイズ算出部４０８は、識別情報が抽出された時の部分画像の抽出サイズを算出する。ある識別情報が連続的に抽出された場合は、例えば連続的に抽出されたサイズの最大値を抽出サイズとすることが好ましい。

部分画像抽出記憶部４０４には、抽出された識別情報に係る、切出された部分画像、文字列変換部４０６で変換された抽出文字列、抽出頻度算出部４０７で算出された抽出頻度、及び抽出サイズ算出部４０８で算出された抽出サイズが一組の抽出結果として記憶される。

第５の実施の形態における次発話予測手段５００は、図１９の次発話予測手段５００と同様な構成を有する。次発話候補記憶部５０２は、次発話候補語彙及び該次発話候補語彙の保持時間を記憶し、これに加え、該次発話候補語彙を生成するために用いた識別情報の抽出頻度、抽出サイズをも記憶する。

また、次発話予測手段５００は、保持時間を、抽出頻度が大きいほど長く、抽出頻度が高いほど長く設定する機構を備える。即ち、次発話予測手段５００は、識別情報文字列に変換される頻度が高い識別情報の保持時間を、識別情報文字列に変換される頻度が低い識別情報よりも長くする。

更に、次発話予測手段５００は、抽出サイズが大きい一致画像部分から識別情報文字列に変換された次発話候補語彙の保持時間を、抽出サイズが小さい一致画像部分から識別情報文字列に変換された次発話候補語彙よりも長く設定する。

なお、抽出頻度及び抽出サイズを次発話候補語彙に付与して記憶する為には、図１９の次発話候補選択部５０１において文字列に関連する語彙を次発話候補語彙として生成する際に生成された次発話候補語彙に、逐次生成元となった抽出文字列の抽出頻度、抽出サイズを付与するようにし、これを一対の次発話候補データとして、図１９の次発話候補記憶部５０２に記憶すればよい。

言語辞書変更手段２００は、上記次発話候補語彙、抽出頻度、抽出サイズに基づき、例えば、抽出頻度が大きいほど、次発話候補語彙が優先的に認識されるよう言語辞書を変更する。或いは、抽出サイズが大きいほど、次発話候補語彙が優先的に認識されるように言語辞書を変更する。

言語辞書の変更は、第１の実施の形態と同様、言語辞書中の次発話候補語彙を上位階層へ移動する第１の変更法、接続する上位階層ごと上位階層に移動する第２の変更法、或いは次発話候補語彙が優先して認識されるように言語辞書中の出現確率や遷移確率を変更する第３の変更法の何れかを用いて行うことができる。更に、これらの変更法を適宜組み合わせておこなっても構わない。なお、第３の変更法について、抽出頻度が高いほど、または抽出サイズが大きいほど、出現確率もしくは遷移確率を大きくする。

本構成によって、例えば、走行中に大きく見える識別情報から抽出された次発話候補語彙や、長時間撮像されつづけた識別情報から抽出された次発話候補語彙、そして頻繁に検出された特定ジャンルの識別情報から抽出された次発話候補語彙について、次発話候補記憶部５０２に長時間保持されると共に、それら語彙の抽出頻度が高いほど、または抽出サイズが大きいほど認識され易いように言語辞書が変更される。

こうして、頻繁に抽出される情報あるいは大きく抽出される情報という、使用者により視認されやすい識別情報を優先的に次発話候補語彙として保持し、言語辞書中においても優先して認識されるように取り扱われることで、認識性能が上がると共に、使用者にとっての利便性が向上する。

上記に概説した例示的な実施形態に関連させて本発明を説明してきたが、当業者には多くの代替、修正及びバリエーションが明らかであることは明白である。したがって、上記に説明した本発明の例示的な実施形態は例示を意図するものであり限定するものではない。本発明の趣旨や範囲から逸脱せずに種々の変更を行うことができる。

請求項１の発明によれば、車両周囲の画像情報から抽出された識別情報に基づき、対応する語彙が次発話候補語彙となるため、対象語彙数を絞り込むことができ、認識性能が向上する。

また、視認した情報は認識され易くなるという特徴を持つため、使用者のより直感的な操作を可能とし、利便性が向上する。

請求項２の発明によれば、撮像範囲を限定することができ、撮像処理を抑制できる。そして、車両周囲の情報から使用者が視認できる範囲の識別のみを抽出し、対応する語彙を次発話候補語彙とすることができるため、対象語彙数を絞り込むことができ、認識性能が向上する。

請求項３の発明によれば、撮像手段３００が撮像する映像から変換された文字列のうち、地図上に存在する情報に基づく語彙が次発話候補語彙となるため、より正確に語彙を絞り込むことができ、認識性能が向上する。

請求項４の発明によれば、識別情報抽出手段４００は、映像に含まれる情報を適切に抽出し、情報に対応する文字列に変換することができる。

請求項５の発明によれば、速度の変化に対応して常に適切な間隔で識別情報を抽出することが可能になり、次発話予測の精度が向上するため、認識性能が向上する。

請求項６の発明によれば、次発話候補語彙が抽出終了から所定時間保持される為、使用者が視認してから所定時間にわたり視認に基づく発話を優先して認識することができ、使用者にとって利便性が向上する。

また、映像から抽出された次発話候補語彙が時間の経過とともに更新されていくため、次発話候補が際限なく蓄積されることが無く、適切な語彙数を保持できる。従って、認識候補語彙の増加に伴う認識性能の低下を抑制することができる。

請求項７の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が次発話候補語彙として長く保持される為、認識性能が向上する。

請求項８の発明によれば、映像中大きく抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が次発話候補語彙として長く保持される為、認識性能が向上する。

請求項９の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が入力された時に優先して認識される為、認識性能が向上する。

請求項１０の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が入力された時に優先して認識される為、認識性能が向上する。

本発明の第１の実施の形態に係る音声認識装置を示すブロック図である。図１に示した音声認識装置の一実施例を示すブロック図である。図１に示した識別情報抽出手段の具体的な構成を示すブロック図である。ネットワーク文法型言語辞書の一例を示すブロック図である。図１及び図２に示した音声認識装置の動作を示すフローチャートである。代表的な周囲環境における走行中の車両から撮像手段が撮像する撮像範囲を示す。図６の第１の領域において撮像手段が撮像する第１の撮像範囲の映像例を示す。図３の識別情報記憶部に格納された識別情報画像とそれに対応する識別情報文字列の一例を示す。図８の識別情報を用いて図７の映像から最終的に識別された識別情報文字列を示す。図６の第３の領域において撮像手段が撮像する第３の撮像範囲の映像例を示す。第３の領域の状況及びカメラの撮像範囲を示す。次発話候補語彙に「スーパー１」が設定された場合の変更前のネットワーク文法型言語辞書の例を示すブロック図である。図１２に示すネットワーク文法型言語辞書に対する第１及び第２の変更法を示すブロック図である。図１４（ａ）は、図１２と同様なネットワーク文法型言語辞書の各語彙及び変更前の発生確率を示すブロック図である。図１４（ｂ）は、図１４（ａ）に示す各語彙の変更後の発生確率を示すブロック図である。本発明の第２の実施の形態に係る識別情報抽出手段を示すブロック図である。図１６（ａ）は抽出周期Ｆが比較的長い（Ｆ＝２ｘ）場合の識別情報抽出範囲（撮像範囲）を示し、図１６（ｂ）は抽出周期Ｆが比較的短い（Ｆ＝ｘ）場合の識別情報抽出範囲（撮像範囲）を示す。本発明の第３の実施の形態に係る次発話予測手段を示すブロック図である。図１７に示した次発話予測手段の処理動作を含む撮像処理及び言語辞書変更処理の流れを示すフローチャートである。本発明の第４の実施の形態に係る次発話予測手段を示すブロック図である。走行中の車両からの撮像範囲の遷移を示す。本発明の第５の実施の形態に係る次発話予測手段を示すブロック図である。

符号の説明

１１Ｄ…一致画像部分
１２Ａ、１２Ｂ、１２ａ、１２ｂ…看板
１２Ｃ、１２ｃ…道路標識
１１Ａ〜１１Ｅ、１２Ｄ、１２ｄ…部分画像
１３Ｃ、１３ａ、１３ｂ…識別情報
３１…マイクロホン
３２…カメラ
３３…変換部
３４…演算装置
３５…記憶装置
４０〜４２…言語辞書
４３…第１の領域
４４…第２の領域
４５…第３の領域
４６…第１の撮像範囲
４７…第２の撮像範囲
４８…第３の撮像範囲
４９…車両
５１…第２の変更法
５３ａ〜５３ｃ、５４ａ、５４ｂ、５５ｂ、５５ｃ…撮像範囲
１００…音声認識手段
２００…言語辞書変更手段
３００…撮像手段
４００…識別情報抽出手段
４０１…照合部
４０２…識別情報記憶部
４０３…画像抽出記憶部
４０４…部分画像抽出記憶部
４０５…抽出処理命令部
４０６…文字列変換部
４０７…抽出頻度算出部
４０８…抽出サイズ算出部
５００…次発話予測手段
５０１…次発話候補選択部
５０２…次発話候補記憶部
５０３…車両現在地算出部
５０４…地図情報記憶部
５０５…次発話候補差分算出部
６００…音声入力手段
７００…言語辞書手段

Claims

使用者が発話する音声を入力する音声入力手段と、
前記音声を認識する音声認識手段と、
前記音声認識手段の認識対象となる語彙を記述した言語辞書を記憶する言語辞書手段と、
前記使用者の周辺の映像を撮像する撮像手段と、
前記映像の中から識別情報画像を抽出し、識別情報文字列に変換する識別情報抽出手段と、
前記識別情報文字列を用いて、前記使用者が次に発話する音声の候補語彙（以後、「次発話候補語彙」という）を決定する次発話予測手段と、
前記次発話候補語彙を用いて前記言語辞書を変更する言語辞書変更手段
とを有することを特徴とする音声認識装置。
前記撮像手段が撮像する範囲は、前記使用者が視認する範囲内に収まることを特徴とする請求項１記載の音声認識装置。
前記次発話予測手段は、
地図情報を格納した地図情報記憶部と、
前記識別情報文字列と前記地図情報と照合して、地図上に存在する前記識別情報文字列を前記次発話候補語彙と判定する次発話候補選択部
とを有することを特徴とする請求項１又は２記載の音声認識装置。
前記識別情報抽出手段は、
前記識別情報画像と前記識別情報画像に対応する識別情報文字列とを記憶する識別情報記憶部と、
前記撮像手段が撮像した映像と前記識別情報画像とを照合し、前記映像内に前記識別情報画像と一致する一致画像部分を抽出する照合部と、
前記一致画像部分を前記映像から切り出し、記憶する画像抽出記憶部
とを有することを特徴とする請求項1記載の音声認識装置。
前記識別情報抽出手段は、前記車両の速度の増加に伴い、前記識別情報文字列に変換する処理の間隔を短くすることを前記照合部に対して命令する抽出処理命令部を更に有することを特徴とする請求項４記載の音声認識装置。
前記次発話予測手段は、
前記識別情報文字列から前記言語辞書に存在する語彙を前記次発話候補語彙として選択する次発話候補選択部と、
前記次発話候補語彙と前記次発話候補語彙が候補として保持される保持時間とを記憶する次発話候補記憶部と、
前記保持時間が経過した前記次発話候補語彙を前記次発話候補記憶部から削除する次発話候補差分算出部
とを有することを特徴とする請求項１記載の音声認識装置。
前記次発話予測手段は、前記識別情報文字列に変換される頻度が高い識別情報の前記保持時間を前記頻度が低い識別情報よりも長くすることを特徴とする請求項６記載の音声認識装置。
前記画像抽出記憶部は、前記一致画像部分と共に前記一致画像部分の抽出サイズを記憶し、
前記次発話予測手段は、前記抽出サイズが大きい前記一致画像部分から前記識別情報文字列に変換された前記次発話候補語彙の保持時間を、前記抽出サイズが小さい前記一致画像部分から前記識別情報文字列に変換された前記次発話候補語彙よりも長く設定することを特徴とする請求項４記載の音声認識装置。
前記言語辞書変更手段は、前記識別情報文字列に変換される頻度が高い識別情報が、前記頻度が低い識別情報よりも優先して認識されるように前記言語辞書を変更することを特徴とする請求項１記載の音声認識装置。
前記言語辞書変更手段は、前記抽出サイズが大きい識別情報が、前記抽出サイズが小さい識別情報よりも優先して認識されるように前記言語辞書を変更することを特徴とする請求項８記載の音声認識装置。