以下図面を参照して、本発明の実施の形態を説明する。図面の記載において同一あるいは類似部分には同一あるいは類似な符号を付している。
本発明の実施の形態では、移動体用ナビゲーション装置に搭載される音声認識装置について説明する。さらに、移動体として音声認識装置の使用者が乗車する車両を例に取り、カーナビゲーション装置に搭載された音声認識装置について説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態に係る音声認識装置を示し、図2は、図1に示した音声認識装置の一実施例を示す。本発明の第1の実施の形態に係る音声認識装置は、使用者が発話する音声(発話音声A)を入力する音声入力手段600と、発話音声Aを認識する音声認識手段100と、音声認識手段100の認識対象となる語彙を記述した言語辞書40を記憶する言語辞書手段700と、使用者の周辺の映像(映像C)を撮像する撮像手段300と、映像Cの中から識別情報画像を抽出し、識別情報文字列に変換する識別情報抽出手段400と、識別情報文字列を用いて、使用者が次に発話する音声の候補語彙(次発話候補語彙)を決定する次発話予測手段500と、次発話候補語彙を用いて言語辞書40を変更する言語辞書変更手段200とを有する。ここで撮像手段300は、使用者が乗車する車両の周辺の映像C、即ち車両周囲の景観を撮像する。
音声入力手段600は、使用者が発話した音声Aを収集し、扱いやすい離散的な音声信号にAD変換する。具体的には、音声入力手段600は、図2に示すように、音声をアナログ電気信号に変換する為のマイクロホン31及びアナログ電気信号をデジタル電気信号に変換するA/D変換部33を単数或いは複数個組み合わせることで実現される。
音声認識手段100は、音声入力手段600から転送された音声信号を認識して、認識結果を例えば文字列や連携する機器の制御信号等Bとして送出する。制御信号等Bは、例えばテキストなどの情報形態に変換されている。音声認識手段100は、図2の演算装置34及び記憶装置35を単数或いは複数個組み合われることで実現される。演算装置04としては、例えば一般的なパーソナルコンピュータ、マイクロコンピュータ、信号処理装置のように演算機能を有するシステムを構成する中央演算処理装置(CPU)、マイクロプロセッサユニット(MPU)、デジタルシグナルプロセッサ(DSP)等を用いればよく、実時間処理が可能な演算能力を有していることが望ましい。また、記憶装置35もキャッシュメモリ、メインメモリ、ディスクメモリ、フラッシュメモリ、読み出し専用メモリ(ROM)等、一般的な情報処理機器に用いられている情報記憶能力を有する機器を用いればよい。音声認識手段100から送出された制御信号等Bは使用者に対して提示する情報に変換したり、他の機器の操作信号に変換して用いられる。
言語辞書手段700は音声認識手段100が認識の対象とする語彙及び文法を記述した言語辞書40を記憶する手段であり、図2の記憶装置35を用いて実現される。言語辞書40には、例えば、統計的な単語の発生確率及び連鎖確率として記述した統計的言語辞書、或いは受理する単語と単語同志の結合関係をネットワークの形で記述したネットワーク文法型言語辞書等がある。ネットワーク文法型言語辞書については図4を参照して後述する。
撮像手段300は車両の周囲の映像Cを撮像するものであり、例えば図2のカメラ32とAD変換部33を単数或いは複数個組み合わせることで実現される。
識別情報抽出手段400は、撮像手段300が撮像した映像Cから、識別情報画像と一致する画像部分(一致画像部分)を抽出し、識別情報画像に対応する識別情報文字列を抽出する。詳細は後述する。識別情報抽出手段400は、図2の演算装置34と記憶装置35を組み合わせることで実現される。ここで識別情報とは、施設や地名などを識別できる情報を指す。例えば、文字看板、ロゴ看板、施設外観、標識などがあり、使用者が視認することで施設や地名を識別できる情報であることが好ましい。
次発話予測手段500は、識別情報抽出手段400から得られた識別情報文字列に基づいて、識別情報文字列の全て或いは一部から、次発話候補となり得る語彙(次発話候補語彙)を生成する。具体的には、図2の演算装置34と記憶装置35を組み合わせることで実現される。
言語辞書変更手段200は、次発話予測手段500から得られた次発話候補語彙に基づいて、言語辞書手段700に記憶されている言語辞書40に対して変更を加える。具体的には、図2の演算装置34と記憶装置35を組み合わせることで実現される。
図3に示すように、図1の識別情報抽出手段400は、識別情報画像とこの識別情報画像に対応する識別情報文字列とを記憶する識別情報記憶部402と、図1の撮像手段300が撮像した映像Cと識別情報画像とを照合し、映像C内に識別情報画像と一致する一致画像部分を抽出する照合部401と、一致画像部分を映像Cから切り出し、記憶する画像抽出記憶部403とを有する。
識別情報記憶部402には、文字看板、ロゴ看板、施設外観、標識や施設外観等の画像である識別情報画像と、それぞれに対応する識別情報文字列とが記憶されている。具体例については図8を参照して後述する。
照合部401は、識別情報記憶部402に含まれる識別情報画像を順次参照し、図1の撮像手段300により取得された映像の全部もしくは一部から、識別情報画像に一致する部分(一致画像部分)を照合する。照合の結果一致する識別情報画像があった場合に、識別情報記憶部402の識別情報画像に対応して記憶されている識別情報文字列を次発話予測手段500へ送出する。
画像抽出記憶部403は、照合部401が一致画像部分を検出した場合、その一致画像部分を映像Cから抽出し、一致した識別情報画像に対応する識別情報文字列と共に記憶する。
なお、画像の照合は、公知の画像認識手法を用いて実現することができる。周囲の物体や空間の状況を直接触れずに可視光に代表される電磁波の特性を利用して認識する技術は、リモートセンシングと呼ばれる。リモートセンシングに用いられる画像処理方法については、上記に示す方法以外に、次の2つの文献に詳しい記載がある。
(1)第1の文献:高木幹雄、下田陽久監修(1991)「画像解析ハンドブック」東京大学出版会
(2)第2の文献:(財)資源・環境観測解析センター(1996)「新編リモートセンシング用語辞典」
また、照合する映像Cには文字列が含まれていることが考えられるため、OCR等の文字認識手法を併せて用いることが望ましい。即ち、ロゴマーク看板や建物外観等は画像認識手法で認識、抽出し、標識や文字看板は文字認識手法で認識、抽出するようにすることが好ましい。
図4は、図1の言語辞書40としてネットワーク文法型言語辞書の一例を示す。ここで示す例では、日本の地名を都道府県、市町村、町名、番地の順に第1乃至第4階層に階層構造化している。したがって例えば、「神奈川県横須賀市夏島町1丁目」などの連続した入力音声を認識することができる。即ち、先ず第1階層において「神奈川県」を認識し、神奈川県に接続された「横須賀市」を第2階層において認識し、横須賀市に接続された「夏島町」を第3階層において認識し、夏島町に接続された「1丁目」を第4階層において認識する。
以上説明した第1の実施の形態に係る音声認識装置の動作を図5のフローチャートを参照して説明する。なお、図5のフローチャートでは、識別情報から次発話候補語彙を抽出して言語辞書を変更する「言語辞書変更処理」(S101〜S109)と、言語辞書を参照して音声認識を行う「音声認識処理」(S111〜S118)とを併せて記してあるが、双方の処理は独立して行われるものである。
先ず、言語辞書変更処理の流れについて説明する。
(イ)システム(音声認識装置)が動作を開始すると、先ずステップS101において初期化処理を行う。このとき、初期状態として、T=0番目の言語辞書41が読込まれ、メモリ上に展開される。
(ロ)ステップS102において、撮像手段300は車両周囲の映像Cを撮像する。撮像された映像Cは、識別情報抽出手段400へ送出される。
(ハ)ステップS103において、識別情報抽出手段400は、映像Cから識別情報画像を抽出する。ステップS104において、識別情報抽出手段400は、識別情報画像を識別情報文字列へ変換する。
(ニ)ステップS105において、識別情報文字列(文字列群)を用いて次発話予測手段500が次発話予測処理を行う。例えば、識別情報文字列をそのまま次発話候補語彙としたり、或いは識別情報文字列に関連する文字列を合成して次発話候補語彙としたりする。ステップS106において、次発話予測処理によって決定された次発話候補語彙を取得する。
(ホ)ステップS107において、次発話候補語彙を言語辞書40に記述された語彙と比較し、一致する語彙があれば(S107においてYES)、ステップS108へ進む。一方、言語辞書と一致しない語彙があれば(S107においてNO)、ステップS109へ進む。
(へ)ステップS108において、言語辞書変更手段200は次発話候補語彙に基づいて言語辞書変更処理を行う。
(ト)ステップS109において、対象となる語彙を次発話候補語彙から破棄する。
以上説明した撮像処理から言語辞書変更処理に至る一連の処理は、車両の走行中に繰り返し実行され、その時点での周囲環境に応じて言語辞書が変更されていく。そしてある時点では、T=n状態の言語辞書42に変更されている。
なお、ステップS108における言語辞書42の変更処理は、次発話候補語彙の更新時の差分に基づいて変更するように構成することが望ましい。これにより、次発話候補語彙に追加、削除があった場合のみ、言語辞書変更処理が行われる。
次に、音声認識処理の流れについて説明する。
(a)システム(音声認識装置)が動作を開始すると、先ずステップS111において初期化処理を行う。このとき、初期状態として、T=0番目の言語辞書41が読込まれ、メモリ上に展開される。
(b)ステップS112において、音声入力手段600は、入力された音信号が音声かどうかを判断する。音声であれば(S112にてYES)ステップS113に進み、音声でなければ(S112にてNO)音声入力手段600は音声が入力されるまで待ち受ける。即ち、ステップS112において、音声入力手段600は、音声操作の検出を監視する。
(c)音声操作を検出すると(S112にてYES)、ステップS113において、音声認識手段100は、初期状態の言語辞書41を用いて音声認識を行う。ステップS114において、音声認識処理の結果を受け取り、後段のナビゲーション装置等へ送出する。以降、言語辞書41が変更された場合は、該変更後の言語辞書42を用いて音声認識処理を行う。
(d)ステップS115において、音声入力手段600は、再び音声操作の検出を監視する。音声操作を検出すると(S115にてYES)、ステップS116において、T=n状態の言語辞書42が読込まれ、メモリ上に展開される。
(e)ステップS117において、変更後の言語辞書42を用いて音声認識処理を行う。ステップS118において、音声認識処理の結果を受け取り、後段のナビゲーション装置等へ送出する。以上をもって音声認識処理が終了する。
次に、図1に示す音声認識装置の各構成要素が行う具体的な各処理について述べる。
図6は、代表的な周囲環境における走行中の車両から撮像手段300が撮像する撮像範囲を示す。走行中の車両から撮像手段300が撮像する撮像範囲は、周囲環境によって異なる。太い矢印は車両及びその進行方向を示す。四角印は道路周辺の建物を示し、第1乃至第3の領域43〜45は代表的な周囲環境を示し、第1の領域43は「街中」を示し、第2の領域44は「街中の交差点付近」を示し、第3の領域45は「郊外」を示す。斜線部は第1乃至第3の領域43〜45において撮像手段300が撮像する第1乃至第3の撮像範囲46〜48を示す。
例えば、第1の領域43では両脇を建物に囲まれているため側方の遠方は遮られ見ることができない。従って、先方撮像用のカメラ32を用い、車両前方のみを撮像範囲とすればよい。また、第2の領域44では、使用者が交差する道路沿いの施設等を視認することが考えられる為、前方撮像用のカメラ32に加え、側方撮像用のカメラ32も用いて前方と側方を撮像範囲とする。更に、第3の領域45では、道路沿いに建物が少なく、前方を中心に斜め方向の施設等も視認することが可能である。従って、斜め前方の映像も取得するようにしなければならない。このように、撮像範囲は、走行する周囲の環境に合わせて使用者が視認する範囲に限定することが好ましい。
図7は、図6の第1の領域43において撮像手段300が撮像する第1の撮像範囲46の映像例を示す。識別情報抽出手段400は、撮像手段300が撮像する映像から、識別情報画像を抽出する。具体的には、図3の識別情報記憶部402に格納された識別情報画像を順次参照して、撮像された図7の映像から部分画像11A〜11Eを探索する。なお、図6の第2の領域44については図6に示すような映像が正面方向に加え左右方向分についても得られる。
図8は、図3の識別情報記憶部402に格納された識別情報画像とそれに対応する識別情報文字列の一例を示す。識別情報記憶部402に格納された識別情報は、ID、識別情報画像、及び識別情報文字列(語彙)から構成されている。識別情報抽出手段400は、ID=1の識別情報画像から順に照合していった結果、図7の映像のなかからID=3に対応する識別情報画像に一致する一致画像部分11Dが識別される。また、図7の部分画像11Bに含まれる識別情報画像は、識別情報記憶部402に格納された識別情報画像の何れとも照合しない為、識別することが出来ない。更に、図7の部分画像11Cには、図8の「スーパー1」に対する識別情報画像が含まれているが、現時点の図7に示す映像からは、識別情報画像が小さすぎるため識別することが出来ない。以上の画像認識処理により、図7に示す映像から識別情報文字列「スーパー1」が抽出される。これに並行して文字認識処理が行われ、その結果、図7の映像のうち部分画像11Aから「□△ストア」、部分画像11Eから「スーパー○×」が認識され、識別情報文字列「□△ストア」、「スーパー○×」が抽出される。
図9は、図8の識別情報を用いて図7の映像から最終的に抽出された識別情報文字列を示す。最終的に抽出された識別情報文字列は、「スーパー1」、「□△ストア」及び「スーパー○×」である。これらの識別情報文字列は、次発話予測手段500へ送出される。
図10は、図6の第3の領域45において撮像手段300が撮像する第3の撮像範囲48の映像例を示す。識別情報抽出手段400は、図10の映像から「スーパーA」の看板12A、「デパートB」の看板12B、「地名C」が標記された道路標識12Cなどの識別情報画像を抽出し、識別情報記憶部402に記憶された識別情報を用いて「スーパーA」、「デパートB」及び「地名C」などの識別情報文字列を次発話予測手段500へ送出する。部分画像12Dは、図10の映像からでは距離が遠く抽出されない。
なお、図11に示すように、第3の領域45において、車両49からの第3の撮像範囲48に、スーパーAの看板12a、デパートBの看板12b、地名Cが標記された道路標識12cは含まれるが、識別情報画像12dは含まれない。したがって、識別情報抽出手段400は部分画像12dを抽出しない。
識別情報抽出手段400が図7の映像から図9の識別情報文字列を抽出すると、続いて次発話予測手段500は、次発話候補語彙を予測する。ここでは、図9の識別情報文字列「スーパー1」についてそのまま次発話候補語彙とする。また、文字認識処理において抽出された識別情報文字列「□△ストア」及び「スーパー○×」については、識別情報が網羅された図示しない識別情報データベースを参照し、データベースに存在するもののみを次発話候補語彙とする。識別情報データベースとしては、例えば一般的なナビゲーション装置が持ち合わせている施設情報等から構築することが好ましい。更に、選択された次発話候補語彙について、それらを分割或いは補完することで、次発話候補語彙に関連する語彙を抽出しても構わない。例えば、使用者が多角経営企業の店舗看板「○×ホテル」を視認したとき、「○×ストア」、「○×百貨店」、「○×不動産」等を連想する可能性が考えられるからである。したがって、識別情報抽出手段400において識別情報文字列「○×ホテル」が抽出された場合は、識別情報データベースを検索し、「○×ホテル」から「○×」部分を含む他の文字列を抽出する。文検索の結果、「○×ホテル」、「○×ストア」、「○×百貨店」、「○×不動産」等が見つかり、次発話候補語彙となる。
なお、識別情報抽出手段400の処理と次発話予測手段500の処理とは同期が取られる。即ち、識別情報抽出手段400が識別情報を抽出する度に、次発話予測手段500が次発話を予測する。そして、特定の識別情報、例えば「スーパー1」が抽出されている間は次発話候補語彙として保持され、抽出されなくなった時点で次発話候補語彙から除外される。
そして最終段階として、言語辞書変更手段200は、次発話候補語彙を用いて言語辞書40を変更する。ここで、言語辞書40に含まれない語彙が次発話候補語彙として提供された場合は、その次発話候補語彙を破棄するようにしても良いし、使用者に新規登録するか否かを提示するようにしても良い。
図12乃至図14を参照して、ネットワーク文法型言語辞書の変更例を以下に示す。ここでは、次発話候補語彙に「スーパー1」が設定された場合について説明する。図12は、変更前の初期状態の言語辞書(ネットワーク文法型言語辞書)の例を示す。図12の言語辞書を用いた場合、使用者が「スーパー1」を認識させるタスクを達成する為には、「買い物」「スーパー」「スーパー1」の3単語を、この順で連続に発話するか、もしくはこの順に単独で3回発話をしなければならない。
言語辞書変更手段200は、次発話候補語彙「スーパー1」を用いて図12のネットワーク文法型言語辞書を変更する。図13は、図12に示すネットワーク文法型言語辞書に対する第1及び第2の変更法51、52を示す。
「第1の変更法」51は、言語辞書中の次発話候補語彙を上位階層へ移動する方法である。具体的には、第3階層にある「スーパー1」を上位階層(例えば第1階層)に再配置する。この結果、「スーパー1」という入力タスクを達成する為に、使用者は、「スーパー1」と一回だけ発話すれば良いことになる。移動先は上位階層であればよく、第1階層に限定されず第2階層であってもよい。
「第2の変更法」52は、接続する上位階層ごと上位階層に移動する方法である。具体的には、第3の階層にある「スーパー1」に上位階層で接続された語彙である「スーパー」を対象とし、この「スーパー」に接続された下位階層のネットワークを伴って、上位階層(例えば第1階層)へ再配置する。これにより、ジャンル選択「スーパー」が単独で認識できるようになるとともに、「スーパー」に接続される下位階層「スーパー1」及び「スーパー2」等は「スーパー」「スーパー1」及び「スーパー」「スーパー2」の2単語の発話でそれぞれ認識できるようになる。
次に、図14(a)及び図14(b)を参照してネットワーク文法型言語辞書に対する第3の変更法について説明する。「第3の変更法」は、次発話候補語彙が優先して認識されるよう、言語辞書中の各語彙の出現確率や遷移確率を変更する方法である。図14(a)には単語(語彙)と発生確率を共に記した言語辞書の例を示す。各データは「語彙:出現確率(発生確率)」で表現されている。図14(a)は、初期状態での各語彙の出現確率を示している。これに対して、言語辞書変更手段200は、次発話候補語彙「スーパー1」を用いて図14(b)に示すように言語辞書を変更する。即ち、第2階層の「デパート」の発生確率を0.5から0.4へ減少させ、第2階層の「スーパー」の発生確率を0.5から0.6へ増加させる。そして、第3階層の「スーパー1」の発生確率を0.5から0.7へ増加させ、第3階層の「スーパー2」の発生確率を0.5から0.3へ増加させる。これにより、図14(a)に示す初期状態に比較して、「買い物」「スーパー」「スーパー1」の3単語を入力した際の認識スコアが増加し、優先して認識されるようになる。なお、第3の変更法では各単語の出現確率を変更しているが、単語同士の連鎖確率の確率を変更するようにしてもよい。
なお、第1乃至第3の変更法は、適宜組み合わせて用いることが好ましい。また、言語辞書が変更された際に、次発話候補語彙の抽出源となった一致画像部分を、図3の画像抽出記憶部403から読み出して表示する、またはガイダンス音などを用いて候補語彙が抽出されたことを使用者に報知するようにしても良い。
本発明の第1の実施の形態によって、言語辞書は撮像された映像に含まれる識別情報が認識され易いように変更される。これにより、使用者は、車両乗車中に視認した識別情報について認識させ易くなり、利便性が向上する。
以上説明したように、言語辞書から優先的な認識対象語彙を絞り込む方法を使用者の次の発話を予測する方法として捉え、次発話として入力される可能性の高い情報を獲得し、この情報を用いて言語辞書を適応させることができれば、認識性能を向上させることができる。若しくは、発話者の発話言語を簡略化させることができる。即ち、車外から取得する言語は、既に言語辞書の中にある言語となるため、造語、施設や地名に無関係な文字列、抽出を誤った文字列など言語辞書に含まれないような変わった言語を抽出することがない(図5:S107)。
また、使用者の知らない地域などの識別情報は発話される可能性が低く、次発話予測の精度向上に余地がある。そこで、次発話の予測に、発話者の目視による認知情報を利用する。すなわち、使用者によって視認される情報に基づき、次発話の候補を抽出する。発話者の知らない地域においては、視認した識別情報が視認されない情報に比べ、次発話になる可能性が高い。従って、視認する情報を利用すればより適切に次発話を予測できる。
このようにして、車両周囲の映像に基づいて適切に使用者の次発話候補を推定し、音声認識装置の音声認識性能の向上を実現することができる。
(第2の実施の形態)
第2の実施の形態に係る音声認識装置は、図1及び図2に示した音声認識装置と同様な主要構成を有する。第2の実施の形態において、図1の識別情報抽出手段400は、図15に示すように、照合部401と、識別情報記憶部402と、部分画像抽出記憶部404と、抽出処理命令部405と、文字列変換部406とを有する。
抽出処理命令部405は、車両の速度の増加に伴い、識別情報文字列に変換する処理の間隔を短くすることを照合部401に対して命令する。具体的には、抽出処理命令部405は、車両の速度を検出し、得られた車両速度に基づき、識別情報抽出処理を行う時間間隔、すなわち抽出周期Fを決定する。そして、車両の速度の増加に伴い、識別情報文字列に変換する処理の間隔(抽出周期F)を短くする。ここで、車両速度は、車両の速度センサ等の情報を利用しても良いし、撮像画像の差分から推定するようにしても良い。また、抽出周期Fは、車両の進行に伴い均一に情報が抽出できるように決定される。
図16(a)及び図16(b)は、抽出周期Fの違いによる識別情報抽出範囲(撮像範囲)の相違を示す。図16(a)では抽出周期Fが長く(F=2x)、図16(b)では抽出周期Fが短い(F=x)。換言すれば、図16(a)ではサンプリング周波数が低く、図16(b)ではサンプリング周波数が高い。なお、車両49の速度は図16(a)及び図16(b)で同じである。
図16(a)に示すように、車両49は、先ずT回目の撮像においてT回目の撮像範囲54aを撮像し、抽出周期(F=2x)後に(T+1)回目の撮像において(T+1)回目の撮像範囲54bを撮像する。道路脇にあるデパートAの看板12aは、T回目の撮像範囲54a及び(T+1)回目の撮像範囲54bの何れにも含まれないので、認識・抽出することが出来ない。
一方、図16(b)に示すように、抽出周期(F=x)を半分に短くした場合、撮像間隔が短くなり、T回目の撮像範囲53a、(T+1)回目の撮像範囲53b及び(T+2)回目の撮像範囲53cが途切れることなく連続する為、デパートAの看板12aは、何れかの撮像範囲に含まれることになる。ここでは、看板12aは、(T+1)回目の撮像範囲53bに含まれる。即ち、使用者の視界に入る識別情報画像を見逃さずに撮像することができる。このように、抽出周期Fは、通過する周辺映像を均一に取り込むよう決定されることが好ましい。車両速度から一定時間毎の移動距離を算出し、例えば10m間隔で抽出処理が行われるように抽出周期Fを決定するようにしても良い。
なお、上記手法において、撮像手段300は常に連続的に撮像するのではなく、識別情報抽出手段400の抽出周期Fとの撮像周期とを同期させ、撮像処理と識別情報抽出処理とを一連の処理として実行するように構成しても良い。
以上のような構成により、速度に応じて、適切な間隔で識別情報抽出処理を行うことができる。したがって、速度が増加し、抽出される識別情報が頻繁に変化する状況となっても、正確に識別情報を抽出することができる。一方、速度が減少し、抽出される識別情報がほとんど変化しない状況では、識別情報抽出処理の間隔を拡大し、処理負荷を軽減することができる。
また、車両速度のみならず、周辺環境による要因によって抽出周期を変更することも考えられる。例えば、自車位置情報と、地図情報を用いて、走行中の周辺建築物の密度を算出する機構を新たに備え、抽出周期Fに適用するようにしても良い。
これにより、市街地等では、映像に含まれる識別情報の密度が高く、かつ頻繁に変化すると考えられるため、抽出周期を短く設定し、郊外の道等、映像に含まれる識別情報が頻繁に更新される可能性が低いと考えられる場所では、抽出周期を長く設定する等の制御が行える。
このように、本発明では、車から見えた情報が発話者に発話する言語のヒントを与える、というところから考案されたものである。よって景色が変わると共に、取得した認識言語としての情報の重要度が変わってくる。このことから,車速・周辺環境等に対応して車外から情報を取得するタイミングを変更する。
(第3の実施の形態)
第3の実施の形態に係る音声認識装置は、図1及び図2に示した音声認識装置と同様な主要構成を有する。第3の実施の形態において、図1の次発話予測手段500は、図17に示すように、次発話候補選択部501と、次発話候補記憶部502と、車両現在地算出部503と、地図情報を格納した地図情報記憶部504とを有している。次発話候補選択部501は、識別情報文字列と地図情報と照合して、地図上に存在する識別情報文字列を次発話候補語彙と判定する。
地図情報記憶部504には、各種道路形状、道路種別、地名、及び施設名といった情報が、それぞれの位置情報とともに記録されている。
車両現在地算出部503は、地図情報記憶部504に記録された地図情報と、GPSセンサ、車速センサ、及びジャイロスコープ等の情報を利用し、車両の現在位置を算出する。算出した現在位置を次発話候補選択部501へ送出する。
次発話候補選択部501は、識別情報抽出手段400により抽出された識別情報文字列を受け取る。そしてこの識別情報文字列を用いて、次発話候補語彙を生成する。具体的には、地図情報記憶部504の地図情報を参照し、抽出された識別情報文字列が地図情報上の所定範囲内に存在するか否かを判定する。この時参照する地図範囲は、例えば、車両現在地算出部503により算出された現在位置を中心として、半径20kmの範囲等とすることが好ましい。判定により識別情報文字列が地図情報に存在した場合、その識別情報文字列を次発話候補語彙と決定し、次発話候補記憶部502に記憶する。
次に、図17に示した次発話予測手段500の処理動作を含む撮像処理及びを図18のフローチャートを用いて説明する。
(イ)先ずステップS191において、撮像手段300は車両周囲の映像を撮像する。撮像された映像は、識別情報抽出手段400へ送出される。
(ロ)ステップS192において、識別情報抽出手段400は、映像から識別情報画像を抽出し、識別情報画像を識別情報文字列へ変換する。
(ハ)ステップS193において、言語辞書を参照し、識別情報文字列(文字列群)を用いて次発話予測手段500が識別情報文字列を含む関連語彙となる文字列を生成する。生成手法は第1の実施の形態と同様とする。
(ニ)ステップS194において、車両現在地算出部503は車両の現在位置を取得する。
(ホ)ステップS195において、車両の現在位置に基づき車両周辺地図情報を参照する。あるいは参照された地図情報に含まれる識別情報のみを取得するようにしてもよい。
(へ)ステップS196において、識別情報文字列を含む関連語彙となる文字列と自車位置に基づく所定範囲の地図情報とを照合する。照合の結果、文字列と地図情報とが一致した場合(S196においてYES)、ステップS197において該文字列を次発話候補語彙と決定し、次発話候補語彙と決定された語彙を次発話候補記憶部502に記憶する。文字列が地図情報に存在しない場合 (S196においてNO)、ステップS198において該文字列を破棄する。
S196において車両周辺地図情報上に識別情報文字列を含む関連語彙となる文字列が存在しない状況としては、(1)次発話予測手段500にて生成された文字列に係る施設等が周辺に無い場合、(2)識別情報抽出手段400が誤った情報を抽出した場合、(3)撮像された看板等が、企業広告等であり、実際にその企業関連の施設は周辺地域に存在しない場合などが有る。こうした情報に基づき使用者が目的地を発話する可能性は低いと考えられる。したがって、上記に示した構成により、抽出された識別情報のうち、通常目的地として発話される可能性の低い語彙を次発話候補語彙から除外するので、認識対象となる語彙を絞り込むことができ、認識性能が向上する。
また、周辺地図情報を用いることで、別の効果を期待できる。例えば、抽出した識別情報が次発話候補語彙に選択された時に、この次発話候補語彙と、該次発話候補語彙の地図上での位置を対応させて次発話候補記憶部502に記憶する機構を設けることができる。こうすることで、例えば複数のスーパーを自車の周辺から抽出し、「左に見えるスーパーの情報を見る」等、方向に関する指示語を用いた音声を認識した際に、更に識別情報を絞り込める可能性が高くなり、使用者にとっての利便性が向上する。
第3の実施の形態では、地図情報を基にしていることから、自車両周辺情報として取得された場合は、使用者は詳細な位置関係まで把握できることができる。
(第4の実施の形態)
第4の実施の形態に係る音声認識装置は、図1及び図2に示した音声認識装置と同様な主要構成を有する。第4の実施の形態において、図1の次発話予測手段500は、図19に示すように、識別情報文字列から言語辞書に存在する語彙を次発話候補語彙として選択する次発話候補選択部501と、次発話候補語彙と次発話候補語彙が候補として保持される保持時間とを記憶する次発話候補記憶部502と、保持時間が経過した次発話候補語彙を次発話候補記憶部502から削除する次発話候補差分算出部505とを有する。
次発話候補選択部501は、識別情報抽出手段400より得られた識別情報文字列を受け取り、識別情報文字列を含む関連語彙を次発話候補語彙として生成する。
次発話候補記憶部502は、次発話候補語彙を、それぞれの文字列の該記憶部502内での保持時間と共に記憶する。
次発話候補差分算出部505は、次発話候補選択部501が新たに送出してくる次発話候補語彙群Aと既に次発話候補記憶部502に記録されて選択済みの次発話候補語彙群Bとを比較し、以下のような処理を行う。
(1)次発話候補語彙群Aにあって次発話候補語彙群Bに無い語彙群Cが存在した場合、新たに抽出された次発話候補語彙群Cを次発話候補語彙群として言語辞書変更手段200へ送出する。
(2)次発話候補語彙群Aにあり、且つ次発話候補語彙群Bにもある語彙群Dが存在した場合、前回以前の処理で次発話候補語彙と抽出され、且つ今回も抽出された語彙群Dを次発話候補語彙群として言語辞書変更手段200へ送出する。
(3)次発話候補語彙群Aに無く、次発話候補語彙群Bにある語彙群Eが存在した場合、前回以前の処理では次発話候補語彙と抽出され今回の処理で抽出されなかった語彙群Eのうち最後に検出されてからの経過時間が保持時間を超えていない語彙群Fについて、該語彙群Fを次発話候補語彙群として言語辞書変更手段へ送出する。
(4)語彙群Eのうち、最後に検出されてからの経過時間が保持時間に達した語彙群Gを次発話候補記憶部502から削除する。
ここで、次発話候補語彙の保持時間は、全ての次発話候補語彙に対して一律に決定するようにしてもよいし、その時の走行状況(速度や走行する地域の建物の密度等)、或いは使用者の次発話候補語彙の発話履歴、発話頻度等に基づいて各次発話候補語彙毎に保持時間を決定するようにしても良い。
図20は、走行中の車両からの撮像範囲の遷移を示す。車両は現在時間T=nの位置におり、n回目(現在)の撮像範囲55cからは識別情報13Cのみが抽出できる。抽出された識別情報に係る次発話候補語彙は、その保持時間の間、次発話候補記憶部502に記憶されるため、T=n−1回目の撮像において(n−1)回目の撮像範囲55bに含まれる識別情報13bは、現在時間T=nにおいても次発話候補語彙として次発話候補記憶部502に保持することができる。一方、保持時間を経過したT=n−2回目に抽出した識別情報13aに係る語彙は次発話候補語彙から削除される。
このように、一定期間過去から現在までの撮像結果を用いて次発話候補語彙が決定、言語辞書が変更されるため、使用者が視認してから発話するまでに時間間隔があり、撮像範囲から逸脱していた場合や、一旦撮像され次発話候補語彙となった識別情報が障害物に隠れる等して一時的に撮像できない状況になった場合でも、該発話が優先して認識される可能性が上がり、音声認識性能が向上する。
(第5の実施の形態)
第5の実施の形態に係る音声認識装置は、図1及び図2に示した音声認識装置と同様な主要構成を有する。第5の実施の形態において、図1の識別情報抽出手段400は、図21に示すように、照合部401と、識別情報記憶部402と、部分画像抽出記憶部404と、文字列変換部406と、抽出頻度算出部407と、抽出サイズ算出部408とを有する。
照合部401は、撮像手段300から送出された映像と識別情報記憶部402に記憶された識別情報画像とを照合し、識別情報画像に合致する部分画像を探索する。探索の結果、合致する画像部分があった場合に、文字列変換部406は、画像部分を抽出文字列(識別情報文字列)に変換する。
抽出頻度算出部407は、識別情報が抽出される頻度を算出する。ここで、抽出頻度を計る期間は一連のドライブ中等とし、一連のドライブが終了し数時間以上経過した場合に頻度算出結果を初期化するようにすることが好ましい。なお、ここで抽出頻度が高い場合としては、一つの識別情報(施設)が連続的長い期間抽出され続けている状況、及び同じ種類の複数の識別情報(例えばコンビニ等)が頻繁に検出される状況の双方が含まれる。
抽出サイズ算出部408は、識別情報が抽出された時の部分画像の抽出サイズを算出する。ある識別情報が連続的に抽出された場合は、例えば連続的に抽出されたサイズの最大値を抽出サイズとすることが好ましい。
部分画像抽出記憶部404には、抽出された識別情報に係る、切出された部分画像、文字列変換部406で変換された抽出文字列、抽出頻度算出部407で算出された抽出頻度、及び抽出サイズ算出部408で算出された抽出サイズが一組の抽出結果として記憶される。
第5の実施の形態における次発話予測手段500は、図19の次発話予測手段500と同様な構成を有する。次発話候補記憶部502は、次発話候補語彙及び該次発話候補語彙の保持時間を記憶し、これに加え、該次発話候補語彙を生成するために用いた識別情報の抽出頻度、抽出サイズをも記憶する。
また、次発話予測手段500は、保持時間を、抽出頻度が大きいほど長く、抽出頻度が高いほど長く設定する機構を備える。即ち、次発話予測手段500は、識別情報文字列に変換される頻度が高い識別情報の保持時間を、識別情報文字列に変換される頻度が低い識別情報よりも長くする。
更に、次発話予測手段500は、抽出サイズが大きい一致画像部分から識別情報文字列に変換された次発話候補語彙の保持時間を、抽出サイズが小さい一致画像部分から識別情報文字列に変換された次発話候補語彙よりも長く設定する。
なお、抽出頻度及び抽出サイズを次発話候補語彙に付与して記憶する為には、図19の次発話候補選択部501において文字列に関連する語彙を次発話候補語彙として生成する際に生成された次発話候補語彙に、逐次生成元となった抽出文字列の抽出頻度、抽出サイズを付与するようにし、これを一対の次発話候補データとして、図19の次発話候補記憶部502に記憶すればよい。
言語辞書変更手段200は、上記次発話候補語彙、抽出頻度、抽出サイズに基づき、例えば、抽出頻度が大きいほど、次発話候補語彙が優先的に認識されるよう言語辞書を変更する。或いは、抽出サイズが大きいほど、次発話候補語彙が優先的に認識されるように言語辞書を変更する。
言語辞書の変更は、第1の実施の形態と同様、言語辞書中の次発話候補語彙を上位階層へ移動する第1の変更法、接続する上位階層ごと上位階層に移動する第2の変更法、或いは次発話候補語彙が優先して認識されるように言語辞書中の出現確率や遷移確率を変更する第3の変更法の何れかを用いて行うことができる。更に、これらの変更法を適宜組み合わせておこなっても構わない。なお、第3の変更法について、抽出頻度が高いほど、または抽出サイズが大きいほど、出現確率もしくは遷移確率を大きくする。
本構成によって、例えば、走行中に大きく見える識別情報から抽出された次発話候補語彙や、長時間撮像されつづけた識別情報から抽出された次発話候補語彙、そして頻繁に検出された特定ジャンルの識別情報から抽出された次発話候補語彙について、次発話候補記憶部502に長時間保持されると共に、それら語彙の抽出頻度が高いほど、または抽出サイズが大きいほど認識され易いように言語辞書が変更される。
こうして、頻繁に抽出される情報あるいは大きく抽出される情報という、使用者により視認されやすい識別情報を優先的に次発話候補語彙として保持し、言語辞書中においても優先して認識されるように取り扱われることで、認識性能が上がると共に、使用者にとっての利便性が向上する。
上記に概説した例示的な実施形態に関連させて本発明を説明してきたが、当業者には多くの代替、修正及びバリエーションが明らかであることは明白である。したがって、上記に説明した本発明の例示的な実施形態は例示を意図するものであり限定するものではない。本発明の趣旨や範囲から逸脱せずに種々の変更を行うことができる。
請求項1の発明によれば、車両周囲の画像情報から抽出された識別情報に基づき、対応する語彙が次発話候補語彙となるため、対象語彙数を絞り込むことができ、認識性能が向上する。
また、視認した情報は認識され易くなるという特徴を持つため、使用者のより直感的な操作を可能とし、利便性が向上する。
請求項2の発明によれば、撮像範囲を限定することができ、撮像処理を抑制できる。そして、車両周囲の情報から使用者が視認できる範囲の識別のみを抽出し、対応する語彙を次発話候補語彙とすることができるため、対象語彙数を絞り込むことができ、認識性能が向上する。
請求項3の発明によれば、撮像手段300が撮像する映像から変換された文字列のうち、地図上に存在する情報に基づく語彙が次発話候補語彙となるため、より正確に語彙を絞り込むことができ、認識性能が向上する。
請求項4の発明によれば、識別情報抽出手段400は、映像に含まれる情報を適切に抽出し、情報に対応する文字列に変換することができる。
請求項5の発明によれば、速度の変化に対応して常に適切な間隔で識別情報を抽出することが可能になり、次発話予測の精度が向上するため、認識性能が向上する。
請求項6の発明によれば、次発話候補語彙が抽出終了から所定時間保持される為、使用者が視認してから所定時間にわたり視認に基づく発話を優先して認識することができ、使用者にとって利便性が向上する。
また、映像から抽出された次発話候補語彙が時間の経過とともに更新されていくため、次発話候補が際限なく蓄積されることが無く、適切な語彙数を保持できる。従って、認識候補語彙の増加に伴う認識性能の低下を抑制することができる。
請求項7の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が次発話候補語彙として長く保持される為、認識性能が向上する。
請求項8の発明によれば、映像中大きく抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が次発話候補語彙として長く保持される為、認識性能が向上する。
請求項9の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が入力された時に優先して認識される為、認識性能が向上する。
請求項10の発明によれば、映像から頻繁に抽出される情報、即ち使用者が視認する可能性の高い情報に基づく語彙が入力された時に優先して認識される為、認識性能が向上する。