JP6109451B2

JP6109451B2 - 音声認識装置及び音声認識方法

Info

Publication number: JP6109451B2
Application number: JP2016565721A
Authority: JP
Inventors: 裕三丸田
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-24
Filing date: 2014-12-24
Publication date: 2017-04-05
Anticipated expiration: 2034-12-24
Also published as: US10403265B2; CN107112007B; US20180240455A1; DE112014007287B4; DE112014007287T5; JPWO2016103358A1; WO2016103358A1; CN107112007A

Description

本発明は、音声認識が可能な音声認識装置及び音声認識方法に関する。

音声認識装置を内蔵することにより、ユーザからの音声を音声認識して住所入力が可能なナビゲーションシステムが提案されている。このようなナビゲーションシステムがヨーロッパなどの地域で使用される場合、ナビゲーションシステムに使用する言語として設定された言語（以下「システム設定言語」と記す）と、目的地を示す言語とが異なることがある。例えば、ユーザがイギリス人であり、目的地がドイツの住所である場合には、システム設定言語は英語となり、目的地を示す言語はドイツ語となることが想定される。

さて、地名の音声認識を行うための地名の音素（発音記号に相当）は、地図作成業者により提供され、通常、当該地名が示す地域で主に使用される言語の音素が提供される。例えば、ドイツの地名の音素には、ドイツ語の音素が用いられる。このため、目的地を示す言語がドイツ語である場合には、地図作成業者から提供されるドイツ語の音素からなる音声認識辞書を用いるとともに、それに対応するドイツ語の音声認識エンジンを用いることが効率化の観点から好ましい。

一方、システム設定言語には、ユーザの母国語が用いられることが通常である。このため、システム設定言語が英語である場合には、英語の音声認識エンジンを用いることが好ましい。

したがって、システム設定言語が英語であり、目的地を示す言語がドイツ語であるような場合には、目的地を示す言語に関して好ましい音声認識辞書と、システム設定言語に関して好ましい音声認識辞書とが異なることになる。

しかしながら、英語及びドイツ語の一方の言語には存在する音素（発音）が、他方の言語には存在しないことがあるため、英語及びドイツ語の一方の言語の音声認識エンジンで、他方の言語の音素を取り扱うことができないという問題があった。

この問題を解決するため、ある言語Ａの音素ａを、別の言語Ｂの音素ｂのうち、当該音素ａと同じまたは最も近い音素ｂに対応付けた音声認識辞書を用いる技術が提案されている（例えば特許文献１）。このような音声認識辞書を用いれば、言語Ａの音素を言語Ｂの音素に置換して言語Ｂの音声認識エンジンで音声認識を行うことが可能となる。以下、音声認識辞書において、ある言語の音素を、別の言語の音素に対応付けることを「音素のマッピング」と記すこともある。

特開２０１１−０３３８７４号公報

しかしながら、従来の音声認識装置では、複数の言語が混在する音声を音声認識することができず、また、上述の音素のマッピングが施された音声認識辞書のデータサイズが、比較的大きいという問題があった。

そこで、本発明は、上記のような問題点を鑑みてなされたものであり、音声認識辞書のデータサイズを抑制しつつ、複数の言語が混在する音声を音声認識可能な技術を提供することを目的とする。

本発明に係る音声認識装置は、音声認識対象の語彙が規定された音声認識辞書と、入力音声の音声認識を、音声認識辞書を用いて行う音声認識処理回路とを備える。音声認識処理回路は、それぞれ予め定められた言語の音素で音声認識を行うことが可能な複数の言語用音声認識処理回路を含む。音声認識辞書は、複数の言語用音声認識処理回路のそれぞれが、自身に対応する言語である対応言語の音素で第１の語彙の音声認識を行うための複数の第１辞書と、複数の言語用音声認識処理回路のそれぞれが、対応言語と異なる言語である他言語の音素を対応言語の音素に置換して第２の語彙の音声認識を行うための、第２の語彙について他言語の音素を対応言語の音素にマッピングした複数の第２辞書とを含む。音声認識装置は、音声認識に用いるべき言語用音声認識処理回路を、複数の言語用音声認識処理回路の中から設定する音声認識言語設定処理回路と、音声認識言語設定処理回路に設定された言語用音声認識処理回路が対応言語の音素で第１の語彙の音声認識を行うための第１辞書を、複数の第１辞書の中から設定するとともに、音声認識言語設定処理回路に設定された言語用音声認識処理回路が他言語の音素を対応言語の音素に置換して第２の語彙の音声認識を行うための第２辞書を、複数の第２辞書の中から設定する音声認識辞書設定処理回路とをさらに備える。

本発明に係る音声認識方法は、音声認識対象の語彙が規定された音声認識辞書を準備することと、入力音声の音声認識を、音声認識辞書を用いて行うこととを備える。音声認識を行うことは、それぞれ予め定められた言語の音素で音声認識を行うことが可能な複数の言語用音声認識処理回路を準備することを含む。音声認識辞書を準備することは、複数の言語用音声認識処理回路のそれぞれが、自身に対応する言語である対応言語の音素で第１の語彙の音声認識を行うための複数の第１辞書と、複数の言語用音声認識処理回路のそれぞれが、対応言語と異なる言語である他言語の音素を対応言語の音素に置換して第２の語彙の音声認識を行うための、第２の語彙について他言語の音素を対応言語の音素にマッピングした複数の第２辞書とを準備することを含む。音声認識方法は、音声認識に用いるべき言語用音声認識処理回路を、複数の言語用音声認識処理回路の中から設定することと、設定された言語用音声認識処理回路が対応言語の音素で第１の語彙の音声認識を行うための第１辞書を、複数の第１辞書の中から設定するとともに、設定された言語用音声認識処理回路が他言語の音素を対応言語の音素に置換して第２の語彙の音声認識を行うための第２辞書を、複数の第２辞書の中から設定することとをさらに備える。

本発明によれば、音声認識辞書のデータサイズを抑制しつつ、複数の言語が混在する音声を音声認識することができる。

本発明の目的、特徴、態様及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１に係る音声認識装置のハードウェア構成を示すブロック図である。実施の形態１に係る音声認識装置の主要な構成を示すブロック図である。実施の形態１に係る音声認識装置の構成を示すブロック図である。実施の形態１に係る音素のマッピングを説明するための図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。実施の形態２に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。

＜実施の形態１＞
以下、本発明の実施の形態１に係る音声認識装置が、ナビゲーションシステム（またはナビゲーション装置）に搭載されている構成を例にして説明する。

図１は、本実施の形態１に係る音声認識装置のハードウェア構成を示すブロック図である。図１の音声認識装置は、例えばＣＰＵ（Central Processing Unit）などからなるプロセッサ８１と、例えば半導体メモリなどからなるメモリ８２とを備えている。

図２は、実施の形態１に係る音声認識装置の主要な機能構成を示すブロック図である。図２の音声認識装置は、音声認識部４と、音声認識辞書５と、音声認識言語設定部６と、音声認識辞書設定部７とを備えている。ここで、音声認識部４、音声認識言語設定部６、及び、音声認識辞書設定部７は、図１のプロセッサ８１がメモリ８２などの記憶装置に記憶されたプログラムを実行することにより、当該プロセッサ８１の機能として実現される。なお、上記機能は、複数のプロセッサ８１が連携して実現されてもよい。音声認識辞書５は、図１のメモリ８２や図示しないＨＤＤ（Hard Disk Drive）などの記憶装置に対応する。

図３は、当該音声認識装置の主要な機能構成及び付加的な機能構成を示すブロック図である。なお、図３にのみ示されている付加的な構成は、本発明に間接的に関係する構成に過ぎず、以下で説明する構成以外にも様々な構成を適用することができる。図３の音声認識装置は、図２の構成要素に加えて、音声入力部１と、音声取り込み部２と、音響分析部３とを備えている。

次に、本実施の形態１に係る音声認識装置の図２及び図３の各構成要素について詳細に説明する。

音声入力部１は、音声を外部（例えばユーザ）から取り込む。音声取り込み部２は、音声入力部１で取り込んだ音声をデジタル信号化して音声信号を生成する。音響分析部３は、音声信号を分析して音響特徴のベクトル列や時系列に変換する。

音声認識部４は、音声認識対象の語彙が規定された音声認識辞書５を用いて、入力音声（音響特徴のベクトル列や時系列）の音声認識を行う。その結果として、音声認識部４は、音声認識辞書５の語彙の中から最も確からしい語彙を出力する。

本実施の形態１では、音声認識部４は、複数の言語用音声認識部である言語用音声認識部４Ａ，４Ｂ，４Ｃ（以下まとめて「言語用音声認識部４Ａ〜４Ｃ」と記す）を含んでいる。

言語用音声認識部４Ａ〜４Ｃは、それぞれ予め定められた言語の音素で音声認識を行うことが可能な音声認識エンジンである。例えば、言語用音声認識部４Ａは、自身に対応する言語Ａの認識用の音響モデル（図示せず）を有しており、当該言語Ａの音素で音声認識を行うことが可能となっている。言語用音声認識部４Ｂ及び言語用音声認識部４Ｃも同様に構成されており、それぞれ自身に対応する言語Ｂ及び言語Ｃの音素で音声認識を行うことが可能となっている。

なお、以下の説明では、言語用音声認識部４Ａ〜４Ｃのそれぞれに対応する言語を「対応言語」と記し、対応言語と異なる言語を「他言語」と記す。具体的には、言語Ａは、言語用音声認識部４Ａにとっては対応言語Ａであるが、言語用音声認識部４Ｂにとっては他言語Ａである。

音声認識部４は、言語用音声認識部４Ａ〜４Ｃのうちいずれか１つを適宜用いることにより、対応言語Ａ〜Ｃの１つについての音声認識を適宜行うことが可能となっている。

音声認識辞書５には、音声認識対象の語彙が規定されている。本実施の形態１では、音声認識辞書５は、複数の第１辞書である地名辞書５１Ａ，５１Ｂ，５１Ｃ（以下まとめて「地名辞書５１Ａ〜５１Ｃ」と記す）と、番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣと、複数の第２辞書である番地辞書５２ＢＡ，５２ＣＡ，５２ＡＢ，５２ＣＢ，５２ＡＣ，５２ＢＣとを含んでいる。なお以下の説明では、番地辞書５２ＢＡ，５２ＣＡ，５２ＡＢ，５２ＣＢ，５２ＡＣ，５２ＢＣを、まとめて「番地辞書５２ＢＡ〜５２ＢＣ」と記す。

地名辞書５１Ａ〜５１Ｃは、言語用音声認識部４Ａ〜４Ｃのそれぞれが対応言語Ａ〜Ｃの音素で地名の語彙（第１の語彙）の音声認識を行うための辞書である。例えば、地名辞書５１Ａには、対応言語Ａが主に使用されている地名の語彙が規定されている。言語用音声認識部４Ａは、このような地名辞書５１Ａを用いることにより、対応言語Ａの音素の入力音声から、対応言語Ａの音素の地名を特定する音声認識を行うことが可能となっている。

ただし、通常、対応言語Ａの音素と言語Ｂ，Ｃの音素とは異なるため、言語用音声認識部４Ａは、対応言語Ａと異なる他言語Ｂ，Ｃなどの音素の入力音声から、対応言語Ａの音素の地名を特定する音声認識を行うことはできない。このことは、言語用音声認識部４Ｂ，４Ｃについても同様である。

番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣは、言語用音声認識部４Ａ〜４Ｃのそれぞれが対応言語Ａ〜Ｃの音素で番地（ハウスナンバー）の語彙（第１の語彙）の音声認識を行うための辞書である。例えば、言語用音声認識部４Ａは、番地辞書５２ＡＡを用いることにより、対応言語Ａの音素の入力音声から、対応言語Ａの音素の番地を特定する音声認識を行うことが可能となっている。このことは、言語用音声認識部４Ｂ，４Ｃについても同様である。

番地辞書５２ＢＡ，５２ＣＡは、言語用音声認識部４Ａが他言語Ｂ，Ｃの音素を対応言語Ａの音素に置換して番地の語彙（第２の語彙，予め定められた数字の語彙）の音声認識を行うための辞書である。

図４は、番地辞書５２ＡＡ，５２ＢＡ，５２ＣＡを説明するための図である。図４に示されるように、番地辞書５２ＡＡを除いて番地辞書５２ＢＡ，５２ＣＡには音素のマッピングが施されている。

番地辞書５２ＢＡは、番地の語彙（第２の語彙，予め定められた数字の語彙）について他言語Ｂの音素ｂを、対応言語Ａの音素ａのうち、当該音素ｂと同じまたは最も近い音素ａにマッピングした音声認識辞書である。番地辞書５２ＣＡは、番地の語彙（第２の語彙，予め定められた数字の語彙）について他言語Ｃの音素ｃを、対応言語Ａの音素ａのうち、当該音素ｃと同じまたは最も近い音素ａにマッピングした音声認識辞書である。なお、音素のマッピングには、例えば特許文献１に開示された技術などを適用することができる。

言語用音声認識部４Ａは、番地辞書５２ＡＡを用いることにより、対応言語Ａの音素の入力音声から、対応言語Ａの音素の番地を特定する音声認識を行うことが可能となっている。

言語用音声認識部４Ａは、番地辞書５２ＢＡを用いることにより、他言語Ｂの音素の入力音声を、対応言語Ａの音素のうち同一または類似の音素の音声に置換し、置換後の入力音声から、対応言語Ａの音素の番地を特定する音声認識を行うことが可能となっている。

言語用音声認識部４Ａは、番地辞書５２ＣＡを用いることにより、他言語Ｃの音素の入力音声を、対応言語Ａの音素のうち同一または類似の音素の音声に置換し、置換後の入力音声から、対応言語Ａの音素の番地を特定する音声認識を行うことが可能となっている。

以上のように、言語用音声認識部４Ａは、番地辞書５２ＡＡ，５２ＢＡ，５２ＣＡを用いて音声認識を行うことが可能となっている。

以上では番地辞書５２ＢＡ，５２ＣＡについて説明したが、図２，３の番地辞書５２ＡＢ，５２ＣＢ，５２ＡＣ，５２ＢＣについても同様である。つまり、番地辞書５２ＡＢ，５２ＣＢは、言語用音声認識部４Ｂが他言語Ａ，Ｃの音素を対応言語Ｂの音素に置換して番地の語彙の音声認識を行うための音声認識辞書であり、番地の語彙について他言語Ａ，Ｃの音素を対応言語Ｂの音素にマッピングした音声認識辞書である。番地辞書５２ＡＣ，５２ＢＣは、言語用音声認識部４Ｃが他言語Ａ，Ｂの音素を対応言語Ｃの音素に置換して番地の語彙の音声認識を行うための音声認識辞書であり、番地の語彙について他言語Ａ，Ｂの音素を対応言語Ｃの音素にマッピングした音声認識辞書である。

音声認識言語設定部６は、音声認識に用いるべき１つの言語用音声認識部を、言語用音声認識部４Ａ〜４Ｃの中から設定する。本実施の形態１では、上述のナビゲーションシステムにおける目的地（例えば経由地、最終到達地など）がユーザによって予め設定されており、音声認識言語設定部６は、当該目的地に基づいて、音声認識に用いるべき１つの言語用音声認識部を設定するものとする。

例えば、音声認識言語設定部６は、複数の地域と、各地域で主に使用されている言語とを対応付けたテーブルを予め記憶しておく。そして、音声認識言語設定部６は、目的地の地名が属する地域に対応付けられた言語を当該テーブルから取得し、当該取得した言語を音声認識する言語用音声認識部を設定する。

以下の説明では、音声認識言語設定部６に設定された言語用音声認識部を「設定音声認識部」と記すこともある。

次に、音声認識辞書設定部７による地名辞書及び番地辞書の設定について説明する。

音声認識辞書設定部７は、設定音声認識部（音声認識言語設定部６に設定された言語用音声認識部）が対応言語の音素で地名の音声認識を行うための地名辞書を、地名辞書５１Ａ〜５１Ｃの中から設定する。例えば、設定音声認識部が言語用音声認識部４Ａであった場合には、音声認識辞書設定部７は、地名辞書５１Ａを設定する。

また、システム設定言語（ナビゲーションシステムで設定された言語）が、設定音声認識部の対応言語と同じである場合、音声認識辞書設定部７は、設定音声認識部が対応言語の音素で番地の音声認識を行うための番地辞書を、番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣの中から設定する。例えば、設定音声認識部が言語用音声認識部４Ａであり、システム設定言語が言語用音声認識部４Ａの対応言語Ａであった場合には、音声認識辞書設定部７は、番地辞書５２ＡＡを設定する。

一方、システム設定言語が、設定音声認識部の対応言語と同じではなくて他言語である場合、音声認識辞書設定部７は、設定音声認識部が他言語の音素を対応言語の音素に置換して番地の音声認識を行うための番地辞書を、番地辞書５２ＢＡ〜５２ＢＣの中から設定する。例えば、設定音声認識部が言語用音声認識部４Ａであり、システム設定言語が言語用音声認識部４Ａの他言語Ｂであった場合には、音声認識辞書設定部７は、番地辞書５２ＢＡを設定する。つまり、システム設定言語が他言語である場合には、音声認識辞書設定部７は、設定音声認識部が他言語の音素を対応言語の音素に置換して音声認識を行うための番地辞書として、他言語がシステム設定言語と同じ番地辞書を設定する。

なお、設定音声認識部は、入力音声の入力順次の予め定められた第１部分について、地名辞書（地名辞書５１Ａ〜５１Ｃのいずれか１つ）を用いた音声認識を行うように構成されている。そして、設定音声認識部は、入力音声の入力順次の予め定められた第２部分について、番地辞書（番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣ及び番地辞書５２ＢＡ〜５２ＢＣのいずれか１つ）を用いた音声認識を行うように構成されている。

ここで通常、住所を音声入力する１発話において、番地よりも地名が先に発話されることが多いので、本実施の形態１では、上記第１部分が入力音声の入力順次の前半部分に適用され、上記第２部分が入力音声の入力順次の後半部分に適用されているものとする。

＜動作＞
図５は、本実施の形態１に係る音声認識装置の動作を示すフローチャートである。なお、以下の説明では、目的地がドイツの住所（目的地の言語がドイツ語）であり、システム設定言語が英語であり、ドイツ語の言語用音声認識部が言語用音声認識部４Ａであり、ドイツ語の地名辞書が地名辞書５１Ａであり、英語の音素がドイツ語の音素にマッピングされた番地辞書が番地辞書５２ＢＡである場合を例にして説明する。ただし、これは一例であってこれに限ったものではない。

まずステップＳ１にて、音声入力部１は、ユーザからの音声（発話）を取得する（受け付ける）。ステップＳ２にて、音声取り込み部２は、音声入力部１で取り込んだ音声から音声信号を生成する。ステップＳ３にて、音響分析部３は、音声信号を分析して音響特徴のベクトル列や時系列などに変換する。

ステップＳ４にて、音声認識言語設定部６は、目的地に基づいて言語用音声認識部を、言語用音声認識部４Ａ〜４Ｃの中から設定（選定）する。上述の例では、目的地はドイツの地名であることから、音声認識言語設定部６は、ドイツ語の言語用音声認識部４Ａを設定する。すなわち、設定音声認識部は、ドイツ語の言語用音声認識部４Ａとなる。

ステップＳ５にて、音声認識辞書設定部７は、設定音声認識部が対応言語の音素で地名の音声認識を行うための地名辞書を、地名辞書５１Ａ〜５１Ｃの中から設定（選定）する。上述の例では、設定音声認識部がドイツ語の言語用音声認識部４Ａであることから、音声認識辞書設定部７は、ドイツ語の地名辞書５１Ａを設定する。

ステップＳ６にて、音声認識辞書設定部７は、設定音声認識部がシステム設定言語の音素で番地の音声認識を行うための番地辞書を、番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣ及び番地辞書５２ＢＡ〜５２ＢＣの中から設定（選定）する。上述の例では、設定音声認識部がドイツ語の言語用音声認識部４Ａであり、システム設定言語が英語であることから、音声認識辞書設定部７は、英語の音素がドイツ語の音素にマッピングされた番地辞書５２ＢＡを設定する。

ステップＳ７にて、音声認識部４は音声認識辞書５を参照して、音響分析された音響データについて音声認識を行い、最も確からしい認識結果を出力する。上述の例では、ドイツ語の言語用音声認識部４Ａが、入力音声の入力順次の前半部分について地名辞書５１Ａを用いた音声認識を行い、入力音声の入力順次の後半部分について、マッピングが施された番地辞書５２ＢＡを用いた音声認識を行う。ステップＳ７にて音声認識部４から出力された認識結果は、図示しないスピーカから音声出力されたり、図示しないディスプレイ装置に表示されたりする。その後、図５の動作を終了する。

＜実施の形態１のまとめ＞
例えば、ユーザとしてのイギリス人（システム設定言語が英語）が、ドイツの住所を目的地として音声入力する場合を想定する。この場合、イギリス人は、ドイツの地名（例えば「ＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅ」）をドイツ語の発音で発声した後、番地（例えば「ｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」）を英語の発音で発声することが予想される。

ここで、本実施の形態１に係る音声認識装置は、例えば「ＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅ」について第１辞書（地名辞書５１Ａ〜５１Ｃ）を用いて音声認識を行うことが可能である。そして、本実施の形態１に係る音声認識装置は、例えば「ｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」について音素のマッピングが施された第２辞書（番地辞書５２ＢＡ〜５２ＢＣ）を用いて音声認識を行うことが可能である。このような構成によれば、例えばドイツ語及び英語などの複数の言語が混在する１発話について音声認識を行うことができる。また、音素のマッピングを、地名などには施さないようにすることにより、比較的データサイズが大きい音素のマッピングが施された音声認識辞書の割合を低減することができる。この結果、音声認識辞書のデータサイズを抑制することができる。さらに、誤認識の低減化も期待できる。

また、本実施の形態１に係る音声認識装置は、入力音声の入力順次の予め定められた第１部分について地名辞書を用いた音声認識を行い、入力音声の入力順次の予め定められた第２部分について番地辞書を用いた音声認識を行う。これにより、音声認識の精度を高めることができる。

＜実施の形態１の変形例＞
実施の形態１では、音素のマッピングが施された各第２辞書（番地辞書５２ＢＡ〜５２ＢＣ）の第２語彙は、番地の語彙であった。しかしこれに限ったものではなく、各第２辞書の第２語彙には、郵便番号などの予め定められた数字の語彙が適用されてもよい。

また、各第２辞書の第２語彙には、ナビゲーションシステムにおけるＰＯＩ（point of interest）の予め定められたカテゴリの語彙が適用されてもよい。そして、システム設定言語が他言語である場合には、音声認識辞書設定部７は、設定音声認識部が他言語の音素を対応言語の音素に置換して上記カテゴリの語彙の音声認識を行うための第２辞書として、他言語がシステム設定言語と同じ第２辞書を設定してもよい。

例えば「ＷｏｒｌｄＨｅｒｉｔａｇｅ」という英語によるＰＯＩのカテゴリの音声が入力された後に、「ＡａｃｈｅｎｅｒＤｏｍ」というドイツ語によるＰＯＩの音声が入力された場合を想定する。この想定に対して、ドイツ語の言語用音声認識部４Ａが、入力音声の入力順次の前半部分について、英語の音素をドイツ語の音素にマッピングした第２辞書を用いた音声認識を行い、入力音声の入力順次の後半部分について、ドイツ語の第１辞書を用いた音声認識を行うように構成してもよい。このように構成した場合にも、カテゴリ及びＰＯＩについて実施の形態１と同様の効果を得ることができる。

また、各第２辞書の第２の語彙は、ナビゲーションシステムにおける予め定められたコマンドの語彙が適用されてもよい。そして、システム設定言語が他言語である場合には、音声認識辞書設定部７は、設定音声認識部が他言語の音素を対応言語の音素に置換して上記コマンドの語彙の音声認識を行うための第２辞書として、他言語がシステム設定言語と同じ第２辞書を設定してもよい。

例えば「Ｎａｖｉｇａｔｅｔｏ」という英語によるコマンドの音声が入力された後に、「ＡａｃｈｅｎｅｒＤｏｍ」というドイツ語によるＰＯＩの音声が入力された場合を想定する。この想定に対して、ドイツ語の言語用音声認識部４Ａが、入力音声の入力順次の前半部分について、英語の音素をドイツ語の音素にマッピングした第２辞書を用いた音声認識を行い、入力音声の入力順次の後半部分について、ドイツ語の第１辞書を用いた音声認識を行うように構成してもよい。このように構成した場合にも、実施の形態１と同様の効果を得ることができる。なお、例えば「Ｐｌａｙ」という英語によるコマンドの音声が入力された後に、ドイツ語による曲名を指す音声が入力された場合や、「Ｃａｌｌ」という英語によるコマンドの音声が入力された後に、ドイツ語による人名を指す音声が入力された場合などについても同様である。

なお、実施の形態１に説明した構成では、地名に音素のマッピングが施されていない第１辞書を用い、番地に音素のマッピングが施された第２辞書を用いた。しかしこれに限ったものではなく、番地に音素のマッピングが施されていない第１辞書を用い、地名に音素のマッピングが施された第２辞書を用いてもよい。ただし、実施の形態１のように、多数存在する地名について音素がマッピングされるよりも、少数しか存在しない番地について音素がマッピングされる方が、音声認識辞書のデータサイズを効率よく抑制することができる。

なお、以上に説明した変形例は、後述する実施の形態２以降においても適用可能である。

＜実施の形態２＞
実施の形態１では、ナビゲーションシステムにおける目的地（例えば経由地、最終到達地など）がユーザによって予め設定されているものとして、音声認識辞書設定部７が、当該目的地に基づいて、音声認識に用いるべき１つの言語用音声認識部を設定した。しかしながら、実際の運用では、発話前に上記目的地が予め設定されていないこともある。そこで、以下で説明するように、本実施の形態２では、目的地が予め設定されなくても、実施の形態１と同様の動作を行うことが可能となっている。

図６は、本実施の形態２に係る音声認識装置の構成を示すブロック図である。なお、本実施の形態２に係る音声認識装置において、以上で説明した構成要素と同一または類似するものについては同じ参照符号を付し、異なる部分について主に説明する。

図６の音声認識装置は、図３の構成要素に加えて、音声記憶部８と、一次認識結果判定部９とをさらに備えている。

ここで、音声記憶部８は図１のメモリ８２などの記憶装置に対応する。一次認識結果判定部９は、図１のプロセッサ８１がメモリ８２などの記憶装置に記憶されたプログラムを実行することにより、当該プロセッサ８１の機能として実現される。なお、上記機能は、複数のプロセッサ８１が連携して実現されてもよい。

音声記憶部８は、一の入力音声に対して音声認識部４によって複数回の音声認識を行うために、当該一の入力音声（ここでは音響分析部３が変換した音響特徴のベクトル列や時系列）を一時的に記憶する。音声記憶部８は、音声認識の都度に利用可能であればよく、このような音声記憶部８は既存の技術で実現できるため、音声記憶部８の詳細な説明及び動作は省略する。

なお、後で詳細に説明するように本実施の形態２では、一の入力音声に対し、音声認識部４によって二回の音声認識を行う。このうち一回目の音声認識によって目的地の言語を取得する。すなわち、一回目の音声認識を行った後は、実質的に目的地が予め設定されている状態と同じとなる。そして、二回目の音声認識において実施の形態１と同様の音声認識を行う。

さて本実施の形態２では、音声認識辞書５は、複数の地名辞書５１Ａ〜５１Ｃと、番地及びコマンド辞書５３ＡＡ，５３ＢＢ，５３ＣＣと、複数の第２辞書である番地及びコマンド辞書５３ＢＡ，５３ＣＡ，５３ＡＢ，５３ＣＢ，５３ＡＣ，５３ＢＣとを含んでいる。なお以下の説明では、番地及びコマンド辞書５３ＢＡ，５３ＣＡ，５３ＡＢ，５３ＣＢ，５３ＡＣ，５３ＢＣを、まとめて「番地及びコマンド辞書５３ＢＡ〜５３ＢＣ」と記す。そして、音声認識辞書５は、複数の第３辞書であるコマンド及びガベジ辞書５４Ａ，５４Ｂ，５４Ｃ（以下まとめて「コマンド及びガベジ辞書５４Ａ〜５４Ｃ」と記す）をさらに含んでいる。

音声認識辞書５のうち地名辞書５１Ａ〜５１Ｃは、実施の形態１に係る地名辞書５１Ａ〜５１Ｃと同様である。

番地及びコマンド辞書５３ＡＡ，５３ＢＢ，５３ＣＣは、実施の形態１に係る番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣの番地を、番地及びナビゲーションシステムのコマンドに置き換えた辞書である。このため、例えば言語用音声認識部４Ａは、番地及びコマンド辞書５３ＡＡを用いることにより、対応言語Ａの音素の入力音声から、対応言語Ａの音素の地名及びコマンドを特定する音声認識を行うことが可能となっている。なお、ナビゲーションシステムのコマンドには、「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」及び「ＮａｖｉｇａｔｅｔｏＦｒｅｎｃｈ」などが含まれるものとする。

番地及びコマンド辞書５３ＢＡ〜５３ＢＣは、実施の形態１に係る番地辞書５２ＢＡ〜５２ＢＣの番地を、番地及びナビゲーションシステムのコマンドに置き換えた辞書である。このため、例えば言語用音声認識部４Ａは、番地及びコマンド辞書５３ＢＡを用いることにより、他言語Ｂの音素の入力音声から、当該他言語Ｂの音素を対応言語Ａの音素に置換し、置換後の入力音声から、対応言語Ａの音素の番地及びコマンドを特定する音声認識を行うことが可能となっている。

コマンド及びガベジ辞書５４Ａ〜５４Ｃは、言語用音声認識部４Ａ〜４Ｃのそれぞれが、ガベジ認識を含む一回目の音声認識を対応言語の音素で行うための辞書である。

ここで以下においては、コマンド及びガベジ辞書５４Ａの対応言語Ａがドイツ語であり、「ｎａｖｉｇｉｅｒｅｎＤｅｕｔｓｃｈｌａｎｄ」及び「ｎａｖｉｇｉｅｒｅｎＦｒａｎｋｒｅｉｃｈ」などのナビゲーションシステムのコマンドが、コマンド及びガベジ辞書５４Ａに設定されている場合を例にして説明する。また、コマンド及びガベジ辞書５４Ｂの対応言語Ｂが英語であり、「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」及び「ＮａｖｉｇａｔｅｔｏＦｒｅｎｃｈ」などのナビゲーションシステムのコマンドが、コマンド及びガベジ辞書５４Ｂに設定されている場合を例にして説明する。ただし、これらは一例であってこれらに限ったものではない。

さて、ガベジ認識とは、ガベジ音響モデルと呼ばれるものを用いて認識する認識方法である。このようなガベジ認識によれば、どのような発話に対しても、当該発話と、辞書内のいくつかの語彙のそれぞれとが一致している程度を示す認識スコアを出力することが可能となる。

例えば、英語の言語用音声認識部４Ｂが、コマンド及びガベジ辞書５４Ｂを用いて、ガベジ認識を含む音声認識を行ったとする。この場合、入力音声が「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅ」及び「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙＡａｃｈｅｎｅｒＤｏｍ」のいずれであっても、言語用音声認識部４Ｂは、「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ＜．．．＞」の音声認識の結果に、「ＮａｖｉｇａｔｅｔｏＦｒｅｎｃｈ＜．．．＞」などの音声認識の結果よりも高い認識スコアを付与することになる。なお、＜．．．＞は、通常、ガベジ認識結果を示す記号である。

本実施の形態２では、以上のようなガベジ認識が、ナビゲーションシステムにおける予め定められた複数のコマンドに対して行われる。そして、各コマンドは、ナビゲーションシステムの目的地に設定可能な地名及び国名、並びに、それらで使用されている言語の少なくともいずれか１つを示す語彙（例えば上述のＤｅｕｔｓｃｈｌａｎｄ、Ｆｒａｎｋｒｅｉｃｈ、Ｇｅｒｍａｎｙ、Ｆｒｅｎｃｈなど）を含んでいるものとする。

一次認識結果判定部９は、コマンド及びガベジ辞書５４Ａ〜５４Ｃを用いた一回目の音声認識の結果に含まれるガベジ認識の結果に基づいて、二回目の音声認識に用いるべき言語を判定する。本実施の形態２では、一次認識結果判定部９は、ガベジ認識の結果に基づいて、複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる地名、国名、及び、それらで使用されている言語の少なくともいずれか１つを示す語彙に基づいて、二回目の音声認識に用いるべき言語を判定する。

例えば、コマンド及びガベジ辞書５４Ａ〜５４Ｃを用いた一回目の音声認識の結果に含まれるガベジ認識の結果として、「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ＜．．．＞」の認識スコアが最も高かったとする。このような場合には、一次認識結果判定部９は、複数のコマンドの中から認識スコアが最も高い「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」を、上記一のコマンドとして決定し、当該コマンドに含まれる「Ｇｅｒｍａｎｙ」に基づいて、二回目の音声認識に用いる言語を「ドイツ語」と判定する。

音声認識辞書設定部７は、システム設定言語が他言語である場合には、設定音声認識部が他言語の音素を対応言語の音素に置換して番地及びコマンド（第２の語彙）の音声認識を行うための番地及びコマンド辞書５３ＢＡ〜５３ＢＣとして、他言語がシステム設定言語と同じ番地及びコマンド辞書を設定する。

＜動作＞
図７は、本実施の形態２に係る音声認識装置の動作を示すフローチャートである。なお、以下においては、システム設定言語が英語であり、ドイツ語の言語用音声認識部が言語用音声認識部４Ａであり、英語の言語用音声認識部が言語用音声認識部４Ｂであり、ドイツ語の地名辞書が地名辞書５１Ａであり、英語の音素がドイツ語の音素にマッピングされた番地及びコマンド辞書が番地及びコマンド辞書５３ＢＡであり、英語のコマンド及びガベジ辞書がコマンド及びガベジ辞書５４Ｂである場合を例にして説明する。そして、英語の発音でコマンド「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」が、ドイツ語の発音で地名「ＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅ」が、英語の発音で番地「ｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」がこの順に入力された場合を例にして説明する。ただし、これらは一例であってこれらに限ったものではない。

まず、ステップＳ１１〜Ｓ１３にて、実施の形態１に係るステップＳ１〜Ｓ３と同様の動作を行う。

その後、ステップＳ１４にて、音声記憶部８は、音響分析部３が変換した音響特徴のベクトル列や時系列を記憶する。

ステップＳ１５にて、音声認識言語設定部６は、システム設定言語に基づいて、一回目の音声認識に用いるべき言語用音声認識部を、言語用音声認識部４Ａ〜４Ｃの中から設定する。上述の例では、システム設定言語が英語であることから、音声認識言語設定部６は、英語の言語用音声認識部４Ｂを設定する。なお、以下の説明では、ステップＳ１５で音声認識言語設定部６に設定された言語用音声認識部を「一回目の設定音声認識部」と記すこともある。

ステップＳ１６にて、音声認識辞書設定部７は、一回目の設定音声認識部が対応言語の音素でガベジ認識を含む音声認識を行うためのコマンド及びガベジ辞書を、コマンド及びガベジ辞書５４Ａ〜５４Ｃの中から設定する。上述の例では、一回目の設定音声認識部が英語の言語用音声認識部４Ｂであることから、音声認識辞書設定部７は、英語のコマンド及びガベジ辞書５４Ｂを設定する。

ステップＳ１７にて、音声認識部４は音声認識辞書５を参照して、音響分析された音響データについて一回目の音声認識を行い、最も確からしい認識結果を出力する。上述の例では、英語の言語用音声認識部４Ｂが、入力音声「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」について、コマンド及びガベジ辞書５４Ｂを用いたガベジ認識を含む音声認識を行う。このガベジ認識の結果として、「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ＜．．．＞」というコマンドに、最も高い認識スコアが付与される。

ステップＳ１８にて、一次認識結果判定部９は、ガベジ認識の結果に基づいて、複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる地名、国名、及び、それらで使用されている言語の少なくともいずれか１つを示す語彙に基づいて、二回目の音声認識に用いるべき言語を判定する。つまり、一次認識結果判定部９は、実施の形態１における目的地の言語と実質的に同じ言語を判定する。

上述の例では、一次認識結果判定部９は、複数のコマンドの中から、認識スコアが最も高い「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」を決定し、当該コマンドに含まれる「Ｇｅｒｍａｎｙ」に基づいて、二回目の音声認識に用いる言語、つまり目的地の言語を「ドイツ語」と判定する。

ステップＳ１９にて、実施の形態１に係るステップＳ４と同様の動作を行う。具体的には、音声認識言語設定部６は、一次認識結果判定部９で判定された言語に基づき、二回目の音声認識に用いるべき言語用音声認識部として、言語用音声認識部を、言語用音声認識部４Ａ〜４Ｃの中から設定する。上述の例では、目的地の言語はドイツ語であることから、音声認識言語設定部６は、ドイツ語の言語用音声認識部４Ａを設定する。なお、以下の説明では、ステップＳ１９で音声認識言語設定部６に設定された言語用音声認識部を「二回目の設定音声認識部」と記すこともある。

ステップＳ２０にて、実施の形態１に係るステップＳ５と同様の動作を行う。具体的には、音声認識辞書設定部７は、二回目の設定音声認識部が対応言語の音素で地名（第１の語彙）の音声認識を行うための地名辞書を、地名辞書５１Ａ〜５１Ｃの中から設定する。上述の例では、二回目の設定音声認識部がドイツ語の言語用音声認識部４Ａであることから、音声認識辞書設定部７は、ドイツ語の地名辞書５１Ａを設定する。

ステップＳ２１にて、実施の形態１に係るステップＳ６と同様の動作を行う。具体的には、音声認識辞書設定部７は、二回目の設定音声認識部がシステム設定言語の音素で番地及びコマンド（第２の語彙）の音声認識を行うための番地及びコマンド辞書を、番地及びコマンド辞書５３ＡＡ，５３ＢＢ，５３ＣＣ並びに番地及びコマンド辞書５３ＢＡ〜５３ＢＣの中から設定する。上述の例では、二回目の設定音声認識部がドイツ語の言語用音声認識部４Ａであり、システム設定言語が英語であることから、音声認識辞書設定部７は、英語の音素がドイツ語の音素にマッピングされた番地及びコマンド辞書５３ＢＡを設定する。

ステップＳ２２にて、音声記憶部８に記憶された音響特徴のベクトル列や時系列、つまり一回目の音声認識が行われた音響特徴と同じ音響特徴のベクトル列や時系列が、音声認識部４に入力される。

ステップＳ２３にて、音声認識部４は音声認識辞書５を参照して、入力された音響データについて二回目の音声認識を行い、最も確からしい認識結果を出力する。上述の例では、ドイツ語の言語用音声認識部４Ａが、入力音声「ＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅ」について地名辞書５１Ａを用いた音声認識を行い、入力音声「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」及び入力音声「ｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」について、マッピングが施された番地及びコマンド辞書５３ＢＡを用いた音声認識を行う。ステップＳ２３にて音声認識部４から出力された認識結果は、図示しないスピーカから音声出力されたり、図示しないディスプレイ装置に表示されたりする。その後、図７の動作を終了する。

＜実施の形態２のまとめ＞
以上のような本実施の形態２に係る音声認識装置においても、実施の形態１と同様の効果を得ることができる。さらに本実施の形態２では、一の入力音声に対して、ガベジ認識を含む一回目の音声認識を行うことによって目的地の言語を取得し、当該一の入力音声に対して、目的地の言語が設定された二回目の音声認識によって実施の形態１と同様の音声認識を行う。したがって、目的地を予め設定する手間を省くことができる。

＜実施の形態２の変形例＞
実施の形態２では、二回目の音声認識の際に、入力音声（音響特徴のベクトル列や時系列）のコマンド部分について、マッピングが施された番地及びコマンド辞書を用いた音声認識を行った。しかしこれに限ったものではなく、入力音声（音響特徴のベクトル列や時系列）からコマンド部分（例えば「ＮａｖｉｇａｔｅｔｏＧｅｒｍａｎｙ」）を取り除くことができるのであれば、残りの部分（例えば「ＳｔｕｔｔｇａｒｔＮｅｃｋａｒｓｔｒａｓｓｅｏｎｅ，ｔｗｏ，ｔｈｒｅｅ」）のうち、前半部分について地名辞書を用いた音声認識を行い、後半部分について番地辞書を用いた音声認識を行ってもよい。つまり、この場合には、番地及びコマンド辞書５３ＡＡ，５３ＢＢ，５３ＣＣ，５３ＢＡ〜５３ＢＣを用いるのではなく、実施の形態１と同様に、番地辞書５２ＡＡ，５２ＢＢ，５２ＣＣ，５２ＢＡ〜５２ＢＣを用いることができる。

また、実施の形態２では、目的地の言語が設定されていない場合について説明したが、これに限ったものではない。例えば、検索したい人名の言語が設定されていない場合に、英語の発音でコマンド「ＣａｌｌＪａｐａｎｅｓｅ」が、日本語の発音で人名「やまだたろう」がこの順に入力された場合にも、上述と同様に音声認識を行うことができる。

＜その他の変形例＞
以上の説明では、音声認識部４は、図１のプロセッサ８１がメモリ８２などの記憶装置に記憶されたプログラムを実行することによって実現された。しかし、このようにソフトウェアとして実現される音声認識部４に限ったものではなく、当該音声認識部４と同様の機能を有するハードウェアによって実現されてもよい。つまり、音声認識装置は、ソフトウェアとして実現される音声認識部４と、音声認識部４と同様の機能を有するハードウェアとの両方に共通する上位概念としての音声認識処理回路を備えていればよい。

そして、音声認識装置は、言語用音声認識部４Ａ〜４Ｃの上位概念として同様の言語用音声認識処理回路と、音声認識言語設定部６の上位概念として同様の音声認識言語設定処理回路と、音声認識辞書設定部７の上位概念として同様の音声認識辞書設定処理回路とを備えていればよい。同様に、実施の形態２に係る音声認識装置は、一次認識結果判定部９の上位概念として同様の一次認識結果判定処理回路を備えていればよい。

また、以上で説明した音声認識装置は、車両に搭載可能な備え付けのナビゲーション装置だけでなく、Portable Navigation Device、通信端末（例えば携帯電話、スマートフォン、及びタブレットなどの携帯端末）、及びこれらにインストールされるアプリケーションの機能、並びにサーバなどを適宜に組み合わせてシステムとして構成される音声認識システムを含む。この場合、以上で説明した音声認識装置の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。

なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。

本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。

４音声認識部、４Ａ，４Ｂ，４Ｃ言語用音声認識部、５音声認識辞書、６音声認識言語設定部、７音声認識辞書設定部、８音声記憶部、９一次認識結果判定部、５１Ａ，５１Ｂ，５１Ｃ地名辞書、５２ＡＡ，５２ＢＡ，５２ＣＡ，５２ＡＢ，５２ＢＢ，５２ＣＢ，５２ＡＣ，５２ＢＣ，５２ＣＣ番地辞書、５３ＡＡ，５３ＢＡ，５３ＣＡ，５３ＡＢ，５３ＢＢ，５３ＣＢ，５３ＡＣ，５３ＢＣ，５３ＣＣ番地及びコマンド辞書、５４Ａ，５４Ｂ，５４Ｃコマンド及びガベジ辞書。

Claims

音声認識対象の語彙が規定された音声認識辞書と、
入力音声の音声認識を、前記音声認識辞書を用いて行う音声認識処理回路と
を備え、
前記音声認識処理回路は、
それぞれ予め定められた言語の音素で前記音声認識を行うことが可能な複数の言語用音声認識処理回路を含み、
前記音声認識辞書は、
前記複数の言語用音声認識処理回路のそれぞれが、自身に対応する前記言語である対応言語の音素で第１の前記語彙の前記音声認識を行うための複数の第１辞書と、前記複数の言語用音声認識処理回路のそれぞれが、前記対応言語と異なる前記言語である他言語の音素を前記対応言語の音素に置換して第２の前記語彙の前記音声認識を行うための、前記第２の語彙について前記他言語の音素を前記対応言語の音素にマッピングした複数の第２辞書とを含み、
前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定する音声認識言語設定処理回路と、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記対応言語の音素で前記第１の語彙の前記音声認識を行うための前記第１辞書を、前記複数の第１辞書の中から設定するとともに、前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書を、前記複数の第２辞書の中から設定する音声認識辞書設定処理回路と
をさらに備える、音声認識装置。
請求項１に記載の音声認識装置であって、
前記音声認識言語設定処理回路は、
ナビゲーションシステムにおける目的地に基づいて、前記音声認識に用いるべき前記言語用音声認識処理回路を設定する、音声認識装置。
請求項１に記載の音声認識装置であって、
各前記第２辞書の前記第２の語彙は、予め定められた数字の語彙を含む、音声認識装置。
請求項３に記載の音声認識装置であって、
前記音声認識辞書設定処理回路は、
ナビゲーションシステムで設定された言語が前記他言語である場合に、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第２辞書を設定する、音声認識装置。
請求項１に記載の音声認識装置であって、
各前記第２辞書の前記第２の語彙は、ナビゲーションシステムにおけるＰＯＩ（point of interest）の予め定められたカテゴリの語彙を含む、音声認識装置。
請求項５に記載の音声認識装置であって、
前記音声認識辞書設定処理回路は、
前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第２辞書を設定する、音声認識装置。
請求項１に記載の音声認識装置であって、
各前記第２辞書の前記第２の語彙は、ナビゲーションシステムにおける予め定められたコマンドの語彙を含み、
前記音声認識辞書設定処理回路は、
前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第２辞書を設定する、音声認識装置。
請求項１に記載の音声認識装置であって、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路は、
前記入力音声の入力順次の予め定められた第１部分について、前記第１辞書を用いた音声認識を行い、前記入力音声の入力順次の予め定められた第２部分について、前記第２辞書を用いた音声認識を行う、音声認識装置。
請求項１に記載の音声認識装置であって、
一の前記入力音声に対して前記音声認識処理回路によって複数回の前記音声認識を行うために、当該一の入力音声を記憶する記憶装置と、
一次認識結果判定処理回路と
をさらに備え、
前記音声認識辞書は、
前記複数の言語用音声認識処理回路のそれぞれが、ガベジ認識を含む一回目の前記音声認識を前記対応言語の音素で行うための複数の第３辞書をさらに含み、
前記音声認識言語設定処理回路は、ナビゲーションシステムで設定された言語に基づいて、前記一回目の前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定し、前記音声認識辞書設定処理回路は、前記音声認識言語設定処理回路に設定された前記一回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記対応言語の音素で前記ガベジ認識を含む前記一回目の音声認識を行うための前記第３辞書を、前記複数の第３辞書の中から設定し、
前記一次認識結果判定処理回路は、
前記第３辞書を用いた前記一回目の音声認識の結果に含まれる前記ガベジ認識の結果に基づいて、二回目の音声認識に用いるべき前記言語を判定し、
前記音声認識言語設定処理回路は、前記一次認識結果判定処理回路で判定された前記言語に基づいて、前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定し、前記音声認識辞書設定処理回路は、前記音声認識言語設定処理回路に設定された前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記対応言語の音素で前記第１の語彙の前記音声認識を行うための前記第１辞書を、前記複数の第１辞書の中から設定するとともに、前記音声認識言語設定処理回路に設定された前記二回目の前記音声認識に用いるべき前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書を、前記複数の第２辞書の中から設定する、音声認識装置。
請求項９に記載の音声認識装置であって、
前記ガベジ認識は、
前記ナビゲーションシステムにおける予め定められた複数のコマンドに対して行われ、
各前記コマンドは、
前記ナビゲーションシステムの目的地に設定可能な地名及び国名、並びに、それらで使用されている言語の少なくともいずれか１つを示す語彙を含む、音声認識装置。
請求項１０に記載の音声認識装置であって、
前記一次認識結果判定処理回路は、
前記ガベジ認識の結果に基づいて、前記複数のコマンドの中から一のコマンドを決定し、当該一のコマンドに含まれる前記地名、前記国名、及び、前記言語の少なくともいずれか１つを示す語彙に基づいて、前記二回目の前記音声認識に用いるべき言語を判定する、音声認識装置。
請求項９に記載の音声認識装置であって、
各前記第２辞書の前記第２の語彙は、前記ナビゲーションシステムにおける予め定められたコマンドの語彙を含み、
前記音声認識辞書設定処理回路は、
前記ナビゲーションシステムで設定された言語が前記他言語である場合に、
前記音声認識言語設定処理回路に設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書として、前記他言語が前記ナビゲーションシステムで設定された言語と同じ前記第２辞書を設定する、音声認識装置。
音声認識方法であって、
音声認識対象の語彙が規定された音声認識辞書を準備することと、
入力音声の音声認識を、前記音声認識辞書を用いて行うことと
を備え、
前記音声認識を行うことは、
それぞれ予め定められた言語の音素で前記音声認識を行うことが可能な複数の言語用音声認識処理回路を準備することを含み、
前記音声認識辞書を準備することは、
前記複数の言語用音声認識処理回路のそれぞれが、自身に対応する前記言語である対応言語の音素で第１の前記語彙の前記音声認識を行うための複数の第１辞書と、前記複数の言語用音声認識処理回路のそれぞれが、前記対応言語と異なる前記言語である他言語の音素を前記対応言語の音素に置換して第２の前記語彙の前記音声認識を行うための、前記第２の語彙について前記他言語の音素を前記対応言語の音素にマッピングした複数の第２辞書とを準備することを含み、
前記音声認識方法は、
前記音声認識に用いるべき前記言語用音声認識処理回路を、前記複数の言語用音声認識処理回路の中から設定することと、
設定された前記言語用音声認識処理回路が前記対応言語の音素で前記第１の語彙の前記音声認識を行うための前記第１辞書を、前記複数の第１辞書の中から設定するとともに、設定された前記言語用音声認識処理回路が前記他言語の音素を前記対応言語の音素に置換して前記第２の語彙の前記音声認識を行うための前記第２辞書を、前記複数の第２辞書の中から設定することとをさらに備える、音声認識方法。