WO2018100705A1

WO2018100705A1 - 音声認識装置及び音声認識方法

Info

Publication number: WO2018100705A1
Application number: PCT/JP2016/085689
Authority: WO
Inventors: 昭男堀井
Original assignee: 三菱電機株式会社
Priority date: 2016-12-01
Filing date: 2016-12-01
Publication date: 2018-06-07

Abstract

音声認識装置の認識精度を高めることが可能な技術を提供することを目的とする。音声認識装置は、入力された音声の認識を行う音声認識部と、音声認識部の認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが本体語彙を含み、本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する認識語彙選択部とを備える。

Description

音声認識装置及び音声認識方法

　本発明は、音声を認識する音声認識装置及び音声認識方法に関する。

　音声認識装置について様々な技術が提案されている。例えば特許文献１の技術では、音声から求めた認識語彙（あるいは認識語彙の特徴量）と機能とを予め対応付けて記憶しておき、記憶された音声に対応する認識語彙と同一の発声が行われた場合に、当該音声と対応付けられた機能を実行する。

　一方で、一般的に、音声認識装置の認識結果を利用する装置は、音声認識装置の認識結果を用いて検索を行う場合には、認識結果が曖昧になってしまう場合がある。例えば、（ｉ）施設の検索であれば、「ＢＰ」という施設名は「ｆｕｅｌ　ｓｔａｔｉｏｎ」という施設カテゴリの「ＢＰ」なのか、「ｄｉｅｓｅｌ」という施設カテゴリの「ＢＰ」なのかが曖昧になってしまう場合がある。また例えば、（ｉｉ）地名の検索であれば、「Ｍｕｎｃｈｅｎ」という都市名は州「Ｂａｖａｒｉａ」の都市なのか、州「Ｈｕｔｔｈｕｒｍ」の都市なのかが曖昧である。この対策の一つとして、上記（ｉ）については、例えば、検索結果を「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」及び「ＢＰ（ｄｉｅｓｅｌ）」とし、上記（ｉｉ）については、例えば、検索結果を「Ｍｕｎｃｈｅｎ（Ｂａｖａｒｉａ）」及び「Ｍｕｎｃｈｅｎ（Ｈｕｔｔｈｕｒｍ）」とすることが挙げられる。つまり、ユーザに提示する検索結果に区別する情報を付与することが挙げられる。例えば特許文献２の技術では、この区別するための情報も含めて認識語彙とすることが可能となっている。

特開２００３－３２３１９２号公報特許第４５５４２７２号公報

　しかしながら、特許文献１及び特許文献２の技術では、認識語彙の追加に偏ることになる。一般的には、認識語彙数の増加は音声認識装置の認識精度の低下の原因になる。このため、認識結果が、ユーザが意図する結果に絞り込まれていないという点で、音声認識装置の認識精度を向上させる余地があった。

　そこで、本発明は、上記のような問題点を鑑みてなされたものであり、音声認識装置の認識精度を高めることが可能な技術を提供することを目的とする。

　本発明に係る音声認識装置は、入力された音声の認識を行う音声認識部と、音声認識部の認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが本体語彙を含み、本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する認識語彙選択部とを備える。

　本発明によれば、認識によって、本体語彙を含む認識結果が得られた場合に、複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する。これにより、音声認識装置の認識精度を高めることができる。

　本発明の目的、特徴、態様及び利点は、以下の詳細な説明と添付図面とによって、より明白となる。

実施の形態１に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る認識語彙選択部の構成を示すブロック図である。実施の形態２に係る表示語彙データベースの情報の一例を示す図である。実施の形態２に係る優先度データベースの情報の一例を示す図である。実施の形態２に係る判定情報データベースの情報の一例を示す図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。実施の形態２に係る音声認識装置の第１例の動作結果を示す図である。実施の形態２に係る音声認識装置の第２例の動作結果を示す図である。実施の形態３に係る認識語彙選択部の構成を示すブロック図である。実施の形態３に係る表示語彙データベースの情報の一例を示す図である。実施の形態３に係る車両情報データベースの情報の一例を示す図である。実施の形態３に係る音声認識装置の動作を示すフローチャートである。実施の形態４に係る認識語彙選択部の構成を示すブロック図である。実施の形態４に係る表示語彙データベースの情報の一例を示す図である。実施の形態４に係る階層情報データベースの情報の一例を示す図である。実施の形態４に係る音声認識装置の動作を示すフローチャートである。実施の形態５に係る認識語彙選択部の構成を示すブロック図である。実施の形態５に係るＳＷ情報データベースの情報の一例を示す図である。実施の形態５に係る音声認識装置の動作を示すフローチャートである。実施の形態６に係る認識語彙選択部の構成を示すブロック図である。実施の形態６に係るＨＷ情報データベースの情報の一例を示す図である。実施の形態６に係る音声認識装置の動作を示すフローチャートである。その他の変形例に係るナビゲーション装置のハードウェア構成を示すブロック図である。その他の変形例に係るナビゲーション装置のハードウェア構成を示すブロック図である。その他の変形例に係るサーバの構成を示すブロック図である。その他の変形例に係る通信端末の構成を示すブロック図である。

　＜実施の形態１＞
　図１は、本発明の実施の形態１に係る音声認識装置１の構成を示すブロック図である。図１の音声認識装置１は、音声認識部１１と、認識語彙選択部１２とを備える。

　音声認識部１１は、入力された音声の認識を行う。例えば、音声認識部１１は、入力された音声をアナログの音声信号及びデジタルの音声信号に順に変換し、デジタルの音声信号に基づいて、デジタルの音声信号に対応する文字列及び語句などを認識結果として取得する。なお、特開平９－５０２９１号公報に記載の技術を用いて、音声認識部１１は、音声認識で認識した語彙、つまりユーザが発生した音響的・言語的に最も確からしい語彙に基づいて認識語彙などを認識結果として選出してもよい。音声認識部１１は、この認識を行う際に、認識辞書データベース１１ａに記憶された辞書データを適宜用いてもよい。辞書データは、認識結果として取得される文字列等を含むデータである。

　認識語彙選択部１２に予め定められた語彙である本体語彙を含む認識結果が、音声認識部１１の認識によって得られた場合に、認識語彙選択部１２は、当該本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各候補語彙について優先度を取得する。なお、複数の候補語彙のそれぞれは、対応付けられた本体語彙を含む語彙である。

　そして、認識語彙選択部１２は、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する。

　＜実施の形態１のまとめ＞
　以上のような本実施の形態１に係る音声認識装置１によれば、本体語彙を含む認識結果が得られた場合に、複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する。このような構成によれば、優先度に基づいて複数の候補語彙を、ユーザが意図していた語彙に絞り込むことができる。したがって、音声認識装置１の認識精度を高めることができ、かつ、多くの語彙がユーザに通知された場合に生じていたユーザの混乱を抑制することができる。

　＜実施の形態２＞
　図２は、本発明の実施の形態２に係る音声認識装置１が備える認識語彙選択部１２の構成を示すブロック図である。以下、本実施の形態２で説明する構成要素のうち、実施の形態１と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。

　図２の音声認識装置１が備える認識語彙選択部１２は、表示語彙データベース１２ａと、結果比較部１２ｂと、優先度データベース１２ｃと、優先度算出部１２ｄと、判定情報データベース１２ｅと、認識語彙更新部１２ｆとを備える。

　図３は、表示語彙データベース１２ａに記憶された情報の一例を示す図である。図３に示すように、表示語彙データベース１２ａには、「ＢＰ」などの本体語彙と、「ＢＰ」、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」、「ＢＰ（ｄｉｅｓｅｌ）」などの複数の表示語彙とが互いに対応付けられた情報が記憶されている。

　本体語彙には、例えば、異なる複数の場所に付された同一の地名、複数の施設に付された同一の名称、異なる複数の正式名称に付された同一の略称、及び、これらに類似する名称などが適用される。

　表示語彙は、実施の形態１で説明した候補語彙に対応している。本実施の形態２では、複数の表示語彙は、本体語彙そのもの、及び、本体語彙と組み合わさり当該本体語彙を詳細にする付属語彙と当該本体語彙とを組み合わせた語彙を含んでいる。図３の例では、括弧を適宜付されて、本体語彙の後に続く付属語彙である後置情報が用いられている。

　図２の結果比較部１２ｂには、音声認識部１１から認識結果が入力される。結果比較部１２ｂは、音声認識部１１の認識結果が本体語彙を含む場合に、当該本体語彙と予め対応付けられた複数の表示語彙を表示語彙データベース１２ａから取得する。

　ここで、表示語彙データベース１２ａに図３の情報が記憶されている場合について、２つの例を説明する。

　第１例として、認識結果が「ＢＰ」という本体語彙そのものであった例について説明する。このときには、結果比較部１２ｂは、「ＢＰ」という本体語彙に対応付けられた「ＢＰ」、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」、「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙を取得する。

　第２例として、認識結果が「ＢＰ　ｓｔａｔｉｏｎ」であった例について説明する。このときには、結果比較部１２ｂは、「ＢＰ　ｓｔａｔｉｏｎ」に含まれる「ＢＰ」という本体語彙に対応付けられた「ＢＰ」、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」、「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙を取得する。結果比較部１２ｂの結果としては、第１例も第２例も同じとなる。

　ところで、本実施の形態２に係る結果比較部１２ｂは、音声認識部１１の認識結果と複数の表示語彙とに基づいて、各表示語彙が認識結果と一致する度合である一致度を取得する。以下、一致度は、第１度合、第２度合及び第３度合という３段階に区分されているものとして説明する。このうち、第１度合は、表示語彙が認識結果と完全に一致することを意味する。第２度合は、本体語彙と後置情報とを組み合わせた表示語彙において、本体語彙が認識結果の一部と一致し、かつ、後置情報の一部が認識結果の残部と一致することを意味する。第３度合は、本体語彙と後置情報とを組み合わせた表示語彙において、本体語彙が認識結果の一部と一致するが、後置情報が認識結果の残部と部分的にも一致しないことを意味する。

　ここで、表示語彙データベース１２ａに図３の情報が記憶されている場合について、上述した第１例及び第２例を説明する。

　認識結果が「ＢＰ」という本体語彙そのものであった第１例では、結果比較部１２ｂは、「ＢＰ」という表示語彙については第１度合を取得し、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」及び「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙については第３度合を取得する。

　認識結果が「ＢＰ　ｓｔａｔｉｏｎ」であった第２例では、結果比較部１２ｂは、「ＢＰ」という表示語彙については第１度合を取得し、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」という表示語彙については第２度合を取得し、「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙については第３度合を取得する。

　図４は、優先度データベース１２ｃに記憶された情報の一例を示す図である。図４に示すように、優先度データベース１２ｃには一致度と優先度とが互いに対応付けられている。具体的には、第１度合、第２度合及び第３度合には、高、中、低の優先度がそれぞれ対応付けられている。

　図２の優先度算出部１２ｄには、結果比較部１２ｂから、音声認識部１１の認識結果と、複数の表示語彙と、当該複数の表示語彙の一致度とが入力される。優先度算出部１２ｄは、入力された各表示語彙の一致度に基づいて、各表示語彙の優先度を優先度データベース１２ｃから取得する。これにより、本実施の形態２に係る認識語彙選択部１２は、認識結果と各表示語彙とに基づいて、各表示語彙が認識結果と一致する度合である一致度を、各表示語彙の優先度として取得する。

　図５は、判定情報データベース１２ｅに記憶された情報の一例を示す図である。図５に示すように、判定情報データベース１２ｅには、優先度と、認識語彙として判定するか否か、つまり認識語彙として選択するか否かについての判定規則とが互いに対応付けられている。

　図２の認識語彙更新部１２ｆには、優先度算出部１２ｄから、音声認識部１１の認識結果と、複数の表示語彙と、当該複数の表示語彙の優先度とが入力される。認識語彙更新部１２ｆは、入力された優先度に基づき、判定情報データベース１２ｅの判定規則に従って、複数の表示語彙から１以上の表示語彙を１以上の認識語彙として選択する。選択された認識語彙は、例えば図示しない表示装置で表示されたり、図示しない音声出力装置で音声出力されたりする。

　加えて、認識語彙更新部１２ｆは、１以上の認識語彙を選択した場合に、当該１以上の認識語彙以外の複数の表示語彙を、次の選択以降のいずれかの選択において除外することが可能となっている。その一例として、本実施の形態２に係る認識語彙更新部１２ｆは、１以上の認識語彙を選択した場合に、当該１以上の認識語彙を表示語彙データベース１２ａで継続して記憶させるとともに、当該１以上の認識語彙以外の複数の表示語彙を表示語彙データベース１２ａから削除する。この場合、認識語彙更新部１２ｆは、選択された１以上の認識語彙以外の複数の表示語彙を、次の選択において除外することが可能となる。

　ただし、認識語彙更新部１２ｆはこれに限ったものではない。例えば、認識語彙更新部１２ｆは、認識語彙として１回選択されなかった表示語彙を、表示語彙データベース１２ａからすぐに削除しなくてもよい。そして、認識語彙更新部１２ｆは、認識語彙として予め定められた複数回以上、連続して選択されなかった表示語彙を、表示語彙データベース１２ａから削除してもよい。この場合、認識語彙更新部１２ｆは、選択された１以上の認識語彙以外の複数の表示語彙を、次の選択よりも後の選択において除外することが可能となる。

　＜動作＞
　図６は、本実施の形態２に係る音声認識装置１の動作を示すフローチャートである。

　まずステップＳ１にて、音声認識部１１は、入力された音声の認識を行い、認識結果を認識語彙選択部１２の結果比較部１２ｂに出力する。

　ステップＳ２にて、結果比較部１２ｂは、表示語彙データベース１２ａを参照しつつ、音声認識部１１からの認識結果に基づいて、複数の表示語彙と、複数の表示語彙のそれぞれの一致度とを取得する。そして、結果比較部１２ｂは、音声認識部１１の認識結果と、複数の表示語彙と、複数の表示語彙のそれぞれの一致度とを優先度算出部１２ｄに出力する。

　ステップＳ３にて、優先度算出部１２ｄは、優先度データベース１２ｃを参照しつつ、結果比較部１２ｂからの各表示語彙の一致度に基づいて、各表示語彙の優先度を取得する。そして、優先度算出部１２ｄは、音声認識部１１の認識結果と、複数の表示語彙と、複数の表示語彙のそれぞれの優先度とを認識語彙更新部１２ｆに出力する。

　ステップＳ４にて、認識語彙更新部１２ｆは、判定情報データベース１２ｅを参照しつつ、優先度算出部１２ｄからの優先度に基づいて、複数の表示語彙から１以上の認識語彙を選択し、選択された認識語彙を図示しない表示装置などに出力する。また、認識語彙更新部１２ｆは、選択された１以上の認識語彙以外の複数の表示語彙を表示語彙データベース１２ａから削除する。その後、図６の動作が終了する。

　図７及び図８は、上述した第１例及び第２例の動作結果を示す図である。

　図７に示すように、音声認識部１１の認識結果が「ＢＰ」という本体語彙そのものであった第１例では、上述した表示語彙のうち、「ＢＰ」は認識語彙として選択されるが、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」及び「ＢＰ（ｄｉｅｓｅｌ）」は認識語彙として選択されない。このため、「ＢＰ」は表示語彙データベース１２ａで継続して記憶されるが、「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」及び「ＢＰ（ｄｉｅｓｅｌ）」は表示語彙データベース１２ａから削除される。

　一方、図８に示すように、音声認識部１１の認識結果が「ＢＰ　ｓｔａｔｉｏｎ」であった第２例では、上述した表示語彙のうち、「ＢＰ」及び「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」は認識語彙として選択されるが、「ＢＰ（ｄｉｅｓｅｌ）」は認識語彙として選択されない。このため、「ＢＰ」及び「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」は表示語彙データベース１２ａで継続して記憶されるが、「ＢＰ（ｄｉｅｓｅｌ）」は表示語彙データベース１２ａから削除される。

　＜実施の形態２のまとめ＞
　以上のような本実施の形態２に係る音声認識装置１によれば、実施の形態１と同様に、優先度に基づいて、複数の表示語彙から１以上の表示語彙を１以上の認識語彙として選択する。このため、実施の形態１と同様に、音声認識装置１の認識精度を高めることができ、かつ、ユーザの混乱を抑制することができる。

　また本実施の形態２では、複数の表示語彙は、本体語彙そのもの、及び、本体語彙と組み合わさり当該本体語彙を詳細にする後置情報と当該本体語彙とを組み合わせた語彙を含む。このような構成によれば、図７及び図８に示すように、第１例及び第２例のいずれにおいても「ＢＰ」という本体語彙が表示語彙として選択される。このように、音声認識部１１の認識結果が本体語彙を含む限りにおいて、認識結果の内容に関わらず、本体語彙を表示語彙として選択することができる。

　また本実施の形態２に係る音声認識装置１は、１以上の認識語彙を選択した場合に、当該１以上の認識語彙以外の複数の表示語彙を、次の選択以降のいずれかの選択において除外可能となっている。このような構成によれば、次の選択以降のいずれかの選択において複数の表示語彙から認識語彙を選択する処理を軽減することができる。したがって、音声認識装置１の処理負荷を軽減することができる。

　また本実施の形態２に係る音声認識装置１は、各表示語彙の一致度を、各表示語彙の優先度として取得する。このような構成によれば、ユーザが発声によって意図していた語彙に対応する表示語彙に絞り込むことができる。したがって、音声認識装置１の認識精度を高めることができ、かつ、ユーザの混乱を抑制することができる。

　なお、上述した実施の形態２では、一致度及び優先度は３段階で区分されていた。しかしこれに限ったものではなく、一致度及び優先度は２段階で区分されてもよく、４段階以上で区分されてもよい。

　＜実施の形態３＞
　図９は、本発明の実施の形態３に係る音声認識装置１が備える認識語彙選択部１２の構成を示すブロック図である。以下、本実施の形態３で説明する構成要素のうち、実施の形態２と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。

　本実施の形態３に係る図９の音声認識装置１は車両にて用いられる。そして、図９の認識語彙選択部１２は、実施の形態２に係る認識語彙選択部１２のブロック構成（図２）に加えて、車両情報データベース１２ｇと、表示語彙更新部１２ｈとを備える。このように構成された認識語彙選択部１２は、当該車両の情報である車両情報と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択する。以下、このことについて詳細に説明する。

　図１０は、表示語彙データベース１２ａに記憶された情報の一例を示す図である。図１０に示すように、本実施の形態３に係る表示語彙データベース１２ａでは、実施の形態２で説明した図３の情報と、ドメインとが互いに対応付けられている。ここで、ドメインは、車両情報の一種であり、ドメインには、例えば車両の仕様に関する情報などが用いられる。

　図９の結果比較部１２ｂは、音声認識部１１の認識結果が本体語彙を含む場合に、当該本体語彙と予め対応付けられた複数の表示語彙と、当該複数の表示語彙のそれぞれのドメインとを表示語彙データベース１２ａから取得する。また、結果比較部１２ｂは、実施の形態２と同様に各表示語彙の一致度も取得する。

　図１１は、車両情報データベース１２ｇに記憶された情報の一例を示す図である。図１１に示すように、車両情報データベース１２ｇには、ドメインと、表示語彙に関する有効及び無効のいずれか１つとが互いに対応付けられている。なお、図１１に示される情報は、ユーザなどによって予め設定されてもよいし、音声認識装置１などによって車両の走行履歴に基づき自動的に変更されてもよい。例えば、車両がガソリンの給油所に立ち寄った回数よりも軽油の給油所に立ち寄った回数の方が多いことが、走行履歴として記録されている場合には、音声認識装置１が、図１１の「ｆｕｅｌ　ｓｔａｔｉｏｎ」の「有効」を「無効」に変更し、かつ、図１１の「ｄｉｅｓｅｌ」の「無効」を「有効」に変更してもよい。

　図９の表示語彙更新部１２ｈには、結果比較部１２ｂから、音声認識部１１の認識結果と、複数の表示語彙と、当該複数の表示語彙の一致度と、当該複数の表示語彙のドメインとが入力される。表示語彙更新部１２ｈは、入力されたドメインと、車両情報データベース１２ｇの情報とに基づいて、優先度算出部１２ｄに出力すべき表示語彙を更新する。

　例えば、結果比較部１２ｂから表示語彙更新部１２ｈに図１０の表示語彙及びドメインが入力され、かつ、車両情報データベース１２ｇに図１１の情報が記憶されている場合を想定する。この場合、表示語彙更新部１２ｈは、図１１の情報において「有効」と対応付けられた「ｆｕｅｌ　ｓｔａｔｉｏｎ」をドメインとする「ＢＰ」及び「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」という表示語彙及びそれらの一致度と、音声認識部１１の認識結果とを優先度算出部１２ｄに出力する。一方、表示語彙更新部１２ｈは、図１１の情報において「無効」と対応付けられた「ｄｉｅｓｅｌ」をドメインとする「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙及びその一致度を優先度算出部１２ｄに出力しない。

　優先度データベース１２ｃ、優先度算出部１２ｄ、判定情報データベース１２ｅ及び、認識語彙更新部１２ｆの構成は、実施の形態２におけるそれらの構成と同様である。

　＜動作＞
　図１２は、本実施の形態３に係る音声認識装置１の動作を示すフローチャートである。ステップＳ１１にて図６のステップＳ１と同様に、音声認識部１１は、入力された音声の認識を行い、認識結果を認識語彙選択部１２の結果比較部１２ｂに出力する。

　ステップＳ１２にて、結果比較部１２ｂは、表示語彙データベース１２ａを参照しつつ、音声認識部１１からの認識結果に基づいて、複数の表示語彙と、複数の表示語彙のそれぞれの一致度と、複数の表示語彙のそれぞれのドメインとを取得する。そして、結果比較部１２ｂは、音声認識部１１の認識結果と、複数の表示語彙と、当該複数の表示語彙のそれぞれの一致度及びドメインとを表示語彙更新部１２ｈに出力する。

　ステップＳ１３にて、表示語彙更新部１２ｈは、音声認識部１１の認識結果を優先度算出部１２ｄに出力する。また、表示語彙更新部１２ｈは、結果比較部１２ｂからのドメインに基づいて、車両情報データベース１２ｇで当該ドメインが「有効」と対応付けられた表示語彙と、当該表示語彙の一致度とを優先度算出部１２ｄに出力する。なお、ドメインが「有効」と対応付けられた表示語彙は１つの場合もあるし、複数の場合もある。

　ステップＳ１４にて図６のステップＳ３と同様に、優先度算出部１２ｄは、優先度データベース１２ｃを参照しつつ、表示語彙更新部１２ｈからの各表示語彙の一致度に基づいて、各表示語彙の優先度を取得する。そして、優先度算出部１２ｄは、音声認識部１１の認識結果と、表示語彙と、表示語彙の優先度とを認識語彙更新部１２ｆに出力する。

　ステップＳ１５にて図６のステップＳ４と同様に、認識語彙更新部１２ｆは、判定情報データベース１２ｅを参照しつつ、優先度算出部１２ｄからの優先度に基づいて、表示語彙から認識語彙を選択し、選択された認識語彙を図示しない表示装置などに出力する。また、認識語彙更新部１２ｆは、選択された認識語彙以外の表示語彙を表示語彙データベース１２ａから削除する。その後、図１２の動作が終了する。

　＜実施の形態３のまとめ＞
　以上のような本実施の形態３に係る音声認識装置１によれば、車両情報と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択する。このような構成によれば、音声認識装置１の認識精度をより高めることができ、かつ、ユーザの混乱をより抑制することができる。

　なお、上述した実施の形態３では、認識語彙選択部１２は、車両情報に基づいて優先度を変更しなかった。しかしこれに限ったものではなく、認識語彙選択部１２は、車両情報に基づいて、優先度を変更してもよい。例えば、認識語彙選択部１２は、ステップＳ１３で、ドメインが「ｄｉｅｓｅｌ」である表示語彙の優先度を「低」に変更し、ステップＳ１４で、当該表示語彙の優先度をそのまま維持してもよい。この場合も、上述と同様の効果を得ることができる。

　＜実施の形態４＞
　図１３は、本発明の実施の形態４に係る音声認識装置１が備える認識語彙選択部１２の構成を示すブロック図である。以下、本実施の形態４で説明する構成要素のうち、実施の形態２と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。

　図１３の認識語彙選択部１２は、実施の形態２に係る認識語彙選択部１２のブロック構成（図２）に加えて、階層情報データベース１２ｉと、階層参照更新部１２ｊとを備える。このように構成された認識語彙選択部１２は、複数の表示語彙に予め規定された階層と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択するように構成されている。以下、このことについて詳細に説明する。

　図１４は、表示語彙データベース１２ａに記憶された情報の一例を示す図である。図１４に示すように、本実施の形態４に係る表示語彙データベース１２ａでは、実施の形態２で説明した図３の情報と、表示語彙の階層とが互いに対応付けられている。この例では、階層に付された番号が大きいほど階層が下位であり、下位の表示語彙の概念を包含する語彙が、上位の階層の表示語彙に用いられている。

　図１３の結果比較部１２ｂは、音声認識部１１の認識結果が本体語彙を含む場合に、当該本体語彙と予め対応付けられた複数の表示語彙と、当該複数の表示語彙のそれぞれの階層とを表示語彙データベース１２ａから取得する。また、結果比較部１２ｂは、実施の形態２と同様に各表示語彙の一致度も取得する。

　図１５は、階層情報データベース１２ｉに記憶された情報の一例を示す図である。図１５に示すように、階層情報データベース１２ｉには、階層と、表示語彙に関する有効及び無効のいずれか１つとが互いに対応付けられている。なお、図１５に示される情報は、ユーザなどによって予め設定されてもよいし、音声認識装置１などによって自動的に変更されてもよい。

　図１３の階層参照更新部１２ｊには、結果比較部１２ｂから、音声認識部１１の認識結果と、複数の表示語彙と、当該複数の表示語彙の一致度と、当該複数の表示語彙の階層とが入力される。階層参照更新部１２ｊは、入力された階層と、階層情報データベース１２ｉの情報とに基づいて、優先度算出部１２ｄに出力すべき表示語彙を更新する。

　例えば、結果比較部１２ｂから階層参照更新部１２ｊに図１４の表示語彙及び階層が入力され、かつ、階層情報データベース１２ｉに図１５の情報が記憶されている場合を想定する。この場合、階層参照更新部１２ｊは、図１５の情報において「有効」と対応付けられた「１」を階層とする「ＢＰ」という表示語彙及びその一致度と、音声認識部１１の認識結果とを優先度算出部１２ｄに出力する。一方、階層参照更新部１２ｊは、図１５の情報において「無効」と対応付けられた「２」を階層とする「ＢＰ（ｆｕｅｌ　ｓｔａｔｉｏｎ）」及び「ＢＰ（ｄｉｅｓｅｌ）」という表示語彙及びそれらの一致度を優先度算出部１２ｄに出力しない。

　＜動作＞
　図１６は、本実施の形態４に係る音声認識装置１の動作を示すフローチャートである。ステップＳ２１にて図６のステップＳ１と同様に、音声認識部１１は、入力された音声の認識を行い、認識結果を認識語彙選択部１２の結果比較部１２ｂに出力する。

　ステップＳ２２にて、結果比較部１２ｂは、表示語彙データベース１２ａを参照しつつ、音声認識部１１からの認識結果に基づいて、複数の表示語彙と、複数の表示語彙のそれぞれの一致度と、複数の表示語彙のそれぞれの階層とを取得する。そして、結果比較部１２ｂは、音声認識部１１の認識結果と、複数の表示語彙と、複数の表示語彙のそれぞれの一致度及び階層とを階層参照更新部１２ｊに出力する。

　ステップＳ２３にて、階層参照更新部１２ｊは、音声認識部１１の認識結果を優先度算出部１２ｄに出力する。また、階層参照更新部１２ｊは、結果比較部１２ｂからの階層に基づいて、階層情報データベース１２ｉで当該階層が「有効」と対応付けられた表示語彙と、当該表示語彙の一致度とを優先度算出部１２ｄに出力する。なお、階層が「有効」と対応付けられた表示語彙は１つの場合もあるし、複数の場合もある。

　ステップＳ２４にて図６のステップＳ３と同様に、優先度算出部１２ｄは、優先度データベース１２ｃを参照しつつ、階層参照更新部１２ｊからの各表示語彙の一致度に基づいて、各表示語彙の優先度を取得する。そして、優先度算出部１２ｄは、音声認識部１１の認識結果と、表示語彙と、表示語彙の優先度とを認識語彙更新部１２ｆに出力する。

　ステップＳ２５にて図６のステップＳ４と同様に、認識語彙更新部１２ｆは、判定情報データベース１２ｅを参照しつつ、優先度算出部１２ｄからの優先度に基づいて、表示語彙から認識語彙を選択し、選択された認識語彙を図示しない表示装置などに出力する。また、認識語彙更新部１２ｆは、選択された認識語彙以外の表示語彙を表示語彙データベース１２ａから削除する。その後、図１６の動作が終了する。

　＜実施の形態４のまとめ＞
　以上のような本実施の形態４に係る音声認識装置１によれば、複数の表示語彙に予め規定された階層と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択する。このような構成によれば、音声認識装置１の認識精度をより高めることができ、かつ、ユーザの混乱をより抑制することができる。

　なお、上述した実施の形態４では、認識語彙選択部１２は、階層に基づいて優先度を変更しなかった。しかしこれに限ったものではなく、認識語彙選択部１２は、階層に基づいて、優先度を変更してもよい。例えば、認識語彙選択部１２は、ステップＳ２３で、階層が「２」である表示語彙の優先度を「低」に変更し、ステップＳ２４で、当該表示語彙の優先度をそのまま維持してもよい。この場合も、上述と同様の効果を得ることができる。

　＜実施の形態５＞
　図１７は、本発明の実施の形態５に係る音声認識装置１の構成を示すブロック図である。以下、本実施の形態５で説明する構成要素のうち、実施の形態２と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。

　図１７の認識語彙選択部１２は、実施の形態２に係る認識語彙選択部１２のブロック構成（図２）に加えて、ＳＷ（ソフトウェア）情報データベース１２ｋと、ＳＷ制限参照更新部１２ｍとを備える。このように構成された認識語彙選択部１２は、音声認識装置１を用いるシステムにおけるソフトウェアの要件と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択するように構成されている。以下、このことについて詳細に説明する。

　図１８は、ＳＷ情報データベース１２ｋに記憶された情報の一例を示す図である。図１８に示すように、ＳＷ情報データベース１２ｋには、音声認識装置１を用いるシステムにおけるソフトウェアの要件として、当該システムが表示可能な認識語彙の数が記憶されている。なお、図１８に示される情報は、ユーザなどによって予め設定されてもよいし、音声認識装置１などによって上記ソフトウェアの要件に基づき自動的に変更されてもよい。

　図１７のＳＷ制限参照更新部１２ｍには、認識語彙更新部１２ｆから認識語彙と、当該認識語彙の優先度とが入力される。ここで認識語彙の優先度とは、認識語彙となった表示語彙について得られていた優先度である。ＳＷ制限参照更新部１２ｍは、認識語彙更新部１２ｆから入力された認識語彙の数が、ＳＷ情報データベース１２ｋに記憶された表示可能数以下である場合には、そのまま出力する。

　一方、ＳＷ制限参照更新部１２ｍは、認識語彙更新部１２ｆから入力された認識語彙の数が、ＳＷ情報データベース１２ｋに記憶された表示可能数を超える場合には、認識語彙のそれぞれの優先度を１つ低くする。この結果、ＳＷ制限参照更新部１２ｍは、いくつかの認識語彙の優先度を「低」にすることができる。ＳＷ制限参照更新部１２ｍは、優先度を変更した後に、判定情報データベース１２ｅの情報を用いて認識語彙更新部１２ｆと同様の動作を行うことにより、優先度変更後の認識語彙から優先度が「中」である認識語彙を選択する。ＳＷ制限参照更新部１２ｍは、以上のような優先度の変更を適宜行うことにより、表示可能数以下の認識語彙を選択する。

　＜動作＞
　図１９は、本実施の形態５に係る音声認識装置１の動作を示すフローチャートである。ステップＳ３１～Ｓ３３まで、図６のステップＳ１～Ｓ３と同様の動作が行われる。

　ステップＳ３４にて、認識語彙更新部１２ｆは、判定情報データベース１２ｅを参照しつつ、優先度算出部１２ｄからの優先度に基づいて、複数の表示語彙から認識語彙を選択する。そして、認識語彙更新部１２ｆは、選択された認識語彙と、当該認識語彙の優先度とをＳＷ制限参照更新部１２ｍに出力する。また、認識語彙更新部１２ｆは、選択された認識語彙以外の表示語彙を表示語彙データベース１２ａから削除する。

　ステップＳ３５にて、ＳＷ制限参照更新部１２ｍは、ＳＷ情報データベース１２ｋを参照しつつ、認識語彙更新部１２ｆからの認識語彙及び優先度に基づいて、表示可能数以下の認識語彙を選択し、選択された認識語彙を図示しない表示装置などに出力する。この際、ＳＷ制限参照更新部１２ｍは、認識語彙更新部１２ｆが行う削除と同様の削除を行うことによって、出力されなかった表示語彙を表示語彙データベース１２ａから削除してもよい。その後、図１９の動作が終了する。

　＜実施の形態５のまとめ＞
　以上のような本実施の形態５に係る音声認識装置１によれば、音声認識装置１を用いるシステムにおけるソフトウェアの要件と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択する。このような構成によれば、上記ソフトウェアの要件を自動的に満たすことが可能な音声認識装置１を実現することができる。

　＜実施の形態６＞
　図２０は、本発明の実施の形態６に係る音声認識装置１の構成を示すブロック図である。以下、本実施の形態６で説明する構成要素のうち、実施の形態２と同じまたは類似する構成要素については同じ参照符号を付し、異なる構成要素について主に説明する。

　図２０の認識語彙選択部１２は、実施の形態２に係る認識語彙選択部１２のブロック構成（図２）に加えて、ＨＷ（ハードウェア）情報データベース１２ｎと、ＨＷ制限参照更新部１２ｏとを備える。このように構成された認識語彙選択部１２は、音声認識装置１を用いるシステムにおけるハードウェアの要件と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択するように構成されている。以下、このことについて詳細に説明する。

　図２１は、ＨＷ情報データベース１２ｎに記憶された情報の一例を示す図である。図２１に示すように、ＨＷ情報データベース１２ｎには、音声認識装置１を用いるシステムにおけるハードウェアの要件として、当該システムの図示しないメモリが将来記憶可能な表示語彙の数が記憶されている。なお、図２１に示される情報は、ユーザなどによって予め設定されてもよいし、音声認識装置１などによって上記ハードウェアの要件に基づき自動的に変更されてもよい。

　図２０のＨＷ制限参照更新部１２ｏには、認識語彙更新部１２ｆから認識語彙と、当該認識語彙の優先度とが入力される。ＨＷ制限参照更新部１２ｏは、認識語彙更新部１２ｆから入力された認識語彙の数が、ＨＷ情報データベース１２ｎに記憶された記憶可能数以下である場合には、そのまま出力する。

　一方、ＨＷ制限参照更新部１２ｏは、認識語彙更新部１２ｆから入力された認識語彙の数が、ＨＷ情報データベース１２ｎに記憶された記憶可能数を超える場合には、認識語彙のそれぞれの優先度を１つ低くする。この結果、ＨＷ制限参照更新部１２ｏは、いくつかの認識語彙の優先度を「低」にすることができる。ＨＷ制限参照更新部１２ｏは、優先度を変更した後に、判定情報データベース１２ｅの情報を用いて認識語彙更新部１２ｆと同様の動作を行うことにより、優先度変更後の認識語彙から優先度が「中」である認識語彙を選択する。ＨＷ制限参照更新部１２ｏは、以上のような優先度の変更を適宜行うことにより、記憶可能数以下の認識語彙を選択する。

　＜動作＞
　図２２は、本実施の形態６に係る音声認識装置１の動作を示すフローチャートである。ステップＳ４１～Ｓ４３まで、図６のステップＳ１～Ｓ３と同様の動作が行われる。

　ステップＳ４４にて、認識語彙更新部１２ｆは、判定情報データベース１２ｅを参照しつつ、優先度算出部１２ｄからの優先度に基づいて、複数の表示語彙から認識語彙を選択する。そして、認識語彙更新部１２ｆは、選択された認識語彙と、当該認識語彙の優先度とをＨＷ制限参照更新部１２ｏに出力する。また、認識語彙更新部１２ｆは、選択された認識語彙以外の表示語彙を表示語彙データベース１２ａから削除する。

　ステップＳ４５にて、ＨＷ制限参照更新部１２ｏは、ＨＷ情報データベース１２ｎを参照しつつ、認識語彙更新部１２ｆからの認識語彙及び優先度に基づいて、記憶可能数以下の認識語彙を選択し、選択された認識語彙を図示しない表示装置などに出力する。この際、ＨＷ制限参照更新部１２ｏは、認識語彙更新部１２ｆが行う削除と同様の削除を行うことによって、出力されなかった表示語彙を表示語彙データベース１２ａから削除してもよい。その後、図２２の動作が終了する。

　＜実施の形態６のまとめ＞
　以上のような本実施の形態６に係る音声認識装置１によれば、音声認識装置１を用いるシステムにおけるハードウェアの要件と、複数の表示語彙の優先度とに基づいて、複数の表示語彙から１以上の認識語彙を選択する。このような構成によれば、上記ハードウェアの要件を自動的に満たすことが可能な音声認識装置１を実現することができる。

　＜その他の変形例＞
　上述した音声認識装置１における音声認識部１１及び認識語彙選択部１２を、以下「音声認識部１１等」と記す。音声認識部１１等は、図２３に示す処理回路８１により実現される。すなわち、処理回路８１は、入力された音声の認識を行う音声認識部１１と、音声認識部１１の認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが本体語彙を含み、本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する認識語彙選択部１２と、を備える。処理回路８１には、専用のハードウェアが適用されてもよいし、メモリに格納されるプログラムを実行するプロセッサが適用されてもよい。プロセッサには、例えば、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、ＤＳＰ（Digital Signal Processor）などが該当する。

　処理回路８１が専用のハードウェアである場合、処理回路８１は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、またはこれらを組み合わせたものが該当する。音声認識部１１等の各部の機能それぞれは、処理回路を分散させた回路で実現されてもよいし、各部の機能をまとめて一つの処理回路で実現されてもよい。

　処理回路８１がプロセッサである場合、音声認識部１１等の機能は、ソフトウェア等との組み合わせにより実現される。なお、ソフトウェア等には、例えば、ソフトウェア、ファームウェア、または、ソフトウェア及びファームウェアが該当する。ソフトウェア等はプログラムとして記述され、メモリに格納される。図２４に示すように、処理回路８１に適用されるプロセッサ８２は、メモリ８３に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置１は、処理回路８１により実行されるときに、入力された音声を認識するステップと、認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが本体語彙を含み、本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各候補語彙について優先度を取得し、取得した優先度に基づいて、複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択するステップと、が結果的に実行されることになるプログラムを格納するためのメモリ８３を備える。換言すれば、このプログラムは、音声認識部１１等の手順や方法をコンピュータに実行させるものであるともいえる。ここで、メモリ８３には、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリー、ＥＰＲＯＭ（Erasable Programmable Read Only Memory）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）などの、不揮発性または揮発性の半導体メモリ、ＨＤＤ（Hard Disk Drive）、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ（Digital Versatile Disc）及びそのドライブ装置等、あらゆる記憶媒体が該当する。

　以上、音声認識部１１等の各機能が、ハードウェア及びソフトウェア等のいずれか一方で実現される構成について説明した。しかしこれに限ったものではなく、音声認識部１１等の一部を専用のハードウェアで実現し、別の一部をソフトウェア等で実現する構成であってもよい。例えば、音声認識部１１については専用のハードウェアとしての処理回路でその機能を実現し、それ以外についてはプロセッサ８２としての処理回路８１がメモリ８３に格納されたプログラムを読み出して実行することによってその機能を実現することが可能である。

　以上のように、処理回路８１は、ハードウェア、ソフトウェア等、またはこれらの組み合わせによって、上述の各機能を実現することができる。

　また、以上で説明した音声認識装置は、ＰＮＤ（Portable Navigation Device）などのナビゲーション装置と、携帯電話、スマートフォン及びタブレットなどの携帯端末を含む通信端末と、これらにインストールされるアプリケーションの機能と、サーバとを適宜に組み合わせてシステムとして構築される音声認識システムにも適用することができる。この場合、以上で説明した音声認識装置の各機能あるいは各構成要素は、前記システムを構築する各機器に分散して配置されてもよいし、いずれかの機器に集中して配置されてもよい。

　図２５は、本変形例に係るサーバ５１の構成を示すブロック図である。図２５のサーバ５１は、通信部５１ａと、音声認識部５１ｂと、認識語彙選択部５１ｃとを備えており、車両５２のナビゲーション装置５３と無線通信を行うことが可能となっている。

　通信部５１ａは、ナビゲーション装置５３と無線通信を行うことにより、ナビゲーション装置５３で取得された音声データを受信する。

　音声認識部５１ｂ及び認識語彙選択部５１ｃは、サーバ５１の図示しないプロセッサなどが、サーバ５１の図示しない記憶装置に記憶されたプログラムを実行することにより、図１の音声認識部１１及び認識語彙選択部１２と同様の機能を有している。つまり、音声認識部５１ｂは、通信部５１ａの音声データを認識する。認識語彙選択部５１ｃは、音声認識部５１ｂの認識結果に基づいて、複数の表示語彙、及び、複数の表示語彙の優先度を取得し、複数の表示語彙の優先度に基づいて認識語彙を選択する。そして、通信部５１ａは、認識語彙選択部５１ｃで選択された認識語彙をナビゲーション装置５３に送信する。

　このように構成されたサーバ５１によれば、例えば、ナビゲーション装置５３が、表示機能と、サーバ５１との通信機能としか有さなくても、実施の形態１で説明した音声認識装置１と同様の効果を得ることができる。

　図２６は、本変形例に係る通信端末５６の構成を示すブロック図である。図２６の通信端末５６は、通信部５１ａ、音声認識部５１ｂ及び認識語彙選択部５１ｃと同様の通信部５６ａ、音声認識部５６ｂ及び認識語彙選択部５６ｃを備えており、車両５７のナビゲーション装置５８と無線通信を行うことが可能となっている。なお、通信端末５６には、例えば車両５７の運転者が携帯する携帯電話機、スマートフォン、及びタブレットなどの携帯端末が適用される。このように構成された通信端末５６によれば、例えば、ナビゲーション装置５８が、表示機能と、通信端末５６との通信機能としか有さなくても、実施の形態１で説明した音声認識装置１と同様の効果を得ることができる。

　なお、本発明は、その発明の範囲内において、各実施の形態及び各変形例を自由に組み合わせたり、各実施の形態及び各変形例を適宜、変形、省略したりすることが可能である。

　本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、本発明がそれに限定されるものではない。例示されていない無数の変形例が、本発明の範囲から外れることなく想定され得るものと解される。

　１　音声認識装置、１１　音声認識部、１２　認識語彙選択部。

Claims

　入力された音声の認識を行う音声認識部と、
　前記音声認識部の前記認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが前記本体語彙を含み、前記本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各前記候補語彙について優先度を取得し、前記取得した優先度に基づいて、前記複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する認識語彙選択部と
を備える、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記複数の候補語彙は、
　前記本体語彙そのもの、及び、前記本体語彙と組み合わさり当該本体語彙を詳細にする付属語彙と当該本体語彙とを組み合わせた語彙を含む、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記認識語彙選択部は、
　前記１以上の認識語彙を選択した場合に、当該１以上の認識語彙以外の前記複数の候補語彙を、次の選択以降のいずれかの選択において除外可能である、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記認識語彙選択部は、
　前記認識結果と各前記候補語彙とに基づいて、各前記候補語彙が前記認識結果と一致する度合である一致度を、前記各候補語彙の前記優先度として取得する、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記音声認識装置は車両にて用いられ、
　前記認識語彙選択部は、
　前記車両の情報と、前記複数の候補語彙の前記優先度とに基づいて、前記１以上の認識語彙を選択する、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記認識語彙選択部は、
　前記複数の候補語彙に予め規定された階層と、前記複数の候補語彙の前記優先度とに基づいて、前記１以上の認識語彙を選択する、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記認識語彙選択部は、
　前記音声認識装置を用いるシステムにおけるソフトウェアの要件と、前記複数の候補語彙の前記優先度とに基づいて、前記１以上の認識語彙を選択する、音声認識装置。
　請求項１に記載の音声認識装置であって、
　前記音声認識装置を用いるシステムにおけるハードウェアの要件と、前記複数の候補語彙の前記優先度とに基づいて、前記１以上の認識語彙を選択する、音声認識装置。
　入力された音声を認識し、
　前記認識によって、予め定められた語彙である本体語彙を含む認識結果が得られた場合に、それぞれが前記本体語彙を含み、前記本体語彙と予め対応付けられた複数の候補語彙を取得し、かつ各前記候補語彙について優先度を取得し、前記取得した優先度に基づいて、前記複数の候補語彙から１以上の候補語彙を１以上の認識語彙として選択する、音声認識方法。