JP2019039965A

JP2019039965A - 音声認識システム

Info

Publication number: JP2019039965A
Application number: JP2017159823A
Authority: JP
Inventors: 信範工藤; Akinori Kudo; 諒助川; Ryo Sukegawa
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2017-08-22
Filing date: 2017-08-22
Publication date: 2019-03-14
Anticipated expiration: 2037-08-22
Also published as: JP6824554B2

Abstract

【課題】類似している認識候補を適正に認識する「音声認識システム」を提供する。【解決手段】第１音声認識エンジン４１は第１音声認識辞書４２の登録ワードのうち、入力音声に所定レベルより良好に整合するワードのヒットを検出する、第２音声認識エンジン４３は第２音声認識辞書４４の登録認識候補のうち、入力音声に所定レベルより良好に整合する認識候補のヒットを検出する。第２音声認識辞書４４には、第１音声認識辞書４２に登録された相互に類似する各ワードの他のワードと類似していな部分を認識候補として登録する。認識調整部４５は、第１音声認識辞書４２に登録された各ワードについて、当該ワードについて検出されたヒットの数と、当該ワードの部分である第２音声認識辞書４４に登録された認識候補について検出されたヒットの数との総和を算定し、算定した総和が最多のワードを認識結果として算定する。【選択図】図２

Description

本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。

ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオ装置を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第１の音声認識部に加え、オーディオ装置がスピーカに出力する音声の音声認識を行う第２の音声認識部を設け、第１の音声認識部が音声認識した結果と、第２の音声認識部が音声認識した結果とが一致した場合に、第１の音声認識部が音声認識した結果を無効化する技術が知られている（たとえば、特許文献１）。

このような技術によれば、マイクロフォンに回りこんだオーディオ装置の出力音声に対しても行われてしまう第１の音声認識部の音声認識の結果を、ユーザの発話音声の音声認識の結果として誤認してしまうことを抑止することができる。

また、ユーザの発話音声を認識する音声認識の技術としては、コマンドの音声認識を行うシステムにおいて、音声認識の候補となるコマンドのセットを前回音声認識したコマンドに応じて変化させながら、第１の音声認識手段で、音声認識の候補となるコマンドのセット中のコマンドの音声認識を行いつつ、第２の音声認識手段で、前回音声認識の候補であったコマンドのセット中のコマンドの音声認識を行うことにより、今回音声認識の候補となっているコマンドのセットのコマンドの音声認識に加え、ユーザが言い直した前回音声認識の候補であったコマンドのセット中のコマンドの音声認識も行う技術も知られている（たとえば、特許文献２）。

実登２６０２３４２号公報国際公開第２０１１/０１６１２９号

さて、各々語句や文などのワードである複数の認識候補について音声認識を行う場合、発音が類似している認識候補については誤認識が生じ易い。
そこで、本発明は、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行えるようにすることを課題とする。

前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第１認識候補が複数登録された第１音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、入力した音声に所定レベルより良好に整合する第１認識候補を対象候補として検出する第１音声認識手段と、第２音声認識手段と、
第２音声認識手段によって用いられる第２音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第２認識候補として登録されており、前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と当該ワードの抜粋部分である第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。

このような音声認識システムによれば、第１音声認識辞書と第２音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より強力に識別する形態で、第１音声認識辞書に登録されたワードの音声認識を行うことができる。

また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第１認識候補が複数、各第１認識候補に各々対応する複数の第１しきい値と共に登録された第１音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、対応する第１しきい値が示すレベルより良好に入力した音声に整合する第１認識候補を対象候補として検出する第１音声認識手段と、第２音声認識手段と、第２音声認識手段によって用いられる第２音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードが各々第２認識候補として、当該各第２認識候補に各々対応する複数の第２しきい値と共に登録されており、前記第１の認識モードにおいて、前記第２音声認識辞書に登録された各第２認識候補に対応する第２しきい値は、当該第２認識候補として登録されたワードと同じワードである第１認識候補に対応する第１しきい値より良好な整合のレベルを示しており、前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、対応する第２しきい値が示すレベルより良好に入力した音声に整合する第２認識候補を対象候補として検出し、前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。

このような音声認識システムによれば、第１音声認識辞書と第２音声認識辞書を用いた異なるしきい値による評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第１音声認識辞書に登録されたワードの音声認識を行うことができる。

また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第１認識候補が複数、各第１認識候補に各々対応する複数の第１しきい値と共に登録された第１音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、対応する第１しきい値が示すレベルより良好に入力した音声に整合する第１認識候補を対象候補として検出する第１音声認識手段と、第２音声認識手段と、前記第２音声認識手段によって用いられる第２音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、前記第１の認識モードにおいて第２音声認識手段によって用いられる第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分と、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードとが各々第２認識候補として、当該各第２認識候補に各々対応する複数の第２しきい値と共に登録されており、前記第１の認識モードにおいて、前記第２音声認識辞書に登録された、前記第１認識候補として登録されているワードと同じワードである第２認識候補に対応する第２しきい値は、当該第２認識候補として登録されたワードと同じワードである第１認識候補に対応する第１しきい値より良好な整合のレベルを示しており、前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、対応する第２しきい値が示すレベルより良好に入力した音声に整合する第２認識候補を対象候補として検出し、前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と当該ワードである第２認識候補と当該ワードの抜粋部分である第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。

ここで、このような音声認識システムは、前記第１の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在する場合には、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードをユーザの発話したワードとして認識するように構成してもよい。

また、この場合には、音声認識システムを、前記第１の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在し、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードが複数存在する場合には、前記算定した数が最大のワードであって、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードのうちの、前記対象候補として検出された当該ワードである第１認識候補に対応する第１しきい値と、前記対象候補として検出された当該ワードである第２認識候補に対応する第２しきい値と、前記対象候補として検出された当該ワードの抜粋部分である第２認識候補に対応する第２しきい値との最小値が、最小であるワードをユーザの発話したワードとして認識するように構成してもよい。

このような音声認識システムによれば、第１音声認識辞書と第２音声認識辞書を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第１音声認識辞書に登録されたワードの音声認識を行うことができる。

また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第１認識候補が複数登録された第１音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、入力した音声に所定レベルより良好に整合する第１認識候補を対象候補として検出する第１音声認識手段と、第２音声認識手段と、第２音声認識手段によって用いられる第２音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第２認識候補として登録されており、前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識手段によって前記対象候補として検出された第１認識候補であるワードが複数存在する場合には、当該複数のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記第２音声認識手段によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。

このような音声認識システムによれば、第１音声認識辞書と第２音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第１音声認識辞書に登録されたワードの音声認識を行うことができる。

また、以上の音声認識システムは、前記マイクロフォンを、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間中に配置し、当該音声認識システムに前記第１の認識モードと第２の認識モードを含む複数の認識モードを設け、前記第２の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書を、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードが各々第２認識候補として登録されているものとし、前記第２の認識モードにおいて、前記第２音声認識手段において、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、前記第２の認識モードにおいて、前記認識手段において、前記第２音声認識手段によって第２認識候補が前記対象候補として検出された後の所定期間中は、当該対象候補として検出された第２認識候補と同じワードである第１認識候補が前記第１音声認識手段によって前記対象候補として検出されても、当該対象候補として検出された第１認識候補であるワードをーザの発話したワードとして認識することを抑止しつつ、前記第１音声認識手段によって前記対象候補として検出された第１認識候補であるワードをユーザの発話したワードとして認識するように構成してもよい。

このような音声認識システムは、当該音声認識システムに、前記第１音声認識辞書と第２音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第１音声認識辞書と第２音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第１音声認識辞書と第２音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第１音声認識辞書と第２音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として１回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第２の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードを、前記第１の認識モードと前記第２の認識モードの間で、前記前回音声入力として受け付けたワードに応じて定まる音声認識データに応じて切り替えるように構成してもよい。

または、このような音声認識システムは、当該音声認識システムに、前記第１音声認識辞書と第２音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第１音声認識辞書と第２音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第１音声認識辞書と第２音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第１音声認識辞書と第２音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として１回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、当該音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第２の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードとして前記第１の認識モードを設定するように構成してもよい。

また、以上の音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってもよい。

以上のように、本発明によれば、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行うことができる。

本発明の実施形態に係る情報処理システムの構成を示すブロック図である。本発明の実施形態に係る認識データを示す図である。本発明の実施形態に係る音声入力設定処理を示すフローチャートである。本発明の実施形態に係る音声認識エンジンの音声認識の手法を示す図である本発明の実施形態に係るオーディオキャンセルモード認識処理を示すフローチャートである。本発明の実施形態に係る類似ワード強識別モード認識処理を示すフローチャートである。本発明の実施形態に係る表示画面と音声認識辞書の遷移例を示す図である。

以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図１に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部１、辞書ＤＢ２、マイクロフォン３、音声入力部４、スピーカ５、オーディオソース６、表示装置７、ＧＰＳ受信器等のその他の周辺装置８を備えている。

ここで、オーディオソース６は、データ処理部１の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声をスピーカ５と、音声入力部４に出力する。また、スピーカ５は、オーディオソース６から入力した音声を車内に放射する。

また、音声入力部４は、マイクロフォン３から入力するユーザの発話音声を音声認識し認識結果をデータ処理部１に出力する
そして、データ処理部１は、音声入力部４をコマンド等の音声入力に、表示装置７を画面の表示に用いながら、各種処理を行う。
また、音声入力部４は、第１音声認識エンジン４１、第１音声認識辞書４２、第２音声認識エンジン４３、第２音声認識辞書４４、認識調整部４５を備えている。

ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部１や音声入力部４は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
次に、辞書ＤＢ２には、図２に示すように、第１階層認識データから第３階層認識データまでの複数階層の認識データが格納されている。

そして、各階層の認識データには、オーディオキャンセルモードと類似ワード強識別モードのいずれかが認識モードとして登録される。また、各階層の認識データには、主音声認識辞書と副音声認識辞書が登録される。
主音声認識辞書は、音声認識用の辞書であり、複数のワードのそれぞれについて、番号（No.）と、ワードと、しきい値Thが登録されている。
さて、第１階層認識データの認識モードは、オーディオキャンセルモードに設定されており、第１階層認識データの主音声認識辞書は、初期状態において音声入力部４における音声認識の認識候補とする複数のワードとその番号（No.）としきい値Thが登録されている。

そして、第２階層認識データは、第１階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができ、第３階層認識データは、各第２階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができる。すなわち辞書ＤＢ２は、各階層の認識データをノードとするツリー構造を備えている。

また、第２階層認識データの主音声認識辞書は、当該第２階層認識データに対応する第１階層認識データの主音声認識辞書のワードが、音声入力部４における音声認識によって認識結果として算定されたときに、次に、音声入力部４における音声認識の認識候補とする複数のワードとその番号（No.）としきい値Thが登録されている。

また、第３階層認識データの主音声認識辞書は、当該第３階層認識データに対応する第２階層認識データの主音声認識辞書のワードが、音声入力部４における音声認識によって認識結果として算定されたときに、次に、音声入力部４における音声認識の認識候補とする複数のワードとその番号（No.）としきい値Thが登録されている。

次に、第２階層認識データの各々と第３階層認識データの各々の認識モードを、オーディオキャンセルモードとするか類似ワード強識別モードとするかは、その認識データの主音声認識辞書に発音が類似する類似ワードが含まれているかどうかによって定められており、その認識データの主音声認識辞書に発音が相互に類似する複数のワードが含まれている場合に、認識モードを類似ワード強識別モードに設定し、他の場合に認識モードをオーディオキャンセルモードに設定する。

そして、認識モードをオーディオキャンセルモードに設定した各階層の認識データの副音声認識辞書としては、その認識データの主音声認識辞書の各ワードのしきい値Thを所定値増加させたものを登録する。すなわち、認識モードをオーディオキャンセルモードに設定した認識データの主音声認識辞書と副音声認識辞書とは、副音声認識辞書の各ワードのしきい値Thが、主音声認識辞書のものより所定値大きい点のみが異なる。

また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードと同じワードや、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分をワードとして登録する。

すなわち、たとえば、図２の第３階層認識データに示すように、主音声認識辞書に登録されている「ひとつめにいく」、「ふたつめにいく」、「みっつめにいく」、「よっつめにいく」、「いつつめにいく」との相互に発音が類似する５つのワードについては、これらの５つのワードと、各ワードの他のワードと異なる部分「ひと」、「ふた」、「みっ」、「よっ」、「いつ」をワードとして副音声認識辞書に登録する。また、同様に、主音声認識辞書に登録されている「つぎのぺーじ、「まえのぺーじ」との相互に発音が類似する２つのワードについては、これらの２つのワードの他のワードと異なる部分「つぎ」、「まえ」を副音声認識辞書に登録する。

また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、各ワードの番号（No.）としきい値Thに加え、参照番号（ref）と部分フラグ（P）を登録する。ここで、副音声認識辞書の各ワードのしきい値Thは、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードのしきい値Thより小さい値を設定する。また、副音声認識辞書の各ワードの参照番号（ref）には、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードの番号（No.）を設定する。また、副音声認識辞書の各ワードの部分フラグ（P）には、そのワードが主音声認識辞書のワードの一部である場合に、その旨を示す値（Y)を設定する。

以上、辞書ＤＢ２について説明した。
なお、以上では、辞書ＤＢ２に登録する認識データとして、第１階層認識データから第３階層認識データまでの３階層の認識データを設ける場合について示したが、辞書ＤＢ２に登録する認識データは、２以上の任意の数の階層の認識データとしてよい。

さて、データ処理部１は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理（たとえば、カーナビゲーション機能により表示装置７にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース６から音楽を出力する情報処理等）の実行を開始する。
また、データ処理部１は、音声入力の受け付けに関して以下の処理を行う。
すなわち、データ処理部１は、起動したならば、音声入力設定処理を開始し、第１階層認識データを現用認識データに設定し、音声入力部４からの認識結果の入力を待つ待受状態となる。そして、待受状態において、音声入力部４から認識結果が出力されたならば、認識結果の入力を受け付けてシーケンス実行状態に遷移し、シーケンス実行状態において、入力を受け付けた認識結果のワードに応じた処理と、現用認識データの入力を受け付けた認識結果のワードに対応する、現用認識データの一つ下の階層の認識データを現用認識データに設定することによる現用認識データの切り替えとを行いながら、音声入力部４から認識結果の入力を所定回数受け付けるシーケンスを実行する。そして、当該シーケンスが終了したならば、第１階層認識データを現用認識データに設定し、待受状態に復帰する。

また、データ処理部１は、上述した音声入力設定処理を次のように行う。
図３に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部１は、上述のように行われる現用認識データの設定の発生を監視する（ステップ３０２）。
そして、現用認識データの設定が発生したならば（ステップ３０２）、現用認識データの認識モードがオーディオキャンセルモードであるかどうかを調べる（ステップ３０４）。

そして、認識モードがオーディオキャンセルモードであれば（ステップ３０４）、オーディオキャンセルモードを認識調整部４５に設定し（ステップ３０６）、現用認識データの主音声認識辞書を第１音声認識辞書４２に設定し、現用認識データの副音声認識辞書を第２音声認識辞書４４に設定する（ステップ３０８）。

そして、音声認識開始を認識調整部４５に指示し（ステップ３１０）、ステップ３０２の監視に戻る。
一方、現用認識データの認識モードが、オーディオキャンセルモードでなく、類似ワード強識別モードである場合には（ステップ３０４）、類似ワード強識別モードを認識調整部４５に設定し（ステップ３１２）、現用認識データの主音声認識辞書を第１音声認識辞書４２に設定し、現用認識データの副音声認識辞書を第２音声認識辞書４４に設定する（ステップ３０８）。

そして、音声認識開始を認識調整部４５に指示し（ステップ３１０）、ステップ３０２の監視に戻る。
以上、データ処理部１が行う音声入力設定処理について説明した。
次に、第１音声認識エンジン４１と第２音声認識エンジン４３において行う音声認識の動作について説明する。
第１音声認識エンジン４１と第２音声認識エンジン４３は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。

すなわち、第１音声認識エンジン４１は、認識対象音声の入力と並行して、認識対象音声に対する第１音声認識辞書４２に格納されたワードのスコアを算定し、第２音声認識エンジン４３は、認識対象音声の入力と並行して、認識対象音声に対する第２音声認識辞書４４に格納された各ワードのスコアを算定する。

なお、第１音声認識エンジン４１の認識対象音声はマイクロフォン３から入力する音声である。一方、第２音声認識エンジン４３については、マイクロフォン３から入力する音声とオーディオソース６から入力する音声の一方を、選択的に、第１音声認識エンジン４１の認識対象音声とすることができる。

ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。

より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間（たとえば、音素毎の音声区間）の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合しているワードについてはスコアを所定値減少し、整合していないワードについてはスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のワードのスコアの増加値／減少値は、たとえば、当該音声区間の時間長のワードの全音声区間の時間長に対する比率を、スコアの初期値に乗じた大きさとする。

このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図４ａに、ワード「あいうあい」に対して算出されるスコアの推移を図４ｂに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。

すなわち、たとえば、図４ａに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。

また、同様に、図４ｂに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。

さて、第１音声認識エンジン４１と第２音声認識エンジン４３は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、音声認識辞書に登録されている、そのワードのしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号（No.)をヒットデータとして認識調整部４５に通知する。

すなわち、たとえば、図４ａに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。

一方、図４ｂに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部４の認識調整部４５の動作について説明する。
認識調整部４５は、データ処理部１から図３に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、類似ワード強識別モードが設定されているときには、類似ワード強識別モード認識処理を実行する。

まず、オーディオキャンセルモードが設定されているときに認識調整部４５が行うオーディオキャンセルモード認識処理について説明する。
図５に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、まず、第２音声認識エンジン４３の認識対象音声をオーディオソース６から入力する音声に設定する（ステップ５０２）。

そして、第１音声認識エンジン４１からのヒットデータの通知の発生（ステップ５０４）と、第２音声認識エンジン４３からのヒットデータの通知の発生（ステップ５０６）と、タイマのタイムアウトの発生（ステップ５０８）とを監視する。

そして、第２音声認識エンジン４３からのヒットデータの通知が発生したばらば（ステップ５０６）、マスクフラグをセットし（ステップ５１４）、第２音声認識エンジン４３から通知さらたヒットデータが示す番号（No.)を調整ワード番号に設定する（ステップ５１６）。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし（ステップ５１８）、ステップ５０４、５０６、５０８の監視に戻る。

一方、タイマのタイムアウトが発生したならば（ステップ５０８）、マスクフラグをクリアし（ステップ５１０）、調整ワード番号の設定をクリアする（ステップ５１２）。そして、ステップ５０４、５０６、５０８の監視に戻る。

また、第１音声認識エンジン４１からのヒットデータの通知が発生した場合には（ステップ５０４）、マスクフラグがセットされているかどうを調べ（ステップ５２０）、マスクフラグが設定されていなければ、第１音声認識辞書の、第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ５２４）。そして、オーディオキャンセルモード認識処理を終了する。

一方、ステップ５２０において、マスクフラグが設定されている場合には、第１音声認識エンジン４１からのヒットデータが示す番号（No.)と調整ワード番号の一致の有無を調べ（ステップ５２２）、一致している場合には、そのままステップ５０４、５０６、５０８の監視に戻る。

一方、第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードが調整ワードと一致していない場合には（ステップ５２２）、第１音声認識辞書の、第１音声認識エンジン４１からのヒットデータが示す番号（No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部１に出力する（ステップ５２４）。そして、オーディオキャンセルモード認識処理を終了する。

以上、オーディオキャンセルモードが設定されているときに認識調整部４５が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第２音声認識エンジン４３がオーディオソース６から入力する音声に対してヒットを検出したワードは、その後、一定期間、第１音声認識エンジン４１でヒットが検出されても認識結果とはしない。

また、オーディオソース６が出力した音声がマイクロフォン３に回りこんで、当該音声に対して第１音声認識エンジン４１でワードのヒットが検出されるときには、そのワードのしきい値Thは第１音声認識辞書４２よりも第２音声認識辞書４４の方が大きく設定されており、また、第２音声認識エンジン４３に入力するオーディオソース６の音声の方が音声品質が良いので、それ以前に第２音声認識エンジン４３で、そのワードのヒットが検出される。

したがって、オーディオソース６が出力した音声がマイクロフォン３に回りこんで、当該音声に対して第１音声認識エンジン４１でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部１に出力されてしまうことが抑止される。

次に、類似ワード強識別モードが設定されているときに認識調整部４５が行う類似ワード強識別モード認識処理について説明する。
図６に、この類似ワード強識別モード認識処理の手順を示す。
図示するように、類似ワード強識別モード認識処理において認識調整部４５は、まず、第２音声認識エンジン４３の認識対象音声をマイクロフォン３から入力する音声に設定する（ステップ６０２）。

そして、第１音声認識エンジン４１もしくは第２音声認識エンジン４３からのヒットデータの通知の発生を監視する（ステップ６０４）。
そして、第１音声認識エンジン４１もしくは第２音声認識エンジン４３からのヒットデータの通知が発生したならば（ステップ６０４）、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し（ステップ６０６）、所定のタイムアウト時間（たとえば、500ms)を設定したタイマをスタートする（ステップ６０８）。

また、次に、第１音声認識エンジン４１もしくは第２音声認識エンジン４３からのヒットデータの通知の発生と（ステップ６１０）と、ステップ６０８でスタートしたタイマのタイムアウトの発生（ステップ６１２）とを監視する。

そして、第１音声認識エンジン４１もしくは第２音声認識エンジン４３からのヒットデータの通知が発生したならば（ステップ６１０）、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し（ステップ６１８）、ステップ６１０、６１２に監視に戻る。

一方、タイマのタイムアウトが発生したならば（ステップ６１２）、保存されているヒットデータが番号（No.)を示すワードを解析し、認識結果とするワードを算定する（ステップ６１４）。

ここで、ステップ６１４では、以下のように、認識結果とするワードを算定する。
すなわち、まず、通知元の音声認識エンジンと対応づけて保存されている各ヒットデータについて、ヒットデータが表すワードの番号（No.)と通知元の音声認識エンジンより、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードと、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されているワードとを識別する。

そして、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードの番号（No.)の値と、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されていたワードの参照番号（ref）の値とのいずれかとして、最も多く出現する値を算定する。

そして、最も多く出現する値が一つであれば、その値を番号（No.)として持つ、第１音声認識辞書４２に登録されていたワードを認識結果とするワードとして算定する。
すなわち、たとえば、図２の第３階層認識データが現用認識データであり、第３階層認識データの主音声認識辞書が第１音声認識辞書４２に設定されており、第３階層認識データの副音声認識辞書が第２音声認識辞書４４に設定されているときに、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードが番号（No.)が１の「ひとつめにいく」と番号（No.)が５の「いつつめにいく」であり、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されていたワードが参照番号（ref）が１の「ひと」と参照番号（ref）が１の「ひとつめにいく」であれば、値１の出現回数が３、値５の出現回数が１となって、値１が最も多く出現する値となるので、１を番号（No.)として持つ、第１音声認識辞書４２に登録されているワード「ひとつめにいく」を認識結果とするワードとして算定する。

このようにすることにより、発音が類似する複数のワードを、異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えて総合的に評価することができるようになり、この結果、発音が類似する複数のワードについても良好に音声認識できるようになる。

一方、最も多く出現する値が複数あれば、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されていたワードのうちに、最も多く出現する値を参照番号（ref）の値として持ち、かつ、部分フラグ（P）に値（Y)が登録されているワード、すなわち、そのワードが第１音声認識辞書４２に登録されていたワードの部分である旨が設定されているワードである最多出現部分ワードが存在するかどうかを調べる。

そして最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号（ref）が全て等しければ、存在したワードの参照番号（ref）の値を番号（No.)として持つ、第１音声認識辞書４２に登録されているワードを認識結果とするワードとして算定する。

すなわち、たとえば、図２の第３階層認識データが現用認識データであり、第３階層認識データの主音声認識辞書が第１音声認識辞書４２に設定されており、第３階層認識データの副音声認識辞書が第２音声認識辞書４４に設定されているときに、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードが番号（No.)が１の「ひとつめにいく」と番号（No.)が２の「ふたつめにいく」と番号（No.)が５の「いつつめにいく」であり、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されているワードが参照番号（ref）が１の「ひと」と、参照番号（ref）が５の「いつつめにいく」であれば、１と５が最も多く出現する値となるが、第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されているワードであって参照番号（ref）として最も多く出現する値１または５を持つワードのうちで、部分フラグ（P）に値（Y)が登録されている第２音声認識辞書４４のワードは参照番号（ref）が１の「ひと」のみであるので、１を番号（No.)として持つ、第１音声認識辞書４２に登録されていたワード「ひとつめにいく」を認識結果とするワードとして算定する。

このようにすることにより、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価結果をより重要視して、認識結果とするワードを算定できるようになる。

一方、最多出現部分ワードが存在しない場合には、最も多く出現する値を番号（No.)として持つ第１音声認識辞書４２に登録されているワードと、最も多く出現する値を参照番号（ref）としてもつ第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されているワードのうちの、そのワードのしきい値Thが最小であるワードを算定し、算定したワードが第１音声認識辞書４２のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第２音声認識辞書４４のワードであれば、そのワードの参照番号（ref）の値を番号（No.)として持つ、第１音声認識辞書４２に登録されているワードを認識結果とするワードとして算定する。

また、最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号（ref）が全て等しいものでなければ、最多出現部分ワードの参照番号（ref）を、参照番号（ref）としてもつ第２音声認識エンジン４３でヒットが検出された第２音声認識辞書４４に登録されていたワードと、最多出現部分ワードの参照番号（ref）を番号（No.)として持つ第１音声認識エンジン４１でヒットが検出された１音声認識辞書に登録されていたワードのうちの、そのワードのしきい値Thが最小であるワード算定し、算定したワードが第１音声認識辞書４２のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第２音声認識辞書４４のワードであれば、そのワードの参照番号（ref）の値を番号（No.)として持つ、第１音声認識辞書４２に登録されているワードを認識結果とするワードとして算定する。

ただし、このステップ６１４は、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードが一つである場合には、そのワードを認識結果とするワードとして算定し、第１音声認識エンジン４１でヒットが検出された第１音声認識辞書４２に登録されているワードが複数ある場合には、当該複数のワードの各々について、そのワードの番号（No.)を参照番号（ref）として持ち部分フラグ（P）に値（Y)が登録されている第２音声認識辞書４４のワードのヒットが第２音声認識エンジン４３で検出されているかどうかを調べ、ヒットが第２音声認識エンジン４３で検出されているワードが当該複数のワードのうちに一つだけ存在する場合には、そのワードを認識結果とするワードとして算定する処理としてもよい。

そして、算定した認識結果をデータ処理部１に出力し（ステップ６１６）類似ワード強識別モード認識処理を終了する。
以上、類似ワード強識別モードが設定されているときに認識調整部４５が行う類似ワード強識別モード認識処理について説明した。
さて、ここで、以上のような情報処理装置の動作例を図７に示す。
まず、起動したデータ処理部１は、表示装置７にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース６から音楽を出力する情報処理を開始する。
また、データ処理部１は、起動したならば、音声入力設定処理を開始し、第１階層認識データを現用認識データに設定することにより、図７ａ２に示すように第１階層認識データの主音声認識データを第１音声認識辞書４２に設定し、図７ａ３に示すように第１階層認識データの副音声認識データを第２音声認識辞書４４に設定すると共に、認識調整部４５に、第１階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。

そして、この結果、音声入力部４の認識調整部４５において、オーディオキャンセルモード認識処理によって、第１音声認識辞書４２に登録されたワードの音声認識が、オーディオソース６の出力音声による誤認識を第２音声認識辞書４４を用いて抑止しながら行われる。

次に、この状態において、ユーザが第１音声認識辞書４２に登録されているワード「もくてきちせってい」を発話すると、認識調整部４５により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部４からデータ処理部１に出力される。

データ処理部１は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第１階層認識データの主音声認識辞書のワード「もくてきちせってい」に対応する第２階層認識データを、現用認識データに設定する。そして、図７ｂ１に示すように、表示装置７の表示画面を、現用認識データに設定した第２階層認識データの主音声認識データに登録されているワードのリストを含めた画面に変更する。

また、データ処理部１は、図７ｂ２に示すように現用認識データに設定した第２階層認識データの主音声認識データを第１音声認識辞書４２に設定し、図７ｂ３に示すように現用認識データに設定した第２階層認識データの副音声認識データを第２音声認識辞書４４に設定すると共に、認識調整部４５に、現用認識データに設定した第２階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。

次に、この状態において、ユーザが第１音声認識辞書４２に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部４５により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部４からデータ処理部１に出力される。

データ処理部１は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第２階層認識データの主音声認識辞書のワード「ちかくのらーめんや」に対応する第３階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部１が備えているカーナビゲーション機能により探索し、図７ｃ１に示すように、表示装置７の表示画面を、現用認識データに設定した第３階層認識データの主音声認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第３階層認識データの主音声認識データに登録されている「ひとつめにいく」から「いつつめにいく」の５つのワードに、探索した現在位置の近くの５つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。

また、データ処理部１は、図７ｃ２に示すように現用認識データに設定した第３階層認識データの主音声認識データを第１音声認識辞書４２に設定し、図７ｃ３に示すように現用認識データに設定した第３階層認識データの副音声認識データを第２音声認識辞書４４に設定し、認識調整部４５に、現用認識データに設定した第３階層認識データに認識モードとして登録されている類似ワード強識別モードを設定する。

そして、この結果、音声入力部４の認識調整部４５において、類似ワード強識別モード認識処理によって、上述のように、第１音声認識辞書４２と第２音声認識辞書４４を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より良好に識別する形態で、第１音声認識辞書４２に登録されたワードの音声認識が行われる。

そして、この状態で、ユーザが第１音声認識辞書４２に登録されているワード「ひとつめにいく」を発話すると、認識調整部４５により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部４からデータ処理部１に出力される。

データ処理部１は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて図７ｃ１の画面に表したラーメン屋を目的地に設定し、データ処理部１が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。

さて、以上のように類似ワード強識別モードを設定しているときには、オーディオソース６の出力音声による誤認識の第２音声認識辞書４４を用いた抑止は行われない。しかし、類似ワード強識別モードが設定されるのは、第１階層認識データ以外の階層の認識データが現用認識データに設定されているときであり、第１階層認識データ以外の階層の認識データが現用認識データに設定されるときは、ユーザが一連の階層的な音声入力を連続的に行っているときである。

したがって、類似ワード強識別モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第１音声認識辞書４２に設定されているワードと同じワードの音声が、オーディオソース６から出力されることは希である。

したがって、第１階層認識データ以外の階層の認識データを現用認識データに設定しているときに、オーディオソース６の出力音声による誤認識の第２音声認識辞書４４を用いた抑止を行わなくても実用上、支障が生じることはない。

なお、第１階層認識データを現用認識データに設定しているときには、第１階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定であり、この間に、第１音声認識辞書４２に設定されているワードと同じワードの音声がオーディオソース６から出力される可能性は小さくない。よって、第１階層認識データを現用認識データに設定しているときには、オーディオソース６の出力音声による誤認識の第２音声認識辞書４４を用いた抑止を行うことが重要となる。

以上、本発明の実施形態について説明した。
なお、以上の実施形態では、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句や、当該ワードの他のワードと発音が類似していない部分をワードとして登録したが、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句のみを登録したり、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分のみを登録するようにしてもよい。

また、以上の実施形態においては、第１階層認識データ以外の各階層の認識データの認識モードを、全て類似ワード強識別モードに設定するようにしてもよい。

１…データ処理部、２…辞書ＤＢ、３…マイクロフォン、４…音声入力部、５…スピーカ、６…オーディオソース、７…表示装置、８…周辺装置、４１…第１音声認識エンジン、４２…第１音声認識辞書、４３…第２音声認識エンジン、４４…第２音声認識辞書、４５…認識調整部。

Claims

ユーザの発話した音声を音声認識する音声認識システムであって、
マイクロフォンと、
ワードである第１認識候補が複数登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、入力した音声に所定レベルより良好に整合する第１認識候補を対象候補として検出する第１音声認識手段と、
第２音声認識手段と、
第２音声認識手段によって用いられる第２音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、
前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第２認識候補として登録されており、
前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、
前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と当該ワードの抜粋部分である第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。
ユーザの発話した音声を音声認識する音声認識システムであって、
マイクロフォンと、
ワードである第１認識候補が複数、各第１認識候補に各々対応する複数の第１しきい値と共に登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、対応する第１しきい値が示すレベルより良好に入力した音声に整合する第１認識候補を対象候補として検出する第１音声認識手段と、
第２音声認識手段と、
第２音声認識手段によって用いられる第２音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、
前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードが各々第２認識候補として、当該各第２認識候補に各々対応する複数の第２しきい値と共に登録されており、
前記第１の認識モードにおいて、前記第２音声認識辞書に登録された各第２認識候補に対応する第２しきい値は、当該第２認識候補として登録されたワードと同じワードである第１認識候補に対応する第１しきい値より良好な整合のレベルを示しており、
前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、対応する第２しきい値が示すレベルより良好に入力した音声に整合する第２認識候補を対象候補として検出し、
前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。
ユーザの発話した音声を音声認識する音声認識システムであって、
マイクロフォンと、
ワードである第１認識候補が複数、各第１認識候補に各々対応する複数の第１しきい値と共に登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、対応する第１しきい値が示すレベルより良好に入力した音声に整合する第１認識候補を対象候補として検出する第１音声認識手段と、
第２音声認識手段と、
前記第２音声認識手段によって用いられる第２音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、
前記第１の認識モードにおいて第２音声認識手段によって用いられる第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分と、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードとが各々第２認識候補として、当該各第２認識候補に各々対応する複数の第２しきい値と共に登録されており、
前記第１の認識モードにおいて、前記第２音声認識辞書に登録された、前記第１認識候補として登録されているワードと同じワードである第２認識候補に対応する第２しきい値は、当該第２認識候補として登録されたワードと同じワードである第１認識候補に対応する第１しきい値より良好な整合のレベルを示しており、
前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、対応する第２しきい値が示すレベルより良好に入力した音声に整合する第２認識候補を対象候補として検出し、
前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識辞書に第１認識候補として登録されている各ワードについて、前記第１音声認識手段と前記第２音声認識手段とによって前記対象候補として検出された、当該ワードである第１認識候補と当該ワードである第２認識候補と当該ワードの抜粋部分である第２認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。
請求項３記載の音声認識システムであって、
前記第１の認識モードにおいて、前記認識手段は、前記算定した数が最大のワードが複数存在する場合には、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。
請求項４記載の音声認識システムであって、
前記第１の認識モードにおいて、前記認識手段は、前記算定した数が最大のワードが複数存在し、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードが複数存在する場合には、前記算定した数が最大のワードであって、当該ワードの抜粋部分である第２認識候補が前記対象候補として検出されたワードのうちの、前記対象候補として検出された当該ワードである第１認識候補に対応する第１しきい値と、前記対象候補として検出された当該ワードである第２認識候補に対応する第２しきい値と、前記対象候補として検出された当該ワードの抜粋部分である第２認識候補に対応する第２しきい値との最小値が、最小であるワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。
ユーザの発話した音声を音声認識する音声認識システムであって、
マイクロフォンと、
ワードである第１認識候補が複数登録された第１音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第１音声認識辞書に登録された複数の第１認識候補のうちから、入力した音声に所定レベルより良好に整合する第１認識候補を対象候補として検出する第１音声認識手段と、
第２音声認識手段と、
第２音声認識手段によって用いられる第２音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第１の認識モードを含む単一または複数の認識モードを有し、
前記第１の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第２認識候補として登録されており、
前記第１の認識モードにおいて、前記第２音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、
前記第１の認識モードにおいて、前記認識手段は、前記第１音声認識手段によって前記対象候補として検出された第１認識候補であるワードが複数存在する場合には、当該複数のワードのうちの、当該ワードの抜粋部分である第２認識候補が前記第２音声認識手段によって前記対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。
請求項１、２、３、４、５または６記載の音声認識システムであって、
前記マイクロフォンは、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間中に配置されており、
当該音声認識モードは前記第１の認識モードと第２の認識モードを含む複数の認識モードを有し、
前記第２の認識モードにおいて第２音声認識手段によって用いられる前記第２音声認識辞書には、前記第１音声認識辞書に第１認識候補として登録されている複数のワードと同じワードが各々第２認識候補として登録されており、
前記第２の認識モードにおいて、前記第２音声認識手段は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第２音声認識辞書に登録された複数の第２認識候補のうちから、入力した音声に所定レベルより良好に整合する第２認識候補を対象候補として検出し、
前記第２の認識モードにおいて、前記認識手段は、前記第２音声認識手段によって第２認識候補が前記対象候補として検出された後の所定期間中は、当該対象候補として検出された第２認識候補と同じワードである第１認識候補が前記第１音声認識手段によって前記対象候補として検出されても、当該対象候補として検出された第１認識候補であるワードをーザの発話したワードとして認識することを抑止しつつ、前記第１音声認識手段によって前記対象候補として検出された第１認識候補であるワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。
請求項７記載の音声認識システムであって、
前記第１音声認識辞書と第２音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、
ユーザの音声入力を受け付ける音声入力受付手段と、
前記認識モードを制御する認識モード制御手段とを有し、
当該音声入力受付手段は、予め定めた音声認識データが表す前記第１音声認識辞書と第２音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第１音声認識辞書と第２音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第１音声認識辞書と第２音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として１回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを有すると共に、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、
前記認識モード制御手段は、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第２の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードを、前記第１の認識モードと前記第２の認識モードの間で、前記前回音声入力として受け付けたワードに応じて定まる音声認識データに応じて切り替えることを特徴とする音声認識システム。
請求項７記載の音声認識システムであって、
前記第１音声認識辞書と第２音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、
ユーザの音声入力を受け付ける音声入力受付手段と、
前記認識モードを制御する認識モード制御手段とを有し、
当該音声入力受付手段は、予め定めた音声認識データが表す前記第１音声認識辞書と第２音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第１音声認識辞書と第２音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第１音声認識辞書と第２音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として１回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを有すると共に、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、
前記認識モード制御手段は、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第２の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードとして前記第１の認識モードを設定することを特徴とする音声認識システム。
請求項１、２、３、４、５、６、７、８または９記載の音声認識システムであって、
当該音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。