JP2006039382A

JP2006039382A - 音声認識装置

Info

Publication number: JP2006039382A
Application number: JP2004221817A
Authority: JP
Inventors: Takeshi Ono; 健大野; Minoru Togashi; 実冨樫
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2004-07-29
Filing date: 2004-07-29
Publication date: 2006-02-09

Abstract

【課題】信頼性の高いキーワードを用いて認識対象語の辞書の再構築を適切に行い、この再構築した辞書を用いたその後の音声認識処理で適切な認識結果を得られるようにする。
【解決手段】信号処理装置６の認識処理手段１１が第１の音声認識処理によりユーザ発話文からキーワードを抽出する際、無発話区間検出手段１３がユーザ発話文における無発話区間を検出し、キーワード信頼性評価手段１２が無発話区間に隣接して出現するキーワードであるかどうかによって、抽出した各キーワードの信頼性を評価する。そして、認識処理手段１１は、所定の基準値以上の信頼度が得られたキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第２の音声認識処理により、ユーザ発話文に対する最終的な認識結果を得る。
【選択図】図１

Description

本発明は、ユーザからの発話音声を認識する音声認識装置に関するものであり、特に、第１の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第２の音声認識処理により認識結果を得る音声認識装置の改良に関する。

従来、ユーザからの発話音声と、予め記憶された認識対象語の標準発話音声パターンとを対比することで、ユーザが発話した音声の認識を行う音声認識技術が知られており、例えば、車両のナビゲーションシステムにおける各種設定入力等に応用されている。

このような音声認識技術では、ユーザからの発話に対して１回の音声認識処理のみで認識結果を得ようとすると、膨大な数の認識対象語を比較対象として音声パターンのマッチングを行う必要があり、演算負荷が増大するばかりか、誤認識を生じる可能性も大きくなる。そこで、このような問題への対策の一つとして、ワードスポッティングと呼ばれる技術を用いてユーザの発話文からキーワードを抽出し、抽出したキーワードを用いて辞書を再構築して、認識対象語をある程度絞り込んだ上で再度音声認識処理を行って最終的な認識結果を得るようにした音声認識装置が提案されている（例えば、特許文献１等を参照。）。

前記特許文献１には、第１の音声認識処理でキーワードを抽出し、抽出したキーワードを用いてユーザからの発話文の話題を確定し、確定した話題から語彙数を限定した認識対象語の辞書を再構築して、再構築した辞書を用いた第２の音声認識処理により認識結果を得るという技術が記載されている。
特開２００１−３４２９２号公報

しかしながら、一般的にワードスポッティング技術の認識率は十分でないこともあり、ワードスポッティングによりキーワードを抽出した場合には誤ったキーワードを抽出してしまうことも想定されるが、前記特許文献１に記載されている技術では、抽出したキーワードの信頼性については評価されないため、誤ったキーワードを用いて辞書を再構築してしまうことも懸念される。そして、このような場合には、所望の語彙が辞書から外れてしまって、第２の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。

本発明は、以上のような従来技術の有する問題点を解消すべく創案されたものであって、信頼性の高いキーワードを用いて辞書の再構築を適切に行い、この再構築した辞書を用いたその後の音声認識処理で適切な認識結果を得られるようにした音声認識装置を提供することを目的としている。

本発明に係る音声認識装置は、第１の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第２の音声認識処理で認識結果を得るものである。このような音声認識装置において、本発明では、前記目的を達成するために、ユーザの発話文より抽出したキーワードの信頼性を評価するキーワード信頼性評価手段と、ユーザの発話文における無発話区間を検出する無発話区間検出手段とを備える。そして、キーワード信頼性評価手段が、無発話区間検出手段によって検出された無発話区間に隣接して出現するキーワードの信頼性を高く評価し、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築を行うようにしている。

本発明に係る音声認識装置によれば、ユーザの発話文に含まれる無発話区間に隣接して出現するキーワードの信頼性が高く評価され、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築が行われるので、所望の語彙が辞書から外れてしまうといった不都合を生じさせることなく認識対象語の絞り込みを適切に行うことができ、認識処理の演算負荷を効率的に低減させながら高精度の認識結果を得ることができる。

以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。

本実施形態の音声認識装置は、例えば、車両に搭載される音声入力型ナビゲーションシステム等に適用されるものであり、図１に示すようなハード構成で実現される。すなわち、この音声認識装置は、マイク１、ディスプレイ２、スピーカ３、入力装置４及び信号処理ユニット５を備えて構成される。

マイク１は、ユーザからの発話音声が入力されるものであり、このマイク１に入力されたユーザ発話音声は信号処理ユニット５へと送られる。ディスプレイ２は、信号処理ユニット５の処理結果等を文字情報として表示するものであり、スピーカ３は、信号処理ユニット５の処理結果等を音声で出力するものである。また、入力装置４は、ユーザの各種操作入力を受け付けるものであり、音声認識処理の開始を指示するための発話スイッチ４ａと、誤認識した場合の訂正を指示するための訂正スイッチ４ｂとを有している。なお、この入力装置４の訂正スイッチ４ｂは、ユーザがこれを一定期間押し続けたときに、音声認識処理の中断を指示する機能も有している。

信号処理ユニット５は、本実施形態の音声認識装置における主要な処理を実行するものであり、各種信号処理を行う信号処理装置６や、信号処理装置６での音声認識処理で音声認識の対象となる認識対象語を記憶する外部記憶装置７、マイク１からアナログ信号として信号処理ユニット５に入力されたユーザ発話音声の音声信号をデジタル信号に変換するＡ／Ｄコンバータ８、信号処理装置６での処理結果をアナログ信号に変換するＤ／Ａコンバータ９、Ｄ／Ａコンバータ９の出力に応じてスピーカ２を作動させる出力アンプ１０等を有して構成される。

信号処理装置６は、ＣＰＵやＲＯＭ、ＲＡＭ、入出力インターフェース等がバスを介して相互に接続されたマイクロプロセッサ構成を有しており、ＣＰＵがＲＡＭをワークエリアとして利用してＲＯＭに格納されている各種のプログラムを実行することで、様々な機能を実現するものである。特に、本実施形態の音声認識装置では、この信号処理装置６において、ユーザの発話文を認識するための音声認識処理を行う認識処理手段１１としての機能と、認識処理手段１１における第１の音声認識処理で抽出したキーワードの信頼性を評価するキーワード信頼性評価手段１２としての機能と、ユーザの発話文における無発話区間を検出する無発話区間検出手段１３としての機能とが実現されるようになっている。

本実施形態の音声認識装置において、信号処理装置６で実現される認識処理手段１１は、２段階での音声認識処理によりユーザが入力した発話文の内容を認識する。すなわち、認識処理手段１１は、第１の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードのうちで、キーワード信頼性評価手段１２により信頼性が高いと評価されたキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第２の音声認識処理で認識結果を得るようにしている。

具体的に説明すると、認識処理手段１１は、先ず、ユーザからの発話を待ち受ける待ち受け設定によって、外部記憶装置７に認識対象語として記憶されている多数の単語のうちでユーザが発話する可能性の高いキーワードとなる単語を選択し、選択した単語及びその標準発話音声パターンを信号処理装置６内のＲＡＭに読み込んで認識対象語の辞書を構築する。例えば、本実施形態の音声認識装置が車載ナビゲーションシステムに適用され、音声認識によって車両の目的地等の設定を行う場合には、ユーザは目的地として設定したい地点の名称をその属性を表すキーワード（都道府県名や路線名等）で特定しながら発話することが多いので、認識処理手段１１はこのようなキーワードとなる単語を選択して信号処理装置６内のＲＡＭに読み込み、図２に示すように、これらのキーワード群で認識対象語の辞書を構築する。

そして、マイク１に入力されたユーザの発話音声がＡ／Ｄコンバータ８でデジタル信号に変換されて信号処理装置６に入力されると、認識処理手段１１は、先ず、第１の音声認識処理を行い、ワードスポッティングと呼ばれる技術を用いて、ユーザから発話された一連の発話文の中からキーワードを抽出する処理を行う。ワードスポッティングによりユーザの発話文からキーワードを抽出する処理は、前記特許文献１にも記載されているように公知の技術であるのでここでは詳細な説明は省略するが、その概要は、ユーザの発話文の中で単語の発話と思われる部分の音声パターンと、図２に示すような辞書に含まれる認識対象語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高い単語をユーザの発話文に含まれるキーワードと認識するというものである。

ワードスポッティングによりユーザの発話文に含まれるキーワードが抽出されると、キーワード信頼性評価手段１２により、ユーザ発話文から抽出されたキーワードの信頼性が評価される。このキーワード信頼性評価手段１２による信頼性評価は、抽出されたキーワードが、ユーザ発話文における無発話区間（発話前の区間や発話後の区間、発話文中のポーズ等）と時間的に隣接して出現するものであるかどうかによって、各キーワード毎に上述した一致度を示すスコアを増減させて、信頼度を示すスコアを算出することによって行われる。ここで、ユーザ発話文における無発話区間の検出は、Ａ／Ｄコンバータ８から信号処理装置６に入力されるデジタル信号を無発話区間検出手段１３で解析することによって行われる。なお、この無発話区間を検出する処理の具体例については、詳細を後述する。

キーワード信頼性評価手段１２によりキーワードの信頼性評価が行われると、認識処理手段１１は、次に、信頼性が高いと評価されたキーワードを用いて、外部記憶装置７に認識対象語として記憶された多数の単語のうちで、これらのキーワードで特定される範囲の単語群を選択し、選択した単語群及びその標準発話音声パターンを信号処理装置６内のＲＡＭに読み込んで認識対象語の辞書を再構築する。そして、この再構築された辞書を用いて第２の音声認識処理を行い、ユーザ発話文の中で第１の音声認識処理により認識されなかった部分の音声パターンと再構築された辞書に含まれる単語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高いものをユーザの発話文に含まれる単語として認識し、最終的な認識結果を得る。

認識処理手段１１での第２の音声認識処理により最終的な認識結果が得られると、その認識結果がＤ／Ａコンバータ９にてアナログ信号に変換され、出力アンプ１０で増幅されてスピーカ３から音声出力される。また、認識処理手段１１による認識結果は、必要に応じてディスプレイ２に送られて文字情報として表示される。そして、この認識処理手段１１での認識結果をユーザが確認した上で、入力装置４の訂正スイッチ４ｂの押圧操作がなければ、所定時間経過後にこの認識処理手段１１での認識結果に応じて、例えば車載ナビゲーションシステムにおける目的地設定等の各種処理が行われることになる。

外部記憶装置７は、記録媒体として例えばハードディスク等の大容量記録媒体を用いた記憶装置であり、音声認識の対象となる認識対象語を記憶するものである。ここで、特に本実施形態の音声認識装置で用いられる外部記憶装置７には、目的地設定等の対象となる各種地点の名称が、その名称の属性を表すキーワード（都道府県名や路線名等）と関連づけられて、その標準発話音声パターンとともに記憶されている。

次に、本実施形態の音声認識装置の動作概要について、車載ナビゲーションシステムに適用した場合における具体的な例を挙げながら、図３のフローチャートに沿って説明する。車載ナビゲーションシステムに適用された本実施形態の音声認識装置は、例えば車両のイグニッションキー操作によって起動され、図３に示す処理フローを開始させる。

すなわち、本実施形態の音声認識装置は、先ずステップＳ１において、ユーザにより入力装置４の発話スイッチ４ａが押圧操作されたかを監視する。そして、ユーザが入力装置４の発話スイッチ４ａを操作すると、そのスイッチオン信号が信号処理装置６に入力されて、信号処理装置６が処理を開始する。

次に、ステップＳ２において、信号処理装置６が音声認識処理のための待ち受け設定を行う。この待ち受け設定によって、外部記憶装置７に記憶されている認識対象語のうちで、ユーザが発話する可能性の高いキーワードとなる認識対象語が選択的に読み出され、その標準発話音声パターンとともに信号処理装置６のＲＡＭに転送されて認識対象語の辞書が構築される。

次に、ステップＳ３において、信号処理装置６は、プロンプトすなわち処理を開始した旨をユーザに知らせるために、ユーザ告知用の定型文のデータをディスプレイ２に出力して、ディスプレイ２に例えば「音声を入力して下さい。」といった文字情報を表示させ、また、告知音声信号をＤ／Ａコンバータ９及び出力アンプ１０を介してスピーカ３に出力し、スピーカ３から例えば「音声を入力して下さい。」といったアナウンスを出力させる。なお、これらユーザ告知用の定型文のデータや音声信号は、例えば外部記憶装置７に記憶されており、ここから読み出されてディスプレイ２やスピーカ３に送られる。

ユーザは、このような告知を受けて信号処理装置６が処理を開始したことを認識し、マイク１を用いて、例えば車載ナビゲーションシステムでの目的地設定等のための音声入力を行う。本例では、ユーザが車載ナビゲーションシステムでの目的地設定のために、「神奈川県、京急線、横須賀駅」という発話を行ったとする。そのときのユーザ発話文の発話形態の一例を図４（Ａ）に示す。

マイク１に入力されたユーザの発話文は、Ａ／Ｄコンバータ８でデジタル信号に変換され、信号処理装置６に入力される。信号処理装置６では、入力装置４の発話スイッチ４ａの操作がなされるまでは、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の平均パワーを演算しており、発話スイッチ４ａの操作が行われた後、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の瞬間パワーが前記平均パワーよりも所定値以上大きくなったとき、ユーザが音声入力を開始したと判断して、音声取り込みを開始する。その様子を図４（Ｂ）に示す。図４（Ｂ）におけるａが、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の瞬間パワーが平均パワーよりも所定値以上大きくなる直前の時点であり、信号処理装置６は、この時点ａがユーザ発話文の始端であると認識し、その時刻を記憶する。また、ユーザが発話スイッチ４ａを操作したときから時点ａまでの時間を発話前時間として、発話文始端ａの発生時刻と共に記憶する。

次に、信号処理装置６は、ステップＳ４において、デジタル信号として入力されたユーザ発話文に対する第１の音声認識処理を行い、ワードスポッティングによりユーザ発話文に含まれるキーワードを抽出する。具体的には、信号処理装置６は、ユーザ発話文の中で単語の発話と思われる部分の音声パターンと、ステップＳ２の待ち受け設定で構築した辞書に含まれる認識対象語（キーワード群）の標準発話音声パターンとを対比してそれらの一致度を演算する。この一致度、すなわちユーザ発話文の中で単語の発話と思われる部分と個々の認識対象語とがどの程度似ているかは、スコアとして得られる。このスコアは、例えば一致度が高いほど大きな値で表され、スコアの十分大きいキーワードがここでの認識結果として記憶されることになる。

なお、本ステップの一致度演算を行っている間も、並行処理により音声取り込みは継続されている。また、キーワードの一致度演算は再起的に行われ、最終的に第１の音声認識処理での認識結果としては、複数のキーワードとキーワード以外の部分（以下、未知語と呼ぶ。）との連接が得られる。その様子を図４（Ｃ）に示す。この図４（Ｃ）では、ユーザの発話文からキーワードとして「神奈川県」、「京急」、「線」、「駅」が抽出され、「駅」というキーワードの直前に未知語「＊」の存在が確認されたことを示している。信号処理装置６は、これら抽出したキーワードをその発生時刻と共に記憶し、また未知語の発生時刻も記憶する。

また、特に本実施形態の音声認識装置では、信号処理装置６が、ユーザ発話文からキーワードを抽出する処理と並行して、Ａ／Ｄコンバータ８を介して入力されるデジタル信号の瞬間パワーが所定値を下回る状態となったかどうかを監視しており、デジタル信号の瞬間パワーが所定値を下回った状態が所定時間以上継続する場合には、その継続時間を計測する。

ここで、デジタル信号の瞬間パワーが所定値を下回った状態は、その継続時間に応じて、ユーザ発話文の文中におけるポーズであるか、或いはユーザ発話文の終端以降の発話後区間であると判断される。すなわち、デジタル信号の瞬間パワーが所定値を下回った状態の継続時間が第１の閾値以上で且つ第２の閾値未満（第１の閾値＜第２の閾値）であれば、その状態はユーザ発話文の文中におけるポーズであると判断され、デジタル信号の瞬間パワーが所定値を下回った状態の継続時間が第２の閾値以上であれば、その状態はユーザの発話文の終端以降でユーザの発話が終了した状態であると判断される。その様子を図４（Ｂ）及び図４（Ｃ）に示す。図４（Ｂ）におけるｂ、ｃ及びそれに対応する図４（Ｃ）の区間Ｐが、ユーザ発話文の文中におけるポーズであり、図４（Ｂ）におけるｄがユーザ発話文の終端、それに対応する図４（Ｃ）の区間Ｅが発話後区間である。信号処理装置６は、これらユーザ発話文中のポーズや発話文の終端（発話後区間）を検出したら、その発生時刻を継続時間と共に記憶する。なお、図４（Ｃ）中の区間Ｓは、ステップＳ３で音声取り込みを開始する際に検出された発話前区間である。

信号処理装置６は、以上の処理でユーザの発話文の終端を検出したときに、ユーザの音声入力が終了したと判断して、音声取り込みを終了する（ステップＳ５）。そして、ユーザの発話文からキーワードを抽出する処理（一致度演算）が全て終了した段階で、ステップＳ６において、抽出したキーワードの信頼性の評価を行う。このキーワードの信頼性評価は、例えば、抽出したキーワードがユーザ発話文における無発話区間と時間的に隣接して出現するものである場合にステップＳ４で算出した一致度を示すスコアを増加させる、或いは抽出したキーワードがユーザ発話文における無発話区間と時間的に離れて出現するものである場合にステップＳ４で算出した一致度を示すスコアを減少させるといった手法で行われる。この一致度を示すスコアの増減によって得られる最終的なスコアが、各キーワードの信頼度を示すスコアとなる。

次に、信号処理手段６は、ステップＳ７において、ユーザ発話文から抽出したキーワードの中に信頼性の高いキーワードがあるかどうか、すなわちステップＳ６で算出した信頼度を示すスコアが基準値を超えているキーワードがあるかどうかを判定する。そして、信頼性の高いキーワードがなければステップＳ２に戻って認識対象とするキーワード群を変更して以降の処理を繰り返し、信頼性の高いキーワードがあれば、ステップＳ８に進んで、信頼性の高いキーワードを用いて認識対象語の辞書を再構築する。

具体的な例を挙げて説明すると、図４に示した例で抽出されたキーワードは「神奈川県」、「京急」、「線」、「駅」の４つであり、これら４つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるので、全てのキーワードの信頼性が高く評価されることになる。その結果、ステップＳ７の判定でＹｅｓとなってステップＳ８に進み、ステップＳ８において、「神奈川県」、「京急」、「線」、「駅」の４つのキーワードを用いて、神奈川県の京急線の駅の名前、例えば「京急川崎」や「横浜」、「上大岡」、「金沢文庫」、「横須賀」等を語彙として持つ認識対象語の辞書が再構築されることになる。

ところで、図４に示した例ではユーザは単語のみの発話を行っているが、実際のユーザからの発話文には単語以外の意味を持たない言葉が含まれていることも多い。例えば、ユーザが車載ナビゲーションシステムで横須賀駅を目的地に設定したいと考えた場合に、図５（Ａ）に示すように、「神奈川県のえーっと、京急線、横須賀駅」といった発話を行うことも考えられる。この場合、ユーザ発話文に対してステップＳ４での第１の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図５（Ｂ）に示すような結果が得られることになる。すなわち、この例では、ユーザの発話文からキーワードとして「神奈川県」、「京急」、「線」、「駅」が抽出され、「神奈川県」というキーワードの直後に未知語「＊」の存在が確認され、「駅」というキーワードの直前に未知語「＊」の存在が確認される。

この図５に示す例においても、抽出されたキーワードは「神奈川県」、「京急」、「線」、「駅」の４つであり、これら４つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるので、全て信頼性が高く評価されることになる。その結果、図４に示した例と同様に、ステップＳ８において「神奈川県」、「京急」、「線」、「駅」の４つのキーワードが用いられて、神奈川県の京急線の駅の名前を語彙として持つ認識対象語の辞書が再構築されることになる。

一方、図６（Ａ）に示すように、ユーザからの発話が「神奈川県のえーっと京急線、横須賀駅」であった場合、このようなユーザ発話文に対してステップＳ４での第１の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図６（Ｂ）に示すように、キーワードとして「神奈川県」、「東急」、「線」、「駅」が抽出され、「神奈川県」というキーワードと「東急」というキーワードの間に未知語「＊」の存在が確認され、「駅」というキーワードの直前に未知語「＊」の存在が確認されるという結果となることも想定される。

この図６に示す例では、抽出されたキーワードは「神奈川県」、「東急」、「線」、「駅」の４つであるが、これら４つのキーワードのうちで「神奈川県」、「線」、「駅」の３つのキーワードは無発話区間と時間的に隣接して出現するので信頼性が高く評価されることになるが、「東急」は無発話区間から時間的に離れた位置で出現するキーワードであるので、信頼性の評価は低くなる。その結果、ステップＳ８において、信頼性の評価が低い「東急」を除くキーワード、すなわち「神奈川県」、「線」、「駅」の３つのキーワードが用いられて、神奈川県の駅の名前を語彙として認識対象語の辞書が再構築されることになる。この場合、図４や図５に示した例と比較して再構築された辞書の語彙数が多くなるが、「東急」という誤ったキーワードを用いた語彙の絞り込みは行われないので、その後の音声認識処理における誤認識を低減することができる。

また、ユーザによっては１つの単語を発話する途中で間をおく場合もあり、このような場合には単語の途中で短いポーズが検出され、それに隣接して誤ったキーワードが抽出されることも想定される。このような場合に、単語の途中のポーズに隣接する誤ったキーワードの信頼性を高く評価して辞書の再構築に用いると、その後の音声認識処理において誤認識が生じる可能性が高くなるので、継続時間が所定値以下の短いポーズと時間的に隣接して出現するキーワードについては、その信頼性を高く評価しないようにすることが望ましい。

具体的な例を挙げて説明すると、ユーザの発話文が例えば図７（Ａ）に示すように、「神奈川県のえーっと京・急線の横須賀駅」であった場合、このようなユーザ発話文に対してステップＳ４での第１の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図７（Ｂ）に示すように、キーワードとして「神奈川県」、「開成町」、「駅」が抽出され、「神奈川県」というキーワードとの直後に未知語「＊」の存在が確認され、「開成町」というキーワードと「駅」というキーワードの間に未知語「＊」の存在が確認されるという結果となることも想定される。

この図７に示す例においては、抽出されたキーワードは「神奈川県」、「開成町」、「駅」の３つであり、これら３つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるが、「開成町」に隣接する無発話区間であるポーズは、その継続時間が所定値以下と短いポーズであるので、この「開成町」というキーワードについては信頼性を高く評価せずに、「神奈川県」及び「駅」の２つのキーワードの信頼性を高く評価する。その結果、ステップＳ８において、信頼性の評価が高い「神奈川県」、「駅」の２つのキーワードが用いられて、神奈川県の駅の名前を語彙として認識対象語の辞書が再構築されることになる。この場合も、図４や図５に示した例と比較して再構築された辞書の語彙数が多くなるが、「開成町」という誤ったキーワードを用いた語彙の絞り込みは行われないので、その後の音声認識処理における誤認識を低減することができる。

以上のようにして信頼性の高いキーワードを用いた辞書の再構築が行われると、次に、信号処理装置６は、ステップＳ９において、再構築された辞書を用いて第２の音声認識処理を行い、第１の音声認識処理で未知語とされた部分の音声パターンと、再構築された辞書に含まれる音声認識語の標準発話音声パターンとを対比してそれらの一致度を演算する。或いは、キーワードと未知語との連接であるユーザ発話文全体の音声パターンと、キーワードの標準発話音声パターンと再構築された辞書に含まれる音声認識語の標準音声パターンとを連結したものとの一致度を演算するようにしてもよい。いずれの場合も、このステップＳ９での第２の音声認識処理によりユーザ発話文全体に対する一致度が演算され、一致度が高いものが最終的なユーザ発話文の認識結果とされる。

ステップＳ９での第２の音声認識処理により最終的な認識結果が得られると、次のステップＳ１０において、その認識結果が図示しない音声合成処理機能によって音声信号に変換され、その音声信号がＤ／Ａコンバータ９、出力アンプ１０を経てスピーカ３に送られて、スピーカ３から音声出力される。また、認識処理手段１１による認識結果は、必要に応じてディスプレイ２に送られて文字情報として表示される。

その後、信号処理装置６は、ユーザにより入力装置４の訂正スイッチ４ｂが押圧操作されたかを監視し（ステップＳ１１）、所定時間内に訂正スイッチ４ｂの押圧操作がなければユーザが認識結果を容認したものと判断して、次のステップＳ１２において、認識結果に応じた各種処理を実行させる。その結果、本例では、神奈川県の京急線横須賀駅が車載ナビゲーションシステムにおける目的地として設定されることになる。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声認識装置では、第１の音声認識処理によりユーザ発話文からキーワードを抽出するとともに、ユーザ発話文における無発話区間を検出し、無発話区間に隣接して出現するキーワードの信頼性を高く評価して、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築が行われるので、所望の語彙が辞書から外れてしまうといった不都合を生じさせることなく認識対象語の絞り込みを適切に行うことができる。そして、このように再構築した辞書を用いて第２の音声認識処理を行い、最終的なユーザ発話文の認識結果を得るようにしているので、信号処理装置６での演算負荷を効率的に低減させながら、高精度の認識結果を得ることができる。

なお、以上説明した実施形態は本発明の一適用例を示したものであり、本発明の趣旨を逸脱しない範囲で様々な変形が可能であることは勿論である。例えば上述した実施形態は、本発明の音声認識装置を車載ナビゲーションシステムに適用した場合を想定して説明したが、本発明の音声認識装置は、車載ナビゲーションシステムに限らず音声入力機能を有する様々な機器に対して有効に適用可能であり、認識対象語の辞書の構築などの処理は、適用される各種機器での処理に対応させたかたちとすればよい。

また、上述した実施形態では、信号処理装置６での第１の音声認識処理でユーザ発話文からキーワードを抽出する際に、音声パターンのマッチング（一致度の演算）を時間軸に沿って語頭から語尾方向で行うことを前提に説明したが、ユーザ発話文の終端を検出した後は、発話文終端の直前のキーワードの抽出を、語尾から語頭方向での音声パターンのマッチングによって行うようにしてもよい。具体的な例を挙げて説明すると、例えば「駅」というキーワードを抽出する際に、通常であればｅ→ｋ→ｉという方向でユーザの発話と認識対象語との音声パターンのマッチングを行うが、ユーザ発話文の終端を検出した後は、「駅」の発話が発話文終端の直前であれば、入力信号を反転させてｉ→ｋ→ｅという方向でユーザの発話と認識対象語との音声パターンのマッチングを行うようにしてもよい。一般的に、ユーザ発話文の終端の検出精度は非常に良好なため、終端直前の発話に対してはこのような後ろ向きのパターンマッチングを行うことにより、終端直前のキーワードを精度良く検出することができ、より信頼性の高いキーワードを抽出することができる。

本発明を適用した音声認識装置のハード構成を示す構成図である。キーワード群で構成される認識対象語の辞書の一形態を示す図である。本発明を適用した音声認識装置により実行される処理の流れを示すフローチャートである。ユーザ発話とその発話文に対する信号処理装置での第１の音声認識処理の結果との関係を示す図であり、（Ａ）はユーザ発話の一形態を示し、（Ｂ）は（Ａ）の発話が行われたときの信号処理装置に入力されるデジタル信号の強度を示し、（Ｃ）は（Ａ）のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。ユーザ発話とその発話文に対する信号処理装置での第１の音声認識処理の結果との関係を示す図であり、（Ａ）はユーザ発話の他の形態を示し、（Ｂ）は（Ａ）のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。ユーザ発話とその発話文に対する信号処理装置での第１の音声認識処理の結果との関係を示す図であり、（Ａ）はユーザ発話の更に他の形態を示し、（Ｂ）は（Ａ）のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。ユーザ発話とその発話文に対する信号処理装置での第１の音声認識処理の結果との関係を示す図であり、（Ａ）はユーザ発話の更に他の形態を示し、（Ｂ）は（Ａ）のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。

符号の説明

１マイク
２ディスプレイ
３スピーカ
４入力装置
５信号処理ユニット
６信号処理装置
７外部記憶装置
１１認識処理手段
１２キーワード信頼性評価手段
１３無発話区間検出手段

Claims

第１の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第２の音声認識処理で認識結果を得る音声認識装置において、
前記ユーザの発話文より抽出したキーワードの信頼性を評価するキーワード信頼性評価手段と、
前記ユーザの発話文における無発話区間を検出する無発話区間検出手段とを備え、
前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出された無発話区間に隣接して出現するキーワードの信頼性を高く評価し、
所定の基準値以上の信頼度が得られたキーワードを用いて前記辞書の再構築を行うことを特徴とする音声認識装置。
前記無発話区間検出手段は、前記ユーザの発話文の文中におけるポーズを検出し、
前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出されたポーズに隣接して出現するキーワードの信頼性を高く評価することを特徴とする請求項１に記載の音声認識装置。
前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出されたポーズの継続時間が所定値以下の場合には、このポーズに隣接して出現するキーワードの信頼性を高く評価しないことを特徴とする請求項２に記載の音声認識装置。
前記無発話区間検出手段は、前記ユーザの発話文の終端を検出し、
前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出された発話文終端に隣接して出現するキーワードの信頼性を高く評価することを特徴とする請求項１に記載の音声認識装置。
前記無発話区間検出手段が前記ユーザの発話文の終端を検出した場合には、この終端直前のキーワードを、語尾から語頭方向での音声パターンのマッチングにより抽出することを特徴とする請求項４に記載の音声認識装置。