JP2006039382A - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP2006039382A
JP2006039382A JP2004221817A JP2004221817A JP2006039382A JP 2006039382 A JP2006039382 A JP 2006039382A JP 2004221817 A JP2004221817 A JP 2004221817A JP 2004221817 A JP2004221817 A JP 2004221817A JP 2006039382 A JP2006039382 A JP 2006039382A
Authority
JP
Japan
Prior art keywords
keyword
speech
user
utterance
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004221817A
Other languages
English (en)
Inventor
Takeshi Ono
健 大野
Minoru Togashi
実 冨樫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2004221817A priority Critical patent/JP2006039382A/ja
Publication of JP2006039382A publication Critical patent/JP2006039382A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】信頼性の高いキーワードを用いて認識対象語の辞書の再構築を適切に行い、この再構築した辞書を用いたその後の音声認識処理で適切な認識結果を得られるようにする。
【解決手段】信号処理装置6の認識処理手段11が第1の音声認識処理によりユーザ発話文からキーワードを抽出する際、無発話区間検出手段13がユーザ発話文における無発話区間を検出し、キーワード信頼性評価手段12が無発話区間に隣接して出現するキーワードであるかどうかによって、抽出した各キーワードの信頼性を評価する。そして、認識処理手段11は、所定の基準値以上の信頼度が得られたキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第2の音声認識処理により、ユーザ発話文に対する最終的な認識結果を得る。
【選択図】図1

Description

本発明は、ユーザからの発話音声を認識する音声認識装置に関するものであり、特に、第1の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第2の音声認識処理により認識結果を得る音声認識装置の改良に関する。
従来、ユーザからの発話音声と、予め記憶された認識対象語の標準発話音声パターンとを対比することで、ユーザが発話した音声の認識を行う音声認識技術が知られており、例えば、車両のナビゲーションシステムにおける各種設定入力等に応用されている。
このような音声認識技術では、ユーザからの発話に対して1回の音声認識処理のみで認識結果を得ようとすると、膨大な数の認識対象語を比較対象として音声パターンのマッチングを行う必要があり、演算負荷が増大するばかりか、誤認識を生じる可能性も大きくなる。そこで、このような問題への対策の一つとして、ワードスポッティングと呼ばれる技術を用いてユーザの発話文からキーワードを抽出し、抽出したキーワードを用いて辞書を再構築して、認識対象語をある程度絞り込んだ上で再度音声認識処理を行って最終的な認識結果を得るようにした音声認識装置が提案されている(例えば、特許文献1等を参照。)。
前記特許文献1には、第1の音声認識処理でキーワードを抽出し、抽出したキーワードを用いてユーザからの発話文の話題を確定し、確定した話題から語彙数を限定した認識対象語の辞書を再構築して、再構築した辞書を用いた第2の音声認識処理により認識結果を得るという技術が記載されている。
特開2001−34292号公報
しかしながら、一般的にワードスポッティング技術の認識率は十分でないこともあり、ワードスポッティングによりキーワードを抽出した場合には誤ったキーワードを抽出してしまうことも想定されるが、前記特許文献1に記載されている技術では、抽出したキーワードの信頼性については評価されないため、誤ったキーワードを用いて辞書を再構築してしまうことも懸念される。そして、このような場合には、所望の語彙が辞書から外れてしまって、第2の音声認識処理でも誤認識が生じ、適切な認識結果が得られなくなるといった問題が生じる。
本発明は、以上のような従来技術の有する問題点を解消すべく創案されたものであって、信頼性の高いキーワードを用いて辞書の再構築を適切に行い、この再構築した辞書を用いたその後の音声認識処理で適切な認識結果を得られるようにした音声認識装置を提供することを目的としている。
本発明に係る音声認識装置は、第1の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第2の音声認識処理で認識結果を得るものである。このような音声認識装置において、本発明では、前記目的を達成するために、ユーザの発話文より抽出したキーワードの信頼性を評価するキーワード信頼性評価手段と、ユーザの発話文における無発話区間を検出する無発話区間検出手段とを備える。そして、キーワード信頼性評価手段が、無発話区間検出手段によって検出された無発話区間に隣接して出現するキーワードの信頼性を高く評価し、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築を行うようにしている。
本発明に係る音声認識装置によれば、ユーザの発話文に含まれる無発話区間に隣接して出現するキーワードの信頼性が高く評価され、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築が行われるので、所望の語彙が辞書から外れてしまうといった不都合を生じさせることなく認識対象語の絞り込みを適切に行うことができ、認識処理の演算負荷を効率的に低減させながら高精度の認識結果を得ることができる。
以下、本発明の具体的な実施形態について、図面を参照しながら詳細に説明する。
本実施形態の音声認識装置は、例えば、車両に搭載される音声入力型ナビゲーションシステム等に適用されるものであり、図1に示すようなハード構成で実現される。すなわち、この音声認識装置は、マイク1、ディスプレイ2、スピーカ3、入力装置4及び信号処理ユニット5を備えて構成される。
マイク1は、ユーザからの発話音声が入力されるものであり、このマイク1に入力されたユーザ発話音声は信号処理ユニット5へと送られる。ディスプレイ2は、信号処理ユニット5の処理結果等を文字情報として表示するものであり、スピーカ3は、信号処理ユニット5の処理結果等を音声で出力するものである。また、入力装置4は、ユーザの各種操作入力を受け付けるものであり、音声認識処理の開始を指示するための発話スイッチ4aと、誤認識した場合の訂正を指示するための訂正スイッチ4bとを有している。なお、この入力装置4の訂正スイッチ4bは、ユーザがこれを一定期間押し続けたときに、音声認識処理の中断を指示する機能も有している。
信号処理ユニット5は、本実施形態の音声認識装置における主要な処理を実行するものであり、各種信号処理を行う信号処理装置6や、信号処理装置6での音声認識処理で音声認識の対象となる認識対象語を記憶する外部記憶装置7、マイク1からアナログ信号として信号処理ユニット5に入力されたユーザ発話音声の音声信号をデジタル信号に変換するA/Dコンバータ8、信号処理装置6での処理結果をアナログ信号に変換するD/Aコンバータ9、D/Aコンバータ9の出力に応じてスピーカ2を作動させる出力アンプ10等を有して構成される。
信号処理装置6は、CPUやROM、RAM、入出力インターフェース等がバスを介して相互に接続されたマイクロプロセッサ構成を有しており、CPUがRAMをワークエリアとして利用してROMに格納されている各種のプログラムを実行することで、様々な機能を実現するものである。特に、本実施形態の音声認識装置では、この信号処理装置6において、ユーザの発話文を認識するための音声認識処理を行う認識処理手段11としての機能と、認識処理手段11における第1の音声認識処理で抽出したキーワードの信頼性を評価するキーワード信頼性評価手段12としての機能と、ユーザの発話文における無発話区間を検出する無発話区間検出手段13としての機能とが実現されるようになっている。
本実施形態の音声認識装置において、信号処理装置6で実現される認識処理手段11は、2段階での音声認識処理によりユーザが入力した発話文の内容を認識する。すなわち、認識処理手段11は、第1の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードのうちで、キーワード信頼性評価手段12により信頼性が高いと評価されたキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第2の音声認識処理で認識結果を得るようにしている。
具体的に説明すると、認識処理手段11は、先ず、ユーザからの発話を待ち受ける待ち受け設定によって、外部記憶装置7に認識対象語として記憶されている多数の単語のうちでユーザが発話する可能性の高いキーワードとなる単語を選択し、選択した単語及びその標準発話音声パターンを信号処理装置6内のRAMに読み込んで認識対象語の辞書を構築する。例えば、本実施形態の音声認識装置が車載ナビゲーションシステムに適用され、音声認識によって車両の目的地等の設定を行う場合には、ユーザは目的地として設定したい地点の名称をその属性を表すキーワード(都道府県名や路線名等)で特定しながら発話することが多いので、認識処理手段11はこのようなキーワードとなる単語を選択して信号処理装置6内のRAMに読み込み、図2に示すように、これらのキーワード群で認識対象語の辞書を構築する。
そして、マイク1に入力されたユーザの発話音声がA/Dコンバータ8でデジタル信号に変換されて信号処理装置6に入力されると、認識処理手段11は、先ず、第1の音声認識処理を行い、ワードスポッティングと呼ばれる技術を用いて、ユーザから発話された一連の発話文の中からキーワードを抽出する処理を行う。ワードスポッティングによりユーザの発話文からキーワードを抽出する処理は、前記特許文献1にも記載されているように公知の技術であるのでここでは詳細な説明は省略するが、その概要は、ユーザの発話文の中で単語の発話と思われる部分の音声パターンと、図2に示すような辞書に含まれる認識対象語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高い単語をユーザの発話文に含まれるキーワードと認識するというものである。
ワードスポッティングによりユーザの発話文に含まれるキーワードが抽出されると、キーワード信頼性評価手段12により、ユーザ発話文から抽出されたキーワードの信頼性が評価される。このキーワード信頼性評価手段12による信頼性評価は、抽出されたキーワードが、ユーザ発話文における無発話区間(発話前の区間や発話後の区間、発話文中のポーズ等)と時間的に隣接して出現するものであるかどうかによって、各キーワード毎に上述した一致度を示すスコアを増減させて、信頼度を示すスコアを算出することによって行われる。ここで、ユーザ発話文における無発話区間の検出は、A/Dコンバータ8から信号処理装置6に入力されるデジタル信号を無発話区間検出手段13で解析することによって行われる。なお、この無発話区間を検出する処理の具体例については、詳細を後述する。
キーワード信頼性評価手段12によりキーワードの信頼性評価が行われると、認識処理手段11は、次に、信頼性が高いと評価されたキーワードを用いて、外部記憶装置7に認識対象語として記憶された多数の単語のうちで、これらのキーワードで特定される範囲の単語群を選択し、選択した単語群及びその標準発話音声パターンを信号処理装置6内のRAMに読み込んで認識対象語の辞書を再構築する。そして、この再構築された辞書を用いて第2の音声認識処理を行い、ユーザ発話文の中で第1の音声認識処理により認識されなかった部分の音声パターンと再構築された辞書に含まれる単語の標準発話音声パターンとを対比してその一致度を演算し、一致度の高いものをユーザの発話文に含まれる単語として認識し、最終的な認識結果を得る。
認識処理手段11での第2の音声認識処理により最終的な認識結果が得られると、その認識結果がD/Aコンバータ9にてアナログ信号に変換され、出力アンプ10で増幅されてスピーカ3から音声出力される。また、認識処理手段11による認識結果は、必要に応じてディスプレイ2に送られて文字情報として表示される。そして、この認識処理手段11での認識結果をユーザが確認した上で、入力装置4の訂正スイッチ4bの押圧操作がなければ、所定時間経過後にこの認識処理手段11での認識結果に応じて、例えば車載ナビゲーションシステムにおける目的地設定等の各種処理が行われることになる。
外部記憶装置7は、記録媒体として例えばハードディスク等の大容量記録媒体を用いた記憶装置であり、音声認識の対象となる認識対象語を記憶するものである。ここで、特に本実施形態の音声認識装置で用いられる外部記憶装置7には、目的地設定等の対象となる各種地点の名称が、その名称の属性を表すキーワード(都道府県名や路線名等)と関連づけられて、その標準発話音声パターンとともに記憶されている。
次に、本実施形態の音声認識装置の動作概要について、車載ナビゲーションシステムに適用した場合における具体的な例を挙げながら、図3のフローチャートに沿って説明する。車載ナビゲーションシステムに適用された本実施形態の音声認識装置は、例えば車両のイグニッションキー操作によって起動され、図3に示す処理フローを開始させる。
すなわち、本実施形態の音声認識装置は、先ずステップS1において、ユーザにより入力装置4の発話スイッチ4aが押圧操作されたかを監視する。そして、ユーザが入力装置4の発話スイッチ4aを操作すると、そのスイッチオン信号が信号処理装置6に入力されて、信号処理装置6が処理を開始する。
次に、ステップS2において、信号処理装置6が音声認識処理のための待ち受け設定を行う。この待ち受け設定によって、外部記憶装置7に記憶されている認識対象語のうちで、ユーザが発話する可能性の高いキーワードとなる認識対象語が選択的に読み出され、その標準発話音声パターンとともに信号処理装置6のRAMに転送されて認識対象語の辞書が構築される。
次に、ステップS3において、信号処理装置6は、プロンプトすなわち処理を開始した旨をユーザに知らせるために、ユーザ告知用の定型文のデータをディスプレイ2に出力して、ディスプレイ2に例えば「音声を入力して下さい。」といった文字情報を表示させ、また、告知音声信号をD/Aコンバータ9及び出力アンプ10を介してスピーカ3に出力し、スピーカ3から例えば「音声を入力して下さい。」といったアナウンスを出力させる。なお、これらユーザ告知用の定型文のデータや音声信号は、例えば外部記憶装置7に記憶されており、ここから読み出されてディスプレイ2やスピーカ3に送られる。
ユーザは、このような告知を受けて信号処理装置6が処理を開始したことを認識し、マイク1を用いて、例えば車載ナビゲーションシステムでの目的地設定等のための音声入力を行う。本例では、ユーザが車載ナビゲーションシステムでの目的地設定のために、「神奈川県、京急線、横須賀駅」という発話を行ったとする。そのときのユーザ発話文の発話形態の一例を図4(A)に示す。
マイク1に入力されたユーザの発話文は、A/Dコンバータ8でデジタル信号に変換され、信号処理装置6に入力される。信号処理装置6では、入力装置4の発話スイッチ4aの操作がなされるまでは、A/Dコンバータ8を介して入力されるデジタル信号の平均パワーを演算しており、発話スイッチ4aの操作が行われた後、A/Dコンバータ8を介して入力されるデジタル信号の瞬間パワーが前記平均パワーよりも所定値以上大きくなったとき、ユーザが音声入力を開始したと判断して、音声取り込みを開始する。その様子を図4(B)に示す。図4(B)におけるaが、A/Dコンバータ8を介して入力されるデジタル信号の瞬間パワーが平均パワーよりも所定値以上大きくなる直前の時点であり、信号処理装置6は、この時点aがユーザ発話文の始端であると認識し、その時刻を記憶する。また、ユーザが発話スイッチ4aを操作したときから時点aまでの時間を発話前時間として、発話文始端aの発生時刻と共に記憶する。
次に、信号処理装置6は、ステップS4において、デジタル信号として入力されたユーザ発話文に対する第1の音声認識処理を行い、ワードスポッティングによりユーザ発話文に含まれるキーワードを抽出する。具体的には、信号処理装置6は、ユーザ発話文の中で単語の発話と思われる部分の音声パターンと、ステップS2の待ち受け設定で構築した辞書に含まれる認識対象語(キーワード群)の標準発話音声パターンとを対比してそれらの一致度を演算する。この一致度、すなわちユーザ発話文の中で単語の発話と思われる部分と個々の認識対象語とがどの程度似ているかは、スコアとして得られる。このスコアは、例えば一致度が高いほど大きな値で表され、スコアの十分大きいキーワードがここでの認識結果として記憶されることになる。
なお、本ステップの一致度演算を行っている間も、並行処理により音声取り込みは継続されている。また、キーワードの一致度演算は再起的に行われ、最終的に第1の音声認識処理での認識結果としては、複数のキーワードとキーワード以外の部分(以下、未知語と呼ぶ。)との連接が得られる。その様子を図4(C)に示す。この図4(C)では、ユーザの発話文からキーワードとして「神奈川県」、「京急」、「線」、「駅」が抽出され、「駅」というキーワードの直前に未知語「*」の存在が確認されたことを示している。信号処理装置6は、これら抽出したキーワードをその発生時刻と共に記憶し、また未知語の発生時刻も記憶する。
また、特に本実施形態の音声認識装置では、信号処理装置6が、ユーザ発話文からキーワードを抽出する処理と並行して、A/Dコンバータ8を介して入力されるデジタル信号の瞬間パワーが所定値を下回る状態となったかどうかを監視しており、デジタル信号の瞬間パワーが所定値を下回った状態が所定時間以上継続する場合には、その継続時間を計測する。
ここで、デジタル信号の瞬間パワーが所定値を下回った状態は、その継続時間に応じて、ユーザ発話文の文中におけるポーズであるか、或いはユーザ発話文の終端以降の発話後区間であると判断される。すなわち、デジタル信号の瞬間パワーが所定値を下回った状態の継続時間が第1の閾値以上で且つ第2の閾値未満(第1の閾値<第2の閾値)であれば、その状態はユーザ発話文の文中におけるポーズであると判断され、デジタル信号の瞬間パワーが所定値を下回った状態の継続時間が第2の閾値以上であれば、その状態はユーザの発話文の終端以降でユーザの発話が終了した状態であると判断される。その様子を図4(B)及び図4(C)に示す。図4(B)におけるb、c及びそれに対応する図4(C)の区間Pが、ユーザ発話文の文中におけるポーズであり、図4(B)におけるdがユーザ発話文の終端、それに対応する図4(C)の区間Eが発話後区間である。信号処理装置6は、これらユーザ発話文中のポーズや発話文の終端(発話後区間)を検出したら、その発生時刻を継続時間と共に記憶する。なお、図4(C)中の区間Sは、ステップS3で音声取り込みを開始する際に検出された発話前区間である。
信号処理装置6は、以上の処理でユーザの発話文の終端を検出したときに、ユーザの音声入力が終了したと判断して、音声取り込みを終了する(ステップS5)。そして、ユーザの発話文からキーワードを抽出する処理(一致度演算)が全て終了した段階で、ステップS6において、抽出したキーワードの信頼性の評価を行う。このキーワードの信頼性評価は、例えば、抽出したキーワードがユーザ発話文における無発話区間と時間的に隣接して出現するものである場合にステップS4で算出した一致度を示すスコアを増加させる、或いは抽出したキーワードがユーザ発話文における無発話区間と時間的に離れて出現するものである場合にステップS4で算出した一致度を示すスコアを減少させるといった手法で行われる。この一致度を示すスコアの増減によって得られる最終的なスコアが、各キーワードの信頼度を示すスコアとなる。
次に、信号処理手段6は、ステップS7において、ユーザ発話文から抽出したキーワードの中に信頼性の高いキーワードがあるかどうか、すなわちステップS6で算出した信頼度を示すスコアが基準値を超えているキーワードがあるかどうかを判定する。そして、信頼性の高いキーワードがなければステップS2に戻って認識対象とするキーワード群を変更して以降の処理を繰り返し、信頼性の高いキーワードがあれば、ステップS8に進んで、信頼性の高いキーワードを用いて認識対象語の辞書を再構築する。
具体的な例を挙げて説明すると、図4に示した例で抽出されたキーワードは「神奈川県」、「京急」、「線」、「駅」の4つであり、これら4つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるので、全てのキーワードの信頼性が高く評価されることになる。その結果、ステップS7の判定でYesとなってステップS8に進み、ステップS8において、「神奈川県」、「京急」、「線」、「駅」の4つのキーワードを用いて、神奈川県の京急線の駅の名前、例えば「京急川崎」や「横浜」、「上大岡」、「金沢文庫」、「横須賀」等を語彙として持つ認識対象語の辞書が再構築されることになる。
ところで、図4に示した例ではユーザは単語のみの発話を行っているが、実際のユーザからの発話文には単語以外の意味を持たない言葉が含まれていることも多い。例えば、ユーザが車載ナビゲーションシステムで横須賀駅を目的地に設定したいと考えた場合に、図5(A)に示すように、「神奈川県のえーっと、京急線、横須賀駅」といった発話を行うことも考えられる。この場合、ユーザ発話文に対してステップS4での第1の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図5(B)に示すような結果が得られることになる。すなわち、この例では、ユーザの発話文からキーワードとして「神奈川県」、「京急」、「線」、「駅」が抽出され、「神奈川県」というキーワードの直後に未知語「*」の存在が確認され、「駅」というキーワードの直前に未知語「*」の存在が確認される。
この図5に示す例においても、抽出されたキーワードは「神奈川県」、「京急」、「線」、「駅」の4つであり、これら4つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるので、全て信頼性が高く評価されることになる。その結果、図4に示した例と同様に、ステップS8において「神奈川県」、「京急」、「線」、「駅」の4つのキーワードが用いられて、神奈川県の京急線の駅の名前を語彙として持つ認識対象語の辞書が再構築されることになる。
一方、図6(A)に示すように、ユーザからの発話が「神奈川県のえーっと京急線、横須賀駅」であった場合、このようなユーザ発話文に対してステップS4での第1の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図6(B)に示すように、キーワードとして「神奈川県」、「東急」、「線」、「駅」が抽出され、「神奈川県」というキーワードと「東急」というキーワードの間に未知語「*」の存在が確認され、「駅」というキーワードの直前に未知語「*」の存在が確認されるという結果となることも想定される。
この図6に示す例では、抽出されたキーワードは「神奈川県」、「東急」、「線」、「駅」の4つであるが、これら4つのキーワードのうちで「神奈川県」、「線」、「駅」の3つのキーワードは無発話区間と時間的に隣接して出現するので信頼性が高く評価されることになるが、「東急」は無発話区間から時間的に離れた位置で出現するキーワードであるので、信頼性の評価は低くなる。その結果、ステップS8において、信頼性の評価が低い「東急」を除くキーワード、すなわち「神奈川県」、「線」、「駅」の3つのキーワードが用いられて、神奈川県の駅の名前を語彙として認識対象語の辞書が再構築されることになる。この場合、図4や図5に示した例と比較して再構築された辞書の語彙数が多くなるが、「東急」という誤ったキーワードを用いた語彙の絞り込みは行われないので、その後の音声認識処理における誤認識を低減することができる。
また、ユーザによっては1つの単語を発話する途中で間をおく場合もあり、このような場合には単語の途中で短いポーズが検出され、それに隣接して誤ったキーワードが抽出されることも想定される。このような場合に、単語の途中のポーズに隣接する誤ったキーワードの信頼性を高く評価して辞書の再構築に用いると、その後の音声認識処理において誤認識が生じる可能性が高くなるので、継続時間が所定値以下の短いポーズと時間的に隣接して出現するキーワードについては、その信頼性を高く評価しないようにすることが望ましい。
具体的な例を挙げて説明すると、ユーザの発話文が例えば図7(A)に示すように、「神奈川県のえーっと京・急線の横須賀駅」であった場合、このようなユーザ発話文に対してステップS4での第1の音声認識処理によりキーワードの抽出及び無発話区間の検出を行うと、図7(B)に示すように、キーワードとして「神奈川県」、「開成町」、「駅」が抽出され、「神奈川県」というキーワードとの直後に未知語「*」の存在が確認され、「開成町」というキーワードと「駅」というキーワードの間に未知語「*」の存在が確認されるという結果となることも想定される。
この図7に示す例においては、抽出されたキーワードは「神奈川県」、「開成町」、「駅」の3つであり、これら3つのキーワードは、その発生時刻と発話文始端、発話文中のポーズ、発話文終端の発生時刻との比較から、全てが無発話区間と時間的に隣接して出現するキーワードであると判定されるが、「開成町」に隣接する無発話区間であるポーズは、その継続時間が所定値以下と短いポーズであるので、この「開成町」というキーワードについては信頼性を高く評価せずに、「神奈川県」及び「駅」の2つのキーワードの信頼性を高く評価する。その結果、ステップS8において、信頼性の評価が高い「神奈川県」、「駅」の2つのキーワードが用いられて、神奈川県の駅の名前を語彙として認識対象語の辞書が再構築されることになる。この場合も、図4や図5に示した例と比較して再構築された辞書の語彙数が多くなるが、「開成町」という誤ったキーワードを用いた語彙の絞り込みは行われないので、その後の音声認識処理における誤認識を低減することができる。
以上のようにして信頼性の高いキーワードを用いた辞書の再構築が行われると、次に、信号処理装置6は、ステップS9において、再構築された辞書を用いて第2の音声認識処理を行い、第1の音声認識処理で未知語とされた部分の音声パターンと、再構築された辞書に含まれる音声認識語の標準発話音声パターンとを対比してそれらの一致度を演算する。或いは、キーワードと未知語との連接であるユーザ発話文全体の音声パターンと、キーワードの標準発話音声パターンと再構築された辞書に含まれる音声認識語の標準音声パターンとを連結したものとの一致度を演算するようにしてもよい。いずれの場合も、このステップS9での第2の音声認識処理によりユーザ発話文全体に対する一致度が演算され、一致度が高いものが最終的なユーザ発話文の認識結果とされる。
ステップS9での第2の音声認識処理により最終的な認識結果が得られると、次のステップS10において、その認識結果が図示しない音声合成処理機能によって音声信号に変換され、その音声信号がD/Aコンバータ9、出力アンプ10を経てスピーカ3に送られて、スピーカ3から音声出力される。また、認識処理手段11による認識結果は、必要に応じてディスプレイ2に送られて文字情報として表示される。
その後、信号処理装置6は、ユーザにより入力装置4の訂正スイッチ4bが押圧操作されたかを監視し(ステップS11)、所定時間内に訂正スイッチ4bの押圧操作がなければユーザが認識結果を容認したものと判断して、次のステップS12において、認識結果に応じた各種処理を実行させる。その結果、本例では、神奈川県の京急線横須賀駅が車載ナビゲーションシステムにおける目的地として設定されることになる。
以上、具体的な例を挙げながら詳細に説明したように、本実施形態の音声認識装置では、第1の音声認識処理によりユーザ発話文からキーワードを抽出するとともに、ユーザ発話文における無発話区間を検出し、無発話区間に隣接して出現するキーワードの信頼性を高く評価して、所定の基準値以上の信頼度が得られたキーワードを用いて辞書の再構築が行われるので、所望の語彙が辞書から外れてしまうといった不都合を生じさせることなく認識対象語の絞り込みを適切に行うことができる。そして、このように再構築した辞書を用いて第2の音声認識処理を行い、最終的なユーザ発話文の認識結果を得るようにしているので、信号処理装置6での演算負荷を効率的に低減させながら、高精度の認識結果を得ることができる。
なお、以上説明した実施形態は本発明の一適用例を示したものであり、本発明の趣旨を逸脱しない範囲で様々な変形が可能であることは勿論である。例えば上述した実施形態は、本発明の音声認識装置を車載ナビゲーションシステムに適用した場合を想定して説明したが、本発明の音声認識装置は、車載ナビゲーションシステムに限らず音声入力機能を有する様々な機器に対して有効に適用可能であり、認識対象語の辞書の構築などの処理は、適用される各種機器での処理に対応させたかたちとすればよい。
また、上述した実施形態では、信号処理装置6での第1の音声認識処理でユーザ発話文からキーワードを抽出する際に、音声パターンのマッチング(一致度の演算)を時間軸に沿って語頭から語尾方向で行うことを前提に説明したが、ユーザ発話文の終端を検出した後は、発話文終端の直前のキーワードの抽出を、語尾から語頭方向での音声パターンのマッチングによって行うようにしてもよい。具体的な例を挙げて説明すると、例えば「駅」というキーワードを抽出する際に、通常であればe→k→iという方向でユーザの発話と認識対象語との音声パターンのマッチングを行うが、ユーザ発話文の終端を検出した後は、「駅」の発話が発話文終端の直前であれば、入力信号を反転させてi→k→eという方向でユーザの発話と認識対象語との音声パターンのマッチングを行うようにしてもよい。一般的に、ユーザ発話文の終端の検出精度は非常に良好なため、終端直前の発話に対してはこのような後ろ向きのパターンマッチングを行うことにより、終端直前のキーワードを精度良く検出することができ、より信頼性の高いキーワードを抽出することができる。
本発明を適用した音声認識装置のハード構成を示す構成図である。 キーワード群で構成される認識対象語の辞書の一形態を示す図である。 本発明を適用した音声認識装置により実行される処理の流れを示すフローチャートである。 ユーザ発話とその発話文に対する信号処理装置での第1の音声認識処理の結果との関係を示す図であり、(A)はユーザ発話の一形態を示し、(B)は(A)の発話が行われたときの信号処理装置に入力されるデジタル信号の強度を示し、(C)は(A)のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。 ユーザ発話とその発話文に対する信号処理装置での第1の音声認識処理の結果との関係を示す図であり、(A)はユーザ発話の他の形態を示し、(B)は(A)のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。 ユーザ発話とその発話文に対する信号処理装置での第1の音声認識処理の結果との関係を示す図であり、(A)はユーザ発話の更に他の形態を示し、(B)は(A)のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。 ユーザ発話とその発話文に対する信号処理装置での第1の音声認識処理の結果との関係を示す図であり、(A)はユーザ発話の更に他の形態を示し、(B)は(A)のユーザ発話文に対してキーワード抽出及び無発話区間の検出を行った結果を示している。
符号の説明
1 マイク
2 ディスプレイ
3 スピーカ
4 入力装置
5 信号処理ユニット
6 信号処理装置
7 外部記憶装置
11 認識処理手段
12 キーワード信頼性評価手段
13 無発話区間検出手段

Claims (5)

  1. 第1の音声認識処理でユーザの発話文よりキーワードを抽出し、抽出したキーワードを用いて認識対象語の辞書を再構築し、再構築した辞書を用いた第2の音声認識処理で認識結果を得る音声認識装置において、
    前記ユーザの発話文より抽出したキーワードの信頼性を評価するキーワード信頼性評価手段と、
    前記ユーザの発話文における無発話区間を検出する無発話区間検出手段とを備え、
    前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出された無発話区間に隣接して出現するキーワードの信頼性を高く評価し、
    所定の基準値以上の信頼度が得られたキーワードを用いて前記辞書の再構築を行うことを特徴とする音声認識装置。
  2. 前記無発話区間検出手段は、前記ユーザの発話文の文中におけるポーズを検出し、
    前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出されたポーズに隣接して出現するキーワードの信頼性を高く評価することを特徴とする請求項1に記載の音声認識装置。
  3. 前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出されたポーズの継続時間が所定値以下の場合には、このポーズに隣接して出現するキーワードの信頼性を高く評価しないことを特徴とする請求項2に記載の音声認識装置。
  4. 前記無発話区間検出手段は、前記ユーザの発話文の終端を検出し、
    前記キーワード信頼性評価手段は、前記無発話区間検出手段によって検出された発話文終端に隣接して出現するキーワードの信頼性を高く評価することを特徴とする請求項1に記載の音声認識装置。
  5. 前記無発話区間検出手段が前記ユーザの発話文の終端を検出した場合には、この終端直前のキーワードを、語尾から語頭方向での音声パターンのマッチングにより抽出することを特徴とする請求項4に記載の音声認識装置。
JP2004221817A 2004-07-29 2004-07-29 音声認識装置 Pending JP2006039382A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004221817A JP2006039382A (ja) 2004-07-29 2004-07-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004221817A JP2006039382A (ja) 2004-07-29 2004-07-29 音声認識装置

Publications (1)

Publication Number Publication Date
JP2006039382A true JP2006039382A (ja) 2006-02-09

Family

ID=35904419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004221817A Pending JP2006039382A (ja) 2004-07-29 2004-07-29 音声認識装置

Country Status (1)

Country Link
JP (1) JP2006039382A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134503A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
JP2017016163A (ja) * 2015-06-24 2017-01-19 ヤマハ株式会社 管理装置
WO2020054404A1 (ja) * 2018-09-11 2020-03-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
US10621997B2 (en) 2015-06-24 2020-04-14 Yamaha Corporation Information providing system, information providing method, and computer-readable recording medium
JP2022033258A (ja) * 2017-05-19 2022-02-28 ネイバー コーポレーション 音声制御装置、動作方法及びコンピュータプログラム
EP3726856B1 (en) 2019-04-17 2022-11-16 Oticon A/s A hearing device comprising a keyword detector and an own voice detector

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134503A (ja) * 2006-11-29 2008-06-12 Nissan Motor Co Ltd 音声認識装置、および音声認識方法
JP2009116075A (ja) * 2007-11-07 2009-05-28 Xanavi Informatics Corp 音声認識装置
JP2012529080A (ja) * 2009-06-04 2012-11-15 マイクロソフト コーポレーション 再認識および統計的分類を使用する認識
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
JP2017016163A (ja) * 2015-06-24 2017-01-19 ヤマハ株式会社 管理装置
US10621997B2 (en) 2015-06-24 2020-04-14 Yamaha Corporation Information providing system, information providing method, and computer-readable recording medium
JP2022033258A (ja) * 2017-05-19 2022-02-28 ネイバー コーポレーション 音声制御装置、動作方法及びコンピュータプログラム
WO2020054404A1 (ja) * 2018-09-11 2020-03-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
JP2020042171A (ja) * 2018-09-11 2020-03-19 日本電信電話株式会社 キーワード検出装置、キーワード検出方法、およびプログラム
EP3726856B1 (en) 2019-04-17 2022-11-16 Oticon A/s A hearing device comprising a keyword detector and an own voice detector
US11968501B2 (en) 2019-04-17 2024-04-23 Oticon A/S Hearing device comprising a transmitter

Similar Documents

Publication Publication Date Title
JP3284832B2 (ja) 音声認識対話処理方法および音声認識対話装置
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US7805304B2 (en) Speech recognition apparatus for determining final word from recognition candidate word sequence corresponding to voice data
JP3004883B2 (ja) 終話検出方法及び装置並びに連続音声認識方法及び装置
JP3834169B2 (ja) 連続音声認識装置および記録媒体
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP2002202797A (ja) 音声認識方法
JP2006039382A (ja) 音声認識装置
CN110663078A (zh) 语音识别装置及语音识别方法
JPH10254475A (ja) 音声認識方法
JP5375423B2 (ja) 音声認識システム、音声認識方法および音声認識プログラム
JP5342629B2 (ja) 男女声識別方法、男女声識別装置及びプログラム
JP2996019B2 (ja) 音声認識装置
KR20050049207A (ko) 대화형 연속 음성인식 시스템 및 이를 이용한 음성끝점검출방법
JPH08263092A (ja) 応答音声生成方法および音声対話システム
JP6966374B2 (ja) 音声認識システム及びコンピュータプログラム
US6438521B1 (en) Speech recognition method and apparatus and computer-readable memory
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置
JP3039453B2 (ja) 音声認識装置
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3110025B2 (ja) 発声変形検出装置
JP3259734B2 (ja) 音声認識装置
KR100281582B1 (ko) 인식기 자원을 효율적으로 사용하는 음성인식 방법
JP2006039383A (ja) 音声認識装置