JP2004184716A - Speech recognition apparatus - Google Patents
Speech recognition apparatus Download PDFInfo
- Publication number
- JP2004184716A JP2004184716A JP2002351961A JP2002351961A JP2004184716A JP 2004184716 A JP2004184716 A JP 2004184716A JP 2002351961 A JP2002351961 A JP 2002351961A JP 2002351961 A JP2002351961 A JP 2002351961A JP 2004184716 A JP2004184716 A JP 2004184716A
- Authority
- JP
- Japan
- Prior art keywords
- network grammar
- grammar
- recognition
- network
- storage unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、音声を認識する音声認識装置に関する。
【0002】
【従来の技術】
【特許文献1】特開平6−266386号公報
従来、音声認識を行う装置として、たとえば特開平6−266386号公報に開示されたようなものがある。これは入力音声の時刻に同期して入力音声中に存在するキーワードを検出し、音声認識を行っている。
【0003】
【発明が解決しようとする課題】
このような上記従来の音声認識装置にあっては、使用者が未知語を発話する可能性が少ない場合においても未知語を含む発話を認識可能としているために、音声中に未知語が含まれていないにもかかわらず、音声中に未知語が含まれていると認識してしまい、音声認識率が低下するといった問題があった。たとえば地名を発話する場合において、使用者が「神奈川県横浜市旭区」と発話し、音声認識装置が未知語を含む音声を認識可能状態である場合、認識結果が「神奈川県横浜市あ瀬谷区」と、未知語である「あ」が含まれた音声であると認識されてしまい、「旭区」であるべき認識結果が「あ瀬谷区」と誤認識されてしまっていた。
【0004】
そこで本発明はこのような問題点に鑑み、音声認識率の高い音声認識装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、認識結果の訂正を指示する誤認識訂正指示部を備え、記憶部は未知語を含まないネットワーク文法を記憶し、ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、誤認識訂正指示部から認識結果の訂正指示があった場合には、未知語を含まないネットワーク文法を認識対象として設定するものとした。
【0006】
【発明の効果】
本発明によれば、音声認識装置は初期状態では未知語を含むネットワーク文法を認識対象とするが、音声の認識結果に対して誤認識訂正指示部から訂正指示があった場合、未知語を含まないネットワーク文法を認識対象として設定する。音声認識装置の使用者が訂正後の発話を行う際には、発話内容を正確に認識しており、発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合に、未知語を含まないネットワーク文法を認識対象とすることにより、未知語が含まれることに起因する誤認識を防止することができる。
【0007】
【発明の実施の形態】
次に本発明の実施の形態を実施例により説明する。
以下に示す各実施例は、本発明における音声認識装置を車両のナビゲーションシステムに適用したものである。
図1に、第一の実施例における車両のナビゲーションシステムの全体構成を示す。
図示しないGPS(Global Positioning System)アンテナによって受信された信号より自車両の位置を演算し、使用者に各種の情報を提示するナビゲーション制御部2が、音声の認識処理を行う信号処理部3に接続される。
【0008】
信号処理部3はメモリやCPUから構成される。信号処理部3には、音声認識を行う認識対象語とその他の未知語用の音響モデル、および認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶している記憶部6と、発話スイッチ13および訂正スイッチ14を備えた入力部12とが接続される。
【0009】
また信号処理部3には、D/Aコンバータ7、出力アンプ8を介してスピーカ9が接続され、信号処理部3から出力されたデジタルの音声信号がD/Aコンバータ7によってアナログの音声信号に変換され、出力アンプ8によって増幅されてスピーカ9から音声として出力される。
信号処理部3には、A/Dコンバータ10を介してマイク11が接続され、マイク11から入力されたアナログの音声信号がA/Dコンバータ10によってデジタルの音声信号に変換されて信号処理部3に伝達される。
【0010】
ナビゲーション制御部2は表示部16およびスピーカ9に接続されており、表示部16およびスピーカ9を通じて車両のドライバ等に位置情報等を提示する。信号処理部3、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1が構成される。
また、音声認識部1、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20が構成される。
【0011】
次に図2のフローチャートを用いて、ナビゲーションシステムの音声認識処理の流れについて説明する。
なお本実施例においては、ナビゲーション制御部2に目的地の入力を行うために発話された地名の音声認識処理について説明する。
ステップ100において、信号処理部3はナビゲーションシステム20の使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ101へ進む。
【0012】
ステップ101において、信号処理部3は記憶部6に記憶されたネットワーク文法を認識対象として設定する。ここでネットワーク文法とは地名の階層構造の文法を指すものとし、図3にその一例を示す。まずはじめに都道府県名を認識対象語として規定し、次に各都道府県に対応する市町村名のように順次地名を規定する。また未知語が挿入される可能性のある各単語の前には、図中UKで示すように未知語(たとえば「あー」、「えー」、「のー」等)を認識対象語として規定する。このようにネットワーク文法として、地名の文中に未知語が出現する順序関係が規定される。
これにより使用者が地名以外の未知語を含む発話、たとえば「えー神奈川県のー横浜市のー旭区」と発話した際にも、未知語を含む地名を認識することができる。
【0013】
図2のステップ102において、信号処理部3はステップ101において設定したネットワーク文法にもとづいて最大待受け時間を設定する。この最大待受け時間は、設定したネットワーク文法の最長の地名が発話された際にも、信号処理部3が十分に発話を受理できるように設定される。
【0014】
ステップ103において、信号処理部3は音声取り込み処理を開始した旨を使用者に知らせるために、記憶部6に記憶された告知音声信号をD/Aコンバータ7および出力アンプ8を通じて、スピーカ9から出力する。
【0015】
音声取り込み開始を知らせる告知音声を聞いた使用者は、認識対象に含まれる単語の発話を行う。なお本実施例において、認識対象は図3に示すような地名とする。
マイク11から入力された音声信号は、A/Dコンバータ10によってデジタル信号に変換されて信号処理部3に入力される。
【0016】
発話スイッチ13が操作されるまでの間、信号処理部3はA/Dコンバータ10によって変換された音声のデジタル信号の平均パワーを演算している。発話スイッチ13が操作された後、演算していた平均パワーに比べてデジタル信号の瞬間パワーが所定値以上大きくなったときに、ステップ104において、使用者が発話したと判断して音声の取り込みを開始する。
【0017】
音声取り込みが開始されると、ステップ105において信号処理部3は記憶部6に記憶された認識対象語との一致度演算を開始する。一致度とは取り込まれた音声部分と個々の認識対象語とがどの程度似ているかを指し、さらにこの一致度はスコアとして得られる。本実施例において、スコアの値が大きいほど一致度が高いとする。
なお、このステップの処理を行う間も、並列して信号処理部3による音声取り込みは継続されている。
【0018】
ステップ106において、発話の終端が検出されたかどうかの判断を行う。この終端の検出は、音声のデジタル信号の瞬間パワーが所定値以下の状態が所定時間以上続いた場合に、使用者の発話が終了したと判断するものである。発話の終端を検出した場合はステップ107へ進み、終了していない場合はステップ111へ進む。
【0019】
ステップ111において、音声取り込み開始後、最大待受け時間を経過したかどうかの判断を行い、経過していない場合はステップ104へ戻る。また、最大待受け時間を経過しているときはステップ107へ進む。
【0020】
ステップ107において、音声の取り込み処理を終了し、ステップ108において、信号処理部3は一致度の最も大きい認識対象語を認識結果として、D/Aコンバータ7および出力アンプ8を通じてスピーカ9から出力する。本実施例においては、使用者が発話した「神奈川県横浜市旭区」に対し、信号処理部3は「神奈川県横浜市あ瀬谷区」(「あ」は未知語)と誤認識し、「神奈川県横浜市瀬谷区」をスピーカ9を通して出力したものとする。
【0021】
ステップ109では、ステップ108における認識対象語の出力後、信号処理部3は所定時間内に、入力部12に備えられた訂正スイッチ14が操作されたかどうかの判断を行う。訂正スイッチ14の操作があった場合はナビゲーションシステム20の音声認識結果に対して、使用者が修正要求したと判断してステップ112へ進む。
【0022】
ステップ112において、ネットワーク文法の再設定を行う。ここで再設定するネットワーク文法は、図4に示すように未知語を含まないものであり、ステップ101において設定したネットワーク文法と同様に地名の階層構造の文法を設定する。ネットワーク文法の再設定後、ステップ102へ戻り音声の認識処理を繰り返す。
【0023】
一方、ステップ109において所定時間内に訂正スイッチ14の操作がない場合は、使用者がナビゲーションシステム20の認識結果を容認したと判断してステップ110へ進み、認識結果に応じた処理を行う。本実施例においては、信号処理部3は認識結果である地名をナビゲーション制御部2へ出力する。ナビゲーション制御部2は認識された地名を目的地として設定し、表示部16等を通じて使用者に道案内等の情報提示を行う。
なお本実施例において、訂正スイッチ14が本発明における誤認識訂正指示部を構成する。また本実施例において、図2におけるステップ101およびステップ112が本発明におけるネットワーク文法設定手段を構成する。
【0024】
本実施例は以上のように構成され、音声認識装置の認識結果を訂正するため、使用者が訂正スイッチ14を操作して再度発話を行った場合には、使用者は発話内容を明確に認識しており、「あー」、「えー」などの未知語が含まれることが少ない。よってこのような場合には、未知語を含まないネットワーク文法を認識対象として設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0025】
次に第二の実施例について説明する。
なお本実施例は上記第一の実施例における信号処理部3での処理内容を変更したものである。
図5のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ200からステップ208は上記第一の実施例におけるステップ100からステップ108と同様であり、またステップ210からステップ211は第一の実施例におけるステップ110からステップ111と同様であり説明を省略する。
【0026】
ステップ209において、ステップ208における認識対象語の出力後、信号処理部3は所定時間内に入力部12に備えられた訂正スイッチ14が操作されたかどうかの判断を行う。訂正スイッチ14の操作があった場合はナビゲーションシステム20の音声認識結果に対して、使用者が修正要求したと判断してステップ212へ進む。訂正スイッチ14の操作がない場合はステップ210へ進む。
【0027】
ステップ212では、信号処理部3は認識結果に未知語が含まれているかどうかを判断し、未知語を含む場合はステップ213へ進む。また未知語を含まない場合は、ステップ202へ戻り、音声の認識処理を繰り返す。
ステップ213では、未知語を含まないネットワーク文法を認識対象として再設定し、ステップ202へ戻り音声の認識処理を繰り返す。
なお本実施例において、図5におけるステップ201およびステップ213が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0028】
本実施例は以上のように構成され、信号処理部3による音声の認識結果が未知語を含む場合であって、かつその認識結果が誤認識であり訂正スイッチが操作されたあとの発話に対しては、未知語を含まないネットワーク文法を認識対象として設定する。このように未知語を含む認識結果に対して訂正が指示された場合、この誤認識が未知語を含むことに起因する可能性が高い。よってこのような場合には未知語を含まないネットワーク文法を設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0029】
次に第三の実施例について説明する。
図6に本実施例における車両のナビゲーションシステムの全体構成を示す。
音声の認識処理を行う信号処理部3Aの内部に、ナビゲーションシステムの音声認識処理の使用回数、すなわち音声認識処理の実行回数を記憶する使用回数記憶部23を有している。
信号処理部3A、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Aが構成される。
【0030】
また音声認識部1A、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Aが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0031】
次に図7のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ300において、信号処理部3Aはナビゲーションシステム20Aの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ301へ進む。
【0032】
ステップ301において、信号処理部3Aは使用回数記憶部23に記憶された音声認識装置の使用回数が所定値以上かどうかを判断し、所定値未満である場合はステップ302へ進み、使用回数が所定値以上である場合はステップ303へ進む。
【0033】
ステップ302において、信号処理部3Aは、記憶部6に記憶された図3に示すような未知語を含むネットワーク文法を認識対象として設定する。
ステップ303において、信号処理部3Aは、記憶部6に記憶された図4に示すような未知語を含まないネットワーク文法を認識対象として設定する。
【0034】
ステップ304では、ステップ302またはステップ303において設定されたネットワーク文法にもとづいて最大待受け時間を設定する。
ステップ305からステップ313は上記第一の実施例におけるステップ103からステップ111と同様であり説明を省略する。
なお本実施例において、図7におけるステップ301からステップ303が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0035】
本実施例は以上のように構成され、音声認識処理の使用回数が所定値未満の場合には、未知語を含むネットワーク文法を認識対象とするが、使用回数が所定値以上の場合には、未知語を含まないネットワーク文法を認識対象とする。
使用者のナビゲーションシステムの音声認識処理の使用頻度が多くなってきた場合、使用者の発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合には、未知語を含まないネットワーク文法を設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【0036】
次に第四の実施例について説明する。
図8に本実施例における車両のナビゲーションシステムの全体構成を示す。
音声の認識処理を行う信号処理部3Bの内部に、車両内の騒音量を計測する騒音計測部24を有している。
信号処理部3B、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Bが構成される。
【0037】
また音声認識部1B、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Bが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0038】
次に図9のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ400において、信号処理部3Bはナビゲーションシステム20Bの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ401へ進む。
【0039】
ここで信号処理部3Bは、騒音計測部24によって計測される騒音を常時監視しており、使用者が発話スイッチ13を押す以前の音信号の所定時間あたりの平均パワーを騒音量として算出している。
ステップ401において、信号処理部3は騒音計測部24によって計測された騒音量が所定値以上かどうかを判断し、所定値以上である場合にはステップ403において、未知語を含まないネットワーク文法を認識対象として設定する。
【0040】
一方ステップ401において、騒音量が所定値以下である場合には、ステップ402において未知語を含むネットワーク文法を認識対象として設定する。
ステップ404においては、ステップ402またはステップ403において設定されたネットワーク文法にもとづいて最大待受け時間を設定する。
ステップ405からステップ413は、上記第一の実施例におけるステップ103からステップ111と同様であり説明を省略する。
なお本実施例において、図9におけるステップ401からステップ403が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0041】
本実施例は以上のように構成され、騒音計測部24によって計測された騒音量が所定値以上のときには、未知語を含まないネットワーク文法を認識対象とする。使用者は車両内の騒音が大きい場合には、簡潔に発話した方が音声の認識率が高くなることを使用経験から認知するようになり、使用者の発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合には、未知語を含まないネットワーク文法を設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【0042】
次に第五の実施例について説明する。
図10に本実施例における車両のナビゲーションシステムの全体構成を示す。音声の認識処理を行う信号処理部3Cの内部に、発話された文の発話頻度を係数する発話頻度係数部25を有している。また信号処理部3Cは、発話頻度係数部25によって係数された発話頻度を記憶部6に記憶する。
【0043】
信号処理部3C、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Cが構成される。
また音声認識部1C、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Cが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0044】
次に図11のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ500において、信号処理部3Cはナビゲーションシステム20Cの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ501へ進む。
【0045】
ステップ501において、信号処理部3Cは、認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を認識対象として設定する。図12にネットワーク文法の例を示す。図は地名の階層構造の文法を示し、未知語が挿入される可能性のある箇所を図中「UK」で示している。信号処理部3Cは、図12の上段に示すように未知語を含む文法と、図の下段に示すように未知語を含まない文法とを同時に認識対象としている。
【0046】
またステップ501においてネットワーク文法を設定する際に、記憶部6に記憶された発話頻度が所定値以上の発話文については、未知語を含まないネットワーク文法として設定する。
たとえば、過去に所定回数以上「神奈川県横浜市旭区」が認識結果となる地名の発話があった場合、この地名は図12のAに示すように未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法の認識対象語からは排除する。
【0047】
ステップ502からステップ511は、上記第一の実施例におけるステップ102からステップ111と同じであり説明を省略する。
なお本実施例において、図11におけるステップ501が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0048】
本実施例は以上のように構成され、発話頻度係数部25によって発話頻度が所定値以上係数された発話文については、その発話文を未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法からは排除する。使用者は言いなれた発話に対しては、「あー」、「えー」などの未知語を含む発話をすることが少なくなる。よってこのような認識対象語は未知語を含まないネットワーク文法として設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0049】
次に第六の実施例について説明する。
図13に本実施例における車両のナビゲーションシステムの全体構成を示す。音声の認識処理を行う信号処理部3Dの内部に、使用者の地名に対するなじみ度を判断するなじみ度判断部26を有している。
信号処理部3D、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Dが構成される。
また音声認識部1D、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Dが構成される。
【0050】
なじみ度判断部26が行う地名に対するなじみ度判断は、たとえば使用者がナビゲーションシステム20Dに登録した自宅住所、過去の走行履歴、過去に行ったことがある場所、あるいはこれらの場所の近傍の地名などについては、なじみ度があると判断するものである。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0051】
本実施例における音声認識処理は、上記第五の実施例における図11のフローチャートのステップ501をステップ601に置き換えたものであり、他のステップについては説明を省略する。
ステップ500において、信号処理部3Dはナビゲーションシステム20Dの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ601へ進む。
【0052】
ステップ601において、信号処理部3Dは認識対象であるネットワーク文法を設定する際に、なじみ度判断部26によってなじみ度があると判断された地名については、未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法からは排除する。ネットワーク文法の設定後ステップ502へ進む。
本実施例において、図11におけるステップ601が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0053】
本実施例は以上のように構成され、なじみ度判断部26によってなじみ度があると判断された地名については、使用者は「あー」、「えー」などの未知語を含む発話をすることが少なくなる。よってこのような認識対象語については、未知語を含まないネットワーク文法として設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【図面の簡単な説明】
【図1】本発明における第一の実施例を示す図である。
【図2】第一の実施例における音声認識処理の流れを示す図である。
【図3】未知語を含むネットワーク文法を示す図である。
【図4】未知語を含まないネットワーク文法を示す図である。
【図5】第二の実施例における音声認識処理の流れを示す図である。
【図6】第三の実施例を示す図である。
【図7】第三の実施例における音声認識処理の流れを示す図である。
【図8】第四の実施例を示す図である。
【図9】第四の実施例における音声認識処理の流れを示す図である。
【図10】第五の実施例を示す図である。
【図11】第五および第六の実施例における音声認識処理の流れを示す図である。
【図12】ネットワーク文法を示す図である。
【図13】第六の実施例を示す図である。
【符号の説明】
1、1A、1B、1C,1D 音声認識部
2 ナビゲーション制御部
3、3A、3B、3C、3D 信号処理部
6 記憶部
7 D/Aコンバータ
8 出力アンプ
9 スピーカ
10 A/Dコンバータ
11 マイク
12 入力部
13 発話スイッチ
14 訂正スイッチ
16 表示部
20、20A、20B、20C、20D ナビゲーションシステム
23 使用回数記憶部
24 騒音計測部
25 発話頻度係数部
26 なじみ度判断部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition device that recognizes voice.
[0002]
[Prior art]
[Patent Document 1] Japanese Patent Application Laid-Open No. 6-266386 Conventionally, as an apparatus for performing voice recognition, there is one disclosed, for example, in Japanese Patent Application Laid-Open No. 6-266386. This detects a keyword present in the input voice in synchronization with the time of the input voice, and performs voice recognition.
[0003]
[Problems to be solved by the invention]
In the above-described conventional speech recognition device, since the utterance including the unknown word can be recognized even when the user is unlikely to utter the unknown word, the unknown word is not included in the speech. In spite of this, there is a problem that an unknown word is included in the voice and the voice recognition rate is reduced. For example, when uttering a place name, if the user utters “Asahi-ku, Yokohama-shi, Kanagawa” and the speech recognition device is in a state where it can recognize speech including unknown words, the recognition result is “Aseya, Yokohama-shi, Kanagawa, Japan”. The word "ku" was recognized as a voice containing the unknown word "a", and the recognition result that should be "asahi-ku" was erroneously recognized as "asen-ku".
[0004]
Accordingly, an object of the present invention is to provide a speech recognition device having a high speech recognition rate in view of such a problem.
[0005]
[Means for Solving the Problems]
The present invention is a storage unit that stores a network grammar that defines an order relationship in which a recognition target word and other unknown words appear, a network grammar setting unit that sets the network grammar stored in the storage unit as a recognition target, A speech recognition device having a signal processing unit for performing a speech signal recognition process based on the grammar set by the network grammar setting means, comprising a misrecognition correction instructing unit for instructing correction of a recognition result; The network grammar that does not include the unknown word is stored, and the network grammar setting unit recognizes the network grammar that includes the unknown word in the initial state. , A network grammar that does not include unknown words is set as a recognition target.
[0006]
【The invention's effect】
According to the present invention, the speech recognition device initially recognizes a network grammar including an unknown word as an object to be recognized, but includes an unknown word when a speech recognition result is instructed to be corrected by an erroneous recognition correction instructing unit. Set network grammar that does not exist as a recognition target. When the user of the speech recognition device performs the corrected utterance, the utterance content is accurately recognized, and the utterance is less likely to contain unknown words such as “ah” and “er”. Therefore, in such a case, by making a network grammar that does not include an unknown word a recognition target, it is possible to prevent erroneous recognition caused by including an unknown word.
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to examples.
In each of the embodiments described below, the speech recognition device according to the present invention is applied to a vehicle navigation system.
FIG. 1 shows the overall configuration of a vehicle navigation system according to the first embodiment.
The
[0008]
The
[0009]
A
A
[0010]
The
In addition, a
[0011]
Next, the flow of the voice recognition processing of the navigation system will be described with reference to the flowchart of FIG.
In this embodiment, a speech recognition process of a place name spoken for inputting a destination to the
In
[0012]
In
Thus, even when the user utters an utterance including an unknown word other than the place name, for example, “Er-Asa Ward of Yokohama City in Kanagawa Prefecture”, the place name including the unknown word can be recognized.
[0013]
In step 102 of FIG. 2, the
[0014]
In
[0015]
The user who hears the notification voice notifying the start of voice capture speaks a word included in the recognition target. In this embodiment, the recognition target is a place name as shown in FIG.
The audio signal input from the
[0016]
Until the
[0017]
When the voice capture is started, the
It should be noted that during the processing of this step, the voice capturing by the
[0018]
In
[0019]
In
[0020]
In
[0021]
In
[0022]
In
[0023]
On the other hand, if there is no operation of the
In this embodiment, the
[0024]
This embodiment is configured as described above. In order to correct the recognition result of the speech recognition device, when the user operates the
[0025]
Next, a second embodiment will be described.
This embodiment is a modification of the processing of the
The flow of the voice recognition processing of the navigation system in the present embodiment will be described with reference to the flowchart of FIG.
[0026]
In
[0027]
In
In
In this embodiment, steps 201 and 213 in FIG. 5 constitute a network grammar setting unit in the present invention. Further, the
[0028]
The present embodiment is configured as described above, in a case where the speech recognition result by the
[0029]
Next, a third embodiment will be described.
FIG. 6 shows the overall configuration of the vehicle navigation system in this embodiment.
The
The speech recognition unit 1A is composed of the
[0030]
A
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0031]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In
[0032]
In
[0033]
In
In
[0034]
In step 304, the maximum standby time is set based on the network grammar set in
In this embodiment, steps 301 to 303 in FIG. 7 constitute a network grammar setting unit in the present invention. Further, the
[0035]
The present embodiment is configured as described above, and when the number of times of use of the voice recognition process is less than a predetermined value, the network grammar including the unknown word is to be recognized. Network grammar that does not include unknown words is targeted for recognition.
When the frequency of use of the voice recognition processing of the navigation system of the user increases, unknown words such as “ah” and “er” are less included in the utterance of the user. Therefore, in such a case, by setting a network grammar that does not include unknown words, it is possible to reduce erroneous recognition caused by including unknown words.
[0036]
Next, a fourth embodiment will be described.
FIG. 8 shows the overall configuration of the vehicle navigation system in this embodiment.
A
The
[0037]
A
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0038]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In
[0039]
Here, the
In
[0040]
On the other hand, if the noise amount is equal to or smaller than the predetermined value in
In step 404, the maximum standby time is set based on the network grammar set in
In this embodiment, steps 401 to 403 in FIG. 9 constitute the network grammar setting means in the present invention. Further, the
[0041]
The present embodiment is configured as described above. When the noise amount measured by the
[0042]
Next, a fifth embodiment will be described.
FIG. 10 shows the overall configuration of the vehicle navigation system in this embodiment. The signal processing unit 3C that performs the speech recognition processing includes an utterance
[0043]
The
Further, a
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0044]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In
[0045]
In
[0046]
When the network grammar is set in
For example, if there is a utterance of a place name in which “Asahi-ku, Yokohama-shi, Kanagawa-ken” is a recognition result more than a predetermined number of times in the past, this place name is set as a network grammar that does not include unknown words as shown in FIG. In addition, it is excluded from words to be recognized in network grammar including unknown words.
[0047]
In this embodiment,
[0048]
The present embodiment is configured as described above. For an utterance sentence whose utterance frequency is increased by a predetermined value or more by the utterance
[0049]
Next, a sixth embodiment will be described.
FIG. 13 shows the overall configuration of the vehicle navigation system in this embodiment. The
The voice recognition unit 1D is configured by the
Further, a
[0050]
The familiarity degree determination for the place name performed by the familiarity
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0051]
The voice recognition processing in the present embodiment is obtained by replacing
In
[0052]
In
In this embodiment,
[0053]
The present embodiment is configured as described above, and for the place name determined to be familiar by the
[Brief description of the drawings]
FIG. 1 is a diagram showing a first embodiment of the present invention.
FIG. 2 is a diagram showing a flow of a voice recognition process in the first embodiment.
FIG. 3 is a diagram illustrating a network grammar including an unknown word.
FIG. 4 is a diagram illustrating a network grammar that does not include unknown words.
FIG. 5 is a diagram showing a flow of a voice recognition process in the second embodiment.
FIG. 6 is a diagram showing a third embodiment.
FIG. 7 is a diagram illustrating a flow of a voice recognition process in the third embodiment.
FIG. 8 is a diagram showing a fourth embodiment.
FIG. 9 is a diagram showing a flow of a voice recognition process in the fourth embodiment.
FIG. 10 is a diagram showing a fifth embodiment.
FIG. 11 is a diagram showing a flow of a voice recognition process in the fifth and sixth embodiments.
FIG. 12 is a diagram showing a network grammar.
FIG. 13 is a view showing a sixth embodiment.
[Explanation of symbols]
1, 1A, 1B, 1C, 1D
Claims (6)
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
認識結果の訂正を指示する誤認識訂正指示部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記誤認識訂正指示部から認識結果の訂正指示があった場合には、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with an erroneous recognition and correction instruction unit that instructs correction of the recognition result,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state, but, when a recognition result correction instruction is given from the erroneous recognition correction instruction unit, a network grammar not including the unknown word is recognized. A speech recognition device, which is set as a recognition target.
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
該音声認識装置の使用回数を記憶する使用回数記憶部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記使用回数記憶部によって記憶された使用回数が所定値以上となった場合に、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
A use count storage unit that stores the use count of the voice recognition device,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state. However, when the number of uses stored by the use number storage unit is equal to or more than a predetermined value, a network not including an unknown word is recognized. A speech recognition device, wherein a grammar is set as a recognition target.
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
騒音量を計測する騒音計測部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記騒音計測部によって計測された騒音量が所定値以上となった場合に、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with a noise measurement unit that measures the amount of noise,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state, but, when the noise amount measured by the noise measurement unit is equal to or more than a predetermined value, a network grammar not including the unknown word. A speech recognition apparatus characterized in that is set as a recognition target.
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
発話された文の発話頻度を係数する発話頻度係数部を備え、
前記ネットワーク文法設定手段は、前記発話頻度係数部によって所定値以上計数された発話文については、未知語を含まないネットワーク文法として設定することを特徴とする音声認識装置。A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
An utterance frequency coefficient unit for calculating the utterance frequency of the uttered sentence,
The speech recognition device, wherein the network grammar setting means sets the utterances counted by the utterance frequency coefficient unit to a predetermined value or more as a network grammar that does not include unknown words.
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
使用者の地名に対するなじみ度を判断するなじみ度判断部を備え、
前記ネットワーク文法設定部は、前記なじみ度判断部によってなじみ度が高いと判断された地名については、未知語を含まないネットワーク文法として設定することを特徴とする音声認識装置。A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with a familiarity determination unit that determines the familiarity of the user with the place name,
The speech recognition device, wherein the network grammar setting unit sets a place name determined to be highly familiar by the familiarity determination unit as a network grammar that does not include unknown words.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351961A JP4178931B2 (en) | 2002-12-04 | 2002-12-04 | Voice recognition device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002351961A JP4178931B2 (en) | 2002-12-04 | 2002-12-04 | Voice recognition device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004184716A true JP2004184716A (en) | 2004-07-02 |
JP4178931B2 JP4178931B2 (en) | 2008-11-12 |
Family
ID=32753709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002351961A Expired - Fee Related JP4178931B2 (en) | 2002-12-04 | 2002-12-04 | Voice recognition device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4178931B2 (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171096A (en) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | Continuous input speech recognition device and continuous input speech recognizing method |
JP2006251545A (en) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | Speech interaction system and computer program |
JP2007226117A (en) * | 2006-02-27 | 2007-09-06 | Mitsubishi Electric Corp | Speech recognizing device, speech recognition program, and speech recognition method |
WO2009081895A1 (en) * | 2007-12-25 | 2009-07-02 | Nec Corporation | Voice recognition system, voice recognition method, and voice recognition program |
WO2019142418A1 (en) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | Information processing device and information processing method |
-
2002
- 2002-12-04 JP JP2002351961A patent/JP4178931B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006171096A (en) * | 2004-12-13 | 2006-06-29 | Ntt Docomo Inc | Continuous input speech recognition device and continuous input speech recognizing method |
JP2006251545A (en) * | 2005-03-11 | 2006-09-21 | Fujitsu Ltd | Speech interaction system and computer program |
JP4667085B2 (en) * | 2005-03-11 | 2011-04-06 | 富士通株式会社 | Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method |
JP2007226117A (en) * | 2006-02-27 | 2007-09-06 | Mitsubishi Electric Corp | Speech recognizing device, speech recognition program, and speech recognition method |
WO2009081895A1 (en) * | 2007-12-25 | 2009-07-02 | Nec Corporation | Voice recognition system, voice recognition method, and voice recognition program |
JP5310563B2 (en) * | 2007-12-25 | 2013-10-09 | 日本電気株式会社 | Speech recognition system, speech recognition method, and speech recognition program |
US8639507B2 (en) | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
WO2019142418A1 (en) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | Information processing device and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP4178931B2 (en) | 2008-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8639508B2 (en) | User-specific confidence thresholds for speech recognition | |
US8886534B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition robot | |
US7941313B2 (en) | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system | |
US8407051B2 (en) | Speech recognizing apparatus | |
JP4433704B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2002091466A (en) | Speech recognition device | |
US20110288867A1 (en) | Nametag confusability determination | |
KR100766061B1 (en) | apparatus and method for speaker adaptive | |
JP2008097003A (en) | Adaptive context for automatic speech recognition systems | |
JP2000194386A (en) | Voice recognizing and responsing device | |
US9473094B2 (en) | Automatically controlling the loudness of voice prompts | |
US20180075842A1 (en) | Remote speech recognition at a vehicle | |
JP4940887B2 (en) | Voice input support program, voice input support device, and voice input support method | |
JP2001075580A (en) | Method and device for voice recognition | |
JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
JP2007286097A (en) | Voice reception claim detection method and device, and voice reception claim detection program and recording medium | |
JP4178931B2 (en) | Voice recognition device | |
JP3916861B2 (en) | Voice recognition device | |
JP2003241788A (en) | Device and system for speech recognition | |
JP4056711B2 (en) | Voice recognition device | |
JP2020148805A (en) | Voice recognition system and voice recognition method | |
JP2004198832A (en) | Speech recognition device | |
JP2008058452A (en) | Speech information authentication apparatus and method | |
JP6966374B2 (en) | Speech recognition system and computer program | |
JP4979336B2 (en) | Audio output device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051026 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080515 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080818 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110905 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |