JP2004184716A - Speech recognition apparatus - Google Patents

Speech recognition apparatus Download PDF

Info

Publication number
JP2004184716A
JP2004184716A JP2002351961A JP2002351961A JP2004184716A JP 2004184716 A JP2004184716 A JP 2004184716A JP 2002351961 A JP2002351961 A JP 2002351961A JP 2002351961 A JP2002351961 A JP 2002351961A JP 2004184716 A JP2004184716 A JP 2004184716A
Authority
JP
Japan
Prior art keywords
network grammar
grammar
recognition
network
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002351961A
Other languages
Japanese (ja)
Other versions
JP4178931B2 (en
Inventor
Takeshi Ono
健 大野
Daisuke Saito
大介 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nissan Motor Co Ltd
Original Assignee
Nissan Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nissan Motor Co Ltd filed Critical Nissan Motor Co Ltd
Priority to JP2002351961A priority Critical patent/JP4178931B2/en
Publication of JP2004184716A publication Critical patent/JP2004184716A/en
Application granted granted Critical
Publication of JP4178931B2 publication Critical patent/JP4178931B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a speech recognition apparatus with a high speech recognition rate. <P>SOLUTION: In the initial state, a signal processing part 3 regards network grammar including an unknown word as an object to be recognized. When, however, a user operates a correction switch 14 for correcting a recognition result and speaks again, the user clearly recognizes the speech contents and unknown words such as "Well" are less included. In this case, network grammar including no unknown word is set to prevent misrecognition due to inclusion of an unknown word. <P>COPYRIGHT: (C)2004,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、音声を認識する音声認識装置に関する。
【0002】
【従来の技術】
【特許文献1】特開平6−266386号公報
従来、音声認識を行う装置として、たとえば特開平6−266386号公報に開示されたようなものがある。これは入力音声の時刻に同期して入力音声中に存在するキーワードを検出し、音声認識を行っている。
【0003】
【発明が解決しようとする課題】
このような上記従来の音声認識装置にあっては、使用者が未知語を発話する可能性が少ない場合においても未知語を含む発話を認識可能としているために、音声中に未知語が含まれていないにもかかわらず、音声中に未知語が含まれていると認識してしまい、音声認識率が低下するといった問題があった。たとえば地名を発話する場合において、使用者が「神奈川県横浜市旭区」と発話し、音声認識装置が未知語を含む音声を認識可能状態である場合、認識結果が「神奈川県横浜市あ瀬谷区」と、未知語である「あ」が含まれた音声であると認識されてしまい、「旭区」であるべき認識結果が「あ瀬谷区」と誤認識されてしまっていた。
【0004】
そこで本発明はこのような問題点に鑑み、音声認識率の高い音声認識装置を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は、認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、認識結果の訂正を指示する誤認識訂正指示部を備え、記憶部は未知語を含まないネットワーク文法を記憶し、ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、誤認識訂正指示部から認識結果の訂正指示があった場合には、未知語を含まないネットワーク文法を認識対象として設定するものとした。
【0006】
【発明の効果】
本発明によれば、音声認識装置は初期状態では未知語を含むネットワーク文法を認識対象とするが、音声の認識結果に対して誤認識訂正指示部から訂正指示があった場合、未知語を含まないネットワーク文法を認識対象として設定する。音声認識装置の使用者が訂正後の発話を行う際には、発話内容を正確に認識しており、発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合に、未知語を含まないネットワーク文法を認識対象とすることにより、未知語が含まれることに起因する誤認識を防止することができる。
【0007】
【発明の実施の形態】
次に本発明の実施の形態を実施例により説明する。
以下に示す各実施例は、本発明における音声認識装置を車両のナビゲーションシステムに適用したものである。
図1に、第一の実施例における車両のナビゲーションシステムの全体構成を示す。
図示しないGPS(Global Positioning System)アンテナによって受信された信号より自車両の位置を演算し、使用者に各種の情報を提示するナビゲーション制御部2が、音声の認識処理を行う信号処理部3に接続される。
【0008】
信号処理部3はメモリやCPUから構成される。信号処理部3には、音声認識を行う認識対象語とその他の未知語用の音響モデル、および認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶している記憶部6と、発話スイッチ13および訂正スイッチ14を備えた入力部12とが接続される。
【0009】
また信号処理部3には、D/Aコンバータ7、出力アンプ8を介してスピーカ9が接続され、信号処理部3から出力されたデジタルの音声信号がD/Aコンバータ7によってアナログの音声信号に変換され、出力アンプ8によって増幅されてスピーカ9から音声として出力される。
信号処理部3には、A/Dコンバータ10を介してマイク11が接続され、マイク11から入力されたアナログの音声信号がA/Dコンバータ10によってデジタルの音声信号に変換されて信号処理部3に伝達される。
【0010】
ナビゲーション制御部2は表示部16およびスピーカ9に接続されており、表示部16およびスピーカ9を通じて車両のドライバ等に位置情報等を提示する。信号処理部3、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1が構成される。
また、音声認識部1、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20が構成される。
【0011】
次に図2のフローチャートを用いて、ナビゲーションシステムの音声認識処理の流れについて説明する。
なお本実施例においては、ナビゲーション制御部2に目的地の入力を行うために発話された地名の音声認識処理について説明する。
ステップ100において、信号処理部3はナビゲーションシステム20の使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ101へ進む。
【0012】
ステップ101において、信号処理部3は記憶部6に記憶されたネットワーク文法を認識対象として設定する。ここでネットワーク文法とは地名の階層構造の文法を指すものとし、図3にその一例を示す。まずはじめに都道府県名を認識対象語として規定し、次に各都道府県に対応する市町村名のように順次地名を規定する。また未知語が挿入される可能性のある各単語の前には、図中UKで示すように未知語(たとえば「あー」、「えー」、「のー」等)を認識対象語として規定する。このようにネットワーク文法として、地名の文中に未知語が出現する順序関係が規定される。
これにより使用者が地名以外の未知語を含む発話、たとえば「えー神奈川県のー横浜市のー旭区」と発話した際にも、未知語を含む地名を認識することができる。
【0013】
図2のステップ102において、信号処理部3はステップ101において設定したネットワーク文法にもとづいて最大待受け時間を設定する。この最大待受け時間は、設定したネットワーク文法の最長の地名が発話された際にも、信号処理部3が十分に発話を受理できるように設定される。
【0014】
ステップ103において、信号処理部3は音声取り込み処理を開始した旨を使用者に知らせるために、記憶部6に記憶された告知音声信号をD/Aコンバータ7および出力アンプ8を通じて、スピーカ9から出力する。
【0015】
音声取り込み開始を知らせる告知音声を聞いた使用者は、認識対象に含まれる単語の発話を行う。なお本実施例において、認識対象は図3に示すような地名とする。
マイク11から入力された音声信号は、A/Dコンバータ10によってデジタル信号に変換されて信号処理部3に入力される。
【0016】
発話スイッチ13が操作されるまでの間、信号処理部3はA/Dコンバータ10によって変換された音声のデジタル信号の平均パワーを演算している。発話スイッチ13が操作された後、演算していた平均パワーに比べてデジタル信号の瞬間パワーが所定値以上大きくなったときに、ステップ104において、使用者が発話したと判断して音声の取り込みを開始する。
【0017】
音声取り込みが開始されると、ステップ105において信号処理部3は記憶部6に記憶された認識対象語との一致度演算を開始する。一致度とは取り込まれた音声部分と個々の認識対象語とがどの程度似ているかを指し、さらにこの一致度はスコアとして得られる。本実施例において、スコアの値が大きいほど一致度が高いとする。
なお、このステップの処理を行う間も、並列して信号処理部3による音声取り込みは継続されている。
【0018】
ステップ106において、発話の終端が検出されたかどうかの判断を行う。この終端の検出は、音声のデジタル信号の瞬間パワーが所定値以下の状態が所定時間以上続いた場合に、使用者の発話が終了したと判断するものである。発話の終端を検出した場合はステップ107へ進み、終了していない場合はステップ111へ進む。
【0019】
ステップ111において、音声取り込み開始後、最大待受け時間を経過したかどうかの判断を行い、経過していない場合はステップ104へ戻る。また、最大待受け時間を経過しているときはステップ107へ進む。
【0020】
ステップ107において、音声の取り込み処理を終了し、ステップ108において、信号処理部3は一致度の最も大きい認識対象語を認識結果として、D/Aコンバータ7および出力アンプ8を通じてスピーカ9から出力する。本実施例においては、使用者が発話した「神奈川県横浜市旭区」に対し、信号処理部3は「神奈川県横浜市あ瀬谷区」(「あ」は未知語)と誤認識し、「神奈川県横浜市瀬谷区」をスピーカ9を通して出力したものとする。
【0021】
ステップ109では、ステップ108における認識対象語の出力後、信号処理部3は所定時間内に、入力部12に備えられた訂正スイッチ14が操作されたかどうかの判断を行う。訂正スイッチ14の操作があった場合はナビゲーションシステム20の音声認識結果に対して、使用者が修正要求したと判断してステップ112へ進む。
【0022】
ステップ112において、ネットワーク文法の再設定を行う。ここで再設定するネットワーク文法は、図4に示すように未知語を含まないものであり、ステップ101において設定したネットワーク文法と同様に地名の階層構造の文法を設定する。ネットワーク文法の再設定後、ステップ102へ戻り音声の認識処理を繰り返す。
【0023】
一方、ステップ109において所定時間内に訂正スイッチ14の操作がない場合は、使用者がナビゲーションシステム20の認識結果を容認したと判断してステップ110へ進み、認識結果に応じた処理を行う。本実施例においては、信号処理部3は認識結果である地名をナビゲーション制御部2へ出力する。ナビゲーション制御部2は認識された地名を目的地として設定し、表示部16等を通じて使用者に道案内等の情報提示を行う。
なお本実施例において、訂正スイッチ14が本発明における誤認識訂正指示部を構成する。また本実施例において、図2におけるステップ101およびステップ112が本発明におけるネットワーク文法設定手段を構成する。
【0024】
本実施例は以上のように構成され、音声認識装置の認識結果を訂正するため、使用者が訂正スイッチ14を操作して再度発話を行った場合には、使用者は発話内容を明確に認識しており、「あー」、「えー」などの未知語が含まれることが少ない。よってこのような場合には、未知語を含まないネットワーク文法を認識対象として設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0025】
次に第二の実施例について説明する。
なお本実施例は上記第一の実施例における信号処理部3での処理内容を変更したものである。
図5のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ200からステップ208は上記第一の実施例におけるステップ100からステップ108と同様であり、またステップ210からステップ211は第一の実施例におけるステップ110からステップ111と同様であり説明を省略する。
【0026】
ステップ209において、ステップ208における認識対象語の出力後、信号処理部3は所定時間内に入力部12に備えられた訂正スイッチ14が操作されたかどうかの判断を行う。訂正スイッチ14の操作があった場合はナビゲーションシステム20の音声認識結果に対して、使用者が修正要求したと判断してステップ212へ進む。訂正スイッチ14の操作がない場合はステップ210へ進む。
【0027】
ステップ212では、信号処理部3は認識結果に未知語が含まれているかどうかを判断し、未知語を含む場合はステップ213へ進む。また未知語を含まない場合は、ステップ202へ戻り、音声の認識処理を繰り返す。
ステップ213では、未知語を含まないネットワーク文法を認識対象として再設定し、ステップ202へ戻り音声の認識処理を繰り返す。
なお本実施例において、図5におけるステップ201およびステップ213が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0028】
本実施例は以上のように構成され、信号処理部3による音声の認識結果が未知語を含む場合であって、かつその認識結果が誤認識であり訂正スイッチが操作されたあとの発話に対しては、未知語を含まないネットワーク文法を認識対象として設定する。このように未知語を含む認識結果に対して訂正が指示された場合、この誤認識が未知語を含むことに起因する可能性が高い。よってこのような場合には未知語を含まないネットワーク文法を設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0029】
次に第三の実施例について説明する。
図6に本実施例における車両のナビゲーションシステムの全体構成を示す。
音声の認識処理を行う信号処理部3Aの内部に、ナビゲーションシステムの音声認識処理の使用回数、すなわち音声認識処理の実行回数を記憶する使用回数記憶部23を有している。
信号処理部3A、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Aが構成される。
【0030】
また音声認識部1A、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Aが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0031】
次に図7のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ300において、信号処理部3Aはナビゲーションシステム20Aの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ301へ進む。
【0032】
ステップ301において、信号処理部3Aは使用回数記憶部23に記憶された音声認識装置の使用回数が所定値以上かどうかを判断し、所定値未満である場合はステップ302へ進み、使用回数が所定値以上である場合はステップ303へ進む。
【0033】
ステップ302において、信号処理部3Aは、記憶部6に記憶された図3に示すような未知語を含むネットワーク文法を認識対象として設定する。
ステップ303において、信号処理部3Aは、記憶部6に記憶された図4に示すような未知語を含まないネットワーク文法を認識対象として設定する。
【0034】
ステップ304では、ステップ302またはステップ303において設定されたネットワーク文法にもとづいて最大待受け時間を設定する。
ステップ305からステップ313は上記第一の実施例におけるステップ103からステップ111と同様であり説明を省略する。
なお本実施例において、図7におけるステップ301からステップ303が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0035】
本実施例は以上のように構成され、音声認識処理の使用回数が所定値未満の場合には、未知語を含むネットワーク文法を認識対象とするが、使用回数が所定値以上の場合には、未知語を含まないネットワーク文法を認識対象とする。
使用者のナビゲーションシステムの音声認識処理の使用頻度が多くなってきた場合、使用者の発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合には、未知語を含まないネットワーク文法を設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【0036】
次に第四の実施例について説明する。
図8に本実施例における車両のナビゲーションシステムの全体構成を示す。
音声の認識処理を行う信号処理部3Bの内部に、車両内の騒音量を計測する騒音計測部24を有している。
信号処理部3B、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Bが構成される。
【0037】
また音声認識部1B、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Bが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0038】
次に図9のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ400において、信号処理部3Bはナビゲーションシステム20Bの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ401へ進む。
【0039】
ここで信号処理部3Bは、騒音計測部24によって計測される騒音を常時監視しており、使用者が発話スイッチ13を押す以前の音信号の所定時間あたりの平均パワーを騒音量として算出している。
ステップ401において、信号処理部3は騒音計測部24によって計測された騒音量が所定値以上かどうかを判断し、所定値以上である場合にはステップ403において、未知語を含まないネットワーク文法を認識対象として設定する。
【0040】
一方ステップ401において、騒音量が所定値以下である場合には、ステップ402において未知語を含むネットワーク文法を認識対象として設定する。
ステップ404においては、ステップ402またはステップ403において設定されたネットワーク文法にもとづいて最大待受け時間を設定する。
ステップ405からステップ413は、上記第一の実施例におけるステップ103からステップ111と同様であり説明を省略する。
なお本実施例において、図9におけるステップ401からステップ403が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0041】
本実施例は以上のように構成され、騒音計測部24によって計測された騒音量が所定値以上のときには、未知語を含まないネットワーク文法を認識対象とする。使用者は車両内の騒音が大きい場合には、簡潔に発話した方が音声の認識率が高くなることを使用経験から認知するようになり、使用者の発話中に「あー」、「えー」などの未知語が含まれることが少なくなる。よってこのような場合には、未知語を含まないネットワーク文法を設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【0042】
次に第五の実施例について説明する。
図10に本実施例における車両のナビゲーションシステムの全体構成を示す。音声の認識処理を行う信号処理部3Cの内部に、発話された文の発話頻度を係数する発話頻度係数部25を有している。また信号処理部3Cは、発話頻度係数部25によって係数された発話頻度を記憶部6に記憶する。
【0043】
信号処理部3C、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Cが構成される。
また音声認識部1C、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Cが構成される。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0044】
次に図11のフローチャートを用いて、本実施例におけるナビゲーションシステムの音声認識処理の流れについて説明する。
ステップ500において、信号処理部3Cはナビゲーションシステム20Cの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ501へ進む。
【0045】
ステップ501において、信号処理部3Cは、認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を認識対象として設定する。図12にネットワーク文法の例を示す。図は地名の階層構造の文法を示し、未知語が挿入される可能性のある箇所を図中「UK」で示している。信号処理部3Cは、図12の上段に示すように未知語を含む文法と、図の下段に示すように未知語を含まない文法とを同時に認識対象としている。
【0046】
またステップ501においてネットワーク文法を設定する際に、記憶部6に記憶された発話頻度が所定値以上の発話文については、未知語を含まないネットワーク文法として設定する。
たとえば、過去に所定回数以上「神奈川県横浜市旭区」が認識結果となる地名の発話があった場合、この地名は図12のAに示すように未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法の認識対象語からは排除する。
【0047】
ステップ502からステップ511は、上記第一の実施例におけるステップ102からステップ111と同じであり説明を省略する。
なお本実施例において、図11におけるステップ501が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0048】
本実施例は以上のように構成され、発話頻度係数部25によって発話頻度が所定値以上係数された発話文については、その発話文を未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法からは排除する。使用者は言いなれた発話に対しては、「あー」、「えー」などの未知語を含む発話をすることが少なくなる。よってこのような認識対象語は未知語を含まないネットワーク文法として設定することにより、未知語が含まれることに起因する誤認識を低減することができる。
【0049】
次に第六の実施例について説明する。
図13に本実施例における車両のナビゲーションシステムの全体構成を示す。音声の認識処理を行う信号処理部3Dの内部に、使用者の地名に対するなじみ度を判断するなじみ度判断部26を有している。
信号処理部3D、記憶部6、D/Aコンバータ7、出力アンプ8およびA/Dコンバータ10より音声認識部1Dが構成される。
また音声認識部1D、ナビゲーション制御部2、表示部16、スピーカ9、マイク11および入力部12よりナビゲーションシステム20Dが構成される。
【0050】
なじみ度判断部26が行う地名に対するなじみ度判断は、たとえば使用者がナビゲーションシステム20Dに登録した自宅住所、過去の走行履歴、過去に行ったことがある場所、あるいはこれらの場所の近傍の地名などについては、なじみ度があると判断するものである。
なお本実施例において、上記第一の実施例と同じ構成については同じ番号を付して説明を省略する。
【0051】
本実施例における音声認識処理は、上記第五の実施例における図11のフローチャートのステップ501をステップ601に置き換えたものであり、他のステップについては説明を省略する。
ステップ500において、信号処理部3Dはナビゲーションシステム20Dの使用者によって、発話の開始を指示する入力部12に設けられた発話スイッチ13が操作されたかどうかの判断を行う。発話スイッチ13の操作があった場合にはステップ601へ進む。
【0052】
ステップ601において、信号処理部3Dは認識対象であるネットワーク文法を設定する際に、なじみ度判断部26によってなじみ度があると判断された地名については、未知語を含まないネットワーク文法として設定し、かつ未知語を含むネットワーク文法からは排除する。ネットワーク文法の設定後ステップ502へ進む。
本実施例において、図11におけるステップ601が本発明におけるネットワーク文法設定手段を構成する。また訂正スイッチ14が本発明における誤認識訂正指示部を構成する。
【0053】
本実施例は以上のように構成され、なじみ度判断部26によってなじみ度があると判断された地名については、使用者は「あー」、「えー」などの未知語を含む発話をすることが少なくなる。よってこのような認識対象語については、未知語を含まないネットワーク文法として設定することにより未知語が含まれることに起因する誤認識を低減することができる。
【図面の簡単な説明】
【図1】本発明における第一の実施例を示す図である。
【図2】第一の実施例における音声認識処理の流れを示す図である。
【図3】未知語を含むネットワーク文法を示す図である。
【図4】未知語を含まないネットワーク文法を示す図である。
【図5】第二の実施例における音声認識処理の流れを示す図である。
【図6】第三の実施例を示す図である。
【図7】第三の実施例における音声認識処理の流れを示す図である。
【図8】第四の実施例を示す図である。
【図9】第四の実施例における音声認識処理の流れを示す図である。
【図10】第五の実施例を示す図である。
【図11】第五および第六の実施例における音声認識処理の流れを示す図である。
【図12】ネットワーク文法を示す図である。
【図13】第六の実施例を示す図である。
【符号の説明】
1、1A、1B、1C,1D 音声認識部
2 ナビゲーション制御部
3、3A、3B、3C、3D 信号処理部
6 記憶部
7 D/Aコンバータ
8 出力アンプ
9 スピーカ
10 A/Dコンバータ
11 マイク
12 入力部
13 発話スイッチ
14 訂正スイッチ
16 表示部
20、20A、20B、20C、20D ナビゲーションシステム
23 使用回数記憶部
24 騒音計測部
25 発話頻度係数部
26 なじみ度判断部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a voice recognition device that recognizes voice.
[0002]
[Prior art]
[Patent Document 1] Japanese Patent Application Laid-Open No. 6-266386 Conventionally, as an apparatus for performing voice recognition, there is one disclosed, for example, in Japanese Patent Application Laid-Open No. 6-266386. This detects a keyword present in the input voice in synchronization with the time of the input voice, and performs voice recognition.
[0003]
[Problems to be solved by the invention]
In the above-described conventional speech recognition device, since the utterance including the unknown word can be recognized even when the user is unlikely to utter the unknown word, the unknown word is not included in the speech. In spite of this, there is a problem that an unknown word is included in the voice and the voice recognition rate is reduced. For example, when uttering a place name, if the user utters “Asahi-ku, Yokohama-shi, Kanagawa” and the speech recognition device is in a state where it can recognize speech including unknown words, the recognition result is “Aseya, Yokohama-shi, Kanagawa, Japan”. The word "ku" was recognized as a voice containing the unknown word "a", and the recognition result that should be "asahi-ku" was erroneously recognized as "asen-ku".
[0004]
Accordingly, an object of the present invention is to provide a speech recognition device having a high speech recognition rate in view of such a problem.
[0005]
[Means for Solving the Problems]
The present invention is a storage unit that stores a network grammar that defines an order relationship in which a recognition target word and other unknown words appear, a network grammar setting unit that sets the network grammar stored in the storage unit as a recognition target, A speech recognition device having a signal processing unit for performing a speech signal recognition process based on the grammar set by the network grammar setting means, comprising a misrecognition correction instructing unit for instructing correction of a recognition result; The network grammar that does not include the unknown word is stored, and the network grammar setting unit recognizes the network grammar that includes the unknown word in the initial state. , A network grammar that does not include unknown words is set as a recognition target.
[0006]
【The invention's effect】
According to the present invention, the speech recognition device initially recognizes a network grammar including an unknown word as an object to be recognized, but includes an unknown word when a speech recognition result is instructed to be corrected by an erroneous recognition correction instructing unit. Set network grammar that does not exist as a recognition target. When the user of the speech recognition device performs the corrected utterance, the utterance content is accurately recognized, and the utterance is less likely to contain unknown words such as “ah” and “er”. Therefore, in such a case, by making a network grammar that does not include an unknown word a recognition target, it is possible to prevent erroneous recognition caused by including an unknown word.
[0007]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to examples.
In each of the embodiments described below, the speech recognition device according to the present invention is applied to a vehicle navigation system.
FIG. 1 shows the overall configuration of a vehicle navigation system according to the first embodiment.
The navigation control unit 2 that calculates the position of the vehicle based on a signal received by a GPS (Global Positioning System) antenna (not shown) and presents various information to the user is connected to a signal processing unit 3 that performs voice recognition processing. Is done.
[0008]
The signal processing unit 3 includes a memory and a CPU. The signal processing unit 3 stores an acoustic model for a recognition target word for performing speech recognition and other unknown words, and a network grammar that defines an order relation in which the recognition target word and the other unknown words appear. 6 is connected to the input unit 12 including the speech switch 13 and the correction switch 14.
[0009]
A speaker 9 is connected to the signal processing unit 3 via a D / A converter 7 and an output amplifier 8, and the digital audio signal output from the signal processing unit 3 is converted into an analog audio signal by the D / A converter 7. It is converted, amplified by the output amplifier 8 and output from the speaker 9 as sound.
A microphone 11 is connected to the signal processing unit 3 via an A / D converter 10, and an analog audio signal input from the microphone 11 is converted into a digital audio signal by the A / D converter 10, and the signal processing unit 3 Is transmitted to.
[0010]
The navigation control unit 2 is connected to the display unit 16 and the speaker 9, and presents position information and the like to a vehicle driver or the like through the display unit 16 and the speaker 9. The speech recognition unit 1 is composed of the signal processing unit 3, the storage unit 6, the D / A converter 7, the output amplifier 8, and the A / D converter 10.
In addition, a navigation system 20 includes the voice recognition unit 1, the navigation control unit 2, the display unit 16, the speaker 9, the microphone 11, and the input unit 12.
[0011]
Next, the flow of the voice recognition processing of the navigation system will be described with reference to the flowchart of FIG.
In this embodiment, a speech recognition process of a place name spoken for inputting a destination to the navigation control unit 2 will be described.
In step 100, the signal processing unit 3 determines whether the user of the navigation system 20 has operated the utterance switch 13 provided on the input unit 12 for instructing the start of utterance. When the utterance switch 13 is operated, the process proceeds to step 101.
[0012]
In step 101, the signal processing unit 3 sets the network grammar stored in the storage unit 6 as a recognition target. Here, the network grammar refers to a grammar having a hierarchical structure of place names, and FIG. 3 shows an example thereof. First, the names of prefectures are defined as words to be recognized, and then the names of places are sequentially defined, such as the names of municipalities corresponding to each prefecture. Before each word into which an unknown word may be inserted, an unknown word (for example, “Ah”, “Eh”, “Noh”, etc.) is defined as a recognition target word as shown by UK in the figure. . As described above, the order relation in which unknown words appear in the sentence of the place name is defined as the network grammar.
Thus, even when the user utters an utterance including an unknown word other than the place name, for example, “Er-Asa Ward of Yokohama City in Kanagawa Prefecture”, the place name including the unknown word can be recognized.
[0013]
In step 102 of FIG. 2, the signal processing unit 3 sets the maximum standby time based on the network grammar set in step 101. The maximum standby time is set so that the signal processing unit 3 can sufficiently receive the utterance even when the longest place name of the set network grammar is uttered.
[0014]
In step 103, the signal processing unit 3 outputs the notification voice signal stored in the storage unit 6 from the speaker 9 through the D / A converter 7 and the output amplifier 8 to notify the user that the voice capturing process has started. I do.
[0015]
The user who hears the notification voice notifying the start of voice capture speaks a word included in the recognition target. In this embodiment, the recognition target is a place name as shown in FIG.
The audio signal input from the microphone 11 is converted into a digital signal by the A / D converter 10 and input to the signal processing unit 3.
[0016]
Until the utterance switch 13 is operated, the signal processing unit 3 calculates the average power of the audio digital signal converted by the A / D converter 10. After the utterance switch 13 is operated, when the instantaneous power of the digital signal becomes larger than the calculated average power by a predetermined value or more, in step 104, it is determined that the user has uttered, and the voice is captured. Start.
[0017]
When the voice capture is started, the signal processing unit 3 starts calculating the degree of coincidence with the recognition target word stored in the storage unit 6 in step 105. The degree of coincidence indicates how similar the captured voice part is to the individual recognition target words, and the degree of coincidence is obtained as a score. In this embodiment, it is assumed that the higher the score value, the higher the matching degree.
It should be noted that during the processing of this step, the voice capturing by the signal processing unit 3 is continued in parallel.
[0018]
In step 106, it is determined whether the end of the utterance has been detected. The detection of the termination is to judge that the utterance of the user has ended when the instantaneous power of the audio digital signal is lower than the predetermined value for a predetermined time or more. If the end of the utterance has been detected, the process proceeds to step 107; otherwise, the process proceeds to step 111.
[0019]
In step 111, it is determined whether or not the maximum standby time has elapsed after the start of voice capture. If not, the process returns to step 104. If the maximum standby time has elapsed, the process proceeds to step 107.
[0020]
In step 107, the voice capturing process ends, and in step 108, the signal processing unit 3 outputs the recognition target word having the highest matching degree from the speaker 9 through the D / A converter 7 and the output amplifier 8 as a recognition result. In this embodiment, the signal processing unit 3 misrecognizes "Asa-ku, Yokohama-shi, Kanagawa"("A" is an unknown word) for "Asa-ku, Yokohama-shi, Kanagawa" spoken by the user, and " It is assumed that “Seya-ku, Yokohama-shi, Kanagawa” is output through the speaker 9.
[0021]
In step 109, after outputting the recognition target word in step 108, the signal processing unit 3 determines whether the correction switch 14 provided in the input unit 12 has been operated within a predetermined time. If the correction switch 14 has been operated, it is determined that the user has made a correction request to the voice recognition result of the navigation system 20 and the process proceeds to step 112.
[0022]
In step 112, the network grammar is reset. The network grammar to be reset here does not include unknown words as shown in FIG. 4, and a grammar having a hierarchical structure of place names is set similarly to the network grammar set in step 101. After resetting the network grammar, the process returns to step 102 to repeat the speech recognition process.
[0023]
On the other hand, if there is no operation of the correction switch 14 within the predetermined time in step 109, it is determined that the user has accepted the recognition result of the navigation system 20, and the process proceeds to step 110, where processing according to the recognition result is performed. In the present embodiment, the signal processing unit 3 outputs a place name as a recognition result to the navigation control unit 2. The navigation control unit 2 sets the recognized place name as the destination, and presents information such as road guidance to the user through the display unit 16 or the like.
In this embodiment, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention. In this embodiment, steps 101 and 112 in FIG. 2 constitute a network grammar setting unit in the present invention.
[0024]
This embodiment is configured as described above. In order to correct the recognition result of the speech recognition device, when the user operates the correction switch 14 and speaks again, the user clearly recognizes the utterance content. And rarely include unknown words such as "ah" and "er". Therefore, in such a case, by setting a network grammar that does not include an unknown word as a recognition target, it is possible to reduce erroneous recognition caused by including an unknown word.
[0025]
Next, a second embodiment will be described.
This embodiment is a modification of the processing of the signal processing unit 3 in the first embodiment.
The flow of the voice recognition processing of the navigation system in the present embodiment will be described with reference to the flowchart of FIG.
Steps 200 to 208 are the same as steps 100 to 108 in the first embodiment, and steps 210 to 211 are the same as steps 110 to 111 in the first embodiment, and will not be described.
[0026]
In step 209, after the recognition target word is output in step 208, the signal processing unit 3 determines whether the correction switch 14 provided in the input unit 12 has been operated within a predetermined time. If the correction switch 14 has been operated, it is determined that the user has made a correction request with respect to the speech recognition result of the navigation system 20, and the process proceeds to step 212. If there is no operation of the correction switch 14, the process proceeds to step 210.
[0027]
In step 212, the signal processing section 3 determines whether or not the recognition result includes an unknown word. If the recognition result includes an unknown word, the process proceeds to step 213. If no unknown word is included, the process returns to step 202 to repeat the speech recognition process.
In step 213, a network grammar that does not include an unknown word is reset as a recognition target, and the process returns to step 202 to repeat the speech recognition process.
In this embodiment, steps 201 and 213 in FIG. 5 constitute a network grammar setting unit in the present invention. Further, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention.
[0028]
The present embodiment is configured as described above, in a case where the speech recognition result by the signal processing unit 3 includes an unknown word, and when the recognition result is erroneous recognition and the utterance after the correction switch is operated, In other words, a network grammar that does not include unknown words is set as a recognition target. When the correction is instructed for the recognition result including the unknown word in this way, there is a high possibility that the erroneous recognition is caused by including the unknown word. Therefore, in such a case, by setting a network grammar that does not include an unknown word, it is possible to reduce erroneous recognition caused by including an unknown word.
[0029]
Next, a third embodiment will be described.
FIG. 6 shows the overall configuration of the vehicle navigation system in this embodiment.
The signal processing unit 3A that performs the voice recognition process includes a use frequency storage unit 23 that stores the number of times the voice recognition process of the navigation system is used, that is, the number of times the voice recognition process is executed.
The speech recognition unit 1A is composed of the signal processing unit 3A, the storage unit 6, the D / A converter 7, the output amplifier 8, and the A / D converter 10.
[0030]
A navigation system 20A is constituted by the voice recognition unit 1A, the navigation control unit 2, the display unit 16, the speaker 9, the microphone 11, and the input unit 12.
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0031]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In step 300, the signal processing unit 3A determines whether the user of the navigation system 20A has operated the utterance switch 13 provided on the input unit 12 for instructing the start of utterance. When the utterance switch 13 has been operated, the process proceeds to step 301.
[0032]
In step 301, the signal processing unit 3A determines whether or not the number of times of use of the voice recognition device stored in the number-of-uses storage unit 23 is equal to or greater than a predetermined value. If it is not less than the value, the process proceeds to step 303.
[0033]
In step 302, the signal processing unit 3A sets a network grammar including an unknown word stored in the storage unit 6 as shown in FIG.
In step 303, the signal processing unit 3A sets a network grammar that does not include unknown words and that is stored in the storage unit 6 as illustrated in FIG.
[0034]
In step 304, the maximum standby time is set based on the network grammar set in step 302 or step 303.
Steps 305 to 313 are the same as steps 103 to 111 in the first embodiment, and a description thereof will be omitted.
In this embodiment, steps 301 to 303 in FIG. 7 constitute a network grammar setting unit in the present invention. Further, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention.
[0035]
The present embodiment is configured as described above, and when the number of times of use of the voice recognition process is less than a predetermined value, the network grammar including the unknown word is to be recognized. Network grammar that does not include unknown words is targeted for recognition.
When the frequency of use of the voice recognition processing of the navigation system of the user increases, unknown words such as “ah” and “er” are less included in the utterance of the user. Therefore, in such a case, by setting a network grammar that does not include unknown words, it is possible to reduce erroneous recognition caused by including unknown words.
[0036]
Next, a fourth embodiment will be described.
FIG. 8 shows the overall configuration of the vehicle navigation system in this embodiment.
A noise measurement unit 24 that measures the amount of noise in the vehicle is provided inside the signal processing unit 3B that performs voice recognition processing.
The voice recognition unit 1B is composed of the signal processing unit 3B, the storage unit 6, the D / A converter 7, the output amplifier 8, and the A / D converter 10.
[0037]
A navigation system 20B is composed of the voice recognition unit 1B, the navigation control unit 2, the display unit 16, the speaker 9, the microphone 11, and the input unit 12.
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0038]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In step 400, the signal processing unit 3B determines whether or not the user of the navigation system 20B has operated the utterance switch 13 provided on the input unit 12 for instructing the start of utterance. When the utterance switch 13 is operated, the process proceeds to step 401.
[0039]
Here, the signal processing unit 3B constantly monitors the noise measured by the noise measuring unit 24, and calculates an average power per predetermined time of the sound signal before the user presses the utterance switch 13 as a noise amount. I have.
In step 401, the signal processing unit 3 determines whether the noise amount measured by the noise measuring unit 24 is equal to or more than a predetermined value, and if it is equal to or more than the predetermined value, in step 403, recognizes a network grammar that does not include an unknown word. Set as target.
[0040]
On the other hand, if the noise amount is equal to or smaller than the predetermined value in step 401, a network grammar including an unknown word is set as a recognition target in step 402.
In step 404, the maximum standby time is set based on the network grammar set in step 402 or 403.
Steps 405 to 413 are the same as steps 103 to 111 in the first embodiment, and a description thereof will be omitted.
In this embodiment, steps 401 to 403 in FIG. 9 constitute the network grammar setting means in the present invention. Further, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention.
[0041]
The present embodiment is configured as described above. When the noise amount measured by the noise measurement unit 24 is equal to or more than a predetermined value, a network grammar that does not include an unknown word is set as a recognition target. If the noise in the vehicle is high, the user will recognize from the experience that the utterance of the utterance will be higher if he / she speaks succinctly, and during the utterance of the user, "Ah", "Eh" Unknown words such as are reduced. Therefore, in such a case, by setting a network grammar that does not include unknown words, it is possible to reduce erroneous recognition caused by including unknown words.
[0042]
Next, a fifth embodiment will be described.
FIG. 10 shows the overall configuration of the vehicle navigation system in this embodiment. The signal processing unit 3C that performs the speech recognition processing includes an utterance frequency coefficient unit 25 that calculates the utterance frequency of the uttered sentence. The signal processing unit 3 </ b> C stores the speech frequency calculated by the speech frequency coefficient unit 25 in the storage unit 6.
[0043]
The speech recognition unit 1C is configured by the signal processing unit 3C, the storage unit 6, the D / A converter 7, the output amplifier 8, and the A / D converter 10.
Further, a navigation system 20C includes the voice recognition unit 1C, the navigation control unit 2, the display unit 16, the speaker 9, the microphone 11, and the input unit 12.
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0044]
Next, the flow of the voice recognition processing of the navigation system in the present embodiment will be described using the flowchart of FIG.
In step 500, the signal processing unit 3C determines whether or not the user of the navigation system 20C has operated the utterance switch 13 provided on the input unit 12 for instructing the start of utterance. If the utterance switch 13 has been operated, the process proceeds to step 501.
[0045]
In step 501, the signal processing unit 3C sets, as a recognition target, a network grammar that defines an order relationship in which the recognition target word and other unknown words appear. FIG. 12 shows an example of the network grammar. The figure shows the grammar of the hierarchical structure of place names, and places where an unknown word may be inserted are indicated by “UK” in the figure. The signal processing unit 3C simultaneously recognizes a grammar including an unknown word as shown in the upper part of FIG. 12 and a grammar not including the unknown word as shown in the lower part of FIG.
[0046]
When the network grammar is set in step 501, the utterance sentence whose utterance frequency stored in the storage unit 6 is equal to or more than a predetermined value is set as a network grammar that does not include an unknown word.
For example, if there is a utterance of a place name in which “Asahi-ku, Yokohama-shi, Kanagawa-ken” is a recognition result more than a predetermined number of times in the past, this place name is set as a network grammar that does not include unknown words as shown in FIG. In addition, it is excluded from words to be recognized in network grammar including unknown words.
[0047]
Steps 502 to 511 are the same as steps 102 to 111 in the first embodiment, and a description thereof will be omitted.
In this embodiment, step 501 in FIG. 11 constitutes a network grammar setting unit in the present invention. Further, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention.
[0048]
The present embodiment is configured as described above. For an utterance sentence whose utterance frequency is increased by a predetermined value or more by the utterance frequency coefficient unit 25, the utterance sentence is set as a network grammar that does not include an unknown word, and the unknown word is set. Exclude from network grammar including. The user is less likely to make utterances containing unknown words such as "ah" and "er" for the uttered utterances. Therefore, by setting such a recognition target word as a network grammar that does not include an unknown word, it is possible to reduce erroneous recognition caused by including an unknown word.
[0049]
Next, a sixth embodiment will be described.
FIG. 13 shows the overall configuration of the vehicle navigation system in this embodiment. The signal processing unit 3D that performs the voice recognition process includes a familiarity determination unit 26 that determines the familiarity with the place name of the user.
The voice recognition unit 1D is configured by the signal processing unit 3D, the storage unit 6, the D / A converter 7, the output amplifier 8, and the A / D converter 10.
Further, a navigation system 20D includes the voice recognition unit 1D, the navigation control unit 2, the display unit 16, the speaker 9, the microphone 11, and the input unit 12.
[0050]
The familiarity degree determination for the place name performed by the familiarity degree determination unit 26 may be, for example, a home address registered by the user in the navigation system 20D, a past driving history, a place that has been performed in the past, or a place name near these places. Is determined to be familiar.
In this embodiment, the same components as those in the first embodiment are denoted by the same reference numerals, and description thereof is omitted.
[0051]
The voice recognition processing in the present embodiment is obtained by replacing step 501 in the flowchart of FIG. 11 in the fifth embodiment with step 601, and the description of the other steps will be omitted.
In step 500, the signal processing unit 3D determines whether the user of the navigation system 20D has operated the utterance switch 13 provided in the input unit 12 for instructing the start of utterance. When the utterance switch 13 is operated, the process proceeds to step 601.
[0052]
In step 601, when setting the network grammar to be recognized, the signal processing unit 3D sets a place name determined to be familiar by the familiarity determination unit 26 as a network grammar that does not include unknown words, In addition, it is excluded from network grammar including unknown words. After setting the network grammar, the process proceeds to step 502.
In this embodiment, step 601 in FIG. 11 constitutes a network grammar setting unit in the present invention. Further, the correction switch 14 constitutes an erroneous recognition / correction instruction section in the present invention.
[0053]
The present embodiment is configured as described above, and for the place name determined to be familiar by the familiarity determination unit 26, the user may utter an utterance including an unknown word such as “ah” or “er”. Less. Therefore, by setting such a recognition target word as a network grammar that does not include an unknown word, it is possible to reduce erroneous recognition caused by including an unknown word.
[Brief description of the drawings]
FIG. 1 is a diagram showing a first embodiment of the present invention.
FIG. 2 is a diagram showing a flow of a voice recognition process in the first embodiment.
FIG. 3 is a diagram illustrating a network grammar including an unknown word.
FIG. 4 is a diagram illustrating a network grammar that does not include unknown words.
FIG. 5 is a diagram showing a flow of a voice recognition process in the second embodiment.
FIG. 6 is a diagram showing a third embodiment.
FIG. 7 is a diagram illustrating a flow of a voice recognition process in the third embodiment.
FIG. 8 is a diagram showing a fourth embodiment.
FIG. 9 is a diagram showing a flow of a voice recognition process in the fourth embodiment.
FIG. 10 is a diagram showing a fifth embodiment.
FIG. 11 is a diagram showing a flow of a voice recognition process in the fifth and sixth embodiments.
FIG. 12 is a diagram showing a network grammar.
FIG. 13 is a view showing a sixth embodiment.
[Explanation of symbols]
1, 1A, 1B, 1C, 1D Voice recognition unit 2 Navigation control unit 3, 3A, 3B, 3C, 3D Signal processing unit 6 Storage unit 7 D / A converter 8 Output amplifier 9 Speaker 10 A / D converter 11 Microphone 12 Input Unit 13 utterance switch 14 correction switch 16 display unit 20, 20A, 20B, 20C, 20D navigation system 23 use frequency storage unit 24 noise measuring unit 25 utterance frequency coefficient unit 26 familiarity determination unit

Claims (6)

認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
認識結果の訂正を指示する誤認識訂正指示部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記誤認識訂正指示部から認識結果の訂正指示があった場合には、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。
A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with an erroneous recognition and correction instruction unit that instructs correction of the recognition result,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state, but, when a recognition result correction instruction is given from the erroneous recognition correction instruction unit, a network grammar not including the unknown word is recognized. A speech recognition device, which is set as a recognition target.
前記ネットワーク文法設定手段は、音声の認識結果に未知語を含む場合であって、かつその後に認識結果の訂正指示があった場合には、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする請求項1記載の音声認識装置。The network grammar setting means sets a network grammar that does not include unknown words as a recognition target when the speech recognition result includes an unknown word, and when there is an instruction to correct the recognition result thereafter. The speech recognition device according to claim 1, wherein: 認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
該音声認識装置の使用回数を記憶する使用回数記憶部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記使用回数記憶部によって記憶された使用回数が所定値以上となった場合に、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。
A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
A use count storage unit that stores the use count of the voice recognition device,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state. However, when the number of uses stored by the use number storage unit is equal to or more than a predetermined value, a network not including an unknown word is recognized. A speech recognition device, wherein a grammar is set as a recognition target.
認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
騒音量を計測する騒音計測部を備え、
前記記憶部は未知語を含まないネットワーク文法を記憶し、
前記ネットワーク文法設定手段は、初期状態では未知語を含むネットワーク文法を認識対象とするが、前記騒音計測部によって計測された騒音量が所定値以上となった場合に、未知語を含まないネットワーク文法を認識対象として設定することを特徴とする音声認識装置。
A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with a noise measurement unit that measures the amount of noise,
The storage unit stores a network grammar that does not include unknown words,
The network grammar setting means recognizes a network grammar including an unknown word in an initial state, but, when the noise amount measured by the noise measurement unit is equal to or more than a predetermined value, a network grammar not including the unknown word. A speech recognition apparatus characterized in that is set as a recognition target.
認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
発話された文の発話頻度を係数する発話頻度係数部を備え、
前記ネットワーク文法設定手段は、前記発話頻度係数部によって所定値以上計数された発話文については、未知語を含まないネットワーク文法として設定することを特徴とする音声認識装置。
A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
An utterance frequency coefficient unit for calculating the utterance frequency of the uttered sentence,
The speech recognition device, wherein the network grammar setting means sets the utterances counted by the utterance frequency coefficient unit to a predetermined value or more as a network grammar that does not include unknown words.
認識対象語とその他の未知語が出現する順序関係を規定したネットワーク文法を記憶する記憶部と、
該記憶部に記憶されたネットワーク文法を認識対象として設定するネットワーク文法設定手段と、
該ネットワーク文法設定手段によって設定された文法にもとづいて、音声信号の認識処理を行う信号処理部とを有する音声認識装置において、
使用者の地名に対するなじみ度を判断するなじみ度判断部を備え、
前記ネットワーク文法設定部は、前記なじみ度判断部によってなじみ度が高いと判断された地名については、未知語を含まないネットワーク文法として設定することを特徴とする音声認識装置。
A storage unit that stores a network grammar that defines an order relationship in which the recognition target word and other unknown words appear,
Network grammar setting means for setting the network grammar stored in the storage unit as a recognition target;
A speech processing device for performing a speech signal recognition process based on the grammar set by the network grammar setting means,
Equipped with a familiarity determination unit that determines the familiarity of the user with the place name,
The speech recognition device, wherein the network grammar setting unit sets a place name determined to be highly familiar by the familiarity determination unit as a network grammar that does not include unknown words.
JP2002351961A 2002-12-04 2002-12-04 Voice recognition device Expired - Fee Related JP4178931B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002351961A JP4178931B2 (en) 2002-12-04 2002-12-04 Voice recognition device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002351961A JP4178931B2 (en) 2002-12-04 2002-12-04 Voice recognition device

Publications (2)

Publication Number Publication Date
JP2004184716A true JP2004184716A (en) 2004-07-02
JP4178931B2 JP4178931B2 (en) 2008-11-12

Family

ID=32753709

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002351961A Expired - Fee Related JP4178931B2 (en) 2002-12-04 2002-12-04 Voice recognition device

Country Status (1)

Country Link
JP (1) JP4178931B2 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171096A (en) * 2004-12-13 2006-06-29 Ntt Docomo Inc Continuous input speech recognition device and continuous input speech recognizing method
JP2006251545A (en) * 2005-03-11 2006-09-21 Fujitsu Ltd Speech interaction system and computer program
JP2007226117A (en) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp Speech recognizing device, speech recognition program, and speech recognition method
WO2009081895A1 (en) * 2007-12-25 2009-07-02 Nec Corporation Voice recognition system, voice recognition method, and voice recognition program
WO2019142418A1 (en) * 2018-01-22 2019-07-25 ソニー株式会社 Information processing device and information processing method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006171096A (en) * 2004-12-13 2006-06-29 Ntt Docomo Inc Continuous input speech recognition device and continuous input speech recognizing method
JP2006251545A (en) * 2005-03-11 2006-09-21 Fujitsu Ltd Speech interaction system and computer program
JP4667085B2 (en) * 2005-03-11 2011-04-06 富士通株式会社 Spoken dialogue system, computer program, dialogue control apparatus, and spoken dialogue method
JP2007226117A (en) * 2006-02-27 2007-09-06 Mitsubishi Electric Corp Speech recognizing device, speech recognition program, and speech recognition method
WO2009081895A1 (en) * 2007-12-25 2009-07-02 Nec Corporation Voice recognition system, voice recognition method, and voice recognition program
JP5310563B2 (en) * 2007-12-25 2013-10-09 日本電気株式会社 Speech recognition system, speech recognition method, and speech recognition program
US8639507B2 (en) 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
WO2019142418A1 (en) * 2018-01-22 2019-07-25 ソニー株式会社 Information processing device and information processing method

Also Published As

Publication number Publication date
JP4178931B2 (en) 2008-11-12

Similar Documents

Publication Publication Date Title
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US8886534B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition robot
US7941313B2 (en) System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US8407051B2 (en) Speech recognizing apparatus
JP4433704B2 (en) Speech recognition apparatus and speech recognition program
JP2002091466A (en) Speech recognition device
US20110288867A1 (en) Nametag confusability determination
KR100766061B1 (en) apparatus and method for speaker adaptive
JP2008097003A (en) Adaptive context for automatic speech recognition systems
JP2000194386A (en) Voice recognizing and responsing device
US9473094B2 (en) Automatically controlling the loudness of voice prompts
US20180075842A1 (en) Remote speech recognition at a vehicle
JP4940887B2 (en) Voice input support program, voice input support device, and voice input support method
JP2001075580A (en) Method and device for voice recognition
JP6459330B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP2007286097A (en) Voice reception claim detection method and device, and voice reception claim detection program and recording medium
JP4178931B2 (en) Voice recognition device
JP3916861B2 (en) Voice recognition device
JP2003241788A (en) Device and system for speech recognition
JP4056711B2 (en) Voice recognition device
JP2020148805A (en) Voice recognition system and voice recognition method
JP2004198832A (en) Speech recognition device
JP2008058452A (en) Speech information authentication apparatus and method
JP6966374B2 (en) Speech recognition system and computer program
JP4979336B2 (en) Audio output device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080422

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080818

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110905

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees