JP2004333703A - 音声認識システムおよび音声認識の訂正・学習方法 - Google Patents
音声認識システムおよび音声認識の訂正・学習方法 Download PDFInfo
- Publication number
- JP2004333703A JP2004333703A JP2003127376A JP2003127376A JP2004333703A JP 2004333703 A JP2004333703 A JP 2004333703A JP 2003127376 A JP2003127376 A JP 2003127376A JP 2003127376 A JP2003127376 A JP 2003127376A JP 2004333703 A JP2004333703 A JP 2004333703A
- Authority
- JP
- Japan
- Prior art keywords
- word
- voice
- recognition
- user
- correct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】音声認識エンジン3による発話音声の誤認識を検知した場合に、当該誤認識された単語に対してユーザが以前に訂正したことのある単語を認識単語リンクDB7から読み出して正解候補として提示するとともに、当該誤認識された単語とユーザにより訂正された正解単語とを対応付けて認識単語リンクDB7に新たに登録するように対話処理部4を構成することにより、誤認識が発生した場合に、正解の確率が高い単語だけを適切な訂正候補としてユーザに提示できるようにして、提示された正解候補の中から何れかを選択するという簡単な操作のみで認識結果を確実に訂正することができるようにする。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は音声認識システムおよび音声認識の訂正・学習方法に関し、特に、認識対象の文字列とその音声パターンとの対応を音声辞書として登録しておき、入力音声との類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識するように成された音声認識システムに用いて好適なものである。
【0002】
【従来の技術】
最近の車両の殆どには、オーディオ装置、エアーコンディショナ、ナビゲーション装置など各種の電子機器が搭載されている。また、最近では、これらの電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムも提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく(リモートコントローラや操作パネル等の操作部を手動で操作せずに)各種電子機器の操作を行うことができる。
【0003】
音声認識システムは通常、ユーザが発声した特定の単語や熟語、簡単な命令文など(本明細書ではこれらを単に「単語」と表現する)を発話コマンドとして認識し、認識単語を音声合成してトークバックする。ユーザは、トークバックされた認識単語の確認を行い、正しければその旨の入力を行う。これに応じてシステムは、認識単語に応じた制御を行う。一方、システムよりトークバックされた認識単語がユーザ発声の単語と異なる場合には、ユーザは再度音声入力を行う。
【0004】
かかる音声認識システムでは、認識対象単語の文字列とその音声パターンとを対応付けた音響モデルを音声辞書データベースにあらかじめ登録しておく。そして、ユーザの入力音声から算出した特徴量と音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を入力音声の文字列であると認識する。
【0005】
このような音声認識システムにおいて、発話音声の誤認識は避けられない。ユーザの発声する音声によっては、誤認識が連続して発生する場合もある。この場合の対策として、類似度が最高位の1単語だけでなく、類似度が上位の複数単語をユーザに提示し、この中から何れかを選択してもらうようにした機能を有するものも提供されている。また、誤認識とされた最高位の認識結果以降の認識結果を順次最高位に導出することにより、見かけ上の認識性能を向上させるようにした技術も提案されている(例えば、特許文献1参照)。
【0006】
【特許文献1】
特開平10−63295号公報
【0007】
また、認識率そのものを上げるための技術として、個々の話者に対応して音響モデルをチューニングし、誤認識の発生を低減するようにした「話者適応化」という手法も種々検討されている(例えば、特許文献2参照)。話者適応化の代表的なものとして、「エンロール」と呼ばれる手法がある。エンロールは、システムの使い始めの段階で、システムからの指示に従ってあらかじめ用意した単語をユーザに読み上げてもらい、その指示単語の音声パターンと話者入力に係る音声パターンとを用いて学習を行うものである(例えば、特許文献3,4参照)。
【0008】
【特許文献2】
特開平7−230295号公報
【特許文献3】
特開2002−132288号公報
【特許文献4】
特開2000−148198号公報
【0009】
【発明が解決しようとする課題】
しかしながら、類似度が上位の複数単語を提示する機能を有していても、システムが連続して誤認識するような場合は、認識エンジンの音響モデルとユーザの音声パターンとが大きくかけ離れていることが多く、類似度により提示した正解候補の全てが誤認識であることが多い。そのため、ユーザは複数の正解候補が提示されてもそれを利用することができず、音声入力を何度もやり直すか、音声入力を諦めてリモコン等によりコマンド入力せざるを得ないという問題があった。
【0010】
また、特許文献1のように見かけ上の認識性能を向上させたとしても、実際の認識率が向上する訳ではない。実際に認識率を上げるためには、話者適応化の処理を行う必要がある。ところが、誤認識が発生することのある通常の使用状態では、常に「システム側の認識単語=ユーザが入力したい正解単語」であるとは限らない。よって、音声入力の結果のみを頼りにして話者適応化を行っても、うまく認識率を上げることができないという問題があった。
【0011】
また、ユーザがリモコン等を操作して入力したコマンドを話者適応化の正解値として利用することも考えられる。しかし、システム側では、リモコン入力されたコマンドが、音声の誤認識が連続した結果リモコン操作に切り替えて訂正入力されたものなのか、音声認識とは関係なくユーザの任意操作により入力されたものなのかを把握できない。そのため、リモコン等による入力コマンドを話者適応化の正解値としては利用することができなかった。
【0012】
このような実情から、車載用の電子機器では、話者適応化の手法として、正解の単語があらかじめ分かっているエンロールが一般的に用いられてきた。ところが、エンロールを用いて音声の認識率を上げる場合には、システムの使い始めの段階で、システム側であらかじめ用意されたいくつかの単語をユーザがわざわざ読み上げなければならない。そのため、ユーザが電子機器に対して実際に行いたい操作とは直接関係のないことで、ユーザに余計な負担が生じてしまうという問題があった。
【0013】
本発明は、このような問題を解決するために成されたものであり、音声の誤認識が発生した場合に、確実かつ簡単に認識結果を訂正できるようにすることを目的とする。
また、本発明は、音声認識の結果を確実かつ簡単に訂正することができ、しかも、時間と労力がかかるエンロールを行うことなく音声認識性能を実際に向上できるようにすることも目的としている。
【0014】
【課題を解決するための手段】
上記した課題を解決するために、本発明では、誤認識された単語とユーザにより訂正された正解単語とを対にしてデータベースに実績として登録しておき、次に同じ発話音声に対して誤認識が発生したときは、その実績に基づいて、ユーザが以前に訂正した正解を今回の正解候補として提示するようにしている。このように構成した本発明によれば、誤認識が発生した場合に、過去の訂正実績からして正解の確率が高いものだけをユーザに提示することが可能となる。
【0015】
本発明の他の態様では、上述のようにして正解候補を提示した後にユーザが選択した候補を、本来認識すべき認識結果として話者適応化手段に提供するようにしている。このように構成した本発明によれば、通常の使用状態においても「ユーザが入力したい正解」をシステム側で正確に把握することが可能となり、その正解と発話音声とを用いて話者適応化を適切に行うことが可能となる。
【0016】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。図1は、本実施形態による音声認識システムの構成例を示すブロック図である。
【0017】
図1に示すように、本実施形態の音声認識システムは、リモコン1などの操作部と、マイク2と、音声認識エンジン3と、対話処理部4と、音声合成エンジン5と、スピーカ6と、認識単語リンクDB(データベース)7と、画面表示制御部8と、ディスプレイ9と、話者適応化モジュール10とを備えて構成されている。上記リモコン1は、発話ボタン1a、訂正ボタン1b、誤認識ボタン1c、ジョイスティック1dおよびOKボタン1eを備えている。
【0018】
リモコン1は、本実施形態の音声認識システムを利用する電子機器(オーディオ装置やナビゲーション装置など)に対してユーザが各種の操作を行うための操作子であり、音声認識を行う際の操作もこのリモコン1によって行う。発話ボタン1aは、発話による音声認識処理の開始を指示するためのボタンである。すなわち、この発話ボタン1aを操作したタイミングに合わせて、発話による音声入力受付状態となる。ジョイスティック1dは、音声の誤認識が発生した場合に、その誤認識単語を正しい単語に訂正する際に使う操作子である。
【0019】
訂正ボタン1bは、本来言いたかったものとは違う単語を間違って発声してしまったようなときなどに、音声入力のやり直しを指示するためのボタンである。誤認識ボタン1cは、誤認識が発生した場合、すなわち、システムよりトークバックされた認識単語がユーザ発声の単語と異なる場合に、ジョイスティック1dを使って誤認識単語の訂正を行うことを指示するためのボタンである。
【0020】
本実施形態ではこのように、音声入力のやり直しや誤認識単語の訂正を指示するために従来は1つのボタンでしかなかった「戻りボタン」を、訂正ボタン1bと誤認識ボタン1cとの2つに分けている。これにより、音声の誤認識が発生した結果としてその認識単語の訂正が指示されたということを、システム側で明確に判別できるようにしている。
【0021】
OKボタン1eは、ジョイスティック1dを使って選択した所望のメニュー項目の決定を指示したり、音声認識処理を利用して入力した情報の最終的な内容が正しい場合にその入力情報(例えば目的地など)をシステムに設定することを指示したりするためのボタンである。このOKボタン1eは、図1のようにこれ単独で専用のボタンとして設けても良いし、発話ボタン1aあるいはジョイスティック1dと兼用するように構成しても良い。
【0022】
音声認識エンジン3は、マイク2より入力された発話音声とあらかじめ用意されている音声辞書とを比較して、当該発話音声に係る単語を認識する。そして、その発話音声に対応するコマンドを、対話処理部4を通じて図示しないオーディオ装置やナビゲーション装置に対して実行する。
【0023】
音声合成エンジン5は、音声認識エンジン3により認識された単語を音声合成してスピーカ6からトークバックする。これに応じてユーザは、トークバックされた認識単語を聞いて、誤認識が発生したかどうかを確認する。誤認識がなければ、ユーザは次の処理の音声入力を行う。一方、誤認識があった場合は、ユーザは誤認識ボタン1cを押して認識単語の訂正を行う。画面表示制御部8は、認識単語の訂正を行う際のリモコン操作画面をディスプレイ9に表示する制御を行う。
【0024】
対話処理部4は、音声認識を行う際におけるユーザとの一連の対話処理を実行する。すなわち、ユーザによる発話ボタン1aの操作に応じて音声認識処理の開始を音声認識エンジン3に対して指示する処理、音声認識エンジン3より認識された単語を音声合成エンジン5に供給してユーザにトークバックする処理、トークバックの結果としてユーザにより誤認識ボタン1cが押された場合に画面表示制御部8を制御してリモコン操作画面をユーザに提供する処理などを実行する。
【0025】
また、対話処理部4は、音声認識エンジン3による発話音声の誤認識を検知した場合、すなわち、ユーザにより誤認識ボタン1cが押された場合に、当該誤認識された単語(音声認識エンジン3による認識結果)と、誤認識ボタン1cの操作後にジョイスティック1dを用いてユーザにより訂正された正解単語とを対応付けて認識単語リンクDB7に登録する処理も行う。このように対話処理部4は、本発明の正解単語登録手段を構成する。
【0026】
対話処理部4が認識単語の訂正時に画面表示制御部8を制御してディスプレイ9に上述のリモコン操作画面を提示する際には、そのとき誤認識した単語に対してユーザが以前に訂正したことのある単語を認識単語リンクDB7から読み出し、これを正解候補のリストとしてユーザに提示する。このように、対話処理部4および画面表示制御部8は、本発明の正解候補提示手段を構成する。
【0027】
さらに、対話処理部4は、マイク2より入力された発話音声とそれに対応する正解単語(誤認識がない場合の認識結果、もしくは誤認識があった場合の訂正結果)とを話者適応化モジュール10に提供する処理も行う。
【0028】
例えば、音声認識エンジン3による発話音声の誤認識を検知しなかった場合、すなわち、誤認識ボタン1cが押されずに発話ボタン1aが押された場合、対話処理部4は、そのときの発話音声と音声認識エンジン3による認識結果とを話者適応化モジュール10に提供する。また、誤認識ボタン1cが押されて認識単語の訂正が行われた場合には、そのときの発話音声とその訂正結果(正解候補からの選択結果)とを話者適応化モジュール10に提供する。このように、対話処理部4は、本発明の情報提供手段も構成する。
【0029】
話者適応化モジュール10は、対話処理部4より提供されるマイク2からの発話音声のパターンと正解音声のパターンとを用いて話者適応化処理を行う。正解音声のパターンは、話者適応化モジュール10が音響モデルとしてあらかじめ備えており、対話処理部4より通知される正解単語に基づき該当する音声パターンを利用して話者適応化を行う。なお、この話者適応化処理の内容については種々の手法を適用することができるが、何れも公知の手法を適用できるので、ここではその詳細な説明を割愛する。
【0030】
図2は、認識単語リンクDB7のデータ構造を示す概念図である。図2において、「リンク単語」は、認識結果に対してユーザがリモコン1を用いて以前に訂正を行ったことのある単語である。すなわち、例えば音声認識エンジン3によって「福島県」と誤認識された結果に対して、ユーザが以前にリモコン1を用いて「佐賀県」あるいは「千葉県」と訂正したことのある実績がこの認識単語リンクDB7に登録されている。
【0031】
次に、上記のように構成した本実施形態による音声認識システムの動作を説明する。なお、音声認識システムの動作を説明する前に、その前提となる発話コマンドの状態遷移について説明しておく。通常、システムに用意されている複数の発話コマンドは、当該システムに対する操作内容に応じて複数の階層に分けて管理されている。例えば、ナビゲーション装置において住所で目的地を設定する場合は、図3に示すように、住所を3階層に分けて入力し、最後にOKボタン1eを押すことによって、入力された住所を目的地として設定する。
【0032】
すなわち、図3の例において、初期状態の階層では「住所」「電話番号」・・・などの単語を管理している。この階層で例えば「住所」と発話すると、1つ下の階層1に進む。この階層1では都道府県名を管理しており、「福島県」「佐賀県」「千葉県」・・・などの単語を発話コマンドとして入力することが可能である。この階層1で所望の都道府県名を発話すると、更に1つ下の階層2に進む。
この階層2では市区町村名を発話コマンドとして入力することが可能である。
【0033】
同様に、階層2で所望の市区町村名を発話すると、更に1つ下の階層3に進む。この階層3では住所の残り部分を発話コマンドとして入力することが可能である。住所の残り部分を発話すると、最終の階層4へと進む。この階層4ではOKボタン1eを押すことによって、発話によって入力された住所を目的地に設定する。以上のような各階層1〜4において、訂正ボタン1bや誤認識ボタン1cを押すと戻り処理が行われ、1つ上の階層に戻る。
【0034】
図4および図5は、本実施形態による音声認識処理の動作例を示すフローチャートである。このうち図4は、図3に示した各階層の中で行われる階層処理の動作を示すフローチャート、図5は、図4中に含まれる誤認識訂正処理の動作を示すフローチャートである。
【0035】
図4において、対話処理部4は、発話ボタン1aが押されたかどうかを判断する(ステップS1)。発話ボタン1aが押されたと判断した場合、対話処理部4は音声認識エンジン3をアクティブにして音声入力受付モードに設定し、図3の初期状態にあるかどうかを更に判断する(ステップS2)。
【0036】
初期状態でなければ、対話処理部4は前階層での音声認識により正解が得られたものと判断して、以下の情報を学習データとして保持し(ステップS3)、話者適応化モジュール10に送信する(ステップS4)。
i)発話音声の波形データ(例:「滋賀県」と発声した際のユーザの音声波形)
ii)認識結果(例:「滋賀県」)
iii)「認識結果=正解」という情報
【0037】
その後ユーザは、所望の単語を発声してマイク2から入力する(ステップS5)。これを受けて音声認識エンジン3は、音声入力受付モードを一旦抜けて、上記入力された単語の認識処理を行う。そして、その認識結果を音声合成エンジン5が音声合成してスピーカ6からトークバックする(ステップS6)。トークバックの後は、対話処理部4は次階層に遷移する処理を実行する(ステップS7)。
【0038】
なお、話者適応化モジュール10は、上記ステップS4で対話処理部4より提供されたi)〜iii)の情報に基づいて、例えば、パラメータ更新に基づく話者適応化アルゴリズムにより話者適応化処理を実行する。
【0039】
上記ステップS1で発話ボタン1aが押されていないと判断した場合、対話処理部4は、訂正ボタン1bが押されたかどうかを判断する(ステップS8)。訂正ボタン1bが押された場合は、対話処理部4は前階層に遷移する戻り処理を実行する(ステップS9)。
【0040】
一方、訂正ボタン1bも押されていないと判断した場合、対話処理部4は、誤認識ボタン1cが押されたかどうかを更に判断する(ステップS10)。誤認識ボタン1cが押された場合は、対話処理部4は、前階層での音声認識により得られた結果は誤りであると判断して、以下の情報を学習データとして保持する(ステップS11)。
I)発話音声の波形データ(例:「滋賀県」と発声した際のユーザの音声波形)
II)認識結果(例:「福島県」)
III)「認識結果=誤り」という情報
そして、対話処理部4は前階層に遷移する戻り処理を実行した後(ステップS12)、図5に示す誤認識訂正処理を実行する(ステップS13)。
【0041】
図5において、対話処理部4は音声認識エンジン3からの誤認識単語(上述の例では「福島県」)をキーとして認識単語リンクDB7の検索を行う(ステップS21)。この検索の結果、当該誤認識単語に対して以前にユーザが訂正を行ったことのあるリンク単語が認識単語リンクDB7に登録されているかどうかを判断する(ステップS22)。
【0042】
そして、そのようなリンク単語が1つ以上見つかった場合は、そのリンク単語を正解候補として含み、更に「その他」の単語を含んだ図6(a)のようなリモコン操作画面をディスプレイ9上に提示する(ステップS23)。この正解候補の中に実際の正解があれば、ユーザはジョイスティック1dを操作してそれを選択する。この場合、対話処理部4は、図6(a)に示すリモコン操作画面中から何らかの単語が選択されたことを確認して(ステップS24)、選択された単語が「その他」か否かを判断し(ステップS25)、「その他」以外の正解候補中から何れかのリンク単語が選択されていれば、ステップS29にジャンプする。
【0043】
一方、図6(a)の画面に示される正解候補中に実際の正解がない場合(ユーザがジョイスティック1dを操作して「その他」を選択した場合)、もしくは、ステップS22で認識単語リンクDB7にリンク単語が1つも登録されていないと判断した場合には、その場面で選択可能な単語を全て取り出して図6(b)のようにリスト表示する(ステップS26)。ユーザは、このリストの中から正解の単語をジョイスティック1dの操作により選択する(ステップS27,S28)。
【0044】
なお、その場面で選択可能な単語とは、該当する階層の単語を言う。図6(b)の例は、「福島県」「佐賀県」「千葉県」などの都道府県名を管理している図3の階層1の単語を全てリストとして表示している。
【0045】
上記図6(a)もしくは(b)のリモコン操作画面で何れかの単語が選択されると、対話処理部4は、その選択された単語を認識単語リンクDB7に登録する(ステップS29)。
【0046】
図7は、認識単語リンクDB7に対する選択単語の登録例を示す図である。例えば、図6(b)のリモコン操作画面から「滋賀県」が正解単語として選択された場合、その選択単語をリンク単語の最上位(リンク単語1)に登録する。リンク単語1に新たな単語である「滋賀県」が登録された場合、それまで登録されていた「佐賀県」「千葉県」の単語は、リンク単語2以降に移動する。
【0047】
このようなリンク単語の更新処理後に対話処理部4は、以下の情報を学習データとして保持し(ステップS30)、I)〜V)の情報が揃った段階でこれらを話者適応化モジュール10に送信する(ステップS31)。
IV)選択単語(例:ジョイスティック1dで選択した「滋賀県」)
V)「選択結果=正解」という情報
そして、対話処理部4は次階層に遷移する処理を実行し(ステップS32)、誤認識訂正処理を終了する。なお、話者適応化モジュール10は、対話処理部4から受け取ったI)〜V)の情報に基づいて話者適応化処理を実行する。
【0048】
以上詳しく説明したように、本実施形態によれば、誤認識が発生した場合に、ユーザが過去にリモコン1を使って行った訂正結果を正解候補として提示するようにしたので、正解の確率が高い適切な訂正候補をユーザに提示することができる。これによりユーザは、件数の絞られた少ない正解候補の中から何れかを選択するという簡単な操作のみで、音声認識エンジン3の認識結果を確実に訂正することができるようになる。
【0049】
また、本実施形態によれば、音声認識エンジン3による認識で正解が得られた単語および誤認識ボタン1cの操作後にリモコン操作画面で選択した単語を話者適応化モジュール10に提供するようにしたので、これらの単語をユーザが本来入力したかった正解単語として用いることが可能となる。これにより、システムの通常の使用状態で話者適応化の学習を行うことができ、時間と労力が取られるエンロールをユーザがわざわざ行わなくても済む。しかも、音声認識処理のバックグラウンドで個々のユーザに適するように音響モデルをチューニングすることが可能となるので、ただの「不特定話者用音声認識」を用いた場合に比べて音声認識性能も良くなる。
【0050】
なお、上記実施形態では操作部としてリモコン1を用いているが、タッチパネルであっても良い。
また、上記実施形態では、図6(a)の画面で「その他」を選択した場合に該当する階層の単語をリスト表示する例について説明したが、50音を個別に入力するためのソフトウェアキーボードを表示するようにしても良い。
【0051】
その他、上記各実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【0052】
【発明の効果】
本発明は上述したように、誤認識が発生した場合に、ユーザが過去に訂正していた結果を正解候補として提示するようにしたので、正解の確率が高い単語だけを適切な訂正候補としてユーザに提示することができる。これによりユーザは、音声の誤認識が発生した場合に、提示された正解候補の中から何れかを選択するという簡単な操作のみで認識結果を確実に訂正することができる。
【0053】
また、本発明の他の特徴によれば、音声認識で正解が得られた単語および誤認識発生後に正解候補の中から選択された単語を、本来認識すべき認識結果として話者適応化手段に提供するようにしたので、通常の使用状態においても正解の単語を話者適応化手段で正確に把握することができ、話者適応化処理を適切に行うことが可能となる。これにより、時間と労力が取られるエンロールをユーザがわざわざ行わなくても、音声認識性能を確実に向上させることができる。
【図面の簡単な説明】
【図1】本実施形態による音声認識システムの構成例を示すブロック図である。
【図2】本実施形態による認識単語リンクDBの構造を示す概念図である。
【図3】本実施形態の音声認識システムに用意されている複数の発話コマンドに関する階層遷移状態を示す図である。
【図4】本実施形態による音声認識処理のうち階層処理の動作を示すフローチャートである。
【図5】本実施形態による音声認識処理のうち誤認識訂正処理の動作を示すフローチャートである。
【図6】本実施形態の誤認識ボタンの操作時に提示されるリモコン操作画面を示す図である。
【図7】本実施形態の認識単語リンクDBに対する選択単語の登録動作例を示す図である。
【符号の説明】
1 リモコン
1a 発話ボタン
1b 訂正ボタン
1c 誤認識ボタン
1d ジョイスティック
1e OKボタン
2 マイク
3 音声認識エンジン
4 対話処理部
5 音声合成エンジン
6 スピーカ
7 認識単語リンクDB
8 画面表示制御部
9 ディスプレイ
10 話者適応化モジュール
Claims (5)
- 入力された発話音声とあらかじめ用意されている音声辞書とを比較して上記発話音声に係る単語を認識する音声認識手段と、
上記音声認識手段による上記発話音声の誤認識を検知した場合に、その誤認識した単語に対してユーザが以前に訂正した単語を認識単語リンクデータベースから読み出して正解候補として提示し、正解単語の選択をユーザに促す正解候補提示手段と、
上記音声認識手段により誤認識された単語と上記正解候補提示手段による処理を通じてユーザにより選択された正解単語とを対応付けて上記認識単語リンクデータベースに登録する正解単語登録手段とを備えたことを特徴とする音声認識システム。 - 入力された発話音声のパターンと正解音声のパターンとを用いて話者適応化処理を行う話者適応化手段と、
上記発話音声の誤認識を検知しなかった場合は、上記入力された発話音声と上記音声認識手段による認識結果とを上記話者適応化手段に提供し、上記発話音声の誤認識を検知した場合は、上記入力された発話音声と上記正解候補提示手段の処理を通じて成されたユーザによる訂正結果とを上記話者適応化手段に提供する情報提供手段とを備えたことを特徴とする請求項1に記載の音声認識システム。 - 上記音声認識手段により認識された単語を音声合成してトークバックする音声合成手段と、
上記発話音声を入力したユーザが上記音声合成手段によりトークバックされる認識音声を確認して誤認識と判断した場合に操作するための誤認識ボタンとを備え、
上記誤認識ボタンの操作の有無に応じて上記音声認識手段による上記発話音声の誤認識の有無を検知するようにしたことを特徴とする請求項1または2に記載の音声認識システム。 - 入力された発話音声とあらかじめ用意されている音声辞書とを比較して上記発話音声に係る単語を認識する第1のステップと、
上記発話音声の誤認識を検知した場合に、その誤認識した単語に対してユーザが以前に訂正した単語を認識単語リンクデータベースから読み出して正解候補として提示し、上記正解候補の中から正解単語の選択をユーザに促す第2のステップと、
上記第1のステップで誤認識された単語と上記第2のステップの処理を通じてユーザにより選択された正解単語とを対応付けて上記認識単語リンクデータベースに登録する第3のステップと、
上記第1のステップで入力された発話音声および上記第2のステップの処理を通じて成されたユーザによる訂正結果を話者適応化部に提供する第4のステップと、
上記第1のステップで入力された発話音声のパターンと上記第4のステップで提供された訂正結果に基づく正解音声のパターンとを用いて上記話者適応化部が話者適応化処理を行う第5のステップとを有することを特徴とする音声認識の訂正・学習方法。 - 上記発話音声の誤認識が検知されなかった場合には、上記第2のステップおよび上記第3のステップの処理は行わず、上記第4のステップにおいて、上記第1のステップで入力された発話音声と上記第1のステップでの認識結果とを上記話者適応化部に提供することを特徴とする請求項4に記載の音声認識の訂正・学習方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127376A JP4212947B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識システムおよび音声認識の訂正・学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003127376A JP4212947B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識システムおよび音声認識の訂正・学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004333703A true JP2004333703A (ja) | 2004-11-25 |
JP4212947B2 JP4212947B2 (ja) | 2009-01-21 |
Family
ID=33503945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003127376A Expired - Fee Related JP4212947B2 (ja) | 2003-05-02 | 2003-05-02 | 音声認識システムおよび音声認識の訂正・学習方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4212947B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
KR20140092960A (ko) * | 2013-01-04 | 2014-07-25 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
JP2015215860A (ja) * | 2014-05-07 | 2015-12-03 | 技嘉科技股▲ふん▼有限公司Giga−Byte TechnologyCo.,Ltd. | トリガー起動マクロの入力システム |
US9812125B2 (en) | 2014-07-28 | 2017-11-07 | Hyundai Motor Company | Speech recognition device, vehicle having the same, and speech recognition method |
JP2021177261A (ja) * | 2018-02-19 | 2021-11-11 | ヤフー株式会社 | 決定装置、決定方法、決定プログラム及びプログラム |
-
2003
- 2003-05-02 JP JP2003127376A patent/JP4212947B2/ja not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145487B2 (en) | 2007-02-16 | 2012-03-27 | Denso Corporation | Voice recognition apparatus and navigation apparatus |
JP2008241933A (ja) * | 2007-03-26 | 2008-10-09 | Kenwood Corp | データ処理装置及びデータ処理方法 |
KR20140092960A (ko) * | 2013-01-04 | 2014-07-25 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
KR101892734B1 (ko) * | 2013-01-04 | 2018-08-28 | 한국전자통신연구원 | 음성 인식 시스템에서의 오류 수정 방법 및 그 장치 |
JP2015215860A (ja) * | 2014-05-07 | 2015-12-03 | 技嘉科技股▲ふん▼有限公司Giga−Byte TechnologyCo.,Ltd. | トリガー起動マクロの入力システム |
US9812125B2 (en) | 2014-07-28 | 2017-11-07 | Hyundai Motor Company | Speech recognition device, vehicle having the same, and speech recognition method |
JP2021177261A (ja) * | 2018-02-19 | 2021-11-11 | ヤフー株式会社 | 決定装置、決定方法、決定プログラム及びプログラム |
JP7278340B2 (ja) | 2018-02-19 | 2023-05-19 | ヤフー株式会社 | 決定装置、決定方法、及び決定プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4212947B2 (ja) | 2009-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7826945B2 (en) | Automobile speech-recognition interface | |
JP4304952B2 (ja) | 車載制御装置、並びにその操作説明方法をコンピュータに実行させるプログラム | |
US20060173680A1 (en) | Partial spelling in speech recognition | |
US8195461B2 (en) | Voice recognition system | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US9123327B2 (en) | Voice recognition apparatus for recognizing a command portion and a data portion of a voice input | |
US20110288867A1 (en) | Nametag confusability determination | |
CN105222797B (zh) | 利用口授和部分匹配搜索的导航***的***和方法 | |
US9812129B2 (en) | Motor vehicle device operation with operating correction | |
EP2309492A1 (en) | System and method for activating plurality of functions based on speech input | |
JP2004029270A (ja) | 音声制御装置 | |
JP4212947B2 (ja) | 音声認識システムおよび音声認識の訂正・学習方法 | |
JP4604377B2 (ja) | 音声認識装置 | |
JP5986468B2 (ja) | 表示制御装置、表示システム及び表示制御方法 | |
JP2007127896A (ja) | 音声認識装置及び音声認識方法 | |
JP2005275228A (ja) | ナビゲーション装置 | |
JP3718088B2 (ja) | 音声認識修正方式 | |
JP2007057805A (ja) | 車両用情報処理装置 | |
JP2004029354A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP3296783B2 (ja) | 車載用ナビゲーション装置および音声認識方法 | |
JP2003330488A (ja) | 音声認識装置 | |
JP2016102823A (ja) | 情報処理システム、音声入力装置及びコンピュータプログラム | |
JP4282354B2 (ja) | 音声認識装置 | |
KR20100021910A (ko) | 음성인식 방법 및 그 장치 | |
JPH11109989A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20051129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081029 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4212947 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111107 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121107 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131107 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |