JP2004333703A

JP2004333703A - 音声認識システムおよび音声認識の訂正・学習方法

Info

Publication number: JP2004333703A
Application number: JP2003127376A
Authority: JP
Inventors: Mitsuaki Watanabe; 光章渡邉; Nozomi Saito; 望齊藤
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2003-05-02
Filing date: 2003-05-02
Publication date: 2004-11-25
Anticipated expiration: 2023-05-02
Also published as: JP4212947B2

Abstract

【課題】音声の誤認識が発生した場合に、確実かつ簡単に認識結果を訂正できるようにする。
【解決手段】音声認識エンジン３による発話音声の誤認識を検知した場合に、当該誤認識された単語に対してユーザが以前に訂正したことのある単語を認識単語リンクＤＢ７から読み出して正解候補として提示するとともに、当該誤認識された単語とユーザにより訂正された正解単語とを対応付けて認識単語リンクＤＢ７に新たに登録するように対話処理部４を構成することにより、誤認識が発生した場合に、正解の確率が高い単語だけを適切な訂正候補としてユーザに提示できるようにして、提示された正解候補の中から何れかを選択するという簡単な操作のみで認識結果を確実に訂正することができるようにする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は音声認識システムおよび音声認識の訂正・学習方法に関し、特に、認識対象の文字列とその音声パターンとの対応を音声辞書として登録しておき、入力音声との類似度が高い音声パターンを有する文字列を入力音声の文字列であると認識するように成された音声認識システムに用いて好適なものである。
【０００２】
【従来の技術】
最近の車両の殆どには、オーディオ装置、エアーコンディショナ、ナビゲーション装置など各種の電子機器が搭載されている。また、最近では、これらの電子機器を操作する際の片手運転等を回避するために、電子機器の操作を音声認識により行えるようにしたシステムも提供されている。この音声認識技術を用いれば、運転者は、ハンドルから手を離すことなく（リモートコントローラや操作パネル等の操作部を手動で操作せずに）各種電子機器の操作を行うことができる。
【０００３】
音声認識システムは通常、ユーザが発声した特定の単語や熟語、簡単な命令文など（本明細書ではこれらを単に「単語」と表現する）を発話コマンドとして認識し、認識単語を音声合成してトークバックする。ユーザは、トークバックされた認識単語の確認を行い、正しければその旨の入力を行う。これに応じてシステムは、認識単語に応じた制御を行う。一方、システムよりトークバックされた認識単語がユーザ発声の単語と異なる場合には、ユーザは再度音声入力を行う。
【０００４】
かかる音声認識システムでは、認識対象単語の文字列とその音声パターンとを対応付けた音響モデルを音声辞書データベースにあらかじめ登録しておく。そして、ユーザの入力音声から算出した特徴量と音響モデルの特徴量とを比較して類似度が最も高い音声パターンを検索し、その音声パターンを有する文字列を入力音声の文字列であると認識する。
【０００５】
このような音声認識システムにおいて、発話音声の誤認識は避けられない。ユーザの発声する音声によっては、誤認識が連続して発生する場合もある。この場合の対策として、類似度が最高位の１単語だけでなく、類似度が上位の複数単語をユーザに提示し、この中から何れかを選択してもらうようにした機能を有するものも提供されている。また、誤認識とされた最高位の認識結果以降の認識結果を順次最高位に導出することにより、見かけ上の認識性能を向上させるようにした技術も提案されている（例えば、特許文献１参照）。
【０００６】
【特許文献１】
特開平１０−６３２９５号公報
【０００７】
また、認識率そのものを上げるための技術として、個々の話者に対応して音響モデルをチューニングし、誤認識の発生を低減するようにした「話者適応化」という手法も種々検討されている（例えば、特許文献２参照）。話者適応化の代表的なものとして、「エンロール」と呼ばれる手法がある。エンロールは、システムの使い始めの段階で、システムからの指示に従ってあらかじめ用意した単語をユーザに読み上げてもらい、その指示単語の音声パターンと話者入力に係る音声パターンとを用いて学習を行うものである（例えば、特許文献３，４参照）。
【０００８】
【特許文献２】
特開平７−２３０２９５号公報
【特許文献３】
特開２００２−１３２２８８号公報
【特許文献４】
特開２０００−１４８１９８号公報
【０００９】
【発明が解決しようとする課題】
しかしながら、類似度が上位の複数単語を提示する機能を有していても、システムが連続して誤認識するような場合は、認識エンジンの音響モデルとユーザの音声パターンとが大きくかけ離れていることが多く、類似度により提示した正解候補の全てが誤認識であることが多い。そのため、ユーザは複数の正解候補が提示されてもそれを利用することができず、音声入力を何度もやり直すか、音声入力を諦めてリモコン等によりコマンド入力せざるを得ないという問題があった。
【００１０】
また、特許文献１のように見かけ上の認識性能を向上させたとしても、実際の認識率が向上する訳ではない。実際に認識率を上げるためには、話者適応化の処理を行う必要がある。ところが、誤認識が発生することのある通常の使用状態では、常に「システム側の認識単語＝ユーザが入力したい正解単語」であるとは限らない。よって、音声入力の結果のみを頼りにして話者適応化を行っても、うまく認識率を上げることができないという問題があった。
【００１１】
また、ユーザがリモコン等を操作して入力したコマンドを話者適応化の正解値として利用することも考えられる。しかし、システム側では、リモコン入力されたコマンドが、音声の誤認識が連続した結果リモコン操作に切り替えて訂正入力されたものなのか、音声認識とは関係なくユーザの任意操作により入力されたものなのかを把握できない。そのため、リモコン等による入力コマンドを話者適応化の正解値としては利用することができなかった。
【００１２】
このような実情から、車載用の電子機器では、話者適応化の手法として、正解の単語があらかじめ分かっているエンロールが一般的に用いられてきた。ところが、エンロールを用いて音声の認識率を上げる場合には、システムの使い始めの段階で、システム側であらかじめ用意されたいくつかの単語をユーザがわざわざ読み上げなければならない。そのため、ユーザが電子機器に対して実際に行いたい操作とは直接関係のないことで、ユーザに余計な負担が生じてしまうという問題があった。
【００１３】
本発明は、このような問題を解決するために成されたものであり、音声の誤認識が発生した場合に、確実かつ簡単に認識結果を訂正できるようにすることを目的とする。
また、本発明は、音声認識の結果を確実かつ簡単に訂正することができ、しかも、時間と労力がかかるエンロールを行うことなく音声認識性能を実際に向上できるようにすることも目的としている。
【００１４】
【課題を解決するための手段】
上記した課題を解決するために、本発明では、誤認識された単語とユーザにより訂正された正解単語とを対にしてデータベースに実績として登録しておき、次に同じ発話音声に対して誤認識が発生したときは、その実績に基づいて、ユーザが以前に訂正した正解を今回の正解候補として提示するようにしている。このように構成した本発明によれば、誤認識が発生した場合に、過去の訂正実績からして正解の確率が高いものだけをユーザに提示することが可能となる。
【００１５】
本発明の他の態様では、上述のようにして正解候補を提示した後にユーザが選択した候補を、本来認識すべき認識結果として話者適応化手段に提供するようにしている。このように構成した本発明によれば、通常の使用状態においても「ユーザが入力したい正解」をシステム側で正確に把握することが可能となり、その正解と発話音声とを用いて話者適応化を適切に行うことが可能となる。
【００１６】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。図１は、本実施形態による音声認識システムの構成例を示すブロック図である。
【００１７】
図１に示すように、本実施形態の音声認識システムは、リモコン１などの操作部と、マイク２と、音声認識エンジン３と、対話処理部４と、音声合成エンジン５と、スピーカ６と、認識単語リンクＤＢ（データベース）７と、画面表示制御部８と、ディスプレイ９と、話者適応化モジュール１０とを備えて構成されている。上記リモコン１は、発話ボタン１ａ、訂正ボタン１ｂ、誤認識ボタン１ｃ、ジョイスティック１ｄおよびＯＫボタン１ｅを備えている。
【００１８】
リモコン１は、本実施形態の音声認識システムを利用する電子機器（オーディオ装置やナビゲーション装置など）に対してユーザが各種の操作を行うための操作子であり、音声認識を行う際の操作もこのリモコン１によって行う。発話ボタン１ａは、発話による音声認識処理の開始を指示するためのボタンである。すなわち、この発話ボタン１ａを操作したタイミングに合わせて、発話による音声入力受付状態となる。ジョイスティック１ｄは、音声の誤認識が発生した場合に、その誤認識単語を正しい単語に訂正する際に使う操作子である。
【００１９】
訂正ボタン１ｂは、本来言いたかったものとは違う単語を間違って発声してしまったようなときなどに、音声入力のやり直しを指示するためのボタンである。誤認識ボタン１ｃは、誤認識が発生した場合、すなわち、システムよりトークバックされた認識単語がユーザ発声の単語と異なる場合に、ジョイスティック１ｄを使って誤認識単語の訂正を行うことを指示するためのボタンである。
【００２０】
本実施形態ではこのように、音声入力のやり直しや誤認識単語の訂正を指示するために従来は１つのボタンでしかなかった「戻りボタン」を、訂正ボタン１ｂと誤認識ボタン１ｃとの２つに分けている。これにより、音声の誤認識が発生した結果としてその認識単語の訂正が指示されたということを、システム側で明確に判別できるようにしている。
【００２１】
ＯＫボタン１ｅは、ジョイスティック１ｄを使って選択した所望のメニュー項目の決定を指示したり、音声認識処理を利用して入力した情報の最終的な内容が正しい場合にその入力情報（例えば目的地など）をシステムに設定することを指示したりするためのボタンである。このＯＫボタン１ｅは、図１のようにこれ単独で専用のボタンとして設けても良いし、発話ボタン１ａあるいはジョイスティック１ｄと兼用するように構成しても良い。
【００２２】
音声認識エンジン３は、マイク２より入力された発話音声とあらかじめ用意されている音声辞書とを比較して、当該発話音声に係る単語を認識する。そして、その発話音声に対応するコマンドを、対話処理部４を通じて図示しないオーディオ装置やナビゲーション装置に対して実行する。
【００２３】
音声合成エンジン５は、音声認識エンジン３により認識された単語を音声合成してスピーカ６からトークバックする。これに応じてユーザは、トークバックされた認識単語を聞いて、誤認識が発生したかどうかを確認する。誤認識がなければ、ユーザは次の処理の音声入力を行う。一方、誤認識があった場合は、ユーザは誤認識ボタン１ｃを押して認識単語の訂正を行う。画面表示制御部８は、認識単語の訂正を行う際のリモコン操作画面をディスプレイ９に表示する制御を行う。
【００２４】
対話処理部４は、音声認識を行う際におけるユーザとの一連の対話処理を実行する。すなわち、ユーザによる発話ボタン１ａの操作に応じて音声認識処理の開始を音声認識エンジン３に対して指示する処理、音声認識エンジン３より認識された単語を音声合成エンジン５に供給してユーザにトークバックする処理、トークバックの結果としてユーザにより誤認識ボタン１ｃが押された場合に画面表示制御部８を制御してリモコン操作画面をユーザに提供する処理などを実行する。
【００２５】
また、対話処理部４は、音声認識エンジン３による発話音声の誤認識を検知した場合、すなわち、ユーザにより誤認識ボタン１ｃが押された場合に、当該誤認識された単語（音声認識エンジン３による認識結果）と、誤認識ボタン１ｃの操作後にジョイスティック１ｄを用いてユーザにより訂正された正解単語とを対応付けて認識単語リンクＤＢ７に登録する処理も行う。このように対話処理部４は、本発明の正解単語登録手段を構成する。
【００２６】
対話処理部４が認識単語の訂正時に画面表示制御部８を制御してディスプレイ９に上述のリモコン操作画面を提示する際には、そのとき誤認識した単語に対してユーザが以前に訂正したことのある単語を認識単語リンクＤＢ７から読み出し、これを正解候補のリストとしてユーザに提示する。このように、対話処理部４および画面表示制御部８は、本発明の正解候補提示手段を構成する。
【００２７】
さらに、対話処理部４は、マイク２より入力された発話音声とそれに対応する正解単語（誤認識がない場合の認識結果、もしくは誤認識があった場合の訂正結果）とを話者適応化モジュール１０に提供する処理も行う。
【００２８】
例えば、音声認識エンジン３による発話音声の誤認識を検知しなかった場合、すなわち、誤認識ボタン１ｃが押されずに発話ボタン１ａが押された場合、対話処理部４は、そのときの発話音声と音声認識エンジン３による認識結果とを話者適応化モジュール１０に提供する。また、誤認識ボタン１ｃが押されて認識単語の訂正が行われた場合には、そのときの発話音声とその訂正結果（正解候補からの選択結果）とを話者適応化モジュール１０に提供する。このように、対話処理部４は、本発明の情報提供手段も構成する。
【００２９】
話者適応化モジュール１０は、対話処理部４より提供されるマイク２からの発話音声のパターンと正解音声のパターンとを用いて話者適応化処理を行う。正解音声のパターンは、話者適応化モジュール１０が音響モデルとしてあらかじめ備えており、対話処理部４より通知される正解単語に基づき該当する音声パターンを利用して話者適応化を行う。なお、この話者適応化処理の内容については種々の手法を適用することができるが、何れも公知の手法を適用できるので、ここではその詳細な説明を割愛する。
【００３０】
図２は、認識単語リンクＤＢ７のデータ構造を示す概念図である。図２において、「リンク単語」は、認識結果に対してユーザがリモコン１を用いて以前に訂正を行ったことのある単語である。すなわち、例えば音声認識エンジン３によって「福島県」と誤認識された結果に対して、ユーザが以前にリモコン１を用いて「佐賀県」あるいは「千葉県」と訂正したことのある実績がこの認識単語リンクＤＢ７に登録されている。
【００３１】
次に、上記のように構成した本実施形態による音声認識システムの動作を説明する。なお、音声認識システムの動作を説明する前に、その前提となる発話コマンドの状態遷移について説明しておく。通常、システムに用意されている複数の発話コマンドは、当該システムに対する操作内容に応じて複数の階層に分けて管理されている。例えば、ナビゲーション装置において住所で目的地を設定する場合は、図３に示すように、住所を３階層に分けて入力し、最後にＯＫボタン１ｅを押すことによって、入力された住所を目的地として設定する。
【００３２】
すなわち、図３の例において、初期状態の階層では「住所」「電話番号」・・・などの単語を管理している。この階層で例えば「住所」と発話すると、１つ下の階層１に進む。この階層１では都道府県名を管理しており、「福島県」「佐賀県」「千葉県」・・・などの単語を発話コマンドとして入力することが可能である。この階層１で所望の都道府県名を発話すると、更に１つ下の階層２に進む。
この階層２では市区町村名を発話コマンドとして入力することが可能である。
【００３３】
同様に、階層２で所望の市区町村名を発話すると、更に１つ下の階層３に進む。この階層３では住所の残り部分を発話コマンドとして入力することが可能である。住所の残り部分を発話すると、最終の階層４へと進む。この階層４ではＯＫボタン１ｅを押すことによって、発話によって入力された住所を目的地に設定する。以上のような各階層１〜４において、訂正ボタン１ｂや誤認識ボタン１ｃを押すと戻り処理が行われ、１つ上の階層に戻る。
【００３４】
図４および図５は、本実施形態による音声認識処理の動作例を示すフローチャートである。このうち図４は、図３に示した各階層の中で行われる階層処理の動作を示すフローチャート、図５は、図４中に含まれる誤認識訂正処理の動作を示すフローチャートである。
【００３５】
図４において、対話処理部４は、発話ボタン１ａが押されたかどうかを判断する（ステップＳ１）。発話ボタン１ａが押されたと判断した場合、対話処理部４は音声認識エンジン３をアクティブにして音声入力受付モードに設定し、図３の初期状態にあるかどうかを更に判断する（ステップＳ２）。
【００３６】
初期状態でなければ、対話処理部４は前階層での音声認識により正解が得られたものと判断して、以下の情報を学習データとして保持し（ステップＳ３）、話者適応化モジュール１０に送信する（ステップＳ４）。
ｉ）発話音声の波形データ（例：「滋賀県」と発声した際のユーザの音声波形）
ｉｉ）認識結果（例：「滋賀県」）
ｉｉｉ）「認識結果＝正解」という情報
【００３７】
その後ユーザは、所望の単語を発声してマイク２から入力する（ステップＳ５）。これを受けて音声認識エンジン３は、音声入力受付モードを一旦抜けて、上記入力された単語の認識処理を行う。そして、その認識結果を音声合成エンジン５が音声合成してスピーカ６からトークバックする（ステップＳ６）。トークバックの後は、対話処理部４は次階層に遷移する処理を実行する（ステップＳ７）。
【００３８】
なお、話者適応化モジュール１０は、上記ステップＳ４で対話処理部４より提供されたｉ）〜ｉｉｉ）の情報に基づいて、例えば、パラメータ更新に基づく話者適応化アルゴリズムにより話者適応化処理を実行する。
【００３９】
上記ステップＳ１で発話ボタン１ａが押されていないと判断した場合、対話処理部４は、訂正ボタン１ｂが押されたかどうかを判断する（ステップＳ８）。訂正ボタン１ｂが押された場合は、対話処理部４は前階層に遷移する戻り処理を実行する（ステップＳ９）。
【００４０】
一方、訂正ボタン１ｂも押されていないと判断した場合、対話処理部４は、誤認識ボタン１ｃが押されたかどうかを更に判断する（ステップＳ１０）。誤認識ボタン１ｃが押された場合は、対話処理部４は、前階層での音声認識により得られた結果は誤りであると判断して、以下の情報を学習データとして保持する（ステップＳ１１）。
Ｉ）発話音声の波形データ（例：「滋賀県」と発声した際のユーザの音声波形）
ＩＩ）認識結果（例：「福島県」）
ＩＩＩ）「認識結果＝誤り」という情報
そして、対話処理部４は前階層に遷移する戻り処理を実行した後（ステップＳ１２）、図５に示す誤認識訂正処理を実行する（ステップＳ１３）。
【００４１】
図５において、対話処理部４は音声認識エンジン３からの誤認識単語（上述の例では「福島県」）をキーとして認識単語リンクＤＢ７の検索を行う（ステップＳ２１）。この検索の結果、当該誤認識単語に対して以前にユーザが訂正を行ったことのあるリンク単語が認識単語リンクＤＢ７に登録されているかどうかを判断する（ステップＳ２２）。
【００４２】
そして、そのようなリンク単語が１つ以上見つかった場合は、そのリンク単語を正解候補として含み、更に「その他」の単語を含んだ図６（ａ）のようなリモコン操作画面をディスプレイ９上に提示する（ステップＳ２３）。この正解候補の中に実際の正解があれば、ユーザはジョイスティック１ｄを操作してそれを選択する。この場合、対話処理部４は、図６（ａ）に示すリモコン操作画面中から何らかの単語が選択されたことを確認して（ステップＳ２４）、選択された単語が「その他」か否かを判断し（ステップＳ２５）、「その他」以外の正解候補中から何れかのリンク単語が選択されていれば、ステップＳ２９にジャンプする。
【００４３】
一方、図６（ａ）の画面に示される正解候補中に実際の正解がない場合（ユーザがジョイスティック１ｄを操作して「その他」を選択した場合）、もしくは、ステップＳ２２で認識単語リンクＤＢ７にリンク単語が１つも登録されていないと判断した場合には、その場面で選択可能な単語を全て取り出して図６（ｂ）のようにリスト表示する（ステップＳ２６）。ユーザは、このリストの中から正解の単語をジョイスティック１ｄの操作により選択する（ステップＳ２７，Ｓ２８）。
【００４４】
なお、その場面で選択可能な単語とは、該当する階層の単語を言う。図６（ｂ）の例は、「福島県」「佐賀県」「千葉県」などの都道府県名を管理している図３の階層１の単語を全てリストとして表示している。
【００４５】
上記図６（ａ）もしくは（ｂ）のリモコン操作画面で何れかの単語が選択されると、対話処理部４は、その選択された単語を認識単語リンクＤＢ７に登録する（ステップＳ２９）。
【００４６】
図７は、認識単語リンクＤＢ７に対する選択単語の登録例を示す図である。例えば、図６（ｂ）のリモコン操作画面から「滋賀県」が正解単語として選択された場合、その選択単語をリンク単語の最上位（リンク単語１）に登録する。リンク単語１に新たな単語である「滋賀県」が登録された場合、それまで登録されていた「佐賀県」「千葉県」の単語は、リンク単語２以降に移動する。
【００４７】
このようなリンク単語の更新処理後に対話処理部４は、以下の情報を学習データとして保持し（ステップＳ３０）、Ｉ）〜Ｖ）の情報が揃った段階でこれらを話者適応化モジュール１０に送信する（ステップＳ３１）。
ＩＶ）選択単語（例：ジョイスティック１ｄで選択した「滋賀県」）
Ｖ）「選択結果＝正解」という情報
そして、対話処理部４は次階層に遷移する処理を実行し（ステップＳ３２）、誤認識訂正処理を終了する。なお、話者適応化モジュール１０は、対話処理部４から受け取ったＩ）〜Ｖ）の情報に基づいて話者適応化処理を実行する。
【００４８】
以上詳しく説明したように、本実施形態によれば、誤認識が発生した場合に、ユーザが過去にリモコン１を使って行った訂正結果を正解候補として提示するようにしたので、正解の確率が高い適切な訂正候補をユーザに提示することができる。これによりユーザは、件数の絞られた少ない正解候補の中から何れかを選択するという簡単な操作のみで、音声認識エンジン３の認識結果を確実に訂正することができるようになる。
【００４９】
また、本実施形態によれば、音声認識エンジン３による認識で正解が得られた単語および誤認識ボタン１ｃの操作後にリモコン操作画面で選択した単語を話者適応化モジュール１０に提供するようにしたので、これらの単語をユーザが本来入力したかった正解単語として用いることが可能となる。これにより、システムの通常の使用状態で話者適応化の学習を行うことができ、時間と労力が取られるエンロールをユーザがわざわざ行わなくても済む。しかも、音声認識処理のバックグラウンドで個々のユーザに適するように音響モデルをチューニングすることが可能となるので、ただの「不特定話者用音声認識」を用いた場合に比べて音声認識性能も良くなる。
【００５０】
なお、上記実施形態では操作部としてリモコン１を用いているが、タッチパネルであっても良い。
また、上記実施形態では、図６（ａ）の画面で「その他」を選択した場合に該当する階層の単語をリスト表示する例について説明したが、５０音を個別に入力するためのソフトウェアキーボードを表示するようにしても良い。
【００５１】
その他、上記各実施形態は、何れも本発明を実施するにあたっての具体化の一例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその精神、またはその主要な特徴から逸脱することなく、様々な形で実施することができる。
【００５２】
【発明の効果】
本発明は上述したように、誤認識が発生した場合に、ユーザが過去に訂正していた結果を正解候補として提示するようにしたので、正解の確率が高い単語だけを適切な訂正候補としてユーザに提示することができる。これによりユーザは、音声の誤認識が発生した場合に、提示された正解候補の中から何れかを選択するという簡単な操作のみで認識結果を確実に訂正することができる。
【００５３】
また、本発明の他の特徴によれば、音声認識で正解が得られた単語および誤認識発生後に正解候補の中から選択された単語を、本来認識すべき認識結果として話者適応化手段に提供するようにしたので、通常の使用状態においても正解の単語を話者適応化手段で正確に把握することができ、話者適応化処理を適切に行うことが可能となる。これにより、時間と労力が取られるエンロールをユーザがわざわざ行わなくても、音声認識性能を確実に向上させることができる。
【図面の簡単な説明】
【図１】本実施形態による音声認識システムの構成例を示すブロック図である。
【図２】本実施形態による認識単語リンクＤＢの構造を示す概念図である。
【図３】本実施形態の音声認識システムに用意されている複数の発話コマンドに関する階層遷移状態を示す図である。
【図４】本実施形態による音声認識処理のうち階層処理の動作を示すフローチャートである。
【図５】本実施形態による音声認識処理のうち誤認識訂正処理の動作を示すフローチャートである。
【図６】本実施形態の誤認識ボタンの操作時に提示されるリモコン操作画面を示す図である。
【図７】本実施形態の認識単語リンクＤＢに対する選択単語の登録動作例を示す図である。
【符号の説明】
１リモコン
１ａ発話ボタン
１ｂ訂正ボタン
１ｃ誤認識ボタン
１ｄジョイスティック
１ｅＯＫボタン
２マイク
３音声認識エンジン
４対話処理部
５音声合成エンジン
６スピーカ
７認識単語リンクＤＢ
８画面表示制御部
９ディスプレイ
１０話者適応化モジュール

Claims

入力された発話音声とあらかじめ用意されている音声辞書とを比較して上記発話音声に係る単語を認識する音声認識手段と、
上記音声認識手段による上記発話音声の誤認識を検知した場合に、その誤認識した単語に対してユーザが以前に訂正した単語を認識単語リンクデータベースから読み出して正解候補として提示し、正解単語の選択をユーザに促す正解候補提示手段と、
上記音声認識手段により誤認識された単語と上記正解候補提示手段による処理を通じてユーザにより選択された正解単語とを対応付けて上記認識単語リンクデータベースに登録する正解単語登録手段とを備えたことを特徴とする音声認識システム。
入力された発話音声のパターンと正解音声のパターンとを用いて話者適応化処理を行う話者適応化手段と、
上記発話音声の誤認識を検知しなかった場合は、上記入力された発話音声と上記音声認識手段による認識結果とを上記話者適応化手段に提供し、上記発話音声の誤認識を検知した場合は、上記入力された発話音声と上記正解候補提示手段の処理を通じて成されたユーザによる訂正結果とを上記話者適応化手段に提供する情報提供手段とを備えたことを特徴とする請求項１に記載の音声認識システム。
上記音声認識手段により認識された単語を音声合成してトークバックする音声合成手段と、
上記発話音声を入力したユーザが上記音声合成手段によりトークバックされる認識音声を確認して誤認識と判断した場合に操作するための誤認識ボタンとを備え、
上記誤認識ボタンの操作の有無に応じて上記音声認識手段による上記発話音声の誤認識の有無を検知するようにしたことを特徴とする請求項１または２に記載の音声認識システム。
入力された発話音声とあらかじめ用意されている音声辞書とを比較して上記発話音声に係る単語を認識する第１のステップと、
上記発話音声の誤認識を検知した場合に、その誤認識した単語に対してユーザが以前に訂正した単語を認識単語リンクデータベースから読み出して正解候補として提示し、上記正解候補の中から正解単語の選択をユーザに促す第２のステップと、
上記第１のステップで誤認識された単語と上記第２のステップの処理を通じてユーザにより選択された正解単語とを対応付けて上記認識単語リンクデータベースに登録する第３のステップと、
上記第１のステップで入力された発話音声および上記第２のステップの処理を通じて成されたユーザによる訂正結果を話者適応化部に提供する第４のステップと、
上記第１のステップで入力された発話音声のパターンと上記第４のステップで提供された訂正結果に基づく正解音声のパターンとを用いて上記話者適応化部が話者適応化処理を行う第５のステップとを有することを特徴とする音声認識の訂正・学習方法。
上記発話音声の誤認識が検知されなかった場合には、上記第２のステップおよび上記第３のステップの処理は行わず、上記第４のステップにおいて、上記第１のステップで入力された発話音声と上記第１のステップでの認識結果とを上記話者適応化部に提供することを特徴とする請求項４に記載の音声認識の訂正・学習方法。