JP2004294803A

JP2004294803A - 音声認識装置

Info

Publication number: JP2004294803A
Application number: JP2003087565A
Authority: JP
Inventors: Nobuhiro Tazaki; 伸洋田崎; Takeshi Hashimoto; 武志橋本; Masaki Ashizawa; 正樹芦澤
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2003-03-27
Filing date: 2003-03-27
Publication date: 2004-10-21
Anticipated expiration: 2023-03-27
Also published as: JP4282354B2

Abstract

【課題】単語認識用辞書の最適化を行うことにより、単語認識の性能を向上させ、音声認識の認識率を高めた音声認識装置を提供することにある。
【解決手段】ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置において、入力音声に対して単語認識と音素認識とを行い、これにより得られた単語認識結果と音素認識結果とが不一致であり、かつ、当該単語認識結果が正解である場合、当該音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、他の単語に対する類似度との関係が所定の条件を満たす場合に、当該音素認識結果を当該単語認識結果の同義語として認識することを特徴とする。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置に関し、特に、ユーザからの入力音声に対して単語認識および音素認識を行い、これらの認識結果に基づいた音声認識を行うことで認識率を向上した音声認識装置に関する。
【０００２】
【従来の技術】
人間の話した音声を言葉として認識する音声認識装置が各種方面で実用化されている。この音声認識装置は、例えば、工場における各種装置に対応する指示をはなれた場所から音声で指示する入力装置として実用化されており、また、自動車のナビゲーション装置において、目的地や指示情報等を音声入力する場合の音声入力装置としても実用化されている。このような音声認識装置では、一般に入力された音声を特定するために、予め認識対象となる音声の周波数分布を分析することで、例えば、スペクトルや基本周波数の時系列情報等を特徴として抽出し、そのパターンを各単語に対応させて格納する音声認識用単語辞書を備えている。
【０００３】
認識するべき音声が入力されると、入力された音声の周波数パターンと辞書に格納された各単語のパターンをパターンマッチングにより比較照合し、各単語に対する類似度を算出する。つぎに算出された類似度が最も高い単語（パターンが最も近い単語）を、入力された音声であると認識し、その単語を出力するようにしている。つまり、入力された単語の周波数分布のパターンがどの単語パターンに最もよく似ているかを調べることによって、入力音声を判定している。
【０００４】
このような音声認識において、さらに、出力された認識結果に対する話者からの応答に基づいて一致率の履歴を更新し、より一層認識率を高めた音声認識装置が提案されている（特許文献１参照）。
【０００５】
【特許文献１】
特開平８−１６０９８６号公報
【０００６】
【発明が解決しようとする課題】
このような単語認識に基づく音声認識は、特に、カーナビゲーション装置等において音声に基づいたコマンド入力時に利用されている。このような音声認識においては、特定の単語が認識されにくい状況や、誤認識されやすい状況等が生じるが、これらの状況は、類似した単語が辞書に登録されている場合に特に生じやすい。従って、このような状況は、辞書に登録する単語が類似しないように選定することによりある程度回避することができるが、認識結果は話者により異なることから、多くの話者についてテストを行い、単語の登録と削除を繰り返す等、時間をかけて辞書の最適化を行う必要があり、実用的な使用に適した、高認識率を有する音声認識装置が望まれている。
【０００７】
そこで、本発明の目的は、単語認識用辞書の最適化を行うことにより、単語認識の性能を向上させ、音声認識の認識率を高めた音声認識装置を提供することにある。
【０００８】
【課題を解決するための手段】
以上の目的を達成するために、請求項１記載の発明は、ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置であって、入力音声に対して単語認識と音素認識とを行い、これにより得られた単語認識結果と音素認識結果とが不一致であり、かつ、当該単語認識結果が正解である場合、当該音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、他の単語に対する類似度との関係が所定の条件を満たす場合に、当該音素認識結果を当該単語認識結果の同義語として認識することを特徴とする。
【０００９】
また、請求項２記載の発明は、前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上であることを特徴とする。
【００１０】
また、請求項３記載の発明は、前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上であることを特徴とする。
【００１１】
また、請求項４記載の発明は、前記同義語と認識された前記音素認識結果が、同じ単語認識結果の同義語として所定回数または所定確率で認識された場合に、当該同義語を前記辞書に登録することを特徴とする。
【００１２】
また、請求項５記載の発明は、当該辞書に複数個の同義語が存在する場合に、単語認識時における、前記辞書に登録された同義語毎の検索回数と正解回数とを計数し、当該同義語が正解となる確率が所定値を下回ったときに、当該同義語を前記辞書より削除することを特徴とする。
【００１３】
また、請求項６記載の発明は、前記音声入力に基づいた単語認識の後に、前記ユーザによる操作が、あらかじめ定められた正解後の操作の候補と一致した場合に、当該単語認識結果を正解と判定することを特徴とする。
【００１４】
また、請求項７記載の発明は、ユーザからの入力音声を入力する音声入力部と、前記入力音声に対して単語認識を行う単語認識部と、前記入力音声に対して音素認識とを行う音素認識部と、前記単語認識部により得られた単語認識結果と、前記音素認識部により得られた音素認識結果との不一致であり、かつ、当該単語認識結果が正解である場合に、当該音素認識結果を、当該正解となる単語認識結果に対応する単語に対する同義語として辞書へ登録するかどうかを判定する辞書登録部とを備え、前記辞書登録部は、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上または、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上である場合に、当該音素認識結果を同義語として認識して仮登録し、さらに、同じ単語認識結果に対して前記同義語と認識された前記音素認識結果に対する仮登録回数を計数し、当該仮登録回数が所定値以上であった場合に、当該音素認識結果を辞書に登録し、次回の音声認識処理に利用することを特徴とする。
【００１５】
【発明の実施の形態】
以下、本発明の実施態様による音声認識装置について説明する。
【００１６】
図１は本実施態様の音声認識装置１の構成を示す機能ブロック図である。
【００１７】
音声認識装置１は、制御部２，音声入力部３，単語認識部４、音素認識部５及び辞書管理部６から構成されている。制御部２は、例えばナビゲーション装置等の外部装置と接続されて、外部装置からの音声認識コマンド情報等を入力し、さらに、音声認識装置１における最終的な音声認識結果を外部装置に送信する。また、制御部２は音声認識装置全体の制御をも行っている。音声入力部３は、例えばマイク等から構成されており、制御部２による制御に基づいてユーザの音声を入力する。単語認識部４は、ユーザからの入力音声を単語を基本単位として認識処理し、入力音声に対する最適な単語を選択するものである。具体的には、辞書管理部６に備えられ、あらかじめ単語（単語モデル）が登録されている単語辞書を用いて、入力音声と単語辞書における候補（単語）との類似度を算出し、最も類似度の高い候補を選択することにより、入力音声を候補中の単語として認識する。さらに、音素認識部５は、ユーザからの入力音声を音素に分け、最も近い音素を選択することにより、入力音声を任意の文字列からなる単語として認識するものである。辞書管理部は、単語認識用の単語辞書を管理し、候補となる単語の登録、削除、統計等を行うものである。なお、上述した構成要素に加えて、音声認識結果等をユーザに表示する表示部をさらに設けていても良い。
【００１８】
次に、上述した本実施態様の音声認識装置の動作について図２を参照して説明する。
【００１９】
図２は本実施態様の音声認識装置の音声認識動作を示すフローチャートである。ここでは、例としてカーナビゲーション装置における音声認識装置について説明する。すなわち、図１における外部装置としてカーナビゲーション装置が用いられるが、本発明の音声認識装置はカーナビゲーション装置に限定されるものではなく、音声認識の必要なあらゆる装置に適応可能であることは言うまでもない。
【００２０】
まず、制御部２はカーナビゲーション装置からの指示に従って、音声入力部３へ音声入力の指示を行う。制御部２からの指示に基づいて、音声入力部３はユーザからの入力音声を取得し、単語認識部４及び音素認識部５の各々へ入力音声を出力する（Ｓ１）。
【００２１】
音声認識は、単語認識部４と音素認識部５での認識結果による総合的な判断に基づいて行われる。すなわち、入力音声に基づいて単語認識部４での単語認識結果と、音素認識部５での音素認識結果とが一致したかどうかが判断され、一致した場合は、これをユーザに表示して次の音声認識を行うが、一致していなければ本実施態様の同義語登録処理に移る。従って、本実施態様の同義語登録（辞書登録）処理は、単語認識結果と音素認識結果とが不一致であり、かつ、単語認識結果が正解の場合に行われる。
【００２２】
さて、音声入力部３により入力音声が取得されると（Ｓ１）、単語認識部４および音素認識部５では、各々、音声入力部３からの入力音声に対して単語認識処理および音素認識処理を行う（Ｓ２）。具体的には、単語認識部４では、辞書管理部６に備えられている単語辞書を用いて、入力音声と単語辞書内の単語（単語モデル）とを比較し、これにより最も高い類似度を有する単語を単語認識結果として辞書管理部６へ出力する。なお、認識処理としては、入力音声に対する特徴抽出処理により得られた特徴データと、あらかじめ単語辞書に登録された単語の特徴データとの照合により入力音声の単語認識（照合）が行われている。また、音素認識部５では、入力音声を各音素に分けて、各音素毎に音素認識を行い、得られる単語を音素認識結果として辞書管理部６へ出力する。これらの単語認識処理と音素認識処理とは同時に並行して行われている。
【００２３】
次に、辞書管理部６では、単語認識部４の単語認識結果が正解か否かの判定が行われる（Ｓ３）。以下に単語認識結果の正解判定について説明する。
【００２４】
通常、カーナビゲーションの音声認識において、コマンドは階層化されており、走査には幾つかのステップが必要となる。従って、単語認識結果をユーザに通知した後、ユーザが続けて次の階層のコマンドの発話を行うか、あるいは、ユーザが次のステップの操作を行う等、その後の操作があらかじめ定められた正解後の操作の候補と一致した場合は、単語認識結果を正解と判定する（Ｓ３：Ｙ）。一方、単語認識結果をユーザに通知した後、ユーザからもう一度同じ単語認識を行うか、あるいは、キャンセルの操作を行う等、その後の操作があらかじめ定められた正解後の操作の候補と一致しなかった場合には（Ｓ３：Ｎ）、単語認識結果を不正解と判定する。
【００２５】
ここで、単語認識の判定の結果、単語認識結果が不正解の場合（Ｓ３：Ｎ）は、辞書管理部６は通常の辞書管理処理（Ｓ８）へ移行する。この場合、ユーザに音声認識処理の失敗を報知するエラーメッセージを出力するか、あるいは、再度の音声入力を催促する等して、単語認識処理が不正解である旨伝えてもよい。一方、単語認識結果が正解の場合（Ｓ３：Ｙ）、すなわち、単語を基本単位とする音声認識が正解であった場合は、辞書管理部６は単語認識結果と音素認識結果による単語とが一致するか否かの判定を行う（Ｓ４）。
【００２６】
判定の結果、単語認識結果と音素認識結果とが一致した場合（Ｓ４：Ｙ）、辞書管理部６は辞書管理処理（Ｓ８）へ移行する。一方、単語認識結果と音素認識結果とが一致しなかった場合（Ｓ４：Ｎ）、辞書管理部６は音素結果が単語認識結果の同義語として適当であるかどうかの判定を行う（Ｓ５）。この判定処理は、具体的には、音素認識結果を単語として登録することによる他の単語への影響を調べることで行われる。単語認識の過程において得られた類似度において、音素認識結果に基づいて得られた単語の、ステップＳ３で正解と判定された単語に対する類似度と、他の単語に対する類似度との差もしくは比が所定の値を超えておれば、同義語として登録することによる他の単語への影響が小さいので、同義語として認識する（Ｓ５：Ｙ）。
【００２７】
判定の結果、同義語と認識されなかった場合（Ｓ５：Ｎ）、辞書管理部６は辞書管理処理（Ｓ８）へ移行する。一方、同義語と判定された場合（Ｓ５：Ｙ）、同義語の辞書への登録の判定を行う（Ｓ６）。この登録の判定処理は以下のようにして行われる。
【００２８】
ある同義語について、同じ単語認識結果（単語）の同義語と認識された回数をカウントしておく。回数が所定の値を超え、且つ、選択される確立が所定の値を超えたときに、単語認識結果の同義語として辞書へ登録する（Ｓ７）。
【００２９】
次に、辞書管理部６は辞書管理処理（Ｓ８）を行い、この処理を終了する。辞書管理（Ｓ８）は、単語認識の結果から単語毎の統計情報を算出し、不要な単語の削除等を行う処理である。単語認識において検索された単語は検索回数をカウントし、正解として選択された単語は正解回数をカウントされる。ここで、複数の同義語があり、そのうち正解として選択される確立が所定の値を下回った単語は辞書から削除される。
【００３０】
以上のような動作で単語認識を繰り返すことにより、単語認識用の単語辞書が最適化されていくことになる。なお、ステップＳ３とステップＳ４とは前後を入れ替えてそれらの処理を行っても同様な結果が得られる。
【００３１】
ここで、上述した音声認識装置を、テレビ受像機能、ラジオ受信機能並びに電話機能等が備えられているカーナビ装置に接続して利用する場合を例として、上述の同義語辞書登録処理をより詳細に説明する。
【００３２】
コマンドの階層化の例として、例えば、第一の発話の階層に「ラジオ」、「デンワ」、「テレビ」が登録されている場合を考える。この時、「テレビ」に対する第二の発話の階層の辞書には、チャンネルが登録されており、「ラジオ」に対する第二の発話の階層の辞書には、放送局名が登録されており、「デンワ」に対する第二の発話の階層の辞書には、電話番号が登録されているものとする。ここで、第一の発話の後にユーザーが行う操作（第二の発話）と、音声入力の第一の発話による認識結果に基づいて推測される、第二の発話の階層の辞書に登録されている内容とが一致した場合、第一の発話による認識結果を正解と判定する。例えば、ユーザの第一の発話に基づいた認識結果が「テレビ」であった場合、ユーザの第二の発話がチャンネルを示すものであったときは、この場合の認識結果「テレビ」は正解と判定される。ここで、第一の発話による認識結果（単語）の、正解の単語に対する類似度と他の単語に対する類似度との関係が所定の関係（例えば、類似度の差が所定値以上（例えば、０．５以上）か、あるいは類似度の比が所定値以上（例えば２倍以上）であれば、この第一の発話による認識結果（単語）を正解の単語に対する同義語として適当と判定し、仮登録する。これは、この第一の発話による認識結果（単語）を同義語として判定することによって、他の単語の誤認識を招くようでは困るので、類似度が所定条件を満たす単語のみを適当と判断するからである。
【００３３】
さらに、この様に同義語として判定（仮登録）された単語に対して、同義語として判定された回数が所定回数（例えば、３回）以上であり、かつ、同義語のうちその単語が選択された確率が所定値（例えば、５０％）以上であれば、辞書に登録と判定される。これは、高い確率で選択される同義語は辞書で利用できるからである。
【００３４】
一方、同義語の何れかが正解として選択された回数が所定数（例えば、１０回）以上であり、かつ、同義語のうちその単語が正解として選択された確率が所定値（例えば、３０％）未満であれば、その単語を辞書より削除する。
【００３５】
以上のような音声認識装置の設定の基で、いま、ユーザーがカーナビ装置に備えられたテレビの６チャンネルを見ようとした場合、ユーザの第一の発話は「テレビ」であり、この第一の発話に基づいた音素認識結果が「テレイ」、単語認識結果が「テレビ」であったとする。また、この時、単語認識の過程で得られる類似度が、「テレビ」が０．８、「デンワ」が０．３および「ラジオ」が０．２であったとする。さらに、ユーザの第二の発話が「ロクチャンネル」であったとき、単語認識結果が「ロクチャンネル」であったとする。
【００３６】
これらの状況下での同義語登録処理を図２を参照にして説明する。
【００３７】
まず、ユーザーが第一の音声認識結果に対してキャンセル等を行わず、続けて正常に第二の音声認識が行われたことから、辞書登録部６は第一の発話に対する単語認識結果「テレビ」を正解と判定する（Ｓ３：Ｙ）。次に、辞書登録部６は音素認識結果「テレイ」と単語認識結果「テレビ」とが一致するかどうかを判定する（Ｓ４）。この場合、不一致であるので（Ｓ４：Ｎ）、辞書登録部６は単語認識の過程における類似度を比較する。すなわち、音素認識結果「テレイ」が、正解の単語「テレビ」の同義語として登録可能かどうかを調べる。ここでは、正解の単語「テレビ」に対する類似度が０．８であるのに対して、他の単語「デンワ」、「ラジオ」に対する類似度が正解の単語の類似度の５０％以下（０．３／０．８、０．２／０．８）であることから、誤認識の影響は小さく、「テレイ」を「テレビ」の同義語として適当であると判定し（Ｓ５：Ｙ）、同義語「テレイ」を記録する（仮登録）。
【００３８】
本音声認識装置の使用により以上のような動作（ステップＳ３，Ｓ４，Ｓ５）が繰り返されて、「テレイ」に対する仮登録の回数が計数されていくことになる。仮登録された同義語およびそれらの仮登録回数は、辞書管理部６内に設けられた（あるいは、別途備えられた）所定のメモリー領域に一時的に記録されることになる。この繰り返し動作の結果、音素認識結果が「テレビ」であり、かつ、単語認識結果が「テレビ」となった回数が２回であり、音素認識結果が「テレイ」であり、かつ、単語認識結果が「テレビ」となった回数が３回となったとする。この場合、「テレイ」が同義語と判定された回数が３回（以上）となり、かつ、同じ単語の同義語（「テレビ」、「テレイ」）のうち「テレイ」が選択される確率が５０％以上（３／５＝６０％）であることから、「テレイ」を「テレビ」の同義語として辞書に登録すると判定し（Ｓ６）、辞書に登録する（Ｓ７）。
【００３９】
その結果、辞書には、「ラジオ」、「デンワ」、「テレビ」、「テレイ」が登録されることになる。ただし、「テレビ」と「テレイ」とは同じコマンドをあらわしている。
【００４０】
さらに、以上のような動作（ステップＳ３乃至ステップＳ７）が繰り返された結果、単語認識過程において「テレビ」と「テレイ」の何れかが正解として選択された回数が１０回で、そのうち「テレビ」が正解となった回数が２回、「テレイ」が正解となった回数が８回であっとする。この場合、同義語の何れか（「テレビ」または「テレイ」）が正解として選択された回数が（２＋８＝）１０回で、かつ、同義語のうち「テレビ」が選択された回数が３０％未満（２／１０＝２０％）であるので、同義語「テレビ」は辞書から削除されることになる。
【００４１】
従って、辞書には、「ラジオ」、「デンワ」および「テレイ」が登録されることになる。ただし、「テレイ」は「テレビ」を意味するコマンドを表している。
【００４２】
上述したように、本実施態様の音声認識装置の利用を繰り返すことで、必要性の高い同義語は辞書へ登録し、必要性が低い同義語は辞書から削除されるという動作が行われていくことになり、結果として辞書が最適化され、認識率を向上することになる。従って、本実施態様では、もともと辞書になく意味を持たないような単語（例えば「テレイ」）でも認識率を向上するものであれば、その単語に意味を与えて辞書に登録することが可能となり、ユーザ固有の発話に対しても正確な音声認識を行うことが可能となる。
【００４３】
【発明の効果】
本発明によれば、使用しながら単語認識用辞書を最適化することができ、設計コストが低減できる。また、話者によって、認識されにくい単語や誤認識されやすい単語が現れる場合でも、単語の認識の性能を向上させることができる。
【図面の簡単な説明】
【図１】本実施態様による音声認識装置の構成を示した機能ブロック図である。
【図２】図１で示した音声認識装置による音声認識動作を示したフローチャートである。
【符号の説明】
１音声認識装置
２制御部
３音声入力部
４単語認識部
５音素認識部
６辞書管理部

Claims

ユーザからの入力音声に対して、辞書を用いて単語認識を行う音声認識装置であって、入力音声に対して単語認識と音素認識とを行い、これにより得られた単語認識結果と音素認識結果とが不一致であり、かつ、当該単語認識結果が正解である場合、当該音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、他の単語に対する類似度との関係が所定の条件を満たす場合に、当該音素認識結果を当該単語認識結果の同義語として認識することを特徴とする音声認識装置。
前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上であることを特徴とする請求項１記載の音声認識装置。
前記所定の条件とは、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上であることを特徴とする請求項１記載の音声認識装置。
前記同義語と認識された前記音素認識結果が、同じ単語認識結果の同義語として所定回数または所定確率で認識された場合に、当該同義語を前記辞書に登録することを特徴とする請求項１乃至３記載の音声認識装置。
当該辞書に複数個の同義語が存在する場合に、単語認識時における、前記辞書に登録された同義語毎の検索回数と正解回数とを計数し、当該同義語が正解となる確率が所定値を下回ったときに、当該同義語を前記辞書より削除することを特徴とする請求項１乃至４記載の音声認識装置。
前記音声入力に基づいた単語認識の後に、前記ユーザによる操作が、あらかじめ定められた正解後の操作の候補と一致した場合に、当該単語認識結果を正解と判定することを特徴とする請求項１乃至５記載の音声認識装置。
ユーザからの入力音声を入力する音声入力部と、前記入力音声に対して単語認識を行う単語認識部と、前記入力音声に対して音素認識とを行う音素認識部と、前記単語認識部により得られた単語認識結果と、前記音素認識部により得られた音素認識結果との不一致であり、かつ、当該単語認識結果が正解である場合に、当該音素認識結果を、当該正解となる単語認識結果に対応する単語に対する同義語として辞書へ登録するかどうかを判定する辞書登録部とを備え、前記辞書登録部は、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との差が所定値以上または、前記音素認識結果の、当該正解となる単語認識結果に対応した単語に対する類似度と、前記他の単語に対する類似度との比が所定値以上である場合に、当該音素認識結果を同義語として認識して仮登録し、さらに、同じ単語認識結果に対して前記同義語と認識された前記音素認識結果に対する仮登録回数を計数し、当該仮登録回数が所定値以上であった場合に、当該音素認識結果を辞書に登録し、次回の音声認識処理に利用することを特徴とする音声認識装置。