JP2005181439A

JP2005181439A - 音声認識装置

Info

Publication number: JP2005181439A
Application number: JP2003418412A
Authority: JP
Inventors: Kazuhiko Seguchi; 和彦瀬口; Manabu Sone; 学曽根; Yukio Aso; 幸夫麻生
Original assignee: Nissan Motor Co Ltd
Current assignee: Nissan Motor Co Ltd
Priority date: 2003-12-16
Filing date: 2003-12-16
Publication date: 2005-07-07

Abstract

【課題】高い認識性能と高速な認識処理とを実現する音声認識装置を提供すること。
【解決手段】マイク１０１を介して入力された発話内容は、第１音声認識処理部１０３と第２音声認識処理部１１１において音声認識がなされる。第１音声認識処理部１０３で認識された結果の類似度が基準値以上であるか否かが判断部１１０で判断され、基準値以上であれば、第１音声認識処理部１０３による認識結果を最終的な認識結果として決定する。基準値未満の場合は、第２音声認識処理部１１１で認識された結果の類似度が基準値以上であるか否かが判断部１１８にて判断され、基準値以上であれば、第２音声認識処理部１１１による認識結果を最終的な認識結果として決定する。第２音声認識手段処理部１１１による音声認識結果の類似度も基準値未満の場合は、認識不能となる。
【選択図】図１

Description

本発明は、各種機器を音声によって操作するための音声認識装置に関する。

従来から、入力された音声信号のうち、端末側では認識できない音声信号については、そのデータを情報センターへ送信して処理を行う音声信号伝達装置が特許文献１によって知られている。

特開２０００−２８４７９９号公報

しかしながら、従来の装置においては、情報センターへデータを送ってから結果を得るまでに時間がかかるという問題があった。また、情報センターへの通信ができない環境下では、認識不能な状況に陥ったり、認識性能が著しく低下するという問題が発生していた。

請求項１に記載の音声認識装置は、音声入力手段を介して入力した発話者の発話内容を認識する複数の音声認識処理手段と、複数の音声認識処理手段の認識結果のそれぞれが正しいか否かを判断する判断手段と、判断手段によって正しいと判定された認識結果の中から、所定の条件に基づいて最終的な認識結果を決定する認識結果決定手段とを有することを特徴とする。

本発明によれば、複数の音声認識処理手段を備え、複数の音声認識処理手段による認識結果から最終的な認識結果を決定することにより、従来の装置と比べて高い認識性能を確保することができる。

―第１の実施の形態―
図１は、本発明による音声認識装置の一実施の形態を示すブロック図である。音声認識装置１００は、発話者の発話を入力するマイク１０１と、マイク１０１から入力された発話内容を認識する第１音声認識処理部１０３および第２音声認識処理部１１１と、第１音声認識処理部１０３または第２音声認識処理部１１１で認識された認識結果を出力するスピーカー１０２とを備えている。

第１音声認識処理部１０３は、マイク１０１を介して入力されたアナログ音声信号を増幅するアンプ１０４と、アンプ１０４にて増幅されたアナログ音声信号をデジタル音声信号に変換するＡ／Ｄコンバータ１０５と、認識結果をスピーカー１０２に出力する際にデジタル音声信号をアナログ音声信号へ変換するＤ／Ａコンバータ１０６とを備えている。

第１音声認識処理部１０３はまた、第１音声認識処理部１０３による音声認識の認識度に基づいて、認識結果が正しいか否かを判断する判断部１１０を有している。この判断部１１０は、ＲＡＭ１０８を作業エリアとしてＲＯＭ１０７に格納された制御プログラムをＣＰＵ１０９が実行することにより実現される。

第２音声認識処理部１１１は、第１音声認識処理部１０３と縦列に接続されている。そして、第１音声認識処理部１０３と同様に、アンプ１１２と、Ａ／Ｄコンバータ１１３と、Ｄ／Ａコンバータ１１４と、ＲＯＭ１１５と、ＲＡＭ１１６と、ＣＰＵ１１７とを備えており、ＣＰＵ１１７は、判断部１１８を有している。

以下、本実施の形態においては、マイク１０１を介して入力された発話内容を、第１音声認識処理部１０３と第２音声認識処理部１１１とで認識し、発話内容と待ち受け単語とがどの程度類似しているかを示す類似度に基づいて、最終的な音声認識結果を決定する。図２は、本実施の形態における音声認識処理のフローチャートである。図２に示す処理は、不図示の音声入力スイッチがオンされると起動するプログラムとして実行される。

図２のステップＳ１０において、発話者が発話すると、発話内容はマイク１０１で集音され、そのアナログ音声信号はアンプ１０４および１１２において所定のレベルに増幅された後、Ａ／Ｄコンバータ１０５および１１３においてデジタル音声信号に変換される。以下、音声認識処理について説明するに際しては、上記変換後のデジタル音声信号を「発話内容」と呼ぶこととする。

ステップＳ２０において、第１音声認識処理部１０３にて音声認識処理が行われる。すなわち、入力された発話内容とＲＡＭ１０８に格納されている音声認識用の待ち受け単語とがマッチング処理される。待ち受け単語は、発話者が発話する可能性のある複数の単語があらかじめ不図示の待ち受け単語辞書から読み込まれ、ＲＡＭ１０８に格納されている。マッチング処理の結果、それぞれの待ち受け単語と発話内容とがどの程度類似しているかを、完全一致を１００％としたときの割合で表す類似度が算出される。算出された待ち受け単語ごとの類似度は、ＲＡＭ１０８に格納され、判断部１１０によって最終的な認識結果を決定する際に読み込まれる。

図３は、発話者が「現在地」と発話したときの待ち受け単語と、待ち受け単語ごとの発話内容との類似度について、具体例を示した図である。図３においては、待ち受け単語３ａとしてあらかじめ「現在地」、「目的地」「地図」、「電話」がＲＡＭ１０８に格納されており、発話内容「現在地」についてマッチング処理を行った結果を示している。そして、算出された待ち受け単語ごとの類似度３ｂが図のように格納されている。

ステップＳ３０においては、第２音声認識処理部１１１による音声認識処理が行われる。ここで、音声認識処理の内容は上述したステップＳ２０における第１音声認識処理部１０３における処理と同様のため、説明は省略する。

ステップＳ４０においては、ステップＳ２０で第１音声認識処理部１０３による音声認識処理の結果算出された待ち受け単語ごとの類似度の中から、発話内容との類似度が最大の待ち受け単語を第１音声認識処理部１０３による音声認識結果として抽出する。例えば図３に示す例においては、符号３ｃに示す待ち受け単語「現在地」の類似度が８３％と最も高いため、待ち受け単語「現在地」が音声認識結果として抽出される。

ステップＳ５０においては、判断部１１０によって、ステップＳ４０で抽出した音声認識結果の類似度が、所定の基準値以上であるか否かを判断する。所定の基準値とは、第１音声認識処理部１０３によって音声認識を行うに当たって、認識結果の正確さを保証する最低限の類似度をいい、例えば８０％が設定される。よって、類似度が所定の基準値以上であれば、第１音声認識処理部１０３による音声認識結果は正しいと判断することができ、逆に類似度が所定の基準値以下であれば、第１音声認識処理部１０３による音声認識結果は誤認識の可能性が高いということができる。

ステップＳ５０において、第１音声認識処理部１０３による音声認識結果の類似度が、所定の基準値以上である場合には、ステップＳ６０へ進む。ステップＳ６０においては、上述した通り、類似度が基準値以上であれば第１音声認識処理部１０３による音声認識結果は正しいと判断することができるため、判断部１１０は、第１音声認識処理部１０３における認識結果、すなわち図３の例でいえば「現在地」を最終的な認識結果として決定する。これに対して、第１音声認識処理部１０３による音声認識結果の類似度が、所定の基準値以下である場合には、第１音声認識処理部１０３による音声認識結果は誤認識である可能性が高いため、ステップＳ７０へ進み、第２音声認識処理部１１１による認識結果が最終的な認識結果として採用可能か否かを判定する。

ステップＳ７０においては、ステップＳ４０で第１音声認識処理部１０３において行った音声認識結果の抽出処理と同様の処理を以下のように行う。ステップＳ３０で第２音声認識処理部１１１による音声認識処理の結果算出された待ち受け単語ごとの類似度の中から、発話内容との類似度が最大の待ち受け単語を第２音声認識処理部１１１による音声認識結果として抽出する。例えば、第２音声認識処理部１１１においても、上述した図３に示す例と同様の結果が得られたとすれば、類似度が最大の「現在地」が抽出されることになる。

ステップＳ８０においては、ステップＳ４０で第１音声認識処理部１０３において行ったのと同様に以下の処理を行う。第２音声認識処理部１１１の判断部１１８によって、ステップＳ７０で抽出した音声認識結果の類似度が、所定の基準値以上であるか否かを判断する。上述した通り、類似度が所定の基準値以上であれば、第２音声認識処理部１１１による音声認識結果は正しいと判断することができ、逆に類似度が所定の基準値以下であれば、第２音声認識処理部１１１による音声認識結果は誤認識の可能性が高いということができる。

したがって、類似度が所定の基準値以上であれば、判断部１１８は、第１音声認識処理部１０３では誤認識が発生した可能性があるが、第２音声認識処理部１１１では正常に音声認識が行われたと判定し、ステップＳ９０へ進み、第２音声認識処理部１１１による音声認識結果を最終的な認識結果として決定する。

これに対して、第２音声認識処理部１１１による音声認識結果の類似度が、所定の基準値以下である場合には、第２音声認識処理部１１１による音声認識結果も誤認識である可能性が高いため、ステップＳ１００へ進み、本音声認識装置が待ち受ける待ち受け単語の中に、発話者の発話内容に該当する単語が存在しないと判定され、認識不能となる。

ステップＳ１１０において、上記の処理により最終的な認識結果として決定された第１音声認識処理部１０３による認識結果、あるいは第２音声認識処理部１１１による認識結果は、Ｄ／Ａコンバータ１０６および１１４にてデジタル音声信号からアナログ音声信号に変換される。変換されたアナログ音声信号は、スピーカー１０２を介して出力される。これにより、認識結果が発話者に通知され、その後、処理を終了する。なお、ステップＳ１００で認識不能とされた場合はその旨がスピーカー１０２を介して発話者に通知される。

以上のように、本実施の形態によれば、音声認識装置１００内に第１音声認識処理部１０３および第２音声認識処理部１１１の２つの音声認識処理部を縦列に接続し、それぞれの音声認識結果の類似度に基づいて最終的な認識結果を決定することとした。これにより、音声認識装置１００全体の安定性および音声認識の精度を向上することができる。

―変形例１―
第１の実施の形態における音声認識装置においては、第１音声認識処理部１０３と第２音声認識処理部１１１の認識能力については特に言及しなかった。この変形例においては、各音声認識処理部の認識能力が異なる場合について特に詳細に説明する。各音声認識処理部の認識能力が異なる場合には、以下のように各音声認識処理部を使い分けることにより、効率よく音声認識を行うことが可能となる。

例えば、第１音声認識処理部１０３は認識能力が低く、第２音声認識処理部の認識能力が高い場合について説明する。認識能力の低い第１音声認識処理部１０３には、ＲＡＭ１０８にあらかじめそれほど高い認識率を必要としない待ち受け単語（例えば「はい」、「いいえ」などの短い単語）を格納しておく。これに対して、認識能力の高い第２音声認識処理部１１１には、ＲＡＭ１１６にあらかじめ高い認識率を必要とする待ち受け単語（例えば「ひろせ野鳥の森駅」などの長い単語）を格納しておく。

これにより、発話者が高い認識率を必要としない単語を発話した場合には、認識能力の低い第１音声認識処理部１０３で音声認識がなされ、その認識結果が最終的な認識結果として決定される。また、発話者が高い認識率を必要とする単語を発話した場合には、当該単語を待ち受け単語に有していない第１音声認識処理部１０３では発話内容に該当する待ち受け単語がないため、音声認識の結果、認識不能となり、必然的に認識能力の高い第２音声認識処理部１１１にて音声認識されることになる。これにより、第２音声認識処理部１１１による認識結果が最終的な認識結果として決定される。

このように、各音声認識処理部の認識能力が異なる場合には、高い認識率を必要とする単語と、それほど高い認識率を必要としない単語を区別してそれぞれの音声認識処理部に待ち受け単語として格納することとした。このため、各音声認識処理部は、その認識能力に合った単語の認識を行えばよくなり、効率よく、さらに高速に音声認識を行うことができる。また、双方に異なった待ち受け単語を格納することから、多くの単語を待ち受け可能とする。

―変形例２−
変形例１においては、各音声認識処理部のＲＡＭに格納する待ち受け単語は、それぞれの音声認識処理部の認識能力に基づいて異なったものを格納した。これに対して、この変形例においては、それぞれの音声認識処理部の認識能力が異なるものの、各音声認識処理部のＲＡＭに格納する待ち受け単語の全てもしくは一部は共通なものとする。

各音声認識処理部のＲＡＭに格納する待ち受け単語の全てもしくは一部を共通なものとする場合、特に高い認識率を必要とする待ち受け単語については、両方の音声認識処理部に格納しておく。そして、第１音声認識処理部１０３における認識結果が判断部１１０により類似度が基準値以下と判定された場合には第２音声認識処理部１１１にて認識結果の判定を行う。これにより、どちらか一方に待ち受け単語を格納しておく場合と比べて認識精度を向上することができる。

例えば、発話者が「現在地」を発話した場合に、第１音声認識処理部１０３による認識の結果、待ち受け単語「現在地」との類似度が「５０％」であったとする。これは、第１音声認識処理部１０３の認識能力が低いので、正しい認識結果にも関わらず、類似度が低く算出されたと考えられる。

この場合、第１音声認識処理部１０３の判断部１１０は、上記認識結果は誤認識の可能性があるものとして、最終的な認識結果として採用しない。この場合に、第２音声認識処理部１１１にも共通の待ち受け単語「現在地」が存在する場合には、第２音声認識処理部１１１においても同様に音声認識がなされる。このとき、第２音声認識処理部１１１の認識能力が高いので、第２音声認識処理部１１１は正常に音声認識を行う。この結果、第２音声認識処理部１１１は、高い類似度、例えば「８５％」を算出し、判断部１１８は当該認識結果を最終的な認識結果として採用することになる。

以上のように、変形例２では、それぞれの音声認識処理部の認識能力を異ならせ、さらに各音声認識処理部のＲＡＭに格納する待ち受け単語の全てもしくは一部を共通なものとすることとした。これにより、各音声認識の認識能力により、どちらか一方の音声認識処理部が高い類似度を算出することができなかった場合でも、他方が高い類似度を算出することができれば、最終的な音声認識結果を決定することができる。その結果、音声認識装置全体として、認識精度を向上することができる。

なお、それぞれの音声認識処理部の認識能力が同一の場合でも、ＣＰＵの負荷により実質的な認識能力が相違することもある。この場合においても、変形例２のように各音声認識処理部のＲＡＭに格納する待ち受け単語の全てもしくは一部を共通なものとすれば、同様の効果が得られる。

―変形例３−
変形例１および２のように、第１音声認識処理部１０３と第２音声認識処理部１１１の認識能力が異なる場合においては、第１の実施の形態における図２のステップＳ５０およびＳ８０で使用される基準値は、一義的に設定することができない。このため、各音声認識処理部の処理能力に応じた基準値を設定する必要がある。変形例３においては、変形例２と同様に各音声認識処理部のＲＡＭには、全てもしくは一部が共通な待ち受け単語を記憶しておく。そして、発話内容が正常認識されたときの各音声認識処理部によって算出された同一の待ち受け単語の類似度に基づいて基準値を設定する。以下、詳細に説明する。

一般に、発話内容が正常認識されたか否かは、認識結果に対する発話者の応答から判断する。例えば、認識結果がスピーカー１０２を介して発話者に通知されたとき、誤認識が発生したと発話者が判断した場合には、発話者は不図示の操作スイッチを操作して一旦発話を取り消し、再度発話を行おうとする。よって、認識結果通知後の発話者による操作スイッチの操作を監視することにより、発話内容が正常認識されたか、あるいは誤認識であったかを判定することができる。

また、各音声認識処理部で待ち受ける待ち受け単語の全てもしくは一部を共通なものにしておくことにより、発話者からの発話内容に対する同じ待ち受け単語の類似度をそれぞれの音声認識処理部にて算出することができる。よって、各音声認識処理部の認識能力が異なる場合において、同一の発話内容による同一待ち受け単語の類似度を算出することが可能となる。

そこで、各音声認識処理部で待ち受ける待ち受け単語の全てもしくは一部を共通なものにしておき、認識結果通知後の発話者による操作スイッチの操作を監視する。そして、発話内容が正常認識されたときの待ち受け単語の類似度を、正常認識時の類似度としてその履歴を記憶しておく。この正常認識時の類似度の履歴から、正常認識時の平均類似度を算出することにより、各音声認識処理部における同一待ち受け単語の正常認識時の平均類似度を把握することができる。当該同一待ち受け単語の平均類似度に基づいてそれぞれの音声認識処理部ごとに基準値を設定することにより、基準値の精度を向上することができる。

例えば、各音声認識処理部に共通の待ち受け単語「現在地」を格納しておく。そして、発話者が「現在地」と発話したときの、第１音声認識処理部１０３における待ち受け単語「現在地」の平均類似度が「８３％」であり、第２音声認識処理部１１１における待ち受け単語「現在地」の平均類似度が「９３％」であったとする。この場合、第１音声認識処理部１０３と第２音声認識処理部１１１とは認識能力が異なるため、発話者が発話した同一の発話内容について音声認識を行っているにも関わらず、上記のように平均類似度に差が生じている。

このとき、それぞれの平均類似度に基づいて図２のステップＳ５０およびＳ８０で使用される基準値をあらかじめ設定する場合について考える。上記の場合に、第１音声認識処理部１０３、第２音声認識処理部１１１に共通で基準値を設定しようとすると、第１音声認識処理部１１１による低い方の平均類似度に合わせて、例えば「８０％」と設定される。しかし、この場合は、第２音声認識処理部１１１の認識精度が低下してしまう恐れがある。例えば本来であれば第２音声認識処理部１１１は９０％以上の類似度がないと認識結果の正確性を確保できないものとする。このときに上記のように第１音声認識処理部１０３に合わせて基準値を「８０％」と設定してしまうと、後の音声認識において、誤認識を生じる可能性があるためである。

このような場合には、同一の発話内容による同一待ち受け単語の平均類似度に基づいて、音声認識処理部の認識率に合った基準値を各音声認識処理部ごとに設定することにより、認識精度を向上することができる。例えば上記の例によれば、第１音声認識処理部１０３における基準値は「８０％」とし、第２音声認識処理部１１１における基準値は「９０％」と設定することができる。

なお、上記にてそれぞれの平均類似度が「８３％」、「９３％」であるにも関わらず、基準値を「８０％」、「９０％」としたのは、さらに精度を向上するために、平均値を構成する個々の類似度のバラツキを考慮したことによる。バラツキを考慮した基準値は、例えば、正常認識時の類似度の平均値にその標準偏差を考慮に入れて基準値を算出することにより設定することができる。このように、正常認識時の平均類似度と、当該平均類似度を構成する個々の類似度の履歴におけるバラツキを考慮に入れて基準値を設定することにより、さらに精度の高い基準値を設定することができる。ここでは、標準偏差を算出する方法について説明したが、その他のアルゴリズムでバラツキを考慮した基準値を設定してもよい。

以上のように、第３の変形例では、各音声認識処理部に格納する待ち受け単語の一部、または全部を共通なものにするようにし、共通の待ち受け単語についてそれぞれの音声認識処理部で類似度を算出するようにした。また、認識結果通知後の発話者の応答を監視することにより、認識結果が正常認識であったか、あるいは誤認識であったかを判断することとし、正常認識であった場合の平均類似度に基づいて基準値を設定することとした。これにより、各音声認識処理部の認識能力に合った基準値を精度良く設定することができる。さらに、基準値を設定する際に、平均類似度を構成する個々の類似度の履歴におけるバラツキを考慮に入れることにより、さらに精度の高い基準値を設定することが可能となる。

なお、以下のように変形することもできる。
（１）上記の説明においては、最終的な認識結果を決定するに当たって、まず第１音声認識処理部１０３による音声認識結果の類似度が基準値以上であるかを判断部１１０にて判定した。そして、第１音声認識処理部１０３の認識結果が基準値未満であれば第２音声認識処理部１１１による認識結果の類似度が基準値以上であるかを判断部１１８にて判定した。しかし、第１音声認識処理部１０３による音声認識結果の類似度と第２音声認識処理部１１１による認識結果の類似度とを得た後、双方の類似度に基づいて最終的な認識結果を決定してもよい。例えば、双方の類似度のうち大きい方を抽出し、抽出した類似度を基準値と比較することにより最終的な認識結果を決定してもよい。

（２）判断部１１０および１１８は、第１音声認識処理部１０３と第２音声認識処理部１１１とにそれぞれ備えられているが、第１音声認識処理部１０３と第２音声認識処理部１１１に共通で１つ備えてもよい。この場合、１つの判断部が第１音声認識処理部１０３および第２音声認識処理部１１１の認識結果のどちらを最終的な判断結果とするかを判定することとなる。

（３）第１音声認識処理部１０３および第２音声認識処理部１１１において音声認識処理を行う際のアルゴリズム、すなわちＲＯＭ１０７とＲＯＭ１１５に格納された制御プログラムは、それぞれ同一であっても異なるものであってもよい。

（４）上記の説明においては、音声認識装置１００内に、第１音声認識処理部１０３と第２音声認識処理部１１１の２つの音声認識処理部を縦列に接続する構成について説明したが、音声認識装置内に音声認識処理部を３つ以上縦列に接続してもよい。また、音声認識処理部を必要に応じて追加および削除可能な構成にしておいてもよい。

（５）各音声認識処理部において音声認識を行う際に、発話内容との類似度が最大の待ち受け単語を抽出することとしたが、その他のアルゴリズムにより待ち受け単語の抽出処理を行っても良い。

特許請求の範囲の構成要素と実施の形態との対応関係について説明する。マイク１０１は音声入力手段に、第１音声認識処理部１０３および第２音声認識処理部１１１は音声認識処理手段に相当する。判定部１１０および判定部１１８は認識結果決定手段に、ＲＡＭ１０８およびＲＡＭ１１６は待ち受け単語格納手段に相当する。なお、本発明の特徴的な機能を損なわない限り、本発明は、上述した実施の形態における構成に何ら限定されない。

本発明による音声認識装置の一実施の形態を示すブロック図である。本実施の形態における音声認識処理を示すフローチャート図である。発話内容に対する待ち受け単語の類似度の例を示した図である。

符号の説明

１００音声認識装置
１０１マイク
１０２スピーカー
１０３第１音声認識処理部
１０４，１１２アンプ
１０５、１１３Ａ／Ｄコンバータ
１０６、１１４Ｄ／Ａコンバータ
１０９、１１７ＣＰＵ
１１０，１１８判断部
１１１第２音声認識処理部

Claims

音声入力手段を介して入力した発話者の発話内容を認識する複数の音声認識処理手段と、
前記複数の音声認識処理手段の認識結果のそれぞれが正しいか否かを判断する判断手段と、
前記判断手段によって正しいと判定された認識結果の中から、所定の条件に基づいて最終的な認識結果を決定する認識結果決定手段とを有することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、
前記複数の音声認識処理手段は縦列に接続され、
前記判断手段は、一の音声認識処理手段による認識結果が誤認識もしくは認識不能であると判断した場合には、他の音声認識処理手段による認識結果が正しいかを判定することにより、最終的な音声認識結果を得ることを特徴とする音声認識装置。
請求項１または２に記載の音声認識装置において、
前記複数の音声認識処理手段ごとに音声認識用の待ち受け単語を格納する待ち受け単語格納手段をさらに有し、
前記待ち受け単語は、必要とされる認識率に基づいて前記複数の音声認識処理手段ごとの待ち受け単語格納手段に格納されることを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、
前記複数の音声認識処理手段ごとの待ち受け単語格納手段は、全ての待ち受け単語格納手段に共通する待ち受け単語を少なくとも１つ格納していることを特徴とする音声認識装置。