JP2010128015A

JP2010128015A - 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム

Info

Publication number: JP2010128015A
Application number: JP2008300021A
Authority: JP
Inventors: Iko Terasawa; 位好寺澤; Kinichi Wada; 錦一和田; Hiroaki Sekiyama; 博昭関山; Toshiyuki Nanba; 利行難波; Keisuke Okamoto; 圭介岡本
Original assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2008-11-25
Filing date: 2008-11-25
Publication date: 2010-06-10

Abstract

【課題】音声認識結果が誤認識か否かを判定する音声認識の誤認識判定装置を提供する。
【解決手段】音声認識の誤認識判定装置は、音声データと音声コマンド辞書２１とに基いて音声コマンドを認識する音声認識部１２と、音声認識部１２による認識結果に対する応答処理を実行する認識結果応答部と、応答処理後一定時間内にユーザの顔画像データを取得する顔画像取得部１５と、発声データを取得する発声データ取得部１６と、顔画像取得部１５により取得された顔画像データに基いて予め定めた表情及び頭部動作を画像認識する顔画像認識部１７と、発声データ取得部１６により取得された発声データと無意識発話辞書２２とに基いて無意識発話を認識する無意識発話認識部１８と、顔画像認識部１７により予め定めた表情か頭部動作が認識された場合又は無意識発話認識部１８により無意識発話が認識された場合に認識結果が誤認識と判定する誤認識判定部１９とを備えている。
【選択図】図１

Description

本発明は、ユーザが発声した音声の認識が誤認識か否かを判定する音声認識の誤認識判定装置及び音声認識の誤認識判定プログラムに関する。

従来、様々な分野において、ユーザが発声した音声を認識し、その認識結果に応じて機器を動作させる音声認識装置が用いられている。このような音声認識装置では、音声認識が正しく行われないと、ユーザが意図していない誤認識による機器動作が行われ、ユーザは不快感を覚える場合がある。

このような場合に、音声認識が正しく行われなかったことを、誤認識による機器動作を取り消すための機器動作などのユーザの応答によって判定し、その際にユーザに不快感を与えない処置を講ずる音声認識装置（例えば、特許文献１参照。）が提案されている。

また、コマンド間違いなど、ユーザが誤操作を行った場合の無意識発話から誤操作を認識し、適切な応答を返す無意識発話による制御装置（例えば、特許文献２参照。）も提案されている。
特開２００１−２２８８９４号公報特開平５−１６５６００号公報

しかしながら、特許文献１の音声認識装置では、音声認識の誤りをユーザの機器操作の反応によって判定している。従って、ユーザによる機器操作が行われた後に判定を行うため、取り消し作業などが煩わしくなる。さらに、ユーザによる取り消し機器操作が行われるまで判定を待つ必要があり、時間がかるという問題点もある。

また、特許文献２の無意識発話による制御装置では、ユーザ自身のエラーを対象としており、装置側のエラーへの対応は不十分である。また、無意識発話という音声だけを対象としており、エラーの検出精度にも問題点がある。

このように音声認識装置では、誤認識は避けることができない。通常ユーザは、自分が入力した音声と異なる結果が出力された場合（例えば、入力「アバトン」に対して、出力「甘党（あまとう）」）、無意識に何らかの反応を見せる。具体的には、入力と著しく結果が異なった場合の「笑い（苦笑）」や「驚き」、何度も誤認識して目的が達成できないときの「怒り」、「落胆」、「あきれ」、「悲しみ」などの表情を見せたりする。さらに、首をかしげたり、首を振ったり、のけぞったりする頭部のジェスチャ動作をしたり、「えっ」、「うそ」、「何で」などの発声を無意識にしてしまうことがある
本発明は、上記問題点を解決するために成されたものであり、ユーザ発話の音声認識結果が誤りである場合のユーザの反応に着目し、誤認識か否かを精度よく判定する音声認識の誤認識判定装置及び音声認識の誤認識判定プログラムを提供することを目的とする。

上記目的を達成するために、請求項１記載の音声認識の誤認識判定装置は、ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段と、前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段と、前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段と、前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段と、前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段と、前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段と、前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段と、を備えている。

請求項１記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。

請求項２記載の音声認識の誤認識判定装置は、請求項１記載の音声認識の誤認識判定装置において、前記認識結果応答手段は、前記音声コマンド認識手段による認識結果を出力する認識結果出力手段、及び、前記音声コマンド認識手段による認識結果に対応して機器を動作させる機器動作手段の少なくとも何れか一方である。

請求項２記載の発明によれば、ユーザ発話の認識結果に対応した認識結果の出力又は機器動作に対してユーザが見せる反応に基づいて、音声認識結果の誤認識を判定することができる。

請求項３記載の音声認識の誤認識判定装置は、請求項１又は請求項２記載の音声認識の誤認識判定装置において、前記誤認識判定手段により前記音声コマンド認識手段による認識結果が誤認識と判定された場合に、前記機器動作手段による機器の動作を停止する機器動作制御手段を、更に備えている。

請求項３記載の発明によれば、ユーザ発話の認識結果が誤認識と判定された場合に、誤認識に基づく機器動作を停止することができる。

請求項４記載の音声認識の誤認識判定装置は、請求項１から請求項３の何れか１項記載の音声認識の誤認識判定装置において、前記予め定めた表情は笑い、驚き、怒り、落胆、あきれ、悲しみなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す表情であり、前記予め定めた頭部動作は首かしげ、首振り、のけぞりなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す動作である。

請求項４記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対して、ユーザが見せる表情及び頭部動作については、笑い、驚き、怒り、落胆、あきれ、悲しみなどの表情を見せたとき、又は首かしげ、首振り、のけぞりなどの頭部動作をしたときに認識結果が誤認識と判定することができる。

請求項５記載の音声認識の誤認識判定プログラムは、コンピュータを、請求項１から請求項４の何れか１項記載の音声認識の誤認識判定装置を構成する各手段として機能させる。

請求項５記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。

請求項６記載の音声認識の誤認識判定プログラムは、コンピュータを、ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段、前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段、前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段、前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段、前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段、前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段、及び前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段、として機能させる。

請求項６記載の発明によれば、ユーザ発話の認識結果に対応した応答処理に対してユーザが見せる表情や頭部動作又は無意識発話に基づいて、音声認識結果の誤認識を判定することができる。

以上説明したように、本発明によれば、ユーザ発話の音声認識結果が誤りであるか否かを精度よく判定することができるという効果が得られる。

以下、本発明の実施の形態について図面を参照しながら詳細に説明する。本実施の形態では、音声認識機能を持つ車両用カーナビゲーションシステム（以下、「ナビ」という。）に本発明に係る音声認識の誤認識判定装置を用いた場合の機器操作に関して説明する。なお、本発明は、上述の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。

図１は、本発明の実施の形態に係る音声認識の誤認識判定装置の構成を示すブロック図である。同図に示すように、音声認識の誤認識判定装置は、音声データ入力部１１と、音声認識部１２と、コマンド実行部１３と、認識結果出力部１４と、顔画像取得部１５と、発声データ取得部１６と、顔画像認識部１７と、無意識発話認識部１８と、音声コマンド辞書２１と、無意識発話辞書２２と、を備えている。

音声データ入力部１１は、マイクを含んで構成され、音声コマンド実行のために入力されるユーザの音声データを受理する。

音声認識部１２は、音声データ入力部１１により入力された音声データを音声コマンド辞書２１を用いて音声認識する。

コマンド実行部１３は、音声認識部１２により認識された音声コマンドを実行して機器操作を行う。

認識結果出力部１４は、スピーカを含んで構成され、音声認識部１２により認識された音声コマンドに基づくメッセージをスピーカから音声出力する。また、認識結果出力部１４は、メッセージを音声出力ではなく、ナビの地図表示画面に文字表示しても、或いは、両方同時に行ってもよい。

顔画像取得部１５は、ＣＣＤカメラを含んで構成され、コマンド実行部１３による音声コマンドの実行および認識結果出力部１４によるメッセージの出力が行われた後の一定時間、ユーザの顔画像データを取得する。

発声データ取得部１６は、マイクを含んで構成され、コマンド実行部１３による音声コマンドの実行および認識結果出力部１４によるメッセージの出力が行われた後の一定時間、ユーザが発声する音声データを取得する。

顔画像認識部１７は、顔画像取得部１５により取得されたユーザの顔画像データに対して画像認識を行い、「笑い」、「驚き」、「怒り」、「落胆」、「あきれ」、「悲しみ」などの表情、及び、「首かしげ」、「首振り」、「のけぞり」などの頭部ジェスチャの何れかが認識された場合に誤認識と判定する。

無意識発話認識部１８は、発声データ取得部１６により取得された発声データを音声コマンド辞書２１及び無意識発話辞書２２を用いて音声認識し、無意識発話辞書２２に登録された単語が１つ以上認識された場合に誤認識と判定する。

誤認識判定部１９は、顔画像認識部１７及び無意識発話認識部１８の判定結果に基づいて、音声認識部１２による認識結果が誤認識であったか否かを判定する。本実施の形態では、誤認識判定部１９は、顔画像認識部１７及び無意識発話認識部１８の何れか一方でも誤認識と判定した場合には誤認識と判定する。

音声コマンド辞書２１は、ナビの音声コマンドとその読みとが対で登録された辞書である。図２は、音声コマンド辞書２１の一例を示す。

無意識発話辞書２２は、ユーザが発した音声コマンドが誤認識されたと分かったときに無意識に発すると考えられる発話とその読みとが対で登録された辞書である。無意識発話辞書２２は、別途実施する音声認識実験などで音声入力に対し誤認識をわざと生じさせ、誤認識直後のユーザの発話を収集するなどして予め作成しておけばよい。図３は、無意識発話辞書２２の一例を示す。

以上のように構成された音声認識の誤認識判定装置は、ユーザにより入力された音声コマンドの認識結果に対するユーザの反応に基づいて、認識結果が誤認識か否かを判定する。図４は、音声認識の誤認識判定装置の作用の流れを示すフローチャートである。

ステップ１００では、音声データ入力部１１が、ユーザがナビの操作のために発したコマンド発話を受理する。本実施例では、ナビの地図画面にコンビニエンスストアのアイコンを表示するために「コンビニ表示」と入力されたとする。

ステップ１０２では、音声認識部１２が、音声データ入力部１１が受理した音声データを音声コマンド辞書２１を用いて音声認識する。本実施例では、音声認識部１２が、入力された音声データに対し、音声コマンド辞書２１に登録された音声コマンドの中から「２画面表示」と誤認識したとする。

ステップ１０４では、コマンド実行部１３が音声認識部１２により認識された音声コマンドを実行すると共に、認識結果出力部１４が認識された音声コマンドに基づいてメッセージを出力する。本実施例では、コマンド実行部１３は、認識結果に基づいて、ナビの地図画面表示を２画面分割する機器操作コマンドを実行する。また、認識結果出力部１４は、認識結果に基づいて、「２画面表示にします」とスピーカを用いて音声出力する。認識結果出力部１４による出力は、音声出力に限らず、ナビの画面に文字出力してもよい。

ステップ１０６では、コマンド実行部１３による機器操作コマンドの実行及び認識結果出力部１４にいる認識結果に基づくメッセージ出力がなされた後の一定時間において、顔画像取得部１５がユーザの顔画像データを取得すると共に、発声データ取得部１６がユーザが発声する音声データを取得する。顔画像データ及び音声データを取得する時間は、コマンド実行及びメッセージ出力により認識結果が誤認識と分かったときの反応を捉えるための時間として、本実施の形態では５秒とする。また、本実施例では、ユーザは「驚き」の表情をみせ、「何で」と発声したとする。

ステップ１０８では、顔画像認識部１７が、顔画像取得部１５が取得した顔画像データに対して画像認識を行い、「笑い」、「驚き」、「怒り」、「落胆」、「あきれ」「悲しみ」などの表情、及び、「首かしげ」、「首振り」、「のけぞり」などの頭部ジェスチャの何れか１つ以上が認識された場合に誤認識と判定する。本実施例では、驚きの表情が認識され、音声認識部１２による認識結果が誤認識と判定される。

ここで、表情の認識方法は、公知の如何なる方法でもよいが、例えば文献１（特開２００８−１４６３１８号「感情推定装置」）にあるような方法で行う。具体的には、予め認識対象とする各表情（笑い、驚き、怒り、落胆、あきれ、悲しみ、通常状態）をニューラルネットワークによって各表情の特徴量（表情マップ）を学習しておく。次に、ユーザ反応データとして顔画像取得部１５により取得された顔画像を加工処理したデータと上記表情マップとの類似度を算出し、最も類似度の高いものを表情認識結果として採用する。

また、頭部ジェスチャの認識方法も公知の如何なる方法でもよいが、例えば文献２（「対話ロボットの動作に頑健な頭部ジェスチャ認識」、電子情報通信学会論文誌Ｄ Vol.J89-D No.7 pp.1514-1522）にあるような方法で行う。具体的には、予め対象とする頭部ジェスチャ（首かしげ、首振り、のけぞり、通常状態）の顔画像データを多数収集しておき、各ジェスチャに対する顔画像の特徴点（目尻位置、鼻位置など）をＨＭＭ（Hidden Marcov Model）を用いてモデル化する。次に、ユーザ反応データとして顔画像取得部１５により取得された顔画像と前記ＨＭＭによるモデルとのマッチング度合いによって、頭部ジェスチャを決定する。

ステップ１１０では、無意識発話認識部１８が、発声データ取得部１６によりユーザの発声データが取得されたか否かを判定し、発声データが取得された場合にはステップ１１２に進み、発声データが取得されなかった場合にはステップ１１４に進む。

ステップ１１２では、無意識発話認識部１８が、発声データ取得部１６により取得されたユーザの発声データを音声コマンド辞書２１及び無意識発話辞書２２を用いて音声認識し、無意識発話辞書２２に登録された単語が１つ以上認識された場合に誤認識と判定する。本実施例では、無意識発話認識部１８が、上述の「何で」の発声に対し、音声コマンド「拡大」と認識したものとする。この場合、無意識発話は認識されなかったので、音声認識部１２による認識結果が正しいと判定される。

ステップ１１４では、誤認識判定部１９が、顔画像認識部１７及び無意識発話認識部１８の判定結果に基づいて、音声認識部１２による認識結果が誤認識であったか否かを判定する。本実施例では、顔画像認識部１７では誤認識と判定され、無意識発話認識部１８では正しいと判定されたため、音声認識部１２による認識結果は誤認識と判定される。

以上のように、本実施の形態に係る音声認識の誤認識判定装置は、音声入力に対する音声認識結果出力直後のユーザの反応から、認識結果が誤認識であるか否かを精度よく判定することができる。また、誤認識と判定した場合には、その後の対話処理をスムーズに進めることができる。

なお、本発明は、上述の実施の形態に限定されるものではなく、特許請求の範囲に記載された範囲内で設計上の変更をされたものにも適用可能である。

例えば、本実施の形態では、顔画像取得部１５及び顔画像認識部１７と、発声データ取得部１６及び無意識発話認識部１８との両方を用いているが、何れか一方のみを用いて判定してもよい。

また、誤認識判定部１９によりユーザのコマンド発話が誤認識されたと判定された場合には、誤認識に基づくコマンド操作を停止するように機器動作を制御する構成としてもよい。

本発明の実施の形態に係る音声認識の誤認識判定装置の構成を示すブロック図である音声コマンド辞書の構成例を示す図である。無意識発話辞書の構成例を示す図である。本発明の実施の形態に係る音声認識の誤認識判定装置の作用の流れを示すフローチャートである。

符号の説明

１１音声データ入力部
１２音声認識部
１３コマンド実行部
１４認識結果出力部
１５顔画像取得部
１６発声データ取得部
１７顔画像認識部
１８無意識発話認識部
１９誤認識判定部
２１音声コマンド辞書
２２無意識発話辞書

Claims

ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段と、
前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段と、
前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段と、
前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段と、
前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段と、
前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段と、
前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段と、
を備えた音声認識の誤認識判定装置。
前記認識結果応答手段は、前記音声コマンド認識手段による認識結果を出力する認識結果出力手段、及び、前記音声コマンド認識手段による認識結果に対応して機器を動作させる機器動作手段の少なくとも何れか一方である請求項１記載の誤認識判定装置。
前記誤認識判定手段により前記音声コマンド認識手段による認識結果が誤認識と判定された場合に、前記機器動作手段による機器の動作を停止する機器動作制御手段を、更に備えた請求項１又は請求項２記載の音声認識の誤認識判定装置。
前記予め定めた表情は笑い、驚き、怒り、落胆、あきれ、悲しみなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す表情であり、前記予め定めた頭部動作は首かしげ、首振り、のけぞりなどの前記音声コマンド認識手段が誤認識したときに前記ユーザが示す動作である請求項１から請求項３の何れか１項記載の音声認識の誤認識判定装置。
コンピュータを、請求項１から請求項４の何れか１項記載の音声認識の誤認識判定装置を構成する各手段として機能させるための音声認識の誤認識判定プログラム。
コンピュータを、
ユーザにより入力された音声データと、音声データに対応する音声コマンドを登録した音声コマンド辞書とに基づいて、入力された音声データに対応する音声コマンドを認識する音声コマンド認識手段、
前記音声コマンド認識手段による認識結果に対する応答処理を実行する認識結果応答手段、
前記認識結果応答手段による応答処理を実行した後、予め定めた時間内において、前記ユーザの顔画像データを取得する顔画像取得手段、
前記予め定めた時間内において、前記ユーザの発声データを取得する発声データ取得手段、
前記顔画像取得手段により取得された顔画像データに基づいて、予め定めた表情及び予め定めた頭部動作を画像認識する画像認識手段、
前記発声データ取得手段により取得された発声データと、発声データに対応する無意識発話を登録した無意識発話辞書とに基づいて、取得された発声データに対応する無意識発話を認識する無意識発話認識手段、及び
前記画像認識手段により前記予め定めた表情又は前記予め定めた頭部動作が認識された場合、又は、前記無意識発話認識手段により無意識発話が認識された場合に、前記音声コマンド認識手段による認識結果が誤認識と判定する誤認識判定手段、
として機能させるための音声認識の誤認識判定プログラム。