JP2010210756A

JP2010210756A - 音声認識装置

Info

Publication number: JP2010210756A
Application number: JP2009054740A
Authority: JP
Inventors: Hiroaki Sekiyama; 博昭関山; Toshiyuki Nanba; 利行難波; Yoshihiro Oe; 義博大栄; Naoki Miura; 直樹三浦; Kunio Yokoi; 邦雄横井; Osamu Iwata; 收岩田; Masahiro Kamiya; 昌宏神谷; Iko Terasawa; 位好寺澤; Kinichi Wada; 錦一和田; Tatsuyuki Oka; 達之岡
Original assignee: Denso Ten Ltd; Aisin AW Co Ltd; Denso Corp; Toyota Motor Corp; Toyota Central R&D Labs Inc
Current assignee: Denso Ten Ltd; Aisin AW Co Ltd; Denso Corp; Toyota Motor Corp; Toyota Central R&D Labs Inc
Priority date: 2009-03-09
Filing date: 2009-03-09
Publication date: 2010-09-24
Anticipated expiration: 2029-03-09
Also published as: JP5173895B2

Abstract

【課題】本発明は、誤認識を繰り返すことを抑制する音声認識装置を提供することを課題とする。
【解決手段】音声認識辞書に収録されている単語に基づいてユーザが発声した音声を認識する音声認識装置であって、誤認識が発生した場合、ユーザが音声認識辞書に収録されていない単語を発声したと判断し、ユーザに対して言い換えを促すことを特徴とし、さらに、誤認識が発生した場合にはユーザに対して第２候補の単語を提示するようにしてもよい。
【選択図】図２

Description

本発明は、音声認識装置に関する。

音声認識装置は、カーナビゲーションの目的地検索などの様々な分野で利用されている。音声認識装置では、一般に、音声認識辞書に収録される各単語のパターンとユーザが発声した音声（単語）のパターンとのマッチングを行い、その一致度の高い単語をユーザの発声した単語として認識する。このような音声認識では誤認識が発生する場合があるが、誤認識する毎にユーザに対するガイダンスが一律（例えば、「もう一度お話ください。」）だと、ユーザとの間で同じやりとりを繰り返すことになる。そのため、誤認識の要因を特定しないと、誤認識を何時までも繰り返す。そこで、特許文献１に記載の装置では、誤認識の要因（音声パワー、音声話速、音響特性、周辺雑音）を特定し、その要因をユーザに提示する。さらに、要因を提示後も誤認識が発生し、今回の誤認識の要因と前回の誤認識の要因が同じ場合、２番目の要因をユーザに提示する。

特開２００４−３２５６３５号公報特開平１０−１３３８４９号公報特開２００７−２６４１２６号公報

誤認識の要因としては、上記に示したもの以外にも、音声認識辞書に収録されている単語以外の単語をユーザが使用している場合がある。この場合、上記の装置のようにユーザに対して要因を提示し、ユーザがその要因に注意しながら同じ単語を使用して再度発声しても、装置ではその発声した音声（単語）を正しく認識できず、誤認識を繰り返す。

そこで、本発明は、誤認識を繰り返すことを抑制する音声認識装置を提供することを課題とする。

本発明に係る音声認識装置は、音声認識辞書に収録されている単語に基づいてユーザが発声した音声を認識する音声認識装置であって、誤認識が発生した場合、ユーザが音声認識辞書に収録されていない単語を発声したと判断し、ユーザに対して言い換えを促すことを特徴とする。

この音声認識装置では、音声認識辞書に単語が収録されており、この収録されている単語のデータに基づいてユーザが発した音声（単語）を認識する。誤認識が発生した場合、音声認識装置では、ユーザが音声認識辞書に収録されていない単語を発声したと判断する。ユーザが音声認識辞書に収録されていない単語を発声している限り、音声認識装置ではその単語を正しく認識することはできないので、ユーザに異なる単語を使用して発声してもらう必要がある。そこで、音声認識装置では、音声認識辞書に収録されている単語をユーザに使用させるために、ユーザに対して異なる単語への言い換えを促す。これによって言い換えられた単語が音声認識辞書に収録されていれば、音声認識装置ではその単語を正しく認識することができる。このように、音声認識装置では、誤認識が発生した場合にはユーザに言い換えを促すことにより、誤認識を繰り返すことを抑制することができる。その結果、ユーザの音声認識装置への信頼性を向上させることができる。

本発明の上記音声認識装置では、誤認識が発生した場合、ユーザに対して第２候補の単語を提示する構成としてもよい。

この音声認識装置では、音声認識辞書に収録される各単語とユーザが発声した音声（単語）との一致度を順次求め、最初に、ユーザに対して第１候補の単語（一致度の最も高い単語）を提示する。この第１候補の単語で誤認識が発生した場合、音声認識装置では、ユーザに対して、第２候補の単語（一致度が次に高い単語）を提示する。これによって第２候補の単語がユーザが発声した単語であれば、音声認識装置ではその単語を正しく認識できたことになる。このように、音声認識装置では、誤認識が発生した場合には第２候補の単語もユーザに提示することにより、誤認識を繰り返すことを更に抑制することができる。

本発明は、誤認識が発生した場合にはユーザに言い換えを促すことにより、誤認識を繰り返すことを抑制することができる。

本実施の形態に係る音声認識装置の構成図である。本実施の形態に係る音声認識装置とユーザとのやりとりの一例を示すフローチャートである。本実施の形態に係る音声認識装置とユーザとのやりとりの他の例を示すフローチャートである。

以下、図面を参照して、本発明に係る音声認識装置の実施の形態を説明する。

本実施の形態では、本発明に係る音声認識装置を、車両に搭載される音声認識装置に適用する。本実施の形態に係る音声認識装置は、車両に搭載されるナビゲーション装置、エアコン装置、オーディオ装置などにおける各種設定操作に利用され、各種設定操作中にユーザ（運転者など）が発声した音声（単語）を認識し、正しく認識できた音声（単語）を各装置に出力する。

図１を参照して、本実施の形態に係る音声認識装置１について説明する。図１は、本実施の形態に係る音声認識装置の構成図である。

音声認識装置１は、音声認識辞書３１に収録されている単語のデータに基づいてユーザが発声した音声（単語）を認識し、その認識結果がユーザとの対話から誤認識か否かを判断する。特に、音声認識装置１では、誤認識と判断した場合、誤認識を繰り返すことを防止するために、ユーザに対するガイダンスを順次変える。そのために、音声認識装置１は、マイクロフォン１０、スピーカ２０、ＥＣＵ[Electronic Control Unit]３０を備えている。

マイクロフォン１０は、車室内（特に、前席周辺）に取り付けられ、空気の振動からなる音（特に、ユーザが発声した音声）を集音する。マイクロフォン１０では、音が入力されるとその音を電気信号に変換し、その電気信号を入力音声信号としてＥＣＵ３０に送信する。

スピーカ２０は、他のシステムと共用される車載スピーカである。スピーカ２０では、ＥＣＵ３０からガイダンス信号を受信すると、そのガイダンス信号に応じて音声を出力する。

ＥＣＵ３０は、ＣＰＵ[CentralProcessing Unit]、ＲＯＭ[Read Only Memory]、ＲＡＭ[Random Access Memory]などからなる電子制御ユニットであり、音声認識装置１を統括制御する。ＥＣＵ３０では、マイクロフォン１０から入力音声信号を受信する。車両の各装置での設定操作中に入力音声信号を受信すると、ＥＣＵ３０では、音声認識辞書３１を参照して、音声認識エンジン３２でユーザが発声した音声（単語）を認識する。ユーザとの対話中、ＥＣＵ３０では、音声認識エンジン３２での認識結果に基づいて、対話エンジン３３でガイダンスの内容を設定し、ガイダンス信号をスピーカ２０に送信する。特に、誤認識と判断した場合、ＥＣＵ３０では、対話エンジン３３でユーザに対する再音声入力時の注意点を考慮したガイダンスの内容を設定する。また、正しい認識と判断した場合、ＥＣＵ３０では、正しい認識の単語の情報からなる認識情報信号を設定操作中の装置に送信する。

音声認識辞書３１は、ＥＣＵ３０の記憶装置の所定の領域に設けられる。音声認識辞書３１には、車両の各装置における各種設定で使用される可能性がある多数の単語を収録しており、各単語についてのパターンデータ（例えば、周波数特性のパターン）を収録している。

音声認識エンジン３２では、車両の各装置での各種設定操作中に入力音声信号を受信する毎に、マイクロフォン１０に入力された音声（電気信号）に対して周波数解析を行い、その入力音声を周波数特性のパターンに変換する。そして、音声認識エンジン３２では、音声認識辞書３１に収録されている単語毎に、その入力音声の周波数特性のパターンと収録単語のパターンとのマッチングを行い、一致度を算出する。さらに、音声認識エンジン３２では、各単語の一致度が閾値以上か否かを判定し、一致度が閾値以上の単語がない場合には認識エラーと判断し、一致度が閾値以上の単語がある場合には一致度の高い順に認識した単語の候補とする。

対話エンジン３３では、音声認識エンジン３２で認識エラーと判断した場合、ユーザに再音声入力を促すためのガイダンスの内容（例えば、「もう一度、はっきりとお話ください。」）を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。

対話エンジン３３では、一致度が閾値以上の単語がある場合、まず、１番目の候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。１番目の候補の単語での認識結果を提示した後に、音声認識エンジン３２でユーザから応答として肯定的な単語（例えば、「はい」）を認識した場合、対話エンジン３３では、１番目の候補の単語での認識が正しい認識と判断する。この際、ＥＣＵ３０では、設定操作中の装置に、１番目の候補の単語の情報を認識情報信号として送信する。

候補の単語での認識結果を提示した後に、音声認識エンジン３２でユーザから応答として否定的な単語（例えば、「いいえ」）を認識した場合、対話エンジン３３では、その認識結果が誤認識と判断する。この際、誤認識の要因は不明であるので、誤認識の要因と考えられるものから順にユーザに提示する。誤認識の要因としては、声が大きい、声が小さい、話すタイミングが早い、話す速さが速い、音声認識辞書３１に収録されていない単語の入力、ユーザ固有の特性（そもそも認識し難い、語尾が小さくなるなど）、マイクロフォン１０が使用不可状態（タイムアウトなど）などが考えられる。そこで、対話エンジン３３では、誤認識の各要因に注意して再音声入力させるためのガイダンスの内容を順に設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。例えば、「もう一度、大きい声でお話ください。」、「もう一度、ゆっくりとお話ください。」、「言い方（あるいは、単語）を変えてお話ください。」の順に提示する。この際、前回のガイダンス内容を記憶しておき、再度、同じ内容のガイダンスを提示しないようにする。なお、誤認識の要因を考慮したガイダンスの提示順序は、予め決められていてもよいし、あるいは、ユーザやそのときの状況などによって決めてもよい。

誤認識の各要因に注意して再音声入力させるためのガイダンスを提示した後に、音声認識エンジン３２でユーザからの応答として前回の認識結果と同じ単語を再度認識した場合、対話エンジン３３では、誤認識の要因が声の大きさ、話すタイミングや速さではないと判断する。この際、認識結果として２番目の候補の単語がある場合、対話エンジン３３では、２番目の候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。２番目の候補の単語での認識結果を提示した後に、音声認識エンジン３２でユーザから応答として肯定的な単語を認識した場合、対話エンジン３３では、２番目の候補の単語での認識が正しい認識と判断する。この際、ＥＣＵ３０では、設定操作中の装置に、２番目の候補の単語の情報を認識情報信号として送信する。なお、２番目の候補の単語での認識結果も否定された場合、３番目以降の候補もあるときには、３番目以降の候補を用いて同様のガイダンスを行う。

一方、誤認識の要因が声の大きさ、話すタイミングや速さではないと判断し、認識結果として候補の単語がなくなった場合、対話エンジン３３では、誤認識の要因として音声認識辞書３１に収録されていない単語をユーザが使用していると判断する。そして、対話エンジン３３では、言い方（あるいは、単語）を変えて再音声入力させるためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。

言い方を変えて再音声入力させるためのガイダンスを提示した後に、音声認識エンジン３２でユーザからの応答として前回の認識結果と異なる候補の単語を認識した場合、対話エンジン３３では、その前回と異なる候補の単語での認識結果を提示するためのガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する。前回と異なる候補の単語での認識結果を提示した後に、音声認識エンジン３２でユーザから応答として肯定的な単語を認識した場合、対話エンジン３３では、その候補の単語での認識が正しい認識と判断する。この際、ＥＣＵ３０では、設定操作中の装置に、その候補の単語の情報を認識情報信号として送信する。なお、認識結果を提示した後に、音声認識エンジン３２でユーザから応答として否定的な単語を認識した場合、再度、言い方を変えて再音声入力させるためのガイダンスを行う。

なお、対話エンジン３３で用いる各状況（例えば、認識エラーと判断した場合、各候補の単語での認識結果を提示する場合、誤認識と判断したときに声の大きさ、話すタイミング、話す速さなどを変えることを促す場合、誤認識と判断したときに言い方や単語を変えることを促す場合）に応じたガイダンスの基本文章は、予め用意され、ＥＣＵ３０の記憶装置の所定の領域に格納されている。

図１を参照して、音声認識によって設定操作中のユーザとやりとりを行う音声認識装置１における動作について説明する。ここでは、ユーザがナビゲーション装置における目的地設定（特に、目的地検索）を行っている場合を例に挙げて説明する。２つのケースについて説明し、１つ目のケースが認識結果として１番目の候補しかない場合（誤認識の要因として「カフェ」という単語が音声認識辞書３１に収録されていない場合）であり、２つ目のケースが認識結果として２番目の候補がある場合（誤認識の要因として「カフェ」という単語を２番目の候補として認識した場合）である。１つ目のケースについては図２のフローチャートに沿って説明し、２つの目のケースについては図３のフローチャートに沿って説明する。

１つ目のケースについて説明する。ユーザが、目的地を検索するために、「六本木のカフェ」と発声する（Ｓ１０）。この音声を集音すると、マイクロフォン１０では、電気信号に変換してＥＣＵ３０に入力音声信号として送信する。この入力音声信号を受信すると、ＥＣＵ３０の音声認識エンジン３２では、音声認識辞書３１に収録されている各単語のパターンデータと入力音声のパターンとのマッチングをそれぞれ行い、１番目の候補の単語として「六本木」と「パフェ」を認識する（Ｒ１０）。そして、対話エンジン３３では、この１番目の候補の単語の「六本木」と「パフェ」を用いて「六本木パフェで探しますか？」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する（Ｇ１０）。このガイダンス信号を受信すると、スピーカ２０では、このガイダンス信号に応じて「六本木パフェで探しますか？」という音声を出力する（Ｇ１０）。

この「六本木パフェで探しますか？」というガイダンスを聞いて、ユーザは、それを否定するために、「いいえ」と発声する（Ｓ１１）。この音声を集音すると、マイクロフォン１０では、上記と同様にＥＣＵ３０に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン３２では、上記同様にパターンマッチングを行い、「いいえ」を認識する（Ｒ１１）。そして、対話エンジン３３では、この「いいえ」という否定的な単語に基づいて、Ｒ１０で認識された「六本木」と「パフェ」が誤認識と判断する（Ｊ１１）。この際、誤認識の要因は不明であるので、対話エンジン３３では、ユーザに誤認識の要因に注意して再音声入力させるために、決められた順に従って、「声の大きさを変えてお話ください」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する（Ｇ１１）。このガイダンス信号を受信すると、スピーカ２０では、このガイダンス信号に応じて「声の大きさを変えてお話ください」という音声を出力する（Ｇ１１）。

この「声の大きさを変えてお話ください」というガイダンスを聞いて、ユーザは、再度、大きな声で、「六本木のカフェ」と発声する（Ｓ１２）。この音声を集音すると、マイクロフォン１０では、上記と同様にＥＣＵ３０に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン３２では、上記と同様にパターンマッチングを行い、再度、１番目の候補の単語として「六本木」と「パフェ」を認識する（Ｒ１２）。そして、対話エンジン３３では、今回の認識結果（「六本木」と「パフェ」）がＲ１０での前回の認識結果（「六本木」と「パフェ」）と同じであるため、誤認識と判断するとともに誤認識の要因が音声認識辞書３１に収録されていない単語の使用（声の大きさ、話すタイミングや速さではない）と推測する（Ｊ１２）。そこで、対話エンジン３３では、ユーザに言い方を変えて再音声入力させるために、「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する（Ｇ１２）。このガイダンス信号を受信すると、スピーカ２０では、このガイダンス信号に応じて「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」という音声を出力する（Ｇ１２）。

この「言い方を変えてお話ください。渋谷でラーメンが食べたいのように目的から探すことが出来ます」というガイダンスを聞いて、ユーザは、コーヒーを飲みたかったので、「六本木でコーヒーが飲みたい」と発声する（Ｓ１３）。この音声を集音すると、マイクロフォン１０では、上記と同様にＥＣＵ３０に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン３２では、上記と同様にパターンマッチングを行い、１番目の候補の単語として「六本木」と「コーヒー」を認識する（Ｒ１３）。そして、対話エンジン３３では、この１番目の候補の単語の「六本木」と「コーヒー」を用いて「六本木コーヒーで探しますか？」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する（Ｇ１３）。このガイダンス信号を受信すると、スピーカ２０では、このガイダンス信号に応じて「六本木コーヒーで探しますか？」という音声を出力する（Ｇ１３）。

この「六本木コーヒーで探しますか？」というガイダンスを聞いて、ユーザは、それを肯定するために、「はい」と発声する（Ｓ１４）。この音声を集音すると、マイクロフォン１０では、上記と同様にＥＣＵ３０に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン３２では、上記同様にパターンマッチングを行い、「はい」を認識する（Ｒ１４）。そして、対話エンジン３３では、この「はい」という肯定的な単語に基づいて、Ｒ１３で認識された「六本木」と「コーヒー」が正しい認識と判断する（Ｊ１４）。そして、ＥＣＵ３０では、音声認識結果として「六本木」と「コーヒー」を含む認識情報信号をナビゲーション装置に送信する。

２つ目のケースについて説明する。この２つ目のケースでは、音声認識エンジン３２での２回目の「六本木」と「パフェ」と認識するＲ２２までの動作は、１つ目のケースと同様の動作である。但し、音声認識エンジン３２では、認識結果として、１番目の候補の「パフェ」の次に２番目の候補として「カフェ」を認識している。

対話エンジン３３では、今回の認識結果（「六本木」と「パフェ」）がＲ２０での前回の認識結果（「六本木」と「パフェ」）と同じであるため、誤認識と判断する（Ｊ２２）。ここで、２番目の候補の単語として「カフェ」があるので、対話エンジン３３では、１番目の候補の「パフェ」を候補外とし、「六本木」と２番目の候補の単語の「カフェ」を用いて「六本木カフェで探しますか？」というガイダンスの内容を設定し、そのガイダンスを音声出力ためのガイダンス信号をスピーカ２０に送信する（Ｇ２２）。このガイダンス信号を受信すると、スピーカ２０では、このガイダンス信号に応じて「六本木カフェで探しますか？」という音声を出力する（Ｇ２２）。

この「六本木カフェで探しますか？」というガイダンスを聞いて、ユーザは、それを肯定するために、「はい」と発声する（Ｓ２３）。この音声を集音すると、マイクロフォン１０では、上記と同様にＥＣＵ３０に入力音声信号を送信する。この入力音声信号を受信すると、音声認識エンジン３２では、上記同様にパターンマッチングを行い、「はい」を認識する（Ｒ２３）。そして、対話エンジン３３では、この「はい」という肯定的な単語に基づいて、Ｒ２３で認識された「六本木」と２番目の候補の「カフェ」が正しい認識と判断する（Ｊ２３）。そして、ＥＣＵ３０では、音声認識結果として「六本木」と「カフェ」を含む認識情報信号をナビゲーション装置に送信する。

この音声認識装置１によれば、誤認識と判断し、誤認識の要因が特定できていない場合にはガイダンスの内容を順次変えることにより、誤認識の要因を考慮してユーザに再音声入力させることができ、誤認識を繰り返すことを抑制することができる。その結果、ユーザの音声認識装置への信頼性を向上させることができる。特に、音声認識装置１によれば、ユーザに言い換えを促すガイダンスを行うことにより、音声認識辞書３１に収録されていない単語を使用してユーザが音声入力したときでも、ユーザに前回とは異なる単語を使用して再音声入力させることができる。また、音声認識装置１によれば、２番目以降の候補の認識結果もある場合には２番目以降の候補の単語もユーザに順次提示することにより、誤認識を繰り返すことを更に抑制することができる。

以上、本発明に係る実施の形態について説明したが、本発明は上記実施の形態に限定されることなく様々な形態で実施される。

例えば、本実施の形態では車両に搭載される音声認識装置に適用したが、他の様々な分野に適用可能である。

また、本実施の形態では誤認識と判断した場合のガイダンスの内容や順序の一例を示したが、ガイダンスの内容や順序については特に限定するものではなく、誤認識の繰り返しを防止するための内容や順序であればよい。例えば、誤認識と判断した場合、声の大きさ、話すタイミングや速さなどを変えることを促すのではなく、最初から、言い方や単語を変えて話すことを促すようにしてもよい。

また、本実施の形態では認識結果として単語の候補が複数ある場合には１番目の候補の単語を誤認識と判断したときには２番目以降の候補の単語をユーザに提示する構成としたが、単語の候補が複数ある場合でも２番目以降の候補の単語をユーザに提示しない構成としてもよい。

１…音声認識装置、１０…マイクロフォン、２０…スピーカ、３０…ＥＣＵ、３１…音声認識辞書、３２…音声認識エンジン、３３…対話エンジン

Claims

音声認識辞書に収録されている単語に基づいてユーザが発声した音声を認識する音声認識装置であって、
誤認識が発生した場合、ユーザが音声認識辞書に収録されていない単語を発声したと判断し、ユーザに対して言い換えを促すことを特徴とする音声認識装置。
誤認識が発生した場合、ユーザに対して第２候補の単語を提示することを特徴とする請求項１に記載する音声認識装置。